JP2019207329A - 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法 - Google Patents

電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法 Download PDF

Info

Publication number
JP2019207329A
JP2019207329A JP2018102754A JP2018102754A JP2019207329A JP 2019207329 A JP2019207329 A JP 2019207329A JP 2018102754 A JP2018102754 A JP 2018102754A JP 2018102754 A JP2018102754 A JP 2018102754A JP 2019207329 A JP2019207329 A JP 2019207329A
Authority
JP
Japan
Prior art keywords
speech recognition
phoneme
phoneme sequence
speech
threshold
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018102754A
Other languages
English (en)
Other versions
JP7096707B2 (ja
Inventor
海光 桑村
Kaiko Kuwamura
海光 桑村
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Priority to JP2018102754A priority Critical patent/JP7096707B2/ja
Publication of JP2019207329A publication Critical patent/JP2019207329A/ja
Application granted granted Critical
Publication of JP7096707B2 publication Critical patent/JP7096707B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Machine Translation (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

【課題】音声を適切な位置で区切るとともに、装置の反応時間の遅れを抑制する。【解決手段】電子機器(100)に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識部(11)と、上記音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識部(12)と、少なくとも第1音声認識部(11)が認識する上記第1音素列、および第2音声認識部(12)が認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別部(13)と、を備え、上記第1音素列と上記第2音素列とは先頭が同じで上記末尾が異なる音素列である。【選択図】図1

Description

本発明は、電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法に関する。
特許文献1には、発話された音声に対応するテキストデータを処理単位に分割する処理単位分割装置が開示されている。この処理単位分割装置は、発話に応じたテキストの形態素列情報を受け付ける形態素列情報受付部を備える。
また、この装置は、教師テキストの教師形態素列情報および教師テキストの分割位置を示す教師分割情報を含む教師データを保持する教師データ記憶部、ポーズを検出するポーズ検出部を備える。
また、この装置は、分割位置の判断を行う判断形態素、判断形態素の直前の1以上の先行形態素、および判断形態素の直後の0以上の後続形態素を、判断形態素とポーズとの間の形態素数と、予め決められた後続形態素数との多くない方の数が後続形態素数となるように決定する決定部を備える。
さらに、この装置は、判断形態素、先行形態素、および後続形態素を用いて教師データの機械学習により判断形態素の位置が分割位置か判断して分割情報を構成する分割部、および分割情報を出力する出力部を備える。
特開2009−58671号公報(2009年3月19日公開)
しかしながら、上記従来技術は、ポーズ検出部が予め定められた時間の長さ以上の区間であるポーズを検出するようになっており、個々のユーザのポーズの時間が異なったり、1ユーザに対してその都度の発話で変わってきたりするポーズの時間に適切に対応できないという問題がある。また、上記従来技術では、ポーズの時間に適切に対応できないことにより、音声が不適切な位置で区切られたり、装置の反応時間が遅くなったりするという問題もある。
本発明の一態様は、上記問題点に鑑みて為されたものであり、その目的は、音声を適切な位置で区切るとともに、装置の反応時間の遅れを抑制することができる電子機器などを実現することにある。
上記の課題を解決するために、本発明の一態様に係る制御装置は、電子機器を制御する制御装置であって、上記電子機器に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識部と、上記音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識部と、少なくとも上記第1音声認識部が認識する上記第1音素列、および上記第2音声認識部が認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別部と、を備え、上記第1音素列と上記第2音素列とは先頭が同じで上記末尾が異なる音素列である構成である。
上記の課題を解決するために、本発明の一態様に係る電子機器は、少なくとも1つの制御装置を備えた電子機器であって、上記制御装置は、上記電子機器に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識処理と、上記音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識処理と、少なくとも上記第1音声認識処理で認識する上記第1音素列、および上記第2音声認識処理で認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別処理と、を行い、上記第1音素列と上記第2音素列とは先頭が同じで上記末尾が異なる音素列である構成である。
上記の課題を解決するために、本発明の一態様に係る制御方法は、少なくとも1つの制御装置を備えた電子機器の制御方法であって、上記電子機器に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識ステップと、上記音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識ステップと、少なくとも上記第1音声認識ステップで認識する上記第1音素列、および上記第2音声認識ステップで認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別ステップと、を含み、上記第1音素列と上記第2音素列とは先頭が同じで上記末尾が異なる音素列である方法である。
本発明の一態様によれば、音声を適切な位置で区切るとともに、装置の反応時間の遅れを抑制することができるという効果を奏する。
本発明の実施形態1〜3に係る電子機器の概要構成を示すブロック図である。 上記電子機器の動作の一例を示すフローチャートである。 上記電子機器の動作の別の例を示すフローチャートである。 上記電子機器の動作のさらに別の例を示すフローチャートである。 本発明の実施形態4に係る電子機器の概要構成を示すブロック図である。 上記電子機器の動作の一例を示すフローチャートである。
〔実施形態1〕
図1に示すように、本発明の実施形態1に係る電子機器100は、入力装置1、出力装置2、データベース3、および制御装置10を備える。入力装置1は、入力された音声を音声信号に変換して制御装置10に出力する。具体的には、入力装置1は、入力されたユーザの音声を音声信号に変換して、制御装置10に出力する。入力装置1としては、一般的なマイクなどを適用することができる。
出力装置2は、音声認識されたテキストデータを表示したり、音声に変換したりして出力する。出力装置2としては、例えば、表示装置や音声出力装置(例えば、スピーカ)などを適用することができる。
データベース3は、後述する制御装置10の第1音声認識部11および第2音声認識部12による音声認識処理において参照される、モデルデータおよびユーザ辞書を含んでいる。モデルデータは、音響モデルと、言語モデルとによって構成されている。
音響モデルは、認識対象となる音の単位(音素)がそれぞれどのような周波数特性を持っているかをモデル化したものである。音響モデルとしては、例えば、発話データの各部がどの音素に近いかを確率的に判定するための隠れマルコフモデルが用いられる。言語モデルは、単語の出現確率(単語出現率)がモデル化されたものであって、単語間や音素間の接続関係の規定や単語間の接続関係を規定する文法規則などを含む。
ユーザ辞書は、ユーザによって作成される単語辞書であって、言語モデルに含まれない単語を補足し、音声認識率を高めるために用いられる。ユーザ辞書は、会話キーワードに基づいて作成された辞書である。ユーザ辞書を構成する要素は、単語、読み、音素列などであり、音声認識に用いられる一般的なユーザ辞書と同様である。
制御装置10は、電子機器100による音声認識を統括的に制御するものであり、第1音声認識部11、第2音声認識部12、および認識結果判別部13を備える。なお、本実施形態では、制御装置10が2つの音声認識部を備えている形態について説明するが、後述する実施形態4のように、3つ以上の音声認識部を備えていても良い。
第1音声認識部11は、電子機器100の入力装置1に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間(ポーズ)が第1閾値を超えることにより特定する。また、第1音声認識部11は、上記第1音素列の上記末尾までの音声の音声認識を行う。ここで、無音時間とは、ある音素列と次の音素列との間において音声認識される程度の音が入力装置1に入力されない時間のことである。
第2音声認識部12は、電子機器100の入力装置1に入力された音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定する。また、第2音声認識部12は、上記第2音素列の上記末尾までの音声の音声認識を行う。なお、上記第1音素列と上記第2音素列とは先頭が同じで末尾が異なる音素列である。
認識結果判別部13は、所定の判断基準またはデータベース3に格納されている各種情報を用いて、少なくとも第1音声認識部11が認識する第1音素列、および第2音声認識部12が認識する第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する。ここで、所定の判断基準としては、例えば、認識された音素列が一文字、エラーまたはノイズであるか否かなどを例示することができる。
また、本発明の実施の一形態に係る電子機器100の制御方法は、以下の各ステップを含む。
(1)電子機器100に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識ステップ。
(2)電子機器100に入力された音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識ステップ。なお、上記第2音素列は、上記第1音素列と先頭が同じで末尾が異なる音素列である。
(3)少なくとも上記第1音声認識ステップで認識する上記第1音素列、および上記第2音声認識ステップで認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別ステップ。
上記構成または方法によれば、無音時間を判定する閾値の異なる少なくとも2つの第1音声認識部11および第2音声認識部12を用いて音声認識を行う。また、上記構成または方法によれば、少なくとも第1音声認識部11が認識する第1音素列、および第2音声認識部12が認識する第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する。このため、音声を適切な位置で区切ることが可能になる。また、少なくとも2つの第1音声認識部11および第2音声認識部12を並行して動作させるため、装置の反応時間の遅れを抑制することができる。以上により、音声を適切な位置で区切るとともに、装置の反応時間の遅れを抑制することができる。
次に、図2のフローチャートに基づき、電子機器100の動作の流れについて説明する。同図に示すように、ステップS101(以下、「ステップ」は省略する)では、制御装置10が、入力装置1に対する音声の入力を検出したか否かを確認する。この結果、入力装置1が音声の入力を検知しなかった場合(NO)、入力装置1は処理を終了する。一方、入力装置1が音声の入力を検知した場合は(YES)、S102に進む。
S102では、入力装置1が第1音声認識部11および第2音声認識部12のそれぞれに音声を入力し、それぞれの認識部を並行して動作させて、S103およびS105に進む。
S103では、第1音声認識部11が、無音時間が所定の値A(第1閾値;A<B)以下か否かを判定する。その結果、無音時間が値A以下の場合(YES)、音声(第1音素列)の入力が継続しているものとして、S102に戻る。このとき、第2音声認識部12(すなわち、S105以下の処理)もS102に戻り、S102において、同じ音声が第1音声認識部11および第2音声認識部12のそれぞれに音声が入力される。
一方、無音時間が値Aを超える場合(NO)、音声の入力が途切れたものとして、入力された音声に係る第1音素列の末尾を特定し、S104に進む。
S104では、第1音声認識部11が、上記第1音素列の上記末尾までの音声の音声認識を行い、認識結果を認識結果判別部13に渡して、S107に進む。
S107では、認識結果判別部13が、認識された第1音素列が一文字か、エラーか、またはノイズかを判定する。認識された第1音素列が一文字か、エラーかまたはノイズである場合(YES)、認識結果を棄却する(S109)。一方、認識された第1音素列が一文字でも、エラーでもまたはノイズでもない場合(NO)、認識結果判別部13は、第1音素列の認識結果を採択し(S108)、出力装置2へ出力する。
一方、S105では、S103の処理と並行して、第2音声認識部12が、無音時間が所定の値B(第2閾値)以下か否かを判定する。その結果、無音時間が値B以下の場合(YES)、音声(第2音素列)の入力が継続しているものとして、S102に戻る。このとき、第1音声認識部11(すなわち、S103以下の処理)もS102に戻り、S102において、同じ音声が第1音声認識部11および第2音声認識部12のそれぞれに音声が入力される。
一方、無音時間が値Bを超える場合(NO)、音声の入力が途切れたものとして、入力された音声に係る第2音素列の末尾を特定し、S106に進む。
S106では、第2音声認識部12が、上記第2音素列の上記末尾までの音声の音声認識を行い、認識結果を認識結果判別部13に渡して、S110に進む。
S110では、S107において、認識結果判別部13が、認識された第2音素列が一文字か、エラーかまたはノイズかを判定した結果に応じて、第2音声認識部12による認識結果を採択するか、棄却するかを決定する。すなわち、第1音素列が一文字か、エラーかまたはノイズである場合(YES)、認識結果判別部13は、第2音素列の認識結果を採択し(S111)、出力装置2へ出力する。一方、第1音素列が一文字でも、エラーでもまたはノイズでもない場合(NO)、第2音素列の認識結果を棄却する(S109)。
S112では、出力装置2が、認識結果判別部13によって採択され、出力された、第1音素列の認識結果、または第2音素列の認識結果を出力する。そして、電子機器100は動作を終了する。
〔実施例1−1;第1音声認識部11の認識結果が棄却されるケース〕
A=0.3秒、B=0.7秒と設定した場合に、「あ(0.5秒)そういえば今日の天気を教えて(1.0秒以上)」という入力があったときを想定する。
ユーザが発話を開始してS101に進む。S101では、制御装置10が入力装置1に対する音声の入力を検出し、入力装置1からの音声入力を受けて、第1音声認識部11および第2音声認識部12が並行で処理を開始する。
「あ(0.3秒)」の後、S103にて、第1音声認識部11が、ポーズ(無音時間)を検出し、第1音素列の末尾を特定してS104の音声認識を開始する。
S104の第1音声認識部11による音声認識の結果、第1音声認識部11が、「あ」を認識結果判別部13に出力する(S107)。
S107にて、認識結果判別部13が、1文字のみの認識結果は不適切(期待するフレーズではない)と判断し、S104での認識結果をS109で棄却する。
これと並行して、「あ(0.5秒)そういえば今日の天気を教えて(0.7秒)」の後、S105にて、第2音声認識部12が、ポーズを検出し、S106にて音声認識を開始する。S106の音声認識の結果「あ、そういえば今日の天気教えて」という認識結果が認識結果判別部13に出力される(S110)、S110にて、認識結果判別部13が、2文字以上の認識結果は適切(期待するフレーズである)と判断し、S106での認識結果をS111にて採択する。
〔実施例1−2;第1音声認識部11の認識結果が採択されるケース〕
A=0.3秒、B=0.7秒と設定した場合に、「ありがとう(0.5秒以上)」という入力があったときを想定する。
ユーザが発話を開始してS101に進む。S101では、制御装置10が入力装置1に対する音声入力を検出し、第1音声認識部11および第2音声認識部12が並行で処理を開始する。「ありがとう(0.3秒)」の後、S103にて、第1音声認識部11が、ポーズ(無音時間)を検出し、第1音素列の末尾を特定してS104の音声認識を開始する。
S104の音声認識の結果、第1音声認識部11が、「ありがとう」を認識結果判別部13に出力する。S107にて、認識結果判別部13が、2文字以上の認識結果は期待するフレーズだと判断し、S104の認識結果をS108で採択する。S106の結果を待たずに、S112にてS108で採択された「ありがとう」を、出力装置2を介して出力する。
上述した実施例1−2のようなケースではA秒後の結果をすぐに出力することができる。また、実施例1−1のようなケースではA秒後に結果は表示されないが、B秒後のよりふさわしい認識結果を採択、出力することが可能となる。
〔実施形態2〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。図1に示すように、本発明の実施形態2に係る電子機器100は、実施形態1で説明した電子機器100と同様の構成を有する。ただし、本実施形態では、データベース3には、発話される音声として想定できる言葉があらかじめ格納されている。
次に、図3のフローチャートに基づき、電子機器100の動作の流れについて説明する。図3に示すフローは、S207における処理が、図2に示すS107における処理と異なる点で、図2に示すフローと異なっている。しかしながら、図3に示すS201〜S206、S208〜S212における処理は、それぞれ、図2に示すS101〜S106、S108〜S112における処理と同様であるため、ここでは説明を省略する。
S207で、S204の音声認識の結果(第1音素列)が、データベースに登録されている登録音素列と一致するか否かを確認する。その結果、第1音素列が登録音素列と一致する場合(YES)、S208にて第1音素列を認識結果として採択する。一方、第1音素列が登録音素列と一致しない場合(NO)、S209にてS204の音声認識の結果を棄却する。
S210では、S207において、認識結果判別部13が、第1音声認識部11による音声認識の結果が、データベースに登録されている登録音素列と一致するか否かを判定した結果に応じて、第2音声認識部12による認識結果を採択するか、棄却するかを決定する。すなわち、S207で、第1音素列が登録音素列と一致する場合(YES)、第2音素列の認識結果を棄却する(S209)。一方、第1音素列が登録音素列と一致しない場合(NO)、認識結果判別部13は、第2音素列の認識結果を採択し(S211)、出力装置2へ出力する。
〔実施例2−1;第1音声認識部11の出力が棄却されるケース〕
A=0.3秒、B=0.7秒と設定し、「コーヒーを飲みますか?」に対しての返答を音声認識する場合に、「あ(0.5秒)はい(1.0秒以上)」という入力があったときを想定する。また、データベース3には、「はい、いいえ、お願いします、要らないです、欲しいです、やめときます、」などの語彙が格納されているものとする。
ユーザが発話を開始してS201に進む。S201で制御装置10が入力装置1に対する音声入力を検出し、第1音声認識部11および第2音声認識部12が並行で処理を開始する。
「あ(0.3秒)」の後、S203にて、第1音声認識部11が、ポーズ(無音時間)を検出し、第1音素列の末尾を特定して、S204の音声認識を開始する。S204の音声認識の結果、第1音声認識部11が、「あ」を認識結果判別部13に出力する。S207にて、認識結果判別部13は、S204で得られた「あ」がデータベース3に含まれないため、S209にて棄却する。
これと並行して、「あ(0.5秒)はい(0.7秒)」の後、S205にて、第2音声認識部12が、ポーズを検出し、S206の音声認識を開始する。S206の音声認識の結果「あ、はい」という言葉が認識結果判別部13に出力される。S210にて、認識結果判別部13が、「あ、はい」がデータベース3に含まれていると判断し、S211にてS206の音声認識の結果を採択する。S212にてS211で採択された「あ、はい」を、出力装置2を介して出力する。
〔実施例2−2;第1音声認識部11の出力が採択されるケース〕
A=0.3秒、B=0.7秒と設定し、「コーヒーを飲みますか?」に対しての返答を音声認識する場合に、「お願いします(1.0秒以上)」という入力があった時を想定する。また、データベース3には「はい、いいえ、お願いします、要らないです、欲しいです、やめときます、」などの語彙が格納されているものとする。
ユーザが発話を開始しS201に進む。S201で制御装置10が入力装置1に対する音声入力を検出し、第1音声認識部11および第2音声認識部12が並行で処理を開始する。
「お願いします(0.3秒)」の後、S203にて、第1音声認識部11が、ポーズ(無音時間)を検出し、第1音素列の末尾を特定して、S204の音声認識を開始する。
S204の音声認識の結果、第1音声認識部11が、「お願いします」を認識結果判別部13に出力する。S207にて、認識結果判別部13が、S204で得られた「お願いします」がデータベース3に含まれるためS208で採択する。S206の結果を待たずに、S212にてS208で採択された「お願いします」を、出力装置2を介して出力する。
実施例2−2のようなケースではA秒後の結果をすぐに出力することができる。また、実施例2−1のようなケースではA秒後に結果は表示されないが、B秒後のよりふさわしい認識結果を採択、出力することが可能となる。さらに、実施例2−1、2−2の判別方法を、実施例1−1、1−2の判別方法と併用することも可能であり、より高度な判別が可能となる。
〔実施形態3〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。図1に示すように、本発明の実施形態3に係る電子機器100は、実施形態1で説明した電子機器100と同様の構成を有する。ただし、本実施形態では、データベース3には、過去に行われた対話のデータが格納されている。
次に、図4のフローチャートに基づき、電子機器100の動作の流れについて説明する。図4に示すフローは、S307における処理が、図2に示すS107における処理と異なる点で、図2に示すフローと異なっている。しかしながら、図4に示すS301〜S306、S308〜S312における処理は、それぞれ、図2に示すS101〜S106、S108〜S112における処理と同様であるため、ここでは説明を省略する。
S307で、S304の音声認識の結果(第1音素列)の単語出現率が所定の閾値Cよりも大きいか否かを確認する。認識結果判別部13は、過去の対話に含まれる音素列を格納したデータベース3を参照することにより、上記第1音素列および上記第2音素列それぞれの、過去の対話を基に当該音素列の入力された音声に出現する確率を算出し、当該確率が所定の閾値を超える音素列を最も確からしい音声認識の結果であると判別する。
より具体的には、データベース3に登録されている単語の総数に対する対象の単語の出現回数から当該単語出現率(当該単語の出現する確率)を算出する。または、LDA(Latent Dirichlet Allocation)などのトピックモデルを用いた統計手法により当該単語出現率を算出する。その結果、第1音素列の単語出現率が閾値Cを超える場合(YES)、S308にて第1音素列を認識結果として採択する。一方、第1音素列の単語出現率が閾値C以下の場合、S309にてS304の音声認識の結果を棄却する。なお、LDA以外の統計手法として、LSI(Latent Semantic Indexing)、およびPLSI(Probabilistic Latent Semantic Indexing)などを用い単語出現率を算出することができる。
S310では、S307において、認識結果判別部13が、第1音声認識部11による音声認識の結果の単語出現率が所定の閾値Cよりも大きいか否かを判定した結果に応じて、第2音声認識部12による認識結果を採択するか、棄却するかを決定する。すなわち、S307で第1音素列の出現率が閾値Cよりも大きい場合(YES)、第2音素列の認識結果を棄却する(S309)。一方、第1音素列の出現率が閾値C以下の場合(NO)、認識結果判別部13は、第2音素列の認識結果を採択し(S311)、出力装置2へ出力する。
ここで、データベース3には、これまでに行われた対話のデータが格納されている。S312の出力装置2による出力結果は対話の一部であり、データベース3に格納され、以降の音声認識結果の当該音声としてふさわしいか(単語出現率)の算出に用いられてもよい。また、長期的な対話で、話題が変動するケースでは、データベース3は過去X分以内の対話などに限定することが好ましい。
〔実施例3−1;第1音声認識部11の出力が棄却されるケース〕
A=0.3秒、B=0.7秒、C=0.5と設定し、これまでに最近の天気について話していた場合に、「あし(0.5秒)たもはれるかな?(1.0秒以上)」という入力があった時を想定する。また、データベース3には「昨日も寒かったね」「今日はいい天気だったね」「晴れていると気持ちがいいよね」などの過去の対話データが格納されているものとする。
ユーザが発話を開始し、S301に進む。S301で制御装置10が入力装置1に対する音声入力を検出し、第1音声認識部11および第2音声認識部12が並行で処理を開始する。
「あし(0.3秒)」の後、S303にて、第1音声認識部11が、ポーズ(無音時間)を検出し、第1音素列の末尾を特定して、304の音声認識を開始する。
S304の音声認識の結果、「足」が認識結果判別部13に出力される。S307にて、認識結果判別部13が、LDAによりデータベース3に基づいて「足」の単語出現率を算出する。この場合、「足」はデータベース3に格納されていないので、単語出現率が閾値の0.5以下の値となり(NO)、S309にてS304の認識結果を棄却する。
これと並行して、「あし(0.5秒)たもはれるかな?(0.7秒以上)」の直後、S305にて、第2音声認識部12が、ポーズを検出し、S306の音声認識を開始する。S306の音声認識の結果、第2音声認識部12が、「明日も晴れるかな?」という言葉を認識結果判別部13に出力する。S310にて、認識結果判別部13が、S307でNOであるため、S311にてS306の音声認識の結果「明日も晴れるかな?」を採択する。S312にてS311で採択された「明日も晴れるかな?」を、出力装置2を介して出力する。
このように、認識すべき対話の話題に一致する過去の対話のデータに基づいて単語出現率を算出することにより、適切な音声認識が可能となる。また、実施例3−1のようなケースではA秒後に結果は表示されないが、B秒後のよりふさわしい認識結果を採択、出力することが可能となる。さらに、実施例3−1の判別方法を、実施例1−1、1−2、および実施例2−1、2−2の判別方法と併用することも可能で、より高度な判別が可能となる。
〔実施形態4〕
本発明の他の実施形態について、以下に説明する。なお、説明の便宜上、上記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を繰り返さない。図5に示すように、本実施形態の電子機器200は、制御装置20の構造が図1に示す制御装置10の構造と異なる点で、上述した実施形態と異なっている。
具体的には、制御装置20は、第1音声認識部11および第2音声認識部12に加えて、さらに第3音声認識部14および第4音声認識部15と、合計4つの音声認識部を備えている点で、上述した実施形態と異なっている。
第3音声認識部14は、電子機器200の入力装置1に入力された音声に係る第3音素列の末尾を、その第3音素列に続く無音時間(ポーズ)が、第1閾値および第2閾値より長い第3閾値を超えることにより特定する。また、第3音声認識部14は、上記第3音素列の上記末尾までの音声の音声認識を行う。
第4音声認識部15は、電子機器200の入力装置1に入力された音声に係る第4音素列の末尾を、その第4音素列に続く無音時間が第1閾値〜第3閾値より長い第4閾値を超えることにより特定する。また、第4音声認識部15は、上記第4音素列の上記末尾までの音声の音声認識を行う。なお、上記第1音素列〜上記第4音素列は先頭が同じで末尾が異なる音素列である。
認識結果判別部13は、第1音声認識部11が認識する第1音素列、第2音声認識部12が認識する第2音素列、第3音声認識部14が認識する第3音素列、および第4音声認識部15が認識する第4音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する。
次に、図6に示すフローチャートに基づき、電子機器200の動作の流れについて説明する。本実施形態では、S403、S405、S407、およびS409にて、第1音声認識部11、第2音声認識部12、第3音声認識部14および第4音声認識部15のそれぞれが、無音時間が所定の値A〜D(第1閾値〜第4閾値;A<B<C<D)以下か否かを判定する点で上述した形態と異なっている。
また、本実施形態では、S404、S406、S408およびS410の順に出力される認識結果の中で、期待するフレーズが出力された時点で、その出力結果を採択し、以降の出力結果を棄却する(S411〜S414参照)。
〔実施例4−1;第1音声認識部11の出力が棄却されるケース〕
A=0.2秒、B=0.4秒、C=0.6秒、D=0.8秒と設定し、本実施形態の判別方法では、実施形態1と同様に一文字、エラーもしくはノイズの場合は棄却する判別方法を用いる。なお、この判別方法を、実施形態2または3の判別方法に置換しても良い。
また、「あ(0.5秒)そういえば今日の天気を教えて(1.0秒以上)」という入力があったときを想定する。
ユーザが発話を開始しS401に進む。S401で制御装置20が入力装置1に対する音声入力を検出し、第1音声認識部11、第2音声認識部12、第3音声認識部14および第4音声認識部15が並行で処理を開始する。
「あ(0.2秒)」の後、S403にて第1音声認識部11がポーズ(無音時間)を検出し、第1音素列の末尾を特定し、S404の音声認識を開始する。S404の音声認識の結果、第1音声認識部11が「あ」を認識結果判別部13に出力する。S411にて認識結果判別部13が、一文字のみの発言は期待するフレーズではないと判断し、S404の出力を棄却する。
これと並行して、「あ(0.4秒)」の後、S405にて、第1音声認識部11が、ポーズ(無音時間)を検出し、第2音素列の末尾を特定して、S406の音声認識を開始する。S406の音声認識の結果、第1音声認識部11が、「あ」を認識結果判別部13に出力する。S411にて、認識結果判別部13が、一文字のみの発言は期待するフレーズではないと判断し、S406の出力を棄却する。
また、これと並行して、「あ(0.5秒)そういえば今日の天気を教えて(0.6秒)」の後、S407にて、第2音声認識部12が、ポーズ(無音時間)を検出し、S408の音声認識を開始する。
S408の音声認識の結果、第2音声認識部12が、「あ、そういえば今日の天気教えて」という言葉を認識結果判別部13に出力する。S411にて、認識結果判別部13が、「あ、そういえば今日の天気教えて」は2文字以上で期待するフレーズと判別し、S410の結果を待たずにS412にてS408の音声認識の結果を採択する。S414にて出力装置2を介してS408の音声認識の結果を出力する。このケースでは、並行して処理する負荷がかかるが、実施例1−1、1−2、2−1、2−2および3−1よりも早く同等の結果を出力することが可能となる。
〔ソフトウェアによる実現例〕
電子機器100、200における制御装置10、20の制御ブロック(特に第1音声認識部11、第2音声認識部12、認識結果判別部13、第3音声認識部14および第4音声認識部15)は、集積回路(ICチップ)等に形成された論理回路(ハードウェア)によって実現してもよいし、ソフトウェアによって実現してもよい。
後者の場合、制御装置10、20は、各機能を実現するソフトウェアであるプログラムの命令を実行するコンピュータを備えている。このコンピュータは、例えば少なくとも1つのプロセッサ(制御装置)を備えていると共に、上記プログラムを記憶したコンピュータ読み取り可能な少なくとも1つの記録媒体を備えている。そして、上記コンピュータにおいて、上記プロセッサが上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記プロセッサとしては、例えばCPU(Central Processing Unit)を用いることができる。上記記録媒体としては、「一時的でない有形の媒体」、例えば、ROM(Read Only Memory)等の他、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムを展開するRAM(Random Access Memory)などをさらに備えていてもよい。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体(通信ネットワークや放送波等)を介して上記コンピュータに供給されてもよい。なお、本発明の一態様は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。
〔まとめ〕
本発明の態様1に係る制御装置は、電子機器を制御する制御装置(10)であって、上記電子機器に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識部(11)と、上記音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識部(12)と、少なくとも上記第1音声認識部が認識する上記第1音素列、および上記第2音声認識部が認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別部(13)と、を備え、上記第1音素列と上記第2音素列とは先頭が同じで上記末尾が異なる音素列である構成である。
上記構成によれば、無音時間を判定する閾値の異なる少なくとも2つの第1音声認識部および第2音声認識部を用いて音声認識を行う。また、上記構成によれば、少なくとも第1音声認識部が認識する第1音素列、および第2音声認識部が認識する第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する。このため、音声を適切な位置で区切ることが可能になる。また、少なくとも2つの第1音声認識部および第2音声認識部を並行して動作させるため、装置の反応時間の遅れを抑制することができる。以上により、音声を適切な位置で区切るとともに、装置の反応時間の遅れを抑制することができる。
本発明の態様2に係る制御装置は、上記態様1において、上記認識結果判別部は、上記第1音素列および上記第2音素列の何れかが一文字、エラーまたはノイズである場合に、上記一文字、上記エラーまたは上記ノイズでない方の音素列を、上記最も確からしい音声認識の結果であると判別しても良い。上記構成によれば、音声を適切な位置で区切ることができ、適切な音声認識の結果が得られる。
本発明の態様3に係る制御装置は、上記態様1において、上記認識結果判別部は、上記第1音素列および上記第2音素列のうち、予めデータベース(3)に登録された登録音素列と一致する音素列を、上記最も確からしい音声認識の結果であると判別しても良い。上記構成によれば、音声を適切な位置で区切ることができ、適切な音声認識の結果が得られる。
本発明の態様4に係る制御装置は、上記態様1において、上記認識結果判別部は、過去の対話に含まれる音素列を格納したデータベース(3)を参照することにより、上記第1音素列および上記第2音素列のそれぞれの、過去の対話における当該音素列の出現する確率を算出し、上記確率が所定の閾値を超える音素列を最も確からしい音声認識の結果であると判別しても良い。上記構成によれば、音声を適切な位置で区切ることができ、適切な音声認識の結果が得られる。
本発明の態様5に係る制御装置は、上記態様1において、上記制御装置は、さらに上記電子機器に入力された音声に係る第3音素列の末尾を、その第3音素列に続く無音時間が上記第1閾値および上記第2閾値より長い第3閾値を超えることにより特定し、上記第3音素列の上記末尾までの音声の音声認識を行う第3音声認識部(14)を少なくとも備え、上記第1音素列、上記第2音素列および上記第3音素列は先頭が同じで上記末尾が異なる音素列であり、上記認識結果判別部は、少なくとも上記第1音声認識部が認識する上記第1音素列、上記第2音声認識部が認識する上記第2音素列、および上記第3音声認識部が認識する上記第3音素列、の中から、上記最も確からしい音声認識の結果であると想定される音素列を判別しても良い。上記構成によれば、音声をより適切な位置で区切ることができ、より適切な音声認識の結果が得られる。
本発明の態様6に係る電子機器は、少なくとも1つの制御装置を備えた電子機器であって、上記制御装置は、上記電子機器に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識処理と、上記音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識処理と、少なくとも上記第1音声認識処理で認識する上記第1音素列、および上記第2音声認識処理で認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別処理と、を行い、上記第1音素列と上記第2音素列とは先頭が同じで上記末尾が異なる音素列である構成である。上記構成によれば、上記態様1と同様の効果を得ることができる。
本発明の態様7に係る制御方法は、少なくとも1つの制御装置を備えた電子機器の制御方法であって、上記電子機器に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識ステップと、上記音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識ステップと、少なくとも上記第1音声認識ステップで認識する上記第1音素列、および上記第2音声認識ステップで認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別ステップと、を含み、上記第1音素列と上記第2音素列とは先頭が同じで上記末尾が異なる音素列である方法である。上記方法によれば、上記態様1と同様の効果が得られる。
本発明の各態様に係る制御装置は、コンピュータによって実現してもよく、この場合には、コンピュータを上記制御装置が備える各部(ソフトウェア要素)として動作させることにより上記制御装置をコンピュータにて実現させる制御装置の制御プログラム、およびそれを記録したコンピュータ読み取り可能な記録媒体も、本発明の範疇に入る。
〔付記事項〕
本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。
1 入力装置
2 出力装置
3 データベース
10,20 制御装置
11 第1音声認識部
12 第2音声認識部
13 認識結果判別部
14 第3音声認識部
15 第4音声認識部
100,200 電子機器

Claims (8)

  1. 電子機器を制御する制御装置であって、
    上記電子機器に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識部と、
    上記音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識部と、
    少なくとも上記第1音声認識部が認識する上記第1音素列、および上記第2音声認識部が認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別部と、を備え、
    上記第1音素列と上記第2音素列とは先頭が同じで上記末尾が異なる音素列であることを特徴とする制御装置。
  2. 上記認識結果判別部は、上記第1音素列および上記第2音素列の何れかが一文字、エラーまたはノイズである場合に、上記一文字、上記エラーまたは上記ノイズでない方の音素列を、上記最も確からしい音声認識の結果であると判別することを特徴とする請求項1に記載の制御装置。
  3. 上記認識結果判別部は、上記第1音素列および上記第2音素列のうち、予めデータベースに登録された登録音素列と一致する音素列を、上記最も確からしい音声認識の結果であると判別することを特徴とする請求項1に記載の制御装置。
  4. 上記認識結果判別部は、過去の対話に含まれる音素列を格納したデータベースを参照することにより、上記第1音素列および上記第2音素列のそれぞれの、過去の対話における当該音素列の出現する確率を算出し、上記確率が所定の閾値を超える音素列を最も確からしい音声認識の結果であると判別することを特徴とする請求項1に記載の制御装置。
  5. 上記制御装置は、さらに上記電子機器に入力された音声に係る第3音素列の末尾を、その第3音素列に続く無音時間が上記第1閾値および上記第2閾値より長い第3閾値を超えることにより特定し、上記第3音素列の上記末尾までの音声の音声認識を行う第3音声認識部を少なくとも備え、
    上記第1音素列、上記第2音素列および上記第3音素列は先頭が同じで上記末尾が異なる音素列であり、
    上記認識結果判別部は、少なくとも上記第1音声認識部が認識する上記第1音素列、上記第2音声認識部が認識する上記第2音素列、および上記第3音声認識部が認識する上記第3音素列、の中から、上記最も確からしい音声認識の結果であると想定される音素列を判別することを特徴とする請求項1に記載の制御装置。
  6. 少なくとも1つの制御装置を備えた電子機器であって、
    上記制御装置は、
    上記電子機器に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識処理と、
    上記音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識処理と、
    少なくとも上記第1音声認識処理で認識する上記第1音素列、および上記第2音声認識処理で認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別処理と、を行い、
    上記第1音素列と上記第2音素列とは先頭が同じで上記末尾が異なる音素列であることを特徴とする電子機器。
  7. 請求項1に記載の制御装置としてコンピュータを機能させるための制御プログラムであって、上記第1音声認識部、上記第2音声認識部および上記認識結果判別部としてコンピュータを機能させるための制御プログラム。
  8. 少なくとも1つの制御装置を備えた電子機器の制御方法であって、
    上記電子機器に入力された音声に係る第1音素列の末尾を、その第1音素列に続く無音時間が第1閾値を超えることにより特定し、上記第1音素列の上記末尾までの音声の音声認識を行う第1音声認識ステップと、
    上記音声に係る第2音素列の末尾を、その第2音素列に続く無音時間が上記第1閾値より長い第2閾値を超えることにより特定し、上記第2音素列の上記末尾までの音声の音声認識を行う第2音声認識ステップと、
    少なくとも上記第1音声認識ステップで認識する上記第1音素列、および上記第2音声認識ステップで認識する上記第2音素列の中から、最も確からしい音声認識の結果であると想定される音素列を判別する認識結果判別ステップと、を含み、
    上記第1音素列と上記第2音素列とは先頭が同じで上記末尾が異なる音素列であることを特徴とする制御方法。
JP2018102754A 2018-05-29 2018-05-29 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法 Active JP7096707B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018102754A JP7096707B2 (ja) 2018-05-29 2018-05-29 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018102754A JP7096707B2 (ja) 2018-05-29 2018-05-29 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法

Publications (2)

Publication Number Publication Date
JP2019207329A true JP2019207329A (ja) 2019-12-05
JP7096707B2 JP7096707B2 (ja) 2022-07-06

Family

ID=68768566

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018102754A Active JP7096707B2 (ja) 2018-05-29 2018-05-29 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法

Country Status (1)

Country Link
JP (1) JP7096707B2 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022501623A (ja) * 2019-08-16 2022-01-06 ペキン シャオミ モバイル ソフトウェア カンパニー, リミテッドBeijing Xiaomi Mobile Software Co., Ltd. オーディオ処理方法、装置及び記憶媒体
JP2022528582A (ja) * 2019-06-13 2022-06-14 エーアイ スピーチ カンパニー リミテッド ヒューマンマシン対話方法及び電子デバイス

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934484A (ja) * 1995-07-20 1997-02-07 Ricoh Co Ltd 音声認識装置
JPH10254475A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP2001242879A (ja) * 2000-02-29 2001-09-07 Matsushita Electric Ind Co Ltd 音声検出装置
JP2005017932A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム
WO2015098109A1 (ja) * 2013-12-26 2015-07-02 パナソニックIpマネジメント株式会社 音声認識処理装置、音声認識処理方法、および表示装置
JP2017078848A (ja) * 2015-10-19 2017-04-27 グーグル インコーポレイテッド スピーチエンドポインティング

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0934484A (ja) * 1995-07-20 1997-02-07 Ricoh Co Ltd 音声認識装置
JPH10254475A (ja) * 1997-03-14 1998-09-25 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP2001242879A (ja) * 2000-02-29 2001-09-07 Matsushita Electric Ind Co Ltd 音声検出装置
JP2005017932A (ja) * 2003-06-27 2005-01-20 Nissan Motor Co Ltd 音声認識装置および音声認識用プログラム
WO2015098109A1 (ja) * 2013-12-26 2015-07-02 パナソニックIpマネジメント株式会社 音声認識処理装置、音声認識処理方法、および表示装置
JP2017078848A (ja) * 2015-10-19 2017-04-27 グーグル インコーポレイテッド スピーチエンドポインティング

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
堀田尚希,外2名: "ユーザ発話の誤分割に起因する問題を事後的に修復する音声対話システム", 情報処理学会研究報告, vol. Vol.2013-SLP-96,No.5, JPN6021051986, May 2013 (2013-05-01), pages 1 - 8, ISSN: 0004675847 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2022528582A (ja) * 2019-06-13 2022-06-14 エーアイ スピーチ カンパニー リミテッド ヒューマンマシン対話方法及び電子デバイス
JP7108799B2 (ja) 2019-06-13 2022-07-28 エーアイ スピーチ カンパニー リミテッド ヒューマンマシン対話方法及び電子デバイス
JP2022501623A (ja) * 2019-08-16 2022-01-06 ペキン シャオミ モバイル ソフトウェア カンパニー, リミテッドBeijing Xiaomi Mobile Software Co., Ltd. オーディオ処理方法、装置及び記憶媒体
US11264027B2 (en) 2019-08-16 2022-03-01 Beijing Xiaomi Mobile Software Co., Ltd. Method and apparatus for determining target audio data during application waking-up
JP7166294B2 (ja) 2019-08-16 2022-11-07 ペキン シャオミ モバイル ソフトウェア カンパニー, リミテッド オーディオ処理方法、装置及び記憶媒体

Also Published As

Publication number Publication date
JP7096707B2 (ja) 2022-07-06

Similar Documents

Publication Publication Date Title
US10803869B2 (en) Voice enablement and disablement of speech processing functionality
US20210193176A1 (en) Context-based detection of end-point of utterance
US9373321B2 (en) Generation of wake-up words
EP3314606B1 (en) Language model speech endpointing
EP3370230B1 (en) Voice interaction apparatus, its processing method, and program
US9251789B2 (en) Speech-recognition system, storage medium, and method of speech recognition
JP2011033680A (ja) 音声処理装置及び方法、並びにプログラム
WO2021188266A1 (en) Device-directed utterance detection
CN106875936B (zh) 语音识别方法及装置
US11798559B2 (en) Voice-controlled communication requests and responses
WO2010128560A1 (ja) 音声認識装置、音声認識方法、及び音声認識プログラム
CN114385800A (zh) 语音对话方法和装置
JP7096707B2 (ja) 電子機器、電子機器を制御する制御装置、制御プログラムおよび制御方法
CN111145748B (zh) 音频识别置信度确定方法、装置、设备及存储介质
JP2018031851A (ja) 談話機能推定装置及びそのためのコンピュータプログラム
CN114360514A (zh) 语音识别方法、装置、设备、介质及产品
CN111640423A (zh) 一种词边界估计方法、装置及电子设备
JP2017211610A (ja) 出力制御装置、電子機器、出力制御装置の制御方法、および出力制御装置の制御プログラム
US11563708B1 (en) Message grouping
JP2009025579A (ja) 音声認識装置および音声認識方法
JP2011118290A (ja) 音声認識装置
Tsai et al. Customized wake-up word with key word spotting using convolutional neural network
TW202129628A (zh) 細粒度解碼之語音辨識系統
JP2006010739A (ja) 音声認識装置
JP6287754B2 (ja) 応答生成装置、応答生成方法及び応答生成プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210324

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20211216

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220105

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220303

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220614

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220624

R150 Certificate of patent or registration of utility model

Ref document number: 7096707

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150