JP6230726B2

JP6230726B2 - 音声認識装置および音声認識方法

Info

Publication number: JP6230726B2
Application number: JP2016564532A
Authority: JP
Inventors: 勇小川; 利行花沢
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2014-12-18
Filing date: 2014-12-18
Publication date: 2017-11-15
Anticipated expiration: 2034-12-18
Also published as: US20170287472A1; DE112014007265T5; JPWO2016098228A1; CN107004405A; WO2016098228A1

Description

この発明は、入力された音声から音声区間を抽出し、抽出した音声区間に対して音声認識を行う音声認識装置および音声認識方法に関するものである。

近年、携帯端末やナビゲーション装置には操作入力を音声で行うための音声認識装置が搭載されている。音声認識装置に入力される音声信号には、操作入力を指示するユーザが発話した音声のみならず外部の騒音など目的外の音も含まれる。そこで、騒音環境下で入力された音声信号からユーザが発話した区間（以下、音声区間と称する）を適切に抽出して音声認識を行う技術が必要であり、種々の技術が開示されている。

例えば、特許文献１には、音声信号から音声区間検出用の音響特徴量を抽出し、画像フレームから音声区間検出用の画像特徴量を抽出し、抽出した音響特徴量および画像特徴量を合わせた音響画像特徴量を生成し、当該音響画像特徴量に基づいて音声区間を判定する音声区間検出装置が開示されている。
また、特許文献２には、音声入力話者の口元画像の解析から発話の有無を判断して発話者の位置を特定し、特定した位置における口元の動きは目的音の発生であるとして、ノイズ判定には含めないように構成する音声入力装置が開示されている。
また、特許文献３には、入力音声に対する音声区間の切り出しのしきい値を変数ｉ（例えばｉ＝５）の値に応じて順次変更し、変更されたしきい値に応じて音声区間の切り出しを行って複数の認識候補を求め、求めた複数の認識候補から得られる認識スコアを集計して最終的な認識結果を決定する数字列音声認識装置が開示されている。

特開２０１１−５９１８６号公報特開２００６−３９２６７号公報特開平８−３１４４９５号公報

しかしながら、上述した特許文献１および特許文献２に開示された技術では、入力音声に対する音声区間検出および音声認識処理と並行して常時、撮像部で動画像を撮像して口元画像の解析から発話の有無を判定する必要があり、演算量が増大するという課題があった。
また、上述した特許文献３に開示された技術では、ユーザの１回の発話に対して、しきい値を変更して５回の音声区間検出処理および音声認識処理を行う必要があり、演算量が増大するという課題があった。
さらに、これらの演算量の大きい音声認識装置をタブレット端末などの処理性能の低いハードウェア上で用いられている場合には、音声認識結果を得るまでの遅延時間が長くなるという課題があった。また、タブレット端末などの処理性能に合わせて画像認識処理あるいは音声認識処理の演算量を削減すると、認識処理性能が低下するという課題があった。

この発明は、上記のような課題を解決するためになされたもので、処理性能の低いハードウェア上で用いられる場合にも、音声認識結果を得るまでの遅延時間を短縮し、且つ認識処理性能の低下を抑制する音声認識結果および音声認識方法を提供することを目的とする。

この発明に係る音声認識装置は、集音された音声を取得し、音声データに変換する音声入力部と、音声以外の情報を取得する非音声情報入力部と、非音声情報入力部が取得した音声以外の情報からユーザ状態を認識する非音声操作認識部と、非音声操作認識部が認識したユーザ状態からユーザが発話しているか否か判定を行う非発話区間判定部と、非発話区間判定部がユーザが発話していないと判定した場合に音声入力部が変換した音声データから第１のしきい値を設定し、非発話区間判定部がユーザが発話していると判定した場合に音声入力部が変換した音声データから第２のしきい値を設定するしきい値学習部と、しきい値学習部が設定したしきい値を用いて音声入力部が変換した音声データからユーザの発話を示す音声区間を検出する音声区間検出部と、音声区間検出部が検出した音声区間の音声データを認識して認識結果を出力する音声認識部とを備え、音声区間検出部は、第２のしきい値を用いて音声区間を検出することができない場合に、第１のしきい値を適用して音声区間を検出するものである。

この発明によれば、処理性能の低いハードウェア上で用いられる場合にも、音声認識結果を得るまでの遅延時間を短縮し、且つ認識処理性能の低下を抑制することができる。

実施の形態１に係る音声認識装置の構成を示すブロック図である。実施の形態１に係る音声認識装置の処理、音声入力レベルおよびＣＰＵ負荷を示す説明図である。実施の形態１に係る音声認識装置の動作を示すフローチャートである。実施の形態２に係る音声認識装置の構成を示すブロック図である。実施の形態２に係る音声認識装置の操作シナリオ記憶部が記憶する操作シナリオの一例を示す図である。実施の形態２に係る音声認識装置の処理、音声入力レベルおよびＣＰＵ負荷を示す説明図である。実施の形態２に係る音声認識装置の動作を示すフローチャートである。実施の形態３に係る音声認識装置の構成を示すブロック図である。実施の形態３に係る音声認識装置の処理、音声入力レベルおよびＣＰＵ負荷を示す説明図である。実施の形態３に係る音声認識装置の動作を示すフローチャートである。本願発明の音声認識装置を搭載した携帯端末のハードウェア構成を示す図である。

以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態１．
図１は、実施の形態１に係る音声認識装置１００の構成を示すブロック図である。
音声認識装置１００は、タッチ操作入力部（非音声情報入力部）１０１、画像入力部（非音声情報入力部）１０２、口唇画像認識部（非音声操作認識部）１０３、非発話区間判定部１０４、音声入力部１０５、音声区間検出しきい値学習部１０６、音声区間検出部１０７および音声認識部１０８で構成されている。
なお、以下ではユーザのタッチ操作はタッチパネル（不図示）を介して行われる場合を例に説明を行うが、タッチパネル以外の入力手段を用いた場合、あるいはタッチ操作以外の入力方法を用いた入力手段を用いた場合にも、当該音声認識装置１００を適用することが可能である。

タッチ操作入力部１０１は、ユーザのタッチパネルへの接触を検知し、タッチパネルへの接触を検知した座標値を取得する。画像入力部１０２は、カメラなどの撮像手段により撮影された動画像を取得し、画像データに変換する。口唇画像認識部１０３は、画像入力部１０２が取得した画像データの解析を行い、ユーザの口唇の動きを認識する。非発話区間判定部１０４は、タッチ操作入力部１０１が取得した座標値が、非発話の操作を行うための領域内に存在している場合に、口唇画像認識部１０３の認識結果を参照してユーザが発話を行っているか否か判定を行う。当該判定において、ユーザが発話を行っていないと判定した場合に、非発話区間判定部１０４は音声区間検出しきい値学習部１０６に対して音声区間検出に用いるしきい値の学習を指示する。非発話区間判定部１０４が判定に用いる、発話の操作を行うための領域とは、タッチパネル上に配置された音声入力受け付けボタンなどが配置された領域であり、非発話の操作を行うための領域とは下位の画面に遷移するためのボタンなどが配置された領域である。

音声入力部１０５は、マイクなどの集音手段により集音された音声を取得し、音声データに変換する。音声区間検出しきい値学習部１０６は、音声入力部１０５が取得した音声からユーザの発話を検出するためのしきい値を設定する。音声区間検出部１０７は、音声区間検出しきい値学習部１０６が設定したしきい値に基づいて、音声入力部１０５が取得した音声からユーザの発話を検出する。音声認識部１０８は、音声区間検出部１０７がユーザの発話を検出した場合に、音声入力部１０５が取得した音声を認識し、音声認識結果であるテキストを出力する。

次に、図２および図３を参照しながら、実施の形態１に係る音声認識装置１００の動作について説明する。図２は実施の形態１に係る音声認識装置１００の入力操作の一例を示す説明図であり、図３は実施の形態１に係る音声認識装置１００の動作を示すフローチャートである。
まず、図２（ａ）は、ユーザにより第１のタッチ操作が行われた時間Ａ_１、タッチ操作の入力タイムアウトを示す時間Ｂ_１、第２のタッチ操作が行われた時間Ｃ_１、しきい値学習完了を示す時間Ｄ_１、および音声入力タイムアウトを示す時間Ｅ_１を時間軸上に示している。
図２（ｂ）は、音声入力部１０５に入力される音声の入力レベルの時間変化を示している。実線は発話音声Ｆ（Ｆ_１は発話音声の先頭、Ｆ_２は発話音声の末尾）を示し、一点破線は騒音Ｇを示している。なお、音声入力レベルの軸上に示した値Ｈは第１の音声区間検出しきい値を示し、値Ｉは第２の音声区間検出しきい値を示している。
図２（ｃ）は、音声認識装置１００のＣＰＵ負荷の時間変化を示している。領域Ｊは画像認識処理の負荷を示し、領域Ｋはしきい値学習処理の負荷を示し、領域Ｌは音声区間検出処理の負荷を示し、領域Ｍは音声認識処理の負荷を示している。

音声認識装置１００が機能している状態において、タッチ操作入力部１０１はタッチパネルへのタッチ操作が検出されたか否か判定を行っている（ステップＳＴ１）。当該判定が行われている状態において、ユーザがタッチパネルの一部を指で押下すると、タッチ操作入力部１０１は当該タッチ操作を検出し（ステップＳＴ１；ＹＥＳ）、タッチ操作を検出した座標値を取得して非発話区間判定部１０４に出力する（ステップＳＴ２）。非発話区間判定部１０４はステップＳＴ２で出力された座標値を取得すると、内蔵されたタイマを起動してタッチ操作を検出してからの経過時間の計測を開始する（ステップＳＴ３）。
例えば、ステップＳＴ１において図２（ａ）で示した第１のタッチ操作（時間Ａ_１）を検出すると、ステップＳＴ２で当該第１のタッチ操作の座標値を取得し、ステップＳＴ３で第１のタッチ操作を検出してからの経過時間を計測する。計測される経過時間は、図２（ａ）のタッチ操作入力タイムアウト（時間Ｂ_１）への到達を判定するために用いられる。

非発話区間判定部１０４は、音声入力部１０５に音声入力の開始を指示し、音声入力部１０５は当該指示に基づいて音声の入力受け付けを開始し（ステップＳＴ４）、取得した音声を音声データに変換する（ステップＳＴ５）。変換された音声データは、例えば音声入力部１０５が取得した音声信号をデジタル化したＰＣＭ（ＰｕｌｓｅＣｏｄｅＭｏｄｕｌａｔｉｏｎ）データなどで構成される。

また、非発話区間判定部１０４は、ステップＳＴ２で出力された座標値が設定された発話を示す領域外の値であるか否か判定を行う（ステップＳＴ６）。座標値が発話を示す領域外の値である場合（ステップＳＴ６；ＹＥＳ）、発話を伴わない非発話の操作であると判断して画像入力部１０２に画像入力の開始を指示する。画像入力部１０２は当該指示に基づいて動画像入力の受け付けを開始し（ステップＳＴ７）、取得した動画像を動画データなどのデータ信号に変換する（ステップＳＴ８）。ここで、動画データとは、例えば画像入力部１０２が取得した画像信号をデジタル化して連続した静止画像の列に変換した画像フレームなどで構成される。以下、画像フレームを例に説明する。

口唇画像認識部１０３は、ステップＳＴ８で変換された画像フレームからユーザの口唇の動きを画像認識する（ステップＳＴ９）。口唇画像認識部１０３は、ステップＳＴ９で認識した画像認識結果からユーザが発話しているか否か判定を行う（ステップＳＴ１０）。ステップＳＴ１０の具体的な処理としては、例えば口唇画像認識部１０３は画像フレームから口唇画像を抽出し、口唇の幅と高さとから口唇の形状を公知の技術により算出した後、口唇形状の変化があらかじめ設定された発話時の口唇形状パターンと一致するか否かにより発話しているか否かの判定を行う。口唇形状パターンと一致する場合には発話していると判定する。

口唇画像認識部１０３においてユーザが発話していると判定された場合（ステップＳＴ１０；ＹＥＳ)、ステップＳＴ１２の処理に進む。一方、口唇画像認識部１０３においてユーザが発話していないと判定された場合（ステップＳＴ１０；ＮＯ）、非発話区間判定部１０４は音声区間検出しきい値学習部１０６に対して音声区間検出のしきい値を学習するよう指示する。音声区間検出しきい値学習部１０６は当該指示に基づいて、例えば音声入力部１０５から入力された音声データから所定の時間内で最も大きい音声入力レベルの値を記録する（ステップＳＴ１１）。

さらに、非発話区間判定部１０４は、ステップＳＴ３で起動したタイマが計測したタイマ値が、あらかじめ設定したタイムアウトしきい値に到達したか否か、すなわちタッチ操作入力のタイムアウトに到達したか否か判定を行う（ステップＳＴ１２）。具体的には、図２の時間Ｂ_１に到達したか否か判定を行う。タッチ操作入力のタイムアウトに到達していない場合（ステップＳＴ１２；ＮＯ）、ステップＳＴ９の処理に戻り、上述した処理を繰り返す。一方、タッチ操作入力のタイムアウトに到達した場合（ステップＳＴ１２；ＹＥＳ）、非発話区間判定部１０４は、音声区間検出しきい値学習部１０６に対してステップＳＴ１１で記録した音声入力レベルの値を第１の音声区間検出しきい値として記憶領域（不図示）に保存させる（ステップＳＴ１３）。図２の例では、第１のタッチ操作を検出した時間Ａ_１からタッチ操作入力タイムアウトの時間Ｂ_１までの時間内に入力された音声データから最も大きい音声入力レベルの値、即ち図２（ｂ）の値Ｈを第１の音声区間検出しきい値として保存する。

続いて、非発話区間判定部１０４は、画像入力部１０２に対して画像入力の受け付けを停止する指示を出力し（ステップＳＴ１４）、音声入力部１０５に対して音声入力の受け付けを停止する指示を出力する（ステップＳＴ１５）。その後、フローチャートはステップＳＴ１の処理に戻り、上述した処理を繰り返す。
上述したステップＳＴ７からステップＳＴ１５の処理により、画像認識処理を実施している間は音声区間検出しきい値学習処理のみが動作する（図２（ｃ）の時間Ａ_１から時間Ｂ_１における領域Ｊ（画像認識処理）および領域Ｋ（音声区間検出しきい値学習処理）参照）。

一方、ステップＳＴ６の判定処理において、座標値が発話を示す領域内の値である場合（ステップＳＴ６；ＮＯ）、発話を伴う操作であると判断して、非発話区間判定部１０４は音声区間検出しきい値学習部１０６に対して音声区間検出のしきい値の学習を指示する。音声区間検出しきい値学習部１０６は、当該指示に基づいて、例えば音声入力部１０５から入力された音声データから所定の時間内で最も大きい音声入力レベルの値を学習し、第２の音声区間検出しきい値として保存する（ステップＳＴ１６）。
図２の例では、第２のタッチ操作を検出した時間Ｃ_１からしきい値学習が完了した時間Ｄ_１までの時間内に入力された音声データから最も大きい音声入力レベルの値、即ち図２（ｂ）の値Ｉを第２の音声区間検出しきい値として保存する。なお、第２の音声区間検出しきい値の学習時にはユーザが発話していないものとする。

次に、音声区間検出部１０７は、ステップＳＴ１６で保存された第２の音声区間検出しきい値に基づいて、ステップＳＴ１６の音声区間検出しきい値の学習が完了した後に音声入力部１０５を介して入力された音声データから音声区間が検出可能か否か判定を行う（ステップＳＴ１７）。図２の例では、第２の音声区間検出しきい値である値Ｉに基づいて音声区間を検出する。具体的には、しきい値学習完了の時間Ｄ_１の後に入力された音声データの音声入力レベルが第２の音声区間検出しきい値Ｉを上回った点を発話の先頭と判断し、発話の先頭に後続する音声データにおいて第２の音声区間検出しきい値である値Ｉを下回った点を発話の末尾と判断する。

仮に、音声データに騒音が存在しない場合には、図２の発話音声Ｆに示すように先頭Ｆ_１および末尾Ｆ_２の検出が可能となり、ステップＳＴ１７の判定処理において、音声区間が検出可能であると判定される（ステップＳＴ１７；ＹＥＳ）。音声区間が検出可能である場合（ステップＳＴ１７；ＹＥＳ）、音声区間検出部１０７は検出した音声区間を音声認識部１０８に入力し、音声認識部１０８が音声認識を行い、音声認識結果のテキストを出力する（ステップＳＴ２１）。その後、音声入力部１０５は非発話区間判定部１０４から入力される音声入力の受け付け停止指示に基づいて音声入力の受け付けを停止し（ステップＳＴ２２）、ステップＳＴ１の処理に戻る。

一方、仮に音声データに騒音が発生している場合、例えば図２の発話音声Ｆに騒音Ｇが重畳していると、発話音声Ｆの先頭Ｆ_１は第２の音声区間検出しきい値である値Ｉを上回るため正しく検出されるが、発話音声Ｆの末尾Ｆ_２が騒音Ｇと重畳して第２の音声区間検出しきい値の値Ｉを下回らないため正しく検出されず、ステップＳＴ１７の判定処理において音声区間が検出できないと判定される（ステップＳＴ１７；ＮＯ）。音声区間が検出できない場合（ステップＳＴ１７；ＮＯ）、音声区間検出部１０７はあらかじめ設定された音声入力タイムアウト値を参照して、音声入力タイムアウトに到達したか否か判定を行う（ステップＳＴ１８）。ステップＳＴ１８の処理についてより詳細に説明すると、音声区間検出部１０７は発話音声Ｆの先頭Ｆ_１を検出してからの時間をカウントしており、カウント値があらかじめ設定された音声入力タイムアウトの時間Ｅ_１に到達したか否かの判定を行う。

音声入力タイムアウトに到達していない場合（ステップＳＴ１８；ＮＯ）、音声区間検出部１０７は、ステップＳＴ１７の処理に戻り、音声区間の検出を続ける。一方、音声入力タイムアウトに到達した場合（ステップＳＴ１８；ＹＥＳ）、音声区間検出部１０７はステップＳＴ１３で保存された第１の音声区間検出しきい値を判定用のしきい値に設定する（ステップＳＴ１９）。

音声区間検出部１０７は、ステップＳＴ１９で設定された第１の音声区間検出しきい値に基づいて、ステップＳＴ１６の音声区間検出しきい値の学習が完了した後に音声入力部１０５を介して入力された音声データから音声区間が検出可能か否か判定を行う（ステップＳＴ２０）。ここでは、ステップＳＴ１６の学習処理後に入力された音声データを記憶領域（不図示）に格納しておき、格納されていた音声データに対してステップＳＴ１９で新たに設定された第１の音声区間検出しきい値を適用して発話音声の先頭および末尾を検出する。
図２の例において仮に騒音Ｇが発生している場合にも、発話音声Ｆの先頭Ｆ_１は第１の音声区間検出しきい値である値Ｈを上回り、且つ発話音声Ｆの末尾Ｆ_２が第１の音声区間検出しきい値である値Ｈを下回ることから、音声区間が検出可能であると判定される（ステップＳＴ２０；ＹＥＳ）。

音声区間が検出可能である場合（ステップＳＴ２０；ＹＥＳ）、ステップＳＴ２１の処理に進む。一方、第１の音声区間検出しきい値を適用しても音声区間が検出できない場合（ステップＳＴ２０；ＮＯ）、音声認識を行わずにステップＳＴ２２の処理に進み、ステップＳＴ１の処理に戻る。
ステップＳＴ１７からステップＳＴ２２の処理により音声認識処理を実施している間は音声区間検出処理のみが動作する（図２（ｃ）の時間Ｄ_１から時間Ｅ_１における領域Ｌ（音声区間検出処理）および領域Ｍ（音声認識処理）参照）。

以上のように、この実施の形態１によれば、タッチ操作で非発話の操作を検出し、非発話の操作時のみ画像認識処理を行ってユーザの発話の判定を行う非発話区間判定部１０４と、ユーザが非発話の場合に音声データの第１の音声区間検出しきい値を学習する音声区間検出しきい値学習部１０６と、タッチ操作で発話の操作を検出した後で学習した第２の音声区間検出しきい値を適用して音声区間検出に失敗した場合に、第１の音声区間検出しきい値を用いて再度音声区間検出を行う音声区間検出部１０７とを備えるように構成したので、発話操作時の学習区間で設定した第２の音声区間検出しきい値が適切な値でなかった場合にも、第１の音声区間検出しきい値を用いて正しい音声区間を検出することができる。また、画像認識処理と音声認識処理が同時に動作しないように制御することができ、処理性能の低いタブレット端末などに当該音声認識装置１００を適用した場合にも、音声認識結果を得るまでの遅延時間を短縮させ、音声認識性能の低下を抑制することができる。

また、上述した実施の形態１では、非発話の操作時のみカメラなどによって撮影した動画像データに対して画像認識処理を行いユーザが発話しているか否かの判定を行う構成を支援したが、カメラ以外の手段によって取得したデータを用いてユーザの発話を判定するように構成してもよい。例えば、タブレット端末が近接センサを搭載している場合には、当該近接センサによって取得したデータからタブレット端末のマイクとユーザの口唇との距離を算出し、マイクと口唇との距離があらかじめ設定したしきい値よりも小さくなった場合に、ユーザが発話したと判定するように構成してもよい。
これにより、音声認識処理が動作していない状態での装置への処理負荷の増大を抑制することができ、処理性能の低いタブレット端末において音声認識性能を向上させると共に、音声認識以外の処理を行うことができる。
さらに、近接センサを用いることにより、カメラを使用する場合よりも消費電力を抑制することができ、バッテリ寿命の制約が大きいタブレット端末において利便性を向上させることができる。

実施の形態２．
上述した実施の形態１では非発話の操作を検出した場合に、口唇画像認識部１０３が口唇画像の認識を行いユーザの発話を判定する構成を示したが、この実施の形態２ではユーザの操作状態に基づいて発話または非発話の操作を判定し、非発話操作時に音声入力レベルを学習する構成について説明を行う。

図４は、実施の形態２に係る音声認識装置２００の構成を示すブロック図である。
実施の形態２に係る音声認識装置２００は、実施の形態１で示した音声認識装置１００の画像入力部１０２、口唇画像認識部１０３および非発話区間判定部１０４に替えて、操作状態判定部（非音声操作認識部）２０１、操作シナリオ記憶部２０２および非発話区間判定部２０３を設けて構成している。
以下では、実施の形態１に係る音声認識装置１００の構成要素と同一または相当する部分には、実施の形態１で使用した符号と同一の符号を付して説明を省略または簡略化する。

操作状態判定部２０１は、タッチ操作入力部１０１から入力されるユーザのタッチパネルへのタッチ操作の情報および操作シナリオ記憶部２０２に記憶されたタッチ操作により遷移する操作状態を示す情報を参照して、ユーザの操作状態を判定する。ここで、タッチ操作の情報とは、例えばタッチパネルへのユーザの接触を検知した座標値などである。

操作シナリオ記憶部２０２は、タッチ操作により遷移する操作状態を記憶する記憶領域である。例えば、操作画面として、初期画面、初期画面の下位層に位置し、ユーザが操作画面を選択するための操作画面選択画面、当該操作画面選択画面の下位層に位置し、選択された画面での操作画面の３つの画面が設けられているとする。初期画面においてユーザがタッチ操作を行い操作画面選択画面に遷移した場合、操作状態が初期状態から操作画面選択状態に遷移することを示す情報が操作シナリオとして記憶されている。また、操作画面選択画面においてユーザが選択ボタンに対応したタッチ操作を行い、選択画面の操作画面に遷移した場合、操作状態が操作画面選択状態から選択した画面での特定項目入力状態に遷移することを示す情報が操作シナリオとして記憶されている。

図５は、実施の形態２に係る音声認識装置２００の操作シナリオ記憶部２０２が記憶する操作シナリオの一例を示す図である。
図５の例では、操作シナリオは、操作状態、表示画面、遷移条件、遷移先の状態、発話を伴う操作であるか非発話の操作であるかを示す情報で構成されている。
まず、操作状態は、上述した「初期状態」および「操作画面選択状態」に相当する具体例として「作業場所選択」が対応付けられ、上述した「選択した画面の操作状態」に相当する具体例として「場所Ａの作業中」および「場所Ｂの作業中」が対応付けられて構成されている。さらに、上述した「特定項目の入力状態」に相当する具体例として「作業Ｃ実施中」など４つの操作状態が対応付けられている。

例えば、操作状態が「作業場所選択」である場合、操作画面には「作業場所選択」が表示される。「作業場所選択」が表示された操作画面において、遷移条件である「作業場所Ａボタンにタッチ」を行った場合、「場所Ａの作業中」の操作状態に遷移する。一方、遷移条件である「作業場所Ｂボタンにタッチ」を行った場合、「場所Ｂの作業中」の操作状態に遷移する。「作業場所Ａボタンにタッチ」および「作業場所Ｂボタンにタッチ」の操作は非発話の操作であることを示している。

また、例えば、操作状態が「作業Ｃ実施中」である場合、操作画面には「作業Ｃ」が表示される「作業Ｃ」が表示された操作画面において、遷移条件である「終了ボタンにタッチ」を行った場合、「場所Ａの作業中」の操作状態に遷移する。「終了ボタンにタッチ」の操作は非発話の操作であることを示している。

次に、図６および図７を参照しながら、実施の形態２に係る音声認識装置２００の動作について説明する。図６は実施の形態２に係る音声認識装置２００の入力操作の一例を示す説明図であり、図７は実施の形態２に係る音声認識装置２００の動作を示すフローチャートである。なお、以下では実施の形態１に係る音声認識装置１００と同一のステップには図３で使用した符号と同一の符号を付し、説明を省略または簡略化する。

まず、図６（ａ）は、ユーザにより第１のタッチ操作が行われた時間Ａ_２、第１のタッチ操作の入力タイムアウトを示す時間Ｂ_２、第２のタッチ操作が行われた時間Ａ_３、第２のタッチ操作の入力タイムアウトを示す時間Ｂ_３、第３のタッチ操作が行われた時間Ｃ_２、しきい値学習完了を示す時間Ｄ_２、および音声入力タイムアウトを示す時間Ｅ_２を時間軸上に示している。
図６（ｂ）は、音声入力部１０５に入力される音声の入力レベルの時間変化を示している。実線は発話音声Ｆ（Ｆ_１は発話音声の先頭、Ｆ_２は発話音声の末尾）を示し、一点破線は騒音Ｇを示している。音声入力レベルの軸上に示した値Ｈは第１の音声区間検出しきい値を示し、値Ｉは第２の音声区間検出しきい値を示している。
図６（ｃ）は、音声認識装置２００のＣＰＵ負荷の時間変化を示している。領域Ｋはしきい値学習処理の負荷を示し、領域Ｌは音声区間検出処理の負荷を示し、領域Ｍは音声認識処理の負荷を示している。

ユーザがタッチパネルの一部を指で押下すると、タッチ操作入力部１０１は当該タッチ操作を検出し（ステップＳＴ１；ＹＥＳ）、タッチ操作を検知した座標値を取得して非発話区間判定部２０３および操作状態判定部２０１に出力する（ステップＳＴ３１）。非発話区間判定部２０３はステップＳＴ３１で出力された座標値を取得すると、内蔵されたタイマを起動してタッチ操作を検出してからの経過時間の計測を開始する（ステップＳＴ３）。さらに非発話区間判定部２０３は、音声入力部１０５に音声入力の開始を指示し、音声入力部１０５は当該指示に基づいて音声の入力受け付けを開始し（ステップＳＴ４）、取得した音声を音声データに変換する（ステップＳＴ５）。

一方、操作状態判定部２０１は、ステップＳＴ３１で出力された座標値を取得すると、操作シナリオ記憶部２０２を参照して操作画面の操作状態を判定する（ステップＳＴ３２）。判定結果は非発話区間判定部２０３に出力される。非発話区間判定部２０３は、ステップＳＴ３１で出力された座標値およびステップＳＴ３２で出力された操作状態を参照してタッチ操作が発話を伴わない非発話の操作であるか否か判定を行う（ステップＳＴ３３）。非発話の操作である場合（ステップＳＴ３３；ＹＥＳ）、非発話区間判定部２０３は、音声区間検出しきい値学習部１０６に対して音声区間検出のしきい値を学習するよう指示し、当該指示に基づいて音声区間検出しきい値学習部１０６は、例えば音声入力部１０５から入力された音声データから所定の時間内で最も大きい音声入力レベルの値を記録する（ステップＳＴ１１）。その後、ステップＳＴ１２、ＳＴ１３，ＳＴ１５の処理を行い、ステップＳＴ１の処理に戻る。

ステップＳＴ３３において非発話の操作であると判定される場合（ステップＳＴ３３；ＹＥＳ）の例を、以下に２つ示す。
まず、操作状態が「初期状態」から「操作画面選択状態」への遷移を示す場合を例に説明する。図６（ａ）の時間Ａ_２で示す第１のタッチ操作が入力された場合、ユーザの第１のタッチ操作が初期画面で行われ、当該第１のタッチ操作で入力された座標値が特定の操作画面への移行を選択する領域（例えば、操作画面選択へ進むボタン）内であった場合、操作状態判定部２０１は、ステップＳＴ３２として操作シナリオ記憶部２０２を参照して、操作状態が「初期状態」から「操作画面選択状態」に遷移することを示す遷移情報を判定結果として取得する。

非発話区間判定部２０３は、ステップＳＴ３２で取得された操作状態を参照して「初期状態」でのタッチ操作は、画面の遷移を行うための発話を必要としない非発話の操作であると判定する（ステップＳＴ３３；ＹＥＳ）。非発話の操作であると判定された場合には、第１のタッチ操作入力タイムアウトの時間Ｂ_２に到達するまで音声区間しきい値学習処理のみが動作する（図６（ｃ）の時間Ａ_２から時間Ｂ_２における領域Ｋ（音声区間検出しきい値学習処理）参照）。

次に、「操作画面選択状態」から「選択画面での操作状態」への遷移を示す場合を例に説明する。図６（ａ）の時間Ｂ_２で示す第２のタッチ操作が入力された場合、ユーザの第２のタッチ操作が操作画面選択画面で行われ、当該第２のタッチ操作で入力された座標値が特定の操作画面への移行を選択する領域（例えば、操作画面を選択するボタン）内であった場合、操作状態判定部２０１はステップＳＴ３２として操作シナリオ記憶部２０２を参照して、操作状態が「操作画面選択状態」から「選択画面での操作状態」に遷移することを示す遷移情報を判定結果として取得する。

非発話区間判定部２０３は、ステップＳＴ３２で取得された操作状態を参照して、「操作画面選択状態」でのタッチ操作は非発話の操作であると判定する（ステップＳＴ３３；ＹＥＳ）。非発話の操作であると判定された場合には、第２のタッチ操作入力タイムアウトの時間Ｂ_３に到達するまで音声区間しきい値学習処理のみが動作する（図６（ｃ）の時間Ａ_３から時間Ｂ_３における領域Ｋ（音声区間検出しきい値学習処理）参照）。

一方、発話の操作である場合（ステップＳＴ３３；ＮＯ）、非発話区間判定部２０３は、音声区間検出しきい値学習部１０６に対して音声区間検出のしきい値を学習するよう指示し、当該指示に基づいて音声区間検出しきい値学習部１０６は、例えば音声入力部１０５から入力された音声データから所定の時間内で最も大きい音声入力レベルの値を学習し、第２の音声区間検出しきい値として保存する（ステップＳＴ１６）。その後、ステップＳＴ１７からステップＳＴ２２と同様の処理を行う。

ステップＳＴ３３において発話の操作であると判定される場合（ステップＳＴ３３；ＮＯ）の例を、以下に示す。
「選択画面での操作状態」から「特定項目の入力状態」への遷移を示す場合を例に説明する。図６（ａ）の時間Ｃ_２で示す第３のタッチ操作が入力された場合、ユーザの第３のタッチ操作が選択画面での操作画面で行われ、当該第３のタッチ操作で入力された座標値が特定の操作項目への移行を選択する領域（例えば、項目を選択するボタン）内であった場合、操作状態判定部２０１はステップＳＴ３２として操作シナリオ記憶部２０２を参照して、操作状態が「操作画面での操作状態」から「特定項目の入力状態」に遷移することを示す遷移情報を判定結果として取得する。

非発話区間判定部２０３は、ステップＳＴ３２で取得された操作状態を参照して「選択画面での操作状態」でのタッチ操作であり、且つステップＳＴＳＴ３１で出力された座標値が発話を伴う特定の項目の入力領域内である場合に、発話の操作であると判定する（ステップＳＴ３３；ＮＯ）。発話の操作であると判定された場合には、しきい値学習完了の時間Ｄ_２まで音声区間しきい値学習処理が動作し、さらに音声入力タイムアウトの時間Ｅ_２まで音声区間検出処理および音声認識処理が動作する（（図６（ｃ）の時間Ｃ_２から時間Ｄ_２における領域Ｋ（音声区間検出しきい値学習処理）、時間Ｄ_２から時間Ｅ_２における領域Ｌ（音声区間検出処理）および領域Ｍ（音声認識処理）参照）。

以上のように、この実施の形態２によれば、操作シナリオ記憶部２０２に記憶されたタッチ操作により遷移する操作状態と、タッチ操作入力部１０１から入力されるタッチ操作の情報とから、ユーザの操作状態を判定する操作状態判定部２０１を備え、非発話の操作であると判定された場合に音声区間検出しきい値学習部１０６に対して第１の音声区間検出しきい値の学習を指示する非発話区間判定部２０３を備えるように構成したので、非発話の操作を検出するためにカメラなどの撮像手段を必要とせず、演算量の大きい画像認識処理を必要としないことから、処理性能の低いタブレット端末に当該音声認識装置２００を適用した場合にも音声認識性能の低下を抑制することができる。
また、発話の操作を検出した後に学習した第２の音声区間検出しきい値を用いて音声区間の検出に失敗した場合に、非発話の操作時に学習した第１の音声区間検出しきい値を用いて再度音声区間検出を行うように構成したので、発話の操作時に適切なしきい値が設定できなかった場合にも正しい音声区間を検出することができる。
また、非発話の操作を検出するためにカメラなどの入力手段を必要とせず、入力手段の消費電力を抑制することができる。これにより、バッテリ寿命の制約が大きいタブレット端末などにおいて利便性を向上させることができる。

実施の形態３．
上述した実施の形態１および実施の形態２を組み合わせて音声認識装置を構成してもよい。
図８は、実施の形態３に係る音声認識装置３００の構成を示すブロック図である。音声認識装置３００は、図４で示した実施の形態２に係る音声認識装置２００に画像入力部１０２および口唇画像認識部１０３を追加して設けると共に、非発話区間判定部２０３を非発話区間判定部３０１に置き換えて構成している。

非発話区間判定部３０１が発話を伴わない非発話の操作であると判定した場合に、画像入力部１０２がカメラなどの撮像手段により撮影された動画像を取得して画像データに変更し、口唇画像認識部１０３が取得された画像データの解析を行い、ユーザの口唇の動きを認識する。口唇画像認識部１０３においてユーザが発話していないと判定された場合に、非発話区間判定部３０１は音声区間検出しきい値学習部１０６に音声区間検出のしきい値の学習を指示する。

次に、図９および図１０を参照しながら、実施の形態３に係る音声認識装置３００の動作について説明する。図９は実施の形態３に係る音声認識装置３００の入力操作の一例を示す説明図であり、図１０は実施の形態３に係る音声認識装置３００の動作を示すフローチャートである。なお、以下では実施の形態２に係る音声認識装置２００と同一のステップには図７で使用した符号と同一の符号を付し、説明を省略または簡略化する。
まず、図９（ａ）から図９（ｃ）の構成は実施の形態２の図６で示した構成と同一であり、図９（ｃ）における画像認識処理を示す領域Ｊが追加されている点のみが異なる。

ステップＳＴ３３において、非発話区間判定部３０１がタッチ操作入力部１０１から出力された座標値および操作状態判定部２０１から出力された操作状態を参照してタッチ操作が発話を伴わない非発話の操作であるか否か判定を行う処理までは実施の形態２と同一であるため、説明を省略する。非発話の操作である場合（ステップＳＴ３３；ＹＥＳ）、非発話区間判定部３０１は、実施の形態１の図３で示したステップＳＴ１１からステップＳＴ１５の処理を行い、ステップＳＴ１の処理に戻る。すなわち、実施の形態２の処理に加えて、画像入力部１０２および口唇画像認識部１０３の画像認識処理を追加して行う。一方、発話の操作である場合（ステップＳＴ３３；ＮＯ）、ステップＳＴ１６からステップＳＴ２２の処理を行い、ステップＳＴ１の処理に戻る。

ステップＳＴ３３において非発話の操作であると判定される場合（ステップＳＴ３３；ＹＥＳ）の例は、図９における第１のタッチ操作および第２のタッチ操作である。一方、ステップＳＴ３３において発話の操作であると判定される場合（ステップＳＴ３３；ＮＯ）の例は、図９における第３のタッチ操作である。なお、図９（ｃ）において、第１のタッチ操作および第２のタッチ操作における音声区間検出しきい値学習処理（領域Ｋ参照）に加えて画像認識処理（領域Ｊ参照）がさらに行われている。その他は実施の形態２で示した図６と同一であるため、詳細な説明は省略する。

以上のように、この実施の形態３によれば、操作シナリオ記憶部２０２に記憶されたタッチ操作により遷移する操作状態と、タッチ操作入力部１０１から入力されるタッチ操作の情報とから、ユーザの操作状態を判定する操作状態判定部２０１を備え、非発話の操作であると判定された場合にのみ口唇画像認識部１０３に対して画像認識処理を指示し、非発話の操作であると判定された場合にのみ音声区間検出しきい値学習部１０６に対して第１の音声区間検出しきい値の学習を指示する非発話区間判定部３０１を備えるように構成したので、処理負荷の大きい画像認識処理と音声認識処理が同時に動作しないように制御し、且つ操作シナリオに基づいて画像認識処理を行う場合を制限することができる。また、確実にユーザが発話を行っていない時に第１の音声区間検出しきい値を学習することができる。これらにより、処理性能の低いタブレット端末などに当該音声認識装置３００を適用した場合にも音声認識性能を向上させることができる。
また、発話の操作を検出した後で学習した第２の音声区間検出しきい値を用いて音声区間検出に失敗した場合に、非発話の操作時に学習した第１の音声区間検出しきい値を用いて再度音声区間検出を行うように構成したので、発話の操作時に適切なしきい値が設定できなかった場合にも正しい音声区間を検出することができる。

また、上述した実施の形態３では、非発話の操作時のみカメラなどによって撮影した動画像に対して画像認識処理を行いユーザが発話しているか否かの判定を行う構成を示したが、カメラ以外の手段によって取得したデータを用いてユーザの発話を判定するように構成してもよい。例えば、タブレット端末が近接センサを搭載している場合には、当該近接センサによって取得したデータからタブレット端末のマイクとユーザの口唇との距離を算出し、マイクと口唇との距離があらかじめ設定したしきい値よりも小さくなった場合に、ユーザが発話したと判定するように構成してもよい。
これにより、音声認識処理が動作していない状態での装置への処理負荷の増大を抑制することができ、処理性能の低いタブレット端末において音声認識性能を向上させると共に、音声認識以外の処理を行うことができる。
さらに、近接センサを用いることにより、カメラを使用する場合よりも消費電力を抑制することができ、バッテリ寿命の制約が大きいタブレット端末において操作性を向上させることができる。

なお、上述した実施の形態１から実施の形態３では、音声区間検出しきい値学習部１０６が設定する音声入力レベルのしきい値を１つとする場合を例に示したが、非発話操作を検出するごとに音声区間検出しきい値学習部１０６が音声入力レベルのしきい値を学習し、学習したしきい値を複数設定するように構成してもよい。
複数のしきい値を設定する場合、音声区間検出部１０７は、図３のフローチャートで示したステップＳＴ１９およびステップＳＴ２０の音声区間検出処理を、設定された複数のしきい値を用いて複数回実施し、発話音声区間の先頭および末尾を検出した場合のみ、検出した音声区間として結果を出力するように構成してもよい。
これにより、音声区間検出処理のみ複数回実施させることができ、処理負荷の増大を抑制することができ、処理性能の低いタブレット端末に当該音声認識装置を適用した場合にも音声認識性能を向上させることができる。

また、上述した実施の形態１から実施の形態３では、図３のフローチャートで示したステップＳＴ２０の判定処理において、音声区間が検出されなかった場合、音声認識を行うことなく、音声の入力を停止する構成を示したが、音声区間が検出されなかった場合にも音声認識を行って認識結果を出力するように構成してもよい。
例えば、発話音声の先頭を検出したが末尾が検出されずに音声入力タイムアウトとなった場合、検出した発話音声の先頭から音声入力タイムアウトとなるまでの音声区間を音声区間として検出して音声認識を行い、認識結果を出力するように構成してもよい。これにより、ユーザが発話の操作を行った場合に必ず音声認識結果が応答として出力されるため、ユーザが音声認識装置の挙動を容易に把握することができ、音声認識装置の操作性を向上させることができる。

また、上述した実施の形態１から実施の形態３は、タッチ操作で発話の操作を検出した後に学習した第２の音声区間検出しきい値を用いて音声区間の検出に失敗した場合（例えば、タイムアウトが発生した場合）に、タッチ操作で非発話の操作時に学習した第１の音声区間検出しきい値を用いて再度音声区間検出処理を行い、音声認識結果を出力するように構成したが、音声区間の検出に失敗した場合でも音声認識を行って認識結果を出力し、非発話の操作時に学習した第１の音声区間検出しきい値を用いて音声区間検出を実施して得られた音声認識結果を修正候補として提示するように構成してもよい。これにより、音声認識結果を最初に出力するまでの応答時間を短縮することができ、音声認識装置の操作性を向上させることができる。

上述した実施の形態１から実施の形態３で示した音声認識装置１００，２００，３００は、例えば図１１で示すハードウェア構成を有するタブレット端末などの携帯端末４００に搭載される。図１１の携帯端末４００は、タッチパネル４０１、マイク４０２、カメラ４０３、ＣＰＵ４０４、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）４０５、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）４０６およびストレージ４０７で構成されている。ここで、音声認識装置１００，２００，３００を実行するハードウェアは、図１１で示したＣＰＵ４０４、ＲＯＭ４０５、ＲＡＭ４０６およびストレージ４０７である。

タッチ操作入力部１０１、画像入力部１０２、口唇画像認識部１０３、非発話区間判定部１０４，２０３，３０１、音声入力部１０５、しきい値学習部１０６、音声区間検出部１０７、音声認識部１０８および操作状態判定部２０１は、ＣＰＵ４０４がＲＯＭ４０５、ＲＡＭ４０６およびストレージ４０７に記憶されたプログラムを実行することにより、実現される。また、複数のプロセッサが連携して上述した機能を実行してもよい。

上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。

この発明に係る音声認識装置は、処理負荷を抑制することが可能なため、タブレット端末やスマートフォン端末など高い処理性能を有していない機器に適用し、迅速な音声認識結果の出力且つ性能の高い音声認識を行うのに適している。

１００，２００，３００音声認識装置、１０１タッチ操作入力部、１０２画像入力部、１０３口唇画像認識部、１０４，２０３，３０１非発話区間判定部、１０５音声入力部、１０６音声区間検出しきい値学習部、１０７音声区間検出部、１０８音声認識部、２０１操作状態判定部、２０２操作シナリオ記憶部、４００携帯端末、４０１タッチパネル、４０２マイク、４０３カメラ、４０４ＣＰＵ、４０５ＲＯＭ、４０６ＲＡＭ、４０７ストレージ。

Claims

集音された音声を取得し、音声データに変換する音声入力部と、
前記音声以外の情報を取得する非音声情報入力部と、
前記非音声情報入力部が取得した前記音声以外の情報からユーザ状態を認識する非音声操作認識部と、
前記非音声操作認識部が認識したユーザ状態から前記ユーザが発話しているか否か判定を行う非発話区間判定部と、
前記非発話区間判定部が前記ユーザが発話していないと判定した場合に前記音声入力部が変換した音声データから第１のしきい値を設定し、前記非発話区間判定部が前記ユーザが発話していると判定した場合に前記音声入力部が変換した音声データから第２のしきい値を設定するしきい値学習部と、
前記しきい値学習部が設定したしきい値を用いて前記音声入力部が変換した音声データからユーザの発話を示す音声区間を検出する音声区間検出部と、
前記音声区間検出部が検出した音声区間の音声データを認識して認識結果を出力する音声認識部とを備え、
前記音声区間検出部は、前記第２のしきい値を用いて前記音声区間を検出することができない場合に、前記第１のしきい値を適用して前記音声区間を検出することを特徴とする音声認識装置。
前記非音声情報入力部は、前記ユーザがタッチ操作入力を行った位置情報および前記ユーザ状態を撮像した画像データを取得し、
前記非音声操作認識部は、前記非音声情報入力部が取得した画像データから前記ユーザの口唇の動きを認識し、
前記非発話区間判定部は、前記非音声情報入力部が取得した位置情報および前記非音声操作認識部が認識した口唇の動きを示す情報から前記ユーザが発話しているか否か判定を行うことを特徴とする請求項１記載の音声認識装置。
前記非音声情報入力部は、前記ユーザがタッチ操作入力を行った位置情報を取得し、
前記非音声操作認識部は、前記非音声情報入力部が取得した位置情報およびタッチ操作入力により遷移する前記ユーザの操作状態を示した遷移情報から、前記ユーザの操作入力の操作状態を認識し、
前記非発話区間判定部は、前記非音声操作認識部が認識した操作状態および前記非音声情報入力部が取得した位置情報から、前記ユーザが発話しているか否か判定を行うことを特徴とする請求項１記載の音声認識装置。
前記非音声情報入力部は、前記ユーザがタッチ操作入力を行った位置情報および前記ユーザ状態を撮像した画像データを取得し、
前記非音声操作認識部は、前記非音声情報入力部が取得した位置情報およびタッチ操作入力により遷移する前記ユーザの操作状態を示した遷移情報から、前記ユーザの操作入力の操作状態を認識し、且つ前記非音声情報入力部が取得した画像データから前記ユーザの口唇の動きを認識し、
前記非発話区間判定部は、前記非音声操作認識部が認識した操作状態および口唇の動きを示す情報、および前記非音声情報入力部が取得した位置情報から、前記ユーザが発話しているか否か判定を行うことを特徴とする請求項１記載の音声認識装置。
前記音声区間検出部は、前記音声区間の開始点を検出してからの時間をカウントし、当該カウントした値が設定されたタイムアウト時間に到達しても前記音声区間の終了点を検出できない場合に、前記第２のしきい値を用いて前記音声区間の開始点から前記タイムアウト時間までを前記音声区間として検出し、さらに前記第１のしきい値を用いて前記音声区間の開始点から前記タイムアウト時間までを修正候補の音声区間として検出し、
前記音声認識部は、前記音声区間検出部が検出した前記音声区間の音声データを認識して認識結果を出力すると共に、前記修正候補の音声区間の音声データを認識して認識結果修正候補を出力することを特徴とする請求項１記載の音声認識装置。
音声入力部が、集音された音声を取得し、音声データに変換するステップと、
非音声情報入力部が、前記音声以外の情報を取得するステップと、
非音声操作認識部が、前記音声以外の情報からユーザ状態を認識するステップと、
非発話区間判定部が、前記認識したユーザ状態から前記ユーザが発話しているか否か判定を行うステップと、
しきい値学習部が、前記ユーザが発話していないと判定された場合に前記音声データから第１のしきい値を設定し、前記ユーザが発話していると判定された場合に前記音声データから第２のしきい値を設定するステップと、
音声区間検出部が、前記第１のしきい値または前記第２のしきい値を用いて前記音声入力部が変換した音声データからユーザの発話を示す音声区間を検出するステップであって、前記第２のしきい値を用いて前記音声区間を検出することができない場合に、前記第１のしきい値を適用して前記音声区間を検出するステップと、
音声認識部が、前記検出した音声区間の音声データを認識して認識結果を出力するステップとを備えたことを特徴とする音声認識方法。