JP2019113820A

JP2019113820A - 音声認識装置、ロボット、音声認識方法及び記録媒体

Info

Publication number: JP2019113820A
Application number: JP2018117630A
Authority: JP
Inventors: 敬輔島田; Keisuke Shimada
Original assignee: Casio Computer Co Ltd
Current assignee: Casio Computer Co Ltd
Priority date: 2017-12-25
Filing date: 2018-06-21
Publication date: 2019-07-11
Anticipated expiration: 2038-06-21
Also published as: CN110033790B; CN110033790A; JP6729635B2

Abstract

【課題】音声認識の精度に与える周囲の音声の影響を低減する。【解決手段】音声認識装置１００は、ユーザ（発話者）の口の動きを認識する。また、音声認識装置１００は、外部音を検出する。そして、音声認識装置１００は、ユーザの口の動きと外部音とに基づいて音声認識タイミングを制御する。【選択図】図１

Description

本発明は、音声認識装置、ロボット、音声認識方法及びプログラムに関する。

従来、人の声などを認識する音声認識装置が知られており、音声認識装置に人の声などを認識させることにより、話し言葉を文字列に変換したり、声の特徴から発声者を識別することが可能となっている。この音声認識装置では、音声認識の前段階として、例えば、発話者の口が開くタイミングと実際の発話開始のタイミングとの間でタイミングのズレが生ずることを見越して、事前にタイミングのズレの調整量を一律に設定する技術が開示されている（特許文献１参照）。

特開２０１４−１５３６６３号公報

しかしながら、発話者の口が開くタイミングと実際の発話開始のタイミングとの間で生ずるズレには個人差があるため、上記特許文献１に開示されている技術において、ズレの調整量を一律に設定すると、発話冒頭よりも前から音声認識が開始される場合があり、かかる場合に発話者の音声と周囲の音声とが結合されてしまうので、音声認識の精度が低下するおそれがある。

本発明は、このような問題に鑑みてなされたものであり、音声認識の精度に与える周囲の音声の影響を低減することを目的とする。

上記課題を解決するため、本発明に係る音声認識装置は、
発話者の口の動きを認識する認識手段と、
外部音を検出する検出手段と、
前記認識手段により認識された前記発話者の口の動きと前記検出手段により検出された外部音とに基づいて音声認識タイミングを制御する制御手段と、
を備えることを特徴とする。
ここで、外部音には、自装置の周囲の音声や発話者の音声が含まれるものとする。

本発明によれば、音声認識の精度に与える周囲の音声の影響を低減することができる。

本発明を適用した音声認識装置の概略構成を示すブロック図である。実施形態１の音声認識処理の一例を示すフローチャートである。周辺音声が大きいときと小さいときの各音声認識の開始タイミングを示すタイミングチャートである。実施形態２の音声認識処理の一例を示すフローチャートである。実施形態２の第１の音声認識処理の一例を示すフローチャートである。実施形態２のずれ調整量算出処理の一例を示すフローチャートである。実施形態２の変形例の第１の音声認識処理の一例を示すフローチャートである。実施形態２の変形例の識別器生成処理の一例を示すフローチャートである。

以下、本発明の音声認識装置、音声認識方法及びプログラムに係る実施の形態を図面に基づいて説明する。なお、本発明の音声認識装置は、ユーザ（発話者）を撮影しながら音声認識を行うことが可能なロボットであるものとして、以下説明を行う。

〔実施形態１〕
［音声認識装置１００の構成］
図１は、本実施形態の音声認識装置１００の機能的構成を示すブロック図である。
図１に示すように、音声認識装置１００は、ＣＰＵ１と、ＲＡＭ２と、記憶部３と、操作部４と、撮影部５と、音声入出力部６と、通信部７とを備えている。また、音声認識装置１００の各部は、バス８を介して接続されている。

ＣＰＵ（認識手段、検出手段、制御手段、調整手段）１は、記憶部３のプログラム記憶部３ａに記憶されているシステムプログラムやアプリケーションプログラムを読み出してＲＡＭ２のワークエリアに展開し、当該プログラムに従って音声認識装置１００の各部の動作を制御する。

ＲＡＭ２は、例えば、揮発性のメモリであり、ＣＰＵ１により読み出された各種のプログラムやデータを一時的に格納するワークエリアを有する。

記憶部３は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、ＥＥＰＲＯＭ（Electrically Erasable Programmable Read Only Memory）、フラッシュメモリなどにより構成される。
記憶部３には、プログラム記憶部３ａが設けられている。プログラム記憶部３ａには、ＣＰＵ１で実行されるシステムプログラムや、各種処理を実行するための処理プログラム、これらのプログラムの実行に必要なデータ等が記憶されている。

操作部４は、音声認識装置１００本体に対して各種指示を入力するためのものである。
具体的には、操作部４は、例えば、音声認識装置１００本体の電源のＯＮ／ＯＦＦに係る電源ボタン、モードや機能等の選択指示に係るカーソルボタンや決定ボタン（何れも図示略）を備えている。
そして、ユーザにより各種ボタンが操作されると、操作部４は、操作されたボタンに応じた操作指示をＣＰＵ１に出力する。ＣＰＵ１は、操作部４から出力され入力された操作指示に従って所定の動作を各部に実行させる。

撮影部５は、音声認識の対象となるユーザを撮影して撮影画像を生成する。撮影部５は、図示は省略するが、光学系及び撮像素子を備えるカメラと、カメラを制御する撮影制御部とを備えている。撮像素子は、例えば、ＣＣＤ（Charge Coupled Device）やＣＭＯＳ（Complementary Metal Oxide Semiconductor）等のイメージセンサである。そして、撮像素子は、光学系を通過した光学像を２次元の画像信号に変換する。カメラの光学系は、ロボットである音声認識装置１００と向き合っているユーザを正面から撮影可能な方向に向けられている。

音声入出力部６は、マイク、ＡＤコンバーター等の音声入力部と、ＤＡコンバーター、アンプ、スピーカー等の音声出力部とで構成される。音声入出力部６は、音声入力時にマイクからユーザの音声や周囲の音声の入力を受け付け、音声入力信号をデジタルの音声入力情報に変換してＣＰＵ１に出力し、音声出力時に音声出力信号をアナログの音声出力信号に変換してスピーカーから音声出力する。

通信部７は、例えば、ネットワークカード、モデム、ＴＡ、ルータなどにより構成される。また、通信部７は、アンテナ、変復調回路、信号処理回路などを備え無線通信が可能な構成であってもよい。通信部７は、通信ネットワーク上のサーバなどの外部機器と通信接続してデータ送受信を行う。
なお、ロボットとしての音声認識装置１００において、駆動部等の他の構成部は図示及び説明を省略している。

［音声認識装置１００の動作］
次に、本実施形態における音声認識装置１００の動作について説明する。

＜音声認識処理＞
図２は、音声認識処理を示すフローチャートである。この音声認識処理は、操作部４を介して、音声認識処理の実行指示が入力されたことをトリガとして実行される。なお、音声認識処理の実行開始に伴い、撮影部５による撮影画像の生成と音声入出力部６による音声の入力とが逐次行われるようになっている。

図２に示すように、ＣＰＵ１は、先ず、発話状態を初期化する（ステップＳ０）。具体的には、ＣＰＵ１は、発話中であるか否かを示す発話中フラグを「０」の状態にセットする。

次いで、ＣＰＵ１は、撮影部５により生成された撮影画像（最初のフレーム画像）を用いて、音声認識の対象となるユーザ（発話者）の顔検出処理を行う（ステップＳ１）。なお、顔検出処理は公知の技術を使用することで実現可能であるため、詳細な説明は省略する。

次いで、ＣＰＵ１は、ステップＳ１で検出された顔からこの顔のパーツ（例えば、上唇と下唇）を撮影画像上から検出する（ステップＳ２）。なお、顔のパーツ検出処理は公知の技術を使用することで実現可能であるため、詳細な説明は省略する。

次いで、ＣＰＵ１は、現在の時刻ｔを取得し（ステップＳ３）、ステップＳ２で検出された撮影画像（口唇画像）上のパーツ（例えば、上唇と下唇）の座標位置から口の開閉状態を判定する（ステップＳ４）。

ステップＳ４において、口が開いていると判定された場合（ステップＳ４；ＹＥＳ）、ＣＰＵ１は、発話中であるか否かを示す発話中フラグが「０」の状態であるか否か（発話中フラグがオフの状態であるか否か）を判定する（ステップＳ５）。

ステップＳ５において、発話中フラグが「０」の状態である、すなわち発話中でないと判定された場合（ステップＳ５；ＹＥＳ）、ＣＰＵ１は、発話開始のタイミングであると認識し、発話開始時刻ＳＴ（＝ｔ−（ＳＲＴ_ＭＩＮ＋ｒｔＣｏｅｆｆ×（ＳＲＴ_ＭＡＸ−ＳＲＴ_ＭＩＮ）））の調整を行う（ステップＳ６）。ここで、［ｔ］とは、ステップＳ３で取得された現在の時刻である。［ＳＲＴ_ＭＡＸ］とは、最大余白時間を示す定数であり、音声認識の際に発話の冒頭部分が切れないように余裕をもって設定される値である。［ＳＲＴ_ＭＩＮ］とは、最小余白時間を示す定数であり、ステップＳ６で調整される発話開始時刻ＳＴが実際の発話開始時刻の直前となるように設定される値である。［ｒｔＣｏｅｆｆ］とは、音声認識装置１００の周囲の音声（ノイズ）の大きさに応じて設定される調整係数である（ステップＳ１１〜Ｓ１５参照）。

次いで、ＣＰＵ１は、発話中フラグを「１」の状態（オンの状態）に更新する（ステップＳ７）。そして、ＣＰＵ１は、次の時刻の撮影画像（フレーム画像）を取得し（ステップＳ８）、処理をステップＳ１へ戻す。

また、ステップＳ５において、発話中フラグが「０」の状態でない、すなわち発話中であると判定された場合（ステップＳ５；ＮＯ）、ＣＰＵ１は、ステップＳ６及びステップＳ７をスキップして、ステップＳ８へ移行する。

また、ステップＳ４において、口が開いていないと判定された場合（ステップＳ４；ＮＯ）、ＣＰＵ１は、発話中フラグが「１」の状態であるか否か（発話中フラグがオンの状態であるか否か）を判定する（ステップＳ９）。

ステップＳ９において、発話中フラグが「１」の状態でない、すなわち発話中でないと判定された場合（ステップＳ９；ＮＯ）、ＣＰＵ１は、音声入出力部６のマイクより入力された音声入力信号から音声認識装置１００の周囲のノイズ音量（Ｎ音量（Ｎｐｏｗ））を算出する（ステップＳ１０）。ノイズ音量の算出方法は、過去一定時間に入力された音声入力信号の移動平均により算出しても良いし、直近のノイズ音量の影響が大きくなるようにしたい場合には加重移動平均により算出しても良い。ここで、ノイズ音量が算出されるノイズは、ユーザ（音声認識対象者）が発する音声の周波数範囲（例えば、１００〜１０００Ｈｚ（人の声の周波数））に含まれる音声（例えば、ユーザ（発話者）以外の人の声や、人の声以外の音）のみを対象とする（後述の実施形態２及び実施形態２の変形例も同様）。このように、ユーザ（発話者）が発する音声の周波数範囲に含まれる音声のみをノイズとみなし、ユーザが発する音声の周波数範囲外の音をノイズの対象外としている理由は、当該ユーザが発する音声の周波数範囲外の音は、明らかに人の発する音声とは異なり、音声認識の精度を低下させる原因とはなりにくいためである。

次いで、ＣＰＵ１は、ステップＳ１０で算出されたノイズ音量（Ｎｐｏｗ）が第１の閾値（ＴＨ_Ｎ_ＭＩＮ）よりも小さいか否かを判定する（ステップＳ１１）。

ステップＳ１１において、ノイズ音量（Ｎｐｏｗ）が第１の閾値（ＴＨ_Ｎ_ＭＩＮ）よりも小さいと判定された場合（ステップＳ１１；ＹＥＳ）、ＣＰＵ１は、調整係数（ｒｔＣｏｅｆｆ）を「１」に更新する（ステップＳ１２）。つまり、音声認識装置１００の周囲の音声（ノイズ）が小さい場合には、発話者の音声と周囲の音声とが結合され難いため、図３に示すように、ズレ調整量を大きくすることで、実際の発話開始時刻よりもだいぶ前から音声認識が開始されるようにしている。そして、ＣＰＵ１は、処理をステップＳ８へ移す。
一方、ステップＳ１１において、ノイズ音量（Ｎｐｏｗ）が第１の閾値（ＴＨ_Ｎ_ＭＩＮ）以上であると判定された場合（ステップＳ１１；ＮＯ）、ＣＰＵ１は、ノイズ音量（Ｎｐｏｗ）が第２の閾値（ＴＨ_Ｎ_ＭＡＸ）よりも大きいか否かを判定する（ステップＳ１３）。

ステップＳ１３において、ノイズ音量（Ｎｐｏｗ）が第２の閾値（ＴＨ_Ｎ_ＭＡＸ）よりも大きいと判定された場合（ステップＳ１３；ＹＥＳ）、ＣＰＵ１は、調整係数（ｒｔＣｏｅｆｆ）を「０」に更新する（ステップＳ１４）。つまり、音声認識装置１００の周囲の音声（ノイズ）が大きい場合には、発話者の音声と周囲の音声とが結合され易いため、図３に示すように、ズレ調整量を小さくすることで、実際の発話開始時刻の直前から音声認識が開始されるようにしている。そして、ＣＰＵ１は、処理をステップＳ８へ移行する。
一方、ステップＳ１３において、ノイズ音量（Ｎｐｏｗ）が第２の閾値（ＴＨ_Ｎ_ＭＡＸ）より大きくないと判定された場合（ステップＳ１３；ＮＯ）、ＣＰＵ１は、調整係数（ｒｔＣｏｅｆｆ）をｒｔＣｏｅｆｆ＝（ＴＨ_Ｎ_ＭＡＸ−Ｎｐｏｗ）／（ＴＨ_Ｎ_ＭＡＸ−ＴＨ_Ｎ_ＭＩＮ）の式に基づき更新し（ステップＳ１５）、ステップＳ８へ移行する。

また、ステップＳ９において、発話中フラグが「１」の状態である、すなわち発話中であると判定された場合（ステップＳ９；ＹＥＳ）、ＣＰＵ１は、発話終了のタイミングであると認識し、発話終了時刻ＥＴ（＝ｔ−（ＥＲＴ_ＭＩＮ＋ｒｔＣｏｅｆｆ×（ＥＲＴ_ＭＡＸ−ＥＲＴ_ＭＩＮ）））の調整を行う（ステップＳ１６）。ここで、［ｔ］とは、ステップＳ３で取得された現在の時刻である。［ＥＲＴ_ＭＡＸ］とは、最大余白時間を示す定数であり、音声認識の際に発話の終端部分が切れないように余裕をもって設定される値である。［ＥＲＴ_ＭＩＮ］とは、最小余白時間を示す定数であり、ステップＳ１６で調整される発話終了時刻ＥＴが実際の発話終了時刻の直後となるように設定される値である。［ｒｔＣｏｅｆｆ］とは、音声認識装置１００の周囲の音声（ノイズ）の大きさに応じて設定される調整係数である（ステップＳ１１〜Ｓ１５参照）。

次いで、ＣＰＵ１は、音声入出力部６により入力された音声のうち、ステップＳ６で調整された発話開始時刻ＳＴからステップＳ１６で調整された発話終了時刻ＥＴまでの区間（音声認識区間）の音声に対して音声認識を行い（ステップＳ１７）、音声認識処理を終了する。

以上のように、本実施形態の音声認識装置１００は、ユーザ（発話者）の口の動きを認識し、自装置の周囲の音声を検出し、ユーザの口の動きと自装置の周囲の音声とに基づいて音声認識タイミングを制御しているので、音声認識の精度に与える自装置の周囲の音声の影響を低減することができる。なお、音声認識タイミングが示すタイミングとは、一瞬（一時点）に限らず所定の期間（発話開始のタイミングから発話終了のタイミングまでの区間）を含むものである。

また、本実施形態の音声認識装置１００は、ユーザの口唇画像から口の動きとして当該ユーザの発話開始のタイミングと発話終了のタイミングとを認識するので、実際の発話タイミングとのズレを低減することができ、音声認識の精度に与える自装置の周囲の音声の影響をより低減することができる。

また、本実施形態の音声認識装置１００は、自装置の周囲の音声に基づいて発話開始のタイミングと発話終了のタイミングとを調整し、調整された発話開始のタイミングを音声認識の開始タイミングとするとともに、調整された発話終了のタイミングを音声認識の終了タイミングとするので、自装置の周囲の音声の結合や、発話冒頭部分の音声が失われるといった不具合を抑制することができ、音声認識の精度を向上させることができる。

また、本実施形態の音声認識装置１００は、自装置の周囲の音声の大きさを検出し、自装置の周囲の音声の大きさに基づいて音声認識タイミングを制御するので、音声認識の精度に与える自装置の周囲の音声の影響をより低減することができる。

また、本実施形態の音声認識装置１００は、自装置の周囲の音声の大きさが所定の閾値以上である場合、当該音声の大きさが所定の閾値よりも小さい場合に比べて、発話開始のタイミング及び発話終了のタイミングの調整量を小さくしたこととなる。
これにより、自装置の周囲の音声が大きい場合には、発話開始のタイミング及び発話終了のタイミングの調整量を小さくすることができるので、自装置の周囲の音声が発話音声と結合する可能性を低減することができ、音声認識の精度に与える自装置の周囲の音声の影響を低減することができる。

〔実施形態２〕
以下、本発明の実施形態２について説明する。
実施形態２における構成は、音声認識装置１００の記憶部３のプログラム記憶部３ａに本実施形態の音声認識処理を実行するためのプログラムが記憶されるとともに、記憶部３に顔データベースや個人ずれ調整量データベースが記憶されている他は、実施形態１で説明したものと同様であるので説明を省略し、以下実施形態２の動作について説明する。

＜音声認識処理＞
図４は、実施形態２の音声認識処理を示すフローチャートである。
図４に示すように、ＣＰＵ１は、先ず、音声入出力部６のマイクより入力された音声入力信号から音声認識装置１００の周囲のノイズ音量（Ｎ音量（Ｎｐｏｗ））を算出する（ステップＳ２０）。

次いで、ＣＰＵ１は、ステップＳ２０で算出されたノイズ音量（Ｎｐｏｗ）が所定の閾値よりも大きいか否かを判定する（ステップＳ２１）。

ステップＳ２１において、ノイズ音量（Ｎｐｏｗ）が所定の閾値よりも大きいと判定された場合（ステップＳ２１；ＹＥＳ）、ＣＰＵ１は、後述する第１の音声認識処理（ステップＳ２２）を実行し、音声認識処理を終了する。
一方、ステップＳ２１において、ノイズ音量（Ｎｐｏｗ）が所定の閾値よりも大きくないと判定された場合（ステップＳ２１；ＮＯ）、ＣＰＵ１は、第２の音声認識処理を実行し、音声認識処理を終了する。なお、第２の音声認識処理は、実施形態１で説明した音声認識処理と同様であるので説明を省略する。

＜第１の音声認識処理＞
図５は、第１の音声認識処理を示すフローチャートである。
図５に示すように、ＣＰＵ１は、先ず、発話状態を初期化する（ステップＳ３０）。具体的には、ＣＰＵ１は、発話中であるか否かを示す発話中フラグを「０」の状態にセットする。

次いで、ＣＰＵ１は、撮影部５により生成された撮影画像（最初のフレーム画像）を用いて、音声認識の対象となるユーザ（発話者）の顔検出処理を行う（ステップＳ３１）。

次いで、ＣＰＵ１は、記憶部３に記憶されている顔データベースを用いて、ステップＳ３１で検出された顔について個人識別処理（ステップＳ３２）を行う。なお、個人識別処理は公知の技術を使用することで実現可能であるため、詳細な説明は省略する。

次いで、ＣＰＵ１は、個人識別処理（ステップＳ３２）により識別された個人ＩＤに対応するずれ調整量が個人ずれ調整量データベースに登録されているか否かを判定する（ステップＳ３３）。

ステップＳ３３において、個人ＩＤに対応するずれ調整量が個人ずれ調整量データベースに登録されていないと判定された場合（ステップＳ３３；ＮＯ）、ＣＰＵ１は、デフォルトのずれ調整量をセットする（ステップＳ３４）。具体的には、ＣＰＵ１は、発話開始時刻ＳＴのずれを調整する際のずれ調整量（ＳＲＴ_ＰＥＲＳＯＮＡＬ＝デフォルト値）、及び、発話終了時刻ＥＴのずれを調整する際のずれ調整量（ＥＲＴ_ＰＥＲＳＯＮＡＬ＝デフォルト値）をセットする。
一方、ステップＳ３３において、個人ＩＤに対応するずれ調整量が個人ずれ調整量データベースに登録されていると判定された場合（ステップＳ３３；ＹＥＳ）、ＣＰＵ１は、個人用のずれ調整量をセットする（ステップＳ３５）。具体的には、ＣＰＵ１は、発話開始時刻ＳＴのずれを調整する際のずれ調整量（ＳＲＴ_ＰＥＲＳＯＮＡＬ＝個人用の値）、及び、発話終了時刻ＥＴのずれを調整する際のずれ調整量（ＥＲＴ_ＰＥＲＳＯＮＡＬ＝個人用の値）をセットする。

次いで、ＣＰＵ１は、ステップＳ３１で検出された顔からこの顔のパーツ（例えば、上唇と下唇）を撮影画像上から検出する（ステップＳ３６）。

次いで、ＣＰＵ１は、現在の時刻ｔを取得し（ステップＳ３７）、ステップＳ３６で検出された撮影画像（口唇画像）上のパーツ（例えば、上唇と下唇）の座標位置から口の開閉状態を判定する（ステップＳ３８）。

ステップＳ３８において、口が開いていると判定された場合（ステップＳ３８；ＹＥＳ）、ＣＰＵ１は、発話中であるか否かを示す発話中フラグが「０」の状態であるか否か（発話中フラグがオフの状態であるか否か）を判定する（ステップＳ３９）。

ステップＳ３９において、発話中フラグが「０」の状態である、すなわち発話中でないと判定された場合（ステップＳ３９；ＹＥＳ）、ＣＰＵ１は、発話開始のタイミングであると認識し、発話開始時刻ＳＴ（＝ｔ−ＳＲＴ_ＰＥＲＳＯＮＡＬ）の調整を行う（ステップＳ４０）。ここで、［ｔ］とは、ステップＳ３７で取得された現在の時刻である。［ＳＲＴ_ＰＥＲＳＯＮＡＬ］とは、ステップＳ３４又はステップＳ３５でセットされた値である。

次いで、ＣＰＵ１は、発話中フラグを「１」の状態（オンの状態）に更新する（ステップＳ４１）。そして、ＣＰＵ１は、次の時刻の撮影画像（フレーム画像）を取得し（ステップＳ４２）、処理をステップＳ３１へ戻す。

また、ステップＳ３９において、発話中フラグが「０」の状態でない、すなわち発話中であると判定された場合（ステップＳ３９；ＮＯ）、ＣＰＵ１は、ステップＳ４０及びステップＳ４１をスキップして、ステップＳ４２へ移行する。

また、ステップＳ３８において、口が開いていないと判定された場合（ステップＳ３８；ＮＯ）、ＣＰＵ１は、発話中フラグが「１」の状態であるか否か（発話中フラグがオンの状態であるか否か）を判定する（ステップＳ４３）。

ステップＳ４３において、発話中フラグが「１」の状態でない、すなわち発話中でないと判定された場合（ステップＳ４３；ＮＯ）、ステップＳ４２へ移行する。

また、ステップＳ４３において、発話中フラグが「１」の状態である、すなわち発話中であると判定された場合（ステップＳ４３；ＹＥＳ）、ＣＰＵ１は、発話終了のタイミングであると認識し、発話終了時刻ＥＴ（＝ｔ−ＥＲＴ_ＰＥＲＳＯＮＡＬ）の調整を行う（ステップＳ４４）。ここで、［ｔ］とは、ステップＳ３７で取得された現在の時刻である。［ＥＲＴ_ＰＥＲＳＯＮＡＬ］とは、ステップＳ３４又はステップＳ３５でセットされた値である。

次いで、ＣＰＵ１は、音声入出力部６により入力された音声のうち、ステップＳ４０で調整された発話開始時刻ＳＴからステップＳ４４で調整された発話終了時刻ＥＴまでの区間（音声認識区間）の音声に対して音声認識を行い（ステップＳ４５）、第１の音声認識処理を終了する。

＜ずれ調整量算出処理＞
図６は、ずれ調整量算出処理を示すフローチャートである。このずれ調整量算出処理は、上述の第１の音声認識処理の前に行われる処理であり、操作部４を介して、ずれ調整量算出処理の実行指示が入力されたことをトリガとして実行される。

図６に示すように、ＣＰＵ１は、先ず、静かな環境か否かを判定する（ステップＳ５０）。具体的には、ＣＰＵ１は、音声入出力部６のマイクより入力された音声入力信号から音声認識装置１００の周囲のノイズ音量（Ｎ音量（Ｎｐｏｗ））を算出する。そして、このノイズ音量が所定の閾値以下となる状態が一定時間継続された場合、静かな環境であると判定する。なお、静かな環境か否かの判定方法は、上述した方法に限定されるものではない。

ステップＳ５０において、静かな環境ではないと判定された場合（ステップＳ５０；ＮＯ）、ＣＰＵ１は、静かな環境であると判定されるまで、ステップＳ５０の処理を繰り返し行う。
一方、ステップＳ５０において、静かな環境であると判定された場合（ステップＳ５０；ＹＥＳ）、ＣＰＵ１は、ループ回数（ｉ）に初期値（１）を設定する（ステップＳ５１）。

次いで、ＣＰＵ１は、音声パワーを用いて発話開始時刻（ＳＴ_Ｖｉ）と発話終了時刻（ＥＴ_Ｖｉ）を推定する（ステップＳ５２）。具体的には、ＣＰＵ１は、音声入出力部６のマイクより入力された音声入力信号から発話者の音声パワーを算出し、例えば、この音声パワーが所定の閾値以上となったタイミングを発話開始時刻（ＳＴ_Ｖｉ）とし、その後、この音声パワーが所定の閾値以下になったタイミングを発話終了時刻（ＥＴ_Ｖｉ）と推定する。ここで、音声入出力部６のマイクより入力される音声入力信号は、後述のステップＳ５３の処理で用いられる口唇画像の撮影の際に音声入出力部６のマイクより入力される音声入力信号であり、当該口唇画像と同期がとられている。なお、発話開始時刻（ＳＴ_Ｖｉ）と発話終了時刻（ＥＴ_Ｖｉ）の推定方法は、上述した方法に限定されるものではない。

次いで、ＣＰＵ１は、口唇画像を用いて発話開始時刻（ＳＴｉ）と発話終了時刻（ＥＴｉ）を推定する（ステップＳ５３）。具体的には、ＣＰＵ１は、上述の第１の音声認識処理のステップＳ３８と同様にして、口唇画像上のパーツ（例えば、上唇と下唇）の座標位置から口の開閉状態を判定し、口が開いたと判定されたタイミングを発話開始時刻（ＳＴｉ）とし、その後、口が閉じたと判定されたタイミングを発話終了時刻（ＥＴｉ）と推定する。

次いで、ＣＰＵ１は、ループ回数（ｉ）を１インクリメントし（ステップＳ５４）、ループ回数（ｉ）が所定のループ回数（例えば、１０回）に到達したか否かを判定する（ステップＳ５５）。

ステップＳ５５において、ループ回数（ｉ）が所定のループ回数に到達していないと判定された場合（ステップＳ５５；ＮＯ）、ＣＰＵ１は、処理をステップＳ５２に戻し、それ以降の処理を繰り返し行う。
一方、ステップＳ５５において、ループ回数（ｉ）が所定のループ回数に到達したと判定された場合（ステップＳ５５；ＹＥＳ）、ＣＰＵ１は、下記の算出式に基づいて、ずれ調整量を算出する（ステップＳ５６）。ここで、ＣＰＵ１は、算出手段として機能したこととなる。
ＳＴ_ＰＥＲＳＯＮＡＬ＝Σ（ＳＴｉ−ＳＴ_Ｖｉ）／ｉ
ＥＴ_ＰＥＲＳＯＮＡＬ＝Σ（ＥＴｉ−ＥＴ_Ｖｉ）／ｉ

そして、ＣＰＵ１は、ステップＳ５６で算出されたずれ調整量を、発話者の個人ＩＤと対応付けて、記憶部３の個人ずれ調整量データベースに登録し、ずれ調整量算出処理を終了する。

以上のように、本実施形態の音声認識装置１００は、ユーザ（発話者）の口の動きを認識し、当該ユーザの音声を検出し、ユーザの口の動きと当該ユーザの音声とに基づいて音声認識タイミングを制御しているので、音声認識の精度に与える自装置の周囲の音声の影響を低減することができる。

また、本実施形態の音声認識装置１００は、検出されたユーザの音声に基づいて、当該ユーザの発話開始のタイミングに関するずれ、及び、当該ユーザの発話終了のタイミングに関するずれを調整する個人用のずれ調整量（ＳＲＴ_ＰＥＲＳＯＮＡＬ、ＥＲＴ_ＰＥＲＳＯＮＡＬ）を算出し、当該個人用のずれ調整量を加味した発話開始のタイミングを音声認識の開始タイミングとするとともに、当該個人用のずれ調整量を加味した発話終了のタイミングを音声認識の終了タイミングとするので、実際の発話タイミングとのズレをより低減することができ、音声認識の精度に与える自装置の周囲の音声の影響をより一層低減することができる。

また、本実施形態の音声認識装置１００は、自装置の周囲の音声を更に検出し、自装置の周囲の音声の大きさが所定の閾値以上である場合、上記の個人用のずれ調整量を加味した発話開始のタイミングを音声認識の開始タイミングとするとともに、当該個人用のずれ調整量を加味した発話終了のタイミングを音声認識の終了タイミングとするので、音声認識の精度に与える自装置の周囲の音声の影響を効果的に低減することができる。

〔実施形態２の変形例〕
以下、本発明の実施形態２の変形例について説明する。
この変形例では、上記実施形態２で説明した音声認識処理のうち、第１の音声認識処理（ステップＳ２２）の処理内容が異なる点、上記実施形態２で説明したずれ調整量算出処理の代わりに識別器生成処理が行われる点、また、上記実施形態２で説明した個人ずれ調整量データベースの代わりに識別器データベースと機械学習用データセットが記憶部３に記憶されている点の他は、実施形態２で説明したものと同様であるので説明を省略し、以下変形例の動作について説明する。

＜第１の音声認識処理＞
図７は、本変形例の第１の音声認識処理を示すフローチャートである。
図７に示すように、ＣＰＵ１は、先ず、発話状態を初期化する（ステップＳ６０）。具体的には、ＣＰＵ１は、発話中であるか否かを示す発話中フラグを「０」の状態にセットする。

次いで、ＣＰＵ１は、撮影部５により生成された撮影画像（最初のフレーム画像）を用いて、音声認識の対象となるユーザ（発話者）の顔検出処理を行う（ステップＳ６１）。

次いで、ＣＰＵ１は、記憶部３に記憶されている顔データベースを用いて、ステップＳ６１で検出された顔について個人識別処理（ステップＳ６２）を行う。

次いで、ＣＰＵ１は、個人識別処理（ステップＳ６２）により識別された個人ＩＤに対応する発話判定識別器が識別器データベースに登録されているか否かを判定する（ステップＳ６３）。

ステップＳ６３において、個人ＩＤに対応する発話判定識別器が識別器データベースに登録されていないと判定された場合（ステップＳ６３；ＮＯ）、ＣＰＵ１は、デフォルトの発話判定識別器をセットする（ステップＳ６４）。
一方、ステップＳ６３において、個人ＩＤに対応する発話判定識別器が識別器データベースに登録されていると判定された場合（ステップＳ６３；ＹＥＳ）、ＣＰＵ１は、個人用の発話判定識別器をセットする（ステップＳ６５）。

次いで、ＣＰＵ１は、現在の時刻ｔを取得し（ステップＳ６６）、ステップＳ６４又はステップＳ６５でセットされた発話判定識別器を用いて、ステップＳ６１の顔検出処理の際に取得された口唇画像（フレーム画像）が発話中の画像か非発話中の画像かを判定する（ステップＳ６７）。ここで、ＣＰＵ１は、判別手段として機能したこととなる。

ステップＳ６７において、発話中の画像であると判定された場合（ステップＳ６７；ＹＥＳ）、ＣＰＵ１は、発話中であるか否かを示す発話中フラグが「０」の状態であるか否か（発話中フラグがオフの状態であるか否か）を判定する（ステップＳ６８）。

ステップＳ６８において、発話中フラグが「０」の状態である、すなわち発話中でないと判定された場合（ステップＳ６８；ＹＥＳ）、ＣＰＵ１は、発話開始のタイミングであると認識し、発話開始時刻ＳＴ（＝ｔ）の調整を行う（ステップＳ６９）。ここで、［ｔ］とは、ステップＳ６６で取得された現在の時刻である。

次いで、ＣＰＵ１は、発話中フラグを「１」の状態（オンの状態）に更新する（ステップＳ７０）。そして、ＣＰＵ１は、次の時刻の撮影画像（フレーム画像）を取得し（ステップＳ７１）、処理をステップＳ６１へ戻す。

また、ステップＳ６８において、発話中フラグが「０」の状態でない、すなわち発話中であると判定された場合（ステップＳ６８；ＮＯ）、ＣＰＵ１は、ステップＳ６９及びステップＳ７０をスキップして、ステップＳ７１へ移行する。

また、ステップＳ６７において、非発話中の画像であると判定された場合（ステップＳ６７；ＮＯ）、ＣＰＵ１は、発話中フラグが「１」の状態であるか否か（発話中フラグがオンの状態であるか否か）を判定する（ステップＳ７２）。

ステップＳ７２において、発話中フラグが「１」の状態でない、すなわち発話中でないと判定された場合（ステップＳ７２；ＮＯ）、ステップＳ７１へ移行する。

また、ステップＳ７２において、発話中フラグが「１」の状態である、すなわち発話中であると判定された場合（ステップＳ７２；ＹＥＳ）、ＣＰＵ１は、発話終了のタイミングであると認識し、発話終了時刻ＥＴ（＝ｔ）の調整を行う（ステップＳ７３）。ここで、［ｔ］とは、ステップＳ６６で取得された現在の時刻である。

次いで、ＣＰＵ１は、音声入出力部６により入力された音声のうち、ステップＳ６９で調整された発話開始時刻ＳＴからステップＳ７３で調整された発話終了時刻ＥＴまでの区間（音声認識区間）の音声に対して音声認識を行い（ステップＳ７４）、第１の音声認識処理を終了する。

＜識別器生成処理＞
図８は、識別器生成処理を示すフローチャートである。この識別器生成処理は、上述の第１の音声認識処理の前に行われる処理であり、操作部４を介して、識別器生成処理の実行指示が入力されたことをトリガとして実行される。

図８に示すように、ＣＰＵ１は、先ず、上述の実施形態２と同様、静かな環境か否かを判定する（ステップＳ８０）。

ステップＳ８０において、静かな環境ではないと判定された場合（ステップＳ８０；ＮＯ）、ＣＰＵ１は、静かな環境であると判定されるまで、ステップＳ８０の処理を繰り返し行う。
一方、ステップＳ８０において、静かな環境であると判定された場合（ステップＳ８０；ＹＥＳ）、ＣＰＵ１は、ループ回数（ｉ）に初期値（１）を設定する（ステップＳ８１）。

次いで、ＣＰＵ１は、上述の実施形態２と同様、音声パワーを用いて発話開始時刻（ＳＴ_Ｖｉ）と発話終了時刻（ＥＴ_Ｖｉ）を推定する（ステップＳ８２）。

次いで、ＣＰＵ１は、ステップＳ８２で推定された発話開始時刻（ＳＴ_Ｖｉ）と発話終了時刻（ＥＴ_Ｖｉ）を用いて、各フレーム画像（口唇画像）に対して、発話中か非発話中のラベリングを行う（ステップＳ８３）。ここで、ラベリングが行われた各フレーム画像は、記憶部３の機械学習用データセットへ登録されることとなる。

次いで、ＣＰＵ１は、ループ回数（ｉ）を１インクリメントし（ステップＳ８４）、ループ回数（ｉ）が所定のループ回数（例えば、１０回）に到達したか否かを判定する（ステップＳ８５）。

ステップＳ８５において、ループ回数（ｉ）が所定のループ回数に到達していないと判定された場合（ステップＳ８５；ＮＯ）、ＣＰＵ１は、処理をステップＳ８２に戻し、それ以降の処理を繰り返し行う。
一方、ステップＳ８５において、ループ回数（ｉ）が所定のループ回数に到達したと判定された場合（ステップＳ８５；ＹＥＳ）、ＣＰＵ１は、機械学習用データセットに登録された各フレーム画像を用いて機械学習を行い、発話判定識別器を生成する（ステップＳ８６）。ここで、ＣＰＵ１は、生成手段として機能したこととなる。

そして、ＣＰＵ１は、ステップＳ８６で生成された発話判定識別器を、発話者の個人ＩＤと対応付けて、記憶部３の識別器データベースに登録し、識別器生成処理を終了する。

以上のように、本変形例の音声認識装置１００は、検出されたユーザの音声と同期がとられている当該ユーザの口唇画像に対して発話中又は非発話中のラベリングを行うことにより、個人用の発話判定識別器を予め生成し、当該個人用の発話判定識別器を用いて、当該ユーザの口唇画像が発話中の画像であるか非発話中の画像であるかを判別し、判別の結果に基づいて、ユーザの口唇画像から口の動きとして当該ユーザの発話開始のタイミングと発話終了のタイミングを認識するので、実際の発話タイミングとのズレを低減することができ、音声認識の精度に与える自装置の周囲の音声の影響をより低減することができる。

また、本変形例の音声認識装置１００は、発話中又は非発話中のラベリングが行われた複数の口唇画像を機械学習させることにより個人用の発話判定識別器を生成するので、ユーザの発話開始のタイミングと発話終了のタイミングを認識する際の認識精度を向上させることができる。

また、本変形例の音声認識装置１００は、自装置の周囲の音声を更に検出し、自装置の周囲の音声の大きさが所定の閾値以上である場合、上述の発話判定識別器を用いて、ユーザの口唇画像が発話中の画像であるか非発話中の画像であるかを判別し、判別の結果に基づいて、当該ユーザの口唇画像から口の動きとして当該ユーザの発話開始のタイミングと発話終了のタイミングを認識するので、実際の発話タイミングとのズレを低減することができ、音声認識の精度に与える自装置の周囲の音声の影響を効果的に低減することができる。

以上、本発明の実施形態について説明したが、本発明は、かかる実施形態に限定されず、その要旨を逸脱しない範囲で、種々変形が可能であることは言うまでもない。

例えば、音声認識処理のステップＳ１０において、ノイズ音量（Ｎｐｏｗ）を算出するようにしたが、例えば、音声認識装置１００の周囲のＳＮ比を算出するようにしてもよい。この場合、算出されたＳＮ比に応じて、調整係数（ｒｔＣｏｅｆｆ）を更新する。また、ノイズ音量の算出方法として、例えば、音源定位の一手法であるＭＵＳＩＣ（MUltiple Signal Classification）法により導出されるＭＵＳＩＣパワーからノイズ音量を算出するようにしても良い。

また、発話開始時刻ＳＴや発話終了時刻ＥＴの調整を行う際のズレ調整量は、所定の計算式（図２のステップＳ６及びステップＳ１６参照）に基づき算出しているが、例えば、予め、音声認識装置１００の周辺音声の大小（多段階でもよい）やＳＮ比の大小（多段階でもよい）に対応するズレ調整量のテーブルを用意しておき、実際に計測された周辺音声やＳＮ比の大きさに応じたズレ調整量をこのテーブルから取得するようにしてもよい。

また、上記音声認識処理では、発話者の口唇画像から発話開始のタイミングと発話終了のタイミングの両方のタイミングを認識するようにしたが、例えば、これらのタイミングのうちのいずれか一方のタイミングのみを発話者の口唇画像から認識するようにしてもよく、かかる場合、他方のタイミングについては公知の技術により認識するようにする。

また、上記音声認識処理では、発話開始時刻ＳＴと発話終了時刻ＥＴの両方の時刻を周辺音声の大きさに対応した所定の計算式に基づき調整するようにしたが、例えば、これらの時刻のうちのいずれか一方の時刻のみを周辺音声の大きさに対応した所定の計算式に基づき調整するようにしてもよく、かかる場合、他方の時刻については公知の技術により調整するようにする。

また、音声認識処理のステップＳ１７において、発話終了時刻ＥＴを特定した後に音声認識を行っているが、発話開始時刻ＳＴを特定した時点で音声認識を行うようにしても良い。この場合、音声認識を開始した後、発話終了時刻ＥＴを特定したところで音声認識を終了するようにする。

また、音声認識処理のステップＳ２で検出されたパーツ（例えば、上唇と下唇）の座標位置から口の開閉状態を判定し、発話開始のタイミングと発話終了のタイミングを認識するようにしたが、例えば、操作部４の所定のボタンをユーザ（発話者）が押圧操作したタイミングを発話開始のタイミング、当該押圧操作を解除したタイミングを発話終了のタイミングとして認識するようにしても良い。また、上唇と下唇に限らず、顔全体の形状や、ジェスチャ、呼気、筋電位等の変化に基づいて発話開始のタイミングと発話終了のタイミングを認識するようにしても良い。また、音声認識装置１００側から、例えば、ランプを点灯させる等によって合図をおくっている所定の期間を音声認識区間（発話開始のタイミングから発話終了のタイミングまでの区間）として認識するようにしても良い。また、所定の閾値を越える音声信号の振幅について零交差数をカウントし、カウント数が１秒間に指定した数以上になったとき、このタイミングを発話開始のタイミングとし、零交差数が指定数以下になったとき、このタイミングを発話終了のタイミングとして認識するようにしても良い。

また、上記実施形態１では、音声認識処理（図２参照）のステップＳ４において、口の開閉を検出したか否かを判定するようにしたが、例えば、自装置の周囲の音声（ノイズ）の大きさが所定の閾値より大きい場合は、ステップＳ４の判定処理を実行する一方で、自装置の周囲の音声（ノイズ）の大きさが所定の閾値以下の場合は、ステップＳ４の判定処理を実行せず、すなわち発話開始のタイミング及び発話終了のタイミングを認識することなく、音声認識処理を実行するようにしてもよい。

また、上記実施形態１では、音声認識処理（図２参照）のステップＳ１０において、ノイズ音量を算出するようにしたが、例えば、ノイズが人の声によるものか人の声以外の音によるものかを判別するノイズ判別手段を備え、ノイズが人の声によるものであると判別された場合、当該人の声によるノイズ音量を算出する一方で、ノイズが人の声以外の音によるものであると判別された場合、ノイズ音量を算出せず、ステップＳ１１〜ステップＳ１５の処理をスキップするようにしてもよい。なお、ノイズ判別手段による上記の判別は、ノイズの周波数に基づいて判別するものとする。

また、上記実施形態２及び当該実施形態２の変形例では、自装置の周囲の音声（ノイズ）の大きさに応じて、第１の音声認識処理を行うか、第２の音声認識処理を行うかを振り分けるようにしたが、自装置の周囲の音声の大きさによらず、常に第１の音声認識処理を行うようにしてもよい。

以上、本発明の実施形態を説明したが、本発明の範囲は、上述の実施の形態に限定するものではなく、特許請求の範囲に記載された発明の範囲をその均等の範囲を含む。
以下に、この出願の願書に最初に添付した特許請求の範囲に記載した発明を付記する。付記に記載した請求項の項番は、この出願の願書に最初に添付した特許請求の範囲の通りである。

〔付記〕
＜請求項１＞
発話者の口の動きを認識する認識手段と、
外部音を検出する検出手段と、
前記認識手段により認識された前記発話者の口の動きと前記検出手段により検出された外部音とに基づいて音声認識タイミングを制御する制御手段と、
を備えることを特徴とする音声認識装置。
＜請求項２＞
前記検出手段は、前記外部音として自装置の周囲の音声を検出し、
前記制御手段は、前記認識手段により認識された前記発話者の口の動きと前記検出手段により検出された自装置の周囲の音声とに基づいて音声認識タイミングを制御する、
ことを特徴とする請求項１に記載の音声認識装置。
＜請求項３＞
前記認識手段は、前記発話者の口唇画像から前記口の動きとして当該発話者の発話開始のタイミングと発話終了のタイミングとのうちの少なくともいずれか一方を認識する、
ことを特徴とする請求項２に記載の音声認識装置。
＜請求項４＞
前記検出手段により検出された自装置の周囲の音声に基づいて前記発話開始のタイミングと前記発話終了のタイミングとのうちの少なくともいずれか一方を調整する調整手段を備え、
前記制御手段は、前記調整手段により調整された前記発話開始のタイミングを音声認識の開始タイミングとし、前記調整手段により調整された前記発話終了のタイミングを音声認識の終了タイミングとする、
ことを特徴とする請求項３に記載の音声認識装置。
＜請求項５＞
前記検出手段は、自装置の周囲の音声の大きさを検出し、
前記制御手段は、前記検出手段により検出された自装置の周囲の音声の大きさに基づいて音声認識タイミングを制御する、
ことを特徴とする請求項４に記載の音声認識装置。
＜請求項６＞
前記検出手段は、自装置の周囲のＳＮ比を検出し、
前記制御手段は、前記検出手段により検出された自装置の周囲のＳＮ比に基づいて音声認識タイミングを制御する、
ことを特徴とする請求項２から４のいずれか１項に記載の音声認識装置。
＜請求項７＞
前記調整手段は、前記検出手段により検出された自装置の周囲の音声の大きさが所定の閾値以上である場合、当該音声の大きさが所定の閾値よりも小さい場合に比べて、前記発話開始のタイミング及び前記発話終了のタイミングの調整量を小さくする、
ことを特徴とする請求項５に記載の音声認識装置。
＜請求項８＞
前記検出手段は、前記外部音として前記発話者の音声を検出し、
前記制御手段は、前記認識手段により認識された前記発話者の口の動きと前記検出手段により検出された当該発話者の音声とに基づいて音声認識タイミングを制御する、
ことを特徴とする請求項１に記載の音声認識装置。
＜請求項９＞
前記認識手段は、前記発話者の口唇画像から前記口の動きとして当該発話者の発話開始のタイミングと発話終了のタイミングとのうちの少なくともいずれか一方を認識する、
ことを特徴とする請求項８に記載の音声認識装置。
＜請求項１０＞
前記検出手段により検出された前記発話者の音声に基づいて、当該発話者の前記発話開始のタイミングに関するずれ、及び／又は、当該発話者の前記発話終了のタイミングに関するずれを調整するずれ調整量を算出する算出手段を備え、
前記制御手段は、前記算出手段により算出された前記ずれ調整量を加味した前記発話開始のタイミングを音声認識の開始タイミングとし、当該ずれ調整量を加味した前記発話終了のタイミングを音声認識の終了タイミングとする、
ことを特徴とする請求項９に記載の音声認識装置。
＜請求項１１＞
前記検出手段は、前記外部音として自装置の周囲の音声を更に検出し、
前記制御手段は、前記検出手段によって検出された自装置の周囲の音声の大きさが所定の閾値以上である場合、前記算出手段により算出された前記ずれ調整量を加味した前記発話開始のタイミングを音声認識の開始タイミングとし、当該ずれ調整量を加味した前記発話終了のタイミングを音声認識の終了タイミングとする、
ことを特徴とする請求項１０に記載の音声認識装置。
＜請求項１２＞
前記検出手段によって検出された前記発話者の音声と同期がとられている当該発話者の口唇画像に対して発話中又は非発話中のラベリングを行うことにより、当該発話者に対応した発話判定識別器を予め生成する生成手段と、
前記生成手段によって生成された前記発話判定識別器を用いて、当該発話判定識別器に対応する発話者の口唇画像が発話中の画像であるか非発話中の画像であるかを判別する判別手段と、を備え、
前記認識手段は、前記判別手段による判別の結果に基づいて、前記発話者の口唇画像から前記口の動きとして当該発話者の発話開始のタイミングと発話終了のタイミングとのうちの少なくともいずれか一方を認識する、
ことを特徴とする請求項８に記載の音声認識装置。
＜請求項１３＞
前記制御手段は、前記認識手段によって認識された前記発話開始のタイミングを音声認識の開始タイミングとし、前記発話終了のタイミングを音声認識の終了タイミングとして、音声認識タイミングを制御する、
ことを特徴とする請求項１２に記載の音声認識装置。
＜請求項１４＞
前記生成手段は、発話中又は非発話中のラベリングが行われた複数の前記口唇画像を機械学習させることにより前記発話判定識別器を生成する、
ことを特徴とする請求項１３に記載の音声認識装置。
＜請求項１５＞
前記検出手段は、自装置の周囲の音声を更に検出し、
前記制御手段は、前記検出手段によって検出された自装置の周囲の音声の大きさが所定の閾値以上である場合、前記認識手段によって認識された前記発話開始のタイミングを音声認識の開始タイミングとし、前記発話終了のタイミングを音声認識の終了タイミングとして、音声認識タイミングを制御する、
ことを特徴とする請求項１３又は１４に記載の音声認識装置。
＜請求項１６＞
前記制御手段は、前記音声認識タイミングとして音声認識区間を制御する、
ことを特徴とする請求項１から１５のいずれか１項に記載の音声認識装置。
＜請求項１７＞
前記検出手段は、前記発話者の音声の周波数範囲に含まれる音声を対象として、自装置の周囲の音声を検出する、
ことを特徴とする請求項２〜７、１１〜１５のいずれか一項に記載の音声認識装置。
＜請求項１８＞
前記自装置の周囲の音声には、前記発話者以外の人の声と、人の声以外の音が含まれることを特徴とする請求項１７に記載の音声認識装置。
＜請求項１９＞
請求項１から１６のいずれか１項に記載の前記音声認識装置を搭載したロボット。
＜請求項２０＞
発話者の口の動きを認識する認識ステップと、
外部音を検出する検出ステップと、
前記認識ステップにより認識された前記発話者の口の動きと前記検出ステップにより検出された外部音とに基づいて音声認識タイミングを制御する制御ステップと、
を含むことを特徴とする音声認識方法。
＜請求項２１＞
コンピュータを、
発話者の口の動きを認識する認識手段、
外部音を検出する検出手段、
前記認識手段により認識された前記発話者の口の動きと前記検出手段により検出された外部音とに基づいて音声認識タイミングを制御する制御手段、
として機能させることを特徴とするプログラム。

１００音声認識装置
１ＣＰＵ
２ＲＡＭ
３記憶部
３ａプログラム記憶部
４操作部
５撮影部
６音声入出部
７通信部

本発明は、音声認識装置、ロボット、音声認識方法及び記録媒体に関する。

上記課題を解決するため、本発明に係る音声認識装置は、
発話者の口の動きを認識する認識手段と、
自装置の周囲の音声のうちノイズ音を検出する検出手段と、
前記認識手段により認識された前記発話者の口の動きと前記検出手段により検出された自装置の周囲の音声のうちノイズ音とに基づいて音声認識タイミングを制御する制御手段と、
を備えることを特徴とする。

Claims

発話者の口の動きを認識する認識手段と、
外部音を検出する検出手段と、
前記認識手段により認識された前記発話者の口の動きと前記検出手段により検出された外部音とに基づいて音声認識タイミングを制御する制御手段と、
を備えることを特徴とする音声認識装置。
前記検出手段は、前記外部音として自装置の周囲の音声を検出し、
前記制御手段は、前記認識手段により認識された前記発話者の口の動きと前記検出手段により検出された自装置の周囲の音声とに基づいて音声認識タイミングを制御する、
ことを特徴とする請求項１に記載の音声認識装置。
前記認識手段は、前記発話者の口唇画像から前記口の動きとして当該発話者の発話開始のタイミングと発話終了のタイミングとのうちの少なくともいずれか一方を認識する、
ことを特徴とする請求項２に記載の音声認識装置。
前記検出手段により検出された自装置の周囲の音声に基づいて前記発話開始のタイミングと前記発話終了のタイミングとのうちの少なくともいずれか一方を調整する調整手段を備え、
前記制御手段は、前記調整手段により調整された前記発話開始のタイミングを音声認識の開始タイミングとし、前記調整手段により調整された前記発話終了のタイミングを音声認識の終了タイミングとする、
ことを特徴とする請求項３に記載の音声認識装置。
前記検出手段は、自装置の周囲の音声の大きさを検出し、
前記制御手段は、前記検出手段により検出された自装置の周囲の音声の大きさに基づいて音声認識タイミングを制御する、
ことを特徴とする請求項４に記載の音声認識装置。
前記検出手段は、自装置の周囲のＳＮ比を検出し、
前記制御手段は、前記検出手段により検出された自装置の周囲のＳＮ比に基づいて音声認識タイミングを制御する、
ことを特徴とする請求項２から４のいずれか１項に記載の音声認識装置。
前記調整手段は、前記検出手段により検出された自装置の周囲の音声の大きさが所定の閾値以上である場合、当該音声の大きさが所定の閾値よりも小さい場合に比べて、前記発話開始のタイミング及び前記発話終了のタイミングの調整量を小さくする、
ことを特徴とする請求項５に記載の音声認識装置。
前記検出手段は、前記外部音として前記発話者の音声を検出し、
前記制御手段は、前記認識手段により認識された前記発話者の口の動きと前記検出手段により検出された当該発話者の音声とに基づいて音声認識タイミングを制御する、
ことを特徴とする請求項１に記載の音声認識装置。
前記認識手段は、前記発話者の口唇画像から前記口の動きとして当該発話者の発話開始のタイミングと発話終了のタイミングとのうちの少なくともいずれか一方を認識する、
ことを特徴とする請求項８に記載の音声認識装置。
前記検出手段により検出された前記発話者の音声に基づいて、当該発話者の前記発話開始のタイミングに関するずれ、及び／又は、当該発話者の前記発話終了のタイミングに関するずれを調整するずれ調整量を算出する算出手段を備え、
前記制御手段は、前記算出手段により算出された前記ずれ調整量を加味した前記発話開始のタイミングを音声認識の開始タイミングとし、当該ずれ調整量を加味した前記発話終了のタイミングを音声認識の終了タイミングとする、
ことを特徴とする請求項９に記載の音声認識装置。
前記検出手段は、前記外部音として自装置の周囲の音声を更に検出し、
前記制御手段は、前記検出手段によって検出された自装置の周囲の音声の大きさが所定の閾値以上である場合、前記算出手段により算出された前記ずれ調整量を加味した前記発話開始のタイミングを音声認識の開始タイミングとし、当該ずれ調整量を加味した前記発話終了のタイミングを音声認識の終了タイミングとする、
ことを特徴とする請求項１０に記載の音声認識装置。
前記検出手段によって検出された前記発話者の音声と同期がとられている当該発話者の口唇画像に対して発話中又は非発話中のラベリングを行うことにより、当該発話者に対応した発話判定識別器を予め生成する生成手段と、
前記生成手段によって生成された前記発話判定識別器を用いて、当該発話判定識別器に対応する発話者の口唇画像が発話中の画像であるか非発話中の画像であるかを判別する判別手段と、を備え、
前記認識手段は、前記判別手段による判別の結果に基づいて、前記発話者の口唇画像から前記口の動きとして当該発話者の発話開始のタイミングと発話終了のタイミングとのうちの少なくともいずれか一方を認識する、
ことを特徴とする請求項８に記載の音声認識装置。
前記制御手段は、前記認識手段によって認識された前記発話開始のタイミングを音声認識の開始タイミングとし、前記発話終了のタイミングを音声認識の終了タイミングとして、音声認識タイミングを制御する、
ことを特徴とする請求項１２に記載の音声認識装置。
前記生成手段は、発話中又は非発話中のラベリングが行われた複数の前記口唇画像を機械学習させることにより前記発話判定識別器を生成する、
ことを特徴とする請求項１３に記載の音声認識装置。
前記検出手段は、自装置の周囲の音声を更に検出し、
前記制御手段は、前記検出手段によって検出された自装置の周囲の音声の大きさが所定の閾値以上である場合、前記認識手段によって認識された前記発話開始のタイミングを音声認識の開始タイミングとし、前記発話終了のタイミングを音声認識の終了タイミングとして、音声認識タイミングを制御する、
ことを特徴とする請求項１３又は１４に記載の音声認識装置。
前記制御手段は、前記音声認識タイミングとして音声認識区間を制御する、
ことを特徴とする請求項１から１５のいずれか１項に記載の音声認識装置。
前記検出手段は、前記発話者の音声の周波数範囲に含まれる音声を対象として、自装置の周囲の音声を検出する、
ことを特徴とする請求項２〜７、１１〜１５のいずれか一項に記載の音声認識装置。
前記自装置の周囲の音声には、前記発話者以外の人の声と、人の声以外の音が含まれることを特徴とする請求項１７に記載の音声認識装置。
請求項１から１６のいずれか１項に記載の前記音声認識装置を搭載したロボット。
発話者の口の動きを認識する認識ステップと、
外部音を検出する検出ステップと、
前記認識ステップにより認識された前記発話者の口の動きと前記検出ステップにより検出された外部音とに基づいて音声認識タイミングを制御する制御ステップと、
を含むことを特徴とする音声認識方法。
コンピュータを、
発話者の口の動きを認識する認識手段、
外部音を検出する検出手段、
前記認識手段により認識された前記発話者の口の動きと前記検出手段により検出された外部音とに基づいて音声認識タイミングを制御する制御手段、
として機能させることを特徴とするプログラム。