JP6230726B2 - 音声認識装置および音声認識方法 - Google Patents
音声認識装置および音声認識方法 Download PDFInfo
- Publication number
- JP6230726B2 JP6230726B2 JP2016564532A JP2016564532A JP6230726B2 JP 6230726 B2 JP6230726 B2 JP 6230726B2 JP 2016564532 A JP2016564532 A JP 2016564532A JP 2016564532 A JP2016564532 A JP 2016564532A JP 6230726 B2 JP6230726 B2 JP 6230726B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- voice
- unit
- user
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/04—Segmentation; Word boundary detection
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/01—Input arrangements or combined input and output arrangements for interaction between user and computer
- G06F3/03—Arrangements for converting the position or the displacement of a member into a coded form
- G06F3/041—Digitisers, e.g. for touch screens or touch pads, characterised by the transducing means
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/24—Speech recognition using non-acoustical features
- G10L15/25—Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L2025/783—Detection of presence or absence of voice signals based on threshold decision
- G10L2025/786—Adaptive threshold
Description
この発明は、入力された音声から音声区間を抽出し、抽出した音声区間に対して音声認識を行う音声認識装置および音声認識方法に関するものである。
近年、携帯端末やナビゲーション装置には操作入力を音声で行うための音声認識装置が搭載されている。音声認識装置に入力される音声信号には、操作入力を指示するユーザが発話した音声のみならず外部の騒音など目的外の音も含まれる。そこで、騒音環境下で入力された音声信号からユーザが発話した区間(以下、音声区間と称する)を適切に抽出して音声認識を行う技術が必要であり、種々の技術が開示されている。
例えば、特許文献1には、音声信号から音声区間検出用の音響特徴量を抽出し、画像フレームから音声区間検出用の画像特徴量を抽出し、抽出した音響特徴量および画像特徴量を合わせた音響画像特徴量を生成し、当該音響画像特徴量に基づいて音声区間を判定する音声区間検出装置が開示されている。
また、特許文献2には、音声入力話者の口元画像の解析から発話の有無を判断して発話者の位置を特定し、特定した位置における口元の動きは目的音の発生であるとして、ノイズ判定には含めないように構成する音声入力装置が開示されている。
また、特許文献3には、入力音声に対する音声区間の切り出しのしきい値を変数i(例えばi=5)の値に応じて順次変更し、変更されたしきい値に応じて音声区間の切り出しを行って複数の認識候補を求め、求めた複数の認識候補から得られる認識スコアを集計して最終的な認識結果を決定する数字列音声認識装置が開示されている。
また、特許文献2には、音声入力話者の口元画像の解析から発話の有無を判断して発話者の位置を特定し、特定した位置における口元の動きは目的音の発生であるとして、ノイズ判定には含めないように構成する音声入力装置が開示されている。
また、特許文献3には、入力音声に対する音声区間の切り出しのしきい値を変数i(例えばi=5)の値に応じて順次変更し、変更されたしきい値に応じて音声区間の切り出しを行って複数の認識候補を求め、求めた複数の認識候補から得られる認識スコアを集計して最終的な認識結果を決定する数字列音声認識装置が開示されている。
しかしながら、上述した特許文献1および特許文献2に開示された技術では、入力音声に対する音声区間検出および音声認識処理と並行して常時、撮像部で動画像を撮像して口元画像の解析から発話の有無を判定する必要があり、演算量が増大するという課題があった。
また、上述した特許文献3に開示された技術では、ユーザの1回の発話に対して、しきい値を変更して5回の音声区間検出処理および音声認識処理を行う必要があり、演算量が増大するという課題があった。
さらに、これらの演算量の大きい音声認識装置をタブレット端末などの処理性能の低いハードウェア上で用いられている場合には、音声認識結果を得るまでの遅延時間が長くなるという課題があった。また、タブレット端末などの処理性能に合わせて画像認識処理あるいは音声認識処理の演算量を削減すると、認識処理性能が低下するという課題があった。
また、上述した特許文献3に開示された技術では、ユーザの1回の発話に対して、しきい値を変更して5回の音声区間検出処理および音声認識処理を行う必要があり、演算量が増大するという課題があった。
さらに、これらの演算量の大きい音声認識装置をタブレット端末などの処理性能の低いハードウェア上で用いられている場合には、音声認識結果を得るまでの遅延時間が長くなるという課題があった。また、タブレット端末などの処理性能に合わせて画像認識処理あるいは音声認識処理の演算量を削減すると、認識処理性能が低下するという課題があった。
この発明は、上記のような課題を解決するためになされたもので、処理性能の低いハードウェア上で用いられる場合にも、音声認識結果を得るまでの遅延時間を短縮し、且つ認識処理性能の低下を抑制する音声認識結果および音声認識方法を提供することを目的とする。
この発明に係る音声認識装置は、集音された音声を取得し、音声データに変換する音声入力部と、音声以外の情報を取得する非音声情報入力部と、非音声情報入力部が取得した音声以外の情報からユーザ状態を認識する非音声操作認識部と、非音声操作認識部が認識したユーザ状態からユーザが発話しているか否か判定を行う非発話区間判定部と、非発話区間判定部がユーザが発話していないと判定した場合に音声入力部が変換した音声データから第1のしきい値を設定し、非発話区間判定部がユーザが発話していると判定した場合に音声入力部が変換した音声データから第2のしきい値を設定するしきい値学習部と、しきい値学習部が設定したしきい値を用いて音声入力部が変換した音声データからユーザの発話を示す音声区間を検出する音声区間検出部と、音声区間検出部が検出した音声区間の音声データを認識して認識結果を出力する音声認識部とを備え、音声区間検出部は、第2のしきい値を用いて音声区間を検出することができない場合に、第1のしきい値を適用して音声区間を検出するものである。
この発明によれば、処理性能の低いハードウェア上で用いられる場合にも、音声認識結果を得るまでの遅延時間を短縮し、且つ認識処理性能の低下を抑制することができる。
以下、この発明をより詳細に説明するために、この発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
図1は、実施の形態1に係る音声認識装置100の構成を示すブロック図である。
音声認識装置100は、タッチ操作入力部(非音声情報入力部)101、画像入力部(非音声情報入力部)102、口唇画像認識部(非音声操作認識部)103、非発話区間判定部104、音声入力部105、音声区間検出しきい値学習部106、音声区間検出部107および音声認識部108で構成されている。
なお、以下ではユーザのタッチ操作はタッチパネル(不図示)を介して行われる場合を例に説明を行うが、タッチパネル以外の入力手段を用いた場合、あるいはタッチ操作以外の入力方法を用いた入力手段を用いた場合にも、当該音声認識装置100を適用することが可能である。
実施の形態1.
図1は、実施の形態1に係る音声認識装置100の構成を示すブロック図である。
音声認識装置100は、タッチ操作入力部(非音声情報入力部)101、画像入力部(非音声情報入力部)102、口唇画像認識部(非音声操作認識部)103、非発話区間判定部104、音声入力部105、音声区間検出しきい値学習部106、音声区間検出部107および音声認識部108で構成されている。
なお、以下ではユーザのタッチ操作はタッチパネル(不図示)を介して行われる場合を例に説明を行うが、タッチパネル以外の入力手段を用いた場合、あるいはタッチ操作以外の入力方法を用いた入力手段を用いた場合にも、当該音声認識装置100を適用することが可能である。
タッチ操作入力部101は、ユーザのタッチパネルへの接触を検知し、タッチパネルへの接触を検知した座標値を取得する。画像入力部102は、カメラなどの撮像手段により撮影された動画像を取得し、画像データに変換する。口唇画像認識部103は、画像入力部102が取得した画像データの解析を行い、ユーザの口唇の動きを認識する。非発話区間判定部104は、タッチ操作入力部101が取得した座標値が、非発話の操作を行うための領域内に存在している場合に、口唇画像認識部103の認識結果を参照してユーザが発話を行っているか否か判定を行う。当該判定において、ユーザが発話を行っていないと判定した場合に、非発話区間判定部104は音声区間検出しきい値学習部106に対して音声区間検出に用いるしきい値の学習を指示する。非発話区間判定部104が判定に用いる、発話の操作を行うための領域とは、タッチパネル上に配置された音声入力受け付けボタンなどが配置された領域であり、非発話の操作を行うための領域とは下位の画面に遷移するためのボタンなどが配置された領域である。
音声入力部105は、マイクなどの集音手段により集音された音声を取得し、音声データに変換する。音声区間検出しきい値学習部106は、音声入力部105が取得した音声からユーザの発話を検出するためのしきい値を設定する。音声区間検出部107は、音声区間検出しきい値学習部106が設定したしきい値に基づいて、音声入力部105が取得した音声からユーザの発話を検出する。音声認識部108は、音声区間検出部107がユーザの発話を検出した場合に、音声入力部105が取得した音声を認識し、音声認識結果であるテキストを出力する。
次に、図2および図3を参照しながら、実施の形態1に係る音声認識装置100の動作について説明する。図2は実施の形態1に係る音声認識装置100の入力操作の一例を示す説明図であり、図3は実施の形態1に係る音声認識装置100の動作を示すフローチャートである。
まず、図2(a)は、ユーザにより第1のタッチ操作が行われた時間A1、タッチ操作の入力タイムアウトを示す時間B1、第2のタッチ操作が行われた時間C1、しきい値学習完了を示す時間D1、および音声入力タイムアウトを示す時間E1を時間軸上に示している。
図2(b)は、音声入力部105に入力される音声の入力レベルの時間変化を示している。実線は発話音声F(F1は発話音声の先頭、F2は発話音声の末尾)を示し、一点破線は騒音Gを示している。なお、音声入力レベルの軸上に示した値Hは第1の音声区間検出しきい値を示し、値Iは第2の音声区間検出しきい値を示している。
図2(c)は、音声認識装置100のCPU負荷の時間変化を示している。領域Jは画像認識処理の負荷を示し、領域Kはしきい値学習処理の負荷を示し、領域Lは音声区間検出処理の負荷を示し、領域Mは音声認識処理の負荷を示している。
まず、図2(a)は、ユーザにより第1のタッチ操作が行われた時間A1、タッチ操作の入力タイムアウトを示す時間B1、第2のタッチ操作が行われた時間C1、しきい値学習完了を示す時間D1、および音声入力タイムアウトを示す時間E1を時間軸上に示している。
図2(b)は、音声入力部105に入力される音声の入力レベルの時間変化を示している。実線は発話音声F(F1は発話音声の先頭、F2は発話音声の末尾)を示し、一点破線は騒音Gを示している。なお、音声入力レベルの軸上に示した値Hは第1の音声区間検出しきい値を示し、値Iは第2の音声区間検出しきい値を示している。
図2(c)は、音声認識装置100のCPU負荷の時間変化を示している。領域Jは画像認識処理の負荷を示し、領域Kはしきい値学習処理の負荷を示し、領域Lは音声区間検出処理の負荷を示し、領域Mは音声認識処理の負荷を示している。
音声認識装置100が機能している状態において、タッチ操作入力部101はタッチパネルへのタッチ操作が検出されたか否か判定を行っている(ステップST1)。当該判定が行われている状態において、ユーザがタッチパネルの一部を指で押下すると、タッチ操作入力部101は当該タッチ操作を検出し(ステップST1;YES)、タッチ操作を検出した座標値を取得して非発話区間判定部104に出力する(ステップST2)。非発話区間判定部104はステップST2で出力された座標値を取得すると、内蔵されたタイマを起動してタッチ操作を検出してからの経過時間の計測を開始する(ステップST3)。
例えば、ステップST1において図2(a)で示した第1のタッチ操作(時間A1)を検出すると、ステップST2で当該第1のタッチ操作の座標値を取得し、ステップST3で第1のタッチ操作を検出してからの経過時間を計測する。計測される経過時間は、図2(a)のタッチ操作入力タイムアウト(時間B1)への到達を判定するために用いられる。
例えば、ステップST1において図2(a)で示した第1のタッチ操作(時間A1)を検出すると、ステップST2で当該第1のタッチ操作の座標値を取得し、ステップST3で第1のタッチ操作を検出してからの経過時間を計測する。計測される経過時間は、図2(a)のタッチ操作入力タイムアウト(時間B1)への到達を判定するために用いられる。
非発話区間判定部104は、音声入力部105に音声入力の開始を指示し、音声入力部105は当該指示に基づいて音声の入力受け付けを開始し(ステップST4)、取得した音声を音声データに変換する(ステップST5)。変換された音声データは、例えば音声入力部105が取得した音声信号をデジタル化したPCM(Pulse Code Modulation)データなどで構成される。
また、非発話区間判定部104は、ステップST2で出力された座標値が設定された発話を示す領域外の値であるか否か判定を行う(ステップST6)。座標値が発話を示す領域外の値である場合(ステップST6;YES)、発話を伴わない非発話の操作であると判断して画像入力部102に画像入力の開始を指示する。画像入力部102は当該指示に基づいて動画像入力の受け付けを開始し(ステップST7)、取得した動画像を動画データなどのデータ信号に変換する(ステップST8)。ここで、動画データとは、例えば画像入力部102が取得した画像信号をデジタル化して連続した静止画像の列に変換した画像フレームなどで構成される。以下、画像フレームを例に説明する。
口唇画像認識部103は、ステップST8で変換された画像フレームからユーザの口唇の動きを画像認識する(ステップST9)。口唇画像認識部103は、ステップST9で認識した画像認識結果からユーザが発話しているか否か判定を行う(ステップST10)。ステップST10の具体的な処理としては、例えば口唇画像認識部103は画像フレームから口唇画像を抽出し、口唇の幅と高さとから口唇の形状を公知の技術により算出した後、口唇形状の変化があらかじめ設定された発話時の口唇形状パターンと一致するか否かにより発話しているか否かの判定を行う。口唇形状パターンと一致する場合には発話していると判定する。
口唇画像認識部103においてユーザが発話していると判定された場合(ステップST10;YES)、ステップST12の処理に進む。一方、口唇画像認識部103においてユーザが発話していないと判定された場合(ステップST10;NO)、非発話区間判定部104は音声区間検出しきい値学習部106に対して音声区間検出のしきい値を学習するよう指示する。音声区間検出しきい値学習部106は当該指示に基づいて、例えば音声入力部105から入力された音声データから所定の時間内で最も大きい音声入力レベルの値を記録する(ステップST11)。
さらに、非発話区間判定部104は、ステップST3で起動したタイマが計測したタイマ値が、あらかじめ設定したタイムアウトしきい値に到達したか否か、すなわちタッチ操作入力のタイムアウトに到達したか否か判定を行う(ステップST12)。具体的には、図2の時間B1に到達したか否か判定を行う。タッチ操作入力のタイムアウトに到達していない場合(ステップST12;NO)、ステップST9の処理に戻り、上述した処理を繰り返す。一方、タッチ操作入力のタイムアウトに到達した場合(ステップST12;YES)、非発話区間判定部104は、音声区間検出しきい値学習部106に対してステップST11で記録した音声入力レベルの値を第1の音声区間検出しきい値として記憶領域(不図示)に保存させる(ステップST13)。図2の例では、第1のタッチ操作を検出した時間A1からタッチ操作入力タイムアウトの時間B1までの時間内に入力された音声データから最も大きい音声入力レベルの値、即ち図2(b)の値Hを第1の音声区間検出しきい値として保存する。
続いて、非発話区間判定部104は、画像入力部102に対して画像入力の受け付けを停止する指示を出力し(ステップST14)、音声入力部105に対して音声入力の受け付けを停止する指示を出力する(ステップST15)。その後、フローチャートはステップST1の処理に戻り、上述した処理を繰り返す。
上述したステップST7からステップST15の処理により、画像認識処理を実施している間は音声区間検出しきい値学習処理のみが動作する(図2(c)の時間A1から時間B1における領域J(画像認識処理)および領域K(音声区間検出しきい値学習処理)参照)。
上述したステップST7からステップST15の処理により、画像認識処理を実施している間は音声区間検出しきい値学習処理のみが動作する(図2(c)の時間A1から時間B1における領域J(画像認識処理)および領域K(音声区間検出しきい値学習処理)参照)。
一方、ステップST6の判定処理において、座標値が発話を示す領域内の値である場合(ステップST6;NO)、発話を伴う操作であると判断して、非発話区間判定部104は音声区間検出しきい値学習部106に対して音声区間検出のしきい値の学習を指示する。音声区間検出しきい値学習部106は、当該指示に基づいて、例えば音声入力部105から入力された音声データから所定の時間内で最も大きい音声入力レベルの値を学習し、第2の音声区間検出しきい値として保存する(ステップST16)。
図2の例では、第2のタッチ操作を検出した時間C1からしきい値学習が完了した時間D1までの時間内に入力された音声データから最も大きい音声入力レベルの値、即ち図2(b)の値Iを第2の音声区間検出しきい値として保存する。なお、第2の音声区間検出しきい値の学習時にはユーザが発話していないものとする。
図2の例では、第2のタッチ操作を検出した時間C1からしきい値学習が完了した時間D1までの時間内に入力された音声データから最も大きい音声入力レベルの値、即ち図2(b)の値Iを第2の音声区間検出しきい値として保存する。なお、第2の音声区間検出しきい値の学習時にはユーザが発話していないものとする。
次に、音声区間検出部107は、ステップST16で保存された第2の音声区間検出しきい値に基づいて、ステップST16の音声区間検出しきい値の学習が完了した後に音声入力部105を介して入力された音声データから音声区間が検出可能か否か判定を行う(ステップST17)。図2の例では、第2の音声区間検出しきい値である値Iに基づいて音声区間を検出する。具体的には、しきい値学習完了の時間D1の後に入力された音声データの音声入力レベルが第2の音声区間検出しきい値Iを上回った点を発話の先頭と判断し、発話の先頭に後続する音声データにおいて第2の音声区間検出しきい値である値Iを下回った点を発話の末尾と判断する。
仮に、音声データに騒音が存在しない場合には、図2の発話音声Fに示すように先頭F1および末尾F2の検出が可能となり、ステップST17の判定処理において、音声区間が検出可能であると判定される(ステップST17;YES)。音声区間が検出可能である場合(ステップST17;YES)、音声区間検出部107は検出した音声区間を音声認識部108に入力し、音声認識部108が音声認識を行い、音声認識結果のテキストを出力する(ステップST21)。その後、音声入力部105は非発話区間判定部104から入力される音声入力の受け付け停止指示に基づいて音声入力の受け付けを停止し(ステップST22)、ステップST1の処理に戻る。
一方、仮に音声データに騒音が発生している場合、例えば図2の発話音声Fに騒音Gが重畳していると、発話音声Fの先頭F1は第2の音声区間検出しきい値である値Iを上回るため正しく検出されるが、発話音声Fの末尾F2が騒音Gと重畳して第2の音声区間検出しきい値の値Iを下回らないため正しく検出されず、ステップST17の判定処理において音声区間が検出できないと判定される(ステップST17;NO)。音声区間が検出できない場合(ステップST17;NO)、音声区間検出部107はあらかじめ設定された音声入力タイムアウト値を参照して、音声入力タイムアウトに到達したか否か判定を行う(ステップST18)。ステップST18の処理についてより詳細に説明すると、音声区間検出部107は発話音声Fの先頭F1を検出してからの時間をカウントしており、カウント値があらかじめ設定された音声入力タイムアウトの時間E1に到達したか否かの判定を行う。
音声入力タイムアウトに到達していない場合(ステップST18;NO)、音声区間検出部107は、ステップST17の処理に戻り、音声区間の検出を続ける。一方、音声入力タイムアウトに到達した場合(ステップST18;YES)、音声区間検出部107はステップST13で保存された第1の音声区間検出しきい値を判定用のしきい値に設定する(ステップST19)。
音声区間検出部107は、ステップST19で設定された第1の音声区間検出しきい値に基づいて、ステップST16の音声区間検出しきい値の学習が完了した後に音声入力部105を介して入力された音声データから音声区間が検出可能か否か判定を行う(ステップST20)。ここでは、ステップST16の学習処理後に入力された音声データを記憶領域(不図示)に格納しておき、格納されていた音声データに対してステップST19で新たに設定された第1の音声区間検出しきい値を適用して発話音声の先頭および末尾を検出する。
図2の例において仮に騒音Gが発生している場合にも、発話音声Fの先頭F1は第1の音声区間検出しきい値である値Hを上回り、且つ発話音声Fの末尾F2が第1の音声区間検出しきい値である値Hを下回ることから、音声区間が検出可能であると判定される(ステップST20;YES)。
図2の例において仮に騒音Gが発生している場合にも、発話音声Fの先頭F1は第1の音声区間検出しきい値である値Hを上回り、且つ発話音声Fの末尾F2が第1の音声区間検出しきい値である値Hを下回ることから、音声区間が検出可能であると判定される(ステップST20;YES)。
音声区間が検出可能である場合(ステップST20;YES)、ステップST21の処理に進む。一方、第1の音声区間検出しきい値を適用しても音声区間が検出できない場合(ステップST20;NO)、音声認識を行わずにステップST22の処理に進み、ステップST1の処理に戻る。
ステップST17からステップST22の処理により音声認識処理を実施している間は音声区間検出処理のみが動作する(図2(c)の時間D1から時間E1における領域L(音声区間検出処理)および領域M(音声認識処理)参照)。
ステップST17からステップST22の処理により音声認識処理を実施している間は音声区間検出処理のみが動作する(図2(c)の時間D1から時間E1における領域L(音声区間検出処理)および領域M(音声認識処理)参照)。
以上のように、この実施の形態1によれば、タッチ操作で非発話の操作を検出し、非発話の操作時のみ画像認識処理を行ってユーザの発話の判定を行う非発話区間判定部104と、ユーザが非発話の場合に音声データの第1の音声区間検出しきい値を学習する音声区間検出しきい値学習部106と、タッチ操作で発話の操作を検出した後で学習した第2の音声区間検出しきい値を適用して音声区間検出に失敗した場合に、第1の音声区間検出しきい値を用いて再度音声区間検出を行う音声区間検出部107とを備えるように構成したので、発話操作時の学習区間で設定した第2の音声区間検出しきい値が適切な値でなかった場合にも、第1の音声区間検出しきい値を用いて正しい音声区間を検出することができる。また、画像認識処理と音声認識処理が同時に動作しないように制御することができ、処理性能の低いタブレット端末などに当該音声認識装置100を適用した場合にも、音声認識結果を得るまでの遅延時間を短縮させ、音声認識性能の低下を抑制することができる。
また、上述した実施の形態1では、非発話の操作時のみカメラなどによって撮影した動画像データに対して画像認識処理を行いユーザが発話しているか否かの判定を行う構成を支援したが、カメラ以外の手段によって取得したデータを用いてユーザの発話を判定するように構成してもよい。例えば、タブレット端末が近接センサを搭載している場合には、当該近接センサによって取得したデータからタブレット端末のマイクとユーザの口唇との距離を算出し、マイクと口唇との距離があらかじめ設定したしきい値よりも小さくなった場合に、ユーザが発話したと判定するように構成してもよい。
これにより、音声認識処理が動作していない状態での装置への処理負荷の増大を抑制することができ、処理性能の低いタブレット端末において音声認識性能を向上させると共に、音声認識以外の処理を行うことができる。
さらに、近接センサを用いることにより、カメラを使用する場合よりも消費電力を抑制することができ、バッテリ寿命の制約が大きいタブレット端末において利便性を向上させることができる。
これにより、音声認識処理が動作していない状態での装置への処理負荷の増大を抑制することができ、処理性能の低いタブレット端末において音声認識性能を向上させると共に、音声認識以外の処理を行うことができる。
さらに、近接センサを用いることにより、カメラを使用する場合よりも消費電力を抑制することができ、バッテリ寿命の制約が大きいタブレット端末において利便性を向上させることができる。
実施の形態2.
上述した実施の形態1では非発話の操作を検出した場合に、口唇画像認識部103が口唇画像の認識を行いユーザの発話を判定する構成を示したが、この実施の形態2ではユーザの操作状態に基づいて発話または非発話の操作を判定し、非発話操作時に音声入力レベルを学習する構成について説明を行う。
上述した実施の形態1では非発話の操作を検出した場合に、口唇画像認識部103が口唇画像の認識を行いユーザの発話を判定する構成を示したが、この実施の形態2ではユーザの操作状態に基づいて発話または非発話の操作を判定し、非発話操作時に音声入力レベルを学習する構成について説明を行う。
図4は、実施の形態2に係る音声認識装置200の構成を示すブロック図である。
実施の形態2に係る音声認識装置200は、実施の形態1で示した音声認識装置100の画像入力部102、口唇画像認識部103および非発話区間判定部104に替えて、操作状態判定部(非音声操作認識部)201、操作シナリオ記憶部202および非発話区間判定部203を設けて構成している。
以下では、実施の形態1に係る音声認識装置100の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
実施の形態2に係る音声認識装置200は、実施の形態1で示した音声認識装置100の画像入力部102、口唇画像認識部103および非発話区間判定部104に替えて、操作状態判定部(非音声操作認識部)201、操作シナリオ記憶部202および非発話区間判定部203を設けて構成している。
以下では、実施の形態1に係る音声認識装置100の構成要素と同一または相当する部分には、実施の形態1で使用した符号と同一の符号を付して説明を省略または簡略化する。
操作状態判定部201は、タッチ操作入力部101から入力されるユーザのタッチパネルへのタッチ操作の情報および操作シナリオ記憶部202に記憶されたタッチ操作により遷移する操作状態を示す情報を参照して、ユーザの操作状態を判定する。ここで、タッチ操作の情報とは、例えばタッチパネルへのユーザの接触を検知した座標値などである。
操作シナリオ記憶部202は、タッチ操作により遷移する操作状態を記憶する記憶領域である。例えば、操作画面として、初期画面、初期画面の下位層に位置し、ユーザが操作画面を選択するための操作画面選択画面、当該操作画面選択画面の下位層に位置し、選択された画面での操作画面の3つの画面が設けられているとする。初期画面においてユーザがタッチ操作を行い操作画面選択画面に遷移した場合、操作状態が初期状態から操作画面選択状態に遷移することを示す情報が操作シナリオとして記憶されている。また、操作画面選択画面においてユーザが選択ボタンに対応したタッチ操作を行い、選択画面の操作画面に遷移した場合、操作状態が操作画面選択状態から選択した画面での特定項目入力状態に遷移することを示す情報が操作シナリオとして記憶されている。
図5は、実施の形態2に係る音声認識装置200の操作シナリオ記憶部202が記憶する操作シナリオの一例を示す図である。
図5の例では、操作シナリオは、操作状態、表示画面、遷移条件、遷移先の状態、発話を伴う操作であるか非発話の操作であるかを示す情報で構成されている。
まず、操作状態は、上述した「初期状態」および「操作画面選択状態」に相当する具体例として「作業場所選択」が対応付けられ、上述した「選択した画面の操作状態」に相当する具体例として「場所Aの作業中」および「場所Bの作業中」が対応付けられて構成されている。さらに、上述した「特定項目の入力状態」に相当する具体例として「作業C実施中」など4つの操作状態が対応付けられている。
図5の例では、操作シナリオは、操作状態、表示画面、遷移条件、遷移先の状態、発話を伴う操作であるか非発話の操作であるかを示す情報で構成されている。
まず、操作状態は、上述した「初期状態」および「操作画面選択状態」に相当する具体例として「作業場所選択」が対応付けられ、上述した「選択した画面の操作状態」に相当する具体例として「場所Aの作業中」および「場所Bの作業中」が対応付けられて構成されている。さらに、上述した「特定項目の入力状態」に相当する具体例として「作業C実施中」など4つの操作状態が対応付けられている。
例えば、操作状態が「作業場所選択」である場合、操作画面には「作業場所選択」が表示される。「作業場所選択」が表示された操作画面において、遷移条件である「作業場所Aボタンにタッチ」を行った場合、「場所Aの作業中」の操作状態に遷移する。一方、遷移条件である「作業場所Bボタンにタッチ」を行った場合、「場所Bの作業中」の操作状態に遷移する。「作業場所Aボタンにタッチ」および「作業場所Bボタンにタッチ」の操作は非発話の操作であることを示している。
また、例えば、操作状態が「作業C実施中」である場合、操作画面には「作業C」が表示される「作業C」が表示された操作画面において、遷移条件である「終了ボタンにタッチ」を行った場合、「場所Aの作業中」の操作状態に遷移する。「終了ボタンにタッチ」の操作は非発話の操作であることを示している。
次に、図6および図7を参照しながら、実施の形態2に係る音声認識装置200の動作について説明する。図6は実施の形態2に係る音声認識装置200の入力操作の一例を示す説明図であり、図7は実施の形態2に係る音声認識装置200の動作を示すフローチャートである。なお、以下では実施の形態1に係る音声認識装置100と同一のステップには図3で使用した符号と同一の符号を付し、説明を省略または簡略化する。
まず、図6(a)は、ユーザにより第1のタッチ操作が行われた時間A2、第1のタッチ操作の入力タイムアウトを示す時間B2、第2のタッチ操作が行われた時間A3、第2のタッチ操作の入力タイムアウトを示す時間B3、第3のタッチ操作が行われた時間C2、しきい値学習完了を示す時間D2、および音声入力タイムアウトを示す時間E2を時間軸上に示している。
図6(b)は、音声入力部105に入力される音声の入力レベルの時間変化を示している。実線は発話音声F(F1は発話音声の先頭、F2は発話音声の末尾)を示し、一点破線は騒音Gを示している。音声入力レベルの軸上に示した値Hは第1の音声区間検出しきい値を示し、値Iは第2の音声区間検出しきい値を示している。
図6(c)は、音声認識装置200のCPU負荷の時間変化を示している。領域Kはしきい値学習処理の負荷を示し、領域Lは音声区間検出処理の負荷を示し、領域Mは音声認識処理の負荷を示している。
図6(b)は、音声入力部105に入力される音声の入力レベルの時間変化を示している。実線は発話音声F(F1は発話音声の先頭、F2は発話音声の末尾)を示し、一点破線は騒音Gを示している。音声入力レベルの軸上に示した値Hは第1の音声区間検出しきい値を示し、値Iは第2の音声区間検出しきい値を示している。
図6(c)は、音声認識装置200のCPU負荷の時間変化を示している。領域Kはしきい値学習処理の負荷を示し、領域Lは音声区間検出処理の負荷を示し、領域Mは音声認識処理の負荷を示している。
ユーザがタッチパネルの一部を指で押下すると、タッチ操作入力部101は当該タッチ操作を検出し(ステップST1;YES)、タッチ操作を検知した座標値を取得して非発話区間判定部203および操作状態判定部201に出力する(ステップST31)。非発話区間判定部203はステップST31で出力された座標値を取得すると、内蔵されたタイマを起動してタッチ操作を検出してからの経過時間の計測を開始する(ステップST3)。さらに非発話区間判定部203は、音声入力部105に音声入力の開始を指示し、音声入力部105は当該指示に基づいて音声の入力受け付けを開始し(ステップST4)、取得した音声を音声データに変換する(ステップST5)。
一方、操作状態判定部201は、ステップST31で出力された座標値を取得すると、操作シナリオ記憶部202を参照して操作画面の操作状態を判定する(ステップST32)。判定結果は非発話区間判定部203に出力される。非発話区間判定部203は、ステップST31で出力された座標値およびステップST32で出力された操作状態を参照してタッチ操作が発話を伴わない非発話の操作であるか否か判定を行う(ステップST33)。非発話の操作である場合(ステップST33;YES)、非発話区間判定部203は、音声区間検出しきい値学習部106に対して音声区間検出のしきい値を学習するよう指示し、当該指示に基づいて音声区間検出しきい値学習部106は、例えば音声入力部105から入力された音声データから所定の時間内で最も大きい音声入力レベルの値を記録する(ステップST11)。その後、ステップST12、ST13,ST15の処理を行い、ステップST1の処理に戻る。
ステップST33において非発話の操作であると判定される場合(ステップST33;YES)の例を、以下に2つ示す。
まず、操作状態が「初期状態」から「操作画面選択状態」への遷移を示す場合を例に説明する。図6(a)の時間A2で示す第1のタッチ操作が入力された場合、ユーザの第1のタッチ操作が初期画面で行われ、当該第1のタッチ操作で入力された座標値が特定の操作画面への移行を選択する領域(例えば、操作画面選択へ進むボタン)内であった場合、操作状態判定部201は、ステップST32として操作シナリオ記憶部202を参照して、操作状態が「初期状態」から「操作画面選択状態」に遷移することを示す遷移情報を判定結果として取得する。
まず、操作状態が「初期状態」から「操作画面選択状態」への遷移を示す場合を例に説明する。図6(a)の時間A2で示す第1のタッチ操作が入力された場合、ユーザの第1のタッチ操作が初期画面で行われ、当該第1のタッチ操作で入力された座標値が特定の操作画面への移行を選択する領域(例えば、操作画面選択へ進むボタン)内であった場合、操作状態判定部201は、ステップST32として操作シナリオ記憶部202を参照して、操作状態が「初期状態」から「操作画面選択状態」に遷移することを示す遷移情報を判定結果として取得する。
非発話区間判定部203は、ステップST32で取得された操作状態を参照して「初期状態」でのタッチ操作は、画面の遷移を行うための発話を必要としない非発話の操作であると判定する(ステップST33;YES)。非発話の操作であると判定された場合には、第1のタッチ操作入力タイムアウトの時間B2に到達するまで音声区間しきい値学習処理のみが動作する(図6(c)の時間A2から時間B2における領域K(音声区間検出しきい値学習処理)参照)。
次に、「操作画面選択状態」から「選択画面での操作状態」への遷移を示す場合を例に説明する。図6(a)の時間B2で示す第2のタッチ操作が入力された場合、ユーザの第2のタッチ操作が操作画面選択画面で行われ、当該第2のタッチ操作で入力された座標値が特定の操作画面への移行を選択する領域(例えば、操作画面を選択するボタン)内であった場合、操作状態判定部201はステップST32として操作シナリオ記憶部202を参照して、操作状態が「操作画面選択状態」から「選択画面での操作状態」に遷移することを示す遷移情報を判定結果として取得する。
非発話区間判定部203は、ステップST32で取得された操作状態を参照して、「操作画面選択状態」でのタッチ操作は非発話の操作であると判定する(ステップST33;YES)。非発話の操作であると判定された場合には、第2のタッチ操作入力タイムアウトの時間B3に到達するまで音声区間しきい値学習処理のみが動作する(図6(c)の時間A3から時間B3における領域K(音声区間検出しきい値学習処理)参照)。
一方、発話の操作である場合(ステップST33;NO)、非発話区間判定部203は、音声区間検出しきい値学習部106に対して音声区間検出のしきい値を学習するよう指示し、当該指示に基づいて音声区間検出しきい値学習部106は、例えば音声入力部105から入力された音声データから所定の時間内で最も大きい音声入力レベルの値を学習し、第2の音声区間検出しきい値として保存する(ステップST16)。その後、ステップST17からステップST22と同様の処理を行う。
ステップST33において発話の操作であると判定される場合(ステップST33;NO)の例を、以下に示す。
「選択画面での操作状態」から「特定項目の入力状態」への遷移を示す場合を例に説明する。図6(a)の時間C2で示す第3のタッチ操作が入力された場合、ユーザの第3のタッチ操作が選択画面での操作画面で行われ、当該第3のタッチ操作で入力された座標値が特定の操作項目への移行を選択する領域(例えば、項目を選択するボタン)内であった場合、操作状態判定部201はステップST32として操作シナリオ記憶部202を参照して、操作状態が「操作画面での操作状態」から「特定項目の入力状態」に遷移することを示す遷移情報を判定結果として取得する。
「選択画面での操作状態」から「特定項目の入力状態」への遷移を示す場合を例に説明する。図6(a)の時間C2で示す第3のタッチ操作が入力された場合、ユーザの第3のタッチ操作が選択画面での操作画面で行われ、当該第3のタッチ操作で入力された座標値が特定の操作項目への移行を選択する領域(例えば、項目を選択するボタン)内であった場合、操作状態判定部201はステップST32として操作シナリオ記憶部202を参照して、操作状態が「操作画面での操作状態」から「特定項目の入力状態」に遷移することを示す遷移情報を判定結果として取得する。
非発話区間判定部203は、ステップST32で取得された操作状態を参照して「選択画面での操作状態」でのタッチ操作であり、且つステップSTST31で出力された座標値が発話を伴う特定の項目の入力領域内である場合に、発話の操作であると判定する(ステップST33;NO)。発話の操作であると判定された場合には、しきい値学習完了の時間D2まで音声区間しきい値学習処理が動作し、さらに音声入力タイムアウトの時間E2まで音声区間検出処理および音声認識処理が動作する((図6(c)の時間C2から時間D2における領域K(音声区間検出しきい値学習処理)、時間D2から時間E2における領域L(音声区間検出処理)および領域M(音声認識処理)参照)。
以上のように、この実施の形態2によれば、操作シナリオ記憶部202に記憶されたタッチ操作により遷移する操作状態と、タッチ操作入力部101から入力されるタッチ操作の情報とから、ユーザの操作状態を判定する操作状態判定部201を備え、非発話の操作であると判定された場合に音声区間検出しきい値学習部106に対して第1の音声区間検出しきい値の学習を指示する非発話区間判定部203を備えるように構成したので、非発話の操作を検出するためにカメラなどの撮像手段を必要とせず、演算量の大きい画像認識処理を必要としないことから、処理性能の低いタブレット端末に当該音声認識装置200を適用した場合にも音声認識性能の低下を抑制することができる。
また、発話の操作を検出した後に学習した第2の音声区間検出しきい値を用いて音声区間の検出に失敗した場合に、非発話の操作時に学習した第1の音声区間検出しきい値を用いて再度音声区間検出を行うように構成したので、発話の操作時に適切なしきい値が設定できなかった場合にも正しい音声区間を検出することができる。
また、非発話の操作を検出するためにカメラなどの入力手段を必要とせず、入力手段の消費電力を抑制することができる。これにより、バッテリ寿命の制約が大きいタブレット端末などにおいて利便性を向上させることができる。
また、発話の操作を検出した後に学習した第2の音声区間検出しきい値を用いて音声区間の検出に失敗した場合に、非発話の操作時に学習した第1の音声区間検出しきい値を用いて再度音声区間検出を行うように構成したので、発話の操作時に適切なしきい値が設定できなかった場合にも正しい音声区間を検出することができる。
また、非発話の操作を検出するためにカメラなどの入力手段を必要とせず、入力手段の消費電力を抑制することができる。これにより、バッテリ寿命の制約が大きいタブレット端末などにおいて利便性を向上させることができる。
実施の形態3.
上述した実施の形態1および実施の形態2を組み合わせて音声認識装置を構成してもよい。
図8は、実施の形態3に係る音声認識装置300の構成を示すブロック図である。音声認識装置300は、図4で示した実施の形態2に係る音声認識装置200に画像入力部102および口唇画像認識部103を追加して設けると共に、非発話区間判定部203を非発話区間判定部301に置き換えて構成している。
上述した実施の形態1および実施の形態2を組み合わせて音声認識装置を構成してもよい。
図8は、実施の形態3に係る音声認識装置300の構成を示すブロック図である。音声認識装置300は、図4で示した実施の形態2に係る音声認識装置200に画像入力部102および口唇画像認識部103を追加して設けると共に、非発話区間判定部203を非発話区間判定部301に置き換えて構成している。
非発話区間判定部301が発話を伴わない非発話の操作であると判定した場合に、画像入力部102がカメラなどの撮像手段により撮影された動画像を取得して画像データに変更し、口唇画像認識部103が取得された画像データの解析を行い、ユーザの口唇の動きを認識する。口唇画像認識部103においてユーザが発話していないと判定された場合に、非発話区間判定部301は音声区間検出しきい値学習部106に音声区間検出のしきい値の学習を指示する。
次に、図9および図10を参照しながら、実施の形態3に係る音声認識装置300の動作について説明する。図9は実施の形態3に係る音声認識装置300の入力操作の一例を示す説明図であり、図10は実施の形態3に係る音声認識装置300の動作を示すフローチャートである。なお、以下では実施の形態2に係る音声認識装置200と同一のステップには図7で使用した符号と同一の符号を付し、説明を省略または簡略化する。
まず、図9(a)から図9(c)の構成は実施の形態2の図6で示した構成と同一であり、図9(c)における画像認識処理を示す領域Jが追加されている点のみが異なる。
まず、図9(a)から図9(c)の構成は実施の形態2の図6で示した構成と同一であり、図9(c)における画像認識処理を示す領域Jが追加されている点のみが異なる。
ステップST33において、非発話区間判定部301がタッチ操作入力部101から出力された座標値および操作状態判定部201から出力された操作状態を参照してタッチ操作が発話を伴わない非発話の操作であるか否か判定を行う処理までは実施の形態2と同一であるため、説明を省略する。非発話の操作である場合(ステップST33;YES)、非発話区間判定部301は、実施の形態1の図3で示したステップST11からステップST15の処理を行い、ステップST1の処理に戻る。すなわち、実施の形態2の処理に加えて、画像入力部102および口唇画像認識部103の画像認識処理を追加して行う。一方、発話の操作である場合(ステップST33;NO)、ステップST16からステップST22の処理を行い、ステップST1の処理に戻る。
ステップST33において非発話の操作であると判定される場合(ステップST33;YES)の例は、図9における第1のタッチ操作および第2のタッチ操作である。一方、ステップST33において発話の操作であると判定される場合(ステップST33;NO)の例は、図9における第3のタッチ操作である。なお、図9(c)において、第1のタッチ操作および第2のタッチ操作における音声区間検出しきい値学習処理(領域K参照)に加えて画像認識処理(領域J参照)がさらに行われている。その他は実施の形態2で示した図6と同一であるため、詳細な説明は省略する。
以上のように、この実施の形態3によれば、操作シナリオ記憶部202に記憶されたタッチ操作により遷移する操作状態と、タッチ操作入力部101から入力されるタッチ操作の情報とから、ユーザの操作状態を判定する操作状態判定部201を備え、非発話の操作であると判定された場合にのみ口唇画像認識部103に対して画像認識処理を指示し、非発話の操作であると判定された場合にのみ音声区間検出しきい値学習部106に対して第1の音声区間検出しきい値の学習を指示する非発話区間判定部301を備えるように構成したので、処理負荷の大きい画像認識処理と音声認識処理が同時に動作しないように制御し、且つ操作シナリオに基づいて画像認識処理を行う場合を制限することができる。また、確実にユーザが発話を行っていない時に第1の音声区間検出しきい値を学習することができる。これらにより、処理性能の低いタブレット端末などに当該音声認識装置300を適用した場合にも音声認識性能を向上させることができる。
また、発話の操作を検出した後で学習した第2の音声区間検出しきい値を用いて音声区間検出に失敗した場合に、非発話の操作時に学習した第1の音声区間検出しきい値を用いて再度音声区間検出を行うように構成したので、発話の操作時に適切なしきい値が設定できなかった場合にも正しい音声区間を検出することができる。
また、発話の操作を検出した後で学習した第2の音声区間検出しきい値を用いて音声区間検出に失敗した場合に、非発話の操作時に学習した第1の音声区間検出しきい値を用いて再度音声区間検出を行うように構成したので、発話の操作時に適切なしきい値が設定できなかった場合にも正しい音声区間を検出することができる。
また、上述した実施の形態3では、非発話の操作時のみカメラなどによって撮影した動画像に対して画像認識処理を行いユーザが発話しているか否かの判定を行う構成を示したが、カメラ以外の手段によって取得したデータを用いてユーザの発話を判定するように構成してもよい。例えば、タブレット端末が近接センサを搭載している場合には、当該近接センサによって取得したデータからタブレット端末のマイクとユーザの口唇との距離を算出し、マイクと口唇との距離があらかじめ設定したしきい値よりも小さくなった場合に、ユーザが発話したと判定するように構成してもよい。
これにより、音声認識処理が動作していない状態での装置への処理負荷の増大を抑制することができ、処理性能の低いタブレット端末において音声認識性能を向上させると共に、音声認識以外の処理を行うことができる。
さらに、近接センサを用いることにより、カメラを使用する場合よりも消費電力を抑制することができ、バッテリ寿命の制約が大きいタブレット端末において操作性を向上させることができる。
これにより、音声認識処理が動作していない状態での装置への処理負荷の増大を抑制することができ、処理性能の低いタブレット端末において音声認識性能を向上させると共に、音声認識以外の処理を行うことができる。
さらに、近接センサを用いることにより、カメラを使用する場合よりも消費電力を抑制することができ、バッテリ寿命の制約が大きいタブレット端末において操作性を向上させることができる。
なお、上述した実施の形態1から実施の形態3では、音声区間検出しきい値学習部106が設定する音声入力レベルのしきい値を1つとする場合を例に示したが、非発話操作を検出するごとに音声区間検出しきい値学習部106が音声入力レベルのしきい値を学習し、学習したしきい値を複数設定するように構成してもよい。
複数のしきい値を設定する場合、音声区間検出部107は、図3のフローチャートで示したステップST19およびステップST20の音声区間検出処理を、設定された複数のしきい値を用いて複数回実施し、発話音声区間の先頭および末尾を検出した場合のみ、検出した音声区間として結果を出力するように構成してもよい。
これにより、音声区間検出処理のみ複数回実施させることができ、処理負荷の増大を抑制することができ、処理性能の低いタブレット端末に当該音声認識装置を適用した場合にも音声認識性能を向上させることができる。
複数のしきい値を設定する場合、音声区間検出部107は、図3のフローチャートで示したステップST19およびステップST20の音声区間検出処理を、設定された複数のしきい値を用いて複数回実施し、発話音声区間の先頭および末尾を検出した場合のみ、検出した音声区間として結果を出力するように構成してもよい。
これにより、音声区間検出処理のみ複数回実施させることができ、処理負荷の増大を抑制することができ、処理性能の低いタブレット端末に当該音声認識装置を適用した場合にも音声認識性能を向上させることができる。
また、上述した実施の形態1から実施の形態3では、図3のフローチャートで示したステップST20の判定処理において、音声区間が検出されなかった場合、音声認識を行うことなく、音声の入力を停止する構成を示したが、音声区間が検出されなかった場合にも音声認識を行って認識結果を出力するように構成してもよい。
例えば、発話音声の先頭を検出したが末尾が検出されずに音声入力タイムアウトとなった場合、検出した発話音声の先頭から音声入力タイムアウトとなるまでの音声区間を音声区間として検出して音声認識を行い、認識結果を出力するように構成してもよい。これにより、ユーザが発話の操作を行った場合に必ず音声認識結果が応答として出力されるため、ユーザが音声認識装置の挙動を容易に把握することができ、音声認識装置の操作性を向上させることができる。
例えば、発話音声の先頭を検出したが末尾が検出されずに音声入力タイムアウトとなった場合、検出した発話音声の先頭から音声入力タイムアウトとなるまでの音声区間を音声区間として検出して音声認識を行い、認識結果を出力するように構成してもよい。これにより、ユーザが発話の操作を行った場合に必ず音声認識結果が応答として出力されるため、ユーザが音声認識装置の挙動を容易に把握することができ、音声認識装置の操作性を向上させることができる。
また、上述した実施の形態1から実施の形態3は、タッチ操作で発話の操作を検出した後に学習した第2の音声区間検出しきい値を用いて音声区間の検出に失敗した場合(例えば、タイムアウトが発生した場合)に、タッチ操作で非発話の操作時に学習した第1の音声区間検出しきい値を用いて再度音声区間検出処理を行い、音声認識結果を出力するように構成したが、音声区間の検出に失敗した場合でも音声認識を行って認識結果を出力し、非発話の操作時に学習した第1の音声区間検出しきい値を用いて音声区間検出を実施して得られた音声認識結果を修正候補として提示するように構成してもよい。これにより、音声認識結果を最初に出力するまでの応答時間を短縮することができ、音声認識装置の操作性を向上させることができる。
上述した実施の形態1から実施の形態3で示した音声認識装置100,200,300は、例えば図11で示すハードウェア構成を有するタブレット端末などの携帯端末400に搭載される。図11の携帯端末400は、タッチパネル401、マイク402、カメラ403、CPU404、ROM(Read Only Memory)405、RAM(Random Access Memory)406およびストレージ407で構成されている。ここで、音声認識装置100,200,300を実行するハードウェアは、図11で示したCPU404、ROM405、RAM406およびストレージ407である。
タッチ操作入力部101、画像入力部102、口唇画像認識部103、非発話区間判定部104,203,301、音声入力部105、しきい値学習部106、音声区間検出部107、音声認識部108および操作状態判定部201は、CPU404がROM405、RAM406およびストレージ407に記憶されたプログラムを実行することにより、実現される。また、複数のプロセッサが連携して上述した機能を実行してもよい。
上記以外にも、本発明はその発明の範囲内において、各実施の形態の自由な組み合わせ、あるいは各実施の形態の任意の構成要素の変形、もしくは各実施の形態において任意の構成要素の省略が可能である。
この発明に係る音声認識装置は、処理負荷を抑制することが可能なため、タブレット端末やスマートフォン端末など高い処理性能を有していない機器に適用し、迅速な音声認識結果の出力且つ性能の高い音声認識を行うのに適している。
100,200,300 音声認識装置、101 タッチ操作入力部、102 画像入力部、103 口唇画像認識部、104,203,301 非発話区間判定部、105 音声入力部、106 音声区間検出しきい値学習部、107 音声区間検出部、108 音声認識部、201 操作状態判定部、202 操作シナリオ記憶部、400 携帯端末、401 タッチパネル、402 マイク、403 カメラ、404 CPU、405 ROM、406 RAM、407 ストレージ。
Claims (6)
- 集音された音声を取得し、音声データに変換する音声入力部と、
前記音声以外の情報を取得する非音声情報入力部と、
前記非音声情報入力部が取得した前記音声以外の情報からユーザ状態を認識する非音声操作認識部と、
前記非音声操作認識部が認識したユーザ状態から前記ユーザが発話しているか否か判定を行う非発話区間判定部と、
前記非発話区間判定部が前記ユーザが発話していないと判定した場合に前記音声入力部が変換した音声データから第1のしきい値を設定し、前記非発話区間判定部が前記ユーザが発話していると判定した場合に前記音声入力部が変換した音声データから第2のしきい値を設定するしきい値学習部と、
前記しきい値学習部が設定したしきい値を用いて前記音声入力部が変換した音声データからユーザの発話を示す音声区間を検出する音声区間検出部と、
前記音声区間検出部が検出した音声区間の音声データを認識して認識結果を出力する音声認識部とを備え、
前記音声区間検出部は、前記第2のしきい値を用いて前記音声区間を検出することができない場合に、前記第1のしきい値を適用して前記音声区間を検出することを特徴とする音声認識装置。 - 前記非音声情報入力部は、前記ユーザがタッチ操作入力を行った位置情報および前記ユーザ状態を撮像した画像データを取得し、
前記非音声操作認識部は、前記非音声情報入力部が取得した画像データから前記ユーザの口唇の動きを認識し、
前記非発話区間判定部は、前記非音声情報入力部が取得した位置情報および前記非音声操作認識部が認識した口唇の動きを示す情報から前記ユーザが発話しているか否か判定を行うことを特徴とする請求項1記載の音声認識装置。 - 前記非音声情報入力部は、前記ユーザがタッチ操作入力を行った位置情報を取得し、
前記非音声操作認識部は、前記非音声情報入力部が取得した位置情報およびタッチ操作入力により遷移する前記ユーザの操作状態を示した遷移情報から、前記ユーザの操作入力の操作状態を認識し、
前記非発話区間判定部は、前記非音声操作認識部が認識した操作状態および前記非音声情報入力部が取得した位置情報から、前記ユーザが発話しているか否か判定を行うことを特徴とする請求項1記載の音声認識装置。 - 前記非音声情報入力部は、前記ユーザがタッチ操作入力を行った位置情報および前記ユーザ状態を撮像した画像データを取得し、
前記非音声操作認識部は、前記非音声情報入力部が取得した位置情報およびタッチ操作入力により遷移する前記ユーザの操作状態を示した遷移情報から、前記ユーザの操作入力の操作状態を認識し、且つ前記非音声情報入力部が取得した画像データから前記ユーザの口唇の動きを認識し、
前記非発話区間判定部は、前記非音声操作認識部が認識した操作状態および口唇の動きを示す情報、および前記非音声情報入力部が取得した位置情報から、前記ユーザが発話しているか否か判定を行うことを特徴とする請求項1記載の音声認識装置。 - 前記音声区間検出部は、前記音声区間の開始点を検出してからの時間をカウントし、当該カウントした値が設定されたタイムアウト時間に到達しても前記音声区間の終了点を検出できない場合に、前記第2のしきい値を用いて前記音声区間の開始点から前記タイムアウト時間までを前記音声区間として検出し、さらに前記第1のしきい値を用いて前記音声区間の開始点から前記タイムアウト時間までを修正候補の音声区間として検出し、
前記音声認識部は、前記音声区間検出部が検出した前記音声区間の音声データを認識して認識結果を出力すると共に、前記修正候補の音声区間の音声データを認識して認識結果修正候補を出力することを特徴とする請求項1記載の音声認識装置。 - 音声入力部が、集音された音声を取得し、音声データに変換するステップと、
非音声情報入力部が、前記音声以外の情報を取得するステップと、
非音声操作認識部が、前記音声以外の情報からユーザ状態を認識するステップと、
非発話区間判定部が、前記認識したユーザ状態から前記ユーザが発話しているか否か判定を行うステップと、
しきい値学習部が、前記ユーザが発話していないと判定された場合に前記音声データから第1のしきい値を設定し、前記ユーザが発話していると判定された場合に前記音声データから第2のしきい値を設定するステップと、
音声区間検出部が、前記第1のしきい値または前記第2のしきい値を用いて前記音声入力部が変換した音声データからユーザの発話を示す音声区間を検出するステップであって、前記第2のしきい値を用いて前記音声区間を検出することができない場合に、前記第1のしきい値を適用して前記音声区間を検出するステップと、
音声認識部が、前記検出した音声区間の音声データを認識して認識結果を出力するステップとを備えたことを特徴とする音声認識方法。
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
PCT/JP2014/083575 WO2016098228A1 (ja) | 2014-12-18 | 2014-12-18 | 音声認識装置および音声認識方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2016098228A1 JPWO2016098228A1 (ja) | 2017-04-27 |
JP6230726B2 true JP6230726B2 (ja) | 2017-11-15 |
Family
ID=56126149
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016564532A Expired - Fee Related JP6230726B2 (ja) | 2014-12-18 | 2014-12-18 | 音声認識装置および音声認識方法 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20170287472A1 (ja) |
JP (1) | JP6230726B2 (ja) |
CN (1) | CN107004405A (ja) |
DE (1) | DE112014007265T5 (ja) |
WO (1) | WO2016098228A1 (ja) |
Families Citing this family (61)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9318108B2 (en) | 2010-01-18 | 2016-04-19 | Apple Inc. | Intelligent automated assistant |
US8977255B2 (en) | 2007-04-03 | 2015-03-10 | Apple Inc. | Method and system for operating a multi-function portable electronic device using voice-activation |
US8676904B2 (en) | 2008-10-02 | 2014-03-18 | Apple Inc. | Electronic devices with voice command and contextual data processing capabilities |
US20120311585A1 (en) | 2011-06-03 | 2012-12-06 | Apple Inc. | Organizing task items that represent tasks to perform |
US10417037B2 (en) | 2012-05-15 | 2019-09-17 | Apple Inc. | Systems and methods for integrating third party services with a digital assistant |
US10199051B2 (en) | 2013-02-07 | 2019-02-05 | Apple Inc. | Voice trigger for a digital assistant |
US10652394B2 (en) | 2013-03-14 | 2020-05-12 | Apple Inc. | System and method for processing voicemail |
US10748529B1 (en) | 2013-03-15 | 2020-08-18 | Apple Inc. | Voice activated device for use with a voice-based digital assistant |
US10176167B2 (en) | 2013-06-09 | 2019-01-08 | Apple Inc. | System and method for inferring user intent from speech inputs |
EP3480811A1 (en) | 2014-05-30 | 2019-05-08 | Apple Inc. | Multi-command single utterance input method |
US10170123B2 (en) | 2014-05-30 | 2019-01-01 | Apple Inc. | Intelligent assistant for home automation |
US9715875B2 (en) | 2014-05-30 | 2017-07-25 | Apple Inc. | Reducing the need for manual start/end-pointing and trigger phrases |
US9338493B2 (en) | 2014-06-30 | 2016-05-10 | Apple Inc. | Intelligent automated assistant for TV user interactions |
US9886953B2 (en) | 2015-03-08 | 2018-02-06 | Apple Inc. | Virtual assistant activation |
US10200824B2 (en) | 2015-05-27 | 2019-02-05 | Apple Inc. | Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device |
US20160378747A1 (en) | 2015-06-29 | 2016-12-29 | Apple Inc. | Virtual assistant for media playback |
US10671428B2 (en) | 2015-09-08 | 2020-06-02 | Apple Inc. | Distributed personal assistant |
US10740384B2 (en) | 2015-09-08 | 2020-08-11 | Apple Inc. | Intelligent automated assistant for media search and playback |
US10747498B2 (en) | 2015-09-08 | 2020-08-18 | Apple Inc. | Zero latency digital assistant |
US10331312B2 (en) | 2015-09-08 | 2019-06-25 | Apple Inc. | Intelligent automated assistant in a media environment |
US10691473B2 (en) | 2015-11-06 | 2020-06-23 | Apple Inc. | Intelligent automated assistant in a messaging environment |
US10956666B2 (en) | 2015-11-09 | 2021-03-23 | Apple Inc. | Unconventional virtual assistant interactions |
US10223066B2 (en) | 2015-12-23 | 2019-03-05 | Apple Inc. | Proactive assistance based on dialog communication between devices |
US10586535B2 (en) | 2016-06-10 | 2020-03-10 | Apple Inc. | Intelligent digital assistant in a multi-tasking environment |
DK201670540A1 (en) | 2016-06-11 | 2018-01-08 | Apple Inc | Application integration with a digital assistant |
DK179415B1 (en) | 2016-06-11 | 2018-06-14 | Apple Inc | Intelligent device arbitration and control |
JP2018005274A (ja) * | 2016-06-27 | 2018-01-11 | ソニー株式会社 | 情報処理装置、情報処理方法およびプログラム |
US10332515B2 (en) * | 2017-03-14 | 2019-06-25 | Google Llc | Query endpointing based on lip detection |
US10726832B2 (en) | 2017-05-11 | 2020-07-28 | Apple Inc. | Maintaining privacy of personal information |
DK180048B1 (en) | 2017-05-11 | 2020-02-04 | Apple Inc. | MAINTAINING THE DATA PROTECTION OF PERSONAL INFORMATION |
DK179745B1 (en) | 2017-05-12 | 2019-05-01 | Apple Inc. | SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT |
DK201770428A1 (en) * | 2017-05-12 | 2019-02-18 | Apple Inc. | LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT |
DK179496B1 (en) | 2017-05-12 | 2019-01-15 | Apple Inc. | USER-SPECIFIC Acoustic Models |
US20180336892A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Detecting a trigger of a digital assistant |
US20180336275A1 (en) | 2017-05-16 | 2018-11-22 | Apple Inc. | Intelligent automated assistant for media exploration |
KR102133728B1 (ko) * | 2017-11-24 | 2020-07-21 | 주식회사 제네시스랩 | 인공지능을 이용한 멀티모달 감성인식 장치, 방법 및 저장매체 |
CN107992813A (zh) * | 2017-11-27 | 2018-05-04 | 北京搜狗科技发展有限公司 | 一种唇部状态检测方法及装置 |
US10818288B2 (en) | 2018-03-26 | 2020-10-27 | Apple Inc. | Natural assistant interaction |
US11145294B2 (en) | 2018-05-07 | 2021-10-12 | Apple Inc. | Intelligent automated assistant for delivering content from user experiences |
US10928918B2 (en) | 2018-05-07 | 2021-02-23 | Apple Inc. | Raise to speak |
DK180639B1 (en) | 2018-06-01 | 2021-11-04 | Apple Inc | DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT |
US10892996B2 (en) | 2018-06-01 | 2021-01-12 | Apple Inc. | Variable latency device coordination |
DK179822B1 (da) | 2018-06-01 | 2019-07-12 | Apple Inc. | Voice interaction at a primary device to access call functionality of a companion device |
JP7351105B2 (ja) * | 2018-06-21 | 2023-09-27 | カシオ計算機株式会社 | 音声期間検出装置、音声期間検出方法、プログラム、音声認識装置、及びロボット |
CN112585674A (zh) * | 2018-08-31 | 2021-03-30 | 三菱电机株式会社 | 信息处理装置、信息处理方法和程序 |
US11462215B2 (en) | 2018-09-28 | 2022-10-04 | Apple Inc. | Multi-modal inputs for voice commands |
CN109558788B (zh) * | 2018-10-08 | 2023-10-27 | 清华大学 | 静默语音输入辨识方法、计算装置和计算机可读介质 |
CN109410957B (zh) * | 2018-11-30 | 2023-05-23 | 福建实达电脑设备有限公司 | 基于计算机视觉辅助的正面人机交互语音识别方法及系统 |
US11348573B2 (en) | 2019-03-18 | 2022-05-31 | Apple Inc. | Multimodality in digital assistant systems |
JP7266448B2 (ja) * | 2019-04-12 | 2023-04-28 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ | 話者認識方法、話者認識装置、及び話者認識プログラム |
US11307752B2 (en) | 2019-05-06 | 2022-04-19 | Apple Inc. | User configurable task triggers |
DK201970509A1 (en) | 2019-05-06 | 2021-01-15 | Apple Inc | Spoken notifications |
US11140099B2 (en) | 2019-05-21 | 2021-10-05 | Apple Inc. | Providing message response suggestions |
DK201970510A1 (en) | 2019-05-31 | 2021-02-11 | Apple Inc | Voice identification in digital assistant systems |
DK180129B1 (en) | 2019-05-31 | 2020-06-02 | Apple Inc. | USER ACTIVITY SHORTCUT SUGGESTIONS |
US11468890B2 (en) | 2019-06-01 | 2022-10-11 | Apple Inc. | Methods and user interfaces for voice-based control of electronic devices |
US11061543B1 (en) | 2020-05-11 | 2021-07-13 | Apple Inc. | Providing relevant data items based on context |
US11043220B1 (en) | 2020-05-11 | 2021-06-22 | Apple Inc. | Digital assistant hardware abstraction |
US11755276B2 (en) | 2020-05-12 | 2023-09-12 | Apple Inc. | Reducing description length based on confidence |
US11490204B2 (en) | 2020-07-20 | 2022-11-01 | Apple Inc. | Multi-device audio adjustment coordination |
US11438683B2 (en) | 2020-07-21 | 2022-09-06 | Apple Inc. | User identification using headphones |
Family Cites Families (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2648014B2 (ja) * | 1990-10-16 | 1997-08-27 | 三洋電機株式会社 | 音声切り出し装置 |
JPH08187368A (ja) * | 1994-05-13 | 1996-07-23 | Matsushita Electric Ind Co Ltd | ゲーム装置、入力装置、音声選択装置、音声認識装置及び音声反応装置 |
US6471420B1 (en) * | 1994-05-13 | 2002-10-29 | Matsushita Electric Industrial Co., Ltd. | Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections |
ATE389934T1 (de) * | 2003-01-24 | 2008-04-15 | Sony Ericsson Mobile Comm Ab | Rauschreduzierung und audiovisuelle sprachaktivitätsdetektion |
JP4847022B2 (ja) * | 2005-01-28 | 2011-12-28 | 京セラ株式会社 | 発声内容認識装置 |
JP2007199552A (ja) * | 2006-01-30 | 2007-08-09 | Toyota Motor Corp | 音声認識装置と音声認識方法 |
JP4755918B2 (ja) * | 2006-02-22 | 2011-08-24 | 東芝テック株式会社 | データ入力装置及び方法並びにプログラム |
JP4557919B2 (ja) * | 2006-03-29 | 2010-10-06 | 株式会社東芝 | 音声処理装置、音声処理方法および音声処理プログラム |
JP4715738B2 (ja) * | 2006-12-19 | 2011-07-06 | トヨタ自動車株式会社 | 発話検出装置及び発話検出方法 |
JP2009098217A (ja) * | 2007-10-12 | 2009-05-07 | Pioneer Electronic Corp | 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体 |
WO2009078093A1 (ja) * | 2007-12-18 | 2009-06-25 | Fujitsu Limited | 非音声区間検出方法及び非音声区間検出装置 |
KR101092820B1 (ko) * | 2009-09-22 | 2011-12-12 | 현대자동차주식회사 | 립리딩과 음성 인식 통합 멀티모달 인터페이스 시스템 |
JP5797009B2 (ja) * | 2011-05-19 | 2015-10-21 | 三菱重工業株式会社 | 音声認識装置、ロボット、及び音声認識方法 |
JP4959025B1 (ja) * | 2011-11-29 | 2012-06-20 | 株式会社ATR−Trek | 発話区間検出装置及びプログラム |
JP6051991B2 (ja) * | 2013-03-21 | 2016-12-27 | 富士通株式会社 | 信号処理装置、信号処理方法、及び信号処理プログラム |
-
2014
- 2014-12-18 DE DE112014007265.6T patent/DE112014007265T5/de not_active Withdrawn
- 2014-12-18 JP JP2016564532A patent/JP6230726B2/ja not_active Expired - Fee Related
- 2014-12-18 CN CN201480084123.6A patent/CN107004405A/zh active Pending
- 2014-12-18 WO PCT/JP2014/083575 patent/WO2016098228A1/ja active Application Filing
- 2014-12-18 US US15/507,695 patent/US20170287472A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20170287472A1 (en) | 2017-10-05 |
DE112014007265T5 (de) | 2017-09-07 |
JPWO2016098228A1 (ja) | 2017-04-27 |
CN107004405A (zh) | 2017-08-01 |
WO2016098228A1 (ja) | 2016-06-23 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6230726B2 (ja) | 音声認識装置および音声認識方法 | |
JP4557919B2 (ja) | 音声処理装置、音声処理方法および音声処理プログラム | |
US10930303B2 (en) | System and method for enhancing speech activity detection using facial feature detection | |
JP6635049B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
US20100277579A1 (en) | Apparatus and method for detecting voice based on motion information | |
US20140222430A1 (en) | System and Method for Multimodal Utterance Detection | |
JP2023041843A (ja) | 音声区間検出装置、音声区間検出方法及びプログラム | |
US20160379633A1 (en) | Speech-Controlled Actions Based on Keywords and Context Thereof | |
JP6844608B2 (ja) | 音声処理装置および音声処理方法 | |
WO2015154419A1 (zh) | 一种人机交互装置及方法 | |
JP2014153663A (ja) | 音声認識装置、および音声認識方法、並びにプログラム | |
JP6562790B2 (ja) | 対話装置および対話プログラム | |
JP2006181651A (ja) | 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム | |
KR20150112337A (ko) | 디스플레이 장치 및 그 사용자 인터랙션 방법 | |
JP5797009B2 (ja) | 音声認識装置、ロボット、及び音声認識方法 | |
JP2010128015A (ja) | 音声認識の誤認識判定装置及び音声認識の誤認識判定プログラム | |
JP2011257943A (ja) | ジェスチャ操作入力装置 | |
JP2015175983A (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP6827536B2 (ja) | 音声認識装置および音声認識方法 | |
JP7215417B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
US20140297257A1 (en) | Motion sensor-based portable automatic interpretation apparatus and control method thereof | |
JP6916130B2 (ja) | 話者推定方法および話者推定装置 | |
JP2015194766A (ja) | 音声認識装置および音声認識方法 | |
JP2020067562A (ja) | ユーザの顔の映像に基づいて発動タイミングを推定する装置、プログラム及び方法 | |
JP2004301893A (ja) | 音声認識装置の制御方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20170919 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171017 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6230726 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |