JP5465166B2

JP5465166B2 - 発声内容認識装置および発声内容認識方法

Info

Publication number: JP5465166B2
Application number: JP2010287127A
Authority: JP
Inventors: 空悟守田
Original assignee: Kyocera Corp
Current assignee: Kyocera Corp
Priority date: 2010-12-24
Filing date: 2010-12-24
Publication date: 2014-04-09
Anticipated expiration: 2025-01-28
Also published as: JP2011070224A

Description

本発明は発声内容認識装置および発生内容認識方法に関する。

音声を文字列に置き換えるための音声認識技術が知られている。この音声認識技術では、まず収音器で発声者の発する音声を収音する。次に、収音した音声の特徴パターンを抽出する。そして、抽出した特徴パターンに対応する文字列パターンを認識結果として出力することにより、音声を文字列に置き換えている。

なお、特許文献１には、このような音声認識技術を、発声者の唇形状の特徴パターンに基づいてパターン認識を行う口元認識技術と併用することに関する記載がある。

特開平６−３１１２２０号公報

しかしながら、上記従来の音声認識技術では、発声者が収音器の近くにいないと、発声者の発する音声の特徴パターン抽出が上手くできず、音声認識の精度が下がってしまうという問題があった。

本発明は上記課題を解決するためになされたもので、その目的の一つは、発声者が収音器の近くにおらず低精度の音声認識が行われることを抑制できる発声内容認識装置および発生内容認識方法を提供することにある。

上記課題を解決するための本発明に係る発声内容認識装置は、収音する収音手段と、前記収音手段に対し音声を発する発声者の画像を撮影する撮影手段と、前記収音される音声に基づく音声認識を行う音声認識手段と、前記撮影される画像に前記発声者の少なくとも一部を示す発声者画像が含まれていない場合に、前記音声認識手段が音声認識を行うことを制限する音声認識実施制限手段と、を含むことを特徴とする。

撮影される画像に発声者画像が含まれていない場合には、含まれている場合に比べ、発声者が近くにいない可能性が高いと考えられる。本発明によれば、取得される画像に発声者画像が含まれていない場合に音声認識の開始を制限するようにしたので、発声者が収音器の近くにおらず低精度の音声認識が行われることを抑制できる。

また、上記発声内容認識装置において、前記発声者画像は前記発声者の口元を示す口元画像である、こととしてもよい。

発声者が口元を当該発声内容認識装置に向けていない場合には、向けている場合に比べ、発声者の発する音声が当該発声内容認識装置に届きにくい可能性が高いと考えられる。本発明によれば、取得される画像に発声者の口元を示す口元画像が含まれていない場合に音声認識を行うことを制限するようにしたので、発声者の発する音声が当該パターン認識装置に届きにくく低精度の音声認識が行われることを抑制できる。

また、上記発声内容認識装置において、前記撮影手段は、前記画像を順次撮影し、前記音声認識実施制限手段は、前記撮影される画像に前記口元画像が含まれている場合であっても、順次取得された該口元画像により示される口元が動いていない場合に、前記音声認識手段が音声認識を行うことを制限する、こととしてもよい。

発声者の口元が動いていない場合には、発声者が声を出していない可能性が高いと考えられる。本発明によれば、発声者の口元が動いていない場合には音声認識を行うことを制限するようにしたので、発声者が声を出しておらず低精度の音声認識が行われることを抑制できる。

また、上記発声内容認識装置において、前記撮影される画像に含まれる前記口元画像により示される口元に向けて、前記音声取得手段の指向性を合わせる音声指向性制御手段、をさらに含むこととしてもよい。

本発明によれば、取得される口元画像により示される発声者の口元に向けて音声取得手段の指向性を合わせることにより、より高い精度で音声認識が行われるようにすることができる。

また、上記発声内容認識装置において、前記撮影される画像に含まれる前記口元画像により示される発声者の口元の形状又は該形状の推移に基づいて口元認識を行う口元認識手段と、前記収音される音声に基づく前記音声認識手段の認識結果と、該音声の発声者が該音声を発する際の前記撮影される画像に含まれる口元画像により示される口元の形状又は該形状の推移と、に基づいて、前記口元認識手段による口元認識の学習を行う口元認識学習手段と、をさらに含むこととしてもよい。

本発明によれば、音声が発される場合の口元の形状又は該形状の推移を取得することができる。さらに、該音声は音声認識手段によって認識される。このため、音声認識の認識結果と、口元の形状又は該形状の推移と、を対応付けることができるので、口元認識の学習を行うことができる。

また、上記発声内容認識装置において、前記収音手段により収音される音声の収音状態の良さを示す収音状態評価値を取得する収音状態評価値取得手段、をさらに含み、前記口元認識学習手段による学習は、前記収音状態評価値により示される収音状態が所定閾値以上である場合の前記音声認識手段の認識結果に基づいて行われる、こととしてもよい。

本発明によれば、発声者の発する音声を良好な収音状態で収音できている場合にのみ、口元認識学習手段による学習を行うことができる。すなわち、音声認識が良好な状態で実施されている場合にのみ、口元認識学習を行うので、精度の悪い音声認識の認識結果により口元認識学習が行われる可能性を減少させることができる。

また、本発明に係る音声認識装置は、収音する収音手段と、前記収音手段に対し音声を発する発声者の口元を示す口元画像を撮影する撮影手段と、前記収音手段により収音される音声の収音状態の良さを示す収音状態評価値を取得する収音状態評価値取得手段と、前記収音される音声に基づく音声認識を行う音声認識手段と、前記撮影される画像に含まれる前記口元画像により示される発声者の口元の形状又は該形状の推移に基づいて口元認識を行う口元認識手段と、前記収音状態評価値により示される収音状態に応じて、前記音声認識手段又は前記口元認識手段のいずれにより認識を行うか決定する決定手段と、を含むことを特徴とする。

本発明によれば、収音状態に応じて音声認識と口元認識を切り替えることができるので、収音状態が悪いときに低精度の音声認識が行われることを抑制できる。

本発明の実施の形態に係る発声内容認識装置の構成図である。本発明の実施の形態に係る発声内容認識装置の機能ブロック図である。本発明の実施の形態に係る発声内容認識装置の処理フロー図である。

本発明の実施の形態について、図面を参照しながら説明する。

本発明に係る発声内容認識装置１０は、例えば携帯電話などのコンピュータであり、図１に示すように、ＣＰＵ１２、記憶部１４、入力部１５、出力部１９を含んで構成される。

入力部１５は、発声内容認識装置１０の外部の情報をＣＰＵ１２に対して入力するための機能部であり、本実施の形態では収音器１６と撮影機１８とを含んで構成される。収音器１６は、例えば指向性マイクロホンなど、音声を収音することのできる装置である。収音器１６は収音する方向についての指向性を有しており、ＣＰＵ１２はこの指向性を制御することができるように構成される。具体的には、ＣＰＵ１２が収音器１６の姿勢を制御することにより、その指向性を制御することができるように構成される。そして収音器１６は、収音した音声を電気信号に変えて、ＣＰＵ１２に出力する。

撮影機１８は、例えばカメラやビデオカメラなど、画像を順次撮影することができる装置である。撮影機１８は、ＣＰＵ１２の制御により撮影方向を変更できるように構成される。具体的には、ＣＰＵ１２が撮影機１８の姿勢を制御することにより、その撮影方向を制御できるように構成される。そして撮影機１８は、撮影した画像をビットマップとしてＣＰＵ１２に対して出力する。

ＣＰＵ１２は、記憶部１４に記憶されるプログラムを実行するための処理ユニットであり、発声内容認識装置１０の各部を制御する。

また、ＣＰＵ１２は、音声認識及び口元認識のための処理を行う。音声認識では、まず収音器１６で発声者の発する音声を収音する。次に、収音した音声の特徴パターンを抽出する。より具体的には、ＣＰＵ１２は記憶部１４に記憶される特徴パターンと同じものが含まれるか否かを判断する。そしてこの判断の結果、同じものが含まれると判断される特徴パターンが抽出される特徴パターンとなる。そして、抽出した特徴パターンに対応する文字列パターンを認識結果として出力することにより、音声を文字列に置き換えている。

口元認識では、まず撮影機１８で発声者の口元画像を撮影する。次に、撮影した口元画像により示される口元の形状又は該形状の推移の特徴パターンを抽出する。より具体的には、ＣＰＵ１２は記憶部１４に記憶される特徴パターンと同じものが含まれるか否かを判断する。そしてこの判断の結果、同じものが含まれると判断される特徴パターンが抽出される特徴パターンとなる。そして、抽出した特徴パターンに対応する文字列パターンを認識結果として出力することにより、口の形状又はその動きを文字列に置き換えている。

記憶部１４は、本実施の形態を実施するためのプログラムを記憶している。また、ＣＰＵ１２のワークメモリとしても動作する。

また記憶部１４は、音声認識のために、音声の特徴パターンと文字列パターンとを対応付けて記憶している。さらに記憶部１４は、口元認識のために、口元の形状又は該形状の推移の特徴パターンと文字列パターンとを対応付けて記憶している。なお、これらについては、特徴パターンを入力として文字列パターンを出力とするニューラルネットなどの学習システムを使用することも可能である。ここでは、記憶部１４において、特徴パターンと文字列パターンとを対応付けて記憶するものとする。

出力部１９は、ＣＰＵ１２から入力されるデータを、ＣＰＵ１２から入力される指示情報に従って、出力手段により出力する。この出力手段には、例えばディスプレイなどの表示装置、スピーカなどの音声出力装置を用いることができる。

本実施の形態では、以上説明したような発声内容認識装置１０において、音声認識を行う際の精度の向上を図ることができるようにしている。具体的には、発声者が収音器１６の近くにおらず低精度の音声認識が行われることを抑制している。また、発声者の発する音声が当該パターン認識装置に届きにくく低精度の音声認識が行われることを抑制している。さらに、発声者が声を出しておらず低精度の音声認識が行われることを抑制している。他に、発声者の口元に向けて音声取得手段の指向性を合わせることにより、より高い精度で音声認識が行われるようにしている。また、音声認識の認識結果と、該音声を発する口元の形状又は該形状の推移と、に基づいて口元認識の学習を行う。また、精度の悪い音声認識の認識結果により口元認識学習が行われる可能性を減少させることができるようにしている。さらに、収音状態に応じて音声認識と口元認識を切り替えることで、収音状態が悪いときに低精度の音声認識が行われることを抑制している。

図２は、以上のような機能を実現するための発声内容認識装置１０の機能ブロック図である。同図に示すように、発声内容認識装置１０のＣＰＵ１２は、機能的には、画像取得部１２０、口元探索部１２４、口元認識部１２６、口元認識学習部１２８、音声取得部１３０、信号レベル計測部１３４、音声認識部１３６、指向性制御部１４０、認識・学習判定部１４２、統合処理部１４４、を含んで構成されている。また、口元探索部１２４と、口元認識部１２６と、口元認識学習部１２８とは、口元認識機能部１２２を構成し、信号レベル計測部１３４と、音声認識部１３６とは、音声認識機能部１３２を構成している。以下、各部の処理について詳細に説明する。

まず、画像取得部１２０は、撮影機１８で撮影された画像を順次取得する。発声者が収音器１６に対して発声している場合には、この画像に発声者の口元形状を示す口元画像が含まれる。また、撮影機１８が、口元画像が含まれる画像を順次撮影する場合には、一連の画像には発声者の口元形状の推移を示す口元画像が含まれる。そして画像取得部１２０は、取得した画像を口元探索部１２４に対して順次出力する。

また、画像取得部１２０は、撮影機１８が撮影している方向を示す方向情報も取得する。方向情報は、例えば発声内容認識装置１０の筐体に対する相対的方向を示す情報である。そして画像取得部１２０は、取得した方向情報を、取得した画像と対応付けて口元探索部１２４に対して順次出力する。

口元探索部１２４は、画像取得部１２０から順次入力された画像に、上記口元画像が含まれるか否かを探索する。具体的には、画像から口元の特徴を示す特徴パターンを抽出する。そして、口元の特徴を示す特徴パターンを抽出できた場合に、該特徴パターンを抽出できた旨を示す口元検出情報を認識・学習判定部１４２に対して出力する。一方、口元の特徴を示す特徴パターンを抽出できなかった場合には、該特徴パターンを抽出できなかった旨を示す口元不検出情報を認識・学習判定部１４２に対して出力する。また、探索できた口元画像により示される口元の画像内における位置と、該口元画像を含む画像に対応付けて画像取得部１２０から入力された方向情報と、を指向性制御部１４０に対して出力する。

さらに口元探索部１２４は、画像から口元の特徴を示す特徴パターンを抽出する処理を一連の画像のそれぞれについて行い、抽出した特徴パターンの変化に基づいて、口元が動いているか否かを判断する処理を所定時間ごとに行う。そして口元が動いていると判断する場合に、口元探索部１２４は、口元が動いている旨を示す口元動情報を信号レベル計測部１３４及び認識・学習判定部１４２に対して出力する。一方、口元が動いていないと判断する場合に、口元探索部１２４は、口元が動いていない旨を示す口元不動情報を信号レベル計測部１３４及び認識・学習判定部１４２に対して出力する。

また、口元探索部１２４は、画像取得部１２０から順次入力された画像を口元認識部１２６に対してそのまま出力する。

次に、指向性制御部１４０は、口元探索部１２４から入力される、探索できた口元画像により示される口元の画像内における位置と、該口元画像を含む画像に対応付けて画像取得部１２０から入力された方向情報と、に基づいて、収音器１６の指向性を制御する。より具体的には、撮影された画像の撮影方向と、該画像の中の特に口元の位置と、によって示される方向に収音器１６の指向性が向くよう、収音器１６の指向性を制御する。このようにすることにより、後述する発声者の音声の収音状態がよくなるようにしている。

次に、音声取得部１３０は、収音器１６で収音された音声を順次取得する。該音声には、発声者が発した音声及びその他の雑音を含んでいる。そして音声取得部１３０は、取得した音声を信号レベル計測部１３４及び音声認識部１３６に対して順次出力する。

信号レベル計測部１３４は、音声取得部１３０から順次入力された音声について、順次その収音状態の良さを示す収音状態評価値を取得する。収音状態評価値として具体的には、例えば音声信号対雑音信号比（ＳＮＲ,Signal to Noise Ratio）を用いることができる。収音状態評価値としてこのＳＮＲを用いると、収音状態評価値は入力された音声に含まれる発声者が発した音声と、その他の雑音と、の比となる。そして信号レベル計測部１３４は、取得した収音状態評価値を認識・学習判定部１４２に対して出力する。また、信号レベル計測部１３４は、音声取得部１３０から順次入力された音声を音声認識部１３６に対してそのまま出力する。

なお、発声者が発した音声と、その他の雑音と、を区別するために、信号レベル計測部１３４では口元探索部１２４から入力される口元動情報若しくは口元不動情報を利用する。信号レベル計測部１３４は、入力される口元動情報により口元が動いていることが示される場合に、音声取得部１３０から入力される音声は発声者が発した音声を含む音声であると判断する。この場合には、信号レベル計測部１３４は入力された音声から記憶部１４に記憶される特徴パターンを抽出し、発声者が発した音声である音声信号と、その他の雑音である雑音信号と、に分離する。そして分離された各信号の強度に基づいてＳＮＲを算出する。一方、信号レベル計測部１３４は、入力される口元不動情報により口元が動いていないことが示される場合に、音声取得部１３０から入力される音声は発声者が発した音声を含まない音声であると判断する。この場合には、音声信号がないので、ＳＮＲは０となる。

また、雑音信号の強度が大きく変化しないと期待される場合には、口元動情報により口元が動いていることが示される場合に音声取得部１３０から入力される音声の信号強度から、入力される口元不動情報により口元が動いていないことが示される場合に音声取得部１３０から入力される音声の信号強度を減算して得られる信号強度を、発声者が発した音声である音声信号の強度としてＳＮＲを算出してもよい。

認識・学習判定部１４２は、口元探索部１２４から入力される口元検出情報又は口元不検出情報と、口元動情報又は口元不動情報と、信号レベル計測部１３４から入力される収音状態評価値と、に基づいて音声認識機能部１３２及び口元認識機能部１２２の制御を行う。

具体的には、認識・学習判定部１４２は、口元探索部１２４から入力される口元検出情報又は口元不検出情報によって、撮影機１８で撮影された画像に発声者の口元を示す口元画像が含まれているか否かを判断する。また、認識・学習判定部１４２は、口元探索部１２４から入力される口元動情報又は口元不動情報によって、撮影機１８で撮影された画像に含まれる口元画像によって示される口元が動いているか否かを判断する。さらに、認識・学習判定部１４２は、収音器１６での発声者音声の収音状態が良いか悪いかを、信号レベル計測部１３４から入力される収音状態評価値を閾値と比較した場合の大小によって判断する。そして、収音状態評価値が該閾値より低い場合には収音状態が悪い場合（収音状態レベル０）として分類する。一方、収音状態評価値が該閾値より高い場合には、信号レベル計測部１３４から入力される収音状態評価値を別の閾値と比較する。そして、収音状態評価値が該別の閾値より低い場合には収音状態が良い場合（収音状態レベル１）として分類する。また、収音状態評価値が該別の閾値より高い場合には収音状態が非常に良い状態（収音状態レベル２）として分類する。

そして認識・学習判定部１４２は、上記各判断の判断結果に基づいて、音声認識機能部１３２及び口元認識機能部１２２の制御を行う。

すなわち、画像に口元画像が含まれておらず、かつ発声者音声の収音状態が悪い場合には、音声認識部１３６が音声認識を行うことを制限し、音声認識を行わないようにする。逆に、画像に口元画像が含まれていなくても、発声者音声の収音状態が良い場合（収音状態レベル１又は２）には、音声認識部１３６において音声認識を行うよう、音声認識機能部１３２を制御する。

また、画像に口元画像が含まれていても、その口元画像によって示される口元が動いていないと判断する場合には、音声認識部１３６が音声認識を行うことを制限し、音声認識を行わないようにする。一方、その口元画像によって示される口元が動いていると判断する場合には、収音器１６での発声者音声の収音状態によって、異なる処理を行う。

すなわち、収音器１６での発声者音声の収音状態が非常に良い場合（収音状態レベル２）には、認識・学習判定部１４２は、音声認識部１３６において音声認識を行うよう、音声認識機能部１３２を制御するとともに、口元認識機能部１２２に対し口元認識部１２６の口元認識学習を行うよう指示する。この口元認識学習については、後に詳述する。

また、収音器１６での発声者音声の収音状態が良い場合（収音状態レベル１）には、認識・学習判定部１４２は、口元認識部１２６による口元認識と音声認識部１３６による音声認識と、をともに行うよう、口元認識機能部１２２及び音声認識機能部１３２をそれぞれ制御する。また、口元認識部１２６による口元認識と音声認識部１３６による音声認識とに基づいて認識結果を出力するよう、統合処理部１４４に対して指示を行う。そして後述するように、統合処理部１４４が口元認識結果と音声認識結果に基づいて認識結果を作成し、作成した認識結果を出力部１９に対して出力する。

さらに、収音器１６での発声者音声の収音状態が悪い場合（収音状態レベル０）には、認識・学習判定部１４２は、音声認識部１３６が音声認識を行うことを制限し、音声認識を行わないようにするとともに、口元認識を行うようにする。すなわち、発声者音声の収音状態に応じて、音声認識又は口元認識のいずれにより認識を行うかを決定し、発声者音声の収音状態が悪い場合には音声認識を口元認識に切り替えるようにしている。

音声認識部１３６は、信号レベル計測部１３４から順次入力される音声に基づいて音声認識を行う。なお音声認識部１３６は、音声認識を行うことを制限されている場合には音声認識を行わない。

音声認識を行う場合、音声認識部１３６は、まず順次入力される音声から、記憶部１４に記憶される特徴パターンを抽出する。そして、抽出した特徴パターンに対応付けて記憶部１４に記憶される文字列パターンを音声認識結果として統合処理部１４４及び口元認識学習部１２８に対して出力する。

なお、特徴パターン抽出処理は信号レベル計測部１３４で行い、音声認識部１３６は信号レベル計測部１３４が抽出した特徴パターンを受け取ることとしてもよい。また、音声認識部１３６は、例えば収音状態が悪いことにより音声認識を行うことを制限されている場合には、発声者が再度発声するよう促すために、出力部１９に対して再度の発声を促すための表示又は音声出力を行うよう指示することとしてもよい。つまり出力部１９は、音声認識部１３６によるこの指示に応じて、発声者に対し再度発声するよう指示する指示情報を通知する。

口元認識部１２６は、口元探索部１２４から順次入力される画像に基づいて口元認識を行う。なお口元認識部１２６も、口元認識を行うことを制限されている場合には口元認識を行わない。

口元認識を行う場合、口元認識部１２６は、まず順次入力される画像から、記憶部１４に記憶される口元の形状又は該形状の推移の特徴パターンを抽出する。そして、抽出した特徴パターンに対応付けて記憶部１４に記憶される文字列パターンを口元認識結果として統合処理部１４４に対して出力する。なお、特徴パターン抽出処理は口元探索部１２４で行い、口元認識部１２６は口元探索部１２４が抽出した特徴パターンを受け取ることとしてもよい。なお口元認識部１２６は、抽出特徴パターンに基づいて文字列パターンを出力することができたとき、良好な認識結果が得られたと判断する。

口元認識学習部１２８は、認識・学習判定部１４２から口元認識機能部１２２に対し口元認識部１２６の口元認識学習を行うよう指示があった場合に、口元認識部１２６の口元認識学習を行う。

具体的には、口元認識学習部１２８は、発声者のある時点又は期間での口元について、口元認識部１２６において抽出した形状又は該形状の推移の特徴パターンと、その時点又は期間において発声者が発した音声の音声認識結果である文字列パターンと、を取得する。そして取得した特徴パターンと文字列パターンとを対応付けて記憶部１４に記憶する。このようにして記憶部１４に記憶される口元の形状又は該形状の推移の特徴パターンと、文字列パターンと、を更新することにより、口元認識部１２６の口元認識学習を行う。

言い換えれば、口元認識学習部１２８は、収音される音声に基づく音声認識結果と、該音声の発声者が該音声を発する際に撮影された画像に含まれる口元画像により示される口元の形状又は該形状の推移と、に基づいて、口元認識の学習を行っている。

なお口元認識学習部１２８は、一定期間にわたり認識・学習判定部１４２からの上記指示がないことを検出した場合、記憶部１４に過去に記憶した口元の形状又は該形状の推移の特徴パターンと文字列パターンとに基づいて繰り返し学習（反復学習）を行うこととしてもよい。

統合処理部１４４は、認識・学習判定部１４２により口元認識部１２６による口元認識結果と音声認識部１３６による音声認識結果とに基づいて認識結果を出力するよう指示された場合には、口元認識部１２６による口元認識と音声認識部１３６による音声認識とに基づいて認識結果を生成し、生成した認識結果を出力部１９に対して出力する。一方、認識・学習判定部１４２により口元認識部１２６による口元認識と音声認識部１３６による音声認識とに基づいて認識結果を出力するよう指示されていない場合には、音声認識部１３６による音声認識結果を認識結果として出力部１９に対して出力する。

なお、口元認識部１２６による口元認識と音声認識部１３６による音声認識とに基づいて認識結果を生成する処理は、口元認識結果と音声認識結果のいずれかを認識結果として取得する処理であってもよいし、口元認識結果と音声認識結果の両方に基づく認識結果を生成する処理であってもよい。

以上説明した発声内容認識装置１０における発生内容認識精度向上処理を、該処理のフロー図を参照しながらより詳細に説明する。

まず、画像取得部１２０は撮影機１８で撮影された画像を順次取得するための画像取得処理を行う（Ｓ１００）。次に、口元探索部１２４は画像取得部１２０において取得された画像において発声者の口元画像を探索する（Ｓ１０２）。より具体的には、画像から発声者の口元の形状の特徴パターンを抽出する。口元探索部１２４は、一連の画像についてこの特徴パターン抽出処理を行う（Ｓ１０２）。

そして、口元探索部１２４は画像に発声者の口元画像が含まれているか否かを判断する（Ｓ１０４）。この判断で含まれていないと判断される場合、発声内容認識装置１０はＳ１０６の処理に進む。一方含まれていると判断される場合、発声内容認識装置１０はＳ１１６の処理に進む。

Ｓ１０６では、音声取得部１３０が収音器１６で収音される音声を順次取得するための音声取得処理を行う（Ｓ１０６）。そして、信号レベル計測部１３４は音声取得部１３０が順次取得する音声のＳＮＲを順次測定する。そして閾値１を記憶部１４から読み出し、測定されたＳＮＲが閾値１を超えているか否かに応じて、発声内容認識装置１０は異なる処理を行う（Ｓ１０８）。

測定されたＳＮＲが閾値１を超えていない場合、音声認識機能部１３２は発声者に対し聞き返すための処理を行う（Ｓ１１０）。一方、測定されたＳＮＲが閾値１を超えている場合には、音声認識機能部１３２は収音器１６により順次収音される発声者の音声に基づく音声認識を行い、統合処理部１４４は、音声認識機能部１３２から出力される音声認識結果を認識結果として取得し、出力する（Ｓ１１４）。

Ｓ１１６では、口元探索部１２４は一連の画像について抽出した特徴パターンに基づいて得られる口元画像により、口元が動いているか否かを判断する（Ｓ１１６）。口元が動いていないと判断される場合、発声内容認識装置１０は音声認識処理も口元認識処理も行わず、処理を終了する（Ｓ１４０）。一方、口元が動いていると判断される場合、発声内容認識装置１０は以下の処理を行う。

すなわち発声内容認識装置１０は、まず収音器１６の指向性を発声者の口元に合わせるための指向性制御処理を行う（Ｓ１１８）。そして発声内容認識装置１０は、音声取得部１３０が収音器１６で収音される音声を順次取得するための音声取得処理を行う（Ｓ１２０）。そして発声内容認識装置１０は、信号レベル計測部１３４において音声取得部１３０が順次取得する音声のＳＮＲを順次測定する。そして発声内容認識装置１０は閾値１と閾値２（閾値２＞閾値１）を記憶部１４から読み出し、測定されたＳＮＲが閾値１を超えていない場合、閾値１を超えているが閾値２を超えていない場合、閾値２を超えている場合、のそれぞれにおいて異なる処理を行う（Ｓ１２２，Ｓ１２７）。

まず測定されたＳＮＲが閾値１を超えていない場合、口元認識機能部１２２による、撮影機１８により順次撮影される画像に含まれる口元画像に基づく口元認識処理を行う（Ｓ１２３）。そして口元認識部１２６は、良好な認識結果を得ることができたか否かを判断し（Ｓ１２４）、良好な認識結果が得られたと判断される場合には、発声内容認識装置１０は、統合処理部１４４において、口元認識機能部１２２から出力される音声認識結果を認識結果として取得し、出力する（Ｓ１２５）。一方良好な認識結果を得ることができなかったと判断される場合には、音声認識部１３６は発声者に対し聞き返すための処理を行う（Ｓ１２６）。

次に、測定されたＳＮＲが閾値１を超えているが閾値２を超えていない場合、発声内容認識装置１０は、音声認識機能部１３２による、収音器１６により順次収音される発声者の音声に基づく音声認識処理（Ｓ１２８）と、口元認識機能部１２２による、撮影機１８により順次撮影される画像に含まれる口元画像に基づく口元認識処理（Ｓ１３０）と、を行う。そして発声内容認識装置１０は、統合処理部１４４において、音声認識処理の認識結果と、口元認識処理の認識結果と、に基づいて認識結果を生成取得し、出力する（Ｓ１３２）。

測定されたＳＮＲが閾値２を超えている場合には、発声内容認識装置１０は、音声認識機能部１３２による、収音器１６により順次収音される発声者の音声に基づく音声認識処理を行う（Ｓ１３４）。そして発声内容認識装置１０は、統合処理部１４４において、音声認識機能部１３２から出力される音声認識結果を認識結果として取得し、出力する（Ｓ１３６）。さらに発声内容認識装置１０は、この出力結果と、撮影機１８により順次撮影される画像に含まれる口元画像の特徴パターンと、に基づいて口元認識の学習処理を行う（Ｓ１３８）。

そして、以上のようにして実行される発生内容認識精度向上処理を終了するか否かを判断し、終了する場合には終了し、終了しない場合には再度Ｓ１００の処理から処理を繰り返す（Ｓ１４０）。

以上のようにして、発声内容認識装置１０は、撮影機１８で撮影された画像に発声者の少なくとも一部が含まれるか否かを判定しているので、口元画像発声者が収音器１６の近くにおらず低精度の音声認識が行われることを抑制することができる。また、撮影機１８で撮影された画像に口元画像が含まれるか否かを判定しているので、発声者の発する音声が当該パターン認識装置に届きにくく低精度の音声認識が行われることを抑制することができる。さらに、撮影機１８で撮影された画像に含まれる口元画像が動いているか否かを判定しているので、発声者が声を出しておらず低精度の音声認識が行われることを抑制している。他に、収音器１６の指向性を制御して発声者の口元に向けて音声取得手段の指向性を合わせることにより、よりよい収音状態で発声者の発する音声を取得できる。また、音声認識の認識結果と、該音声を発する口元の形状又は該形状の推移と、に基づいて口元認識の学習を行うので、口元認識の精度を上げることができ、さらに統合処理部１４４は口元認識結果と音声認識結果の両方に基づいて認識結果を生成しているので、パターン認識の認識結果の精度を上げることができる。また、収音器１６での発声者音声の収音状態が非常に良い場合に口元認識学習を行い、他の収音状態では口元認識学習を行わないようにしているので、精度の悪い音声認識の認識結果により口元認識学習が行われる可能性を減少させることができる。また、収音器１６での発声者音声の収音状態に応じて音声認識と口元認識を切り替えることができるので、収音状態が悪いときに低精度の音声認識が行われることを抑制できる。

なお、本発明は上記実施の形態に限定されるものではない。例えば、発声内容認識装置１０は収音器１６を複数備えることとしてもよい。この場合には、信号レベル計測部１３４は撮影機１８の撮影した画像に含まれる口元画像により示される口元の位置に対して指向性を有する収音器１６において音声信号と雑音信号を収音し、その他の方向に対して指向性を有する収音器１６において収音される音声は全て雑音信号であると判断することとしてもよい。

また、撮影機１８の撮影した画像に含まれる口元画像により示される口元の位置に対して、撮影機１８自身の撮影方向を合わせるよう、撮影機１８の撮影方向を制御することとしてもよい。具体的には、ＣＰＵ１０が撮影機１８の撮影した画像に含まれる口元画像により示される口元の位置に応じて撮影機１８の撮影方向を制御することとしてもよい。

さらに、記憶部１４は複数人についてそれぞれの音声の特徴パターン若しくは口元の形状又は該形状の推移の特徴パターンを記憶することとしてもよい。この場合、収音器１６において収音される音声から抽出された音声の特徴パターンと、撮影機１８において撮影される画像から抽出された口元の形状又は該形状の推移パターンと、が同一人物のものでない場合には、信号レベル計測部１３４は、取得された音声を雑音として取り扱うこととしてもよい。また、指向性制御部１４０は、該口元画像により示される口元の位置に対して指向性を合わせる処理を中止することとしてもよい。また、認識・学習判定部１４２は、音声認識処理、口元認識処理、口元認識学習処理、を行わないこととしてもよい。

また、記憶部１４が複数人についてそれぞれの音声の特徴パターン若しくは口元の形状又は該形状の推移の特徴パターンを記憶する場合において、さらに各人を示す個人情報と対応付けてＲＦＩＤ(無線ＩＣタグ)情報を記憶することとしてもよい。この場合、発声内容認識装置１０がＲＦＩＤ読取手段を備えることとすれば、該ＲＦＩＤ読取手段によりＲＦＩＤを検出することで発声内容認識装置１０を使用しているのが記憶されるＲＦＩＤを持っている人であるかそうでないかを判断することができる。そして、ＲＦＩＤを持っていない人が発声内容認識装置１０を使用していると判断する場合には、上記各処理を行わないこととしてもよい。また、発声内容認識装置１０を使用しているのが記憶されるＲＦＩＤを持っている人であると判断される場合には、音声認識処理及び口元認識処理において該ＲＦＩＤに対応付けて記憶される個人情報で示される人についての特徴パターンを使用することとしてもよい。

１０発声内容認識装置、１２ＣＰＵ、１４記憶部、１５入力部、１６収音器、１８撮影機、１９出力部、１２０画像取得部、１２２口元認識機能部、１２４
口元探索部、１２６口元認識部、１２８口元認識学習部、１３０音声取得部、１３２音声認識機能部、１３４信号レベル計測部、１３６音声認識部、１４０指向性制御部、１４２認識・学習判定部、１４４統合処理部

Claims

収音手段と、
画像を撮影する撮影手段と、
前記収音される音声に基づく音声認識を行う音声認識手段と、
前記撮影される画像に前記収音手段に対し音声を発する発声者の口元が含まれていない場合に、前記音声認識手段が音声認識を行うことを制限する音声認識実施制限手段と、
前記撮影される画像に含まれる前記発声者の口元の形状又は該形状の推移に基づいて口元認識を行う口元認識手段と、
前記音声認識手段の認識結果と、前記撮影される画像に含まれる前記発声者の口元の形状又は該形状の推移と、に基づいて、前記口元認識手段による口元認識の学習を行う口元認識学習手段と、
前記収音手段により収音される音声から抽出される特徴パターンに基づいて、前記発声者が発した音声を含む音声を、該発声者が発した音声である音声信号とその他の雑音信号とに分離し、該分離された音声信号および雑音信号に基づく収音状態の良さを示す収音状態評価値を取得する収音状態評価値取得手段と、を含み、
前記口元認識学習手段による学習は、前記収音状態評価値により示される収音状態が所定閾値以上である場合の前記音声認識手段の認識結果に基づいて行われる、
ことを特徴とする発声内容認識装置。
請求項１に記載の発声内容認識装置において、
前記撮影手段は、前記画像を順次撮影し、
前記音声認識実施制限手段は、前記撮影される画像に口元が含まれている場合であっても、順次取得された該画像により示される口元が動いていない場合に、前記音声認識手段が音声認識を行うことを制限する、
ことを特徴とする発声内容認識装置。
請求項１又は２に記載の発声内容認識装置において、
前記撮影される画像に含まれる口元に向けて、前記収音手段の指向性を合わせる音声指向性制御手段、
をさらに含むことを特徴とする発声内容認識装置。
収音される音声に基づく音声認識を行うステップＡと、
撮影される画像に音声を発する発声者の口元が含まれていない場合に、前記音声認識を行うことを制限するステップＢと、
前記撮影される画像に含まれる前記発声者の口元の形状又は該形状の推移に基づいて口元認識を行うステップＣと、
前記音声認識の認識結果と、前記撮影される画像に含まれる前記発声者の口元の形状又は該形状の推移と、に基づいて、前記口元認識の学習を行うステップＤと、
前記収音される音声から抽出される特徴パターンに基づいて、前記発声者が発した音声を含む音声を、該発声者が発した音声である音声信号とその他の雑音信号とに分離し、該分離された音声信号および雑音信号に基づく収音状態の良さを示す収音状態評価値を取得するステップＥと、を含み、
前記ステップＤによる学習は、前記収音状態評価値により示される収音状態が所定閾値以上である場合の前記音声認識の認識結果に基づいて行われる、
ことを特徴とする発声内容認識方法。