JP5465166B2 - 発声内容認識装置および発声内容認識方法 - Google Patents

発声内容認識装置および発声内容認識方法 Download PDF

Info

Publication number
JP5465166B2
JP5465166B2 JP2010287127A JP2010287127A JP5465166B2 JP 5465166 B2 JP5465166 B2 JP 5465166B2 JP 2010287127 A JP2010287127 A JP 2010287127A JP 2010287127 A JP2010287127 A JP 2010287127A JP 5465166 B2 JP5465166 B2 JP 5465166B2
Authority
JP
Japan
Prior art keywords
recognition
mouth
voice
unit
sound
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2010287127A
Other languages
English (en)
Other versions
JP2011070224A (ja
Inventor
空悟 守田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Kyocera Corp
Original Assignee
Kyocera Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Kyocera Corp filed Critical Kyocera Corp
Priority to JP2010287127A priority Critical patent/JP5465166B2/ja
Publication of JP2011070224A publication Critical patent/JP2011070224A/ja
Application granted granted Critical
Publication of JP5465166B2 publication Critical patent/JP5465166B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Image Analysis (AREA)

Description

本発明は発声内容認識装置および発生内容認識方法に関する。
音声を文字列に置き換えるための音声認識技術が知られている。この音声認識技術では、まず収音器で発声者の発する音声を収音する。次に、収音した音声の特徴パターンを抽出する。そして、抽出した特徴パターンに対応する文字列パターンを認識結果として出力することにより、音声を文字列に置き換えている。
なお、特許文献1には、このような音声認識技術を、発声者の唇形状の特徴パターンに基づいてパターン認識を行う口元認識技術と併用することに関する記載がある。
特開平6−311220号公報
しかしながら、上記従来の音声認識技術では、発声者が収音器の近くにいないと、発声者の発する音声の特徴パターン抽出が上手くできず、音声認識の精度が下がってしまうという問題があった。
本発明は上記課題を解決するためになされたもので、その目的の一つは、発声者が収音器の近くにおらず低精度の音声認識が行われることを抑制できる発声内容認識装置および発生内容認識方法を提供することにある。

上記課題を解決するための本発明に係る発声内容認識装置は、収音する収音手段と、前記収音手段に対し音声を発する発声者の画像を撮影する撮影手段と、前記収音される音声に基づく音声認識を行う音声認識手段と、前記撮影される画像に前記発声者の少なくとも一部を示す発声者画像が含まれていない場合に、前記音声認識手段が音声認識を行うことを制限する音声認識実施制限手段と、を含むことを特徴とする。
撮影される画像に発声者画像が含まれていない場合には、含まれている場合に比べ、発声者が近くにいない可能性が高いと考えられる。本発明によれば、取得される画像に発声者画像が含まれていない場合に音声認識の開始を制限するようにしたので、発声者が収音器の近くにおらず低精度の音声認識が行われることを抑制できる。
また、上記発声内容認識装置において、前記発声者画像は前記発声者の口元を示す口元画像である、こととしてもよい。
発声者が口元を当該発声内容認識装置に向けていない場合には、向けている場合に比べ、発声者の発する音声が当該発声内容認識装置に届きにくい可能性が高いと考えられる。本発明によれば、取得される画像に発声者の口元を示す口元画像が含まれていない場合に音声認識を行うことを制限するようにしたので、発声者の発する音声が当該パターン認識装置に届きにくく低精度の音声認識が行われることを抑制できる。
また、上記発声内容認識装置において、前記撮影手段は、前記画像を順次撮影し、前記音声認識実施制限手段は、前記撮影される画像に前記口元画像が含まれている場合であっても、順次取得された該口元画像により示される口元が動いていない場合に、前記音声認識手段が音声認識を行うことを制限する、こととしてもよい。
発声者の口元が動いていない場合には、発声者が声を出していない可能性が高いと考えられる。本発明によれば、発声者の口元が動いていない場合には音声認識を行うことを制限するようにしたので、発声者が声を出しておらず低精度の音声認識が行われることを抑制できる。
また、上記発声内容認識装置において、前記撮影される画像に含まれる前記口元画像により示される口元に向けて、前記音声取得手段の指向性を合わせる音声指向性制御手段、をさらに含むこととしてもよい。
本発明によれば、取得される口元画像により示される発声者の口元に向けて音声取得手段の指向性を合わせることにより、より高い精度で音声認識が行われるようにすることができる。
また、上記発声内容認識装置において、前記撮影される画像に含まれる前記口元画像により示される発声者の口元の形状又は該形状の推移に基づいて口元認識を行う口元認識手段と、前記収音される音声に基づく前記音声認識手段の認識結果と、該音声の発声者が該音声を発する際の前記撮影される画像に含まれる口元画像により示される口元の形状又は該形状の推移と、に基づいて、前記口元認識手段による口元認識の学習を行う口元認識学習手段と、をさらに含むこととしてもよい。
本発明によれば、音声が発される場合の口元の形状又は該形状の推移を取得することができる。さらに、該音声は音声認識手段によって認識される。このため、音声認識の認識結果と、口元の形状又は該形状の推移と、を対応付けることができるので、口元認識の学習を行うことができる。
また、上記発声内容認識装置において、前記収音手段により収音される音声の収音状態の良さを示す収音状態評価値を取得する収音状態評価値取得手段、をさらに含み、前記口元認識学習手段による学習は、前記収音状態評価値により示される収音状態が所定閾値以上である場合の前記音声認識手段の認識結果に基づいて行われる、こととしてもよい。
本発明によれば、発声者の発する音声を良好な収音状態で収音できている場合にのみ、口元認識学習手段による学習を行うことができる。すなわち、音声認識が良好な状態で実施されている場合にのみ、口元認識学習を行うので、精度の悪い音声認識の認識結果により口元認識学習が行われる可能性を減少させることができる。
また、本発明に係る音声認識装置は、収音する収音手段と、前記収音手段に対し音声を発する発声者の口元を示す口元画像を撮影する撮影手段と、前記収音手段により収音される音声の収音状態の良さを示す収音状態評価値を取得する収音状態評価値取得手段と、前記収音される音声に基づく音声認識を行う音声認識手段と、前記撮影される画像に含まれる前記口元画像により示される発声者の口元の形状又は該形状の推移に基づいて口元認識を行う口元認識手段と、前記収音状態評価値により示される収音状態に応じて、前記音声認識手段又は前記口元認識手段のいずれにより認識を行うか決定する決定手段と、を含むことを特徴とする。
本発明によれば、収音状態に応じて音声認識と口元認識を切り替えることができるので、収音状態が悪いときに低精度の音声認識が行われることを抑制できる。
本発明の実施の形態に係る発声内容認識装置の構成図である。 本発明の実施の形態に係る発声内容認識装置の機能ブロック図である。 本発明の実施の形態に係る発声内容認識装置の処理フロー図である。
本発明の実施の形態について、図面を参照しながら説明する。
本発明に係る発声内容認識装置10は、例えば携帯電話などのコンピュータであり、図1に示すように、CPU12、記憶部14、入力部15、出力部19を含んで構成される。
入力部15は、発声内容認識装置10の外部の情報をCPU12に対して入力するための機能部であり、本実施の形態では収音器16と撮影機18とを含んで構成される。収音器16は、例えば指向性マイクロホンなど、音声を収音することのできる装置である。収音器16は収音する方向についての指向性を有しており、CPU12はこの指向性を制御することができるように構成される。具体的には、CPU12が収音器16の姿勢を制御することにより、その指向性を制御することができるように構成される。そして収音器16は、収音した音声を電気信号に変えて、CPU12に出力する。
撮影機18は、例えばカメラやビデオカメラなど、画像を順次撮影することができる装置である。撮影機18は、CPU12の制御により撮影方向を変更できるように構成される。具体的には、CPU12が撮影機18の姿勢を制御することにより、その撮影方向を制御できるように構成される。そして撮影機18は、撮影した画像をビットマップとしてCPU12に対して出力する。
CPU12は、記憶部14に記憶されるプログラムを実行するための処理ユニットであり、発声内容認識装置10の各部を制御する。
また、CPU12は、音声認識及び口元認識のための処理を行う。音声認識では、まず収音器16で発声者の発する音声を収音する。次に、収音した音声の特徴パターンを抽出する。より具体的には、CPU12は記憶部14に記憶される特徴パターンと同じものが含まれるか否かを判断する。そしてこの判断の結果、同じものが含まれると判断される特徴パターンが抽出される特徴パターンとなる。そして、抽出した特徴パターンに対応する文字列パターンを認識結果として出力することにより、音声を文字列に置き換えている。
口元認識では、まず撮影機18で発声者の口元画像を撮影する。次に、撮影した口元画像により示される口元の形状又は該形状の推移の特徴パターンを抽出する。より具体的には、CPU12は記憶部14に記憶される特徴パターンと同じものが含まれるか否かを判断する。そしてこの判断の結果、同じものが含まれると判断される特徴パターンが抽出される特徴パターンとなる。そして、抽出した特徴パターンに対応する文字列パターンを認識結果として出力することにより、口の形状又はその動きを文字列に置き換えている。
記憶部14は、本実施の形態を実施するためのプログラムを記憶している。また、CPU12のワークメモリとしても動作する。
また記憶部14は、音声認識のために、音声の特徴パターンと文字列パターンとを対応付けて記憶している。さらに記憶部14は、口元認識のために、口元の形状又は該形状の推移の特徴パターンと文字列パターンとを対応付けて記憶している。なお、これらについては、特徴パターンを入力として文字列パターンを出力とするニューラルネットなどの学習システムを使用することも可能である。ここでは、記憶部14において、特徴パターンと文字列パターンとを対応付けて記憶するものとする。
出力部19は、CPU12から入力されるデータを、CPU12から入力される指示情報に従って、出力手段により出力する。この出力手段には、例えばディスプレイなどの表示装置、スピーカなどの音声出力装置を用いることができる。
本実施の形態では、以上説明したような発声内容認識装置10において、音声認識を行う際の精度の向上を図ることができるようにしている。具体的には、発声者が収音器16の近くにおらず低精度の音声認識が行われることを抑制している。また、発声者の発する音声が当該パターン認識装置に届きにくく低精度の音声認識が行われることを抑制している。さらに、発声者が声を出しておらず低精度の音声認識が行われることを抑制している。他に、発声者の口元に向けて音声取得手段の指向性を合わせることにより、より高い精度で音声認識が行われるようにしている。また、音声認識の認識結果と、該音声を発する口元の形状又は該形状の推移と、に基づいて口元認識の学習を行う。また、精度の悪い音声認識の認識結果により口元認識学習が行われる可能性を減少させることができるようにしている。さらに、収音状態に応じて音声認識と口元認識を切り替えることで、収音状態が悪いときに低精度の音声認識が行われることを抑制している。
図2は、以上のような機能を実現するための発声内容認識装置10の機能ブロック図である。同図に示すように、発声内容認識装置10のCPU12は、機能的には、画像取得部120、口元探索部124、口元認識部126、口元認識学習部128、音声取得部130、信号レベル計測部134、音声認識部136、指向性制御部140、認識・学習判定部142、統合処理部144、を含んで構成されている。また、口元探索部124と、口元認識部126と、口元認識学習部128とは、口元認識機能部122を構成し、信号レベル計測部134と、音声認識部136とは、音声認識機能部132を構成している。以下、各部の処理について詳細に説明する。
まず、画像取得部120は、撮影機18で撮影された画像を順次取得する。発声者が収音器16に対して発声している場合には、この画像に発声者の口元形状を示す口元画像が含まれる。また、撮影機18が、口元画像が含まれる画像を順次撮影する場合には、一連の画像には発声者の口元形状の推移を示す口元画像が含まれる。そして画像取得部120は、取得した画像を口元探索部124に対して順次出力する。
また、画像取得部120は、撮影機18が撮影している方向を示す方向情報も取得する。方向情報は、例えば発声内容認識装置10の筐体に対する相対的方向を示す情報である。そして画像取得部120は、取得した方向情報を、取得した画像と対応付けて口元探索部124に対して順次出力する。
口元探索部124は、画像取得部120から順次入力された画像に、上記口元画像が含まれるか否かを探索する。具体的には、画像から口元の特徴を示す特徴パターンを抽出する。そして、口元の特徴を示す特徴パターンを抽出できた場合に、該特徴パターンを抽出できた旨を示す口元検出情報を認識・学習判定部142に対して出力する。一方、口元の特徴を示す特徴パターンを抽出できなかった場合には、該特徴パターンを抽出できなかった旨を示す口元不検出情報を認識・学習判定部142に対して出力する。また、探索できた口元画像により示される口元の画像内における位置と、該口元画像を含む画像に対応付けて画像取得部120から入力された方向情報と、を指向性制御部140に対して出力する。
さらに口元探索部124は、画像から口元の特徴を示す特徴パターンを抽出する処理を一連の画像のそれぞれについて行い、抽出した特徴パターンの変化に基づいて、口元が動いているか否かを判断する処理を所定時間ごとに行う。そして口元が動いていると判断する場合に、口元探索部124は、口元が動いている旨を示す口元動情報を信号レベル計測部134及び認識・学習判定部142に対して出力する。一方、口元が動いていないと判断する場合に、口元探索部124は、口元が動いていない旨を示す口元不動情報を信号レベル計測部134及び認識・学習判定部142に対して出力する。
また、口元探索部124は、画像取得部120から順次入力された画像を口元認識部126に対してそのまま出力する。
次に、指向性制御部140は、口元探索部124から入力される、探索できた口元画像により示される口元の画像内における位置と、該口元画像を含む画像に対応付けて画像取得部120から入力された方向情報と、に基づいて、収音器16の指向性を制御する。より具体的には、撮影された画像の撮影方向と、該画像の中の特に口元の位置と、によって示される方向に収音器16の指向性が向くよう、収音器16の指向性を制御する。このようにすることにより、後述する発声者の音声の収音状態がよくなるようにしている。
次に、音声取得部130は、収音器16で収音された音声を順次取得する。該音声には、発声者が発した音声及びその他の雑音を含んでいる。そして音声取得部130は、取得した音声を信号レベル計測部134及び音声認識部136に対して順次出力する。
信号レベル計測部134は、音声取得部130から順次入力された音声について、順次その収音状態の良さを示す収音状態評価値を取得する。収音状態評価値として具体的には、例えば音声信号対雑音信号比(SNR,Signal to Noise Ratio)を用いることができる。収音状態評価値としてこのSNRを用いると、収音状態評価値は入力された音声に含まれる発声者が発した音声と、その他の雑音と、の比となる。そして信号レベル計測部134は、取得した収音状態評価値を認識・学習判定部142に対して出力する。また、信号レベル計測部134は、音声取得部130から順次入力された音声を音声認識部136に対してそのまま出力する。
なお、発声者が発した音声と、その他の雑音と、を区別するために、信号レベル計測部134では口元探索部124から入力される口元動情報若しくは口元不動情報を利用する。信号レベル計測部134は、入力される口元動情報により口元が動いていることが示される場合に、音声取得部130から入力される音声は発声者が発した音声を含む音声であると判断する。この場合には、信号レベル計測部134は入力された音声から記憶部14に記憶される特徴パターンを抽出し、発声者が発した音声である音声信号と、その他の雑音である雑音信号と、に分離する。そして分離された各信号の強度に基づいてSNRを算出する。一方、信号レベル計測部134は、入力される口元不動情報により口元が動いていないことが示される場合に、音声取得部130から入力される音声は発声者が発した音声を含まない音声であると判断する。この場合には、音声信号がないので、SNRは0となる。
また、雑音信号の強度が大きく変化しないと期待される場合には、口元動情報により口元が動いていることが示される場合に音声取得部130から入力される音声の信号強度から、入力される口元不動情報により口元が動いていないことが示される場合に音声取得部130から入力される音声の信号強度を減算して得られる信号強度を、発声者が発した音声である音声信号の強度としてSNRを算出してもよい。
認識・学習判定部142は、口元探索部124から入力される口元検出情報又は口元不検出情報と、口元動情報又は口元不動情報と、信号レベル計測部134から入力される収音状態評価値と、に基づいて音声認識機能部132及び口元認識機能部122の制御を行う。
具体的には、認識・学習判定部142は、口元探索部124から入力される口元検出情報又は口元不検出情報によって、撮影機18で撮影された画像に発声者の口元を示す口元画像が含まれているか否かを判断する。また、認識・学習判定部142は、口元探索部124から入力される口元動情報又は口元不動情報によって、撮影機18で撮影された画像に含まれる口元画像によって示される口元が動いているか否かを判断する。さらに、認識・学習判定部142は、収音器16での発声者音声の収音状態が良いか悪いかを、信号レベル計測部134から入力される収音状態評価値を閾値と比較した場合の大小によって判断する。そして、収音状態評価値が該閾値より低い場合には収音状態が悪い場合(収音状態レベル0)として分類する。一方、収音状態評価値が該閾値より高い場合には、信号レベル計測部134から入力される収音状態評価値を別の閾値と比較する。そして、収音状態評価値が該別の閾値より低い場合には収音状態が良い場合(収音状態レベル1)として分類する。また、収音状態評価値が該別の閾値より高い場合には収音状態が非常に良い状態(収音状態レベル2)として分類する。
そして認識・学習判定部142は、上記各判断の判断結果に基づいて、音声認識機能部132及び口元認識機能部122の制御を行う。
すなわち、画像に口元画像が含まれておらず、かつ発声者音声の収音状態が悪い場合には、音声認識部136が音声認識を行うことを制限し、音声認識を行わないようにする。逆に、画像に口元画像が含まれていなくても、発声者音声の収音状態が良い場合(収音状態レベル1又は2)には、音声認識部136において音声認識を行うよう、音声認識機能部132を制御する。
また、画像に口元画像が含まれていても、その口元画像によって示される口元が動いていないと判断する場合には、音声認識部136が音声認識を行うことを制限し、音声認識を行わないようにする。一方、その口元画像によって示される口元が動いていると判断する場合には、収音器16での発声者音声の収音状態によって、異なる処理を行う。
すなわち、収音器16での発声者音声の収音状態が非常に良い場合(収音状態レベル2)には、認識・学習判定部142は、音声認識部136において音声認識を行うよう、音声認識機能部132を制御するとともに、口元認識機能部122に対し口元認識部126の口元認識学習を行うよう指示する。この口元認識学習については、後に詳述する。
また、収音器16での発声者音声の収音状態が良い場合(収音状態レベル1)には、認識・学習判定部142は、口元認識部126による口元認識と音声認識部136による音声認識と、をともに行うよう、口元認識機能部122及び音声認識機能部132をそれぞれ制御する。また、口元認識部126による口元認識と音声認識部136による音声認識とに基づいて認識結果を出力するよう、統合処理部144に対して指示を行う。そして後述するように、統合処理部144が口元認識結果と音声認識結果に基づいて認識結果を作成し、作成した認識結果を出力部19に対して出力する。
さらに、収音器16での発声者音声の収音状態が悪い場合(収音状態レベル0)には、認識・学習判定部142は、音声認識部136が音声認識を行うことを制限し、音声認識を行わないようにするとともに、口元認識を行うようにする。すなわち、発声者音声の収音状態に応じて、音声認識又は口元認識のいずれにより認識を行うかを決定し、発声者音声の収音状態が悪い場合には音声認識を口元認識に切り替えるようにしている。
音声認識部136は、信号レベル計測部134から順次入力される音声に基づいて音声認識を行う。なお音声認識部136は、音声認識を行うことを制限されている場合には音声認識を行わない。
音声認識を行う場合、音声認識部136は、まず順次入力される音声から、記憶部14に記憶される特徴パターンを抽出する。そして、抽出した特徴パターンに対応付けて記憶部14に記憶される文字列パターンを音声認識結果として統合処理部144及び口元認識学習部128に対して出力する。
なお、特徴パターン抽出処理は信号レベル計測部134で行い、音声認識部136は信号レベル計測部134が抽出した特徴パターンを受け取ることとしてもよい。また、音声認識部136は、例えば収音状態が悪いことにより音声認識を行うことを制限されている場合には、発声者が再度発声するよう促すために、出力部19に対して再度の発声を促すための表示又は音声出力を行うよう指示することとしてもよい。つまり出力部19は、音声認識部136によるこの指示に応じて、発声者に対し再度発声するよう指示する指示情報を通知する。
口元認識部126は、口元探索部124から順次入力される画像に基づいて口元認識を行う。なお口元認識部126も、口元認識を行うことを制限されている場合には口元認識を行わない。
口元認識を行う場合、口元認識部126は、まず順次入力される画像から、記憶部14に記憶される口元の形状又は該形状の推移の特徴パターンを抽出する。そして、抽出した特徴パターンに対応付けて記憶部14に記憶される文字列パターンを口元認識結果として統合処理部144に対して出力する。なお、特徴パターン抽出処理は口元探索部124で行い、口元認識部126は口元探索部124が抽出した特徴パターンを受け取ることとしてもよい。なお口元認識部126は、抽出特徴パターンに基づいて文字列パターンを出力することができたとき、良好な認識結果が得られたと判断する。
口元認識学習部128は、認識・学習判定部142から口元認識機能部122に対し口元認識部126の口元認識学習を行うよう指示があった場合に、口元認識部126の口元認識学習を行う。
具体的には、口元認識学習部128は、発声者のある時点又は期間での口元について、口元認識部126において抽出した形状又は該形状の推移の特徴パターンと、その時点又は期間において発声者が発した音声の音声認識結果である文字列パターンと、を取得する。そして取得した特徴パターンと文字列パターンとを対応付けて記憶部14に記憶する。このようにして記憶部14に記憶される口元の形状又は該形状の推移の特徴パターンと、文字列パターンと、を更新することにより、口元認識部126の口元認識学習を行う。
言い換えれば、口元認識学習部128は、収音される音声に基づく音声認識結果と、該音声の発声者が該音声を発する際に撮影された画像に含まれる口元画像により示される口元の形状又は該形状の推移と、に基づいて、口元認識の学習を行っている。
なお口元認識学習部128は、一定期間にわたり認識・学習判定部142からの上記指示がないことを検出した場合、記憶部14に過去に記憶した口元の形状又は該形状の推移の特徴パターンと文字列パターンとに基づいて繰り返し学習(反復学習)を行うこととしてもよい。
統合処理部144は、認識・学習判定部142により口元認識部126による口元認識結果と音声認識部136による音声認識結果とに基づいて認識結果を出力するよう指示された場合には、口元認識部126による口元認識と音声認識部136による音声認識とに基づいて認識結果を生成し、生成した認識結果を出力部19に対して出力する。一方、認識・学習判定部142により口元認識部126による口元認識と音声認識部136による音声認識とに基づいて認識結果を出力するよう指示されていない場合には、音声認識部136による音声認識結果を認識結果として出力部19に対して出力する。
なお、口元認識部126による口元認識と音声認識部136による音声認識とに基づいて認識結果を生成する処理は、口元認識結果と音声認識結果のいずれかを認識結果として取得する処理であってもよいし、口元認識結果と音声認識結果の両方に基づく認識結果を生成する処理であってもよい。
以上説明した発声内容認識装置10における発生内容認識精度向上処理を、該処理のフロー図を参照しながらより詳細に説明する。
まず、画像取得部120は撮影機18で撮影された画像を順次取得するための画像取得処理を行う(S100)。次に、口元探索部124は画像取得部120において取得された画像において発声者の口元画像を探索する(S102)。より具体的には、画像から発声者の口元の形状の特徴パターンを抽出する。口元探索部124は、一連の画像についてこの特徴パターン抽出処理を行う(S102)。
そして、口元探索部124は画像に発声者の口元画像が含まれているか否かを判断する(S104)。この判断で含まれていないと判断される場合、発声内容認識装置10はS106の処理に進む。一方含まれていると判断される場合、発声内容認識装置10はS116の処理に進む。
S106では、音声取得部130が収音器16で収音される音声を順次取得するための音声取得処理を行う(S106)。そして、信号レベル計測部134は音声取得部130が順次取得する音声のSNRを順次測定する。そして閾値1を記憶部14から読み出し、測定されたSNRが閾値1を超えているか否かに応じて、発声内容認識装置10は異なる処理を行う(S108)。
測定されたSNRが閾値1を超えていない場合、音声認識機能部132は発声者に対し聞き返すための処理を行う(S110)。一方、測定されたSNRが閾値1を超えている場合には、音声認識機能部132は収音器16により順次収音される発声者の音声に基づく音声認識を行い、統合処理部144は、音声認識機能部132から出力される音声認識結果を認識結果として取得し、出力する(S114)。
S116では、口元探索部124は一連の画像について抽出した特徴パターンに基づいて得られる口元画像により、口元が動いているか否かを判断する(S116)。口元が動いていないと判断される場合、発声内容認識装置10は音声認識処理も口元認識処理も行わず、処理を終了する(S140)。一方、口元が動いていると判断される場合、発声内容認識装置10は以下の処理を行う。
すなわち発声内容認識装置10は、まず収音器16の指向性を発声者の口元に合わせるための指向性制御処理を行う(S118)。そして発声内容認識装置10は、音声取得部130が収音器16で収音される音声を順次取得するための音声取得処理を行う(S120)。そして発声内容認識装置10は、信号レベル計測部134において音声取得部130が順次取得する音声のSNRを順次測定する。そして発声内容認識装置10は閾値1と閾値2(閾値2>閾値1)を記憶部14から読み出し、測定されたSNRが閾値1を超えていない場合、閾値1を超えているが閾値2を超えていない場合、閾値2を超えている場合、のそれぞれにおいて異なる処理を行う(S122,S127)。
まず測定されたSNRが閾値1を超えていない場合、口元認識機能部122による、撮影機18により順次撮影される画像に含まれる口元画像に基づく口元認識処理を行う(S123)。そして口元認識部126は、良好な認識結果を得ることができたか否かを判断し(S124)、良好な認識結果が得られたと判断される場合には、発声内容認識装置10は、統合処理部144において、口元認識機能部122から出力される音声認識結果を認識結果として取得し、出力する(S125)。一方良好な認識結果を得ることができなかったと判断される場合には、音声認識部136は発声者に対し聞き返すための処理を行う(S126)。
次に、測定されたSNRが閾値1を超えているが閾値2を超えていない場合、発声内容認識装置10は、音声認識機能部132による、収音器16により順次収音される発声者の音声に基づく音声認識処理(S128)と、口元認識機能部122による、撮影機18により順次撮影される画像に含まれる口元画像に基づく口元認識処理(S130)と、を行う。そして発声内容認識装置10は、統合処理部144において、音声認識処理の認識結果と、口元認識処理の認識結果と、に基づいて認識結果を生成取得し、出力する(S132)。
測定されたSNRが閾値2を超えている場合には、発声内容認識装置10は、音声認識機能部132による、収音器16により順次収音される発声者の音声に基づく音声認識処理を行う(S134)。そして発声内容認識装置10は、統合処理部144において、音声認識機能部132から出力される音声認識結果を認識結果として取得し、出力する(S136)。さらに発声内容認識装置10は、この出力結果と、撮影機18により順次撮影される画像に含まれる口元画像の特徴パターンと、に基づいて口元認識の学習処理を行う(S138)。
そして、以上のようにして実行される発生内容認識精度向上処理を終了するか否かを判断し、終了する場合には終了し、終了しない場合には再度S100の処理から処理を繰り返す(S140)。
以上のようにして、発声内容認識装置10は、撮影機18で撮影された画像に発声者の少なくとも一部が含まれるか否かを判定しているので、口元画像発声者が収音器16の近くにおらず低精度の音声認識が行われることを抑制することができる。また、撮影機18で撮影された画像に口元画像が含まれるか否かを判定しているので、発声者の発する音声が当該パターン認識装置に届きにくく低精度の音声認識が行われることを抑制することができる。さらに、撮影機18で撮影された画像に含まれる口元画像が動いているか否かを判定しているので、発声者が声を出しておらず低精度の音声認識が行われることを抑制している。他に、収音器16の指向性を制御して発声者の口元に向けて音声取得手段の指向性を合わせることにより、よりよい収音状態で発声者の発する音声を取得できる。また、音声認識の認識結果と、該音声を発する口元の形状又は該形状の推移と、に基づいて口元認識の学習を行うので、口元認識の精度を上げることができ、さらに統合処理部144は口元認識結果と音声認識結果の両方に基づいて認識結果を生成しているので、パターン認識の認識結果の精度を上げることができる。また、収音器16での発声者音声の収音状態が非常に良い場合に口元認識学習を行い、他の収音状態では口元認識学習を行わないようにしているので、精度の悪い音声認識の認識結果により口元認識学習が行われる可能性を減少させることができる。また、収音器16での発声者音声の収音状態に応じて音声認識と口元認識を切り替えることができるので、収音状態が悪いときに低精度の音声認識が行われることを抑制できる。
なお、本発明は上記実施の形態に限定されるものではない。例えば、発声内容認識装置10は収音器16を複数備えることとしてもよい。この場合には、信号レベル計測部134は撮影機18の撮影した画像に含まれる口元画像により示される口元の位置に対して指向性を有する収音器16において音声信号と雑音信号を収音し、その他の方向に対して指向性を有する収音器16において収音される音声は全て雑音信号であると判断することとしてもよい。
また、撮影機18の撮影した画像に含まれる口元画像により示される口元の位置に対して、撮影機18自身の撮影方向を合わせるよう、撮影機18の撮影方向を制御することとしてもよい。具体的には、CPU10が撮影機18の撮影した画像に含まれる口元画像により示される口元の位置に応じて撮影機18の撮影方向を制御することとしてもよい。
さらに、記憶部14は複数人についてそれぞれの音声の特徴パターン若しくは口元の形状又は該形状の推移の特徴パターンを記憶することとしてもよい。この場合、収音器16において収音される音声から抽出された音声の特徴パターンと、撮影機18において撮影される画像から抽出された口元の形状又は該形状の推移パターンと、が同一人物のものでない場合には、信号レベル計測部134は、取得された音声を雑音として取り扱うこととしてもよい。また、指向性制御部140は、該口元画像により示される口元の位置に対して指向性を合わせる処理を中止することとしてもよい。また、認識・学習判定部142は、音声認識処理、口元認識処理、口元認識学習処理、を行わないこととしてもよい。
また、記憶部14が複数人についてそれぞれの音声の特徴パターン若しくは口元の形状又は該形状の推移の特徴パターンを記憶する場合において、さらに各人を示す個人情報と対応付けてRFID(無線ICタグ)情報を記憶することとしてもよい。この場合、発声内容認識装置10がRFID読取手段を備えることとすれば、該RFID読取手段によりRFIDを検出することで発声内容認識装置10を使用しているのが記憶されるRFIDを持っている人であるかそうでないかを判断することができる。そして、RFIDを持っていない人が発声内容認識装置10を使用していると判断する場合には、上記各処理を行わないこととしてもよい。また、発声内容認識装置10を使用しているのが記憶されるRFIDを持っている人であると判断される場合には、音声認識処理及び口元認識処理において該RFIDに対応付けて記憶される個人情報で示される人についての特徴パターンを使用することとしてもよい。
10 発声内容認識装置、12 CPU、14 記憶部、15 入力部、16 収音器、18 撮影機、19 出力部、120 画像取得部、122 口元認識機能部、124
口元探索部、126 口元認識部、128 口元認識学習部、130 音声取得部、132 音声認識機能部、134 信号レベル計測部、136 音声認識部、140 指向性制御部、142 認識・学習判定部、144 統合処理部

Claims (4)

  1. 音手段と、
    像を撮影する撮影手段と、
    前記収音される音声に基づく音声認識を行う音声認識手段と、
    前記撮影される画像に前記収音手段に対し音声を発する発声者の口元が含まれていない場合に、前記音声認識手段が音声認識を行うことを制限する音声認識実施制限手段と、
    前記撮影される画像に含まれる前記発声者の口元の形状又は該形状の推移に基づいて口元認識を行う口元認識手段と、
    前記音声認識手段の認識結果と、前記撮影される画像に含まれる前記発声者の口元の形状又は該形状の推移と、に基づいて、前記口元認識手段による口元認識の学習を行う口元認識学習手段と、
    前記収音手段により収音される音声から抽出される特徴パターンに基づいて、前記発声者が発した音声を含む音声を、該発声者が発した音声である音声信号とその他の雑音信号とに分離し、該分離された音声信号および雑音信号に基づく収音状態の良さを示す収音状態評価値を取得する収音状態評価値取得手段と、を含み、
    前記口元認識学習手段による学習は、前記収音状態評価値により示される収音状態が所定閾値以上である場合の前記音声認識手段の認識結果に基づいて行われる、
    ことを特徴とする発声内容認識装置。
  2. 請求項に記載の発声内容認識装置において、
    前記撮影手段は、前記画像を順次撮影し、
    前記音声認識実施制限手段は、前記撮影される画像に口元が含まれている場合であっても、順次取得された該画像により示される口元が動いていない場合に、前記音声認識手段が音声認識を行うことを制限する、
    ことを特徴とする発声内容認識装置。
  3. 請求項又はに記載の発声内容認識装置において、
    前記撮影される画像に含まれる口元に向けて、前記収音手段の指向性を合わせる音声指向性制御手段、
    をさらに含むことを特徴とする発声内容認識装置。
  4. 収音される音声に基づく音声認識を行うステップAと、
    撮影される画像に音声を発する発声者の口元が含まれていない場合に、前記音声認識を行うことを制限するステップBと、
    前記撮影される画像に含まれる前記発声者の口元の形状又は該形状の推移に基づいて口元認識を行うステップCと、
    前記音声認識の認識結果と、前記撮影される画像に含まれる前記発声者の口元の形状又は該形状の推移と、に基づいて、前記口元認識の学習を行うステップDと、
    前記収音される音声から抽出される特徴パターンに基づいて、前記発声者が発した音声を含む音声を、該発声者が発した音声である音声信号とその他の雑音信号とに分離し、該分離された音声信号および雑音信号に基づく収音状態の良さを示す収音状態評価値を取得するステップEと、を含み、
    前記ステップDによる学習は、前記収音状態評価値により示される収音状態が所定閾値以上である場合の前記音声認識の認識結果に基づいて行われる、
    ことを特徴とする発声内容認識方法。
JP2010287127A 2010-12-24 2010-12-24 発声内容認識装置および発声内容認識方法 Expired - Fee Related JP5465166B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2010287127A JP5465166B2 (ja) 2010-12-24 2010-12-24 発声内容認識装置および発声内容認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2010287127A JP5465166B2 (ja) 2010-12-24 2010-12-24 発声内容認識装置および発声内容認識方法

Related Parent Applications (1)

Application Number Title Priority Date Filing Date
JP2005020813A Division JP4847022B2 (ja) 2005-01-28 2005-01-28 発声内容認識装置

Publications (2)

Publication Number Publication Date
JP2011070224A JP2011070224A (ja) 2011-04-07
JP5465166B2 true JP5465166B2 (ja) 2014-04-09

Family

ID=44015488

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2010287127A Expired - Fee Related JP5465166B2 (ja) 2010-12-24 2010-12-24 発声内容認識装置および発声内容認識方法

Country Status (1)

Country Link
JP (1) JP5465166B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014186713A (ja) * 2013-02-21 2014-10-02 Panasonic Corp 会話システムおよびその会話処理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03129400A (ja) * 1989-10-13 1991-06-03 Seiko Epson Corp 音声認識装置
JP4675514B2 (ja) * 2001-07-16 2011-04-27 シャープ株式会社 音声処理装置、音声処理方法、及びその方法を実施するためのプログラムを記録したコンピュータにより読取り可能な記録媒体
JP3891023B2 (ja) * 2002-04-01 2007-03-07 日本電気株式会社 通訳システム及びプログラム
JP2004240154A (ja) * 2003-02-06 2004-08-26 Hitachi Ltd 情報認識装置
JP2004246095A (ja) * 2003-02-14 2004-09-02 Nec Saitama Ltd 携帯電話装置及び遠隔制御方法

Also Published As

Publication number Publication date
JP2011070224A (ja) 2011-04-07

Similar Documents

Publication Publication Date Title
JP4847022B2 (ja) 発声内容認識装置
JP4204541B2 (ja) 対話型ロボット、対話型ロボットの音声認識方法および対話型ロボットの音声認識プログラム
JP6230726B2 (ja) 音声認識装置および音声認識方法
JP4729927B2 (ja) 音声検出装置、自動撮像装置、および音声検出方法
US9330673B2 (en) Method and apparatus for performing microphone beamforming
JP4715738B2 (ja) 発話検出装置及び発話検出方法
WO2019044157A1 (ja) 収音装置、収音方法、及びプログラム
CN105989836B (zh) 一种语音采集方法、装置及终端设备
JP2006251266A (ja) 視聴覚連携認識方法および装置
JP4825552B2 (ja) 音声認識装置、周波数スペクトル取得装置および音声認識方法
CN113643707A (zh) 一种身份验证方法、装置和电子设备
CN107533415B (zh) 声纹检测的方法和装置
JP5465166B2 (ja) 発声内容認識装置および発声内容認識方法
JP6607092B2 (ja) 案内ロボット制御システム、プログラム及び案内ロボット
JP2001067098A (ja) 人物検出方法と人物検出機能搭載装置
CN110653812B (zh) 一种机器人的交互方法、机器人及具有存储功能的装置
JP6916130B2 (ja) 話者推定方法および話者推定装置
KR20210039583A (ko) 멀티모달 기반 사용자 구별 방법 및 장치
KR101353936B1 (ko) 음성 인식 장치 및 음성 인식 방법
JP4781248B2 (ja) 撮像装置、撮像装置の制御方法、プログラム及び記録媒体
CN110033790B (zh) 声音认识装置、机器人、声音认识方法以及记录介质
JP2020086034A (ja) 情報処理装置、情報処理装置およびプログラム
EP4178220A1 (en) Voice-input device
JP2024046308A (ja) 撮像装置、制御方法、およびプログラム
CN112948792A (zh) 一种解锁方法及装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20130312

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130510

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20131224

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20140121

R150 Certificate of patent or registration of utility model

Ref document number: 5465166

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees