JP3798530B2 - Speech recognition apparatus and speech recognition method - Google Patents
Speech recognition apparatus and speech recognition method Download PDFInfo
- Publication number
- JP3798530B2 JP3798530B2 JP25620197A JP25620197A JP3798530B2 JP 3798530 B2 JP3798530 B2 JP 3798530B2 JP 25620197 A JP25620197 A JP 25620197A JP 25620197 A JP25620197 A JP 25620197A JP 3798530 B2 JP3798530 B2 JP 3798530B2
- Authority
- JP
- Japan
- Prior art keywords
- data
- video
- voice
- input
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Image Processing (AREA)
Description
【0001】
【発明の属する技術分野】
本発明は、話者の口唇を含む映像信号と音声信号とを用いて音声認識を行なう音声認識装置と、その音声認識方法に関し、特に、認識率の向上を図るものである。
【0002】
【従来の技術】
音声認識を行なう場合に、音声信号だけでなく、話者の口唇を含む映像を併せて用いる音声認識装置が、Sintani等によって報告された“An Isolated Word Speech Recognition Using Fusion of Auditory and Visual Information"(IEICE Trans. Fundamentals, Vol. E79-A, No. 6, p777-783(1996))に記載されている。音声信号だけを用いる音声認識では、雑音が混入すると、認識精度が急激に低下するが、口唇の映像を併用する場合には、認識精度の低下の程度を和らげることができる。
【0003】
図6は、この従来の音声認識装置の概略構成を示している。この装置は、話者の口唇部分を含む映像を入力するビデオカメラ等の映像入力部1と、話者が発声する音声を入力するマイク等の音声入力部3と、各種単語を発声する口唇部分の映像標準データと入力した口唇部分の映像との類似度を求め、映像標準データに含まれる各単語に対する類似度を出力する映像処理部2と、各種単語の音声標準データと入力した音声との類似度を求め、音声標準データに含まれる各単語に対する類似度を出力する音声処理部4と、映像処理部2及び音声処理部4より入力する類似度から最も類似度の高い単語を算出し、それを認識結果として出力する音声認識部5とを備えている。
【0004】
この装置の映像処理部2は、入力映像から例えば口唇部分の上下方向及び左右方向の長さ、並びに上下及び左右の長さの比を特徴量として抽出する。そして、類似度の算出のために予め用意された複数の単語の映像標準データのうちで、i番目の単語に対応する特徴量と、入力映像から抽出した特徴量との間の類似度(Ri,Image)を、パターン認識の手法として良く知られた、隠れマルコフモデル(以下、HMMと略す)により算出して出力する。
【0005】
また、音声処理部4は、入力音声からケプストラム分析により特徴量を抽出し、予め用意された複数の単語の音声標準データのうちで、i番目の単語に対応する特徴量と、入力音声から抽出した特徴量との類似度(Ri,Sound)をHMMにより算出して出力する。
【0006】
また、音声認識部5は、映像処理部2の出力(Ri,Image)及び音声処理部4の出力(Ri,Sound)から、i番目の単語に対して映像及び音声を総合した類似度(Ri,Total)を次式(1)により算出する。
Ri,Total=α・Ri,Image+(1−α)・Ri,Sound ………(式1)
ここで、α(0≦α≦1)は、係数決定用に(類似度算出用とは別に)サンプルした映像と音声データとを用いて、認識率が最大となるように予め設定した係数である。
【0007】
音声認識部5は、映像標準データ及び音声標準データに含まれる全ての単語に対して類似度Ri,Totalを求め、この類似度Ri,Totalが最大となる単語を認識結果として出力する。
【0008】
このように、この音声認識装置は、音声信号とともに、口唇情報を含む映像信号を併せて用いているため、雑音が存在する場合でも、認識率の急激な低下を免れることができ、音声認識装置の応用分野を騒音環境下で使用される装置にまで広げることができる。
【0009】
【発明が解決しようとする課題】
音声認識装置をカーナビゲーション装置に応用して、装置への指令を音声で与えることが検討されているが、しかし、こうした騒音環境下で使用される装置に組み込むためには、音声認識装置の騒音下での認識率をさらに高めることが必要である。
【0010】
本発明は、こうした要請に応えるものであり、騒音環境下の音声認識において、高い認識率を実現することができる音声認識装置を提供し、また、その音声認識方法を提供することを目的としている。
【0011】
【課題を解決するための手段】
そこで、本発明の音声認識装置では、口唇を含む話者の映像データを入力する映像入力手段と、話者の音声データを入力する音声入力手段と、各単音節を発声する口唇の映像標準データと入力映像データとの間の類似度を算出し、映像標準データの各単音節とそれに対する類似度とを出力する映像処理手段と、各単音節を発声する音声の音声標準データと入力音声データとの間の類似度を算出し、音声標準データの各単音節とそれに対する類似度とを出力する音声処理手段と、映像処理手段及び音声処理手段から出力された類似度を用いて、総合的な類似度が最も大きい単音節を識別する音声認識手段とを設けるとともに、あらかじめ、前記映像入力手段に各種の単音節に関する前記映像データを入力し、各入力映像データに対応して前記映像処理手段から出力される類似度が最大の映像標準データの単音節を候補単音節として集計し、それを基に算出した、前記映像処理手段から出力された同一の候補単音節の総数の内で、入力映像データの単音節と一致する候補単音節の数の割合を、映像標準データのその単音節に対する正答率のデータとして保持する映像標準データ正答率保持手段と、あらかじめ、前記音声入力手段に各種の単音節の音声データを入力し、各入力音声データに対応して前記音声処理手段から出力される類似度が最大の音声標準データの単音節を候補単音節として集計し、それを基に算出した、前記音声処理手段から出力された同一の候補単音節の総数の内で、入力音声データの単音節と一致する候補単音節の数の割合を、音声標準データのその単音節に対する正答率のデータとして保持する音声標準データ正答率保持手段とを設け、音声認識手段が、映像処理手段から出力される類似度と映像標準データ正答率保持手段から読み出した正答率との積、及び、音声処理手段から出力される類似度と音声標準データ正答率保持手段から読み出した正答率との積の総和を各単音節に対する総合的な類似度として求めるようにしている。
【0012】
この装置では、識別対象の単音節が、口唇の映像を基に識別した方が高精度に識別できる種類の単音節である場合には、映像による識別結果が最終判断に大きく寄与し、また、識別対象の単音節が、音声を基に識別した方が高精度に識別できる単音節である場合には、音声による識別結果が最終判断に大きく寄与することになる。そのため、騒音環境下でも信頼性の高い音声認識が可能となる。
【0015】
【発明の実施の形態】
本発明の請求項1に記載の発明は、口唇を含む話者の映像データを入力する映像入力手段と、話者の音声データを入力する音声入力手段と、各単音節を発声する口唇の映像標準データと入力映像データとの間の類似度を算出し、映像標準データの各単音節とそれに対する類似度とを出力する映像処理手段と、各単音節を発声する音声の音声標準データと入力音声データとの間の類似度を算出し、音声標準データの各単音節とそれに対する類似度とを出力する音声処理手段と、あらかじめ、前記映像入力手段に各種の単音節に関する前記映像データを入力し、各入力映像データに対応して前記映像処理手段から出力される類似度が最大の映像標準データの単音節を候補単音節として集計し、それを基に算出した、前記映像処理手段から出力された同一の候補単音節の総数の内で、入力映像データの単音節と一致する候補単音節の数の割合を、映像標準データのその単音節に対する正答率のデータとして保持する映像標準データ正答率保持手段と、あらかじめ、前記音声入力手段に各種の単音節の音声データを入力し、各入力音声データに対応して前記音声処理手段から出力される類似度が最大の音声標準データの単音節を候補単音節として集計し、それを基に算出した、前記音声処理手段から出力された同一の候補単音節の総数の内で、入力音声データの単音節と一致する候補単音節の数の割合を、音声標準データのその単音節に対する正答率のデータとして保持する音声標準データ正答率保持手段と、前記映像処理手段から出力される類似度と前記映像標準データ正答率保持手段から読み出した正答率との積、及び、前記音声処理手段から出力される類似度と前記音声標準データ正答率保持手段から読み出した正答率との積の総和を各単音節に対する総合的な類似度として求め、総合的な類似度が最も大きい単音節を識別する音声認識手段とを設けた音声認識装置であり、識別対象の単音節が、口唇の形状や動きを基に識別した方が高精度に識別できる種類の単音節である場合には、映像による識別の寄与率を大きくし、また、識別対象の単音節が、音声を基に識別した方が高精度に識別できる単音節である場合には、音声による識別の寄与率を大きくすることにより、騒音環境下でも信頼性の高い音声認識が可能となる。
【0020】
請求項2に記載の発明は、音声標準データ正答率保持手段が、正答率のデータとして、信号対雑音比に対応する複数種類の正答率のデータを保持し、音声認識手段が、各単音節に対する総合的な類似度を求める際に、音声標準データ正答率保持手段から、入力音声データの信号対雑音比に応じた正答率のデータを読み出すようにしたものであり、音声信号を用いた識別の信頼性が、入力音声信号の信号対雑音比により変動する点を改善できる。
【0024】
請求項3に記載の発明は、口唇を含む話者の映像データを入力する映像入力手段と、話者の音声データを入力する音声入力手段と、発声の機構が共通する単音節を予めグループ化し、各グループについて、当該グループの各単音節を発声する口唇の映像標準データと入力映像データとの間の類似度を算出し、その中の最大の類似度を当該グループの類似度に設定して、グループの識別情報と当該グループの類似度とを出力する映像処理手段と、
前記各グループについて、当該グループの各単音節を発声する音声の音声標準データと入力音声データとの間の類似度を算出し、その中の最大の類似度を当該グループの類似度に設定して、グループの識別情報と当該グループの類似度とを出力する音声処理手段と、あらかじめ、前記映像入力手段に各種の単音節に関する前記映像データを入力し、各入力映像データに対応して前記映像処理手段から出力される各グループの出力総数を集計し、それを基に算出した、前記出力総数の内で、入力した単音節が当該グループに含まれる正解の出力数の割合を、そのグループに対する正答率のデータとして保持する映像標準データ正答率保持手段と、あらかじめ、前記音声入力手段に各種の単音節の音声データを入力し、各入力音声データに対応して前記音声処理手段から出力される各グループの出力総数を集計し、それを基に算出した、前記出力総数の内で、入力した単音節が当該グループに含まれる正解の出力数の割合を、そのグループに対する正答率のデータとして保持する音声標準データ正答率保持手段と、前記映像処理手段から出力される類似度と前記映像標準データ正答率保持手段から読み出した正答率との積、及び、前記音声処理手段から出力される類似度と前記音声標準データ正答率保持手段から読み出した正答率との積の総和を各グループに対する総合的な類似度として求め、総合的な類似度が最も大きいグループを識別する音声認識手段とを備える音声認識装置であり、認識対象の音声が属しているグループを高精度に特定することができ、音声識別処理を効率化することができる。
【0038】
以下、本発明の実施の形態について図面を用いて説明する。
【0039】
(第1の実施の形態)
第1の実施形態の音声認識装置は、図1に示すように、話者の口唇部分を含む映像が入力するビデオカメラ等の映像入力部1と、話者の発声する音声が入力するマイク等の音声入力部3と、各種単音節を発声する口唇部分の映像標準データと入力した口唇部分の映像との類似度を求め、映像標準データに含まれる各単音節に対する類似度を出力する映像処理部2と、各種単音節の音声標準データと入力した音声との類似度を求め、音声標準データに含まれる各単音節に対する類似度を出力する音声処理部4と、口唇部分の映像に基づいて音声認識された各単音節の正答率データ(即ち、その単音節が正解である確率を表わすデータ)を保持する映像処理部正答率データ保持部6と、音声に基づいて音声認識された各単音節の正答率データを保持する音声処理部正答率データ保持部7と、映像処理部2及び音声処理部4より入力する類似度、並びに映像処理部正答率データ保持部6及び音声処理部正答率データ保持部7より読み出した正答率データに基づいて総合の類似度を求め、その類似度が最も高い単音節を認識結果として出力する音声認識部5とを備えている。
【0040】
図2は、本発明における正答率を説明するための図面である。この図は、例えば、音声処理部4に単音節が入力したとき(ここでは、簡単のため、入力単音節を「あ」、「い」、「う」、「え」、「お」の5つとした)、音声処理部4より「類似度が最大の単音節」(これを候補単音節という)として、どの単音節が、どの程度の割合で出力されたかを示している。
【0041】
この候補単音節の出現度数のデータは、類似度を算出するための標準音声データとは別に、単音節の音声をサンプルとして用意し、これを音声処理部4に入力して、実際の値を求めている。
【0042】
例えば、音声処理部4に単音節の「あ」を100回入力したとき、「あ」が候補単音節となる場合が97回有り、「う」が候補単音節となる場合が1回有り、「お」が候補単音節となる場合が1回有った(残りの1回は候補単音節を特定できなかった)。
【0043】
こうして求めた候補単音節の出現度数のデータから、ある特定の単音節が出力された場合の、その単音節が正解である割合、即ち、その単音節の出力数と、出力数の内で入力単音節に一致する出力の数との比、を正答率として算出する。
【0044】
例えば、音声処理部が「あ」を出力した数105に対して、入力単音節が「あ」である数は97であるから、図2の例では候補単音節「あ」の正答率は0.924となる。
【0045】
このようにして、音声処理部4に、認識を行なうすべての単音節の音声データを入力し、これらの単音節に対する正答率を算出し、正答率データ(Si,Sound)として音声処理部正答率データ保持部7に格納する。また、映像に関しても同じように、映像処理部2に、認識を行なうすべての単音節を発声する話者の口唇部分を含む映像データを入力し、これらの単音節に対する正答率データ(Si,Image)を算出して、映像処理部正答率データ保持部6に格納する。
【0046】
なお、この正答率データの算出に用いる映像データ及び音声データは、音声認識の対象者がデータを提供すること、あるいは複数の話者がデータ提供者になることが望ましく、また、各単音節の入力データ数にばらつきが少ないことが望ましい。
【0047】
この装置の映像処理部2は、映像入力部1より入力する映像から例えば口唇部分の上下方向及び左右方向の長さ、並びに上下及び左右の長さの比を特徴量として抽出する。そして、類似度の算出のために予め用意された複数の単音節の映像標準データのうちで、i番目の単音節に対応する特徴量と、入力映像から抽出した特徴量との間の類似度(Ri,Image)をHMMにより算出し、その結果を出力する。
【0048】
また、音声処理部4は、音声入力部3より入力する音声からケプストラム分析により特徴量を抽出し、予め用意された複数の単音節の音声標準データのうちで、i番目の単音節に対応する特徴量と、入力音声から抽出した特徴量との類似度(Ri,Sound)をHMMにより算出し、その結果を出力する。
【0049】
音声認識部5は、映像処理部2の出力(Ri,Image)及び音声処理部4の出力(Ri,Sound)と、映像処理部正答率データ保持部6に保持された正答率データ(Si,Image)及び音声処理部正答率データ保持部7に保持された正答率データ(Si,Sound)とから、i番目の単音節に対する映像及び音声の総合類似度(Ri,Total)を次式(2)により算出する。
Ri,Total=Si,Image・Ri,Image+Si,Sound・Ri,Sound ……(式2)
音声認識部5は、映像標準データ及び音声標準データに含まれる全ての単音節に対して類似度Ri,Totalを求め、この類似度Ri,Totalが最大となる単音節を認識結果として出力する。
【0050】
このように、この実施形態の音声認識装置は、映像及び音声の類似度と正答率とを組み合わせて音声認識を行なっている。この正答率を組み合わせることは、単音節を識別する場合に、音声または映像を用いる識別方法の内で、その単音節を効果的に識別できる方法に対して、より多くの重み付けを行なうことであり、そうすることにより、騒音環境下においても高精度の音声認識を実現することができる。
【0051】
なお、映像処理部2及び音声処理部4における類似度の算出には、HMM以外に、ニューラルネットワーク等、音声認識に一般に用いられている他の手法を用いても良い。
【0052】
(第2の実施の形態)
第2の実施形態の音声認識装置は、第1の実施形態(図1)と同一構成を備え、ただ、音声認識部5での総合類似度(Ri,Total)の算出動作だけが違っている。
【0053】
この装置の音声認識部5は、Si,Image・Ri,Image>Si,Sound・Ri,Soundであるときには、
Ri,Total=Si,Image・Ri,Image ………(式3)
の値を算出し、一方、Si,Image・Ri,Image≦Si,Sound・Ri,Soundであるときには、
Ri,Total=Si,Sound・Ri,Sound ………(式4)
の値を算出する。そして、Ri,Totalが最大となる単音節を認識結果として出力する。
【0054】
このように、この実施形態の装置では、映像データまたは音声データによる識別結果の内、信頼性が高い方を選択して識別に用いている。こうすることにより、高い認識精度を保ちながら、音声認識における演算処理を簡略化することができる。
【0055】
(第3の実施の形態)
第3の実施形態の音声認識装置は、入力音声のS/Nが変動する場合でも、高精度の音声認識が可能である。音声を用いた音声認識は、その正答率が入力音声のS/Nとともに変化する。この装置では、こうした変化に対応できるように構成している。
【0056】
この装置は、図3に示すように、映像処理部2により抽出された口唇の映像から、発声している区間(発声区間)と発声していない区間(非発声区間)とを検出する発声区間検出部8と、発声区間の音圧レベルと非発声区間の音圧レベルとから信号対雑音比(S/N)を算出する音圧レベル検出部9と、音声に基づいて音声認識された単音節の正答率データ(Si,Sound)として、入力音声信号のS/Nに応じた複数種類のデータを保持する音声処理部正答率データ保持部7とを備えており、音声処理部正答率データ保持部7が保持している正答率データ(Si,Sound)の内、音圧レベル検出部9で検出されたS/Nに対応する正答率データが音声認識部5に出力される。その他の構成は第1の実施形態(図1)と変わりがない。
【0057】
この装置では、映像処理部2が、入力する映像から口唇部分の特徴量を抽出し、その特徴量と各単音節の映像標準データにおける特徴量との類似度(Ri,Image)を算出して、音声認識部5に出力する。
【0058】
発声区間検出部8は、映像処理部2で抽出された口唇の上下方向及び左右方向の長さ、あるいはそれらの比などの特徴量を一定時間毎にサンプルし、その特徴量の時間毎の変化量が、設定した閾値を超えている場合には発声区間、閾値を超えない場合には非発声区間と識別し、識別結果を音声処理部4に出力する。
【0059】
音声処理部4は、音声入力部3より入力する音声信号を発声区間と非発声区間とに区分して音圧レベル検出部9に出力し、また、入力音声信号から特徴量を抽出して、各単音節の音声標準データにおける特徴量との類似度(Ri,Sound)を算出して、音声認識部5に出力する。
【0060】
音圧レベル検出部9は、発声区間及び非発声区間のそれぞれの時間区間における平均音圧レベルを検出し、発声区間の音圧レベルを信号レベル、非発声区間の音圧レベルを雑音レベルとして信号対雑音比(S/N)を算出し、音声処理部正答率データ保持部7に出力する。
【0061】
音声処理部正答率データ保持部7には、音声に基づいて認識された単音節の正答率データ(Si,Sound)として、入力音声信号の複数のS/Nに対応する複数種類のデータが保持されている。そして、音声処理部正答率データ保持部7は、音圧レベル検出部9からS/Nが入力すると、そのS/Nに対応する種類の正答率データ(Si,Sound)を出力用のデータとして用意する。
【0062】
音声認識部5は、映像処理部2及び音声処理部4の各出力(Ri,Image)、(Ri,Sound)と、映像処理部正答率データ保持部6から読み出した正答率データ(Si,Image)と、音声処理部正答率データ保持部7から選択した、S/Nに対応する正答率データ(Si,Sound)とを用いて、i番目の単音節に対する映像及び音声の総合類似度(Ri,Total)を式(2)により算出し、Ri,Totalが最大となる単音節を認識結果として出力する。
【0063】
このように、この実施形態の音声認識装置では、音声に基づく音声認識結果の正答率データ(Si,Sound)としてS/Nに応じた値を用いているため、S/Nが異なる入力音声信号に対しても、より確実に音声認識処理を行なうことが可能となる。
【0064】
(第4の実施の形態)
第4の実施形態の音声認識装置は、種々の方向から撮影した話者の映像を音声認識処理に利用する。
【0065】
この装置は、図4に示すように、話者を正面から撮影した映像が入力する映像入力部1と、話者を側面から撮影した映像が入力する映像入力部10と、映像入力部1から入力する正面映像の口唇部分における特徴量を抽出し、その特徴量と、各単音節を話す口唇部分の正面映像より成る映像標準データの特徴量との類似度を求める映像処理部2と、映像入力部10から入力する側面映像の口唇部分における特徴量を抽出し、その特徴量と、各単音節を話す口唇部分の側面映像より成る映像標準データの特徴量との類似度を求める映像処理部11と、正面映像に対する正答率データ(Si,Image1)を保持する映像処理部正答率データ保持部6と、側面映像に対する正答率データ(Si,Image2)を保持する映像処理部正答率データ保持部12とを備えている。その他の構成は、第1の実施形態(図1)と変わりがない。
【0066】
この装置では、映像入力部1に、話者を正面から撮影した映像の映像信号が入力し、映像入力部10に、話者を側面から撮影した映像の映像信号が入力する。
【0067】
映像処理部2は、映像入力部1より入力する正面映像から口唇部分の特徴量を抽出し、その特徴量と、各単音節を発声する口唇部分の正面映像より成る映像標準データの特徴量との類似度(Ri,Image1)を算出して、音声認識部5に出力し、また、映像処理部11は、映像入力部10より入力する側面映像から口唇部分の特徴量を抽出し、その特徴量と、各単音節を発声する口唇部分の側面映像より成る映像標準データの特徴量との類似度(Ri,Image1)を算出して、音声認識部5に出力する。
【0068】
また、映像処理部正答率データ保持部6には、口唇部分の正面映像に基づいて音声認識された各単音節の正答率データ(Si,Image1)が保持され、映像処理部正答率データ12には、口唇部分の側面映像に基づいて音声認識された各単音節の正答率データ(Si,Image2)が保持されている。
【0069】
音声認識部5は、映像処理部2の出力(Ri,Image1)、映像処理部11の出力(Ri,Image2)、及び音声処理部4の出力(Ri,Image)、並びに映像処理部正答率データ保持部6から読み出した正答率データ(Si,Image1)、映像処理部正答率データ保持部12から読み出した正答率データ(Si,Image2)、及び音声処理部正答率データ保持部7から読み出した正答率データ(Si,Sound)を用いて、i番目の単音節に対する映像及び音声の総合類似度(Ri,Total)を式(5)により算出する。
Ri,Total=Si,Image1・Ri,Image1+Si,Image2・Ri,Image2
+Si,Sound・Ri,Sound ………(式5)
そして、Ri,Totalが最大となる単音節を認識結果として出力する。
【0070】
このように、この実施形態の装置では、複数の方向から撮影した話者の映像を用いることにより、より確かな音声認識を行なうことが可能となる。
【0071】
なお、この実施形態では、話者の正面及び側面の映像を用いる場合について説明したが、正面及び側面以外に斜め方向からの映像など、より多くの映像を用いることにより、より確かな音声認識が可能となる。
【0072】
(第5の実施の形態)
第5の実施形態では、発声された音声の単音節が属しているグループを特定する音声認識装置について説明する。
【0073】
例えば、「あ行」のグループに属する単音節(「あ」「い」「う」「え」「お」)に共通する特徴があり、また、同一の子音を含む「か行」、「さ行」、‥の各グループに属する単音節に共通する特徴があるものとすると、入力音声の単音節の特徴と各グループの特徴との類似度を比較することにより、入力音声の単音節がどのグループに属しているかを特定することができる。
【0074】
音声認識の手法には、例えば「モグラ」という単語が発声された時、「モ」「グ」「ラ」の各々に対応する単音節の候補としてそれぞれ複数の単音節を選び出し、次に、「モ」「グ」「ラ」の各候補の組み合わせを順番に当たり、その組み合わせが単語としての意味を持つか否か、などから、最終的に発声された単語を識別する方法が知られている。
【0075】
このような場合に、例えば、先頭の単音節が属しているグループを特定することができれば、検討すべき各候補の組み合わせの数が大幅に減少し、音声認識処理を効率化することができる。
【0076】
第5の実施形態の音声認識装置は、音声データと映像データとを併用することにより、単音節が属しているグループを高精度に特定することができる。
【0077】
この装置は、第1の実施形態(図1)と同じように、映像入力部1、映像処理部2、音声入力部3、音声処理部4、映像処理部正答率データ保持部6、音声処理部正答率データ保持部7及び音声認識部5を備えている。
【0078】
但し、映像処理部2は、話者の口唇部分の入力映像から抽出した特徴を、個々の単音節を発声する口唇部分の映像標準データと比較するのでは無く、複数の単音節より成る各グループの特徴と比較して、それぞれのグループに対する類似度を出力する。
【0079】
また、音声処理部4は、入力音声から抽出した特徴を、個々の単音節の音声標準データと比較するのでは無く、複数の単音節より成る各グループの特徴と比較して、それぞれのグループに対する類似度を出力する。
【0080】
この各グループとの類似度を求めるため、映像処理部2及び音声処理部4は、例えば、入力単音節の特徴量と、グループに含まれるすべての単音節の特徴量との類似度を算出し、類似度が最大となる単音節の類似度を、そのグループの類似度とする。あるいは、グループに含まれるすべての単音節に共通する特徴量のパターンをそのグループの特徴量として、入力単音節の特徴量との間の類似度を算出する。
【0081】
また、映像処理部正答率データ保持部6及び音声処理部正答率データ保持部7には、映像処理部2または音声処理部4から出力されるグループの正答率が保持されている。この正答率を得るために、図5に例示するように、映像入力部1または音声入力部3から、単音節の映像または音声(「か」「き」「く」)のサンプルを入力して、映像処理部2または音声処理部4からどのグループ(「あ行」「か行」‥「わ行」)が出力されるかを実測し、それぞれのグループの出力総数に対して、そのグループが正解であった数(入力した単音節がそのグループに含まれていた出力数)の割合を算出する。
【0082】
音声認識部5は、映像処理部2及び音声処理部4からの出力と、映像処理部正答率データ保持部6及び音声処理部正答率データ保持部7に保持された正答率データとから、i番目のグループに対する総合類似度(Ri,Total)を前記(式2)により算出する。そして、Ri,Totalが最大となるグループを認識結果として出力する。
【0083】
こうして、この装置は、発声された音声の単音節が属しているグループを高精度に特定することができる。
【0084】
また、グループ分けの例としては、唇音(/b/、/m/、/p/)を含む単音節グループ、拗音(/y/)を含む単音節グループ、唇音及び拗音を含まないグループの3つに分けることもできる。
【0085】
この場合、唇音は口唇の形に特徴が現れるため、唇音を含むグループの正答率は、映像処理部2の正答率の方が高く、音声処理部4の正答率の方が低い傾向がある。逆に、拗音は発声音に特徴が現れるため、拗音を含むグループの正答率は、音声処理部4の正答率の方が高く、映像処理部2の正答率の方が低い傾向がある。そのため、各グループに対する総合類似度を(式2)により算出すると、唇音を対象とするものについては、映像処理部2から出力された類似度の寄与が高くなり、拗音を対象とするものについては、音声処理部4から出力された類似度の寄与が高くなる。
【0086】
従って、映像と音声とを併用して音声識別を行なうことにより、入力した単音節が唇音を含むか含まないか、あるいは、拗音を含むか含まないかを、より確かに認識することができる。
【0087】
このように、認識する単音節をグループ化する場合に、映像処理部2の出力の正答率が高いグループと音声処理部4の出力の正答率が高いグループとをそれぞれ選択することにより、音声のみ、あるいは映像のみによりグループを識別する場合に比べて、より細分化されたグループの認識が可能となる。
【0088】
【発明の効果】
以上の説明から明らかなように、本発明の音声認識装置は、入力する音声データや映像データと標準データとの類似度、及びそれらの正答率を組み合わて音声認識を行なっているため、雑音が存在する環境下でも、より確実な音声認識を実現することができる。
【図面の簡単な説明】
【図1】本発明の第1の実施形態における音声認識装置の概略構成図、
【図2】第1の実施形態における正答率データの算出方法を説明する図、
【図3】本発明の第3の実施形態における音声認識装置の概略構成図、
【図4】本発明の第4の実施形態における音声認識装置の概略構成図、
【図5】本発明の第5の実施形態における単音節のグループの分類を説明する図、
【図6】従来の音声認識装置の概略構成図である。
【符号の説明】
1 映像入力部
2 映像処理部
3 音声入力部
4 音声処理部
5 音声認識部
6 映像処理部正答率データ保持部
7 音声処理部正答率データ保持部
8 発声区間検出部
9 音声レベル検出部
10 第二の映像入力部
11 第二の映像処理部
12 第二の映像処理部正答率データ保持部[0001]
BACKGROUND OF THE INVENTION
The present invention relates to a voice recognition apparatus that performs voice recognition using a video signal including a lip of a speaker and a voice signal, and a voice recognition method thereof, and particularly, to improve a recognition rate.
[0002]
[Prior art]
When performing speech recognition, a speech recognition device that uses not only speech signals but also images including the lips of the speaker is an “An Isolated Word Speech Recognition Using Fusion of Auditory and Visual Information” (Sintani et al.) IEICE Trans. Fundamentals, Vol. E79-A, No. 6, p777-783 (1996)). In speech recognition using only a speech signal, if noise is mixed, the recognition accuracy is drastically reduced. However, when the image of the lips is used together, the degree of reduction in recognition accuracy can be reduced.
[0003]
FIG. 6 shows a schematic configuration of this conventional speech recognition apparatus. This apparatus includes a
[0004]
The
[0005]
Also, the
[0006]
In addition, the voice recognition unit 5 outputs (Ri,Image) And the output of the voice processing unit 4 (Ri,Sound) From the similarity (Ri,Total) Is calculated by the following equation (1).
Ri,Total= Α ・ Ri,Image+ (1-α) · Ri,Sound ......... (Formula 1)
Here, α (0 ≦ α ≦ 1) is a coefficient set in advance so that the recognition rate is maximized by using sampled video and audio data for coefficient determination (apart from similarity calculation). is there.
[0007]
The voice recognition unit 5 performs the similarity R for all words included in the video standard data and the voice standard data.i,TotalThis similarity Ri,TotalThe word with the maximum is output as the recognition result.
[0008]
As described above, since the voice recognition device uses the video signal including the lip information together with the voice signal, even when noise is present, the voice recognition device can avoid the sudden decrease in the recognition rate. Can be extended to devices used in noisy environments.
[0009]
[Problems to be solved by the invention]
It has been studied to apply a voice recognition device to a car navigation device and give a command to the device by voice. However, in order to incorporate it in a device used in such a noise environment, the noise of the voice recognition device is considered. It is necessary to further increase the recognition rate below.
[0010]
The present invention responds to such a demand, and it is an object of the present invention to provide a speech recognition apparatus capable of realizing a high recognition rate in speech recognition under a noisy environment and to provide a speech recognition method thereof. .
[0011]
[Means for Solving the Problems]
Therefore, in the speech recognition apparatus of the present invention, the video data of the speaker including the lipsTheVideo input means to input and speaker's voice dataTheVideo processing that calculates the similarity between the input audio data and the standard video data of the lips that utter each single syllable and the input video data, and outputs each single syllable of the standard video data and the similarity to it Sound processing means for calculating the similarity between the voice standard data of the voice uttering each single syllable and the input voice data, and outputting each single syllable of the voice standard data and the similarity thereto, and video A speech recognition means for identifying a single syllable having the largest overall similarity using the similarity output from the processing means and the speech processing means;The video data relating to various single syllables is input to the video input means in advance, and the single syllable of the video standard data having the maximum similarity output from the video processing means corresponding to each input video data is selected as a candidate single syllable. The ratio of the number of candidate single syllables that match the single syllable of the input video data in the total number of identical candidate single syllables output from the video processing means calculated based on As data of correct answer rate for the single syllable of the dataMeans for holding the correct rate of video standard data to be held;The voice data of various single syllables is input to the voice input means in advance, and the single syllable of the voice standard data having the maximum similarity output from the voice processing means corresponding to each input voice data is set as a candidate single syllable. The ratio of the number of candidate single syllables that match the single syllable of the input voice data out of the total number of identical candidate single syllables output from the voice processing means calculated and calculated based on the voice standard data As the correct answer rate data for that single syllableVoice standard data correct answer rate holding means to hold, and voice recognition means is video processing meansFromOutput similarityWhenVideo standard data correct answer rate retention meansFromRead correct answer rate andAnd the sum of products of the similarity output from the voice processing means and the correct answer rate read from the voice standard data correct answer rate holding meansOverall similarity to each syllableAsI want to ask.
[0012]
In this device, when the single syllable to be identified is a type of single syllable that can be identified with high accuracy when identified based on the image of the lips, the identification result by the image greatly contributes to the final determination, When the single syllable to be identified is a single syllable that can be identified with higher accuracy when identified based on speech, the identification result by speech greatly contributes to the final determination. Therefore, highly reliable voice recognition is possible even in a noisy environment.
[0015]
DETAILED DESCRIPTION OF THE INVENTION
According to the first aspect of the present invention, video data of a speaker including a lip is provided.TheVideo input means to input and speaker's voice dataTheVideo processing that calculates the similarity between the input audio data and the standard video data of the lips that utter each single syllable and the input video data, and outputs each single syllable of the standard video data and the similarity to it Sound processing means for calculating the similarity between the voice standard data of the voice uttering each single syllable and the input voice data, and outputting each single syllable of the voice standard data and the similarity thereto,The video data relating to various single syllables is input to the video input means in advance, and the single syllable of the video standard data having the maximum similarity output from the video processing means corresponding to each input video data is selected as a candidate single syllable. The ratio of the number of candidate single syllables that match the single syllable of the input video data in the total number of identical candidate single syllables output from the video processing means calculated based on As data of correct answer rate for the single syllable of the dataMeans for holding the correct rate of video standard data to be held;The voice data of various single syllables is input to the voice input means in advance, and the single syllable of the voice standard data having the maximum similarity output from the voice processing means corresponding to each input voice data is set as a candidate single syllable. The ratio of the number of candidate single syllables that match the single syllable of the input voice data out of the total number of identical candidate single syllables output from the voice processing means calculated and calculated based on the voice standard data As the correct answer rate data for that single syllableAudio standard data correct answer rate holding means to hold, and the video processing meansFromOutput similarityWhenSaid video standard data correct answer rate holding meansFromRead correct answer rate andAnd the sum of products of the similarity output from the speech processing means and the correct answer rate read from the speech standard data correct answer rate holding means.Overall similarity to each syllableAsThe speech recognition device is provided with speech recognition means for identifying the single syllable having the highest overall similarity, and the single syllable to be identified is more accurately identified based on the shape and movement of the lips. In the case of a single syllable that can be identified, the contribution rate of the identification by video is increased, and the single syllable to be identified is a single syllable that can be identified with higher accuracy when identified based on speech. By increasing the contribution rate of discrimination by voice, it is possible to perform voice recognition with high reliability even in a noisy environment.
[0020]
Claim2The voice standard data correct answer rate holding means holds a plurality of types of correct answer rate data corresponding to the signal-to-noise ratio as correct answer rate data, and the voice recognition means is comprehensive for each single syllable. When obtaining a high degree of similarity, the correct answer rate data corresponding to the signal-to-noise ratio of the input voice data is read from the voice standard data correct answer rate holding means, and the reliability of the identification using the voice signal However, the point which fluctuates by the signal-to-noise ratio of the input voice signal can be improved.
[0024]
Claim3The video data of the speaker including the lipsTheVideo input means to input and speaker's voice dataTheVoice input means for input;Single syllables with common utterance mechanisms are grouped in advance, and each groupStandard video data for lips that speak single syllablesWhenCalculate the similarity between the input video data andThe maximum similarity among them is set as the similarity of the group, and the group identification information and theVideo processing means for outputting the similarity of the group;
For each group,Voice standard data for voices uttering each single syllableWhenCalculate the similarity between the input audio data andThe maximum similarity among them is set as the similarity of the group, and the group identification information and theVoice processing means for outputting the similarity of the group;In advance, the video data relating to various single syllables is input to the video input means, and the total number of outputs of each group output from the video processing means corresponding to each input video data is calculated and calculated based thereon. Of the total number of outputs, the ratio of the number of correct outputs in which the input single syllable is included in the group is used as data of the correct answer rate for the group.Means for holding the correct rate of video standard data to be held;Preliminarily input the voice data of various single syllables to the voice input means, totaled the total number of outputs of each group output from the voice processing means corresponding to each input voice data, calculated based on it, Of the total number of outputs, the ratio of the number of correct outputs in which the input single syllable is included in the group is used as the correct answer rate data for the group.Audio standard data correct answer rate holding means to hold, and the video processing meansFromOutput similarityWhenSaid video standard data correct answer rate holding meansFromRead correct answer rate andAnd the sum of products of the similarity output from the speech processing means and the correct answer rate read from the speech standard data correct answer rate holding means.Overall similarity for each groupAsAnd a voice recognition device including a voice recognition unit that identifies a group having the largest overall similarity, and can accurately identify a group to which a voice to be recognized belongs, thereby efficiently performing voice identification processing. Can be
[0038]
Hereinafter, embodiments of the present invention will be described with reference to the drawings.
[0039]
(First embodiment)
As shown in FIG. 1, the speech recognition apparatus according to the first embodiment includes a
[0040]
FIG. 2 is a drawing for explaining the correct answer rate in the present invention. This figure shows, for example, when a single syllable is input to the speech processing unit 4 (here, for the sake of simplicity, the input single syllable is set to 5 of “A”, “I”, “U”, “E”, “O”. The single syllable is output as a “single syllable with the highest degree of similarity” (this is called a candidate single syllable) by the
[0041]
This candidate single syllable appearance frequency data is prepared as a sample of single syllable speech separately from the standard speech data for calculating the similarity, and is input to the
[0042]
For example, when a single syllable “a” is input 100 times to the
[0043]
From the frequency of appearance of candidate single syllables obtained in this way, when a specific single syllable is output, the ratio that the single syllable is correct, that is, the number of outputs of the single syllable and the number of outputs The ratio of the number of outputs that match a single syllable is calculated as the correct answer rate.
[0044]
For example, with respect to the number 105 in which the speech processing unit outputs “a”, the number of input single syllables “a” is 97. Therefore, in the example of FIG. .924.
[0045]
In this way, the speech data of all single syllables to be recognized is input to the
[0046]
It should be noted that the video data and audio data used for calculating the correct answer rate data are preferably provided by a voice recognition target person or a plurality of speakers as data providers. It is desirable that the number of input data has little variation.
[0047]
The
[0048]
Further, the
[0049]
The voice recognition unit 5 outputs the video processing unit 2 (Ri,Image) And the output of the voice processing unit 4 (Ri,Sound) And correct answer rate data (S) stored in the video processing unit correct answer rate
Ri,Total= Si,Image・ Ri,Image+ Si,Sound・ Ri,Sound (Formula 2)
The voice recognition unit 5 performs similarity R for all single syllables included in the video standard data and the voice standard data.i,TotalThis similarity Ri,TotalThe single syllable with the maximum is output as the recognition result.
[0050]
As described above, the speech recognition apparatus of this embodiment performs speech recognition by combining the similarity between video and audio and the correct answer rate. Combining this correct answer rate means that when identifying single syllables, among the identification methods using audio or video, more weight is given to the method that can effectively identify the single syllable. By doing so, highly accurate voice recognition can be realized even in a noisy environment.
[0051]
For calculating the similarity in the
[0052]
(Second Embodiment)
The speech recognition apparatus of the second embodiment has the same configuration as that of the first embodiment (FIG. 1), but only the overall similarity (Ri,TotalOnly the calculation operation is different.
[0053]
The voice recognition unit 5 of this apparatus is Si,Image・ Ri,Image> Si,Sound・ Ri,SoundWhen
Ri,Total= Si,Image・ Ri,Image ……… (Formula 3)
While the value of Si,Image・ Ri,Image≦ Si,Sound・ Ri,SoundWhen
Ri,Total= Si,Sound・ Ri,Sound ......... (Formula 4)
Is calculated. And Ri,TotalThe single syllable with the maximum is output as the recognition result.
[0054]
As described above, in the apparatus of this embodiment, the one having higher reliability among the identification results based on the video data or the audio data is selected and used for identification. By doing so, it is possible to simplify arithmetic processing in speech recognition while maintaining high recognition accuracy.
[0055]
(Third embodiment)
The speech recognition apparatus according to the third embodiment can perform highly accurate speech recognition even when the S / N of the input speech varies. In speech recognition using speech, the correct answer rate varies with the S / N of the input speech. This device is configured to cope with such changes.
[0056]
As shown in FIG. 3, this apparatus detects an utterance section (speaking section) and a non-speaking section (non-speech section) from the lip image extracted by the
[0057]
In this apparatus, the
[0058]
The utterance section detection unit 8 samples feature amounts such as the vertical and horizontal lengths of the lips extracted by the
[0059]
The
[0060]
The sound pressure level detection unit 9 detects an average sound pressure level in each time interval of the utterance interval and the non-utterance interval, and signals the sound pressure level of the utterance interval as the signal level and the sound pressure level of the non-utterance interval as the noise level. A noise-to-noise ratio (S / N) is calculated and output to the speech processing unit correct answer rate
[0061]
The speech processing unit correct answer rate
[0062]
The voice recognition unit 5 outputs the outputs (R) of the
[0063]
Thus, in the speech recognition apparatus of this embodiment, correct answer rate data (Si,SoundSince a value corresponding to S / N is used as), voice recognition processing can be performed more reliably even for input voice signals having different S / N.
[0064]
(Fourth embodiment)
The voice recognition device according to the fourth embodiment uses a video of a speaker taken from various directions for voice recognition processing.
[0065]
As shown in FIG. 4, this apparatus includes a
[0066]
In this apparatus, a video signal obtained by photographing a speaker from the front is input to the
[0067]
The
[0068]
The video processing unit correct answer rate
[0069]
The voice recognition unit 5 outputs the video processing unit 2 (Ri,Image1), Output of the video processing unit 11 (Ri,Image2), And the output (Ri,Image) And the correct answer rate data (S) read out from the video processor correct answer rate
Ri,Total= Si,Image1・ Ri,Image1+ Si,Image2・ Ri,Image2
+ Si,Sound・ Ri,Sound ......... (Formula 5)
And Ri,TotalThe single syllable with the maximum is output as the recognition result.
[0070]
As described above, in the apparatus of this embodiment, it is possible to perform more reliable voice recognition by using the video of the speaker taken from a plurality of directions.
[0071]
In this embodiment, the case where the front and side images of the speaker are used has been described. However, by using more images such as images from oblique directions in addition to the front and side surfaces, more reliable voice recognition is possible. It becomes possible.
[0072]
(Fifth embodiment)
In the fifth embodiment, a voice recognition device that identifies a group to which a single syllable of spoken voice belongs will be described.
[0073]
For example, there are features common to single syllables belonging to the group of “A” (“A”, “I”, “U”, “E”, “O”), and “K”, “S” that contain the same consonant. If there is a feature common to the single syllables belonging to each group of “line”,..., The similarity between the single syllable feature of the input speech and the feature of each group is compared. It can be specified whether it belongs to a group.
[0074]
For example, when the word “mole” is uttered, a plurality of single syllables are selected as candidate single syllables corresponding to each of “mo”, “gu”, and “la”. There is known a method of identifying a finally uttered word based on whether combinations of candidates “M”, “G”, and “La” are hit in order, and whether the combination has a meaning as a word.
[0075]
In such a case, for example, if the group to which the leading single syllable belongs can be identified, the number of combinations of candidates to be examined can be greatly reduced, and the speech recognition process can be made more efficient.
[0076]
The voice recognition apparatus according to the fifth embodiment can specify a group to which a single syllable belongs with high accuracy by using voice data and video data together.
[0077]
As in the first embodiment (FIG. 1), this apparatus includes a
[0078]
However, the
[0079]
Further, the
[0080]
In order to obtain the similarity with each group, the
[0081]
The video processing unit correct answer rate
[0082]
The voice recognizing unit 5 outputs i from the output from the
[0083]
In this way, this apparatus can specify the group to which the single syllable of the uttered voice belongs with high accuracy.
[0084]
Examples of grouping include three syllable groups including lip sounds (/ b /, / m /, / p /), single syllable groups including stuttering (/ y /), and groups not including lip sounds and stuttering. It can also be divided into two.
[0085]
In this case, since the characteristics of the lip sound appear in the shape of the lips, the correct answer rate of the group including the lip sound tends to be higher for the
[0086]
Therefore, it is possible to more surely recognize whether the input single syllable includes a lip sound or does not include a stuttering sound by performing audio recognition using both video and audio.
[0087]
In this way, when grouping single syllables to be recognized, by selecting a group with a high correct answer rate of the output of the
[0088]
【The invention's effect】
As is clear from the above description, the speech recognition apparatus of the present invention performs speech recognition by combining the similarity between the input audio data and video data and the standard data, and the correct answer rate, so that noise is generated. Even in an existing environment, more reliable speech recognition can be realized.
[Brief description of the drawings]
FIG. 1 is a schematic configuration diagram of a speech recognition apparatus according to a first embodiment of the present invention;
FIG. 2 is a diagram for explaining a calculation method of correct answer rate data in the first embodiment;
FIG. 3 is a schematic configuration diagram of a speech recognition apparatus according to a third embodiment of the present invention;
FIG. 4 is a schematic configuration diagram of a speech recognition apparatus according to a fourth embodiment of the present invention;
FIG. 5 is a diagram for explaining classification of groups of single syllables in the fifth embodiment of the present invention;
FIG. 6 is a schematic configuration diagram of a conventional speech recognition apparatus.
[Explanation of symbols]
1 Video input section
2 Video processing section
3 Voice input part
4 Voice processing part
5 Voice recognition unit
6 Video processing part correct answer rate data holding part
7 Voice processing part correct answer rate data holding part
8 Voice detection section
9 Audio level detector
10 Second video input section
11 Second video processing unit
12 Second video processing part correct answer rate data holding part
Claims (3)
話者の音声データを入力する音声入力手段と、
各単音節を発声する口唇の映像標準データと入力映像データとの間の類似度を算出し、映像標準データの各単音節とそれに対する類似度とを出力する映像処理手段と、
各単音節を発声する音声の音声標準データと入力音声データとの間の類似度を算出し、音声標準データの各単音節とそれに対する類似度とを出力する音声処理手段と、
あらかじめ、前記映像入力手段に各種の単音節に関する前記映像データを入力し、各入力映像データに対応して前記映像処理手段から出力される類似度が最大の映像標準データの単音節を候補単音節として集計し、それを基に算出した、前記映像処理手段から出力された同一の候補単音節の総数の内で、入力映像データの単音節と一致する候補単音節の数の割合を、映像標準データのその単音節に対する正答率のデータとして保持する映像標準データ正答率保持手段と、
あらかじめ、前記音声入力手段に各種の単音節の音声データを入力し、各入力音声データに対応して前記音声処理手段から出力される類似度が最大の音声標準データの単音節を候補単音節として集計し、それを基に算出した、前記音声処理手段から出力された同一の候補単音節の総数の内で、入力音声データの単音節と一致する候補単音節の数の割合を、音声標準データのその単音節に対する正答率のデータとして保持する音声標準データ正答率保持手段と、
前記映像処理手段から出力される類似度と前記映像標準データ正答率保持手段から読み出した正答率との積、及び、前記音声処理手段から出力される類似度と前記音声標準データ正答率保持手段から読み出した正答率との積の総和を各単音節に対する総合的な類似度として求め、総合的な類似度が最も大きい単音節を識別する音声認識手段と
を備える音声認識装置。Video input means for inputting the video data of the speaker including the lips;
Voice input means for inputting the voice data of the speaker;
Video processing means for calculating the similarity between the video standard data of the lips that utter each single syllable and the input video data, and outputting each single syllable of the video standard data and the similarity thereto;
A speech processing means for calculating the similarity between the speech standard data of the speech uttering each single syllable and the input speech data, and outputting each single syllable of the speech standard data and the similarity thereto;
The video data relating to various single syllables is input to the video input means in advance, and the single syllable of the video standard data having the maximum similarity output from the video processing means corresponding to each input video data is selected as a candidate single syllable. The ratio of the number of candidate single syllables that match the single syllable of the input video data out of the total number of identical candidate single syllables output from the video processing means calculated based on the Video standard data correct answer rate holding means for holding data as correct answer rate data for that single syllable ;
The voice data of various single syllables is input to the voice input means in advance, and the single syllable of the voice standard data having the maximum similarity output from the voice processing means corresponding to each input voice data is set as a candidate single syllable. The ratio of the number of candidate single syllables that match the single syllable of the input voice data out of the total number of identical candidate single syllables output from the voice processing means calculated and calculated based on the voice standard data Voice standard data correct answer rate holding means for holding as a correct answer rate data for the single syllable ,
Product of the image processing similarity output from means the video standard data correct rate holding means from the read right answer rate, and, from the similarity output from the audio processing means the audio standard data correct rate holding means A speech recognition apparatus comprising speech recognition means for obtaining a sum of products of read correct answer rates as an overall similarity to each single syllable and identifying a single syllable having the largest overall similarity.
話者の音声データを入力する音声入力手段と、
発声の機構が共通する単音節を予めグループ化し、各グループについて、当該グループの各単音節を発声する口唇の映像標準データと入力映像データとの間の類似度を算出し、その中の最大の類似度を当該グループの類似度に設定して、グループの識別情報と当該グループの類似度とを出力する映像処理手段と、
前記各グループについて、当該グループの各単音節を発声する音声の音声標準データと入力音声データとの間の類似度を算出し、その中の最大の類似度を当該グループの類似度に設定して、グループの識別情報と当該グループの類似度とを出力する音声処理手段と、
あらかじめ、前記映像入力手段に各種の単音節に関する前記映像データを入力し、各入力映像データに対応して前記映像処理手段から出力される各グループの出力総数を集計し、それを基に算出した、前記出力総数の内で、入力した単音節が当該グループに含まれる正解の出力数の割合を、そのグループに対する正答率のデータとして保持する映像標準データ正答率保持手段と、
あらかじめ、前記音声入力手段に各種の単音節の音声データを入力し、各入力音声データに対応して前記音声処理手段から出力される各グループの出力総数を集計し、それを基に算出した、前記出力総数の内で、入力した単音節が当該グループに含まれる正解の出力数の割合を、そのグループに対する正答率のデータとして保持する音声標準データ正答率保持手段と、
前記映像処理手段から出力される類似度と前記映像標準データ正答率保持手段から読み出した正答率との積、及び、前記音声処理手段から出力される類似度と前記音声標準デー タ正答率保持手段から読み出した正答率との積の総和を各グループに対する総合的な類似度として求め、総合的な類似度が最も大きいグループを識別する音声認識手段と
を備える音声認識装置。Video input means for inputting the video data of the speaker including the lips;
Voice input means for inputting the voice data of the speaker;
Single syllables with common utterance mechanisms are grouped in advance, and for each group, the similarity between the video standard data of the lips that utter each single syllable of the group and the input video data is calculated, and the largest of them is calculated . Video processing means for setting the similarity to the similarity of the group and outputting the group identification information and the similarity of the group;
For each group, calculate the similarity between the voice standard data of the voice that utters each single syllable of the group and the input voice data, and set the maximum similarity among them as the similarity of the group Voice processing means for outputting the group identification information and the similarity of the group;
In advance, the video data relating to various single syllables is input to the video input means, and the total number of outputs of each group output from the video processing means corresponding to each input video data is calculated and calculated based thereon. Video standard data correct answer rate holding means for holding the ratio of the number of correct outputs included in the group of the input single syllables among the total number of outputs, as correct answer rate data for the group ,
Preliminarily input the voice data of various single syllables to the voice input means, totaled the total number of outputs of each group output from the voice processing means corresponding to each input voice data, calculated based on it, A voice standard data correct answer rate holding means for holding the ratio of the number of correct outputs included in the group of the input single syllables among the total number of outputs, as correct answer rate data for the group ,
The video product of processing the similarity output from the means and the video standard data correct rate holding read from the means percentage of correct answers, and the similarity output from the audio processing means the audio standard data correct rate holding means obtains the sum of the product of the read correct rate from the overall similarity for each group, the speech recognition apparatus and a speech recognition means for identifying a group greatest overall similarity.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25620197A JP3798530B2 (en) | 1997-09-05 | 1997-09-05 | Speech recognition apparatus and speech recognition method |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP25620197A JP3798530B2 (en) | 1997-09-05 | 1997-09-05 | Speech recognition apparatus and speech recognition method |
Publications (2)
Publication Number | Publication Date |
---|---|
JPH1185190A JPH1185190A (en) | 1999-03-30 |
JP3798530B2 true JP3798530B2 (en) | 2006-07-19 |
Family
ID=17289328
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP25620197A Expired - Fee Related JP3798530B2 (en) | 1997-09-05 | 1997-09-05 | Speech recognition apparatus and speech recognition method |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP3798530B2 (en) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20020057046A (en) * | 2000-12-30 | 2002-07-11 | 구자홍 | Audio recognizing method for wireless terminal |
US20050228673A1 (en) * | 2004-03-30 | 2005-10-13 | Nefian Ara V | Techniques for separating and evaluating audio and video source data |
JP4553667B2 (en) * | 2004-09-10 | 2010-09-29 | 日本信号株式会社 | Utterance identification method and password verification device using the same |
JP4847022B2 (en) * | 2005-01-28 | 2011-12-28 | 京セラ株式会社 | Utterance content recognition device |
JP5257680B2 (en) * | 2006-03-30 | 2013-08-07 | 本田技研工業株式会社 | Voice recognition device |
JP4981076B2 (en) * | 2009-02-02 | 2012-07-18 | 日本放送協会 | Pronunciation dictionary correction device, speech recognition device, and computer program |
JP2010185975A (en) * | 2009-02-10 | 2010-08-26 | Denso Corp | In-vehicle speech recognition device |
US20120169899A1 (en) * | 2010-12-30 | 2012-07-05 | Samsung Electronics Co., Ltd. | Electronic device and method for searching for object |
CN103680493A (en) * | 2013-12-19 | 2014-03-26 | 百度在线网络技术(北京)有限公司 | Voice data recognition method and device for distinguishing regional accents |
CN106033669B (en) * | 2015-03-18 | 2019-06-07 | 展讯通信(上海)有限公司 | Audio recognition method and device |
-
1997
- 1997-09-05 JP JP25620197A patent/JP3798530B2/en not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JPH1185190A (en) | 1999-03-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP0619911B1 (en) | Children's speech training aid | |
US5621857A (en) | Method and system for identifying and recognizing speech | |
Murthy et al. | Robust text-independent speaker identification over telephone channels | |
US5865626A (en) | Multi-dialect speech recognition method and apparatus | |
US5167004A (en) | Temporal decorrelation method for robust speaker verification | |
Loizou et al. | High-performance alphabet recognition | |
Weintraub et al. | Effect of speaking style on LVCSR performance | |
US20140156276A1 (en) | Conversation system and a method for recognizing speech | |
US20060178879A1 (en) | Adaptive multi-pass speech recognition system | |
KR20060041829A (en) | Automatic identification of telephone callers based on voice characteristics | |
KR20010102549A (en) | Speaker recognition | |
JPH11511567A (en) | Pattern recognition | |
JPH075892A (en) | Voice recognition method | |
Tamura et al. | Multi-modal speech recognition using optical-flow analysis for lip images | |
JP3298858B2 (en) | Partition-based similarity method for low-complexity speech recognizers | |
JP5385876B2 (en) | Speech segment detection method, speech recognition method, speech segment detection device, speech recognition device, program thereof, and recording medium | |
JP3798530B2 (en) | Speech recognition apparatus and speech recognition method | |
US7072750B2 (en) | Method and apparatus for rejection of speech recognition results in accordance with confidence level | |
Maganti et al. | Unsupervised speech/non-speech detection for automatic speech recognition in meeting rooms | |
Liu | Environmental adaptation for robust speech recognition | |
Yavuz et al. | A Phoneme-Based Approach for Eliminating Out-of-vocabulary Problem Turkish Speech Recognition Using Hidden Markov Model. | |
JP2001083986A (en) | Method for forming statistical model | |
JP7511374B2 (en) | Speech activity detection device, voice recognition device, speech activity detection system, speech activity detection method, and speech activity detection program | |
JPS63502304A (en) | Frame comparison method for language recognition in high noise environments | |
US7454337B1 (en) | Method of modeling single data class from multi-class data |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20050913 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20051115 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20051214 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20060418 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20060420 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090428 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090428 Year of fee payment: 3 |
|
R360 | Written notification for declining of transfer of rights |
Free format text: JAPANESE INTERMEDIATE CODE: R360 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090428 Year of fee payment: 3 |
|
R370 | Written measure of declining of transfer procedure |
Free format text: JAPANESE INTERMEDIATE CODE: R370 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090428 Year of fee payment: 3 |
|
S111 | Request for change of ownership or part of ownership |
Free format text: JAPANESE INTERMEDIATE CODE: R313114 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20090428 Year of fee payment: 3 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |