JP5257680B2

JP5257680B2 - 音声認識装置

Info

Publication number: JP5257680B2
Application number: JP2008508661A
Authority: JP
Inventors: 一博中臺; 幹生中野; 広司辻野
Original assignee: Honda Motor Co Ltd
Current assignee: Honda Motor Co Ltd
Priority date: 2006-03-30
Filing date: 2007-03-30
Publication date: 2013-08-07
Anticipated expiration: 2027-03-30
Also published as: JPWO2007114346A1; WO2007114346A1

Description

本発明は、音響処理して得られた音素候補を音素グループとして再構築することで、雑音環境でも認識誤りの低い音声認識装置に関する。

音声認識とは、次の処理を行うことで、音声を意味のある内容に関する情報に変換することである。音響分析で、音声波形のスペクトル分析を経て音韻性情報である特徴量を抽出する。入力された特徴量に対して音素毎の尤度を音声データベースから学習された音響モデルを用いて算出する。音素のシーケンスを単語辞書を制約として用いることで単語毎の尤度を算出し、音響スコアとする。一方、原稿データベースから学習されて構築された言語モデルから、言語的な確からしさ、即ち言語スコアを算出する。算出した音響スコアと言語スコアとを掛け合わせて、最終的な類似スコアとする。この一連の処理を繰り返して行い、類似スコアが最大となる単語列候補を探索する。そして探索した単語列候補を認識結果とする。

ここで、「音素」とは音節を構成する要素であり、言葉を最も細分化した最小単位である。日本語では、文頭、文末、文節間の無音区間を含めおよそ４３種類程度の音素に分類されることが多い。

上記の音声認識を雑音下で行うと認識誤りが急激に増加することから、環境雑音下でも使用に耐え得る音声認識装置の開発が近年盛んに行われている。その中で、話者の発声時における唇付近を撮影した画像を加味して音声認識を行うことが提案されている（例えば特許文献１）。

特開平１１−８５１９０号公報石原他２名、「日本語の擬音語表現に着目した環境音自動認識」、情報処理学会、第６５回全国大会、no. 4Ｘ-５、２００３年３月星野他３名、「雑音環境下で視覚情報が日本語音節認識に及ぼす効果について」、信学技報、ＳＰ２００５‐１２９、１０９〜１１４頁、２００５年１２月 M. Shozakai 他1名、"Analysis of speaking styles by two-dimensional visualization of aggregate of acoustic models"、INTERSPEECH-2004、ISCA、７１７〜７２０頁、２００４年１０月 Potamianos, G. 他２名、"HIERARCHICAL DISCRIMINANT FEATURES FOR AUDIO-VISUAL LVCSR"、 Proc. of IEEE International Conference on Acoustic, Speech, and signal Processing(ICASSP-2001)、250-253頁、IEEE、2001

音声認識技術は、ハンズフリー技術としてカーナビゲーションシステムに搭載されたり、ユビキタスコンピューティング環境ではユーザフレンドリーなインタフェースとして注目を浴びているにも拘わらず、雑音や反響に対する認識性能を高める必要がある。

本発明は上記課題に鑑み、反響を含めた雑音の影響を受けないでロバスト性を向上させた音声認識装置を提供することを目的とする。

本発明者らは鋭意研究を重ねた結果、雑音下で認識誤りの生じやすい音素同士をグルーピングして音素グループとすることで、音響分析の結果から一つの音素グループを決定する一方、従来音響分析で音素を決定する代わりに音素グループを決定するため生じる曖昧性を、話者の唇周りの画像情報を用いたり言語モデルや記述文法から生じる認識制約を用いたりすることで曖昧性を解消して、雑音下であっても認識性能を維持できるという発想に基づいて本発明を完成させた。

上記目的を達成するために、本発明の音声認識装置は、音声信号を音響処理して音素候補を求める音響処理部と、音響処理部で求めた音素候補及びこの音素候補と誤認されやすい音素を音素グループとして算出する音素グループ算出部と、画像入力部から入力された撮影データから口唇情報を取り出す画像処理部と、音素グループ算出部で算出された音素グループから曖昧性解消情報に基づいて一つの候補に統合する統合部と、を備え、統合部は、音素グループ毎に曖昧性解消情報としての口唇情報から音素を特定するように学習された識別器を備え、音素グループ算出部から識別器に音素グループが順に入力され、画像処理部から識別器に口唇情報が順に入力され、識別器が、入力された音素グループ及び口唇情報を時間軸上でアライメントをとり、入力された音素グループの中から口唇情報と符合する音素を順に出力する。

好ましくは、さらに、単語と音素とが対応するように構築した認識辞書データを格納する認識辞書データ格納部を備え、統合部は、認識辞書データ格納部に格納されている認識辞書データと照合する照合部を備え、識別器が、音素グループ算出部から音素グループの入力を受け、音素グループにおいて一つの音素に特定されず複数の音素を含む音素サブグループを出力した場合には、照合部は、識別器から音素サブグループの入力を受け、認識辞書データ格納部の認識辞書データの各リストとハミング距離を計算し最小となる語録を認識結果として出力する。

好ましくは、音響処理部で求めた音素候補が前記統合部に入力され、統合部は、音素グループ内から口唇情報に基づいて音素を特定する際、音響処理部から入力された音素候補から音素と口唇情報を優先的に照合する。

本発明の音声認識装置は、音声信号を音響処理して音素候補を求める音響処理部と、音響処理部で求めた音素候補及びこの音素候補と誤認されやすい音素を音素グループとして算出する音素グループ算出部と、画像入力部から入力された撮影データから口唇情報を取り出す画像処理部と、画像処理部から入力された、音響処理部で音響処理される音声信号と対をなす話者の口唇情報から口形素グループを算出する口形素グループ算出部と、音素グループ算出部で算出された音素グループから曖昧性解消情報に基づいて一つの候補に統合する統合部と、を備え、口形素グループ算出部は、曖昧性解消情報としての口唇情報がどの口形素グループに対応するかを示す口形素グループテーブルを備え、音素グループ算出部から統合部に音素グループが順に入力され、口形素グループ算出部から統合部に口形素グループが順に入力され、統合部が、入力された音素グループ及び口形素グループを時間軸上でアライメントをとり、音素発生区間単位で、入力された音素グループ及び口形素グループの何れにも属するものを抽出する。
好ましくは、さらに、単語と音素とが対応するように構築した認識辞書データを格納する認識辞書データ格納部を備え、統合部は、認識辞書データ格納部に格納されている認識辞書データと照合する照合部を備え、統合部は、入力された音素グループ及び口形素グループを時間軸上でアライメントをとり、音素発生区間単位で、入力された音素グループのうち入力された口形素グループに含まれるものを音素サブグループとして作成し、照合部において音素サブグループでなる列と上記認識辞書データ格納部の認識辞書データの各リストとハミング距離を計算し最小となる語録を認識結果として出力する。

本発明によれば、音素グループ算出部で、正解となる音素を含ませるように音素グループを算出し、曖昧性解消情報で音素グループから一つの候補に絞り込むことで曖昧性を解消したので、反響を含む雑音に強い音声認識を実現することができる。

第１の形態に係る音声認識装置の構成を示す機能ブロック構成図である。音素グループ算出テーブルの一例を示す図表である。第１の形態における具体例を示す図である。統合部における処理内容を示し、（Ａ）は処理前の内容を音声波形と共に、（Ｂ）は処理後内容を音素波形と共に示す図である。第２の形態に係る音声認識装置の機能ブロック構成図である。第２の形態における画像処理部での処理の様子を示し、（Ａ）は音声入力部で形成された音声波形を、（Ｂ）は画像処理部での処理を模式的に示す図である。第２の形態における統合部での処理を模式的に示す図である。第３の形態に係る音声認識装置の機能ブロック構成図である。図８に示す統合部での処理を模式的に示す図である。第４の形態に係る音声認識装置の機能ブロック構成図である。図１０の統合部での処理を模式的に示す図である。第５の形態に係る音声認識装置の機能ブロック構成図である。図１２に示す統合部における処理内容の具体例を示す図で、（Ａ）は音声波形と音素グループ、（Ｂ）は口形素グループ、（Ｃ）は統合結果を示す図である。横軸が時間軸である。第６の形態に係る音声認識装置の機能ブロック構成の一部を示す図である。

符号の説明

１０，２０，３０，４０，５０，６０：音声認識装置
１１：音声入力部
１２：音響処理部
１２Ａ：特徴量抽出部
１２Ｂ：音響標準データ部
１２Ｃ：候補算出部
１３：音素グループ算出部
１４：認識辞書データ格納部
１５，２５，３５，４５，５５，６５：統合部
１５Ａ：照合部
１６：出力部
２１：画像入力部
２２：画像処理部
２５Ａ，２５Ｂ，２５Ｃ：識別器
５３：口形素グループ算出部

（発明のコンセプト）
最初に、本発明のコンセプトについて説明する。
本発明では、まず一以上の音素を一つの仮想的な集合である音素グループとし、音響処理で求まる音素から音素グループを算出する。音素をグルーピングする手法として、音響モデルレベルでのグルーピングと認識レベルでのグルーピングとを挙げることができる。

前者は、音響モデル自体を音素グループ単位で学習する手法であり、例えば知覚的アプローチとして心理物理実験や工学的アプローチとして音響モデル距離を用いて、近似する音素同士をグループ化する。心理物理実験から次の２４の音素グループが得られる。
「ａ，ｉ，ｕ，ｅ，ｏ，ａ：，ｉ：，ｕ：，ｅ：，ｏ：，ｗ：，｛ｂ，ｂｙ，ｒ，ｒｙ，ｙ｝，｛ｈ，ｈｙ，ｋ，ｋｙ，ｐ，ｐｙ，ｔ，ｃｈ｝，ｄ，ｄｙ，ｇ，ｇｙ，ｚ，ｊ，｛ｍ，ｍｙ，ｎ，ｎｙ｝，Ｎ，｛ｓ，ｓｈ，ｔｓ｝，ｆ，ｑ」
音響モデル間距離から次の１８の音素グループが得られる。
「｛ｈｙ，ｋｙ｝，｛ｓ，ｊ，ｂ，ｈ，ｆ，ｑ，ｚ｝，｛ｔｓ，ｃｈ，ｓｈ｝，｛ｋ，ｐ，ｔ｝，｛ｇ，ｄ，ｄｙ｝，ｗ，｛ｏ，ｏ：｝，｛ａ，ａ：｝，ｎ，ｕ，Ｎ，ｍ，ｒ，ｙ，ｕ：，｛ｅ，ｅ：｝，｛ｇｙ，ｐｙ｝，｛ｍｙ，ｎｙ，ｉ，ｒｙ，ｂｙ，ｉ：｝」
なお、｛｝で囲まれた音素が一つの音素グループを形成する。一方後者は、音響モデルは音素毎に構築し、認識結果に対して予め定められたグルーピング規則を適用する手法であり、有向性音素グルーピングやＮ−ｂｅｓｔ音素グルーピングを挙げることができる。

一方音素をグルーピングすることで曖昧性が生じるものの、正解となる音素が含まれる可能性が高くなる。雑音環境下で「はい」（音素では“hai”と表記される単語）という音声を認識する例を挙げると、音素グループを用いない従来の場合には雑音の影響のため、例えば“kai”と認識される可能性がある。本発明の音素グループを用いると、次のように認識される。なお、[ ]はカッコ内の音素が音素グループであることを示し、小さな丸が付された音素が正解を示す。

音素グループは複数の音素を仮想的な一つのグループとするため、音声認識を行った場合に、所望の結果以外の認識候補が出力される可能性がある。上述の例では、「はい」が正解であるが、「くい」（“kui”）という認識候補が同時に考えられる。
そこで、音素グループを導入したことで生じる曖昧性を、非音声的な手法、例えば口唇画像や認識単語の絞り込みで解消する。以下、図面を参照して本発明を実施するための好ましい幾つかの形態を説明する。なお、同一又は実質的に同一の機能ブロックには同一の符号を付して説明の繰り返しを避けている。

（第１の形態）
図１は、第１の形態に係る音声認識装置１０の構成を示す機能ブロック構成図である。第１の形態に係る音声認識装置１０は、図１に示すように、話者からの音声を音声信号に変換する音声入力部１１と、音声信号を音響処理して音素候補を求める音響処理部１２と、音響処理部１２で求めた音素候補から認識誤りデータに基づいて音素グループを算出する音素グループ算出部１３と、単語と音素とを対応させて構築した認識辞書データを格納する認識辞書データ格納部１４と、音素グループ算出部１３で算出された音素グループから曖昧性解消情報としての認識辞書データに基づいて一つの候補に統合する統合部１５と、音声認識装置１０における認識結果として統合部１５で統合した一つの候補を出力する出力部１６とを備える。なお、音声入力部１１の代わりに認識対象たる音声の信号を記録したメモリ部を備えても、出力部１６の代わりに出力候補を逐次記録する別のメモリ部を備えても良い。

雑音下における音声信号は、雑音のないクリーンな環境の下での音声信号と雑音信号とが混在しているため、従来の一般的な音声認識では音声を正しく認識することが難しい。よって、音響処理部１２で求めた音素候補が必ずしも真とはならない。そこで、音響処理部１２で求めた音素候補とこの音素候補として誤認されやすい音素とを一つの集合としてグループ化し、これを認識誤りデータ、即ち音素グループ作成データとして音素グループ算出部１３に格納しておく。これで、音声信号を音響処理部１２で変換した音素候補列を音声認識の結果とせず、認識誤りデータである音素グループ作成データに基づいて真の音素が含まれるように音素グループ列を作成する。音素候補列とは、音声信号を音声発生区間単位で音素候補に直した際、音素候補が時系列に並べられたものをいう。音素グループ列とは時系列に音素グループを並べたものをいう。音素グループ算出部１３で音素グループには真の認識結果を含むことになるが、一方で一意に特定されないため曖昧性が生じる。本発明では、この曖昧性を音声以外の情報（「非音声情報」という。）を併用することで解消する。

第１の形態では、非音声情報が認識対象分野の単語、句、文節などのリストの場合である。認識辞書データ格納部１４には、単語、句、文節などのリストを格納した認識辞書データを備え、統合部１５において、認識辞書データ格納部１４中の認識辞書データのそれぞれと音素グループ算出部１３で求めた音素グループの組み合わせとのハミング距離を求め、ハミング距離が最小となる語録を認識結果として出力する。

以下、第１の形態を詳しく説明する。
音声入力部１１はマイクなどで構成され、入力された音声を音声信号に変換する。音響処理部１２では、先ず音声信号をスペクトル解析し言語情報に対応する物理的な特徴、即ち特徴量を求め、次に予め音素毎に声の音響的な特徴を表現した音響モデルを参照しながら入力された音声信号の特徴量と認識候補とを照合し、入力された音声信号の特徴量と類似した認識候補、即ち音素候補を求める。

具体的には、音響処理部１２は特徴量抽出部１２Ａを備え、音声信号を数十ｍｓ程度の時間長のフレーム毎に切り出し、この切り出された信号のスペクトル解析を行う。切り出された音声波形はスペクトル包絡とスペクトル微細構造とで構成されるため、例えばケプストラム分析を用いスペクトル包絡を取り出し認識パラメータとして機能する特徴量を抽出する。その際、静的な特徴のほかに、聴覚機構のモデルを加味したＭＦＣＣ（Mel-Frequency Cepstrum Coefficient）により、スペクトル包絡の時間的な変動を加味して動的な特徴を特徴量に加えてもよい。

音響処理部１２には、予め音声データベースを元に学習することで音素毎に作成された音響標準データ（「音響モデル」とも言う。）１２Ｂと候補算出部１２Ｃを備え、候補算出部１２Ｃにおいて、音響標準データ１２Ｂを参照しながら入力された音響信号の特徴量と尤も類似する音素（「最尤音素」という。）を候補として求める。音響標準データ１２Ｂは、時系列信号を表現するのに適した隠れマルコフモデル（HMM：hidden Markov Model）を用いて記述される。隠れマルコフモデルは一般に複数の状態で構成され、状態毎で信号を出力する確率（「出力確率」という。）と状態間を遷移する遷移確率とで示される。音響標準データ１２Ｂは予め音声データベース（図示せず）を元にＢａｕｍ‐Ｗｅｌｃｈ法などで学習して構築される。候補算出部１２Ｃは、特徴量抽出部１２Ａで特徴量が求められた際に、各ＨＭＭについてその時系列信号がＨＭＭから出力される遷移を遷移確率及び出力確率から求め、最も確率が高い事象を認識結果として出力する。音声の特徴量に対する出力確率を複数の正規分布の和で示した混合分布連続型ＨＭＭを用いるとよい。

音素グループ算出部１３は、音素グループ算出テーブルに基づいて音響処理部１２で求めた音素候補から音素グループを算出する。図２は、音素グループ算出テーブルの一例を示す図表であり、認識誤り許容値が５％の場合を示している。各欄における矢印の左側が音素候補、即ち最尤音素を示し、矢印の右側が対応する音素グループを示す。例えば「Ｎ→Ｎ，ｕ：」の場合、音響処理部１２で求めた音素候補が「Ｎ」である場合には、音素グループとして「Ｎ，ｕ：」を算出する。音声グループ算出テーブルは、認識誤り許容値、即ち、｛１−（正解音素数）／（入力音素数）｝×１００
で定義される値に依存し、異なる。

この音素グループ算出テーブルは例えば以下の手順により作成される。
話者が作成用単語（例えば「勢い」など）を発声し、音声入力部１１及び音響処理部１２を経ることで対応する音素候補を得る。この処理を多数の作成用単語で行い、正解音素が認識結果音素にどのように配分されて認識されるかをデータ集計する。ここで、話者が発生すべき一連の音素（上記例では“ｉｋｉｏｉ”）を一連の正解音素とし、音響処理部１２での出力結果を一連の認識結果音素と定義する。時間軸上で認識結果音素が正解音素の発声区間に含まれている場合には正解音素と認識結果音素とを対応付けし、それ以外の場合には正解音素の発生開始時間をＣ_t1、発生終了時間Ｃ_t2、ｋ番目の認識結果の発生開始時間をＲ_t1（ｋ）、発声終了時間をＲ_t2（ｋ）とし、
ｄ（ｋ）＝｛Ｒ_t1（ｋ）−Ｃ_t1｝²+｛Ｒ_t2（ｋ）−Ｃ_t2｝²
による二乗誤差を単語に含まれる正解音素毎に繰り返して計算し、ｄ（ｋ）が最小となるｋをＳとし、Ｓ番目の認識結果を最尤候補とし、正解音素と一致するか否かを検討する。その際、正解音素と認識結果音素との間で音素発声区間のアライメントを採り、正解音素と認識結果音素とを対応付けする。アライメントの際、正解区間内に含まれる音素は抽出し、正解音素と対応が取れないものは削除する。

正解音素と認識結果音素との関係を認識率情報として次のように整理する。列要素に正解音素を、行要素に認識結果音素とし、認識率情報（コンフュージョンマトリックス）を作成する。その際、作成用単語の選択の仕方によりバラつきが生じるので、列要素毎に集計した総数に対する各認識結果音素の割合を算出しても、行要素毎に集計した総数で各正解音素の割合を算出してもよいが、認識誤りが現れるように認識率情報を作成する。また、前述のように認識誤り許容値を設定することで、各音素グループ中の要素を減らし、データ処理量を低減することもできる。

図３は認識率情報の具体例を説明する図である。認識結果音素が“ｙ”であったもののうち、正解音素が“ｉ”であったケースが２５％含まれており、その逆のケースは０％であった。認識結果音素が“ｉ：”であったケースのうち、正解音素が“ｉ”であるケースが４６％含まれており、その逆のケースは０％であった。認識結果音素が“ｉ”であったものでは、正解音素が“ｉ”や“ｙ”のケースが含まれていなかった。つまり、音素“ｉ：”や“ｙ”は音素“ｉ”に認識誤りされることはあるが、逆に、音素“ｉ”は音素“ｉ：”や“ｙ”に誤認されない。一般に、音素Ｐｉ（ｉは任意数）は他の音素Ｐｊ（ｊ≠ｉ）に誤認される可能性があるが、他の音素Ｐｊ（ｊ≠ｉ）は音素Ｐｉに誤認されないことを「音素の認識誤りには方向性がある」と定義する。この誤りの方向性を加味してグルーピングすることを「有向性グルーピング」といい、有向性グルーピングされた音素グループのことを「有向性音素グループ」という。

第１の形態では、音素グループ算出部１３には、音素毎に有向性グルーピングした結果を音素グループ算出テーブルとして格納されている。図３に示す具体例では、音素候補 “ｉ”に音素グループ｛ｉ｝を対応させ、音素候補“ｉ：”に音素グループ｛ｉ，ｉ：｝を対応させ、音素候補 “ｙ”に音素グループ｛ｙ，ｉ｝を対応させる。つまり、音素候補毎に音素グループが異なる。これに対し、例えば音素候補“ｉ”、“ｉ：”、“ｙ”に同一の音素グループ｛ｉ、ｉ：、ｙ｝を対応させるように、類似性が高い音素同士を同一の音素グループとする無向性グループは採用しても良いが、不要な処理を行うことになる。

認識辞書データ格納部１４は、例えば「勢い」と“ｉｋｉｏｉ”との対のように単語と音素との対で構成された単語辞書が、音声認識の対象分野の大規模なテキストデータから構築されている。

統合部１５は、音素グループ算出部１３から入力された音素グループで構成された音素グループ列と認識辞書データ格納部１４に格納された認識辞書データのそれぞれとハミング距離を計算し、ハミング距離が最小となるものを認識結果として求める。即ち、図１の統合部１５のブロック内に模式的に示すように、統合部１５は、「ＰＧ」で模式的に示す音素グループが音素グループ算出部１３の処理に対応して入力され、一連の音素グループ、即ち音素グループ列が生じる。この音素グループ列と認識辞書データ格納部１４にリストアップされた各単語とのハミング距離を照合部１５Ａで計算し、ハミング距離が最小となる語録を抽出する。

図４は、統合部１５における処理内容を示し、（Ａ）は処理前の内容を音声波形と共に、（Ｂ）は処理後内容を音素波形と共に示す図である。音素グループ算出部１３から、音声波形に対応して音素発声区間毎に｛ｂ，ｇ，ｙ，ｒ｝、｛ｏ，ｅ｝、｛ｐ，ｈ，ｋ，ｔ｝、｛ｉ，ｕ｝、｛ｍ，ｎ｝、｛ｏ，ｅ｝、｛ｂ，ｇ，ｙ，ｒ｝、｛ｉ，ｕ｝、｛ｍ，ｎ｝、｛ｏ，ｅ｝が入力される。この入力された音素グループ列と認識辞書データ格納部１４にリストされた単語などの語彙の音素列とのハミング距離を計算し、ハミング距離が最小となるようなリストを選択する。図示した場合には、単語辞書データ中にリストアップされている「僕の夢：ｂｏｋｕｎｏｙｕｍｅ」とのハミング距離が最小となるため、音素グループ算出部１３から順次入力された音素グループから「ｂｏｋｕｎｏｙｕｍｅ」に統合される。

上述のように音響処理部１２において音素毎に音響モデルを構築し、音素グループ算出部１３において音素グループ算出テーブルを求める際にはオーバーラッピング音素グルーピングを採用しているが、これに限らず、心理物理実験や工学的アプローチとして音響モデル距離を用いて音素グループ単位で音響モデルを構築するエクスクルーシブ音素グルーピングを採用してもよい。また、Ｎ-ｂｅｓｔ音素グルーピングを行う際には、音素認識の出力スコアの高い順、即ち、正解率の高い順に複数の音声認識を出力させ、認識結果の各音素に対してアライメントを取り、上位Ｎ種類の音素を抽出して音素グループを構築しても良い。これら音素グループ算出テーブルの作成の仕方については他の形態でも同様である。

（第２の形態）
図５は、第２の形態に係る音声認識装置２０の機能ブロック構成図である。
第２の形態に係る音声認識装置２０は、図５に示すように、話者からの音声を音声信号に変換する音声入力部１１と、音声信号を音響処理して音素候補を求める音響処理部１２と、音響処理部１２で求めた音素候補から認識誤りデータに基づいて音素グループを算出する音素グループ算出部１３と、話者の口周りの映像を撮像する画像入力部２１と、画像入力部２１から入力された撮像データから口唇情報に加工する画像処理部２２と、音素グループ算出部１３で算出された音素グループから曖昧性解消情報として口唇情報に基づいて一つの候補に統合する統合部２５と、音声認識装置２０における認識結果として統合部２５で統合した一つの候補を出力する出力部１６とを備える。音声入力部１１や画像入力部２１の代わりに、認識対象たる音声の信号及びこの音声信号と対をなす話者の口唇画像を例えば時間データを付属情報として付けることで対応させて記録したメモリ部を備え、出力部１６の代わりに出力候補を逐次記録する別のメモリ部を備えても良い。

第２の形態では、音素グループとして認識させることで生じる曖昧性を曖昧性解消情報として話者の唇画像情報を用いて解決する。図６は第２の形態における画像処理部２２での処理の様子を示し、（Ａ）は音声入力部１１で形成された音声波形、（Ｂ）は画像処理部２２での処理を模式的に示す図である。両図においてｔ１〜ｔ３は時間軸である。

画像入力部２１は、ＣＣＤカメラなどの撮像素子で構成される。画像処理部２２は、図６（Ａ）に示す音声波形に対応して図６（Ｂ）に示すように画像入力部２１から入力された撮像データから口唇画像を切り出し、その撮像時間を付属情報として付け口唇画像情報として統合部２５に出力する。この際、話者の唇の縦方向や横方向の長さを特徴量とし、口唇画像情報の代わりに特徴量を撮影時間と対にして口唇情報として統合部２５に入力しても良い。なお、口唇情報は、単に口唇画像情報であっても、口唇画像情報から特徴を取り出した特徴量であってもよい。

統合部２５は、図５に示すように、音素グループ毎に口唇情報から音素を特定するよう事前学習された識別器２５Ａ、２５Ｂ、２５Ｃを備える。各識別器２５Ａ，２５Ｂ，２５Ｃは、例えばサポートベクターマシンにより構成され、音素グループ毎に事前学習されている。音素グループ毎に識別器２５Ａ，２５Ｂ，２５Ｃを備えていることで、分類されるクラス数を減らし、認識精度を向上させることができる。

よって、統合部２５には、例えば図７に示すように｛／ｍ／，／ｎ／｝で構成された第１の音素グループ（「ＰＧ１」と模式的に図示）とこの第１の音素グループの元となる音声が発声された際の口唇情報とが第１の音素グループ用の識別器２５Ａに入力され、第１の音素グループの中から口唇情報と符合する音素／ｎ／を出力する。

以上のように第２の形態における統合部２５では、図５に示すように、音素グループ算出部１３から入力された音素グループＰＧ１，ＰＧ２，ＰＧ３がそれぞれ対応するＰＧ１用の識別器２５Ａ，ＰＧ２用の識別器２５Ｂ，ＰＧ３用の識別器２５Ｃに入力され、また、画像処理部２２から口唇情報が入力される。よって、各識別器２５Ａ，２５Ｂ，２５Ｃにおいて各音素グループＰＧ１，ＰＧ２，ＰＧ３と対応する口唇情報とを音声入力部１１及び画像入力部時間２１に入力された時間でアライメントをとり、各音素グループＰＧ１，ＰＧ２，ＰＧ３の中から音素Ｐを抽出する。

（第３の形態）
第２の形態の変形例として第３の形態を説明する。
図８は第３の形態に係る音声認識装置３０の機能ブロック構成図で、図９は統合部３５での処理を模式的に示す図である。第３の形態に係る音声認識装置３０は、図８に示すように、第２の形態に係る音声認識装置２０に、図１に示す認識辞書データ格納部１４を備え、統合部３５の照合部１５Ａで認識辞書データ格納部１４に格納されている認識辞書データと照合するよう構成されている。

統合部３５では、例えば図９に示すように、例えば｛／ｂ／，／ｇ／，／ｙ／，／ｒ／｝で構成された第１の音素グループ（「ＰＧ１」と図示）とこの第１の音素グループの元となる音声が発声された際の口唇情報とが第１の音素グループ用の識別器２５Ａに入力され、第１の音素グループの中から口唇情報と符合する｛／ｇ／，／ｙ／，／ｒ／｝でなる音素サブグループ（「ＳＧ１」と図示）を出力する。つまり、識別器２５Ａでは、音素グループ内からどの音素サブグループかを口唇情報から判断して出力する。

よって、第３の形態に係る音声認識装置３０では、図８に示すように、統合部３５における各識別器２５Ａ，２５Ｂ，２５Ｃから一意に音素を特定されず音素サブグループ（ＳＧ１，ＳＧ２，ＳＧ３と図示）が出力されても、照合部１５Ａにおいて、音素サブグループでなる列と認識辞書データ格納部１４中の各リストとハミング距離を計算し、最小となる語録を認識結果として統合部３５から出力する。

（第４の形態）
第３の形態の変形例として第４の形態を説明する。
図１０は第４の形態に係る音声認識装置４０の機能ブロック構成図で、図１１は統合部４５での処理を模式的に示す図である。

第４の形態に係る音声認識装置４０は、図１０に示すように、第３の形態に係る音声認識装置２０において音響処理部１２で得られた音素候補が統合部４５に入力され、統合部４５において音素グループ内から口唇情報に基づいて特定する際、音響処理部１２から入力された音素候補から優先的に照合可能に構成されている。

統合部４５では、例えば図１１に示すように、例えば｛／ｍ／，／ｎ／｝で構成された第１の音素グループ（「ＰＧ１」と図示）とこの第１の音素グループの元となる音声が発声された際の口唇情報と音響処理部１２から入力された音素候補／ｍ／が第１の音素グループ用の識別器２５Ａに入力され、第１の音素グループの中から口唇情報と音素候補／ｍ／とから音素／ｍ／を優先的に判別して出力する。

よって、第４の形態に係る音声認識装置４０では、図１０に示すように、音素グループ算出部１３から入力された音素グループＰＧ１，ＰＧ２，ＰＧ３がそれぞれ対応するＰＧ１用の識別器２５Ａ、ＰＧ２用の識別器２５Ｂ、ＰＧ３用の識別器２５Ｃに入力されるだけでなく、各識別器２５Ａ，２５Ｂ，２５Ｃには音響処理部１２から音素候補も入力されるので、識別器２５Ａ，２５Ｂ，２５Ｃは、音素候補に基づいて音素グループの中で重み付けして優先的に照合する。つまり、各識別器２５Ａ，２５Ｂ，２５Ｃは、画像処理部２２から口唇情報が入力されるので、各識別器２５Ａ，２５Ｂ，２５Ｃにおいて各音素グループＰＧ１，ＰＧ２，ＰＧ３と対応する口唇情報とを音声入力部１１及び画像入力部時間２１に入力された時間でアライメントをとり、各音素グループＰＧ１，ＰＧ２，ＰＧ３の中から音響処理部１２から入力された音素候補から順に照合し、もっとも符合する音素Ｐを抽出する。

また、識別器２５Ａ，２５Ｂ，２５Ｃには音響処理部１２から音素候補だけでなく、音素認識の結果を入力してもよい。その際、音素認識は、前述のような認識辞書ではなく音素とモーラとで記述された辞書と、音素列とモーラ列とで規定された言語モデルを用いて行う。

（第５の形態）
図１２は、第５の形態に係る音声認識装置５０の機能ブロック構成図である。
第５の形態に係る音声認識装置５０は、図５に示す第２の形態とは、口形素グループ作成部５３を備える点で異なり、統合部５５の機能の点でも異なっている。具体的には、口形素グループ作成部５３には、予め口唇情報がどの口形素（ｖｉｓｅｍｅ）グループに対応するかを示す口形素グループ算出テーブルを備え、画像処理部２２からの口唇情報と口形素算出テーブルとから口形素グループを認定する。ここで、口形素とは視覚素とも呼ばれ、口唇の開き具合を視覚的には区別はできず、聴覚によって区別さえるような音韻をいう。例えば“ｂａｔ”と“ｐａｔ”の単語を構成する／ｂ／と／ｐ／や、例えば／ａ／と／ａ：／のように長音と短音が同一の口形素グループの要素となる。

統合部５５には、音素グループ算出部１３で算出された音素グループと口形素グループ算出部５４で算出された口形素グループとが、音声入力部１１及び画像入力部２１にそれぞれ音声及び画像が入力されたときの時間データとともに入力される。統合部５５では、入力された音素グループ及び口形素グループの各時間データを元にアライメントを行い、音素発声区間単位で、音素グループ及び口形素グループの何れにも該当する要素を抽出することで、一つの候補に統合する。

第５の形態では、音素グループとして再構築することで生じる曖昧性を、曖昧性解消情報として音響処理される音声信号と対をなす話者の口唇画像情報から作成された口形素グループを用いて解決する。

以上のように第５の形態における統合部５５では、図１２に示すように、音素グループ算出部１３から入力された音素グループＰＧ１，ＰＧ２，ＰＧ３と、口形素グループ算出部５３から入力された口形素グループＶＧ１，ＶＧ２，ＶＧ３，ＶＧ４とから、時間データを元にアライメントをとり、音素グループＰＧ１，ＰＧ２，ＰＧ３から口形素グループＶＧ１，ＶＧ２，ＶＧ３，ＶＧ４に含まれる音素Ｐに統合する。

図１３は、図１２に示す統合部５５における処理内容の具体例を示す図で、（Ａ）は音声波形と音素グループ、（Ｂ）は口形素グループ、（Ｃ）は統合結果を示す図である。横軸が時間軸である。音素グループ算出部１３から、音声波形に対応して音素発声区間毎に｛ｂ，ｇ，ｙ，ｒ｝、｛ｏ，ｅ｝、｛ｐ，ｈ，ｋ，ｔ｝、｛ｉ，ｕ｝、｛ｍ，ｎ｝、｛ｏ，ｅ｝、｛ｂ，ｇ，ｙ，ｒ｝、｛ｉ，ｕ｝、｛ｍ，ｎ｝、｛ｏ，ｅ｝の音素グループ列が入力される。一方、口形素グループ算出部５３から、｛ｂ，ｐ，ｍ｝、｛ａ，ｕ，ｏ｝、｛ｋ，ｇ，ｎ，ｔ，ｄ，ｙ｝、｛ａ，ｕ，ｏ｝、｛ｋ，ｇ，ｎ，ｔ，ｄ，ｙ｝、｛ａ，ｕ，ｏ｝、｛ｋ，ｇ，ｎ，ｔ，ｄ，ｙ｝、｛ａ，ｕ，ｏ｝、｛ｂ，ｐ，ｍ｝、｛ｉ，ｅ｝の口形素グループ列が入力される。よって音素グループの中から音声発声区間毎に口形素グループに含まれる音素に統合し、「ｂｏｋｕｎｏｙｕｍｅ」を出力する。

（第６の形態）
第６の形態は、第５の形態において第１の形態における認識辞書データ格納部１４を備える点で異なる。図１４は第６の形態に係る音声認識装置６０の機能ブロック構成の一部を示す図である。図１２に示す音声入力部１１、音響処理部１２、画像入力部２１及び画像処理部２２は省略してある。

第６の形態における統合部６５では、図１４に示すように、音素グループ算出部１３から入力された音素グループＰＧ１，ＰＧ２，ＰＧ３と、口形素グループ算出部５３から入力された口形素グループＶＧ１，ＶＧ２，ＶＧ３，ＶＧ４とから、時間データを元にアライメントをとり、音素グループＰＧ１，ＰＧ２，ＰＧ３から口形素グループＶＧ１，ＶＧ２，ＶＧ３，ＶＧ４に含まれる音素サブグループ（記号ＳＧ１、ＳＧ２、ＳＧ３で図示している。）を作成する。そして、照合部１５Ａにおいて音素サブグループでなる列と認識辞書データ格納部１４中の各リストとハミング距離を計算し、最小となる語録を認識結果として統合部６５から出力する。

以上、実施の形態について説明したが、それ以外の組み合わせも本発明の範囲に含まれることは言うまでもない。また、各形態に係る音声認識装置１０〜６０は、コンピュータの記憶部に上記各ブロックの機能を実現するようプログラミングされたソフトウェアを搭載し、ＣＰＵで実行処理されることで構築される。その際、マイクなどの音声入力装置などの出入力インタフェースを備えることが必要となる。

Claims

音声信号を音響処理して音素候補を求める音響処理部と、上記音響処理部で求めた音素候補及びこの音素候補と誤認されやすい音素を音素グループとして算出する音素グループ算出部と、画像入力部から入力された撮影データから口唇情報を取り出す画像処理部と、上記音素グループ算出部で算出された音素グループから曖昧性解消情報に基づいて一つの候補に統合する統合部と、を備え、
上記統合部は、音素グループ毎に曖昧性解消情報としての口唇情報から音素を特定するように学習された識別器を備え、上記音素グループ算出部から上記識別器に音素グループが順に入力され、上記画像処理部から上記識別器に口唇情報が順に入力され、上記識別器が、入力された音素グループ及び口唇情報を時間軸上でアライメントをとり、入力された音素グループの中から口唇情報と符合する音素を順に出力する、音声認識装置。
さらに、単語と音素とが対応するように構築した認識辞書データを格納する認識辞書データ格納部を備え、
前記統合部は、上記認識辞書データ格納部に格納されている認識辞書データと照合する照合部を備え、
前記識別器が、前記音素グループ算出部から音素グループの入力を受け、音素グループにおいて一つの音素に特定されず複数の音素を含む音素サブグループを出力した場合には、上記照合部は、上記識別器から音素サブグループの入力を受け、上記認識辞書データ格納部の認識辞書データの各リストとハミング距離を計算し最小となる語録を認識結果として出力する、請求項１に記載の音声認識装置。
前記音響処理部で求めた音素候補が前記統合部に入力され、
前記統合部は、音素グループ内から口唇情報に基づいて音素を特定する際、前記音響処理部から入力された音素候補から音素と口唇情報とを優先的に照合する、請求項１又は２に記載の音声認識装置。
音声信号を音響処理して音素候補を求める音響処理部と、上記音響処理部で求めた音素候補及びこの音素候補と誤認されやすい音素を音素グループとして算出する音素グループ算出部と、画像入力部から入力された撮影データから口唇情報を取り出す画像処理部と、上記画像処理部から入力された、上記音響処理部で音響処理される音声信号と対をなす話者の口唇情報から口形素グループを算出する口形素グループ算出部と、上記音素グループ算出部で算出された音素グループから曖昧性解消情報に基づいて一つの候補に統合する統合部と、を備え、
上記口形素グループ算出部は、曖昧性解消情報としての口唇情報がどの口形素グループに対応するかを示す口形素グループテーブルを備え、
上記音素グループ算出部から上記統合部に音素グループが順に入力され、上記口形素グループ算出部から上記統合部に口形素グループが順に入力され、上記統合部が、入力された音素グループ及び口形素グループを時間軸上でアライメントをとり、音素発生区間単位で、入力された音素グループ及び口形素グループの何れにも属するものを抽出する、音声認識装置。
さらに、単語と音素とが対応するように構築した認識辞書データを格納する認識辞書データ格納部を備え、
前記統合部は、上記認識辞書データ格納部に格納されている認識辞書データと照合する照合部を備え、
前記統合部は、入力された音素グループ及び口形素グループを時間軸上でアライメントをとり、音素発生区間単位で、入力された音素グループのうち入力された口形素グループに含まれるものを音素サブグループとして作成し、上記照合部において音素サブグループでなる列と上記認識辞書データ格納部の認識辞書データの各リストとハミング距離を計算し最小となる語録を認識結果として出力する、請求項４に記載の音声認識装置。