JP5257680B2 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JP5257680B2
JP5257680B2 JP2008508661A JP2008508661A JP5257680B2 JP 5257680 B2 JP5257680 B2 JP 5257680B2 JP 2008508661 A JP2008508661 A JP 2008508661A JP 2008508661 A JP2008508661 A JP 2008508661A JP 5257680 B2 JP5257680 B2 JP 5257680B2
Authority
JP
Japan
Prior art keywords
phoneme
group
unit
input
recognition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008508661A
Other languages
English (en)
Other versions
JPWO2007114346A1 (ja
Inventor
一博 中臺
幹生 中野
広司 辻野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JPWO2007114346A1 publication Critical patent/JPWO2007114346A1/ja
Application granted granted Critical
Publication of JP5257680B2 publication Critical patent/JP5257680B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

本発明は、音響処理して得られた音素候補を音素グループとして再構築することで、雑音環境でも認識誤りの低い音声認識装置に関する。
音声認識とは、次の処理を行うことで、音声を意味のある内容に関する情報に変換することである。音響分析で、音声波形のスペクトル分析を経て音韻性情報である特徴量を抽出する。入力された特徴量に対して音素毎の尤度を音声データベースから学習された音響モデルを用いて算出する。音素のシーケンスを単語辞書を制約として用いることで単語毎の尤度を算出し、音響スコアとする。一方、原稿データベースから学習されて構築された言語モデルから、言語的な確からしさ、即ち言語スコアを算出する。算出した音響スコアと言語スコアとを掛け合わせて、最終的な類似スコアとする。この一連の処理を繰り返して行い、類似スコアが最大となる単語列候補を探索する。そして探索した単語列候補を認識結果とする。
ここで、「音素」とは音節を構成する要素であり、言葉を最も細分化した最小単位である。日本語では、文頭、文末、文節間の無音区間を含めおよそ43種類程度の音素に分類されることが多い。
上記の音声認識を雑音下で行うと認識誤りが急激に増加することから、環境雑音下でも使用に耐え得る音声認識装置の開発が近年盛んに行われている。その中で、話者の発声時における唇付近を撮影した画像を加味して音声認識を行うことが提案されている(例えば特許文献1)。
特開平11−85190号公報 石原他2名、「日本語の擬音語表現に着目した環境音自動認識」、情報処理学会、第65回全国大会、no. 4X-5、2003年3月 星野他3名、「雑音環境下で視覚情報が日本語音節認識に及ぼす効果について」、信学技報、SP2005‐129、109〜114頁、2005年12月 M. Shozakai 他1名、"Analysis of speaking styles by two-dimensional visualization of aggregate of acoustic models"、INTERSPEECH-2004、ISCA、717〜720頁、2004年10月 Potamianos, G. 他2名、"HIERARCHICAL DISCRIMINANT FEATURES FOR AUDIO-VISUAL LVCSR"、 Proc. of IEEE International Conference on Acoustic, Speech, and signal Processing(ICASSP-2001)、250-253頁、IEEE、2001
音声認識技術は、ハンズフリー技術としてカーナビゲーションシステムに搭載されたり、ユビキタスコンピューティング環境ではユーザフレンドリーなインタフェースとして注目を浴びているにも拘わらず、雑音や反響に対する認識性能を高める必要がある。
本発明は上記課題に鑑み、反響を含めた雑音の影響を受けないでロバスト性を向上させた音声認識装置を提供することを目的とする。
本発明者らは鋭意研究を重ねた結果、雑音下で認識誤りの生じやすい音素同士をグルーピングして音素グループとすることで、音響分析の結果から一つの音素グループを決定する一方、従来音響分析で音素を決定する代わりに音素グループを決定するため生じる曖昧性を、話者の唇周りの画像情報を用いたり言語モデルや記述文法から生じる認識制約を用いたりすることで曖昧性を解消して、雑音下であっても認識性能を維持できるという発想に基づいて本発明を完成させた。
上記目的を達成するために、本発明の音声認識装置は、音声信号を音響処理して音素候補を求める音響処理部と、音響処理部で求めた音素候補及びこの音素候補と誤認されやすい音素を音素グループとして算出する音素グループ算出部と、画像入力部から入力された撮影データから口唇情報を取り出す画像処理部と、音素グループ算出部で算出された音素グループから曖昧性解消情報に基づいて一つの候補に統合する統合部と、を備え、統合部は、音素グループ毎に曖昧性解消情報としての口唇情報から音素を特定するように学習された識別器を備え、音素グループ算出部から識別器に音素グループが順に入力され、画像処理部から識別器に口唇情報が順に入力され、識別器が、入力された音素グループ及び口唇情報を時間軸上でアライメントをとり、入力された音素グループの中から口唇情報と符合する音素を順に出力する。
好ましくは、さらに、単語と音素とが対応するように構築した認識辞書データを格納する認識辞書データ格納部を備え、統合部は、認識辞書データ格納部に格納されている認識辞書データと照合する照合部を備え、識別器が、音素グループ算出部から音素グループの入力を受け、音素グループにおいて一つの音素に特定されず複数の音素を含む音素サブグループを出力した場合には、照合部は、識別器から音素サブグループの入力を受け、認識辞書データ格納部の認識辞書データの各リストとハミング距離を計算し最小となる語録を認識結果として出力する。
好ましくは、音響処理部で求めた音素候補が前記統合部に入力され、統合部は、音素グループ内から口唇情報に基づいて音素を特定する際、音響処理部から入力された音素候補から音素と口唇情報を優先的に照合する。
本発明の音声認識装置は、音声信号を音響処理して音素候補を求める音響処理部と、音響処理部で求めた音素候補及びこの音素候補と誤認されやすい音素を音素グループとして算出する音素グループ算出部と、画像入力部から入力された撮影データから口唇情報を取り出す画像処理部と、画像処理部から入力された、音響処理部で音響処理される音声信号と対をなす話者の口唇情報から口形素グループを算出する口形素グループ算出部と、音素グループ算出部で算出された音素グループから曖昧性解消情報に基づいて一つの候補に統合する統合部と、を備え、口形素グループ算出部は、曖昧性解消情報としての口唇情報がどの口形素グループに対応するかを示す口形素グループテーブルを備え、音素グループ算出部から統合部に音素グループが順に入力され、口形素グループ算出部から統合部に口形素グループが順に入力され、統合部が、入力された音素グループ及び口形素グループを時間軸上でアライメントをとり、音素発生区間単位で、入力された音素グループ及び口形素グループの何れにも属するものを抽出する。
好ましくは、さらに、単語と音素とが対応するように構築した認識辞書データを格納する認識辞書データ格納部を備え、統合部は、認識辞書データ格納部に格納されている認識辞書データと照合する照合部を備え、統合部は、入力された音素グループ及び口形素グループを時間軸上でアライメントをとり、音素発生区間単位で、入力された音素グループのうち入力された口形素グループに含まれるものを音素サブグループとして作成し、照合部において音素サブグループでなる列と上記認識辞書データ格納部の認識辞書データの各リストとハミング距離を計算し最小となる語録を認識結果として出力する。
本発明によれば、音素グループ算出部で、正解となる音素を含ませるように音素グループを算出し、曖昧性解消情報で音素グループから一つの候補に絞り込むことで曖昧性を解消したので、反響を含む雑音に強い音声認識を実現することができる。
第1の形態に係る音声認識装置の構成を示す機能ブロック構成図である。 音素グループ算出テーブルの一例を示す図表である。 第1の形態における具体例を示す図である。 統合部における処理内容を示し、(A)は処理前の内容を音声波形と共に、(B)は処理後内容を音素波形と共に示す図である。 第2の形態に係る音声認識装置の機能ブロック構成図である。 第2の形態における画像処理部での処理の様子を示し、(A)は音声入力部で形成された音声波形を、(B)は画像処理部での処理を模式的に示す図である。 第2の形態における統合部での処理を模式的に示す図である。 第3の形態に係る音声認識装置の機能ブロック構成図である。 図8に示す統合部での処理を模式的に示す図である。 第4の形態に係る音声認識装置の機能ブロック構成図である。 図10の統合部での処理を模式的に示す図である。 第5の形態に係る音声認識装置の機能ブロック構成図である。 図12に示す統合部における処理内容の具体例を示す図で、(A)は音声波形と音素グループ、(B)は口形素グループ、(C)は統合結果を示す図である。横軸が時間軸である。 第6の形態に係る音声認識装置の機能ブロック構成の一部を示す図である。
符号の説明
10,20,30,40,50,60:音声認識装置
11:音声入力部
12:音響処理部
12A:特徴量抽出部
12B:音響標準データ部
12C:候補算出部
13:音素グループ算出部
14:認識辞書データ格納部
15,25,35,45,55,65:統合部
15A:照合部
16:出力部
21:画像入力部
22:画像処理部
25A,25B,25C:識別器
53:口形素グループ算出部
(発明のコンセプト)
最初に、本発明のコンセプトについて説明する。
本発明では、まず一以上の音素を一つの仮想的な集合である音素グループとし、音響処理で求まる音素から音素グループを算出する。音素をグルーピングする手法として、音響モデルレベルでのグルーピングと認識レベルでのグルーピングとを挙げることができる。
前者は、音響モデル自体を音素グループ単位で学習する手法であり、例えば知覚的アプローチとして心理物理実験や工学的アプローチとして音響モデル距離を用いて、近似する音素同士をグループ化する。心理物理実験から次の24の音素グループが得られる。
「a,i,u,e,o,a:,i:,u:,e:,o:,w:,{b,by,r,ry,y},{h,hy,k,ky,p,py,t,ch},d,dy,g,gy,z,j,{m,my,n,ny},N,{s,sh,ts},f,q」
音響モデル間距離から次の18の音素グループが得られる。
「{hy,ky},{s,j,b,h,f,q,z},{ts,ch,sh},{k,p,t},{g,d,dy},w,{o,o:},{a,a:},n,u,N,m,r,y,u:,{e,e:},{gy,py},{my,ny,i,ry,by,i:}」
なお、{ }で囲まれた音素が一つの音素グループを形成する。一方後者は、音響モデルは音素毎に構築し、認識結果に対して予め定められたグルーピング規則を適用する手法であり、有向性音素グルーピングやN−best音素グルーピングを挙げることができる。
一方音素をグルーピングすることで曖昧性が生じるものの、正解となる音素が含まれる可能性が高くなる。雑音環境下で「はい」(音素では“hai”と表記される単語)という音声を認識する例を挙げると、音素グループを用いない従来の場合には雑音の影響のため、例えば“kai”と認識される可能性がある。本発明の音素グループを用いると、次のように認識される。なお、[ ]はカッコ内の音素が音素グループであることを示し、小さな丸が付された音素が正解を示す。
Figure 0005257680
音素グループは複数の音素を仮想的な一つのグループとするため、音声認識を行った場合に、所望の結果以外の認識候補が出力される可能性がある。上述の例では、「はい」が正解であるが、「くい」(“kui”)という認識候補が同時に考えられる。
そこで、音素グループを導入したことで生じる曖昧性を、非音声的な手法、例えば口唇画像や認識単語の絞り込みで解消する。以下、図面を参照して本発明を実施するための好ましい幾つかの形態を説明する。なお、同一又は実質的に同一の機能ブロックには同一の符号を付して説明の繰り返しを避けている。
(第1の形態)
図1は、第1の形態に係る音声認識装置10の構成を示す機能ブロック構成図である。第1の形態に係る音声認識装置10は、図1に示すように、話者からの音声を音声信号に変換する音声入力部11と、音声信号を音響処理して音素候補を求める音響処理部12と、音響処理部12で求めた音素候補から認識誤りデータに基づいて音素グループを算出する音素グループ算出部13と、単語と音素とを対応させて構築した認識辞書データを格納する認識辞書データ格納部14と、音素グループ算出部13で算出された音素グループから曖昧性解消情報としての認識辞書データに基づいて一つの候補に統合する統合部15と、音声認識装置10における認識結果として統合部15で統合した一つの候補を出力する出力部16とを備える。なお、音声入力部11の代わりに認識対象たる音声の信号を記録したメモリ部を備えても、出力部16の代わりに出力候補を逐次記録する別のメモリ部を備えても良い。
雑音下における音声信号は、雑音のないクリーンな環境の下での音声信号と雑音信号とが混在しているため、従来の一般的な音声認識では音声を正しく認識することが難しい。よって、音響処理部12で求めた音素候補が必ずしも真とはならない。そこで、音響処理部12で求めた音素候補とこの音素候補として誤認されやすい音素とを一つの集合としてグループ化し、これを認識誤りデータ、即ち音素グループ作成データとして音素グループ算出部13に格納しておく。これで、音声信号を音響処理部12で変換した音素候補列を音声認識の結果とせず、認識誤りデータである音素グループ作成データに基づいて真の音素が含まれるように音素グループ列を作成する。音素候補列とは、音声信号を音声発生区間単位で音素候補に直した際、音素候補が時系列に並べられたものをいう。音素グループ列とは時系列に音素グループを並べたものをいう。音素グループ算出部13で音素グループには真の認識結果を含むことになるが、一方で一意に特定されないため曖昧性が生じる。本発明では、この曖昧性を音声以外の情報(「非音声情報」という。)を併用することで解消する。
第1の形態では、非音声情報が認識対象分野の単語、句、文節などのリストの場合である。認識辞書データ格納部14には、単語、句、文節などのリストを格納した認識辞書データを備え、統合部15において、認識辞書データ格納部14中の認識辞書データのそれぞれと音素グループ算出部13で求めた音素グループの組み合わせとのハミング距離を求め、ハミング距離が最小となる語録を認識結果として出力する。
以下、第1の形態を詳しく説明する。
音声入力部11はマイクなどで構成され、入力された音声を音声信号に変換する。音響処理部12では、先ず音声信号をスペクトル解析し言語情報に対応する物理的な特徴、即ち特徴量を求め、次に予め音素毎に声の音響的な特徴を表現した音響モデルを参照しながら入力された音声信号の特徴量と認識候補とを照合し、入力された音声信号の特徴量と類似した認識候補、即ち音素候補を求める。
具体的には、音響処理部12は特徴量抽出部12Aを備え、音声信号を数十ms程度の時間長のフレーム毎に切り出し、この切り出された信号のスペクトル解析を行う。切り出された音声波形はスペクトル包絡とスペクトル微細構造とで構成されるため、例えばケプストラム分析を用いスペクトル包絡を取り出し認識パラメータとして機能する特徴量を抽出する。その際、静的な特徴のほかに、聴覚機構のモデルを加味したMFCC(Mel-Frequency Cepstrum Coefficient)により、スペクトル包絡の時間的な変動を加味して動的な特徴を特徴量に加えてもよい。
音響処理部12には、予め音声データベースを元に学習することで音素毎に作成された音響標準データ(「音響モデル」とも言う。)12Bと候補算出部12Cを備え、候補算出部12Cにおいて、音響標準データ12Bを参照しながら入力された音響信号の特徴量と尤も類似する音素(「最尤音素」という。)を候補として求める。音響標準データ12Bは、時系列信号を表現するのに適した隠れマルコフモデル(HMM:hidden Markov Model)を用いて記述される。隠れマルコフモデルは一般に複数の状態で構成され、状態毎で信号を出力する確率(「出力確率」という。)と状態間を遷移する遷移確率とで示される。音響標準データ12Bは予め音声データベース(図示せず)を元にBaum‐Welch法などで学習して構築される。候補算出部12Cは、特徴量抽出部12Aで特徴量が求められた際に、各HMMについてその時系列信号がHMMから出力される遷移を遷移確率及び出力確率から求め、最も確率が高い事象を認識結果として出力する。音声の特徴量に対する出力確率を複数の正規分布の和で示した混合分布連続型HMMを用いるとよい。
音素グループ算出部13は、音素グループ算出テーブルに基づいて音響処理部12で求めた音素候補から音素グループを算出する。図2は、音素グループ算出テーブルの一例を示す図表であり、認識誤り許容値が5%の場合を示している。各欄における矢印の左側が音素候補、即ち最尤音素を示し、矢印の右側が対応する音素グループを示す。例えば「N→N,u:」の場合、音響処理部12で求めた音素候補が「N」である場合には、音素グループとして「N,u:」を算出する。音声グループ算出テーブルは、認識誤り許容値、即ち、{1−(正解音素数)/(入力音素数)}×100
で定義される値に依存し、異なる。
この音素グループ算出テーブルは例えば以下の手順により作成される。
話者が作成用単語(例えば「勢い」など)を発声し、音声入力部11及び音響処理部12を経ることで対応する音素候補を得る。この処理を多数の作成用単語で行い、正解音素が認識結果音素にどのように配分されて認識されるかをデータ集計する。ここで、話者が発生すべき一連の音素(上記例では“ikioi”)を一連の正解音素とし、音響処理部12での出力結果を一連の認識結果音素と定義する。時間軸上で認識結果音素が正解音素の発声区間に含まれている場合には正解音素と認識結果音素とを対応付けし、それ以外の場合には正解音素の発生開始時間をCt1、発生終了時間Ct2、k番目の認識結果の発生開始時間をRt1(k)、発声終了時間をRt2(k)とし、
d(k)={Rt1(k)−Ct12+{Rt2(k)−Ct22
による二乗誤差を単語に含まれる正解音素毎に繰り返して計算し、d(k)が最小となるkをSとし、S番目の認識結果を最尤候補とし、正解音素と一致するか否かを検討する。その際、正解音素と認識結果音素との間で音素発声区間のアライメントを採り、正解音素と認識結果音素とを対応付けする。アライメントの際、正解区間内に含まれる音素は抽出し、正解音素と対応が取れないものは削除する。
正解音素と認識結果音素との関係を認識率情報として次のように整理する。列要素に正解音素を、行要素に認識結果音素とし、認識率情報(コンフュージョンマトリックス)を作成する。その際、作成用単語の選択の仕方によりバラつきが生じるので、列要素毎に集計した総数に対する各認識結果音素の割合を算出しても、行要素毎に集計した総数で各正解音素の割合を算出してもよいが、認識誤りが現れるように認識率情報を作成する。また、前述のように認識誤り許容値を設定することで、各音素グループ中の要素を減らし、データ処理量を低減することもできる。
図3は認識率情報の具体例を説明する図である。認識結果音素が“y”であったもののうち、正解音素が“i”であったケースが25%含まれており、その逆のケースは0%であった。認識結果音素が“i:”であったケースのうち、正解音素が“i”であるケースが46%含まれており、その逆のケースは0%であった。認識結果音素が“i”であったものでは、正解音素が“i”や“y”のケースが含まれていなかった。つまり、音素“i:”や“y”は音素“i”に認識誤りされることはあるが、逆に、音素“i”は音素“i:”や“y”に誤認されない。一般に、音素Pi(iは任意数)は他の音素Pj(j≠i)に誤認される可能性があるが、他の音素Pj(j≠i)は音素Piに誤認されないことを「音素の認識誤りには方向性がある」と定義する。この誤りの方向性を加味してグルーピングすることを「有向性グルーピング」といい、有向性グルーピングされた音素グループのことを「有向性音素グループ」という。
第1の形態では、音素グループ算出部13には、音素毎に有向性グルーピングした結果を音素グループ算出テーブルとして格納されている。図3に示す具体例では、音素候補 “i”に音素グループ{i}を対応させ、音素候補“i:”に音素グループ{i,i:}を対応させ、音素候補 “y”に音素グループ{y,i}を対応させる。つまり、音素候補毎に音素グループが異なる。これに対し、例えば音素候補“i”、“i:”、“y”に同一の音素グループ{i、i:、y}を対応させるように、類似性が高い音素同士を同一の音素グループとする無向性グループは採用しても良いが、不要な処理を行うことになる。
認識辞書データ格納部14は、例えば「勢い」と“ikioi”との対のように単語と音素との対で構成された単語辞書が、音声認識の対象分野の大規模なテキストデータから構築されている。
統合部15は、音素グループ算出部13から入力された音素グループで構成された音素グループ列と認識辞書データ格納部14に格納された認識辞書データのそれぞれとハミング距離を計算し、ハミング距離が最小となるものを認識結果として求める。即ち、図1の統合部15のブロック内に模式的に示すように、統合部15は、「PG」で模式的に示す音素グループが音素グループ算出部13の処理に対応して入力され、一連の音素グループ、即ち音素グループ列が生じる。この音素グループ列と認識辞書データ格納部14にリストアップされた各単語とのハミング距離を照合部15Aで計算し、ハミング距離が最小となる語録を抽出する。
図4は、統合部15における処理内容を示し、(A)は処理前の内容を音声波形と共に、(B)は処理後内容を音素波形と共に示す図である。音素グループ算出部13から、音声波形に対応して音素発声区間毎に{b,g,y,r}、{o,e}、{p,h,k,t}、{i,u}、{m,n}、{o,e}、{b,g,y,r}、{i,u}、{m,n}、{o,e}が入力される。この入力された音素グループ列と認識辞書データ格納部14にリストされた単語などの語彙の音素列とのハミング距離を計算し、ハミング距離が最小となるようなリストを選択する。図示した場合には、単語辞書データ中にリストアップされている「僕の夢:bokunoyume」とのハミング距離が最小となるため、音素グループ算出部13から順次入力された音素グループから「bokunoyume」に統合される。
上述のように音響処理部12において音素毎に音響モデルを構築し、音素グループ算出部13において音素グループ算出テーブルを求める際にはオーバーラッピング音素グルーピングを採用しているが、これに限らず、心理物理実験や工学的アプローチとして音響モデル距離を用いて音素グループ単位で音響モデルを構築するエクスクルーシブ音素グルーピングを採用してもよい。また、N-best音素グルーピングを行う際には、音素認識の出力スコアの高い順、即ち、正解率の高い順に複数の音声認識を出力させ、認識結果の各音素に対してアライメントを取り、上位N種類の音素を抽出して音素グループを構築しても良い。これら音素グループ算出テーブルの作成の仕方については他の形態でも同様である。
(第2の形態)
図5は、第2の形態に係る音声認識装置20の機能ブロック構成図である。
第2の形態に係る音声認識装置20は、図5に示すように、話者からの音声を音声信号に変換する音声入力部11と、音声信号を音響処理して音素候補を求める音響処理部12と、音響処理部12で求めた音素候補から認識誤りデータに基づいて音素グループを算出する音素グループ算出部13と、話者の口周りの映像を撮像する画像入力部21と、画像入力部21から入力された撮像データから口唇情報に加工する画像処理部22と、音素グループ算出部13で算出された音素グループから曖昧性解消情報として口唇情報に基づいて一つの候補に統合する統合部25と、音声認識装置20における認識結果として統合部25で統合した一つの候補を出力する出力部16とを備える。音声入力部11や画像入力部21の代わりに、認識対象たる音声の信号及びこの音声信号と対をなす話者の口唇画像を例えば時間データを付属情報として付けることで対応させて記録したメモリ部を備え、出力部16の代わりに出力候補を逐次記録する別のメモリ部を備えても良い。
第2の形態では、音素グループとして認識させることで生じる曖昧性を曖昧性解消情報として話者の唇画像情報を用いて解決する。図6は第2の形態における画像処理部22での処理の様子を示し、(A)は音声入力部11で形成された音声波形、(B)は画像処理部22での処理を模式的に示す図である。両図においてt1〜t3は時間軸である。
画像入力部21は、CCDカメラなどの撮像素子で構成される。画像処理部22は、図6(A)に示す音声波形に対応して図6(B)に示すように画像入力部21から入力された撮像データから口唇画像を切り出し、その撮像時間を付属情報として付け口唇画像情報として統合部25に出力する。この際、話者の唇の縦方向や横方向の長さを特徴量とし、口唇画像情報の代わりに特徴量を撮影時間と対にして口唇情報として統合部25に入力しても良い。なお、口唇情報は、単に口唇画像情報であっても、口唇画像情報から特徴を取り出した特徴量であってもよい。
統合部25は、図5に示すように、音素グループ毎に口唇情報から音素を特定するよう事前学習された識別器25A、25B、25Cを備える。各識別器25A,25B,25Cは、例えばサポートベクターマシンにより構成され、音素グループ毎に事前学習されている。音素グループ毎に識別器25A,25B,25Cを備えていることで、分類されるクラス数を減らし、認識精度を向上させることができる。
よって、統合部25には、例えば図7に示すように{/m/,/n/}で構成された第1の音素グループ(「PG1」と模式的に図示)とこの第1の音素グループの元となる音声が発声された際の口唇情報とが第1の音素グループ用の識別器25Aに入力され、第1の音素グループの中から口唇情報と符合する音素/n/を出力する。
以上のように第2の形態における統合部25では、図5に示すように、音素グループ算出部13から入力された音素グループPG1,PG2,PG3がそれぞれ対応するPG1用の識別器25A,PG2用の識別器25B,PG3用の識別器25Cに入力され、また、画像処理部22から口唇情報が入力される。よって、各識別器25A,25B,25Cにおいて各音素グループPG1,PG2,PG3と対応する口唇情報とを音声入力部11及び画像入力部時間21に入力された時間でアライメントをとり、各音素グループPG1,PG2,PG3の中から音素Pを抽出する。
(第3の形態)
第2の形態の変形例として第3の形態を説明する。
図8は第3の形態に係る音声認識装置30の機能ブロック構成図で、図9は統合部35での処理を模式的に示す図である。第3の形態に係る音声認識装置30は、図8に示すように、第2の形態に係る音声認識装置20に、図1に示す認識辞書データ格納部14を備え、統合部35の照合部15Aで認識辞書データ格納部14に格納されている認識辞書データと照合するよう構成されている。
統合部35では、例えば図9に示すように、例えば{/b/,/g/,/y/,/r/}で構成された第1の音素グループ(「PG1」と図示)とこの第1の音素グループの元となる音声が発声された際の口唇情報とが第1の音素グループ用の識別器25Aに入力され、第1の音素グループの中から口唇情報と符合する{/g/,/y/,/r/}でなる音素サブグループ(「SG1」と図示)を出力する。つまり、識別器25Aでは、音素グループ内からどの音素サブグループかを口唇情報から判断して出力する。
よって、第3の形態に係る音声認識装置30では、図8に示すように、統合部35における各識別器25A,25B,25Cから一意に音素を特定されず音素サブグループ(SG1,SG2,SG3と図示)が出力されても、照合部15Aにおいて、音素サブグループでなる列と認識辞書データ格納部14中の各リストとハミング距離を計算し、最小となる語録を認識結果として統合部35から出力する。
(第4の形態)
第3の形態の変形例として第4の形態を説明する。
図10は第4の形態に係る音声認識装置40の機能ブロック構成図で、図11は統合部45での処理を模式的に示す図である。
第4の形態に係る音声認識装置40は、図10に示すように、第3の形態に係る音声認識装置20において音響処理部12で得られた音素候補が統合部45に入力され、統合部45において音素グループ内から口唇情報に基づいて特定する際、音響処理部12から入力された音素候補から優先的に照合可能に構成されている。
統合部45では、例えば図11に示すように、例えば{/m/,/n/}で構成された第1の音素グループ(「PG1」と図示)とこの第1の音素グループの元となる音声が発声された際の口唇情報と音響処理部12から入力された音素候補/m/が第1の音素グループ用の識別器25Aに入力され、第1の音素グループの中から口唇情報と音素候補/m/とから音素/m/を優先的に判別して出力する。
よって、第4の形態に係る音声認識装置40では、図10に示すように、音素グループ算出部13から入力された音素グループPG1,PG2,PG3がそれぞれ対応するPG1用の識別器25A、PG2用の識別器25B、PG3用の識別器25Cに入力されるだけでなく、各識別器25A,25B,25Cには音響処理部12から音素候補も入力されるので、識別器25A,25B,25Cは、音素候補に基づいて音素グループの中で重み付けして優先的に照合する。つまり、各識別器25A,25B,25Cは、画像処理部22から口唇情報が入力されるので、各識別器25A,25B,25Cにおいて各音素グループPG1,PG2,PG3と対応する口唇情報とを音声入力部11及び画像入力部時間21に入力された時間でアライメントをとり、各音素グループPG1,PG2,PG3の中から音響処理部12から入力された音素候補から順に照合し、もっとも符合する音素Pを抽出する。
また、識別器25A,25B,25Cには音響処理部12から音素候補だけでなく、音素認識の結果を入力してもよい。その際、音素認識は、前述のような認識辞書ではなく音素とモーラとで記述された辞書と、音素列とモーラ列とで規定された言語モデルを用いて行う。
(第5の形態)
図12は、第5の形態に係る音声認識装置50の機能ブロック構成図である。
第5の形態に係る音声認識装置50は、図5に示す第2の形態とは、口形素グループ作成部53を備える点で異なり、統合部55の機能の点でも異なっている。具体的には、口形素グループ作成部53には、予め口唇情報がどの口形素(viseme)グループに対応するかを示す口形素グループ算出テーブルを備え、画像処理部22からの口唇情報と口形素算出テーブルとから口形素グループを認定する。ここで、口形素とは視覚素とも呼ばれ、口唇の開き具合を視覚的には区別はできず、聴覚によって区別さえるような音韻をいう。例えば“bat”と“pat”の単語を構成する/b/と/p/や、例えば/a/と/a:/のように長音と短音が同一の口形素グループの要素となる。
統合部55には、音素グループ算出部13で算出された音素グループと口形素グループ算出部54で算出された口形素グループとが、音声入力部11及び画像入力部21にそれぞれ音声及び画像が入力されたときの時間データとともに入力される。統合部55では、入力された音素グループ及び口形素グループの各時間データを元にアライメントを行い、音素発声区間単位で、音素グループ及び口形素グループの何れにも該当する要素を抽出することで、一つの候補に統合する。
第5の形態では、音素グループとして再構築することで生じる曖昧性を、曖昧性解消情報として音響処理される音声信号と対をなす話者の口唇画像情報から作成された口形素グループを用いて解決する。
以上のように第5の形態における統合部55では、図12に示すように、音素グループ算出部13から入力された音素グループPG1,PG2,PG3と、口形素グループ算出部53から入力された口形素グループVG1,VG2,VG3,VG4とから、時間データを元にアライメントをとり、音素グループPG1,PG2,PG3から口形素グループVG1,VG2,VG3,VG4に含まれる音素Pに統合する。
図13は、図12に示す統合部55における処理内容の具体例を示す図で、(A)は音声波形と音素グループ、(B)は口形素グループ、(C)は統合結果を示す図である。横軸が時間軸である。音素グループ算出部13から、音声波形に対応して音素発声区間毎に{b,g,y,r}、{o,e}、{p,h,k,t}、{i,u}、{m,n}、{o,e}、{b,g,y,r}、{i,u}、{m,n}、{o,e}の音素グループ列が入力される。一方、口形素グループ算出部53から、{b,p,m}、{a,u,o}、{k,g,n,t,d,y}、{a,u,o}、{k,g,n,t,d,y}、{a,u,o}、{k,g,n,t,d,y}、{a,u,o}、{b,p,m}、{i,e}の口形素グループ列が入力される。よって音素グループの中から音声発声区間毎に口形素グループに含まれる音素に統合し、「bokunoyume」を出力する。
(第6の形態)
第6の形態は、第5の形態において第1の形態における認識辞書データ格納部14を備える点で異なる。図14は第6の形態に係る音声認識装置60の機能ブロック構成の一部を示す図である。図12に示す音声入力部11、音響処理部12、画像入力部21及び画像処理部22は省略してある。
第6の形態における統合部65では、図14に示すように、音素グループ算出部13から入力された音素グループPG1,PG2,PG3と、口形素グループ算出部53から入力された口形素グループVG1,VG2,VG3,VG4とから、時間データを元にアライメントをとり、音素グループPG1,PG2,PG3から口形素グループVG1,VG2,VG3,VG4に含まれる音素サブグループ(記号SG1、SG2、SG3で図示している。)を作成する。そして、照合部15Aにおいて音素サブグループでなる列と認識辞書データ格納部14中の各リストとハミング距離を計算し、最小となる語録を認識結果として統合部65から出力する。
以上、実施の形態について説明したが、それ以外の組み合わせも本発明の範囲に含まれることは言うまでもない。また、各形態に係る音声認識装置10〜60は、コンピュータの記憶部に上記各ブロックの機能を実現するようプログラミングされたソフトウェアを搭載し、CPUで実行処理されることで構築される。その際、マイクなどの音声入力装置などの出入力インタフェースを備えることが必要となる。

Claims (5)

  1. 音声信号を音響処理して音素候補を求める音響処理部と、上記音響処理部で求めた音素候補及びこの音素候補と誤認されやすい音素を音素グループとして算出する音素グループ算出部と、画像入力部から入力された撮影データから口唇情報を取り出す画像処理部と、上記音素グループ算出部で算出された音素グループから曖昧性解消情報に基づいて一つの候補に統合する統合部と、を備え、
    上記統合部は、音素グループ毎に曖昧性解消情報としての口唇情報から音素を特定するように学習された識別器を備え、上記音素グループ算出部から上記識別器に音素グループが順に入力され、上記画像処理部から上記識別器に口唇情報が順に入力され、上記識別器が、入力された音素グループ及び口唇情報を時間軸上でアライメントをとり、入力された音素グループの中から口唇情報と符合する音素を順に出力する、音声認識装置。
  2. さらに、単語と音素とが対応するように構築した認識辞書データを格納する認識辞書データ格納部を備え、
    前記統合部は、上記認識辞書データ格納部に格納されている認識辞書データと照合する照合部を備え、
    前記識別器が、前記音素グループ算出部から音素グループの入力を受け、音素グループにおいて一つの音素に特定されず複数の音素を含む音素サブグループを出力した場合には、上記照合部は、上記識別器から音素サブグループの入力を受け、上記認識辞書データ格納部の認識辞書データの各リストとハミング距離を計算し最小となる語録を認識結果として出力する、請求項1に記載の音声認識装置。
  3. 前記音響処理部で求めた音素候補が前記統合部に入力され、
    前記統合部は、音素グループ内から口唇情報に基づいて音素を特定する際、前記音響処理部から入力された音素候補から音素と口唇情報とを優先的に照合する、請求項1又は2に記載の音声認識装置。
  4. 音声信号を音響処理して音素候補を求める音響処理部と、上記音響処理部で求めた音素候補及びこの音素候補と誤認されやすい音素を音素グループとして算出する音素グループ算出部と、画像入力部から入力された撮影データから口唇情報を取り出す画像処理部と、上記画像処理部から入力された、上記音響処理部で音響処理される音声信号と対をなす話者の口唇情報から口形素グループを算出する口形素グループ算出部と、上記音素グループ算出部で算出された音素グループから曖昧性解消情報に基づいて一つの候補に統合する統合部と、を備え、
    上記口形素グループ算出部は、曖昧性解消情報としての口唇情報がどの口形素グループに対応するかを示す口形素グループテーブルを備え、
    上記音素グループ算出部から上記統合部に音素グループが順に入力され、上記口形素グループ算出部から上記統合部に口形素グループが順に入力され、上記統合部が、入力された音素グループ及び口形素グループを時間軸上でアライメントをとり、音素発生区間単位で、入力された音素グループ及び口形素グループの何れにも属するものを抽出する、音声認識装置。
  5. さらに、単語と音素とが対応するように構築した認識辞書データを格納する認識辞書データ格納部を備え、
    前記統合部は、上記認識辞書データ格納部に格納されている認識辞書データと照合する照合部を備え、
    前記統合部は、入力された音素グループ及び口形素グループを時間軸上でアライメントをとり、音素発生区間単位で、入力された音素グループのうち入力された口形素グループに含まれるものを音素サブグループとして作成し、上記照合部において音素サブグループでなる列と上記認識辞書データ格納部の認識辞書データの各リストとハミング距離を計算し最小となる語録を認識結果として出力する、請求項4に記載の音声認識装置。
JP2008508661A 2006-03-30 2007-03-30 音声認識装置 Expired - Fee Related JP5257680B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US78723106P 2006-03-30 2006-03-30
US60/787,231 2006-03-30
PCT/JP2007/057127 WO2007114346A1 (ja) 2006-03-30 2007-03-30 音声認識装置

Publications (2)

Publication Number Publication Date
JPWO2007114346A1 JPWO2007114346A1 (ja) 2009-08-20
JP5257680B2 true JP5257680B2 (ja) 2013-08-07

Family

ID=38563614

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008508661A Expired - Fee Related JP5257680B2 (ja) 2006-03-30 2007-03-30 音声認識装置

Country Status (2)

Country Link
JP (1) JP5257680B2 (ja)
WO (1) WO2007114346A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8635066B2 (en) * 2010-04-14 2014-01-21 T-Mobile Usa, Inc. Camera-assisted noise cancellation and speech recognition
US10741182B2 (en) 2014-02-18 2020-08-11 Lenovo (Singapore) Pte. Ltd. Voice input correction using non-audio based input
US9870500B2 (en) 2014-06-11 2018-01-16 At&T Intellectual Property I, L.P. Sensor enhanced speech recognition
CN106875941B (zh) * 2017-04-01 2020-02-18 彭楚奥 一种服务机器人的语音语义识别方法
JP7347511B2 (ja) * 2019-08-02 2023-09-20 日本電気株式会社 音声処理装置、音声処理方法、およびプログラム

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02239290A (ja) * 1989-03-13 1990-09-21 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識装置
JPH0398098A (ja) * 1989-09-11 1991-04-23 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識装置
JPH07306692A (ja) * 1994-05-13 1995-11-21 Matsushita Electric Ind Co Ltd 音声認識装置及び音声入力装置
JPH09325793A (ja) * 1996-06-05 1997-12-16 Oki Electric Ind Co Ltd 音声認識方法及び装置
JPH1185190A (ja) * 1997-09-05 1999-03-30 Matsushita Electric Ind Co Ltd 音声認識装置及び音声認識方法
JP2001051693A (ja) * 1999-08-12 2001-02-23 Fuji Xerox Co Ltd 発話認識装置、発話認識方法、および発話認識方法を記録したコンピュータ・プログラム記録媒体

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0883092A (ja) * 1994-09-14 1996-03-26 Nippon Telegr & Teleph Corp <Ntt> 情報入力装置及び情報入力方法
JPH09160589A (ja) * 1995-12-06 1997-06-20 Matsushita Electric Ind Co Ltd 利用者照合装置
JPH11149296A (ja) * 1997-09-10 1999-06-02 Oki Electric Ind Co Ltd 単語認識装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH02239290A (ja) * 1989-03-13 1990-09-21 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識装置
JPH0398098A (ja) * 1989-09-11 1991-04-23 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識装置
JPH07306692A (ja) * 1994-05-13 1995-11-21 Matsushita Electric Ind Co Ltd 音声認識装置及び音声入力装置
JPH09325793A (ja) * 1996-06-05 1997-12-16 Oki Electric Ind Co Ltd 音声認識方法及び装置
JPH1185190A (ja) * 1997-09-05 1999-03-30 Matsushita Electric Ind Co Ltd 音声認識装置及び音声認識方法
JP2001051693A (ja) * 1999-08-12 2001-02-23 Fuji Xerox Co Ltd 発話認識装置、発話認識方法、および発話認識方法を記録したコンピュータ・プログラム記録媒体

Non-Patent Citations (6)

* Cited by examiner, † Cited by third party
Title
CSNC201100855079; 山本和泉 他: '"恒等写像ニューラルネットを用いた日本語音素の認識"' 日本音響学会平成4年度秋季研究発表会講演論文集-I- , 19921005, p.153-154 *
CSNG200401713003; 石原一志 他: '"日本語の音節構造に着目した環境音の擬音語への変換"' 電子情報通信学会技術研究報告 Vol.103,No.154, 20030619, p.19-24 *
CSNJ200710007134; 隅谷亮太 他: '"有向性音素グルーピングを用いた音声認識におけるロバスト性向上の検討"' 電子情報通信学会2006年総合大会講演論文集 情報・システム1, 20060308, p.134 *
JPN6012009333; 隅谷亮太 他: '"有向性音素グルーピングを用いた音声認識におけるロバスト性向上の検討"' 電子情報通信学会2006年総合大会講演論文集 情報・システム1, 20060308, p.134 *
JPN6012009335; 石原一志 他: '"日本語の音節構造に着目した環境音の擬音語への変換"' 電子情報通信学会技術研究報告 Vol.103,No.154, 20030619, p.19-24 *
JPN6012009337; 山本和泉 他: '"恒等写像ニューラルネットを用いた日本語音素の認識"' 日本音響学会平成4年度秋季研究発表会講演論文集-I- , 19921005, p.153-154 *

Also Published As

Publication number Publication date
JPWO2007114346A1 (ja) 2009-08-20
WO2007114346A1 (ja) 2007-10-11

Similar Documents

Publication Publication Date Title
US10074363B2 (en) Method and apparatus for keyword speech recognition
US9646605B2 (en) False alarm reduction in speech recognition systems using contextual information
US9640175B2 (en) Pronunciation learning from user correction
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
JP6154155B2 (ja) プロミネンスを使用した音声対話システム
KR101153078B1 (ko) 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델
JP4340685B2 (ja) 音声認識装置及び音声認識方法
JP5753769B2 (ja) 音声データ検索システムおよびそのためのプログラム
JP5257680B2 (ja) 音声認識装置
CN115312030A (zh) 虚拟角色的显示控制方法、装置及电子设备
US20170270923A1 (en) Voice processing device and voice processing method
Alharbi et al. Automatic recognition of children’s read speech for stuttering application
JP2001343992A (ja) 音声パターンモデル学習装置、音声パターンモデル学習方法、および音声パターンモデル学習プログラムを記録したコンピュータ読み取り可能な記録媒体、ならびに音声認識装置、音声認識方法、および音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体
Azim et al. Large vocabulary Arabic continuous speech recognition using tied states acoustic models
JP2745562B2 (ja) ノイズ適応形音声認識装置
JP2009116075A (ja) 音声認識装置
JP5703747B2 (ja) 音声認識装置,および音声認識プログラム
JP3378547B2 (ja) 音声認識方法及び装置
JP2011180308A (ja) 音声認識装置及び記録媒体
JP2005283646A (ja) 音声認識率推定装置
JP2002372988A (ja) 認識辞書作成装置及び棄却辞書及び棄却辞書の生成方法
JP6199994B2 (ja) コンテキスト情報を使用した音声認識システムにおける誤警報低減
Raj et al. Design and implementation of speech recognition systems
Furui Speech-based interfaces
JP2004309654A (ja) 音声認識装置

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091127

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20091127

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120228

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120427

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20121204

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20130115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130402

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130410

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20160502

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Ref document number: 5257680

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

LAPS Cancellation because of no payment of annual fees