JP6599914B2

JP6599914B2 - 音声認識装置、音声認識方法およびプログラム

Info

Publication number: JP6599914B2
Application number: JP2017045210A
Authority: JP
Inventors: 貴史益子
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2017-03-09
Filing date: 2017-03-09
Publication date: 2019-10-30
Anticipated expiration: 2037-03-09
Also published as: US20180261210A1; US10553205B2; JP2018151413A; CN108573713B; CN108573713A

Description

本発明の実施形態は、音声認識装置、音声認識方法およびプログラムに関する。

フィラー、非流暢性および非言語音を、音韻と同時に評価することができる音響モデルが知られている。このような音響モデルを用いた音声認識システムでは、フィラー、非流暢性および非言語音を除去して音声認識することができるので、認識精度を高くすることができる。

しかし、フィラー、非流暢性および非言語音を正しく認識するためには、認識辞書として機能する探索モデルに、フィラー、非流暢性および非言語音等を含む語断片を単語として予め登録してなければならなかった。このため、従来の音声認識システムでは、このような語断片を探索モデルに単語として登録するための処理に非常に大きなコストがかかってしまっていた。

那須悠、藤村浩司、「ＬＳＴＭ−ＣＴＣを用いた音響イベント検出・除去音声認識システムの検討」、電子情報通信学会、信学技報Ｖｏｌ．１１６Ｎｏ．２０８、ＰＲＭＵ２０１６−６９、ｐ．１２１−１２６、２０１６年９月

本発明が解決しようとする課題は、音韻とともに、フィラー、非流暢性および非言語音を含む音声信号を小さいコストで精度良く認識することにある。

実施形態に係る音声認識装置は、音声信号に含まれる言語情報を表す出力記号を出力する。前記音声認識装置は、算出部と、探索部とを備える。前記算出部は、前記音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含むスコアベクトルが並んだスコアベクトル列を算出する。前記探索部は、予め登録された探索モデルを探索することにより前記スコアベクトル列における尤もらしい前記音響スコアが得られる前記入力記号を辿る経路を検出し、前記探索モデルにおける検出した経路に割り当てられた前記出力記号を出力する。前記記号集合は、認識対象の音韻を表す認識対象記号と、フィラー、非流暢性および非言語音の少なくとも１つを表す付加記号とを、前記入力記号として含む。前記探索モデルは、１以上の前記入力記号が並んだ入力記号列と、前記出力記号とが割り当てられた複数の経路を含む。前記探索部は、尤もらしい前記音響スコアが得られる前記入力記号として、前記付加記号を受理した場合、受理した前記付加記号を含む前記スコアベクトルの次の前記スコアベクトルから、新しい前記出力記号に対応する経路の探索を開始する。

実施形態に係る音声認識装置の構成図。スコア算出部の構成の一例を示す図。探索部の処理フローを示す図。英語の音声を認識するための探索モデルを示す図。付加記号を受理した場合に開始点に遷移させる探索モデルを示す図。付加記号を表す記号を出力する探索モデルを示す図。入力記号列を出力する探索モデルを示す図。経路に割り当てられている出力記号を出力する探索モデルを示す図。確定していれば出力記号を出力する探索モデルを示す図。付加記号を受理した場合に終了点に遷移させる探索モデルを示す図。日本語の音声を認識するための探索モデルを示す図。付加記号を受理した場合に開始点に遷移させる探索モデルを示す図。付加記号を表す記号を出力する探索モデルを示す図。入力記号列を出力する探索モデルを示す図。経路に割り当てられている出力記号を出力する探索モデルを示す図。確定していれば出力記号を出力する探索モデルを示す図。付加記号を受理した場合に終了点に遷移させる探索モデルを示す図。音声認識装置のハードウェアブロック図。

以下、図面を参照しながら実施形態について詳細に説明する。本実施形態に係る音声認識装置１０は、音韻とともに、フィラー、非流暢性および非言語音を含む音声信号を、小さいコストで精度良く音声認識する。そして、音声認識装置１０は、音声認識して得られた言語情報を表す出力記号を出力する。

（定義）
まず、実施の形態で用いる用語について説明する。

音響情報とは、音声信号に含まれる情報である。音響情報には、音韻、フィラー、非流暢性、非言語音および無音情報が含まれる。

音韻は、話し手が言語を発声することにより音声信号に付加した、言語を表す音の単位である。例えば、音韻は、音素、音節、モーラ単位でまとめた音素、サブワード、文字、単語等である。日本語の場合、音韻は、仮名であってよい。また、英語の場合、音韻は、発音記号であってもよいし、アルファベットであってもよい。日本語の促音のような無音も音韻に含まれる場合がある。

フィラーは、話の調子を整えたり、思考の中断または思考の遅れに伴って言葉の途中に挿入されたり、言葉の続きを知らせたりする間投詞的な音である。

非流暢性は、発話の失敗等のために言い淀んだり、同じ用語または表現を言い直したり、同じ用語または表現を繰り返したりした場合に、音声信号に含まれる音である。例えば、話し手は、次に現れる単語の一部を発話した後、改めて言い直したり、文の一部を途中で中断して言い直したりする場合がある。言い直しおよび繰り返しをした場合に音声信号に含まれる音の多くは、次に現れる単語の接頭の発音の一部、その類似の音、または、意味的に類似の単語の一部である。このような音が表す情報は、文法的には無意味な語断片であることが多く、認識結果から取り去っても、意味内容に影響を与えない場合が多い。このような音を、非流暢性という。

非言語音は、咳、くしゃみ、あくび、笑い声、泣き声、呼吸音等の音であり、話し手が言語を発声する場合には発生されない音である。

無音情報は、音声信号に音韻、フィラー、非流暢性および非言語音の何れも含まれない状態において音声信号に含まれる音（例えば無音および雑音）を表す情報である。

入力記号は、音響情報を表す記号である。記号集合は、入力記号を要素とする集合である。記号集合は、予め定義されている。記号集合は、入力記号として、少なくとも１つの認識対象記号と、少なくとも１つの付加記号と、対象外記号とを含む。

認識対象記号は、認識対象の音韻を表す記号である。記号集合は、音声信号に含むことが可能な全ての音韻に対応する文字（例えば、全ての発音記号）を、認識対象記号として含んでよい。また、音声認識装置１０が特定の単語のみを認識する場合（例えば「こんにちは」のみを認識する場合）、特定の単語を認識するために必要な音韻に対応する文字を、認識対象記号として含んでもよい。無音情報を認識する場合には、認識対象記号の一つとして、無音情報を表す無音記号を認識対象記号に含んでもよい。

付加記号は、入力記号の一つであり、フィラー、非流暢性および／または非言語音を表す記号である。記号集合は、フィラー、非流暢性および非言語音のそれぞれを表す３種類の付加記号を含んでよい。記号集合は、フィラー、非流暢性および非言語音のうち、何れか１つまたは２つのそれぞれを表す１または２種類の付加記号を含んでもよい。また、記号集合は、フィラー、非流暢性および非言語音のうちの２つまたは３つをまとめて表す付加記号を含んでもよい。また、記号集合は、非言語音を表す付加記号として、咳、くしゃみ、あくび、笑い声、泣き声および呼吸音等のそれぞれを表す異なる記号を含んでもよい。

対象外記号は、入力記号の一つであり、認識対象記号および付加記号が表す音響情報のうち、いずれの音響情報が音声信号に含まれているかが未定であることを表す記号である。つまり、対象外記号は、音声認識装置１０が認識対象記号または付加記号をまだ認識できないことを表す記号である。

入力記号列は、音声信号を認識して得られる尤もらしい入力記号の系列である。音声認識装置１０は、１つの音声信号に対して、１個の入力記号列を生成してよい。また、音声認識装置１０は、１つの音声信号に対して、Ｍ個（Ｍは２以上の整数）の入力記号列を生成してもよい。

出力記号は、音声信号の認識結果である言語情報を表す。出力記号は、単語、文字、サブワード等であってよい。出力記号は、入力記号列に含まれる認識対象記号に基づき生成される。音声認識装置１０は、１個の入力記号列から時系列に並んだ複数の出力記号を生成してもよい。

（音声認識装置１０の説明）
図１は、実施形態に係る音声認識装置１０の構成を示す図である。音声認識装置１０は、特徴抽出部２２と、音響モデル記憶部２４と、スコア算出部２６と、探索モデル記憶部２８と、探索部３０とを備える。

特徴抽出部２２は、認識対象の音声信号を取得する。特徴抽出部２２は、例えば集音装置により検出された音声信号を取得する。

特徴抽出部２２は、フレーム毎に音声信号を解析して、フレーム毎に特徴ベクトルを算出する。特徴ベクトルは、音声の特徴を表す複数種類の特徴量を含む。フレームは、１つの特徴ベクトルを算出するための音声信号の区間である。フレームは、中心時刻が所定間隔毎にずれるように設定される。また、複数のフレームは、例えば互いに同一の時間長である。それぞれのフレームは、他のフレームと一部の区間が重なってもよい。

音響モデル記憶部２４は、音響モデルを記憶する。音響モデルは、音声信号をパターン認識するためにスコア算出部２６により用いられるデータである。音響モデルは、音声認識装置１０による音声信号の認識に先だって、学習装置により適切に訓練されている。音響モデル記憶部２４は、例えばネットワーク上のサーバにより実現されてもよい。

スコア算出部２６は、特徴抽出部２２によりフレーム毎に算出された特徴ベクトルに基づき、音響モデル記憶部２４に記憶された音響モデルを用いて、複数のスコアベクトルが並んだスコアベクトル列を算出する。それぞれのスコアベクトルは、予め定められた記号集合の要素である入力記号毎の音響スコアを含む。

スコアベクトルに含まれるそれぞれの音響スコアは、何れかの入力記号に対応している。音響スコアは、対応する入力記号により表される音響情報が、音声信号に含まれている尤もらしさを表す。なお、音声信号に含まれている音響情報と、入力記号が表す音響情報とは、フレーム同期（時間同期）していなくてよい。すなわち、入力記号が表す音響情報は、音声信号に含まれている音響情報から遅延してもよい。例えば、１５番目のフレームの特徴ベクトルの入力によってスコア算出部２６が計算するスコアベクトルに含まれる音響スコアのうち、最も良い音響スコアが対応する入力記号が表す音響情報が、１〜１０番目のフレームに含まれていてもよい。

例えば、音響スコアは、対応する入力記号により表される音響情報が、音声信号に含まれている確率、尤度、対数尤度または対数確率であってよい。音響スコアは、値が大きい程、良い（すなわち、尤もらしい）ことを示してもよいし、値が小さい程、良いことを示してもよい。例えば、音響スコアは、確率、尤度、対数確率または対数尤度である場合には、値が大きい程、良いことを示す。また、例えば、音響スコアは、符号を反転した対数確率または符号を反転した対数尤度である場合には、値が小さい程、良いことを示す。また、音響スコアは、音声信号（特徴ベクトル）と音響モデルとの何らかの距離を音響スコアとする場合には、値が小さい程、良いことを示す。

スコアベクトル列は、複数のスコアベクトルが並んだ情報である。スコア算出部２６は、算出したスコアベクトル列を探索部３０に与える。なお、特徴抽出部２２およびスコア算出部２６は、音声信号に基づきスコアベクトル列を算出する算出部に対応する。

探索モデル記憶部２８は、探索モデルを記憶する。探索モデルは、１以上の入力記号が並んだ入力記号列と、出力記号とが割り当てられた複数の経路を含む。探索モデルは、スコアベクトル列から入力記号列および出力記号を生成するためのデータであって、探索部３０により用いられる。探索モデルは、例えば、重み付き有限状態トランスデューサ（ＷＦＳＴ）である。探索モデルは、音声認識装置１０による音声信号の認識に先だって、学習装置により適切に訓練されている。探索モデル記憶部２８は、例えばネットワーク上のサーバにより実現されてもよい。

探索部３０は、探索モデル記憶部２８に記憶された探索モデルを探索することにより、スコア算出部２６により算出されたスコアベクトル列における尤もらしい音響スコアが得られる入力記号を辿る経路を検出する。探索部３０は、探索モデルにおける検出した経路に割り当てられた入力記号列および出力記号を取得する。そして、探索部３０は、探索モデルにおける検出した経路に割り当てられた出力記号を出力する。

さらに、探索部３０は、探索モデルの探索中において、尤もらしい音響スコアが得られる入力記号として、付加記号を受理した場合、受理した付加記号を含むスコアベクトルの次のスコアベクトルから、新しい出力記号に対応する経路の探索を開始する。すなわち、探索部３０は、探索モデルの探索中において、尤もらしい音響スコアが得られる入力記号として、付加記号を受理した場合、現在の経路の探索を終了して、次の経路の探索を開始する。

図２は、スコア算出部２６の構成の一例を示す図である。スコア算出部２６は、例えば図２に示すような、コネクショニスト時系列分類法（ＣＴＣ）を適用した再帰型ニューラルネットワーク（ＲＮＮ）であってよい。

例えば、スコア算出部２６は、入力層４２と、少なくとも１つの中間層４４と、出力層４６とを有する。入力層４２、中間層４４および出力層４６のそれぞれは、少なくとも１つの信号の取得処理、取得した信号に対する演算処理、および、少なくとも１つの信号の出力処理を実行する。

入力層４２と、少なくとも１つの中間層４４と、出力層４６とは、直列に接続される。入力層４２は、特徴ベクトルを受け取り、演算処理を実行する。そして、入力層４２は、演算結果として得られた少なくとも１つの信号を、次段の中間層４４へ出力する。また、それぞれの中間層４４は、前段から受け取った少なくとも１つの信号に対して演算処理を実行する。そして、それぞれの中間層４４は、演算結果として得られた少なくとも１つの信号を、次段の中間層４４または出力層４６へと出力する。さらに、それぞれの中間層４４は、自身への信号を帰還させる帰還路を有してもよい。

出力層４６は、前段の中間層４４から受け取った信号に対して演算処理を実行する。そして、出力層４６は、演算結果としてスコアベクトルを出力する。出力層４６は、入力記号の数分の信号を出力する。出力層４６は、出力する信号が、入力記号のそれぞれに対応付けられている。例えば、出力層４６は、ソフトマックス関数による演算を実行する。

また、それぞれの層が演算処理に用いるパラメータは、音響モデル記憶部２４に記憶された音響モデルから与えられる。音響モデルは、特徴ベクトルに基づき、予め定められた記号集合に含まれるそれぞれの入力記号の音響スコアを出力するように、予め学習装置により訓練されている。すなわち、音響モデルは、認識対象の音韻を表す少なくとも１つの認識対象記号、フィラー、非流暢性および／または非言語音の少なくとも１つを表す付加記号、および、認識対象外の音響スコアを表す対象外記号のそれぞれの音響スコアを出力するように、学習装置により訓練されている。

これにより、スコア算出部２６は、記号集合に含まれるそれぞれの入力記号についての音響スコアを同時に出力することができる。つまり、スコア算出部２６は、認識対象記号、付加記号および対象外記号のそれぞれについての音響スコアを同時に出力することができる。

なお、スコア算出部２６は、ＲＮＮに代えて、ＲＮＮを拡張した長・短期記憶（Long Short−Term Memory）と呼ばれるネットワークであってもよい。また、出力層４６は、ソフトマックス関数に代えて、サポートベクタマシーンを用いてもよい。

図３は、探索部３０の処理フローを示す図である。探索部３０は、例えば図３に示すような手順で処理を実行する。

まず、Ｓ１１において、探索部３０は、スコアベクトル列を取得する。

続いて、Ｓ１２において、探索部３０は、ＷＦＳＴ等の探索モデルを探索することにより、スコアベクトル列における尤もらしい音響スコアが得られる入力記号の経路を検出し、検出した経路に割り当てられた入力記号列を生成する。例えば、探索部３０は、ＷＦＳＴ等の探索モデルを用いてビタビアルゴリズム等により最良の経路を探索して、入力記号列を生成する。なお、探索部３０は、例えば、音響モデル、単語辞書および言語モデルを合成した探索モデルを利用し、音響スコアと言語スコアとを合わせたスコアを用いて経路を探索することにより、尤もらしい音響スコアが得られる入力記号の経路を検出してもよい。

なお、Ｓ１２の探索処理において、探索部３０は、入力記号列の中で、複数の認識対象記号が連続する部分を検出する。そして、探索部３０は、複数の認識対象記号が連続する部分を検出した場合、連続する複数の入力記号のうち何れか１つを残し、他を削除する。これにより、探索部３０は、同一の音韻が重複して認識されてしまうことを回避することができる。さらに、Ｓ１２の探索処理において、探索部３０は、連続する複数の認識対象記号のうちの１つを残した後において、入力記号列から対象外記号を削除する。

さらに、Ｓ１２の探索処理において、探索部３０は、尤もらしい音響スコアが得られる入力記号として、付加記号を受理した場合、受理した付加記号を含むスコアベクトルの次のスコアベクトルから、新しい出力記号に対応する経路の探索を開始する。すなわち、探索部３０は、探索モデルの探索中において、尤もらしい音響スコアが得られる入力記号として、付加記号を受理した場合、現在の経路の探索を強制的に終了して、次の経路の探索を開始する。

続いて、Ｓ１３において、探索部３０は、経路の探索が終了する毎に、出力記号を生成して出力する。例えば、探索部３０は、経路の探索が終了する毎に、生成した入力記号列に対応する経路に割り当てられた出力記号を探索モデルから取得する。そして、探索部３０は、探索モデルから取得した出力記号を出力する。

なお、探索部３０は、探索モデルがＷＦＳＴである場合、Ｓ１２およびＳ１３の処理を一括して処理する。例えば、探索部３０は、探索モデルを探索してスコアベクトル列における尤もらしい音響スコアが得られる入力記号を辿る経路を検出し、検出した経路に割り当てられた出力記号を出力する処理を、一括して実行する。

（探索例）
つぎに、英語を認識するためのＷＦＳＴを探索モデルに用いた場合の処理を図４から図１０を参照して説明する。

図に示す一重丸は、ＷＦＳＴの状態を示す。一重丸の中の数字は、状態を識別するための番号を示す。０番目の状態は、開始状態を示す。中にＥと示された二重丸は、終了状態を示す。状態から状態へと接続された矢印は、エッジ（遷移）を示す。

矢印に付加されている文字のうち、“：”の左側は、エッジに割り当てられた入力記号を示す。矢印に付加されている文字のうち、“：”の右側は、エッジに割り当てられた出力記号を表す。

探索部３０は、スコアベクトルが与えられた場合、尤もらしい何れかの入力記号を受理する。そして、探索部３０は、例えば、ある状態において、ある状態から出ていくエッジに割り当てられた入力記号を受理した場合、そのエッジに従って状態を遷移させる。

さらに、探索部３０は、例えば、状態を遷移させた場合、エッジに割り当てられた出力記号を出力する。なお、εは、空を表す記号である。探索部３０は、εが出力記号として割り当てられている場合、探索部３０は、出力記号を出力しないまたは空を表す出力記号を出力する。

図４から図１０に示すＷＦＳＴには、下記の表１に示すような５つの経路（♯１〜♯５）が登録されている。このＷＦＳＴには、それぞれの経路に、下記の表１に示すような入力記号列と、出力記号とが割り当てられている。

図４は、入力記号に付加記号を含まない場合における、英語の音声を認識するための探索モデルの一例を示す図である。

探索部３０は、例えば、表１の第１経路（♯１）に示された入力記号列を受理した場合、状態を０→１→２→３→４→５と遷移させる。そして、探索部３０は、その後εを受理すると、状態を５→Ｅと遷移させて、出力記号として“ＭｃＫａｙ”を出力する。

また、探索部３０は、例えば、表１の第２経路（♯２）に示された入力記号列を受理した場合、状態を０→６→７と遷移させる。そして、探索部３０は、その後にεを受理すると、状態を７→Ｅと遷移させて、出力記号として“Ａ”を出力する。

また、探索部３０は、例えば、表１の第３経路（♯３）に示された入力記号列を受理した場合、状態を０→８と遷移させる。そして、探索部３０は、その後にεを受理すると、状態を８→Ｅと遷移させて、出力記号として“ｕｈ”を出力する。

また、探索部３０は、例えば、表１の第４経路（♯４）に示された入力記号列を受理した場合、状態を０→９→１０→１１→１２→１３と遷移させる。そして、探索部３０は、その後にεを受理すると、状態を１３→Ｅと遷移させて、出力記号として“ｓｔｒｅｅｔ”を出力する。

また、探索部３０は、例えば、表１の第５経路（♯５）に示された入力記号列を受理した場合、状態を０→９→１０→１４→１５→１６→１７と遷移させる。そして、探索部３０は、その後にεを受理すると、状態を１７→Ｅと遷移させて、出力記号として“ｓｔｏｍａｃｈ”を出力する。

ここで、ユーザが“ＭｃＫａｙＳｔｒｅｅｔ”という文字を読んだ場合に、下記のような発音がされたとする。なお、Ｄは、非流暢性を表す。

従来の探索装置は、このような音声信号を図４に示すＷＦＳＴを用いて探索処理をした場合、Ｄを受理することができない。従って、この場合、従来の探索装置は、状態を、０→９→１０→１４→１５→１６→１７→Ｅ→０→６→７→Ｅ→０→９→１０→１１→１２→１３→Ｅと遷移させる。この結果、従来の探索装置は、出力記号として、“ｓｔｏｍａｃｈＡｓｔｒｅｅｔ”を出力してしまい、誤認識をする。

図５は、英語の音声を認識するための探索モデルであって、付加記号を受理した場合に経路開始点に遷移させるモデルの一例を示す図である。

これに対して、探索部３０は、フィラー、非流暢性および／または非言語音の少なくとも１つを表す付加記号を入力記号として受理する。そして、探索部３０は、付加記号を受理した場合、探索位置を、探索モデルに含まれる経路の開始点に移動させる。例えば、探索部３０は、探索モデルがＷＦＳＴであれば、付加記号を受理した場合、経路の状態を、ＷＦＳＴにおける開始状態に遷移させる。これにより、探索部３０は、付加記号を受理した場合、受理した付加記号を含むスコアベクトルの次のスコアベクトルから、新しい出力記号に対応する経路の探索を開始することができる。

例えば、上述の表２に示すような発音がされた場合、探索部３０は、状態を、０→９→１０→０→８→０→１→２→３→４→５→Ｅ→０→９→１０→１１→１２→１３→Ｅと遷移させることができる。この結果、探索部３０は、出力記号として、“ＭｃＫａｙｓｔｒｅｅｔ”を出力することができ、正しい認識をすることができる。

なお、図５の例においては、入力記号として、非流暢性（Ｄ）が割り当てられたＷＦＳＴを示している。しかし、入力記号として、フィラーまたは非言語音が割り当てられたＷＦＳＴであってもよい。図６以降も同様である。

また、例えば、探索モデルには、付加記号を受理する経路が予め追加されていてもよい。例えば、探索モデルがＷＦＳＴである場合、ＷＦＳＴには、予め、終了状態以外のそれぞれの状態から開始状態に接続される第１エッジが付加されていてもよい。この場合、それぞれの第１エッジには、入力記号として、付加記号が割り当てられている。これにより、探索部３０は、付加記号を受理した場合、経路の状態を、ＷＦＳＴにおける開始状態に遷移させることができる。

また、探索モデルには、付加記号を受理する経路が追加されていなくてもよい。この場合、探索部３０は、経路の探索を進める毎に、付加記号を受理したか否かを判断する。そして、探索部３０は、付加記号を受理した場合に、探索モデルの経路に関わらず、強制的に探索位置を経路開始点に移動させる。例えば、探索部３０は、探索モデルがＷＦＳＴであれば、付加記号を受理した場合、ＷＦＳＴのエッジに関わらず、経路の状態を、ＷＦＳＴにおける開始状態に遷移させる。これにより、探索部３０は、付加記号を受理した場合、経路の状態を、ＷＦＳＴにおける開始状態に遷移させることができる。

なお、探索モデルに含まれるそれぞれの単語の始端の状態には、始端を表す始端情報が付与されていてもよい。この場合、探索部３０は、付加記号を受理した場合に始端情報が付加された状態に探索位置を移動させてもよい。また、探索部３０は、探索モデルに含まれるそれぞれの単語の始端の状態を表す番号を記憶しておき、付加記号を受理した毎に、記憶している番号を持つ状態に探索位置を移動させてもよい。

また、探索部３０は、付加記号を受理した場合、出力記号を出力しない、または、空を表す出力記号を出力してもよい。例えば、探索モデルに付加記号を受理する経路が予め追加されている場合、その経路の出力記号に、空を表す記号（ε）が割り当てられていてもよい。

図６は、英語の音声を認識するための探索モデルであって、付加記号を受理した場合に、付加記号を表す記号を出力するモデルの一例を示す図である。

探索部３０は、付加記号を受理した場合、付加記号を表す記号を出力してもよい。例えば、探索モデルに付加記号を受理する経路が予め追加されている場合、その経路には、出力記号として、付加記号を表す記号が割り当てられていてもよい。

例えば、上述の表２に示すような発音がされた場合、探索部３０は、出力記号として、“ＤＤＭｃＫａｙｓｔｒｅｅｔ”を出力する。これにより、探索部３０は、非流暢性が含まれていたことを認識結果に含めることができる。

図７は、英語の音声を認識するための探索モデルであって、付加記号を受理した場合に、入力記号列を出力するモデルの一例を示す図である。

探索部３０は、付加記号を受理した場合、経路の開始位置から付加記号を受理するまでに受理した入力記号列を出力してもよい。例えば、探索モデルに付加記号を受理する経路が予め追加されている場合、その経路には、出力記号として、開始位置から付加記号を受理するまでに受理した入力記号列が割り当てられていてもよい。

例えば、上述の表２に示すような発音がされた場合、探索部３０は、下記の表３に示すような出力記号を出力する。これにより、例えば、探索部３０は、認識結果が確定できなかった部分については、語断片の発音列を出力することができる。

図８は、英語の音声を認識するための探索モデルであって、付加記号を受理した場合に、経路に割り当てられている出力記号を出力するモデルの一例を示す図である。

探索部３０は、付加記号を受理した場合、付加記号を受理する直前までに辿った経路に継続した経路の出力記号を出力してもよい。例えば、探索モデルに付加記号を受理する経路が予め追加されている場合、その経路には、出力記号として、付加記号を受理する直前までに辿った経路に継続した経路の出力記号が割り当てられていてもよい。

例えば、１、２、３、４または５の状態から継続した経路に割り当てられている出力記号は、“ＭｃＫａｙ”である。従って、探索部３０は、１、２、３、４または５の状態において付加記号を受理した場合、“ＭｃＫａｙ”を出力する。

例えば、６または７の状態から継続した経路に割り当てられている出力記号は、“Ａ”である。従って、探索部３０は、６または７の状態において付加記号を受理した場合、“Ａ”を出力する。

例えば、８の状態から継続した経路に割り当てられている出力記号は、“ｕｈ”である。従って、探索部３０は、８の状態において付加記号を受理した場合、“ｕｈ”を出力する。

例えば、１１、１２、または１３の状態から継続した経路に割り当てられている出力記号は、“ｓｔｒｅｅｔ”である。従って、探索部３０は、１１、１２、または１３の状態において付加記号を受理した場合、“ｓｔｒｅｅｔ”を出力する。

例えば、１４、１５、１６、または１７の状態から継続した経路に割り当てられている出力記号は、“ｓｔｏｍａｃｈ”である。従って、探索部３０は、１４、１５、１６、または１７の状態において付加記号を受理した場合、“ｓｔｏｍａｃｈ”を出力する。

例えば、９または１０の状態から継続した経路に割り当てられている出力記号は、“ｓｔｒｅｅｔ”および“ｓｔｏｍａｃｈ”である。従って、探索部３０は、９または１０の状態において付加記号を受理した場合、“ｓｔｒｅｅｔ”および“ｓｔｏｍａｃｈ”を出力する。

図９は、英語の音声を認識するための探索モデルであって、付加記号を受理した場合に、確定していれば出力記号を出力するモデルの一例を示す図である。

また、探索部３０は、付加記号を受理した場合、付加記号を受理する直前までに辿った経路に継続した経路が、１つに確定しているか否かを検出してもよい。そして、探索部３０は、経路が１つに確定している場合、確定している経路に割り当てられた出力記号を出力し、経路が１つに確定していない場合、出力記号を出力しないまたは空を表す出力記号を出力してもよい。

例えば、９または１０の状態は、付加記号を受理する直前までに辿った経路に継続した経路が２つに分岐しており、経路が１つに確定されていない。すなわち、９または１０の状態は、“ｓｔｒｅｅｔ”を出力するか、“ｓｔｏｍａｃｈ”を出力するかが確定していない。従って、９または１０の状態において付加記号を受理した場合、探索部３０は、出力記号を出力しないまたは空を表す出力記号を出力する。

また、９および１０以外の状態は、付加記号を受理する直前までに辿った経路に継続した経路が、１つに確定されている。従って、９または１０の状態以外において付加記号を受理した場合、探索部３０は、確定している経路に割り当てられた出力記号を出力する。

図１０は、英語の音声を認識するための探索モデルで、付加記号を受理した場合に経路終了点に遷移させるモデルの一例を示す図である。

探索部３０は、付加記号を受理した場合、探索位置を、探索モデルに含まれる経路の終了点に移動させてもよい。例えば、探索部３０は、探索モデルがＷＦＳＴであれば、付加記号を受理した場合、経路の状態を、ＷＦＳＴにおける終了状態に遷移させてもよい。このようにしても、探索部３０は、付加記号を受理した場合、受理した付加記号を含むスコアベクトルの次のスコアベクトルから、新しい出力記号に対応する経路の探索を開始することができる。

例えば、上述の表２に示すような発音がされた場合、探索部３０は、状態を、０→９→１０→Ｅ→０→８→Ｅ→０→１→２→３→４→５→Ｅ→０→９→１０→１１→１２→１３→Ｅと遷移させることができる。この結果、探索部３０は、出力記号として、“ＭｃＫａｙｓｔｒｅｅｔ”を出力することができ、正しい認識をすることができる。

例えば、探索モデルには、付加記号を受理する経路が予め追加されていてもよい。例えば、探索モデルがＷＦＳＴである場合、ＷＦＳＴには、予め、終了状態以外のそれぞれの状態から終了状態に接続される第２エッジが付加されていてもよい。この場合、それぞれの第２エッジには、入力記号として、付加記号が割り当てられている。これにより、探索部３０は、付加記号を受理した場合、経路の状態を、ＷＦＳＴにおける終了状態に遷移させることができる。

また、探索モデルには、付加記号を受理する経路が追加されていなくてもよい。この場合、探索部３０は、経路の探索を進める毎に、付加記号を受理したか否かを判断する。そして、探索部３０は、付加記号を受理した場合に、探索モデルの経路に関わらず、強制的に探索位置を経路終了点に移動させる。例えば、探索部３０は、探索モデルがＷＦＳＴであれば、付加記号を受理した場合、ＷＦＳＴのエッジに関わらず、経路の状態を、ＷＦＳＴにおける終了状態に遷移させる。これにより、探索部３０は、付加記号を受理した場合、経路の状態を、ＷＦＳＴにおける終了状態に遷移させることができる。

なお、探索モデルに含まれるそれぞれの単語の終端の状態には、終端を表す終端情報が付与されていてもよい。この場合、探索部３０は、付加記号を受理した場合に終端情報が付加された状態に探索位置を移動させてもよい。また、探索部３０は、探索モデルに含まれるそれぞれの単語の終端の状態を表す番号を記憶しておき、付加記号を受理した毎に、記憶している番号を持つ状態に探索位置を移動させてもよい。

また、探索部３０は、探索位置を、探索モデルに含まれる経路の終了点に移動させる場合も、図６〜図９と同様の記号を出力してもよい。

つぎに、日本語を認識するためのＷＦＳＴを探索モデルに用いた場合の処理を図１１から図１７を参照して説明する。図１１から図１７におけるＷＦＳＴの表現方法は、図４〜図１０の例と同様である。

図１１から図１７に示すＷＦＳＴには、下記のような３つの経路が登録されている。

すなわち、状態が０→１→２→３→４と遷移する経路に対して、入力記号列として「さいとお」、出力記号として「斉藤」が割り当てられている。また、状態が０→１→５と遷移する経路に対して、入力記号列として「ささ」、出力記号として「笹」が割り当てられている。また、状態が０→６→７→８と遷移する経路に対して、入力記号列として「いとお」、出力記号として「伊藤」が割り当てられている。

図１１は、入力記号に付加記号を含まない場合における、日本語の音声を認識するための探索モデルの一例を示す図である。

探索部３０は、例えば、入力記号列（「さいとお」）を受理した場合、状態を０→１→２→３→４と遷移させる。そして、探索部３０は、その後にεを受理すると、状態を４→Ｅと遷移させて、出力記号として“斉藤”を出力する。

探索部３０は、例えば、入力記号列（「ささ」）を受理した場合、状態を０→１→５と遷移させる。そして、探索部３０は、その後にεを受理すると、状態を５→Ｅと遷移させて、出力記号として“笹”を出力する。

探索部３０は、例えば、入力記号列（「いとお」）を受理した場合、状態を０→６→７→８と遷移させる。そして、探索部３０は、その後にεを受理すると、状態を８→Ｅと遷移させて、出力記号として“伊藤”を出力する。

ここで、ユーザが“斉藤”という文字を読んだ場合に、「さＤさいとお」と発音したとする。

従来の探索装置は、このような音声信号を図１１に示すＷＦＳＴを用いて探索処理をした場合、Ｄを受理することができない。従って、従来の探索装置は、状態を、０→１→５→Ｅ→６→７→８→Ｅと遷移させる。この結果、従来の探索装置は、出力記号として、“笹伊藤”を出力してしまい、誤認識をする。

これに対して、探索部３０は、フィラー、非流暢性および／または非言語音の少なくとも１つを表す付加記号を受理した場合、探索位置を、探索モデルに含まれる経路の開始点に移動させる。例えば、探索部３０は、探索モデルがＷＦＳＴであれば、付加記号を受理した場合、経路の状態を、ＷＦＳＴにおける開始状態に遷移させる。

図１２は、日本語の音声を認識するための探索モデルであって、付加記号を受理した場合に経路開始点に遷移させるモデルの一例を示す図である。

これにより、例えば、ユーザが「さＤさいとお」と発音した場合、探索部３０は、状態を、０→１→０→１→２→３→４→Ｅと遷移させることができる。この結果、探索部３０は、出力記号として、“斉藤”を出力することができ、正しい認識をすることができる。

図１３は、日本語の音声を認識するための探索モデルであって、付加記号を受理した場合に、付加記号を表す記号を出力するモデルの一例を示す図である。

例えば、ユーザが「さＤさいとお」と発音した場合、探索部３０は、出力記号として、“Ｄ斉藤”を出力する。これにより、探索部３０は、非流暢性が含まれていたことを認識結果に含めることができる。

図１４は、日本語の音声を認識するための探索モデルであって、付加記号を受理した場合に、入力記号列を出力するモデルの一例を示す図である。

探索部３０は、付加記号を受理した場合、経路の開始位置から付加記号までに受理した入力記号列を出力してもよい。例えば、ユーザが「さＤさいとお」と発音した場合、探索部３０は、出力記号として、“さ斉藤”を出力する。これにより、例えば、探索部３０は、認識結果が確定できなかった部分については、語断片の発音列を出力することができる。

図１５は、日本語の音声を認識するための探索モデルであって、付加記号を受理した場合に、経路に割り当てられている出力記号を出力するモデルの一例を示す図である。

探索部３０は、付加記号を受理した場合、付加記号を受理する直前までに辿った経路に継続した経路の出力記号を出力してもよい。

例えば、２、３または４の状態から継続した経路に割り当てられている出力記号は、“斉藤”である。従って、探索部３０は、２、３または４の状態において付加記号を受理した場合、“斉藤”を出力する。

例えば、５の状態から継続した経路に割り当てられている出力記号は、“笹”である。従って、探索部３０は、５の状態において付加記号を受理した場合、“笹”を出力する。

例えば、６、７または８の状態から継続した経路に割り当てられている出力記号は、“伊藤”である。従って、探索部３０は、６、７または８の状態において付加記号を受理した場合、“伊藤”を出力する。

例えば、１の状態から継続した経路に割り当てられている出力記号は、“斉藤”および“笹”である。従って、探索部３０は、１の状態において付加記号を受理した場合、“斉藤”および“笹”を出力する。

図１６は、日本語の音声を認識するための探索モデルであって、付加記号を受理した場合に、確定していれば出力記号を出力するモデルの一例を示す図である。

例えば、１の状態は、付加記号を受理する直前までに辿った経路に継続した経路が２つに分岐しており、経路が１つに確定されていない。従って、１の状態において付加記号を受理した場合、探索部３０は、出力記号を出力しないまたは空を表す出力記号を出力する。

また、１以外の状態は、付加記号を受理する直前までに辿った経路に継続した経路が１つに確定されている。従って、１の状態以外において付加記号を受理した場合、探索部３０は、付加記号を受理する直前までに辿った経路に継続した経路に割り当てられている出力記号を出力する。

図１７は、日本語の音声を認識するための探索モデルで、付加記号を受理した場合に経路終了点に遷移させるモデルの一例を示す図である。

探索部３０は、付加記号を受理した場合、探索位置を、探索モデルに含まれる経路の終了点に移動させてもよい。例えば、探索部３０は、探索モデルがＷＦＳＴであれば、付加記号を受理した場合、経路の状態を、ＷＦＳＴにおける終了状態に遷移させてもよい。

これにより、例えば、ユーザが「さＤさいとお」と発音した場合、探索部３０は、状態を、０→１→Ｅ→０→１→２→３→４→Ｅと遷移させることができる。この結果、探索部３０は、出力記号として、“斉藤”を出力することができ、正しい認識をすることができる。

また、探索部３０は、探索位置を、探索モデルに含まれる経路の終了点に移動させる場合も、図１３〜図１６と同様の記号を出力してもよい。

以上のように、本実施形態に係る音声認識装置１０は、尤もらしい音響スコアが得られる入力記号として、フィラー、非流暢性および非言語音の少なくとも１つを表す付加記号を受理した場合、受理した付加記号を含むスコアベクトルの次のスコアベクトルから、新しい出力記号に対応する経路の探索を開始する。これにより、本実施形態に係る音声認識装置１０は、音韻とともに、フィラー、非流暢性および非言語音を含む音声信号を、既存の探索モデルを大きく変更することなく、非常に簡易な処理で、精度良く認識することができる。

図１８は、音声認識装置１０のハードウェアブロック図である。音声認識装置１０は、一例として、一般のコンピュータ（情報処理装置）と同様のハードウェア構成により実現される。音声認識装置１０は、ＣＰＵ（Central Processing Unit）１０１と、操作部１０２と、表示部１０３と、マイクロフォン１０４と、ＲＯＭ（Read Only Memory）１０５と、ＲＡＭ（Random Access Memory）１０６と、記憶部１０７と、通信装置１０８と、バス１０９とを備える。各部は、バス１０９により接続される。

ＣＰＵ１０１は、ＲＡＭ１０６の所定領域を作業領域としてＲＯＭ１０５または記憶部１０７に予め記憶された各種プログラムとの協働により各種処理を実行し、音声認識装置１０（特徴抽出部２２、スコア算出部２６および探索部３０）を構成する各部の動作を統括的に制御する。また、ＣＰＵ１０１は、ＲＯＭ１０５または記憶部１０７に予め記憶されたプログラムとの協働により、操作部１０２、表示部１０３、マイクロフォン１０４および通信装置１０８等を実現させる。

操作部１０２は、マウスやキーボード等の入力デバイスであって、ユーザから操作入力された情報を指示信号として受け付け、その指示信号をＣＰＵ１０１に出力する。

表示部１０３は、ＬＣＤ（Liquid Crystal Display）等の表示装置である。表示部１０３は、ＣＰＵ１０１からの表示信号に基づいて、各種情報を表示する。例えば、表示部１０３は、出力記号等を表示する。なお、通信装置１０８または記憶部１０７等に出力記号等を出力する場合には、音声認識装置１０は、表示部１０３を備えなくてもよい。

マイクロフォン１０４は、音声信号を入力するデバイスである。予め記録された音声信号または通信装置１０８から入力される音声信号のパターン認識をする場合には、音声認識装置１０は、マイクロフォン１０４を備えなくてもよい。

ＲＯＭ１０５は、音声認識装置１０の制御に用いられるプログラムおよび各種設定情報等を書き換え不可能に記憶する。ＲＡＭ１０６は、ＳＤＲＡＭ（Synchronous Dynamic Random Access Memory）等の揮発性の記憶媒体である。ＲＡＭ１０６は、ＣＰＵ１０１の作業領域として機能する。具体的には、音声認識装置１０が用いる各種変数およびパラメータ等を一時記憶するバッファ等として機能する。

記憶部１０７は、フラッシュメモリ等の半導体による記憶媒体、磁気的または光学的に記録可能な記憶媒体等の書き換え可能な記録装置である。記憶部１０７は、音声認識装置１０の制御に用いられるプログラムおよび各種設定情報等を記憶する。また、記憶部１０７は、音響モデル記憶部２４および探索モデル記憶部２８等が記憶する情報を記憶する。

通信装置１０８は、外部の機器と通信して、出力記号および付加記号等の出力等に用いられる。予め記録された音声信号またはマイクロフォン１０４から入力した音声信号のパターン認識をする場合であり、出力記号および付加記号等を表示部１０３または記憶部１０７に出力する場合には、音声認識装置１０は、通信装置１０８を備えなくてもよい。

本実施形態の音声認識装置１０で実行されるプログラムは、インストール可能な形式または実行可能な形式のファイルでＣＤ−ＲＯＭ、フレキシブルディスク（ＦＤ）、ＣＤ−Ｒ、ＤＶＤ（Digital Versatile Disk）等のコンピュータで読み取り可能な記録媒体に記録されて提供される。

また、本実施形態の音声認識装置１０で実行されるプログラムを、インターネット等のネットワークに接続されたコンピュータ上に格納し、ネットワーク経由でダウンロードさせることにより提供するように構成してもよい。また、本実施形態の音声認識装置１０で実行されるプログラムをインターネット等のネットワーク経由で提供または配布するように構成してもよい。また、本実施形態の音声認識装置１０で実行されるプログラムを、ＲＯＭ等に予め組み込んで提供するように構成してもよい。

本実施形態の音声認識装置１０で実行されるプログラムは、上述した特徴抽出モジュール、スコア算出モジュールおよび探索モジュールを含むモジュール構成となっており、ＣＰＵ１０１（プロセッサ）が記憶媒体等からプログラムを読み出して実行することにより上記各部が主記憶装置上にロードされ、特徴抽出部２２、スコア算出部２６および探索部３０が主記憶装置上に生成されるようになっている。なお、特徴抽出部２２、スコア算出部２６および探索部３０の一部または全部がハードウェアにより構成されていてもよい。

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら新規な実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれるとともに、特許請求の範囲に記載された発明とその均等の範囲に含まれる。

１０音声認識装置
２２特徴抽出部
２４音響モデル記憶部
２６スコア算出部
２８探索モデル記憶部
３０探索部
４２入力層
４４中間層
４６出力層
１０１ＣＰＵ
１０２操作部
１０３表示部
１０４マイクロフォン
１０５ＲＯＭ
１０６ＲＡＭ
１０７記憶部
１０８通信装置
１０９バス

Claims

音声信号に含まれる言語情報を表す出力記号を出力する音声認識装置であって、
前記音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含むスコアベクトルが並んだスコアベクトル列を算出する算出部と、
予め登録された探索モデルを探索することにより前記スコアベクトル列における尤もらしい前記音響スコアが得られる前記入力記号を辿る経路を検出し、前記探索モデルにおける検出した経路に割り当てられた前記出力記号を出力する探索部と、
を備え、
前記記号集合は、認識対象の音韻を表す認識対象記号と、フィラー、非流暢性および非言語音の少なくとも１つを表す付加記号とを、前記入力記号として含み、
前記探索モデルは、１以上の前記入力記号が並んだ入力記号列と、前記出力記号とが割り当てられた複数の経路を含み、
前記探索部は、尤もらしい前記音響スコアが得られる前記入力記号として、前記付加記号を受理した場合、受理した前記付加記号を含む前記スコアベクトルの次の前記スコアベクトルから、新しい前記出力記号に対応する経路の探索を開始する
音声認識装置。
前記探索部は、前記付加記号を受理した場合、探索位置を、前記探索モデルに含まれる経路の開始点に移動させる
請求項１に記載の音声認識装置。
前記探索モデルは、有限状態トランスデューサであり、
前記探索部は、前記付加記号を受理した場合、経路の状態を、前記有限状態トランスデューサにおける開始状態に遷移させる
請求項２に記載の音声認識装置。
前記探索部は、前記付加記号を受理した場合、探索位置を、前記探索モデルに含まれる経路の終了点に移動させる
請求項１に記載の音声認識装置。
前記探索モデルは、有限状態トランスデューサであり、
前記探索部は、前記付加記号を受理した場合、経路の状態を、前記有限状態トランスデューサにおける終了状態に遷移させる
請求項４に記載の音声認識装置。
前記探索部は、前記付加記号を受理した場合、前記出力記号を出力しないまたは空を表す前記出力記号を出力する
請求項１から５の何れか１項に記載の音声認識装置。
前記探索部は、前記付加記号を受理した場合、前記付加記号を表す記号を出力する
請求項１から５の何れか１項に記載の音声認識装置。
前記探索部は、前記付加記号を受理した場合、経路の開始位置から前記付加記号を受理するまでに受理した前記入力記号列を出力する
請求項１から５の何れか１項に記載の音声認識装置。
前記探索部は、前記付加記号を受理した場合、前記付加記号を受理する直前までに辿った経路に継続した経路の前記出力記号を出力する
請求項１から５の何れか１項に記載の音声認識装置。
前記探索部は、
前記付加記号を受理した場合、前記付加記号を受理する直前までに辿った経路に継続した経路が、１つに確定しているか否かを検出し、
経路が１つに確定している場合、確定している経路に割り当てられた前記出力記号を出力し、
経路が１つに確定していない場合、前記出力記号を出力しないまたは空を表す前記出力記号を出力する
請求項１から５の何れか１項に記載の音声認識装置。
前記探索モデルには、前記付加記号を受理する経路が予め追加されている
請求項１から１０の何れか１項に記載の音声認識装置。
前記探索モデルには、前記付加記号を受理する経路が追加されておらず、
前記探索部は、経路の探索を進める毎に、前記付加記号を受理したか否かを判断する
請求項１から１０の何れか１項に記載の音声認識装置。
音声信号に含まれる言語情報を表す出力記号を出力する音声認識方法であって、
前記音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含むスコアベクトルが並んだスコアベクトル列を算出し、
予め登録された探索モデルを探索することにより前記スコアベクトル列における尤もらしい前記音響スコアが得られる前記入力記号を辿る経路を検出し、前記探索モデルにおける検出した経路に割り当てられた前記出力記号を出力し、
前記記号集合は、認識対象の音韻を表す認識対象記号と、フィラー、非流暢性および非言語音の少なくとも１つを表す付加記号とを、前記入力記号として含み、
前記探索モデルは、１以上の前記入力記号が並んだ入力記号列と、前記出力記号とが割り当てられた複数の経路を含み、
尤もらしい前記音響スコアが得られる前記入力記号として、前記付加記号を受理した場合、受理した前記付加記号を含む前記スコアベクトルの次の前記スコアベクトルから、新しい前記出力記号に対応する経路の探索を開始する
音声認識方法。
情報処理装置を、音声信号に含まれる言語情報を表す出力記号を出力する音声認識装置として機能させるためのプログラムであって、
前記情報処理装置を、
前記音声信号に基づき、予め定められた記号集合の要素である入力記号毎の音響スコアを含むスコアベクトルが並んだスコアベクトル列を算出する算出部と、
予め登録された探索モデルを探索することにより前記スコアベクトル列における尤もらしい前記音響スコアが得られる前記入力記号を辿る経路を検出し、前記探索モデルにおける検出した経路に割り当てられた前記出力記号を出力する探索部と、
して機能させ、
前記記号集合は、認識対象の音韻を表す認識対象記号と、フィラー、非流暢性および非言語音の少なくとも１つを表す付加記号とを、前記入力記号として含み、
前記探索モデルは、１以上の前記入力記号が並んだ入力記号列と、前記出力記号とが割り当てられた複数の経路を含み、
前記探索部は、尤もらしい前記音響スコアが得られる前記入力記号として、前記付加記号を受理した場合、受理した前記付加記号を含む前記スコアベクトルの次の前記スコアベクトルから、新しい前記出力記号に対応する経路の探索を開始する
プログラム。