JP2006139185A

JP2006139185A - 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体

Info

Publication number: JP2006139185A
Application number: JP2004330415A
Authority: JP
Inventors: Yuichi Nakazawa; 裕一中澤
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2004-11-15
Filing date: 2004-11-15
Publication date: 2006-06-01

Abstract

【課題】信頼度の算出に用いられるＨＭＭを用いた音響尤度を計算する際に、入力音声の音素と音響モデルとの適合性の確率を計算して音響尤度を算出している。しかし、発話単位で考えると、入力音声と整合性のある音響モデルで必ず音声認識を行っているとは限らない。したがって、全体的には高い認識精度を得ることができる入力音声と音響モデルの組み合わせでも、発話単位ではモデルと適合することができず、認識精度が低くなってしまうことがある。
【解決手段】発話単位に複数の音響モデルを用いて認識した結果に音響尤度を示す情報を付し、入力音声と各音響モデルとの整合性を、事前に学習・記録した結果と比較して判別し、整合性の高い音響モデルを用いた認識結果を出力する。
【選択図】図１

Description

この発明は、音響モデルを用いて音声を認識する方法、その装置、そのプログラムおよびその記録媒体に関するものである。

音声認識では一般に、入力音声を分析して得られる音響的特徴量の系列と音声をモデル化した音響モデルとの間で尤度を算出し、認識すべき語彙、単語間の接続のしやすさ、規則を表す言語モデルなどの言語的制約の中において尤度の最も高い候補を認識結果として出力する。しかし、入力音声において、発声の曖昧さやノイズや音声以外の音響信号が入力されることにより、誤った認識結果を出力する可能性が高くなる。また、入力音声が未登録語である場合は正しい認識結果を出力することができない。
以上の問題に対して、音声認識結果に信頼度を付与することにより、信頼度の高さにより認識結果を受理、棄却若しくは結果の確認を行うことが可能となり、音声認識結果を用いる種々の装置において音声認識誤りに起因する発声者の想定外の動作を抑制することができる。

非特許文献１、非特許文献２では、単語事後確率を用いて信頼度を計算している。この方法では１単語の音響尤度、単語の言語尤度、ｆｏｒｗａｒｄ確率、ｂａｃｋｗａｒｄ確率を用いて文中の単語に対する信頼度を算出している。
非特許文献１では、Ｎ−ｂｅｓｔ候補を用いて信頼度の計算が行われている。この方法では、音響尤度、言語尤度などを用いて認識結果候補をＮ位まで作成し、作成された候補を用いて信頼度を算出する。この方法では、複数の候補に多く出現している単語は信頼度が高いとしている。

特許文献１では、競合モデルを用いて信頼度を決定している。この方法では、音声認識に用いたモデルと競合モデルとの2種類のモデルを使用する。各モデルにおいてそれぞれ尤度を求め、得られた尤度から尤度比を算出し、認識結果の信頼度として付与する。
非特許文献３では、複数の音声認識モデルを用いて信頼度の決定を行っている。この方法では、音声認識モデルを2つ以上用いて音声認識を行い、全ての音声認識モデルで信頼できると判断された共通部分が信頼できると判断するものである。
特開平１１−８５１８８号公報ＦｒａｎｋＷｅｓｓｅｌ，ＲａｌｆＳｃｈｌｕｔｅｒ，ＫｌａｕｓＭａｃｈｅｒｅｙ，ＨｅｒｍａｍＮｅｙ:"ＣｏｎｆｉｄｅｎｃｅＭｅａｓｕｒｅｆｏｒＬａｒｇｅＶｏｃａｂｕｌａｒｙＣｏｎｔｉｎｕｏｕｓＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ" ，ＩＥＥＥＴｒａｎｓａｃｔｉｏｎｓＳｐｅｅｃｈａｎｄＡｕｄｉｏＰｒｏｃｅｓｓＶｏｌ．９Ｎｏ．３ｐｐ．２８８−２９８，２００１. ＴｈｏｍａｓＫｅｍｐ，ＴｈｏｍａｓＳｃｈａａｆ："Ｅｓｔｉｍａｔｉｎｇｃｏｎｆｉｄｅｎｃｅｕｓｉｎｇｗｏｒｄｌａｔｔｉｃｅｓ"，Ｐｒｏｃ．５ｔｈＥｕｒｏｓｐｅｅｃｈ，ｐｐ．８２７−８３０，１９９７. 宇津呂武仁，西崎博光，小玉康広，中川聖一:「複数の大語彙連続音声認識モデルの出力の共通部分を用いた高信頼度部分の推定」，電子情報通信学会論文誌，Ｄ−IIＶｏｌ．Ｊ８６−Ｄ−II Ｎｏ．７ｐｐ．９７４−９８７，２００３.

既存の技術では、信頼度の算出に用いられる隠れマルコフモデル（以下、「ＨＭＭ」という。）を用いた音響尤度を計算する際に、入力音声の音素と音響モデルとの適合性の確率を計算して音響尤度を算出している。しかし、発話単位で考えると、入力音声と整合性のある音響モデルで必ず音声認識を行っているとは限らない。したがって、全体的には高い認識精度を得ることができる入力音声と音響モデルの組み合わせでも、発話単位ではモデルと適合することができず、認識精度が低くなってしまうことがある。

本発明では、発話単位に複数の音響モデルを用いて認識した結果に音響尤度を示す情報を付し、入力音声と各音響モデルとの整合性を、事前に学習・記録した結果と比較して判別し、整合性の高い音響モデルを用いた認識結果を出力する。

本発明は、入力音声との整合性の高い音響モデルを発話単位に選択することにより、精度の高い認識結果を得ることができる。

［第１実施形態］
図１は本発明の音声認識装置の機能構成を示す図である。音声認識装置１００は、音声認識部１、音響モデル整合性判別部３、認識結果を出力するモデル整合認識結果出力部４から構成される。
音声認識部１は、入力音声１１を入力とし、複数の音響モデルを格納した音響モデル格納部５に含まれる各音響モデル及び言語モデル・辞書格納部６を用いて、例えば音声の空白区間ごとに区切られた発話単位ごとに認識結果の単語系列１２、該単語系列に含まれる各単語の品詞情報１４、ＨＭＭを用いて求められる音響スコア１５、単語Ｎ−ｇｒａｍを用いて求められる言語スコア１６、音響スコアと言語スコアの和である単語スコア１７、およびどの音響モデルを音声認識に用いたかを示す音響モデル情報１８を出力する。但し、次の音響モデル整合性判別部３で入力音声と音響モデルとの整合性を判別する際に用いないものは出力しない。なお、上記の音声を区切る方法は、音声の空白区間ごとに区切る方法に限らず、他の方法でもかまわない。以下は、一定の基準に基づいて区切られた発話単位の例である。
・『その辺ではかなり収益も上がるんじゃないかなと思います。』
・『なるほどね。』
・『今、あの韓国に買い物行くツアーとか、そういうのが非常に流行ってるんですが、』
・『ん一』
音響モデル整合性判別部３では、音声認識部１で得られた結果に対して、入力音声１１と音響モデル格納部５に含まれる各音響モデルのうち認識に使用したものとの整合性の判別を行い、入力音声に整合する音響モデルを用いた認識結果を得る。整合性を判別する要素の一例として、単語系列１２に含まれる各単語の品詞情報１４、音響スコア１５、言語スコア１６、単語スコア１７、音響モデル情報１８の全部または一部が入力される。

モデル整合認識結果出力部４では、音響モデル整合性判別部３において得られた情報（モデル整合認識結果１９）から入力音声１１と整合していると判別された音響モデルを用いて認識した単語系列１２の出力を行う。
図２は音声認識部１の機能構成を示す図である。入力音声１１は、音響分析部５１において音響特徴パラメータ１３に変換される。音響特徴パラメータとは、入力音声を数十ミリ秒のフレームと呼ばれる単位で分析して得られるＬＰＣケプストラム、ＭＦＣＣその他のパラメータである。この音響特徴パラメータ１３に対する認識結果の候補となる単語系列１２の探索を、音響モデル格納部５の音響モデルと言語モデル・辞書格納部６の言語モデルおよび辞書とを用いて、探索部５２で行う。探索結果の上位Ｎ位までのＮ−ｂｅｓｔ候補と候補に対するスコアが算出され、スコアに基づき音響スコア１５と言語スコア１６が算出され、その和である単語スコア１７が算出される。その結果、認識結果の単語系列１２、単語系列に含まれる各単語の品詞情報１４、音響スコア１５、言語スコア１６、単語スコア１７が求められる。探索部５２では、音響モデル格納部５に記録されている音響モデルごとに上記探索が行われ、複数の認識結果情報１０_ｉ（ｉ＝１〜Ｋ）（認識結果の単語系列１２、単語系列に含まれる各単語の品詞情報１４、音響スコア１５、言語スコア１６、単語スコア１７、音響モデル情報１８）が出力される。ただし、音響モデルによっては上記探索が行えない可能性もあるので、Ｋは音響モデル格納部５に記録されている音響モデルの数以下である。

図３は、音響モデル整合性判別部３の機能構成を示す図である。音響モデル整合性判別部３内の特徴量ベクトル生成部３１では、ｎ発話目に位置する発話からなる単語系列１２_ｉと音響モデルとの整合性を判別するための特徴量ベクトル３１１_ｉを、音声認識部１から得た認識結果情報１０_ｉから作成する。具体的な特徴量ベクトル３１１_ｉを求める方法としては、例えば認識結果情報１０の認識結果の単語系列１２と音響モデル情報１８以外の情報を正規化して並べる方法や単純に並べる方法がある。単純に並べた場合の特徴量ベクトル３１１_ｉの例を以下に示す。

特徴量ベクトル３１１_ｉ＝（品詞情報１４，音響スコア１５，言語スコア１６，単語スコア１７）
このようにして得た特徴量ベクト３１１_ｉについて、入力音声１１と音響モデルとの整合性の判別を行う。あらかじめ大量の学習データを用意し、学習データから求められた特徴量ベクトル（以下、参照ベクトルという。）と各音響モデルとの整合性を調べ、この結果を学習結果格納部３２に記録する。つまり、学習結果格納部３２には、既知の音声の単語系列に対して、使用した音響モデル、参照ベクトル（学習データから求められた特徴量ベクトル）、整合性の情報を一組とする情報が、大量に記録されている。比較部３３では、ＳＶＭ（ＳｕｐｐｏｒｔＶｅｃｔｏｒＭａｃｈｉｎｅ）などの既存の分類器により参照ベクトルと整合性の情報から、整合・不整合を判別する境界面を作成し、入力音声１１から得られた音響モデルごとの特徴量ベクトル３１１_ｉと境界面とを比較し、特徴量ベクトル３１１_ｉが整合・不整合のどちらの領域にあるかを判別する。このようにして入力音声１１に対して複数個の音響モデルを用いて特徴量ベクトル３１１_ｉ（ｉ＝１〜Ｋ）が求められ、各特徴量ベクトル３１１_ｉから音響モデルの整合性が求められる。認識結果選定部３４では、整合すると判別された全ての音響モデルの音響モデル情報１８と、少なくともそれらの単語系列１２をモデル整合認識結果１９として出力する。なお、分類器による制限もあるが、最も整合する音響モデルとその単語系列１２のみをモデル整合認識結果１９として出力する方法もある。

モデル整合認識結果出力部４では、モデル整合認識結果１９から入力音声１１と整合していると判別された音響モデルを用いて認識した結果を出力する。
図４に本発明のフローを示す。本発明では発話ごとに適した音響モデルを選択して使用できるため、常に整合性の高い音響モデルを使うことができ、全体的な認識精度の向上が期待できる。定量的な評価を以下に示す。
本発明による効果を６６本の放送ニュースデータ（単語数:１９９７６４、発話数８６８５、男女声比約２:１）の連続単語認識において、語彙数約３万のｔｒｉｇｒａｍ言語モデルを用いて評価した。音響モデルには、状態数約３０００、各状態の混合数８の状態共有ｔｒｉｐｈｏｎｅで、性別依存モデル（男声用、女声用）／男・女声マルチパート（ＭＰ）モデルの３種類の音響モデルを用いた。図５に評価に用いたデータ（図中の「全声」）および比較対照（男声には男声用、女声には女声用の音響モデルが整合していると仮定する）のためのデータを示す。

学習データ／評価データに用いた放送ニュースデータでは、入力音声の認識精度の違いによる結果の偏りを避けるため、ＭＰモデルを用いた場合の発話単位の認識精度が０％〜１００％のものを用いた。また、音響モデルには図５から男声に対して最も高い認識精度を得た男性用モデルと女声に対して最も高い認識精度を得た女性モデルの２種類を用い、整合性の判別の要素には音声認識部１から出力される音響スコア１５を用いた。音響スコア１５は、単語系列１２の他の候補との尤度差を基に算出されているため、整合性の無い音響モデルの場合には全ての単語系列１２の候補の尤度が共に低くなることで差が少なくなり、統計的に見て分散が小さくなる。そこで、本発明では１発話内の音響スコア１５の分散についても同様の傾向があると仮定し、上記２種類の音響モデルから得られる認識結果のうち、発話内において分散の大きいものを認識候補として採択した。その結果と比較用の図５の一部を図６に示す。

図６の結果より、従来手法で認識音声に最適であると思われる音響モデルを用いた時よりも精度の高い結果を得られたことが分かる。性別依存モデルよりも高い結果が得られたのは、例えば男声と似た特徴を持つ声を女性が発した場合などの要因が考えられる。
［変形例１］
第１実施形態では、モデル整合認識結果出力部４からの出力として、複数の単語系列１２を出力する方法と最も整合する音響モデルの単語系列１２のみを出力する方法の２種類があり得ることを示した。例えば、図７に示すように複数の単語系列１２_ｉを出力しておき、言語的な解析などの別の手法でも良いとされる単語系列１２を最終的に１つ選ぶ方法がある。このように他の方法と組み合わせることでさらに認識精度を向上させることも可能と考える。
［変形例２］
第1実施形態では、特徴量ベクトル生成部３１と認識結果選定部３４が音響モデル整合性判別部３内にある形態を示した。しかし、図８に示すように特徴量ベクトル生成部３１は音声認識部１内にあってもよいし、認識結果選定部３４の機能をモデル整合認識結果出力部に含めてもよい。

この場合には、音響モデル整合性判別部３には、特徴量ベクトル３１１_ｉと音響モデル情報１８が認識結果情報１０_ｉ’として入力され、判別結果情報が出力としてモデル整合認識結果出力部４に送られる。一方、単語系列１２と音響モデル情報１８が認識結果情報１０_ｉ”として直接モデル整合認識結果出力部４に送られる。モデル整合認識結果出力部４では、音響モデル整合性判別部３からの判別結果から、整合すると判別された音響モデルの単語系列１２を出力する。
［変形例３］
第１実施形態では、図３の比較部３３で既存の分類器を使用して境界面を作成する方法を示した。このように分類器を使用して整合性を判別する方法が現在の主流であるが、単純に特徴量ベクトル３１１_ｉ（ｉ＝１〜Ｋ）と参照ベクトルとの距離（ベクトルの各要素の差の二乗和）が最小となる特徴量ベクトル３１１_ｉから最も整合する音響モデルを求める方法もある。

音声認識装置の機能構成を示す図。音声認識部の機能構成を示す図。音響モデル整合性判別部の機能構成を示す図。音声認識のフローを示す図。評価に用いたデータ、比較対照用データを示す図。実験結果、比較対照用データを示す図。変形例１の機能構成を示す図。変形例２の機能構成を示す図。

Claims

音響モデルを用いて音声を認識する方法であって、
デジタル信号に変換された音声信号の音響特徴パラメータを、発話単位に複数の音響モデル、言語モデルおよび辞書を用いて認識し、
学習データについて上記複数の各音響モデル、言語モデルおよび辞書を用いて音声認識した結果に対応する尤度を含む情報と、上記発話単位に求めた認識結果に対応する尤度を含む情報との比較によって整合性を判別し、
整合する音響モデルを用いた認識結果を出力すること、
を特徴とする音声認識方法。
請求項１記載の音声認識方法であって、
上記認識結果に対応する尤度を含む情報から、認識結果の整合性を判別するため特徴量を求めること、
を特徴とする音声認識方法。
請求項２記載の音声認識方法であって、
事前に学習データから求めた認識結果に対応する尤度を含む情報から得た特徴量を基に分類器によって境界面を作成し、
上記音響モデルごとに求めた上記入力音声の上記特徴量と境界面とを比較することで整合性を判別すること、
を特徴とする音声認識方法。
請求項１〜３のいずれかに記載の音声認識方法であって、
上記音響モデルごとに、上記認識結果に対応する尤度を含む情報として、少なくとも単語系列、品詞情報、音響スコア、言語スコア、単語スコア、音響モデル情報を得ること、
を特徴とする音声認識方法。
請求項４記載の音声認識方法であって、
上記音響スコアを隠れマルコフモデルにより求め、上記言語スコアを単語Ｎ−ｇｒａｍにより求め、上記単語スコアを音響スコアと言語スコアの和として求めること、
を特徴とする音声認識方法。
請求項１〜５のいずれかに記載の音声認識方法であって、
上記整合性判別の結果として、整合と判断された全ての音響モデルの情報とその認識結果とを出力すること
を特徴とする音声認識方法。
請求項１〜５のいずれかに記載の音声認識方法であって、
上記整合性判別の結果として、最も整合すると判断された１つの認識結果とを出力すること
を特徴とする音声認識方法。
音響モデルを用いて音声を認識する音声認識装置であって、
複数の音響モデルを記録する音響モデル格納手段と、
言語モデルと辞書データを記録する言語モデル・辞書格納手段と、
デジタル信号に変換された音声信号の音響特徴パラメータを、発話単位に複数の音響モデル、言語モデルおよび辞書を用いて認識し、認識結果に対応する尤度を含む情報を出力する探索手段と、
学習データの認識結果に対応する尤度を含む情報を記録する学習結果格納手段と、
上記学習データに対する認識結果に対応する尤度を含む情報を基に、入力音声と各音響モデルとの整合性を判別する手段と、
整合する音響モデルを用いた認識結果を出力する手段と、
を備える音声認識装置。
請求項８記載の音声認識装置であって、
上記認識結果に対応する尤度を含む情報から、認識結果の整合性を判別するために特徴量を求める手段
を備える音声認識装置。
請求項９記載の音声認識装置であって、
少なくとも学習データから求めた認識結果に対応する尤度を含む情報から得た特徴量を記録した上記学習結果格納手段
を備える音声認識装置。
請求項１０記載の音声認識装置であって、
上記学習データの特徴量を基に分類器によって作成された境界面と上記音響モデルごとに求めた上記入力音声の上記特徴量とを比較することで整合性を判別する手段、
を備える音声認識装置。
請求項８〜１１のいずれかに記載の音声認識装置であって、
少なくとも単語系列、品詞情報、音響スコア、言語スコア、単語スコア、音響モデル情報を出力する上記探索手段
を備える音声認識装置。
請求項１２記載の音声認識装置であって、
上記音響スコアを隠れマルコフモデルにより求め、上記言語スコアを単語Ｎ−ｇｒａｍにより求め、上記単語スコアを音響スコアと言語スコアの和として求める上記探索手段
を備える音声認識装置。
請求項８〜１３のいずれかに記載の音声認識装置であって、
整合すると判断された全ての音響モデルの情報とその認識結果とを出力する手段
を備える音声認識装置。
請求項８〜１３のいずれかに記載の音声認識装置であって、
最も整合すると判断された１つの認識結果とを出力する手段
を備える音声認識装置。
請求項８〜１５のいずれかに記載の音声認識装置としてコンピュータを実行する音声認識プログラム。
請求項１６記載の音声認識プログラムを記録したコンピュータ読み取り可能な記録媒体。