JP3916792B2

JP3916792B2 - 音声認識装置

Info

Publication number: JP3916792B2
Application number: JP06191499A
Authority: JP
Inventors: 直人加藤
Original assignee: Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 1999-03-09
Filing date: 1999-03-09
Publication date: 2007-05-23
Anticipated expiration: 2019-03-09
Also published as: JP2000259174A

Description

【０００１】
【発明の属する技術分野】
本発明は、言語モデルを使用して音声認識を行う音声認識装置に関する。
【０００２】
【従来の技術】
言語モデルを使用して音声認識を行う音声認識装置が知られている。言語モデルとしては一般に、文章が記載されているテキストからｎ個の連続する単語について学習したｎ−ｇｒａｍモデルが使用される。従来は、ｎ＝２の場合である２−ｇｒａｍ（ｂｉ−ｇｒａｍとも呼ばれる）やｎ＝３の場合である３−ｇｒａｍ（ｔｒｉ−ｇｒａｍとも呼ばれる）がよく使用されていた（例えば、中川聖一著「確率モデルによる音声認識」電子通信学会、１９９８）。
【０００３】
従来この種の音声認識方法をｔｒｉ−ｇｒａｍを例にして説明する。ｔｒｉ−ｇｒａｍとして次の２つの言語モデルがテキストから学習されているとする。それぞれにはスコア（文法的あるいは意味的な結合度あるいは使用頻度について予め与える得点）が付けられている。この例では、テキスト中の出現頻度に基づいてスコアが計算されている。
【０００４】
（ｔｒｉ−ｇｒａｍの言語モデル例）
放送−技術−研究所スコア７
放送−技術−緊急会議スコア８
次のような音声が発生され、音声認識の対象となったとする。
【０００５】
（音声）
「砧にある放送技術研究所」
ここで音声の意味内容を文字で表現しているが、音声認識装置への入力は音声波形である。音声認識装置では入力の音声波形から音響的な特徴を取り出し、予め、音素（音韻よりも時間的に短い音声の長さの単位）ごとに用意されている音響モデルと比較する。入力の音声波形とその音響特徴がよく似ている音素を組み合わせて単語を認識する。通常、もっともらしさが高い幾つかの単語を認識候補として選択した後、言語モデルを使用して認識結果として出力する単語を決定する。
【０００６】
上記音声の「技術」に継続する「研究所」について、以下の４つの認識候補が得られたとする。
【０００７】
（認識候補の例）
【０００８】
【表１】

【０００９】
この時、現在、認識中の単語を含めた認識候補のｔｒｉ−ｇｒａｍは次のようになる。
【００１０】
（認識候補のｔｒｉ−ｇｒａｍの例）
認識候補１放送−技術−研究所
認識候補２放送−技術−緊急会議
認識候補３放送−技術−緩急
認識候補４放送−技術−県警
上記（ｔｒｉ−ｇｒａｍの言語モデル例）、すなわち、言語モデルとしてスコアが与えられているｔｒｉ−ｇｒａｍを参照すると、２つのｔｒｉ−ｇｒａｍ、すなわち、（認識候補のｔｒｉ−ｇｒａｍ）の４つの認識候補の中の認識候補１と認識候補２についてはｔｒｉ−ｇｒａｍのスコアが与えられており、他の認識候補３，４については該当するものが存在しない。このため、認識候補３および４についてのｔｒｉ−ｇｒａｍが除外される。
【００１１】
認識候補１、２についてのスコアを比較すると、認識候補２のスコアが８、認識候補１のスコアが７なので、スコアの高い認識候補として、認識候補２、すなわち、４つの認識候補（研究所、緊急会議、緩急、県警）の中の「緊急会議」が単語の認識結果として決定される。この認識結果は実際の音声「研究所」と異なるので誤認識となる。
【００１２】
この問題の１つの単純な解決策はｎ−ｇｒａｍモデルの中でｎ≧４のｎを使用するこである。今の例で６−ｇｒａｍを使用する例を説明する。テキストから次の６−ｇｒａｍが学習されているものとする。
【００１３】
（６−ｇｒａｍの言語モデル例）
砧−に−ある−放送−技術−研究所スコア９
音声認識候補として６−ｇｒａｍまで考慮すると、認識候補の６−ｇｒａｍは次のようになる。
【００１４】
（認識候補の−６ｇｒａｍの例）
認識候補１砧−に−ある−放送−技術−研究所
認識候補２砧−に−ある−放送−技術−緊急会議
認識候補３砧−に−ある−放送−技術−緩急
認識候補４砧−に−ある−放送−技術−県警
（６−ｇｒａｍの言語モデル例）を参照すると、この場合には、認識候補１のみがスコアを有するので、単語の認識結果は「研究所」となる。これまでの認識結果と連結すると、最終的には「砧にある放送技術研究所」が得られ、音声の意味内容と音声認識結果とが一致した正解が得られる。
【００１５】
なお、可変ｎ−ｇｒａｍ（政瀧浩和、松永昭一、匂坂芳典「連続音声認識のための可変長連鎖統計言語モデル」電子情報通信学会音声研究会報告，ＳＰ９５−７３，ｐｐ．１−６，１９９５では出現頻度が高い定型表現に対しては、ｎ≧４のｎ−ｇｒａｍを利用する方法を提案している。
【００１６】
【発明が解決しようとする課題】
しかしながら、上述の単純な解決策では、一般にどれくらいのｎを使用すればよいかが問題となる。ｎ＝４，５，６．．．と単純に全てのｎの場合をテキストから学習すると、ｎの値の増加と共に言語モデルのサイズ（個数）は大きくなり、音声認識装置の記憶容量を超えてしまう。
【００１７】
また、出現頻度が１回でも音声認識の際に重要となるｎ≧４のｎ−ｇｒａｍもあるので、出現頻度が高いｎ−ｇｒａｍのみを対象にしている可変ｎ−ｇｒａｍを使うことも困難である。
【００１８】
本発明の目的は、上述の点に鑑みて、言語モデルのデータサイズを増やすことなく、また、頻度によらず、認識精度のよい音声認識装置を提供することにある。
【００１９】
【課題を解決するための手段】
このような目的を達成するために、請求項１の発明は、入力の音声に対して単語毎に複数の音声認識候補を取得し、当該取得した複数の認識候補の中の１つを予め定めた選択基準にしたがって選択し、当該選択された認識候補を音声認識結果とする音声認識装置において、単語およびその単語の学習テキストにおける出現位置を記憶した記憶手段と、前記複数の音声認識候補の単語、及び、それまでに音声認識結果として選択された単語それぞれと同一単語の、前記学習テキストにおける出現位置の値を取得して、対応する音声認識候補の単語又は音声認識結果として選択された単語の単語位置の値とする単語位置検出手段と、前記複数の音声認識候補の単語それぞれについて、当該音声認識候補の単語の単語位置の値と、それまでに音声認識結果として選択された各単語の単語位置の値との連続性を調べ、連続している単語列の長さを計数する連続単語長さ計数手段とを有し、前記連続単語長さ計数手段によって計数された長さを前記選択基準とし、該選択基準に従って、該計数された単語列の長さが最も長い音声認識候補の単語を、音声認識結果として選択することを特徴とする。
【００２０】
請求項２の発明は、請求項１に記載の音声認識装置は言語モデルを使用して音声認識が行われ、前記言語モデルの使用に際して得られるｎ個の連続する単語列の出現頻度を示すスコアと前記計数手段により計数された単語列の長さが大きくなるほどその値が大きくなるスコアとを前記複数の認識候補それぞれについて加算する加算手段をさらに具え、加算されたスコアの値が最も大きい認識候補を単語の音声認識結果として選択することを特徴とする。
【００２１】
請求項３の発明は、請求項１に記載の音声認識装置において、前記記憶手段に登録すべき単語およびその出現位置を入力する入力手段と、当該入力された単語および単語位置を前記記憶手段に登録する登録手段とをさらに具えたことを特徴とする。
【００２２】
請求項４の発明は、請求項３に記載の音声認識装置において、前記入力手段は文が記載された学習テキストを受け付け、当該受け付けた文を単語に分割し、当該単語に分割された学習テキストから単語の出現位置を検出し、入力することを特徴とする。
【００２３】
請求項５の発明は、請求項１に記載の音声認識装置において、前記記憶手段に記憶される出現位置は同一の単語について複数の出現位置が許容されることを特徴とする。
【００２６】
【発明の実施の形態】
以下、図面を参照して本発明の実施形態を詳細に説明する。
【００２７】
本発明を適用した音声認識装置のシステム構成を図１に示す。図１において、ｉ１は言語モデルを学習するためのテキストを入力する端子であり、ｉ２は単語の出現位置を検出し、辞書に登録するためのテキストを入力する端子である。ｉ３は認識対象の音声を入力する端子である。０１は音声認識結果を出力する端子である。
【００２８】
１はｎ−ｇｒａｍモデル装置であり、端子ｉ１から入力されたテキストについて単語列の出現頻度を計数し、各単語列についてスコアを付与する。このようにして学習した単語列およびそのスコアが言語モデルとしてｎ−ｇｒａｍモデル装置１内の記憶装置に保存される。
【００２９】
ｎ−ｇｒａｍモデル装置１は音声認識デコード装置３から単語列４が与えられた場合には、与えられた単語列について、装置内に保存された複数の言語モデルを検索し、合致する言語モデルのスコアを音声認識デコード装置３に返す。
【００３０】
２は単語出現位置辞書装置である。単語出現位置辞書装置２は端子ｉ２から入力されたテキスト中の各単語の出現位置を検出し、単語とその出現位置を単語出現位置辞書装置２内の記憶装置に保存する。
【００３１】
また、音声認識デコード装置３から単語列が与えられた場合には、保存されている単語およびその位置を参照して、与えられた単語に合致する保存の単語のスコアを音声認識デコード装置３に返す。
【００３２】
３は音声認識デコード装置であり、端子ｉ３から入力された音声（信号）を音声認識する。より具体的には、従来と同様、音響モデルを使用して複数の音声認識候補を取得し、ｎ−ｇｒａｍモデル装置１に保存された言語モデルのｎ−ｇｒａｍ（スコア）および単語出現位置辞書装置２に保存されている単語およびその出現位置に基づき複数の音声認識候補の中から音声認識結果として使用する候補を決定する。この処理については後で詳しく説明する。
【００３３】
図１の音声認識装置はたとえば、パーソナルコンピュータなどの汎用コンピュータで実現できる。汎用コンピュータで実行する音声認識プログラムの内容を図２および図３に示す。図２は音声認識処理の具体的な処理内容を示す。図３は言語出現位置辞書に単語およびおよびその出現位置を登録するための処理内容を示す。
【００３４】
図２および図３を参照して本発明に係る処理を説明する。
【００３５】
ステップＳ１〜Ｓ３において汎用コンピュータ（内蔵のＣＰＵ）は言語モデルの学習を行う。登録したいテキスト（いわゆる文書）をキーボードや装着のフロッピーディスクからインターフェース（図１のｉ１，ｉ３に対応）を介して入力し、装置内のメモリに一時記憶しておく。メモリ上のテキストを従来と同様にして単語に分割し、ｎ−ｇｒａｍの値を従来と同様にして出現頻度から計算する。
【００３６】
計算された値（スコア）とその値に対応する単語列が言語モデルとして内蔵のハードディスクに保存される（ステップＳ１）。
【００３７】
他のテキストが入力されると汎用コンピュータは入力されたテキストを単語分割し、ｎ−ｇｒａｍを計算し直す。新たに計算された値で、ハードディスク上の対応の単語列のスコアが更新される。新たに出現した単語列についてはｎ−ｇｒａｍの値と共に、単語列がハードディスクに保存される（ステップＳ２）。
【００３８】
単語分割されたメモリ上のテキストを使用して、分割された単語について単語出現位置を検出する。この処理は図３を使用して説明する。新たに検出された単語についてはハードディスク上の単語出現位置辞書に追加登録される（ステップＳ３）。
【００３９】
ステップＳ４からＳ７で音声認識処理を実行する。
【００４０】
汎用コンピュータに接続のマイクロホンから音声が入力されると、入力された音声（信号）は音響特徴が抽出される。ハードディスクに保存されている音響モデルを参照することにより入力の音響特徴に対してもっともらしさが高い音声認識候補単語が各単語ごとに複数作成される（ステップＳ４）。
【００４１】
ステップＳ５では認識候補に対して、単語出現位置辞書に記載されている出現位置を与える。ステップＳ６では、これまでに音声認識結果として選択された単語列と今、選択しようとしている認識候補とを組み合わせた単語列について出現位置の連続性を調べる。単語出現位置が連続してる単語列の長さに応じてスコアを与える。
【００４２】
ステップＳ７では、ステップＳ６で得られた出現位置についてのスコアと言語モデルのｎ−ｇｒａｍでのスコアとを加算し、加算結果が最も大きい値を持つ認識候補を認識結果（選択する音声認識候補）とする。
【００４３】
ステップＳ８では入力された音声から得られるたとえば、文の単語認識候補全てについて、上述の認識候補確定処理を行ったかの終了判定を行う。終了していない場合には、手順をステップＳ４に戻し、次の位置の単語認識候補の作成および確定処理を実行する。全ての単語について候補選択を終了すると、選択された単語列（例えば、文）をインターフェース（図１の出力端子ｏ１に対応）を介してディスプレイに表示する（ステップＳ８→エンド）。
【００４４】
具体的な処理例を以下に示す。テキストが汎用コンピュータに入力されるとテキストは言語モデルの学習のために単語に分割される。テキストはニュース原稿のような大量のテキストが使用される。この単語に分割されたテキストを使用して、ｎ−ｇｒａｍを計算する。スコアは単語列の出現頻度に基づいて計算される（ステップＳ１）。
【００４５】
この計算によりｔｒｉ−ｇｒａｍ１として以下のスコアが得られたものとする。
【００４６】
（ｔｒｉ−ｇｒａｍ１）
放送−技術−研究所スコア６
放送−技術−緊急会議スコア８
新たな下記のテキストがテキストが入力されるとこのテキストは次のように単語分割される。
【００４７】
（テキスト）
世田谷の砧にある放送技術研究所のグラウンド
（単語分割されたテキスト）
世田谷−の−砧−に−ある−放送−技術−研究所−の−グラウンド
上記ｔｒｉ−ｇｒａｍ１の中の単語列と同じ単語列が単語分割されたテキストの中にあるので、
新たなｔｒｉ−ｇｒａｍ２が次のように再計算される（ステップＳ２）。
【００４８】
（ｔｒｉ−ｇｒａｍ２）
放送−技術−研究所スコア７（６＋１）
放送−技術−緊急会議スコア８
以上がｔｒｉ−ｇｒａｍの学習例であるが、ｎ≧４のｎ−ｇｒａｍについても学習が行われ、入力のテキスト中の単語と同一部分があるものについてはスコアの値が１だけインクリメント（加算）される。このようにして学習された（作成された）ｎ−ｇｒａｍの言語モデルが汎用コンピュータ内のハードディスクに保存される。
【００４９】
次に本発明に係る単語出現位置辞書の登録処理を図３を使用して説明する。テキストが入力されると従来のようにテキストが単語分割される（ステップＳ１１→Ｓ１２）。
【００５０】
次に、変数Ｉの初期値として数値１を与え、分割された単語のＩ番目の単語を取り出す（ステップＳ１３→Ｓ１４）。取り出された単語についてハードディスク上の単語出現位置辞書を検索し、同一の単語がなければ、単語およびそのスコアを登録（記憶）する（ステップＳ１５）。
【００５１】
以下、変数Ｉの値を更新して（ステップＳ１７）、テキストから分割の次の単語を取り出して、出現位置を単語出現位置辞書に登録する（ステップＳ１３〜Ｓ１６→Ｓ１７→Ｓ１３のループ処理）。文末の単語の出現位置の登録を終了すると図３の手順を終了する（ステップＳ１６→エンド）。
【００５２】
このような処理を行うことによって、下記の入力のテキストの各単語の出現位置が単語出現位置辞書に登録することができる（ステップＳ３）。
【００５３】
（単語分割されたテキストと出現位置の関係）
出現世田谷−の−砧−に−ある−放送−技術−研究所−の−グラウンド
位置 01 02 03 04 05 06 07 08 09 10
認識すべき下記の音声が入力されると、
（音声）
砧にある放送技術研究所
（ここでは文字表記を行っているが実際の入力は音声波形である。）
音声認識認識候補が順次に選択され、単語音声「研究所」については以下のような音声認識候補が作成される（ステップＳ４）。
【００５４】
（認識候補の例）
ここで、下記のような文字列の範囲でｔｒｉ−ｇｒａｍを適用すると、
【００５５】
【表２】

【００５６】
認識候補１，２のそれぞれについて、接続の単語の出現位置を単語出現位置辞書から求める（ステップＳ５）と、以下のようになる。
【００５７】
（認識候補の単語出現位置）
認識候補１砧−に−ある−放送−技術−研究所
出現位置１ 03 04 05 06 07 08
認識候補２砧−に−ある−放送−技術−緊急会議
出現位置２ 03 04 05 06 07 NULL
ここで、「NULL」は単語出現位置辞書には単語位置が記載されていないことを示す。
【００５８】
認識候補の単語を基準にして。そこから単語出現位置が連続している単語列の長さに対してスコアが与えられる。認識候補１は03〜08と６単語が連続しているので、６点のスコアが与えられる。一方、認識候補２では基準位置の単語「緊急会議」によって、単語出現位置が連続しなくなるので、出現位置に関するスコアは与えられない（ステップＳ６）。
【００５９】
言語モデルのｔｒｉ−ｇｒａｍのスコアと単語出現位置のスコアを加算すると（認識候補の総スコア）
認識候補１＝７＋６＝１３
認識候補２＝８＋０＝８
したがって、スコアが高い認識候補１（「研究所」）が認識結果として選択される（ステップＳ７）。
【００６０】
上述の実施形態の他に次の形態を実施できる。
【００６１】
１）上記音声認識プログラムを記録する記録媒体は、ＲＯＭ、ＲＡＭ等のＩＣメモリ、ハードディスクなどの固定記憶装置、フロッピーディスク、ＣＤＲＯＭなどの各種の情報記録媒体を使用することができる。
【００６２】
２）単語出現位置辞書に記載する単語位置の個数は１個に限らず複数とすることができる。この場合には、単語出現位置の連続の単語数を計数する際に、複数の単語位置それぞれについて連続の有無を判定し、前の単語と出現位置が連続する単語出現位置を使用する。
【００６３】
３）上述の実施形態では単語出現位置辞書の作成および登録機能を有する音声認識装置を説明したが、単語出現位置辞書は外部の装置で作成しておき、通信あるいは記録媒体を介して音声認識装置に実装するようにしてもよい。この場合には、音声認識装置側では、実装された単語出現位置辞書を使用して音声認識を行う。
【００６４】
４）上述の実施形態では言語モデルから得られるスコアと、単語出現位置辞書から得られるスコアとを加算して、複数の音声認識候補の中の１つを選択した。しかしながら、特定の用途、たとえば、入力される音声の文が限定されているような場合は、単語の出現位置だけを複数の音声認識候補の選択基準として使用することができる。
【００６５】
５）単語出現位置の連続性を調べるにはつぎのようにするとよい。基準となる単語の出現位置を単語出現位置から取得すると、取得した出現位置の値を１だけ減算する。次に基準となる単語の前の位置の単語についても単語出現位置を単語出現位置辞書から取得し、取得した出現位置値と、上記減算により得られる値を比較する。一致判定が得られると、２つの単語は連続していることになる。以下、順次に接続する単語について、単語出現位置から取得した出現位置の値と、連続する場合に予測される出現位置の値を比較する。また、一致判定が得られる回数を計数することで、連続の単語長さを計数することができる。
【００６６】
なお、単語列の先頭から認識候補の選択を行っていくので、選択が行われる毎に、選択された単語の単語出現辞書の出現位置をメモリに一時記憶しておくと、その都度、同一の単語の出現位置を単語出現辞書から取得する必要はない。
【００６７】
【発明の効果】
以上、説明したように、請求項１の発明によれば、複数の認識候補の選択基準の１つとして、その認識候補の出現位置を使用し、他の単語と出現位置に関する連続性を調べることで、実際の入力音声の意味内容により近い認識候補を選択することができる。この音声認識候補の選択に使用される単語およびその出現位置情報は、ｎ−ｇｒａｍの言語モデルの情報量よりも小さくできる。
【００６８】
請求項２の発明では、言語モデルによる出現頻度のスコアと、単語位置の連続長さのスコアを加算することで、単語位置のみのあるいは言語モデルを使用する認識候補の選択よりも音声認識精度を高めることができる。
【００６９】
請求項３の発明によれば、音声認識装置に、単語およびその出現位置を登録する機能が備わるので、新しい単語の音声認識にも対処することができる。
【００７０】
請求項４の発明では、テキストを用意することでテキストから自動的に新しい単語を検出し、単語およびその出現位置を登録することができる。
【００７１】
請求項５の発明では、出現位置が多岐に渡る単語についても、その出現位置を登録しておくことで、このような単語が認識候補となった場合にも対処することができる。
【図面の簡単な説明】
【図１】本発明実施形態のシステム構成を示すブロック図である。
【図２】本発明実施形態の音声認識処理内容を示すフローチャートである。
【図３】本発明実施形態の単語出現位置辞書の登録処理内容を示すフローチャートである。
【符号の説明】
１ｎ−ｇｒａｍモデル装置
２単語出現位置辞書装置
３音声認識デコード装置

Claims

入力の音声に対して単語毎に複数の音声認識候補を取得し、当該取得した複数の認識候補の中の１つを予め定めた選択基準にしたがって選択し、当該選択された認識候補を音声認識結果とする音声認識装置において、
単語およびその単語の学習テキストにおける出現位置を記憶した記憶手段と、
前記複数の音声認識候補の単語、及び、それまでに音声認識結果として選択された単語それぞれと同一単語の、前記学習テキストにおける出現位置の値を取得して、対応する音声認識候補の単語又は音声認識結果として選択された単語の単語位置の値とする単語位置検出手段と、
前記複数の音声認識候補の単語それぞれについて、当該音声認識候補の単語の単語位置の値と、それまでに音声認識結果として選択された各単語の単語位置の値との連続性を調べ、連続している単語列の長さを計数する連続単語長さ計数手段とを有し、
前記連続単語長さ計数手段によって計数された長さを前記選択基準とし、該選択基準に従って、該計数された単語列の長さが最も長い音声認識候補の単語を、音声認識結果として選択することを特徴とする音声認識装置。
請求項１に記載の音声認識装置は言語モデルを使用して音声認識が行われ、前記言語モデルの使用に際して得られるｎ個の連続する単語列の出現頻度を示すスコアと前記計数手段により計数された単語列の長さが大きくなるほどその値が大きくなるスコアとを前記複数の認識候補それぞれについて加算する加算手段をさらに具え、加算されたスコアの値が最も大きい認識候補を単語の音声認識結果として選択することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、前記記憶手段に登録すべき単語およびその出現位置を入力する入力手段と、当該入力された単語および単語位置を前記記憶手段に登録する登録手段とをさらに具えたことを特徴とする音声認識装置。
請求項３に記載の音声認識装置において、前記入力手段は文が記載された学習テキストを受け付け、当該受け付けた文を単語に分割し、当該単語に分割された学習テキストから単語の出現位置を検出し、入力することを特徴とする音声認識装置。
請求項１に記載の音声認識装置において、前記記憶手段に記憶される出現位置は同一の単語について複数の出現位置が許容されることを特徴とする音声認識装置。