JP5703491B2

JP5703491B2 - 言語モデル・音声認識辞書作成装置及びそれらにより作成された言語モデル・音声認識辞書を用いた情報処理装置

Info

Publication number: JP5703491B2
Application number: JP2010014372A
Authority: JP
Inventors: 博光西▲崎▼; 芳廣関口; 拓弥上平; 充高岡
Original assignee: University of Yamanashi NUC
Current assignee: University of Yamanashi NUC
Priority date: 2010-01-26
Filing date: 2010-01-26
Publication date: 2015-04-22
Anticipated expiration: 2030-01-26
Also published as: JP2011154099A

Description

本発明は，音声認識システムを利用している音声対話装置などの各種情報処理装置において，音声認識誤りによってそれらの装置の誤動作を防ぐための音声認識装置用音声認識辞書および言語モデルの学習方法である。音声認識システムを持つ情報処理装置を正しく動作させるために必要な発話と，装置が想定しない音声発話を正しく判定することで，装置の誤動作を防ぐことを目的とする。

音声認識システムを利用した各種情報処理装置（例えば、音声対話システム、ロボット、音声入力によるデータベース検索システム、カーナビ、音声翻訳システム等）では、利用者の発話を音声認識した際の音声認識誤りにより、装置に誤動作が生じることが多々ある。例えば，車内の会話を自動的に取得し，会話に関係する情報をカーナビゲーション上に表示するシステムや，コールセンター等において電話音声を取得し，電話会話内容に関する情報を自動的にデータベース検索し，会話内容と関連する情報を表示するようなシステムにおいて，全く関係のない会話なのに情報表示端末に情報が表示されると，利用者にとっては至極迷惑であるし，誤操作を誘導し業務に支障をきたすことが考えられる。音声認識システムを備えた情報処理装置においては，装置が想定しない発話の検出は大変重要である。

これを防ぐ方法としては，情報処理装置に入力された音声が本当に装置を動作させるために必要な発話であるか否かを判定し，装置を動作させるために必要な発話ではないあるいは想定しない発話と判定されたときには，装置の動作を行わない等の対処を行うことが必要となる。
装置を動作させるために必要な発話か否かを判定する方法として，多くの手法が提案されている。例えば，音声認識精度自体を改善することで誤認識を少なくし（公開論文が多数存在している）、認識結果に基づく判別を行う方法，音声認識結果に信頼度（スコア）を導入し信頼性が低いときは結果を棄却する試み（非特許文献１）、ドメイン外発話検出（非特許文献２）等、多くの手法が公開されている。
音声認識自体の精度を改善する試みは，音声認識が良くなれば，装置を動作させる必要のない発話を正しく音声認識し文字化できるようになるため，その文字化された認識結果を処理することで，無関係発話か否かの判別が可能になる。
認識結果の信頼度を利用する方法では，各種装置で利用されている音声認識システムが，装置を操作するための発話と関係のない発話をうまく音声認識できないという特徴を利用する。うまく音声認識できないというのは，音声認識システムが保持しているモデルと音声から抽出した特徴量とのマッチングが上手くいかずに，マッチングのスコア（信頼度）が低下してしまうということである。音声認識結果の信頼度が低い場合に，無関係発話と判定できる。
ドメイン外発話検出は，本発明で提案する手法と最も類似した手法である。例えば，非特許文献２の方法では，入力された発話の音声認識結果を話題分類し，想定外発話のトピックに分類されたときに，無関係発話と判定することができる。
しかし，これらの手法の多くは，音声認識システムの出力結果を利用しているため，音声認識システムの音声認識性能に大きく依存する。すなわち，音声認識システム内のデコーダ処理アルゴリズムや音響モデル，言語モデル（と音声認識辞書）の精度に大きく依存する手法である。モデルの精度が高くないと，音声認識結果に付与される信頼度も信頼性が低い。結局は，高い精度で想定しない発話を判定するためには，音声認識システムが保持している音響モデルや言語モデルを精度良いものにしなくてはならない。
音響モデルは，a,i,u,e,o等の音韻情報をモデル化したもので，最近は統計的手法により隠れマルコフモデル（HMM）でモデル化されるのが一般的である。精度の高い音響モデルを学習する方法は多くの文献で提案されているため，音響モデルの学習方法は本発明の対象外とする。
言語モデルは，N-gramによって統計的な単語のN個つながりを学習するのが一般的となっている（例えば，「学校へ行く」という文章からできるモデルは，P(へ|学校)，P(行く|へ)である）。しかしながら，N個の単語のつながりを学習するためには，大量のテキスト文章データが必要となり，このテキスト文章データを情報処理装置のタスクに併せて作成するのに膨大な時間と労力が必要である。これを解決するために，クラス言語モデル（単語を品詞などのカテゴリーに分類し，カテゴリーのN個つながりでモデルを持つこと）が提案されているが，それでも大量のテキスト文章データから学習した単語N-gramに比べると音声認識の性能が低下する。
また，音声対話システムなどでは，統計的N-gramモデルではなく，発話のパターンやルールを考慮した文法モデルによりモデル化された言語モデルが使われることが多い。文法モデルにおいても，モデル化された発話パターン以外の発話がなされたとき，学習されているパターンのいずれかに無理やり当てはめられるため，誤認識を起こしてしまう。
以上のことから，一般的な言語モデルを用いていては，情報処理装置が想定しない発話が入力されたとき，それを正しく棄却することが難しい。

音声対話システムにおける信頼度基準と音響基準を統合した不要音棄却、日本音響学会研究発表会講演論文集、2005(1) pp.57-58 20050308 対話コンテキストとトピッククラスタリングを用いたドメイン外発話の検出、電子情報通信学会技術研究報告。 SP, 音声、104(543) pp.49-54 20041222

解決しようとする問題点は、音声認識システムが持つ言語モデルでは，各種装置が想定しない発話を高精度に判別できないことである。

本発明は、予め想定しない発話を吸収するための単語集合（これをガベージクラスと呼ぶことにする）を言語モデルと音声認識辞書に組み込むことで，想定発話を判定することを最も主要な特徴とする。
（１）音声認識のための情報処理装置に入力された発話が情報処理装置の想定しない発話であると自動的に識別するための音声認識手段において言語モデル学習手段と
音声認識辞書作成手段と想定しない不必要な単語作成手段から構成されることを特徴とする言語モデル・音声認識辞書作成方法である。
（２）前記言語モデル学習手段が，統計的な単語N-gramまたはクラスN-gram言語モデル，もしくはパターン・ルールに基づく文法モデルを学習するために，言語モデル学習用文章データを加工し，想定しない発話パターンと想定する発話パターンの双方を同時に学習することを特徴とする。
（３）前記想定しない不必要な単語作成手段が，想定しない単語のリストを作成するために，想定しない不必要な単語作成データから想定しない単語のリストを作成し，かつ，自動的に想定しない単語リストを無から生成することで想定しない単語リストを作成することを特徴とする。
（４）前記音声認識辞書作成手段が，単語の読み方（発音）表記リスト（音声認識辞書）を，言語モデル学習用の文章データと前記想定しない不必要な単語作成手段の出力結果から作成することを特徴とする。
（５）前記言語モデル学習手段および前記音声認識辞書作成手段では、不要語に対し、不必要な単語である表示が付与され、出力結果には不要語が入力されたことを認識することができることを特徴とする。
（６）情報処理装置に対して不要語が入力されたとき，出力結果には単語列に不要語である旨が表示され，情報処理装置にとって想定しない発話であったと判定することを特徴とする。
（７）前記言語モデル学習手段が，情報処理方法が想定しない発話が入力されたときに想定しない発話として音声認識できるような統計的N-gramモデルあるいは文法モデルを学習するために，想定しない単語クラス集合を，言語モデル学習用文章に混合する想定しない不必要な単語クラス混合部を持つことを特徴とする。
（８）前記想定しない不必要な単語作成手段が，想定しない不必要な単語作成データ，もしくは無から自動的に作成した不要語候補リストの中から単語情報および言語モデル学習用文章データに基づいて想定しない不必要な単語リストを作成することを特徴とする。
（９）前記想定しない不必要な単語作成手段が，任意の平仮名N個組み合わせにより，無の状態から不要語候補リストを作成するための想定しない不必要な単語自動生成部を持つことを特徴とする請求項１に記載の言語モデル・音声認識辞書作成装置。
（１０）音声認識のための情報処理装置において，前記言語モデル学習手段と
前記音声認識辞書作成手段と前記想定しない不必要な単語作成手段から構成された音声認識結果を出力することを特徴とする。

本発明は，図１のような形態で利用されることを想定としている。音声認識手段を組み込んだ各種情報処理装置（例えば，カーナビ，音声対話システム，対話ロボット，音声検索システム等）において，音声認識システムで必ず利用される言語モデル，音声認識辞書（音響モデルは本発明の対象外とする）の学習方法を工夫することで，音声認識誤りの発生を大きく抑制する方法を提案する。これにより，情報処理装置がユーザに対して誤ったアクションを起こすことを防ぐことができる。
なお，ほとんどの音声認識システムを組み込んだ装置では，図１のような形態が取られている。音声認識結果を処理することになるため，音声認識が誤ったときには，ユーザへの誤ったアクションが行われることになる。

図２は，本発明の概念図を示す。情報処理装置１において、音声認識手段３は、言語モデル７の学習と音声認識辞書８の作成を行う言語モデル・音声認識辞書作成装置１７を介して行われる。言語モデル学習手段７と音声認識辞書８を用いると，音声認識結果６に含まれる各認識単語には，装置が想定しない発話であるというラベルが付けられる。そのラベルが付けられた場合は，処理手段４において，出力手段５に情報を出力しないようにする，もしくは装置を使っているユーザへ想定していない発話であった旨のフィードバックを行うことができる。
図３は，言語モデル学習装置の処理の流れである。まず，言語モデル学習用文章データ１４（これは音声認識システムを利用した各種装置に応じて開発者等が用意しておく）を形態素解析部１８で形態素解析し，文章を単語に分割する（日本語の場合。英語の場合は，単語の原型を得る）。単語−クラス辞書２０（これも開発者等が用意）を利用して，得られた単語をクラス名変換部２１でクラスに変換する。ここでいうクラスとは，単語の品詞名やある特定の意味を表すカテゴリーのことであり，各種装置の設計・開発者が任意に定義できる。
例えば，図４は，図３に対して具体的なデータの例を付与した図である。「中華料理」や「寿司」という単語は「＜料理ジャンル＞」というクラスに属し，「甲府市」は「＜地名＞」クラスに属する。単語とクラスの対応は，図３，図４中の単語−クラス辞書２０に基づいて行われ，クラス名変換部２１が，実際に単語列をクラス列に変換する。ここで，音声認識手段を利用した情報処理装置で必要とされるキーワード類を，ここでは有効単語と呼ぶことにする。
クラス列に変換された文章データに，ガベージクラス混合部２２においてガベージクラス列２４を混合させる。ガベージクラスとは，音声認識システムを持つ各種情報処理装置において，想定しない不必要な単語（これをガベージ単語と呼ぶ，この作成方法は後述）が属するクラスのことである。ユーザが不要な発話をしたときに限って，ガベージクラスとして認識結果を得ることができれば，音声認識結果に不要単語のラベルを付与することが容易にできる。これにより，後の処理で誤ったことを行わずに済む。文章データに，任意のガベージクラス列を追加することで，装置が想定しない発話が入力されたときでも，想定発話が入力されたときでも，両方を正しく認識でするための言語モデルを学習することが可能となる。
なお，スイッチ１９を切り替えることで，単語をクラス化しない場合は，単語表記の文章データにたいして同様にガベージクラス列２４を混合することで，ガベージクラスを含んだ言語モデル７を学習することが可能である。
ガベージクラス混合部２２において，このガベージクラス列２４と，言語モデル学習用文章データ１４から作成した有効単語のクラス列とを混合する際，混合のやり方は様々な方法があるが，例えば，発明者が開発した音声対話ロボットにおいては，有効単語とガベージ単語をランダムに組み合わせ，有効単語に対するガベージ単語の出現割合を７:３にすると，実験的に最も良い結果が得られることが分かっている。この割合については，各情報処理装置によって異なるため，この割合が最適であるとは言えない。
混合したクラス列から，言語モデル学習部２３において言語モデルを学習する。言語モデルの学習方法は，一般的なN-gram法であり，図４に示すように，クラス−クラス間，クラス−単語間の接続確率が学習される。
図５は，ガベージ単語を作成する方法であるガベージ単語作成手段１３の処理の流れである。ガベージ単語作成データ１５は，新聞データや講義・講演などの書き起こしデータなどの一般的なテキスト文章データの集合である。これを形態素解析部２５で形態素解析し，その結果を単語情報取得部２６が処理をおこない単語情報を得る。この単語情報と言語モデル学習用文章データ１４に基づいて，ガベージ単語とすべき単語の選定を単語選択部２７が行い，ガベージ単語リスト２８を作成する。単語情報は，例えば単語の出現頻度やエントロピーなどの情報を用いても構わない。本発明では，この単語抽出方法を限定しないこととする。言語モデル学習用データ１４を用いるのは，有効単語をガベージ単語リスト２８に登録しないようにするためである。
図６は，図５に対して具体的な説明を行うための図である。一般的なテキストコーパス（新聞記事集合や，講演テキストデータの書き起こしで良い）を用いて，例えばコーパスに出現する高頻度単語を選択し，ガベージ単語リストに登録する方法を説明している。ただし，言語モデル学習用文章データ１４に出現した単語に関しては，たとえ高頻度単語であっても，ガベージ単語に登録しない。なぜなら，言語モデル学習用文書中の単語は，情報処理装置を正しく動作させるために必要な単語を含んでいるからである。
もし，一般的なテキストコーパスを用意できなくても，ガベージ単語リスト２８を作成することができる。図７はその場合のガベージ単語作成方法の枠組みである。ガベージ自動生成部２９において，任意のN個の平仮名1文字をランダムに組み合わせた仮想単語を自動生成する。例えば，「あめみ」，「ためふか」などである。必ずしも意味のある単語である必要はない。このNの値を決定する方法は本発明では問わないが，各種実験の結果から例えば任意の3個の音節の組み合わせがガベージ単語としての機能を有効に果たせる。仮想単語の中から有効単語を取り除き，ガベージ単語リストとする。
図８は，認識辞書作成手段１１について説明した図である。音声認識辞書８には，音声認識結果として出力されるべき単語のリストを登録する。言語モデル学習用文章データ１４を形態素解析部３０で形態素解析し，その結果を単語発音取得部３１に入力することで，有効単語の読み方（発音）を得ることができる。また，ガベージ単語リスト２８の発音情報も単語発音取得部３１で取得する。得られた有効単語，ガベージ単語の発音情報を音響モデルと照らし合わせながら発音系列（主に音素もしくは音節列）に変換することで，音声認識辞書８を作成する。ここには，言語モデル７に出現する単語と，言語モデルに出現するクラスに対応する単語，ガベージ単語リストすべての発音表記が登録される。
図９は，図８に対して具体的なデータを付与した例である。言語モデル学習用文章データを形態素解析すると，単語とその発音表記（平仮名もしくはカタカナ系列）を得ることができる。同時に，ガベージ単語リストに登録してある単語の発音表記も取得する。発音辞書生成部では，音響モデルに登録してある音韻モデル表記に照らし合わせながら，発音表記を音韻モデル系列に書き直す。音響モデルでは，例えば，“あ”という音の波形を，“a”という音韻モデルとして学習している。最終的に，認識辞書では，単語とそれに対応する発音の音韻系列が登録されることになる。

本発明により作成した言語モデルと認識辞書を用いた音声認識システムでは，想定しない発話が入力され，それを音声認識したとき，結果として出力される単語には＜ガベージ＞というラベルが付与されていることになる。

ガベージというラベルが付与されている単語が，図２の情報処理装置１に入力されたとき，音この情報処理装置１に含まれる処理手段４によって音声認識結果６にガベージラベルが付いているか否かをチェックすることで，入力され認識された発話が想定しない発話であると容易に判定することができる。
本発明の有効性を用いるため，音声認識システムを持つ音声対話ロボットを構築した。人間の発話を，対話ロボットを正しく動作させるために必要な発話（これをドメイン内発話と呼ぶ）と，それ以外の対話ロボットが想定しない発話（これをドメイン外発話と呼ぶ）に分類する実験を行った。ドメイン内，外でそれぞれ200発話を用意した。
本発明により作成した言語モデルと音声認識辞書を用いて，（1）ドメイン外発話をどれだけドメイン外として検出できるか，（2）ドメイン内発話をどれだけドメイン内として検出できるかの2つの観点から有効性を検討した。

言語モデル学習用文章データは，全部で120文である。これに，ガベージクラスのみから成るガベージクラス学習用ダミー文データを一定の割合で加える。実験では，この割合を変化させている。
ガベージ単語生成データとガベージリストは，「日本語話し言葉コーパス」（一般人に，自分の夢や経験談等について数分程度講演してもらった数百時間の音声とその書きお越しのデータベースである）を利用した。日本語話し言葉コーパスに含まれる高頻度単語（50回以上出現）を約2500単語程度取り出した。この中から対話ロボットで必要な単語を除外し，これをガベージリストとする。

実験結果を図１０に示す。
ガベージの学習割合が０のときは，ガベージクラスを一切学習しないということなので，従来のシステムの結果，つまりベースラインとなる。このとき，ドメイン外発話はすべて，ドメイン内と検出されてしまい，このとき対話ロボットが人間の意図しない動作を行う。
しかし，ガベージ割合を増やすことで，ドメイン外発話をきちんと棄却することができ，ドメイン外発話検出精度が改善していることがわかる。ドメイン外発話が検知できれば，対話ロボットは誤動作しない。
一方で，ガベージの学習割合を１００％にしてしまうと，ガベージクラスのみしか学習されないため，ドメイン内発話が誤ってすべてドメイン外と認定されてしまい，ロボットが動作をしない。
ドメイン内発話検出精度とドメイン外発話検出精度の折り合いがつく点（つまり，2本のグラフが交差する点）を見ると，最適な学習割合は３０％であることが分かる。このとき，ドメイン外発話の約９０％を正しく棄却できていることになる。本発明により，無関係発話の検出が簡単にできることが実証された。

図１は音声認識システムを持つ一般的な各種装置の処理の概略を説明した図である。図２は，図１に対して，本発明で提案する言語モデルと音声認識辞書の作成方法の枠組みを追加し，図２の装置との関連性を説明した図である。図３は，図１に対する言語モデル学習装置の処理の流れを説明した図である。図４は，図３に対して，具体的なデータの流れ（このデータの例は例えばカーナビゲーション対話例）を付与した図である。図５は，ガベージ単語作成データを用いたときのガベージ単語生成の流れを説明した図である。図６は，図５に対して，具体的なデータの流れを付与した図である。図７は，図５に対してガベージ単語作成データが用意できない場合のガベージ単語作成方法を説明した図である。図８は，認識辞書作成装置について説明した図である。図９は，図８に対して，具体的なデータの流れを付与した図である。図１０は，本発明の有効性を確かめるための実験を行った結果の図である。図１１は，本発明の実施例の一つであるカーナビゲーションシステムにおける情報検索の例を説明している。図１２は，本発明を用いなかったときカーナビゲーションが誤操作を起こす例である。図１３は，本発明を利用することにより，カーナビゲーションが想定しない発話を棄却した例である。図１４は，患者情報検索システムにおける本発明の実施例である。

本発明は，音声認識システムを利用した各種装置（例えば，カーナビ，音声対話システム，対話ロボット，音声検索システム等）において，装置内の音声認識システムが使っている言語モデルや認識辞書の学習方法を工夫することで，装置が想定しない発話入力を高精度で棄却することが可能となった。

本発明の具体的な効果について，例を挙げて説明する。図１１は，カーナビゲーションシステム（以下，カーナビ）で，ユーザがお店や地名を検索する例である。
一般的なカーナビの場合，図１１に示すようにユーザの問いかけに対して，その発話を音声認識し，発話内容を理解し適切な応答を返す。
しかし，図１２に示すように，ユーザ同士の対話などで，カーナビと無関係のドメイン外発話が行われたとする。この場合，本発明を利用しなければ，カーナビは音声認識結果を無理やり解釈し，なんらかのアクションをユーザに返す。当然，このアクションはユーザの意図したものではない。

本発明を利用した場合，図１３に示すように，カーナビは「関係のない発話」ということを認識できる。そのため，誤作動を起こすことはない。

図１４は，音声入力による病院患者データベース検索装置の一実施例である。この例では患者データベースとしたが，データベースの種類は何でも構わない。例えば，データベースの種類としては，カーナビ等での飲食店検索，飲食店予約のための顧客情報，対話ロボット制御のための制御コマンドデータベース等が想定される。実際に，本発明を組み入れた病院診療予約のための患者情報データベース検索システムを構築したのでその枠組みを実施例として紹介する。

図１４の実施例では，音声インタフェース部とグラフィカルユーザインタフェース部，患者データベース検索制御部から構成されている。音声インタフェースは，マイクロフォン，音声認識エンジン，言語モデル・認識辞書選択部，音響モデル（1種類），言語モデル（n種類），認識辞書（n種類）から成る。グラフィカルユーザインタフェース部はタッチパネル式ディスプレイと画面描画部からなる。

まず，人間の電話口の音声，あるいは人間同士の会話音声をマイクが自動的にキャッチする。キャッチされた音声は，音声認識エンジンに送られる。音声認識エンジンは，音声切り出しを行う前処理部，切り出した音声の特徴量を抽出する特徴量抽出部，特徴量と各種モデル，辞書を用いて音声認識結果を得るデコーディング部から構成される。デコーディング部では，音響モデルおよび言語モデル・認識辞書選択部により選択された1つの言語モデルと1つの認識辞書を用いて，特徴量と音響モデルの適合性を判断しながら最適な音韻系列を選択し，言語モデルと認識辞書を用いて文法的な正しさ，単語の正しさを判断して，最終的にデータベース検索に用いる単語候補（キーワード）を複数個出力する。

ここで用いられる言語モデルは，名前や日時等を認識するための，文法モデルである。
デコーディング部によって得られた候補の単語を用いて，患者データベース検索制御部がデータベース検索を行う。

また，データベース検索制御部では，音声インタフェース部内の言語モデル・認識辞書選択部を制御する働きも持つ。言語モデル・認識辞書選択部は，ユーザにより患者データベース中のどのデータ（例えば，名前なのか，病名なのか）を検索したいのかが明確にされたとき，データベースを検索するためのキーワードを高い精度で認識するために，言語モデルおよび認識辞書を切り替える部分である。例えば，人名を検索したい場合は，人名認識用の言語モデルと認識辞書を利用し，予約画面になったときに日時を検索したい場合は，日時認識用の言語モデルと認識辞書に切り替える。これにより，状況に応じた高い音声認識を実現することができる。

データベース検索制御部では，上記の働きの他に，音声認識結果候補を使ってデータベースを検索する。検索結果は，グラフィカルユーザインタフェース部に送られる。

図１４の実施例では，電話や対話音声を音声認識エンジンの入力とするため，データベース検索にとって不要な発話が多く，常に誤認識している状態であった。誤認識をすると，必要のない情報が勝手に検索され，検索結果がディスプレイに表示され，利用者にとって戸惑いを与えていた。

しかし，本発明を組み入れた言語モデルと音声認識辞書を用いることで，想定外発話をしても誤動作する割合が大幅に削減できた。

音声認識システムを持つ各種装置（例えば、音声対話システム、ロボット、音声入力によるデータベース検索システム、カーナビ、音声翻訳システム等）に応用可能である。

1 音声認識システムを利用する情報処理装置
2 マイクロフォンなどの音声入力手段
3 音声認識手段（音声認識システム）
4 処理手段（情報処理装置1がその機能を果たすための処理を行う部分）
5 出力手段（ディスプレイ表示，合成音声出力，ロボットアームの動作など）
6 音声認識手段により出力された音声認識結果
7 言語モデル（統計的N-gramモデル，文法モデル）
8 音声認識辞書
9 音響モデル（発明対象外）
10 言語モデル学習手段
11 音声認識辞書作成手段
12 音響モデル学習手段
13 ガベージ単語学習手段
14 言語モデル学習用文章データ
15 ガベージ単語作成データ
16 音響モデル学習データ
17 言語モデル・音声認識辞書作成装置
18 言語モデル学習手段における形態素解析部
19 スイッチ（言語モデル学習用の単語をクラス化する場合としない場合で処理が分岐するため）
20 単語とクラスを対応させるための単語−クラス辞書
21 単語にクラス名を付与し，単語列をクラス列に変換するためのクラス名変換部
22 情報処理装置1が想定しない発話を不要発話として正しく音声認識するための不要文モデル化のためのガベージクラス混合部
23 統計的言語モデルあるいは文法モデルを学習するための言語モデル学習部
24 ガベージクラス列
25 ガベージ単語作成部における形態素解析部
26 形態素解析した結果から単語情報を得るための単語情報取得部
27 単語情報からガベージ単語を得るための単語選択部
28 情報処理装置1が不要とする単語の集合であるガベージ単語リスト
29 無から不要語を自動作成するガベージ自動生成部
30 音声認識辞書作成手段11における形態素解析部
31 単語発音取得部
32 発音辞書生成部

Claims

言語モデル学習手段と
音声認識辞書作成手段と
ガベージ単語作成手段を備え、
前記言語モデル学習手段は、言語モデル学習用文章データを形態素解析して情報処理装置で必要とされる有効単語を得、一般的なテキスト文章データから得られる単語又は仮想単語から前記有効単語を除いて得られる前記情報処理装置で不必要なガベージ単語が属するガベージクラス列を混合させ、言語モデルを学習することを特徴とする言語モデル・音声認識辞書作成装置。
前記言語モデル学習手段は、前記言語モデル学習用文章データの、得られた前記有効単語を、単語の品詞名やある特定の意味を表すカテゴリーであるクラスに置き換えて変換した学習文章を作成した後、前記ガベージ単語が属するガベージクラス列を前記学習文章に混合させることを特徴とする請求項１に記載の言語モデル・音声認識辞書作成装置。
前記ガベージ単語作成手段は、一般的なテキスト文章データの集合を形態素分割して得た単語から、前記有効単語を除くことにより、前記ガベージ単語を作成することを特徴とする請求項１又は２のいずれかに記載の言語モデル・音声認識辞書作成装置。
前記ガベージ単語作成手段は、任意のN個の平仮名をランダムに組み合わせた仮想単語から、前記有効単語を除くことにより、前記ガベージ単語を作成することを特徴とする請求項１又は２のいずれかに記載の言語モデル・音声認識辞書作成装置。
前記音声認識辞書作成手段が、前記有効単語と前記ガベージ単語の発音情報を、音響モデルと照らし合わせることで発音系列に変換し、音声認識辞書を作成することを特徴とする請求項１から４のいずれかに記載の言語モデル・音声認識辞書作成装置。
前記請求項１から５のいずれかに記載の言語モデル・音声認識辞書作成装置により作成された言語モデルと音声認識辞書を用いる音声認識手段を有する前記情報処理装置であって、前記ガベージ単語を音声認識したときには前記ガベージ単語であることを認識するラベルを付与することを特徴とする音声認識手段を有する情報処理装置。
前記情報処理装置がカーナビゲーションシステムであって、お店や地名の検索に用いられることを特徴とする請求項６に記載の音声認識手段を有する情報処理装置。
前記情報処理装置がデータベース検索装置であって、複数の言語モデルと、複数の認識辞書を備え、
データベース検索制御部により選択した言語モデルと認識辞書を用いて、データベース検索用単語候補を出力することを特徴とする請求項６に記載の音声認識手段を有する情報処理装置。
前記情報処理装置が、さらにデコーディング部を備え、
前記デコーディング部は、切り出した音声から抽出した特徴量と音響モデルの適合性を判断し、選択された言語モデルと認識辞書を用いてデータベース検索用単語候補を出力することを特徴とする請求項８に記載の音声認識手段を有する情報処理装置。
前記情報処理装置が、病院患者データベース検索装置であって、
前記言語モデルと認識辞書は、人名を検索する場合と日時を検索する場合で切り替えることを特徴とする請求項９に記載の音声認識手段を有する情報処理装置。