JP5366169B2

JP5366169B2 - 音声認識システム及び音声認識システム用プログラム

Info

Publication number: JP5366169B2
Application number: JP2007310695A
Authority: JP
Inventors: 淳緒方; 真孝後藤
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2006-11-30
Filing date: 2007-11-30
Publication date: 2013-12-11
Anticipated expiration: 2027-11-30
Also published as: US8401847B2; GB2457855A; WO2008069139A1; GB0911367D0; US20100057457A1; GB2457855B; JP2008158510A

Description

本発明は、音声データをテキストデータに変換する音声認識システム及び音声認識システム用プログラムに関するものである。

音声認識技術では、単語とこの単語に対する１以上の音素からなる１以上の発音とが組みになった単語発音データを、多数集めて構成された音声認識辞書を利用して、音声データをテキストデータに変換する。特開２００６−１４６００８号公報に記載の音声認識技術では、音声認識により得られたテキストデータに含まれる単語に対して競合候補を表示して、訂正を容易にする音声認識技術が開示されている。この公知の音声認識技術では、変換されたテキストデータと一緒に競合候補が表示されるため、訂正作業が飛躍的に速くなった。
特開２００６−１４６００８号公報

従来の音声認識技術では、音声認識辞書に登録されていない未知語については、音声認識することができないという固有の問題を有している。また競合候補を表示して訂正を容易にする従来の技術では、訂正の結果を音声認識辞書の高精度化に利用することは行われていない。すなわち従来の技術では、音声認識辞書に登録されていない発音で発声された単語については、いくら訂正を行っても、その訂正が学習には利用されていないので、音声認識の精度が上がることはなかった。

本発明の目的は、訂正結果を利用して、未知語を音声認識辞書に追加登録し、また既に音声認識辞書に登録されている単語の新たな発音を音声認識辞書に追加登録することを可能にして、音声認識の精度を高めることができる音声認識システム及び音声認識システム用プログラムを提供することにある。

本発明の音声認識システムは、音声認識手段と、単語訂正手段と、音素列変換手段と、音素列部分抽出手段と、発音決定手段と、追加登録手段とを備えている。また本発明の音声認識システム用プログラムは、コンピュータを音声認識手段と、単語訂正手段と、音素列変換手段と、音素列部分抽出手段と、発音決定手段と、追加登録手段として機能させるプログラムである。

音声認識手段は、単語と該単語に対する１以上の音素からなる１以上の発音とが組みになった単語発音データが、多数集められて構成された音声認識辞書を利用して、音声データをテキストデータに変換する。また音声認識手段は、テキストデータに含まれる各単語に対応する音声データ中の単語区間の開始時刻と終了時刻をテキストデータに付加する機能を有している。

単語訂正手段は、音声認識手段から得たテキストデータ中の各単語に対して競合候補を提示する。そして単語訂正手段は、競合候補中に正しい単語があるときには、競合候補から正しい単語を選択により訂正することを許容し、競合候補中に正しい単語がないときには、訂正対象の単語をマニュアル入力により訂正することを許容する。

また音素列変換手段は、音声データを音素単位で認識して複数の音素から構成される音素列に変換する。そして音素列変換手段は、音素列に含まれる各音素に対応する音声データ中の各音素単位の開始時刻と終了時刻を音素列に付加する機能を有する。音素列変換手段としては、公知の音素タイプライタを用いることができる。

音素列部分抽出手段は、音素列中から、単語訂正手段により訂正された単語の単語区間の開始時刻から終了時刻までに対応する区間内に存在する１以上の音素からなる音素列部分を抽出する。すなわち音素列部分抽出手段は、訂正された単語の発音を示す音素列部分を音素列から抽出する。そこで発音決定手段は、この音素列部分を前記単語訂正手段により訂正された訂正後の単語に対する発音と定める。

そして追加登録手段は、訂正後の単語が、音声認識辞書に登録されていないことを判定すると、訂正後の単語と発音決定手段が決定した発音とを組み合わせて新たな発音単語データとして音声認識辞書に追加登録する。また追加登録手段は、訂正後の単語が、音声認識辞書に既に登録されている既登録単語であることを判定すると、既登録単語の別の発音として、発音決定手段が決定した発音を追加登録する。

本発明によれば、訂正の対象となった単語について、発音を定め、その単語が音声認識辞書に登録されていない未知語であれば、その単語と発音とを音声認識辞書に登録するため、訂正をすればするほど、音声認識辞書への未知語登録が増えて、音声認識精度が上がることになる。また訂正の対象となった単語が既登録の単語である場合には、その単語の新たな発音が音声認識辞書に登録されることになるため、訂正後の新たな音声認識では、再度同じ発音の音声が入力されたときには、正しく音声認識ができるようになる。その結果、本発明によれば、訂正結果を音声認識辞書の高精度化に利用することができ、従来の音声認識技術と比べて、音声認識の精度を上げることができる。

テキストデータの訂正が完了する前であれば、音声認識辞書に新たに追加された未知語や発音を利用して、まだ訂正していない部分を再度音声認識することが好ましい。すなわち音声認識手段を、追加登録手段が新たな追加登録を行うと、テキストデータ中でまだ訂正が行われていない未訂正部分に対応する音声データを再度音声認識するように構成するのが好ましい。このようにすると音声認識辞書に新たな登録がなされると直ぐに音声認識の更新が行われて、新たな登録を音声認識に反映させることができる。その結果、未訂正部分に対する音声認識精度が直ぐに上がって、テキストデータの修正箇所を減らすことができる。

さらに音声認識の精度を高めるためには、音声データから話者のタイプ（話者間の音響的な近さ）を認定する話者認定手段を設ける。そして更に、話者のタイプに合わせて予め用意した複数の音声認識辞書から、話者認定手段により認定した話者のタイプに対応した音声認識辞書を音声認識手段で使用する音声認識辞書として選択する辞書選択手段とを設ければよい。このようにすると話者対応の音声認識辞書を使って音声認識を行うことになるため、更に認識精度を高めることができる。

また、音声データの内容に適した音声認識辞書を用いてもよい。その場合には、音声データから話されている内容の分野を認定する分野認定手段と、複数の分野に合わせて予め用意した複数の音声認識辞書から、分野認定手段により認定した分野に対応した音声認識辞書を音声認識手段で使用する音声認識辞書として選択する辞書選択手段とを更に備えた構成とすればよい。

本発明によれば、訂正の対象となった単語について、発音を定め、その単語が音声認識辞書に登録されていない未知語であれば、その単語と発音とを音声認識辞書に登録するため、訂正をすればするほど、音声認識辞書への未知語登録を増やすことができて、音声認識精度を上げることができる利点が得られる。また訂正の対象となった単語が既登録の単語である場合には、その単語の新たな発音が音声認識辞書に登録されることになるため、訂正後の新たな音声認識では、再度同じ発音の音声が入力されたときには、正しく音声認識ができるようになり、訂正結果を音声認識辞書の高精度化に利用することができて、従来の音声認識技術と比べて、音声認識の精度を上げることができる。

以下図面を参照して本発明の音声認識システム及び音声認識システム用プログラムの実施の形態の一例を詳細に説明する。図１は、音声データ記憶手段１と、音声認識手段２と、音声認識実行手段３と、音声認識辞書５と、テキストデータ記憶手段７と、単語訂正手段９と、認識結果表示手段１１と、音素列変換手段１３と、音素列部分抽出手段１５と、発音決定手段１６と、追加登録手段１７とを備えた本発明の音声認識システムの実施の形態の構成をブロック図で示している。また図２は、図１の実施の形態の各手段をコンピュータを用いて実現する場合に用いるソフトウェア（プログラム）のアルゴリズムの一例を示すフローチャートである。音声データ記憶手段１は、ＷＥＢクローラのような音声データ収集手段が収集した複数の音声データを記憶している。ＷＥＢクローラは、全文検索型サーチエンジンの検索データベースを作成するために、世界中のＷＥＢページを回収するプログラムによって実現される音声データ収集手段である。ここで音声データは、一般的にはＭＰ３ファイルであり、インターネットを介してＷＥＢ上から入手できるものである。

音声認識手段２は、単語と該単語に対する１以上の音素からなる１以上の発音とが組みになった単語発音データが、多数集められて構成された音声認識辞書５を利用して、音声データをテキストデータに変換する音声認識実行手段３と、音声認識実行手段３によって音声認識された結果得られるテキストデータを記憶するテキストデータ記憶手段７とを備えている。なお音声認識手段２は、テキストデータに含まれる各単語に対応する音声データ中の単語区間の開始時刻と終了時刻をテキストデータに付加する機能を有している。この機能は、音声認識実行手段３で音声認識を実行する際に同時に実行される。音声認識技術としては、種々の公知の音声認識技術を用いることができる。特に、本実施の形態では、音声認識実行手段３として、音声認識により得たテキストデータ中の単語と競合する競合候補を表示するためのデータをテキストデータに付加する機能を有しているものを用いる。

単語訂正手段９は、音声認識手段２から得たテキストデータ中の各単語に対して競合候補を提示する。そして単語訂正手段９は、競合候補中に正しい単語があるときには、競合候補から正しい単語を選択により訂正することを許容し、競合候補中に正しい単語がないときには、訂正対象の単語をマニュアル入力により訂正することを許容する。

具体的に、本実施の形態では、音声認識実行手段３で使用する音声認識技術及び単語訂正手段９で使用する単語訂正技術としては、発明者が２００４年に特許出願してすでに特開２００６−１４６００８号として公開されている、信頼度付き競合候補（コンフュージョンネットワーク）を生成できる機能を持った、大語彙連続音声認識器を用いている。なおこの音声認識器では、競合候補を提示して訂正を行っている。音声認識器２及び単語訂正手段９の内容は、特開２００６−１４６００８号公報に詳細に説明されているので説明は省略する。

図３は、単語訂正手段９で用いるインタフェースの一例を示す図である。図３においては、横一列に並んだ認識結果の各単語区間の下に、それぞれの競合候補のリストが表示される。なおこの表示態様は、特開２００６−１４６００８号公報に詳しく説明されている。このように競合候補が常に表示されているため、誤り箇所をクリックして候補を確認する手間が省け、正しい単語を次々と選択するだけで訂正できる。この表示で、競合候補の個数が多い箇所は認識時の曖昧性が高かった（音声認識器にとって自信がなかった）ことを表している。また各区間の競合候補は信頼度の高い順に並んでおり、通常は上から下へ候補を見ていくと、早く正解にたどり着けることが多い。また、競合候補には必ず空白の候補が含まれる。これは「スキップ候補」と呼ばれ、その区間の認識結果をないものとする役割を持つ。つまりこれをクリックするだけで、余分な単語が挿入されている箇所を容易に削除できる。なお競合候補が信頼度の高い順に並ぶこと、及びスキップ候補に関しても、特開２００６−１４６００８号公報に詳しく説明されている。

音素列変換手段１３は、音声データ記憶手段１から得た音声データを音素単位で認識して複数の音素から構成される音素列に変換する。そして音素列変換手段１３は、音素列に含まれる各音素に対応する音声データ中の各音素単位の開始時刻と終了時刻を音素列に付加する機能を有する。音素列変換手段１３としては、公知の音素タイプライタを用いることができる。

図４は、後に説明する発音の追加登録の例を説明するための図である。図４中の「funabanotaimuri」の表記が、音素タイプライタで音素データを音素列に変換した結果を示している。そして「funabanotaimuri」の下のｔ_０〜ｔ_１５が、それぞれ各音素単位の開始時刻および／または終了時刻である。すなわち最初の音素単位「ｆ」の開始時刻はｔ_０であり、終了時刻はｔ₁である。

音素列部分抽出手段１５は、音素列中から、単語訂正手段９により訂正された単語の単語区間の開始時刻から終了時刻までに対応する区間内に存在する１以上の音素からなる音素列部分を抽出する。図４の例で説明すると、訂正された単語は「船田」であり、船田の単語区間の開始時刻は「船田」の文字の上のＴ_０であり、終了時刻はＴ_１である。そしてこの「船田」の単語区間に存在する音素列部分は「ｆｕｎａｂａ」である。したがって音素列部分抽出手段１５は、訂正された単語「船田」の発音を示す音素列部分「ｆｕｎａｂａ」を音素列から抽出する。図４の例では、「船田」が「船橋」に単語訂正手段９によって訂正される。

発音決定手段１６は、この音素列部分「ｆｕｎａｂａ」を単語訂正手段９により訂正された訂正後の単語に対する発音と定める。

追加登録手段１７は、訂正後の単語が、音声認識辞書５に登録されていないことを判定すると、訂正後の単語と発音決定手段１６が決定した発音とを組み合わせて新たな発音単語データとして音声認識辞書５に追加登録する。また追加登録手段１７は、訂正後の単語が、音声認識辞書５に既に登録されている既登録単語であることを判定すると、既登録単語の別の発音として、発音決定手段１７が決定した発音を追加登録する。

例えば、図５に示すように、「駒大」の文字がマニュアル入力で訂正された未知語の単語であるとすると、訂正の対象となった単語「駒大」について、音素列部分「ｋｏｍａｄａｉ」がその発音となる。追加登録手段１７は、単語「駒大」が音声認識辞書５に登録されていない未知語であれば、その単語「駒大」と発音「ｋｏｍａｄａｉ」とを音声認識辞書５に登録する。訂正された単語と発音とを対応させるために、単語区間の時刻Ｔ_７〜Ｔ_８と音素列中の時刻ｔ_７０〜ｔ_７７とが利用されている。このように本実施の形態によれば、未知語登録をすることができるので、未知語の訂正をすればするほど、音声認識辞書５への未知語登録が増えて、音声認識精度が上がることになる。また図４に示すように、訂正の対象となった単語「船田」が既登録の単語「船橋」に訂正された場合には、単語「船橋」の新たな発音として「ｆｕｎａｂａ」が音声認識辞書に登録されることになる。すなわち図４に示すように、すでに単語「船橋」の発音として「ｆｕｎａｂｓｈｉ」と「ｆｕｎｅｂａｓｈｉ」が音声認識辞書５に登録されている場合に、「ｆｕｎａｂａ」が音声認識辞書に登録される。既登録の単語と新たな発音とを対応させるために、単語区間の時刻Ｔ_０〜Ｔ_１と音素列中の時刻ｔ_０〜ｔ_６とが利用されている。このようにすると、訂正後の新たな音声認識では、再度同じ発音の音声「ｆｕｎａｂａ」が入力されたときに、「船橋」と音声認識ができるようになる。その結果、本発明によれば、音声認識により得たテキストデータの訂正結果を音声認識辞書５の高精度化に利用することができる。よって、従来の音声認識技術と比べて、音声認識の精度を上げることができる。

現在対象としている音声データに対する、テキストデータの訂正が全て完了する前であれば、音声認識辞書５に新たに追加された未知語や発音を利用して、まだ訂正していない部分を再度音声認識することが好ましい。すなわち音声認識手段２を、追加登録手段１７が新たな追加登録を行うたびに、テキストデータ中でまだ訂正が行われていない未訂正部分に対応する音声データを再度音声認識するように構成するのが好ましい。このようにすると音声認識辞書５に新たに登録がなされると直ぐに音声認識の更新が行われて、新たな登録を音声認識に即座に反映させることができる。その結果、未訂正部分に対する音声認識精度が直ぐに上がって、テキストデータの修正箇所を減らすことができる。

図２のアルゴリズムは、ＷＥＢ上から入手した音声データを音声データ記憶手段１に記憶しておき、この音声データを音声認識によりテキストデータに変換したものを、一般のユーザ端末機からの訂正指令に応じて訂正する場合に、本実施の形態を適用する場合を例にして記載してある。したがってこの例では、単語訂正手段９の訂正入力部は、ユーザ端末機となる。なおユーザに訂正させるのではなく、システムの管理者が訂正を行ってもよいのは勿論である。この場合には、訂正入力部を含む単語訂正手段９のすべてがシステム内に存在することになる。図２のアルゴリズムでは、最初に、ステップＳＴ１で音声データを入力する。ステップＳＴ２では、音声認識を実行する。そして後の訂正のために、競合候補を得るためにコンフュージョンネットワークを生成する。コンフュージョンネットワークについては、特開２００６−１４６００８号公報に詳しく説明されているので省略する。ステップＳＴ２では、認識結果と競合候補とを保存し、また各単語の単語区間の開始時刻及び終了時刻を保存する。そしてステップＳＴ３で、図３に示すような訂正画面（インタフェース）を表示する。次にステップＳＴ４で、訂正動作が行われる。ステップＳＴ４では、ユーザが端末機から単語区間を訂正する訂正要求を作成する。訂正要求の内容は、（１）競合候補の中から選択する要求と、（２）単語区間に対して、新たな単語を追加入力する要求である。この訂正要求が完了すると、ユーザは端末機から訂正要求を音声認識システムの単語訂正手段９に送信され、単語訂正手段９はこの要求を実行する。

ステップＳＴ５では、ステップＳＴ２からステップＳＴ４までのステップと並行して、音声データを音素タイプライタを用いて音素列に変換する。すなわち「音素単位の音声認識」を行う。このとき同時に、各音素の開始時刻と終了時刻も、音声認識結果と一緒に保存する。そしてステップＳＴ６では、全体の音素列から、訂正の対象となる単語の単語区間にあたる時間（単語区間の開始時刻ｔｓから終了時刻ｔｅまでの時間）の音素列部分を抽出する。

ステップＳＴ７では、抽出した音素列部分を、訂正語の単語の発音とする。そしてステップＳＴ８へと進み、訂正後の単語が音声認識辞書５に登録されているか否か（すなわちその単語が未知語であるか否か）の判定が行われる。未知語であると判定した場合には、ステップＳＴ９へと進み、訂正後の単語とその発音を、音声認識辞書５に新たな単語として登録する。また未知語ではなく、既登録の単語であると判定した場合には、ステップＳＴ１０へと進む。ステップＳＴ１０では、ステップＳＴ７で決定した発音を新たな発音のバリエーションとして音声認識辞書５に追加登録される。

そして追加登録が完了したらステップＳＴ１１で、ユーザによる訂正処理がすべて終了しているか、すなわち未訂正の音声認識区間があるか否かの判定が行われる。未訂正の音声認識区間がなければ、終了する。未訂正の音声認識区間がある場合には、ステップＳＴ１２へと進んで、未訂正の音声認識区間を再度音声認識する。そして再度訂正ステップＳＴ１へと戻る。

図６は、さらに音声認識の精度を高めるための変形例の要部の構成を示すブロック図である。図６に示すように、変形例では、音声データから話者のタイプを認定する話者認定手段１９と、音声データから話されている内容の分野を認定する分野認定手段２１とを設けている。図６の変形例では、音声認識辞書５´に話者のタイプに合わせて予め用意した複数の音声認識辞書と複数の分野に合わせて予め用意した複数の音声認識辞書とが内蔵されている。そして辞書選択手段２３は、話者のタイプに合わせて予め用意した複数の音声認識辞書５´から、話者認定手段１９により認定した話者のタイプに対応した音声認識辞書を音声認識実行手段３で使用する音声認識辞書として選択する。なお話者認定手段１９を実現する技術については、例えば「M. Nishida and T. Kawahara,``Speaker Model Selection Based on the Bayesian Information Criterion Applied to Unsupervised Speaker Indexing,''IEEE Transactions on Speech and Audio Processing, Vol.13, No.4 , pp.583-592,2005.」に記載されている。また辞書選択手段２３は、複数の分野に合わせて予め用意した複数の音声認識辞書から、分野認定手段２１により認定した分野に対応した音声認識辞書を音声認識実行手段３で使用する音声認識辞書として選択する。なお分野認定手段２１を実現する技術については、例えば「R. Schwartz, T. Imai, F. Kubala, L. Nguyen, J. Makhoul,"A maximum likelihood model for topic classification of broadcastnews." Proc. Eurospeech '97, pp. 1455-1458 (1997).」に記載されている。このようにすると話者対応の音声認識辞書または音声データの内容に適した音声認識辞書を用いて音声認識を行うことになるため、更に認識精度を高めることができる。なお図６のように話者対応の音声認識辞書及び音声データの内容に適した音声認識辞書の両方を選択できるようにしなくても、一方の専門の音声認識辞書を選択できるようにしてもよいのは勿論である。その場合には、図６の話者認定手段１９及び分野認定手段２１のいずれか一方を設けておけばよい。

本発明の効果を評価するため、小規模ではあるが、ＷＥＢ上にあるポッドキャストに含まれる音声データを用いた実験を行った。評価データとしては、「日刊工業新聞Ｐｏｄｃａｓｔビジネスライン［ｈｔｔｐ：／／ｗｗｗ．ｂｔｏｄａｙ．ｎｅｔ／ｂｒｏａｄｃａｓｔ／ａｒｃｈｉｖｅｓ／００９ｎｉｋｋａｎ／］のポッドキャストのうち、２００６年８月２３日、２４日に公開された２つを用いた。本実験では、２００６年８月２３日の音声データとそれに対するユーザの訂正結果を利用して、新たな発音の学習（図４に相当）並びに未知語の学習（図５に相当）を行い、もう一方の音声データ（２００６年８月２４日）を用いて認識性能を調査した。

言語モデルには、ＣＳＲＣソフトウェア２００３年度版［河原、武田、伊藤、李、鹿野、山田：連続音声認識コンソーシアムの活動報告及び最終版ソフトウェアの概要。信学技報、ＳＰ２００３−１６９、２００３］の中から、１９９１年から２００２年までの新聞記事テキストより学習された６００００語のｂｉｇｒａｍを用いた。実験結果より、下記に示す結果が得られた。

未知語数認識率
ベースライン１０個７４．１％
本発明実施３個７７．９％
上記の結果のベースラインは、未知語の追加登録と発音変形追加登録をしない従来の手法を用いた結果である。そして本発明の実施は、未知語の追加登録と新たな発音を追加登録することにより高精度化した音声認識辞書を用いて音声認識を行った場合の結果である。上記結果から、未知語数が削減され、認識率も改善されていることがわかる。また、同一番組のポッドキャストでは、同じ話者が発生することが多く、決まった言い回しや発音パターンが日々繰り返されることもあるため、本発明が特に有効に働くことが判った。

本発明の音声認識システムの実施の形態の構成を示すブロック図である。図１の実施の形態をコンピュータを用いて実現する場合に用いるソフトウェアのアルゴリズムの一例を示すフローチャートである。単語訂正手段で用いるインタフェースの一例を示す図である。発音のバリエーションの追加登録を説明するために用いる図である。未知語の追加登録を説明するために用いる図である。変形例の要部の構成を示すブロック図である。

符号の説明

１音声データ記憶手段
２音声認識手段
３音声認識実行手段
５音声認識辞書
７テキストデータ記憶手段
９単語訂正手段
１１認識結果表示手段
１３音素列変換手段
１５音素列部分抽出手段
１６発音決定手段
１７追加登録手段
１９話者認定手段
２１分野認定手段
２３辞書選択手段

Claims

単語と該単語に対する１以上の音素からなる１以上の発音とが組みになった単語発音データが、多数集められて構成された音声認識辞書を利用して、音声データをテキストデータに変換し且つ、前記テキストデータに含まれる各単語に対応する前記音声データ中の単語区間の開始時刻と終了時刻を前記テキストデータに付加する機能を有する音声認識手段と、
前記音声認識手段から得た前記テキストデータ中の各単語に対して競合候補を提示して、前記競合候補中に正しい単語があるときには、前記競合候補から前記正しい単語を選択により訂正することを許容する単語訂正手段と、
前記音声データを音素単位で認識して複数の音素から構成される音素列に変換し且つ、前記音素列に含まれる各音素に対応する前記音声データ中の各音素単位の開始時刻と終了時刻を前記音素列に付加する機能を有する音素列変換手段と、
前記音素列中から、前記単語訂正手段により訂正された単語の単語区間の前記開始時刻から前記終了時刻までに対応する区間内に存在する１以上の音素からなる音素列部分を抽出する音素列部分抽出手段と、
前記音素列部分を前記単語訂正手段により訂正された訂正後の単語に対する発音と定める発音決定手段と、
前記訂正後の単語が、前記音声認識辞書に既に登録されている既登録単語であることを判定すると、前記既登録単語の別の発音として、前記発音決定手段が決定した前記音素列部分からなる発音を追加登録する追加登録手段とを有する音声認識システムであって、
前記単語訂正手段は、前記競合候補中に正しい単語がないときには、訂正対象の単語をマニュアル入力により訂正することを許容し、
前記追加登録手段は、前記訂正後の単語が、前記音声認識辞書に登録されていないことを判定すると、前記訂正後の単語と前記発音決定手段が決定した前記音素列部分からなる前記発音とを組み合わせて新たな発音単語データとして前記音声認識辞書に追加登録することを特徴とする音声認識システム。
前記音声認識手段は、前記追加登録手段が新たな追加登録を行うと、前記テキストデータ中でまだ訂正が行われていない未訂正部分に対応する音声データを再度音声認識することを特徴とする請求項１に記載の音声認識システム。
前記音声データから話者のタイプを認定する話者認定手段と、
話者のタイプに合わせて予め用意した複数の音声認識辞書から、前記話者認定手段により認定した話者のタイプに対応した音声認識辞書を音声認識手段で使用する音声認識辞書として選択する辞書選択手段とを更に備えている請求項１または２に記載の音声認識システム。
前記音声データから話されている内容の分野を認定する分野認定手段と、
複数の分野に合わせて予め用意した複数の音声認識辞書から、前記分野認定手段により認定した分野に対応した音声認識辞書を音声認識手段で使用する音声認識辞書として選択する辞書選択手段とを更に備えている請求項１または２に記載の音声認識システム。
前記音素列変換手段は、音素タイプライタである請求項１に記載の音声認識システム。
コンピュータを、
単語と該単語に対する１以上の音素からなる１以上の発音とが組みになった単語発音データが、多数集められて構成された音声認識辞書を利用して、音声データをテキストデータに変換し且つ、前記テキストデータに含まれる各単語に対応する前記音声データ中の単語区間の開始時刻と終了時刻を前記テキストデータに付加する機能を有する音声認識手段と、
前記音声認識手段から得た前記テキストデータ中の各単語に対して競合候補を提示して、前記競合候補中に正しい単語があるときには、前記競合候補から前記正しい単語を選択により訂正することを許容し、前記競合候補中に正しい単語がないときには、訂正対象の単語をマニュアル入力により訂正することを許容する単語訂正手段と、
前記音声データを音素単位で認識して複数の音素から構成される音素列に変換し且つ、前記音素列に含まれる各音素に対応する前記音声データ中の各音素単位の開始時刻と終了時刻を前記音素列に付加する機能を有する音素列変換手段と、
前記音素列中から、前記単語訂正手段により訂正された単語の単語区間の前記開始時刻から前記終了時刻までに対応する区間内に存在する１以上の音素からなる音素列部分を抽出する音素列部分抽出手段と、
前記音素列部分を前記単語訂正手段により訂正された訂正後の単語に対する発音と定める発音決定手段と、
前記訂正後の単語が、前記音声認識辞書に登録されていないことを判定すると、前記訂正後の単語と前記発音決定手段が決定した前記音素列部分からなる前記発音とを組み合わせて新たな発音単語データとして前記音声認識辞書に追加登録し、前記訂正後の単語が、前記音声認識辞書に既に登録されている既登録単語であることを判定すると、前記既登録単語の別の発音として、前記発音決定手段が決定した前記音素列部分からなる前記発音を追加登録する追加登録手段として機能させるための音声認識システム用プログラム。
前記音声認識手段は、前記追加登録手段が新たな追加登録を行うと、前記テキストデータ中でまだ訂正が行われていない未訂正部分に対応する音声データを再度音声認識することを特徴とする請求項６に記載の音声認識システム用プログラム。
前記コンピュータを、
前記音声データから話者のタイプを認定する話者認定手段と、
話者のタイプに合わせて予め用意した複数の音声認識辞書から、前記話者認定手段により認定した話者のタイプに対応した音声認識辞書を音声認識手段で使用する音声認識辞書として選択する辞書選択手段として機能させるための請求項６または７に記載の音声認識システム用プログラム。
前記コンピュータを、
前記音声データから話されている内容の分野を認定する分野認定手段と、
複数の分野に合わせて予め用意した複数の音声認識辞書から、前記分野認定手段により認定した分野に対応した音声認識辞書を音声認識手段で使用する音声認識辞書として選択する辞書選択手段として機能させるための請求項６または７に記載の音声認識システム用プログラム。