JP4189336B2

JP4189336B2 - 音声情報処理システム、音声情報処理方法及びプログラム

Info

Publication number: JP4189336B2
Application number: JP2004049749A
Authority: JP
Inventors: 尚義永江; 幸弘福永
Original assignee: Toshiba Corp
Current assignee: Toshiba Corp
Priority date: 2004-02-25
Filing date: 2004-02-25
Publication date: 2008-12-03
Anticipated expiration: 2024-02-25
Also published as: JP2005241829A

Description

本発明は、音声で文章の入力を行うことを目的とした音声情報処理システム、音声情報処理方法及びプログラムに関する。

近年、音声で日本語の文章を入力することができる日本語ディクテーションシステムが実用化され、様々な分野で実用システムとして利用され始めている。システムが音声認識可能な語彙数も数万〜十数万語程度と相当大量になってきた。しかし、現実には固有名詞や個々のユーザ特有の単語、日々作られる造語を事前にすべてシステムの辞書に登録しておくことは不可能である。一方、これらの単語が辞書に未登録の状態のままでは、ユーザがどんなに丁寧に発声しても、音声認識システムはその単語を正しく認識することができない。現在のシステムでは、これらの未登録単語は、ユーザ単語という形で音声認識システムが参照する認識語彙辞書に追加登録することで対処している。

ユーザ単語の辞書登録は、通常、「表記」「読み（あるいは発音）」「品詞」をユーザが入力・指定して辞書登録ボタンを押すという作業をすることで実現される。一般的には１つの単語ごとに上記３つ組の情報を入力して１語ずつユーザ単語を辞書登録していくことになる。

なお、従来の音声認識技術については、例えば非特許文献１２に詳しく開示されている。
「情報処理学会誌」、２０００年４月号（Ｖｏｌ．４１Ｎｏ．０４）、ｐｐ．４３６−４３９、特集名：道しるべ、題目：ここまできた音声認識技術、執筆者：河原達也（京都大学情報学研究科）

年々音声認識システムの性能は向上してきているが認識率は１００％ではない。そのため、システムが誤認識したときには、誤認識した箇所をユーザが再度発声し直したり、キーボード等の入力作業によって修正する必要がある。誤認識の主たる原因はユーザが入力した単語が認識語彙辞書に登録されていないためである。したがって、誤認識した単語をユーザ単語として辞書登録すればそれ以降は誤認識しないようにすることができる。しかし、文章を考えながらテキスト入力している最中に誤認識が発生する度にその入力作業や文章の推敲を中断してユーザ単語登録作業を実施することは非常に煩わしい。その結果、多くのユーザはユーザ単語登録作業を実施せずにキーボード等を使用して誤認識の訂正作業だけをその場で実施しているのが現状である。ただ、これではユーザが入力したかった単語は未登録のままなので、それ以降の文章入力時に同じ単語をユーザが発声すると音声認識システムはまた同じ誤認識をし、ユーザが同様の訂正作業を繰り返し行わなければならない。

本発明は、上記事情を考慮してなされたもので、ユーザが単語登録をせずとも同じ訂正を繰り返さなくてすむようにした音声情報処理システム、音声情報処理方法及びプログラムを提供することを目的とする。

本発明に係る音声情報処理システムは、処理対象となる語彙の仮名による読みに関する情報と仮名漢字による表記に関する情報とを含む第１の辞書データを複数登録した認識語彙辞書と、音声を入力する手段と、入力した前記音声をもとにして仮名文字列を生成する手段と、前記認識語彙辞書に基づいて、生成された前記仮名文字列に対する仮名漢字文字列を生成する仮名漢字文字列生成手段と、生成された前記仮名漢字文字列を表示画面に表示する表示手段と、表示された前記仮名漢字文字列に対する訂正を受け付ける受付手段と、前記訂正に係る仮名漢字文字列のもととなった仮名文字列と前記訂正の内容に関する情報とを含む第２の辞書データを生成する辞書データ生成手段と、生成された前記第２の辞書データを、前記認識語彙辞書とは異なる特定の辞書に登録する登録手段と、生成された前記仮名漢字文字列及び該仮名漢字文字列に対する訂正に基づき、前記仮名漢字文字列生成手段による仮名漢字文字列の生成にあたって、当該訂正に係る前記第２の辞書データを適用するか否かを判断するための基準となる基準データを生成する基準データ生成手段と、生成された前記基準データを前記第２の辞書データに対応付けて記憶する記憶手段とを備え、前記仮名漢字文字列生成手段は、前記認識語彙辞書と前記特定の辞書に登録されている前記第２の辞書データとのいずれも適用可能な場合には、該第２の辞書データに対応付けて前記記憶手段に記憶されている前記基準データに基づいて該第２の辞書データを適用すると判断されたときにのみ、該第２の辞書データに基づいて前記生成を行うことを特徴とする。

本発明では、入力音声を認識処理して生成された仮名漢字文字列に対してユーザが実施した訂正操作を監視し、当該仮名文字列と当該訂正に関する情報とを含む辞書データとして特定の辞書へ辞書登録する。これによりユーザが単語登録作業をしなくても、次回以降の言語処理時に通常の認識語彙辞書に加えて当該辞書データが併用できるので、次回以降同じ仮名漢字文字列を入力した際にシステムが正しく認識できるようになるため、ユーザは同様の訂正操作を繰り返し実施しなくてすむようになる。

なお、装置に係る本発明は方法に係る発明としても成立し、方法に係る本発明は装置に係る発明としても成立する。
また、装置または方法に係る本発明は、コンピュータに当該発明に相当する手段を実行させるための（あるいはコンピュータを当該発明に相当する手段として機能させるための、あるいはコンピュータに当該発明に相当する機能を実現させるための）プログラムとしても成立し、該プログラムを記録したコンピュータ読み取り可能な記録媒体としても成立する。

本発明によれば、ユーザが単語登録をせずとも同じ訂正を繰り返さなくてすむようになる。

以下、図面を参照しながら本発明の実施形態について説明する。

（第１の実施形態）
図１に、本発明の第1の実施形態に係る音声認識システム（自然言語処理システム）の構成例を示す。

図１に示されるように、本音声認識システムは、音声入力部１０１、訂正結果生成部１０２、訂正単語生成部１０３、訂正単語辞書登録部１０４、訂正単語辞書併用型音声認識部１０５、訂正単語辞書１０６、認識語彙辞書１０７を備えている。

認識語彙辞書１０７は、「表記」「読み」「品詞」などの情報の組からなる単語情報を複数登録したものである。

音声入力部１０１は、ユーザ（１００）からの入力音声データ（２００）を受け付ける部分である。

訂正単語辞書併用型音声認識部１０５は、後述するように、音声認識結果（２０１）を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。

生成された仮名漢字混じり文は、所定の表示装置（図示せず）の表示画面に表示される。また、表示された仮名漢字混じり文に対しては、所定の入力装置（図示せず）を介して、ユーザからの訂正操作を受け付けるとともに、訂正結果は、所定の表示装置の表示画面に表示される。

訂正結果生成部１０２は、訂正単語辞書併用型音声認識部１０５が出力した音声認識結果（２０１）と、音声認識結果に対してユーザが実施した訂正操作２０２とから、訂正範囲を特定し、音声認識結果中における訂正位置と訂正結果文字列とで構成される訂正結果情報（２０３）を生成する。ここで、ユーザが実施できる訂正操作には、音声による再入力だけでなく、キーボード、マウス、ペン等の文字情報を入力するすべての入力デバイスを使用することができる。また、訂正操作の際にこれらのデバイスを複数組み合わせても構わない。

訂正単語生成部１０３は、音声入力部１０１が受け取った入力音声（２００）の発音列と訂正結果生成部１０２が生成した訂正結果情報（２０３）とを組にした訂正単語（２０４）を生成する。なお、ここでは、生成単位を単語と呼んでいるが、登録する文字列は句や短文でも構わない。また、登録文字列に関して、制限は無い。

訂正単語辞書登録部１０４は、訂正単語生成部１０３が生成した訂正単語（２０４）を訂正単語辞書１０６に登録する。

訂正単語辞書併用型音声認識部１０５は、訂正単語辞書１０６と認識語彙辞書１０７とを併用して音声認識する（入力音声２００を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列２０１を生成する）。なお、訂正単語の読み（入力音声の発音列）が認識語彙辞書の単語と重複するものについては、例えば、訂正単語を優先する、両方の単語を提示してユーザに選択させるなど、既存の方法を採用して構わない。

図２に、本実施形態の音声認識システムにおける認識処理及び訂正処理に係る概略的な手順の一例を示す。

ユーザからの入力を受け付け（ステップＳ１）、これが認識対象の入力ならば（ステップＳ２）、認識処理を行い（ステップＳ３）、認識結果を出力する（ステップＳ４）。他方、入力が訂正のためのものであるならば（ステップＳ２）、訂正情報（本実施形態では、訂正結果情報）を生成し（ステップＳ５）、訂正情報に基づいて辞書登録（本実施形態では、訂正単語の訂正単語辞書への登録）を行う（ステップＳ６）。

従来の音声認識システムでは、未登録単語は、ユーザが認識語彙辞書に追加登録をしない限りは、その後も常に誤認識し続ける。しかし、本実施形態の音声認識システムでは、誤認識した際にユーザが訂正操作を行い、その操作結果が訂正単語として訂正単語辞書に自動登録されると、従来の認識語彙辞書だけを使用したときには、誤認識し続けた箇所でも、ユーザが以前実施した訂正操作が適用されて、正しく認識されるようになる。

以下では、図３を参照しながら具体例を用いて本実施形態につき説明する。

図３は、訂正結果生成部１０２、訂正単語生成部１０３、訂正単語辞書登録部１０４の動作とその過程で作成される訂正結果情報（２０３）、訂正単語（２０４）の具体例を示したものである。

本具体例では、「粉骨砕身努力します。」という文章を入力するケースで考える。このとき、ユーザは「ふんこつさいしんどりょくします」と発声する。ここで、「砕身」という単語が認識語彙辞書１０７に登録されていなかったとする。

なお、図３において（ａ）は「ふんこつさいしんどりょくします」と発声する１回目のケース（訂正・登録の前のケース）であり、（ｂ）は「ふんこつさいしんどりょくします」と発声する２回目のケース（訂正・登録の後のケース）である。

このとき、本音声認識システムは、次のような誤認識をすることになる（Ｓ１１）。
入力音声：「ふんこつさいしんどりょくします」
認識結果：「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは次のような訂正操作（Ａ）を実施する。
訂正操作（Ａ）：
（ｉ）カーソルを「最新」の右に移動
（ii）直前２文字「最新」を削除
（iii）「くだくしんたい」と発声
（iv）認識結果の「砕く身体」のうち「く」「体」を削除
（v）カーソルを文末に移動して次の発声の準備をする
なお、本実施形態では、訂正操作時に文字列を入力するために音声入力を使用しているが、これはキーボード等による文字入力であっても構わない。

上記の操作による訂正結果は、次のようになる（Ｓ１２）。
訂正結果：「粉骨砕身努力します。」
ユーザのこの訂正操作結果から訂正結果生成部１０２は、「最新」という認識結果の位置の文字列を「砕身」に訂正したことを検出し、訂正結果情報（２０３）として「訂正位置：認識結果中の『最新』、訂正結果文字列：砕身」を出力する。

そして、訂正単語生成部１０３は、入力音声と訂正結果生成部１０２が生成した訂正結果情報（２０３）とから、「入力音声の訂正位置に該当する発声列：さいしん」と「訂正結果文字列：砕身」とを対応付けて、「表記：砕身、読み：さいしん」という訂正単語２０４を生成する。

訂正単語辞書登録部１０４は、この訂正単語を訂正単語辞書１０６に登録する（Ｓ１３）。

以降、訂正単語辞書併用型音声認識部１０５は、この訂正単語が登録された訂正単語辞書１０６と認識語彙辞書１０７とを併用して音声認識する。この結果、ユーザが次回「ふんこつさいしん」と入力したときに、「さいしん」の入力部分で訂正単語辞書が参照されることにより、「砕身」という表記が表示される（Ｓ１４）。

従来の方法では、ユーザが「砕身：さいしん」という単語を辞書登録しない限り、何度でも「粉骨最新」と誤認識を繰り返すが、本実施形態によれば、１回だけユーザが訂正作業を実施すると、それ以降は同様の誤認識しないようになる。なお、訂正作業は本音声認識システムが誤認識したときにユーザが自然に行っている作業であるため、ユーザに対して新たな手間や負荷を与えることはない。

（第２の実施形態）
図４に、本発明の第２の実施形態に係る音声認識システム（自然言語処理システム）の構成例を示す。

図４に示されるように、本音声認識システムは、音声入力部１０１、認識語彙辞書１０７、訂正手順生成部１０８、訂正マクロ生成部１０９、訂正マクロ辞書登録部１１０、訂正マクロ辞書併用型音声認識部１１１、訂正マクロ辞書１１２を備えている。なお、図１と同様の部分には同じ符号を付してある。

本実施形態の音声認識システムにおける認識処理及び訂正処理に係る概略的な手順の一例は図２と同様である。

以下では、第１の実施形態と相違する点を中心に説明する。

訂正マクロ辞書併用型音声認識部１１１は、後述するように、音声認識結果（２０１）を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。

訂正手順生成部１０８は、訂正マクロ辞書併用型音声認識部１１１が出力した音声認識結果（２０１）と、音声認識結果に対してユーザが実施した訂正操作（２０２）とから、訂正範囲を特定し、訂正操作手順を表す訂正手順（２０６）を生成する。

訂正マクロ生成部１０９は、音声入力部１０１が受け取った入力音声（２００）の発音列と訂正手順生成部１０８が生成した訂正手順（２０６）とを組にした訂正マクロ（２０７）を生成する。

訂正マクロ辞書登録部１１０は、訂正マクロ生成部１０９が生成した訂正マクロ（２０７）を訂正マクロ辞書１１２に登録する。

訂正マクロ辞書併用型音声認識部１１１は、訂正マクロ辞書１１２と認識語彙辞書１０７とを併用して音声認識する（入力音声２００を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列２０１を生成する）。なお、訂正マクロの読み（入力音声の発音列）が認識語彙辞書の単語と重複するものについては、例えば、訂正マクロを優先する、訂正マクロに係る単語と認識語彙辞書に係る単語との両方を提示してユーザに選択させるなど、既存の方法を採用して構わない。

以下では、図５を参照しながら具体例を用いて本実施形態につき説明する。

図５は、訂正手順生成部１０８、訂正マクロ生成部１０９、訂正マクロ辞書登録部１１０の動作とその過程で作成される訂正手順（２０６）、訂正マクロ（２０７）の具体例を示したものである。

本具体例では、「粉骨砕身努力します。」という文章を入力するケースで考える。このとき、ユーザは「ふんこつさいしんどりょくします」と発声する。ここで、「砕身」という単語が認識語彙辞書に登録されていなかったとする。

なお、図５において（ａ）は「ふんこつさいしんどりょくします」と発声する１回目のケース（訂正・登録の前のケース）であり、（ｂ）は「ふんこつさいしんどりょくします」と発声する２回目のケース（訂正・登録の後のケース）である。

このとき、本音声認識システムは、次のような誤認識をすることになる（Ｓ２１）。
入力音声：「ふんこつさいしんどりょくします」
認識結果：「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは訂正操作（Ａ）を実施する（第１の実施形態参照）。

この操作による訂正結果は、次のようになる（Ｓ２２）。
訂正結果：「粉骨砕身努力します。」
ユーザのこの訂正操作結果から、訂正手順生成部１０８は、「最新」という認識結果の位置の文字列に対して訂正操作（Ａ）を実施したことを検出し、訂正手順２０６として「訂正位置：認識結果中の『最新』、訂正操作：「最新」を削除→「くだくしんたい」と発声→「く」「体」を削除」を出力する。

そして、訂正マクロ生成部１０９は、入力音声と訂正手順生成部１０８が生成した訂正手順２０６とから、「入力音声の訂正位置に該当する発声列：さいしん」と「訂正操作：「最新」を削除→「くだくしんたい」と発声→「く」「体」を削除」とを対応付けて、「操作：「最新」を削除→「くだくしんたい」と発声→「く」「体」を削除、読み：さいしん」という訂正マクロ２０７を生成する。

訂正マクロ辞書登録部１１０は、この訂正マクロを訂正マクロ辞書１１２に登録する（Ｓ２３）。

以降、訂正マクロ辞書併用型音声認識部１１１は、この訂正マクロが登録された訂正マクロ辞書１１２と認識語彙辞書１０７とを併用して音声認識する。この結果、ユーザが次回「ふんこつさいしん」と入力したときに、「さいしん」の入力部分で訂正マクロ辞書が参照されることにより、『「最新」を削除→「くだくしんたい」と発声→「く」「体」を削除』という訂正操作が自動実行され、最終的に「砕身」という表記が表示される。

なお、訂正マクロに割り当てる「読み」は、訂正前の入力音声の訂正箇所の発声列でなくてもよい。例えば、訂正操作時に入力した発声列を「読み」として割り当ててもよい。上例で説明すると、「くだくしんたい」という訂正操作時の発声列を割り当てることを考える。このとき、「ふんこつさいしんどりょくします」と入力すると、「粉骨最新努力します。」と誤認識することになるが、ここで、「くだくしんたい」と発声すると、訂正マクロが実行され、直前の認識結果中の「最新」という文字列を「砕身」に置き換える。従来であればカーソル移動や余分な文字列の削除が必要であったが、本実施形態によりユーザのこれらの手間を排除することが可能になる。

また、上記の例では訂正マクロと通常の音声認識単語とを区別しないで扱っているが、訂正マクロの前あるいは後ろに予約語（例えば「訂正マクロ」という語）を発声する規則にしてもよい。例えば、上記の例で説明すると「訂正マクロくだくしんたい」と発声したときのみ、直前の認識結果中の「最新」という文字列を「砕身」に置き換える。これにより、通常の音声入力時に誤って訂正マクロが実行されるのを避けることができる。

（第３の実施形態）
図６に、本発明の第３の実施形態に係る音声認識システム（自然言語処理システム）の構成例を示す。

図６に示されるように、本音声認識システムは、音声入力部１０１、訂正結果生成部１０２、訂正単語生成部１０３、認識語彙辞書１０７、ユーザ単語辞書登録自動起動部１１３、ユーザ単語辞書併用型音声認識部１１４、ユーザ辞書１１５を備えている。なお、図１と同様の部分には同じ符号を付してある。

ユーザ辞書１１５は、認識語彙辞書１０７と同様、「表記」「読み」「品詞」などの情報の組からなる単語情報を複数登録したものである。従来と同様、認識語彙辞書１０７は、一般的な辞書であるのに対して、ユーザ辞書１１５は、当該ユーザがユーザ単語（１０８）を適宜辞書登録するものである。

ユーザ単語辞書併用型音声認識部１１４は、後述するように、音声認識結果（２０１）を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。

ユーザ単語辞書登録自動起動部１１３は、訂正単語成部１０３が生成した訂正単語（２０４）を、ユーザ単語（１０８）としてユーザ辞書１１５に登録するための作業を実行する。例えば、ユーザ単語登録画面を表示し、登録に必要な「表記」「読み」「品詞」の情報を訂正単語（２０４）から生成して代入しておく。なお、このユーザ単語に代入する「品詞」については、例えば、訂正対象となったもとの単語の品詞と同じ品詞としておく方法や、画一的に「名詞」としておく方法など、種々の方法がある。ここで、ユーザは登録内容を確認できる。登録内容に問題が無ければ登録ボタンを押すだけでよい。もし、修正が必要なら適宜修正を行ってからユーザ単語を辞書に登録する。

ユーザ単語辞書併用型音声認識部１１４は、ユーザ辞書１１５と認識語彙辞書１０７とを併用して音声認識する（入力音声２００を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列２０１を生成する）。なお、ユーザ単語の読み（入力音声の発音列）が認識語彙辞書の単語と重複するものについては、例えば、ユーザ単語を優先する、両方の単語を提示してユーザに選択させるなど、既存の方法を採用して構わない。

以下では、図７を参照しながら具体例を用いて本実施形態につき説明する。

図７は、訂正結果生成部１０２、訂正単語生成部１０３、ユーザ単語辞書登録自動起動部１１３の動作とその過程で作成される訂正結果情報（２０３）、訂正単語（２０４）の具体例を示したものである。

なお、図７において（ａ）は「ふんこつさいしんどりょくします」と発声する１回目のケース（訂正・登録の前のケース）であり、（ｂ）は「ふんこつさいしんどりょくします」と発声する２回目のケース（訂正・登録の後のケース）である。

このとき、本音声認識システムは、次のような誤認識をすることになる（Ｓ３１）。
入力音声：「ふんこつさいしんどりょくします」
認識結果：「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは訂正操作（Ａ）を実施する（第１の実施形態参照）。

この操作による訂正結果は、次のようになる（Ｓ３２）。
訂正結果：「粉骨砕身努力します。」
ユーザのこの訂正操作結果から、訂正結果生成部１０２は、「最新」という認識結果の位置の文字列を「砕身」に訂正したことを検出し、訂正結果情報２０３として「訂正位置：認識結果中の『最新』、訂正結果文字列：砕身」を出力する。

そして、訂正単語生成部１０３は、入力音声と訂正結果生成部１０２が生成した訂正結果情報２０３から、「入力音声の訂正位置に該当する発声列：さいしん」と「訂正結果文字列：砕身」とを対応付けて、「表記：砕身、読み：さいしん」という訂正単語２０４を生成する。

ユーザ単語辞書登録自動起動部１１３は、この訂正単語をユーザ単語２０８としてユーザ単語辞書１１５に登録する（Ｓ３４）。ここで、ユーザ単語辞書に登録する前にユーザに確認画面を出し、登録内容を修正できるようにすることも可能である（Ｓ３３）。

ユーザ単語辞書併用型音声認識部１１４は、このユーザ単語が登録されたユーザ単語辞書１０６と認識語彙辞書１０７とを併用して音声認識する。この結果、ユーザが次回「ふんこつさいしん」と入力したときに「さいしん」の入力部分でユーザ単語辞書が参照されることにより、「砕身」という表記が表示される。

従来の方法では、ユーザが「砕身：さいしん」というユーザ単語を辞書登録するためには、「表記：砕身」「読み：さいしん」「品詞：名詞」をすべて指定しなければならなかった。本実施形態によれば、ユーザの訂正操作の内容からユーザ単語登録に必要な情報を自動的に抽出することができるため、簡便にユーザ単語を登録することが可能になる。これにより、ユーザは「表記」「読み」「品詞」をすべて１から入力し直す手間から開放され、通常のユーザ単語登録を実施する場合と比較して、ユーザ単語登録の煩わしさが大幅に低減される。

（第４の実施形態）
図８に、本発明の第４の実施形態に係る音声認識システム（自然言語処理システム）の構成例を示す。

図８に示されるように、本音声認識システムは、音声入力部１０１、訂正結果生成部１０２、訂正単語生成部１０３、訂正単語辞書登録部１０４、訂正単語辞書１０６、認識語彙辞書１０７、前後関係抽出部１２０、訂正単語前後関係表登録部１２１、訂正単語辞書及び前後関係表併用型音声認識部１２２、訂正単語前後関係表１２３を備えている。なお、図１と同様の部分には同じ符号を付してある。

訂正単語辞書及び前後関係表併用型音声認識部１２２は、後述するように、音声認識結果（２０１）を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。

前後関係抽出部１２０は、訂正単語辞書及び前後関係表併用型音声認識部１２２が出力した音声認識結果（２０１）と、音声認識結果に対してユーザが実施した訂正操作（２０２）とから、訂正範囲を特定し、訂正箇所の前後関係の情報（２２０）を抽出する。

訂正単語前後関係表登録部１２１は、訂正単語辞書登録部１０４が登録した訂正単語２０４と前後関係抽出部１２０が生成した訂正箇所の前後関係の情報（２２０）とを組にして訂正単語の前後関係の情報（２２１）を生成し、訂正単語前後関係表１２３に登録する。

訂正単語辞書及び前後関係表併用型音声認識部１２２は、訂正単語辞書１０６及び訂正単語前後関係表１２３と認識語彙辞書１０７とを併用して音声認識する（入力音声２００を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列２０１を生成する）。

第１の実施形態では、訂正単語の読みが認識語彙辞書の単語と重複する場合がある。例えば、この場合に常に訂正単語を優先させる方法を採用すると、一例として「最新の部署では粉骨砕身努力します。」という文章を入力するために、「さいしんのぶしょではふんこつさいしんどりょくします」と発声したとき、「さいしん」のところで必ず訂正単語が採用され、「砕身の部署では粉骨砕身努力します。」と誤認識してしまう、というようなケースが生じ得る。

そこで、本実施形態では、訂正単語の辞書登録時に訂正単語の前後関係を抽出し、訂正単語前後関係表として管理する。そして、入力音声が訂正単語と認識語彙との双方の読みと一致したときは、訂正単語の前後の単語と訂正単語前後関係表とを比較して訂正単語、認識語彙のいずれか適切な方を選択する。

以下では、図９を参照しながら具体例を用いて本実施形態につき説明する。

図９は、前後関係抽出部１２０、訂正単語前後関係表登録部１２１、訂正単語及び前後関係表併用型音声認識部１２２の動作とその過程で作成される訂正箇所の前後関係の情報（２２０）、訂正単語の前後関係の情報（２２１）の具体例を示したものである。

なお、図９において（ａ）は「ふんこつさいしんどりょくします」と発声する１回目のケース（訂正・登録の前のケース）であり、（ｂ）は「ふんこつさいしんどりょくします」と発声する２回目のケース（訂正・登録の後のケース）である。

このとき、本音声認識システムは、次のような誤認識をすることになる（Ｓ４１）。
入力音声：「ふんこつさいしんどりょくします」
認識結果：「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは訂正操作（Ａ）を実施する（第１の実施形態参照）。

この操作による訂正結果は、次のようになる（Ｓ４２）。
訂正結果：「粉骨砕身努力します。」
ユーザのこの訂正操作結果から、訂正結果生成部１０２は「最新」という認識結果の位置の文字列を「砕身」に訂正したことを検出し、訂正結果情報２０３として「訂正位置：認識結果中の『最新』、訂正結果文字列：砕身」を出力する。

これと同時に、ユーザの訂正操作２０２と音声認識結果２０１から、前後関係抽出部１２０は、「最新」という認識結果の位置の文字列に対して訂正操作（Ａ）を実施したことを検出し、その操作箇所の前後の単語として「粉骨」「努力」を検出し、訂正箇所の前後関係２２０として「訂正位置：前＝『粉骨』、後＝『努力』」を出力する。

そして、訂正単語生成部１０３は、入力音声と訂正結果生成部１０２が生成した訂正結果情報２０３から、「入力音声の訂正位置に該当する発声列：さいしん」と「訂正結果文字列：砕身」とを対応付けて、「表記：砕身、読み：さいしん」という訂正単語２０４を生成する。訂正単語辞書登録部１０４は、この訂正単語を訂正単語辞書１０６に登録する（Ｓ４３）。

一方、訂正単語前後関係表登録部１２１は、訂正単語辞書登録部１０４が登録した訂正単語２０４の「表記：砕身、読み：さいしん」と訂正箇所の前後関係２２０の「訂正位置：前＝『粉骨』、後＝『努力』」から、「表記：砕身、読み：さいしん」：前＝『粉骨』、後＝『努力』という訂正単語前後関係２２１を生成し、訂正単語前後関係表１２３に登録する（Ｓ４４）。

訂正単語辞書及び前後関係表併用型音声認識部１２２は、この訂正単語辞書１０６と訂正単語前後関係表１２３と認識語彙辞書１０７とを併用して音声認識する。この結果、ユーザが次回「さいしんのぶしょではふんこつさいしんどりょくします」と入力したとき、１番目の「さいしん」の部分では、前後関係が訂正単語登録時と異なるために、訂正単語辞書ではなく従来通り認識語彙辞書が参照されることになり、「最新」という表記が表示される（Ｓ４５，Ｓ４６）。一方、２番目の「さいしん」の部分では、前後の単語が訂正単語前後関係表の単語と一致しているため、訂正単語辞書の方が参照されることになり、「砕身」という表記が表示される（Ｓ４５，Ｓ４６）。この結果、「最新の部署では粉骨砕身努力します。」と正しく認識される（Ｓ４７）。

このように、訂正単語辞書を使用する場合に登録時の訂正単語の前後関係を考慮することにより、適切な箇所にだけ訂正単語を当てはめることができるようになる。

なお、本実施形態では、前後関係として訂正単語の前、後ろを使用したが、どちらか一方だけを使用するようにしても構わない。また、本実施形態では、前後関係として使用する範囲が前、後ろともに１単語であったが、これも２単語以上のより長い単語列を使用しても構わない。また、本実施形態では、前後関係として保持する対象が単語になっているが、単語の代わりに品詞等の単語に付随した情報を使用しても構わない。また、前後関係表との一致度を判定する方法として、前後関係表中に訂正単語の前後の単語が存在するか否かだけでなく、確率値を使用する判定法でも構わない。

（第５の実施形態）
本発明の第５の実施形態は、第４の実施形態の前後関係の情報を考慮する構成を、第２の実施形態に適用したものである。第４の実施形態で示した、前後関係の情報を考慮する構成に関する効果やバリエーションは、本実施形態にも妥当する。

図１０に、本発明の第５の実施形態に係る音声認識システム（自然言語処理システム）の構成例を示す。

図１０に示されるように、本音声認識システムは、音声入力部１０１、認識語彙辞書１０７、訂正手順生成部１０８、訂正マクロ生成部１０９、訂正マクロ辞書登録部１１０、訂正マクロ辞書１１２、前後関係抽出部１２０、訂正マクロ前後関係表登録部１２４、訂正マクロ辞書及び前後関係表併用型音声認識部１２５、訂正マクロ前後関係表１２６を備えている。なお、図４と同様の部分には同じ符号を付してある。

以下では、第２の実施形態と相違する点を中心に説明する。

訂正マクロ辞書及び前後関係表併用型音声認識部１２５は、後述するように、音声認識結果（２０１）を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。

前後関係抽出部１２０は、訂正マクロ辞書及び前後関係表併用型音声認識部１２５が出力した音声認識結果（２０１）と、音声認識結果に対してユーザが実施した訂正操作（２０２）とから、訂正範囲を特定し、訂正箇所の前後関係の情報（２２０）を抽出する。

訂正マクロ前後関係表登録部１２４は、訂正マクロ辞書登録部１１０が登録した訂正マクロ（２０７）と前後関係抽出部１２０が生成した訂正箇所の前後関係の情報（２２０）とを組にして訂正マクロの前後関係の情報（２２２）を生成し、訂正マクロ前後関係表１２６に登録する。

訂正マクロ辞書及び前後関係表併用型音声認識部１２５は、訂正マクロ辞書１１２及び訂正マクロ前後関係表１２６と認識語彙辞書１０７とを併用して音声認識する（入力音声２００を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列２０１を生成する）。

以下では、図１１を参照しながら具体例を用いて本実施形態につき説明する。

図１１は、前後関係抽出部１２０、訂正マクロ前後関係表登録部１２４、訂正マクロ及び前後関係表併用型音声認識部１２５の動作とその過程で作成される訂正箇所の前後関係の情報（２２０）、訂正マクロの前後関係の情報（２２２）の具体例を示したものである。

なお、図１１において（ａ）は「ふんこつさいしんどりょくします」と発声する１回目のケース（訂正・登録の前のケース）であり、（ｂ）は「ふんこつさいしんどりょくします」と発声する２回目のケース（訂正・登録の後のケース）である。

このとき、本音声認識システムは、次のような誤認識をすることになる（Ｓ５１）。
入力音声：「ふんこつさいしんどりょくします」
認識結果：「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは訂正操作（Ａ）を実施する（第１の実施形態参照）。

この操作による訂正結果は次のようになる（Ｓ５２）。
訂正結果：「粉骨砕身努力します。」
ユーザのこの訂正操作結果から、訂正手順生成部１０８は「最新」という認識結果の位置の文字列に対して訂正操作（Ａ）を実施したことを検出し、訂正手順２０６として「訂正位置：認識結果中の『最新』、訂正操作：「最新」を削除→「くだくしんたい」と発声→「く」「体」を削除」を出力する。

これと同時に、ユーザの訂正操作２０２と音声認識結果２０１とから前後関係抽出部１２０は、「最新」という認識結果の位置の文字列に対して訂正操作（Ａ）を実施したことを検出し、その操作箇所の前後の単語として「粉骨」「努力」を検出し、訂正箇所の前後関係２２０として「訂正位置：前＝『粉骨』、後＝『努力』」を出力する。

そして、訂正マクロ生成部１０９は、入力音声と訂正手順生成部１０８が生成した訂正手順２０６から、「入力音声の訂正位置に該当する発声列：さいしん」と「訂正操作：「最新」を削除→「くだくしんたい」と発声→「く」「体」を削除」とを対応付けて、「操作：「最新」を削除→「くだくしんたい」と発声→「く」「体」を削除、読み：さいしん」という訂正マクロ２０７を生成する。訂正マクロ辞書登録部１１０は、この訂正マクロを訂正マクロ辞書１１２に登録する（Ｓ５３）。

一方、訂正マクロ前後関係表登録部１２４は、訂正マクロ辞書登録部１１０が登録した訂正マクロ２０７の「操作：「最新」を削除→「くだくしんたい」と発声→「く」「体」を削除、読み：さいしん」と訂正箇所の前後関係２２０の「訂正位置：前＝『粉骨』、後＝『努力』」から、「操作：「最新」を削除→「くだくしんたい」と発声→「く」「体」を削除、読み：さいしん」：前＝『粉骨』、後＝『努力』という訂正マクロ前後関係２２２を生成し、訂正マクロ前後関係表１２６に登録する（Ｓ５４）。

訂正マクロ辞書及び前後関係表併用型音声認識部１２５は、この訂正マクロ辞書１１２と訂正マクロ前後関係表１２６と認識語彙辞書１０７を併用して音声認識する。その結果、次回、ユーザが「さいしんのぶしょではふんこつさいしんどりょくします」と入力したとき、１番目の「さいしん」の部分では、前後関係が訂正マクロ登録時と異なるために、訂正マクロ辞書ではなく従来通り認識語彙辞書が参照されることになり、「最新」という表記が表示される（Ｓ５５，Ｓ５６）。一方、２番目の「さいしん」の部分では、前後の単語が訂正マクロ前後関係表の単語と一致しているため、訂正マクロ辞書の方が参照されることになり、『「最新」を削除→「くだくしんたい」と発声→「く」「体」を削除』という訂正操作が自動実行され、最終的に「砕身」という表記が表示される（Ｓ５５，Ｓ５６）。この結果、「最新の部署では粉骨砕身努力します。」と正しく認識される（Ｓ５７）。

このように、訂正マクロ辞書を使用する場合に登録時の訂正マクロの前後関係を考慮することにより、適切な箇所にだけ訂正マクロを当てはめることができるようになる。

（第６の実施形態）
本発明の第６の実施形態は、第４の実施形態の前後関係の情報を考慮する構成を、第３の実施形態に適用したものである。第４の実施形態で示した、前後関係の情報を考慮する構成に関する効果やバリエーションは、本実施形態にも妥当する。

図１２に、本発明の第６の実施形態に係る音声認識システム（自然言語処理システム）の構成例を示す。

図１２に示されるように、本音声認識システムは、音声入力部１０１、訂正結果生成部１０２、訂正単語生成部１０３、認識語彙辞書１０７、ユーザ単語辞書登録自動起動部１１３、ユーザ辞書１１５、前後関係抽出部１２０、ユーザ単語前後関係表登録部１２７、ユーザ単語辞書及び前後関係表併用型音声認識部１２８、ユーザ単語前後関係表１２９を備えている。なお、図６と同様の部分には同じ符号を付してある。

以下では、第３の実施形態と相違する点を中心に説明する。

ユーザ単語辞書及び前後関係表併用型音声認識部１２８は、後述するように、音声認識結果（２０１）を生成する。ここでは、音声認識結果は、仮名漢字混じり文である。

前後関係抽出部１２０は、ユーザ単語辞書及び前後関係表併用型音声認識部１２８が出力した音声認識結果（２０１）と、音声認識結果に対してユーザが実施した訂正操作（２０２）とから、訂正範囲を特定し、訂正箇所の前後関係の情報（２２０）を抽出する。

ユーザ単語前後関係表登録部１２７は、ユーザ単語辞書登録部１１３が登録したユーザ単語（２０８）と前後関係抽出部１２０が生成した訂正箇所の前後関係の情報（２２０）とを組にしてユーザ単語の前後関係の情報（２２３）を生成し、ユーザ単語前後関係表１２９に登録する。

ユーザ単語辞書及び前後関係表併用型音声認識部１２８は、ユーザ単語辞書１１５及びユーザ単語前後関係表１２９と認識語彙辞書１０７と併用して音声認識する（入力音声２００を音声認識して仮名文字列を生成し、該仮名文字列をもとに仮名漢字混じり文字列２０１を生成する）。

以下では、図１３を参照しながら具体例を用いて本実施形態につき説明する。

図１３は、前後関係抽出部１２０、ユーザ単語前後関係表登録部１２７、ユーザ単語及び前後関係表併用型音声認識部１２８の動作とその過程で作成される訂正箇所の前後関係（２２０）、ユーザ単語の前後関係の情報（２２３）の具体例を示したものである。

なお、図１３において（ａ）は「ふんこつさいしんどりょくします」と発声する１回目のケース（訂正・登録の前のケース）であり、（ｂ）は「ふんこつさいしんどりょくします」と発声する２回目のケース（訂正・登録の後のケース）である。

このとき、本音声認識システムは、次のような誤認識をすることになる（Ｓ６１）。

入力音声：「ふんこつさいしんどりょくします」
認識結果：「粉骨最新努力します。」
この誤認識を訂正するために、ユーザは訂正操作（Ａ）を実施する（第１の実施形態参照）。

この操作による訂正結果は次のようになる（Ｓ６２）。
訂正結果：「粉骨砕身努力します。」
ユーザのこの訂正操作結果から、訂正結果生成部１０２は、「最新」という認識結果の位置の文字列を「砕身」に訂正したことを検出し、訂正結果情報２０３として「訂正位置：認識結果中の『最新』、訂正結果文字列：砕身」を出力する。

これと同時に、ユーザの訂正操作２０２と音声認識結果２０１から、前後関係抽出部１２０は「最新」という認識結果の位置の文字列に対して訂正操作（Ａ）を実施したことを検出し、その操作箇所の前後の単語として「粉骨」「努力」を検出し、訂正箇所の前後関係２２０として「訂正位置：前＝『粉骨』、後＝『努力』」を出力する。

そして、訂正単語生成部１０３は、入力音声と訂正結果生成部１０２が生成した訂正結果情報２０３から、「入力音声の訂正位置に該当する発声列：さいしん」と「訂正結果文字列：砕身」とを対応付けて、「表記：砕身、読み：さいしん」という訂正単語２０４を生成する。ユーザ単語辞書登録自動起動部１１３は、この訂正単語をユーザ単語２０８としてユーザ単語辞書１１５に登録する（Ｓ６４）。ここで、ユーザ単語辞書に登録する前にユーザに確認画面を出し、登録内容を修正できるようにすることも可能である（Ｓ６３）。

一方、ユーザ単語前後関係表登録部１２７は、ユーザ単語辞書登録自動起動部１１３が登録したユーザ単語２０８の「表記：砕身、読み：さいしん」と訂正箇所の前後関係２２０の「訂正位置：前＝『粉骨』、後＝『努力』」とから、「表記：砕身、読み：さいしん」：前＝『粉骨』、後＝『努力』というユーザ単語前後関係２２３を生成し、ユーザ単語前後関係表１２９に登録する（Ｓ６５）。

ユーザ単語辞書及び前後関係表併用型音声認識部１２８は、このユーザ単語辞書１１５とユーザ単語前後関係表１２９と認識語彙辞書１０７とを併用して音声認識する。その結果、次回、ユーザが「さいしんのぶしょではふんこつさいしんどりょくします」と入力したとき、１番目の「さいしん」の部分では、前後関係がユーザ単語登録時と異なるために、ユーザ単語辞書ではなく従来通り認識語彙辞書が参照されることになり、「最新」という表記が表示される（Ｓ６６，Ｓ６７）。一方、２番目の「さいしん」の部分では、前後の単語がユーザ単語前後関係表の単語と一致しているため、ユーザ単語辞書の方が参照されることになり、「砕身」という表記が表示される（Ｓ６６，Ｓ６７）。この結果、「最新の部署では粉骨砕身努力します。」と正しく認識される（Ｓ６８）。

このように、ユーザ単語辞書を使用する場合に登録時のユーザ単語の前後関係を考慮することにより、適切な箇所にだけユーザ単語を当てはめることができるようになる。

ところで、第１〜第６の実施形態では、音声入力部が、ユーザからの入力音声データを認識処理して、仮名文字列を出力し、各認識部が、該仮名文字列をもとに、仮名漢字混じり文字列を生成するものであったが、その代わりに、入力部が、キーボード装置あるいはいわゆるソフトキー等の仮名文字入力デバイスによりユーザからの仮名文字列を入力し、各認識部が、該仮名文字列をもとに、仮名漢字混じり文字列を生成する場合にも、本発明は適用可能である。また、音声入力と仮名文字とを併用する場合も可能である。

なお、以上の各機能は、ソフトウェアとして記述し適当な機構をもったコンピュータに処理させても実現可能である。
また、本実施形態は、コンピュータに所定の手段を実行させるための、あるいはコンピュータを所定の手段として機能させるための、あるいはコンピュータに所定の機能を実現させるためのプログラムとして実施することもできる。加えて該プログラムを記録したコンピュータ読取り可能な記録媒体として実施することもできる。

なお、本発明は上記実施形態そのままに限定されるものではなく、実施段階ではその要旨を逸脱しない範囲で構成要素を変形して具体化できる。また、上記実施形態に開示されている複数の構成要素の適宜な組み合わせにより、種々の発明を形成できる。例えば、実施形態に示される全構成要素から幾つかの構成要素を削除してもよい。さらに、異なる実施形態にわたる構成要素を適宜組み合わせてもよい。

本発明の第１の実施形態に係る音声認識システムの構成例を示す図本発明の第１〜第６の実施形態における処理手順の一例を示すフローチャート本発明の第１の実施形態に係る音声認識システムの訂正結果生成部、訂正単語生成部、訂正単語辞書登録部の動作を説明するための図本発明の第２の実施形態に係る音声認識システムの構成例を示す図同音声認識システムの訂正手順生成部、訂正マクロ生成部、訂正マクロ辞書登録部の動作を説明するための図本発明の第３の実施形態に係る音声認識システムの構成例を示す図同音声認識システムの訂正結果生成部、訂正単語生成部、ユーザ単語辞書登録自動起動部の動作を説明するための図本発明の第４の実施形態に係る音声認識システムの構成例を示す図同音声認識システムの前後関係抽出部、訂正単語前後関係表登録部、訂正単語及び前後関係表併用型音声認識部の動作を説明するための図本発明の第５の実施形態に係る音声認識システムの構成例を示す図同音声認識システムの前後関係抽出部、訂正マクロ前後関係表登録部、訂正マクロ及び前後関係表併用型音声認識部の動作を説明するための図本発明の第６の実施形態に係る音声認識システムの構成例を示す図同音声認識システムの前後関係抽出部、ユーザ単語前後関係表登録部、ユーザ単語及び前後関係表併用型音声認識部の動作を説明するための図

符号の説明

１０１…音声入力部、１０２…訂正結果生成部、１０３…訂正単語生成部、１０４…訂正単語辞書登録部、１０５…訂正単語辞書併用型音声認識部、１０６…訂正単語辞書、１０７…認識語彙辞書、１０８…訂正手順生成部、１０９…訂正マクロ生成部、１１０…訂正マクロ辞書登録部、１１１…訂正マクロ辞書併用型音声認識部、１１２…訂正マクロ辞書、１１３…ユーザ単語辞書登録自動起動部、１１４…ユーザ単語辞書併用型音声認識部、１１５…ユーザ辞書、１２０…前後関係抽出部、１２１…訂正単語前後関係表登録部、１２２…訂正単語辞書及び前後関係表併用型音声認識部、１２３…訂正単語前後関係表、１２４…訂正マクロ前後関係表登録部、１２５…訂正マクロ辞書及び前後関係表併用型音声認識部、１２６…訂正マクロ前後関係表、１２７…ユーザ単語前後関係表登録部、１２８…ユーザ単語前後関係表、１２９…ユーザ単語辞書及び前後関係表併用型音声認識部

Claims

処理対象となる語彙の仮名による読みに関する情報と仮名漢字による表記に関する情報とを含む第１の辞書データを複数登録した認識語彙辞書と、音声を入力する手段と、
入力した前記音声をもとにして仮名文字列を生成する手段と、
前記認識語彙辞書に基づいて、生成された前記仮名文字列に対する仮名漢字文字列を生成する仮名漢字文字列生成手段と、
生成された前記仮名漢字文字列を表示画面に表示する表示手段と、
表示された前記仮名漢字文字列に対する訂正を受け付ける受付手段と、
前記訂正に係る仮名漢字文字列のもととなった仮名文字列と前記訂正の内容に関する情報とを含む第２の辞書データを生成する辞書データ生成手段と、
生成された前記第２の辞書データを、前記認識語彙辞書とは異なる特定の辞書に登録する登録手段と、
生成された前記仮名漢字文字列及び該仮名漢字文字列に対する訂正に基づき、前記仮名漢字文字列生成手段による仮名漢字文字列の生成にあたって、当該訂正に係る前記第２の辞書データを適用するか否かを判断するための基準となる基準データを生成する基準データ生成手段と、
生成された前記基準データを前記第２の辞書データに対応付けて記憶する記憶手段とを備え、
前記仮名漢字文字列生成手段は、前記認識語彙辞書と前記特定の辞書に登録されている前記第２の辞書データとのいずれも適用可能な場合には、該第２の辞書データに対応付けて前記記憶手段に記憶されている前記基準データに基づいて該第２の辞書データを適用すると判断されたときにのみ、該第２の辞書データに基づいて前記生成を行うことを特徴とする音声情報処理システム。
前記辞書データ生成手段は、前記訂正の内容に関する情報として、少なくとも前記訂正に係る訂正後の仮名漢字文字列を、前記第２の辞書データに含めるものであることを特徴とする請求項１に記載の音声情報処理システム。
前記特定の辞書は、所望の語彙に係る辞書データをユーザ登録可能なユーザ辞書であることを特徴とする請求項２に記載の音声情報処理システム。
前記辞書データ生成手段は、前記訂正の内容に関する情報として、前記訂正に係る操作の手順を示す情報を、前記第２の辞書データに含めるものであることを特徴とする請求項１に記載の音声情報処理システム。
前記基準データは、前記訂正に係る仮名文字列に対して特定の位置関係を持つ箇所に、特定の仮名漢字文字列が存在する場合にのみ、前記第２の辞書データを適用することを示すものであることを特徴とする請求項１に記載の音声情報処理システム。
処理対象となる語彙の仮名による読みに関する情報と仮名漢字による表記に関する情報とを含む第１の辞書データを複数登録した認識語彙辞書を備えた言語処理装置における音声情報処理方法であって、
音声を入力する音声入力ステップと、
入力した前記音声をもとにして仮名文字列を生成する仮名文字列生成ステップと、
前記認識語彙辞書に基づいて、生成された前記仮名文字列に対する仮名漢字文字列を生成する仮名漢字文字列生成ステップと、
生成された前記仮名漢字文字列を表示画面に表示する表示ステップと、
表示された前記仮名漢字文字列に対する訂正を受け付ける受付ステップと、
前記訂正に係る仮名漢字文字列のもととなった仮名文字列と前記訂正の内容に関する情報とを含む第２の辞書データを生成する辞書データ生成ステップと、
生成された前記第２の辞書データを、前記認識語彙辞書とは異なる特定の辞書に登録する登録ステップと、
生成された前記仮名漢字文字列及び該仮名漢字文字列に対する訂正に基づき、前記仮名漢字文字列生成手段による仮名漢字文字列の生成にあたって、当該訂正に係る前記第２の辞書データを適用するか否かを判断するための基準となる基準データを生成する基準データ生成ステップと、
生成された前記基準データを前記第２の辞書データに対応付けて記憶手段に記憶する記憶ステップとを有し、
前記仮名漢字文字列生成ステップでは、前記認識語彙辞書と前記特定の辞書に登録されている前記第２の辞書データとのいずれも適用可能な場合には、該第２の辞書データに対応付けて前記記憶手段に記憶されている前記基準データに基づいて該第２の辞書データを適用すると判断されたときにのみ、該第２の辞書データに基づいて前記生成を行うことを特徴とする音声情報処理方法。
処理対象となる語彙の仮名による読みに関する情報と仮名漢字による表記に関する情報とを含む第１の辞書データを複数登録した認識語彙辞書を備えた音声情報処理システムとしてコンピュータを機能させるためのプログラムにおいて、
前記プログラムは、
音声を入力する音声入力ステップと、
入力した前記音声をもとにして仮名文字列を生成する仮名文字列生成ステップと、
前記認識語彙辞書に基づいて、生成された前記仮名文字列に対する仮名漢字文字列を生成する仮名漢字文字列生成ステップと、
生成された前記仮名漢字文字列を表示画面に表示する表示ステップと、
表示された前記仮名漢字文字列に対する訂正を受け付ける受付ステップと、
前記訂正に係る仮名漢字文字列のもととなった仮名文字列と前記訂正の内容に関する情報とを含む第２の辞書データを生成する辞書データ生成ステップと、
生成された前記第２の辞書データを、前記認識語彙辞書とは異なる特定の辞書に登録する登録ステップと、
生成された前記仮名漢字文字列及び該仮名漢字文字列に対する訂正に基づき、前記仮名漢字文字列生成手段による仮名漢字文字列の生成にあたって、当該訂正に係る前記第２の辞書データを適用するか否かを判断するための基準となる基準データを生成する基準データ生成ステップと、
生成された前記基準データを前記第２の辞書データに対応付けて記憶手段に記憶する記憶ステップとをコンピュータに実行させるとともに、
前記仮名漢字文字列生成ステップでは、前記認識語彙辞書と前記特定の辞書に登録されている前記第２の辞書データとのいずれも適用可能な場合には、該第２の辞書データに対応付けて前記記憶手段に記憶されている前記基準データに基づいて該第２の辞書データを適用すると判断されたときにのみ、該第２の辞書データに基づいて前記生成を行わせるものであることを特徴とするプログラム。