JP4604178B2

JP4604178B2 - 音声認識装置及び方法ならびにプログラム

Info

Publication number: JP4604178B2
Application number: JP2004338234A
Authority: JP
Inventors: 真孝後藤; 淳緒方
Original assignee: National Institute of Advanced Industrial Science and Technology AIST
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 2004-11-22
Filing date: 2004-11-22
Publication date: 2010-12-22
Anticipated expiration: 2024-11-22
Also published as: WO2006054724A1; US20080052073A1; US7848926B2; GB2437436B; GB2437436A; GB0712277D0; JP2006146008A

Description

本発明は、画面に表示した音声認識結果を訂正することを可能にする音声認識装置及び方法並びにプログラムに関するものである。

従来より、計算機による音声認識は、必ず認識誤りを起こすことが知られている。他の人の話を聞き間違うことからもわかるように、人間ですら音声を１００％正しく認識できていない。これは、人間の音声には、他の単語と紛らわしい発声や同音異義語を含む発声、不明瞭な発声が含まれてしまうからである。人間同士の場合には、音声対話によって容易にこうした誤認識（聞き間違い）の問題を解決している。しかしながら、計算機と人間同士のような柔軟な音声対話をすることは難しい。音声認識技術を改良してどんなに認識率を上げていったとしても、人間にとって、常に明瞭で曖昧性のない発声をし続けることが極めて困難である以上、認識率は決して１００％にはならない。したがって、音声認識を日常的に使える音声認識装置を作るためには、必ずどこかで生じる誤認識を容易に訂正できるようにすることが不可欠である。

そこで、従来から認識結果を訂正する技術は種々提案されてきた。例えば、市販のディクテーションソフトでは、ユーザが認識結果のテキスト表示を見て、誤認識を発見したら、その区間をマウス操作や音声入力で指定することができる。すると、その部分の他候補が表示されるので、ユーザは正しい候補を選択して訂正できる。非特許文献１に示された技術では、これを発展させて、発話の終了後にその認識結果を単語境界の線で区切った表示をし、かな漢字変換で単語の区切りを修正するように、その境界をマウスで移動できるようにしている。この場合、正しい候補にたどり着ける可能性は高くなったものの、誤認識箇所の指定、単語境界の変更、候補の選択と、ユーザが訂正するための手間は増えている。一方、非特許文献２に示された技術では、音声認識を利用したニュース字幕放送のために、実用的な認識誤り修正システムを実現している。しかし、この技術では、二人の分業を前提とし、一人が誤認識箇所を発見してマーキングし、もう一人がその箇所の正解をタイピングする必要があったため、個人が自分の音声入力を訂正する目的では使えなかった。このようにいずれの従来技術も、まず最初に、ユーザが誤認識箇所を発見して指摘し、次に、その部分の他候補を判断して選択したり、タイピングして修正するといった手間を要していた。

なお特許文献１（特開２００２−２８７７９２号公報）には、音声認識の訂正を音声入力で行う技術が開示されている。また特許文献２（特開２００４−３０９９２８号公報）には、音声認識した結果、出力候補単語が複数ある場合に、出力候補単語を表示部に表示し、出力候補単語から所望の単語を選ぶことを話者に選択することを指示する機能を備えた電子辞書装置が示されている。さらに特許文献３（特開２００２−２９７１８１号公報）及び特許文献４（特開平６−３０１３９５号公報）には、音声認識の認識率の向上のために、コンフュージョンマトリックスを利用する技術が示されている。
遠藤、寺田："音声入力における対話的候補選択手法"、インタラクション２００３論文集、ｐｐ．１９５−１９６，２００３．安藤他："音声認識を利用した放送用ニュース字幕制作システム"，信学論，Ｖｏｌ．Ｊ８４−Ｄ−ＩＩ，Ｎｏ．６，ｐｐ．８７７−８８７，２００１．特開２００２−２８７７９２号公報特開２００４−３０９９２８号公報特開２００２−２９７１８１号公報特開平６−３０１３９５号公報

従来の音声認識技術では、音声認識による認識誤りを、ユーザがより効率的に且つ容易に訂正できるものはなかった。

本発明の目的は、音声認識による認識誤りを、ユーザがより効率的に且つ容易に訂正できる音声認識装置及び方法並びにプログラムを提供することにある。

本発明の他の目的は、発話中あるいは発話終了後に正しい候補を選択するだけで訂正ができる音声認識装置及び方法並びにプログラムを提供することにある。

本発明の他の目的は、ユーザが誤認識箇所を発見して指摘しなくても、常に単語の競合候補をリアルタイムに画面に表示して訂正の機会を確保することができる音声認識装置及び方法並びにプログラムを提供することにある。

本発明の更に他の目的は、画面に表示する単語の競合候補の個数によって、その単語の認識結果の曖昧さを視覚により直ちに認識することを可能にする音声認識装置及び方法並びにプログラムを提供することにある。

本発明の他の目的は、誤認識箇所の発見、指摘、提示された候補の判断、選択といった手間をかけずに、音声認識結果と単語の競合候補を同時に見て選択するだけで、効率良く訂正できることを可能にする音声認識装置及び方法並びにプログラムを提供することにある。

本発明の別の目的は、発話中に特定の音声を発話することにより、いつでも好きなときに音声認識を一時停止することを可能にする音声認識装置及び方法並びにプログラムを提供することにある。

本発明の音声認識装置は、音声を入力するための音声入力手段と、音声認識手段と、認識結果表示手段と、単語訂正手段とを備えている。音声入力手段は、例えば、マイクロフォンやマイクロフォンからのアナログ信号を信号処理可能なデジタル信号に変換する信号変換器等を含んで構成される。音声入力手段の具体的な構成は任意である。

音声認識手段は、予め定めた判定手法に従って、音声入力手段から入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識機能を有している。ここで「予め定めた判定手法」としては、公知の各種の判定手法を用いることができる。例えば、コンフュージョン・ネットワークを用いて音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに後述する競合確率を求めて、一番競合確率の高い単語を決定する判定手法を用いるのが好ましい。コンフュージョン・ネットワークを用いると、大語彙、小語彙を問わず多様な入力音声に対して効果的な候補の提示、訂正が可能になる。

また認識結果表示手段は、音声認識手段により認識された認識結果を複数の単語の単語列として画面に表示する機能を有している。認識結果表示手段は、リアルタイムに音声認識手段の認識結果を画面に表示する機能を有しているのが好ましい。

そして単語訂正手段は、画面に表示された単語列を構成する一番競合確率の高い複数の単語を訂正する単語訂正機能を有している。この単語訂正手段は、競合単語表示指令手段と、競合単語選択手段と、単語置き換え指令手段とから構成される。競合単語表示指令手段は、競合候補の中から一番競合確率の高い単語の競合確率に近い競合確率を持つ１以上の競合単語を選び、対応する一番競合確率の高い単語に隣接して画面上に表示させる競合単語表示機能を有している。また競合単語選択手段は、ユーザによるマニュアル操作に応じて、画面上に表示された１以上の競合単語から適切な訂正単語を選択する競合単語選択機能を有している。そして単語置き換え指令手段は、競合単語選択手段により選択された訂正単語を、音声認識手段により認識された一番競合確率の高い単語と置き換えることを音声認識手段に指令する単語置き換え指令機能を有している。

上記構成の音声認識装置では、画面に表示された単語列を構成する一番競合確率の高い複数の単語を訂正する競合候補として、一番競合確率の高い単語の競合確率に近い競合確率を持つ１以上の競合単語を選び、対応する一番競合確率の高い単語に隣接して画面上に表示する。そしてユーザによるマニュアル操作に応じて、画面上に表示された１以上の競合単語から適切な訂正単語を選択すると、この訂正単語が音声認識手段により認識された一番競合確率の高い単語と置き換えられる。したがって本発明によれば、画面に表示された音声認識の結果として表示される単語列を見ながら、訂正の可否を決定する単語の近くに表示された１以上の競合単語から訂正単語を選んで、訂正を行うことができるので、短い時間で、訂正を行うことができる。したがって音声認識処理と並行して、認識結果の訂正を行うことが可能である。

画面上に表示する１以上の競合単語の数の決定方法は特に限定されず、任意である。しかし音声認識の曖昧さが低いほど競合単語の数は少なくなり、音声認識の曖昧さが高くなるほど競合単語の数は多くなる。そこで競合単語表示指令手段は、競合単語の競合確率の分布状況に応じて、画面上に表示する競合単語の数を変えるように構成するのが好ましい。例えば、競合確率の高い単語が１つしか無い場合にはその１つの単語を競合単語として表示すればよく、逆に競合確率の高い単語が多数ある場合には、その分布状況を考慮して可能な範囲で表示する競合単語の数を多くすればよい。このようにすると、表示される競合単語の数で訂正をすべき可能性が一目で分かるため、ユーザは単語列に含まれる全ての単語に同じ注意力を払って訂正作業を行う必要がなくなる。そのため単語訂正の必要性判断及び訂正作業時間を短くすることができる。このようにするためには、競合単語表示指令手段を、一番競合確率の高い単語の競合確率に近い競合確率を持つ単語の数が少ない場合には、画面上に表示する競合単語の数を少なくし、一番競合確率の高い単語の競合確率に近い競合確率を持つ競合単語の数が多い場合には、画面上に表示する競合単語の数を多くするように構成すればよい。

さらに競合単語表示指令手段は、単語列に含まれる複数の単語の上側または下側に、競合確率の高い順番に競合単語が並ぶように画面上に表示する機能を備えているのが好ましい。競合単語表示指令手段がこのような機能を備えていれば、訂正の対象となる単語に近い競合単語から訂正に必要な単語を短い時間で簡単に見つけることができるので、訂正作業時間を更に短くすることが可能になる。

また競合単語表示指令手段は、競合単語の中に、一番競合確率の高い単語が不要であるために認識結果から削除することを選択可能にするスキップ候補を含む機能を備えているのが好ましい。この場合には、単語置き換え指令手段に、スキップ候補が選択されると、音声認識手段による認識結果から対応する一番競合確率の高い単語を削除することを音声認識手段に指令する機能を持たせればよい。このようにすると音声認識でしばしば生じる湧き出し単語（発音されていないのに、発音されたかのように認識されて表示される単語）を、競合単語の選択作業と同じ作業で削除することができる。したがって訂正作業が更に短くなる。なおスキップ候補にも競合確率を付与すれば、スキップ候補の表示位置が一定になることがない。そのため競合単語の選択と単語列からの単語の削除の選択を同じレベルで実行すればよいため、ユーザの訂正作業に要する時間を更に短縮することができる。

スキップ候補を用いる場合において、特に判定手法として、コンフュージョン・ネットワークを用いて前記音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに競合確率を求めて、一番競合確率の高い単語を決定する手法を採用する場合には、次のようにするのが好ましい。すなわち一つの単語の一部を構成する音が二つの単語の区間のいずれにも入り得る場合には、一つの単語の一部を構成する音を二つの単語の区間の一方に含める。そして単語訂正手段により二つの単語の区間の一方に属する単語の訂正が行われると、二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるようにスキップ候補を自動選択する。このようにすると訂正した区間の隣接区間の湧き出し単語を自動的に削除でき、ユーザの訂正操作の回数を最小限に抑えることができる。

認識結果表示手段は、リアルタイムで認識結果を画面に表示する機能を有しているのが好ましい。この場合には、単語訂正手段も、認識結果表示手段による認識結果の画面への表示と一緒に競合単語をリアルタイムで画面上に表示する機能を有しているのが好ましい。このようにするとユーザの発声と並行して音声認識の訂正を実施することができる。

一つ単語の訂正が行われると、訂正された単語との関係で見ると、先に決定した競合単語が不適切なものになることもある。そこで競合単語表示指令手段に、単語訂正手段により一部の単語が訂正されると、その訂正された単語を単語列においては、ユーザに訂正された本来正解である単語として、再度競合単語の選び直しを行う機能を設けるのが好ましい。この機能を設けると、まだ訂正をしていない区間に対する競合単語を、ユーザにより訂正された単語に適合したものに変更することができるので、後の訂正作業を更に容易にすることができる。この場合、競合単語表示指令手段に更に次のような機能を設けるのが好ましい。すなわち単語列中の訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の競合単語との言語的な接続確率を算出し、接続確率が大きいものを画面に表示する競合単語として選び、前に画面に表示している競合単語と入れ替えを行うか、前に画面に表示している競合単語に新たに追加する機能を、競合単語表示指令手段に設けるのが好ましい。このようにすると単語列中の一つの単語の訂正と連動して隣接する二つの単語の競合単語としてより適切な単語を表示することができるようになり、訂正作業が更に容易になる。

音声認識手段が、単語訂正手段により訂正の対象となった単語、訂正時間の情報及び訂正された単語に対する事後確率を蓄積データとして保存し、これらの蓄積データを利用して再度の音声認識を行う機能をさらに有しているのが好ましい。このような機能を付加すると、もし一度目の認識で、ある区間に対して本来の正解が競合候補として得られなかった場合でも、ユーザの訂正処理から得られる新たな情報を利用した音声認識により、認識結果あるいは競合候補としてユーザ側に提示できる利点がある。

また音声認識手段に、音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、単語訂正手段による訂正を許容する機能を付加してもよい。このような機能を設けると、訂正作業に時間が必要になった場合には、特定の音声を発声することにより、音声認識処理を一時的に停止できるので、単語の訂正作業をユーザのペースに合わせて焦らずに実行することができる。この場合、音声認識手段には、例えば、入力される音声が一定時間以上連続して続く連続音であることを判定する連続音判定手段を設ける。そして連続音判定手段が連続音の入力を判定すると、音声認識処理を一時停止し、連続音判定手段が連続音を判定した後に連続音以外の音が入力されたことを判定すると、一時停止前の状態から音声認識処理を続行する機能を音声認識手段に付加すればよい。このようにすると通常の会話において、言葉に詰まったときによく発音される言い淀み（言葉が詰まった時点で発音していた音を延ばして発音すること）を利用して、スムーズに音声認識を一時停止することが可能になる。

音声認識手段は、単語訂正手段により訂正の対象となった単語と、入力された音声における単語の位置情報または時間情報を保存し、再度の音声認識において、保存した位置情報または時間情報における単語の言語確率を動的に強化することにより，その単語に関連する単語を認識しやすくする機能を有しているのが好ましい。

また音声認識手段には，音声が入力されると，認識処理を行うと同時に，認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う音響的適応処理手段を設けるのが好ましい。このような音響的適応処理手段を設けると、現在使用中のユーザの音声や録音環境等に即座に適応し、音声認識自体の基本的な性能を向上させることができる。

そしてこの音響的適応処理手段としては，単語訂正手段により，認識誤りのほとんどない、より正確な教師信号をリアルタイムに生成することで，高精度な音響的適応機能を有しているものを用いるのが好ましい。このような音響的適応処理手段を用いると、従来のオンライン適応で問題となっていた、教師信号中の認識誤りによる適応性能の劣化を最小限に抑えることができる。

本発明の音声認識装置で実行される本発明の音声認識方法では、音声認識ステップと、認識結果表示ステップと、単語訂正ステップとを実行する。音声認識ステップでは、予め定めた判定手法に従って、入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする。認識結果表示ステップでは、音声認識手段により認識された認識結果を複数の単語の単語列として画面に表示する。そして単語訂正ステップでは、画面に表示された単語列を構成する一番競合確率の高い複数の単語を訂正する。そして単語訂正ステップでは、競合候補の中から一番競合確率の高い単語の競合確率に近い競合確率を持つ競合単語を選び、対応する一番競合確率の高い単語に隣接して画面上に表示させる競合単語表示ステップと、ユーザによるマニュアル操作に応じて、画面上に表示された競合単語から適切な訂正単語を選択する競合単語選択ステップと、競合単語選択ステップで選択された訂正単語を、先に音声認識ステップにより認識された一番競合確率の高い単語と置き換えて画面に表示する単語置き換えステップとを実行する。

コンピュータを用いて、音声を認識し、画面上に認識結果を文字で表示する機能を前記コンピュータに実行させるための本発明のプログラムは、入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識機能と、前記音声認識機能により認識された認識結果を複数の単語の単語列として画面に表示する認識結果表示機能と、前記画面に表示された単語列を構成する前記一番競合確率の高い複数の単語を訂正する単語訂正機能とを前記コンピュータに実行させ、前記単語訂正機能では、前記競合候補の中から前記一番競合確率の高い単語の競合確率に近い競合確率を持つ１以上の競合単語を選び、対応する前記一番競合確率の高い単語に隣接して前記画面上に表示させる競合単語表示機能と、ユーザによるマニュアル操作に応じて、前記画面上に表示された前記１以上の競合単語から適切な訂正単語を選択する競合単語選択機能と、前記競合単語選択ステップで選択された前記訂正単語を、先に前記音声認識ステップにより認識された前記一番競合確率の高い単語と置き換えて前記画面に表示する単語置き換え機能とを前記コンピュータに実行させるように構成されている。

本発明によれば、画面に表示された音声認識の結果として表示される単語列を見ながら、訂正の可否を決定する単語の近くに表示された１以上の競合単語から訂正単語を選ぶことにより、訂正を行うことができるので、短い時間で、訂正を行うことができる。したがって本発明によれば、音声認識処理と並行して、認識結果の訂正を行うことができる。

図面を参照して、本発明の音声認識装置及び方法並びにプログラムの実施の形態の一例を詳細に説明する。図１は、本発明の音声認識方法及びプログラムを実行する本発明の音声認識装置の実施の形態の一例をコンピュータを用いて実現する場合にコンピュータ内に実現される機能実現手段を概略的に示したブロック図である。

本実施の形態の音声認識装置１は、音声を入力するための音声入力手段３と、音声認識手段５と、認識結果表示手段７と、単語訂正手段９とを備えている。音声入力手段３は、例えば、マイクロフォンやマイクロフォンからのアナログ信号を信号処理可能なデジタル信号に変換する信号変換器等を含んで構成される。

音声認識手段５は、音声認識実行手段１１と連続音判定手段１３とから構成されている。特に音声認識手段５の音声認識実行手段１１は、予め定めた判定手法に従って、音声入力手段３から入力された音声に含まれる複数の単語を、データ記憶手段１２内に設けた辞書手段（図示せず）に予め記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識機能を有している（本発明の方法の音声認識ステップ：本発明のプログラムの音声認識機能の実行）。ここで「予め定めた判定手法」としては、公知の各種の判定手法を用いることができる。本実施の形態では、コンフュージョン・ネットワークを用いて音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに後述する競合確率を求めて、一番競合確率の高い単語を決定する判定手法をこの予め定めた判定手法に採用している。

音声訂正を実現するためには、図２に示すような効果的な競合候補の画面上への提示が不可欠である。単純には、この競合候補は、音声認識実行手段１１の内部状態から、最も尤もらしい（可能性の高い）単語列だけでなく、それ以外の複数の候補を取り出して生成すればよい。しかし、通常そうした内部状態を表す中間的な表現形式（「中間結果」と呼ぶ）は、特に大語彙を対象とした連続音声認識の場合、非常に大規模となっている。いかに大規模かを示すために、音声認識で一般的に用いられる中間結果である「単語グラフ」の一例を図３に示す。単語グラフとは、音声認識で可能性を検討した複数の候補を、リンクを単語とするグラフ構造で表現したものである。図３は比較的短い音声に対して生成された実際の単語グラフであるが、構造が複雑で且つ候補数も膨大であることがわかる。また、単語グラフのような従来の中間結果では、候補間の競合関係が明示的に表現できていないため、音声訂正のような効果的な候補提示は不可能である。そこで本実施の形態では、このような問題を解決する新しい中間結果として、音声認識実行手段１１の内部状態をシンプルかつ高精度なネットワーク構造へ変換したコンフュージョン・ネットワーク（ｃｏｎｆｕｓｉｏｎｎｅｔｗｏｒｋ）［Ｌ．Ｍａｎｇｕ，Ｅ．Ｂｒｉｌｌ及びＡ．Ｓｔｏｌｃｋｅ著“ＦｉｎｄｉｎｇＣｏｎｓｅｎｓｕｓｉｎＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ：ＷｏｒｄＥｒｒｏｒＭｉｎｉｍｉｚａｔｉｏｎａｎｄＯｔｈｅｒＡｐｐｌｉｃａｔｉｏｎｓｏｆＣｏｎｆｕｓｉｏｎＮｅｔｗｏｒｋ”ＣｏｍｐｕｔｅｒＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ，Ｖｏｌ．１４，Ｎｏ．４，ｐｐ．３７３−４００，２０００．）］を導入する。このコンフュージョン・ネットワークは、元々、音声認識率の向上のためにデコーディングアルゴリズムにおいて使用された途中結果である。そのため、当業者には、このコンフュージョン・ネットワークを本実施の形態のような誤り訂正目的に応用しようという発想は従来なかった。

コンフュージョン・ネットワークは、図４（Ａ）に示す単語グラフを音響的なクラスタリングにより図４（Ｂ）に示すようなリニアな形式に圧縮することで求めることができる。図４（Ａ）において、“ｓｉｌ”（ｓｉｌｅｎｃｅ）は発話開始、終了時の無音を表し、アルファベット１文字はグラフのリンク上の単語名を表している。また、図４（Ｂ）のネットワーク上の“−”は後に説明するスキップ候補である。音響的クラスタリングは以下の２つのステップにより行われる。なおこのステップは、Ｌ．Ｍａｎｇｕ，Ｅ．Ｂｒｉｌｌ及びＡ．Ｓｔｏｌｃｋｅ著の“ＦｉｎｄｉｎｇＣｏｎｓｅｎｓｕｓｉｎＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ：ＷｏｒｄＥｒｒｏｒＭｉｎｉｍｉｚａｔｉｏｎａｎｄＯｔｈｅｒＡｐｐｌｉｃａｔｉｏｎｓｏｆＣｏｎｆｕｓｉｏｎＮｅｔｗｏｒｋ”ＣｏｍｐｕｔｅｒＳｐｅｅｃｈａｎｄＬａｎｇｕａｇｅ，Ｖｏｌ．１４，Ｎｏ．４，ｐｐ．３７３−４００，２０００．）に紹介されている。

単語内クラスタリング・ステップ：単語名が同一で、時間的に重なりのあるリンクをクラスタリングする。時間的類似度をコスト関数として用いる。

単語間クラスタリング・ステップ：単語名の違うリンクのクラスタリングを行う。コスト関数として単語間の音響的類似度を用いる。

コンフュージョン・ネットワークの各リンクについては、クラスタリングした各クラス（単語の区間）ごとに事後確率が算出される。そして算出されたそれらの値は、各クラスでの存在確率、あるいはそのクラス内の他候補との競合確率を表わす。各クラスのリンクは、存在確率の大きさでソートされ、認識結果として可能性の高いリンクほど上位に配置される。最終的に、各クラスから事後確率が最大となるリンクを選択すると、図２の最上段のような最終的な認識結果（最尤の候補）となる。また、各クラスで事後確率が高いリンクを取り出すと、図２の競合候補が得られる。

ただしコンフュージョン・ネットワークでは、クラス中の各候補は必ずしも時間的に同一区間の認識結果とは限らない。例えば、時間的に２つのクラスをまたがった候補は、どちらか一方のクラスへ割り当てられる。本実施の形態にける音声訂正では、後に説明するように、そのような候補をユーザが選択すると、発声区間との時間的な整合性が取れるように、近隣でユーザが未選択なクラスの候補も自動的に選択し、訂正操作の回数を最小限にする
図１の認識結果表示手段７は、音声認識手段５により認識された認識結果を複数の単語の単語列として図示しない画面に表示する機能を有している（音声認識結果表示ステップ：音声認識結果表示機能の実行）。図２は、図示しない画面に表示する本実施の形態の音声認識結果の一例とその訂正の一例を示す図である。本実施の形態の認識結果表示手段７は、リアルタイムで音声認識手段５の認識結果を画面に表示する機能を有している。

この場合には、単語訂正手段９も、認識結果表示手段７による認識結果の画面への表示と一緒に競合単語をリアルタイムで画面上に表示する機能を有しているのが好ましい。このようにするとユーザの発声と並行して音声認識の訂正を実施することができる。

単語訂正手段９は、画面に表示された単語列を構成する一番競合確率の高い複数の単語を訂正する単語訂正機能を有している（単語訂正ステップ：単語訂正機能の実行）。本実施の形態で用いる単語訂正手段９は、競合単語表示指令手段１５と、競合単語選択手段１７と、単語置き換え指令手段１９とから構成される。競合単語表示指令手段１５は、競合候補の中から一番競合確率の高い単語の競合確率に近い競合確率を持つ１以上の競合単語を選び、対応する一番競合確率の高い単語に隣接して画面上に表示させる競合単語表示機能を有している（競合単語表示ステップの実行）。すなわち本実施の形態では、図２に示すように、音声認識手段５により認識された一番競合確率の高い単語から構成される単語列である「通常の認識結果」の下に、多数の競合候補の中から単語列の単語（一番競合確率の高い単語）の競合確率に近い競合確率を持つ１以上の競合単語を選び、これを表示する。競合単語選択手段１７は、ユーザによるマニュアル操作に応じて、画面上に表示された１以上の競合単語から適切な訂正単語を選択する競合単語選択機能を有している（競合単語選択ステップの実行）。そして単語置き換え指令手段１９は、競合単語選択手段１７により選択された訂正単語を、音声認識手段５により認識された一番競合確率の高い単語（通常の認識結果として単語列を構成する単語）と置き換えることを音声認識手段５に指令する単語置き換え指令機能を有している（単語置き換え指令ステップの実行）。これによって認識結果表示手段７が画面に表示する単語が、訂正された単語によって置き換えられる。例えば図２に示す例では、最初の単語「温泉」に音声認識の誤りがある。最初の単語について表示された競合候補中、最初に表示された「音声」が競合候補の中でもっとも競合確率が高いもので、それよりも下にいくほど競合確率が低い単語となる。なお単語列の下の競合候補のうち、空白は後に詳しく説明するスキップ候補であり、このスキップ候補を選択すると、単語列の単語は削除される。スキップ候補を採用する場合には、単語置き換え指令手段１９に、スキップ候補が選択されると、音声認識手段５による認識結果から対応する一番競合確率の高い単語を削除することを音声認識手段５に指令する機能を持たせればよい。このようにすると音声認識でしばしば生じる湧き出し単語（発音されていないのに、発音されたかのように認識されて表示される単語）を、競合単語の選択作業と同じ作業で削除することができる。したがって訂正作業が更に短くなる。なおスキップ候補にも競合確率を付与すれば、スキップ候補の表示位置が一定になることがない。そのため競合単語の選択と単語列からの単語の削除の選択を同じレベルで実行することができ、ユーザの訂正作業に要する時間を更に短縮することができる。

一つ単語の訂正が行われると、訂正された単語との関係で見ると、先に決定して画面に表示した競合単語が不適切なものになることもある。そこで競合単語表示指令手段１５に、単語訂正手段９により一部の単語が訂正されると、その訂正された単語を単語列においては、以後ユーザによって訂正された本来正解である単語として、再度競合単語の選び直しを行う機能を設けるのが好ましい。この機能を設けると、まだ訂正をしていない単語に対する競合単語を訂正された語に適合した単語に変更することができるので、後の訂正作業を更に容易にすることができる。この場合、競合単語表示指令手段１５に更に次のような機能を設けるのが好ましい。すなわち単語列中の訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の競合単語との言語的な接続確率を算出し、接続確率が大きいものを画面に表示する競合単語として再び選び、前に画面に表示している競合単語と入れ替えを行うか、前に画面に表示している競合単語に新たに追加する機能を、競合単語表示指令手段１５に設けるのが好ましい。このようにすると単語列中の一つの単語の訂正と連動して隣接する二つの単語の競合単語としてより適切な単語を表示することができるようになり、訂正作業が更に容易になる。

上記の競合候補の訂正機能は、未選択候補の自動訂正機能と呼ぶことができる。すなわちユーザがある候補を訂正すると、その周辺の候補も最適なものに自動的に訂正されるという機能を意味する。音声認識では、ある単語を誤ると、その単語に引きずられる形で後続する候補として誤った単語が認識されることが頻繁に発生する（例えば後述する、図１９中、「音声入力」→「温泉入浴」）。本機能を採用すると、ユーザが選択した候補の前後のそれぞれの候補に対し、現在選択している候補との言語的な接続確率を算出し、その値が最も大きい候補に自動修正することになる。例えば、図１９において、ユーザが「温泉」を「音声」に訂正すると、「音声」との言語的接続確率が最も高い「入力」が自動的に選択され、「入浴」が「入力」へと訂正される。これにより、ユーザの訂正操作の回数を最小限に抑えることができる。

図５は、本発明の音声認識方法をコンピュータで実現する場合にコンピュータにインストールするプログラムの一例の基本アルゴリズムを示すフローチャートである。この基本アルゴリズムでは、まず最初に音声を認識する（ステップＳＴ１）。次に音声認識結果に基づいて競合候補を生成する（ステップＳＴ２）。そして画面に競合確率の最も高い単語で構成された一つの単語列を認識結果として表示する（ステップＳＴ３）。次に、音声認識した単語列を構成する一番競合確率の高い複数の単語を訂正する競合候補として、一番競合確率の高い単語の競合確率に近い競合確率を持つ１以上の競合単語を選び、競合候補を画面に表示するか否かを判定する（ステップＳＴ４）。このプログラムでは、訂正を行わない無修正モードも用意してあるため、この無修正モードではステップＳＴ４からステップＳＴ１へと戻り、通常の音声認識結果だけが画面に表示される。画面表示を選択した場合には、１以上の競合単語を対応する一番競合確率の高い単語に隣接して画面上に表示する（ステップＳＴ５）。認識結果に誤りが存在するかの判定をユーザが行い（ステップＳＴ６）、訂正の必要性をユーザが判断した場合には、ステップＳＴ７へと進んで、ユーザによるマニュアル操作に応じて、画面上に表示された１以上の競合単語から適切な訂正単語を選択する（ステップＳＴ７）。その結果、この訂正単語が音声認識手段により認識された一番競合確率の高い単語と置き換えられる（ステップＳＴ８）。ステップＳＴ６で訂正の必要性が無いと判断された場合（競合候補を画面に出力した後所定の時間経過したときに訂正操作が入らないとき）は、ステップＳＴ１へと戻る。一つの単語の訂正が終了した後、更に訂正があればステップＳＴ９からステップＳＴ６へと戻る。なお音声入力があれば、ステップＳＴ１からステップＳＴ５までは、訂正が行われている間も実行されており、新たな単語列が画面に表示され続ける。

図６は、本実施の形態におけるステップＳＴ２の詳細をステップＳＴ１と一緒に示したものである。ステップＳＴ２では、まず単語グラフを生成する（ステップＳＴ２１）。次に単語グラフに対して音響的なクラスタリングを実行し、コンフュージョン・ネットワークを生成する（ステップＳＴ２２）。次にコンフュージョン・ネットワークの各単語の区間の中から競合確率が最も大きい単語をピックアップして、単語列としたものを認識結果とする（ステップＳＴ２３）。そして更に音声入力がなければ終了する（ステップＳＴ２４）。

前述のスキップ候補を用いる場合において、特に判定手法として、コンフュージョン・ネットワークを用いるのが好ましい。この場合には、音声入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、複数の単語の区間ごとに競合確率を求めて、一番競合確率の高い単語を決定する。すなわち一つの単語の一部を構成する音が二つの単語の区間のいずれにも入り得る場合には、一つの単語の一部を構成する音を二つの単語の区間の一方に含める。そして単語訂正手段９により二つの単語の区間の一方に属する単語の訂正が行われると、二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるようにスキップ候補を自動選択する。図７は、スキップ候補を導入した場合のステップＳＴ２の一部の詳細を示している。この場合には、単語グラフを作成した後（ステップＳＴ２１）、ステップＳＴ２２１で「単語グラフに対して音響的クラスタリングを実行」し、「各区間に対する競合単語、各競合単語に対する競合確率を算出する。そして同時に各区間に対して『単語が存在しない確率』を１−（区間における競合確率の合計）」として算出する。その後、ステップＳＴ２２２でコンフュージョン・ネットワークを生成し、ステップＳＴ２２３で「単語が存在しない確率」をスキップ候補の確率として設定する。

図８は、上記のステップＳＴ５の詳細の一例を示すフローチャートである。図２に示すように、本実施の形態では、画面上に表示する１以上の競合単語の数（競合候補）は、全ての単語において同じではない。本実施の形態では、音声認識の曖昧さが低いほど競合単語の数を少なくし、音声認識の曖昧さが高くなるほど競合単語の数を多くしている。そこで競合単語表示指令手段１５は、競合単語の競合確率の分布状況に応じて、画面上に表示する競合単語の数を変えるように構成するのが好ましい。例えば、競合確率の高い単語が１つしか無い場合にはその１つの単語を競合単語として表示すればよく、逆に競合確率の高い単語が多数ある場合には、その分布状況を考慮して可能な範囲で表示する競合単語の数を多くすればよい。そこで図８に示すように、ステップＳＴ５では、まずステップＳＴ５１で、競合候補を各単語の区間における複数の競合単語で構成し、各競合単語には所属する区間における競合確率を付与する。そしてステップＳＴ５２では、各単語の区間における競合単語の数が多いか判定する。競合単語の数が多ければ、ステップＳＴ５３で、画面に多くの競合単語を表示し、誤りである可能性が高い区間であることを、表示する競合単語の数を多くしてユーザに提示する。競合単語の数が少なければ、ステップＳＴ５４で画面には競合単語は殆ど表示せず、正解である可能性が高い区間であることを、表示する競合単語の数を少なくすることによりユーザに提示する。このようにすると、表示される競合単語の数で訂正をすべき可能性が一目で分かるため、ユーザは単語列に含まれる全ての単語に同じ注意力を払って訂正作業を行う必要がなくなる。そのため単語訂正の必要性判断及び訂正作業時間を短くすることができる。

また競合単語表示指令手段１５を構成するステップＳＴ５では、単語列に含まれる複数の単語の上側または下側に、競合確率の高い順番に競合単語が並ぶように画面上に表示する機能を備えているのが好ましい。競合単語表示指令手段１５がこのような機能を備えていれば、訂正の対象となる単語に近い競合単語から訂正に必要な単語を短い時間で簡単に見つけることができるので、訂正作業時間を更に短くすることが可能になる。

図９は、ステップＳＴ５を構成する場合の別の手法のアルゴリズムを示している。図９の例では、競合単語に競合確率を付与したのち、ステップＳＴ５２´で競合確率がある一定の確率よりも大きいか否かの判定を行う。そして競合単語の競合確率が一定の確率よりも大きいものは、ステップＳＴ５３´によりその区間における競合候補として画面に表示する。また競合単語の競合確率が一定の確率より小さい場合には、ステップＳＴ５４´で画面には表示しない。なおこの場合でもスキップ候補は表示するようにしてもよい。

そして図１０は、スキップ候補を入れる場合のステップＳＴ７とステップＳＴ８の詳細の一例を示している。ステップＳＴ７は、ステップＳＴ７１乃至ＳＴ７３によって構成され、ステップＳＴ８はステップＳＴ８１及びＳＴ８２によって構成される。ステップＳＴ７１では、訂正の対象になっている単語が本来は何も存在しない区間に誤って挿入された単語であるか判定される。もし誤って挿入されたのであれば、ステップＳＴ７２へと進み、「スキップ候補」を選択する。その結果ステップＳＴ８１で、その単語が単語列から削除される。もし誤って挿入された単語でなければ、ステップＳＴ７３で適切な競合単語をクリックすると、単語列の単語は選択された訂正単語によって置き換わる（ステップＳＴ８２）。また図１１は、前述の一つの単語の一部を構成する音が二つの単語の区間のいずれにも入り得る場合を考慮したときの、ステップＳＴ８の詳細を示している。ステップＳＴ７で単語をクリックすると、ステップＳＴ８０１で、選択された単語の隣接する区間に対する時間的オーバーラップが形成される。次にステップＳＴ８０２で、時間的にオーバーラップが隣接する単語の区間の半分以上の時間であるか否かが判定される。時間的オーバーラップが半分以下であれば、ステップＳＴ８０３で選択した単語は、隣接する区間に時間的に跨っているとして、隣接する区間に対してはスキップ候補を自動的に選択する。そしてステップＳＴ８０４で、現区間の選択された単語が認識結果として画面に表示され、隣接する区間にはもとの認識結果が削除された状態で画面に表示される。時間的オーバーラップが半分より少なければ、ステップＳＴ８０４で、現区間の選択された単語が認識結果として画面に表示される。

図１２は、スキップ候補を自動的に選択する場合の他の例のプログラムのアルゴリズムを示すフローチャートである。このアルゴリズムでは、ステップＳＴ８１１で、隣接する単語の区間の認識結果の競合確率がある一定の値以上であるか否かが判定される。そして競合確率が一定以上で無ければ、ステップＳＴ８１２へと進んで、選択した単語の、隣接する単語の区間の各競合単語に対する言語的接続確率（Ｎ−ｇｒａｍ）を計算する。次にステップＳＴ８１３で、最も言語的接続確率が大きい単語を、隣接する区間の認識結果として自動的に選択する。

上記実施の形態では、図２に示した音声認識結果の表示と競合候補の表示を同時に行っているので、ユーザの発声が入力され、図２上側に示すような結果が即座に提示される（音声入力開始と共に左から右へ順次表示されていく）ので、訂正作業は、リアルタイムで実施できる。訂正作業では、従来の音声認識と異なり、最上段の通常の認識結果（単語列）に加えて、その下へ「競合候補」のリストを常に表示しているので、競合候補からの選択作業で訂正を行える。図２に示すように、通常の認識結果が各単語の区間ごとに区切られて、その単語に対する競合候補がその下に整列して表示される。前述のように、競合候補の個数はその区間の曖昧さを反映しており、音声認識手段５にとって曖昧で自信がない箇所ほど、多数の候補が表示される。そのため、ユーザは候補が多いところに誤認識がありそうだと思って、注意深く見ることができる。逆に、音声認識手段５が正しいと自信のある区間は候補が少ないため、ユーザに余計な混乱を与えることがない。このように認識結果を提示することで、ユーザは競合候補の中から正解を「選択」する操作だけで、容易に認識誤りを訂正できる。

また本実施の形態のように、前述のスキップ候補を使用すると、最上段の認識結果に湧き出し単語（本来あるべきでない区間に余分な単語が挿入される誤り）が存在しても、ユーザはスキップ候補を選択するだけで容易に削除できる。つまり単語の置き換えと削除が、「選択」という一つの操作でシームレスに実行できる。また、各区間の競合候補は、上から可能性（存在確率）の高い順に並んでいる。つまり、上の方ほど音声認識手段があり得そうな候補だと判断しているので、通常はユーザが上から下へ候補を見ていくと、早く正解にたどり着けるようになっている。さらに、本実施の形態では、発話中の認識結果として可能性のある単語候補が網羅的に列挙され、各区間にスキップ候補も持っているため、遠藤、寺田著“音声入力における対話的候補選択手法”（インタラクション２００３論文集、ｐｐ．１９５−１９６，２００３．）で提案されているような認識結果の単語境界の変更も不要になる利点がある。

従来の一部の音声認識装置では、発話が終了するまで認識結果が表示されないことがあった。仮に結果が表示されたとしても、競合候補のような他の可能性が示されることはなく、発話が終了してから結果を吟味するまで、誤りの訂正に移ることはできなかった。そのため、音声入力はキーボード入力と比べて、誤り訂正作業に多くの時間がかかる欠点があることが指摘されていた。その要因として、訂正自体の時間以外に、
１）ユーザが誤り箇所を発見するための時間、
２）誤り箇所を指摘する（カーソル移動する）ための時間、
が余計にかかる点が挙げられる。

これに対して本実施の形態の音声認識装置を用いると、発話中に認識の中間結果を競合候補付きでリアルタイムにフィードバックし続け、さらにユーザの選択も可能になるため、発声の最中に誤りを即時に訂正できる。これにより、上述の２点の作業時間が大幅に短縮される。また実際の訂正にかかる時間も、既に表示されている候補を「選択」するだけであるため、非常に短くなるという利点がある。

図１に示すように、上記の実施の形態では、音声認識手段５は、音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、単語訂正手段９による訂正を許容する機能を備えている。そこで音声認識手段５には、入力された音声が一定時間以上連続して続く連続音であることを判定する連続音判定手段１３を設けている。この連続音判定手段１３が連続音の入力を判定すると、音声認識実行手段１１は、音声認識処理を一時停止し、連続音判定手段１３が連続音を判定した後に連続音以外の音が入力されたことを判定すると、一時停止前の状態から音声認識処理を続行する機能を備えている。このような機能を付加すると、通常の会話において、言葉に詰まったときによく発音される言い淀み（言葉が詰まった時点で発音していた音を延ばして発音すること）を利用して、スムーズに音声認識を一時停止することが可能になる。またこのような機能を設けると、訂正作業に時間が必要になった場合には、特定の音声を発音することにより、音声認識処理を一時的に停止できるので、単語の訂正作業をユーザのペースに合わせて焦らずに実行することができる。

図１３は、この機能を実現するためのプログラムのアルゴリズムを示す。まずステップＳＴ１１で音声認識を開始する。そしてステップＳＴ１２で、ユーザから一時休止を表す特殊なサイン（有声休止のような特定の音声の入力：例えば「えー・・・」と連続する連続音の入力）があったか判定される。この判定がＹｅｓであれば、ステップＳＴ１３へと進み、音声認識処理を一時停止する。そして現段階の処理内容を保存する。そしてステップＳＴ２´で現段階までの競合候補を生成し、ステップＳＴ５´で現段階までの競合候補を画面に表示する。なおこの例では図５のステップＳＴ４に相当するステップは省略している。またステップＳＴ１２の判定で、特殊なサインがないことが判定されると、ステップＳＴ１３´で通常通りの音声認識が行われる。なお直前時間までの処理内容が保存されていれば、その続きから認識を再開する。その後ステップＳＴ２及びＳＴ５へと進んで競合候補を画面に表示する。競合候補の画面への表示が行われたら、図５のステップＳＴ６へと進む。なおこの場合ステップＳＴ６では、認識結果に誤りが存在しないことの判定を、特殊なサイン（特定の音声の入力：例えば「えー・・・」と連続する連続音の入力）の停止により判断する。

発話中休止機能の具体的実現方法について説明する。発話中に有声休止（言い淀み）が検出され、その直後に一定の無音区間が検出されたら、音声認識手段５の動作を一時停止し、現時点の認識処理過程（それまでの仮説情報、探索空間での現在の位置情報等）を退避する。このとき、有声休止が発声され続けている区間は音声認識の対象とならず、スキップされる。再び発話の開始が検出されると（音声のパワーに基づいて検出）、退避した認識処理過程から音声認識処理を再開し、発話終端が検出されるまで認識処理を続行する。有声休止の検出には、後藤，伊藤及び速水著の“自然発話中の有声休止箇所のリアルタイム検出システム”（信学論，Ｖｏｌ．Ｊ８３−Ｄ−ＩＩ，Ｎｏ．１１，ｐｐ．２３３０−２３４０，２０００．）のリアルタイム有声休止検出手法を採用することができる。この手法は、有声休止（母音の引き延ばし）が持つ２つの音響的特徴（基本周波数の変動が小さい、スペクトル包絡の変形が小さい）をボトムアップな信号処理によってリアルタイムに検出する。そのため、任意の母音の引き延ばしを言語非依存に検出できるという特長を持っている。

上記の発話中休止機能を設けると、発話中にユーザが意図した時点で、認識処理を一時停止させることができる。そして次の発話が始まると、あたかも一時停止前の発話が続いていたかのように動作させることができる。本実施の形態では、ユーザの一時停止の意図を伝えるために、音声中の非言語情報の１つである有声休止［言い淀み（語中の任意の母音の引き延ばし）］を、発話中休止機能のトリガーとして採用した。この有声休止は、人間同士の対話においても、相手に少し待って欲しいときや、喋っている最中に考え事をするときなどに、しばしば行われる。そのため、ユーザは自然に一時停止をかけて、正しい候補を選択したり、続きの発話を考えたりすることができる。

また本実施の形態の音声認識装置及び方法では、認識誤りのほとんどを訂正することが可能になる。しかしながらコンフュージョン・ネットワーク中に含まれなかった候補については選択による訂正処理ができない問題が発生する。この問題を改善するためには、コンフュージョン・ネットワーク生成のための音声認識手段自体をより高精度化する必要がある。そこで本実施の形態では、ユーザとのインタラクション（ここでは訂正処理）を利用したデコーディングによる新しい音声認識手法を採用することが好ましい。図１４は、この手法を実施するためのプログラムのアルゴリズムを示すフローチャートである。この手法では、音声認識結果の訂正において、ユーザによって訂正処理が実行されると、訂正後の単語と時間情報、その単語に対するスコア（事後確率）などを保存し（ステップＳＴ１０６）、それらの情報を利用して再度デコーディング（同じ音声データに対して音声認識処理）を行う（ステップＳＴ１０７）。これにより、ユーザが誤り訂正というインタラクションを介して、音声認識器の内部処理を能動的に操作するという、これまでにない機構が実現される。

そのための一つの手法として、訂正単語のＮ−ｇｒａｍ確率の動的強化を用いたデコーディングを行うことが考えられる。図１５は、この手法を実施するためのプログラムのアルゴリズムを示すフローチャートである。このプログラムでは、訂正処理の際にユーザが選択した単語（本来の正解）をｗ_{ｓｅｌｅｃｔ}、入力音声に対するｗ_{ｓｅｌｅｃｔ}の開始、終了時間をそれぞれＴｓ、Ｔｅとする。一方、訂正処理後の再デコーディング（再度の音声認識処理）において、ある時刻での単語候補をｗ、その直前単語をｗ_ｐｒｅｖ、ｗ_ｐｒｅｖの開始時間をｔｓ、終了時間をｔｅとする。通常、ｂｉｇｒａｍを用いたビーム探索の場合、現在の候補に対する言語スコア（対数尤度）Ｓ_ｌｍ（ｗ｜ｗ_ｐｒｅｖ）は以下のように与えられる。

Ｓ_ｌｍ（ｗ｜ｗ_ｐｒｅｖ）＝ｌｏｇＰ（ｗ｜ｗ_ｐｒｅｖ）
このとき、訂正処理の際にユーザが選択した単語の情報をもとにした条件、ｗ_ｐｒｅｖ＝ｗ_{ｓｅｌｅｃｔ}、また、ｗ_ｐｒｅｖの区間時間がｗ_{ｓｅｌｅｃｔ}の区間時間とオーバーラップがある（すなわちＴｓ＜ｔｓ＜ＴｅもしくはＴｓ＜ｔｅ＜Ｔｅ）、を満たせば、言語スコアを以下のように変更する。

Ｓ_ｌｍ（ｗ｜ｗ_ｐｒｅｖ）＝ＣｌｏｇＰ（ｗ｜ｗ_ｐｒｅｖ）
ここでＣ（０＜Ｃ＜１）はｂｉｇｒａｍ値に対する重み係数であり、本願明細書では、これを「インタラクション係数」と呼ぶ。このように、音声訂正後の再デコーディングにおいて、ユーザによって訂正された単語のＮ−ｇｒａｍ確率値を動的に強化することで、その単語に言語制約的に関連する単語を、後続する単語候補として探索ビーム内に残りやすい状態にすることができる。このように音声訂正後の再デコーディングにおいて、ユーザによって訂正された単語のN-gram確率値を動的に強化する(一定の係数を乗ずる)ことで、その単語に言語制約的に関連する単語を、後続する単語候補として探索ビーム内に残りやすくし、もとのデコーディングにて訂正不能だった単語を訂正可能にすることができる。

次に、本発明の音声認識装置及び方法による訂正を用いた高精度なオンライン適応化機能について説明する。現状の一般的な音声認識装置においては、不特定話者・タスクに対して頑健かつ高精度に認識することは困難であり、話者や環境に対して、その認識装置で用いているモデルを適応する技術が必要不可欠となっている。特に、実環境においては、話者や利用環境が頻繁に変化することがあるため、オンラインでの逐次的に適応可能な音声認識装置が望まれる。そこで一般的なオンライン適応の処理過程を以下に示す。

１入力音声（発話）に対し、既存のモデルを用いて認識を行う。

２認識結果をもとに適応に用いる教師信号（発話内容テキスト）を生成する。

３生成した教師信号をもとに、ＭＬＬＲやＭＡＰなどを用いて適応を行い、音響モデルを更新する。

４更新した音響モデルを用いて次の発話を認識する。

このようなオンライン適応では、教師信号は既存のモデルを用いた認識により自動的に生成されるため、認識誤りによる「不完全」な発話内容テキストとなり、その結果、適応の性能を大きく劣化させてしまう。これに対し、本実施の形態の音声認識装置では、音声認識の訂正の枠組みにオンライン適応を組み込むことにより、話者、環境に頑健な認識を実現することができる。本実施の形態の音声認識結果の訂正では、効率的かつリアルタイムに認識誤りを訂正することが可能であり、ユーザが訂正した認識結果を教師信号として用いることにより、「完全」な発話内容テキストで高精度な適応処理が可能となる。本実施の形態の音声認識装置では、従来では各々の処理がオフラインで動作することが多かった、「認識」、「訂正」、「オンライン適応」の一連の処理をリアルタイムで実行することが可能である。

図１６は、上記の考えに従って、音声認識手段５に音響的適応処理手段を設ける場合のアルゴリズムを示すフローチャートである。また図１７は、この音響的適応処理手段を図１の実施の形態に適用する場合のアルゴリズムを示すフローチャートである。音声が入力されると，音響的適応処理手段は、認識処理を行うと同時に，認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う（ステップＳＴ０１〜ＳＴ０３）。図１７に示すように、この音響的適応処理手段は，単語訂正手段９により訂正処理が実行されたとき（ステップＳＴ２、ＳＴ５〜ＳＴ８）、認識誤りのない正確な教師信号をリアルタイムに生成することで，高精度な音響的適応機能を発揮する。

次に本実施の形態を具体的に実現したインターフェースの試験装置と試験の結果について説明する。図１８に、インターフェースのシステム構成要素（プロセス）と、全体の処理の流れを示す。図１８においては、プロセスは図のブロックの中の字で示されており、ネットワーク（ＬＡＮ）上の複数の計算機で分散して実行することが可能である。プロセス間の通信には、音声言語情報をネットワーク上で効率よく共有することを可能にするネットワークプロトコルＲＶＣＰ（ＲｅｍｏｔｅＶｏｉｃｅＣｏｎｔｒｏｌＰｒｏｔｏｃｏｌ）［後藤，伊藤，秋葉及び速水著の“音声補完：音声入力インターフェースへの新しいモダリティの導入”（コンピュータソフトウェア，Ｖｏｌ．１９，Ｎｏ．４，ｐｐ．１０−２１，２００２．）］を用いた。

処理の流れについて説明する。まず、マイクロフォン等から音声入力部に入力された音響信号は、ネットワーク上にパケットとして送信される。特徴量抽出部（図１の音声認識手段５に含まれる）、有声休止検出部（図１の音声認識手段５の連続音判定手段１３に相当する）、発話区間検出部（図１の音声認識手段５に含まれる）がそのパケットを同時に受信し、音響特徴量（ＭＦＣＣ）や有声休止、発話の始終端をそれぞれ求める。これらの情報は、パケットとして音声認識部（図１の音声認識実行手段１１に相当する）に送信され、認識処理が実行される。このとき、有声休止は、発話中休止機能を呼び出すトリガーとして利用される。音声認識部では、中間結果としてコンフュージョン・ネットワークが生成され、その情報はパケットとしてインターフェース管理部（図１の単語訂正手段９に含まれる）に送信される。インターフェース管理部では候補を表示し、マウスによるクリックや、パネル上をペンや指で触れる操作によってその選択を可能にする。

試験装置では、音響モデルとして、新聞記事読み上げコーパスＪＮＡＳから学習した音節モデル［緒方，有木著の“日本語話し言葉音声認識のための音節に基づく音響モデリング”（信学論，Ｖｏｌ．Ｊ８６−Ｄ−ＩＩ，Ｎｏ．１１，ｐｐ．１５２３−１５３０，２００３．）］（モデル数２４４、１状態あたりの混合数１６）を用い、言語モデルには、ＣＳＲＣソフトウエア２０００年度版［河原他著の“連続音声認識コンソーシアム２０００年度版ソフトウエアの概要と評価”（情処研報，２００１−ＳＬＰ−３８−６，２００１．）］の中から、新聞記事テキストより学習された２００００語のｂｉｇｒａｍをそれぞれ用いた。また、試験装置で用いた音声認識実行手段としては、ｂａｃｋ−ｏｆｆ制約Ｎ−ｂｅｓｔ探索アルゴリズム［緒方，有木著の“大語彙連続音声認識における最ゆう単語ｂａｃｋ−ｏｆｆ接続を用いた効率的なＮ−ｂｅｓｔ探索法”（信学論，Ｖｏｌ．８４−Ｄ−ＩＩ，Ｎｏ．１２，ｐｐ．２４８９−２５００，２００１．）］により、リアルタイムにコンフュージョン・ネットワークを生成できるように拡張されているものを用いた。

図１９（Ａ）及び（Ｂ）に発話中休止機能を利用しない場合の表示画面を示しており、図２０（Ａ）乃至（Ｄ）に発話中休止機能を利用した場合の表示画面をそれぞれ示す。この試験装置では、図２の表示に相当する表示部分（「候補表示部」と呼ぶ）の上に、さらに一行追加されている。これは、候補を選択して訂正した後の最終的な音声入力結果を表示している。候補表示部では、現在選択されている単語の背景が着色される。何も選択していない状態では、候補表示部の最上段の最尤単語列が選択されている。ユーザが他の候補をクリックして選択すると、その候補の背景が着色されるだけでなく、画面最上部の最終的な音声入力結果も書き換えられる（図１９及び図２０では、選択操作で訂正した箇所だけ、文字の色を変えてわかりやすく表示している）。

次に、音声認識結果の訂正の基本性能を評価した結果と、実装したインターフェースの運用結果について説明する。

［音声訂正の基本性能］
音声訂正が実用的に使えるかどうかを評価するには、認識誤りを訂正することがどの程度可能か、すなわち、表示される競合候補の中に本来の正解がどの程度含まれているか、を調査することが重要となる。そこで、男性２５人が発話した計１００発話を対象に、候補を上位Ｎ個まで提示したときの訂正後の認識率（最終的な音声入力成功率）を、誤り訂正能力として評価した。つまりここでの認識率は、例えばＮ＝５の場合、上位５個以内に正解が含まれる割合で表される。通常の認識性能（Ｎ＝１のときの認識率）は８６．７０％であった。

図２１に、Ｎの値ごとの認識率を示す。実験結果より、提示する候補数を増やすと認識率が向上し、１１以上で飽和することがわかった。このときの認識率は９９．３６％であり、これは、通常の認識結果の全ての誤り（２０９個）のうち、約９５％の誤り（１９９個）を訂正可能であることを示している。訂正できなかった１０個を調査したところ、４個は用いた音声認識の単語辞書中に登録されていない、いわゆる未知語であった。また、Ｎ＝５程度でもほとんどの誤りを訂正できることもわかった。

従来の音声訂正では、提示する候補数が多すぎるとユーザ側の混乱を招き、逆に少なすぎると誤りを訂正できなくなるが、コンフュージョン・ネットワークを用いることにより、提示する競合候補数を抑えつつ、ほとんどの誤りを訂正することが可能であることがわかった。ただし、実験でも示されたように、音声認識器の知らない未知語に関しては、現時点では、音声訂正を用いても訂正できない。この解決は今後の課題であり、ユーザとのさらなるインタラクションを介して未知語を解消する枠組みが必要になると考えている。

［運用結果］
実際に、４人のユーザに新聞記事の文章を読み上げてもらい、試験装置（インタフェース）により訂正処理を行ってもらった。どのユーザも、提示される競合候補に混乱されることなく、適切に訂正処理が行えることを確認した。言い淀みによる発話中休止機能も適切に使用され、特に長い文章を入力する場合は、本機能を使用すれば入力の際の労力が軽減されたとの感想を得た。また、使用方法も選択のみの操作で単純であり、ＧＵＩも直感的でわかりやすいと評価された。実際に、他人が使用している様子を見たユーザが、訓練せずに即座に使用できることがわかった。

上記実施の形態では、競合単語の選択をマウスを用いて行っている。しかし図２２に示すようにＰＤＡ等の携帯端末装置ＭＢで本発明を実施する場合には、タッチペンＴＰを入力手段として競合単語の選択を行えばよい。

本発明の音声認識方法及びプログラムを実行する本発明の音声認識装置の実施の形態の一例をコンピュータを用いて実現する場合にコンピュータ内に実現される機能実現手段を概略的に示したブロック図である。実施の形態における競合候補の表示状態を示す図である。音声認識で一般的に用いられる中間結果である単語グラフの一例を示す図である。（Ａ）は、単語グラフを音響的なクラスタリングをする場合の説明に用いる図であり、（Ｂ）はクラスタリングによりリニアな形式に圧縮した状態を概念的に示す図である。本発明の音声認識方法をコンピュータで実現する場合にコンピュータにインストールするプログラムの一例の基本アルゴリズムを示すフローチャートである。図５のステップＳＴ２の詳細をステップＳＴ１と一緒に示したフローチャートである。スキップ候補を導入した場合のステップＳＴ２の一部の詳細を示すフローチャートである。ステップＳＴ５の詳細の一例を示すフローチャートである。ステップＳＴ５を構成する場合の別の手法のアルゴリズムを示すフローチャートであるスキップ候補を入れる場合のステップＳＴ７とステップＳＴ８の詳細の一例を示すフローチャートである。一つの単語の一部を構成する音が二つの単語の区間のいずれにも入り得る場合を考慮したときの、ステップＳＴ８の動作を示すフローチャートである。スキップ候補を自動的に選択する場合の他の例のプログラムのアルゴリズムを示すフローチャートである。発音中休止機能を実現するためのプログラムのアルゴリズムを示すフローチャートである。新しい音声認識手法を実施するためのプログラムのアルゴリズムを示すフローチャートである。訂正単語のＮ−ｇｒａｍ確率の動的強化を用いたデコーディングを行う場合のプログラムのアルゴリズムを示すフローチャートである。音声認識手段に音響的適応処理手段を設ける場合のアルゴリズムを示すフローチャートである。音響的適応処理手段を図１の実施の形態に適用する場合のアルゴリズムを示すフローチャートである。インターフェースのシステム構成要素（プロセス）と、全体の処理の流れを示す図である。（Ａ）及び（Ｂ）は発話中休止機能を利用しない場合の表示画面の例を示す図である。（Ａ）乃至（Ｄ）は発話中休止機能を利用した場合の表示画面をそれぞれ示す図である。Ｎの値ごとの認識率を示す図である。本発明の実施に利用可能な携帯端末装置を示す図である。

符号の説明

１音声認識装置
３音声入力手段
５音声認識手段
７認識結果表示手段
９単語訂正手段
１１音声認識実行手段
１３連続音判定手段
１２データ記憶手段
１５競合単語表示指令手段
１７競合単語選択手段
１９単語置き換え指令手段

Claims

音声を入力するための音声入力手段と、
予め定めた判定手法に従って、前記音声入力手段から入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識手段と、
前記音声認識手段により認識された認識結果を複数の単語の単語列として画面に表示する認識結果表示手段と、
前記画面に表示された単語列を構成する前記一番競合確率の高い複数の単語を訂正する単語訂正手段とを備えた音声認識装置であって、
前記予め定めた判定手法は、コンフュージョン・ネットワークを用いて前記音声の入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、前記複数の単語の区間ごとに前記コンフュージョン・ネットワークによって得られる競合確率を求めて、前記一番競合確率の高い単語を決定する手法であり、
前記単語訂正手段は、
前記競合候補の中から前記一番競合確率の高い単語の競合確率に近い競合確率を持つ１以上の競合単語を選び、対応する前記一番競合確率の高い単語に隣接して前記画面上に表示させる競合単語表示指令手段と、
ユーザによるマニュアル操作に応じて、前記画面上に表示された前記１以上の競合単語から適切な訂正単語を選択する競合単語選択手段と、
前記競合単語選択手段により選択された前記訂正単語を、前記音声認識手段により認識された前記一番競合確率の高い単語と置き換えることを前記音声認識手段に指令する単語置き換え指令手段とを備え、
前記競合単語表示指令手段は、前記競合単語の前記競合確率の分布状況に応じて、前記画面上に表示する前記競合単語の数を変えることを特徴とする音声認識装置。
前記競合単語表示指令手段は、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が少ない場合には、前記画面上に表示する前記競合単語の数を少なくし、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が多い場合には、前記画面上に表示する前記競合単語の数を多くする請求項１に記載の音声認識装置。
前記競合単語表示指令手段は、前記単語列に含まれる前記複数の単語の上側または下側に、競合確率の高い順番に前記競合単語が並ぶように前記画面上に表示させる機能をさらに備えている請求項１に記載の音声認識装置。
前記競合単語表示指令手段は、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含む機能を備えており、
前記単語置き換え指令手段は、前記スキップ候補が選択されると、前記音声認識手段による前記認識結果から対応する前記一番競合確率の高い単語を削除することを前記音声認識手段に指令する機能を備えている請求項１に記載の音声認識装置。
前記競合単語表示指令手段は、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含む機能を備えており、
前記単語置き換え指令手段は、前記スキップ候補が選択されると、前記音声認識手段による前記認識結果から対応する前記一番競合確率の高い単語を削除することを前記音声認識手段に指令する機能を備えており、
前記スキップ候補にも競合確率が付与されることを特徴とする請求項１に記載の音声認識装置。
前記予め定めた判定手法は、一つの前記単語の一部を構成する音が二つの前記単語の区間のいずれにも入り得る場合には、前記一つの単語の一部を構成する音を前記二つの単語の区間の一方に含め、前記単語訂正手段により前記二つの単語の区間の一方に属する単語の訂正が行われると、前記二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるように前記スキップ候補を自動選択する手法である請求項５に記載の音声認識装置。
前記認識結果表示手段は、リアルタイムに前記認識結果を前記画面に表示する機能を有し、
前記単語訂正手段は、前記認識結果表示手段による前記認識結果の前記画面への表示と一緒に前記競合単語をリアルタイムに前記画面上に表示する機能を有している請求項１に記載の音声認識装置。
前記競合単語表示指令手段は、前記単語訂正手段により一部の前記単語が訂正されると、その訂正された単語を前記単語列においては、ユーザにより訂正された本来正解である単語として、再度競合単語の選び直しを行う機能を有している請求項１に記載の音声認識装置。
前記競合単語表示指令手段は、前記単語列中の前記訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の前記競合単語との言語的な接続確率を算出し、前記接続確率が大きいものを前記画面に表示する前記競合単語として選び、前に前記画面に表示している前記競合単語と入れ替えを行うまたは前に前記画面に表示している前記競合単語に追加する機能をさらに有している請求項８に記載の音声認識装置。
前記音声認識手段は、前記単語訂正手段により訂正の対象となった単語、訂正時間の情報及び前記訂正された単語に対する事後確率を蓄積データとして保存し、これらの蓄積データを利用して再度の音声認識を行う機能をさらに有している請求項１に記載の音声認識装置。
前記音声認識手段は、前記音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、前記単語訂正手段による訂正を許容する機能を有している請求項１に記載の音声認識装置。
前記音声認識手段は、
入力される前記音声が一定時間以上連続して続く連続音であることを判定する連続音判定手段を備えており、
前記連続音判定手段が前記連続音の入力を判定すると、前記音声認識処理を一時停止し、前記連続音判定手段が前記連続音を判定した後に前記連続音以外の音が入力されたことを判定すると、前記一時停止前の状態から前記音声認識処理を続行する機能を有している請求項１に記載の音声認識装置。
前記音声認識手段は、前記単語訂正手段により訂正の対象となった単語と、入力された音声における前記単語の位置情報または時間情報を保存し、前記再度の音声認識において、保存した位置情報または時間情報における前記単語の言語確率を動的に強化することにより、その単語に関連する単語を認識しやすくする機能を有している請求項１０に記載の音声認識装置。
前記音声認識手段は、音声が入力されると、音声認識処理を行うと同時に、前記音声認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う音響的適応処理手段を備えている請求項１に記載の音声認識装置。
前記音響的適応処理手段は、前記単語訂正手段により、認識誤りのない正確な教師信号をリアルタイムに生成することで、高精度な音響的適応機能を有している請求項１４に記載の音声認識装置。
予め定めた判定手法に従って、入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識ステップと、
前記音声認識ステップにより認識された認識結果を複数の単語の単語列として画面に表示する認識結果表示ステップと、
前記画面に表示された単語列を構成する前記一番競合確率の高い複数の単語を訂正する単語訂正ステップとを実行する音声認識方法であって、
前記予め定めた判定手法は、コンフュージョン・ネットワークを用いて前記音声の入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、前記複数の単語の区間ごとに前記コンフュージョン・ネットワークによって得られる競合確率を求めて、前記一番競合確率の高い単語を決定する手法であり、
前記単語訂正ステップでは、
前記競合候補の中から前記一番競合確率の高い単語の競合確率に近い競合確率を持つ１以上の競合単語を選び、対応する前記一番競合確率の高い単語に隣接して前記画面上に表示させる競合単語表示ステップと、
ユーザによるマニュアル操作に応じて、前記画面上に表示された前記１以上の競合単語から適切な訂正単語を選択する競合単語選択ステップと、
前記競合単語選択ステップで選択された前記訂正単語を、先に前記音声認識ステップにより認識された前記一番競合確率の高い単語と置き換えて前記画面に表示する単語置き換えステップとを実行し、
さらに前記競合単語表示ステップでは、前記競合単語の前記競合確率の分布状況に応じて、前記画面上に表示する前記競合単語の数を変えることを特徴とする音声認識方法。
前記競合単語表示ステップでは、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が少ない場合には、前記画面上に表示する前記競合単語の数を少なくし、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が多い場合には、前記画面上に表示する前記競合単語の数を多くする請求項１６に記載の音声認識方法。
前記競合単語表示ステップでは、前記単語列に含まれる前記複数の単語の上側または下側に、競合確率の高い順番に前記競合単語が並ぶように前記画面上に表示する請求項１６に記載の音声認識方法。
前記競合単語表示ステップでは、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含めてあり、
前記単語置き換えステップでは、前記スキップ候補が選択されると、前記音声認識ステップによる前記認識結果から対応する前記一番競合確率の高い単語を削除する請求項１６に記載の音声認識方法。
前記競合単語表示ステップでは、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含めており、
前記単語置き換えステップでは、前記スキップ候補が選択されると、前記音声認識ステップによる前記認識結果から対応する前記一番競合確率の高い単語を削除し、
前記スキップ候補にも競合確率を付与することを特徴とする請求項１６に記載の音声認識方法。
前記予め定めた判定手法は、一つの前記単語の一部を構成する音が二つの前記単語の区間のいずれにも入り得る場合には、前記一つの単語の一部を構成する音を前記二つの単語の区間の一方に含め、前記単語訂正手段により前記二つの単語の区間の一方に属する単語の訂正が行われると、前記二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるように前記スキップ候補を自動選択する手法である請求項２０に記載の音声認識方法。
前記認識結果表示ステップは、リアルタイムに前記認識結果を前記画面に表示し、
前記単語訂正ステップでは、前記認識結果表示ステップによる前記認識結果の前記画面への表示と一緒に前記競合単語をリアルタイムに前記画面上に表示する請求項１６に記載の音声認識方法。
前記競合単語表示ステップでは、前記単語訂正ステップにより一部の前記単語が訂正されると、その訂正された単語を前記単語列においては、ユーザにより訂正された本来正解である単語として、再度競合単語の選び直しを行う請求項１６に記載の音声認識方法。
前記競合単語表示ステップでは、前記単語列中の前記訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の前記競合単語との言語的な接続確率を算出し、前記接続確率が大きいものを前記画面に表示する前記競合単語として選び、前に前記画面に表示している前記競合単語と入れ替えを行うまたは前に前記画面に表示している前記競合単語に追加する請求項２３に記載の音声認識方法。
前記音声認識ステップでは、前記単語訂正ステップにより訂正の対象となった単語、訂正時間の情報及び前記訂正された単語に対する事後確率を蓄積データとして保存し、これらの蓄積データを利用して再度の音声認識を行う請求項１６に記載の音声認識方法。
前記音声認識ステップでは、前記音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、前記単語訂正ステップによる訂正を許容する請求項１６に記載の音声認識方法。
前記音声認識ステップでは、
入力される前記音声が一定時間以上連続して続く連続音であることを判定すると、前記音声認識処理を一時停止し、前記連続音を判定した後に前記連続音以外の音が入力されたことを判定すると、前記一時停止前の状態から前記音声認識処理を続行する請求項１６に記載の音声認識方法。
前記音声認識ステップでは、前記単語訂正ステップにより訂正の対象となった単語と、入力された音声における前記単語の位置情報または時間情報を保存し、前記再度の音声認識において、保存した位置情報または時間情報における前記単語の言語確率を動的に強化することにより、その単語に関連する単語を認識しやすくする請求項２５に記載の音声認識方法。
前記音声認識ステップでは、音声が入力されると、音声認識処理を行うと同時に、前記音声認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う請求項１６に記載の音声認識方法。
コンピュータを用いて、音声を認識し、画面上に認識結果を文字で表示する機能を前記コンピュータに実行させるためのプログラムであって、
入力された音声に含まれる複数の単語を予め辞書手段に記憶されている複数の単語とそれぞれ比較し、競合候補の中から一番競合確率の高い単語を認識結果とする音声認識機能と、
前記音声認識機能により認識された認識結果を複数の単語の単語列として画面に表示する認識結果表示機能と、
前記画面に表示された単語列を構成する前記一番競合確率の高い複数の単語を訂正する単語訂正機能とを前記コンピュータに実行させ、
前記音声認識機能では、コンフュージョン・ネットワークを用いて前記音声の入力に基づく単語グラフを音響的なクラスタリングによりリニアな形式に圧縮した複数の単語の区間に分け、前記複数の単語の区間ごとに前記コンフュージョン・ネットワークによって得られる競合確率を求めて、前記一番競合確率の高い単語を決定し、
前記単語訂正機能では、
前記競合候補の中から前記一番競合確率の高い単語の競合確率に近い競合確率を持つ１以上の競合単語を選び、対応する前記一番競合確率の高い単語に隣接して前記画面上に表示させる競合単語表示機能と、
ユーザによるマニュアル操作に応じて、前記画面上に表示された前記１以上の競合単語から適切な訂正単語を選択する競合単語選択機能と、
前記競合単語選択ステップで選択された前記訂正単語を、先に前記音声認識ステップにより認識された前記一番競合確率の高い単語と置き換えて前記画面に表示する単語置き換え機能とを前記コンピュータに実行させるように構成され、
前記競合単語表示機能では、前記競合単語の前記競合確率の分布状況に応じて、前記画面上に表示する前記競合単語の数を変えることを特徴とするプログラム。
前記競合単語表示機能では、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が少ない場合には、前記画面上に表示する前記競合単語の数を少なくし、前記一番競合確率の高い単語の競合確率に近い競合確率を持つ前記競合単語の数が多い場合には、前記画面上に表示する前記競合単語の数を多くする請求項３０に記載のプログラム。
前記競合単語表示機能では、前記単語列に含まれる前記複数の単語の上側または下側に、競合確率の高い順番に前記競合単語が並ぶように前記画面上に表示する請求項３０に記載のプログラム。
前記競合単語表示機能では、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含めてあり、
前記単語置き換え機能では、前記スキップ候補が選択されると、前記音声認識機能の実行による前記認識結果から対応する前記一番競合確率の高い単語を削除する請求項３０に記載のプログラム。
前記競合単語表示機能では、前記競合単語の中に、前記一番競合確率の高い単語が不要であるために前記認識結果から削除することを選択可能にするスキップ候補を含めており、
前記単語置き換え機能では、前記スキップ候補が選択されると、前記音声認識機能の実行による前記認識結果から対応する前記一番競合確率の高い単語を削除し、
前記スキップ候補にも競合確率を付与することを特徴とする請求項３０に記載のプログラム。
前記音声認識機能では、一つの前記単語の一部を構成する音が二つの前記単語の区間のいずれにも入り得る場合には、前記一つの単語の一部を構成する音を前記二つの単語の区間の一方に含め、前記単語訂正手段により前記二つの単語の区間の一方に属する単語の訂正が行われると、前記二つの単語の区間の他方の単語の区間では、時間的な整合性が取れるように前記スキップ候補を自動選択する請求項３４に記載のプログラム。
前記認識結果表示機能では、リアルタイムに前記認識結果を前記画面に表示し、
前記単語訂正機能では、前記認識結果表示機能の実行による前記認識結果の前記画面への表示と一緒に前記競合単語をリアルタイムに前記画面上に表示する請求項３０に記載のプログラム。
前記競合単語表示機能では、前記単語訂正機能により一部の前記単語が訂正されると、その訂正された単語を前記単語列においては、ユーザにより訂正された本来正解である単語として、再度競合単語の選び直しを行う請求項３０に記載のプログラム。
前記競合単語表示機能では、前記単語列中の前記訂正された単語とその前後にそれぞれ位置し得る二つの単語及びこの二つの単語の前記競合単語との言語的な接続確率を算出し、前記接続確率が大きいものを前記画面に表示する前記競合単語として選び、前に前記画面に表示している前記競合単語と入れ替えを行うまたは前に前記画面に表示している前記競合単語に追加する請求項３７に記載のプログラム。
前記音声認識機能では、前記単語訂正機能の実行により訂正の対象となった単語、訂正時間の情報及び前記訂正された単語に対する事後確率を蓄積データとして保存し、これらの蓄積データを利用して再度の音声認識を行う請求項３０に記載のプログラム。
前記音声認識機能では、前記音声が入力されている途中において、発話者が発声する特定の音声の入力により一時的に音声認識処理を停止して、前記単語訂正機能の実行による訂正を許容する請求項３０に記載のプログラム。
前記音声認識機能では、
入力される前記音声が一定時間以上連続して続く連続音であることを判定すると、前記音声認識処理を一時停止し、前記連続音を判定した後に前記連続音以外の音が入力されたことを判定すると、前記一時停止前の状態から前記音声認識処理を続行する請求項３０に記載のプログラム。
前記音声認識機能では、前記単語訂正機能の実行により訂正の対象となった単語と、入力された音声における前記単語の位置情報または時間情報を保存し、前記再度の音声認識において、保存した位置情報または時間情報における前記単語の言語確率を動的に強化することにより、その単語に関連する単語を認識しやすくする請求項３９に記載のプログラム。
前記音声認識機能では、音声が入力されると、音声認識処理を行うと同時に、認識処理の認識結果を教師信号としたオンラインでの音響的適応処理を行う請求項３０に記載のプログラム。
前記音響的適応処理は、前記単語訂正機能により、認識誤りのない正確な教師信号をリアルタイムに生成することで、高精度な音響的適応機能を有する請求項４３に記載のプログラム。