JP5285326B2

JP5285326B2 - 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体

Info

Publication number: JP5285326B2
Application number: JP2008126812A
Authority: JP
Inventors: 昌英水島
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2008-05-14
Filing date: 2008-05-14
Publication date: 2013-09-11
Anticipated expiration: 2028-05-14
Also published as: JP2009276495A

Description

この発明は、音声認識結果に含まれる誤認識語句を即時に訂正するために使用される音声誤認識訂正支援装置とその方法と、プログラムと記録媒体に関する。

音声認識は、人が話した音声の音響信号をコンピュータ等によって解析して文字情報に変換する。変換にはある程度の誤認識が避けられない。特に人が話した言葉を正確に文字化するディクテーションに音声認識を使用する場合には、誤認識を後から訂正することが必要になる。
会議の議事録などでは、録音した音声信号を連続的に音声認識させ、それと同時に字幕編集者がその音声を聞き返すなどして、誤認識箇所を特定してキーボード入力等で訂正する。この場合は録音音声であるので、必要に応じて再生を停止して分割して作業を行うことが可能である。しかし、例えばテレビの生放送における字幕放送や、講演、講義、会議等における字幕作成は、音声の発生と同時進行で即時に行わなくてはならないので、字幕編集者に掛かる負担が大きくなる。

そこで、従来から字幕編集者の負担を軽減する目的の字幕編集方式が検討されている。その一例として非特許文献１に開示されたハイブリッド字幕編集方式が知られている。ハイブリッド字幕編集方式は、連続した単語などをまとめて入力するワープロ型と、音声認識の結果を発話単位である行単位で処理する行単位型とを組み合わせた方式である。図１０に従来のハイブリッド字幕編集方式の構成を示して簡単に説明する。ハイブリッド字幕編集方式は、ワープロ型サブシムテム１０５と、行単位型サブシステム１０４と、切り替えサブシステム１０３とを備える。他の構成は図示のみで説明は省略する。ワープロ型サブシステム１０５は、誤認識した単語を訂正者がキーボード等を用いて訂正入力する。行単位型サブシステム１０４は、発話者の発話単位を一行として音声認識する。切り替えサブシステム１０３は、認識率の低い部分はワープロ型サブシステム１０５を選択し、認識率の高い部分は行単位型サブシステム１０４を選択する。このようにハイブリッド字幕編集方式は、認識率の高い部分に音声認識結果をそのまま使用することで字幕編集者の負担を軽減する方式である。

また、誤認識の修正作業を、誤り発見と、発見された誤りの修正との、二つの作業に分けて字幕編集者の負担を軽減する考えが、非特許文献２に開示されている。このように２つの方式の組み合わせや、訂正作業を分割することで字幕編集者の負担を軽減する方法が考えられていた。
「ワープロ型と行単位型融合によるハイブリッド字幕編集システム」、電子情報通信学会論文誌D Vol.J90-D No.3 pp.673-682 「音声認識を利用した放送用ニュース字幕制作システム」、電子情報通信学会論文誌D-II vol.J84-D-II No.6 pp.877-887

しかし、従来の方法では、発話者が誤認識の訂正作業に合わせて話そうとすると、発話者は、認識結果、あるいは訂正結果を見ながら話すスピードや発話を中断すべきかどうかを、判断しながら調整する必要があった。これは発話のリズムを阻害する要因になると共に、時間ロスや話し難さの原因になっていた。つまり、発話者が確実性を求めると、発話の区切りごとに、認識結果を目視して正しく認識されている、或いは正しく訂正されたことを確認してから次の発話を開始するために時間ロスが生じる。逆に発話者が字幕の変換作業を全く気にせずに発話を続けると、誤認識の訂正作業が追いつかなくなる問題点があった。

この発明は、このような点に鑑みてなされたものであり、時間ロスを抑制させ、発話者が話し易く、且つ字幕編集者も訂正がし易い、音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体を提供することを目的とする。

この発明の音声誤認識訂正支援装置は、音声認識部と、誤認識量推定部と、誤認識量訂正部と、表示部と、発話中断指示部とを具備する。音声認識部は入力音声を認識して単語列を生成する。誤認識量推定部は、単語列とその単語列の誤認識単語に対応する訂正文字列とを入力として単語列に含まれる誤認識量を推定する。誤認識訂正部は、単語列と訂正文字列とから成る音声認識結果文字列を出力する。表示部は単語列と訂正文字列を表示する。発話中断指示部は、誤認識量と所定値とを比較して入力音声の停止をさせる又は発話者に発話の中断を促す発話中断を指示する。そして、上記誤認識量推定部は、音声認識部から入力される単語列を加算カウントし訂正文字列の訂正された単語数を減算カウントしたカウント値に誤認識率を乗算して誤認識量を推定する。

この発明の音声誤認識訂正支援装置は、誤認識量推定部が音声認識した結果の単語列に含まれる誤認識量を推定し、発話中断指示部がその誤認識量の推定値と所定値とを比較して入力音声の停止を指示する。したがって、発話者は音声認識結果を常時確認しながら発話をする必要が無くなるので話し易くなる。また、誤認識の訂正作業を無視して発話を継続してしまうことを防ぐことができるので、字幕編集者も字幕の訂正が行い易い。このように、この発明の音声誤認識訂正支援装置によれば、訂正作業が所定量よりも多い場合（遅れた場合）だけ発話を中断させれば良いので、字幕編集作業によって生じる時間ロスを抑制することができる。

以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。

図１にこの発明の音声誤認識訂正支援装置１００の機能構成例を示す。図２にその動作フローを示す。音声誤認識訂正支援装置１００は、音声認識部１０と、表示部１２と、誤認識量推定部１１と、誤認識訂正部１３と、発話中断指示部１４と、それら各部の動作を制御する制御部１５とで構成される。音声誤認識訂正支援装置１００は、例えばＲＯＭ、ＲＡＭ、ＣＰＵ等で構成されるコンピュータに所定のプログラムが読み込まれて、ＣＰＵがそのプログラムを実行することで実現されるものである。

音声認識部１０は、発話者が発声する音声信号をディジタル値に変換した信号を、音声認識して単語列を生成する（ステップＳ１０）。音声認識された単語列は表示部１２で表示される（ステップＳ１２）。音声誤認識訂正支援装置１００を操作する字幕編集者は、表示部１２に表示される単語列と発話者の発声する音声とから、単語列に誤認識単語がないかを確認する。そして、誤認識単語を発見するとキーボード等の入力手段を用いて正しい訂正文字列を、誤認識量推定部１１と誤認識訂正部１３に入力する。

誤認識訂正部１３は、単語列と、単語列内の誤認識単語を置き換えた訂正文字列とから成る音声認識結果文字列を出力する（ステップＳ１３）。誤認識量推定部１１は、音声認識部１０が出力する単語列と、訂正文字列とを入力として単語列に含まれる誤認識量を推定する（ステップＳ１１）。

発話中断指示部１４は、誤認識量推定部１１が出力する誤認識量の推定値と、所定値を比較して誤認識量の推定値が所定値以上の場合（ステップＳ１４０のＹ）に、発話者に光や音などで発話を中断するように発話中断指示を行う（ステップＳ１４１）。誤認識量の推定値が所定値以下の場合（ステップＳ１４０のＮ）は、ステップ１０から始まる誤認識訂正支援動作を継続する。発話中断指示によって発話が終了していれば音声認識部１０の動作を停止させる（ステップＳ１５１のＹ）。この発話の終了の判断は、例えば、制御部１５が音声認識部１０の出力する単語列が所定時間無いことを監視して行う。発話が再開されればステップ１０から始まる音声誤認識訂正支援動作を再開する（ステップＳ１５１のＮ）。発話の再開は、例えば、制御部１５が誤認識訂正支援動作の停止時間をタイマーで計時して、所定時間経過後に再開させる。または、字幕編集者の操作に基づいて再開させても良い。

以上のように動作することで、誤認識単語の量が増えた場合に、発話者の発話を停止させることが出来る。したがって、発話者は音声認識結果を常時確認すること無く発言に集中できる。また、字幕編集者は誤認識単語の数が増えないので、字幕の編集作業を余裕を持って行うことが可能になる。また、訂正作業が所定量よりも多い場合（遅れた場合）だけ発話を中断させれば良いので、字幕編集作業によって生じる時間ロスを抑制することができる。なお、例えば音声ファイルからの入力音声のように実況音声で無い場合は、発話中断指示に基づいて入力音声信号の入力を停止させるようにすれば良い。

以上述べたように音声誤認識訂正支援装置１００は、音声認識部１０が行う音声認識過程と、誤認識訂正部１３が行う誤認識訂正過程と、の２つの過程を同時並行して行なうものである。この二つの処理過程の動作の関係を図３に示して音声誤認識訂正支援装置１００の動作を更に詳しく説明する。
発話者が発話する音声を音声誤認識訂正支援装置１００に入力する（ステップＳ１）。音声信号は、ある所定の周波数でサンプリングされてディジタル信号に変換され音声認識部１０に入力される。音声信号をディジタル信号に変換するＡＤコンバータは省略している。

音声認識部１０は一般的な音声認識処理を行なう（ステップＳ１０）。つまり、入力される音声信号を分析して得られる音響的特徴量ベクトルの系列と、音声をモデル化した音響モデルとの間の尤度を算出し、認識すべき語彙、単語間の接続のし易さ、規則を表わす言語モデルなどの言語的制約の中において、尤度の最も高い単語列を認識結果として出力する（ステップＳ１０１）。音声認識部１０では、音声信号の無い無音区間（ポーズ）も検出する（ステップＳ１００）。

音声認識された単語列は、表示部１２に表示される（ステップＳ１２）。制御部１５は、音声認識部１０の出力する単語列を監視して、無音区間が所定時間以上継続する場合は（ステップＳ１５１のＹ）音声認識部１０の動作のみを停止させる（ステップＳ１５２）。入力音声がある場合は（ステップＳ１５１のＮ）、音声認識過程（ステップＳ１０）からの動作を繰り返す。

音声誤認識訂正支援装置１００を操作する字幕編集者は、表示部１２に表示される単語列と発話者の発声する音声とから、単語列に誤認識単語がないかを判定する（ステップＳ２）。単語列に誤認識あると判定すると（ステップＳ３のＹ）、字幕編集者はキーボード等の入力手段を用いて正しい訂正文字列を、誤認識量推定部１１と誤認識訂正部１３に入力する（ステップＳ４）。訂正文字列は、直ちに表示部１２に表示される（ステップＳ１３）。

誤認識量推定部１１は、単語列と訂正文字列とを入力として単語列に含まれる誤認識量を推定する（ステップＳ１１）。推定された誤認識量は、発話中断指示部１４に入力される。発話中断指示部１４は、誤認識量と、予め定められた所定値とを比較して、誤認識量が所定値以上の場合（ステップＳ１４０のＹ）、発話者に発話の中断を促す発話中断指示を、光や音などで指示する（ステップＳ１４１）。

単語列に誤認識単語が無い場合（ステップＳ３のＮ）で且つ、発話中断指示部１４が中断指示をしていない時は（ステップＳ１５３のＮ）、ステップＳ２とＳ３とＳ１５３のＮのループで次の誤認識単語の発生を待つ。新たな誤認識単語が無いにも関わらず発話中断指示が行われている場合は（ステップＳ１５３のＹ）、発話中断指示部１４が一度発話中断指示を行なった後に、音声認識部１０が無音区間を検出し続けている状況を意味する。このままでは、発話中断指示過程（ステップＳ１４１）でデッドロックしてしまう。それを防止する目的で、制御部１５は所定時間以上の発話中断指示を確認すると、発話中断指示を解除すると共に音声認識部１０の動作を再開させる（ステップＳ１５４）。この処理は、フローチャート中に示すスイッチＳＷａをＴ１側に倒す動作を意味する。このようにすることで、発話中断指示をしたままの状態で、音声誤認識訂正支援装置１００が動作を停止してしまうことを防ぐことが出来る。

〔誤認識量推定部〕
ここで、図４に誤認識量推定部１１の機能構成例を示してその動作を説明する。図５に誤認識量推定部１１と発話中断指示部１４の動作フローを示す。誤認識量推定部１１は、単語数カウント部１１０と誤認識推定部１１１と、誤認識率α記録部１１２とを備える。単語数カウント部１１０は、音声認識部１０が出力する単語列と、字幕編集者がキーボード等を用いて入力する訂正文字列を入力として、単語列に含まれる単語数をカウントする（ステップＳ１１０）。単語数カウント部１１０は、音声認識部１０から単語列が入力されると加算カウントし、訂正文字列の入力に対しては減算カウントする。したがって、単語数カウント部１１０は、訂正された単語を除く単語数Ｗをカウントする。誤認識推定部１１１は、誤認識率α記録部１１２に記録された誤認識率αを読み出し、単語数カウント部１１０のカウント値Ｗに乗算して誤認識単語推定数Ｅを推定する（ステップＳ１１１）。誤認識単語推定数Ｅは、発話中断指示部１４に入力される。

例えば、音声認識率を９０％とした場合の誤認識率は１０％であり、これはカウント値Ｗが１０個に誤認識単語が１個含まれることを意味する。発話中断指示部１４は、誤認識単語推定数Ｅと比較する所定値を１にしておけば、カウント値Ｗが１０個以上になると（ステップＳ１４０のＹ）、発話中断指示を行う（ステップＳ１４１）。誤認識単語推定数Ｅが所定値未満の場合、単語数カウント部１１０は単語数Ｗのカウントを継続する（ステップＳ１４０のＮ）。

発話中断指示は、誤認識単語推定数Ｅが所定値未満になるまで継続する（ステップＳ１１２のＮ）。発話中断指示がされている状態では、新たな入力音声が発生しない。よって、訂正文字列の数が増えることで誤認識単語推定数Ｅは減少する。その結果、誤認識単語推定数Ｅが所定値未満となると発話中断指示が解除される（ステップＳ１５４）。以上の動作は、音声認識動作が停止されるまで継続される（ステップＳ１５３のＮ）。

このように、音声認識部１０の性能で決る誤認識率に基づいて一律に誤認識単語推定数Ｅを求めても良い。また、単語列を形成する各単語の信頼度を個々に求めて、その信頼度がある値以下の場合に、その単語を誤認識単語と推定して誤認識単語推定数Ｅを求めるようにしても良い。

ある単語の信頼度は、その単語を通る経路の尤度が、文章を構成する単語グラフ内の全経路の尤度の総和に対してどの程度の割合であるか（事後確率）という値で定義することが出来る。正しい単語であればその単語の事後確率は高く、誤った単語であれば事後確率は小さくなる。この事後確率Ｃ（Ｗ_ｋ，ｍ）は式（１）で求めることが出来る。

ここで、（Ｗ_ｋ，ｍ）はノードｋ，ｍ間に生成した単語、α_ｋは始端からノードｋまでのフォワード確率、β_ｍはノードｍから終端までのバックワード確率、Ｐ_ａ（Ｗ_ｋ，ｍ）はＷ_ｋ，ｍの音響尤度、Ｐ_ｍ（Ｗ_ｋ，ｍ）はＷ_ｋ，ｍの言語尤度、Ｇは始端から終端までのフォワード確率である。
誤認識量推定部１１内に、この事後確率Ｃ（Ｗ_ｋ，ｍ）を算出する事後確率算出部１１３を設けて、単語列を形成する各単語の信頼度を求め、その信頼度を考慮することで、誤認識単語推定数Ｅの推定精度を高めることが可能である。

文末推定部１６を備えたこの発明の音声誤認識訂正支援装置２００の機能構成例を図１に示す。文末推定部１６を破線で示す。文末推定部１６以外の構成は、音声誤認識訂正支援装置１００と同じである。音声誤認識訂正支援装置２００の動作フローを図６に示す。
音声誤認識訂正支援装置２００は、入力音声の文末を検出してその時点で発話中断指示を行うようにしたものである。文末において発話中断指示を行うために、文末推定部１６が音声認識部１０の出力する単語列を入力として文末を推定する過程が追加されている点が異なる。また、図６のフローチャート上の発話中断指示過程（ステップＳ１４１´）とスイッチＳＷａが、その文末推定（ステップＳ１６０）の後に移動している点が異なる。

発話中断指示部１４が、誤認識量が所定値以上と判断すると（ステップＳ１４０のＹ）、スイッチＳＷｂをＴ４側に倒し、文末推定部１６が現時点を文末と推定しているか否かを判断する。文末であれば発話中断指示を行う（ステップＳ１４１´）。文末で無いと推定した場合は、次の入力音声を待つ（ステップＳ１６０のＮ）。このように動作することで、発話中断指示を文末で行うことが可能になる。その結果、発話の中断を自然に行えると共に発話者も話し易くすることが出来る。

図７に文末推定部１６の機能構成例を示して動作を説明する。その動作フローを図８に示す。文末推定部１６は、２単語前一致検出部１６０と、１単語前一致検出部１７０と、単語一致検出部１８０と、文末データベース１９０を備える。文末データベース１９０は、文末を表現する形態素の並びを記録したデータベースである。例えば、「〜について／紹介／します」といった文末表現を多数記録している。２単語前一致検出部１６０は、文末の単語から２個前の単語と、文末データベース１９０との一致を検出する。１単語前一致検出部１７０は、文末から１個前の単語の一致を検出する。単語一致検出部１８０は、文末の単語の一致を検出する。

例えば、「について／紹介／します。」と発話者が発話した場合を例に説明する。この場合、単語列は、「について」、「紹介」、「します。」の順で文末推定部１６に入力される。２単語前一致検出部１６０は、文末フラグＦ_−２がセットされていないことを確認した後（ステップＳ１６０のＮ）、「について」の単語列が文末データベース１９０に記録された文末の中にあるか否かを検索する。「について」が２単語前の単語として一致すれば（ステップＳ１６１のＹ）、文末フラグＦ_−２を１にセットして次の単語入力を待つ。一致しない場合は（ステップＳ１６１のＮ）、文末フラグＦ_−２とＦ_−１をリセットして（ステップＳ１８２）次の単語入力を待つ。

次の単語の「紹介」が入力されると、文末フラグＦ_−２＝１なので、文末フラグＦ_−１がセットされていないこと確認する（ステップＳ１７０のＮ）。そして「紹介」が１単語前の単語として文末データベース１９０と一致すれば（ステップＳ１７１のＹ）、文末フラグＦ_−１を１にセットして次の単語入力を待つ。一致しなければ（ステップＳ１７１のＮ）、ステップＳ１８２で文末フラグＦ_−２とＦ_−１をリセットする。
次に、「します。」が入力されると、文末フラグＦ_−２＝１、Ｆ_−１＝１なので、「します。」の一致を検出する。一致すれば（ステップＳ１８０のＹ）、文末であると検出する（ステップＳ１８１）。一致しない場合は（ステップＳ１８０のＮ）、ステップＳ１８２で文末フラグＦ_−２とＦ_−１をリセットする。

このように、文末を形成する３個の単語が連続して、文末データベース１９０に記録された文末情報と一致することで、入力音声の文末を検出することが可能である。文末検出部１６で文末を検出して発話中断指示を行うことで、発話の中断が自然に行え、発話者も話し易くなる。

また、文末推定部１６で文末の推定が可能になったことから、入力音声の一文の検出が可能なので、一文単位で誤認識量を推定させることも出来る。一文単位で誤認識量を推定する動作は、図３と図６のフローチャートに示すステップＳ１１の誤認識量推定過程を、一文単位で行うことになる。その動作変更は容易に実現できるので、図を参照した説明は省略する。一文単位毎に誤認識量を推定させることで、誤認識推定処理の動作回数が減少する。その結果、音声誤認識訂正支援装置２００の動作速度を速くすることが出来る。また、一文単位で処理することで、一文単位で正解文を記録することが可能になる。この正解文を記録する字幕学習部を備えるようにした音声誤認識訂正支援装置３００を実施例３として次に説明する。

図９に誤認識訂正部１３に字幕学習部１３１を設けた音声誤認識訂正支援装置３００の機能構成例を示す。音声誤認識訂正支援装置３００は、誤認識訂正部１３に字幕学習部１３１を備える点のみが、実施例２と異なる。字幕学習部１３１は、文末推定部１６が文末を推定した一文単位で行われる誤認識訂正を記録する。つまり、一文単位の訂正履歴から訂正文の正解に当たる字幕を学習して一文単位に対応させた学習字幕を記録する。したがって、音声認識部１０が出力する単語列と文末情報とから、正解文を推定することが出来る。誤認識訂正部１３がその正解文をそのまま表示部１２に表示することで、字幕編集者は訂正文字列を入力するまでも無く、音声認識結果文字列を決定することが出来る。このように字幕学習部１３１を備えることで、字幕編集者の負担を更に軽減させることが出来る。

以上述べたように、この発明の音声誤認識訂正支援装置によれば、誤認識量推定部が音声認識した結果の単語列に含まれる誤認識量を推定し、発話中断指示部がその推定値と所定値とを比較して入力音声の停止を指示する。したがって、発話者は音声認識結果を常時確認しながら発話をする必要が無くなるので話し易くなり、誤認識の訂正作業を無視して発話を継続してしまうことも防ぐことができる。したがって、字幕編集者も字幕の訂正が行い易い。

この発明の技術思想に基づく音声誤認識訂正支援装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。例えば、誤認識単語数の推定は、過去の音声認識結果とその訂正履歴から認識率を算出し、その推定認識率から予想される誤認識単語数の割合を求めるようにしても良い。また、信頼度の低い単語や単語列が多いほど、訂正しなければならない量が多いと予想されるので、認識結果文字列全体の信頼度が、予め決めておいた一定値を超えた場合に、発話中断指示を行うようにする。或いは、個々の単語の文字数をその単語の信頼度により重み付けして積算し、その値が予め決めておいた値を超えた場合に発話中断指示を行うようにしても良い。信頼度を使用する場合も、どの程度の信頼度のとき、どの程度の訂正量があったかを履歴として記録しておき、そこから発話中断指示のためのしきい値を決めるようにしても良い。

また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。

この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ-ＲＡＭ（Random Access Memory）、ＣＤ-ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ-Ｒ（Recordable）/ＲＷ（ReWritable）等を、光磁気記録媒体として、ＭＯ（Magneto Optical disc）等を、半導体メモリとしてフラッシュメモリー等を用いることができる。

また、このプログラムの流通は、例えば、そのプログラムを記録したＤＶＤ、ＣＤ−ＲＯＭ等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

この発明の音声誤認識訂正支援装置１００と２００の機能構成例を示す図。音声誤認識訂正支援装置１００の動作フローを示す図。より詳細な音声誤認識訂正支援装置１００の動作フローを示す図。誤認識量推定部１１の機能ブロックを示す図。誤認識量推定部１１の動作フローを示す図。音声誤認識訂正支援装置２００の動作フローを示す図。文末推定部１６の機能ブロックを示す図。文末推定部１６の動作フローを示す図。音声誤認識訂正支援装置３００の機能構成例を示す図。非特許文献１に開示されたハイブリッド字幕編集方式の構成を示す図。

Claims

入力音声を認識して単語列を生成する音声認識部と、
上記単語列と、上記単語列の誤認識単語に対応する訂正文字列とを入力として上記単語列に含まれる誤認識量を推定する誤認識量推定部と、
上記単語列と上記訂正文字列とから成る音声認識結果文字列を出力する誤認識訂正部と、
上記単語列と上記訂正文字列を表示する表示部と、
上記誤認識量と、所定値とを比較して上記入力音声の停止をさせる又は発話者に発話の中断を促す発話中断を指示する発話中断指示部と、
を具備し、
上記誤認識量推定部は、上記音声認識部から入力される単語列を加算カウントし上記訂正文字列の訂正された単語数を減算カウントしたカウント値に誤認識率を乗算して上記誤認識量を推定するものであることを特徴とする音声誤認識訂正支援装置。
請求項１に記載の音声誤認識訂正支援装置において、
上記単語列を入力として上記単語列で構成される一文の文末を推定する文末推定部を備え、
上記誤認識量推定部は、上記一文毎に誤認識量を推定するものであることを特徴とする音声誤認識訂正支援装置。
請求項２に記載の音声誤認識訂正支援装置において、
上記発話中断指示部は、上記文末推定部が上記一文の文末を推定した時間に上記入力音声の停止を指示することを特徴とする音声誤認識訂正支援装置。
請求項２又は３に記載した音声誤認識訂正支援装置において、
上記一文単位の訂正履歴から字幕を学習して上記一文単位に対応させた学習字幕を記録する字幕学習部を備え、
上記一文単位毎に上記学習字幕を上記表示部に表示することを特徴とする音声誤認識訂正支援装置。
音声認識部が、入力音声を認識して単語列を生成する音声認識過程と、
誤認識量推定部が、上記単語列と、上記単語列の誤認識単語に対応する訂正文字列とを入力として上記単語列に含まれる誤認識量を推定する誤認識量推定過程と、
誤認識訂正部が、上記単語列と上記訂正文字列とから成る音声認識結果文字列を出力する誤認識訂正過程と、
表示部が、上記単語列と上記訂正文字列を表示する表示過程と、
発話中断指示部が、上記誤認識量と、所定値とを比較して上記入力音声の停止をさせる又は発話者に発話の中断を促す発話中断を指示する発話中断指示過程と、
を含み、
上記誤認識量推定過程は、上記音声認識部から入力される単語列を加算カウントし上記訂正文字列の訂正された単語数を減算カウントしたカウント値に誤認識率を乗算して上記誤認識量を推定する過程であることを特徴とする音声誤認識訂正支援方法。
請求項５に記載の音声誤認識訂正支援方法において、
文末推定部が、上記単語列を入力として上記単語列で構成される一文の文末を推定する文末推定過程を含み、
上記誤認識量推定過程は、上記一文内の誤認識量を推定する過程であることを特徴とする音声誤認識訂正支援方法。
請求項６に記載の音声誤認識訂正支援方法において、
上記発話中断指示過程は、上記文末推定過程が上記一文の文末を推定した時間に上記入力音声の停止を指示する過程であることを特徴とする音声誤認識訂正支援方法。
請求項６又は７に記載した音声誤認識訂正支援方法において、
字幕学習部が、上記一文単位の訂正履歴から字幕を学習して上記一文単位に対応させた学習字幕を記録する字幕学習過程を含み、
上記一文単位毎に上記学習字幕を上記表示部に表示することを特徴とする音声誤認識訂正支援方法。
請求項１乃至４の何れかに記載した音声誤認識訂正支援装置としてコンピュータを機能させるための装置プログラム。
請求項９に記載した何れかの装置プログラムを記録したコンピュータで読み取り可能な記録媒体。