JP5285326B2 - 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体 - Google Patents

音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体 Download PDF

Info

Publication number
JP5285326B2
JP5285326B2 JP2008126812A JP2008126812A JP5285326B2 JP 5285326 B2 JP5285326 B2 JP 5285326B2 JP 2008126812 A JP2008126812 A JP 2008126812A JP 2008126812 A JP2008126812 A JP 2008126812A JP 5285326 B2 JP5285326 B2 JP 5285326B2
Authority
JP
Japan
Prior art keywords
misrecognition
unit
speech
sentence
correction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
JP2008126812A
Other languages
English (en)
Other versions
JP2009276495A (ja
Inventor
昌英 水島
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2008126812A priority Critical patent/JP5285326B2/ja
Publication of JP2009276495A publication Critical patent/JP2009276495A/ja
Application granted granted Critical
Publication of JP5285326B2 publication Critical patent/JP5285326B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Description

この発明は、音声認識結果に含まれる誤認識語句を即時に訂正するために使用される音声誤認識訂正支援装置とその方法と、プログラムと記録媒体に関する。
音声認識は、人が話した音声の音響信号をコンピュータ等によって解析して文字情報に変換する。変換にはある程度の誤認識が避けられない。特に人が話した言葉を正確に文字化するディクテーションに音声認識を使用する場合には、誤認識を後から訂正することが必要になる。
会議の議事録などでは、録音した音声信号を連続的に音声認識させ、それと同時に字幕編集者がその音声を聞き返すなどして、誤認識箇所を特定してキーボード入力等で訂正する。この場合は録音音声であるので、必要に応じて再生を停止して分割して作業を行うことが可能である。しかし、例えばテレビの生放送における字幕放送や、講演、講義、会議等における字幕作成は、音声の発生と同時進行で即時に行わなくてはならないので、字幕編集者に掛かる負担が大きくなる。
そこで、従来から字幕編集者の負担を軽減する目的の字幕編集方式が検討されている。その一例として非特許文献1に開示されたハイブリッド字幕編集方式が知られている。ハイブリッド字幕編集方式は、連続した単語などをまとめて入力するワープロ型と、音声認識の結果を発話単位である行単位で処理する行単位型とを組み合わせた方式である。図10に従来のハイブリッド字幕編集方式の構成を示して簡単に説明する。ハイブリッド字幕編集方式は、ワープロ型サブシムテム105と、行単位型サブシステム104と、切り替えサブシステム103とを備える。他の構成は図示のみで説明は省略する。ワープロ型サブシステム105は、誤認識した単語を訂正者がキーボード等を用いて訂正入力する。行単位型サブシステム104は、発話者の発話単位を一行として音声認識する。切り替えサブシステム103は、認識率の低い部分はワープロ型サブシステム105を選択し、認識率の高い部分は行単位型サブシステム104を選択する。このようにハイブリッド字幕編集方式は、認識率の高い部分に音声認識結果をそのまま使用することで字幕編集者の負担を軽減する方式である。
また、誤認識の修正作業を、誤り発見と、発見された誤りの修正との、二つの作業に分けて字幕編集者の負担を軽減する考えが、非特許文献2に開示されている。このように2つの方式の組み合わせや、訂正作業を分割することで字幕編集者の負担を軽減する方法が考えられていた。
「ワープロ型と行単位型融合によるハイブリッド字幕編集システム」、電子情報通信学会論文誌D Vol.J90-D No.3 pp.673-682 「音声認識を利用した放送用ニュース字幕制作システム」、電子情報通信学会論文誌D-II vol.J84-D-II No.6 pp.877-887
しかし、従来の方法では、発話者が誤認識の訂正作業に合わせて話そうとすると、発話者は、認識結果、あるいは訂正結果を見ながら話すスピードや発話を中断すべきかどうかを、判断しながら調整する必要があった。これは発話のリズムを阻害する要因になると共に、時間ロスや話し難さの原因になっていた。つまり、発話者が確実性を求めると、発話の区切りごとに、認識結果を目視して正しく認識されている、或いは正しく訂正されたことを確認してから次の発話を開始するために時間ロスが生じる。逆に発話者が字幕の変換作業を全く気にせずに発話を続けると、誤認識の訂正作業が追いつかなくなる問題点があった。
この発明は、このような点に鑑みてなされたものであり、時間ロスを抑制させ、発話者が話し易く、且つ字幕編集者も訂正がし易い、音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体を提供することを目的とする。
この発明の音声誤認識訂正支援装置は、音声認識部と、誤認識量推定部と、誤認識量訂正部と、表示部と、発話中断指示部とを具備する。音声認識部は入力音声を認識して単語列を生成する。誤認識量推定部は、単語列とその単語列の誤認識単語に対応する訂正文字列とを入力として単語列に含まれる誤認識量を推定する。誤認識訂正部は、単語列と訂正文字列とから成る音声認識結果文字列を出力する。表示部は単語列と訂正文字列を表示する。発話中断指示部は、誤認識量と所定値とを比較して入力音声の停止をさせる又は発話者に発話の中断を促す発話中断を指示する。そして、上記誤認識量推定部は、音声認識部から入力される単語列を加算カウントし訂正文字列の訂正された単語数を減算カウントしたカウント値に誤認識率を乗算して誤認識量を推定する。
この発明の音声誤認識訂正支援装置は、誤認識量推定部が音声認識した結果の単語列に含まれる誤認識量を推定し、発話中断指示部がその誤認識量の推定値と所定値とを比較して入力音声の停止を指示する。したがって、発話者は音声認識結果を常時確認しながら発話をする必要が無くなるので話し易くなる。また、誤認識の訂正作業を無視して発話を継続してしまうことを防ぐことができるので、字幕編集者も字幕の訂正が行い易い。このように、この発明の音声誤認識訂正支援装置によれば、訂正作業が所定量よりも多い場合(遅れた場合)だけ発話を中断させれば良いので、字幕編集作業によって生じる時間ロスを抑制することができる。
以下、この発明の実施の形態を図面を参照して説明する。複数の図面中同一のものには同じ参照符号を付し、説明は繰り返さない。
図1にこの発明の音声誤認識訂正支援装置100の機能構成例を示す。図2にその動作フローを示す。音声誤認識訂正支援装置100は、音声認識部10と、表示部12と、誤認識量推定部11と、誤認識訂正部13と、発話中断指示部14と、それら各部の動作を制御する制御部15とで構成される。音声誤認識訂正支援装置100は、例えばROM、RAM、CPU等で構成されるコンピュータに所定のプログラムが読み込まれて、CPUがそのプログラムを実行することで実現されるものである。
音声認識部10は、発話者が発声する音声信号をディジタル値に変換した信号を、音声認識して単語列を生成する(ステップS10)。音声認識された単語列は表示部12で表示される(ステップS12)。音声誤認識訂正支援装置100を操作する字幕編集者は、表示部12に表示される単語列と発話者の発声する音声とから、単語列に誤認識単語がないかを確認する。そして、誤認識単語を発見するとキーボード等の入力手段を用いて正しい訂正文字列を、誤認識量推定部11と誤認識訂正部13に入力する。
誤認識訂正部13は、単語列と、単語列内の誤認識単語を置き換えた訂正文字列とから成る音声認識結果文字列を出力する(ステップS13)。誤認識量推定部11は、音声認識部10が出力する単語列と、訂正文字列とを入力として単語列に含まれる誤認識量を推定する(ステップS11)。
発話中断指示部14は、誤認識量推定部11が出力する誤認識量の推定値と、所定値を比較して誤認識量の推定値が所定値以上の場合(ステップS140のY)に、発話者に光や音などで発話を中断するように発話中断指示を行う(ステップS141)。誤認識量の推定値が所定値以下の場合(ステップS140のN)は、ステップ10から始まる誤認識訂正支援動作を継続する。発話中断指示によって発話が終了していれば音声認識部10の動作を停止させる(ステップS151のY)。この発話の終了の判断は、例えば、制御部15が音声認識部10の出力する単語列が所定時間無いことを監視して行う。発話が再開されればステップ10から始まる音声誤認識訂正支援動作を再開する(ステップS151のN)。発話の再開は、例えば、制御部15が誤認識訂正支援動作の停止時間をタイマーで計時して、所定時間経過後に再開させる。または、字幕編集者の操作に基づいて再開させても良い。
以上のように動作することで、誤認識単語の量が増えた場合に、発話者の発話を停止させることが出来る。したがって、発話者は音声認識結果を常時確認すること無く発言に集中できる。また、字幕編集者は誤認識単語の数が増えないので、字幕の編集作業を余裕を持って行うことが可能になる。また、訂正作業が所定量よりも多い場合(遅れた場合)だけ発話を中断させれば良いので、字幕編集作業によって生じる時間ロスを抑制することができる。なお、例えば音声ファイルからの入力音声のように実況音声で無い場合は、発話中断指示に基づいて入力音声信号の入力を停止させるようにすれば良い。
以上述べたように音声誤認識訂正支援装置100は、音声認識部10が行う音声認識過程と、誤認識訂正部13が行う誤認識訂正過程と、の2つの過程を同時並行して行なうものである。この二つの処理過程の動作の関係を図3に示して音声誤認識訂正支援装置100の動作を更に詳しく説明する。
発話者が発話する音声を音声誤認識訂正支援装置100に入力する(ステップS1)。音声信号は、ある所定の周波数でサンプリングされてディジタル信号に変換され音声認識部10に入力される。音声信号をディジタル信号に変換するADコンバータは省略している。
音声認識部10は一般的な音声認識処理を行なう(ステップS10)。つまり、入力される音声信号を分析して得られる音響的特徴量ベクトルの系列と、音声をモデル化した音響モデルとの間の尤度を算出し、認識すべき語彙、単語間の接続のし易さ、規則を表わす言語モデルなどの言語的制約の中において、尤度の最も高い単語列を認識結果として出力する(ステップS101)。音声認識部10では、音声信号の無い無音区間(ポーズ)も検出する(ステップS100)。
音声認識された単語列は、表示部12に表示される(ステップS12)。制御部15は、音声認識部10の出力する単語列を監視して、無音区間が所定時間以上継続する場合は(ステップS151のY)音声認識部10の動作のみを停止させる(ステップS152)。入力音声がある場合は(ステップS151のN)、音声認識過程(ステップS10)からの動作を繰り返す。
音声誤認識訂正支援装置100を操作する字幕編集者は、表示部12に表示される単語列と発話者の発声する音声とから、単語列に誤認識単語がないかを判定する(ステップS2)。単語列に誤認識あると判定すると(ステップS3のY)、字幕編集者はキーボード等の入力手段を用いて正しい訂正文字列を、誤認識量推定部11と誤認識訂正部13に入力する(ステップS4)。訂正文字列は、直ちに表示部12に表示される(ステップS13)。
誤認識量推定部11は、単語列と訂正文字列とを入力として単語列に含まれる誤認識量を推定する(ステップS11)。推定された誤認識量は、発話中断指示部14に入力される。発話中断指示部14は、誤認識量と、予め定められた所定値とを比較して、誤認識量が所定値以上の場合(ステップS140のY)、発話者に発話の中断を促す発話中断指示を、光や音などで指示する(ステップS141)。
単語列に誤認識単語が無い場合(ステップS3のN)で且つ、発話中断指示部14が中断指示をしていない時は(ステップS153のN)、ステップS2とS3とS153のNのループで次の誤認識単語の発生を待つ。新たな誤認識単語が無いにも関わらず発話中断指示が行われている場合は(ステップS153のY)、発話中断指示部14が一度発話中断指示を行なった後に、音声認識部10が無音区間を検出し続けている状況を意味する。このままでは、発話中断指示過程(ステップS141)でデッドロックしてしまう。それを防止する目的で、制御部15は所定時間以上の発話中断指示を確認すると、発話中断指示を解除すると共に音声認識部10の動作を再開させる(ステップS154)。この処理は、フローチャート中に示すスイッチSWaをT1側に倒す動作を意味する。このようにすることで、発話中断指示をしたままの状態で、音声誤認識訂正支援装置100が動作を停止してしまうことを防ぐことが出来る。
〔誤認識量推定部〕
ここで、図4に誤認識量推定部11の機能構成例を示してその動作を説明する。図5に誤認識量推定部11と発話中断指示部14の動作フローを示す。誤認識量推定部11は、単語数カウント部110と誤認識推定部111と、誤認識率α記録部112とを備える。単語数カウント部110は、音声認識部10が出力する単語列と、字幕編集者がキーボード等を用いて入力する訂正文字列を入力として、単語列に含まれる単語数をカウントする(ステップS110)。単語数カウント部110は、音声認識部10から単語列が入力されると加算カウントし、訂正文字列の入力に対しては減算カウントする。したがって、単語数カウント部110は、訂正された単語を除く単語数Wをカウントする。誤認識推定部111は、誤認識率α記録部112に記録された誤認識率αを読み出し、単語数カウント部110のカウント値Wに乗算して誤認識単語推定数Eを推定する(ステップS111)。誤認識単語推定数Eは、発話中断指示部14に入力される。
例えば、音声認識率を90%とした場合の誤認識率は10%であり、これはカウント値Wが10個に誤認識単語が1個含まれることを意味する。発話中断指示部14は、誤認識単語推定数Eと比較する所定値を1にしておけば、カウント値Wが10個以上になると(ステップS140のY)、発話中断指示を行う(ステップS141)。誤認識単語推定数Eが所定値未満の場合、単語数カウント部110は単語数Wのカウントを継続する(ステップS140のN)。
発話中断指示は、誤認識単語推定数Eが所定値未満になるまで継続する(ステップS112のN)。発話中断指示がされている状態では、新たな入力音声が発生しない。よって、訂正文字列の数が増えることで誤認識単語推定数Eは減少する。その結果、誤認識単語推定数Eが所定値未満となると発話中断指示が解除される(ステップS154)。以上の動作は、音声認識動作が停止されるまで継続される(ステップS153のN)。
このように、音声認識部10の性能で決る誤認識率に基づいて一律に誤認識単語推定数Eを求めても良い。また、単語列を形成する各単語の信頼度を個々に求めて、その信頼度がある値以下の場合に、その単語を誤認識単語と推定して誤認識単語推定数Eを求めるようにしても良い。
ある単語の信頼度は、その単語を通る経路の尤度が、文章を構成する単語グラフ内の全経路の尤度の総和に対してどの程度の割合であるか(事後確率)という値で定義することが出来る。正しい単語であればその単語の事後確率は高く、誤った単語であれば事後確率は小さくなる。この事後確率C(Wk,m)は式(1)で求めることが出来る。
Figure 0005285326
ここで、(Wk,m)はノードk,m間に生成した単語、αは始端からノードkまでのフォワード確率、βはノードmから終端までのバックワード確率、P(Wk,m)はWk,mの音響尤度、P(Wk,m)はWk,mの言語尤度、Gは始端から終端までのフォワード確率である。
誤認識量推定部11内に、この事後確率C(Wk,m)を算出する事後確率算出部113を設けて、単語列を形成する各単語の信頼度を求め、その信頼度を考慮することで、誤認識単語推定数Eの推定精度を高めることが可能である。
文末推定部16を備えたこの発明の音声誤認識訂正支援装置200の機能構成例を図1に示す。文末推定部16を破線で示す。文末推定部16以外の構成は、音声誤認識訂正支援装置100と同じである。音声誤認識訂正支援装置200の動作フローを図6に示す。
音声誤認識訂正支援装置200は、入力音声の文末を検出してその時点で発話中断指示を行うようにしたものである。文末において発話中断指示を行うために、文末推定部16が音声認識部10の出力する単語列を入力として文末を推定する過程が追加されている点が異なる。また、図6のフローチャート上の発話中断指示過程(ステップS141´)とスイッチSWaが、その文末推定(ステップS160)の後に移動している点が異なる。
発話中断指示部14が、誤認識量が所定値以上と判断すると(ステップS140のY)、スイッチSWbをT4側に倒し、文末推定部16が現時点を文末と推定しているか否かを判断する。文末であれば発話中断指示を行う(ステップS141´)。文末で無いと推定した場合は、次の入力音声を待つ(ステップS160のN)。このように動作することで、発話中断指示を文末で行うことが可能になる。その結果、発話の中断を自然に行えると共に発話者も話し易くすることが出来る。
図7に文末推定部16の機能構成例を示して動作を説明する。その動作フローを図8に示す。文末推定部16は、2単語前一致検出部160と、1単語前一致検出部170と、単語一致検出部180と、文末データベース190を備える。文末データベース190は、文末を表現する形態素の並びを記録したデータベースである。例えば、「〜について/紹介/します」といった文末表現を多数記録している。2単語前一致検出部160は、文末の単語から2個前の単語と、文末データベース190との一致を検出する。1単語前一致検出部170は、文末から1個前の単語の一致を検出する。単語一致検出部180は、文末の単語の一致を検出する。
例えば、「について/紹介/します。」と発話者が発話した場合を例に説明する。この場合、単語列は、「について」、「紹介」、「します。」の順で文末推定部16に入力される。2単語前一致検出部160は、文末フラグF−2がセットされていないことを確認した後(ステップS160のN)、「について」の単語列が文末データベース190に記録された文末の中にあるか否かを検索する。「について」が2単語前の単語として一致すれば(ステップS161のY)、文末フラグF−2を1にセットして次の単語入力を待つ。一致しない場合は(ステップS161のN)、文末フラグF−2とF−1をリセットして(ステップS182)次の単語入力を待つ。
次の単語の「紹介」が入力されると、文末フラグF−2=1なので、文末フラグF−1がセットされていないこと確認する(ステップS170のN)。そして「紹介」が1単語前の単語として文末データベース190と一致すれば(ステップS171のY)、文末フラグF−1を1にセットして次の単語入力を待つ。一致しなければ(ステップS171のN)、ステップS182で文末フラグF−2とF−1をリセットする。
次に、「します。」が入力されると、文末フラグF−2=1、F−1=1なので、「します。」の一致を検出する。一致すれば(ステップS180のY)、文末であると検出する(ステップS181)。一致しない場合は(ステップS180のN)、ステップS182で文末フラグF−2とF−1をリセットする。
このように、文末を形成する3個の単語が連続して、文末データベース190に記録された文末情報と一致することで、入力音声の文末を検出することが可能である。文末検出部16で文末を検出して発話中断指示を行うことで、発話の中断が自然に行え、発話者も話し易くなる。
また、文末推定部16で文末の推定が可能になったことから、入力音声の一文の検出が可能なので、一文単位で誤認識量を推定させることも出来る。一文単位で誤認識量を推定する動作は、図3と図6のフローチャートに示すステップS11の誤認識量推定過程を、一文単位で行うことになる。その動作変更は容易に実現できるので、図を参照した説明は省略する。一文単位毎に誤認識量を推定させることで、誤認識推定処理の動作回数が減少する。その結果、音声誤認識訂正支援装置200の動作速度を速くすることが出来る。また、一文単位で処理することで、一文単位で正解文を記録することが可能になる。この正解文を記録する字幕学習部を備えるようにした音声誤認識訂正支援装置300を実施例3として次に説明する。
図9に誤認識訂正部13に字幕学習部131を設けた音声誤認識訂正支援装置300の機能構成例を示す。音声誤認識訂正支援装置300は、誤認識訂正部13に字幕学習部131を備える点のみが、実施例2と異なる。字幕学習部131は、文末推定部16が文末を推定した一文単位で行われる誤認識訂正を記録する。つまり、一文単位の訂正履歴から訂正文の正解に当たる字幕を学習して一文単位に対応させた学習字幕を記録する。したがって、音声認識部10が出力する単語列と文末情報とから、正解文を推定することが出来る。誤認識訂正部13がその正解文をそのまま表示部12に表示することで、字幕編集者は訂正文字列を入力するまでも無く、音声認識結果文字列を決定することが出来る。このように字幕学習部131を備えることで、字幕編集者の負担を更に軽減させることが出来る。
以上述べたように、この発明の音声誤認識訂正支援装置によれば、誤認識量推定部が音声認識した結果の単語列に含まれる誤認識量を推定し、発話中断指示部がその推定値と所定値とを比較して入力音声の停止を指示する。したがって、発話者は音声認識結果を常時確認しながら発話をする必要が無くなるので話し易くなり、誤認識の訂正作業を無視して発話を継続してしまうことも防ぐことができる。したがって、字幕編集者も字幕の訂正が行い易い。
この発明の技術思想に基づく音声誤認識訂正支援装置とその方法は、上述の実施形態に限定されるものではなく、この発明の趣旨を逸脱しない範囲で適宜変更が可能である。上記した装置及び方法において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。例えば、誤認識単語数の推定は、過去の音声認識結果とその訂正履歴から認識率を算出し、その推定認識率から予想される誤認識単語数の割合を求めるようにしても良い。また、信頼度の低い単語や単語列が多いほど、訂正しなければならない量が多いと予想されるので、認識結果文字列全体の信頼度が、予め決めておいた一定値を超えた場合に、発話中断指示を行うようにする。或いは、個々の単語の文字数をその単語の信頼度により重み付けして積算し、その値が予め決めておいた値を超えた場合に発話中断指示を行うようにしても良い。信頼度を使用する場合も、どの程度の信頼度のとき、どの程度の訂正量があったかを履歴として記録しておき、そこから発話中断指示のためのしきい値を決めるようにしても良い。
また、上記装置における処理手段をコンピュータによって実現する場合、各装置が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、各装置における処理手段がコンピュータ上で実現される。
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてフラッシュメモリー等を用いることができる。
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD−ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記録装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
この発明の音声誤認識訂正支援装置100と200の機能構成例を示す図。 音声誤認識訂正支援装置100の動作フローを示す図。 より詳細な音声誤認識訂正支援装置100の動作フローを示す図。 誤認識量推定部11の機能ブロックを示す図。 誤認識量推定部11の動作フローを示す図。 音声誤認識訂正支援装置200の動作フローを示す図。 文末推定部16の機能ブロックを示す図。 文末推定部16の動作フローを示す図。 音声誤認識訂正支援装置300の機能構成例を示す図。 非特許文献1に開示されたハイブリッド字幕編集方式の構成を示す図。

Claims (10)

  1. 入力音声を認識して単語列を生成する音声認識部と、
    上記単語列と、上記単語列の誤認識単語に対応する訂正文字列とを入力として上記単語列に含まれる誤認識量を推定する誤認識量推定部と、
    上記単語列と上記訂正文字列とから成る音声認識結果文字列を出力する誤認識訂正部と、
    上記単語列と上記訂正文字列を表示する表示部と、
    上記誤認識量と、所定値とを比較して上記入力音声の停止をさせる又は発話者に発話の中断を促す発話中断を指示する発話中断指示部と、
    を具備し、
    上記誤認識量推定部は、上記音声認識部から入力される単語列を加算カウントし上記訂正文字列の訂正された単語数を減算カウントしたカウント値に誤認識率を乗算して上記誤認識量を推定するものであることを特徴とする音声誤認識訂正支援装置。
  2. 請求項1に記載の音声誤認識訂正支援装置において、
    上記単語列を入力として上記単語列で構成される一文の文末を推定する文末推定部を備え、
    上記誤認識量推定部は、上記一文毎に誤認識量を推定するものであることを特徴とする音声誤認識訂正支援装置。
  3. 請求項2に記載の音声誤認識訂正支援装置において、
    上記発話中断指示部は、上記文末推定部が上記一文の文末を推定した時間に上記入力音声の停止を指示することを特徴とする音声誤認識訂正支援装置。
  4. 請求項2又は3に記載した音声誤認識訂正支援装置において、
    上記一文単位の訂正履歴から字幕を学習して上記一文単位に対応させた学習字幕を記録する字幕学習部を備え、
    上記一文単位毎に上記学習字幕を上記表示部に表示することを特徴とする音声誤認識訂正支援装置。
  5. 音声認識部が、入力音声を認識して単語列を生成する音声認識過程と、
    誤認識量推定部が、上記単語列と、上記単語列の誤認識単語に対応する訂正文字列とを入力として上記単語列に含まれる誤認識量を推定する誤認識量推定過程と、
    誤認識訂正部が、上記単語列と上記訂正文字列とから成る音声認識結果文字列を出力する誤認識訂正過程と、
    表示部が、上記単語列と上記訂正文字列を表示する表示過程と、
    発話中断指示部が、上記誤認識量と、所定値とを比較して上記入力音声の停止をさせる又は発話者に発話の中断を促す発話中断を指示する発話中断指示過程と、
    を含み、
    上記誤認識量推定過程は、上記音声認識部から入力される単語列を加算カウントし上記訂正文字列の訂正された単語数を減算カウントしたカウント値に誤認識率を乗算して上記誤認識量を推定する過程であることを特徴とする音声誤認識訂正支援方法。
  6. 請求項5に記載の音声誤認識訂正支援方法において、
    文末推定部が、上記単語列を入力として上記単語列で構成される一文の文末を推定する文末推定過程を含み、
    上記誤認識量推定過程は、上記一文内の誤認識量を推定する過程であることを特徴とする音声誤認識訂正支援方法。
  7. 請求項6に記載の音声誤認識訂正支援方法において、
    上記発話中断指示過程は、上記文末推定過程が上記一文の文末を推定した時間に上記入力音声の停止を指示する過程であることを特徴とする音声誤認識訂正支援方法。
  8. 請求項6又は7に記載した音声誤認識訂正支援方法において、
    字幕学習部が、上記一文単位の訂正履歴から字幕を学習して上記一文単位に対応させた学習字幕を記録する字幕学習過程を含み、
    上記一文単位毎に上記学習字幕を上記表示部に表示することを特徴とする音声誤認識訂正支援方法。
  9. 請求項1乃至4の何れかに記載した音声誤認識訂正支援装置としてコンピュータを機能させるための装置プログラム。
  10. 請求項9に記載した何れかの装置プログラムを記録したコンピュータで読み取り可能な記録媒体。
JP2008126812A 2008-05-14 2008-05-14 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体 Expired - Fee Related JP5285326B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2008126812A JP5285326B2 (ja) 2008-05-14 2008-05-14 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008126812A JP5285326B2 (ja) 2008-05-14 2008-05-14 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体

Publications (2)

Publication Number Publication Date
JP2009276495A JP2009276495A (ja) 2009-11-26
JP5285326B2 true JP5285326B2 (ja) 2013-09-11

Family

ID=41442004

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008126812A Expired - Fee Related JP5285326B2 (ja) 2008-05-14 2008-05-14 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体

Country Status (1)

Country Link
JP (1) JP5285326B2 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017191713A1 (ja) * 2016-05-02 2017-11-09 ソニー株式会社 制御装置、制御方法及びコンピュータプログラム
WO2018047421A1 (ja) * 2016-09-09 2018-03-15 ソニー株式会社 音声処理装置、情報処理装置、音声処理方法および情報処理方法
CN113012701B (zh) * 2021-03-16 2024-03-22 联想(北京)有限公司 一种识别方法、装置、电子设备及存储介质

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4738716B2 (ja) * 2001-03-16 2011-08-03 ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー 自動転記を停止する転記サービス
JP2003162295A (ja) * 2001-11-27 2003-06-06 Kenwood Corp 車載用音声認識装置
JP2003345391A (ja) * 2002-05-23 2003-12-03 Denso Corp 端末、音声認識サーバ、音声認識システムおよびコンピュータプログラム
JP4189336B2 (ja) * 2004-02-25 2008-12-03 株式会社東芝 音声情報処理システム、音声情報処理方法及びプログラム
JP4536481B2 (ja) * 2004-10-25 2010-09-01 インターナショナル・ビジネス・マシーンズ・コーポレーション コンピュータシステム、修正作業を支援するための方法、及びプログラム

Also Published As

Publication number Publication date
JP2009276495A (ja) 2009-11-26

Similar Documents

Publication Publication Date Title
US6718303B2 (en) Apparatus and method for automatically generating punctuation marks in continuous speech recognition
US9747890B2 (en) System and method of automated evaluation of transcription quality
US8818801B2 (en) Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program
CA2680304C (en) Decoding-time prediction of non-verbalized tokens
JP4974510B2 (ja) 音響情報から意味的な意図を識別するためのシステムおよび方法
US11545139B2 (en) System and method for determining the compliance of agent scripts
JP2011253374A (ja) 情報処理装置、および情報処理方法、並びにプログラム
JP2016062357A (ja) 音声翻訳装置、方法およびプログラム
JP2016180839A (ja) 雑音抑圧音声認識装置およびそのプログラム
JP5285326B2 (ja) 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体
Chang et al. Turn-taking prediction for natural conversational speech
JP2007072331A (ja) 音声対話方法および音声対話システム
JP4992925B2 (ja) 音声対話装置及びプログラム
JP2008052178A (ja) 音声認識装置と音声認識方法
JP2009025579A (ja) 音声認識装置および音声認識方法
Tsardoulias et al. An automatic speech detection architecture for social robot oral interaction
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP5447382B2 (ja) 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム
JP5427140B2 (ja) 音声認識方法、音声認識装置及び音声認識プログラム
JP2010210816A (ja) 音声認識装置とその方法と、プログラム
JP4922377B2 (ja) 音声認識装置とその方法と、プログラム
Komatani et al. Restoring incorrectly segmented keywords and turn-taking caused by short pauses
JP2009300716A (ja) 音声認識装置とその方法と、プログラムとその記録媒体
JP4972660B2 (ja) 音声学習装置及びプログラム
JP2004101963A5 (ja)

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20100726

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110729

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110909

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120110

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20120308

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120904

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121029

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20130521

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20130531

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

LAPS Cancellation because of no payment of annual fees