JP5285326B2 - 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体 - Google Patents
音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体 Download PDFInfo
- Publication number
- JP5285326B2 JP5285326B2 JP2008126812A JP2008126812A JP5285326B2 JP 5285326 B2 JP5285326 B2 JP 5285326B2 JP 2008126812 A JP2008126812 A JP 2008126812A JP 2008126812 A JP2008126812 A JP 2008126812A JP 5285326 B2 JP5285326 B2 JP 5285326B2
- Authority
- JP
- Japan
- Prior art keywords
- misrecognition
- unit
- speech
- sentence
- correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
会議の議事録などでは、録音した音声信号を連続的に音声認識させ、それと同時に字幕編集者がその音声を聞き返すなどして、誤認識箇所を特定してキーボード入力等で訂正する。この場合は録音音声であるので、必要に応じて再生を停止して分割して作業を行うことが可能である。しかし、例えばテレビの生放送における字幕放送や、講演、講義、会議等における字幕作成は、音声の発生と同時進行で即時に行わなくてはならないので、字幕編集者に掛かる負担が大きくなる。
「ワープロ型と行単位型融合によるハイブリッド字幕編集システム」、電子情報通信学会論文誌D Vol.J90-D No.3 pp.673-682 「音声認識を利用した放送用ニュース字幕制作システム」、電子情報通信学会論文誌D-II vol.J84-D-II No.6 pp.877-887
発話者が発話する音声を音声誤認識訂正支援装置100に入力する(ステップS1)。音声信号は、ある所定の周波数でサンプリングされてディジタル信号に変換され音声認識部10に入力される。音声信号をディジタル信号に変換するADコンバータは省略している。
ここで、図4に誤認識量推定部11の機能構成例を示してその動作を説明する。図5に誤認識量推定部11と発話中断指示部14の動作フローを示す。誤認識量推定部11は、単語数カウント部110と誤認識推定部111と、誤認識率α記録部112とを備える。単語数カウント部110は、音声認識部10が出力する単語列と、字幕編集者がキーボード等を用いて入力する訂正文字列を入力として、単語列に含まれる単語数をカウントする(ステップS110)。単語数カウント部110は、音声認識部10から単語列が入力されると加算カウントし、訂正文字列の入力に対しては減算カウントする。したがって、単語数カウント部110は、訂正された単語を除く単語数Wをカウントする。誤認識推定部111は、誤認識率α記録部112に記録された誤認識率αを読み出し、単語数カウント部110のカウント値Wに乗算して誤認識単語推定数Eを推定する(ステップS111)。誤認識単語推定数Eは、発話中断指示部14に入力される。
誤認識量推定部11内に、この事後確率C(Wk,m)を算出する事後確率算出部113を設けて、単語列を形成する各単語の信頼度を求め、その信頼度を考慮することで、誤認識単語推定数Eの推定精度を高めることが可能である。
音声誤認識訂正支援装置200は、入力音声の文末を検出してその時点で発話中断指示を行うようにしたものである。文末において発話中断指示を行うために、文末推定部16が音声認識部10の出力する単語列を入力として文末を推定する過程が追加されている点が異なる。また、図6のフローチャート上の発話中断指示過程(ステップS141´)とスイッチSWaが、その文末推定(ステップS160)の後に移動している点が異なる。
次に、「します。」が入力されると、文末フラグF−2=1、F−1=1なので、「します。」の一致を検出する。一致すれば(ステップS180のY)、文末であると検出する(ステップS181)。一致しない場合は(ステップS180のN)、ステップS182で文末フラグF−2とF−1をリセットする。
また、各手段は、コンピュータ上で所定のプログラムを実行させることにより構成することにしてもよいし、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。
Claims (10)
- 入力音声を認識して単語列を生成する音声認識部と、
上記単語列と、上記単語列の誤認識単語に対応する訂正文字列とを入力として上記単語列に含まれる誤認識量を推定する誤認識量推定部と、
上記単語列と上記訂正文字列とから成る音声認識結果文字列を出力する誤認識訂正部と、
上記単語列と上記訂正文字列を表示する表示部と、
上記誤認識量と、所定値とを比較して上記入力音声の停止をさせる又は発話者に発話の中断を促す発話中断を指示する発話中断指示部と、
を具備し、
上記誤認識量推定部は、上記音声認識部から入力される単語列を加算カウントし上記訂正文字列の訂正された単語数を減算カウントしたカウント値に誤認識率を乗算して上記誤認識量を推定するものであることを特徴とする音声誤認識訂正支援装置。 - 請求項1に記載の音声誤認識訂正支援装置において、
上記単語列を入力として上記単語列で構成される一文の文末を推定する文末推定部を備え、
上記誤認識量推定部は、上記一文毎に誤認識量を推定するものであることを特徴とする音声誤認識訂正支援装置。 - 請求項2に記載の音声誤認識訂正支援装置において、
上記発話中断指示部は、上記文末推定部が上記一文の文末を推定した時間に上記入力音声の停止を指示することを特徴とする音声誤認識訂正支援装置。 - 請求項2又は3に記載した音声誤認識訂正支援装置において、
上記一文単位の訂正履歴から字幕を学習して上記一文単位に対応させた学習字幕を記録する字幕学習部を備え、
上記一文単位毎に上記学習字幕を上記表示部に表示することを特徴とする音声誤認識訂正支援装置。 - 音声認識部が、入力音声を認識して単語列を生成する音声認識過程と、
誤認識量推定部が、上記単語列と、上記単語列の誤認識単語に対応する訂正文字列とを入力として上記単語列に含まれる誤認識量を推定する誤認識量推定過程と、
誤認識訂正部が、上記単語列と上記訂正文字列とから成る音声認識結果文字列を出力する誤認識訂正過程と、
表示部が、上記単語列と上記訂正文字列を表示する表示過程と、
発話中断指示部が、上記誤認識量と、所定値とを比較して上記入力音声の停止をさせる又は発話者に発話の中断を促す発話中断を指示する発話中断指示過程と、
を含み、
上記誤認識量推定過程は、上記音声認識部から入力される単語列を加算カウントし上記訂正文字列の訂正された単語数を減算カウントしたカウント値に誤認識率を乗算して上記誤認識量を推定する過程であることを特徴とする音声誤認識訂正支援方法。 - 請求項5に記載の音声誤認識訂正支援方法において、
文末推定部が、上記単語列を入力として上記単語列で構成される一文の文末を推定する文末推定過程を含み、
上記誤認識量推定過程は、上記一文内の誤認識量を推定する過程であることを特徴とする音声誤認識訂正支援方法。 - 請求項6に記載の音声誤認識訂正支援方法において、
上記発話中断指示過程は、上記文末推定過程が上記一文の文末を推定した時間に上記入力音声の停止を指示する過程であることを特徴とする音声誤認識訂正支援方法。 - 請求項6又は7に記載した音声誤認識訂正支援方法において、
字幕学習部が、上記一文単位の訂正履歴から字幕を学習して上記一文単位に対応させた学習字幕を記録する字幕学習過程を含み、
上記一文単位毎に上記学習字幕を上記表示部に表示することを特徴とする音声誤認識訂正支援方法。 - 請求項1乃至4の何れかに記載した音声誤認識訂正支援装置としてコンピュータを機能させるための装置プログラム。
- 請求項9に記載した何れかの装置プログラムを記録したコンピュータで読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008126812A JP5285326B2 (ja) | 2008-05-14 | 2008-05-14 | 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008126812A JP5285326B2 (ja) | 2008-05-14 | 2008-05-14 | 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009276495A JP2009276495A (ja) | 2009-11-26 |
JP5285326B2 true JP5285326B2 (ja) | 2013-09-11 |
Family
ID=41442004
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008126812A Expired - Fee Related JP5285326B2 (ja) | 2008-05-14 | 2008-05-14 | 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5285326B2 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017191713A1 (ja) * | 2016-05-02 | 2017-11-09 | ソニー株式会社 | 制御装置、制御方法及びコンピュータプログラム |
WO2018047421A1 (ja) * | 2016-09-09 | 2018-03-15 | ソニー株式会社 | 音声処理装置、情報処理装置、音声処理方法および情報処理方法 |
CN113012701B (zh) * | 2021-03-16 | 2024-03-22 | 联想(北京)有限公司 | 一种识别方法、装置、电子设备及存储介质 |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4738716B2 (ja) * | 2001-03-16 | 2011-08-03 | ニュアンス コミュニケーションズ オーストリア ゲーエムベーハー | 自動転記を停止する転記サービス |
JP2003162295A (ja) * | 2001-11-27 | 2003-06-06 | Kenwood Corp | 車載用音声認識装置 |
JP2003345391A (ja) * | 2002-05-23 | 2003-12-03 | Denso Corp | 端末、音声認識サーバ、音声認識システムおよびコンピュータプログラム |
JP4189336B2 (ja) * | 2004-02-25 | 2008-12-03 | 株式会社東芝 | 音声情報処理システム、音声情報処理方法及びプログラム |
JP4536481B2 (ja) * | 2004-10-25 | 2010-09-01 | インターナショナル・ビジネス・マシーンズ・コーポレーション | コンピュータシステム、修正作業を支援するための方法、及びプログラム |
-
2008
- 2008-05-14 JP JP2008126812A patent/JP5285326B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009276495A (ja) | 2009-11-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6718303B2 (en) | Apparatus and method for automatically generating punctuation marks in continuous speech recognition | |
US9747890B2 (en) | System and method of automated evaluation of transcription quality | |
US8818801B2 (en) | Dialogue speech recognition system, dialogue speech recognition method, and recording medium for storing dialogue speech recognition program | |
CA2680304C (en) | Decoding-time prediction of non-verbalized tokens | |
JP4974510B2 (ja) | 音響情報から意味的な意図を識別するためのシステムおよび方法 | |
US11545139B2 (en) | System and method for determining the compliance of agent scripts | |
JP2011253374A (ja) | 情報処理装置、および情報処理方法、並びにプログラム | |
JP2016062357A (ja) | 音声翻訳装置、方法およびプログラム | |
JP2016180839A (ja) | 雑音抑圧音声認識装置およびそのプログラム | |
JP5285326B2 (ja) | 音声誤認識訂正支援装置とその方法と、プログラムとその記録媒体 | |
Chang et al. | Turn-taking prediction for natural conversational speech | |
JP2007072331A (ja) | 音声対話方法および音声対話システム | |
JP4992925B2 (ja) | 音声対話装置及びプログラム | |
JP2008052178A (ja) | 音声認識装置と音声認識方法 | |
JP2009025579A (ja) | 音声認識装置および音声認識方法 | |
Tsardoulias et al. | An automatic speech detection architecture for social robot oral interaction | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
JP5447382B2 (ja) | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP2010210816A (ja) | 音声認識装置とその方法と、プログラム | |
JP4922377B2 (ja) | 音声認識装置とその方法と、プログラム | |
Komatani et al. | Restoring incorrectly segmented keywords and turn-taking caused by short pauses | |
JP2009300716A (ja) | 音声認識装置とその方法と、プログラムとその記録媒体 | |
JP4972660B2 (ja) | 音声学習装置及びプログラム | |
JP2004101963A5 (ja) |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100726 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110729 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110909 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120110 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20120308 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120904 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121029 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130521 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130531 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |