JP4736478B2 - 音声書き起こし支援装置およびその方法ならびにプログラム - Google Patents
音声書き起こし支援装置およびその方法ならびにプログラム Download PDFInfo
- Publication number
- JP4736478B2 JP4736478B2 JP2005061955A JP2005061955A JP4736478B2 JP 4736478 B2 JP4736478 B2 JP 4736478B2 JP 2005061955 A JP2005061955 A JP 2005061955A JP 2005061955 A JP2005061955 A JP 2005061955A JP 4736478 B2 JP4736478 B2 JP 4736478B2
- Authority
- JP
- Japan
- Prior art keywords
- speech
- correction
- recognition result
- pattern
- recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
本発明にあっては、音声信号記憶手段がテキスト化しようとする入力音声を記憶すると共に、認識結果記憶手段が何らかの音声認識手段によって前記入力音声を認識した結果を記憶し、修正作業者が前記認識結果中の認識誤りを発見した際に、修正事例教示手段が認識誤りを修正するための正しい文字列を修正作業者から入力して修正を行うと共に、事例パタン生成手段が前記認識誤りに対する正しい文字列と認識誤りに対応する部分の音声信号とを対にした誤り事例を生成する。そして、類似パタン検出手段が、前記誤り事例に含まれる音声信号と類似した音声区間を前記音声信号記憶手段に記憶された音声信号から検出し、認識結果修正手段が、前記類似パタン検出手段が検出した音声区間に対応する認識結果を、正しい文字列に置き換える、もしくは正しい文字列に置き換えるかどうか修正作業者に確認する。これによって、過去の認識誤り事例と音声信号が類似する区間が自動的に検出され、その区間に対応する認識結果が正しい文字列に置き換えられる。
○参考文献1:1995年、NTTアドバンストテクノロジ株式会社、ラビナー他著、古井他訳、音声認識の基礎(上)、第242〜278頁
○参考文献2:1990年、プロシーディングズ・オブ・インターナショナル・カンファレンス・オン・アクースティックス・スピーチ・アンド・シグナル・プロセッシング、ローズ他、ア・ヒドゥン・マルコフ・モデル・ベースト・キーワード・レコグニション・システム (Rose et al., A hidden Markov model based keyword recognition system, Proceedings of International Conference on Acoustics, Speech, and Signal Processing, 1990)
○参考文献3: 1995年、コンピュータ・スピーチ・アンド・ランゲージ、第9巻、171〜185頁、レゲッター他、マキシマム・ライクリフッド・リニア・リグレッション・フォー・スピーカー・アダプテーション・オブ・コンティニュアス・デンシティ・ヒドゥン・マルコフ・モデルズ (Leggetter et al., Maximum likelihood linear regression for speaker adaptation of continuous density hidden Markov models, Computer speech & language, Vol.9, pp.171--185, 1995)
○参考文献4: 1997年、プロシーディングズ・オブ・ザ・ダーパ・スピーチ・レコグニション・ワークショップ、シーグラー他、オートマティック・セグメンテーション・クラシフィケーション・アンド・クラスタリング・オブ・ブロードキャスト・ニュース・オーディオ、97〜99頁 (Siegler et al., Automatic segmentation, classification and clustering of broadcast news audio, Proceedings of the DARPA Speech Recognition Workshop, pp.97--99, 1997)
T = -a × S + b …(1)
T = c/{ 1 + exp(a × S - b) } …(2)
102…音声信号記憶手段
103…認識結果記憶手段
104…修正事例教示手段
105…認識結果修正手段
106…類似パタン検出手段
107…事例パタン生成手段
301…再生ボタン
302…表示部
303…停止ボタン
304…巻き戻しボタン
305…ボリューム調整スライダ
306…入力部
307…置換ボタン
308…削除バタン
309…挿入ボタン
Claims (10)
- 音声信号を記憶する音声信号記憶手段と、
前記音声信号に対して音声認識処理を施して得られる音声認識結果を前記音声信号と対応付けるための時刻情報と共に記憶する認識結果記憶手段と、
修正作業者から認識結果の修正指示を受け付けて修正を実行する修正事例教示手段と、
前記修正事例教示手段が受け付けた修正指示から、該当誤り箇所の音声信号と修正後文字列とを含む修正事例を生成する事例パタン生成手段と、
前記該当誤り箇所の音声信号を用いて前記音声信号記憶手段に記憶された音声信号から音声信号間の類似度を判定する閾値以上に音声信号的に類似した箇所を検出する類似パタン検出手段と、
前記類似した箇所に対応する認識結果文字列を前記修正事例に基づいて修正するか、もしくは修正作業者に修正を促す認識結果修正手段と、
を備えたことを特徴とする音声書き起こし支援装置。 - 前記類似パタン検出手段が音声信号間の類似度を判定する際に使用する閾値を、類似度計算対象の双方の音声信号に応じて変更する検出パラメータ制御手段を備えたことを特徴とする請求項1記載の音声書き起こし支援装置。
- 音声信号間の話者あるいは雑音環境に関する類似度を計算する話者・環境類似度計算手段を備え、前記検出パラメータ制御手段は、前記話者・環境類似度計算手段が出力する音声信号間の話者あるいは雑音環境に関する類似度を用いて、前記閾値を変更するものであることを特徴とする請求項2記載の音声書き起こし支援装置。
- 不特定話者の音声標準パタンを記憶する標準パタン記憶手段を備え、前記事例パタン生成手段は、前記誤り箇所の音声信号と前記修正後文字列に対応する前記不特定話者の音声標準パタンとを足し合わせたパタンを該当誤り箇所の音声信号として有する事例パタンを生成するものであることを特徴とする請求項1記載の音声書き起こし支援装置。
- 前記標準パタン記憶手段が過去の修正事例を用いた話者・環境適応化により、前記音声標準パタンを随時更新することを特徴とする請求項4記載の音声書き起こし支援装置。
- 修正事例教示手段が、修正作業者から認識結果の修正指示を受け付けて記憶部に記憶し、かつ、音声信号に対して音声認識処理を施して得られる音声認識結果を前記音声信号と対応付けるための時刻情報と共に記憶する認識結果記憶手段に対して修正を実行するステップと、
事例パタン生成手段が、前記記憶部に記憶された修正指示を読み出し、該当誤り箇所の音声信号と修正後文字列とを含む修正事例を生成して前記記憶部に記憶するステップと、
類似パタン検出手段が、前記記憶部に記憶された修正事例中の該当誤り箇所の音声信号と音声信号間の類似度を判定する閾値以上に音声信号的に類似した箇所を前記音声信号記憶手段に記憶された音声信号から検出し、検出結果を前記記憶部に記憶するステップと、
認識結果修正手段が、前記記憶部に記憶された検出結果を読み出し、類似した箇所に対応する前記認識結果記憶手段中の認識結果文字列を前記修正事例に基づいて修正するか、もしくは修正作業者に修正を促すステップと、
を含むことを特徴とする音声書き起こし支援方法。 - 音声信号を記憶する音声信号記憶手段と、前記音声信号に対して音声認識処理を施して得られる音声認識結果を前記音声信号と対応付けるための時刻情報と共に記憶する認識結果記憶手段とを有するコンピュータを、
修正作業者から認識結果の修正指示を受け付けて修正を実行する修正事例教示手段、
前記修正事例教示手段が受け付けた修正指示から、該当誤り箇所の音声信号と修正後文字列とを含む修正事例を生成する事例パタン生成手段、
前記該当誤り箇所の音声信号を用いて前記音声信号記憶手段に記憶された音声信号から音声信号間の類似度を判定する閾値以上に音声信号的に類似した箇所を検出する類似パタン検出手段、
前記類似した箇所に対応する認識結果文字列を前記修正事例に基づいて修正するか、もしくは修正作業者に修正を促す認識結果修正手段、
として機能させるためのプログラム。 - 前記コンピュータを、さらに、前記類似パタン検出手段が音声信号間の類似度を判定する際に使用する閾値を、類似度計算対象の双方の音声信号に応じて変更する検出パラメータ制御手段、として機能させるための請求項7記載のプログラム。
- 前記コンピュータを、さらに、音声信号間の話者あるいは雑音環境に関する類似度を計算する話者・環境類似度計算手段、として機能させ、かつ、前記検出パラメータ制御手段は、前記話者・環境類似度計算手段が出力する音声信号間の話者あるいは雑音環境に関する類似度を用いて、前記閾値を変更するものであることを特徴とする請求項8記載のプログラム。
- 前記事例パタン生成手段は、前記誤り箇所の音声信号と、標準パタン記憶手段に記憶された不特定話者の音声標準パタンのうち前記修正後文字列に対応する音声標準パタンとを足し合わせたパタンを、該当誤り箇所の音声信号として有する事例パタンを生成するものであることを特徴とする請求項7記載のプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005061955A JP4736478B2 (ja) | 2005-03-07 | 2005-03-07 | 音声書き起こし支援装置およびその方法ならびにプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005061955A JP4736478B2 (ja) | 2005-03-07 | 2005-03-07 | 音声書き起こし支援装置およびその方法ならびにプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2006243575A JP2006243575A (ja) | 2006-09-14 |
JP4736478B2 true JP4736478B2 (ja) | 2011-07-27 |
Family
ID=37050018
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005061955A Active JP4736478B2 (ja) | 2005-03-07 | 2005-03-07 | 音声書き起こし支援装置およびその方法ならびにプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4736478B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504754A (zh) * | 2016-09-29 | 2017-03-15 | 浙江大学 | 一种根据音频输出的实时字幕生成方法 |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101185115B (zh) * | 2005-05-27 | 2011-07-20 | 松下电器产业株式会社 | 语音编辑装置及方法和语音识别装置及方法 |
WO2008069139A1 (ja) * | 2006-11-30 | 2008-06-12 | National Institute Of Advanced Industrial Science And Technology | 音声認識システム及び音声認識システム用プログラム |
JP4709887B2 (ja) * | 2008-04-22 | 2011-06-29 | 株式会社エヌ・ティ・ティ・ドコモ | 音声認識結果訂正装置および音声認識結果訂正方法、ならびに音声認識結果訂正システム |
JP2011232668A (ja) * | 2010-04-30 | 2011-11-17 | Clarion Co Ltd | 音声認識機能を備えたナビゲーション装置およびその検出結果提示方法 |
JP6003127B2 (ja) * | 2012-03-19 | 2016-10-05 | 富士ゼロックス株式会社 | 言語モデル作成プログラム及び言語モデル作成装置 |
JP6394332B2 (ja) * | 2014-12-02 | 2018-09-26 | 富士通株式会社 | 情報処理装置、書き起こし支援方法、及び書き起こし支援プログラム |
JP2018031985A (ja) * | 2016-08-26 | 2018-03-01 | 恒次 國分 | 音声認識補完システム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6281699A (ja) * | 1985-10-07 | 1987-04-15 | 株式会社リコー | 音声ワ−プロ装置における辞書作成及び更新方法 |
JPH01237597A (ja) * | 1988-03-17 | 1989-09-22 | Fujitsu Ltd | 音声認識訂正装置 |
JP2000339412A (ja) * | 1999-05-31 | 2000-12-08 | Tadamitsu Ryu | 認識情報修正システム |
JP2005241829A (ja) * | 2004-02-25 | 2005-09-08 | Toshiba Corp | 音声情報処理システム、音声情報処理方法及びプログラム |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003241787A (ja) * | 2002-02-14 | 2003-08-29 | Sony Corp | 音声認識装置および方法、並びにプログラム |
-
2005
- 2005-03-07 JP JP2005061955A patent/JP4736478B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS6281699A (ja) * | 1985-10-07 | 1987-04-15 | 株式会社リコー | 音声ワ−プロ装置における辞書作成及び更新方法 |
JPH01237597A (ja) * | 1988-03-17 | 1989-09-22 | Fujitsu Ltd | 音声認識訂正装置 |
JP2000339412A (ja) * | 1999-05-31 | 2000-12-08 | Tadamitsu Ryu | 認識情報修正システム |
JP2005241829A (ja) * | 2004-02-25 | 2005-09-08 | Toshiba Corp | 音声情報処理システム、音声情報処理方法及びプログラム |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106504754A (zh) * | 2016-09-29 | 2017-03-15 | 浙江大学 | 一种根据音频输出的实时字幕生成方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2006243575A (ja) | 2006-09-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6792409B2 (en) | Synchronous reproduction in a speech recognition system | |
US8311832B2 (en) | Hybrid-captioning system | |
JP4736478B2 (ja) | 音声書き起こし支援装置およびその方法ならびにプログラム | |
JP3782943B2 (ja) | 音声認識装置、コンピュータ・システム、音声認識方法、プログラムおよび記録媒体 | |
US6912498B2 (en) | Error correction in speech recognition by correcting text around selected area | |
US10522133B2 (en) | Methods and apparatus for correcting recognition errors | |
EP0965978B1 (en) | Non-interactive enrollment in speech recognition | |
US6263308B1 (en) | Methods and apparatus for performing speech recognition using acoustic models which are improved through an interactive process | |
JP4657736B2 (ja) | ユーザ訂正を用いた自動音声認識学習のためのシステムおよび方法 | |
JP4784120B2 (ja) | 音声書き起こし支援装置及びその方法ならびにプログラム | |
US7983912B2 (en) | Apparatus, method, and computer program product for correcting a misrecognized utterance using a whole or a partial re-utterance | |
JP6654611B2 (ja) | 成長型対話装置 | |
JP4869268B2 (ja) | 音響モデル学習装置およびプログラム | |
US20090138266A1 (en) | Apparatus, method, and computer program product for recognizing speech | |
JP2011002656A (ja) | 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム | |
US20050114131A1 (en) | Apparatus and method for voice-tagging lexicon | |
CN110675866B (zh) | 用于改进至少一个语义单元集合的方法、设备及计算机可读记录介质 | |
US20130191125A1 (en) | Transcription supporting system and transcription supporting method | |
JP5160594B2 (ja) | 音声認識装置および音声認識方法 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP2010204442A (ja) | 音声認識装置、音声認識方法、音声認識プログラムおよびプログラム記録媒体 | |
JP4949310B2 (ja) | 音響処理装置およびプログラム | |
Vertanen | Efficient computer interfaces using continuous gestures, language models, and speech | |
JP2009210942A (ja) | 音声再生システム、音声再生方法およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080213 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20090715 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20090715 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100726 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20100803 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20100921 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110405 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110418 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4736478 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140513 Year of fee payment: 3 |