JP5447382B2 - 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム - Google Patents
音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム Download PDFInfo
- Publication number
- JP5447382B2 JP5447382B2 JP2010526623A JP2010526623A JP5447382B2 JP 5447382 B2 JP5447382 B2 JP 5447382B2 JP 2010526623 A JP2010526623 A JP 2010526623A JP 2010526623 A JP2010526623 A JP 2010526623A JP 5447382 B2 JP5447382 B2 JP 5447382B2
- Authority
- JP
- Japan
- Prior art keywords
- verification
- speech recognition
- unit
- recognition hypothesis
- hypothesis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012795 verification Methods 0.000 title claims description 418
- 238000000034 method Methods 0.000 title claims description 50
- 238000006243 chemical reaction Methods 0.000 claims description 35
- 238000012545 processing Methods 0.000 claims description 34
- 238000004458 analytical method Methods 0.000 claims description 21
- 238000004364 calculation method Methods 0.000 description 12
- 238000010586 diagram Methods 0.000 description 12
- 230000008569 process Effects 0.000 description 12
- 238000001514 detection method Methods 0.000 description 7
- 238000000605 extraction Methods 0.000 description 6
- 239000000284 extract Substances 0.000 description 4
- 230000014509 gene expression Effects 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 230000008859 change Effects 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 3
- 238000012937 correction Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 230000010365 information processing Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 230000001105 regulatory effect Effects 0.000 description 2
- 239000002344 surface layer Substances 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 230000002411 adverse Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000009499 grossing Methods 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 230000007257 malfunction Effects 0.000 description 1
- 238000010606 normalization Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 230000002269 spontaneous effect Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Machine Translation (AREA)
Description
以下に、上述した音声認識仮説検証装置のより具体的な実施形態について説明する。
次に、本発明の第2の実施形態について説明する。
Claims (15)
- 時間情報が付与された音声認識仮説が入力される音声認識仮説入力部と、
前記入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を設定する検証単位変換部と、
前記検証単位変換部によって設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する単位判定部とを備え、
前記検証単位変換部は、前記音声認識仮説の時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなる1つ以上の検証単位を設定する音声認識仮説検証装置。 - 請求項1に記載の音声認識仮説検証装置において、
前記単位判定部は、少なくとも検証単位の時間区間における音声認識誤りに関する特徴を含む複数種類の特徴を素性とする確率モデルからなる検証モデルと、検証単位ごとに処理対象の音声認識仮説から抽出される特徴とに基づいて、各検証単位の時間区間における認識仮説の正誤を検証する音声認識仮説検証装置。 - 請求項2に記載の音声認識仮説検証装置において、
前記検証モデルとして、CRFモデルを用いる音声認識仮説検証装置。 - 請求項1乃至3のいずれか1項に記載の音声認識仮説検証装置において、
前記単位判定部による検証単位ごとの検証結果に基づいて、処理対象の音声認識仮説の誤り区間を判定する区間判定部を備え、
前記区間判定部は、複数の検証単位の検証結果を参照して、前記単位判定部による検証結果を変更した上で、誤り区間を判定する音声認識仮説検証装置。 - 請求項1乃至4のいずれか1項に記載の音声認識仮説検証装置において、
前記検証単位変換部は、音声分析フレーム単位に基づいて1つ以上の検証単位を設定する音声認識仮説検証装置。 - 入力された音声に対して音声認識を行い、時間情報が付与された音声認識仮説を生成する第1の音声認識部と、
前記第1の音声認識部によって生成された音声認識仮説の検証を行う音声認識仮説検証部と、
前記音声認識仮説検証部による音声認識仮説の検証結果を参照して音声認識を行う第2の音声認識部とを備え、
前記音声認識仮説検証部は、
入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を設定する検証単位変換部と、
前記検証単位変換部によって設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する単位判定部とを有し、
前記検証単位変換部は、前記音声認識仮説の時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなる1つ以上の検証単位を設定し、
前記第2の音声認識部は、前記単位判定部にて認識仮説が誤りと判定された区間について音声認識を行う音声認識装置。 - 請求項6に記載の音声認識装置において、
前記第2の音声認識部は、前記音声認識仮説検証部による音声認識仮説の検証結果を参照し、認識正解と判定された時間区間の認識仮説に基づいて選定した音響モデルまたは言語モデルを用いて音声認識を行う音声認識装置。 - 音声認識仮説を検証する音声認識仮説検証方法であって、
入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を、少なくとも前記音声認識仮説に付与された時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなるように設定し、
設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する音声認識仮説検証方法。 - 請求項8に記載の音声認識仮説検証方法において、
少なくとも検証単位の時間区間における音声認識誤りに関する特徴を含む複数種類の特徴を素性とする確率モデルからなる検証モデルと、検証単位ごとに処理対象の音声認識仮説から抽出される特徴とに基づいて、各検証単位の時間区間における認識仮説の正誤を検証する音声認識仮説検証方法。 - 請求項8または請求項9に記載の音声認識仮説検証方法において、
検証単位ごとの検証結果に基づいて、処理対象の音声認識仮説の誤り区間を判定する際に、複数の検証単位の検証結果を参照して、前記検証単位ごとの検証結果を変更した上で、誤り区間を判定する音声認識仮説検証方法。 - 入力された音声に対して音声認識を行って、時間情報が付与された音声認識仮説を生成し、
生成された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を、少なくとも前記音声認識仮説の時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなるように設定し、
設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証し、
音声認識仮説の検証結果を参照して、認識正解と判定された時間区間の認識仮説に基づいて選定した音響モデルまたは言語モデルを用いて、認識仮説が誤りと判定された区間について音声認識を行う音声認識方法。 - コンピュータに、
入力された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を、前記音声認識仮説に付与された時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなるように設定する手順と、
設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する手順とを実行させるための音声認識仮説検証用プログラム。 - 請求項12に記載の音声認識仮説検証用プログラムにおいて、
コンピュータに、
少なくとも検証単位の時間区間における音声認識誤りに関する特徴を含む複数種類の特徴を素性とする確率モデルからなる検証モデルと、検証単位ごとに処理対象の音声認識仮説から抽出される特徴とに基づいて、各検証単位の時間区間における認識仮説の正誤を検証させる手順を実行させるための音声認識仮説検証用プログラム。 - 請求項12または請求項13に記載の音声認識仮説検証用プログラムにおいて、
コンピュータに、
検証単位ごとの検証結果に基づいて、処理対象の音声認識仮説の誤り区間を判定する際に、複数の検証単位の検証結果を参照して、前記検証単位ごとの検証結果を変更した上で、誤り区間を判定する手順を実行させるための音声認識仮説検証用プログラム。 - コンピュータに、
入力された音声に対して音声認識を行って、時間情報が付与された音声認識仮説を生成する手順と、
生成された音声認識仮説に対して、検証の処理単位となる時間区間を表す1つ以上の検証単位を、少なくとも前記音声認識仮説の時間情報によって示される単語の時間区間よりも小さな時間区間が設定された検証単位からなるように設定する手順と、
設定された検証単位に従い、各検証単位の時間区間における認識仮説の正誤を検証する手順と、
音声認識仮説の検証結果を参照して、認識正解と判定された時間区間の認識仮説に基づいて選定した音響モデルまたは言語モデルを用いて、認識仮説が誤りと判定された区間について音声認識を行う手順とを実行させるための音声認識用プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010526623A JP5447382B2 (ja) | 2008-08-27 | 2009-07-10 | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム |
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008218605 | 2008-08-27 | ||
JP2008218605 | 2008-08-27 | ||
JP2010526623A JP5447382B2 (ja) | 2008-08-27 | 2009-07-10 | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム |
PCT/JP2009/062611 WO2010024052A1 (ja) | 2008-08-27 | 2009-07-10 | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2010024052A1 JPWO2010024052A1 (ja) | 2012-01-26 |
JP5447382B2 true JP5447382B2 (ja) | 2014-03-19 |
Family
ID=41721226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010526623A Active JP5447382B2 (ja) | 2008-08-27 | 2009-07-10 | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム |
Country Status (2)
Country | Link |
---|---|
JP (1) | JP5447382B2 (ja) |
WO (1) | WO2010024052A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6325770B2 (ja) * | 2013-02-04 | 2018-05-16 | 日本放送協会 | 音声認識誤り修正装置及びそのプログラム |
CN109829162B (zh) * | 2019-01-30 | 2022-04-08 | 新华三大数据技术有限公司 | 一种文本分词方法及装置 |
CN111883109B (zh) * | 2020-07-01 | 2023-09-26 | 北京猎户星空科技有限公司 | 语音信息处理及验证模型训练方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11249688A (ja) * | 1998-03-05 | 1999-09-17 | Mitsubishi Electric Corp | 音声認識装置およびその方法 |
JP2004526197A (ja) * | 2001-03-16 | 2004-08-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 入力された音声のトランスクリプションおよび表示 |
JP2005202165A (ja) * | 2004-01-15 | 2005-07-28 | Advanced Media Inc | 音声認識システム |
JP2006227628A (ja) * | 2005-02-18 | 2006-08-31 | Samsung Electronics Co Ltd | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 |
WO2008001486A1 (fr) * | 2006-06-29 | 2008-01-03 | Nec Corporation | Dispositif et programme de traitement vocal, et procédé de traitement vocal |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5797123A (en) * | 1996-10-01 | 1998-08-18 | Lucent Technologies Inc. | Method of key-phase detection and verification for flexible speech understanding |
JP3496706B2 (ja) * | 1997-09-12 | 2004-02-16 | 日本電信電話株式会社 | 音声認識方法及びそのプログラム記録媒体 |
JP2001175276A (ja) * | 1999-12-17 | 2001-06-29 | Denso Corp | 音声認識装置及び記録媒体 |
-
2009
- 2009-07-10 JP JP2010526623A patent/JP5447382B2/ja active Active
- 2009-07-10 WO PCT/JP2009/062611 patent/WO2010024052A1/ja active Application Filing
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11249688A (ja) * | 1998-03-05 | 1999-09-17 | Mitsubishi Electric Corp | 音声認識装置およびその方法 |
JP2004526197A (ja) * | 2001-03-16 | 2004-08-26 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 入力された音声のトランスクリプションおよび表示 |
JP2005202165A (ja) * | 2004-01-15 | 2005-07-28 | Advanced Media Inc | 音声認識システム |
JP2006227628A (ja) * | 2005-02-18 | 2006-08-31 | Samsung Electronics Co Ltd | フレーム別に重み付けされたキーワードモデルの信頼度に基づく音声認識方法、及びその方法を用いた装置 |
WO2008001486A1 (fr) * | 2006-06-29 | 2008-01-03 | Nec Corporation | Dispositif et programme de traitement vocal, et procédé de traitement vocal |
Non-Patent Citations (2)
Title |
---|
CSNJ201010076247; 山本仁 他: '"条件付確率場を用いた信頼度基準による認識誤り検出"' 日本音響学会2006年秋季研究発表会講演論文集CD-ROM , 20060906, p.63-64 * |
JPN6013004823; 山本仁 他: '"条件付確率場を用いた信頼度基準による認識誤り検出"' 日本音響学会2006年秋季研究発表会講演論文集CD-ROM , 20060906, p.63-64 * |
Also Published As
Publication number | Publication date |
---|---|
WO2010024052A1 (ja) | 2010-03-04 |
JPWO2010024052A1 (ja) | 2012-01-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6985863B2 (en) | Speech recognition apparatus and method utilizing a language model prepared for expressions unique to spontaneous speech | |
KR101183344B1 (ko) | 사용자 정정들을 이용한 자동 음성 인식 학습 | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
US8645139B2 (en) | Apparatus and method of extending pronunciation dictionary used for speech recognition | |
US20080270133A1 (en) | Speech model refinement with transcription error detection | |
JP3834169B2 (ja) | 連続音声認識装置および記録媒体 | |
JP2011002656A (ja) | 音声認識結果修正候補検出装置、音声書き起こし支援装置、方法及びプログラム | |
US8849668B2 (en) | Speech recognition apparatus and method | |
US9251808B2 (en) | Apparatus and method for clustering speakers, and a non-transitory computer readable medium thereof | |
CN112331229B (zh) | 语音检测方法、装置、介质和计算设备 | |
JP2002132287A (ja) | 音声収録方法および音声収録装置および記憶媒体 | |
CN115985342A (zh) | 发音检错方法、装置、电子设备和存储介质 | |
JP6148150B2 (ja) | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 | |
JP5447382B2 (ja) | 音声認識仮説検証装置、音声認識装置、それに用いられる方法およびプログラム | |
US20020184019A1 (en) | Method of using empirical substitution data in speech recognition | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP4533160B2 (ja) | 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体 | |
JP2000352993A (ja) | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 | |
CN114299930A (zh) | 端到端语音识别模型处理方法、语音识别方法及相关装置 | |
JP4861941B2 (ja) | 書き起こし内容確認方法、書き起こし内容確認装置、コンピュータプログラム | |
US6438521B1 (en) | Speech recognition method and apparatus and computer-readable memory | |
JP2004101963A (ja) | 音声認識結果の訂正方法および音声認識結果の訂正のためのコンピュータプログラム | |
JP2004309928A (ja) | 音声認識装置、電子辞書装置、音声認識方法、検索方法、及びプログラム | |
JP2005283646A (ja) | 音声認識率推定装置 | |
JP4604424B2 (ja) | 音声認識装置及び方法、並びにプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130205 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130326 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20130702 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20130731 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20131203 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20131216 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 Ref document number: 5447382 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |