JP2014035361A - 音声認識装置とその方法とプログラム - Google Patents
音声認識装置とその方法とプログラム Download PDFInfo
- Publication number
- JP2014035361A JP2014035361A JP2012174949A JP2012174949A JP2014035361A JP 2014035361 A JP2014035361 A JP 2014035361A JP 2012174949 A JP2012174949 A JP 2012174949A JP 2012174949 A JP2012174949 A JP 2012174949A JP 2014035361 A JP2014035361 A JP 2014035361A
- Authority
- JP
- Japan
- Prior art keywords
- word
- reliability
- speech recognition
- context
- correction
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
【解決手段】音声データを入力として、音声認識処理を行い、音声認識結果の単語列の各単語に単語信頼度を付与した単語信頼度付き音声認識結果を出力する音声認識部110と、単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、単語信頼度付き音声認識結果データベース130を参照して当該音声認識結果データベースに記憶された補正対象単語を補正対象単語事例として複数個特定し、当該補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、上記対象文脈と上記文脈事例との類似度を求め、当該複数個の類似度を用いて計算した補正単語信頼度を、補正対象単語の単語信頼度として出力する単語信頼度補正部140と、を具備する。
【選択図】図1
Description
実施例の説明の前に、この発明の音声認識装置における単語信頼度の補正方法に関する考え方を説明する。音声認識において、認識した個々の単語の単語信頼度の値のバラツキは大きい。正解単語であるのに単語信頼度が低くなる場合もあれば、誤り単語であるのに単語信頼度が高くなる場合もある。そのため、ある単語の単語信頼度を一つだけを評価して誤り単語か否かを判定するのは困難である。
A:週/の/終わり/は/高気圧/に/覆われ/て/晴れる/日/も/ある/でしょう/
B:梅雨前線/や/湿った/高気圧/の/影響/で/雲/が/広がり/やす/く/
図3に、単語信頼度補正部140のより具体的な機能構成例を示す。単語信頼度補正部140は、対象文脈抽出手段141と、文脈事例抽出手段142と、補正単語信頼度計算手段143と、音声認識結果出力手段144と、を備える。
対象文脈抽出手段141は、音声認識部110が出力する単語信頼度付き音声認識結果を入力として、補正対象単語を特定しその補正対象単語の前後複数単語の範囲を対象文脈として抽出し、補正対象単語とその単語信頼度と対象文脈との組みと、補正対象外とする補正対象外単語とその単語信頼度との組みと、を出力する。
文脈事例抽出手段142は、対象文脈抽出手段141が出力する補正対象単語Wiを入力として、単語信頼度付き音声認識結果DB130を参照し、単語信頼度付き音声認識結果DB130に記憶されている単語信頼度付き音声認識結果に出現する補正対象単語Wiと同じ単語を補正対象単語事例Wjとして複数個特定し、その補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、補正対象単語事例Wjとその単語信頼度と文脈事例との組を複数個出力する。
補正単語信頼度計算手段143は、対象文脈抽出手段141が出力する補正対象単語Wiとその単語信頼度と対象文脈との組と、文脈事例抽出手段142が出力する補正対象単語事例Wjとその単語信頼度と文脈事例との組み群と、を入力として対象文脈と文脈事例との類似度を求め、その類似度を用いて補正対象単語事例Wjの単語信頼度を補正した補正単語信頼度に置換して出力する。
音声認識結果出力手段144は、対象文脈抽出手段141が出力する補正対象外単語Wiとその単語信頼度との組みと上記補正対象単語Wiとその単語信頼度との組みと、補正単語信頼度計算手段143が出力する補正対象単語事例Wjと補正単語信頼度と、を入力として、上記補正対象単語Wiの単語信頼度を上記補正単語信頼度に置換し、上記音声認識結果の単語列の順番に、上記補正対象外単語とその単語信頼度との組みと上記補正対象単語と補正単語信頼度との組みを出力する。
この発明の単語信頼度の補正方法の効果を確認する目的で、評価実験を行った。評価セットとしては、コールセンタでの電話会話音声の295通話を用いた。音声認識にはVoiceRex(上記した参考文献1)を用いた。評価セットの認識結果のうち、本発明による信頼度補正の対象となる内容語は94165単語あり、そのうち正解が79419単語、誤りが14746単語であった。
R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
Claims (6)
- 音声データを入力として、音声認識と単語信頼度の計算を行い、音声認識結果の単語列の各単語に単語信頼度を付与した単語信頼度付き音声認識結果を出力する音声認識部と、
上記単語信頼度付き音声認識結果を記憶する単語信頼度付き音声認識結果データベースと、
上記単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、上記単語信頼度付き音声認識結果データベースを参照して該単語信頼度付き音声認識結果データベースに記憶された上記補正対象単語を補正対象単語事例として複数個特定し、当該補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、上記対象文脈と上記文脈事例との類似度を求め、当該複数個の類似度を用いて計算した補正単語信頼度を、上記補正対象単語の単語信頼度として出力する単語信頼度補正部と、
を具備する音声認識装置。 - 請求項1に記載した音声認識装置において、
上記単語信頼度補正部は、
単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、上記補正対象単語とその単語信頼度と上記対象文脈との組みと、補正対象外とする補正対象外単語とその単語信頼度との組みと、を出力する対象文脈抽出手段と、
上記補正対象単語を入力として、単語信頼度付き音声認識結果データベースを参照し、当該音声認識結果データベースに記憶された補正対象単語を補正対象単語事例として複数個特定し、その補正対象単語事例の前後複数単語の範囲を文脈事例として抽出し、補正対象単語事例とその単語信頼度と文脈事例との組を複数個出力する文脈事例抽出手段と、
上記補正対象単語とその単語信頼度と対象文脈との組と、上記補正対象単語事例とその単語信頼度と文脈事例との組み群と、を入力として対象文脈と文脈事例との類似度を求め、上記補正対象単語事例の単語信頼度を、上記類似度を用いて求めた補正単語信頼度に置換して出力する補正単語信頼度計算手段と、
上記補正対象外単語とその単語信頼度との組みと、上記補正対象単語とその単語信頼度との組みと、上記補正対象単語事例と補正単語信頼度と、を入力として、上記補正対象単語の単語信頼度を上記補正単語信頼度に置換し、上記音声認識結果の単語列の順番に、上記補正対象外単語とその単語信頼度との組みと上記補正対象単語と補正単語信頼度との組みを出力する音声認識結果出力手段と、
を備えることを特徴とする音声認識装置。 - 音声データを入力として、音声認識と単語信頼度の計算を行い、音声認識結果の単語列の各単語に単語信頼度を付与した単語信頼度付き音声認識結果を出力する音声認識過程と、
上記単語信頼度付き音声認識結果を入力として、補正対象単語を特定し当該補正対象単語の前後複数単語の範囲を対象文脈として抽出し、単語信頼度付き音声認識結果データベースを参照して該単語信頼度付き音声認識結果データベースに記憶された上記補正対象単語を補正対象単語事例として複数個特定し、当該補正対象単語事例の前後複数単語の範囲を文脈事例として複数個抽出し、上記対象文脈と上記文脈事例との類似度を求め、当該複数個の類似度を用いて計算した補正単語信頼度を、上記補正対象単語の単語信頼度として出力する単語信頼度補正過程と、
を含む音声認識方法。 - 請求項1乃至4の何れかに記載した音声認識装置としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012174949A JP5749230B2 (ja) | 2012-08-07 | 2012-08-07 | 音声認識装置とその方法とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2012174949A JP5749230B2 (ja) | 2012-08-07 | 2012-08-07 | 音声認識装置とその方法とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2014035361A true JP2014035361A (ja) | 2014-02-24 |
JP5749230B2 JP5749230B2 (ja) | 2015-07-15 |
Family
ID=50284393
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2012174949A Expired - Fee Related JP5749230B2 (ja) | 2012-08-07 | 2012-08-07 | 音声認識装置とその方法とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5749230B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107305768A (zh) * | 2016-04-20 | 2017-10-31 | 上海交通大学 | 语音交互中的易错字校准方法 |
WO2019163242A1 (ja) * | 2018-02-20 | 2019-08-29 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002351492A (ja) * | 2001-05-25 | 2002-12-06 | Mitsubishi Electric Corp | 対話管理装置 |
JP2005148342A (ja) * | 2003-11-14 | 2005-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
JP2007004052A (ja) * | 2005-06-27 | 2007-01-11 | Nissan Motor Co Ltd | 音声対話装置及び音声理解結果生成方法 |
JP2012078650A (ja) * | 2010-10-04 | 2012-04-19 | Nec Corp | 音声入力支援装置 |
-
2012
- 2012-08-07 JP JP2012174949A patent/JP5749230B2/ja not_active Expired - Fee Related
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2002351492A (ja) * | 2001-05-25 | 2002-12-06 | Mitsubishi Electric Corp | 対話管理装置 |
JP2005148342A (ja) * | 2003-11-14 | 2005-06-09 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
JP2007004052A (ja) * | 2005-06-27 | 2007-01-11 | Nissan Motor Co Ltd | 音声対話装置及び音声理解結果生成方法 |
JP2012078650A (ja) * | 2010-10-04 | 2012-04-19 | Nec Corp | 音声入力支援装置 |
Non-Patent Citations (4)
Title |
---|
CSNG200900050002; 松本智彦他: '"複数の言語情報を用いたCRFによる音声認識誤りの検出"' 電子情報通信学会技術研究報告 Vol.108,No.422, 200901, pp.7-12 * |
CSNG201200438001; 浅見太一他: '"単語の文脈一貫性を用いた音声ドキュメント認識信頼度の推定"' 日本音響学会誌 68巻,7号, 201207, pp.323-330 * |
JPN6015007204; 浅見太一他: '"単語の文脈一貫性を用いた音声ドキュメント認識信頼度の推定"' 日本音響学会誌 68巻,7号, 201207, pp.323-330 * |
JPN6015007205; 松本智彦他: '"複数の言語情報を用いたCRFによる音声認識誤りの検出"' 電子情報通信学会技術研究報告 Vol.108,No.422, 200901, pp.7-12 * |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107305768A (zh) * | 2016-04-20 | 2017-10-31 | 上海交通大学 | 语音交互中的易错字校准方法 |
CN107305768B (zh) * | 2016-04-20 | 2020-06-12 | 上海交通大学 | 语音交互中的易错字校准方法 |
WO2019163242A1 (ja) * | 2018-02-20 | 2019-08-29 | ソニー株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
US11694675B2 (en) | 2018-02-20 | 2023-07-04 | Sony Corporation | Information processing apparatus, information processing system, and information processing method |
Also Published As
Publication number | Publication date |
---|---|
JP5749230B2 (ja) | 2015-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6800946B2 (ja) | 音声区間の認識方法、装置及び機器 | |
Barnard et al. | The NCHLT speech corpus of the South African languages | |
CN106057206B (zh) | 声纹模型训练方法、声纹识别方法及装置 | |
US20080183468A1 (en) | Augmentation and calibration of output from non-deterministic text generators by modeling its characteristics in specific environments | |
CN107229627B (zh) | 一种文本处理方法、装置及计算设备 | |
CN103544955A (zh) | 识别语音的方法及其电子装置 | |
JP2016075740A (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP6578049B2 (ja) | 学習データ生成装置及びそのプログラム | |
WO2012165529A1 (ja) | 言語モデル構築支援装置、方法及びプログラム | |
CN112951211B (zh) | 一种语音唤醒方法及装置 | |
CN112861521B (zh) | 语音识别结果纠错方法、电子设备及存储介质 | |
CN111274785A (zh) | 一种文本纠错方法、装置、设备及介质 | |
KR20160059265A (ko) | 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치 | |
CN109891500B (zh) | 基于位置的话音查询识别 | |
JP5749230B2 (ja) | 音声認識装置とその方法とプログラム | |
JP5152918B2 (ja) | 固有表現抽出装置、その方法およびプログラム | |
CN114530145A (zh) | 语音识别结果纠错方法及装置、计算机可读存储介质 | |
CN109377984B (zh) | 一种基于ArcFace的语音识别方法及装置 | |
KR102170844B1 (ko) | 강의 관련 키워드를 기반으로 하는 강의 음성파일 텍스트 변환 시스템 | |
JP5921601B2 (ja) | 音声認識辞書更新装置、音声認識辞書更新方法、プログラム | |
JP4533160B2 (ja) | 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体 | |
JP5513461B2 (ja) | 音声認識装置とその方法とプログラム | |
US20230117535A1 (en) | Method and system for device feature analysis to improve user experience | |
JP2016080832A (ja) | 学習データ生成装置及びそのプログラム | |
Ma et al. | Finding speaker identities with a conditional maximum entropy model |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140710 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20150213 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20150224 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150407 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150507 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150513 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5749230 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |