JP2012022070A - 音声認識方法とその装置とプログラム - Google Patents
音声認識方法とその装置とプログラム Download PDFInfo
- Publication number
- JP2012022070A JP2012022070A JP2010158473A JP2010158473A JP2012022070A JP 2012022070 A JP2012022070 A JP 2012022070A JP 2010158473 A JP2010158473 A JP 2010158473A JP 2010158473 A JP2010158473 A JP 2010158473A JP 2012022070 A JP2012022070 A JP 2012022070A
- Authority
- JP
- Japan
- Prior art keywords
- word
- reliability
- recognition
- speech recognition
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Abstract
【解決手段】この発明の音声認識方法は、音声認識過程と、音声文書認識信頼度計算過程と、を含む。音声認識過程は、入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する。音声文書認識信頼度計算過程は、単語認識信頼度から求めた音響信頼度と、音声認識結果を構成する単語間の関連度を示す関連度テーブルを参照して単語毎に当該単語とその他の単語との関連性を表す関連度から求めた文脈信頼度を求め、音響信頼度と文脈信頼度を統合した音声文書認識信頼度を音声文書毎に求める。
【選択図】図2
Description
次に、単語集合文脈信頼度計算部23の動作を説明するに当たって、単語関連度テーブル30を作成する単語関連度テーブル作成装置150について説明する。
この発明の音響信頼度と文脈信頼度とを組み合わせた認識信頼度の有効性を確認する目的で評価実験を行った。実験には、話者48名(男性17名、女性31名)による電話会話をマイクで収録した音声782通話、計61時間の評価セットを用い、音声認識エンジンにはVoiceRex(参考文献、政瀧ほか、「顧客との自然な会話を聞き取る自由発話音声技術VoiceRex」)を用いた。また、音声文書を単語集合Nkに分割する窓幅nはn=20、窓シフト量mはm=10とした。音響信頼度CA(Nk)と文脈信頼度CL(Nk)を統合する際の重みαはα=0.2に設定した。
Claims (6)
- 入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識過程と、
上記単語を所定数まとめて単語集合とし、上記単語集合の音響信頼度と上記単語間の関連度を示す関連度テーブルを参照して上記単語集合毎に単語間の関連性に基づく文脈信頼度とを求め、上記音響信頼度と上記文脈信頼度とを統合した音声文書認識信頼度を上記音声文書毎に計算する音声文書認識信頼度計算過程と、
を含む音声認識方法。 - 請求項1に記載した音声認識方法において、
上記音声文書認識信頼度計算過程は、
上記音声認識結果の単語を、その先頭から所定の数n個ずつnより小さい数のm個移動させながら単語集合に分割する単語集合取得ステップと、
上記単語の継続時間長をその始端時刻と終端時刻の差として取得する単語時間長取得ステップと、
上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除する正規化解除ステップと、
上記正規化を解除した単語認識信頼度を上記継続時間長で除した音響信頼度を上記単語集合毎に計算する単語集合音響信頼度算出ステップと、
上記単語集合を構成する単語間の関連度を示す関連度テーブルを参照して上記単語毎に当該単語とその他の単語との関連性を表す関連度から求めた文脈信頼度を計算する単語集合文脈信頼度計算ステップと、
上記音響信頼度と上記文脈信頼度とを統合して上記音声文書毎に音声文書認識信頼度を計算する信頼度統合ステップと、
を含むことを特徴とする音声認識方法。 - 請求項1に記載した音声認識方法において、
上記音声認識信頼度計算過程は、
上記音声認識結果の単語を、その先頭から所定の数n個ずつnより小さい数のm個移動させながら単語集合に分割し、1番目の単語集合に追加する1番目からm番目の単語の直前重複フラグと直後重複フラグを偽とし、N番目の単語集合に追加する1番目からN・m番目の単語の直前重複フラグを真及び直後重複フラグを偽、N・m+1番目からn+N・m番目の単語の直前重複フラグを偽及び直後重複フラグを真とする単語集合取得ステップと、
上記直後重複フラグが真の単語の上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長を記憶する重複区間記憶ステップと、
上記直前重複フラグが偽で直後重複フラグが真の単語の上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長と、上記重複区間記憶ステップで記憶された値とから当該単語集合の音響信頼度を計算する単語集合音響信頼度高速計算ステップと、
を含むことを特徴とする音声認識方法。 - 請求項1乃至3の何れかに記載した音声認識方法において、
更に、
上記音声認識結果と上記音声文書認識信頼度とを入力として所定の音声文書認識信頼度閾値未満の音声文書を除去する音声文書除去過程と、
上記音声文書除去過程で除去されなかった音声文書の音声認識結果から所定の単語認識信頼度閾値未満の単語認識信頼度の単語を除去する単語除去過程と、
を含むことを特徴とする音声認識方法。 - 入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識部と、
上記単語認識信頼度から求めた音響信頼度と、上記音声認識結果を構成する単語間の関連度を示す関連度テーブルを参照して上記単語毎に当該単語とその他の単語との関連性を表す関連度から求めた文脈信頼度と、を統合した音声文書認識信頼度を上記音声文書毎に求める音声文書認識信頼度計算部と、
を具備する音声認識装置。 - 請求項1乃至4の何れかに記載した音声認識方法を、コンピュータに実行させるための音声認識方法プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010158473A JP5149941B2 (ja) | 2010-07-13 | 2010-07-13 | 音声認識方法とその装置とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010158473A JP5149941B2 (ja) | 2010-07-13 | 2010-07-13 | 音声認識方法とその装置とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012022070A true JP2012022070A (ja) | 2012-02-02 |
JP5149941B2 JP5149941B2 (ja) | 2013-02-20 |
Family
ID=45776414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010158473A Active JP5149941B2 (ja) | 2010-07-13 | 2010-07-13 | 音声認識方法とその装置とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5149941B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012247556A (ja) * | 2011-05-26 | 2012-12-13 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法とその装置とプログラム |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6244658B2 (ja) | 2013-05-23 | 2017-12-13 | 富士通株式会社 | 音声処理装置、音声処理方法および音声処理プログラム |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005275348A (ja) * | 2004-02-23 | 2005-10-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
WO2007066704A1 (ja) * | 2005-12-09 | 2007-06-14 | Nec Corporation | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
JP2007240589A (ja) * | 2006-03-06 | 2007-09-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識信頼度推定装置、その方法、およびプログラム |
JP2009282835A (ja) * | 2008-05-23 | 2009-12-03 | Toshiba Corp | 音声検索装置及びその方法 |
-
2010
- 2010-07-13 JP JP2010158473A patent/JP5149941B2/ja active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005275348A (ja) * | 2004-02-23 | 2005-10-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
WO2007066704A1 (ja) * | 2005-12-09 | 2007-06-14 | Nec Corporation | テキストマイニング装置、テキストマイニング方法、および、テキストマイニングプログラム |
JP2007240589A (ja) * | 2006-03-06 | 2007-09-20 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識信頼度推定装置、その方法、およびプログラム |
JP2009282835A (ja) * | 2008-05-23 | 2009-12-03 | Toshiba Corp | 音声検索装置及びその方法 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2012247556A (ja) * | 2011-05-26 | 2012-12-13 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法とその装置とプログラム |
Also Published As
Publication number | Publication date |
---|---|
JP5149941B2 (ja) | 2013-02-20 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8321218B2 (en) | Searching in audio speech | |
KR101587866B1 (ko) | 음성 인식용 발음사전 확장 장치 및 방법 | |
WO2018192186A1 (zh) | 语音识别方法及装置 | |
JP2007256342A (ja) | クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム | |
JP2018072697A (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
JP6845489B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
Das et al. | Optimal prosodic feature extraction and classification in parametric excitation source information for Indian language identification using neural network based Q-learning algorithm | |
Sadeghian et al. | Towards an automatic speech-based diagnostic test for Alzheimer’s disease | |
JP5149941B2 (ja) | 音声認識方法とその装置とプログラム | |
Rahmawati et al. | Java and Sunda dialect recognition from Indonesian speech using GMM and I-Vector | |
JP5406797B2 (ja) | 音声認識方法とその装置とプログラム | |
JP5296455B2 (ja) | 話者識別装置、及びコンピュータプログラム | |
Mengistu | Automatic text independent amharic language speaker recognition in noisy environment using hybrid approaches of LPCC, MFCC and GFCC | |
Coto-Solano et al. | Advances in completely automated vowel analysis for sociophonetics: Using end-to-end speech recognition systems with DARLA | |
US20050246172A1 (en) | Acoustic model training method and system | |
Vavrek et al. | Query-by-example retrieval via fast sequential dynamic time warping algorithm | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP6599408B2 (ja) | 音響信号処理装置、方法及びプログラム | |
Tejedor et al. | ALBAYZIN 2018 spoken term detection evaluation: a multi-domain international evaluation in Spanish | |
Laleye et al. | Automatic text-independent syllable segmentation using singularity exponents and rényi entropy | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
Bhardwaj et al. | A Study of Methods Involved In Voice Emotion Recognition | |
JP5325176B2 (ja) | 2チャネル音声の音声認識方法とその装置とプログラム | |
Wang et al. | Handling overlaps in spoken term detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121010 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5149941 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151207 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |