JP5149941B2 - 音声認識方法とその装置とプログラム - Google Patents
音声認識方法とその装置とプログラム Download PDFInfo
- Publication number
- JP5149941B2 JP5149941B2 JP2010158473A JP2010158473A JP5149941B2 JP 5149941 B2 JP5149941 B2 JP 5149941B2 JP 2010158473 A JP2010158473 A JP 2010158473A JP 2010158473 A JP2010158473 A JP 2010158473A JP 5149941 B2 JP5149941 B2 JP 5149941B2
- Authority
- JP
- Japan
- Prior art keywords
- word
- reliability
- recognition
- speech recognition
- words
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Description
次に、単語集合文脈信頼度計算手段23の動作を説明するに当たって、単語関連度テーブル30を作成する単語関連度テーブル作成装置150について説明する。
この発明の音響信頼度と文脈信頼度とを組み合わせた認識信頼度の有効性を確認する目的で評価実験を行った。実験には、話者48名(男性17名、女性31名)による電話会話をマイクで収録した音声782通話、計61時間の評価セットを用い、音声認識エンジンにはVoiceRex(参考文献、政瀧ほか、「顧客との自然な会話を聞き取る自由発話音声技術VoiceRex」)を用いた。また、音声文書を単語集合Nkに分割する窓幅nはn=20、窓シフト量mはm=10とした。音響信頼度CA(Nk)と文脈信頼度CL(Nk)を統合する際の重みαはα=0.2に設定した。
Claims (6)
- 入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識過程と、
上記単語を所定数まとめて単語集合とし、上記単語集合の音響信頼度と上記単語間の関連度を示す関連度テーブルを参照して上記単語集合毎に単語間の関連性に基づく文脈信頼度とを求め、上記音響信頼度と上記文脈信頼度とを統合した音声文書認識信頼度を上記音声文書毎に計算する音声文書認識信頼度計算過程と、
を含む音声認識方法において、
上記音声文書認識信頼度計算過程は、
上記音声認識結果の単語を、その先頭から所定の数n個ずつnより小さい数のm個移動させながら単語集合に分割する単語集合取得ステップと、
上記単語の継続時間長をその始端時刻と終端時刻の差として取得する単語時間長取得ステップと、
上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除する正規化解除ステップと、
上記正規化を解除した単語認識信頼度を上記継続時間長で除した音響信頼度を上記単語集合毎に計算する音響信頼度算出ステップと、
上記単語集合を構成する単語間の関連度を示す関連度テーブルを参照して上記単語毎に当該単語とその他の単語との関連性を表す関連度から求めた文脈信頼度を計算する単語集合文脈信頼度計算ステップと、
上記音響信頼度と上記文脈信頼度とを統合して上記音声文書毎に音声文書認識信頼度を計算する信頼度統合ステップと、
を含むことを特徴とする音声認識方法。 - 入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識過程と、
上記単語を所定数まとめて単語集合とし、上記単語集合の音響信頼度と上記単語間の関連度を示す関連度テーブルを参照して上記単語集合毎に単語間の関連性に基づく文脈信頼度とを求め、上記音響信頼度と上記文脈信頼度とを統合した音声文書認識信頼度を上記音声文書毎に計算する音声文書認識信頼度計算過程と、
を含む音声認識方法において、
上記音声認識信頼度計算過程は、
上記音声認識結果の単語を、その先頭から所定の数n個ずつnより小さい数のm個移動させながら単語集合に分割し、1番目の単語集合に追加する1番目からm番目の単語の直前重複フラグと直後重複フラグを偽とし、N番目の単語集合に追加する1番目からN・m番目の単語の直前重複フラグを真及び直後重複フラグを偽、N・m+1番目からn+N・m番目の単語の直前重複フラグを偽及び直後重複フラグを真とする単語集合取得ステップと、
上記直後重複フラグが真の単語の上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長を記憶する重複区間記憶ステップと、
上記直前重複フラグが偽で直後重複フラグが真の単語の上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長と、上記重複区間記憶ステップで記憶された値とから当該単語集合の音響信頼度を計算する単語集合音響信頼度高速計算ステップと、
を含むことを特徴とする音声認識方法。 - 請求項1又は2に記載した音声認識方法において、
更に、
上記音声認識結果と上記音声文書認識信頼度とを入力として所定の音声文書認識信頼度閾値未満の音声文書を除去する音声文書除去過程と、
上記音声文書除去過程で除去されなかった音声文書の音声認識結果から所定の単語認識信頼度閾値未満の単語認識信頼度の単語を除去する単語除去過程と、
を含むことを特徴とする音声認識方法。 - 入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識部と、
上記単語認識信頼度から求めた音響信頼度と、上記音声認識結果を構成する単語間の関連度を示す関連度テーブルを参照して上記単語毎に当該単語とその他の単語との関連性を表す関連度から求めた文脈信頼度と、を統合した音声文書認識信頼度を上記音声文書毎に求める音声文書認識信頼度計算部と、
を具備する音声認識装置であって、
上記音声文書認識信頼度計算部は、
上記音声認識結果の単語を、その先頭から所定の数n個ずつnより小さい数のm個移動させながら単語集合に分割する単語集合取得手段と、
上記単語の継続時間長をその始端時刻と終端時刻の差として取得する単語時間長取得手段と、
上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除する正規化解除手段と、
上記正規化を解除した単語認識信頼度を上記継続時間長で除した音響信頼度を上記単語集合毎に計算する音響信頼度算出手段と、
上記単語集合を構成する単語間の関連度を示す関連度テーブルを参照して上記単語毎に当該単語とその他の単語との関連性を表す関連度から求めた文脈信頼度を計算する単語集合文脈信頼度計算手段と、
上記音響信頼度と上記文脈信頼度とを統合して上記音声文書毎に音声文書認識信頼度を計算する信頼度統合手段と、
を備えることを特徴とする音声認識装置。 - 入力される音声文書を音声認識処理した単語毎に単語認識信頼度を付与した音声認識結果を出力する音声認識部と、
上記単語を所定数まとめて単語集合とし、上記単語集合の音響信頼度と上記単語間の関連度を示す関連度テーブルを参照して上記単語集合毎に単語間の関連性に基づく文脈信頼度とを求め、上記音響信頼度と上記文脈信頼度とを統合した音声文書認識信頼度を上記音声文書毎に計算する音声文書認識信頼度計算部と、
を含む音声認識装置であって、
上記音声認識信頼度計算部は、
上記音声認識結果の単語を、その先頭から所定の数n個ずつnより小さい数のm個移動させながら単語集合に分割し、1番目の単語集合に追加する1番目からm番目の単語の直前重複フラグと直後重複フラグを偽とし、N番目の単語集合に追加する1番目からN・m番目の単語の直前重複フラグを真及び直後重複フラグを偽、N・m+1番目からn+N・m番目の単語の直前重複フラグを偽及び直後重複フラグを真とする単語集合取得手段と、
上記直後重複フラグが真の単語の上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長を記憶する重複区間記憶手段と、
上記直前重複フラグが偽で直後重複フラグが真の単語の上記単語認識信頼度にその単語の継続時間長を乗算して時間正規化を解除した値とその継続時間長と、上記重複区間記憶ステップで記憶された値とから当該単語集合の音響信頼度を計算する単語集合音響信頼度高速計算手段と、
を備えることを特徴とする音声認識装置。 - 請求項1乃至3の何れかに記載した音声認識方法を、コンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010158473A JP5149941B2 (ja) | 2010-07-13 | 2010-07-13 | 音声認識方法とその装置とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010158473A JP5149941B2 (ja) | 2010-07-13 | 2010-07-13 | 音声認識方法とその装置とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012022070A JP2012022070A (ja) | 2012-02-02 |
JP5149941B2 true JP5149941B2 (ja) | 2013-02-20 |
Family
ID=45776414
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010158473A Active JP5149941B2 (ja) | 2010-07-13 | 2010-07-13 | 音声認識方法とその装置とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5149941B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2806415A1 (en) | 2013-05-23 | 2014-11-26 | Fujitsu Limited | Voice processing device and voice processing method |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5513440B2 (ja) * | 2011-05-26 | 2014-06-04 | 日本電信電話株式会社 | 音声認識方法とその装置とプログラム |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2005275348A (ja) * | 2004-02-23 | 2005-10-06 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよび記録媒体 |
US8229956B2 (en) * | 2005-12-09 | 2012-07-24 | Nec Corporation | Text mining device, text mining method, and text mining program |
JP4769098B2 (ja) * | 2006-03-06 | 2011-09-07 | 日本電信電話株式会社 | 音声認識信頼度推定装置、その方法、およびプログラム |
JP2009282835A (ja) * | 2008-05-23 | 2009-12-03 | Toshiba Corp | 音声検索装置及びその方法 |
-
2010
- 2010-07-13 JP JP2010158473A patent/JP5149941B2/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP2806415A1 (en) | 2013-05-23 | 2014-11-26 | Fujitsu Limited | Voice processing device and voice processing method |
Also Published As
Publication number | Publication date |
---|---|
JP2012022070A (ja) | 2012-02-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP4745094B2 (ja) | クラスタリングシステム、クラスタリング方法、クラスタリングプログラムおよびクラスタリングシステムを用いた属性推定システム | |
US8990086B2 (en) | Recognition confidence measuring by lexical distance between candidates | |
US20100324900A1 (en) | Searching in Audio Speech | |
WO2018192186A1 (zh) | 语音识别方法及装置 | |
JP6622681B2 (ja) | 音素崩れ検出モデル学習装置、音素崩れ区間検出装置、音素崩れ検出モデル学習方法、音素崩れ区間検出方法、プログラム | |
KR20100130263A (ko) | 음성 인식용 발음사전 확장 장치 및 방법 | |
Khan et al. | An intelligent system for spoken term detection that uses belief combination | |
JP6845489B2 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
Sadeghian et al. | Towards an automatic speech-based diagnostic test for Alzheimer’s disease | |
Das et al. | Optimal prosodic feature extraction and classification in parametric excitation source information for Indian language identification using neural network based Q-learning algorithm | |
JPWO2019244298A1 (ja) | 属性識別装置、属性識別方法、およびプログラム | |
JP5149941B2 (ja) | 音声認識方法とその装置とプログラム | |
Rahmawati et al. | Java and Sunda dialect recognition from Indonesian speech using GMM and I-Vector | |
JP5406797B2 (ja) | 音声認識方法とその装置とプログラム | |
JP5296455B2 (ja) | 話者識別装置、及びコンピュータプログラム | |
US20050246172A1 (en) | Acoustic model training method and system | |
Vavrek et al. | Query-by-example retrieval via fast sequential dynamic time warping algorithm | |
JP7107377B2 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
JP4478925B2 (ja) | 音声認識結果の信頼度検証装置、コンピュータプログラム、及びコンピュータ | |
Laleye et al. | Automatic boundary detection based on entropy measures for text-independent syllable segmentation | |
Laleye et al. | Automatic text-independent syllable segmentation using singularity exponents and rényi entropy | |
JP5325176B2 (ja) | 2チャネル音声の音声認識方法とその装置とプログラム | |
JP6526602B2 (ja) | 音声認識装置、その方法、及びプログラム | |
JP2005173008A (ja) | 音声解析処理およびそれを用いた音声処理装置および媒体 | |
JP2019028301A (ja) | 音響信号処理装置、方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120816 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121010 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121120 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121130 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5149941 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151207 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |