JP4700522B2 - 音声認識装置及び音声認識プログラム - Google Patents
音声認識装置及び音声認識プログラム Download PDFInfo
- Publication number
- JP4700522B2 JP4700522B2 JP2006056235A JP2006056235A JP4700522B2 JP 4700522 B2 JP4700522 B2 JP 4700522B2 JP 2006056235 A JP2006056235 A JP 2006056235A JP 2006056235 A JP2006056235 A JP 2006056235A JP 4700522 B2 JP4700522 B2 JP 4700522B2
- Authority
- JP
- Japan
- Prior art keywords
- speaker
- speaker cluster
- speech
- speech recognition
- acoustic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000007704 transition Effects 0.000 claims description 50
- 230000008859 change Effects 0.000 claims description 12
- 238000004458 analytical method Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 2
- 238000000034 method Methods 0.000 description 39
- 238000012545 processing Methods 0.000 description 28
- 230000008569 process Effects 0.000 description 17
- 230000001186 cumulative effect Effects 0.000 description 8
- 238000007476 Maximum Likelihood Methods 0.000 description 6
- 238000004364 calculation method Methods 0.000 description 6
- 238000001514 detection method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000004519 manufacturing process Methods 0.000 description 5
- 101100394003 Butyrivibrio fibrisolvens end1 gene Proteins 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 238000007781 pre-processing Methods 0.000 description 3
- 238000007796 conventional method Methods 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 241000408659 Darpa Species 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 238000013179 statistical model Methods 0.000 description 1
- 238000013518 transcription Methods 0.000 description 1
- 230000035897 transcription Effects 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Description
本発明は、1又は複数の話者クラスタの音響モデルを利用しつつ、1発話中での複数の話者クラスタの単語間の遷移を可能とし、例えば1発話中に男女の音声が混在し易い対談等の音声においても、従来よりも少ない演算量且つ少ない遅れ時間で高精度な音声認識を実現するものである。
図1は、本発明における音声認識装置の一構成例を示す図である。図1に示す音声認識装置10は、ネットワーク展開手段11と、音響分析手段12と、話者クラスタ属性同定手段13と、連続音声認識手段14とを有するよう構成されている。
ここで、ネットワーク展開手段11における探索ネットワーク23の展開内容について説明する。図2は、話者クラスタ数が2の場合の探索ネットワークの一例を示す図である。また、図3は、各話者クラスタの単語辞書の内部構造の一例を示す図である。
次に、話者クラスタ属性同定手段13における話者クラスタ属性同定手法について説明する。話者クラスタ属性同定手法としては、例えば話者クラスタ数が2(男性、女性)とした場合、逐次確定処理(例えば、特開2001−92496号公報)により、男性、女性の音素認識を並列して行い確定したお互いの結果(スコア)から良い方の音声認識結果を出力する男女並列音素認識等の手法により、少ない遅れ時間で複数話者クラスタのサブワードレベル(例えば、音素、音節、トライフォン等)の音声認識を行い、入力音声のどこからどこまでがどの話者クラスタに属するのかを同定することができる。
図4は、男女並列音素認識のネットワークの一例を示す図である。図4に示すように、男女間遷移が可能で枝刈り共通の男女並列音素認識を行い、累積音素尤度を利用して発話の始端と終端を迅速に検出する。
ここで、上述した音声認識装置10は、上述した専用の装置構成等を用いて本発明における音声認識処理を行うこともできるが、各構成における処理をコンピュータに実行させることができる実行プログラム(音声認識プログラム)を生成し、例えば、汎用のパーソナルコンピュータ、サーバ等にそのプログラムをインストールすることにより、本発明に係る音声認識処理を実現することができる。
ここで、本発明における音声認識処理が実行可能なコンピュータのハードウェア構成例について図を用いて説明する。図6は、本発明における音声認識処理が実現可能なハードウェア構成の一例を示す図である。
次に、本発明における実行プログラム(音声認識プログラム)を用いた音声認識処理手順についてフローチャートを用いて説明する。図7は、音声認識処理手順の一例を示すフローチャートである。
ここで、従来手法と本発明手法とにおける音声認識結果の比較例について説明する。一例として男女の音声が混在するニュース番組の対談等の音声認識を行った結果、従来手法である性別に依存しない唯一の音響モデルを利用した場合の単語誤認識率は12.2%(入力音声の時間長に対する認識処理時間の比=認識処理実時間比0.81倍)であった。また、男女別々の音響モデルを並列に動作させると、1発話中の男女の単語間の遷移を許さなかった場合の単語誤認識率は11.9%(認識処理実時間比0.93倍)、同様にして男女の単語間の遷移を制約なしで常に許す場合の単語誤認識率は11.3%(認識処理実時間比1.28倍)であった。
11 ネットワーク展開手段
12 音響分析手段
13 話者クラスタ属性同定手段
14 連続音声認識手段
21 音響モデル
22 言語モデル
23 探索ネットワーク
24 入力音声
25 音響特徴量
26 話者クラスタ属性
27 音声認識結果
31 認識開始状態
32、33 単語辞書
34 認識終了状態
41 入力装置
42 出力装置
43 ドライブ装置
44 補助記憶装置
45 メモリ装置
46 CPU
47 ネットワーク接続装置
48 記録媒体
Claims (5)
- 音響的特徴の異なる複数の話者クラスタを用いて入力音声の1発話中に混在し得る音声を認識する音声認識装置において、
前記入力音声を音響特徴量に変換する音響分析手段と、
前記音響分析手段により得られる音響特徴量から話者クラスタ属性を同定する話者クラスタ属性同定手段と、
前記話者クラスタの音響モデル及び言語モデルから生成され、前記複数の話者クラスタに含まれる各話者クラスタの単語辞書終端から異なる話者クラスタの単語辞書始端への遷移を有する正解単語探索用の探索ネットワークと、
前記探索ネットワークを用いて前記入力音声に対する連続音声認識を行う連続音声認識手段とを有し、
前記連続音声認識手段は、前記入力音声に対し、前記話者クラスタ属性同定手段から得られる前記話者クラスタ属性が変化した場合にのみ、異なる話者クラスタの単語辞書始端へ遷移して単語探索を行うと共に、すでに探索中の話者クラスタの単語辞書を継続して単語探索を行うことを特徴とする音声認識装置。 - 音声の音響的特徴を表現する1又は複数の話者クラスタからなる音響モデルと、予め設定された単語間の遷移を表現する言語モデルとを有し、
前記話者クラスタの音響モデルを、前記言語モデル及び予め話者クラスタ毎に設定された単語辞書にしたがって探索ネットワークへ展開するネットワーク展開手段を有することを特徴とする請求項1に記載の音声認識装置。 - 前記ネットワーク展開手段は、
発話始端の認識開始状態から全ての話者クラスタの単語辞書始端への遷移、同じ話者クラスタの単語辞書間で言語モデルにしたがった遷移、話者クラスタ属性の変化に応じて各話者クラスタの単語辞書終端から異なる話者クラスタの単語辞書始端への遷移、発話終端で各話者クラスタの単語辞書終端から認識終了状態への遷移、及び次の発話のために認識終了状態から認識開始状態への遷移を可能とする探索ネットワークを構成することを特徴とする請求項2に記載の音声認識装置。 - 前記話者クラスタ属性同定手段は、
前記入力音声に対して話者クラスタが変化した時刻情報及び/又は変化後の話者クラスタの属性情報を出力することを特徴とする請求項1乃至3の何れか1項に記載の音声認識装置。 - 音響的特徴の異なる複数の話者クラスタを用いて入力音声の1発話中に混在し得る音声を認識する音声認識プログラムにおいて、
コンピュータを、
前記入力音声を音響特徴量に変換する音響分析手段、
前記音響分析手段により得られる音響特徴量から話者クラスタ属性を同定する話者クラスタ属性同定手段、及び、
前記話者クラスタの音響モデル及び言語モデルから生成され、前記複数の話者クラスタに含まれる各話者クラスタの単語辞書終端から異なる話者クラスタの単語辞書始端への遷移を有する正解単語探索用の探索ネットワークを用いて前記入力音声に対する連続音声認識を行う連続音声認識手段として機能させ、
前記連続音声認識手段は、前記入力音声に対し、前記話者クラスタ属性同定手段から得られる前記話者クラスタ属性が変化した場合にのみ、異なる話者クラスタの単語辞書始端へ遷移して単語探索を行うと共に、すでに探索中の話者クラスタの単語辞書を継続して単語探索を行うことを特徴とする音声認識プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006056235A JP4700522B2 (ja) | 2006-03-02 | 2006-03-02 | 音声認識装置及び音声認識プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006056235A JP4700522B2 (ja) | 2006-03-02 | 2006-03-02 | 音声認識装置及び音声認識プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007233149A JP2007233149A (ja) | 2007-09-13 |
JP4700522B2 true JP4700522B2 (ja) | 2011-06-15 |
Family
ID=38553791
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006056235A Active JP4700522B2 (ja) | 2006-03-02 | 2006-03-02 | 音声認識装置及び音声認識プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4700522B2 (ja) |
Families Citing this family (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5052449B2 (ja) * | 2008-07-29 | 2012-10-17 | 日本電信電話株式会社 | 発話区間話者分類装置とその方法と、その装置を用いた音声認識装置とその方法と、プログラムと記録媒体 |
JP4972660B2 (ja) * | 2009-02-27 | 2012-07-11 | 日本放送協会 | 音声学習装置及びプログラム |
JP5644772B2 (ja) * | 2009-11-25 | 2014-12-24 | 日本電気株式会社 | 音声データ解析装置、音声データ解析方法及び音声データ解析用プログラム |
CN102760434A (zh) | 2012-07-09 | 2012-10-31 | 华为终端有限公司 | 一种声纹特征模型更新方法及终端 |
JP5875569B2 (ja) * | 2013-10-31 | 2016-03-02 | 日本電信電話株式会社 | 音声認識装置とその方法とプログラムとその記録媒体 |
CN114462397B (zh) * | 2022-01-20 | 2023-09-22 | 连连(杭州)信息技术有限公司 | 一种语种识别模型训练方法、语种识别方法、装置及电子设备 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59146099A (ja) * | 1983-02-09 | 1984-08-21 | 日本電気株式会社 | 音声認識装置 |
JP2001255887A (ja) * | 2000-03-09 | 2001-09-21 | Rikogaku Shinkokai | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 |
JP2004163541A (ja) * | 2002-11-11 | 2004-06-10 | Mitsubishi Electric Corp | 音声応答装置 |
JP2005221727A (ja) * | 2004-02-05 | 2005-08-18 | Nec Corp | 音声認識システム、音声認識方法および音声認識用プログラム |
JP2005345772A (ja) * | 2004-06-03 | 2005-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
-
2006
- 2006-03-02 JP JP2006056235A patent/JP4700522B2/ja active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS59146099A (ja) * | 1983-02-09 | 1984-08-21 | 日本電気株式会社 | 音声認識装置 |
JP2001255887A (ja) * | 2000-03-09 | 2001-09-21 | Rikogaku Shinkokai | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 |
JP2004163541A (ja) * | 2002-11-11 | 2004-06-10 | Mitsubishi Electric Corp | 音声応答装置 |
JP2005221727A (ja) * | 2004-02-05 | 2005-08-18 | Nec Corp | 音声認識システム、音声認識方法および音声認識用プログラム |
JP2005345772A (ja) * | 2004-06-03 | 2005-12-15 | Nippon Telegr & Teleph Corp <Ntt> | 音声認識方法、この方法を実施する装置、プログラムおよびその記録媒体 |
Also Published As
Publication number | Publication date |
---|---|
JP2007233149A (ja) | 2007-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US9812122B2 (en) | Speech recognition model construction method, speech recognition method, computer system, speech recognition apparatus, program, and recording medium | |
EP3438973B1 (en) | Method and apparatus for constructing speech decoding network in digital speech recognition, and storage medium | |
KR100755677B1 (ko) | 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법 | |
US10522134B1 (en) | Speech based user recognition | |
US10074363B2 (en) | Method and apparatus for keyword speech recognition | |
KR100612839B1 (ko) | 도메인 기반 대화 음성인식방법 및 장치 | |
EP2192575B1 (en) | Speech recognition based on a multilingual acoustic model | |
JP2003308090A (ja) | 音声認識装置、音声認識方法および音声認識プログラム | |
JP6699748B2 (ja) | 対話装置、対話方法及び対話用コンピュータプログラム | |
JP4700522B2 (ja) | 音声認識装置及び音声認識プログラム | |
Werner et al. | Automated speech recognition systems and older adults: a literature review and synthesis | |
JP2007240589A (ja) | 音声認識信頼度推定装置、その方法、およびプログラム | |
JP4791857B2 (ja) | 発話区間検出装置及び発話区間検出プログラム | |
Këpuska | Wake-up-word speech recognition | |
Hieronymus et al. | Spoken language identification using large vocabulary speech recognition | |
JP3660512B2 (ja) | 音声認識方法、その装置及びプログラム記録媒体 | |
Hieronymus et al. | Robust spoken language identification using large vocabulary speech recognition | |
JP4861912B2 (ja) | 知識源を組込むための確率計算装置及びコンピュータプログラム | |
JP2009116075A (ja) | 音声認識装置 | |
Rebai et al. | Linto platform: A smart open voice assistant for business environments | |
JP2006243213A (ja) | 言語モデル変換装置、音響モデル変換装置、及びコンピュータプログラム | |
JP2005250071A (ja) | 音声認識方法及び装置及び音声認識プログラム及び音声認識プログラムを格納した記憶媒体 | |
Mon et al. | Building HMM-SGMM continuous automatic speech recognition on Myanmar Web news | |
JPWO2013125203A1 (ja) | 音声認識装置、音声認識方法およびコンピュータプログラム | |
JP4236502B2 (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080606 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100928 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101012 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101209 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110208 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110304 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4700522 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |