JP5184467B2 - 適応化音響モデル生成装置及びプログラム - Google Patents
適応化音響モデル生成装置及びプログラム Download PDFInfo
- Publication number
- JP5184467B2 JP5184467B2 JP2009200144A JP2009200144A JP5184467B2 JP 5184467 B2 JP5184467 B2 JP 5184467B2 JP 2009200144 A JP2009200144 A JP 2009200144A JP 2009200144 A JP2009200144 A JP 2009200144A JP 5184467 B2 JP5184467 B2 JP 5184467B2
- Authority
- JP
- Japan
- Prior art keywords
- task
- word
- acoustic model
- speech
- phoneme
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000003044 adaptive effect Effects 0.000 title claims abstract description 79
- 238000012545 processing Methods 0.000 claims abstract description 35
- 230000001419 dependent effect Effects 0.000 claims description 43
- 238000013518 transcription Methods 0.000 claims description 31
- 230000035897 transcription Effects 0.000 claims description 31
- 238000012986 modification Methods 0.000 claims description 14
- 230000004048 modification Effects 0.000 claims description 14
- 238000004519 manufacturing process Methods 0.000 claims description 6
- 230000006978 adaptation Effects 0.000 description 42
- 238000003860 storage Methods 0.000 description 28
- 238000000605 extraction Methods 0.000 description 15
- 238000010586 diagram Methods 0.000 description 10
- 238000000034 method Methods 0.000 description 8
- 238000012937 correction Methods 0.000 description 7
- 238000009826 distribution Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000008859 change Effects 0.000 description 5
- 230000008569 process Effects 0.000 description 4
- 230000001186 cumulative effect Effects 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 230000007704 transition Effects 0.000 description 2
- 239000013598 vector Substances 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 244000141353 Prunus domestica Species 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Description
図1に、本発明による実施例1の適応化音響モデル生成装置のブロック図を示す。実施例1の適応化音響モデル生成装置1は、音響モデルのタスク適応化を行い、新たなタスクに適応化した音響モデル(タスク適応化音響モデル)を生成する装置であり、より具体的には、学習音声の「タスク適応化音声」から特定した発声変形用の音素を、適応化対象の別タスクで学習された「音響モデル」に付加した上で当該音響モデルの識別学習を実行して適応化を行い、「タスク適応化音響モデル」を得る装置である。
図2は、本発明による実施例1の適応化音響モデル生成装置の一つの動作例を表すフローチャートである。
図8に、本発明による実施例2の適応化音響モデル生成装置のブロック図を示す。実施例2の適応化音響モデル生成装置11は、実施例1の適応化音響モデル生成装置1の動作及び利点を全て包含するものであり、2種類の環境依存音響モデルを同時に学習する装置として応用した例である。同様な構成要素には同一の参照番号を付して説明する。
図9に、対談音声などのように、一つの発話区間に複数の話者の音声が混在する場合に有効な男女並列音声認識の概要を示す。男女並列音声認識では、男女の性別依存音響モデルにリンクした単語発音辞書の音素ネットワークを並列化し、単語境界での性別属性の入れ替えを許容して探索を行う。
2 適応化処理部
3 記憶部
4 タスク適応化音声入力部
5 言語モデル入力部
6 音響モデル入力部
7 タスク適応化音声書き起こし入力部
8 ユーザインターフェース部
11 適応化音響モデル生成装置
21 音声認識部
22 発声変形単語抽出部
23 発声変形単語専用音素生成部
24 発声変形単語専用音素入り音響モデル生成部
25 音響モデル識別学習部
26 学習後タスク適応化音響モデル生成部
101 音響モデル生成装置
102 学習処理部
103 記憶部
111 書き起こし入力部
112 学習音声入力部
125 音響モデル学習部
126 学習後音響モデル生成部
200 音声認識装置
202 認識処理部
203 記憶部
210 適応化処理部
211 発話環境並列音声認識部
212 認識誤り修正部
213 識別子付き書き起こし部
214 音声入力部
216 音響モデル入力部
220 音声認識部
221 発声変形単語抽出部
231 発声変形単語専用音素生成部
241 発声変形単語専用音素入り音響モデル生成部
245 音響モデル識別学習部
246 学習後環境依存音響モデル生成部
Claims (7)
- 第1タスクの音声で学習して生成された音響モデルを用いて該第1タスクとは異なる第2タスクの音声に適応化させた音響モデルを生成する適応化音響モデル生成装置であって、
前記第1タスクの音響モデルと、前記第2タスクの音声の音声認識用の言語モデルを用いて、前記第2タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成する音声認識手段と、
前記仮説単語ラティスと前記第2タスクの音声用の書き起こしを用いて、前記第2タスクの音声中の発声変形の部分を、前記仮説単語ラティス中の単語の事後確率を基準として特定し、該発声変形の単語専用の音素を生成する発声変形単語専用音素生成手段と、
前記発声変形の単語専用の音素を前記第1タスクの音響モデルに付加して、前記書き起こしと前記第2タスクの音声を用いて学習し、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルを生成するタスク適応化音響モデル生成手段と、
を備えることを特徴とする適応化音響モデル生成装置。 - 前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語から、前記発声変形の部分を特定することを特徴とする、請求項1の適応化音響モデル生成装置。
- 前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、前記第2タスクの音声中の当該単語の出現頻度が所定の閾値以上の単語を前記発声変形の単語として特定することを特徴とする、請求項2の適応化音響モデル生成装置。
- 前記発声変形単語専用音素生成手段は、前記仮説単語ラティス中の単語の事後確率が所定の閾値以下の単語のうち、前記第2タスクの音声中の当該単語の出現頻度が最高値から所定の順位までの範囲に含まれる単語を前記発声変形の単語として特定することを特徴とする、請求項2又は3に記載の適応化音響モデル生成装置。
- 前記タスク適応化音響モデル生成手段は、前記発声変形の単語専用の音素と該単語専用の音素以外の音素とを識別学習して、前記タスク適応化音響モデルを生成することを特徴とする、請求項1〜4のいずれか一項に記載の適応化音響モデル生成装置。
- 前記第1タスクの音響モデルは、複数種類の環境依存音響モデルからなり、
前記環境依存音響モデルの音素には、複数種類の環境依存音響モデルを識別するための識別子が付されており、
前記音声認識手段は、前記複数種類の環境依存音響モデルを用いて複数の発話環境を並列に音声認識し、
前記タスク適応化音響モデル生成手段は、前記複数種類の環境依存音響モデルを同時に学習して、前記複数種類の環境依存音響モデルを適応化した音響モデルをそれぞれ生成することを特徴とする、請求項1〜5のいずれか一項に記載の適応化音響モデル生成装置。 - 第1タスクの音声で学習して生成された音響モデルを用いて該第1タスクとは異なる第2タスクの音声に適応化させた音響モデルを生成する適応化音響モデル生成装置として構成するコンピュータに、
前記第1タスクの音響モデルと、前記第2タスクの音声の音声認識用の言語モデルを用いて、前記第2タスクの音声について音声認識処理を実行し、認識結果としての仮説単語ラティスを生成するステップと、
前記仮説単語ラティスと前記第2タスクの音声用の書き起こしを用いて、前記第2タスクの音声中の発声変形の部分を、前記仮説単語ラティス中の単語の事後確率を基準として特定し、該発声変形の単語専用の音素を生成するステップと、
前記発声変形の単語専用の音素を前記第1タスクの音響モデルに付加して、前記書き起こしと前記第2タスクの音声を用いて学習し、タスク別に識別された音素ごとに音素が発話されるときの音響特徴量の統計量を表すタスク適応化音響モデルを生成するステップと、
を実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009200144A JP5184467B2 (ja) | 2009-08-31 | 2009-08-31 | 適応化音響モデル生成装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009200144A JP5184467B2 (ja) | 2009-08-31 | 2009-08-31 | 適応化音響モデル生成装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011053312A JP2011053312A (ja) | 2011-03-17 |
JP5184467B2 true JP5184467B2 (ja) | 2013-04-17 |
Family
ID=43942419
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009200144A Active JP5184467B2 (ja) | 2009-08-31 | 2009-08-31 | 適応化音響モデル生成装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5184467B2 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469552A (zh) * | 2015-08-20 | 2017-03-01 | 三星电子株式会社 | 语音识别设备和方法 |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9286897B2 (en) * | 2013-09-27 | 2016-03-15 | Amazon Technologies, Inc. | Speech recognizer with multi-directional decoding |
US9251784B2 (en) | 2013-10-23 | 2016-02-02 | International Business Machines Corporation | Regularized feature space discrimination adaptation |
CN110197658B (zh) * | 2019-05-30 | 2021-01-26 | 百度在线网络技术(北京)有限公司 | 语音处理方法、装置以及电子设备 |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003099086A (ja) * | 2001-09-25 | 2003-04-04 | Nippon Hoso Kyokai <Nhk> | 言語・音響モデル作成方法および言語・音響モデル作成装置ならびに言語・音響モデル作成プログラム |
JP4820240B2 (ja) * | 2006-08-29 | 2011-11-24 | 日本放送協会 | 単語分類装置及び音声認識装置及び単語分類プログラム |
JP5240457B2 (ja) * | 2007-01-16 | 2013-07-17 | 日本電気株式会社 | 拡張認識辞書学習装置と音声認識システム |
-
2009
- 2009-08-31 JP JP2009200144A patent/JP5184467B2/ja active Active
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106469552A (zh) * | 2015-08-20 | 2017-03-01 | 三星电子株式会社 | 语音识别设备和方法 |
CN106469552B (zh) * | 2015-08-20 | 2021-11-30 | 三星电子株式会社 | 语音识别设备和方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2011053312A (ja) | 2011-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11496582B2 (en) | Generation of automated message responses | |
US10176802B1 (en) | Lattice encoding using recurrent neural networks | |
US10140973B1 (en) | Text-to-speech processing using previously speech processed data | |
US8019602B2 (en) | Automatic speech recognition learning using user corrections | |
JP5327054B2 (ja) | 発音変動規則抽出装置、発音変動規則抽出方法、および発音変動規則抽出用プログラム | |
CN106463113B (zh) | 在语音辨识中预测发音 | |
JP4301102B2 (ja) | 音声処理装置および音声処理方法、プログラム、並びに記録媒体 | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
JP5149107B2 (ja) | 音響処理装置およびプログラム | |
KR20080018622A (ko) | 휴대용 단말기의 음성 인식 시스템 | |
KR101014086B1 (ko) | 음성 처리 장치 및 방법, 및 기록 매체 | |
JP5184467B2 (ja) | 適応化音響モデル生成装置及びプログラム | |
JP2010139745A (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP2014074732A (ja) | 音声認識装置、誤り修正モデル学習方法、及びプログラム | |
Rose | Word spotting from continuous speech utterances | |
JP2017045027A (ja) | 音声言語コーパス生成装置およびそのプログラム | |
US20040006469A1 (en) | Apparatus and method for updating lexicon | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム | |
JP4972660B2 (ja) | 音声学習装置及びプログラム | |
JPH08123470A (ja) | 音声認識装置 | |
JPH1097293A (ja) | 音声認識用単語辞書作成装置及び連続音声認識装置 | |
JP2886118B2 (ja) | 隠れマルコフモデルの学習装置及び音声認識装置 | |
JP2005091504A (ja) | 音声認識装置 | |
AU2013375318B2 (en) | False alarm reduction in speech recognition systems using contextual information |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20120117 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121004 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20121016 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121129 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121218 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130116 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5184467 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20160125 Year of fee payment: 3 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |