JP4654452B2 - 音響モデル生成装置、およびプログラム - Google Patents
音響モデル生成装置、およびプログラム Download PDFInfo
- Publication number
- JP4654452B2 JP4654452B2 JP2005254424A JP2005254424A JP4654452B2 JP 4654452 B2 JP4654452 B2 JP 4654452B2 JP 2005254424 A JP2005254424 A JP 2005254424A JP 2005254424 A JP2005254424 A JP 2005254424A JP 4654452 B2 JP4654452 B2 JP 4654452B2
- Authority
- JP
- Japan
- Prior art keywords
- feature vector
- model
- vector information
- information
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 239000013598 vector Substances 0.000 claims description 265
- 238000004364 calculation method Methods 0.000 claims description 73
- 230000002159 abnormal effect Effects 0.000 claims description 56
- 238000012545 processing Methods 0.000 claims description 23
- 230000003252 repetitive effect Effects 0.000 claims description 16
- 238000000034 method Methods 0.000 description 88
- 230000008569 process Effects 0.000 description 36
- 238000002474 experimental method Methods 0.000 description 11
- 238000010586 diagram Methods 0.000 description 10
- 230000009467 reduction Effects 0.000 description 10
- 238000004422 calculation algorithm Methods 0.000 description 5
- 238000009826 distribution Methods 0.000 description 5
- 230000007704 transition Effects 0.000 description 5
- 238000009825 accumulation Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000013518 transcription Methods 0.000 description 4
- 230000035897 transcription Effects 0.000 description 4
- 238000001514 detection method Methods 0.000 description 3
- 238000011156 evaluation Methods 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000002131 composite material Substances 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000010183 spectrum analysis Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Description
F. Wessel and H. Ney、"Unsupervised training of acoustic models for large vocabulary continuous speech recognition、" IEEE Transactions on Speech and Audio Processing、vol. 13、 no. 1、 pp. 23-31、 2005. L. Nguyen and B. Xiang、 "Light supervision in acoustic model training、" in Proc. Eurospeech、 vol. 3、 pp. 1837-1840、 2003.
かかる構成により、誤り音素記述や突発性雑音など単語中の一部分だけに存在する異常データのみを除いた音響モデルが生成できる。
かかる第二から第四の発明の構成により、誤り音素記述や突発性雑音など単語中の一部分だけに存在する異常データのみを除いた音響モデルが生成できる。
かかる構成により、誤り音素記述や突発性雑音など単語中の一部分だけに存在する異常データのみを除いた音響モデルが生成でき、かつ少ない処理量音響モデルが生成できる。
かかる構成により、誤り音素記述や突発性雑音など単語中の一部分だけに存在する異常データのみを除いた音響モデルが、精度高く生成できる。
(実施の形態1)
図1は、本実施の形態における音響モデル生成装置のブロック図である。
次に、音響モデル生成装置の動作について図2のフローチャートを用いて説明する。
(ステップS201)第一特徴ベクトル情報取得部105は、音響モデル格納部101に格納されているHMMの音響モデルを読み込む。
(ステップS202)第一音声受付手段1041は、第一の音声を受け付けたか否かを判断する。第一の音声を受け付ければステップS203に行き、第一の音声を受け付けなければステップS202に戻る。
(ステップS207)特徴ベクトル情報取得部107は、ステップS206で取得した第二特徴ベクトル情報の集合を図示しない手段に蓄積する。この蓄積は、一時的な蓄積でも良いことは言うまでもない。
(ステップS209)モデルパラメータ算出部108は、音響モデル格納部101の音響モデルと、ステップS208で取得した評価対象の2以上の特徴ベクトル情報に基づいて、モデルパラメータを算出する。
(ステップS210)距離算出部109は、カウンタiに1を代入する。
(ステップS212)距離算出部109は、i番目の第二特徴ベクトル情報と、モデル構造情報格納部103のモデル構造情報とステップS209で取得したモデルパラメータを有するモデルとの距離を算出する。
(ステップS213)距離算出部109は、i番目の第二特徴ベクトル情報に対応付けて、ステップS212で算出した距離を一時蓄積する。
(ステップS214)距離算出部109は、カウンタiを1、インクリメントし、ステップS211に戻る。
(ステップS215)判断部110は、距離をキーとして、第二特徴ベクトル情報群の中で、距離の近い方から、例えば、99.5%を選択する。
また、ここで、講演者が、講演を開始する、とする。
まず、本音響モデル生成装置の第一特徴ベクトル情報取得部105は、音響モデル格納部101に格納されているHMMの音響モデルを読み込む。
そして、距離算出部109は、例えば、出現確率(d(k)1)を距離として、算出する。
そして、距離算出部109は、算出した距離と、各第二特徴ベクトル情報を対応づけて蓄積する。かかる距離算出等の処理を、全第二特徴ベクトル情報に対して行う。
そして、ここで、削減率「0.5%」である、とする。そして、判断部110は、距離をキーとして、距離が小さい99.5%の第二特徴ベクトル情報を選択する。
次に、制御部111は、モデルパラメータ算出部108にモデルパラメータの算出を指示する。
そして、10回モデルパラメータが算出され、最終的にモデルパラメータ(θ10)が得られる。
さらに、手法C(Feature vector sequences on phoneme HMM)は、音素HMM(Phoneme HMM(HMM状態系列))を学習するために用いられる特徴ベクトル時系列の集合に対して異常データに頑健な推定が行われる手法である。手法Cにおいて、モデル構造情報は、音素HMMを示す情報であり、判断部110が正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトル時系列である場合である。手法Cの場合、第一特徴ベクトル情報も、特徴ベクトル時系列である。なお、特徴ベクトルの集合は、学習データをViterbiアラインメントすることによって得られることは上述した通りである。
なお、本実施の形態によれば、モデル構造情報、および第二特徴ベクトル情報の組み合わせは、上記の手法A、B、Cにおける組み合わせのいずれでも良い。
前記終了判断ステップにおいて、予め決められた回数だけ、前記繰り返し動作を行った場合に、前記繰り返し動作を終了すると判断することは好適である。
前記判断ステップにおいて、予め決められた割合に適合するように、当該第二特徴ベクトル情報中の正常データおよび異常データを決定することは好適である。
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
102 第一特徴ベクトル情報格納部
103 モデル構造情報格納部
104 音声受付部
105 第一特徴ベクトル情報取得部
106 第一特徴ベクトル情報蓄積部
107 特徴ベクトル情報取得部
108 モデルパラメータ算出部
108 モデル構造情報モデルパラメータ算出部
109 距離算出部
110 判断部
111 制御部
112 終了判断部
113 出力部
1041 第一音声受付手段
1042 第二音声受付手段
Claims (5)
- 確率モデルである音響モデルを格納している音響モデル格納部と、
第一の音声から構成された特徴ベクトルについての情報である第一特徴ベクトル情報を格納している第一特徴ベクトル情報格納部と、
モデルの構造に関する情報であるモデル構造情報を格納しているモデル構造情報格納部と、
第二の音声を受け付ける音声受付部と、
前記音響モデルに基づいて、前記第二の音声から特徴ベクトルについての情報である第二特徴ベクトル情報を2以上取得する特徴ベクトル情報取得部と、
前記音響モデルと、少なくとも前記第一特徴ベクトルを含む評価対象の2以上の特徴ベクトル情報に基づいて、モデルパラメータを算出するモデルパラメータ算出部と、
前記特徴ベクトル情報取得部が取得した2以上の第二特徴ベクトル情報と、前記モデル構造情報と前記モデルパラメータを有するモデルとの距離を、前記第二特徴ベクトル情報ごとに算出する距離算出部と、
前記距離算出部が算出した距離に基づいて、前記特徴ベクトル情報取得部が取得した2以上の第二特徴ベクトル情報ごとに、当該第二特徴ベクトル情報が正常データであるか異常データであるかを判断する判断部と、
前記判断部が最近の処理において正常データであると判断した第二特徴ベクトル情報、および前記第一特徴ベクトル情報を評価対象の特徴ベクトル情報として、前記モデルパラメータ算出部にモデルパラメータの算出を指示し、かつ前記距離算出部、および前記判断部に、前記各部の前記所定の動作を行うように指示する制御部と、
前記制御部の指示による繰り返し動作を終了するか否かを判断する終了判断部と、
前記終了判断部が繰り返し動作を終了すると判断した場合、前記モデルパラメータ算出部が最後に算出したモデルパラメータを出力する出力部を具備する音響モデル生成装置。 - 前記モデル構造情報は、HMM状態を示す情報であり、
前記判断部が正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトルである請求項1記載の音響モデル生成装置。 - 前記モデル構造情報は、HMM状態を示す情報であり、
前記判断部が正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトル時系列である請求項1記載の音響モデル生成装置。 - 前記モデル構造情報は、音素HMMを示す情報であり、
前記判断部が正常データであるか異常データであるかを判断する対象の第二特徴ベクトル情報は、特徴ベクトル時系列である請求項1記載の音響モデル生成装置。 - 記憶媒体に、
確率モデルである音響モデルと、第一の音声から構成された特徴ベクトルについての情報である第一特徴ベクトル情報と、モデルの構造に関する情報であるモデル構造情報とを格納しており、
コンピュータに、
第二の音声を受け付ける音声受付ステップと、
前記音響モデルに基づいて、前記第二の音声から特徴ベクトルについての情報である第二特徴ベクトル情報を2以上取得する特徴ベクトル情報取得ステップと、
前記特徴ベクトル情報取得ステップで取得した2以上の第二特徴ベクトル情報と、前記モデル構造情報と前記モデルパラメータを有するモデルとの距離を、前記第二特徴ベクトル情報ごとに算出する距離算出ステップと、
前記距離算出ステップで算出した距離に基づいて、前記特徴ベクトル情報取得ステップで取得した2以上の第二特徴ベクトル情報ごとに、当該第二特徴ベクトル情報が正常データであるか異常データであるかを判断する判断ステップと、
前記判断ステップで最近の処理において正常データであると判断した第二特徴ベクトル情報、および前記第一特徴ベクトル情報を評価対象の特徴ベクトル情報として、前記モデルパラメータ算出ステップ、前記距離算出ステップ、および前記判断ステップを繰り返し、
前記繰り返しの動作を終了するか否かを判断する終了判断ステップと、
前記終了判断ステップで繰り返しの動作を終了すると判断した場合、前記モデルパラメータ算出ステップで最後に算出したモデルパラメータを出力する出力ステップを実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005254424A JP4654452B2 (ja) | 2005-09-02 | 2005-09-02 | 音響モデル生成装置、およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2005254424A JP4654452B2 (ja) | 2005-09-02 | 2005-09-02 | 音響モデル生成装置、およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2007065533A JP2007065533A (ja) | 2007-03-15 |
JP4654452B2 true JP4654452B2 (ja) | 2011-03-23 |
Family
ID=37927776
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2005254424A Active JP4654452B2 (ja) | 2005-09-02 | 2005-09-02 | 音響モデル生成装置、およびプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4654452B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6000094B2 (ja) * | 2012-12-03 | 2016-09-28 | 日本電信電話株式会社 | 話者適応化装置、話者適応化方法、プログラム |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352993A (ja) * | 1999-06-14 | 2000-12-19 | Oki Electric Ind Co Ltd | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 |
JP2001083986A (ja) * | 1999-09-16 | 2001-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 統計モデル作成方法 |
JP2004334024A (ja) * | 2003-05-09 | 2004-11-25 | Asahi Kasei Corp | 標準パターン作成方法、作成装置及び作成プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0612090A (ja) * | 1992-06-26 | 1994-01-21 | Nec Corp | 音声学習方式 |
JPH0962647A (ja) * | 1995-08-24 | 1997-03-07 | Hitachi Ltd | 確率モデルの学習方法 |
-
2005
- 2005-09-02 JP JP2005254424A patent/JP4654452B2/ja active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000352993A (ja) * | 1999-06-14 | 2000-12-19 | Oki Electric Ind Co Ltd | 音声認識システム及びヒドン・マルコフ・モデルの学習方法 |
JP2001083986A (ja) * | 1999-09-16 | 2001-03-30 | Nippon Telegr & Teleph Corp <Ntt> | 統計モデル作成方法 |
JP2004334024A (ja) * | 2003-05-09 | 2004-11-25 | Asahi Kasei Corp | 標準パターン作成方法、作成装置及び作成プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP2007065533A (ja) | 2007-03-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR100612840B1 (ko) | 모델 변이 기반의 화자 클러스터링 방법, 화자 적응 방법및 이들을 이용한 음성 인식 장치 | |
JP5326892B2 (ja) | 情報処理装置、プログラム、および音響モデルを生成する方法 | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
US7761296B1 (en) | System and method for rescoring N-best hypotheses of an automatic speech recognition system | |
US6029124A (en) | Sequential, nonparametric speech recognition and speaker identification | |
Welling et al. | Speaker adaptive modeling by vocal tract normalization | |
KR101153078B1 (ko) | 음성 분류 및 음성 인식을 위한 은닉 조건부 랜덤 필드모델 | |
JP5229478B2 (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
US8386254B2 (en) | Multi-class constrained maximum likelihood linear regression | |
EP1465154B1 (en) | Method of speech recognition using variational inference with switching state space models | |
US7505950B2 (en) | Soft alignment based on a probability of time alignment | |
JP2009086581A (ja) | 音声認識の話者モデルを作成する装置およびプログラム | |
WO2015025788A1 (ja) | 定量的f0パターン生成装置及び方法、並びにf0パターン生成のためのモデル学習装置及び方法 | |
JP4654452B2 (ja) | 音響モデル生成装置、およびプログラム | |
JP3403838B2 (ja) | 句境界確率計算装置および句境界確率利用連続音声認識装置 | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP3216565B2 (ja) | 音声モデルの話者適応化方法及びその方法を用いた音声認識方法及びその方法を記録した記録媒体 | |
JP2005156593A (ja) | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 | |
JP4798606B2 (ja) | 音声認識装置、およびプログラム | |
JP4962930B2 (ja) | 発音評定装置、およびプログラム | |
Herbig et al. | Simultaneous speech recognition and speaker identification | |
JP2001255887A (ja) | 音声認識装置、音声認識方法及び音声認識方法を記録した媒体 | |
JP2005091504A (ja) | 音声認識装置 | |
JP2976795B2 (ja) | 話者適応化方式 | |
JP5066668B2 (ja) | 音声認識装置、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080402 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20100906 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101005 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101026 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20101116 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20101203 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140107 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4654452 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |