JP2008058679A - 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム - Google Patents
音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム Download PDFInfo
- Publication number
- JP2008058679A JP2008058679A JP2006236286A JP2006236286A JP2008058679A JP 2008058679 A JP2008058679 A JP 2008058679A JP 2006236286 A JP2006236286 A JP 2006236286A JP 2006236286 A JP2006236286 A JP 2006236286A JP 2008058679 A JP2008058679 A JP 2008058679A
- Authority
- JP
- Japan
- Prior art keywords
- speech
- acoustic model
- phoneme
- learning
- statistic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000009826 distribution Methods 0.000 claims abstract description 9
- 238000006467 substitution reaction Methods 0.000 claims description 13
- 238000004364 calculation method Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 9
- 230000001419 dependent effect Effects 0.000 description 7
- 230000006978 adaptation Effects 0.000 description 5
- 238000003860 storage Methods 0.000 description 4
- 238000010845 search algorithm Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000007796 conventional method Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
Images
Abstract
【解決手段】音響モデル作成装置1は、参照する音声である参照音声に含まれる各音素で観測される特徴量の確率密度分布を用いた参照音響モデルを使用し、当該参照音声とは異なる学習音声について、当該参照音響モデルと共通の音素環境共有構造を有する音響モデルを作成するものであって、参照音響モデル取得手段3と、学習音声取得手段5と、学習音声統計量パラメータ算出手段7と、学習音声統計量パラメータ代入手段9と、モデル作成手段11と、を備える。
【選択図】図1
Description
以下に、話者別の音素環境依存音響モデル(単に、音響モデルともいう)を例にして、当該音響モデルが話者別に複数作成される場合の問題点を説明する。
(2)不特定話者用の音響モデルを話者別の蓄積音声で適応化する(MAP推定、例えば、非特許文献5、MLLR、例えば、非特許文献6)。
Steve Young et al.,"Tree-Based Clustering",HTK books,Sec.10.5,pp.150. H.Ney,et al."Improvement in Beam Search for 10000-word Continuous Speech Recognition,"ICASSP’92 pp.9-12,1992.3 佐藤他 "2段階クラスタリングに基づく選択学習による音響モデル適応化"、電子情報通信学会論文誌D−II、Vol.85−D−II No.2、pp174−183、2002.2 Steve Young et al.,"HMM Parameter Estimation",HTK book,Chap.8,pp.114. Steve Young et al.,"Model Adaptation using MAP",HTK book,Sec.9.3,pp.139. Steve Young et al.,"Linear Transformation Estimation Formulae",HTK book,Sec9.4,pp.140.
かかる構成によれば、音声認識装置は、音響モデル作成装置で作成された音響モデルを採用しているので、話者に適応した音声認識結果を出力することができる。
(音響モデル作成装置の構成)
図1は、音響モデル作成装置のブロック図である。この図1に示すように、音響モデル作成装置1は、予め蓄積されている参照音声から求められた参照音響モデルを用い、任意の話者が発声した学習音声から音響モデルを作成するもので、参照音響モデル取得手段3と、学習音声取得手段5と、学習音声統計量パラメータ算出手段7と、学習音声統計量パラメータ代入手段9と、モデル作成手段11と、を備えている。
次に、図5に示すフローチャートを参照して、音響モデル作成装置の動作を説明する(適宜、図1参照)。
まず、音響モデル作成装置1は、参照音響モデル取得手段3によって、参照音響モデルを取得する(ステップS1)。また、音響モデル作成装置1は、音響モデルを作成する対象となる話者が発声した学習音声を、学習音声取得手段5によって取得する(ステップS2)。
3 参照音響モデル取得手段
5 学習音声取得手段
7 学習音声統計量パラメータ算出手段
9 学習音声統計量パラメータ代入手段
11 モデル作成手段
13 音声認識手段
Claims (3)
- 参照する音声である参照音声に含まれる各音素で観測される特徴量の確率密度分布を用いた参照音響モデルを使用し、当該参照音声とは異なる学習音声について、当該参照音響モデルと共通の音素環境共有構造を有する音響モデルを作成する音響モデル作成装置であって、
前記参照音響モデルを取得する参照音響モデル取得手段と、
前記学習音声を取得する学習音声取得手段と、
この学習音声取得手段で取得した学習音声について、前記音響モデルにおいて前記各音素の前後に連続する連続音素に従って前記各音素の音素環境を分類した音素環境分類木のノードに対応付けられる当該学習音声の音素サンプルから統計量パラメータを算出する学習音声統計量パラメータ算出手段と、
前記参照音響モデルにおいて前記各音素の前後に連続する連続音素に従って前記各音素の音素環境を分類した音素環境分類木のノードの中の最上位のルートノードと、このルートノードから下位へと分岐する複数のリーフノードとについて、当該リーフノードに対応付けられる統計量として、前記学習音声統計量パラメータ算出手段で算出した統計量パラメータを代入する学習音声統計量パラメータ代入手段と、
この学習音声統計量パラメータ代入手段で各リーフノードに対応付けられる統計量として代入した統計量パラメータについて、前記音素サンプルのサンプル数から得られた信頼度が、予め定義した基準値を満たさない場合に、当該リーフノードよりも上位のリーフノードに対応付けられる統計量パラメータを用いて新たな統計量パラメータを算出し、前記音響モデルを作成するモデル作成手段と、
を備えることを特徴とする音響モデル作成装置。 - 請求項1に記載の音響モデル作成装置で作成された音響モデルを採用した音声認識手段を備えることを特徴とする音声認識装置。
- 参照する音声である参照音声に含まれる各音素で観測される特徴量の確率密度分布を用いた参照音響モデルを使用し、当該参照音声とは異なる学習音声について、当該参照音響モデルと共通の音素環境共有構造を有する音響モデルを作成するために、コンピュータを、
前記参照音響モデルを取得する参照音響モデル取得手段、
前記学習音声を取得する学習音声取得手段、
この学習音声取得手段で取得した学習音声について、前記音響モデルにおいて前記各音素の前後に連続する連続音素に従って前記各音素の音素環境を分類した音素環境分類木のノードに対応付けられる当該学習音声の音素サンプルから統計量パラメータを算出する学習音声統計量パラメータ算出手段、
前記参照音響モデルにおいて前記各音素の前後に連続する連続音素に従って前記各音素の音素環境を分類した音素環境分類木のノードの中の最上位のルートノードと、このルートノードから下位へと分岐する複数のリーフノードとについて、当該リーフノードに対応付けられる統計量として、前記学習音声統計量パラメータ算出手段で算出した統計量パラメータを代入する学習音声統計量パラメータ代入手段、
この学習音声統計量パラメータ代入手段で各リーフノードに対応付けられる統計量として代入した統計量パラメータについて、前記音素サンプルのサンプル数から得られた信頼度が、予め定義した基準値を満たさない場合に、当該リーフノードよりも上位のリーフノードに対応付けられる統計量パラメータを用いて新たな統計量パラメータを算出し、前記音響モデルを作成するモデル作成手段、
として機能させることを特徴とする音響モデル作成プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006236286A JP4705535B2 (ja) | 2006-08-31 | 2006-08-31 | 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2006236286A JP4705535B2 (ja) | 2006-08-31 | 2006-08-31 | 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2008058679A true JP2008058679A (ja) | 2008-03-13 |
JP4705535B2 JP4705535B2 (ja) | 2011-06-22 |
Family
ID=39241468
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2006236286A Active JP4705535B2 (ja) | 2006-08-31 | 2006-08-31 | 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4705535B2 (ja) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011180596A (ja) * | 2010-03-02 | 2011-09-15 | Toshiba Corp | 音声プロセッサ、音声処理方法および音声プロセッサの学習方法 |
JPWO2014061230A1 (ja) * | 2012-10-16 | 2016-09-05 | 日本電気株式会社 | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001013986A (ja) * | 1999-06-29 | 2001-01-19 | Nec Corp | 音声認識用音響モデルの話者適応装置及び方法 |
-
2006
- 2006-08-31 JP JP2006236286A patent/JP4705535B2/ja active Active
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2001013986A (ja) * | 1999-06-29 | 2001-01-19 | Nec Corp | 音声認識用音響モデルの話者適応装置及び方法 |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011180596A (ja) * | 2010-03-02 | 2011-09-15 | Toshiba Corp | 音声プロセッサ、音声処理方法および音声プロセッサの学習方法 |
US9043213B2 (en) | 2010-03-02 | 2015-05-26 | Kabushiki Kaisha Toshiba | Speech recognition and synthesis utilizing context dependent acoustic models containing decision trees |
JPWO2014061230A1 (ja) * | 2012-10-16 | 2016-09-05 | 日本電気株式会社 | 韻律モデル学習装置、韻律モデル学習方法、音声合成システム、および韻律モデル学習プログラム |
Also Published As
Publication number | Publication date |
---|---|
JP4705535B2 (ja) | 2011-06-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5768093B2 (ja) | 音声処理システム | |
CN106683677B (zh) | 语音识别方法及装置 | |
US10249294B2 (en) | Speech recognition system and method | |
JP3948747B2 (ja) | ツリー構成確率密度に基づくパターン認識の方法及びシステム | |
JP4195428B2 (ja) | 多数の音声特徴を利用する音声認識 | |
US8731926B2 (en) | Spoken term detection apparatus, method, program, and storage medium | |
Huijbregts et al. | Unsupervised acoustic sub-word unit detection for query-by-example spoken term detection | |
US8494853B1 (en) | Methods and systems for providing speech recognition systems based on speech recordings logs | |
Huijbregts | Segmentation, diarization and speech transcription: surprise data unraveled | |
Chen et al. | Strategies for Vietnamese keyword search | |
JP2007047818A (ja) | 最適化された部分的確率混合共通化を用いる音声認識のための方法および装置 | |
PT1564722E (pt) | Identificação automática de autores de chamadas telefónicas com base em características vocais | |
WO2018192186A1 (zh) | 语音识别方法及装置 | |
US20070118353A1 (en) | Device, method, and medium for establishing language model | |
Bhati et al. | Unsupervised Speech Signal to Symbol Transformation for Zero Resource Speech Applications. | |
Moyal et al. | Phonetic search methods for large speech databases | |
Sharma et al. | Speech recognition in Kannada using HTK and julius: a comparative study | |
KR101483947B1 (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
KR101424496B1 (ko) | 음향 모델 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
Zhou et al. | Extracting unit embeddings using sequence-to-sequence acoustic models for unit selection speech synthesis | |
JP4705535B2 (ja) | 音響モデル作成装置及び音声認識装置並びに音響モデル作成プログラム | |
JP6220733B2 (ja) | 音声分類装置、音声分類方法、プログラム | |
Manjunath et al. | Articulatory and excitation source features for speech recognition in read, extempore and conversation modes | |
Chung et al. | Unsupervised discovery of structured acoustic tokens with applications to spoken term detection | |
Norouzian et al. | An approach for efficient open vocabulary spoken term detection |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20081029 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20101119 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101130 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101227 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110215 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110311 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4705535 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |