JP4405542B2 - 音素モデルをクラスタリングする装置、方法およびプログラム - Google Patents
音素モデルをクラスタリングする装置、方法およびプログラム Download PDFInfo
- Publication number
- JP4405542B2 JP4405542B2 JP2007276236A JP2007276236A JP4405542B2 JP 4405542 B2 JP4405542 B2 JP 4405542B2 JP 2007276236 A JP2007276236 A JP 2007276236A JP 2007276236 A JP2007276236 A JP 2007276236A JP 4405542 B2 JP4405542 B2 JP 4405542B2
- Authority
- JP
- Japan
- Prior art keywords
- candidate
- node
- phoneme
- child
- unit
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims description 61
- 238000012217 deletion Methods 0.000 claims description 26
- 230000037430 deletion Effects 0.000 claims description 26
- 238000004364 calculation method Methods 0.000 claims description 18
- 230000007704 transition Effects 0.000 claims description 6
- 230000006870 function Effects 0.000 claims description 5
- 238000000638 solvent extraction Methods 0.000 abstract 1
- 230000008569 process Effects 0.000 description 28
- 238000010586 diagram Methods 0.000 description 19
- 238000012545 processing Methods 0.000 description 15
- 230000003044 adaptive effect Effects 0.000 description 11
- 230000011218 segmentation Effects 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000004891 communication Methods 0.000 description 2
- 238000003066 decision tree Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 239000011159 matrix material Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000011158 quantitative evaluation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
- G10L2015/025—Phonemes, fenemes or fenones being the recognition units
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
- G10L2015/0631—Creating reference templates; Clustering
Landscapes
- Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Description
第1の実施の形態にかかるクラスタリング装置は、学習用の音声データが少量しか利用できない任意の音素モデルに対して、学習用の音声データが大量に利用できる1つ以上の音素モデルが必ず同じクラスタに属するという制約を満たすように音素モデルをクラスタリングするものである。
(1)候補生成部112で生成された分割候補が0個である場合。すなわち、その時点で子ノードを持たない全てのノードが、ただ1つの音素モデルしか含まない場合。
(2)候補削除部113が、生成された分割候補を全て削除した場合。
(3)候補選択部115が選択した最良分割候補に含まれる2つの子集合の相互類似度の和と、最良分割候補の生成元であるノードに含まれる音素モデルの集合の相互類似度との差分を算出し、その差分が予め定められた閾値を下回る場合。
(4)ノード生成部116が新たに子ノードを生成した時点で、ツリー構造全体での子ノードを持たないノードの個数を算出し、算出した個数が予め定められた閾値を超えた場合。
これまでは、候補生成部112が、質問リストを用いて音素モデルの集合を分割する例について説明した。分割候補の生成方法はこれに限られず、例えば、与えられた音素モデルの集合を分割しうるすべての分割パターンで分割する方法(以下、任意分割による分割候補の生成方法という)を用いてもよい。
タイ語をはじめとする東南アジア系の言語では、その言語の全ての音素モデルについて、学習用の音声データが少量しか利用できない場合がある。一方、中国語や、英語をはじめとする欧米系の言語では、その言語の全ての音素モデルについて、学習用の音声データが比較的大量に利用できる。
学習用の音声データが大量に利用できる音素モデルは、クラスタリングによって類似する音素モデルを求め、適応学習を実行する必要がない。したがって、ツリー構造の生成の過程で、学習用の音声データが大量に利用できる音素モデルのみから構成される音素モデルの集合を含むノードが生成された場合、当該ノードからは分割候補をそれ以上生成する必要はない。そこで、第3の実施の形態にかかるクラスタリング装置は、判定タグが付与された音素モデルを1つ以上含むノードのみを対象として分割候補を生成するものである。
52 ROM
53 RAM
54 通信I/F
61 バス
100 クラスタリング装置
101 入力部
110 ツリー生成部
111 ノード初期化部
112 候補生成部
113 候補削除部
114 類似度算出部
115 候補選択部
116 ノード生成部
120 クラスタリング部
130 記憶部
1400 クラスタリング装置
1401 入力部
1410 ツリー生成部
1413 候補削除部
1500 クラスタリング装置
1510 ツリー生成部
1512 候補生成部
Claims (6)
- 学習用の音声データが少ないことを表す判定情報が付与された音素モデルおよび前記判定情報が付与されていない音素モデルをそれぞれ少なくとも1つ入力する入力部と、
ツリー構造のルートノードとして、入力された音素モデルを含むノードを生成するノード初期化部と、
ツリー構造のノードのうち子ノードを有さないノードに対して、ノードに含まれる音素モデルの集合を2つに分割して得られる2つの子集合の組の候補を生成する候補生成部と、
前記候補のうち、前記候補に含まれる2つの前記子集合の少なくとも一方が、前記判定情報が付与された音素モデルのみを含む前記候補を削除する候補削除部と、
削除された前記候補以外の前記候補それぞれに対して、前記候補に含まれる2つの前記子集合ごとに前記子集合に含まれる前記音素モデル間の類似度を算出し、各子集合で算出した類似度の和を算出する類似度算出部と、
算出した和が最大となる前記候補を選択する候補選択部と、
選択した前記候補の生成元であるノードの子ノードとして、選択した前記候補に含まれる2つの子集合それぞれを含む2つのノードを生成するノード生成部と、
前記ツリー構造のノードに含まれる音素モデルの集合を単位として音素モデルをクラスタリングするクラスタリング部と、
を備えたことを特徴とするクラスタリング装置。 - 前記入力部は、前記音声データが少ない言語であることを表す言語判定情報が前記判定情報として付与された音素モデルおよび前記言語判定情報が付与されていない音素モデルをそれぞれ少なくとも1つ入力し、
前記候補削除部は、前記候補のうち、前記候補に含まれる2つの前記子集合の少なくとも一方が、前記言語判定情報が付与された音素モデルのみを含む前記候補を削除すること、
を特徴とする請求項1に記載のクラスタリング装置。 - 前記候補生成部は、ツリー構造のノードのうち、子ノードを有さず、かつ、前記判定情報が付与された音素モデルを含むノードに対して前記候補を生成すること、
を特徴とする請求項1に記載のクラスタリング装置。 - 前記音素モデルは、音素の音響的特徴の遷移関係をモデル化したHMM(Hidden Markov Model)の各状態であること、
を特徴とする請求項1に記載のクラスタリング装置。 - 入力部が、学習用の音声データが少ないことを表す判定情報が付与された音素モデルおよび前記判定情報が付与されていない音素モデルをそれぞれ少なくとも1つ入力する入力ステップと、
ノード初期化部が、ツリー構造のルートノードとして、入力された音素モデルを含むノードを生成するノード初期化ステップと、
候補生成部が、ツリー構造のノードのうち子ノードを有さないノードに対して、ノードに含まれる音素モデルの集合を2つに分割して得られる2つの子集合の組の候補を生成する候補生成ステップと、
候補削除部が、前記候補のうち、前記候補に含まれる2つの前記子集合の少なくとも一方が、前記判定情報が付与された音素モデルのみを含む前記候補を削除する候補削除ステップと、
類似度算出部が、削除された前記候補以外の前記候補それぞれに対して、前記候補に含まれる2つの前記子集合ごとに前記子集合に含まれる前記音素モデル間の類似度を算出し、各子集合で算出した類似度の和を算出する類似度算出ステップと、
候補選択部が、算出した和が最大となる前記候補を選択する候補選択ステップと、
ノード生成部が、選択した前記候補の生成元であるノードの子ノードとして、選択した前記候補に含まれる2つの子集合それぞれを含む2つのノードを生成するノード生成ステップと、
クラスタリング部が、前記ツリー構造のノードに含まれる音素モデルの集合を単位として音素モデルをクラスタリングするクラスタリングステップと、
を備えたことを特徴とするクラスタリング方法。 - コンピュータを、
学習用の音声データが少ないことを表す判定情報が付与された音素モデルおよび前記判定情報が付与されていない音素モデルをそれぞれ少なくとも1つ入力する入力部と、
ツリー構造のルートノードとして、入力された音素モデルを含むノードを生成するノード初期化部と、
ツリー構造のノードのうち子ノードを有さないノードに対して、ノードに含まれる音素モデルの集合を2つに分割して得られる2つの子集合の組の候補を生成する候補生成部と、
前記候補のうち、前記候補に含まれる2つの前記子集合の少なくとも一方が、前記判定情報が付与された音素モデルのみを含む前記候補を削除する候補削除部と、
削除された前記候補以外の前記候補それぞれに対して、前記候補に含まれる2つの前記子集合ごとに前記子集合に含まれる前記音素モデル間の類似度を算出し、各子集合で算出した類似度の和を算出する類似度算出部と、
算出した和が最大となる前記候補を選択する候補選択部と、
選択した前記候補の生成元であるノードの子ノードとして、選択した前記候補に含まれる2つの子集合それぞれを含む2つのノードを生成するノード生成部と、
前記ツリー構造のノードに含まれる音素モデルの集合を単位として音素モデルをクラスタリングするクラスタリング部と、
として機能させるためのクラスタリングプログラム。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007276236A JP4405542B2 (ja) | 2007-10-24 | 2007-10-24 | 音素モデルをクラスタリングする装置、方法およびプログラム |
US12/234,729 US8112277B2 (en) | 2007-10-24 | 2008-09-22 | Apparatus, method, and program for clustering phonemic models |
CNA2008101749229A CN101419798A (zh) | 2007-10-24 | 2008-10-24 | 用于簇集音素模型的装置、方法和程序 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007276236A JP4405542B2 (ja) | 2007-10-24 | 2007-10-24 | 音素モデルをクラスタリングする装置、方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009103962A JP2009103962A (ja) | 2009-05-14 |
JP4405542B2 true JP4405542B2 (ja) | 2010-01-27 |
Family
ID=40630563
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007276236A Expired - Fee Related JP4405542B2 (ja) | 2007-10-24 | 2007-10-24 | 音素モデルをクラスタリングする装置、方法およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (1) | US8112277B2 (ja) |
JP (1) | JP4405542B2 (ja) |
CN (1) | CN101419798A (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4528839B2 (ja) * | 2008-02-29 | 2010-08-25 | 株式会社東芝 | 音素モデルクラスタリング装置、方法及びプログラム |
JP6495850B2 (ja) * | 2016-03-14 | 2019-04-03 | 株式会社東芝 | 情報処理装置、情報処理方法、プログラムおよび認識システム |
TWI610294B (zh) * | 2016-12-13 | 2018-01-01 | 財團法人工業技術研究院 | 語音辨識系統及其方法、詞彙建立方法與電腦程式產品 |
Family Cites Families (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4852173A (en) * | 1987-10-29 | 1989-07-25 | International Business Machines Corporation | Design and construction of a binary-tree system for language modelling |
US5794197A (en) * | 1994-01-21 | 1998-08-11 | Micrsoft Corporation | Senone tree representation and evaluation |
JPH09198080A (ja) | 1996-01-12 | 1997-07-31 | Toshiba Corp | 音声認識装置、音声認識に用いられる特徴ベクトルの作成方法及び音声認識方法 |
US6163769A (en) * | 1997-10-02 | 2000-12-19 | Microsoft Corporation | Text-to-speech using clustered context-dependent phoneme-based units |
US6317712B1 (en) * | 1998-02-03 | 2001-11-13 | Texas Instruments Incorporated | Method of phonetic modeling using acoustic decision tree |
US6374222B1 (en) * | 1998-08-12 | 2002-04-16 | Texas Instruments Incorporated | Method of memory management in speech recognition |
WO2000054254A1 (de) * | 1999-03-08 | 2000-09-14 | Siemens Aktiengesellschaft | Verfahren und anordnung zur bestimmung eines repräsentativen lautes |
US6711541B1 (en) * | 1999-09-07 | 2004-03-23 | Matsushita Electric Industrial Co., Ltd. | Technique for developing discriminative sound units for speech recognition and allophone modeling |
JP3547349B2 (ja) | 1999-09-28 | 2004-07-28 | Kddi株式会社 | 音響モデル学習方法 |
JP3964722B2 (ja) | 2002-04-16 | 2007-08-22 | 日本電信電話株式会社 | 隠れマルコフモデル作成装置、方法、プログラム、記録媒体および音声認識装置、方法、プログラム、記録媒体 |
US7788096B2 (en) * | 2002-09-03 | 2010-08-31 | Microsoft Corporation | Method and apparatus for generating decision tree questions for speech processing |
JP3920749B2 (ja) | 2002-09-24 | 2007-05-30 | 日本電信電話株式会社 | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 |
US7292977B2 (en) * | 2002-10-17 | 2007-11-06 | Bbnt Solutions Llc | Systems and methods for providing online fast speaker adaptation in speech recognition |
JP4528839B2 (ja) | 2008-02-29 | 2010-08-25 | 株式会社東芝 | 音素モデルクラスタリング装置、方法及びプログラム |
-
2007
- 2007-10-24 JP JP2007276236A patent/JP4405542B2/ja not_active Expired - Fee Related
-
2008
- 2008-09-22 US US12/234,729 patent/US8112277B2/en not_active Expired - Fee Related
- 2008-10-24 CN CNA2008101749229A patent/CN101419798A/zh active Pending
Also Published As
Publication number | Publication date |
---|---|
US8112277B2 (en) | 2012-02-07 |
US20090177472A1 (en) | 2009-07-09 |
CN101419798A (zh) | 2009-04-29 |
JP2009103962A (ja) | 2009-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10373610B2 (en) | Systems and methods for automatic unit selection and target decomposition for sequence labelling | |
KR102540774B1 (ko) | 서브워드 임베딩 및 스킵서트 기반 문장 임베딩 방법 및 장치 | |
US9058811B2 (en) | Speech synthesis with fuzzy heteronym prediction using decision trees | |
JP5777178B2 (ja) | 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム | |
JP4215418B2 (ja) | 単語予測方法、音声認識方法、その方法を用いた音声認識装置及びプログラム | |
CN110264991A (zh) | 语音合成模型的训练方法、语音合成方法、装置、设备及存储介质 | |
JP6772213B2 (ja) | 質問応答装置、質問応答方法及びプログラム | |
JP2005258439A (ja) | 文字から音声への変換のための相互情報量基準を用いた大きな文字音素単位の生成 | |
KR20200123544A (ko) | 동의어 추출 방법 | |
JP2015230570A (ja) | 学習モデル作成装置、判定システムおよび学習モデル作成方法 | |
JP2019159654A (ja) | 時系列情報の学習システム、方法およびニューラルネットワークモデル | |
US20130138441A1 (en) | Method and system for generating search network for voice recognition | |
WO2014073206A1 (ja) | 情報処理装置、及び、情報処理方法 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
KR20240089276A (ko) | 다중 언어 자동 스피치 인식을 위한 공동 비지도 및 지도 트레이닝 | |
JP2019204214A (ja) | 学習装置、学習方法、プログラム及び推定装置 | |
KR101929509B1 (ko) | 형태소 합성 장치 및 방법 | |
JP4405542B2 (ja) | 音素モデルをクラスタリングする装置、方法およびプログラム | |
JP2020118929A (ja) | 要約生成装置、方法、プログラム、及び記憶媒体 | |
US20090222266A1 (en) | Apparatus, method, and recording medium for clustering phoneme models | |
JP2015084047A (ja) | 文集合作成装置、文集合作成方法および文集合作成プログラム | |
JP7445089B2 (ja) | シーケンスレベルの放出正則化を用いた高速放出低遅延のストリーミングasr | |
JP6558856B2 (ja) | 形態素解析装置、モデル学習装置、及びプログラム | |
JP3950957B2 (ja) | 言語処理装置および方法 | |
KR20180118906A (ko) | 형태소 분석 장치 및 방법 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20090925 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20091006 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20091104 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121113 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20121113 Year of fee payment: 3 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20131113 Year of fee payment: 4 |
|
LAPS | Cancellation because of no payment of annual fees |