JP6625961B2 - 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム - Google Patents
発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム Download PDFInfo
- Publication number
- JP6625961B2 JP6625961B2 JP2016239050A JP2016239050A JP6625961B2 JP 6625961 B2 JP6625961 B2 JP 6625961B2 JP 2016239050 A JP2016239050 A JP 2016239050A JP 2016239050 A JP2016239050 A JP 2016239050A JP 6625961 B2 JP6625961 B2 JP 6625961B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- pronunciation
- pronunciation dictionary
- cluster
- learning
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Electrically Operated Instructional Devices (AREA)
- Machine Translation (AREA)
Description
発音辞書及び音響モデル生成装置1は、図1に示すように、データクラスタリング部11、更新部12及び統合部13を例えば備えている。
データクラスタリング部11は、学習データをスキルレベルに基づいてクラスタリングすることにより、N個の学習クラスタi(i=1,…,N)を生成する(ステップS11)。生成されたN個の学習クラスタiは、更新部12に出力される。Nは、所定の正の整数(例えば、6から10等の整数〜10等)である。
更新部12は、発音獲得部121及び音響モデル学習部122を備えている。更新部12は、以下に説明する発音獲得部121及び音響モデル学習部122の処理を繰り返すことにより、クラスタ発音辞書i及びクラスタ音響モデルiを更新する処理を、i=1,…,Nのそれぞれについて行う。更新は、例えば所定の回数だけ行われる。所定の回数は例えば10回である。更新は、クラスタ発音辞書i及びクラスタ音響モデルiが所定の範囲内に収束するまで行われてもよい。また、所定の回数という閾値と併用して、獲得される発音が変化しなくなる収束段階で止めても構わない。
最終的に更新されたクラスタ発音辞書i及びクラスタ音響モデルiは、統合部13に出力される。
統合部13は、更新されたクラスタ発音辞書i及びクラスタ音響モデルiを統合することにより、統合発音辞書及び統合音響モデルを生成する(ステップS13)。生成された統合発音辞書及び統合音響モデルは、音声認識装置2の記憶部21に記憶される。
音声認識装置2は、記憶部21及び音声認識部22を例えば備えている。音声認識方法は、音声認識部22がステップS21の処理を行うことにより実現される。
記憶部21には、発音辞書及び音響モデル生成装置1により生成された統合発音辞書及び統合音響モデルが記憶されている。
音声認識部22は、記憶部21から読み込んだ統合された発音辞書及び統合音響モデルを用いて、入力された音声データについての音声認識を行うことにより、入力音声をテキストに変換する(ステップS21)。
データクラスタリング部11は、各学習データが、予め定められた各スキルレベルに対応する発話誤りパタンのどれに尤も当てはまるかに基づいて、その各学習データのスキルレベルを推定し、その推定されたスキルレベルに基づいてクラスタリング処理を行ってもよい。
更新部12は、スキルレベル毎の学習データiの量を減らしてもよい。これにより、学習時間を減らすことができる。
データクラスタリング部11は、学習データのスキルレベルを母国語の音響モデルと非母国語の音響モデルのどちらに近いかで判定し、その判定されたされたスキルレベルに基づいて学習データのクラスタリング処理を行ってもよい。
発音獲得部121による1回目の処理を行う場合に用いる、予め定められた音響モデルであるベース音響モデルは、母国語モデルを元モデルとして構築されたものであってもよい。例えば、ベースとなる音響モデルを母国語モデルとし、非母国語考慮音素変換テーブルを用意して、母国語辞書の音素情報を非母国語に変換することにより、構築された音響モデルをベース音響モデルとする。
発音獲得部121による1回目の処理を行う場合に用いる、予め定められた音響モデルであるベース音響モデルとして、予め定められた母国語音響モデル、予め定められた非母国語音響モデルの両方を用いてもよい。この時の母国語音響モデルは、変形例4と同様音素情報を非母国語に変換したものを用いる。
発音辞書及び音響モデル生成装置1又は音声認識装置2における各処理をコンピュータによって実現する場合、発音辞書及び音響モデル生成装置1又は音声認識装置2が有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、発音辞書及び音響モデル生成装置1又は音声認識装置2の処理がコンピュータ上で実現される。
その他、この発明の趣旨を逸脱しない範囲で適宜変更が可能であることはいうまでもない。
11 データクラスタリング部
12 更新部
121 発音獲得部
122 音響モデル学習部
13 統合部
2 音声認識装置
21 記憶部
22 音声認識部
Claims (5)
- ある言語の非母国語の各話者の音声データ及び対応するテキストデータである学習データには、その各話者のその言語の習得度に応じたスキルレベルが与えられているとして、上記学習データをスキルレベルに基づいてクラスタリングすることにより、N個の学習クラスタi(i=1,…,N)を生成するデータクラスタリング部と、
発音誤り候補パタンのエントリを、所定の発音辞書のエントリに追加することにより追加発音辞書iを生成し、上記学習クラスタiの音声データ及び所定の音響モデルの下で上記学習クラスタiのテキストデータを上記追加発音辞書iの各エントリで変換した読みが尤もらしい上記追加発音辞書iの中のエントリを残すことによりクラスタ発音辞書iを生成する発音獲得部と、上記学習クラスタiのテキストデータを上記クラスタ発音辞書iで変換した読み及び上記学習クラスタiの音声データを用いて音響モデルを学習することによりクラスタ音響モデルiを生成する音響モデル学習部とを含み、上記生成された更新後発音辞書iを上記所定の発音辞書とし、上記クラスタ音響モデルiを上記所定の音響モデルとする上記発音獲得部及び上記モデル学習部の処理を繰り返すことにより、クラスタ発音辞書i及びクラスタ音響モデルiを更新する処理を、i=1,…,Nのそれぞれについて行う更新部と、
上記更新されたクラスタ発音辞書i及びクラスタ音響モデルiを統合することにより、統合発音辞書及び統合音響モデルを生成する統合部と、
を含む発音辞書及び音響モデル生成装置。 - 請求項1の発音辞書及び音響モデル生成装置で生成された上記統合発音辞書及び上記統合音響モデルを用いて、音声認識を行う音声認識部、
を含む音声認識装置。 - データクラスタリング部が、ある言語の各話者の音声データ及び対応するテキストデータである学習データには、その各話者のその言語の習得度に応じたスキルレベルが与えられているとして、上記学習データをスキルレベルに基づいてクラスタリングすることにより、N個の学習クラスタi(i=1,…,N)を生成するデータクラスタリングステップと、
発音獲得部が、発音誤り候補パタンのエントリを、所定の発音辞書のエントリに追加することにより追加発音辞書iを生成し、上記学習クラスタiの音声データ及び所定の音響モデルの下で上記学習クラスタiのテキストデータを上記追加発音辞書iの各エントリで変換した読みが尤もらしい上記追加発音辞書iの中のエントリを残すことにより、クラスタ発音辞書iを生成する発音獲得ステップと、音響モデル学習部が、上記学習クラスタiのテキストデータを上記クラスタ発音辞書iで変換したテキストデータ及び上記学習クラスタiの音声データを用いて音響モデルを学習することによりクラスタ音響モデルiを生成する音響モデル学習ステップとを含み、更新部が、上記生成された更新後発音辞書iを上記所定の発音辞書とし、上記クラスタ音響モデルiを上記所定の音響モデルとする上記発音獲得ステップ及び上記モデル学習ステップの処理を繰り返すことにより、クラスタ発音辞書i及びクラスタ音響モデルiを更新する処理を、i=1,…,Nのそれぞれについて行う更新ステップと、
統合部が、上記更新されたクラスタ発音辞書i及びクラスタ音響モデルiを統合することにより、統合発音辞書及び統合音響モデルを生成する統合ステップと、
を含む発音辞書及び音響モデル生成方法。 - 音声認識部が、請求項1の発音辞書及び音響モデル生成装置で生成された上記統合発音辞書及び上記統合音響モデルを用いて、音声認識を行う音声認識ステップ、
を含む音声認識方法。 - 請求項1の発音辞書及び音響モデル生成装置又は請求項2の音声認識装置の各部としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016239050A JP6625961B2 (ja) | 2016-12-09 | 2016-12-09 | 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016239050A JP6625961B2 (ja) | 2016-12-09 | 2016-12-09 | 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018097045A JP2018097045A (ja) | 2018-06-21 |
JP6625961B2 true JP6625961B2 (ja) | 2019-12-25 |
Family
ID=62632361
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016239050A Active JP6625961B2 (ja) | 2016-12-09 | 2016-12-09 | 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6625961B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102333029B1 (ko) * | 2020-03-03 | 2021-12-01 | 주식회사 셀바스에이아이 | 발음 평가 방법 및 이를 이용한 디바이스 |
-
2016
- 2016-12-09 JP JP2016239050A patent/JP6625961B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2018097045A (ja) | 2018-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113439301B (zh) | 用于机器学习的方法和系统 | |
AU2019347734B2 (en) | Conversational agent pipeline trained on synthetic data | |
JP5413622B2 (ja) | 言語モデル作成装置、言語モデル作成方法、およびプログラム | |
US8731926B2 (en) | Spoken term detection apparatus, method, program, and storage medium | |
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
WO2014183373A1 (en) | Systems and methods for voice identification | |
WO2019065263A1 (ja) | 発音誤り検出装置、発音誤り検出方法、プログラム | |
JP2020154076A (ja) | 推論器、学習方法および学習プログラム | |
CN111462748A (zh) | 语音识别处理方法、装置、电子设备及存储介质 | |
KR20160098910A (ko) | 음성 인식 데이터 베이스 확장 방법 및 장치 | |
JP6625961B2 (ja) | 発音辞書及び音響モデル生成装置、音声認識装置、方法及びプログラム | |
JP2021131514A (ja) | データ生成装置、データ生成方法およびプログラム | |
JP2015060210A (ja) | データ収集装置、音声対話装置、方法およびプログラム | |
WO2019235191A1 (ja) | モデル学習装置、方法及びプログラム | |
JP2013182261A (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP2017191278A (ja) | 音素誤り獲得装置、辞書追加装置、音声認識装置、音素誤り獲得方法、音声認識方法、およびプログラム | |
KR102299269B1 (ko) | 음성 및 스크립트를 정렬하여 음성 데이터베이스를 구축하는 방법 및 장치 | |
JP6879521B1 (ja) | 多言語音声認識およびテーマ−意義素解析方法および装置 | |
JP2015161927A (ja) | 音響モデル生成装置、音響モデルの生産方法、およびプログラム | |
Réveil et al. | Improving proper name recognition by means of automatically learned pronunciation variants | |
JP6997993B2 (ja) | 語学学習支援装置、その方法、およびプログラム | |
JP2014215578A (ja) | 音響モデル選択装置とその方法とプログラム | |
KR102217621B1 (ko) | 사용자 발화의 오류를 교정하는 방법 및 장치 | |
JP6903613B2 (ja) | 音声認識装置、音声認識方法及びプログラム | |
JP4282609B2 (ja) | 基本周波数パターン生成装置、基本周波数パターン生成方法及びプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20181212 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20191114 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191126 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191128 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6625961 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |