JP5161183B2 - 音響モデル適応装置、その方法、プログラム、及び記録媒体 - Google Patents
音響モデル適応装置、その方法、プログラム、及び記録媒体 Download PDFInfo
- Publication number
- JP5161183B2 JP5161183B2 JP2009224140A JP2009224140A JP5161183B2 JP 5161183 B2 JP5161183 B2 JP 5161183B2 JP 2009224140 A JP2009224140 A JP 2009224140A JP 2009224140 A JP2009224140 A JP 2009224140A JP 5161183 B2 JP5161183 B2 JP 5161183B2
- Authority
- JP
- Japan
- Prior art keywords
- adaptation
- adaptation data
- update information
- acoustic model
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
〔参考文献1〕特許第3819896号公報
信頼尺度選択手段103は、適応用データを信頼尺度によって選択する。具体的には、適応用基礎データ記憶手段102から適応用データを順次読み込み、信頼尺度が所定の閾値α以上である適応用データを教師なし適応に用いる第1適応用データとして第1適応用データ記憶手段104に書き込み、信頼尺度が所定の閾値β以上でα未満である適応用データを第4適応用データとして第4適応用データ記憶手段105に書き込む(S1)。なお、信頼尺度が閾値β未満である適応用データは適応に不適切なデータとして除外する。教師なし適応においては、適応用データとして音声認識結果テキストに正解が含まれる割合が多いほど適応の効果が高く、つまり適応音響モデルによる音声認識の認識率が高いため、信頼尺度が相対的に高いもの(第1適応用データ)については、この時点で教師なし適応処理に用いるデータとして抽出する。
〔参考文献2〕特許第3926716号公報
音素環境発話選択手段108は、第4適応用データ記憶手段105に記憶された第4適応用データをひとつずつ参照してそのテキストに含まれる音素環境を抽出し、音素環境リスト記憶手段107に記憶された音素環境リストと対照して、当該音素環境リストに含まれない音素環境が当該テキストに所定の個数γ個以上含まれている場合には当該第4適応用データを第2適応用データとして第2適応用データ記憶手段109に書き込み、γ個未満含まれている場合には当該第4適応用データを第3適応用データとして第3適応用データ記憶手段110に書き込む(S3)。
Claims (4)
- 音声データと当該音声データの音声認識結果として得られた信頼尺度が付されたテキストとからなる複数の適応用データを用いて音響モデルの適応を行う音響モデル適応装置であって、
上記音響モデルを記憶する音響モデル記憶手段と、
予め用意された上記複数の適応用データを記憶する適応用基礎データ記憶手段と、
上記適応用基礎データ記憶手段から適応用データを順次読み込み、上記信頼尺度が所定の閾値α以上である適応用データを第1適応用データとして第1適応用データ記憶手段に書き込み、上記信頼尺度が所定の閾値β以上で上記α未満である適応用データを第4適応用データとして第4適応用データ記憶手段に書き込む信頼尺度選択手段と、
全ての上記第1適応用データを参照し、当該上記第1適応用データのテキストに含まれる全ての音素環境を抽出して音素環境リストを生成し、これを音素環境リスト記憶手段に書き込む音素環境抽出手段と、
上記第4適応用データをひとつずつ参照してそのテキストに含まれる音素環境を抽出し、上記リストと対照して、当該リストに含まれない音素環境が当該テキストに所定の個数γ個以上含まれている場合には当該第4適応用データを第2適応用データとして第2適応用データ記憶手段に書き込み、γ個未満含まれている場合には当該第4適応用データを第3適応用データとして第3適応用データ記憶手段に書き込む音素環境発話選択手段と、
上記第2適応用データに対する正解テキストが入力され、当該第2適応用データを参照してそのテキストを当該正解テキストに修正した修正第2適応用データを生成し、修正第2適応用データ記憶手段に書き込むテキスト修正手段と、
上記音響モデルと上記第1適応用データとを参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第1更新情報を音素環境ごとに計算して第1更新情報記憶手段に書き込む第1更新情報計算手段と、
上記音響モデルと上記修正第2適応用データとを参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第2更新情報を音素環境ごとに計算して第2更新情報記憶手段に書き込む第2更新情報計算手段と、
上記音響モデルと上記第3適応用データとを参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第3更新情報を音素環境ごとに計算して第3更新情報記憶手段に書き込む第3更新情報計算手段と、
音素環境ごとに各更新情報を参照し、上記第1更新情報に対しては所定の重みw1(0<w1≦1)を乗じて加重第1更新情報を、上記第2更新情報に対しては所定の重みw2(0<w2≦1)を乗じて加重第2更新情報を、上記第3更新情報に対しては所定の重みw3(0<w3<w1、w2)を乗じて加重第3更新情報をそれぞれ計算し、これらを加算することにより音素環境ごとの合成更新情報を計算する更新情報合成手段と、
上記合成更新情報を用い、上記音響モデルのパラメータを所定の学習方法により更新することにより適応音響モデルを生成するモデルパラメータ更新手段と、
を備える音響モデル適応装置。 - 音声データと当該音声データの音声認識結果として得られた信頼尺度が付されたテキストとからなる複数の適応用データを用いて音響モデルの適応を行う音響モデル適応方法であって、
上記複数の適応用データが順次入力され、上記信頼尺度が所定の閾値α以上である適応用データを第1適応用データとして第1適応用データ記憶手段に書き込み、上記信頼尺度が所定の閾値β以上で上記α未満である適応用データを第4適応用データとして第4適応用データ記憶手段に書き込む信頼尺度選択ステップと、
全ての上記第1適応用データを参照し、当該上記第1適応用データのテキストに含まれる全ての音素環境を抽出して音素環境リストを生成し、これを音素環境リスト記憶手段に書き込む音素環境抽出ステップと、
上記第4適応用データをひとつずつ参照してそのテキストに含まれる音素環境を抽出し、上記音素環境リストと対照して、当該音素環境リストに含まれない音素環境が当該テキストに所定の個数γ個以上含まれている場合には当該第4適応用データを第2適応用データとして第2適応用データ記憶手段に書き込み、γ個未満含まれている場合には当該第4適応用データを第3適応用データとして第3適応用データ記憶手段に書き込む音素環境発話選択ステップと、
上記第2適応用データに対する正解テキストが入力され、当該第2適応用データを参照してそのテキストを当該正解テキストに修正した修正第2適応用データを生成し、修正第2適応用データ記憶手段に書き込むテキスト修正ステップと、
上記音響モデルと上記第1適応用データをそれぞれ参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第1更新情報を音素環境ごとに計算して第1更新情報記憶手段に書き込む第1更新情報計算ステップと、
上記音響モデルと上記修正第2適応用データをそれぞれ参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第2更新情報を音素環境ごとに計算して第2更新情報記憶手段に書き込む第2更新情報計算ステップと、
上記音響モデルと上記第3適応用データをそれぞれ参照し、上記音響モデルのパラメータの更新に必要な十分統計量である第3更新情報を音素環境ごとに計算して第3更新情報記憶手段に書き込む第3更新情報計算ステップと、
音素環境ごとに各更新情報を参照し、上記第1更新情報に対しては所定の重みw1(0<w1≦1)を乗じて加重第1更新情報を、上記第2更新情報に対しては所定の重みw2(0<w2≦1)を乗じて加重第2更新情報を、上記第3更新情報に対しては所定の重みw3(0<w3<w1、w2)を乗じて加重第3更新情報をそれぞれ計算し、これらを加算することにより音素環境ごとの合成更新情報を計算する更新情報合成ステップと、
上記合成更新情報を用い、上記音響モデルのパラメータを所定の学習方法により更新することにより適応音響モデルを生成するモデルパラメータ更新ステップと、
を実行する音響モデル適応方法。 - 請求項1に記載の音響モデル適応装置としてコンピュータを機能させるためのプログラム。
- 請求項1に記載の音響モデル適応装置としてコンピュータを機能させるためのプログラムを記録したコンピュータが読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009224140A JP5161183B2 (ja) | 2009-09-29 | 2009-09-29 | 音響モデル適応装置、その方法、プログラム、及び記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009224140A JP5161183B2 (ja) | 2009-09-29 | 2009-09-29 | 音響モデル適応装置、その方法、プログラム、及び記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011075622A JP2011075622A (ja) | 2011-04-14 |
JP5161183B2 true JP5161183B2 (ja) | 2013-03-13 |
Family
ID=44019715
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009224140A Expired - Fee Related JP5161183B2 (ja) | 2009-09-29 | 2009-09-29 | 音響モデル適応装置、その方法、プログラム、及び記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5161183B2 (ja) |
Families Citing this family (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5651567B2 (ja) * | 2011-10-11 | 2015-01-14 | 日本電信電話株式会社 | 音響モデル適応装置、音響モデル適応方法、およびプログラム |
JP5932869B2 (ja) | 2014-03-27 | 2016-06-08 | インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム |
KR102075796B1 (ko) * | 2017-11-14 | 2020-03-02 | 주식회사 엘솔루 | 자동 음성인식 장치 및 방법 |
KR102152902B1 (ko) * | 2020-02-11 | 2020-09-07 | 주식회사 엘솔루 | 음성 인식 모델을 학습시키는 방법 및 상기 방법을 이용하여 학습된 음성 인식 장치 |
CN113345428B (zh) * | 2021-06-04 | 2023-08-04 | 北京华捷艾米科技有限公司 | 语音识别模型的匹配方法、装置、设备和存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3589044B2 (ja) * | 1998-10-20 | 2004-11-17 | 三菱電機株式会社 | 話者適応化装置 |
JP3926716B2 (ja) * | 2002-09-24 | 2007-06-06 | 日本電信電話株式会社 | 音響モデル学習方法、その装置及び音響モデル学習プログラム、その記録媒体 |
JP4594885B2 (ja) * | 2006-03-15 | 2010-12-08 | 日本電信電話株式会社 | 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 |
JP2008241970A (ja) * | 2007-03-27 | 2008-10-09 | Kddi Corp | 話者適応装置、話者適応方法及び話者適応プログラム |
-
2009
- 2009-09-29 JP JP2009224140A patent/JP5161183B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2011075622A (ja) | 2011-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5161183B2 (ja) | 音響モデル適応装置、その方法、プログラム、及び記録媒体 | |
JP7055630B2 (ja) | 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体 | |
Zhang et al. | Group retention when using machine learning in sequential decision making: the interplay between user dynamics and fairness | |
US9299338B2 (en) | Feature sequence generating device, feature sequence generating method, and feature sequence generating program | |
US9396725B2 (en) | System and method for optimizing speech recognition and natural language parameters with user feedback | |
CA2531455A1 (en) | Improving error prediction in spoken dialog systems | |
JP7218601B2 (ja) | 学習データ取得装置、モデル学習装置、それらの方法、およびプログラム | |
WO2019065263A1 (ja) | 発音誤り検出装置、発音誤り検出方法、プログラム | |
CN111788629B (zh) | 学习装置、声音区间检测装置及声音区间检测方法 | |
JPWO2008108232A1 (ja) | 音声認識装置、音声認識方法及び音声認識プログラム | |
US9620117B1 (en) | Learning from interactions for a spoken dialog system | |
JP5932869B2 (ja) | N−gram言語モデルの教師無し学習方法、学習装置、および学習プログラム | |
US9147133B2 (en) | Pattern recognition device, pattern recognition method and computer program product | |
KR20190024148A (ko) | 음성 인식 장치 및 음성 인식 방법 | |
JP6148150B2 (ja) | 音響分析フレーム信頼度計算装置と音響モデル適応装置と音声認識装置とそれらのプログラムと、音響分析フレーム信頼度計算方法 | |
WO2020162190A1 (ja) | 音響モデル学習装置、音響モデル学習方法、プログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP4960845B2 (ja) | 音声パラメータ学習装置とその方法、それらを用いた音声認識装置と音声認識方法、それらのプログラムと記録媒体 | |
JP5738216B2 (ja) | 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム | |
JP6121187B2 (ja) | 音響モデル補正パラメータ推定装置、その方法及びプログラム | |
JP7359028B2 (ja) | 学習装置、学習方法、および、学習プログラム | |
US10056080B2 (en) | Identifying contacts using speech recognition | |
JP2004117503A (ja) | 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置 | |
US8600750B2 (en) | Speaker-cluster dependent speaker recognition (speaker-type automated speech recognition) | |
CN112565881B (zh) | 自适应的视频播放方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110721 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20111108 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20121018 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121204 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121213 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5161183 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151221 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |