JP5369079B2 - 音響モデル作成方法とその装置とプログラム - Google Patents
音響モデル作成方法とその装置とプログラム Download PDFInfo
- Publication number
- JP5369079B2 JP5369079B2 JP2010270174A JP2010270174A JP5369079B2 JP 5369079 B2 JP5369079 B2 JP 5369079B2 JP 2010270174 A JP2010270174 A JP 2010270174A JP 2010270174 A JP2010270174 A JP 2010270174A JP 5369079 B2 JP5369079 B2 JP 5369079B2
- Authority
- JP
- Japan
- Prior art keywords
- learning
- lattice
- partial
- acoustic model
- speech
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
図4に示す。音響モデル作成装置200は、上記した音響モデル作成装置100に対して部分学習データ選択部20と、部分ラティス作成用認識部12′のみが異なる。
〔変形例〕
部分学習データ選択部20′は、認識パラメータの変化に対して部分ラティス容量の変化が大きな音声ファイルを部分学習用音声データとして選択するようにしても良い。部分学習データ選択部20′は初期ラティス容量計算手段201′を備える。
Claims (15)
- 学習用音声データベースに記憶された音声データとその正解シンボル系列を組みにした学習用音声データの中から部分学習用音声データを選択する部分学習データ選択過程と、
上記部分学習用音声データと、言語モデル記憶部に記憶された言語モデルと学習用音響モデル記憶部に記憶された学習用音響モデルと、部分認識パラメータ判定過程で得られる制御用認識パラメータを用いて音声認識して部分ラティスを生成する部分ラティス作成用認識過程と、
上記部分ラティスの容量を評価して制御用認識パラメータを制御し、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する部分認識パラメータ判定過程と、
上記言語モデルと上記学習用音響モデルと、上記決定認識パラメータに基づいて上記全ての学習用音声データに対して音声認識を行い音声認識結果ラティスを生成するラティス作成用認識過程と、
上記音声認識結果ラティスと上記正解シンボル系列を対比させて識別学習を行い識別済音響モデルを生成する識別学習過程と、
を備える音響モデル作成方法。 - 請求項1に記載した音響モデル作成方法において、
上記部分学習データ選択過程は、
上記学習用音声データの音声ファイルについて初期認識パラメータを用いて音声認識処理を行って上記音声ファイルのそれぞれの初期ラティス容量を計算する初期ラティス容量計算ステップを含み、
上記初期ラティス容量の大きな音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。 - 請求項2に記載した音響モデル作成方法において、
上記初期ラティス容量計算ステップは、更に上記初期認識パラメータを変更した第2認識パラメータを用いた第2ラティス容量を計算するものであり、
上記部分学習データ選択過程は、上記初期ラティス容量と上記第2ラティス容量の差分が大きな音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。 - 請求項1に記載した音響モデル作成方法において、
上記部分学習データ選択過程は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析ステップと、
上記音声特徴量を音響スコアと言語スコアから成る信頼度に変換し、その信頼度から音声ファイルごとの信頼度を当該ファイルのファイル長で正規化した信頼度スコアを計算する信頼度スコア計算ステップとを含み、
上記信頼度スコアの小さな音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。 - 請求項1に記載した音響モデル作成方法において、
上記部分学習データ選択過程は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析ステップと、
上記フレーム毎の音声特徴量に対するモノフォンGMMから得られる出力確率とそのGMMの属する状態の出現確率の積が最も高いものをモノフォン最尤値として求め、そのモノフォン最尤値の対数と、音声/ポーズ最尤値の対数との差を音声ファイル単位で平均化した高速事前信頼度スコアを計算する高速事前信頼度スコア計算ステップとを含み、
上記高速事前信頼度スコアの小さい音声ファイルを上記部分学習用音声データとして選択する過程であることを特徴とする音響モデル作成方法。 - 請求項1乃至5の何れかに記載した音響モデル作成方法において、
上記言語モデルは、上記学習用音声データベースの音声ファイルから作成されたラティス作成用言語モデルを記憶したものであることを特徴とする音響モデル作成方法。 - 請求項6に記載した音響モデル作成方法において、
上記ラティス作成用言語モデルは、正解読みラベルから作成された言語モデルであることを特徴とする音響モデル作成方法。 - 請求項7に記載した音響モデル作成方法において、
上記正解読みラベルの二重母音は、単語境界としないことを特徴とする音響モデル作成方法。 - 音声データとその正解シンボル系列を組みにした学習用音声データを記録した学習用音声データベースと、
単語間の連接関係を表現する文法を言語モデルとして記憶した言語モデル記憶部と、
音素と音声の特徴量とを対応付ける学習用音響モデルを記憶した学習用音響モデル記憶部と、
上記学習用音声データの中から部分学習用音声データを選択する部分学習データ選択部と、
上記部分学習用音声データを、上記言語モデルと上記音響モデルと、部分認識パラメータ判定部から入力される制御用認識パラメータを用いて音声認識して部分ラティスを生成する部分ラティス作成用認識部と、
上記部分ラティスの容量を評価して上記制御用認識パラメータを制御し、所定の容量の部分ラティスが得られた制御用認識パラメータを決定認識パラメータとして出力する部分認識パラメータ判定部と、
上記言語モデルと上記学習用音響モデルと、上記決定認識パラメータに基づいて上記全ての学習用音声データに対して音声認識を行い音声認識結果ラティスを生成するラティス作成用認識部と、
上記音声認識結果ラティスと上記正解シンボル系列を対比させて識別学習を行い識別学習済音響モデルを生成する識別学習部と、
を具備する音響モデル作成装置。 - 請求項9に記載した音響モデル作成装置において、
上記部分学習データ選択部は、上記学習用音声データの音声ファイルについて初期認識パラメータを用いて音声認識処理を行って上記音声ファイルのそれぞれの初期ラティス容量を計算する初期ラティス容量計算手段を備え、
上記初期ラティス容量の大きな音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。 - 請求項10に記載した音響モデル作成装置において、
上記初期ラティス容量計算手段は、上記初期認識パラメータを変更した第2認識パラメータを用いて第2ラティス容量を計算するものであり、
上記部分学習データ選択部は上記初期ラティス容量と上記第2ラティス容量の差分が大きな音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。 - 請求項9に記載した音響モデル作成装置において、
上記部分学習データ選択部は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析手段と、
上記音声特徴量を音響スコアと言語スコアから成る信頼度に変換し、その信頼度から音声ファイルごとの信頼度を当該ファイルのファイル長で正規化した信頼度スコアを計算する信頼度スコア計算手段を備え、
上記信頼度スコアの小さい音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。 - 請求項9に記載した音響モデル作成装置において、
上記部分学習データ選択部は、
上記学習用音声データの音声ファイルの音声データをフレーム毎に音声特徴量に変換する特徴量分析手段と、
上記フレーム毎の音声特徴量に対するモノフォンGMMから得られる出力確率とそのGMMの属する状態の出現確率の積が最も高いものをモノフォン最尤値として求め、そのモノフォン最尤値の対数と、音声/ポーズ最尤値の対数との差を音声ファイル単位で平均化した高速事前信頼度スコアを計算する高速事前信頼度スコア計算手段を備え、
上記高速事前信頼度スコアの小さい音声ファイルを上記部分学習用音声データとして選択することを特徴とする音響モデル作成装置。 - 請求項9乃至13の何れかに記載した音響モデル作成装置において、
上記言語モデル記憶部は、
上記学習用音声データベースから作成されたラティス作成用言語モデルを記憶したものであることを特徴とする音響モデル作成装置。 - 請求項1乃至8の何れかに記載した音響モデル作成方法をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010270174A JP5369079B2 (ja) | 2010-12-03 | 2010-12-03 | 音響モデル作成方法とその装置とプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2010270174A JP5369079B2 (ja) | 2010-12-03 | 2010-12-03 | 音響モデル作成方法とその装置とプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012118441A JP2012118441A (ja) | 2012-06-21 |
JP5369079B2 true JP5369079B2 (ja) | 2013-12-18 |
Family
ID=46501288
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2010270174A Expired - Fee Related JP5369079B2 (ja) | 2010-12-03 | 2010-12-03 | 音響モデル作成方法とその装置とプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5369079B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017218009A1 (en) * | 2016-06-17 | 2017-12-21 | Hewlett-Packard Development Company, L.P. | Shared machine-learning data structure |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP4461646B2 (ja) * | 2001-06-27 | 2010-05-12 | 日本電気株式会社 | 音声認識装置、ビームサーチ方法、およびビームサーチプログラム |
JP4533160B2 (ja) * | 2005-01-21 | 2010-09-01 | 日本電信電話株式会社 | 識別的学習方法、装置、プログラム、識別的学習プログラムを記録した記録媒体 |
JP4878220B2 (ja) * | 2006-06-05 | 2012-02-15 | 日本電信電話株式会社 | モデル学習方法、情報抽出方法、モデル学習装置、情報抽出装置、モデル学習プログラム、情報抽出プログラム、およびそれらプログラムを記録した記録媒体 |
-
2010
- 2010-12-03 JP JP2010270174A patent/JP5369079B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2012118441A (ja) | 2012-06-21 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11664020B2 (en) | Speech recognition method and apparatus | |
CN106463113B (zh) | 在语音辨识中预测发音 | |
US8731926B2 (en) | Spoken term detection apparatus, method, program, and storage medium | |
EP2685452A1 (en) | Method of recognizing speech and electronic device thereof | |
CN105654940B (zh) | 一种语音合成方法和装置 | |
KR20050082249A (ko) | 도메인 기반 대화 음성인식방법 및 장치 | |
JP5752060B2 (ja) | 情報処理装置、大語彙連続音声認識方法及びプログラム | |
US9754024B2 (en) | Voice retrieval apparatus, voice retrieval method, and non-transitory recording medium | |
CN112331206A (zh) | 语音识别方法及设备 | |
WO2010100853A1 (ja) | 言語モデル適応装置、音声認識装置、言語モデル適応方法、及びコンピュータ読み取り可能な記録媒体 | |
JPWO2018163279A1 (ja) | 音声処理装置、音声処理方法、および音声処理プログラム | |
JP4758919B2 (ja) | 音声認識装置及び音声認識プログラム | |
JP5376341B2 (ja) | モデル適応装置、その方法及びそのプログラム | |
JP6276513B2 (ja) | 音声認識装置および音声認識プログラム | |
KR20130126570A (ko) | 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체 | |
JP2015161927A (ja) | 音響モデル生成装置、音響モデルの生産方法、およびプログラム | |
JP2008129527A (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
JP4922377B2 (ja) | 音声認識装置とその方法と、プログラム | |
JP5852550B2 (ja) | 音響モデル生成装置とその方法とプログラム | |
JP5980101B2 (ja) | 音響モデル学習用テキスト作成装置とその方法とプログラム | |
JP5427140B2 (ja) | 音声認識方法、音声認識装置及び音声認識プログラム | |
JP6546070B2 (ja) | 音響モデル学習装置、音声認識装置、音響モデル学習方法、音声認識方法、およびプログラム | |
JP5722295B2 (ja) | 音響モデル生成方法と音声合成方法とそれらの装置とプログラム | |
JP4843646B2 (ja) | 音声認識装置とその方法と、プログラムと記録媒体 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20121227 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20130830 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20130910 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20130913 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5369079 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |