JP5006768B2 - 音響モデル生成装置、方法、プログラム及びその記録媒体 - Google Patents
音響モデル生成装置、方法、プログラム及びその記録媒体 Download PDFInfo
- Publication number
- JP5006768B2 JP5006768B2 JP2007301689A JP2007301689A JP5006768B2 JP 5006768 B2 JP5006768 B2 JP 5006768B2 JP 2007301689 A JP2007301689 A JP 2007301689A JP 2007301689 A JP2007301689 A JP 2007301689A JP 5006768 B2 JP5006768 B2 JP 5006768B2
- Authority
- JP
- Japan
- Prior art keywords
- acoustic model
- normal distribution
- deletion
- mixed
- weight
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Description
小川厚徳、外2名,「混合重み係数を考慮した分布間距離尺度による音響モデルの分布数削除」,日本音響学会講演論文集,2004年9月29日,2−1−23
この発明は、追加学習なく音響モデルのサイズを縮小することにより新たな音響モデルを生成する音響モデル生成装置、方法、プログラム及びその記録媒体を提供することを目的とする。
図1,図3を参照して、第一実施例の音響モデル生成装置10について説明をする。図1は、音響モデル生成装置10の機能構成を例示する図であり、図3は、音響モデル生成装置10の処理の流れを例示するフローチャートである。
ベース音響モデル記憶部12には、既存のベース音響モデルが格納されている。制御部11は、ベース音響モデル記憶部12からベース音響モデルを読み出し、音響モデル記憶部13に格納する(ステップS1)。制御部11は、音響モデル生成装置10の各部の動作を制御することができるように、音響モデル生成装置10の各部と接続されている。この音響モデル記憶部13に格納された音響モデルに対して、以下に述べる処理を行うことにより、新たな音響モデルを生成する。
制御部11は、制御部11内のバッファ111に格納されたiの値をi=1とする(ステップS2)。
削除重み閾値計算部15は、音響モデル記憶部13から、音響モデルを構成する混合正規分布の1つである混合正規分布iの重み系列Wi={wi(1),wi(2),…,wi(mi)}を読み込む。重み系列Wiは、混合正規分布iを構成する複数の基底正規分布にそれぞれ掛けられる重みwi(j)の集合である。そして、重み系列Wiの最大値と、閾値パラメータ記憶部14から読み込んだ重み閾値w_thとを乗算して、削除重み閾値del_w_thを求める(ステップS3)。すなわち、混合正規分布iを構成する複数の基底正規分布のそれぞれに掛けられる重みwi(j)(j=1,2,…,mi)の最大値と、重み閾値w_thとを乗算する。求まった削除重み閾値del_w_thは、基底正規分布削除部162に送られる。
この例では、分布削除部16は、混合数大小判定部161と、基底正規分布削除部162とからなる。
混合数大小判定部161は、音響モデル記憶部13から読み込んだ、音響モデルを構成する混合正規分布の1つである混合正規分布iの混合数miと、閾値パラメータ記憶部14から読み込んだ削除混合数閾値m_thとの比較を行う(ステップS4)。混合正規分布iの混合数miの方が大きければ、その旨を表す信号を基底正規分布削除部162に送る。
混合数大小判定部161を設けて、混合数が所定の数以上である混合正規分布について下記の処理を行うことにより、音響モデルの精度の劣化を防止することができる。
制御部11は、制御部11内のバッファ111に格納されたjの値をj=1とする(ステップS5)。
基底正規分布削除部162は、音響モデル記憶部13から、混合数大小判定部161が削除混合数閾値m_thよりも大きい混合数miを有すると判断した混合正規分布iを構成するj番目の基底正規分布jに掛けられる重みwi(j)を読み込む。混合数大小判定部161が削除混合数閾値m_thよりも大きい混合数miを有すると判断した混合正規分布iについての情報は、混合数大小判定部161が基底正規分布削除部162に送った信号から得る。そして、その読み込んだ重みwi(j)と、削除重み閾値計算部15が計算した削除重み閾値del_w_thとを比較する(ステップS6)。
削除重み閾値del_w_thの方が小さければ、基底正規分布削除部162は、音響モデル記憶部13に記憶された音響モデルの混合正規分布iのj番目の基底正規分布jを削除しない。
制御部11は、バッファ111に格納されたjが、j=miであるか判断する(ステップS7)。
j=miでなければ、制御部11は、バッファ111に格納されたjをインクリメントする(ステップS8)。具体的には、j=j+1とする。その後は、ステップS6の処理を行う。
このように、j=miとなるまで、ステップS6からステップS8の処理を繰り返すことにより、混合正規分布iを構成する各基底正規分布について、掛けられる重みが削除重み閾値del_w_thよりも小さいかどうかを判断して、掛けられる重みの方が小さい場合には、その基底正規分布を削除する処理を行う。
j=miであれば、基底正規分布削除部162は、混合正規分布iが基底正規分布の削除を行ったものであるかどうかを判定する(ステップS9)。混合正規分布iが基底正規分布の削除を行ったものである場合には、基底正規分布削除部162は、混合正規分布iの重み系列Wiについて正規化を求める信号(以下、正規化信号とする。)を、正規化部17に送る。
正規化信号を受けた正規化部17は、混合正規分布iの重み系列Wiについて正規化を行う。具体的には、削除されずに残った基底正規分布に掛けられる重みの合計が1となるように正規化を行う。正規化部17は、重み加算部171と、除算部172とからなる。
制御部11は、バッファ111に格納されたiが、i=Iであるかどうかを判定する。Iは、音響モデル記憶部13に記憶された音響モデルを構成する混合正規分布のうち、重みが小さい基底正規分布を削除するために上記の処理の対象となる混合正規分布の数である。音響モデルを構成する混合正規分布のすべてについて上記の処理を行う場合には、音響モデルを構成する混合正規分布の数がIとなる。
i=Iでない場合には、制御部11はバッファ111に格納されたiをインクリメントする。具体的には、i=i+1とする。その後、ステップS3の処理を行う。
このように、i=Iとなるまで、上記ステップS3からステップS10の処理を繰り返すことにより、対象となるすべての混合正規分布についてそれぞれ、重みが小さい基底正規分布を削除するという上記の処理を行うことができる。
i=Iである場合には、第一実施例の音響モデル生成装置10’の処理は終わる。
図4にこの発明の実験結果を例示する。この表によれば、文字認識精度の劣化なしに、計算量を約4.2%削減していることがわかる。
図2を参照して、第二実施例の音響モデル生成装置10’について説明をする。基底正規分布削除部162が、混合数miの大小の如何を問わずすべての混合正規分布について、掛けられる重みが小さい基底正規分布を削除している点で、第二実施例は第一実施例と異なる。換言すれば、図3の点線で示したステップS4の処理を行わない点で、第二実施例は第一実施例と異なる。以下、第一実施例と異なる部分についてのみ説明をし、第一実施例と同じ部分については同じ符号をつけて重複説明を省略する。
分布削除部16は、基底正規分布削除部162のみからなり、第一実施例とは異なり、混合数大小判定部161を有しない。
削除重み閾値del_w_thの方が小さければ、基底正規分布削除部162は、音響モデル記憶部13に記憶された音響モデルの混合正規分布iのj番目の基底正規分布jを削除しない。
上記の例では、基底正規分布削除部162は、削除重み閾値del_w_thとして、削除重み閾値計算部15が計算した削除重み閾値del_w_thを用いているが、その代わりに図示していない記憶部に予め計算して格納しておいた削除重み閾値del_w_thを用いてもよい。
また、全部又は一部の混合正規分布iについて共通する削除重み閾値del_w_thを用いることで、混合数の大きな混合正規分布ほど多くの基底正規分布を削除することができる。この場合、削除混合数閾値m_thを明示的に用いなくても、同様の効果を得ることができ、最適なパラメータを調整するための処理負担を低減することができる。
−R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP−ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
13 音響モデル記憶部
14 閾値パラメータ記憶部
15 削除重み閾値計算部
16 分布削除部
17 正規化部
161 混合数大小判定部
162 基底正規分布削除部
171 重み加算部
172 除算部
Claims (10)
- 複数の基底正規分布が重み付き加算されることによりそれぞれ構成される複数の混合正規分布から構成される音響モデルが記憶される音響モデル記憶手段と、
上記音響モデルを構成する全部又は一部の混合正規分布のそれぞれについて、混合正規分布を構成する複数の基底正規分布から、予め定められた削除重み閾値よりも小さい重みが掛けられた基底正規分布を削除する基底正規分布削除手段と、
混合正規分布を構成する、削除されずに残った複数の基底正規分布にそれぞれ掛けられる重みの合計が1となるように、上記音響モデルを構成する混合正規分布のうち基底正規分布が削除された各混合正規分布の重み系列を正規化する正規化手段と、
を備え、
上記予め定められた削除重み閾値は、混合正規分布の重み系列の最大値が大きいほど大きい、
ことを特徴とする音響モデル生成装置。 - 請求項1に記載された音響モデル生成装置において、
混合正規分布を構成する基底正規分布の数を混合数として、上記音響モデル記憶手段に記憶された音響モデルを構成する一部の混合正規分布の混合数は、他の混合正規分布の混合数と異なり、
混合正規分布の混合数と、予め定められた削除混合数閾値とを比較する混合数大小判定手段を更に有し、
上記基底正規分布削除手段は、上記混合数大小判定手段において混合数が上記削除混合数閾値よりも大きいと判定された混合正規分布について、上記の削除処理を行う手段である、
ことを特徴とする音響モデル生成装置。 - 請求項1又は2に記載された音響モデル生成装置において、
各混合正規分布の重み系列の最大値に予め定められた正数を乗算した値を、その混合正規分布について上記基底正規分布削除手段が基底正規分布を削除するときの上記予め定められた削除重み閾値として計算する削除重み閾値計算手段、
を更に備えることを特徴とする音響モデル生成装置。 - 請求項1又は2に記載された音響モデル生成装置において、
全部又は一部の混合正規分布の重み系列の最大値に予め定められた正数を乗算した値を、上記予め定められた削除重み閾値として計算する削除重み閾値計算手段、
を更に備えることを特徴とする音響モデル生成装置。 - 音響モデル記憶手段には、複数の基底正規分布が重み付き加算されることによりそれぞれ構成される複数の混合正規分布から構成される音響モデルが記憶され、
基底正規分布削除手段が、上記音響モデルを構成する全部又は一部の混合正規分布のそれぞれについて、混合正規分布を構成する複数の基底正規分布から、予め定められた削除重み閾値よりも小さい重みが掛けられた基底正規分布を削除する基底正規分布削除ステップと、
正規化手段が、混合正規分布を構成する、削除されずに残った複数の基底正規分布にそれぞれ掛けられる重みの合計が1となるように、上記音響モデルを構成する混合正規分布のうち基底正規分布が削除された各混合正規分布の重み系列を正規化する正規化ステップと、
を有し、
上記予め定められた削除重み閾値は、混合正規分布の重み系列の最大値が大きいほど大きい、
ことを特徴とする音響モデル生成方法。 - 請求項5に記載された音響モデル生成方法において、
混合正規分布を構成する基底正規分布の数を混合数として、上記音響モデル記憶手段に記憶された音響モデルを構成する一部の混合正規分布の混合数は、他の混合正規分布の混合数と異なり、
混合数大小判定手段が、混合正規分布の混合数と、予め定められた削除混合数閾値とを比較する混合数大小判定ステップを更に有し、
上記基底正規分布削除ステップは、上記混合数大小判定ステップにおいて混合数が上記削除混合数閾値よりも大きいと判定された混合正規分布について、上記の削除処理を行うステップである、
ことを特徴とする音響モデル生成方法。 - 請求項5又は6に記載された音響モデル生成方法において、
削除重み閾値計算手段が、各混合正規分布の重み系列の最大値に予め定められた正数を乗算した値を、その混合正規分布について上記基底正規分布削除手段が基底正規分布を削除するときの上記予め定められた削除重み閾値として計算する削除重み閾値計算ステップ、
を更に有することを特徴とする音響モデル生成方法。 - 請求項5又は6に記載された音響モデル生成方法において、
削除重み閾値計算手段が、全部又は一部の混合正規分布の重み系列の最大値に予め定められた正数を乗算した値を、上記予め定められた削除重み閾値として計算する削除重み閾値計算ステップ、
を更に備えることを特徴とする音響モデル生成方法。 - 請求項1から4の何れかに記載の音響モデル生成装置の各手段としてコンピュータを機能させるための音響モデル生成プログラム。
- 請求項9に記載された音響モデル生成プログラムを記録したコンピュータ読み取り可能な記録媒体。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007301689A JP5006768B2 (ja) | 2007-11-21 | 2007-11-21 | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2007301689A JP5006768B2 (ja) | 2007-11-21 | 2007-11-21 | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2009128496A JP2009128496A (ja) | 2009-06-11 |
JP5006768B2 true JP5006768B2 (ja) | 2012-08-22 |
Family
ID=40819509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2007301689A Expired - Fee Related JP5006768B2 (ja) | 2007-11-21 | 2007-11-21 | 音響モデル生成装置、方法、プログラム及びその記録媒体 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5006768B2 (ja) |
Family Cites Families (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0769711B2 (ja) * | 1993-03-09 | 1995-07-31 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声認識方法 |
JP3394506B2 (ja) * | 1993-08-17 | 2003-04-07 | 三菱電機株式会社 | 音声判別装置及び音声判別方法 |
JP3963850B2 (ja) * | 2003-03-11 | 2007-08-22 | 富士通株式会社 | 音声区間検出装置 |
JP2005321660A (ja) * | 2004-05-10 | 2005-11-17 | Nippon Telegr & Teleph Corp <Ntt> | 統計モデル作成方法、その装置、パターン認識方法、その装置、これらのプログラム、その記録媒体 |
JP4765971B2 (ja) * | 2007-03-23 | 2011-09-07 | ヤマハ株式会社 | 混合モデル生成装置、音処理装置およびプログラム |
-
2007
- 2007-11-21 JP JP2007301689A patent/JP5006768B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2009128496A (ja) | 2009-06-11 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
TWI689871B (zh) | 梯度提升決策樹(gbdt)模型的特徵解釋方法和裝置 | |
JP6958723B2 (ja) | 信号処理システム、信号処理装置、信号処理方法、およびプログラム | |
JP6579198B2 (ja) | リスク評価方法、リスク評価プログラム及び情報処理装置 | |
JP6812381B2 (ja) | 音声認識精度劣化要因推定装置、音声認識精度劣化要因推定方法、プログラム | |
JP7171471B2 (ja) | 学習モデル生成支援装置、及び学習モデル生成支援方法 | |
JP4594885B2 (ja) | 音響モデル適応装置、音響モデル適応方法、音響モデル適応プログラム及び記録媒体 | |
JP7036054B2 (ja) | 音響モデル学習装置、音響モデル学習方法、プログラム | |
JP5006768B2 (ja) | 音響モデル生成装置、方法、プログラム及びその記録媒体 | |
JP5516925B2 (ja) | 信頼度計算装置、信頼度計算方法、及びプログラム | |
US11443837B2 (en) | Generation of test data for a data platform | |
JP6353408B2 (ja) | 言語モデル適応装置、言語モデル適応方法、プログラム | |
JP2022185799A (ja) | 情報処理プログラム、情報処理方法および情報処理装置 | |
JP6831307B2 (ja) | 解算出装置、解算出方法及び解算出プログラム | |
JP6992534B2 (ja) | データ作成装置、誘導モデル学習装置、誘導推定装置、データ作成方法、誘導モデル学習方法、誘導推定方法及びプログラム | |
JP6588874B2 (ja) | 単語予測装置、プログラム | |
WO2023203769A1 (ja) | 重み係数算出装置および重み係数算出方法 | |
WO2018225747A1 (ja) | 分散システム、データ管理装置、データ管理方法、及びコンピュータ読み取り可能な記録媒体 | |
JP5755603B2 (ja) | 言語モデル作成装置、言語モデル作成方法、プログラム | |
WO2024042714A1 (ja) | プログラム,情報処理装置,情報処理方法および学習済みdnnモデル | |
WO2022270163A1 (ja) | 計算機システム及び介入効果予測方法 | |
JP5379749B2 (ja) | 文書分類装置、文書分類方法、そのプログラムおよび記録媒体 | |
WO2023084609A1 (ja) | 行動モデルのコスト推定装置、方法およびプログラム | |
KR102321064B1 (ko) | 부호화된 네트워크 생성 장치 및 방법 | |
JP6802145B2 (ja) | Snr推定装置、snr推定方法、プログラム | |
US7703053B2 (en) | Regional pattern density determination method and system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20100114 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110629 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110802 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110812 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110905 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120515 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120525 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150601 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5006768 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |
|
LAPS | Cancellation because of no payment of annual fees |