JP6274015B2 - 音響モデル調整装置及びプログラム - Google Patents
音響モデル調整装置及びプログラム Download PDFInfo
- Publication number
- JP6274015B2 JP6274015B2 JP2014111257A JP2014111257A JP6274015B2 JP 6274015 B2 JP6274015 B2 JP 6274015B2 JP 2014111257 A JP2014111257 A JP 2014111257A JP 2014111257 A JP2014111257 A JP 2014111257A JP 6274015 B2 JP6274015 B2 JP 6274015B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- type
- states
- hidden markov
- markov model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- User Interface Of Digital Computer (AREA)
- Machine Translation (AREA)
Description
開示の技術は、1つの側面として、音声認識性能が向上するように、音響モデルにおける音素HMMの状態の数を調整することを目的とする。
以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。なお、以下の説明では、開示の技術にかかる音響モデル調整装置の一例として汎用装置であるコンピュータを例に挙げて説明するが、開示の技術はこれに限定されるものではない。開示の技術は、例えば、音響モデル調整のための専用装置、または音響モデル調整のためのデバイスを装着した基板などに適用可能である。
第2実施形態の構成は第1実施形態の構成と同様であるため、説明を省略する。また、第1実施形態と同様の処理についても説明を省略する。
第3実施形態の構成は第1実施形態の構成と同様であるため、説明を省略する。また、第1実施形態と同様の処理についても説明を省略する。
開示の技術と第1関連技術との差異は、開示の技術が、学習用音声データを認識させることにより取得される音素の種類毎の継続時間長の代表値に基づいて音素HMMの状態の数を調整することである。これに対し、第1関連技術は音素HMMの状態の数を調整しない。
第2関連技術では、グラフィカルユーザインターフェイスなどに表示される時間軸に沿った音声波形を目視しながら、ユーザがマニュアルで音声データの発声ラベルの境界を時間軸に沿って定義する。その後、当該発声ラベルの境界と音素HMMの境界とのずれが小さくなるように、音素HMMの状態の数を調整する。
(付記1)
時間軸方向に並んだ複数の状態を含み、かつ音素の各々を表す初期隠れマルコフモデルのパラメータを、音素の種類に対応する発声ラベルが付された学習用音声データを用いて、学習する学習部と、
前記学習部で学習された隠れマルコフモデルで表された音響モデルを用いて前記学習用音声データを音声認識することにより、各音素の継続時間長を取得する取得部と、
音素の種類毎に求めた継続時間長の代表値が第1所定値以上の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を増加するように調整する調整部と、
を含む音響モデル調整装置。
前記学習部は、前記調整部で状態の数が調整された後、隠れマルコフモデルのパラメータを学習し、
前記取得部は、前記学習部で学習された隠れマルコフモデルで表された音響モデルを用いて、前記学習用音声データを音声認識することにより、各音素の継続時間長を再度取得し、
前記調整部は、音素の種類毎に求めた継続時間長の代表値が前記第1所定値以上の種類に属する音素の隠れマルコフモデルに含まれる状態の数を増加するように調整する、
付記1に記載の音響モデル調整装置。
前記調整部は、音素の種類毎に求めた継続時間長の代表値が前記第1所定値より小さい第2所定値以下の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を減少するように調整する、
付記1または2に記載の音響モデル調整装置。
音素の種類毎の継続時間長の代表値は、音素の種類毎の継続時間長の平均値、音素の種類毎の継続時間長の中央値、音素の種類毎の継続時間長の最頻値、または音素の種類毎の継続時間長の平均値を当該音素を表す隠れマルコフモデルの状態の数から1を減算した値で除算した値である付記1〜3の何れかに記載の音響モデル調整装置。
前記学習部は、最尤推定または誤り最小基準を用いて学習する、付記1〜4の何れかに記載の音響モデル調整装置。
前記調整部は、音素の種類毎の継続時間長のばらつきを示す値が第3所定値以上である場合、当該音素を表す隠れマルコフモデルを、当該種類に属する音素の中で第4所定値以上の継続時間長を有する音素を表す第1隠れマルコフモデルと、当該種類に属する音素の中で前記第4所定値より小さい継続時間長を有する音素を表す第2隠れマルコフモデルと、に置換し、前記状態の数が調整された後、前記第1隠れマルコフモデルの状態の数と前記第2隠れマルコフモデルの状態の数とが同一である場合は、前記第1隠れマルコフモデル及び前記第2隠れマルコフモデルを置換前の隠れマルコフモデルと再度置換する、
付記1〜5の何れかに記載の音響モデル調整装置。
前記第4所定値は前記代表値である付記6に記載の音響モデル調整装置。
前後の音素を考慮したトライフォンが認識の処理単位として用いられる場合に、前記学習部は、前記トライフォンの状態の共有を決定するために、前記状態の数が調整された後の前記音素を表す隠れマルコフモデルの状態の数を用いる、
付記1〜7の何れかに記載の音響モデル調整装置。
時間軸方向に並んだ複数の状態を含み、かつ音素の各々を表す初期隠れマルコフモデルのパラメータを、音素の種類に対応する発声ラベルが付された学習用音声データを用いて、学習し、
学習された前記隠れマルコフモデルで表された音響モデルを用いて前記学習用音声データを音声認識することにより、各音素の継続時間長を取得し、
音素の種類毎に求めた継続時間長の代表値が第1所定値以上の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を増加するように調整する、
ことを含む音響モデル調整処理をコンピュータに実行させるためのプログラム。
前記音響モデル調整処理は、
前記状態の数が調整された後、隠れマルコフモデルのパラメータを学習し、
学習された前記隠れマルコフモデルで表された音響モデルを用いて、前記学習用音声データを音声認識することにより、各音素の継続時間長を再度取得し、
音素の種類毎に求めた継続時間長の代表値が前記第1所定値以上の種類に属する音素の隠れマルコフモデルに含まれる状態の数を増加するように調整する、
ことをさらに含む、付記9に記載のプログラム。
前記音響モデル調整処理は、
前記音素の種類毎に求めた継続時間長の代表値が前記第1所定値より小さい第2所定値以下の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を減少するように調整する、
ことをさらに含む、付記9または10に記載のプログラム。
前記音素の種類毎の継続時間長の代表値は、音素の種類毎の継続時間長の平均値、音素の種類毎の継続時間長の中央値、音素の種類毎の継続時間長の最頻値、または音素の種類毎の継続時間長の平均値を当該音素を表す隠れマルコフモデルの状態の数から1を減算した値で除算した値である付記9〜11の何れかに記載のプログラム。
隠れマルコフモデルの前記パラメータは、最尤推定または誤り最小基準を用いて学習される、付記9〜12の何れかに記載のプログラム。
前記音響モデル調整処理は、
前記音素の種類毎の継続時間長のばらつきを示す値が第3所定値以上である場合、当該音素を表す隠れマルコフモデルを、当該種類に属する音素の中で第4所定値以上の継続時間長を有する音素を表す第1隠れマルコフモデルと、当該種類に属する音素の中で前記第4所定値より小さい継続時間長を有する音素を表す第2隠れマルコフモデルと、に置換し、前記状態の数が調整された後、前記第1隠れマルコフモデルの状態の数と前記第2隠れマルコフモデルの状態の数とが同一である場合は、前記第1隠れマルコフモデル及び前記第2隠れマルコフモデルを置換前の隠れマルコフモデルと再度置換する、
ことをさらに含む、
付記9〜13の何れかに記載のプログラム。
前記第4所定値は前記代表値である付記14に記載のプログラム。
前後の音素を考慮したトライフォンが認識の処理単位として用いられる場合に、前記トライフォンの状態の共有を決定するために、前記状態の数が調整された後の前記音素を表す隠れマルコフモデルの状態の数を用いる、
付記9〜15の何れかに記載のプログラム。
12 学習部
14 取得部
16 調整部
60 CPU
66 HMM調整プログラム
Claims (7)
- 時間軸方向に並んだ複数の状態を含み、かつ音素の各々を表す初期隠れマルコフモデルのパラメータを、音素の種類に対応する発声ラベルが付された学習用音声データを用いて、学習する学習部と、
前記学習部で学習された隠れマルコフモデルで表された音響モデルを用いて前記学習用音声データを音声認識することにより、各音素の継続時間長を取得する取得部と、
音素の種類毎に求めた継続時間長の代表値が第1所定値以上の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を増加するように調整する調整部と、
を含む音響モデル調整装置。 - 前記学習部は、前記調整部で状態の数が調整された後、隠れマルコフモデルのパラメータを学習し、
前記取得部は、前記学習部で学習された隠れマルコフモデルで表された音響モデルを用いて、前記学習用音声データを音声認識することにより、各音素の継続時間長を再度取得し、
前記調整部は、音素の種類毎に求めた継続時間長の代表値が前記第1所定値以上の種類に属する音素の隠れマルコフモデルに含まれる状態の数を増加するように調整する、
請求項1に記載の音響モデル調整装置。 - 前記調整部は、音素の種類毎に求めた継続時間長の代表値が前記第1所定値より小さい第2所定値以下の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を減少するように調整する、
請求項1または2に記載の音響モデル調整装置。 - 音素の種類毎の継続時間長の代表値は、音素の種類毎の継続時間長の平均値、音素の種類毎の継続時間長の中央値、音素の種類毎の継続時間長の最頻値、または音素の種類毎の継続時間長の平均値を当該音素を表す隠れマルコフモデルの状態の数から1を減算した値で除算した値である請求項1〜3の何れか1項に記載の音響モデル調整装置。
- 前記調整部は、音素の種類毎の継続時間長のばらつきを示す値が第3所定値以上である場合、当該音素を表す隠れマルコフモデルを、当該種類に属する音素の中で第4所定値以上の継続時間長を有する音素を表す第1隠れマルコフモデルと、当該種類に属する音素の中で前記第4所定値より小さい継続時間長を有する音素を表す第2隠れマルコフモデルと、に置換し、前記状態の数が調整された後、前記第1隠れマルコフモデルの状態の数と前記第2隠れマルコフモデルの状態の数とが同一である場合は、前記第1隠れマルコフモデル及び前記第2隠れマルコフモデルを置換前の隠れマルコフモデルと再度置換する、
請求項1〜4の何れか1項に記載の音響モデル調整装置。 - 前後の音素を考慮したトライフォンが認識の処理単位として用いられる場合に、前記学習部は、前記トライフォンの状態の共有を決定するために、前記状態の数が調整された後の前記音素を表す隠れマルコフモデルの状態の数を用いる、
請求項1〜5の何れか1項に記載の音響モデル調整装置。 - 時間軸方向に並んだ複数の状態を含み、かつ音素の各々を表す初期隠れマルコフモデルのパラメータを、音素の種類に対応する発声ラベルが付された学習用音声データを用いて、学習し、
学習された隠れマルコフモデルで表された音響モデルを用いて前記学習用音声データを音声認識することにより、各音素の継続時間長を取得し、
音素の種類毎に求めた継続時間長の代表値が第1所定値以上の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を増加するように調整する、
ことを含む音響モデル調整処理をコンピュータに実行させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014111257A JP6274015B2 (ja) | 2014-05-29 | 2014-05-29 | 音響モデル調整装置及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2014111257A JP6274015B2 (ja) | 2014-05-29 | 2014-05-29 | 音響モデル調整装置及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2015225296A JP2015225296A (ja) | 2015-12-14 |
JP6274015B2 true JP6274015B2 (ja) | 2018-02-07 |
Family
ID=54842050
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2014111257A Active JP6274015B2 (ja) | 2014-05-29 | 2014-05-29 | 音響モデル調整装置及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6274015B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7567940B2 (ja) | 2021-01-15 | 2024-10-16 | 日本電信電話株式会社 | 学習方法、学習システム及び学習プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0782348B2 (ja) * | 1992-03-21 | 1995-09-06 | 株式会社エイ・ティ・アール自動翻訳電話研究所 | 音声認識用サブワードモデル生成方法 |
JP2005156593A (ja) * | 2003-11-20 | 2005-06-16 | Seiko Epson Corp | 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置 |
-
2014
- 2014-05-29 JP JP2014111257A patent/JP6274015B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2015225296A (ja) | 2015-12-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104681036B (zh) | 一种语言音频的检测系统及方法 | |
CN110675855B (zh) | 一种语音识别方法、电子设备及计算机可读存储介质 | |
CN106463113B (zh) | 在语音辨识中预测发音 | |
JP5282737B2 (ja) | 音声認識装置および音声認識方法 | |
US8731926B2 (en) | Spoken term detection apparatus, method, program, and storage medium | |
JP6556575B2 (ja) | 音声処理装置、音声処理方法及び音声処理プログラム | |
CN108630200B (zh) | 声音关键字检测装置以及声音关键字检测方法 | |
JP5692493B2 (ja) | 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法 | |
JP6580882B2 (ja) | 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム | |
CN106847259B (zh) | 一种音频关键词模板的筛选和优化方法 | |
JP2010152751A (ja) | 統計モデル学習装置、統計モデル学習方法、およびプログラム | |
JP6230606B2 (ja) | 精度スコアを使用した音声認識性能を予測するための方法およびシステム | |
CN110808049B (zh) | 语音标注文本修正方法、计算机设备和存储介质 | |
JP5180800B2 (ja) | 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム | |
JP5376341B2 (ja) | モデル適応装置、その方法及びそのプログラム | |
JP6276513B2 (ja) | 音声認識装置および音声認識プログラム | |
JP2016177045A (ja) | 音声認識装置および音声認識プログラム | |
JP4796460B2 (ja) | 音声認識装置及び音声認識プログラム | |
JPH0250198A (ja) | 音声認識システム | |
JP6350935B2 (ja) | 音響モデル生成装置、音響モデルの生産方法、およびプログラム | |
JP6027754B2 (ja) | 適応化装置、音声認識装置、およびそのプログラム | |
JP6274015B2 (ja) | 音響モデル調整装置及びプログラム | |
CN107924677B (zh) | 用于异常值识别以移除语音合成中的不良对准的系统和方法 | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
JP2008026721A (ja) | 音声認識装置、音声認識方法、および音声認識用プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170206 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20171115 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20171212 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20171225 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6274015 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |