JP2015225296A - 音響モデル調整装置及びプログラム - Google Patents

音響モデル調整装置及びプログラム Download PDF

Info

Publication number
JP2015225296A
JP2015225296A JP2014111257A JP2014111257A JP2015225296A JP 2015225296 A JP2015225296 A JP 2015225296A JP 2014111257 A JP2014111257 A JP 2014111257A JP 2014111257 A JP2014111257 A JP 2014111257A JP 2015225296 A JP2015225296 A JP 2015225296A
Authority
JP
Japan
Prior art keywords
phoneme
type
hidden markov
states
markov model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2014111257A
Other languages
English (en)
Other versions
JP6274015B2 (ja
Inventor
原田 将治
Masaharu Harada
将治 原田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2014111257A priority Critical patent/JP6274015B2/ja
Publication of JP2015225296A publication Critical patent/JP2015225296A/ja
Application granted granted Critical
Publication of JP6274015B2 publication Critical patent/JP6274015B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • User Interface Of Digital Computer (AREA)
  • Machine Translation (AREA)

Abstract

【課題】音声認識性能を向上させる。【解決手段】学習部(12)は、時間軸方向に並んだ複数の状態を含み、かつ音素の各々を表す初期隠れマルコフモデルのパラメータを、音素の種類に対応する発声ラベルが付された学習用音声データを用いて、学習する。取得部(14)は、学習部で学習された隠れマルコフモデルで表された音響モデルを用いて学習用音声データを音声認識することにより、各音素の継続時間長を取得する。調整部(16)は、音素の種類毎に求めた継続時間長の代表値が第1所定値以上の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を増加するように調整する。【選択図】図1

Description

開示の技術は、音響モデル調整装置及びプログラムに関する。
音声認識技術では、音響モデルが認識性能を左右する。現在の音響モデルの主流は、隠れマルコフモデル(Hidden Markov Model:HMM)である。音素を表す隠れマルコフモデル(音素HMM)は、各々が音素の部分に対応する定常信号であるとみなされる複数の状態、状態毎に定められた信号が出力される確率である出力確率及び状態間の遷移に関する確率である遷移確率などを含む。
音素HMMの状態の数が適切であると、誤検出を抑制することが可能となり音響モデルの音声認識性能を向上させることが可能となる。したがって、従来技術では、音素HMMの状態の数を調整するために、まず、グラフィカルユーザインターフェイスなどに表示される時間軸に沿った音声波形を目視しながら、ユーザがマニュアルで音声データの発声ラベルの境界を時間軸に沿って定義する。その後、当該発声ラベルの境界と音素HMMの境界とのずれが小さくなるように、音素HMMの状態の数を調整する。
特開平07−13592号公報
鹿野清宏著、「音声認識システム」、オーム社、2006年10月5日
従来技術では、発声ラベルの境界を定義するために、多くの時間及び労力がかかる。
開示の技術は、1つの側面として、音声認識性能が向上するように、音響モデルにおける音素HMMの状態の数を調整することを目的とする。
開示の技術において、学習部は、時間軸方向に並んだ複数の状態を含み、かつ音素の各々を表す初期隠れマルコフモデルのパラメータを、音素の種類に対応する発声ラベルが付された学習用音声データを用いて、学習する。また、取得部は、学習部で学習された隠れマルコフモデルで表された音響モデルを用いて学習用音声データを音声認識することにより、各音素の継続時間長を取得する。また、調整部は、音素の種類毎に求めた継続時間長の代表値が第1所定値以上の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を増加するように調整する。
開示の技術は、1つの側面として、音声認識性能が向上するように、音響モデルにおける音素HMMの状態の数を調整することが可能となるという効果を有する。
第1実施形態に係るコンピュータの要部機能の一例を示すブロック図である。 第1実施形態に係るコンピュータの電気系の構成の一例を示すブロック図である。 第1実施形態のHMM調整処理の流れの一例を示すフローチャートである。 音素HMMの一例を示す図である。 音素HMMの一例を示す図である。 HMMの一例を示す図である。 継続時間長を所定時間毎に区切った区間毎に音素の種類の出現頻度を表すヒストグラムの一例である。 音素HMMの一例を示す図である。 音素HMMの一例を示す図である。 音素HMMの一例を示す図である。 第2実施形態のHMM調整処理の流れの一例を示すフローチャートである。 音声データの発声ラベルの一例を示す図である。 音声データの発声ラベルの一例を示す図である。 HMMの一例を示す図である。 第3実施形態のHMM調整処理の流れの一例を示すフローチャートである。 トライフォンの状態の共有を決定するための決定木の一例を示す図である。 トライフォンの状態の共有を決定するための決定木の一例を示す図である。
[第1実施形態]
以下、図面を参照して開示の技術の実施形態の一例を詳細に説明する。なお、以下の説明では、開示の技術にかかる音響モデル調整装置の一例として汎用装置であるコンピュータを例に挙げて説明するが、開示の技術はこれに限定されるものではない。開示の技術は、例えば、音響モデル調整のための専用装置、または音響モデル調整のためのデバイスを装着した基板などに適用可能である。
一例として図1に示すコンピュータ10は、学習部12、取得部14、調整部16、及び記憶部18を有する。
記憶部18は、音響モデルであるHMM18A、音素HMMを学習させるための学習用音声データ18Bを含む。また、記憶部18は、HMMで音声データを認識することにより取得される音素の継続時間長に関する音素データ18Cを含む。学習用音声データ18Bは、音声波形データを音響処理することにより取得される特徴量と、発声される音素列の各音素の種類を表す発声ラベルと、を含む。特徴量は、例えば、メル周波数ケプストラム係数であってよい。
学習部12は、音素HMMを学習用音声データ18Bを用いて学習させる。取得部14は、HMM18Aを用いて学習用音声データを認識することにより音素の継続時間長を取得する。調整部16は、音素の種類毎の継続時間長の代表値に基づいて当該種類の音素を表す音素HMMの状態の数を調整する。音素HMMは、時間軸方向に並んだ複数の状態を含む。HMMは音素HMMを連結して作成される。代表値は、例えば、音素の種類毎の継続時間長の平均値、中央値などである。
コンピュータ10は、一例として図2に示すように、CPU(Central Processing Unit)60、1次記憶部62、2次記憶部64、及び外部インターフェイス70を備えている。CPU60、1次記憶部62、2次記憶部64、及び外部インターフェイス70は、バス8を介して相互に接続されている。
外部インターフェイス70には、図示しない外部装置が接続され、外部装置とCPU60との間の各種情報の送受信を司る。
1次記憶部62は、例えば、RAM(Random Access Memory)などの揮発性のメモリである。2次記憶部64は、例えば、HDD(Hard Disk Drive)、またはSSD(Solid State Drive)などの不揮発性のメモリである。1次記憶部62及び2次記憶部64は、図1の記憶部18として機能する。
2次記憶部64は、一例として、学習サブプログラム66A、取得サブプログラム66B、及び調整サブプログラム66Cを含むHMM調整プログラム66を記憶している。また、2次記憶部64は、HMM18Aが記憶される記憶領域であるHMM部68A、学習用音声データ18Bが記憶される記憶領域である音声データ部68B及び音素データ18Cが記憶される記憶領域である音素データ部68Cを含む。
CPU60は、2次記憶部64から学習サブプログラム66A、取得サブプログラム66B、及び調整サブプログラム66Cを読み出して1次記憶部62に展開する。CPU60は、学習サブプログラム66Aを実行することで、図1に示す学習部12として動作する。CPU60は、取得サブプログラム66Bを実行することで図1に示す取得部14として動作する。CPU60は、調整サブプログラム66Cを実行することで、図1に示す調整部16として動作する。
学習サブプログラム66A、取得サブプログラム66B、及び調整サブプログラム66Cを実行することにより行われるHMM調整処理を図3に例示する。
ステップ302で、CPU60は、予め定めた初期値に従って、音素の種類毎に音素HMMを作成し、2次記憶部64のHMM部68Aに記憶させる。例えば、図4Aに示すように、初期音素HMMは、時間軸方向に並んだ2つの状態S、Sj+1、及び状態Sから状態Sj+1への初期状態遷移確率、状態S、Sj+1の初期出力確率などのパラメータを含む。音素の種類は、日本語で24個、英語で44個とされることが多いので、例えば、日本語では24個の初期音素HMMが作成され、英語では44個の初期音素HMMが作成される。
ステップ304で、CPU60は、音声データ部68Bに記憶されている学習用音声データを用いて音素HMMを最尤推定で学習させることにより、状態遷移確率及び出力確率などの音素HMMのパラメータを決定する。
全ての音素HMMのパラメータが決定されると、ステップ306で、CPU60は、音素HMMの学習に使用した学習用音声データを単語を表すHMMに認識させることにより、各音素の継続時間長を取得する。図5に一例を示す単語を表すHMMは、単語に含まれる音素の各々を表す音素HMMを連結して作成される。図5では、単語「tako」を表すHMMを作成するために、発声ラベル/t/、発声ラベル/a/、発声ラベル/k/、発声ラベル/o/の各々が表す種類の音素を表す音素HMMが連結されている。
学習用音声データをHMMに認識させると、ある音素HMMから次の音素HMMへ移る時間を取得することが可能であるため、音声波形データに対応する発声ラベルで表される音素の区間が取得される。音素毎の区間の終了時間から開始時間の減算を行うことにより、音素の継続時間長を取得する。CPU60は、取得した音素の継続時間長を音素データ部68Cに記憶させる。
例えば、発声ラベル/t/で表される音素の区間の開始時間が0m秒であり、終了時間が30m秒であれば、当該音素の継続時間長は30m秒(=30m秒−0m秒)である。また、例えば、発声ラベル/a/で表される音素の区間の開始時間が30m秒であり、終了時間が100m秒であれば、当該音素の継続時間長は70m秒(=100m秒−30m秒)である。また、例えば、発声ラベル/k/で表される音素の区間の開始時間が100m秒であり、終了時間が240m秒であれば、当該音素の継続時間長は140m秒(=240m秒−100m秒)である。また、例えば、発声ラベル/o/で表される音素の区間の開始時間が240m秒であり、終了時間が320m秒であれば、当該音素の継続時間長は80m秒(=320m秒−240m秒)である。
HMMによる学習用音声データの認識が完了すると、ステップ316で、CPU60は、音素データ部68Cから音素の継続時間長を読み出し、音素の種類毎に継続時間長の代表値である平均値mを計算する。CPU60は、計算した音素の種類毎の継続時間長の平均値を音素データ部68Cに記憶させる。
例えば、音素の継続時間長を所定時間t毎に区切った各々の区間に出現する音素の種類毎の音素の出現頻度を音素データ部68Cに記憶させるようにしてもよい。図6は、一例として、継続時間長をt(20m秒)毎に区切った各々の区間に出現する発声ラベル/a/、/i/、/o/の各々によって表される種類の音素の出現頻度を表すヒストグラムを示す。
音素の継続時間長を所定時間t毎に区切った各々の区間に出現する音素の種類毎の音素の出現頻度を音素データ部68Cに記憶させる場合、音素の種類毎の平均値は、例えば、式(1)で計算される。Mは区間の数、yは各区間の音素の種類毎の音素の出現頻度を表す。
音素の全ての種類について継続時間長の平均値の計算が完了すると、ステップ318で、CPU60は、音素の種類毎の継続時間長の平均値に基づいて、音素の種類毎に、当該種類の音素を表す音素HMMの状態の数を調整する。例えば、当該音素の継続時間長の平均値が所定値以上である場合、図4Bに示すように、音素HMMの状態の数を1つ増加する。所定値は、例えば、50m秒であってよい。
ステップ320で、CPU60は、音素の種類の何れかを表す音素HMMの状態の数に変化があるか否かを判定する。判定が肯定された場合、CPU60は、ステップ304に戻り、ステップ304〜ステップ320を再度行う。判定が否定された場合、CPU60はHMM調整処理を終了する。
ステップ302で作成される音素HMMの状態の数を2つとしたが、開示の技術はこれに限定されない。例えば、3つであってもよいし、異なる種類の音素を表す音素HMMが異なる状態の数を有していてもよい。また、ステップ302で音素HMMを作成する代わりに、既存の音素HMMを初期HMMとして用いてもよい。
ステップ304で行われる学習には最尤推定を用いるものとしたが、開示の技術はこれに限定されない。例えば、誤り最小基準を用いてもよい。
ステップ306で、音素HMMの学習に使用した学習用音声データを単語を表すHMMに認識させるものとしたが、開示の技術はこれに限定されない。例えば、文章を表すHMMに認識させてもよい。
ステップ316で、音素の種類毎の継続時間長の代表値として平均値を用いたが、開示の技術はこれに限定されない。例えば、音素の種類毎の継続時間長の代表値として中央値または最頻値を用いてもよいし、音素の種類毎に継続時間長を短い順にソートした場合に上位10%に含まれる継続時間長の平均値を用いてもよい。また、例えば、音素の種類毎に最も短い継続時間長から10番目に短い継続時間長までの10個の継続時間長の平均値を計算する。次に、当該平均値を当該種類の音素を表す音素HMMの状態の数で除算した値が最も大きい種類の音素を表す音素HMMの状態の数だけをステップ318で1つ増加するようにしてもよい。
また、例えば、音素の種類毎に継続時間長の平均値を状態の数から1を減算した値で除算した値を計算し、当該値が所定値(例えば、50m秒)以上となる場合に、当該種類の音素を表す音素HMMの状態の数を1つ増加するようにしてもよい。
また、例えば、音素の種類毎に計算された継続時間長の代表値が所定値以下の場合、当該種類の音素を表す音素HMMの状態の数を1つ減少するようにしてもよい。当該所定値は、音素HMMの状態の数を増加するための所定値より小さい値である。
ステップ318では、音素HMMの状態の数を1つ増加するものとしたが、開示の技術はこれに限定されない。音素の種類毎の継続時間長の代表値に基づいて、継続時間長が長い傾向を有する種類の音素を表す音素HMMの状態の数を少なくとも1つ増加すればよい。また、継続時間長が短い傾向を有する種類の音素を表す音素HMMの状態の数を少なくとも1つ減少すればよい。
すなわち、音素の種類毎の継続時間長の代表値が当該音素の種類に属する音素の継続時間長が短い傾向を示す場合、図7Aに示すように、当該種類の音素を表す音素HMMの状態の数が少なくなるように調整される。例えば、音素の種類の継続時間長の平均値が小さい場合、当該種類の音素を表す音素HMMの状態数は少なくなるように調整される。また、音素の種類毎の継続時間長の代表値が当該音素の種類に属する音素の継続時間長が長い傾向を示す場合、図7Bに示すように、当該音素の種類を示す音素HMMの状態の数が多くなるように調整される。例えば、音素の種類の継続時間長の平均値が大きい場合に、当該種類の音素を表す音素HMMの状態の数は多くなるように調整される。また、音素の種類毎の継続時間長の代表値が当該音素の種類に属する音素の継続時間長が中間的な傾向を示す場合、図7Cに示すように、当該種類の音素を表す音素HMMの状態の数が中間的な数となるように調整される。例えば、音素の種類の継続時間長の平均値が中間的な値である場合に、当該種類の音素を表す音素HMMの状態の数は中間的な数となるように調整される。
ステップ320で、何れの音素HMMも状態の数が変更されていない場合に、HMM調整処理を終了するものとしたが、開示の技術はこれに限定されない。例えば、HMM調整処理を所定回数繰り返した場合、HMM調整処理を終了してもよい。所定回数は、例えば、2回であってよい。また、ステップ318で、例えば、音素の種類毎に最も短い継続時間長から10番目に短い継続時間長までの10個の継続時間長の平均値を状態の数で除算した値が所定値以下である場合に、ステップ320でHMM調整処理を終了してもよい。所定値は、例えば、20m秒であってよい。
HMM調整プログラム66は第2記憶部64に記憶されているものとしたが、開示の技術はこれに限定されない。例えば、HMM調整プログラム66は、CD−ROMなどの非一時記憶媒体に記憶されていてもよく、非一時記憶媒体から読み出され1次記憶部62に展開されてもよい。
音素HMMの状態の数が音素HMMで表される音素の種類に属する音素の継続時間長に適切に対応している場合、HMMによる音声認識性能を向上させることが可能である。第1実施形態によれば、学習用音声データを認識させることにより取得される音素の種類毎の継続時間長の代表値に基づいて音素HMMの状態の数を調整するので、HMMによる音声認識性能を向上させることが可能となる。
第1実施形態によれば、HMMで学習用音声データを認識させることにより音声データの発声ラベルの境界を取得するため、ユーザがマニュアルで音声データの発声ラベルの境界を定義する手間を省くことが可能となる。HMMで学習用音声データを認識させることにより取得された音声データの発声ラベルの境界は、ユーザがマニュアルで定義した音声データの発声ラベルの境界と比較して精度が落ちる。しかしながら、第1実施形態によれば、学習用音声データを認識させることにより取得される音素の種類毎の継続時間長の代表値に基づいて音素HMMの状態の数を調整するため、HMMによる音声認識性能を向上させることが可能となる。
[第2実施形態]
第2実施形態の構成は第1実施形態の構成と同様であるため、説明を省略する。また、第1実施形態と同様の処理についても説明を省略する。
図8に一例を示すように、第2実施形態では、ステップ408で、CPU60は、音素の種類毎に継続時間長の代表値である平均値、及び標準偏差値を計算し、音素データ部68Cに保存する。標準偏差値σは、下記(2)式で計算される。Nは学習用音声データにおける音素の種類に属する音素の出現数、xは当該音素の種類に属する音素の各々の継続時間長、mは当該音素の種類に属する音素の平均値を表す。
全ての音素の種類毎の平均値及び標準偏差値の計算が完了すると、ステップ410で、CPU60は、継続時間長のばらつきを示す標準偏差値が所定値以上の音素の種類を表す発声ラベルを2つの発声ラベルに置換する。また、当該種類の音素を表す音素HMMを2つの音素HMMに置換する。所定値は、例えば、50であってよい。
例えば、図9Aで示される発声ラベル/a/で表される種類の音素の標準偏差値が50以上である場合、図9Bに示すように、発声ラベル/a/を発声ラベル/a1/と発声ラベル/a2/とに置換し、当該種類に属する音素を2つの発声ラベルの何れかに割り当てる。例えば、当該種類の音素の継続時間長の平均値より短い継続時間長を有する音素を発声ラベル/a1/に割り当て、当該種類の音素の継続時間長の平均値以上の継続時間長を有する音素を発声ラベル/a2/に割り当てる。発声ラベル/a/で表される種類の音素を表す音素HMMも、発声ラベル/a1/で表される種類の音素を表す音素HMMと発声ラベル/a2/で表される種類の音素を表す音素HMMとに置換する。
ステップ412で、CPU60は、発声ラベルの何れかが2つの発声ラベルに置換されたか否か判定する。判定が肯定された場合、ステップ414で、CPU60は、音素の種類毎に継続時間長の平均値を再度計算して、音素データ部68Cに保存する。例えば、ステップ410で置換された新しい発声ラベル/a1/及び/a2/で表される音素の種類の各々の継続時間長の平均値が計算される。ステップ412の判定が否定された場合、CPU60は、ステップ318に直接進む。
図10に、発声ラベル/a/が発声ラベル/a1/及び/a2/に置換され、これに伴い、発声ラベルで表される種類の音素を表す音素HMMが2つの音素HMMに置換された場合の単語を表すHMMの一例を示す。
なお、ステップ410で、標準偏差値が所定値以上である場合に、音素HMMを2つの音素HMMに置換したが、開示の技術はこれに限定されない。例えば、分散値が所定値以上である場合に、音素HMMを2つの音素HMMに置換してもよい。また、例えば、最も分散値が大きい種類の音素を表す音素HMMを2つの音素HMMに置換するようにしてもよい。また、音素HMMを3つ以上の音素HMMに置換してもよい。
ステップ410で、発声ラベル/a/を2つの音素HMMに置換する場合、閾値として継続時間長の平均値を用いたが、開示の技術はこれに限定されない。例えば、継続時間長の中央値または最頻値を用いてもよい。
また、置換された2つの音素HMMの状態の数がHMM調整処理の完了後に一致する場合には、置換された2つの音素HMMを統合して元の1つの音素HMMに戻してもよい。すなわち、置換された2つの音素HMMを置換前の音素HMMと再度置換してもよい。
音素HMMの状態の数が音素HMMで表される音素の種類に属する音素の継続時間長に適切に対応している場合、HMMによる音声認識性能を向上させることが可能である。第2実施形態によれば、学習用音声データを認識させることにより取得される音素の種類毎の継続時間長の代表値に基づいて音素HMMの状態の数を調整するので、HMMによる音声認識性能を向上させることが可能となる。
また、第2実施形態によれば、音素の種類毎の継続時間長のばらつきに基づいて当該音素HMMを複数の音素HMMに置換するため、音素HMMの状態の数を音素HMMで表される音素の種類に属する音素にさらに適切に対応させることが可能である。したがって、HMMによる音声認識性能をさらに向上させることが可能となる。
[第3実施形態]
第3実施形態の構成は第1実施形態の構成と同様であるため、説明を省略する。また、第1実施形態と同様の処理についても説明を省略する。
第3実施形態では、開示の技術を前後の音素環境を考慮したトライフォン(3つ組み音素:triphone)の状態の共有の決定に適用する。音素の音響的な特徴は当該音素の前後の音素環境の影響で大きく変化し、音声認識が困難となる場合がある。このような問題に対処するため、トライフォンが認識の処理単位として用いられる。
トライフォンでは、モデルの総和が音素の種類の数の3乗、すなわち、数万以上になる。したがって、全てのモデルを学習させる学習用音声データを確保することが困難となるため、モデルの数を低減する。モデルの数を低減するため、音響的特徴が類似したトライフォンをグループ化する。トライフォンのグループ化は、トライフォン全体をクラスタリングするのではなく、状態毎にグループ化されることが一般的であり、状態の共有と呼ばれる。
トライフォンのグループ化には、グループを徐々に細分化していくトップダウン方式と、類似したグループを徐々にまとめていくボトムアップ方式と、がある。
以下ではトップダウン方式でグループを細分化する場合について説明する。図11に例示するように、ステップ320で、CPU60は、何れかの音素HMMの状態の数に変更があるか否かを判定し、判定が肯定された場合、CPU60は、ステップ522に進み、判定が否定された場合。CPU60は、HMM調整処理を終了する。
ステップ522で、CPU60は、状態の共有を決定し、ステップ304に戻る。
状態の共有の決定は、例えば、図12Aに示す決定木を用いてトップダウン方式で行われる。図12Aの決定木では、中心音素を表す音素HMM(中心音素HMM)の状態の数が2であり、かつ、後続音素が母音である場合、状態を共有する。また、中心音素HMMの状態の数が2であり、かつ、後続音素が母音でない場合、状態を共有する。また、中心音素HMMの状態の数が3または4であり、かつ、先行音素が母音である場合、状態を共有する。また、中心音素HMMの状態の数が3または4であり、かつ、先行音素が母音でない場合、状態を共有する。また、中心音素HMMの状態の数が5以上であり、かつ、先行音素が母音である場合、状態を共有する。また、中心音素HMMの状態の数が5以上であり、かつ、先行音素が母音でない場合、状態を共有する。
なお、図12Aの決定木は一例であり、開示の技術はこれに限定されない。例えば、図12Bに示す決定木を用いてボトムアップ式で状態の共有の決定を行ってもよい。図12Bの決定木では、後続音素が母音であり、かつ、先行音素が母音である場合、状態を共有する。また、後続音素が母音であり、先行音素が母音でなく、かつ、中心音素HMMの状態の数が3以下である場合、状態を共有する。また、後続音素が母音であり、先行音素が母音でなく、かつ、中心音素HMMの状態の数が4以上である場合、状態を共有する。また、後続音素が母音でなく、かつ、先行音素が破裂音である場合、状態を共有する。また、後続音素が母音でなく、かつ、先行音素が破裂音でない場合、状態を共有する。
なお、第3実施形態を第1実施形態に適用するものとして説明したが、開示の技術はこれに限定されない。第3実施形態を第2実施形態に適用してもよい。
音素HMMの状態の数が音素HMMで表される音素の種類に属する音素の継続時間長に適切に対応している場合、HMMによる音声認識性能を向上させることが可能である。第3実施形態によれば、学習用音声データを認識させることにより取得される音素の種類毎の継続時間長の代表値に基づいて音素HMMの状態の数を調整するので、HMMによる音声認識性能を向上させることが可能となる。
また、第3実施形態によれば、トライフォンの状態の共有を決定するために、調整された音素HMMの状態の数を用いるため、状態の共有をより適切に決定することが可能となる。
[第1関連技術]
開示の技術と第1関連技術との差異は、開示の技術が、学習用音声データを認識させることにより取得される音素の種類毎の継続時間長の代表値に基づいて音素HMMの状態の数を調整することである。これに対し、第1関連技術は音素HMMの状態の数を調整しない。
原稿読み上げデータに対し、ワードスポッティングによる音声認識を行った場合、第1関連技術では、検出率が98%、適合率が93%であり、開示の技術では、検出率が99%、適合率が95%であった。すなわち、検出率及び適合率共に、開示の技術は第1関連技術よりも向上された性能を示す。開示の技術では、音素HMMの状態の数が音素HMMで表される音素の種類に属する音素の継続時間長に適切に対応するように調整されているためである。ワードスポッティングによる音声認識とは、予め登録されたキーワードまたは重要ワードのみを認識する音声認識である。
[第2関連技術]
第2関連技術では、グラフィカルユーザインターフェイスなどに表示される時間軸に沿った音声波形を目視しながら、ユーザがマニュアルで音声データの発声ラベルの境界を時間軸に沿って定義する。その後、当該発声ラベルの境界と音素HMMの境界とのずれが小さくなるように、音素HMMの状態の数を調整する。
学習用音声データとして原稿読み上げデータを用いた場合、第2関連技術では、発声ラベルの境界を定義するために音声データの時間長の合計の50倍程度の時間がかかる。一方、開示の技術では、ユーザがマニュアルで発声ラベルの境界の定義を行わない。したがって、開示の技術では、発声ラベルの境界の定義にかかる時間を節約することが可能となる。すなわち、開示の技術では、学習用音声データとして原稿読み上げデータを用いた場合、音声データの時間長の合計の50倍程度の時間を節約することが可能である。
また、学習用音声データとして、音声書き起こしデータを用いた場合は、第2関連技術及び開示の技術の双方で、発声ラベルを生成するために、音声データの時間長の合計の5倍程度の時間がさらにかかる。音声書き起こしデータを用いた場合、第2関連技術では、発声ラベルの境界の定義に音声データの時間長の合計の50倍程度の時間がかかるため、音声データの時間長の合計の55倍程度の時間がかかる。一方、開示の技術では、音声書き起こしデータを用いた場合でも、原稿読み上げデータを用いた場合と同様に、発声ラベルの境界の定義にかかる時間を節約することができるため、音声データの時間長の合計の5倍程度の時間しかかからない。すなわち、開示の技術では、学習用音声データとして音声書き起こしデータを用いた場合であっても、音声データの時間長の合計の50倍程度の時間を節約することが可能である。
したがって、学習用音声データとして原稿読み上げデータを用いた場合であっても、音声書き起こしデータを用いた場合であっても、開示の技術では、第2関連技術と比較して、処理にかかる時間及び労力を大幅に軽減することが可能である。
以上の実施形態に関し、さらに以下の付記を開示する。
(付記1)
時間軸方向に並んだ複数の状態を含み、かつ音素の各々を表す初期隠れマルコフモデルのパラメータを、音素の種類に対応する発声ラベルが付された学習用音声データを用いて、学習する学習部と、
前記学習部で学習された隠れマルコフモデルで表された音響モデルを用いて前記学習用音声データを音声認識することにより、各音素の継続時間長を取得する取得部と、
音素の種類毎に求めた継続時間長の代表値が第1所定値以上の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を増加するように調整する調整部と、
を含む音響モデル調整装置。
(付記2)
前記学習部は、前記調整部で状態の数が調整された後、隠れマルコフモデルのパラメータを学習し、
前記取得部は、前記学習部で学習された隠れマルコフモデルで表された音響モデルを用いて、前記学習用音声データを音声認識することにより、各音素の継続時間長を再度取得し、
前記調整部は、音素の種類毎に求めた継続時間長の代表値が前記第1所定値以上の種類に属する音素の隠れマルコフモデルに含まれる状態の数を増加するように調整する、
付記1に記載の音響モデル調整装置。
(付記3)
前記調整部は、音素の種類毎に求めた継続時間長の代表値が前記第1所定値より小さい第2所定値以下の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を減少するように調整する、
付記1または2に記載の音響モデル調整装置。
(付記4)
音素の種類毎の継続時間長の代表値は、音素の種類毎の継続時間長の平均値、音素の種類毎の継続時間長の中央値、音素の種類毎の継続時間長の最頻値、または音素の種類毎の継続時間長の平均値を当該音素を表す隠れマルコフモデルの状態の数から1を減算した値で除算した値である付記1〜3の何れかに記載の音響モデル調整装置。
(付記5)
前記学習部は、最尤推定または誤り最小基準を用いて学習する、付記1〜4の何れかに記載の音響モデル調整装置。
(付記6)
前記調整部は、音素の種類毎の継続時間長のばらつきを示す値が第3所定値以上である場合、当該音素を表す隠れマルコフモデルを、当該種類に属する音素の中で第4所定値以上の継続時間長を有する音素を表す第1隠れマルコフモデルと、当該種類に属する音素の中で前記第4所定値より小さい継続時間長を有する音素を表す第2隠れマルコフモデルと、に置換し、前記状態の数が調整された後、前記第1隠れマルコフモデルの状態の数と前記第2隠れマルコフモデルの状態の数とが同一である場合は、前記第1隠れマルコフモデル及び前記第2隠れマルコフモデルを置換前の隠れマルコフモデルと再度置換する、
付記1〜5の何れかに記載の音響モデル調整装置。
(付記7)
前記第4所定値は前記代表値である付記6に記載の音響モデル調整装置。
(付記8)
前後の音素を考慮したトライフォンが認識の処理単位として用いられる場合に、前記学習部は、前記トライフォンの状態の共有を決定するために、前記状態の数が調整された後の前記音素を表す隠れマルコフモデルの状態の数を用いる、
付記1〜7の何れかに記載の音響モデル調整装置。
(付記9)
時間軸方向に並んだ複数の状態を含み、かつ音素の各々を表す初期隠れマルコフモデルのパラメータを、音素の種類に対応する発声ラベルが付された学習用音声データを用いて、学習し、
学習された前記隠れマルコフモデルで表された音響モデルを用いて前記学習用音声データを音声認識することにより、各音素の継続時間長を取得し、
音素の種類毎に求めた継続時間長の代表値が第1所定値以上の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を増加するように調整する、
ことを含む音響モデル調整処理をコンピュータに実行させるためのプログラム。
(付記10)
前記音響モデル調整処理は、
前記状態の数が調整された後、隠れマルコフモデルのパラメータを学習し、
学習された前記隠れマルコフモデルで表された音響モデルを用いて、前記学習用音声データを音声認識することにより、各音素の継続時間長を再度取得し、
音素の種類毎に求めた継続時間長の代表値が前記第1所定値以上の種類に属する音素の隠れマルコフモデルに含まれる状態の数を増加するように調整する、
ことをさらに含む、付記9に記載のプログラム。
(付記11)
前記音響モデル調整処理は、
前記音素の種類毎に求めた継続時間長の代表値が前記第1所定値より小さい第2所定値以下の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を減少するように調整する、
ことをさらに含む、付記9または10に記載のプログラム。
(付記12)
前記音素の種類毎の継続時間長の代表値は、音素の種類毎の継続時間長の平均値、音素の種類毎の継続時間長の中央値、音素の種類毎の継続時間長の最頻値、または音素の種類毎の継続時間長の平均値を当該音素を表す隠れマルコフモデルの状態の数から1を減算した値で除算した値である付記9〜11の何れかに記載のプログラム。
(付記13)
隠れマルコフモデルの前記パラメータは、最尤推定または誤り最小基準を用いて学習される、付記9〜12の何れかに記載のプログラム。
(付記14)
前記音響モデル調整処理は、
前記音素の種類毎の継続時間長のばらつきを示す値が第3所定値以上である場合、当該音素を表す隠れマルコフモデルを、当該種類に属する音素の中で第4所定値以上の継続時間長を有する音素を表す第1隠れマルコフモデルと、当該種類に属する音素の中で前記第4所定値より小さい継続時間長を有する音素を表す第2隠れマルコフモデルと、に置換し、前記状態の数が調整された後、前記第1隠れマルコフモデルの状態の数と前記第2隠れマルコフモデルの状態の数とが同一である場合は、前記第1隠れマルコフモデル及び前記第2隠れマルコフモデルを置換前の隠れマルコフモデルと再度置換する、
ことをさらに含む、
付記9〜13の何れかに記載のプログラム。
(付記15)
前記第4所定値は前記代表値である付記14に記載のプログラム。
(付記16)
前後の音素を考慮したトライフォンが認識の処理単位として用いられる場合に、前記トライフォンの状態の共有を決定するために、前記状態の数が調整された後の前記音素を表す隠れマルコフモデルの状態の数を用いる、
付記9〜15の何れかに記載のプログラム。
10 コンピュータ
12 学習部
14 取得部
16 調整部
60 CPU
66 HMM調整プログラム

Claims (7)

  1. 時間軸方向に並んだ複数の状態を含み、かつ音素の各々を表す初期隠れマルコフモデルのパラメータを、音素の種類に対応する発声ラベルが付された学習用音声データを用いて、学習する学習部と、
    前記学習部で学習された隠れマルコフモデルで表された音響モデルを用いて前記学習用音声データを音声認識することにより、各音素の継続時間長を取得する取得部と、
    音素の種類毎に求めた継続時間長の代表値が第1所定値以上の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を増加するように調整する調整部と、
    を含む音響モデル調整装置。
  2. 前記学習部は、前記調整部で状態の数が調整された後、隠れマルコフモデルのパラメータを学習し、
    前記取得部は、前記学習部で学習された隠れマルコフモデルで表された音響モデルを用いて、前記学習用音声データを音声認識することにより、各音素の継続時間長を再度取得し、
    前記調整部は、音素の種類毎に求めた継続時間長の代表値が前記第1所定値以上の種類に属する音素の隠れマルコフモデルに含まれる状態の数を増加するように調整する、
    請求項1に記載の音響モデル調整装置。
  3. 前記調整部は、音素の種類毎に求めた継続時間長の代表値が前記第1所定値より小さい第2所定値以下の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を減少するように調整する、
    請求項1または2に記載の音響モデル調整装置。
  4. 音素の種類毎の継続時間長の代表値は、音素の種類毎の継続時間長の平均値、音素の種類毎の継続時間長の中央値、音素の種類毎の継続時間長の最頻値、または音素の種類毎の継続時間長の平均値を当該音素を表す隠れマルコフモデルの状態の数から1を減算した値で除算した値である請求項1〜3の何れか1項に記載の音響モデル調整装置。
  5. 前記調整部は、音素の種類毎の継続時間長のばらつきを示す値が第3所定値以上である場合、当該音素を表す隠れマルコフモデルを、当該種類に属する音素の中で第4所定値以上の継続時間長を有する音素を表す第1隠れマルコフモデルと、当該種類に属する音素の中で前記第4所定値より小さい継続時間長を有する音素を表す第2隠れマルコフモデルと、に置換し、前記状態の数が調整された後、前記第1隠れマルコフモデルの状態の数と前記第2隠れマルコフモデルの状態の数とが同一である場合は、前記第1隠れマルコフモデル及び前記第2隠れマルコフモデルを置換前の隠れマルコフモデルと再度置換する、
    請求項1〜4の何れか1項に記載の音響モデル調整装置。
  6. 前後の音素を考慮したトライフォンが認識の処理単位として用いられる場合に、前記学習部は、前記トライフォンの状態の共有を決定するために、前記状態の数が調整された後の前記音素を表す隠れマルコフモデルの状態の数を用いる、
    請求項1〜5の何れか1項に記載の音響モデル調整装置。
  7. 時間軸方向に並んだ複数の状態を含み、かつ音素の各々を表す初期隠れマルコフモデルのパラメータを、音素の種類に対応する発声ラベルが付された学習用音声データを用いて、学習し、
    学習された隠れマルコフモデルで表された音響モデルを用いて前記学習用音声データを音声認識することにより、各音素の継続時間長を取得し、
    音素の種類毎に求めた継続時間長の代表値が第1所定値以上の種類に属する音素を表す隠れマルコフモデルに含まれる状態の数を増加するように調整する、
    ことを含む音響モデル調整処理をコンピュータに実行させるためのプログラム。
JP2014111257A 2014-05-29 2014-05-29 音響モデル調整装置及びプログラム Active JP6274015B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2014111257A JP6274015B2 (ja) 2014-05-29 2014-05-29 音響モデル調整装置及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2014111257A JP6274015B2 (ja) 2014-05-29 2014-05-29 音響モデル調整装置及びプログラム

Publications (2)

Publication Number Publication Date
JP2015225296A true JP2015225296A (ja) 2015-12-14
JP6274015B2 JP6274015B2 (ja) 2018-02-07

Family

ID=54842050

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2014111257A Active JP6274015B2 (ja) 2014-05-29 2014-05-29 音響モデル調整装置及びプログラム

Country Status (1)

Country Link
JP (1) JP6274015B2 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022153504A1 (ja) * 2021-01-15 2022-07-21 日本電信電話株式会社 学習方法、学習システム及び学習プログラム

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06202687A (ja) * 1992-03-21 1994-07-22 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識用サブワードモデル生成方法
JP2005156593A (ja) * 2003-11-20 2005-06-16 Seiko Epson Corp 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06202687A (ja) * 1992-03-21 1994-07-22 A T R Jido Honyaku Denwa Kenkyusho:Kk 音声認識用サブワードモデル生成方法
JP2005156593A (ja) * 2003-11-20 2005-06-16 Seiko Epson Corp 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
堀貴明 他: "状態クラスタリングによるHM−Netの構造決定法の検討", 電子情報通信学会論文誌D-II, vol. Vol.J81-D-II,No.10, JPN6017046889, 25 October 1998 (1998-10-25), pages 2239 - 2248 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022153504A1 (ja) * 2021-01-15 2022-07-21 日本電信電話株式会社 学習方法、学習システム及び学習プログラム

Also Published As

Publication number Publication date
JP6274015B2 (ja) 2018-02-07

Similar Documents

Publication Publication Date Title
CN110675855B (zh) 一种语音识别方法、电子设备及计算机可读存储介质
CN106463113B (zh) 在语音辨识中预测发音
US8731926B2 (en) Spoken term detection apparatus, method, program, and storage medium
JP5282737B2 (ja) 音声認識装置および音声認識方法
JP6556575B2 (ja) 音声処理装置、音声処理方法及び音声処理プログラム
US10497362B2 (en) System and method for outlier identification to remove poor alignments in speech synthesis
US20170076715A1 (en) Training apparatus for speech synthesis, speech synthesis apparatus and training method for training apparatus
CN108630200B (zh) 声音关键字检测装置以及声音关键字检测方法
EP3734595A1 (en) Methods and systems for providing speech recognition systems based on speech recordings logs
JP5692493B2 (ja) 隠れマルコフモデル作成プログラム、情報記憶媒体、隠れマルコフモデル作成システム、音声認識システム及び音声認識方法
CN105654940B (zh) 一种语音合成方法和装置
CN106847259B (zh) 一种音频关键词模板的筛选和优化方法
JP6230606B2 (ja) 精度スコアを使用した音声認識性能を予測するための方法およびシステム
CN110808049B (zh) 语音标注文本修正方法、计算机设备和存储介质
JP5180800B2 (ja) 統計的発音変異モデルを記憶する記録媒体、自動音声認識システム及びコンピュータプログラム
JP5376341B2 (ja) モデル適応装置、その方法及びそのプログラム
JP4796460B2 (ja) 音声認識装置及び音声認識プログラム
JP6027754B2 (ja) 適応化装置、音声認識装置、およびそのプログラム
JP2016177045A (ja) 音声認識装置および音声認識プログラム
JP6274015B2 (ja) 音響モデル調整装置及びプログラム
JP6350935B2 (ja) 音響モデル生成装置、音響モデルの生産方法、およびプログラム
CN107924677B (zh) 用于异常值识别以移除语音合成中的不良对准的系统和方法
JP2008026721A (ja) 音声認識装置、音声認識方法、および音声認識用プログラム
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
JP2005156593A (ja) 音響モデル作成方法、音響モデル作成装置、音響モデル作成プログラムおよび音声認識装置

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20170206

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20171115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20171212

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20171225

R150 Certificate of patent or registration of utility model

Ref document number: 6274015

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150