JP2008176155A

JP2008176155A - 音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体

Info

Publication number: JP2008176155A
Application number: JP2007010853A
Authority: JP
Inventors: Kengo Fujita; 顕吾藤田; Tsuneo Kato; 恒夫加藤; Hisashi Kawai; 恒河井
Original assignee: KDDI Corp
Current assignee: KDDI Corp
Priority date: 2007-01-19
Filing date: 2007-01-19
Publication date: 2008-07-31
Anticipated expiration: 2027-01-19
Also published as: JP4986028B2

Abstract

【課題】探索処理以前に入力が音節強調発声であるか否かを判定できる音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体を提供する。
【解決手段】音節強調発声判定部１３は、音響分析部で抽出された入力音声のパワー(E)やn次元のMFCC（MFCCの０次項C0を含む）等の音響特徴量に基づいて入力音声の発声区間を検知する発声区間検知部１３１と、検知された発声区間の出現周期性を判定する周期性判定部１３２とを主要な構成とし、発声区間の出現周期性が所定の基準値よりも高いときに入力音声を音節強調発声と判定する。入力音声が音節強調発声と判定されると、利用者に通常達成での再発生を要求したり、あるいは音声認識用の統計モデルを音節強調発声用の統計モデルに切り換えて音声認識が実行される。
【選択図】図３

Description

本発明は、音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体に係り、特に、音節強調発声の認識に好適な音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体に関する。

図９は、従来の音声認識装置の主要部の構成を示した図であり、入力音声から音響特徴量を抽出する音響分析部５１と、抽出された音響特徴量に基づいて、予め作成された統計的な音響モデル５３や言語モデル５４に従って探索処理を行い、音声認識結果を出力する探索処理部５２とを含む。

前記音響分析部５１では、入力音声から長さTのフレームを切り出し、その特徴を表すn次元の音響特徴量を抽出する。この処理は、図１０に示したように、ΔTずつフレーム位置をシフトしながら進め、音声の終端まで実行する。

探索処理部５２では、言語モデルで定義される遷移可能な単語列のうち、入力音声に対していずれが最も確からしいかを探索する。言語モデルとしては、単語の遷移パターンを予め定義しておく固定文法モデル、あるいはある時刻までに確定した単語列に従い次に遷移可能な単語が確率的に定まる確率文法モデルのいずれかが用いられる。

例えば、図１１に一例を示した固定文法モデルでは、初めの無音状態「sil」から遷移可能な単語は「伊藤」、「糸井」、「今井」、「土井」の４通りであり、その次に唯一遷移可能な単語「です」を経由して、最終的に再び無音状態「sil」へ遷移するような単語列が定義されている。即ち、「[sil]｛伊藤／糸井／今井／土井｝です[sil]」のうち、最尤単語列がいずれかを探索することになる。

固定文法モデルおよび確率文法モデルのいずれを用いる場合でも、フレーム毎の音響特徴量を用いた探索処理は、単語を更に細分化した音素単位で進められる。各々の単語は、音素毎のHMM状態系列を連結した形で表される。図１２に、単語「今井」のHMM状態系列を示す。

「今井」の音素表現は「i／m／a／i」であるが、一般に探索処理性能向上のため、図１２のような前後の音素に依存したHMM状態系列が用いられる。ここで、「sil-i+m」は音素「i」の先行音素が「sil」、後続音素が「m」である場合のHMM状態系列を表す。各々のHMM状態には自身への遷移(自己遷移)と右隣のHMM状態への遷移(LR遷移)が許されており、自己遷移確率およびLR遷移確率が音響モデルに記述されている。また、音響モデルには、フレーム毎に得られる音響特徴量の各HMM状態に対する尤もらしさ(音響尤度)を算出するための確率分布が記述されている。

探索処理は、フレーム毎にそのフレームで考慮すべき全てのHMM状態について、自己遷移、LR遷移それぞれの場合の遷移確率と音響尤度の和(累積尤度)を算出し、HMM状態遷移として尤もらしい(累積尤度の高い)遷移を選ぶことを繰り返し、最終的に最も累積尤度の高いHMM状態系列を決定することに相当する。このように最尤のパスを探索するアルゴリズムはViterbiアルゴリズムと呼ばれる。

認識結果が誤りであったために利用者の再発声が必要となる場合、利用者による最初の発声が、生活の中で人間を相手に発するような通常発声であったとしても、人間を相手に聞き取り易く発声するのと同様の意図で、再発声が各音節を区切って強調する音節強調発声となる現象がしばしば見られる。

図１３，１４は、同一発声者による同一発声内容「神奈川」の通常発声「かながわ」の波形、および音節強調発声「か・な・が・わ」の波形をそれぞれ示している。音節強調発声では、通常発声には見られない発声途中の音節間の無音区間が存在し、音節を個別に発声したような波形となっていることがわかる。

音節強調発声は、通常発声のように発声区間が連続しておらず、図１４に示したように各音節間に無音区間が存在する。しかしながら、通常の音声認識装置では、図１２に示したように言語モデルに記述された各単語のHMM状態系列が音節間に「sil」への遷移を許していないため、音節強調発声に対しては、音節間の無音区間では無理に何らかの音素が存在するものとして探索処理を進めなければならない。その結果、音節間の無音区間の音響尤度の低下により、発声内容に対応するHMM状態系列の累積尤度が低下し、誤認識の原因となり得る。

このような技術課題に対して、従来は音節強調発声の音節間の無音区間に対して、単語のHMM状態系列の各音節の後に「sil」への遷移を許すような記述を言語モデルまたは音響モデルに加えることで対応している。

特許文献１には、HMM状態系列に後続音素環境としてスキップ可能な無音への遷移を追加する等、通常発声を対象としたHMM状態系列に複数の音節強調発声を対象としたHMM状態系列を追加すること(マルチパス化)により、無音の挿入や、通常発声からの音節間の音響的特徴の変形が起こる音節強調発声に対しても認識性能を維持しようとする技術が開示されている。

特許文献２には、上記特許文献１が対象とする日本語のように、音節が必ず母音の後で区切られる言語のみならず、英語を始めとしたいずれの音素の後でも音節を区切ることができる言語に対しても、各音節後に無音の挿入を許すモデルを利用することにより、音節強調発声に対して認識性能を維持しようとする技術が開示されている。
特開２００２−１８９４９４号公報特開２００６−２４３１２３号公報

図１５は、前記図１２の「sil-i+m」, 「i-m+a」と連続するHMM状態系列に対して、音節「i」の後に「sil」への遷移を付加したものである。連続する２音節「i・ma」の前半音節「i」終了時には「sil-i+m」に加えて、「sil-i+sil」のように後の「sil」環境依存であるHMM状態系列、または「sil-i+＊」のように後環境依存なしのHMM状態系列を経由して1状態の「sil」へと遷移することが許されている。それに伴い、後半音節「ma」開始時には「i-m+a」に加えて前の「sil」環境依存である「sil-m+a」への遷移が付加されている。

また、前半音節終了時の１状態の「sil」への遷移はスキップすることも可能である。音節強調発声が通常発声と最も異なる点は音節間の無音区間の存在であるが、この無音区間の影響により個別に音節を発声する場合と通常発声の中間のような音響的特徴が現れる場合もある。図１５のように幾通りもの遷移を可能としているのは、音節強調発声のこういった通常発声との相違への対応策である。

しかしながら、全ての単語に含まれる各音節について図１５のような複数の遷移を考慮することは探索処理に要する処理量の増大を招き、認識結果を得るまでの時間に遅延が生ずる可能性がある。また、入力が通常発声の場合でも同様の言語モデルを用いるため、音節強調発声用の不要なHMM状態系列の存在による探索空間の広がりが原因で認識性能を低下させることにも繋がる。

このように、音声認識装置への入力が音節強調発声であった場合、通常発声を対象とした探索処理では誤認識の可能性が高くなる。誤認識による悪影響を防ぐために、入力が音節強調発声であった場合、探索処理を実行せず利用者に通常発声を再度促す、あるいは音節強調発声を対象とした探索処理に切り替えるといった対策が考えられるが、いずれも探索処理以前に入力が音節強調発声であるか否かを判定する必要がある。

本発明の目的は、上記した従来技術の課題を解決し、探索処理以前に入力が音節強調発声であるか否かを判定することを可能にした音声認識装置およびその発声判定方法、発声判定プログラムならびにその記憶媒体を提供することにある。

上記した目的を達成するために、本発明の音声認識装置は、以下のような手段を講じた点に特徴がある。
(1)入力音声の音響特徴量を抽出する音響分析手段と、抽出された音響特徴量に基づいて音声認識を行うための統計モデルと、抽出された音響特徴量の周期性に基づいて、入力音声が音節強調発声であるか否かを判定する音節強調発声判定手段と、音響特徴量に前記統計モデルを適用して探索処理を実行する探索処理部とを備え、入力音声が音節強調発声であるか否かの判定結果に応じて固有の音声認識動作を実行することを特徴とする。
(2)入力音声が音節強調発声と判定されたときに、発声者に対して再度の発声を要求する手段を含むことを特徴とする。
(3)通常発声に固有の音響特徴量に対応した第１統計モデルと、音節強調発声に固有の音響特徴量に対応した第２統計モデルとを備え、探索処理部は、入力音声が音節強調発声と判定されたときに第２統計モデルを用いて探索処理を実行することを特徴とする。

本発明によれば、以下のような効果が達成される。
(1)利用者の発声が通常発声および音節強調発声のいずれであるかを探索処理の開始前に判定できるので、利用者の発声に対応した適性処理へ短時間で移行できるようになる。
(2)利用者の発声が通常発声および音節強調発声のいずれであるかを、音響特徴量の周期性に着目して判定するようにしたので、少ない処理負荷で正確な判定が可能になる。
(3)利用者の発声が音節強調発声と判定されると、利用者に通常発声での再発声を促すようにしたので、通常発声に基づく正確な音声認識が可能になる。
(4)通常発声用の統計モデルと音節強調発声用の統計モデルとを備え、利用者の発声が通常発声および音節強調発声のいずれであるかの応じて統計モデルを使い分けるようにしたので、利用者が通常発声および音節強調発声のいずれで発声しても良好な音声認識が可能になる。

以下、図面を参照して本発明の最良の実施の形態について詳細に説明する。図１は、本発明に係る音声認識装置の第１実施形態の主要部の構成を示したブロック図である。

入力制御部１１は、後に詳述する音節強調発声判定部１３において入力が音節強調発声であると判定されたときに、利用者に対して通常発声での再発声を要求するメッセージとして、例えば「もう一度、通常会話するときのように発声して下さい」を出力する再発生要求部１４を含む。音響分析部１２は、入力音声から音響特徴量を抽出する。

音節強調発声判定部１３は、音響分析部１２で抽出された音響特徴量を用いて、一定の間隔で発声される各音節の出現周期性を検出し、入力音声が音節強調発声であるか否かを判定する。探索処理部１５は、抽出された音響特徴量に基づいて、予め作成された統計的な音響モデル１６および言語モデル１７に従って探索処理を行い、音声認識結果を出力する。

図２は、本発明に係る音声認識装置の第２実施形態の主要部の構成を示したブロック図であり、前記と同一の符号は同一または同等部分を表している。

第１音響モデル１６および第１言語モデル１７には、通常発声の音響特徴量に基づいて音声認識を行うための統計モデルが登録されている。第２音響モデル１８および第２言語モデル１９には、音節強調常発声の音響特徴量に基づいて音声認識を行うための統計モデルが登録されている。統計モデル選択部２０は、入力音声が通常発声であれば第１統計モデル１６，１７を選択し、音節強調発声であれば第２統計モデル１８，１９を選択する。前記探索処理部１５は、選択された統計モデルを用いて探索処理を実行する。

図３は、前記音節強調発声判定部１３の構成を模式的に表現した図であり、前記音響分析部１２で抽出された入力音声のパワー(E)やn次元のMFCC（MFCCの０次項C0を含む）等の音響特徴量に基づいて入力音声の発声区間を検知する発声区間検知部１３１と、検知された発声区間の出現周期性を判定する周期性判定部１３２とを主要な構成とし、入力音声が音節強調発声であるか否かの判定結果を、前記図１の第１実施形態では入力制御部１１へ、前記図２の第２実施形態では統計モデル選択部２０へ、それぞれ出力する。

次いで、前記音節強調発声判定部１３の動作について詳細に説明する。音声認識でよく用いられる音響特徴量のひとつとして、ケプストラム領域の特徴量（MFCC：Mel Frequency Cepstrum Coefficient）およびパワーが挙げられる。MFCCとは、フレーム毎に音声データのFFT分析で得られるパワースペクトルに対してメルスケールのフィルタバンクを施し、周波数軸変換されたパワースペクトルに対して離散コサイン変換(DCT)を実行することにより抽出される、スペクトル包絡を表すパラメータであり、その詳細は「音声認識システム」（野清宏、伊藤克亘、河原達也、武田一哉、山本幹雄編著，オーム社出版局; ISBN4-274-13228-5）などで説明されている。

音声認識では、入力音声のスペクトル特徴量を離散コサイン変換し、ケプストラム領域において３つの処理（直流成分の除去，リフタリング処理およびケプストラム平均除去) を実行することで得られる１２次元のMFCC(MFCC1，MFCC2，…MFCC12)およびその１次時間微分(ΔMFCC1，ΔMFCC2，…ΔMFCC12)、ならびにパワーEの１次時間微分(ΔE)を併せた２５次元の音響特徴量、さらには各MFCCの２次時間微分(ΔΔMFCC1，ΔΔMFCC2，…ΔΔMFCC12，ΔΔE)までを加えた３８次元のMFCCが音響特徴量として利用されることが多い。

ΔEはパワーの時間的変化を表し、無音区間から発声区間に切り替わる境界では大きくパワーが増加するため、ΔEは大きな正のピークをもつ。一方、発声区間から無音区間への境界においてΔEは絶対値の大きな負のピークをもつ。したがって、ΔEの正負のピーク（または、最大振幅）により発声区間と無音区間とを識別することが可能となる。

図４，５に、前記図１３，１４に波形を示した同一発声者による同一発声内容「神奈川」の通常発声および音節強調発声のΔE・|ΔMFCC_1|の変化の様子を示す。両発声とも発声区間の開始時には正のピークが、終了時には負のピークが現れていることがわかる。

図４，５を比較すると、図４の通常発声ではそれぞれの音節に対応するピークが連続しているのに対して、図５の音節強調発声では、ほぼ一定の周期毎にピークが現れている。そして、ピークの出現が完全に周期的である場合、即ちピーク間隔が完全に一定である場合、音節強調発声についてΔE・|ΔMFCC_1|の自己相関をとると、遅れ幅τがこの周期の整数倍に一致するときにピークが現れることとなる。

しかしながら、実際にはピーク間隔には揺らぎが存在し、かつΔE・|ΔMFCC_1|のピークは非常にシャープであるため、自己相関にピークがはっきりと現れない可能性が高い。このような場合には、図６に示したように、一定フレーム毎に、その一定区間内での最大振幅で当該区間を代表させることでΔE・|ΔMFCC_1|をピークピッキング（矩形波化）し、等ピーク間隔の揺らぎを吸収する手法を用いて、その自己相関結果にピークを出現させることができる。前記一定区間は、前記図１０に関して説明した音声認識のフレーム処理のように、その一部分が重複していても良いし、重複せずに連続していても良い。

図７は、揺らぎを吸収した場合のΔE・|ΔMFCC_1|の自己相関結果を示した図であり、大きなピークが現れる遅れ幅τp1，τp2，τp3がほぼ一定の間隔であることがわかる。ΔE・|ΔMFCC_1|のピーク間隔が一定に近ければ近いほど、自己相関におけるそれぞれのピークの値も大きくなる。したがって、例えば、遅れ幅τp1の第１のピーク、すなわち一次の自己相関が予め定めた閾値を超えた場合に入力音声が音節強調発声であるとするような判定基準を設けることができる。

そこで、本実施形態では前記発声区間検知部１３１が、前記図６に関して説明した時系列情報に基づいて発声区間を検知し、前記周期性判定部１３２が、この時系列情報の一次の自己相関が予め定めた閾値を超える場合に、入力音声が音節強調発声であると判定するようにしている。

また、前記パワーEの代わりにゼロ次項のMFCC、すなわち各フレームにおけるスペクトルの直流成分に対応するC0を用いて、同一発声のΔC0・|ΔMFCC_1|の自己相関をとった場合も、図８に示すように、スケールは異なるものの図７のΔE・|ΔMFCC_1|の自己相関と同様の変化を示す。したがって、ΔEに代えてΔC0を用い、同様に入力が音節強調発声であるか否かを判定するようにしても良い。

さらに、上記した実施形態では、入力音声のパワーEの時間変化率(ΔE)または入力音声のMFCCの０次項(C0)の時間変化率(ΔC0)に、入力音声のMFCCのn各次元分の時間変化率の絶対値同士の積(ΔMFCC_1)を乗じ、これを所定の一定区間ごとに当該区間の最大振幅で代表して得られる時系列情報に基づいて発声区間を検知するものとして説明したが、本発明はこれのみに限定されるものではなく、以下のような変形が可能である。

第１の変形例として、発声区間を入力音声のパワー(E)の時間変化率(ΔE)のみに基づいて検知するようにしても良い。

第２の変形例として、発声区間を入力音声のMFCCの０次項(C0)の時間変化率(ΔC0)のみに基づいて検知するようにしても良い。

第３の変形例として、発声区間を入力音声のパワーEの時間変化率(ΔE)または入力音声のMFCCの０次項(C0)の時間変化率(ΔC0)に、入力音声のMFCCのn次元分の時間変化率の絶対値同士の積(ΔMFCC_1)を乗じて得られる時系列情報に基づいて検知するようにしても良い。

第４の変形例として、発声区間を入力音声のパワーEの時間変化率(ΔE)または入力音声のMFCCの０次項(C0)の時間変化率(ΔC0)に、入力音声のMFCCのn次元分の時間変化率の絶対値同士の積(ΔMFCC_1)を乗じ、これを平滑化して得られる時系列情報に基づいて検知するようにしても良い。

本発明に係る音声認識装置の第１実施形態のブロック図である。本発明に係る音声認識装置の第２実施形態のブロック図である。音節強調発声判定部の構成を模式的に表現した図である。通常発声「かながわ」のΔE・|ΔMFCC_1|の変化を示した波形図である。音節強調発声「か・な・が・わ」のΔE・|ΔMFCC_1|の変化を示した波形図である。図５の波形に揺らぎを吸収する手法を適用して得られた波形図である。揺らぎが吸収されたΔE・|ΔMFCC_1|の自己相関結果を示した図である。揺らぎが吸収されたΔC0・|ΔMFCC_1|の自己相関結果を示した図である。従来の音声認識装置の主要部の構成を示した図である。音響分析部での音響特徴量の抽出方法を説明するための図である。固定文法モデルの構造を模式的に表現した図である。単語「今井」のHMM状態系列を示した図である。通常発声「かながわ」の波形図である。音節強調発声「か・な・が・わ」の波形図である。「sil」への遷移を付加したHMM状態系列を示した図である。

符号の説明

１１…入力制御部，１２…音響分析部，１３…音節強調発声判定部，１４…再発生要求部，１５…探索処理部，１６…音響モデル，１７…言語モデル，１８…第２音響モデル，１９…第２言語モデル，２０…統計モデル選択部

Claims

入力音声の音響特徴量を抽出する音響分析手段と、
前記抽出された音響特徴量に基づいて音声認識を行うための統計モデルと、
前記抽出された音響特徴量の周期性に基づいて、入力音声が音節強調発声であるか否かを判定する音節強調発声判定手段と、
前記音響特徴量に前記統計モデルを適用して探索処理を実行する探索処理部とを含み、
入力音声が音節強調発声であるか否かの判定結果に応じて固有の音声認識動作を実行することを特徴とする音声認識装置。
前記音節強調発声判定手段が、
抽出された音響特徴量に基づいて入力音声の発声区間を検知する発声区間検知手段と、
前記発声区間の出現周期性を判定する周期性判定手段とを含み、
前記出現周期性が所定の基準値よりも高いときに、入力音声を音節強調発声と判定することを特徴とする請求項１に記載の音声認識装置。
前記周期性判定手段は、前記発声区間の出現周期の自己相関に基づいて出現周期性を判定することを特徴とする請求項２に記載の音声認識装置。
前記周期性判定手段は、前記発声区間の出現周期の一次の自己相関に基づいて出現周期性を判定することを特徴とする請求項３に記載の音声認識装置。
入力音声が音節強調発声と判定されたときに、発声者に対して再度の発声を要求する手段を含むことを特徴とする請求項１ないし４のいずれかに記載の音声認識装置。
通常発声に固有の音響特徴量に対応した第１統計モデルと、
音節強調発声に固有の音響特徴量に対応した第２統計モデルとを備え、
前記探索処理部は、入力音声が音節強調発声と判定されたときに、前記第２統計モデルを用いて探索処理を実行することを特徴とする請求項１ないし４のいずれかに記載の音声認識装置。
前記音響特徴量が入力音声のパワー(E)を含み、
前記発声区間検知手段が、入力音声のパワーの時間変化率(ΔE)に基づいて発声区間を検知することを特徴とする請求項２ないし６のいずれかに記載の音声認識装置。
前記音響特徴量が入力音声のMFCCを含み、
前記発声区間検知手段が、入力音声のMFCCの０次項の時間変化率(ΔC0)に基づいて発声区間を検知することを特徴とする請求項２ないし６のいずれかに記載の音声認識装置。
前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
前記発声区間検知手段が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの０次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じて得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項２ないし６のいずれかに記載の音声認識装置。
前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
前記発声区間検知手段が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの０次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じ、これを平滑化して得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項２ないし６のいずれかに記載の音声認識装置。
前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
前記発声区間検知手段が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの０次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じ、これを所定の一定区間ごとに当該区間の最大振幅で代表して得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項２ないし６のいずれかに記載の音声認識装置。
入力音声が音節強調発声であるか否かを判定する発声判定方法において、
入力音声の音響特徴量を抽出する手順と、
前記抽出された音響特徴量の周期性に基づいて、入力音声が音節強調発声であるか否かを判定する手順とを含むことを特徴とする発声判定方法。
前記入力音声が音節強調発声であるか否かを判定する手順が、
抽出された音響特徴量に基づいて入力音声の発声区間を検知する手順と、
前記発声区間の出現周期性を判定する手順とを含み、
前記出現周期性が所定の基準値よりも高いときに、入力音声を音節強調発声と判定することを特徴とする請求項１２に記載の発声判定方法。
前記出現周期性を判定する手順は、前記発声区間の出現周期の自己相関に基づいて出現周期性を判定することを特徴とする請求項１３に記載の発声判定方法。
前記出現周期性を判定する手順は、前記発声区間の出現周期の一次の自己相関に基づいて出現周期性を判定することを特徴とする請求項１３に記載の発声判定方法。
前記音響特徴量が入力音声のパワー(E)を含み、
前記発声区間を検知する手順が、入力音声のパワーの時間変化率(ΔE)に基づいて発声区間を検知することを特徴とする請求項１３ないし１５のいずれかに記載の発声判定方法。
前記音響特徴量が入力音声のMFCCを含み、
前記発声区間を検知する手順が、入力音声のMFCCの０次項の時間変化率(ΔC0)に基づいて発声区間を検知することを特徴とする請求項１３ないし１５のいずれかに記載の発声判定方法。
前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
前記発声区間を検知する手順が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの０次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じて得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項１３ないし１５のいずれかに記載の発声判定方法。
前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
前記発声区間を検知する手順が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの０次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じ、これを平滑化して得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項１３ないし１５のいずれかに記載の発声判定方法。
前記音響特徴量が入力音声のパワー(E)およびn次元のMFCCを含み、
前記発声区間を検知する手順が、入力音声のパワーの時間変化率(ΔE)および入力音声のMFCCの０次項の時間変化率(ΔC0)のいずれかに、入力音声のMFCCのn次元分の時間変化率ΔMFCCの絶対値同士の積を乗じ、これを所定の一定区間ごとに当該区間の最大振幅で代表して得られる時系列情報に基づいて発声区間を検知することを特徴とする請求項１３ないし１５のいずれかに記載の発声判定方法。
前記請求項１２ないし２０のいずれかに記載の発声判定方法をコンピュータに実行させる発声判定プログラム。
前記請求項２１に記載の発声判定プログラムをコンピュータによる読み出し可能に記憶した記憶媒体。