JP4825290B2 - 無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム - Google Patents

無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム Download PDF

Info

Publication number
JP4825290B2
JP4825290B2 JP2009202021A JP2009202021A JP4825290B2 JP 4825290 B2 JP4825290 B2 JP 4825290B2 JP 2009202021 A JP2009202021 A JP 2009202021A JP 2009202021 A JP2009202021 A JP 2009202021A JP 4825290 B2 JP4825290 B2 JP 4825290B2
Authority
JP
Japan
Prior art keywords
phoneme
unvoiced
determination
devoicing
boundary
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2009202021A
Other languages
English (en)
Other versions
JP2011053427A (ja
Inventor
孝 中村
秀之 水野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2009202021A priority Critical patent/JP4825290B2/ja
Publication of JP2011053427A publication Critical patent/JP2011053427A/ja
Application granted granted Critical
Publication of JP4825290B2 publication Critical patent/JP4825290B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Description

この発明は波形接続型の音声合成技術や音声認識技術に用いられる音素セグメンテーションにおける無声化された音素の位置検出及びセグメンテーションを行う装置、方法、及びプログラムに関する。
発声される音声中のある音素はその前後の音素の影響、発声の個人差、訛りのような地域による発声傾向、などにより無声化される場合がある。例えば、文章「記者は」を発声し、得られた音声波形をその文章「記者は」に従って例えば音素列「KY/I/SY/y/A/W/A」にセグメンテーションしたとする。しかし実際には無声音KYとSYで挟まれた有声音Iは無声化してしまい(即ち音素Iの明確な発音がなされない)、音声波形上のセグメンテーションされた音素ラベルIに対応する波形部分には音素Iの波形が存在しない場合がある。このようなセグメンテーション「KY/I/SY/y/A/W/A」をそのまま使用した場合、音声合成の品質あるいは音声認識の精度が低くなる可能性がある。従って、音声波形中の無声化音素を検出し、セグメンテーションを修正することが望まれる。
非特許文献1に示されている従来の無声化検出技術では、音素の統計的なスペクトルパターンを分布として用意し、与えられた音声のスペクトルパターンの尤度をHMMに基づいて計算する際に、無声化している場合と、していない場合の2種類のスペクトルパターンで尤度を求め、無声化しているパターンの方が尤度の高い場合に無声化していると判定している。
非特許文献2には、数量化II類を用いて無声化の種々の要因の寄与を分析し、無声化の推定を行うことが示されている。
特許第3841705号 特許第3892379号 特許第4125322号
河井恒、戸田智基、「波形接続形音声合成のための自動音素セグメンテーションの評価」、電子情報通信学会技術研究報告、SP2002-170, pp.5-10, Jan.2003。 武田一哉、桑原尚夫、「母音無声化の要因分析と予測方法の検討」、音講論集、105-106(1987.10)。
非特許文献1による従来技術では、無声化の有無で尤度に差が大きく出ない場合(例えば調音結合により無声化しやすい母音の特徴が前後の子音に類似する場合など)に無声化検出精度が劣化する可能性がある。
非特許文献2による方法では、先行・後続音節、アクセント核の位置、単語モーラ長などの、発声内容から無声化要因を設定しているため発声内容は同じであるが、個人差によって無声化する/しないが変動する場合の対応が難しい問題がある。
この発明の目的は無声化の有無の判別精度が高く、かつ個人差の影響が少ない無声化位置検出装置及び方法、それを用いたセグメンテーション装置及び方法、プログラムを提供することである。
この発明によれば、無声化判定対象音素をルールにより決定し、無声化判定対象音素を含む無声化判定範囲を設定する。有声性尺度を無声化検出対象音声に対し求め、有声性尺度に基づいて予め決めた閾値を無声化検出対象範囲での有声性尺度と比較して無声化判定対象音素が無声化されているか否かの判定を行う。
有声性尺度を用いることにより、発声内容が同一だが無声化の有無が状況により異なる場合でも精度よく無声化検出を行うことが可能となる。
また、無声化検出に用いる閾値を自動的に求めることができるので、検出対象音声の状況に柔軟に対応可能である。
さらに、無声化検出を行うことで、推定すべき音素境界がより正確になり、音素境界時刻の推定精度の向上が期待できる。
この発明による無声化位置検出装置及びセグメンテーション装置のブロック構成図。 この発明による装置の動作の概要を示すフロー図。 無声化判定ルールの例を示す表。 無声化判定対象決定部のブロック構成図。 無声化判定部のブロック構成図。 Aは音声「記者は」のスペクトルパターンの例、Bは入力音素ラベル列の例、Cは有声性尺度と閾値の関係、Dは修正された音素ラベル列、Eは再セグメンテーションによる音素ラベル列を示す図。 Aは入力音声「会議室に」のスペクトルパターン、Bは入力音声信号の有声性尺度、Cは初期音素ラベル列、Dは第1の閾値決定方法における音素分類、Eは第2の閾値決定方法における音素分類を示す図。 無声化判定対象決定部と無声化判定部による処理過程を示すフロー図。 音素境界テンプレートを用いた音素モデル表の例を示す図。 音素境界テンプレートの作成方法を説明するための図。 音素境界テンプレートを用いて音素境界を決める方法を説明するための図。 音素境界テンプレートを用いた再セグメンテーションの処理手順を示すフロー図。 音素モデル表の例を示す図。 音素境界推定部による処理過程を示すフロー図。
図1の全体はセグメンテーション装置200のブロック構成図を示しており、無声化位置検出装置100と、音声特徴量抽出部21と、音声特徴量蓄積部22と、音素境界推定部23と、音素モデル記憶部24とから構成されている。無声化位置検出装置100は有声性尺度抽出部11と、有声性尺度蓄積部12と、無声化判定対象決定部13と、無声化判定対象決定ルール記憶部14と、無声化判定部15とから構成されている。
手動又は自動で初期セグメンテーションされた入力音声信号Ssは有声性尺度抽出部11と音声特徴量抽出部21に与えられ、初期セグメンテーションされた入力音声信号Ssの初期音素ラベル列Lpiはその音素ラベル境界時刻の情報と共に無声化判定対象決定部13と無声化判定部15に与えられる。以降の説明において、音素ラベル列は各音素ラベル境界時刻の情報も備わっているものとする。これら入力情報に基づいてこの発明による無声化位置検出装置100とセグメンテーション装置200の動作の概要を図2を参照して説明する。なお、時刻は音声信号の一連のフレームのそれぞれの位置を識別できる標識であればよく、例えばフレーム番号でよい。
有声性尺度抽出部11は初期セグメンテーションされた入力音声信号Scからフレーム毎に音声信号の有声音らしさを表す尺度である有声性尺度を抽出し、有声性尺度蓄積部12に蓄積する(ステップS11)。無声化判定対象決定部13は初期セグメンテーションされた入力音声信号Ssの音素ラベル列Lpiに対し、無声化判定対象決定ルール記憶部14に予め格納されている無声化判定対象決定ルールを参照し、音素ラベル列Lpiに存在する無声化判定対象音素Pxを検出し、その無声化判定対象音素Pxを含む無声化判定範囲Ruを決める(ステップS12)。無声化判定部15は決定された無声化判定範囲Ruにおける入力音声信号の有声性尺度Dと予め決めた閾値Dthを比較することにより、無声化判定対象音素Pxが無声化音素であるか否かを判定し、無声化音素であった場合は無声化音素ラベルを削除すると共に音素ラベルの境界時刻を修正し、修正音素ラベル列Lpcを生成する(ステップS13)。修正された音素ラベル列Lpcは無声化位置検出装置100の出力とされる。ステップS11,S12,S13は無声化位置検出装置100による処理ステップS10を構成している。
更にこの発明では、音声特徴量抽出部21により入力音声信号Ssからフレーム毎に音声特徴量Csを抽出して音声特徴量蓄積部22に蓄積し(ステップS20)、音素境界推定部23は無声化位置検出装置100から出力された修正音素ラベル列Lpcに従って、音素モデル記憶部24に予め格納されている音声特徴量を使って音素又は音素境界の特徴を表した各音素又は各音素境界の特徴を表す音素モデルMpを参照して、フレーム毎に得られている入力音声信号Ssの音声特徴量Csの列の音素境界を推定して再セグメンテーションし、最終的な音素ラベル列Lpfを出力する。
以下、各部の詳細を説明する。
有声性尺度抽出部11は、入力音声信号をフレーム毎に分析して有声性尺度Dを出力する。有声性尺度としては入力音声信号の有声音らしさを表すものであればどのようなものでもよく、例えば特許文献1〜3に示されている入力音声信号のフレーム毎の調波構造の占有度が表す周期性指標を用いてもよい。
無声化判定対象決定部13は入力された初期音素ラベル列Lpiから規則(ルール)に基づいて実際の入力音声信号中において無声化されている可能性のある音素を無声化判定対象音素Pxとして検出する。音素が無声化する条件は様々あるが、一例として音素の組み合わせが無声音/狭母音/無声音となった場合に狭母音が無声化し易い。ここではA,Bをそれぞれ無声音とし、Xを狭母音としてそのような音素の組み合わせをA/X/B(以下、AXBと簡略する)と表し、予め音素の組み合わせAXBをルールとして無声化判定対象決定ルール記憶部14に格納しておく。図3に示す表14TはルールAXBの例を示しており、無声化する狭母音U及びIの例を示しているが、その他の母音も無声化する場合がある。
無声化判定対象決定部13は図4に示すように、比較部131と範囲決定部132により構成されており、比較部131は入力音素ラベル列Lpiの着目する1つの音素Pjとその前後音素Pj-1, Pj+1の組(Pj-1, Pj, Pj+1)がテーブル14Tに存在するかチェックし、存在する場合は、着目する音素Pjが無声化判定対象音素Pxであると決定し出力する。範囲決定部132は例えばその音素Pj(=Px )の前の音素Pj-1の始端時刻から後の音素Pj+1の終端時刻を無声化判定範囲Ruと決定し出力する。無声化判定範囲Ruの決め方はこの例に限らず、無声化判定対象音素Pxを含む範囲であればどのように決めてもよい。
具体例として、図6の(A)は入力音声が「記者は」の場合のセグメンテーションされた入力音声信号スペクトルパターンを示し、縦軸は周波数fであり、横軸は時間である。このパターンに沿って(B)に入力音素ラベル列Lpiを示す。この例では音素列KY/I/SYが比較部131においてルールAXBにより検出され、音素Iが無声化判定対象音素Pxと決定される。更に、範囲決定部132により音素Iの前の音素KYの始端から後の音素SYの終端までを無声化判定範囲Ruと決定される。
無声化判定部15は、例えば図5に示すように閾値決定部151と無声化判定処理部152とを有している。閾値決定部151は有声性尺度蓄積部12から読み出した有声性尺度Dと入力音声ラベル列Lpiとに基づいて閾値Dthを決める。閾値Dthの具体的な決定方法の例を図7を参照して説明する。
[第1の閾値決定方法]
図7の(A)は入力音声が「会議室に」の場合のスペクトルパターンであり、(B)は有声性尺度蓄積部12に保存されている入力音声信号の有声性尺度Dを示しており、(C)は入力音声信号の初期音素ラベル列Lpiを示している。第1の閾値決定方法では、入力音声信号の全音素を(D)の音素分類に示すように無声音か有声音かのいずれかに分類し、無声音の全領域に渡る有音性尺度Dの平均値D1と、有声音の全領域に渡る有声性尺度Dの平均値D2を求め、これらにより閾値Dth
th=W1D1+W2D2
として求める。ただし、W1, W2は任意の重み係数であり、W1+W2=1となるよう0〜1の範囲で予備実験的に決めてもよい。
無声化判定処理部152は有声性尺度Dと無声化判定対象決定部13(図1)からの無声化判定対象音素Pxと無声化判定範囲Ruと閾値決定部151からの閾値Dthとが与えられ、図6(C)に示すように無声化判定範囲Ruにおける有声性尺度Dを閾値Dthと比較し、その比較結果に基づいて無声化判定対象Pxが無声化音素であるか否かを判定する。判定方法の一例として、無声化判定範囲Ru内の各フレームの有声性尺度Dと閾値Dthを比較し、有声性尺度Dが閾値Dthを超えないフレームの数の合計が判定範囲Ru内の全フレーム数の所定の割合以上であれば無声化判定対象音素Pxは無声化していると判定する。判定基準である所定の割合は実験的に決めるが、例えば60〜90%程度が妥当である。この判定方法は一例であり、他にも様々な方法が容易に考えられる。例えば無声化判定範囲Ru内の全フレームの有声性尺度の平均を閾値と比較してもよい。
無声化判定処理部152は無声化判定対象音素Pxが無声化音素であると判定した場合、その音素ラベルLjを初期音素ラベル列Lpiから削除すると共に、無声化判定対象音素Px(=Pj)とその前の音素Pj-1との音素境界時刻を削除することにより図6(D)に示す修正された音素ラベル列Lpc(音素境界時刻情報も含む)を生成し、この発明の無声化位置検出装置100の出力とする。
[第2の閾値決定方法]
第2の閾値決定方法は、図7(E)の音素分類に示すように入力音声信号の全音素を無声音と、各種類の母音、この例ではA,I,U、に分類し、無声音の全領域に渡る有声性尺度Dの平均値D1と、母音Aの全領域に渡る有声性尺度の平均値D2と、母音Iの全領域に渡る有声性尺度の平均値D3と、母音Uの全領域に渡る有声性尺度の平均値D4とを求める。これらから母音Aに対する閾値、Dth1=W1D1+W2D2、母音Iに対する閾値Dth2=W1D1+W2D3、母音Uに対する閾値Dth3=W1D1+W2D4を得る。重み係数W1, W2はW1+W2=1となるよう0〜1の範囲で予備実験的に決めてもよい。なお、全ての母音について閾値を求める必要はなく、無声化され得る母音についてのみ閾値を決めればよい。ただし、入力音声中に存在しない母音については他の予め決めた母音の閾値を利用する。
無声化判定処理部152は与えられた無声化判定対象音素Pxと同じ母音に対する閾値を閾値決定部151から選択取得し、前述と同様に無声化判定範囲Ru内の有声性尺度Dと比較し、無声化判定対象音素Pxが無声化されているか否かを判定する。その他の動作は前述と同様である。
[第3の閾値決定方法]
前記第2の閾値決定方法では入力音声信号からその中に存在する母音の種類毎に閾値を決めたが、第3の閾値決定方法では、図5に破線で示すように予め音声データベース30に予め保持されているセグメンテーションされた任意の音声信号データから全母音の種類A,I,U,E,Oのそれぞれについての有声性尺度平均値D2, D3, D4, D5, D6に基づいて、それぞれの母音に対する閾値をDth1=W1D1+W2D2、Dth2=W1D1+W2D3、Dth3=W1D1+W2D4、Dth4=W1D1+W2D5、Dth5=W1D1+W2D6として求める。D1は前述と同様に無声音の全領域に渡る有声性尺度Dの平均値である。重み係数W1, W2はW1+W2=1となる様に0〜1の範囲で予備実験的に決める。無声化判定処理部152は、与えられた無声化判定対象音素Pxと同じ種類の母音に対する閾値を用いて前述の第2の閾値決定方法と同様に無声化音素であるか否かの判定を行い、その結果に基づいて無声化と判定された音素ラベルとそのラベルと前のラベルとの音素境界時刻を削除して修正された音素ラベル列Lpcを出力する。
上述の無声化判定対象決定部13と無声化判定部15による一連の処理過程の例を、母音の種類毎の閾値を使用する場合について図8を参照に説明する。ただし、有声性尺度D及び閾値Dth1, Dth2, ... はすでに求まっているものとする。
[無声化判定対象決定部13による処理]
入力音素ラベル列Lpi中の音素ラベルの番号をjとし、ステップS121でj=1に初期設定する。ステップS122で無声化判定対象決定ルール記憶部14内のルールAXBを順次読み出し、入力音声ラベル列のj番目の音素Pjとその前後の音素Pj-1, Pj+1からなる連続する3つの音素Pj-1 / Pj / Pj+1の列と一致するルールAXBが存在するか検査する。一致するものがなければステップS123でjを1歩進してステップS122に戻り、次の音素ラベルPjを中心とする3つの音素ラベルについて同様の検査を行う。一致するルールAXBが存在した場合は、ステップS124で音素Pjを無声化判定対象音素Pxと決定し、無声化判定範囲Ruを連続する音素Pj-1, Pj, Pj+1の列の始端から終端までとする。
[無声化判定部15による処理]
ステップS131で範囲Ruの総フレーム数をNmaxとし、範囲Ru内のフレーム番号初期値をN=1、フレーム計数値kの初期値をk=0と設定する。ステップS132で無声化判定対象音素Pxに対応する閾値Dthxを選択する。ステップS133でN番目のフレームの有声性尺度DNと閾値Dthxを比較し、DNがDthxを超えていなければステップS134でkを1歩進することによりそのフレームを計数してステップS135に移り、閾値Dthxを越えていればそのままステップS135に進む。ステップS135でフレーム番号NがNmaxに達したか判定し、達していなければステップS136でNを1歩進してステップS133に戻り、次のフレームに対しステップS133,S134,S135を実行する。ステップS135でフレーム番号Nが最大値Nmaxに達していればステップS137でフレーム計数値kを最大フレーム数Nmaxで割り算し、その結果が予め決めた閾値Rthより大であればステップS138で無声化判定対象音素Pxを無声化音素と判定し、音素Pjのラベルを削除すると共に音素Pj-1とPjの音素境界時刻も削除し、ステップS139で入力音素ラベル列の全てのラベルについて処理が終了したか判定し、終了していなければステップS123に戻ってjを1歩進し、再びステップS122以降を実行することをステップS139で全てのラベルについて終了するまで繰り返す。
上述した無声化位置検出装置100から出力される修正音素ラベル列Lpcは無声化音素の削除と隣接音素との境界時刻の削除という単純処理であり、無声化音素ラベルの削除により、より正確な音素ラベル列が得られるが、セグメンテーションの位置は必ずしも正確になっていない。従って、図1のセグメンテーション装置200ではこの発明の無声化位置検出装置100により修正された音素ラベル列Lpcに対し再度セグメンテーションを行うことにより、より正確な音素境界時刻を有する最終的な音素ラベル列を生成する構成とされている。
セグメンテーションを行う手法は従来の自動的なセグメンテーション手法でもよいが、図1では前述のように無声化位置検出装置100に加えて更に音声特徴量抽出部21と、音声特徴量蓄積部22と、音素境界推定部23と、音素モデル記憶部24とを設けてセグメンテーション装置200を構成し、無声化位置検出装置100から出力された図6(D)に示す修正音素ラベル列Lpcを用いて入力音声信号をセグメンテーションすることにより図6(E)に示す音素境界時刻の精度が高い音素ラベル列Lpfを生成する。
音声特徴量抽出部21は入力音声信号Ssをフレーム毎に分析して予め決めた種類の音声特徴量Csを抽出し、音声特徴量蓄積部22に蓄積する。音声特徴量としてはどのようなものでもよく、例えば線形予測計数、音声認識などでよく用いられるMFCC(メル周波数ケプストラム係数)などでもよい。音素モデル記憶部24には予め音声特徴量抽出部21により抽出する音声特徴量と同じ種類の音声特徴量により予め作成した各音素又は各音素境界の特徴を表す音素モデルMpを格納してある。音素境界推定部23は修正された音素ラベル列Lpcのラベル順に対応する音素モデルMpに従って、入力音声信号の各フレームの音声特徴量Csがどの音素に属するものであるかを判定する、もしくは各フレームの音声特徴量Csの音素境界らしさを計算することにより、フレーム単位の精度で音素境界時刻を推定することができる。この処理により図6(E)にΔで示すように音素境界時刻が修正される。ここで、音素モデルMpとしては、各音素の統計的スペクトルパターンや、音素境界付近・音素中心付近の音声データから構成される音素境界テンプレート、各音素の平均パターンを表すテンプレート,音素境界付近の統計的スペクトルパターンを現すマルコフモデル、などを用いることができる。
[音素境界テンプレートを用いたセグメンテーション]
以下に音素境界推定部23において音素境界テンプレートを用いて音素境界推定を行う実施例を説明する。
ここで入力音声信号Ssの各フレームのp次の音声特徴量ベクトルをCs=(cs1, ..., csp)と表す。音素モデルとしての音素境界テンプレートは、予め音声データベース30(図5)中のセグメンテーションされた音声信号中に存在する連続する様々な2つの音素の組から予め作成する。例えば図9にセグメンテーションされた隣接する音素/K/A/の組とその音声信号のフレーム列に対応する音声特徴量ベクトル列Cmを示す。セグメンテーションによって決められている音素境界のフレームをFBとする。音素境界フレームFBに対し前の音素Kの中心フレームFKとその前後それぞれb個の合計2b+1個のフレーム(bは0以上の予め決めた整数)と、境界フレームFBとその前後それぞれa個のフレームの合計2a+1個のフレーム(aは0以上の予め決めた整数)と、後の音素Aの中心フレームFAとその前後それぞれb個のフレームの合計2b+1個のフレーム、を選択する。音素Kの2b+1個のフレームの音声特徴量ベクトルをそれぞれ-1Cm1, ..., -1CmK(K=2b+1とする)と表し、境界近傍の2a+1個のフレームの音声特徴量ベクトルをそれぞれ0Cm1, ..., 0CmJ(J=2a+1とする)と表し、音素Aの2b+1個のフレームの音声特徴量ベクトルをそれぞれ1Cm1, ..., 1CmKと表すものとする。これら3つの組の音声特徴量ベクトルを連続する音素/K/A/の音素境界テンプレートTmとして得る。図1の音素モデル記憶部24に格納されている図10に示す音素モデルの表24T1に書き込む。テンプレートの3つの組の音声特徴量ベクトルをそれぞれテンプレートTmの前部-1Tm、中央部0Tm、後部1Tmと呼ぶことにする。
図1の音素モデル記憶部24にはこのようにして音声データベース30(図5)のセグメンテーションされた音声信号中の2つの連続する様々な音素の組/Pj/Pj+1/について予め作成された音素境界テンプレートTmが図9に示す音素モデル表24T1として格納されている。例えば同じ音素の組/K/A/でも音素Kの前の音素や音素Aの後の音素により音素境界が影響を受けるので、音声データ中の様々な/K/A/について音素境界テンプレートが作成されている。
例として、修正セグメンテーションされた音声信号中の音素列/K/A/を再セグメンテーションする場合を図11を参照して説明する。図1の無声化判定部15により生成された修正音素ラベル列Lpc中の音素列/K/A/の開始フレーム番号NK、音素/K/と/A/の境界フレーム番号N、音素/A/の終端フレーム番号NAが得られる。従って、音素Kの全フレーム数をnK=N-NK、音素Aの全フレーム数をnA=NA-Nとすると音素境界フレームNから音素Kの中心フレームまでの間のフレーム数gはg=nK/2であり、音素境界フレームNから音素Aの中心フレームまでのフレーム数hはh=nA/2である。図10の表24T1からKAの音素境界テンプレートTmを読み出し、テンプレート前部-1Tmの中心フレームFKから中央部0Tmの中心フレームFBまでの距離をフレーム数gに設定し、テンプレート後部1Tmの中心フレームFAから中央部0Tmの中心フレームFBまでの距離をフレーム数hに設定することにより、テンプレートTmの前部-1Tm、中央部0Tm、後部1Tmの相対位置を互いに固定する。これにより音声信号の音素列/K/A/に対しテンプレートの全長が設定されたことになる。
音素境界フレームNを中心とその前後それぞれγ個の合計2γ+1フレームを探索範囲と決める。γは予め決めた1以上の整数であり、例えば全モーラの平均フレーム数の50〜70%程度の値とする。前述のようにして長さが固定されたテンプレートを、その中央部の中心フレームFBの位置が探索範囲の開始フレームから終了フレームまでの各フレームに位置を合わせて順次ずらし、各位置でのテンプレートTmと対応する音声信号フレームの音声特徴量ベクトル間距離を計算し、それらの合計を求める。具体的には、テンプレートTmの任意のフレームFiとそれに対応する位置の音声信号フレームとのベクトル間距離を例えば
i=((cs1 - cm1)2 + (cs2 - cm2)2 + … + (csp - cmp)2)1/2
として求める。テンプレートTmの2b+1個のフレームから成る前部-1Tmにおけるフレームのベクトルと対応する音声信号フレームの音声特徴量ベクトルとの距離の和-1dと、テンプレートの2a+1個のフレームから成る中央部0Tmにおけるフレームのベクトルと対応する音声信号フレームの音声特徴量ベクトルとの距離の和0dと、テンプレートの2b+1個のフレームから成る後部1Tmにおけるフレームのベクトルと対応する音声信号フレームの音声特徴量ベクトルとの距離の和1dをそれぞれ次のように表す。
-1d=(-1d-b + -1d-b+1 + … + -1db-1 + -1db)
0d=(0d-a + 0d-a+1 + … + 0da-1 + 0da)
1d=(1d-b + 1d-b+1 + … + 1db-1 + 1db)
テンプレートと音声信号間の距離の指標(以下、距離指標と呼ぶ)dsumを例えば
dsum=-1d + 0d + 1d
と決める。これにより、テンプレートTmの中央部0Tmの中心フレームFBを音声信号の探索範囲-γ〜+γ内の1つのフレームに合わせたときの距離指標dsumが1つ得られる。このようにして距離指標を求めることを、テンプレートTmの中心フレームFBを音素境界のフレームNを中心とする探索範囲N-γからN+γ間でのそれぞれのフレームについて順次行い2γ+1個のdsumが得られる。これらの中で最も小さいdsumを与えた時のテンプレートTmの中心フレームFBの探索範囲におけるフレーム位置を境界候補とする。
同様にして同じ音素の組/K/A/で他のテンプレートを表24T1から読み出し、境界候補を求めることを全ての音素の組/K/A/について行う。これにより、音素の組/K/A/に対する音素境界候補の探索範囲内における分布が得られる。この候補分布から最も尤度の高い音素境界を決めることができる。簡単な例として、分布のピーク位置に対応するフレームを音素境界と決めてもよい。その他、例えば音素列/K/A/の更に前後の音素との同様な音素境界候補分布を考慮して音素KとAの境界を決めてもよい。
上述の音素境界テンプレートを用いるセグメンテーション方法に従った修正音素ラベル列Lpcに基づく音声信号の再セグメンテーションの処理過程を図12に示す。jは音素ラベル列における音素ラベルの通し番号(以下、ラベル番号と呼ぶ)、従って音素の通し番号(以下、音素番号と呼ぶ)を表すものとする。図9における音素Kのラベル番号をjとすると、中心フレームFKは以下の説明においてFjで表される。同様に中心フレームFAはFj+1で表される。
ステップS301で修正音素ラベル列Lpc中の連続する2つの音素ラベルから、入力音声信号中の対応する2つの音素Pj, Pj+1の音素境界フレームNと、前音素Pjの開始フレームNjと後音素Pj+1の終端フレームNj+1を得て、音素境界フレームNから前音素Pjの中心フレームまでのフレーム数gと、フレームNから後音素Pj+1の中心フレームまでのフレーム数hを決める。また、フレームNを中心とする探索範囲-γ〜+γのそれぞれのフレームに対応して用意したビンB〜Bγを空にする。
ステップS302で音素モデル表24T1から音素列/Pj/Pj+1/に対応するテンプレートTmを読み出す。
ステップS303でテンプレートTmの中央部0Tmの中心フレームFBから前部-1Tmの中心フレームFjまでの間隔をフレーム数gに設定し、中心フレームFBから後部1Tmの中心フレームFj+1までの間隔をフレーム数hに設定する。これによりテンプレートTmの前部-1Tm、中央部0Tm、後部1Tmの相対位置が固定される。
次にステップS304で整数変数qの値を-γに設定し、最小値変数dminを0に設定する。
ステップS305でテンプレートTmの中心フレームFBを音声信号のフレームN+qに合わせて先に説明したようにテンプレートTmと音声信号との間の音声特徴量ベクトル距離指標dsum-qを計算する。
ステップS306で距離指標dsum-qが指標の最小値dminより小か判定する。
ステップS306で判定結果が否であった場合、ステップS307で距離指標dsum-qを最小値dminとし、そのフレーム番号N-qを指標最小フレームFminとし、ステップS308に移る。ステップS306で判定結果が正であった場合、そのままステップS308に移る。
ステップS308で変数qの値がγと一致したか判定する。一致していない場合は全探索範囲についての処理が終了していないので、ステップS309で変数qを1歩進してステップS305に戻る。一致していれば全探索範囲について終了しているので、ステップS310に移る。
ステップS310で最小の距離指標を与えたフレームFminに対応するビンBFminにマッチングスコア1を加算する。
ステップS311で音素Pj, Pj+1の全てのテンプレートTmについて終了したか判定し、終了していなければステップS302に戻り、同じ音素の組Pj, Pj+1に対する次のテンプレートTmについてステップS302〜S311により同様の処理を繰り返す。
ステップS311で同じ音素の組に対する全てのテンプレートについて終了していれば、ステップS312で探索範囲のビンB〜Bγに計数されているマッチングスコアの分布に基づいて最も尤度の高いビンのフレームを音素境界と決定する。
ステップS313で音声信号の全ての音素境界について処理を終了したか判定し、終了していなければステップS314でラベル番号jを1歩進してステップS301に戻り、次の音素ラベルの組について以下同様に処理を行う。
[音素パターンのテンプレートを用いたセグメンテーション]
もっと簡単な例として、音素の平均的パターンを表すテンプレートを用いる場合を次に説明する。例えばp次の線形予測計数(LPC)を音声特徴量として用いるものとする。音素モデル記憶部24には例えば図13の表24T2に示すように各音素についてその音素を例えばフレーム毎に分析して得た平均的なLPCの係数ベクトルの配列C1, C2, C3, ..., CK(各係数ベクトルCはp個の係数要素c1, ..., cpを有している)が音素の平均的パターンを表す音素モデルMp=(C1, ..., CJ)のテンプレートとして表24T2に保持されている。修正された音素ラベル列Lpcを基に、音素境界の再推定(再セグメンテーション)を行う。音素境界の推定を行う範囲(セグメンテーションの範囲)は無声化音素に対する修正を行った音素ラベル位置を含む前後の所望の範囲の音素ラベル列に対して行ってもよいし、修正音素ラベル列Lpcの全体に渡って行ってもよい。
図14は音素境界推定部23による処理過程の例を示す。
修正された音素ラベル列Lpc中の境界推定範囲内のj番目の音素ラベルLjに対応する音素モデルMpj=(C1, ..., CH)と次の音素ラベルLj+1に対応する音素モデルMpj+1=(C1, ..., CK)を音素モデル記憶部24の音素モデル表24T2から読み出す(ステップS231)。
入力音声信号の境界推定範囲のN番目のフレームの音声特徴量CsNとモデルMpjの各係数ベクトル(C1, ..., CH)との距離を求め、それらの内の最小距離dNjを得て、同様に音声特徴量CsNとモデルMpj+1の各係数ベクトルC1, ..., CKとの距離を求め、それらの内の最小距離dNj+1を得る(ステップS232)。
ステップS233でdNjがdNj+1以下であるか判定し、以下であればN番目のフレームは音素ラベルLjに属すると判定し、ステップS234でフレーム番号Nを1歩進してステップS232に戻り次のフレームについて同様の処理を行う。
ステップS233でdNjがdNj+1を超えていた場合は、フレームNは次の音素ラベルLj+1に属すると判断し、ステップS235でフレームNを音素ラベルLj+1の始端とする。
ステップS236で推定範囲内に音素ラベルLj+1が存在するか判定し、存在すればステップS237でラベル番号jを1歩進してステップS231に戻り、次の音素ラベルについてステップS231〜S236の処理を繰り返す。ステップS236で音素ラベルLj+1が存在しなければステップS238でフレームNを音素ラベルLjの終端とし、処理を終了する。
上述の例では入力音声信号の音声特徴量と音素モデルの係数ベクトルとの間の距離を求めることで音素ラベルの境界を検出する場合を示したが、従来の他の様々な技術を用いることができる。例えば、非特許文献1に示されているように、音素モデルMpとして各音素の音声特徴量に基づくHMM(隠れマルコフモデル)を予め音声信号から作成し、入力音声信号の推定範囲の一連のフレームの音声特徴量の変化を推定範囲の音素ラベル列に従ったHMMにおける状態変化の全ての経路についてそれぞれ尤度を求め、最も尤度の高い経路での音素境界のフレーム番号を決める方法を用いてもよい。

Claims (9)

  1. 音素ごとに初期セグメンテーションされた入力音声信号の有声音らしさを表す有声性尺度をフレーム毎に抽出する有声性尺度抽出部と、
    無声化判定対象を決定する予め決めたルールを格納する無声化判定対象決定ルール記憶部と、
    上記入力音声信号の初期セグメンテーションによる音素ラベル列と音素ラベルごとの境界位置を表す境界時刻が入力され、上記無声化判定対象決定ルール記憶部のルールを参照して無声化判定対象音素と無声化判定範囲を決定する無声化判定対象決定部と、
    上記入力音声信号の有声性尺度を使って上記無声化判定範囲の有声性尺度を予め決めた閾値と比較し、その比較結果に基づいて上記無声化判定範囲内の上記無声化判定対象音素が無声化音素であるか否かを判定し、無声化音素と判定された場合はその音素ラベルを削除し、その削除にともなう音素ラベルの境界時刻を変更して修正された音素ラベル列と境界時刻を出力し、無声化音素でないと判定された場合は入力された音素ラベル列と境界時刻をそまま出力する無声化判定部と、
    を含むことを特徴とする無声化位置検出装置。
  2. 請求項1記載の無声化位置検出装置において、上記無声化判定部は、
    予め音声信号中の有声音における平均有声性尺度と無声音における平均有声性尺度を使って上記閾値を決める閾値決定部と、
    上記閾値を上記無声化判定範囲のフレームごとの入力音声信号の有声性尺度と比較し、上記無声化判定範囲内の上記閾値を超えないフレーム数の割合に基づいて上記無声化判定対象音素が無声化音素であるかを判定し、その音素ラベルの境界時刻を検出する無声化判定処理部と、
    を含むことを特徴とする無声化位置検出装置。
  3. 請求項1記載の無声化位置検出装置において、上記無声化判定部は、
    予め音声信号中の、無声化となり得る母音ごとの平均有声性尺度と、無声音における平均有声性尺度とを使ってそれぞれの無声化となり得る各母音についての閾値を決める閾値決定部と、
    上記無声化判定対象音素の母音の種類に対応する閾値を上記無声化判定範囲のフレームごとの入力音声信号の有声性尺度と比較し、上記無声化判定範囲内の上記閾値を超えないフレーム数の割合に基づいて上記無声化判定対象音素が無声化音素であるかを判定し、その音素ラベルの境界時刻を検出する無声化判定処理部と、
    を含むことを特徴とする無声化位置検出装置。
  4. 請求項2又は3記載の無声化位置検出装置において、上記閾値を決めるために使用する音声信号は上記入力音声信号であることを特徴とする無声化位置検出装置。
  5. 請求項2又は3記載の無声化位置検出装置において、上記閾値を決めるために使用する音声信号は予め決めた任意の音声信号であり、予めセグメンテーションによりラベリングされた上記任意の音声信号と、その任意の音声信号の有声性尺度を格納する音声データベースが設けられており、上記閾値決定部は上記音声データベースに格納されている音声信号の有声性尺度を使って上記閾値を決定するように構成されていることを特徴とする無声化位置検出装置。
  6. 請求項1乃至の何れか記載の無声化位置検出装置と、
    上記入力音声信号の音声特徴量をフレーム毎に抽出する音声特徴量抽出部と、
    上記音声特徴量と同じ種類の音声特徴量により予め生成した各音素又は各音素境界の特徴を表す音素モデルを格納した音素モデル記憶部と、
    上記音素モデル記憶部の音素モデルを参照し、上記無声化位置検出装置により出力され
    た音素ラベル列に従って上記音声信号のフレーム毎の上記音声特徴量の列の音素境界を推定して再セグメンテーションする音素境界推定部と、
    を含むことを特徴とするセグメンテーション装置。
  7. 音素ごとに初期セグメンテーションされた入力音声信号の有声音らしさを表す有声性尺度をフレーム毎に抽出する有声性尺度抽出過程と、
    上記入力音声信号の初期セグメンテーションによる音素ラベル列と音素ラベルごとの境界位置を表す境界時刻が入力され、無声化判定対象を決定する予め決めたルールを参照して無声化判定対象音素と無声化判定範囲を決定する無声化判定対象決定過程と、
    上記入力音声信号の有声性尺度を使って上記無声化判定範囲の有声性尺度を予め決めた閾値と比較し、その比較結果に基づいて上記無声化判定範囲内の上記無声化判定対象音素が無声化音素であるか否かを判定し、無声化音素と判定された場合はその音素ラベルを削除し、その削除にともなう音素ラベルの境界時刻を変更して修正された音素ラベル列と境界時刻を出力し、無声化音素でないと判定された場合は入力された音素ラベル列と境界時刻をそのまま出力する無声化判定過程と、
    を含むことを特徴とする無声化位置検出方法。
  8. 請求項の無声化位置検出方法により音素境界時刻が修正された音素ラベル列を生成する過程と、
    上記入力音声信号の音声特徴量をフレーム毎に抽出する音声特徴量抽出過程と、
    上記音声特徴量と同じ種類の音声特徴量により予め生成した各音素又は各音素境界の特徴を現す音素モデルを参照し、上記修正された音素ラベル列に従って上記音声信号のフレーム毎の上記音声特徴量の列の音素境界を推定して再セグメンテーションする音素境界推定過程と、
    を含むことを特徴とするセグメンテーション方法。
  9. 請求項又は記載の方法をコンピュータで実行するプログラム。
JP2009202021A 2009-09-01 2009-09-01 無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム Active JP4825290B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009202021A JP4825290B2 (ja) 2009-09-01 2009-09-01 無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2009202021A JP4825290B2 (ja) 2009-09-01 2009-09-01 無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム

Publications (2)

Publication Number Publication Date
JP2011053427A JP2011053427A (ja) 2011-03-17
JP4825290B2 true JP4825290B2 (ja) 2011-11-30

Family

ID=43942492

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2009202021A Active JP4825290B2 (ja) 2009-09-01 2009-09-01 無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム

Country Status (1)

Country Link
JP (1) JP4825290B2 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108986830B (zh) * 2018-08-28 2021-02-09 安徽淘云科技有限公司 一种音频语料筛选方法及装置
JP7048896B2 (ja) 2018-09-20 2022-04-06 日本電信電話株式会社 学習データ生成装置、学習データ生成方法およびプログラム

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63236098A (ja) * 1987-03-25 1988-09-30 キヤノン株式会社 ラベリングシステム
JP3394506B2 (ja) * 1993-08-17 2003-04-07 三菱電機株式会社 音声判別装置及び音声判別方法
JPH09244681A (ja) * 1996-03-12 1997-09-19 N T T Data Tsushin Kk 音声セグメント方法及び装置

Also Published As

Publication number Publication date
JP2011053427A (ja) 2011-03-17

Similar Documents

Publication Publication Date Title
Strik et al. Comparing different approaches for automatic pronunciation error detection
WO2020024690A1 (zh) 语音标注方法、装置及设备
CN107958673B (zh) 一种口语评分方法及装置
US20100004931A1 (en) Apparatus and method for speech utterance verification
KR101587866B1 (ko) 음성 인식용 발음사전 확장 장치 및 방법
CN101436403B (zh) 声调识别方法和系统
Bailey Automatic detection of sociolinguistic variation using forced alignment
Chittaragi et al. Acoustic-phonetic feature based Kannada dialect identification from vowel sounds
Mary et al. Searching speech databases: features, techniques and evaluation measures
Ramteke et al. Phoneme boundary detection from speech: A rule based approach
van Niekerk et al. Rhythm Modeling for Voice Conversion
Rahmawati et al. Java and Sunda dialect recognition from Indonesian speech using GMM and I-Vector
JP4825290B2 (ja) 無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム
Aissiou A genetic model for acoustic and phonetic decoding of standard Arabic vowels in continuous speech
Mehrabani et al. Dialect distance assessment method based on comparison of pitch pattern statistical models
CN117012230A (zh) 歌唱发音咬字评价模型
Bhati et al. Unsupervised segmentation of speech signals using kernel-gram matrices
Ghorshi et al. Cross-entropic comparison of formants of British, Australian and American English accents
Narendra et al. Syllable specific unit selection cost functions for text-to-speech synthesis
Bartkova et al. Prosodic parameters and prosodic structures of French emotional data
JP2001312293A (ja) 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体
Barczewska et al. Detection of disfluencies in speech signal
JP5369079B2 (ja) 音響モデル作成方法とその装置とプログラム
CN110992986A (zh) 单词音节重读检错方法、装置、电子设备和存储介质
Laleye et al. Automatic text-independent syllable segmentation using singularity exponents and rényi entropy

Legal Events

Date Code Title Description
RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20110721

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20110817

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110830

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110909

R150 Certificate of patent or registration of utility model

Ref document number: 4825290

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140916

Year of fee payment: 3

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350