JP4825290B2 - 無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム - Google Patents
無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム Download PDFInfo
- Publication number
- JP4825290B2 JP4825290B2 JP2009202021A JP2009202021A JP4825290B2 JP 4825290 B2 JP4825290 B2 JP 4825290B2 JP 2009202021 A JP2009202021 A JP 2009202021A JP 2009202021 A JP2009202021 A JP 2009202021A JP 4825290 B2 JP4825290 B2 JP 4825290B2
- Authority
- JP
- Japan
- Prior art keywords
- phoneme
- unvoiced
- determination
- devoicing
- boundary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Description
また、無声化検出に用いる閾値を自動的に求めることができるので、検出対象音声の状況に柔軟に対応可能である。
さらに、無声化検出を行うことで、推定すべき音素境界がより正確になり、音素境界時刻の推定精度の向上が期待できる。
有声性尺度抽出部11は、入力音声信号をフレーム毎に分析して有声性尺度Dを出力する。有声性尺度としては入力音声信号の有声音らしさを表すものであればどのようなものでもよく、例えば特許文献1〜3に示されている入力音声信号のフレーム毎の調波構造の占有度が表す周期性指標を用いてもよい。
図7の(A)は入力音声が「会議室に」の場合のスペクトルパターンであり、(B)は有声性尺度蓄積部12に保存されている入力音声信号の有声性尺度Dを示しており、(C)は入力音声信号の初期音素ラベル列Lpiを示している。第1の閾値決定方法では、入力音声信号の全音素を(D)の音素分類に示すように無声音か有声音かのいずれかに分類し、無声音の全領域に渡る有音性尺度Dの平均値D1と、有声音の全領域に渡る有声性尺度Dの平均値D2を求め、これらにより閾値Dthを
Dth=W1D1+W2D2
として求める。ただし、W1, W2は任意の重み係数であり、W1+W2=1となるよう0〜1の範囲で予備実験的に決めてもよい。
第2の閾値決定方法は、図7(E)の音素分類に示すように入力音声信号の全音素を無声音と、各種類の母音、この例ではA,I,U、に分類し、無声音の全領域に渡る有声性尺度Dの平均値D1と、母音Aの全領域に渡る有声性尺度の平均値D2と、母音Iの全領域に渡る有声性尺度の平均値D3と、母音Uの全領域に渡る有声性尺度の平均値D4とを求める。これらから母音Aに対する閾値、Dth1=W1D1+W2D2、母音Iに対する閾値Dth2=W1D1+W2D3、母音Uに対する閾値Dth3=W1D1+W2D4を得る。重み係数W1, W2はW1+W2=1となるよう0〜1の範囲で予備実験的に決めてもよい。なお、全ての母音について閾値を求める必要はなく、無声化され得る母音についてのみ閾値を決めればよい。ただし、入力音声中に存在しない母音については他の予め決めた母音の閾値を利用する。
前記第2の閾値決定方法では入力音声信号からその中に存在する母音の種類毎に閾値を決めたが、第3の閾値決定方法では、図5に破線で示すように予め音声データベース30に予め保持されているセグメンテーションされた任意の音声信号データから全母音の種類A,I,U,E,Oのそれぞれについての有声性尺度平均値D2, D3, D4, D5, D6に基づいて、それぞれの母音に対する閾値をDth1=W1D1+W2D2、Dth2=W1D1+W2D3、Dth3=W1D1+W2D4、Dth4=W1D1+W2D5、Dth5=W1D1+W2D6として求める。D1は前述と同様に無声音の全領域に渡る有声性尺度Dの平均値である。重み係数W1, W2はW1+W2=1となる様に0〜1の範囲で予備実験的に決める。無声化判定処理部152は、与えられた無声化判定対象音素Pxと同じ種類の母音に対する閾値を用いて前述の第2の閾値決定方法と同様に無声化音素であるか否かの判定を行い、その結果に基づいて無声化と判定された音素ラベルとそのラベルと前のラベルとの音素境界時刻を削除して修正された音素ラベル列Lpcを出力する。
入力音素ラベル列Lpi中の音素ラベルの番号をjとし、ステップS121でj=1に初期設定する。ステップS122で無声化判定対象決定ルール記憶部14内のルールAXBを順次読み出し、入力音声ラベル列のj番目の音素Pjとその前後の音素Pj-1, Pj+1からなる連続する3つの音素Pj-1 / Pj / Pj+1の列と一致するルールAXBが存在するか検査する。一致するものがなければステップS123でjを1歩進してステップS122に戻り、次の音素ラベルPjを中心とする3つの音素ラベルについて同様の検査を行う。一致するルールAXBが存在した場合は、ステップS124で音素Pjを無声化判定対象音素Pxと決定し、無声化判定範囲Ruを連続する音素Pj-1, Pj, Pj+1の列の始端から終端までとする。
ステップS131で範囲Ruの総フレーム数をNmaxとし、範囲Ru内のフレーム番号初期値をN=1、フレーム計数値kの初期値をk=0と設定する。ステップS132で無声化判定対象音素Pxに対応する閾値Dthxを選択する。ステップS133でN番目のフレームの有声性尺度DNと閾値Dthxを比較し、DNがDthxを超えていなければステップS134でkを1歩進することによりそのフレームを計数してステップS135に移り、閾値Dthxを越えていればそのままステップS135に進む。ステップS135でフレーム番号NがNmaxに達したか判定し、達していなければステップS136でNを1歩進してステップS133に戻り、次のフレームに対しステップS133,S134,S135を実行する。ステップS135でフレーム番号Nが最大値Nmaxに達していればステップS137でフレーム計数値kを最大フレーム数Nmaxで割り算し、その結果が予め決めた閾値Rthより大であればステップS138で無声化判定対象音素Pxを無声化音素と判定し、音素Pjのラベルを削除すると共に音素Pj-1とPjの音素境界時刻も削除し、ステップS139で入力音素ラベル列の全てのラベルについて処理が終了したか判定し、終了していなければステップS123に戻ってjを1歩進し、再びステップS122以降を実行することをステップS139で全てのラベルについて終了するまで繰り返す。
以下に音素境界推定部23において音素境界テンプレートを用いて音素境界推定を行う実施例を説明する。
ここで入力音声信号Ssの各フレームのp次の音声特徴量ベクトルをCs=(cs1, ..., csp)と表す。音素モデルとしての音素境界テンプレートは、予め音声データベース30(図5)中のセグメンテーションされた音声信号中に存在する連続する様々な2つの音素の組から予め作成する。例えば図9にセグメンテーションされた隣接する音素/K/A/の組とその音声信号のフレーム列に対応する音声特徴量ベクトル列Cmを示す。セグメンテーションによって決められている音素境界のフレームをFBとする。音素境界フレームFBに対し前の音素Kの中心フレームFKとその前後それぞれb個の合計2b+1個のフレーム(bは0以上の予め決めた整数)と、境界フレームFBとその前後それぞれa個のフレームの合計2a+1個のフレーム(aは0以上の予め決めた整数)と、後の音素Aの中心フレームFAとその前後それぞれb個のフレームの合計2b+1個のフレーム、を選択する。音素Kの2b+1個のフレームの音声特徴量ベクトルをそれぞれ-1Cm1, ..., -1CmK(K=2b+1とする)と表し、境界近傍の2a+1個のフレームの音声特徴量ベクトルをそれぞれ0Cm1, ..., 0CmJ(J=2a+1とする)と表し、音素Aの2b+1個のフレームの音声特徴量ベクトルをそれぞれ1Cm1, ..., 1CmKと表すものとする。これら3つの組の音声特徴量ベクトルを連続する音素/K/A/の音素境界テンプレートTmとして得る。図1の音素モデル記憶部24に格納されている図10に示す音素モデルの表24T1に書き込む。テンプレートの3つの組の音声特徴量ベクトルをそれぞれテンプレートTmの前部-1Tm、中央部0Tm、後部1Tmと呼ぶことにする。
di=((cs1 - cm1)2 + (cs2 - cm2)2 + … + (csp - cmp)2)1/2
として求める。テンプレートTmの2b+1個のフレームから成る前部-1Tmにおけるフレームのベクトルと対応する音声信号フレームの音声特徴量ベクトルとの距離の和-1dと、テンプレートの2a+1個のフレームから成る中央部0Tmにおけるフレームのベクトルと対応する音声信号フレームの音声特徴量ベクトルとの距離の和0dと、テンプレートの2b+1個のフレームから成る後部1Tmにおけるフレームのベクトルと対応する音声信号フレームの音声特徴量ベクトルとの距離の和1dをそれぞれ次のように表す。
0d=(0d-a + 0d-a+1 + … + 0da-1 + 0da)
1d=(1d-b + 1d-b+1 + … + 1db-1 + 1db)
テンプレートと音声信号間の距離の指標(以下、距離指標と呼ぶ)dsumを例えば
dsum=-1d + 0d + 1d
と決める。これにより、テンプレートTmの中央部0Tmの中心フレームFBを音声信号の探索範囲-γ〜+γ内の1つのフレームに合わせたときの距離指標dsumが1つ得られる。このようにして距離指標を求めることを、テンプレートTmの中心フレームFBを音素境界のフレームNを中心とする探索範囲N-γからN+γ間でのそれぞれのフレームについて順次行い2γ+1個のdsumが得られる。これらの中で最も小さいdsumを与えた時のテンプレートTmの中心フレームFBの探索範囲におけるフレーム位置を境界候補とする。
ステップS303でテンプレートTmの中央部0Tmの中心フレームFBから前部-1Tmの中心フレームFjまでの間隔をフレーム数gに設定し、中心フレームFBから後部1Tmの中心フレームFj+1までの間隔をフレーム数hに設定する。これによりテンプレートTmの前部-1Tm、中央部0Tm、後部1Tmの相対位置が固定される。
ステップS305でテンプレートTmの中心フレームFBを音声信号のフレームN+qに合わせて先に説明したようにテンプレートTmと音声信号との間の音声特徴量ベクトル距離指標dsum-qを計算する。
ステップS306で距離指標dsum-qが指標の最小値dminより小か判定する。
ステップS306で判定結果が否であった場合、ステップS307で距離指標dsum-qを最小値dminとし、そのフレーム番号N-qを指標最小フレームFminとし、ステップS308に移る。ステップS306で判定結果が正であった場合、そのままステップS308に移る。
ステップS310で最小の距離指標を与えたフレームFminに対応するビンBFminにマッチングスコア1を加算する。
ステップS311で音素Pj, Pj+1の全てのテンプレートTmについて終了したか判定し、終了していなければステップS302に戻り、同じ音素の組Pj, Pj+1に対する次のテンプレートTmについてステップS302〜S311により同様の処理を繰り返す。
ステップS313で音声信号の全ての音素境界について処理を終了したか判定し、終了していなければステップS314でラベル番号jを1歩進してステップS301に戻り、次の音素ラベルの組について以下同様に処理を行う。
もっと簡単な例として、音素の平均的パターンを表すテンプレートを用いる場合を次に説明する。例えばp次の線形予測計数(LPC)を音声特徴量として用いるものとする。音素モデル記憶部24には例えば図13の表24T2に示すように各音素についてその音素を例えばフレーム毎に分析して得た平均的なLPCの係数ベクトルの配列C1, C2, C3, ..., CK(各係数ベクトルCはp個の係数要素c1, ..., cpを有している)が音素の平均的パターンを表す音素モデルMp=(C1, ..., CJ)のテンプレートとして表24T2に保持されている。修正された音素ラベル列Lpcを基に、音素境界の再推定(再セグメンテーション)を行う。音素境界の推定を行う範囲(セグメンテーションの範囲)は無声化音素に対する修正を行った音素ラベル位置を含む前後の所望の範囲の音素ラベル列に対して行ってもよいし、修正音素ラベル列Lpcの全体に渡って行ってもよい。
修正された音素ラベル列Lpc中の境界推定範囲内のj番目の音素ラベルLjに対応する音素モデルMpj=(C1, ..., CH)と次の音素ラベルLj+1に対応する音素モデルMpj+1=(C1, ..., CK)を音素モデル記憶部24の音素モデル表24T2から読み出す(ステップS231)。
ステップS233でdNjがdNj+1を超えていた場合は、フレームNは次の音素ラベルLj+1に属すると判断し、ステップS235でフレームNを音素ラベルLj+1の始端とする。
Claims (9)
- 音素ごとに初期セグメンテーションされた入力音声信号の有声音らしさを表す有声性尺度をフレーム毎に抽出する有声性尺度抽出部と、
無声化判定対象を決定する予め決めたルールを格納する無声化判定対象決定ルール記憶部と、
上記入力音声信号の初期セグメンテーションによる音素ラベル列と音素ラベルごとの境界位置を表す境界時刻が入力され、上記無声化判定対象決定ルール記憶部のルールを参照して無声化判定対象音素と無声化判定範囲を決定する無声化判定対象決定部と、
上記入力音声信号の有声性尺度を使って上記無声化判定範囲の有声性尺度を予め決めた閾値と比較し、その比較結果に基づいて上記無声化判定範囲内の上記無声化判定対象音素が無声化音素であるか否かを判定し、無声化音素と判定された場合はその音素ラベルを削除し、その削除にともなう音素ラベルの境界時刻を変更して修正された音素ラベル列と境界時刻を出力し、無声化音素でないと判定された場合は入力された音素ラベル列と境界時刻をそのまま出力する無声化判定部と、
を含むことを特徴とする無声化位置検出装置。 - 請求項1記載の無声化位置検出装置において、上記無声化判定部は、
予め音声信号中の有声音における平均有声性尺度と無声音における平均有声性尺度を使って上記閾値を決める閾値決定部と、
上記閾値を上記無声化判定範囲のフレームごとの入力音声信号の有声性尺度と比較し、上記無声化判定範囲内の上記閾値を超えないフレーム数の割合に基づいて上記無声化判定対象音素が無声化音素であるかを判定し、その音素ラベルの境界時刻を検出する無声化判定処理部と、
を含むことを特徴とする無声化位置検出装置。 - 請求項1記載の無声化位置検出装置において、上記無声化判定部は、
予め音声信号中の、無声化となり得る母音ごとの平均有声性尺度と、無声音における平均有声性尺度とを使ってそれぞれの無声化となり得る各母音についての閾値を決める閾値決定部と、
上記無声化判定対象音素の母音の種類に対応する閾値を上記無声化判定範囲のフレームごとの入力音声信号の有声性尺度と比較し、上記無声化判定範囲内の上記閾値を超えないフレーム数の割合に基づいて上記無声化判定対象音素が無声化音素であるかを判定し、その音素ラベルの境界時刻を検出する無声化判定処理部と、
を含むことを特徴とする無声化位置検出装置。 - 請求項2又は3記載の無声化位置検出装置において、上記閾値を決めるために使用する音声信号は上記入力音声信号であることを特徴とする無声化位置検出装置。
- 請求項2又は3記載の無声化位置検出装置において、上記閾値を決めるために使用する音声信号は予め決めた任意の音声信号であり、予めセグメンテーションによりラベリングされた上記任意の音声信号と、その任意の音声信号の有声性尺度を格納する音声データベースが設けられており、上記閾値決定部は上記音声データベースに格納されている音声信号の有声性尺度を使って上記閾値を決定するように構成されていることを特徴とする無声化位置検出装置。
- 請求項1乃至5の何れか記載の無声化位置検出装置と、
上記入力音声信号の音声特徴量をフレーム毎に抽出する音声特徴量抽出部と、
上記音声特徴量と同じ種類の音声特徴量により予め生成した各音素又は各音素境界の特徴を表す音素モデルを格納した音素モデル記憶部と、
上記音素モデル記憶部の音素モデルを参照し、上記無声化位置検出装置により出力され
た音素ラベル列に従って上記音声信号のフレーム毎の上記音声特徴量の列の音素境界を推定して再セグメンテーションする音素境界推定部と、
を含むことを特徴とするセグメンテーション装置。 - 音素ごとに初期セグメンテーションされた入力音声信号の有声音らしさを表す有声性尺度をフレーム毎に抽出する有声性尺度抽出過程と、
上記入力音声信号の初期セグメンテーションによる音素ラベル列と音素ラベルごとの境界位置を表す境界時刻が入力され、無声化判定対象を決定する予め決めたルールを参照して無声化判定対象音素と無声化判定範囲を決定する無声化判定対象決定過程と、
上記入力音声信号の有声性尺度を使って上記無声化判定範囲の有声性尺度を予め決めた閾値と比較し、その比較結果に基づいて上記無声化判定範囲内の上記無声化判定対象音素が無声化音素であるか否かを判定し、無声化音素と判定された場合はその音素ラベルを削除し、その削除にともなう音素ラベルの境界時刻を変更して修正された音素ラベル列と境界時刻を出力し、無声化音素でないと判定された場合は入力された音素ラベル列と境界時刻をそのまま出力する無声化判定過程と、
を含むことを特徴とする無声化位置検出方法。 - 請求項7の無声化位置検出方法により音素境界時刻が修正された音素ラベル列を生成する過程と、
上記入力音声信号の音声特徴量をフレーム毎に抽出する音声特徴量抽出過程と、
上記音声特徴量と同じ種類の音声特徴量により予め生成した各音素又は各音素境界の特徴を現す音素モデルを参照し、上記修正された音素ラベル列に従って上記音声信号のフレーム毎の上記音声特徴量の列の音素境界を推定して再セグメンテーションする音素境界推定過程と、
を含むことを特徴とするセグメンテーション方法。 - 請求項7又は8記載の方法をコンピュータで実行するプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009202021A JP4825290B2 (ja) | 2009-09-01 | 2009-09-01 | 無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2009202021A JP4825290B2 (ja) | 2009-09-01 | 2009-09-01 | 無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2011053427A JP2011053427A (ja) | 2011-03-17 |
JP4825290B2 true JP4825290B2 (ja) | 2011-11-30 |
Family
ID=43942492
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2009202021A Active JP4825290B2 (ja) | 2009-09-01 | 2009-09-01 | 無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4825290B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108986830B (zh) * | 2018-08-28 | 2021-02-09 | 安徽淘云科技有限公司 | 一种音频语料筛选方法及装置 |
JP7048896B2 (ja) | 2018-09-20 | 2022-04-06 | 日本電信電話株式会社 | 学習データ生成装置、学習データ生成方法およびプログラム |
Family Cites Families (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS63236098A (ja) * | 1987-03-25 | 1988-09-30 | キヤノン株式会社 | ラベリングシステム |
JP3394506B2 (ja) * | 1993-08-17 | 2003-04-07 | 三菱電機株式会社 | 音声判別装置及び音声判別方法 |
JPH09244681A (ja) * | 1996-03-12 | 1997-09-19 | N T T Data Tsushin Kk | 音声セグメント方法及び装置 |
-
2009
- 2009-09-01 JP JP2009202021A patent/JP4825290B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
JP2011053427A (ja) | 2011-03-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Strik et al. | Comparing different approaches for automatic pronunciation error detection | |
WO2020024690A1 (zh) | 语音标注方法、装置及设备 | |
CN107958673B (zh) | 一种口语评分方法及装置 | |
US20100004931A1 (en) | Apparatus and method for speech utterance verification | |
KR101587866B1 (ko) | 음성 인식용 발음사전 확장 장치 및 방법 | |
CN101436403B (zh) | 声调识别方法和系统 | |
Bailey | Automatic detection of sociolinguistic variation using forced alignment | |
Chittaragi et al. | Acoustic-phonetic feature based Kannada dialect identification from vowel sounds | |
Mary et al. | Searching speech databases: features, techniques and evaluation measures | |
Ramteke et al. | Phoneme boundary detection from speech: A rule based approach | |
van Niekerk et al. | Rhythm Modeling for Voice Conversion | |
Rahmawati et al. | Java and Sunda dialect recognition from Indonesian speech using GMM and I-Vector | |
JP4825290B2 (ja) | 無声化位置検出装置及び方法とそれを用いたセグメンテーション装置及び方法、及びプログラム | |
Aissiou | A genetic model for acoustic and phonetic decoding of standard Arabic vowels in continuous speech | |
Mehrabani et al. | Dialect distance assessment method based on comparison of pitch pattern statistical models | |
CN117012230A (zh) | 歌唱发音咬字评价模型 | |
Bhati et al. | Unsupervised segmentation of speech signals using kernel-gram matrices | |
Ghorshi et al. | Cross-entropic comparison of formants of British, Australian and American English accents | |
Narendra et al. | Syllable specific unit selection cost functions for text-to-speech synthesis | |
Bartkova et al. | Prosodic parameters and prosodic structures of French emotional data | |
JP2001312293A (ja) | 音声認識方法およびその装置、並びにコンピュータ読み取り可能な記憶媒体 | |
Barczewska et al. | Detection of disfluencies in speech signal | |
JP5369079B2 (ja) | 音響モデル作成方法とその装置とプログラム | |
CN110992986A (zh) | 单词音节重读检错方法、装置、电子设备和存储介质 | |
Laleye et al. | Automatic text-independent syllable segmentation using singularity exponents and rényi entropy |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20110721 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20110817 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20110830 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20110909 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 4825290 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20140916 Year of fee payment: 3 |
|
S531 | Written request for registration of change of domicile |
Free format text: JAPANESE INTERMEDIATE CODE: R313531 |
|
R350 | Written notification of registration of transfer |
Free format text: JAPANESE INTERMEDIATE CODE: R350 |