JP2005266098A - 音声信号セグメント方法、音声ピッチ検出方法及び音声区間検出処理方法 - Google Patents

音声信号セグメント方法、音声ピッチ検出方法及び音声区間検出処理方法 Download PDF

Info

Publication number
JP2005266098A
JP2005266098A JP2004076395A JP2004076395A JP2005266098A JP 2005266098 A JP2005266098 A JP 2005266098A JP 2004076395 A JP2004076395 A JP 2004076395A JP 2004076395 A JP2004076395 A JP 2004076395A JP 2005266098 A JP2005266098 A JP 2005266098A
Authority
JP
Japan
Prior art keywords
pitch
segment
speech
voice
segments
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2004076395A
Other languages
English (en)
Inventor
Hirotaka Shiiyama
弘隆 椎山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Priority to JP2004076395A priority Critical patent/JP2005266098A/ja
Publication of JP2005266098A publication Critical patent/JP2005266098A/ja
Withdrawn legal-status Critical Current

Links

Images

Abstract

【課題】音のエネルギーやFFTスペクトラムのような音声特徴量を用いてまやかしの音声検出を行わず、真に人の音声区間を検出すること。
【解決手段】音声解析に適したローパスフィルタを通した音声波形そのものを処理して、零交差点に基づき粗く音声を小セグメントと呼ぶ小区間に分割し、隣接する小セグメントのエネルギーが小さい場合に直前のセグメントと結合を行うことにより、音声セグメントの統合を行う。そして、基準とする音声セグメントに関しては時間方向に見て正の値を持つ波形の始点である零交差点を始点とし時間方向に見て負の値を持つ波形の終点である零交差点を終点となるものを選び、更に比較する音声セグメントに関しては始点を先の基準とする部分音声信号波形の終点とし終点を時間方向に見て負の値を持つ波形の終点である零交差点を終点となるものを選び、これら2つの音声セグメントの類似度を求める。
【選択図】図1

Description

本発明は、音声信号中から人の音声部分を検出する処理に関し、音声信号セグメント方法、音声ピッチ検出方法及び音声区間検出処理方法に関するものである。
従来、特許文献1や特許文献2のように、音声エネルギーにより無音を検出し、それ以外の音を人の音声区間と見なし動画のサマリーを行う処理も提案されているが、ニュース番組等のような人の音声が支配的な動画においては、音声エネルギーによる人の音声区間検出が程ほどには可能なものの、バックグラウンドノイズやバックグラウンド音楽が存在する環境下ではこの方法は現実的ではない。
それ以前にも「音声検出」を行いこれを考慮した動画再生をクレームに持つ特許明細は数多く存在するが、その殆どが問題を解決するための手段や実施例中では音のエネルギーを閾値処理して音声検出を行っている。これは日本語の曖昧さに起因する問題であり、「人の声」も「音声」と言い、人の声を含む音一般も「音声」と呼ぶことに起因しており、エネルギーの閾値処理を真に「音声検出」と称することは大きな問題がある。
又、特許文献3の請求項3で「音声情報等の特徴点」を検出するとあり、問題を解決するための手段では、FFTスペクトラムを求め特異点を求めその音量を分析するとあるが、やはりFFTスペクトラムでは音楽等の広い帯域のスペクトルを持つバックグラウンド音楽がある場合等では人の声を検出することは困難である。
他方、近年音声認識技術が発達しているが、現状、入力された音声信号が知識ベースのどの言葉に相当するかを判断しているだけであり、人の声であることを前提に類似演算を行っている。勿論、或る程度のバックグラウンドノイズを含む音声学でいうところ「無音」と人声の始まり認識程度の処理程度は当然実装しているものの、何かの物音や音楽を音声信号として入力した場合には、何か音響的に類似する言葉が認識結果として出力されるか、或は認識尤度が低くて出力をキャンセルする程度のものであり、結果として音声信号に対して常に音声認識を行うことはナンセンスであり、処理の負荷が重く無駄である。いわんや、音のエネルギーだけで人の音声を検出することは不可能である。
人声の大部分は母音が占めていることは公知であり、前記特許文献3では、問題を解決するための手段で、FFTスペクトラムを求めこれを人の声の検出に用いていると思われるが、純粋な人の声では各母音に対応するフォルマントの検出が個人差の影響は受けながらも、或る程度は可能と推測されるが、BGM等の広帯域な音が被った場合には安定且つ正確な音声検出は困難である。
元を正せば、人の音声発声メカニズムの基本は声帯の振動、所謂音声ピッチであり、これを音声信号中から抽出することにより有用な音声区間に関する情報が得られる。公知のピッチ抽出方法としてはケプストラム分析が挙げられる。
ケプストラムとは音声信号のパワースペクトルの対数をフーリエ逆変換したものである。これにより低ケフレンシー部の声道特性と高ケフレンシー部の声帯振動の分離が可能となり、声帯振動数即ち音声ピッチが求まる。
しかしながら、この方法も純粋な人の声という環境下では良い結果が得られるものの、多少でもBGM等が被ると音楽の音源等の影響もあり正しい結果は得られない。
特開平10−32776号公報 特開平9−243351号公報 特開平9−247617号公報
従来、人声の大部分は母音が占めていることを用いてFFTスペクトラムを求め、これを人の声の検出したり、人の音声発声メカニズムの基本は音声ピッチでありのでこれを音声信号中から公知のケプストラム分析等を用いていた。
しかしながら、この方法も純粋な人の声という環境下では多少は良い結果が得られるものの、多少でもBGM等が被ると音楽の音源等の影響もあり正しい結果は得られない。
又、上記の周波数解析においては必ず解析窓を用いるために、理想的な音声セグメント単位の処理ができないという問題があった。
本発明は上記問題に鑑みてなされたもので、音のエネルギーやFFTスペクトラムのような音声特徴量を用いてまやかしの音声検出を行わず、真に人の音声区間を検出することを目的とする。
本発明では、音声解析に適したローパスフィルタを通した音声波形そのものを処理して、零交差点に基づき粗く音声を小セグメントと呼ぶ小区間に分割し、隣接する小セグメントのエネルギーが小さい場合に直前のセグメントと結合を行うことにより、音声セグメントの統合を行う。
そして、基準とする音声セグメントに関しては時間方向に見て正の値を持つ波形の始点である零交差点を始点とし時間方向に見て負の値を持つ波形の終点である零交差点を終点となるものを選び、更に比較する音声セグメントに関しては始点を先の基準とする部分音声信号波形の終点とし終点を時間方向に見て負の値を持つ波形の終点である零交差点を終点となるものを選び、これら2つの音声セグメントの類似度を求め、これを閾値処理することにより音声ピッチの有無を判断する。
但し、基準とする音声セグメントに関しては、その長さがピッチとして存在し得ない位長い場合には、この基準とする音声セグメントに対応する音声ピッチは無いと判断し、基準とする音声セグメントの終点を始点に持ち、時間方向に見て負の値を持つ波形の終点となる零交差点の内最も近いものを終点とし、基準とする音声セグメントの変更を行い、比較する音声セグメントに関しても先のルールに基づき変更を行う。
又、基準とする音声セグメントの長さがピッチとして存在し得ない位短い場合には、基準とする音声セグメントの終点を始点に持ち、時間方向に見て負の値を持つ波形の終点となる零交差点の内最も近い物を終点とするセグメントを基準とする音声セグメントの末尾に統合し新たな基準とする音声セグメントとし、基準とする音声セグメントの変更を行い、比較する音声セグメントに関しても先のルールに基づき変更を行う。
初回に音声ピッチが検出されたときに音声ピッチ検出の基準を明確にするために、最もエネルギーの大きな小区間がピッチセグメントの最後になるように基準とする音声セグメントの位置及び比較する音声セグメントの位置を補正し、上記と同様のルールで隣接する2つの音声セグメントの類似度を求め、これを閾値処理することにより音声ピッチの有無を判定する。
そして、最終的な音声ピッチの有無の判断は、繰り返し隣接する部分音声信号波形の類似度演算を行った結果、類似条件が定められた回数以上連続して満たされた場合とする。その理由は、母音等の音声ピッチは通常数十オーダーで連続することが殆であるからである。
そして、後の音声区間判定のために、最終的に音声ピッチの有無の判定結果とそのピッチ周期をその個別の音声ピッチのセグメント情報として記憶する。
音声信号を複数のセグメントへ分割し、それらのセグメントに対しその性質を表す属性情報をラベルとして与えるが、無音ラベル、無声子音ラベル、有声子音ラベル、雑音ラベル及び勿論音声ピッチラベルを含んでいることとする。
音声ピッチ以外のラベルに対応する判定処理は公知のものを用いて良い。例えば、無音判定はエネルギーと零交差やエネルギーに占める高周波成分の割合等の様々な方法が考えられる。
更に、連続するピッチラベルを持つセグメントを求め、これを結合し、統合ピッチセグメントを生成し、その統合ピッチセグメントの平均ピッチ周期を求めそれを記憶する。
次に、音声区間推定について説明する。
音声区間の判定は、音声ピッチラベルを持つセグメント群を拠り所とし、音声ピッチラベルを持つセグメントを音声ピッチ周期の連続性を用い或は隣接する音声ピッチラベルを持つセグメント間の距離を閾値処理する更に音声ピッチ周期の連続性とセグメント間の距離の両者を考慮することにより、離散的な音声ピッチラベルを持つセグメントを統合し、音声区間推定を行う。
1.先ず、統合ピッチセグメントに挟まれた雑音ラベルを持つセグメントを求め、その両端の統合ピッチセグメントの平均ピッチ周期変動率がある閾値以下であるかを判断し、これを満たす場合には、両端の統合ピッチセグメントと挟まれた雑音ラベルを持つセグメントを結合し1つの統合ピッチセグメントとする。
2.又、先頭の統合ピッチセグメントと2つの目の統合ピッチセグメントとの間に無声子音ラベル或は有声子音ラベルを持つセグメントが存在する場合に、統合ピッチセグメントのインターバルが定められた閾値より小さい場合先の統合ピッチセグメントの始点を始点とし、後の統合ピッチセグメントの終点を終点とする音声区間として記憶し、この処理を繰り返し行うことで間に無声子音ラベル或は有声子音ラベルを持つ統合ピッチセグメントを音声区間に反映する。
3.更に、2つの統合ピッチセグメントの間に無音ラベルや雑音ラベルが存在しても良いこととして、近傍の統合ピッチセグメントの間隔が定められた閾値以下で且つ平均ピッチ周期変動率が或る閾値以下である場合には、これらを音声区間に反映することを特徴とする音声区間検出処理及びこれを用いたソフトウエア及び装置。
但し、上記1,2及び3の処理の順序に関する制限はなく、どの順番の組み合わせでも良い。
又、音声ピッチラベル以外のラベル情報を用いず、単に音声ピッチラベルを持つセグメントを音声ピッチ周期の連続性だけを用いて離散的な音声ピッチラベルを持つセグメントを統合し簡易に音声区間推定を行う方法や、単に隣接する音声ピッチラベルを持つセグメント間の距離を閾値処理だけを用いて離散的な音声ピッチラベルを持つセグメントを統合し簡易に音声区間推定を行う方法や、或は音声ピッチ周期の連続性とセグメント間の距離の両者を論理積で処理する簡易な方法も当然存在する。
本発明によれば、人の音声発声メカニズムの基本は声帯の振動、所謂音声ピッチであり、これを波形処理するすることにより解析窓の問題を生ずることなく音声信号中から抽出し、ピッチを検出したセグメントを基準とし、音声中にBGM等による阻害要因が生じても、その前後統合ピッチセグメントの平均ピッチ周期の連続性を考慮して統合ピッチセグメントの統合を行い、更に、CVCモデルを導入することにより無声子音や有声子音を間に持つ統合ピッチセグメントをまとめて音声区間とし、更にVVモデルを考慮して2つの統合ピッチセグメントをまとめて音声区間を決定することにより、更に外乱に強い音声区間推定処理を実現した結果、音声の特徴を利用した外乱に強い音声区間抽出が可能となり、或る程度の音量のBGMやバックグラウンドノイズのある音声信号に対しても音声区間の抽出を行うことができる。
以下に本発明の実施の形態を添付図面に基づいて説明する。
本発明の音声区間検出アルゴリズムは、図1に示すように、AGC(オートゲインコントロール)、ローパスフィルタ、零交差検出部、音声セグメント化部、音声ピッチ検出部、音声ラベリング部、音声エネルギー計算部及び音声区間推定部から成る。
図2を用いて処理の大まかな流れを説明すると、先ずS201で音声信号を複数のセグメントに分割し、それらのセグメントの音響的な特徴を表す音声ラベリングをS202で行うが、この際、S203音声ピッチを検出しロバストな母音候補の検出を行い、最後に音声ピッチ検出結果を強い拠り所にしてS204で音声区間推定を行う。
ここで、処理の流れに従って説明を行う。
先ず、音声信号をAGC(オートゲインコントロール)に通すことにより音声エネルギーを正規化する。AGCの構成に関しては公知のもので良く、登録済みの音声データに関しては全体を通して最大の音を基準に行って正規化を行う構成で良い。
正規化された音声信号は、ローパスフィルタを通り後段の解析に適した帯域にフィルタリングするものと、無声子音認識に必要な帯域を持つ元の音声信号に分岐する。
・音声セグメント化
先ず、ローパスフィルタを通過した音声信号をセグメントと呼ぶ小部分に分割を行う。ローパスフィルタをセグメント分割に用いる理由は、セグメントの基準が無声子音や有声子音及び音声ピッチ等の単位であり、高周波の影響があると無声子音等の悪影響があるからである。
これを行うのが音声セグメント化部であり、そのために零交差点を求めこれを基準としたセグメントに暫定的に分割する。
ところで、暫定的に音声信号に対して零交差点を基準として小セグメントに分割するが、その小セグメントとは以下の2条件を満たすものとする。
ルール1:小セグメントの始点と終点は零交差点であること
ルール2:小セグメントのエネルギーが小さい場合には、直前の小セグメントと結合するx1を始点とし、x2を終点とする小セグメントf(x)に対して音声エネルギーPを、
Figure 2005266098
と定義し、これがある閾値を Eth1 を用いて

P≦ Eth1 ・・・(式2)
を満たす場合には直前の小セグメントに統合する。
勿論、f(x)の絶対値の累積でなく、f(x)の二乗エネルギーを用いて計算しても良い。
図4に小セグメントの統合に関する例を示す。縦線がルール1及びルール2適応後の小セグメント決定処理の結果であり、矢印で指し示された2つの小セグメントは前の小セグメントに統合されたことを示している。
・音声ラベリング処理
各小セグメントに対して、始点、終点、平均零交差数及び平均エネルギー以下を計算し、記憶する。但し、平均零交差数および平均エネルギーはセグメント長 SegLen を用いて、以下の式により計算される。
平均零交差数=小セグメント中の元音声信号の零交差点数/ SegLen
平均エネルギー=小セグメント中のローパスフィルタした音声信号のエネルギー/ SegLen
である。
更に、小セグメントを5種類のカテゴリに分類し、そのカテゴリを表すラベルを付与する。
ラベルは、無音、無声子音、有声子音、音声ピッチ、雑音である。
図5に示すフローにより着目している小セグメントがどのラベルに相当するかを決定する。
S501で着目する小セグメントの平均零交差数
AveZeroCrossRate 及び平均エネルギーAveEnergy
を読込む。
ラベル判断条件として、以下の閾値を設けるが全て定数である。
無音の最大エネルギーを表す閾値 SileceEnergyMax
無声子音の最小のエネルギー閾値 ConHEnergyLow
無声子音の最大のエネルギー閾値 ConHEnergyMax
有声子音の最小のエネルギー閾値 ConLEnergyLow
有声子音の最大のエネルギー閾値 ConLEnergyMax
無声子音の最小の零交差閾値 ConHZeroCrossRateLow

有声子音の最大の零交差閾値
ConLZeroCrossRateMax
但し、 SileceEnergyMax> ConHEnergyLowを満たすこととする。
S502の無音ラベル条件とは、
((AveEnergy < SileceEnergyMax) AND
(AveZeroCrossRate < ConHZeroCrossRateLow))
((AveEnergy < ConHEnergyLow) AND
(AveZeroCrossRate > ConHZeroCrossRateLow))
・・・(式3))
と表わすこととする。
この条件を満たす場合にS503により着目小セグメントに無音ラベルを付与し記憶する。又、もしS502の条件を満たさない場合には、S504の無声子音ラベル条件判定を行うが、 S504の条件とは、
(ConHEnergyLow < AveEnergy
< ConHEnergyMax)

AND
(AveZeroCrossRate > ConHZeroCrossRateLow) ・・・(式4)
と表わすこととする。
この条件を満たす場合にS505により着目小セグメントに無声子音ラベルを付与し記憶する。
又、もしS504の条件を満たさない場合には、S506で音声ピッチを検出試み、もし検出できばS507で音声ピッチラベルを該当する小セグメント群に付与する。
小セグメント群としたのは、後述のピッチ検出では小セグメントの統合が行われる可能性があり、その場合S508により着目小セグメント以降の複数の小セグメントを1つに統合し、これに対してピッチラベルを与えるからである。
ピッチが検出されるセグメントは主に声帯振動を伴う母音である。
尚、ピッチ検出に関しては詳しく後述する。
又、もしS506の条件を満たさない場合には、S509の有声子音ラベル条件判定を行うが、S509の条件とは、
(ConLEnergyLow < AveEnergy< ConLEnergyMax)

AND
(AveZeroCrossRate< ConLZeroCrossRateMax) ・・・(式5)
と表わすこととする。
この条件を満たす場合にS510により着目小セグメントに有声子音ラベルを付与し記憶する。
そして、最後にS509の条件を満たさない場合には、S511により着目小セグメントに雑音ラベルを付与し記憶する。
図6に音声信号波形のセグメント化からラベリングに至るまでの処理過程の例を示す。
図6(a)はローパスフィルタ後の音声信号波形であり、図6(b)はその零交差点を基準に小セグメント化したものであり、縦の線が小セグメントの区切りである。図6(c)は音声ラベリングとセグメント化を行った結果であり、縦の長い線がセグメントの区切りを表し、縦の短い線が統合された小セグメントの名残を示している。図6(c)では1つのピッチセグメントに統合されていることが分かる。
そして、それぞれのセグメント毎にそのラベルを示している。
・音声ピッチ検出
次に、音声ピッチ検出に関して図9及び図10を用いて音声ピッチ検出のフローを説明する。
先ず、ローパスフィルタ後の音声信号波形の零交差点情報をS901において得る。
そして、零交差点を基準として波形の類似性を検証し、ピッチを求める。
図7にその説明のための音声信号波形の図を示す。
図7に示すように、基準とする零交差点は、時間方向に見て正の値を持つ波形の始点とする。
図7においては、基準とする零交差点はx1 とx2 である。
ここで、x1を始点としx2を終点とする部分波形をf(x)、x2を始点としx3を終点とする部分波形をg(x)とする。
S902において、初期基準と成るf(x)を決定する。
そして、S903において未処理の音声区間が存在するかを判断し、存在する場合にはS904へ、存在しない場合には処理を終了する。
S904のピッチ抽出処理に関しては図5を用いて詳しく後述する。
S904は音声ピッチの有無およびそのセグメント範囲を報告する。
報告するタイミングは、音声ピッチセグメントが途切れたタイミング或はf(x)に対するピッチが見つからなかった場合である。そして、S905において音声ピッチが存在すると判断した場合には、S906において音声ピッチセグメント情報を追記記憶する。
他方、音声ピッチが存在しない場合には、S903に戻り、処理すべき未処理の音声セグメントが存在するだけ上記処理を行う。
次に、S904のピッチ抽出処理に関して図10を用いて詳しく説明する。
設定されたf(x)に対するg(x)をS1001で設定する。
そして、S1002でf(x)の長さをチェックし、ピッチとして存在し得ない位長い場合には、f(x)に対応する音声ピッチは無いと判断し、S1003において、f(x)の終点を始点に持ち、時間方向に見て負の値を持つ波形の終点となる零交差点のうち最も始点に近傍のものを終点とする新たな部分音声セグメントf(x)を設定し、f(x)のセグメントはピッチセグメントでないとレポートする。
更に、S1004でf(x)の長さをチェックし、ピッチとして存在し得ない位短い場合にはS1005においてf(x)の終点を始点に持ち、時間方向に見て負の値を持つ波形の終点となる始点に最も近傍の零交差点を終点とする部分音声セグメントをf(x)の末尾に統合し新たなf(x)とし、再びS1001で新たに設定されたf(x)に対するg(x)を設定し、S1002及びS1004のピッチとしてあり得る長さであるかチェックを受ける。
S1002及びS1004のチェックを通過したf(x)に対して、g(x)との類似度演算を行う。
S1006で行う類似度演算は以下の類似度評価関数を用いて算出する。
部分波形をf(x)のxfにおける、f(x)とg(x)の差の絶対値をδ(xf)とすると、
δ(xf)=|f(xf)−g(xg)|
但し、x1≦xf≦x2且つxg=x2+(xf−x1
と表される。
勿論、f(x)とg(x)の差の絶対値では無く差の二乗、
δ(xf)=[ f(xf)−g(xg)] [ f(xf)−g(xg)]
としても構わない。
そして更に、
Figure 2005266098
と表すことができる。
そして、S1007により、上記で算出した類似度を閾値EThにて処理し、DiffSum <EThを満たさない場合には、S505においてg(x)の補正を行い、再びS1002の処理を行う。
他方、DiffSum <EThを満たす場合には、より精密に音声ピッチ検出を行うためにS1008において、最もエネルギーの大きな小区間がピッチセグメントの最後に成るようにf(x)及びg(x)の位置を補正する。その概念図を図8に示す。最もエネルギーの大きな小区間でピッチの基準を補正することはこの小区間が声帯振動の直後のタイミングで生成される波形であることからも合理的である。
そして、S1009でピッチ検出カウンタを0にリセットする。
そして、S1010で式1に基づき類似度演算を行い、S1011で閾値EThにて処理し、DiffSum <EThを満たさない場合にはS1013においてピッチを2回以上検出しない場合はS1005においてg(x)の終点を始点に持ち、時間方向に見て負の値を持つ波形の終点となる始点に最も近傍の零交差点を終点とする部分音声セグメントをg(x)の末尾に統合し新たなg(x)とし、再びS1002及びS1004のピッチとしてあり得る長さであるかチェックを受ける。
DiffSum <ETh を満たさない場合でS1013においてピッチを2回以上検出した場合には音声ピッチセグメントを検出したと判断し、S1015において、g(x)の終点を始点に持ち、時間方向に見て負の値を持つ波形の終点となる始点に最も近傍の零交差点を終点とする新たなセグメントf(x)を設定し、ピッチセグメントを検出したこととピッチセグメント範囲を報告する。
他方、DiffSum <EThを満たす場合にはS1014においてg(x)の終点を始点に持ち、時間方向に見て負の値を持つ波形の終点となる始点に最も近傍の零交差点を終点とする新たな部分音声セグメントf(x)を設定し、音声ピッチセグメントを検出したこととピッチセグメント範囲を報告し、終了し呼び出し側に戻る。
このようにして得た音声ピッチセグメントを記憶し、後段の音声区間推定部で利用する。
・音声区間推定
次に、音声区間推定部において、上記区間判定を用いて音声区間の推定を行う。
純粋な人の声であればその音声区間の大半を母音が占め、従って、ピッチの存在するセグメントが長く安定して現れる。
他方、BGMがある場合には影響を受けるが、音声エネルギーがBGMのエネルギーよりも或る程度大きい場合にはさほど影響を受けないことは実験的に分かっている。
不幸にも、或る部分区間内において音声エネルギーがBGMのエネルギーよりも十分大きくない場合には、その部分区間においては正確なピッチはない。
又、多くの場合母音の直前には子音を伴うが、声帯の振動を伴わない子音の場合にもピッチは現れず、しかも、その時間は持続時間が短い破裂音で10ms以下であり、最も長い摩擦音で数10msのオーダーである。又、破裂音等の発生直前に無音が生じるものもある。
従って、外部機要因だけでなく、音声自身の要因で音声ピッチが求まるセグメントが離散的になるが、音声ピッチが求まるセグメントが離散的となっても前後或は全体のピッチ周期を考慮し、部分区間の音声ピッチ周期演算結果を統合して、更に音声の特徴を活用して音声区間を判断する方法が必要になる。
図11を用いて音声区間推定処理の説明を行う。
先ず、S1101において、連続する無音、無声子音ラベル、有声子音ラベル、連続する雑音ラベルを持つセグメント群を1つのセグメントに結合する。
更に、S1102において、連続するピッチラベルセグメントを求めこれを結合し、そのセグメントの平均ピッチ周期を求める。この統合したピッチセグメントを統合ピッチセグメントと呼ぶこととする。
S1103において統合ピッチセグメントに挟まれた雑音ラベルを持つセグメント求め、S1104においてその両端の統合ピッチセグメントの平均ピッチ周期変動率が或る閾値以下であるかを判断し、これを満たす場合には、S1105においてこれらを結合して1つの統合ピッチセグメントとする。
この処理により、ピッチセグメント即ち母音の一部にエネルギーの大きなBGMが重なったとしても補正可能である。
ところで、殆どの場合、単独の子音は存在しないので、通常、後方或は前方に子音を伴うことが多い。これはCVC(Consonant Vowel Consonant )モデルと呼ばれている。
そこで、S1106ではこのモデルに基づき、無声子音セグメント、有声子音セグメント及びピッチセグメントを統合し、音声区間を求める。
このS1106の処理の詳細を図12に示す。
S1201において、最も先頭の統合ピッチセグメントを基準となる統合ピッチセグメントとする。
次に、S1202において、基準となる統合ピッチセグメントの次の統合ピッチセグメントを求める。
更に、S1203において、2つの統合ピッチセグメントの間に有声子音セグメント或は無声子音セグメントがあるかを判断し、存在しなければS1206において基準となる統合ピッチセグメントの次の統合ピッチセグメントが存在するかを判断し、無ければ終了、有ればS1207において基準となる統合ピッチセグメントを更新する。
他方、S1203において2つの統合ピッチセグメントの間に有声子音セグメント或は無声子音セグメントがあるかを判断し存在する場合には、S1204において2つの統合ピッチセグメントの間の間隔Distをこれが閾値 Pimax1 より小さい場合S1205において2つの統合ピッチセグメントの端点を終点と始点とする音声区間として記憶する。
閾値Pimax1は、通常の最も長い持続時間を持つ子音、例えば無声摩擦音/S/等の持続時間よりも十分長いものを用いると良い。
この際、2つの統合ピッチセグメントの間に子音セグメントだけでなく無音セグメントが存在しても良い。その理由は、無声子音のうち破裂音や破擦音では発声の前に短い無音が生じることがあるからである。
S1205の音声区間記憶後、S1206において基準となる統合ピッチセグメントの次の統合ピッチセグメントが存在するかを判断し、無ければ終了、有ればS1207において基準となる統合ピッチセグメントを更新し、S1206の終了条件を満たすまで繰り返し処理を行う。
但し、統合ピッチセグメント情報及びその平均ピッチ情報は次の処理のために破棄せずに保存しておく。
他方、S1204において2つの統合ピッチセグメントの平均ピッチ周期を比較し周期変動率がある閾値以下でない場合には、S1206において基準となる統合ピッチセグメントの次の統合ピッチセグメントが存在するかを判断し、無ければ終了、有ればS1207において基準となる統合ピッチセグメントを更新し、S1206の終了条件を満たすまで繰り返し処理を行う。
次に、CVC構造を採らない、例えば「あお」のようなVV構造の場合を考える。そこで、S1107ではこのモデルに基づき、隣接或はは間に無音セグメント又は雑音セグメントを持つ2つのピッチセグメントを統合し、音声区間を求める。
このS1107の処理の詳細を図13に示す。
S1301において、最も先頭の統合ピッチセグメントを基準となる統合ピッチセグメントとする。
次に、S1302において、基準となる統合ピッチセグメントの次の統合ピッチセグメントを求める。
更に、S1303において、2つの統合ピッチセグメントの間隔がDistがある閾値Pimax2以下であるかを判断し、これを満たさなければS1306において基準となる統合ピッチセグメントの次の統合ピッチセグメントが存在するかを判断し、無ければ終了、有ればS1307において基準となる統合ピッチセグメントを更新する。
他方、S1303においてDistがある閾値Pimax2以下である場合には、S1304において2つの統合ピッチセグメントの平均ピッチ周期を比較し周期変動率が或る閾値以下である場合には、S1305において2つの統合ピッチセグメントと挟まれるセグメントを音声区間として記憶する。
この際、外乱に対する耐性を上げるために、2つの統合ピッチセグメントの間に無音セグメントや雑音セグメントが存在しても良い。
S1305の音声区間記憶後、S1306において基準となる統合ピッチセグメントの次の統合ピッチセグメントが存在するかを判断し、無ければ終了、有ればS1307において基準となる統合ピッチセグメントを更新し、S1306の終了条件を満たすまで繰り返し処理を行う。
他方、S1304において2つの統合ピッチセグメントの平均ピッチ周期を比較し、周期変動率がある閾値以下でない場合には、S1306において基準となる統合ピッチセグメントの次の統合ピッチセグメントが存在するかを判断し、無ければ終了、有ればS1207において基準となる統合ピッチセグメントを更新し、S1206の終了条件を満たすまで繰り返し処理を行う。
このようにして、ピッチを検出したセグメントを基準とし、音声中にBGM等による雑音ラベルが生じても、その前後統合ピッチセグメントの平均ピッチ周期の連続性を考慮して統合ピッチセグメントの統合を行い、更に、CVCモデルを導入する事により無声子音セグメントや有声子音セグメントを間に持つ統合ピッチセグメントをまとめて音声区間とし、更にVVモデルを考慮して2つの統合ピッチセグメントをまとめて音声区間を決定する事により、音声の特徴を利用した外乱に強い音声区間抽出が可能となった。
<他の実施の形態>
前記実施の形態においては、音声ラベリング処理として零交差数や音声エネルギーを用いたが、その処理は必ずしも前記実施の形態のアルゴリズムに制約されるものではなく、公知の特徴量を用いたり、或は異なるラベル判定アルゴリズムを用いても良い。
本発明の趣旨は、ローパスフィルタした音声信号の零交差情報を用いて、音声信号を合理的な音声セグメントに分割するとともにその際に波形処理により音声ピッチを検出し、音声ラベリングを行った後に人の声の大半を占める母音に必ず伴う音声ピッチを基準に、CVC音声モデル等の音声の特徴を用いて音声セグメントを統合し、その際にBGM等の外乱が有ってもそれをリカバリする処理を含むところにある。
従って、AGCやローパスフィルタの実現方法に関しては制約はなく、又、音声ラベリングに関しては必ずしも前記実施の形態のアルゴリズムに制約されるものではなく、異なるラベル判定アルゴリズムを用いても良い。
又、音声区間判定処理においても、S1106の無声子音セグメント或は有声子音セグメント及びピッチセグメントを統合し音声区間を求める処理と、S1107の隣接或は間に無音セグメント又は雑音セグメントを持つ2つのピッチセグメントを統合し音声区間を求める処理の順序はこれに限定するものではなく、又、これらを平行して処理するアルゴリズムでも良い。
本発明は、音声信号中から人の音声部分を検出する処理に対して有用である。
本発明における処理ブロックの関連を示す図である。 本発明における処理フローの概要を示す図である。 音声信号の用語説明に用いる図である。 本発明におけるセグメント化のセグメントの結合の説明に用いる図である。 本発明の音声ラベリングの処理の流れの一例を示す図である。 本発明におけるラベリング処理とピッチ検出結果によるセグメントの結合の説明を行うための図である。 本発明におけるピッチ検出の説明のために用いる音声信号波形の図である。 本発明におけるピッチ検出処理におけるピッチ検出基準の更新に関して説明を行うための図である。 本発明のピッチ検出処理の処理概要を示す図である。 本発明の図9のS904ピッチ検出処理の詳細処理を示す図である。 本発明の音声区間安定処理の概要を示す図である。 本発明の図11のS1106ピッチ検出処理の詳細処理を示す図である。 本発明の図11のS1107ピッチ検出処理の詳細処理を示す図である。
符号の説明
11 AGC
12 ローパスフィルタ
13 零交差検出部
14 音声セグメント化部
15 音声ピッチ検出部
16 音声ラベリング部
17 音声エネルギー計算部
18 音声区間判定部

Claims (22)

  1. ローパスフィルタを通した音声信号の零交差点を求め、零交差点を始点と終点に持つ小セグメント群を形成し、更に隣接する小セグメントの信号エネルギーが小さい場合に直前の小セグメントと結合を行うことによりセグメントを決定することを特徴とする音声信号セグメント方法。
  2. 請求項1で求めたセグメントに対し、基準とする部分音声信号波形の始点となる零交差点を時間方向に見て正の値を持つ波形の始点とし終点となる零交差点を時間方向に見て負の値を持つ波形の終点とし、比較する部分音声信号波形の始点を基準とする部分音声信号波形の終点とし、終点となる零交差点を時間方向に見て負の値を持つ波形の終点とし、該2つの部分音声信号波形の類似度を求めることにより音声ピッチの有無を判断することを特徴とする音声ピッチ検出方法。
  3. 基準とする部分音声信号波形の長さがピッチとして存在し得ない位長い場合には、基準とする部分音声信号波形に対応する音声ピッチは無いと判断し、基準とする部分音声信号波形の終点を始点に持ち、時間方向に見て負の値を持つ波形の終点となる零交差点の内最も近いもを終点とする新たな基準とする部分音声信号波形を設定することを特徴とする請求項2記載の音声ピッチ検出方法。
  4. 基準とする部分音声信号波形の長さがピッチとして存在し得ない位短い場合には、基準とする部分音声信号波形の終点を始点に持ち、時間方向に見て負の値を持つ波形の終点となる零交差点の内最も近いものを終点とする部分音声区間を基準とする部分音声信号波形の末尾に統合し新たな基準とする部分音声信号波形とすることを特徴とする請求項2記載の音声ピッチ検出方法。
  5. 2つの部分音声信号波形の類似度とは、2波形の差分の絶対値或は差分の二乗和とすることを特徴とする請求項2記載の音声ピッチ検出方法。
  6. 音声ピッチの有無の判断は、繰り返し隣接する部分音声信号波形の類似度演算を行った結果、類似条件が定められた回数以上連続して満たされた場合であることを特徴とする請求項2記載の音声ピッチ検出方法。
  7. 初回に音声ピッチが検出されたときに、最もエネルギーの大きな小区間がピッチセグメントの最後になるように基準とする部分音声信号波形の位置及び比較する部分音声信号波形の位置を補正することを特徴とする請求項6記載の音声ピッチ検出方法。
  8. 音声ピッチの有無の判定結果とそのピッチ周期をその個別の音声ピッチのセグメント情報として記憶することを特徴とする請求項6記載の音声ピッチ検出方法。
  9. 音声ピッチの有無の判断基準とは類似度がある閾値以上である事をとすることを特徴とする請求項2又は6記載の音声ピッチ検出方法。
  10. 音声信号を複数のセグメントへ分割し、それらのセグメントに対しその性質を表す属性情報をラベルとして与え、そのラベルに必ず音声ピッチに対するラベルを含み音声ピッチセグメント内の音声ピッチ周期情報を併せ持ち、音声検出に関して音声ピッチラベルを持つセグメント群を拠り所とし、音声ピッチラベルを持つセグメントを音声ピッチ周期の連続性を用い或は隣接する音声ピッチラベルを持つセグメント間の距離を閾値処理する更に音声ピッチ周期の連続性とセグメント間の距離の両者を考慮することにより、離散的な音声ピッチラベルを持つセグメントを統合することにより音声区間を検出することを特徴とする音声区間検出処理方法。
  11. 上記セグメントに対しその性質を表す属性情報に無音ラベル、無声子音ラベル、有声子音ラベル、雑音ラベル及び音声ピッチラベルを含むことを特徴とする請求項10記載の音声区間検出処理方法。
  12. 連続するピッチラベルを持つセグメントを求めこれを結合し統合ピッチセグメントを生成し、その統合ピッチセグメントの平均ピッチ周期を求めそれを記憶することを特徴とする請求項10又は11記載の音声区間検出処理方法。
  13. 統合ピッチセグメントに挟まれた雑音ラベルを持つセグメントを求め、その両端の統合ピッチセグメントの平均ピッチ周期変動率が或る閾値以下であるかを判断しこれを満たす場合には、両端の統合ピッチセグメントと挟まれた雑音ラベルを持つセグメントを結合し1つの統合ピッチセグメントとすることを特徴とする請求項10〜12の何れかに記載の音声区間検出処理方法。
  14. 先ず先頭の統合ピッチセグメントと2つの目の統合ピッチセグメントとの間に無声子音ラベル或は有声子音ラベルを持つセグメントが存在する場合に、統合ピッチセグメントのインターバルが定められた閾値より小さい場合先の統合ピッチセグメントの始点を始点とし後の統合ピッチセグメントの終点を終点とする音声区間として記憶し、この処理を繰り返し行うことで間に無声子音ラベル或は有声子音ラベルを持つ統合ピッチセグメントを音声区間に反映することを特徴とする請求項10〜12の何れかに記載の音声区間検出処理方法。
  15. 2つの統合ピッチセグメントの間に無音ラベルや雑音ラベルが存在しても良いこととして、近傍の統合ピッチセグメントの間隔が定められた閾値以下で且つ平均ピッチ周期変動率がある閾値以下である場合にはこれらを音声区間に反映することを特徴とする請求項10〜12の何れかに記載音声区間検出処理方法。
  16. 請求項13の処理を行った後、請求項14の処理を行い、更に後に請求項15の処理を行うことにより音声区間を決定することを特徴とする音声区間検出処理方法。
  17. 請求項13の処理を行った後、請求項15の処理を行い、更に後に請求項14の処理を行うことにより音声区間を決定することを特徴とする音声区間検出処理方法。
  18. 請求項14の処理を行った後、請求項13の処理を行い、更に後に請求項15の処理を行うことにより音声区間を決定することを特徴とする音声区間検出処理方法。
  19. 請求項14の処理を行った後、請求項15の処理を行い、更に後に請求項13の処理を行うことにより音声区間を決定することを特徴とする音声区間検出処理方法。
  20. 請求項15の処理を行った後、請求項13の処理を行い、更に後に請求項14の処理を行うことにより音声区間を決定することを特徴とする音声区間検出処理方法。
  21. 請求項15の処理を行った後、請求項14の処理を行い、更に後に請求項13の処理を行うことにより音声区間を決定することを特徴とする音声区間検出処理方法。
  22. ローパスフィルタを通した音声信号の零交差点を求め、零交差点を始点と終点に持つ小セグメント群を形成し、更に隣接する小セグメントの信号エネルギーが小さい場合に直前の小セグメントと結合を行うことによりセグメントを決定し、それらのセグメントに対しその性質を表す属性情報をラベルとして与え、そのラベルに必ず音声ピッチに対するラベルを含み音声ピッチセグメント内の音声ピッチ周期情報を併せ持ち、音声検出に関して音声ピッチラベルを持つセグメント群を拠り所とし、音声ピッチラベルを持つセグメントを音声ピッチ周期の連続性を用い或は隣接する音声ピッチラベルを持つセグメント間の距離を閾値処理する更に音声ピッチ周期の連続性とセグメント間の距離の両者を考慮することにより、離散的な音声ピッチラベルを持つセグメントを統合することにより音声区間を検出することを特徴とする音声区間検出処理方法。
JP2004076395A 2004-03-17 2004-03-17 音声信号セグメント方法、音声ピッチ検出方法及び音声区間検出処理方法 Withdrawn JP2005266098A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2004076395A JP2005266098A (ja) 2004-03-17 2004-03-17 音声信号セグメント方法、音声ピッチ検出方法及び音声区間検出処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2004076395A JP2005266098A (ja) 2004-03-17 2004-03-17 音声信号セグメント方法、音声ピッチ検出方法及び音声区間検出処理方法

Publications (1)

Publication Number Publication Date
JP2005266098A true JP2005266098A (ja) 2005-09-29

Family

ID=35090744

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2004076395A Withdrawn JP2005266098A (ja) 2004-03-17 2004-03-17 音声信号セグメント方法、音声ピッチ検出方法及び音声区間検出処理方法

Country Status (1)

Country Link
JP (1) JP2005266098A (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009244703A (ja) * 2008-03-31 2009-10-22 Brother Ind Ltd 楽曲編集システムおよびプログラム
US7844452B2 (en) 2008-05-30 2010-11-30 Kabushiki Kaisha Toshiba Sound quality control apparatus, sound quality control method, and sound quality control program
US7856354B2 (en) 2008-05-30 2010-12-21 Kabushiki Kaisha Toshiba Voice/music determining apparatus, voice/music determination method, and voice/music determination program
JP2014145863A (ja) * 2013-01-28 2014-08-14 Shinano Kenshi Co Ltd 音声データ再生速度変換方法および音声データ再生速度変換装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009244703A (ja) * 2008-03-31 2009-10-22 Brother Ind Ltd 楽曲編集システムおよびプログラム
US7844452B2 (en) 2008-05-30 2010-11-30 Kabushiki Kaisha Toshiba Sound quality control apparatus, sound quality control method, and sound quality control program
US7856354B2 (en) 2008-05-30 2010-12-21 Kabushiki Kaisha Toshiba Voice/music determining apparatus, voice/music determination method, and voice/music determination program
JP2014145863A (ja) * 2013-01-28 2014-08-14 Shinano Kenshi Co Ltd 音声データ再生速度変換方法および音声データ再生速度変換装置

Similar Documents

Publication Publication Date Title
US7567900B2 (en) Harmonic structure based acoustic speech interval detection method and device
Kos et al. Acoustic classification and segmentation using modified spectral roll-off and variance-based features
US8874440B2 (en) Apparatus and method for detecting speech
JP4740609B2 (ja) 有声音および無声音の検出装置、並びにその方法
JP4572218B2 (ja) 音楽区間検出方法、音楽区間検出装置、音楽区間検出プログラム及び記録媒体
JP2012508903A (ja) 自動音声テキスト変換のためのシステムと方法
KR101943381B1 (ko) 심층 신경망을 이용한 음성 끝점 검출 방법 및 이를 위한 끝점 검출 장치
JP2018180334A (ja) 感情認識装置、方法およびプログラム
CN105706167A (zh) 有语音的话音检测方法和装置
US8942977B2 (en) System and method for speech recognition using pitch-synchronous spectral parameters
US20090089051A1 (en) Vocal fry detecting apparatus
JPWO2019244298A1 (ja) 属性識別装置、属性識別方法、およびプログラム
Yarra et al. A mode-shape classification technique for robust speech rate estimation and syllable nuclei detection
KR100744288B1 (ko) 음성 신호에서 음소를 분절하는 방법 및 그 시스템
WO2007049879A1 (en) Apparatus for vocal-cord signal recognition and method thereof
JP2005266098A (ja) 音声信号セグメント方法、音声ピッチ検出方法及び音声区間検出処理方法
Sarma et al. Consonant-vowel unit recognition using dominant aperiodic and transition region detection
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
JP2006154212A (ja) 音声評価方法および評価装置
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP6599408B2 (ja) 音響信号処理装置、方法及びプログラム
JP5166195B2 (ja) 音響分析パラメータ生成方法とその装置と、プログラムと記録媒体
JP4576612B2 (ja) 音声認識方法および音声認識装置
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
Achan et al. A segmental HMM for speech waveforms

Legal Events

Date Code Title Description
RD01 Notification of change of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7421

Effective date: 20060201

A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20070605