JP2012242542A - 音声比較装置及び音声比較プログラム - Google Patents
音声比較装置及び音声比較プログラム Download PDFInfo
- Publication number
- JP2012242542A JP2012242542A JP2011111380A JP2011111380A JP2012242542A JP 2012242542 A JP2012242542 A JP 2012242542A JP 2011111380 A JP2011111380 A JP 2011111380A JP 2011111380 A JP2011111380 A JP 2011111380A JP 2012242542 A JP2012242542 A JP 2012242542A
- Authority
- JP
- Japan
- Prior art keywords
- audio signal
- frequency
- signal
- voice
- distance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Monitoring And Testing Of Transmission In General (AREA)
Abstract
【解決手段】第1の音声信号と第2の音声信号とを時間差に従って同期させる同期手段101と、所定の時間幅の窓関数を乗じて当該時間幅に対応するフレームを取得するフレーム取得手段102a,102bと、フーリエ変換により周波数領域に変換する周波数変換手段103a,103bと、正規化処理を行う正規化手段104a,104bと、2つの音声信号の距離を算出する距離算出手段105と、距離算出手段105の算出値である距離の値と所定の基準値とを比較して、その結果を出力する比較手段106と、を備える。
【選択図】図2
Description
特許文献1には、監視担当者が、スピーカから出力されるアナログ放送の音声信号とデジタル放送の音声信号とのいずれか一方を聞きながら、放送信号監視装置が音声の不一致を通知するか否かを監視することにより、両方の音声信号が正常(同一内容)であるかを監視する技術について記載されている。
つまり、特許文献1に記載の技術では、同じ内容(同一素材)の音声信号であっても変調方式が異なる場合には音質が変わり、同一素材であるか否かを適切に判定できない場合がある。
かかる構成において、音声比較装置は同期手段によって、第1の音声信号と第2の音声信号との相互相関関数が最大となる時間差を検出して、当該時間差に従って第1の音声信号と第2の音声信号とを同期させる。これによって、音声比較装置に第1の音声信号が到達する時刻と、音声比較装置に第2の音声信号が到達する時刻との間に時間差が生じた場合でも、同期手段によって同期させることができる。
そして、音声比較装置はフレーム取得手段によって、第1の音声信号及び第2の音声信号のそれぞれに対して所定の時間幅の窓関数を乗じて、当該時間幅に対応するフレームを取得する。これによって、音声比較装置は、窓関数を用いて音声信号の波形をその定常性が確認できる程度の短い時間に分割することができる。
そして、音声比較装置は正規化手段によって、周波数変換手段により周波数領域に変換して入力された第1の音声信号と第2の音声信号のそれぞれに対して正規化処理を行う。これによって、音声比較装置は、基準となる音声レベルが入力の時点でずれている場合でも各音声信号の波形を正規化することにより音声信号の大きさのばらつきをなくし、誤判定を防止することができる。
そして、音声比較装置は距離算出手段によって、正規化手段により正規化された第1の音声信号と第2の音声信号との距離を算出する。さらに、音声比較装置は比較手段によって、距離算出手段の算出値である距離の値が、所定の基準値以上であるか否かを判断して、その結果を出力する。これによって、音声比較装置は、第1の音声信号と第2の音声信号のそれぞれの周波数スペクトルの差分である距離の値が所定の基準値以上であるか否かによって、第1の音声信号と第2の音声信号とが同一素材であるか否かを適切に判断することができる。
これによって、音声比較装置は、音声信号の特徴を判断する上で有効なスペクトル包絡を比較することで、検出精度の信頼性を高めることができる。
これによって、音声比較装置は、高域通過フィルタ手段により第1の音声信号及び第2の音声信号に対して周波数の高い領域を強調する処理を行い、人間の聴覚特性により近い周波数特性に変換することができる。
これによって、音声比較装置は、メル尺度変換手段により人間の聴覚特性に近い形で第1の音声信号及び第2の音声信号を抽出することができる。
かかる構成において、音声比較プログラムは、コンピュータを同期手段として機能させることによって、第1の音声信号と第2の音声信号との相互相関関数が最大となる時間差を検出して、当該時間差に従って第1の音声信号と第2の音声信号とを同期させる。
そして、音声比較プログラムは、コンピュータをフレーム取得手段として機能させるによって、同期手段により同期された第1の音声信号と第2の音声信号のそれぞれに対して所定の時間幅の窓関数を乗じて、当該時間幅に対応するフレームを取得する。
そして、音声比較プログラムは、コンピュータを周波数変換手段として機能させることによって、フレーム取得手段により所定の時間幅に対応するフレームとして入力された第1の音声信号及び第2の音声信号のそれぞれを、フーリエ変換により周波数領域に変換する。
そして、音声比較プログラムは、コンピュータを距離算出手段として機能させることによって、正規化手段により正規化された第1の音声信号と第2の音声信号との距離を算出する。
さらに、音声比較プログラムは、コンピュータを比較手段として機能させることによって、距離算出手段の算出値である距離の値が、所定の基準値以上であるか否かを判断して、その結果を出力する。
これによって、音声比較プログラムは、第1の音声信号と第2の音声信号との周波数領域における距離の値が所定の基準値以上であるか否かによって、第1の音声信号と第2の音声信号とが同一素材であるか否かを適切にコンピュータに判断させることができる。
本実施形態に係る音声比較装置1は、異なる変調方式で変調された場合の復調信号である第1の音声信号と第2の音声信号が同一素材(同一内容)であるか否かを判定する装置である。第1の音声信号及び第2の音声信号は、例えば、所定の放送番組が放送局(図示せず)で互いに異なる変調方式(例えば、AM変調,FM変調)に従って変調され、放送局から電波として送信された各信号が受信機(図示せず)によって受信され、さらに復調された音声信号である。
図1に示すように、インタフェース装置2は、音声比較装置1の入力側に接続されている。インタフェース装置2は、異なる変調方式で変調された場合の復調信号である第1の音声信号及び第2の音声信号を、所定のサンプリング周波数に従ってA/D変換する装置である。インタフェース装置2は、A/D変換器201aと、A/D変換器201bとを備える。A/D変換器201aはアナログ信号として入力された第1の音声信号に対して所定のサンプリング周波数でデジタル信号に変換し、音声比較装置1に出力する。同様に、A/D変換器201bは、アナログ信号として入力された第2の音声信号に対してA/D変換を行い、デジタル信号として音声比較装置1に出力する。
ちなみに、地上デジタル放送では、1つのチャンネルが13の周波数帯域(セグメント)に分割されており、このうち1セグメントの周波数帯域を利用して変調する場合が「1SEG放送」であり、12セグメントの周波数帯域を利用して変調する場合が「12SEG放送」である。
また、第1の音声信号及び第2の音声信号としては、上記で説明したように、1SEG放送や12SEG放送を復調した音声信号に限らない。すなわち、異なる変調方式で変調された場合の復調信号であれば、音声比較装置1は、様々な変調方式及び復調方式に対応可能である。例えば、第1の音声信号をAM(Amplitude Modulation)放送が復調された音声信号とし、第2の音声信号をFM(Frequency Modulation)放送が復調された音声信号としてもよい。
また、第1の音声信号及び第2の音声信号のうち、いずれか一方は他方に対して所定時間だけ遅れてインタフェース装置2に到達する。遅延の原因として、放送局から放送信号を送信する際のエンコード及び図示しない受信機で処理されるデコードに伴う遅延がある。例えば、一方の音声信号は、他方の音声信号に対して1.7sec程度遅れてインタフェース装置2に到達する。
同期手段101は、第1の音声信号と第2の音声信号のそれぞれに対して所定時間分の波形を切り出し、切り出した各波形について相互相関関数を求め、相互相関関数が最大となる場合の相対的遅延時間を求める。ここで相対的遅延時間とは、第1の音声信号が音声比較装置1に到達する時刻と、第2の音声信号が音声比較装置1に到達する時刻との差で表される。例えば、第1の音声信号に対して第2の音声信号が所定時間tだけ遅れて到達する場合の遅延時間を「t」とすると、その逆の場合(第1の音声信号に対して第2の音声信号が所定時間だけ早く到達する場合)の遅延時間は「−t」と表される。
相互相関関数の値は、2つの関数の類似性が高いほど大きな値をとるため、相対的遅延時間は相互相関関数の値が最大となる場合での各波形の時間差として求められる。なお、相対的遅延時間の導出の詳細については、後記する。
記憶部1011aは、インタフェース装置2のA/D変換器201aによってデジタル信号に変換された第1の音声信号を一時的に記憶するバッファとして機能する。同様に、記憶部1011bは、インタフェース装置2のA/D変換器201bによってデジタル信号に変換された第2の音声信号を一時的に記憶するバッファとして機能する。
なお、上記の時間幅(t2−t1)は、予め定められた値である。t1〜t2の時間幅の波形は、t1〜t2における値が1であり、それ以外の時間における値が0である関数を第1の音声信号に乗算することにより取得することができる。
同様に、音声信号切出し部1012bは、A/D変換器201bでデジタル信号に変換された第2の音声信号を記憶部1011bから読み出し、所定時間分の波形を切り出して取得し、相互相関関数算出部1013に出力する。図4(b)に示すように、音声信号切出し部1012bは、まず、上記の音声信号切出し部1012aが取得した波形の時間と同一の時間(上記の例では、t1〜t2)の波形を切り出して取得し、相互相関関数算出部1013に出力する。
同様にして、音声信号切出し部1012bは、(t1+2t0〜t2+2t0:図4参照)、(t1−t0〜t2−t0:図示せず)、(t1−2t0〜t2−2t0:図示せず)のように、時間(t1〜t2)から正又は負方向にt0ずつシフトさせた時間における第2の音声信号を切り出して相互相関関数算出部1013に出力する。なお、第2の音声信号から所定時間分だけ切り出して取得されるデータの個数(上記では、5個)は、予め設定されているものとする。
例えば、相互相関関数は、t1〜t2(図4参照)における第1の音声信号とt1+t0〜t2+t0(図4参照)における第2の音声信号との相互相関関数を算出して、相互相関関数記憶部1014に出力する。相互相関関数記憶部1014は、相互相関関数算出部1013で算出された複数の相互相関関数を記憶する。
相互相関関数比較部1015は、相互相関関数記憶部1014に記憶された相互相関関数の値を読み出して順次比較し、相互相関関数算出部1013で算出した相互相関関数の値が最大になる場合での相対的遅延時間n*t0(nは整数)を音声信号読出部1016に出力する。
この場合、相互相関関数比較部1015は、第1の音声信号に対する第2の音声信号の相対的遅延時間である「−t0」を音声信号読出部1016に出力する。なお、上記のマイナスの符号は、第1の音声信号に対して第2の音声信号が時間t0だけ進んでいる(−t0だけ遅れている)ことを表す。
音声信号読出部1016は、相互相関関数比較部1015から出力された相対的遅延時間に従って、各音声信号が同期するように読み出し処理を行う。上記の例では、音声信号読出部1016は、同期手段101に入力したタイミングを基準として、第2の音声信号を第1の音声信号より時間t0だけ遅らせて記憶部1011a,1011bから読み出し、フレーム取得手段102a,102bに出力する。
以上のような処理によって、同期手段101は第1の音声信号と第2の音声信号とを同期させることができる。
フレーム取得手段102aは、同期手段101から出力された第1の音声信号から所定の窓関数を用いてフレームを切り取る。ここで「フレーム」とは、窓関数によって切り出された部分の音声信号を指す。
音声は、その統計的性質が時間とともに変化するが、十分に短い期間内では定常性を仮定できると考えられている。したがって、音声信号の分析では、窓関数を用いて音声信号の波形をその定常性が確認できる程度の短い時間に分割する。窓関数として、例えば、方形窓、バーレット窓、ハニング窓、ハミング窓、ブラックマン窓などを用いることができる。本実施形態では、長さが10〜1000msecの時間窓を、10〜1000msecの間隔で順次シフトしながら分析を行う。
同期手段101により同期処理をして入力された第1の音声信号は、フレーム取得手段102aによってフレームに切り取られ、周波数変換手段103aに対して出力される。
したがって、フレーム取得手段102aによりフレームに切り取られて入力された第1の音声信号は、周波数変換手段103aによって時間領域から周波数領域の音声信号に変換され、正規化処理手段104aに対して出力される。
なお、S(f)はスペクトルを表す関数、fは周波数、fminは最小周波数、fmaxは最大周波数、Rは各サンプル周波数における値(強度)の和、N(f)は正規化されたスペクトルである。
周波数変換手段103aにより周波数領域に変換して入力された第1の音声信号は、正規化手段104aによって正規化処理され、距離算出手段105に対して出力される。
第1の音声信号のスペクトルをS(f)とし、第2の音声信号のスペクトルをT(f)とすると、以下の(式3)及び(式4)のようになる。
距離算出手段105により算出された距離が、予め定められた所定の値以上であった場合には、第1の音声信号と第2の音声信号とは異なる内容であると考えられる。したがって、この場合、比較手段106は、「異常あり」に対応する信号を表示装置3に対して出力する。また、距離算出手段105により算出された距離が、予め定められた所定の値より小さい場合には、第1の音声信号と第2の音声信号とは同一の内容であると考えられる。したがって、この場合比較手段106は、「異常なし」に対応する信号を表示装置3に対して出力する。
なお、比較手段107は、予め定められた所定時間(例えば、10秒)内に算出されたスペクトル包絡間の距離の合計値を算出し、当該合計値が予め定められた所定値以上であるか否かを判断することとしてもよい。
図5のステップS10で音声比較装置1は、同期手段101によって、入力された第1の音声信号と第2の音声信号とが同期するように、同期処理を行う。すなわち、同期手段101は、第1の音声信号と第2の音声信号との相互相関関数が最大となる場合の相対的遅延時間を求め、この相対的遅延時間に従って一方を他方に遅らせて出力することにより、同期処理を行う。
ステップS20で音声比較装置1は、フレーム取得手段102aによって、同期手段101から入力された第1の音声信号から所定の窓関数を用いてフレームを切り取る。ステップS30で音声比較装置1は、周波数変換手段103aによって、フレーム取得手段102aから入力された第1の音声信号に対してフーリエ変換を高速に実行することにより、時間領域の信号として入力された第1の音声信号を周波数スペクトルに変換する。ステップS40で音声比較装置1は、正規化手段104aによって、周波数変換手段103aから入力された第1の音声信号に対して、正規化の処理を行う。
したがって、同期手段101で算出した相対的遅延時間に誤差が生じた場合でも、定常性が確認できる程度の短い時間で切り出した音声信号の周波数特性の変動が小さいため、音声比較装置1の判定結果にはほとんど影響しない。
なお、第1の音声信号に対する第2の音声信号の相対的遅延時間が変動しないことが分かっている場合には、同期手段101が相対的遅延時間を算出する処理は、フレームごとに逐次行う必要はなく、音声比較装置1による比較処理を行う際に1度だけ行えばよい。
また、所定時間ごとに相対的遅延時間の算出を行うよう設定してもよい。
また、本実施形態に係る音質監視装置1は、周波数変換手段103aから入力された第1の音声信号と、周波数変換手段103bから入力された第2の音声信号について、正規化手段104a,104bにより正規化する処理を行っている。これによって、基準となる音声レベルが入力の時点でずれている場合でも、各音声信号の波形を正規化することによって、音声信号の大きさのばらつきをなくし、誤判定を防止することができる。
したがって、本実施形態に係る音質監視装置1によれば、異なる変調方式で変調した場合の復調信号である第1の音声信号と第2の音声信号の素材の同一性を適切に判定することができる
本実施形態に係る音声比較装置1Aは、スペクトル包絡変換手段107a,107bを備える点が第1実施形態と異なるが、他の点は第1実施形態の場合と同様である。したがって、当該異なる点について主に説明し、第1実施形態と共通する点についてはその説明を省略する。また、以下の説明では、第1の音声信号に対する処理を中心に説明し、第2の音声信号に対する処理については、第1の音声信号に対する処理と同様であるので、その説明を省略する。
なお、図6に示す同期手段101、フレーム取得手段102a,102b、周波数変換手段103a,103bによる処理は、第1実施形態(図2参照)で説明した処理と同様である。
スペクトル包絡変換手段107aは、周波数変換手段103aにより周波数領域に変換して入力された第1の音声信号をスペクトル包絡に変換する。スペクトル包絡を得るための手法としては、線形予測分析(linear predictive coding:LPC)が有効である。線形予測分析は、過去の出力と現在の入力を用いてワンステップ先である現在の出力を予測するために、線形結合における各々の係数(LPC係数ベクトル)を求める手法である。
具体的には、スペクトル包絡変換手段107aは線形予測分析を用いて、音声信号の各サンプリング値をいくつかの過去のサンプリング値の線形結合で表し、予測される最小誤りの二乗平均値に基づいて個々の重み付け係数を求める。ちなみに、予測される誤りは、実際のサンプリング値と予測値との差によって求められる。
すなわち、スペクトル包絡変換手段107aは、線形予測分析を用いて第1の音声信号のパラメータ(フォルマント等)を推定してスペクトル包絡に変換し、正規化手段104aに出力する。
そして、距離算出手段105は、正規化手段104aにより正規化して入力された第1の音声信号(第1のスペクトル包絡)と、正規化手段104bにより正規化して入力された第2の音声信号(第2のスペクトル包絡)との距離(ノルム)を算出する。
さらに、比較手段106は、距離算出手段105により算出された距離(ノルム‖S(f)−T(f)‖)が、予め定められた所定の値以上であるか否か判断し、その結果を表示装置3に対して出力する。
図7のステップS31で音声比較装置1Aは、スペクトル包絡変換手段105aによって、周波数変換手段104aから入力された第1の音声信号をスペクトル包絡に変換する。そして、ステップS40で音声比較装置1Aは、正規化手段104aによって、スペクトル包絡変換手段105aから入力された第1の音声信号(第1のスペクトル包絡)に対して、正規化の処理を行う。ステップS50で音声比較装置1Aは、距離算出手段105によって、正規化手段104aから入力された第1の音声信号(第1のスペクトル包絡)と、正規化手段104bから入力された第2の音声信号(第2のスペクトル包絡)との距離(ノルム)を算出する。なお、ステップS60〜S80は、図5で説明したステップS60〜S80と同様であるから、説明を省略する。
すなわち、本実施形態に係る音質監視装置1Aは、同一の音質素材に対して異なる変調方式で変調を行って復調した場合に、変調方式の違いに起因する音質の差が各音声信号に現れても、音源の「音の特徴」であるスペクトル包絡に焦点を絞った比較を行う事によって、各音声信号について素材の同一性を適切に判定することができる。
本実施形態に係る音声比較装置1Bは、高域通過フィルタ手段108a,108bと、メル尺度変換手段109a,109bとを備える点が第2実施形態と異なるが、他の点は第2実施形態の場合と同様である。したがって、当該異なる点について主に説明し、第2実施形態と共通する点についてはその説明を省略する。また、第1の音声信号に対する処理を中心に説明し、第2の音声信号に対する処理については、第1の音声信号に対する処理と同様であるので、その説明を省略する。
なお、図8に示す同期手段101、フレーム取得手段102a,102b、周波数変換手段103a,103bによる処理は、第1実施形態(図2参照)で説明した処理と同様である。また、図8に示すスペクトル包絡変換手段107a,107bによる処理は、第2実施形態(図6参照)で説明した処理と同様である。
人間が感じる音の大きさは同じ音圧レベルでも周波数によって変わることが知られており、人間の感じる音の大きさは「等ラウドネス曲線(フレッチャー・マンソン曲線)」で表される。本実施形態に係る音声比較装置1Bは、上記の等ラウドネス曲線の特性を、周波数の高い領域を強調する処理を行う高域通過フィルタ手段108aによって近似する。高域通過フィルタ手段108aとして、例えば、FIRフィルタ(finite impulse response filter)を使用することができる。
高域通過フィルタ手段108aとして有効なFIRフィルタの特性は、インパルス応答のZ変換を行った場合の伝達関数H(z)で表され、以下の式(6)のようになる。FIRフィルタは、フィードバックを必要とせず安定性があること、線形位相情報を保つことなどの特長がある。
高域通過フィルタ手段108aにより高い周波数帯域の音声信号を取り出して入力された第1の音声信号は、メル尺度変換手段109aによりメル尺度に変換され、正規化手段104aに対して出力される。
そして、距離算出手段105は、正規化手段104aにより正規化して入力された第1の音声信号(第1のスペクトル包絡)と、正規化手段104bにより正規化して入力された第2の音声信号(第2のスペクトル包絡)との距離(ノルム)を算出する。
さらに、比較手段106は、距離算出手段105により算出された距離(ノルム‖S(f)−T(f)‖)が、予め定められた所定の値以上であるか否か判断し、その結果を表示装置3に対して出力する。
図9のステップS32で音声比較装置1Bは、高域通過フィルタ手段108aによって、スペクトル包絡変換手段107aによりスペクトル包絡に変換して入力された第1の音声信号(第1のスペクトル包絡)について、所定の周波数より低い周波数帯域の信号を除去することにより、上記所定の周波数以上の周波数帯域の信号を取り出す。次に、ステップS33で音声比較装置1Bは、メル尺度変換手段109aによって、高域通過フィルタ手段108aから入力された第1の音声信号(第1のスペクトル包絡)に対し、メル尺度関数を用いて人間の聴覚感度特性に対応する周波数上の重み付けを行う。そして、ステップS40で音声比較装置1Bは正規化手段104aによって、メル尺度変換手段109aから入力された第1の音声信号(スペクトル包絡)に対して、正規化の処理を行う。ステップS50で音声比較装置1Bは、距離算出手段105によって、正規化手段104aから入力された第1の音声信号(第1のスペクトル包絡)と、正規化手段104bから入力された第2の音声信号(第2のスペクトル包絡)との距離(ノルム)を算出する。なお、ステップS60〜S80は、図5で説明したステップS60〜S80と同様であるから、説明を省略する。
すなわち、本実施形態に係る音質監視装置1Bは、同一の音質素材に対して異なる変調方式で変調を行って復調した場合に、変調方式の違いに起因する音質の差が各音声信号に現れても、人間の聴覚特性を取り入れ、さらに音源の「音の特徴」に焦点を絞った比較を行う事によって、各音声信号について素材の同一性を適切に判定することができる。
前記した音声比較装置1,1A,1Bは、一般的なコンピュータを、前記した各手段及び各部として機能させるプログラムにより動作させることで実現することができる。
例えば、t1〜t2の時間における第2の音声信号を基準として、時間t1〜t2の範囲からt0ずつ正又は負方向に範囲をシフトして、各範囲での第1の音声信号を取得してもよい。また、例えば、第1の音声信号に対する第2の音声信号の相対的遅延時間について予め見当がついていれば(この場合の相対的遅延時間をt3とする)、当該相対的遅延時間t3を中心として波形を切り出す範囲を正又は負方向に順次シフトさせて、それぞれの場合について相対的遅延時間を算出すればよい。
これは、例えば、第1の音声信号が「マラソン中継」の放送に対応する音声信号で、第2の音声信号が「トーク番組」の放送に対応する音声信号であることが番組情報受信装置から入力された番組情報により予め分かっている場合には、第1の音声信号と第2の音声信号との距離の値に関わらず、「正常」と判定することが適当だからである。
また、第2実施形態に係る音声比較装置1Aにメル尺度変換手段109a,109bのみを追加する構成としてもよい。この場合、メル尺度変換手109aは、スペクトル包絡変換手段107aによりスペクトル包絡に変換して入力された第1の音声信号(スペクトル包絡)に対して、人間の聴覚感度特性に対応する周波数上の重み付けを行い、正規化手段104aに対して出力する。
図10のグラフの破線は本発明の第1実施形態に係る音声比較装置1を用いて処理を行った場合であり、2つの音声信号に対して同期処理、フレーム取得処理、周数変換処理、正規化処理を行って、2つの音声信号の強度の差分(距離)を1秒ごとに算出したものである。なお、図中には簡単のため、「周波数スペクトル」と記載されている。
一方、図10のグラフの実線は本発明の第3実施形態に係る音声比較装置1Bを用いて処理を行った場合であり、第1実施形態に係る音声比較装置1の処理に加えて、さらにスペクトル包絡変換処理、高域通過フィルタ処理、メル尺度変換処理を行って、2つのスペクトル包絡の差分(距離)を1秒ごとに算出したものである。なお、図中には簡単のため、「スペクトル包絡+高域通過フィルタ+MEL尺度」と記載されている。
また、1SEG放送の送出において障害が起きた事を想定し、1SEG放送を無音とした区間B1、及び、1SEG放送をホワイトノイズ(白色雑音)とした区間D1を設け、異常を検知できたかを示した。なお、ホワイトノイズとは、すべての波が同じエネルギーで重なっている雑音である。
図11のグラフの破線は、図10に示す実験データと同様に、本発明の第1実施形態に係る音声比較装置1を用いて処理を行った場合であり、図中には簡単のため、「周波数スペクトル」と記載されている。
一方、図11のグラフの実線は、図10に示す実験データと同様に、本発明の第3実施形態に係る音声比較装置1Bを用いて処理を行った場合であり、図中には簡単のため、「スペクトル包絡+高域通過フィルタ+MEL尺度」と記載されている。
ちなみに、平均音声レベルは、VUメータ(図示せず)から読み取った値である。VUメータの電気的特性により、応答速度が300msで、300ms以上の継続する信号が入った時に、正確なレベルを指示する。この場合VUメータは、入力信号の平均値をVU値(Volume Unit:音量単位)として示すことができる。
101 同期手段
102a,102b フレーム取得手段
103a,103b 周波数変換手段
104a,104b 正規化手段
105 距離算出手段
106 比較手段
107a,107b スペクトル包絡変換手段
108a,108b 高域通過フィルタ手段
109a,109b メル尺度変換手段
2 インタフェース装置
201a,201b A/D変換器
3 表示装置
Claims (7)
- 異なる変調方式で変調した場合の復調信号である第1の音声信号と第2の音声信号とが同一素材であるか否かを判定する音声比較装置であって、
前記第1の音声信号と前記第2の音声信号との相互相関関数が最大となる時間差を検出して、当該時間差に従って前記第1の音声信号と前記第2の音声信号とを同期させる同期手段と、
前記同期手段により同期された前記第1の音声信号と前記第2の音声信号のそれぞれに対して所定の時間幅の窓関数を乗じて、当該時間幅に対応するフレームを取得するフレーム取得手段と、
前記フレーム取得手段により所定の時間幅に対応するフレームとして入力された前記第1の音声信号及び前記第2の音声信号のそれぞれを、フーリエ変換により周波数領域に変換する周波数変換手段と、
前記周波数変換手段により周波数領域に変換して入力された前記第1の音声信号と前記第2の音声信号のそれぞれに対して正規化処理を行う正規化手段と、
前記正規化手段により正規化された前記第1の音声信号と前記第2の音声信号との距離を算出する距離算出手段と、
前記距離算出手段の算出値である前記距離の値が、所定の基準値以上であるか否かを判断して、その結果を出力する比較手段と、を備えること
を特徴とする音声比較装置。 - 前記周波数変換手段により周波数領域に変換して入力された前記第1の音声信号及び前記第2の音声信号のそれぞれをスペクトル包絡に変換するスペクトル包絡変換手段をさらに備え、
前記正規化手段は、前記スペクトル包絡変換手段によりスペクトル包絡に変換して入力された前記第1の音声信号と前記第2の音声信号のそれぞれに対して、正規化処理を行うこと
を特徴とする請求項1に記載の音声比較装置。 - 前記スペクトル包絡変換手段によりスペクトル包絡に変換して入力された前記第1の音声信号と前記第2の音声信号のそれぞれについて、所定の周波数より低い周波数帯域の信号を除去することにより、前記所定の周波数以上の周波数帯域の信号を取り出す処理を行う高域通過フィルタ手段をさらに備え、
前記正規化手段は、前記高域通過フィルタ手段により前記所定の周波数以上の周波数帯域の信号を取り出す処理をして入力された前記第1の音声信号及び前記第2の音声信号のそれぞれに対して正規化処理を行うこと
を特徴とする請求項2に記載の音声比較装置。 - 前記高域通過フィルタ手段により前記所定の周波数以上の周波数帯域の信号を取り出す処理をして入力された前記第1の音声信号と前記第2の音声信号のそれぞれに対して、メル尺度を用いて人間の聴覚感度特性に対応する周波数上の重み付けを行うメル尺度変換手段をさらに備え、
前記正規化手段は、前記メル尺度変換手段により周波数上の重み付けをして入力された前記第1の音声信号及び前記第2の音声信号のそれぞれに対して、正規化処理を行うこと
を特徴とする請求項3に記載の音声比較装置。 - 前記距離算出手段は、所定のサンプル周波数における前記第1の音声信号と前記第2の音声信号との差の絶対値の二乗を算出し、さらに各サンプル周波数において算出された前記差の絶対値の二乗の和の平方根を距離として算出することを特徴とする請求項1から請求項4のいずれか一項に記載の音声比較装置。
- 前記メル尺度変換手段で用いられるメル尺度関数は、音声信号の周波数をfとすると、Mel(f)=2595log10(1+f/700)で表されることを特徴とする請求項4又は請求項5に記載の音声比較装置。
- 異なる変調方式で変調した場合の復調信号である第1の音声信号と第2の音声信号とが同一素材であるか否かを判定するために、コンピュータを、
前記第1の音声信号と前記第2の音声信号との相互相関関数が最大となる時間差を検出して、当該時間差に従って前記第1の音声信号と前記第2の音声信号とを同期させる同期手段、
前記同期手段により同期された前記第1の音声信号と前記第2の音声信号のそれぞれに対して所定の時間幅の窓関数を乗じて、当該時間幅に対応するフレームを取得するフレーム取得手段、
前記フレーム取得手段により所定の時間幅に対応するフレームとして入力された前記第1の音声信号及び前記第2の音声信号のそれぞれを、フーリエ変換により周波数領域に変換する周波数変換手段、
前記周波数変換手段により周波数領域に変換して入力された前記第1の音声信号と前記第2の音声信号のそれぞれに対して正規化処理を行う正規化手段、
前記正規化手段により正規化された前記第1の音声信号と前記第2の音声信号との距離を算出する距離算出手段、
前記距離算出手段の算出値である前記距離の値が、所定の基準値以上であるか否かを判断して、その結果を出力する比較手段、
として機能させるための音声比較プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011111380A JP5792994B2 (ja) | 2011-05-18 | 2011-05-18 | 音声比較装置及び音声比較プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2011111380A JP5792994B2 (ja) | 2011-05-18 | 2011-05-18 | 音声比較装置及び音声比較プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2012242542A true JP2012242542A (ja) | 2012-12-10 |
JP5792994B2 JP5792994B2 (ja) | 2015-10-14 |
Family
ID=47464331
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2011111380A Active JP5792994B2 (ja) | 2011-05-18 | 2011-05-18 | 音声比較装置及び音声比較プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP5792994B2 (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015207873A (ja) * | 2014-04-18 | 2015-11-19 | 日本放送協会 | 受信装置 |
WO2016208167A1 (ja) * | 2015-06-23 | 2016-12-29 | 日本電気株式会社 | 音源位置検出装置、音源位置検出方法、音源位置検出プログラムおよび記憶媒体 |
CN113412630A (zh) * | 2019-02-14 | 2021-09-17 | Jvc建伍株式会社 | 处理装置、处理方法、再现方法和程序 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003500701A (ja) * | 1999-05-25 | 2003-01-07 | アルゴレックス インコーポレイテッド | 音声及びオーディオ信号用リアルタイム品質アナライザ |
JP2005340935A (ja) * | 2004-05-24 | 2005-12-08 | Yomiuri Telecasting Corp | 放送信号監視装置及び放送信号監視方法 |
JP2006048073A (ja) * | 2005-09-01 | 2006-02-16 | Yamaha Corp | 発音評価装置 |
JP2007036815A (ja) * | 2005-07-28 | 2007-02-08 | Denso Corp | 移動体用デジタル放送受信装置及びプログラム |
WO2007015489A1 (ja) * | 2005-08-01 | 2007-02-08 | Kyushu Institute Of Technology | 音声検索装置及び音声検索方法 |
JP2007295470A (ja) * | 2006-04-27 | 2007-11-08 | Fujitsu Ten Ltd | デジタルデータ受信機 |
JP2009232399A (ja) * | 2008-03-25 | 2009-10-08 | Pioneer Electronic Corp | 音声切換判定装置、音声切換判定方法、及び音声切換判定プログラム |
JP2011033732A (ja) * | 2009-07-30 | 2011-02-17 | Casio Computer Co Ltd | 類似音声リスト生成装置、類似音声リスト生成方法及び類似音声リスト生成プログラム |
-
2011
- 2011-05-18 JP JP2011111380A patent/JP5792994B2/ja active Active
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2003500701A (ja) * | 1999-05-25 | 2003-01-07 | アルゴレックス インコーポレイテッド | 音声及びオーディオ信号用リアルタイム品質アナライザ |
JP2005340935A (ja) * | 2004-05-24 | 2005-12-08 | Yomiuri Telecasting Corp | 放送信号監視装置及び放送信号監視方法 |
JP2007036815A (ja) * | 2005-07-28 | 2007-02-08 | Denso Corp | 移動体用デジタル放送受信装置及びプログラム |
WO2007015489A1 (ja) * | 2005-08-01 | 2007-02-08 | Kyushu Institute Of Technology | 音声検索装置及び音声検索方法 |
JP2006048073A (ja) * | 2005-09-01 | 2006-02-16 | Yamaha Corp | 発音評価装置 |
JP2007295470A (ja) * | 2006-04-27 | 2007-11-08 | Fujitsu Ten Ltd | デジタルデータ受信機 |
JP2009232399A (ja) * | 2008-03-25 | 2009-10-08 | Pioneer Electronic Corp | 音声切換判定装置、音声切換判定方法、及び音声切換判定プログラム |
JP2011033732A (ja) * | 2009-07-30 | 2011-02-17 | Casio Computer Co Ltd | 類似音声リスト生成装置、類似音声リスト生成方法及び類似音声リスト生成プログラム |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2015207873A (ja) * | 2014-04-18 | 2015-11-19 | 日本放送協会 | 受信装置 |
WO2016208167A1 (ja) * | 2015-06-23 | 2016-12-29 | 日本電気株式会社 | 音源位置検出装置、音源位置検出方法、音源位置検出プログラムおよび記憶媒体 |
JPWO2016208167A1 (ja) * | 2015-06-23 | 2018-04-05 | 日本電気株式会社 | 音源位置検出装置、音源位置検出方法、音源位置検出プログラムおよび記憶媒体 |
GB2555278A (en) * | 2015-06-23 | 2018-04-25 | Nec Corp | Sound source position detection device, sound source position detection method, sound source position detection program, and storage medium |
US10845460B2 (en) | 2015-06-23 | 2020-11-24 | Nec Corporation | Sound source position detection device, sound source position detection method, sound source position detection program, and recording medium |
GB2555278B (en) * | 2015-06-23 | 2021-07-07 | Nec Corp | Sound source position detection device, sound source position detection method, sound source position detection program, and recording medium |
CN113412630A (zh) * | 2019-02-14 | 2021-09-17 | Jvc建伍株式会社 | 处理装置、处理方法、再现方法和程序 |
CN113412630B (zh) * | 2019-02-14 | 2024-03-08 | Jvc建伍株式会社 | 处理装置、处理方法、再现方法和程序 |
Also Published As
Publication number | Publication date |
---|---|
JP5792994B2 (ja) | 2015-10-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US7970609B2 (en) | Method of estimating sound arrival direction, sound arrival direction estimating apparatus, and computer program product | |
US8463607B2 (en) | Noise detection apparatus, noise removal apparatus, and noise detection method | |
EP3166239B1 (en) | Method and system for scoring human sound voice quality | |
US20120130711A1 (en) | Speech determination apparatus and speech determination method | |
US20120136655A1 (en) | Speech processing apparatus and speech processing method | |
US8892430B2 (en) | Noise detecting device and noise detecting method | |
Hines et al. | ViSQOL: The virtual speech quality objective listener | |
EP2106050A2 (en) | Audio matching system and method | |
EP1914721B1 (en) | Data embedding device, data embedding method, data extraction device, and data extraction method | |
EP2392003B1 (en) | Audio signal quality prediction | |
US9368123B2 (en) | Methods and apparatus to perform audio watermark detection and extraction | |
WO2017061023A1 (ja) | 音声信号処理方法および装置 | |
JP5792994B2 (ja) | 音声比較装置及び音声比較プログラム | |
US9261548B2 (en) | Hum noise detection device | |
Yegnanarayana et al. | Study of robustness of zero frequency resonator method for extraction of fundamental frequency | |
CN111276161B (zh) | 一种语音质量评分系统及方法 | |
KR100930061B1 (ko) | 신호 검출 방법 및 장치 | |
JP4922427B2 (ja) | 信号補正装置 | |
US10636438B2 (en) | Method, information processing apparatus for processing speech, and non-transitory computer-readable storage medium | |
US11489960B2 (en) | Method of determining the quality of voice data with transmission via a network, method of and an apparatus for performing a telephone call | |
RU2436173C1 (ru) | Способ обнаружения пауз в речевых сигналах и устройство его реализующее | |
Graf et al. | Low-Complexity Pitch Estimation Based on Phase Differences Between Low-Resolution Spectra. | |
JP2015022236A (ja) | 信号処理装置及びプログラム | |
CN117061039B (zh) | 一种广播信号监测装置、方法、系统、设备及介质 | |
Cole et al. | Frequency offset correction for HF radio speech reception |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20140130 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20140326 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20141128 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20141216 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20150212 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20150714 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20150807 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5792994 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |