JP5157852B2 - 音声信号処理評価プログラム、音声信号処理評価装置 - Google Patents

音声信号処理評価プログラム、音声信号処理評価装置 Download PDF

Info

Publication number
JP5157852B2
JP5157852B2 JP2008304394A JP2008304394A JP5157852B2 JP 5157852 B2 JP5157852 B2 JP 5157852B2 JP 2008304394 A JP2008304394 A JP 2008304394A JP 2008304394 A JP2008304394 A JP 2008304394A JP 5157852 B2 JP5157852 B2 JP 5157852B2
Authority
JP
Japan
Prior art keywords
spectrum
frame
noise
waveform
signal processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2008304394A
Other languages
English (en)
Other versions
JP2010128296A (ja
Inventor
智佳子 松本
直司 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujitsu Ltd
Original Assignee
Fujitsu Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujitsu Ltd filed Critical Fujitsu Ltd
Priority to JP2008304394A priority Critical patent/JP5157852B2/ja
Priority to US12/621,918 priority patent/US9058821B2/en
Publication of JP2010128296A publication Critical patent/JP2010128296A/ja
Application granted granted Critical
Publication of JP5157852B2 publication Critical patent/JP5157852B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/69Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/005Correction of errors induced by the transmission channel, if related to the coding algorithm
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/08Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
    • G10L19/12Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Description

本発明は、音声信号処理の評価を行う音声信号処理評価プログラム、音声信号処理評価装置に関するものである。
音声信号の品質を評価する方法として、主観評価と客観評価がある。
PESQ(Perceptual Evaluation of Speech Quality)のように雑音無しの原音声と評価の対象音声とを比較して客観評価値を算出する客観評価の方法や、雑音混じり音声に関してサンプル音声を用いて主観評価された結果である主観評価値(MOS値:Mean Opinion Score 値)とPESQにより客観評価された結果である客観評価値とに基づいて主観評価値と客観評価値の関係式を求める方法がある(例えば、特許文献1、特許文献2、特許文献3参照)。
特開2001−309483号公報 特開平7−84596号公報 特開2008−15443号公報
しかしながら、従来の音声品質評価技術により、雑音混じりの音声の歪量を求めることはできない。また、上述した関係式を求める方法は、サンプル音声の雑音に似た雑音が混じった音声の評価の精度は高いが、サンプル音声の雑音と掛け離れた雑音が混じった音声の評価の精度は低くなるという問題がある。
また、雑音混じりの音声信号に対して、指向性受音処理や雑音抑圧処理等の音声信号処理を行うと、処理後の音声信号の雑音区間及び音声区間の両方に歪が生じる。この場合、雑音区間に関しては、上述の信号処理によりパワーが低下することにより、正確な歪量を測定することが困難である。一方、音声区間に関しては、主観評価に近い評価結果を得ることが困難である。
本発明は上述した問題点を解決するためになされたものであり、音声信号処理の評価値として主観評価値の傾向を有する歪量を算出する音声信号処理評価プログラム、音声信号処理評価装置を提供することを目的とする。
上述した課題を解決するため、本発明の一態様は、音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムであって、音声信号処理への入力の時間波形である第1波形と音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、複数のフレームから、第1波形及び第2波形に所定の音声が存在するフレームである音声フレームと第1波形及び第2波形に所定の音声が存在しないフレームである雑音フレームとを検出し、音声フレーム及び雑音フレームのそれぞれについて、第1波形のスペクトルである第1スペクトルと第2波形のスペクトルである第2スペクトルとを算出し、雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように雑音フレームの第1スペクトル又は雑音フレームの第2スペクトルのレベル調整を行って、それぞれ雑音フレームの第3スペクトル及び雑音フレームの第4スペクトルとし、雑音フレームの第3スペクトルと雑音フレームの第4スペクトルとに基づいて、雑音フレームの歪量を算出し、第1スペクトル又は第2スペクトルを第5スペクトルとし、雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、音声フレームの第5スペクトルのレベルと雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、選択周波数における音声フレームの第1スペクトルと音声フレームの第2スペクトルとに基づいて、音声フレームの歪量を算出することをコンピュータに実行させる。
また、本発明の一態様は、音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムであって、音声信号処理への入力の時間波形である第1波形と音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、複数のフレームから、第1波形及び第2波形に所定の音声が存在しないフレームである雑音フレームを検出し、雑音フレームのそれぞれについて、第1波形のスペクトルである第1スペクトルと第2波形のスペクトルである第2スペクトルとを算出し、雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように雑音フレームの第1スペクトル又は雑音フレームの第2スペクトルのレベル調整を行って、それぞれ雑音フレームの第3スペクトル及び雑音フレームの第4スペクトルとし、雑音フレームの第3スペクトルと雑音フレームの第4スペクトルとに基づいて、雑音フレームの歪量を算出することをコンピュータに実行させる。
また、本発明の一態様は、音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムであって、音声信号処理への入力の時間波形である第1波形と音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、複数のフレームから、第1波形及び第2波形に所定の音声が存在するフレームである音声フレームと第1波形及び第2波形に所定の音声が存在しないフレームである雑音フレームとを検出し、音声フレーム及び雑音フレームのそれぞれについて、第1波形のスペクトルである第1スペクトルと第2波形のスペクトルである第2スペクトルとを算出し、第1スペクトル又は第2スペクトルを第5スペクトルとし、雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、音声フレームの第5スペクトルのレベルと雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、選択周波数における音声フレームの第1スペクトルと音声フレームの第2スペクトルとに基づいて、音声フレームの歪量を算出することをコンピュータに実行させる。
また、本発明の一態様は、音声信号処理の評価を行う音声信号処理評価装置であって、音声信号処理への入力の時間波形である第1波形と音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、複数のフレームから、第1波形及び第2波形に所定の音声が存在するフレームである音声フレームと第1波形及び第2波形に所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、音声フレーム及び雑音フレームのそれぞれについて、第1波形のスペクトルである第1スペクトルと第2波形のスペクトルである第2スペクトルとを算出するスペクトル算出部と、雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように雑音フレームの第1スペクトル又は雑音フレームの第2スペクトルのレベル調整を行って、それぞれ雑音フレームの第3スペクトル及び雑音フレームの第4スペクトルとするレベル調整部と、雑音フレームの第4スペクトルから雑音フレームの第3スペクトルを減算して雑音フレームの差分スペクトルとし、雑音フレームの第3スペクトルと該差分スペクトルとに基づいて雑音フレームの歪量を算出する第1歪量算出部と、第1スペクトル又は第2スペクトルを第5スペクトルとし、雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、音声フレームの第5スペクトルのレベルと雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、選択周波数における音声フレームの第1スペクトルと音声フレームの第2スペクトルとに基づいて、音声フレームの歪量を算出する第2歪量算出部とを有する。
また、本発明の一態様は、音声信号処理の評価を行う音声信号処理評価装置であって、音声信号処理への入力の時間波形である第1波形と音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、複数のフレームから、第1波形及び第2波形に所定の音声が存在しないフレームである雑音フレームを検出する検出部と、雑音フレームのそれぞれについて、第1波形のスペクトルである第1スペクトルと第2波形のスペクトルである第2スペクトルとを算出するスペクトル算出部と、雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように雑音フレームの第1スペクトル又は雑音フレームの第2スペクトルのレベル調整を行って、それぞれ雑音フレームの第3スペクトル及び雑音フレームの第4スペクトルとするレベル調整部と、雑音フレームの第4スペクトルから雑音フレームの第3スペクトルを減算して雑音フレームの差分スペクトルとし、雑音フレームの第3スペクトルと該差分スペクトルとに基づいて雑音フレームの歪量を算出する第1歪量算出部とを有する。
また、本発明の一態様は、音声信号処理の評価を行う音声信号処理評価装置であって、音声信号処理への入力の時間波形である第1波形と音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、複数のフレームから、第1波形及び第2波形に所定の音声が存在するフレームである音声フレームと第1波形及び第2波形に所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、音声フレーム及び雑音フレームのそれぞれについて、第1波形のスペクトルである第1スペクトルと第2波形のスペクトルである第2スペクトルとを算出するスペクトル算出部と、第1スペクトル又は第2スペクトルを第5スペクトルとし、雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、音声フレームの第5スペクトルのレベルと雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、選択周波数における音声フレームの第1スペクトルと音声フレームの第2スペクトルとに基づいて、音声フレームの歪量を算出する第2歪量算出部とを有する。
また、本発明の構成要素、または構成要素の任意の組合せを、方法、装置、システム、記録媒体、データ構造などに適用したものも本発明に含む。
開示の音声信号処理評価プログラム、音声信号処理評価装置によれば、音声信号処理の評価値として主観評価値の傾向を有する歪量を算出することができる。
以下、本発明の実施の形態について図面を参照しつつ説明する。
本実施の形態において、音声信号処理装置は、指向性受音処理や雑音抑圧処理等の音声信号処理を行う。この音声信号処理は、音声信号がサンプリングされた時間波形を扱う。以後、上述の音声信号処理への入力(音声信号処理前)の時間波形を原音波形(第1波形)と呼び、上述の音声信号処理からの出力(音声信号処理後)の時間波形を対象音波形(第2波形)と呼ぶ。
本実施の形態の音声信号処理評価装置は、音声信号処理の評価値として原音波形に対する対象音波形の歪量を算出する音声信号処理評価処理を行う。
本実施の形態の音声信号処理評価装置の構成について以下に説明する。
図1は、本実施の形態の音声信号処理評価装置の構成の一例を示すブロック図である。この音声信号処理評価装置1は、CPU(Central Processing Unit)11、記憶部12、操作部13、表示部14を有する。
記憶部12は、音声信号処理評価プログラム、波形、音声信号処理評価処理結果等を格納する。CPU11は、音声信号処理評価プログラムに従って音声信号処理評価処理を実行する。操作部13は、ユーザによる波形の指定等の操作を受け付ける。表示部14は、音声信号処理評価プログラムの出力である歪量等を表示する。
音声信号処理評価装置1における音声信号処理評価プログラムの構成について説明する。図2は、本実施の形態の音声信号処理評価プログラムの構成の一例を示すブロック図である。音声信号処理評価プログラムは、区間抽出部21(検出部)、スペクトル算出部22、減衰量算出部23、フレーム制御部24(フレーム設定部)、正規化部25、歪量算出部26(第1歪量算出部、第2歪量算出部)、可視化部27、雑音モデル推定部41、周波数選択部42を有する。なお、減衰量算出部23及び正規化部25は、レベル調整部に対応する。
音声信号処理評価処理について以下に説明する。
図3は、本発明に係る音声信号処理評価処理の一例を示すフローチャートである。まず、フレーム制御部24及び区間抽出部21は、区間抽出処理を行う(S11)。
区間抽出処理の詳細について以下に説明する。
まず、フレーム制御部24は、記憶部12から波形を取得し、原音波形及び対象音波形をスペクトル算出部22のFFT長n(nは2のN乗)サンプルのフレームに分割する。次に、区間抽出部21は、各フレーム毎が、有声フレーム、無声フレーム、有声と無声の混在フレームのいずれであるかを判定する。ここで、区間抽出部21は、例えば、フレーム内のレベルが所定の有声閾値以上となる(所定の音声が存在する)フレームを有声フレームと判定し、フレーム内のレベルが有声閾値を超えないフレームを無声フレームと判定し、有声フレーム及び無声フレームのどちらでもないフレームを混在フレームと判定する。
次に、区間抽出部21は、連続しない単独の有声フレームまたは連続する複数の有声フレームを音声区間とし、連続しない単独の無声フレームまたは連続する複数の無声フレームを雑音区間とする。ここで、区間抽出部21は、有声区間及び無声区間のタイミングをラベルとして表すラベルデータを作成する。なお、音声区間には、音声と雑音の両方が含まれる。また、音声区間のフレームは、音声フレームに対応し、雑音区間のフレームは、雑音フレームに対応する。
図4は、本実施の形態の対象音波形における音声区間及び雑音区間の一例を示すラベルデータと波形図である。この図において、横軸は時間を示し、縦軸は振幅を示す。また、この図の波形は、対象音波形である。また、この図において、Vは音声区間、Uは雑音区間を表す。
音声信号処理評価処理の続きについて以下に説明する。
次に、スペクトル算出部22は、原音波形のスペクトル(周波数特性)である原音スペクトル(第1スペクトル)を算出する原音スペクトル算出処理を行う(S13)。次に、スペクトル算出部22は、記憶部12から対象音波形を取得し、対象音波形のスペクトルである対象音スペクトル(第2スペクトル)を算出して記憶部12へ格納する対象音スペクトル算出処理を行う(S15)。
原音スペクトル算出処理及び対象音スペクトル算出処理の詳細について以下に説明する。
スペクトル算出部22は、記憶部12から原音波形を取得し、原音波形の各フレームのFFT(Fast Fourier Transform)を行い、FFT結果である原音スペクトルを記憶部12へ格納する。スペクトル算出部22は、記憶部12から対象音波形を取得し、対象音波形の各フレームのFFTを行い、FFT結果である対象音スペクトルを記憶部12へ格納する。なお、スペクトル算出部22は、FFTの代わりに、フィルタバンクを用い、フィルタバンクにより得られる複数の帯域の波形を時間領域で処理しても良い。また、FFTの代わりに、他の時間領域から周波数領域への変換(ウェーブレット変換等)を用いても良い。
ここで、各区間の原音波形をx(t)、各区間の対象音波形をy(t)、FFTの関数をfftとすると、原音スペクトルをX(f)及び対象音スペクトルY(f)は、次式で表される。
X(f)=fft(x)
Y(f)=fft(y)
スペクトル算出部22は、フレーム毎に、原音スペクトルのパワーである原音パワースペクトル|X(f)|2を算出する。また、スペクトル算出部22は、フレーム毎に、対象音スペクトルのパワーである対象音パワースペクトル|Y(f)|2を算出する。
音声信号処理評価処理の続きについて以下に説明する。
次に、減衰量算出部23は、原音パワースペクトルに対する対象音パワースペクトルの減衰量(レベル比)を算出する減衰量算出処理を行う(S16)。
減衰量算出処理の詳細について以下に説明する。
まず、減衰量算出部23は、フレーム毎に、記憶部12から原音パワースペクトル及び対象音パワースペクトルを取得する。次に、減衰量算出部23は、対象音パワースペクトルに対する原音パワースペクトルの比(原音パワースペクトルに対する対象音パワースペクトルの減衰量)である減衰量スペクトルatt(f)を算出して記憶部12へ格納する。ここで、減衰量スペクトルは、次式で表される。
att(f)=|X(f)|2/|Y(f)|2
次に、減衰量算出部23は、減衰量スペクトルを全周波数にわたって平均して平均減衰量Aとする。図5は、本実施の形態の平均減衰量の算出方法の一例を示す式である。
図6は、本実施の形態の雑音区間における原音パワースペクトル及び対象音パワースペクトルの一例を示すパワースペクトル図である。この図において、横軸は周波数を示し、縦軸はパワーを示す。この図において、実線のプロットは、ある雑音区間内のフレームにおける原音パワースペクトルを示し、点線のプロットは、そのフレームにおける対象音パワースペクトルを示す。更に、この図は、平均減衰量Aを示す。
次に、減衰量算出部23は、算出した平均減衰量を記憶部12へ格納する。
音声信号処理評価処理の続きについて以下に説明する。
次に、フレーム制御部24は、全てのフレームに対する処理が終了したか否かの判定を行う(S17)。
全てのフレームに対する処理が終了していない場合(S17,N)、フレーム制御部24は、時間順に1つずつフレームを選択して選択フレームとし、ラベルデータに基づいて選択フレームが音声区間であるか否かの判定を行う(S18)。
選択フレームが雑音区間である場合(S18,N)、正規化部25は、選択フレームにおける原音スペクトルのレベルを対象音スペクトルのレベルに合わせて(正規化して)正規化原音スペクトルとする雑音正規化処理を行う(S23)。
雑音正規化処理の詳細について以下に説明する。
まず、正規化部25は、選択フレームの原音スペクトルと対象音スペクトルと平均減衰量とを記憶部12から取得する。次に、正規化部25は、原音スペクトルを平均減衰量だけ減衰させて正規化原音スペクトルとし、記憶部12へ格納する。ここで、正規化原音スペクトルX’(f)は、次式で表される。
X’(f)=X(f)/A
図7は、本実施の形態の雑音区間における正規化原音パワースペクトル及び対象音パワースペクトルの一例を示すパワースペクトル図である。この図において、横軸は周波数を示し、縦軸はパワーを示す。この図において、実線のプロットは、ある雑音区間内のフレームにおける正規化原音パワースペクトルを示し、点線のプロットは、そのフレームにおける対象音パワースペクトルを示す。この図に示されるように、正規化原音パワースペクトルと対象音パワースペクトルは、平均レベルが等しく、パワースペクトルの形状が異なる。
上述の雑音正規化処理によれば、音声信号処理によるパワーの低下分を除外した上で歪量を測ることできる。
音声信号処理評価処理の続きについて以下に説明する。
次に、歪量算出部26は、選択フレームの歪量スペクトル及び歪量を算出する雑音歪量算出処理を行い(S24)、このフローは処理S17へ移行する。
雑音歪量算出処理の詳細について以下に説明する。
まず、歪量算出部26は、選択フレームにおける正規化原音スペクトルと対象音スペクトルとを記憶部12から取得する。次に、歪量算出部26は、対象音スペクトルから正規化原音スペクトルを減算して差分スペクトルとし、差分スペクトルのパワーを算出して差分パワースペクトルとする。ここで、X’(f)の実数部をX’r(f)、X’(f)の虚数部をX’i(f)、Y’(f)の実数部をYr(f)、Y(f)の虚数部をYi(f)とすると、差分パワースペクトルDIFF(f)は、次式で表される。
DIFF(f)=
(X’r(f)−Yr(f))2+(X’i(f)−Yi(f))2
次に、歪量算出部26は、正規化原音パワースペクトルに対する差分パワースペクトルの比を歪量スペクトルとして算出する。次に、歪量算出部26は、歪量スペクトルを全周波数にわたって平均した値を歪量として算出する。次に、歪量算出部26は、選択フレームの歪量を記憶部12へ格納する。
また、音声信号処理により位相に大きな変化が生じた場合、差分スペクトルの虚数部が大きくなる。歪量算出部26は、差分スペクトルの虚数部が所定の虚数部閾値以上である場合、差分パワースペクトルDIFF(f)の算出式を次式に切り替える。図8は、本実施の形態の差分スペクトルの虚数部が虚数部閾値以上である場合の差分パワースペクトルの算出式の一例を示す式である。ここで、虚数部閾値は、正規化原音パワースペクトルに対する差分スペクトルの虚数部の比として設定される。
音声信号処理評価処理の続きについて以下に説明する。
選択フレームが音声区間である場合(S18,Y)、雑音モデル推定部41は、選択フレームの音声区間の近傍の雑音区間に基づいて、選択フレームの音声区間の雑音モデルを推定する雑音モデル推定処理を行う(S31)。
雑音モデル推定処理の詳細について以下に説明する。
まず、雑音モデル推定部41は、選択フレームを含む音声区間を選択音声区間とし、選択音声区間の直前の雑音区間の最後のフレームである前雑音フレームと選択音声区間の直後の雑音区間の最初のフレームである後雑音フレームとにおける原音パワースペクトルを記憶部12から取得する。次に、雑音モデル推定部41は、前雑音フレームの原音パワースペクトルの平均レベルと後雑音フレームの原音パワースペクトルの平均レベルを算出する。
図9は、本実施の形態の選択音声区間とその前後の雑音区間とにおける原音波形の一例を示す波形図である。この図において、横軸は時間を示し、縦軸は振幅を示す。また、この図において、Vは音声区間を示し、Uは雑音区間を示し、V0は選択音声区間を示す。この図において、前雑音フレームの平均レベルと後雑音フレームの平均レベルとの差は、大きい。また、選択音声区間内の雑音レベルは、時間の経過に伴って減少している。このように、選択音声区間が比較的長い場合等には、音声区間の前後での雑音のレベルの変化量が大きくなる。
次に、雑音モデル推定部41は、前雑音フレームの原音パワースペクトルと後雑音フレームの原音パワースペクトルとから、選択フレームの雑音モデルのパワースペクトルである雑音モデルパワースペクトル(雑音モデルスペクトル)を算出して記憶部12へ格納する。ここで、前雑音フレームの原音パワースペクトルをZbfr(f)とし、後雑音フレームの原音パワースペクトルをZaft(f)とすると、選択フレームの雑音モデルパワースペクトルZ(f)は、次式で表される。
Z(f)=αZbfr(f)+(1.0−α)Zaft(f)
但し、α<1.0
ここで、選択音声区間の時間長をLとし、選択音声区間の開始位置からの時間をnとすると、前雑音フレームの重み付けαは、次式で表される。
α=(L−n)/L
なお、雑音モデル推定部41は、前雑音フレームの平均レベルと後雑音フレームの平均レベルとの差である雑音レベル変化量が所定の雑音レベル変化量閾値以下である場合、または、Lが所定の選択音声区間時間長閾値以下である場合、選択音声区間内における雑音のレベルの変化が小さいと判定し、前雑音区間または後雑音区間のいずれかの原音パワースペクトルを雑音モデルパワースペクトルとしても良い。
音声信号処理評価処理の続きについて以下に説明する。
次に、周波数選択部42は、選択フレームにおける原音パワースペクトル及び雑音モデルパワースペクトルに基づいて周波数の選択を行う周波数選択処理を行う(S32)。
周波数選択処理の詳細について以下に説明する。
まず、周波数選択部42は、選択フレームにおける原音パワースペクトル及び雑音モデルパワースペクトルを記憶部12から取得する。次に、周波数選択部42は、周波数毎に原音パワースペクトルのレベルと雑音モデルパワースペクトルのレベルの比較を行う。
ここで、周波数選択部42は、雑音モデルパワースペクトルに所定のマージンを加算した値を閾値パワースペクトルとし、原音パワースペクトルのレベルが閾値スペクトルのレベル以上となる周波数を選択して選択周波数とする。本実施の形態において、マージンは0であり、閾値パワースペクトルは雑音モデルパワースペクトルに等しい。
図10は、本実施の形態の音声区間における原音パワースペクトルと雑音モデルパワースペクトルの一例を示すパワースペクトル図である。この図において、実線のプロットは、ある音声区間内のフレームにおける原音パワースペクトルを示し、点線のプロットは、そのフレームにおける雑音モデルパワースペクトルを示す。原音パワースペクトルのレベルが雑音モデルパワースペクトル(閾値パワースペクトル)のレベル以上となる周波数の範囲が選択周波数である。
音声信号処理評価処理の続きについて以下に説明する。
次に、正規化部25は、選択フレームにおける原音スペクトルのレベルを対象音スペクトルのレベルに合わせて(正規化して)正規化原音スペクトルとする音声正規化処理を行う(S33)。
音声正規化処理の詳細について以下に説明する。
音声正規化処理は、雑音正規化処理と同様である。まず、正規化部25は、選択フレームの原音スペクトルと対象音スペクトルと平均減衰量とを記憶部12から取得する。次に、正規化部25は、原音スペクトルを平均減衰量だけ減衰させて正規化原音スペクトルとし、記憶部12へ格納する。
音声信号処理評価処理の続きについて以下に説明する。
次に、歪量算出部26は、選択フレームの歪量スペクトル及び歪量を算出する音声歪量算出処理を行い(S34)、このフローは処理S17へ移行する。
音声歪量算出処理の詳細について以下に説明する。
まず、歪量算出部26は、選択フレームにおける正規化原音スペクトルと対象音スペクトルと選択周波数とを記憶部12から取得する。次に、歪量算出部26は、対象音スペクトルから正規化原音スペクトルを減算して差分スペクトルとし、差分スペクトルのパワーを算出して差分パワースペクトルとする。次に、歪量算出部26は、正規化原音パワースペクトルに対する差分パワースペクトルの比を歪量スペクトルとして算出する。
次に、歪量算出部26は、周波数毎の重み付けである重みスペクトルを決定する。重み付け決定方法の3つの例について以下に説明する。
第1の重み付け決定方法において、歪量算出部26は、パワースペクトルの大きい周波数ほど大きな重みを与える。
第2の重み付け決定方法において、歪量算出部26は、人間の音声の周波数帯域である300Hz〜3400Hzに大きな重みを与え、その他の帯域に小さな重みを与える。
第3の重み付け決定方法において、歪量算出部26は、フォルマント検出を行い、第一フォルマント周波数付近に大きな重みを与え、その他の帯域に小さな重みを与える。
次に、歪量算出部26は、周波数毎に、音声歪量スペクトルに重みスペクトルを乗算する。
次に、歪量算出部26は、歪量スペクトルを全ての選択周波数にわたって平均した値を歪量として算出する。次に、歪量算出部26は、選択フレームの歪量を記憶部12へ格納する。
上述の音声歪量算出処理によれば、音声のうち、雑音の影響で聞こえない成分は除外し、聞こえる成分についてのみ評価できるようにすることができる。
なお、歪量算出部26は、音声歪量算出処理により算出された音声区間の全てのフレームの平均の歪量を算出して平均音声歪量とし、雑音歪量算出処理により算出された雑音区間の全てのフレームの平均の歪量を算出して平均雑音歪量としても良い。
音声信号処理評価処理の続きについて以下に説明する。
処理S17において全てのフレームに対する処理が終了した場合(S17,Y)、可視化部27は、歪量を可視化する可視化処理を行い(S41)、このフローは終了する。
可視化処理の詳細について以下に説明する。
まず、可視化部27は、原音波形、対象音波形、フレーム毎の歪量を記憶部12から取得する。次に、可視化部27は、原音波形、対象音波形、フレーム毎の歪量を、表示部14に表示させる。
図11は、本実施の形態の原音波形と対象音波形と歪量時間変化の一例を示す波形図である。この図における3つの波形は、上から順に、原音波形と対象音波形と歪量時間変化を示す。3つの波形において、横軸は時間を示す。原音波形と対象音波形において、縦軸は振幅を示す。歪量時間変化において、縦軸は、歪量(SDR:Signal to Distortion Ratio)を示す。また、歪量時間変化は、フレーム毎の歪量である。また、この図において、各区間には、雑音区間を示すU、音声区間を示すVが付されると共に、各区間を識別するための番号が付される。ここで、U35,U37,U39,U41,U43は雑音区間を示し、V36,V38,V40,V42は音声区間を示す。
上述の可視化処理によれば、歪量の時間変化を一覧できると共に、歪量とタイミングの対応付けや確認原音波形や対象波形との対応付けが容易になる。
なお、雑音正規化処理及び音声正規化処理において、正規化部25は、対象音スペクトルのレベルを原音スペクトルのレベルに合わせても良い。
また、雑音正規化処理後の原音スペクトル(正規化原音スペクトル)及び対象音スペクトルは、それぞれ第3スペクトル及び第4スペクトルに対応する。
なお、雑音モデル推定部41が、雑音区間の対象音パワースペクトルから、雑音モデルパワースペクトルを算出し、周波数選択部42が、音声区間の対象音パワースペクトルと雑音モデルパワースペクトルとを比較することにより、選択周波数を決定しても良い。
また、雑音モデルパワースペクトルの推定に用いられる原音パワースペクトルまたは対象音パワースペクトルは、第5スペクトルに対応する。
また、減衰量算出処理、雑音正規化処理、音声正規化処理は、レベル調整に対応する。
本実施の形態によれば、音声信号処理に対して音声信号処理評価処理により算出される評価値である歪量は、従来の客観評価値に比べて、主観評価値の傾向に近い値となる。
本実施の形態によれば、雑音抑圧処理や指向性受音処理等の音声信号処理によって生じる雑音歪及び音声歪を主観評価に近い値として算出することができる。これにより、時間とコストのかかる主観評価試験を行うことなく、音声品質の評価を短時間で行うことができる。
また、本実施の形態の音声信号処理評価処理は、音声信号処理の評価試験のみならず、雑音抑圧量の向上や音質向上を目指す場合の音声信号処理のチューニングツールに組み込むことができる。また、本実施の形態の音声信号処理評価処理は、リアルタイムで音声信号処理評価処理結果を学習しながらパラメータを変更する雑音抑圧装置に、組み込むことができる。また、本実施の形態の音声信号処理評価処理は、雑音環境測定評価ツールに適用することができる。また、本実施の形態の音声信号処理評価処理は、雑音環境を測定した結果を基に最適な雑音抑圧処理を選択する雑音抑圧装置に組み込むことができる。
なお、本発明は以下に示すようなコンピュータシステムにおいて適用可能である。図12は、本発明が適用されるコンピュータシステムの一例を示す図である。この図に示すコンピュータシステム900は、CPUやディスクドライブ等を内蔵した本体部901、本体部901からの指示により画像を表示するディスプレイ902、コンピュータシステム900に種々の情報を入力するためのキーボード903、ディスプレイ902の表示画面902a上の任意の位置を指定するマウス904及び外部のデータベース等にアクセスして他のコンピュータシステムに記憶されているプログラム等をダウンロードする通信装置905を有する。通信装置905は、ネットワーク通信カード、モデムなどが考えられる。
上述したような、音声信号処理評価装置を構成するコンピュータシステムにおいて上述した各ステップを実行させるプログラムを、音声信号処理評価プログラムとして提供することができる。このプログラムは、コンピュータシステムにより読み取り可能な記録媒体に記憶させることによって、音声信号処理評価装置を構成するコンピュータシステムに実行させることが可能となる。上述した各ステップを実行するプログラムは、ディスク910等の可搬型記録媒体に格納されるか、通信装置905により他のコンピュータシステムの記録媒体906からダウンロードされる。また、コンピュータシステム900に少なくとも音声信号処理評価機能を持たせる音声信号処理評価プログラムは、コンピュータシステム900に入力されてコンパイルされる。このプログラムは、コンピュータシステム900を、音声信号処理評価機能を有する音声信号処理評価システムとして動作させる。また、このプログラムは、例えばディスク910等のコンピュータ読み取り可能な記録媒体に格納されていても良い。ここで、コンピュータシステム900により読み取り可能な記録媒体としては、ROMやRAM等のコンピュータに内部実装される内部記憶装置、ディスク910やフレキシブルディスク、DVDディスク、光磁気ディスク、ICカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータシステム並びにそのデータベースや、通信装置905のような通信手段を介して接続されるコンピュータシステムでアクセス可能な各種記録媒体を含む。
本発明は、その精神または主要な特徴から逸脱することなく、他の様々な形で実施することができる。そのため、前述の実施の形態は、あらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。本発明の範囲は、特許請求の範囲によって示すものであって、明細書本文には、何ら拘束されない。更に、特許請求の範囲の均等範囲に属する全ての変形、様々な改良、代替および改質は、全て本発明の範囲内のものである。
以上の実施の形態に関し、更に以下の付記を開示する。
(付記1)
音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムをコンピュータにより読取可能に記録した媒体であって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出し、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出し、
前記雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記雑音フレームの第1スペクトル又は前記雑音フレームの第2スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとし、
前記雑音フレームの第3スペクトルと前記雑音フレームの第4スペクトルとに基づいて、前記雑音フレームの歪量を算出し、
第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、
前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、
前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する、
ことをコンピュータに実行させる音声信号処理評価プログラムを記録した媒体。
(付記2)
前記雑音フレームの第4スペクトルから前記雑音フレームの第3スペクトルを減算して前記雑音フレームの差分スペクトルとし、前記雑音フレームの第3スペクトルと該差分スペクトルとに基づいて前記雑音フレームの歪量を算出する、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記3)
前記雑音フレームの第3スペクトルのパワーに対する前記雑音フレームの差分スペクトルのパワーの比に基づいて、前記雑音フレームの歪量を算出する、
付記2に記載の音声信号処理評価プログラムを記録した媒体。
(付記4)
前記雑音フレームの第3スペクトルのパワーに対する前記雑音フレームの差分スペクトルのパワーの比のスペクトルを算出し、該スペクトルを所定の帯域に亘って平均した値に基づいて、前記雑音フレームの歪量を算出する、
付記3に記載の音声信号処理評価プログラム。
(付記5)
前記雑音フレームの差分スペクトルの虚数部が所定の虚数部閾値を上回る場合、前記雑音フレームの第4スペクトルのパワーから前記雑音フレームの第3スペクトルのパワーを減算して前記雑音フレームの差分スペクトルのパワーとする、
付記4に記載の音声信号処理評価プログラムを記録した媒体。
(付記6)
前記音声フレームにおける第1スペクトルのレベルが、前記雑音モデルスペクトルのレベルに所定のマージンを加算したレベルより大きくなる周波数を、選択して前記選択周波数とする、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記7)
前記音声フレームの直前の雑音フレームの第5スペクトルと前記音声フレームの直後の雑音フレームの第5スペクトルとに基づいて、前記雑音モデルスペクトルを推定する、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記8)
前記音声フレームの直前の雑音フレームの第5スペクトルのパワーと前記音声フレームの直後の雑音フレームの第5スペクトルのパワーとを直線内挿することにより、前記雑音モデルスペクトルのパワーを算出する、
付記7に記載の音声信号処理評価プログラムを記録した媒体。
(付記9)
更に、前記音声フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記音声フレームの第1スペクトル又は前記音声フレームの第2スペクトルのレベル調整を行って、それぞれ前記音声フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとし、
前記選択周波数における前記音声フレームの第3スペクトルと前記音声フレームの第4スペクトルとに基づいて、前記音声フレームの歪量を算出する、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記10)
前記音声フレームの第4スペクトルから前記音声フレームの第3スペクトルを減算して前記音声フレームの差分スペクトルとし、前記音声フレームの第3スペクトルと該差分スペクトルとに基づいて前記音声フレームの歪量を算出する、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記11)
前記音声フレームの第3スペクトルのパワーに対する前記音声フレームの差分スペクトルのパワーの比に基づいて、前記音声フレームの歪量を算出する、
付記10に記載の音声信号処理評価プログラムを記録した媒体。
(付記12)
前記音声フレームの第3スペクトルのパワーに対する前記音声フレームの差分スペクトルのパワーの比のスペクトルを算出し、該スペクトルに重み付けを行って前記選択周波数の全てに亘って平均した値に基づいて、前記音声フレームの歪量を算出する、
付記11に記載の音声信号処理評価プログラムを記録した媒体。
(付記13)
前記重み付けは、聴覚特性に基づく、
付記12に記載の音声信号処理評価プログラムを記録した媒体。
(付記14)
前記音声フレームの差分スペクトルの虚数部が所定の虚数部閾値を上回る場合、前記音声フレームの第4スペクトルのパワーから前記音声フレームの第3スペクトルのパワーを減算して前記音声フレームの差分スペクトルのパワーとする、
付記12に記載の音声信号処理評価プログラムを記録した媒体。
(付記15)
更に、全ての前記雑音フレームの歪量の平均値と全ての前記音声フレームの歪量の平均値とを算出する、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記16)
更に、前記音声フレーム及び前記雑音フレームのそれぞれについて、前記時間軸と算出された歪量とを対応付けて表示する、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記17)
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のフーリエ変換を行うことにより前記第1スペクトルを算出すると共に、前記第2波形のフーリエ変換を行うことにより前記第2スペクトルとを算出する、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記18)
音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムをコンピュータにより読取可能に記録した媒体であって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在しないフレームである雑音フレームを検出し、
前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出し、
前記雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記雑音フレームの第1スペクトル又は前記雑音フレームの第2スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとし、
前記雑音フレームの第3スペクトルと前記雑音フレームの第4スペクトルとに基づいて、前記雑音フレームの歪量を算出する、
ことをコンピュータに実行させる音声信号処理評価プログラムを記録した媒体。
(付記19)
音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムをコンピュータにより読取可能に記録した媒体であって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出し、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出し、
第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、
前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、
前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する、
ことをコンピュータに実行させる音声信号処理評価プログラムを記録した媒体。
また、以上の実施の形態に関し、更に音声信号処理評価装置の請求項に対応する以下の付記を開示する。
(付記20)
音声信号処理の評価を行う音声信号処理評価装置であって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出するスペクトル算出部と、
前記雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記雑音フレームの第1スペクトル又は前記雑音フレームの第2スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとするレベル調整部と、
前記雑音フレームの第4スペクトルから前記雑音フレームの第3スペクトルを減算して前記雑音フレームの差分スペクトルとし、前記雑音フレームの第3スペクトルと該差分スペクトルとに基づいて前記雑音フレームの歪量を算出する第1歪量算出部と、
第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、
前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、
前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する第2歪量算出部と、
を備える音声信号処理評価装置。
(付記21)
音声信号処理の評価を行う音声信号処理評価装置であって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在しないフレームである雑音フレームを検出する検出部と、
前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出するスペクトル算出部と、
前記雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記雑音フレームの第1スペクトル又は前記雑音フレームの第2スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとするレベル調整部と、
前記雑音フレームの第4スペクトルから前記雑音フレームの第3スペクトルを減算して前記雑音フレームの差分スペクトルとし、前記雑音フレームの第3スペクトルと該差分スペクトルとに基づいて前記雑音フレームの歪量を算出する第1歪量算出部と、
を備える音声信号処理評価装置。
(付記22)
音声信号処理の評価を行う音声信号処理評価装置であって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出するスペクトル算出部と、
第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、
前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、
前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する第2歪量算出部と、
を備える音声信号処理評価装置。
本実施の形態の音声信号処理評価装置の構成の一例を示すブロック図である。 本実施の形態の音声信号処理評価プログラムの構成の一例を示すブロック図である。 本発明に係る音声信号処理評価処理の一例を示すフローチャートである。 本実施の形態の対象音波形における音声区間及び雑音区間の一例を示すラベルデータと波形図である。 本実施の形態の平均減衰量の算出方法の一例を示す式である。 本実施の形態の雑音区間における原音パワースペクトル及び対象音パワースペクトルの一例を示すパワースペクトル図である。 本実施の形態の雑音区間における正規化原音パワースペクトル及び対象音パワースペクトルの一例を示すパワースペクトル図である。 本実施の形態の差分スペクトルの虚数部が虚数部閾値以上である場合の差分パワースペクトルの算出式の一例を示す式である。 本実施の形態の選択音声区間とその前後の雑音区間とにおける原音波形の一例を示す波形図である。 本実施の形態の音声区間における原音パワースペクトルと雑音モデルパワースペクトルの一例を示すパワースペクトル図である。 本実施の形態の原音波形と対象音波形と歪量時間変化の一例を示す波形図である。 本発明が適用されるコンピュータシステムの一例を示す図である。
符号の説明
1 音声信号処理評価装置、11 CPU、12 記憶部、13 操作部、14 表示部、21 区間抽出部、22 スペクトル算出部、23 減衰量算出部、24 フレーム制御部、25 正規化部、26 歪量算出部、27 可視化部、41 雑音モデル推定部、42 周波数選択部。

Claims (8)

  1. 音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムであって、
    前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、
    前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出し、
    前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出し、
    前記雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記雑音フレームの第1スペクトル又は前記雑音フレームの第2スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとし、
    前記雑音フレームの第3スペクトルと前記雑音フレームの第4スペクトルとに基づいて、前記雑音フレームの歪量を算出し、
    第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、
    前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、
    前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する、
    ことをコンピュータに実行させる音声信号処理評価プログラム。
  2. 前記雑音フレームの第4スペクトルから前記雑音フレームの第3スペクトルを減算して前記雑音フレームの差分スペクトルとし、前記雑音フレームの第3スペクトルと該差分スペクトルとに基づいて前記雑音フレームの歪量を算出する、
    請求項1に記載の音声信号処理評価プログラム。
  3. 前記雑音フレームの第3スペクトルのパワーに対する前記雑音フレームの差分スペクトルのパワーの比に基づいて、前記雑音フレームの歪量を算出する、
    請求項2に記載の音声信号処理評価プログラム。
  4. 前記音声フレームにおける第1スペクトルのレベルが、前記雑音モデルスペクトルのレベルに所定のマージンを加算したレベルより大きくなる周波数を、選択して前記選択周波数とする、
    請求項1に記載の音声信号処理評価プログラム。
  5. 更に、前記音声フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記音声フレームの第1スペクトル又は前記音声フレームの第2スペクトルのレベル調整を行って、それぞれ前記音声フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとし、
    前記選択周波数における前記音声フレームの第3スペクトルと前記音声フレームの第4スペクトルとに基づいて、前記音声フレームの歪量を算出する、
    請求項1に記載の音声信号処理評価プログラム。
  6. 音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムであって、
    前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、
    前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出し、
    前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出し、
    第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、
    前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、
    前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する、
    ことをコンピュータに実行させる音声信号処理評価プログラム。
  7. 音声信号処理の評価を行う音声信号処理評価装置であって、
    前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、
    前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、
    前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出するスペクトル算出部と、
    前記雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記雑音フレームの第1スペクトル又は前記雑音フレームの第2スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとするレベル調整部と、
    前記雑音フレームの第4スペクトルから前記雑音フレームの第3スペクトルを減算して前記雑音フレームの差分スペクトルとし、前記雑音フレームの第3スペクトルと該差分スペクトルとに基づいて前記雑音フレームの歪量を算出する第1歪量算出部と、
    第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、
    前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、
    前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する第2歪量算出部と、
    を備える音声信号処理評価装置。
  8. 音声信号処理の評価を行う音声信号処理評価装置であって、
    前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、
    前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、
    前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出するスペクトル算出部と、
    第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、
    前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、
    前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する第2歪量算出部と、
    を備える音声信号処理評価装置。
JP2008304394A 2008-11-28 2008-11-28 音声信号処理評価プログラム、音声信号処理評価装置 Active JP5157852B2 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
JP2008304394A JP5157852B2 (ja) 2008-11-28 2008-11-28 音声信号処理評価プログラム、音声信号処理評価装置
US12/621,918 US9058821B2 (en) 2008-11-28 2009-11-19 Computer-readable medium for recording audio signal processing estimating a selected frequency by comparison of voice and noise frame levels

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2008304394A JP5157852B2 (ja) 2008-11-28 2008-11-28 音声信号処理評価プログラム、音声信号処理評価装置

Publications (2)

Publication Number Publication Date
JP2010128296A JP2010128296A (ja) 2010-06-10
JP5157852B2 true JP5157852B2 (ja) 2013-03-06

Family

ID=42223624

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008304394A Active JP5157852B2 (ja) 2008-11-28 2008-11-28 音声信号処理評価プログラム、音声信号処理評価装置

Country Status (2)

Country Link
US (1) US9058821B2 (ja)
JP (1) JP5157852B2 (ja)

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8949120B1 (en) 2006-05-25 2015-02-03 Audience, Inc. Adaptive noise cancelation
CN101542593B (zh) * 2007-03-12 2013-04-17 富士通株式会社 语音波形内插装置及方法
US8627483B2 (en) * 2008-12-18 2014-01-07 Accenture Global Services Limited Data anonymization based on guessing anonymity
US20110178800A1 (en) * 2010-01-19 2011-07-21 Lloyd Watts Distortion Measurement for Noise Suppression System
DE102010009745A1 (de) * 2010-03-01 2011-09-01 Gunnar Eisenberg Verfahren und Vorrichtung zur Verarbeitung von Audiodaten
US9558755B1 (en) 2010-05-20 2017-01-31 Knowles Electronics, Llc Noise suppression assisted automatic speech recognition
US9640194B1 (en) 2012-10-04 2017-05-02 Knowles Electronics, Llc Noise suppression for speech processing based on machine-learning mask estimation
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
CN105374367B (zh) 2014-07-29 2019-04-05 华为技术有限公司 异常帧检测方法和装置
DE112015003945T5 (de) 2014-08-28 2017-05-11 Knowles Electronics, Llc Mehrquellen-Rauschunterdrückung
EP3239975A4 (en) * 2014-12-26 2018-08-08 Sony Corporation Information processing device, information processing method, and program

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0784596A (ja) 1993-09-13 1995-03-31 Nippon Telegr & Teleph Corp <Ntt> 符号化音声の品質評価方法
JP3582712B2 (ja) 2000-04-19 2004-10-27 日本電信電話株式会社 収音方法および収音装置
JP4116955B2 (ja) * 2003-09-02 2008-07-09 日本電信電話株式会社 音声品質客観評価装置および音声品質客観評価方法
US7492889B2 (en) * 2004-04-23 2009-02-17 Acoustic Technologies, Inc. Noise suppression based on bark band wiener filtering and modified doblinger noise estimate
US8014999B2 (en) * 2004-09-20 2011-09-06 Nederlandse Organisatie Voor Toegepast - Natuurwetenschappelijk Onderzoek Tno Frequency compensation for perceptual speech analysis
JP4430566B2 (ja) * 2005-03-04 2010-03-10 日本電信電話株式会社 客観品質評価装置および方法
US7856355B2 (en) * 2005-07-05 2010-12-21 Alcatel-Lucent Usa Inc. Speech quality assessment method and system
JP4606264B2 (ja) * 2005-07-19 2011-01-05 三洋電機株式会社 ノイズキャンセラ
US8175868B2 (en) * 2005-10-20 2012-05-08 Nec Corporation Voice judging system, voice judging method and program for voice judgment
JP4745916B2 (ja) 2006-06-07 2011-08-10 日本電信電話株式会社 雑音抑圧音声品質推定装置、方法およびプログラム

Also Published As

Publication number Publication date
JP2010128296A (ja) 2010-06-10
US9058821B2 (en) 2015-06-16
US20100138220A1 (en) 2010-06-03

Similar Documents

Publication Publication Date Title
JP5157852B2 (ja) 音声信号処理評価プログラム、音声信号処理評価装置
EP2465112B1 (en) Method, computer program product and system for determining a perceived quality of an audio system
US8818798B2 (en) Method and system for determining a perceived quality of an audio system
EP3120356B1 (en) Method of and apparatus for evaluating quality of a degraded speech signal
EP2780909B1 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal
CN104919525B (zh) 用于评估退化语音信号的可理解性的方法和装置
US20140177853A1 (en) Sound processing device, sound processing method, and program
US20170270946A1 (en) Speech signal processing circuit
JP5293329B2 (ja) 音声信号評価プログラム、音声信号評価装置、音声信号評価方法
EP2780910B1 (en) Method of and apparatus for evaluating intelligibility of a degraded speech signal
US7233894B2 (en) Low-frequency band noise detection
EP3944240A1 (en) Method of determining a perceptual impact of reverberation on a perceived quality of a signal, as well as computer program product

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20110808

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20120730

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20120821

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20121022

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20121113

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20121126

R150 Certificate of patent or registration of utility model

Ref document number: 5157852

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20151221

Year of fee payment: 3