JP5157852B2 - 音声信号処理評価プログラム、音声信号処理評価装置 - Google Patents
音声信号処理評価プログラム、音声信号処理評価装置 Download PDFInfo
- Publication number
- JP5157852B2 JP5157852B2 JP2008304394A JP2008304394A JP5157852B2 JP 5157852 B2 JP5157852 B2 JP 5157852B2 JP 2008304394 A JP2008304394 A JP 2008304394A JP 2008304394 A JP2008304394 A JP 2008304394A JP 5157852 B2 JP5157852 B2 JP 5157852B2
- Authority
- JP
- Japan
- Prior art keywords
- spectrum
- frame
- noise
- waveform
- signal processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 186
- 230000005236 sound signal Effects 0.000 title claims description 158
- 238000011156 evaluation Methods 0.000 title claims description 66
- 238000001228 spectrum Methods 0.000 claims abstract description 521
- 238000004364 calculation method Methods 0.000 claims description 74
- 238000001514 detection method Methods 0.000 claims description 10
- 238000000034 method Methods 0.000 description 39
- 230000008569 process Effects 0.000 description 30
- 238000010606 normalization Methods 0.000 description 20
- 238000012854 evaluation process Methods 0.000 description 19
- 238000010586 diagram Methods 0.000 description 14
- 230000008859 change Effects 0.000 description 10
- 238000000605 extraction Methods 0.000 description 9
- 238000012800 visualization Methods 0.000 description 8
- 230000001629 suppression Effects 0.000 description 7
- 238000004891 communication Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 3
- 238000012935 Averaging Methods 0.000 description 2
- 230000007423 decrease Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/69—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for evaluating synthetic or decoded voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/005—Correction of errors induced by the transmission channel, if related to the coding algorithm
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
- G10L19/04—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
- G10L19/08—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters
- G10L19/12—Determination or coding of the excitation function; Determination or coding of the long-term prediction parameters the excitation function being a code excitation, e.g. in code excited linear prediction [CELP] vocoders
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
Landscapes
- Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Quality & Reliability (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Description
Y(f)=fft(y)
(X’r(f)−Yr(f))2+(X’i(f)−Yi(f))2
但し、α<1.0
(付記1)
音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムをコンピュータにより読取可能に記録した媒体であって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出し、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出し、
前記雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記雑音フレームの第1スペクトル又は前記雑音フレームの第2スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとし、
前記雑音フレームの第3スペクトルと前記雑音フレームの第4スペクトルとに基づいて、前記雑音フレームの歪量を算出し、
第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、
前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、
前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する、
ことをコンピュータに実行させる音声信号処理評価プログラムを記録した媒体。
(付記2)
前記雑音フレームの第4スペクトルから前記雑音フレームの第3スペクトルを減算して前記雑音フレームの差分スペクトルとし、前記雑音フレームの第3スペクトルと該差分スペクトルとに基づいて前記雑音フレームの歪量を算出する、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記3)
前記雑音フレームの第3スペクトルのパワーに対する前記雑音フレームの差分スペクトルのパワーの比に基づいて、前記雑音フレームの歪量を算出する、
付記2に記載の音声信号処理評価プログラムを記録した媒体。
(付記4)
前記雑音フレームの第3スペクトルのパワーに対する前記雑音フレームの差分スペクトルのパワーの比のスペクトルを算出し、該スペクトルを所定の帯域に亘って平均した値に基づいて、前記雑音フレームの歪量を算出する、
付記3に記載の音声信号処理評価プログラム。
(付記5)
前記雑音フレームの差分スペクトルの虚数部が所定の虚数部閾値を上回る場合、前記雑音フレームの第4スペクトルのパワーから前記雑音フレームの第3スペクトルのパワーを減算して前記雑音フレームの差分スペクトルのパワーとする、
付記4に記載の音声信号処理評価プログラムを記録した媒体。
(付記6)
前記音声フレームにおける第1スペクトルのレベルが、前記雑音モデルスペクトルのレベルに所定のマージンを加算したレベルより大きくなる周波数を、選択して前記選択周波数とする、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記7)
前記音声フレームの直前の雑音フレームの第5スペクトルと前記音声フレームの直後の雑音フレームの第5スペクトルとに基づいて、前記雑音モデルスペクトルを推定する、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記8)
前記音声フレームの直前の雑音フレームの第5スペクトルのパワーと前記音声フレームの直後の雑音フレームの第5スペクトルのパワーとを直線内挿することにより、前記雑音モデルスペクトルのパワーを算出する、
付記7に記載の音声信号処理評価プログラムを記録した媒体。
(付記9)
更に、前記音声フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記音声フレームの第1スペクトル又は前記音声フレームの第2スペクトルのレベル調整を行って、それぞれ前記音声フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとし、
前記選択周波数における前記音声フレームの第3スペクトルと前記音声フレームの第4スペクトルとに基づいて、前記音声フレームの歪量を算出する、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記10)
前記音声フレームの第4スペクトルから前記音声フレームの第3スペクトルを減算して前記音声フレームの差分スペクトルとし、前記音声フレームの第3スペクトルと該差分スペクトルとに基づいて前記音声フレームの歪量を算出する、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記11)
前記音声フレームの第3スペクトルのパワーに対する前記音声フレームの差分スペクトルのパワーの比に基づいて、前記音声フレームの歪量を算出する、
付記10に記載の音声信号処理評価プログラムを記録した媒体。
(付記12)
前記音声フレームの第3スペクトルのパワーに対する前記音声フレームの差分スペクトルのパワーの比のスペクトルを算出し、該スペクトルに重み付けを行って前記選択周波数の全てに亘って平均した値に基づいて、前記音声フレームの歪量を算出する、
付記11に記載の音声信号処理評価プログラムを記録した媒体。
(付記13)
前記重み付けは、聴覚特性に基づく、
付記12に記載の音声信号処理評価プログラムを記録した媒体。
(付記14)
前記音声フレームの差分スペクトルの虚数部が所定の虚数部閾値を上回る場合、前記音声フレームの第4スペクトルのパワーから前記音声フレームの第3スペクトルのパワーを減算して前記音声フレームの差分スペクトルのパワーとする、
付記12に記載の音声信号処理評価プログラムを記録した媒体。
(付記15)
更に、全ての前記雑音フレームの歪量の平均値と全ての前記音声フレームの歪量の平均値とを算出する、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記16)
更に、前記音声フレーム及び前記雑音フレームのそれぞれについて、前記時間軸と算出された歪量とを対応付けて表示する、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記17)
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のフーリエ変換を行うことにより前記第1スペクトルを算出すると共に、前記第2波形のフーリエ変換を行うことにより前記第2スペクトルとを算出する、
付記1に記載の音声信号処理評価プログラムを記録した媒体。
(付記18)
音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムをコンピュータにより読取可能に記録した媒体であって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在しないフレームである雑音フレームを検出し、
前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出し、
前記雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記雑音フレームの第1スペクトル又は前記雑音フレームの第2スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとし、
前記雑音フレームの第3スペクトルと前記雑音フレームの第4スペクトルとに基づいて、前記雑音フレームの歪量を算出する、
ことをコンピュータに実行させる音声信号処理評価プログラムを記録した媒体。
(付記19)
音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムをコンピュータにより読取可能に記録した媒体であって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出し、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出し、
第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、
前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、
前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する、
ことをコンピュータに実行させる音声信号処理評価プログラムを記録した媒体。
(付記20)
音声信号処理の評価を行う音声信号処理評価装置であって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出するスペクトル算出部と、
前記雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記雑音フレームの第1スペクトル又は前記雑音フレームの第2スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとするレベル調整部と、
前記雑音フレームの第4スペクトルから前記雑音フレームの第3スペクトルを減算して前記雑音フレームの差分スペクトルとし、前記雑音フレームの第3スペクトルと該差分スペクトルとに基づいて前記雑音フレームの歪量を算出する第1歪量算出部と、
第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、
前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、
前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する第2歪量算出部と、
を備える音声信号処理評価装置。
(付記21)
音声信号処理の評価を行う音声信号処理評価装置であって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在しないフレームである雑音フレームを検出する検出部と、
前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出するスペクトル算出部と、
前記雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記雑音フレームの第1スペクトル又は前記雑音フレームの第2スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとするレベル調整部と、
前記雑音フレームの第4スペクトルから前記雑音フレームの第3スペクトルを減算して前記雑音フレームの差分スペクトルとし、前記雑音フレームの第3スペクトルと該差分スペクトルとに基づいて前記雑音フレームの歪量を算出する第1歪量算出部と、
を備える音声信号処理評価装置。
(付記22)
音声信号処理の評価を行う音声信号処理評価装置であって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出するスペクトル算出部と、
第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、
前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、
前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する第2歪量算出部と、
を備える音声信号処理評価装置。
Claims (8)
- 音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムであって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出し、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出し、
前記雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記雑音フレームの第1スペクトル又は前記雑音フレームの第2スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとし、
前記雑音フレームの第3スペクトルと前記雑音フレームの第4スペクトルとに基づいて、前記雑音フレームの歪量を算出し、
第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、
前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、
前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する、
ことをコンピュータに実行させる音声信号処理評価プログラム。 - 前記雑音フレームの第4スペクトルから前記雑音フレームの第3スペクトルを減算して前記雑音フレームの差分スペクトルとし、前記雑音フレームの第3スペクトルと該差分スペクトルとに基づいて前記雑音フレームの歪量を算出する、
請求項1に記載の音声信号処理評価プログラム。 - 前記雑音フレームの第3スペクトルのパワーに対する前記雑音フレームの差分スペクトルのパワーの比に基づいて、前記雑音フレームの歪量を算出する、
請求項2に記載の音声信号処理評価プログラム。 - 前記音声フレームにおける第1スペクトルのレベルが、前記雑音モデルスペクトルのレベルに所定のマージンを加算したレベルより大きくなる周波数を、選択して前記選択周波数とする、
請求項1に記載の音声信号処理評価プログラム。 - 更に、前記音声フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記音声フレームの第1スペクトル又は前記音声フレームの第2スペクトルのレベル調整を行って、それぞれ前記音声フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとし、
前記選択周波数における前記音声フレームの第3スペクトルと前記音声フレームの第4スペクトルとに基づいて、前記音声フレームの歪量を算出する、
請求項1に記載の音声信号処理評価プログラム。 - 音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムであって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出し、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出し、
第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、
前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、
前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する、
ことをコンピュータに実行させる音声信号処理評価プログラム。 - 音声信号処理の評価を行う音声信号処理評価装置であって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出するスペクトル算出部と、
前記雑音フレームにおける第1スペクトルのレベルと第2スペクトルのレベルとが等しくなるように前記雑音フレームの第1スペクトル又は前記雑音フレームの第2スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第3スペクトル及び前記雑音フレームの第4スペクトルとするレベル調整部と、
前記雑音フレームの第4スペクトルから前記雑音フレームの第3スペクトルを減算して前記雑音フレームの差分スペクトルとし、前記雑音フレームの第3スペクトルと該差分スペクトルとに基づいて前記雑音フレームの歪量を算出する第1歪量算出部と、
第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、
前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、
前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する第2歪量算出部と、
を備える音声信号処理評価装置。 - 音声信号処理の評価を行う音声信号処理評価装置であって、
前記音声信号処理への入力の時間波形である第1波形と前記音声信号処理からの出力の時間波形である第2波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、
前記複数のフレームから、前記第1波形及び前記第2波形に所定の音声が存在するフレームである音声フレームと前記第1波形及び前記第2波形に前記所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第1波形のスペクトルである第1スペクトルと前記第2波形のスペクトルである第2スペクトルとを算出するスペクトル算出部と、
第1スペクトル又は第2スペクトルを第5スペクトルとし、前記雑音フレームの第5スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、
前記音声フレームの第5スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、
前記選択周波数における前記音声フレームの第1スペクトルと前記音声フレームの第2スペクトルとに基づいて、前記音声フレームの歪量を算出する第2歪量算出部と、
を備える音声信号処理評価装置。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008304394A JP5157852B2 (ja) | 2008-11-28 | 2008-11-28 | 音声信号処理評価プログラム、音声信号処理評価装置 |
US12/621,918 US9058821B2 (en) | 2008-11-28 | 2009-11-19 | Computer-readable medium for recording audio signal processing estimating a selected frequency by comparison of voice and noise frame levels |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008304394A JP5157852B2 (ja) | 2008-11-28 | 2008-11-28 | 音声信号処理評価プログラム、音声信号処理評価装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2010128296A JP2010128296A (ja) | 2010-06-10 |
JP5157852B2 true JP5157852B2 (ja) | 2013-03-06 |
Family
ID=42223624
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2008304394A Active JP5157852B2 (ja) | 2008-11-28 | 2008-11-28 | 音声信号処理評価プログラム、音声信号処理評価装置 |
Country Status (2)
Country | Link |
---|---|
US (1) | US9058821B2 (ja) |
JP (1) | JP5157852B2 (ja) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8949120B1 (en) | 2006-05-25 | 2015-02-03 | Audience, Inc. | Adaptive noise cancelation |
CN101542593B (zh) * | 2007-03-12 | 2013-04-17 | 富士通株式会社 | 语音波形内插装置及方法 |
US8627483B2 (en) * | 2008-12-18 | 2014-01-07 | Accenture Global Services Limited | Data anonymization based on guessing anonymity |
US20110178800A1 (en) * | 2010-01-19 | 2011-07-21 | Lloyd Watts | Distortion Measurement for Noise Suppression System |
DE102010009745A1 (de) * | 2010-03-01 | 2011-09-01 | Gunnar Eisenberg | Verfahren und Vorrichtung zur Verarbeitung von Audiodaten |
US9558755B1 (en) | 2010-05-20 | 2017-01-31 | Knowles Electronics, Llc | Noise suppression assisted automatic speech recognition |
US9640194B1 (en) | 2012-10-04 | 2017-05-02 | Knowles Electronics, Llc | Noise suppression for speech processing based on machine-learning mask estimation |
US9536540B2 (en) | 2013-07-19 | 2017-01-03 | Knowles Electronics, Llc | Speech signal separation and synthesis based on auditory scene analysis and speech modeling |
CN105374367B (zh) | 2014-07-29 | 2019-04-05 | 华为技术有限公司 | 异常帧检测方法和装置 |
DE112015003945T5 (de) | 2014-08-28 | 2017-05-11 | Knowles Electronics, Llc | Mehrquellen-Rauschunterdrückung |
EP3239975A4 (en) * | 2014-12-26 | 2018-08-08 | Sony Corporation | Information processing device, information processing method, and program |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0784596A (ja) | 1993-09-13 | 1995-03-31 | Nippon Telegr & Teleph Corp <Ntt> | 符号化音声の品質評価方法 |
JP3582712B2 (ja) | 2000-04-19 | 2004-10-27 | 日本電信電話株式会社 | 収音方法および収音装置 |
JP4116955B2 (ja) * | 2003-09-02 | 2008-07-09 | 日本電信電話株式会社 | 音声品質客観評価装置および音声品質客観評価方法 |
US7492889B2 (en) * | 2004-04-23 | 2009-02-17 | Acoustic Technologies, Inc. | Noise suppression based on bark band wiener filtering and modified doblinger noise estimate |
US8014999B2 (en) * | 2004-09-20 | 2011-09-06 | Nederlandse Organisatie Voor Toegepast - Natuurwetenschappelijk Onderzoek Tno | Frequency compensation for perceptual speech analysis |
JP4430566B2 (ja) * | 2005-03-04 | 2010-03-10 | 日本電信電話株式会社 | 客観品質評価装置および方法 |
US7856355B2 (en) * | 2005-07-05 | 2010-12-21 | Alcatel-Lucent Usa Inc. | Speech quality assessment method and system |
JP4606264B2 (ja) * | 2005-07-19 | 2011-01-05 | 三洋電機株式会社 | ノイズキャンセラ |
US8175868B2 (en) * | 2005-10-20 | 2012-05-08 | Nec Corporation | Voice judging system, voice judging method and program for voice judgment |
JP4745916B2 (ja) | 2006-06-07 | 2011-08-10 | 日本電信電話株式会社 | 雑音抑圧音声品質推定装置、方法およびプログラム |
-
2008
- 2008-11-28 JP JP2008304394A patent/JP5157852B2/ja active Active
-
2009
- 2009-11-19 US US12/621,918 patent/US9058821B2/en active Active
Also Published As
Publication number | Publication date |
---|---|
JP2010128296A (ja) | 2010-06-10 |
US9058821B2 (en) | 2015-06-16 |
US20100138220A1 (en) | 2010-06-03 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP5157852B2 (ja) | 音声信号処理評価プログラム、音声信号処理評価装置 | |
EP2465112B1 (en) | Method, computer program product and system for determining a perceived quality of an audio system | |
US8818798B2 (en) | Method and system for determining a perceived quality of an audio system | |
EP3120356B1 (en) | Method of and apparatus for evaluating quality of a degraded speech signal | |
EP2780909B1 (en) | Method of and apparatus for evaluating intelligibility of a degraded speech signal | |
CN104919525B (zh) | 用于评估退化语音信号的可理解性的方法和装置 | |
US20140177853A1 (en) | Sound processing device, sound processing method, and program | |
US20170270946A1 (en) | Speech signal processing circuit | |
JP5293329B2 (ja) | 音声信号評価プログラム、音声信号評価装置、音声信号評価方法 | |
EP2780910B1 (en) | Method of and apparatus for evaluating intelligibility of a degraded speech signal | |
US7233894B2 (en) | Low-frequency band noise detection | |
EP3944240A1 (en) | Method of determining a perceptual impact of reverberation on a perceived quality of a signal, as well as computer program product |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20110808 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20120730 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20120821 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20121022 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20121113 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20121126 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 5157852 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20151221 Year of fee payment: 3 |