JP5157852B2

JP5157852B2 - 音声信号処理評価プログラム、音声信号処理評価装置

Info

Publication number: JP5157852B2
Application number: JP2008304394A
Authority: JP
Inventors: 智佳子松本; 直司松尾
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2008-11-28
Filing date: 2008-11-28
Publication date: 2013-03-06
Anticipated expiration: 2028-11-28
Also published as: JP2010128296A; US9058821B2; US20100138220A1

Description

本発明は、音声信号処理の評価を行う音声信号処理評価プログラム、音声信号処理評価装置に関するものである。

音声信号の品質を評価する方法として、主観評価と客観評価がある。

ＰＥＳＱ（Perceptual Evaluation of Speech Quality）のように雑音無しの原音声と評価の対象音声とを比較して客観評価値を算出する客観評価の方法や、雑音混じり音声に関してサンプル音声を用いて主観評価された結果である主観評価値（ＭＯＳ値：Mean Opinion Score 値）とＰＥＳＱにより客観評価された結果である客観評価値とに基づいて主観評価値と客観評価値の関係式を求める方法がある（例えば、特許文献１、特許文献２、特許文献３参照）。
特開２００１−３０９４８３号公報特開平７−８４５９６号公報特開２００８−１５４４３号公報

しかしながら、従来の音声品質評価技術により、雑音混じりの音声の歪量を求めることはできない。また、上述した関係式を求める方法は、サンプル音声の雑音に似た雑音が混じった音声の評価の精度は高いが、サンプル音声の雑音と掛け離れた雑音が混じった音声の評価の精度は低くなるという問題がある。

また、雑音混じりの音声信号に対して、指向性受音処理や雑音抑圧処理等の音声信号処理を行うと、処理後の音声信号の雑音区間及び音声区間の両方に歪が生じる。この場合、雑音区間に関しては、上述の信号処理によりパワーが低下することにより、正確な歪量を測定することが困難である。一方、音声区間に関しては、主観評価に近い評価結果を得ることが困難である。

本発明は上述した問題点を解決するためになされたものであり、音声信号処理の評価値として主観評価値の傾向を有する歪量を算出する音声信号処理評価プログラム、音声信号処理評価装置を提供することを目的とする。

上述した課題を解決するため、本発明の一態様は、音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムであって、音声信号処理への入力の時間波形である第１波形と音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、複数のフレームから、第１波形及び第２波形に所定の音声が存在するフレームである音声フレームと第１波形及び第２波形に所定の音声が存在しないフレームである雑音フレームとを検出し、音声フレーム及び雑音フレームのそれぞれについて、第１波形のスペクトルである第１スペクトルと第２波形のスペクトルである第２スペクトルとを算出し、雑音フレームにおける第１スペクトルのレベルと第２スペクトルのレベルとが等しくなるように雑音フレームの第１スペクトル又は雑音フレームの第２スペクトルのレベル調整を行って、それぞれ雑音フレームの第３スペクトル及び雑音フレームの第４スペクトルとし、雑音フレームの第３スペクトルと雑音フレームの第４スペクトルとに基づいて、雑音フレームの歪量を算出し、第１スペクトル又は第２スペクトルを第５スペクトルとし、雑音フレームの第５スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、音声フレームの第５スペクトルのレベルと雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、選択周波数における音声フレームの第１スペクトルと音声フレームの第２スペクトルとに基づいて、音声フレームの歪量を算出することをコンピュータに実行させる。

また、本発明の一態様は、音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムであって、音声信号処理への入力の時間波形である第１波形と音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、複数のフレームから、第１波形及び第２波形に所定の音声が存在しないフレームである雑音フレームを検出し、雑音フレームのそれぞれについて、第１波形のスペクトルである第１スペクトルと第２波形のスペクトルである第２スペクトルとを算出し、雑音フレームにおける第１スペクトルのレベルと第２スペクトルのレベルとが等しくなるように雑音フレームの第１スペクトル又は雑音フレームの第２スペクトルのレベル調整を行って、それぞれ雑音フレームの第３スペクトル及び雑音フレームの第４スペクトルとし、雑音フレームの第３スペクトルと雑音フレームの第４スペクトルとに基づいて、雑音フレームの歪量を算出することをコンピュータに実行させる。

また、本発明の一態様は、音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムであって、音声信号処理への入力の時間波形である第１波形と音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、複数のフレームから、第１波形及び第２波形に所定の音声が存在するフレームである音声フレームと第１波形及び第２波形に所定の音声が存在しないフレームである雑音フレームとを検出し、音声フレーム及び雑音フレームのそれぞれについて、第１波形のスペクトルである第１スペクトルと第２波形のスペクトルである第２スペクトルとを算出し、第１スペクトル又は第２スペクトルを第５スペクトルとし、雑音フレームの第５スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、音声フレームの第５スペクトルのレベルと雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、選択周波数における音声フレームの第１スペクトルと音声フレームの第２スペクトルとに基づいて、音声フレームの歪量を算出することをコンピュータに実行させる。

また、本発明の一態様は、音声信号処理の評価を行う音声信号処理評価装置であって、音声信号処理への入力の時間波形である第１波形と音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、複数のフレームから、第１波形及び第２波形に所定の音声が存在するフレームである音声フレームと第１波形及び第２波形に所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、音声フレーム及び雑音フレームのそれぞれについて、第１波形のスペクトルである第１スペクトルと第２波形のスペクトルである第２スペクトルとを算出するスペクトル算出部と、雑音フレームにおける第１スペクトルのレベルと第２スペクトルのレベルとが等しくなるように雑音フレームの第１スペクトル又は雑音フレームの第２スペクトルのレベル調整を行って、それぞれ雑音フレームの第３スペクトル及び雑音フレームの第４スペクトルとするレベル調整部と、雑音フレームの第４スペクトルから雑音フレームの第３スペクトルを減算して雑音フレームの差分スペクトルとし、雑音フレームの第３スペクトルと該差分スペクトルとに基づいて雑音フレームの歪量を算出する第１歪量算出部と、第１スペクトル又は第２スペクトルを第５スペクトルとし、雑音フレームの第５スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、音声フレームの第５スペクトルのレベルと雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、選択周波数における音声フレームの第１スペクトルと音声フレームの第２スペクトルとに基づいて、音声フレームの歪量を算出する第２歪量算出部とを有する。

また、本発明の一態様は、音声信号処理の評価を行う音声信号処理評価装置であって、音声信号処理への入力の時間波形である第１波形と音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、複数のフレームから、第１波形及び第２波形に所定の音声が存在しないフレームである雑音フレームを検出する検出部と、雑音フレームのそれぞれについて、第１波形のスペクトルである第１スペクトルと第２波形のスペクトルである第２スペクトルとを算出するスペクトル算出部と、雑音フレームにおける第１スペクトルのレベルと第２スペクトルのレベルとが等しくなるように雑音フレームの第１スペクトル又は雑音フレームの第２スペクトルのレベル調整を行って、それぞれ雑音フレームの第３スペクトル及び雑音フレームの第４スペクトルとするレベル調整部と、雑音フレームの第４スペクトルから雑音フレームの第３スペクトルを減算して雑音フレームの差分スペクトルとし、雑音フレームの第３スペクトルと該差分スペクトルとに基づいて雑音フレームの歪量を算出する第１歪量算出部とを有する。

また、本発明の一態様は、音声信号処理の評価を行う音声信号処理評価装置であって、音声信号処理への入力の時間波形である第１波形と音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、複数のフレームから、第１波形及び第２波形に所定の音声が存在するフレームである音声フレームと第１波形及び第２波形に所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、音声フレーム及び雑音フレームのそれぞれについて、第１波形のスペクトルである第１スペクトルと第２波形のスペクトルである第２スペクトルとを算出するスペクトル算出部と、第１スペクトル又は第２スペクトルを第５スペクトルとし、雑音フレームの第５スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、音声フレームの第５スペクトルのレベルと雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、選択周波数における音声フレームの第１スペクトルと音声フレームの第２スペクトルとに基づいて、音声フレームの歪量を算出する第２歪量算出部とを有する。

また、本発明の構成要素、または構成要素の任意の組合せを、方法、装置、システム、記録媒体、データ構造などに適用したものも本発明に含む。

開示の音声信号処理評価プログラム、音声信号処理評価装置によれば、音声信号処理の評価値として主観評価値の傾向を有する歪量を算出することができる。

以下、本発明の実施の形態について図面を参照しつつ説明する。

本実施の形態において、音声信号処理装置は、指向性受音処理や雑音抑圧処理等の音声信号処理を行う。この音声信号処理は、音声信号がサンプリングされた時間波形を扱う。以後、上述の音声信号処理への入力（音声信号処理前）の時間波形を原音波形（第１波形）と呼び、上述の音声信号処理からの出力（音声信号処理後）の時間波形を対象音波形（第２波形）と呼ぶ。

本実施の形態の音声信号処理評価装置は、音声信号処理の評価値として原音波形に対する対象音波形の歪量を算出する音声信号処理評価処理を行う。

本実施の形態の音声信号処理評価装置の構成について以下に説明する。

図１は、本実施の形態の音声信号処理評価装置の構成の一例を示すブロック図である。この音声信号処理評価装置１は、ＣＰＵ（Central Processing Unit）１１、記憶部１２、操作部１３、表示部１４を有する。

記憶部１２は、音声信号処理評価プログラム、波形、音声信号処理評価処理結果等を格納する。ＣＰＵ１１は、音声信号処理評価プログラムに従って音声信号処理評価処理を実行する。操作部１３は、ユーザによる波形の指定等の操作を受け付ける。表示部１４は、音声信号処理評価プログラムの出力である歪量等を表示する。

音声信号処理評価装置１における音声信号処理評価プログラムの構成について説明する。図２は、本実施の形態の音声信号処理評価プログラムの構成の一例を示すブロック図である。音声信号処理評価プログラムは、区間抽出部２１（検出部）、スペクトル算出部２２、減衰量算出部２３、フレーム制御部２４（フレーム設定部）、正規化部２５、歪量算出部２６（第１歪量算出部、第２歪量算出部）、可視化部２７、雑音モデル推定部４１、周波数選択部４２を有する。なお、減衰量算出部２３及び正規化部２５は、レベル調整部に対応する。

音声信号処理評価処理について以下に説明する。

図３は、本発明に係る音声信号処理評価処理の一例を示すフローチャートである。まず、フレーム制御部２４及び区間抽出部２１は、区間抽出処理を行う（Ｓ１１）。

区間抽出処理の詳細について以下に説明する。

まず、フレーム制御部２４は、記憶部１２から波形を取得し、原音波形及び対象音波形をスペクトル算出部２２のＦＦＴ長ｎ（ｎは２のＮ乗）サンプルのフレームに分割する。次に、区間抽出部２１は、各フレーム毎が、有声フレーム、無声フレーム、有声と無声の混在フレームのいずれであるかを判定する。ここで、区間抽出部２１は、例えば、フレーム内のレベルが所定の有声閾値以上となる（所定の音声が存在する）フレームを有声フレームと判定し、フレーム内のレベルが有声閾値を超えないフレームを無声フレームと判定し、有声フレーム及び無声フレームのどちらでもないフレームを混在フレームと判定する。

次に、区間抽出部２１は、連続しない単独の有声フレームまたは連続する複数の有声フレームを音声区間とし、連続しない単独の無声フレームまたは連続する複数の無声フレームを雑音区間とする。ここで、区間抽出部２１は、有声区間及び無声区間のタイミングをラベルとして表すラベルデータを作成する。なお、音声区間には、音声と雑音の両方が含まれる。また、音声区間のフレームは、音声フレームに対応し、雑音区間のフレームは、雑音フレームに対応する。

図４は、本実施の形態の対象音波形における音声区間及び雑音区間の一例を示すラベルデータと波形図である。この図において、横軸は時間を示し、縦軸は振幅を示す。また、この図の波形は、対象音波形である。また、この図において、Ｖは音声区間、Ｕは雑音区間を表す。

音声信号処理評価処理の続きについて以下に説明する。

次に、スペクトル算出部２２は、原音波形のスペクトル（周波数特性）である原音スペクトル（第１スペクトル）を算出する原音スペクトル算出処理を行う（Ｓ１３）。次に、スペクトル算出部２２は、記憶部１２から対象音波形を取得し、対象音波形のスペクトルである対象音スペクトル（第２スペクトル）を算出して記憶部１２へ格納する対象音スペクトル算出処理を行う（Ｓ１５）。

原音スペクトル算出処理及び対象音スペクトル算出処理の詳細について以下に説明する。

スペクトル算出部２２は、記憶部１２から原音波形を取得し、原音波形の各フレームのＦＦＴ（Fast Fourier Transform）を行い、ＦＦＴ結果である原音スペクトルを記憶部１２へ格納する。スペクトル算出部２２は、記憶部１２から対象音波形を取得し、対象音波形の各フレームのＦＦＴを行い、ＦＦＴ結果である対象音スペクトルを記憶部１２へ格納する。なお、スペクトル算出部２２は、ＦＦＴの代わりに、フィルタバンクを用い、フィルタバンクにより得られる複数の帯域の波形を時間領域で処理しても良い。また、ＦＦＴの代わりに、他の時間領域から周波数領域への変換（ウェーブレット変換等）を用いても良い。

ここで、各区間の原音波形をｘ（ｔ）、各区間の対象音波形をｙ（ｔ）、ＦＦＴの関数をｆｆｔとすると、原音スペクトルをＸ（ｆ）及び対象音スペクトルＹ（ｆ）は、次式で表される。

Ｘ（ｆ）＝ｆｆｔ（ｘ）
Ｙ（ｆ）＝ｆｆｔ（ｙ）

スペクトル算出部２２は、フレーム毎に、原音スペクトルのパワーである原音パワースペクトル｜Ｘ（ｆ）｜²を算出する。また、スペクトル算出部２２は、フレーム毎に、対象音スペクトルのパワーである対象音パワースペクトル｜Ｙ（ｆ）｜²を算出する。

音声信号処理評価処理の続きについて以下に説明する。

次に、減衰量算出部２３は、原音パワースペクトルに対する対象音パワースペクトルの減衰量（レベル比）を算出する減衰量算出処理を行う（Ｓ１６）。

減衰量算出処理の詳細について以下に説明する。

まず、減衰量算出部２３は、フレーム毎に、記憶部１２から原音パワースペクトル及び対象音パワースペクトルを取得する。次に、減衰量算出部２３は、対象音パワースペクトルに対する原音パワースペクトルの比（原音パワースペクトルに対する対象音パワースペクトルの減衰量）である減衰量スペクトルａｔｔ（ｆ）を算出して記憶部１２へ格納する。ここで、減衰量スペクトルは、次式で表される。

ａｔｔ（ｆ）＝｜Ｘ（ｆ）｜²／｜Ｙ（ｆ）｜²

次に、減衰量算出部２３は、減衰量スペクトルを全周波数にわたって平均して平均減衰量Ａとする。図５は、本実施の形態の平均減衰量の算出方法の一例を示す式である。

図６は、本実施の形態の雑音区間における原音パワースペクトル及び対象音パワースペクトルの一例を示すパワースペクトル図である。この図において、横軸は周波数を示し、縦軸はパワーを示す。この図において、実線のプロットは、ある雑音区間内のフレームにおける原音パワースペクトルを示し、点線のプロットは、そのフレームにおける対象音パワースペクトルを示す。更に、この図は、平均減衰量Ａを示す。

次に、減衰量算出部２３は、算出した平均減衰量を記憶部１２へ格納する。

音声信号処理評価処理の続きについて以下に説明する。

次に、フレーム制御部２４は、全てのフレームに対する処理が終了したか否かの判定を行う（Ｓ１７）。

全てのフレームに対する処理が終了していない場合（Ｓ１７，Ｎ）、フレーム制御部２４は、時間順に１つずつフレームを選択して選択フレームとし、ラベルデータに基づいて選択フレームが音声区間であるか否かの判定を行う（Ｓ１８）。

選択フレームが雑音区間である場合（Ｓ１８，Ｎ）、正規化部２５は、選択フレームにおける原音スペクトルのレベルを対象音スペクトルのレベルに合わせて（正規化して）正規化原音スペクトルとする雑音正規化処理を行う（Ｓ２３）。

雑音正規化処理の詳細について以下に説明する。

まず、正規化部２５は、選択フレームの原音スペクトルと対象音スペクトルと平均減衰量とを記憶部１２から取得する。次に、正規化部２５は、原音スペクトルを平均減衰量だけ減衰させて正規化原音スペクトルとし、記憶部１２へ格納する。ここで、正規化原音スペクトルＸ’（ｆ）は、次式で表される。

Ｘ’（ｆ）＝Ｘ（ｆ）／Ａ

図７は、本実施の形態の雑音区間における正規化原音パワースペクトル及び対象音パワースペクトルの一例を示すパワースペクトル図である。この図において、横軸は周波数を示し、縦軸はパワーを示す。この図において、実線のプロットは、ある雑音区間内のフレームにおける正規化原音パワースペクトルを示し、点線のプロットは、そのフレームにおける対象音パワースペクトルを示す。この図に示されるように、正規化原音パワースペクトルと対象音パワースペクトルは、平均レベルが等しく、パワースペクトルの形状が異なる。

上述の雑音正規化処理によれば、音声信号処理によるパワーの低下分を除外した上で歪量を測ることできる。

音声信号処理評価処理の続きについて以下に説明する。

次に、歪量算出部２６は、選択フレームの歪量スペクトル及び歪量を算出する雑音歪量算出処理を行い（Ｓ２４）、このフローは処理Ｓ１７へ移行する。

雑音歪量算出処理の詳細について以下に説明する。

まず、歪量算出部２６は、選択フレームにおける正規化原音スペクトルと対象音スペクトルとを記憶部１２から取得する。次に、歪量算出部２６は、対象音スペクトルから正規化原音スペクトルを減算して差分スペクトルとし、差分スペクトルのパワーを算出して差分パワースペクトルとする。ここで、Ｘ’（ｆ）の実数部をＸ’ｒ（ｆ）、Ｘ’（ｆ）の虚数部をＸ’ｉ（ｆ）、Ｙ’（ｆ）の実数部をＹｒ（ｆ）、Ｙ（ｆ）の虚数部をＹｉ（ｆ）とすると、差分パワースペクトルＤＩＦＦ（ｆ）は、次式で表される。

ＤＩＦＦ（ｆ）＝
（Ｘ’ｒ（ｆ）−Ｙｒ（ｆ））²＋（Ｘ’ｉ（ｆ）−Ｙｉ（ｆ））²

次に、歪量算出部２６は、正規化原音パワースペクトルに対する差分パワースペクトルの比を歪量スペクトルとして算出する。次に、歪量算出部２６は、歪量スペクトルを全周波数にわたって平均した値を歪量として算出する。次に、歪量算出部２６は、選択フレームの歪量を記憶部１２へ格納する。

また、音声信号処理により位相に大きな変化が生じた場合、差分スペクトルの虚数部が大きくなる。歪量算出部２６は、差分スペクトルの虚数部が所定の虚数部閾値以上である場合、差分パワースペクトルＤＩＦＦ（ｆ）の算出式を次式に切り替える。図８は、本実施の形態の差分スペクトルの虚数部が虚数部閾値以上である場合の差分パワースペクトルの算出式の一例を示す式である。ここで、虚数部閾値は、正規化原音パワースペクトルに対する差分スペクトルの虚数部の比として設定される。

音声信号処理評価処理の続きについて以下に説明する。

選択フレームが音声区間である場合（Ｓ１８，Ｙ）、雑音モデル推定部４１は、選択フレームの音声区間の近傍の雑音区間に基づいて、選択フレームの音声区間の雑音モデルを推定する雑音モデル推定処理を行う（Ｓ３１）。

雑音モデル推定処理の詳細について以下に説明する。

まず、雑音モデル推定部４１は、選択フレームを含む音声区間を選択音声区間とし、選択音声区間の直前の雑音区間の最後のフレームである前雑音フレームと選択音声区間の直後の雑音区間の最初のフレームである後雑音フレームとにおける原音パワースペクトルを記憶部１２から取得する。次に、雑音モデル推定部４１は、前雑音フレームの原音パワースペクトルの平均レベルと後雑音フレームの原音パワースペクトルの平均レベルを算出する。

図９は、本実施の形態の選択音声区間とその前後の雑音区間とにおける原音波形の一例を示す波形図である。この図において、横軸は時間を示し、縦軸は振幅を示す。また、この図において、Ｖは音声区間を示し、Ｕは雑音区間を示し、Ｖ０は選択音声区間を示す。この図において、前雑音フレームの平均レベルと後雑音フレームの平均レベルとの差は、大きい。また、選択音声区間内の雑音レベルは、時間の経過に伴って減少している。このように、選択音声区間が比較的長い場合等には、音声区間の前後での雑音のレベルの変化量が大きくなる。

次に、雑音モデル推定部４１は、前雑音フレームの原音パワースペクトルと後雑音フレームの原音パワースペクトルとから、選択フレームの雑音モデルのパワースペクトルである雑音モデルパワースペクトル（雑音モデルスペクトル）を算出して記憶部１２へ格納する。ここで、前雑音フレームの原音パワースペクトルをＺｂｆｒ（ｆ）とし、後雑音フレームの原音パワースペクトルをＺａｆｔ（ｆ）とすると、選択フレームの雑音モデルパワースペクトルＺ（ｆ）は、次式で表される。

Ｚ（ｆ）＝αＺｂｆｒ（ｆ）＋（１．０−α）Ｚａｆｔ（ｆ）
但し、α＜１．０

ここで、選択音声区間の時間長をＬとし、選択音声区間の開始位置からの時間をｎとすると、前雑音フレームの重み付けαは、次式で表される。

α＝（Ｌ−ｎ）／Ｌ

なお、雑音モデル推定部４１は、前雑音フレームの平均レベルと後雑音フレームの平均レベルとの差である雑音レベル変化量が所定の雑音レベル変化量閾値以下である場合、または、Ｌが所定の選択音声区間時間長閾値以下である場合、選択音声区間内における雑音のレベルの変化が小さいと判定し、前雑音区間または後雑音区間のいずれかの原音パワースペクトルを雑音モデルパワースペクトルとしても良い。

音声信号処理評価処理の続きについて以下に説明する。

次に、周波数選択部４２は、選択フレームにおける原音パワースペクトル及び雑音モデルパワースペクトルに基づいて周波数の選択を行う周波数選択処理を行う（Ｓ３２）。

周波数選択処理の詳細について以下に説明する。

まず、周波数選択部４２は、選択フレームにおける原音パワースペクトル及び雑音モデルパワースペクトルを記憶部１２から取得する。次に、周波数選択部４２は、周波数毎に原音パワースペクトルのレベルと雑音モデルパワースペクトルのレベルの比較を行う。

ここで、周波数選択部４２は、雑音モデルパワースペクトルに所定のマージンを加算した値を閾値パワースペクトルとし、原音パワースペクトルのレベルが閾値スペクトルのレベル以上となる周波数を選択して選択周波数とする。本実施の形態において、マージンは０であり、閾値パワースペクトルは雑音モデルパワースペクトルに等しい。

図１０は、本実施の形態の音声区間における原音パワースペクトルと雑音モデルパワースペクトルの一例を示すパワースペクトル図である。この図において、実線のプロットは、ある音声区間内のフレームにおける原音パワースペクトルを示し、点線のプロットは、そのフレームにおける雑音モデルパワースペクトルを示す。原音パワースペクトルのレベルが雑音モデルパワースペクトル（閾値パワースペクトル）のレベル以上となる周波数の範囲が選択周波数である。

音声信号処理評価処理の続きについて以下に説明する。

次に、正規化部２５は、選択フレームにおける原音スペクトルのレベルを対象音スペクトルのレベルに合わせて（正規化して）正規化原音スペクトルとする音声正規化処理を行う（Ｓ３３）。

音声正規化処理の詳細について以下に説明する。

音声正規化処理は、雑音正規化処理と同様である。まず、正規化部２５は、選択フレームの原音スペクトルと対象音スペクトルと平均減衰量とを記憶部１２から取得する。次に、正規化部２５は、原音スペクトルを平均減衰量だけ減衰させて正規化原音スペクトルとし、記憶部１２へ格納する。

音声信号処理評価処理の続きについて以下に説明する。

次に、歪量算出部２６は、選択フレームの歪量スペクトル及び歪量を算出する音声歪量算出処理を行い（Ｓ３４）、このフローは処理Ｓ１７へ移行する。

音声歪量算出処理の詳細について以下に説明する。

まず、歪量算出部２６は、選択フレームにおける正規化原音スペクトルと対象音スペクトルと選択周波数とを記憶部１２から取得する。次に、歪量算出部２６は、対象音スペクトルから正規化原音スペクトルを減算して差分スペクトルとし、差分スペクトルのパワーを算出して差分パワースペクトルとする。次に、歪量算出部２６は、正規化原音パワースペクトルに対する差分パワースペクトルの比を歪量スペクトルとして算出する。

次に、歪量算出部２６は、周波数毎の重み付けである重みスペクトルを決定する。重み付け決定方法の３つの例について以下に説明する。

第１の重み付け決定方法において、歪量算出部２６は、パワースペクトルの大きい周波数ほど大きな重みを与える。

第２の重み付け決定方法において、歪量算出部２６は、人間の音声の周波数帯域である３００Ｈｚ〜３４００Ｈｚに大きな重みを与え、その他の帯域に小さな重みを与える。

第３の重み付け決定方法において、歪量算出部２６は、フォルマント検出を行い、第一フォルマント周波数付近に大きな重みを与え、その他の帯域に小さな重みを与える。

次に、歪量算出部２６は、周波数毎に、音声歪量スペクトルに重みスペクトルを乗算する。

次に、歪量算出部２６は、歪量スペクトルを全ての選択周波数にわたって平均した値を歪量として算出する。次に、歪量算出部２６は、選択フレームの歪量を記憶部１２へ格納する。

上述の音声歪量算出処理によれば、音声のうち、雑音の影響で聞こえない成分は除外し、聞こえる成分についてのみ評価できるようにすることができる。

なお、歪量算出部２６は、音声歪量算出処理により算出された音声区間の全てのフレームの平均の歪量を算出して平均音声歪量とし、雑音歪量算出処理により算出された雑音区間の全てのフレームの平均の歪量を算出して平均雑音歪量としても良い。

音声信号処理評価処理の続きについて以下に説明する。

処理Ｓ１７において全てのフレームに対する処理が終了した場合（Ｓ１７，Ｙ）、可視化部２７は、歪量を可視化する可視化処理を行い（Ｓ４１）、このフローは終了する。

可視化処理の詳細について以下に説明する。

まず、可視化部２７は、原音波形、対象音波形、フレーム毎の歪量を記憶部１２から取得する。次に、可視化部２７は、原音波形、対象音波形、フレーム毎の歪量を、表示部１４に表示させる。

図１１は、本実施の形態の原音波形と対象音波形と歪量時間変化の一例を示す波形図である。この図における３つの波形は、上から順に、原音波形と対象音波形と歪量時間変化を示す。３つの波形において、横軸は時間を示す。原音波形と対象音波形において、縦軸は振幅を示す。歪量時間変化において、縦軸は、歪量（ＳＤＲ：Signal to Distortion Ratio）を示す。また、歪量時間変化は、フレーム毎の歪量である。また、この図において、各区間には、雑音区間を示すＵ、音声区間を示すＶが付されると共に、各区間を識別するための番号が付される。ここで、Ｕ３５，Ｕ３７，Ｕ３９，Ｕ４１，Ｕ４３は雑音区間を示し、Ｖ３６，Ｖ３８，Ｖ４０，Ｖ４２は音声区間を示す。

上述の可視化処理によれば、歪量の時間変化を一覧できると共に、歪量とタイミングの対応付けや確認原音波形や対象波形との対応付けが容易になる。

なお、雑音正規化処理及び音声正規化処理において、正規化部２５は、対象音スペクトルのレベルを原音スペクトルのレベルに合わせても良い。

また、雑音正規化処理後の原音スペクトル（正規化原音スペクトル）及び対象音スペクトルは、それぞれ第３スペクトル及び第４スペクトルに対応する。

なお、雑音モデル推定部４１が、雑音区間の対象音パワースペクトルから、雑音モデルパワースペクトルを算出し、周波数選択部４２が、音声区間の対象音パワースペクトルと雑音モデルパワースペクトルとを比較することにより、選択周波数を決定しても良い。

また、雑音モデルパワースペクトルの推定に用いられる原音パワースペクトルまたは対象音パワースペクトルは、第５スペクトルに対応する。

また、減衰量算出処理、雑音正規化処理、音声正規化処理は、レベル調整に対応する。

本実施の形態によれば、音声信号処理に対して音声信号処理評価処理により算出される評価値である歪量は、従来の客観評価値に比べて、主観評価値の傾向に近い値となる。

本実施の形態によれば、雑音抑圧処理や指向性受音処理等の音声信号処理によって生じる雑音歪及び音声歪を主観評価に近い値として算出することができる。これにより、時間とコストのかかる主観評価試験を行うことなく、音声品質の評価を短時間で行うことができる。

また、本実施の形態の音声信号処理評価処理は、音声信号処理の評価試験のみならず、雑音抑圧量の向上や音質向上を目指す場合の音声信号処理のチューニングツールに組み込むことができる。また、本実施の形態の音声信号処理評価処理は、リアルタイムで音声信号処理評価処理結果を学習しながらパラメータを変更する雑音抑圧装置に、組み込むことができる。また、本実施の形態の音声信号処理評価処理は、雑音環境測定評価ツールに適用することができる。また、本実施の形態の音声信号処理評価処理は、雑音環境を測定した結果を基に最適な雑音抑圧処理を選択する雑音抑圧装置に組み込むことができる。

なお、本発明は以下に示すようなコンピュータシステムにおいて適用可能である。図１２は、本発明が適用されるコンピュータシステムの一例を示す図である。この図に示すコンピュータシステム９００は、ＣＰＵやディスクドライブ等を内蔵した本体部９０１、本体部９０１からの指示により画像を表示するディスプレイ９０２、コンピュータシステム９００に種々の情報を入力するためのキーボード９０３、ディスプレイ９０２の表示画面９０２ａ上の任意の位置を指定するマウス９０４及び外部のデータベース等にアクセスして他のコンピュータシステムに記憶されているプログラム等をダウンロードする通信装置９０５を有する。通信装置９０５は、ネットワーク通信カード、モデムなどが考えられる。

上述したような、音声信号処理評価装置を構成するコンピュータシステムにおいて上述した各ステップを実行させるプログラムを、音声信号処理評価プログラムとして提供することができる。このプログラムは、コンピュータシステムにより読み取り可能な記録媒体に記憶させることによって、音声信号処理評価装置を構成するコンピュータシステムに実行させることが可能となる。上述した各ステップを実行するプログラムは、ディスク９１０等の可搬型記録媒体に格納されるか、通信装置９０５により他のコンピュータシステムの記録媒体９０６からダウンロードされる。また、コンピュータシステム９００に少なくとも音声信号処理評価機能を持たせる音声信号処理評価プログラムは、コンピュータシステム９００に入力されてコンパイルされる。このプログラムは、コンピュータシステム９００を、音声信号処理評価機能を有する音声信号処理評価システムとして動作させる。また、このプログラムは、例えばディスク９１０等のコンピュータ読み取り可能な記録媒体に格納されていても良い。ここで、コンピュータシステム９００により読み取り可能な記録媒体としては、ＲＯＭやＲＡＭ等のコンピュータに内部実装される内部記憶装置、ディスク９１０やフレキシブルディスク、ＤＶＤディスク、光磁気ディスク、ＩＣカード等の可搬型記憶媒体や、コンピュータプログラムを保持するデータベース、或いは、他のコンピュータシステム並びにそのデータベースや、通信装置９０５のような通信手段を介して接続されるコンピュータシステムでアクセス可能な各種記録媒体を含む。

本発明は、その精神または主要な特徴から逸脱することなく、他の様々な形で実施することができる。そのため、前述の実施の形態は、あらゆる点で単なる例示に過ぎず、限定的に解釈してはならない。本発明の範囲は、特許請求の範囲によって示すものであって、明細書本文には、何ら拘束されない。更に、特許請求の範囲の均等範囲に属する全ての変形、様々な改良、代替および改質は、全て本発明の範囲内のものである。

以上の実施の形態に関し、更に以下の付記を開示する。
（付記１）
音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムをコンピュータにより読取可能に記録した媒体であって、
前記音声信号処理への入力の時間波形である第１波形と前記音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、
前記複数のフレームから、前記第１波形及び前記第２波形に所定の音声が存在するフレームである音声フレームと前記第１波形及び前記第２波形に前記所定の音声が存在しないフレームである雑音フレームとを検出し、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第１波形のスペクトルである第１スペクトルと前記第２波形のスペクトルである第２スペクトルとを算出し、
前記雑音フレームにおける第１スペクトルのレベルと第２スペクトルのレベルとが等しくなるように前記雑音フレームの第１スペクトル又は前記雑音フレームの第２スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第３スペクトル及び前記雑音フレームの第４スペクトルとし、
前記雑音フレームの第３スペクトルと前記雑音フレームの第４スペクトルとに基づいて、前記雑音フレームの歪量を算出し、
第１スペクトル又は第２スペクトルを第５スペクトルとし、前記雑音フレームの第５スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、
前記音声フレームの第５スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、
前記選択周波数における前記音声フレームの第１スペクトルと前記音声フレームの第２スペクトルとに基づいて、前記音声フレームの歪量を算出する、
ことをコンピュータに実行させる音声信号処理評価プログラムを記録した媒体。
（付記２）
前記雑音フレームの第４スペクトルから前記雑音フレームの第３スペクトルを減算して前記雑音フレームの差分スペクトルとし、前記雑音フレームの第３スペクトルと該差分スペクトルとに基づいて前記雑音フレームの歪量を算出する、
付記１に記載の音声信号処理評価プログラムを記録した媒体。
（付記３）
前記雑音フレームの第３スペクトルのパワーに対する前記雑音フレームの差分スペクトルのパワーの比に基づいて、前記雑音フレームの歪量を算出する、
付記２に記載の音声信号処理評価プログラムを記録した媒体。
（付記４）
前記雑音フレームの第３スペクトルのパワーに対する前記雑音フレームの差分スペクトルのパワーの比のスペクトルを算出し、該スペクトルを所定の帯域に亘って平均した値に基づいて、前記雑音フレームの歪量を算出する、
付記３に記載の音声信号処理評価プログラム。
（付記５）
前記雑音フレームの差分スペクトルの虚数部が所定の虚数部閾値を上回る場合、前記雑音フレームの第４スペクトルのパワーから前記雑音フレームの第３スペクトルのパワーを減算して前記雑音フレームの差分スペクトルのパワーとする、
付記４に記載の音声信号処理評価プログラムを記録した媒体。
（付記６）
前記音声フレームにおける第１スペクトルのレベルが、前記雑音モデルスペクトルのレベルに所定のマージンを加算したレベルより大きくなる周波数を、選択して前記選択周波数とする、
付記１に記載の音声信号処理評価プログラムを記録した媒体。
（付記７）
前記音声フレームの直前の雑音フレームの第５スペクトルと前記音声フレームの直後の雑音フレームの第５スペクトルとに基づいて、前記雑音モデルスペクトルを推定する、
付記１に記載の音声信号処理評価プログラムを記録した媒体。
（付記８）
前記音声フレームの直前の雑音フレームの第５スペクトルのパワーと前記音声フレームの直後の雑音フレームの第５スペクトルのパワーとを直線内挿することにより、前記雑音モデルスペクトルのパワーを算出する、
付記７に記載の音声信号処理評価プログラムを記録した媒体。
（付記９）
更に、前記音声フレームにおける第１スペクトルのレベルと第２スペクトルのレベルとが等しくなるように前記音声フレームの第１スペクトル又は前記音声フレームの第２スペクトルのレベル調整を行って、それぞれ前記音声フレームの第３スペクトル及び前記雑音フレームの第４スペクトルとし、
前記選択周波数における前記音声フレームの第３スペクトルと前記音声フレームの第４スペクトルとに基づいて、前記音声フレームの歪量を算出する、
付記１に記載の音声信号処理評価プログラムを記録した媒体。
（付記１０）
前記音声フレームの第４スペクトルから前記音声フレームの第３スペクトルを減算して前記音声フレームの差分スペクトルとし、前記音声フレームの第３スペクトルと該差分スペクトルとに基づいて前記音声フレームの歪量を算出する、
付記１に記載の音声信号処理評価プログラムを記録した媒体。
（付記１１）
前記音声フレームの第３スペクトルのパワーに対する前記音声フレームの差分スペクトルのパワーの比に基づいて、前記音声フレームの歪量を算出する、
付記１０に記載の音声信号処理評価プログラムを記録した媒体。
（付記１２）
前記音声フレームの第３スペクトルのパワーに対する前記音声フレームの差分スペクトルのパワーの比のスペクトルを算出し、該スペクトルに重み付けを行って前記選択周波数の全てに亘って平均した値に基づいて、前記音声フレームの歪量を算出する、
付記１１に記載の音声信号処理評価プログラムを記録した媒体。
（付記１３）
前記重み付けは、聴覚特性に基づく、
付記１２に記載の音声信号処理評価プログラムを記録した媒体。
（付記１４）
前記音声フレームの差分スペクトルの虚数部が所定の虚数部閾値を上回る場合、前記音声フレームの第４スペクトルのパワーから前記音声フレームの第３スペクトルのパワーを減算して前記音声フレームの差分スペクトルのパワーとする、
付記１２に記載の音声信号処理評価プログラムを記録した媒体。
（付記１５）
更に、全ての前記雑音フレームの歪量の平均値と全ての前記音声フレームの歪量の平均値とを算出する、
付記１に記載の音声信号処理評価プログラムを記録した媒体。
（付記１６）
更に、前記音声フレーム及び前記雑音フレームのそれぞれについて、前記時間軸と算出された歪量とを対応付けて表示する、
付記１に記載の音声信号処理評価プログラムを記録した媒体。
（付記１７）
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第１波形のフーリエ変換を行うことにより前記第１スペクトルを算出すると共に、前記第２波形のフーリエ変換を行うことにより前記第２スペクトルとを算出する、
付記１に記載の音声信号処理評価プログラムを記録した媒体。
（付記１８）
音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムをコンピュータにより読取可能に記録した媒体であって、
前記音声信号処理への入力の時間波形である第１波形と前記音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、
前記複数のフレームから、前記第１波形及び前記第２波形に所定の音声が存在しないフレームである雑音フレームを検出し、
前記雑音フレームのそれぞれについて、前記第１波形のスペクトルである第１スペクトルと前記第２波形のスペクトルである第２スペクトルとを算出し、
前記雑音フレームにおける第１スペクトルのレベルと第２スペクトルのレベルとが等しくなるように前記雑音フレームの第１スペクトル又は前記雑音フレームの第２スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第３スペクトル及び前記雑音フレームの第４スペクトルとし、
前記雑音フレームの第３スペクトルと前記雑音フレームの第４スペクトルとに基づいて、前記雑音フレームの歪量を算出する、
ことをコンピュータに実行させる音声信号処理評価プログラムを記録した媒体。
（付記１９）
音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムをコンピュータにより読取可能に記録した媒体であって、
前記音声信号処理への入力の時間波形である第１波形と前記音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、
前記複数のフレームから、前記第１波形及び前記第２波形に所定の音声が存在するフレームである音声フレームと前記第１波形及び前記第２波形に前記所定の音声が存在しないフレームである雑音フレームとを検出し、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第１波形のスペクトルである第１スペクトルと前記第２波形のスペクトルである第２スペクトルとを算出し、
第１スペクトル又は第２スペクトルを第５スペクトルとし、前記雑音フレームの第５スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、
前記音声フレームの第５スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、
前記選択周波数における前記音声フレームの第１スペクトルと前記音声フレームの第２スペクトルとに基づいて、前記音声フレームの歪量を算出する、
ことをコンピュータに実行させる音声信号処理評価プログラムを記録した媒体。

また、以上の実施の形態に関し、更に音声信号処理評価装置の請求項に対応する以下の付記を開示する。
（付記２０）
音声信号処理の評価を行う音声信号処理評価装置であって、
前記音声信号処理への入力の時間波形である第１波形と前記音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、
前記複数のフレームから、前記第１波形及び前記第２波形に所定の音声が存在するフレームである音声フレームと前記第１波形及び前記第２波形に前記所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第１波形のスペクトルである第１スペクトルと前記第２波形のスペクトルである第２スペクトルとを算出するスペクトル算出部と、
前記雑音フレームにおける第１スペクトルのレベルと第２スペクトルのレベルとが等しくなるように前記雑音フレームの第１スペクトル又は前記雑音フレームの第２スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第３スペクトル及び前記雑音フレームの第４スペクトルとするレベル調整部と、
前記雑音フレームの第４スペクトルから前記雑音フレームの第３スペクトルを減算して前記雑音フレームの差分スペクトルとし、前記雑音フレームの第３スペクトルと該差分スペクトルとに基づいて前記雑音フレームの歪量を算出する第１歪量算出部と、
第１スペクトル又は第２スペクトルを第５スペクトルとし、前記雑音フレームの第５スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、
前記音声フレームの第５スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、
前記選択周波数における前記音声フレームの第１スペクトルと前記音声フレームの第２スペクトルとに基づいて、前記音声フレームの歪量を算出する第２歪量算出部と、
を備える音声信号処理評価装置。
（付記２１）
音声信号処理の評価を行う音声信号処理評価装置であって、
前記音声信号処理への入力の時間波形である第１波形と前記音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、
前記複数のフレームから、前記第１波形及び前記第２波形に所定の音声が存在しないフレームである雑音フレームを検出する検出部と、
前記雑音フレームのそれぞれについて、前記第１波形のスペクトルである第１スペクトルと前記第２波形のスペクトルである第２スペクトルとを算出するスペクトル算出部と、
前記雑音フレームにおける第１スペクトルのレベルと第２スペクトルのレベルとが等しくなるように前記雑音フレームの第１スペクトル又は前記雑音フレームの第２スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第３スペクトル及び前記雑音フレームの第４スペクトルとするレベル調整部と、
前記雑音フレームの第４スペクトルから前記雑音フレームの第３スペクトルを減算して前記雑音フレームの差分スペクトルとし、前記雑音フレームの第３スペクトルと該差分スペクトルとに基づいて前記雑音フレームの歪量を算出する第１歪量算出部と、
を備える音声信号処理評価装置。
（付記２２）
音声信号処理の評価を行う音声信号処理評価装置であって、
前記音声信号処理への入力の時間波形である第１波形と前記音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、
前記複数のフレームから、前記第１波形及び前記第２波形に所定の音声が存在するフレームである音声フレームと前記第１波形及び前記第２波形に前記所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第１波形のスペクトルである第１スペクトルと前記第２波形のスペクトルである第２スペクトルとを算出するスペクトル算出部と、
第１スペクトル又は第２スペクトルを第５スペクトルとし、前記雑音フレームの第５スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、
前記音声フレームの第５スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、
前記選択周波数における前記音声フレームの第１スペクトルと前記音声フレームの第２スペクトルとに基づいて、前記音声フレームの歪量を算出する第２歪量算出部と、
を備える音声信号処理評価装置。

本実施の形態の音声信号処理評価装置の構成の一例を示すブロック図である。本実施の形態の音声信号処理評価プログラムの構成の一例を示すブロック図である。本発明に係る音声信号処理評価処理の一例を示すフローチャートである。本実施の形態の対象音波形における音声区間及び雑音区間の一例を示すラベルデータと波形図である。本実施の形態の平均減衰量の算出方法の一例を示す式である。本実施の形態の雑音区間における原音パワースペクトル及び対象音パワースペクトルの一例を示すパワースペクトル図である。本実施の形態の雑音区間における正規化原音パワースペクトル及び対象音パワースペクトルの一例を示すパワースペクトル図である。本実施の形態の差分スペクトルの虚数部が虚数部閾値以上である場合の差分パワースペクトルの算出式の一例を示す式である。本実施の形態の選択音声区間とその前後の雑音区間とにおける原音波形の一例を示す波形図である。本実施の形態の音声区間における原音パワースペクトルと雑音モデルパワースペクトルの一例を示すパワースペクトル図である。本実施の形態の原音波形と対象音波形と歪量時間変化の一例を示す波形図である。本発明が適用されるコンピュータシステムの一例を示す図である。

符号の説明

１音声信号処理評価装置、１１ＣＰＵ、１２記憶部、１３操作部、１４表示部、２１区間抽出部、２２スペクトル算出部、２３減衰量算出部、２４フレーム制御部、２５正規化部、２６歪量算出部、２７可視化部、４１雑音モデル推定部、４２周波数選択部。

Claims

音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムであって、
前記音声信号処理への入力の時間波形である第１波形と前記音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、
前記複数のフレームから、前記第１波形及び前記第２波形に所定の音声が存在するフレームである音声フレームと前記第１波形及び前記第２波形に前記所定の音声が存在しないフレームである雑音フレームとを検出し、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第１波形のスペクトルである第１スペクトルと前記第２波形のスペクトルである第２スペクトルとを算出し、
前記雑音フレームにおける第１スペクトルのレベルと第２スペクトルのレベルとが等しくなるように前記雑音フレームの第１スペクトル又は前記雑音フレームの第２スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第３スペクトル及び前記雑音フレームの第４スペクトルとし、
前記雑音フレームの第３スペクトルと前記雑音フレームの第４スペクトルとに基づいて、前記雑音フレームの歪量を算出し、
第１スペクトル又は第２スペクトルを第５スペクトルとし、前記雑音フレームの第５スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、
前記音声フレームの第５スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、
前記選択周波数における前記音声フレームの第１スペクトルと前記音声フレームの第２スペクトルとに基づいて、前記音声フレームの歪量を算出する、
ことをコンピュータに実行させる音声信号処理評価プログラム。
前記雑音フレームの第４スペクトルから前記雑音フレームの第３スペクトルを減算して前記雑音フレームの差分スペクトルとし、前記雑音フレームの第３スペクトルと該差分スペクトルとに基づいて前記雑音フレームの歪量を算出する、
請求項１に記載の音声信号処理評価プログラム。
前記雑音フレームの第３スペクトルのパワーに対する前記雑音フレームの差分スペクトルのパワーの比に基づいて、前記雑音フレームの歪量を算出する、
請求項２に記載の音声信号処理評価プログラム。
前記音声フレームにおける第１スペクトルのレベルが、前記雑音モデルスペクトルのレベルに所定のマージンを加算したレベルより大きくなる周波数を、選択して前記選択周波数とする、
請求項１に記載の音声信号処理評価プログラム。
更に、前記音声フレームにおける第１スペクトルのレベルと第２スペクトルのレベルとが等しくなるように前記音声フレームの第１スペクトル又は前記音声フレームの第２スペクトルのレベル調整を行って、それぞれ前記音声フレームの第３スペクトル及び前記雑音フレームの第４スペクトルとし、
前記選択周波数における前記音声フレームの第３スペクトルと前記音声フレームの第４スペクトルとに基づいて、前記音声フレームの歪量を算出する、
請求項１に記載の音声信号処理評価プログラム。
音声信号処理の評価をコンピュータに実行させる音声信号処理評価プログラムであって、
前記音声信号処理への入力の時間波形である第１波形と前記音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定し、
前記複数のフレームから、前記第１波形及び前記第２波形に所定の音声が存在するフレームである音声フレームと前記第１波形及び前記第２波形に前記所定の音声が存在しないフレームである雑音フレームとを検出し、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第１波形のスペクトルである第１スペクトルと前記第２波形のスペクトルである第２スペクトルとを算出し、
第１スペクトル又は第２スペクトルを第５スペクトルとし、前記雑音フレームの第５スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定し、
前記音声フレームの第５スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とし、
前記選択周波数における前記音声フレームの第１スペクトルと前記音声フレームの第２スペクトルとに基づいて、前記音声フレームの歪量を算出する、
ことをコンピュータに実行させる音声信号処理評価プログラム。
音声信号処理の評価を行う音声信号処理評価装置であって、
前記音声信号処理への入力の時間波形である第１波形と前記音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、
前記複数のフレームから、前記第１波形及び前記第２波形に所定の音声が存在するフレームである音声フレームと前記第１波形及び前記第２波形に前記所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第１波形のスペクトルである第１スペクトルと前記第２波形のスペクトルである第２スペクトルとを算出するスペクトル算出部と、
前記雑音フレームにおける第１スペクトルのレベルと第２スペクトルのレベルとが等しくなるように前記雑音フレームの第１スペクトル又は前記雑音フレームの第２スペクトルのレベル調整を行って、それぞれ前記雑音フレームの第３スペクトル及び前記雑音フレームの第４スペクトルとするレベル調整部と、
前記雑音フレームの第４スペクトルから前記雑音フレームの第３スペクトルを減算して前記雑音フレームの差分スペクトルとし、前記雑音フレームの第３スペクトルと該差分スペクトルとに基づいて前記雑音フレームの歪量を算出する第１歪量算出部と、
第１スペクトル又は第２スペクトルを第５スペクトルとし、前記雑音フレームの第５スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、
前記音声フレームの第５スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、
前記選択周波数における前記音声フレームの第１スペクトルと前記音声フレームの第２スペクトルとに基づいて、前記音声フレームの歪量を算出する第２歪量算出部と、
を備える音声信号処理評価装置。
音声信号処理の評価を行う音声信号処理評価装置であって、
前記音声信号処理への入力の時間波形である第１波形と前記音声信号処理からの出力の時間波形である第２波形との共通の時間軸において、所定の期間を有する複数のフレームを設定するフレーム設定部と、
前記複数のフレームから、前記第１波形及び前記第２波形に所定の音声が存在するフレームである音声フレームと前記第１波形及び前記第２波形に前記所定の音声が存在しないフレームである雑音フレームとを検出する検出部と、
前記音声フレーム及び前記雑音フレームのそれぞれについて、前記第１波形のスペクトルである第１スペクトルと前記第２波形のスペクトルである第２スペクトルとを算出するスペクトル算出部と、
第１スペクトル又は第２スペクトルを第５スペクトルとし、前記雑音フレームの第５スペクトルに基づいて、雑音モデルのスペクトルである雑音モデルスペクトルを推定する雑音モデル推定部と、
前記音声フレームの第５スペクトルのレベルと前記雑音モデルスペクトルのレベルとの比較に基づいて、周波数を選択して選択周波数とする周波数選択部と、
前記選択周波数における前記音声フレームの第１スペクトルと前記音声フレームの第２スペクトルとに基づいて、前記音声フレームの歪量を算出する第２歪量算出部と、
を備える音声信号処理評価装置。