JP2022036862A

JP2022036862A - 音声客観評価装置及びそのプログラム

Info

Publication number: JP2022036862A
Application number: JP2020141288A
Authority: JP
Inventors: 知美小倉; Tomomi Ogura
Original assignee: Nippon Hoso Kyokai NHK; Japan Broadcasting Corp
Current assignee: Japan Broadcasting Corp
Priority date: 2020-08-24
Filing date: 2020-08-24
Publication date: 2022-03-08

Abstract

【課題】任意の音声符号化方式の圧縮符号化音の再生信号について、非圧縮音の再生信号と比較してより近い客観評価値を取得可能とする音声客観評価装置及びそのプログラムを提供する。【解決手段】本発明の音声客観評価装置１は、客観評価の分析対象とする圧縮符号化音の再生信号と、これに対応する非圧縮音の再生信号とを入力し、一定時間毎に圧縮符号化音と非圧縮音のそれぞれの再生信号を切り出し、機械学習用の聴覚モデルに則して当該非圧縮音と圧縮符号化音を比較して得られる差分周波数スペクトルについてグルーピングした所定個の臨界帯域毎に、エネルギーの差とマスキング量の比で表される聴覚歪特性データを少なくとも算出する分析部１１、及び主観評価値を教示データとして事前学習済みのニューラルネットワークで構成され、当該聴覚歪特性データを基に当該圧縮符号化音に関する客観評価値を算出して外部出力する認識モデル部１２を備える。【選択図】図１

Description

本発明は、非圧縮音との比較により所定の音声符号化方式の圧縮符号化音の再生信号について客観評価する音声客観評価装置及びそのプログラムに関する。

通常、圧縮符号化音の基本音声品質（音色、Ｓ／Ｎ，周波数帯域、ラウドネス等）を評価するには主観評価実験を行う。主観評価法は国際標準化されており、隠れ基準付き三刺激二重盲検法やＭＵＳＨＲＡ（MUlti Stimulus test with Hidden Reference and Anchor）などがある（例えば、非特許文献１，２参照）。しかし、主観評価実験を行うには十分な数の評定者を集め、圧縮符号化音の評価トレーニングを行い、耳を休めるための休憩も挟みながら本実験を行うことから、音声品質の評価に係る時間やコストが高くなる。

そこで、主観評価実験を行う前の事前の条件選定時やおおよその品質を調査する際には客観的に基本音声品質を評価する客観評価手法が用いられる。音声信号全般の客観評価法についてはＰＥＡＱ（Perceptual Evaluation of Audio Quality）が国際標準化され（例えば、非特許文献３参照）、更に、人の声を主な対象にした音声信号の客観評価法についてはＰＥＳＱが国際標準化されている（例えば、非特許文献４参照）。

ＰＥＡＱでは聴覚抹消系を模擬した聴覚歪特性を入力としたニューラルネットワークを用いて客観評価を行う。通常はこの標準化された手法を用いて客観評価を行うが、これらは２０００年頃に標準化されたもので、近年新たに開発された高域成分を帯域拡張する手法を用いた符号化方式では従来の手法では客観評価と主観評価の差が大きく十分な対応がとれなくなっていることが知られている（例えば、非特許文献５参照）。

従って、帯域拡張技術が入った新しい符号化方式にも対応した客観評価を効率的に行うためには、ニューラルネットワークの入力である聴覚歪特性も新しい符号化方式に対応したものとすることが求められている。

Recommendation ITU-R BS.1116-3, "Methods for the subjective assessment of small impairments in audio systems" (2015) Recommendation ITU-R BS.1534 -3, "Method for the subjective assessment of intermediate quality level of audio systems" (2015) Recommendation ITU-R BS. 1387-1, "Method for objective measurements of perceived audio quality" (2001) Recommendation ITU-T P.862, "Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs" 小森智康，ワンセグ及びメモリオーディオの音質評価，日本音響学会誌vol.63 no.11 (2007) pp.674-679

上述したように、音声信号の基本音声品質を評価する場合、通常は主観評価実験により評価を行うが、音声符号化音の主観評価実験を行う場合は時間やコストがかかるため、客観評価で代用することがある。これまでに客観評価手法については標準化もされているが、標準化後に規格化された近年の音声符号化方式による音声符号化音では主観評価値と客観評価値に大きな差があり、従来通りに客観評価で代用することが難しい。

そして、従来の客観評価手法では最新の符号化方式（本願出願時点を基準として最新とする音声圧縮符号化方式）による符号化音の主観評価と差が大きく十分な対応がとれないという問題がある。このため、最新の符号化方式による符号化音についても主観評価に近い客観評価法が望まれる。

そこで、本発明の目的は、上述の問題に鑑みて、任意の音声符号化方式の圧縮符号化音の再生信号について、非圧縮音の再生信号と比較してより近い客観評価値を取得可能とする音声客観評価装置及びそのプログラムを提供することにある。

本発明に係る音声客観評価装置は、聴覚モデルに則して算出した非圧縮音の再生信号と圧縮符号化音の再生信号について、その差分周波数スペクトラムの臨界帯域別のエネルギー差とマスキング量の比を聴覚歪特性データとして新たに利用し、より好適には従来用いられてきたその他の聴覚歪特性データと合わせてニューラルネットワークを構成する。本発明に係る音声客観評価装置は、主観評価値を教示データとして予め機械学習を行い、未知の非圧縮音の再生信号と比較して、評価対象の圧縮符号化音の再生信号の客観評価値を導出して出力する。

即ち、本発明の音声客観評価装置は、非圧縮音との比較により所定の音声符号化方式の圧縮符号化音の再生信号について客観評価する音声客観評価装置であって、客観評価の分析対象とする圧縮符号化音の再生信号と、当該圧縮符号化音に対応する非圧縮音の再生信号とを入力し、一定時間毎に圧縮符号化音と非圧縮音のそれぞれの再生信号を切り出し、予め用意された機械学習用の聴覚モデルに則して当該非圧縮音と圧縮符号化音を比較して得られる差分周波数スペクトルについてグルーピングした所定個の臨界帯域毎に、エネルギーの差とマスキング量の比で表される聴覚歪特性データを少なくとも算出する分析部と、事前の主観評価実験による主観評価値を教示データとして学習を行ったニューラルネットワークで構成され、前記分析部から入力される聴覚歪特性データを基に、前記客観評価の分析対象とした圧縮符号化音に関する客観評価値を算出して外部出力する認識モデル部と、を備えることを特徴とする。

また、本発明の音声客観評価装置において、前記分析部は、前記聴覚歪特性データとして、少なくとも１つ以上の臨界帯域でエネルギーの差とマスキング量の比が１以上となるサンプリングブロックを算出対象とし、当該サンプリングブロックの平均値、又は第３四分位点の統計値を、前記認識モデル部に出力することを特徴とする。

また、本発明の音声客観評価装置において、前記分析部は、当該差分周波数スペクトルの全てのスペクトルピークを持つ高調波歪を対象とし、当該差分周波数スペクトルの局所極大値が所定の閾値以上となる最小周波数の局所極大値とその他の周波数の局所極大値の割合を示す当該差分周波数スペクトルの歪率に関する聴覚歪特性データを更に算出し、前記認識モデル部に出力することを特徴とする。

また、本発明の音声客観評価装置において、前記分析部は、ＰＥＡＱ（Perceptual Evaluation of Audio Quality）による聴覚歪特性データを更に算出し、前記認識モデル部に出力することを特徴とする。

更に、本発明のプログラムは、コンピューターを、本発明の音声客観評価装置として機能させるためのプログラムとして構成する。

本発明によれば、従来用いられてきた音声客観評価方式よりも、最新の音声符号化方式を含む任意の音声符号化方式の圧縮符号化音の再生信号について主観評価値に近い主観評価値を得ることができる。このため、主観評価実験の時間やコストを省力化することができる。

本発明による一実施形態の音声客観評価装置の概略構成を示すブロック図である。本発明による一実施形態の音声客観評価装置における分析部の処理を示すフローチャートである。本発明による一実施形態の音声客観評価装置に係る差分周波数スペクトルを例示する図である。（ａ）,（ｂ）は、それぞれ女性歌声に関する従来法による主観評価結果及び客観評価結果を示す図であり、（ｃ）,（ｄ）は、それぞれ打楽器に関する従来法による主観評価結果及び客観評価結果を示す図である。（ａ）,（ｂ）は、それぞれ本発明による一実施形態の音声客観評価装置による女性歌声及び打楽器に関する客観評価結果を、従来法と対比して示す図である。

以下、図面を参照して、本発明による一実施形態の音声客観評価装置１の構成について説明する。図１は、本発明による一実施形態の音声客観評価装置１の概略構成を示すブロック図である。図１に示す音声客観評価装置１は、分析部１０と、認識モデル部１１と、を備える。

分析部１０は、客観評価の分析対象とする圧縮符号化音（test）の再生信号と、これに対応する非圧縮音（ref）の再生信号とを入力し、一定時間毎に圧縮符号化音と非圧縮音のそれぞれの再生信号を切り出し、予め用意された機械学習用の聴覚モデルに則して当該非圧縮音と圧縮符号化音を比較して、本例ではＰＥＡＱによる第１の聴覚歪特性データ（Bandwidth_test, Bandwidth_ref）と、詳細に後述する差分周波数スペクトラムの歪率に関する第２の聴覚歪特性データ（EHS new）と、詳細に後述する差分周波数スペクトルについてグルーピングしたｎ（ｎは１以上の整数）個の臨界帯域毎の、エネルギーの差とマスキング量の比で表される第３の聴覚歪特性データ（NMR new）と、を算出して認識モデル部１１に出力する。

認識モデル部１１は、主観評価値格納部２から得られる事前の主観評価実験による主観評価値を教示データとして学習を行ったニューラルネットワークで構成され、分析部１０から入力される各聴覚歪特性データを基に、客観評価の分析対象とした圧縮符号化音（test）に関する客観評価値を算出して外部出力する。

尚、主観評価値格納部２は、事前の主観評価実験用の圧縮符号化音の再生信号と、これに対応する非圧縮音の再生信号とを用いた事前の主観評価実験による主観評価値を格納している。尚、主観評価値格納部２に格納する主観評価値を得るための主観評価実験は、非特許文献１に開示されるものとした。

以下、より具体的に、分析部１０及び認識モデル部１１の各処理について、順に説明する。

（分析部の処理）
図２は、本発明による一実施形態の音声客観評価装置１における分析部１０の処理を示すフローチャートである。

まず、分析部１０は、客観評価の分析対象とする圧縮符号化音 (test)と、これに対応する非圧縮音 (ref)の各再生信号を入力する（ステップＳ１）。

続いて、分析部１０は、当該圧縮符号化音 (test)と、これに対応する非圧縮音 (ref)の各再生信号に対し閾値判定による切り出し処理の実行する（ステップＳ２）。より具体的には、分析部１０は、分析前のデータ処理として、当該圧縮符号化音 (test)の再生信号の振幅が所定の閾値よりも小さい場合には分析はせず、その所定の閾値よりも大きい場合に分析対象とするよう、当該圧縮符号化音 (test)と、これに対応する非圧縮音 (ref)の各再生信号に対して一定時間毎に切り出す処理を行う。例えば４８０００Ｈｚサンプリングの入力音声信号に対して２０４８サンプル毎に、１０２４サンプルのオーバーラップを行って切り出す。

続いて、分析部１０は、切り出し処理後の各再生信号を窓単位の周波数の信号に変換する（ステップＳ３）。より具体的には、分析部１０は、切り出し処理後の分析対象とした当該圧縮符号化音 (test)と非圧縮音 (ref)の各各再生信号にハニング窓をかけて、そのハニング窓単位で、圧縮符号化音と非圧縮音の各再生信号について、それぞれ本例ではＦＦＴ変換を施して周波数領域の信号に変換する。周波数領域への変換はＦＦＴ変換ではなく、ＭＤＣＴ変換など他の手法を用いてもよい。

続いて、分析部１０は、当該圧縮符号化音 (test)と非圧縮音 (ref)の周波数変換後の各信号に対し所定の閾値を超える最大周波数を基に、ＰＥＡＱによる第１の聴覚歪特性データ(Bandwidth_test, Bandwidth_ref)を算出する（ステップＳ４）。より具体的には、分析部１０は、当該圧縮符号化音 (test)と非圧縮音 (ref)の周波数変換後の各信号のそれぞれについて、所定の閾値（例えば２０ｋＨｚのパワースペクトルに対して１０ｄＢ大きくなる値）を超える最大周波数を算出し、従来法のＰＥＡＱと同様とする第１の聴覚歪特性データを算出する。ここで、当該圧縮符号化音 (test)に関する第１の聴覚歪特性データをBandwidth_test、非圧縮音 (ref)に関する第１の聴覚歪特性データをBandwidth_refとする。

続いて、分析部１０は、当該圧縮符号化音 (test)と非圧縮音 (ref)の周波数変換後の各信号に対し外耳・中耳を模擬した周波数の重みづけを行い、重みづけを行った周波数変換後の各信号の差分をとり、差分周波数スペクトルを算出する（ステップＳ５）。より具体的には、分析部１０は、当該圧縮符号化音 (test)と非圧縮音 (ref)の周波数変換後の各信号について、聴覚抹消系を模擬するため、例えば式（１）に示す従来法のＰＥＡＱの通り、外耳・中耳を模擬した周波数の重みづけを行う。

ここで、式（１）において、ｋは周波数領域のインデックスであり、Fresは周波数分解能である。そして、分析部１０は、周波数の重みづけを行った周波数変換後の圧縮符号化音と非圧縮音の各信号の差分をとることで、差分周波数スペクトルを算出する。

続いて、分析部１０は、差分周波数スペクトルの局所極大値が所定の閾値以上となるスペクトルを用いて、当該差分周波数スペクトルの歪率に関する第２の聴覚歪特性データ(EHS new)を算出する（ステップＳ６）。より具体的には、分析部１０は、差分周波数スペクトルの局所極大値が所定の閾値以上（例えば、１０ｄＢ以上）となる最小周波数の局所極大値とその他の周波数の局所極大値の割合を示す当該差分周波数スペクトルの歪率に関する第２の聴覚歪特性データとして、式（２）に示すEHS newを算出する。

ここで、Ｖ_１は、差分周波数スペクトルの局所極大値が所定の閾値以上（例えば、１０ｄＢ以上）となる最小周波数のスペクトル振幅値である。また、Ｖ_ｉは、その他の周波数の局所極大値、即ちＶ_１を除く差分周波数スペクトルの局所極大値が所定の閾値以上（例えば、１０ｄＢ以上）となるスペクトル振幅値である。尚、Ｖ_ｉの周波数はＶ_１の整数倍である必要はない。

ところで、従来法のEHSの聴覚歪特性データでは、差分周波数スペクトルをＦ_０とし、振幅値Ｖ_１のスペクトルをＦ_１とすると、まず、Ｆ_０とＦ_１の自己相関関数Ｃを式（３）により求める。

そして、従来法のEHSの聴覚歪特性データでは、式（４）に示すように、自己相関関数Ｃにハン窓（関数hann(C)）をかけてフーリエ変換を行う。

そして、従来法では、式（４）に示すフーリエ変換の結果であるスペクトル値の最大値の１０００倍をEHSの聴覚歪特性データとしている。この従来法の聴覚歪特性データ（EHS）では、差分周波数スペクトルの周期性を計算しており、整数倍の調波構造のみが考慮されていた。一方、本実施形態の音声客観評価装置１は、第２の聴覚歪特性データとして、式（２）に示すEHS newを算出し、この第２の聴覚歪特性データ（EHS new）では整数倍の調波構造だけでなく、全てのスペクトルピークを持つ高調波歪を計算することになる。即ち、本実施形態では、整数倍でないスペクトルによる聴覚歪も考慮した全体の聴覚歪特性とすることができる。

例えば、図３は、本発明による一実施形態の音声客観評価装置１に係る差分周波数スペクトルを例示する図である。差分周波数スペクトルが図３に示すように、整数倍の調波構造でない場合、従来法のEHSの聴覚歪特性データでは式（４）からEHS＝０．０２２８と小さい値となるが、実際にはスペクトルピークが複数たっており高調波歪を生じさせている。この状態は聴感上耳につきやすいノイズとなるため、主観値と客観値が異なる要因となり得る。そこで、本実施形態の音声客観評価装置１では、式（２）に示すEHS newを算出し、整数倍でない全てのスペクトルピークを持つ高調波歪も考慮するものとなるため、EHS new＝６．９と高くなり、主観評価値に合致させるのに効率的なパラメータとなる。

続いて、分析部１０は、差分周波数スペクトルを臨界帯域にグルーピングし（ステップＳ７）、差分周波数スペクトルについてグルーピングしたｎ個の臨界帯域毎に、エネルギーの差と、マスキング量の比で表される第３の聴覚歪特性データ(NMR new)を算出する（ステップＳ８）。より具体的には、分析部１０は、差分周波数スペクトルについて、例えばバーク尺度で１／４Ｂａｒｋスケールのバンド幅にグルーピングし、所定個（例えば１０９個）の臨界帯域に分割する。

そして、分析部１０は、予め定めたバンド幅でサンプリングしたサンプル数（例えば２０４８サンプル）のブロック（以下、「サンプリングブロック」と称する。）毎に、学習用の聴覚モデルに則して算出した非圧縮音（ref）と圧縮符号化音（test）についての臨界帯域別のエネルギーの差とマスキング量Mask（圧縮符号化音において、マスキングによって聴感上気にならないとされるレベル）との比を、式（５）のように算出する。マスキング量Maskは、従来法ＰＥＡＱと同様に算出する。

ここで、Eptstは１／４Ｂａｒｋスケールにグルーピングした圧縮符号化音のエネルギー、Eprefは１／４Ｂａｒｋスケールにグルーピングした非圧縮符号化音のエネルギー、ｎは２０４８サンプル毎の時系列ブロックのインデックス、kzは１／４Ｂａｒｋスケールの周波数領域のインデックスである。

尚、式（５）から得られるNMR_sampleが１を超えた場合、そのサンプリングブロックはマスキング量Maskよりもノイズの量が大きく知覚される可能性が高い。これを踏まえて、本実施形態の音声客観評価装置１における分析部１０は、少なくとも１つの臨界帯域においてNMR_sampleが１以上となるサンプリングブロックを第３の聴覚歪特性データの算出対象とし、新たな第３の聴覚歪特性データ(NMR new)を算出する。NMR newは、式（６）のように表される。式（６）に示すＬは、少なくとも１つのkzにおいてNMR_sample（n,kz）≧１となる時系列ブロック数である。

即ち、分析部１０は、第３の聴覚歪特性データ(NMR new)として、NMR_sampleが１以上となるサンプリングブロックを対象に、平均値をとった統計値を算出する。或いは、分析部１０は、第３の聴覚歪特性データ(NMR new)として、NMR_sampleが１以上となるサンプリングブロックを対象に第３四分位点をとった統計値としてもよい。

ところで、従来法のＰＥＡＱのＮＭＲの聴覚歪特性データは、式（７）のように表される。式（７）に示すＮはステップＳ２で切り出しを行ったサンプリングブロック全ての長さである。

式（７）に示すPnoise(n,kz)は、ノイズ成分を１／４Ｂａｒｋスケールにグルーピングしたもので、式（８）のように表される。

ここで、Fwref、Fwtstは外耳道・中耳の周波数重みづけをした非圧縮音、圧縮符号化音である。

この従来法のＰＥＡＱによるBandwidth_ref, Bandwidth_test, EHS, NMRの聴覚歪特性データを用いた客観評価結果と、本発明に係るBandwidth_ref, Bandwidth_test, EHS new, NMR newの第１乃至第３の聴覚歪特性データを用いた客観評価結果との対比については、図４及び図５を参照して後述する。

図２において、最終的に、分析部１０は、ＰＥＡＱによる第１の聴覚歪特性データ（Bandwidth_test, Bandwidth_ref）と、差分周波数スペクトラムの歪率に関する第２の聴覚歪特性データ（EHS new）と、差分周波数スペクトルについてグルーピングしたｎ個の臨界帯域毎の、エネルギーの差とマスキング量の比で表される第３の聴覚歪特性データ（NMR new）を認識モデル部１１に出力する（ステップＳ９）。

このようにして、分析部１０は、一定時間毎に圧縮符号化音と非圧縮音のそれぞれの再生信号を切り出し、予め用意された機械学習用の聴覚モデルに則して当該非圧縮音と圧縮符号化音を比較して、本例では第１の聴覚歪特性データ（Bandwidth_test, Bandwidth_ref）と、第２の聴覚歪特性データ（EHS new）と、ｎ個の臨界帯域毎の第３の聴覚歪特性データ（NMR new）と、を算出して認識モデル部１１に出力する。

そして、認識モデル部１１は、分析部１０から入力される各聴覚歪特性データを基に、客観評価の分析対象とした圧縮符号化音（test）に関する客観評価値を算出して外部出力する。認識モデル部１１は、主観評価値格納部２から得られる事前の主観評価実験による主観評価値を教示データとして学習を行ったニューラルネットワークで構成され、このニューラルネットワークはＮ個の聴覚歪特性を入力層に入力し、少なくともＮ個以下の隠れ層を１層以上もつ多層ニューラルネットワークとする。そこで、認識モデル部１１は、非特許文献１（ITU-R BS.1116-3）に準拠した主観評価実験の結果を教示データとして、客観評価の分析前の事前の機械学習を行う。また、非圧縮音（ref）を用いた圧縮符号化音（test）の客観評価の分析時には、認識モデル部１１は、学習していない未知の非圧縮音と圧縮符号化音の各再生信号の入力に対して当該ニューラルネットワークにより客観評価値を算出し、外部出力する。

ところで、従来法のＰＥＡＱによるBandwidth_ref, Bandwidth_test, EHS, NMRの聴覚歪特性データを用いた客観評価の計算で生じるノイズ成分は、分析対象の信号の波形の微細構造も含めて、非圧縮音と圧縮符号化音の各再生信号の比較に基づく差を算出している。一方で、最新の符号化方式では、音声信号の高域成分の微細構造は、ホワイトノイズなど波形の微細構造を使用せず、帯域毎のエネルギーを維持するように圧縮符号化しており、これが圧縮率向上の要因の一つと言われている。つまり、最新の符号化方式による符号化音の再生信号において、従来法のＰＥＡＱのように分析対象の信号の微細構造も含めて非圧縮音と圧縮符号化音の各再生信号の比較に基づく差を算出すると、主観で感じる以上にノイズ成分を大きく算出することがあり、主観評価と客観評価が対応しない要因となっている。以下、帯域拡張技術を用いた圧縮符号化音に関して、従来法のＰＥＡＱと、本発明に係る一実施形態の音声客観評価装置１による性能を比較したので、図４及び図５を参照して説明する。

まず、図４（ａ）,（ｂ）は、それぞれ女性歌声に関する従来法による主観評価結果（隠れ基準付き三刺激二重盲検法による主観劣化度合を示すSDG （Subjective Difference Grade））及び客観評価結果（ＰＥＡＱによる客観品質劣化度合を示すODG（Objective Difference Grade））を示す図であり、図４（ｃ）,（ｄ）は、それぞれ打楽器に関する従来法による主観評価結果及び客観評価結果を示す図である。また、図５（ａ）,（ｂ）は、それぞれ本発明による一実施形態の音声客観評価装置１による女性歌声及び打楽器に関する客観評価結果を、従来法と対比して示す図である。

尚、図４（ｂ），（ｄ）に示すODGは、圧縮符号化音の評点から隠れ基準音の評点を引いた値として定義される。図４（ａ），（ｃ）に示すいずれの主観劣化度合を示すSDGについても、“違いを検知できるが気にならない”を示す「－１」よりも大きいが、図４（ｂ），（ｄ）に示すように、客観品質劣化度合を示すODGに関しては、“違いがやや気になる”を示す「－２」と“違いが気になる”を示す「－３」の間となり、客観評価結果の主観評価結果に対する誤差が約２と大きくなっていることが分かる。

一方、図５（ａ），（ｂ）にそれぞれ示すように、図４に示したものと同一分析対象とした女性の歌声及び打楽器音について、従来法のＰＥＡＱにより算出した聴覚歪特性データ（NMR)と、本実施形態の音声客観評価装置１における第３の聴覚歪特性データ（NMR new）の比較を示している。NMR（又はNMR new）は、その値が大きい程ノイズが知覚される可能性が高いことを示し、客観評価結果には低い点に寄与する。図４（ａ），（ｃ）に示されている通り、女性の歌声及び打楽器音のいずれについても主観評価結果では“違いを検知できるが気にならない” を示す「－１」よりも大きかったことから、NMR（又はNMR new）としては、より低い値であることが期待される。そして、図５（ａ），（ｂ）にそれぞれ示すように、従来法による客観評価に係るNMRよりも、本発明に係る一実施形態の音声客観評価装置１の方がNMR newが低くなっており、従来法よりも、より主観評価に近い期待される結果となった。そして、本発明に係る一実施形態の音声客観評価装置１のように、効率的に機械学習を行うためには、より主観評価に合った聴覚歪特性データを用いることが重要になる。

本発明に係る音声客観評価装置１は、コンピューターにより構成することができ、音声客観評価装置１の各処理部を機能させるためのプログラムを好適に用いることができる。具体的には、音声客観評価装置１の各処理部を制御するための制御部をコンピューター内の中央演算処理装置（ＣＰＵ）で構成でき、且つ、各処理部を動作させるのに必要となるプログラムを適宜記憶する記憶部を少なくとも１つのメモリで構成させることができる。即ち、そのようなコンピューターに、ＣＰＵによって該プログラムを実行させることにより、音声客観評価装置１の各処理部の有する機能を実現させることができる。更に、音声客観評価装置１の各処理部の有する機能を実現させるためのプログラムを、前述の記憶部（メモリ）の所定の領域に格納させることができる。そのような記憶部は、装置内部のＲＡＭ又はＲＯＭなどで構成させることができ、或いは又、外部記憶装置（例えば、ハードディスク）で構成させることもできる。また、そのようなプログラムは、コンピューターで利用されるＯＳ上のソフトウェア（ＲＯＭ又は外部記憶装置に格納される）の一部で構成させることができる。更に、そのようなコンピューターに、音声客観評価装置１の各処理部として機能させるためのプログラムは、コンピューター読取り可能な記録媒体に記録することができる。また、音声客観評価装置１の各処理部をハードウェア又はソフトウェアの一部として構成させ、各々を組み合わせて実現させることもできる。

以上、特定の実施形態の例を挙げて本発明を説明したが、本発明は前述の実施形態の例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、上述した本発明に係る一実施形態の音声客観評価装置１では、ＰＥＡＱによる第１の聴覚歪特性データ（Bandwidth_test, Bandwidth_ref）と、差分周波数スペクトラムの歪率に関する第２の聴覚歪特性データ（EHS new）と、差分周波数スペクトルについてグルーピングしたｎ個の臨界帯域毎の、エネルギーの差とマスキング量の比で表される第３の聴覚歪特性データ（NMR new）の３種類の聴覚歪特性データを全て用いて機械学習による客観評価値を算出する好適例を説明したが、これに限定する必要はない。即ち、本発明に係る別の実施形態の音声客観評価装置１として、第３の聴覚歪特性データ（NMR new）のみを用いて機械学習による客観評価値を算出する形態とすることや、第２の聴覚歪特性データ（EHS new）及び第３の聴覚歪特性データ（NMR new）を用いて機械学習による客観評価値を算出する形態とすることができる。ただし、聴覚歪特性データの種類数が多いほど、主観評価値に近い主観評価値を得ることが期待できる点で、上述した本発明に係る一実施形態の音声客観評価装置１のように構成するのが好ましい。

本発明によれば、従来用いられてきた音声客観評価方式よりも、最新の音声符号化方式を含む任意の音声符号化方式の圧縮符号化音の再生信号について主観評価値に近い主観評価値を得ることができるので、圧縮符号化音の生成時の客観評価の用途に有用である。

１音声客観評価装置
２主観評価値格納部
１０分析部
１１認識モデル部

Claims

非圧縮音との比較により所定の音声符号化方式の圧縮符号化音の再生信号について客観評価する音声客観評価装置であって、
客観評価の分析対象とする圧縮符号化音の再生信号と、当該圧縮符号化音に対応する非圧縮音の再生信号とを入力し、一定時間毎に圧縮符号化音と非圧縮音のそれぞれの再生信号を切り出し、予め用意された機械学習用の聴覚モデルに則して当該非圧縮音と圧縮符号化音を比較して得られる差分周波数スペクトルについてグルーピングした所定個の臨界帯域毎に、エネルギーの差とマスキング量の比で表される聴覚歪特性データを少なくとも算出する分析部と、
事前の主観評価実験による主観評価値を教示データとして学習を行ったニューラルネットワークで構成され、前記分析部から入力される聴覚歪特性データを基に、前記客観評価の分析対象とした圧縮符号化音に関する客観評価値を算出して外部出力する認識モデル部と、
を備えることを特徴とする音声客観評価装置。
前記分析部は、前記聴覚歪特性データとして、少なくとも１つ以上の臨界帯域でエネルギーの差とマスキング量の比が１以上となるサンプリングブロックを算出対象とし、当該サンプリングブロックの平均値、又は第３四分位点の統計値を、前記認識モデル部に出力することを特徴とする、請求項１に記載の音声客観評価装置。
前記分析部は、当該差分周波数スペクトルの全てのスペクトルピークを持つ高調波歪を対象とし、当該差分周波数スペクトルの局所極大値が所定の閾値以上となる最小周波数の局所極大値とその他の周波数の局所極大値の割合を示す当該差分周波数スペクトルの歪率に関する聴覚歪特性データを更に算出し、前記認識モデル部に出力することを特徴とする、請求項１又は２に記載の音声客観評価装置。
前記分析部は、ＰＥＡＱ（Perceptual Evaluation of Audio Quality）による聴覚歪特性データを更に算出し、前記認識モデル部に出力することを特徴とする、請求項１から３のいずれか一項に記載の音声客観評価装置。
コンピューターを、請求項１から４のいずれか一項に記載の音声客観評価装置として機能させるためのプログラム。