JP2022036862A - 音声客観評価装置及びそのプログラム - Google Patents
音声客観評価装置及びそのプログラム Download PDFInfo
- Publication number
- JP2022036862A JP2022036862A JP2020141288A JP2020141288A JP2022036862A JP 2022036862 A JP2022036862 A JP 2022036862A JP 2020141288 A JP2020141288 A JP 2020141288A JP 2020141288 A JP2020141288 A JP 2020141288A JP 2022036862 A JP2022036862 A JP 2022036862A
- Authority
- JP
- Japan
- Prior art keywords
- objective evaluation
- sound
- voice
- characteristic data
- auditory
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 150
- 238000004458 analytical method Methods 0.000 claims abstract description 53
- 238000001228 spectrum Methods 0.000 claims abstract description 40
- 230000000873 masking effect Effects 0.000 claims abstract description 14
- 238000013528 artificial neural network Methods 0.000 claims abstract description 11
- 238000010801 machine learning Methods 0.000 claims abstract description 11
- 238000000034 method Methods 0.000 claims description 29
- 238000002474 experimental method Methods 0.000 claims description 13
- 238000005070 sampling Methods 0.000 claims description 11
- 230000006870 function Effects 0.000 claims description 6
- 238000005520 cutting process Methods 0.000 claims description 4
- 238000012360 testing method Methods 0.000 description 27
- 238000007796 conventional method Methods 0.000 description 17
- 238000012545 processing Methods 0.000 description 12
- 238000006243 chemical reaction Methods 0.000 description 10
- 238000010586 diagram Methods 0.000 description 6
- 238000009527 percussion Methods 0.000 description 5
- 230000003595 spectral effect Effects 0.000 description 5
- 230000006866 deterioration Effects 0.000 description 4
- 210000000959 ear middle Anatomy 0.000 description 3
- 238000005311 autocorrelation function Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 210000000883 ear external Anatomy 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006735 deficit Effects 0.000 description 1
- 210000000613 ear canal Anatomy 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000001303 quality assessment method Methods 0.000 description 1
- 238000013441 quality evaluation Methods 0.000 description 1
- 230000008685 targeting Effects 0.000 description 1
- 238000012549 training Methods 0.000 description 1
Images
Landscapes
- Compression, Expansion, Code Conversion, And Decoders (AREA)
Abstract
【課題】任意の音声符号化方式の圧縮符号化音の再生信号について、非圧縮音の再生信号と比較してより近い客観評価値を取得可能とする音声客観評価装置及びそのプログラムを提供する。【解決手段】本発明の音声客観評価装置1は、客観評価の分析対象とする圧縮符号化音の再生信号と、これに対応する非圧縮音の再生信号とを入力し、一定時間毎に圧縮符号化音と非圧縮音のそれぞれの再生信号を切り出し、機械学習用の聴覚モデルに則して当該非圧縮音と圧縮符号化音を比較して得られる差分周波数スペクトルについてグルーピングした所定個の臨界帯域毎に、エネルギーの差とマスキング量の比で表される聴覚歪特性データを少なくとも算出する分析部11、及び主観評価値を教示データとして事前学習済みのニューラルネットワークで構成され、当該聴覚歪特性データを基に当該圧縮符号化音に関する客観評価値を算出して外部出力する認識モデル部12を備える。【選択図】図1
Description
本発明は、非圧縮音との比較により所定の音声符号化方式の圧縮符号化音の再生信号について客観評価する音声客観評価装置及びそのプログラムに関する。
通常、圧縮符号化音の基本音声品質(音色、S/N,周波数帯域、ラウドネス等)を評価するには主観評価実験を行う。主観評価法は国際標準化されており、隠れ基準付き三刺激二重盲検法やMUSHRA(MUlti Stimulus test with Hidden Reference and Anchor)などがある(例えば、非特許文献1,2参照)。しかし、主観評価実験を行うには十分な数の評定者を集め、圧縮符号化音の評価トレーニングを行い、耳を休めるための休憩も挟みながら本実験を行うことから、音声品質の評価に係る時間やコストが高くなる。
そこで、主観評価実験を行う前の事前の条件選定時やおおよその品質を調査する際には客観的に基本音声品質を評価する客観評価手法が用いられる。音声信号全般の客観評価法についてはPEAQ(Perceptual Evaluation of Audio Quality)が国際標準化され(例えば、非特許文献3参照)、更に、人の声を主な対象にした音声信号の客観評価法についてはPESQが国際標準化されている(例えば、非特許文献4参照)。
PEAQでは聴覚抹消系を模擬した聴覚歪特性を入力としたニューラルネットワークを用いて客観評価を行う。通常はこの標準化された手法を用いて客観評価を行うが、これらは2000年頃に標準化されたもので、近年新たに開発された高域成分を帯域拡張する手法を用いた符号化方式では従来の手法では客観評価と主観評価の差が大きく十分な対応がとれなくなっていることが知られている(例えば、非特許文献5参照)。
従って、帯域拡張技術が入った新しい符号化方式にも対応した客観評価を効率的に行うためには、ニューラルネットワークの入力である聴覚歪特性も新しい符号化方式に対応したものとすることが求められている。
Recommendation ITU-R BS.1116-3, "Methods for the subjective assessment of small impairments in audio systems" (2015)
Recommendation ITU-R BS.1534 -3, "Method for the subjective assessment of intermediate quality level of audio systems" (2015)
Recommendation ITU-R BS. 1387-1, "Method for objective measurements of perceived audio quality" (2001)
Recommendation ITU-T P.862, "Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs"
小森智康,ワンセグ及びメモリオーディオの音質評価,日本音響学会誌vol.63 no.11 (2007) pp.674-679
上述したように、音声信号の基本音声品質を評価する場合、通常は主観評価実験により評価を行うが、音声符号化音の主観評価実験を行う場合は時間やコストがかかるため、客観評価で代用することがある。これまでに客観評価手法については標準化もされているが、標準化後に規格化された近年の音声符号化方式による音声符号化音では主観評価値と客観評価値に大きな差があり、従来通りに客観評価で代用することが難しい。
そして、従来の客観評価手法では最新の符号化方式(本願出願時点を基準として最新とする音声圧縮符号化方式)による符号化音の主観評価と差が大きく十分な対応がとれないという問題がある。このため、最新の符号化方式による符号化音についても主観評価に近い客観評価法が望まれる。
そこで、本発明の目的は、上述の問題に鑑みて、任意の音声符号化方式の圧縮符号化音の再生信号について、非圧縮音の再生信号と比較してより近い客観評価値を取得可能とする音声客観評価装置及びそのプログラムを提供することにある。
本発明に係る音声客観評価装置は、聴覚モデルに則して算出した非圧縮音の再生信号と圧縮符号化音の再生信号について、その差分周波数スペクトラムの臨界帯域別のエネルギー差とマスキング量の比を聴覚歪特性データとして新たに利用し、より好適には従来用いられてきたその他の聴覚歪特性データと合わせてニューラルネットワークを構成する。本発明に係る音声客観評価装置は、主観評価値を教示データとして予め機械学習を行い、未知の非圧縮音の再生信号と比較して、評価対象の圧縮符号化音の再生信号の客観評価値を導出して出力する。
即ち、本発明の音声客観評価装置は、非圧縮音との比較により所定の音声符号化方式の圧縮符号化音の再生信号について客観評価する音声客観評価装置であって、客観評価の分析対象とする圧縮符号化音の再生信号と、当該圧縮符号化音に対応する非圧縮音の再生信号とを入力し、一定時間毎に圧縮符号化音と非圧縮音のそれぞれの再生信号を切り出し、予め用意された機械学習用の聴覚モデルに則して当該非圧縮音と圧縮符号化音を比較して得られる差分周波数スペクトルについてグルーピングした所定個の臨界帯域毎に、エネルギーの差とマスキング量の比で表される聴覚歪特性データを少なくとも算出する分析部と、事前の主観評価実験による主観評価値を教示データとして学習を行ったニューラルネットワークで構成され、前記分析部から入力される聴覚歪特性データを基に、前記客観評価の分析対象とした圧縮符号化音に関する客観評価値を算出して外部出力する認識モデル部と、を備えることを特徴とする。
また、本発明の音声客観評価装置において、前記分析部は、前記聴覚歪特性データとして、少なくとも1つ以上の臨界帯域でエネルギーの差とマスキング量の比が1以上となるサンプリングブロックを算出対象とし、当該サンプリングブロックの平均値、又は第3四分位点の統計値を、前記認識モデル部に出力することを特徴とする。
また、本発明の音声客観評価装置において、前記分析部は、当該差分周波数スペクトルの全てのスペクトルピークを持つ高調波歪を対象とし、当該差分周波数スペクトルの局所極大値が所定の閾値以上となる最小周波数の局所極大値とその他の周波数の局所極大値の割合を示す当該差分周波数スペクトルの歪率に関する聴覚歪特性データを更に算出し、前記認識モデル部に出力することを特徴とする。
また、本発明の音声客観評価装置において、前記分析部は、PEAQ(Perceptual Evaluation of Audio Quality)による聴覚歪特性データを更に算出し、前記認識モデル部に出力することを特徴とする。
更に、本発明のプログラムは、コンピューターを、本発明の音声客観評価装置として機能させるためのプログラムとして構成する。
本発明によれば、従来用いられてきた音声客観評価方式よりも、最新の音声符号化方式を含む任意の音声符号化方式の圧縮符号化音の再生信号について主観評価値に近い主観評価値を得ることができる。このため、主観評価実験の時間やコストを省力化することができる。
以下、図面を参照して、本発明による一実施形態の音声客観評価装置1の構成について説明する。図1は、本発明による一実施形態の音声客観評価装置1の概略構成を示すブロック図である。図1に示す音声客観評価装置1は、分析部10と、認識モデル部11と、を備える。
分析部10は、客観評価の分析対象とする圧縮符号化音(test)の再生信号と、これに対応する非圧縮音(ref)の再生信号とを入力し、一定時間毎に圧縮符号化音と非圧縮音のそれぞれの再生信号を切り出し、予め用意された機械学習用の聴覚モデルに則して当該非圧縮音と圧縮符号化音を比較して、本例ではPEAQによる第1の聴覚歪特性データ(Bandwidth_test, Bandwidth_ref)と、詳細に後述する差分周波数スペクトラムの歪率に関する第2の聴覚歪特性データ(EHS new)と、詳細に後述する差分周波数スペクトルについてグルーピングしたn(nは1以上の整数)個の臨界帯域毎の、エネルギーの差とマスキング量の比で表される第3の聴覚歪特性データ(NMR new)と、を算出して認識モデル部11に出力する。
認識モデル部11は、主観評価値格納部2から得られる事前の主観評価実験による主観評価値を教示データとして学習を行ったニューラルネットワークで構成され、分析部10から入力される各聴覚歪特性データを基に、客観評価の分析対象とした圧縮符号化音(test)に関する客観評価値を算出して外部出力する。
尚、主観評価値格納部2は、事前の主観評価実験用の圧縮符号化音の再生信号と、これに対応する非圧縮音の再生信号とを用いた事前の主観評価実験による主観評価値を格納している。尚、主観評価値格納部2に格納する主観評価値を得るための主観評価実験は、非特許文献1に開示されるものとした。
以下、より具体的に、分析部10及び認識モデル部11の各処理について、順に説明する。
(分析部の処理)
図2は、本発明による一実施形態の音声客観評価装置1における分析部10の処理を示すフローチャートである。
図2は、本発明による一実施形態の音声客観評価装置1における分析部10の処理を示すフローチャートである。
まず、分析部10は、客観評価の分析対象とする圧縮符号化音 (test)と、これに対応する非圧縮音 (ref)の各再生信号を入力する(ステップS1)。
続いて、分析部10は、当該圧縮符号化音 (test)と、これに対応する非圧縮音 (ref)の各再生信号に対し閾値判定による切り出し処理の実行する(ステップS2)。より具体的には、分析部10は、分析前のデータ処理として、当該圧縮符号化音 (test)の再生信号の振幅が所定の閾値よりも小さい場合には分析はせず、その所定の閾値よりも大きい場合に分析対象とするよう、当該圧縮符号化音 (test)と、これに対応する非圧縮音 (ref)の各再生信号に対して一定時間毎に切り出す処理を行う。例えば48000Hzサンプリングの入力音声信号に対して2048サンプル毎に、1024サンプルのオーバーラップを行って切り出す。
続いて、分析部10は、切り出し処理後の各再生信号を窓単位の周波数の信号に変換する(ステップS3)。より具体的には、分析部10は、切り出し処理後の分析対象とした当該圧縮符号化音 (test)と非圧縮音 (ref)の各各再生信号にハニング窓をかけて、そのハニング窓単位で、圧縮符号化音と非圧縮音の各再生信号について、それぞれ本例ではFFT変換を施して周波数領域の信号に変換する。周波数領域への変換はFFT変換ではなく、MDCT変換など他の手法を用いてもよい。
続いて、分析部10は、当該圧縮符号化音 (test)と非圧縮音 (ref)の周波数変換後の各信号に対し所定の閾値を超える最大周波数を基に、PEAQによる第1の聴覚歪特性データ(Bandwidth_test, Bandwidth_ref)を算出する(ステップS4)。より具体的には、分析部10は、当該圧縮符号化音 (test)と非圧縮音 (ref)の周波数変換後の各信号のそれぞれについて、所定の閾値(例えば20kHzのパワースペクトルに対して10dB大きくなる値)を超える最大周波数を算出し、従来法のPEAQと同様とする第1の聴覚歪特性データを算出する。ここで、当該圧縮符号化音 (test)に関する第1の聴覚歪特性データをBandwidth_test、非圧縮音 (ref)に関する第1の聴覚歪特性データをBandwidth_refとする。
続いて、分析部10は、当該圧縮符号化音 (test)と非圧縮音 (ref)の周波数変換後の各信号に対し外耳・中耳を模擬した周波数の重みづけを行い、重みづけを行った周波数変換後の各信号の差分をとり、差分周波数スペクトルを算出する(ステップS5)。より具体的には、分析部10は、当該圧縮符号化音 (test)と非圧縮音 (ref)の周波数変換後の各信号について、聴覚抹消系を模擬するため、例えば式(1)に示す従来法のPEAQの通り、外耳・中耳を模擬した周波数の重みづけを行う。
ここで、式(1)において、kは周波数領域のインデックスであり、Fresは周波数分解能である。そして、分析部10は、周波数の重みづけを行った周波数変換後の圧縮符号化音と非圧縮音の各信号の差分をとることで、差分周波数スペクトルを算出する。
続いて、分析部10は、差分周波数スペクトルの局所極大値が所定の閾値以上となるスペクトルを用いて、当該差分周波数スペクトルの歪率に関する第2の聴覚歪特性データ(EHS new)を算出する(ステップS6)。より具体的には、分析部10は、差分周波数スペクトルの局所極大値が所定の閾値以上(例えば、10dB以上)となる最小周波数の局所極大値とその他の周波数の局所極大値の割合を示す当該差分周波数スペクトルの歪率に関する第2の聴覚歪特性データとして、式(2)に示すEHS newを算出する。
ここで、V1は、差分周波数スペクトルの局所極大値が所定の閾値以上(例えば、10dB以上)となる最小周波数のスペクトル振幅値である。また、Viは、その他の周波数の局所極大値、即ちV1を除く差分周波数スペクトルの局所極大値が所定の閾値以上(例えば、10dB以上)となるスペクトル振幅値である。尚、Viの周波数はV1の整数倍である必要はない。
ところで、従来法のEHSの聴覚歪特性データでは、差分周波数スペクトルをF0とし、振幅値V1のスペクトルをF1とすると、まず、F0とF1の自己相関関数Cを式(3)により求める。
そして、従来法のEHSの聴覚歪特性データでは、式(4)に示すように、自己相関関数Cにハン窓(関数hann(C))をかけてフーリエ変換を行う。
そして、従来法では、式(4)に示すフーリエ変換の結果であるスペクトル値の最大値の1000倍をEHSの聴覚歪特性データとしている。この従来法の聴覚歪特性データ(EHS)では、差分周波数スペクトルの周期性を計算しており、整数倍の調波構造のみが考慮されていた。一方、本実施形態の音声客観評価装置1は、第2の聴覚歪特性データとして、式(2)に示すEHS newを算出し、この第2の聴覚歪特性データ(EHS new)では整数倍の調波構造だけでなく、全てのスペクトルピークを持つ高調波歪を計算することになる。即ち、本実施形態では、整数倍でないスペクトルによる聴覚歪も考慮した全体の聴覚歪特性とすることができる。
例えば、図3は、本発明による一実施形態の音声客観評価装置1に係る差分周波数スペクトルを例示する図である。差分周波数スペクトルが図3に示すように、整数倍の調波構造でない場合、従来法のEHSの聴覚歪特性データでは式(4)からEHS=0.0228と小さい値となるが、実際にはスペクトルピークが複数たっており高調波歪を生じさせている。この状態は聴感上耳につきやすいノイズとなるため、主観値と客観値が異なる要因となり得る。そこで、本実施形態の音声客観評価装置1では、式(2)に示すEHS newを算出し、整数倍でない全てのスペクトルピークを持つ高調波歪も考慮するものとなるため、EHS new=6.9と高くなり、主観評価値に合致させるのに効率的なパラメータとなる。
続いて、分析部10は、差分周波数スペクトルを臨界帯域にグルーピングし(ステップS7)、差分周波数スペクトルについてグルーピングしたn個の臨界帯域毎に、エネルギーの差と、マスキング量の比で表される第3の聴覚歪特性データ(NMR new)を算出する(ステップS8)。より具体的には、分析部10は、差分周波数スペクトルについて、例えばバーク尺度で1/4Barkスケールのバンド幅にグルーピングし、所定個(例えば109個)の臨界帯域に分割する。
そして、分析部10は、予め定めたバンド幅でサンプリングしたサンプル数(例えば2048サンプル)のブロック(以下、「サンプリングブロック」と称する。)毎に、学習用の聴覚モデルに則して算出した非圧縮音(ref)と圧縮符号化音(test)についての臨界帯域別のエネルギーの差とマスキング量Mask(圧縮符号化音において、マスキングによって聴感上気にならないとされるレベル)との比を、式(5)のように算出する。マスキング量Maskは、従来法PEAQと同様に算出する。
ここで、Eptstは1/4Barkスケールにグルーピングした圧縮符号化音のエネルギー、Eprefは1/4Barkスケールにグルーピングした非圧縮符号化音のエネルギー、nは2048サンプル毎の時系列ブロックのインデックス、kzは1/4Barkスケールの周波数領域のインデックスである。
尚、式(5)から得られるNMR_sampleが1を超えた場合、そのサンプリングブロックはマスキング量Maskよりもノイズの量が大きく知覚される可能性が高い。これを踏まえて、本実施形態の音声客観評価装置1における分析部10は、少なくとも1つの臨界帯域においてNMR_sampleが1以上となるサンプリングブロックを第3の聴覚歪特性データの算出対象とし、新たな第3の聴覚歪特性データ(NMR new)を算出する。NMR newは、式(6)のように表される。式(6)に示すLは、少なくとも1つのkzにおいてNMR_sample(n,kz)≧1となる時系列ブロック数である。
即ち、分析部10は、第3の聴覚歪特性データ(NMR new)として、NMR_sampleが1以上となるサンプリングブロックを対象に、平均値をとった統計値を算出する。或いは、分析部10は、第3の聴覚歪特性データ(NMR new)として、NMR_sampleが1以上となるサンプリングブロックを対象に第3四分位点をとった統計値としてもよい。
ところで、従来法のPEAQのNMRの聴覚歪特性データは、式(7)のように表される。式(7)に示すNはステップS2で切り出しを行ったサンプリングブロック全ての長さである。
式(7)に示すPnoise(n,kz)は、ノイズ成分を1/4Barkスケールにグルーピングしたもので、式(8)のように表される。
ここで、Fwref、Fwtstは外耳道・中耳の周波数重みづけをした非圧縮音、圧縮符号化音である。
この従来法のPEAQによるBandwidth_ref, Bandwidth_test, EHS, NMRの聴覚歪特性データを用いた客観評価結果と、本発明に係るBandwidth_ref, Bandwidth_test, EHS new, NMR newの第1乃至第3の聴覚歪特性データを用いた客観評価結果との対比については、図4及び図5を参照して後述する。
図2において、最終的に、分析部10は、PEAQによる第1の聴覚歪特性データ(Bandwidth_test, Bandwidth_ref)と、差分周波数スペクトラムの歪率に関する第2の聴覚歪特性データ(EHS new)と、差分周波数スペクトルについてグルーピングしたn個の臨界帯域毎の、エネルギーの差とマスキング量の比で表される第3の聴覚歪特性データ(NMR new)を認識モデル部11に出力する(ステップS9)。
このようにして、分析部10は、一定時間毎に圧縮符号化音と非圧縮音のそれぞれの再生信号を切り出し、予め用意された機械学習用の聴覚モデルに則して当該非圧縮音と圧縮符号化音を比較して、本例では第1の聴覚歪特性データ(Bandwidth_test, Bandwidth_ref)と、第2の聴覚歪特性データ(EHS new)と、n個の臨界帯域毎の第3の聴覚歪特性データ(NMR new)と、を算出して認識モデル部11に出力する。
そして、認識モデル部11は、分析部10から入力される各聴覚歪特性データを基に、客観評価の分析対象とした圧縮符号化音(test)に関する客観評価値を算出して外部出力する。認識モデル部11は、主観評価値格納部2から得られる事前の主観評価実験による主観評価値を教示データとして学習を行ったニューラルネットワークで構成され、このニューラルネットワークはN個の聴覚歪特性を入力層に入力し、少なくともN個以下の隠れ層を1層以上もつ多層ニューラルネットワークとする。そこで、認識モデル部11は、非特許文献1(ITU-R BS.1116-3)に準拠した主観評価実験の結果を教示データとして、客観評価の分析前の事前の機械学習を行う。また、非圧縮音(ref)を用いた圧縮符号化音(test)の客観評価の分析時には、認識モデル部11は、学習していない未知の非圧縮音と圧縮符号化音の各再生信号の入力に対して当該ニューラルネットワークにより客観評価値を算出し、外部出力する。
ところで、従来法のPEAQによるBandwidth_ref, Bandwidth_test, EHS, NMRの聴覚歪特性データを用いた客観評価の計算で生じるノイズ成分は、分析対象の信号の波形の微細構造も含めて、非圧縮音と圧縮符号化音の各再生信号の比較に基づく差を算出している。一方で、最新の符号化方式では、音声信号の高域成分の微細構造は、ホワイトノイズなど波形の微細構造を使用せず、帯域毎のエネルギーを維持するように圧縮符号化しており、これが圧縮率向上の要因の一つと言われている。つまり、最新の符号化方式による符号化音の再生信号において、従来法のPEAQのように分析対象の信号の微細構造も含めて非圧縮音と圧縮符号化音の各再生信号の比較に基づく差を算出すると、主観で感じる以上にノイズ成分を大きく算出することがあり、主観評価と客観評価が対応しない要因となっている。以下、帯域拡張技術を用いた圧縮符号化音に関して、従来法のPEAQと、本発明に係る一実施形態の音声客観評価装置1による性能を比較したので、図4及び図5を参照して説明する。
まず、図4(a),(b)は、それぞれ女性歌声に関する従来法による主観評価結果(隠れ基準付き三刺激二重盲検法による主観劣化度合を示すSDG (Subjective Difference Grade))及び客観評価結果(PEAQによる客観品質劣化度合を示すODG(Objective Difference Grade))を示す図であり、図4(c),(d)は、それぞれ打楽器に関する従来法による主観評価結果及び客観評価結果を示す図である。また、図5(a),(b)は、それぞれ本発明による一実施形態の音声客観評価装置1による女性歌声及び打楽器に関する客観評価結果を、従来法と対比して示す図である。
尚、図4(b),(d)に示すODGは、圧縮符号化音の評点から隠れ基準音の評点を引いた値として定義される。図4(a),(c)に示すいずれの主観劣化度合を示すSDGについても、“違いを検知できるが気にならない”を示す「-1」よりも大きいが、図4(b),(d)に示すように、客観品質劣化度合を示すODGに関しては、“違いがやや気になる”を示す「-2」と“違いが気になる”を示す「-3」の間となり、客観評価結果の主観評価結果に対する誤差が約2と大きくなっていることが分かる。
一方、図5(a),(b)にそれぞれ示すように、図4に示したものと同一分析対象とした女性の歌声及び打楽器音について、従来法のPEAQにより算出した聴覚歪特性データ(NMR)と、本実施形態の音声客観評価装置1における第3の聴覚歪特性データ(NMR new)の比較を示している。NMR(又はNMR new)は、その値が大きい程ノイズが知覚される可能性が高いことを示し、客観評価結果には低い点に寄与する。図4(a),(c)に示されている通り、女性の歌声及び打楽器音のいずれについても主観評価結果では“違いを検知できるが気にならない” を示す「-1」よりも大きかったことから、NMR(又はNMR new)としては、より低い値であることが期待される。そして、図5(a),(b)にそれぞれ示すように、従来法による客観評価に係るNMRよりも、本発明に係る一実施形態の音声客観評価装置1の方がNMR newが低くなっており、従来法よりも、より主観評価に近い期待される結果となった。そして、本発明に係る一実施形態の音声客観評価装置1のように、効率的に機械学習を行うためには、より主観評価に合った聴覚歪特性データを用いることが重要になる。
本発明に係る音声客観評価装置1は、コンピューターにより構成することができ、音声客観評価装置1の各処理部を機能させるためのプログラムを好適に用いることができる。具体的には、音声客観評価装置1の各処理部を制御するための制御部をコンピューター内の中央演算処理装置(CPU)で構成でき、且つ、各処理部を動作させるのに必要となるプログラムを適宜記憶する記憶部を少なくとも1つのメモリで構成させることができる。即ち、そのようなコンピューターに、CPUによって該プログラムを実行させることにより、音声客観評価装置1の各処理部の有する機能を実現させることができる。更に、音声客観評価装置1の各処理部の有する機能を実現させるためのプログラムを、前述の記憶部(メモリ)の所定の領域に格納させることができる。そのような記憶部は、装置内部のRAM又はROMなどで構成させることができ、或いは又、外部記憶装置(例えば、ハードディスク)で構成させることもできる。また、そのようなプログラムは、コンピューターで利用されるOS上のソフトウェア(ROM又は外部記憶装置に格納される)の一部で構成させることができる。更に、そのようなコンピューターに、音声客観評価装置1の各処理部として機能させるためのプログラムは、コンピューター読取り可能な記録媒体に記録することができる。また、音声客観評価装置1の各処理部をハードウェア又はソフトウェアの一部として構成させ、各々を組み合わせて実現させることもできる。
以上、特定の実施形態の例を挙げて本発明を説明したが、本発明は前述の実施形態の例に限定されるものではなく、その技術思想を逸脱しない範囲で種々変形可能である。例えば、上述した本発明に係る一実施形態の音声客観評価装置1では、PEAQによる第1の聴覚歪特性データ(Bandwidth_test, Bandwidth_ref)と、差分周波数スペクトラムの歪率に関する第2の聴覚歪特性データ(EHS new)と、差分周波数スペクトルについてグルーピングしたn個の臨界帯域毎の、エネルギーの差とマスキング量の比で表される第3の聴覚歪特性データ(NMR new)の3種類の聴覚歪特性データを全て用いて機械学習による客観評価値を算出する好適例を説明したが、これに限定する必要はない。即ち、本発明に係る別の実施形態の音声客観評価装置1として、第3の聴覚歪特性データ(NMR new)のみを用いて機械学習による客観評価値を算出する形態とすることや、第2の聴覚歪特性データ(EHS new)及び第3の聴覚歪特性データ(NMR new)を用いて機械学習による客観評価値を算出する形態とすることができる。ただし、聴覚歪特性データの種類数が多いほど、主観評価値に近い主観評価値を得ることが期待できる点で、上述した本発明に係る一実施形態の音声客観評価装置1のように構成するのが好ましい。
本発明によれば、従来用いられてきた音声客観評価方式よりも、最新の音声符号化方式を含む任意の音声符号化方式の圧縮符号化音の再生信号について主観評価値に近い主観評価値を得ることができるので、圧縮符号化音の生成時の客観評価の用途に有用である。
1 音声客観評価装置
2 主観評価値格納部
10 分析部
11 認識モデル部
2 主観評価値格納部
10 分析部
11 認識モデル部
Claims (5)
- 非圧縮音との比較により所定の音声符号化方式の圧縮符号化音の再生信号について客観評価する音声客観評価装置であって、
客観評価の分析対象とする圧縮符号化音の再生信号と、当該圧縮符号化音に対応する非圧縮音の再生信号とを入力し、一定時間毎に圧縮符号化音と非圧縮音のそれぞれの再生信号を切り出し、予め用意された機械学習用の聴覚モデルに則して当該非圧縮音と圧縮符号化音を比較して得られる差分周波数スペクトルについてグルーピングした所定個の臨界帯域毎に、エネルギーの差とマスキング量の比で表される聴覚歪特性データを少なくとも算出する分析部と、
事前の主観評価実験による主観評価値を教示データとして学習を行ったニューラルネットワークで構成され、前記分析部から入力される聴覚歪特性データを基に、前記客観評価の分析対象とした圧縮符号化音に関する客観評価値を算出して外部出力する認識モデル部と、
を備えることを特徴とする音声客観評価装置。 - 前記分析部は、前記聴覚歪特性データとして、少なくとも1つ以上の臨界帯域でエネルギーの差とマスキング量の比が1以上となるサンプリングブロックを算出対象とし、当該サンプリングブロックの平均値、又は第3四分位点の統計値を、前記認識モデル部に出力することを特徴とする、請求項1に記載の音声客観評価装置。
- 前記分析部は、当該差分周波数スペクトルの全てのスペクトルピークを持つ高調波歪を対象とし、当該差分周波数スペクトルの局所極大値が所定の閾値以上となる最小周波数の局所極大値とその他の周波数の局所極大値の割合を示す当該差分周波数スペクトルの歪率に関する聴覚歪特性データを更に算出し、前記認識モデル部に出力することを特徴とする、請求項1又は2に記載の音声客観評価装置。
- 前記分析部は、PEAQ(Perceptual Evaluation of Audio Quality)による聴覚歪特性データを更に算出し、前記認識モデル部に出力することを特徴とする、請求項1から3のいずれか一項に記載の音声客観評価装置。
- コンピューターを、請求項1から4のいずれか一項に記載の音声客観評価装置として機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020141288A JP2022036862A (ja) | 2020-08-24 | 2020-08-24 | 音声客観評価装置及びそのプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2020141288A JP2022036862A (ja) | 2020-08-24 | 2020-08-24 | 音声客観評価装置及びそのプログラム |
Publications (1)
Publication Number | Publication Date |
---|---|
JP2022036862A true JP2022036862A (ja) | 2022-03-08 |
Family
ID=80493867
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020141288A Pending JP2022036862A (ja) | 2020-08-24 | 2020-08-24 | 音声客観評価装置及びそのプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP2022036862A (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168729A (zh) * | 2023-04-21 | 2023-05-26 | 致讯科技(天津)有限公司 | 语音质量评价方法、装置和电子设备 |
-
2020
- 2020-08-24 JP JP2020141288A patent/JP2022036862A/ja active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116168729A (zh) * | 2023-04-21 | 2023-05-26 | 致讯科技(天津)有限公司 | 语音质量评价方法、装置和电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Avila et al. | Non-intrusive speech quality assessment using neural networks | |
JP4308278B2 (ja) | 電気通信装置の客観的音声品質測定の方法および装置 | |
RU2487426C2 (ru) | Устройство и способ преобразования звукового сигнала в параметрическое представление, устройство и способ модификации параметрического представления, устройство и способ синтеза параметрического представления звукового сигнала | |
CA2334906C (en) | Method for executing automatic evaluation of transmission quality of audio signals | |
US6035270A (en) | Trained artificial neural networks using an imperfect vocal tract model for assessment of speech signal quality | |
Steeneken et al. | Validation of the revised STIr method | |
JP5542206B2 (ja) | オーディオ・システムの知覚品質を判定する方法およびシステム | |
JPH10505718A (ja) | オーディオ品質の解析 | |
JP3418198B2 (ja) | オーディオ信号の聴覚に適応した品質評価方法および装置 | |
WO2005117517A2 (en) | Neuroevolution-based artificial bandwidth expansion of telephone band speech | |
RU2312405C2 (ru) | Способ осуществления машинной оценки качества звуковых сигналов | |
Edraki et al. | Speech intelligibility prediction using spectro-temporal modulation analysis | |
JP2015535100A (ja) | 劣化音声信号の了解度を評価する方法およびそのための機器 | |
US5799133A (en) | Training process | |
Harrison | Variability of formant measurements | |
JP2022036862A (ja) | 音声客観評価装置及びそのプログラム | |
Jassim et al. | NSQM: A non-intrusive assessment of speech quality using normalized energies of the neurogram | |
Salovarda et al. | Estimating perceptual audio system quality using PEAQ algorithm | |
JP2012208177A (ja) | 帯域拡張装置及び音声補正装置 | |
Jassim et al. | Speech quality assessment using 2D neurogram orthogonal moments | |
JP2020190606A (ja) | 音声雑音除去装置及びプログラム | |
Tesic et al. | An experimental study on the phase importance in digital processing of speech signal | |
Voran | Estimation of speech intelligibility and quality | |
Vercellesi et al. | MP3 audio quality for single and multiple encoding | |
Schäfer | A system for instrumental evaluation of audio quality |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20230724 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20240524 |