JP7278161B2 - 情報処理装置、プログラム及び情報処理方法 - Google Patents

情報処理装置、プログラム及び情報処理方法 Download PDF

Info

Publication number
JP7278161B2
JP7278161B2 JP2019128227A JP2019128227A JP7278161B2 JP 7278161 B2 JP7278161 B2 JP 7278161B2 JP 2019128227 A JP2019128227 A JP 2019128227A JP 2019128227 A JP2019128227 A JP 2019128227A JP 7278161 B2 JP7278161 B2 JP 7278161B2
Authority
JP
Japan
Prior art keywords
sound
noise
auditory
degree
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2019128227A
Other languages
English (en)
Other versions
JP2021015137A (ja
JP2021015137A5 (ja
Inventor
恵一 白須賀
知沙 赤銅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mitsubishi Electric Corp
Original Assignee
Mitsubishi Electric Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Mitsubishi Electric Corp filed Critical Mitsubishi Electric Corp
Priority to JP2019128227A priority Critical patent/JP7278161B2/ja
Publication of JP2021015137A publication Critical patent/JP2021015137A/ja
Publication of JP2021015137A5 publication Critical patent/JP2021015137A5/ja
Application granted granted Critical
Publication of JP7278161B2 publication Critical patent/JP7278161B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Description

本発明は、情報処理装置、プログラム及び情報処理方法に関する。
移動体向けラジオ又はテレビ等の受信信号には、弱電界エリアの走行時、又は、建物若しくは地形等により遅延波の影響を受けるエリアの走行時に、ノイズが発生する。このため、移動体向けラジオ又はテレビ等の受信機の出力音には、ノイズによる違和感を極力低減させるため、通常、出力音制御がなされる。
出力音制御としては、例えば、高域周波数を低下させるハイカット制御、又は、ステレオ出力音をモノラル音にしてノイズ音が発生しにくくするステレオモノラル切り替え制御がある。
音質評価者は、これらの制御がユーザに違和感無く行われているかを、評価対象受信機の出力音と、リファレンスとなる受信機の出力音とを相対比較する主観評価を行い、その聴感評価結果を数値で表現する。
例えば、特許文献1には、ユーザの嗜好にあったエンジンを開発するために、エンジン音の全体的な質を評価する評価装置が記載されている。この評価装置は、騒音計が測定した各エンジン音の音圧を入力する入力部と、各エンジン音の心理音響評価値を決定し、運転条件毎に、燃料噴射量及び回転数と心理音響評価値との関係を表す実測値マップを作成する部分評価値決定部と、運転条件毎に、実測値マップの最小二乗平面を作成する第1分析部と、運転条件毎に、実測値マップと最小二乗平面とに基づいて第1~第3物理量を決定する物理量決定部と、各運転条件における複数のエンジン音の全体の質の主観的な評価値である予め決定された全体評価値と第1~第3物理量とを用いて、全体評価値推定式を導出する第2分析部とを備える。
特許5907403号公報
しかしながら、評価者が音質評価する場合、評価を実施する専門家が必要である。また、評価者が評価値を決定する際に判断に迷うケースでは、再度音を聴き、評価のやり直しを何度も実施しなければならない。さらに、人の聴感で判定するため判定値の客観的根拠が曖昧であり、評価者による評価値のばらつきが生じる。
そこで、本発明の一又は複数の態様は、音質の定量評価を客観的に行うことができるようにすることを目的とする。
本発明の一態様に係る情報処理装置は、評価対象音の音響における特徴を示すための音響特徴量である第1の音響特徴量を推定する評価対象音響特徴推定部と、前記評価対象音と比較するためのリファレンス音の音響特徴量である第2の音響特徴量を推定するリファレンス音響特徴推定部と、評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、前記第1の音響特徴量及び前記第2の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部と、聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部と、を備えることを特徴とする。
本発明の一態様に係るプログラムは、コンピュータを、評価対象音の音響における特徴を示すための音響特徴量である第1の音響特徴量を推定する評価対象音響特徴推定部、前記評価対象音と比較するためのリファレンス音の音響特徴量である第2の音響特徴量を推定するリファレンス音響特徴推定部、評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、前記第1の音響特徴量及び前記第2の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部、及び、聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部、として機能させることを特徴とする。
本発明の一態様に係る情報処理方法は、評価対象音響特徴推定部が、評価対象音の音響における特徴を示すための音響特徴量である第1の音響特徴量を推定し、リファレンス音響特徴推定部が、前記評価対象音と比較するためのリファレンス音の音響特徴量である第2の音響特徴量を推定し、聴感特徴推定部が、評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、前記第1の音響特徴量及び前記第2の音響特徴量に対応する聴感特徴量を推定し、聴感スコア推定部が、聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定することを特徴とする。
本発明の一又は複数の態様によれば、音質の定量評価を客観的に行うことができる。
実施の形態に係る音質評価装置の構成を概略的に示すブロック図である。 評価対象音響特徴推定部の構成を概略的に示すブロック図である。 リファレンス音響特徴推定部の構成を概略的に示すブロック図である。 音質評価装置の全体的な処理の流れを示す概略図である。 評価対象音響特徴推定部又はリファレンス音響特徴推定部で行われる前処理を説明するための概略図である。 ステレオ度推定部が行う処理を説明するための概略図である。 ステレオ特徴空間を示す概略図である。 (A)~(C)は、スペクトル形状とこもり度の関係を説明するための概略図である。 こもり度推定部が行う処理を説明するための概略図である。 ノイズ度推定部の構成を概略的に示すブロック図である。 ノイズ除去部の構成を概略的に示すブロック図である。 第1オートエンコーダの学習方法を説明するための概略図である。 第2オートエンコーダの学習方法を説明するための概略図である。 多層ニューラルネット処理部の学習方法を説明するための概略図である。 多層ニューラルネット処理部の教師データの構成を示す概略図である。 LSTMネットワークを用いたSN推定ネットワークの構成例を示すブロック図である。 LSTMネットワークの動作を示す概略図である。 ノイズ度推定部の第1の変形例の構成を概略的に示すブロック図である。 ノイズ度推定部の第2の変形例の構成を概略的に示すブロック図である。 ノイズ度推定部の第3の変形例の構成を概略的に示すブロック図である。 音量特徴抽出部がラウドネスを算出する処理を説明するための概略図である。 音量特徴抽出部がメル周波数スペクトルを生成する処理を説明するための概略である。 聴感特徴推定部が行う処理を説明するための概略図である。 ステレオモノラル変動感推定部での処理を説明するための概略図である。 ステレオモノラル変動感推定部での学習用の教師データの一例を示す概略図である。 こもり度の特徴量を示すこもり度特徴量情報を示す概略図である。 こもり度推定部での学習用の教師データの一例を示す概略図である。 こもり感の特徴量を示すこもり感情報を示す概略図である。 こもり感推定部での教師データの一例を示す概略図である。 ノイズ感の特徴量を示すノイズ感情報を示す概略図である。 ノイズ感推定部での教師データの一例を示す概略図である。 SN差分時系列データを示す概略図である。 ノイズ大きさの特徴量を示すノイズ大きさ感特徴量情報を示す概略図である。 ノイズ感推定部での教師データの一例を示す概略図である。 音量変動感推定部の動作を説明するための概略図である。 サブバンドを説明するための概略図である。 時間変動特徴量を示す時間変動特徴量情報を示す概略図である。 音量変動特徴量を説明するための概略図である。 (A)~(E)は、聴感特徴量の時系列データを示す概略図である。 聴感特徴量情報を示す概略図である。 聴感スコア推定部での教師データの一例を示す概略図である。 (A)及び(B)は、ハードウェア構成例を示すブロック図である。
図1は、実施の形態に係る情報処理装置としての音質評価装置100の構成を概略的に示すブロック図である。
音質評価装置100は、入力部110と、評価対象音響特徴推定部120と、リファレンス音響特徴推定部130と、聴感特徴推定部140と、聴感スコア推定部150と、表示部160と、記録部170とを備える。
音質評価装置100は、音質を評価する対象となる音である評価対象音TSと、評価対象音TSと比較して、相対評価を行うためのリファレンス音RSとを、それぞれ入力とし、音質評価処理を行いリファレンス音RSに対する評価対象音TSの相対評価値を表示部160に表示するとともに、記録部170に評価結果を格納する。音質評価処理について以下説明する。
なお、音は、物の振動によって生じた音波を、聴覚器官等により感じとられたもののことであり、物の響き、人の声、鳥獣の鳴き声、及び、楽音等が含まれる。
入力部110は、評価対象音TS及びリファレンス音RSの入力を受ける。入力部110は、評価対象音TSを、評価対象音響特徴推定部120に与え、リファレンス音RSを、リファレンス音響特徴推定部130に与える。
評価対象音響特徴推定部120は、評価対象音TSの音響における特徴を示すための音響特徴量を推定する。評価対象音響特徴推定部120で推定される音響特徴量を第1の音響特徴量ともいう。
ここで、評価対象音響特徴推定部120が推定する各音響特徴量は、ステレオ度、こもり度、ノイズ度及び音量である。なお、ステレオ度は、入力音(ここでは、評価対象音)がどの程度ステレオ又はモノラルに近いかを示す。こもり度は、入力音がどの程度シャープな音かこもった音かを示す。ノイズ度は、入力音のノイズ混入度合いを示す。音量は、入力音の音量を示す。これらの音響特徴量は、いずれも物理的な特徴量として推定される。
図2は、評価対象音響特徴推定部120の構成を概略的に示すブロック図である。
評価対象音響特徴推定部120は、フレーム化部121と、STFT(Short-Time Fourier Tranform)処理部122と、フィルタバンク処理部123と、ステレオ度推定部124と、こもり度推定部125と、ノイズ度推定部126と、音量特徴抽出部127とを備える。
ここで、フレーム化部121は、第1のフレーム化部ともいい、STFT処理部122は、第1のSTFT処理部ともいい、フィルタバンク処理部123は、第1のフィルタバンク処理部ともいい、ステレオ度推定部124は、第1のステレオ度推定部ともいい、こもり度推定部125は、第1のこもり度推定部ともいい、ノイズ度推定部126は、第1のノイズ度推定部ともいい、音量特徴抽出部127は、第1の音量特徴抽出部ともいう。
フレーム化部121は、評価対象音TSから、予め定められた期間(例えば、28ms)の音を、一つの音フレームとして切り出す。切り出された音フレームは、STFT処理部122及びステレオ度推定部124に与えられる。
STFT処理部122は、音フレームに窓関数を掛けて短時間フーリエ変換を行うことにより、音フレームを周波数領域の信号である周波数領域信号に変換する。周波数領域信号は、フィルタバンク処理部123に与えられる。
フィルタバンク処理部123は、複数のバンドパスフィルタ処理によって、与えられた周波数領域信号を複数の周波数帯域成分に分割し、分割された成分を対数化することで対数化音フレームを生成する。
ステレオ度推定部124は、評価対象音TSの右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、評価対象音TSがステレオであるかモノラルであるかを推定して、時系列において評価対象音TSがステレオであるかモノラルであるかを示すステレオ度情報である評価対象ステレオ度情報を生成する。
こもり度推定部125は、評価対象音TSから抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第1の周波数領域信号に変換した後に、第1の周波数領域信号をフィルタバンクで処理して、対数化したノイズ有りの音信号パワーである第1のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、評価対象音TSのこもり度のレベルを推定する。
ノイズ度推定部126は、評価対象音TSの信号と、雑音との比率を示すSN比である評価対象SN比を推定する。
音量特徴抽出部127は、評価対象音TSの音量を抽出し、評価対象音TSから抽出された音量を時系列において示す音量特徴量時系列データである評価対象音量特徴量時系列データを生成する。
図1に戻り、リファレンス音響特徴推定部130は、リファレンス音RSの音響特徴量を推定する。リファレンス音響特徴推定部130で推定される音響特徴量を、第2の音響特徴量ともいう。
リファレンス音響特徴推定部130が推定する各音響特徴量も、ステレオ度、こもり度、ノイズ度及び音量である。
図3は、リファレンス音響特徴推定部130の構成を概略的に示すブロック図である。
リファレンス音響特徴推定部130は、フレーム化部131と、STFT処理部132と、フィルタバンク処理部133と、ステレオ度推定部134と、こもり度推定部135と、ノイズ度推定部136と、音量特徴抽出部137とを備える。
ここで、フレーム化部131は、第2のフレーム化部ともいい、STFT処理部132は、第2のSTFT処理部ともいい、フィルタバンク処理部133は、第2のフィルタバンク処理部ともいい、ステレオ度推定部134は、第2のステレオ度推定部ともいい、こもり度推定部135は、第2のこもり度推定部ともいい、ノイズ度推定部136は、第2のノイズ度推定部ともいい、音量特徴抽出部137は、第2の音量特徴抽出部ともいう。
フレーム化部131は、リファレンス音RSから、予め定められた期間(例えば、28ms)の音を、一つの音フレームとして切り出す。切り出された音フレームは、STFT処理部132及びステレオ度推定部134に与えられる。
STFT処理部132は、音フレームに窓関数を掛けて短時間フーリエ変換を行うことにより、音フレームを周波数領域の信号である周波数領域信号に変換する。周波数領域信号は、フィルタバンク処理部133に与えられる。
フィルタバンク処理部133は、複数のバンドパスフィルタ処理によって、与えられた周波数領域信号を複数の周波数帯域成分に分割し、分割された成分を対数化することで対数化音フレームを生成する。
ステレオ度推定部134は、リファレンス音RSの右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、リファレンス音RSがステレオであるかモノラルであるかを推定して、時系列においてリファレンス音RSがステレオであるかモノラルであるかを示すステレオ度情報であるリファレンスステレオ度情報を生成する。
こもり度推定部135は、リファレンス音RSから抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、第2の周波数領域信号をフィルタバンクで処理して、対数化したノイズ有りの音信号パワーである第2のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、リファレンス音RSのこもり度のレベルを推定する。
ノイズ度推定部136は、リファレンス音RSの信号と、雑音との比率を示すSN比であるリファレンスSN比を推定する。
音量特徴抽出部137は、リファレンス音RSの音量を抽出し、リファレンス音RSから抽出された音量を時系列において示す音量特徴量時系列データであるリファレンス音量特徴量時系列データを生成する。
図1に戻り、聴感特徴推定部140は、評価対象音の音響特徴量と、リファレンス音の音響特徴量と、人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、評価対象音響特徴推定部120により推定された音響特徴量及びリファレンス音響特徴推定部130で推定された音響特徴量に対応する聴感特徴量を推定する。聴感特徴推定部140は、抽出された聴感特徴量を聴感スコア推定部150に与える。
ここでの、人の聴感は、ステレオモノラル変動感、こもり感、ノイズ感及び音量変動感である。
また、一定期間単位は、例えば、15秒間等のセグメント単位である。
聴感特徴推定部140は、ステレオモノラル変動感推定部141と、こもり感推定部142と、ノイズ感推定部143と、音量変動感推定部144とを備える。
ステレオモノラル変動感推定部141は、評価対象音響特徴推定部120のステレオ度推定部124で生成されたステレオ度情報と、リファレンス音響特徴推定部130のステレオ度推定部134で生成されたステレオ度情報とに基づいて、一定期間毎に、評価対象音TSにおけるステレオ及びモノラルの切替回数と、リファレンス音RSにおけるステレオ及びモノラルの切換回数との差である切換回数差を算出する。そして、ステレオモノラル変動感推定部141は、切換回数差と、ステレオ及びモノラルが切り替わることによる人の聴感の評価値であるステレオモノラル変動推定スコアとの関係性を学習したステレオモノラル学習モデルを用いて、算出された切換回数差に対応するステレオモノラル変動推定スコアを推定する。
こもり感推定部142は、一定期間毎に、評価対象音TSのこもり度のレベル毎の継続時間を評価対象こもり度特徴量として特定する。また、こもり感推定部142は、一定期間毎に、リファレンス音RSのこもり度のレベル毎の継続時間をリファレンスこもり度特徴量として特定する。そして、こもり感推定部142は、評価対象こもり度特徴量及びリファレンスこもり度特徴量と、こもり度の大きさによる人の聴感の評価値であるこもり感推定スコアとの関係性を学習したこもり感学習モデルを用いて、特定された評価対象こもり度特徴量及び特定されたリファレンスこもり度特徴量に対応するこもり感推定スコアを推定する。
ノイズ感推定部143は、評価対象音響特徴推定部120のノイズ度推定部126で推定されたSN比と、リファレンス音響特徴推定部130のノイズ度推定部136で推定されたSN比との差分を、大きさに従って予め定められた複数のレベルに分類し、一定期間毎に、複数のレベルの各々に分類された差分の継続時間を示すノイズ大きさ特徴量を特定する。そして、ノイズ感推定部143は、ノイズ大きさ特徴量と、ノイズの大きさによる人の聴感の評価値であるノイズ大きさ感推定スコアとの関係性を学習したノイズ大きさ学習モデルを用いて、特定されたノイズ大きさ特徴量に対応するノイズ大きさ感推定スコアを推定する。
また、ノイズ感推定部143は、評価対象音響特徴推定部120のノイズ度推定部126で推定されたSN比と、リファレンス音響特徴推定部130のノイズ度推定部136で推定されたSN比との差分を時系列において示すSN差分時系列データを生成する。さらに、ノイズ感推定部143は、生成されたSN差分時系列データに含まれている下向きのピークの内、予め定められた条件を満たすピークを抽出し、抽出されたピークの内、予め定められた閾値よりも深いピークの数を、一定期間毎に集計した値をノイズ頻度特徴量として特定する。そして、ノイズ感推定部143は、ノイズ頻度特徴量と、ノイズの頻度による人の聴感の評価値であるノイズ頻度感推定スコアとの関係性を学習したノイズ頻度学習モデルを用いて、特定されたノイズ頻度特徴量に対応するノイズ頻度感推定スコアを推定する。
音量変動感推定部144は、評価対象音響特徴推定部120の音量特徴抽出部127が生成した音量特徴量時系列データ、及び、リファレンス音響特徴推定部130の音量特徴抽出部137が生成した音量特徴量時系列データの各々を周波数領域データに変換して、変換された周波数領域データで示されるパワーを周波数帯域に分割し、分割された周波数帯域毎のパワーに基づいて、一定期間毎における予め定められた音量変動特徴量を特定する。そして、音量変動感推定部144は、音量変動特徴量と、音量が変動することによる人の聴感の評価値である音量変動感推定スコアとの関係性を学習した音量変動学習モデルを用いて、特定された音量変動特徴量に対応する音量変動感推定スコアを推定する。
聴感スコア推定部150は、セグメントにおける聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、聴感特徴推定部140で推定された聴感特徴量の時系列データに対応する聴感スコアを推定する。
表示部160は、上述した、第1の音響特徴量、第2の音響特徴量、推定された聴感特徴量及び推定された聴感スコアの少なくとも何れか一つを表示する。
また、記録部170は、上述した、第1の音響特徴量、第2の音響特徴量、推定された聴感特徴量及び推定された聴感スコアの少なくとも何れか一つを記憶する。
次に、音質評価装置100の動作について説明する。
図4は、音質評価装置100の全体的な処理の流れを示す概略図である。
入力音(ここでは、評価対象音TS又はリファレンス音RS)は、図中の上から下に向かって、第1ステップ、第2ステップ、及び、第3ステップの順で処理されて、聴感スコアが推定される。
ここで、第1ステップの処理は、評価対象音響特徴推定部120及びリファレンス音響特徴推定部130で行われる処理である。第2ステップの処理は、聴感特徴推定部140で行われる処理である。第3ステップの処理は、聴感スコア推定部150で行われる処理である。
まず、第1ステップの処理について説明する。
ここで、第1ステップの処理は、評価対象音響特徴推定部120及びリファレンス音響特徴推定部130において行われる。評価対象音響特徴推定部120及びリファレンス音響特徴推定部130で行われる処理は、対象が異なるのみで、内容は同様であるため、以下では、評価対象音響特徴推定部120での処理についてメインに説明する。
図2に示されているフレーム化部121は、入力音である評価対象音TSから、予め定められた期間(例えば、28ms)の音を、一つの音フレームとして切り出す。切り出された音フレームは、STFT処理部122及びステレオ度推定部124に与えられる。
なお、フレーム化部121は、フレーム間の連続性を考慮して、隣接フレームがオーバラップするように音フレームを切り出す。図4に示されている例では、フレーム化部121は、ある音フレームから14msシフトして、14msのオーバラップを設けて、次の音フレームを切り出す。
切り出された音フレームには、こもり度推定部125及びノイズ度推定部126の処理が行われる前に前処理が行われる。前処理は、STFT処理部122及びフィルタバンク処理部123で行われる。
STFT処理部122は、音フレームに窓関数を掛けて短時間フーリエ変換を行うことにより、音フレームを周波数領域の信号である周波数領域信号に変換する。周波数領域信号は、フィルタバンク処理部123に与えられる。
フィルタバンク処理部123は、複数のバンドパスフィルタ処理によって、与えられた周波数領域信号を複数の周波数帯域成分に分割し、分割された成分を対数化することで対数化音フレームを生成する。
図5は、以上の前処理を説明するための概略図である。
図5に示されているように音フレームは、短時間フーリエ変換(STFT)が行われた後に、フィルタバンクで処理されて、対数化される。
ここで、フィルタバンク処理部123は、図5に示すようにメルフィルタバンクを用いてもよい。メルフィルタバンクは、低周波数ほど周波数の違いに敏感という人間の知覚を反映するため、図5に示されているように三角形状のフィルタを使用して、実際の周波数から聴覚上の周波数であるメル周波数に変換するものである。
第1ステップでは、図4に示されているように、一つの音フレーム単位で、音響特徴量が抽出される。ここでは、ステレオ度推定部124によりステレオ度(ここでは、ステレオであるかモノラルであるか)が推定され、こもり度推定部125によりこもり度が推定され、ノイズ度推定部126によりノイズ度(ここでは、SN比)が推定され、音量特徴抽出部127により音量が抽出される。これらの処理については、後述する。なお、音量については音フレーム長を超える音から特徴量が抽出されてもよい。これは、後述するラウドネスによる音量特徴抽出に対応する。
次に、第2ステップでは、図1に示されている聴感特徴推定部140は、複数の音フレームから構成されるセグメント長単位(ここでは、15秒長単位)で、聴感特徴量を推定する。第1ステップでは、物理的な音響特徴量が抽出されるが、第2ステップでは、短時間の音フレーム単位で抽出された音響特徴量の時系列情報から、人の聴感を学習した各種聴感学習モデルを用いて人がある程度聴感で判定できるようにするため、例えば、15秒等の少し長いセグメント単位で、各種聴感特徴量が推定される。
第2ステップでは、音量変動感推定部144が音量変動感を推定し、ステレオモノラル変動感推定部141がステレオモノラル変動感を推定し、こもり感推定部142がこもり感を推定し、ノイズ感推定部143がノイズ感を推定する。これらの処理については、後述する。
第3ステップでは、聴感スコア推定部150は、セグメント長単位で推定された聴感特徴量を複数用いた聴感特徴量の時系列データから、コンテンツ全体での聴感スコアを推定する。例えば、車載ラジオ受信機の音質を評価する場合、第3ステップでは、フィールドテストコースを一周走行している間にラジオ受信機が出力した数分程度の音データ長の音質を評価する処理を行う。具体的な処理については、後述する。
次に、図2に示されている評価対象音響特徴推定部120のステレオ度推定部124の詳細処理について、図6及び図7を用いて説明する。なお、上述のように、図3に示されているリファレンス音響特徴推定部130のステレオ度推定部134でも同様の処理が行われる。
ステレオ度推定部124は、事前に学習しておいたステレオモノラル判定学習モデルを用いて、ステレオ度を推定する。
具体的には、ステレオ度推定部124は、図6に示されている識別フェーズにおいて、フレーム化部121から与えられた音フレームに対して、複数種類の特徴量を抽出する。そして、ステレオ度推定部124は、ステレオモノラル判定学習モデルを用いた学習分類器で、抽出された特徴量に対してステレオかモノラルかの分類を行う。
ステレオモノラル判定学習モデルの学習方法については、図6で学習フェーズとして示されているように、音フレームと、その音フレームがステレオであるか、モノラルであるかを示す教師ラベルとを対応付けた教師データを事前に用意しておく。
具体的には、音フレームがステレオの場合、図6で示されている学習フェーズにおいて、ステレオの音フレームからステレオの特徴量が抽出される。このステレオの特徴量と、その音フレームに対応する教師ラベル(ここでは、ステレオを示すラベル)を学習分類器に入力することで、学習分類器の学習が実施され、生成された学習モデルをステレオモノラル判定学習モデルとして記憶しておく。
特徴量抽出処理で抽出されるステレオ又はモノラルの特徴量は、図7に示されている、1-|相互相関係数|、遅延時間及びΔ(Lch-Rch)の三種類の特徴量である。
ここで、1-|相互相関係数|の特徴量について説明する。
音信号は、ステレオ信号であり音フレームも右チャンネル及び左チャンネルのステレオ音から生成されたフレーム信号であり、ステレオ度推定部124は、この左右チャンネル間の相互相関係数を求める。相互相関係数が1なら左右チャンネルは完全同一信号波形であることを示し、0なら無相関、-1なら逆相関となる。1から相互相関係数の絶対値を引いたものを特徴量の一つとして生成することで、モノラル音なら0に、ステレオなら1になるようにする。
次に、ステレオ度推定部124は、左右チャンネル間の遅延時間を特徴量として算出する。例えば、ステレオ度推定部124は、左チャンネルの信号及び右チャンネルの信号の何れか一方の時間をずらして、これらの相互相関係数を算出することで、遅延時間を算出すればよい。
さらに、ステレオ度推定部124は、左右チャンネルのパワー差分の時間変化であるΔ(Lch-Rch)を算出する。
以上の三つの特徴量は、図7に示されているステレオ特徴空間を構成し、原点に近いほどモノラル度が強いことを示す。
このようなステレオ特徴空間におけるステレオとアナログとの判定を、ステレオモノラル判定学習モデルとして学習しておくことで、適切な判定を行うことができるようになる。
次に、図2に示されている評価対象音響特徴推定部120のこもり度推定部125の詳細処理について、図8及び図9を用いて説明する。なお、上述のように、図3に示されているリファレンス音響特徴推定部130のこもり度推定部135でも同様の処理が行われる。
図8(A)に示されているように、鋭い印象の音は、高域周波数成分のスペクトルパワーが強くスペクトル形状は比較的矩形の形状である。
一方、図8(C)に示されているように、鈍くこもった印象の音は、高域周波数成分のスペクトルパワーが弱くスペクトル形状は比較的三角形が強い形状になる傾向がある。
また、図8(B)に示されているように、鋭い印象の音と、鈍くこもった印象の音との間の中間的な音については、図8(B)に示されているように、高域周波数成分のスペクトルパワーが弱いながらも残り、スペクトル形状は台形的な形状になる傾向がある。
そこで、こもり度推定部125は、周波数スペクトルを一つの二次元図形として見た場合に、その重心を求め、重心の横軸成分、言い換えると、重心における周波数値を重心周波数によりこもり度のレベルを推定する。これによりクリアな音は、重心周波数が高く、こもった音は重心周波数が低くなるという特徴を推定することができる。
さらに、こもり度推定部125は、後述するノイズ度推定部126からの帯域毎のノイズ度を特徴量に追加してもよい。
そして、図9の学習フェーズに示されているように、こもり度推定部125は、これら特徴量を用いて、こもり度の学習分類器によって、こもり度の大きさとして大、中、小又は無のレベルを学習する。こもり度推定部125は、このようにして学習することで生成されたこもり度学習モデルを用いて、図9の識別フェーズにおいて、こもり度のレベルであるこもり度レベルを推定する。
次に、図2に示されている評価対象音響特徴推定部120のノイズ度推定部126の詳細処理について、図10~図20を用いて説明する。なお、上述のように、図3に示されているリファレンス音響特徴推定部130のノイズ度推定部136でも同様の処理が行われる。
図10は、ノイズ度推定部126の構成を概略的に示すブロック図である。
ノイズ度推定部126は、ノイズ除去部126aと、SN推定部126bとを備える。
なお、リファレンス音響特徴推定部130のノイズ度推定部136も同様に構成することができる。
ここで、ノイズ度推定部126のノイズ除去部126aを第1のノイズ除去部と、ノイズ度推定部126のSN推定部126bを第1のSN推定部ともいう。
なお、図示してはいないが、ノイズ度推定部136のノイズ除去部を第2のノイズ除去部と、ノイズ度推定部136のSN推定部を第2のSN推定部ともいう。
ノイズ除去部126aは、フィルタバンク部107から与えられる対数化音フレームから、分割帯域毎にノイズが重畳される前の元コンテンツの音信号パワーを推定する。ここで、対数化音フレームは、周波数帯域分割されたノイズ有りの音信号パワー(S+N)を示す。また、ここで推定された音信号パワーは、ノイズ無しの音信号パワー(推定S)ともいう。
そして、ノイズ無しの音信号パワー(推定S)は、SN推定部126bに与えられる。
言い換えると、ノイズ除去部126aは、評価対象音TSから抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第1の周波数領域信号に変換した後に、第1の周波数領域信号をフィルタバンクで処理して、対数化した第1のノイズ有りの音信号パワーから、ノイズを除去した第1のノイズ無しの音信号パワーを推定する。
なお、ノイズ度推定部136のノイズ除去部は、リファレンス音RSから抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、前記第2の周波数領域信号をフィルタバンクで処理して、対数化した第2のノイズ有りの音信号パワーから、ノイズを除去した第2のノイズ無しの音信号パワーを推定する。
SN推定部126bは、推定されたノイズ無しの音信号パワー(推定S)と、対数化音フレームで示される、ノイズ除去する前のノイズ有りの音信号パワー(S+N)とからノイズ度としてのSN比を推定する。このSN比の推定は、分割された周波数帯域毎に行われる。
言い換えると、SN推定部126bは、第1のノイズ有りの音信号パワーと、第1のノイズ無しの音信号パワーとを用いて、評価対象音TSのSN比を推定する。
なお、ノイズ度推定部136のSN推定部は、第2のノイズ有りの音信号パワーと、第2のノイズ無しの音信号パワーとを用いて、リファレンス音RSのSN比を推定する。
図11は、ノイズ除去部126aの構成を概略的に示すブロック図である。
ノイズ除去部126aは、第1オートエンコーダ126b-1と、第2オートエンコーダ126b-2と、多層ニューラルネット処理部126b-3とを備える。ここでは、オートエンコーダが二段の場合を示しているが、その段数は二段に限る必要はない。三段以上の構成であってもよく、段数を増やすことでノイズ除去性能を向上させることができる。
ノイズ除去部126aには、フィルタバンク部107から、周波数帯域分割されたノイズ有りの音信号パワーを示す対数化音フレームが、複数フレーム分入力される。
図11では、時刻tの対数化音フレームS+N(t)に対するSを推定する構成を示している。この場合、ノイズ除去部126aには、時刻tの対数化音フレームS+N(t)の他、その前の時刻t-1における対数化音フレーム及びその後の時刻t+1における対数化音フレームS+N(t+1)も入力される。
次に、ノイズ除去部126aの学習方法を説明する。
図12は、第1オートエンコーダ126b-1の学習方法を説明するための概略図である。
第1オートエンコーダ126b-1は、エンコーダEn1と、デコーダDe1とを備える。
図示するように、エンコーダEn1と、デコーダDe1とは、対象な構成になっている。
また、第1オートエンコーダ126b-1は、入力ノード数よりも中間ノード数が少なく、出力ノード数は、入力ノード数と同じとなるニューラルネットワークである。
ここでの学習は、フィルタバンク部107からの時刻t-1、時刻t、及び、時刻t+1における周波数帯域分割された、隣接する対数化音フレームS+N(t-1)、対数化音フレームS+N(t)、及び、対数化音フレームS+N(t+1)を、第1オートエンコーダ126b-1に入力し、第1オートエンコーダ126b-1の出力がこれら入力と同じになるようにニューラルネットワークの重みWと、バイアスbとが学習される。そのため教師ラベルは不要である。
図13は、第2オートエンコーダ126b-2の学習方法を説明するための概略図である。
第2オートエンコーダ126b-2は、エンコーダEn2と、デコーダDe2とを備える。
図示するように、エンコーダEn2と、デコーダDe2とは、対象な構成になっている。
なお、図13に示されているように、第2オートエンコーダ126b-2の中間ノード数はさらに絞り込まれた構成になっている。
第2オートエンコーダ126b-2の学習は、図13に示されているように、学習済みの第1オートエンコーダ126b-1のエンコーダEn1の出力を入力として使用する。
第2オートエンコーダ126b-2でも、第1オートエンコーダ126b-1の学習と同様に教師ラベルは不要で、第2オートエンコーダ126b-2の入力と出力が同一になるように、ニューラルネットワークの重みWとバイアスbとが学習される。
図14は、多層ニューラルネット処理部126b-3の学習方法を説明するための概略図である。
図14に示されているように、学習済みの第1オートエンコーダ126b-1のエンコーダEn1の出力が、学習済みの第2オートエンコーダ126b-2のエンコーダEn2に入力され、学習済みの第2オートエンコーダ126b-2のエンコーダEn2の出力が、多層ニューラルネット処理部126b-3に入力される。
この多層ニューラルネット処理部126b-3への入力は、入力された対数化音フレームの各分割帯域に対応したノイズ除去された音スペクトルのパワーである。
さらに、多層ニューラルネット処理部126b-3には、図11に示されているように、時刻t-1、時刻t、及び、時刻t+1における周波数帯域分割された隣接する対数化音フレームS+N(t-1)、対数化音フレームS+N(t)、及び、対数化音フレームS+N(t+1)も入力される。
このような構成において、この多層ニューラルネット処理部126b-3での学習用教師データ生成について説明する。
ノイズが重畳される前の音データと、これにノイズを重畳した音データとを用意し、フレーム化部121、STFT処理部122及びフィルタバンク処理部123で処理された各音データの対数化音フレームの出力を取得し、第2オートエンコーダ126b-2のエンコーダEn2の出力と、ノイズが重畳された音データに対するフィルタバンク処理部123からの周波数帯域分割された隣接する三つの対数化音フレームの出力、即ち、対数化音フレームS+N(t-1)、対数化音フレームS+N(t)及び対数化音フレームS+N(t+1)と、これらに対応するノイズ重畳前の音データに対する周波数帯域分割された対数化音フレームの出力、即ち、対数化音フレームS(t)とを教師ラベルとして対応づけて教師データを生成する。
図15は、多層ニューラルネット処理部126b-3の教師データの構成を示す概略図である。
図15に示されているように、多層ニューラルネット処理部126b-3の教師データは、ノイズが重畳された音データに対するフィルタバンク処理部123から出力される対数化音フレームS+N(t-1)、対数化音フレームS+N(t)及び対数化音フレームS+N(t+1)と、ノイズが重畳された音データに対する第2オートエンコーダ126b-2のエンコーダEn2から出力される対数化音フレームS(t)と、ノイズ重畳前の音データに対するフィルタバンク処理部123から出力される対数化音フレームS(t)とが対応付けられている。
このような教師データを用いて、多層ニューラルネット処理部126b-3は、各入力信号と、教師ラベルとの関係を学習する。この学習では、入力データが出力データとの誤差が小さくなるようにニューラルネットワークの各ノードの重みWとバイアスbとが学習される。このようにして学習されたニューラルネットワークを用いて、入力音に対してノイズ除去されたノイズ無しの音信号パワー(推定S)が多層ニューラルネット処理部126b-3から出力される。
次に、図10に示されているSN推定部126bについて説明する。
図10に示されているように、SN推定部126bへは、ノイズ除去部126aからの時刻tにおけるノイズ無しの音信号パワー(推定S)、時刻tにおけるノイズ有りの音信号パワー(S+N)が入力される。いずれもフィルタバンク処理部123からの出力に基づくため、帯域分割された各帯域の対数化フィルタバンク出力である。
SN推定部126bはこれらを入力として、時刻tにおける各帯域のSN比をそれぞれ推定する。
SN推定部126bは、図16に示すようなLSTM(Long Short Term Memory)ネットワークを用いたSN推定ネットワークとして構成する。LSTMネットワークは、図16に示されているように、シーケンス入力層、LSTM層、全結合層、ドロップアウト層、全結合層及びregression層で構成される。
ノイズ有りの音信号パワー(S+N)をこのLSTMネットワークに入力して、このLSTMネットワークから出力された値と、教師データとしてのノイズ無しの音信号パワー(推定S)との誤差が小さくなるように、各相の重みパラメータを修正することで、期待値に近いSN比が出力されるようになる。
図17は、LSTMネットワークの動作を示す概略図である。
図17に示されているように、LSTMネットワークは、時系列データに対して時間ステップ毎に推定値を出力する。時刻tにおけるデータ(ここでは、ノイズ無しの音信号パワー(推定S)及びノイズ有りの音信号パワー(S+N)の各帯域の対数化フィルタバンク出力)と、時刻t-1で生成されたLSTM隠れ層の値がLSTM層に入力され、隠れ層に格納される。
隠れ層の出力は、全結合層、ドロップアウト層、全結合層、regression層を経て時刻tにおける推定値(ここでは、各帯域のSN比)が出力される。LSTMネットワークは、このように現在の入力データだけでなく過去の情報も用いる点が特徴であり長期的な依存関係を学習することのできるリカレントニューラルネットワークである。
LSTMネットワークの学習については、音信号に既知のノイズを重畳したノイズ有り音とこれに対応する教師ラベルを使用する。教師ラベルについては、音信号と既知のノイズそれぞれについて、フィルタバンク処理部123の出力、即ち各帯域の対数化フィルタバンク出力毎の比(即ち帯域別SN比)を教師ラベルとして用意する。この教師データを用いて帯域別SN比を推定するLSTMネットワークの学習を行う。
図18は、ノイズ度推定部126の第1の変形例の構成を概略的に示すブロック図である。
ノイズ度推定部126の第1の変形例は、ノイズ除去部126aと、SN推定部126cとを備える。
図18に示されているノイズ除去部126aは、図10に示されているノイズ除去部126aと同様である。
なお、リファレンス音響特徴推定部130のノイズ度推定部136の第1の変形例も、図示してはいないが、ノイズ除去部と、SN推定部とを備える。
ここで、ノイズ度推定部126のノイズ除去部126aを第1のノイズ除去部と、ノイズ度推定部126のSN推定部126cを第1のSN推定部ともいう。
また、リファレンス音響特徴推定部130のノイズ度推定部136のノイズ除去部を第2のノイズ除去部と、ノイズ度推定部136のSN推定部を第2のSN推定部ともいう。
図18に示されているSN推定部126cには、こもり度推定部125からの、こもり度レベルを示すこもり度情報が入力されている。
例えば、ラジオ受信機においては、復調音のノイズが強い場合、ローパスフィルタにより耳障りなノイズを軽減する出力音制御がなされる。この場合、低域のノイズが大きいと、こもり度が強くなるという相関があると考えられる。そして、こもり度が強くなると、受信機出力音のSN比は低くなるという相関があると考えられる。そこでSN比を推定する際にこの相関関係を学習し、この学習モデルを用いることで推定精度を向上させることができる。
言い換えると、SN推定部126cは、第1のノイズ有りの音信号パワーと、第1のノイズ無しの音信号パワーと、評価対象音TSのこもり度のレベルとを用いて、評価対象音TSのSN比を推定する。
また、リファレンス音響特徴推定部130のノイズ度推定部136の、図示しないSN推定部は、第2のノイズ有りの音信号パワーと、第2のノイズ無しの音信号パワーと、リファレンス音RSのこもり度のレベルを用いて、リファレンス音RSのSN比を推定する。
図19は、ノイズ度推定部126の第2の変形例の構成を概略的に示すブロック図である。
ノイズ度推定部126の第2の変形例は、ノイズ除去部126aと、SN計算部126dとを備える。
図19に示されているノイズ除去部126aは、図10に示されているノイズ除去部126aと同様である。
なお、リファレンス音響特徴推定部130のノイズ度推定部136の第2の変形例も、図示してはいないが、ノイズ除去部と、SN計算部とを備える。
ここで、ノイズ度推定部126のノイズ除去部126aを第1のノイズ除去部と、ノイズ度推定部126のSN計算部126dを第1のSN計算部ともいう。
また、リファレンス音響特徴推定部130のノイズ度推定部136のノイズ除去部を第2のノイズ除去部と、ノイズ度推定部136のSN計算部を第2のSN計算部ともいう。
SN計算部126dは、SN比として、時刻tにおけるノイズ無しの音信号パワー(推定S)と、時刻tにおけるノイズ有りの音信号パワー(S+N)との各帯域の対数化フィルタバンク出力の比を計算で求めてもよい。すなわち、帯域毎に、時刻tにおけるノイズ有りの音信号パワー(S+N)から、時刻tにおけるノイズ無しの音信号パワー(推定S)を減算することで、時刻tにおけるノイズの音信号パワー(推定N)を求め、時刻tにおけるノイズ無しの音信号パワー(推定S)を時刻tにおけるノイズの音信号パワー(推定N)で除算することで、時刻tにおける各帯域のSN比を求めることができる。これは推定されたノイズ無しの音信号パワー(推定S)の精度が高い場合に有効である。
言い換えると、SN計算部126dは、第1のノイズ有りの音信号パワーから、第1のノイズ無しの音信号パワーを減算することで第1のノイズの音信号パワーを算出し、第1のノイズ無しの音信号パワーと、第1のノイズの音信号パワーとを用いて、評価対象音TSのSN比を推定する。
なお、リファレンス音響特徴推定部130のノイズ度推定部136の、図示しないSN計算部は、第2のノイズ有りの音信号パワーから、第2のノイズ無しの音信号パワーを減算することで第2のノイズの音信号パワーを算出し、第2のノイズ無しの音信号パワーと、第2のノイズの音信号パワーとを用いて、リファレンス音RSのSN比を推定する。
図20は、ノイズ度推定部126の第3の変形例の構成を概略的に示すブロック図である。
ノイズ度推定部126の第3の変形例は、ノイズ推定部126eと、SN特定部126fとを備える。
なお、図示してはいないが、リファレンス音響特徴推定部130のノイズ度推定部136の第3の変形例も、ノイズ推定部と、SN特定部とを備える。
ここで、ノイズ度推定部126のノイズ推定部126eを第1のノイズ推定部と、ノイズ度推定部126のSN特定部126fを第1のSN特定部ともいう。
また、リファレンス音響特徴推定部130のノイズ度推定部136のノイズ推定部を第2のノイズ推定部と、ノイズ度推定部136のSN特定部を第2のSN特定部ともいう。
この第3の例では、ノイズ推定部126eで、ノイズの音信号パワー(推定N)を推定し、SN特定部126fは、推定されたノイズの音信号パワー(推定N)と、ノイズ有りの音信号パワー(S+N)から、SN比を上述のSN推定ネットワークにより、又は、上述のSN計算により求める。
ここで、ノイズ推定部126eは、LSTMネットワークにおいて、ノイズ有りの音信号パワー(S+N)を入力とし、ノイズの音信号パワーを教師データとすることにより、SN比を推定すればよい。
言い換えると、ノイズ推定部126eは、評価対象音TSから抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第1の周波数領域信号に変換した後に、第1の周波数領域信号をフィルタバンクで処理して、対数化した第1のノイズ有りの音信号パワーから、評価対象音TSのノイズの音信号パワーに相当する第1のノイズの音信号パワーを推定する。
そして、SN特定部126fは、第1のノイズ有りの音信号パワーと、第1のノイズの音信号パワーとを用いて、評価対象音のSN比を特定する。
また、リファレンス音響特徴推定部130のノイズ度推定部136の、図示しないノイズ推定部は、リファレンス音RSから抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、第2の周波数領域信号をフィルタバンクで処理して、対数化した第2のノイズ有りの音信号パワーから、リファレンス音RSに含まれているノイズの音信号パワーに相当する第2のノイズの音信号パワーを推定する。
そして、リファレンス音響特徴推定部130のノイズ度推定部136の、図示しないSN特定部は、第2のノイズ有りの音信号パワーと、第2のノイズの音信号パワーとを用いて、リファレンス音RSのSN比を特定する。
さらに、ノイズ度推定部126において、推定されたノイズ無しの音信号パワー(推定S)、推定されたSN比、及び、ノイズ有りの音信号パワー(S+N)からより聴感にあった実効ノイズ感としての聴感S、及び、実効信号感としての聴感Sが、下記の(1)式~(4)式により算出され、表示部160での表示及び、記録部170での保存が行われてもよい。
実効値E={Pw-(実効値E1/2 (1)
実効値E={Pw×SNR÷(SNR+1)}1/2 (2)
ここで、Pwは、ノイズ有りの音信号パワー(S+N)の電力のフレームにおける平均値である。
また、SNR=10推定されたSN比/10である。
聴感S=(実効値E)÷(実効値E+実効値E) (3)
聴感S=(実効値E)÷(実効値E+実効値E) (4)
推定されるSN比は、ノイズ成分が微小値であっても、分子の信号成分が無音になると信号成分をノイズ成分で除算した値が0に近づくため、-∞(デジベル:dB)となり、極端に悪いSN比となる。このため、推定されるSN比は、実際のノイズ感と大きく異なってしまう。また、SN比が悪化したのかが表示波形で区別できない問題がある。
そこで、実効値Eの表示が考えられるが、実効値Eが小さく、且つ、あまり実効値Eの変化がない場合でも、信号成分の音量が小さくなると、実際のノイズ感は大きく感じられるが、実効値E自体は変化がないので聴感とミスマッチが生じる。
ここでは、聴感Sとして、(実効値E+実効値E)に対する(実効値E)の比率が算出されるため、信号成分が無音の場合でも、聴感S=1が上限となり、SN比のように-∞にはならず、実際のノイズ感と大きくずれることはない。
また、実効値Eがあまり変化のない場合において、信号成分の音量が小さくなった場合、聴感Sは1に近づくため、実際のノイズ感を反映することができる。
さらに、推定されたSN比の表示の場合のように、信号成分が無音になったのか、ノイズ成分が大きくなったのかを区別することができる表示となる。
以上のように聴感Sは、推定されたノイズの音信号パワー(推定N)、推定されたSN比よりも、実際の聴感にマッチしたノイズ感及び信号感の表現ができるので、聴感ノイズ評価を行う際に有効な客観データとして活用できる。
同様に聴感Sも、(実効値E)を(実効値E+実効値E)で除算することで、聴感にあった指標として活用することができる。
なお、評価対象音響特徴推定部120のノイズ度推定部126で算出される実行値Eを第1の実行値EN1ともいい、ノイズ度推定部126で算出される実行値Eを第2の実行値ES1ともいい、ノイズ度推定部126で算出される聴感Sを第1の実効信号感SS1ともいい、ノイズ度推定部126で算出される聴感Sを第1の実効ノイズ感SE1ともいう。
また、ノイズ度推定部126での算出で使用されるPWをPW1と示すこともあり、PW1は、評価対象音TSから抽出された音フレームにおけるノイズ有りの音信号パワーの平均値である。
さらに、ノイズ度推定部126での算出で使用されるSNRをSNRP1と示すこともあり、SNRP1=10評価対象SN比/10である。
なお、リファレンス音響特徴推定部130のノイズ度推定部136で算出される実行値Eを第3の実行値EN2ともいい、ノイズ度推定部136で算出される実行値Eを第4の実行値ES2ともいい、ノイズ度推定部136で算出される聴感Sを第2の実効信号感SS2ともいい、ノイズ度推定部136で算出される聴感Sを第2の実効ノイズ感SE2ともいう。
また、ノイズ度推定部136での算出で使用されるPWをPW2と示すこともあり、PW2は、リファレンス音RSから抽出された音フレームにおけるノイズ有りの音信号パワーの平均値である。
さらに、ノイズ度推定部136での算出で使用されるSNRをSNRP2と示すこともあり、SNRP2=10リファレンスSN比/10である。
なお、リファレンス音響特徴推定部のノイズ度推定部136も、上記の(1)式~(4)式と同様の式を用いて、聴感S及び聴感Sを算出することができる。
図2に戻り、評価対象音響特徴推定部120の音量特徴抽出部127は、入力音(ここでは、評価対象音)の比較的低周波数の音量を抽出する。
音量特徴抽出部127は、入力音をラウドネス情報に変換して、変換された情報を音量情報として出力する。ラウドネスは、低い周波数ほど感度が悪く、2kHzから4kHzにおいて感度が良いという人の聴感を反映した指標である。
図21に示されているように、音量特徴抽出部127は、評価対象音TSに対応する音信号を、例えば、4秒毎といった一定期間毎に、切り出し位置を一定時間(例えば、14ms)だけシフトして切り出していき、その切り出した音信号を用いてラウドネスを算出する。ラウドネスは、ITU-R BS.1770-4、EBU R 128 standardsに記載の公知の方法で計算すればよい。このようにして、音量特徴抽出部127は、サンプリング周期14msの音量時系列データを音量特徴量として生成し、その音量特徴量を出力する。
または、音量特徴抽出部127は、図22に示されているようにして、音量特徴量を生成してもよい。なお、図22に示されている場合には、図2に示されている音量特徴抽出部127は、フレーム化部121から出力される音フレームの入力を受ける。
図22ではまず、音量特徴抽出部127は、音フレームに対応する音に対してFFT(高速フーリエ変換)を行うことで、周波数領域の信号を生成する。そして、音量特徴抽出部127は、その周波数領域の信号をメルフィルタバンクにかけて、各帯域のスペクトル成分を取り出し、対数をとったメル周波数スペクトルを生成する。
そして、音量特徴抽出部127は、生成されたメル周波数スペクトルに対して、離散コサイン変換(DCT)を行い、メル周波数ケプストラムに変換して、その低次成分の係数を取り出したメル周波数ケプストラム係数(MFCC)を得る。これは音フレーム毎に生成される。音量特徴抽出部127は、例えば、MFCCの1次元の低域成分をフレーム毎に取り出した時系列データを音量特徴量として出力してもよい。
次に、図1に示されている聴感特徴推定部140の詳細を説明する。
聴感特徴推定部140は、ステレオモノラル変動感推定部141と、こもり感推定部142と、ノイズ感推定部143と、音量変動感推定部144とを備える。
ステレオモノラル変動感推定部141、こもり感推定部142、ノイズ感推定部143及び音量変動感推定部144は、いずれも図23に示されているように、学習フェーズにおいて、評価対象音響特徴推定部120から与えられる評価対象音の音響特徴量と、リファレンス音響特徴推定部130から与えられるリファレンス音の音響特徴量とから対応する特徴量を推定し、推定された特徴量と、教師データとを用いて、学習識別器により学習モデルを生成する。そして、ステレオモノラル変動感推定部141、こもり感推定部142、ノイズ感推定部143及び音量変動感推定部144の各々は、識別フェーズにおいて、評価対象音響特徴推定部120から与えられる評価対象音の音響特徴量と、リファレンス音響特徴推定部130から与えられるリファレンス音の音響特徴量とから対応する特徴量を推定し、推定された特徴量と、学習モデルとを用いて、それぞれの分類結果を出力する。
まず、ステレオモノラル変動感推定部141について説明する。
ステレオモノラル変動感推定部141は、評価対象音TSと、リファレンス音RSとそれぞれについて、ステレオからモノラルへの切り替え発生回数を求め、図24に示すように、評価対象音TSとリファレンス音RSとにおけるステレオからモノラルへの切り替え発生回数の差を特徴量として抽出する。
この発生回数のカウントは、セグメント(例えば15秒間)毎に行われ、ステレオモノラル変動感推定部141は、セグメント毎に一つ特徴量として、その発生回数の差を算出する。
そして、学習用の教師データは、図25に示すように、セグメント毎にステレオモノラル変動感スコアとして評価者が予めスコアリングしたデータが用いられる。
スコアリングは、例えば、リファレンス音RSと比較して、評価対象音TSの切り替えの発生回数が多ければ、ステレオからモノラルへの変動が多く、スコアとしては悪いためマイナス点とする。評価対象音の切り替えの発生回数が少なければ、スコアとしてプラス点が付与される。
こうして生成された図25に示されている教師データを用いて学習した学習モデルを用いて、識別フェーズでは、ステレオモノラル変動感推定部141は、評価者の聴感を反映した、評価対象音のリファレンス音に対する相対評価スコアを推定することができる。ここで、ステレオモノラル変動感推定部141が生成し、使用する学習モデルをステレオモノラル学習モデルともいう。
次に、こもり感推定部142について説明する。
こもり感推定部142は、評価対象音TSと、リファレンス音RSとのそれぞれについて、こもり度推定部125が推定したこもり度レベルの各々に対して、1セグメント期間において、継続時間を特徴量として抽出する。
図26に、評価対象音及びリファレンス音のそれぞれについて、セグメント毎にこもり度レベル(ここでは、無、小、中又は大)の分類クラスのこもり度継続時間を特徴量として抽出した結果を示す。
こもり感推定のための学習識別器における学習フェーズでは、評価者が各セグメントの音を聴き感じた聴感スコアを教師ラベルとして作成し、上記特徴量に追加した教師データを用いて学習識別器を学習する。図27は、こもり感推定のための教師データの一例を示す概略図である。
学習識別器における識別フェーズでは、図26に示されている特徴量がこもり感推定に使用される。なお、特徴量として1セグメント期間中のこもり度平均値を求め特徴量に追加されてもよい。なお、こもり感推定部142が生成し、使用する学習モデルをこもり感学習モデルともいう。
また、こもり感推定部142は、図28に示されているこもり感の特徴量及び図29に示されているこもり感の教師データが示すように、評価対象音とリファレンス音とのこもり度レベル(ここでは、無、小、中又は大)のクラス間距離の1セグメント中の継続時間を特徴量としてもよい。例えば、こもり度レベル無を0、こもり度レベル小を1、こもり度レベル中を2、こもり度レベル大を3と定義すると、両者ともこもり度無なら両者の暮らす距離は0(=0-0)、評価対象音がこもり度無、リファレンス音がこもり度大なら、クラス距離-3(=0-3)となる。
次に、ノイズ感推定部143について説明する。
ノイズ感推定部143は、ノイズ感としてノイズの大きさ感と、ノイズの発生頻度感とについて評価者が感じた聴感をそれぞれ推定する。
まず、ノイズの大きさ感の推定の動作について説明する。
ノイズ感推定部143は、ノイズ度推定部126が推定したSN比の時系列データに対して、評価対象音TSと、リファレンス音RSとの各推定SN比の差分の大きさ毎に、レベル1から3までのレベルに分け、各レベルの継続時間を特徴量として、図30に示すように、1セグメント(例えば、15秒)毎に抽出する。
ノイズの大きさ推定のための学習識別器の学習フェーズでは、評価者が各セグメントの音を聴き感じたノイズの大きさのレベルを聴感スコアとして教師ラベルを作成する。この教師ラベルを図30の特徴量に追加し、図31に示す教師データを作成し、ノイズ感推定部143は、これを用いてノイズの大きさ感の推定用の学習識別器を学習する。
ノイズ大きさ感の学習識別器の識別フェーズでは、ノイズ感推定部143は、図30の特徴量と、学習済みのノイズ大きさ感の学習モデルを用いて、ノイズの大きさを推定する。なお特徴量として1セグメント期間中のノイズ大きさの平均値を求め特徴量に追加してもよい。ここで生成及び使用される学習モデルを、ノイズ大きさ学習モデルともいう。
または、特徴量として、ノイズ度推定部126、136が推定したSN比から求めた聴感Sの時系列データとして、評価対象音TSとリファレンス音RSとの各々の聴感Sの差分の大きさ毎に、レベル1から3までのレベルに分け、レベル毎の継続時間を特徴量として図30に示すように、1セグメント(例えば、15秒)毎に推定してもよい。
次に、ノイズ感推定部143におけるノイズ発生頻度感の推定の動作について説明する。
ノイズ感推定部143は、ノイズ度推定部126が推定したSN比の時系列データに対して、評価対象音TSと、リファレンス音RSとの推定SN比の差分の時系列データを生成する。
図32に、評価対象音TSとリファレンス音RSとの推定SN比の差分の時系列データであるSN差分時系列データを示す。
このSN差分時系列データについて下向きピークを抽出し、そのピークの長さPLが、予め定められた閾値Aを超え、そのピークの幅PWが、予め定められた閾値B(例えば、0.5秒)を超えるものを抽出する。
さらに抽出したピークのうちピーク点の値が、予め定められた閾値Cより深いピーク点を抽出し、このピーク点数を1セグメント中でカウントし、このカウント値を特徴量として、図33に示すように抽出する。
なお、ピーク点の深さは、以下のように定義される。
下向きのピーク点の内、深さを算出するピーク点を対象ピーク点TPとする。
対象ピーク点TPから左右に水平線を引きより低いピークへの軌跡との右側交点をA、その左側交点をBとする。なお、左右において、より低いピークがなく左端又は右端に到達した場合には、左端の値をVA、右端の値をVBとして用いる。
値VAに対応する時刻~対象ピーク点TPに対応する時刻までの第1の区間の最大値と、対象ピーク点TP~値VBに対応するまでの第2の区間における最大値との内、小さい方の値を基準点とする。
基準点と、対象ピーク点TPとの垂直方向の距離を、その対象ピーク点TPの「深さ」とする。
図32においては、以上のような条件を満たすピークとして、ピークP1~P7が示されている。
ここで、ノイズ感推定部143は、以上のような条件を満たすピークに対して、ピークの値に応じて、レベルを割り当てる。
閾値Cのレベルを、ノイズ音が気になるレベル以下とすることで、短期間に生じるパルス状のノイズ音を抽出することができる。ノイズ感推定部143は、このようなパルス的なノイズの発生回数を特徴量として抽出し、評価者のノイズ発生頻度感の聴感の学習識別器に用いる。
ノイズの発生頻度感の推定のための学習識別器の学習フェーズでは、評価者が各セグメントの音を聴き感じたパルス的なノイズ音が1セグメント間に多いか少ないかのノイズ発生頻度に関する聴感スコアとして教師ラベルを作成する。この教師ラベルを、図33に示されている特徴量に追加し、図34に示す教師データを作成し、ノイズ感推定部143は、これを用いてノイズの発生頻度感推定用の学習識別器を学習する。
ノイズ発生頻度感の学習識別器の識別フェーズでは、ノイズ感推定部143は、図33の特徴量と学習済みノイズ発生頻度感の学習モデルを用いて、ノイズの大きさ推定を行う。ここで生成及び使用される学習モデルを、ノイズ頻度学習モデルともいう。
なお、特徴量として、ノイズ度推定部126、136が推定したSN比から求められた聴感Sの時系列データとして、評価対象音とリファレンス音のそれぞれの聴感Sの差分を求め、図32に示されているSN比の差分の時系列データに置き換えて同様のピーク特徴抽出処理を行い、これを特徴量として学習識別器の生成を行ってもよい。
次に、音量変動感推定部144について説明する。
評価対象音響特徴推定部120の音量特徴抽出部127及びリファレンス音響特徴推定部130の音量特徴抽出部137が出力したラウドネス又はメル周波数ケプストラムの低次元情報の時系列データは、音量特徴量として音量変動感推定部144に入力される。
図35は、音量変動感推定部144の動作を説明するための概略図である。
音量変動感推定部144では、音量特徴抽出部127から入力された音量特徴量に対して、中心化部144aが、各々の平均がゼロになるように、音量特徴量から平均値を減算する。
そして、時間変動特徴抽出部144bは、中心化部144aの出力を、1セグメント(例えば、15秒間)単位でFFTを実行することで、周波数スペクトルに変換する。
さらに、時間変動特徴抽出部144bは、変換された周波数スペクトルに対してサブバンド分割フィルタを掛けることで、図36に示されているようなサブバンド毎のパワーを求め、音量データの時間変動成分値を抽出し、これを時間変動特徴量とする。
また、音量変動感推定部144では、音量特徴抽出部137から入力された音量特徴量に対して、中心化部144cが、各々の平均がゼロになるように、音量特徴量から平均値を減算する。
そして、時間変動特徴抽出部144dは、中心化部144cの出力を、1セグメント(例えば、15秒間)単位でFFTを実行することで、周波数スペクトルに変換する。
さらに、時間変動特徴抽出部144dは、変換された周波数スペクトルに対してサブバンド分割フィルタを掛けることで、図36に示されているようなサブバンド毎のパワーを求め、音量データの時間変動成分値を抽出し、これを時間変動特徴量とする。
図37は、以上のようにして得られる時間変動特徴量を示しており1から14の周波数サブバンドにおける評価対象音の中心化音量データTと、リファレンス音の中心化音量データRとの各時間変動の大きさを表している。
サブバンドの帯域は図36に示されているように、人が音量変動の多い少ないを知覚できる程度の周波数とし、例えば、0から5Hz程度の低い周波数としている。
以上の処理によって得られた評価対象音及びリファレンス対象音のそれぞれの時間変動特徴量について、音量変動感推定部144は、図38の表に示されている音量変動特徴量を得る。
図38の1番から14番が、各サブバンド(i=1~14)における評価対象音TSの時間変動成分特徴の変動成分値、15番から28番が各サブバンド(i=1~14)におけるリファレンス音RSの時間変動成分特徴の変動成分値である。
29番は、評価対象音TSとリファレンス音RSとのパワーの差の特徴を、30番は、評価対象音TSとリファレンス音RSとの間の波形の類似度を示す相互相関係数を、31番と32番とは、評価対象音TSとリファレンス音RSの各標準偏差、33番は、評価対象音TSとリファレンス音RSとの間の瞬時差分の絶対値の合計(波形差分エリア面積)である。
34番及び35番は、それぞれ評価対象音TSの最小値及び最大値、36番及び37番は、それぞれリファレンス音RSの最小値及び最大値である。
音量変動感推定部144は、あるセグメントの評価対象音TSの音データ及びリファレンス音RSの音データのそれぞれに対して、評価者が判断した各音量変動度合いレベルを教師ラベルとして、抽出された各音量変動特徴量に加えて、学習識別器を学習する。
識別フェーズでは、音量変動感推定部144は、評価対象音及びリファレンス音の各音量変動特徴量から音量変動感特徴量を抽出し、学習済みの音量変動感の学習モデルを用いて、評価者の聴感を反映した音量変動感レベルを1セグメント毎に推定する。ここで生成及び使用される学習モデルを、音量変動学習モデルともいう。
次に、図1に示されている聴感スコア推定部150の動作を説明する。
以上で説明した聴感特徴推定部140からの、ステレオモノラル変動感スコア、こもり感スコア、ノイズ大きさ感スコア、ノイズ頻度感スコア及び音量変動感スコアといった聴感特徴量は、図39(A)~(E)に示されているように、1セグメント毎に出力された時系列データである。
図39に示されているように、推定された聴感スコアの各々は、-5から5までの11レベルに分類されている。そして、これら聴感特徴量を同一セグメント毎にまとめ、図40に示すような聴感特徴量情報とする。
評価者の聴感スコアを推定するための学習識別器の学習フェーズでは、評価者は、各コンテンツの全セグメントの音を聴き、信号の音質及びノイズの観点で感じた聴感を、信号音質聴感スコア及びノイズ聴感スコアとして教師ラベルを作成する。聴感スコア推定部150は、この教師ラベルを図40に示されている聴感特徴量情報に追加して、図41に示す教師データを作成し、これを用いて評価者の信号音質聴感スコア推定用の学習識別器と、ノイズ聴感スコア推定用の学習識別器とをそれぞれ学習する。
評価者の信号音質聴感スコア推定用の学習識別器及びノイズ聴感スコア推定用の学習識別器の各識別フェーズでは、聴感スコア推定部150は、図40の聴感特徴量情報と、学習済みの信号音質聴感スコアを推定するための学習モデル、及び、ノイズ聴感スコアを推定するための学習モデルを用いて、評価者の聴感スコア値(ここでは、信号音質聴感スコア及びノイズ聴感スコアの値)を推定する。
ここで、学習識別器として、特徴量が時系列データであるので上述したLSTMが用いられてもよい。聴感スコア推定部150が出力した評価者の聴感スコア推定値は、表示部160にて表示され、記録部170にて保存される。
表示部160での表示、及び、記録部170での記録について説明する。
評価対象音響特徴推定部120において評価対象音に対して推定されたステレオ度、こもり度、ノイズ度及び音量特徴量、リファレンス音響特徴推定部130においてリファレンス音に対して推定されたステレオ度、こもり度、ノイズ度及び音量特徴量は、それぞれ、記録部170に記録され、表示部160に表示されてもよい。
また、聴感特徴推定部140において推定された、図39に示されている音量変動感、ステレオモノラル変動感、こもり感及びノイズ感を示すスコアは、記録部170に記録され、表示部160に表示されてもよい。
さらにまた、ステレオ度推定部124、134で推定された、図7に示されているようなステレオモノラル特徴量、こもり度推定部125、135で推定された、図8に示されているようなこもり度特徴量のうち重心周波数、ノイズ度推定部126、136で推定された帯域毎のノイズ無しの音信号パワー(推定S)又はノイズの音信号パワー(推定N)、ノイズ度推定部126、136で推定された聴感S又は聴感S、フィルタバンク処理部123、133で生成した帯域毎のパワー情報、音量特徴抽出部127、137で推定された音量特徴量、音量変動感推定部144で推定された図38に示されているような音量変動特徴量情報、ステレオモノラル変動感推定部141で推定された図25に示されているようなステレオモノラル変動感特徴量情報、こもり感推定部142で推定された図26又は図28に示されているようなこもり感特徴量情報、ノイズ感推定部143で推定された図30に示されているようなノイズ大きさ特徴量情報、ノイズ感推定部143で推定された図33に示されているようなノイズ発生頻度特徴量情報は、記録部170に記録され、表示部160に表示されてもよい。
以上に記載された評価対象音響特徴推定部120、リファレンス音響特徴推定部130、聴感特徴推定部140及び聴感スコア推定部150の一部又は全部は、例えば、図42(A)に示されているように、メモリ10と、メモリ10に格納されているプログラムを実行するCPU(Central Processing Unit)等のプロセッサ11とにより構成することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。
また、評価対象音響特徴推定部120、リファレンス音響特徴推定部130、聴感特徴推定部140及び聴感スコア推定部150の一部又は全部は、例えば、図42(B)に示されているように、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)又はFPGA(Field Programmable Gate Array)等の処理回路12で構成することもできる。
なお、入力部110は、入力インターフェースにより構成することができる。
表示部160は、ディスプレイ等の表示装置で構成することができる。
記録部170は、揮発性又は不揮発性のメモリ、又は、HDD(Hard Disc Drive)等の記憶装置で構成することができる。
従来のように、評価者が音の主観評価をする場合、判断に迷うケースでは、再度評価のやり直しが生じ効率が悪く、また、音質評価のノウハウを持つ専門家が必要で、誰でも評価を行うことができるものではなかった。また、従来は、人による判定であるため評価値の客観的根拠が曖昧であること、さらに、評価者による評価値のばらつきが生じる等の課題もあった。
本実施の形態で示された音質評価装置100を使用すれば誰でも客観的な定量評価を効率的に得ることができる。また、音質評価装置100は、人が行う相対評価と同様に音響特徴の相対値を聴感特徴推定部140の入力として人の聴感を学習しているため、評価者の聴感評価ノウハウをうまく学習し、評価者と同レベルの推定を行うことができる。
ステレオ度推定部124、134は、右チャンネル音と左チャンネル音との相互相関係数と、遅延時間と、音量差分とを用いることでステレオ特徴空間が表現できるようになり、さらに、モノラル及びステレオの境界面の決定を学習により求めているので、閾値で境界を決める手法よりも精度よくステレオかモノラルかを判定することができる。
また、ステレオモノラル変動感推定部141は、学習モデルを用いることで、ステレオからモノラルへの変動頻度を、評価者のステレオ感の聴感スコアに精度よく変換することができる。
ノイズ度推定部126、136は、ノイズ除去部126aと、SN推定部126bとによりSN比を推定するようにしたので、この値をノイズ度として表現することができる。
また、ノイズ感推定部143は、ノイズの大きさ及びノイズ発生頻度の特徴を推定でき、学習モデルを用いることで、評価者のノイズの大きさ感、発生頻度感を聴感スコアに精度よく変換することができる。
ノイズ除去部126aは、オートエンコーダ126b-1、126b-2に加え、多層ニューラルネット処理部126b-3を備える。多層ニューラルネット処理部126b-3への入力として、第2オートエンコーダ126b-2の出力だけでなく、フィルタバンク処理部123、133からの出力である時刻t-1、時刻t、及び時刻t+1のノイズ有りの音信号パワーも入力されることで、音信号の高域情報が復元でき、クリアなノイズ除去音を推定することができる。
また、フィルタバンク処理部123、133からの出力は、時刻tだけでなく、その前後フレームのデータも用いられることで、前後フレームからノイズレベルも把握できるので、より高精度にノイズレベルの把握ができ、より高精度に元信号を推定することができる。
例えば、ラジオ受信機においては、復調音のノイズが強い場合、ローパスフィルタにより耳障りなノイズ音を軽減する出力音制御がなされるが、この場合、こもり度と受信機出力音のSN比との間には相関がある。そこで、SN推定部126cは、SN比を推定する際にこもり度情報を活用することで推定精度を向上させることができる。
こもり度推定部125、135は、鋭い印象の音に対して、鈍い印象の音では音スペクトルの高域成分が小さく、スペクトルにより形成される三角形がより強くなることに着目し、音スペクトルが構成する図形の重心における周波数を特徴量とすることで、こもり度推定の精度を向上させることができる。
なお、ホワイトノイズによって高域成分が増えることで重心周波数が高くなり、こもり度の推定が劣化する場合もあるが、ノイズ度を特徴量に追加することでノイズ度の学習に考慮され、誤判定を防止することができる。
こもり感推定部142は、学習モデルを用いることで、こもり度を評価者のこもり感の聴感スコアに精度よく変換することができる。
音量特徴抽出部127、137は、音量変動の頻度、大きさの特徴を抽出でき、学習モデルを用いることで、評価者の音量変動の頻度、大きさ感を聴感スコアに精度よく変換することができる。
評価対象音響特徴推定部120及びリファレンス音響特徴推定部130は、音質評価の観点であるステレオ度、こもり度、ノイズ度、音量について、これらを入力音から特徴量として物理量をまず推定し、次に、聴感特徴推定部140がこれら音響特徴量から一定期間毎に、評価専門家の聴感(ステレオモノラル変動感、音量変動感、こもり感、ノイズ感大きさ感、ノイズ発生頻度感)を学習により推定し、最後に、聴感スコア推定部150が評価対象コンテンツ全期間に対する聴感スコアを学習、推定するようにしたので、短期的な聴感からコンテンツ全体に対する聴感を推定することが可能である。
聴感特徴推定部140は、評価対象音TSのリファレンス音RSに対する聴感特徴量として音量変動感、ステレオモノラル変動感、こもり感、ノイズ感を出力するようにしたので、聴感スコア推定部150は、これら情報をもとに聴感スコアを推定することができる。このため、評価者が行う聴感スコアリングと同一の観点で聴感スコアを推定でき、評価者のスコア値に近い値を推定することができる。
表示部160での表示について、聴感スコア推定の根拠となる聴感特徴量及び聴感特徴量推定のための特徴量、聴感特徴量推定の根拠となる音響特徴量、及び、音響特徴量推定のための特徴量が表示されるため、推定された聴感スコアの要因を知ることができる。
また、記録部170での記録について、聴感スコア推定の根拠となる聴感特徴量及び聴感特徴量推定のための特徴量、聴感特徴量推定の根拠となる音響特徴量、および音響特徴量推定のための特徴量を記録することで、推定された聴感スコアの要因を記憶しておくことができる。
100 音質評価装置、 110 入力部、 120 評価対象音響特徴推定部、 121 フレーム化部、 122 STFT処理部、 123 フィルタバンク処理部、 124 ステレオ度推定部、 125 こもり度推定部、 126 ノイズ度推定部、 126a ノイズ除去部、 126b SN推定部、 126b-1 第1オートエンコーダ、 126b-2 第2オートエンコーダ、 126b-3 多層ニューラルネット処理部、 126c SN推定部、 126d SN計算部、 126e ノイズ推定部、 126f SN特定部、 127 音量特徴抽出部、 130 リファレンス音響特徴推定部、 131 フレーム化部、 132 STFT処理部、 133 フィルタバンク処理部、 134 ステレオ度推定部、 135 こもり度推定部、 136 ノイズ度推定部、 137 音量特徴抽出部、 140 聴感特徴推定部、 141 ステレオモノラル変動感推定部、 142 こもり感推定部、 143 ノイズ感推定部、 144 音量変動感推定部、 150 聴感スコア推定部、 160 表示部、 170 記録部。

Claims (31)

  1. 評価対象音の音響における特徴を示すための音響特徴量である第1の音響特徴量を推定する評価対象音響特徴推定部と、
    前記評価対象音と比較するためのリファレンス音の音響特徴量である第2の音響特徴量を推定するリファレンス音響特徴推定部と、
    評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、前記第1の音響特徴量及び前記第2の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部と、
    聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部と、を備えること
    を特徴とする情報処理装置。
  2. 前記評価対象音響特徴推定部は、前記評価対象音の右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、前記評価対象音がステレオであるかモノラルであるかを推定して、時系列において前記評価対象音がステレオであるかモノラルであるかを示すステレオ度情報である評価対象ステレオ度情報を生成する第1のステレオ度推定部を備え、
    前記リファレンス音響特徴推定部は、前記リファレンス音の右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、前記リファレンス音がステレオであるかモノラルであるかを推定して、時系列において前記リファレンス音がステレオであるかモノラルであるかを示すステレオ度情報であるリファレンスステレオ度情報を生成する第2のステレオ度推定部を備え、
    前記聴感特徴推定部は、前記評価対象ステレオ度情報と、前記リファレンスステレオ度情報とに基づいて、前記一定期間毎に、前記評価対象音におけるステレオ及びモノラルの切替回数と、前記リファレンス音におけるステレオ及びモノラルの切換回数との差である切換回数差を算出し、切換回数差と、ステレオ及びモノラルが切り替わることによる人の聴感の評価値であるステレオモノラル変動推定スコアとの関係性を学習したステレオモノラル学習モデルを用いて、前記算出された切換回数差に対応するステレオモノラル変動推定スコアを推定するステレオモノラル変動感推定部を備えること
    を特徴とする請求項1に記載の情報処理装置。
  3. 前記評価対象音響特徴推定部は、前記評価対象音の音量を抽出し、前記評価対象音から抽出された音量を時系列において示す音量特徴量時系列データである評価対象音量特徴量時系列データを生成する第1の音量特徴抽出部を備え、
    前記リファレンス音響特徴推定部は、前記リファレンス音の音量を抽出し、前記リファレンス音から抽出された音量を時系列において示す音量特徴量時系列データであるリファレンス音量特徴量時系列データを生成する第2の音量特徴抽出部を備え、
    前記聴感特徴推定部は、前記評価対象音量特徴量時系列データ及び前記リファレンス音量特徴量時系列データの各々を周波数領域データに変換して、変換された周波数領域データで示されるパワーを周波数帯域に分割し、前記分割された周波数帯域毎のパワーに基づいて、前記一定期間毎における予め定められた音量変動特徴量を特定し、音量変動特徴量と、音量が変動することによる人の聴感の評価値である音量変動感推定スコアとの関係性を学習した音量変動学習モデルを用いて、前記特定された音量変動特徴量に対応する音量変動感推定スコアを推定する音量変動感推定部を備えること
    を特徴とする請求項1又は2に記載の情報処理装置。
  4. 前記音量は、ラウドネス又はメル周波数ケプストラムとして抽出されること
    を特徴とする請求項3に記載の情報処理装置。
  5. 前記評価対象音響特徴推定部は、前記評価対象音の信号と、雑音との比率を示すSN比である評価対象SN比を推定する第1のノイズ度推定部を備え、
    前記リファレンス音響特徴推定部は、前記リファレンス音の信号と、雑音との比率を示すSN比であるリファレンスSN比を推定する第2のノイズ度推定部を備え、
    前記聴感特徴推定部は、前記評価対象SN比と、前記リファレンスSN比との差分を、大きさに従って予め定められた複数のレベルに分類し、前記一定期間毎に、前記複数のレベルの各々に分類された差分の継続時間を示すノイズ大きさ特徴量を特定し、ノイズ大きさ特徴量と、ノイズの大きさによる人の聴感の評価値であるノイズ大きさ感推定スコアとの関係性を学習したノイズ大きさ学習モデルを用いて、前記特定されたノイズ大きさ特徴量に対応するノイズ大きさ感推定スコアを推定するノイズ感推定部を備えること
    を特徴する請求項1から4の何れか一項に記載の情報処理装置。
  6. 前記ノイズ感推定部は、前記評価対象SN比と、前記リファレンスSN比との差分を時系列において示すSN差分時系列データを生成し、前記SN差分時系列データに含まれている下向きのピークの内、予め定められた条件を満たすピークを抽出し、抽出されたピークの内、予め定められた閾値よりも深いピークの数を、前記一定期間毎に集計した値をノイズ頻度特徴量として特定し、ノイズ頻度特徴量と、ノイズの頻度による人の聴感の評価値であるノイズ頻度感推定スコアとの関係性を学習したノイズ頻度学習モデルを用いて、前記特定されたノイズ頻度特徴量に対応するノイズ頻度感推定スコアを推定すること
    を特徴とする請求項5に記載の情報処理装置。
  7. 前記第1のノイズ度推定部は、
    前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第1の周波数領域信号に変換した後に、前記第1の周波数領域信号をフィルタバンクで処理して、対数化した第1のノイズ有りの音信号パワーから、ノイズを除去した第1のノイズ無しの音信号パワーを推定する第1のノイズ除去部と、
    前記第1のノイズ有りの音信号パワーと、前記第1のノイズ無しの音信号パワーとを用いて、前記評価対象SN比を推定する第1のSN推定部とを備え、
    前記第2のノイズ度推定部は、
    前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、前記第2の周波数領域信号をフィルタバンクで処理して、対数化した第2のノイズ有りの音信号パワーから、ノイズを除去した第2のノイズ無しの音信号パワーを推定する第2のノイズ除去部と、
    前記第2のノイズ有りの音信号パワーと、前記第2のノイズ無しの音信号パワーとを用いて、前記リファレンスSN比を推定する第2のSN推定部とを備えること
    を特徴とする請求項5又は6に記載の情報処理装置。
  8. 前記評価対象音響特徴推定部は、前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第1の周波数領域信号に変換した後に、前記第1の周波数領域信号をフィルタバンクで処理して、対数化した第1のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記評価対象音のこもり度のレベルを推定する第1のこもり度推定部を備え、
    前記第1のノイズ度推定部は、
    前記第1のノイズ有りの音信号パワーから、ノイズを除去した第1のノイズ無しの音信号パワーを推定する第1のノイズ除去部と、
    前記第1のノイズ有りの音信号パワーと、前記第1のノイズ無しの音信号パワーと、前記評価対象音のこもり度のレベルとを用いて、前記評価対象SN比を推定する第1のSN推定部とを備え、
    前記リファレンス音響特徴推定部は、前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、前記第2の周波数領域信号をフィルタバンクで処理して、対数化した第2のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記リファレンス音のこもり度のレベルを推定する第2のこもり度推定部を備え、
    前記第2のノイズ度推定部は、
    前記第2のノイズ有りの音信号パワーから、ノイズを除去した第2のノイズ無しの音信号パワーを推定する第2のノイズ除去部と、
    前記第2のノイズ有りの音信号パワーと、前記第2のノイズ無しの音信号パワーと、前記リファレンス音のこもり度のレベルを用いて、前記リファレンスSN比を推定する第2のSN推定部とを備えること
    を特徴とする請求項5又は6に記載の情報処理装置。
  9. 前記第1のノイズ度推定部は、
    前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第1の周波数領域信号に変換した後に、前記第1の周波数領域信号をフィルタバンクで処理して、対数化した第1のノイズ有りの音信号パワーから、ノイズを除去した第1のノイズ無しの音信号パワーを推定する第1のノイズ除去部と、
    前記第1のノイズ有りの音信号パワーから、前記第1のノイズ無しの音信号パワーを減算することで第1のノイズの音信号パワーを算出し、前記第1のノイズ無しの音信号パワーと、前記第1のノイズの音信号パワーとを用いて、前記評価対象SN比を推定する第1のSN計算部とを備え、
    前記第2のノイズ度推定部は、
    前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、前記第2の周波数領域信号をフィルタバンクで処理して、対数化した第2のノイズ有りの音信号パワーから、ノイズを除去した第2のノイズ無しの音信号パワーを推定する第2のノイズ除去部と、
    前記第2のノイズ有りの音信号パワーから、前記第2のノイズ無しの音信号パワーを減算することで第2のノイズの音信号パワーを算出し、前記第2のノイズ無しの音信号パワーと、前記第2のノイズの音信号パワーとを用いて、前記リファレンスSN比を推定する第2のSN計算部とを備えること
    を特徴とする請求項5又は6に記載の情報処理装置。
  10. 前記第1のノイズ除去部は、少なくとも一つのオートエンコーダと、ニューラルネットの処理を行うニューラルネット処理部とを備えることで、前記第1のノイズ無しの音信号パワーを推定し、
    前記第2のノイズ除去部は、少なくとも一つのオートエンコーダと、ニューラルネットの処理を行うニューラルネット処理部とを備えることで、前記第2のノイズ無しの音信号パワーを推定すること
    を特徴とする請求項7から9の何れか一項に記載の情報処理装置。
  11. 前記第1のノイズ度推定部は、
    前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第1の周波数領域信号に変換した後に、前記第1の周波数領域信号をフィルタバンクで処理して、対数化した第1のノイズ有りの音信号パワーから、前記評価対象音のノイズの音信号パワーに相当する第1のノイズの音信号パワーを推定する第1のノイズ推定部と、
    前記第1のノイズ有りの音信号パワーと、前記第1のノイズの音信号パワーとを用いて、前記評価対象SN比を特定する第1のSN特定部とを備え、
    前記第2のノイズ度推定部は、
    前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、前記第2の周波数領域信号をフィルタバンクで処理して、対数化した第2のノイズ有りの音信号パワーから、前記リファレンス音に含まれているノイズの音信号パワーに相当する第2のノイズの音信号パワーを推定する第2のノイズ推定部と、
    前記第2のノイズ有りの音信号パワーと、前記第2のノイズの音信号パワーとを用いて、前記リファレンスSN比を特定する第2のSN特定部とを備えること
    を特徴とする請求項5又は6に記載の情報処理装置。
  12. 前記第1のノイズ度推定部は、下記の(1)式~(4)式を用いて、前記評価対象音の第1の実効信号感SS1及び第1の実効ノイズ感SN1を算出し、
    前記第2のノイズ度推定部は、下記の(5)式~(8)式を用いて、前記リファレンス音の第2の実効信号感SS2及び第2の実効ノイズ感SN2を算出し、
    第1の実効値EN1={Pw1-ES12}1/2 (1)
    第2の実効値ES1={Pw1×SNRP1÷(SNRP1+1)}1/2 (2)
    第1の実効信号感SS1=ES1÷(EN1+ES1) (3)
    第1の実効ノイズ感SN1=EN1÷(EN1+ES2) (4)
    但し、Pw1は、前記評価対象音から抽出された前記音フレームにおける前記第1のノイズ有りの音信号パワーの平均値であり、SNRP1=10前記評価対象SN比/10であり、
    第3の実効値EN2={Pw2-ES22}1/2 (5)
    第4の実効値ES2={Pw2×SNRP2÷(SNRP2+1)}1/2 (6)
    第2の実効信号感SS2=ES2÷(EN2+ES2) (7)
    第2の実効ノイズ感SN2=EN2÷(EN2+ES2) (8)
    但し、Pw2は、前記リファレンス音から抽出された前記音フレームにおける前記第2のノイズ有りの音信号パワーの平均値であり、SNRP2=10前記リファレンスSN比/10であること
    を特徴とする請求項7から11の何れか一項に記載の情報処理装置。
  13. 前記評価対象音響特徴推定部は、前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第1の周波数領域信号に変換した後に、前記第1の周波数領域信号をフィルタバンクで処理して、対数化した第1のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記評価対象音のこもり度のレベルを推定する第1のこもり度推定部を備え、
    前記リファレンス音響特徴推定部は、前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、前記第2の周波数領域信号をフィルタバンクで処理して、対数化した第2のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記リファレンス音のこもり度のレベルを推定する第2のこもり度推定部を備え、
    前記聴感特徴推定部は、前記一定期間毎に、前記評価対象音のこもり度のレベル毎の継続時間を評価対象こもり度特徴量として特定し、前記一定期間毎に、前記リファレンス音のこもり度のレベル毎の継続時間をリファレンスこもり度特徴量として特定し、評価対象こもり度特徴量及びリファレンスこもり度特徴量と、こもり度の大きさによる人の聴感の評価値であるこもり感推定スコアとの関係性を学習したこもり感学習モデルを用いて、前記特定された評価対象こもり度特徴量及び前記特定されたリファレンスこもり度特徴量に対応するこもり感推定スコアを推定するこもり感推定部を備えること
    を特徴とする請求項1から12の何れか一項に記載の情報処理装置。
  14. 前記第1の音響特徴量、前記第2の音響特徴量、前記推定された聴感特徴量及び前記推定された聴感スコアの少なくとも何れか一つを表示する表示部をさらに備えること
    を特徴とする請求項1から13の何れか一項に記載の情報処理装置。
  15. 前記第1の音響特徴量、前記第2の音響特徴量、前記推定された聴感特徴量及び前記推定された聴感スコアの少なくとも何れか一つを記録する記録部をさらに備えること
    を特徴とする請求項1から14の何れか一項に記載の情報処理装置。
  16. 評価対象音の音響における特徴を示すための音響特徴量である第1の音響特徴量を推定する評価対象音響特徴推定部と、
    前記評価対象音と比較するためのリファレンス音の音響特徴量である第2の音響特徴量を推定するリファレンス音響特徴推定部と、
    評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係に基づいて、一定期間毎に、前記第1の音響特徴量及び前記第2の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部と、
    聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係に基づいて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部と、を備えること
    を特徴とする情報処理装置。
  17. 前記評価対象音響特徴推定部は、前記評価対象音の右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、前記評価対象音がステレオであるかモノラルであるかを推定して、時系列において前記評価対象音がステレオであるかモノラルであるかを示すステレオ度情報である評価対象ステレオ度情報を生成する第1のステレオ度推定部を備え、
    前記リファレンス音響特徴推定部は、前記リファレンス音の右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、前記リファレンス音がステレオであるかモノラルであるかを推定して、時系列において前記リファレンス音がステレオであるかモノラルであるかを示すステレオ度情報であるリファレンスステレオ度情報を生成する第2のステレオ度推定部を備え、
    前記聴感特徴推定部は、前記評価対象ステレオ度情報と、前記リファレンスステレオ度情報とに基づいて、前記一定期間毎に、前記評価対象音におけるステレオ及びモノラルの切替回数と、前記リファレンス音におけるステレオ及びモノラルの切換回数との差である切換回数差を算出し、切換回数差と、ステレオ及びモノラルが切り替わることによる人の聴感の評価値であるステレオモノラル変動推定スコアとの関係に基づいて、前記算出された切換回数差に対応するステレオモノラル変動推定スコアを推定するステレオモノラル変動感推定部を備えること
    を特徴とする請求項16に記載の情報処理装置。
  18. 前記評価対象音響特徴推定部は、前記評価対象音の音量を抽出し、前記評価対象音から抽出された音量を時系列において示す音量特徴量時系列データである評価対象音量特徴量時系列データを生成する第1の音量特徴抽出部を備え、
    前記リファレンス音響特徴推定部は、前記リファレンス音の音量を抽出し、前記リファレンス音から抽出された音量を時系列において示す音量特徴量時系列データであるリファレンス音量特徴量時系列データを生成する第2の音量特徴抽出部を備え、
    前記聴感特徴推定部は、前記評価対象音量特徴量時系列データ及び前記リファレンス音量特徴量時系列データの各々を周波数領域データに変換して、変換された周波数領域データで示されるパワーを周波数帯域に分割し、前記分割された周波数帯域毎のパワーに基づいて、前記一定期間毎における予め定められた音量変動特徴量を特定し、音量変動特徴量と、音量が変動することによる人の聴感の評価値である音量変動感推定スコアとの関係に基づいて、前記特定された音量変動特徴量に対応する音量変動感推定スコアを推定する音量変動感推定部を備えること
    を特徴とする請求項16又は17に記載の情報処理装置。
  19. 前記評価対象音響特徴推定部は、前記評価対象音の信号と、雑音との比率を示すSN比である評価対象SN比を推定する第1のノイズ度推定部を備え、
    前記リファレンス音響特徴推定部は、前記リファレンス音の信号と、雑音との比率を示すSN比であるリファレンスSN比を推定する第2のノイズ度推定部を備え、
    前記聴感特徴推定部は、前記評価対象SN比と、前記リファレンスSN比との差分を、大きさに従って予め定められた複数のレベルに分類し、前記一定期間毎に、前記複数のレベルの各々に分類された差分の継続時間を示すノイズ大きさ特徴量を特定し、ノイズ大きさ特徴量と、ノイズの大きさによる人の聴感の評価値であるノイズ大きさ感推定スコアとの関係に基づいて、前記特定されたノイズ大きさ特徴量に対応するノイズ大きさ感推定スコアを推定するノイズ感推定部を備えること
    を特徴する請求項16から18の何れか一項に記載の情報処理装置。
  20. 前記ノイズ感推定部は、前記評価対象SN比と、前記リファレンスSN比との差分を時系列において示すSN差分時系列データを生成し、前記SN差分時系列データに含まれている下向きのピークの内、予め定められた条件を満たすピークを抽出し、抽出されたピークの内、予め定められた閾値よりも深いピークの数を、前記一定期間毎に集計した値をノイズ頻度特徴量として特定し、ノイズ頻度特徴量と、ノイズの頻度による人の聴感の評価値であるノイズ頻度感推定スコアとの関係に基づいて、前記特定されたノイズ頻度特徴量に対応するノイズ頻度感推定スコアを推定すること
    を特徴とする請求項19に記載の情報処理装置。
  21. 前記評価対象音響特徴推定部は、前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第1の周波数領域信号に変換した後に、前記第1の周波数領域信号をフィルタバンクで処理して、対数化した第1のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記評価対象音のこもり度のレベルを推定する第1のこもり度推定部を備え、
    前記リファレンス音響特徴推定部は、前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、前記第2の周波数領域信号をフィルタバンクで処理して、対数化した第2のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記リファレンス音のこもり度のレベルを推定する第2のこもり度推定部を備え、
    前記聴感特徴推定部は、前記一定期間毎に、前記評価対象音のこもり度のレベル毎の継続時間を評価対象こもり度特徴量として特定し、前記一定期間毎に、前記リファレンス音のこもり度のレベル毎の継続時間をリファレンスこもり度特徴量として特定し、評価対象こもり度特徴量及びリファレンスこもり度特徴量と、こもり度の大きさによる人の聴感の評価値であるこもり感推定スコアとの関係に基づいて、前記特定された評価対象こもり度特徴量及び前記特定されたリファレンスこもり度特徴量に対応するこもり感推定スコアを推定するこもり感推定部を備えること
    を特徴とする請求項16から20の何れか一項に記載の情報処理装置。
  22. 前記聴感特徴推定部での推定は、
    評価対象音の音響特徴量及びリファレンス音の音響特徴量を入力データとし、人の聴感に関する特徴を示すための聴感特徴量を出力データとする入出力データを用いて、学習分類器が学習した結果に基づいて行われること
    を特徴とする請求項16から21の何れか一項に記載の情報処理装置。
  23. 前記ステレオモノラル変動感推定部での推定は、
    前記評価対象ステレオ度情報及び前記リファレンスステレオ度情報に基づいて前記一定期間毎に算出した、前記評価対象音におけるステレオ及びモノラルの切替回数と、前記リファレンス音におけるステレオ及びモノラルの切換回数の差である切換回数差、並びに、ステレオ及びモノラルが切り替わることによる人の聴感の評価値であるステレオモノラル変動推定スコアを入力データとし、前記切換回数差に対応するステレオモノラル変動推定スコアを出力データとする、入出力データを用いて、学習分類器が学習した結果に基づいて行われること
    を特徴とする請求項17に記載の情報処理装置。
  24. 前記音量変動感推定部での推定は、
    前記評価対象音量特徴量時系列データ及び前記リファレンス音量特徴量時系列データの各々を周波数領域データに変換して、変換された周波数領域データで示されるパワーを周波数帯域に分割し、前記分割された周波数帯域毎のパワーに基づいて、前記一定期間毎に特定された予め定められる音量変動特徴量、及び、音量が変動することによる人の聴感の評価値である音量変動感推定スコアを入力データとし、前記特定された音量変動特徴量に対応する音量変動感推定スコアを出力データとする、入出力データを用いて、学習分類器が学習した結果に基づいて行われること
    を特徴とする請求項18に記載の情報処理装置。
  25. 前記ノイズ感推定部での推定は、
    前記評価対象SN比と、前記リファレンスSN比との差分を、大きさに従って予め定められた複数のレベルに分類し、前記一定期間毎に特定される、前記複数のレベルの各々に分類された差分の継続時間を示すノイズ大きさ特徴量、及び、ノイズの大きさによる人の聴感の評価値であるノイズ大きさ感推定スコアを入力データとし、前記特定されるノイズ大きさ特徴量に対応するノイズ大きさ感推定スコアを出力データとする、入出力データを用いて、学習分類器が学習した結果に基づいて行われること
    を特徴とする請求項19又は20に記載の情報処理装置。
  26. 前記ノイズ感推定部での推定は、
    前記評価対象SN比と、前記リファレンスSN比との差分を時系列において示すSN差分時系列データを生成し、前記SN差分時系列データに含まれている下向きのピークの内、予め定められた条件を満たすピークを抽出し、抽出されたピークの内、予め定められた閾値よりも深いピークの数を、前記一定期間毎に集計して特定されたノイズ頻度特徴量、及び、ノイズの頻度による人の聴感の評価値であるノイズ頻度感推定スコアを入力データとし、前記特定されたノイズ頻度特徴量に対応するノイズ頻度感推定スコアを出力データとする、入出力データを用いて、学習分類器が学習した結果に基づいて行われること
    を特徴とする請求項25に記載の情報処理装置。
  27. 前記こもり感推定部での推定は、
    前記一定期間毎に特定された、前記評価対象音のこもり度のレベル毎の継続時間である評価対象こもり度特徴量、及び、前記一定期間毎に特定された、前記リファレンス音のこもり度のレベル毎の継続時間であるリファレンスこもり度特徴量を入力データとし、こもり度の大きさによる人の聴感の評価値であって、前記特定された評価対象こもり度特徴量及び前記特定されたリファレンスこもり度特徴量に対応する、こもり感推定スコアを出力データとする、入出力データを用いて、学習分類器が学習した結果に基づいて行われること
    を特徴とする請求項21に記載の情報処理装置。
  28. コンピュータを、
    評価対象音の音響における特徴を示すための音響特徴量である第1の音響特徴量を推定する評価対象音響特徴推定部、
    前記評価対象音と比較するためのリファレンス音の音響特徴量である第2の音響特徴量を推定するリファレンス音響特徴推定部、
    評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、前記第1の音響特徴量及び前記第2の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部、及び、
    聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部、として機能させること
    を特徴とするプログラム。
  29. コンピュータを、
    評価対象音の音響における特徴を示すための音響特徴量である第1の音響特徴量を推定する評価対象音響特徴推定部、
    前記評価対象音と比較するためのリファレンス音の音響特徴量である第2の音響特徴量を推定するリファレンス音響特徴推定部、
    評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係に基づいて、一定期間毎に、前記第1の音響特徴量及び前記第2の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部、及び、
    聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係に基づいて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部、として機能させること
    を特徴とするプログラム。
  30. 評価対象音響特徴推定部が、評価対象音の音響における特徴を示すための音響特徴量である第1の音響特徴量を推定し、
    リファレンス音響特徴推定部が、前記評価対象音と比較するためのリファレンス音の音響特徴量である第2の音響特徴量を推定し、
    聴感特徴推定部が、評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、前記第1の音響特徴量及び前記第2の音響特徴量に対応する聴感特徴量を推定し、
    聴感スコア推定部が、聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定すること
    を特徴とする情報処理方法。
  31. 評価対象音響特徴推定部が、評価対象音の音響における特徴を示すための音響特徴量である第1の音響特徴量を推定し、
    リファレンス音響特徴推定部が、前記評価対象音と比較するためのリファレンス音の音響特徴量である第2の音響特徴量を推定し、
    聴感特徴推定部が、評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係に基づいて、一定期間毎に、前記第1の音響特徴量及び前記第2の音響特徴量に対応する聴感特徴量を推定し、
    聴感スコア推定部が、聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係に基づいて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定すること
    を特徴とする情報処理方法。
JP2019128227A 2019-07-10 2019-07-10 情報処理装置、プログラム及び情報処理方法 Active JP7278161B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2019128227A JP7278161B2 (ja) 2019-07-10 2019-07-10 情報処理装置、プログラム及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2019128227A JP7278161B2 (ja) 2019-07-10 2019-07-10 情報処理装置、プログラム及び情報処理方法

Publications (3)

Publication Number Publication Date
JP2021015137A JP2021015137A (ja) 2021-02-12
JP2021015137A5 JP2021015137A5 (ja) 2022-01-06
JP7278161B2 true JP7278161B2 (ja) 2023-05-19

Family

ID=74530639

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019128227A Active JP7278161B2 (ja) 2019-07-10 2019-07-10 情報処理装置、プログラム及び情報処理方法

Country Status (1)

Country Link
JP (1) JP7278161B2 (ja)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113393863B (zh) * 2021-06-10 2023-11-03 北京字跳网络技术有限公司 一种语音评价方法、装置和设备

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000506327A (ja) 1996-02-29 2000-05-23 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー トレーニングプロセス
JP2008277916A (ja) 2007-04-25 2008-11-13 Matsushita Electric Ind Co Ltd 信号伝送品質評価装置、ラジオ受信機、プログラムおよび記録媒体
JP2010010848A (ja) 2008-06-24 2010-01-14 Tsg Corp ラジオ受信性能評価システム
JP2011185997A (ja) 2010-03-04 2011-09-22 Fujitsu Ltd 音声検索装置、音声検索方法、プログラム及び記録媒体
JP2017027011A (ja) 2015-07-24 2017-02-02 日本放送協会 音質評価装置
JP2017135484A (ja) 2016-01-26 2017-08-03 東日本旅客鉄道株式会社 無線通信試験装置及び無線通信試験方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04345327A (ja) * 1991-05-23 1992-12-01 Nippon Telegr & Teleph Corp <Ntt> 通話品質客観測定方法
JPH09331391A (ja) * 1996-06-12 1997-12-22 Nippon Telegr & Teleph Corp <Ntt> 通話品質客観推定装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000506327A (ja) 1996-02-29 2000-05-23 ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー トレーニングプロセス
JP2008277916A (ja) 2007-04-25 2008-11-13 Matsushita Electric Ind Co Ltd 信号伝送品質評価装置、ラジオ受信機、プログラムおよび記録媒体
JP2010010848A (ja) 2008-06-24 2010-01-14 Tsg Corp ラジオ受信性能評価システム
JP2011185997A (ja) 2010-03-04 2011-09-22 Fujitsu Ltd 音声検索装置、音声検索方法、プログラム及び記録媒体
JP2017027011A (ja) 2015-07-24 2017-02-02 日本放送協会 音質評価装置
JP2017135484A (ja) 2016-01-26 2017-08-03 東日本旅客鉄道株式会社 無線通信試験装置及び無線通信試験方法

Also Published As

Publication number Publication date
JP2021015137A (ja) 2021-02-12

Similar Documents

Publication Publication Date Title
Emiya et al. Subjective and objective quality assessment of audio source separation
US9959886B2 (en) Spectral comb voice activity detection
JP3418198B2 (ja) オーディオ信号の聴覚に適応した品質評価方法および装置
KR101430321B1 (ko) 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템
WO2006041735A2 (en) Reverberation removal
CN103440869A (zh) 一种音频混响的抑制装置及其抑制方法
CN104919525B (zh) 用于评估退化语音信号的可理解性的方法和装置
US20110029310A1 (en) Procedure for processing noisy speech signals, and apparatus and computer program therefor
Sottek A hearing model approach to time-varying loudness
Virebrand Real-time monitoring of voice characteristics usingaccelerometer and microphone measurements
JP7278161B2 (ja) 情報処理装置、プログラム及び情報処理方法
Torcoli et al. Controlling the remixing of separated dialogue with a non-intrusive quality estimate
Canazza et al. Restoration of audio documents by means of extended Kalman filter
CN111755025B (zh) 一种基于音频特征的状态检测方法、装置及设备
May et al. Assessment of broadband SNR estimation for hearing aid applications
JP3350713B2 (ja) 騒音源の種類を特定する方法、その装置および媒体
Rämö et al. Real-time perceptual model for distraction in interfering audio-on-audio scenarios
Diether et al. Efficient blind estimation of subband reverberation time from speech in non-diffuse environments
Pendharkar Auralization of road vehicles using spectral modeling synthesis
CN113593604A (zh) 检测音频质量方法、装置及存储介质
US10395668B2 (en) System and a method for determining an interference or distraction
JP2021015137A5 (ja)
Sottek Improvements in calculating the loudness of time varying sounds
US20170077889A1 (en) Method and apparatus for processing audio signals
Sottek Sound quality evaluation of noises with spectro-temporal patterns

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20211129

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211129

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20221017

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20221025

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20221223

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230411

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20230509

R150 Certificate of patent or registration of utility model

Ref document number: 7278161

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150