JP7278161B2

JP7278161B2 - 情報処理装置、プログラム及び情報処理方法

Info

Publication number: JP7278161B2
Application number: JP2019128227A
Authority: JP
Inventors: 恵一白須賀; 知沙赤銅
Original assignee: Mitsubishi Electric Corp
Current assignee: Mitsubishi Electric Corp
Priority date: 2019-07-10
Filing date: 2019-07-10
Publication date: 2023-05-19
Anticipated expiration: 2039-07-10
Also published as: JP2021015137A

Description

本発明は、情報処理装置、プログラム及び情報処理方法に関する。

移動体向けラジオ又はテレビ等の受信信号には、弱電界エリアの走行時、又は、建物若しくは地形等により遅延波の影響を受けるエリアの走行時に、ノイズが発生する。このため、移動体向けラジオ又はテレビ等の受信機の出力音には、ノイズによる違和感を極力低減させるため、通常、出力音制御がなされる。

出力音制御としては、例えば、高域周波数を低下させるハイカット制御、又は、ステレオ出力音をモノラル音にしてノイズ音が発生しにくくするステレオモノラル切り替え制御がある。
音質評価者は、これらの制御がユーザに違和感無く行われているかを、評価対象受信機の出力音と、リファレンスとなる受信機の出力音とを相対比較する主観評価を行い、その聴感評価結果を数値で表現する。

例えば、特許文献１には、ユーザの嗜好にあったエンジンを開発するために、エンジン音の全体的な質を評価する評価装置が記載されている。この評価装置は、騒音計が測定した各エンジン音の音圧を入力する入力部と、各エンジン音の心理音響評価値を決定し、運転条件毎に、燃料噴射量及び回転数と心理音響評価値との関係を表す実測値マップを作成する部分評価値決定部と、運転条件毎に、実測値マップの最小二乗平面を作成する第１分析部と、運転条件毎に、実測値マップと最小二乗平面とに基づいて第１～第３物理量を決定する物理量決定部と、各運転条件における複数のエンジン音の全体の質の主観的な評価値である予め決定された全体評価値と第１～第３物理量とを用いて、全体評価値推定式を導出する第２分析部とを備える。

特許５９０７４０３号公報

しかしながら、評価者が音質評価する場合、評価を実施する専門家が必要である。また、評価者が評価値を決定する際に判断に迷うケースでは、再度音を聴き、評価のやり直しを何度も実施しなければならない。さらに、人の聴感で判定するため判定値の客観的根拠が曖昧であり、評価者による評価値のばらつきが生じる。

そこで、本発明の一又は複数の態様は、音質の定量評価を客観的に行うことができるようにすることを目的とする。

本発明の一態様に係る情報処理装置は、評価対象音の音響における特徴を示すための音響特徴量である第１の音響特徴量を推定する評価対象音響特徴推定部と、前記評価対象音と比較するためのリファレンス音の音響特徴量である第２の音響特徴量を推定するリファレンス音響特徴推定部と、評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、前記第１の音響特徴量及び前記第２の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部と、聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部と、を備えることを特徴とする。

本発明の一態様に係るプログラムは、コンピュータを、評価対象音の音響における特徴を示すための音響特徴量である第１の音響特徴量を推定する評価対象音響特徴推定部、前記評価対象音と比較するためのリファレンス音の音響特徴量である第２の音響特徴量を推定するリファレンス音響特徴推定部、評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、前記第１の音響特徴量及び前記第２の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部、及び、聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部、として機能させることを特徴とする。

本発明の一態様に係る情報処理方法は、評価対象音響特徴推定部が、評価対象音の音響における特徴を示すための音響特徴量である第１の音響特徴量を推定し、リファレンス音響特徴推定部が、前記評価対象音と比較するためのリファレンス音の音響特徴量である第２の音響特徴量を推定し、聴感特徴推定部が、評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、前記第１の音響特徴量及び前記第２の音響特徴量に対応する聴感特徴量を推定し、聴感スコア推定部が、聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定することを特徴とする。

本発明の一又は複数の態様によれば、音質の定量評価を客観的に行うことができる。

実施の形態に係る音質評価装置の構成を概略的に示すブロック図である。評価対象音響特徴推定部の構成を概略的に示すブロック図である。リファレンス音響特徴推定部の構成を概略的に示すブロック図である。音質評価装置の全体的な処理の流れを示す概略図である。評価対象音響特徴推定部又はリファレンス音響特徴推定部で行われる前処理を説明するための概略図である。ステレオ度推定部が行う処理を説明するための概略図である。ステレオ特徴空間を示す概略図である。（Ａ）～（Ｃ）は、スペクトル形状とこもり度の関係を説明するための概略図である。こもり度推定部が行う処理を説明するための概略図である。ノイズ度推定部の構成を概略的に示すブロック図である。ノイズ除去部の構成を概略的に示すブロック図である。第１オートエンコーダの学習方法を説明するための概略図である。第２オートエンコーダの学習方法を説明するための概略図である。多層ニューラルネット処理部の学習方法を説明するための概略図である。多層ニューラルネット処理部の教師データの構成を示す概略図である。ＬＳＴＭネットワークを用いたＳＮ推定ネットワークの構成例を示すブロック図である。ＬＳＴＭネットワークの動作を示す概略図である。ノイズ度推定部の第１の変形例の構成を概略的に示すブロック図である。ノイズ度推定部の第２の変形例の構成を概略的に示すブロック図である。ノイズ度推定部の第３の変形例の構成を概略的に示すブロック図である。音量特徴抽出部がラウドネスを算出する処理を説明するための概略図である。音量特徴抽出部がメル周波数スペクトルを生成する処理を説明するための概略である。聴感特徴推定部が行う処理を説明するための概略図である。ステレオモノラル変動感推定部での処理を説明するための概略図である。ステレオモノラル変動感推定部での学習用の教師データの一例を示す概略図である。こもり度の特徴量を示すこもり度特徴量情報を示す概略図である。こもり度推定部での学習用の教師データの一例を示す概略図である。こもり感の特徴量を示すこもり感情報を示す概略図である。こもり感推定部での教師データの一例を示す概略図である。ノイズ感の特徴量を示すノイズ感情報を示す概略図である。ノイズ感推定部での教師データの一例を示す概略図である。ＳＮ差分時系列データを示す概略図である。ノイズ大きさの特徴量を示すノイズ大きさ感特徴量情報を示す概略図である。ノイズ感推定部での教師データの一例を示す概略図である。音量変動感推定部の動作を説明するための概略図である。サブバンドを説明するための概略図である。時間変動特徴量を示す時間変動特徴量情報を示す概略図である。音量変動特徴量を説明するための概略図である。（Ａ）～（Ｅ）は、聴感特徴量の時系列データを示す概略図である。聴感特徴量情報を示す概略図である。聴感スコア推定部での教師データの一例を示す概略図である。（Ａ）及び（Ｂ）は、ハードウェア構成例を示すブロック図である。

図１は、実施の形態に係る情報処理装置としての音質評価装置１００の構成を概略的に示すブロック図である。
音質評価装置１００は、入力部１１０と、評価対象音響特徴推定部１２０と、リファレンス音響特徴推定部１３０と、聴感特徴推定部１４０と、聴感スコア推定部１５０と、表示部１６０と、記録部１７０とを備える。

音質評価装置１００は、音質を評価する対象となる音である評価対象音ＴＳと、評価対象音ＴＳと比較して、相対評価を行うためのリファレンス音ＲＳとを、それぞれ入力とし、音質評価処理を行いリファレンス音ＲＳに対する評価対象音ＴＳの相対評価値を表示部１６０に表示するとともに、記録部１７０に評価結果を格納する。音質評価処理について以下説明する。
なお、音は、物の振動によって生じた音波を、聴覚器官等により感じとられたもののことであり、物の響き、人の声、鳥獣の鳴き声、及び、楽音等が含まれる。

入力部１１０は、評価対象音ＴＳ及びリファレンス音ＲＳの入力を受ける。入力部１１０は、評価対象音ＴＳを、評価対象音響特徴推定部１２０に与え、リファレンス音ＲＳを、リファレンス音響特徴推定部１３０に与える。

評価対象音響特徴推定部１２０は、評価対象音ＴＳの音響における特徴を示すための音響特徴量を推定する。評価対象音響特徴推定部１２０で推定される音響特徴量を第１の音響特徴量ともいう。
ここで、評価対象音響特徴推定部１２０が推定する各音響特徴量は、ステレオ度、こもり度、ノイズ度及び音量である。なお、ステレオ度は、入力音（ここでは、評価対象音）がどの程度ステレオ又はモノラルに近いかを示す。こもり度は、入力音がどの程度シャープな音かこもった音かを示す。ノイズ度は、入力音のノイズ混入度合いを示す。音量は、入力音の音量を示す。これらの音響特徴量は、いずれも物理的な特徴量として推定される。

図２は、評価対象音響特徴推定部１２０の構成を概略的に示すブロック図である。
評価対象音響特徴推定部１２０は、フレーム化部１２１と、ＳＴＦＴ（Ｓｈｏｒｔ－ＴｉｍｅＦｏｕｒｉｅｒＴｒａｎｆｏｒｍ）処理部１２２と、フィルタバンク処理部１２３と、ステレオ度推定部１２４と、こもり度推定部１２５と、ノイズ度推定部１２６と、音量特徴抽出部１２７とを備える。

ここで、フレーム化部１２１は、第１のフレーム化部ともいい、ＳＴＦＴ処理部１２２は、第１のＳＴＦＴ処理部ともいい、フィルタバンク処理部１２３は、第１のフィルタバンク処理部ともいい、ステレオ度推定部１２４は、第１のステレオ度推定部ともいい、こもり度推定部１２５は、第１のこもり度推定部ともいい、ノイズ度推定部１２６は、第１のノイズ度推定部ともいい、音量特徴抽出部１２７は、第１の音量特徴抽出部ともいう。

フレーム化部１２１は、評価対象音ＴＳから、予め定められた期間（例えば、２８ｍｓ）の音を、一つの音フレームとして切り出す。切り出された音フレームは、ＳＴＦＴ処理部１２２及びステレオ度推定部１２４に与えられる。

ＳＴＦＴ処理部１２２は、音フレームに窓関数を掛けて短時間フーリエ変換を行うことにより、音フレームを周波数領域の信号である周波数領域信号に変換する。周波数領域信号は、フィルタバンク処理部１２３に与えられる。

フィルタバンク処理部１２３は、複数のバンドパスフィルタ処理によって、与えられた周波数領域信号を複数の周波数帯域成分に分割し、分割された成分を対数化することで対数化音フレームを生成する。

ステレオ度推定部１２４は、評価対象音ＴＳの右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、評価対象音ＴＳがステレオであるかモノラルであるかを推定して、時系列において評価対象音ＴＳがステレオであるかモノラルであるかを示すステレオ度情報である評価対象ステレオ度情報を生成する。

こもり度推定部１２５は、評価対象音ＴＳから抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第１の周波数領域信号に変換した後に、第１の周波数領域信号をフィルタバンクで処理して、対数化したノイズ有りの音信号パワーである第１のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、評価対象音ＴＳのこもり度のレベルを推定する。

ノイズ度推定部１２６は、評価対象音ＴＳの信号と、雑音との比率を示すＳＮ比である評価対象ＳＮ比を推定する。

音量特徴抽出部１２７は、評価対象音ＴＳの音量を抽出し、評価対象音ＴＳから抽出された音量を時系列において示す音量特徴量時系列データである評価対象音量特徴量時系列データを生成する。

図１に戻り、リファレンス音響特徴推定部１３０は、リファレンス音ＲＳの音響特徴量を推定する。リファレンス音響特徴推定部１３０で推定される音響特徴量を、第２の音響特徴量ともいう。
リファレンス音響特徴推定部１３０が推定する各音響特徴量も、ステレオ度、こもり度、ノイズ度及び音量である。

図３は、リファレンス音響特徴推定部１３０の構成を概略的に示すブロック図である。
リファレンス音響特徴推定部１３０は、フレーム化部１３１と、ＳＴＦＴ処理部１３２と、フィルタバンク処理部１３３と、ステレオ度推定部１３４と、こもり度推定部１３５と、ノイズ度推定部１３６と、音量特徴抽出部１３７とを備える。

ここで、フレーム化部１３１は、第２のフレーム化部ともいい、ＳＴＦＴ処理部１３２は、第２のＳＴＦＴ処理部ともいい、フィルタバンク処理部１３３は、第２のフィルタバンク処理部ともいい、ステレオ度推定部１３４は、第２のステレオ度推定部ともいい、こもり度推定部１３５は、第２のこもり度推定部ともいい、ノイズ度推定部１３６は、第２のノイズ度推定部ともいい、音量特徴抽出部１３７は、第２の音量特徴抽出部ともいう。

フレーム化部１３１は、リファレンス音ＲＳから、予め定められた期間（例えば、２８ｍｓ）の音を、一つの音フレームとして切り出す。切り出された音フレームは、ＳＴＦＴ処理部１３２及びステレオ度推定部１３４に与えられる。

ＳＴＦＴ処理部１３２は、音フレームに窓関数を掛けて短時間フーリエ変換を行うことにより、音フレームを周波数領域の信号である周波数領域信号に変換する。周波数領域信号は、フィルタバンク処理部１３３に与えられる。

フィルタバンク処理部１３３は、複数のバンドパスフィルタ処理によって、与えられた周波数領域信号を複数の周波数帯域成分に分割し、分割された成分を対数化することで対数化音フレームを生成する。

ステレオ度推定部１３４は、リファレンス音ＲＳの右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、リファレンス音ＲＳがステレオであるかモノラルであるかを推定して、時系列においてリファレンス音ＲＳがステレオであるかモノラルであるかを示すステレオ度情報であるリファレンスステレオ度情報を生成する。

こもり度推定部１３５は、リファレンス音ＲＳから抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第２の周波数領域信号に変換した後に、第２の周波数領域信号をフィルタバンクで処理して、対数化したノイズ有りの音信号パワーである第２のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、リファレンス音ＲＳのこもり度のレベルを推定する。

ノイズ度推定部１３６は、リファレンス音ＲＳの信号と、雑音との比率を示すＳＮ比であるリファレンスＳＮ比を推定する。

音量特徴抽出部１３７は、リファレンス音ＲＳの音量を抽出し、リファレンス音ＲＳから抽出された音量を時系列において示す音量特徴量時系列データであるリファレンス音量特徴量時系列データを生成する。

図１に戻り、聴感特徴推定部１４０は、評価対象音の音響特徴量と、リファレンス音の音響特徴量と、人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、評価対象音響特徴推定部１２０により推定された音響特徴量及びリファレンス音響特徴推定部１３０で推定された音響特徴量に対応する聴感特徴量を推定する。聴感特徴推定部１４０は、抽出された聴感特徴量を聴感スコア推定部１５０に与える。

ここでの、人の聴感は、ステレオモノラル変動感、こもり感、ノイズ感及び音量変動感である。
また、一定期間単位は、例えば、１５秒間等のセグメント単位である。

聴感特徴推定部１４０は、ステレオモノラル変動感推定部１４１と、こもり感推定部１４２と、ノイズ感推定部１４３と、音量変動感推定部１４４とを備える。

ステレオモノラル変動感推定部１４１は、評価対象音響特徴推定部１２０のステレオ度推定部１２４で生成されたステレオ度情報と、リファレンス音響特徴推定部１３０のステレオ度推定部１３４で生成されたステレオ度情報とに基づいて、一定期間毎に、評価対象音ＴＳにおけるステレオ及びモノラルの切替回数と、リファレンス音ＲＳにおけるステレオ及びモノラルの切換回数との差である切換回数差を算出する。そして、ステレオモノラル変動感推定部１４１は、切換回数差と、ステレオ及びモノラルが切り替わることによる人の聴感の評価値であるステレオモノラル変動推定スコアとの関係性を学習したステレオモノラル学習モデルを用いて、算出された切換回数差に対応するステレオモノラル変動推定スコアを推定する。

こもり感推定部１４２は、一定期間毎に、評価対象音ＴＳのこもり度のレベル毎の継続時間を評価対象こもり度特徴量として特定する。また、こもり感推定部１４２は、一定期間毎に、リファレンス音ＲＳのこもり度のレベル毎の継続時間をリファレンスこもり度特徴量として特定する。そして、こもり感推定部１４２は、評価対象こもり度特徴量及びリファレンスこもり度特徴量と、こもり度の大きさによる人の聴感の評価値であるこもり感推定スコアとの関係性を学習したこもり感学習モデルを用いて、特定された評価対象こもり度特徴量及び特定されたリファレンスこもり度特徴量に対応するこもり感推定スコアを推定する。

ノイズ感推定部１４３は、評価対象音響特徴推定部１２０のノイズ度推定部１２６で推定されたＳＮ比と、リファレンス音響特徴推定部１３０のノイズ度推定部１３６で推定されたＳＮ比との差分を、大きさに従って予め定められた複数のレベルに分類し、一定期間毎に、複数のレベルの各々に分類された差分の継続時間を示すノイズ大きさ特徴量を特定する。そして、ノイズ感推定部１４３は、ノイズ大きさ特徴量と、ノイズの大きさによる人の聴感の評価値であるノイズ大きさ感推定スコアとの関係性を学習したノイズ大きさ学習モデルを用いて、特定されたノイズ大きさ特徴量に対応するノイズ大きさ感推定スコアを推定する。

また、ノイズ感推定部１４３は、評価対象音響特徴推定部１２０のノイズ度推定部１２６で推定されたＳＮ比と、リファレンス音響特徴推定部１３０のノイズ度推定部１３６で推定されたＳＮ比との差分を時系列において示すＳＮ差分時系列データを生成する。さらに、ノイズ感推定部１４３は、生成されたＳＮ差分時系列データに含まれている下向きのピークの内、予め定められた条件を満たすピークを抽出し、抽出されたピークの内、予め定められた閾値よりも深いピークの数を、一定期間毎に集計した値をノイズ頻度特徴量として特定する。そして、ノイズ感推定部１４３は、ノイズ頻度特徴量と、ノイズの頻度による人の聴感の評価値であるノイズ頻度感推定スコアとの関係性を学習したノイズ頻度学習モデルを用いて、特定されたノイズ頻度特徴量に対応するノイズ頻度感推定スコアを推定する。

音量変動感推定部１４４は、評価対象音響特徴推定部１２０の音量特徴抽出部１２７が生成した音量特徴量時系列データ、及び、リファレンス音響特徴推定部１３０の音量特徴抽出部１３７が生成した音量特徴量時系列データの各々を周波数領域データに変換して、変換された周波数領域データで示されるパワーを周波数帯域に分割し、分割された周波数帯域毎のパワーに基づいて、一定期間毎における予め定められた音量変動特徴量を特定する。そして、音量変動感推定部１４４は、音量変動特徴量と、音量が変動することによる人の聴感の評価値である音量変動感推定スコアとの関係性を学習した音量変動学習モデルを用いて、特定された音量変動特徴量に対応する音量変動感推定スコアを推定する。

聴感スコア推定部１５０は、セグメントにおける聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、聴感特徴推定部１４０で推定された聴感特徴量の時系列データに対応する聴感スコアを推定する。

表示部１６０は、上述した、第１の音響特徴量、第２の音響特徴量、推定された聴感特徴量及び推定された聴感スコアの少なくとも何れか一つを表示する。
また、記録部１７０は、上述した、第１の音響特徴量、第２の音響特徴量、推定された聴感特徴量及び推定された聴感スコアの少なくとも何れか一つを記憶する。

次に、音質評価装置１００の動作について説明する。
図４は、音質評価装置１００の全体的な処理の流れを示す概略図である。
入力音（ここでは、評価対象音ＴＳ又はリファレンス音ＲＳ）は、図中の上から下に向かって、第１ステップ、第２ステップ、及び、第３ステップの順で処理されて、聴感スコアが推定される。

ここで、第１ステップの処理は、評価対象音響特徴推定部１２０及びリファレンス音響特徴推定部１３０で行われる処理である。第２ステップの処理は、聴感特徴推定部１４０で行われる処理である。第３ステップの処理は、聴感スコア推定部１５０で行われる処理である。

まず、第１ステップの処理について説明する。
ここで、第１ステップの処理は、評価対象音響特徴推定部１２０及びリファレンス音響特徴推定部１３０において行われる。評価対象音響特徴推定部１２０及びリファレンス音響特徴推定部１３０で行われる処理は、対象が異なるのみで、内容は同様であるため、以下では、評価対象音響特徴推定部１２０での処理についてメインに説明する。

図２に示されているフレーム化部１２１は、入力音である評価対象音ＴＳから、予め定められた期間（例えば、２８ｍｓ）の音を、一つの音フレームとして切り出す。切り出された音フレームは、ＳＴＦＴ処理部１２２及びステレオ度推定部１２４に与えられる。

なお、フレーム化部１２１は、フレーム間の連続性を考慮して、隣接フレームがオーバラップするように音フレームを切り出す。図４に示されている例では、フレーム化部１２１は、ある音フレームから１４ｍｓシフトして、１４ｍｓのオーバラップを設けて、次の音フレームを切り出す。

切り出された音フレームには、こもり度推定部１２５及びノイズ度推定部１２６の処理が行われる前に前処理が行われる。前処理は、ＳＴＦＴ処理部１２２及びフィルタバンク処理部１２３で行われる。

図５は、以上の前処理を説明するための概略図である。
図５に示されているように音フレームは、短時間フーリエ変換（ＳＴＦＴ）が行われた後に、フィルタバンクで処理されて、対数化される。
ここで、フィルタバンク処理部１２３は、図５に示すようにメルフィルタバンクを用いてもよい。メルフィルタバンクは、低周波数ほど周波数の違いに敏感という人間の知覚を反映するため、図５に示されているように三角形状のフィルタを使用して、実際の周波数から聴覚上の周波数であるメル周波数に変換するものである。

第１ステップでは、図４に示されているように、一つの音フレーム単位で、音響特徴量が抽出される。ここでは、ステレオ度推定部１２４によりステレオ度（ここでは、ステレオであるかモノラルであるか）が推定され、こもり度推定部１２５によりこもり度が推定され、ノイズ度推定部１２６によりノイズ度（ここでは、ＳＮ比）が推定され、音量特徴抽出部１２７により音量が抽出される。これらの処理については、後述する。なお、音量については音フレーム長を超える音から特徴量が抽出されてもよい。これは、後述するラウドネスによる音量特徴抽出に対応する。

次に、第２ステップでは、図１に示されている聴感特徴推定部１４０は、複数の音フレームから構成されるセグメント長単位（ここでは、１５秒長単位）で、聴感特徴量を推定する。第１ステップでは、物理的な音響特徴量が抽出されるが、第２ステップでは、短時間の音フレーム単位で抽出された音響特徴量の時系列情報から、人の聴感を学習した各種聴感学習モデルを用いて人がある程度聴感で判定できるようにするため、例えば、１５秒等の少し長いセグメント単位で、各種聴感特徴量が推定される。

第２ステップでは、音量変動感推定部１４４が音量変動感を推定し、ステレオモノラル変動感推定部１４１がステレオモノラル変動感を推定し、こもり感推定部１４２がこもり感を推定し、ノイズ感推定部１４３がノイズ感を推定する。これらの処理については、後述する。

第３ステップでは、聴感スコア推定部１５０は、セグメント長単位で推定された聴感特徴量を複数用いた聴感特徴量の時系列データから、コンテンツ全体での聴感スコアを推定する。例えば、車載ラジオ受信機の音質を評価する場合、第３ステップでは、フィールドテストコースを一周走行している間にラジオ受信機が出力した数分程度の音データ長の音質を評価する処理を行う。具体的な処理については、後述する。

次に、図２に示されている評価対象音響特徴推定部１２０のステレオ度推定部１２４の詳細処理について、図６及び図７を用いて説明する。なお、上述のように、図３に示されているリファレンス音響特徴推定部１３０のステレオ度推定部１３４でも同様の処理が行われる。

ステレオ度推定部１２４は、事前に学習しておいたステレオモノラル判定学習モデルを用いて、ステレオ度を推定する。
具体的には、ステレオ度推定部１２４は、図６に示されている識別フェーズにおいて、フレーム化部１２１から与えられた音フレームに対して、複数種類の特徴量を抽出する。そして、ステレオ度推定部１２４は、ステレオモノラル判定学習モデルを用いた学習分類器で、抽出された特徴量に対してステレオかモノラルかの分類を行う。

ステレオモノラル判定学習モデルの学習方法については、図６で学習フェーズとして示されているように、音フレームと、その音フレームがステレオであるか、モノラルであるかを示す教師ラベルとを対応付けた教師データを事前に用意しておく。

具体的には、音フレームがステレオの場合、図６で示されている学習フェーズにおいて、ステレオの音フレームからステレオの特徴量が抽出される。このステレオの特徴量と、その音フレームに対応する教師ラベル（ここでは、ステレオを示すラベル）を学習分類器に入力することで、学習分類器の学習が実施され、生成された学習モデルをステレオモノラル判定学習モデルとして記憶しておく。

特徴量抽出処理で抽出されるステレオ又はモノラルの特徴量は、図７に示されている、１－｜相互相関係数｜、遅延時間及びΔ（Ｌｃｈ－Ｒｃｈ）の三種類の特徴量である。

ここで、１－｜相互相関係数｜の特徴量について説明する。
音信号は、ステレオ信号であり音フレームも右チャンネル及び左チャンネルのステレオ音から生成されたフレーム信号であり、ステレオ度推定部１２４は、この左右チャンネル間の相互相関係数を求める。相互相関係数が１なら左右チャンネルは完全同一信号波形であることを示し、０なら無相関、－１なら逆相関となる。１から相互相関係数の絶対値を引いたものを特徴量の一つとして生成することで、モノラル音なら０に、ステレオなら１になるようにする。

次に、ステレオ度推定部１２４は、左右チャンネル間の遅延時間を特徴量として算出する。例えば、ステレオ度推定部１２４は、左チャンネルの信号及び右チャンネルの信号の何れか一方の時間をずらして、これらの相互相関係数を算出することで、遅延時間を算出すればよい。
さらに、ステレオ度推定部１２４は、左右チャンネルのパワー差分の時間変化であるΔ（Ｌｃｈ－Ｒｃｈ）を算出する。

以上の三つの特徴量は、図７に示されているステレオ特徴空間を構成し、原点に近いほどモノラル度が強いことを示す。
このようなステレオ特徴空間におけるステレオとアナログとの判定を、ステレオモノラル判定学習モデルとして学習しておくことで、適切な判定を行うことができるようになる。

次に、図２に示されている評価対象音響特徴推定部１２０のこもり度推定部１２５の詳細処理について、図８及び図９を用いて説明する。なお、上述のように、図３に示されているリファレンス音響特徴推定部１３０のこもり度推定部１３５でも同様の処理が行われる。

図８（Ａ）に示されているように、鋭い印象の音は、高域周波数成分のスペクトルパワーが強くスペクトル形状は比較的矩形の形状である。
一方、図８（Ｃ）に示されているように、鈍くこもった印象の音は、高域周波数成分のスペクトルパワーが弱くスペクトル形状は比較的三角形が強い形状になる傾向がある。
また、図８（Ｂ）に示されているように、鋭い印象の音と、鈍くこもった印象の音との間の中間的な音については、図８（Ｂ）に示されているように、高域周波数成分のスペクトルパワーが弱いながらも残り、スペクトル形状は台形的な形状になる傾向がある。

そこで、こもり度推定部１２５は、周波数スペクトルを一つの二次元図形として見た場合に、その重心を求め、重心の横軸成分、言い換えると、重心における周波数値を重心周波数によりこもり度のレベルを推定する。これによりクリアな音は、重心周波数が高く、こもった音は重心周波数が低くなるという特徴を推定することができる。
さらに、こもり度推定部１２５は、後述するノイズ度推定部１２６からの帯域毎のノイズ度を特徴量に追加してもよい。

そして、図９の学習フェーズに示されているように、こもり度推定部１２５は、これら特徴量を用いて、こもり度の学習分類器によって、こもり度の大きさとして大、中、小又は無のレベルを学習する。こもり度推定部１２５は、このようにして学習することで生成されたこもり度学習モデルを用いて、図９の識別フェーズにおいて、こもり度のレベルであるこもり度レベルを推定する。

次に、図２に示されている評価対象音響特徴推定部１２０のノイズ度推定部１２６の詳細処理について、図１０～図２０を用いて説明する。なお、上述のように、図３に示されているリファレンス音響特徴推定部１３０のノイズ度推定部１３６でも同様の処理が行われる。

図１０は、ノイズ度推定部１２６の構成を概略的に示すブロック図である。
ノイズ度推定部１２６は、ノイズ除去部１２６ａと、ＳＮ推定部１２６ｂとを備える。
なお、リファレンス音響特徴推定部１３０のノイズ度推定部１３６も同様に構成することができる。

ここで、ノイズ度推定部１２６のノイズ除去部１２６ａを第１のノイズ除去部と、ノイズ度推定部１２６のＳＮ推定部１２６ｂを第１のＳＮ推定部ともいう。
なお、図示してはいないが、ノイズ度推定部１３６のノイズ除去部を第２のノイズ除去部と、ノイズ度推定部１３６のＳＮ推定部を第２のＳＮ推定部ともいう。

ノイズ除去部１２６ａは、フィルタバンク部１０７から与えられる対数化音フレームから、分割帯域毎にノイズが重畳される前の元コンテンツの音信号パワーを推定する。ここで、対数化音フレームは、周波数帯域分割されたノイズ有りの音信号パワー（Ｓ＋Ｎ）を示す。また、ここで推定された音信号パワーは、ノイズ無しの音信号パワー（推定Ｓ）ともいう。
そして、ノイズ無しの音信号パワー（推定Ｓ）は、ＳＮ推定部１２６ｂに与えられる。

言い換えると、ノイズ除去部１２６ａは、評価対象音ＴＳから抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第１の周波数領域信号に変換した後に、第１の周波数領域信号をフィルタバンクで処理して、対数化した第１のノイズ有りの音信号パワーから、ノイズを除去した第１のノイズ無しの音信号パワーを推定する。
なお、ノイズ度推定部１３６のノイズ除去部は、リファレンス音ＲＳから抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第２の周波数領域信号に変換した後に、前記第２の周波数領域信号をフィルタバンクで処理して、対数化した第２のノイズ有りの音信号パワーから、ノイズを除去した第２のノイズ無しの音信号パワーを推定する。

ＳＮ推定部１２６ｂは、推定されたノイズ無しの音信号パワー（推定Ｓ）と、対数化音フレームで示される、ノイズ除去する前のノイズ有りの音信号パワー（Ｓ＋Ｎ）とからノイズ度としてのＳＮ比を推定する。このＳＮ比の推定は、分割された周波数帯域毎に行われる。

言い換えると、ＳＮ推定部１２６ｂは、第１のノイズ有りの音信号パワーと、第１のノイズ無しの音信号パワーとを用いて、評価対象音ＴＳのＳＮ比を推定する。
なお、ノイズ度推定部１３６のＳＮ推定部は、第２のノイズ有りの音信号パワーと、第２のノイズ無しの音信号パワーとを用いて、リファレンス音ＲＳのＳＮ比を推定する。

図１１は、ノイズ除去部１２６ａの構成を概略的に示すブロック図である。
ノイズ除去部１２６ａは、第１オートエンコーダ１２６ｂ－１と、第２オートエンコーダ１２６ｂ－２と、多層ニューラルネット処理部１２６ｂ－３とを備える。ここでは、オートエンコーダが二段の場合を示しているが、その段数は二段に限る必要はない。三段以上の構成であってもよく、段数を増やすことでノイズ除去性能を向上させることができる。

ノイズ除去部１２６ａには、フィルタバンク部１０７から、周波数帯域分割されたノイズ有りの音信号パワーを示す対数化音フレームが、複数フレーム分入力される。
図１１では、時刻ｔの対数化音フレームＳ＋Ｎ（ｔ）に対するＳを推定する構成を示している。この場合、ノイズ除去部１２６ａには、時刻ｔの対数化音フレームＳ＋Ｎ（ｔ）の他、その前の時刻ｔ－１における対数化音フレーム及びその後の時刻ｔ＋１における対数化音フレームＳ＋Ｎ（ｔ＋１）も入力される。

次に、ノイズ除去部１２６ａの学習方法を説明する。
図１２は、第１オートエンコーダ１２６ｂ－１の学習方法を説明するための概略図である。
第１オートエンコーダ１２６ｂ－１は、エンコーダＥｎ１と、デコーダＤｅ１とを備える。
図示するように、エンコーダＥｎ１と、デコーダＤｅ１とは、対象な構成になっている。

また、第１オートエンコーダ１２６ｂ－１は、入力ノード数よりも中間ノード数が少なく、出力ノード数は、入力ノード数と同じとなるニューラルネットワークである。
ここでの学習は、フィルタバンク部１０７からの時刻ｔ－１、時刻ｔ、及び、時刻ｔ＋１における周波数帯域分割された、隣接する対数化音フレームＳ＋Ｎ（ｔ－１）、対数化音フレームＳ＋Ｎ（ｔ）、及び、対数化音フレームＳ＋Ｎ（ｔ＋１）を、第１オートエンコーダ１２６ｂ－１に入力し、第１オートエンコーダ１２６ｂ－１の出力がこれら入力と同じになるようにニューラルネットワークの重みＷと、バイアスｂとが学習される。そのため教師ラベルは不要である。

図１３は、第２オートエンコーダ１２６ｂ－２の学習方法を説明するための概略図である。
第２オートエンコーダ１２６ｂ－２は、エンコーダＥｎ２と、デコーダＤｅ２とを備える。
図示するように、エンコーダＥｎ２と、デコーダＤｅ２とは、対象な構成になっている。
なお、図１３に示されているように、第２オートエンコーダ１２６ｂ－２の中間ノード数はさらに絞り込まれた構成になっている。

第２オートエンコーダ１２６ｂ－２の学習は、図１３に示されているように、学習済みの第１オートエンコーダ１２６ｂ－１のエンコーダＥｎ１の出力を入力として使用する。

第２オートエンコーダ１２６ｂ－２でも、第１オートエンコーダ１２６ｂ－１の学習と同様に教師ラベルは不要で、第２オートエンコーダ１２６ｂ－２の入力と出力が同一になるように、ニューラルネットワークの重みＷとバイアスｂとが学習される。

図１４は、多層ニューラルネット処理部１２６ｂ－３の学習方法を説明するための概略図である。
図１４に示されているように、学習済みの第１オートエンコーダ１２６ｂ－１のエンコーダＥｎ１の出力が、学習済みの第２オートエンコーダ１２６ｂ－２のエンコーダＥｎ２に入力され、学習済みの第２オートエンコーダ１２６ｂ－２のエンコーダＥｎ２の出力が、多層ニューラルネット処理部１２６ｂ－３に入力される。

この多層ニューラルネット処理部１２６ｂ－３への入力は、入力された対数化音フレームの各分割帯域に対応したノイズ除去された音スペクトルのパワーである。
さらに、多層ニューラルネット処理部１２６ｂ－３には、図１１に示されているように、時刻ｔ－１、時刻ｔ、及び、時刻ｔ＋１における周波数帯域分割された隣接する対数化音フレームＳ＋Ｎ（ｔ－１）、対数化音フレームＳ＋Ｎ（ｔ）、及び、対数化音フレームＳ＋Ｎ（ｔ＋１）も入力される。

このような構成において、この多層ニューラルネット処理部１２６ｂ－３での学習用教師データ生成について説明する。
ノイズが重畳される前の音データと、これにノイズを重畳した音データとを用意し、フレーム化部１２１、ＳＴＦＴ処理部１２２及びフィルタバンク処理部１２３で処理された各音データの対数化音フレームの出力を取得し、第２オートエンコーダ１２６ｂ－２のエンコーダＥｎ２の出力と、ノイズが重畳された音データに対するフィルタバンク処理部１２３からの周波数帯域分割された隣接する三つの対数化音フレームの出力、即ち、対数化音フレームＳ＋Ｎ（ｔ－１）、対数化音フレームＳ＋Ｎ（ｔ）及び対数化音フレームＳ＋Ｎ（ｔ＋１）と、これらに対応するノイズ重畳前の音データに対する周波数帯域分割された対数化音フレームの出力、即ち、対数化音フレームＳ（ｔ）とを教師ラベルとして対応づけて教師データを生成する。

図１５は、多層ニューラルネット処理部１２６ｂ－３の教師データの構成を示す概略図である。
図１５に示されているように、多層ニューラルネット処理部１２６ｂ－３の教師データは、ノイズが重畳された音データに対するフィルタバンク処理部１２３から出力される対数化音フレームＳ＋Ｎ（ｔ－１）、対数化音フレームＳ＋Ｎ（ｔ）及び対数化音フレームＳ＋Ｎ（ｔ＋１）と、ノイズが重畳された音データに対する第２オートエンコーダ１２６ｂ－２のエンコーダＥｎ２から出力される対数化音フレームＳ（ｔ）と、ノイズ重畳前の音データに対するフィルタバンク処理部１２３から出力される対数化音フレームＳ（ｔ）とが対応付けられている。

このような教師データを用いて、多層ニューラルネット処理部１２６ｂ－３は、各入力信号と、教師ラベルとの関係を学習する。この学習では、入力データが出力データとの誤差が小さくなるようにニューラルネットワークの各ノードの重みＷとバイアスｂとが学習される。このようにして学習されたニューラルネットワークを用いて、入力音に対してノイズ除去されたノイズ無しの音信号パワー（推定Ｓ）が多層ニューラルネット処理部１２６ｂ－３から出力される。

次に、図１０に示されているＳＮ推定部１２６ｂについて説明する。
図１０に示されているように、ＳＮ推定部１２６ｂへは、ノイズ除去部１２６ａからの時刻ｔにおけるノイズ無しの音信号パワー（推定Ｓ）、時刻ｔにおけるノイズ有りの音信号パワー（Ｓ＋Ｎ）が入力される。いずれもフィルタバンク処理部１２３からの出力に基づくため、帯域分割された各帯域の対数化フィルタバンク出力である。

ＳＮ推定部１２６ｂはこれらを入力として、時刻ｔにおける各帯域のＳＮ比をそれぞれ推定する。
ＳＮ推定部１２６ｂは、図１６に示すようなＬＳＴＭ（ＬｏｎｇＳｈｏｒｔＴｅｒｍＭｅｍｏｒｙ）ネットワークを用いたＳＮ推定ネットワークとして構成する。ＬＳＴＭネットワークは、図１６に示されているように、シーケンス入力層、ＬＳＴＭ層、全結合層、ドロップアウト層、全結合層及びｒｅｇｒｅｓｓｉｏｎ層で構成される。
ノイズ有りの音信号パワー（Ｓ＋Ｎ）をこのＬＳＴＭネットワークに入力して、このＬＳＴＭネットワークから出力された値と、教師データとしてのノイズ無しの音信号パワー（推定Ｓ）との誤差が小さくなるように、各相の重みパラメータを修正することで、期待値に近いＳＮ比が出力されるようになる。

図１７は、ＬＳＴＭネットワークの動作を示す概略図である。
図１７に示されているように、ＬＳＴＭネットワークは、時系列データに対して時間ステップ毎に推定値を出力する。時刻ｔにおけるデータ（ここでは、ノイズ無しの音信号パワー（推定Ｓ）及びノイズ有りの音信号パワー（Ｓ＋Ｎ）の各帯域の対数化フィルタバンク出力）と、時刻ｔ－１で生成されたＬＳＴＭ隠れ層の値がＬＳＴＭ層に入力され、隠れ層に格納される。

隠れ層の出力は、全結合層、ドロップアウト層、全結合層、ｒｅｇｒｅｓｓｉｏｎ層を経て時刻ｔにおける推定値（ここでは、各帯域のＳＮ比）が出力される。ＬＳＴＭネットワークは、このように現在の入力データだけでなく過去の情報も用いる点が特徴であり長期的な依存関係を学習することのできるリカレントニューラルネットワークである。

ＬＳＴＭネットワークの学習については、音信号に既知のノイズを重畳したノイズ有り音とこれに対応する教師ラベルを使用する。教師ラベルについては、音信号と既知のノイズそれぞれについて、フィルタバンク処理部１２３の出力、即ち各帯域の対数化フィルタバンク出力毎の比（即ち帯域別ＳＮ比）を教師ラベルとして用意する。この教師データを用いて帯域別ＳＮ比を推定するＬＳＴＭネットワークの学習を行う。

図１８は、ノイズ度推定部１２６の第１の変形例の構成を概略的に示すブロック図である。
ノイズ度推定部１２６の第１の変形例は、ノイズ除去部１２６ａと、ＳＮ推定部１２６ｃとを備える。
図１８に示されているノイズ除去部１２６ａは、図１０に示されているノイズ除去部１２６ａと同様である。
なお、リファレンス音響特徴推定部１３０のノイズ度推定部１３６の第１の変形例も、図示してはいないが、ノイズ除去部と、ＳＮ推定部とを備える。

ここで、ノイズ度推定部１２６のノイズ除去部１２６ａを第１のノイズ除去部と、ノイズ度推定部１２６のＳＮ推定部１２６ｃを第１のＳＮ推定部ともいう。
また、リファレンス音響特徴推定部１３０のノイズ度推定部１３６のノイズ除去部を第２のノイズ除去部と、ノイズ度推定部１３６のＳＮ推定部を第２のＳＮ推定部ともいう。

図１８に示されているＳＮ推定部１２６ｃには、こもり度推定部１２５からの、こもり度レベルを示すこもり度情報が入力されている。
例えば、ラジオ受信機においては、復調音のノイズが強い場合、ローパスフィルタにより耳障りなノイズを軽減する出力音制御がなされる。この場合、低域のノイズが大きいと、こもり度が強くなるという相関があると考えられる。そして、こもり度が強くなると、受信機出力音のＳＮ比は低くなるという相関があると考えられる。そこでＳＮ比を推定する際にこの相関関係を学習し、この学習モデルを用いることで推定精度を向上させることができる。

言い換えると、ＳＮ推定部１２６ｃは、第１のノイズ有りの音信号パワーと、第１のノイズ無しの音信号パワーと、評価対象音ＴＳのこもり度のレベルとを用いて、評価対象音ＴＳのＳＮ比を推定する。
また、リファレンス音響特徴推定部１３０のノイズ度推定部１３６の、図示しないＳＮ推定部は、第２のノイズ有りの音信号パワーと、第２のノイズ無しの音信号パワーと、リファレンス音ＲＳのこもり度のレベルを用いて、リファレンス音ＲＳのＳＮ比を推定する。

図１９は、ノイズ度推定部１２６の第２の変形例の構成を概略的に示すブロック図である。
ノイズ度推定部１２６の第２の変形例は、ノイズ除去部１２６ａと、ＳＮ計算部１２６ｄとを備える。
図１９に示されているノイズ除去部１２６ａは、図１０に示されているノイズ除去部１２６ａと同様である。
なお、リファレンス音響特徴推定部１３０のノイズ度推定部１３６の第２の変形例も、図示してはいないが、ノイズ除去部と、ＳＮ計算部とを備える。

ここで、ノイズ度推定部１２６のノイズ除去部１２６ａを第１のノイズ除去部と、ノイズ度推定部１２６のＳＮ計算部１２６ｄを第１のＳＮ計算部ともいう。
また、リファレンス音響特徴推定部１３０のノイズ度推定部１３６のノイズ除去部を第２のノイズ除去部と、ノイズ度推定部１３６のＳＮ計算部を第２のＳＮ計算部ともいう。

ＳＮ計算部１２６ｄは、ＳＮ比として、時刻ｔにおけるノイズ無しの音信号パワー（推定Ｓ）と、時刻ｔにおけるノイズ有りの音信号パワー（Ｓ＋Ｎ）との各帯域の対数化フィルタバンク出力の比を計算で求めてもよい。すなわち、帯域毎に、時刻ｔにおけるノイズ有りの音信号パワー（Ｓ＋Ｎ）から、時刻ｔにおけるノイズ無しの音信号パワー（推定Ｓ）を減算することで、時刻ｔにおけるノイズの音信号パワー（推定Ｎ）を求め、時刻ｔにおけるノイズ無しの音信号パワー（推定Ｓ）を時刻ｔにおけるノイズの音信号パワー（推定Ｎ）で除算することで、時刻ｔにおける各帯域のＳＮ比を求めることができる。これは推定されたノイズ無しの音信号パワー（推定Ｓ）の精度が高い場合に有効である。

言い換えると、ＳＮ計算部１２６ｄは、第１のノイズ有りの音信号パワーから、第１のノイズ無しの音信号パワーを減算することで第１のノイズの音信号パワーを算出し、第１のノイズ無しの音信号パワーと、第１のノイズの音信号パワーとを用いて、評価対象音ＴＳのＳＮ比を推定する。
なお、リファレンス音響特徴推定部１３０のノイズ度推定部１３６の、図示しないＳＮ計算部は、第２のノイズ有りの音信号パワーから、第２のノイズ無しの音信号パワーを減算することで第２のノイズの音信号パワーを算出し、第２のノイズ無しの音信号パワーと、第２のノイズの音信号パワーとを用いて、リファレンス音ＲＳのＳＮ比を推定する。

図２０は、ノイズ度推定部１２６の第３の変形例の構成を概略的に示すブロック図である。
ノイズ度推定部１２６の第３の変形例は、ノイズ推定部１２６ｅと、ＳＮ特定部１２６ｆとを備える。
なお、図示してはいないが、リファレンス音響特徴推定部１３０のノイズ度推定部１３６の第３の変形例も、ノイズ推定部と、ＳＮ特定部とを備える。

ここで、ノイズ度推定部１２６のノイズ推定部１２６ｅを第１のノイズ推定部と、ノイズ度推定部１２６のＳＮ特定部１２６ｆを第１のＳＮ特定部ともいう。
また、リファレンス音響特徴推定部１３０のノイズ度推定部１３６のノイズ推定部を第２のノイズ推定部と、ノイズ度推定部１３６のＳＮ特定部を第２のＳＮ特定部ともいう。

この第３の例では、ノイズ推定部１２６ｅで、ノイズの音信号パワー（推定Ｎ）を推定し、ＳＮ特定部１２６ｆは、推定されたノイズの音信号パワー（推定Ｎ）と、ノイズ有りの音信号パワー（Ｓ＋Ｎ）から、ＳＮ比を上述のＳＮ推定ネットワークにより、又は、上述のＳＮ計算により求める。
ここで、ノイズ推定部１２６ｅは、ＬＳＴＭネットワークにおいて、ノイズ有りの音信号パワー（Ｓ＋Ｎ）を入力とし、ノイズの音信号パワーを教師データとすることにより、ＳＮ比を推定すればよい。

言い換えると、ノイズ推定部１２６ｅは、評価対象音ＴＳから抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第１の周波数領域信号に変換した後に、第１の周波数領域信号をフィルタバンクで処理して、対数化した第１のノイズ有りの音信号パワーから、評価対象音ＴＳのノイズの音信号パワーに相当する第１のノイズの音信号パワーを推定する。
そして、ＳＮ特定部１２６ｆは、第１のノイズ有りの音信号パワーと、第１のノイズの音信号パワーとを用いて、評価対象音のＳＮ比を特定する。

また、リファレンス音響特徴推定部１３０のノイズ度推定部１３６の、図示しないノイズ推定部は、リファレンス音ＲＳから抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第２の周波数領域信号に変換した後に、第２の周波数領域信号をフィルタバンクで処理して、対数化した第２のノイズ有りの音信号パワーから、リファレンス音ＲＳに含まれているノイズの音信号パワーに相当する第２のノイズの音信号パワーを推定する。
そして、リファレンス音響特徴推定部１３０のノイズ度推定部１３６の、図示しないＳＮ特定部は、第２のノイズ有りの音信号パワーと、第２のノイズの音信号パワーとを用いて、リファレンス音ＲＳのＳＮ比を特定する。

さらに、ノイズ度推定部１２６において、推定されたノイズ無しの音信号パワー（推定Ｓ）、推定されたＳＮ比、及び、ノイズ有りの音信号パワー（Ｓ＋Ｎ）からより聴感にあった実効ノイズ感としての聴感Ｓ_Ｎ、及び、実効信号感としての聴感Ｓ_Ｓが、下記の（１）式～（４）式により算出され、表示部１６０での表示及び、記録部１７０での保存が行われてもよい。

実効値Ｅ_Ｎ＝｛Ｐｗ－（実効値Ｅ_Ｓ）^２｝^１／２（１）
実効値Ｅ_Ｓ＝｛Ｐｗ×ＳＮＲ_Ｐ÷（ＳＮＲ_Ｐ＋１）｝^１／２（２）
ここで、Ｐｗは、ノイズ有りの音信号パワー（Ｓ＋Ｎ）の電力のフレームにおける平均値である。
また、ＳＮＲ_Ｐ＝１０^{推定されたＳＮ比／１０}である。
聴感Ｓ_Ｓ＝（実効値Ｅ_Ｓ）÷（実効値Ｅ_Ｎ＋実効値Ｅ_Ｓ）（３）
聴感Ｓ_Ｎ＝（実効値Ｅ_Ｎ）÷（実効値Ｅ_Ｎ＋実効値Ｅ_Ｓ）（４）

推定されるＳＮ比は、ノイズ成分が微小値であっても、分子の信号成分が無音になると信号成分をノイズ成分で除算した値が０に近づくため、－∞（デジベル：ｄＢ）となり、極端に悪いＳＮ比となる。このため、推定されるＳＮ比は、実際のノイズ感と大きく異なってしまう。また、ＳＮ比が悪化したのかが表示波形で区別できない問題がある。

そこで、実効値Ｅ_Ｎの表示が考えられるが、実効値Ｅ_Ｎが小さく、且つ、あまり実効値Ｅ_Ｎの変化がない場合でも、信号成分の音量が小さくなると、実際のノイズ感は大きく感じられるが、実効値Ｅ_Ｎ自体は変化がないので聴感とミスマッチが生じる。

ここでは、聴感Ｓ_Ｎとして、（実効値Ｅ_Ｎ＋実効値Ｅ_Ｓ）に対する（実効値Ｅ_Ｎ）の比率が算出されるため、信号成分が無音の場合でも、聴感Ｓ_Ｎ＝１が上限となり、ＳＮ比のように－∞にはならず、実際のノイズ感と大きくずれることはない。

また、実効値Ｅ_Ｎがあまり変化のない場合において、信号成分の音量が小さくなった場合、聴感Ｓ_Ｎは１に近づくため、実際のノイズ感を反映することができる。
さらに、推定されたＳＮ比の表示の場合のように、信号成分が無音になったのか、ノイズ成分が大きくなったのかを区別することができる表示となる。

以上のように聴感Ｓ_Ｎは、推定されたノイズの音信号パワー（推定Ｎ）、推定されたＳＮ比よりも、実際の聴感にマッチしたノイズ感及び信号感の表現ができるので、聴感ノイズ評価を行う際に有効な客観データとして活用できる。

同様に聴感Ｓ_Ｓも、（実効値Ｅ_Ｓ）を（実効値Ｅ_Ｎ＋実効値Ｅ_Ｓ）で除算することで、聴感にあった指標として活用することができる。

なお、評価対象音響特徴推定部１２０のノイズ度推定部１２６で算出される実行値Ｅ_Ｎを第１の実行値Ｅ_Ｎ１ともいい、ノイズ度推定部１２６で算出される実行値Ｅ_Ｓを第２の実行値Ｅ_Ｓ１ともいい、ノイズ度推定部１２６で算出される聴感Ｓ_Ｓを第１の実効信号感Ｓ_Ｓ１ともいい、ノイズ度推定部１２６で算出される聴感Ｓ_Ｅを第１の実効ノイズ感Ｓ_Ｅ１ともいう。
また、ノイズ度推定部１２６での算出で使用されるＰＷをＰＷ１と示すこともあり、ＰＷ１は、評価対象音ＴＳから抽出された音フレームにおけるノイズ有りの音信号パワーの平均値である。
さらに、ノイズ度推定部１２６での算出で使用されるＳＮＲ_ＰをＳＮＲ_Ｐ１と示すこともあり、ＳＮＲ_Ｐ１＝１０^{評価対象ＳＮ比／１０}である。

なお、リファレンス音響特徴推定部１３０のノイズ度推定部１３６で算出される実行値Ｅ_Ｎを第３の実行値Ｅ_Ｎ２ともいい、ノイズ度推定部１３６で算出される実行値Ｅ_Ｓを第４の実行値Ｅ_Ｓ２ともいい、ノイズ度推定部１３６で算出される聴感Ｓ_Ｓを第２の実効信号感Ｓ_Ｓ２ともいい、ノイズ度推定部１３６で算出される聴感Ｓ_Ｅを第２の実効ノイズ感Ｓ_Ｅ２ともいう。
また、ノイズ度推定部１３６での算出で使用されるＰＷをＰＷ２と示すこともあり、ＰＷ２は、リファレンス音ＲＳから抽出された音フレームにおけるノイズ有りの音信号パワーの平均値である。
さらに、ノイズ度推定部１３６での算出で使用されるＳＮＲ_ＰをＳＮＲ_Ｐ２と示すこともあり、ＳＮＲ_Ｐ２＝１０^{リファレンスＳＮ比／１０}である。

なお、リファレンス音響特徴推定部のノイズ度推定部１３６も、上記の（１）式～（４）式と同様の式を用いて、聴感Ｓ_Ｓ及び聴感Ｓ_Ｎを算出することができる。

図２に戻り、評価対象音響特徴推定部１２０の音量特徴抽出部１２７は、入力音（ここでは、評価対象音）の比較的低周波数の音量を抽出する。
音量特徴抽出部１２７は、入力音をラウドネス情報に変換して、変換された情報を音量情報として出力する。ラウドネスは、低い周波数ほど感度が悪く、２ｋＨｚから４ｋＨｚにおいて感度が良いという人の聴感を反映した指標である。

図２１に示されているように、音量特徴抽出部１２７は、評価対象音ＴＳに対応する音信号を、例えば、４秒毎といった一定期間毎に、切り出し位置を一定時間（例えば、１４ｍｓ）だけシフトして切り出していき、その切り出した音信号を用いてラウドネスを算出する。ラウドネスは、ＩＴＵ－ＲＢＳ．１７７０－４、ＥＢＵＲ１２８ｓｔａｎｄａｒｄｓに記載の公知の方法で計算すればよい。このようにして、音量特徴抽出部１２７は、サンプリング周期１４ｍｓの音量時系列データを音量特徴量として生成し、その音量特徴量を出力する。

または、音量特徴抽出部１２７は、図２２に示されているようにして、音量特徴量を生成してもよい。なお、図２２に示されている場合には、図２に示されている音量特徴抽出部１２７は、フレーム化部１２１から出力される音フレームの入力を受ける。

図２２ではまず、音量特徴抽出部１２７は、音フレームに対応する音に対してＦＦＴ（高速フーリエ変換）を行うことで、周波数領域の信号を生成する。そして、音量特徴抽出部１２７は、その周波数領域の信号をメルフィルタバンクにかけて、各帯域のスペクトル成分を取り出し、対数をとったメル周波数スペクトルを生成する。

そして、音量特徴抽出部１２７は、生成されたメル周波数スペクトルに対して、離散コサイン変換（ＤＣＴ）を行い、メル周波数ケプストラムに変換して、その低次成分の係数を取り出したメル周波数ケプストラム係数（ＭＦＣＣ）を得る。これは音フレーム毎に生成される。音量特徴抽出部１２７は、例えば、ＭＦＣＣの１次元の低域成分をフレーム毎に取り出した時系列データを音量特徴量として出力してもよい。

次に、図１に示されている聴感特徴推定部１４０の詳細を説明する。
聴感特徴推定部１４０は、ステレオモノラル変動感推定部１４１と、こもり感推定部１４２と、ノイズ感推定部１４３と、音量変動感推定部１４４とを備える。

ステレオモノラル変動感推定部１４１、こもり感推定部１４２、ノイズ感推定部１４３及び音量変動感推定部１４４は、いずれも図２３に示されているように、学習フェーズにおいて、評価対象音響特徴推定部１２０から与えられる評価対象音の音響特徴量と、リファレンス音響特徴推定部１３０から与えられるリファレンス音の音響特徴量とから対応する特徴量を推定し、推定された特徴量と、教師データとを用いて、学習識別器により学習モデルを生成する。そして、ステレオモノラル変動感推定部１４１、こもり感推定部１４２、ノイズ感推定部１４３及び音量変動感推定部１４４の各々は、識別フェーズにおいて、評価対象音響特徴推定部１２０から与えられる評価対象音の音響特徴量と、リファレンス音響特徴推定部１３０から与えられるリファレンス音の音響特徴量とから対応する特徴量を推定し、推定された特徴量と、学習モデルとを用いて、それぞれの分類結果を出力する。

まず、ステレオモノラル変動感推定部１４１について説明する。
ステレオモノラル変動感推定部１４１は、評価対象音ＴＳと、リファレンス音ＲＳとそれぞれについて、ステレオからモノラルへの切り替え発生回数を求め、図２４に示すように、評価対象音ＴＳとリファレンス音ＲＳとにおけるステレオからモノラルへの切り替え発生回数の差を特徴量として抽出する。

この発生回数のカウントは、セグメント（例えば１５秒間）毎に行われ、ステレオモノラル変動感推定部１４１は、セグメント毎に一つ特徴量として、その発生回数の差を算出する。

そして、学習用の教師データは、図２５に示すように、セグメント毎にステレオモノラル変動感スコアとして評価者が予めスコアリングしたデータが用いられる。
スコアリングは、例えば、リファレンス音ＲＳと比較して、評価対象音ＴＳの切り替えの発生回数が多ければ、ステレオからモノラルへの変動が多く、スコアとしては悪いためマイナス点とする。評価対象音の切り替えの発生回数が少なければ、スコアとしてプラス点が付与される。

こうして生成された図２５に示されている教師データを用いて学習した学習モデルを用いて、識別フェーズでは、ステレオモノラル変動感推定部１４１は、評価者の聴感を反映した、評価対象音のリファレンス音に対する相対評価スコアを推定することができる。ここで、ステレオモノラル変動感推定部１４１が生成し、使用する学習モデルをステレオモノラル学習モデルともいう。

次に、こもり感推定部１４２について説明する。
こもり感推定部１４２は、評価対象音ＴＳと、リファレンス音ＲＳとのそれぞれについて、こもり度推定部１２５が推定したこもり度レベルの各々に対して、１セグメント期間において、継続時間を特徴量として抽出する。

図２６に、評価対象音及びリファレンス音のそれぞれについて、セグメント毎にこもり度レベル（ここでは、無、小、中又は大）の分類クラスのこもり度継続時間を特徴量として抽出した結果を示す。

こもり感推定のための学習識別器における学習フェーズでは、評価者が各セグメントの音を聴き感じた聴感スコアを教師ラベルとして作成し、上記特徴量に追加した教師データを用いて学習識別器を学習する。図２７は、こもり感推定のための教師データの一例を示す概略図である。

学習識別器における識別フェーズでは、図２６に示されている特徴量がこもり感推定に使用される。なお、特徴量として１セグメント期間中のこもり度平均値を求め特徴量に追加されてもよい。なお、こもり感推定部１４２が生成し、使用する学習モデルをこもり感学習モデルともいう。

また、こもり感推定部１４２は、図２８に示されているこもり感の特徴量及び図２９に示されているこもり感の教師データが示すように、評価対象音とリファレンス音とのこもり度レベル（ここでは、無、小、中又は大）のクラス間距離の１セグメント中の継続時間を特徴量としてもよい。例えば、こもり度レベル無を０、こもり度レベル小を１、こもり度レベル中を２、こもり度レベル大を３と定義すると、両者ともこもり度無なら両者の暮らす距離は０（＝０－０）、評価対象音がこもり度無、リファレンス音がこもり度大なら、クラス距離－３（＝０－３）となる。

次に、ノイズ感推定部１４３について説明する。
ノイズ感推定部１４３は、ノイズ感としてノイズの大きさ感と、ノイズの発生頻度感とについて評価者が感じた聴感をそれぞれ推定する。

まず、ノイズの大きさ感の推定の動作について説明する。
ノイズ感推定部１４３は、ノイズ度推定部１２６が推定したＳＮ比の時系列データに対して、評価対象音ＴＳと、リファレンス音ＲＳとの各推定ＳＮ比の差分の大きさ毎に、レベル１から３までのレベルに分け、各レベルの継続時間を特徴量として、図３０に示すように、１セグメント（例えば、１５秒）毎に抽出する。

ノイズの大きさ推定のための学習識別器の学習フェーズでは、評価者が各セグメントの音を聴き感じたノイズの大きさのレベルを聴感スコアとして教師ラベルを作成する。この教師ラベルを図３０の特徴量に追加し、図３１に示す教師データを作成し、ノイズ感推定部１４３は、これを用いてノイズの大きさ感の推定用の学習識別器を学習する。

ノイズ大きさ感の学習識別器の識別フェーズでは、ノイズ感推定部１４３は、図３０の特徴量と、学習済みのノイズ大きさ感の学習モデルを用いて、ノイズの大きさを推定する。なお特徴量として１セグメント期間中のノイズ大きさの平均値を求め特徴量に追加してもよい。ここで生成及び使用される学習モデルを、ノイズ大きさ学習モデルともいう。

または、特徴量として、ノイズ度推定部１２６、１３６が推定したＳＮ比から求めた聴感Ｓ_Ｎの時系列データとして、評価対象音ＴＳとリファレンス音ＲＳとの各々の聴感Ｓ_Ｎの差分の大きさ毎に、レベル１から３までのレベルに分け、レベル毎の継続時間を特徴量として図３０に示すように、１セグメント（例えば、１５秒）毎に推定してもよい。

次に、ノイズ感推定部１４３におけるノイズ発生頻度感の推定の動作について説明する。
ノイズ感推定部１４３は、ノイズ度推定部１２６が推定したＳＮ比の時系列データに対して、評価対象音ＴＳと、リファレンス音ＲＳとの推定ＳＮ比の差分の時系列データを生成する。

図３２に、評価対象音ＴＳとリファレンス音ＲＳとの推定ＳＮ比の差分の時系列データであるＳＮ差分時系列データを示す。
このＳＮ差分時系列データについて下向きピークを抽出し、そのピークの長さＰＬが、予め定められた閾値Ａを超え、そのピークの幅ＰＷが、予め定められた閾値Ｂ（例えば、０．５秒）を超えるものを抽出する。
さらに抽出したピークのうちピーク点の値が、予め定められた閾値Ｃより深いピーク点を抽出し、このピーク点数を１セグメント中でカウントし、このカウント値を特徴量として、図３３に示すように抽出する。

なお、ピーク点の深さは、以下のように定義される。
下向きのピーク点の内、深さを算出するピーク点を対象ピーク点ＴＰとする。
対象ピーク点ＴＰから左右に水平線を引きより低いピークへの軌跡との右側交点をＡ、その左側交点をＢとする。なお、左右において、より低いピークがなく左端又は右端に到達した場合には、左端の値をＶＡ、右端の値をＶＢとして用いる。
値ＶＡに対応する時刻～対象ピーク点ＴＰに対応する時刻までの第１の区間の最大値と、対象ピーク点ＴＰ～値ＶＢに対応するまでの第２の区間における最大値との内、小さい方の値を基準点とする。
基準点と、対象ピーク点ＴＰとの垂直方向の距離を、その対象ピーク点ＴＰの「深さ」とする。

図３２においては、以上のような条件を満たすピークとして、ピークＰ１～Ｐ７が示されている。
ここで、ノイズ感推定部１４３は、以上のような条件を満たすピークに対して、ピークの値に応じて、レベルを割り当てる。

閾値Ｃのレベルを、ノイズ音が気になるレベル以下とすることで、短期間に生じるパルス状のノイズ音を抽出することができる。ノイズ感推定部１４３は、このようなパルス的なノイズの発生回数を特徴量として抽出し、評価者のノイズ発生頻度感の聴感の学習識別器に用いる。

ノイズの発生頻度感の推定のための学習識別器の学習フェーズでは、評価者が各セグメントの音を聴き感じたパルス的なノイズ音が１セグメント間に多いか少ないかのノイズ発生頻度に関する聴感スコアとして教師ラベルを作成する。この教師ラベルを、図３３に示されている特徴量に追加し、図３４に示す教師データを作成し、ノイズ感推定部１４３は、これを用いてノイズの発生頻度感推定用の学習識別器を学習する。

ノイズ発生頻度感の学習識別器の識別フェーズでは、ノイズ感推定部１４３は、図３３の特徴量と学習済みノイズ発生頻度感の学習モデルを用いて、ノイズの大きさ推定を行う。ここで生成及び使用される学習モデルを、ノイズ頻度学習モデルともいう。

なお、特徴量として、ノイズ度推定部１２６、１３６が推定したＳＮ比から求められた聴感Ｓ_Ｎの時系列データとして、評価対象音とリファレンス音のそれぞれの聴感Ｓ_Ｎの差分を求め、図３２に示されているＳＮ比の差分の時系列データに置き換えて同様のピーク特徴抽出処理を行い、これを特徴量として学習識別器の生成を行ってもよい。

次に、音量変動感推定部１４４について説明する。
評価対象音響特徴推定部１２０の音量特徴抽出部１２７及びリファレンス音響特徴推定部１３０の音量特徴抽出部１３７が出力したラウドネス又はメル周波数ケプストラムの低次元情報の時系列データは、音量特徴量として音量変動感推定部１４４に入力される。

図３５は、音量変動感推定部１４４の動作を説明するための概略図である。
音量変動感推定部１４４では、音量特徴抽出部１２７から入力された音量特徴量に対して、中心化部１４４ａが、各々の平均がゼロになるように、音量特徴量から平均値を減算する。

そして、時間変動特徴抽出部１４４ｂは、中心化部１４４ａの出力を、１セグメント（例えば、１５秒間）単位でＦＦＴを実行することで、周波数スペクトルに変換する。
さらに、時間変動特徴抽出部１４４ｂは、変換された周波数スペクトルに対してサブバンド分割フィルタを掛けることで、図３６に示されているようなサブバンド毎のパワーを求め、音量データの時間変動成分値を抽出し、これを時間変動特徴量とする。

また、音量変動感推定部１４４では、音量特徴抽出部１３７から入力された音量特徴量に対して、中心化部１４４ｃが、各々の平均がゼロになるように、音量特徴量から平均値を減算する。

そして、時間変動特徴抽出部１４４ｄは、中心化部１４４ｃの出力を、１セグメント（例えば、１５秒間）単位でＦＦＴを実行することで、周波数スペクトルに変換する。
さらに、時間変動特徴抽出部１４４ｄは、変換された周波数スペクトルに対してサブバンド分割フィルタを掛けることで、図３６に示されているようなサブバンド毎のパワーを求め、音量データの時間変動成分値を抽出し、これを時間変動特徴量とする。

図３７は、以上のようにして得られる時間変動特徴量を示しており１から１４の周波数サブバンドにおける評価対象音の中心化音量データＴと、リファレンス音の中心化音量データＲとの各時間変動の大きさを表している。

サブバンドの帯域は図３６に示されているように、人が音量変動の多い少ないを知覚できる程度の周波数とし、例えば、０から５Ｈｚ程度の低い周波数としている。

以上の処理によって得られた評価対象音及びリファレンス対象音のそれぞれの時間変動特徴量について、音量変動感推定部１４４は、図３８の表に示されている音量変動特徴量を得る。

図３８の１番から１４番が、各サブバンド（ｉ＝１～１４）における評価対象音ＴＳの時間変動成分特徴の変動成分値、１５番から２８番が各サブバンド（ｉ＝１～１４）におけるリファレンス音ＲＳの時間変動成分特徴の変動成分値である。
２９番は、評価対象音ＴＳとリファレンス音ＲＳとのパワーの差の特徴を、３０番は、評価対象音ＴＳとリファレンス音ＲＳとの間の波形の類似度を示す相互相関係数を、３１番と３２番とは、評価対象音ＴＳとリファレンス音ＲＳの各標準偏差、３３番は、評価対象音ＴＳとリファレンス音ＲＳとの間の瞬時差分の絶対値の合計（波形差分エリア面積）である。
３４番及び３５番は、それぞれ評価対象音ＴＳの最小値及び最大値、３６番及び３７番は、それぞれリファレンス音ＲＳの最小値及び最大値である。

音量変動感推定部１４４は、あるセグメントの評価対象音ＴＳの音データ及びリファレンス音ＲＳの音データのそれぞれに対して、評価者が判断した各音量変動度合いレベルを教師ラベルとして、抽出された各音量変動特徴量に加えて、学習識別器を学習する。
識別フェーズでは、音量変動感推定部１４４は、評価対象音及びリファレンス音の各音量変動特徴量から音量変動感特徴量を抽出し、学習済みの音量変動感の学習モデルを用いて、評価者の聴感を反映した音量変動感レベルを１セグメント毎に推定する。ここで生成及び使用される学習モデルを、音量変動学習モデルともいう。

次に、図１に示されている聴感スコア推定部１５０の動作を説明する。
以上で説明した聴感特徴推定部１４０からの、ステレオモノラル変動感スコア、こもり感スコア、ノイズ大きさ感スコア、ノイズ頻度感スコア及び音量変動感スコアといった聴感特徴量は、図３９（Ａ）～（Ｅ）に示されているように、１セグメント毎に出力された時系列データである。

図３９に示されているように、推定された聴感スコアの各々は、－５から５までの１１レベルに分類されている。そして、これら聴感特徴量を同一セグメント毎にまとめ、図４０に示すような聴感特徴量情報とする。

評価者の聴感スコアを推定するための学習識別器の学習フェーズでは、評価者は、各コンテンツの全セグメントの音を聴き、信号の音質及びノイズの観点で感じた聴感を、信号音質聴感スコア及びノイズ聴感スコアとして教師ラベルを作成する。聴感スコア推定部１５０は、この教師ラベルを図４０に示されている聴感特徴量情報に追加して、図４１に示す教師データを作成し、これを用いて評価者の信号音質聴感スコア推定用の学習識別器と、ノイズ聴感スコア推定用の学習識別器とをそれぞれ学習する。

評価者の信号音質聴感スコア推定用の学習識別器及びノイズ聴感スコア推定用の学習識別器の各識別フェーズでは、聴感スコア推定部１５０は、図４０の聴感特徴量情報と、学習済みの信号音質聴感スコアを推定するための学習モデル、及び、ノイズ聴感スコアを推定するための学習モデルを用いて、評価者の聴感スコア値（ここでは、信号音質聴感スコア及びノイズ聴感スコアの値）を推定する。

ここで、学習識別器として、特徴量が時系列データであるので上述したＬＳＴＭが用いられてもよい。聴感スコア推定部１５０が出力した評価者の聴感スコア推定値は、表示部１６０にて表示され、記録部１７０にて保存される。

表示部１６０での表示、及び、記録部１７０での記録について説明する。
評価対象音響特徴推定部１２０において評価対象音に対して推定されたステレオ度、こもり度、ノイズ度及び音量特徴量、リファレンス音響特徴推定部１３０においてリファレンス音に対して推定されたステレオ度、こもり度、ノイズ度及び音量特徴量は、それぞれ、記録部１７０に記録され、表示部１６０に表示されてもよい。

また、聴感特徴推定部１４０において推定された、図３９に示されている音量変動感、ステレオモノラル変動感、こもり感及びノイズ感を示すスコアは、記録部１７０に記録され、表示部１６０に表示されてもよい。

さらにまた、ステレオ度推定部１２４、１３４で推定された、図７に示されているようなステレオモノラル特徴量、こもり度推定部１２５、１３５で推定された、図８に示されているようなこもり度特徴量のうち重心周波数、ノイズ度推定部１２６、１３６で推定された帯域毎のノイズ無しの音信号パワー（推定Ｓ）又はノイズの音信号パワー（推定Ｎ）、ノイズ度推定部１２６、１３６で推定された聴感Ｓ_Ｎ又は聴感Ｓ_Ｓ、フィルタバンク処理部１２３、１３３で生成した帯域毎のパワー情報、音量特徴抽出部１２７、１３７で推定された音量特徴量、音量変動感推定部１４４で推定された図３８に示されているような音量変動特徴量情報、ステレオモノラル変動感推定部１４１で推定された図２５に示されているようなステレオモノラル変動感特徴量情報、こもり感推定部１４２で推定された図２６又は図２８に示されているようなこもり感特徴量情報、ノイズ感推定部１４３で推定された図３０に示されているようなノイズ大きさ特徴量情報、ノイズ感推定部１４３で推定された図３３に示されているようなノイズ発生頻度特徴量情報は、記録部１７０に記録され、表示部１６０に表示されてもよい。

以上に記載された評価対象音響特徴推定部１２０、リファレンス音響特徴推定部１３０、聴感特徴推定部１４０及び聴感スコア推定部１５０の一部又は全部は、例えば、図４２（Ａ）に示されているように、メモリ１０と、メモリ１０に格納されているプログラムを実行するＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等のプロセッサ１１とにより構成することができる。このようなプログラムは、ネットワークを通じて提供されてもよく、また、記録媒体に記録されて提供されてもよい。即ち、このようなプログラムは、例えば、プログラムプロダクトとして提供されてもよい。

また、評価対象音響特徴推定部１２０、リファレンス音響特徴推定部１３０、聴感特徴推定部１４０及び聴感スコア推定部１５０の一部又は全部は、例えば、図４２（Ｂ）に示されているように、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ＡＳＩＣ（ＡｐｐｌｉｃａｔｉｏｎＳｐｅｃｉｆｉｃＩｎｔｅｇｒａｔｅｄＣｉｒｃｕｉｔ）又はＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）等の処理回路１２で構成することもできる。

なお、入力部１１０は、入力インターフェースにより構成することができる。
表示部１６０は、ディスプレイ等の表示装置で構成することができる。
記録部１７０は、揮発性又は不揮発性のメモリ、又は、ＨＤＤ（ＨａｒｄＤｉｓｃＤｒｉｖｅ）等の記憶装置で構成することができる。

従来のように、評価者が音の主観評価をする場合、判断に迷うケースでは、再度評価のやり直しが生じ効率が悪く、また、音質評価のノウハウを持つ専門家が必要で、誰でも評価を行うことができるものではなかった。また、従来は、人による判定であるため評価値の客観的根拠が曖昧であること、さらに、評価者による評価値のばらつきが生じる等の課題もあった。
本実施の形態で示された音質評価装置１００を使用すれば誰でも客観的な定量評価を効率的に得ることができる。また、音質評価装置１００は、人が行う相対評価と同様に音響特徴の相対値を聴感特徴推定部１４０の入力として人の聴感を学習しているため、評価者の聴感評価ノウハウをうまく学習し、評価者と同レベルの推定を行うことができる。

ステレオ度推定部１２４、１３４は、右チャンネル音と左チャンネル音との相互相関係数と、遅延時間と、音量差分とを用いることでステレオ特徴空間が表現できるようになり、さらに、モノラル及びステレオの境界面の決定を学習により求めているので、閾値で境界を決める手法よりも精度よくステレオかモノラルかを判定することができる。

また、ステレオモノラル変動感推定部１４１は、学習モデルを用いることで、ステレオからモノラルへの変動頻度を、評価者のステレオ感の聴感スコアに精度よく変換することができる。

ノイズ度推定部１２６、１３６は、ノイズ除去部１２６ａと、ＳＮ推定部１２６ｂとによりＳＮ比を推定するようにしたので、この値をノイズ度として表現することができる。

また、ノイズ感推定部１４３は、ノイズの大きさ及びノイズ発生頻度の特徴を推定でき、学習モデルを用いることで、評価者のノイズの大きさ感、発生頻度感を聴感スコアに精度よく変換することができる。

ノイズ除去部１２６ａは、オートエンコーダ１２６ｂ－１、１２６ｂ－２に加え、多層ニューラルネット処理部１２６ｂ－３を備える。多層ニューラルネット処理部１２６ｂ－３への入力として、第２オートエンコーダ１２６ｂ－２の出力だけでなく、フィルタバンク処理部１２３、１３３からの出力である時刻ｔ－１、時刻ｔ、及び時刻ｔ＋１のノイズ有りの音信号パワーも入力されることで、音信号の高域情報が復元でき、クリアなノイズ除去音を推定することができる。

また、フィルタバンク処理部１２３、１３３からの出力は、時刻ｔだけでなく、その前後フレームのデータも用いられることで、前後フレームからノイズレベルも把握できるので、より高精度にノイズレベルの把握ができ、より高精度に元信号を推定することができる。

例えば、ラジオ受信機においては、復調音のノイズが強い場合、ローパスフィルタにより耳障りなノイズ音を軽減する出力音制御がなされるが、この場合、こもり度と受信機出力音のＳＮ比との間には相関がある。そこで、ＳＮ推定部１２６ｃは、ＳＮ比を推定する際にこもり度情報を活用することで推定精度を向上させることができる。

こもり度推定部１２５、１３５は、鋭い印象の音に対して、鈍い印象の音では音スペクトルの高域成分が小さく、スペクトルにより形成される三角形がより強くなることに着目し、音スペクトルが構成する図形の重心における周波数を特徴量とすることで、こもり度推定の精度を向上させることができる。
なお、ホワイトノイズによって高域成分が増えることで重心周波数が高くなり、こもり度の推定が劣化する場合もあるが、ノイズ度を特徴量に追加することでノイズ度の学習に考慮され、誤判定を防止することができる。

こもり感推定部１４２は、学習モデルを用いることで、こもり度を評価者のこもり感の聴感スコアに精度よく変換することができる。

音量特徴抽出部１２７、１３７は、音量変動の頻度、大きさの特徴を抽出でき、学習モデルを用いることで、評価者の音量変動の頻度、大きさ感を聴感スコアに精度よく変換することができる。

評価対象音響特徴推定部１２０及びリファレンス音響特徴推定部１３０は、音質評価の観点であるステレオ度、こもり度、ノイズ度、音量について、これらを入力音から特徴量として物理量をまず推定し、次に、聴感特徴推定部１４０がこれら音響特徴量から一定期間毎に、評価専門家の聴感（ステレオモノラル変動感、音量変動感、こもり感、ノイズ感大きさ感、ノイズ発生頻度感）を学習により推定し、最後に、聴感スコア推定部１５０が評価対象コンテンツ全期間に対する聴感スコアを学習、推定するようにしたので、短期的な聴感からコンテンツ全体に対する聴感を推定することが可能である。

聴感特徴推定部１４０は、評価対象音ＴＳのリファレンス音ＲＳに対する聴感特徴量として音量変動感、ステレオモノラル変動感、こもり感、ノイズ感を出力するようにしたので、聴感スコア推定部１５０は、これら情報をもとに聴感スコアを推定することができる。このため、評価者が行う聴感スコアリングと同一の観点で聴感スコアを推定でき、評価者のスコア値に近い値を推定することができる。

表示部１６０での表示について、聴感スコア推定の根拠となる聴感特徴量及び聴感特徴量推定のための特徴量、聴感特徴量推定の根拠となる音響特徴量、及び、音響特徴量推定のための特徴量が表示されるため、推定された聴感スコアの要因を知ることができる。

また、記録部１７０での記録について、聴感スコア推定の根拠となる聴感特徴量及び聴感特徴量推定のための特徴量、聴感特徴量推定の根拠となる音響特徴量、および音響特徴量推定のための特徴量を記録することで、推定された聴感スコアの要因を記憶しておくことができる。

１００音質評価装置、１１０入力部、１２０評価対象音響特徴推定部、１２１フレーム化部、１２２ＳＴＦＴ処理部、１２３フィルタバンク処理部、１２４ステレオ度推定部、１２５こもり度推定部、１２６ノイズ度推定部、１２６ａノイズ除去部、１２６ｂＳＮ推定部、１２６ｂ－１第１オートエンコーダ、１２６ｂ－２第２オートエンコーダ、１２６ｂ－３多層ニューラルネット処理部、１２６ｃＳＮ推定部、１２６ｄＳＮ計算部、１２６ｅノイズ推定部、１２６ｆＳＮ特定部、１２７音量特徴抽出部、１３０リファレンス音響特徴推定部、１３１フレーム化部、１３２ＳＴＦＴ処理部、１３３フィルタバンク処理部、１３４ステレオ度推定部、１３５こもり度推定部、１３６ノイズ度推定部、１３７音量特徴抽出部、１４０聴感特徴推定部、１４１ステレオモノラル変動感推定部、１４２こもり感推定部、１４３ノイズ感推定部、１４４音量変動感推定部、１５０聴感スコア推定部、１６０表示部、１７０記録部。

Claims

評価対象音の音響における特徴を示すための音響特徴量である第１の音響特徴量を推定する評価対象音響特徴推定部と、
前記評価対象音と比較するためのリファレンス音の音響特徴量である第２の音響特徴量を推定するリファレンス音響特徴推定部と、
評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、前記第１の音響特徴量及び前記第２の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部と、
聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部と、を備えること
を特徴とする情報処理装置。
前記評価対象音響特徴推定部は、前記評価対象音の右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、前記評価対象音がステレオであるかモノラルであるかを推定して、時系列において前記評価対象音がステレオであるかモノラルであるかを示すステレオ度情報である評価対象ステレオ度情報を生成する第１のステレオ度推定部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音の右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、前記リファレンス音がステレオであるかモノラルであるかを推定して、時系列において前記リファレンス音がステレオであるかモノラルであるかを示すステレオ度情報であるリファレンスステレオ度情報を生成する第２のステレオ度推定部を備え、
前記聴感特徴推定部は、前記評価対象ステレオ度情報と、前記リファレンスステレオ度情報とに基づいて、前記一定期間毎に、前記評価対象音におけるステレオ及びモノラルの切替回数と、前記リファレンス音におけるステレオ及びモノラルの切換回数との差である切換回数差を算出し、切換回数差と、ステレオ及びモノラルが切り替わることによる人の聴感の評価値であるステレオモノラル変動推定スコアとの関係性を学習したステレオモノラル学習モデルを用いて、前記算出された切換回数差に対応するステレオモノラル変動推定スコアを推定するステレオモノラル変動感推定部を備えること
を特徴とする請求項１に記載の情報処理装置。
前記評価対象音響特徴推定部は、前記評価対象音の音量を抽出し、前記評価対象音から抽出された音量を時系列において示す音量特徴量時系列データである評価対象音量特徴量時系列データを生成する第１の音量特徴抽出部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音の音量を抽出し、前記リファレンス音から抽出された音量を時系列において示す音量特徴量時系列データであるリファレンス音量特徴量時系列データを生成する第２の音量特徴抽出部を備え、
前記聴感特徴推定部は、前記評価対象音量特徴量時系列データ及び前記リファレンス音量特徴量時系列データの各々を周波数領域データに変換して、変換された周波数領域データで示されるパワーを周波数帯域に分割し、前記分割された周波数帯域毎のパワーに基づいて、前記一定期間毎における予め定められた音量変動特徴量を特定し、音量変動特徴量と、音量が変動することによる人の聴感の評価値である音量変動感推定スコアとの関係性を学習した音量変動学習モデルを用いて、前記特定された音量変動特徴量に対応する音量変動感推定スコアを推定する音量変動感推定部を備えること
を特徴とする請求項１又は２に記載の情報処理装置。
前記音量は、ラウドネス又はメル周波数ケプストラムとして抽出されること
を特徴とする請求項３に記載の情報処理装置。
前記評価対象音響特徴推定部は、前記評価対象音の信号と、雑音との比率を示すＳＮ比である評価対象ＳＮ比を推定する第１のノイズ度推定部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音の信号と、雑音との比率を示すＳＮ比であるリファレンスＳＮ比を推定する第２のノイズ度推定部を備え、
前記聴感特徴推定部は、前記評価対象ＳＮ比と、前記リファレンスＳＮ比との差分を、大きさに従って予め定められた複数のレベルに分類し、前記一定期間毎に、前記複数のレベルの各々に分類された差分の継続時間を示すノイズ大きさ特徴量を特定し、ノイズ大きさ特徴量と、ノイズの大きさによる人の聴感の評価値であるノイズ大きさ感推定スコアとの関係性を学習したノイズ大きさ学習モデルを用いて、前記特定されたノイズ大きさ特徴量に対応するノイズ大きさ感推定スコアを推定するノイズ感推定部を備えること
を特徴する請求項１から４の何れか一項に記載の情報処理装置。
前記ノイズ感推定部は、前記評価対象ＳＮ比と、前記リファレンスＳＮ比との差分を時系列において示すＳＮ差分時系列データを生成し、前記ＳＮ差分時系列データに含まれている下向きのピークの内、予め定められた条件を満たすピークを抽出し、抽出されたピークの内、予め定められた閾値よりも深いピークの数を、前記一定期間毎に集計した値をノイズ頻度特徴量として特定し、ノイズ頻度特徴量と、ノイズの頻度による人の聴感の評価値であるノイズ頻度感推定スコアとの関係性を学習したノイズ頻度学習モデルを用いて、前記特定されたノイズ頻度特徴量に対応するノイズ頻度感推定スコアを推定すること
を特徴とする請求項５に記載の情報処理装置。
前記第１のノイズ度推定部は、
前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第１の周波数領域信号に変換した後に、前記第１の周波数領域信号をフィルタバンクで処理して、対数化した第１のノイズ有りの音信号パワーから、ノイズを除去した第１のノイズ無しの音信号パワーを推定する第１のノイズ除去部と、
前記第１のノイズ有りの音信号パワーと、前記第１のノイズ無しの音信号パワーとを用いて、前記評価対象ＳＮ比を推定する第１のＳＮ推定部とを備え、
前記第２のノイズ度推定部は、
前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第２の周波数領域信号に変換した後に、前記第２の周波数領域信号をフィルタバンクで処理して、対数化した第２のノイズ有りの音信号パワーから、ノイズを除去した第２のノイズ無しの音信号パワーを推定する第２のノイズ除去部と、
前記第２のノイズ有りの音信号パワーと、前記第２のノイズ無しの音信号パワーとを用いて、前記リファレンスＳＮ比を推定する第２のＳＮ推定部とを備えること
を特徴とする請求項５又は６に記載の情報処理装置。
前記評価対象音響特徴推定部は、前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第１の周波数領域信号に変換した後に、前記第１の周波数領域信号をフィルタバンクで処理して、対数化した第１のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記評価対象音のこもり度のレベルを推定する第１のこもり度推定部を備え、
前記第１のノイズ度推定部は、
前記第１のノイズ有りの音信号パワーから、ノイズを除去した第１のノイズ無しの音信号パワーを推定する第１のノイズ除去部と、
前記第１のノイズ有りの音信号パワーと、前記第１のノイズ無しの音信号パワーと、前記評価対象音のこもり度のレベルとを用いて、前記評価対象ＳＮ比を推定する第１のＳＮ推定部とを備え、
前記リファレンス音響特徴推定部は、前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第２の周波数領域信号に変換した後に、前記第２の周波数領域信号をフィルタバンクで処理して、対数化した第２のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記リファレンス音のこもり度のレベルを推定する第２のこもり度推定部を備え、
前記第２のノイズ度推定部は、
前記第２のノイズ有りの音信号パワーから、ノイズを除去した第２のノイズ無しの音信号パワーを推定する第２のノイズ除去部と、
前記第２のノイズ有りの音信号パワーと、前記第２のノイズ無しの音信号パワーと、前記リファレンス音のこもり度のレベルを用いて、前記リファレンスＳＮ比を推定する第２のＳＮ推定部とを備えること
を特徴とする請求項５又は６に記載の情報処理装置。
前記第１のノイズ度推定部は、
前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第１の周波数領域信号に変換した後に、前記第１の周波数領域信号をフィルタバンクで処理して、対数化した第１のノイズ有りの音信号パワーから、ノイズを除去した第１のノイズ無しの音信号パワーを推定する第１のノイズ除去部と、
前記第１のノイズ有りの音信号パワーから、前記第１のノイズ無しの音信号パワーを減算することで第１のノイズの音信号パワーを算出し、前記第１のノイズ無しの音信号パワーと、前記第１のノイズの音信号パワーとを用いて、前記評価対象ＳＮ比を推定する第１のＳＮ計算部とを備え、
前記第２のノイズ度推定部は、
前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第２の周波数領域信号に変換した後に、前記第２の周波数領域信号をフィルタバンクで処理して、対数化した第２のノイズ有りの音信号パワーから、ノイズを除去した第２のノイズ無しの音信号パワーを推定する第２のノイズ除去部と、
前記第２のノイズ有りの音信号パワーから、前記第２のノイズ無しの音信号パワーを減算することで第２のノイズの音信号パワーを算出し、前記第２のノイズ無しの音信号パワーと、前記第２のノイズの音信号パワーとを用いて、前記リファレンスＳＮ比を推定する第２のＳＮ計算部とを備えること
を特徴とする請求項５又は６に記載の情報処理装置。
前記第１のノイズ除去部は、少なくとも一つのオートエンコーダと、ニューラルネットの処理を行うニューラルネット処理部とを備えることで、前記第１のノイズ無しの音信号パワーを推定し、
前記第２のノイズ除去部は、少なくとも一つのオートエンコーダと、ニューラルネットの処理を行うニューラルネット処理部とを備えることで、前記第２のノイズ無しの音信号パワーを推定すること
を特徴とする請求項７から９の何れか一項に記載の情報処理装置。
前記第１のノイズ度推定部は、
前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第１の周波数領域信号に変換した後に、前記第１の周波数領域信号をフィルタバンクで処理して、対数化した第１のノイズ有りの音信号パワーから、前記評価対象音のノイズの音信号パワーに相当する第１のノイズの音信号パワーを推定する第１のノイズ推定部と、
前記第１のノイズ有りの音信号パワーと、前記第１のノイズの音信号パワーとを用いて、前記評価対象ＳＮ比を特定する第１のＳＮ特定部とを備え、
前記第２のノイズ度推定部は、
前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第２の周波数領域信号に変換した後に、前記第２の周波数領域信号をフィルタバンクで処理して、対数化した第２のノイズ有りの音信号パワーから、前記リファレンス音に含まれているノイズの音信号パワーに相当する第２のノイズの音信号パワーを推定する第２のノイズ推定部と、
前記第２のノイズ有りの音信号パワーと、前記第２のノイズの音信号パワーとを用いて、前記リファレンスＳＮ比を特定する第２のＳＮ特定部とを備えること
を特徴とする請求項５又は６に記載の情報処理装置。
前記第１のノイズ度推定部は、下記の（１）式～（４）式を用いて、前記評価対象音の第１の実効信号感ＳＳ１及び第１の実効ノイズ感ＳＮ１を算出し、
前記第２のノイズ度推定部は、下記の（５）式～（８）式を用いて、前記リファレンス音の第２の実効信号感ＳＳ２及び第２の実効ノイズ感ＳＮ２を算出し、
第１の実効値ＥＮ１＝｛Ｐｗ１－ＥＳ１２｝１／２（１）
第２の実効値ＥＳ１＝｛Ｐｗ１×ＳＮＲＰ１÷（ＳＮＲＰ１＋１）｝１／２（２）
第１の実効信号感ＳＳ１＝ＥＳ１÷（ＥＮ１＋ＥＳ１）（３）
第１の実効ノイズ感ＳＮ１＝ＥＮ１÷（ＥＮ１＋ＥＳ２）（４）
但し、Ｐｗ１は、前記評価対象音から抽出された前記音フレームにおける前記第１のノイズ有りの音信号パワーの平均値であり、ＳＮＲＰ１＝１０前記評価対象ＳＮ比／１０であり、
第３の実効値ＥＮ２＝｛Ｐｗ２－ＥＳ２２｝１／２（５）
第４の実効値ＥＳ２＝｛Ｐｗ２×ＳＮＲＰ２÷（ＳＮＲＰ２＋１）｝１／２（６）
第２の実効信号感ＳＳ２＝ＥＳ２÷（ＥＮ２＋ＥＳ２）（７）
第２の実効ノイズ感ＳＮ２＝ＥＮ２÷（ＥＮ２＋ＥＳ２）（８）
但し、Ｐｗ２は、前記リファレンス音から抽出された前記音フレームにおける前記第２のノイズ有りの音信号パワーの平均値であり、ＳＮＲＰ２＝１０前記リファレンスＳＮ比／１０であること
を特徴とする請求項７から１１の何れか一項に記載の情報処理装置。
前記評価対象音響特徴推定部は、前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第１の周波数領域信号に変換した後に、前記第１の周波数領域信号をフィルタバンクで処理して、対数化した第１のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記評価対象音のこもり度のレベルを推定する第１のこもり度推定部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第２の周波数領域信号に変換した後に、前記第２の周波数領域信号をフィルタバンクで処理して、対数化した第２のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記リファレンス音のこもり度のレベルを推定する第２のこもり度推定部を備え、
前記聴感特徴推定部は、前記一定期間毎に、前記評価対象音のこもり度のレベル毎の継続時間を評価対象こもり度特徴量として特定し、前記一定期間毎に、前記リファレンス音のこもり度のレベル毎の継続時間をリファレンスこもり度特徴量として特定し、評価対象こもり度特徴量及びリファレンスこもり度特徴量と、こもり度の大きさによる人の聴感の評価値であるこもり感推定スコアとの関係性を学習したこもり感学習モデルを用いて、前記特定された評価対象こもり度特徴量及び前記特定されたリファレンスこもり度特徴量に対応するこもり感推定スコアを推定するこもり感推定部を備えること
を特徴とする請求項１から１２の何れか一項に記載の情報処理装置。
前記第１の音響特徴量、前記第２の音響特徴量、前記推定された聴感特徴量及び前記推定された聴感スコアの少なくとも何れか一つを表示する表示部をさらに備えること
を特徴とする請求項１から１３の何れか一項に記載の情報処理装置。
前記第１の音響特徴量、前記第２の音響特徴量、前記推定された聴感特徴量及び前記推定された聴感スコアの少なくとも何れか一つを記録する記録部をさらに備えること
を特徴とする請求項１から１４の何れか一項に記載の情報処理装置。
評価対象音の音響における特徴を示すための音響特徴量である第１の音響特徴量を推定する評価対象音響特徴推定部と、
前記評価対象音と比較するためのリファレンス音の音響特徴量である第２の音響特徴量を推定するリファレンス音響特徴推定部と、
評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係に基づいて、一定期間毎に、前記第１の音響特徴量及び前記第２の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部と、
聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係に基づいて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部と、を備えること
を特徴とする情報処理装置。
前記評価対象音響特徴推定部は、前記評価対象音の右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、前記評価対象音がステレオであるかモノラルであるかを推定して、時系列において前記評価対象音がステレオであるかモノラルであるかを示すステレオ度情報である評価対象ステレオ度情報を生成する第１のステレオ度推定部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音の右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、前記リファレンス音がステレオであるかモノラルであるかを推定して、時系列において前記リファレンス音がステレオであるかモノラルであるかを示すステレオ度情報であるリファレンスステレオ度情報を生成する第２のステレオ度推定部を備え、
前記聴感特徴推定部は、前記評価対象ステレオ度情報と、前記リファレンスステレオ度情報とに基づいて、前記一定期間毎に、前記評価対象音におけるステレオ及びモノラルの切替回数と、前記リファレンス音におけるステレオ及びモノラルの切換回数との差である切換回数差を算出し、切換回数差と、ステレオ及びモノラルが切り替わることによる人の聴感の評価値であるステレオモノラル変動推定スコアとの関係に基づいて、前記算出された切換回数差に対応するステレオモノラル変動推定スコアを推定するステレオモノラル変動感推定部を備えること
を特徴とする請求項１６に記載の情報処理装置。
前記評価対象音響特徴推定部は、前記評価対象音の音量を抽出し、前記評価対象音から抽出された音量を時系列において示す音量特徴量時系列データである評価対象音量特徴量時系列データを生成する第１の音量特徴抽出部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音の音量を抽出し、前記リファレンス音から抽出された音量を時系列において示す音量特徴量時系列データであるリファレンス音量特徴量時系列データを生成する第２の音量特徴抽出部を備え、
前記聴感特徴推定部は、前記評価対象音量特徴量時系列データ及び前記リファレンス音量特徴量時系列データの各々を周波数領域データに変換して、変換された周波数領域データで示されるパワーを周波数帯域に分割し、前記分割された周波数帯域毎のパワーに基づいて、前記一定期間毎における予め定められた音量変動特徴量を特定し、音量変動特徴量と、音量が変動することによる人の聴感の評価値である音量変動感推定スコアとの関係に基づいて、前記特定された音量変動特徴量に対応する音量変動感推定スコアを推定する音量変動感推定部を備えること
を特徴とする請求項１６又は１７に記載の情報処理装置。
前記評価対象音響特徴推定部は、前記評価対象音の信号と、雑音との比率を示すＳＮ比である評価対象ＳＮ比を推定する第１のノイズ度推定部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音の信号と、雑音との比率を示すＳＮ比であるリファレンスＳＮ比を推定する第２のノイズ度推定部を備え、
前記聴感特徴推定部は、前記評価対象ＳＮ比と、前記リファレンスＳＮ比との差分を、大きさに従って予め定められた複数のレベルに分類し、前記一定期間毎に、前記複数のレベルの各々に分類された差分の継続時間を示すノイズ大きさ特徴量を特定し、ノイズ大きさ特徴量と、ノイズの大きさによる人の聴感の評価値であるノイズ大きさ感推定スコアとの関係に基づいて、前記特定されたノイズ大きさ特徴量に対応するノイズ大きさ感推定スコアを推定するノイズ感推定部を備えること
を特徴する請求項１６から１８の何れか一項に記載の情報処理装置。
前記ノイズ感推定部は、前記評価対象ＳＮ比と、前記リファレンスＳＮ比との差分を時系列において示すＳＮ差分時系列データを生成し、前記ＳＮ差分時系列データに含まれている下向きのピークの内、予め定められた条件を満たすピークを抽出し、抽出されたピークの内、予め定められた閾値よりも深いピークの数を、前記一定期間毎に集計した値をノイズ頻度特徴量として特定し、ノイズ頻度特徴量と、ノイズの頻度による人の聴感の評価値であるノイズ頻度感推定スコアとの関係に基づいて、前記特定されたノイズ頻度特徴量に対応するノイズ頻度感推定スコアを推定すること
を特徴とする請求項１９に記載の情報処理装置。
前記評価対象音響特徴推定部は、前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第１の周波数領域信号に変換した後に、前記第１の周波数領域信号をフィルタバンクで処理して、対数化した第１のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記評価対象音のこもり度のレベルを推定する第１のこもり度推定部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第２の周波数領域信号に変換した後に、前記第２の周波数領域信号をフィルタバンクで処理して、対数化した第２のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記リファレンス音のこもり度のレベルを推定する第２のこもり度推定部を備え、
前記聴感特徴推定部は、前記一定期間毎に、前記評価対象音のこもり度のレベル毎の継続時間を評価対象こもり度特徴量として特定し、前記一定期間毎に、前記リファレンス音のこもり度のレベル毎の継続時間をリファレンスこもり度特徴量として特定し、評価対象こもり度特徴量及びリファレンスこもり度特徴量と、こもり度の大きさによる人の聴感の評価値であるこもり感推定スコアとの関係に基づいて、前記特定された評価対象こもり度特徴量及び前記特定されたリファレンスこもり度特徴量に対応するこもり感推定スコアを推定するこもり感推定部を備えること
を特徴とする請求項１６から２０の何れか一項に記載の情報処理装置。
前記聴感特徴推定部での推定は、
評価対象音の音響特徴量及びリファレンス音の音響特徴量を入力データとし、人の聴感に関する特徴を示すための聴感特徴量を出力データとする入出力データを用いて、学習分類器が学習した結果に基づいて行われること
を特徴とする請求項１６から２１の何れか一項に記載の情報処理装置。
前記ステレオモノラル変動感推定部での推定は、
前記評価対象ステレオ度情報及び前記リファレンスステレオ度情報に基づいて前記一定期間毎に算出した、前記評価対象音におけるステレオ及びモノラルの切替回数と、前記リファレンス音におけるステレオ及びモノラルの切換回数の差である切換回数差、並びに、ステレオ及びモノラルが切り替わることによる人の聴感の評価値であるステレオモノラル変動推定スコアを入力データとし、前記切換回数差に対応するステレオモノラル変動推定スコアを出力データとする、入出力データを用いて、学習分類器が学習した結果に基づいて行われること
を特徴とする請求項１７に記載の情報処理装置。
前記音量変動感推定部での推定は、
前記評価対象音量特徴量時系列データ及び前記リファレンス音量特徴量時系列データの各々を周波数領域データに変換して、変換された周波数領域データで示されるパワーを周波数帯域に分割し、前記分割された周波数帯域毎のパワーに基づいて、前記一定期間毎に特定された予め定められる音量変動特徴量、及び、音量が変動することによる人の聴感の評価値である音量変動感推定スコアを入力データとし、前記特定された音量変動特徴量に対応する音量変動感推定スコアを出力データとする、入出力データを用いて、学習分類器が学習した結果に基づいて行われること
を特徴とする請求項１８に記載の情報処理装置。
前記ノイズ感推定部での推定は、
前記評価対象ＳＮ比と、前記リファレンスＳＮ比との差分を、大きさに従って予め定められた複数のレベルに分類し、前記一定期間毎に特定される、前記複数のレベルの各々に分類された差分の継続時間を示すノイズ大きさ特徴量、及び、ノイズの大きさによる人の聴感の評価値であるノイズ大きさ感推定スコアを入力データとし、前記特定されるノイズ大きさ特徴量に対応するノイズ大きさ感推定スコアを出力データとする、入出力データを用いて、学習分類器が学習した結果に基づいて行われること
を特徴とする請求項１９又は２０に記載の情報処理装置。
前記ノイズ感推定部での推定は、
前記評価対象ＳＮ比と、前記リファレンスＳＮ比との差分を時系列において示すＳＮ差分時系列データを生成し、前記ＳＮ差分時系列データに含まれている下向きのピークの内、予め定められた条件を満たすピークを抽出し、抽出されたピークの内、予め定められた閾値よりも深いピークの数を、前記一定期間毎に集計して特定されたノイズ頻度特徴量、及び、ノイズの頻度による人の聴感の評価値であるノイズ頻度感推定スコアを入力データとし、前記特定されたノイズ頻度特徴量に対応するノイズ頻度感推定スコアを出力データとする、入出力データを用いて、学習分類器が学習した結果に基づいて行われること
を特徴とする請求項２５に記載の情報処理装置。
前記こもり感推定部での推定は、
前記一定期間毎に特定された、前記評価対象音のこもり度のレベル毎の継続時間である評価対象こもり度特徴量、及び、前記一定期間毎に特定された、前記リファレンス音のこもり度のレベル毎の継続時間であるリファレンスこもり度特徴量を入力データとし、こもり度の大きさによる人の聴感の評価値であって、前記特定された評価対象こもり度特徴量及び前記特定されたリファレンスこもり度特徴量に対応する、こもり感推定スコアを出力データとする、入出力データを用いて、学習分類器が学習した結果に基づいて行われること
を特徴とする請求項２１に記載の情報処理装置。
コンピュータを、
評価対象音の音響における特徴を示すための音響特徴量である第１の音響特徴量を推定する評価対象音響特徴推定部、
前記評価対象音と比較するためのリファレンス音の音響特徴量である第２の音響特徴量を推定するリファレンス音響特徴推定部、
評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、前記第１の音響特徴量及び前記第２の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部、及び、
聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部、として機能させること
を特徴とするプログラム。
コンピュータを、
評価対象音の音響における特徴を示すための音響特徴量である第１の音響特徴量を推定する評価対象音響特徴推定部、
前記評価対象音と比較するためのリファレンス音の音響特徴量である第２の音響特徴量を推定するリファレンス音響特徴推定部、
評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係に基づいて、一定期間毎に、前記第１の音響特徴量及び前記第２の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部、及び、
聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係に基づいて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部、として機能させること
を特徴とするプログラム。
評価対象音響特徴推定部が、評価対象音の音響における特徴を示すための音響特徴量である第１の音響特徴量を推定し、
リファレンス音響特徴推定部が、前記評価対象音と比較するためのリファレンス音の音響特徴量である第２の音響特徴量を推定し、
聴感特徴推定部が、評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、前記第１の音響特徴量及び前記第２の音響特徴量に対応する聴感特徴量を推定し、
聴感スコア推定部が、聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定すること
を特徴とする情報処理方法。
評価対象音響特徴推定部が、評価対象音の音響における特徴を示すための音響特徴量である第１の音響特徴量を推定し、
リファレンス音響特徴推定部が、前記評価対象音と比較するためのリファレンス音の音響特徴量である第２の音響特徴量を推定し、
聴感特徴推定部が、評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係に基づいて、一定期間毎に、前記第１の音響特徴量及び前記第２の音響特徴量に対応する聴感特徴量を推定し、
聴感スコア推定部が、聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係に基づいて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定すること
を特徴とする情報処理方法。