JP7278161B2 - 情報処理装置、プログラム及び情報処理方法 - Google Patents
情報処理装置、プログラム及び情報処理方法 Download PDFInfo
- Publication number
- JP7278161B2 JP7278161B2 JP2019128227A JP2019128227A JP7278161B2 JP 7278161 B2 JP7278161 B2 JP 7278161B2 JP 2019128227 A JP2019128227 A JP 2019128227A JP 2019128227 A JP2019128227 A JP 2019128227A JP 7278161 B2 JP7278161 B2 JP 7278161B2
- Authority
- JP
- Japan
- Prior art keywords
- sound
- noise
- auditory
- degree
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Description
音質評価者は、これらの制御がユーザに違和感無く行われているかを、評価対象受信機の出力音と、リファレンスとなる受信機の出力音とを相対比較する主観評価を行い、その聴感評価結果を数値で表現する。
音質評価装置100は、入力部110と、評価対象音響特徴推定部120と、リファレンス音響特徴推定部130と、聴感特徴推定部140と、聴感スコア推定部150と、表示部160と、記録部170とを備える。
なお、音は、物の振動によって生じた音波を、聴覚器官等により感じとられたもののことであり、物の響き、人の声、鳥獣の鳴き声、及び、楽音等が含まれる。
ここで、評価対象音響特徴推定部120が推定する各音響特徴量は、ステレオ度、こもり度、ノイズ度及び音量である。なお、ステレオ度は、入力音(ここでは、評価対象音)がどの程度ステレオ又はモノラルに近いかを示す。こもり度は、入力音がどの程度シャープな音かこもった音かを示す。ノイズ度は、入力音のノイズ混入度合いを示す。音量は、入力音の音量を示す。これらの音響特徴量は、いずれも物理的な特徴量として推定される。
評価対象音響特徴推定部120は、フレーム化部121と、STFT(Short-Time Fourier Tranform)処理部122と、フィルタバンク処理部123と、ステレオ度推定部124と、こもり度推定部125と、ノイズ度推定部126と、音量特徴抽出部127とを備える。
リファレンス音響特徴推定部130が推定する各音響特徴量も、ステレオ度、こもり度、ノイズ度及び音量である。
リファレンス音響特徴推定部130は、フレーム化部131と、STFT処理部132と、フィルタバンク処理部133と、ステレオ度推定部134と、こもり度推定部135と、ノイズ度推定部136と、音量特徴抽出部137とを備える。
また、一定期間単位は、例えば、15秒間等のセグメント単位である。
また、記録部170は、上述した、第1の音響特徴量、第2の音響特徴量、推定された聴感特徴量及び推定された聴感スコアの少なくとも何れか一つを記憶する。
図4は、音質評価装置100の全体的な処理の流れを示す概略図である。
入力音(ここでは、評価対象音TS又はリファレンス音RS)は、図中の上から下に向かって、第1ステップ、第2ステップ、及び、第3ステップの順で処理されて、聴感スコアが推定される。
ここで、第1ステップの処理は、評価対象音響特徴推定部120及びリファレンス音響特徴推定部130において行われる。評価対象音響特徴推定部120及びリファレンス音響特徴推定部130で行われる処理は、対象が異なるのみで、内容は同様であるため、以下では、評価対象音響特徴推定部120での処理についてメインに説明する。
図5に示されているように音フレームは、短時間フーリエ変換(STFT)が行われた後に、フィルタバンクで処理されて、対数化される。
ここで、フィルタバンク処理部123は、図5に示すようにメルフィルタバンクを用いてもよい。メルフィルタバンクは、低周波数ほど周波数の違いに敏感という人間の知覚を反映するため、図5に示されているように三角形状のフィルタを使用して、実際の周波数から聴覚上の周波数であるメル周波数に変換するものである。
具体的には、ステレオ度推定部124は、図6に示されている識別フェーズにおいて、フレーム化部121から与えられた音フレームに対して、複数種類の特徴量を抽出する。そして、ステレオ度推定部124は、ステレオモノラル判定学習モデルを用いた学習分類器で、抽出された特徴量に対してステレオかモノラルかの分類を行う。
音信号は、ステレオ信号であり音フレームも右チャンネル及び左チャンネルのステレオ音から生成されたフレーム信号であり、ステレオ度推定部124は、この左右チャンネル間の相互相関係数を求める。相互相関係数が1なら左右チャンネルは完全同一信号波形であることを示し、0なら無相関、-1なら逆相関となる。1から相互相関係数の絶対値を引いたものを特徴量の一つとして生成することで、モノラル音なら0に、ステレオなら1になるようにする。
さらに、ステレオ度推定部124は、左右チャンネルのパワー差分の時間変化であるΔ(Lch-Rch)を算出する。
このようなステレオ特徴空間におけるステレオとアナログとの判定を、ステレオモノラル判定学習モデルとして学習しておくことで、適切な判定を行うことができるようになる。
一方、図8(C)に示されているように、鈍くこもった印象の音は、高域周波数成分のスペクトルパワーが弱くスペクトル形状は比較的三角形が強い形状になる傾向がある。
また、図8(B)に示されているように、鋭い印象の音と、鈍くこもった印象の音との間の中間的な音については、図8(B)に示されているように、高域周波数成分のスペクトルパワーが弱いながらも残り、スペクトル形状は台形的な形状になる傾向がある。
さらに、こもり度推定部125は、後述するノイズ度推定部126からの帯域毎のノイズ度を特徴量に追加してもよい。
ノイズ度推定部126は、ノイズ除去部126aと、SN推定部126bとを備える。
なお、リファレンス音響特徴推定部130のノイズ度推定部136も同様に構成することができる。
なお、図示してはいないが、ノイズ度推定部136のノイズ除去部を第2のノイズ除去部と、ノイズ度推定部136のSN推定部を第2のSN推定部ともいう。
そして、ノイズ無しの音信号パワー(推定S)は、SN推定部126bに与えられる。
なお、ノイズ度推定部136のノイズ除去部は、リファレンス音RSから抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、前記第2の周波数領域信号をフィルタバンクで処理して、対数化した第2のノイズ有りの音信号パワーから、ノイズを除去した第2のノイズ無しの音信号パワーを推定する。
なお、ノイズ度推定部136のSN推定部は、第2のノイズ有りの音信号パワーと、第2のノイズ無しの音信号パワーとを用いて、リファレンス音RSのSN比を推定する。
ノイズ除去部126aは、第1オートエンコーダ126b-1と、第2オートエンコーダ126b-2と、多層ニューラルネット処理部126b-3とを備える。ここでは、オートエンコーダが二段の場合を示しているが、その段数は二段に限る必要はない。三段以上の構成であってもよく、段数を増やすことでノイズ除去性能を向上させることができる。
図11では、時刻tの対数化音フレームS+N(t)に対するSを推定する構成を示している。この場合、ノイズ除去部126aには、時刻tの対数化音フレームS+N(t)の他、その前の時刻t-1における対数化音フレーム及びその後の時刻t+1における対数化音フレームS+N(t+1)も入力される。
図12は、第1オートエンコーダ126b-1の学習方法を説明するための概略図である。
第1オートエンコーダ126b-1は、エンコーダEn1と、デコーダDe1とを備える。
図示するように、エンコーダEn1と、デコーダDe1とは、対象な構成になっている。
ここでの学習は、フィルタバンク部107からの時刻t-1、時刻t、及び、時刻t+1における周波数帯域分割された、隣接する対数化音フレームS+N(t-1)、対数化音フレームS+N(t)、及び、対数化音フレームS+N(t+1)を、第1オートエンコーダ126b-1に入力し、第1オートエンコーダ126b-1の出力がこれら入力と同じになるようにニューラルネットワークの重みWと、バイアスbとが学習される。そのため教師ラベルは不要である。
第2オートエンコーダ126b-2は、エンコーダEn2と、デコーダDe2とを備える。
図示するように、エンコーダEn2と、デコーダDe2とは、対象な構成になっている。
なお、図13に示されているように、第2オートエンコーダ126b-2の中間ノード数はさらに絞り込まれた構成になっている。
図14に示されているように、学習済みの第1オートエンコーダ126b-1のエンコーダEn1の出力が、学習済みの第2オートエンコーダ126b-2のエンコーダEn2に入力され、学習済みの第2オートエンコーダ126b-2のエンコーダEn2の出力が、多層ニューラルネット処理部126b-3に入力される。
さらに、多層ニューラルネット処理部126b-3には、図11に示されているように、時刻t-1、時刻t、及び、時刻t+1における周波数帯域分割された隣接する対数化音フレームS+N(t-1)、対数化音フレームS+N(t)、及び、対数化音フレームS+N(t+1)も入力される。
ノイズが重畳される前の音データと、これにノイズを重畳した音データとを用意し、フレーム化部121、STFT処理部122及びフィルタバンク処理部123で処理された各音データの対数化音フレームの出力を取得し、第2オートエンコーダ126b-2のエンコーダEn2の出力と、ノイズが重畳された音データに対するフィルタバンク処理部123からの周波数帯域分割された隣接する三つの対数化音フレームの出力、即ち、対数化音フレームS+N(t-1)、対数化音フレームS+N(t)及び対数化音フレームS+N(t+1)と、これらに対応するノイズ重畳前の音データに対する周波数帯域分割された対数化音フレームの出力、即ち、対数化音フレームS(t)とを教師ラベルとして対応づけて教師データを生成する。
図15に示されているように、多層ニューラルネット処理部126b-3の教師データは、ノイズが重畳された音データに対するフィルタバンク処理部123から出力される対数化音フレームS+N(t-1)、対数化音フレームS+N(t)及び対数化音フレームS+N(t+1)と、ノイズが重畳された音データに対する第2オートエンコーダ126b-2のエンコーダEn2から出力される対数化音フレームS(t)と、ノイズ重畳前の音データに対するフィルタバンク処理部123から出力される対数化音フレームS(t)とが対応付けられている。
図10に示されているように、SN推定部126bへは、ノイズ除去部126aからの時刻tにおけるノイズ無しの音信号パワー(推定S)、時刻tにおけるノイズ有りの音信号パワー(S+N)が入力される。いずれもフィルタバンク処理部123からの出力に基づくため、帯域分割された各帯域の対数化フィルタバンク出力である。
SN推定部126bは、図16に示すようなLSTM(Long Short Term Memory)ネットワークを用いたSN推定ネットワークとして構成する。LSTMネットワークは、図16に示されているように、シーケンス入力層、LSTM層、全結合層、ドロップアウト層、全結合層及びregression層で構成される。
ノイズ有りの音信号パワー(S+N)をこのLSTMネットワークに入力して、このLSTMネットワークから出力された値と、教師データとしてのノイズ無しの音信号パワー(推定S)との誤差が小さくなるように、各相の重みパラメータを修正することで、期待値に近いSN比が出力されるようになる。
図17に示されているように、LSTMネットワークは、時系列データに対して時間ステップ毎に推定値を出力する。時刻tにおけるデータ(ここでは、ノイズ無しの音信号パワー(推定S)及びノイズ有りの音信号パワー(S+N)の各帯域の対数化フィルタバンク出力)と、時刻t-1で生成されたLSTM隠れ層の値がLSTM層に入力され、隠れ層に格納される。
ノイズ度推定部126の第1の変形例は、ノイズ除去部126aと、SN推定部126cとを備える。
図18に示されているノイズ除去部126aは、図10に示されているノイズ除去部126aと同様である。
なお、リファレンス音響特徴推定部130のノイズ度推定部136の第1の変形例も、図示してはいないが、ノイズ除去部と、SN推定部とを備える。
また、リファレンス音響特徴推定部130のノイズ度推定部136のノイズ除去部を第2のノイズ除去部と、ノイズ度推定部136のSN推定部を第2のSN推定部ともいう。
例えば、ラジオ受信機においては、復調音のノイズが強い場合、ローパスフィルタにより耳障りなノイズを軽減する出力音制御がなされる。この場合、低域のノイズが大きいと、こもり度が強くなるという相関があると考えられる。そして、こもり度が強くなると、受信機出力音のSN比は低くなるという相関があると考えられる。そこでSN比を推定する際にこの相関関係を学習し、この学習モデルを用いることで推定精度を向上させることができる。
また、リファレンス音響特徴推定部130のノイズ度推定部136の、図示しないSN推定部は、第2のノイズ有りの音信号パワーと、第2のノイズ無しの音信号パワーと、リファレンス音RSのこもり度のレベルを用いて、リファレンス音RSのSN比を推定する。
ノイズ度推定部126の第2の変形例は、ノイズ除去部126aと、SN計算部126dとを備える。
図19に示されているノイズ除去部126aは、図10に示されているノイズ除去部126aと同様である。
なお、リファレンス音響特徴推定部130のノイズ度推定部136の第2の変形例も、図示してはいないが、ノイズ除去部と、SN計算部とを備える。
また、リファレンス音響特徴推定部130のノイズ度推定部136のノイズ除去部を第2のノイズ除去部と、ノイズ度推定部136のSN計算部を第2のSN計算部ともいう。
なお、リファレンス音響特徴推定部130のノイズ度推定部136の、図示しないSN計算部は、第2のノイズ有りの音信号パワーから、第2のノイズ無しの音信号パワーを減算することで第2のノイズの音信号パワーを算出し、第2のノイズ無しの音信号パワーと、第2のノイズの音信号パワーとを用いて、リファレンス音RSのSN比を推定する。
ノイズ度推定部126の第3の変形例は、ノイズ推定部126eと、SN特定部126fとを備える。
なお、図示してはいないが、リファレンス音響特徴推定部130のノイズ度推定部136の第3の変形例も、ノイズ推定部と、SN特定部とを備える。
また、リファレンス音響特徴推定部130のノイズ度推定部136のノイズ推定部を第2のノイズ推定部と、ノイズ度推定部136のSN特定部を第2のSN特定部ともいう。
ここで、ノイズ推定部126eは、LSTMネットワークにおいて、ノイズ有りの音信号パワー(S+N)を入力とし、ノイズの音信号パワーを教師データとすることにより、SN比を推定すればよい。
そして、SN特定部126fは、第1のノイズ有りの音信号パワーと、第1のノイズの音信号パワーとを用いて、評価対象音のSN比を特定する。
そして、リファレンス音響特徴推定部130のノイズ度推定部136の、図示しないSN特定部は、第2のノイズ有りの音信号パワーと、第2のノイズの音信号パワーとを用いて、リファレンス音RSのSN比を特定する。
実効値ES={Pw×SNRP÷(SNRP+1)}1/2 (2)
ここで、Pwは、ノイズ有りの音信号パワー(S+N)の電力のフレームにおける平均値である。
また、SNRP=10推定されたSN比/10である。
聴感SS=(実効値ES)÷(実効値EN+実効値ES) (3)
聴感SN=(実効値EN)÷(実効値EN+実効値ES) (4)
さらに、推定されたSN比の表示の場合のように、信号成分が無音になったのか、ノイズ成分が大きくなったのかを区別することができる表示となる。
また、ノイズ度推定部126での算出で使用されるPWをPW1と示すこともあり、PW1は、評価対象音TSから抽出された音フレームにおけるノイズ有りの音信号パワーの平均値である。
さらに、ノイズ度推定部126での算出で使用されるSNRPをSNRP1と示すこともあり、SNRP1=10評価対象SN比/10である。
また、ノイズ度推定部136での算出で使用されるPWをPW2と示すこともあり、PW2は、リファレンス音RSから抽出された音フレームにおけるノイズ有りの音信号パワーの平均値である。
さらに、ノイズ度推定部136での算出で使用されるSNRPをSNRP2と示すこともあり、SNRP2=10リファレンスSN比/10である。
音量特徴抽出部127は、入力音をラウドネス情報に変換して、変換された情報を音量情報として出力する。ラウドネスは、低い周波数ほど感度が悪く、2kHzから4kHzにおいて感度が良いという人の聴感を反映した指標である。
聴感特徴推定部140は、ステレオモノラル変動感推定部141と、こもり感推定部142と、ノイズ感推定部143と、音量変動感推定部144とを備える。
ステレオモノラル変動感推定部141は、評価対象音TSと、リファレンス音RSとそれぞれについて、ステレオからモノラルへの切り替え発生回数を求め、図24に示すように、評価対象音TSとリファレンス音RSとにおけるステレオからモノラルへの切り替え発生回数の差を特徴量として抽出する。
スコアリングは、例えば、リファレンス音RSと比較して、評価対象音TSの切り替えの発生回数が多ければ、ステレオからモノラルへの変動が多く、スコアとしては悪いためマイナス点とする。評価対象音の切り替えの発生回数が少なければ、スコアとしてプラス点が付与される。
こもり感推定部142は、評価対象音TSと、リファレンス音RSとのそれぞれについて、こもり度推定部125が推定したこもり度レベルの各々に対して、1セグメント期間において、継続時間を特徴量として抽出する。
ノイズ感推定部143は、ノイズ感としてノイズの大きさ感と、ノイズの発生頻度感とについて評価者が感じた聴感をそれぞれ推定する。
ノイズ感推定部143は、ノイズ度推定部126が推定したSN比の時系列データに対して、評価対象音TSと、リファレンス音RSとの各推定SN比の差分の大きさ毎に、レベル1から3までのレベルに分け、各レベルの継続時間を特徴量として、図30に示すように、1セグメント(例えば、15秒)毎に抽出する。
ノイズ感推定部143は、ノイズ度推定部126が推定したSN比の時系列データに対して、評価対象音TSと、リファレンス音RSとの推定SN比の差分の時系列データを生成する。
このSN差分時系列データについて下向きピークを抽出し、そのピークの長さPLが、予め定められた閾値Aを超え、そのピークの幅PWが、予め定められた閾値B(例えば、0.5秒)を超えるものを抽出する。
さらに抽出したピークのうちピーク点の値が、予め定められた閾値Cより深いピーク点を抽出し、このピーク点数を1セグメント中でカウントし、このカウント値を特徴量として、図33に示すように抽出する。
下向きのピーク点の内、深さを算出するピーク点を対象ピーク点TPとする。
対象ピーク点TPから左右に水平線を引きより低いピークへの軌跡との右側交点をA、その左側交点をBとする。なお、左右において、より低いピークがなく左端又は右端に到達した場合には、左端の値をVA、右端の値をVBとして用いる。
値VAに対応する時刻~対象ピーク点TPに対応する時刻までの第1の区間の最大値と、対象ピーク点TP~値VBに対応するまでの第2の区間における最大値との内、小さい方の値を基準点とする。
基準点と、対象ピーク点TPとの垂直方向の距離を、その対象ピーク点TPの「深さ」とする。
ここで、ノイズ感推定部143は、以上のような条件を満たすピークに対して、ピークの値に応じて、レベルを割り当てる。
評価対象音響特徴推定部120の音量特徴抽出部127及びリファレンス音響特徴推定部130の音量特徴抽出部137が出力したラウドネス又はメル周波数ケプストラムの低次元情報の時系列データは、音量特徴量として音量変動感推定部144に入力される。
音量変動感推定部144では、音量特徴抽出部127から入力された音量特徴量に対して、中心化部144aが、各々の平均がゼロになるように、音量特徴量から平均値を減算する。
さらに、時間変動特徴抽出部144bは、変換された周波数スペクトルに対してサブバンド分割フィルタを掛けることで、図36に示されているようなサブバンド毎のパワーを求め、音量データの時間変動成分値を抽出し、これを時間変動特徴量とする。
さらに、時間変動特徴抽出部144dは、変換された周波数スペクトルに対してサブバンド分割フィルタを掛けることで、図36に示されているようなサブバンド毎のパワーを求め、音量データの時間変動成分値を抽出し、これを時間変動特徴量とする。
29番は、評価対象音TSとリファレンス音RSとのパワーの差の特徴を、30番は、評価対象音TSとリファレンス音RSとの間の波形の類似度を示す相互相関係数を、31番と32番とは、評価対象音TSとリファレンス音RSの各標準偏差、33番は、評価対象音TSとリファレンス音RSとの間の瞬時差分の絶対値の合計(波形差分エリア面積)である。
34番及び35番は、それぞれ評価対象音TSの最小値及び最大値、36番及び37番は、それぞれリファレンス音RSの最小値及び最大値である。
識別フェーズでは、音量変動感推定部144は、評価対象音及びリファレンス音の各音量変動特徴量から音量変動感特徴量を抽出し、学習済みの音量変動感の学習モデルを用いて、評価者の聴感を反映した音量変動感レベルを1セグメント毎に推定する。ここで生成及び使用される学習モデルを、音量変動学習モデルともいう。
以上で説明した聴感特徴推定部140からの、ステレオモノラル変動感スコア、こもり感スコア、ノイズ大きさ感スコア、ノイズ頻度感スコア及び音量変動感スコアといった聴感特徴量は、図39(A)~(E)に示されているように、1セグメント毎に出力された時系列データである。
評価対象音響特徴推定部120において評価対象音に対して推定されたステレオ度、こもり度、ノイズ度及び音量特徴量、リファレンス音響特徴推定部130においてリファレンス音に対して推定されたステレオ度、こもり度、ノイズ度及び音量特徴量は、それぞれ、記録部170に記録され、表示部160に表示されてもよい。
表示部160は、ディスプレイ等の表示装置で構成することができる。
記録部170は、揮発性又は不揮発性のメモリ、又は、HDD(Hard Disc Drive)等の記憶装置で構成することができる。
本実施の形態で示された音質評価装置100を使用すれば誰でも客観的な定量評価を効率的に得ることができる。また、音質評価装置100は、人が行う相対評価と同様に音響特徴の相対値を聴感特徴推定部140の入力として人の聴感を学習しているため、評価者の聴感評価ノウハウをうまく学習し、評価者と同レベルの推定を行うことができる。
なお、ホワイトノイズによって高域成分が増えることで重心周波数が高くなり、こもり度の推定が劣化する場合もあるが、ノイズ度を特徴量に追加することでノイズ度の学習に考慮され、誤判定を防止することができる。
Claims (31)
- 評価対象音の音響における特徴を示すための音響特徴量である第1の音響特徴量を推定する評価対象音響特徴推定部と、
前記評価対象音と比較するためのリファレンス音の音響特徴量である第2の音響特徴量を推定するリファレンス音響特徴推定部と、
評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、前記第1の音響特徴量及び前記第2の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部と、
聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部と、を備えること
を特徴とする情報処理装置。 - 前記評価対象音響特徴推定部は、前記評価対象音の右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、前記評価対象音がステレオであるかモノラルであるかを推定して、時系列において前記評価対象音がステレオであるかモノラルであるかを示すステレオ度情報である評価対象ステレオ度情報を生成する第1のステレオ度推定部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音の右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、前記リファレンス音がステレオであるかモノラルであるかを推定して、時系列において前記リファレンス音がステレオであるかモノラルであるかを示すステレオ度情報であるリファレンスステレオ度情報を生成する第2のステレオ度推定部を備え、
前記聴感特徴推定部は、前記評価対象ステレオ度情報と、前記リファレンスステレオ度情報とに基づいて、前記一定期間毎に、前記評価対象音におけるステレオ及びモノラルの切替回数と、前記リファレンス音におけるステレオ及びモノラルの切換回数との差である切換回数差を算出し、切換回数差と、ステレオ及びモノラルが切り替わることによる人の聴感の評価値であるステレオモノラル変動推定スコアとの関係性を学習したステレオモノラル学習モデルを用いて、前記算出された切換回数差に対応するステレオモノラル変動推定スコアを推定するステレオモノラル変動感推定部を備えること
を特徴とする請求項1に記載の情報処理装置。 - 前記評価対象音響特徴推定部は、前記評価対象音の音量を抽出し、前記評価対象音から抽出された音量を時系列において示す音量特徴量時系列データである評価対象音量特徴量時系列データを生成する第1の音量特徴抽出部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音の音量を抽出し、前記リファレンス音から抽出された音量を時系列において示す音量特徴量時系列データであるリファレンス音量特徴量時系列データを生成する第2の音量特徴抽出部を備え、
前記聴感特徴推定部は、前記評価対象音量特徴量時系列データ及び前記リファレンス音量特徴量時系列データの各々を周波数領域データに変換して、変換された周波数領域データで示されるパワーを周波数帯域に分割し、前記分割された周波数帯域毎のパワーに基づいて、前記一定期間毎における予め定められた音量変動特徴量を特定し、音量変動特徴量と、音量が変動することによる人の聴感の評価値である音量変動感推定スコアとの関係性を学習した音量変動学習モデルを用いて、前記特定された音量変動特徴量に対応する音量変動感推定スコアを推定する音量変動感推定部を備えること
を特徴とする請求項1又は2に記載の情報処理装置。 - 前記音量は、ラウドネス又はメル周波数ケプストラムとして抽出されること
を特徴とする請求項3に記載の情報処理装置。 - 前記評価対象音響特徴推定部は、前記評価対象音の信号と、雑音との比率を示すSN比である評価対象SN比を推定する第1のノイズ度推定部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音の信号と、雑音との比率を示すSN比であるリファレンスSN比を推定する第2のノイズ度推定部を備え、
前記聴感特徴推定部は、前記評価対象SN比と、前記リファレンスSN比との差分を、大きさに従って予め定められた複数のレベルに分類し、前記一定期間毎に、前記複数のレベルの各々に分類された差分の継続時間を示すノイズ大きさ特徴量を特定し、ノイズ大きさ特徴量と、ノイズの大きさによる人の聴感の評価値であるノイズ大きさ感推定スコアとの関係性を学習したノイズ大きさ学習モデルを用いて、前記特定されたノイズ大きさ特徴量に対応するノイズ大きさ感推定スコアを推定するノイズ感推定部を備えること
を特徴する請求項1から4の何れか一項に記載の情報処理装置。 - 前記ノイズ感推定部は、前記評価対象SN比と、前記リファレンスSN比との差分を時系列において示すSN差分時系列データを生成し、前記SN差分時系列データに含まれている下向きのピークの内、予め定められた条件を満たすピークを抽出し、抽出されたピークの内、予め定められた閾値よりも深いピークの数を、前記一定期間毎に集計した値をノイズ頻度特徴量として特定し、ノイズ頻度特徴量と、ノイズの頻度による人の聴感の評価値であるノイズ頻度感推定スコアとの関係性を学習したノイズ頻度学習モデルを用いて、前記特定されたノイズ頻度特徴量に対応するノイズ頻度感推定スコアを推定すること
を特徴とする請求項5に記載の情報処理装置。 - 前記第1のノイズ度推定部は、
前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第1の周波数領域信号に変換した後に、前記第1の周波数領域信号をフィルタバンクで処理して、対数化した第1のノイズ有りの音信号パワーから、ノイズを除去した第1のノイズ無しの音信号パワーを推定する第1のノイズ除去部と、
前記第1のノイズ有りの音信号パワーと、前記第1のノイズ無しの音信号パワーとを用いて、前記評価対象SN比を推定する第1のSN推定部とを備え、
前記第2のノイズ度推定部は、
前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、前記第2の周波数領域信号をフィルタバンクで処理して、対数化した第2のノイズ有りの音信号パワーから、ノイズを除去した第2のノイズ無しの音信号パワーを推定する第2のノイズ除去部と、
前記第2のノイズ有りの音信号パワーと、前記第2のノイズ無しの音信号パワーとを用いて、前記リファレンスSN比を推定する第2のSN推定部とを備えること
を特徴とする請求項5又は6に記載の情報処理装置。 - 前記評価対象音響特徴推定部は、前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第1の周波数領域信号に変換した後に、前記第1の周波数領域信号をフィルタバンクで処理して、対数化した第1のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記評価対象音のこもり度のレベルを推定する第1のこもり度推定部を備え、
前記第1のノイズ度推定部は、
前記第1のノイズ有りの音信号パワーから、ノイズを除去した第1のノイズ無しの音信号パワーを推定する第1のノイズ除去部と、
前記第1のノイズ有りの音信号パワーと、前記第1のノイズ無しの音信号パワーと、前記評価対象音のこもり度のレベルとを用いて、前記評価対象SN比を推定する第1のSN推定部とを備え、
前記リファレンス音響特徴推定部は、前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、前記第2の周波数領域信号をフィルタバンクで処理して、対数化した第2のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記リファレンス音のこもり度のレベルを推定する第2のこもり度推定部を備え、
前記第2のノイズ度推定部は、
前記第2のノイズ有りの音信号パワーから、ノイズを除去した第2のノイズ無しの音信号パワーを推定する第2のノイズ除去部と、
前記第2のノイズ有りの音信号パワーと、前記第2のノイズ無しの音信号パワーと、前記リファレンス音のこもり度のレベルを用いて、前記リファレンスSN比を推定する第2のSN推定部とを備えること
を特徴とする請求項5又は6に記載の情報処理装置。 - 前記第1のノイズ度推定部は、
前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第1の周波数領域信号に変換した後に、前記第1の周波数領域信号をフィルタバンクで処理して、対数化した第1のノイズ有りの音信号パワーから、ノイズを除去した第1のノイズ無しの音信号パワーを推定する第1のノイズ除去部と、
前記第1のノイズ有りの音信号パワーから、前記第1のノイズ無しの音信号パワーを減算することで第1のノイズの音信号パワーを算出し、前記第1のノイズ無しの音信号パワーと、前記第1のノイズの音信号パワーとを用いて、前記評価対象SN比を推定する第1のSN計算部とを備え、
前記第2のノイズ度推定部は、
前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、前記第2の周波数領域信号をフィルタバンクで処理して、対数化した第2のノイズ有りの音信号パワーから、ノイズを除去した第2のノイズ無しの音信号パワーを推定する第2のノイズ除去部と、
前記第2のノイズ有りの音信号パワーから、前記第2のノイズ無しの音信号パワーを減算することで第2のノイズの音信号パワーを算出し、前記第2のノイズ無しの音信号パワーと、前記第2のノイズの音信号パワーとを用いて、前記リファレンスSN比を推定する第2のSN計算部とを備えること
を特徴とする請求項5又は6に記載の情報処理装置。 - 前記第1のノイズ除去部は、少なくとも一つのオートエンコーダと、ニューラルネットの処理を行うニューラルネット処理部とを備えることで、前記第1のノイズ無しの音信号パワーを推定し、
前記第2のノイズ除去部は、少なくとも一つのオートエンコーダと、ニューラルネットの処理を行うニューラルネット処理部とを備えることで、前記第2のノイズ無しの音信号パワーを推定すること
を特徴とする請求項7から9の何れか一項に記載の情報処理装置。 - 前記第1のノイズ度推定部は、
前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第1の周波数領域信号に変換した後に、前記第1の周波数領域信号をフィルタバンクで処理して、対数化した第1のノイズ有りの音信号パワーから、前記評価対象音のノイズの音信号パワーに相当する第1のノイズの音信号パワーを推定する第1のノイズ推定部と、
前記第1のノイズ有りの音信号パワーと、前記第1のノイズの音信号パワーとを用いて、前記評価対象SN比を特定する第1のSN特定部とを備え、
前記第2のノイズ度推定部は、
前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、前記第2の周波数領域信号をフィルタバンクで処理して、対数化した第2のノイズ有りの音信号パワーから、前記リファレンス音に含まれているノイズの音信号パワーに相当する第2のノイズの音信号パワーを推定する第2のノイズ推定部と、
前記第2のノイズ有りの音信号パワーと、前記第2のノイズの音信号パワーとを用いて、前記リファレンスSN比を特定する第2のSN特定部とを備えること
を特徴とする請求項5又は6に記載の情報処理装置。 - 前記第1のノイズ度推定部は、下記の(1)式~(4)式を用いて、前記評価対象音の第1の実効信号感SS1及び第1の実効ノイズ感SN1を算出し、
前記第2のノイズ度推定部は、下記の(5)式~(8)式を用いて、前記リファレンス音の第2の実効信号感SS2及び第2の実効ノイズ感SN2を算出し、
第1の実効値EN1={Pw1-ES12}1/2 (1)
第2の実効値ES1={Pw1×SNRP1÷(SNRP1+1)}1/2 (2)
第1の実効信号感SS1=ES1÷(EN1+ES1) (3)
第1の実効ノイズ感SN1=EN1÷(EN1+ES2) (4)
但し、Pw1は、前記評価対象音から抽出された前記音フレームにおける前記第1のノイズ有りの音信号パワーの平均値であり、SNRP1=10前記評価対象SN比/10であり、
第3の実効値EN2={Pw2-ES22}1/2 (5)
第4の実効値ES2={Pw2×SNRP2÷(SNRP2+1)}1/2 (6)
第2の実効信号感SS2=ES2÷(EN2+ES2) (7)
第2の実効ノイズ感SN2=EN2÷(EN2+ES2) (8)
但し、Pw2は、前記リファレンス音から抽出された前記音フレームにおける前記第2のノイズ有りの音信号パワーの平均値であり、SNRP2=10前記リファレンスSN比/10であること
を特徴とする請求項7から11の何れか一項に記載の情報処理装置。 - 前記評価対象音響特徴推定部は、前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第1の周波数領域信号に変換した後に、前記第1の周波数領域信号をフィルタバンクで処理して、対数化した第1のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記評価対象音のこもり度のレベルを推定する第1のこもり度推定部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、前記第2の周波数領域信号をフィルタバンクで処理して、対数化した第2のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記リファレンス音のこもり度のレベルを推定する第2のこもり度推定部を備え、
前記聴感特徴推定部は、前記一定期間毎に、前記評価対象音のこもり度のレベル毎の継続時間を評価対象こもり度特徴量として特定し、前記一定期間毎に、前記リファレンス音のこもり度のレベル毎の継続時間をリファレンスこもり度特徴量として特定し、評価対象こもり度特徴量及びリファレンスこもり度特徴量と、こもり度の大きさによる人の聴感の評価値であるこもり感推定スコアとの関係性を学習したこもり感学習モデルを用いて、前記特定された評価対象こもり度特徴量及び前記特定されたリファレンスこもり度特徴量に対応するこもり感推定スコアを推定するこもり感推定部を備えること
を特徴とする請求項1から12の何れか一項に記載の情報処理装置。 - 前記第1の音響特徴量、前記第2の音響特徴量、前記推定された聴感特徴量及び前記推定された聴感スコアの少なくとも何れか一つを表示する表示部をさらに備えること
を特徴とする請求項1から13の何れか一項に記載の情報処理装置。 - 前記第1の音響特徴量、前記第2の音響特徴量、前記推定された聴感特徴量及び前記推定された聴感スコアの少なくとも何れか一つを記録する記録部をさらに備えること
を特徴とする請求項1から14の何れか一項に記載の情報処理装置。 - 評価対象音の音響における特徴を示すための音響特徴量である第1の音響特徴量を推定する評価対象音響特徴推定部と、
前記評価対象音と比較するためのリファレンス音の音響特徴量である第2の音響特徴量を推定するリファレンス音響特徴推定部と、
評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係に基づいて、一定期間毎に、前記第1の音響特徴量及び前記第2の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部と、
聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係に基づいて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部と、を備えること
を特徴とする情報処理装置。 - 前記評価対象音響特徴推定部は、前記評価対象音の右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、前記評価対象音がステレオであるかモノラルであるかを推定して、時系列において前記評価対象音がステレオであるかモノラルであるかを示すステレオ度情報である評価対象ステレオ度情報を生成する第1のステレオ度推定部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音の右チャンネル音と、左チャンネル音との間の相互相関係数、遅延時間及び音量差分により、前記リファレンス音がステレオであるかモノラルであるかを推定して、時系列において前記リファレンス音がステレオであるかモノラルであるかを示すステレオ度情報であるリファレンスステレオ度情報を生成する第2のステレオ度推定部を備え、
前記聴感特徴推定部は、前記評価対象ステレオ度情報と、前記リファレンスステレオ度情報とに基づいて、前記一定期間毎に、前記評価対象音におけるステレオ及びモノラルの切替回数と、前記リファレンス音におけるステレオ及びモノラルの切換回数との差である切換回数差を算出し、切換回数差と、ステレオ及びモノラルが切り替わることによる人の聴感の評価値であるステレオモノラル変動推定スコアとの関係に基づいて、前記算出された切換回数差に対応するステレオモノラル変動推定スコアを推定するステレオモノラル変動感推定部を備えること
を特徴とする請求項16に記載の情報処理装置。 - 前記評価対象音響特徴推定部は、前記評価対象音の音量を抽出し、前記評価対象音から抽出された音量を時系列において示す音量特徴量時系列データである評価対象音量特徴量時系列データを生成する第1の音量特徴抽出部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音の音量を抽出し、前記リファレンス音から抽出された音量を時系列において示す音量特徴量時系列データであるリファレンス音量特徴量時系列データを生成する第2の音量特徴抽出部を備え、
前記聴感特徴推定部は、前記評価対象音量特徴量時系列データ及び前記リファレンス音量特徴量時系列データの各々を周波数領域データに変換して、変換された周波数領域データで示されるパワーを周波数帯域に分割し、前記分割された周波数帯域毎のパワーに基づいて、前記一定期間毎における予め定められた音量変動特徴量を特定し、音量変動特徴量と、音量が変動することによる人の聴感の評価値である音量変動感推定スコアとの関係に基づいて、前記特定された音量変動特徴量に対応する音量変動感推定スコアを推定する音量変動感推定部を備えること
を特徴とする請求項16又は17に記載の情報処理装置。 - 前記評価対象音響特徴推定部は、前記評価対象音の信号と、雑音との比率を示すSN比である評価対象SN比を推定する第1のノイズ度推定部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音の信号と、雑音との比率を示すSN比であるリファレンスSN比を推定する第2のノイズ度推定部を備え、
前記聴感特徴推定部は、前記評価対象SN比と、前記リファレンスSN比との差分を、大きさに従って予め定められた複数のレベルに分類し、前記一定期間毎に、前記複数のレベルの各々に分類された差分の継続時間を示すノイズ大きさ特徴量を特定し、ノイズ大きさ特徴量と、ノイズの大きさによる人の聴感の評価値であるノイズ大きさ感推定スコアとの関係に基づいて、前記特定されたノイズ大きさ特徴量に対応するノイズ大きさ感推定スコアを推定するノイズ感推定部を備えること
を特徴する請求項16から18の何れか一項に記載の情報処理装置。 - 前記ノイズ感推定部は、前記評価対象SN比と、前記リファレンスSN比との差分を時系列において示すSN差分時系列データを生成し、前記SN差分時系列データに含まれている下向きのピークの内、予め定められた条件を満たすピークを抽出し、抽出されたピークの内、予め定められた閾値よりも深いピークの数を、前記一定期間毎に集計した値をノイズ頻度特徴量として特定し、ノイズ頻度特徴量と、ノイズの頻度による人の聴感の評価値であるノイズ頻度感推定スコアとの関係に基づいて、前記特定されたノイズ頻度特徴量に対応するノイズ頻度感推定スコアを推定すること
を特徴とする請求項19に記載の情報処理装置。 - 前記評価対象音響特徴推定部は、前記評価対象音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第1の周波数領域信号に変換した後に、前記第1の周波数領域信号をフィルタバンクで処理して、対数化した第1のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記評価対象音のこもり度のレベルを推定する第1のこもり度推定部を備え、
前記リファレンス音響特徴推定部は、前記リファレンス音から抽出された音フレームを、短時間フーリエ変換により周波数領域の信号である第2の周波数領域信号に変換した後に、前記第2の周波数領域信号をフィルタバンクで処理して、対数化した第2のノイズ有りの音信号パワーにおける周波数スペクトルの形状から、前記リファレンス音のこもり度のレベルを推定する第2のこもり度推定部を備え、
前記聴感特徴推定部は、前記一定期間毎に、前記評価対象音のこもり度のレベル毎の継続時間を評価対象こもり度特徴量として特定し、前記一定期間毎に、前記リファレンス音のこもり度のレベル毎の継続時間をリファレンスこもり度特徴量として特定し、評価対象こもり度特徴量及びリファレンスこもり度特徴量と、こもり度の大きさによる人の聴感の評価値であるこもり感推定スコアとの関係に基づいて、前記特定された評価対象こもり度特徴量及び前記特定されたリファレンスこもり度特徴量に対応するこもり感推定スコアを推定するこもり感推定部を備えること
を特徴とする請求項16から20の何れか一項に記載の情報処理装置。 - 前記聴感特徴推定部での推定は、
評価対象音の音響特徴量及びリファレンス音の音響特徴量を入力データとし、人の聴感に関する特徴を示すための聴感特徴量を出力データとする入出力データを用いて、学習分類器が学習した結果に基づいて行われること
を特徴とする請求項16から21の何れか一項に記載の情報処理装置。 - 前記ステレオモノラル変動感推定部での推定は、
前記評価対象ステレオ度情報及び前記リファレンスステレオ度情報に基づいて前記一定期間毎に算出した、前記評価対象音におけるステレオ及びモノラルの切替回数と、前記リファレンス音におけるステレオ及びモノラルの切換回数の差である切換回数差、並びに、ステレオ及びモノラルが切り替わることによる人の聴感の評価値であるステレオモノラル変動推定スコアを入力データとし、前記切換回数差に対応するステレオモノラル変動推定スコアを出力データとする、入出力データを用いて、学習分類器が学習した結果に基づいて行われること
を特徴とする請求項17に記載の情報処理装置。 - 前記音量変動感推定部での推定は、
前記評価対象音量特徴量時系列データ及び前記リファレンス音量特徴量時系列データの各々を周波数領域データに変換して、変換された周波数領域データで示されるパワーを周波数帯域に分割し、前記分割された周波数帯域毎のパワーに基づいて、前記一定期間毎に特定された予め定められる音量変動特徴量、及び、音量が変動することによる人の聴感の評価値である音量変動感推定スコアを入力データとし、前記特定された音量変動特徴量に対応する音量変動感推定スコアを出力データとする、入出力データを用いて、学習分類器が学習した結果に基づいて行われること
を特徴とする請求項18に記載の情報処理装置。 - 前記ノイズ感推定部での推定は、
前記評価対象SN比と、前記リファレンスSN比との差分を、大きさに従って予め定められた複数のレベルに分類し、前記一定期間毎に特定される、前記複数のレベルの各々に分類された差分の継続時間を示すノイズ大きさ特徴量、及び、ノイズの大きさによる人の聴感の評価値であるノイズ大きさ感推定スコアを入力データとし、前記特定されるノイズ大きさ特徴量に対応するノイズ大きさ感推定スコアを出力データとする、入出力データを用いて、学習分類器が学習した結果に基づいて行われること
を特徴とする請求項19又は20に記載の情報処理装置。 - 前記ノイズ感推定部での推定は、
前記評価対象SN比と、前記リファレンスSN比との差分を時系列において示すSN差分時系列データを生成し、前記SN差分時系列データに含まれている下向きのピークの内、予め定められた条件を満たすピークを抽出し、抽出されたピークの内、予め定められた閾値よりも深いピークの数を、前記一定期間毎に集計して特定されたノイズ頻度特徴量、及び、ノイズの頻度による人の聴感の評価値であるノイズ頻度感推定スコアを入力データとし、前記特定されたノイズ頻度特徴量に対応するノイズ頻度感推定スコアを出力データとする、入出力データを用いて、学習分類器が学習した結果に基づいて行われること
を特徴とする請求項25に記載の情報処理装置。 - 前記こもり感推定部での推定は、
前記一定期間毎に特定された、前記評価対象音のこもり度のレベル毎の継続時間である評価対象こもり度特徴量、及び、前記一定期間毎に特定された、前記リファレンス音のこもり度のレベル毎の継続時間であるリファレンスこもり度特徴量を入力データとし、こもり度の大きさによる人の聴感の評価値であって、前記特定された評価対象こもり度特徴量及び前記特定されたリファレンスこもり度特徴量に対応する、こもり感推定スコアを出力データとする、入出力データを用いて、学習分類器が学習した結果に基づいて行われること
を特徴とする請求項21に記載の情報処理装置。 - コンピュータを、
評価対象音の音響における特徴を示すための音響特徴量である第1の音響特徴量を推定する評価対象音響特徴推定部、
前記評価対象音と比較するためのリファレンス音の音響特徴量である第2の音響特徴量を推定するリファレンス音響特徴推定部、
評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、前記第1の音響特徴量及び前記第2の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部、及び、
聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部、として機能させること
を特徴とするプログラム。 - コンピュータを、
評価対象音の音響における特徴を示すための音響特徴量である第1の音響特徴量を推定する評価対象音響特徴推定部、
前記評価対象音と比較するためのリファレンス音の音響特徴量である第2の音響特徴量を推定するリファレンス音響特徴推定部、
評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係に基づいて、一定期間毎に、前記第1の音響特徴量及び前記第2の音響特徴量に対応する聴感特徴量を推定する聴感特徴推定部、及び、
聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係に基づいて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定する聴感スコア推定部、として機能させること
を特徴とするプログラム。 - 評価対象音響特徴推定部が、評価対象音の音響における特徴を示すための音響特徴量である第1の音響特徴量を推定し、
リファレンス音響特徴推定部が、前記評価対象音と比較するためのリファレンス音の音響特徴量である第2の音響特徴量を推定し、
聴感特徴推定部が、評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係性を学習した学習モデルを用いて、一定期間毎に、前記第1の音響特徴量及び前記第2の音響特徴量に対応する聴感特徴量を推定し、
聴感スコア推定部が、聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係性を学習した学習モデルを用いて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定すること
を特徴とする情報処理方法。 - 評価対象音響特徴推定部が、評価対象音の音響における特徴を示すための音響特徴量である第1の音響特徴量を推定し、
リファレンス音響特徴推定部が、前記評価対象音と比較するためのリファレンス音の音響特徴量である第2の音響特徴量を推定し、
聴感特徴推定部が、評価対象音の音響特徴量と、リファレンス音の音響特徴量と、音量変動感、ステレオモノラル変動感、こもり感及びノイズ感の少なくとも何れか一つにより人の聴感に関する特徴を示すための聴感特徴量との関係に基づいて、一定期間毎に、前記第1の音響特徴量及び前記第2の音響特徴量に対応する聴感特徴量を推定し、
聴感スコア推定部が、聴感特徴量の時系列データと、人の聴感の評価値である聴感スコアとの関係に基づいて、前記推定された聴感特徴量の時系列データに対応する聴感スコアを推定すること
を特徴とする情報処理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019128227A JP7278161B2 (ja) | 2019-07-10 | 2019-07-10 | 情報処理装置、プログラム及び情報処理方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2019128227A JP7278161B2 (ja) | 2019-07-10 | 2019-07-10 | 情報処理装置、プログラム及び情報処理方法 |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2021015137A JP2021015137A (ja) | 2021-02-12 |
JP2021015137A5 JP2021015137A5 (ja) | 2022-01-06 |
JP7278161B2 true JP7278161B2 (ja) | 2023-05-19 |
Family
ID=74530639
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2019128227A Active JP7278161B2 (ja) | 2019-07-10 | 2019-07-10 | 情報処理装置、プログラム及び情報処理方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP7278161B2 (ja) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113393863B (zh) * | 2021-06-10 | 2023-11-03 | 北京字跳网络技术有限公司 | 一种语音评价方法、装置和设备 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000506327A (ja) | 1996-02-29 | 2000-05-23 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | トレーニングプロセス |
JP2008277916A (ja) | 2007-04-25 | 2008-11-13 | Matsushita Electric Ind Co Ltd | 信号伝送品質評価装置、ラジオ受信機、プログラムおよび記録媒体 |
JP2010010848A (ja) | 2008-06-24 | 2010-01-14 | Tsg Corp | ラジオ受信性能評価システム |
JP2011185997A (ja) | 2010-03-04 | 2011-09-22 | Fujitsu Ltd | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
JP2017027011A (ja) | 2015-07-24 | 2017-02-02 | 日本放送協会 | 音質評価装置 |
JP2017135484A (ja) | 2016-01-26 | 2017-08-03 | 東日本旅客鉄道株式会社 | 無線通信試験装置及び無線通信試験方法 |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH04345327A (ja) * | 1991-05-23 | 1992-12-01 | Nippon Telegr & Teleph Corp <Ntt> | 通話品質客観測定方法 |
JPH09331391A (ja) * | 1996-06-12 | 1997-12-22 | Nippon Telegr & Teleph Corp <Ntt> | 通話品質客観推定装置 |
-
2019
- 2019-07-10 JP JP2019128227A patent/JP7278161B2/ja active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2000506327A (ja) | 1996-02-29 | 2000-05-23 | ブリティッシュ・テレコミュニケーションズ・パブリック・リミテッド・カンパニー | トレーニングプロセス |
JP2008277916A (ja) | 2007-04-25 | 2008-11-13 | Matsushita Electric Ind Co Ltd | 信号伝送品質評価装置、ラジオ受信機、プログラムおよび記録媒体 |
JP2010010848A (ja) | 2008-06-24 | 2010-01-14 | Tsg Corp | ラジオ受信性能評価システム |
JP2011185997A (ja) | 2010-03-04 | 2011-09-22 | Fujitsu Ltd | 音声検索装置、音声検索方法、プログラム及び記録媒体 |
JP2017027011A (ja) | 2015-07-24 | 2017-02-02 | 日本放送協会 | 音質評価装置 |
JP2017135484A (ja) | 2016-01-26 | 2017-08-03 | 東日本旅客鉄道株式会社 | 無線通信試験装置及び無線通信試験方法 |
Also Published As
Publication number | Publication date |
---|---|
JP2021015137A (ja) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Emiya et al. | Subjective and objective quality assessment of audio source separation | |
US9959886B2 (en) | Spectral comb voice activity detection | |
JP3418198B2 (ja) | オーディオ信号の聴覚に適応した品質評価方法および装置 | |
KR101430321B1 (ko) | 오디오 시스템의 지각 품질을 결정하기 위한 방법 및 시스템 | |
WO2006041735A2 (en) | Reverberation removal | |
CN103440869A (zh) | 一种音频混响的抑制装置及其抑制方法 | |
CN104919525B (zh) | 用于评估退化语音信号的可理解性的方法和装置 | |
US20110029310A1 (en) | Procedure for processing noisy speech signals, and apparatus and computer program therefor | |
Sottek | A hearing model approach to time-varying loudness | |
Virebrand | Real-time monitoring of voice characteristics usingaccelerometer and microphone measurements | |
JP7278161B2 (ja) | 情報処理装置、プログラム及び情報処理方法 | |
Torcoli et al. | Controlling the remixing of separated dialogue with a non-intrusive quality estimate | |
Canazza et al. | Restoration of audio documents by means of extended Kalman filter | |
CN111755025B (zh) | 一种基于音频特征的状态检测方法、装置及设备 | |
May et al. | Assessment of broadband SNR estimation for hearing aid applications | |
JP3350713B2 (ja) | 騒音源の種類を特定する方法、その装置および媒体 | |
Rämö et al. | Real-time perceptual model for distraction in interfering audio-on-audio scenarios | |
Diether et al. | Efficient blind estimation of subband reverberation time from speech in non-diffuse environments | |
Pendharkar | Auralization of road vehicles using spectral modeling synthesis | |
CN113593604A (zh) | 检测音频质量方法、装置及存储介质 | |
US10395668B2 (en) | System and a method for determining an interference or distraction | |
JP2021015137A5 (ja) | ||
Sottek | Improvements in calculating the loudness of time varying sounds | |
US20170077889A1 (en) | Method and apparatus for processing audio signals | |
Sottek | Sound quality evaluation of noises with spectro-temporal patterns |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20211129 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211129 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20221017 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221025 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221223 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230411 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230509 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7278161 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |