JP2020095123A - 音評価aiシステム、および、音評価aiプログラム - Google Patents

音評価aiシステム、および、音評価aiプログラム Download PDF

Info

Publication number
JP2020095123A
JP2020095123A JP2018231884A JP2018231884A JP2020095123A JP 2020095123 A JP2020095123 A JP 2020095123A JP 2018231884 A JP2018231884 A JP 2018231884A JP 2018231884 A JP2018231884 A JP 2018231884A JP 2020095123 A JP2020095123 A JP 2020095123A
Authority
JP
Japan
Prior art keywords
sound
evaluation
subject
subjective
subjective evaluation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018231884A
Other languages
English (en)
Other versions
JP6684339B1 (ja
Inventor
莉紗 ▲高▼橋
莉紗 ▲高▼橋
Risa Takahashi
太郎 笠原
Taro Kasahara
太郎 笠原
一行 西村
Kazuyuki Nishimura
一行 西村
宏知 鈴木
Hirotomo Suzuki
宏知 鈴木
康二 石田
Koji Ishida
康二 石田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ono Sokki Co Ltd
Original Assignee
Ono Sokki Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ono Sokki Co Ltd filed Critical Ono Sokki Co Ltd
Priority to JP2018231884A priority Critical patent/JP6684339B1/ja
Application granted granted Critical
Publication of JP6684339B1 publication Critical patent/JP6684339B1/ja
Publication of JP2020095123A publication Critical patent/JP2020095123A/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

【課題】入力したプロフィールに係る各被験者が感じると思われる主観量を推定する。【解決手段】音評価AIシステム1は、既知の音、および、所定プロフィールを有する被験者による前記音の主観評価を格納する音評価データベース2と、音評価データベース2に基づき、音から所定プロフィールを有する被験者による主観評価を推定するトレーニングを行ったのち、未知の音から所定プロフィールを有する被験者による主観評価を推定する推定部を備える。この推定部は、畳み込みニューラルネットとして構成される゜【選択図】図1

Description

本発明は、音の主観評価を推定するための音評価AIシステム、および、音評価AIプログラムに関する。
機器の動作音や振動音について、定量的な計測や解析に加えて、機器の品位を向上させるために、主観的な品質を決定することが行われている。主観的な品質は、機器の動作音や振動音を主観評価(官能評価)することで評価される。
特許文献1には、人の感性によって解釈される物理量を入力し、その主観量をニューラルネットワークによって予測する発明が記載されている。
特開2006−096020号公報
特許文献1に記載されている発明では、一対比較に用いた音の全物理量の平均値を入力して、人の感性によってこの音を解釈した主観量を予測している。しかし、特許文献1に記載の発明では、被験者のプロフィールごとに主観量が異なることは何ら想定されていない。よって、特許文献1には、被験者のプロファイルを考慮してデータを選別することや、プロファイル別の傾向を予測することについては、何ら記載されていない。
また、主観と音の物理量の関係は、平均値だけで説明できない場合がある。このような場合に対処するため、特徴量に時間情報を含めることが必要である。
更に特許文献1では、平均値からのずれによる優劣の確率の変化を最大確率となる1点として推定しており、例えば音の物理量の平均値を入力した場合の不快確率は0.5として計算している。しかし、実際には被験者は複数であり、満場一致なのか意見が2つに割れるのか、みんなバラバラなのかわからない。つまり、主観評価結果は1点ではなく所定の分布をとることが想定されるため、このような分布を計算する方法が望まれている。
そこで、本発明は、入力したプロフィールに係る各被験者が感じると思われる主観量を推定することを課題とする。
上記目的を達成するため、音評価AIシステムは、既知の音、および、所定プロフィールを有する被験者による前記音の主観評価を格納するデータベースと、前記データベースに基づき、前記音から前記所定プロフィールを有する被験者による前記主観評価を推定するトレーニングを行ったのち、未知の音から前記所定プロフィールを有する被験者による主観評価を推定する推定手段と、を備えることを特徴とする。
音評価AIプログラムは、既知の音、および、所定プロフィールを有する被験者による前記音の主観評価を格納するデータベースを備えるコンピュータに、前記データベースに基づき、前記音から前記所定プロフィールを有する被験者による前記主観評価を推定するトレーニングをニューラルネットに行わせる工程、未知の音から前記所定プロフィールを有する被験者による主観評価を推定する工程、を実行させる。
音評価AIシステムは、既知の音、および、被験者による前記音の主観評価を格納するデータベースと、前記データベースに基づき、前記被験者による主観評価から前記音を推定するトレーニングを行ったのち、主観評価から音を推定する推定手段、を備えることを特徴とする。
音評価AIプログラムは、既知の音、および、被験者による前記音の主観評価を格納するデータベースを備えるコンピュータに、前記データベースに基づき、前記主観評価から前記音を推定するトレーニングをニューラルネットに行わせる工程、入力された主観評価から音を推定する工程、を実行させる。
本発明によれば、入力したプロフィールに係る各被験者が感じると思われる主観量を推定することが可能となる。
音評価AIシステムの概略の構成と動作を示す図である。 第1の実施形態における音評価AIシステムの構成図である。 音評価AIシステムのトレーニング処理を示すフローチャートである。 音評価AIシステムに未知の音を入力した際の主観評価の推定処理を示すフローチャートである。 時系列の音情報を示すグラフである。 時間−周波数で解析したスペクトログラムである。 主観評価の推定結果を示したグラフである。 第2の実施形態における音評価AIシステムの構成図である。 主観評価の推定に寄与した物理量の推定処理を示すフローチャートである。 時系列の音情報を示すグラフである。 感度の高い部位を可視化したスペクトログラムである。 シミュレータ部による処理を示すフローチャートである。 調整画面の例である。 第3の実施形態における音評価AIシステムの構成図である。 主観評価から時間−周波数情報を推定するためのトレーニング処理を示すフローチャートである。 主観評価を入力した際の時間−周波数情報の推定処理を示すフローチャートである。
以降、本発明を実施するための形態を、各図を参照して詳細に説明する。
図1は、音評価AI(Artificial Intelligence)システム1の概略の構成と動作を示す図である。
この音評価AIシステム1は、クラウドサーバ上で動作するプログラムとして構成されており、PCやスマートフォンからネットワーク経由でアクセス可能である。これにより、PCやスマートフォン上のブラウザで操作と結果表示とが可能となる。
音評価AIシステム1は、ユーザが製造する機器の品位を所望のものとするため、例えば機器の動作音などの主観評価を予測したり、その主観評価結果が所望のものとなる動作音を提示するものである。
音評価AIシステム1は、音の物理量41を入力すると、音の物理量41が属するカテゴリー43を判断し、主観評価50を予測して出力するシステムである。なお、音評価AIシステム1は、音の物理量41に加えて、カテゴリー43を入力して、主観評価を高精度に予測したり、被験者プロフィール42を入力して、この被験者プロフィール42に属する被験者が感じる主観評価を予測して出力してもよい。
ここで音の物理量41とは、例えば音の時系列情報である。被験者プロフィール42とは、音を主観評価した被験者のプロフィールであり、例えば職種、年代、性別、国籍、生活地域などをいう。カテゴリー43とは、音の分類であり、例えば「ドア閉め音」、「シフトレバー操作音」、「エンジン音」などである。
音評価データベース2には、聴感実験ツール31や聴感実験32の結果である音の主観評価と、音源から解析された物理量、主観評価と物理量との関係、各主観評価を行った被験者のプロフィール情報などのデータが格納されている。
聴感実験32は、被験者が音を主観評価する実験である。聴感実験32には、調整法、極限法、恒常法、マグニチュード推定(ME)法、評定尺度法、一対比較法、セマンティック・ディファレンシャル(SD)法、カテゴリー連続判断法、時系列データ評価などがある。これらの手法で観測される主観評価50は、いずれも連続値や離散値、またはそれらが時々刻々と変化する時系列情報として得られる。音評価AIシステム1は、音の物理量41から回帰や分類により、主観評価50、またはそれが時間と共に遷移する時系列情報を機械学習し、未知(未学習)の音から評価を予測する予測器を構成する。
聴感実験ツール31は、聴感実験32の工程の一部を自動化するアプリケーションプログラムである。
音評価データベース2には、音源情報と、音の主観評価と、音源から解析した物理量と、主観評価を判断した被験者のプロフィール情報が格納されている。これら音評価データベース2に格納された各種データは、音評価AIシステム1が機械学習するための教師データとして用いられる。音評価データベース2は、クラウド上のサーバに保存・管理されており、ユーザの権限に応じて利用可能である。
音評価AIシステム1は、複数の音の物理量と、これら複数の音に対する主観評価(聴感実験の結果)を教師データとして機械学習し、未知(未学習)の音から主観評価を予測できるようにする。以下、この主観評価50を予測する動作について、後記する第1の実施形態で説明する。
音評価AIシステム1は、主観評価50の予測に寄与した物理量を推定する。主観評価50の予測に寄与した物理量の推定については、後記する第2の実施形態で説明する。
更に音評価AIシステム1は、聴感実験の所望の主観評価を得られると予測される新たな音を生成する。この新たな音の生成については、後記する第3の実施形態で説明する。
《第1の実施形態》
図2は、第1の実施形態の音評価AIシステム1の構成図である。
音評価AIシステム1は、音の物理量を解析する解析部11と、音の主観評価の学習・推定を行う推定部13と、この推定部13を教師データによって学習させる制御部12と、学習済みのニューラルネットの内部変数を被験者プロフィールおよびカテゴリーと関連付けて記憶する記憶部10とを備える。
解析部11は、音の時系列信号を入力として、音の物理量を解析して出力する解析手段である。解析部11は、例えば短時間フーリエ変換により、音の時間−周波数特徴量(スペクトログラムの数値またはその画像)を抽出して出力する。なお、これに限られず、ラウドネス、シャープネスおよびこれらの時間トレンドであるラウドネスの時系列情報やシャープネスの時系列情報等、人間の聴覚に合わせた詳細な解析結果を物理量としてもよい。なお、音評価AIシステム1は、解析部11をスルーして推定部13に音の時系列信号をそのまま流してもよい。
推定部13は、解析部11から渡される物理量または音の時系列信号から主観評価を推定する推定手段である。推定部13は、畳み込み層14、GAP(Global Average Pooling)15、全結合層16を備え、回帰を行う畳み込みニューラルネットとして構成される。なお推定部13は、回帰式に限られずクラス分類器による処理を行ってもよい。
推定部13は、制御部12により制御されて、トレーニング処理と推定処理のうちいずれかを実行する。トレーニング処理は、音の物理量または音の時系列信号から主観評価を推定できるよう、畳み込みニューラルネットをトレーニングする処理である。このトレーニング処理では、予め採取した複数の音の時系列信号と、それに対応する複数人数から採取した主観評価とが教師データとして用いられる。
以下、推定部13に、入力として音の時間−周波数特徴量の画像が入力された際の各部動作を説明する。
畳み込み層14では、入力された特徴マップに対して複数種の重みを持ったフィルタ演算が行われる。畳み込み層14で算出された値は、活性化関数で変換される。活性化関数には、ロジスティクス関数、逆正接関数、ReLU(Rectified Linear Unit)などがある。
GAP15は、畳み込み層14から出力される特徴マップの平均値を出力する。例えば、64×32の特徴マップを3枚(3ch)出力する畳み込み層14の後にGAP15を入れると、GAP15は、3枚の各特徴マップの平均値を出力する。
このGAP15は、2次元画像の各画素における画素から主観評価がいずれであるかのクラス分類結果を出力する。GAP15は、全結合層16を減らし、パラメータ数を削減することができ、判定結果が「音の出現位置の違い」の影響を受けにくくなる。例えば、1秒後にドア閉め音が聞こえた時と、1.5秒後に聞こえた時の主観評価の推定結果を同様とする場合、畳み込み層14の直後に全結合層16を置くよりも、GAP15を経由した方が「音の出現位置の違い」による推定値のばらつきが小さくなる。
全結合層16は、線形変換と、活性化関数における非線形変換を繰り返すことにより、主観評価を算出するものである。
更に、推定部13に、入力として音の時間−周波数特徴量の数値が入力された際の各部動作を説明する。この音の時間−周波数特徴量の数値は時系列の情報であり、2次元の特徴量として畳み込み層14に入力される。GAP15は、畳み込み層14から出力される特徴マップの平均値を出力する。このGAP15は、2次元の特徴マップの各要素から主観評価がいずれであるかのクラス分類結果を出力する。全結合層16は、線形変換と、活性化関数における非線形変換を繰り返すことにより、主観評価を算出する。
なお、推定部13に対して評価項目や被験者のプロフィールを指定して、推定値を取得することも可能である。被験者のプロフィールとは、職種、年代、性別、国籍、生活地域などをいう。評価項目とは、評価語(形容詞対など)、物理値(閾値となるレベルなど)などをいう。所望の評価項目の主観評価とは、指定したカテゴリーに属する音を、指定したプロフィールを持つ被験者が評価した主観評価のことをいう。
畳み込み層14は、並列に構成する場合もある。また、畳み込み層14は、音の時系列信号に対して1次元の畳み込みを行ってもよい。
図3は、音評価AIシステム1のトレーニング処理を示すフローチャートである。
制御部12は、不図示の上位装置からトレーニング処理の指示を受けると、ステップS10の処理を開始する。
制御部12は、推定部13が備える畳み込みニューラルネットの内部変数を初期化する(S10)。ステップS11において、ユーザは、所望の音のカテゴリーと、所望の被験者プロフィールを音評価AIシステム1に入力する。なお、被験者プロフィールはオプションであり、必ずしも入力する必要はない。
制御部12は、カテゴリーに属する既知の音を解析して入力すると(S12)、被験者のプロフィールが入力されたか否かを判定する(S13)。
被験者のプロフィールが入力されていたならば(Yes)、制御部12は、推定部13が出力する各主観評価と、所望のプロフィールを有する被験者による各音の主観評価の平均との誤差を求め(S14)、ステップS16の処理に進む。被験者のプロフィールが入力されていなかったならば(No)、制御部12は、推定部13が出力する主観評価と被験者全体による各音の主観評価の平均との誤差を求め(S15)、ステップS16の処理に進む。
ステップS16において、制御部12は、誤差が収束したか否かを判定する。誤差が収束していないならば(No)、制御部12は、誤差が小さくなるように推定部13(畳み込みニューラルネット)の内部変数を変更し、ステップS12の処理に戻る。誤差が収束したならば(Yes)、制御部12は、ステップS18の処理に進む。
ステップS18において、制御部12は、被験者のプロフィールが入力されていたか否かを判定する。被験者のプロフィールが入力されていたならば(Yes)、制御部12は、学習済みのニューラルネットの内部変数を被験者プロフィールおよびカテゴリーと関連付けて記憶部10に記憶し(S19)、図3の処理を終了する。被験者のプロフィールが入力されていなかったならば(No)、制御部12は、学習済みのニューラルネットの内部変数を被験者全体およびカテゴリーと関連付けて記憶部10に記憶し(S20)、図3の処理を終了する。
図4は、音評価AIシステム1に未知の音を入力した際の主観評価の推定処理を示すフローチャートである。推定処理とは、未知の音信号を入力として、その音信号の主観評価を推定する処理であり、図3のトレーニング処理の後に実行可能となる。
最初に制御部12は、不図示の表示部に表紙を表示する(S30)。ここで表紙とは、この音評価AIシステムの起動画面であり、例えばシステム名称や操作のヒントなどが表示される。
ユーザは、この音評価AIシステムに未知の音を入力し(S31)、実験手法と音のカテゴリーと被験者プロフィール(オプション)を入力する(S32)。ここでいう実験手法は、調整法、極限法、恒常法、マグニチュード推定(ME)法、評定尺度法、一対比較法、セマンティック・ディファレンシャル(SD)法、カテゴリー連続判断法、時系列データ評価などである。
解析部11は、音を解析して物理量を算出する(S33)。制御部12は、ユーザによって被験者プロフィールが入力されているか否かを判定する(S34)。
ステップS34において、被験者プロフィールが入力されていないならば(No)、制御部12は、未知の音の物理量を、カテゴリーに対応する推定部13に入力し(S35)。推定部13は、未知の音の主観評価を推定する(S39)。なお、カテゴリーに対応する推定部13とは、推定部13を、カテゴリーに属する複数の音とその主観評価の組み合わせでトレーニングしたもののことである。制御部12は、図3のステップS20で記憶した学習済みのニューラルネットの内部変数を、再びニューラルネットに設定し、推定部13をカテゴリーに対応させる。
制御部12は更に、入力されたカテゴリーにおける主観評価を出力し(S37)、図4の処理を終了する。
ステップS34において、被験者プロフィールが入力されているならば(Yes)、制御部12は、未知の音の物理量をカテゴリーと被験者プロフィールに対応する推定部13に入力する(S38)。なお、カテゴリーと被験者プロフィールに対応する推定部13とは、推定部13を、カテゴリーに属する複数の音と、所定プロフィールの被験者による主観評価との組み合わせでトレーニングしたもののことである。制御部12は、図3のステップS19で記憶した学習済みのニューラルネットの内部変数を再びニューラルネットに設定し、推定部13をカテゴリーと被験者プロフィールに対応させる。
推定部13は、被験者プロフィールにおける未知の音の主観評価を推定する(S39)。制御部12は、入力されたカテゴリーと被験者プロフィールにおける主観評価を出力し(S40)、図4の処理を終了する。
図5は、時系列の音情報を示すグラフである。グラフの縦軸は、振幅を示し、横軸は時間を示している。このグラフに示す音情報は、車両のドア閉め音の時系列情報である。
図6は、時間−周波数で解析した音の時間周波数マップの画像である。
この音の時間周波数マップの縦軸は周波数を示し、横軸は時間を示しており、濃度で信号成分の強さを示している。推定部13への入力は、音の時間周波数マップに対応するスペクトログラムの数値であるが、図6に示す音の時間周波数マップの画像であってもよい。
図7は、評定尺度法による主観評価の推定結果を示したグラフである。
横軸は、被験者による主観評価を示している。縦軸は、音評価AIシステム1による主観評価を示している。
グラフの黒点は、被験者による既知の音の評定尺度法の主観評価と、これをトレーニングした音評価AIシステム1による主観評価の推定値との関係を示している。トレーニングにより、黒点は所定の比例関係となる。
グラフの白点は、被験者による未知の音の評定尺度法の主観評価と、未知の音に対して音評価AIシステム1が推定した主観評価との関係を示している。このように、音評価AIシステム1がトレーニングしていない未知の音であっても、所定の誤差範囲で主観評価を推定できている。
《第2の実施形態》
畳み込みニューラルネットワークについて、推定に寄与した部分を可視化する手法がいくつか提案されている。ここでは画像分類の可視化に有力なGrad-CAM手法をスペクトログラムに転用する例を示す。なお、Grad-CAM手法については、Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batraらの著作である“Visual Explanations from Deep Networks via Gradient-based Localization”の論文に記載されている。(URL:https://arxiv.org/abs/1610.02391)
第2の実施形態の音評価AIシステム1A(図8参照)は、解析部11と推定部13Aを用いて、実験結果に寄与した物理量を推定する。なお、推定部13A(図8参照)は、トレーニング処理済のものである。実験結果に寄与した物理量の推定結果は、例えばスペクトログラム上に示される。更に、音評価AIシステム1Aは、寄与度の高い物理量を増減させた音をシミュレートすることができる。
図8は、第2の実施形態における音評価AIシステム1Aの構成図である。
第2の実施形態の音評価AIシステム1Aは、図2に示した推定部13とは異なる推定部13Aを備え、更にシミュレータ部17と操作強度調整部6を備えている。それ以外の構成は、図2に示した音評価AIシステム1と同様である。
推定部13Aは、推定した主観評価50と、この主観評価50の推定に寄与した物理量とを出力する推定手段である。操作強度調整部6は、解析部11が解析した音の物理量のうち、主観評価50の推定に寄与した物理量の範囲をユーザに調整させる調整手段である。
シミュレータ部17は、操作強度調整部6によってユーザが調整した物理量に基づき、新たな音の時系列信号を再現する再現手段である。シミュレータ部17が生成した新たな音は、再び解析部11に入力されて、推定部13Aにより主観評価が推定される。
図9は、主観評価の推定に寄与した物理量の推定処理を示すフローチャートである。
制御部12は、推定部13Aに未知の音の物理量を入力する(S90)。推定部13Aは、この未知の音に対する主観評価を推定する(S91)。
ステップS92〜S97は、推定部13Aが行うGRAD-CAMの計算処理である。
ステップS92〜S95において、推定部13Aは、畳み込み層14の最終段における全ての特徴マップについて処理を繰り返す。
推定部13Aは、畳み込み層14の最終段における全特徴マップの全要素について、主観量スコアの微分(勾配)をとり(S93)、各特徴マップについて主観量スコアの微分の平均値を算出する(S94)。つまり、勾配の平均値は、その特徴マップの判定結果に対する影響度として用いられている。推定部13Aは更に、各特徴マップを主観量スコアの微分の平均値で重み付けする(S95)。
ステップS96において、推定部13Aは、畳み込み層14の最終段における特徴マップのうち未処理のものがあれば、ステップS92に戻る。推定部13Aは、畳み込み層14の最終段における全ての特徴マップについて処理したならば、ステップS97に進む。
推定部13Aは、重み付けした全特徴マップの平均を算出する(S97)。次に操作強度調整部6は、平均した全特徴マップを時間−周波数グラフに重ねて描く。
このように動作することで推定部13Aは、主観評価に寄与する感度が高い物理量の空間範囲を特定することができる。
図10は、時系列の音情報を示すグラフである。
グラフの縦軸は、振幅を示し、横軸は時間を示している。この音情報は、車両のドア閉め音である。
図11は、感度の高い部位を可視化したスペクトログラムである。
このスペクトログラムにおいて所定明度よりも明るい部分は、主観量の推定において感度の高い部分を示している。
図12は、操作強度調整部6やシミュレータ部17による処理を示すフローチャートである。
推定部13Aは、スペクトログラム上で寄与度の高い時間周波数帯を特定する(S50)。次に操作強度調整部6は、スペクトログラムのうち、特定した時間周波数帯の振幅をユーザに増減させる(S51)。なお、振幅の増減および時間周波数上の加工範囲は、調整ユーザインタフェース画面61(図13参照)を提供し微調整可能とする。
その後、シミュレータ部17は、逆短時間フーリエ変換により、スペクトログラムから新たな音の時系列信号を作成する(S52)。これと並行して、推定部13Aは、調整したスペクトログラムから主観評価を推定し(S53)、図12の処理を終了する。
図13は、調整ユーザインタフェース画面61の例である。
調整ユーザインタフェース画面61は、スペクトログラム上にGrad-CAM法によるヒートマップが重畳表示されている。この調整ユーザインタフェース画面61上の白色の部分に、ヒートマップが重畳表示されている。
主観量の推定において感度の高い領域の上下には、2個の三角形のオブジェクトが対向している。ここでは、感度の高い領域が2つ有るため、対向する2個の三角形のオブジェクトが、それぞれの領域の上下に配置されている。
対向する2個の三角形のオブジェクトのうち上側には “+”が表示され、下側には、“−”が表示されている。ユーザが上側のオブジェクトをクリックするごとに、感度の高い領域に対して所定の物理量だけ加算される。ユーザが下側のオブジェクトをクリックするごとに、感度の高い領域に対して所定の物理量だけ減算される。ここではスペクトログラムの領域の物理量なので、該当時間の該当周波数の振幅の大きさが加算または減算される。
ユーザが上側のオブジェクトや下側のオブジェクトをドラッグすると、振幅の調整対象となる時間周波数帯(領域)が変更される。
このように動作することで、第2の実施形態の音評価AIシステム1Aは、音の変更により、所定プロフィールの被験者による主観評価を感度良く変更することができる。
《第3の実施形態》
第3の実施形態の音評価AIシステム1B(図14参照)は、所望の聴感実験結果を得られると予測される新たな音の物理量を推定する。そして、音評価AIシステム1Bは、主観評価から時間-周波数情報を推定するニューラルネットを作り、時間-周波数情報から位相を推定し、その両者から音の時系列信号(物理量)を作る。
図14は、第3の実施形態における音評価AIシステム1Bの構成図である。
音評価AIシステム1Bは、音の主観評価から時間−周波数情報の学習・推定を行う時間−周波数情報推定部13Bと、制御部12と、位相推定部18と、時系列信号変換部19とを備える。制御部12は、この時間−周波数情報推定部13Bを教師データによって学習させる。
時間−周波数情報推定部13Bは、主観評価と被験者プロフィールとカテゴリーから時間−周波数情報を推定する推定手段である。時間−周波数情報推定部13Bは、全結合層16と畳み込み層14を備え、時間−周波数情報を生成するニューラルネットとして構成される。
なお時間−周波数情報推定部13Bは、回帰式に限られずクラス分類器による処理を行ってもよい。
時間−周波数情報推定部13Bは、制御部12により制御されて、トレーニング処理と推定処理のうちいずれかを実行する。トレーニング処理は、予め採取した複数の音の主観評価と被験者プロフィールとカテゴリーから、音の時間−周波数情報44を推定できるよう、畳み込みニューラルネットをトレーニングする処理である。
以下、時間−周波数情報推定部13Bに、特徴マップとして音の主観評価が入力された際の各部動作を説明する。
畳み込み層14では、入力された音の主観評価に対して複数種の重みを持ったフィルタ演算が行われる。畳み込み層14で算出された値は、活性化関数で変換される。
全結合層16は、線形変換と、活性化関数における非線形変換を繰り返すことにより、音の時間−周波数情報44(物理量)を算出するものである。
位相推定部18は、時間−周波数情報から音の位相を推定するものである。
時系列信号変換部19は、時間−周波数情報と、位相推定部18が推定した音の位相とを時系列信号45に変換するものである。
図15は、主観評価から時間−周波数情報を推定するためのトレーニング処理を示すフローチャートである。
制御部12は、不図示の上位装置からトレーニング処理の指示を受けると、ステップS60の処理を開始する。
制御部12は、時間−周波数情報推定部13Bが備える畳み込みニューラルネットの内部変数を初期化する(S60)。ステップS61において、ユーザは、音のカテゴリーと、所望の被験者プロフィールを音評価AIシステム1Bに入力する。なお、被験者プロフィールはオプションであり、必ずしも入力する必要はない。
制御部12は、被験者のプロフィールが入力されたか否かを判定する(S62)。
被験者のプロフィールが入力されていないならば(No)、制御部12は、カテゴリーに属する既知の各音の主観評価を入力し(S63)、ステップS65に進む。
被験者のプロフィールが入力されていたならば(Yes)、制御部12は、カテゴリーに属する既知の各音につき、ステップS61で入力されたプロフィールの被験者による各主観評価を入力し(S64)、ステップS65に進む。
ステップS65において、時間−周波数情報推定部13Bが出力する各時間−周波数情報と主観評価に係る各音の時間−周波数情報の平均との誤差を求める。
ステップS66において、制御部12は、誤差が収束したか否かを判定する。誤差が収束していないならば(No)、制御部12は、誤差が小さくなるように時間−周波数情報推定部13Bの内部変数を変更し、ステップS65の処理に戻る。誤差が収束したならば(Yes)、制御部12は、ステップS68の処理に進む。
ステップS68において、制御部12は、被験者のプロフィールが入力されていたか否かを判定する。被験者のプロフィールが入力されていたならば(Yes)、制御部12は、学習済みのニューラルネットの内部変数を被験者のプロフィールおよびカテゴリーと関連付けて記憶部10に記憶し(S69)、図15の処理を終了する。被験者のプロフィールが指定されていなかったならば(No)、制御部12は、学習済みのニューラルネットの内部変数を被験者全体およびカテゴリーと関連付けて記憶部10に記憶し(S70)、図15の処理を終了する。
図16は、主観評価を入力した際の時間−周波数情報の推定処理を示すフローチャートである。
ユーザは、新たな主観評価とカテゴリーと被験者のプロフィール(オプション)を入力する(S80)。その後、制御部12は、ユーザによって被験者プロフィールが入力されているか否かを判定する(S81)。
被験者プロフィールが入力されていないならば(No)、制御部12は、新たな主観評価を、カテゴリーに対応する時間−周波数情報推定部13Bに入力する(S82)。更に制御部12は、主観評価に対する時間−周波数情報の推定値を得て(S83)、ステップS86の処理に進む。
被験者プロフィールが入力されていたならば(Yes)、制御部12は、新たな主観評価を、カテゴリーと被験者のプロフィールに対応する時間−周波数情報推定部13Bに入力する(S84)。更に制御部12は、主観評価に対する時間−周波数情報の推定値を得て(S85)、ステップS86の処理に進む。
ステップS86において、位相推定部18は、時間−周波数情報の推定値から位相を推定する。更に時系列信号変換部19は、時間−周波数情報の推定値と位相から、時系列信号を作成し(S87)、図16の処理を終了する。
このように処理することで、音評価AIシステム1Bは、所望の聴感実験結果を得られると予測される新たな音の物理量を推定することができ、その音の時系列信号を作成することができる。これにより、所望の主観評価が得られると予測される音の時系列信号を作成できるので、ユーザは、音の発生源である機器をどのように修正すべきかが明確になる。
(変形例)
本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲で、変更実施が可能であり、例えば、次の(a)〜(c)のようなものがある。
(a) 推定に寄与した部分を可視化する手法は、Grad-CAM手法に限定されず、任意の手法であってもよい。
(b) 推定部の構成は、上記実施形態に記載したものに限定されない。
(c) 解析部が音を解析して出力する物理量は、時間−周波数情報であるスペクトログラムに限定されず、例えばラウドネス、シャープネス、ラウドネスの時系列、シャープネスの時系列など、任意のものであってもよい。
1,1A,1B 音評価AIシステム
11 解析部
12 制御部
13,13A 推定部 (推定手段)
13B 時間−周波数情報推定部 (推定手段)
14 畳み込み層
15 GAP
16 全結合層
17 シミュレータ部 (再現手段)
18 位相推定部
19 時系列信号変換部
2 音評価データベース (データベース)
31 聴感実験ツール
32 聴感実験
41 物理量
42 被験者プロフィール
43 カテゴリー
44 時間−周波数情報
45 時系列信号
50 主観評価
6 操作強度調整部 (調整手段)
61 調整ユーザインタフェース画面

Claims (8)

  1. 既知の音、および、所定プロフィールを有する被験者による前記音の主観評価を格納するデータベースと、
    前記データベースに基づき、前記音から前記所定プロフィールを有する被験者による前記主観評価を推定するトレーニングを行ったのち、未知の音から前記所定プロフィールを有する被験者による主観評価を推定する推定手段と、
    を備えることを特徴とする音評価AIシステム。
  2. 音を解析して物理量を出力する解析手段を更に備え、
    前記推定手段は、前記音を解析した物理量から前記主観評価を推定するトレーニングを行ったのち、未知の音を解析した物理量から主観評価を推定する、
    ことを特徴とする請求項1に記載の音評価AIシステム。
  3. 前記解析手段は、音の時系列波形を解析した時間−周波数マップ、ラウドネス、シャープネス、ラウドネスの時系列、シャープネスの時系列のうちいずれかを物理量として出力する、
    ことを特徴とする請求項2に記載の音評価AIシステム。
  4. 前記推定手段は、畳み込み層とグローバルアベレージプーリングと全結合層を備える畳み込みニューラルネットとして構成されている、
    ことを特徴とする請求項1に記載の音評価AIシステム。
  5. 前記推定手段は、主観評価に寄与する感度が高い物理量の空間範囲を特定する機能を有しており、
    前記空間範囲の物理量を調整する調整手段と、
    前記調整手段が調整した前記物理量から音の時系列信号を再現する再現手段と、
    を更に備えることを特徴とする請求項1に記載の音評価AIシステム。
  6. 既知の音、および、所定プロフィールを有する被験者による前記音の主観評価を格納するデータベースを備えるコンピュータに、
    前記データベースに基づき、前記音から前記所定プロフィールを有する被験者による前記主観評価を推定するトレーニングをニューラルネットに行わせる工程、
    未知の音から前記所定プロフィールを有する被験者による主観評価を推定する工程、
    を実行させるための音評価AIプログラム。
  7. 既知の音、および、被験者による前記音の主観評価を格納するデータベースと、
    前記データベースに基づき、前記被験者による主観評価から前記音を推定するトレーニングを行ったのち、主観評価から音を推定する推定手段、
    を備えることを特徴とする音評価AIシステム。
  8. 既知の音、および、被験者による前記音の主観評価を格納するデータベースを備えるコンピュータに、
    前記データベースに基づき、前記主観評価から前記音を推定するトレーニングをニューラルネットに行わせる工程、
    入力された主観評価から音を推定する工程、
    を実行させるための音評価AIプログラム。
JP2018231884A 2018-12-11 2018-12-11 音評価aiシステム、および、音評価aiプログラム Active JP6684339B1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2018231884A JP6684339B1 (ja) 2018-12-11 2018-12-11 音評価aiシステム、および、音評価aiプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018231884A JP6684339B1 (ja) 2018-12-11 2018-12-11 音評価aiシステム、および、音評価aiプログラム

Publications (2)

Publication Number Publication Date
JP6684339B1 JP6684339B1 (ja) 2020-04-22
JP2020095123A true JP2020095123A (ja) 2020-06-18

Family

ID=70286706

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018231884A Active JP6684339B1 (ja) 2018-12-11 2018-12-11 音評価aiシステム、および、音評価aiプログラム

Country Status (1)

Country Link
JP (1) JP6684339B1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023054313A1 (ja) * 2021-09-29 2023-04-06 国立研究開発法人理化学研究所 異常音判定方法、異常音判定プログラム及び異常音判定システム

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112530455A (zh) * 2020-11-24 2021-03-19 东风汽车集团有限公司 基于mfcc的汽车关门声品质评价方法及评价系统
CN114220455A (zh) * 2021-12-15 2022-03-22 东风汽车集团股份有限公司 一种车辆关门声品质评价方法及系统
JP7329640B1 (ja) * 2022-02-18 2023-08-18 株式会社小野測器 サウンドデザインシステム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023054313A1 (ja) * 2021-09-29 2023-04-06 国立研究開発法人理化学研究所 異常音判定方法、異常音判定プログラム及び異常音判定システム

Also Published As

Publication number Publication date
JP6684339B1 (ja) 2020-04-22

Similar Documents

Publication Publication Date Title
JP6684339B1 (ja) 音評価aiシステム、および、音評価aiプログラム
JP7006585B2 (ja) 情報処理装置及び情報処理方法
JP2020509498A5 (ja)
Daly A visual model for optimizing the design of image processing algorithms
KR20070027537A (ko) 의지발현 모델장치, 심리효과 프로그램, 의지발현시뮬레이션방법
Gauthier et al. Sound quality prediction based on systematic metric selection and shrinkage: Comparison of stepwise, lasso, and elastic-net algorithms and clustering preprocessing
CN105448305A (zh) 语音处理装置和语音处理方法
de Jong et al. A common dynamic prior for time in duration discrimination
KR20160135451A (ko) 학과계열 선정 시스템 및 그 방법
US20140272883A1 (en) Systems, methods, and apparatus for equalization preference learning
US11152122B2 (en) System and method for evaluating vascular risks
Zhang Voice feature selection to improve performance of machine learning models for voice production inversion
van Mastrigt et al. Pitfalls in quantifying exploration in reward-based motor learning and how to avoid them
CN117041847B (zh) 用于助听器中自适应传声器匹配方法及系统
Botteldooren et al. Triangulation as a tool in soundscape research
Khanna et al. TQM modeling of the automobile manufacturing sector: a system dynamics approach
Albohn et al. A data-driven, hyper-realistic method for visualizing individual mental representations of faces
Li et al. A neural network model for speech intelligibility quantification
JPWO2019235608A1 (ja) 分析装置、分析方法およびプログラム
CN114052675B (zh) 一种基于融合注意力机制的脉搏异常判别方法及系统
Hossain Rethinking self-reported measure in subjective evaluation of assistive technology
JP6964722B1 (ja) サービス評価システム
Raza et al. A new pair of watchful eyes for students in online courses
Kim et al. A sensory control system for adjusting group emotion using Bayesian networks and reinforcement learning
de-la-Fuente-Valentín et al. A4Learning--A Case Study to Improve the User Performance: Alumni Alike Activity Analytics to Self-Assess Personal Progress

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191217

A871 Explanation of circumstances concerning accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A871

Effective date: 20191223

A975 Report on accelerated examination

Free format text: JAPANESE INTERMEDIATE CODE: A971005

Effective date: 20191224

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20200324

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20200327

R150 Certificate of patent or registration of utility model

Ref document number: 6684339

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250