JP2020095123A

JP2020095123A - 音評価ａｉシステム、および、音評価ａｉプログラム

Info

Publication number: JP2020095123A
Application number: JP2018231884A
Authority: JP
Inventors: 莉紗 ▲高▼橋; Risa Takahashi; 太郎笠原; Taro Kasahara; 一行西村; Kazuyuki Nishimura; 宏知鈴木; Hirotomo Suzuki; 康二石田; Koji Ishida
Original assignee: Ono Sokki Co Ltd
Current assignee: Ono Sokki Co Ltd
Priority date: 2018-12-11
Filing date: 2018-12-11
Publication date: 2020-06-18
Anticipated expiration: 2038-12-11
Also published as: JP6684339B1

Abstract

【課題】入力したプロフィールに係る各被験者が感じると思われる主観量を推定する。【解決手段】音評価ＡＩシステム１は、既知の音、および、所定プロフィールを有する被験者による前記音の主観評価を格納する音評価データベース２と、音評価データベース２に基づき、音から所定プロフィールを有する被験者による主観評価を推定するトレーニングを行ったのち、未知の音から所定プロフィールを有する被験者による主観評価を推定する推定部を備える。この推定部は、畳み込みニューラルネットとして構成される゜【選択図】図１

Description

本発明は、音の主観評価を推定するための音評価ＡＩシステム、および、音評価ＡＩプログラムに関する。

機器の動作音や振動音について、定量的な計測や解析に加えて、機器の品位を向上させるために、主観的な品質を決定することが行われている。主観的な品質は、機器の動作音や振動音を主観評価（官能評価）することで評価される。
特許文献１には、人の感性によって解釈される物理量を入力し、その主観量をニューラルネットワークによって予測する発明が記載されている。

特開２００６−０９６０２０号公報

特許文献１に記載されている発明では、一対比較に用いた音の全物理量の平均値を入力して、人の感性によってこの音を解釈した主観量を予測している。しかし、特許文献１に記載の発明では、被験者のプロフィールごとに主観量が異なることは何ら想定されていない。よって、特許文献１には、被験者のプロファイルを考慮してデータを選別することや、プロファイル別の傾向を予測することについては、何ら記載されていない。
また、主観と音の物理量の関係は、平均値だけで説明できない場合がある。このような場合に対処するため、特徴量に時間情報を含めることが必要である。
更に特許文献１では、平均値からのずれによる優劣の確率の変化を最大確率となる１点として推定しており、例えば音の物理量の平均値を入力した場合の不快確率は０．５として計算している。しかし、実際には被験者は複数であり、満場一致なのか意見が２つに割れるのか、みんなバラバラなのかわからない。つまり、主観評価結果は１点ではなく所定の分布をとることが想定されるため、このような分布を計算する方法が望まれている。

そこで、本発明は、入力したプロフィールに係る各被験者が感じると思われる主観量を推定することを課題とする。

上記目的を達成するため、音評価ＡＩシステムは、既知の音、および、所定プロフィールを有する被験者による前記音の主観評価を格納するデータベースと、前記データベースに基づき、前記音から前記所定プロフィールを有する被験者による前記主観評価を推定するトレーニングを行ったのち、未知の音から前記所定プロフィールを有する被験者による主観評価を推定する推定手段と、を備えることを特徴とする。

音評価ＡＩプログラムは、既知の音、および、所定プロフィールを有する被験者による前記音の主観評価を格納するデータベースを備えるコンピュータに、前記データベースに基づき、前記音から前記所定プロフィールを有する被験者による前記主観評価を推定するトレーニングをニューラルネットに行わせる工程、未知の音から前記所定プロフィールを有する被験者による主観評価を推定する工程、を実行させる。

音評価ＡＩシステムは、既知の音、および、被験者による前記音の主観評価を格納するデータベースと、前記データベースに基づき、前記被験者による主観評価から前記音を推定するトレーニングを行ったのち、主観評価から音を推定する推定手段、を備えることを特徴とする。

音評価ＡＩプログラムは、既知の音、および、被験者による前記音の主観評価を格納するデータベースを備えるコンピュータに、前記データベースに基づき、前記主観評価から前記音を推定するトレーニングをニューラルネットに行わせる工程、入力された主観評価から音を推定する工程、を実行させる。

本発明によれば、入力したプロフィールに係る各被験者が感じると思われる主観量を推定することが可能となる。

音評価ＡＩシステムの概略の構成と動作を示す図である。第１の実施形態における音評価ＡＩシステムの構成図である。音評価ＡＩシステムのトレーニング処理を示すフローチャートである。音評価ＡＩシステムに未知の音を入力した際の主観評価の推定処理を示すフローチャートである。時系列の音情報を示すグラフである。時間−周波数で解析したスペクトログラムである。主観評価の推定結果を示したグラフである。第２の実施形態における音評価ＡＩシステムの構成図である。主観評価の推定に寄与した物理量の推定処理を示すフローチャートである。時系列の音情報を示すグラフである。感度の高い部位を可視化したスペクトログラムである。シミュレータ部による処理を示すフローチャートである。調整画面の例である。第３の実施形態における音評価ＡＩシステムの構成図である。主観評価から時間−周波数情報を推定するためのトレーニング処理を示すフローチャートである。主観評価を入力した際の時間−周波数情報の推定処理を示すフローチャートである。

以降、本発明を実施するための形態を、各図を参照して詳細に説明する。
図１は、音評価ＡＩ（Artificial Intelligence）システム１の概略の構成と動作を示す図である。
この音評価ＡＩシステム１は、クラウドサーバ上で動作するプログラムとして構成されており、ＰＣやスマートフォンからネットワーク経由でアクセス可能である。これにより、ＰＣやスマートフォン上のブラウザで操作と結果表示とが可能となる。
音評価ＡＩシステム１は、ユーザが製造する機器の品位を所望のものとするため、例えば機器の動作音などの主観評価を予測したり、その主観評価結果が所望のものとなる動作音を提示するものである。

音評価ＡＩシステム１は、音の物理量４１を入力すると、音の物理量４１が属するカテゴリー４３を判断し、主観評価５０を予測して出力するシステムである。なお、音評価ＡＩシステム１は、音の物理量４１に加えて、カテゴリー４３を入力して、主観評価を高精度に予測したり、被験者プロフィール４２を入力して、この被験者プロフィール４２に属する被験者が感じる主観評価を予測して出力してもよい。

ここで音の物理量４１とは、例えば音の時系列情報である。被験者プロフィール４２とは、音を主観評価した被験者のプロフィールであり、例えば職種、年代、性別、国籍、生活地域などをいう。カテゴリー４３とは、音の分類であり、例えば「ドア閉め音」、「シフトレバー操作音」、「エンジン音」などである。

音評価データベース２には、聴感実験ツール３１や聴感実験３２の結果である音の主観評価と、音源から解析された物理量、主観評価と物理量との関係、各主観評価を行った被験者のプロフィール情報などのデータが格納されている。

聴感実験３２は、被験者が音を主観評価する実験である。聴感実験３２には、調整法、極限法、恒常法、マグニチュード推定（ＭＥ）法、評定尺度法、一対比較法、セマンティック・ディファレンシャル（ＳＤ）法、カテゴリー連続判断法、時系列データ評価などがある。これらの手法で観測される主観評価５０は、いずれも連続値や離散値、またはそれらが時々刻々と変化する時系列情報として得られる。音評価ＡＩシステム１は、音の物理量４１から回帰や分類により、主観評価５０、またはそれが時間と共に遷移する時系列情報を機械学習し、未知（未学習）の音から評価を予測する予測器を構成する。
聴感実験ツール３１は、聴感実験３２の工程の一部を自動化するアプリケーションプログラムである。

音評価データベース２には、音源情報と、音の主観評価と、音源から解析した物理量と、主観評価を判断した被験者のプロフィール情報が格納されている。これら音評価データベース２に格納された各種データは、音評価ＡＩシステム１が機械学習するための教師データとして用いられる。音評価データベース２は、クラウド上のサーバに保存・管理されており、ユーザの権限に応じて利用可能である。

音評価ＡＩシステム１は、複数の音の物理量と、これら複数の音に対する主観評価（聴感実験の結果）を教師データとして機械学習し、未知（未学習）の音から主観評価を予測できるようにする。以下、この主観評価５０を予測する動作について、後記する第１の実施形態で説明する。

音評価ＡＩシステム１は、主観評価５０の予測に寄与した物理量を推定する。主観評価５０の予測に寄与した物理量の推定については、後記する第２の実施形態で説明する。

更に音評価ＡＩシステム１は、聴感実験の所望の主観評価を得られると予測される新たな音を生成する。この新たな音の生成については、後記する第３の実施形態で説明する。

《第１の実施形態》
図２は、第１の実施形態の音評価ＡＩシステム１の構成図である。
音評価ＡＩシステム１は、音の物理量を解析する解析部１１と、音の主観評価の学習・推定を行う推定部１３と、この推定部１３を教師データによって学習させる制御部１２と、学習済みのニューラルネットの内部変数を被験者プロフィールおよびカテゴリーと関連付けて記憶する記憶部１０とを備える。

解析部１１は、音の時系列信号を入力として、音の物理量を解析して出力する解析手段である。解析部１１は、例えば短時間フーリエ変換により、音の時間−周波数特徴量（スペクトログラムの数値またはその画像）を抽出して出力する。なお、これに限られず、ラウドネス、シャープネスおよびこれらの時間トレンドであるラウドネスの時系列情報やシャープネスの時系列情報等、人間の聴覚に合わせた詳細な解析結果を物理量としてもよい。なお、音評価ＡＩシステム１は、解析部１１をスルーして推定部１３に音の時系列信号をそのまま流してもよい。

推定部１３は、解析部１１から渡される物理量または音の時系列信号から主観評価を推定する推定手段である。推定部１３は、畳み込み層１４、ＧＡＰ（Global Average Pooling）１５、全結合層１６を備え、回帰を行う畳み込みニューラルネットとして構成される。なお推定部１３は、回帰式に限られずクラス分類器による処理を行ってもよい。

推定部１３は、制御部１２により制御されて、トレーニング処理と推定処理のうちいずれかを実行する。トレーニング処理は、音の物理量または音の時系列信号から主観評価を推定できるよう、畳み込みニューラルネットをトレーニングする処理である。このトレーニング処理では、予め採取した複数の音の時系列信号と、それに対応する複数人数から採取した主観評価とが教師データとして用いられる。

以下、推定部１３に、入力として音の時間−周波数特徴量の画像が入力された際の各部動作を説明する。
畳み込み層１４では、入力された特徴マップに対して複数種の重みを持ったフィルタ演算が行われる。畳み込み層１４で算出された値は、活性化関数で変換される。活性化関数には、ロジスティクス関数、逆正接関数、ＲｅＬＵ（Rectified Linear Unit）などがある。

ＧＡＰ１５は、畳み込み層１４から出力される特徴マップの平均値を出力する。例えば、６４×３２の特徴マップを３枚（３ｃｈ）出力する畳み込み層１４の後にＧＡＰ１５を入れると、ＧＡＰ１５は、３枚の各特徴マップの平均値を出力する。

このＧＡＰ１５は、２次元画像の各画素における画素から主観評価がいずれであるかのクラス分類結果を出力する。ＧＡＰ１５は、全結合層１６を減らし、パラメータ数を削減することができ、判定結果が「音の出現位置の違い」の影響を受けにくくなる。例えば、１秒後にドア閉め音が聞こえた時と、１．５秒後に聞こえた時の主観評価の推定結果を同様とする場合、畳み込み層１４の直後に全結合層１６を置くよりも、ＧＡＰ１５を経由した方が「音の出現位置の違い」による推定値のばらつきが小さくなる。
全結合層１６は、線形変換と、活性化関数における非線形変換を繰り返すことにより、主観評価を算出するものである。
更に、推定部１３に、入力として音の時間−周波数特徴量の数値が入力された際の各部動作を説明する。この音の時間−周波数特徴量の数値は時系列の情報であり、２次元の特徴量として畳み込み層１４に入力される。ＧＡＰ１５は、畳み込み層１４から出力される特徴マップの平均値を出力する。このＧＡＰ１５は、２次元の特徴マップの各要素から主観評価がいずれであるかのクラス分類結果を出力する。全結合層１６は、線形変換と、活性化関数における非線形変換を繰り返すことにより、主観評価を算出する。

なお、推定部１３に対して評価項目や被験者のプロフィールを指定して、推定値を取得することも可能である。被験者のプロフィールとは、職種、年代、性別、国籍、生活地域などをいう。評価項目とは、評価語（形容詞対など）、物理値（閾値となるレベルなど）などをいう。所望の評価項目の主観評価とは、指定したカテゴリーに属する音を、指定したプロフィールを持つ被験者が評価した主観評価のことをいう。

畳み込み層１４は、並列に構成する場合もある。また、畳み込み層１４は、音の時系列信号に対して１次元の畳み込みを行ってもよい。

図３は、音評価ＡＩシステム１のトレーニング処理を示すフローチャートである。
制御部１２は、不図示の上位装置からトレーニング処理の指示を受けると、ステップＳ１０の処理を開始する。
制御部１２は、推定部１３が備える畳み込みニューラルネットの内部変数を初期化する（Ｓ１０）。ステップＳ１１において、ユーザは、所望の音のカテゴリーと、所望の被験者プロフィールを音評価ＡＩシステム１に入力する。なお、被験者プロフィールはオプションであり、必ずしも入力する必要はない。

制御部１２は、カテゴリーに属する既知の音を解析して入力すると（Ｓ１２）、被験者のプロフィールが入力されたか否かを判定する（Ｓ１３）。
被験者のプロフィールが入力されていたならば（Ｙｅｓ）、制御部１２は、推定部１３が出力する各主観評価と、所望のプロフィールを有する被験者による各音の主観評価の平均との誤差を求め（Ｓ１４）、ステップＳ１６の処理に進む。被験者のプロフィールが入力されていなかったならば（Ｎｏ）、制御部１２は、推定部１３が出力する主観評価と被験者全体による各音の主観評価の平均との誤差を求め（Ｓ１５）、ステップＳ１６の処理に進む。

ステップＳ１６において、制御部１２は、誤差が収束したか否かを判定する。誤差が収束していないならば（Ｎｏ）、制御部１２は、誤差が小さくなるように推定部１３（畳み込みニューラルネット）の内部変数を変更し、ステップＳ１２の処理に戻る。誤差が収束したならば（Ｙｅｓ）、制御部１２は、ステップＳ１８の処理に進む。

ステップＳ１８において、制御部１２は、被験者のプロフィールが入力されていたか否かを判定する。被験者のプロフィールが入力されていたならば（Ｙｅｓ）、制御部１２は、学習済みのニューラルネットの内部変数を被験者プロフィールおよびカテゴリーと関連付けて記憶部１０に記憶し（Ｓ１９）、図３の処理を終了する。被験者のプロフィールが入力されていなかったならば（Ｎｏ）、制御部１２は、学習済みのニューラルネットの内部変数を被験者全体およびカテゴリーと関連付けて記憶部１０に記憶し（Ｓ２０）、図３の処理を終了する。

図４は、音評価ＡＩシステム１に未知の音を入力した際の主観評価の推定処理を示すフローチャートである。推定処理とは、未知の音信号を入力として、その音信号の主観評価を推定する処理であり、図３のトレーニング処理の後に実行可能となる。

最初に制御部１２は、不図示の表示部に表紙を表示する（Ｓ３０）。ここで表紙とは、この音評価ＡＩシステムの起動画面であり、例えばシステム名称や操作のヒントなどが表示される。
ユーザは、この音評価ＡＩシステムに未知の音を入力し（Ｓ３１）、実験手法と音のカテゴリーと被験者プロフィール（オプション）を入力する（Ｓ３２）。ここでいう実験手法は、調整法、極限法、恒常法、マグニチュード推定（ＭＥ）法、評定尺度法、一対比較法、セマンティック・ディファレンシャル（ＳＤ）法、カテゴリー連続判断法、時系列データ評価などである。
解析部１１は、音を解析して物理量を算出する（Ｓ３３）。制御部１２は、ユーザによって被験者プロフィールが入力されているか否かを判定する（Ｓ３４）。

ステップＳ３４において、被験者プロフィールが入力されていないならば（Ｎｏ）、制御部１２は、未知の音の物理量を、カテゴリーに対応する推定部１３に入力し（Ｓ３５）。推定部１３は、未知の音の主観評価を推定する（Ｓ３９）。なお、カテゴリーに対応する推定部１３とは、推定部１３を、カテゴリーに属する複数の音とその主観評価の組み合わせでトレーニングしたもののことである。制御部１２は、図３のステップＳ２０で記憶した学習済みのニューラルネットの内部変数を、再びニューラルネットに設定し、推定部１３をカテゴリーに対応させる。
制御部１２は更に、入力されたカテゴリーにおける主観評価を出力し（Ｓ３７）、図４の処理を終了する。

ステップＳ３４において、被験者プロフィールが入力されているならば（Ｙｅｓ）、制御部１２は、未知の音の物理量をカテゴリーと被験者プロフィールに対応する推定部１３に入力する（Ｓ３８）。なお、カテゴリーと被験者プロフィールに対応する推定部１３とは、推定部１３を、カテゴリーに属する複数の音と、所定プロフィールの被験者による主観評価との組み合わせでトレーニングしたもののことである。制御部１２は、図３のステップＳ１９で記憶した学習済みのニューラルネットの内部変数を再びニューラルネットに設定し、推定部１３をカテゴリーと被験者プロフィールに対応させる。
推定部１３は、被験者プロフィールにおける未知の音の主観評価を推定する（Ｓ３９）。制御部１２は、入力されたカテゴリーと被験者プロフィールにおける主観評価を出力し（Ｓ４０）、図４の処理を終了する。

図５は、時系列の音情報を示すグラフである。グラフの縦軸は、振幅を示し、横軸は時間を示している。このグラフに示す音情報は、車両のドア閉め音の時系列情報である。

図６は、時間−周波数で解析した音の時間周波数マップの画像である。
この音の時間周波数マップの縦軸は周波数を示し、横軸は時間を示しており、濃度で信号成分の強さを示している。推定部１３への入力は、音の時間周波数マップに対応するスペクトログラムの数値であるが、図６に示す音の時間周波数マップの画像であってもよい。

図７は、評定尺度法による主観評価の推定結果を示したグラフである。
横軸は、被験者による主観評価を示している。縦軸は、音評価ＡＩシステム１による主観評価を示している。
グラフの黒点は、被験者による既知の音の評定尺度法の主観評価と、これをトレーニングした音評価ＡＩシステム１による主観評価の推定値との関係を示している。トレーニングにより、黒点は所定の比例関係となる。

グラフの白点は、被験者による未知の音の評定尺度法の主観評価と、未知の音に対して音評価ＡＩシステム１が推定した主観評価との関係を示している。このように、音評価ＡＩシステム１がトレーニングしていない未知の音であっても、所定の誤差範囲で主観評価を推定できている。

《第２の実施形態》
畳み込みニューラルネットワークについて、推定に寄与した部分を可視化する手法がいくつか提案されている。ここでは画像分類の可視化に有力なGrad-CAM手法をスペクトログラムに転用する例を示す。なお、Grad-CAM手法については、Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batraらの著作である“Visual Explanations from Deep Networks via Gradient-based Localization”の論文に記載されている。(URL:https://arxiv.org/abs/1610.02391)

第２の実施形態の音評価ＡＩシステム１Ａ（図８参照）は、解析部１１と推定部１３Ａを用いて、実験結果に寄与した物理量を推定する。なお、推定部１３Ａ（図８参照）は、トレーニング処理済のものである。実験結果に寄与した物理量の推定結果は、例えばスペクトログラム上に示される。更に、音評価ＡＩシステム１Ａは、寄与度の高い物理量を増減させた音をシミュレートすることができる。

図８は、第２の実施形態における音評価ＡＩシステム１Ａの構成図である。
第２の実施形態の音評価ＡＩシステム１Ａは、図２に示した推定部１３とは異なる推定部１３Ａを備え、更にシミュレータ部１７と操作強度調整部６を備えている。それ以外の構成は、図２に示した音評価ＡＩシステム１と同様である。

推定部１３Ａは、推定した主観評価５０と、この主観評価５０の推定に寄与した物理量とを出力する推定手段である。操作強度調整部６は、解析部１１が解析した音の物理量のうち、主観評価５０の推定に寄与した物理量の範囲をユーザに調整させる調整手段である。

シミュレータ部１７は、操作強度調整部６によってユーザが調整した物理量に基づき、新たな音の時系列信号を再現する再現手段である。シミュレータ部１７が生成した新たな音は、再び解析部１１に入力されて、推定部１３Ａにより主観評価が推定される。

図９は、主観評価の推定に寄与した物理量の推定処理を示すフローチャートである。
制御部１２は、推定部１３Ａに未知の音の物理量を入力する（Ｓ９０）。推定部１３Ａは、この未知の音に対する主観評価を推定する（Ｓ９１）。

ステップＳ９２〜Ｓ９７は、推定部１３Ａが行うGRAD-CAMの計算処理である。
ステップＳ９２〜Ｓ９５において、推定部１３Ａは、畳み込み層１４の最終段における全ての特徴マップについて処理を繰り返す。

推定部１３Ａは、畳み込み層１４の最終段における全特徴マップの全要素について、主観量スコアの微分（勾配）をとり（Ｓ９３）、各特徴マップについて主観量スコアの微分の平均値を算出する（Ｓ９４）。つまり、勾配の平均値は、その特徴マップの判定結果に対する影響度として用いられている。推定部１３Ａは更に、各特徴マップを主観量スコアの微分の平均値で重み付けする（Ｓ９５）。

ステップＳ９６において、推定部１３Ａは、畳み込み層１４の最終段における特徴マップのうち未処理のものがあれば、ステップＳ９２に戻る。推定部１３Ａは、畳み込み層１４の最終段における全ての特徴マップについて処理したならば、ステップＳ９７に進む。
推定部１３Ａは、重み付けした全特徴マップの平均を算出する（Ｓ９７）。次に操作強度調整部６は、平均した全特徴マップを時間−周波数グラフに重ねて描く。
このように動作することで推定部１３Ａは、主観評価に寄与する感度が高い物理量の空間範囲を特定することができる。

図１０は、時系列の音情報を示すグラフである。
グラフの縦軸は、振幅を示し、横軸は時間を示している。この音情報は、車両のドア閉め音である。

図１１は、感度の高い部位を可視化したスペクトログラムである。
このスペクトログラムにおいて所定明度よりも明るい部分は、主観量の推定において感度の高い部分を示している。

図１２は、操作強度調整部６やシミュレータ部１７による処理を示すフローチャートである。
推定部１３Ａは、スペクトログラム上で寄与度の高い時間周波数帯を特定する（Ｓ５０）。次に操作強度調整部６は、スペクトログラムのうち、特定した時間周波数帯の振幅をユーザに増減させる（Ｓ５１）。なお、振幅の増減および時間周波数上の加工範囲は、調整ユーザインタフェース画面６１（図１３参照）を提供し微調整可能とする。
その後、シミュレータ部１７は、逆短時間フーリエ変換により、スペクトログラムから新たな音の時系列信号を作成する（Ｓ５２）。これと並行して、推定部１３Ａは、調整したスペクトログラムから主観評価を推定し（Ｓ５３）、図１２の処理を終了する。

図１３は、調整ユーザインタフェース画面６１の例である。
調整ユーザインタフェース画面６１は、スペクトログラム上にGrad-CAM法によるヒートマップが重畳表示されている。この調整ユーザインタフェース画面６１上の白色の部分に、ヒートマップが重畳表示されている。
主観量の推定において感度の高い領域の上下には、２個の三角形のオブジェクトが対向している。ここでは、感度の高い領域が２つ有るため、対向する２個の三角形のオブジェクトが、それぞれの領域の上下に配置されている。

対向する２個の三角形のオブジェクトのうち上側には “＋”が表示され、下側には、“−”が表示されている。ユーザが上側のオブジェクトをクリックするごとに、感度の高い領域に対して所定の物理量だけ加算される。ユーザが下側のオブジェクトをクリックするごとに、感度の高い領域に対して所定の物理量だけ減算される。ここではスペクトログラムの領域の物理量なので、該当時間の該当周波数の振幅の大きさが加算または減算される。
ユーザが上側のオブジェクトや下側のオブジェクトをドラッグすると、振幅の調整対象となる時間周波数帯（領域）が変更される。

このように動作することで、第２の実施形態の音評価ＡＩシステム１Ａは、音の変更により、所定プロフィールの被験者による主観評価を感度良く変更することができる。

《第３の実施形態》
第３の実施形態の音評価ＡＩシステム１Ｂ（図１４参照）は、所望の聴感実験結果を得られると予測される新たな音の物理量を推定する。そして、音評価ＡＩシステム１Ｂは、主観評価から時間-周波数情報を推定するニューラルネットを作り、時間-周波数情報から位相を推定し、その両者から音の時系列信号（物理量）を作る。

図１４は、第３の実施形態における音評価ＡＩシステム１Ｂの構成図である。
音評価ＡＩシステム１Ｂは、音の主観評価から時間−周波数情報の学習・推定を行う時間−周波数情報推定部１３Ｂと、制御部１２と、位相推定部１８と、時系列信号変換部１９とを備える。制御部１２は、この時間−周波数情報推定部１３Ｂを教師データによって学習させる。

時間−周波数情報推定部１３Ｂは、主観評価と被験者プロフィールとカテゴリーから時間−周波数情報を推定する推定手段である。時間−周波数情報推定部１３Ｂは、全結合層１６と畳み込み層１４を備え、時間−周波数情報を生成するニューラルネットとして構成される。
なお時間−周波数情報推定部１３Ｂは、回帰式に限られずクラス分類器による処理を行ってもよい。

時間−周波数情報推定部１３Ｂは、制御部１２により制御されて、トレーニング処理と推定処理のうちいずれかを実行する。トレーニング処理は、予め採取した複数の音の主観評価と被験者プロフィールとカテゴリーから、音の時間−周波数情報４４を推定できるよう、畳み込みニューラルネットをトレーニングする処理である。

以下、時間−周波数情報推定部１３Ｂに、特徴マップとして音の主観評価が入力された際の各部動作を説明する。
畳み込み層１４では、入力された音の主観評価に対して複数種の重みを持ったフィルタ演算が行われる。畳み込み層１４で算出された値は、活性化関数で変換される。

全結合層１６は、線形変換と、活性化関数における非線形変換を繰り返すことにより、音の時間−周波数情報４４（物理量）を算出するものである。

位相推定部１８は、時間−周波数情報から音の位相を推定するものである。
時系列信号変換部１９は、時間−周波数情報と、位相推定部１８が推定した音の位相とを時系列信号４５に変換するものである。

図１５は、主観評価から時間−周波数情報を推定するためのトレーニング処理を示すフローチャートである。
制御部１２は、不図示の上位装置からトレーニング処理の指示を受けると、ステップＳ６０の処理を開始する。
制御部１２は、時間−周波数情報推定部１３Ｂが備える畳み込みニューラルネットの内部変数を初期化する（Ｓ６０）。ステップＳ６１において、ユーザは、音のカテゴリーと、所望の被験者プロフィールを音評価ＡＩシステム１Ｂに入力する。なお、被験者プロフィールはオプションであり、必ずしも入力する必要はない。

制御部１２は、被験者のプロフィールが入力されたか否かを判定する（Ｓ６２）。
被験者のプロフィールが入力されていないならば（Ｎｏ）、制御部１２は、カテゴリーに属する既知の各音の主観評価を入力し（Ｓ６３）、ステップＳ６５に進む。

被験者のプロフィールが入力されていたならば（Ｙｅｓ）、制御部１２は、カテゴリーに属する既知の各音につき、ステップＳ６１で入力されたプロフィールの被験者による各主観評価を入力し（Ｓ６４）、ステップＳ６５に進む。

ステップＳ６５において、時間−周波数情報推定部１３Ｂが出力する各時間−周波数情報と主観評価に係る各音の時間−周波数情報の平均との誤差を求める。
ステップＳ６６において、制御部１２は、誤差が収束したか否かを判定する。誤差が収束していないならば（Ｎｏ）、制御部１２は、誤差が小さくなるように時間−周波数情報推定部１３Ｂの内部変数を変更し、ステップＳ６５の処理に戻る。誤差が収束したならば（Ｙｅｓ）、制御部１２は、ステップＳ６８の処理に進む。

ステップＳ６８において、制御部１２は、被験者のプロフィールが入力されていたか否かを判定する。被験者のプロフィールが入力されていたならば（Ｙｅｓ）、制御部１２は、学習済みのニューラルネットの内部変数を被験者のプロフィールおよびカテゴリーと関連付けて記憶部１０に記憶し（Ｓ６９）、図１５の処理を終了する。被験者のプロフィールが指定されていなかったならば（Ｎｏ）、制御部１２は、学習済みのニューラルネットの内部変数を被験者全体およびカテゴリーと関連付けて記憶部１０に記憶し（Ｓ７０）、図１５の処理を終了する。

図１６は、主観評価を入力した際の時間−周波数情報の推定処理を示すフローチャートである。
ユーザは、新たな主観評価とカテゴリーと被験者のプロフィール（オプション）を入力する（Ｓ８０）。その後、制御部１２は、ユーザによって被験者プロフィールが入力されているか否かを判定する（Ｓ８１）。

被験者プロフィールが入力されていないならば（Ｎｏ）、制御部１２は、新たな主観評価を、カテゴリーに対応する時間−周波数情報推定部１３Ｂに入力する（Ｓ８２）。更に制御部１２は、主観評価に対する時間−周波数情報の推定値を得て（Ｓ８３）、ステップＳ８６の処理に進む。

被験者プロフィールが入力されていたならば（Ｙｅｓ）、制御部１２は、新たな主観評価を、カテゴリーと被験者のプロフィールに対応する時間−周波数情報推定部１３Ｂに入力する（Ｓ８４）。更に制御部１２は、主観評価に対する時間−周波数情報の推定値を得て（Ｓ８５）、ステップＳ８６の処理に進む。

ステップＳ８６において、位相推定部１８は、時間−周波数情報の推定値から位相を推定する。更に時系列信号変換部１９は、時間−周波数情報の推定値と位相から、時系列信号を作成し（Ｓ８７）、図１６の処理を終了する。

このように処理することで、音評価ＡＩシステム１Ｂは、所望の聴感実験結果を得られると予測される新たな音の物理量を推定することができ、その音の時系列信号を作成することができる。これにより、所望の主観評価が得られると予測される音の時系列信号を作成できるので、ユーザは、音の発生源である機器をどのように修正すべきかが明確になる。

（変形例）
本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲で、変更実施が可能であり、例えば、次の（ａ）〜（ｃ）のようなものがある。

（ａ）推定に寄与した部分を可視化する手法は、Grad-CAM手法に限定されず、任意の手法であってもよい。
（ｂ）推定部の構成は、上記実施形態に記載したものに限定されない。
（ｃ）解析部が音を解析して出力する物理量は、時間−周波数情報であるスペクトログラムに限定されず、例えばラウドネス、シャープネス、ラウドネスの時系列、シャープネスの時系列など、任意のものであってもよい。

１，１Ａ，１Ｂ音評価ＡＩシステム
１１解析部
１２制御部
１３，１３Ａ推定部（推定手段）
１３Ｂ時間−周波数情報推定部（推定手段）
１４畳み込み層
１５ＧＡＰ
１６全結合層
１７シミュレータ部（再現手段）
１８位相推定部
１９時系列信号変換部
２音評価データベース（データベース）
３１聴感実験ツール
３２聴感実験
４１物理量
４２被験者プロフィール
４３カテゴリー
４４時間−周波数情報
４５時系列信号
５０主観評価
６操作強度調整部（調整手段）
６１調整ユーザインタフェース画面

Claims

既知の音、および、所定プロフィールを有する被験者による前記音の主観評価を格納するデータベースと、
前記データベースに基づき、前記音から前記所定プロフィールを有する被験者による前記主観評価を推定するトレーニングを行ったのち、未知の音から前記所定プロフィールを有する被験者による主観評価を推定する推定手段と、
を備えることを特徴とする音評価ＡＩシステム。
音を解析して物理量を出力する解析手段を更に備え、
前記推定手段は、前記音を解析した物理量から前記主観評価を推定するトレーニングを行ったのち、未知の音を解析した物理量から主観評価を推定する、
ことを特徴とする請求項１に記載の音評価ＡＩシステム。
前記解析手段は、音の時系列波形を解析した時間−周波数マップ、ラウドネス、シャープネス、ラウドネスの時系列、シャープネスの時系列のうちいずれかを物理量として出力する、
ことを特徴とする請求項２に記載の音評価ＡＩシステム。
前記推定手段は、畳み込み層とグローバルアベレージプーリングと全結合層を備える畳み込みニューラルネットとして構成されている、
ことを特徴とする請求項１に記載の音評価ＡＩシステム。
前記推定手段は、主観評価に寄与する感度が高い物理量の空間範囲を特定する機能を有しており、
前記空間範囲の物理量を調整する調整手段と、
前記調整手段が調整した前記物理量から音の時系列信号を再現する再現手段と、
を更に備えることを特徴とする請求項１に記載の音評価ＡＩシステム。
既知の音、および、所定プロフィールを有する被験者による前記音の主観評価を格納するデータベースを備えるコンピュータに、
前記データベースに基づき、前記音から前記所定プロフィールを有する被験者による前記主観評価を推定するトレーニングをニューラルネットに行わせる工程、
未知の音から前記所定プロフィールを有する被験者による主観評価を推定する工程、
を実行させるための音評価ＡＩプログラム。
既知の音、および、被験者による前記音の主観評価を格納するデータベースと、
前記データベースに基づき、前記被験者による主観評価から前記音を推定するトレーニングを行ったのち、主観評価から音を推定する推定手段、
を備えることを特徴とする音評価ＡＩシステム。
既知の音、および、被験者による前記音の主観評価を格納するデータベースを備えるコンピュータに、
前記データベースに基づき、前記主観評価から前記音を推定するトレーニングをニューラルネットに行わせる工程、
入力された主観評価から音を推定する工程、
を実行させるための音評価ＡＩプログラム。