JP2020095123A - 音評価aiシステム、および、音評価aiプログラム - Google Patents
音評価aiシステム、および、音評価aiプログラム Download PDFInfo
- Publication number
- JP2020095123A JP2020095123A JP2018231884A JP2018231884A JP2020095123A JP 2020095123 A JP2020095123 A JP 2020095123A JP 2018231884 A JP2018231884 A JP 2018231884A JP 2018231884 A JP2018231884 A JP 2018231884A JP 2020095123 A JP2020095123 A JP 2020095123A
- Authority
- JP
- Japan
- Prior art keywords
- sound
- evaluation
- subject
- subjective
- subjective evaluation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 182
- 238000012549 training Methods 0.000 claims abstract description 25
- 238000013528 artificial neural network Methods 0.000 claims abstract description 16
- 238000004458 analytical method Methods 0.000 claims description 15
- 238000013527 convolutional neural network Methods 0.000 claims description 8
- 230000035945 sensitivity Effects 0.000 claims description 8
- 238000011176 pooling Methods 0.000 claims description 2
- 238000000034 method Methods 0.000 description 68
- 238000013473 artificial intelligence Methods 0.000 description 45
- 230000008569 process Effects 0.000 description 41
- 238000012545 processing Methods 0.000 description 11
- 238000002474 experimental method Methods 0.000 description 8
- 230000006870 function Effects 0.000 description 8
- 238000006243 chemical reaction Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 7
- 230000004913 activation Effects 0.000 description 6
- 238000012074 hearing test Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 238000011157 data evaluation Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Landscapes
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
Description
特許文献1には、人の感性によって解釈される物理量を入力し、その主観量をニューラルネットワークによって予測する発明が記載されている。
また、主観と音の物理量の関係は、平均値だけで説明できない場合がある。このような場合に対処するため、特徴量に時間情報を含めることが必要である。
更に特許文献1では、平均値からのずれによる優劣の確率の変化を最大確率となる1点として推定しており、例えば音の物理量の平均値を入力した場合の不快確率は0.5として計算している。しかし、実際には被験者は複数であり、満場一致なのか意見が2つに割れるのか、みんなバラバラなのかわからない。つまり、主観評価結果は1点ではなく所定の分布をとることが想定されるため、このような分布を計算する方法が望まれている。
図1は、音評価AI(Artificial Intelligence)システム1の概略の構成と動作を示す図である。
この音評価AIシステム1は、クラウドサーバ上で動作するプログラムとして構成されており、PCやスマートフォンからネットワーク経由でアクセス可能である。これにより、PCやスマートフォン上のブラウザで操作と結果表示とが可能となる。
音評価AIシステム1は、ユーザが製造する機器の品位を所望のものとするため、例えば機器の動作音などの主観評価を予測したり、その主観評価結果が所望のものとなる動作音を提示するものである。
聴感実験ツール31は、聴感実験32の工程の一部を自動化するアプリケーションプログラムである。
図2は、第1の実施形態の音評価AIシステム1の構成図である。
音評価AIシステム1は、音の物理量を解析する解析部11と、音の主観評価の学習・推定を行う推定部13と、この推定部13を教師データによって学習させる制御部12と、学習済みのニューラルネットの内部変数を被験者プロフィールおよびカテゴリーと関連付けて記憶する記憶部10とを備える。
畳み込み層14では、入力された特徴マップに対して複数種の重みを持ったフィルタ演算が行われる。畳み込み層14で算出された値は、活性化関数で変換される。活性化関数には、ロジスティクス関数、逆正接関数、ReLU(Rectified Linear Unit)などがある。
全結合層16は、線形変換と、活性化関数における非線形変換を繰り返すことにより、主観評価を算出するものである。
更に、推定部13に、入力として音の時間−周波数特徴量の数値が入力された際の各部動作を説明する。この音の時間−周波数特徴量の数値は時系列の情報であり、2次元の特徴量として畳み込み層14に入力される。GAP15は、畳み込み層14から出力される特徴マップの平均値を出力する。このGAP15は、2次元の特徴マップの各要素から主観評価がいずれであるかのクラス分類結果を出力する。全結合層16は、線形変換と、活性化関数における非線形変換を繰り返すことにより、主観評価を算出する。
制御部12は、不図示の上位装置からトレーニング処理の指示を受けると、ステップS10の処理を開始する。
制御部12は、推定部13が備える畳み込みニューラルネットの内部変数を初期化する(S10)。ステップS11において、ユーザは、所望の音のカテゴリーと、所望の被験者プロフィールを音評価AIシステム1に入力する。なお、被験者プロフィールはオプションであり、必ずしも入力する必要はない。
被験者のプロフィールが入力されていたならば(Yes)、制御部12は、推定部13が出力する各主観評価と、所望のプロフィールを有する被験者による各音の主観評価の平均との誤差を求め(S14)、ステップS16の処理に進む。被験者のプロフィールが入力されていなかったならば(No)、制御部12は、推定部13が出力する主観評価と被験者全体による各音の主観評価の平均との誤差を求め(S15)、ステップS16の処理に進む。
ユーザは、この音評価AIシステムに未知の音を入力し(S31)、実験手法と音のカテゴリーと被験者プロフィール(オプション)を入力する(S32)。ここでいう実験手法は、調整法、極限法、恒常法、マグニチュード推定(ME)法、評定尺度法、一対比較法、セマンティック・ディファレンシャル(SD)法、カテゴリー連続判断法、時系列データ評価などである。
解析部11は、音を解析して物理量を算出する(S33)。制御部12は、ユーザによって被験者プロフィールが入力されているか否かを判定する(S34)。
制御部12は更に、入力されたカテゴリーにおける主観評価を出力し(S37)、図4の処理を終了する。
推定部13は、被験者プロフィールにおける未知の音の主観評価を推定する(S39)。制御部12は、入力されたカテゴリーと被験者プロフィールにおける主観評価を出力し(S40)、図4の処理を終了する。
この音の時間周波数マップの縦軸は周波数を示し、横軸は時間を示しており、濃度で信号成分の強さを示している。推定部13への入力は、音の時間周波数マップに対応するスペクトログラムの数値であるが、図6に示す音の時間周波数マップの画像であってもよい。
横軸は、被験者による主観評価を示している。縦軸は、音評価AIシステム1による主観評価を示している。
グラフの黒点は、被験者による既知の音の評定尺度法の主観評価と、これをトレーニングした音評価AIシステム1による主観評価の推定値との関係を示している。トレーニングにより、黒点は所定の比例関係となる。
畳み込みニューラルネットワークについて、推定に寄与した部分を可視化する手法がいくつか提案されている。ここでは画像分類の可視化に有力なGrad-CAM手法をスペクトログラムに転用する例を示す。なお、Grad-CAM手法については、Ramprasaath R. Selvaraju, Michael Cogswell, Abhishek Das, Ramakrishna Vedantam, Devi Parikh, Dhruv Batraらの著作である“Visual Explanations from Deep Networks via Gradient-based Localization”の論文に記載されている。(URL:https://arxiv.org/abs/1610.02391)
第2の実施形態の音評価AIシステム1Aは、図2に示した推定部13とは異なる推定部13Aを備え、更にシミュレータ部17と操作強度調整部6を備えている。それ以外の構成は、図2に示した音評価AIシステム1と同様である。
制御部12は、推定部13Aに未知の音の物理量を入力する(S90)。推定部13Aは、この未知の音に対する主観評価を推定する(S91)。
ステップS92〜S95において、推定部13Aは、畳み込み層14の最終段における全ての特徴マップについて処理を繰り返す。
推定部13Aは、重み付けした全特徴マップの平均を算出する(S97)。次に操作強度調整部6は、平均した全特徴マップを時間−周波数グラフに重ねて描く。
このように動作することで推定部13Aは、主観評価に寄与する感度が高い物理量の空間範囲を特定することができる。
グラフの縦軸は、振幅を示し、横軸は時間を示している。この音情報は、車両のドア閉め音である。
このスペクトログラムにおいて所定明度よりも明るい部分は、主観量の推定において感度の高い部分を示している。
推定部13Aは、スペクトログラム上で寄与度の高い時間周波数帯を特定する(S50)。次に操作強度調整部6は、スペクトログラムのうち、特定した時間周波数帯の振幅をユーザに増減させる(S51)。なお、振幅の増減および時間周波数上の加工範囲は、調整ユーザインタフェース画面61(図13参照)を提供し微調整可能とする。
その後、シミュレータ部17は、逆短時間フーリエ変換により、スペクトログラムから新たな音の時系列信号を作成する(S52)。これと並行して、推定部13Aは、調整したスペクトログラムから主観評価を推定し(S53)、図12の処理を終了する。
調整ユーザインタフェース画面61は、スペクトログラム上にGrad-CAM法によるヒートマップが重畳表示されている。この調整ユーザインタフェース画面61上の白色の部分に、ヒートマップが重畳表示されている。
主観量の推定において感度の高い領域の上下には、2個の三角形のオブジェクトが対向している。ここでは、感度の高い領域が2つ有るため、対向する2個の三角形のオブジェクトが、それぞれの領域の上下に配置されている。
ユーザが上側のオブジェクトや下側のオブジェクトをドラッグすると、振幅の調整対象となる時間周波数帯(領域)が変更される。
第3の実施形態の音評価AIシステム1B(図14参照)は、所望の聴感実験結果を得られると予測される新たな音の物理量を推定する。そして、音評価AIシステム1Bは、主観評価から時間-周波数情報を推定するニューラルネットを作り、時間-周波数情報から位相を推定し、その両者から音の時系列信号(物理量)を作る。
音評価AIシステム1Bは、音の主観評価から時間−周波数情報の学習・推定を行う時間−周波数情報推定部13Bと、制御部12と、位相推定部18と、時系列信号変換部19とを備える。制御部12は、この時間−周波数情報推定部13Bを教師データによって学習させる。
なお時間−周波数情報推定部13Bは、回帰式に限られずクラス分類器による処理を行ってもよい。
畳み込み層14では、入力された音の主観評価に対して複数種の重みを持ったフィルタ演算が行われる。畳み込み層14で算出された値は、活性化関数で変換される。
時系列信号変換部19は、時間−周波数情報と、位相推定部18が推定した音の位相とを時系列信号45に変換するものである。
制御部12は、不図示の上位装置からトレーニング処理の指示を受けると、ステップS60の処理を開始する。
制御部12は、時間−周波数情報推定部13Bが備える畳み込みニューラルネットの内部変数を初期化する(S60)。ステップS61において、ユーザは、音のカテゴリーと、所望の被験者プロフィールを音評価AIシステム1Bに入力する。なお、被験者プロフィールはオプションであり、必ずしも入力する必要はない。
被験者のプロフィールが入力されていないならば(No)、制御部12は、カテゴリーに属する既知の各音の主観評価を入力し(S63)、ステップS65に進む。
ステップS66において、制御部12は、誤差が収束したか否かを判定する。誤差が収束していないならば(No)、制御部12は、誤差が小さくなるように時間−周波数情報推定部13Bの内部変数を変更し、ステップS65の処理に戻る。誤差が収束したならば(Yes)、制御部12は、ステップS68の処理に進む。
ユーザは、新たな主観評価とカテゴリーと被験者のプロフィール(オプション)を入力する(S80)。その後、制御部12は、ユーザによって被験者プロフィールが入力されているか否かを判定する(S81)。
本発明は、上記実施形態に限定されることなく、本発明の趣旨を逸脱しない範囲で、変更実施が可能であり、例えば、次の(a)〜(c)のようなものがある。
(b) 推定部の構成は、上記実施形態に記載したものに限定されない。
(c) 解析部が音を解析して出力する物理量は、時間−周波数情報であるスペクトログラムに限定されず、例えばラウドネス、シャープネス、ラウドネスの時系列、シャープネスの時系列など、任意のものであってもよい。
11 解析部
12 制御部
13,13A 推定部 (推定手段)
13B 時間−周波数情報推定部 (推定手段)
14 畳み込み層
15 GAP
16 全結合層
17 シミュレータ部 (再現手段)
18 位相推定部
19 時系列信号変換部
2 音評価データベース (データベース)
31 聴感実験ツール
32 聴感実験
41 物理量
42 被験者プロフィール
43 カテゴリー
44 時間−周波数情報
45 時系列信号
50 主観評価
6 操作強度調整部 (調整手段)
61 調整ユーザインタフェース画面
Claims (8)
- 既知の音、および、所定プロフィールを有する被験者による前記音の主観評価を格納するデータベースと、
前記データベースに基づき、前記音から前記所定プロフィールを有する被験者による前記主観評価を推定するトレーニングを行ったのち、未知の音から前記所定プロフィールを有する被験者による主観評価を推定する推定手段と、
を備えることを特徴とする音評価AIシステム。 - 音を解析して物理量を出力する解析手段を更に備え、
前記推定手段は、前記音を解析した物理量から前記主観評価を推定するトレーニングを行ったのち、未知の音を解析した物理量から主観評価を推定する、
ことを特徴とする請求項1に記載の音評価AIシステム。 - 前記解析手段は、音の時系列波形を解析した時間−周波数マップ、ラウドネス、シャープネス、ラウドネスの時系列、シャープネスの時系列のうちいずれかを物理量として出力する、
ことを特徴とする請求項2に記載の音評価AIシステム。 - 前記推定手段は、畳み込み層とグローバルアベレージプーリングと全結合層を備える畳み込みニューラルネットとして構成されている、
ことを特徴とする請求項1に記載の音評価AIシステム。 - 前記推定手段は、主観評価に寄与する感度が高い物理量の空間範囲を特定する機能を有しており、
前記空間範囲の物理量を調整する調整手段と、
前記調整手段が調整した前記物理量から音の時系列信号を再現する再現手段と、
を更に備えることを特徴とする請求項1に記載の音評価AIシステム。 - 既知の音、および、所定プロフィールを有する被験者による前記音の主観評価を格納するデータベースを備えるコンピュータに、
前記データベースに基づき、前記音から前記所定プロフィールを有する被験者による前記主観評価を推定するトレーニングをニューラルネットに行わせる工程、
未知の音から前記所定プロフィールを有する被験者による主観評価を推定する工程、
を実行させるための音評価AIプログラム。 - 既知の音、および、被験者による前記音の主観評価を格納するデータベースと、
前記データベースに基づき、前記被験者による主観評価から前記音を推定するトレーニングを行ったのち、主観評価から音を推定する推定手段、
を備えることを特徴とする音評価AIシステム。 - 既知の音、および、被験者による前記音の主観評価を格納するデータベースを備えるコンピュータに、
前記データベースに基づき、前記主観評価から前記音を推定するトレーニングをニューラルネットに行わせる工程、
入力された主観評価から音を推定する工程、
を実行させるための音評価AIプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018231884A JP6684339B1 (ja) | 2018-12-11 | 2018-12-11 | 音評価aiシステム、および、音評価aiプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018231884A JP6684339B1 (ja) | 2018-12-11 | 2018-12-11 | 音評価aiシステム、および、音評価aiプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP6684339B1 JP6684339B1 (ja) | 2020-04-22 |
JP2020095123A true JP2020095123A (ja) | 2020-06-18 |
Family
ID=70286706
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018231884A Active JP6684339B1 (ja) | 2018-12-11 | 2018-12-11 | 音評価aiシステム、および、音評価aiプログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP6684339B1 (ja) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023054313A1 (ja) * | 2021-09-29 | 2023-04-06 | 国立研究開発法人理化学研究所 | 異常音判定方法、異常音判定プログラム及び異常音判定システム |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112530455A (zh) * | 2020-11-24 | 2021-03-19 | 东风汽车集团有限公司 | 基于mfcc的汽车关门声品质评价方法及评价系统 |
CN114220455A (zh) * | 2021-12-15 | 2022-03-22 | 东风汽车集团股份有限公司 | 一种车辆关门声品质评价方法及系统 |
JP7329640B1 (ja) * | 2022-02-18 | 2023-08-18 | 株式会社小野測器 | サウンドデザインシステム |
-
2018
- 2018-12-11 JP JP2018231884A patent/JP6684339B1/ja active Active
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2023054313A1 (ja) * | 2021-09-29 | 2023-04-06 | 国立研究開発法人理化学研究所 | 異常音判定方法、異常音判定プログラム及び異常音判定システム |
Also Published As
Publication number | Publication date |
---|---|
JP6684339B1 (ja) | 2020-04-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6684339B1 (ja) | 音評価aiシステム、および、音評価aiプログラム | |
JP7006585B2 (ja) | 情報処理装置及び情報処理方法 | |
JP2020509498A5 (ja) | ||
Daly | A visual model for optimizing the design of image processing algorithms | |
KR20070027537A (ko) | 의지발현 모델장치, 심리효과 프로그램, 의지발현시뮬레이션방법 | |
Gauthier et al. | Sound quality prediction based on systematic metric selection and shrinkage: Comparison of stepwise, lasso, and elastic-net algorithms and clustering preprocessing | |
CN105448305A (zh) | 语音处理装置和语音处理方法 | |
de Jong et al. | A common dynamic prior for time in duration discrimination | |
KR20160135451A (ko) | 학과계열 선정 시스템 및 그 방법 | |
US20140272883A1 (en) | Systems, methods, and apparatus for equalization preference learning | |
US11152122B2 (en) | System and method for evaluating vascular risks | |
Zhang | Voice feature selection to improve performance of machine learning models for voice production inversion | |
van Mastrigt et al. | Pitfalls in quantifying exploration in reward-based motor learning and how to avoid them | |
CN117041847B (zh) | 用于助听器中自适应传声器匹配方法及系统 | |
Botteldooren et al. | Triangulation as a tool in soundscape research | |
Khanna et al. | TQM modeling of the automobile manufacturing sector: a system dynamics approach | |
Albohn et al. | A data-driven, hyper-realistic method for visualizing individual mental representations of faces | |
Li et al. | A neural network model for speech intelligibility quantification | |
JPWO2019235608A1 (ja) | 分析装置、分析方法およびプログラム | |
CN114052675B (zh) | 一种基于融合注意力机制的脉搏异常判别方法及系统 | |
Hossain | Rethinking self-reported measure in subjective evaluation of assistive technology | |
JP6964722B1 (ja) | サービス評価システム | |
Raza et al. | A new pair of watchful eyes for students in online courses | |
Kim et al. | A sensory control system for adjusting group emotion using Bayesian networks and reinforcement learning | |
de-la-Fuente-Valentín et al. | A4Learning--A Case Study to Improve the User Performance: Alumni Alike Activity Analytics to Self-Assess Personal Progress |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191217 |
|
A871 | Explanation of circumstances concerning accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A871 Effective date: 20191223 |
|
A975 | Report on accelerated examination |
Free format text: JAPANESE INTERMEDIATE CODE: A971005 Effective date: 20191224 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20200324 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20200327 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6684339 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |