JP6622329B2 - 目標値推定システム、目標値推定方法及び目標値推定用プログラム - Google Patents
目標値推定システム、目標値推定方法及び目標値推定用プログラム Download PDFInfo
- Publication number
- JP6622329B2 JP6622329B2 JP2017561192A JP2017561192A JP6622329B2 JP 6622329 B2 JP6622329 B2 JP 6622329B2 JP 2017561192 A JP2017561192 A JP 2017561192A JP 2017561192 A JP2017561192 A JP 2017561192A JP 6622329 B2 JP6622329 B2 JP 6622329B2
- Authority
- JP
- Japan
- Prior art keywords
- regression models
- estimation
- reliability
- target value
- feature
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims description 74
- 238000004364 calculation method Methods 0.000 claims description 62
- 230000010354 integration Effects 0.000 claims description 50
- 238000009826 distribution Methods 0.000 claims description 48
- 238000010606 normalization Methods 0.000 claims description 27
- 230000008569 process Effects 0.000 claims description 26
- 230000037007 arousal Effects 0.000 claims description 24
- 238000000605 extraction Methods 0.000 claims description 22
- 238000005457 optimization Methods 0.000 claims description 20
- 238000003860 storage Methods 0.000 claims description 13
- 230000006870 function Effects 0.000 claims description 11
- 238000001228 spectrum Methods 0.000 claims description 8
- 239000000284 extract Substances 0.000 claims description 7
- 230000015654 memory Effects 0.000 claims description 7
- 230000006698 induction Effects 0.000 claims description 2
- 238000004590 computer program Methods 0.000 claims 1
- 238000004458 analytical method Methods 0.000 description 40
- 239000013598 vector Substances 0.000 description 14
- 230000005236 sound signal Effects 0.000 description 10
- 238000011156 evaluation Methods 0.000 description 8
- 238000002474 experimental method Methods 0.000 description 8
- 239000012634 fragment Substances 0.000 description 8
- 230000003595 spectral effect Effects 0.000 description 8
- 238000007476 Maximum Likelihood Methods 0.000 description 7
- 230000008451 emotion Effects 0.000 description 7
- 239000011159 matrix material Substances 0.000 description 7
- 238000002360 preparation method Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 239000006185 dispersion Substances 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 3
- 239000000203 mixture Substances 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000006243 chemical reaction Methods 0.000 description 2
- 230000000052 comparative effect Effects 0.000 description 2
- 238000007796 conventional method Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 238000009472 formulation Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 238000000611 regression analysis Methods 0.000 description 2
- 206010062519 Poor quality sleep Diseases 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000036772 blood pressure Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000012733 comparative method Methods 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000006835 compression Effects 0.000 description 1
- 238000002790 cross-validation Methods 0.000 description 1
- 230000003247 decreasing effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 1
- 230000008909 emotion recognition Effects 0.000 description 1
- 230000004907 flux Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000003780 insertion Methods 0.000 description 1
- 230000037431 insertion Effects 0.000 description 1
- 210000000265 leukocyte Anatomy 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000001556 precipitation Methods 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
- 238000012549 training Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
- 230000017105 transposition Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Software Systems (AREA)
- General Physics & Mathematics (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Mathematical Physics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Signal Processing (AREA)
- Multimedia (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Medical Informatics (AREA)
- Pure & Applied Mathematics (AREA)
- Algebra (AREA)
- Mathematical Optimization (AREA)
- Mathematical Analysis (AREA)
- Computational Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Auxiliary Devices For Music (AREA)
Description
以下図面を参照して、本発明の目標値推定システム、目標値推定方法及び目標値推定用プログラムの実施の形態を詳細に説明する。図1は、本発明の目標値推定システムをコンピュータまたは複数のプロセッサと複数のメモリを用いて実現する実施の形態の基本構成を示すブロック図である。本実施の形態の目標値推定システムは、推定器構成部1と、推定部4とを備えている。推定器構成部1は、複数の回帰モデル21〜2n(nは2以上の正の整数)を生成して記憶する回帰モデル生成記憶部2と特徴量抽出部3を備えている。回帰モデル21〜2nは、それぞれ推定結果の確率分布と信頼度を求めることができる回帰モデルであり、例えば、ガウシアンプロセスで回帰する回帰モデル、クリギング法で回帰する回帰モデルまたはベイズ推定で回帰する回帰モデルが用いられる。これらの回帰モデル21〜2nは、学習用に準備した複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化(パラメータの最適化)が行われた、複数の特徴量に対応した複数の回帰モデルである。特に回帰モデル21〜2nに、ガウシアンプロセスで回帰する回帰モデルを用いると、数理的な定式化が容易になる。ガウシアンプロセスで回帰する回帰モデルは推定値の分布をガウス分布として推定することができ、確率分布の分散の逆数を推定結果の信頼度として解釈することができるため、信頼度に基づいて重み付けをする本発明に利用するのに適している。
以下図1の実施の形態を用いて、入力された音楽音響信号に対する各回帰モデルによる推定結果の信頼度を計算し、それらを用いて最尤推定を行い、推定結果を統合する場合の実施例について説明する。本実施例では、回帰モデル(図1の回帰モデル21〜2n)としてガウシアンプロセスで回帰する回帰モデルを用いる。そして目標値としての音楽印象値は、Valence(誘起)とArousal(覚醒)とからなる2次元の値(VA値)である。図3には、既存手法と本実施例(提案手法)の概要図を示している。この実施例では、音楽音響信号から後述する複数の特徴量X1,X2,X3を抽出し、特徴量に対応した複数のガウシアンプロセス(図1の回帰モデル21〜2n)で回帰する回帰モデルのそれぞれの入力に対する信頼度により複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、複数の回帰モデル(図1の回帰モデル21〜2n)から出力される複数の推定結果の重み付け和により統合を行って未知の観測信号の目標値を推定する。これに対して従来手法においては、回帰モデルは点推定を行い、その結果を統合している。本実施の形態のように推定結果を入力に応じて変化する信頼度に基づいて重み付け和により統合すると、推定値は正解値により近いものとなる。
音響特徴量は、VA値を推定するにあたって音楽のどのような内容に対応しているかで選択することができる。調性や和音がValence(誘起)の値に関連し、テンポ、音高、ラウドネス、音色がArousal(覚醒)に関連している。そこで学習フェーズ及び分析フェーズで用いる音響特徴量としては、ゼロクロスレート、RMS(root-mean-squared amplitude)、スペクトル特徴量(スペクトラルコントラスト、スペクトラルセントロイド、スペクトルフラックス、スペクトルロールオフ、スペクトルフラットネス)、ピッチ、メル周波数ケプストラム係数MFCC(Mel-Frequency Cepstral Coefficients)、クロマベクトル(ピッチクラスプロファイル) が含まれている。本実施例では、6373次元の特徴量ベクトルを特徴量の性質に基づいて複数の特徴量グループに分けている。例えば、時間領域関連特徴量グループ、スペクトル関連特徴量グループ、ピッチ関連特徴量グループ、振幅スペクトル特徴量グループ等である。
本例では、ガウシアンプロセスで回帰する回帰モデルを用いて学習を行う。ガウシアンプロセスで回帰する回帰モデルを学習するために、Emotion in Music Database[M. Soleymani, M. N. Caro, and E. M. Schmidt, “1000 songs for emotional analysis of music,” in Proceedings of CroudMM 2013. ACM, 2013.]を学習データに用いた。この学習データには、744曲の音楽音響信号が含まれており、1から9までのスケールでVA値(音楽印象値)が音響信号にアノテーションされている。ガウシアンプロセスで回帰を行うにあたってAV値は−1.0から1.0の値域に正規化して用いた。図4は、この学習データの例を示している。図4の例では、既知の観測信号は30秒の音楽信号片S1〜SNに対して、Valence(誘起)値とArousal(覚醒)値がアノテーションされている。
ガウシアンプロセスで回帰する回帰モデルを用いる場合において、パラメータの最適化ができることを説明する。{xn (1)…xn (D), yn (1)…yn (D)}をD点のデータをもつn番目の特徴量についての学習データとする。さらにynを、学習データの値を集めたベクトルyn=( yn (1)…yn (D))Tとする。ただしTはベクトルの転置を表わす。ガウシアンプロセス回帰を用いると学習データに基づいて推定したい値の分布をガウス分布Pn(y)=N(yn, σ2 n)として推定できる。そのガウス分布(確率分布)の平均ynと分散σ2 n は以下のように求まる。
分析フェーズでは、分析したい音楽音響信号を入力として、VA値の平均と分散を各々の回帰モデルによって得たのち、回帰モデルによって同時に求まる信頼度(確率分布の分散の逆数)に基づいて推定値の重み付き和の算出を行う。回帰モデルによって求める確率分布の分散は、各々の音響特徴量の値の学習データ中での相関関係によって決まる。例えば、学習データ中においてあるVA値が正解ラベルとして与えられている音響特徴量の値に大きなばらつきがあるとき、その音響特徴量を用いてVA値を回帰モデルによって推定すると、推定値の分散が大きく、したがっていま与えられている入力に対しての推定結果の信頼度が低いことがわかる。このように入力される音楽音響信号に応じて信頼度をその都度計算することができるので、各回帰モデルから得られる推定結果を適応的に統合する。
ある決められた時間長の音楽音響信号が与えられたとき、その音響信号が想起させる音楽印象をVA値として推定する。本例では、N種類の特徴量ベクトルx1・・・・xNそれぞれで構築された回帰モデルの推定結果を、その推定結果の信頼度に基づいて統合することで音楽印象を分析する。Valence値とArousal値をそれぞれについて同じ考え方を適用できるので、片方のみを推定する場合について以下に説明する。推定したいValence値またはArousal値をyと表わし、n番目の特徴量ベクトルを用いて推定した結果をynと表すことにする。そしてこれらyn (n = 1・・・N)の値を重み付けるための適切な重みwnを以下にように求める。
n番目の特徴量ベクトルxnから印象の値ynへの変換を考える。もしも与えられた音響信号が想起する印象の真の値がy*であると知っていれば、この特徴量についての推定誤差εnは以下のように定義できる。
統合する際に信頼度が極端に小さい推定値がある場合には、その推定値を統合に用いる度合いを軽減することで、よりロバストな推定が行える。すなわち信頼度の最大値と比べて小さい信頼度である推定値がある場合には、複数の回帰モデルから得られる複数の信頼度がより大きいほど正規化前重みがより強調されて大きくなり、信頼度がより小さければ正規化前重みがより強調されて小さくなるような非線形の関係で正規化前重みを求め、正規化前重みを全て加算して1となるように正規化した結果を重みとする。
a=1.0 (0,475,0.425,0.06,0.04)
a=2.0 (0.55,0.44,8.7×10-3,3.9×10-3)
a=5.0 (0.64,0.36,2.0×10-5,2.7×10-6)
a=20.0 (0.90,0.09,9.7×10-19,2.9×10-22)
a=50.0 (0.99,0.003,1.2×10-45,1.8×10-54)
となる。aが十分に大きいときには、信頼度が最大である場合のみ重みをもち、その他の場合は限りなく0.0に近い重みになることがわかる。これは推定値の統合の際に信頼度が最大である推定値を統合結果とすることに等しい。またa=1.0であるときには式(14) の変換をしない場合の重みに一致している。
信頼度に基づく推定結果の統合技術の有効性を検証した結果について説明する。30秒間の音楽音響信号に対してVA値を推定する実験を行った。このとき、異なる実験条件のもとで音楽印象分析の性能を比較した。
(1) 複数のガウシアンプロセスで回帰する回帰モデルの信頼度に基づく統合(実施例)
(2) 複数のガウシアンプロセスで回帰する回帰モデルの固定重みでの統合
(3) 単一のガウシアンプロセスで回帰する回帰モデルを用いたて推定結果の統合なし
実験は、はじめに音楽音響信号から音響特徴量を抽出した。音響信号に対して短時間フーリエ変換を行い、フレームごとに音響特徴量を計算した。本比較実験では2014年のMediaEval Emotion in Music task における音楽印象分析手法のコンペティションで1位となった手法 [E. Coutinho, F. Weninger, B. Schuller, and K. R. Scherer, “The Munich LSTM-RNN approach to the MediaEval 2014 _‘Emotion in Music_’task,”in Proceedings of MediaEval 2014 Workshop, 2014.] で用いられた特徴量を利用した。その特徴量には、ゼロクロスレート、RMS(root-mean-squared amplitude)、スペクトル特徴量、ピッチ、MFCC(Mel-Frequency Cepstral Coefficients) が含まれている。比較実験においては特徴量の値を1つのベクトルへと集め計6373次元の特徴量ベクトルを構成した。次にガウシアンプロセスで回帰する回帰モデルを学習した。本実験においては6373次元の特徴量ベクトルを特徴量の性質に基づいて3つに分割して用いた。1つ目はスペクトル特徴量、2つ目はMFCC、3つ目はそのほかの特徴量の値を集めた。ガウシアンプロセスで回帰する回帰モデルを学習するために、Emotion in Music Database[M. Soleymani, M. N. Caro, and E. M. Schmidt, “1000 songs for emotional analysis of music,”in Proceedings of CroudMM 2013. ACM, 2013.27]を学習データに用いた。744曲の音楽音響信号が含まれており、1から9までのスケールでVA値が音響信号にアノテーションされているものを用いた。ガウシアンプロセスで回帰する回帰モデルを用いるにあたってAV値は−1.0から1.0の値域に正規化して用いた。回帰モデルの学習にはランダムに選ばれた619曲を用い、性能評価には残りの125曲を正解値として用いた。Constrained Optimization BY Linear Approximation (COBYLA) methodを用いてガウシアンプロセスで回帰する回帰モデルのパラメータの最適化を行った。
性能評価指標にはR-squared value(R2) と平均二乗誤差(RMSE:root mean squared error) を用いた。これらの指標はMediaEval Emotion in Music task において性能の公式指標として使われているものである。R2には複数の定義があるため、本実験では既存の音楽印象分析の既存研究[K. Markov and T. Matsui, “Music genre and emotion recognition using Gaussian process,”IEEE Access, vol. 2, pp. 688-697, June 2014.] において評価に用いられている定義を用いた。
上記実施例では音楽音響信号を観測信号としたが、本発明は、音楽音響信号以外のあらゆる種類の信号を対象とすることができる。例えば、 気温・降水量などの気象情報を観測信号として農産物の収穫量を推定する問題、不動産の敷地面積や最寄駅からの距離などを観測信号として不動産価格を推定する問題、血圧・心音・白血球の量など複数種の測定データを観測信号としてある病気にかかっている確率を推定する問題など、複数種類の観測値(推定結果)の情報を統合して目標値の分析を行う状況では、どのような信号であっても本発明を適用できる。
2 回帰モデル生成記憶部
21〜2n 回帰モデル
3 特徴量抽出部
4 推定部
5 信頼度演算部
6 重み演算部
7 重み付け和演算及び目標値推定部
Claims (15)
- 複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを備えた推定器構成部と、
前記推定器構成部に未知の観測信号を入力し、前記未知の観測信号の前記複数の特徴量に対応する複数の目標値を前記複数の回帰モデルからそれぞれ推定し、前記複数の目標値の推定結果から統合により前記未知の観測信号の目標値を推定する推定部とを備え、
前記複数の回帰モデルとして、それぞれ確率分布に基づいて推定結果と信頼度を求めることができる回帰モデルが用いられ、
前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、前記複数の回帰モデルから出力される複数の推定結果の重み付け和により前記統合を行って前記未知の観測信号の目標値を推定するように構成されており、
前記推定結果は、前記回帰モデルに前記未知の観測信号を入力して得られた前記確率分布の平均から前記複数の回帰モデルごとに計算により求められ、前記信頼度は、前記回帰モデルを用いて得た前記確率分布の分散に基づいて、前記複数の回帰モデルごとに計算により求められたものであることを特徴とする目標値推定システム。 - 前記推定器構成部は、
前記複数の観測信号のそれぞれについて、複数の特徴量を抽出する特徴量抽出部と、
前記特徴量抽出部が抽出した前記複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを生成して記憶する回帰モデル生成記憶部とを備えており、
前記推定部は、
前記複数の回帰モデルのそれぞれの入力に対する前記信頼度を演算する信頼度演算部と、
前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求める重み演算部と、
前記複数の回帰モデルから出力される複数の推定結果の前記重み付け和により前記統合を行って前記未知の観測信号の目標値を推定する重み付け和演算及び目標値推定部を備えている請求項1に記載の目標値推定システム。 - 前記推定器構成部及び前記推定部は、コンピュータによって実現されている請求項2に記載の目標値推定システム。
- 前記推定器構成部及び前記推定部は、それぞれ複数のプロセッサと複数のメモリによって実現されており、
前記特徴量抽出部、前記回帰モデル生成記憶部、前記信頼度演算部、前記重み演算部及び前記重み付け和演算及び目標値推定部は、それぞれ1以上のプロセッサと1以上のメモリによって実現されている請求項2に記載の目標値推定システム。 - 前記観測信号が音楽音響信号であり、前記目標値が音楽印象値である請求項1に記載の目標値推定システム。
- 前記回帰モデルは、ガウシアンプロセスで回帰する回帰モデル、クリギング法で回帰する回帰モデルまたはベイズ推定で回帰する回帰モデルである請求項1に記載の目標値推定システム。
- 前記複数の特徴量が複数の特徴量グループに分けられ、前記複数の特徴量グループに対して前記複数の回帰モデルが作成されている請求項1に記載の目標値推定システム。
- 前記観測信号が音楽音響信号であり、前記目標値が音楽印象値であり、
前記特徴量グループには、時間領域関連特徴量グループ、スペクトル関連特徴量グループ、ピッチ関連特徴量グループ、振幅スペクトル特徴量グループが少なくとも含まれている請求項7に記載の目標値推定システム。 - 複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを備えた推定器構成部と、
前記推定器構成部に未知の観測信号を入力し、前記未知の観測信号の前記複数の特徴量に対応する複数の目標値を前記複数の回帰モデルからそれぞれ推定し、前記複数の目標値の推定結果から統合により前記未知の観測信号の目標値を推定する推定部とを備え、
前記複数の回帰モデルとして、それぞれ確率分布に基づいて推定結果と信頼度を求めることができる回帰モデルが用いられ、
前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、前記複数の回帰モデルから出力される複数の推定結果の重み付け和により前記統合を行って前記未知の観測信号の目標値を推定するように構成されており、
前記推定器構成部は、前記複数の観測信号のそれぞれについて、複数の特徴量を抽出する特徴量抽出部と、前記特徴量抽出部が抽出した前記複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを生成して記憶する回帰モデル生成記憶部とを備えており、
前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度を演算する信頼度演算部と、前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求める重み演算部と、前記複数の回帰モデルから出力される複数の推定結果の前記重み付け和により前記統合を行って前記未知の観測信号の目標値を推定する重み付け和演算及び目標値推定部を備えており、
前記信頼度演算部は、前記信頼度を、前記回帰モデルを用いて得た前記特徴量の前記推定結果の分散が小さい領域ほど信頼度が高くなり、前記推定結果の分散が大きい領域ほど信頼度が低くなるように定める目標値推定システム。 - 複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを備えた推定器構成部と、
前記推定器構成部に未知の観測信号を入力し、前記未知の観測信号の前記複数の特徴量に対応する複数の目標値を前記複数の回帰モデルからそれぞれ推定し、前記複数の目標値の推定結果から統合により前記未知の観測信号の目標値を推定する推定部とを備え、
前記複数の回帰モデルとして、それぞれ確率分布に基づいて推定結果と信頼度を求めることができる回帰モデルが用いられ、
前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、前記複数の回帰モデルから出力される複数の推定結果の重み付け和により前記統合を行って前記未知の観測信号の目標値を推定するように構成されており、
前記推定器構成部は、前記複数の観測信号のそれぞれについて、複数の特徴量を抽出する特徴量抽出部と、1前記特徴量抽出部が抽出した前記複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを生成して記憶する回帰モデル生成記憶部とを備えており、
前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度を演算する信頼度演算部と、前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求める重み演算部と、前記複数の回帰モデルから出力される複数の推定結果の前記重み付け和により前記統合を行って前記未知の観測信号の目標値を推定する重み付け和演算及び目標値推定部を備えており、
前記信頼度演算部は、前記複数の回帰モデルから得られる前記複数の信頼度をそのまま線形の関係で正規化前重みとし、前記正規化前重みを全て加算して1となるように正規化した結果を前記重みとする目標値推定システム。 - 複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを備えた推定器構成部と、
前記推定器構成部に未知の観測信号を入力し、前記未知の観測信号の前記複数の特徴量に対応する複数の目標値を前記複数の回帰モデルからそれぞれ推定し、前記複数の目標値の推定結果から統合により前記未知の観測信号の目標値を推定する推定部とを備え、
前記複数の回帰モデルとして、それぞれ確率分布に基づいて推定結果と信頼度を求めることができる回帰モデルが用いられ、
前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、前記複数の回帰モデルから出力される複数の推定結果の重み付け和により前記統合を行って前記未知の観測信号の目標値を推定するように構成されており、
前記推定器構成部は、前記複数の観測信号のそれぞれについて、複数の特徴量を抽出する特徴量抽出部と、前記特徴量抽出部が抽出した前記複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを生成して記憶する回帰モデル生成記憶部とを備えており、
前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度を演算する信頼度演算部と、前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求める重み演算部と、前記複数の回帰モデルから出力される複数の推定結果の前記重み付け和により前記統合を行って前記未知の観測信号の目標値を推定する重み付け和演算及び目標値推定部を備えており、
前記信頼度演算部は、前記複数の回帰モデルから得られる前記複数の信頼度がより大きいほど正規化前重みがより強調されて大きくなり、信頼度がより小さければ正規化前重みがより強調されて小さくなるような非線形の関係で正規化前重みを求め、前記正規化前重みを全て加算して1となるように正規化した結果を前記重みとする目標値推定システム。 - 複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを備えた推定器構成部と、
前記推定器構成部に未知の観測信号を入力し、前記未知の観測信号の前記複数の特徴量に対応する複数の目標値を前記複数の回帰モデルからそれぞれ推定し、前記複数の目標値の推定結果から統合により前記未知の観測信号の目標値を推定する推定部とを備え、
前記複数の回帰モデルとして、それぞれ確率分布に基づいて推定結果と信頼度を求めることができる回帰モデルが用いられ、
前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、前記複数の回帰モデルから出力される複数の推定結果の重み付け和により前記統合を行って前記未知の観測信号の目標値を推定するように構成されており、
前記推定部は、入力値が前記複数の回帰モデルにおいて準備されている前記特徴量の既知の入力値と異なる入力値のときには、前記異なる入力値に近い前記既知の入力値との近さに応じて前記推定結果を補間する機能をさらに備えている目標値推定システム。 - 前記音楽印象値は、誘起と覚醒とからなる2次元の値であり、
前記推定部は、前記複数の回帰モデルによって推定される前記2次元の値の重み付け和をそれぞれ誘起の推定値及び覚醒の推定値として出力する請求項5に記載の目標値推定システム。 - 複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを準備するステップと、
前記複数の回帰モデルに未知の観測信号を入力し、前記未知の観測信号の前記複数の特徴量に対応する複数の目標値を前記複数の回帰モデルからそれぞれ推定し、前記複数の目標値の推定結果から統合により前記未知の観測信号の目標値を推定する推定ステップとからなり、
前記複数の回帰モデルとして、それぞれ推定結果の確率分布と信頼度を求めることができる回帰モデルを用い、
前記推定ステップでは、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、前記複数の回帰モデルから出力される複数の推定結果の重み付け和により前記統合を行って前記未知の観測信号の目標値を推定し、
前記推定結果は、前記回帰モデルに前記未知の観測信号を入力して得られた前記確率分布の平均から前記複数の回帰モデルごとに計算により求められ、前記信頼度は、前記回帰モデルを用いて得た前記確率分布の分散に基づいて、前記複数の回帰モデルごとに計算により求められたものであることを特徴とする目標値推定方法。 - 複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを準備するステップと、
前記複数の回帰モデルに未知の観測信号を入力し、前記未知の観測信号の前記複数の特徴量に対応する複数の目標値を前記複数の回帰モデルからそれぞれ推定し、前記複数の目標値の推定結果から統合により前記未知の観測信号の目標値を推定する推定ステップとからなり、
前記複数の回帰モデルとして、それぞれ推定結果の確率分布と信頼度を求めることができる回帰モデルを用い、
前記推定ステップでは、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、前記複数の回帰モデルから出力される複数の推定結果の重み付け和により前記統合を行って前記未知の観測信号の目標値を推定し、
前記推定結果は、前記回帰モデルに前記未知の観測信号を入力して得られた前記確率分布の平均から前記複数の回帰モデルごとに計算により求められ、前記信頼度は、前記回帰モデルを用いて得た前記確率分布の分散に基づいて、前記複数の回帰モデルごとに計算により求められたものであることをコンピュータで実現するためにコンピュータ読み取り可能な非一時的な記憶媒体に記憶された目標値推定用コンピュータプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016005219 | 2016-01-14 | ||
JP2016005219 | 2016-01-14 | ||
PCT/JP2017/001070 WO2017122798A1 (ja) | 2016-01-14 | 2017-01-13 | 目標値推定システム、目標値推定方法及び目標値推定用プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017122798A1 JPWO2017122798A1 (ja) | 2018-09-13 |
JP6622329B2 true JP6622329B2 (ja) | 2019-12-18 |
Family
ID=59311984
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017561192A Active JP6622329B2 (ja) | 2016-01-14 | 2017-01-13 | 目標値推定システム、目標値推定方法及び目標値推定用プログラム |
Country Status (4)
Country | Link |
---|---|
US (1) | US10614830B2 (ja) |
JP (1) | JP6622329B2 (ja) |
GB (1) | GB2574682A (ja) |
WO (1) | WO2017122798A1 (ja) |
Families Citing this family (15)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10824119B2 (en) * | 2016-03-29 | 2020-11-03 | International Business Machines Corporation | Intelligent energy switch |
GB201618288D0 (en) | 2016-10-28 | 2016-12-14 | Remarkable As | Interactive displays |
EP3392884A1 (en) * | 2017-04-21 | 2018-10-24 | audEERING GmbH | A method for automatic affective state inference and an automated affective state inference system |
US10643074B1 (en) * | 2018-06-08 | 2020-05-05 | Amazon Technologies, Inc. | Automated video ratings |
US11153655B1 (en) | 2018-09-26 | 2021-10-19 | Amazon Technologies, Inc. | Content appeal prediction using machine learning |
US10897649B1 (en) | 2018-09-26 | 2021-01-19 | Amazon Technologies, Inc. | Mature themes prediction for online content |
CN109635375A (zh) * | 2018-11-23 | 2019-04-16 | 中国航空工业集团公司沈阳飞机设计研究所 | 基于多元线性回归的飞机成品设备重量估算方法 |
CN110223712B (zh) * | 2019-06-05 | 2021-04-20 | 西安交通大学 | 一种基于双向卷积循环稀疏网络的音乐情感识别方法 |
CN111401228B (zh) * | 2020-03-13 | 2023-12-19 | 中科创达软件股份有限公司 | 视频目标标注方法、装置及电子设备 |
US20240028020A1 (en) | 2020-09-10 | 2024-01-25 | Fanuc Corporation | State determination device and state determination method |
CN112401924B (zh) * | 2020-11-19 | 2022-02-11 | 循音智能科技(上海)有限公司 | 一种心音分割方法及装置 |
JP2023074822A (ja) * | 2021-11-18 | 2023-05-30 | アズビル株式会社 | 情報処理装置、情報処理方法及び情報処理プログラム |
KR102480140B1 (ko) * | 2022-05-19 | 2022-12-23 | (주)아크릴 | 인공 신경망 모델 학습 결과 합성을 통한 공통 모델 생성 방법 |
KR20240095697A (ko) * | 2022-12-16 | 2024-06-26 | 현대자동차주식회사 | 컨텐츠 제공 장치 및 방법 |
CN117519044B (zh) * | 2023-12-01 | 2024-06-11 | 重庆雄川科技有限公司 | 基于智慧园区的生产线智能控制方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP3148120B2 (ja) | 1996-05-01 | 2001-03-19 | 三菱電機株式会社 | 追尾装置 |
US9292493B2 (en) * | 2010-01-07 | 2016-03-22 | The Trustees Of The Stevens Institute Of Technology | Systems and methods for automatically detecting deception in human communications expressed in digital form |
JP5573443B2 (ja) * | 2010-07-14 | 2014-08-20 | ソニー株式会社 | 情報処理装置、情報処理方法、及びプログラム |
JP2015108898A (ja) * | 2013-12-03 | 2015-06-11 | 日本電信電話株式会社 | 異常検知システム及び異常検知方法 |
-
2017
- 2017-01-13 US US16/070,144 patent/US10614830B2/en not_active Expired - Fee Related
- 2017-01-13 GB GB1812998.1A patent/GB2574682A/en not_active Withdrawn
- 2017-01-13 WO PCT/JP2017/001070 patent/WO2017122798A1/ja active Application Filing
- 2017-01-13 JP JP2017561192A patent/JP6622329B2/ja active Active
Also Published As
Publication number | Publication date |
---|---|
US20190027162A1 (en) | 2019-01-24 |
JPWO2017122798A1 (ja) | 2018-09-13 |
WO2017122798A1 (ja) | 2017-07-20 |
US10614830B2 (en) | 2020-04-07 |
GB201812998D0 (en) | 2018-09-26 |
GB2574682A (en) | 2019-12-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6622329B2 (ja) | 目標値推定システム、目標値推定方法及び目標値推定用プログラム | |
Tsanas et al. | Robust fundamental frequency estimation in sustained vowels: detailed algorithmic comparisons and information fusion with adaptive Kalman filtering | |
Huang et al. | Music genre classification based on local feature selection using a self-adaptive harmony search algorithm | |
Schmidt et al. | Feature Learning in Dynamic Environments: Modeling the Acoustic Structure of Musical Emotion. | |
CN109285551A (zh) | 基于wmfcc和dnn的帕金森患者声纹识别方法 | |
Wang et al. | Automatic assessment of pathological voice quality using multidimensional acoustic analysis based on the GRBAS scale | |
Hariharan et al. | A new feature constituting approach to detection of vocal fold pathology | |
La Rocca et al. | Clustering nonlinear time series with neural network bootstrap forecast distributions | |
Wang et al. | A multi-channel UNet framework based on SNMF-DCNN for robust heart-lung-sound separation | |
Shen et al. | Least squares kernel ensemble regression in Reproducing Kernel Hilbert Space | |
Dahl et al. | Time series (re) sampling using generative adversarial networks | |
JP4392621B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
JP4433323B2 (ja) | 情報処理装置、情報処理方法、およびプログラム | |
Gupta et al. | Towards controllable audio texture morphing | |
Shafik et al. | Boosting nonlinear additive autoregressive time series | |
Mossavat et al. | A hierarchical Bayesian approach to modeling heterogeneity in speech quality assessment | |
Parker et al. | Nonlinear time series classification using bispectrum‐based deep convolutional neural networks | |
Yuanchao et al. | Improved pitch shifting data augmentation for ship-radiated noise classification | |
US12087275B2 (en) | Neural-network-based text-to-speech model for novel speaker generation | |
Anderson et al. | Time-frequency feature extraction for classification of episodic memory | |
Zhang et al. | SDFIE-NET–A self-learning dual-feature fusion information capture expression method for birdsong recognition | |
Ankışhan et al. | A hybrid measure for the discrimination of the acoustic signals: Feature matrix (FMx) | |
Zhang et al. | A Heart Sound Signal Classification Method Based on the Mixed Characteristics of Mel Cepstrum Coefficient and Second-Order Spectrum | |
Uğuz et al. | Classification of internal carotid artery Doppler signals using fuzzy discrete hidden Markov model | |
Pentari et al. | Investigating Graph-based Features for Speech Emotion Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20180511 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190528 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190729 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190903 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20191029 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20191112 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20191121 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6622329 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |