JP6622329B2 - 目標値推定システム、目標値推定方法及び目標値推定用プログラム - Google Patents

目標値推定システム、目標値推定方法及び目標値推定用プログラム Download PDF

Info

Publication number
JP6622329B2
JP6622329B2 JP2017561192A JP2017561192A JP6622329B2 JP 6622329 B2 JP6622329 B2 JP 6622329B2 JP 2017561192 A JP2017561192 A JP 2017561192A JP 2017561192 A JP2017561192 A JP 2017561192A JP 6622329 B2 JP6622329 B2 JP 6622329B2
Authority
JP
Japan
Prior art keywords
regression models
estimation
reliability
target value
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017561192A
Other languages
English (en)
Other versions
JPWO2017122798A1 (ja
Inventor
覚 深山
覚 深山
後藤 真孝
真孝 後藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
National Institute of Advanced Industrial Science and Technology AIST
Original Assignee
National Institute of Advanced Industrial Science and Technology AIST
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by National Institute of Advanced Industrial Science and Technology AIST filed Critical National Institute of Advanced Industrial Science and Technology AIST
Publication of JPWO2017122798A1 publication Critical patent/JPWO2017122798A1/ja
Application granted granted Critical
Publication of JP6622329B2 publication Critical patent/JP6622329B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/45Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Algebra (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Computational Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Auxiliary Devices For Music (AREA)

Description

本発明は、信頼度に基づく目標値推定システム、目標値推定方法及び目標値推定用プログラムに関するものである。
例えば、音楽を人間が聴いたときの印象(目標値)を音楽音響信号から推定する「音楽印象分析」のように、観測信号から観測信号に対して求められるべき目標値を推定する技術がある。このような技術の代表例としては、音楽印象分析技術が挙げられる。従来の音楽印象分析の研究では、推定精度を向上させる有効な音響特徴量を探すことや、音響特徴量と音楽を人間が聴いたときの印象を表わす値の間の新しい回帰手法を提案することに注力されてきた。
従来より音楽印象分析は、音響特徴量を音楽音響信号から算出し、回帰手法やクラス分類手法を用いて、音響特徴量を印象を表わす空間へと写像することで行われている。心理学の研究では、人が感じる印象をValence(誘起)とArousal(覚醒)による2次元の値(VA値)によって表わすことが提案されている[非特許文献1]。VA値が2次元平面として表現されているものを図18に示す。音楽印象分析では、このVA値を音楽音響信号から分析する。より具体的には、30秒間の音楽音響信号断片からVA値を推定する。この問題設定は近年の音楽印象分析技術の発展を牽引しているMediaEval WorkshopのEmotion in Musicと呼ばれる音楽印象分析アルゴリズムの性能を競い合うワークショップにて採用されている問題設定である[非特許文献2及び3]。なお図18は、Valence(誘起)とArousal(覚醒)の値を2次元座標として表現した印象空間と、空間の各場所に対応する印象を表わす単語表示したものである。この図は、非特許文献4に記載されている図を非特許文献5で描き直した図をベースにし、図中の英語の和訳を本願発明者が付記したものである。
これまでの音楽印象分析の研究では、分析性能向上に効果のある音響特徴量を探すことが行われてきた。また選んだ音響特徴量から印象空間への写像を、重回帰分析をはじめとする線形回帰を用いて行う方法も提案されている[非特許文献6及び7]。さらに特徴量選択アルゴリズムを用いて、効果のある音響特徴量の組み合わせを自動で選択する方法も議論されている[非特許文献8]。一方、特徴量を注意深く選ぶ代わりに、各音響特徴量を入力とする回帰モデルを構築しておき、その後各回帰モデルによる推定結果を新たな回帰モデルによって統合する、多重回帰に基づく方法が提案されている[非特許文献9及び10]。
この他には、非線形回帰モデルを用いて非線形の次元圧縮の効果を応用する方法がある。これにはニューラルネットワークを用いる分析[非特許文献11,12及び13]、サポートベクトルマシンを用いる分析[非特許文献14]、ガウシアンプロセス回帰を用いる分析[非特許文献15及び16]が提案されている。
J. A. Russel, "A circumplex model of affect," Journal of Personal Social Psychology, vol.39, pp. 1161-1178, June 1980. M. Soleymani, M. N. Caro, E. M. Schmidt, and Y.-H. Yang, "The MediaEval 2013 Bravenew Task: Emotion in Music, " in Proceedings of MediaEval 2013 Workshop, 2013. Aljanaki, Y.-H. Yang, and M. Soleymani, "Emotion in Music task at MediaEval 2014, "in Proceedings of MediaEval 2014 Workshop, 2014. J. Posner, J. A. Russel, and B. S. Peterson, "The circumplex model of affect: An integrative approach to affective neuroscience, cognitive development, and psychology, "Development and Psychopathology, vol. pp. 715-734, September 2005. P. C. Trimmer, E. S. Paul, M. T. Mendl, J. M. McNamara, and A. Houston, "On the Evolution and Optimality of Mood States, " Behavioral Sciences, vol. 3, pp. 501, 2013. T. Eerola, O. Lartillot, and P. Toiviainen, "Prediction of multidimensional emotional ratings in music from audio using multivariate regression models, " in Proceedings of ISMIR 2009, 2009, pp. 621-626. A. Aljanaki, F. Wiering, and R. C. Veltkamp,"MIRUtecht participation in MediaEval 2013: emotion in music task,"in Proceedings of MediaEval 2013 Workshop, 2013. E. M. Schmidt, D. Turnbull, and Y. E. Kim,"Feature selection for content-based, time-varying musical emotion regression, "in Proceedings of MIR 2010, 2010, pp. 267-273. E. M. Schmidt, Eyben, and Y. E. Kim, "Prediction of time-varying musical mood distributions from audio, "in Proceedings of ISMIR 2010, 2010, pp. 465-470. Y. Fan and M. Xu, MediaEval 2014: THU-HCSIL approach to emotion in music task using multi-level regression," in Proceedings of MediaEval 2014 Workshop, 2014. F. Weninger, F. Eyben, and B. Shuller, "The TUM approach to the MediaEval music emotion task using generic affective audio features, "in Proceedings of MediaEval 2013 Workshop, 2013. E. Coutinho, F. Weninger, B. Schuller, and K. R. Scherer, "The Munich LSTM-RNN approach to the MediaEval 2014 _'Emotion in Music_'task, " in Proceedings of MediaEval 2014 Workshop, 2014. V. Imbrasaite and P. Robinson, "Music emotion tracking with continuous conditional neural fields and relative representation, "in Proceedings of MediaEval 2014 Workshop,2014. B. Han, S. Rho, R. B. Dannenberg, and E. Hwang, "SMERS: music emotion recognition using support vector regression,"in Proceedings of ISMIR 2009, 2009, pp. 651-656. K. Markov and T. Matsui, "Music genre and emotion recognition using Gaussian process, "IEEE Access, vol. 2, pp. 688-697, June 2014. K. Markov and T. Matsui, "Dynamic music emotion recognition using state-space models, "in Proceedings of MediaEval 2014 Workshop, 2014.
多重回帰と非線形回帰を用いることで音楽印象分析の分析性能は大きく向上したが、各々の回帰モデルによる推定結果の統合方法は、一度学習データによって決定されると、その後変化させることができない。しかしVA空間内のある個所の値の推定にふさわしい回帰モデルの統合方法と、別の個所においてふさわしい統合方法は異なっている可能性がある。実際、Arousalが低い値と高い値では分析に有効な特徴量が異なっており、回帰モデルの統合方法を変えることが性能向上に有用であることが示唆される。
従来の高精度で目標値(印象)を推定する方法は、異なる特徴量と印象を表わす値の対からなる学習データに基づき回帰モデルを複数個学習し、それぞれの回帰モデルによる推定結果を統合して結果を出力するものである。しかし各々の回帰モデルからの推定結果の統合の仕方は学習時に一度決定すると変えられず、分析対象である音楽の種類に適応させて変化させることができなかった。
本発明の目的は、入力である観測信号の性質を考慮して推定結果の統合を信頼度に基づいて変えることができる目標値推定システム、目標値推定方法及び目標値推定用プログラムを提供することにある。
本発明は、上記課題を信頼度に基づく推定結果の統合技術によって解決する。本発明の目標値推定システムは、推定器構成部と推定部を備えている。推定器構成部は、複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量(独立変数)と観測信号に対して求められるべき目標値(target value)[分析対象、目的変数objective valuable)]とが対になった複数の学習データに基づいて最適化が行われた、複数の特徴量に対応した複数の回帰モデルを備えている。そして推定部は、推定器構成部に未知の観測信号を入力し、未知の観測信号の複数の特徴量に対応する複数の目標値を複数の回帰モデルからそれぞれ推定し、複数の目標値の推定結果から統合により未知の観測信号の目標値を推定する。複数の回帰モデルとしては、それぞれ推定結果の確率分布と信頼度を求めることができる回帰モデルが用いられる。
そして本発明では、推定部が、複数の回帰モデルのそれぞれの入力に対する信頼度により複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、複数の回帰モデルから出力される複数の推定結果の重み付け和により統合を行って未知の観測信号の目標値を推定する。
推定器構成部が備える回帰モデルは、学習フェーズによってパラメータが最適化されたものである。この学習フェーズでは、未知の観測信号と何らかの関係がある複数の観測信号を用意して、異なった特徴量ごとに回帰モデルを学習して回帰モデルの最適化(学習データを最もよく再現するように必要なパラメータの設定)を図る。未知の観測信号が音楽音響信号であれば、既知の音楽音響信号を用いて回帰モデルの学習を行うことになる。そして推定部は、学習した回帰モデルを用いて分析フェーズを実行する。推定部では、分析したい観測信号を入力として、目標値(推定値)の平均即ち推定結果と分散を複数の回帰モデルごとに得たのち、回帰モデルによって同時に求まる信頼度(分散の逆数)により複数の回帰モデルから出力される複数の推定結果(平均)に付ける重みを求め、複数の回帰モデルから出力される複数の推定結果の重み付け和により統合を行って未知の観測信号の目標値を推定する。すなわち複数の推定結果と分散を用いて最尤推定を行い推定結果を統合する。回帰モデルによって求める推定結果は、回帰モデルに未知の観測信号を入力して得られた確率分布の平均から複数の回帰モデルごとに計算により求められ、信頼度は、回帰モデルを用いて得た確率分布の分散に基づいて、複数の回帰モデルごとに計算により求められる。信頼度は確率分布の分散の逆数によって得られる。
本発明によれば、入力である観測信号の性質を考慮して推定結果の統合を信頼度に基づいて変えることができる目標値推定システムを提供することができる。
推定器構成部は、複数の観測信号のそれぞれについて、複数の特徴量を抽出する特徴量抽出部と、特徴量抽出部が抽出した複数の特徴量と観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、複数の特徴量に対応した複数の回帰モデルを生成して記憶する回帰モデル生成記憶部とを備えているのが好ましい。また推定部は、複数の回帰モデルのそれぞれの入力に対する信頼度を演算する信頼度演算部と、信頼度により複数の回帰モデルから出力される複数の推定結果に付ける重みを求める重み演算部と、複数の回帰モデルから出力される複数の推定結果の重み付け和により統合を行って未知の観測信号の目標値を推定する重み付け和演算及び目標値推定部を備えているのが好ましい。
なお推定器構成部及び前記推定部は、コンピュータによって実現することができる。また推定器構成部及び前記推定部は、それぞれ複数のプロセッサと複数のメモリによって実現することもできる。この場合、特徴量抽出部、回帰モデル生成記憶部、信頼度演算部、重み演算部及び重み付け和演算及び目標値推定部は、それぞれ1以上のプロセッサと1以上のメモリによって実現することができる。
観測信号の種類は任意である。音楽印象分析を行う場合には、観測信号が音楽音響信号であり、この場合の目標値は音楽印象値である。入力された音楽音響信号に対する各回帰モデルによる推定結果(平均)と信頼度を計算し、それらを用いて最尤推定によって推定結果を統合することで、従来よりも推定性能を向上させる効果があることが確認されている。
回帰モデルとしては、ガウシアンプロセスで回帰する回帰モデル、クリギング法で回帰する回帰モデルまたはベイズ推定で回帰する回帰モデル等を用いることができる。特にガウシアンプロセス回帰モデルを用いると、数理的な定式化が容易になる。ガウシアンプロセス回帰モデルは推定値の分布をガウス分布として推定でき、確率分布の分散の逆数を信頼度として解釈することができるため、信頼度に基づいて重み付けをする本発明に利用するのに適している。そして実験の結果、特徴量ごとに学習された回帰モデルの信頼度は推定しようとしている音楽印象値に応じて変化することが確認されている。
複数の回帰モデルから得られる複数の信頼度をそのまま線形の関係で正規化前重みとし、正規化前重みを全て加算して1となるように正規化した結果を重みとすることができる。このようにすると、例えば、特徴量の値に大きなばらつきがあるときに、その特徴量を用いて目標値を回帰モデルによって推定すると、推定値の分散が大きくなり、与えられている入力に対しての推定結果の信頼度が低くなる。しかし入力される観測信号に応じて回帰モデルの出力の信頼度を、回帰モデルによって求まる確率分布の分散からその都度計算して、複数の回帰モデルのそれぞれから得られる推定結果(平均)に適切な重み付けを付けて複数の推定結果を重み付け和として統合することができ、適切な目標値を得ることができる。特徴量は入力される観測信号に応じて変化するので、信頼度を変化させながら適正な分析を行うことができる。
また複数の回帰モデルから得られる複数の信頼度がより大きいほど正規化前重みがより強調されて大きくなり、信頼度がより小さければ正規化前重みがより強調されて小さくなるような非線形の関係で正規化前重みを求め、正規化前重みを全て加算して1となるように正規化した結果を重みとすることができる。このようにすると、信頼度の最大値と比べて小さい信頼度である推定結果を統合に用いる度合いを軽減して、よりロバストな推定が行える。
音楽印象値は、Valence(誘起)とArousal(覚醒)とからなる2次元の値である。この場合、推定部は、複数の回帰モデルによって推定される2次元の値の重み付け和をそれぞれValence(誘起)の推定値及びArousal(覚醒)の推定値として出力するように構成すればよい。
なお信頼度は、回帰モデルを用いて得た特徴量の推定結果の分散が小さい領域ほど信頼度が高くなり、推定結果の分散が大きい領域ほど信頼度が低くなるように定められることになる。
複数の特徴量は、複数の特徴量グループに分けることができる。グループは、相互に関係性のある特徴量によって構成するのが好ましい。そして複数の特徴量グループに対して複数の回帰モデルを作成してもよい。このようにすると特定の特徴量のグループに特化した回帰モデルを学習でき、入力される観測信号によっては、全ての特徴量について回帰モデルを設けた場合よりも高い推定性能が得られる。
観測信号が音楽音響信号であり、目標値が音楽印象値である場合、特徴量グループに、時間領域関連特徴量グループ、スペクトル関連特徴量グループ、ピッチ関連特徴量グループ、振幅スペクトル特徴量グループが少なくとも含まれていると、分析精度が高くなる。
推定部は、入力値が複数の回帰モデルにおいて準備されている特徴量の既知の入力値と異なる入力値のときには、異なる入力値に近い既知の入力値との近さに応じて推定結果を補間する機能をさらに備えているのが好ましい。このようにすると推定精度を高めることができる。なおこの機能を実現する演算式は、学習フェーズにおける複数の回帰モデルの最適化の際に定められる。
本発明は、方法の発明としても特定することができる。
本発明の方法は、準備ステップと推定ステップによって構成される。準備ステップでは、複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを準備する。そして推定ステップでは、複数の回帰モデルに未知の観測信号を入力し、未知の観測信号の複数の特徴量に対応する複数の目標値を複数の回帰モデルからそれぞれ推定し、複数の目標値の推定結果から統合により未知の観測信号の目標値を推定する。そして複数の回帰モデルとして、それぞれ推定結果の確率分布と信頼度を求めることができる回帰モデルを用いる。
そして本発明の方法では、推定ステップで、複数の回帰モデルのそれぞれの入力に対する信頼度により複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、複数の回帰モデルから出力される複数の推定結果の重み付け和により統合を行って未知の観測信号の目標値を推定する。
また本発明は、コンピュータによって本発明の方法を実現する場合において、コンピュータ読み取り可能な非一次的な記憶媒体に記憶されるプログラムとしても特定することができる。
本発明の目標値推定システムの実施の形態の基本構成を示すブロック図である。 図1に示した第1の実施の形態をコンピュータを用いて実現する場合の方法またはプログラムのアルゴリズムを示す図である。 既存手法と本発明の実施例の概要図である。 学習データの例を示す図である。 ガウシアンプロセスで回帰する回帰モデルの学習ステップを示す図である。 特徴量統計量(平均・分散)の算出のステップのフローを示す図である。 フレーム単位特徴量抽出のステップのフローを示す図である。 特徴量グループ構成のステップのフローを示す図である。 信頼度付推定器学習のステップのフローを示す図である。 (A)及び(B)は、音楽印象値の補間のための計算式の作成を説明するために用いる図である。 (A)及び(B)は、音楽印象値の信頼度の補間のための計算式の作成を説明するために用いる図である。 信頼度に基づく推定をコンピュータを用いて実現する場合の方法またはプログラムのアルゴリズムを示す図である。 観測信号からの信号の切り出しを説明するために用いる図である。 音楽印象推定のステップの詳細を示す図である。 二つの推定結果を統合する際の重み付き平均操作の様子を説明するために用いる図である。 ロバストな推定における重みの置き換え結果の例を示す図である。 評価のための推定結果の比較を示す図である。 Valence(誘起)とArousal(覚醒)の値を2次元座標として表現した印象空間と、空間の各場所に対応する印象を表わす単語表示したものである。
[実施の形態の基本構成]
以下図面を参照して、本発明の目標値推定システム、目標値推定方法及び目標値推定用プログラムの実施の形態を詳細に説明する。図1は、本発明の目標値推定システムをコンピュータまたは複数のプロセッサと複数のメモリを用いて実現する実施の形態の基本構成を示すブロック図である。本実施の形態の目標値推定システムは、推定器構成部1と、推定部4とを備えている。推定器構成部1は、複数の回帰モデル21〜2n(nは2以上の正の整数)を生成して記憶する回帰モデル生成記憶部2と特徴量抽出部3を備えている。回帰モデル21〜2nは、それぞれ推定結果の確率分布と信頼度を求めることができる回帰モデルであり、例えば、ガウシアンプロセスで回帰する回帰モデル、クリギング法で回帰する回帰モデルまたはベイズ推定で回帰する回帰モデルが用いられる。これらの回帰モデル21〜2nは、学習用に準備した複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化(パラメータの最適化)が行われた、複数の特徴量に対応した複数の回帰モデルである。特に回帰モデル21〜2nに、ガウシアンプロセスで回帰する回帰モデルを用いると、数理的な定式化が容易になる。ガウシアンプロセスで回帰する回帰モデルは推定値の分布をガウス分布として推定することができ、確率分布の分散の逆数を推定結果の信頼度として解釈することができるため、信頼度に基づいて重み付けをする本発明に利用するのに適している。
学習に使用する観測信号の種類は、未知の観測信号の種類と同じ種類か似た種類のものであることが好ましい。例えば未知の観測信号が音楽音響信号であれば、学習用の複数の観測信号も音楽音響信号であるのが好ましい。観測信号が音楽音響信号で音楽印象分析に本発明を用いる場合、目標値は音楽印象値となる。
推定部4は、推定器構成部1を含んで、さらに信頼度演算部5と、重み演算部6と、重み付け和演算及び目標値推定部7とを備えている。推定部4では、分析したい観測信号を入力として、推定値(目標値)の平均と確率分布の分散を複数の回帰モデル21〜2nによってそれぞれ得たのち、回帰モデル21〜2nによって同時に求まる信頼度(分散の逆数)に基づいて推定値の重みを求め、複数の回帰モデルの複数の推定結果の重み付け和の算出を行って統合を行う。具体的には、推定部4は、推定器構成部1に未知の観測信号を入力し、特徴量抽出部3で抽出した未知の観測信号の複数の特徴量に対応する複数の目標値を複数の回帰モデル21〜2nからそれぞれ推定する。そして複数の目標値の推定結果から統合により未知の観測信号の目標値を推定する。
推定結果は、回帰モデル21〜2nに未知の観測信号を入力して得られた確率分布の平均から複数の回帰モデルごとに計算により求められる。そして信頼度演算部5は、複数の回帰モデル21〜2nのそれぞれの入力に対する信頼度により複数の回帰モデル21〜2nから得た確率分布の分散に基づいて各回帰モデル21〜2nの出力の信頼度を演算する。なお信頼度は、回帰モデルを用いて得た特徴量の推定結果の分散が小さい領域ほど信頼度が高くなり、推定結果の分散が大きい領域ほど信頼度が低くなる。そして重み演算部6は、演算された信頼度に基づいて重みを演算する。重み演算部6における重みの求め方としては、例えば、極端に小さい信頼度が得られない場合には、複数の回帰モデル21〜2nから得られる複数の信頼度をそのまま線形の関係で正規化前重みとし、正規化前重みを全て加算して1となるように正規化した結果を重みとすることができる。また極端に小さい信頼度が得られる場合等には、ロバストな統合を行うため、複数の回帰モデル21〜2nから得られる複数の信頼度がより大きいほど正規化前重みがより強調されて大きくなり、信頼度がより小さければ正規化前重みがより強調されて小さくなるような非線形の関係で正規化前重みを求め、正規化前重みを全て加算して1となるように正規化した結果を重みとすることができる。なお重みの求め方については、具体的な実施例において後で詳しく説明する。
重み付け和演算及び目標値推定部7は、複数の回帰モデル21〜2nから出力される推定結果の重み付け和を演算する(即ち統合をする)。そして重み付け和演算及び目標値推定部7は、複数の回帰モデル21〜2nの推定結果の統合を行って未知の観測信号の目標値を推定している。
信頼度演算部5により、入力される観測信号に応じて回帰モデルの出力の信頼度を回帰モデルによって求まる確率分布の分散からその都度計算して、重み演算部6により複数の回帰モデルのそれぞれから得られる推定結果に適切な重み付けを付け、重み付け和演算及び目標値推定部7により複数の推定結果を重み付け和として統合すると、適切な推定結果を得ることができる。推定結果の統合については、具体的な実施例において後で詳しく説明する。
後に詳しく説明するが、分析する複数の特徴量は、複数の特徴量グループに分けることができる。グループは、相互に関係性のある特徴量によって構成するのが好ましい。複数の特徴量を複数の特徴量グループに分けた場合には、複数の特徴量グループに対して複数の回帰モデル21〜2nを用意する。このようにすると特定の特徴量のグループに特化した回帰モデルを学習でき、入力される観測信号によっては、より高い推定性能が得られる。なお観測信号が音楽音響信号であり、目標値が音楽印象値である場合、特徴量グループに、時間領域関連特徴量グループ、スペクトル関連特徴量グループ、ピッチ関連特徴量グループ、振幅スペクトル特徴量グループを少なくとも含めていると、分析精度が高くなる。
なお推定部4は、入力値が特徴量の既知の入力値と異なる入力値のときには、異なる入力値に近い既知の入力値との近さに応じて推定結果を補間する機能を設けることができる。本実施の形態の場合には、複数の回帰モデル21〜2nにこの機能を付与している。
推定器構成部1及び前記推定部4は、それぞれ複数のプロセッサと複数のメモリによって実現することができる。そして特徴量抽出部3、回帰モデル生成記憶部2、信頼度演算部5,重み演算部6及び重み付け和演算及び目標値推定部7は、それぞれ1以上のプロセッサと1以上のメモリによって実現できる。
図2は、図1に示した第1の実施の形態をコンピュータを用いて実現する場合の方法またはプログラムのアルゴリズムを示している。なおプログラムは、コンピュータ読み取り可能な非一時的な記憶媒体に記憶される。このアルゴリズムは、準備ステップST1と推定ステップST2によって構成される。準備ステップST1では、複数の観測信号のそれぞれについて、特徴量抽出部3により複数の特徴量を抽出する。既知の観測信号から抽出した複数の特徴量と観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、複数の特徴量に対応した複数の回帰モデル21〜2nを準備する。そして推定ステップST2では、複数の回帰モデルに未知の観測信号を入力し、特徴量抽出部3により抽出した未知の観測信号の複数の特徴量に対応する複数の目標値を複数の回帰モデル21〜2nからそれぞれ推定し、複数の目標値の推定結果から統合により未知の観測信号の目標値を推定する。そして推定ステップST2では、複数の回帰モデル21〜2nのそれぞれの入力に対する信頼度により複数の回帰モデル21〜2nから出力される複数の推定結果に付ける重みを求め、複数の回帰モデルから出力される複数の推定結果の重み付け和により統合を行って未知の観測信号の目標値を推定する。
[音楽音響信号を観測信号とする実施例]
以下図1の実施の形態を用いて、入力された音楽音響信号に対する各回帰モデルによる推定結果の信頼度を計算し、それらを用いて最尤推定を行い、推定結果を統合する場合の実施例について説明する。本実施例では、回帰モデル(図1の回帰モデル21〜2n)としてガウシアンプロセスで回帰する回帰モデルを用いる。そして目標値としての音楽印象値は、Valence(誘起)とArousal(覚醒)とからなる2次元の値(VA値)である。図3には、既存手法と本実施例(提案手法)の概要図を示している。この実施例では、音楽音響信号から後述する複数の特徴量X1,X2,X3を抽出し、特徴量に対応した複数のガウシアンプロセス(図1の回帰モデル21〜2n)で回帰する回帰モデルのそれぞれの入力に対する信頼度により複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、複数の回帰モデル(図1の回帰モデル21〜2n)から出力される複数の推定結果の重み付け和により統合を行って未知の観測信号の目標値を推定する。これに対して従来手法においては、回帰モデルは点推定を行い、その結果を統合している。本実施の形態のように推定結果を入力に応じて変化する信頼度に基づいて重み付け和により統合すると、推定値は正解値により近いものとなる。
[音響特徴量]
音響特徴量は、VA値を推定するにあたって音楽のどのような内容に対応しているかで選択することができる。調性や和音がValence(誘起)の値に関連し、テンポ、音高、ラウドネス、音色がArousal(覚醒)に関連している。そこで学習フェーズ及び分析フェーズで用いる音響特徴量としては、ゼロクロスレート、RMS(root-mean-squared amplitude)、スペクトル特徴量(スペクトラルコントラスト、スペクトラルセントロイド、スペクトルフラックス、スペクトルロールオフ、スペクトルフラットネス)、ピッチ、メル周波数ケプストラム係数MFCC(Mel-Frequency Cepstral Coefficients)、クロマベクトル(ピッチクラスプロファイル) が含まれている。本実施例では、6373次元の特徴量ベクトルを特徴量の性質に基づいて複数の特徴量グループに分けている。例えば、時間領域関連特徴量グループ、スペクトル関連特徴量グループ、ピッチ関連特徴量グループ、振幅スペクトル特徴量グループ等である。
[学習フェーズ]
本例では、ガウシアンプロセスで回帰する回帰モデルを用いて学習を行う。ガウシアンプロセスで回帰する回帰モデルを学習するために、Emotion in Music Database[M. Soleymani, M. N. Caro, and E. M. Schmidt, “1000 songs for emotional analysis of music,” in Proceedings of CroudMM 2013. ACM, 2013.]を学習データに用いた。この学習データには、744曲の音楽音響信号が含まれており、1から9までのスケールでVA値(音楽印象値)が音響信号にアノテーションされている。ガウシアンプロセスで回帰を行うにあたってAV値は−1.0から1.0の値域に正規化して用いた。図4は、この学習データの例を示している。図4の例では、既知の観測信号は30秒の音楽信号片S1〜SNに対して、Valence(誘起)値とArousal(覚醒)値がアノテーションされている。
複数の音楽特徴量を複数の音楽特徴量グループG11〜GMNに分け、ガウシアンプロセスで回帰する回帰モデル21〜2nの学習を、図5に示すフローに従って行った。具体的には、上記音楽音響信号(744曲)の学習データからランダムに選ばれた例えば音楽音響信号S1 〜SN(619 曲)を用い、それら音楽音高信号にアノテーションされている音楽印象値(V1〜VN及びA1〜AN)を用いた。そしてConstrained Optimization BY Linear Approximation (COBYLA) method [A. R. Conn, K. Scheinberg, and P. L. Toint, “On the convergence of derivative-free methods for unconstrained optimization,” Approximation theory and optimization, pp.83-108, 1997.] を用いてガウシアンプロセスで回帰する回帰モデル21〜2nのパラメータの最適化を行った。この最適化により、図5に示すように、パラメータが最適化された回帰モデル21〜2nには、n個の信頼度付きValence値推定器とn個の信頼度付きArousal値推定器が構成された状態になっている。
なお学習の際の特徴量グループを作成するための特徴量統計量(平均・分散)の算出は、図6のフローに従って実行される。なお図6に示すように音楽音響信号から12.9ミリ幅のハミング窓で6.4ミリ秒のシフトを行って複数のフレームを切り出す。そして切り出し波形からフレーム単位特徴量抽出を行う。図6の「フレーム単位特徴量抽出」のステップは、図7に示すフローに従って実行される。隣接するフレームから得た特徴量の差分を算出し、特徴量及び特徴量差分それぞれの統計量を算出する。
図5の「特徴量グループ構成」のステップは、特徴量及び特徴量差分それぞれの統計量から図8に示すフローに従って実行される。図5の「信頼度付推定器学習」のステップは、図9に示すフローに従って実行される。図9に示すフローでは、図8のフローに従って分けられた特徴量グループGm1〜Gmnと音楽印象値V1〜VN及びA1〜ANを入力として、信頼度付推定値計算式[後述する式(1)及び(2)]を構成する。具体的には、特徴量グループGm1〜Gmnから初期パラメータのもとカーネル行列[後述する式(1)及び(2)中の「K」]を算出する。そして学習データベースから得た音楽印象値V1〜VN及びA1〜ANを用いて尤度を最大化するパラメータ[後述する式(6)中のパラメータ(σf,s,σobs)を最適化(準ニュートン法)で算出し、最適パラメータのもと最適化されたカーネル行列を算出する。そして最後にこのカーネル行列と音楽印象値V1〜VN及びA1〜ANから信頼度付推定値計算式[後述する式(1)及び(2)ynとσ2]を得て、信頼度付音楽印象値推定器が回帰モデル21〜2n内に実現される。
図10(A)は、回帰モデル21〜2n内に実現される信頼度付推定値計算式における音楽印象値である推定値の掲載式[後述する式(1)のyn]に、補間機能を持たせるためのアルゴリズムを示している。このアルゴリズムで作成された推定値の演算式[後述する式(1)のyn]は、学習データベースから得た音楽印象値(Valence値とArousal値)とカーネル行列とに基づいて、学習で使用したデータベースから計算された特徴量グループの値との近さに応じて未知の観測信号からの入力値に対する音楽印象値を補間できるように定められている。図10(B)は補間機能の実現をイメージで示す図である。図10(B)においては、理解を容易にするためX−Y軸には1つの特徴量グループに含まれる第1成分(1つの特徴量)と第2成分(他の1つの特徴量)の値とし、Z軸は推定値を示している。そして図10(B)中の黒点が学習データの値である。そして網目の位置が計算式によって補間された値である。計算式に補間機能が含まれていると、少ない数の学習データであっても、未知の入力値に対応した値が得られることが判る。なお実際には、複数の特徴量グループに含まれる複数の成分相互間において演算が行われるので、それらを図10(B)のようなイメージで表示することはできない。
また図11(A)は、回帰モデル21〜2n内に実現される信頼度付音楽印象値推定器において、信頼度を計算するために用いる分散を計算する補間機能を有する計算式[後述する式(2)のσ2]を求めるときのアルゴリズムを示している。補間機能を有する分散の掲載式は、学習データから得たカーネル行列[後述する式(2)中の「K」]に対して、学習データベースから計算された特徴量グループの値が集中する値の周辺で分散が小さくなるよう分散を求めることができるように分散の計算式を作成する。図11(B)の(a)〜(c)には、補間された学習データと、分散と信頼度との関係を概念的に図示してある。図11(B)の(a)〜(c)の横軸は、正規化したある特徴量グループの特徴量の値である。図11(B)の(a)は、ある特徴量グループの学習データの値(×印)を補間によりつないだものである。図11(B)の(a)において符号PDを付した曲線は、その推定値の確率分布である。学習データの推定結果(平均)が確率分布PDの頂点に対応するように確率分布が存在しており、確率分布の拡がりが分散の大きさに比例している。分散が小さい領域では、学習データが集中しており、分散が大きい領域では学習データが集中していない。図11(B)の(c)の信頼度は、分散の逆数(1/σ2)である。推定値と信頼度との関係からは、学習データが集中するところでは信頼度が高いことが判る。本発明では、信頼度に基づく適切な重み付けを推定結果(平均)に付けて複数の推定結果を重み付け和として統合する。その結果、適切な目標値を得ることができる。
[尤度を最大化するパラメータの最適化について]
ガウシアンプロセスで回帰する回帰モデルを用いる場合において、パラメータの最適化ができることを説明する。{xn (1)…xn (D), yn (1)…yn (D)}をD点のデータをもつn番目の特徴量についての学習データとする。さらにynを、学習データの値を集めたベクトルyn=( yn (1)…yn (D)Tとする。ただしTはベクトルの転置を表わす。ガウシアンプロセス回帰を用いると学習データに基づいて推定したい値の分布をガウス分布Pn(y)=N(yn, σ2 n)として推定できる。そのガウス分布(確率分布)の平均ynと分散σ2 n は以下のように求まる。
ここでKは最適パラメータのもとで算出されたカーネル行列であり、Iは対角成分が1で残りの成分がすべて0である行列である。そしてσf,s,σobsは、それぞれパラメータである。またk(・,・)は特徴量ベクトル同士の相対的関係を定義する関数であり、以下のように表される。
*とKはそれぞれ、
である。パラメータであるσobs ,σf,s は学習データに基づく対数尤度
を最大化するように最適化によって求めることができる。最適化には準ニュートン法や、Constrained Optimization BY Linear Approximation (COBYLA) method [A. R. Conn, K. Scheinberg, and P. L. Toint, “On the convergence of derivative-free methods for unconstrained optimization,”Approximation theory and optimization, pp.83-108, 1997] を用いることができる。本実施例ではVA値の予測値の誤差がガウス分布に従うと仮定しガウシアンプロセスで回帰する回帰モデル用いたが、予測値の平均と分散を求められる回帰モデルであれば、他の回帰モデルを用いることができる。例えば、クリギング法で回帰する回帰モデルまたはベイズ推定で回帰する回帰モデルを用いることができる。
上記のようにパラメータの最適化を行った回帰モデル21〜2nを用いて分析フェーズを実施する。
[分析フェーズ]
分析フェーズでは、分析したい音楽音響信号を入力として、VA値の平均と分散を各々の回帰モデルによって得たのち、回帰モデルによって同時に求まる信頼度(確率分布の分散の逆数)に基づいて推定値の重み付き和の算出を行う。回帰モデルによって求める確率分布の分散は、各々の音響特徴量の値の学習データ中での相関関係によって決まる。例えば、学習データ中においてあるVA値が正解ラベルとして与えられている音響特徴量の値に大きなばらつきがあるとき、その音響特徴量を用いてVA値を回帰モデルによって推定すると、推定値の分散が大きく、したがっていま与えられている入力に対しての推定結果の信頼度が低いことがわかる。このように入力される音楽音響信号に応じて信頼度をその都度計算することができるので、各回帰モデルから得られる推定結果を適応的に統合する。
分析フェーズでは、未知の音楽音響信号(観測信号)から信頼度に基づいてAV値を推定する。図12は、信頼度に基づく推定をコンピュータを用いて実現する場合の方法またはプログラムのアルゴリズムを示している。分析を行う場合には、図13に示すように未知の音楽音響信号(観測信号)から30秒の窓幅で信号の切り出しを行う。具体的には、窓を15秒間隔で時間軸方向に移動させることにより複数の音楽音響信号断片T1〜TK を切り出す。次に図12に示すように、複数の音楽音響信号断片T1〜TKのそれぞれについて特徴量抽出を行って、特徴量統計量を演算する。そして複数の音楽音響信号断片T1〜TKのそれぞれについて複数の特徴量グループG11〜GMT1,・・・G1K〜GMkを構成する。「特徴量グループ構成」のステップは、図8において説明した学習フェーズにおける特徴量グループ構成のステップと同様に実行される。次に「音楽印象推定」のステップでは、複数の音楽音響信号断片T1〜TKのそれぞれについての複数の特徴量グループG11〜GM1,・・・G1K〜GMkから、複数の音楽音響信号断片T1〜TKのそれぞれについてのValence推定値とArousal推定値が推定される。図14は、「音楽印象推定」のステップの詳細を示している。実際の「音楽印象推定」のステップでは、複数の特徴量グループG11〜GM1,・・・G1K〜GMkの値から、特徴量グループG11〜GM1,・・・G1K〜GMkからのValence推定値とArousal推定値の他に信頼度を演算している。
そして、Valence推定値とArousal推定値と信頼度を用いた最尤推定あるいは後述するよりロバストな推定を行っている。具体的には、音楽音響信号断片T1〜TKに応じて回帰モデルの出力の信頼度を、回帰モデルによって求まる確率分布の分散からその都度計算して、複数の回帰モデルのそれぞれから得られる推定結果(Valence推定値とArousal推定値)に信頼度に基づく適切な重み付けを付けて複数の推定結果を重み付け和として統合する。ここまでが本発明の目標推定方法を適用した実施例である。図12における中央値の算出は、各音響信号断片から得た目標値の中央値の算出であり、この中央値からは音楽音響信号全体の音楽印象値が判る。
[信頼度に基づく推定結果の統合]
ある決められた時間長の音楽音響信号が与えられたとき、その音響信号が想起させる音楽印象をVA値として推定する。本例では、N種類の特徴量ベクトルx1・・・・xNそれぞれで構築された回帰モデルの推定結果を、その推定結果の信頼度に基づいて統合することで音楽印象を分析する。Valence値とArousal値をそれぞれについて同じ考え方を適用できるので、片方のみを推定する場合について以下に説明する。推定したいValence値またはArousal値をyと表わし、n番目の特徴量ベクトルを用いて推定した結果をynと表すことにする。そしてこれらyn (n = 1・・・N)の値を重み付けるための適切な重みwnを以下にように求める。
[推定結果の信頼度の定量化と信頼度に基づく統合]
n番目の特徴量ベクトルxnから印象の値ynへの変換を考える。もしも与えられた音響信号が想起する印象の真の値がy*であると知っていれば、この特徴量についての推定誤差εnは以下のように定義できる。
いま、2種類の印象の値についての推定が得られているとする。すなわち、n番目とm番目の特徴量ベクトルから、それぞれynとymが推定値として得られているとする。もしεn(y*)とεm(y*)比べてより0に近い値をもてば、n番目の特徴量の方がm番目の特徴量よりも真の値y*を推定するにあたって信頼がおけるということがわかる。真の値がわからない中では、この信頼度は確率的に見積もる必要がある。いまεn(y*)が平均0分散σ2 nのガウス分布に従うとすると、これは以下のように定式化できる。
このとき分散の逆数1/σ2 nがn番目の特徴量による推定値の信頼度を定量化したものとみなせる。たとえば1/σ2 n>1/σ2 mであれば、n番目の特徴量による推定結果がm番目の特徴量の推定結果に比べてより信頼度が高いということができる。
ここでN個の異なる特徴量から推定された結果をどのように統合するかを考える。推定誤差εn(n =1,・・・,N)のそれぞれが平均0分散σ2 nのガウス分布に従うという仮定から、推定値yについての確率分布は以下のようにN個得られる。
各推定値が互いに独立であるとすると、N個の推定結果が得られる同時確率PJ(y)は各nについての確率のn=1,・・・,Nについて積を計算することで求められる。同時確率PJ(y)は、以下の式で求めることができる。
この同時確率を最大化するyの値が、yの最尤推定値である。上の式より、yについて同時確率PJ(y)を最大化するには、ζ2をyについて最大化すればよい。したがって、dζ2/dy=0を解くことで、下記の式を得ることができる。
上式から、N個の推定結果y1,・・・,yNを分散σ2 n,・・・,σ2 Nを用いて統合する際の最尤推定値は、σ2 nの逆数、すなわち信頼度1/σ2 nの値を、n=1,・・・,Nについての和が1.0となるよう正規化した重みを用い、重み付き平均を計算して得られることがわかる。例として二つの推定結果を統合する際の重み付き平均操作の様子を図15に示す。図15に示した例は、推定値が−0.3であり分散が0.08である推定結果と推定値が0.4であり分散が0.2ある推定結果から最尤推定値である統合結果−0.1を得た例である。図15の横軸がValence値またはArousal値を表わす音楽印象値の軸であり、縦軸が確率密度である。統合結果は音楽印象値の軸上で二つの推定値を表わす点間を分散値の逆数の比で内分する点の値として計算される。
この統合では、複数の回帰モデルから得られる複数の信頼度をそのまま線形の関係で正規化前重みとし、正規化前重みを全て加算して1となるように正規化した結果を重みとする。例えば、特徴量の値に大きなばらつきがあるときに、その特徴量を用いて目標値を回帰モデルによって推定すると、推定値の分散が大きくなり、与えられている入力に対しての推定結果の信頼度が低くなる。しかし上記のように、入力される観測信号に応じて回帰モデルの出力の信頼度を回帰モデルによって求まる確率分布の分散からその都度計算して、複数の回帰モデルのそれぞれから得られる推定結果(平均)に適切な重み付けを付けて複数の推定結果を重み付け和として統合すれば、適切な目標値を得ることができる。特徴量は入力される観測信号に応じて変化するので、信頼度を変化させながら適正な分析を行うことができる。
[推定結果のよりロバストな統合]
統合する際に信頼度が極端に小さい推定値がある場合には、その推定値を統合に用いる度合いを軽減することで、よりロバストな推定が行える。すなわち信頼度の最大値と比べて小さい信頼度である推定値がある場合には、複数の回帰モデルから得られる複数の信頼度がより大きいほど正規化前重みがより強調されて大きくなり、信頼度がより小さければ正規化前重みがより強調されて小さくなるような非線形の関係で正規化前重みを求め、正規化前重みを全て加算して1となるように正規化した結果を重みとする。
具体的には、統合する際に信頼度が極端に小さい推定値がある場合には、その推定値を統合に用いる度合いを軽減することで、よりロバストな推定が行える。いま各推定値に対応する信頼度wnの最大値がwmaxであるとき、上記式(12)におけるwn
と置き換えることで、信頼度の最大値と比べて小さい信頼度である推定値を統合に用いる度合いを軽減できる。ここでaはその度合いを制御するパラメータである。aを大きくすると、信頼度から計算される重みが大きいほどより大きい重みへと変換され、また重みが小さいほどより小さい重みへと変換される。よって信頼度の小さい推定値を統合に用いる度合いが軽減される。
例として(w1,w2,w3,w4)=(19.0,17.0,2.4,1.6) である場合を考える。まずw’n への置き換えを行わない場合、これらの値を足して1.0となるように正規化することで重みを求めると下記のようになる。
次に、よりロバストな推定を行う場合、すなわち式(7) を用いてwnをw’nへと置き換えてから重みを求める場合を考える。式(7) によって定まるwn=wmaxとw’n=wmax の関係をa=1.0,2.0,5.0,20.0それぞれの場合について図16に示す。aの値が小さいほど、wmax に比べて小さい値がより小さく変換されることがわかる。推定値を統合する際の重みはwn を正規化して求めるため、wmaxに近い値ほど重みがより大きくなり、遠い値ほど重みが小さくなる効果が得られる。
たとえばa=2.0であるとき信頼度は、
へと置き換えられる。これらの値を足して1.0となるように正規化することで、重みは(0.55,0.44,8.7×10-3,3.9×10-3)と求まる。
これを置き換え前の重み(0.475,0.425,0.06,0.04)と比べると、比較的大きな重みであった0.475 と0.425 はより大きな重み0.55 と0.44 へと変換され、他の比較的小さな重み0.06 と0.04 は、より小さい重み8.7×10-3と3.9 ×10-3へと変換された。このように重みの値のうち大きいものについてはより大きく、小さいものについてはより小さくすることができる。
同様にa=1.0,0,5.0.20.0,50.0の場合についても重みを計算すると、
a=1.0 (0,475,0.425,0.06,0.04)
a=2.0 (0.55,0.44,8.7×10-3,3.9×10-3)
a=5.0 (0.64,0.36,2.0×10-5,2.7×10-6)
a=20.0 (0.90,0.09,9.7×10-19,2.9×10-22)
a=50.0 (0.99,0.003,1.2×10-45,1.8×10-54)
となる。aが十分に大きいときには、信頼度が最大である場合のみ重みをもち、その他の場合は限りなく0.0に近い重みになることがわかる。これは推定値の統合の際に信頼度が最大である推定値を統合結果とすることに等しい。またa=1.0であるときには式(14) の変換をしない場合の重みに一致している。
以上の結果から、複数の回帰モデルから得られる複数の信頼度がより大きいほど正規化前重みがより強調されて大きくなり、信頼度がより小さければ正規化前重みがより強調されて小さくなるような非線形の関係で正規化前重みを求め、正規化前重みを全て加算して1となるように正規化した結果を重みとすることが有効であることが判る。
[音楽印象分析の性能評価]
信頼度に基づく推定結果の統合技術の有効性を検証した結果について説明する。30秒間の音楽音響信号に対してVA値を推定する実験を行った。このとき、異なる実験条件のもとで音楽印象分析の性能を比較した。
音楽印象分析性能の比較は、以下3つの実験条件を準備した。
(1) 複数のガウシアンプロセスで回帰する回帰モデルの信頼度に基づく統合(実施例)
(2) 複数のガウシアンプロセスで回帰する回帰モデルの固定重みでの統合
(3) 単一のガウシアンプロセスで回帰する回帰モデルを用いたて推定結果の統合なし
実験は、はじめに音楽音響信号から音響特徴量を抽出した。音響信号に対して短時間フーリエ変換を行い、フレームごとに音響特徴量を計算した。本比較実験では2014年のMediaEval Emotion in Music task における音楽印象分析手法のコンペティションで1位となった手法 [E. Coutinho, F. Weninger, B. Schuller, and K. R. Scherer, “The Munich LSTM-RNN approach to the MediaEval 2014 _‘Emotion in Music_’task,”in Proceedings of MediaEval 2014 Workshop, 2014.] で用いられた特徴量を利用した。その特徴量には、ゼロクロスレート、RMS(root-mean-squared amplitude)、スペクトル特徴量、ピッチ、MFCC(Mel-Frequency Cepstral Coefficients) が含まれている。比較実験においては特徴量の値を1つのベクトルへと集め計6373次元の特徴量ベクトルを構成した。次にガウシアンプロセスで回帰する回帰モデルを学習した。本実験においては6373次元の特徴量ベクトルを特徴量の性質に基づいて3つに分割して用いた。1つ目はスペクトル特徴量、2つ目はMFCC、3つ目はそのほかの特徴量の値を集めた。ガウシアンプロセスで回帰する回帰モデルを学習するために、Emotion in Music Database[M. Soleymani, M. N. Caro, and E. M. Schmidt, “1000 songs for emotional analysis of music,”in Proceedings of CroudMM 2013. ACM, 2013.27]を学習データに用いた。744曲の音楽音響信号が含まれており、1から9までのスケールでVA値が音響信号にアノテーションされているものを用いた。ガウシアンプロセスで回帰する回帰モデルを用いるにあたってAV値は−1.0から1.0の値域に正規化して用いた。回帰モデルの学習にはランダムに選ばれた619曲を用い、性能評価には残りの125曲を正解値として用いた。Constrained Optimization BY Linear Approximation (COBYLA) methodを用いてガウシアンプロセスで回帰する回帰モデルのパラメータの最適化を行った。
最後に、回帰モデルによる推定値を信頼度に基づいて統合してVA値を求める。和が1になるように正規化された、分散の逆数に比例する重みによって、それぞれの回帰モデルによる推定値の重みづけ和を算出し、その値を推定結果とした。
比較手法である実験条件(2) のためには、固定された重みによる推定値の統合を行うために、学習データ(619曲) を309曲と310曲の2つの群へと分割し、前者で特徴量ごとのガウシアンプセスによる回帰を学習し、後者の正解データを用いて、各ガウシアンプセスによる回帰の推定値と正解データの間の重回帰分析を行った。そして、それによって求まった回帰係数を用いて各回帰モデルからの推定結果の重みづけ和を計算して推定結果とした。実験条件(3) のためには、6373次元のベクトルを一括して特徴量ベクトルとしてガウシアンプロセスで回帰する回帰モデルを学習し、その回帰モデルによる推定値をそのまま推定結果とした。
性能評価指標にはR-squared value(R2) と平均二乗誤差(RMSE:root mean squared error) を用いた。これらの指標はMediaEval Emotion in Music task において性能の公式指標として使われているものである。R2には複数の定義があるため、本実験では既存の音楽印象分析の既存研究[K. Markov and T. Matsui, “Music genre and emotion recognition using Gaussian process,”IEEE Access, vol. 2, pp. 688-697, June 2014.] において評価に用いられている定義を用いた。
実験の結果、信頼度に基づく推定結果の統合技術によって音楽印象分析の性能が向上することがわかった。評価結果を図17に示す。図17は、信頼度に基づく推定結果の統合を用いた場合とそうでない場合での音楽印象分析の推定結果の比較を示している。音楽音響信号とVA値は音楽印象分析アルゴリズムのコンペティションであるMediaEval 2013 Emotion in Music で用いられているものを使い、評価指標も同コンペティションにて採用されているものを用いた。データは10-fold cross-validation 方式によって学習データと評価データへと分割し、回帰モデルの学習と評価を行った。上段にArousal値の推定性能、下段にValence値の推定性能を示す。
Valence値 とArousal値 のいずれを推定する場合においても、信頼度に基づく推定結果の統合を用いた場合に、もっとも性能が良かった。固定された重みによる推定結果の統合を行う場合と比べると、Arousalの値の推定において2.7%、Valenceの値の推定において4.0%の推定性能向上が見られた。Arousalの値を推定する場合には、推定値を統合する方法がともに単一のガウシアンプロセスで回帰する回帰モデルを用いる場合と比較して性能が高かった。Valenceの値を推定する場合には、信頼度に基づく推定結果の統合を行う場合においてのみ、単一の回帰モデルを用いる場合と比べての性能の改善があった。
上記実験から、信頼度に基づく推定結果の統合技術によって高性能の音楽印象分析の実現を確認した。確率分布に基づいて推定結果と信頼度を求めることができる回帰モデル用い、複数の回帰モデルからの推定結果を信頼度に基づいて統合することで、本発明を用いた場合に、用いなかった場合と比べて音楽印象分析の性能が向上することを確認した。
[観測信号の種類]
上記実施例では音楽音響信号を観測信号としたが、本発明は、音楽音響信号以外のあらゆる種類の信号を対象とすることができる。例えば、 気温・降水量などの気象情報を観測信号として農産物の収穫量を推定する問題、不動産の敷地面積や最寄駅からの距離などを観測信号として不動産価格を推定する問題、血圧・心音・白血球の量など複数種の測定データを観測信号としてある病気にかかっている確率を推定する問題など、複数種類の観測値(推定結果)の情報を統合して目標値の分析を行う状況では、どのような信号であっても本発明を適用できる。
本発明によれば、入力である観測信号の性質を考慮して推定結果の統合を信頼度に基づいて変えることができる目標値推定システム、目標値推定方法及び目標値推定用プログラムを提供することができる。
1 推定器構成部
2 回帰モデル生成記憶部
21〜2n 回帰モデル
3 特徴量抽出部
4 推定部
5 信頼度演算部
6 重み演算部
7 重み付け和演算及び目標値推定部

Claims (15)

  1. 複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを備えた推定器構成部と、
    前記推定器構成部に未知の観測信号を入力し、前記未知の観測信号の前記複数の特徴量に対応する複数の目標値を前記複数の回帰モデルからそれぞれ推定し、前記複数の目標値の推定結果から統合により前記未知の観測信号の目標値を推定する推定部とを備え、
    前記複数の回帰モデルとして、それぞれ確率分布に基づいて推定結果と信頼度を求めることができる回帰モデルが用いられ、
    前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、前記複数の回帰モデルから出力される複数の推定結果の重み付け和により前記統合を行って前記未知の観測信号の目標値を推定するように構成されており、
    前記推定結果は、前記回帰モデルに前記未知の観測信号を入力して得られた前記確率分布の平均から前記複数の回帰モデルごとに計算により求められ、前記信頼度は、前記回帰モデルを用いて得た前記確率分布の分散に基づいて、前記複数の回帰モデルごとに計算により求められたものであることを特徴とする目標値推定システム。
  2. 前記推定器構成部は、
    前記複数の観測信号のそれぞれについて、複数の特徴量を抽出する特徴量抽出部と、
    前記特徴量抽出部が抽出した前記複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを生成して記憶する回帰モデル生成記憶部とを備えており、
    前記推定部は、
    前記複数の回帰モデルのそれぞれの入力に対する前記信頼度を演算する信頼度演算部と、
    前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求める重み演算部と、
    前記複数の回帰モデルから出力される複数の推定結果の前記重み付け和により前記統合を行って前記未知の観測信号の目標値を推定する重み付け和演算及び目標値推定部を備えている請求項1に記載の目標値推定システム。
  3. 前記推定器構成部及び前記推定部は、コンピュータによって実現されている請求項2に記載の目標値推定システム。
  4. 前記推定器構成部及び前記推定部は、それぞれ複数のプロセッサと複数のメモリによって実現されており、
    前記特徴量抽出部、前記回帰モデル生成記憶部、前記信頼度演算部、前記重み演算部及び前記重み付け和演算及び目標値推定部は、それぞれ1以上のプロセッサと1以上のメモリによって実現されている請求項2に記載の目標値推定システム。
  5. 前記観測信号が音楽音響信号であり、前記目標値が音楽印象値である請求項1に記載の目標値推定システム。
  6. 前記回帰モデルは、ガウシアンプロセスで回帰する回帰モデル、クリギング法で回帰する回帰モデルまたはベイズ推定で回帰する回帰モデルである請求項1に記載の目標値推定システム。
  7. 前記複数の特徴量が複数の特徴量グループに分けられ、前記複数の特徴量グループに対して前記複数の回帰モデルが作成されている請求項1に記載の目標値推定システム。
  8. 前記観測信号が音楽音響信号であり、前記目標値が音楽印象値であり、
    前記特徴量グループには、時間領域関連特徴量グループ、スペクトル関連特徴量グループ、ピッチ関連特徴量グループ、振幅スペクトル特徴量グループが少なくとも含まれている請求項7に記載の目標値推定システム。
  9. 複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを備えた推定器構成部と、
    前記推定器構成部に未知の観測信号を入力し、前記未知の観測信号の前記複数の特徴量に対応する複数の目標値を前記複数の回帰モデルからそれぞれ推定し、前記複数の目標値の推定結果から統合により前記未知の観測信号の目標値を推定する推定部とを備え、
    前記複数の回帰モデルとして、それぞれ確率分布に基づいて推定結果と信頼度を求めることができる回帰モデルが用いられ、
    前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、前記複数の回帰モデルから出力される複数の推定結果の重み付け和により前記統合を行って前記未知の観測信号の目標値を推定するように構成されており、
    前記推定器構成部は、前記複数の観測信号のそれぞれについて、複数の特徴量を抽出する特徴量抽出部と、前記特徴量抽出部が抽出した前記複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを生成して記憶する回帰モデル生成記憶部とを備えており、
    前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度を演算する信頼度演算部と、前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求める重み演算部と、前記複数の回帰モデルから出力される複数の推定結果の前記重み付け和により前記統合を行って前記未知の観測信号の目標値を推定する重み付け和演算及び目標値推定部を備えており、
    前記信頼度演算部は、前記信頼度を、前記回帰モデルを用いて得た前記特徴量の前記推定結果の分散が小さい領域ほど信頼度が高くなり、前記推定結果の分散が大きい領域ほど信頼度が低くなるように定める目標値推定システム。
  10. 複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを備えた推定器構成部と、
    前記推定器構成部に未知の観測信号を入力し、前記未知の観測信号の前記複数の特徴量に対応する複数の目標値を前記複数の回帰モデルからそれぞれ推定し、前記複数の目標値の推定結果から統合により前記未知の観測信号の目標値を推定する推定部とを備え、
    前記複数の回帰モデルとして、それぞれ確率分布に基づいて推定結果と信頼度を求めることができる回帰モデルが用いられ、
    前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、前記複数の回帰モデルから出力される複数の推定結果の重み付け和により前記統合を行って前記未知の観測信号の目標値を推定するように構成されており、
    前記推定器構成部は、前記複数の観測信号のそれぞれについて、複数の特徴量を抽出する特徴量抽出部と、1前記特徴量抽出部が抽出した前記複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを生成して記憶する回帰モデル生成記憶部とを備えており、
    前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度を演算する信頼度演算部と、前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求める重み演算部と、前記複数の回帰モデルから出力される複数の推定結果の前記重み付け和により前記統合を行って前記未知の観測信号の目標値を推定する重み付け和演算及び目標値推定部を備えており、
    前記信頼度演算部は、前記複数の回帰モデルから得られる前記複数の信頼度をそのまま線形の関係で正規化前重みとし、前記正規化前重みを全て加算して1となるように正規化した結果を前記重みとする目標値推定システム。
  11. 複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを備えた推定器構成部と、
    前記推定器構成部に未知の観測信号を入力し、前記未知の観測信号の前記複数の特徴量に対応する複数の目標値を前記複数の回帰モデルからそれぞれ推定し、前記複数の目標値の推定結果から統合により前記未知の観測信号の目標値を推定する推定部とを備え、
    前記複数の回帰モデルとして、それぞれ確率分布に基づいて推定結果と信頼度を求めることができる回帰モデルが用いられ、
    前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、前記複数の回帰モデルから出力される複数の推定結果の重み付け和により前記統合を行って前記未知の観測信号の目標値を推定するように構成されており、
    前記推定器構成部は、前記複数の観測信号のそれぞれについて、複数の特徴量を抽出する特徴量抽出部と、前記特徴量抽出部が抽出した前記複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを生成して記憶する回帰モデル生成記憶部とを備えており、
    前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度を演算する信頼度演算部と、前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求める重み演算部と、前記複数の回帰モデルから出力される複数の推定結果の前記重み付け和により前記統合を行って前記未知の観測信号の目標値を推定する重み付け和演算及び目標値推定部を備えており、
    前記信頼度演算部は、前記複数の回帰モデルから得られる前記複数の信頼度がより大きいほど正規化前重みがより強調されて大きくなり、信頼度がより小さければ正規化前重みがより強調されて小さくなるような非線形の関係で正規化前重みを求め、前記正規化前重みを全て加算して1となるように正規化した結果を前記重みとする目標値推定システム。
  12. 複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを備えた推定器構成部と、
    前記推定器構成部に未知の観測信号を入力し、前記未知の観測信号の前記複数の特徴量に対応する複数の目標値を前記複数の回帰モデルからそれぞれ推定し、前記複数の目標値の推定結果から統合により前記未知の観測信号の目標値を推定する推定部とを備え、
    前記複数の回帰モデルとして、それぞれ確率分布に基づいて推定結果と信頼度を求めることができる回帰モデルが用いられ、
    前記推定部は、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、前記複数の回帰モデルから出力される複数の推定結果の重み付け和により前記統合を行って前記未知の観測信号の目標値を推定するように構成されており、
    前記推定部は、入力値が前記複数の回帰モデルにおいて準備されている前記特徴量の既知の入力値と異なる入力値のときには、前記異なる入力値に近い前記既知の入力値との近さに応じて前記推定結果を補間する機能をさらに備えている目標値推定システム。
  13. 前記音楽印象値は、誘起と覚醒とからなる2次元の値であり、
    前記推定部は、前記複数の回帰モデルによって推定される前記2次元の値の重み付け和をそれぞれ誘起の推定値及び覚醒の推定値として出力する請求項5に記載の目標値推定システム。
  14. 複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを準備するステップと、
    前記複数の回帰モデルに未知の観測信号を入力し、前記未知の観測信号の前記複数の特徴量に対応する複数の目標値を前記複数の回帰モデルからそれぞれ推定し、前記複数の目標値の推定結果から統合により前記未知の観測信号の目標値を推定する推定ステップとからなり、
    前記複数の回帰モデルとして、それぞれ推定結果の確率分布と信頼度を求めることができる回帰モデルを用い、
    前記推定ステップでは、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、前記複数の回帰モデルから出力される複数の推定結果の重み付け和により前記統合を行って前記未知の観測信号の目標値を推定し、
    前記推定結果は、前記回帰モデルに前記未知の観測信号を入力して得られた前記確率分布の平均から前記複数の回帰モデルごとに計算により求められ、前記信頼度は、前記回帰モデルを用いて得た前記確率分布の分散に基づいて、前記複数の回帰モデルごとに計算により求められたものであることを特徴とする目標値推定方法。
  15. 複数の観測信号のそれぞれについて、複数の特徴量を抽出し、抽出した複数の特徴量と前記観測信号に対して求められるべき目標値とが対になった複数の学習データに基づいて最適化が行われた、前記複数の特徴量に対応した複数の回帰モデルを準備するステップと、
    前記複数の回帰モデルに未知の観測信号を入力し、前記未知の観測信号の前記複数の特徴量に対応する複数の目標値を前記複数の回帰モデルからそれぞれ推定し、前記複数の目標値の推定結果から統合により前記未知の観測信号の目標値を推定する推定ステップとからなり、
    前記複数の回帰モデルとして、それぞれ推定結果の確率分布と信頼度を求めることができる回帰モデルを用い、
    前記推定ステップでは、前記複数の回帰モデルのそれぞれの入力に対する前記信頼度により前記複数の回帰モデルから出力される複数の推定結果に付ける重みを求め、前記複数の回帰モデルから出力される複数の推定結果の重み付け和により前記統合を行って前記未知の観測信号の目標値を推定し、
    前記推定結果は、前記回帰モデルに前記未知の観測信号を入力して得られた前記確率分布の平均から前記複数の回帰モデルごとに計算により求められ、前記信頼度は、前記回帰モデルを用いて得た前記確率分布の分散に基づいて、前記複数の回帰モデルごとに計算により求められたものであることをコンピュータで実現するためにコンピュータ読み取り可能な非一時的な記憶媒体に記憶された目標値推定用コンピュータプログラム。
JP2017561192A 2016-01-14 2017-01-13 目標値推定システム、目標値推定方法及び目標値推定用プログラム Active JP6622329B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016005219 2016-01-14
JP2016005219 2016-01-14
PCT/JP2017/001070 WO2017122798A1 (ja) 2016-01-14 2017-01-13 目標値推定システム、目標値推定方法及び目標値推定用プログラム

Publications (2)

Publication Number Publication Date
JPWO2017122798A1 JPWO2017122798A1 (ja) 2018-09-13
JP6622329B2 true JP6622329B2 (ja) 2019-12-18

Family

ID=59311984

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2017561192A Active JP6622329B2 (ja) 2016-01-14 2017-01-13 目標値推定システム、目標値推定方法及び目標値推定用プログラム

Country Status (4)

Country Link
US (1) US10614830B2 (ja)
JP (1) JP6622329B2 (ja)
GB (1) GB2574682A (ja)
WO (1) WO2017122798A1 (ja)

Families Citing this family (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10824119B2 (en) * 2016-03-29 2020-11-03 International Business Machines Corporation Intelligent energy switch
GB201618288D0 (en) 2016-10-28 2016-12-14 Remarkable As Interactive displays
EP3392884A1 (en) * 2017-04-21 2018-10-24 audEERING GmbH A method for automatic affective state inference and an automated affective state inference system
US10643074B1 (en) * 2018-06-08 2020-05-05 Amazon Technologies, Inc. Automated video ratings
US11153655B1 (en) 2018-09-26 2021-10-19 Amazon Technologies, Inc. Content appeal prediction using machine learning
US10897649B1 (en) 2018-09-26 2021-01-19 Amazon Technologies, Inc. Mature themes prediction for online content
CN109635375A (zh) * 2018-11-23 2019-04-16 中国航空工业集团公司沈阳飞机设计研究所 基于多元线性回归的飞机成品设备重量估算方法
CN110223712B (zh) * 2019-06-05 2021-04-20 西安交通大学 一种基于双向卷积循环稀疏网络的音乐情感识别方法
CN111401228B (zh) * 2020-03-13 2023-12-19 中科创达软件股份有限公司 视频目标标注方法、装置及电子设备
US20240028020A1 (en) 2020-09-10 2024-01-25 Fanuc Corporation State determination device and state determination method
CN112401924B (zh) * 2020-11-19 2022-02-11 循音智能科技(上海)有限公司 一种心音分割方法及装置
JP2023074822A (ja) * 2021-11-18 2023-05-30 アズビル株式会社 情報処理装置、情報処理方法及び情報処理プログラム
KR102480140B1 (ko) * 2022-05-19 2022-12-23 (주)아크릴 인공 신경망 모델 학습 결과 합성을 통한 공통 모델 생성 방법
KR20240095697A (ko) * 2022-12-16 2024-06-26 현대자동차주식회사 컨텐츠 제공 장치 및 방법
CN117519044B (zh) * 2023-12-01 2024-06-11 重庆雄川科技有限公司 基于智慧园区的生产线智能控制方法及系统

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3148120B2 (ja) 1996-05-01 2001-03-19 三菱電機株式会社 追尾装置
US9292493B2 (en) * 2010-01-07 2016-03-22 The Trustees Of The Stevens Institute Of Technology Systems and methods for automatically detecting deception in human communications expressed in digital form
JP5573443B2 (ja) * 2010-07-14 2014-08-20 ソニー株式会社 情報処理装置、情報処理方法、及びプログラム
JP2015108898A (ja) * 2013-12-03 2015-06-11 日本電信電話株式会社 異常検知システム及び異常検知方法

Also Published As

Publication number Publication date
US20190027162A1 (en) 2019-01-24
JPWO2017122798A1 (ja) 2018-09-13
WO2017122798A1 (ja) 2017-07-20
US10614830B2 (en) 2020-04-07
GB201812998D0 (en) 2018-09-26
GB2574682A (en) 2019-12-18

Similar Documents

Publication Publication Date Title
JP6622329B2 (ja) 目標値推定システム、目標値推定方法及び目標値推定用プログラム
Tsanas et al. Robust fundamental frequency estimation in sustained vowels: detailed algorithmic comparisons and information fusion with adaptive Kalman filtering
Huang et al. Music genre classification based on local feature selection using a self-adaptive harmony search algorithm
Schmidt et al. Feature Learning in Dynamic Environments: Modeling the Acoustic Structure of Musical Emotion.
CN109285551A (zh) 基于wmfcc和dnn的帕金森患者声纹识别方法
Wang et al. Automatic assessment of pathological voice quality using multidimensional acoustic analysis based on the GRBAS scale
Hariharan et al. A new feature constituting approach to detection of vocal fold pathology
La Rocca et al. Clustering nonlinear time series with neural network bootstrap forecast distributions
Wang et al. A multi-channel UNet framework based on SNMF-DCNN for robust heart-lung-sound separation
Shen et al. Least squares kernel ensemble regression in Reproducing Kernel Hilbert Space
Dahl et al. Time series (re) sampling using generative adversarial networks
JP4392621B2 (ja) 情報処理装置、情報処理方法、およびプログラム
JP4433323B2 (ja) 情報処理装置、情報処理方法、およびプログラム
Gupta et al. Towards controllable audio texture morphing
Shafik et al. Boosting nonlinear additive autoregressive time series
Mossavat et al. A hierarchical Bayesian approach to modeling heterogeneity in speech quality assessment
Parker et al. Nonlinear time series classification using bispectrum‐based deep convolutional neural networks
Yuanchao et al. Improved pitch shifting data augmentation for ship-radiated noise classification
US12087275B2 (en) Neural-network-based text-to-speech model for novel speaker generation
Anderson et al. Time-frequency feature extraction for classification of episodic memory
Zhang et al. SDFIE-NET–A self-learning dual-feature fusion information capture expression method for birdsong recognition
Ankışhan et al. A hybrid measure for the discrimination of the acoustic signals: Feature matrix (FMx)
Zhang et al. A Heart Sound Signal Classification Method Based on the Mixed Characteristics of Mel Cepstrum Coefficient and Second-Order Spectrum
Uğuz et al. Classification of internal carotid artery Doppler signals using fuzzy discrete hidden Markov model
Pentari et al. Investigating Graph-based Features for Speech Emotion Recognition

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20180511

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190528

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20190729

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20190903

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20191029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20191112

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20191121

R150 Certificate of patent or registration of utility model

Ref document number: 6622329

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250