JP7086521B2 - 情報処理方法および情報処理装置 - Google Patents

情報処理方法および情報処理装置 Download PDF

Info

Publication number
JP7086521B2
JP7086521B2 JP2017035367A JP2017035367A JP7086521B2 JP 7086521 B2 JP7086521 B2 JP 7086521B2 JP 2017035367 A JP2017035367 A JP 2017035367A JP 2017035367 A JP2017035367 A JP 2017035367A JP 7086521 B2 JP7086521 B2 JP 7086521B2
Authority
JP
Japan
Prior art keywords
scene type
content
feature amount
acoustic
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2017035367A
Other languages
English (en)
Other versions
JP2018141854A (ja
Inventor
雄太 湯山
慶太 有元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2017035367A priority Critical patent/JP7086521B2/ja
Priority to PCT/JP2018/006174 priority patent/WO2018155481A1/ja
Publication of JP2018141854A publication Critical patent/JP2018141854A/ja
Priority to US16/550,404 priority patent/US10789972B2/en
Priority to US16/920,002 priority patent/US11011187B2/en
Priority to JP2021046467A priority patent/JP7283496B2/ja
Application granted granted Critical
Publication of JP7086521B2 publication Critical patent/JP7086521B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/75Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/61Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/10Machine learning using kernel methods, e.g. support vector machines [SVM]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/57Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • Algebra (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Mathematical Optimization (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Television Signal Processing For Recording (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)

Description

本発明は、映像および音響を含むコンテンツを解析する技術に関する。
映像作品等のコンテンツのシーンの種別(以下「シーン種別」という)を解析する各種の技術が従来から提案されている。例えば特許文献1には、コンテンツの映像ストリームから会話シーンまたはレースシーン等の各種のシーン種別を解析する技術が開示されている。
特開2009-296274号公報
しかし、コンテンツの映像の傾向とシーン種別との関係は非常に多様であるから、映像ストリームからシーン種別を正確に特定できない場合がある。以上の事情を考慮して、本発明の好適な態様は、コンテンツのシーン種別を適切に特定することを目的とする。
以上の課題を解決するために、本発明の好適な態様に係る情報処理方法は、1以上のコンテンツにおける音響の特徴量を分類した複数のクラスタの何れかについて利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する。
また、本発明の他の態様に係る情報処理装置は、1以上のコンテンツにおける音響の特徴量を分類した複数のクラスタの何れかについて利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する学習データ生成部と、前記複数の学習データを利用した機械学習により、音響の特徴量とシーン種別との関係を表す識別モデルを生成する識別モデル生成部とを具備する。
第1実施形態におけるAVシステムの構成図である。 情報処理装置の機能に着目した構成図である。 制御装置が実行する処理のフローチャートである。 第2実施形態における識別モデルの説明図である。 第3実施形態における情報処理装置の構成図である。 第3実施形態の制御装置が実行する処理のフローチャートである。 第3実施形態における設定画面の模式図である。 変形例における情報処理装置の構成図である。
<第1実施形態>
図1は、本発明の第1実施形態に係るAV(Audio-Visual)システム10の構成図である。第1実施形態のAVシステム10は、映像と音響とを含むコンテンツを再生するためのコンピュータシステムである。コンテンツは、例えば映画,スポーツ映像,ライブ映像,ミュージックビデオまたはゲーム等の映像作品である。図1に例示される通り、第1実施形態のAVシステム10は、情報処理装置100と信号供給装置11と放音システム12と表示装置13とを具備する。
信号供給装置11は、映像と音響とを含むコンテンツを表すコンテンツデータDを情報処理装置100に供給する。例えば、可搬型または内蔵型の記録媒体からコンテンツデータDを取得して情報処理装置100に出力する再生機器が信号供給装置11の好適例である。なお、例えば配信サーバ装置(図示略)が送信したコンテンツデータDをインターネット等の通信網から受信する通信装置を、信号供給装置11として利用することも可能である。
第1実施形態の情報処理装置100は、信号供給装置11から供給されるコンテンツデータDを処理するコンピュータシステム(コンテンツ処理装置)であり、制御装置21と記憶装置22と信号取得部23と再生制御部24とを具備する。なお、相互に別体で用意された複数の装置により情報処理装置100を実現することも可能である。
信号取得部23は、信号供給装置11からコンテンツデータDを受信するインタフェースである。第1実施形態の信号取得部23は、信号供給装置11から供給されるコンテンツデータDから音響信号A1と映像信号V1とを抽出する。音響信号A1は、コンテンツを構成する音響(例えば映像作品内の会話音,効果音,演奏音等)を表す信号である。第1実施形態の音響信号A1はNチャンネル(例えば5.1チャンネル)で構成される。映像信号V1は、コンテンツを構成する映像を表す信号である。
再生制御部24は、音響信号A1および映像信号V1を処理する。具体的には、再生制御部24は、再生制御データQを適用した信号処理により音響信号A1および映像信号V1を調整する。再生制御データQは、コンテンツの再生を制御するためのデータである。図1に例示される通り、第1実施形態の再生制御データQは、音響制御データQaと映像制御データQvとを包含する。音響制御データQaは、コンテンツに含まれる音響の再生を制御するためのデータであり、例えば、コンテンツの音響で形成される音場(例えば仮想音像の定位位置)を制御するための複数のパラメータを含む。他方、映像制御データQvは、コンテンツに含まれる映像の再生を制御するためのデータであり、例えば画像の明度またはコントラスト等の映像特性を制御するための複数のパラメータを含む。
図1に例示される通り、第1実施形態の再生制御部24は、音響処理部242と映像処理部244とを含んで構成される。音響処理部242は、信号取得部23から供給される音響信号A1を処理することで音響信号A2を生成する。第1実施形態の音響処理部242は、音響制御データQaを適用した音場制御によりNチャンネルの音響信号A2を生成する。音場制御は、受聴者が知覚する仮想空間内の残響特性等の音場特性を調整するための音響処理である。例えば、音響処理部242は、仮想空間内の複数の音響経路について残響音(初期反射音および後期残響音)を音響制御データQaに応じて生成し、複数の残響音を表す信号を音響信号A1に混合することで音響信号A2を生成する。なお、音響信号A1と音響信号A2とでチャンネルの総数を相違させることも可能である。他方、映像処理部244は、信号取得部23から供給される映像信号V1を処理することで映像信号V2を生成する。具体的には、映像処理部244は、映像制御データQvを適用した画像処理により映像信号V2を生成する。
放音システム12は、例えばN個のスピーカ装置で構成されたNチャンネルのサラウンドシステムであり、音響処理部242から供給されるNチャンネルの音響信号A2が表す音響を放音する。表示装置13は、例えば液晶表示パネルで構成され、映像処理部244から供給される映像信号V2が表す映像を表示する。
制御装置21は、例えばCPU(Central Processing Unit)等の処理回路を含んで構成され、情報処理装置100の各要素を統括的に制御する。記憶装置22は、制御装置21が実行するプログラムと制御装置21が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置22として任意に採用され得る。なお、情報処理装置100とは別体で記憶装置22(例えばクラウドストレージ)を用意し、インターネット等の通信網を介して制御装置21が記憶装置22に対する読出および書込を実行することも可能である。
図2は、制御装置21の機能に着目した構成図である。図2に例示される通り、第1実施形態の制御装置21は、記憶装置22に記憶されたプログラムを実行することで、再生制御部24が利用する再生制御データQを設定するための複数の要素(特徴抽出部31,解析処理部32および設定処理部33)として機能する。なお、制御装置21の一部の機能を専用の電子回路で実現した構成、または、制御装置21の機能を複数の装置に分散した構成も採用され得る。また、再生制御部24の一部または全部の機能を制御装置21が実現することも可能である。
特徴抽出部31は、コンテンツの音響に関する特徴量Fを抽出する。具体的には、特徴抽出部31は、信号取得部23から供給される音響信号A1を解析することで特徴量Fを抽出する。特徴抽出部31による特徴量Fの抽出は、単位期間毎に順次に実行される。単位期間は、所定の時間長(例えば数百ミリ秒)の期間である。
第1実施形態の特徴量Fは、Nチャンネルにそれぞれ対応するN個の要素を配列したベクトル(特徴ベクトル)である。特徴量Fのベクトルを構成する任意の1個の要素は、音響信号A1のうち当該要素に対応するチャンネルの周波数特性に関する特徴を表す。具体的には、音響信号A1の1個のチャンネルから抽出されるMFCC(Mel-Frequency Cepstrum Coefficients)が、特徴量Fにおいて当該チャンネルに対応する要素として好適である。例えば、特徴量Fは、MFCCを表すU次元のベクトル(U個の係数の系列)をNチャンネルについて配列した、(U×N)個の要素で構成されるベクトルである(Uは自然数)。以上の説明から理解される通り、第1実施形態の特徴量Fは、Nチャンネルの音響信号A1で実現される音場の特徴(すなわち、Nチャンネルの各々における周波数特性の特徴)を表す指標である。
解析処理部32は、コンテンツにおける音響の特徴量Fに応じて当該コンテンツのシーン種別Sを特定する。シーン種別Sは、コンテンツで表現される場面の分類(カテゴリ)である。例えば、スタンダード,スペクタクル,サイファイ(Sci-Fi),アドベンチャー,ドラマ,ミュージックビデオ等を含む複数のシーン種別Sの何れかが、解析処理部32により特定される。Nチャンネルの音響信号A1で実現される音場の特徴は、コンテンツのシーン種別Sに依存する傾向がある。例えば、登場人物の台詞が重要な「ドラマ」の場面では、音声に特有の特徴量Fが優勢に観測され、広大な場面を舞台とする「スペクタクル」の場面では、多様な種類の混合音または爆発音等の効果音に特有の周波数特性をNチャンネルの全体が表す複雑な特徴量Fが優勢に観測される、という傾向がある。以上の傾向を考慮すると、特徴抽出部31が抽出する特徴量Fは、解析処理部32がシーン種別Sを特定するための指標として妥当である。解析処理部32によるシーン種別Sの特定は、特徴抽出部31による特徴量Fの抽出毎(すなわち単位期間毎)に順次に実行される。以上の説明から理解される通り、特許文献1の技術がコンテンツの映像に応じてシーン種別を特定するのとは対照的に、第1実施形態の解析処理部32は、コンテンツの音響に応じてシーン種別Sを特定する。
図2に例示される通り、記憶装置22には識別モデルMが記憶される。第1実施形態の解析処理部32は、記憶装置22に記憶された識別モデルMを利用して、コンテンツのシーン種別Sを特定する。識別モデルMは、音響の特徴量Fとシーン種別Sとの関係を表すパターン認識モデルである。第1実施形態の識別モデルMは、教師有学習を利用した統計モデルの代表例であるサポートベクターマシン(SVM:Support Vector Machine)である。既存の多数のコンテンツにおける特徴量Fとシーン種別Sとの傾向を反映させるための機械学習により識別モデルMが事前に生成される。具体的には、解析処理部32は、機械学習で決定された超平面を利用して、コンテンツの音響の特徴量Fが2種類のシーン種別Sの何れに該当するかを判別する。2種類のシーン種別Sの組合せを相違させた複数回にわたり判別を反復することで1種類のシーン種別Sが特定される。すなわち、既存の多数のコンテンツにおける特徴量Fとシーン種別Sとの関係のもとで、特徴抽出部31が抽出した特徴量Fに対して最尤である1種類のシーン種別Sが推定される。
設定処理部33は、解析処理部32が特定したシーン種別Sに応じてコンテンツの再生制御データQを設定する。図2に例示される通り、第1実施形態の記憶装置22は、相異なるシーン種別Sに対応する複数の再生制御データQを記憶する。任意の1種類のシーン種別Sに対応する再生制御データQは、コンテンツの再生に関する複数のパラメータの各々について、当該シーン種別Sに好適な数値を指定する。設定処理部33は、記憶装置22に記憶された複数の再生制御データQのうち解析処理部32が特定したシーン種別Sに対応する再生制御データQを記憶装置22から検索する。そして、設定処理部33は、記憶装置22から検索した再生制御データQ(音響制御データQaおよび映像制御データQv)を再生制御部24に対して指示する。したがって、コンテンツのシーン種別Sに応じた音場特性および映像特性でコンテンツが再生される。第1実施形態では単位期間毎にシーン種別Sが特定されるから、コンテンツのシーン毎に音場特性および映像特性が更新され得る。
図3は、第1実施形態の制御装置21が実行する処理(情報処理方法の例示)を例示するフローチャートである。単位期間毎に図3の処理が実行される。例えば、信号供給装置11によるコンテンツデータDの供給と、放音システム12および表示装置13によるコンテンツの再生とに並行して、図3の処理が実時間的に実行される。
図3の処理を開始すると、特徴抽出部31は、信号取得部23から供給される音響信号A1のうち単位期間内の部分から特徴量Fを抽出する(Sa1)。解析処理部32は、特徴抽出部31が抽出した特徴量Fを識別モデルMに付与することで単位期間のシーン種別Sを特定する(Sa2)。
以上の手順でシーン種別Sを特定すると、設定処理部33は、当該シーン種別Sに応じてコンテンツの再生制御データQを設定する(Sa3)。具体的には、設定処理部33は、記憶装置22に記憶された複数の再生制御データQのうちシーン種別Sに対応する再生制御データQを検索し、当該再生制御データQ(音響制御データQaおよび映像制御データQv)を再生制御部24に対して指示する。
再生制御部24の音響処理部242は、制御装置21が設定した音響制御データQaに応じた音場制御を音響信号A1に対して実行することでNチャンネルの音響信号A2を生成する。音響信号A2は放音システム12に供給される。したがって、コンテンツの音響がシーン種別Sに応じた音場特性で放音システム12から放音される。他方、再生制御部24の映像処理部244は、制御装置21が設定した映像制御データQvに応じた画像処理を映像信号V1に対して実行することで映像信号V2を生成する。映像信号V2は表示装置13に供給される。したがって、コンテンツの映像がシーン種別Sに応じた映像特性で表示装置13に表示される。
以上に説明した通り、第1実施形態では、コンテンツの音響の特徴量Fに応じてシーン種別Sが特定されるから、コンテンツの映像からはシーン種別Sを正確に特定できない場合でも、コンテンツのシーン種別Sを特定することが可能である。第1実施形態では特に、音響の特徴量Fとシーン種別Sとの関係を表す識別モデルMがシーン種別Sの特定に利用される。したがって、特徴量Fとシーン種別Sとの間に想定される傾向のもとで、特徴抽出部31が抽出する特徴量Fにとって最尤であるシーン種別Sを特定することが可能である。
また、コンテンツの再生を制御するための再生制御データQがシーン種別Sに応じて設定されるから、コンテンツのシーン種別Sにとって適切な特性でコンテンツを再生することが可能である。例えば、第1実施形態では、コンテンツの音響で形成される音場を制御するための音響制御データQaがシーン種別Sに応じて設定される。したがって、コンテンツのシーン種別Sにとって適切な音場でコンテンツの音響を再生することが可能である。
第1実施形態では、Nチャンネルの各々の音響信号A1の周波数特性(例えばMFCC)に応じた要素を含むベクトルを特徴量Fとしてシーン種別Sが特定される。すなわち、Nチャンネルの音響信号A1で実現される音場の特徴を表す特徴量Fがシーン種別Sの特定に利用される。したがって、Nチャンネルの音響信号A1で実現される音場の特徴がシーン種別Sに依存するという傾向のもとで、高精度にシーン種別Sを特定することが可能である。
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において、機能または作用が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
第1実施形態では、特徴量Fが2種類のシーン種別Sの何れに該当するかを判別するサポートベクターマシンを識別モデルMとして例示した。第2実施形態では、複数の確率分布の加重和で表現される混合分布を識別モデルM(すなわち混合分布モデル)として利用する。図4は、第2実施形態の識別モデルMの説明図である。なお、特徴量Fが存在し得るベクトル空間として、図4では便宜的に2次元空間が例示されている。図4に例示される通り、第2実施形態の識別モデルMは、相異なるK種類(図4ではK=3)のシーン種別S1~SKにそれぞれ対応するK個の確率分布φ1~φKで構成される混合分布である。例えば各確率分布φk(k=1~K)を正規分布とした混合正規分布(ガウス混合モデル)が識別モデルMとして好適である。既存の多数のコンテンツにおける特徴量Fとシーン種別Skとの関係を反映させるための機械学習により識別モデルMが生成される。
図4に例示される通り、第2実施形態の解析処理部32は、特徴抽出部31が単位期間毎に抽出した特徴量Fから、K種類のシーン種別S1~SKの各々に対応する尤度Lk(L1~LK)を算定する。すなわち、相異なるシーン種別Skに対応するK個の尤度L1~LKが単位期間毎に順次に算定される。任意の1種類のシーン種別Skに対応する尤度Lkは、当該シーン種別Skの確率分布φkのもとで特徴量Fが観測される確度の指標である。すなわち、コンテンツにおいて特徴量Fが抽出された単位期間がシーン種別Skに該当する可能性が高いほど、当該シーン種別Skに対応する尤度Lkは大きい数値に設定される。以上の説明から理解される通り、第2実施形態の識別モデルMは、コンテンツの音響の1個の特徴量Fから、K種類のシーン種別S1~SKの各々に関する尤度Lkを特定可能な統計モデルである。
第2実施形態の記憶装置22は、K種類のシーン種別S1~SKにそれぞれ対応するK個の再生制御データQ1~QKを記憶する。第2実施形態の設定処理部33は、解析処理部32がシーン種別Sk毎に算定した尤度Lkに応じて再生制御データQを設定する。具体的には、設定処理部33は、解析処理部32が算定した尤度Lkが大きいほど、当該尤度Lkに対応するシーン種別Skの再生制御データQkの内容に近付くように、設定処理部33は再生制御データQ(音響制御データQaおよび映像制御データQv)を生成する。例えば、各尤度Lkを加重値としたK個の音響制御データQaの加重和が音響制御データQaとして音響処理部242に指示され、各尤度Lkを加重値としたK個の映像制御データQvの加重和が映像制御データQvとして映像処理部244に指示される。したがって、K個の音響制御データQaのうち尤度Lkが大きいシーン種別Skの音響制御データQaほど、放音システム12による放音で形成される音場に対して優勢に反映される。また、K個の映像制御データQvのうち尤度Lkが大きいシーン種別Skの映像制御データQvほど、表示装置13に表示される映像に対して優勢に反映される。
<第3実施形態>
図5は、第3実施形態における情報処理装置200の構成図である。情報処理装置200は、第1実施形態または第2実施形態で利用される識別モデルMを生成するコンピュータシステム(識別モデル生成装置)である。例えば、携帯電話機およびスマートフォン等の可搬型の端末装置またはパーソナルコンピュータ等の情報機器が情報処理装置200として利用され得る。
図5に例示される通り、情報処理装置200は、制御装置51と記憶装置52と表示装置53と操作装置54と放音装置55とを具備する。表示装置53は、例えば液晶表示パネルで構成され、制御装置51から指示された画像を表示する。操作装置54は、利用者からの操作を受付ける入力機器である。具体的には、利用者が操作可能な複数の操作子、または、表示装置53の表示面に対する接触を検知するタッチパネルが、操作装置54として好適に利用される。
制御装置51は、例えばCPU等の処理回路を含んで構成され、情報処理装置200の各要素を統括的に制御する。記憶装置52は、制御装置51が実行するプログラムと制御装置51が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置52として任意に採用され得る。なお、情報処理装置100とは別体で記憶装置52(例えばクラウドストレージ)を用意し、インターネット等の通信網を介して制御装置51が記憶装置52に対する読出および書込を実行することも可能である。第3実施形態の記憶装置52は、多様なシーンを含む複数のコンテンツの各々についてNチャンネルの音響信号Aが記憶される。
図5に例示される通り、第3実施形態の制御装置51は、記憶装置52に記憶されたプログラムを実行することで、識別モデルMを生成するための複数の要素(特徴抽出部61,学習データ生成部62および識別モデル生成部63)として機能する。なお、制御装置51の一部の機能を専用の電子回路で実現した構成、または、制御装置51の機能を複数の装置に分散した構成も採用され得る。
特徴抽出部61は、記憶装置52に記憶された複数の音響信号Aの各々について単位期間毎に特徴量Fを抽出する。特徴抽出部61が抽出する特徴量Fは、第1実施形態と同様に、Nチャンネルの各々の周波数特性(例えばMFCC)に応じたN個の要素で構成される特徴ベクトルである。
学習データ生成部62は、識別モデルMの機械学習に利用される複数の学習データXを生成する。特徴抽出部61が抽出した複数の特徴量Fにそれぞれ対応する複数の学習データXを学習データ生成部62は生成する。複数の学習データXの各々は、特徴量Fとシーン種別Sとを含んで構成される。具体的には、任意の1個の学習データXは、音響信号Aから抽出された特徴量Fと、当該音響信号Aに対応するコンテンツのうち当該特徴量Fが抽出された部分の適正なシーン種別Sとを対応させた教師データ(正解データ)である。学習データXは、特徴量Fに対して正解のシーン種別Sのラベルを付加した教師データとも換言され得る。第3実施形態の学習データ生成部62は、操作装置54に対する利用者からの指示に応じて、各学習データXにおいて特徴量Fに対応させるシーン種別Sを設定する。
識別モデル生成部63は、学習データ生成部62が生成した複数の学習データXを利用した機械学習により識別モデルMを生成する。識別モデル生成部63が生成した識別モデルMが情報処理装置100の記憶装置22に転送されて、前述の通り、解析処理部32によるシーン種別Sの特定に利用される。識別モデルMは、例えばインターネット等の通信網を介して情報処理装置100に転送される。なお、半導体記録媒体等の可搬型の記録媒体を利用して識別モデルMを情報処理装置200から情報処理装置100に転送することも可能である。
図6は、第3実施形態の制御装置51が実行する処理(識別モデル生成方法)を例示するフローチャートである。操作装置54に対する利用者からの指示を契機として図6の処理が開始される。
図6の処理を開始すると、特徴抽出部61は、記憶装置52に記憶された複数の音響信号Aの各々から単位期間毎の特徴量Fを抽出する(Sb1)。学習データ生成部62は、特徴抽出部61が抽出した複数の特徴量Fにそれぞれ対応する複数の学習データXを生成する(Sb2:学習データ生成処理)。識別モデル生成部63は、学習データ生成部62が生成した複数の学習データXを利用した機械学習により識別モデルMを生成して記憶装置52に格納する(Sb3)。
学習データ生成部62が実行する学習データ生成処理Sb2(学習データ生成方法)の具体的な内容を説明する。学習データ生成処理Sb2を開始すると、学習データ生成部62は、ステップSb1において特徴抽出部61が抽出した複数の特徴量FをK個のクラスタ(部分集合)Cに分類する(Sb21)。複数の特徴量Fの分類には、公知のクラスタ分析技術が任意に採用され得る。クラスタの総数Kは可変値または固定値である。
学習データ生成部62は、複数の特徴量Fを分類した結果を表す画像(以下「設定画面」という)Gを表示装置53に表示させる(Sb22)。図7は、設定画面Gの模式図である。図7に例示される通り、設定画面Gは、特徴量Fの分布を2次元空間で表現した画像である。具体的には、設定画面Gは、各特徴量Fを表す特徴画像Pと、各クラスタCを表す範囲画像R(R1,R2,…)とを包含する。同種のシーン種別Sに対応する複数の特徴量の特徴画像Pは、1個のクラスタCに対応する範囲内に局所的に分布する。任意の1個のクラスタCに対応する範囲画像Rは、当該クラスタCに分類された複数の特徴量Fの特徴画像Pが分布する領域を包囲する閉図形(例えば楕円形)である。
利用者は、操作装置54を適宜に操作することで、設定画面Gにおける任意のクラスタC(具体的には範囲画像R)を選択し、当該クラスタCについて所望のシーン種別Sを指定することが可能である。すなわち、利用者は、任意のクラスタCに属する複数の特徴量Fに対して所望のシーン種別Sをラベリングする。利用者によるシーン種別Sの指示は複数のクラスタCの各々について反復される。以上に例示した利用者からの指示に応じて、学習データ生成部62は、複数のクラスタCの各々にシーン種別Sを設定する(Sb23)。図7に例示される通り、各クラスタCに設定されたシーン種別Sを表す種別画像Z(Z1,Z2,…)が、当該クラスタCの範囲画像Rの近傍に配置される。
なお、任意の1個のクラスタCを利用者が選択した場合に、当該クラスタCに属する特徴量Fに対応するコンテンツの区間(以下「再生区間」という)を放音装置55により再生することも可能である。再生区間は、例えば特徴量Fが抽出された単位期間を含む区間である。具体的には、学習データ生成部62は、音響信号Aのうち特徴量Fが抽出された再生区間を放音装置55に供給することで音響を再生させる。利用者は、放音装置55による再生音を聴取することで、当該再生区間のシーン種別Sを推定できる。任意の1個の特徴量Fの特徴画像Pを利用者が選択した場合に、当該特徴量Fに対応する再生区間を放音装置55に再生させることも可能である。なお、各クラスタCのシーン種別Sを利用者に選択させるための構成は任意である。例えば、各クラスタCの条件を対話形式で利用者に順次に回答させることで、各クラスタCのシーン種別Sを設定することも可能である。
学習データ生成部62は、各クラスタCに対するシーン種別Sを設定した結果に応じて複数の学習データXを生成する(Sb24)。具体的には、特徴抽出部61が抽出した特徴量Fと、当該特徴量Fが属するクラスタCに設定したシーン種別Sとを対応させた学習データXが、複数の特徴量Fの各々について生成される。1個のクラスタCに分類された相互に類似する複数の特徴量Fには、共通のシーン種別Sが設定される。以上の説明から理解される通り、第3実施形態の学習データ生成部62は、コンテンツの音響信号Aから抽出された特徴量Fを分類した複数のクラスタCの何れかについて利用者からの指示に応じてシーン種別Sを設定することで、当該クラスタCに属する特徴量Fと、当該クラスタCに設定されたシーン種別Sとを示す学習データXを生成する。
以上に説明した通り、第3実施形態では、コンテンツの音響の特徴量Fとコンテンツのシーン種別Sとを示す複数の学習データXが生成される。したがって、コンテンツの映像からはシーン種別Sを正確に特定できない場合でも、学習データXを利用した機械学習で生成された識別モデルMにより、当該コンテンツのシーン種別Sを特定することが可能である。また、各クラスタCに属する特徴量Fと、当該クラスタCについて利用者からの指示に応じて設定されたシーン種別Sとを示す複数の学習データXが生成されるから、利用者の意図または嗜好を反映した識別モデルMを生成できるという利点もある。
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
(1)単位期間毎にシーン種別Sを特定する前述の各形態では、短時間で頻繁にシーン種別S(さらには再生制御データQ)が変化する可能性がある。以上の事情を考慮すると、シーン種別Sの頻繁な変化を抑制するための構成が好適である。例えば、複数の単位期間の各々について、当該単位期間と周囲の他の単位期間とを含む所定個の単位期間のなかで最頻のシーン種別Sを選択することも可能である。以上の構成によれば、瞬間的なシーン種別Sの変化を抑制することが可能である。
(2)前述の各形態では、コンテンツの音響および映像の双方に着目したが、映像に関する要素は省略され得る。例えば、第1実施形態または第2実施形態において、映像処理部244(さらには映像制御データQv)および表示装置13を省略することも可能である。
(3)前述の各形態では、音響信号A1の周波数特性に応じた要素をNチャンネルについて配列した特徴ベクトルを特徴量Fとして例示したが、特徴量Fの種類は以上の例示に限定されない。例えば、相異なる音階音(例えば平均律の12半音の各々)に対応する複数の要素を含むクロマベクトル(PCP:Pitch Class Profile)を特徴量Fとして利用することも可能である。クロマベクトルのうち任意の1個の音階音に対応する要素は、音響信号A1のうち当該音階音に対応する帯域成分の信号強度を複数のオクターブにわたり加算または平均した数値に設定される。また、音響信号A1の信号強度(レベル)に応じた要素をNチャンネルについて配列したN次元ベクトルを特徴量Fとして利用してもよい。なお、音響信号A1の全部のチャンネルを特徴量Fの抽出に利用する必要はない。例えば、Nチャンネルの音響信号A1の何れかから特徴量Fを抽出することも可能である。
(4)第1実施形態ではサポートベクターマシンを識別モデルMとして例示し、第2実施形態では混合分布モデル(例えばガウス混合モデル)を識別モデルMとして例示したが、識別モデルMの種類は以上の例示に限定されない。例えば、ニューラルネットワークまたはベイズ分類等の各種のパターン認識モデルを識別モデルMとして利用することが可能である。以上の例示から理解される通り、識別モデルMは、音響の特徴量Fとシーン種別Sとの関係を表す統計モデルとして包括的に表現される。具体的には、識別モデルMは、既存の多数のコンテンツにおける特徴量Fとシーン種別Sとの間で成立する関係のもとで、当該識別モデルMに付与された特徴量Fに対して妥当性の高いシーン種別Sを判別する仕組みである。
(5)移動体通信網またはインターネット等の通信網を介して端末装置(例えば携帯電話機またはスマートフォン)と通信するサーバ装置に、第1実施形態または第2実施形態に係る情報処理装置100の少なくとも一部の機能を実行させることも可能である。
例えば、図8に例示される通り、端末装置300と通信可能な情報処理装置100(例えばウェブサーバ)に特徴抽出部31と解析処理部32と設定処理部33とが設置される。特徴抽出部31は、端末装置300から通信網400を介して音響信号A1を受信し、当該音響信号A1から特徴量Fを抽出する(Sa1)。解析処理部32は、前述の各形態と同様に、特徴量Fからシーン種別Sを特定する(Sa2)。設定処理部33は、シーン種別Sに応じた再生制御データQを設定し、当該再生制御データQを端末装置300に送信する(Sa3)。再生制御データQを利用した処理を実行する再生制御部24は、端末装置300に搭載される。
なお、特徴抽出部31を端末装置300に設置し、特徴抽出部31が抽出した特徴量Fを端末装置300から情報処理装置100に送信する(情報処理装置100からは特徴抽出部31を省略する)ことも可能である。解析処理部32は、端末装置300から受信した特徴量Fからシーン種別Sを特定する。また、設定処理部33を端末装置300に設置する(情報処理装置100から設定処理部33を省略する)ことも可能である。解析処理部32は、特徴量Fから特定したシーン種別Sを端末装置300の設定処理部33に通知する。また、再生制御部24を情報処理装置100に設置し、再生制御部24による処理後の音響信号A2および映像信号V2を端末装置300に送信することも可能である。
(6)第3実施形態に係る情報処理装置200の少なくとも一部の機能を、情報処理装置200とは別体の外部装置で実現することも可能である。例えば、携帯電話機またはスマートフォン等の端末装置で情報処理装置200を実現する構成のもとで、端末装置と通信可能なサーバ装置に特徴抽出部61が設置される。すなわち、情報処理装置200から特徴抽出部61は省略される。また、識別モデルMを生成する第3実施形態の機能を、第1実施形態または第2実施形態の情報処理装置100に搭載することも可能である。
(7)前述の各形態では、コンテンツの音響の特徴量Fからシーン種別Sを特定したが、コンテンツの音響の特徴量Fと当該コンテンツの映像の特徴量とからシーン種別Sを特定することも可能である。すなわち、音響の特徴量Fに加えて映像の特徴量も加味してシーン種別Sを特定する構成は、本発明の範囲から除外されない。
(8)第1実施形態または第2実施形態に係る情報処理装置100は、前述の例示の通り、制御装置21とプログラムとの協働により実現される。第1実施形態および第2実施形態から把握されるプログラムは、コンピュータに、映像と音響とを含むコンテンツにおける音響の特徴量Fに応じて当該コンテンツのシーン種別Sを特定する解析処理(Sa2)を実行させる。さらに好適な態様に係るプログラムは、コンピュータに、解析処理で特定したシーン種別Sに応じて、コンテンツの再生を制御するための再生制御データQを設定する設定処理(Sa3)を実行させる。
また、第3実施形態に係る情報処理装置200は、前述の例示の通り、制御装置51とプログラムとの協働により実現される。第3実施形態から把握されるプログラムは、1以上のコンテンツにおける音響の特徴量Fを分類した複数のクラスタCの何れかについて利用者からの指示に応じてシーン種別Sを設定することで、当該クラスタCに属する特徴量Fと、当該クラスタCについて設定されたシーン種別Sとを示す学習データXを生成する学習データ生成処理(Sb2)と、複数の学習データXを利用した機械学習により、音響の特徴量Fとシーン種別Sとの関係を表す識別モデルMを生成する識別モデル生成処理(Sb3)とを実行させる。
以上に例示した各態様のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、非一過性の記録媒体とは、一過性の伝搬信号(transitory, propagating signal)を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。
(9)以上に例示した形態(特に第1実施形態および第2実施形態)から、例えば以下の態様が把握される。
<態様A1>
本発明の好適な態様(態様A1)に係る情報処理方法は、映像と音響とを含むコンテンツにおける前記音響の特徴量に応じて当該コンテンツのシーン種別を特定する。以上の態様では、コンテンツにおける音響の特徴量に応じてシーン種別が特定されるから、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。
<態様A2>
態様A1の好適例(態様A2)では、前記シーン種別の特定において、音響の特徴量とシーン種別との関係を表す識別モデルを利用して、前記コンテンツにおける前記音響の特徴量から当該コンテンツのシーン種別を特定する。以上の態様では、音響の特徴量とシーン種別との関係を表す識別モデルがシーン種別の特定に利用される。したがって、音響の特徴量とシーン種別との間に想定される傾向のもとで、特徴抽出部が抽出する特徴量に対して妥当性が高いシーン種別を特定することが可能である。
<態様A3>
態様A2の好適例(態様A3)において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量からひとつのシーン種別を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量からひとつのシーン種別を特定することが可能である。
<態様A4>
態様A2の好適例(態様A4)において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量から、複数のシーン種別の各々に関する尤度を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量から、複数のシーン種別の各々に関する尤度を特定することが可能である。
<態様A5>
態様A1から態様A4の何れかの好適例(態様A5)において、前記コンテンツの再生を制御するための再生制御データを、前記特定したシーン種別に応じて設定する。以上の態様では、コンテンツの再生を制御するための再生制御データがシーン種別に応じて設定される。したがって、コンテンツのシーン種別にとって適切な特性でコンテンツを再生することが可能である。
<態様A6>
態様A5の好適例(態様A6)において、前記再生制御データは、前記コンテンツの音響で形成される音場を制御するための音響制御データを含む。以上の態様では、コンテンツの音響で形成される音場を制御するための音響制御データがシーン種別に応じて設定される。したがって、コンテンツのシーン種別にとって適切な音場でコンテンツの音響を再生することが可能である。
<態様A7>
本発明の好適な態様(態様A7)に係る情報処理方法は、映像と音響とを含むコンテンツにおける前記音響の特徴量から特定された当該コンテンツのシーン種別に応じて、前記コンテンツの再生を制御するための再生制御データを設定する。以上の態様では、コンテンツの音響の特徴量から特定されたシーン種別に応じて、コンテンツの再生を制御するための再生制御データが設定される。したがって、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定し、当該シーン種別にとって適切な特性でコンテンツを再生することが可能である。
<態様A8>
態様A1から態様A7の何れかの好適例(態様A8)において、前記特徴量は、前記コンテンツの音響を表す複数のチャンネルにそれぞれ対応する複数の要素を含むベクトルであり、前記複数の要素の各々は、当該要素に対応するチャンネルの周波数特性に応じた数値である。以上の態様では、複数のチャンネルの各々の周波数特性に応じた要素を含むベクトルを特徴量としてシーン種別が特定される。すなわち、複数のチャンネルの音響信号で実現される音場の特徴を表す特徴量がシーン種別の特定に利用される。したがって、複数のチャンネルの音響信号で実現される音場の特徴がシーン種別に依存するという傾向のもとで、コンテンツのシーン種別を高精度に特定することが可能である。
<態様A9>
本発明の好適な態様(態様A9)に係る情報処理装置は、映像と音響とを含むコンテンツにおける前記音響の特徴量に応じて当該コンテンツのシーン種別を特定する解析処理部を具備する。以上の態様では、コンテンツにおける音響の特徴量に応じてシーン種別が特定されるから、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。
<態様A10>
態様A9の好適例(態様A10)に係る情報処理装置は、前記解析処理部が特定したシーン種別に応じて、前記コンテンツの再生を制御するための再生制御データを設定する設定処理部と、前記設定処理部が設定した再生制御データに応じて前記コンテンツを再生する再生制御部とを具備する。以上の態様では、コンテンツの再生を制御するための再生制御データがシーン種別に応じて設定される。したがって、コンテンツのシーン種別にとって適切な特性でコンテンツを再生することが可能である。
(10)以上に例示した形態(特に第3実施形態)から、例えば以下の態様が把握される。
<態様B1>
本発明の好適な態様(態様B1)に係る情報処理方法は、1以上のコンテンツにおける音響の特徴量を分類した複数のクラスタの何れかについて利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する。以上の態様では、コンテンツの音響の特徴量とコンテンツのシーン種別とを示す学習データが生成される。したがって、複数の学習データを利用した機械学習で生成される識別モデルを利用することで、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。また、1個のクラスタに属する特徴量と、当該クラスタについて利用者からの指示に応じて設定されたシーン種別とを示す複数の学習データが生成されるから、利用者の意図または嗜好を反映した識別モデルを生成できるという利点もある。
<態様B2>
態様B1の好適例(態様B2)において、前記複数の学習データを利用した機械学習により、音響の特徴量とシーン種別との関係を表す識別モデルを生成する。以上の態様では、コンテンツの音響の特徴量とコンテンツのシーン種別とを示す複数の学習データが生成され、複数の学習データを利用した機械学習で識別モデルが生成される。この識別モデルを利用することで、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。
<態様B3>
態様B2の好適例(態様B3)において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量からひとつのシーン種別を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量からひとつのシーン種別を特定することが可能である。
<態様B4>
態様B2の好適例(態様B4)において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量から、複数のシーン種別の各々に関する尤度を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量から、複数のシーン種別の各々に関する尤度を特定することが可能である。
<態様B5>
本発明の好適な態様(態様B5)に係る情報処理装置は、1以上のコンテンツにおける音響の特徴量を分類した複数のクラスタの何れかについて利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する学習データ生成部と、前記複数の学習データを利用した機械学習により、音響の特徴量とシーン種別との関係を表す識別モデルを生成する識別モデル生成部とを具備する。以上の態様では、コンテンツの音響の特徴量とコンテンツのシーン種別とを示す学習データが生成され、複数の学習データを利用した機械学習で識別モデルが生成される。したがって、この識別モデルを利用することで、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。また、1個のクラスタに属する特徴量と、当該クラスタについて利用者からの指示に応じて設定されたシーン種別とを示す複数の学習データが生成されるから、利用者の意図または嗜好を反映した識別モデルを生成できるという利点もある。
10…AVシステム、100,200…情報処理装置、300…端末装置、400…通信網、11…信号供給装置、12…放音システム、13…表示装置、21…制御装置、22…記憶装置、23…信号取得部、24…再生制御部、242…音響処理部、244…映像処理部、31…特徴抽出部、32…解析処理部、33…設定処理部、51…制御装置、52…記憶装置、53…表示装置、54…操作装置、55…放音装置、61…特徴抽出部、62…学習データ生成部、63…識別モデル生成部。

Claims (4)

  1. コンピュータシステムが、
    複数のチャンネルの音響を含む1以上のコンテンツにおける当該音響の特徴量であって、前記各チャンネルにおける周波数特性または信号強度に応じた要素を前記複数のチャンネルについて配列した特徴量、を分類した複数のクラスタの何れかについて利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成し、
    前記複数の学習データを利用した機械学習により、コンテンツの音響の特徴量から当該コンテンツのシーン種別を特定するための識別モデルを生成する
    情報処理方法。
  2. 前記識別モデルは、前記コンテンツにおける前記音響の特徴量からひとつのシーン種別を特定可能な統計モデルである
    請求項1の情報処理方法。
  3. 前記識別モデルは、前記コンテンツにおける前記音響の特徴量から、複数のシーン種別の各々に関する尤度を特定可能な統計モデルである
    請求項1の情報処理方法。
  4. 複数のチャンネルの音響を含む1以上のコンテンツにおける当該音響の特徴量であって、前記各チャンネルにおける周波数特性または信号強度に応じた要素を前記複数のチャンネルについて配列した特徴量、を分類した複数のクラスタの何れかについて利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する学習データ生成部と、
    前記複数の学習データを利用した機械学習により、コンテンツの音響の特徴量から当該コンテンツのシーン種別を特定するための識別モデルを生成する識別モデル生成部と
    を具備する情報処理装置。
JP2017035367A 2017-02-27 2017-02-27 情報処理方法および情報処理装置 Active JP7086521B2 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
JP2017035367A JP7086521B2 (ja) 2017-02-27 2017-02-27 情報処理方法および情報処理装置
PCT/JP2018/006174 WO2018155481A1 (ja) 2017-02-27 2018-02-21 情報処理方法および情報処理装置
US16/550,404 US10789972B2 (en) 2017-02-27 2019-08-26 Apparatus for generating relations between feature amounts of audio and scene types and method therefor
US16/920,002 US11011187B2 (en) 2017-02-27 2020-07-02 Apparatus for generating relations between feature amounts of audio and scene types and method therefor
JP2021046467A JP7283496B2 (ja) 2017-02-27 2021-03-19 情報処理方法、情報処理装置およびプログラム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2017035367A JP7086521B2 (ja) 2017-02-27 2017-02-27 情報処理方法および情報処理装置

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2021046467A Division JP7283496B2 (ja) 2017-02-27 2021-03-19 情報処理方法、情報処理装置およびプログラム

Publications (2)

Publication Number Publication Date
JP2018141854A JP2018141854A (ja) 2018-09-13
JP7086521B2 true JP7086521B2 (ja) 2022-06-20

Family

ID=63253319

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2017035367A Active JP7086521B2 (ja) 2017-02-27 2017-02-27 情報処理方法および情報処理装置
JP2021046467A Active JP7283496B2 (ja) 2017-02-27 2021-03-19 情報処理方法、情報処理装置およびプログラム

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2021046467A Active JP7283496B2 (ja) 2017-02-27 2021-03-19 情報処理方法、情報処理装置およびプログラム

Country Status (3)

Country Link
US (2) US10789972B2 (ja)
JP (2) JP7086521B2 (ja)
WO (1) WO2018155481A1 (ja)

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7086521B2 (ja) * 2017-02-27 2022-06-20 ヤマハ株式会社 情報処理方法および情報処理装置
WO2018155480A1 (ja) 2017-02-27 2018-08-30 ヤマハ株式会社 情報処理方法および情報処理装置
JP2019205114A (ja) 2018-05-25 2019-11-28 ヤマハ株式会社 データ処理装置、及びデータ処理方法。
CN109859771B (zh) * 2019-01-15 2021-03-30 华南理工大学 一种联合优化深层变换特征与聚类过程的声场景聚类方法
CN110213610B (zh) * 2019-06-13 2021-05-28 北京奇艺世纪科技有限公司 一种直播场景识别方法及装置
JP7451896B2 (ja) 2019-07-16 2024-03-19 ヤマハ株式会社 音響処理装置および音響処理方法
US11355138B2 (en) * 2019-08-27 2022-06-07 Nec Corporation Audio scene recognition using time series analysis
JP7445503B2 (ja) 2020-04-09 2024-03-07 日本放送協会 異常音検知装置及びそのプログラム
CN113053405B (zh) * 2021-03-15 2022-12-09 中国工商银行股份有限公司 基于音频场景下的音频原始数据处理方法及装置

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20030012890A (ko) 2001-04-20 2003-02-12 코닌클리케 필립스 일렉트로닉스 엔.브이. 화상을 개선하는 화상 처리 장치 및 방법과 화상 처리장치를 포함하는 화상 디스플레이 장치
JP4192841B2 (ja) * 2004-05-17 2008-12-10 ヤマハ株式会社 ミキサエンジン制御装置及びプログラム
US8200063B2 (en) * 2007-09-24 2012-06-12 Fuji Xerox Co., Ltd. System and method for video summarization
JP2009296274A (ja) * 2008-06-04 2009-12-17 Toshiba Corp 映像音声信号処理装置
JP2010011409A (ja) 2008-06-30 2010-01-14 Nippon Telegr & Teleph Corp <Ntt> 映像ダイジェスト装置及び映像編集プログラム
JP2010038943A (ja) * 2008-07-31 2010-02-18 Toshiba Corp 音響信号処理装置及び方法
JP2010230972A (ja) 2009-03-27 2010-10-14 Pioneer Electronic Corp 音信号処理装置、その方法、そのプログラム、および、再生装置
JP5533861B2 (ja) 2009-04-30 2014-06-25 ソニー株式会社 表示制御装置、表示制御方法、及び、プログラム
JP2011095680A (ja) * 2009-11-02 2011-05-12 Nec Corp 音響モデル適応装置、音響モデル適応方法および音響モデル適応用プログラム
JP2011223287A (ja) * 2010-04-09 2011-11-04 Sony Corp 情報処理装置、情報処理方法、及び、プログラム
US20120050570A1 (en) * 2010-08-26 2012-03-01 Jasinski David W Audio processing based on scene type
CN102368297A (zh) * 2011-09-14 2012-03-07 北京英福生科技有限公司 一种用于识别被检测对象动作的设备、系统及方法
JP2013243619A (ja) 2012-05-22 2013-12-05 Toshiba Corp 音響処理装置及び音響処理方法
US20150058877A1 (en) * 2013-08-21 2015-02-26 Harman International Industries, Incorporated Content-based audio/video adjustment
CN104794606A (zh) * 2014-01-20 2015-07-22 琉璃奥图码科技股份有限公司 事件提示系统、事件提示方法以及情境播放单元
WO2016095218A1 (en) 2014-12-19 2016-06-23 Dolby Laboratories Licensing Corporation Speaker identification using spatial information
KR20170009037A (ko) * 2015-07-15 2017-01-25 삼성전자주식회사 영상 컨텐츠 제공 장치 및 영상 컨텐츠 제공 방법
US9668073B2 (en) * 2015-10-07 2017-05-30 Robert Bosch Gmbh System and method for audio scene understanding of physical object sound sources
US10003895B2 (en) * 2015-12-10 2018-06-19 Cisco Technology, Inc. Selective environmental classification synchronization
US10255032B2 (en) 2016-12-13 2019-04-09 EVA Automation, Inc. Wireless coordination of audio sources
JP7086521B2 (ja) * 2017-02-27 2022-06-20 ヤマハ株式会社 情報処理方法および情報処理装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Daniele Barchiesi,et al.,Acoustic Scene Classification - Classifying environments from the sounds they produce,IEEE SIGNAL PROCESSING MAGAZINE,IEEE,2015年5月,pp.16-34
Rui Cai,et al.,Co-clustering for Auditory Scene Categorization,IEEE TRANSACTIONS ON MULTIMEDIA,IEEE,2008年6月,Vol.10,No.4,pp.596-606

Also Published As

Publication number Publication date
JP2021099536A (ja) 2021-07-01
US20190378534A1 (en) 2019-12-12
US20200335127A1 (en) 2020-10-22
JP2018141854A (ja) 2018-09-13
JP7283496B2 (ja) 2023-05-30
WO2018155481A1 (ja) 2018-08-30
US10789972B2 (en) 2020-09-29
US11011187B2 (en) 2021-05-18

Similar Documents

Publication Publication Date Title
JP7283496B2 (ja) 情報処理方法、情報処理装置およびプログラム
JP7140221B2 (ja) 情報処理方法、情報処理装置およびプログラム
US11875807B2 (en) Deep learning-based audio equalization
CN105074822B (zh) 用于音频分类和处理的装置和方法
CN104080024B (zh) 音量校平器控制器和控制方法以及音频分类器
JP2019527371A (ja) 声紋識別方法及び装置
CN104079247A (zh) 均衡器控制器和控制方法
US11511200B2 (en) Game playing method and system based on a multimedia file
JP6306528B2 (ja) 音響モデル学習支援装置、音響モデル学習支援方法
JP2019144485A (ja) コード特定方法およびプログラム
KR102226427B1 (ko) 호칭 결정 장치, 이를 포함하는 대화 서비스 제공 시스템, 호칭 결정을 위한 단말 장치 및 호칭 결정 방법
WO2022264461A1 (ja) 情報処理システム及び情報処理方法
CN115811590A (zh) 行动影音装置及影音播放控制方法
JP7230085B2 (ja) 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム
KR102583986B1 (ko) 목소리에 기반한 감정 분류가 반영된 음성 메시지의 말풍선 표현 방법 및 시스템
KR102623459B1 (ko) 사용자의 보컬 평가에 기반한 오디션 이벤트 서비스 제공 방법, 장치 및 시스템
KR102570222B1 (ko) 청능 수준 평가 및 청능 훈련 서비스 제공 방법, 장치 및 컴퓨터 프로그램
US20230419932A1 (en) Information processing device and control method thereof
US20230395064A1 (en) Application software and services with register classification capabilities
CN118045358A (zh) 游戏音频处理方法、游戏音频处理装置、电子设备、介质
CN114781401A (zh) 一种数据处理方法、装置、设备和存储介质
KR20240038503A (ko) 배경음악 매칭 장치, 드로잉 데이터에 대응되는 배경음악을 매칭하는 방법 및 컴퓨터 프로그램
KR20240033525A (ko) 오디오 신호에 포함된 음성 신호에 이용하여 타겟 화자를 업데이트하는 전자 장치 및 그의 타겟 화자 업데이트 방법
CN117075772A (zh) 多媒体内容展示方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20191219

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201013

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201207

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20201222

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210319

C60 Trial request (containing other claim documents, opposition documents)

Free format text: JAPANESE INTERMEDIATE CODE: C60

Effective date: 20210319

A911 Transfer to examiner for re-examination before appeal (zenchi)

Free format text: JAPANESE INTERMEDIATE CODE: A911

Effective date: 20210330

C21 Notice of transfer of a case for reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C21

Effective date: 20210406

A912 Re-examination (zenchi) completed and case transferred to appeal board

Free format text: JAPANESE INTERMEDIATE CODE: A912

Effective date: 20210528

C211 Notice of termination of reconsideration by examiners before appeal proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C211

Effective date: 20210601

C22 Notice of designation (change) of administrative judge

Free format text: JAPANESE INTERMEDIATE CODE: C22

Effective date: 20211130

C13 Notice of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: C13

Effective date: 20220301

C23 Notice of termination of proceedings

Free format text: JAPANESE INTERMEDIATE CODE: C23

Effective date: 20220510

C03 Trial/appeal decision taken

Free format text: JAPANESE INTERMEDIATE CODE: C03

Effective date: 20220607

C30A Notification sent

Free format text: JAPANESE INTERMEDIATE CODE: C3012

Effective date: 20220607

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220608

R150 Certificate of patent or registration of utility model

Ref document number: 7086521

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150