JP7086521B2

JP7086521B2 - 情報処理方法および情報処理装置

Info

Publication number: JP7086521B2
Application number: JP2017035367A
Authority: JP
Inventors: 雄太湯山; 慶太有元
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2017-02-27
Filing date: 2017-02-27
Publication date: 2022-06-20
Anticipated expiration: 2037-02-27
Also published as: JP2021099536A; JP2018141854A; JP7283496B2; WO2018155481A1; US20190378534A1; US10789972B2; US11011187B2; US20200335127A1

Description

本発明は、映像および音響を含むコンテンツを解析する技術に関する。

映像作品等のコンテンツのシーンの種別（以下「シーン種別」という）を解析する各種の技術が従来から提案されている。例えば特許文献１には、コンテンツの映像ストリームから会話シーンまたはレースシーン等の各種のシーン種別を解析する技術が開示されている。

特開２００９－２９６２７４号公報

しかし、コンテンツの映像の傾向とシーン種別との関係は非常に多様であるから、映像ストリームからシーン種別を正確に特定できない場合がある。以上の事情を考慮して、本発明の好適な態様は、コンテンツのシーン種別を適切に特定することを目的とする。

以上の課題を解決するために、本発明の好適な態様に係る情報処理方法は、１以上のコンテンツにおける音響の特徴量を分類した複数のクラスタの何れかについて利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する。
また、本発明の他の態様に係る情報処理装置は、１以上のコンテンツにおける音響の特徴量を分類した複数のクラスタの何れかについて利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する学習データ生成部と、前記複数の学習データを利用した機械学習により、音響の特徴量とシーン種別との関係を表す識別モデルを生成する識別モデル生成部とを具備する。

第１実施形態におけるＡＶシステムの構成図である。情報処理装置の機能に着目した構成図である。制御装置が実行する処理のフローチャートである。第２実施形態における識別モデルの説明図である。第３実施形態における情報処理装置の構成図である。第３実施形態の制御装置が実行する処理のフローチャートである。第３実施形態における設定画面の模式図である。変形例における情報処理装置の構成図である。

＜第１実施形態＞
図１は、本発明の第１実施形態に係るＡＶ（Audio-Visual）システム１０の構成図である。第１実施形態のＡＶシステム１０は、映像と音響とを含むコンテンツを再生するためのコンピュータシステムである。コンテンツは、例えば映画，スポーツ映像，ライブ映像，ミュージックビデオまたはゲーム等の映像作品である。図１に例示される通り、第１実施形態のＡＶシステム１０は、情報処理装置１００と信号供給装置１１と放音システム１２と表示装置１３とを具備する。

信号供給装置１１は、映像と音響とを含むコンテンツを表すコンテンツデータＤを情報処理装置１００に供給する。例えば、可搬型または内蔵型の記録媒体からコンテンツデータＤを取得して情報処理装置１００に出力する再生機器が信号供給装置１１の好適例である。なお、例えば配信サーバ装置（図示略）が送信したコンテンツデータＤをインターネット等の通信網から受信する通信装置を、信号供給装置１１として利用することも可能である。

第１実施形態の情報処理装置１００は、信号供給装置１１から供給されるコンテンツデータＤを処理するコンピュータシステム（コンテンツ処理装置）であり、制御装置２１と記憶装置２２と信号取得部２３と再生制御部２４とを具備する。なお、相互に別体で用意された複数の装置により情報処理装置１００を実現することも可能である。

信号取得部２３は、信号供給装置１１からコンテンツデータＤを受信するインタフェースである。第１実施形態の信号取得部２３は、信号供給装置１１から供給されるコンテンツデータＤから音響信号Ａ1と映像信号Ｖ1とを抽出する。音響信号Ａ1は、コンテンツを構成する音響（例えば映像作品内の会話音，効果音，演奏音等）を表す信号である。第１実施形態の音響信号Ａ1はＮチャンネル（例えば５.１チャンネル）で構成される。映像信号Ｖ1は、コンテンツを構成する映像を表す信号である。

再生制御部２４は、音響信号Ａ1および映像信号Ｖ1を処理する。具体的には、再生制御部２４は、再生制御データＱを適用した信号処理により音響信号Ａ1および映像信号Ｖ1を調整する。再生制御データＱは、コンテンツの再生を制御するためのデータである。図１に例示される通り、第１実施形態の再生制御データＱは、音響制御データＱaと映像制御データＱvとを包含する。音響制御データＱaは、コンテンツに含まれる音響の再生を制御するためのデータであり、例えば、コンテンツの音響で形成される音場（例えば仮想音像の定位位置）を制御するための複数のパラメータを含む。他方、映像制御データＱvは、コンテンツに含まれる映像の再生を制御するためのデータであり、例えば画像の明度またはコントラスト等の映像特性を制御するための複数のパラメータを含む。

図１に例示される通り、第１実施形態の再生制御部２４は、音響処理部２４２と映像処理部２４４とを含んで構成される。音響処理部２４２は、信号取得部２３から供給される音響信号Ａ1を処理することで音響信号Ａ2を生成する。第１実施形態の音響処理部２４２は、音響制御データＱaを適用した音場制御によりＮチャンネルの音響信号Ａ2を生成する。音場制御は、受聴者が知覚する仮想空間内の残響特性等の音場特性を調整するための音響処理である。例えば、音響処理部２４２は、仮想空間内の複数の音響経路について残響音（初期反射音および後期残響音）を音響制御データＱaに応じて生成し、複数の残響音を表す信号を音響信号Ａ1に混合することで音響信号Ａ2を生成する。なお、音響信号Ａ1と音響信号Ａ2とでチャンネルの総数を相違させることも可能である。他方、映像処理部２４４は、信号取得部２３から供給される映像信号Ｖ1を処理することで映像信号Ｖ2を生成する。具体的には、映像処理部２４４は、映像制御データＱvを適用した画像処理により映像信号Ｖ2を生成する。

放音システム１２は、例えばＮ個のスピーカ装置で構成されたＮチャンネルのサラウンドシステムであり、音響処理部２４２から供給されるＮチャンネルの音響信号Ａ2が表す音響を放音する。表示装置１３は、例えば液晶表示パネルで構成され、映像処理部２４４から供給される映像信号Ｖ2が表す映像を表示する。

制御装置２１は、例えばＣＰＵ（Central Processing Unit）等の処理回路を含んで構成され、情報処理装置１００の各要素を統括的に制御する。記憶装置２２は、制御装置２１が実行するプログラムと制御装置２１が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置２２として任意に採用され得る。なお、情報処理装置１００とは別体で記憶装置２２（例えばクラウドストレージ）を用意し、インターネット等の通信網を介して制御装置２１が記憶装置２２に対する読出および書込を実行することも可能である。

図２は、制御装置２１の機能に着目した構成図である。図２に例示される通り、第１実施形態の制御装置２１は、記憶装置２２に記憶されたプログラムを実行することで、再生制御部２４が利用する再生制御データＱを設定するための複数の要素（特徴抽出部３１，解析処理部３２および設定処理部３３）として機能する。なお、制御装置２１の一部の機能を専用の電子回路で実現した構成、または、制御装置２１の機能を複数の装置に分散した構成も採用され得る。また、再生制御部２４の一部または全部の機能を制御装置２１が実現することも可能である。

特徴抽出部３１は、コンテンツの音響に関する特徴量Ｆを抽出する。具体的には、特徴抽出部３１は、信号取得部２３から供給される音響信号Ａ1を解析することで特徴量Ｆを抽出する。特徴抽出部３１による特徴量Ｆの抽出は、単位期間毎に順次に実行される。単位期間は、所定の時間長（例えば数百ミリ秒）の期間である。

第１実施形態の特徴量Ｆは、Ｎチャンネルにそれぞれ対応するＮ個の要素を配列したベクトル（特徴ベクトル）である。特徴量Ｆのベクトルを構成する任意の１個の要素は、音響信号Ａ1のうち当該要素に対応するチャンネルの周波数特性に関する特徴を表す。具体的には、音響信号Ａ1の１個のチャンネルから抽出されるＭＦＣＣ（Mel-Frequency Cepstrum Coefficients）が、特徴量Ｆにおいて当該チャンネルに対応する要素として好適である。例えば、特徴量Ｆは、ＭＦＣＣを表すＵ次元のベクトル（Ｕ個の係数の系列）をＮチャンネルについて配列した、(Ｕ×Ｎ)個の要素で構成されるベクトルである（Ｕは自然数）。以上の説明から理解される通り、第１実施形態の特徴量Ｆは、Ｎチャンネルの音響信号Ａ1で実現される音場の特徴（すなわち、Ｎチャンネルの各々における周波数特性の特徴）を表す指標である。

解析処理部３２は、コンテンツにおける音響の特徴量Ｆに応じて当該コンテンツのシーン種別Ｓを特定する。シーン種別Ｓは、コンテンツで表現される場面の分類（カテゴリ）である。例えば、スタンダード，スペクタクル，サイファイ（Sci-Fi），アドベンチャー，ドラマ，ミュージックビデオ等を含む複数のシーン種別Ｓの何れかが、解析処理部３２により特定される。Ｎチャンネルの音響信号Ａ1で実現される音場の特徴は、コンテンツのシーン種別Ｓに依存する傾向がある。例えば、登場人物の台詞が重要な「ドラマ」の場面では、音声に特有の特徴量Ｆが優勢に観測され、広大な場面を舞台とする「スペクタクル」の場面では、多様な種類の混合音または爆発音等の効果音に特有の周波数特性をＮチャンネルの全体が表す複雑な特徴量Ｆが優勢に観測される、という傾向がある。以上の傾向を考慮すると、特徴抽出部３１が抽出する特徴量Ｆは、解析処理部３２がシーン種別Ｓを特定するための指標として妥当である。解析処理部３２によるシーン種別Ｓの特定は、特徴抽出部３１による特徴量Ｆの抽出毎（すなわち単位期間毎）に順次に実行される。以上の説明から理解される通り、特許文献１の技術がコンテンツの映像に応じてシーン種別を特定するのとは対照的に、第１実施形態の解析処理部３２は、コンテンツの音響に応じてシーン種別Ｓを特定する。

図２に例示される通り、記憶装置２２には識別モデルＭが記憶される。第１実施形態の解析処理部３２は、記憶装置２２に記憶された識別モデルＭを利用して、コンテンツのシーン種別Ｓを特定する。識別モデルＭは、音響の特徴量Ｆとシーン種別Ｓとの関係を表すパターン認識モデルである。第１実施形態の識別モデルＭは、教師有学習を利用した統計モデルの代表例であるサポートベクターマシン（ＳＶＭ：Support Vector Machine）である。既存の多数のコンテンツにおける特徴量Ｆとシーン種別Ｓとの傾向を反映させるための機械学習により識別モデルＭが事前に生成される。具体的には、解析処理部３２は、機械学習で決定された超平面を利用して、コンテンツの音響の特徴量Ｆが２種類のシーン種別Ｓの何れに該当するかを判別する。２種類のシーン種別Ｓの組合せを相違させた複数回にわたり判別を反復することで１種類のシーン種別Ｓが特定される。すなわち、既存の多数のコンテンツにおける特徴量Ｆとシーン種別Ｓとの関係のもとで、特徴抽出部３１が抽出した特徴量Ｆに対して最尤である１種類のシーン種別Ｓが推定される。

設定処理部３３は、解析処理部３２が特定したシーン種別Ｓに応じてコンテンツの再生制御データＱを設定する。図２に例示される通り、第１実施形態の記憶装置２２は、相異なるシーン種別Ｓに対応する複数の再生制御データＱを記憶する。任意の１種類のシーン種別Ｓに対応する再生制御データＱは、コンテンツの再生に関する複数のパラメータの各々について、当該シーン種別Ｓに好適な数値を指定する。設定処理部３３は、記憶装置２２に記憶された複数の再生制御データＱのうち解析処理部３２が特定したシーン種別Ｓに対応する再生制御データＱを記憶装置２２から検索する。そして、設定処理部３３は、記憶装置２２から検索した再生制御データＱ（音響制御データＱaおよび映像制御データＱv）を再生制御部２４に対して指示する。したがって、コンテンツのシーン種別Ｓに応じた音場特性および映像特性でコンテンツが再生される。第１実施形態では単位期間毎にシーン種別Ｓが特定されるから、コンテンツのシーン毎に音場特性および映像特性が更新され得る。

図３は、第１実施形態の制御装置２１が実行する処理（情報処理方法の例示）を例示するフローチャートである。単位期間毎に図３の処理が実行される。例えば、信号供給装置１１によるコンテンツデータＤの供給と、放音システム１２および表示装置１３によるコンテンツの再生とに並行して、図３の処理が実時間的に実行される。

図３の処理を開始すると、特徴抽出部３１は、信号取得部２３から供給される音響信号Ａ1のうち単位期間内の部分から特徴量Ｆを抽出する（Ｓa1）。解析処理部３２は、特徴抽出部３１が抽出した特徴量Ｆを識別モデルＭに付与することで単位期間のシーン種別Ｓを特定する（Ｓa2）。

以上の手順でシーン種別Ｓを特定すると、設定処理部３３は、当該シーン種別Ｓに応じてコンテンツの再生制御データＱを設定する（Ｓa3）。具体的には、設定処理部３３は、記憶装置２２に記憶された複数の再生制御データＱのうちシーン種別Ｓに対応する再生制御データＱを検索し、当該再生制御データＱ（音響制御データＱaおよび映像制御データＱv）を再生制御部２４に対して指示する。

再生制御部２４の音響処理部２４２は、制御装置２１が設定した音響制御データＱaに応じた音場制御を音響信号Ａ1に対して実行することでＮチャンネルの音響信号Ａ2を生成する。音響信号Ａ2は放音システム１２に供給される。したがって、コンテンツの音響がシーン種別Ｓに応じた音場特性で放音システム１２から放音される。他方、再生制御部２４の映像処理部２４４は、制御装置２１が設定した映像制御データＱvに応じた画像処理を映像信号Ｖ1に対して実行することで映像信号Ｖ2を生成する。映像信号Ｖ2は表示装置１３に供給される。したがって、コンテンツの映像がシーン種別Ｓに応じた映像特性で表示装置１３に表示される。

以上に説明した通り、第１実施形態では、コンテンツの音響の特徴量Ｆに応じてシーン種別Ｓが特定されるから、コンテンツの映像からはシーン種別Ｓを正確に特定できない場合でも、コンテンツのシーン種別Ｓを特定することが可能である。第１実施形態では特に、音響の特徴量Ｆとシーン種別Ｓとの関係を表す識別モデルＭがシーン種別Ｓの特定に利用される。したがって、特徴量Ｆとシーン種別Ｓとの間に想定される傾向のもとで、特徴抽出部３１が抽出する特徴量Ｆにとって最尤であるシーン種別Ｓを特定することが可能である。

また、コンテンツの再生を制御するための再生制御データＱがシーン種別Ｓに応じて設定されるから、コンテンツのシーン種別Ｓにとって適切な特性でコンテンツを再生することが可能である。例えば、第１実施形態では、コンテンツの音響で形成される音場を制御するための音響制御データＱaがシーン種別Ｓに応じて設定される。したがって、コンテンツのシーン種別Ｓにとって適切な音場でコンテンツの音響を再生することが可能である。

第１実施形態では、Ｎチャンネルの各々の音響信号Ａ1の周波数特性（例えばＭＦＣＣ）に応じた要素を含むベクトルを特徴量Ｆとしてシーン種別Ｓが特定される。すなわち、Ｎチャンネルの音響信号Ａ1で実現される音場の特徴を表す特徴量Ｆがシーン種別Ｓの特定に利用される。したがって、Ｎチャンネルの音響信号Ａ1で実現される音場の特徴がシーン種別Ｓに依存するという傾向のもとで、高精度にシーン種別Ｓを特定することが可能である。

＜第２実施形態＞
本発明の第２実施形態を説明する。なお、以下に例示する各形態において、機能または作用が第１実施形態と同様である要素については、第１実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。

第１実施形態では、特徴量Ｆが２種類のシーン種別Ｓの何れに該当するかを判別するサポートベクターマシンを識別モデルＭとして例示した。第２実施形態では、複数の確率分布の加重和で表現される混合分布を識別モデルＭ（すなわち混合分布モデル）として利用する。図４は、第２実施形態の識別モデルＭの説明図である。なお、特徴量Ｆが存在し得るベクトル空間として、図４では便宜的に２次元空間が例示されている。図４に例示される通り、第２実施形態の識別モデルＭは、相異なるＫ種類（図４ではＫ＝３）のシーン種別Ｓ1～ＳKにそれぞれ対応するＫ個の確率分布φ1～φKで構成される混合分布である。例えば各確率分布φk（ｋ＝１～Ｋ）を正規分布とした混合正規分布（ガウス混合モデル）が識別モデルＭとして好適である。既存の多数のコンテンツにおける特徴量Ｆとシーン種別Ｓkとの関係を反映させるための機械学習により識別モデルＭが生成される。

図４に例示される通り、第２実施形態の解析処理部３２は、特徴抽出部３１が単位期間毎に抽出した特徴量Ｆから、Ｋ種類のシーン種別Ｓ1～ＳKの各々に対応する尤度Ｌk（Ｌ1～ＬK）を算定する。すなわち、相異なるシーン種別Ｓkに対応するＫ個の尤度Ｌ1～ＬKが単位期間毎に順次に算定される。任意の１種類のシーン種別Ｓkに対応する尤度Ｌkは、当該シーン種別Ｓkの確率分布φkのもとで特徴量Ｆが観測される確度の指標である。すなわち、コンテンツにおいて特徴量Ｆが抽出された単位期間がシーン種別Ｓkに該当する可能性が高いほど、当該シーン種別Ｓkに対応する尤度Ｌkは大きい数値に設定される。以上の説明から理解される通り、第２実施形態の識別モデルＭは、コンテンツの音響の１個の特徴量Ｆから、Ｋ種類のシーン種別Ｓ1～ＳKの各々に関する尤度Ｌkを特定可能な統計モデルである。

第２実施形態の記憶装置２２は、Ｋ種類のシーン種別Ｓ1～ＳKにそれぞれ対応するＫ個の再生制御データＱ1～ＱKを記憶する。第２実施形態の設定処理部３３は、解析処理部３２がシーン種別Ｓk毎に算定した尤度Ｌkに応じて再生制御データＱを設定する。具体的には、設定処理部３３は、解析処理部３２が算定した尤度Ｌkが大きいほど、当該尤度Ｌkに対応するシーン種別Ｓkの再生制御データＱkの内容に近付くように、設定処理部３３は再生制御データＱ（音響制御データＱaおよび映像制御データＱv）を生成する。例えば、各尤度Ｌkを加重値としたＫ個の音響制御データＱaの加重和が音響制御データＱaとして音響処理部２４２に指示され、各尤度Ｌkを加重値としたＫ個の映像制御データＱvの加重和が映像制御データＱvとして映像処理部２４４に指示される。したがって、Ｋ個の音響制御データＱaのうち尤度Ｌkが大きいシーン種別Ｓkの音響制御データＱaほど、放音システム１２による放音で形成される音場に対して優勢に反映される。また、Ｋ個の映像制御データＱvのうち尤度Ｌkが大きいシーン種別Ｓkの映像制御データＱvほど、表示装置１３に表示される映像に対して優勢に反映される。

＜第３実施形態＞
図５は、第３実施形態における情報処理装置２００の構成図である。情報処理装置２００は、第１実施形態または第２実施形態で利用される識別モデルＭを生成するコンピュータシステム（識別モデル生成装置）である。例えば、携帯電話機およびスマートフォン等の可搬型の端末装置またはパーソナルコンピュータ等の情報機器が情報処理装置２００として利用され得る。

図５に例示される通り、情報処理装置２００は、制御装置５１と記憶装置５２と表示装置５３と操作装置５４と放音装置５５とを具備する。表示装置５３は、例えば液晶表示パネルで構成され、制御装置５１から指示された画像を表示する。操作装置５４は、利用者からの操作を受付ける入力機器である。具体的には、利用者が操作可能な複数の操作子、または、表示装置５３の表示面に対する接触を検知するタッチパネルが、操作装置５４として好適に利用される。

制御装置５１は、例えばＣＰＵ等の処理回路を含んで構成され、情報処理装置２００の各要素を統括的に制御する。記憶装置５２は、制御装置５１が実行するプログラムと制御装置５１が使用する各種のデータとを記憶する。例えば半導体記録媒体および磁気記録媒体等の公知の記録媒体、または複数種の記録媒体の組合せが、記憶装置５２として任意に採用され得る。なお、情報処理装置１００とは別体で記憶装置５２（例えばクラウドストレージ）を用意し、インターネット等の通信網を介して制御装置５１が記憶装置５２に対する読出および書込を実行することも可能である。第３実施形態の記憶装置５２は、多様なシーンを含む複数のコンテンツの各々についてＮチャンネルの音響信号Ａが記憶される。

図５に例示される通り、第３実施形態の制御装置５１は、記憶装置５２に記憶されたプログラムを実行することで、識別モデルＭを生成するための複数の要素（特徴抽出部６１，学習データ生成部６２および識別モデル生成部６３）として機能する。なお、制御装置５１の一部の機能を専用の電子回路で実現した構成、または、制御装置５１の機能を複数の装置に分散した構成も採用され得る。

特徴抽出部６１は、記憶装置５２に記憶された複数の音響信号Ａの各々について単位期間毎に特徴量Ｆを抽出する。特徴抽出部６１が抽出する特徴量Ｆは、第１実施形態と同様に、Ｎチャンネルの各々の周波数特性（例えばＭＦＣＣ）に応じたＮ個の要素で構成される特徴ベクトルである。

学習データ生成部６２は、識別モデルＭの機械学習に利用される複数の学習データＸを生成する。特徴抽出部６１が抽出した複数の特徴量Ｆにそれぞれ対応する複数の学習データＸを学習データ生成部６２は生成する。複数の学習データＸの各々は、特徴量Ｆとシーン種別Ｓとを含んで構成される。具体的には、任意の１個の学習データＸは、音響信号Ａから抽出された特徴量Ｆと、当該音響信号Ａに対応するコンテンツのうち当該特徴量Ｆが抽出された部分の適正なシーン種別Ｓとを対応させた教師データ（正解データ）である。学習データＸは、特徴量Ｆに対して正解のシーン種別Ｓのラベルを付加した教師データとも換言され得る。第３実施形態の学習データ生成部６２は、操作装置５４に対する利用者からの指示に応じて、各学習データＸにおいて特徴量Ｆに対応させるシーン種別Ｓを設定する。

識別モデル生成部６３は、学習データ生成部６２が生成した複数の学習データＸを利用した機械学習により識別モデルＭを生成する。識別モデル生成部６３が生成した識別モデルＭが情報処理装置１００の記憶装置２２に転送されて、前述の通り、解析処理部３２によるシーン種別Ｓの特定に利用される。識別モデルＭは、例えばインターネット等の通信網を介して情報処理装置１００に転送される。なお、半導体記録媒体等の可搬型の記録媒体を利用して識別モデルＭを情報処理装置２００から情報処理装置１００に転送することも可能である。

図６は、第３実施形態の制御装置５１が実行する処理（識別モデル生成方法）を例示するフローチャートである。操作装置５４に対する利用者からの指示を契機として図６の処理が開始される。

図６の処理を開始すると、特徴抽出部６１は、記憶装置５２に記憶された複数の音響信号Ａの各々から単位期間毎の特徴量Ｆを抽出する（Ｓb1）。学習データ生成部６２は、特徴抽出部６１が抽出した複数の特徴量Ｆにそれぞれ対応する複数の学習データＸを生成する（Ｓb2：学習データ生成処理）。識別モデル生成部６３は、学習データ生成部６２が生成した複数の学習データＸを利用した機械学習により識別モデルＭを生成して記憶装置５２に格納する（Ｓb3）。

学習データ生成部６２が実行する学習データ生成処理Ｓb2（学習データ生成方法）の具体的な内容を説明する。学習データ生成処理Ｓb2を開始すると、学習データ生成部６２は、ステップＳb1において特徴抽出部６１が抽出した複数の特徴量ＦをＫ個のクラスタ（部分集合）Ｃに分類する（Ｓb21）。複数の特徴量Ｆの分類には、公知のクラスタ分析技術が任意に採用され得る。クラスタの総数Ｋは可変値または固定値である。

学習データ生成部６２は、複数の特徴量Ｆを分類した結果を表す画像（以下「設定画面」という）Ｇを表示装置５３に表示させる（Ｓb22）。図７は、設定画面Ｇの模式図である。図７に例示される通り、設定画面Ｇは、特徴量Ｆの分布を２次元空間で表現した画像である。具体的には、設定画面Ｇは、各特徴量Ｆを表す特徴画像Ｐと、各クラスタＣを表す範囲画像Ｒ（Ｒ1，Ｒ2，…）とを包含する。同種のシーン種別Ｓに対応する複数の特徴量の特徴画像Ｐは、１個のクラスタＣに対応する範囲内に局所的に分布する。任意の１個のクラスタＣに対応する範囲画像Ｒは、当該クラスタＣに分類された複数の特徴量Ｆの特徴画像Ｐが分布する領域を包囲する閉図形（例えば楕円形）である。

利用者は、操作装置５４を適宜に操作することで、設定画面Ｇにおける任意のクラスタＣ（具体的には範囲画像Ｒ）を選択し、当該クラスタＣについて所望のシーン種別Ｓを指定することが可能である。すなわち、利用者は、任意のクラスタＣに属する複数の特徴量Ｆに対して所望のシーン種別Ｓをラベリングする。利用者によるシーン種別Ｓの指示は複数のクラスタＣの各々について反復される。以上に例示した利用者からの指示に応じて、学習データ生成部６２は、複数のクラスタＣの各々にシーン種別Ｓを設定する（Ｓb23）。図７に例示される通り、各クラスタＣに設定されたシーン種別Ｓを表す種別画像Ｚ（Ｚ1，Ｚ2，…）が、当該クラスタＣの範囲画像Ｒの近傍に配置される。

なお、任意の１個のクラスタＣを利用者が選択した場合に、当該クラスタＣに属する特徴量Ｆに対応するコンテンツの区間（以下「再生区間」という）を放音装置５５により再生することも可能である。再生区間は、例えば特徴量Ｆが抽出された単位期間を含む区間である。具体的には、学習データ生成部６２は、音響信号Ａのうち特徴量Ｆが抽出された再生区間を放音装置５５に供給することで音響を再生させる。利用者は、放音装置５５による再生音を聴取することで、当該再生区間のシーン種別Ｓを推定できる。任意の１個の特徴量Ｆの特徴画像Ｐを利用者が選択した場合に、当該特徴量Ｆに対応する再生区間を放音装置５５に再生させることも可能である。なお、各クラスタＣのシーン種別Ｓを利用者に選択させるための構成は任意である。例えば、各クラスタＣの条件を対話形式で利用者に順次に回答させることで、各クラスタＣのシーン種別Ｓを設定することも可能である。

学習データ生成部６２は、各クラスタＣに対するシーン種別Ｓを設定した結果に応じて複数の学習データＸを生成する（Ｓb24）。具体的には、特徴抽出部６１が抽出した特徴量Ｆと、当該特徴量Ｆが属するクラスタＣに設定したシーン種別Ｓとを対応させた学習データＸが、複数の特徴量Ｆの各々について生成される。１個のクラスタＣに分類された相互に類似する複数の特徴量Ｆには、共通のシーン種別Ｓが設定される。以上の説明から理解される通り、第３実施形態の学習データ生成部６２は、コンテンツの音響信号Ａから抽出された特徴量Ｆを分類した複数のクラスタＣの何れかについて利用者からの指示に応じてシーン種別Ｓを設定することで、当該クラスタＣに属する特徴量Ｆと、当該クラスタＣに設定されたシーン種別Ｓとを示す学習データＸを生成する。

以上に説明した通り、第３実施形態では、コンテンツの音響の特徴量Ｆとコンテンツのシーン種別Ｓとを示す複数の学習データＸが生成される。したがって、コンテンツの映像からはシーン種別Ｓを正確に特定できない場合でも、学習データＸを利用した機械学習で生成された識別モデルＭにより、当該コンテンツのシーン種別Ｓを特定することが可能である。また、各クラスタＣに属する特徴量Ｆと、当該クラスタＣについて利用者からの指示に応じて設定されたシーン種別Ｓとを示す複数の学習データＸが生成されるから、利用者の意図または嗜好を反映した識別モデルＭを生成できるという利点もある。

＜変形例＞
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された２個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。

（１）単位期間毎にシーン種別Ｓを特定する前述の各形態では、短時間で頻繁にシーン種別Ｓ（さらには再生制御データＱ）が変化する可能性がある。以上の事情を考慮すると、シーン種別Ｓの頻繁な変化を抑制するための構成が好適である。例えば、複数の単位期間の各々について、当該単位期間と周囲の他の単位期間とを含む所定個の単位期間のなかで最頻のシーン種別Ｓを選択することも可能である。以上の構成によれば、瞬間的なシーン種別Ｓの変化を抑制することが可能である。

（２）前述の各形態では、コンテンツの音響および映像の双方に着目したが、映像に関する要素は省略され得る。例えば、第１実施形態または第２実施形態において、映像処理部２４４（さらには映像制御データＱv）および表示装置１３を省略することも可能である。

（３）前述の各形態では、音響信号Ａ1の周波数特性に応じた要素をＮチャンネルについて配列した特徴ベクトルを特徴量Ｆとして例示したが、特徴量Ｆの種類は以上の例示に限定されない。例えば、相異なる音階音（例えば平均律の１２半音の各々）に対応する複数の要素を含むクロマベクトル（ＰＣＰ：Pitch Class Profile）を特徴量Ｆとして利用することも可能である。クロマベクトルのうち任意の１個の音階音に対応する要素は、音響信号Ａ1のうち当該音階音に対応する帯域成分の信号強度を複数のオクターブにわたり加算または平均した数値に設定される。また、音響信号Ａ1の信号強度（レベル）に応じた要素をＮチャンネルについて配列したＮ次元ベクトルを特徴量Ｆとして利用してもよい。なお、音響信号Ａ1の全部のチャンネルを特徴量Ｆの抽出に利用する必要はない。例えば、Ｎチャンネルの音響信号Ａ1の何れかから特徴量Ｆを抽出することも可能である。

（４）第１実施形態ではサポートベクターマシンを識別モデルＭとして例示し、第２実施形態では混合分布モデル（例えばガウス混合モデル）を識別モデルＭとして例示したが、識別モデルＭの種類は以上の例示に限定されない。例えば、ニューラルネットワークまたはベイズ分類等の各種のパターン認識モデルを識別モデルＭとして利用することが可能である。以上の例示から理解される通り、識別モデルＭは、音響の特徴量Ｆとシーン種別Ｓとの関係を表す統計モデルとして包括的に表現される。具体的には、識別モデルＭは、既存の多数のコンテンツにおける特徴量Ｆとシーン種別Ｓとの間で成立する関係のもとで、当該識別モデルＭに付与された特徴量Ｆに対して妥当性の高いシーン種別Ｓを判別する仕組みである。

（５）移動体通信網またはインターネット等の通信網を介して端末装置（例えば携帯電話機またはスマートフォン）と通信するサーバ装置に、第１実施形態または第２実施形態に係る情報処理装置１００の少なくとも一部の機能を実行させることも可能である。

例えば、図８に例示される通り、端末装置３００と通信可能な情報処理装置１００（例えばウェブサーバ）に特徴抽出部３１と解析処理部３２と設定処理部３３とが設置される。特徴抽出部３１は、端末装置３００から通信網４００を介して音響信号Ａ1を受信し、当該音響信号Ａ1から特徴量Ｆを抽出する（Ｓa1）。解析処理部３２は、前述の各形態と同様に、特徴量Ｆからシーン種別Ｓを特定する（Ｓa2）。設定処理部３３は、シーン種別Ｓに応じた再生制御データＱを設定し、当該再生制御データＱを端末装置３００に送信する（Ｓa3）。再生制御データＱを利用した処理を実行する再生制御部２４は、端末装置３００に搭載される。

なお、特徴抽出部３１を端末装置３００に設置し、特徴抽出部３１が抽出した特徴量Ｆを端末装置３００から情報処理装置１００に送信する（情報処理装置１００からは特徴抽出部３１を省略する）ことも可能である。解析処理部３２は、端末装置３００から受信した特徴量Ｆからシーン種別Ｓを特定する。また、設定処理部３３を端末装置３００に設置する（情報処理装置１００から設定処理部３３を省略する）ことも可能である。解析処理部３２は、特徴量Ｆから特定したシーン種別Ｓを端末装置３００の設定処理部３３に通知する。また、再生制御部２４を情報処理装置１００に設置し、再生制御部２４による処理後の音響信号Ａ2および映像信号Ｖ2を端末装置３００に送信することも可能である。

（６）第３実施形態に係る情報処理装置２００の少なくとも一部の機能を、情報処理装置２００とは別体の外部装置で実現することも可能である。例えば、携帯電話機またはスマートフォン等の端末装置で情報処理装置２００を実現する構成のもとで、端末装置と通信可能なサーバ装置に特徴抽出部６１が設置される。すなわち、情報処理装置２００から特徴抽出部６１は省略される。また、識別モデルＭを生成する第３実施形態の機能を、第１実施形態または第２実施形態の情報処理装置１００に搭載することも可能である。

（７）前述の各形態では、コンテンツの音響の特徴量Ｆからシーン種別Ｓを特定したが、コンテンツの音響の特徴量Ｆと当該コンテンツの映像の特徴量とからシーン種別Ｓを特定することも可能である。すなわち、音響の特徴量Ｆに加えて映像の特徴量も加味してシーン種別Ｓを特定する構成は、本発明の範囲から除外されない。

（８）第１実施形態または第２実施形態に係る情報処理装置１００は、前述の例示の通り、制御装置２１とプログラムとの協働により実現される。第１実施形態および第２実施形態から把握されるプログラムは、コンピュータに、映像と音響とを含むコンテンツにおける音響の特徴量Ｆに応じて当該コンテンツのシーン種別Ｓを特定する解析処理（Ｓa2）を実行させる。さらに好適な態様に係るプログラムは、コンピュータに、解析処理で特定したシーン種別Ｓに応じて、コンテンツの再生を制御するための再生制御データＱを設定する設定処理（Ｓa3）を実行させる。

また、第３実施形態に係る情報処理装置２００は、前述の例示の通り、制御装置５１とプログラムとの協働により実現される。第３実施形態から把握されるプログラムは、１以上のコンテンツにおける音響の特徴量Ｆを分類した複数のクラスタＣの何れかについて利用者からの指示に応じてシーン種別Ｓを設定することで、当該クラスタＣに属する特徴量Ｆと、当該クラスタＣについて設定されたシーン種別Ｓとを示す学習データＸを生成する学習データ生成処理（Ｓb2）と、複数の学習データＸを利用した機械学習により、音響の特徴量Ｆとシーン種別Ｓとの関係を表す識別モデルＭを生成する識別モデル生成処理（Ｓb3）とを実行させる。

以上に例示した各態様のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性（non-transitory）の記録媒体であり、ＣＤ-ＲＯＭ等の光学式記録媒体（光ディスク）が好例であるが、半導体記録媒体または磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。なお、非一過性の記録媒体とは、一過性の伝搬信号（transitory, propagating signal）を除く任意の記録媒体を含み、揮発性の記録媒体を除外するものではない。また、通信網を介した配信の形態でプログラムをコンピュータに提供することも可能である。

（９）以上に例示した形態（特に第１実施形態および第２実施形態）から、例えば以下の態様が把握される。
＜態様Ａ１＞
本発明の好適な態様（態様Ａ１）に係る情報処理方法は、映像と音響とを含むコンテンツにおける前記音響の特徴量に応じて当該コンテンツのシーン種別を特定する。以上の態様では、コンテンツにおける音響の特徴量に応じてシーン種別が特定されるから、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。
＜態様Ａ２＞
態様Ａ１の好適例（態様Ａ２）では、前記シーン種別の特定において、音響の特徴量とシーン種別との関係を表す識別モデルを利用して、前記コンテンツにおける前記音響の特徴量から当該コンテンツのシーン種別を特定する。以上の態様では、音響の特徴量とシーン種別との関係を表す識別モデルがシーン種別の特定に利用される。したがって、音響の特徴量とシーン種別との間に想定される傾向のもとで、特徴抽出部が抽出する特徴量に対して妥当性が高いシーン種別を特定することが可能である。
＜態様Ａ３＞
態様Ａ２の好適例（態様Ａ３）において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量からひとつのシーン種別を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量からひとつのシーン種別を特定することが可能である。
＜態様Ａ４＞
態様Ａ２の好適例（態様Ａ４）において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量から、複数のシーン種別の各々に関する尤度を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量から、複数のシーン種別の各々に関する尤度を特定することが可能である。
＜態様Ａ５＞
態様Ａ１から態様Ａ４の何れかの好適例（態様Ａ５）において、前記コンテンツの再生を制御するための再生制御データを、前記特定したシーン種別に応じて設定する。以上の態様では、コンテンツの再生を制御するための再生制御データがシーン種別に応じて設定される。したがって、コンテンツのシーン種別にとって適切な特性でコンテンツを再生することが可能である。
＜態様Ａ６＞
態様Ａ５の好適例（態様Ａ６）において、前記再生制御データは、前記コンテンツの音響で形成される音場を制御するための音響制御データを含む。以上の態様では、コンテンツの音響で形成される音場を制御するための音響制御データがシーン種別に応じて設定される。したがって、コンテンツのシーン種別にとって適切な音場でコンテンツの音響を再生することが可能である。
＜態様Ａ７＞
本発明の好適な態様（態様Ａ７）に係る情報処理方法は、映像と音響とを含むコンテンツにおける前記音響の特徴量から特定された当該コンテンツのシーン種別に応じて、前記コンテンツの再生を制御するための再生制御データを設定する。以上の態様では、コンテンツの音響の特徴量から特定されたシーン種別に応じて、コンテンツの再生を制御するための再生制御データが設定される。したがって、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定し、当該シーン種別にとって適切な特性でコンテンツを再生することが可能である。
＜態様Ａ８＞
態様Ａ１から態様Ａ７の何れかの好適例（態様Ａ８）において、前記特徴量は、前記コンテンツの音響を表す複数のチャンネルにそれぞれ対応する複数の要素を含むベクトルであり、前記複数の要素の各々は、当該要素に対応するチャンネルの周波数特性に応じた数値である。以上の態様では、複数のチャンネルの各々の周波数特性に応じた要素を含むベクトルを特徴量としてシーン種別が特定される。すなわち、複数のチャンネルの音響信号で実現される音場の特徴を表す特徴量がシーン種別の特定に利用される。したがって、複数のチャンネルの音響信号で実現される音場の特徴がシーン種別に依存するという傾向のもとで、コンテンツのシーン種別を高精度に特定することが可能である。
＜態様Ａ９＞
本発明の好適な態様（態様Ａ９）に係る情報処理装置は、映像と音響とを含むコンテンツにおける前記音響の特徴量に応じて当該コンテンツのシーン種別を特定する解析処理部を具備する。以上の態様では、コンテンツにおける音響の特徴量に応じてシーン種別が特定されるから、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。
＜態様Ａ１０＞
態様Ａ９の好適例（態様Ａ１０）に係る情報処理装置は、前記解析処理部が特定したシーン種別に応じて、前記コンテンツの再生を制御するための再生制御データを設定する設定処理部と、前記設定処理部が設定した再生制御データに応じて前記コンテンツを再生する再生制御部とを具備する。以上の態様では、コンテンツの再生を制御するための再生制御データがシーン種別に応じて設定される。したがって、コンテンツのシーン種別にとって適切な特性でコンテンツを再生することが可能である。

（１０）以上に例示した形態（特に第３実施形態）から、例えば以下の態様が把握される。
＜態様Ｂ１＞
本発明の好適な態様（態様Ｂ１）に係る情報処理方法は、１以上のコンテンツにおける音響の特徴量を分類した複数のクラスタの何れかについて利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する。以上の態様では、コンテンツの音響の特徴量とコンテンツのシーン種別とを示す学習データが生成される。したがって、複数の学習データを利用した機械学習で生成される識別モデルを利用することで、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。また、１個のクラスタに属する特徴量と、当該クラスタについて利用者からの指示に応じて設定されたシーン種別とを示す複数の学習データが生成されるから、利用者の意図または嗜好を反映した識別モデルを生成できるという利点もある。
＜態様Ｂ２＞
態様Ｂ１の好適例（態様Ｂ２）において、前記複数の学習データを利用した機械学習により、音響の特徴量とシーン種別との関係を表す識別モデルを生成する。以上の態様では、コンテンツの音響の特徴量とコンテンツのシーン種別とを示す複数の学習データが生成され、複数の学習データを利用した機械学習で識別モデルが生成される。この識別モデルを利用することで、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。
＜態様Ｂ３＞
態様Ｂ２の好適例（態様Ｂ３）において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量からひとつのシーン種別を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量からひとつのシーン種別を特定することが可能である。
＜態様Ｂ４＞
態様Ｂ２の好適例（態様Ｂ４）において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量から、複数のシーン種別の各々に関する尤度を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量から、複数のシーン種別の各々に関する尤度を特定することが可能である。
＜態様Ｂ５＞
本発明の好適な態様（態様Ｂ５）に係る情報処理装置は、１以上のコンテンツにおける音響の特徴量を分類した複数のクラスタの何れかについて利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する学習データ生成部と、前記複数の学習データを利用した機械学習により、音響の特徴量とシーン種別との関係を表す識別モデルを生成する識別モデル生成部とを具備する。以上の態様では、コンテンツの音響の特徴量とコンテンツのシーン種別とを示す学習データが生成され、複数の学習データを利用した機械学習で識別モデルが生成される。したがって、この識別モデルを利用することで、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。また、１個のクラスタに属する特徴量と、当該クラスタについて利用者からの指示に応じて設定されたシーン種別とを示す複数の学習データが生成されるから、利用者の意図または嗜好を反映した識別モデルを生成できるという利点もある。

１０…ＡＶシステム、１００，２００…情報処理装置、３００…端末装置、４００…通信網、１１…信号供給装置、１２…放音システム、１３…表示装置、２１…制御装置、２２…記憶装置、２３…信号取得部、２４…再生制御部、２４２…音響処理部、２４４…映像処理部、３１…特徴抽出部、３２…解析処理部、３３…設定処理部、５１…制御装置、５２…記憶装置、５３…表示装置、５４…操作装置、５５…放音装置、６１…特徴抽出部、６２…学習データ生成部、６３…識別モデル生成部。

Claims

コンピュータシステムが、
複数のチャンネルの音響を含む１以上のコンテンツにおける当該音響の特徴量であって、前記各チャンネルにおける周波数特性または信号強度に応じた要素を前記複数のチャンネルについて配列した特徴量、を分類した複数のクラスタの何れかについて、利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成し、
前記複数の学習データを利用した機械学習により、コンテンツの音響の特徴量から当該コンテンツのシーン種別を特定するための識別モデルを生成する
情報処理方法。
前記識別モデルは、前記コンテンツにおける前記音響の特徴量からひとつのシーン種別を特定可能な統計モデルである
請求項１の情報処理方法。
前記識別モデルは、前記コンテンツにおける前記音響の特徴量から、複数のシーン種別の各々に関する尤度を特定可能な統計モデルである
請求項１の情報処理方法。
複数のチャンネルの音響を含む１以上のコンテンツにおける当該音響の特徴量であって、前記各チャンネルにおける周波数特性または信号強度に応じた要素を前記複数のチャンネルについて配列した特徴量、を分類した複数のクラスタの何れかについて、利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する学習データ生成部と、
前記複数の学習データを利用した機械学習により、コンテンツの音響の特徴量から当該コンテンツのシーン種別を特定するための識別モデルを生成する識別モデル生成部と
を具備する情報処理装置。