JP2019205114A

JP2019205114A - データ処理装置、及びデータ処理方法。

Info

Publication number: JP2019205114A
Application number: JP2018100429A
Authority: JP
Inventors: 雄太湯山; Yuta Yuyama; 邦洋熊谷; Kunihiro Kumagai; 良太郎青木; Ryotaro Aoki
Original assignee: Yamaha Corp
Current assignee: Yamaha Corp
Priority date: 2018-05-25
Filing date: 2018-05-25
Publication date: 2019-11-28
Also published as: JP7420170B2; EP3573352B1; EP3573352A1; US20190362739A1; US20230386501A1; CN110536225A; US11763837B2; CN110536225B; JP2022130736A; US20210225390A1; US11004460B2

Abstract

【課題】サウンドデータを用いてコンテンツのシーンを判定し、当該シーンの判定結果から、サウンドデータに対して実行する処理を選択するデータ処理装置を実現することを目的とする。【解決手段】本開示にかかるデータ処理装置は、サウンドデータを用いて、コンテンツのシーンに関する第１の判定結果を出力する第１の判定部と、前記第１の判定結果に応じて、第１の選択方法により前記サウンドデータに対する処理を選択する処理選択部と、前記処理選択部により選択された前記処理を、前記サウンドデータに対して実行するサウンドデータ処理部と、複数の属性候補の中から、前記コンテンツの属性を判定する第２の判定部と、を含み、前記処理選択部は、前記属性の判定結果に応じて、前記第１の選択方法とは異なる第２の選択方法により前記処理を選択する。【選択図】図１

Description

本発明は、データ処理装置、及びデータ処理方法に関する。

下記、特許文献１においては、映像デコーダによってデコードされた画像データから、映像シーンの特徴を判定し、その映像シーンの特徴に応じて、音場制御情報を生成する映像音声信号処理装置が開示されている。

特開２００９−２９６２７４号公報

上記特許文献１の構成においては、サウンドデータではなく、画像データを用いてコンテンツのシーンを判定し、当該シーンの判定結果に応じて音場制御情報を生成するため、当該音場制御が必ずしも適切ではないことが課題となっていた。

本開示においては、サウンドデータを用いてコンテンツのシーンを判定し、当該シーンの判定結果から、サウンドデータに対して実行する処理を選択するデータ処理装置を実現することを目的とする。

本開示に係るデータ処理装置は、サウンドデータを用いて、コンテンツのシーンに関する第１の判定結果を出力する第１の判定部と、前記第１の判定結果に応じて、第１の選択方法により前記サウンドデータに対する処理を選択する処理選択部と、前記処理選択部により選択された前記処理を、前記サウンドデータに対して実行するサウンドデータ処理部と、複数の属性候補の中から、前記コンテンツの属性を判定する第２の判定部と、を含み、前記処理選択部は、前記属性の判定結果に応じて、前記第１の選択方法とは異なる第２の選択方法により前記処理を選択する。

本開示に係るデータ処理方法は、サウンドデータを用いて、コンテンツのシーンに関する第１の判定結果を出力し、前記第１の判定結果に応じて、第１の選択方法により前記サウンドデータに対する処理を選択し、選択された前記処理を、前記サウンドデータに対して実行し、複数の属性候補の中から、前記コンテンツの属性を判定し、前記属性の判定結果に応じて、前記第１の選択方法とは異なる第２の選択方法により前記処理を選択する。

図１は第１の実施形態における制御部及びサウンドデータ処理部の機能的構成を示したブロック図である。図２は第１の実施形態におけるデータ処理装置を含む聴取環境の模式図である。図３は第１の実施形態におけるデータ処理装置の構成を示す模式的なブロック図である。図４は第１の実施形態におけるデータ処理方法のフローチャート図である。図５は第１の実施形態において用いるシーン判定モデルの概念図である。

［第１の実施形態］
本開示の第１の実施形態について、図面を用いて以下に説明する。

本実施形態におけるデータ処理装置１は、制御部１７と、サウンドデータ処理部１４と、を含む。制御部１７は、第１の判定部３１、処理選択部３２、及び第２の判定部３３を含む。

第１の判定部３１は、サウンドデータを用いて、コンテンツのシーンに関する第１の判定結果を出力する。第２の判定部３３は、複数の属性候補の中から、コンテンツの属性を判定する。

処理選択部３２は、基本的には、第１の判定結果に応じて、第１の選択方法により処理（例えば、音場）を選択する。ただし、処理選択部３２は、第２の判定部３３による属性の判定結果に応じて、第１の選択方法とは異なる第２の選択方法により前記処理を選択する。

サウンドデータ処理部１４は、処理選択部３２により選択された処理を、サウンドデータに対して実行する。例えば、サウンドデータ処理部１４は、処理選択部３２により選択された音場の効果を、前記サウンドデータに付与する。

このような構成により、本開示のデータ処理装置１は、サウンドデータを用いてコンテンツのシーンを判定し、当該シーンの判定結果から、サウンドデータに対する処理（例えば、音場制御）を行うことができる。そのため、より適切な処理をすることが可能となる。例として、コンテンツが、車の走行シーンが描かれた映像データを含むミュージックビデオであった場合について説明する。映像データを用いてコンテンツのシーンを判定する場合、映像データに車の走行シーンが含まれていることから、車の走行音に関する周波数を強調する音場制御を行ってしまう可能性がある。しかし、本実施形態の構成においては、映像データに車の走行シーンが含まれていたとしても、データ処理装置１が、ミュージックビデオに含まれるサウンドデータを用いてシーンの判定を行う。そのため、より適切な音場制御を行うことが可能となる。

また、処理選択部３２が、第２の判定部３３による属性の判定結果に応じて、第１の選択方法とは異なる第２の選択方法により前記音場を選択する構成とすることにより、複数の属性に対応する音場制御を可能とすることができる。

以下、より具体的な構成について説明する。

図２は、本実施形態におけるデータ処理装置１を含む聴取環境の模式図である。図１に示すように、本実施形態では、聴取位置Ｕの周囲に、フロント・レフトスピーカ２１Ｌ、フロント・ライトスピーカ２１Ｒ、センタースピーカ２１Ｃ、サラウンド・レフトスピーカ２１ＳＬ、およびサラウンド・ライトスピーカ２１ＳＲが設置されている。フロント・レフトスピーカ２１Ｌは、聴取位置Ｕの前方左側、フロント・ライトスピーカ２１Ｒは、聴取位置Ｕの前方右側、センタースピーカ２１Ｃは、聴取位置Ｕの前方中央、サラウンド・レフトスピーカ２１ＳＬは、聴取位置Ｕの後方左側、サラウンド・ライトスピーカ２１ＳＲは、聴取位置Ｕの後方右側に設置されている。フロント・レフトスピーカ２１Ｌ、フロント・ライトスピーカ２１Ｒ、センタースピーカ２１Ｃ、サラウンド・レフトスピーカ２１ＳＬ、およびサラウンド・ライトスピーカ２１ＳＲは、それぞれデータ処理装置１に、無線又は有線により接続されている。なお、本実施形態においては、５ｃｈのサラウンドシステムを例に挙げて説明するが、本開示は、その他、２．０ｃｈ、５．１ｃｈ、７．１ｃｈ、１１．２ｃｈなど、様々なチャネル数のサラウンドシステムにおいても用いることができる。

図３は、本実施形態におけるデータ処理装置１の構成を示す模式的なブロック図である。データ処理装置１は、例えばＡＶアンプ、パーソナルコンピュータ、テレビ受像機に含まれる音声処理部、ワンバータイプのスピーカ等を用いて実現することができる。図３に示すように、本実施形態におけるデータ処理装置１は、入力部１１、デコーダ１２、チャネル拡張部１３、サウンドデータ処理部１４、Ｄ／Ａコンバータ１５、アンプ（amplifier）１６、制御部１７、ＲＯＭ（read‐only memory）１８、及びＲＡＭ（Random access memory）１９を備えている。

制御部１７は、ＲＯＭ１８に記憶されている動作用プログラム（ファームウェア）をＲＡＭ１９に読み出し、データ処理装置１を統括的に制御する。当該動作用プログラムは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。

入力部１１は、ＨＤＭＩ（登録商標）やネットワークを経由して、オーディオ信号を取得する。オーディオ信号の方式としては、例えば、ＰＣＭ（pulse code modulation）、Dolby（登録商標）、Dolby TrueHD、Dolby Digital Plus、DOLBY ATMOS（登録商標）、ＡＡＣ（Advanced Audio Coding）（登録商標）、ＤＴＳ（登録商標）、DTS-HD（登録商標） Master Audio、DTS：X（登録商標）、ＤＳＤ（Direct Stream Digital）（登録商標）などが含まれ、その種類は特に限定されない。入力部１１は、サウンドデータをデコーダ１２に出力する。

本実施形態において、ネットワークは、無線ＬＡＮ（Local Area Network）、有線ＬＡＮ、ＷＡＮ（Wide Area Network）などを含み、データ処理装置１と、光ディスクプレイヤー等のソース装置との信号伝達経路として機能する。

デコーダ１２は、例えばＤＳＰ（Digital Signal Processor）からなり、オーディオ信号をデコードし、サウンドデータを抽出する。なお、本実施形態においては、サウンドデータは特に記載がない限り全てデジタルデータとして説明する。

チャネル拡張部１３は、例えばＤＳＰからなり、上述したフロント・レフトスピーカ２１Ｌ、フロント・ライトスピーカ２１Ｒ、センタースピーカ２１Ｃ、サラウンド・レフトスピーカ２１ＳＬ、サラウンド・ライトスピーカ２１ＳＲのそれぞれに対応する、複数チャネルのサウンドデータをチャネル拡張処理によって生成する。なお、チャネル拡張処理については、周知技術（例えば米国特許第７００３４６７号公報等）を適用することができる。生成された各チャネルのサウンドデータは、サウンドデータ処理部１４に出力される。

なお、チャネル拡張部１３は、オリジナルコンテンツに、ユーザが求めるチャネル数のサウンドデータが含まれていない場合にのみ、上述したチャネル拡張処理を行う構成としてもよい。即ち、オリジナルコンテンツに、ユーザが求めるチャネル数のサウンドデータが含まれている場合には、チャネル拡張部１３が、デコーダ１２から出力されたサウンドデータを、そのままサウンドデータ処理部１４に出力する構成としてもよい。あるいは、データ処理装置１が、チャネル拡張部１３を有さない構成としても構わない。

サウンドデータ処理部１４は、例えばＤＳＰからなり、制御部１７の設定に応じて、入力された各チャネルのサウンドデータに所定の音場効果データを付与する処理を行う。

音場効果データは、例えば入力されたサウンドデータから生成される擬似反射音データからなる。生成された擬似反射音データは、元のサウンドデータに加算されて出力される。

Ｄ／Ａコンバータ１５は、各チャネルのサウンドデータをアナログ信号に変換する。

アンプ１６は、Ｄ／Ａコンバータ１５から出力されたアナログ信号を増幅し、フロント・レフトスピーカ２１Ｌ、フロント・ライトスピーカ２１Ｒ、センタースピーカ２１Ｃ、サラウンド・レフトスピーカ２１ＳＬ、サラウンド・ライトスピーカ２１ＳＲのそれぞれに出力する。このような構成により、オーディオコンテンツの直接音に擬似反射音が付与された音声が各スピーカから出力され、聴取位置Ｕの周囲に所定の音響空間を模した音場が形成される。

図１は、本実施形態における制御部１７、及びサウンドデータ処理部１４の機能的構成を示したブロック図である。制御部１７は、単一のＣＰＵ（Central Processing Unit）により構成されてもよく、複数のＣＰＵにより構成されてもよい。

本開示のデータ処理装置１は、制御部１７は、上述した通り、第１の判定部３１、処理選択部３２、及び第２の判定部３３を含む。

図４は、本実施形態におけるデータ処理方法のフローチャート図である。第１の判定部３１は、デコーダ１２から取得したサウンドデータを用いて、コンテンツシーンに関する第１の判定結果を出力する（Ｓ００１）。第２の判定部３３は、複数の属性候補の中から、コンテンツの属性を判定する（Ｓ００２）。なお、第１の判定部３１が、第１の判定結果を出力するステップＳ００１と、第２の判定部３３が、コンテンツの属性を判定するステップＳ００２と、の前後関係は問わない。

ここで、第２の判定部３３が判定するコンテンツの属性は特に限定されないが、例えば、第２の判定部３３は、映画、音楽、ニュースなどの属性候補の内、コンテンツがいずれの属性に含まれるのかを判定する。また、異なる例としては、第２の判定部３３は、アクション映画、コメディ映画、ＳＦ映画などの属性候補の内、コンテンツがいずれの属性に含まれるのかを判定する。更に異なる例としては、第２の判定部３３は、男性ボーカル、女性ボーカルの属性候補の内、コンテンツがいずれの属性に含まれるのかを判定する。

本実施形態においては、属性候補が、「映画」、「音楽」の二つであり、第２の判定部３３が、この二つの属性候補の内、コンテンツがいずれの属性に含まれるのかを判定する例について説明する。

本実施形態において、第１の判定部３１は、第２の判定部３３が判定する属性候補（映画・音楽）の内の一部の属性候補である、「映画」のみに関する機械学習を通じて生成されたシーン判定モデルを有する。機械学習としては、例えば、ディープラーニングや、サポートベクターマシンなど、各種の手法を用いることができる。本実施形態においては、シーン判定モデルが、ディープラーニングを用いて機械学習を行っている例について説明する。

図５は、本実施形態において用いるシーン判定モデルの概念図である。シーン判定モデルは、映画コンテンツに関する多数の練習用コンテンツについて機械学習をしている。機械学習プロセスとしては、例えば、手作業で、練習用コンテンツにおける各フレームにシーン種別を付与し、付与したシーン種別と、その時の各チャネルの音量レベルや周波数特性等を、教師データとして入力する。本実施形態においては、第１乃至第４のシーン候補と、各チャネルの音量レベルや周波数特性の特徴とが、教師データとして入力されている。

本実施形態において、第１の判定部３１が判定する第１乃至第４のシーン候補の例は、以下の通りである。第１のシーン候補は、戦闘シーンのような、壮大なスケール感の演出が要求されるシーンである。第２のシーン候補は、例えばＳＦＸのような、緻密なサウンドを鮮やかに表現することが要求されるシーンである。第３のシーン候補は、ロール・プレイング・ゲームや、アドベンチャー・ゲームに適した演出が要求されるシーンである。第４のシーン候補は、ドラマなど、セリフを強調することが要求されるシーンである。第１のシーン候補から、第４のシーン候補の順に、サウンドデータ処理部１４における音場制御において、音を響かせる効果が大きく付加される。なお、本実施形態においては、以上のような４つのシーン候補を例に挙げて説明するが、その他のシーン候補として、例えば「ＢＧＭ重視のシーン」、「効果音重視のシーン」、「低域重視のシーン」等が含まれてもよく、シーン候補の内容は上記の例に限定されない。

第１の判定部３１にサウンドデータが入力されると、上述したシーン判定モデルを用いて、シーンに関する判定を行う。そして、第１の判定部３１は、第１の判定結果として、上記第１乃至第４のシーン候補のそれぞれに関するスコアを出力する（Ｓ００１）。具体例としては、第１の判定部３１が、入力されたサウンドデータから特徴抽出を行い、あらかじめ用意したシーン判定モデルを基に分類を行うことにより、上記第１乃至第４のシーン候補のそれぞれに関するスコアを出力する（Ｓ００１）。なお、本実施形態においては、第１の判定部３１が最終的に出力する第１の判定結果は、４つのスコアの合計が１になるよう正規化されている。

第１の判定部３１は、シーンに関する第１の判定結果として、上記第１乃至第４のシーン候補のそれぞれに関するスコアを、処理選択部３２に伝達する。

第２の判定部３３は、上述した通り、複数の属性候補の中から、前記コンテンツの属性を判定する。本実施形態においては、属性候補が、「映画」、「音楽」の二つであり、第２の判定部３３が、この二つの属性候補の内、コンテンツがいずれの属性に含まれるのかを判定する（Ｓ００２）。

第２の判定部３３によるコンテンツの属性の判定方法は、特に限定されない。コンテンツ属性の判定方法の具体例としては、サウンドデータに対する周波数解析や、コンテンツに含まれる映像データの解析、及びコンテンツに含まれるタイトル情報などのメタデータを用いた解析等である。

サウンドデータに対する周波数解析を行う一つの例としては、コンテンツに含まれるＬＦＥ(Low Frequency Effect)信号を解析することにより行う。映画コンテンツと音楽コンテンツとでは、ＬＦＥ信号において用いられる周波数帯域が異なる。そのため、サウンドデータに含まれるＬＦＥ信号を分析し、そのＬＦＥ信号において用いられる周波数帯域から、入力されたコンテンツが映画コンテンツなのか、音楽コンテンツなのか、を判定することが可能である。

サウンドデータに対する周波数解析を行う二つ目の例について説明する。時間軸における、映画コンテンツのＬＦＥ信号の変化は、一般的に音楽コンテンツのＬＦＥ信号の変化よりも大きい。そのため、サウンドデータにおける複数フレームのＬＦＥ信号の振幅の変化の大きさを分析することにより、入力されたコンテンツが映画コンテンツなのか、音楽コンテンツなのか、を判定することが可能である。

第２の判定部３３は、コンテンツの属性の判定結果を処理選択部３２に伝達する。

処理選択部３２は、第１の判定部３１から伝達されたシーンに関する第１の判定結果と、第２の判定部３３から伝達された属性に関する判定結果と、に基づき、一つの音場を選択する（Ｓ００３、Ｓ００４）。

本実施形態においては、コンテンツの属性が、第１の判定部３１が有するシーン判定モデルが機械学習済である属性候補に含まれる場合（本実施形態においては、属性の判定結果が「映画」であった場合）、処理選択部３２は、第１の選択方法を採用する（Ｓ００３）。逆に、コンテンツの属性が、上記属性候補に含まれない場合（本実施形態においては、属性の判定結果が「音楽」であった場合）、処理選択部３２は、第２の選択方法を採用する（Ｓ００４）。

まずは、第２の判定部３３によるコンテンツの属性の判定が、「映画」であった場合について説明する。第２の判定部３３の判定結果に基づき、処理選択部３２は、「第１の選択方法」として、最も高いスコアを有するシーン候補に応じた音場を選択する（Ｓ００３）。例えば、第１の判定部３１から出力された各シーン候補のスコアの内、第１のシーン候補が最も高いスコアを有していた場合、戦闘シーンのような、壮大なスケール感の演出が要求されるシーンに適した音場を選択する。

次に、第２の判定部３３によるコンテンツの属性の判定が、「音楽」であった場合について説明する。上述した通り、本実施形態において、第１の判定部３１は、第２の判定部３３が判定する属性候補（映画・音楽）の内の一部の属性候補である、「映画」のみに関する機械学習を通じて生成されたシーン判定モデルを有する。そのため、コンテンツの属性が「音楽」である場合、第１の判定部３１において出力された各シーンのスコアの値が最大のシーン候補に応じて音場を選択することが、必ずしも適切であるとは限らない。例えば、音楽コンテンツは、一般的に大きな音量が継続的に含まれている。そのため、音楽コンテンツを、映画コンテンツに関する機械学習を通じて生成されたシーン判定モデルにより、パラメータ処理を行った場合、上述した第１のシーン候補のスコアが最も高くなってしまう可能性がある。処理選択部３２が、この第１のシーン候補に応じて音場を選択した場合、サウンドデータ処理部１４において、音楽コンテンツとしては不必要に音を響かせ過ぎた音場が付加されてしまう。従って、第２の判定部３３によるコンテンツの属性の判定が、「音楽」であった場合、処理選択部３２は、上述した第１の選択方法とは異なる、第２の選択方法により、音場を選択する（Ｓ００４）。

第２の選択方法の一つ目の例として、処理選択部３２が、所定のシーン候補を除いた複数のシーン候補の中で、最も高いスコアを有するシーン候補に応じた前記音場を選択する例について説明する。例えば、第１の判定結果における第１のシーン候補のスコアが０．５、第２のシーン候補のスコアが０．３、第３のシーン候補のスコアが０．１、第４のシーン候補のスコアが０．１であったとする。上述した理由から、第１のシーン候補は、音楽コンテンツに適していない。そのため、処理選択部３２は、第２の選択方法として、この第１のシーン候補を除いた、第２乃至第４のシーン候補の中で、最も高いスコアを有するシーン候補に応じた音場を選択する。即ち、上記例においては、処理選択部３２は、第２のシーン候補に応じた音場を選択する。

第２の選択方法の二つ目の例として、処理選択部３２が、属性の判定結果に応じて複数のシーン候補に関するスコアに係数を乗算する例について説明する。例えば、処理選択部３２は、音楽コンテンツにふさわしくない第１のシーン候補に関するスコアには、１より小さい値の係数（例えば、０．８や、０等）を乗算することにより、第１のシーン候補のスコアが低くなるように調整してもよい。また、処理選択部３２が係数を乗算するのは一つのシーン候補に限られず、４つのシーン候補すべてに係数を乗算してもよい。なお、処理選択部３２は、乗算した最終のスコアの合計が１になるよう、再度正規化してもよい。

第２の選択方法の三つ目の例として、処理選択部３２が、所定の音場を選択する例について説明する。例えば、第１の判定部３１により出力された第１の判定結果において、第１のシーン候補のスコアが最も高かった場合には、処理選択部３２は、第２のシーン候補を選択する構成としてもよい。あるいは、第２の判定部３３による属性の判定結果が「音楽」であった場合には、処理選択部３２が、第１乃至第４のシーン候補に応じた音場とは異なる第５の音場を選択する構成としてもよい。

なお、上述した例においては、第１の判定部３１のシーン判定モデルが、機械学習としてディープラーニングを用いる例について説明したが、第１の判定部３１のシーン判定モデルが、機械学習として多クラス分類用のサポートベクターマシンを用いる構成としてもよい。例えば、サウンドデータを、Ｎ個のシーン候補に分類するためには、（Ｎ−１）個のサポートベクターマシンを組み合わせて、クラス分類を行う。上述した例においては、４つのシーン候補に関する分類を行うため、シーン判定モデルが、３つのサポートベクターマシンを含む構成となる。例えば、まず、第１のサポートベクターマシンにおいて、入力されたサウンドデータが第１のシーン候補であるか否かを判定する。サウンドデータが第１のシーン候補でない場合には、第２のサポートベクターマシンにおいて、サウンドデータが第２のシーン候補であるか否かを判定する。サウンドデータが第２のシーン候補でない場合は、第３のサポートベクターマシンにおいて、サウンドデータが第３のシーン候補であるか否かを判定する。サウンドデータが第３のシーン候補でない場合は、サウンドデータは第４のシーン候補であることが決定する。

このような、多クラス分類用のサポートベクターマシンを用いた機械学習が行われたシーン判定モデルを用いた場合、図１に示した第１の判定部３１は、第１の判定結果として、第１乃至第４のシーン候補の内の一つのシーン候補を出力する。

そして、第２の判定部３３による属性の判定結果に応じて、処理選択部３２が、第１の選択方法により音場を選択する場合、処理選択部３２は、第１の判定部３１により出力された第１の判定結果である一つのシーン候補に基づいて、音場を選択する。なお、本実施形態においては、処理選択部３２が、サウンドデータに対する処理を選択する例として、サウンドデータに付与する音場効果を選択する例を挙げて説明するが、本発明はこれに限定されない。処理選択部３２による、サウンドデータに対する処理の選択例としては、その他、イコライザの設定の選択や、各チャンネルのゲイン比率、ディレイタイム等のパラメータの選択等が含まれる。

一方、第２の判定部３３による属性の判定結果に応じて、処理選択部３２が、第２の選択方法により、所定の音場を選択する場合について説明する。例えば、第１の判定部３１が、第１の判定結果として、「第１のシーン候補」を出力した場合、処理選択部３２が、例えば第２のシーン候補を選択する構成としてもよい。あるいは、第２の判定部３３による属性の判定結果が「音楽」であった場合には、処理選択部３２が、第１乃至第４のシーン候補に応じた音場とは異なる第５の音場を選択する構成としてもよい。

処理選択部３２は、音場選択結果に基づくコマンド信号をサウンドデータ処理部１４に出力する。このコマンド信号には、サウンドデータ処理部１４が演算処理に用いる各種音場パラメータの設定に関する指示が含まれている。音場パラメータには、例えば各チャネルのゲイン比率や、フィルタ係数、及びディレイタイム等が含まれる。サウンドデータ処理部１４は、このコマンド信号に基づき、音場パラメータの変更を行うことにより、入力された各チャネルのサウンドデータに所定の音場効果データを付与する処理を行う（Ｓ００５）。

このような構成により、第１の判定部３１によるシーンに関する第１の判定結果を、複数のコンテンツ属性を有する複数のサウンドデータに用いることができる。言い換えれば、上記構成によれば、第１の判定部３１が、全てのコンテンツの属性を網羅したシーン判定を行う必要がないというメリットがある。そのため、第１の判定部３１が備えるシーン判定モデルとして、複数の属性候補の内の一部の属性候補のみに関する機械学習を通じて生成されたモデルを用いることができる。そのため、シーン判定モデルに対して行う機械学習の量を低減することができる。さらに、第１の判定部３１が出力する第１の判定結果としも、限られたシーン候補に関するスコアを出力すれば足りる構成を実現することができる。

１データ処理装置、１１入力部、１２デコーダ、１３チャネル拡張部、１４サウンドデータ処理部、１５Ｄ／Ａコンバータ、１６アンプ、１７制御部、１８ＲＯＭ、１９ＲＡＭ、３１第１の判定部、３２処理選択部、３３第２の判定部、２１Ｌフロント・レフトスピーカ、２１Ｒフロント・ライトスピーカ、２１Ｃセンタースピーカ、２１ＳＬサラウンド・レフトスピーカ、２１ＳＲサラウンド・ライトスピーカ。

Claims

サウンドデータを用いて、コンテンツのシーンに関する第１の判定結果を出力する第１の判定部と、
前記第１の判定結果に応じて、第１の選択方法により前記サウンドデータに対する処理を選択する処理選択部と、
前記処理選択部により選択された前記処理を、前記サウンドデータに対して実行するサウンドデータ処理部と、
複数の属性候補の中から、前記コンテンツの属性を判定する第２の判定部と、を含み、
前記処理選択部は、前記属性の判定結果に応じて、前記第１の選択方法とは異なる第２の選択方法により前記処理を選択する、
データ処理装置。
前記第１の判定部は、前記複数の属性候補の内の一部の属性候補のみに関する機械学習を通じて生成されたシーン判定モデルに基づき、前記第１の判定結果を出力する、
請求項１に記載のデータ処理装置。
前記処理選択部は、
前記コンテンツの属性が、前記一部の属性候補に含まれる場合には、前記第１の選択方法を採用し、
前記コンテンツの属性が、前記一部の属性候補に含まれない場合には、前記第２の選択方法を採用する、
請求項２に記載のデータ処理装置。
前記第１の判定部は、前記サウンドデータから特徴抽出を行い、前記シーン判定モデルを基に分類を行うことにより、前記第１の判定結果として、複数のシーン候補に関するスコアを出力する、
請求項１乃至３のいずれか一つに記載のデータ処理装置。
前記処理選択部は、
前記第２の選択方法において、所定のシーン候補を除いた前記複数のシーン候補の中で、最も高いスコアを有する前記シーン候補に応じた前記処理を選択する、
請求項４に記載のデータ処理装置。
前記処理選択部は、
前記第２の選択方法において、前記属性の判定結果に応じて前記複数のシーン候補に関する前記スコアに係数を乗算する、
請求項４に記載のデータ処理装置。
前記処理選択部は、
前記第２の選択方法において、前記属性の判定結果に応じて所定の処理を選択する、
請求項１乃至４のいずれか一つに記載のデータ処理装置。
前記処理選択部は、前記サウンドデータに対する前記処理として、音場を選択し、
前記サウンドデータ処理部は、前記処理選択部により選択された前記音場の効果を、前記サウンドデータに対して付与する、
請求項１乃至７のいずれか一つに記載のデータ処理装置。
サウンドデータを用いて、コンテンツのシーンに関する第１の判定結果を出力し、
前記第１の判定結果に応じて、第１の選択方法により前記サウンドデータに対する処理を選択し、
選択された前記処理を、前記サウンドデータに対して実行し、
複数の属性候補の中から、前記コンテンツの属性を判定し、
前記属性の判定結果に応じて、前記第１の選択方法とは異なる第２の選択方法により前記処理を選択する、
データ処理方法。
前記複数の属性候補の内の一部の属性候補のみに関する機械学習を通じて生成されたシーン判定モデルに基づき、前記第１の判定結果を出力する、
請求項９に記載のデータ処理方法。
前記コンテンツの属性が、前記一部の属性候補に含まれる場合には、前記第１の選択方法を採用し、
前記コンテンツの属性が、前記一部の属性候補に含まれない場合には、前記第２の選択方法を採用する、
請求項１０に記載のデータ処理方法。
前記サウンドデータから特徴抽出を行い、前記シーン判定モデルを基に分類を行うことにより、前記第１の判定結果として、複数のシーン候補に関するスコアを出力する、
請求項９乃至１１のいずれか一つに記載のデータ処理方法。
前記第２の選択方法において、所定のシーン候補を除いた前記複数のシーン候補の中で、最も高いスコアを有する前記シーン候補に応じた前記処理を選択する、
請求項１２に記載のデータ処理方法。
前記第２の選択方法において、前記属性の判定結果に応じて前記複数のシーン候補に関する前記スコアに係数を乗算する、
請求項１２に記載のデータ処理方法。
前記第２の選択方法において、前記属性の判定結果に応じて所定の処理を選択する、
請求項９乃至１２のいずれか一つに記載のデータ処理方法。
前記サウンドデータに対する前記処理として、音場を選択し、
選択された前記音場の効果を、前記サウンドデータに対して付与する、
請求項９乃至１５のいずれか一つに記載のデータ処理方法。