JP2019205114A - データ処理装置、及びデータ処理方法。 - Google Patents

データ処理装置、及びデータ処理方法。 Download PDF

Info

Publication number
JP2019205114A
JP2019205114A JP2018100429A JP2018100429A JP2019205114A JP 2019205114 A JP2019205114 A JP 2019205114A JP 2018100429 A JP2018100429 A JP 2018100429A JP 2018100429 A JP2018100429 A JP 2018100429A JP 2019205114 A JP2019205114 A JP 2019205114A
Authority
JP
Japan
Prior art keywords
scene
attribute
data processing
determination result
sound data
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2018100429A
Other languages
English (en)
Inventor
雄太 湯山
Yuta Yuyama
雄太 湯山
邦洋 熊谷
Kunihiro Kumagai
邦洋 熊谷
良太郎 青木
Ryotaro Aoki
良太郎 青木
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yamaha Corp
Original Assignee
Yamaha Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yamaha Corp filed Critical Yamaha Corp
Priority to JP2018100429A priority Critical patent/JP2019205114A/ja
Priority to US16/418,164 priority patent/US11004460B2/en
Priority to CN201910439098.3A priority patent/CN110536225B/zh
Priority to EP19176451.3A priority patent/EP3573352B1/en
Publication of JP2019205114A publication Critical patent/JP2019205114A/ja
Priority to US17/226,498 priority patent/US11763837B2/en
Priority to JP2022110480A priority patent/JP7420170B2/ja
Priority to US18/446,775 priority patent/US12033660B2/en
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S5/00Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation 
    • H04S5/005Pseudo-stereo systems, e.g. in which additional channel signals are derived from monophonic signals by means of phase shifting, time delay or reverberation  of the pseudo five- or more-channel type, e.g. virtual surround
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/44Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs
    • H04N21/44008Processing of video elementary streams, e.g. splicing a video clip retrieved from local storage with an incoming video stream or rendering scenes according to encoded video stream scene graphs involving operations for analysing video streams, e.g. detecting features or characteristics in the video stream
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/43Processing of content or additional data, e.g. demultiplexing additional data from a digital video stream; Elementary client operations, e.g. monitoring of home network or synchronising decoder's clock; Client middleware
    • H04N21/439Processing of audio elementary streams
    • H04N21/4394Processing of audio elementary streams involving operations for analysing the audio stream, e.g. detecting features or characteristics in audio streams
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N21/00Selective content distribution, e.g. interactive television or video on demand [VOD]
    • H04N21/40Client devices specifically adapted for the reception of or interaction with content, e.g. set-top-box [STB]; Operations thereof
    • H04N21/47End-user applications
    • H04N21/485End-user interface for client configuration
    • H04N21/4852End-user interface for client configuration for modifying audio parameters, e.g. switching between mono and stereo
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/14Picture signal circuitry for video frequency region
    • H04N5/147Scene change detection
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S3/00Systems employing more than two channels, e.g. quadraphonic
    • H04S3/008Systems employing more than two channels, e.g. quadraphonic in which the audio signals are in digital form, i.e. employing more than two discrete digital channels
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04SSTEREOPHONIC SYSTEMS 
    • H04S7/00Indicating arrangements; Control arrangements, e.g. balance control
    • H04S7/30Control circuits for electronic adaptation of the sound field

Landscapes

  • Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Stereophonic System (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
  • Television Signal Processing For Recording (AREA)

Abstract

【課題】サウンドデータを用いてコンテンツのシーンを判定し、当該シーンの判定結果から、サウンドデータに対して実行する処理を選択するデータ処理装置を実現することを目的とする。【解決手段】本開示にかかるデータ処理装置は、サウンドデータを用いて、コンテンツのシーンに関する第1の判定結果を出力する第1の判定部と、前記第1の判定結果に応じて、第1の選択方法により前記サウンドデータに対する処理を選択する処理選択部と、前記処理選択部により選択された前記処理を、前記サウンドデータに対して実行するサウンドデータ処理部と、複数の属性候補の中から、前記コンテンツの属性を判定する第2の判定部と、を含み、前記処理選択部は、前記属性の判定結果に応じて、前記第1の選択方法とは異なる第2の選択方法により前記処理を選択する。【選択図】図1

Description

本発明は、データ処理装置、及びデータ処理方法に関する。
下記、特許文献1においては、映像デコーダによってデコードされた画像データから、映像シーンの特徴を判定し、その映像シーンの特徴に応じて、音場制御情報を生成する映像音声信号処理装置が開示されている。
特開2009−296274号公報
上記特許文献1の構成においては、サウンドデータではなく、画像データを用いてコンテンツのシーンを判定し、当該シーンの判定結果に応じて音場制御情報を生成するため、当該音場制御が必ずしも適切ではないことが課題となっていた。
本開示においては、サウンドデータを用いてコンテンツのシーンを判定し、当該シーンの判定結果から、サウンドデータに対して実行する処理を選択するデータ処理装置を実現することを目的とする。
本開示に係るデータ処理装置は、サウンドデータを用いて、コンテンツのシーンに関する第1の判定結果を出力する第1の判定部と、前記第1の判定結果に応じて、第1の選択方法により前記サウンドデータに対する処理を選択する処理選択部と、前記処理選択部により選択された前記処理を、前記サウンドデータに対して実行するサウンドデータ処理部と、複数の属性候補の中から、前記コンテンツの属性を判定する第2の判定部と、を含み、前記処理選択部は、前記属性の判定結果に応じて、前記第1の選択方法とは異なる第2の選択方法により前記処理を選択する。
本開示に係るデータ処理方法は、サウンドデータを用いて、コンテンツのシーンに関する第1の判定結果を出力し、前記第1の判定結果に応じて、第1の選択方法により前記サウンドデータに対する処理を選択し、選択された前記処理を、前記サウンドデータに対して実行し、複数の属性候補の中から、前記コンテンツの属性を判定し、前記属性の判定結果に応じて、前記第1の選択方法とは異なる第2の選択方法により前記処理を選択する。
図1は第1の実施形態における制御部及びサウンドデータ処理部の機能的構成を示したブロック図である。 図2は第1の実施形態におけるデータ処理装置を含む聴取環境の模式図である。 図3は第1の実施形態におけるデータ処理装置の構成を示す模式的なブロック図である。 図4は第1の実施形態におけるデータ処理方法のフローチャート図である。 図5は第1の実施形態において用いるシーン判定モデルの概念図である。
[第1の実施形態]
本開示の第1の実施形態について、図面を用いて以下に説明する。
本実施形態におけるデータ処理装置1は、制御部17と、サウンドデータ処理部14と、を含む。制御部17は、第1の判定部31、処理選択部32、及び第2の判定部33を含む。
第1の判定部31は、サウンドデータを用いて、コンテンツのシーンに関する第1の判定結果を出力する。第2の判定部33は、複数の属性候補の中から、コンテンツの属性を判定する。
処理選択部32は、基本的には、第1の判定結果に応じて、第1の選択方法により処理(例えば、音場)を選択する。ただし、処理選択部32は、第2の判定部33による属性の判定結果に応じて、第1の選択方法とは異なる第2の選択方法により前記処理を選択する。
サウンドデータ処理部14は、処理選択部32により選択された処理を、サウンドデータに対して実行する。例えば、サウンドデータ処理部14は、処理選択部32により選択された音場の効果を、前記サウンドデータに付与する。
このような構成により、本開示のデータ処理装置1は、サウンドデータを用いてコンテンツのシーンを判定し、当該シーンの判定結果から、サウンドデータに対する処理(例えば、音場制御)を行うことができる。そのため、より適切な処理をすることが可能となる。例として、コンテンツが、車の走行シーンが描かれた映像データを含むミュージックビデオであった場合について説明する。映像データを用いてコンテンツのシーンを判定する場合、映像データに車の走行シーンが含まれていることから、車の走行音に関する周波数を強調する音場制御を行ってしまう可能性がある。しかし、本実施形態の構成においては、映像データに車の走行シーンが含まれていたとしても、データ処理装置1が、ミュージックビデオに含まれるサウンドデータを用いてシーンの判定を行う。そのため、より適切な音場制御を行うことが可能となる。
また、処理選択部32が、第2の判定部33による属性の判定結果に応じて、第1の選択方法とは異なる第2の選択方法により前記音場を選択する構成とすることにより、複数の属性に対応する音場制御を可能とすることができる。
以下、より具体的な構成について説明する。
図2は、本実施形態におけるデータ処理装置1を含む聴取環境の模式図である。図1に示すように、本実施形態では、聴取位置Uの周囲に、フロント・レフトスピーカ21L、フロント・ライトスピーカ21R、センタースピーカ21C、サラウンド・レフトスピーカ21SL、およびサラウンド・ライトスピーカ21SRが設置されている。フロント・レフトスピーカ21Lは、聴取位置Uの前方左側、フロント・ライトスピーカ21Rは、聴取位置Uの前方右側、センタースピーカ21Cは、聴取位置Uの前方中央、サラウンド・レフトスピーカ21SLは、聴取位置Uの後方左側、サラウンド・ライトスピーカ21SRは、聴取位置Uの後方右側に設置されている。フロント・レフトスピーカ21L、フロント・ライトスピーカ21R、センタースピーカ21C、サラウンド・レフトスピーカ21SL、およびサラウンド・ライトスピーカ21SRは、それぞれデータ処理装置1に、無線又は有線により接続されている。なお、本実施形態においては、5chのサラウンドシステムを例に挙げて説明するが、本開示は、その他、2.0ch、5.1ch、7.1ch、11.2chなど、様々なチャネル数のサラウンドシステムにおいても用いることができる。
図3は、本実施形態におけるデータ処理装置1の構成を示す模式的なブロック図である。データ処理装置1は、例えばAVアンプ、パーソナルコンピュータ、テレビ受像機に含まれる音声処理部、ワンバータイプのスピーカ等を用いて実現することができる。図3に示すように、本実施形態におけるデータ処理装置1は、入力部11、デコーダ12、チャネル拡張部13、サウンドデータ処理部14、D/Aコンバータ15、アンプ(amplifier)16、制御部17、ROM(read‐only memory)18、及びRAM(Random access memory)19を備えている。
制御部17は、ROM18に記憶されている動作用プログラム(ファームウェア)をRAM19に読み出し、データ処理装置1を統括的に制御する。当該動作用プログラムは、光学的、磁気的等の種類を問わず、様々な記録媒体からインストールされてよく、インターネットを介してダウンロードされてもよい。
入力部11は、HDMI(登録商標)やネットワークを経由して、オーディオ信号を取得する。オーディオ信号の方式としては、例えば、PCM(pulse code modulation)、Dolby(登録商標)、Dolby TrueHD、Dolby Digital Plus、DOLBY ATMOS(登録商標)、AAC(Advanced Audio Coding)(登録商標)、DTS(登録商標)、DTS-HD(登録商標) Master Audio、DTS:X(登録商標)、DSD(Direct Stream Digital)(登録商標)などが含まれ、その種類は特に限定されない。入力部11は、サウンドデータをデコーダ12に出力する。
本実施形態において、ネットワークは、無線LAN(Local Area Network)、有線LAN、WAN(Wide Area Network)などを含み、データ処理装置1と、光ディスクプレイヤー等のソース装置との信号伝達経路として機能する。
デコーダ12は、例えばDSP(Digital Signal Processor)からなり、オーディオ信号をデコードし、サウンドデータを抽出する。なお、本実施形態においては、サウンドデータは特に記載がない限り全てデジタルデータとして説明する。
チャネル拡張部13は、例えばDSPからなり、上述したフロント・レフトスピーカ21L、フロント・ライトスピーカ21R、センタースピーカ21C、サラウンド・レフトスピーカ21SL、サラウンド・ライトスピーカ21SRのそれぞれに対応する、複数チャネルのサウンドデータをチャネル拡張処理によって生成する。なお、チャネル拡張処理については、周知技術(例えば米国特許第7003467号公報等)を適用することができる。生成された各チャネルのサウンドデータは、サウンドデータ処理部14に出力される。
なお、チャネル拡張部13は、オリジナルコンテンツに、ユーザが求めるチャネル数のサウンドデータが含まれていない場合にのみ、上述したチャネル拡張処理を行う構成としてもよい。即ち、オリジナルコンテンツに、ユーザが求めるチャネル数のサウンドデータが含まれている場合には、チャネル拡張部13が、デコーダ12から出力されたサウンドデータを、そのままサウンドデータ処理部14に出力する構成としてもよい。あるいは、データ処理装置1が、チャネル拡張部13を有さない構成としても構わない。
サウンドデータ処理部14は、例えばDSPからなり、制御部17の設定に応じて、入力された各チャネルのサウンドデータに所定の音場効果データを付与する処理を行う。
音場効果データは、例えば入力されたサウンドデータから生成される擬似反射音データからなる。生成された擬似反射音データは、元のサウンドデータに加算されて出力される。
D/Aコンバータ15は、各チャネルのサウンドデータをアナログ信号に変換する。
アンプ16は、D/Aコンバータ15から出力されたアナログ信号を増幅し、フロント・レフトスピーカ21L、フロント・ライトスピーカ21R、センタースピーカ21C、サラウンド・レフトスピーカ21SL、サラウンド・ライトスピーカ21SRのそれぞれに出力する。このような構成により、オーディオコンテンツの直接音に擬似反射音が付与された音声が各スピーカから出力され、聴取位置Uの周囲に所定の音響空間を模した音場が形成される。
図1は、本実施形態における制御部17、及びサウンドデータ処理部14の機能的構成を示したブロック図である。制御部17は、単一のCPU(Central Processing Unit)により構成されてもよく、複数のCPUにより構成されてもよい。
本開示のデータ処理装置1は、制御部17は、上述した通り、第1の判定部31、処理選択部32、及び第2の判定部33を含む。
図4は、本実施形態におけるデータ処理方法のフローチャート図である。第1の判定部31は、デコーダ12から取得したサウンドデータを用いて、コンテンツシーンに関する第1の判定結果を出力する(S001)。第2の判定部33は、複数の属性候補の中から、コンテンツの属性を判定する(S002)。なお、第1の判定部31が、第1の判定結果を出力するステップS001と、第2の判定部33が、コンテンツの属性を判定するステップS002と、の前後関係は問わない。
ここで、第2の判定部33が判定するコンテンツの属性は特に限定されないが、例えば、第2の判定部33は、映画、音楽、ニュースなどの属性候補の内、コンテンツがいずれの属性に含まれるのかを判定する。また、異なる例としては、第2の判定部33は、アクション映画、コメディ映画、SF映画などの属性候補の内、コンテンツがいずれの属性に含まれるのかを判定する。更に異なる例としては、第2の判定部33は、男性ボーカル、女性ボーカルの属性候補の内、コンテンツがいずれの属性に含まれるのかを判定する。
本実施形態においては、属性候補が、「映画」、「音楽」の二つであり、第2の判定部33が、この二つの属性候補の内、コンテンツがいずれの属性に含まれるのかを判定する例について説明する。
本実施形態において、第1の判定部31は、第2の判定部33が判定する属性候補(映画・音楽)の内の一部の属性候補である、「映画」のみに関する機械学習を通じて生成されたシーン判定モデルを有する。機械学習としては、例えば、ディープラーニングや、サポートベクターマシンなど、各種の手法を用いることができる。本実施形態においては、シーン判定モデルが、ディープラーニングを用いて機械学習を行っている例について説明する。
図5は、本実施形態において用いるシーン判定モデルの概念図である。シーン判定モデルは、映画コンテンツに関する多数の練習用コンテンツについて機械学習をしている。機械学習プロセスとしては、例えば、手作業で、練習用コンテンツにおける各フレームにシーン種別を付与し、付与したシーン種別と、その時の各チャネルの音量レベルや周波数特性等を、教師データとして入力する。本実施形態においては、第1乃至第4のシーン候補と、各チャネルの音量レベルや周波数特性の特徴とが、教師データとして入力されている。
本実施形態において、第1の判定部31が判定する第1乃至第4のシーン候補の例は、以下の通りである。第1のシーン候補は、戦闘シーンのような、壮大なスケール感の演出が要求されるシーンである。第2のシーン候補は、例えばSFXのような、緻密なサウンドを鮮やかに表現することが要求されるシーンである。第3のシーン候補は、ロール・プレイング・ゲームや、アドベンチャー・ゲームに適した演出が要求されるシーンである。第4のシーン候補は、ドラマなど、セリフを強調することが要求されるシーンである。第1のシーン候補から、第4のシーン候補の順に、サウンドデータ処理部14における音場制御において、音を響かせる効果が大きく付加される。なお、本実施形態においては、以上のような4つのシーン候補を例に挙げて説明するが、その他のシーン候補として、例えば「BGM重視のシーン」、「効果音重視のシーン」、「低域重視のシーン」等が含まれてもよく、シーン候補の内容は上記の例に限定されない。
第1の判定部31にサウンドデータが入力されると、上述したシーン判定モデルを用いて、シーンに関する判定を行う。そして、第1の判定部31は、第1の判定結果として、上記第1乃至第4のシーン候補のそれぞれに関するスコアを出力する(S001)。具体例としては、第1の判定部31が、入力されたサウンドデータから特徴抽出を行い、あらかじめ用意したシーン判定モデルを基に分類を行うことにより、上記第1乃至第4のシーン候補のそれぞれに関するスコアを出力する(S001)。なお、本実施形態においては、第1の判定部31が最終的に出力する第1の判定結果は、4つのスコアの合計が1になるよう正規化されている。
第1の判定部31は、シーンに関する第1の判定結果として、上記第1乃至第4のシーン候補のそれぞれに関するスコアを、処理選択部32に伝達する。
第2の判定部33は、上述した通り、複数の属性候補の中から、前記コンテンツの属性を判定する。本実施形態においては、属性候補が、「映画」、「音楽」の二つであり、第2の判定部33が、この二つの属性候補の内、コンテンツがいずれの属性に含まれるのかを判定する(S002)。
第2の判定部33によるコンテンツの属性の判定方法は、特に限定されない。コンテンツ属性の判定方法の具体例としては、サウンドデータに対する周波数解析や、コンテンツに含まれる映像データの解析、及びコンテンツに含まれるタイトル情報などのメタデータを用いた解析等である。
サウンドデータに対する周波数解析を行う一つの例としては、コンテンツに含まれるLFE(Low Frequency Effect)信号を解析することにより行う。映画コンテンツと音楽コンテンツとでは、LFE信号において用いられる周波数帯域が異なる。そのため、サウンドデータに含まれるLFE信号を分析し、そのLFE信号において用いられる周波数帯域から、入力されたコンテンツが映画コンテンツなのか、音楽コンテンツなのか、を判定することが可能である。
サウンドデータに対する周波数解析を行う二つ目の例について説明する。時間軸における、映画コンテンツのLFE信号の変化は、一般的に音楽コンテンツのLFE信号の変化よりも大きい。そのため、サウンドデータにおける複数フレームのLFE信号の振幅の変化の大きさを分析することにより、入力されたコンテンツが映画コンテンツなのか、音楽コンテンツなのか、を判定することが可能である。
第2の判定部33は、コンテンツの属性の判定結果を処理選択部32に伝達する。
処理選択部32は、第1の判定部31から伝達されたシーンに関する第1の判定結果と、第2の判定部33から伝達された属性に関する判定結果と、に基づき、一つの音場を選択する(S003、S004)。
本実施形態においては、コンテンツの属性が、第1の判定部31が有するシーン判定モデルが機械学習済である属性候補に含まれる場合(本実施形態においては、属性の判定結果が「映画」であった場合)、処理選択部32は、第1の選択方法を採用する(S003)。逆に、コンテンツの属性が、上記属性候補に含まれない場合(本実施形態においては、属性の判定結果が「音楽」であった場合)、処理選択部32は、第2の選択方法を採用する(S004)。
まずは、第2の判定部33によるコンテンツの属性の判定が、「映画」であった場合について説明する。第2の判定部33の判定結果に基づき、処理選択部32は、「第1の選択方法」として、最も高いスコアを有するシーン候補に応じた音場を選択する(S003)。例えば、第1の判定部31から出力された各シーン候補のスコアの内、第1のシーン候補が最も高いスコアを有していた場合、戦闘シーンのような、壮大なスケール感の演出が要求されるシーンに適した音場を選択する。
次に、第2の判定部33によるコンテンツの属性の判定が、「音楽」であった場合について説明する。上述した通り、本実施形態において、第1の判定部31は、第2の判定部33が判定する属性候補(映画・音楽)の内の一部の属性候補である、「映画」のみに関する機械学習を通じて生成されたシーン判定モデルを有する。そのため、コンテンツの属性が「音楽」である場合、第1の判定部31において出力された各シーンのスコアの値が最大のシーン候補に応じて音場を選択することが、必ずしも適切であるとは限らない。例えば、音楽コンテンツは、一般的に大きな音量が継続的に含まれている。そのため、音楽コンテンツを、映画コンテンツに関する機械学習を通じて生成されたシーン判定モデルにより、パラメータ処理を行った場合、上述した第1のシーン候補のスコアが最も高くなってしまう可能性がある。処理選択部32が、この第1のシーン候補に応じて音場を選択した場合、サウンドデータ処理部14において、音楽コンテンツとしては不必要に音を響かせ過ぎた音場が付加されてしまう。従って、第2の判定部33によるコンテンツの属性の判定が、「音楽」であった場合、処理選択部32は、上述した第1の選択方法とは異なる、第2の選択方法により、音場を選択する(S004)。
第2の選択方法の一つ目の例として、処理選択部32が、所定のシーン候補を除いた複数のシーン候補の中で、最も高いスコアを有するシーン候補に応じた前記音場を選択する例について説明する。例えば、第1の判定結果における第1のシーン候補のスコアが0.5、第2のシーン候補のスコアが0.3、第3のシーン候補のスコアが0.1、第4のシーン候補のスコアが0.1であったとする。上述した理由から、第1のシーン候補は、音楽コンテンツに適していない。そのため、処理選択部32は、第2の選択方法として、この第1のシーン候補を除いた、第2乃至第4のシーン候補の中で、最も高いスコアを有するシーン候補に応じた音場を選択する。即ち、上記例においては、処理選択部32は、第2のシーン候補に応じた音場を選択する。
第2の選択方法の二つ目の例として、処理選択部32が、属性の判定結果に応じて複数のシーン候補に関するスコアに係数を乗算する例について説明する。例えば、処理選択部32は、音楽コンテンツにふさわしくない第1のシーン候補に関するスコアには、1より小さい値の係数(例えば、0.8や、0等)を乗算することにより、第1のシーン候補のスコアが低くなるように調整してもよい。また、処理選択部32が係数を乗算するのは一つのシーン候補に限られず、4つのシーン候補すべてに係数を乗算してもよい。なお、処理選択部32は、乗算した最終のスコアの合計が1になるよう、再度正規化してもよい。
第2の選択方法の三つ目の例として、処理選択部32が、所定の音場を選択する例について説明する。例えば、第1の判定部31により出力された第1の判定結果において、第1のシーン候補のスコアが最も高かった場合には、処理選択部32は、第2のシーン候補を選択する構成としてもよい。あるいは、第2の判定部33による属性の判定結果が「音楽」であった場合には、処理選択部32が、第1乃至第4のシーン候補に応じた音場とは異なる第5の音場を選択する構成としてもよい。
なお、上述した例においては、第1の判定部31のシーン判定モデルが、機械学習としてディープラーニングを用いる例について説明したが、第1の判定部31のシーン判定モデルが、機械学習として多クラス分類用のサポートベクターマシンを用いる構成としてもよい。例えば、サウンドデータを、N個のシーン候補に分類するためには、(N−1)個のサポートベクターマシンを組み合わせて、クラス分類を行う。上述した例においては、4つのシーン候補に関する分類を行うため、シーン判定モデルが、3つのサポートベクターマシンを含む構成となる。例えば、まず、第1のサポートベクターマシンにおいて、入力されたサウンドデータが第1のシーン候補であるか否かを判定する。サウンドデータが第1のシーン候補でない場合には、第2のサポートベクターマシンにおいて、サウンドデータが第2のシーン候補であるか否かを判定する。サウンドデータが第2のシーン候補でない場合は、第3のサポートベクターマシンにおいて、サウンドデータが第3のシーン候補であるか否かを判定する。サウンドデータが第3のシーン候補でない場合は、サウンドデータは第4のシーン候補であることが決定する。
このような、多クラス分類用のサポートベクターマシンを用いた機械学習が行われたシーン判定モデルを用いた場合、図1に示した第1の判定部31は、第1の判定結果として、第1乃至第4のシーン候補の内の一つのシーン候補を出力する。
そして、第2の判定部33による属性の判定結果に応じて、処理選択部32が、第1の選択方法により音場を選択する場合、処理選択部32は、第1の判定部31により出力された第1の判定結果である一つのシーン候補に基づいて、音場を選択する。なお、本実施形態においては、処理選択部32が、サウンドデータに対する処理を選択する例として、サウンドデータに付与する音場効果を選択する例を挙げて説明するが、本発明はこれに限定されない。処理選択部32による、サウンドデータに対する処理の選択例としては、その他、イコライザの設定の選択や、各チャンネルのゲイン比率、ディレイタイム等のパラメータの選択等が含まれる。
一方、第2の判定部33による属性の判定結果に応じて、処理選択部32が、第2の選択方法により、所定の音場を選択する場合について説明する。例えば、第1の判定部31が、第1の判定結果として、「第1のシーン候補」を出力した場合、処理選択部32が、例えば第2のシーン候補を選択する構成としてもよい。あるいは、第2の判定部33による属性の判定結果が「音楽」であった場合には、処理選択部32が、第1乃至第4のシーン候補に応じた音場とは異なる第5の音場を選択する構成としてもよい。
処理選択部32は、音場選択結果に基づくコマンド信号をサウンドデータ処理部14に出力する。このコマンド信号には、サウンドデータ処理部14が演算処理に用いる各種音場パラメータの設定に関する指示が含まれている。音場パラメータには、例えば各チャネルのゲイン比率や、フィルタ係数、及びディレイタイム等が含まれる。サウンドデータ処理部14は、このコマンド信号に基づき、音場パラメータの変更を行うことにより、入力された各チャネルのサウンドデータに所定の音場効果データを付与する処理を行う(S005)。
このような構成により、第1の判定部31によるシーンに関する第1の判定結果を、複数のコンテンツ属性を有する複数のサウンドデータに用いることができる。言い換えれば、上記構成によれば、第1の判定部31が、全てのコンテンツの属性を網羅したシーン判定を行う必要がないというメリットがある。そのため、第1の判定部31が備えるシーン判定モデルとして、複数の属性候補の内の一部の属性候補のみに関する機械学習を通じて生成されたモデルを用いることができる。そのため、シーン判定モデルに対して行う機械学習の量を低減することができる。さらに、第1の判定部31が出力する第1の判定結果としも、限られたシーン候補に関するスコアを出力すれば足りる構成を実現することができる。
1 データ処理装置、11 入力部、12 デコーダ、13 チャネル拡張部、14 サウンドデータ処理部、15 D/Aコンバータ、16 アンプ、17 制御部、18 ROM、19 RAM、31 第1の判定部、32 処理選択部、33 第2の判定部、21L フロント・レフトスピーカ、21R フロント・ライトスピーカ、21C センタースピーカ、21SL サラウンド・レフトスピーカ、21SR サラウンド・ライトスピーカ。

Claims (16)

  1. サウンドデータを用いて、コンテンツのシーンに関する第1の判定結果を出力する第1の判定部と、
    前記第1の判定結果に応じて、第1の選択方法により前記サウンドデータに対する処理を選択する処理選択部と、
    前記処理選択部により選択された前記処理を、前記サウンドデータに対して実行するサウンドデータ処理部と、
    複数の属性候補の中から、前記コンテンツの属性を判定する第2の判定部と、を含み、
    前記処理選択部は、前記属性の判定結果に応じて、前記第1の選択方法とは異なる第2の選択方法により前記処理を選択する、
    データ処理装置。
  2. 前記第1の判定部は、前記複数の属性候補の内の一部の属性候補のみに関する機械学習を通じて生成されたシーン判定モデルに基づき、前記第1の判定結果を出力する、
    請求項1に記載のデータ処理装置。
  3. 前記処理選択部は、
    前記コンテンツの属性が、前記一部の属性候補に含まれる場合には、前記第1の選択方法を採用し、
    前記コンテンツの属性が、前記一部の属性候補に含まれない場合には、前記第2の選択方法を採用する、
    請求項2に記載のデータ処理装置。
  4. 前記第1の判定部は、前記サウンドデータから特徴抽出を行い、前記シーン判定モデルを基に分類を行うことにより、前記第1の判定結果として、複数のシーン候補に関するスコアを出力する、
    請求項1乃至3のいずれか一つに記載のデータ処理装置。
  5. 前記処理選択部は、
    前記第2の選択方法において、所定のシーン候補を除いた前記複数のシーン候補の中で、最も高いスコアを有する前記シーン候補に応じた前記処理を選択する、
    請求項4に記載のデータ処理装置。
  6. 前記処理選択部は、
    前記第2の選択方法において、前記属性の判定結果に応じて前記複数のシーン候補に関する前記スコアに係数を乗算する、
    請求項4に記載のデータ処理装置。
  7. 前記処理選択部は、
    前記第2の選択方法において、前記属性の判定結果に応じて所定の処理を選択する、
    請求項1乃至4のいずれか一つに記載のデータ処理装置。
  8. 前記処理選択部は、前記サウンドデータに対する前記処理として、音場を選択し、
    前記サウンドデータ処理部は、前記処理選択部により選択された前記音場の効果を、前記サウンドデータに対して付与する、
    請求項1乃至7のいずれか一つに記載のデータ処理装置。
  9. サウンドデータを用いて、コンテンツのシーンに関する第1の判定結果を出力し、
    前記第1の判定結果に応じて、第1の選択方法により前記サウンドデータに対する処理を選択し、
    選択された前記処理を、前記サウンドデータに対して実行し、
    複数の属性候補の中から、前記コンテンツの属性を判定し、
    前記属性の判定結果に応じて、前記第1の選択方法とは異なる第2の選択方法により前記処理を選択する、
    データ処理方法。
  10. 前記複数の属性候補の内の一部の属性候補のみに関する機械学習を通じて生成されたシーン判定モデルに基づき、前記第1の判定結果を出力する、
    請求項9に記載のデータ処理方法。
  11. 前記コンテンツの属性が、前記一部の属性候補に含まれる場合には、前記第1の選択方法を採用し、
    前記コンテンツの属性が、前記一部の属性候補に含まれない場合には、前記第2の選択方法を採用する、
    請求項10に記載のデータ処理方法。
  12. 前記サウンドデータから特徴抽出を行い、前記シーン判定モデルを基に分類を行うことにより、前記第1の判定結果として、複数のシーン候補に関するスコアを出力する、
    請求項9乃至11のいずれか一つに記載のデータ処理方法。
  13. 前記第2の選択方法において、所定のシーン候補を除いた前記複数のシーン候補の中で、最も高いスコアを有する前記シーン候補に応じた前記処理を選択する、
    請求項12に記載のデータ処理方法。
  14. 前記第2の選択方法において、前記属性の判定結果に応じて前記複数のシーン候補に関する前記スコアに係数を乗算する、
    請求項12に記載のデータ処理方法。
  15. 前記第2の選択方法において、前記属性の判定結果に応じて所定の処理を選択する、
    請求項9乃至12のいずれか一つに記載のデータ処理方法。
  16. 前記サウンドデータに対する前記処理として、音場を選択し、
    選択された前記音場の効果を、前記サウンドデータに対して付与する、
    請求項9乃至15のいずれか一つに記載のデータ処理方法。
JP2018100429A 2018-05-25 2018-05-25 データ処理装置、及びデータ処理方法。 Pending JP2019205114A (ja)

Priority Applications (7)

Application Number Priority Date Filing Date Title
JP2018100429A JP2019205114A (ja) 2018-05-25 2018-05-25 データ処理装置、及びデータ処理方法。
US16/418,164 US11004460B2 (en) 2018-05-25 2019-05-21 Data processing device and data processing method
CN201910439098.3A CN110536225B (zh) 2018-05-25 2019-05-24 数据处理装置及数据处理方法
EP19176451.3A EP3573352B1 (en) 2018-05-25 2019-05-24 Data processing device and data processing method
US17/226,498 US11763837B2 (en) 2018-05-25 2021-04-09 Data processing device and data processing method
JP2022110480A JP7420170B2 (ja) 2018-05-25 2022-07-08 データ処理装置、及びデータ処理方法。
US18/446,775 US12033660B2 (en) 2018-05-25 2023-08-09 Data processing device and data processing method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2018100429A JP2019205114A (ja) 2018-05-25 2018-05-25 データ処理装置、及びデータ処理方法。

Related Child Applications (1)

Application Number Title Priority Date Filing Date
JP2022110480A Division JP7420170B2 (ja) 2018-05-25 2022-07-08 データ処理装置、及びデータ処理方法。

Publications (1)

Publication Number Publication Date
JP2019205114A true JP2019205114A (ja) 2019-11-28

Family

ID=66647260

Family Applications (2)

Application Number Title Priority Date Filing Date
JP2018100429A Pending JP2019205114A (ja) 2018-05-25 2018-05-25 データ処理装置、及びデータ処理方法。
JP2022110480A Active JP7420170B2 (ja) 2018-05-25 2022-07-08 データ処理装置、及びデータ処理方法。

Family Applications After (1)

Application Number Title Priority Date Filing Date
JP2022110480A Active JP7420170B2 (ja) 2018-05-25 2022-07-08 データ処理装置、及びデータ処理方法。

Country Status (4)

Country Link
US (2) US11004460B2 (ja)
EP (1) EP3573352B1 (ja)
JP (2) JP2019205114A (ja)
CN (1) CN110536225B (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7451896B2 (ja) 2019-07-16 2024-03-19 ヤマハ株式会社 音響処理装置および音響処理方法
US20210081498A1 (en) * 2019-09-17 2021-03-18 Disney Enterprises, Inc. Artificial intelligence-based roleplaying experiences based on user-selected scenarios

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002159099A (ja) * 2000-11-20 2002-05-31 Matsushita Electric Ind Co Ltd 音場制御装置
JP2011013383A (ja) * 2009-06-30 2011-01-20 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法
JP2015099266A (ja) * 2013-11-19 2015-05-28 ソニー株式会社 信号処理装置、信号処理方法およびプログラム

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7003467B1 (en) 2000-10-06 2006-02-21 Digital Theater Systems, Inc. Method of decoding two-channel matrix encoded audio to reconstruct multichannel audio
JP4854630B2 (ja) * 2007-09-13 2012-01-18 富士通株式会社 音処理装置、利得制御装置、利得制御方法及びコンピュータプログラム
JP2009296274A (ja) 2008-06-04 2009-12-17 Toshiba Corp 映像音声信号処理装置
TWI484831B (zh) 2008-11-13 2015-05-11 Mstar Semiconductor Inc 多媒體播放方法與多媒體播放裝置
CN103456301B (zh) 2012-05-28 2019-02-12 中兴通讯股份有限公司 一种基于环境声音的场景识别方法及装置及移动终端
CN104023117B (zh) * 2013-03-01 2016-03-30 联想(北京)有限公司 一种信息处理的方法及电子设备
CN104080024B (zh) * 2013-03-26 2019-02-19 杜比实验室特许公司 音量校平器控制器和控制方法以及音频分类器
US20150058877A1 (en) 2013-08-21 2015-02-26 Harman International Industries, Incorporated Content-based audio/video adjustment
CN203872212U (zh) * 2014-02-18 2014-10-08 金硕澳门离岸商业服务有限公司 语音处理装置
CN103927146A (zh) 2014-04-30 2014-07-16 深圳市中兴移动通信有限公司 音效自适应方法和装置
KR20170030384A (ko) 2015-09-09 2017-03-17 삼성전자주식회사 음향 조절 장치 및 방법과, 장르 인식 모델 학습 장치 및 방법
JP7086521B2 (ja) 2017-02-27 2022-06-20 ヤマハ株式会社 情報処理方法および情報処理装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002159099A (ja) * 2000-11-20 2002-05-31 Matsushita Electric Ind Co Ltd 音場制御装置
JP2011013383A (ja) * 2009-06-30 2011-01-20 Toshiba Corp オーディオ信号補正装置及びオーディオ信号補正方法
JP2015099266A (ja) * 2013-11-19 2015-05-28 ソニー株式会社 信号処理装置、信号処理方法およびプログラム

Also Published As

Publication number Publication date
JP7420170B2 (ja) 2024-01-23
EP3573352B1 (en) 2023-10-18
EP3573352A1 (en) 2019-11-27
US20190362739A1 (en) 2019-11-28
US20230386501A1 (en) 2023-11-30
CN110536225A (zh) 2019-12-03
US11763837B2 (en) 2023-09-19
CN110536225B (zh) 2021-04-16
JP2022130736A (ja) 2022-09-06
US20210225390A1 (en) 2021-07-22
US11004460B2 (en) 2021-05-11

Similar Documents

Publication Publication Date Title
JP7150939B2 (ja) ボリューム平準化器コントローラおよび制御方法
JP7420170B2 (ja) データ処理装置、及びデータ処理方法。
JP5674827B2 (ja) 多重チャネル音声信号中の発話に関連したチャネルのダッキングをスケーリングするための方法およびシステム
CN104079247B (zh) 均衡器控制器和控制方法以及音频再现设备
KR102477001B1 (ko) 오디오 특성의 분석을 기반으로 오디오 재생 설정을 조정하는 방법 및 장치
KR100998913B1 (ko) 오디오 신호의 처리 방법 및 이의 장치
US20190018645A1 (en) Systems and methods for automatically generating enhanced audio output
JP2003181136A5 (ja)
JP6969368B2 (ja) オーディオデータ処理装置、及びオーディオデータ処理装置の制御方法。
WO2018155480A1 (ja) 情報処理方法および情報処理装置
CN113168839B (zh) 双端媒体智能
KR20230005400A (ko) 표준 발언을 이용한 텍스트 또는 음성 통신
US12033660B2 (en) Data processing device and data processing method
EP4018686B1 (en) Steering of binauralization of audio
US11716586B2 (en) Information processing device, method, and program
US11935552B2 (en) Electronic device, method and computer program
US20230197114A1 (en) Storage apparatus, playback apparatus, storage method, playback method, and medium
WO2023162508A1 (ja) 信号処理装置および信号処理方法
JP2014116657A (ja) 音処理装置、音処理装置の制御方法、プログラム
JP2006148608A (ja) 音声信号判別装置、音質調整装置、放送受信機、プログラム、及び記録媒体

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210315

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220113

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220201

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220331

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20220419