JP7086521B2 - 情報処理方法および情報処理装置 - Google Patents
情報処理方法および情報処理装置 Download PDFInfo
- Publication number
- JP7086521B2 JP7086521B2 JP2017035367A JP2017035367A JP7086521B2 JP 7086521 B2 JP7086521 B2 JP 7086521B2 JP 2017035367 A JP2017035367 A JP 2017035367A JP 2017035367 A JP2017035367 A JP 2017035367A JP 7086521 B2 JP7086521 B2 JP 7086521B2
- Authority
- JP
- Japan
- Prior art keywords
- scene type
- content
- feature amount
- acoustic
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 49
- 238000003672 processing method Methods 0.000 title claims description 9
- 238000010801 machine learning Methods 0.000 claims description 16
- 238000013179 statistical model Methods 0.000 claims description 8
- 238000012549 training Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 description 64
- 238000000605 extraction Methods 0.000 description 31
- 238000000034 method Methods 0.000 description 28
- 238000004458 analytical method Methods 0.000 description 24
- 230000008569 process Effects 0.000 description 20
- 238000009826 distribution Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 238000010586 diagram Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 9
- 239000000284 extract Substances 0.000 description 7
- 239000004065 semiconductor Substances 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 230000004044 response Effects 0.000 description 2
- 230000005236 sound signal Effects 0.000 description 2
- 230000001052 transient effect Effects 0.000 description 2
- 238000012935 Averaging Methods 0.000 description 1
- 238000007476 Maximum Likelihood Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- 230000001960 triggered effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- Medical Informatics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Optimization (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
また、本発明の他の態様に係る情報処理装置は、1以上のコンテンツにおける音響の特徴量を分類した複数のクラスタの何れかについて利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する学習データ生成部と、前記複数の学習データを利用した機械学習により、音響の特徴量とシーン種別との関係を表す識別モデルを生成する識別モデル生成部とを具備する。
図1は、本発明の第1実施形態に係るAV(Audio-Visual)システム10の構成図である。第1実施形態のAVシステム10は、映像と音響とを含むコンテンツを再生するためのコンピュータシステムである。コンテンツは、例えば映画,スポーツ映像,ライブ映像,ミュージックビデオまたはゲーム等の映像作品である。図1に例示される通り、第1実施形態のAVシステム10は、情報処理装置100と信号供給装置11と放音システム12と表示装置13とを具備する。
本発明の第2実施形態を説明する。なお、以下に例示する各形態において、機能または作用が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図5は、第3実施形態における情報処理装置200の構成図である。情報処理装置200は、第1実施形態または第2実施形態で利用される識別モデルMを生成するコンピュータシステム(識別モデル生成装置)である。例えば、携帯電話機およびスマートフォン等の可搬型の端末装置またはパーソナルコンピュータ等の情報機器が情報処理装置200として利用され得る。
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
<態様A1>
本発明の好適な態様(態様A1)に係る情報処理方法は、映像と音響とを含むコンテンツにおける前記音響の特徴量に応じて当該コンテンツのシーン種別を特定する。以上の態様では、コンテンツにおける音響の特徴量に応じてシーン種別が特定されるから、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。
<態様A2>
態様A1の好適例(態様A2)では、前記シーン種別の特定において、音響の特徴量とシーン種別との関係を表す識別モデルを利用して、前記コンテンツにおける前記音響の特徴量から当該コンテンツのシーン種別を特定する。以上の態様では、音響の特徴量とシーン種別との関係を表す識別モデルがシーン種別の特定に利用される。したがって、音響の特徴量とシーン種別との間に想定される傾向のもとで、特徴抽出部が抽出する特徴量に対して妥当性が高いシーン種別を特定することが可能である。
<態様A3>
態様A2の好適例(態様A3)において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量からひとつのシーン種別を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量からひとつのシーン種別を特定することが可能である。
<態様A4>
態様A2の好適例(態様A4)において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量から、複数のシーン種別の各々に関する尤度を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量から、複数のシーン種別の各々に関する尤度を特定することが可能である。
<態様A5>
態様A1から態様A4の何れかの好適例(態様A5)において、前記コンテンツの再生を制御するための再生制御データを、前記特定したシーン種別に応じて設定する。以上の態様では、コンテンツの再生を制御するための再生制御データがシーン種別に応じて設定される。したがって、コンテンツのシーン種別にとって適切な特性でコンテンツを再生することが可能である。
<態様A6>
態様A5の好適例(態様A6)において、前記再生制御データは、前記コンテンツの音響で形成される音場を制御するための音響制御データを含む。以上の態様では、コンテンツの音響で形成される音場を制御するための音響制御データがシーン種別に応じて設定される。したがって、コンテンツのシーン種別にとって適切な音場でコンテンツの音響を再生することが可能である。
<態様A7>
本発明の好適な態様(態様A7)に係る情報処理方法は、映像と音響とを含むコンテンツにおける前記音響の特徴量から特定された当該コンテンツのシーン種別に応じて、前記コンテンツの再生を制御するための再生制御データを設定する。以上の態様では、コンテンツの音響の特徴量から特定されたシーン種別に応じて、コンテンツの再生を制御するための再生制御データが設定される。したがって、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定し、当該シーン種別にとって適切な特性でコンテンツを再生することが可能である。
<態様A8>
態様A1から態様A7の何れかの好適例(態様A8)において、前記特徴量は、前記コンテンツの音響を表す複数のチャンネルにそれぞれ対応する複数の要素を含むベクトルであり、前記複数の要素の各々は、当該要素に対応するチャンネルの周波数特性に応じた数値である。以上の態様では、複数のチャンネルの各々の周波数特性に応じた要素を含むベクトルを特徴量としてシーン種別が特定される。すなわち、複数のチャンネルの音響信号で実現される音場の特徴を表す特徴量がシーン種別の特定に利用される。したがって、複数のチャンネルの音響信号で実現される音場の特徴がシーン種別に依存するという傾向のもとで、コンテンツのシーン種別を高精度に特定することが可能である。
<態様A9>
本発明の好適な態様(態様A9)に係る情報処理装置は、映像と音響とを含むコンテンツにおける前記音響の特徴量に応じて当該コンテンツのシーン種別を特定する解析処理部を具備する。以上の態様では、コンテンツにおける音響の特徴量に応じてシーン種別が特定されるから、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。
<態様A10>
態様A9の好適例(態様A10)に係る情報処理装置は、前記解析処理部が特定したシーン種別に応じて、前記コンテンツの再生を制御するための再生制御データを設定する設定処理部と、前記設定処理部が設定した再生制御データに応じて前記コンテンツを再生する再生制御部とを具備する。以上の態様では、コンテンツの再生を制御するための再生制御データがシーン種別に応じて設定される。したがって、コンテンツのシーン種別にとって適切な特性でコンテンツを再生することが可能である。
<態様B1>
本発明の好適な態様(態様B1)に係る情報処理方法は、1以上のコンテンツにおける音響の特徴量を分類した複数のクラスタの何れかについて利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する。以上の態様では、コンテンツの音響の特徴量とコンテンツのシーン種別とを示す学習データが生成される。したがって、複数の学習データを利用した機械学習で生成される識別モデルを利用することで、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。また、1個のクラスタに属する特徴量と、当該クラスタについて利用者からの指示に応じて設定されたシーン種別とを示す複数の学習データが生成されるから、利用者の意図または嗜好を反映した識別モデルを生成できるという利点もある。
<態様B2>
態様B1の好適例(態様B2)において、前記複数の学習データを利用した機械学習により、音響の特徴量とシーン種別との関係を表す識別モデルを生成する。以上の態様では、コンテンツの音響の特徴量とコンテンツのシーン種別とを示す複数の学習データが生成され、複数の学習データを利用した機械学習で識別モデルが生成される。この識別モデルを利用することで、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。
<態様B3>
態様B2の好適例(態様B3)において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量からひとつのシーン種別を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量からひとつのシーン種別を特定することが可能である。
<態様B4>
態様B2の好適例(態様B4)において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量から、複数のシーン種別の各々に関する尤度を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量から、複数のシーン種別の各々に関する尤度を特定することが可能である。
<態様B5>
本発明の好適な態様(態様B5)に係る情報処理装置は、1以上のコンテンツにおける音響の特徴量を分類した複数のクラスタの何れかについて利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する学習データ生成部と、前記複数の学習データを利用した機械学習により、音響の特徴量とシーン種別との関係を表す識別モデルを生成する識別モデル生成部とを具備する。以上の態様では、コンテンツの音響の特徴量とコンテンツのシーン種別とを示す学習データが生成され、複数の学習データを利用した機械学習で識別モデルが生成される。したがって、この識別モデルを利用することで、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。また、1個のクラスタに属する特徴量と、当該クラスタについて利用者からの指示に応じて設定されたシーン種別とを示す複数の学習データが生成されるから、利用者の意図または嗜好を反映した識別モデルを生成できるという利点もある。
Claims (4)
- コンピュータシステムが、
複数のチャンネルの音響を含む1以上のコンテンツにおける当該音響の特徴量であって、前記各チャンネルにおける周波数特性または信号強度に応じた要素を前記複数のチャンネルについて配列した特徴量、を分類した複数のクラスタの何れかについて、利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成し、
前記複数の学習データを利用した機械学習により、コンテンツの音響の特徴量から当該コンテンツのシーン種別を特定するための識別モデルを生成する
情報処理方法。 - 前記識別モデルは、前記コンテンツにおける前記音響の特徴量からひとつのシーン種別を特定可能な統計モデルである
請求項1の情報処理方法。 - 前記識別モデルは、前記コンテンツにおける前記音響の特徴量から、複数のシーン種別の各々に関する尤度を特定可能な統計モデルである
請求項1の情報処理方法。 - 複数のチャンネルの音響を含む1以上のコンテンツにおける当該音響の特徴量であって、前記各チャンネルにおける周波数特性または信号強度に応じた要素を前記複数のチャンネルについて配列した特徴量、を分類した複数のクラスタの何れかについて、利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する学習データ生成部と、
前記複数の学習データを利用した機械学習により、コンテンツの音響の特徴量から当該コンテンツのシーン種別を特定するための識別モデルを生成する識別モデル生成部と
を具備する情報処理装置。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017035367A JP7086521B2 (ja) | 2017-02-27 | 2017-02-27 | 情報処理方法および情報処理装置 |
PCT/JP2018/006174 WO2018155481A1 (ja) | 2017-02-27 | 2018-02-21 | 情報処理方法および情報処理装置 |
US16/550,404 US10789972B2 (en) | 2017-02-27 | 2019-08-26 | Apparatus for generating relations between feature amounts of audio and scene types and method therefor |
US16/920,002 US11011187B2 (en) | 2017-02-27 | 2020-07-02 | Apparatus for generating relations between feature amounts of audio and scene types and method therefor |
JP2021046467A JP7283496B2 (ja) | 2017-02-27 | 2021-03-19 | 情報処理方法、情報処理装置およびプログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017035367A JP7086521B2 (ja) | 2017-02-27 | 2017-02-27 | 情報処理方法および情報処理装置 |
Related Child Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021046467A Division JP7283496B2 (ja) | 2017-02-27 | 2021-03-19 | 情報処理方法、情報処理装置およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2018141854A JP2018141854A (ja) | 2018-09-13 |
JP7086521B2 true JP7086521B2 (ja) | 2022-06-20 |
Family
ID=63253319
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017035367A Active JP7086521B2 (ja) | 2017-02-27 | 2017-02-27 | 情報処理方法および情報処理装置 |
JP2021046467A Active JP7283496B2 (ja) | 2017-02-27 | 2021-03-19 | 情報処理方法、情報処理装置およびプログラム |
Family Applications After (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2021046467A Active JP7283496B2 (ja) | 2017-02-27 | 2021-03-19 | 情報処理方法、情報処理装置およびプログラム |
Country Status (3)
Country | Link |
---|---|
US (2) | US10789972B2 (ja) |
JP (2) | JP7086521B2 (ja) |
WO (1) | WO2018155481A1 (ja) |
Families Citing this family (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP7086521B2 (ja) * | 2017-02-27 | 2022-06-20 | ヤマハ株式会社 | 情報処理方法および情報処理装置 |
WO2018155480A1 (ja) | 2017-02-27 | 2018-08-30 | ヤマハ株式会社 | 情報処理方法および情報処理装置 |
JP2019205114A (ja) | 2018-05-25 | 2019-11-28 | ヤマハ株式会社 | データ処理装置、及びデータ処理方法。 |
CN109859771B (zh) * | 2019-01-15 | 2021-03-30 | 华南理工大学 | 一种联合优化深层变换特征与聚类过程的声场景聚类方法 |
CN110213610B (zh) * | 2019-06-13 | 2021-05-28 | 北京奇艺世纪科技有限公司 | 一种直播场景识别方法及装置 |
JP7451896B2 (ja) | 2019-07-16 | 2024-03-19 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
US11355138B2 (en) * | 2019-08-27 | 2022-06-07 | Nec Corporation | Audio scene recognition using time series analysis |
JP7445503B2 (ja) | 2020-04-09 | 2024-03-07 | 日本放送協会 | 異常音検知装置及びそのプログラム |
CN113053405B (zh) * | 2021-03-15 | 2022-12-09 | 中国工商银行股份有限公司 | 基于音频场景下的音频原始数据处理方法及装置 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030012890A (ko) | 2001-04-20 | 2003-02-12 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 화상을 개선하는 화상 처리 장치 및 방법과 화상 처리장치를 포함하는 화상 디스플레이 장치 |
JP4192841B2 (ja) * | 2004-05-17 | 2008-12-10 | ヤマハ株式会社 | ミキサエンジン制御装置及びプログラム |
US8200063B2 (en) * | 2007-09-24 | 2012-06-12 | Fuji Xerox Co., Ltd. | System and method for video summarization |
JP2009296274A (ja) * | 2008-06-04 | 2009-12-17 | Toshiba Corp | 映像音声信号処理装置 |
JP2010011409A (ja) | 2008-06-30 | 2010-01-14 | Nippon Telegr & Teleph Corp <Ntt> | 映像ダイジェスト装置及び映像編集プログラム |
JP2010038943A (ja) * | 2008-07-31 | 2010-02-18 | Toshiba Corp | 音響信号処理装置及び方法 |
JP2010230972A (ja) | 2009-03-27 | 2010-10-14 | Pioneer Electronic Corp | 音信号処理装置、その方法、そのプログラム、および、再生装置 |
JP5533861B2 (ja) | 2009-04-30 | 2014-06-25 | ソニー株式会社 | 表示制御装置、表示制御方法、及び、プログラム |
JP2011095680A (ja) * | 2009-11-02 | 2011-05-12 | Nec Corp | 音響モデル適応装置、音響モデル適応方法および音響モデル適応用プログラム |
JP2011223287A (ja) * | 2010-04-09 | 2011-11-04 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
US20120050570A1 (en) * | 2010-08-26 | 2012-03-01 | Jasinski David W | Audio processing based on scene type |
CN102368297A (zh) * | 2011-09-14 | 2012-03-07 | 北京英福生科技有限公司 | 一种用于识别被检测对象动作的设备、系统及方法 |
JP2013243619A (ja) | 2012-05-22 | 2013-12-05 | Toshiba Corp | 音響処理装置及び音響処理方法 |
US20150058877A1 (en) * | 2013-08-21 | 2015-02-26 | Harman International Industries, Incorporated | Content-based audio/video adjustment |
CN104794606A (zh) * | 2014-01-20 | 2015-07-22 | 琉璃奥图码科技股份有限公司 | 事件提示系统、事件提示方法以及情境播放单元 |
WO2016095218A1 (en) | 2014-12-19 | 2016-06-23 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
KR20170009037A (ko) * | 2015-07-15 | 2017-01-25 | 삼성전자주식회사 | 영상 컨텐츠 제공 장치 및 영상 컨텐츠 제공 방법 |
US9668073B2 (en) * | 2015-10-07 | 2017-05-30 | Robert Bosch Gmbh | System and method for audio scene understanding of physical object sound sources |
US10003895B2 (en) * | 2015-12-10 | 2018-06-19 | Cisco Technology, Inc. | Selective environmental classification synchronization |
US10255032B2 (en) | 2016-12-13 | 2019-04-09 | EVA Automation, Inc. | Wireless coordination of audio sources |
JP7086521B2 (ja) * | 2017-02-27 | 2022-06-20 | ヤマハ株式会社 | 情報処理方法および情報処理装置 |
-
2017
- 2017-02-27 JP JP2017035367A patent/JP7086521B2/ja active Active
-
2018
- 2018-02-21 WO PCT/JP2018/006174 patent/WO2018155481A1/ja active Application Filing
-
2019
- 2019-08-26 US US16/550,404 patent/US10789972B2/en active Active
-
2020
- 2020-07-02 US US16/920,002 patent/US11011187B2/en active Active
-
2021
- 2021-03-19 JP JP2021046467A patent/JP7283496B2/ja active Active
Non-Patent Citations (2)
Title |
---|
Daniele Barchiesi,et al.,Acoustic Scene Classification - Classifying environments from the sounds they produce,IEEE SIGNAL PROCESSING MAGAZINE,IEEE,2015年5月,pp.16-34 |
Rui Cai,et al.,Co-clustering for Auditory Scene Categorization,IEEE TRANSACTIONS ON MULTIMEDIA,IEEE,2008年6月,Vol.10,No.4,pp.596-606 |
Also Published As
Publication number | Publication date |
---|---|
JP2021099536A (ja) | 2021-07-01 |
US20190378534A1 (en) | 2019-12-12 |
US20200335127A1 (en) | 2020-10-22 |
JP2018141854A (ja) | 2018-09-13 |
JP7283496B2 (ja) | 2023-05-30 |
WO2018155481A1 (ja) | 2018-08-30 |
US10789972B2 (en) | 2020-09-29 |
US11011187B2 (en) | 2021-05-18 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7283496B2 (ja) | 情報処理方法、情報処理装置およびプログラム | |
JP7140221B2 (ja) | 情報処理方法、情報処理装置およびプログラム | |
US11875807B2 (en) | Deep learning-based audio equalization | |
CN105074822B (zh) | 用于音频分类和处理的装置和方法 | |
CN104080024B (zh) | 音量校平器控制器和控制方法以及音频分类器 | |
JP2019527371A (ja) | 声紋識別方法及び装置 | |
CN104079247A (zh) | 均衡器控制器和控制方法 | |
US11511200B2 (en) | Game playing method and system based on a multimedia file | |
JP6306528B2 (ja) | 音響モデル学習支援装置、音響モデル学習支援方法 | |
JP2019144485A (ja) | コード特定方法およびプログラム | |
KR102226427B1 (ko) | 호칭 결정 장치, 이를 포함하는 대화 서비스 제공 시스템, 호칭 결정을 위한 단말 장치 및 호칭 결정 방법 | |
WO2022264461A1 (ja) | 情報処理システム及び情報処理方法 | |
CN115811590A (zh) | 行动影音装置及影音播放控制方法 | |
JP7230085B2 (ja) | 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
KR102583986B1 (ko) | 목소리에 기반한 감정 분류가 반영된 음성 메시지의 말풍선 표현 방법 및 시스템 | |
KR102623459B1 (ko) | 사용자의 보컬 평가에 기반한 오디션 이벤트 서비스 제공 방법, 장치 및 시스템 | |
KR102570222B1 (ko) | 청능 수준 평가 및 청능 훈련 서비스 제공 방법, 장치 및 컴퓨터 프로그램 | |
US20230419932A1 (en) | Information processing device and control method thereof | |
US20230395064A1 (en) | Application software and services with register classification capabilities | |
CN118045358A (zh) | 游戏音频处理方法、游戏音频处理装置、电子设备、介质 | |
CN114781401A (zh) | 一种数据处理方法、装置、设备和存储介质 | |
KR20240038503A (ko) | 배경음악 매칭 장치, 드로잉 데이터에 대응되는 배경음악을 매칭하는 방법 및 컴퓨터 프로그램 | |
KR20240033525A (ko) | 오디오 신호에 포함된 음성 신호에 이용하여 타겟 화자를 업데이트하는 전자 장치 및 그의 타겟 화자 업데이트 방법 | |
CN117075772A (zh) | 多媒体内容展示方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20191219 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201013 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201207 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20201222 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210319 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20210319 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20210330 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20210406 |
|
A912 | Re-examination (zenchi) completed and case transferred to appeal board |
Free format text: JAPANESE INTERMEDIATE CODE: A912 Effective date: 20210528 |
|
C211 | Notice of termination of reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C211 Effective date: 20210601 |
|
C22 | Notice of designation (change) of administrative judge |
Free format text: JAPANESE INTERMEDIATE CODE: C22 Effective date: 20211130 |
|
C13 | Notice of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: C13 Effective date: 20220301 |
|
C23 | Notice of termination of proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C23 Effective date: 20220510 |
|
C03 | Trial/appeal decision taken |
Free format text: JAPANESE INTERMEDIATE CODE: C03 Effective date: 20220607 |
|
C30A | Notification sent |
Free format text: JAPANESE INTERMEDIATE CODE: C3012 Effective date: 20220607 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220608 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7086521 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |