JP7283496B2 - 情報処理方法、情報処理装置およびプログラム - Google Patents
情報処理方法、情報処理装置およびプログラム Download PDFInfo
- Publication number
- JP7283496B2 JP7283496B2 JP2021046467A JP2021046467A JP7283496B2 JP 7283496 B2 JP7283496 B2 JP 7283496B2 JP 2021046467 A JP2021046467 A JP 2021046467A JP 2021046467 A JP2021046467 A JP 2021046467A JP 7283496 B2 JP7283496 B2 JP 7283496B2
- Authority
- JP
- Japan
- Prior art keywords
- scene type
- feature amount
- sound
- cluster
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 230000010365 information processing Effects 0.000 title claims description 60
- 238000003672 processing method Methods 0.000 title claims description 14
- 238000000034 method Methods 0.000 claims description 26
- 230000008569 process Effects 0.000 claims description 19
- 238000010801 machine learning Methods 0.000 claims description 15
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 72
- 238000000605 extraction Methods 0.000 description 30
- 238000004458 analytical method Methods 0.000 description 24
- 238000009826 distribution Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 13
- 244000290594 Ficus sycomorus Species 0.000 description 11
- 238000010586 diagram Methods 0.000 description 11
- 238000004891 communication Methods 0.000 description 9
- 230000005236 sound signal Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 8
- 238000013179 statistical model Methods 0.000 description 6
- 239000000203 mixture Substances 0.000 description 4
- 238000012706 support-vector machine Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 239000004065 semiconductor Substances 0.000 description 3
- 230000008859 change Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003909 pattern recognition Methods 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 238000007621 cluster analysis Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000004880 explosion Methods 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/57—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for processing of video signals
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/70—Information retrieval; Database structures therefor; File system structures therefor of video data
- G06F16/75—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/61—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
- G06N20/10—Machine learning using kernel methods, e.g. support vector machines [SVM]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N7/00—Computing arrangements based on specific mathematical models
- G06N7/01—Probabilistic graphical models, e.g. probabilistic networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Human Computer Interaction (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Algebra (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Pure & Applied Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Mathematical Optimization (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Television Signal Processing For Recording (AREA)
- Two-Way Televisions, Distribution Of Moving Picture Or The Like (AREA)
Description
また、本発明の他の態様に係る情報処理装置は、1以上のコンテンツにおける音響の特徴量を分類した複数のクラスタの何れかについてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する学習データ生成部を具備する。
図1は、本発明の第1実施形態に係るAV(Audio-Visual)システム10の構成図である。第1実施形態のAVシステム10は、映像と音響とを含むコンテンツを再生するためのコンピュータシステムである。コンテンツは、例えば映画,スポーツ映像,ライブ映像,ミュージックビデオまたはゲーム等の映像作品である。図1に例示される通り、第1実施形態のAVシステム10は、情報処理装置100と信号供給装置11と放音システム12と表示装置13とを具備する。
本発明の第2実施形態を説明する。なお、以下に例示する各形態において、機能または作用が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。
図5は、第3実施形態における情報処理装置200の構成図である。情報処理装置200は、第1実施形態または第2実施形態で利用される識別モデルMを生成するコンピュータシステム(識別モデル生成装置)である。例えば、携帯電話機およびスマートフォン等の可搬型の端末装置またはパーソナルコンピュータ等の情報機器が情報処理装置200として利用され得る。
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
本発明の好適な態様(態様A1)に係る情報処理方法は、映像と音響とを含むコンテンツにおける前記音響の特徴量に応じて当該コンテンツのシーン種別を特定する。以上の態様では、コンテンツにおける音響の特徴量に応じてシーン種別が特定されるから、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。
態様A1の好適例(態様A2)では、前記シーン種別の特定において、音響の特徴量とシーン種別との関係を表す識別モデルを利用して、前記コンテンツにおける前記音響の特徴量から当該コンテンツのシーン種別を特定する。以上の態様では、音響の特徴量とシーン種別との関係を表す識別モデルがシーン種別の特定に利用される。したがって、音響の特徴量とシーン種別との間に想定される傾向のもとで、特徴抽出部が抽出する特徴量に対して妥当性が高いシーン種別を特定することが可能である。
態様A2の好適例(態様A3)において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量からひとつのシーン種別を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量からひとつのシーン種別を特定することが可能である。
態様A2の好適例(態様A4)において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量から、複数のシーン種別の各々に関する尤度を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量から、複数のシーン種別の各々に関する尤度を特定することが可能である。
態様A1から態様A4の何れかの好適例(態様A5)において、前記コンテンツの再生を制御するための再生制御データを、前記特定したシーン種別に応じて設定する。以上の態様では、コンテンツの再生を制御するための再生制御データがシーン種別に応じて設定される。したがって、コンテンツのシーン種別にとって適切な特性でコンテンツを再生することが可能である。
態様A5の好適例(態様A6)において、前記再生制御データは、前記コンテンツの音響で形成される音場を制御するための音響制御データを含む。以上の態様では、コンテンツの音響で形成される音場を制御するための音響制御データがシーン種別に応じて設定される。したがって、コンテンツのシーン種別にとって適切な音場でコンテンツの音響を再生することが可能である。
本発明の好適な態様(態様A7)に係る情報処理方法は、映像と音響とを含むコンテンツにおける前記音響の特徴量から特定された当該コンテンツのシーン種別に応じて、前記コンテンツの再生を制御するための再生制御データを設定する。以上の態様では、コンテンツの音響の特徴量から特定されたシーン種別に応じて、コンテンツの再生を制御するための再生制御データが設定される。したがって、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定し、当該シーン種別にとって適切な特性でコンテンツを再生することが可能である。
態様A1から態様A7の何れかの好適例(態様A8)において、前記特徴量は、前記コンテンツの音響を表す複数のチャンネルにそれぞれ対応する複数の要素を含むベクトルであり、前記複数の要素の各々は、当該要素に対応するチャンネルの周波数特性に応じた数値である。以上の態様では、複数のチャンネルの各々の周波数特性に応じた要素を含むベクトルを特徴量としてシーン種別が特定される。すなわち、複数のチャンネルの音響信号で実現される音場の特徴を表す特徴量がシーン種別の特定に利用される。したがって、複数のチャンネルの音響信号で実現される音場の特徴がシーン種別に依存するという傾向のもとで、コンテンツのシーン種別を高精度に特定することが可能である。
本発明の好適な態様(態様A9)に係る情報処理装置は、映像と音響とを含むコンテンツにおける前記音響の特徴量に応じて当該コンテンツのシーン種別を特定する解析処理部を具備する。以上の態様では、コンテンツにおける音響の特徴量に応じてシーン種別が特定されるから、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。
態様A9の好適例(態様A10)に係る情報処理装置は、前記解析処理部が特定したシーン種別に応じて、前記コンテンツの再生を制御するための再生制御データを設定する設定処理部と、前記設定処理部が設定した再生制御データに応じて前記コンテンツを再生する再生制御部とを具備する。以上の態様では、コンテンツの再生を制御するための再生制御データがシーン種別に応じて設定される。したがって、コンテンツのシーン種別にとって適切な特性でコンテンツを再生することが可能である。
本発明の好適な態様(態様B1)に係る情報処理方法は、1以上のコンテンツにおける音響の特徴量を分類した複数のクラスタの何れかについて利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する。以上の態様では、コンテンツの音響の特徴量とコンテンツのシーン種別とを示す学習データが生成される。したがって、複数の学習データを利用した機械学習で生成される識別モデルを利用することで、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。また、1個のクラスタに属する特徴量と、当該クラスタについて利用者からの指示に応じて設定されたシーン種別とを示す複数の学習データが生成されるから、利用者の意図または嗜好を反映した識別モデルを生成できるという利点もある。
態様B1の好適例(態様B2)において、前記複数の学習データを利用した機械学習により、音響の特徴量とシーン種別との関係を表す識別モデルを生成する。以上の態様では、コンテンツの音響の特徴量とコンテンツのシーン種別とを示す複数の学習データが生成され、複数の学習データを利用した機械学習で識別モデルが生成される。この識別モデルを利用することで、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。
態様B2の好適例(態様B3)において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量からひとつのシーン種別を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量からひとつのシーン種別を特定することが可能である。
態様B2の好適例(態様B4)において、前記識別モデルは、前記コンテンツにおける前記音響の特徴量から、複数のシーン種別の各々に関する尤度を特定可能な統計モデルである。以上の態様によれば、コンテンツの音響の特徴量から、複数のシーン種別の各々に関する尤度を特定することが可能である。
本発明の好適な態様(態様B5)に係る情報処理装置は、1以上のコンテンツにおける音響の特徴量を分類した複数のクラスタの何れかについて利用者からの指示に応じてシーン種別を設定することで、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する学習データ生成部と、前記複数の学習データを利用した機械学習により、音響の特徴量とシーン種別との関係を表す識別モデルを生成する識別モデル生成部とを具備する。以上の態様では、コンテンツの音響の特徴量とコンテンツのシーン種別とを示す学習データが生成され、複数の学習データを利用した機械学習で識別モデルが生成される。したがって、この識別モデルを利用することで、コンテンツの映像からはシーン種別を正確に特定できない場合でも、当該コンテンツのシーン種別を特定することが可能である。また、1個のクラスタに属する特徴量と、当該クラスタについて利用者からの指示に応じて設定されたシーン種別とを示す複数の学習データが生成されるから、利用者の意図または嗜好を反映した識別モデルを生成できるという利点もある。
Claims (15)
- コンピュータシステムが、
複数のチャンネルの音響を含む1以上のコンテンツにおける当該音響の特徴量を分類した複数のクラスタの何れかについてシーン種別を設定し、
当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する
情報処理方法であって、
前記特徴量は、前記各チャンネルにおける周波数特性に応じた要素を前記複数のチャンネルについて含む
情報処理方法。 - コンピュータシステムが、
複数のチャンネルの音響を含む1以上のコンテンツにおける当該音響の特徴量を分類した複数のクラスタの何れかについてシーン種別を設定し、
当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する
情報処理方法であって、
前記特徴量は、前記各チャンネルにおける信号強度に応じた要素を前記複数のチャンネルについて含む
情報処理方法。 - コンピュータシステムが、
音響を含む1以上のコンテンツにおける当該音響の特徴量を分類した複数のクラスタの何れかについてシーン種別を設定し、
当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する
情報処理方法であって、
前記特徴量は、相異なる音階音に対応する複数の要素を含み、
前記複数の要素の各々は、前記音響のうち当該要素の音階音に対応する帯域成分の信号強度を複数のオクターブにわたり加算または平均した数値に設定される
情報処理方法。 - さらに、前記複数の学習データを利用した機械学習により、音響の特徴量とシーン種別との関係を表す識別モデルを生成する
請求項1から請求項3の何れかの情報処理方法。 - 前記シーン種別の設定においては、前記複数のクラスタの何れかについて、利用者からの指示に応じて前記シーン種別を設定する
請求項1から請求項3の何れかの情報処理方法。 - 複数のチャンネルの音響を含む1以上のコンテンツにおける当該音響の特徴量を分類した複数のクラスタの何れかについてシーン種別を設定し、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する情報処理装置であって、
前記特徴量は、前記各チャンネルにおける周波数特性に応じた要素を前記複数のチャンネルについて含む
情報処理装置。 - 複数のチャンネルの音響を含む1以上のコンテンツにおける当該音響の特徴量を分類した複数のクラスタの何れかについてシーン種別を設定し、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する情報処理装置であって、
前記特徴量は、前記各チャンネルにおける信号強度に応じた要素を前記複数のチャンネルについて含む
情報処理装置。 - 音響を含む1以上のコンテンツにおける当該音響の特徴量を分類した複数のクラスタの何れかについてシーン種別を設定し、当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する情報処理装置であって、
前記特徴量は、相異なる音階音に対応する複数の要素を含み、
前記複数の要素の各々は、前記音響のうち当該要素の音階音に対応する帯域成分の信号強度を複数のオクターブにわたり加算または平均した数値に設定される
情報処理装置。 - さらに、前記複数の学習データを利用した機械学習により、音響の特徴量とシーン種別との関係を表す識別モデルを生成する
請求項6から請求項8の何れかの情報処理装置。 - 前記シーン種別の設定においては、前記複数のクラスタの何れかについて、利用者からの指示に応じて前記シーン種別を設定する
請求項6から請求項8の何れかの情報処理装置。 - 複数のチャンネルの音響を含む1以上のコンテンツにおける当該音響の特徴量を分類した複数のクラスタの何れかについてシーン種別を設定する処理と、
当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する処理と、
をコンピュータに実行させるプログラムであって、
前記特徴量は、前記各チャンネルにおける周波数特性に応じた要素を前記複数のチャンネルについて含む
プログラム。 - 複数のチャンネルの音響を含む1以上のコンテンツにおける当該音響の特徴量を分類した複数のクラスタの何れかについてシーン種別を設定する処理と、
当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する処理と、
をコンピュータに実行させるプログラムであって、
前記特徴量は、前記各チャンネルにおける信号強度に応じた要素を前記複数のチャンネルについて含む
プログラム。 - 音響を含む1以上のコンテンツにおける当該音響の特徴量を分類した複数のクラスタの何れかについてシーン種別を設定する処理と、
当該クラスタに属する特徴量と、当該クラスタについて設定されたシーン種別とを示す複数の学習データを生成する処理と、
をコンピュータに実行させるプログラムであって、
前記特徴量は、相異なる音階音に対応する複数の要素を含み、
前記複数の要素の各々は、前記音響のうち当該要素の音階音に対応する帯域成分の信号強度を複数のオクターブにわたり加算または平均した数値に設定される
プログラム。 - さらに、
前記複数の学習データを利用した機械学習により、音響の特徴量とシーン種別との関係を表す識別モデルを生成する処理
を前記コンピュータに実行させる
請求項11から請求項13の何れかのプログラム。 - 前記シーン種別を設定する処理においては、前記複数のクラスタの何れかについて、利用者からの指示に応じて前記シーン種別を設定する
請求項11から請求項13の何れかのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021046467A JP7283496B2 (ja) | 2017-02-27 | 2021-03-19 | 情報処理方法、情報処理装置およびプログラム |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2017035367A JP7086521B2 (ja) | 2017-02-27 | 2017-02-27 | 情報処理方法および情報処理装置 |
JP2021046467A JP7283496B2 (ja) | 2017-02-27 | 2021-03-19 | 情報処理方法、情報処理装置およびプログラム |
Related Parent Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017035367A Division JP7086521B2 (ja) | 2017-02-27 | 2017-02-27 | 情報処理方法および情報処理装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021099536A JP2021099536A (ja) | 2021-07-01 |
JP7283496B2 true JP7283496B2 (ja) | 2023-05-30 |
Family
ID=63253319
Family Applications (2)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017035367A Active JP7086521B2 (ja) | 2017-02-27 | 2017-02-27 | 情報処理方法および情報処理装置 |
JP2021046467A Active JP7283496B2 (ja) | 2017-02-27 | 2021-03-19 | 情報処理方法、情報処理装置およびプログラム |
Family Applications Before (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2017035367A Active JP7086521B2 (ja) | 2017-02-27 | 2017-02-27 | 情報処理方法および情報処理装置 |
Country Status (3)
Country | Link |
---|---|
US (2) | US10789972B2 (ja) |
JP (2) | JP7086521B2 (ja) |
WO (1) | WO2018155481A1 (ja) |
Families Citing this family (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2018155480A1 (ja) | 2017-02-27 | 2018-08-30 | ヤマハ株式会社 | 情報処理方法および情報処理装置 |
JP7086521B2 (ja) * | 2017-02-27 | 2022-06-20 | ヤマハ株式会社 | 情報処理方法および情報処理装置 |
JP2019205114A (ja) | 2018-05-25 | 2019-11-28 | ヤマハ株式会社 | データ処理装置、及びデータ処理方法。 |
CN109859771B (zh) * | 2019-01-15 | 2021-03-30 | 华南理工大学 | 一种联合优化深层变换特征与聚类过程的声场景聚类方法 |
CN110213610B (zh) * | 2019-06-13 | 2021-05-28 | 北京奇艺世纪科技有限公司 | 一种直播场景识别方法及装置 |
JP7451896B2 (ja) * | 2019-07-16 | 2024-03-19 | ヤマハ株式会社 | 音響処理装置および音響処理方法 |
US11355138B2 (en) * | 2019-08-27 | 2022-06-07 | Nec Corporation | Audio scene recognition using time series analysis |
JP7445503B2 (ja) | 2020-04-09 | 2024-03-07 | 日本放送協会 | 異常音検知装置及びそのプログラム |
CN113053405B (zh) * | 2021-03-15 | 2022-12-09 | 中国工商银行股份有限公司 | 基于音频场景下的音频原始数据处理方法及装置 |
CN118331929B (zh) * | 2024-06-13 | 2024-08-27 | 深圳市康普信息技术有限公司 | 适用多场景模式的ai可视化音视频软件管理系统 |
Family Cites Families (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20030012890A (ko) | 2001-04-20 | 2003-02-12 | 코닌클리케 필립스 일렉트로닉스 엔.브이. | 화상을 개선하는 화상 처리 장치 및 방법과 화상 처리장치를 포함하는 화상 디스플레이 장치 |
JP4192841B2 (ja) * | 2004-05-17 | 2008-12-10 | ヤマハ株式会社 | ミキサエンジン制御装置及びプログラム |
US8200063B2 (en) * | 2007-09-24 | 2012-06-12 | Fuji Xerox Co., Ltd. | System and method for video summarization |
JP2009296274A (ja) | 2008-06-04 | 2009-12-17 | Toshiba Corp | 映像音声信号処理装置 |
JP2010011409A (ja) | 2008-06-30 | 2010-01-14 | Nippon Telegr & Teleph Corp <Ntt> | 映像ダイジェスト装置及び映像編集プログラム |
JP2010038943A (ja) * | 2008-07-31 | 2010-02-18 | Toshiba Corp | 音響信号処理装置及び方法 |
JP2010230972A (ja) | 2009-03-27 | 2010-10-14 | Pioneer Electronic Corp | 音信号処理装置、その方法、そのプログラム、および、再生装置 |
WO2010125962A1 (ja) | 2009-04-30 | 2010-11-04 | ソニー株式会社 | 表示制御装置、表示制御方法、及び、プログラム |
JP2011095680A (ja) * | 2009-11-02 | 2011-05-12 | Nec Corp | 音響モデル適応装置、音響モデル適応方法および音響モデル適応用プログラム |
JP2011223287A (ja) * | 2010-04-09 | 2011-11-04 | Sony Corp | 情報処理装置、情報処理方法、及び、プログラム |
US20120050570A1 (en) * | 2010-08-26 | 2012-03-01 | Jasinski David W | Audio processing based on scene type |
CN102368297A (zh) * | 2011-09-14 | 2012-03-07 | 北京英福生科技有限公司 | 一种用于识别被检测对象动作的设备、系统及方法 |
JP2013243619A (ja) | 2012-05-22 | 2013-12-05 | Toshiba Corp | 音響処理装置及び音響処理方法 |
US20150058877A1 (en) * | 2013-08-21 | 2015-02-26 | Harman International Industries, Incorporated | Content-based audio/video adjustment |
CN104794606A (zh) * | 2014-01-20 | 2015-07-22 | 琉璃奥图码科技股份有限公司 | 事件提示系统、事件提示方法以及情境播放单元 |
WO2016095218A1 (en) | 2014-12-19 | 2016-06-23 | Dolby Laboratories Licensing Corporation | Speaker identification using spatial information |
KR20170009037A (ko) * | 2015-07-15 | 2017-01-25 | 삼성전자주식회사 | 영상 컨텐츠 제공 장치 및 영상 컨텐츠 제공 방법 |
US9668073B2 (en) * | 2015-10-07 | 2017-05-30 | Robert Bosch Gmbh | System and method for audio scene understanding of physical object sound sources |
US10003895B2 (en) * | 2015-12-10 | 2018-06-19 | Cisco Technology, Inc. | Selective environmental classification synchronization |
US10255032B2 (en) | 2016-12-13 | 2019-04-09 | EVA Automation, Inc. | Wireless coordination of audio sources |
JP7086521B2 (ja) * | 2017-02-27 | 2022-06-20 | ヤマハ株式会社 | 情報処理方法および情報処理装置 |
-
2017
- 2017-02-27 JP JP2017035367A patent/JP7086521B2/ja active Active
-
2018
- 2018-02-21 WO PCT/JP2018/006174 patent/WO2018155481A1/ja active Application Filing
-
2019
- 2019-08-26 US US16/550,404 patent/US10789972B2/en active Active
-
2020
- 2020-07-02 US US16/920,002 patent/US11011187B2/en active Active
-
2021
- 2021-03-19 JP JP2021046467A patent/JP7283496B2/ja active Active
Non-Patent Citations (5)
Title |
---|
Daniele Barchiesi, et al.,Acoustic Scene Classification - Classifying environments from the sounds they produce,IEEE SIGNAL PROCESSING MAGAZINE,IEEE,2015年05月,pp. 16 - 34 |
Maximos A. Kaliakatsos-Papakostas, et al.,A Clustering Strategy for the Key Segmentation of Musical Audio,Computer Music Journal,2013年,Vol. 37, No. 1,52-69,https://www.academia.edu/17140956/A_Clustering_Strategy_for_the_Key_Segmentation_of_Musical_Audio |
Muhammad Shaheen, et al.,Labeled Clustering A Unique Method to Label Unsupervised Classes,The 8th International Conference for Internet Technology and Secured Transactions (ICITST 2013),IEEE,2013年12月12日,210-214 |
Muyiwa O. Oladimeji, et al.,A New Approach for Event Detection using K-means Clustering and Neural Networks,2015 International Joint Conference on Neural Networks (IJCNN),IEEE,2015年07月17日 |
Rui Cai, et al.,Co-clustering for Auditory Scene Categorization,IEEE TRANSACTIONS ON MULTIMEDIA,IEEE,2008年06月,Vol. 10, No. 4,pp. 596 - 606 |
Also Published As
Publication number | Publication date |
---|---|
JP2021099536A (ja) | 2021-07-01 |
JP7086521B2 (ja) | 2022-06-20 |
US20190378534A1 (en) | 2019-12-12 |
JP2018141854A (ja) | 2018-09-13 |
US10789972B2 (en) | 2020-09-29 |
WO2018155481A1 (ja) | 2018-08-30 |
US11011187B2 (en) | 2021-05-18 |
US20200335127A1 (en) | 2020-10-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7283496B2 (ja) | 情報処理方法、情報処理装置およびプログラム | |
JP7140221B2 (ja) | 情報処理方法、情報処理装置およびプログラム | |
US11875807B2 (en) | Deep learning-based audio equalization | |
CN105074822B (zh) | 用于音频分类和处理的装置和方法 | |
US20180137425A1 (en) | Real-time analysis of a musical performance using analytics | |
US11511200B2 (en) | Game playing method and system based on a multimedia file | |
US11322124B2 (en) | Chord identification method and chord identification apparatus | |
CN113691909A (zh) | 具有音频处理推荐的数字音频工作站 | |
JP2010140278A (ja) | 音声情報可視化装置及び音声情報可視化プログラム | |
WO2022264461A1 (ja) | 情報処理システム及び情報処理方法 | |
US20240213943A1 (en) | Dynamic audio playback equalization using semantic features | |
CN112685000B (zh) | 音频处理方法、装置、计算机设备及存储介质 | |
US20230419932A1 (en) | Information processing device and control method thereof | |
JP7230085B2 (ja) | 音声を処理するための方法及び装置、電子機器、記憶媒体並びにコンピュータプログラム | |
KR102570222B1 (ko) | 청능 수준 평가 및 청능 훈련 서비스 제공 방법, 장치 및 컴퓨터 프로그램 | |
WO2023185387A1 (zh) | 音乐信息展示方法、装置、设备、程序产品和存储介质 | |
Kobayashi et al. | An affective video generation system supporting impromptu musical performance | |
WO2023062865A1 (ja) | 情報処理装置および方法、並びにプログラム | |
US20230395064A1 (en) | Application software and services with register classification capabilities | |
WO2014142201A1 (ja) | 分離用データ処理装置およびプログラム | |
KR20240038503A (ko) | 배경음악 매칭 장치, 드로잉 데이터에 대응되는 배경음악을 매칭하는 방법 및 컴퓨터 프로그램 | |
CN117075772A (zh) | 多媒体内容展示方法、装置、电子设备及存储介质 | |
CN118045358A (zh) | 游戏音频处理方法、游戏音频处理装置、电子设备、介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210402 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20210402 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220510 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20220707 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220708 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220920 |
|
A02 | Decision of refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A02 Effective date: 20221206 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230224 |
|
C60 | Trial request (containing other claim documents, opposition documents) |
Free format text: JAPANESE INTERMEDIATE CODE: C60 Effective date: 20230224 |
|
A911 | Transfer to examiner for re-examination before appeal (zenchi) |
Free format text: JAPANESE INTERMEDIATE CODE: A911 Effective date: 20230306 |
|
C21 | Notice of transfer of a case for reconsideration by examiners before appeal proceedings |
Free format text: JAPANESE INTERMEDIATE CODE: C21 Effective date: 20230307 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230418 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20230501 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7283496 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |