JP2016534402A - 意味データを用いて自動オーディオ生成を行うシステム及び方法 - Google Patents
意味データを用いて自動オーディオ生成を行うシステム及び方法 Download PDFInfo
- Publication number
- JP2016534402A JP2016534402A JP2016537058A JP2016537058A JP2016534402A JP 2016534402 A JP2016534402 A JP 2016534402A JP 2016537058 A JP2016537058 A JP 2016537058A JP 2016537058 A JP2016537058 A JP 2016537058A JP 2016534402 A JP2016534402 A JP 2016534402A
- Authority
- JP
- Japan
- Prior art keywords
- audio
- generated
- audio signal
- semantic
- generation
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 90
- 238000012545 processing Methods 0.000 claims abstract description 214
- 230000005236 sound signal Effects 0.000 claims abstract description 190
- 230000009471 action Effects 0.000 claims description 75
- 230000003068 static effect Effects 0.000 claims description 71
- 238000004458 analytical method Methods 0.000 claims description 65
- 230000002759 chromosomal effect Effects 0.000 claims description 36
- 230000008569 process Effects 0.000 claims description 33
- 238000011156 evaluation Methods 0.000 claims description 28
- 210000000349 chromosome Anatomy 0.000 claims description 18
- 238000004519 manufacturing process Methods 0.000 claims description 7
- 230000001360 synchronised effect Effects 0.000 claims description 6
- 238000002156 mixing Methods 0.000 description 48
- 238000010586 diagram Methods 0.000 description 40
- 238000000605 extraction Methods 0.000 description 37
- 239000000203 mixture Substances 0.000 description 23
- 238000011157 data evaluation Methods 0.000 description 19
- 230000003595 spectral effect Effects 0.000 description 18
- 230000001755 vocal effect Effects 0.000 description 17
- 230000000694 effects Effects 0.000 description 15
- 238000004091 panning Methods 0.000 description 15
- 238000013507 mapping Methods 0.000 description 14
- 238000001228 spectrum Methods 0.000 description 14
- 230000006870 function Effects 0.000 description 12
- 238000002167 anodic stripping potentiometry Methods 0.000 description 9
- 206010003664 atrial septal defect Diseases 0.000 description 9
- 230000008859 change Effects 0.000 description 9
- 239000000284 extract Substances 0.000 description 9
- 210000003127 knee Anatomy 0.000 description 9
- 238000003860 storage Methods 0.000 description 9
- 238000007906 compression Methods 0.000 description 7
- 230000006835 compression Effects 0.000 description 7
- 238000010801 machine learning Methods 0.000 description 7
- 238000012706 support-vector machine Methods 0.000 description 7
- 241001342895 Chorus Species 0.000 description 6
- HAORKNGNJCEJBX-UHFFFAOYSA-N cyprodinil Chemical compound N=1C(C)=CC(C2CC2)=NC=1NC1=CC=CC=C1 HAORKNGNJCEJBX-UHFFFAOYSA-N 0.000 description 6
- 238000009826 distribution Methods 0.000 description 6
- 238000003780 insertion Methods 0.000 description 6
- 230000037431 insertion Effects 0.000 description 6
- 238000012360 testing method Methods 0.000 description 5
- 238000013075 data extraction Methods 0.000 description 4
- 238000001514 detection method Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000000873 masking effect Effects 0.000 description 4
- 230000036651 mood Effects 0.000 description 4
- 230000036961 partial effect Effects 0.000 description 4
- 238000012937 correction Methods 0.000 description 3
- 238000001914 filtration Methods 0.000 description 3
- 230000010354 integration Effects 0.000 description 3
- 238000005259 measurement Methods 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 101150014733 ASP5 gene Proteins 0.000 description 2
- 101000581940 Homo sapiens Napsin-A Proteins 0.000 description 2
- 101100328158 Mus musculus Clmp gene Proteins 0.000 description 2
- 102100027343 Napsin-A Human genes 0.000 description 2
- 101100489854 Saccharomyces cerevisiae (strain ATCC 204508 / S288c) AAT2 gene Proteins 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000013144 data compression Methods 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000002996 emotional effect Effects 0.000 description 2
- 230000004907 flux Effects 0.000 description 2
- 238000009499 grossing Methods 0.000 description 2
- 230000007774 longterm Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000005457 optimization Methods 0.000 description 2
- 238000009527 percussion Methods 0.000 description 2
- 230000002829 reductive effect Effects 0.000 description 2
- 230000002441 reversible effect Effects 0.000 description 2
- 239000011435 rock Substances 0.000 description 2
- 230000001960 triggered effect Effects 0.000 description 2
- 238000013459 approach Methods 0.000 description 1
- 230000003139 buffering effect Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 230000002452 interceptive effect Effects 0.000 description 1
- 230000000670 limiting effect Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000008450 motivation Effects 0.000 description 1
- 230000003094 perturbing effect Effects 0.000 description 1
- 238000012805 post-processing Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000004886 process control Methods 0.000 description 1
- 238000012958 reprocessing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000000717 retained effect Effects 0.000 description 1
- 230000009291 secondary effect Effects 0.000 description 1
- 238000002922 simulated annealing Methods 0.000 description 1
- 230000001629 suppression Effects 0.000 description 1
- 230000002123 temporal effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/0091—Means for obtaining special acoustic effects
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H1/00—Details of electrophonic musical instruments
- G10H1/46—Volume control
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04H—BROADCAST COMMUNICATION
- H04H60/00—Arrangements for broadcast applications with a direct linking to broadcast information or broadcast space-time; Broadcast-related systems
- H04H60/02—Arrangements for generating broadcast information; Arrangements for generating broadcast-related information with a direct linking to broadcast information or to broadcast space-time; Arrangements for simultaneous generation of broadcast information and broadcast-related information
- H04H60/04—Studio equipment; Interconnection of studios
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/091—Info, i.e. juxtaposition of unrelated auxiliary information or commercial messages with or between music files
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10H—ELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
- G10H2240/00—Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
- G10H2240/121—Musical libraries, i.e. musical databases indexed by musical parameters, wavetables, indexing schemes using musical parameters, musical rule bases or knowledge bases, e.g. for automatic composing methods
- G10H2240/131—Library retrieval, i.e. searching a database or selecting a specific musical piece, segment, pattern, rule or parameter set
- G10H2240/141—Library retrieval matching, i.e. any of the steps of matching an inputted segment or phrase with musical database contents, e.g. query by humming, singing or playing; the steps may include, e.g. musical analysis of the input, musical feature extraction, query formulation, or details of the retrieval process
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Management Or Editing Of Information On Record Carriers (AREA)
- Circuit For Audible Band Transducer (AREA)
- Auxiliary Devices For Music (AREA)
- Stereophonic System (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
Description
関連出願の相互参照
この出願は、2013年8月28日出願の米国仮特許出願番号61/871,168「意味規則を用いて自動オーディオミキシングを行うシステム及び方法(System and Method for performing automatic audio mixing using semantic rules)」の優先権を主張し、その明細書を援用により本明細書に組み込む。
[背景技術]
オーディオ生成(例えば、スタジオ録音、ライブパフォーマンス、放送)の全ての分野において、様々な信号処理ツールを用いたオーディオ信号処理が一般的に行われている。これは、個々のオーディオ信号を処理すること、例えば、仕上がったミックスをマスタリングすることと、異なる音響源、例えば、アンサンブルの構成楽器によって生成された複数のオーディオ信号を処理して組み合わせることとを含む。この処理の目的は、複数の信号を組み合わせる時に高品質の混合信号を生成すること等、結果として生じるオーディオ信号の美的特性を向上させること、または、mp3等のデータ圧縮による信号の劣化を最小限にすることや、航空機上で背景雑音の影響を軽減する等、送信に関する機能的制限を守ることである。現在、この作業は、熟練した音響技術者が手動で行っており、音響技術者は、通常、特定の生成分野を専門としている。音響技術者が行うタスクは、非常に労働集約的となることがあり、素人がその分野に入るには険しい学習曲線があり、また、音響機器の購入には、法外な費用が掛かることが多い。
[発明の概要]
第1の一般的な態様において、自動オーディオ生成を行うコンピュータ実装方法を提供する。当該コンピュータ実装方法は、処理すべきオーディオ信号を受信することと、意味情報を受信することと、受信した意味情報を用いて、少なくとも1つの意味ベースの規則であって、処理すべきオーディオ信号をどのように生成すべきかを定義する生成データを含む意味ベースの規則を決定することと、生成データを用いて処理すべきオーディオ信号を処理し、生成されたオーディオ信号を取得することと、生成されたオーディオ信号を出力することと、を含む。
[図面の簡単な説明]
添付の図面を参照して、一例として、実施形態を記載する。
[図1]実施形態に係る、意味規則を用いてオーディオファイルを処理する方法を示すフローチャートである。
[図2]実施形態に係る、意味規則を用いてオーディオファイルを処理するシステムを示すブロック図である。
[図3]自律型マルチトラック音楽生成システムと、このようなシステムのための意味処理モジュールの実施例を示すブロック図である。
[図4]意味処理モジュールの例示的構成の実施例を示すブロック図である。
[図5]意味規則の実施例の例示的な図である。
[図6]意味処理モジュールとオーディオミキシングエンジンとの一体化の実施例を示すブロック図である。
[図7]意味規則をオーディオデータに適用するために意味処理ミキシングをさせる時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。
[図8A〜図8D]自律型マルチトラックミキシングエンジンを用いた交差適合(cross-adaptive)オーディオ処理と共に意味ミキシングを行う時に行い得るコンピュータ実行可能命令の実施例を示すフローチャートである。
[図9]意味処理モジュールを有する自律型マルチトラック音楽生成システムを示すブロック図である。
[図10]自律型マルチトラック音楽生成システムのマルチトラックサブグループを示すブロック図である。
[図11]自律型マルチトラック音楽生成システムの交差適合特徴処理要素を示すブロック図である。
[図12]自律型マルチトラック音楽生成システムのマルチトラックミキシングプロセッサの実施例を示すブロック図である。
[図13]実施形態に係る、生成データを決定する方法を示すフローチャートである。
[図14]実施形態に係る、生成データを決定するシステムのブロック図である。
[図15]実施形態に係る、埋め込み意味解析モジュールを含む自律型オーディオ生成システムを示すブロック図である。
[図16]実施形態に係る、意味解析モジュールのブロック図である。
[図17]実施形態に係る、意味データ抽出部を示すブロック図である。
[図18]実施形態に係る、意味データコンテナに含まれる意味データを示す図である。
[図19]実施形態に係る、生成データベースに含まれる基準データ記録を示す図である。
[図20]実施形態に係る、推論エンジンを示すブロック図である。
[図21]第1の例示の自律型オーディオ生成システムを示すブロック図である。
[図22]第2の例示の自律型オーディオ生成システムを示すブロック図である。
[図23]第3の例示の自律型オーディオ生成システムを示すブロック図である。
[図24]実施形態に係る、ユーザ評価と自己学習フィードバックを含む自律型オーディオ生成システムを示すブロック図である。
[発明を実施するための形態]
図を単純で明瞭にするために、図中、適切だと思われる箇所では、一致または類似する要素を示すために同じ参照番号を使用している場合があることは理解されたい。さらに、本明細書に記載の実施例を完全に理解できるように、多くの具体的詳細を記載するが、本明細書に記載の実施例は、これらの具体的な詳細以外で実践してよいことを当業者は理解されよう。他の例においては、本明細書に記載の実施例が不明瞭にならないように、既知の方法、手順、及び、コンポーネントについては、詳細には記載していない。また、記載が、本明細書に記載の実施例の範囲を限定すると解釈してはならない。
規則アクション:比率= 4.6;ニー= 0;アタックタイム=50;リリースタイム=1000;閾値=ch{トラック}.ピーク−12.5;
コメント:パンチの利いたキックドラムを圧縮
静的意味規則32は、様々な適切なデータ構造またはデータモデルに生成することができることは理解されよう。オーディオエフェクトオントロジーの使用によって、規則データベース28の交換、編集、及び、拡張を容易にしてよく、記述論理の文脈での使用を可能にしてよいことも理解されよう。
ステレオオーディオ信号を含むオーディオファイルが、意味解析モジュール622に入力され、添付の意味データはユーザインタフェースから受信されない。意味データ抽出器632が、オーディオファイルの染色体特徴を抽出する。染色体特徴は、この実施例においては、最初の10個のMFFC係数の平均値である。自動オーディオ分類部644は、SVMを用いて、オーディオファイルの染色体特徴に基づいて、オーディオファイルを特定のジャンルに分類し、そのジャンルを、例えば、電子ダンス音楽(EDM)であると識別する。この分類特徴、すなわち、ジャンル: EDMは、次に、推論エンジン636に送られ、生成データベースクエリツール680に送られる。生成データベースクエリツール680は、生成データベース638内の、分類特徴がジャンル:EDMである全ての基準記録660を識別し、基準記録660のこのサブセットは、生成データ評価部682に送られる。
添付の意味データを伴わないステレオオーディオ信号を含むオーディオファイルが意味解析モジュール622に入力される。意味データ抽出器632は、オーディオファイルの染色体特徴を抽出する。染色体特徴は、この実施例においては、最初の10個のMFFC係数の平均値、10のSBFバンドの分散、テンポである。自動オーディオ分類部644は、迂回され、染色体特徴のみが推論エンジン636に送られ、生成データベースクエリツール680に送られる。生成データベースクエリツール680は、K最近傍(KNN)アルゴリズムを用いて、染色体特徴が解析すべきオーディオファイルの染色体特徴に最も似通ったK個の基準記録のサブセットを生成データベース638から識別する。この実施例においては、K=10、従って、10個の記録のサブセットを生成データ評価部682に送り、システムは、SAM実施例1と同じように動作する。
添付の意味データを伴わないステレオオーディオ信号を含むオーディオファイルが意味解析モジュール622に入力される。意味データ抽出器632は、オーディオファイルの染色体特徴を抽出する。染色体特徴は、この実施例においては、最初の10個のMFFC係数の平均値、10のSBFバンドの分散、及び、テンポである。自動オーディオ分類部644は、SVMを用いて、染色体特徴のサブセットに基づいて、この場合は、最初の10個のMFCC係数に基づいて、オーディオファイルを特定のジャンルに分類し、そのジャンルが電子ダンス音楽(EDM)であると識別する。この分類特徴であるジャンル:EDMと、染色体特徴とは、次に、推論エンジン636に送られ、生成データベースクエリツール680に送られる。生成データベースクエリツール680は、生成データベース638内の、分類特徴ジャンル:EDMの全ての基準記録を識別する。この実施例においては、これによって、1000の記録が生成される、よって、このサブセットを減らすために、KNNアルゴリズムを用いて、解析すべきオーディオファイルの染色体特徴に最も類似した染色体特徴を有する10個の記録からなる2次サブセットを識別する。これらの10個の記録は、生成データ評価部682に送られ、システムは、SAM実施例1と同じように動作する。
添付の意味データを伴わないステレオオーディオ信号を含むオーディオファイルが意味解析モジュール622に入力される。意味データ抽出器632は、オーディオファイルの染色体特徴を抽出する。染色体特徴は、この実施例においては、最初の10のSBFバンドの平均値である。自動オーディオ分類部644は、SVMを用いて、染色体特徴に基づいて、オーディオファイルを特定のジャンルに分類し、そのジャンルをロックミュージックであると識別する。これに加えて、ユーザは、音楽のムードは激しいこと、生成スタイルは生成者Xに基づくべきことを示す意味データを、ユーザインタフェース640を介して提供する。従って、分類特徴は、ジャンル:EDM、ムード:激しい、生成者:生成者Xとなり、これらは、推論エンジン636に送られる。データベースクエリツール680は、この分類に一致する基準記録のサブセットを生成データベースから選択する。識別された基準記録は、生成データ評価部682に送られ、システムは、SAM実施例1と同じように動作する。
ステレオオーディオ信号を含むオーディオファイルが意味解析モジュール622に入力される。当該オーディオファイルは、ジャンルがポップミュージックであると分類する添付の意味データを有する。意味データ抽出器632は、オーディオファイルの染色体特徴を抽出する。染色体特徴は、この実施例においては、最初の10個のMFFC係数の平均値、10のSBFバンドの分散、及び、テンポである。自動オーディオ分類部644は迂回され、次に、分類特徴であるジャンル:ポップミュージックと染色体特徴が推論エンジン636に送られ、生成データベースクエリツール680に送られる。生成データベースクエリツール680は、生成データベース638内の、分類特徴がジャンル:ポップミュージックである全ての基準記録を識別する。この実施例においては、これによって、1000の記録が生成される、よって、このサブセットを減らすために、KNNアルゴリズムを用いて、解析すべきオーディオファイルの染色体特徴に最も類似した染色体特徴を有する10個の記録からなる2次サブセットを識別する。これらの10個の記録は、生成データ評価部682に送られ、システムは、SAM実施例1と同じように動作する。
SAM実施例4のオーディオファイル及び意味データが、生成の出力先がサウンドクラウドのストリーミングであることを示すユーザが定義した意味データと共に、入力される。よって、分類特徴は、ジャンル:EDM、ムード:激しい、生成者:生成者X、及び、出力先:サウンドクラウドストリーミングである。最初の3つの分類特徴を用いて、生成データベースサブセットを識別するが、出力先:サウンドクラウドストリーミングは、生成データベース内には記憶されず、直接、生成データ評価部682に送られる。この出力先クラスは、データ圧縮を組み込んでいるので、ピーク出力レベルが高すぎる場合、クリッピングの影響を受けやすい。従って、生成データ評価部682は、最大ピーク出力レベルを、他の出力先に用いる−0.3dBではなく、−1dBに、直接、設定する。この実施例の他の部分は、SAM実施例4と同じように動作する。
SAM実施例1のオーディオファイルを解析し、さらに、ユーザは、快活な作品が好ましいことを示すユーザの生成プリファレンスを提供した。システムは、SAM実施例1に示したシステムに従うが、生成データ評価部682は、快活な音を提供するように、解析すべきオーディオファイルの生成データの全体的なスペクトル形状を修正する。例えば、全体的なスペクトル形状の修正は、全体的なスペクトル形状に所定のオフセットを追加することによって行ってよく、快活さという点で、約2〜約5kHzの間のエネルギーの増加に関わることになる。
SAM実施例1のオーディオファイルを解析し、さらに、ユーザは、ASP構成、ASP制御パラメータ、または、生成特徴のいずれかの生成データの形で、ユーザの生成プリファレンスを明示的に提供した。システムは、SAM実施例1に示したシステムに従うが、ユーザが提供する生成データは、意味解析モジュールの初期の段階で導出した生成データを上書きする。例えば、ユーザは、好ましいリミッタの実装、高域フィルタ周波数の遮断、及び、解析すべきオーディオファイルのRMSレベルを定義する。これは、生成データという点で、自律型オーディオ生成システム8を直接制御するルートを提供する。
SAM実施例1のオーディオファイルを解析し、さらに、ユーザは、生成は、例えば、特定のアーティストが製作品全てに基づく、または、特定のアルバムからであるべきという生成データベース638からの基準記録のサブセットを明示的に提供した。生成データベースクエリツール680は、分類特徴及び/または染色体特徴を無視し、生成データベース記録660のユーザが選択したサブセットを生成データ評価部682に直接送る。
SAM実施例1のオーディオファイルを解析し、さらに、生成特徴抽出部642が、低周波エネルギーが高レベルであることを返した。システムは、SAM実施例1に示したシステムに従うが、この生成特徴も、生成データ評価部682に送られ、生成データ評価部682は、高域フィルタのASP制御パラメータを修正して、システムの低周波エネルギーを減衰させるようにより多くのゲインを適用する。
SAM実施例1のオーディオファイルを解析し、さらに、意味データ抽出部642は、何らかの手動のユーザインタフェース調整を用いて、自動分割アルゴリズムを行うことによって、オーディオ信号をセクションに分けた。この場合、セクションは、ファイルの最も音の大きい部分を表す5秒の領域、ラウドネス及び周波数成分という点で歌全体を最も良く表す5秒のセクション、及び、バース/コーラスである。生成特徴抽出部642は、各セクションの特徴を別個に、及び歌全体の特徴を戻し、生成データ評価部682は、異なる特徴に関して、適切なセクションのデータを用いて生成データを決定する。例えば、最も音の大きいセクションから取ったRMSレベルから、リミッタ閾値を動的に決定する。システムは、SAM実施例1に示すシステムに従う。
SAM実施例1のオーディオファイルを解析し、さらに、生成特徴抽出部642は、−20dBの高レベルのノイズを返した。システムは、SAM実施例1に示すシステムに従うが、この生成特徴も、生成データ評価部682に送られ、生成データ評価部682は、ASPチェーンの最初に(オーディオ信号からのノイズ除去に用いられる)ノイズ除去部を備えるようにASP構成を修正し、ノイズレベルと(生成特徴抽出部によっても評価される)オーディオファイルの全体的なスペクトル形状とに基づいて、ノイズ除去ASP制御パラメータを設定する。
SAM実施例1のオーディオファイルを解析し、さらに、ユーザは、所望の生成目標を表す2次基準オーディオファイルを入力する。2次基準オーディオファイルは、意味データ抽出部に送られ、その分類特徴、染色体特徴、及び、生成特徴が評価される。この実施例においては、2次基準オーディオファイルは、ジャンル:EDMとして分類され、基準染色体特徴は、最初の10のSBFバンド、基準生成特徴RMSレベル:−9dB Fsである。生成データベースクエリツール680は、基準オーディオファイル分類(ジャンル:EDM)に基づいて、全ての記録を識別し、KNNを用いて、2次基準オーディオファイルの染色体特徴に最も近い5つの記録を生成データベースから見つける。これらは、次に、生成データ評価部682に送られる。生成データ評価部682は、ASP構成と制御パラメータの根拠をKNNが識別した記録に置き、2次基準オーディオファイルから抽出された生成特徴(すなわち、RMSレベル:−9dB Fs)に基づいて生成特徴を設定する。これによって、基準オーディオファイルへの「生成マッチング」を可能にする。
図10は、3つのASPを含む自律型オーディオ生成システム624aの一実施形態を示す。生成データ解釈部702は、生成すべきオーディオファイルの生成データを受信する。生成データ解釈部702は、ASP構成フィールドを読み出し、この実施例においては、処理チェーンを次の3つのASPを含むように設定する。
B.イコライザ(EQ)708b
C.リミッタ708c
生成データ解釈部702は、ASP制御パラメータを読み出し、以下を設定する。
B.710bでリミッタにアタックタイムとリリースタイム
C.710bでリミッタに出力レベル
生成データ解釈部702は、生成すべきオーディオファイルからターゲット生成特徴を読み出し、生成特徴マップ部704に送る。この実施例においては、ターゲット生成特徴は、以下のようになる。
B.信号スペクトルの形状:EQ後、中間信号から評価
C.RMSレベル:出力信号から評価
生成特徴マップ部704は、ASPの制御パラメータにターゲット生成特徴をマップする。
B.信号スペクトルの形状→EQカーブの形状
C.RMSレベル→リミッタ閾値
生成特徴抽出部706は、50Hz未満のエネルギー量をHPFの前に(714aで)評価し、このデータを生成特徴マップ部704に送る。この実施例においては、714bで50Hz未満のエネルギーは−6dBであるが、ターゲットエネルギーは、−8dBである。よって、生成特徴マップ部704は、生成されるオーディオファイルでこの生成特徴を調整するために、712aでHPFゲイン制御を−2dBに設定する。これは、解析特徴マッピングの実施例で、それによって、生成特徴マップ部は、制御パラメータを直接評価して、ターゲット生成特徴を達成することができる。この場合、単にターゲット生成特徴とオーディオ信号から抽出した生成特徴の差を取ることによって評価することができる。これらは、712aでHPFに送られる。
生成特徴の最初の誤差e0は、開始時の閾値に関して、生成されるオーディオファイルの生成特徴の値をターゲット生成特徴と比較することによって評価される。解析生成特徴マッピングとの主な相違は、閾値推定値が712cで設定され、信号が処理され、生成特徴抽出部706が、生成すべき信号の生成特徴を再計算することである。
生成特徴マップ部は、次に、閾値Tの変化に対する誤差e0の数値勾配を評価する。これは、少量dTだけ閾値を摂動させて、信号を再処理し、714dで生成特徴抽出部を用いて生成特徴を再評価することによって行われる。
閾値の次の推定値T1(ここで、「1」は反復指標)は、次に、この導関数を用いて評価される。誤差e1は、次に、この更新された閾値を用いて再評価される。
このプロセスは、所与の反復で誤差が所定の許容誤差未満になるまで、または、許容可能が反復回数に達するまで、繰り返される。
AAPS実施例1における生成すべきオーディオファイルの生成データが、生成データ解釈部702によって受信され、ASP構成及び制御パラメータデータが読み出され、設定され、低周波エネルギーが、生成特徴マップ部によって、HPFゲインにマップされる。
AAPS実施例1において生成すべきオーディオファイルの生成データは、生成データ解釈部702によって受信され、ASP構成及び制御パラメータデータが読み出され、設定されて、生成特徴マップ部は、低周波エネルギーをHPFゲイン、スペクトル形状を各EQフィルタバンドでゲインにマップする。
自律型オーディオ生成システムは、AAPS実施例3と同じように動作するが、追加のユーザ生成プリファレンス生成特徴を受信する。この生成特徴は、RMSレベルとリミッタが導入するディストーションとの間の許容可能なトレードオフを記述する。この実施例においては、ユーザは、高度なRMSミックスを望んでおり、必要に応じて、大きなディストーションを許容する、例えば、最大許容ディストーションは、生成データベースから5ディストーションユニットとして評価されるが、ユーザは、この実施例に対しては、最大許容ディストーションを7ディストーションユニットとして定義する。反復特徴マッピングアルゴリズムは、それに応じて、ディストーション制限が、リミッタの処理に与える抑制効果を和らげるように適合される。
図23は、生成すべきオーディオファイルが複数のオーディオ信号を含む時、自律型オーディオ生成システム624bの一実施形態を示す。自律型オーディオ生成システム624bは、概ね、単一のモノラルまたはステレオオーディオ信号を含むオーディオファイルに関して前述したのと同じように動作するが、ここでより明確に説明する。図23に示す具体的なASP構成は例示に過ぎないことは理解されたい。
・ベースとキックのオーディオ信号は、それらの個々の処理チェーンの後、コンプレッサ720にルーティングされる。この2つの信号は、単一の信号として処理することができ、722でミックスの残りの信号と再結合することができる。
・ドラム(キック、スネア、ハイハット、及び、シンバル)信号の全ては、ドラムサブミックス724にルーティングされる。これによって、106でミックスの残りの信号と再結合される時に、ドラムを単一のエンティティとして制御する。
・音楽信号(すなわち、ボーカルからの信号を除く全て)の全ては、共通の音楽リバーブプロセッサ726に送られる。これは、全ての音楽信号に適用すべき共通のリバーブエフェクトを提供し、722でミックスの残りの信号と再結合する時、全体としてのリバーブ強度を制御する。
・722で、オーディオ信号の全てが結合されて、生成されたオーディオファイルが提供される。
・730a〜730dにおいては、生成特徴は、ボーカル信号の処理チェーンの点から抽出される。
・730eにおいては、生成特徴は、音楽リバーブプロセッサによって出力されたオーディオ信号から抽出される。
・730fにおいては、生成特徴は、全てのオーディオ信号が結合された後、すなわち、生成されたオーディオファイルから抽出される。
図24は、意味解析モジュールの実施形態を示す。この実施形態においては、推論エンジン636は、解析すべきオーディオファイルの生成データ740の複数のセットを導出し、各セットは代替の生成を反映する。例えば、生成データのこれらの変形は、次のようにして導出されてよい。
・ユーザが定義した生成プリファレンスを用いる
・意味データ抽出器632において、異なる機械学習アルゴリズム及び/または変数のセットを用いて、分類特徴、染色体特徴、及び、生成特徴のセットを出力する。例えば、1つのセットは、第1のSVMを用いてジャンルを高粒度に分類してよく、第2のセットは、第2の異なるSVMを用いて、生成特徴を含みながらもジャンルを粗い粒度に分類してよく、第3のセットは、染色体特徴のみを用いてよい。
・データベースクエリツール680の異なる機械学習アルゴリズム及び/または変数のセットを用いる、例えば、生成データ評価部682に送る記録の数を変える
・生成データベースサブセットの異なる統計的測度を用いて生成データを導出するように生成データ評価部682を構成する、例えば、セット1は最頻値を用いてよく、セット2は中央値を用いてよく、セット3は平均値を用いてよい。
・生成データが基にする特定の記録を生成データベースサブセットから選択するように生成データ評価部682を構成する、例えば、生成データベースサブセットが5つの記録を含む場合、5つの記録のそれぞれを、解析すべきオーディオファイルのための別個の生成データセットとして用いてよい。
・生成データ評価部682が導出した生成データの任意の部分、すなわち、ASP構成、ASP制御パラメータまたは生成特徴をランダムに摂動させる。
・A―Bテスト、このテストによって、ユーザは、生成された異なるオーディオファイルを一対比較する。
・MUSHRA(multiple stimulus with hidden reference and anchor)テスト、このテストによって、ユーザは、生成された異なるオーディオファイルの同時比較を行う。
・特定のユーザに関する評価プリファレンスは、当該ユーザが、解析すべき新しいオーディオファイルを入力する時、用いられてよい。
・ユーザのサブグループ、例えば、ジャンル:EDM、ムード:激しい、に分類されるオーディオファイルを入力した全てのユーザ、に関する評価プリファレンスが、ユーザが同じ分類を有するオーディオファイルを入力する時、用いられてよい。
・任意のオーディオファイル分類に関する全てのユーザからの評価プリファレンスが用いられてよい。
一実施形態において、意味解析モジュールによって導出された生成データは、以下のいずれかに関連してよい。
・解析すべきオーディオファイルのオーディオ信号の持続時間にわたる統計的測度、例えば、オーディオ信号のRMSレベルは、その持続時間全体にわたって取得されてよい。
・解析すべきオーディオファイルのオーディオ信号の特定の領域に関する持続時間にわたる統計的測度、例えば、オーディオ信号のRMSレベルは、コーラス等の小領域にわたって取得されてよい。
・解析すべきオーディオファイル、または、その部分領域のオーディオ信号の持続時間にわたる時系列、例えば、オーディオ信号のRMSレベルは、その持続時間全体にわたる、または、コーラス等の小領域にわたる、時間の関数として表されてよい。
一実施形態においては、システムは、非リアルタイムで動作する。それによって、生成されたオーディオファイルの出力と、生成すべきオーディオファイルの入力は、時間的に同期されない。この場合、意味解析モジュール622及び自律型オーディオ生成システム624は、オーディオファイルを生成する前に、オーディオファイル全体にアクセスすることができる。
・オーディオファイルに添付された意味データを、その入力時に用いて、即値生成データを導出する。
・意味解析モジュールは、各フレームの意味データを意味データコンテナ634に記憶し、オーディオファイルの追加の部分が受信されると、引き続き、生成データを導出する。
・自律型オーディオ生成システム624に送られる生成データの変化は、適用中の処理の突然の変化を防止するように平滑化される。
・ライブ環境では、オーディオの予め記録されたセクションを使用して、例えば、サウンドチェックまたは以前のパフォーマンスを介して即値生成データを提供してよい。
図22は、3つのASPを含む自律型オーディオ生成システム624aの一実施形態を示す。生成データ解釈部702は、生成すべきオーディオファイルの生成データを受信する。生成データ解釈部702は、ASP構成フィールドを読み出し、この実施例においては、処理チェーンを次の3つのASPを含むように設定する。
Claims (31)
- 自動オーディオ生成を行うコンピュータ実装方法であって、
処理すべきオーディオ信号を受信することと、
意味情報を受信することと、
前記受信した意味情報を用いて、少なくとも1つの意味ベースの規則であって、前記処理すべきオーディオ信号をどのように生成すべきかを定義する生成データを含む前記意味ベースの規則を決定することと、
前記生成データを用いて前記処理すべきオーディオ信号を処理することによって、生成されたオーディオ信号を取得することと、
前記生成されたオーディオ信号を出力することと、
を含むコンピュータ実装方法。 - 前記意味情報は、前記処理すべきオーディオ信号に関する、請求項1に記載の方法。
- 前記意味情報は、ユーザインタフェースから受信される、請求項2に記載の方法。
- 前記意味情報を前記受信したオーディオ信号から決定することをさらに含む、請求項2に記載の方法。
- 前記意味情報は、基準オーディオ信号に関し、
前記基準オーディオ信号を受信することと、
前記意味情報を前記基準オーディオ信号から抽出することと、
をさらに含む、請求項1に記載の方法。 - 前記意味情報は、染色体特徴、分類特徴、及び、生成特徴の少なくとも1つを含む、請求項1〜5のいずれかに記載の方法。
- 前記生成データは、行うべき所与のオーディオ処理アクション及び前記所与のオーディオ処理アクションの各静的特性と、前記オーディオ処理アクションの構成と、前記生成されたオーディオ信号に求められるターゲット生成特徴と、の少なくとも1つを含む、請求項6に記載の方法。
- 生成データを含む前記意味ベースの規則を前記決定することは、
複数の基準記録であって、それぞれ、各基準分類特徴、各基準染色体特徴、基準処理アクションの各基準構成、前記基準処理アクションの各基準静的特性、及び、各基準生成特徴を含む、前記複数の基準記録を含むデータベースにアクセスすることと、
前記意味情報に含まれた染色体特徴、分類特徴、及び、生成特徴の前記少なくとも1つに一致する少なくとも1つの基準記録を識別することと、
前記行うべき所与のオーディオ処理アクション及び前記所与のオーディオ処理アクションの前記各静的特性と、前記オーディオ処理アクションの前記構成と、前記生成されたオーディオ信号に求められる前記ターゲット生成特徴との、前記少なくとも1つに、前記少なくとも1つの識別された基準記録を用いて値を割り当てることと、
を含む、請求項7に記載の方法。 - 前記ターゲット生成特徴に割り当てられた前記値を用いて、前記所与の処理アクションの動的特性を決定することをさらに含む、請求項8に記載の方法。
- 前記オーディオ信号を前記処理することは、前記構成に従って、前記静的及び動的特性を用いて、前記所与のオーディオ処理アクションを前記オーディオ信号に対して行うことを含む、請求項9に記載の方法。
- 前記所与のオーディオ処理アクション間の前記生成特徴の値を決定することと、それに従って前記動的特性を修正することとをさらに含む、請求項10に記載の方法。
- 前記処理すべきオーディオ信号を前記受信することと、前記生成されたオーディオ信号を前記出力することは、前記処理すべきオーディオ信号と前記生成されたオーディオ信号が同期されるように、実質的にリアルタイムで行われる、請求項1〜11のいずれかに記載の方法。
- 前記生成データは、前記処理すべきオーディオ信号の1つの領域のみに関して決定される、請求項1〜12のいずれかに記載の方法。
- ユーザ生成プリファレンスを受信することをさらに含み、前記オーディオ信号を前記処理することは、前記生成データと前記ユーザ生成プリファレンスを用いて行われる、請求項1〜13のいずれかに記載の方法。
- 前記生成されたオーディオ信号のユーザからの評価と、前記受信した評価を用いて前記ユーザ生成プリファレンスを決定することをさらに含む、請求項14に記載の方法。
- 請求項1〜15のいずれかの前記方法の前記ステップを行う処理ユニットが実行するステートメント及び命令を記録したコンピュータ可読媒体。
- 意味情報を受信し、前記受信した意味情報を用いて、少なくとも1つの意味ベースの規則であって、処理すべきオーディオ信号をどのように生成すべきかを定義する生成データを含む前記意味ベースの規則を決定する意味解析モジュールと、
生成されたオーディオ信号を取得するために、前記処理すべきオーディオ信号を受信し、前記生成データを用いて前記処理すべきオーディオ信号を処理し、前記生成されたオーディオ信号を出力するオーディオ処理モジュールと、
を備える、自動オーディオ生成システム。 - 前記意味情報は、前記処理すべきオーディオ信号に関連する、請求項17に記載の自動オーディオ生成システム。
- 前記意味解析モジュールは、ユーザインタフェースから前記意味情報を受信するように適合された、請求項18に記載の自動オーディオ生成システム。
- 前記意味解析モジュールは、前記処理すべきオーディオ信号を受信し、前記処理すべきオーディオ信号から前記意味情報を決定するようにさらに適合された、請求項18に記載の自動オーディオ生成システム。
- 前記意味情報は、基準オーディオ信号に関連し、前記意味解析モジュールは、
前記基準オーディオ信号を受信し、
前記基準オーディオ信号から前記意味情報を抽出するように、
さらに適合された、請求項17に記載の自動オーディオ生成システム。 - 前記意味情報は、染色体特徴、分類特徴、及び、生成特徴の少なくとも1つを含む、請求項17〜21のいずれかに記載の自動オーディオ生成システム。
- 前記生成データは、行うべき所与のオーディオ処理アクション及び前記所与のオーディオ処理アクションの各静的制御パラメータと、前記オーディオ処理アクションの構成と、前記生成されたオーディオ信号に求められるターゲット生成特徴と、の少なくとも1つを含む、請求項22に記載の自動オーディオ生成システム。
- 複数の基準記録であって、それぞれ、各基準分類特徴、各基準染色体特徴、基準処理アクションの各基準構成、前記基準処理アクションの各基準静的制御パラメータ、及び、各基準生成特徴を含む前記複数の基準記録を含む生成データベースをさらに含み、前記意味解析モジュールは、
前記意味情報に含まれた染色体特徴、分類特徴、及び、生成特徴の少なくとも1つに一致する少なくとも1つの基準記録を識別し、
前記行うべき所与のオーディオ処理アクション及び前記所与のオーディオ処理アクションの前記各静的制御パラメータと、前記オーディオ処理アクションの前記構成と、前記生成されたオーディオ信号に求められる前記ターゲット生成特徴と、の前記少なくとも1つに、前記少なくとも1つの識別された基準記録を用いて、値を割り当てるように適合された、
請求項23に記載の自動オーディオ生成システム。 - 前記オーディオ処理モジュールは、前記ターゲット生成特徴に割り当てられた前記値を用いて、前記所与の処理アクションの動的制御パラメータを決定するように適合された、請求項24に記載の自動オーディオ生成システム。
- 前記オーディオ処理モジュールは、複数のオーディオプロセッサを含み、前記構成に従って前記複数のオーディオプロセッサを組織し、前記複数のオーディオプロセッサを、前記静的及び動的制御パラメータに従って制御するように適合された、請求項25に記載の自動オーディオ生成システム。
- 前記オーディオ処理モジュールは、前記オーディオプロセッサ間の前記生成特徴の値を決定し、それに従って前記動的パラメータを修正するようにさらに適合された、請求項26に記載の自動オーディオ生成システム。
- 前記処理すべきオーディオ信号の入力と前記生成されたオーディオ信号の出力は、前記処理すべきオーディオ信号と前記生成されたオーディオ信号が同期されるように、実質的にリアルタイムで行われる、請求項17〜27のいずれかに記載の自動オーディオ生成システム。
- 前記意味解析モジュールは、前記処理すべきオーディオ信号の1つの領域のみに関して前記生成データを決定するように適合された、請求項17及び18のいずれかに記載の自動オーディオ生成システム。
- 前記意味解析モジュールは、ユーザ生成プリファレンスを受信し、前記ユーザ生成プリファレンスを用いて前記生成データを決定するようにさらに適合された、請求項1〜13のいずれかに記載の自動オーディオ生成システム。
- 前記生成されたオーディオ信号の評価をユーザから受信し、前記受信した評価を用いて前記ユーザ生成プリファレンスを決定する生成評価モジュールをさらに、請求項30に記載の自動オーディオ生成システム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US201361871168P | 2013-08-28 | 2013-08-28 | |
US61/871,168 | 2013-08-28 | ||
PCT/CA2014/000662 WO2015027327A1 (en) | 2013-08-28 | 2014-08-28 | System and method for performing automatic audio production using semantic data |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2016534402A true JP2016534402A (ja) | 2016-11-04 |
JP6585049B2 JP6585049B2 (ja) | 2019-10-02 |
Family
ID=52584429
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2016537058A Active JP6585049B2 (ja) | 2013-08-28 | 2014-08-28 | 意味データを用いて自動オーディオ生成を行うシステム及び方法 |
Country Status (7)
Country | Link |
---|---|
US (1) | US9304988B2 (ja) |
EP (1) | EP3039674B1 (ja) |
JP (1) | JP6585049B2 (ja) |
CN (1) | CN105612510B (ja) |
BR (1) | BR112016004029B1 (ja) |
CA (1) | CA2887124C (ja) |
WO (1) | WO2015027327A1 (ja) |
Families Citing this family (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP6143768B2 (ja) * | 2011-11-07 | 2017-06-07 | フィリップス ライティング ホールディング ビー ヴィ | 照明システムをコントロールするための音声を使用したユーザーインターフェイス |
US9613605B2 (en) * | 2013-11-14 | 2017-04-04 | Tunesplice, Llc | Method, device and system for automatically adjusting a duration of a song |
US10140087B2 (en) | 2016-03-21 | 2018-11-27 | Access Analog, Llc | Remote streaming audio processing system |
US10032456B2 (en) | 2016-08-17 | 2018-07-24 | International Business Machines Corporation | Automated audio data selector |
JP6504614B2 (ja) * | 2016-08-26 | 2019-04-24 | 日本電信電話株式会社 | 合成パラメータ最適化装置、その方法、及びプログラム |
US10349196B2 (en) | 2016-10-03 | 2019-07-09 | Nokia Technologies Oy | Method of editing audio signals using separated objects and associated apparatus |
US10891436B2 (en) * | 2018-03-09 | 2021-01-12 | Accenture Global Solutions Limited | Device and method for voice-driven ideation session management |
US11195511B2 (en) | 2018-07-19 | 2021-12-07 | Dolby Laboratories Licensing Corporation | Method and system for creating object-based audio content |
EP3662468B1 (en) | 2018-09-28 | 2020-11-04 | Dolby Laboratories Licensing Corporation | Distortion reducing multi-band compressor with dynamic thresholds based on scene switch analyzer guided distortion audibility model |
US10885221B2 (en) * | 2018-10-16 | 2021-01-05 | International Business Machines Corporation | Obfuscating audible communications in a listening space |
US20200125991A1 (en) * | 2018-10-18 | 2020-04-23 | Facebook, Inc. | Optimization of neural networks using hardware calculation efficiency |
US11574223B2 (en) * | 2019-10-07 | 2023-02-07 | Intelligent Fusion Technology, Inc. | Method and apparatus for rapid discovery of satellite behavior |
CN110955786B (zh) * | 2019-11-29 | 2023-10-27 | 网易(杭州)网络有限公司 | 一种舞蹈动作数据的生成方法及装置 |
CN111199750B (zh) * | 2019-12-18 | 2022-10-28 | 北京葡萄智学科技有限公司 | 一种发音评测方法、装置、电子设备及存储介质 |
JP2021125760A (ja) * | 2020-02-04 | 2021-08-30 | ヤマハ株式会社 | オーディオ信号処理装置、オーディオシステム及びオーディオ信号処理方法 |
CN113449255B (zh) * | 2021-06-15 | 2022-11-11 | 电子科技大学 | 一种改进的稀疏约束下环境分量相位角估计方法、设备及存储介质 |
WO2024079625A1 (en) * | 2022-10-10 | 2024-04-18 | Wetweak Sa | A computer assisted method for classifying digital audio files |
CN116049641B (zh) * | 2023-04-03 | 2023-06-30 | 中国科学院光电技术研究所 | 一种基于红外光谱的点目标特征提取方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008015733A1 (fr) * | 2006-07-31 | 2008-02-07 | Pioneer Corporation | Dispositif, procédé et programme de commande sonore |
EP2485213A1 (en) * | 2011-02-03 | 2012-08-08 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Semantic audio track mixer |
JP2013525824A (ja) * | 2010-03-09 | 2013-06-20 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | カスケード式フィルタバンクを用いて入力オーディオ信号を処理するための装置および方法 |
Family Cites Families (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO1998044717A2 (en) * | 1997-04-01 | 1998-10-08 | Medic Interactive, Inc. | System for automated generation of media programs from a database of media elements |
GB0007870D0 (en) * | 2000-03-31 | 2000-05-17 | Koninkl Philips Electronics Nv | Methods and apparatus for making and replauing digital video recordings, and recordings made by such methods |
CN100543731C (zh) * | 2003-04-24 | 2009-09-23 | 皇家飞利浦电子股份有限公司 | 参数化的时间特征分析 |
JP5363102B2 (ja) * | 2005-06-08 | 2013-12-11 | ヴィジブル ワールド インコーポレイテッド | セマンティック編集制御及びビデオ/オーディオ編集のためのシステム及び方法 |
GB0512435D0 (en) | 2005-06-17 | 2005-07-27 | Queen Mary & Westfield College | An ontology-based approach to information management for semantic music analysis systems |
US20070044643A1 (en) * | 2005-08-29 | 2007-03-01 | Huffman Eric C | Method and Apparatus for Automating the Mixing of Multi-Track Digital Audio |
CN101278349A (zh) * | 2005-09-30 | 2008-10-01 | 皇家飞利浦电子股份有限公司 | 处理用于重放的音频的方法和设备 |
US20070286358A1 (en) * | 2006-04-29 | 2007-12-13 | Msystems Ltd. | Digital audio recorder |
KR101459136B1 (ko) * | 2007-09-03 | 2014-11-10 | 엘지전자 주식회사 | 오디오 데이터 플레이어 및 이의 재생목록 생성방법 |
US20100250253A1 (en) * | 2009-03-27 | 2010-09-30 | Yangmin Shen | Context aware, speech-controlled interface and system |
US8204755B2 (en) * | 2009-05-22 | 2012-06-19 | Universal Music Group, Inc. | Advanced encoding of music files |
US9179236B2 (en) * | 2011-07-01 | 2015-11-03 | Dolby Laboratories Licensing Corporation | System and method for adaptive audio signal generation, coding and rendering |
-
2014
- 2014-08-28 CA CA2887124A patent/CA2887124C/en active Active
- 2014-08-28 JP JP2016537058A patent/JP6585049B2/ja active Active
- 2014-08-28 CN CN201480054236.1A patent/CN105612510B/zh active Active
- 2014-08-28 US US14/471,758 patent/US9304988B2/en active Active
- 2014-08-28 BR BR112016004029-5A patent/BR112016004029B1/pt active IP Right Grant
- 2014-08-28 EP EP14839533.8A patent/EP3039674B1/en active Active
- 2014-08-28 WO PCT/CA2014/000662 patent/WO2015027327A1/en active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008015733A1 (fr) * | 2006-07-31 | 2008-02-07 | Pioneer Corporation | Dispositif, procédé et programme de commande sonore |
JP2013525824A (ja) * | 2010-03-09 | 2013-06-20 | フラウンホーファーゲゼルシャフト ツール フォルデルング デル アンゲヴァンテン フォルシユング エー.フアー. | カスケード式フィルタバンクを用いて入力オーディオ信号を処理するための装置および方法 |
EP2485213A1 (en) * | 2011-02-03 | 2012-08-08 | Fraunhofer-Gesellschaft zur Förderung der Angewandten Forschung e.V. | Semantic audio track mixer |
Also Published As
Publication number | Publication date |
---|---|
WO2015027327A1 (en) | 2015-03-05 |
EP3039674A1 (en) | 2016-07-06 |
US20150066481A1 (en) | 2015-03-05 |
JP6585049B2 (ja) | 2019-10-02 |
EP3039674A4 (en) | 2017-06-07 |
CN105612510A (zh) | 2016-05-25 |
BR112016004029A2 (ja) | 2017-08-01 |
EP3039674B1 (en) | 2019-04-17 |
BR112016004029B1 (pt) | 2022-06-14 |
US9304988B2 (en) | 2016-04-05 |
CN105612510B (zh) | 2018-11-13 |
CA2887124C (en) | 2015-09-29 |
CA2887124A1 (en) | 2015-03-05 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP6585049B2 (ja) | 意味データを用いて自動オーディオ生成を行うシステム及び方法 | |
US11915725B2 (en) | Post-processing of audio recordings | |
KR101512259B1 (ko) | 시맨틱 오디오 트랙 믹서 | |
US9530396B2 (en) | Visually-assisted mixing of audio using a spectral analyzer | |
WO2015035492A1 (en) | System and method for performing automatic multi-track audio mixing | |
JP2007534995A (ja) | 音声信号を分類する方法及びシステム | |
CN113691909B (zh) | 具有音频处理推荐的数字音频工作站 | |
JP4364838B2 (ja) | 楽曲リミックス可能な音楽再生装置ならびに楽曲リミックス方法およびプログラム | |
WO2018077364A1 (en) | Method for generating artificial sound effects based on existing sound clips | |
AU2022202594A1 (en) | System for deliverables versioning in audio mastering | |
JP7363795B2 (ja) | 情報処理装置および方法、並びにプログラム | |
US20240022224A1 (en) | Automatic generation and selection of target profiles for dynamic equalization of audio content | |
JP7461090B1 (ja) | 音声処理装置、音声処理方法、およびプログラム | |
WO2023062865A1 (ja) | 情報処理装置および方法、並びにプログラム | |
NZ787401A (en) | System for deliverables versioning in audio mastering | |
KR20230091455A (ko) | 사운드 이펙트 효과 설정 방법 | |
CN116530009A (zh) | 用于音频内容的动态均衡的目标简档的自动生成和选择 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20160428 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20170731 |
|
A977 | Report on retrieval |
Free format text: JAPANESE INTERMEDIATE CODE: A971007 Effective date: 20180620 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20180807 |
|
A601 | Written request for extension of time |
Free format text: JAPANESE INTERMEDIATE CODE: A601 Effective date: 20181105 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190207 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20190305 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20190605 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20190820 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20190904 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 6585049 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |
|
R250 | Receipt of annual fees |
Free format text: JAPANESE INTERMEDIATE CODE: R250 |