JP7137639B2 - ディープラーニングに基づく音質特性処理方法及びシステム - Google Patents
ディープラーニングに基づく音質特性処理方法及びシステム Download PDFInfo
- Publication number
- JP7137639B2 JP7137639B2 JP2020567946A JP2020567946A JP7137639B2 JP 7137639 B2 JP7137639 B2 JP 7137639B2 JP 2020567946 A JP2020567946 A JP 2020567946A JP 2020567946 A JP2020567946 A JP 2020567946A JP 7137639 B2 JP7137639 B2 JP 7137639B2
- Authority
- JP
- Japan
- Prior art keywords
- sound quality
- data
- audio
- user
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/60—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L21/0216—Noise filtering characterised by the method used for estimating noise
- G10L21/0232—Processing in the frequency domain
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/78—Detection of presence or absence of voice signals
- G10L25/84—Detection of presence or absence of voice signals for discriminating voice from noise
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers without distortion of the input signal
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/3005—Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G3/00—Gain control in amplifiers or frequency changers without distortion of the input signal
- H03G3/20—Automatic control
- H03G3/30—Automatic control in amplifiers having semiconductor devices
- H03G3/32—Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
-
- H—ELECTRICITY
- H03—ELECTRONIC CIRCUITRY
- H03G—CONTROL OF AMPLIFICATION
- H03G5/00—Tone control or bandwidth control in amplifiers
- H03G5/16—Automatic control
- H03G5/165—Equalizers; Volume or gain control in limited frequency bands
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Quality & Reliability (AREA)
- Artificial Intelligence (AREA)
- Theoretical Computer Science (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Circuit For Audible Band Transducer (AREA)
- Tone Control, Compression And Expansion, Limiting Amplitude (AREA)
Description
処理対象のオーディオデータを含むユーザ好みデータに対して特徴抽出を実行して、前記処理対象のオーディオデータのデータ特徴を取得することと、
前記データ特徴に基づいて、訓練済みのベースラインモデルを用いて音質処理結果を生成することと、を含み、
前記ベースラインモデルは、広範な大衆または単一ユーザのオーディオデータ、行動データ、および他の関連データを用いて訓練されたニューラルネットワークモデルであるディープラーニングに基づく音質特性処理方法が提供される。
訓練データに基づいて特徴抽出を行って訓練データのデータ特徴を取得し、前記データ特徴を入力レイヤーとして入力し、前記音質特性を反映できる特徴を出力レイヤーターゲットとして訓練して前記ベースラインモデルを取得すること、または、ユーザ好みデータを特徴抽出し、教師なしディープラーニング法を用いて前記ベースラインモデルを取得することを含む。
オーディオデータベースに基づいて、オーディオデータのカテゴリラベル特徴および前記オーディオデータのデータ特徴を抽出することと、
前記オーディオデータのデータ特徴を入力レイヤーデータとし、前記カテゴリラベル特徴を出力レイヤーデータとして、経験融合タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含む。
オーディオデータベース内の高品質のオーディオデータサンプルに基づいて人為的処理を行って損失のある低品質のオーディオデータサンプルを取得し、前記損失のある低品質のオーディオデータサンプルおよび前記高品質のオーディオデータサンプルに対してそれぞれ特徴抽出を行って低品質のオーディオデータ特徴および高品質のオーディオデータ特徴を取得することと、
前記低品質のオーディオデータ特徴を入力レイヤーデータとし、高品質のオーディオデータ特徴を出力レイヤーデータとして、人為的損傷タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含む。
大衆ユーザのオーディオデータにおける環境データと、前記環境データに対応する行動データとに基づいて、それぞれ特徴抽出を行い、前記環境データの環境パラメータ特徴と前記行動データの音質特性設定特徴を取得することと、
前記環境パラメータ特性を入力レイヤーデータとし、前記音質特性設定特徴を出力レイヤーデータとして、音質設定フィードバック可能タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含む。
オーディオデータベース内のオーディオデータに基づいて特徴抽出を行い、オリジナルデータ特徴を取得することと、
前記オーディオデータに対して音質特性調整を行い、調整後のオーディオデータに対して特徴を抽出して調整パラメータ特徴を取得し、主観評価実験を通じて前記調整パラメータ特徴を主観評価にマッピングするネットワークモデルを確立し、最適化音質特性調整パラメータを取得することと、
前記オリジナルデータ特徴を入力レイヤーデータとし、前記最適化音質特性調整パラメータを出力レイヤーデータとして、前記経験公式調整可能タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含む。
オーディオデータベース内のオーディオデータに基づいて特徴抽出を行い、音質特性特徴を取得することと、
前記音質特性特徴をクラスタリングしてクラスタモデルを取得することと、
個人ユーザが好むオーディオデータに基づいて特徴抽出を行い、個人ユーザが好む音質特性特徴を取得し、前記クラスタモデルを入力して個人ユーザが好む音質特性分布特徴ベクトルを生成することと、
前記個人ユーザが好む音質特性分布特徴ベクトルに基づいて、前記信号領域計算可能タイプの音質特性のベースラインモデルとして、教師なしニューラルネットワークモデルを訓練することと、を含む。
オーディオデータベース内の雑音又は正常音のカテゴリラベル特徴を含むオーディオデータに基づいて特徴抽出を行い、データ特徴及びそれに対応するカテゴリラベル特徴を取得することと、
前記データ特徴とそれに対応するカテゴリラベル特徴とに基づいて、ノイズ雑音タイプの音質特性を取得するための分類ベースラインモデルを訓練することと、を含む。
前記ノイズ雑音タイプの音質特性の分類ベースラインモデルの雑音判別結果に応じて前記処理対象のオーディオデータを処理されることと、前記雑音判別結果がフィルタリング可能な雑音カテゴリに属する場合、訓練済みのノイズ低減ベースラインモデルを用いてノイズ低減されたオーディオデータを取得することと、前記雑音判別結果がフィルタリング不可能な雑音カテゴリに属する場合には、前記処理対象のオーディオデータをユーザに提示するか、または削除させることと、を含む。
オーディオデータベースに基づいて、他のタイプの音質特性を直接又は間接的に反映できるオーディオデータを取得することと、
前記他のタイプの音質特性を反映したオーディオデータに基づいて特徴抽出を行い、他のタイプの音質特性特徴抽出モデルを形成し、他のタイプの音質特性特徴を取得することと、
前記他のタイプの音質特性特徴を入力レイヤーとし、前記他のタイプの音質特性特徴を主観的に評価されたネットワークモデルにマッピングすることによって取得する主観的な感覚評価を出力レイヤーとするか、又は前記他のタイプの音質特性に対する個人ユーザの好み特徴に基づいて、他のタイプの音質特性を生成するためのベースラインモデルを訓練することと、を含む。
個人ユーザ好みデータをリアルタイムで抽出することと、
音質特性のベースラインモデルに基づいて、前記個人ユーザ好みデータをオンライン学習し、パーソナライズ音質特性処理モデルを取得するように訓練することと、
前記パーソナライズ音質特性処理モデルを用いて、パーソナライズされた音質特性処理結果を生成することと、を含み、
前記ベースラインモデルは、広範な大衆または単一ユーザのオーディオデータ、行動データ、および他の関連データを用いて訓練されたニューラルネットワークモデルであることを特徴とするディープラーニングに基づくオーディオ音質パーソナライズ処理方法が提供される。
訓練データに基づいて特徴抽出を行って訓練データのデータ特徴を取得し、前記データ特徴を入力レイヤーとして入力し、前記音質特性を反映できる特徴を出力レイヤーターゲットとして訓練して前記ベースラインモデルを取得すること、または、ユーザ好みデータを特徴抽出し、教師なしディープラーニング法を用いて前記ベースラインモデルを取得することを含む。
前記ベースラインモデルに基づいて音質特性処理結果を出力し、個人ユーザによる音質特性処理結果のフィードバックデータにより前記ベースラインモデルを更新してパーソナライズ音質特性処理モデルを取得すること、および/または
前記ユーザ好みデータにおけるユーザ好みリストが更新されると、音質特性パラメータの融合結果が更新されるが、このときベースラインモデルは更新されないこと、および/または
ベースラインモデルまたは既存のパーソナライズ音質特性処理モデルが、現在のオーディオデータの環境パラメータ情報に基づいて音質特性処理結果を出力し、出力された前記音質特性処理結果に伴うユーザのフィードバック訓練に応じて前記ベースラインモデルまたは既存のパーソナライズ音質特性処理モデルを更新して、音質設定フィードバック可能タイプの音質特性のパーソナライズモデルを形成することを含む。
ベースラインモデル又は既存のパーソナライズ音質特性処理モデルによって出力された処理パラメータを用いて、処理対象のオーディオデータを処理し、ユーザが受け入れた場合に、前記ベースラインモデル又は既存のパーソナライズ音質特性処理モデルを更新する必要がなく、逆に、ユーザが受け入れず、出力された前記処理パラメータを調整すると、ベースラインモデルまたは既存のパーソナライズ音質特性処理モデルを、調整されたオーディオデータおよび処理パラメータで更新することを含む。
エンコーダを用いて、推奨される前記オーディオデータの音質特性特徴コードと個人ユーザが好む音質特性特徴コードセットとの整合度を計算し、前記整合度が最も高い所定数の推奨すべきオーディオデータを個人ユーザに推奨して、ユーザに1つ以上のオーディオデータを推奨し、ユーザが推奨されたオーディオデータを受け入れた場合、当該オーディオデータをユーザが好むオーディオデータとみなすことができ、当該オーディオデータを個人ユーザが好むオーディオデータに加えることと、更新された個人ユーザが好むオーディオデータでエンコーダを更新することと、を含む。
前記オーディオ再生端末は、ユーザ好みデータを記憶するためのものであり、
前記クラウドプラットフォームは、広範な大衆または単一ユーザのオーディオデータ、行動データおよびその他の関連データを用いて訓練されたニューラルネットワークモデルであるベースラインモデルを形成するためのものであり、
前記オンライン学習モジュールは、前記ユーザ好みデータを受信し、前記ベースラインモデルをオンライン学習して、パーソナライズオーディオ音質モデルを形成することを特徴とするディープラーニングに基づくオーディオ音質パーソナライゼーションシステムが提供される。
処理対象のオーディオデータを含むユーザ好みデータ(s1)に対して特徴抽出(s2)を行い、前記処理対象のオーディオデータのデータ特徴を取得することと、
前記データ特徴に基づいて、訓練済みのベースラインモデル(s3)を用いて、前記処理対象のオーディオデータの音質処理結果(s4)を生成することと、を含み、
前記ベースラインモデルは、広範な大衆または単一ユーザのオーディオデータ、行動データ、および他の関連データを用いて訓練されたニューラルネットワークモデルである。
1.経験融合タイプの音質特性
2.人為的損傷タイプの音質特性
3.音質設定フィードバック可能タイプの音質特性
4.経験公式調整可能タイプの音質特性
5.信号領域計算可能タイプの音質特性
である。従って、低音強度という音質特性の特徴ベクトルはV=[v1、v2…vm]と設計することができ、ここでVi=S(i)/E、すなわち、Vの要素の数値は各周波数点振幅と全周波数点振幅の比であり、Vの各要素の和を低音強度と見なすことができる。その他のタイプの音質特性については、実際の計算方法に基づいて特徴ベクトルを選択することができる。
前記音質特性分布特徴ベクトルは、前記オーディオデータの音質特性特徴の分布を表す。例えば、1つのオーディオに対して合計c個のフレームがあり、これらのフレームは特徴抽出後にNタイプにまとめられるが、c個のフレームのタイプ分布を1つの特徴ベクトルで表し、ベクトルU=[U1、U2、U3、……UN]と表記する。ここで、Ui=オーディオでi番目のタイプに属するフレームの数、例えばU=[3、4、7、9、……]である場合、音質特徴はタイプ1に属するフレームが3個、タイプ2に属するフレームが4個、タイプ3に属するフレームが7個あり、明らかに
である。ここでベクトルUをこのオーディオの音質特性特徴分布ベクトルと呼ぶ。
6.ノイズ雑音タイプの音質特性
7.他のタイプのオーディオ特性
個人ユーザ好みデータをリアルタイムで抽出することと(10)、
音質特性のベースラインモデルに基づいて、前記個人ユーザ好みデータをオンライン学習し、パーソナライズ音質特性処理モデルを取得するように訓練することと(20)、
前記パーソナライズ音質特性処理モデルを用いて、パーソナライズされた音質特性処理結果を生成することと(30)、を含み、
前記ベースラインモデルは、広範な大衆または単一ユーザのオーディオデータ、行動データ、および他の関連データを用いて訓練されたニューラルネットワークモデルである。
個人ユーザのオーディオデータ(901)に基づいて、前記ベースラインモデル(902)に入力し、推奨された音質特性処理結果を生成する。
1.経験融合タイプの音質特性
2.人為的損傷タイプの音質特性
3.音質設定フィードバック可能タイプの音質特性
4.経験公式調整可能タイプの音質特性
5.信号領域計算可能タイプの音質特性
6.ノイズ雑音タイプの音質特性
7.他のタイプの音質特性
Claims (26)
- ディープラーニングに基づく音質特性処理方法であって、
処理対象のオーディオデータを含むユーザ好みデータに対して特徴抽出を実行して、前記処理対象のオーディオデータのデータ特徴を取得することと、
前記データ特徴に基づいて、訓練済みのベースラインモデルを用いて前記処理対象のオーディオデータの音質処理結果を生成することと、を含み、
前記ベースラインモデルは、少なくとも1つのユーザのオーディオデータまたは行動データを用いて訓練されたニューラルネットワークモデルであり、
前記音質特性は、経験融合タイプ、人為的損傷タイプ、音質設定フィードバック可能タイプ、経験公式調整可能タイプ、信号領域計算可能タイプ、およびノイズ雑音タイプのいずれかを含むことを特徴とするディープラーニングに基づく音質特性処理方法。 - ユーザ好みデータは、音質特性に対するユーザの好みを反映したデータを含むことを特徴とする請求項1に記載の音質特性処理方法。
- 前記ユーザ好みデータは、ユーザ行動データ、ユーザオーディオリストデータ、再生中のオーディオデータ、環境ノイズデータまたはデバイスデータのうちの少なくとも1つを含むことを特徴とする請求項1に記載の音質特性処理方法。
- 前記ベースラインモデルの訓練方法は、
訓練データに基づいて特徴抽出を行って訓練データのデータ特徴を取得し、前記データ特徴を入力レイヤーとして入力し、前記音質特性を反映できる特徴を出力レイヤーターゲットとして訓練して前記ベースラインモデルを取得すること、または、ユーザ好みデータを特徴抽出し、教師なしディープラーニング法を用いて前記ベースラインモデルを取得することを含むことを特徴とする請求項1に記載の音質特性処理方法。 - 前記経験融合タイプの音質特性のベースラインモデルの訓練は、
オーディオデータベースに基づいて、オーディオデータのカテゴリラベル特徴および前記オーディオデータのデータ特徴を抽出することと、
前記オーディオデータのデータ特徴を入力レイヤーデータとし、前記カテゴリラベル特徴を出力レイヤーデータとして、経験融合タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含むことを特徴とする請求項1に記載の音質特性処理方法。 - 前記人為的損傷タイプの音質特性のベースラインモデルの訓練は、
オーディオデータベース内のオリジナルオーディオデータサンプルに基づいて人為的処理を行って損失のあるオーディオデータサンプルを取得し、前記損失のあるオーディオデータサンプルおよび前記オリジナルオーディオデータサンプルに対してそれぞれ特徴抽出を行って損失のあるオーディオデータ特徴およびオリジナルオーディオデータ特徴を取得することと、
前記損失のあるオーディオデータ特徴を入力レイヤーデータとし、オリジナルオーディオデータ特徴を出力レイヤーデータとして、人為的損傷タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含むことを特徴とする請求項1に記載の音質特性処理方法。 - 前記音質設定フィードバック可能タイプの音質特性のベースラインモデルの訓練は、
大衆ユーザのオーディオデータにおける環境データと、前記環境データに対応する行動データとに基づいて、それぞれ特徴抽出を行い、前記環境データの環境パラメータ特徴と前記行動データの音質特性設定特徴を取得することと、
前記環境パラメータ特徴を入力レイヤーデータとし、前記音質特性設定特徴を出力レイヤーデータとして、音質設定フィードバック可能タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含むことを特徴とする請求項1に記載の音質特性処理方法。 - 前記経験公式調整可能タイプの音質特性のベースラインモデルの訓練は、
オーディオデータベース内のオーディオデータに基づいて特徴抽出を行い、オリジナルデータ特徴を取得することと、
前記オーディオデータに対して音質特性調整を行い、調整後のオーディオデータに対して特徴を抽出して調整パラメータ特徴を取得し、主観評価実験を通じて前記調整パラメータ特徴を主観評価にマッピングするネットワークモデルを確立し、最適化音質特性調整パラメータを取得することと、
前記オリジナルデータ特徴を入力レイヤーデータとし、前記最適化音質特性調整パラメータを出力レイヤーデータとして、前記経験公式調整可能タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含むことを特徴とする請求項1に記載の音質特性処理方法。 - 前記信号領域計算可能タイプの音質特性のベースラインモデルの訓練は、
オーディオデータベース内のオーディオデータに基づいて特徴抽出を行い、音質特性特徴を取得することと、
前記音質特性特徴をクラスタリングしてクラスタモデルを取得することと、
個人ユーザが好むオーディオデータに基づいて特徴抽出を行い、個人ユーザが好む音質特性特徴を取得し、前記クラスタモデルを入力して個人ユーザが好む音質特性分布特徴ベクトルを生成することと、
前記個人ユーザが好む音質特性分布特徴ベクトルに基づいて、前記信号領域計算可能タイプの音質特性のベースラインモデルとして、教師なしニューラルネットワークモデルを訓練することと、を含むことを特徴とする請求項1に記載の音質特性処理方法。 - 前記ノイズ雑音タイプの音質特性の分類ベースラインモデルの訓練は、
オーディオデータベース内の雑音又は正常音のカテゴリラベル特徴を含むオーディオデータに基づいて特徴抽出を行い、データ特徴及びそれに対応するカテゴリラベル特徴を取得することと、
前記データ特徴とそれに対応するカテゴリラベル特徴とに基づいて、ノイズ雑音タイプの音質特性を取得するための分類ベースラインモデルを訓練することと、を含むことを特徴とする請求項1に記載の音質特性処理方法。 - 前記音質処理結果を生成することは、
前記ノイズ雑音タイプの音質特性の分類ベースラインモデルの雑音判別結果に応じて前記処理対象のオーディオデータを処理されることと、前記雑音判別結果がフィルタリング可能な雑音カテゴリに属する場合、訓練済みのノイズ低減ベースラインモデルを用いてノイズ低減されたオーディオデータを取得することと、前記雑音判別結果がフィルタリング不可能な雑音カテゴリに属する場合には、前記処理対象のオーディオデータをユーザに提示するか、または削除させることと、を含むことを特徴とする請求項10に記載の音質特性処理方法。 - 前記音質特性は、さらに他のタイプを含み、
前記他のタイプの音質特性のベースラインモデルの訓練は、
オーディオデータベースに基づいて、他のタイプの音質特性を直接又は間接的に反映できるオーディオデータを取得することと、
前記他のタイプの音質特性を反映したオーディオデータに基づいて特徴抽出を行い、他のタイプの音質特性特徴抽出モデルを形成し、他のタイプの音質特性特徴を取得することと、
前記他のタイプの音質特性特徴を入力レイヤーとし、前記他のタイプの音質特性特徴を主観的に評価されたネットワークモデルにマッピングすることによって取得する主観的な感覚評価を出力レイヤーとするか、又は前記他のタイプの音質特性に対する個人ユーザの好み特徴に基づいて、他のタイプの音質特性を生成するためのベースラインモデルを訓練することと、を含むことを特徴とする請求項1に記載の音質特性処理方法。 - 個人ユーザ好みデータをリアルタイムで抽出することと、
音質特性のベースラインモデルに基づいて、前記個人ユーザ好みデータをオンライン学習し、パーソナライズ音質特性処理モデルを取得するように訓練することと、
前記パーソナライズ音質特性処理モデルを用いて、パーソナライズされた音質特性処理結果を生成することと、を含み、
前記ベースラインモデルは、少なくとも1つのユーザのオーディオデータまたは行動データを用いて訓練されたニューラルネットワークモデルであることを特徴とするディープラーニングに基づくオーディオ音質パーソナライズ処理方法。 - 前記個人ユーザ好みデータは、音質特性に対するユーザの好みを反映したデータを含むことを特徴とする請求項13に記載のオーディオ音質パーソナライズ処理方法。
- 前記個人ユーザ好みデータは、ユーザ行動データ、ユーザオーディオリストデータ、再生中のオーディオデータ、環境ノイズデータ、およびデバイスデータのうちの少なくとも1つを含むことを特徴とする請求項13に記載のオーディオ音質パーソナライズ処理方法。
- 前記ベースラインモデルの訓練方法は、
訓練データに基づいて特徴抽出を行って訓練データのデータ特徴を取得し、前記データ特徴を入力レイヤーとして入力し、前記音質特性を反映できる特徴を出力レイヤーターゲットとして訓練して前記ベースラインモデルを取得すること、または、
ユーザ好みデータを特徴抽出し、教師なしディープラーニング法を用いて前記ベースラインモデルを取得することを含むことを特徴とする請求項13に記載のオーディオ音質パーソナライズ処理方法。 - オンライン学習方法は、
前記ベースラインモデルに基づいて音質特性処理結果を出力し、個人ユーザによる音質特性処理結果のフィードバックデータにより前記ベースラインモデルを更新してパーソナライズ音質特性処理モデルを取得すること、および/または
前記パーソナライズ音質特性処理結果に対する個人ユーザのフィードバックデータを学習し、既存のパーソナライズ音質特性処理モデルを更新して更新されたパーソナライズ音質特性処理モデルを取得することを含むことを特徴とする請求項13に記載のオーディオ音質パーソナライズ処理方法。 - 前記オンライン学習は、ユーザ行動データにおける個人ユーザフィードバック行動の回数が所定の値まで蓄積された場合、前記個人ユーザ好みデータに基づいて前記ベースラインモデルまたは既存のパーソナライズオーディオ音質モデルを再学習することをさらに含むことを特徴とする請求項17に記載のオーディオ音質パーソナライズ処理方法。
- 前記音質特性は、経験融合タイプ、人為的損傷タイプ、音質設定フィードバック可能タイプ、経験公式調整可能タイプ、信号領域計算可能タイプ、およびノイズ雑音タイプを含むことを特徴とする請求項13に記載のオーディオ音質パーソナライズ処理方法。
- 前記経験融合タイプの音質特性のオンライン学習方法は、
前記ユーザ好みデータにおけるユーザ好みリストが更新されると、音質特性パラメータの融合結果が更新されるが、このときベースラインモデルは更新されないこと、および/または
ユーザからフィードバックされた前記音質特性のデータ特徴が変化した場合、ユーザからフィードバックされた音質特性のデータ特徴に基づいてベースラインモデルを再訓練し、経験融合タイプの音質特性のパーソナライズ音質特性処理モデルを取得することを含むことを特徴とする請求項19に記載のオーディオ音質パーソナライズ処理方法。 - 前記人為的損傷タイプの音質特性のオンライン学習方法は、前記ユーザ好みデータにおけるオーディオデータのオーディオフォーマットを判断し、ユーザにダウンロードを促すこと、または対応するベースラインモデルを自動的にダウンロードすることと、ダウンロードされた前記ベースラインモデルに基づいて、複数のオーディオフォーマットのプロモーションに適したハイブリッドモデルを訓練し、人為的損傷タイプの音質特性のパーソナライズ音質特性処理モデルを取得することと、を含むことを特徴とする請求項19に記載のオーディオ音質パーソナライズ処理方法。
- 前記音質設定フィードバック可能タイプの音質特性のオンライン学習方法は、
ベースラインモデルまたは既存のパーソナライズ音質特性処理モデルが、現在のオーディオデータの環境パラメータ情報に基づいて音質特性処理結果を出力し、出力された前記音質特性処理結果に伴うユーザのフィードバック訓練に応じて前記ベースラインモデルまたは既存のパーソナライズ音質特性処理モデルを更新して、音質設定フィードバック可能タイプの音質特性のパーソナライズモデルを形成することを含むことを特徴とする請求項19に記載のオーディオ音質パーソナライズ処理方法。 - 前記経験公式調整可能タイプの音質特性のオンライン学習方法は、
ベースラインモデル又は既存のパーソナライズ音質特性処理モデルによって出力された処理パラメータを用いて、処理対象のオーディオデータを処理し、ユーザが受け入れた場合に、前記ベースラインモデル又は既存のパーソナライズ音質特性処理モデルを更新する必要がなく、逆に、ユーザが受け入れず、出力された前記処理パラメータを調整すると、ベースラインモデルまたは既存のパーソナライズ音質特性処理モデルを、調整されたオーディオデータおよび処理パラメータで更新することを含むことを特徴とする請求項19に記載のオーディオ音質パーソナライズ処理方法。 - 前記信号領域計算可能タイプの音質特性のオンライン学習方法は、
エンコーダを用いて、推奨される前記オーディオデータの音質特性特徴コードと個人ユーザが好む音質特性特徴コードセットとの整合度を計算し、前記整合度が最も高い所定数の推奨すべきオーディオデータを個人ユーザに推奨して、ユーザに1つ以上のオーディオデータを推奨し、ユーザが推奨されたオーディオデータを受け入れた場合、当該オーディオデータをユーザが好むオーディオデータとみなすことができ、当該オーディオデータを個人ユーザが好むオーディオデータに加えることと、更新された個人ユーザが好むオーディオデータでエンコーダを更新することと、を含むことを特徴とする請求項19に記載のオーディオ音質パーソナライズ処理方法。 - 前記ノイズ雑音タイプの音質特性のオンライン学習方法は、ユーザが特定のタイプのノイズを嫌う場合、ユーザフィードバック情報によって、そのタイプのノイズのための専用の分類器またはノイズ除去器をユーザにカスタマイズすることを含むことを特徴とする請求項19に記載のオーディオ音質パーソナライズ処理方法。
- オーディオ再生端末、クラウドプラットフォーム、およびオンライン学習モジュールを含むディープラーニングに基づくオーディオ音質パーソナライゼーションシステムであって、
前記オーディオ再生端末は、ユーザ好みデータを記憶するためのものであり、
前記クラウドプラットフォームは、広範な大衆または単一ユーザのオーディオデータ、行動データおよびその他の関連データを用いて訓練されたニューラルネットワークモデルであるベースラインモデルを形成するためのものであり、
前記オンライン学習モジュールは、前記ユーザ好みデータを受信し、前記ベースラインモデルをオンライン学習して、パーソナライズオーディオ音質モデルを形成することを特徴とするオーディオ音質パーソナライゼーションシステム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810583119.4 | 2018-06-05 | ||
CN201810583119.4A CN109147804A (zh) | 2018-06-05 | 2018-06-05 | 一种基于深度学习的音质特性处理方法及系统 |
PCT/CN2019/089755 WO2019233358A1 (zh) | 2018-06-05 | 2019-06-03 | 一种基于深度学习的音质特性处理方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
JP2021525493A JP2021525493A (ja) | 2021-09-24 |
JP7137639B2 true JP7137639B2 (ja) | 2022-09-14 |
Family
ID=64802006
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020567946A Active JP7137639B2 (ja) | 2018-06-05 | 2019-06-03 | ディープラーニングに基づく音質特性処理方法及びシステム |
Country Status (5)
Country | Link |
---|---|
US (2) | US11462237B2 (ja) |
EP (1) | EP3816998A4 (ja) |
JP (1) | JP7137639B2 (ja) |
CN (1) | CN109147804A (ja) |
WO (1) | WO2019233358A1 (ja) |
Families Citing this family (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113903346A (zh) * | 2018-06-05 | 2022-01-07 | 安克创新科技股份有限公司 | 一种基于深度学习的音域平衡方法、装置及系统 |
CN109147804A (zh) | 2018-06-05 | 2019-01-04 | 安克创新科技股份有限公司 | 一种基于深度学习的音质特性处理方法及系统 |
CN109147805B (zh) * | 2018-06-05 | 2021-03-02 | 安克创新科技股份有限公司 | 基于深度学习的音频音质增强 |
CN109785850A (zh) * | 2019-01-18 | 2019-05-21 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种噪声检测方法、装置和存储介质 |
CN111918174B (zh) * | 2019-05-08 | 2022-04-01 | 阿里巴巴集团控股有限公司 | 音量增益平衡的方法、设备、电子设备及交通工具 |
CN110047514B (zh) * | 2019-05-30 | 2021-05-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种伴奏纯净度评估方法以及相关设备 |
CN112201247B (zh) * | 2019-07-08 | 2024-05-03 | 北京地平线机器人技术研发有限公司 | 语音增强方法和装置、电子设备和存储介质 |
CN110580914A (zh) * | 2019-07-24 | 2019-12-17 | 安克创新科技股份有限公司 | 一种音频处理方法、设备及具有存储功能的装置 |
CN110797038B (zh) * | 2019-10-30 | 2020-11-06 | 腾讯科技(深圳)有限公司 | 音频处理方法、装置、计算机设备及存储介质 |
CN111027675B (zh) * | 2019-11-22 | 2023-03-07 | 南京大学 | 一种多媒体播放设置自动调节方法及系统 |
CN111292722B (zh) * | 2019-12-13 | 2023-08-15 | 中国科学院深圳先进技术研究院 | 异步联合架构的模型训练方法、终端、服务器及存储装置 |
CN111199750B (zh) * | 2019-12-18 | 2022-10-28 | 北京葡萄智学科技有限公司 | 一种发音评测方法、装置、电子设备及存储介质 |
CN111652735A (zh) * | 2020-04-17 | 2020-09-11 | 世纪保众(北京)网络科技有限公司 | 基于用户行为标签特征及商品特征的保险产品推荐的方法 |
US20210350819A1 (en) * | 2020-05-07 | 2021-11-11 | Netflix, Inc. | Techniques for training a multitask learning model to assess perceived audio quality |
CN111783996B (zh) * | 2020-06-18 | 2023-08-25 | 杭州海康威视数字技术股份有限公司 | 一种数据处理方法、装置及设备 |
CN113938805B (zh) * | 2020-07-14 | 2024-04-23 | 广州汽车集团股份有限公司 | 一种低音音质的量化方法及装置 |
CN113949955B (zh) * | 2020-07-16 | 2024-04-09 | Oppo广东移动通信有限公司 | 降噪处理方法、装置、电子设备、耳机及存储介质 |
CN112069598A (zh) * | 2020-08-26 | 2020-12-11 | 广州汽车集团股份有限公司 | 一种车内扬声器布置位置确定方法、装置及车辆 |
CN112118485B (zh) * | 2020-09-22 | 2022-07-08 | 英华达(上海)科技有限公司 | 音量自适应调整方法、系统、设备及存储介质 |
CN112185421B (zh) * | 2020-09-29 | 2023-11-21 | 北京达佳互联信息技术有限公司 | 音质检测方法、装置、电子设备及存储介质 |
GB2599928A (en) * | 2020-10-14 | 2022-04-20 | Sony Interactive Entertainment Inc | Apparatus and method for audio data analysis |
US11948598B2 (en) * | 2020-10-22 | 2024-04-02 | Gracenote, Inc. | Methods and apparatus to determine audio quality |
CN112333596A (zh) * | 2020-11-05 | 2021-02-05 | 江苏紫米电子技术有限公司 | 一种耳机均衡器的调整方法、装置、服务器及介质 |
CN112466315A (zh) * | 2020-12-02 | 2021-03-09 | 公安部第三研究所 | 一种音视频的高码率获取方法 |
CN112632318A (zh) * | 2020-12-24 | 2021-04-09 | 安克创新科技股份有限公司 | 一种音频推荐方法、装置、系统及存储介质 |
CN113343047A (zh) * | 2021-06-18 | 2021-09-03 | 北京百度网讯科技有限公司 | 数据处理方法、数据检索方法及装置 |
US11689666B2 (en) | 2021-06-23 | 2023-06-27 | Cisco Technology, Inc. | Proactive audio optimization for conferences |
CN113993026A (zh) * | 2021-10-19 | 2022-01-28 | 江苏米笛声学科技有限公司 | 耳机svm机器学习自适应调节方法 |
KR20240048363A (ko) * | 2022-10-06 | 2024-04-15 | 삼성전자주식회사 | 전자 장치 및 그 제어 방법 |
CN115376501B (zh) * | 2022-10-26 | 2023-02-14 | 深圳市北科瑞讯信息技术有限公司 | 语音增强方法及装置、存储介质、电子设备 |
CN115662464B (zh) * | 2022-12-29 | 2023-06-27 | 广州市云景信息科技有限公司 | 一种智能识别环境噪声的方法及系统 |
CN116825123A (zh) * | 2023-06-19 | 2023-09-29 | 广东保伦电子股份有限公司 | 一种基于音频推送的音质优化方法及系统 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017054121A (ja) | 2015-09-09 | 2017-03-16 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音響調節装置及び方法と、ジャンル認識モデル学習装置及び方法 |
JP2018005048A (ja) | 2016-07-05 | 2018-01-11 | クリムゾンテクノロジー株式会社 | 声質変換システム |
JP2018028580A (ja) | 2016-08-16 | 2018-02-22 | 日本電信電話株式会社 | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム |
JP2018031967A (ja) | 2016-08-26 | 2018-03-01 | 日本電信電話株式会社 | 音源強調装置、その方法、及びプログラム |
Family Cites Families (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6539395B1 (en) * | 2000-03-22 | 2003-03-25 | Mood Logic, Inc. | Method for creating a database for comparing music |
FR2835125B1 (fr) * | 2002-01-24 | 2004-06-18 | Telediffusion De France Tdf | Procede d'evaluation d'un signal audio numerique |
JP2010192995A (ja) | 2009-02-16 | 2010-09-02 | Kenwood Corp | 音響機器 |
CN102654860B (zh) | 2011-03-01 | 2015-05-06 | 北京彩云在线技术开发有限公司 | 一种个性化音乐推荐方法及系统 |
CN102682761A (zh) * | 2011-03-12 | 2012-09-19 | 谢津 | 个性化的声音处理系统和设备 |
CN103186527B (zh) * | 2011-12-27 | 2017-04-26 | 北京百度网讯科技有限公司 | 建立音乐分类模型的系统、推荐音乐的系统及相应方法 |
CN103037100B (zh) * | 2012-12-21 | 2015-02-18 | 广东欧珀移动通信有限公司 | 一种适用于智能手机的智能切换eq音效的方法 |
US9978388B2 (en) * | 2014-09-12 | 2018-05-22 | Knowles Electronics, Llc | Systems and methods for restoration of speech components |
US20160149547A1 (en) * | 2014-11-20 | 2016-05-26 | Intel Corporation | Automated audio adjustment |
JP6587401B2 (ja) | 2015-03-23 | 2019-10-09 | パイオニア株式会社 | 音質調整装置及び音質調整方法 |
US10460247B2 (en) | 2015-12-08 | 2019-10-29 | Adobe Inc. | Attribute weighting for media content-based recommendation |
CN106098081B (zh) * | 2016-06-01 | 2020-11-27 | 腾讯科技(深圳)有限公司 | 声音文件的音质识别方法及装置 |
CN107274883B (zh) * | 2017-07-04 | 2020-06-02 | 清华大学 | 语音信号重构方法及装置 |
US10838686B2 (en) * | 2017-07-13 | 2020-11-17 | Josh Kovacevic | Artificial intelligence to enhance a listening experience |
KR102465970B1 (ko) * | 2017-08-11 | 2022-11-10 | 삼성전자주식회사 | 주변 상황에 기초하여 음악을 재생하는 방법 및 장치 |
CN107564538A (zh) * | 2017-09-18 | 2018-01-09 | 武汉大学 | 一种实时语音通信的清晰度增强方法及系统 |
CN109147804A (zh) * | 2018-06-05 | 2019-01-04 | 安克创新科技股份有限公司 | 一种基于深度学习的音质特性处理方法及系统 |
-
2018
- 2018-06-05 CN CN201810583119.4A patent/CN109147804A/zh active Pending
-
2019
- 2019-06-03 US US17/114,349 patent/US11462237B2/en active Active
- 2019-06-03 WO PCT/CN2019/089755 patent/WO2019233358A1/zh unknown
- 2019-06-03 JP JP2020567946A patent/JP7137639B2/ja active Active
- 2019-06-03 EP EP19814588.0A patent/EP3816998A4/en active Pending
-
2022
- 2022-08-26 US US17/896,752 patent/US11790934B2/en active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017054121A (ja) | 2015-09-09 | 2017-03-16 | 三星電子株式会社Samsung Electronics Co.,Ltd. | 音響調節装置及び方法と、ジャンル認識モデル学習装置及び方法 |
JP2018005048A (ja) | 2016-07-05 | 2018-01-11 | クリムゾンテクノロジー株式会社 | 声質変換システム |
JP2018028580A (ja) | 2016-08-16 | 2018-02-22 | 日本電信電話株式会社 | 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム |
JP2018031967A (ja) | 2016-08-26 | 2018-03-01 | 日本電信電話株式会社 | 音源強調装置、その方法、及びプログラム |
Also Published As
Publication number | Publication date |
---|---|
WO2019233358A1 (zh) | 2019-12-12 |
EP3816998A1 (en) | 2021-05-05 |
US11462237B2 (en) | 2022-10-04 |
US20210264938A1 (en) | 2021-08-26 |
US20230056955A1 (en) | 2023-02-23 |
EP3816998A4 (en) | 2022-03-30 |
JP2021525493A (ja) | 2021-09-24 |
US11790934B2 (en) | 2023-10-17 |
CN109147804A (zh) | 2019-01-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JP7137639B2 (ja) | ディープラーニングに基づく音質特性処理方法及びシステム | |
JP7136932B2 (ja) | ディープラーニングに基づく音域バランシング方法、装置及びシステム | |
US11837208B2 (en) | Audio processing techniques for semantic audio recognition and report generation | |
CN110019931B (zh) | 音频分类方法、装置、智能设备和存储介质 | |
JP6876752B2 (ja) | 応答方法及び装置 | |
Kotsakis et al. | Investigation of broadcast-audio semantic analysis scenarios employing radio-programme-adaptive pattern classification | |
Nalini et al. | Music emotion recognition: The combined evidence of MFCC and residual phase | |
US11842721B2 (en) | Systems and methods for generating synthesized speech responses to voice inputs by training a neural network model based on the voice input prosodic metrics and training voice inputs | |
CN108549675B (zh) | 一种基于大数据及神经网络的钢琴教学方法 | |
WO2019137392A1 (zh) | 文件分类处理方法、装置及终端、服务器、存储介质 | |
WO2019233361A1 (zh) | 对音乐进行音量调节的方法及设备 | |
CN106302987A (zh) | 一种音频推荐方法及设备 | |
Haque et al. | An analysis of content-based classification of audio signals using a fuzzy c-means algorithm | |
Phan et al. | Multi-view audio and music classification | |
Foucard et al. | Multi-scale temporal fusion by boosting for music classification. | |
Jiménez et al. | An automatic approach of audio feature engineering for the extraction, analysis and selection of descriptors | |
CN112632318A (zh) | 一种音频推荐方法、装置、系统及存储介质 | |
EP4297832A1 (fr) | Dispositif et procédé de modification d'un état émotionnel d'un utilisateur | |
CN111061909B (zh) | 一种伴奏分类方法和装置 | |
Iriz González et al. | CONEqNet: convolutional music equalizer network | |
Tzacheva et al. | Music information retrieval with temporal features and timbre | |
Joseph Fernandez | Comparison of Deep Learning and Machine Learning in Music Genre Categorization | |
Liang | Research on Vocal Recommendation Algorithm Based on Data Mining Technology | |
CN116386592A (zh) | 音频模板的生成方法、服务器及存储介质 | |
CN116312462A (zh) | 语音合成方法、预测网络训练方法、服务器和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20201204 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20201204 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20220118 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20220415 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20220823 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20220902 |
|
R150 | Certificate of patent or registration of utility model |
Ref document number: 7137639 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R150 |