JP7137639B2 - ディープラーニングに基づく音質特性処理方法及びシステム - Google Patents

ディープラーニングに基づく音質特性処理方法及びシステム Download PDF

Info

Publication number
JP7137639B2
JP7137639B2 JP2020567946A JP2020567946A JP7137639B2 JP 7137639 B2 JP7137639 B2 JP 7137639B2 JP 2020567946 A JP2020567946 A JP 2020567946A JP 2020567946 A JP2020567946 A JP 2020567946A JP 7137639 B2 JP7137639 B2 JP 7137639B2
Authority
JP
Japan
Prior art keywords
sound quality
data
audio
user
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020567946A
Other languages
English (en)
Other versions
JP2021525493A (ja
Inventor
青山 姚
宇 秦
浩文 喩
峰 盧
萌 陽
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anker Innovations Co Ltd
Original Assignee
Anker Innovations Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anker Innovations Co Ltd filed Critical Anker Innovations Co Ltd
Publication of JP2021525493A publication Critical patent/JP2021525493A/ja
Application granted granted Critical
Publication of JP7137639B2 publication Critical patent/JP7137639B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/60Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for measuring the quality of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L21/0232Processing in the frequency domain
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/3005Automatic control in amplifiers having semiconductor devices in amplifiers suitable for low-frequencies, e.g. audio amplifiers
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G3/00Gain control in amplifiers or frequency changers without distortion of the input signal
    • H03G3/20Automatic control
    • H03G3/30Automatic control in amplifiers having semiconductor devices
    • H03G3/32Automatic control in amplifiers having semiconductor devices the control being dependent upon ambient noise level or sound level
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Tone Control, Compression And Expansion, Limiting Amplitude (AREA)

Description

本発明は、音質処理の技術分野に関し、より具体的には、ディープラーニングに基づく音質特性処理方法およびシステムに関する。
音質は、オーディオ品質に対する人間の主観的な評価であり、音質の好みは人によって異なる。オーディオ再生機器のベンダーであろうとオーディオポータルプラットフォームであろうと、音質を向上および強化することは、ユーザのオーディオ体験を向上させる最も直接的な方法の1つである。しかし、現在の音質評価指標モデルが不備な状況では、客観的に量子化できない指標を調整することができないだけでなく、量子化やモデリングが可能な音質特性であっても、音質の好みが人によって異なるため、どのようにパーソナライズされた自動調整を実現するかという問題に直面している。
従来技術における音質調整方法は、一般的にユーザ自身によって調整されるが、この方法はユーザの体験に友好的ではなく、特にオーディオ自身の特性又はユーザの好みに対する適応的な音質調整方法はまだ応用されていない。もう1つの方法は、音楽のタイトルや作者などのラベル特徴を分析することにより、音楽推奨アルゴリズムを利用して、ユーザの音楽に対する好みをある種類またはいくつかの種類のスタイルに近づけ、その種類のスタイルに既存の業界共通の音質設定を利用してユーザに推奨することである。
しかし、マルチカテゴリや未知カテゴリのオーディオは調節設定が困難であり、この方法のデータは人手でラベル付けされているため、ネットワーク環境から離れると、音楽の波形以外の情報、例えば、音楽スタイル、ユーザ評価、推奨アルゴリズムに必要な他のパラメータを取得することが困難になる可能性があり、その場合、この方法は無効となる。
要約すると、従来技術に存在する主な問題は次の通りである。
1.ほとんどの音質特性には、通常、自動調整テクノロジーが不足している。特に、個人ユーザ向けのパーソナライズされた音質処理テクノロジーが不足している。
2.既存のスタイルやタイプの経験データを利用して調節するEQのような音質は、未知カテゴリのオーディオに対して調節することができなくて、マルチカテゴリの特性を持つオーディオに対して経験データを融合する方法が不足しており、しかもネット上の人手の評価情報に依存する。
3.人為的に損傷したオーディオ情報復元技術には、より良い方法が必要である。
4.量子化可能な音質特性をどのようにユーザの主観的な感覚と関連付けて音質特性の強化を実現するか。
5.未知の量子化方法の特性をどのように扱うか。
本発明は、上記の問題の少なくとも1つを解決するために提案される。本発明は、ディープラーニングに基づく音質特性の処理に関し、ディープラーニング法に基づく音質特性の処理方法を提案し、ユーザフィードバックデータを用いてモデルオンライン学習を行うことにより、ユーザのパーソナライズされた音質調整を実現する。また、本発明は、音質指標の量子化方法、データの取得方法、信号領域特徴などの次元に従って、音質特性を複数の大きなタイプに分類し、各カテゴリの特性に合わせて、特定の音質調整モデルを設計し、既存の既知の音質指標については、音質調整およびユーザパーソナライズカスタマイズを達成することができ、未知の音質指標については、その性質に応じて複数の大きなタイプに帰属することができ、既存のフレームワークに従って訓練および調整することができ、6つのタイプに帰属することができない未知の音質特性については、すべての音質特性をカバーするまで、このフレームワークに基づいて拡張することができる。
本発明の一態様によれば、
処理対象のオーディオデータを含むユーザ好みデータに対して特徴抽出を実行して、前記処理対象のオーディオデータのデータ特徴を取得することと、
前記データ特徴に基づいて、訓練済みのベースラインモデルを用いて音質処理結果を生成することと、を含み、
前記ベースラインモデルは、広範な大衆または単一ユーザのオーディオデータ、行動データ、および他の関連データを用いて訓練されたニューラルネットワークモデルであるディープラーニングに基づく音質特性処理方法が提供される。
好ましくは、ユーザ好みデータは、音質特性に対するユーザの好みを反映したデータを含む。
好ましくは、前記ユーザ好みデータは、ユーザ行動データ、ユーザオーディオリストデータ、再生中のオーディオデータ、環境ノイズデータ、デバイスデータ、および他のパラメータデータのうちの少なくとも1つを含む。
好ましくは、前記特徴抽出方法は、FFT、STFT、MFCC、1つまたは複数のフレームの時間領域波形、および他の人工的に設計された特徴のうちの少なくとも1つを含む。
好ましくは、前記データ特徴は、時間領域および/または周波数領域の特徴を含む。
好ましくは、前記ベースラインモデルの訓練方法は、
訓練データに基づいて特徴抽出を行って訓練データのデータ特徴を取得し、前記データ特徴を入力レイヤーとして入力し、前記音質特性を反映できる特徴を出力レイヤーターゲットとして訓練して前記ベースラインモデルを取得すること、または、ユーザ好みデータを特徴抽出し、教師なしディープラーニング法を用いて前記ベースラインモデルを取得することを含む。
好ましくは、前記音質特性は、経験融合タイプ、人為的損傷タイプ、音質設定フィードバック可能タイプ、経験公式調整可能タイプ、信号領域計算可能タイプ、ノイズ雑音タイプ、または他のタイプを含む。
好ましくは、前記経験融合タイプの音質特性のベースラインモデルの訓練は、
オーディオデータベースに基づいて、オーディオデータのカテゴリラベル特徴および前記オーディオデータのデータ特徴を抽出することと、
前記オーディオデータのデータ特徴を入力レイヤーデータとし、前記カテゴリラベル特徴を出力レイヤーデータとして、経験融合タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含む。
好ましくは、前記人為的損傷タイプの音質特性のベースラインモデルの訓練は、
オーディオデータベース内の高品質のオーディオデータサンプルに基づいて人為的処理を行って損失のある低品質のオーディオデータサンプルを取得し、前記損失のある低品質のオーディオデータサンプルおよび前記高品質のオーディオデータサンプルに対してそれぞれ特徴抽出を行って低品質のオーディオデータ特徴および高品質のオーディオデータ特徴を取得することと、
前記低品質のオーディオデータ特徴を入力レイヤーデータとし、高品質のオーディオデータ特徴を出力レイヤーデータとして、人為的損傷タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含む。
好ましくは、前記音質設定フィードバック可能タイプの音質特性のベースラインモデルの訓練は、
大衆ユーザのオーディオデータにおける環境データと、前記環境データに対応する行動データとに基づいて、それぞれ特徴抽出を行い、前記環境データの環境パラメータ特徴と前記行動データの音質特性設定特徴を取得することと、
前記環境パラメータ特性を入力レイヤーデータとし、前記音質特性設定特徴を出力レイヤーデータとして、音質設定フィードバック可能タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含む。
好ましくは、前記経験公式調整可能タイプの音質特性のベースラインモデルの訓練は、
オーディオデータベース内のオーディオデータに基づいて特徴抽出を行い、オリジナルデータ特徴を取得することと、
前記オーディオデータに対して音質特性調整を行い、調整後のオーディオデータに対して特徴を抽出して調整パラメータ特徴を取得し、主観評価実験を通じて前記調整パラメータ特徴を主観評価にマッピングするネットワークモデルを確立し、最適化音質特性調整パラメータを取得することと、
前記オリジナルデータ特徴を入力レイヤーデータとし、前記最適化音質特性調整パラメータを出力レイヤーデータとして、前記経験公式調整可能タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含む。
好ましくは、前記信号領域計算可能タイプの音質特性のベースラインモデルの訓練は、
オーディオデータベース内のオーディオデータに基づいて特徴抽出を行い、音質特性特徴を取得することと、
前記音質特性特徴をクラスタリングしてクラスタモデルを取得することと、
個人ユーザが好むオーディオデータに基づいて特徴抽出を行い、個人ユーザが好む音質特性特徴を取得し、前記クラスタモデルを入力して個人ユーザが好む音質特性分布特徴ベクトルを生成することと、
前記個人ユーザが好む音質特性分布特徴ベクトルに基づいて、前記信号領域計算可能タイプの音質特性のベースラインモデルとして、教師なしニューラルネットワークモデルを訓練することと、を含む。
好ましくは、前記ノイズ雑音タイプの音質特性の分類ベースラインモデルの訓練は、
オーディオデータベース内の雑音又は正常音のカテゴリラベル特徴を含むオーディオデータに基づいて特徴抽出を行い、データ特徴及びそれに対応するカテゴリラベル特徴を取得することと、
前記データ特徴とそれに対応するカテゴリラベル特徴とに基づいて、ノイズ雑音タイプの音質特性を取得するための分類ベースラインモデルを訓練することと、を含む。
好ましくは、前記音質処理結果を生成することは、
前記ノイズ雑音タイプの音質特性の分類ベースラインモデルの雑音判別結果に応じて前記処理対象のオーディオデータを処理されることと、前記雑音判別結果がフィルタリング可能な雑音カテゴリに属する場合、訓練済みのノイズ低減ベースラインモデルを用いてノイズ低減されたオーディオデータを取得することと、前記雑音判別結果がフィルタリング不可能な雑音カテゴリに属する場合には、前記処理対象のオーディオデータをユーザに提示するか、または削除させることと、を含む。
好ましくは、前記他のタイプの音質特性のベースラインモデルの訓練は、
オーディオデータベースに基づいて、他のタイプの音質特性を直接又は間接的に反映できるオーディオデータを取得することと、
前記他のタイプの音質特性を反映したオーディオデータに基づいて特徴抽出を行い、他のタイプの音質特性特徴抽出モデルを形成し、他のタイプの音質特性特徴を取得することと、
前記他のタイプの音質特性特徴を入力レイヤーとし、前記他のタイプの音質特性特徴を主観的に評価されたネットワークモデルにマッピングすることによって取得する主観的な感覚評価を出力レイヤーとするか、又は前記他のタイプの音質特性に対する個人ユーザの好み特徴に基づいて、他のタイプの音質特性を生成するためのベースラインモデルを訓練することと、を含む。
本発明の別の態様によれば、
個人ユーザ好みデータをリアルタイムで抽出することと、
音質特性のベースラインモデルに基づいて、前記個人ユーザ好みデータをオンライン学習し、パーソナライズ音質特性処理モデルを取得するように訓練することと、
前記パーソナライズ音質特性処理モデルを用いて、パーソナライズされた音質特性処理結果を生成することと、を含み、
前記ベースラインモデルは、広範な大衆または単一ユーザのオーディオデータ、行動データ、および他の関連データを用いて訓練されたニューラルネットワークモデルであることを特徴とするディープラーニングに基づくオーディオ音質パーソナライズ処理方法が提供される。
好ましくは、前記個人ユーザ好みデータは、音質特性に対するユーザの好みを反映したデータを含む。
好ましくは、前記個人ユーザ好みデータは、ユーザ行動データ、ユーザオーディオリストデータ、再生中のオーディオデータ、環境ノイズデータ、デバイスデータ、および他のパラメータデータのうちの少なくとも1つを含む。
好ましくは、前記ベースラインモデルの訓練方法は、
訓練データに基づいて特徴抽出を行って訓練データのデータ特徴を取得し、前記データ特徴を入力レイヤーとして入力し、前記音質特性を反映できる特徴を出力レイヤーターゲットとして訓練して前記ベースラインモデルを取得すること、または、ユーザ好みデータを特徴抽出し、教師なしディープラーニング法を用いて前記ベースラインモデルを取得することを含む。
好ましくは、前記特徴抽出方法は、FFT、STFT、MFCC、1つまたは複数のフレームの時間領域波形、および他の人工的に設計された特徴のうちの少なくとも1つを含む。
好ましくは、前記データ特徴は、時間領域および/または周波数領域の特徴を含む。
好ましくは、オンライン学習方法は、
前記ベースラインモデルに基づいて音質特性処理結果を出力し、個人ユーザによる音質特性処理結果のフィードバックデータにより前記ベースラインモデルを更新してパーソナライズ音質特性処理モデルを取得すること、および/または
前記パーソナライズ音質特性処理結果に対する個人ユーザのフィードバックデータにより再学習を行い、既存のパーソナライズ音質特性処理モデルを更新して新たなパーソナライズ音質特性処理モデルを取得することを含む。
好ましくは、前記オンライン学習は、前記ユーザ行動データにおける個人ユーザフィードバック行動の回数が所定の値まで蓄積された場合、前記個人ユーザ好みデータに基づいて前記ベースラインモデルまたは既存のパーソナライズオーディオ音質モデルを再学習することをさらに含む。
好ましくは、前記音質特性は、経験融合タイプ、人為的損傷タイプ、音質設定フィードバック可能タイプ、経験公式調整可能タイプ、信号領域計算可能タイプ、ノイズ雑音タイプ、または他のタイプを含む。
好ましくは、前記経験融合タイプの音質特性のオンライン学習方法は、
前記ユーザ好みデータにおけるユーザ好みリストが更新されると、音質特性パラメータの融合結果が更新されるが、このときベースラインモデルは更新されないこと、および/または
ユーザからフィードバックされた前記音質特性のデータ特徴が変化した場合、ユーザからフィードバックされた音質特性のデータ特徴に基づいてベースラインモデルを再訓練し、経験融合タイプの音質特性のパーソナライズ音質特性処理モデルを取得することを含む。
好ましくは、前記人為的損傷タイプの音質特性のオンライン学習方法は、前記ユーザ好みデータにおけるオーディオデータのオーディオフォーマットを判断し、ユーザにダウンロードを促すこと、または対応するベースラインモデルを自動的にダウンロードすることと、ダウンロードされた前記ベースラインモデルに基づいて、複数のオーディオフォーマットのプロモーションに適したハイブリッドモデルを訓練し、人為的損傷タイプの音質特性のパーソナライズ音質特性処理モデルを取得することと、を含む。
好ましくは、前記音質設定フィードバック可能タイプの音質特性のオンライン学習方法は、
ベースラインモデルまたは既存のパーソナライズ音質特性処理モデルが、現在のオーディオデータの環境パラメータ情報に基づいて音質特性処理結果を出力し、出力された前記音質特性処理結果に伴うユーザのフィードバック訓練に応じて前記ベースラインモデルまたは既存のパーソナライズ音質特性処理モデルを更新して、音質設定フィードバック可能タイプの音質特性のパーソナライズモデルを形成することを含む。
好ましくは、前記経験公式調整可能タイプの音質特性のオンライン学習方法は、
ベースラインモデル又は既存のパーソナライズ音質特性処理モデルによって出力された処理パラメータを用いて、処理対象のオーディオデータを処理し、ユーザが受け入れた場合に、前記ベースラインモデル又は既存のパーソナライズ音質特性処理モデルを更新する必要がなく、逆に、ユーザが受け入れず、出力された前記処理パラメータを調整すると、ベースラインモデルまたは既存のパーソナライズ音質特性処理モデルを、調整されたオーディオデータおよび処理パラメータで更新することを含む。
好ましくは、前記信号領域計算可能タイプの音質特性のオンライン学習方法は、
エンコーダを用いて、推奨される前記オーディオデータの音質特性特徴コードと個人ユーザが好む音質特性特徴コードセットとの整合度を計算し、前記整合度が最も高い所定数の推奨すべきオーディオデータを個人ユーザに推奨して、ユーザに1つ以上のオーディオデータを推奨し、ユーザが推奨されたオーディオデータを受け入れた場合、当該オーディオデータをユーザが好むオーディオデータとみなすことができ、当該オーディオデータを個人ユーザが好むオーディオデータに加えることと、更新された個人ユーザが好むオーディオデータでエンコーダを更新することと、を含む。
好ましくは、前記ノイズ雑音タイプの音質特性のオンライン学習方法は、ユーザが特定のタイプのノイズを特に嫌う、または頻繁に遭遇する場合、ユーザフィードバック情報によって、そのタイプのノイズのための専用の分類器またはノイズ除去器をユーザにカスタマイズすることを含む。
好ましくは、前記他のタイプの音質特性のオンライン学習方法は、前記他のタイプの音質特性を前述のオンライン学習方法に適用することを含み、特定のオンライン学習プロセスは、音質特性特徴に応じて変更または簡略化される。
本発明の別の態様によれば、オーディオ再生端末、クラウドプラットフォーム、およびオンライン学習モジュールを含むディープラーニングに基づくオーディオ音質パーソナライゼーションシステムであって、
前記オーディオ再生端末は、ユーザ好みデータを記憶するためのものであり、
前記クラウドプラットフォームは、広範な大衆または単一ユーザのオーディオデータ、行動データおよびその他の関連データを用いて訓練されたニューラルネットワークモデルであるベースラインモデルを形成するためのものであり、
前記オンライン学習モジュールは、前記ユーザ好みデータを受信し、前記ベースラインモデルをオンライン学習して、パーソナライズオーディオ音質モデルを形成することを特徴とするディープラーニングに基づくオーディオ音質パーソナライゼーションシステムが提供される。
好ましくは、前記システムは、前記システムのスケジューリング、管理、および監視を担当する監視管理プラットフォームをさらに含む。
添付図面に関連して本発明の実施形態をより詳細に説明することにより、本発明の上記および他の目的、特徴、および利点がより明らかになるであろう。添付図面は、本発明の実施形態の更なる理解を提供するために使用され、本発明の実施形態と共に本発明を説明するために使用される明細書の一部を構成するものであり、本発明を限定するものではない。添付図面において、同じ参照符号は、通常、同じ構成要素またはステップを表す。
本発明の一実施形態によるディープラーニングに基づく音質特性処理方法の模式的フローチャートである。 本発明の一実施形態によるディープラーニングに基づく経験融合タイプの音質特性の模式的原理図である。 本発明の一実施形態によるカテゴリラベル特徴抽出プロセスの模式的原理図である。 本発明の一実施形態によるカテゴリラベル復元プロセスの模式的原理図である。 本発明の一実施形態によるディープラーニングに基づく人為的損傷タイプの音質特性の処理方法の模式的原理図である。 本発明の一実施形態によるディープラーニングに基づく音質設定フィードバック可能タイプの音質特性の処理方法及びそのオンライン学習の模式的原理図である。 本発明の一実施形態によるディープラーニングに基づく経験公式調整可能タイプの音質特性の処理方法の模式的原理図である。 本発明の一実施形態による主観評価実験プロセスの模式的原理図である。 本発明の一実施形態によるディープラーニングに基づく信号領域計算可能タイプの音質特性の処理方法の模式的原理図である。 本発明の一実施形態によるディープラーニングに基づくノイズ雑音タイプの音質特性の処理方法の模式的原理図である。 本発明の一実施形態によるディープラーニングに基づく他のタイプの音質特性の処理方法の模式的原理図である。 本発明の一実施形態によるディープラーニングに基づくパーソナライズ音質特性処理方法の模式的フローチャートである。 本発明の一実施形態によるパーソナライズ音質特性処理モデルの訓練方法の模式的原理図である。 本発明の一実施形態によるディープラーニングに基づくパーソナライズ音質特性処理方法のオンライン学習方法の模式的原理図である。 本発明の一実施形態による経験融合タイプの音質特性のオンライン学習の原理的模式図である。 本発明の一実施形態による経験公式調整可能タイプの音質特性のオンライン学習の原理的模式図である。 本発明の一実施形態による信号領域計算可能タイプの音質特性のオンライン学習の原理的模式図である。 本発明の一実施形態によるディープラーニングに基づく音質特性処理またはパーソナライズ音質特性処理のシステムの原理的模式図である。
本発明の目的、技術的手段、および利点をより明確にするために、以下、添付図面を参照して本発明に係る実施形態を詳細に説明する。明らかに、記載された実施形態は本発明の一部の実施形態にすぎず、本発明のすべての実施形態ではなく、本発明は本明細書に記載された例示的な実施形態によって限定されないことが理解されるべきである。本発明に記載された本発明の実施形態に基づいて、当業者が創造的な作業なしに得た他のすべての実施形態は、本発明の保護の範囲内に含まれるべきである。
本発明の一態様によれば、ディープラーニングに基づく音質特性処理方法が提供される。図1を参照して、本発明の一実施形態に係るディープラーニングに基づく音質特性処理方法について説明する。図1に示すように、ディープラーニングに基づく音質特性処理方法は、
処理対象のオーディオデータを含むユーザ好みデータ(s1)に対して特徴抽出(s2)を行い、前記処理対象のオーディオデータのデータ特徴を取得することと、
前記データ特徴に基づいて、訓練済みのベースラインモデル(s3)を用いて、前記処理対象のオーディオデータの音質処理結果(s4)を生成することと、を含み、
前記ベースラインモデルは、広範な大衆または単一ユーザのオーディオデータ、行動データ、および他の関連データを用いて訓練されたニューラルネットワークモデルである。
前記ユーザ好みデータは、音質特性に対するユーザの好みを反映したデータを含む。また、ユーザ行動データ、ユーザオーディオリストデータ、再生中オーディオデータ、環境ノイズデータ、デバイスデータ、および他のパラメータデータのうちの少なくとも1つを含むが、これらに限定されない。
異なる音質特性は異なる特性を有し、同一または類似の特性を有する音質特性は、同一または類似の方法によって音質特性を処理しても良い。前記処理は、音質特性の強化および/または推奨および/または提示を含むが、これらに限定されない。
次の表1に示すように、音質特性を所定の基準に基づいて分類する。前記音質特性は、経験融合タイプ、人為的損傷タイプ、音質設定フィードバック可能タイプ、経験公式調整可能タイプ、信号領域計算可能タイプ、ノイズ雑音タイプ又はその他のタイプを含むが、これらに限定されない。前記所定の基準は、データ取得の難易度、データ量子化の難易度、または主観とデータのマッピング確立の難易度を含むが、これらに限定されない。
データ取得の難易度とは、音質特性に関連するユーザ好みデータを取得しやすいか否かを指す。例えば、EQ(Equalizer)に対するユーザの好みとは、データの取得が困難な音質特性を指し、通常、ユーザが手動でEQを調整することはほとんどないため、ユーザのあるオーディオデータに対するEQ好み設定を取得することは困難である。音楽の人為的な符号化圧縮は、flacロスレス音楽をmp3音楽にトランスコーディングするなど、データ取得が容易な音質特性である。人々がmp3よりもflac音楽の方を好むことは確かであり、この好みは明らかであり、トランスコーディング前後の信号波形などの関連データを好みデータとすることができる。
データ量子化の難易度とは、ユーザ好みデータがある特徴抽出方法によって音質特性の異なる程度と変化を直接マッピングできるデータ特徴を取得することができるかどうかを指す。例えば、EQはデータの量子化しにくい音質特性であり、EQは一連の人工的に設計された曲線であり、表現形式は各周波数点の強化や減衰の程度であり、1つの高次元データであり、EQ音質特性の強度を反映しにくい。人工的符号化圧縮は、量子化が容易な音質特性であり、コードレートサイズ、サンプリング周波数サイズなどの少量のパラメータでこの音質特性の強度を特徴付けることができ、同じオリジナルオーディオで符号化し、コードレートが低く、サンプリング周波数が低いオーディオフォーマットの音質は、高いサンプリング周波数と高いコードレートのオーディオフォーマットの音質と明らかに異なる。
主観とデータの関係確立の難易度とは、ユーザの音質特性に対する主観的な感覚がデータ特徴と直接対応できるかどうかを指す。例えば、低音の強さは主観的な感覚に対応することが困難な音質特性であり、すべての人が低音の強い音楽を好むわけではない。たとえスペクトルに基づいてオーディオの低音の強さを簡単に計算することができたとしても、この数値があるユーザの感覚に良い影響や悪い影響を与えることをすぐに判断することはできない。人工的符号化圧縮は、主観にマッピングしやすい音質特性である。これは、ロスレスオーディオを圧縮すると、必然的にすべての人の主観的な感覚が低下し、同じ符号化フォーマットのコードレートが低いほど感覚が悪くなるからである。
また、前記所定の基準は、音質特性特徴を反映するパラメータ、例えば、音質特性の重要度を特徴付けることができるパラメータである音質特性強度を含むことができる。例えば、低音強度という特性は、オーディオの低帯域エネルギーがスペクトルの全エネルギーに占める割合が大きいほど、低音強度の音質特性強度が大きくなり、音質特性強度によって量子化方法が異なる可能性があり、量子化できない可能性もある。一般に、音質特性強度の量子化可能な音質特性は、いずれもデータを簡単に量子化できる。
Figure 0007137639000001
次に、図2A~図8を参照して、上記の異なるタイプの音質特性に基づいて、本発明の一実施形態に係るディープラーニングに基づく音質特性処理方法について説明する。
1.経験融合タイプの音質特性
経験融合タイプの音質特性(例えば、EQイコライゼーション)の関連データは、取得や量子化が困難であり、主観的な感覚とデータとのマッピングも困難であるが、特定の属性やカテゴリのオーディオデータについては、ジャズスタイルに適合した音楽など、本分野で認められている音質特性パラメータの調整方法があり、ジャズスタイルの音質特性パラメータを用いることで、一般の人々の好みを満たすことができる。
オーディオデータベース内のオーディオデータは、ユーザまたは他の手段によってカテゴリラベルが付けられている。カテゴリラベルは、「ジャズ」、「クラシック」、「スピーチ」、「コンサート」などを含むが、これらに限定されない。また、1つのオーディオデータは複数のカテゴリラベルに対応しなければならない。オーディオデータのカテゴリラベルを正規化して、各カテゴリに対応するオーディオデータの確率ベクトルを取得し、このベクトルを特徴付ける。当該方法は、行列分解、因子分解機、単語ベクトル化などを含むが、これらに限定されない。音楽波形の時間周波数領域の特徴を入力として使用し、カテゴリラベル特徴ベクトルを出力として使用して、経験融合タイプのディープニューラルネットワークを訓練する。ユーザがカテゴリラベルなしのオーディオデータまたはラベルが不完全であるオーディオデータを好む場合に、特徴抽出方法および訓練によって得られた経験融合タイプのディープニューラルネットワークを用いて、このオーディオデータのオーディオ波形をカテゴリラベル特徴ベクトルにマッピングする。カテゴリラベル特徴ベクトルに基づいて、既存の音質特性パラメータを融合して設計し、ユーザにフィードバックする。
図2Aを参照すると、経験融合タイプの音質特性の場合、前記音質特性処理方法は、次のステップを含む。
オーディオデータベースに基づいて、オーディオデータのカテゴリラベル特徴(210)と、前記オーディオデータのデータ特徴(211)とが抽出される。
ここで、前記カテゴリラベル特徴を抽出する方法には、行列分解、因子分解機、単語ベクトル化などの方法が含まれるが、これらに限定されない。前記オーディオデータのデータ特徴は、オーディオ波形中の明らかなカテゴリ特徴部分を有する特徴を含むが、これらに限定されない。前記データ特徴の抽出方法としては、fft(Fast Fourier Transformation)、mfcc(Mel-Frequency Cepstral Coefficient)等を含むが、これらに限定されない。
一実施形態では、音楽データのカテゴリラベル特徴の抽出プロセスについて、行列分解を例として説明する。図2Bを参照すると、大衆ユーザは、異なる音楽のカテゴリラベル(例えば、スタイルラベル)をラベル付けしてラベル付け行列120を形成し、ラベル付け行列120中のデータはラベル付けされた回数を表す。12人のユーザが音楽「私の祖国」を「民楽」カテゴリとしてラベル付けした場合、ラベル付け行列120中の行が「私の祖国」であり、列が「民楽」であるデータは12である。ラベル付け行列120の各行は、音楽の「スタイルラベル」と呼ばれる。
オリジナルのラベル付け行列120の各行は、明らかにスパースなベクトルであり、音楽のスタイルラベルのように、いくつかの座標が正の整数であり、他は0であるのが正常であるが、すべての座標が正の整数である場合はほとんどない。つまり、ほとんどの音楽は、いくつかのスタイルにのみ対応すべきであり、さらには1つのスタイルにのみ対応すべきである。したがって、このラベル付け行列120は非常にスパースであり、各音楽のスタイル特徴をより密にし、類似音楽間の特徴の関連度をよりよく反映できるようにスタイルラベル特徴を抽出する必要がある。
ラベル付け行列120を分解し、得られた分解結果はスタイルラベル特徴行列121と重み行列122である。このうち、スタイルラベル特徴行列121の各行は、音楽のスタイルラベル特徴であり、スタイルラベルという疎ベクトルの圧縮と見なすことができ、類似音楽のスタイルラベル特徴の間には比較的高い類似度があり、例えば、「私の祖国」と「十送紅軍」の特徴の余弦相関度は、「私の祖国」と「七里香」より明らかに高い。重み行列122の各列は1つの音楽スタイルに対応し、1列の数値はその音楽スタイルを特徴付けており、スタイルラベル特徴行列121のスタイルラベル特徴の各要素に対して重み付ける。スタイルラベル特徴行列121と重み行列122とを乗算した結果は、オリジナルのラベル付け行列を近似的に復元したものである。
前記オーディオデータのデータ特徴を入力レイヤーデータとし、前記カテゴリラベル特徴を出力レイヤーデータとして、経験融合タイプの音質特性を取得するためのベースラインモデルを訓練する(212)。
処理対象のオーディオデータを特徴抽出してデータ特徴を取得し、入力データとして前記経験融合タイプの音質特性のベースラインモデルに入力して、前記処理対象のオーディオデータのカテゴリラベル特徴を取得する(213)。
一実施形態では、ユーザが好む音楽を取得し、その音楽波形から抽出された特徴を入力として、経験融合タイプの音質特性のベースラインモデルを用いて演算すると、出力結果はこの音楽に対するスタイル特徴ベクトルであるカテゴリラベル特徴である。ユーザの音楽の異なる時間帯の時間領域波形について、異なるスタイル特徴が出力されることがあり、最終的なスタイル特徴推定結果を取得する方法には、各時間帯の出力の平均、または他の融合方法(投票など)が含まれるが、これらに限定されない。最終の音楽は1つのスタイル特徴ベクトルを出力する。
前記処理対象のオーディオデータのカテゴリラベル特徴を前記処理対象のオーディオデータのカテゴリラベルに復元し(214)、前記処理対象のオーディオデータのカテゴリラベルに基づいてユーザ好みカテゴリ画像を形成する(215)。
一実施形態では、行列分解を例にして、音楽データのスタイルラベル特徴をスタイルラベルに復元するプロセスを説明する。図2Cを参照すると、前記ディープニューラルネットワークモデルによって出力される特徴ベクトルは、音楽データのスタイルラベル特徴200であり、重み行列201(すなわち、スタイルラベル特徴の抽出における重み行列122)が乗算されて、当該音楽データの可能なスタイルラベル202が復元される。ここで説明したいのは、先に因子分解機のような他のスタイルラベル特徴抽出手法を採用した場合、スタイルラベルを復元する手法は特徴抽出手法に対応すべきであるということである。
前記ユーザ好みカテゴリ画像と対応するカテゴリの音質特性パラメータとに基づいて融合し(216)、パーソナライズ音質特性パラメータを取得する。
ここで、前記ユーザ好みカテゴリ画像は、各カテゴリのオーディオデータに対するユーザの好み度を反映したものであり、各カテゴリのオーディオデータが占める割合や重みを反映したグラフ(例えば、棒グラフや円グラフ)を含むが、これらに限定されない。一実施形態では、ユーザが頻繁にクリックする音楽の音楽ラベル特徴は、ロックスタイルの座標上で最大の数値を有し、画像は、ロックがユーザの主な好みであることを示し得るため、画像に占めるロックカテゴリの割合が大きい。
前記パーソナライズ音質特性パラメータを音質処理結果としてユーザに推奨する(217)。
2.人為的損傷タイプの音質特性
人為的損傷タイプの音質特性の関連データは、いずれも取得しやいという特性を備えている。例えば、損傷符号化オーディオは、符号化前後のオーディオデータを容易に入手することができ、このような特性は損傷後と損傷前のデータのマッピングネットワークを直接確立することができる。
図3を参照すると、人為的損傷タイプの音質特性の場合、前記音質特性処理方法は、次のことを含む。
オーディオデータベース内の高品質のオーディオデータサンプルに基づいて処理を行い、損失のある低品質のオーディオデータサンプルを取得し、前記損失のある低品質のオーディオデータサンプルおよび前記高品質のオーディオデータサンプルに対してそれぞれ特徴抽出を行い、低品質のオーディオデータ特徴および高品質のオーディオデータ特徴を取得する(220)。
ここで、高品質のオーディオデータサンプルは、ロスレスオーディオデータまたは高品質のオーディオデータを含み、前記高品質の周波数データサンプルには、pcm(Pulse Code Modulation)フォーマット、wavフォーマット、flac(Free Lossless Audio Code)フォーマット、その他のフォーマットのロスレスオーディオデータまたは高コードレートのオーディオデータが含まれるが、これらに限定されない。前記高コードレートのオーディオデータは、高コードレートまたは高いサンプリング周波数の音声データ、または人為的な損傷を受けていない他の形式のロスレスオーディオデータを含むが、これらに限定されない。これらのデータを特徴抽出した後に再構成ネットワークの出力レイヤーターゲットとする。高品質のオーディオデータの人工的な損傷として、代表的に、サンプリングレートが16kHzであり、符号化レートが23.85kbps(KBit Per Second)であるamr-wb(Adaptive Multi-Rate Wideband)音声と、トランスコーディングのサンプリングレートが8kHzであり、符号化レートが12.2kbpsであるamr-nb(Adaptive Multi-Rate Narrowband)音声とが含まれるが、これらに限定されない。
前記処理には、コーデックなどの人工的損傷が含まれるが、これらに限定されない。
低品質のオーディオデータ特徴および高品質のオーディオデータ特徴を取得する方法は、前記損失のある低品質のオーディオデータサンプルまたは前記高品質のオーディオデータサンプルをフレーム化した後に特徴抽出することを含むが、これに限定されない。前記特徴抽出の方法には、STFT(短時間フーリエ変換)などが含まれるが、これに限定されない。抽出された特徴は、オーディオの周波数領域の振幅または位相情報、時間領域特徴、または一定時間帯の時間領域波形を含むが、これらに限定されない。
前記低品質のオーディオデータ特徴を入力レイヤーデータとし、高品質のオーディオデータ特徴を出力レイヤーデータとして(221)、人為的損傷タイプの音質特性のベースラインモデルを取得するように訓練する(223)。
処理対象のオーディオデータ(222)を特徴抽出してデータ特徴を取得し、入力データとして前記人為的損傷タイプの音質特性のベースラインモデルに入力して、再構成された高品質のオーディオデータを取得する。
ここで、前記処理対象のオーディオデータは、記憶または再生される音質特性の改善を必要とするオーディオデータを含むが、これらに限定されない。さらに、ユーザの再生中またはリスト中のオーディオデータ、またはクラウドまたはユーザ側に記憶されたオーディオデータを含むが、これらに限定されない。前記処理対象のオーディオデータがオフラインで保存されたデータである場合、これらのデータはフレーム化され、オンラインで再生されるデータである場合、1フレームまたは数フレームのデータがバッファリングされる。
処理対象のオーディオデータの特徴抽出方法としては、STFT(短時間フーリエ変換)等が含まれるが、これらに限定されない。抽出された特徴は、オーディオ波形の周波数領域振幅または位相情報、時間領域特徴、または一定時間帯の時間領域波形を含むが、これらに限定されない。前記再構成された高品質のオーディオデータは、再構成された時間領域のオーディオ波形を含むが、これに限定されない。
前記再構成された高品質のオーディオデータを、ユーザによる再生または記憶のためにバッファリングする(224)。
ここで、上記のオーディオデータは、データストリームの形態で送信されることを含むが、これに限定されないことに留意されたい。
3.音質設定フィードバック可能タイプの音質特性
音質設定フィードバック可能タイプの音質特性について、1人のデータを取得するには一定のコストがかかるが、多くの人のデータを取得することは比較的容易である。これにより、まず広範な大衆ユーザのフィードバックデータを用いて1つのベースラインモデルを訓練し、特定ユーザのオンラインフィードバックデータに基づいてベースラインモデルをオンライン学習させることにより、特定ユーザの好みモデルを取得することができる。すなわち、ディープラーニング法を用いて、大衆ユーザがオーディオデータを再生する際の大衆ユーザ好みデータ(再生されたオーディオデータのデータパラメータ、環境パラメータ、機器パラメータ等を含むが、これらに限定されない)を訓練し、大衆ユーザの対応するフィードバック調整設定のニューラルネットワークモデルにマッピングしてベースラインモデルを形成する。ベースラインモデルの音質特性調整結果を特定ユーザにフィードバックした後、ベースラインモデルを用いてオンライン学習を行い、特定ユーザからのフィードバックに応じてモデルを更新し、特定ユーザ自身の習慣を反映したパーソナライズ音質調整モデルを形成する。
図4を参照すると、音質設定フィードバック可能タイプの音質特性について、前記音質特性処理方法は、以下のステップを含む。
大衆ユーザのオーディオデータにおける環境データと、前記環境データに対応する行動データとに基づいて、それぞれ特徴抽出を行い、前記環境データの環境パラメータ特徴と、前記行動データの音質特性設定特徴とを取得する(230)。
ここで、前記大衆ユーザのオーディオデータは、オーディオデータの環境データと、対応する行動データとを含むが、これらに限定されない。前記環境データは音質特性によって様々なパラメータ特徴を含んでおり、具体的に含まれる内容は具体的な音質特性に応じて特定され、例えば、音量調節という音質特性は、環境騒音、音楽スタイル、再生機器のいずれにも関係している可能性があり、大衆ユーザは、高い騒音を背景で音量を上げるのが一般的である。したがって、前記環境データは、ユーザが調整動作を行うときの対応するオーディオ、環境、オーディオ機器のデータまたはパラメータ(環境ノイズ、音楽信号領域情報、音楽スタイル、環境ノイズセット、空港や歩行者専用道路などの現場ノイズ、機器パラメータなどを含むが、これらに限定されない)を含むが、これらに限定されない。前記対応する行動データは、ユーザが様々なノイズ環境下で異なる機器から音楽を聴いているときに収集したオーディオ特性設定などの、大衆ユーザに対応するオーディオ特性設定などのデータを含むが、これらに限定されない。
前記環境パラメータ特性を入力レイヤーデータとし、前記音質特性設定特徴を出力レイヤーデータとして、音質設定フィードバック可能タイプの音質特性のベースラインモデルを取得するように訓練する(231)。
4.経験公式調整可能タイプの音質特性
経験公式調整可能タイプの音質特性の特徴は、経験公式に従ってオーディオ信号を人為的に調整する方法で、その音質特性を強化したオーディオを取得することができることであり、調整するパラメータによって音質特性の強度が異なり、調整パラメータは、音質特性調整パラメータとも呼ばれる。しかし、このような音質特性は必ずしもすべての人が好むとは限らないので、様々なレベルの音質特性に対する人の主観的な感覚を評価する必要がある。様々なレベルに調整したオーディオの音質に対して主観的な評価実験を行うことによって、最適な調整済みパラメータを探し出す。さらに、ニューラルネットワークを介して、オーディオデータ特徴を最適な調整パラメータにマッピングするベースラインモデルを構築する。すなわち、音質特性の強さを主観的に評価し、音質特性調整パラメータと主観的感情とのマッピング関係を確立した後、オーディオ信号領域情報と音質特性調整パラメータとのマッピングネットワークを訓練することにより、オーディオ信号領域と主観的感情とのマッピングを実現する。特定ユーザについては、特定ユーザからのフィードバックを用いてベースラインモデルをオンライン学習することもできる。
図5Aを参照すると、経験公式調整可能タイプの音質特性について、前記音質特性処理方法は、以下を含む。
オーディオデータベース内のオーディオデータ(400)に基づいて、フレーム化後に特徴抽出を行い、オリジナルデータ特徴(401)を取得する。
なお、前記オーディオデータには、音質特性強化処理が施されていないオリジナル楽音波形や信号領域データ等が含まれるが、これらに限定されない。前記特徴抽出の方法は、STFTを含むが、これに限定されない。
前記オーディオデータに対して音質特性調整を行い、調整後のオーディオデータに対して特徴を抽出して調整パラメータ特徴を取得し(402)、主観評価実験を通じて前記調整パラメータ特徴を主観評価にマッピングするネットワークモデルを構築し(403)、最適な音質特性調整パラメータを取得する。
ここで、前記音質特性の調整は、既知の経験公式による前記オーディオデータの音質特性の調整を含むが、これに限定されない。前記音質特性の調整は、音質特性の強化または弱化を含むが、これらに限定されない。前記主観評価実験は、音質特性調整パラメータを大衆ユーザの平均主観感覚にマッピングするものであり、具体的な実験方法としては、最小可知差実験が含まれるが、これに限定されない。
一実施形態では、前記主観評価実験の手順を、最小可知差主観実験を例に説明する。図5Bを参照して、1つのオリジナル音楽データに対して、処理関数f、処理パラメータP=pの音質特性強化処理を行う。pがある周波数点に対する上昇倍数を特徴付けることができ、上昇後にある音質特性の強度を増大させることができる場合、音質特性を強化した後の音楽はm(1)=f(p)である。パラメータ△pを加えてオリジナル音楽を処理すると、処理後の音楽はm(2)=f(p+△p)となる。以下、同様にして、パラメータP(n)=p+△p*(n-1)で処理された音楽をm(n)とし、評価者はm(n+1)の音質の主観感覚がm(n)よりも劣るパラメータP(n)が見つかるまでm(2)とm(1)を比較し、このときP+△p*(n-1)を音質特性強化処理の最適パラメータとする。同一音楽の評価について、評価者によって評価結果が異なる可能性があり、これらの評価を平均することで、1つのオーディオの1つの音質特性に対する最適な音質特性強化パラメータを取得することができる。
具体的には、引き続き図5Bを参照すると、第n段階(410)は、パラメータp+△p*(n-1)を用いてオーディオを処理する。第n段階と第n-1段階で生成されたオーディオに対する評価者の主観的な評価(411)は、第n段階のオーディオの音質が第n-1段階よりも良好である場合、スコアが1となり、412は、すべての評価者のスコアを平均することを意味し、第n+1段階では、第n段階の平均スコアが第n+1段階の平均スコアよりも大きくなると、パラメータp+△p*nは過剰な処理パラメータであり、p+△p*(n-1)はちょうど適切なパラメータであることを示している。
好ましくは、第1段階のpは0の値のセットであってもよい。このパラメータを使って処理した結果はもちろんオリジナルなオーディオであり、第2段階ではオリジナルのオーディオと△p処理されたオーディオを比較する。もし評価者がオリジナルオーディオが最高だと判断した場合、このオーディオはこの音質特性を強化するのに適していないことを意味する。例えば、透明度という音質特性は、自然なスタイルの音楽にしか適していないかもしれないが、一部のタイプの音楽は音質特性の強化に不適な場合がある。オリジナル波形が処理した結果よりも主観的な感覚が良いことが判明したら、このようなオーディオはそのスタイルを強化するのに不適であるため、このオーディオの最適強化パラメータは0値のセットである。
前記オリジナルデータ特徴を入力レイヤーデータとし、前記最適化音質特性調整パラメータを出力レイヤーデータとして、前記経験公式調整可能タイプの音質特性を取得するためのベースラインモデルを訓練する(404)。
処理対象のオーディオデータ(406)を特徴抽出してデータ特徴(407)を取得し、それを入力データとして、前記経験公式調整可能タイプの音質特性のベースラインモデル(408)に入力して、前記処理対象のオーディオデータの最適化音質特性調整パラメータを取得する。
ここで、前記処理対象のオーディオデータは、ユーザのオーディオリストにおけるオーディオデータまたはユーザが再生しているオーディオデータを含むが、これらに限定されない。
前記処理対象のオーディオデータの最適化音質特性調整パラメータをユーザにフィードバックする(405)。
ここで、前記フィードバックの方法は、ユーザ側のソフトウェアによって処理されるフィードバックパラメータをユーザ側へフィードバックすること、または、オンラインで再生し、クラウドプラットフォームに基づいて処理して、処理された波形を直接フィードバックすることを含むが、これらに限定されない。
5.信号領域計算可能タイプの音質特性
信号領域計算可能タイプの音質特性の関連データは、オーディオ信号領域情報から計算可能である。このため、データの取得と量子化は容易であるが、このような音質特性はすべての人が好むわけではないので、異なる強度の音質特性に対する人間の反応を評価する必要があり、ユーザがこのような音質特性を好む度合いを当該音質特性に対するユーザ好み特徴と呼ぶ。強度の異なるこのような音質特性を有するオーディオデータを取得しやすいため、人の手で製造する必要はない。そこで、式選択可能型とは異なるアルゴリズムを採用し、ユーザオーディオリストのオーディオ信号領域から抽出された音質特徴を教師なしディープラーニング法を用いて特徴圧縮学習し、そのような音質に対するユーザの好み特徴を学習した後、学習した特性に基づいて既存のオーディオライブラリから類似した特性を有する他のオーディオデータを見つけてユーザに推奨する。
これにより、信号領域計算可能タイプの音質特性について、ユーザオーディオリストのオーディオデータの信号領域から抽出された音質特性を教師なしディープラーニング法を用いて特性圧縮学習し、そのような音質特性に対するユーザの好み特徴を学習した後、学習した特性に基づいて既存のオーディオライブラリから類似した特性を有する他の音楽を見つけてユーザに推奨する。
図6を参照すると、信号領域計算可能タイプの音質特性について、前記音質特性処理方法は、以下を含む。
オーディオデータベース内のオーディオデータ(500)に基づいて、フレーム化後に特徴抽出を行い、音質特性特徴(501)を取得する。
ここで、前記オーディオデータは、オーディオ波形を含むが、これに限定されない。前記オーディオデータのスタイルカテゴリは、現在知られているスタイルカテゴリをカバーすべきである。前記音質特性特徴の抽出には、既知の音質特性計算方法による計算が含まれるが、これに限定されない。また、前記音質特性特徴には、音質特性の特徴ベクトルまたは音質特徴強度が含まれるが、これらに限定されない。
例えば、前記音質特性の特徴ベクトルは、m次元の1つのベクトルであってもよい。一実施形態において、低音強度という音質特性を例にとると、低音強度は、音楽の低音部分が強力であるか否かを特徴付ける音質特性であり、一般的には、低周波帯域のエネルギーと全帯域のエネルギーとの割合によって求めることができ、1つの数値である。低周波帯域がm個の周波数点、全帯域がk個の周波数点を有し、各周波数点の振幅をS(i)、i=1、2、……kとすると、全帯域の振幅は、
Figure 0007137639000002
である。従って、低音強度という音質特性の特徴ベクトルはV=[v1、v2…vm]と設計することができ、ここでVi=S(i)/E、すなわち、Vの要素の数値は各周波数点振幅と全周波数点振幅の比であり、Vの各要素の和を低音強度と見なすことができる。その他のタイプの音質特性については、実際の計算方法に基づいて特徴ベクトルを選択することができる。
例示的に、音質特性特徴は、音質特徴強度であってもよく、前記音質特徴強度は数値データを含むが、これに限定されない。そして、音質特性の特徴ベクトルは、音質特徴強度を計算する中間結果である。
しかし、実際の応用では、数値を直接出力するのではなく、音質特徴ベクトルを計算することが一般的である。これは、前者の方が情報量が豊富であり、機械学習アルゴリズムによるクラスタリングにより適しているからである。
前記音質特性特徴をクラスタリング(502)してクラスタモデルを取得し、前記音質特性特徴をNタイプにクラスタリングする。ここで、前記クラスタリング方法は、Kmeansクラスタリングアルゴリズムを含むが、これに限定されない。
個人ユーザが好むオーディオデータ(503)に基づいて特徴抽出を行い、個人ユーザが好む音質特性特徴(504)を取得し、前記クラスタモデルに入力して個人ユーザが好む音質特性分布特徴ベクトル(505)を生成する。
ここで、前記個人ユーザが好むオーディオデータの収集方法は、ユーザが頻繁に再生するオーディオデータおよび/またはプレイリストに常駐するオーディオデータおよび/または「いいね」のオーディオデータを選択することを含むが、これらに限定されない。
前記音質特性分布特徴ベクトルは、前記オーディオデータの音質特性特徴の分布を表す。例えば、1つのオーディオに対して合計c個のフレームがあり、これらのフレームは特徴抽出後にNタイプにまとめられるが、c個のフレームのタイプ分布を1つの特徴ベクトルで表し、ベクトルU=[U1、U2、U3、……UN]と表記する。ここで、Ui=オーディオでi番目のタイプに属するフレームの数、例えばU=[3、4、7、9、……]である場合、音質特徴はタイプ1に属するフレームが3個、タイプ2に属するフレームが4個、タイプ3に属するフレームが7個あり、明らかに
Figure 0007137639000003
である。ここでベクトルUをこのオーディオの音質特性特徴分布ベクトルと呼ぶ。
前記個人ユーザが好む音質特性分布特徴ベクトルに基づいて、教師なしニューラルネットワークモデル(506)をエンコーダとして訓練する。ここで、前記教師なしニューラルネットワークモデルは、入力特徴を符号化圧縮する信号領域計算可能タイプの音質特性のベースラインモデルであり、自己エンコーダ、制限付きボルツマンマシン、ディープビリーフネットワークなどを含むが、これらに限定されない。
個人ユーザが好む音質特性分布特徴ベクトルを前記エンコーダに入力し、個人ユーザが好む音質特性特徴コードセットを取得する(507)。
一実施形態では、前記エンコーダに基づいて、ネットワーク内の1つの隠れ層をインターセプトしてユーザ好みオーディオの音質特性特徴分布ベクトルとしてネットワークに入力し、隠れ層の出力は入力特徴の符号化と見なすことができる。単一の隠れ層の自己エンコーダが訓練されている場合、隠れ層は一意である。制限付きボルツマンマシンである場合、隠れ層も唯一である。マルチレイヤーの自己エンコーダまたはディープビリーフネットワークの場合、複数の隠れ層から1つを選択する必要がある。各ユーザ好みオーディオデータの音質特性特徴分布ベクトルは、1つのコードに対応し、複数のユーザ好みオーディオデータ特徴のコードは、ユーザ好み音質特性コードセットを構成する。これらの符号化特性は、音質特性に対するユーザの好みの抽象的な特徴付けモデルと見なすことができる。
少なくとも1つの推奨すべきオーディオデータ(508)に基づいて、フレーム化後に特徴抽出を行って少なくとも1つの推奨すべきオーディオデータ音質特性特徴(509)を生成し、前記クラスタモデルに入力してクラスタリングを行い、推奨すべきオーディオデータの音質特性分布特徴ベクトル(510)を取得する。
ここで、前記推奨すべきオーディオデータの選択方法は、オーディオライブラリからランダムに選択されたオーディオデータおよび/または音楽ポータルサイトの推奨アルゴリズムによって推奨された音楽データを含むが、これらに限定されない。
前記推奨すべきオーディオデータの音質特性分布特徴ベクトルを前記エンコーダに入力し(511)、前記推奨すべきオーディオデータの音質特性特徴コードを取得する(512)。
前記推奨すべきオーディオデータの音質特性特徴コードと、個人ユーザが好む音質特性特徴コードセットとの整合度を計算する(513)。
ここで、2つの符号化ベクトル間の整合度は、コサイン類似度、ユークリッド距離等を含む類似度アルゴリズムを用いて計算することができるが、これらに限定されない。1つの符号化ベクトルと1セットの符号化ベクトルとの整合度のアルゴリズムは、当該ベクトルと1セットのベクトルそれぞれのベクトルの類似度を加算平均するか、最大のk個の類似度を加算平均するか、1セットのベクトルの数値を平均して平均ベクトルを求め、平均ベクトルと当該ベクトルとの類似度を計算することを含むが、これらに限定されない。
前記整合度が最も高い所定数の推奨すべきオーディオデータを個人ユーザに推奨する(514)。
一実施形態では、ユーザが個人ユーザに推奨された音楽を好まない(例えば、ユーザがそれらの音楽を削除する、または再生しない)場合、これらの音楽をユーザの好み音楽から削除し、そうでない場合、これらの推奨された音楽をユーザの好みの一部とし、新しいエンコーダは適切な場合に繰り返し訓練される。
6.ノイズ雑音タイプの音質特性
ノイズ雑音タイプの音質特性の特徴は、このような音質特性が現れると、多くの人の感覚に不快感を与えることであり、このような音質特性の強度が大きいほど主観的な感覚が悪くなることである。雑音検出のモデルを訓練することができ、ディープラーニング法によりフレームの雑音確率または雑音カテゴリの雑音分類ネットワークを計算し、特定カテゴリの雑音を用いてノイズ低減ニューラルネットワークを訓練し、雑音分類ネットワークにより雑音カテゴリを得た後、特定のモデルを選択してノイズ低減を行う。
図7を参照すると、ノイズ雑音タイプの音質特性の場合、前記音質特性処理方法は、次のステップを含む。
オーディオデータベース内の雑音または正常音のカテゴリラベル特徴を含むオーディオデータ(600)に基づいて特徴抽出を行い、データ特徴およびそれに対応するカテゴリラベル特徴を取得する(601)。ここで、前記特徴抽出の方法は、MFCCを含むが、これに限定されない。
前記データ特徴およびその対応するカテゴリラベル特徴に基づいて、ノイズ雑音タイプの音質特性の分類ベースラインモデルを訓練する(602)。ここで、前記ノイズ雑音タイプの音質特性の分類ベースラインモデルは、オーディオフレームがノーマルオーディオであるか、ある種類の雑音に属するかを識別することができ、すなわち雑音分類器である。さらに、実際の応用では、取得可能な雑音のサンプルは、取得可能なノーマルオーディオよりもはるかに少ない可能性があり、このような問題は、統合学習の手法を用いてノーマルオーディオサンプルを複数の分類器に分散するなど、いくつかの訓練戦略によって解決することができる。
処理対象のオーディオデータ(603)に基づいてフレーム化及び特徴抽出を行い、処理対象のオーディオデータのデータ特徴を取得し(604)、前記ノイズ雑音タイプの音質特性の分類ベースラインモデルに入力して雑音判別結果を取得する(605)。ここで、前記雑音判別結果は、オーディオデータフレームの雑音カテゴリまたはノーマルオーディオを含むが、これらに限定されない。一実施形態では、前記雑音判別結果は、大量の雑音がオーディオデータに含まれているか否か、すなわち、このオーディオを処理する必要があるか否かのことをさらに含む。前記大量の雑音を含むことは、特定の数の雑音フレームが連続して出現することを含むが、これに限定されない。
前記処理対象のオーディオデータを前記雑音判別結果に応じて処理する(606)。この処理の態様は、ノイズ除去強化、ユーザへの提示、またはオーディオデータの削除などを含むが、これらに限定されない。
さらに、前記雑音識別結果がフィルタリング可能な雑音タイプ(バブブル(babble)環境ノイズ、ハウリング、電流音などを含むが、これらに限定されない)に属する場合、訓練済みのノイズ雑音タイプの音質特性のノイズ低減ベースラインモデルを用いて、ノイズ低減されたオーディオデータを取得する(607)。前記雑音識別結果がフィルタリング不可能雑音カテゴリに属する場合、ユーザに提示を与えるか、または前記処理対象のオーディオデータを削除する(608)。
一実施形態では、理想的な2値マスキング方法(Ideal Binary Mask)および特徴マッピング方法に従って、前記ノイズ雑音タイプの音質特性のノイズ低減ベースラインモデルを訓練することは、以下のことを含む。
オーディオデータベース内のオーディオデータを、その時間領域または周波数領域の特徴に基づいて時間領域または周波数領域のユニットに分割し、各時間領域または周波数領域のユニットをノイズタイプまたはノーマルオーディオタイプに分類し、前記ノイズタイプの時間領域または周波数領域のユニットを除去して純粋なオーディオデータを取得する。
前記オーディオデータの時間領域または周波数領域の特徴を入力レイヤーデータとし、前記純粋なオーディオデータの時間領域または周波数領域の特徴を出力レイヤーデータとして、前記ノイズ雑音タイプの音質特性を取得するためのノイズ低減ベースラインモデルを訓練する。
7.他のタイプのオーディオ特性
他のタイプの音質特性は、未知属性の音質特性、例えば、量子化手法のない音質特性である。そのため、オーディオ波形から直接または間接的に関連する音質特性を反映したデータを取得する工夫をしたり、オーディオ波形に何らかの処理を施したりして関連する音質特性を有するオーディオデータを取得する必要がある。上記のデータを特徴抽出し、音質特性のパラメータを反映することができる特徴を抽出し、データと音質特性とのマッピング関係を確立する方法は、監視なし自己エンコーダ、制限付きボルツマンマシンなどの方法を含むが、これらに限定されない。データ特徴の性質に基づいて、特徴と主観的感覚との間の関連性を確立する方法は、主観評価実験または教師なしディープラーニング方法を用いて当該特徴に対するユーザの好みを学習することを含むが、これらに限定されない。最後に、データに対するユーザのフィードバックを訓練セットとして利用して、ベースラインモデルをオンラインで学習する。モデルは、データまたはデータ特徴から主観的感情へのマッピングネットワークを含むが、これらに限定されない。
図8を参照すると、他のタイプの音質特性について、前記音質特性処理方法は、さらに次のステップを含む。
オーディオデータベース(700)に基づいて、他のタイプの音質特性を直接または間接的に反映可能なオーディオデータ(701)を取得する。
前記オーディオデータベース内のオーディオデータは、オーディオ波形、タイトルスタイルラベル等のパラメータ情報を含むが、これらに限定されない。また、研究が必要な未知属性の他のタイプの音質特性と関連しているべきであり、関連しているか否かの判断が困難であれば、可能な限り様々なスタイルをカバーできる異なるタイプのオーディオデータを収集する。
他のタイプの音質特性を反映するオーディオデータを取得することは、ユーザ側で記憶または受信されたオーディオデータから取得すること、または関連する音質特性を有するオーディオデータを取得するためにオーディオ波形に何らかの処理を施すことを含むが、これらに限定されない。他のタイプの音質特性を反映したオーディオデータを取得する基本的な方法には、経験分析、データ統計特性分析、主観実験などが含まれるが、これらに限定されない。例えば、上記他のタイプの音質特性は、音質特性の次元である中間周波数(Midrange)に関連している場合があり、中間周波数特性のカテゴリに属する場合もあり、オーディオデータ信号の中間周波数帯域スペクトルを抽出することは、有効なデータ抽出方法である。また、他のタイプの音質特性を反映するオーディオデータは比較的複雑な方法で取得することもできるが、そのことは、そのような他のタイプの音質特性を明らかに有するサンプルの収集、または、SVM(Support Vector Machine;サポートベクターマシン)、KNN(k-NearestNeighbor;隣接アルゴリズム)等のような小さなデータで訓練可能な機械学習方法を含むが、これらに限定されない。サンプルデータに基づいて抽出されたデータ特徴を入力し、前記他のタイプの音質特性のオーディオデータと他のオーディオデータとを区別し、そのデータ特徴がそのような音質特性に対して一定の分類能力を有しているか否かを判断し、分類能力が明らかでない場合には、他のデータモデルを試すことができる。分類能力が明らかであるか否かを判定する方法には、ANOVA(Analysis of Variance;分散分析)のような統計方法が含まれるが、これに限定されない。
前記他のタイプの音質特性を反映したオーディオデータに基づいて特徴抽出を行い、他のタイプの音質特性特徴抽出モデルを形成し(702)、他のタイプの音質特性特徴を取得する。
前記他のタイプの音質特性オーディオデータは、単に前記他のタイプの音質特性に関連しているので、前記他のタイプの音質特性の強度や特徴を直接反映することができない場合には、前記他のタイプの音質特性オーディオデータに対して特徴抽出を行い、前記他のタイプの音質特性を直接反映できる特徴を取得するか、あるいは前記他のタイプの音質特性の強度を算出できるモデルを作成する必要がある。特徴抽出の基本的な方法は、特徴設計を含むが、これに限定されるものではなく、前記他のタイプの音質特性のある属性を特徴付けるために、関連する統計パラメータを設計する必要がある場合がある。当業者は、ここに唯一の正確な特徴設計がない可能性があり、多くの異なる設計を試み、主観的実験の結果に基づいて調整しなければならない可能性があることを知るべきである。特徴抽出のより複雑な方法は、教師なしディープラーニング方法を採用するが、これに限定されない。前記他のタイプの音質特性特徴抽出モデルを取得するために、自己エンコーダ、制限付きボルツマンマシンなどを採用するが、これらに限定されない。明らかな音質特性特徴を有するオーディオデータモデルを符号化すると、物理的意味が不明な結果を取得するかもしれないが、人工的な特徴設計よりも効果的である場合がある。(図6に示すように、信号領域計算可能タイプの音質特性の処理方法で述べた特徴抽出方法に類似している)。
前記他のタイプの音質特性特徴を入力レイヤーとし、前記他のタイプの音質特性特徴を主観評価のネットワークモデルにマッピングして取得した主観的感覚評価を出力レイヤーとするか、または前記他のタイプの音質特性に対する個人ユーザの好み特徴に基づいて、他のタイプの音質特性を生成するためのベースラインモデルを訓練する(703)。訓練方法には、主観評価実験または教師なしディープラーニングが含まれるが、これらに限定されない。
前記他のタイプの音質特性の性質に応じて、次の2つのケースが含まれるが、これらに限定されない。1つのケースは、前記他のタイプの音質特性がオーディオデータを人為的に調整することでしか得られない場合であるため、様々なスタイルをカバーするオーディオデータベースから特徴データを取得することしかできない。この場合、特徴データはユーザの好みを反映することができない。従って、オーディオデータの前記他のタイプの音質特性特徴を、多数の人の平均的な主観的感覚を特定できるデータにマッピングする主観評価実験(経験公式調整可能タイプの音質特性に類似しており、図5Bを参照)を設計する必要がある。もう一つのケースは、ユーザが好むオーディオデータは、前記他のタイプの音質特性の強さを示すことができ、この場合、教師なしディープラーニング方法により、前記他のタイプの音質特性に対するユーザの好み特徴を抽出する(信号領域計算可能タイプの音質特性における特徴の自己学習方法に類似しており、図6を参照)。例えば、オーディオデータの音質特性特徴とユーザの音質特性に対する好み特徴との整合度算出は、主観的な好みに対する音質特性特徴のマッピングであり、整合度が高いほど、ユーザがこのオーディオを好む可能性があることを示している。
処理対象のオーディオデータに基づいて(704)、他のタイプの音質特性特徴抽出を行い(705)、前記他のタイプの音質特性のベースラインモデルに入力してユーザの主観的感覚評価を取得し、他のタイプの音質特性処理結果を生成する(707)。前記他のタイプの音質特性処理結果には、前記他のタイプの音質特性のベースラインモデルが出力するパラメータに応じた音質特性強化や、推奨すべきオーディオデータを推奨するか否かの判定が含まれるが、これらに限定されない。
前記音質特性のベースラインモデルに基づいて、前記音質特性の処理方法を取得できるが、音質特性の好みは人によって異なるため、パーソナライズされた自動調整を実現するために、推奨音質特性パラメータに対するユーザのフィードバックデータを含むユーザ好みデータを収集し、これらのデータを用いてオリジナルベースラインモデルパラメータに基づいて前記ベースラインモデルを再学習してパーソナライズ音質特性処理モデルを取得することができる。実際には、音質設定フィードバック可能タイプ、公式(経験)調整可能タイプ、信号領域計算可能タイプ、他のタイプなどの種類の音質特性を含むが、これらに限定されない。音質パラメータ設定に対するユーザのフィードバックを取得することができる音質特性処理方法は、いずれもユーザの使用中にフィードバック調整ベースラインモデルまたはパーソナライズ音質特性処理モデルを使用することができる。
本発明の別の態様によれば、ディープラーニングに基づくパーソナライズ音質特性処理方法が提供される。図9を参照して、本発明の一実施形態によるディープラーニングに基づくパーソナライズ音質特性処理方法を説明する。図9に示すように、ディープラーニングに基づく音質特性処理方法は、
個人ユーザ好みデータをリアルタイムで抽出することと(10)、
音質特性のベースラインモデルに基づいて、前記個人ユーザ好みデータをオンライン学習し、パーソナライズ音質特性処理モデルを取得するように訓練することと(20)、
前記パーソナライズ音質特性処理モデルを用いて、パーソナライズされた音質特性処理結果を生成することと(30)、を含み、
前記ベースラインモデルは、広範な大衆または単一ユーザのオーディオデータ、行動データ、および他の関連データを用いて訓練されたニューラルネットワークモデルである。
ユーザは、日常的なオーディオデータの再生中に、前記オーディオデータに対するユーザの音質好みを直接または間接的に反映するユーザ好みデータを継続的に生成し、再生端末は、これらのユーザ好みデータの変化をリアルタイムで記録する。
したがって、前記ユーザ好みデータは、ユーザ行動データ、ユーザオーディオリストデータ、再生中のオーディオデータ、環境ノイズデータ、他のパラメータデータのうちの少なくとも1つを含むが、これらに限定されない。
ここで、ユーザ行動データは、ユーザの音質特性の好みを直接又は間接的に反映することができる行動データであり、音量調整、オーディオ削除、オーディオ再生、オーディオダウンロード等を含むが、これらに限定されない。ユーザ行動データは、音質特性に対するユーザの設定好みを反映させることができる。
ユーザオーディオリストデータは、ユーザ好みオーディオのパラメータデータであり、ユーザ側のオーディオプレイリストに常駐するオーディオのパラメータデータ、ユーザが「いいね」を多く評価したオーディオのパラメータデータ、およびユーザが収集したオーディオのパラメータデータを含むが、これらに限定されない。前記パラメータデータは、オーディオデータを完全に反映した情報データであり、オーディオ波形、スタイル、タイトル、作者、アルバム等を含むが、これらに限定されない。ユーザオーディオリストデータは、異なるオーディオデータに対するユーザの好みを反映することができる。
再生中のオーディオデータは、ユーザが音質特性設定にフィードバックする際に再生中のオーディオデータのパラメータデータであり、オーディオ波形、スタイル、タイトル、作者、アルバム等を含むが、これらに限定されない。
環境ノイズデータは、ユーザが音質特性設定に対してフィードバックする際にマイクロホンが受信する環境音パラメータデータであり、波形やノイズタイプなどを含むが、これらに限定されない。環境ノイズデータは、異なる環境下におけるユーザの音質特性に対する設定好みを反映することができる。
他のパラメータデータは、ユーザの音質特性の好みを反映することができる他のパラメータデータであり、ユーザ側で受信または記憶することができる。
図10を参照して、本発明の一実施形態によるパーソナライズ音質特性処理モデルを訓練して取得するための方法を説明する。図10に示すように、前記パーソナライズ音質特性処理モデルを取得するための訓練方法は、以下のステップを含む。
前記音質特性のベースラインモデル(800)と、前記ベースラインモデルから出力された音質特性処理結果に対する個人ユーザのフィードバックデータ(803)とに基づいてオンライン学習(801)を行い、前記ベースラインモデルまたは既存のパーソナライズ音質特性処理モデル(802)を更新する。
ここで、前記フィードバックデータは、推奨アルゴリズムによって推奨されたオーディオの好み(再生、「いいね」など)または嫌い(リストからの削除、デバイスからの削除など)、音質特性設定の変更(音量調整など)、フィードバックを行う際のその他のパラメータ(環境ノイズの種類、振幅、再生されたオーディオのスタイル、振幅など)、フィードバック回数などのユーザ好みデータを含むが、これらに限定されない。
前記更新方法は、ユーザのフィードバック回数が1ロット(batch)に蓄積されたときに、ユーザが学習ベースラインモデル、または前のロットでフィードバックして学習されたパーソナライズ音質特性処理モデルをフィードバックすることを含が、これらに限定されない。
例示的に、前記パーソナライズ音質特性処理モデルがもはや更新されないときに、ユーザのために音質特性設定パラメータのセットが固定化される。さらに訓練させない基準には、ユーザが新しい音質特性パラメータに対してフィードバック動作を行わないか、またはほとんど行わないことが含まれるが、これらに限定されない。例えば、1週間、1ヶ月の間に、ユーザがフィードバックしない場合、現在の最新の音質特性設定パラメータを導出してユーザのためにパラメータ設定を行うことができる。ユーザは、最新の音質特性設定パラメータをファイルとしてエクスポートまたは保存することができる。
一実施形態では、図11を参照して、本発明の実施形態によるオンライン学習の方法を説明する。図11に示すように、オンライン学習の方法は、
個人ユーザのオーディオデータ(901)に基づいて、前記ベースラインモデル(902)に入力し、推奨された音質特性処理結果を生成する。
ここで、前記個人ユーザのオーディオデータは、個人ユーザの現在のオーディオの環境データ、オーディオリスト情報、好み情報などのデータを含むが、これらに限定されず、いずれもユーザ好みデータのサブセットである。
前記推奨された音質特性処理結果を個人ユーザ側またはクラウド側に配置する(903)。
個人ユーザのフィードバックデータにおけるフィードバック回数が所定値に達すると、1フィードバックロットT=1とし(904)、T=1ロットの個人ユーザのフィードバックデータ(906)を入力レイヤーとして前記ベースラインモデルを訓練更新して、パーソナライズ音質特性処理モデルM(T=1)を取得する(907)。
ここで、ユーザは、推奨された音質特性処理結果に満足すると、音質特性設定を一時的に調整しない。モデルを更新するための新たなフィードバックデータがなければ、訓練を終了する(905)。逆に、ユーザが今後の一定期間で音質特性設定を調整すると、現在のモデルがユーザのパーソナライズ音質特性処理ではないことを示しており、現在のモデルに基づいてオンライン学習を継続する必要がある。
前記パーソナライズ音質特性処理モデルM(T=1)から出力された音質特性処理結果に基づいてユーザにフィードバックし(908)、ユーザのフィードバック処理の再実行は、ユーザが満足しないと、新たなフィードバックデータがあり、T=2ロット目の個別ユーザのフィードバックデータを累積する(909)。
前記パーソナライズ音質特性処理モデルM(T=1)は、T=2ロット目の個人ユーザのフィードバックデータにより訓練及び更新され、パーソナライズ音質特性処理モデルM(T=2)が得られる(910)。このように、ユーザがフィードバックしなくなるまで、または比較的長い時間フィードバックしなくなるまで訓練及び更新する。
ユーザの好みは主観的な行動であり量子化が困難であるため、モデルの特徴入力レイヤーでユーザの好みを入力することは困難である。1つの方法は、1人のユーザに対して、このユーザの音質特性調整行動データのみを用いて専用モデルを訓練し、ディープニューラルネットワークは訓練に多くのデータを必要とするが、実際には一度に1人のユーザの多くの行動データを取得してディープニューラルネットワークを訓練することは困難である。よって、他のユーザのデータを使って1つのベースラインモデルを訓練することで、特定のユーザに対して、音量という音質特性を調整するなど、そのユーザの好み的な行動を受信すると、このベースラインモデルをオンライン学習し、ベースラインモデルは広範なユーザのデータから音質特性調整タスクの共通特徴を学習することができる。
上記の図10に示すように、音質特性のベースラインモデルに基づいて音質特性処理結果を出力し、音質特性処理結果に対する個人ユーザのフィードバックデータによりオンライン学習を行い、ベースラインモデルを更新してパーソナライズ音質特性処理モデルを取得する、音質特性のオンライン学習の一般的な方法について説明したものである。一方、前記パーソナライズ音質特性処理モデルは、パーソナライズ音質特性処理結果を出力する。同様に、前記パーソナライズ音質特性処理結果に対する個人ユーザのフィードバックデータにより、オンライン学習を継続的に行って既存のパーソナライズ音質特性処理モデルを更新し、新しいパーソナライズ音質特性処理モデルを取得すると、出力された音質処理結果は、最終的にユーザが受け入れ、フィードバックされなくなるまで、個人ユーザの好みにどんどん近づいている。
実際には、音質パラメータ設定に対するユーザのフィードバックを取得することができる音質特性(音質設定フィードバック可能タイプ、公式(経験)調整可能タイプ、信号領域計算可能タイプ、他のタイプなどを含むが、これらに限定されない)は、いずれもユーザの使用中にフィードバックデータを使用して既存の音質特性処理モデル(ベースラインモデルまたは既存のパーソナライズ音質特性処理モデルを含むが、これらに限定されない)を調整することができる。したがって、音質特性によっては、その音質特性の特徴が異なるため、ベースラインモデルの訓練過程や音質推奨設定の方法が大幅に異なる可能性があるので、詳細には、前述の音質特性のオンライン学習の一般的な方法で説明されている過程とは若干異なる可能性があり、一般的にはある程度簡略化されている可能性がある。
以下、音質特性のタイプごとにオンライン学習の方法をそれぞれ説明する。
1.経験融合タイプの音質特性
図12を参照すると、経験融合タイプの音質特性のオンライン学習は、次の2つの方法を含むが、これらに限定されない。
(1)処理対象のオーディオデータ(例えば、ユーザ好みオーディオリスト)が更新されると、ユーザ好みカテゴリ画像も更新される。このとき、音質特性パラメータ(例えば、スタイル)の融合結果も更新され、音質特性パラメータの推奨結果も現在のユーザの好みに向かっており、この時点では、ベースラインモデルは実際に更新されない。
(2)ユーザはオーディオのカテゴリラベル(スタイルラベルなど)をフィードバックする可能性があり、オーディオデータのスタイルラベル特徴が変更され、ユーザからフィードバックされた好みのスタイルラベルに基づいてベースラインモデルを再訓練し、経験融合タイプの音質特性のパーソナライズ音質特性処理モデルを取得する。
2.人為的損傷タイプの音質特性
損失のあるオーディオデータの効果的な再構成は、通常の聴覚を有するユーザの主観的な感覚を必然的に向上させ、ユーザはこのタイプの音質について一般的な好みを持っていない可能性があるので、オンライン学習の方法は、ユーザの一般的なオーディオフォーマットに基づいてユーザに既存のモデルを推奨するか、またはハイブリッドモデルをカスタマイズする。
一実施形態では、ユーザが128kbpsのMP3音楽をよく聴く場合、システムはユーザのために128kbpsのMP3をflac音質にアップグレードするモデルをダウンロードしたが、ユーザが再生するオーディオフォーマットが変更される可能性があり、例えばwmaになると、オンライン学習の方法は、ユーザの既存のオーディオフォーマットを判断し、ユーザにダウンロードを促すか、または対応する再構築モデルを自動的にダウンロードすることであってもよく、複数のオーディオフォーマットのアップグレードに適したハイブリッドモデルを訓練することであってもよい。このようなハイブリッドモデルは、2つ以上の符号化形式のオーディオの再構成をサポートすることができるものであり、アップグレード品質は単一のフォーマットの入力モデルほどよくない場合があるが、再生装置のストレージスペースを節約するのに一定の利点がある。
3.音質設定フィードバック可能タイプの音質特性
図4を参照すると、音質設定フィードバック可能タイプの音質特性のオンライン学習方法には、以下のことが含まれるが、これに限定されない。
前記音質設定フィードバック可能タイプの音質特性のベースラインモデル及びユーザのフィードバックに基づいて(234)前記ベースラインモデル又は前回のオンライン学習で得られたモデルを訓練及び更新して、音質設定フィードバック可能タイプの音質特性のパーソナライズモデル(233)を形成する。
具体的には、ベースラインモデルまたは前回のオンライン学習で得られたモデルは、ユーザ側またはクラウド側へ導入することを含むが、これらに限定されない。ユーザがオーディオデータを再生すると、ベースラインモデルまたは前回のユーザフィードバック後に訓練されたモデルは、現在のオーディオデータの環境パラメータ情報に基づいて音質特性調整値を出力し、ユーザがこの値に満足していると、モデルは訓練されない。それ以外の場合、ユーザは音質特性を再調整し、この調整値を記録し、一定数に達した場合には既存モデルに入力し、既存モデルに対してオンライン学習を行う。
既存モデルが出力する音質特性設定をユーザが調整し続ける音質特性設定データにより、ユーザが不在になるか、またはモデル設定の修正が少なくなるまで(この場合、前記パーソナライズモデルの訓練が完了したと認められる)、既存モデルを更新し続ける。
4.経験公式調整可能タイプの音質特性
図13を参照すると、経験公式調整可能タイプの音質特性について、ベースラインモデルによって推奨された処理パラメータを使用してオーディオデータを処理するが、ユーザはこのような処理を受け入れる(受け入れられる表現には、複数回の再生、プレイリストへの参加、ダウンロードなどが含まれるが、これらに限定されない)、または受け入れない(受け入れられない表現には、削除、プレイリストからの移転などが含まれるが、これらに限定されない)可能性がある。ユーザが受け入れた場合、モデルを更新する必要はない。逆にユーザが受け入れない場合は、処理パラメータが不適切であることを示す。ここには、オーディオデータが処理向きでないとベースラインモデルが判断した場合、すなわち、処理パラメータが0ベクトルのセットである場合と、ベースラインモデルがオーディオデータを処理し、処理パラメータが変更する場合との2つの状況がある。いずれの場合も、処理パラメータは調整される。調整されたオーディオパラメータと処理パラメータでモデルを更新する。
5.信号領域計算可能タイプの音質特性
信号領域計算可能タイプの音質特性のベースラインモデルは、基本的に単一のユーザ好みデータを用いて訓練されるので、各ユーザのオリジナルオーディオリストのオーディオに基づいて訓練されたモデルのような明らかな大衆的スタイルのベースラインモデルは存在しない。図6および図14を参照すると、オンライン学習の方法では、エンコーダ(511)を用いて、推奨すべきオーディオデータの音質特性特徴コード(512)と個人ユーザが好む音質特性特徴コードセットとの整合度を計算する(513)。整合度が最も高い所定数の推奨すべきオーディオデータを個人ユーザに推奨して(514)、ユーザに1つまたは複数のオーディオデータを推奨する。ユーザは、受け入れる(受け入れられる表現には、複数回の再生、プレイリストへの参加、ダウンロードなどが含まれるが、これらに限定されない)、または受け入れない(受け入れられない表現には、削除、プレイリストからの移転などが含まれるが、これらに限定されない)可能性がある。ユーザが推奨されたオーディオデータを受け入れた場合、そのオーディオデータはユーザが好むオーディオデータと見なされ、そのオーディオデータを個人ユーザが好むオーディオデータに加えることができる(503)。更新された個人ユーザが好むオーディオデータで(503)エンコーダを更新する(511)。すなわち、1回のオンライン学習が完了する。
6.ノイズ雑音タイプの音質特性
ノイズ雑音タイプの音質特性は現れると、普通のユーザは感覚が低下していまい、ユーザが好む音質特性ではなく、一般的にはユーザが嫌う音質特性である。そのため、雑音サンプルを補足し、クラウドエンジンを介してベースラインモデルを更新し、すべてのユーザのためにベースラインモデルを更新する必要がある。オンライン学習の方法には、次のことが含まれるが、これらに限定されない。あるユーザが特定のカテゴリのノイズを特に嫌う、または頻繁に遭遇する場合、ユーザフィードバック情報によって、あるノイズの専用分類器またはノイズ除去器をユーザのためにカスタマイズすることができる。これは、空港で作業するユーザのために空港ノイズのノイズ低減モデルをカスタマイズすることを含むが、これに限定されない。
7.他のタイプの音質特性
他のタイプの音質特性は、上記の図10および図11に示す本発明の実施形態による音質特性のオンライン学習の一般的な方法に適用可能であり、具体的な実施形態は、音質特性の特徴に応じて詳細に変更または簡略化されることがある。
本発明の別の態様によれば、ディープラーニングに基づく音質特性処理のためのシステムが提供される。
図15を参照して、本発明の一実施形態に係るディープラーニングに基づく音質特性処理のシステムについて説明する。図15に示すように、システムは、オーディオ再生端末10と、オンライン学習エンジン11と、クラウドプラットフォーム12と、監視管理プラットフォーム13と、を備える。
オーディオ再生端末10は、オーディオを再生することができ、データを記憶することができ、サーバ側のデバイスと通信することができ、サーバ、PC、タブレット、スピーカー、携帯電話、ヘッドフォンなどのデバイスを含むが、これらに限定されない。オーディオ再生端末10に格納される音質関連データには、ユーザ行動データ、端末機器データ、ユーザオーディオリストデータ、環境ノイズデータ等が含まれるが、これらに限定されない。これらのデータは、ユーザの音質に対する好みを直接又は間接的に反映し、又は影響を与えるものであり、まとめてユーザ好みデータと呼ばれる。
前記オーディオ再生端末10は、以下を含む。
音質特性設定インタフェース101:システムが推奨する音質強化調整設定を受信し、その設定をユーザ側またはユーザがログインするクラウド側に設定し、音質強化調整設定を管理できるためのモジュールである。
ユーザ行動およびデータフィードバックインターフェース102:ユーザ行動およびユーザ側で受け入れられ記憶された関連データをオンライン学習エンジン11にフィードバックするためのモジュールである。
端末機器データモジュール103:音質に関連するモデル訓練に必要なユーザ側の機器パラメータを記憶または取得するためのモジュールである。
ユーザ行動データモジュール104:ユーザが音質特性に設定する行動データ、特に、音量調整、オーディオ削除、オーディオ再生、オーディオダウンロードなど、ユーザの音質好みを直接または間接的に反映することができる行動データを格納するために使用される。
ユーザオーディオリストデータモジュール105:ユーザが好むオーディオのリストを格納するためのものであり、ユーザ側に常駐するオーディオプレイリスト、ユーザが「いいね」をしたオーディオ、ユーザが収集したオーディオデータのパラメータデータを含むが、これらに限定されない。前記パラメータデータには、オーディオ波形、スタイル、タイトル、作者、アルバム等が含まれるが、これらに限定されない。
再生中オーディオデータモジュール106:ユーザが音質設定についてフィードバックする際に再生するオーディオのパラメータを格納するためのものであり、このパラメータは、オーディオ波形、スタイル、タイトル、作者、アルバム等を含むが、これらに限定されない。
環境ノイズデータモジュール107:ユーザが音質設定についてフィードバックする際にマイクロホンが受信した、ノイズ波形、ノイズタイプ等を含むがこれらに限定されない環境音パラメータを記憶するためのものである。
他のパラメータモジュール108:音質に関連し、ユーザ側で受信または記憶することができる他のパラメータを記憶するために使用される。
オンライン学習エンジン11は、ユーザ側から渡されたデータを受信し、データを分析して、ベースラインモデルをオンライン訓練し、ユーザ好みデータを受信し、オンライン学習のモデルに入力して音質推奨結果をフィードバックする。
オンライン学習エンジン11は、以下を含む。
ユーザ端末オンライン学習アルゴリズムライブラリモジュール111:ユーザ側に配備され、受信したユーザ行動およびパラメータフィードバックインタフェースによって伝達されたデータを分析することによってベースラインモデルを更新し、パーソナライズモデルを形成するための軽量な音質強化アルゴリズムを含むことができる。途中および/または訓練完了後に、ユーザ好みデータを受信し、オンライン学習のモデルに入力して音質推奨結果をフィードバックする。
クラウドオンライン学習アルゴリズムライブラリモジュール112:クラウドに配備可能な音質強化アルゴリズムであり、受信したユーザ行動およびパラメータフィードバックインタフェースによって伝達されたユーザ好みデータを分析することによってベースラインモデルを更新し、パーソナライズモデルを形成することができる。途中および/または訓練完了後に、ユーザ好みデータを受信し、オンライン学習のモデルに入力して音質推奨結果をフィードバックする。
ユーザ好みデータ蓄積モジュール113は:受信したユーザ行動とパラメータフィードバックインタフェースから渡されたユーザ好みデータを、クラウドユーザ行動データベースに格納、フィルタリング、除去、アップロードするモジュールである。
前記ユーザ好みデータは、具体的に、以下の表2の分類を含むことができる。
Figure 0007137639000004
クラウドプラットフォーム12は、オーディオデータベース、ユーザ好みデータベースを含み、インターネットオーディオ関連データをマイニングし、これらのデータを利用してベースラインモデルを訓練し、ユーザ好みデータを受信してベースラインモデルに入力し、音質処理結果をフィードバックすることができる。
前記クラウドプラットフォーム12は、以下を含む。
モデル計算エンジン121:クラウド上の各種データを分析し、システムのベースラインモデルを訓練するためのモジュールであり、訓練完了後にユーザ好みデータを受信し、ベースラインモデルに入力して音質推奨結果をフィードバックする。
オーディオデータベースモジュール122:様々なタイプおよびスタイルを広くカバーするオーディオデータを格納するために使用される。
ユーザ行動データベースモジュール123:ユーザ好みデータ蓄積モジュールを含むがこれに限定されない様々な手段を介して、アップロードされたデータ、および収集されたユーザの好みデータを含む。
ネットワークオーディオデータ分析エンジンモジュール124:インターネット上のオーディオ情報をデータマイニングおよび分析することができるモジュールである。そのルートは、音楽ポータルサイト上の音楽のスタイルラベルを取得すること、音楽ポータルサイトによるあるオーディオの類似音楽の推奨リストを取得することなどを含むが、これらに限定されない。マイニングおよび分析の結果は、モデル計算エンジンに提供され、モデル計算が行われる。
監視管理プラットフォーム13は、システム全体のスケジューリング、管理、および監視を担当する。
本発明の実施形態に係るディープラーニングに基づく音質特性処理方法、パーソナライズ音質特性処理方法、およびディープラーニングに基づく音質特性処理のシステムは、従来技術と比較して、以下の有益な効果を有する。
1.ベースラインモデルを訓練して基礎的な音質の強化を実現し、ユーザのオンラインフィードバック情報を利用してベースラインモデルに対してオンライン学習を行い、ユーザの音質のパーソナライズカスタマイズを実現する。
2.分類ラベル特徴抽出とユーザ好み統計方法を采用して、より合理的なマルチカテゴリの汎用音質特性設定融合を実現する。
3.すべてのモデルはいずれもオーディオの時間領域や周波数領域の特徴から主観的な感覚や音質パラメータの設定にマッピングされ、人工的な評価、オーディオタイトルなどのデータを参照する必要がなくて、「オーディオ自身の内容に基づく」オーディオ音質の調節と強化を実現し、人工的な情報に依存しない。この利点は、オーディオ音質の強化を理論的にネットワーク環境から分離できることである。最終的なパーソナライズモデルの訓練が完了すると、モデルに着地したオフラインデバイスも独立して調整することができる。
4.ディープラーニングに基づく損失のあるオーディオフォーマット情報の復元技術を提案する。
5.教師なしディープラーニング方法を採用して、一部の量子化可能な音質特性に対するユーザの好み特徴を学習する。
6.現在は数量化できず、将来にはより詳細に分類される音質特性の強化調節の汎用方案を提出する。
添付図面を参照して本明細書で例示的な実施形態を説明したが、上記の例示的な実施形態は単なる例示であり、本発明の範囲をこれに限定することを意図していないことが理解されるべきである。当業者は、本発明の範囲及び精神から逸脱することなく、様々な変更及び修正を行うことができる。これらすべての変更および修正は、添付の特許請求の範囲において請求される本発明の範囲内に含まれることが意図されている。
当業者は、本明細書に開示された実施形態に関連して説明された様々な例のユニットおよびアルゴリズムステップが、電子ハードウェア、またはコンピュータソフトウェアと電子ハードウェアとの組み合わせで実現され得ることを認識することができる。これらの機能がハードウェア方式で実行されるかソフトウェア方式で実行されるかは、技術方案の特定の適用及び設計制約条件に依存する。専門技術者は、記載された機能を、特定の用途ごとに異なる方法を用いて実現することができるが、そのような実現は、本発明の範囲を超えていると考えるべきではない。
本明細書で提供されるいくつかの実施形態では、開示される装置および方法は、他の形態によって実現されてもよいことが理解されるべきである。例えば、上述した装置の実施形態は単なる概略的なものであり、例えば、ユニットの区分は、単なる論理的な機能区分であり、複数のユニットまたはコンポーネントを別の装置に結合または統合することができ、またはいくつかの特徴を無視または実行しないことができるなど、実際に実現された場合には、追加的な区分があってもよい。
本明細書には、多くの具体的な詳細が記載されている。しかしながら、本発明の実施形態は、これらの具体的な詳細なしに実施されてもよいことを理解されたい。いくつかの例では、本明細書の理解を曖昧にしないために、公知の方法、構造、および技術が詳細に示されていない。
同様に、本発明を合理化し、様々な発明態様の1つまたは複数の理解を容易にするために、本発明の例示的な実施形態の説明において、本発明の様々な特徴は、単一の実施形態、図、またはそれらの説明にまとめられている場合があることが理解されるべきである。しかしながら、本発明の方法は、請求項に係る発明が各請求項に明示的に記載された特徴よりも多くの特徴を請求するという意図を反映したものと解釈されるべきではない。より正確には、対応する特許請求の範囲に反映されているように、その発明の点は、開示されたある単一の実施形態のすべての特徴よりも少ない特徴によって対応する技術的課題を解決することができるという点にある。したがって、個々の請求項自体が本発明の別個の実施形態である特定の実施形態に従う特許請求の範囲は、特定の実施形態を明示的に組み込むことができる。
本明細書(付随する特許請求の範囲、要約、および図面を含む)に開示されたすべての特徴、ならびにそのように開示された任意の方法または装置のすべてのプロセスまたはユニットは、特徴間の相互排除に加えて、任意の組み合わせを使用して組み立てることができることを当業者は理解することができる。特に明記されていない限り、本明細書(付随する特許請求の範囲、要約、および図面を含む)に開示された各特徴は、同一、同等、または類似の目的を提供する代替的な特徴によって置き換えられてもよい。
さらに、本明細書に記載のいくつかの実施形態は、他の実施形態に含まれるいくつかの特徴を含み、他の特徴ではないが、異なる実施形態の特徴の組み合わせは、本発明の範囲内にあり、異なる実施形態を形成することを意味することを当業者は理解することができる。例えば、特許請求の範囲において、請求項に記載されている実施形態のいずれか1つは、任意の組み合わせで使用されてもよい。
本発明の様々な構成要素の実施形態は、ハードウェアで、または1つ以上のプロセッサ上で動作するソフトウェアモジュールで、またはそれらの組み合わせで実現することができる。当業者であれば、本発明の実施形態によるモジュールの一部の機能のいくつかまたはすべては、実際にマイクロプロセッサまたはデジタル信号プロセッサ(DSP)を使用して実現されてもよいことを理解されるべきである。本発明はまた、本明細書に記載された方法の一部または全部を実行するための装置プログラム(例えば、コンピュータプログラムおよびコンピュータプログラム製品)として実現されてもよい。本発明を実現するそのようなプログラムは、コンピュータ可読媒体に記憶されてもよく、または1つまたは複数の信号の形態を有してもよい。そのような信号は、インターネット・ウェブサイトからダウンロードすることができ、キャリア信号上で提供することができ、または他の任意の形態で提供することができる。
なお、上述した実施形態は、本発明を限定するものではなく、本発明を説明しており、当業者は、特許請求の範囲を逸脱することなく、代替の実施形態を設計することができる。請求項において、括弧の間に位置する参照符号は、請求項を限定するように構成されてはならない。「含む」という用語は、請求項に記載されていない要素又はステップの存在を排除するものではない。要素の前にある用語「1つ」または「1個」は、そのような要素が複数存在することを排除するものではない。本発明は、いくつかの異なる要素を含むハードウェアおよび適切にプログラムされたコンピュータによって実施することができる。いくつかの装置が列挙されているユニット請求項において、これらの装置のいくつかは、同じハードウェアアイテムによって具体化されてもよい。第1、第2、第3などの用語の使用は、順序を表すものではない。これらの用語は名前として解釈できる。
上記は、単に本発明の特定の実施形態又は特定の実施形態の説明のためのものであり、本発明の保護範囲はこれに限定されるものではなく、本発明に開示された技術的範囲内で、本技術分野の当業者が容易に変更又は置換を想到することは、本発明の保護範囲内に含まれるものとする。本発明の保護範囲は、請求項の保護範囲に準ずるものとする。

Claims (26)

  1. ディープラーニングに基づく音質特性処理方法であって、
    処理対象のオーディオデータを含むユーザ好みデータに対して特徴抽出を実行して、前記処理対象のオーディオデータのデータ特徴を取得することと、
    前記データ特徴に基づいて、訓練済みのベースラインモデルを用いて前記処理対象のオーディオデータの音質処理結果を生成することと、を含み、
    前記ベースラインモデルは、少なくとも1つのユーザのオーディオデータまたは行動データを用いて訓練されたニューラルネットワークモデルであり、
    前記音質特性は、経験融合タイプ、人為的損傷タイプ、音質設定フィードバック可能タイプ、経験公式調整可能タイプ、信号領域計算可能タイプ、およびノイズ雑音タイプのいずれかを含むことを特徴とするディープラーニングに基づく音質特性処理方法。
  2. ユーザ好みデータは、音質特性に対するユーザの好みを反映したデータを含むことを特徴とする請求項1に記載の音質特性処理方法。
  3. 前記ユーザ好みデータは、ユーザ行動データ、ユーザオーディオリストデータ、再生中のオーディオデータ、環境ノイズデータまたはデバイスデータのうちの少なくとも1つを含むことを特徴とする請求項1に記載の音質特性処理方法。
  4. 前記ベースラインモデルの訓練方法は、
    訓練データに基づいて特徴抽出を行って訓練データのデータ特徴を取得し、前記データ特徴を入力レイヤーとして入力し、前記音質特性を反映できる特徴を出力レイヤーターゲットとして訓練して前記ベースラインモデルを取得すること、または、ユーザ好みデータを特徴抽出し、教師なしディープラーニング法を用いて前記ベースラインモデルを取得することを含むことを特徴とする請求項1に記載の音質特性処理方法。
  5. 前記経験融合タイプの音質特性のベースラインモデルの訓練は、
    オーディオデータベースに基づいて、オーディオデータのカテゴリラベル特徴および前記オーディオデータのデータ特徴を抽出することと、
    前記オーディオデータのデータ特徴を入力レイヤーデータとし、前記カテゴリラベル特徴を出力レイヤーデータとして、経験融合タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含むことを特徴とする請求項に記載の音質特性処理方法。
  6. 前記人為的損傷タイプの音質特性のベースラインモデルの訓練は、
    オーディオデータベース内のオリジナルオーディオデータサンプルに基づいて人為的処理を行って損失のあるオーディオデータサンプルを取得し、前記損失のあるオーディオデータサンプルおよび前記オリジナルオーディオデータサンプルに対してそれぞれ特徴抽出を行って損失のあるオーディオデータ特徴およびオリジナルオーディオデータ特徴を取得することと、
    前記損失のあるオーディオデータ特徴を入力レイヤーデータとし、オリジナルオーディオデータ特徴を出力レイヤーデータとして、人為的損傷タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含むことを特徴とする請求項に記載の音質特性処理方法。
  7. 前記音質設定フィードバック可能タイプの音質特性のベースラインモデルの訓練は、
    大衆ユーザのオーディオデータにおける環境データと、前記環境データに対応する行動データとに基づいて、それぞれ特徴抽出を行い、前記環境データの環境パラメータ特徴と前記行動データの音質特性設定特徴を取得することと、
    前記環境パラメータ特徴を入力レイヤーデータとし、前記音質特性設定特徴を出力レイヤーデータとして、音質設定フィードバック可能タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含むことを特徴とする請求項に記載の音質特性処理方法。
  8. 前記経験公式調整可能タイプの音質特性のベースラインモデルの訓練は、
    オーディオデータベース内のオーディオデータに基づいて特徴抽出を行い、オリジナルデータ特徴を取得することと、
    前記オーディオデータに対して音質特性調整を行い、調整後のオーディオデータに対して特徴を抽出して調整パラメータ特徴を取得し、主観評価実験を通じて前記調整パラメータ特徴を主観評価にマッピングするネットワークモデルを確立し、最適化音質特性調整パラメータを取得することと、
    前記オリジナルデータ特徴を入力レイヤーデータとし、前記最適化音質特性調整パラメータを出力レイヤーデータとして、前記経験公式調整可能タイプの音質特性を取得するためのベースラインモデルを訓練することと、を含むことを特徴とする請求項に記載の音質特性処理方法。
  9. 前記信号領域計算可能タイプの音質特性のベースラインモデルの訓練は、
    オーディオデータベース内のオーディオデータに基づいて特徴抽出を行い、音質特性特徴を取得することと、
    前記音質特性特徴をクラスタリングしてクラスタモデルを取得することと、
    個人ユーザが好むオーディオデータに基づいて特徴抽出を行い、個人ユーザが好む音質特性特徴を取得し、前記クラスタモデルを入力して個人ユーザが好む音質特性分布特徴ベクトルを生成することと、
    前記個人ユーザが好む音質特性分布特徴ベクトルに基づいて、前記信号領域計算可能タイプの音質特性のベースラインモデルとして、教師なしニューラルネットワークモデルを訓練することと、を含むことを特徴とする請求項に記載の音質特性処理方法。
  10. 前記ノイズ雑音タイプの音質特性の分類ベースラインモデルの訓練は、
    オーディオデータベース内の雑音又は正常音のカテゴリラベル特徴を含むオーディオデータに基づいて特徴抽出を行い、データ特徴及びそれに対応するカテゴリラベル特徴を取得することと、
    前記データ特徴とそれに対応するカテゴリラベル特徴とに基づいて、ノイズ雑音タイプの音質特性を取得するための分類ベースラインモデルを訓練することと、を含むことを特徴とする請求項に記載の音質特性処理方法。
  11. 前記音質処理結果を生成することは、
    前記ノイズ雑音タイプの音質特性の分類ベースラインモデルの雑音判別結果に応じて前記処理対象のオーディオデータを処理されることと、前記雑音判別結果がフィルタリング可能な雑音カテゴリに属する場合、訓練済みのノイズ低減ベースラインモデルを用いてノイズ低減されたオーディオデータを取得することと、前記雑音判別結果がフィルタリング不可能な雑音カテゴリに属する場合には、前記処理対象のオーディオデータをユーザに提示するか、または削除させることと、を含むことを特徴とする請求項10に記載の音質特性処理方法。
  12. 前記音質特性は、さらに他のタイプを含み、
    前記他のタイプの音質特性のベースラインモデルの訓練は、
    オーディオデータベースに基づいて、他のタイプの音質特性を直接又は間接的に反映できるオーディオデータを取得することと、
    前記他のタイプの音質特性を反映したオーディオデータに基づいて特徴抽出を行い、他のタイプの音質特性特徴抽出モデルを形成し、他のタイプの音質特性特徴を取得することと、
    前記他のタイプの音質特性特徴を入力レイヤーとし、前記他のタイプの音質特性特徴を主観的に評価されたネットワークモデルにマッピングすることによって取得する主観的な感覚評価を出力レイヤーとするか、又は前記他のタイプの音質特性に対する個人ユーザの好み特徴に基づいて、他のタイプの音質特性を生成するためのベースラインモデルを訓練することと、を含むことを特徴とする請求項に記載の音質特性処理方法。
  13. 個人ユーザ好みデータをリアルタイムで抽出することと、
    音質特性のベースラインモデルに基づいて、前記個人ユーザ好みデータをオンライン学習し、パーソナライズ音質特性処理モデルを取得するように訓練することと、
    前記パーソナライズ音質特性処理モデルを用いて、パーソナライズされた音質特性処理結果を生成することと、を含み、
    前記ベースラインモデルは、少なくとも1つのユーザのオーディオデータまたは行動データを用いて訓練されたニューラルネットワークモデルであることを特徴とするディープラーニングに基づくオーディオ音質パーソナライズ処理方法。
  14. 前記個人ユーザ好みデータは、音質特性に対するユーザの好みを反映したデータを含むことを特徴とする請求項13に記載のオーディオ音質パーソナライズ処理方法。
  15. 前記個人ユーザ好みデータは、ユーザ行動データ、ユーザオーディオリストデータ、再生中のオーディオデータ、環境ノイズデータ、およびデバイスデータのうちの少なくとも1つを含むことを特徴とする請求項13に記載のオーディオ音質パーソナライズ処理方法。
  16. 前記ベースラインモデルの訓練方法は、
    訓練データに基づいて特徴抽出を行って訓練データのデータ特徴を取得し、前記データ特徴を入力レイヤーとして入力し、前記音質特性を反映できる特徴を出力レイヤーターゲットとして訓練して前記ベースラインモデルを取得すること、または、
    ユーザ好みデータを特徴抽出し、教師なしディープラーニング法を用いて前記ベースラインモデルを取得することを含むことを特徴とする請求項13に記載のオーディオ音質パーソナライズ処理方法。
  17. オンライン学習方法は、
    前記ベースラインモデルに基づいて音質特性処理結果を出力し、個人ユーザによる音質特性処理結果のフィードバックデータにより前記ベースラインモデルを更新してパーソナライズ音質特性処理モデルを取得すること、および/または
    前記パーソナライズ音質特性処理結果に対する個人ユーザのフィードバックデータを学習し、既存のパーソナライズ音質特性処理モデルを更新して更新されたパーソナライズ音質特性処理モデルを取得することを含むことを特徴とする請求項13に記載のオーディオ音質パーソナライズ処理方法。
  18. 前記オンライン学習は、ユーザ行動データにおける個人ユーザフィードバック行動の回数が所定の値まで蓄積された場合、前記個人ユーザ好みデータに基づいて前記ベースラインモデルまたは既存のパーソナライズオーディオ音質モデルを再学習することをさらに含むことを特徴とする請求項17に記載のオーディオ音質パーソナライズ処理方法。
  19. 前記音質特性は、経験融合タイプ、人為的損傷タイプ、音質設定フィードバック可能タイプ、経験公式調整可能タイプ、信号領域計算可能タイプ、およびノイズ雑音タイプを含むことを特徴とする請求項13に記載のオーディオ音質パーソナライズ処理方法。
  20. 前記経験融合タイプの音質特性のオンライン学習方法は、
    前記ユーザ好みデータにおけるユーザ好みリストが更新されると、音質特性パラメータの融合結果が更新されるが、このときベースラインモデルは更新されないこと、および/または
    ユーザからフィードバックされた前記音質特性のデータ特徴が変化した場合、ユーザからフィードバックされた音質特性のデータ特徴に基づいてベースラインモデルを再訓練し、経験融合タイプの音質特性のパーソナライズ音質特性処理モデルを取得することを含むことを特徴とする請求項19に記載のオーディオ音質パーソナライズ処理方法。
  21. 前記人為的損傷タイプの音質特性のオンライン学習方法は、前記ユーザ好みデータにおけるオーディオデータのオーディオフォーマットを判断し、ユーザにダウンロードを促すこと、または対応するベースラインモデルを自動的にダウンロードすることと、ダウンロードされた前記ベースラインモデルに基づいて、複数のオーディオフォーマットのプロモーションに適したハイブリッドモデルを訓練し、人為的損傷タイプの音質特性のパーソナライズ音質特性処理モデルを取得することと、を含むことを特徴とする請求項19に記載のオーディオ音質パーソナライズ処理方法。
  22. 前記音質設定フィードバック可能タイプの音質特性のオンライン学習方法は、
    ベースラインモデルまたは既存のパーソナライズ音質特性処理モデルが、現在のオーディオデータの環境パラメータ情報に基づいて音質特性処理結果を出力し、出力された前記音質特性処理結果に伴うユーザのフィードバック訓練に応じて前記ベースラインモデルまたは既存のパーソナライズ音質特性処理モデルを更新して、音質設定フィードバック可能タイプの音質特性のパーソナライズモデルを形成することを含むことを特徴とする請求項19に記載のオーディオ音質パーソナライズ処理方法。
  23. 前記経験公式調整可能タイプの音質特性のオンライン学習方法は、
    ベースラインモデル又は既存のパーソナライズ音質特性処理モデルによって出力された処理パラメータを用いて、処理対象のオーディオデータを処理し、ユーザが受け入れた場合に、前記ベースラインモデル又は既存のパーソナライズ音質特性処理モデルを更新する必要がなく、逆に、ユーザが受け入れず、出力された前記処理パラメータを調整すると、ベースラインモデルまたは既存のパーソナライズ音質特性処理モデルを、調整されたオーディオデータおよび処理パラメータで更新することを含むことを特徴とする請求項19に記載のオーディオ音質パーソナライズ処理方法。
  24. 前記信号領域計算可能タイプの音質特性のオンライン学習方法は、
    エンコーダを用いて、推奨される前記オーディオデータの音質特性特徴コードと個人ユーザが好む音質特性特徴コードセットとの整合度を計算し、前記整合度が最も高い所定数の推奨すべきオーディオデータを個人ユーザに推奨して、ユーザに1つ以上のオーディオデータを推奨し、ユーザが推奨されたオーディオデータを受け入れた場合、当該オーディオデータをユーザが好むオーディオデータとみなすことができ、当該オーディオデータを個人ユーザが好むオーディオデータに加えることと、更新された個人ユーザが好むオーディオデータでエンコーダを更新することと、を含むことを特徴とする請求項19に記載のオーディオ音質パーソナライズ処理方法。
  25. 前記ノイズ雑音タイプの音質特性のオンライン学習方法は、ユーザが特定のタイプのノイズを嫌う場合、ユーザフィードバック情報によって、そのタイプのノイズのための専用の分類器またはノイズ除去器をユーザにカスタマイズすることを含むことを特徴とする請求項19に記載のオーディオ音質パーソナライズ処理方法。
  26. オーディオ再生端末、クラウドプラットフォーム、およびオンライン学習モジュールを含むディープラーニングに基づくオーディオ音質パーソナライゼーションシステムであって、
    前記オーディオ再生端末は、ユーザ好みデータを記憶するためのものであり、
    前記クラウドプラットフォームは、広範な大衆または単一ユーザのオーディオデータ、行動データおよびその他の関連データを用いて訓練されたニューラルネットワークモデルであるベースラインモデルを形成するためのものであり、
    前記オンライン学習モジュールは、前記ユーザ好みデータを受信し、前記ベースラインモデルをオンライン学習して、パーソナライズオーディオ音質モデルを形成することを特徴とするオーディオ音質パーソナライゼーションシステム。
JP2020567946A 2018-06-05 2019-06-03 ディープラーニングに基づく音質特性処理方法及びシステム Active JP7137639B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810583119.4 2018-06-05
CN201810583119.4A CN109147804A (zh) 2018-06-05 2018-06-05 一种基于深度学习的音质特性处理方法及系统
PCT/CN2019/089755 WO2019233358A1 (zh) 2018-06-05 2019-06-03 一种基于深度学习的音质特性处理方法及系统

Publications (2)

Publication Number Publication Date
JP2021525493A JP2021525493A (ja) 2021-09-24
JP7137639B2 true JP7137639B2 (ja) 2022-09-14

Family

ID=64802006

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020567946A Active JP7137639B2 (ja) 2018-06-05 2019-06-03 ディープラーニングに基づく音質特性処理方法及びシステム

Country Status (5)

Country Link
US (2) US11462237B2 (ja)
EP (1) EP3816998A4 (ja)
JP (1) JP7137639B2 (ja)
CN (1) CN109147804A (ja)
WO (1) WO2019233358A1 (ja)

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113903346A (zh) * 2018-06-05 2022-01-07 安克创新科技股份有限公司 一种基于深度学习的音域平衡方法、装置及系统
CN109147804A (zh) 2018-06-05 2019-01-04 安克创新科技股份有限公司 一种基于深度学习的音质特性处理方法及系统
CN109147805B (zh) * 2018-06-05 2021-03-02 安克创新科技股份有限公司 基于深度学习的音频音质增强
CN109785850A (zh) * 2019-01-18 2019-05-21 腾讯音乐娱乐科技(深圳)有限公司 一种噪声检测方法、装置和存储介质
CN111918174B (zh) * 2019-05-08 2022-04-01 阿里巴巴集团控股有限公司 音量增益平衡的方法、设备、电子设备及交通工具
CN110047514B (zh) * 2019-05-30 2021-05-28 腾讯音乐娱乐科技(深圳)有限公司 一种伴奏纯净度评估方法以及相关设备
CN112201247B (zh) * 2019-07-08 2024-05-03 北京地平线机器人技术研发有限公司 语音增强方法和装置、电子设备和存储介质
CN110580914A (zh) * 2019-07-24 2019-12-17 安克创新科技股份有限公司 一种音频处理方法、设备及具有存储功能的装置
CN110797038B (zh) * 2019-10-30 2020-11-06 腾讯科技(深圳)有限公司 音频处理方法、装置、计算机设备及存储介质
CN111027675B (zh) * 2019-11-22 2023-03-07 南京大学 一种多媒体播放设置自动调节方法及系统
CN111292722B (zh) * 2019-12-13 2023-08-15 中国科学院深圳先进技术研究院 异步联合架构的模型训练方法、终端、服务器及存储装置
CN111199750B (zh) * 2019-12-18 2022-10-28 北京葡萄智学科技有限公司 一种发音评测方法、装置、电子设备及存储介质
CN111652735A (zh) * 2020-04-17 2020-09-11 世纪保众(北京)网络科技有限公司 基于用户行为标签特征及商品特征的保险产品推荐的方法
US20210350819A1 (en) * 2020-05-07 2021-11-11 Netflix, Inc. Techniques for training a multitask learning model to assess perceived audio quality
CN111783996B (zh) * 2020-06-18 2023-08-25 杭州海康威视数字技术股份有限公司 一种数据处理方法、装置及设备
CN113938805B (zh) * 2020-07-14 2024-04-23 广州汽车集团股份有限公司 一种低音音质的量化方法及装置
CN113949955B (zh) * 2020-07-16 2024-04-09 Oppo广东移动通信有限公司 降噪处理方法、装置、电子设备、耳机及存储介质
CN112069598A (zh) * 2020-08-26 2020-12-11 广州汽车集团股份有限公司 一种车内扬声器布置位置确定方法、装置及车辆
CN112118485B (zh) * 2020-09-22 2022-07-08 英华达(上海)科技有限公司 音量自适应调整方法、系统、设备及存储介质
CN112185421B (zh) * 2020-09-29 2023-11-21 北京达佳互联信息技术有限公司 音质检测方法、装置、电子设备及存储介质
GB2599928A (en) * 2020-10-14 2022-04-20 Sony Interactive Entertainment Inc Apparatus and method for audio data analysis
US11948598B2 (en) * 2020-10-22 2024-04-02 Gracenote, Inc. Methods and apparatus to determine audio quality
CN112333596A (zh) * 2020-11-05 2021-02-05 江苏紫米电子技术有限公司 一种耳机均衡器的调整方法、装置、服务器及介质
CN112466315A (zh) * 2020-12-02 2021-03-09 公安部第三研究所 一种音视频的高码率获取方法
CN112632318A (zh) * 2020-12-24 2021-04-09 安克创新科技股份有限公司 一种音频推荐方法、装置、系统及存储介质
CN113343047A (zh) * 2021-06-18 2021-09-03 北京百度网讯科技有限公司 数据处理方法、数据检索方法及装置
US11689666B2 (en) 2021-06-23 2023-06-27 Cisco Technology, Inc. Proactive audio optimization for conferences
CN113993026A (zh) * 2021-10-19 2022-01-28 江苏米笛声学科技有限公司 耳机svm机器学习自适应调节方法
KR20240048363A (ko) * 2022-10-06 2024-04-15 삼성전자주식회사 전자 장치 및 그 제어 방법
CN115376501B (zh) * 2022-10-26 2023-02-14 深圳市北科瑞讯信息技术有限公司 语音增强方法及装置、存储介质、电子设备
CN115662464B (zh) * 2022-12-29 2023-06-27 广州市云景信息科技有限公司 一种智能识别环境噪声的方法及系统
CN116825123A (zh) * 2023-06-19 2023-09-29 广东保伦电子股份有限公司 一种基于音频推送的音质优化方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017054121A (ja) 2015-09-09 2017-03-16 三星電子株式会社Samsung Electronics Co.,Ltd. 音響調節装置及び方法と、ジャンル認識モデル学習装置及び方法
JP2018005048A (ja) 2016-07-05 2018-01-11 クリムゾンテクノロジー株式会社 声質変換システム
JP2018028580A (ja) 2016-08-16 2018-02-22 日本電信電話株式会社 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム
JP2018031967A (ja) 2016-08-26 2018-03-01 日本電信電話株式会社 音源強調装置、その方法、及びプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6539395B1 (en) * 2000-03-22 2003-03-25 Mood Logic, Inc. Method for creating a database for comparing music
FR2835125B1 (fr) * 2002-01-24 2004-06-18 Telediffusion De France Tdf Procede d'evaluation d'un signal audio numerique
JP2010192995A (ja) 2009-02-16 2010-09-02 Kenwood Corp 音響機器
CN102654860B (zh) 2011-03-01 2015-05-06 北京彩云在线技术开发有限公司 一种个性化音乐推荐方法及系统
CN102682761A (zh) * 2011-03-12 2012-09-19 谢津 个性化的声音处理系统和设备
CN103186527B (zh) * 2011-12-27 2017-04-26 北京百度网讯科技有限公司 建立音乐分类模型的系统、推荐音乐的系统及相应方法
CN103037100B (zh) * 2012-12-21 2015-02-18 广东欧珀移动通信有限公司 一种适用于智能手机的智能切换eq音效的方法
US9978388B2 (en) * 2014-09-12 2018-05-22 Knowles Electronics, Llc Systems and methods for restoration of speech components
US20160149547A1 (en) * 2014-11-20 2016-05-26 Intel Corporation Automated audio adjustment
JP6587401B2 (ja) 2015-03-23 2019-10-09 パイオニア株式会社 音質調整装置及び音質調整方法
US10460247B2 (en) 2015-12-08 2019-10-29 Adobe Inc. Attribute weighting for media content-based recommendation
CN106098081B (zh) * 2016-06-01 2020-11-27 腾讯科技(深圳)有限公司 声音文件的音质识别方法及装置
CN107274883B (zh) * 2017-07-04 2020-06-02 清华大学 语音信号重构方法及装置
US10838686B2 (en) * 2017-07-13 2020-11-17 Josh Kovacevic Artificial intelligence to enhance a listening experience
KR102465970B1 (ko) * 2017-08-11 2022-11-10 삼성전자주식회사 주변 상황에 기초하여 음악을 재생하는 방법 및 장치
CN107564538A (zh) * 2017-09-18 2018-01-09 武汉大学 一种实时语音通信的清晰度增强方法及系统
CN109147804A (zh) * 2018-06-05 2019-01-04 安克创新科技股份有限公司 一种基于深度学习的音质特性处理方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2017054121A (ja) 2015-09-09 2017-03-16 三星電子株式会社Samsung Electronics Co.,Ltd. 音響調節装置及び方法と、ジャンル認識モデル学習装置及び方法
JP2018005048A (ja) 2016-07-05 2018-01-11 クリムゾンテクノロジー株式会社 声質変換システム
JP2018028580A (ja) 2016-08-16 2018-02-22 日本電信電話株式会社 音源強調学習装置、音源強調装置、音源強調学習方法、プログラム
JP2018031967A (ja) 2016-08-26 2018-03-01 日本電信電話株式会社 音源強調装置、その方法、及びプログラム

Also Published As

Publication number Publication date
WO2019233358A1 (zh) 2019-12-12
EP3816998A1 (en) 2021-05-05
US11462237B2 (en) 2022-10-04
US20210264938A1 (en) 2021-08-26
US20230056955A1 (en) 2023-02-23
EP3816998A4 (en) 2022-03-30
JP2021525493A (ja) 2021-09-24
US11790934B2 (en) 2023-10-17
CN109147804A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
JP7137639B2 (ja) ディープラーニングに基づく音質特性処理方法及びシステム
JP7136932B2 (ja) ディープラーニングに基づく音域バランシング方法、装置及びシステム
US11837208B2 (en) Audio processing techniques for semantic audio recognition and report generation
CN110019931B (zh) 音频分类方法、装置、智能设备和存储介质
JP6876752B2 (ja) 応答方法及び装置
Kotsakis et al. Investigation of broadcast-audio semantic analysis scenarios employing radio-programme-adaptive pattern classification
Nalini et al. Music emotion recognition: The combined evidence of MFCC and residual phase
US11842721B2 (en) Systems and methods for generating synthesized speech responses to voice inputs by training a neural network model based on the voice input prosodic metrics and training voice inputs
CN108549675B (zh) 一种基于大数据及神经网络的钢琴教学方法
WO2019137392A1 (zh) 文件分类处理方法、装置及终端、服务器、存储介质
WO2019233361A1 (zh) 对音乐进行音量调节的方法及设备
CN106302987A (zh) 一种音频推荐方法及设备
Haque et al. An analysis of content-based classification of audio signals using a fuzzy c-means algorithm
Phan et al. Multi-view audio and music classification
Foucard et al. Multi-scale temporal fusion by boosting for music classification.
Jiménez et al. An automatic approach of audio feature engineering for the extraction, analysis and selection of descriptors
CN112632318A (zh) 一种音频推荐方法、装置、系统及存储介质
EP4297832A1 (fr) Dispositif et procédé de modification d'un état émotionnel d'un utilisateur
CN111061909B (zh) 一种伴奏分类方法和装置
Iriz González et al. CONEqNet: convolutional music equalizer network
Tzacheva et al. Music information retrieval with temporal features and timbre
Joseph Fernandez Comparison of Deep Learning and Machine Learning in Music Genre Categorization
Liang Research on Vocal Recommendation Algorithm Based on Data Mining Technology
CN116386592A (zh) 音频模板的生成方法、服务器及存储介质
CN116312462A (zh) 语音合成方法、预测网络训练方法、服务器和存储介质

Legal Events

Date Code Title Description
A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20201204

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20201204

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220415

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220823

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220902

R150 Certificate of patent or registration of utility model

Ref document number: 7137639

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150