JP7136932B2 - ディープラーニングに基づく音域バランシング方法、装置及びシステム - Google Patents

ディープラーニングに基づく音域バランシング方法、装置及びシステム Download PDF

Info

Publication number
JP7136932B2
JP7136932B2 JP2020567945A JP2020567945A JP7136932B2 JP 7136932 B2 JP7136932 B2 JP 7136932B2 JP 2020567945 A JP2020567945 A JP 2020567945A JP 2020567945 A JP2020567945 A JP 2020567945A JP 7136932 B2 JP7136932 B2 JP 7136932B2
Authority
JP
Japan
Prior art keywords
user
features
range balancing
music
range
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
JP2020567945A
Other languages
English (en)
Other versions
JP2021525992A (ja
Inventor
青山 姚
宇 秦
浩文 喩
峰 盧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anker Innovations Co Ltd
Original Assignee
Anker Innovations Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anker Innovations Co Ltd filed Critical Anker Innovations Co Ltd
Publication of JP2021525992A publication Critical patent/JP2021525992A/ja
Application granted granted Critical
Publication of JP7136932B2 publication Critical patent/JP7136932B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/12Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/46Volume control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/036Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/095Identification code, e.g. ISWC for musical works; Identification dataset
    • G10H2240/101User identification
    • G10H2240/105User profile, i.e. data about the user, e.g. for user settings or user preferences
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Description

本発明は、音声技術の分野に関し、より具体的には、音質調整方法及び装置に関する。
音質は、オーディオ品質に対する人間の主観的な評価であり、音質に対する好みは人によって異なる。例えば、異なる周波数帯の音声に対する好みについて、低音が急上昇する音楽が好きな人もいれば、中高周波数ひいては耳障りな音声が好きな人もいれば、中周波数帯のクリアな人間の声が好きな人もいる。
オーディオ再生機器のベンダーであろうとオーディオポータルプラットフォームであろうと、音質を向上及び強化することは、ユーザのオーディオ体験を向上させる最も直接的な方法の1つである。音質の音域バランシングとは、人の耳に知覚可能な音声の周波数領域の範囲内の周波数区間、例えば人の耳に知覚可能な音声の高、中、低の周波数領域のスペクトルを一定の程度に強化又は減衰させることにより、異なる周波数帯の音声に対する人々の好みを満たすことを指す。現在、一般的な調整方法は、EQ(イコライザー;Equalizer)曲線を設定することであり、EQ曲線の各点は1つの周波数点又は周波数帯に対する強化又は減衰の倍数を表しており、一部の再生端末や再生ソフトウェアは再生端末のEQイコライザーのパラメータを調整することによって音質を向上させる機能を提供している。現在、EQイコライザーの調整方法は2つある。1つの方法は、ユーザ自体が調整することである。例えば、一連のイコライザーを与え、ユーザが手動で設定を選択することである。この方法では、特定の音楽自体の特性又はユーザの好み対する自己適応音質調整を実現できない。もう1つの方法は、音楽のタイトルや、作者等のラベル特徴を分析することによって、ユーザの好みをある種類又は数種類のスタイルに近づけ、その種類のスタイルに既存の業界共通のEQ設定を利用してユーザに推奨することである。
しかし、1つの音楽が対応するラベルを取得できない場合、1つの音楽のスタイルが複数のカテゴリに属する可能性がある場合、音楽に異なるスタイルの段落が存在する場合、又は、ユーザの音楽リストが私たちが知らないスタイルに属する場合には、EQイコライザーの設定を行うことができない。従って、従来技術におけるEQイコライザーの調整は、対応する音楽ラベルに依存しており、パーソナライズのニーズを満たすことができない。
本発明は、上記の問題を考慮して提案されたものである。
本発明は、ディープニューラルネットワークと教師なしディープラーニングに基づいて、分類ラベルなし音楽とスタイル不明音楽の音域バランシング問題を解決し、ユーザ好みに対する統計と組み合わせて、より合理的なマルチカテゴリ音域バランシング設計を実現し、パーソナライズのニーズを満たすディープラーニングに基づく音域バランシング方法、装置、システム及びコンピュータ記憶媒体を提供する。
本発明の一態様によれば、ディープラーニングに基づく音域バランシング方法を提供しており、オーディオデータに対して特徴抽出を実行してオーディオデータ特徴を取得することと、前記オーディオデータ特徴に基づいて、訓練済みの音域バランシングモデルを利用して、音域バランシング結果を生成することと、を含むことを特徴とする。
好ましくは、前記音域バランシングモジュールは、音楽データベースとユーザ好み音楽リストに基づいて、教師ありディープラーニング方法を用いてユーザが好む音楽のタイプをリアルタイムで評価して取得したオンライン音域バランシングモデルを含む。
好ましくは、前記音域バランシングモジュールは、ユーザ好み音楽リストに基づいて、ユーザ好み音楽自体に対する特徴抽出を行い、教師なしディープラーニング方法を用いて取得したオフライン音域バランシングモデルを含む。
好ましくは、前記音域バランシングモデルを訓練することは、
音楽データベースに基づいて音楽データのカテゴリラベル特徴及び前記音楽データのデータ特徴を抽出することと、
前記音楽データのデータ特徴を入力レイヤーデータとし、前記カテゴリラベル特徴を出力レイヤーデータとして訓練して音域バランシングモデルを取得することと、
ユーザ好み音楽データに対して特徴抽出を実行してデータ特徴を取得し、入力データとして前記音域バランシングモデルに入力して、前記ユーザ好み音楽データのカテゴリラベル特徴を取得することと、
前記ユーザ好み音楽データのカテゴリラベル特徴を前記ユーザ好み音楽データのカテゴリラベルに復元して、ユーザ好みカテゴリ画像を形成することと、
前記ユーザ好みカテゴリ画像に従って対応するカテゴリの音域バランシングパラメータと融合して、ユーザの音域バランシング等化結果を取得することと、を含む。
ただし、前記対応するカテゴリ音域バランシングパラメータは、従来技術における異なるタイプのオーディオ特点の音質特性を反映できるパラメータであり、EQイコライザーのパラメータを含むが、これに限定されない。
好ましくは、前記ユーザ好みカテゴリ画像は、各カテゴリオーディオデータが占める割合又は重みを含む各カテゴリオーディオデータに対するユーザの好み度を反映する。
好ましくは、前記音域バランシングモデルを訓練することは、
音楽データベースにおける大衆ユーザ好みに基づく音楽を訓練セットとして、特徴抽出して前記音楽データベースの音楽データ特徴を取得することと、
前記音楽データ特徴を可視層として入力し、1つの制限付きボルツマンマシンRBMを訓練することと、
前記訓練済みの制限付きボルツマンマシンRBMに基づいて、前記訓練セットの音楽データ特徴を制限付きボルツマンマシンRBMの可視層に入力して、隠れ層特徴を取得することと、
前記隠れ層特徴を既に訓練済みのクラスタモデルに入力して分類し、平均隠れ層特徴を生成することと、
前記平均隠れ層特徴及び前記制限付きボルツマンマシンRBMに基づいて逆演算して、音楽データベースの平均音楽データ特徴を取得することと、
ユーザ好み音楽リストにおける音楽に基づいて特徴抽出を実行し、抽出されたユーザ好み音楽特徴を可視層として入力し、1つのユーザ好み制限付きボルツマンマシンRBMを訓練することと、を含む。
好ましくは、前記訓練済みのユーザ好み制限付きボルツマンマシンRBMに基づいて、前記ユーザ好み音楽特徴をRBMの可視層に入力して、ユーザ好み隠れ層特徴を取得することと、
前記ユーザ好み隠れ層特徴を前記クラスタモデルに入力して分類し、ユーザ好み平均隠れ層特徴を生成することと、
前記ユーザ好み平均隠れ層特徴及びユーザ好み制限付きボルツマンマシンRBMに基づいて逆演算して、ユーザ好み平均音楽特徴を取得することと、
前記ユーザ好み平均音楽特徴と前記音楽データベースの平均音楽特徴に従ってユーザのオフライン音域バランシング等化結果を取得することと、含む。
好ましくは、前記オーディオデータ特徴は、時間領域又は周波数領域の特徴を含む。
好ましくは、前記オーディオデータ特徴を抽出することは、前記オーディオデータをフレーム化した後に特徴抽出を実行することを含む。
好ましくは、前記オーディオデータ特徴を抽出する方法は、FFT、STFT、MFCC、1フレーム以上の時間領域波形又は人工的に設計された他の特徴における少なくとも1つを含む。
好ましくは、前記訓練済みの音域バランシングモデルは、オンライン音域バランシングモデル及び/又はオフライン音域バランシングモデルを含む。
本発明の他の態様によれば、特徴抽出モジュール及び音域バランシングモジュールを含むディープラーニングに基づく音域バランシング装置を提供しており、
前記特徴抽出モジュールは、オーディオデータベースにおけるデータ又はユーザ好みデータを取得し、特徴抽出を実行して前記オーディオデータベースにおけるデータ又はユーザ好みデータの特徴を取得するために使用され、
前記音域バランシングモジュールは、前記特徴抽出モジュールが抽出した前記オーディオデータ特徴に基づいて、訓練済みの音域バランシングモデルを利用して、音域バランシング結果を生成するために使用されることを特徴とする。
好ましくは、前記音域バランシングモジュールは、オンライン音域バランシングモジュール及び/又はオフライン音域バランシングモジュールをさらに含み、
前記オンライン音域バランシングモジュールは、音楽データベースとユーザ好み音楽リストに基づいて、教師ありディープラーニング方法を用いてユーザが好む音楽のタイプをリアルタイムで評価してオンライン音域バランシングモデルを取得し、既存の音楽スタイルのイコライザーを組み合わせてユーザのオンライン音域バランシング等化結果を取得するために使用され、
前記オフライン音域バランシングモジュールは、ユーザ好み音楽リストに基づいて、ユーザ好み音楽自体に対する特徴抽出を行い、教師なしディープラーニング方法を用いてオフライン音域バランシングモデルを取得し、ユーザのオフライン音域バランシング等化結果を生成するために使用される。
本発明のまた他の態様によれば、記憶装置及びプロセッサを備えるディープラーニングに基づく音域バランシングシステムを提供しており、前記記憶装置には前記プロセッサにより実行されるコンピュータプログラムが記憶され、前記コンピュータプログラムは前記プロセッサにより実行される場合、本発明のディープラーニングに基づく音域バランシング方法を実行する。
本発明のさらに他の態様によれば、記憶媒体を提供しており、前記記憶媒体にはプログラム命令が記憶され、前記プログラム命令は、コンピュータ又はプロセッサにより実行される場合、本発明のディープラーニングに基づく音域バランシング方法の対応ステップを実行し、本発明の実施例によるディープラーニングに基づく音域バランシング装置における対応モジュールを実現するために使用される。
本発明のさらに他の態様によれば、コンピュータプログラムを提供しており、前記コンピュータプログラムは、コンピュータ又はプロセッサにより実行される場合、上記のいずれか一項に記載のディープラーニングに基づく音域バランシング方法を実行するために使用され、前記コンピュータプログラムは上記のいずれか一項に記載のディープラーニングに基づく音域バランシング装置における各モジュールを実現するためにも使用される。
添付図面に関連して本発明の実施例をより詳細に説明することにより、本発明の上記および他の目的、特徴、および利点がより明らかになるであろう。添付図面は、本発明の実施例の更なる理解を提供するために使用され、本発明の実施例と共に本発明を説明するために使用される明細書の一部を構成するものであり、本発明を限定するものではない。添付図面において、同じ参照符号は、通常、同じ構成要素またはステップを表す。
本発明の実施例によるディープラーニングに基づく音域バランシング方法、装置、システム、記憶媒体、及びコンピュータプログラムを実現するための例である電子機器の模式的ブロック図である。 本発明の実施例による音域バランシング方法を実現するための模式的フロチャートである。 本発明の実施例によるディープラーニングに基づく音域バランシング方法の模式的原理図である。 本発明の実施例によるユーザ好み累算器の模式的原理図である。 本発明の実施例による前記オンラインスタイル融合EQイコライザー設計システムを形成する模式的原理図である。 本発明の実施例による音楽データのカテゴリラベル特徴抽出の過程の模式的原理図である。 本発明の実施例による音楽データのスタイルラベル特徴をスタイルラベルに復元させる過程の模式的原理図である。 本発明の実施例によるユーザ好みカテゴリ画像を形成する過程の模式的原理図である。 本発明の実施例によるユーザ好みカテゴリ画像の模式的原理図である。 本発明の実施例によるオンラインEQ等化結果の模式的原理図である。 本発明の実施例によるオフラインEQ等化システムを形成する模式的原理図である。 本発明の実施例による制限付きボルツマンマシンの原理的模式図である。 本発明の実施例によるディープラーニングに基づく音域バランシング装置の模式的ブロック図である。 本発明の実施例によるディープラーニングに基づく音域バランシングシステムの模式的ブロック図である。
本発明の目的、技術的手段、及び利点をより明確するために、以下、図面を参照して本発明に係る実施例を詳細に説明する。明らかに、記載された実施例は本発明の一部の実施例に過ぎず、本発明の全ての実施例ではなく、本発明は本明細書に記載された例示的な実施例によって限定されないことが理解されるべきである。
まず、図1を参照しながら本発明の実施例によるディープラーニングに基づく音域バランシング方法、装置、システム、記憶媒体、及びコンピュータプログラムを実現するための例である電子機器100を説明する。
図1に示すように、電子機器100は、1つ又は複数のプロセッサ102と、1つ又は複数の記憶装置104と、入力装置106と、出力装置108とを備え、これらの構成要素はバスシステム110及び/又は他の形態の接続機構(図示せず)を介して相互接続される。なお、図1に示す電子機器100の構成要素及び構造は単なる例示であり、限定的なものではなく、必要に応じて、前記電子機器は他の構成要素及び構造を有してもよい。
前記プロセッサ102は、中央処理ユニット(CPU)又はデータ処理能力及び/又は命令実行能力を有する他の形態の処理ユニットであってもよく、所望の機能を実行するように前記電子機器100における他の構成要素を制御することができる。
前記記憶装置104は、1つ又は複数のコンピュータプログラム製品を含むことができ、前記コンピュータプログラム製品は、例えば、揮発性メモリ及び/又は不揮発性メモリのような様々な形態のコンピュータ可読記憶媒体を含むことができる。前記揮発性メモリとして、例えば、ランダムアクセスメモリ(RAM)及び/又はキャッシュメモリ(cache)等を含むことができる。前記不揮発性メモリとして、例えば、読み取り専用メモリ(ROM)、ハードディスク、フラッシュメモリ等を含むことができる。前記コンピュータ可読記憶媒体に1つ又は複数のコンピュータプログラム命令を格納することができ、プロセッサ102は前記プログラム命令を実行して以下に説明する本発明の実施例(プロセッサにより実現される)におけるクライアント機能及び/又は他の所望の機能を実現することができる。前記コンピュータ可読記憶媒体には、様々なアプリケーションプログラム及び様々なデータ、例えば、前記アプリケーションプログラムによって使用及び/又は生成された様々なデータ等も格納することができる。
前記入力装置106は、命令を入力するためにユーザによって使用される装置であってもよく、キーボード、マウス、マイクロホン、タッチスクリーン等のうちの1つ又は複数を含むことができる。
前記出力装置108は、外部(例えばユーザ)に様々な情報(例えば画像又は音声)を出力することができ、ディスプレイやスピーカ等のうちの1つ又は複数を含むことができる。
好ましくは、本発明の実施例によるディープラーニングに基づくオーディオ音質強化方法、装置、システム、記憶媒体、及びコンピュータプログラムを実現するための例である電子機器は、スマートフォン、タブレット等の端末によって実現されてもよい。
本発明の一態様によれば、ディープラーニングに基づく音域バランシング方法を提供しており、前記方法は、
オーディオデータに対して特徴抽出を実行してオーディオデータ特徴を取得することと、
前記データ特徴に基づいて、訓練済みの音域バランシングモデルを利用して、処理対象のオーディオデータの音域バランシング結果を生成することと、を含む。
ここで、前記音域バランシングは、EQ調整を含むが、これに限定されない。
以下、音楽のEQ調整を例として、図2乃至図12を参照しながら本発明の実施例によるディープラーニングに基づく音域バランシング方法を説明する。
図2に示すように、ディープラーニングに基づく音域バランシング方法は、
音楽に対するユーザの好みデータを抽出する(10)ステップと、
ディープラーニングを利用してユーザの音域バランシングモデルを訓練する(20)ステップと、
音楽再生対象の時間領域及び/又は周波数領域の特徴を抽出する(30)ステップと、
ディープラーニングによって確立したユーザの音域バランシングモデルを利用して推奨する音楽再生対象の音域バランシング方案を算出する(40)ステップと、
前記音域バランシング方案を出力し、音楽再生対象の音響効果を調整する(50)ステップと、を含んでもよい。
ここで、好みデータは、ユーザの音楽再生リスト、行動等を含むが、これらに限定されない。音楽再生対象の時間領域及び/又は周波数領域の特徴を抽出するステップは、前記音楽再生対象をフレーム化した後に特徴を抽出するステップを含むが、これに限定されない。
さらに、図3に示すように、ディープラーニングに基づく音域バランシング方法は、
音楽データベースとユーザ好み音楽リストに基づいて、教師ありディープラーニング方法を用いてユーザが好む音楽のタイプを評価して(S1)、オンライン音域バランシングモデルを取得するステップと、対応する音楽スタイルのイコライザーを組み合わせてユーザのオンライン音域等化結果を取得するステップ(S2)、又は、
ユーザ好み音楽リストに基づいて、ユーザ好み音楽自体に対する特徴抽出を行い、教師なしディープラーニング方法を用いてオフライン音域バランシングモデルを取得するステップ(S4)と、ユーザのオフライン音域等化結果を生成するステップ(S5)と、
ユーザ好み音楽累算器によって前記ユーザ好み音楽リストが提供されるステップ(S3)と、を含んでもよい。
ここで、ステップS1とS2を総称して「オンラインスタイル融合音域イコライザー設計システム」と呼び、ステップS4、S5を総称して「オフラインパーソナライズ音域イコライザー設計システム」と呼ぶ。前者は訓練時に音楽に対するオンラインユーザのスタイルタイプラベル付けを使用する必要があるため、「オンラインスタイル融合音域イコライザー設計システム」と呼ばれ、後者は訓練時にオンラインユーザのラベル付けが不要で、音楽波形だけが必要であるため、「オフラインパーソナライズ音域イコライザー設計システム」と呼ばれる。
前記対応する音楽スタイルのイコライザーとは、従来技術における異なる音楽スタイルの特点を反映できる音域イコライザーのパラメータを指す。
さらに、前記ユーザ好み音楽累算器は、ユーザ行動を分析することでユーザ好み音楽リストを取得する。ユーザ好み音楽を取得し、各音楽に対するユーザの嗜好値(例えば、1つの音楽に対するユーザのフィードバック(音楽の再生回数、「いいね」回数等を含むが、これらに限定されない。)を蓄積して、再生や「いいね」のような正のフィードバックは当該音楽の重みを増加させ、その逆の場合、重みの数値を負の方向に変化させる)を評価し、次にユーザ好み音楽リストを形成して、ユーザとコミュニケーションがある音楽とその重みを一覧表示することを含むが、これに限定されない。
一実施例では、図4を参照すると、ユーザとデータベースにおける音楽に基づくコミュニケーション統計行列300は、音楽の削除、再生、ダウンロード等のユーザ行動の回数によって形成されるコミュニケーション統計行列を含むが、これに限定されない。
前記コミュニケーション統計行列300を分析し、行動の回数及び行動のスコアから各音楽に対するユーザの好み度を算出する(301)。異なる行動は1曲の音楽に対するユーザの異なる好み傾向を反映しており、再生やダウンロードのような正方向の行動は正の傾向と見なされ、正の点数が得られる。逆に、削除のような行動は負の傾向と見なされ、負の点数が得られる。行動のスコアを行動回数の重み付けとし、1曲の音楽に対するユーザの全ての行動回数をトラバースし、重み付け及び加算した後の結果302は、音楽に対するユーザの好み、即ち、ユーザ好み音楽リストと見なすことができる。
オーディオデータベース内のオーディオデータは、ユーザまたは他の手段によってカテゴリラベルが付けられている。カテゴリラベルは、「ジャズ」、「クラシック」等を含むが、これらに限定されない。また、1つのオーディオデータは複数のカテゴリラベルに対応しなければならない。オーディオデータのカテゴリラベルを正規化して、各カテゴリに対応するオーディオデータの確率ベクトルを取得し、このベクトルを特徴付ける。当該方法は、行列分解、因子分解機、単語ベクトル化などを含むが、これらに限定されない。音楽波形の時間周波数領域の特徴を入力として使用し、カテゴリラベル特徴ベクトルを出力として使用して、ディープニューラルネットワークを訓練する。ユーザがカテゴリラベルなしのオーディオデータまたはラベルが不完全であるオーディオデータを好む場合に、特徴抽出方法および訓練によって得られたディープニューラルネットワークを用いて、このオーディオデータのオーディオ波形をカテゴリラベル特徴ベクトルにマッピングする。カテゴリラベル特徴ベクトルに基づいて、既存の音質特性パラメータを融合して設計し、ユーザにフィードバックする。
さらに、図5に示すように、前記オンラインスタイル融合EQイコライザー設計システムを形成することは、次のステップを含む。
音楽データベースに基づいて音楽データのカテゴリラベル特徴(S12)及び前記音楽データのデータ特徴(S11)を抽出する。
ここで、前記カテゴリラベル特徴を抽出する方法には、行列分解、因子分解機、単語ベクトル化などの方法が含まれるが、これらに限定されない。前記オーディオデータのデータ特徴は、オーディオ波形中の明らかなカテゴリ特徴部分を有する特徴を含むが、これらに限定されない。前記データ特徴の抽出方法としては、fft(Fast Fourier Transformation)、mfcc(Mel-Frequency Cepstral Coefficient)等を含むが、これらに限定されない。
一実施例では、音楽データのカテゴリラベル特徴の抽出プロセスについて、行列分解を例として説明する。図6を参照すると、大衆ユーザは、異なる音楽のカテゴリラベル(例えば、スタイルラベル)をラベル付けしてラベル付け行列120を形成し、ラベル付け行列120中のデータはラベル付けされた回数を表す。12人のユーザが音楽「私の祖国」を「民楽」カテゴリとしてラベル付けした場合、ラベル付け行列120中の行が「私の祖国」であり、列が「民楽」であるデータは12である。ラベル付け行列120の各行は、音楽の「スタイルラベル」と呼ばれる。
オリジナルのラベル付け行列120の各行は、明らかにスパースなベクトルであり、音楽のスタイルラベルのように、いくつかの座標が正の数であり、他は0であるのが正常であるが、すべての座標が正の数である場合はほとんどない。つまり、ほとんどの音楽は、いくつかのスタイルにのみ対応すべきであり、さらには1つのスタイルにのみ対応すべきである。したがって、このラベル付け行列120は非常にスパースであり、各音楽のスタイル特徴をより密にし、類似音楽間の特徴の関連度をよりよく反映できるようにスタイルラベル特徴を抽出する必要がある。
ラベル付け行列120を分解し、得られた分解結果はスタイルラベル特徴行列121と重み行列122である。このうち、スタイルラベル特徴行列121の各行は、音楽のスタイルラベル特徴であり、スタイルラベルという疎ベクトルの圧縮と見なすことができ、類似音楽のスタイルラベル特徴の間には比較的高い類似度があり、例えば、「私の祖国」と「十送紅軍」の特徴の余弦相関度は、「私の祖国」と「七里香」より明らかに高い。重み行列122の各列は1つの音楽スタイルに対応し、1列の数値はその音楽スタイルを特徴付けており、スタイルラベル特徴行列121のスタイルラベル特徴の各要素に対して重み付ける。スタイルラベル特徴行列121と重み行列122とを乗算した結果は、オリジナルのラベル付け行列を近似的に復元したものである。
前記音楽データのデータ特徴を入力レイヤーデータとし、前記カテゴリラベル特徴を出力レイヤーデータとして訓練してオンライン音域バランシングモデルを取得する(S13)。
ユーザ好み音楽データに対して特徴抽出を実行してデータ特徴を取得し、入力データとして前記オンライン音域バランシングモデルに入力して、前記ユーザ好み音楽データのカテゴリラベル特徴を取得する(S14)。
一実施例では、1曲のユーザが好む音楽を取得し、その音楽波形から抽出された特徴を入力として、ニューラルネットワークモデルを用いて演算すると、出力結果はこの曲の音楽に対するスタイル特徴ベクトルであるカテゴリラベル特徴である。ユーザの音楽の異なる時間領域帯について、異なるスタイル特徴が出力されることがあり、最終的なスタイル特徴推定結果を取得する方法には、各時間帯の出力の平均、または他の融合方法(投票など)が含まれるが、これらに限定されない。最終の音楽は1つのスタイル特徴ベクトルを出力する。
前記ユーザ好み音楽データのカテゴリラベル特徴を前記ユーザ好み音楽データのカテゴリラベルに復元し(S21)、前記処理対象のオーディオデータのカテゴリラベルに基づいてユーザ好みカテゴリ画像を形成する。
一実施例では、音楽データのスタイルラベル特徴をスタイルラベルに復元するプロセスについて、行列分解を例として説明する。図7を参照すると、前記ディープニューラルネットワークモデルが出力する特徴ベクトルは音楽データのスタイルラベル特徴200であり、重み行列201(すなわち、スタイルラベル特徴の抽出における重み行列122)が乗算されて、当該音楽データの可能なスタイルラベル202が復元される。ここで説明したいのは、先に因子分解機のような他のスタイルラベル特徴抽出手法を採用した場合、スタイルラベルを復元する手法は特徴抽出手法に対応すべきであるということである。
一実施例では、ユーザ好みカテゴリ画像を形成するプロセスについて、行列分解を例として説明する。図8を参照すると、前述のユーザ好み音楽累算器(S3)から得られる各曲に対するユーザの好み度の行列220、及び前記ユーザ好み音楽データのカテゴリラベル(S21)から得られるユーザの各曲のスタイル分布行列221に基づいて、これらの2つの行列220及び221によって各スタイルに対するユーザの好み度を計算して得ることができる。例えば、行列220では、AがM*1の行列であり、Mが音楽の数を表し、行列221では、BがM*Nの行列であり、Nがスタイルを表している。行列Aと行列Bに基づいてユーザスタイルラベルにユーザスコア重み付けを実行する。例えば、行列Aの各行の数値と行列Bの各行の数値とを乗算して行列C(i,j)=A(i)*B(i,j)となる行列223を取得し、行列Cの列を加算してユーザスタイル好み行列225を取得し、Pと記述する。
Figure 0007136932000001
(ただし、i、j、k、M、Nはいずれも自然数である)
前記ユーザスタイル好み行列225からユーザ好みカテゴリ画像を取得することは、円グラフを含むが、これに限定されない。図9を参照すると、負の点数のカテゴリは無視されてもよい。
前記ユーザ好みカテゴリ画像に従って対応するカテゴリのEQ曲線と融合して(S23)、ユーザのオンラインEQ等化結果を取得する。
ここで、前記ユーザ好みカテゴリ画像は、各カテゴリのオーディオデータに対するユーザの好み度を反映したものであり、各カテゴリのオーディオデータが占める割合や重みを反映したグラフ(例えば、棒グラフや円グラフ)を含むが、これらに限定されない。一実施例では、ユーザが頻繁にクリックする音楽の音楽ラベル特徴は、ロックスタイルの座標上で最大の数値を有し、画像は、ロックがユーザの主な好みであることを示し得るため、画像に占めるロックカテゴリの割合が大きい。一実施例では、図10を参照すると、各カテゴリのEQ曲線が既知であり、前記ユーザ好みカテゴリ画像における各カテゴリが占める重みに基づいて、組み合わせてユーザのオンラインEQ等化結果、即ちパーソナライズEQを取得する。
前記ユーザのオンラインEQ等化結果をユーザに送信する(S24)。
さらに、前記オフラインスタイル融合EQイコライザー設計システムは、教師なしディープラーニング方法によって1組のユーザ好み音楽のEQ設定を学習する。音楽データベース内の大衆ユーザ好みの各種の音楽から均一に幾つかを抽出して訓練サンプルとし、各フレームの周波数領域特徴を抽出して可視層として制限付きボルツマンマシンを訓練する。各音楽のボルツマンマシンの出力を加重平均し、ボルツマンマシンを逆演算させて得られる可視層を「音楽平均周波数領域特徴」とする。ユーザ音楽リストが一定の規模まで蓄積されると、選択リストからユーザ嗜好値の高い音楽を選択し、各フレームの周波数領域特徴を抽出して可視層としてボルツマンマシンを訓練する。各音楽のボルツマンマシンの出力を加重平均し、ボルツマンマシンを逆演算させて得られる可視層を「ユーザが好む音楽平均周波数領域特徴」とする。
図11に示すように、前記オフラインスタイル融合EQイコライザー設計システムを形成することは、以下のステップを含むことができる。
音楽データベース内の大衆ユーザが好む各種の音楽に基づいて均一に幾つかを抽出して訓練セットとし、特徴抽出を実行して前記音楽データベースの音楽データ特徴を取得する(S40)。
ここで、前記音楽データ特徴は、時間領域及び/又は周波数領域の特徴(振幅スペクトル及び/又は位相情報など)を含むが、これらに限定されない。
前記音楽データ特徴を可視層として入力し、制限付きボルツマンマシン(RBM)を訓練する(S41)。
一実施例では、図12を参照すると、時間周波数領域の特徴400のような音楽データ特徴を可視層として入力し、ニューラルネットワークの順方向演算によって隠れ層データ401を取得し、RBMネットワークは双方向伝送ネットワークであり、隠れ層データ402は同じ接続重みで1回逆方向のニューラルネットワークの順方向演算が行われ、可視層の推定値403が得られる。一般に、この推定値は元の入力の音楽データ特徴400と誤差があり、誤差が訓練して設定された許容可能な誤差よりも小さくなるまで、この誤差に従ってネットワークの重みが調整される。
前記訓練済みのRBMに基づいて、前記訓練セットの音楽データ特徴をRBMの可視層に入力して隠れ層特徴を取得し、前記隠れ層特徴を既に訓練済みのクラスタモデルに入力して分類し(S44)、平均隠れ層特徴を生成する(S42)。
ここで、前記訓練済みのクラスタモデルは、高い好み値に基づく音楽データ特徴を入力として、Nクラス(Nは自然数)が得られるクラスタリング機を訓練する(S43)。
前記平均隠れ層特徴を生成することは、前記クラスタモデルのクラスタリング結果に応じて前記隠れ層特徴を加重平均して平均隠れ層特徴になることを含む。
一実施例では、M個のサンプルがあると仮定すると、M個の隠れ層特徴が出力され、
M個の隠れ層特徴をクラスタリング結果に従って加重平均する。例えば、N個のクラスがあり、各クラスのサンプルの数はQ(k)であり(k=1,2……N)、
クラスタリング結果を加重平均した後に得られるベクトルは全てのスタイルの音楽の平均隠れ層特徴(音楽データベースの特徴スペクトルを含むが、これに限定されない)と見なすことができる。
前記平均隠れ層特徴及び前記RBMに基づいて1回の逆演算を行い、音楽データベースの平均音楽データ特徴を取得する(S45)。
ここで、前記平均音楽データ特徴は、全てのスタイルの音楽の平均音楽データ特徴と見なすことができる。
ユーザ好み音楽リストにおける音楽に基づいて特徴抽出を実行し(S46)、抽出されたユーザ好み音楽特徴を可視層として入力し、1つのユーザ好み制限付きボルツマンマシンを訓練する(S47)。
ここで、前記ユーザ好み制限付きボルツマンマシン(ユーザ好みRBM)の訓練方法は、前述のS41の方法と類似である。前記ユーザ好み音楽特徴は、時間領域及び/又は周波数領域の特徴を含むが、これらに限定されない。
前記訓練済みのユーザ好みRBMに基づいて、前記ユーザ好み音楽特徴をRBMの可視層に入力して、ユーザ好み隠れ層特徴を取得し、前記ユーザ好み隠れ層特徴を前記クラスタモデルに入力して分類し、ユーザ好み平均隠れ層特徴を生成する(S48)。
ここで、前記クラスタモデルは、前述のS43で訓練済みのクラスタモデルであり、前記ユーザ好み隠れ層特徴が入力されてユーザの音楽特徴のクラス分布が統計される。
前記ユーザ好み平均隠れ層特徴を生成する方法は、前述のS42の方法に類似であり、クラスタモデルのクラスタリング結果に応じて前記ユーザ好み隠れ層特徴を加重平均して、ユーザ好み平均隠れ層特徴が得られる。
前記ユーザ好み平均隠れ層特徴及び前記RBMに基づいて1回の逆演算を行って、ユーザ好み平均音楽特徴を取得する(S49)。
前記ユーザ好み平均音楽特徴と前記音楽データベースの平均音楽特徴に従ってユーザが好むEQ等化設定を取得する(S50)。
ここで、前記ユーザが好むEQ等化設定を取得することは、EQ調整モデルによって、調整モデルが前記2つの特徴の比較及び計算によりユーザが好むEQ等化設定を取得することを含むが、これに限定されない。
一実施例では、EQ調整モデルはEQ調整機であり、前記EQ調整機は、ユーザ好み音楽平均音楽特徴に基づいて音楽データベースの平均音楽特徴と比較し、音楽データベースの平均音楽特徴が音楽の普遍的な特性を反映しているため、ユーザ好み音楽平均音楽特徴はユーザの好み特性(例えば、時間スペクトルでユーザ好み特徴が音楽データベースの特徴から明らかに乖離する領域がユーザが好む部分であるべきである)を反映し、EQ調整機はこの部分の乖離傾向に応じてEQ曲線を強化又は減衰させた後に最終的なEQ曲線を出力すると、ユーザが好むEQ等化設定が取得される。
以上では例示的に本発明の実施例によるディープラーニングに基づく音域バランシング方法を説明した。好ましくは、本発明の実施例によるディープラーニングに基づく音域バランシング方法は、メモリ及びプロセッサを有する機器、装置又はシステムにおいて実現さればよい。
また、本発明の実施例によるディープラーニングに基づく音域バランシング方法は、スマートフォン、タブレット、パーソナルコンピュータ、スピーカ等のモバイル機器に容易に配置することができる。代替的に、本発明の実施例によるディープラーニングに基づく音域バランシング方法は、サーバ側(又はクラウド側)にも配置することができる。代替的に、本発明の実施例によるディープラーニングに基づく音域バランシング方法は、サーバ側(又はクラウド側)パーソナル端末に分散配置されてもよい。
本発明の他の態様によれば、ディープラーニングに基づく音域バランシング装置を提供する。図13を参照すると、図13は、本発明の実施例によるディープラーニングに基づく音域バランシング装置500の模式的ブロック図を示している。
ディープラーニングに基づく音域バランシング装置500は、特徴抽出モジュール510と音域バランシングモジュール520とを備える。各モジュールは前述したディープラーニングに基づく音域バランシング方法の各ステップ/機能をそれぞれ実行することができる。以下、ディープラーニングに基づく音域バランシング装置500の各モジュールの主な機能のみを説明し、以上で既に説明した詳細な内容は省略する。
特徴抽出モジュール510は、オーディオデータベースにおけるデータ又はユーザ好みデータを取得し、特徴抽出を実行して前記オーディオデータベースにおけるデータ又はユーザ好みデータの特徴を取得するために使用される。音域バランシングモジュール520は、前記特徴抽出モジュールが抽出した損失のあるオーディオデータの特徴に基づいて、訓練済みの音域バランシングモデルを利用して、音域バランシング結果を生成するために使用される。特徴抽出モジュール510と音域バランシングモジュール520は、いずれも図1に示す電子機器におけるプロセッサ102が記憶装置104に記憶されているプログラム命令を実行することで実現することができる。
好ましくは、前記音域バランシングモジュール520は、オンライン音域バランシングモジュール521及び/又はオフライン音域バランシングモジュール522をさらに含み、前記オンライン音域バランシングモジュール521は、音楽データベースとユーザ好み音楽リストに基づいて、教師ありディープラーニング方法を用いてユーザが好む音楽のタイプをリアルタイムで評価してオンライン音域バランシングモデルを取得し、既存の音楽スタイルのイコライザーを組み合わせてユーザのオンライン音域等化結果を取得するために使用される。前記オフライン音域バランシングモジュール522は、ユーザ好み音楽リストに基づいて、ユーザ好み音楽自体に対する特徴抽出を行い、教師なしディープラーニング方法を用いてオフライン音域バランシングモデルを取得し、ユーザのオフライン音域等化結果を生成するために使用される。
本発明の他の態様によれば、ディープラーニングに基づく音域バランシング装置を提供する。図14を参照すると、図14は、本発明の実施例によるディープラーニングに基づく音域バランシングシステム600の模式的ブロック図を示している。
ディープラーニングに基づく音域バランシングシステム600は、記憶装置610及びプロセッサ620を備える。また、記憶装置610は、本発明の実施例によるディープラーニングに基づく音域バランシング方法における対応ステップを実現するためのプログラムを記憶している。プロセッサ620は、記憶装置610に記憶されているプログラムを実行して、本発明の実施例によるディープラーニングに基づく音域バランシング方法の対応ステップを実行し、本発明の実施例によるディープラーニングに基づく音域バランシング装置における対応モジュールを実現するために使用される。
本発明の他の態様によれば、記憶媒体も提供しており、前記記憶媒体にはプログラム命令が記憶され、前記プログラム命令は、コンピュータ又はプロセッサにより実行される場合、本発明の実施例によるディープラーニングに基づく音域バランシング方法の対応ステップを実行し、本発明の実施例によるディープラーニングに基づく音域バランシング装置における対応モジュールを実現するために使用される。前記記憶媒体は、例えば、スマートフォンのメモリカード、タブレットの記憶コンポーネント、パーソナルコンピュータのハードディスク、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、ポータブルコンパクトディスク読み取り専用メモリ(CD-ROM)、USBメモリ、又は上記記憶媒体の任意の組み合わせであってもよい。前記コンピュータ可読記憶媒体は、1つ又は複数のコンピュータ可読記憶媒体の任意の組み合わせであってもよい。
一実施例では、前記コンピュータプログラム命令は、コンピュータにより実行される場合、本発明の実施例によるディープラーニングに基づく音域バランシング装置の各機能モジュールを実現することができ、及び/又は本発明の実施例によるディープラーニングに基づく音域バランシング方法を実行することができる。
本発明の実施例によるディープラーニングに基づく音域バランシング装置における各モジュールは、本発明の実施例によるディープラーニングに基づく音域バランシングの電子機器のプロセッサによってメモリに記憶されているコンピュータプログラム命令を実行することで実現されることができ、又は本発明の実施例によるコンピュータプログラム製品のコンピュータ可読記憶媒体に記憶されたコンピュータ命令がコンピュータにより実行される場合に実現されることができる。
また、本発明の実施例によれば、コンピュータプログラムも提供しており、当該コンピュータプログラムはクラウド又はローカルの記憶媒体に記憶されてもよい。当該コンピュータプログラムは、コンピュータ又はプロセッサによって実行される場合、本発明の実施例によるディープラーニングに基づく音域バランシング方法の対応ステップを実行し、本発明の実施例によるディープラーニングに基づく音域バランシング装置における対応モジュールを実現するために使用される。
要約すると、本発明は、ディープニューラルネットワークと教師なしディープラーニングに基づいて、分類ラベルなし音楽とスタイル不明音楽の音域バランシング問題を解決し、ユーザ好みに対する統計と組み合わせて、より合理的なマルチカテゴリ音域バランシング設計を実現し、パーソナライズのニーズを満たすディープラーニングに基づく音域バランシング方法、装置、システム及びコンピュータ記憶媒体を提供する。
添付図面を参照して本明細書で例示的な実施例を説明したが、上記の例示的な実施例は単なる例示であり、本発明の範囲をこれに限定することを意図していないことが理解されるべきである。当業者は、本発明の範囲及び精神から逸脱することなく、様々な変更及び修正を行うことができる。これらすべての変更および修正は、添付の特許請求の範囲において請求される本発明の範囲内に含まれることが意図されている。
当業者は、本明細書に開示された実施例に関連して説明された様々な例のユニットやアルゴリズムステップが電子ハードウェア又はコンピュータソフトウェアと電子ハードウェアとの組み合わせによって実施され得ることを理解するであろう。これらの機能が、ハードウェアで実行されるか又はソフトウェアで実行されるかは、技術的解決策の特定のアプリケーション及び設計の制約に依存する。専門技術者は、特定のアプリケーションごとに異なる方法を使用して、説明した機能を実現することができるが、このような実現は本発明の範囲を超えると見なされるべきではない。
本明細書で提供されるいくつかの実施例では、開示される装置および方法は、他の形態によって実現されてもよいことが理解されるべきである。例えば、上述した装置の実施例は単なる概略的なものであり、例えば、ユニットの区分は、単なる論理的な機能区分であり、複数のユニットまたはコンポーネントを別の装置に結合または統合することができ、またはいくつかの特徴を無視または実行しないことができるなど、実際に実現された場合には、追加的な区分があってもよい。
本明細書には、多くの具体的な詳細が記載されている。しかしながら、本発明の実施例は、これらの具体的な詳細なしに実施されてもよいことを理解されたい。いくつかの例では、本明細書の理解を曖昧にしないために、公知の方法、構造、および技術が詳細に示されていない。
同様に、本発明を合理化し、様々な発明態様の1つまたは複数の理解を容易にするために、本発明の例示的な実施例の説明において、本発明の様々な特徴は、単一の実施例、図、またはそれらの説明にまとめられている場合があることが理解されるべきである。しかしながら、本発明の方法は、請求項に係る発明が各請求項に明示的に記載された特徴よりも多くの特徴を請求するという意図を反映したものと解釈されるべきではない。より正確には、対応する特許請求の範囲に反映されているように、その発明の点は、開示されたある単一の実施例のすべての特徴よりも少ない特徴によって対応する技術的課題を解決することができるという点にある。したがって、個々の請求項自体が本発明の別個の実施例である特定の実施形態に従う特許請求の範囲は、特定の実施形態を明示的に組み込むことができる。
本明細書(付随する特許請求の範囲、要約、および図面を含む)に開示されたすべての特徴、ならびにそのように開示された任意の方法または装置のすべてのプロセスまたはユニットは、特徴間の相互排除に加えて、任意の組み合わせを使用して組み立てることができることを当業者は理解することができる。特に明記されていない限り、本明細書(付随する特許請求の範囲、要約、および図面を含む)に開示された各特徴は、同一、同等、または類似の目的を提供する代替的な特徴によって置き換えられてもよい。
さらに、本明細書に記載のいくつかの実施例は、他の実施例に含まれるいくつかの特徴を含み、他の特徴ではないが、異なる実施例の特徴の組み合わせは、本発明の範囲内にあり、異なる実施例を形成することを意味することを当業者は理解することができる。例えば、特許請求の範囲において、請求項に記載されている実施例のいずれか1つは、任意の組み合わせで使用されてもよい。
本発明の様々な構成要素の実施例は、ハードウェアで、または1つ以上のプロセッサ上で動作するソフトウェアモジュールで、またはそれらの組み合わせで実現することができる。当業者であれば、本発明の実施例による物品分析装置の幾つかのモジュールの一部の機能のいくつかまたはすべては、実際にマイクロプロセッサまたはデジタル信号プロセッサ(DSP)を使用して実現されてもよいことを理解されるべきである。本発明はまた、本明細書に記載された方法の一部または全部を実行するための装置プログラム(例えば、コンピュータプログラムおよびコンピュータプログラム製品)として実現されてもよい。本発明を実現するそのようなプログラムは、コンピュータ可読媒体に記憶されてもよく、または1つまたは複数の信号の形態を有してもよい。そのような信号は、インターネット・ウェブサイトからダウンロードすることができ、キャリア信号上で提供することができ、または他の任意の形態で提供することができる。
なお、上述した実施例は、本発明を限定するものではなく、本発明を説明しており、当業者は、特許請求の範囲を逸脱することなく、代替の実施例を設計することができる。
請求項において、括弧の間に位置する参照符号は、請求項を限定するように構成されてはならない。「含む」という用語は、請求項に記載されていない要素又はステップの存在を排除するものではない。要素の前にある用語「1つ」または「1個」は、そのような要素が複数存在することを排除するものではない。本発明は、いくつかの異なる要素を含むハードウェアおよび適切にプログラムされたコンピュータによって実施することができる。いくつかの装置が列挙されているユニット請求項において、これらの装置のいくつかは、同じハードウェアアイテムによって具体化されてもよい。第1、第2、第3などの用語の使用は、順序を表すものではない。これらの用語は名前として解釈できる。
上記は、単に本発明の特定の実施形態又は特定の実施形態の説明のためのものであり、本発明の保護範囲はこれに限定されるものではなく、本発明に開示された技術的範囲内で、本技術分野の当業者が容易に変更又は置換を想到することは、本発明の保護範囲内に含まれるものとする。本発明の保護範囲は、請求項の保護範囲に準ずるものとする。

Claims (13)

  1. ディープラーニングに基づく音域バランシング方法において、
    オーディオデータに対して特徴抽出を実行してオーディオデータ特徴を取得することと、
    前記オーディオデータ特徴に基づいて、訓練済みの音域バランシングモデルを利用して、音域バランシング結果を生成することと、を含み、
    前記音域バランシングモデルは、音楽データベースとユーザ好み音楽リストに基づいて、教師ありディープラーニング方法を用いてユーザが好む音楽のタイプを評価して取得した音域バランシングモデル、及び/又はユーザ好み音楽リストに基づいて、ユーザ好み音楽自体に対する特徴抽出を行い、教師なしディープラーニング方法を用いて取得した音域バランシングモデルを含むことを特徴とするディープラーニングに基づく音域バランシング方法。
  2. 前記音域バランシングモデルを訓練する方法は、音楽データベースに基づいて音楽データのカテゴリラベル特徴及び前記音楽データのデータ特徴を抽出することと、
    前記音楽データのデータ特徴を入力レイヤーデータとし、前記カテゴリラベル特徴を出力レイヤーデータとして訓練して音域バランシングモデルを取得することと、を含むことを特徴とする請求項1に記載の音域バランシング方法。
  3. 前記音域バランシング結果を生成することは、
    ユーザ好みオーディオデータに対して特徴抽出を実行して好みデータ特徴を取得すると共に、入力データとして前記音域バランシングモデルに入力し、前記ユーザ好みオーディオデータのカテゴリラベル特徴を取得することと、
    前記ユーザ好みオーディオデータのカテゴリラベル特徴を前記ユーザ好みオーディオデータのカテゴリラベルに復元して、ユーザ好みカテゴリ画像を形成することと、
    前記ユーザ好みカテゴリ画像に従って対応するカテゴリの音域バランシングパラメータと融合して、ユーザのオンライン音域バランシング結果を取得することと、を含むことを特徴とする請求項に記載の音域バランシング方法。
  4. 前記ユーザ好みカテゴリ画像は、各カテゴリオーディオデータが占める割合又は重みを含む各カテゴリオーディオデータに対するユーザの好み度を反映することを特徴とする請求項に記載の音域バランシング方法。
  5. 前記音域バランシングモデルを訓練する方法は、
    オーディオデータベースにおける大衆ユーザの好み基づくオーディオを訓練セットとして、特徴抽出して前記音楽データベースのオーディオデータ特徴を取得することと、
    前記オーディオデータ特徴を可視層として入力し、1つの制限付きボルツマンマシンRBMを訓練することと、
    前記訓練済みの制限付きボルツマンマシンRBMに基づいて、前記訓練セットのオーディオデータ特徴を制限付きボルツマンマシンRBMの可視層に入力して、隠れ層特徴を取得することと、
    前記隠れ層特徴を既に訓練済みのクラスタモデルに入力して分類し、平均隠れ層特徴を生成することと、
    前記平均隠れ層特徴及び前記制限付きボルツマンマシンRBMに基づいて逆演算して、オーディオデータベースの平均オーディオデータ特徴を取得することと、
    ユーザ好み音楽リストにおけるオーディオに基づいて特徴抽出を実行し、抽出されたユーザ好みオーディオ特徴を可視層として入力し、1つのユーザ好み制限付きボルツマンマシンRBMを訓練することと、を含むことを特徴とする請求項に記載の音域バランシング方法。
  6. 前記音域バランシング結果を生成することは、
    前記訓練済みのユーザ好み制限付きボルツマンマシンRBMに基づいて、前記ユーザ好み音楽特徴をRBMの可視層に入力して、ユーザ好み隠れ層特徴を取得することと、
    前記ユーザ好み隠れ層特徴を前記クラスタモデルに入力して分類し、ユーザ好み平均隠れ層特徴を生成することと、
    前記ユーザ好み平均隠れ層特徴及びユーザ好み制限付きボルツマンマシンRBMに基づいて逆演算して、ユーザ好み平均オーディオ特徴を取得することと、
    前記ユーザ好み平均オーディオ特徴と前記音楽データベースの平均オーディオ特徴に従ってユーザの音域バランシング等化結果を取得することと、を含むことを特徴とする請求項に記載の音域バランシング方法。
  7. 前記音域バランシング結果を生成することは、前記ユーザ好み平均オーディオ特徴と前記音楽データベースの平均オーディオ特徴に従って比較し、両者の乖離傾向に基づいて音域バランシングを強化又は減衰させ、最終的な音域バランシング結果を取得することをさらに含むことを特徴とする請求項に記載の音域バランシング方法。
  8. 前記オーディオデータ特徴を抽出することは、前記オーディオデータをフレーム化した後に特徴抽出を実行することを含むことを特徴とする請求項1に記載の音域バランシング方法。
  9. 前記オーディオデータ特徴を抽出する方法は、FFT、STFT、MFCC、又は1フレーム以上の時間領域波形特徴における少なくとも1つを含むことを特徴とする請求項1に記載の音域バランシング方法。
  10. 前記オーディオデータ特徴を抽出することは、時間領域又は周波数領域の特徴を含むことを特徴とする請求項1に記載の音域バランシング方法。
  11. 前記訓練済みの音域バランシングモデルは、オンライン音域バランシングモデル及び/又はオフライン音域バランシングモデルを含むことを特徴とする請求項1に記載の音域バランシング方法。
  12. 特徴抽出モジュール及び音域バランシングモジュールを含むディープラーニングに基づく音域バランシング装置であって、
    前記特徴抽出モジュールは、オーディオを取得し、特徴抽出を実行してオーディオデータ特徴を取得するために使用され、
    前記音域バランシングモジュールは、前記特徴抽出モジュールが抽出した前記オーディオデータ特徴に基づいて、訓練済みの音域バランシングモデルを利用して、音域バランシング結果を生成するために使用され
    前記音域バランシングモジュールは、オンライン音域バランシングモジュール及び/又はオフライン音域バランシングモジュールをさらに含み、
    前記オンライン音域バランシングモジュールは、音楽データベースとユーザ好み音楽リストに基づいて、教師ありディープラーニング方法を用いてユーザが好む音楽のタイプをリアルタイムで評価してオンライン音域バランシングモデルを取得し、
    既存の音楽スタイルのイコライザーを組み合わせてユーザのオンライン音域バランシング等化結果を取得するために使用され、
    前記オフライン音域バランシングモジュールは、ユーザ好み音楽リストに基づいて、ユーザ好み音楽自体に対する特徴抽出を行い、教師なしディープラーニング方法を用いてオフライン音域バランシングモデルを取得し、
    ユーザのオフライン音域バランシング等化結果を生成するために使用されることを特徴とするディープラーニングに基づく音域バランシング装置。
  13. 記憶装置及びプロセッサを備えるディープラーニングに基づく音域バランシングシステムであって、前記記憶装置には前記プロセッサにより実行されるコンピュータプログラムが記憶され、前記コンピュータプログラムは前記プロセッサにより実行される場合、請求項1乃至11のいずれか一項に記載のディープラーニングに基づく音域バランシング方法を実行することを特徴とするディープラーニングに基づく音域バランシングシステム。
JP2020567945A 2018-06-05 2019-06-03 ディープラーニングに基づく音域バランシング方法、装置及びシステム Active JP7136932B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201810583138.7A CN109147807B (zh) 2018-06-05 2018-06-05 一种基于深度学习的音域平衡方法、装置及系统
CN201810583138.7 2018-06-05
PCT/CN2019/089757 WO2019233360A1 (zh) 2018-06-05 2019-06-03 一种基于深度学习的音域平衡方法、装置及系统

Publications (2)

Publication Number Publication Date
JP2021525992A JP2021525992A (ja) 2021-09-27
JP7136932B2 true JP7136932B2 (ja) 2022-09-13

Family

ID=64802010

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020567945A Active JP7136932B2 (ja) 2018-06-05 2019-06-03 ディープラーニングに基づく音域バランシング方法、装置及びシステム

Country Status (4)

Country Link
US (1) US11875807B2 (ja)
JP (1) JP7136932B2 (ja)
CN (2) CN113903346A (ja)
WO (1) WO2019233360A1 (ja)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113903346A (zh) * 2018-06-05 2022-01-07 安克创新科技股份有限公司 一种基于深度学习的音域平衡方法、装置及系统
US10991379B2 (en) * 2018-06-22 2021-04-27 Babblelabs Llc Data driven audio enhancement
CN109741723A (zh) * 2018-12-29 2019-05-10 广州小鹏汽车科技有限公司 一种卡拉ok音效优化方法及卡拉ok装置
CN109830244A (zh) * 2019-01-21 2019-05-31 北京小唱科技有限公司 用于音频的动态混响处理方法及装置
CN113297412B (zh) * 2020-02-24 2023-09-29 北京达佳互联信息技术有限公司 音乐推荐方法、装置、电子设备和存储介质
CN111339428B (zh) * 2020-03-25 2021-02-26 江苏科技大学 基于受限玻尔兹曼机驱动的交互式个性化搜索方法
JP7026412B1 (ja) * 2020-06-30 2022-02-28 Jeインターナショナル株式会社 楽曲制作装置、端末装置、楽曲制作方法、プログラム、および記録媒体
CN112287160B (zh) * 2020-10-28 2023-12-12 广州欢聊网络科技有限公司 一种音频数据的排序方法、装置、计算机设备和存储介质
CN112333596A (zh) * 2020-11-05 2021-02-05 江苏紫米电子技术有限公司 一种耳机均衡器的调整方法、装置、服务器及介质
CN112511472B (zh) * 2020-11-10 2022-04-01 北京大学 一种基于神经网络的时频二阶均衡方法及通信系统
CN112632318A (zh) * 2020-12-24 2021-04-09 安克创新科技股份有限公司 一种音频推荐方法、装置、系统及存储介质
CN112967732B (zh) * 2021-02-25 2023-10-03 北京百度网讯科技有限公司 调整均衡器的方法、装置、设备和计算机可读存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009508156A (ja) 2005-09-08 2009-02-26 ユニバーシティー オブ イースト アングリア 音楽分析
JP2014093577A (ja) 2012-10-31 2014-05-19 Panasonic Automotive Systems Asia Pacific (Thailand) Co Ltd 端末装置、サーバ装置、音声処理方法、設定方法、音声処理システム
JP2017054121A (ja) 2015-09-09 2017-03-16 三星電子株式会社Samsung Electronics Co.,Ltd. 音響調節装置及び方法と、ジャンル認識モデル学習装置及び方法

Family Cites Families (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06244747A (ja) 1993-02-19 1994-09-02 Fujitsu Ltd 帰還型適応等化器
CN103037100B (zh) * 2012-12-21 2015-02-18 广东欧珀移动通信有限公司 一种适用于智能手机的智能切换eq音效的方法
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN103413557B (zh) * 2013-07-08 2017-03-15 深圳Tcl新技术有限公司 语音信号带宽扩展的方法和装置
US10497353B2 (en) * 2014-11-05 2019-12-03 Voyetra Turtle Beach, Inc. Headset with user configurable noise cancellation vs ambient noise pickup
KR102460393B1 (ko) * 2015-04-30 2022-11-01 삼성전자주식회사 사운드 출력 기기, 전자 장치 및 그 제어 방법
WO2016175622A1 (en) * 2015-04-30 2016-11-03 Samsung Electronics Co., Ltd. Sound outputting apparatus, electronic apparatus, and control method thereof
US20170140260A1 (en) * 2015-11-17 2017-05-18 RCRDCLUB Corporation Content filtering with convolutional neural networks
US10509626B2 (en) * 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
CN109416733B (zh) * 2016-07-07 2023-04-18 哈曼国际工业有限公司 便携式个性化
CN106027809B (zh) 2016-07-27 2019-08-20 维沃移动通信有限公司 一种音量的调节方法及移动终端
US20180276540A1 (en) * 2017-03-22 2018-09-27 NextEv USA, Inc. Modeling of the latent embedding of music using deep neural network
CN107147792B (zh) * 2017-05-23 2020-10-27 惠州Tcl移动通信有限公司 一种自动配置音效的方法、装置、移动终端及存储装置
CN107241511B (zh) * 2017-06-30 2020-04-10 Oppo广东移动通信有限公司 一种音乐播放方法、装置、存储介质和终端
US20190018644A1 (en) * 2017-07-13 2019-01-17 Josh Kovacevic Soundsharing capabilities application
US10838686B2 (en) * 2017-07-13 2020-11-17 Josh Kovacevic Artificial intelligence to enhance a listening experience
CN107886943A (zh) 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置
CN113903346A (zh) 2018-06-05 2022-01-07 安克创新科技股份有限公司 一种基于深度学习的音域平衡方法、装置及系统
CN109147804A (zh) * 2018-06-05 2019-01-04 安克创新科技股份有限公司 一种基于深度学习的音质特性处理方法及系统
US11199853B1 (en) * 2018-07-11 2021-12-14 AI Incorporated Versatile mobile platform
CA3115718A1 (en) * 2018-11-02 2020-05-07 Cser Ventures, LLC System for generating an output file
US11481628B2 (en) * 2019-11-26 2022-10-25 Gracenote, Inc. Methods and apparatus for audio equalization based on variant selection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009508156A (ja) 2005-09-08 2009-02-26 ユニバーシティー オブ イースト アングリア 音楽分析
JP2014093577A (ja) 2012-10-31 2014-05-19 Panasonic Automotive Systems Asia Pacific (Thailand) Co Ltd 端末装置、サーバ装置、音声処理方法、設定方法、音声処理システム
JP2017054121A (ja) 2015-09-09 2017-03-16 三星電子株式会社Samsung Electronics Co.,Ltd. 音響調節装置及び方法と、ジャンル認識モデル学習装置及び方法

Also Published As

Publication number Publication date
WO2019233360A1 (zh) 2019-12-12
CN109147807A (zh) 2019-01-04
US11875807B2 (en) 2024-01-16
CN113903346A (zh) 2022-01-07
US20210217430A1 (en) 2021-07-15
CN109147807B (zh) 2023-06-23
JP2021525992A (ja) 2021-09-27

Similar Documents

Publication Publication Date Title
JP7136932B2 (ja) ディープラーニングに基づく音域バランシング方法、装置及びシステム
US11790934B2 (en) Deep learning based method and system for processing sound quality characteristics
US10679256B2 (en) Relating acoustic features to musicological features for selecting audio with similar musical characteristics
US7696427B2 (en) Method and system for recommending music
US11157542B2 (en) Systems, methods and computer program products for associating media content having different modalities
US20080235283A1 (en) Generating audio annotations for search and retrieval
US10129314B2 (en) Media feature determination for internet-based media streaming
CN114822512B (zh) 音频数据的处理方法、装置、电子设备及存储介质
US20210303612A1 (en) Identifying media content
US11082789B1 (en) Audio production assistant for style transfers of audio recordings using one-shot parametric predictions
TW201104466A (en) Digital data processing method for personalized information retrieval and computer readable storage medium and information retrieval system thereof
CN109147816B (zh) 对音乐进行音量调节的方法及设备
US11887613B2 (en) Determining musical style using a variational autoencoder
US20180173400A1 (en) Media Content Selection
CN111445922B (zh) 音频匹配方法、装置、计算机设备及存储介质
CN111859008A (zh) 一种推荐音乐的方法及终端
Radhika et al. Personalized language-independent music recommendation system
WO2019233359A1 (zh) 对音乐进行通透处理的方法及设备
US20220382798A1 (en) Systems and methods for content item distribution and interaction
US20240087547A1 (en) Systems and methods for transforming digital audio content
Mendes Deep learning techniques for music genre classification and building a music recommendation system
US11886486B2 (en) Apparatus, systems and methods for providing segues to contextualize media content
Omojokun et al. Impact of user context on song selection
CN116758897A (zh) 方言语音指令的识别方法、装置及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210202

A977 Report on retrieval

Free format text: JAPANESE INTERMEDIATE CODE: A971007

Effective date: 20220217

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220301

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220414

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220517

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220810

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20220830

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20220901

R150 Certificate of patent or registration of utility model

Ref document number: 7136932

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150