JP7136932B2

JP7136932B2 - ディープラーニングに基づく音域バランシング方法、装置及びシステム

Info

Publication number: JP7136932B2
Application number: JP2020567945A
Authority: JP
Inventors: 青山姚; 宇秦; 浩文喩; 峰盧
Original assignee: Anker Innovations Co Ltd
Current assignee: Anker Innovations Co Ltd
Priority date: 2018-06-05
Filing date: 2019-06-03
Publication date: 2022-09-13
Anticipated expiration: 2039-06-03
Also published as: CN113903346A; CN109147807A; JP2021525992A; WO2019233360A1; US11875807B2; US20210217430A1; CN109147807B

Description

本発明は、音声技術の分野に関し、より具体的には、音質調整方法及び装置に関する。

音質は、オーディオ品質に対する人間の主観的な評価であり、音質に対する好みは人によって異なる。例えば、異なる周波数帯の音声に対する好みについて、低音が急上昇する音楽が好きな人もいれば、中高周波数ひいては耳障りな音声が好きな人もいれば、中周波数帯のクリアな人間の声が好きな人もいる。

オーディオ再生機器のベンダーであろうとオーディオポータルプラットフォームであろうと、音質を向上及び強化することは、ユーザのオーディオ体験を向上させる最も直接的な方法の１つである。音質の音域バランシングとは、人の耳に知覚可能な音声の周波数領域の範囲内の周波数区間、例えば人の耳に知覚可能な音声の高、中、低の周波数領域のスペクトルを一定の程度に強化又は減衰させることにより、異なる周波数帯の音声に対する人々の好みを満たすことを指す。現在、一般的な調整方法は、ＥＱ（イコライザー；Ｅｑｕａｌｉｚｅｒ）曲線を設定することであり、ＥＱ曲線の各点は１つの周波数点又は周波数帯に対する強化又は減衰の倍数を表しており、一部の再生端末や再生ソフトウェアは再生端末のＥＱイコライザーのパラメータを調整することによって音質を向上させる機能を提供している。現在、ＥＱイコライザーの調整方法は２つある。１つの方法は、ユーザ自体が調整することである。例えば、一連のイコライザーを与え、ユーザが手動で設定を選択することである。この方法では、特定の音楽自体の特性又はユーザの好み対する自己適応音質調整を実現できない。もう１つの方法は、音楽のタイトルや、作者等のラベル特徴を分析することによって、ユーザの好みをある種類又は数種類のスタイルに近づけ、その種類のスタイルに既存の業界共通のＥＱ設定を利用してユーザに推奨することである。

しかし、１つの音楽が対応するラベルを取得できない場合、１つの音楽のスタイルが複数のカテゴリに属する可能性がある場合、音楽に異なるスタイルの段落が存在する場合、又は、ユーザの音楽リストが私たちが知らないスタイルに属する場合には、ＥＱイコライザーの設定を行うことができない。従って、従来技術におけるＥＱイコライザーの調整は、対応する音楽ラベルに依存しており、パーソナライズのニーズを満たすことができない。

本発明は、上記の問題を考慮して提案されたものである。

本発明は、ディープニューラルネットワークと教師なしディープラーニングに基づいて、分類ラベルなし音楽とスタイル不明音楽の音域バランシング問題を解決し、ユーザ好みに対する統計と組み合わせて、より合理的なマルチカテゴリ音域バランシング設計を実現し、パーソナライズのニーズを満たすディープラーニングに基づく音域バランシング方法、装置、システム及びコンピュータ記憶媒体を提供する。

本発明の一態様によれば、ディープラーニングに基づく音域バランシング方法を提供しており、オーディオデータに対して特徴抽出を実行してオーディオデータ特徴を取得することと、前記オーディオデータ特徴に基づいて、訓練済みの音域バランシングモデルを利用して、音域バランシング結果を生成することと、を含むことを特徴とする。

好ましくは、前記音域バランシングモジュールは、音楽データベースとユーザ好み音楽リストに基づいて、教師ありディープラーニング方法を用いてユーザが好む音楽のタイプをリアルタイムで評価して取得したオンライン音域バランシングモデルを含む。

好ましくは、前記音域バランシングモジュールは、ユーザ好み音楽リストに基づいて、ユーザ好み音楽自体に対する特徴抽出を行い、教師なしディープラーニング方法を用いて取得したオフライン音域バランシングモデルを含む。

好ましくは、前記音域バランシングモデルを訓練することは、
音楽データベースに基づいて音楽データのカテゴリラベル特徴及び前記音楽データのデータ特徴を抽出することと、
前記音楽データのデータ特徴を入力レイヤーデータとし、前記カテゴリラベル特徴を出力レイヤーデータとして訓練して音域バランシングモデルを取得することと、
ユーザ好み音楽データに対して特徴抽出を実行してデータ特徴を取得し、入力データとして前記音域バランシングモデルに入力して、前記ユーザ好み音楽データのカテゴリラベル特徴を取得することと、
前記ユーザ好み音楽データのカテゴリラベル特徴を前記ユーザ好み音楽データのカテゴリラベルに復元して、ユーザ好みカテゴリ画像を形成することと、
前記ユーザ好みカテゴリ画像に従って対応するカテゴリの音域バランシングパラメータと融合して、ユーザの音域バランシング等化結果を取得することと、を含む。

ただし、前記対応するカテゴリ音域バランシングパラメータは、従来技術における異なるタイプのオーディオ特点の音質特性を反映できるパラメータであり、ＥＱイコライザーのパラメータを含むが、これに限定されない。

好ましくは、前記ユーザ好みカテゴリ画像は、各カテゴリオーディオデータが占める割合又は重みを含む各カテゴリオーディオデータに対するユーザの好み度を反映する。

好ましくは、前記音域バランシングモデルを訓練することは、
音楽データベースにおける大衆ユーザ好みに基づく音楽を訓練セットとして、特徴抽出して前記音楽データベースの音楽データ特徴を取得することと、
前記音楽データ特徴を可視層として入力し、１つの制限付きボルツマンマシンＲＢＭを訓練することと、
前記訓練済みの制限付きボルツマンマシンＲＢＭに基づいて、前記訓練セットの音楽データ特徴を制限付きボルツマンマシンＲＢＭの可視層に入力して、隠れ層特徴を取得することと、
前記隠れ層特徴を既に訓練済みのクラスタモデルに入力して分類し、平均隠れ層特徴を生成することと、
前記平均隠れ層特徴及び前記制限付きボルツマンマシンＲＢＭに基づいて逆演算して、音楽データベースの平均音楽データ特徴を取得することと、
ユーザ好み音楽リストにおける音楽に基づいて特徴抽出を実行し、抽出されたユーザ好み音楽特徴を可視層として入力し、１つのユーザ好み制限付きボルツマンマシンＲＢＭを訓練することと、を含む。

好ましくは、前記訓練済みのユーザ好み制限付きボルツマンマシンＲＢＭに基づいて、前記ユーザ好み音楽特徴をＲＢＭの可視層に入力して、ユーザ好み隠れ層特徴を取得することと、
前記ユーザ好み隠れ層特徴を前記クラスタモデルに入力して分類し、ユーザ好み平均隠れ層特徴を生成することと、
前記ユーザ好み平均隠れ層特徴及びユーザ好み制限付きボルツマンマシンＲＢＭに基づいて逆演算して、ユーザ好み平均音楽特徴を取得することと、
前記ユーザ好み平均音楽特徴と前記音楽データベースの平均音楽特徴に従ってユーザのオフライン音域バランシング等化結果を取得することと、含む。

好ましくは、前記オーディオデータ特徴は、時間領域又は周波数領域の特徴を含む。

好ましくは、前記オーディオデータ特徴を抽出することは、前記オーディオデータをフレーム化した後に特徴抽出を実行することを含む。

好ましくは、前記オーディオデータ特徴を抽出する方法は、ＦＦＴ、ＳＴＦＴ、ＭＦＣＣ、１フレーム以上の時間領域波形又は人工的に設計された他の特徴における少なくとも１つを含む。

好ましくは、前記訓練済みの音域バランシングモデルは、オンライン音域バランシングモデル及び／又はオフライン音域バランシングモデルを含む。

本発明の他の態様によれば、特徴抽出モジュール及び音域バランシングモジュールを含むディープラーニングに基づく音域バランシング装置を提供しており、
前記特徴抽出モジュールは、オーディオデータベースにおけるデータ又はユーザ好みデータを取得し、特徴抽出を実行して前記オーディオデータベースにおけるデータ又はユーザ好みデータの特徴を取得するために使用され、
前記音域バランシングモジュールは、前記特徴抽出モジュールが抽出した前記オーディオデータ特徴に基づいて、訓練済みの音域バランシングモデルを利用して、音域バランシング結果を生成するために使用されることを特徴とする。

好ましくは、前記音域バランシングモジュールは、オンライン音域バランシングモジュール及び／又はオフライン音域バランシングモジュールをさらに含み、
前記オンライン音域バランシングモジュールは、音楽データベースとユーザ好み音楽リストに基づいて、教師ありディープラーニング方法を用いてユーザが好む音楽のタイプをリアルタイムで評価してオンライン音域バランシングモデルを取得し、既存の音楽スタイルのイコライザーを組み合わせてユーザのオンライン音域バランシング等化結果を取得するために使用され、
前記オフライン音域バランシングモジュールは、ユーザ好み音楽リストに基づいて、ユーザ好み音楽自体に対する特徴抽出を行い、教師なしディープラーニング方法を用いてオフライン音域バランシングモデルを取得し、ユーザのオフライン音域バランシング等化結果を生成するために使用される。

本発明のまた他の態様によれば、記憶装置及びプロセッサを備えるディープラーニングに基づく音域バランシングシステムを提供しており、前記記憶装置には前記プロセッサにより実行されるコンピュータプログラムが記憶され、前記コンピュータプログラムは前記プロセッサにより実行される場合、本発明のディープラーニングに基づく音域バランシング方法を実行する。

本発明のさらに他の態様によれば、記憶媒体を提供しており、前記記憶媒体にはプログラム命令が記憶され、前記プログラム命令は、コンピュータ又はプロセッサにより実行される場合、本発明のディープラーニングに基づく音域バランシング方法の対応ステップを実行し、本発明の実施例によるディープラーニングに基づく音域バランシング装置における対応モジュールを実現するために使用される。

本発明のさらに他の態様によれば、コンピュータプログラムを提供しており、前記コンピュータプログラムは、コンピュータ又はプロセッサにより実行される場合、上記のいずれか一項に記載のディープラーニングに基づく音域バランシング方法を実行するために使用され、前記コンピュータプログラムは上記のいずれか一項に記載のディープラーニングに基づく音域バランシング装置における各モジュールを実現するためにも使用される。

添付図面に関連して本発明の実施例をより詳細に説明することにより、本発明の上記および他の目的、特徴、および利点がより明らかになるであろう。添付図面は、本発明の実施例の更なる理解を提供するために使用され、本発明の実施例と共に本発明を説明するために使用される明細書の一部を構成するものであり、本発明を限定するものではない。添付図面において、同じ参照符号は、通常、同じ構成要素またはステップを表す。
本発明の実施例によるディープラーニングに基づく音域バランシング方法、装置、システム、記憶媒体、及びコンピュータプログラムを実現するための例である電子機器の模式的ブロック図である。本発明の実施例による音域バランシング方法を実現するための模式的フロチャートである。本発明の実施例によるディープラーニングに基づく音域バランシング方法の模式的原理図である。本発明の実施例によるユーザ好み累算器の模式的原理図である。本発明の実施例による前記オンラインスタイル融合ＥＱイコライザー設計システムを形成する模式的原理図である。本発明の実施例による音楽データのカテゴリラベル特徴抽出の過程の模式的原理図である。本発明の実施例による音楽データのスタイルラベル特徴をスタイルラベルに復元させる過程の模式的原理図である。本発明の実施例によるユーザ好みカテゴリ画像を形成する過程の模式的原理図である。本発明の実施例によるユーザ好みカテゴリ画像の模式的原理図である。本発明の実施例によるオンラインＥＱ等化結果の模式的原理図である。本発明の実施例によるオフラインＥＱ等化システムを形成する模式的原理図である。本発明の実施例による制限付きボルツマンマシンの原理的模式図である。本発明の実施例によるディープラーニングに基づく音域バランシング装置の模式的ブロック図である。本発明の実施例によるディープラーニングに基づく音域バランシングシステムの模式的ブロック図である。

本発明の目的、技術的手段、及び利点をより明確するために、以下、図面を参照して本発明に係る実施例を詳細に説明する。明らかに、記載された実施例は本発明の一部の実施例に過ぎず、本発明の全ての実施例ではなく、本発明は本明細書に記載された例示的な実施例によって限定されないことが理解されるべきである。

まず、図１を参照しながら本発明の実施例によるディープラーニングに基づく音域バランシング方法、装置、システム、記憶媒体、及びコンピュータプログラムを実現するための例である電子機器１００を説明する。

図１に示すように、電子機器１００は、１つ又は複数のプロセッサ１０２と、１つ又は複数の記憶装置１０４と、入力装置１０６と、出力装置１０８とを備え、これらの構成要素はバスシステム１１０及び／又は他の形態の接続機構（図示せず）を介して相互接続される。なお、図１に示す電子機器１００の構成要素及び構造は単なる例示であり、限定的なものではなく、必要に応じて、前記電子機器は他の構成要素及び構造を有してもよい。

前記プロセッサ１０２は、中央処理ユニット（ＣＰＵ）又はデータ処理能力及び／又は命令実行能力を有する他の形態の処理ユニットであってもよく、所望の機能を実行するように前記電子機器１００における他の構成要素を制御することができる。

前記記憶装置１０４は、１つ又は複数のコンピュータプログラム製品を含むことができ、前記コンピュータプログラム製品は、例えば、揮発性メモリ及び／又は不揮発性メモリのような様々な形態のコンピュータ可読記憶媒体を含むことができる。前記揮発性メモリとして、例えば、ランダムアクセスメモリ（ＲＡＭ）及び／又はキャッシュメモリ（ｃａｃｈｅ）等を含むことができる。前記不揮発性メモリとして、例えば、読み取り専用メモリ（ＲＯＭ）、ハードディスク、フラッシュメモリ等を含むことができる。前記コンピュータ可読記憶媒体に１つ又は複数のコンピュータプログラム命令を格納することができ、プロセッサ１０２は前記プログラム命令を実行して以下に説明する本発明の実施例（プロセッサにより実現される）におけるクライアント機能及び／又は他の所望の機能を実現することができる。前記コンピュータ可読記憶媒体には、様々なアプリケーションプログラム及び様々なデータ、例えば、前記アプリケーションプログラムによって使用及び／又は生成された様々なデータ等も格納することができる。

前記入力装置１０６は、命令を入力するためにユーザによって使用される装置であってもよく、キーボード、マウス、マイクロホン、タッチスクリーン等のうちの１つ又は複数を含むことができる。

前記出力装置１０８は、外部（例えばユーザ）に様々な情報（例えば画像又は音声）を出力することができ、ディスプレイやスピーカ等のうちの１つ又は複数を含むことができる。

好ましくは、本発明の実施例によるディープラーニングに基づくオーディオ音質強化方法、装置、システム、記憶媒体、及びコンピュータプログラムを実現するための例である電子機器は、スマートフォン、タブレット等の端末によって実現されてもよい。

本発明の一態様によれば、ディープラーニングに基づく音域バランシング方法を提供しており、前記方法は、
オーディオデータに対して特徴抽出を実行してオーディオデータ特徴を取得することと、
前記データ特徴に基づいて、訓練済みの音域バランシングモデルを利用して、処理対象のオーディオデータの音域バランシング結果を生成することと、を含む。

ここで、前記音域バランシングは、ＥＱ調整を含むが、これに限定されない。

以下、音楽のＥＱ調整を例として、図２乃至図１２を参照しながら本発明の実施例によるディープラーニングに基づく音域バランシング方法を説明する。

図２に示すように、ディープラーニングに基づく音域バランシング方法は、
音楽に対するユーザの好みデータを抽出する（１０）ステップと、
ディープラーニングを利用してユーザの音域バランシングモデルを訓練する（２０）ステップと、
音楽再生対象の時間領域及び／又は周波数領域の特徴を抽出する（３０）ステップと、
ディープラーニングによって確立したユーザの音域バランシングモデルを利用して推奨する音楽再生対象の音域バランシング方案を算出する（４０）ステップと、
前記音域バランシング方案を出力し、音楽再生対象の音響効果を調整する（５０）ステップと、を含んでもよい。

ここで、好みデータは、ユーザの音楽再生リスト、行動等を含むが、これらに限定されない。音楽再生対象の時間領域及び／又は周波数領域の特徴を抽出するステップは、前記音楽再生対象をフレーム化した後に特徴を抽出するステップを含むが、これに限定されない。

さらに、図３に示すように、ディープラーニングに基づく音域バランシング方法は、
音楽データベースとユーザ好み音楽リストに基づいて、教師ありディープラーニング方法を用いてユーザが好む音楽のタイプを評価して（Ｓ１）、オンライン音域バランシングモデルを取得するステップと、対応する音楽スタイルのイコライザーを組み合わせてユーザのオンライン音域等化結果を取得するステップ（Ｓ２）、又は、
ユーザ好み音楽リストに基づいて、ユーザ好み音楽自体に対する特徴抽出を行い、教師なしディープラーニング方法を用いてオフライン音域バランシングモデルを取得するステップ（Ｓ４）と、ユーザのオフライン音域等化結果を生成するステップ（Ｓ５）と、
ユーザ好み音楽累算器によって前記ユーザ好み音楽リストが提供されるステップ（Ｓ３）と、を含んでもよい。

ここで、ステップＳ１とＳ２を総称して「オンラインスタイル融合音域イコライザー設計システム」と呼び、ステップＳ４、Ｓ５を総称して「オフラインパーソナライズ音域イコライザー設計システム」と呼ぶ。前者は訓練時に音楽に対するオンラインユーザのスタイルタイプラベル付けを使用する必要があるため、「オンラインスタイル融合音域イコライザー設計システム」と呼ばれ、後者は訓練時にオンラインユーザのラベル付けが不要で、音楽波形だけが必要であるため、「オフラインパーソナライズ音域イコライザー設計システム」と呼ばれる。

前記対応する音楽スタイルのイコライザーとは、従来技術における異なる音楽スタイルの特点を反映できる音域イコライザーのパラメータを指す。

さらに、前記ユーザ好み音楽累算器は、ユーザ行動を分析することでユーザ好み音楽リストを取得する。ユーザ好み音楽を取得し、各音楽に対するユーザの嗜好値（例えば、１つの音楽に対するユーザのフィードバック（音楽の再生回数、「いいね」回数等を含むが、これらに限定されない。）を蓄積して、再生や「いいね」のような正のフィードバックは当該音楽の重みを増加させ、その逆の場合、重みの数値を負の方向に変化させる）を評価し、次にユーザ好み音楽リストを形成して、ユーザとコミュニケーションがある音楽とその重みを一覧表示することを含むが、これに限定されない。

一実施例では、図４を参照すると、ユーザとデータベースにおける音楽に基づくコミュニケーション統計行列３００は、音楽の削除、再生、ダウンロード等のユーザ行動の回数によって形成されるコミュニケーション統計行列を含むが、これに限定されない。

前記コミュニケーション統計行列３００を分析し、行動の回数及び行動のスコアから各音楽に対するユーザの好み度を算出する（３０１）。異なる行動は１曲の音楽に対するユーザの異なる好み傾向を反映しており、再生やダウンロードのような正方向の行動は正の傾向と見なされ、正の点数が得られる。逆に、削除のような行動は負の傾向と見なされ、負の点数が得られる。行動のスコアを行動回数の重み付けとし、１曲の音楽に対するユーザの全ての行動回数をトラバースし、重み付け及び加算した後の結果３０２は、音楽に対するユーザの好み、即ち、ユーザ好み音楽リストと見なすことができる。

オーディオデータベース内のオーディオデータは、ユーザまたは他の手段によってカテゴリラベルが付けられている。カテゴリラベルは、「ジャズ」、「クラシック」等を含むが、これらに限定されない。また、１つのオーディオデータは複数のカテゴリラベルに対応しなければならない。オーディオデータのカテゴリラベルを正規化して、各カテゴリに対応するオーディオデータの確率ベクトルを取得し、このベクトルを特徴付ける。当該方法は、行列分解、因子分解機、単語ベクトル化などを含むが、これらに限定されない。音楽波形の時間周波数領域の特徴を入力として使用し、カテゴリラベル特徴ベクトルを出力として使用して、ディープニューラルネットワークを訓練する。ユーザがカテゴリラベルなしのオーディオデータまたはラベルが不完全であるオーディオデータを好む場合に、特徴抽出方法および訓練によって得られたディープニューラルネットワークを用いて、このオーディオデータのオーディオ波形をカテゴリラベル特徴ベクトルにマッピングする。カテゴリラベル特徴ベクトルに基づいて、既存の音質特性パラメータを融合して設計し、ユーザにフィードバックする。

さらに、図５に示すように、前記オンラインスタイル融合ＥＱイコライザー設計システムを形成することは、次のステップを含む。

音楽データベースに基づいて音楽データのカテゴリラベル特徴（Ｓ１２）及び前記音楽データのデータ特徴（Ｓ１１）を抽出する。

ここで、前記カテゴリラベル特徴を抽出する方法には、行列分解、因子分解機、単語ベクトル化などの方法が含まれるが、これらに限定されない。前記オーディオデータのデータ特徴は、オーディオ波形中の明らかなカテゴリ特徴部分を有する特徴を含むが、これらに限定されない。前記データ特徴の抽出方法としては、ｆｆｔ（ＦａｓｔＦｏｕｒｉｅｒＴｒａｎｓｆｏｒｍａｔｉｏｎ）、ｍｆｃｃ（Ｍｅｌ－ＦｒｅｑｕｅｎｃｙＣｅｐｓｔｒａｌＣｏｅｆｆｉｃｉｅｎｔ）等を含むが、これらに限定されない。

一実施例では、音楽データのカテゴリラベル特徴の抽出プロセスについて、行列分解を例として説明する。図６を参照すると、大衆ユーザは、異なる音楽のカテゴリラベル（例えば、スタイルラベル）をラベル付けしてラベル付け行列１２０を形成し、ラベル付け行列１２０中のデータはラベル付けされた回数を表す。１２人のユーザが音楽「私の祖国」を「民楽」カテゴリとしてラベル付けした場合、ラベル付け行列１２０中の行が「私の祖国」であり、列が「民楽」であるデータは１２である。ラベル付け行列１２０の各行は、音楽の「スタイルラベル」と呼ばれる。

オリジナルのラベル付け行列１２０の各行は、明らかにスパースなベクトルであり、音楽のスタイルラベルのように、いくつかの座標が正の数であり、他は０であるのが正常であるが、すべての座標が正の数である場合はほとんどない。つまり、ほとんどの音楽は、いくつかのスタイルにのみ対応すべきであり、さらには１つのスタイルにのみ対応すべきである。したがって、このラベル付け行列１２０は非常にスパースであり、各音楽のスタイル特徴をより密にし、類似音楽間の特徴の関連度をよりよく反映できるようにスタイルラベル特徴を抽出する必要がある。

ラベル付け行列１２０を分解し、得られた分解結果はスタイルラベル特徴行列１２１と重み行列１２２である。このうち、スタイルラベル特徴行列１２１の各行は、音楽のスタイルラベル特徴であり、スタイルラベルという疎ベクトルの圧縮と見なすことができ、類似音楽のスタイルラベル特徴の間には比較的高い類似度があり、例えば、「私の祖国」と「十送紅軍」の特徴の余弦相関度は、「私の祖国」と「七里香」より明らかに高い。重み行列１２２の各列は１つの音楽スタイルに対応し、１列の数値はその音楽スタイルを特徴付けており、スタイルラベル特徴行列１２１のスタイルラベル特徴の各要素に対して重み付ける。スタイルラベル特徴行列１２１と重み行列１２２とを乗算した結果は、オリジナルのラベル付け行列を近似的に復元したものである。

前記音楽データのデータ特徴を入力レイヤーデータとし、前記カテゴリラベル特徴を出力レイヤーデータとして訓練してオンライン音域バランシングモデルを取得する（Ｓ１３）。

ユーザ好み音楽データに対して特徴抽出を実行してデータ特徴を取得し、入力データとして前記オンライン音域バランシングモデルに入力して、前記ユーザ好み音楽データのカテゴリラベル特徴を取得する（Ｓ１４）。

一実施例では、１曲のユーザが好む音楽を取得し、その音楽波形から抽出された特徴を入力として、ニューラルネットワークモデルを用いて演算すると、出力結果はこの曲の音楽に対するスタイル特徴ベクトルであるカテゴリラベル特徴である。ユーザの音楽の異なる時間領域帯について、異なるスタイル特徴が出力されることがあり、最終的なスタイル特徴推定結果を取得する方法には、各時間帯の出力の平均、または他の融合方法（投票など）が含まれるが、これらに限定されない。最終の音楽は１つのスタイル特徴ベクトルを出力する。

前記ユーザ好み音楽データのカテゴリラベル特徴を前記ユーザ好み音楽データのカテゴリラベルに復元し（Ｓ２１）、前記処理対象のオーディオデータのカテゴリラベルに基づいてユーザ好みカテゴリ画像を形成する。

一実施例では、音楽データのスタイルラベル特徴をスタイルラベルに復元するプロセスについて、行列分解を例として説明する。図７を参照すると、前記ディープニューラルネットワークモデルが出力する特徴ベクトルは音楽データのスタイルラベル特徴２００であり、重み行列２０１（すなわち、スタイルラベル特徴の抽出における重み行列１２２）が乗算されて、当該音楽データの可能なスタイルラベル２０２が復元される。ここで説明したいのは、先に因子分解機のような他のスタイルラベル特徴抽出手法を採用した場合、スタイルラベルを復元する手法は特徴抽出手法に対応すべきであるということである。

一実施例では、ユーザ好みカテゴリ画像を形成するプロセスについて、行列分解を例として説明する。図８を参照すると、前述のユーザ好み音楽累算器（Ｓ３）から得られる各曲に対するユーザの好み度の行列２２０、及び前記ユーザ好み音楽データのカテゴリラベル（Ｓ２１）から得られるユーザの各曲のスタイル分布行列２２１に基づいて、これらの２つの行列２２０及び２２１によって各スタイルに対するユーザの好み度を計算して得ることができる。例えば、行列２２０では、ＡがＭ＊１の行列であり、Ｍが音楽の数を表し、行列２２１では、ＢがＭ＊Ｎの行列であり、Ｎがスタイルを表している。行列Ａと行列Ｂに基づいてユーザスタイルラベルにユーザスコア重み付けを実行する。例えば、行列Ａの各行の数値と行列Ｂの各行の数値とを乗算して行列Ｃ（ｉ，ｊ）＝Ａ（ｉ）＊Ｂ（ｉ，ｊ）となる行列２２３を取得し、行列Ｃの列を加算してユーザスタイル好み行列２２５を取得し、Ｐと記述する。

（ただし、ｉ、ｊ、ｋ、Ｍ、Ｎはいずれも自然数である）

前記ユーザスタイル好み行列２２５からユーザ好みカテゴリ画像を取得することは、円グラフを含むが、これに限定されない。図９を参照すると、負の点数のカテゴリは無視されてもよい。

前記ユーザ好みカテゴリ画像に従って対応するカテゴリのＥＱ曲線と融合して（Ｓ２３）、ユーザのオンラインＥＱ等化結果を取得する。

ここで、前記ユーザ好みカテゴリ画像は、各カテゴリのオーディオデータに対するユーザの好み度を反映したものであり、各カテゴリのオーディオデータが占める割合や重みを反映したグラフ（例えば、棒グラフや円グラフ）を含むが、これらに限定されない。一実施例では、ユーザが頻繁にクリックする音楽の音楽ラベル特徴は、ロックスタイルの座標上で最大の数値を有し、画像は、ロックがユーザの主な好みであることを示し得るため、画像に占めるロックカテゴリの割合が大きい。一実施例では、図１０を参照すると、各カテゴリのＥＱ曲線が既知であり、前記ユーザ好みカテゴリ画像における各カテゴリが占める重みに基づいて、組み合わせてユーザのオンラインＥＱ等化結果、即ちパーソナライズＥＱを取得する。

前記ユーザのオンラインＥＱ等化結果をユーザに送信する（Ｓ２４）。

さらに、前記オフラインスタイル融合ＥＱイコライザー設計システムは、教師なしディープラーニング方法によって１組のユーザ好み音楽のＥＱ設定を学習する。音楽データベース内の大衆ユーザ好みの各種の音楽から均一に幾つかを抽出して訓練サンプルとし、各フレームの周波数領域特徴を抽出して可視層として制限付きボルツマンマシンを訓練する。各音楽のボルツマンマシンの出力を加重平均し、ボルツマンマシンを逆演算させて得られる可視層を「音楽平均周波数領域特徴」とする。ユーザ音楽リストが一定の規模まで蓄積されると、選択リストからユーザ嗜好値の高い音楽を選択し、各フレームの周波数領域特徴を抽出して可視層としてボルツマンマシンを訓練する。各音楽のボルツマンマシンの出力を加重平均し、ボルツマンマシンを逆演算させて得られる可視層を「ユーザが好む音楽平均周波数領域特徴」とする。

図１１に示すように、前記オフラインスタイル融合ＥＱイコライザー設計システムを形成することは、以下のステップを含むことができる。

音楽データベース内の大衆ユーザが好む各種の音楽に基づいて均一に幾つかを抽出して訓練セットとし、特徴抽出を実行して前記音楽データベースの音楽データ特徴を取得する（Ｓ４０）。

ここで、前記音楽データ特徴は、時間領域及び／又は周波数領域の特徴（振幅スペクトル及び／又は位相情報など）を含むが、これらに限定されない。

前記音楽データ特徴を可視層として入力し、制限付きボルツマンマシン（ＲＢＭ）を訓練する（Ｓ４１）。

一実施例では、図１２を参照すると、時間周波数領域の特徴４００のような音楽データ特徴を可視層として入力し、ニューラルネットワークの順方向演算によって隠れ層データ４０１を取得し、ＲＢＭネットワークは双方向伝送ネットワークであり、隠れ層データ４０２は同じ接続重みで１回逆方向のニューラルネットワークの順方向演算が行われ、可視層の推定値４０３が得られる。一般に、この推定値は元の入力の音楽データ特徴４００と誤差があり、誤差が訓練して設定された許容可能な誤差よりも小さくなるまで、この誤差に従ってネットワークの重みが調整される。

前記訓練済みのＲＢＭに基づいて、前記訓練セットの音楽データ特徴をＲＢＭの可視層に入力して隠れ層特徴を取得し、前記隠れ層特徴を既に訓練済みのクラスタモデルに入力して分類し（Ｓ４４）、平均隠れ層特徴を生成する（Ｓ４２）。

ここで、前記訓練済みのクラスタモデルは、高い好み値に基づく音楽データ特徴を入力として、Ｎクラス（Ｎは自然数）が得られるクラスタリング機を訓練する（Ｓ４３）。

前記平均隠れ層特徴を生成することは、前記クラスタモデルのクラスタリング結果に応じて前記隠れ層特徴を加重平均して平均隠れ層特徴になることを含む。

一実施例では、Ｍ個のサンプルがあると仮定すると、Ｍ個の隠れ層特徴が出力され、
Ｍ個の隠れ層特徴をクラスタリング結果に従って加重平均する。例えば、Ｎ個のクラスがあり、各クラスのサンプルの数はＱ（ｋ）であり（ｋ＝１，２……Ｎ）、
クラスタリング結果を加重平均した後に得られるベクトルは全てのスタイルの音楽の平均隠れ層特徴（音楽データベースの特徴スペクトルを含むが、これに限定されない）と見なすことができる。

前記平均隠れ層特徴及び前記ＲＢＭに基づいて１回の逆演算を行い、音楽データベースの平均音楽データ特徴を取得する（Ｓ４５）。

ここで、前記平均音楽データ特徴は、全てのスタイルの音楽の平均音楽データ特徴と見なすことができる。

ユーザ好み音楽リストにおける音楽に基づいて特徴抽出を実行し（Ｓ４６）、抽出されたユーザ好み音楽特徴を可視層として入力し、１つのユーザ好み制限付きボルツマンマシンを訓練する（Ｓ４７）。

ここで、前記ユーザ好み制限付きボルツマンマシン（ユーザ好みＲＢＭ）の訓練方法は、前述のＳ４１の方法と類似である。前記ユーザ好み音楽特徴は、時間領域及び／又は周波数領域の特徴を含むが、これらに限定されない。

前記訓練済みのユーザ好みＲＢＭに基づいて、前記ユーザ好み音楽特徴をＲＢＭの可視層に入力して、ユーザ好み隠れ層特徴を取得し、前記ユーザ好み隠れ層特徴を前記クラスタモデルに入力して分類し、ユーザ好み平均隠れ層特徴を生成する（Ｓ４８）。

ここで、前記クラスタモデルは、前述のＳ４３で訓練済みのクラスタモデルであり、前記ユーザ好み隠れ層特徴が入力されてユーザの音楽特徴のクラス分布が統計される。

前記ユーザ好み平均隠れ層特徴を生成する方法は、前述のＳ４２の方法に類似であり、クラスタモデルのクラスタリング結果に応じて前記ユーザ好み隠れ層特徴を加重平均して、ユーザ好み平均隠れ層特徴が得られる。

前記ユーザ好み平均隠れ層特徴及び前記ＲＢＭに基づいて１回の逆演算を行って、ユーザ好み平均音楽特徴を取得する（Ｓ４９）。

前記ユーザ好み平均音楽特徴と前記音楽データベースの平均音楽特徴に従ってユーザが好むＥＱ等化設定を取得する（Ｓ５０）。

ここで、前記ユーザが好むＥＱ等化設定を取得することは、ＥＱ調整モデルによって、調整モデルが前記２つの特徴の比較及び計算によりユーザが好むＥＱ等化設定を取得することを含むが、これに限定されない。

一実施例では、ＥＱ調整モデルはＥＱ調整機であり、前記ＥＱ調整機は、ユーザ好み音楽平均音楽特徴に基づいて音楽データベースの平均音楽特徴と比較し、音楽データベースの平均音楽特徴が音楽の普遍的な特性を反映しているため、ユーザ好み音楽平均音楽特徴はユーザの好み特性（例えば、時間スペクトルでユーザ好み特徴が音楽データベースの特徴から明らかに乖離する領域がユーザが好む部分であるべきである）を反映し、ＥＱ調整機はこの部分の乖離傾向に応じてＥＱ曲線を強化又は減衰させた後に最終的なＥＱ曲線を出力すると、ユーザが好むＥＱ等化設定が取得される。

以上では例示的に本発明の実施例によるディープラーニングに基づく音域バランシング方法を説明した。好ましくは、本発明の実施例によるディープラーニングに基づく音域バランシング方法は、メモリ及びプロセッサを有する機器、装置又はシステムにおいて実現さればよい。

また、本発明の実施例によるディープラーニングに基づく音域バランシング方法は、スマートフォン、タブレット、パーソナルコンピュータ、スピーカ等のモバイル機器に容易に配置することができる。代替的に、本発明の実施例によるディープラーニングに基づく音域バランシング方法は、サーバ側（又はクラウド側）にも配置することができる。代替的に、本発明の実施例によるディープラーニングに基づく音域バランシング方法は、サーバ側（又はクラウド側）パーソナル端末に分散配置されてもよい。

本発明の他の態様によれば、ディープラーニングに基づく音域バランシング装置を提供する。図１３を参照すると、図１３は、本発明の実施例によるディープラーニングに基づく音域バランシング装置５００の模式的ブロック図を示している。

ディープラーニングに基づく音域バランシング装置５００は、特徴抽出モジュール５１０と音域バランシングモジュール５２０とを備える。各モジュールは前述したディープラーニングに基づく音域バランシング方法の各ステップ／機能をそれぞれ実行することができる。以下、ディープラーニングに基づく音域バランシング装置５００の各モジュールの主な機能のみを説明し、以上で既に説明した詳細な内容は省略する。

特徴抽出モジュール５１０は、オーディオデータベースにおけるデータ又はユーザ好みデータを取得し、特徴抽出を実行して前記オーディオデータベースにおけるデータ又はユーザ好みデータの特徴を取得するために使用される。音域バランシングモジュール５２０は、前記特徴抽出モジュールが抽出した損失のあるオーディオデータの特徴に基づいて、訓練済みの音域バランシングモデルを利用して、音域バランシング結果を生成するために使用される。特徴抽出モジュール５１０と音域バランシングモジュール５２０は、いずれも図１に示す電子機器におけるプロセッサ１０２が記憶装置１０４に記憶されているプログラム命令を実行することで実現することができる。

好ましくは、前記音域バランシングモジュール５２０は、オンライン音域バランシングモジュール５２１及び／又はオフライン音域バランシングモジュール５２２をさらに含み、前記オンライン音域バランシングモジュール５２１は、音楽データベースとユーザ好み音楽リストに基づいて、教師ありディープラーニング方法を用いてユーザが好む音楽のタイプをリアルタイムで評価してオンライン音域バランシングモデルを取得し、既存の音楽スタイルのイコライザーを組み合わせてユーザのオンライン音域等化結果を取得するために使用される。前記オフライン音域バランシングモジュール５２２は、ユーザ好み音楽リストに基づいて、ユーザ好み音楽自体に対する特徴抽出を行い、教師なしディープラーニング方法を用いてオフライン音域バランシングモデルを取得し、ユーザのオフライン音域等化結果を生成するために使用される。

本発明の他の態様によれば、ディープラーニングに基づく音域バランシング装置を提供する。図１４を参照すると、図１４は、本発明の実施例によるディープラーニングに基づく音域バランシングシステム６００の模式的ブロック図を示している。

ディープラーニングに基づく音域バランシングシステム６００は、記憶装置６１０及びプロセッサ６２０を備える。また、記憶装置６１０は、本発明の実施例によるディープラーニングに基づく音域バランシング方法における対応ステップを実現するためのプログラムを記憶している。プロセッサ６２０は、記憶装置６１０に記憶されているプログラムを実行して、本発明の実施例によるディープラーニングに基づく音域バランシング方法の対応ステップを実行し、本発明の実施例によるディープラーニングに基づく音域バランシング装置における対応モジュールを実現するために使用される。

本発明の他の態様によれば、記憶媒体も提供しており、前記記憶媒体にはプログラム命令が記憶され、前記プログラム命令は、コンピュータ又はプロセッサにより実行される場合、本発明の実施例によるディープラーニングに基づく音域バランシング方法の対応ステップを実行し、本発明の実施例によるディープラーニングに基づく音域バランシング装置における対応モジュールを実現するために使用される。前記記憶媒体は、例えば、スマートフォンのメモリカード、タブレットの記憶コンポーネント、パーソナルコンピュータのハードディスク、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、ポータブルコンパクトディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、ＵＳＢメモリ、又は上記記憶媒体の任意の組み合わせであってもよい。前記コンピュータ可読記憶媒体は、１つ又は複数のコンピュータ可読記憶媒体の任意の組み合わせであってもよい。

一実施例では、前記コンピュータプログラム命令は、コンピュータにより実行される場合、本発明の実施例によるディープラーニングに基づく音域バランシング装置の各機能モジュールを実現することができ、及び／又は本発明の実施例によるディープラーニングに基づく音域バランシング方法を実行することができる。

本発明の実施例によるディープラーニングに基づく音域バランシング装置における各モジュールは、本発明の実施例によるディープラーニングに基づく音域バランシングの電子機器のプロセッサによってメモリに記憶されているコンピュータプログラム命令を実行することで実現されることができ、又は本発明の実施例によるコンピュータプログラム製品のコンピュータ可読記憶媒体に記憶されたコンピュータ命令がコンピュータにより実行される場合に実現されることができる。

また、本発明の実施例によれば、コンピュータプログラムも提供しており、当該コンピュータプログラムはクラウド又はローカルの記憶媒体に記憶されてもよい。当該コンピュータプログラムは、コンピュータ又はプロセッサによって実行される場合、本発明の実施例によるディープラーニングに基づく音域バランシング方法の対応ステップを実行し、本発明の実施例によるディープラーニングに基づく音域バランシング装置における対応モジュールを実現するために使用される。

要約すると、本発明は、ディープニューラルネットワークと教師なしディープラーニングに基づいて、分類ラベルなし音楽とスタイル不明音楽の音域バランシング問題を解決し、ユーザ好みに対する統計と組み合わせて、より合理的なマルチカテゴリ音域バランシング設計を実現し、パーソナライズのニーズを満たすディープラーニングに基づく音域バランシング方法、装置、システム及びコンピュータ記憶媒体を提供する。

添付図面を参照して本明細書で例示的な実施例を説明したが、上記の例示的な実施例は単なる例示であり、本発明の範囲をこれに限定することを意図していないことが理解されるべきである。当業者は、本発明の範囲及び精神から逸脱することなく、様々な変更及び修正を行うことができる。これらすべての変更および修正は、添付の特許請求の範囲において請求される本発明の範囲内に含まれることが意図されている。

当業者は、本明細書に開示された実施例に関連して説明された様々な例のユニットやアルゴリズムステップが電子ハードウェア又はコンピュータソフトウェアと電子ハードウェアとの組み合わせによって実施され得ることを理解するであろう。これらの機能が、ハードウェアで実行されるか又はソフトウェアで実行されるかは、技術的解決策の特定のアプリケーション及び設計の制約に依存する。専門技術者は、特定のアプリケーションごとに異なる方法を使用して、説明した機能を実現することができるが、このような実現は本発明の範囲を超えると見なされるべきではない。

本明細書で提供されるいくつかの実施例では、開示される装置および方法は、他の形態によって実現されてもよいことが理解されるべきである。例えば、上述した装置の実施例は単なる概略的なものであり、例えば、ユニットの区分は、単なる論理的な機能区分であり、複数のユニットまたはコンポーネントを別の装置に結合または統合することができ、またはいくつかの特徴を無視または実行しないことができるなど、実際に実現された場合には、追加的な区分があってもよい。

本明細書には、多くの具体的な詳細が記載されている。しかしながら、本発明の実施例は、これらの具体的な詳細なしに実施されてもよいことを理解されたい。いくつかの例では、本明細書の理解を曖昧にしないために、公知の方法、構造、および技術が詳細に示されていない。

同様に、本発明を合理化し、様々な発明態様の１つまたは複数の理解を容易にするために、本発明の例示的な実施例の説明において、本発明の様々な特徴は、単一の実施例、図、またはそれらの説明にまとめられている場合があることが理解されるべきである。しかしながら、本発明の方法は、請求項に係る発明が各請求項に明示的に記載された特徴よりも多くの特徴を請求するという意図を反映したものと解釈されるべきではない。より正確には、対応する特許請求の範囲に反映されているように、その発明の点は、開示されたある単一の実施例のすべての特徴よりも少ない特徴によって対応する技術的課題を解決することができるという点にある。したがって、個々の請求項自体が本発明の別個の実施例である特定の実施形態に従う特許請求の範囲は、特定の実施形態を明示的に組み込むことができる。

本明細書（付随する特許請求の範囲、要約、および図面を含む）に開示されたすべての特徴、ならびにそのように開示された任意の方法または装置のすべてのプロセスまたはユニットは、特徴間の相互排除に加えて、任意の組み合わせを使用して組み立てることができることを当業者は理解することができる。特に明記されていない限り、本明細書（付随する特許請求の範囲、要約、および図面を含む）に開示された各特徴は、同一、同等、または類似の目的を提供する代替的な特徴によって置き換えられてもよい。

さらに、本明細書に記載のいくつかの実施例は、他の実施例に含まれるいくつかの特徴を含み、他の特徴ではないが、異なる実施例の特徴の組み合わせは、本発明の範囲内にあり、異なる実施例を形成することを意味することを当業者は理解することができる。例えば、特許請求の範囲において、請求項に記載されている実施例のいずれか１つは、任意の組み合わせで使用されてもよい。

本発明の様々な構成要素の実施例は、ハードウェアで、または１つ以上のプロセッサ上で動作するソフトウェアモジュールで、またはそれらの組み合わせで実現することができる。当業者であれば、本発明の実施例による物品分析装置の幾つかのモジュールの一部の機能のいくつかまたはすべては、実際にマイクロプロセッサまたはデジタル信号プロセッサ（ＤＳＰ）を使用して実現されてもよいことを理解されるべきである。本発明はまた、本明細書に記載された方法の一部または全部を実行するための装置プログラム（例えば、コンピュータプログラムおよびコンピュータプログラム製品）として実現されてもよい。本発明を実現するそのようなプログラムは、コンピュータ可読媒体に記憶されてもよく、または１つまたは複数の信号の形態を有してもよい。そのような信号は、インターネット・ウェブサイトからダウンロードすることができ、キャリア信号上で提供することができ、または他の任意の形態で提供することができる。

なお、上述した実施例は、本発明を限定するものではなく、本発明を説明しており、当業者は、特許請求の範囲を逸脱することなく、代替の実施例を設計することができる。

請求項において、括弧の間に位置する参照符号は、請求項を限定するように構成されてはならない。「含む」という用語は、請求項に記載されていない要素又はステップの存在を排除するものではない。要素の前にある用語「１つ」または「１個」は、そのような要素が複数存在することを排除するものではない。本発明は、いくつかの異なる要素を含むハードウェアおよび適切にプログラムされたコンピュータによって実施することができる。いくつかの装置が列挙されているユニット請求項において、これらの装置のいくつかは、同じハードウェアアイテムによって具体化されてもよい。第１、第２、第３などの用語の使用は、順序を表すものではない。これらの用語は名前として解釈できる。

上記は、単に本発明の特定の実施形態又は特定の実施形態の説明のためのものであり、本発明の保護範囲はこれに限定されるものではなく、本発明に開示された技術的範囲内で、本技術分野の当業者が容易に変更又は置換を想到することは、本発明の保護範囲内に含まれるものとする。本発明の保護範囲は、請求項の保護範囲に準ずるものとする。

Claims

ディープラーニングに基づく音域バランシング方法において、
オーディオデータに対して特徴抽出を実行してオーディオデータ特徴を取得することと、
前記オーディオデータ特徴に基づいて、訓練済みの音域バランシングモデルを利用して、音域バランシング結果を生成することと、を含み、
前記音域バランシングモデルは、音楽データベースとユーザ好み音楽リストに基づいて、教師ありディープラーニング方法を用いてユーザが好む音楽のタイプを評価して取得した音域バランシングモデル、及び／又はユーザ好み音楽リストに基づいて、ユーザ好み音楽自体に対する特徴抽出を行い、教師なしディープラーニング方法を用いて取得した音域バランシングモデルを含むことを特徴とするディープラーニングに基づく音域バランシング方法。
前記音域バランシングモデルを訓練する方法は、音楽データベースに基づいて音楽データのカテゴリラベル特徴及び前記音楽データのデータ特徴を抽出することと、
前記音楽データのデータ特徴を入力レイヤーデータとし、前記カテゴリラベル特徴を出力レイヤーデータとして訓練して音域バランシングモデルを取得することと、を含むことを特徴とする請求項１に記載の音域バランシング方法。
前記音域バランシング結果を生成することは、
ユーザ好みオーディオデータに対して特徴抽出を実行して好みデータ特徴を取得すると共に、入力データとして前記音域バランシングモデルに入力し、前記ユーザ好みオーディオデータのカテゴリラベル特徴を取得することと、
前記ユーザ好みオーディオデータのカテゴリラベル特徴を前記ユーザ好みオーディオデータのカテゴリラベルに復元して、ユーザ好みカテゴリ画像を形成することと、
前記ユーザ好みカテゴリ画像に従って対応するカテゴリの音域バランシングパラメータと融合して、ユーザのオンライン音域バランシング結果を取得することと、を含むことを特徴とする請求項１に記載の音域バランシング方法。
前記ユーザ好みカテゴリ画像は、各カテゴリオーディオデータが占める割合又は重みを含む各カテゴリオーディオデータに対するユーザの好み度を反映することを特徴とする請求項３に記載の音域バランシング方法。
前記音域バランシングモデルを訓練する方法は、
オーディオデータベースにおける大衆ユーザの好み基づくオーディオを訓練セットとして、特徴抽出して前記音楽データベースのオーディオデータ特徴を取得することと、
前記オーディオデータ特徴を可視層として入力し、１つの制限付きボルツマンマシンＲＢＭを訓練することと、
前記訓練済みの制限付きボルツマンマシンＲＢＭに基づいて、前記訓練セットのオーディオデータ特徴を制限付きボルツマンマシンＲＢＭの可視層に入力して、隠れ層特徴を取得することと、
前記隠れ層特徴を既に訓練済みのクラスタモデルに入力して分類し、平均隠れ層特徴を生成することと、
前記平均隠れ層特徴及び前記制限付きボルツマンマシンＲＢＭに基づいて逆演算して、オーディオデータベースの平均オーディオデータ特徴を取得することと、
ユーザ好み音楽リストにおけるオーディオに基づいて特徴抽出を実行し、抽出されたユーザ好みオーディオ特徴を可視層として入力し、１つのユーザ好み制限付きボルツマンマシンＲＢＭを訓練することと、を含むことを特徴とする請求項１に記載の音域バランシング方法。
前記音域バランシング結果を生成することは、
前記訓練済みのユーザ好み制限付きボルツマンマシンＲＢＭに基づいて、前記ユーザ好み音楽特徴をＲＢＭの可視層に入力して、ユーザ好み隠れ層特徴を取得することと、
前記ユーザ好み隠れ層特徴を前記クラスタモデルに入力して分類し、ユーザ好み平均隠れ層特徴を生成することと、
前記ユーザ好み平均隠れ層特徴及びユーザ好み制限付きボルツマンマシンＲＢＭに基づいて逆演算して、ユーザ好み平均オーディオ特徴を取得することと、
前記ユーザ好み平均オーディオ特徴と前記音楽データベースの平均オーディオ特徴に従ってユーザの音域バランシング等化結果を取得することと、を含むことを特徴とする請求項５に記載の音域バランシング方法。
前記音域バランシング結果を生成することは、前記ユーザ好み平均オーディオ特徴と前記音楽データベースの平均オーディオ特徴に従って比較し、両者の乖離傾向に基づいて音域バランシングを強化又は減衰させ、最終的な音域バランシング結果を取得することをさらに含むことを特徴とする請求項６に記載の音域バランシング方法。
前記オーディオデータ特徴を抽出することは、前記オーディオデータをフレーム化した後に特徴抽出を実行することを含むことを特徴とする請求項１に記載の音域バランシング方法。
前記オーディオデータ特徴を抽出する方法は、ＦＦＴ、ＳＴＦＴ、ＭＦＣＣ、又は１フレーム以上の時間領域波形の特徴における少なくとも１つを含むことを特徴とする請求項１に記載の音域バランシング方法。
前記オーディオデータ特徴を抽出することは、時間領域又は周波数領域の特徴を含むことを特徴とする請求項１に記載の音域バランシング方法。
前記訓練済みの音域バランシングモデルは、オンライン音域バランシングモデル及び／又はオフライン音域バランシングモデルを含むことを特徴とする請求項１に記載の音域バランシング方法。
特徴抽出モジュール及び音域バランシングモジュールを含むディープラーニングに基づく音域バランシング装置であって、
前記特徴抽出モジュールは、オーディオを取得し、特徴抽出を実行してオーディオデータ特徴を取得するために使用され、
前記音域バランシングモジュールは、前記特徴抽出モジュールが抽出した前記オーディオデータ特徴に基づいて、訓練済みの音域バランシングモデルを利用して、音域バランシング結果を生成するために使用され、
前記音域バランシングモジュールは、オンライン音域バランシングモジュール及び／又はオフライン音域バランシングモジュールをさらに含み、
前記オンライン音域バランシングモジュールは、音楽データベースとユーザ好み音楽リストに基づいて、教師ありディープラーニング方法を用いてユーザが好む音楽のタイプをリアルタイムで評価してオンライン音域バランシングモデルを取得し、
既存の音楽スタイルのイコライザーを組み合わせてユーザのオンライン音域バランシング等化結果を取得するために使用され、
前記オフライン音域バランシングモジュールは、ユーザ好み音楽リストに基づいて、ユーザ好み音楽自体に対する特徴抽出を行い、教師なしディープラーニング方法を用いてオフライン音域バランシングモデルを取得し、
ユーザのオフライン音域バランシング等化結果を生成するために使用されることを特徴とするディープラーニングに基づく音域バランシング装置。
記憶装置及びプロセッサを備えるディープラーニングに基づく音域バランシングシステムであって、前記記憶装置には前記プロセッサにより実行されるコンピュータプログラムが記憶され、前記コンピュータプログラムは前記プロセッサにより実行される場合、請求項１乃至１１のいずれか一項に記載のディープラーニングに基づく音域バランシング方法を実行することを特徴とするディープラーニングに基づく音域バランシングシステム。