CN109147807B - 一种基于深度学习的音域平衡方法、装置及系统 - Google Patents

一种基于深度学习的音域平衡方法、装置及系统 Download PDF

Info

Publication number
CN109147807B
CN109147807B CN201810583138.7A CN201810583138A CN109147807B CN 109147807 B CN109147807 B CN 109147807B CN 201810583138 A CN201810583138 A CN 201810583138A CN 109147807 B CN109147807 B CN 109147807B
Authority
CN
China
Prior art keywords
gamut
user preference
balancing
music
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810583138.7A
Other languages
English (en)
Other versions
CN109147807A (zh
Inventor
姚青山
秦宇
喻浩文
卢峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Anker Innovations Co Ltd
Original Assignee
Anker Innovations Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Anker Innovations Co Ltd filed Critical Anker Innovations Co Ltd
Priority to CN202111038622.XA priority Critical patent/CN113903346A/zh
Priority to CN201810583138.7A priority patent/CN109147807B/zh
Publication of CN109147807A publication Critical patent/CN109147807A/zh
Priority to US17/059,179 priority patent/US11875807B2/en
Priority to JP2020567945A priority patent/JP7136932B2/ja
Priority to PCT/CN2019/089757 priority patent/WO2019233360A1/zh
Application granted granted Critical
Publication of CN109147807B publication Critical patent/CN109147807B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/003Changing voice quality, e.g. pitch or formants
    • G10L21/007Changing voice quality, e.g. pitch or formants characterised by the process used
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/02Means for controlling the tone frequencies, e.g. attack or decay; Means for producing special musical effects, e.g. vibratos or glissandos
    • G10H1/06Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour
    • G10H1/12Circuits for establishing the harmonic content of tones, or other arrangements for changing the tone colour by filtering complex waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/46Volume control
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/005Tone control or bandwidth control in amplifiers of digital signals
    • HELECTRICITY
    • H03ELECTRONIC CIRCUITRY
    • H03GCONTROL OF AMPLIFICATION
    • H03G5/00Tone control or bandwidth control in amplifiers
    • H03G5/16Automatic control
    • H03G5/165Equalizers; Volume or gain control in limited frequency bands
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/04Circuits for transducers, loudspeakers or microphones for correcting frequency response
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2210/00Aspects or methods of musical processing having intrinsic musical character, i.e. involving musical theory or musical parameters or relying on musical knowledge, as applied in electrophonic musical tools or instruments
    • G10H2210/031Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal
    • G10H2210/036Musical analysis, i.e. isolation, extraction or identification of musical elements or musical parameters from a raw acoustic signal or from an encoded audio signal of musical genre, i.e. analysing the style of musical pieces, usually for selection, filtering or classification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2240/00Data organisation or data communication aspects, specifically adapted for electrophonic musical tools or instruments
    • G10H2240/095Identification code, e.g. ISWC for musical works; Identification dataset
    • G10H2240/101User identification
    • G10H2240/105User profile, i.e. data about the user, e.g. for user settings or user preferences
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H2250/00Aspects of algorithms or signal processing methods without intrinsic musical character, yet specifically adapted for or used in electrophonic musical processing
    • G10H2250/311Neural networks for electrophonic musical instruments or musical processing, e.g. for musical recognition or control, automatic composition or improvisation

Abstract

本发明提供了发明提供了一种基于深度学习的音域平衡方法、装置、及系统,所述方法包括:对音频数据进行特征提取得到音频数据特征;基于所述音频数据特征,利用训练好的音域平衡模型,生成所述待处理的音频数据的推荐音域平衡结果。本发明基于深层神经网络和无监督深度学习,解决无分类标签音乐和未知风格音乐的音域平衡的问题,并结合对用户偏好的统计,实现更合理的多类别音域平衡设计,满足个性化需求。

Description

一种基于深度学习的音域平衡方法、装置及系统
技术领域
本发明涉及声音技术领域,更具体地涉及一种音质调节方法及装置。
背景技术
音质是人对音频质量的主观评价,对音质每个人有不同的偏好,比如对不同频段声音的偏好,有的人喜欢低音澎湃的音乐,有人喜欢中高频较多甚至尖刺的声音,而有的人则喜欢中频段的清晰人声。
无论是音频播放设备供应商还是音频门户平台,设法提升增强音质,是能够提升用户音乐体验的最直接方法之一。音质的音域平衡是指通过对人耳可感知声音频域范围内的频率区间,如对人耳可感知声音的高中低频区域的频谱进行不同程度的增强或衰减,以满足人们对不同频段声音偏好。目前的一种常用调节方法是设置EQ(Equalizer)曲线,EQ曲线的每个点表示对一个频点或频段的增强或衰减倍数,有的播放终端和播放软件提供了通过调节播放终端的EQ均衡器的参数来提升音质的功能。目前,EQ均衡器调节方法分为两种,一种是由用户自己调节,如给定一系列均衡器,用户手动去选择设置,这种方法无法实现针对特对音乐自身特性或用户偏好的自适应音质调节;另一种方法是通过对音乐的标题,作者等标签特征做分析,将用户偏好与某一类或几类风格靠拢,利用该类风格已有的业内通用EQ设置去给用户做推荐。
但是,如果一个音乐无法取得相应的标签,或者一个音乐的风格可能属于几个类别,或者音乐中存在不同风格的段落,或者用户的音乐列表属于一种我们不知道的风格,那么就无法进行EQ均衡器的设置。因此,现有技术中的EQ均衡器的调节依赖于相应的音乐标签,且无法满足个性化的需求。
发明内容
考虑到上述问题而提出了本发明。本发明提供了一种基于深度学习的音域平衡方法、装置、系统及计算机存储介质,基于深层神经网络和无监督深度学习,解决无分类标签音乐和未知风格音乐的音域平衡的问题,并结合对用户偏好的统计,实现更合理的多类别音域平衡设计,满足个性化需求。
根据本发明一方面,提供一种基于深度学习的音域平衡方法,其特征在于,所述方法包括:对音频数据进行特征提取得到音频数据特征;基于所述音频数据特征,利用训练好的音域平衡模型,生成音域平衡结果。
示例性地,所述音域平衡模型包括:基于音乐数据库和用户偏好音乐列表,采用有监督的深度学习方法对用户偏好的音乐的类型进行实时评估,得到音域平衡模型;
示例性地,所述音域平衡模型包括基于用户偏好音乐列表,对用户偏好音乐自身的特征提取,采用无监督的深度学习方法,得到音域平衡模型。
示例性地,所述音域平衡模型的训练包括:
基于音乐数据库提取音乐数据的类别标签特征以及所述音乐数据的数据特征;
将所述音乐数据的数据特征作为输入层数据,所述类别标签特征作为输出层数据,训练得到音域平衡模型;
对用户偏好音乐数据进行特征提取得到数据特征并作为输入数据,输入所述音域平衡模型,得到所述用户偏好音乐数据的类别标签特征;
将所述用户偏好音乐数据的类别标签特征还原成所述用户偏好音乐数据的类别标签,形成用户偏好类别画像;
根据所述用户偏好类别画像和相应类别的音域平衡参数进行融合,得到用户的音域平衡均衡结果。
其中,所述相应类别音域平衡参数是现有技术中能够反映出不同类型音频特点的音质特性的参数,包括且不限于EQ均衡器的参数。
示例性地,所述用户偏好类别画像反映的是用户对于各类别音频数据的偏好程度,包括各类别音频数据所占的比例或权重。
示例性地,所述音域平衡模型训练的包括:
基于音乐数据库中大众用户偏好的音乐作为训练集,进行特征提取得到所述音乐数据库的音乐数据特征;
将所述音乐数据特征作为可视层输入,训练一个受限玻尔兹曼机RBM;
基于所述训练好的受限玻尔兹曼机RBM,将所述训练集的音乐数据特征输入受限玻尔兹曼机RBM可视层,得到隐层特征;并将所述隐层特征输入已经训练好的聚类模型进行分类,生成平均隐层特征;
基于所述平均隐层特征和所述受限玻尔兹曼机RBM进行一次反向运算,得到音乐数据库的平均音乐数据特征;
基于用户偏好音乐列表中的音乐进行特征提取,并将提取的用户偏好音乐特征作为可视层输入,训练一个用户偏好受限玻尔兹曼机RBM;
示例性地,基于所述训练好的用户偏好受限玻尔兹曼机RBM,将所述用户偏好音乐特征输入RBM可视层,得到用户偏好隐层特征;并将所述用户偏好隐层特征输入所述聚类模型进行分类,生成用户偏好平均隐层特征;
基于所述用户偏好平均隐层特征和用户偏好受限玻尔兹曼机RBM进行一次反向运算,得到用户偏好平均音乐特征;
根据所述用户偏好平均音乐特征与所述音乐数据库的平均音乐特征得到用户的离线音域平衡均衡结果。
示例性地,所述音频数据特征包括时域或频域特征。
示例性地,所述音频数据特征提取包括对所述音频数据进行分帧后进行特征提取。
示例性地,所述音频数据特征提取的方法包括FFT,STFT,MFCC,一帧或多帧时域波形或人工设计的其他特征中的至少一种。
示例性地,所述训练好的音域平衡模型包括在线音域平衡模型和/或离线音域平衡模型。
根据本发明的另一方面,提供一种基于深度学习的音域平衡装置,其特征在于,包括特征提取模块和音域平衡模块;
所述特征提取模块,用于获取音频数据库中的数据或用户偏好数据,并进行特征提取以得到所述音频数据库中的数据或用户偏好数据的特征;
所述音域平衡模块,用于基于所述特征提取模块提取的音频数据的特征,利用训练好的音域平衡模型,生成音域平衡结果。
示例性地,所述音域平衡模块还包括在线音域平衡模块和/或离线音域平衡模块;
所述在线音域平衡模块,用于基于音乐数据库和用户偏好音乐列表,采用有监督的深度学习方法对用户偏好的音乐的类型进行实时评估,得到在线音域平衡模型;结合已有的音乐风格的均衡器得到用户的在线音域平衡均衡结果;
所述离线音域平衡模块,用于基于用户偏好音乐列表,对用户偏好音乐自身的特征提取,采用无监督的深度学习方法,得到离线音域平衡模型;并生成用户的离线音域平衡均衡结果。
根据本发明另一方面,提供了一种基于深度学习的音域平衡系统,所述系统包括存储装置和处理器,所述存储装置上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时执行本发明的基于深度学习的音域平衡方法。
根据本发明另一方面,提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明的基于深度学习的音域平衡方法的相应步骤,并且用于实现根据本发明实施例的基于深度学习的音域平衡装置中的相应模块。
根据本发明另一方面,提供了一种计算机程序,所述计算机程序被计算机或处理器运行时用于执行上述任一项所述的基于深度学习的音域平衡方法,所述计算机程序还用于实现上述任一项所述的基于深度学习的音域平衡装置中的各模块。
附图说明
通过结合附图对本发明实施例进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与本发明实施例一起用于解释本发明,并不构成对本发明的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1是用于实现根据本发明实施例的基于深度学习的音域平衡方法、装置、系统、存储介质和计算机程序的示例电子设备的示意性框图;
图2用于实现根据本发明实施例的音域平衡方法的示意性流程图;
图3是根据本发明实施例的基于深度学习的音域平衡方法的示意性原理图;
图4是根据本发明实施例的用户偏好累积器的示意性原理图。
图5是根据本发明实施例的形成所述在线风格融合EQ均衡器设计系统的示意性原理图。
图6是根据本发明实施例的音乐数据的类别标签特征提取的过程的示意性原理图。
图7是根据本发明实施例的音乐数据的风格标签特征还原成风格标签的过程的示意性原理图。
图8是根据本发明实施例的形成用户偏好类别画像的过程的示意性原理图。
图9是根据本发明实施例的用户偏好类别画像的示意性原理图。
图10是根据本发明实施例的在线EQ均衡结果的示意性原理图。
图11是根据本发明实施例的形成离线EQ均衡系统意性原理图。
图12是根据本发明实施例的受限玻尔兹曼机的原理性示意图。
图13是根据本发明的实施例的一种基于深度学习的音域平衡装置的示意性框图。
图14是根据本发明的实施例的一种基于深度学习的音域平衡系统的示意性框图。
具体实施方式
为了使得本发明的目的、技术方案和优点更为明显,下面将参照附图详细描述根据本发明的示例实施例。显然,所描述的实施例仅仅是本发明的一部分实施例,而不是本发明的全部实施例,应理解,本发明不受这里描述的示例实施例的限制。
首先,参照图1来描述用于实现本发明实施例的基于深度学习的音域平衡方法、装置、系统、存储介质和计算机程序的示例电子设备100。
如图1所示,电子设备100包括一个或多个处理器102、一个或多个存储装置104、输入装置106以及输出装置108,这些组件通过总线系统110和/或其它形式的连接机构(未示出)互连。应当注意,图1所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备也可以具有其他组件和结构。
所述处理器102可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制所述电子设备100中的其它组件以执行期望的功能。
所述存储装置104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的本发明实施例中(由处理器实现)的客户端功能以及/或者其它期望的功能。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。
所述输出装置108可以向外部(例如用户)输出各种信息(例如图像或声音),并且可以包括显示器、扬声器等中的一个或多个。
示例性地,用于实现根据本发明实施例的基于深度学习的音频音质增强方法、装置、系统、存储介质和计算机程序的示例电子设备可以被实现诸如智能手机、平板电脑等终端。
根据本发明的一方面,提供一种基于深度学习的音域平衡方法,所述方法包括:
对音频数据进行特征提取得到所述音频数据特征;
基于所述数据特征,利用训练好的音域平衡模型,生成所述待处理的音频数据的音域平衡结果。
其中,所述音域平衡包括且不限于EQ调整。
下面,以音乐的EQ调整为例,参考图2-图12,描述根据本发明实施例的基于深度学习的音域平衡方法。
如图2所示,基于深度学习的音域平衡方法可以包括如下步骤:
提取用户对音乐的偏好数据(10);
利用深度学习训练用户的音域平衡模型(20);
提取待播放音乐的时域和/或频域特征(30);
利用深度学习建立的用户的音域平衡模型计算出推荐的待播音乐的音域平衡方案(40);
输出所述音域平衡方案,调整待播音乐音效(50)。
其中,偏好数据包括不限于用户的音乐播放列表,行为等;提取待播放音乐的时域和/或频域特征包括且不限于对所述待播放音乐进行分帧后提取特征。
进一步地,如图3所示,基于深度学习的音域平衡方法可以包括如下步骤:
基于音乐数据库和用户偏好音乐列表,采用有监督的深度学习方法对用户偏好的音乐的类型进行评估(S1),得到在线音域平衡模型;结合相应的音乐风格的均衡器得到用户的在线音域均衡结果(S2);或
基于用户偏好音乐列表,对用户偏好音乐自身的特征提取,才采用无监督的深度学习方法,得到离线音域平衡模型(S4);并生成用户的离线音域均衡结果(S5);
所述用户偏好音乐列表由用户偏好音乐积累器提供(S3)。
其中,S1和S2合称为“在线风格融合音域均衡器设计系统”;S4,S5合称为“离线个性化音域均衡器设计系统”。前者在训练时需要用到网上用户对音乐的风格类型标注,因此称为“在线风格融合音域均衡器设计系统”;后者因为训练时不需要网上用户的标注,只需要音乐波形,因此称为“离线个性化音域均衡器设计系统”。
所述相应的音乐风格的均衡器是指现有技术中的能够反映出不同音乐风格特点的音域均衡器的参数。
进一步地,所述用户偏好音乐积累器通过分析用户行为得到用户偏好音乐列表。包括且不限于获取用户偏好音乐,并评估用户对每一个音乐的喜好值(如积累用户对一个音乐反馈,包括且不限于音乐的播放次数,点赞次数等;正面反馈如播放,点赞会增加该音乐的权值,反之则使权值数值负向变化);然后形成一个用户偏好音乐列表,列出与用户有互动的音乐和它们的权值。
在一个实施例中,参见图4,基于用户与数据库中音乐的互动统计矩阵300,包括且不限于删除音乐,播放音乐,下载音乐等用户行为的次数,形成互动统计矩阵。
对所述互动统计矩阵300进行分析,根据行为的次数和行为的评分计算出用户对每个音乐的偏好程度(301)。不同的行为反映了用户对一首音乐的不同偏好倾向,正向的行为如播放,下载会被认为是正面倾向,得到正分数,反之删除这类行为会被认为是反面倾向得到负分。行为的评分作为行为次数的加权,遍历用户对一首音乐所有的行为次数,加权相加后结果302,可看作用户对音乐的偏好即用户偏好音乐列表。
音频数据库中的音频数据被用户或其他途径打上了类别标签,包括且不限于“爵士”、“经典”等,一个音频数据应对应多个类别标签。对音频数据的类别标签进行归一化,得到音频数据对应每个类别的概率向量,对这个向量进行特征化,方法包括且不限于:矩阵分解,因子分解机,词向量化等。利用音乐波形的时频域特征作为输入,类别标签特征向量作为输出,训练一个深度神经网络。如果用户偏好一个无类别标签的音频数据或标签不全的音频数据,则利用特征提取方法和训练得到的深度神经网络将这个音频数据的音频波形映射到一个类别标签特征向量上。根据类别标签特征向量,融合已有的音质特性参数设计,反馈给用户。
进一步地,如图5所示,形成所述在线风格融合EQ均衡器设计系统可以包括如下步骤:
基于音乐数据库提取音乐数据的类别标签特征(S12)以及所述音乐数据的数据特征(S11)。
其中,提取所述类别标签特征的方法包括且不限于矩阵分解,因子分解机,词向量化等方法;所述音频数据的数据特征包括且不限于音频波形中具有明显类别特色部分的特征;所述数据特征的提取方法包括且不限于fft(Fast Fourier Transformation),mfcc(Mel-Frequency Cepstral Coefficient)等。
在一个实施例中,以矩阵分解为例,说明对音乐数据的类别标签特征提取的过程。参见附图6,大众用户对不同音乐的类别标签(如,风格标签)进行标注形成标注矩阵120,标注矩阵120中的数据代表标注的次数,如有12个用户将音乐“我的祖国”标注为“民乐”类别,则标注矩阵120中行为“我的祖国”,列为“民乐”的数据就是12。标注矩阵120的每一行,称为一首音乐的“风格标签”。
原始的标注矩阵120每一行显然是一个稀疏的向量,如一首音乐的风格标签,有几个坐标是正数,其他的为0是正常的,但很少会有所有坐标都是正数情况,也就是说多数音乐应该只对应几种风格,甚至只是一种风格。因此这个标注矩阵120是很稀疏的,我们需要对它进行风格标签特征提取,使每首音乐的风格特征更加密集,且能更好的反映相似音乐之间特征的相关度。
将标准矩阵120进行分解,得到的分解结果为风格标签特征矩阵121和权重矩阵122,其中,风格标签特征矩阵121的每一行是一首音乐的风格标签特征,可以看作是风格标签这个稀疏向量的压缩,相似音乐的风格标签特征之间具有较高的相似度,如《我的祖国》和《十送红军》的特征余弦相关度,显然高于《我的祖国》和《七里香》;权重矩阵122的每一列对应一个音乐风格,一列的数值表征这个音乐风格,对风格标签特征矩阵121的风格标签特征每个元素的权重。风格标签特征矩阵121和权重矩阵122相乘结果是对原始的标注矩阵的近似还原。
将所述音乐数据的数据特征作为输入层数据,所述类别标签特征作为输出层数据,训练得到在线音域平衡模型(S13)。
对用户偏好音乐数据进行特征提取得到数据特征并作为输入数据,输入所述在线音域平衡模型,得到所述用户偏好音乐数据的类别标签特征(S14)。
在一个实施例中,获取一首用户偏好的音乐,从音乐波形中提取的特征作为输入,使用神经网络模型进行运算,输出的结果是对这首音乐的风格特征向量即类别标签特征。对于用户音乐的不同时域段,可能会输出不同的风格特征,得到最后的风格特征估计结果的方法包括且不限于:各段输出的平均,或采取其他的融合方式(如投票);最终一首音乐输出一个风格特征向量。
将所述用户偏好音乐数据的类别标签特征还原成所述用户偏好音乐数据的类别标签(S21),基于所述待处理的音频数据的类别标签形成用户偏好类别画像。
在一个实施例中,以矩阵分解为例,说明对音乐数据的风格标签特征还原成风格标签的过程。参见图7,所述深层神经网络模型输出的特征向量为音乐数据的风格标签特征200,乘以权重矩阵201(即风格标签特征提取中的权重矩阵122),还原出该音乐数据可能的风格标签202。此处需要说明的是,如果前面采取其他的风格标签特征提取方法,如因子分解机,还原风格标签的方法应与特征提取方法相对应。
在一个实施例中,以矩阵分解为例,说明形成用户偏好类别画像的过程。参见图8,基于前述的用户偏好音乐积累器(S3)得到的用户对每首歌偏好度矩阵220,以及所述用户偏好音乐数据的类别标签(S21)得到的用户每首歌的风格分布矩阵221,通过这两个矩阵220和221可以计算得到用户对每个风格的偏好程度。例如,矩阵220记为A是一个M*1的矩阵,M是音乐数目;矩阵221记为B是M*N的矩阵,N是风格;基于矩阵A和矩阵B对用户风格标签进行用户评分加权,如用矩阵A的每一行数值乘以矩阵B的每一行数值,得到矩阵223记为C,其中C(i,j)=A(i)*B(i,j),将矩阵C的列相加得到用户风格偏好矩阵225记为P,
Figure BDA0001685970190000111
其中,i,j,k,M,N均为自然数。
根据所述用户风格偏好矩阵225得到用户偏好类别画像,包括且不限于饼图,参见图9,其中可以忽略负分的类别。
根据所述用户偏好类别画像和相应类别的EQ曲线进行融合(S23),得到用户的在线EQ均衡结果。
其中,所述用户偏好类别画像反映的是用户对于各类别音频数据的偏好程度,所述用户偏好类别画像包括且不限于反映各类别音频数据所占的比例或权重的图(如柱状图,饼状图)。在一个实施例中,用户经常点击的音乐的音乐标签特征,在摇滚风格的坐标上有最大数值,画像可能会显示摇滚是用户的主要偏好,那么摇滚类别在画像中所占的比例大。在一个实施例中,参见图10,每个类别的EQ曲线已知,根据所述用户偏好类别画像中的每个类别所占的权重,结合得到用户的在线EQ均衡结果即个性化EQ。
将所述用户的在线EQ均衡结果发送给用户(S24)。
进一步地,所述离线线风格融合EQ均衡器设计系统通过无监督深度学习方法学习一组用户偏好音乐的EQ设置。从音乐库中大众用户偏好的各类音乐均匀抽取若干作为训练样本,提取每帧频域特征作为可视层训练一个受限玻尔兹曼机;加权平均每个音乐的玻尔兹曼机输出,对玻尔兹曼机进行反向运算,得到的可视层作为“音乐平均频域特征”;当用户音乐列表积累到一定规模时候,选取列表中选取用户喜好值高的音乐,提取每帧频域特征作为可视层训练一个玻尔兹曼机;加权平均每个音乐的玻尔兹曼机输出,对玻尔兹曼机进行反向运算,得到的可视层作为“用户偏好的音乐平均频域特征”。
如图11所示,形成所述离线线风格融合EQ均衡器设计系统可以包括如下步骤:
基于音乐数据库中大众用户偏好的各类音乐均匀抽取若干作为训练集,进行特征提取得到所述音乐数据库的音乐数据特征(S40)。
其中,所述音乐数据特征包括且不限于时域和/或频域特征(如幅度谱和/或相位信息)。
将所述音乐数据特征作为可视层输入,训练一个受限玻尔兹曼机(RBM)(S41)。
在一个实施例中,参见图12,音乐数据特征如时频域特征400作为可视层输入,经过神经网络前向运算得到隐层数据401,RBM网络是双向传播网络,隐层数据402以相同的连接权值进行一次反方向的神经网络向前运算,得到可视层估值403,一般的这个估值跟原始输入的音乐数据特征400是有误差的,根据这个误差对网络权值进行调节,直到误差小于训练设定的可接受误差。
基于所述训练好的RBM,将所述训练集的音乐数据特征输入RBM可视层,得到隐层特征;并将所述隐层特征输入已经训练好的聚类模型进行分类(S44),生成平均隐层特征(S42)。
其中,所述训练好的聚类模型包括基于所述高偏好值的音乐数据特征为输入,训练得到N类的聚类器(N为自然数)(S43)。
所述生成平均隐层特征还包括:所述隐层特征根据所述聚类模型的聚类结果进行加权平均成平均隐层特征。
在一个实施例中,假设有M个样本,则输出M个隐层特征;M个隐层特征按聚类结果进行加权平均,比如有N个类,每一类样本数为Q(k),k=1,2……N;对聚类结果进行加权平均后得到的向量为可以看作所有风格音乐的平均隐层特征(包括且不限于音乐数据库的特征谱)。
基于所述平均隐层特征和所述RBM进行一次反向运算,得到音乐数据库的平均音乐数据特征(S45)。
其中,所述平均音乐数据特征可以看作所有风格音乐的平均音乐数据特征。
基于用户偏好音乐列表中的音乐进行特征提取(S46),并将提取的用户偏好音乐特征作为可视层输入,训练一个用户偏好受限玻尔兹曼机(S47)。
其中,所述用户偏好受限玻尔兹曼机(用户偏好RBM)的训练方法类似于前述S41的方法;所述用户偏好音乐特征包括且不限于时域和/或频域特征。
基于所述训练好的用户偏好RBM,将所述用户偏好音乐特征输入RBM可视层,得到用户偏好隐层特征;并将所述用户偏好隐层特征输入所述聚类模型进行分类,生成用户偏好平均隐层特征(S48)。
其中,所述聚类模型是前述S43中训练好的聚类模型,输入所述用户偏好隐层特征以统计用户音乐特征的类分布。
所述生成用户偏好平均隐层特征的方法类似于前述S42的方法,所述用户偏好隐层特征根据聚类模型的聚类结果进行加权平均得到用户偏好平均隐层特征。
基于所述用户偏好平均隐层特征和所述RBM进行一次反向运算,得到用户偏好平均音乐特征(S49)。
根据所述用户偏好平均音乐特征与所述音乐数据库的平均音乐特征得到用户偏好的EQ均衡设置(S50)。
其中,所述得到用户偏好的EQ均衡设置包括且不限于通过EQ调节模型,调节模型通过所述两种特征的比较计算得到用户偏好的EQ均衡设置。
在一个实施例中,EQ调节模型是一个EQ调节机,所述EQ调节机根据用户偏好音乐平均音乐特征与音乐数据库的平均音乐特征进行对比,因为音乐库平均音乐特征反映了音乐具有的普遍性特性,用户偏好音乐平均音乐特征反应用户的偏好特性(如时频谱上用户偏好特征明显偏离音乐库特征的区域就应该是用户偏好的部分),EQ调节机根据这部分的偏离趋势对EQ曲线进行增强或衰减,然后输出最终的EQ曲线,即得到用户偏好的EQ均衡设置。
以上示例性地描述了根据本发明实施例的基于深度学习的音域平衡方法。示例性地,根据本发明实施例的基于深度学习的音域平衡方法可以在具有存储器和处理器的设备、装置或者系统中实现。
此外,根据本发明实施例的基于深度学习的音域平衡方法可以方便地部署到智能手机、平板电脑、个人计算机、音箱等移动设备上。替代地,根据本发明实施例的基于深度学习的音域平衡方法还可以部署在服务器端(或云端)。替代地,根据本发明实施例的基于深度学习的音域平衡方法还可以分布地部署在服务器端(或云端)和个人终端处。
根据本发明的另一方面,提供了一种基于深度学习的音域平衡装置。参考图13,图13示出了根据本发明的实施例的一种基于深度学习的音域平衡装置500的示意性框图。
基于深度学习的质平衡装置500包括特征提取模块510和音域平衡模块520。所述各个模块可分别执行上文中所描述的基于深度学习的音域平衡方法的各个步骤/功能。以下仅对基于深度学习的音域平衡装置500的各模块的主要功能进行描述,而省略以上已经描述过的细节内容。
特征提取模块510用于获取音频数据库中的数据或用户偏好数据,并进行特征提取以得到所述音频数据库中的数据或用户偏好数据的特征。音域平衡模块520用于基于所述特征提取模块提取的所述有损音频数据的特征,利用训练好的音域平衡模型,生成音域平衡结果。特征提取模块510和音域平衡模块520均可以由图1所示的电子设备中的处理器102运行存储装置104中存储的程序指令来实现。
示例性地,所述音域平衡模块520还包括在线音域平衡模块521和/或离线音域平衡模块522;所述在线音域平衡模块521,用于基于音乐数据库和用户偏好音乐列表,采用有监督的深度学习方法对用户偏好的音乐的类型进行实时评估,得到在线音域平衡模型;结合已有的音乐风格的均衡器得到用户的在线音域均衡结果;所述离线音域平衡模块522,用于基于用户偏好音乐列表,对用户偏好音乐自身的特征提取,采用无监督的深度学习方法,得到离线音域平衡模型;并生成用户的离线音域均衡结果。
根据本发明的另一方面,提供了一种基于深度学习的音域平衡装置。参考图14,图14示出了根据本发明的实施例的一种基于深度学习的音域平衡系统600的示意性框图。
基于深度学习的音域平衡系统600包括存储装置610以及处理器620。其中,存储装置610存储用于实现根据本发明实施例的基于深度学习的音域平衡方法中的相应步骤的程序。处理器620用于运行存储装置610中存储的程序,以执行根据本发明实施例的基于深度学习的音域平衡方法的相应步骤,并且用于实现根据本发明实施例的基于深度学习的音域平衡装置中的相应模块。
根据本发明的另一方面,还提供了一种存储介质,在所述存储介质上存储了程序指令,在所述程序指令被计算机或处理器运行时用于执行本发明实施例的基于深度学习的音域平衡方法的相应步骤,并且用于实现根据本发明实施例的基于深度学习的音域平衡装置中的相应模块。所述存储介质例如可以包括智能电话的存储卡、平板电脑的存储部件、个人计算机的硬盘、只读存储器(ROM)、可擦除可编程只读存储器(EPROM)、便携式紧致盘只读存储器(CD-ROM)、USB存储器、或者上述存储介质的任意组合。所述计算机可读存储介质可以是一个或多个计算机可读存储介质的任意组合。
在一个实施例中,所述计算机程序指令在被计算机运行时可以实现根据本发明实施例的基于深度学习的音域平衡装置的各个功能模块,并且/或者可以执行根据本发明实施例的基于深度学习的音域平衡方法。
根据本发明实施例的基于深度学习的音域平衡装置中的各模块可以通过根据本发明实施例的基于深度学习的音域平衡的电子设备的处理器运行在存储器中存储的计算机程序指令来实现,或者可以在根据本发明实施例的计算机程序产品的计算机可读存储介质中存储的计算机指令被计算机运行时实现。
此外,根据本发明实施例,还提供了一种计算机程序,该计算机程序可以存储在云端或本地的存储介质上。在该计算机程序被计算机或处理器运行时用于执行本发明实施例的基于深度学习的音域平衡方法的相应步骤,并且用于实现根据本发明实施例的基于深度学习的音域平衡装置中的相应模块。
综上,本发明提供了一种基于深度学习的音域平衡方法、装置、系统及计算机存储介质,基于深层神经网络和无监督深度学习,解决无分类标签音乐和未知风格音乐的音域平衡的问题,并结合对用户偏好的统计,实现更合理的多类别音域平衡设计,满足个性化需求。
尽管这里已经参考附图描述了示例实施例,应理解上述示例实施例仅仅是示例性的,并且不意图将本发明的范围限制于此。本领域普通技术人员可以在其中进行各种改变和修改,而不偏离本发明的范围和精神。所有这些改变和修改意在被包括在所附权利要求所要求的本发明的范围之内。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。例如,以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个设备,或一些特征可以忽略,或不执行。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本发明并帮助理解各个发明方面中的一个或多个,在对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该本发明的的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如相应的权利要求书所反映的那样,其发明点在于可以用少于某个公开的单个实施例的所有特征的特征来解决相应的技术问题。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本发明的单独实施例。
本领域的技术人员可以理解,除了特征之间相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本发明的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的物品分析设备中的一些模块的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本发明可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。
以上所述,仅为本发明的具体实施方式或对具体实施方式的说明,本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。本发明的保护范围应以权利要求的保护范围为准。

Claims (13)

1.一种基于深度学习的音域平衡方法,其特征在于, 所述方法包括:
对音频数据进行特征提取得到音频数据特征;
基于所述音频数据特征,利用包括训练好的音域平衡模型的在线风格融合音域均衡器设计系统或离线个性化音域均衡器设计系统,生成音域平衡结果,其中,基于用户偏好音乐列表训练得到所述训练好的音域平衡模型;
所述音域平衡模型训练的方法包括:
基于音频数据库中大众用户偏好的音频作为训练集,进行特征提取得到所述音频数据库的音频数据特征;
将所述音频数据特征作为可视层输入,训练一个受限玻尔兹曼机RBM;
基于所述训练好的受限玻尔兹曼机RBM,将所述训练集的音频数据特征输入受限玻尔兹曼机RBM可视层,得到隐层特征;并将所述隐层特征输入已经训练好的聚类模型进行分类,生成平均隐层特征;
基于所述平均隐层特征和所述受限玻尔兹曼机RBM进行一次反向运算,得到音频数据库的平均音频数据特征;
基于用户偏好音乐列表中的音频进行特征提取,并将提取的用户偏好音频特征作为可视层输入,训练一个用户偏好受限玻尔兹曼机RBM;
基于所述训练好的用户偏好受限玻尔兹曼机RBM,将所述用户偏好音乐特征输入RBM可视层,得到用户偏好隐层特征;并将所述用户偏好隐层特征输入所述聚类模型进行分类,生成用户偏好平均隐层特征;
基于所述用户偏好平均隐层特征和用户偏好受限玻尔兹曼机RBM进行一次反向运算,得到用户偏好平均音频特征,根据所述用户偏好平均音频特征与所述音频数据库的平均音频特征得到用户的音域平衡均衡结果。
2.如权利要求1所述的音域平衡方法,其特征在于,所述基于用户偏好音乐列表训练得到所述训练好的音域平衡模型,包括:
基于音乐数据库和用户偏好音乐列表,采用有监督的深度学习方法对用户偏好的音乐的类型进行评估,得到音域平衡模型;和/或
基于用户偏好音乐列表,对用户偏好音乐自身的特征提取,采用无监督的深度学习方法,得到音域平衡模型。
3.如权利要求1所述的音域平衡方法,其特征在于,所述音域平衡模型训练的方法包括:基于音乐数据库提取音乐数据的类别标签特征以及所述音乐数据的数据特征;
将所述音乐数据的数据特征作为输入层数据,所述类别标签特征作为输出层数据,训练得到音域平衡模型。
4.如权利要求2所述的音域平衡方法,其特征在于,所述生成音域平衡结果包括:
对用户偏好音频数据进行特征提取得到偏好数据特征并作为输入数据,输入所述音域平衡模型,得到所述用户偏好音频数据的类别标签特征;
将所述用户偏好音频数据的类别标签特征还原成所述用户偏好音频数据的类别标签,形成用户偏好类别画像;
根据所述用户偏好类别画像和相应类别的音域平衡参数进行融合,得到用户的在线音域平衡结果。
5.如权利要求4所述的音域平衡方法,其特征在于,所述用户偏好类别画像反映的是用户对于各类别音频数据的偏好程度,包括各类别音频数据所占的比例或权重。
6.如权利要求1所述的音域平衡方法,其特征在于,所述生成音域平衡结果还包括根据所述用户偏好平均音频特征与所述音乐数据库的平均音频特征进行对比,根据二者的偏离趋势对音域平衡进行增强或衰减,然后得到最终的音域平衡结果。
7.如权利要求1所述的音域平衡方法,其特征在于,所述音频数据特征提取包括对所述音频数据进行分帧后进行特征提取。
8.如权利要求1所述的音域平衡方法,其特征在于,所述音频数据特征提取的方法包括FFT,STFT,MFCC,一帧或多帧时域波形或人工设计的其他特征中的至少一种。
9.如权利要求1所述的音域平衡方法,其特征在于,所述音频数据特征提取包括时域或频域特征。
10.如权利要求1所述的音域平衡方法,其特征在于,所述训练好的音域平衡模型包括在线音域平衡模型和/或离线音域平衡模型。
11.一种基于深度学习的音域平衡装置,其特征在于,包括特征提取模块和音域平衡模块;
所述特征提取模块,用于获取音频并进行特征提取以得到音频数据特征;
所述音域平衡模块,用于基于所述特征提取模块提取的所述音频数据特征,利用包括训练好的音域平衡模型的在线风格融合音域均衡器设计系统或离线个性化音域均衡器设计系统,生成音域平衡结果,其中,基于用户偏好音乐列表训练得到所述训练好的音域平衡模型;
所述音域平衡模型训练的方法包括:
基于音频数据库中大众用户偏好的音频作为训练集,进行特征提取得到所述音频数据库的音频数据特征;
将所述音频数据特征作为可视层输入,训练一个受限玻尔兹曼机RBM;
基于所述训练好的受限玻尔兹曼机RBM,将所述训练集的音频数据特征输入受限玻尔兹曼机RBM可视层,得到隐层特征;并将所述隐层特征输入已经训练好的聚类模型进行分类,生成平均隐层特征;
基于所述平均隐层特征和所述受限玻尔兹曼机RBM进行一次反向运算,得到音频数据库的平均音频数据特征;
基于用户偏好音乐列表中的音频进行特征提取,并将提取的用户偏好音频特征作为可视层输入,训练一个用户偏好受限玻尔兹曼机RBM;
基于所述训练好的用户偏好受限玻尔兹曼机RBM,将所述用户偏好音乐特征输入RBM可视层,得到用户偏好隐层特征;并将所述用户偏好隐层特征输入所述聚类模型进行分类,生成用户偏好平均隐层特征;
基于所述用户偏好平均隐层特征和用户偏好受限玻尔兹曼机RBM进行一次反向运算,得到用户偏好平均音频特征,根据所述用户偏好平均音频特征与所述音频数据库的平均音频特征得到用户的音域平衡均衡结果。
12.如权利要求11所述的音域平衡装置,其特征在于,所述音域平衡模块还包括在线音域平衡模块和/或离线音域平衡模块;
所述在线音域平衡模块,用于基于音乐数据库和用户偏好音乐列表,采用有监督的深度学习方法对用户偏好的音乐的类型进行实时评估,得到在线音域平衡模型;结合已有的音乐风格的均衡器得到用户的在线音域平衡均衡结果;
所述离线音域平衡模块,用于基于用户偏好音乐列表,对用户偏好音乐自身的特征提取,采用无监督的深度学习方法,得到离线音域平衡模型;并生成用户的离线音域平衡均衡结果。
13.一种基于深度学习的音域平衡系统,所述系统包括存储装置和处理器,所述存储装置上存储有由所述处理器运行的计算机程序,所述计算机程序在被所述处理器运行时执行如权利要求1-10中任一项所述的基于深度学习的音域平衡方法。
CN201810583138.7A 2018-06-05 2018-06-05 一种基于深度学习的音域平衡方法、装置及系统 Active CN109147807B (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN202111038622.XA CN113903346A (zh) 2018-06-05 2018-06-05 一种基于深度学习的音域平衡方法、装置及系统
CN201810583138.7A CN109147807B (zh) 2018-06-05 2018-06-05 一种基于深度学习的音域平衡方法、装置及系统
US17/059,179 US11875807B2 (en) 2018-06-05 2019-06-03 Deep learning-based audio equalization
JP2020567945A JP7136932B2 (ja) 2018-06-05 2019-06-03 ディープラーニングに基づく音域バランシング方法、装置及びシステム
PCT/CN2019/089757 WO2019233360A1 (zh) 2018-06-05 2019-06-03 一种基于深度学习的音域平衡方法、装置及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810583138.7A CN109147807B (zh) 2018-06-05 2018-06-05 一种基于深度学习的音域平衡方法、装置及系统

Related Child Applications (1)

Application Number Title Priority Date Filing Date
CN202111038622.XA Division CN113903346A (zh) 2018-06-05 2018-06-05 一种基于深度学习的音域平衡方法、装置及系统

Publications (2)

Publication Number Publication Date
CN109147807A CN109147807A (zh) 2019-01-04
CN109147807B true CN109147807B (zh) 2023-06-23

Family

ID=64802010

Family Applications (2)

Application Number Title Priority Date Filing Date
CN202111038622.XA Pending CN113903346A (zh) 2018-06-05 2018-06-05 一种基于深度学习的音域平衡方法、装置及系统
CN201810583138.7A Active CN109147807B (zh) 2018-06-05 2018-06-05 一种基于深度学习的音域平衡方法、装置及系统

Family Applications Before (1)

Application Number Title Priority Date Filing Date
CN202111038622.XA Pending CN113903346A (zh) 2018-06-05 2018-06-05 一种基于深度学习的音域平衡方法、装置及系统

Country Status (4)

Country Link
US (1) US11875807B2 (zh)
JP (1) JP7136932B2 (zh)
CN (2) CN113903346A (zh)
WO (1) WO2019233360A1 (zh)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113903346A (zh) * 2018-06-05 2022-01-07 安克创新科技股份有限公司 一种基于深度学习的音域平衡方法、装置及系统
US10991379B2 (en) * 2018-06-22 2021-04-27 Babblelabs Llc Data driven audio enhancement
CN109741723A (zh) * 2018-12-29 2019-05-10 广州小鹏汽车科技有限公司 一种卡拉ok音效优化方法及卡拉ok装置
CN109830244A (zh) * 2019-01-21 2019-05-31 北京小唱科技有限公司 用于音频的动态混响处理方法及装置
CN113297412B (zh) * 2020-02-24 2023-09-29 北京达佳互联信息技术有限公司 音乐推荐方法、装置、电子设备和存储介质
CN111339428B (zh) * 2020-03-25 2021-02-26 江苏科技大学 基于受限玻尔兹曼机驱动的交互式个性化搜索方法
JP7026412B1 (ja) * 2020-06-30 2022-02-28 Jeインターナショナル株式会社 楽曲制作装置、端末装置、楽曲制作方法、プログラム、および記録媒体
CN112287160B (zh) * 2020-10-28 2023-12-12 广州欢聊网络科技有限公司 一种音频数据的排序方法、装置、计算机设备和存储介质
CN112333596A (zh) * 2020-11-05 2021-02-05 江苏紫米电子技术有限公司 一种耳机均衡器的调整方法、装置、服务器及介质
CN112511472B (zh) * 2020-11-10 2022-04-01 北京大学 一种基于神经网络的时频二阶均衡方法及通信系统
CN112632318A (zh) * 2020-12-24 2021-04-09 安克创新科技股份有限公司 一种音频推荐方法、装置、系统及存储介质
CN112967732B (zh) * 2021-02-25 2023-10-03 北京百度网讯科技有限公司 调整均衡器的方法、装置、设备和计算机可读存储介质

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528035A (zh) * 2015-09-09 2017-03-22 三星电子株式会社 控制声音的设备和方法及训练类型识别模型的设备和方法

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06244747A (ja) 1993-02-19 1994-09-02 Fujitsu Ltd 帰還型適応等化器
GB2430073A (en) 2005-09-08 2007-03-14 Univ East Anglia Analysis and transcription of music
JP6097048B2 (ja) 2012-10-31 2017-03-15 パナソニックオートモーティブシステムズアジアパシフィックカンパニーリミテッド 端末装置、サーバ装置、音声処理方法、設定方法、音声処理システム
CN103037100B (zh) * 2012-12-21 2015-02-18 广东欧珀移动通信有限公司 一种适用于智能手机的智能切换eq音效的方法
CN104078050A (zh) * 2013-03-26 2014-10-01 杜比实验室特许公司 用于音频分类和音频处理的设备和方法
CN103413557B (zh) * 2013-07-08 2017-03-15 深圳Tcl新技术有限公司 语音信号带宽扩展的方法和装置
US10497353B2 (en) * 2014-11-05 2019-12-03 Voyetra Turtle Beach, Inc. Headset with user configurable noise cancellation vs ambient noise pickup
WO2016175622A1 (en) * 2015-04-30 2016-11-03 Samsung Electronics Co., Ltd. Sound outputting apparatus, electronic apparatus, and control method thereof
KR102460393B1 (ko) * 2015-04-30 2022-11-01 삼성전자주식회사 사운드 출력 기기, 전자 장치 및 그 제어 방법
US20170140260A1 (en) * 2015-11-17 2017-05-18 RCRDCLUB Corporation Content filtering with convolutional neural networks
US10509626B2 (en) * 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US11034362B2 (en) * 2016-07-07 2021-06-15 Harman International Industries, Incorporated Portable personalization
CN106027809B (zh) 2016-07-27 2019-08-20 维沃移动通信有限公司 一种音量的调节方法及移动终端
US20180276540A1 (en) * 2017-03-22 2018-09-27 NextEv USA, Inc. Modeling of the latent embedding of music using deep neural network
CN107147792B (zh) * 2017-05-23 2020-10-27 惠州Tcl移动通信有限公司 一种自动配置音效的方法、装置、移动终端及存储装置
CN107241511B (zh) * 2017-06-30 2020-04-10 Oppo广东移动通信有限公司 一种音乐播放方法、装置、存储介质和终端
US10838686B2 (en) * 2017-07-13 2020-11-17 Josh Kovacevic Artificial intelligence to enhance a listening experience
US20190018644A1 (en) * 2017-07-13 2019-01-17 Josh Kovacevic Soundsharing capabilities application
CN107886943A (zh) 2017-11-21 2018-04-06 广州势必可赢网络科技有限公司 一种声纹识别方法及装置
CN109147804A (zh) * 2018-06-05 2019-01-04 安克创新科技股份有限公司 一种基于深度学习的音质特性处理方法及系统
CN113903346A (zh) * 2018-06-05 2022-01-07 安克创新科技股份有限公司 一种基于深度学习的音域平衡方法、装置及系统
US11199853B1 (en) * 2018-07-11 2021-12-14 AI Incorporated Versatile mobile platform
CA3115718A1 (en) * 2018-11-02 2020-05-07 Cser Ventures, LLC System for generating an output file
US11481628B2 (en) * 2019-11-26 2022-10-25 Gracenote, Inc. Methods and apparatus for audio equalization based on variant selection

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528035A (zh) * 2015-09-09 2017-03-22 三星电子株式会社 控制声音的设备和方法及训练类型识别模型的设备和方法

Also Published As

Publication number Publication date
CN113903346A (zh) 2022-01-07
WO2019233360A1 (zh) 2019-12-12
US20210217430A1 (en) 2021-07-15
JP2021525992A (ja) 2021-09-27
US11875807B2 (en) 2024-01-16
JP7136932B2 (ja) 2022-09-13
CN109147807A (zh) 2019-01-04

Similar Documents

Publication Publication Date Title
CN109147807B (zh) 一种基于深度学习的音域平衡方法、装置及系统
JP7137639B2 (ja) ディープラーニングに基づく音質特性処理方法及びシステム
CN108305641B (zh) 情感信息的确定方法和装置
CN108305643B (zh) 情感信息的确定方法和装置
Kons et al. Audio event classification using deep neural networks.
US7696427B2 (en) Method and system for recommending music
CN112199548A (zh) 一种基于卷积循环神经网络的音乐音频分类方法
Muthusamy et al. Particle swarm optimization based feature enhancement and feature selection for improved emotion recognition in speech and glottal signals
CN114822512B (zh) 音频数据的处理方法、装置、电子设备及存储介质
Kiktova-Vozarikova et al. Feature selection for acoustic events detection
CN109147816B (zh) 对音乐进行音量调节的方法及设备
Prinz et al. On End-to-End White-Box Adversarial Attacks in Music Information Retrieval.
CN108829739A (zh) 一种信息推送方法及装置
Al-Kaltakchi et al. Combined i-vector and extreme learning machine approach for robust speaker identification and evaluation with SITW 2016, NIST 2008, TIMIT databases
CN111428078A (zh) 音频指纹编码方法、装置、计算机设备及存储介质
Jiménez et al. An automatic approach of audio feature engineering for the extraction, analysis and selection of descriptors
WO2016102738A1 (en) Similarity determination and selection of music
Foucard et al. Multi-scale temporal fusion by boosting for music classification.
WO2016185091A1 (en) Media content selection
CN112632318A (zh) 一种音频推荐方法、装置、系统及存储介质
CN115116469A (zh) 特征表示的提取方法、装置、设备、介质及程序产品
CN113450811B (zh) 对音乐进行通透处理的方法及设备
WO2019237354A1 (en) Method and apparatus for computerized matching based on emotional profile
Surana et al. An audio-based anger detection algorithm using a hybrid artificial neural network and fuzzy logic model
CN115148195A (zh) 音频特征提取模型的训练方法和音频分类方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant