CN113094544A - 一种基于dcnn联合特征表示的音乐推荐方法 - Google Patents
一种基于dcnn联合特征表示的音乐推荐方法 Download PDFInfo
- Publication number
- CN113094544A CN113094544A CN202110338511.4A CN202110338511A CN113094544A CN 113094544 A CN113094544 A CN 113094544A CN 202110338511 A CN202110338511 A CN 202110338511A CN 113094544 A CN113094544 A CN 113094544A
- Authority
- CN
- China
- Prior art keywords
- music
- dcnn
- recommendation method
- spectrogram
- audio
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 238000012549 training Methods 0.000 claims abstract description 34
- 239000013598 vector Substances 0.000 claims abstract description 9
- 230000009467 reduction Effects 0.000 claims abstract description 5
- 238000000605 extraction Methods 0.000 claims abstract description 3
- 238000007781 pre-processing Methods 0.000 claims abstract 3
- 238000011176 pooling Methods 0.000 claims description 10
- 238000001228 spectrum Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 7
- 238000012545 processing Methods 0.000 claims description 7
- 230000005236 sound signal Effects 0.000 claims description 5
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 4
- 238000005457 optimization Methods 0.000 claims description 4
- 230000004913 activation Effects 0.000 claims description 3
- 238000006243 chemical reaction Methods 0.000 claims description 3
- 238000010606 normalization Methods 0.000 claims description 3
- 238000009432 framing Methods 0.000 claims description 2
- 238000011946 reduction process Methods 0.000 claims description 2
- 238000005070 sampling Methods 0.000 claims description 2
- 238000013528 artificial neural network Methods 0.000 claims 1
- 230000002457 bidirectional effect Effects 0.000 claims 1
- 230000002708 enhancing effect Effects 0.000 claims 1
- 230000006870 function Effects 0.000 description 7
- 238000005516 engineering process Methods 0.000 description 5
- 230000000694 effects Effects 0.000 description 3
- 230000003595 spectral effect Effects 0.000 description 3
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 238000007792 addition Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000015556 catabolic process Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000006731 degradation reaction Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000008034 disappearance Effects 0.000 description 1
- 210000005069 ears Anatomy 0.000 description 1
- 238000011156 evaluation Methods 0.000 description 1
- 230000037433 frameshift Effects 0.000 description 1
- 238000011478 gradient descent method Methods 0.000 description 1
- 230000001771 impaired effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/60—Information retrieval; Database structures therefor; File system structures therefor of audio data
- G06F16/68—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/683—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0208—Noise filtering
- G10L2021/02082—Noise filtering the noise being echo, reverberation of the speech
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Biophysics (AREA)
- Biomedical Technology (AREA)
- Artificial Intelligence (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Evolutionary Computation (AREA)
- Library & Information Science (AREA)
- Multimedia (AREA)
- Databases & Information Systems (AREA)
- Quality & Reliability (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于DCNN联合特征表示的音乐推荐方法,其发明内容主要包括音乐预处理和增强、音乐特征的提取和推荐方法的建模,首先将Log梅尔谱图输入到第一通道的DCNN进行训练,即得基于Log梅尔谱图的DCNN模型,同时将MFCC等特征输入到CNN中训练,即得基于MFCC的CNN模型,然后将第一通道和第二通道的结果进行组合拼接,输入到全连接层和softmax层,进行音乐特征向量的进一步降维,由于采用了不同模态的数据,训练的结果更加准确,更具有扩展性,最后计算用户偏好并对其推荐音乐。
Description
技术领域
本发明属于个性化音乐推荐领域,涵盖了音频处理、图像处理、推荐系统以及深度学习等领域知识和相关技术,是一种基于DCNN联合特征表示的音乐推荐方法。
背景技术
21世纪是信息科技飞速发展的时代,伴随着科技的飞速猛进和互联网的欣欣向荣,人类已然进入信息化和大数据时代。当前,以互联网为主体的数字音乐逐渐地走入人们的视线和每日生活,在互联网高效、快速的传播方式下,在线数字音乐的需求与供应不断增大。与此同时也带来了诸多问题,例如信息过载、信息不对称等问题。为了克服这些问题,个性化音乐推荐系统就此诞生。
现有的音乐推荐系统大多数采用的是比较传统的推荐方法,例如基于领域推荐、基于标签推荐和基于知识领域推荐以及混合推荐等,虽然在一定程度上解决了上述问题,以及人们越来越个性化音乐的追求,但在推荐效果上却不太理想,例如推荐的音乐大多相似,不具备多样性,推荐的结果可解释性较差,无法让用户信服或满意,以及推荐需要用户具备很高的领域知识,没能从音乐本体考虑,关注较多的用户行为数据,忽略了音乐的音频携带大量的有效信息,从而导致音乐推荐无法适应当前人们对音乐的个性化追求。
为了能够缓解或解决上述音乐推荐系统存在的问题和难点,以及给用户提供一个更加智能化、个性化的音乐推荐系统,来满足当下人们对音乐的需求。随着深度学习在多数领域大放异彩,且取得了骄人的成绩,因此本发明在传统推荐算法的基础上结合卷积神经网络等诸多人工智能技术,进一步探索一个新颖的个性化音乐推荐,即提出了一种基于DCNN联合特征表示的音乐推荐方法。
发明内容
本发明的目的:为了解决现有音乐推荐技术的缺点,进一步提高音乐推荐的准确率和多样性,本发明提出了一种基于DCNN联合特征表示的音乐推荐方法,该方法利用不同形式的数据进行多角度挖掘分析,能够为用户提供符合个人偏好的音乐推荐。
为了实现符合要求的个性化音乐推荐,本发明提出的基于DCNN联合特征表示的音乐推荐方法,主要包括以下步骤:
S1、对原始音乐数据集进行格式转换,统一为MP3格式,并对其进行标识。
S2、音乐音频的增强:对音频的增强主要包括降噪(ANC)、回声消除(AEC)和调整采样率等,这一步是数据增强的重要一步,直接影响接下来音频谱图能否包含准确且有效的潜在特征。
S3、音频的声谱图
S3.1、首先将步骤1、2得到的音频进行预加重(Pre-Emphasis,PE),使得音频喜好保持频谱平稳,增强高频段,即H(Z)=1-μZ-1,其中,μ∈[0.9,1.0);
S3.3、紧接上一步,通过快速傅里叶变换(Fast Fourier Transform,FFT),再将每帧的频谱图顺时针翻转90度,再按顺序堆叠起来就得到声谱图,实际上这就是短时傅里叶变换(Short-Time Fourier Transform,STFT),即w(t)代表窗函数,S(ω,τ)代表STFT,每一列代表不同位置的加窗信号;
S3.4、将步骤3.3的结果输入到滤波组中,利用滤波器将其转化为Mel频率,即 f代表频率,单位为Hz,log代表以10为底的对数,m代表Mel频率,然后在做对数运算就得到了音乐音频信号的Log梅尔谱图。
S4、为了充分挖掘和利用音乐音频信号的信息,将从另一个维度提取音乐的潜在特征,形成文本数据,即通过librosa库对音乐片段进行梅尔频率倒谱系数(MayerFrequency Cepstrum Coefficient,MFCC)、频谱质心、过零率和色度频率等特征的提取,形成音乐元数据,保存在文件中。
S5、利用DCNN对音乐的Log梅尔谱图进行卷积、池化等操作
S5.1、每一次经过卷积之后,使用归一化操作和Relu激活函数对其增强非线性表达能力,此外为了学习捕获边界信息,在第一通道DCNN中进行padding,设置方式为same计算公式为:n代表输入尺寸大小,s代表步幅大小,代表向上取整;
S5.2、经过步骤4.1之后,得到参数较多,维度较高的数据,再对其进行最大池化操作得到低维特征向量;
S5.3、步骤4.2得到的特征向量会依次经过后面3个卷积层和池化层,然后进入全连接层进一步降维,得到第一通道的DCNN训练的特征向量,称为X1,该输出接下来会与第二通道的DCNN的输出进行合并,作为新的特征,进行整个网络的下一步训练。
S6、将步骤4提取的音乐元数据经过处理后,输入到CNN中进行特征训练,经过卷积层、池化层以及全连接层后输出一个具有标识的低维特征向量,称为X2,连接来自两个通道输出的X1和X2,将作为下一个隐层的输入,并投射它们到联合的特征空间中,然后将联合特征代表传递到softmax层进行分类,最后结合CB算法对音乐进行推荐。
S7、训练优化DCNN模型
S7.1、利用训练集和验证集对DCNN联合特征表示模型进行训练,采用Adam梯度下降法对模型中的参数进行优化,选择交叉熵误差作为模型的损失函数,当模型训练超过设定的阈值时,如果模型没有提升,就提前结束训练;
S7.2、将上述整理好的两个数据集保存起来,在每次训练时,只需加载处理好的数据,从而提高模型的效率。
本发明采用的DCNN联合特征表示模型参数较少,训练更加稳定、效率更高,解决了训练时间与高效率之间的矛盾。由于利用不同的音乐特征数据和不同的训练通道,不仅有效地解决了训练数据的多模态,使训练结果更可靠,增加了其扩展性和适应性,而且保证了推荐结果更加满足用户的偏好,增强了音乐推荐的准确性和多样性。
附图说明
图1:本发明的一种基于DCNN联合特征表示的音乐推荐方法的流程图。
图2:本发明的DCNN联合特征表示模型框架图。
具体实施方式
本发明的具体实施方式具体内容如下:
(1)音乐格式转换
如图1所示,首先对音乐数据按照音乐类别进行归类,然后对每一类进行重新命名,例如electronic__1482.mp3、hip_hop__005.mp3、instrumental__10230.mp3等,其中electronic、hip_hop、instrumental代表音乐类别,1482、005、10230代表音乐ID,经过处理后,音乐的格式均为MP3,为下一步音乐音频的处理和音频谱图的生成打下基础。
(2)音乐音频的增强
由于原始音乐数据可能会存在噪声或音质受损等情况,因此需要对其进行增强,使其接近理想状态。降噪主要利用滤波器,在降噪过程中,按照评价准则:尽可能不损伤原始的音乐音频信号;回声消除利用NLMS算法实现,其滤波器抽头权重更新为w(n+1)=w(n)μ(n)e(n)x(n),e(n)代表误差信号,代表输入向量的步长值,μ代表步长参数,n代表时间步;音频的采样率调整利用SoX处理为44.1KHZ。
(3)声谱图和音频谱图
(3.1)音频进行FFT生成声谱图
在(1)(2)的基础上,为了得到更多的音频谱图以及模型的训练,将每首处理好的音乐在保证特性基本不变的情况下分割成每段大约5s的音频片段,然后对其进行预加重,选择合适的帧长,确保相邻两帧间保留有一定的帧移,加窗(窗口大小设置为1024,相邻窗距设置为512,窗函数使用汉宁窗,即最后通过快速傅里叶变换(Fast Fourier Transform,FFT)得到声谱图。
(3.2)Log梅尔谱图
在(3.1)获得的声谱图由于不符合人耳特性,潜在特征没能体现,因此不能直接用于训练。为了能够得到包含更多有效信息,损失最小的频谱图,需要将声谱图输入到Mel滤波器组中,滤波器数量设置为128,得到梅尔频谱,再对其取对数运算,将会得到Log梅尔谱图,然后将获得的图片归一化为256×256,最后对其进行标记,如electronic__1482__003.png、hip_hop__005__004.png、instrumental__10230__001.png,其中electronic、1482和003分别代表音乐类型、音乐ID和谱图序号。
(3.3)音频特征的提取
在(1)(2)处理好的音频中提取有价值的特征,主要包括韵律特征、光谱特征和语音质量特征为了对音频片段进行准确判别,将从音乐片段中提取MFCC、频谱质心、过零率和色度频率等特征,形成音乐元数据,作为一端DCNN模型的输入。
(4)基于Log梅尔谱图的DCNN
(4.1)使用Log梅尔谱图作为第一通道的DCNN网络模型的输入,为了使训练效果更好、减少训练时间以及保证训练的稳定,对DCNN模型采用两个较小的卷积核代替一个较大的卷积核,不仅能减少训练的权重参数,而且增强网络的非线性表征能力。
(4.2)第一通道的DCNN加入了批量归一化层,同时采用ReLu激活函数和Adam优化方法,这样在一定程度上可以防止梯度消失或网络退化问题,且保证了训练的稳定性。音频谱图进入第一通道的DCNN经过多轮训练,不断减小音乐特征真值与预测值之间的交叉熵误差,直至达到最佳的训练目的,最终得到回归预测模型。
(4.3)本发明第一通道DCNN是由4个卷积层和4个池化层交替出现,以及1个全连接组成的。经过上述的优化调整,该模型能够潜在的和更深层次的音频信息,并且通过4个池化层后,高纬度的特征信息大幅降低,同时提高了网络的准确率。
(5)基于MFCC的CNN
(5.1)将(3.3)得到的音乐元数据进行特征统计处理,使其适合网络的输入要求。由于该特征数据远小于图像,第二通道的CNN采用简单的网络结构,即卷积层、池化层均为一维的两层的,且全连接层比基于Log梅尔谱图的DCNN多了一层。
(5.2)MFCC-CNN模型训练
采用Adam优化算法训练并调整MFCC-CNN的权重参数等,使用交叉熵损失作为模型的损失函数,交叉熵公式如下:
H(D,Y)=-∑D(x)logY(x) (5.1)
其中,D为真实值,Y为预测值。
(6)联合特征代表的训练,第一通道训练类似,最终会得到低维代表的特征向量,随后将第一通道和第二通道的结果组合在一起,进入全连接层和softmax层,softmax公式如下:
最终得到预测的结果的概率值为P,P={p1,p2,…,pN},pi代表第i个类别的概率值,Max(pi)即为实际的输出结果。然后结合CB算法原理,即先利用用户以前偏好的item特征,学习出用户的偏好特征,通过对比以前item特征特征与候选item的特征,实现满足用户偏好的音乐TopN推荐。
以上对本发明实施例所述的具体内容是本发明较好的实施方式,但本发明的实施方式并不局限于以上详述的实施例,对于一般技术人员,应当在不脱离本发明的原理上,可以进行修改、替换、增加等操作,但这些操作均在本发明的保护范围内。
Claims (7)
1.一种基于DCNN联合特征表示的音乐推荐方法,其特征在于,包括:
音乐预处理和增强:用于处理原始音乐数据,以及增强音乐音频用来进行特征的提取;
音乐特征建模模块:在音乐音频预处理即增强完成后,进行音乐的特征提取,分为谱图特征以及MFCC等特征,用于对DCNN模型进行训练的初始样本;
推荐方法模块:所述的音乐推荐建模模块和推荐方法模块是双向连接,进行两端训练,然后将训练得到的低维特征向量进行组合拼接,再进行下一步工作并推荐音乐。
2.如权利要求1所述的一种基于DCNN联合特征表示的音乐推荐方法,其特征在于,包括:
S1、音乐格式转换:将原始音乐数据进行格式转换,统一格式为MP3,并对每首音乐进行“类别-ID”的形式进行标识;
S2、音乐音频的增强:由于原始音乐数据可能会存在噪声或音质受损等情况,因此需要对其进行增强,降噪主要利用滤波器,在降噪过程中,尽可能不损伤原始的音乐音频信号,回声消除利用NLMS算法实现,音频的采样率调整利用SoX处理;
S3、声谱图和音频谱图:主要包括音频进行FFT生成声谱图、Log梅尔谱图等。音乐音频信号经过预加重、分帧加窗和FFT获得音频声谱图,在输入到梅尔滤波器组中,进一步得到梅尔谱图,最后进行对数运算得到Log梅尔谱图,用于第一通道的模型输入;
S4、音频特征的提取,使用librosa库进行音乐片段的MFCC等特征的提取,保存为文件,作为第二通道的输入数据。
3.如权利要求2所述的一种基于DCNN联合特征表示的音乐推荐方法,其特征在于:在S3中,采用1024的窗口大小,相邻窗距为512,窗函数使用α=0.46的汉宁窗,梅尔滤波器数量为128,以及以10为底的对数运算。
4.如权利要求2所述的一种基于DCNN联合特征表示的音乐推荐方法,其特征在于,上述是S1、S2、S3中,使用Log梅尔谱图作为第一通道的DCNN网络模型的输入,经过多轮训练,不断减小音乐特征真值与预测值之间的交叉熵误差,直至达到最佳的训练目的,最终得到回归预测模型,即是基于Log梅尔谱图的DCNN模型。
5.如权利要求4所述的一种基于DCNN联合特征表示的音乐推荐方法,其特征在于:第一通道的DCNN加入了批量归一化层,同时采用ReLu激活函数和Adam优化方法,由4个卷积层和4个池化层交替出现,以及1个全连接组成的。
6.如权利要求2所述的一种基于DCNN联合特征表示的音乐推荐方法,其特征在于,上述S4中,将其得到的音乐元数据进行特征统计处理,使其适合网络的输入要求,训练并调整其权重参数,最终得到MFCC-CNN模型。该模型采用简单的网络结构,即卷积层、池化层均为一维的两层的,且全连接层比基于Log梅尔谱图的DCNN多了一层。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110338511.4A CN113094544B (zh) | 2021-03-26 | 2021-03-26 | 一种基于dcnn联合特征表示的音乐推荐方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110338511.4A CN113094544B (zh) | 2021-03-26 | 2021-03-26 | 一种基于dcnn联合特征表示的音乐推荐方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113094544A true CN113094544A (zh) | 2021-07-09 |
CN113094544B CN113094544B (zh) | 2023-03-24 |
Family
ID=76671178
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110338511.4A Active CN113094544B (zh) | 2021-03-26 | 2021-03-26 | 一种基于dcnn联合特征表示的音乐推荐方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113094544B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722234A (zh) * | 2022-04-07 | 2022-07-08 | 平安科技(深圳)有限公司 | 基于人工智能的音乐推荐方法、装置、存储介质 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108595550A (zh) * | 2018-04-10 | 2018-09-28 | 南京邮电大学 | 一种基于卷积神经网络的音乐推荐系统及推荐方法 |
CN108920648A (zh) * | 2018-07-03 | 2018-11-30 | 四川大学 | 一种基于音乐-图像语义关系的跨模态匹配方法 |
US20190156210A1 (en) * | 2017-11-17 | 2019-05-23 | Facebook, Inc. | Machine-Learning Models Based on Non-local Neural Networks |
US20200379787A1 (en) * | 2018-04-20 | 2020-12-03 | Facebook, Inc. | Assisting Users with Personalized and Contextual Communication Content |
CN112313642A (zh) * | 2018-04-20 | 2021-02-02 | 脸谱公司 | 助理系统进行的用于代理匹配的意图识别 |
CN112466329A (zh) * | 2020-11-16 | 2021-03-09 | 辽宁工程技术大学 | 一种改进dcnn的音乐流派分类方法 |
-
2021
- 2021-03-26 CN CN202110338511.4A patent/CN113094544B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20190156210A1 (en) * | 2017-11-17 | 2019-05-23 | Facebook, Inc. | Machine-Learning Models Based on Non-local Neural Networks |
CN108595550A (zh) * | 2018-04-10 | 2018-09-28 | 南京邮电大学 | 一种基于卷积神经网络的音乐推荐系统及推荐方法 |
US20200379787A1 (en) * | 2018-04-20 | 2020-12-03 | Facebook, Inc. | Assisting Users with Personalized and Contextual Communication Content |
CN112313642A (zh) * | 2018-04-20 | 2021-02-02 | 脸谱公司 | 助理系统进行的用于代理匹配的意图识别 |
CN112513838A (zh) * | 2018-04-20 | 2021-03-16 | 脸谱公司 | 为用户生成个性化内容汇总 |
CN108920648A (zh) * | 2018-07-03 | 2018-11-30 | 四川大学 | 一种基于音乐-图像语义关系的跨模态匹配方法 |
CN112466329A (zh) * | 2020-11-16 | 2021-03-09 | 辽宁工程技术大学 | 一种改进dcnn的音乐流派分类方法 |
Non-Patent Citations (1)
Title |
---|
李丹阳等: ""基于多源信息融合的音乐推荐方法"", 《数据分析与知识发现》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114722234A (zh) * | 2022-04-07 | 2022-07-08 | 平安科技(深圳)有限公司 | 基于人工智能的音乐推荐方法、装置、存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN113094544B (zh) | 2023-03-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110491416B (zh) | 一种基于lstm和sae的电话语音情感分析与识别方法 | |
CN108597539B (zh) | 基于参数迁移和语谱图的语音情感识别方法 | |
CN107633842A (zh) | 语音识别方法、装置、计算机设备及存储介质 | |
CN109493881A (zh) | 一种音频的标签化处理方法、装置和计算设备 | |
Ohi et al. | Deep speaker recognition: Process, progress, and challenges | |
CN110728991B (zh) | 一种改进的录音设备识别算法 | |
CN110047504A (zh) | 身份矢量x-vector线性变换下的说话人识别方法 | |
Sadeghi et al. | Optimal MFCC features extraction by differential evolution algorithm for speaker recognition | |
CN116226372A (zh) | 基于Bi-LSTM-CNN的多模态语音情感识别方法 | |
CN113094544B (zh) | 一种基于dcnn联合特征表示的音乐推荐方法 | |
CN113571095B (zh) | 基于嵌套深度神经网络的语音情感识别方法和系统 | |
CN110619886B (zh) | 一种针对低资源土家语的端到端语音增强方法 | |
CN117539999A (zh) | 一种基于跨模态联合编码的多模态情感分析方法 | |
CN113268628A (zh) | 一种基于模块化的加权融合神经网络的音乐情感识别方法 | |
Feng et al. | Speech emotion recognition based on LSTM and Mel scale wavelet packet decomposition | |
CN116153339A (zh) | 一种基于改进注意力机制的语音情感识别方法及装置 | |
CN115132170A (zh) | 语种分类方法、装置及计算机可读存储介质 | |
CN112101470B (zh) | 一种基于多通道高斯gan的引导零样本识别方法 | |
CN115472182A (zh) | 一种基于注意力特征融合的多通道自编码器的语音情感识别方法及装置 | |
Zhao et al. | Enhancing audio perception in augmented reality: a dynamic vocal information processing framework | |
CN113593537A (zh) | 基于互补特征学习框架的语音情感识别方法及装置 | |
CN113744759A (zh) | 音色模板定制方法及其装置、设备、介质、产品 | |
CN113851149A (zh) | 一种基于对抗迁移和Frobenius范数的跨库语音情感识别方法 | |
Iswarya et al. | Speech query recognition for Tamil language using wavelet and wavelet packets | |
Yu et al. | Endangered Tujia language speech enhancement research based on improved DCGAN |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |