CN113140228A - 一种基于图神经网络的声乐打分方法 - Google Patents

一种基于图神经网络的声乐打分方法 Download PDF

Info

Publication number
CN113140228A
CN113140228A CN202110402798.2A CN202110402798A CN113140228A CN 113140228 A CN113140228 A CN 113140228A CN 202110402798 A CN202110402798 A CN 202110402798A CN 113140228 A CN113140228 A CN 113140228A
Authority
CN
China
Prior art keywords
graph
feature
neural network
library
audio
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110402798.2A
Other languages
English (en)
Inventor
李风环
李轶
吴缺
梁爽
黄浩诚
陈铭钧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong University of Technology
Original Assignee
Guangdong University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong University of Technology filed Critical Guangdong University of Technology
Priority to CN202110402798.2A priority Critical patent/CN113140228A/zh
Publication of CN113140228A publication Critical patent/CN113140228A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种基于图神经网络的声乐打分方法,包括以下步骤:S1:将歌曲音频通过librosa声音处理库转换成声音图形,分析声音图形获取歌曲音频的声音特征;S2:根据得到的声音特征利用图卷积神经网络进行男女声分类;S3:将分类后的歌曲音频利用异质图注意力网络进行打分。本发明利用librosa库提取大量的声音特征,然后借助于图卷积神经网络对局部结构的建模能力及图上普遍存在的节点依赖关系,使用图卷积神经网络和异质图注意力网络来进行打分,以使打分结果更加精确。

Description

一种基于图神经网络的声乐打分方法
技术领域
本发明涉及语音识别和数据挖掘技术领域,更具体地,涉及一种基于图神经网络的声乐打分方法。
背景技术
近年来,计算机智能化程度得到极大的提高,具备一定的决策判断能力,达到模拟人的行为的目标。而实时演唱打分算法便是模拟真人对演唱进行评价而推出的一种评分概念。它通过特征提取比对和演唱评价两个过程对演唱者进行评价,不仅能够用于唱歌软件的等级评定和演唱比赛的选手评级中,还能广泛运用在音乐初学者的音乐节奏、音准的校正,演唱方式学习等方面。同时,演唱打分算法也能帮助音乐设备进行调音校准,为其他媒体设备诸如数字电视等产品提供辅助功能,达到相辅相成的效果。在未来,演唱打分算法能够更大地激发人们对于唱歌的热情和兴趣,推动娱乐消遣模式的转型发展,为人们的音乐生活增添色彩。可以说,实时演唱打分算法对人们的未来生活具有重大意义,能极大的丰富人们的日常生活。
过去几年,深度学习快速发展,并借由其强大的建模能力引起广泛关注。深度学习的引入给图像处理和自然语言处理等领域带来了很大的提升,如机器翻译、图像识别和语音识别等,但是,传统的深度学习方法只能处理欧氏空间数据(如图像、文本和语言),这些领域的数据具有平移不变性。而本专利需要提取多维度的特征,变成图的结构,是非欧氏空间数据,所以采用图神经网络的方法。图卷积神经网络(Graph Convolutional Network,GCN)具有深度学习的层级结构、非线性变换和端对端训练的性质,是卷积神经网络在图域中的推广,能够实现参数共享、感受充分的特征和结构信息。图注意力网络(Graphattention network,GAT)可以处理任意大小输入的问题,并且关注最具有影响能力的输入,注意力机制在RNN与CNN之中,都取得了不错的效果。librosa库是用于音乐和音频分析的python软件包。它提供了提取音乐信息所必需的接口。
现有技术中,公开号为CN109271550A中国发明专利,于2019年1月25日公开了一种基于深度学习的音乐个性化分类推荐方法,包括对乐库中用户操作多的音乐建立向量模型来推荐相似音乐,同时训练一个深度网络模型分析音乐频谱图使用户操作数少的音乐也能有效地按用户喜好分类推荐。本方法主要利用了用户操作反馈和音乐频谱,能有效地避免人工建立复杂的音乐标签,同时对不同操作数的音乐区分操作,可以解决音乐新加入乐库的冷启动问题,该方案虽然是使用深度学习模型,但其是对音乐的个性化分类,没有实现声乐打分。
发明内容
本发明为克服上述现有技术中声乐打分方法精确度低的缺陷,提供一种基于图神经网络的声乐打分方法。
本发明的首要目的是为解决上述技术问题,本发明的技术方案如下:
本发明提供了一种基于图神经网络的声乐打分方法,包括以下步骤:
S1:将歌曲音频通过librosa声音处理库转换成声音图形,分析声音图形获取歌曲音频的声音特征;
S2:根据得到的声音特征利用图卷积神经网络进行男女声分类;
S3:将分类后的歌曲音频利用异质图注意力网络进行打分。
进一步的,步骤S1中获取的声音特征包括:色谱图、局部自相关、节奏、频谱图。
进一步的,步骤S1中声音特征提取的具体步骤为:
S101:利用librosa库的librosa.load函数,提取歌曲的音频;
S102:利用librosa库的librosa.feature.chroma_stft函数,计算歌曲音频的色谱图,其中利用音频时间序列y,y的采样率sr,产生的色度仓数n_chroma,fft窗口大小n_fft;
S103:利用librosa库的librosa.feature.tempogram函数,计算起始强度包络的局部自相关,其中利用可选的预先计算的起始强度包络onset_envelope,y的采样率sr,连续测量之间的音频样本数量hop_length;
S104:利用librosa库的librosa.feature.tempo函数,计算节奏,其中利用了可选的预先计算的起始强度包络onset_envelope,y的采样率sr,连续测量之间的音频样本数量hop_length
S105:利用librosa库的librosa.display.specshow函数,显示频谱图,其中利用了用于确定x轴时间刻度的采样率,y的采样率sr,连续测量之间的音频样本数量hop_length,自动颜色图检测cmap。
进一步的,步骤S2中图卷积神经网络的数学表达式为:
Figure BDA0003021032820000031
其中,X是声音特征,A是对称邻接矩阵,W是权重矩阵。
进一步的,步骤S3所述的异质图注意力网络包括两部分:特征级注意力和语义级注意力,
所述特征级注意力用于计算每个实例的不同特征之间的相关性,以捕捉特征对当前实例的影响,计算方法如公式(2):
Zi=σ(∑j∈NαijXj) (2)
其中,Xj是上述过程经过歌曲数字化和男女声分类后的第i个特征,αij是特征j对当前实例的影响力权重,Zi是经过特征级注意力机制后的实例表示;
所述语义级注意力捕捉异质图上的实例邻居对当前实例的影响,经过语义级注意力机制,计算出每个实例邻居的影响即计算出实例权重,从而得到当前实例的全面表示;
要得到每个实例之间的权重,首先使用一层的MLP将实例表示Zi进行非线性变换,通过实例级的注意力矩阵q来衡量多个实例之间的相似性,如公式(3)所示:
Figure BDA0003021032820000032
其中,m表示实例个数,b表示偏置;
将多个实例之间的相似性经过softmax函数,得到实例权重,如公式(4)所示:
Figure BDA0003021032820000033
将特征级注意力下的实例表示与实例权重结合得到语义层的实例表示,如公式(5)所示:
Figure BDA0003021032820000041
最后构建损失函数,利用全连接网络进行打分。
与现有技术相比,本发明技术方案的有益效果是:
本发明利用librosa库提取大量的声音特征,然后借助于图卷积神经网络对局部结构的建模能力及图上普遍存在的节点依赖关系,使用图卷积神经网络和异质图注意力网络来进行打分,以使打分结果更加精确。
附图说明
图1为本发明一种基于图神经网络的声乐打分方法流程图。
图2为本发明利用异质图注意力网络进行打分示意图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
实施例1
如图1所示,本发明提供了一种基于图神经网络的声乐打分方法,包括以下步骤:
S1:将歌曲音频通过librosa声音处理库转换成声音图形,分析声音图形获取歌曲音频的声音特征;
在一个具体的实施例中,所述的声音特征包括有::色谱图、局部自相关、节奏、频谱图。更具体的获取声音特征的具体流程如下:
S101:利用librosa库的librosa.load函数,提取歌曲的音频;
S102:利用librosa库的librosa.feature.chroma_stft函数,计算歌曲音频的色谱图,其中利用音频时间序列y,y的采样率sr,产生的色度仓数n_chroma,fft窗口大小n_fft;
S103:利用librosa库的librosa.feature.tempogram函数,计算起始强度包络的局部自相关,其中利用可选的预先计算的起始强度包络onset_envelope,y的采样率sr,连续测量之间的音频样本数量hop_length;
S104:利用librosa库的librosa.feature.tempo函数,计算节奏,其中利用了可选的预先计算的起始强度包络onset_envelope,y的采样率sr,连续测量之间的音频样本数量hop_length
S105:利用librosa库的librosa.display.specshow函数,显示频谱图,其中利用了用于确定x轴时间刻度的采样率,y的采样率sr,连续测量之间的音频样本数量hop_length,自动颜色图检测cmap。
S2:根据得到的声音特征利用图卷积神经网络进行男女声分类;
需要说明的是,因为男女生理结构不一样,导致男声普遍低于女声一个八度,因此会对打分效果产生影响,所以本发明打分之前,利用上述提取的声音特征对男女声进行分类,以研究男女声对打分的影响。因为不同特征具有一定的相关性,而且不同的图像特征之间不满足平移不变性,但同时需要有效的提取空间特征来进行男女声分类,图卷积神经网络本质目的是用来提取拓扑图的空间特征,因此在本发明采用图卷积神经网络,公式如下:
Figure BDA0003021032820000051
其中,X是声音特征,A是对称邻接矩阵,W是权重矩阵。
S3:将分类后的歌曲音频利用异质图注意力网络进行打分。
需要说明的是,本发明结合声音特征和男女声特征进行歌曲打分。因为不同特征之间具有丰富的相关性,对于打分具有不同的影响,而且不同的实例(即不同的音频)之间具有一定的关联,因此本发明采用全连接图结构去建模声音特征,以为打分提供合理的数据模型。图注意力网络能够在图的结构上捕捉到实例之间复杂的结构信息和丰富的语义信息,关注最具有影响力的特征和实例,因此打分过程中本专利采用异质图注意力机制,以捕捉每个实例的不同特征之间的关联,以及不同特征之间的相互关系,同时该方法可以并行运算,体现打分系统的高效性。基于异质图注意力网络进行打分的过程,如图2所示。该过程中包含了两层注意力:特征级注意力和语义级注意力。
其中,所述特征级注意力用于计算每个实例的不同特征之间的相关性,以捕捉特征对当前实例的影响,计算方法如公式(2):
Zi=σ(∑j∈NαijXj) (2)
其中,Xj是上述过程经过歌曲数字化和男女声分类后的第i个特征,αij是特征j对当前实例的影响力权重,Zi是经过特征级注意力机制后的实例表示;
所述语义级注意力捕捉异质图上的实例邻居对当前实例的影响,经过语义级注意力机制,计算出每个实例邻居的影响即计算出实例权重,从而得到当前实例的全面表示;
要得到每个实例之间的权重,首先使用一层的MLP将实例表示Zi进行非线性变换,通过实例级的注意力矩阵q来衡量多个实例之间的相似性,如公式(3)所示:
Figure BDA0003021032820000061
其中,m表示实例个数,b表示偏置;
将多个实例之间的相似性经过softmax函数,得到实例权重,如公式(4)所示:
Figure BDA0003021032820000062
将特征级注意力下的实例表示与实例权重结合得到语义层的实例表示,如公式(5)所示:
Figure BDA0003021032820000063
最后构建损失函数,利用全连接网络进行打分(即分数预测)。
显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求的保护范围之内。

Claims (5)

1.一种基于图神经网络的声乐打分方法,其特征在于,包括以下步骤:
S1:将歌曲音频通过librosa声音处理库转换成声音图形,分析声音图形获取歌曲音频的声音特征;
S2:根据得到的声音特征利用图卷积神经网络进行男女声分类;
S3:将分类后的歌曲音频利用异质图注意力网络进行打分。
2.根据权利要求1所述的一种基于图神经网络的声乐打分方法,其特征在于,步骤S1中获取的声音特征包括:色谱图、局部自相关、节奏、频谱图。
3.根据权利要求2所述的一种基于图神经网络的声乐打分方法,其特征在于,步骤S1中声音特征提取的具体步骤为:
S101:利用librosa库的librosa.load函数,提取歌曲的音频;
S102:利用librosa库的librosa.feature.chroma_stft函数,计算歌曲音频的色谱图,其中利用音频时间序列y,y的采样率sr,产生的色度仓数n_chroma,fft窗口大小n_fft;
S103:利用librosa库的librosa.feature.tempogram函数,计算起始强度包络的局部自相关,其中利用可选的预先计算的起始强度包络onset_envelope,y的采样率sr,连续测量之间的音频样本数量hop_length;
S104:利用librosa库的librosa.feature.tempo函数,计算节奏,其中利用了可选的预先计算的起始强度包络onset_envelope,y的采样率sr,连续测量之间的音频样本数量hop_length
S105:利用librosa库的librosa.display.specshow函数,显示频谱图,其中利用了用于确定x轴时间刻度的采样率,y的采样率sr,连续测量之间的音频样本数量hop_length,自动颜色图检测cmap。
4.根据权利要求1所述的一种基于图神经网络的声乐打分方法,其特征在于,步骤S2中图卷积神经网络的数学表达式为:
Figure FDA0003021032810000011
其中,X是声音特征,A是对称邻接矩阵,W是权重矩阵。
5.根据权利要求1所述的一种基于图神经网络的声乐打分方法,其特征在于,步骤S3所述的异质图注意力网络包括两部分:特征级注意力和语义级注意力,
所述特征级注意力用于计算每个实例的不同特征之间的相关性,以捕捉特征对当前实例的影响,计算方法如公式(2):
Zi=σ(∑j∈NαijXj) (2)
其中,Xj是上述过程经过歌曲数字化和男女声分类后的第i个特征,αij是特征j对当前实例的影响力权重,Zi是经过特征级注意力机制后的实例表示;
所述语义级注意力捕捉异质图上的实例邻居对当前实例的影响,经过语义级注意力机制,计算出每个实例邻居的影响即计算出实例权重,从而得到当前实例的全面表示;
要得到每个实例之间的权重,首先使用一层的MLP将实例表示Zi进行非线性变换,通过实例级的注意力矩阵q来衡量多个实例之间的相似性,如公式(3)所示:
Figure FDA0003021032810000021
其中,m表示实例个数,b表示偏置;
将多个实例之间的相似性经过softmax函数,得到实例权重,如公式(4)所示:
Figure FDA0003021032810000022
将特征级注意力下的实例表示与实例权重结合得到语义层的实例表示,如公式(5)所示:
Figure FDA0003021032810000023
最后构建损失函数,利用全连接网络进行打分。
CN202110402798.2A 2021-04-14 2021-04-14 一种基于图神经网络的声乐打分方法 Pending CN113140228A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110402798.2A CN113140228A (zh) 2021-04-14 2021-04-14 一种基于图神经网络的声乐打分方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110402798.2A CN113140228A (zh) 2021-04-14 2021-04-14 一种基于图神经网络的声乐打分方法

Publications (1)

Publication Number Publication Date
CN113140228A true CN113140228A (zh) 2021-07-20

Family

ID=76812560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110402798.2A Pending CN113140228A (zh) 2021-04-14 2021-04-14 一种基于图神经网络的声乐打分方法

Country Status (1)

Country Link
CN (1) CN113140228A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642714A (zh) * 2021-08-27 2021-11-12 国网湖南省电力有限公司 基于小样本学习的绝缘子污秽放电状态识别方法及系统
CN113836425A (zh) * 2021-09-29 2021-12-24 平安科技(深圳)有限公司 基于异构图注意力网络的电影推荐方法、装置及设备

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020024839A (ko) * 2000-09-27 2002-04-03 김용성 휴대폰을 이용한 노래 등록/평가 시스템 및 방법
CN106991163A (zh) * 2017-03-31 2017-07-28 福州大学 一种基于演唱者声音特质的歌曲推荐方法
CN108206027A (zh) * 2016-12-20 2018-06-26 北京酷我科技有限公司 一种音频质量评价方法及系统
CN109918539A (zh) * 2019-02-28 2019-06-21 华南理工大学 一种基于用户点击行为的音、视频互相检索方法
CN110277106A (zh) * 2019-06-21 2019-09-24 北京达佳互联信息技术有限公司 音频质量确定方法、装置、设备及存储介质
CN110808069A (zh) * 2019-11-11 2020-02-18 上海瑞美锦鑫健康管理有限公司 一种演唱歌曲的评价系统及方法
CN111968677A (zh) * 2020-08-21 2020-11-20 南京工程学院 面向免验配助听器的语音质量自评估方法
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话系统
CN112381179A (zh) * 2020-12-11 2021-02-19 杭州电子科技大学 一种基于双层注意力机制的异质图分类方法
CN112562741A (zh) * 2021-02-20 2021-03-26 金陵科技学院 一种基于点积自注意力卷积神经网络的歌声检测方法

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20020024839A (ko) * 2000-09-27 2002-04-03 김용성 휴대폰을 이용한 노래 등록/평가 시스템 및 방법
CN108206027A (zh) * 2016-12-20 2018-06-26 北京酷我科技有限公司 一种音频质量评价方法及系统
CN106991163A (zh) * 2017-03-31 2017-07-28 福州大学 一种基于演唱者声音特质的歌曲推荐方法
CN109918539A (zh) * 2019-02-28 2019-06-21 华南理工大学 一种基于用户点击行为的音、视频互相检索方法
CN110277106A (zh) * 2019-06-21 2019-09-24 北京达佳互联信息技术有限公司 音频质量确定方法、装置、设备及存储介质
CN110808069A (zh) * 2019-11-11 2020-02-18 上海瑞美锦鑫健康管理有限公司 一种演唱歌曲的评价系统及方法
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话系统
CN111968677A (zh) * 2020-08-21 2020-11-20 南京工程学院 面向免验配助听器的语音质量自评估方法
CN112381179A (zh) * 2020-12-11 2021-02-19 杭州电子科技大学 一种基于双层注意力机制的异质图分类方法
CN112562741A (zh) * 2021-02-20 2021-03-26 金陵科技学院 一种基于点积自注意力卷积神经网络的歌声检测方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
THOMAS N. KIPF ET AL.: "SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS", ARXIV:1609.02907V4 [CS.LG], pages 1 - 14 *
XIAO WANG ET AL.: "Heterogeneous Graph Attention Network", ARXIV:1903.07293V2 [CS.SI], pages 1 - 11 *
刘冰等: "《深度核机器学习技术及应用》", vol. 1, 北京工业大学出版社, pages: 28 - 32 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113642714A (zh) * 2021-08-27 2021-11-12 国网湖南省电力有限公司 基于小样本学习的绝缘子污秽放电状态识别方法及系统
CN113642714B (zh) * 2021-08-27 2024-02-09 国网湖南省电力有限公司 基于小样本学习的绝缘子污秽放电状态识别方法及系统
CN113836425A (zh) * 2021-09-29 2021-12-24 平安科技(深圳)有限公司 基于异构图注意力网络的电影推荐方法、装置及设备

Similar Documents

Publication Publication Date Title
CN112784130B (zh) 孪生网络模型训练、度量方法、装置、介质和设备
Korzeniowski et al. Feature learning for chord recognition: The deep chroma extractor
Dong et al. Bidirectional convolutional recurrent sparse network (BCRSN): an efficient model for music emotion recognition
CN111444326B (zh) 一种文本数据处理方法、装置、设备以及存储介质
CN106485984B (zh) 一种钢琴的智能教学方法和装置
CN105260356B (zh) 基于多任务学习的中文交互文本情感与话题识别方法
Iqbal et al. A real-time emotion recognition from speech using gradient boosting
CN110838286A (zh) 一种模型训练的方法、语种识别的方法、装置及设备
CN108765383A (zh) 基于深度迁移学习的视频描述方法
CN112861984B (zh) 一种基于特征融合与集成学习的语音情感分类方法
CN113140228A (zh) 一种基于图神经网络的声乐打分方法
CN101409070A (zh) 基于运动图像解析的音乐重构方法
Huang et al. Large-scale weakly-supervised content embeddings for music recommendation and tagging
CN111523055A (zh) 一种基于农产品特征属性评论倾向的协同推荐方法及系统
Hou et al. Transfer learning for improving singing-voice detection in polyphonic instrumental music
CN117851871A (zh) 一种境外互联网社交阵地多模态数据识别方法
CN111402919B (zh) 一种基于多尺度多视图的戏曲唱腔风格识别方法
CN111339865A (zh) 一种基于自监督学习的音乐合成视频mv的方法
Lee et al. Automatic melody extraction algorithm using a convolutional neural network
Rao et al. Automatic music genre classification based on linguistic frequencies using machine learning
Lu et al. Deep learning models for melody perception: An investigation on symbolic music data
CN114758664A (zh) 语音数据筛选方法、装置、电子设备和可读存储介质
CN114998698A (zh) 动态时域卷积网络驱动的多模态情感识别方法
CN110189768B (zh) 一种基于条件随机场的中国民歌地域分类方法
CN112465679A (zh) 一种钢琴学习与创作系统及方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination