CN111402919A - 一种基于多尺度多视图的戏曲唱腔风格识别方法 - Google Patents

一种基于多尺度多视图的戏曲唱腔风格识别方法 Download PDF

Info

Publication number
CN111402919A
CN111402919A CN201911278068.5A CN201911278068A CN111402919A CN 111402919 A CN111402919 A CN 111402919A CN 201911278068 A CN201911278068 A CN 201911278068A CN 111402919 A CN111402919 A CN 111402919A
Authority
CN
China
Prior art keywords
model
style
training
opera
spectrogram
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911278068.5A
Other languages
English (en)
Other versions
CN111402919B (zh
Inventor
陈可佳
吴怡林
郭林博
李雨康
张慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Mei Lanfangjinianguan
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN201911278068.5A priority Critical patent/CN111402919B/zh
Publication of CN111402919A publication Critical patent/CN111402919A/zh
Application granted granted Critical
Publication of CN111402919B publication Critical patent/CN111402919B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Auxiliary Devices For Music (AREA)
  • Electrically Operated Instructional Devices (AREA)

Abstract

本发明公开了一种基于多尺度多视图的戏曲唱腔风格识别方法,包括步骤如下:S1收集戏曲音频并进行正反例标记;S2对标记的戏曲音频进行预处理;S3对预处理之后的音频进行特征提取;S4搭建训练模型,优化模型参数;S5使用优化后的卷积神经网络模型,识别正例戏曲风格。从原始音频数据中生成语谱图、MFCC谱图等多个视图下的表示,并在不同尺度下生成训练样本,随后采用卷积神经网络(CNN)模型抽取特征并融合至分类模型中,以识别某类特定艺术家的风格。本方法可以准确识别戏曲的风格,可作为戏曲教学中的唱腔评分依据,模型学得的参数也可用于生成具有特定风格的唱腔。

Description

一种基于多尺度多视图的戏曲唱腔风格识别方法
技术领域
本发明涉及计算机风格识别,尤其涉及一种基于多尺度多视图的戏曲唱腔风格识别方法,主要应用于中国传统梅派戏曲唱腔识别及分类。
背景技术
当今,“人工智能”都将成为人们热议的话题,它承载着科技创新的巨大能量,不断刷新着人类对未知世界和极限领域的认知,改变着人类的生活、生产方式。近代,AI在艺术领域也崭露头角。在视觉艺术领域,德国科学家使用深度学习算法GAN让AI“学习”得到梵·高等画家的画风,生成具有画家风格的“油画”;在音乐领域,谷歌的Magenta项目利用AI训练音乐作品并生成新乐曲。
目前,在中国戏曲领域,AI还未真正起到作用,其主要原因是中国戏曲的腔调非常复杂。即使是同一句唱词、同一个曲调,只要有音量、节奏或吐字上的一丝不同,表情达意的效果就有不可思议的变化。而人类演员根据自己的嗓音特质做出各自的“微调”,也正是戏曲众多艺术风格和流派的重要发端。
本发明采用AI领域的机器学习技术,以梅派唱腔为例,分析和处理梅派戏曲音频数据,建立数据集,构建卷积神经网络(CNN)框架,优化模型参数,识别并分类不同的唱腔风格。本项目是一次非常有价值的艺术尝试,旨在打破传统唱腔分析的繁杂、多样、散乱的局面,基于信息技术系统而全面地分析唱腔风格。本文的研究不仅有利于中国传统音乐基本理论的完善,也有利于戏曲音乐教学的改革,让传统文化在人工智能时代得到传承与创新。
发明内容
发明目的:为了更好地识别和分类梅派戏曲的风格,同时结合实际问题,提出一种基于多尺度多视图的戏曲唱腔风格识别方法
技术方案:本发明是一种基于多尺度多视图的戏曲唱腔风格识别方法,包括如下步骤:
(1)收集戏曲音频数据,对戏曲手动切除没有人声的部分后进行正反例标记;
(2)对标记的戏曲音频进行预处理,包括预加重、加窗、分帧。
(3)对预处理之后的音频进行特征提取;
(4)搭建并训练模型,优化模型参数;
(5)使用优化后的卷积神经网络模型,识别正例戏曲风格。
进一步地,所述步骤(1)还包括:
(1.1)手动切除特定艺术家戏曲中没有人声的部分;
(1.2)对已经切除过无人声部分的戏曲加上正例标签,其他类型戏曲加上反例标签;
(1.3)已经标记的戏曲以4秒、8秒、12秒作为间隔再次切割。
进一步地,步骤(2)中所述方法还包括:
(2.1)预加重为一种在发送端对输入信号高频分量进行补偿的信号处理方式,随着信号速率的增加,信号在传输过程中受损很大,为了在接收终端能得到比较好的信号波形,就需要对受损的信号进行补偿,补偿信号在传输过程中的损耗、衰减,更多的保留了有效信息,直接调用预加重函数为:H(Z)=1-u/z,u取 0.97;
(2.2)采集的分段音频数据,直接调用汉明窗函数,分帧加窗同步进行;
W(n,a)=(1-a)-a*cos[2*π*n/(N-1)],0≤n≤N-1,参数a=0.46。
语音信号具有短时平稳性(10--30ms内可以认为语音信号近似不变),分帧就是把语音信号分为一些短段来进行处理,语音信号的分帧是采用可移动的有限长度的窗口进行加权的方法来实现的,这就是加窗。分帧:一般取10-30ms,在 10-30ms内,认为语音信号是不变的,可以求绝对值一类的数学变量。
进一步地,步骤(3)中所述特征提取包括:
(3.1)表示级别特征提取,其包含音强、音调、音色;
(3.2)语义级别特征提取,其包含节奏、旋律、唱腔;
(3.3)深度学习特征提取,包括使用已经预处理过的数据生成语谱图和 MFCC谱图。
进一步地,步骤(4)中所述搭建并训练模型方法还包括:
(4.1)使用Keras框架,在框架上搭建神经网络;
(4.2)使用预训练模型InceptionV3设计网络结构,依照相似的方法搭建语谱图模型和MFCC模型;
(4.3)生成融合模型,将训练集送入融合模型并开始训练;
(4.4)根据训练结果,调整参数直至训练集和验证集的准确率至少达到90%。
进一步地,步骤(4.2)中搭建语谱图方法具体包括:
(4.2.1)初始化InceptionV3模型参数,构建不带分类器的预训练模型InceptionV3并加入分类器;
(4.2.2)构建完整模型,冻结InceptionV3所有的卷积层,训练最后加入的网络层;
(4.2.2)编译模型,设置优化器并评估损失,用语谱图训练模型,迭代40 次后保存模型。
进一步地,步骤(4.3)中生成融合模型方法包括:
(4.3.1)分别读取训练好的语谱图模型和MFCC模型,然后将网络层冻结;将两个模型的输入层以及特征向量的输出层取出来;
(4.3.2)将两个输出层特征向量拼接到一起,加入分类器;
(4.3.3)重新编写生成器,将两个生成器的输入层拼接到一起;保存融合模型。
有益效果:本发明与现有技术相比,其显著优点是:(1)提供一种将人工智能中的深度学习首次应用于中国的传统戏曲音频数据中,进行特征的抽取和风格的学习;(2)从原始音频数据中生成语谱图、MFCC谱图等多个视图下的表示,并在不同尺度下生成训练样本,采用卷积神经网络模型抽取特征并融合至分类模型中来识别某类特定艺术家的风格;(3)准确识别戏曲的风格,可作为戏曲教学中的唱腔评分依据,模型学得的参数也可用于生成具有特定风格的唱腔。
附图说明
图1本发明方法的流程框图。
具体实施方式:
为使本发明的上述目的、特征和有益效果能够更为明显易懂,下面结合附图对本发明的具体实施例做详细的说明。
如图1:步骤1:收集戏曲音频,并进行标记
从中国京剧老唱片网站寻找大量的正例(梅兰芳)戏曲和反例(非梅兰芳)的戏曲,将正例(梅兰芳)戏曲送入一些音频切割软件(Adobe Audition),手动把没有人声的部分切除,反例(非梅兰芳)戏曲不做处理,分别加上‘正’和‘反’标签;
以8秒为间隔切割已经标记的戏曲,正反例分开切割、保存。
手动切除比较耗费时间,后期模型参数调整也比较费时,但分离背景音与人声算法的实现难度较大;此外,戏曲数据量一定要充足,不然准确率会很低;也可以以4秒、12秒为间隔切割。
步骤2:对标记的戏曲音频进行预处理:预加重、加窗、分帧(按时长分帧;按节拍、唱字等多粒度分帧)
调用一些现成的函数,对已经切割的戏曲进行预加重:
预加重函数为:H(Z)=1-u/z,u取0.97;
对预加重后的戏曲进行加窗(汉明窗)、分帧操作:
将每一帧乘以汉明窗,以增加帧左端和右端的连续性。假设分帧后的信号为S(n),n=0,1…,N-1,N为帧的大小,那么乘上汉明窗后
S1(n)=S(n)*W(n)
W(n,a)=(1-a)-a*cos[2*π*n/(N-1)],0≤n≤N-1
a取0.46
步骤3:对预处理之后的音频进行特征提取
调用一些现有的函数,从预处理之后的音频数据中提取生成语谱图;
MFCC(梅尔倒谱系数)需要在原来已经加窗的数据上增加一些操作:
①快速傅里叶变换
Figure BDA0002314652610000041
式中x(n)为输入的语音信号,N表示傅里叶变换的点数
②通过三角带通滤波器
三角滤波器的频率响应定义为:
Figure BDA0002314652610000042
其中
Figure BDA0002314652610000043
③计算每个滤波器组输出的对数能量为:
Figure BDA0002314652610000044
④经离散余弦变换(DCT)得到MFCC系数:
Figure BDA0002314652610000045
L取16,M为三角滤波器个数
经过这些操作之后,便可生成MFCC谱图;
将语谱图和MFCC谱图分别按3:1分为训练集,验证集。
步骤4:搭建模型,训练模型,优化模型参数
使用Keras框架;在框架上搭建神经网络;使用预训练模型InceptionV3 设计网络结构;搭建语谱图模型:初始化InceptionV3模型参数;构建不带分类器的预训练模型InceptionV3:加入分类器;构建完整模型;冻结InceptionV3 所有的卷积层(即不参与训练),只训练最后加入的网络层;编译模型,设置优化器,评估损失;用语谱图训练模型,迭代40次;保存模型;
搭建MFCC模型:
仿照搭建语谱图模型的方法搭建MFCC模型;用MFCC谱图训练模型并保存;
生成融合模型:
分别读取训练好的语谱图模型和MFCC模型,然后将网络层冻结;将两个模型的输入层以及特征向量的输出层取出来;
将两个输出层(特征向量)拼接到一起,加入分类器;
重新编写生成器,将两个生成器的输入层拼接到一起;保存融合模型;
将训练集送入融合模型,开始训练;
根据训练结果,不断调整参数,直至准确率至少达到90%
步骤5:使用优化后的卷积神经网络(CNN)模型,识别正例戏曲风格(如:梅兰芳)
如果模型参数调整比较合适的话,这时的准确率就比较高
采用本发明实施例中的上述方案,通过语谱图,卷积神经网络(CNN)模型,可以在数据层面对中国戏曲进行差异化分析和识别,从最本质的数据出发,用神经网络进行学习分类,结合多尺度、多视图,挖掘出了大部分易被人耳忽略的数据信息,避免了人分类音频时的非理性决策,提高了识别分类的准确率。

Claims (7)

1.一种基于多尺度多视图的戏曲唱腔风格识别方法,其特征在于,包括如下步骤:
(1)收集戏曲音频数据,对戏曲手动切除没有人声的部分后进行正反例标记;
(2)对标记的戏曲音频进行预处理,包括预加重、加窗、分帧;
(3)对预处理之后的音频进行特征提取;
(4)搭建并训练模型,优化模型参数;
(5)使用优化后的卷积神经网络模型,识别正例戏曲风格。
2.根据权利要求1所述的一种基于多尺度多视图的戏曲唱腔风格识别方法,其特征在于,所述步骤(1)还包括:
(1.1)手动切除特定艺术家戏曲中没有人声的部分;
(1.2)对已经切除过无人声部分的戏曲加上正例标签,其他类型戏曲加上反例标签;
(1.3)已经标记的戏曲以4秒、8秒、12秒作为间隔再次切割。
3.根据权利要求1所述的一种基于多尺度多视图的戏曲唱腔风格识别方法,其特征在于,步骤(2)还包括:
(2.1)预加重为一种在发送端对输入信号高频分量进行补偿的信号处理方式,直接调用预加重函数为:H(Z)=1-u/z,z为采样数据信号输入自变量,u取0.97;
(2.2)采集的分段音频数据,直接调用汉明窗函数,分帧加窗同步进行;
W(n,a)=(1-a)-a*cos[2*π*n/(N-1)],0≤n≤N-1,参数a=0.46,n为取值区间,N为帧的数值。
4.根据权利要求1所述的一种基于多尺度多视图的戏曲唱腔风格识别方法,其特征在于,步骤(3)中所述特征提取包括:
(3.1)表示级别特征提取,其包含音强、音调、音色;
(3.2)语义级别特征提取,其包含节奏、旋律、唱腔;
(3.3)深度学习特征提取,包括使用已经预处理过的数据生成语谱图和MFCC谱图。
5.根据权利要求1所述的一种基于多尺度多视图的戏曲唱腔风格识别方法,其特征在于,步骤(4)中所述搭建并训练模型方法还包括:
(4.1)使用Keras框架,在框架上搭建神经网络;
(4.2)使用预训练模型InceptionV3设计网络结构,依照相似的方法搭建语谱图模型和MFCC模型;
(4.3)生成融合模型,将训练集送入融合模型并开始训练;
(4.4)根据训练结果,调整参数直至训练集和验证集的准确率至少达到90%。
6.根据权利要求5所述的一种基于多尺度多视图的戏曲唱腔风格识别方法,其特征在于,步骤(4.2)中搭建语谱图方法具体包括:
(4.2.1)初始化InceptionV3模型参数,构建不带分类器的预训练模型InceptionV3并加入分类器;
(4.2.2)构建完整模型,冻结InceptionV3所有的卷积层,训练最后加入的网络层;
(4.2.2)编译模型,设置优化器并评估损失,用语谱图训练模型,迭代40次后保存模型。
7.根据权利要求5所述的一种基于多尺度多视图的戏曲唱腔风格识别方法,其特征在于,步骤(4.3)中生成融合模型方法包括:
(4.3.1)分别读取训练好的语谱图模型和MFCC模型,然后将网络层冻结;将两个模型的输入层以及特征向量的输出层取出来;
(4.3.2)将两个输出层特征向量拼接到一起,加入分类器;
(4.3.3)重新编写生成器,将两个生成器的输入层拼接到一起;保存融合模型。
CN201911278068.5A 2019-12-12 2019-12-12 一种基于多尺度多视图的戏曲唱腔风格识别方法 Active CN111402919B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911278068.5A CN111402919B (zh) 2019-12-12 2019-12-12 一种基于多尺度多视图的戏曲唱腔风格识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911278068.5A CN111402919B (zh) 2019-12-12 2019-12-12 一种基于多尺度多视图的戏曲唱腔风格识别方法

Publications (2)

Publication Number Publication Date
CN111402919A true CN111402919A (zh) 2020-07-10
CN111402919B CN111402919B (zh) 2023-05-30

Family

ID=71413138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911278068.5A Active CN111402919B (zh) 2019-12-12 2019-12-12 一种基于多尺度多视图的戏曲唱腔风格识别方法

Country Status (1)

Country Link
CN (1) CN111402919B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421585A (zh) * 2021-05-10 2021-09-21 云境商务智能研究院南京有限公司 一种音频指纹库生成方法及装置
CN113422981A (zh) * 2021-06-30 2021-09-21 北京华录新媒信息技术有限公司 一种基于超高清戏曲视频识别戏曲的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102543080A (zh) * 2010-12-24 2012-07-04 索尼公司 音频编辑系统和音频编辑方法
CN106531153A (zh) * 2016-10-27 2017-03-22 天津大学 基于唱段和念白提取的戏曲分类方法
CN106952649A (zh) * 2017-05-14 2017-07-14 北京工业大学 基于卷积神经网络和频谱图的说话人识别方法
CN108766409A (zh) * 2018-05-25 2018-11-06 中国传媒大学 一种戏曲合成方法、装置和计算机可读存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102543080A (zh) * 2010-12-24 2012-07-04 索尼公司 音频编辑系统和音频编辑方法
CN106531153A (zh) * 2016-10-27 2017-03-22 天津大学 基于唱段和念白提取的戏曲分类方法
CN106952649A (zh) * 2017-05-14 2017-07-14 北京工业大学 基于卷积神经网络和频谱图的说话人识别方法
CN108766409A (zh) * 2018-05-25 2018-11-06 中国传媒大学 一种戏曲合成方法、装置和计算机可读存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张一彬 等: "《京剧中典型唱腔和伴奏的自动分类研究》" *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113421585A (zh) * 2021-05-10 2021-09-21 云境商务智能研究院南京有限公司 一种音频指纹库生成方法及装置
CN113422981A (zh) * 2021-06-30 2021-09-21 北京华录新媒信息技术有限公司 一种基于超高清戏曲视频识别戏曲的方法及装置
CN113422981B (zh) * 2021-06-30 2023-03-10 北京华录新媒信息技术有限公司 一种基于超高清戏曲视频识别戏曲的方法及装置

Also Published As

Publication number Publication date
CN111402919B (zh) 2023-05-30

Similar Documents

Publication Publication Date Title
CN108717856A (zh) 一种基于多尺度深度卷积循环神经网络的语音情感识别方法
CN103871426A (zh) 对比用户音频与原唱音频相似度的方法及其系统
CN101685634A (zh) 一种儿童语音情感识别方法
CN116665669A (zh) 一种基于人工智能的语音交互方法及系统
CN109102800A (zh) 一种确定歌词显示数据的方法和装置
Cao et al. Speaker-independent speech emotion recognition based on random forest feature selection algorithm
WO2023221345A1 (zh) 一种情感语音的合成方法及合成装置
CN112184859A (zh) 端到端的虚拟对象动画生成方法及装置、存储介质、终端
Gao et al. Genre-conditioned acoustic models for automatic lyrics transcription of polyphonic music
Antetomaso et al. Modeling phonetic category learning from natural acoustic data
CN111599339B (zh) 具有高自然度的语音拼接合成方法、系统、设备及介质
CN111402919B (zh) 一种基于多尺度多视图的戏曲唱腔风格识别方法
CN113823323A (zh) 一种基于卷积神经网络的音频处理方法、装置及相关设备
CN116092472A (zh) 一种语音合成方法和合成系统
Shah et al. Speech emotion recognition based on SVM using MATLAB
CN117012230A (zh) 歌唱发音咬字评价模型
JP6222465B2 (ja) アニメーション生成装置、アニメーション生成方法およびプログラム
CN116129868A (zh) 一种结构化画本的生成方法和生成系统
CN111785236A (zh) 一种基于动机提取模型与神经网络的自动作曲方法
Poojary et al. Speech Emotion Recognition Using MLP Classifier
CN111259188B (zh) 一种基于seq2seq网络的歌词对齐方法及系统
Wenjing et al. A hybrid speech emotion perception method of VQ-based feature processing and ANN recognition
Cui Vocal music performance evaluation system based on neural network and its application in piano teaching
Hosain et al. Deep-learning-based speech emotion recognition using synthetic bone-conducted speech
CN110162671B (zh) 通过音乐情感识别视频广告的方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20210508

Address after: Institute of scientific research, Nanjing University of Posts and telecommunications, No.9 Wenyuan Road, Qixia District, Nanjing City, Jiangsu Province, 210023

Applicant after: NANJING University OF POSTS AND TELECOMMUNICATIONS

Applicant after: Mei Lanfangjinianguan

Address before: Institute of scientific research, Nanjing University of Posts and telecommunications, No.9 Wenyuan Road, Qixia District, Nanjing City, Jiangsu Province, 210023

Applicant before: NANJING University OF POSTS AND TELECOMMUNICATIONS

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant