CN110675879B - 基于大数据的音频评估方法、系统、设备及存储介质 - Google Patents
基于大数据的音频评估方法、系统、设备及存储介质 Download PDFInfo
- Publication number
- CN110675879B CN110675879B CN201910832056.6A CN201910832056A CN110675879B CN 110675879 B CN110675879 B CN 110675879B CN 201910832056 A CN201910832056 A CN 201910832056A CN 110675879 B CN110675879 B CN 110675879B
- Authority
- CN
- China
- Prior art keywords
- target audio
- layer
- audio
- evaluation
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 126
- 238000013210 evaluation model Methods 0.000 claims abstract description 46
- 238000013135 deep learning Methods 0.000 claims abstract description 24
- 238000012545 processing Methods 0.000 claims description 19
- 210000002569 neuron Anatomy 0.000 claims description 15
- 238000012549 training Methods 0.000 claims description 12
- 238000000034 method Methods 0.000 claims description 10
- 238000004590 computer program Methods 0.000 claims description 8
- 238000004378 air conditioning Methods 0.000 claims description 6
- 230000002457 bidirectional effect Effects 0.000 claims description 6
- 230000004913 activation Effects 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000009466 transformation Effects 0.000 claims 1
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 230000006870 function Effects 0.000 description 17
- 210000004027 cell Anatomy 0.000 description 14
- 239000013598 vector Substances 0.000 description 11
- 239000011159 matrix material Substances 0.000 description 6
- 230000003750 conditioning effect Effects 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 125000004122 cyclic group Chemical group 0.000 description 4
- 230000008569 process Effects 0.000 description 4
- 208000037656 Respiratory Sounds Diseases 0.000 description 3
- 238000004891 communication Methods 0.000 description 2
- 230000007613 environmental effect Effects 0.000 description 2
- 230000007246 mechanism Effects 0.000 description 2
- 238000010295 mobile communication Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 241000288105 Grus Species 0.000 description 1
- 238000009825 accumulation Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 210000005036 nerve Anatomy 0.000 description 1
- 238000003062 neural network model Methods 0.000 description 1
- 238000013519 translation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L17/00—Speaker identification or verification techniques
- G10L17/04—Training, enrolment or model building
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L19/00—Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Human Computer Interaction (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Multimedia (AREA)
- Acoustics & Sound (AREA)
- Theoretical Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Signal Processing (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Signal Processing For Digital Recording And Reproducing (AREA)
Abstract
本发明实施例提供了一种基于大数据的音频评估方法,包括:获取目标音频数据;对所述目标音频数据进行离散化处理,以将所述目标音频数据分割为多个目标音频帧;将每个目标音频帧转化为包括M个频率分量的目标音频序列;及将每个目标音频帧对应的目标音频序列输入至演奏评估模型中,以通过所述演奏评估模型输出所述目标音频数据的目标音频评估参数,所述演奏评估评估模型为预先训练好的深度学习网络模型。本发明实施例还提供了一种基于大数据的音频评估系统、设备及存储介质。本发明实施例的有益效果在于:可以快速的得到目标音频数据的目标音频评估参数,准确度高,且省时省力。
Description
技术领域
本发明实施例涉及数据处理领域,尤其涉及一种基于大数据的音频评估方法、系统、设备及计算机可读存储介质。
技术背景
目前,在中国,二胡作为中国的民族乐器,受到广泛的大众的喜爱。每天在公园里,校园里,以及演奏厅中,都可以看到二胡的演奏。进入互联网时代,像现在的唱吧、好唱等相关的APP应用,人们也会把自己二胡演奏上传到APP里面,让更多的人欣赏。
但是现有的唱吧、好唱等相关的APP应用并没有尚没有完善的用于对二胡演奏的评分与指导的系统,识别二胡演奏的专业评分以及对二胡演奏的指导全部依靠专业的二胡演奏家进行判定,缺少可量化的标准;并且相关的二胡培训机构的人员参差不齐,没有一个标准的评估系统,无法形成大数据积累,若请专业的二胡演奏家进行指导,学习的人花费的成本更多。
随着技术的发展,人们开始通过计算机设备来替代专业的二胡演奏家来为二胡练习者提供评分和指导,例如,通过手戴式智能设备获取演奏者演奏选定乐曲的手部姿势信息;将所述手部姿势信息与所述选定乐曲对应的预设标准手部姿势信息进行比较,获得演奏评估信息。但是,通过检测到的手部姿势来输出演奏评估信息,并不能够检测到二胡输出的声音本身是否合格。因此,为了解决以上问题,本专利提出一种基于大数据的音频评估方法及系统,以基于二胡输出的声音本身来输出演奏评价信息。
发明内容
有鉴于此,本发明实施例的目的是提供一种基于大数据的音频评估方法、系统、设备及存储介质,可以快速的得到目标音频数据的目标音频评估参数,准确度高,且省时省力。
为实现上述目的,本发明实施例提供了一种基于大数据的音频评估方法,包括:
获取目标音频数据;
对所述目标音频数据进行离散化处理,以将所述目标音频数据分割为多个目标音频帧;
将每个目标音频帧转化为包括M个频率分量的目标音频序列;及
将每个目标音频帧对应的目标音频序列输入至演奏评估模型中,以通过所述演奏评估模型输出所述目标音频数据的目标音频评估参数,所述演奏评估评估模型为预先训练好的深度学习网络模型。
进一步地,所述演奏评估模型依次包括:
编码器,所述编码器包括第一网络层、第二网络层和第三网络层,其中,所述第一网络层包括由N个神经元构成的第一双向循环层,所述第二网络层包括由N/2个神经元构成的第二双向循环层,所述第三网络层包括由N/4个循环神经元构成的单向层;
固定编码层,耦合于所述编码器,所述固定编码层包括激活层,用于初始化解码器;
所述解码器,耦合于所述固定编码层,所述解码器包括由多个LSTM单元构成的循环层,并用于为每个目标音频序列输出一个参数范围为0-M的整数值;
全连接层,耦合于所述解码器,用于接收每个目标音频序列对应的整数值并根据每个目标音频序列对应的整数值输出特征数据;
输出层,耦合于所述解码器,用于根据所述全连接层提供的特征数据计算并输出各个预设评估参数的置信度。
进一步地,将每个目标音频帧对应的目标音频序列输入至演奏评估模型中,以通过所述演奏评估模型输出所述目标音频数据的目标音频评估参数的步骤,包括:
将每个目标音频序列输入到所述编码器中以及经由所述固定编码层、所述解码器、所述全连接层及所述输出层,并通过所述输出层输出所述各个预设评估参数的置信度;及
将置信度最高的预设评估参数确定为所述目标音频评估参数。
进一步地,将每个所述目标音频帧转化为包括M个频率分量的目标音频序列的步骤,包括:
对每个所述目标音频帧进行去噪处理;
将每个去噪处理后的目标音频帧转化为包括M个频率分量的目标音频序列。
进一步地,还包括所述演奏评估模型的训练步骤:
获取训练数据集,所述训练数据集中包括多个样本音频数据及对应的样本音频评估参数;
将每个样本音频数据进行离散化处理,以将对应的样本音频数据分割为多个样本音频帧;
将每个所述样本音频帧转化为包括M个频率分量的样本音频序列;
将所述样本音频序列及对应的样本音频评估参数输入至深度学习网络模型中;
基于所述深度学习网络模型将所述样本音频数据的样本音频评估参数的频率最大化,以构建演奏评估模型。
为实现上述目的,本发明实施例还提供了一种基于大数据的评估系统,包括:
获取模块,用于获取目标音频数据;
处理模块,用于对所述目标音频数据进行离散化处理,以将所述目标音频数据分割为多个目标音频帧;
转化模块,用于将每个目标音频帧转化为包括M个频率分量的目标音频序列;
执行输出模块,用于将每个目标音频帧对应的目标音频序列输入至演奏评估模型中,以通过所述演奏评估模型输出所述目标音频数据的目标音频评估参数,所述演奏评估评估模型为预先训练好的深度学习网络模型。
进一步地,所述执行输出模块还用于:
将每个目标音频序列输入到所述编码器中以及经由所述固定编码层、所述解码器、所述全连接层及所述输出层,并通过所述输出层输出所述各个预设评估参数的置信度;及
将置信度最高的预设评估参数确定为所述目标音频评估参数。
进一步地,所述转化模块还用于:
对每个所述目标音频帧进行去噪处理;
将每个去噪处理后的目标音频帧转化为包括M个频率分量的目标音频序列。
为实现上述目的,本发明实施例还提供了一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如上所述的基于大数据的音频评估方法的步骤。
为实现上述目的,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如上所述的基于大数据的音频评估方法的步骤。
本发明实施例提供的基于大数据的音频评估方法、系统、设备及计算机可读存储介质,将目标音频数据进行离散化处理,并进行转化得到目标音频序列,将目标音频序列输入到演奏评估模型中,通过预先训练好的深度学习网络模型中得到目标音频数据的目标音频评估参数。使用深度学习网络模型可以快速的得到目标音频数据的目标音频评估参数,准确度高,且省时省力。
附图说明
图1为本发明基于大数据的音频评估方法实施例一的流程图。
图2为本发明实施例图1中步骤S104的流程图。
图3为本发明实施例图1中步骤S106的流程图。
图4为本发明实施例一中演奏评估模型的训练步骤的流程图。
图5为本发明基于大数据的音频评估系统实施例二的程序模块示意图。
图6为本发明计算机设备实施例三的硬件结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一
参阅图1,示出了本发明实施例一之基于大数据的音频评估方法的步骤流程图。可以理解,本方法实施例中的流程图不用于对执行步骤的顺序进行限定。下面以计算机设备2为执行主体进行示例性描述。具体如下。
步骤S100,获取目标音频数据。
具体的,利用话筒等语音输入设备在特定的场景中采集目标演奏音频,特定的场景可以为专门的录音棚。录音棚有专门的录音墙,进行噪声的消除;话筒上的录音传感器由专门的压电传感器和附加元件构成。
步骤S102,对所述目标音频数据进行离散化处理,以将所述目标音频数据分割为多个目标音频帧。
具体的,对目标音频数据进行离散化处理,将其分割为多个4毫秒长的目标音频帧。
步骤S104,将每个所述目标音频帧转化为包括M个频率分量的目标音频序列。
示例性的,参阅图2,步骤S104包括:
步骤S104A,对每个目标音频帧进行去噪处理。
具体的,基于信号调理电路每个目标音频帧进行去噪处理,信号调理电路可以放大呼吸声音和完全消除环境音。
步骤S104B,将每个进行去噪处理后的目标音频帧转化为包括M个频率分量的目标音频序列。
具体的,将经过去噪之后的目标音频帧的音频帧窗口转化成有64个频率分量的目标音频序列。
步骤S106,将每个目标音频帧对应的目标音频序列输入至演奏评估模型中,以通过所述演奏评估模型输出所述目标音频数据的目标音频评估参数,所述演奏评估评估模型为预先训练好的深度学习网络模型。
具体的,将目标音频序列输入到演奏评估模型,每个目标音频序列输入到演奏评估模型的第一网络层的其中一个细胞中,直至将128个目标音频序列一一对应地输入到128个细胞中;对演奏评估模型的解码器进行初始化处理,以使前一首歌曲的计算值不影响当前进行测试的目标音频数据;将演奏评估模型的解码器的设置为对每个输入的目标音频序列输出一个单一的目标音频评估参数,音频评估参数的范围在0-10。
示例性的,参阅图3,步骤S106包括:
步骤S106A,将每个目标音频序列输入到所述编码器中以及经由所述固定编码层、所述解码器、所述全连接层及所述输出层,并通过所述输出层输出所述各个预设评估参数的置信度。
具体的,通过所述全连接层的分布式特征表示,将每个目标音频序列的音频评估参数映射到目标音频数据上,得到目标音频数据的特征数据;将每个目标音频序列对应的音频特征参数输入到全连接层中,并经由softmax函数计算各个预设评估参数的置信度。
步骤S106B,将置信度最高的预设评估参数确定为所述目标音频评估参数。
具体的,通过softmax函数计算各个预设评估参数的置信度。
具体的,softmax函数如下:
其中,j表示预设评估参数的序号,为0-M的整数值,i<=j。
例如:输出每个预设评估参数对应的置信度为(0.31,0.20,0.48,0.66,0.95,0.80,…),则表示:
预设评估参数为0时,置信值为0.31;
预设评估参数为1时,置信度为0.20;
预设评估参数为2时,置信度为0.48;
预设评估参数为3时,置信度为0.66;
预设评估参数为4时,置信度为0.95;
预设评估参数为5时,置信度为0.80;
以此类推,不穷举。
计算机设备2选择概率最高的预设评估参数确定为该目标音频数据的目标音频评估参数,例如上述目标音频数据的目标音频评估参数为4。
示例性的,所述演奏评估模型依次包括:编码器、固定编码层、解码器、全连接层和输出层。具体如下:
编码器,所述编码器包括第一网络层、第二网络层和第三网络层,其中,所述第一网络层包括由N个神经元构成的第一双向循环层,所述第二网络层包括由N/2个神经元构成的第二双向循环层,所述第三网络层包括由N/4个循环神经元构成的单向层。
具体的,编码器依次包括含128个神经元的双向循环层、64个神经元的双向循环层和32个循环神经元的单向层。编码器内的所有的循环神经元都是GRU(递归单元门),通过更新门和重置门来决定当前状态的依赖程度,从而可以很好地解决远程依赖问题。
固定编码层,耦合于所述编码器,所述固定编码层包括激活层,用于初始化解码器。
具体的,固定编码层接收编码器输出的参数,包括有含32神经元的激活层,用于初始化解码器。
所述解码器,耦合于所述固定编码层,所述解码器包括由多个LSTM单元构成的循环层,并用于为每个目标音频序列输出一个参数范围为0-M的整数值;
具体的,由一个单独的循环层结构构成,它具有64个长短时记忆(LSTM)单元,且结合了注意力机制。注意力机制使得深度学习网络模型主要关注输入特性的显著部分,并最终提高分类性能。解码器设置为对每个输入序列输出一个单一的打分,即0-10的11个数中的一个整数。
进一步的,解码器包括遗忘门、输入门与输出门。
(1)输入门:根据上一时刻的输出ht-1和当前输入xt来得到ft值,以决定是否让上一时刻学到的信息Ct-1通过或部分通过:
ft=σ(Wf[xt,ht-1]+bf),其中ft∈[0,1],表示t时刻的节点对t-1时刻细胞记忆的选择权重,Wf为遗忘门的权重矩阵,bf为遗忘门的偏置项,ht-1表示t-1节点的隐层状态信息,非线性函数σ(x)=1/(1+e-x),样本二胡音频序列为每帧64个频率分量的n个向量,n<=128,以矩阵W表示,拟定一个权重值进行过滤,丢弃掉小于该权重值的向量得到Wf;
(2)遗忘门:通过sigmoid来决定哪些值用来更新,并通过tanh层用来生成新的候选值qt,它作为当前层产生的候选值可能会添加到记忆单元状态中,把这两部分产生的值结合来进行更新:
it=σ(Wi[xt,ht-1]+bi),其中it∈[0,1]表示t时刻的节点对当前节点信息的选择权重,bi为输入门的偏置项,Wi为输入门的权重矩阵,非线性函数σ(x)=1/(1+e-x);
当前节点输入信息qt=tanh(Wq[ht-1,xt]+bq),其中bq为偏置项,Wq表示待更新信息的权重矩阵,tanh为双曲正切激活函数,xt表示t时刻LSTM深度学习网络节点的输入向量,ht-1表示t-1节点的隐层状态信息,通过tanh层对n个向量的矩阵W进行处理得到Wi,及将输入的向量的权重值与上一个状态的向量的权重值相乘得到Wq;
对旧的记忆单元状态进行更新,添加新信息:
当前输出记忆信息Ct=ft*Ct-1+it*qt),其中qt表示t-1节点的记忆信息,ft表示t时刻的节点对t-1时刻细胞记忆的选择权重,it表示t时刻的节点对当前节点信息的选择权重;
(3)输出门;
ot=σ(Wo[xt,ht-1]+bo),其中ot∈[0,1]表示t时刻的节点细胞记忆信息的选择权重,bo为输出门的偏置,Wo为输出门的权重矩阵,表示向量xt和ht-1拼接后的向量,即|xt|+|ht-1|维的向量。
ht=ot·tanh(Ct)
xt表示t时刻LSTM深度学习网络节点的输入数据,即本实施例中的128个输入向量中的其中一个输入向量;ht为t时刻LSTM深度学习网络节点的输出向量。
通过上述公式,LSTM单元一共可以输出32个输出特征。
全连接层,耦合于所述解码器,用于接收每个目标音频序列对应的整数值并根据每个目标音频序列对应的整数值输出特征数据。
具体的,全连接层包括有256个ReLU神经元,将学到的“分布式特征表示”映射到样本的标记空间,从而得到目标音频序列的特征数据。
输出层,耦合于所述解码器,用于根据所述全连接层提供的特征数据计算并输出各个预设评估参数的置信度。
具体的,使用Softmax函数可以将预设评估参数映射成(0,1)中间的置信度,输出层接收后将置信度输出。
示例性的,参阅图4,所述演奏评估模型的训练步骤包括:
步骤S106C,获取训练数据集,所述训练数据集中包括多个样本音频数据及对应的样本音频评估参数。
具体的,获取多个用户进行二胡演奏的多个样本音频数据,以构建样本音频数据的数据库。例如选取50个用户进行二胡演奏,每个用户演奏20首歌曲,每首歌曲的平均时长在5分钟左右,构建存有1000个样本音频数据的数据库。为了保证样本音频数据的质量,在专门的录音棚里面进行样本音频数据的采集。录音棚有专门的录音墙,进行噪声的消除;话筒上的录音传感器由专门的压电传感器和附加元件构成;信号调理电路可以放大呼吸声音和完全消除环境音。
获取专家对多个样本音频数据进行打分的打分值。例如可以请3位或3位以上的二胡演奏专家进行打分二胡演奏专家,二胡演奏专家可以为:西南民族大学、北京音乐学院、星海音乐学院的教授,对这1000个样本二胡演奏音频进行打分,打分值为0-10,选取三位专家的中位数作为最终演奏的样本音频评估参数。
步骤S106D,将每个样本音频数据进行离散化处理,以将对应的样本音频数据分割为多个样本音频帧。
具体的,对每个样本音频数据进行离散化处理,将每个样本音频数据分段成为每4毫秒长的样本音频帧。
步骤S106E,将每个所述样本音频帧转化为包括M个频率分量的样本音频序列。
具体的,对样本音频帧进行去噪处理,转化成每帧有64个频率分量的样本音频序列;其中,样本音频序列分成128个。
步骤S106F,将所述样本音频序列及对应的样本音频评估参数输入至深度学习网络模型中。
具体的,将离散化处理后的样本音频序列进行编码,每个样本音频序列输入到深度学习网络模型的第一网络层的其中一个细胞中,直至将128个样本音频序列一一对应地输入到128个细胞中。对深度学习网络模型的解码器进行初始化处理;将深度学习网络模型的解码器设置为对每个输入的样本音频序列输出一个单一的样本音频评估参数,样本音频评估参数的范围在0-10;将128个细胞中的128个样本音频序列输入到解码器,输出对应的预设评估参数的置信度。
步骤S106G,基于所述深度学习网络模型将所述样本音频数据的样本音频评估参数的置信度最大化,以构建演奏评估模型。
具体的,通过softmax函数计算样本音频序列的样本音频评估参数对应的置信度;确定置信度最大的预设评估参数是否为样本音频评估参数;若不是,则反向计算深度学习网络模型的第一层每个神经的误差项值,即从当前t时刻开始,计算每个时刻的误差项;根据相应的误差项,计算样本音频序列的每个权重的梯度;再利用softmax函数计算样本音频序列的样本音频评估参数的置信度,判断该置信度是否最大。若该置信度最大,则表示演奏评估模型训练成功。
实施例二
请继续参阅图5,示出了本发明基于大数据的音频评估系统实施例二的程序模块示意图。在本实施例中,基于大数据的音频评估系统20可以包括或被分割成一个或多个程序模块,一个或者多个程序模块被存储于存储介质中,并由一个或多个处理器所执行,以完成本发明,并可实现上述基于大数据的音频评估方法。本发明实施例所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序本身更适合于描述基于大数据的音频评估系统20在存储介质中的执行过程。以下描述将具体介绍本实施例各程序模块的功能:
获取模块200,用于获取目标音频数据。
具体的,利用话筒等语音输入设备在特定的场景中采集目标演奏音频,特定的场景可以为专门的录音棚。录音棚有专门的录音墙,进行噪声的消除;话筒上的录音传感器由专门的压电传感器和附加元件构成。
处理模块202,用于对所述目标音频数据进行离散化处理,以将所述目标音频数据分割为多个目标音频帧。
具体的,对目标音频数据进行离散化处理,将其分割为多个4毫秒长的目标音频帧。
转化模块204,用于将每个目标音频帧转化为包括M个频率分量的目标音频序列。
示例性的,转化模块204进一步用于:
对每个目标音频帧进行去噪处理。
具体的,基于信号调理电路每个目标音频帧进行去噪处理,信号调理电路可以放大呼吸声音和完全消除环境音。
将每个进行去噪处理后的目标音频帧转化为包括M个频率分量的目标音频序列。
具体的,将经过去噪之后的目标音频帧的窗口转化成有64个频率分量的目标音频序列。
执行输出模块206,用于将每个目标音频帧对应的目标音频序列输入至演奏评估模型中,以通过所述演奏评估模型输出所述目标音频数据的目标音频评估参数,所述演奏评估评估模型为预先训练好的神经网络模型。
具体的,将目标音频序列输入到演奏评估模型,每个目标音频序列输入到演奏评估模型的第一网络层的其中一个细胞中,直至将128个目标音频序列一一对应地输入到128个细胞中;对演奏评估模型的解码器进行初始化处理,以使前一首歌曲的计算值不影响当前进行测试的目标音频数据;将演奏评估模型的解码器的设置为对每个输入的目标音频序列输出一个单一的目标音频评估参数,音频评估参数的范围在0-10。
示例性的,执行输出模块206进一步用于:
将每个目标音频序列输入到所述编码器中以及经由所述固定编码层、所述解码器、所述全连接层及所述输出层,并通过所述输出层输出所述各个预设评估参数的置信度。
具体的,通过全连接层的分布式特征表示,将每个目标音频序列的音频评估参数映射到目标音频数据上,得到目标音频数据的特征数据将每个目标音频序列对应的音频特征参数输入到全连接层中,并经由softmax函数计算各个预设评估参数的置信度。
将置信度最高的预设评估参数确定为所述目标音频评估参数。
具体的,通过softmax函数计算各个预设评估参数的置信度。
具体的,softmax函数如下:
其中,j表示预设评估参数的序号,为0-M的整数值,i<=j。
例如:输出每个预设评估参数对应的置信度为(0.31,0.20,0.48,0.66,0.95,0.80,…),则表示:
预设评估参数为0时,置信值为0.31;
预设评估参数为1时,置信度为0.20;
预设评估参数为2时,置信度为0.48;
预设评估参数为3时,置信度为0.66;
预设评估参数为4时,置信度为0.95;
预设评估参数为5时,置信度为0.80;
以此类推,不穷举。
计算机设备选择概率最高的预设评估参数确定为该目标音频数据的目标音频评估参数,例如上述目标音频数据的目标音频评估参数为4。
实施例三
参阅图6,是本发明实施例三之计算机设备的硬件架构示意图。本实施例中,所述计算机设备2是一种能够按照事先设定或者存储的指令,自动进行数值计算和/或信息处理的设备。该计算机设备2可以是机架式服务器、刀片式服务器、塔式服务器或机柜式服务器(包括独立的服务器,或者多个服务器所组成的服务器集群)等。如图6所示,所述计算机设备2至少包括,但不限于,可通过系统总线相互通信连接存储器21、处理器22、网络接口23、以及基于大数据的音频评估系统20。其中:
本实施例中,存储器21至少包括一种类型的计算机可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,存储器21可以是计算机设备2的内部存储单元,例如该计算机设备2的硬盘或内存。在另一些实施例中,存储器21也可以是计算机设备2的外部存储设备,例如该计算机设备2上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,存储器21还可以既包括计算机设备2的内部存储单元也包括其外部存储设备。本实施例中,存储器21通常用于存储安装于计算机设备2的操作系统和各类应用软件,例如实施例二的基于大数据的音频评估系统20的程序代码等。此外,存储器21还可以用于暂时地存储已经输出或者将要输出的各类数据。
处理器22在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器22通常用于控制计算机设备2的总体操作。本实施例中,处理器22用于运行存储器21中存储的程序代码或者处理数据,例如运行基于大数据的音频评估系统20,以实现实施例一的基于大数据的音频评估方法。
所述网络接口23可包括无线网络接口或有线网络接口,该网络接口23通常用于在所述计算机设备2与其他电子装置之间建立通信连接。例如,所述网络接口23用于通过网络将所述计算机设备2与外部终端相连,在所述计算机设备2与外部终端之间的建立数据传输通道和通信连接等。所述网络可以是企业内部网(Intranet)、互联网(Internet)、全球移动通讯系统(Global System of Mobile communication,GSM)、宽带码分多址(WidebandCode Division Multiple Access,WCDMA)、4G网络、5G网络、蓝牙(Bluetooth)、Wi-Fi等无线或有线网络。需要指出的是,图6仅示出了具有部件20-23的计算机设备2,但是应理解的是,并不要求实施所有示出的部件,可以替代的实施更多或者更少的部件。
在本实施例中,存储于存储器21中的所述基于大数据的音频评估系统20还可以被分割为一个或者多个程序模块,所述一个或者多个程序模块被存储于存储器21中,并由一个或多个处理器(本实施例为处理器22)所执行,以完成本发明。
例如,图5示出了所述实现基于大数据的音频评估系统20实施例二的程序模块示意图,该实施例中,所述基于大数据的音频评估系统20可以被划分为获取模块200、处理模块202、转化模块204及执行输出模块206。其中,本发明所称的程序模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述所述基于大数据的音频评估系统20在所述计算机设备2中的执行过程。所述程序模块200-206的具体功能在实施例二中已有详细描述,在此不再赘述。
实施例四
本实施例还提供一种计算机可读存储介质,如闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘、服务器、App应用商城等等,其上存储有计算机程序,程序被处理器执行时实现相应功能。本实施例的计算机可读存储介质用于存储基于大数据的音频评估系统20,被处理器执行时实现实施例一的基于大数据的音频评估方法。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (10)
1.一种基于大数据的音频评估方法,其特征在于,包括:
获取目标音频数据;
对所述目标音频数据进行离散化处理,以将所述目标音频数据分割为多个目标音频帧;
将每个目标音频帧转化为包括M个频率分量的目标音频序列;及
将每个目标音频帧对应的目标音频序列输入至演奏评估模型中,以通过所述演奏评估模型输出所述目标音频数据的目标音频评估参数,所述演奏评估模型为预先训练好的深度学习网络模型;其中,所述深度学习网络模型包括由遗忘门、输入门与输出门组成的解码器。
2.根据权利要求1所述的音频评估方法,其特征在于,所述演奏评估模型依次包括:
编码器,所述编码器包括第一网络层、第二网络层和第三网络层,其中,所述第一网络层包括由N个神经元构成的第一双向循环层,所述第二网络层包括由N/2个神经元构成的第二双向循环层,所述第三网络层包括由N/4个循环神经元构成的单向层;
固定编码层,耦合于所述编码器,所述固定编码层包括激活层,用于初始化解码器;
所述解码器,耦合于所述固定编码层,所述解码器包括由多个LSTM单元构成的循环层,并用于为每个目标音频序列输出一个参数范围为0-M的整数值;
全连接层,耦合于所述解码器,用于接收每个目标音频序列对应的整数值并根据每个目标音频序列对应的整数值输出特征数据;
输出层,耦合于所述解码器,用于根据所述全连接层提供的特征数据计算并输出各个预设评估参数的置信度。
3.根据权利要求2所述的音频评估方法,其特征在于,将每个目标音频帧对应的目标音频序列输入至演奏评估模型中,以通过所述演奏评估模型输出所述目标音频数据的目标音频评估参数的步骤,包括:
将每个目标音频序列输入到所述编码器中以及经由所述固定编码层、所述解码器、所述全连接层及所述输出层,并通过所述输出层输出所述各个预设评估参数的置信度;及
将置信度最高的预设评估参数确定为所述目标音频评估参数。
4.根据权利要求1所述的音频评估方法,其特征在于,将每个所述目标音频帧转化为包括M个频率分量的目标音频序列的步骤,包括:
对每个所述目标音频帧进行去噪处理;
将每个去噪处理后的目标音频帧转化为包括M个频率分量的目标音频序列。
5.根据权利要求1所述的音频评估方法,其特征在于,还包括所述演奏评估模型的训练步骤:
获取训练数据集,所述训练数据集中包括多个样本音频数据及对应的样本音频评估参数;
将每个样本音频数据进行离散化处理,以将对应的样本音频数据分割为多个样本音频帧;
将每个所述样本音频帧转化为包括M个频率分量的样本音频序列;
将所述样本音频序列及对应的样本音频评估参数输入至深度学习网络模型中;
基于所述深度学习网络模型将所述样本音频数据的样本音频评估参数的频率最大化,以构建演奏评估模型;
其中,所述深度学习网络模型包括由遗忘门、输入门与输出门组成的解码器。
6.一种基于大数据的音频评估系统,其特征在于,包括:
获取模块,用于获取目标音频数据;
处理模块,用于对所述目标音频数据进行离散化处理,以将所述目标音频数据分割为多个目标音频帧;
转化模块,用于将每个目标音频帧转化为包括M个频率分量的目标音频序列;
执行输出模块,用于将每个目标音频帧对应的目标音频序列输入至演奏评估模型中,以通过所述演奏评估模型输出所述目标音频数据的目标音频评估参数,所述演奏评估模型为预先训练好的深度学习网络模型;其中,所述深度学习网络模型包括由遗忘门、输入门与输出门组成的解码器。
7.根据权利要求6所述的评估系统,其特征在于,所述演奏评估模型依次包括编码器、固定编码层、解码器、全连接层及输出层,所述执行输出模块还用于:
将每个目标音频序列输入到所述编码器中以及经由所述固定编码层、所述解码器、所述全连接层及所述输出层,并通过所述输出层输出各个预设评估参数的置信度;及
将置信度最高的预设评估参数确定为所述目标音频评估参数。
8.根据权利要求6所述的评估系统,其特征在于,所述转化模块还用于:
对每个所述目标音频帧进行去噪处理;
将每个去噪处理后的目标音频帧转化为包括M个频率分量的目标音频序列。
9.一种计算机设备,所述计算机设备包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,其特征在于,所述计算机程序被所述处理器执行时实现如权利要求1-5中任一项所述的基于大数据的音频评估方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序可被至少一个处理器所执行,以使所述至少一个处理器执行如权利要求1-5中任一项所述的基于大数据的音频评估方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910832056.6A CN110675879B (zh) | 2019-09-04 | 2019-09-04 | 基于大数据的音频评估方法、系统、设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910832056.6A CN110675879B (zh) | 2019-09-04 | 2019-09-04 | 基于大数据的音频评估方法、系统、设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110675879A CN110675879A (zh) | 2020-01-10 |
CN110675879B true CN110675879B (zh) | 2023-06-23 |
Family
ID=69076319
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910832056.6A Active CN110675879B (zh) | 2019-09-04 | 2019-09-04 | 基于大数据的音频评估方法、系统、设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110675879B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2021176925A1 (ja) * | 2020-03-04 | 2021-09-10 | ヤマハ株式会社 | 演奏データに対する観衆の評価を推論する方法、システム、及びプログラム |
WO2021186928A1 (ja) * | 2020-03-17 | 2021-09-23 | ヤマハ株式会社 | 演奏情報に対する評価を推論する方法、システム、及びプログラム |
CN111724813A (zh) * | 2020-06-17 | 2020-09-29 | 东莞理工学院 | 一种基于lstm的钢琴演奏自动评分方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105070298B (zh) * | 2015-07-20 | 2019-07-30 | 科大讯飞股份有限公司 | 复调乐器的评分方法和装置 |
US9779706B2 (en) * | 2016-02-18 | 2017-10-03 | University Of Rochester | Context-dependent piano music transcription with convolutional sparse coding |
CN108735192B (zh) * | 2018-04-09 | 2021-09-21 | 华南理工大学 | 一种结合曲风的钢琴演奏音质评价系统及方法 |
CN108711336B (zh) * | 2018-04-27 | 2020-05-12 | 山东英才学院 | 一种钢琴演奏评分方法、装置、计算机设备及存储介质 |
CN109308913A (zh) * | 2018-08-02 | 2019-02-05 | 平安科技(深圳)有限公司 | 音乐质量评价方法、装置、计算机设备及存储介质 |
CN110047514B (zh) * | 2019-05-30 | 2021-05-28 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种伴奏纯净度评估方法以及相关设备 |
-
2019
- 2019-09-04 CN CN201910832056.6A patent/CN110675879B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN110675879A (zh) | 2020-01-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108875807B (zh) | 一种基于多注意力多尺度的图像描述方法 | |
CN110675879B (zh) | 基于大数据的音频评估方法、系统、设备及存储介质 | |
CN111414987B (zh) | 神经网络的训练方法、训练装置和电子设备 | |
JP6222821B2 (ja) | 誤り修正モデル学習装置、及びプログラム | |
CN108010527B (zh) | 语音识别方法、计算机设备和存储介质 | |
CN112418292B (zh) | 一种图像质量评价的方法、装置、计算机设备及存储介质 | |
CN112599117B (zh) | 模型训练、语音识别方法及装置、电子设备及存储介质 | |
WO2019136909A1 (zh) | 基于深度学习的语音活体检测方法、服务器及存储介质 | |
CN112488183B (zh) | 一种模型优化方法、装置、计算机设备及存储介质 | |
CN111243604B (zh) | 支持多唤醒词的说话人识别神经网络模型的训练方法、说话人识别方法及系统 | |
WO2022246986A1 (zh) | 数据处理方法、装置、设备及计算机可读存储介质 | |
CN116978368B (zh) | 一种唤醒词检测方法和相关装置 | |
CN114613450A (zh) | 药物分子的性质预测方法、装置、存储介质及计算机设备 | |
CN114359592A (zh) | 模型训练及图像处理方法、装置、设备、存储介质 | |
CN113488023A (zh) | 一种语种识别模型构建方法、语种识别方法 | |
CN113194493A (zh) | 基于图神经网络的无线网络数据缺失属性恢复方法及装置 | |
CN112951209A (zh) | 一种语音识别方法、装置、设备及计算机可读存储介质 | |
CN112735392B (zh) | 语音处理方法、装置、设备及存储介质 | |
CN111611531B (zh) | 人员关系分析方法、装置及电子设备 | |
CN112885367B (zh) | 基频获取方法、装置、计算机设备和存储介质 | |
CN112463964B (zh) | 文本分类及模型训练方法、装置、设备及存储介质 | |
CN115204381A (zh) | 弱监督模型训练方法及装置、电子设备 | |
CN116074574A (zh) | 一种视频处理方法、装置、设备及存储介质 | |
CN115496175A (zh) | 新建边缘节点接入评估方法、装置、终端设备及产品 | |
CN113570044A (zh) | 客户流失分析模型训练方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |