CN109308913A - 音乐质量评价方法、装置、计算机设备及存储介质 - Google Patents
音乐质量评价方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN109308913A CN109308913A CN201810873498.0A CN201810873498A CN109308913A CN 109308913 A CN109308913 A CN 109308913A CN 201810873498 A CN201810873498 A CN 201810873498A CN 109308913 A CN109308913 A CN 109308913A
- Authority
- CN
- China
- Prior art keywords
- frequency
- audio
- evaluated
- mel
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013441 quality evaluation Methods 0.000 title claims abstract description 18
- 238000003860 storage Methods 0.000 title claims abstract description 11
- 238000011156 evaluation Methods 0.000 claims abstract description 59
- 238000012549 training Methods 0.000 claims abstract description 45
- 238000013527 convolutional neural network Methods 0.000 claims abstract description 38
- 238000012797 qualification Methods 0.000 claims abstract description 18
- 230000005284 excitation Effects 0.000 claims description 31
- 238000012545 processing Methods 0.000 claims description 19
- 238000004422 calculation algorithm Methods 0.000 claims description 7
- 238000013507 mapping Methods 0.000 claims description 6
- 238000010586 diagram Methods 0.000 description 20
- 238000007630 basic procedure Methods 0.000 description 12
- 238000003062 neural network model Methods 0.000 description 11
- 230000006854 communication Effects 0.000 description 9
- 238000004891 communication Methods 0.000 description 9
- 238000001228 spectrum Methods 0.000 description 8
- 230000008569 process Effects 0.000 description 7
- 230000006870 function Effects 0.000 description 4
- 230000009466 transformation Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 238000005452 bending Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000013210 evaluation model Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 238000009432 framing Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000000644 propagated effect Effects 0.000 description 2
- 238000005299 abrasion Methods 0.000 description 1
- 230000004913 activation Effects 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000007175 bidirectional communication Effects 0.000 description 1
- 230000000739 chaotic effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 239000012141 concentrate Substances 0.000 description 1
- 238000012790 confirmation Methods 0.000 description 1
- 238000012937 correction Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000009826 distribution Methods 0.000 description 1
- 239000002360 explosive Substances 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 238000003475 lamination Methods 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000005192 partition Methods 0.000 description 1
- SBNFWQZLDJGRLK-UHFFFAOYSA-N phenothrin Chemical compound CC1(C)C(C=C(C)C)C1C(=O)OCC1=CC=CC(OC=2C=CC=CC=2)=C1 SBNFWQZLDJGRLK-UHFFFAOYSA-N 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 230000000452 restraining effect Effects 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 230000003595 spectral effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/27—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
- G10L25/30—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/45—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of analysis window
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
Abstract
本发明实施例公开了一种音乐质量评价方法、装置、计算机设备及存储介质,包括下述步骤:获取待评价音频信息;以频率为限定条件将所述待评价音频信息转化为频率图谱;将所述待评价音频信息的频率图谱输入到预设的音质评价模型中,得到所述待评价音频信息的评价信息,其中,所述音质评价模型为预先训练至收敛的卷积神经网络模型。将待评价音频信息转化为频率图谱,并通过由卷积神经网络模型训练得到的音质评价模型对该频率图谱进行评价,得到每段音乐的评价信息,如此,可以便于用户根据评价信息来筛选音乐,避免了低质量音乐对用户的干扰,净化了网络环境。
Description
技术领域
本发明实施例涉及计算机领域,尤其是一种音乐质量评价方法、装置、计算机设备及存储介质。
背景技术
数字音乐,顾名思义就是以数字信号的方式被存储于数据库中,在网络空间中流动传输,速度较快,可以根据人们的需求进行下载和删除的音乐。数字音乐不依赖传统的音乐载体,如磁带或CD等,可以避免磨损,能保证音乐品质。
近年来,由于数字音乐的发展,音乐作品的数量呈现爆炸式增,但同时也出现了许多电脑自动生成、随机生成音乐,其中,此类音乐中绝大多数为无调性音乐,节拍错乱,重复音过多,和声连续不和谐,旋律混乱或存在旋律突然中断的情况,属于低质量音乐。
低质量音乐在网络上传播会对网络用户造成干扰,影响其上网体验。
发明内容
本发明实施例提供一种利用音质评价模型对戴佩妮国家音频信息转化得到的频率谱图进行评价的方法。
为解决上述技术问题,本发明创造的实施例采用的一个技术方案是提供一种音乐质量评价方法,包括下述步骤:
获取待评价音频信息;
以频率为限定条件将所述待评价音频信息转化为频率图谱;
将所述待评价音频信息的频率图谱输入到预设的音质评价模型中,得到所述待评价音频信息的评价信息,其中,所述音质评价模型为预先训练至收敛的卷积神经网络模型。
进一步地,所述以频率为限定条件将所述待评价音频信息转化为频率图谱,具体包括:
获取所述待评价音频信息的梅尔频率;
根据所述梅尔频率的图谱获取梅尔频率倒谱;
从所述梅尔频率倒谱中提取梅尔频率倒谱系数图。
进一步地,所述将所述待评价音频信息的频率图谱输入到预设的音质评价模型中,得到所述待评价音频信息的评价信息,具体包括:
获取所述音质评价模型的输出值;
在评价列表中查找与所述输出值具有映射关系的评价指数。
进一步地,当用户搜索目标音频时,所述将所述待评价音频信息的频率图谱输入到预设的音质评价模型中,得到所述待评价音频信息的评价信息之后,还包括:
获取播放指令;
根据所述播放指令获取待播放音频的评价指数,并与预设的指数阈值进行比较;
当所述待播放音频的评价指数大于或等于所述指数阈值时,播放所述待播放音频。
进一步地,所述播放指令包括:待播放音频的关键词;根据所述播放指令获取待播放音频的评价指数,并与预设的指数阈值进行比较之后,还包括:
当所述待评价音频的评价指数小于所述指数阈值时,根据所述待播放音频的关键词在预设的数据库中查找与所述关键词匹配的音频信息;
显示所述音频信息。
进一步地,所述音质评价模型的训练方法包括:
获取训练样本集,所述训练样本集包括从多段音质流畅的音频中提取的多张梅尔频率倒谱系数图;
由预设的所述卷积神经网络模型获取所述多张梅尔频率倒谱系数图的期望值;
将所述训练样本集输入到所述卷积神经网络模型中,获取所述卷积神经网络模型的激励值;
比对所述期望值与所述激励值之间的距离是否小于或等于预设的第一阈值,并当所述期望值与所述激励值之间的距离大于所述第一阈值时,反复循环迭代的通过反向算法更新所述卷积神经网络模型中的权重,至所述期望值与所述激励值之间的距离小于或等于预设的第一阈值时结束。
进一步地,所述由预设的所述卷积神经网络模型获取所述多张梅尔频率倒谱系数图的期望值,具体包括:
将所述多张梅尔频率倒谱系数图依次输入到预设的卷积神经网络模型中,分别获取所述多张梅尔频率倒谱系数图的输出值;
以数值为限定条件对所述输出值进行排序;
确认排序结果中处于中间位置的输出值为所述多张梅尔频率倒谱系数图的期望输出值。
为解决上述技术问题,本发明实施例还提供一种音乐质量评价装置,包括:
获取模块,用于获取待评价音频信息;
处理模块,用于以频率为限定条件将所述待评价音频信息转化为频率图谱;
执行模块,用于将所述待评价音频信息的频率图谱输入到预设的音质评价模型中,得到所述待评价音频信息的评价信息,其中,所述音质评价模型为预先训练至收敛的卷积神经网络模型。
进一步地,所述以处理模块,具体包括:
第一获取子模块,用于获取所述待评价音频信息的梅尔频率;
第一处理子模块,用于根据所述梅尔频率的图谱获取梅尔频率倒谱;
第一执行子模块,用于从所述梅尔频率倒谱中提取梅尔频率倒谱系数图。
进一步地,所述执行模块,具体包括:
第二获取子模块,用于获取所述音质评价模型的输出值;
第二执行子模块,用于在评价列表中查找与所述输出值具有映射关系的评价指数。
进一步地,当用户搜索目标音频时,所述音乐质量评价装置还包括:
第三获取子模块,用于获取播放指令;
第二处理子模块,用于根据所述播放指令获取待播放音频的评价指数,并与预设的指数阈值进行比较;
第三执行子模块,用于当所述待播放音频的评价指数大于或等于所述指数阈值时,播放所述待播放音频。
进一步地,所述播放指令包括:待播放音频的关键词;所述音乐质量评价装置还包括:
第三处理子模块,用于当所述待评价音频的评价指数小于所述指数阈值时,根据所述待播放音频的关键词在预设的数据库中查找与所述关键词匹配的音频信息;
第四执行子模块,用于显示所述音频信息。
进一步地,所述音质质量评价装置还包括:
第四获取子模块,用于获取训练样本集,所述训练样本集包括从多段音质流畅的音频中提取的多张梅尔频率倒谱系数图;
第四处理子模块,用于由预设的所述卷积神经网络模型获取所述多张梅尔频率倒谱系数图的期望值;
第五处理子模块,用于将所述训练样本集输入到所述卷积神经网络模型中,获取所述卷积神经网络模型的激励值;
第五执行子模块,用于比对所述期望值与所述激励值之间的距离是否小于或等于预设的第一阈值,并当所述期望值与所述激励值之间的距离大于所述第一阈值时,反复循环迭代的通过反向算法更新所述卷积神经网络模型中的权重,至所述期望值与所述激励值之间的距离小于或等于预设的第一阈值时结束。
进一步地,所述第四处理子模块,具体包括:
第六获取子模块,用于将所述多张梅尔频率倒谱系数图依次输入到预设的卷积神经网络模型中,分别获取所述多张梅尔频率倒谱系数图的输出值;
第六处理子模块,用于以数值为限定条件对所述输出值进行排序;
第六执行子模块,用于确认排序结果中处于中间位置的输出值为所述多张梅尔频率倒谱系数图的期望输出值。
为解决上述技术问题,本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述音乐质量评价方法的步骤。
为解决上述技术问题,本发明实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述音乐质量评价方法的步骤。
本发明实施例的有益效果是:将待评价音频信息转化为频率图谱,并通过由卷积神经网络模型训练得到的音质评价模型对该频率图谱进行评价,得到每段音乐的评价信息,如此,可以便于用户根据评价信息来筛选音乐,避免了低质量音乐对用户的干扰,净化了网络环境。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例音乐质量评价方法的基本流程示意图;
图2为本发明实施例以频率为限定条件将待评价音频信息转化为频率图谱方法的基本流程示意图;
图3为本发明实施例音乐质量评价模型的训练方法的基本流程示意图;
图4为本发明实施例利用音质评价模型对待评价音频的梅尔频率倒谱系数图进行评价的方法的基本流程示意图;
图5为本发明实施例音频播放方法的基本流程示意图;
图6为本发明实施例另一音频播放方法的基本流程示意图;
图7为本发明实施例音频质量评价装置基本结构框图;
图8为本发明实施例计算机设备基本结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如101、102等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例
本技术领域技术人员可以理解,这里所使用的“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本实施方式中的客户终端即为上述的终端。
具体地,请参阅图1,图1为本实施例保险产品配置方法的基本流程示意图。
如图1所示,保险产品配置方法包括下述步骤:
S1100、获取待评价音频信息;
待评价音频信息包括待评价的音频,可以为由数字信号生成的数字音频文件,通过乐器创作的音频文件,网络上传播的音频文件,或者从视频文件中提取的音频文件等。其中,各类音频文件的格式为MP3、WAVE、WMA、VQF、MIDI、AIFF、MPEG等。
在实际应用中,获取待评价音频信息的方法包括直接从网络上、本地文件获取待评价音频信息,或者通过从视频文件中提取音频文件来获取待评价音频信息。
S1200、以频率为限定条件将待评价音频信息转化为频率图谱;
将待评价音频信息转化为频率图谱可以通过频谱应用软件来转化,例如,PCSound Spectrum软件、FFT频谱分析软件、SmaartLive软件等。在实际应用中,为了使频率图谱中的频率连续、清楚通常在转化频率图谱的过程中,对待评价音频进行预加重、加窗及傅里叶变换处理。
本发明的一个实施例,以频率为限定条件将待评价音频信息转化为梅尔频率倒谱系数图。梅尔频率倒谱系数图可以由上述频谱应用软件转化得到的频率图谱获得。
需要说明的是,梅尔频率倒谱系数图(Mel-Frequency Cepstral Coefficients,MFCCs)是梅尔频率倒谱的系数组成的图谱。它们派生自音频片段的倒谱(cepstrum),其中,梅尔频率倒谱的频带划分是在梅尔刻度上等距划分的,比用于正常的对数倒频谱(上述通过应用软件获得的频率图谱)中的线性间隔的频带更能近似人类的听觉系统,这种频率的弯曲(梅尔频率倒谱系数图中曲线的弯曲)可以更好的表示声音。因此,对于声音流畅的音频,其梅尔频率倒谱系数图中系数的变化曲线更加符合人类听觉系统,对于噪音、杂音,其梅尔频率倒谱系数图中系数的变化与不符合人类听觉系统。
S1300、将待评价音频信息的频率图谱输入到预设的音质评价模型中,得到待评价音频信息的评价信息。
其中,音质评价模型为预先训练至收敛的卷积神经网络模型,例如可以为CNN卷积神经网络模型、VGG卷积神经网络模型等。
本发明的一个实施例,训练音质评价模型时,所使用的训练数据均为由语音流畅的音频转换得到的梅尔频率倒谱系数图,由此得到的音质评价模型符合人类听觉系统,得出的评价信息更为准确。与此同时,为确保评价准确,输入的待评价音频信息的频率图谱为梅尔频率倒谱系数图。
为解决本发明中的问题,本发明实施例提供一种音乐质量评价方法,将待评价音频信息转化为频率图谱,并通过由卷积神经网络模型训练得到的音质评价模型对该频率图谱进行评价,得到每段音乐的评价信息,如此,可以便于用户根据评价信息来筛选音乐,避免了低质量音乐对用户的干扰,净化了网络环境。
在上述实施例中,为了评价准确可以使用待评价音频的梅尔频率倒谱系数图。本发明的一个实施例提供一种以频率为限定条件将待评价音频信息转化为频率图谱方法,如图2所示,图2示出了以频率为限定条件将待评价音频信息转化为频率图谱方法的基本流程示意图。
如图2所示,步骤S1200包括:
S1210、获取待评价音频信息的梅尔频率;
将待评价音频信息通过频谱应用软件转化为频率图谱,例如,PC Sound Spectrum软件、FFT频谱分析软件、SmaartLive软件等,在转化对数频率图谱的过程中将待评价音频进行预加重、分帧、加窗的预处理,并通过傅里叶变换得到待评价音频中每帧信号的频率。其中,分帧可按照实际情况进行取值,优选为32ms(毫秒),加窗可以使用hamming窗处理。
利用梅尔频率转化公式计算梅尔频率fmel,
其中,f为对数频率。通过计算梅尔频率得到梅尔频率的图谱。
S1220、根据梅尔频率的图谱获取梅尔频率倒谱;
假设梅尔频谱为X[k],
X[k]=H[k]E[k]
其中,H[k]为梅尔频率倒谱系数,E[k]为高频谱。
对公式X[k]取对数,得到
log X[k]=log H[k]+log E[k]
再通过反离散余弦进行逆变换得到
X[k]=H[k]+E[k]
即梅尔频率倒谱系数H[k],
H[k]=X[k]-E[k]
由于E[k]为高频谱,利用低通滤波器即可得到梅尔频率倒谱,进而得到梅尔频率倒谱图。
S1230、从梅尔频率倒谱中提取梅尔频率倒谱系数图。
由梅尔频率倒谱图中提取倒谱频率的变化趋势,从而得到梅尔频率倒谱系数图。
本实施例方式中,还包括音质评价模型的训练方法,具体请参阅图3,图3为本发明实施例音质评价模型的训练方法的基本流程示意图。
如图3所示,包括如下步骤:
S1311、获取训练样本集;
训练样本集包括从多段音质流畅的音频中提取的多张梅尔频率倒谱系数图。本发明的一个实施例,从2000收清晰流畅的录音中提取6000个时长为5秒的短音频作为训练数据源。从训练数据源中提取任意多个短音频作为训练数据,从训练数据的每个音频中提取各自的梅尔频率倒谱系数图,得到训练样本集。其中,从训练数据的每个音频中提取各自的梅尔频率倒谱系数图的方法请参照上述实施例,在此不再赘述。
S1312、由预设的卷积神经网络模型获取多张梅尔频率倒谱系数图的期望值;
具体地,获取梅尔频率倒谱系数图的方法,即步骤S1312包括如下步骤:
步骤一、将多张梅尔频率倒谱系数图依次输入到预设的卷积神经网络模型中,分别获取多张梅尔频率倒谱系数图的输出值;
步骤二、以数值为限定条件对输出值进行排序;
步骤三、确认排序结果中处于中间位置的输出值为多张梅尔频率倒谱系数图的期望输出值。
需要说明的是,梅尔频率倒谱系数图的选取个数可以自定义设置,个数越多,评价模型的评价指数越准确。
S1313、将训练样本集输入到卷积神经网络模型中,获取卷积神经网络模型的激励值;
将训练样本集的梅尔频率倒谱系数图依次输入到神经网络模型中,神经网络模型对梅尔频率倒谱系数图进行特征提取。
需要说明的是,本实施例中,卷积层神经网络包括四层双卷积层、四层池化层以及全连接层,在特征提取过程中,卷基层中的卷积核从训练样本集中提取特征,以此得到卷积中每个单元的权重。为了使模型更加准确,利用预设的激活函数限定输出值的范围。在池化层中,利用卷基层提取的权重对梅尔频率倒谱系数图降低像素,并为了使模型更加稳定不依赖于训练数据可以按照预设的丢弃概率随机丢弃池化层的输出值。全连接层用于将最后得到的值输出到分类器,在分类器中进行归一化处理,得到激励值。
本发明的一个实施方式,在第一卷基层中输入梅尔倒谱图,采用32个感受野为3*3,步长为1的滤波器提取特征,并在第一池化层输出,按照预设的丢弃概率0.25随机丢弃池化层的输出值。需要说明的是,在第四层的池化层输出后,由于全连接层容易出现过度拟合,因此,在全连接层按照0.5的丢弃概率随即丢弃输出值,然后由全连接层将池化层剩余的输出值输出至分类器。
其中,激励值是卷积神经网络模型根据输入的梅尔频率倒谱系数图输出的激励数据,在神经网络模型未被训练至收敛之前,激励值为离散性较大的数值,当神经网络模型被训练至收敛之后,激励值为相对稳定的数据。
S1314、比对期望值与激励值之间的距离是否小于或等于预设的第一阈值,并当期望值与激励值之间的距离大于第一阈值时,反复循环迭代的通过反向算法更新卷积神经网络模型中的权重,至期望值与激励值之间的距离小于或等于预设的第一阈值时结束。
通过损失函数判断神经网络模型全连接层输出的激励值与设定的期望分类值是否一致,当结果不一致时,需要通过反向传播算法对第一通道内的权重进行调整。
在一些实施方式中,损失函数通过计算激励值与设定的期望值之间的距离(欧氏距离或者空间距离),来确定激励值与设定的期望值是否一致,设定第一阈值(例如,0.05),当激励值与设定的期望分类值之间的距离小于或等于第一阈值时,则确定激励值与设定的期望值一致,否则,则激励值与设定的期望值不一致。
当神经网络模型的激励值与设定的期望值不一致时,需要采用随机梯度下降算法对神经网络模型中的权重进行校正,以使卷积神经网络模型的输出结果与分类判断信息的期望结果相同。通过若干训练样本集(在一些实施方式中,训练时将所有训练样本集内的图片打乱进行训练,以增加模型的靠干扰能力,增强输出的稳定性。)的反复的训练与校正,当神经网络模型输出值与各训练样本的参照信息比对达到(不限于)99.5%时,训练结束。
为了评价准确,将待评价音频的梅尔频率倒谱系数图输入到预设的音质评价模型中,得到待评价音频信息的评价信息。具体本发明实施例提供一种利用音质评价模型对待评价音频的梅尔频率倒谱系数图进行评价的方法。如图4所示,图4示出了本发明实施例利用音质评价模型对待评价音频的梅尔频率倒谱系数图进行评价的方法的基本流程示意图。
如图4所示,步骤S1300包括:
S1321、获取音质评价模型的输出值;
将待评价音频的梅尔倒谱系数图输入到音质评价模型中进行计算,得到音质评价模型的输出值。由于音质评价模型是有语音流畅的音频训练得到的,其输出的结果表示属于语音流畅的音频的概率。因此,其输出值越大表示待评价语音越流畅,质量越高,输出值越小表示待评价音频的质量越低。
S1322、在评价列表中查找与输出值具有映射关系的评价指数。
评价指数为衡量待评价音频质量的指数,可以进行自定义设置,可以采用字母表示,例如,ABCDEF依次表示质量由高到低;也可以用分数表示,例如,满分100分,分数越高,待评价音频的质量越高。
评价列表为表示音质评价模型的输出值与评价指数的映射关系的列表,利用输出值可以通过评价列表查找对应的评价指数。
本发明实施例的一个应用场景,用户在音乐播放的应用软件中搜索目标音频以进行播放。由于目标音频的版本众多,同时为了商家为了流量网络上还有很多与目标音频的关键词相同的低质量音频,因此,用户在音乐播放软件中输入目标音频的关键词后,会出现大量与关键词匹配的音频,使得用户无从选择。本发明的一个实施例,本发明实施例提供一种音频播放方法,如图5所示,图5为音频播放方法的基本流程示意图。
如图5所示,步骤S1300之后,还包括:
S1331、获取播放指令;
播放指令用户使待播放音频进行播放的指令,播放指令可以通过单击待播放音频触发。
S1332、根据播放指令获取待播放音频的评价指数,并与预设的指数阈值进行比较;
终端获取播放指令后,根据播放指令获取待播放音频的质量指数。需要说明的是,质量指数可以预存于每个待播放音频的信息中,在获取到播放指令后直接调取质量指数;也可以是终端根据获取的播放指令实时的利用音质评价模型对待播放音频进行评价,以得到质量指数。
S1333、当待播放音频的评价指数大于或等于指数阈值时,播放待播放音频。
终端预先设置关于音频播放的指数阈值,例如,当音频的质量指数大于95分才可以播放。终端将待播放音频的质量指数与指数阈值进行比较,当大于指数阈值时播放待播放音频,如此,终端通过音质评价模型对应用软件中的音频质量进行筛选,一方面可以提高用户的听觉体验,另一方面为用户挑选节省了时间。
本发明的一个实施例,本发明实施例提供了另一种音频播放方法,如图6所示,图6为音频播放方法的基本流程示意图。
如图6所示,步骤S1332之后,还包括:
S1334、当待评价音频的评价指数小于指数阈值时,根据待播放音频的关键词在预设的数据库中查找与关键词匹配的音频信息;
S1335、显示音频信息。
当显示音频信息时,可以按照质量指数由高到低排列显示。以便于用户挑选,进一步提高用户体验。
为解决上述技术问题本发明实施例还提供一种音乐质量评价装置。具体请参阅图7,图7为本实施例音乐质量评价装置基本结构框图。
如图7所示,一种音乐质量评价装置,包括:获取模块2100、处理模块2200和执行模块2300。其中,获取模块,用于获取待评价音频信息;处理模块,用于以频率为限定条件将所述待评价音频信息转化为频率图谱;执行模块,用于将所述待评价音频信息的频率图谱输入到预设的音质评价模型中,得到所述待评价音频信息的评价信息,其中,所述音质评价模型为预先训练至收敛的卷积神经网络模型。
音乐质量评价装置将待评价音频信息转化为频率图谱,并通过由卷积神经网络模型训练得到的音质评价模型对该频率图谱进行评价,得到每段音乐的评价信息,如此,可以便于用户根据评价信息来筛选音乐,避免了低质量音乐对用户的干扰,净化了网络环境。
在一些实施方式中,音乐质量评价装置中的处理模块包括:第一获取子模块,用于获取所述待评价音频信息的梅尔频率;第一处理子模块,用于根据所述梅尔频率的图谱获取梅尔频率倒谱;第一执行子模块,用于从所述梅尔频率倒谱中提取梅尔频率倒谱系数图。
在一些实施方式中,所述执行模块具体包括:第二获取子模块,用于获取所述音质评价模型的输出值;第二执行子模块,用于在评价列表中查找与所述输出值具有映射关系的评价指数。
在一些实施方式中,当用户搜索目标音频时,所述音乐质量评价装置还包括:第三获取子模块,用于获取播放指令;第二处理子模块,用于根据所述播放指令获取待播放音频的评价指数,并与预设的指数阈值进行比较;第三执行子模块,用于当所述待播放音频的评价指数大于或等于所述指数阈值时,播放所述待播放音频。
在一些实施方式中,所述播放指令包括:待播放音频的关键词;所述音乐质量评价装置还包括:第三处理子模块,用于当所述待评价音频的评价指数小于所述指数阈值时,根据所述待播放音频的关键词在预设的数据库中查找与所述关键词匹配的音频信息;第四执行子模块,用于显示所述音频信息。
在一些实施方式中,音乐质量评价装置还包括:第四获取子模块,用于获取训练样本集,所述训练样本集包括从多段音质流畅的音频中提取的多张梅尔频率倒谱系数图;第四处理子模块,用于由预设的所述卷积神经网络模型获取所述多张梅尔频率倒谱系数图的期望值;第五处理子模块,用于将所述训练样本集输入到所述卷积神经网络模型中,获取所述卷积神经网络模型的激励值;第五执行子模块,用于比对所述期望值与所述激励值之间的距离是否小于或等于预设的第一阈值,并当所述期望值与所述激励值之间的距离大于所述第一阈值时,反复循环迭代的通过反向算法更新所述卷积神经网络模型中的权重,至所述期望值与所述激励值之间的距离小于或等于预设的第一阈值时结束。
在一些实施方式中,第四处理子模块,具体包括:第六获取子模块,用于将所述多张梅尔频率倒谱系数图依次输入到预设的卷积神经网络模型中,分别获取所述多张梅尔频率倒谱系数图的输出值;第六处理子模块,用于以数值为限定条件对所述输出值进行排序;第六执行子模块,用于确认排序结果中处于中间位置的输出值为所述多张梅尔频率倒谱系数图的期望输出值。
为解决上述技术问题,本发明实施例还提供计算机设备。具体请参阅图8,图8为本实施例计算机设备基本结构框图。
如图8所示,计算机设备的内部结构示意图。如图8所示,该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种保险产品配置方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种音乐质量评价方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图7中获取模块2100、处理模块2200和执行模块2300的具体内容,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有保险产品配置方法中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
计算机设备将待评价音频信息转化为频率图谱,并通过由卷积神经网络模型训练得到的音质评价模型对该频率图谱进行评价,得到每段音乐的评价信息,如此,可以便于用户根据评价信息来筛选音乐,避免了低质量音乐对用户的干扰,净化了网络环境。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述音乐质量评价方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
Claims (10)
1.一种音乐质量评价方法,其特征在于,包括下述步骤:
获取待评价音频信息;
以频率为限定条件将所述待评价音频信息转化为频率图谱;
将所述待评价音频信息的频率图谱输入到预设的音质评价模型中,得到所述待评价音频信息的评价信息,其中,所述音质评价模型为预先训练至收敛的卷积神经网络模型。
2.根据权利要求1所述的音乐质量评价方法,其特征在于,所述以频率为限定条件将所述待评价音频信息转化为频率图谱,具体包括:
获取所述待评价音频信息的梅尔频率;
根据所述梅尔频率的图谱获取梅尔频率倒谱;
从所述梅尔频率倒谱中提取梅尔频率倒谱系数图。
3.根据权利要求1所述的音乐质量评价方法,其特征在于,所述将所述待评价音频信息的频率图谱输入到预设的音质评价模型中,得到所述待评价音频信息的评价信息,具体包括:
获取所述音质评价模型的输出值;
在评价列表中查找与所述输出值具有映射关系的评价指数。
4.根据权利要求1所述的音乐质量评价方法,其特征在于,当用户搜索目标音频时,所述将所述待评价音频信息的频率图谱输入到预设的音质评价模型中,得到所述待评价音频信息的评价信息之后,还包括:
获取播放指令;
根据所述播放指令获取待播放音频的评价指数,并与预设的指数阈值进行比较;
当所述待播放音频的评价指数大于或等于所述指数阈值时,播放所述待播放音频。
5.根据权利要求4所述的音乐质量评价方法,其特征在于,所述播放指令包括:待播放音频的关键词;根据所述播放指令获取待播放音频的评价指数,并与预设的指数阈值进行比较之后,还包括:
当所述待评价音频的评价指数小于所述指数阈值时,根据所述待播放音频的关键词在预设的数据库中查找与所述关键词匹配的音频信息;
显示所述音频信息。
6.根据权利要求1~4任一项所述的音乐质量评价方法,其特征在于,所述音质评价模型的训练方法包括:
获取训练样本集,所述训练样本集包括从多段音质流畅的音频中提取的多张梅尔频率倒谱系数图;
由预设的所述卷积神经网络模型获取所述多张梅尔频率倒谱系数图的期望值;
将所述训练样本集输入到所述卷积神经网络模型中,获取所述卷积神经网络模型的激励值;
比对所述期望值与所述激励值之间的距离是否小于或等于预设的第一阈值,并当所述期望值与所述激励值之间的距离大于所述第一阈值时,反复循环迭代的通过反向算法更新所述卷积神经网络模型中的权重,至所述期望值与所述激励值之间的距离小于或等于预设的第一阈值时结束。
7.根据权利要求6所述的音乐质量评价方法,其特征在于,所述由预设的所述卷积神经网络模型获取所述多张梅尔频率倒谱系数图的期望值,具体包括:
将所述多张梅尔频率倒谱系数图依次输入到预设的卷积神经网络模型中,分别获取所述多张梅尔频率倒谱系数图的输出值;
以数值为限定条件对所述输出值进行排序;
确认排序结果中处于中间位置的输出值为所述多张梅尔频率倒谱系数图的期望输出值。
8.一种音乐质量评价装置,其特征在于,包括:
获取模块,用于获取待评价音频信息;
处理模块,用于以频率为限定条件将所述音频信息转化为频率图谱;
执行模块,用于将所述待评价音频信息的频率图谱输入到预设的音质评价模型中,得到所述待评价音频信息的评价信息,其中,所述音质评价模型为预先训练至收敛的卷积神经网络模型。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述音乐质量评价方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述音乐质量评价方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810873498.0A CN109308913A (zh) | 2018-08-02 | 2018-08-02 | 音乐质量评价方法、装置、计算机设备及存储介质 |
PCT/CN2018/125449 WO2020024556A1 (zh) | 2018-08-02 | 2018-12-29 | 音乐质量评价方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201810873498.0A CN109308913A (zh) | 2018-08-02 | 2018-08-02 | 音乐质量评价方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109308913A true CN109308913A (zh) | 2019-02-05 |
Family
ID=65226059
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201810873498.0A Pending CN109308913A (zh) | 2018-08-02 | 2018-08-02 | 音乐质量评价方法、装置、计算机设备及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN109308913A (zh) |
WO (1) | WO2020024556A1 (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961802A (zh) * | 2019-03-26 | 2019-07-02 | 北京达佳互联信息技术有限公司 | 音质比较方法、装置、电子设备及存储介质 |
CN110189771A (zh) * | 2019-05-31 | 2019-08-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 同源音频的音质检测方法、装置及存储介质 |
CN110322894A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种基于声音的波形图生成及大熊猫检测方法 |
CN110675879A (zh) * | 2019-09-04 | 2020-01-10 | 平安科技(深圳)有限公司 | 基于大数据的音频评估方法、系统、设备及存储介质 |
CN110728966A (zh) * | 2019-09-12 | 2020-01-24 | 上海麦克风文化传媒有限公司 | 一种音频专辑内容质量评价方法及系统 |
CN110909202A (zh) * | 2019-10-28 | 2020-03-24 | 广州荔支网络技术有限公司 | 音频价值评估方法、装置及可读存储介质 |
CN111161759A (zh) * | 2019-12-09 | 2020-05-15 | 科大讯飞股份有限公司 | 音频质量评价方法、装置、电子设备及计算机存储介质 |
CN111768801A (zh) * | 2020-06-12 | 2020-10-13 | 瑞声科技(新加坡)有限公司 | 气流杂音消除方法、装置、计算机设备及存储介质 |
CN112017986A (zh) * | 2020-10-21 | 2020-12-01 | 季华实验室 | 半导体产品缺陷检测方法、装置、电子设备及存储介质 |
TWI717096B (zh) * | 2019-04-17 | 2021-01-21 | 麥奇數位股份有限公司 | 線上互動系統的互動品質分析方法及其伺服端 |
CN112559794A (zh) * | 2019-09-25 | 2021-03-26 | 北京达佳互联信息技术有限公司 | 歌曲质量的识别方法、装置、设备及存储介质 |
CN112634928A (zh) * | 2020-12-08 | 2021-04-09 | 北京有竹居网络技术有限公司 | 声音信号处理方法、装置和电子设备 |
CN113077815A (zh) * | 2021-03-29 | 2021-07-06 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频评估方法及组件 |
CN113192536A (zh) * | 2021-04-28 | 2021-07-30 | 北京达佳互联信息技术有限公司 | 语音质量检测模型的训练方法、语音质量检测方法及装置 |
CN113436644A (zh) * | 2021-07-16 | 2021-09-24 | 北京达佳互联信息技术有限公司 | 音质评估方法、装置、电子设备及存储介质 |
CN113593607A (zh) * | 2020-04-30 | 2021-11-02 | 北京破壁者科技有限公司 | 一种音频处理方法、装置及电子设备 |
CN114171062A (zh) * | 2020-09-10 | 2022-03-11 | 安克创新科技股份有限公司 | 音质评价方法、装置及计算机存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111488485B (zh) * | 2020-04-16 | 2023-11-17 | 北京雷石天地电子技术有限公司 | 基于卷积神经网络的音乐推荐方法、存储介质和电子装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106558308A (zh) * | 2016-12-02 | 2017-04-05 | 深圳撒哈拉数据科技有限公司 | 一种互联网音频数据质量自动打分系统及方法 |
CN106816158A (zh) * | 2015-11-30 | 2017-06-09 | 华为技术有限公司 | 一种语音质量评估方法、装置及设备 |
CN106919662A (zh) * | 2017-02-14 | 2017-07-04 | 复旦大学 | 一种音乐识别方法及系统 |
CN108206027A (zh) * | 2016-12-20 | 2018-06-26 | 北京酷我科技有限公司 | 一种音频质量评价方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5715372A (en) * | 1995-01-10 | 1998-02-03 | Lucent Technologies Inc. | Method and apparatus for characterizing an input signal |
CN104581758A (zh) * | 2013-10-25 | 2015-04-29 | 中国移动通信集团广东有限公司 | 一种语音质量的估计方法、装置及电子设备 |
CN104992705B (zh) * | 2015-05-20 | 2018-08-24 | 普强信息技术(北京)有限公司 | 一种英语口语自动打分方法及系统 |
CN106531190B (zh) * | 2016-10-12 | 2020-05-05 | 科大讯飞股份有限公司 | 语音质量评价方法和装置 |
-
2018
- 2018-08-02 CN CN201810873498.0A patent/CN109308913A/zh active Pending
- 2018-12-29 WO PCT/CN2018/125449 patent/WO2020024556A1/zh active Application Filing
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106816158A (zh) * | 2015-11-30 | 2017-06-09 | 华为技术有限公司 | 一种语音质量评估方法、装置及设备 |
CN106558308A (zh) * | 2016-12-02 | 2017-04-05 | 深圳撒哈拉数据科技有限公司 | 一种互联网音频数据质量自动打分系统及方法 |
CN108206027A (zh) * | 2016-12-20 | 2018-06-26 | 北京酷我科技有限公司 | 一种音频质量评价方法及系统 |
CN106919662A (zh) * | 2017-02-14 | 2017-07-04 | 复旦大学 | 一种音乐识别方法及系统 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109961802B (zh) * | 2019-03-26 | 2021-05-18 | 北京达佳互联信息技术有限公司 | 音质比较方法、装置、电子设备及存储介质 |
CN109961802A (zh) * | 2019-03-26 | 2019-07-02 | 北京达佳互联信息技术有限公司 | 音质比较方法、装置、电子设备及存储介质 |
TWI717096B (zh) * | 2019-04-17 | 2021-01-21 | 麥奇數位股份有限公司 | 線上互動系統的互動品質分析方法及其伺服端 |
CN110189771A (zh) * | 2019-05-31 | 2019-08-30 | 腾讯音乐娱乐科技(深圳)有限公司 | 同源音频的音质检测方法、装置及存储介质 |
US11721350B2 (en) | 2019-05-31 | 2023-08-08 | Tencent Music Entertainment Technology (Shenzhen) Co., Ltd. | Sound quality detection method and device for homologous audio and storage medium |
CN110322894A (zh) * | 2019-06-27 | 2019-10-11 | 电子科技大学 | 一种基于声音的波形图生成及大熊猫检测方法 |
CN110322894B (zh) * | 2019-06-27 | 2022-02-11 | 电子科技大学 | 一种基于声音的波形图生成及大熊猫检测方法 |
CN110675879A (zh) * | 2019-09-04 | 2020-01-10 | 平安科技(深圳)有限公司 | 基于大数据的音频评估方法、系统、设备及存储介质 |
CN110728966A (zh) * | 2019-09-12 | 2020-01-24 | 上海麦克风文化传媒有限公司 | 一种音频专辑内容质量评价方法及系统 |
CN110728966B (zh) * | 2019-09-12 | 2023-05-23 | 上海麦克风文化传媒有限公司 | 一种音频专辑内容质量评价方法及系统 |
CN112559794A (zh) * | 2019-09-25 | 2021-03-26 | 北京达佳互联信息技术有限公司 | 歌曲质量的识别方法、装置、设备及存储介质 |
CN110909202A (zh) * | 2019-10-28 | 2020-03-24 | 广州荔支网络技术有限公司 | 音频价值评估方法、装置及可读存储介质 |
CN111161759A (zh) * | 2019-12-09 | 2020-05-15 | 科大讯飞股份有限公司 | 音频质量评价方法、装置、电子设备及计算机存储介质 |
CN111161759B (zh) * | 2019-12-09 | 2022-12-06 | 科大讯飞股份有限公司 | 音频质量评价方法、装置、电子设备及计算机存储介质 |
CN113593607A (zh) * | 2020-04-30 | 2021-11-02 | 北京破壁者科技有限公司 | 一种音频处理方法、装置及电子设备 |
CN111768801A (zh) * | 2020-06-12 | 2020-10-13 | 瑞声科技(新加坡)有限公司 | 气流杂音消除方法、装置、计算机设备及存储介质 |
CN114171062A (zh) * | 2020-09-10 | 2022-03-11 | 安克创新科技股份有限公司 | 音质评价方法、装置及计算机存储介质 |
CN112017986A (zh) * | 2020-10-21 | 2020-12-01 | 季华实验室 | 半导体产品缺陷检测方法、装置、电子设备及存储介质 |
CN112634928A (zh) * | 2020-12-08 | 2021-04-09 | 北京有竹居网络技术有限公司 | 声音信号处理方法、装置和电子设备 |
CN112634928B (zh) * | 2020-12-08 | 2023-09-29 | 北京有竹居网络技术有限公司 | 声音信号处理方法、装置和电子设备 |
CN113077815A (zh) * | 2021-03-29 | 2021-07-06 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频评估方法及组件 |
CN113077815B (zh) * | 2021-03-29 | 2024-05-14 | 腾讯音乐娱乐科技(深圳)有限公司 | 一种音频评估方法及组件 |
CN113192536A (zh) * | 2021-04-28 | 2021-07-30 | 北京达佳互联信息技术有限公司 | 语音质量检测模型的训练方法、语音质量检测方法及装置 |
CN113436644A (zh) * | 2021-07-16 | 2021-09-24 | 北京达佳互联信息技术有限公司 | 音质评估方法、装置、电子设备及存储介质 |
CN113436644B (zh) * | 2021-07-16 | 2023-09-01 | 北京达佳互联信息技术有限公司 | 音质评估方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
WO2020024556A1 (zh) | 2020-02-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109308913A (zh) | 音乐质量评价方法、装置、计算机设备及存储介质 | |
US11398236B2 (en) | Intent-specific automatic speech recognition result generation | |
US11043205B1 (en) | Scoring of natural language processing hypotheses | |
US9190055B1 (en) | Named entity recognition with personalized models | |
CN109147807B (zh) | 一种基于深度学习的音域平衡方法、装置及系统 | |
KR101770358B1 (ko) | 내장형 및 네트워크 음성 인식기들의 통합 | |
US20120143907A1 (en) | Generating audio annotations for search and retrieval | |
US11081104B1 (en) | Contextual natural language processing | |
US8725492B2 (en) | Recognizing multiple semantic items from single utterance | |
US20150073804A1 (en) | Deep networks for unit selection speech synthesis | |
US10049656B1 (en) | Generation of predictive natural language processing models | |
CN108463849A (zh) | 确定语言模型的对话状态 | |
US9922650B1 (en) | Intent-specific automatic speech recognition result generation | |
KR20130108563A (ko) | 인터넷 검색 관련 방법 및 장치 | |
CN112786007A (zh) | 语音合成方法、装置、可读介质及电子设备 | |
CN103177722A (zh) | 一种基于音色相似度的歌曲检索方法 | |
Kiktova-Vozarikova et al. | Feature selection for acoustic events detection | |
Sangeetha et al. | Emotion speech recognition based on adaptive fractional deep belief network and reinforcement learning | |
Zhang et al. | FMFCC-a: a challenging Mandarin dataset for synthetic speech detection | |
Nam et al. | A deep bag-of-features model for music auto-tagging | |
CN114255740A (zh) | 语音识别方法、装置、计算机设备和存储介质 | |
Ghiurcau et al. | Speaker recognition in an emotional environment | |
US12033618B1 (en) | Relevant context determination | |
CN111859008B (zh) | 一种推荐音乐的方法及终端 | |
Jia | A music emotion classification model based on the improved convolutional neural network |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20190205 |
|
RJ01 | Rejection of invention patent application after publication |