CN111639225B - 一种音频信息的检测方法、装置及存储介质 - Google Patents

一种音频信息的检测方法、装置及存储介质 Download PDF

Info

Publication number
CN111639225B
CN111639225B CN202010441910.9A CN202010441910A CN111639225B CN 111639225 B CN111639225 B CN 111639225B CN 202010441910 A CN202010441910 A CN 202010441910A CN 111639225 B CN111639225 B CN 111639225B
Authority
CN
China
Prior art keywords
information
audio
frequency
power spectrum
processed
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010441910.9A
Other languages
English (en)
Other versions
CN111639225A (zh
Inventor
徐东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Music Entertainment Technology Shenzhen Co Ltd
Original Assignee
Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Music Entertainment Technology Shenzhen Co Ltd filed Critical Tencent Music Entertainment Technology Shenzhen Co Ltd
Priority to CN202010441910.9A priority Critical patent/CN111639225B/zh
Publication of CN111639225A publication Critical patent/CN111639225A/zh
Application granted granted Critical
Publication of CN111639225B publication Critical patent/CN111639225B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/635Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/63Querying
    • G06F16/638Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/60Information retrieval; Database structures therefor; File system structures therefor of audio data
    • G06F16/68Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computational Mathematics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Analysis (AREA)
  • Evolutionary Biology (AREA)
  • Library & Information Science (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Algebra (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Software Systems (AREA)
  • Auxiliary Devices For Music (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)

Abstract

本申请实施例公开了一种音频信息的检测方法、装置及存储介质,本申请实施例通过获取待处理音频,并对待处理音频进行处理,得到功率谱信息;对功率谱信息进行筛选,得到筛选后的目标功率谱信息;分析目标功率谱信息的频谱特点,获取待处理音频的多个频率峰值和滚降值;生成多个频率峰值和滚降值的概率分布信息;根据概率分布信息确定出待处理音频的检测结果。以此,通过获取待处理音频功率谱信息并进行相应的筛选,得到目标功率谱信息,分析目标功率谱信息的频谱特点,确定多个频率峰值和滚降值,生成频率峰值和滚降值的概率分布信息,根据该概率分布信息的分布特点确定出待处理音频的检测结果,极大的提升了音频信息的检测效率和准确率。

Description

一种音频信息的检测方法、装置及存储介质
技术领域
本申请涉及音频处理技术领域,具体涉及一种音频信息的检测方法、装置及存储介质。
背景技术
数字音频,顾名思义就是以数字信号的方式存储于网络服务器中的音频,在网络空间中流动传输,具有速度快的优点,可以根据人们的需求即时进行下载音频,数字音频不依赖传统的音乐载体,如磁带或CD等,可以避免磨损,能保证音频品质。
现有技术中,数字音频在经过编码处理后,可能会出现信息损失的情况,因此,会产生大量的品质参差不齐的数字音频,在理想状态下,往往希望从中挑选出无损数字音频,该无损数字音频为没有信息损失或者损失极低的数字音频。
在对现有技术的研究和实践过程中,本申请的发明人发现,现有技术中,虽然提供有人力对无损音质进行检测的方法,但是对于数量巨大的数字音频来说,人力检测的速度过慢以及准确性较差。
发明内容
本申请实施例提供一种音频信息的检测方法、装置及存储介质,旨在提升音频信息的检测效率和准确性。
为解决上述技术问题,本申请实施例提供以下技术方案:
一种音频信息的检测方法,包括:
获取待处理音频,并对所述待处理音频进行处理,得到功率谱信息;
对所述功率谱信息进行筛选,得到筛选后的目标功率谱信息;
分析所述目标功率谱信息的频谱特点,获取所述待处理音频的多个频率峰值和滚降值;
生成所述多个频率峰值和滚降值的概率分布信息;
根据所述概率分布信息确定出待处理音频的检测结果。
相应的,本申请还提供一种音频信息的检测装置,包括:
处理单元,用于获取待处理音频,并对所述待处理音频进行处理,得到功率谱信息;
筛选单元,用于对所述功率谱信息进行筛选,得到筛选后的目标功率谱信息;
分析单元,用于分析所述目标功率谱信息的频谱特点,获取所述待处理音频的多个频率峰值和滚降值;
生成单元,用于生成所述多个频率峰值和滚降值的概率分布信息;
确定单元,用于根据所述概率分布信息确定出待处理音频的检测结果。
在一些实施例中,所述处理单元,包括:
转化子单元,用于将所述待处理音频的格式转化为预设格式;
裁剪子单元,用于对转化为预设格式的待处理音频进行静音裁剪处理;
计算子单元,用于计算出静音裁剪处理后的待处理音频的功率谱信息。
在一些实施例中,所述计算子单元,用于:
对静音裁剪处理后的待处理音频进行分帧,得到多帧音频信号;
计算每帧音频信号的频谱,生成每帧音频信号的功率谱信息;
将每帧音频信号的功率谱信息进行合成,得到静音裁剪处理后的待处理音频的功率谱信息。
在一些实施例中,所述筛选单元,用于:
将所述功率谱信息中存在削波失真的功率谱信息进行剔除,得到第一功率谱信息;
将所述第一功率谱信息中能量值低于第一预设阈值的功率谱进行剔除,得到第二功率谱信息;
将所述第二功率谱信息中存在静音区域大于第二预设阈值的功率谱进行剔除,得到目标功率谱信息。
在一些实施例中,所述分析单元,包括:
第一确定子单元,用于根据目标功率谱信息中的频谱节点之间的变化状态确定出起始频谱节点和终止频谱节点;
第二确定子单元,用于根据所述起始频谱节点和所述终止频谱节点的横坐标变化量和纵坐标变化量确定出所述待处理音频的多个频率峰值和滚降值。
在一些实施例中,所述第一确定子单元,用于:
获取所述目标功率谱信息中频谱强度小于第三预设阈值的起始频谱节点和终止频谱节点;
当所述目标功率谱信息的某段频谱节点之间形成曲线的曲线变化率大于第四预设阈值时,获取所述某段频谱节点的起始频谱节点和终止频谱节点
在一些实施例中,所述确定单元,用于:
根据所述概率分布信息获取主频率信息;
确定出所述概率分布信息中的峰值频率信息;
预先设置多个不同的阈值频率范围,统计各个阈值频率范围包括的音频信号帧数,并确定各个音频信号帧数中的最大值;
根据所述主频率信息、峰值频率信息和音频信号帧数中的最大值确定出待处理音频的检测结果。
相应的,本申请实施例还提供一种存储介质,其上存储有计算机程序,当所述计算机程序在计算机上运行时,使得所述计算机执行如本申请任一实施例提供的音频信息的检测方法。
本申请实施例通过获取待处理音频,并对待处理音频进行处理,得到功率谱信息;对功率谱信息进行筛选,得到筛选后的目标功率谱信息;分析目标功率谱信息的频谱特点,获取待处理音频的多个频率峰值和滚降值;生成多个频率峰值和滚降值的概率分布信息;根据概率分布信息确定出待处理音频的检测结果。以此,通过获取待处理音频功率谱信息并进行相应的筛选,得到目标功率谱信息,分析目标功率谱信息的频谱特点,确定多个频率峰值和滚降值,生成频率峰值和滚降值的概率分布信息,根据该概率分布信息的分布特点确定出待处理音频的检测结果,极大的提升了音频信息的检测效率和准确率。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请实施例提供的音频信息的检测系统的场景示意图;
图2是本申请实施例提供的音频信息的检测方法的流程示意图;
图3是本申请实施例提供的音频信息的检测方法的另一流程示意图;
图4a是本申请实施例提供的音频信息的检测方法的场景示意图;
图4b是本申请实施例提供的音频信息的检测方法的另一场景示意图;
图4c是本申请实施例提供的音频信息的检测方法的另一场景示意图;
图5a是本申请实施例提供的音频信息的检测装置的结构示意图;
图5b是本申请实施例提供的音频信息的检测装置的另一结构示意图;
图5c是本申请实施例提供的音频信息的检测装置的另一结构示意图;
图6是本申请实施例提供的服务器的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供一种音频信息的检测方法、装置及存储介质。
请参阅图1,图1为本申请实施例所提供的音频信息的检测系统的场景示意图,包括:终端A、和服务器(该检测系统还可以包括除终端A之外的其他终端,终端具体个数在此处不作限定),终端A与服务器之间可以通过通信网络连接,该通信网络,可以包括无线网络以及有线网络,其中无线网络包括无线广域网、无线局域网、无线城域网、以及无线个人网中的一种或多种的组合。网络中包括路由器、网关等等网络实体,图中并未示意出。终端A可以通过通信网络与服务器进行信息交互,比如终端A需要对待处理音频进行检测时,会将该待处理音频上传至服务器中,该服务器可以对该待处理音频的音频信息进行检测。
该音频信息的检测系统可以包括音频信息的检测装置,该音频信息的检测装置具体可以集成在服务器中,需要说明的是,在本申请的实施例中,以音频信息的检测装置集成在服务器中进行说明,在另一种实施方式中,该音频信息的检测装置还可以集成在终端中。在图1中,该服务器主要用于接收终端A上传的待处理音频,并对该待处理音频进行处理,得到功率谱信息,对该功率谱信息进行筛选,得到筛选后的目标功率谱信息,分析该目标功率谱信息的频谱特点,获取该待处理音频的多个频率峰值和滚降值,生成该多个频率峰值和滚降值的概率分布信息,并根据该概率分布信息确定出待处理音频的检测结果,并将该待处理音频的检测结果发送到终端A上,用户根据该检测结果可以快速知道该待处理音频的质量,节省用户的检测时间,提升用户的体验感。
该音频信息的检测系统还可以包括终端A,该终端A可以安装各种用户需要的应用,比如音乐应用、浏览器应用以及即时通讯应用等,在用户通过音乐应用对待处理音乐进行检测时,会将该待处理音乐上传至服务器中。
需要说明的是,图1所示的音频信息的检测系统的场景示意图仅仅是一个示例,本申请实施例描述的音频信息的检测系统以及场景是为了更加清楚的说明本申请实施例的技术方案,并不构成对于本申请实施例提供的技术方案的限定,本领域普通技术人员可知,随着音频信息的检测系统的演变和新业务场景的出现,本申请实施例提供的技术方案对于类似的技术问题,同样适用。
以下分别进行详细说明。需要说明的是,以下实施例的序号不作为对实施例优选顺序的限定。
实施例一、
在本实施例中,将从音频信息的检测装置的角度进行描述,该音频信息的检测装置具体可以集成在具备储存单元并安装有微处理器而具有运算能力的服务器中。
请参阅图2,图2是本申请实施例提供的音频信息的检测方法的流程示意图。该音频信息的检测方法包括:
在步骤101中,获取待处理音频,并对待处理音频进行处理,得到功率谱信息。
需要说明的是,音频播放时表现出的声音品质越好,音质越好,说明录制的音频越接近声音的原始状态,无损格式音频指音频经过编码后,可以完全恢复至编码前的状态,没有信息损失,譬如,唱片的采样率为44.1KHz(千赫兹),理论带宽可达到22KHz,超过了人的听感范围,因而被认为无损格式。在实际的使用中,频谱高度达到21KHz以上,即轻微损失,也判定为无损格式的音频。
其中,该待处理音频的数量可以为多个,每一待处理音频的格式可以相同,也可以不同,如待处理音频的格式为动态影像专家压缩标准音频层面3(Moving Picture ExpertsGroup Audio Layer III,MP3)、无损音频压缩编码(Free Lossless Audio Codec,FLAC)或者OGG(OGGVobis)格式等等。
进一步的,由于该待处理音频的音质参差不齐,因此,需要对待处理音频进行相应的预处理,比如将该待处理音频进行分帧,分为多帧的信号,并计算每帧信号的频谱,获取相应的多个频率谱。
在一些实施方式中,该获取待处理音频,并对待处理音频进行处理,得到功率谱信息的步骤,可以包括:
(1)将该处理音频的格式转化为预设格式;
(2)对转化为预设格式的待处理音频进行静音裁剪处理;
(3)计算出静音裁剪处理后的待处理音频的功率谱信息。
其中,读取该待处理音频的格式、采样率和时长信息,如果该格式即为无损格式,如FLAC格式即为无损格式,继续判断采样率是否大于预设采样率,该预设采样率一般为44.1KHz,当判断出采样率大于预设采样率时,继续判断时长信息是否大于预设时长,该预设时长可以为20秒,当判断出时长信息大于预设时长时,判定为该格式、采样率以及时长信息满足预设条件,将该处理音频的格式转为预设格式,如转化为wav格式,得到波形文件,便于后续的音频读取。
进一步的,将音频的开头和结尾存在静音的部分进行静音裁剪处理,减少静音带来的干扰,并对静音裁剪处理后的待处理音频进行分帧处理,获得多帧的时域波形,并计算每帧信号的频谱,获得每一帧相应的功率谱信息,该功率谱信息是功率谱密度函数的简称,它定义为单位频带内的信号功率。它表示了信号功率随着频率的变化情况,即信号功率在频域的分布状况,将每一帧音频信号的功率谱信息按照帧顺序进行合成,得到静音裁剪处理后的待处理音频的功率谱信息。
在步骤102中,对功率谱信息进行筛选,得到筛选后的目标功率谱信息。
其中,为了增加后续的功率谱信息的处理效率,需要检测每一帧的功率谱是否异常,该异常的判定标准可以从削波失真、能量检测和长静音检测等多个角度上进行判断,将异常的功率谱信息进行筛选,得到精简化后的目标功率谱信息。
在一些实施方式中,对功率谱信息进行筛选,得到筛选后的目标功率谱信息的步骤,包括:
(1)将该功率谱信息中存在削波失真的功率谱信息进行剔除,得到第一功率谱信息;
(2)将该第一功率谱信息中能量值低于第一预设阈值的功率谱进行剔除,得到第二功率谱信息;
(3)将该第二功率谱信息中存在静音区域大于第二预设阈值的功率谱进行剔除,得到目标功率谱信息。
其中,首先检测出功率谱信息中存在削波失真的功率谱信息,该削波失真的判定标准为如果波形振幅过大而超出量程,在波形上的表现是波形振幅持续为一个较大的值,如1、-1或者介于-1至1之间的数,在频域上表现为频谱在高频处的能量泄露,因此,需要将存在削波失真的功率谱信息剔除,得到第一功率谱信息。
进一步的,该第一预设阈值为界定能量是否过低的临界值,如果音频的能量小于该临界值,对于后续处理可能会出现干扰,因此,在第一功率谱信息中将能量值低于第一预设阈值的功率谱进行剔除,得到第二功率谱信息。
最后,该第二预设阈值为界定静音区域是否过长的临界值,如果第二功率谱信息中静音区域存在时间较长的静音区域,那么需要在第二功率谱信息中将静音区域大于第二预设阈值的功率谱进行剔除,得到目标功率谱信息,以此,实现对于功率谱信息的优化,将不符合条件的功率谱信息进行剔除,得到简化后的目标功率谱信息。
在步骤103中,分析目标功率谱信息的频谱特点,获取待处理音频的多个频率峰值和滚降值。
其中,该目标功率谱信息可以包括多个频谱节点信息,该频谱节点信息的横坐标为频率,单位是赫兹,纵坐标是谱级,单位是分贝,该频谱节点信息可以反映出各个频率下音频信号的强度,根据该目标功率谱信息中的频谱节点信息,获取可以代表一帧音频信号目标功率谱信息的曲线,根据曲线的特质,获取相应的频率峰值和滚降值,该频率峰值可以代表一帧目标功率谱信息的频率最大值,该滚降值代表该频率最大值的变化程度,以此类推,可以获取所有帧音频信号的多个频率峰值和滚降值。
在一些实施方式中,该分析目标功率谱信息的频谱特点,获取待处理音频的多个频率峰值和滚降值的步骤,可以包括:
(1)根据目标功率谱信息中的频谱节点之间的变化状态确定出起始频谱节点和终止频谱节点;
(2)根据该起始频谱节点和该终止频谱节点的横坐标变化量和纵坐标变化量确定出该待处理音频的多个频率峰值和滚降值。
其中,可以根据目标功率谱信息中的频谱节点之间的变化状态确定出相应的变化曲线,具体该变化曲线是指满足频谱强度下降变化极大或者频谱强度减少至一定预设强度下时的曲线。
进一步的,根据满足条件的曲线的该起始频谱节点和终止频谱节点的横坐标变化量和纵坐标的变化量确定出相应的多个频率峰值和滚降值,该横坐标变化量和纵坐标的变化量结合存在四种变化情况,根据每种变化情况取相应的曲线的频率峰值和滚降值。
在步骤104中,生成多个频率峰值和滚降值的概率分布信息。
其中,根据所有帧的目标功率谱信息的频率峰值和滚降值进行统计分析,计算出频率和滚降大小的概率分布,得到各频率和滚降值的出现概率情况。
在步骤105中,根据概率分布信息确定出待处理音频的检测结果。
其中,根据该频率和滚降值的分布情况,确定出该待处理音频为有损格式音频还是无损格式音频。
在一些实施方式中,该根据概率分布信息确定出待处理音频的检测结果的步骤,可以包括:
(1)根据该概率分布信息获取主频率信息;
(2)确定出该概率分布信息中的峰值频率信息;
(3)预先设置多个不同的阈值频率范围,统计各个阈值频率范围包括的音频信号帧数,并确定各个音频信号帧数中的最大值;
(4)根据该主频率信息、峰值频率信息和音频信号帧数中的最大值确定出待处理音频的检测结果。
其中,根据该概率分布信息获取主频率信息,该主频率信息是概率密度分布达到百分之九十对应的频率,表示为输入音频能达到的有效频率;确定出该概率分布信息中的峰值频率信息,该峰值频率信息是概率密度分布中最高峰值对应的频率,表示的是待处理音频信息能达到的最大聚集频率。获取每帧的音频信号在目标功率谱信息上对应的频率峰值,该频率峰值为每帧的音频信号在目标功率谱信息上相应曲线的最高频率值,得到每帧的音频信号的多个频率峰值,该阈值频率范围可以为多个,例如包括三个阈值频率范围,分别为第一阈值频率范围20KHz至21KHz的频率范围,第二阈值频率范围为21KHz至22KHz的频率范围,第三阈值频率范围大于22KHz的频率范围,以此,将每一频率峰值与第一阈值频率范围进行比较,确定处于第一阈值频率范围的频率峰值相应的音频信号帧数,将每一频率峰值与第二阈值频率范围进行比较,确定处于第二阈值频率范围的频率峰值相应的音频信号帧数,将每一频率峰值与第三阈值频率范围进行比较,确定处于第三阈值频率范围的频率峰值相应的音频信号帧数,该音频信号帧数代表待处理音频在相应的阈值频率范围内的数量情况,比较每一阈值频率范围的音频信号帧数,确定音频信号帧数中的最大值和相应的属于的阈值频率范围,例如,在大于22KHz以上的音频信号帧数最多,说明待处理音频在22KHz以上分布最多。
进一步的,判断主频率和峰值频率的值是否大于预设频率,如21KHz,如果两者都大于21KHz,则输出无损格式音质的判决结果,如果不满足都大于21KHz,那么判断该音频信号帧数中的最大值是否大于预设数量,该预设数量为界定该音频信号帧数中的最大值是否在相应阈值频率范围内分布上具备一定规模的临界值,若判断出该音频信号帧数中的最大值大于预设数量,说明在20KHz至21KHz、21KHz至22KHz或大于22KHz的阈值频率范围内的音频信号帧在分布上具备一定规模,输出无损格式音质的判决结果,否则,判定为有损格式音质。
由上述可知,本申请实施例通过获取待处理音频,并对待处理音频进行处理,得到功率谱信息;对功率谱信息进行筛选,得到筛选后的目标功率谱信息;分析目标功率谱信息的频谱特点,获取待处理音频的多个频率峰值和滚降值;生成多个频率峰值和滚降值的概率分布信息;根据概率分布信息确定出待处理音频的检测结果。以此,通过获取待处理音频功率谱信息并进行相应的筛选,得到目标功率谱信息,分析目标功率谱信息的频谱特点,确定多个频率峰值和滚降值,生成频率峰值和滚降值的概率分布信息,根据该概率分布信息的分布特点确定出待处理音频的检测结果,极大的提升了音频信息的检测效率和准确率。
实施例二、
根据实施例一所描述的方法,以下将举例作进一步详细说明。
在本实施例中,将以该音频信息的检测装置具体集成在服务器中为例以及该音频为音乐进行说明。
请参阅图3,图3为本申请实施例提供的音频信息的检测方法的另一流程示意图。该方法流程可以包括:
在步骤201中,服务器获取待处理音频,将待处理音频的格式转化为预设格式,对转化为预设格式的待处理音频进行静音裁剪处理。
其中,服务器获取待处理音乐,读取该待处理音乐的格式、采样率以及时长信息,如格式为FLAC、采样率44.1KHz和时长信息为3分钟,该预设条件即为格式满足无损格式FLAC,采样率大于等于44.1以及时长大于1分钟,即该待处理音乐满足预设条件,将该待处理音乐的格式转化为wav格式,得到波形文件,并对该处理音乐的开头和结尾存在的静音部分进行静音裁剪处理,减少静音带来的干扰。
在步骤202中,服务器对静音裁剪处理后的待处理音频进行分帧,得到多帧音频信号,计算每帧音频信号的频谱,生成每帧音频信号的功率谱信息,将每帧音频信号的功率谱信息进行合成,得到静音裁剪处理后的待处理音频的功率谱信息。
其中,服务器对静音裁剪处理后的待处理音频进行分帧,即按照一定帧长和帧移进行分帧,获得多帧的时域波形,如帧长为20毫秒,帧移为百分之五十等等,并计算每帧音频信号的频谱,获得多个功率谱信息,将每帧音频信号的功率谱信息按照帧顺序进行合成,得到静音裁剪处理后的待处理音频的功率谱信息。
在步骤203中,服务器将功率谱信息中存在削波失真的功率谱信息进行剔除,得到第一功率谱信息,将第一功率谱信息中能量值低于第一预设阈值的功率谱进行剔除,得到第二功率谱信息,将第二功率谱信息中存在静音区域大于第二预设阈值的功率谱进行剔除,得到目标功率谱信息。
其中,服务器将功率谱信息中存在波形振幅过大而超出量程的功率谱信息进行剔除,得到第一功率谱信息,将第一功率谱信息中能量低于第一预设阈值的功率谱进行剔除,得到第二功率谱信息,最后,将第二功率谱中存在静音区域大于第二预设阈值的功率谱进行剔除,得到目标功率谱信息。
在步骤204中,服务器获取目标功率谱信息中频谱强度小于第三预设阈值的起始频谱节点和终止频谱节点。
其中,该目标功率谱信息可以包括多个频谱节点信息,该频谱节点信息的横坐标为频率,单位是赫兹,纵坐标是谱级,单位是分贝,如图4a和图4b所示,图4a表示为一帧目标功率谱信息,图4b表示为另一帧目标功率谱信息,服务器获取目标功率谱信息中频谱强度小于第三预设阈值的起始频谱点和终止频谱节点,该第三预设阈值可以为-130分贝,如图4a所示,服务器获取起始频谱节点F1和终止频谱节点F2。
在步骤205中,若服务器检测到目标功率谱信息的某段频谱节点之间形成曲线的曲线变化率大于第四预设阈值,则获取某段频谱节点的起始频谱节点和终止频谱节点。
其中,当服务器检测到目标功率谱信息的某段频谱节点之间形成曲线的曲线变化率大于第四预设阈值时,取处于该变化率中的起始频谱节点和终止频谱节点,如图4b所示,服务器取曲线斜率较大的起始频谱节点F1和终止频谱节点F2。
在步骤206中,服务器根据起始频谱节点和终止频谱节点的横坐标变化量和纵坐标变化量确定出待处理音频的多个频率峰值和滚降值。
其中,该起始频谱节点和终止频谱节点的横坐标变化量和纵坐标变化量结合存在四种变化情况,即频谱抖降大和抖降小以及频谱抖降宽和抖降窄结合,得到四种类型分布,抖降大和抖降小分别指频谱强度的相对变化量,抖降宽和抖降窄分别指频谱频率的变化范围。
当频谱类型是抖降大且宽,滚降大小可以设定为强度差值一半的值,该频率峰值设定为宽度一半时对应的频率;如果频谱类型是抖降大且窄,则频率峰值为起始频谱节点对应的频率,滚降大小为起始频谱节点与终止频谱节点对应的强度差;如果频谱类型是抖降小且宽,则频率峰值为终止频谱节点对应的频率,滚降大小可以设定为强度差值一半的值;如果频谱类型是抖降小且窄,则频率峰值为终止频谱节点对应的频率,滚降大小为起始频谱节点与终止频谱节点对应的强度差。基于此,确定出每一帧的目标功率谱信息的多个频率峰值和滚降值。
在步骤207中,服务器生成多个频率峰值和滚降值的概率分布信息,根据概率分布信息获取主频率信息,确定出概率分布信息中的峰值频率信息。
其中,服务器根据每帧音频信号的目标功率谱信息的频率峰值和滚降值进行统计分析,计算出频率和滚降大小的概率分布,得到各频率和滚降值的出现概率情况,根据概率分布信息获取概率密度分布达到百分之九十对应的频率的主频率,确定出概率密度分布中最高峰值对应的峰值频率信息,获取每帧的音频信号在该目标功率谱信息上对应的频率峰值,即获取每帧的音频信号在该目标功率谱上相应曲线的最高频率值。
在步骤208中,服务器预先设置多个不同的阈值频率范围,统计各个阈值频率范围包括的音频信号帧数,并确定各个音频信号帧数中的最大值。
其中,服务器可以预先设置三个不同的阈值频率范围,例如第一阈值频率范围(即20KHz至21KHz)、第二阈值频率范围(即21KHz至22KHz)和第三阈值频率范围(即大于22KHz),将每一频率峰值与第一阈值频率范围进行比较,确定处于第一阈值频率范围的频率峰值相应的音频信号帧数,将每一频率峰值与第二阈值频率范围进行比较,确定处于第二阈值频率范围的频率峰值相应的音频信号帧数,将每一频率峰值与第三阈值频率范围进行比较,确定处于第三阈值频率范围的频率峰值相应的音频信号帧数,比较每一阈值频率范围内的音频信号帧数,确定音频信号帧数中的最大值和相应的属于的阈值频率范围,。
在步骤209中,服务器根据主频率信息、峰值频率信息和音频信号帧数中的最大值确定出待处理音频的检测结果。
在一些事实方式中,该根据主频率信息、峰值频率信息和音频信号帧数中的最大值确定出待处理音频的检测结果的步骤,可以包括:
(1)若检测到该主频率信息和峰值频率信息均大于预设频率,则将该待处理音频的音质确定为无损音质;
(2)若检测到该主频率信息和峰值频率信息中至少一个不大于预设频率,则检测该音频信号帧数中的最大值是否大于预设数量;
(3)若检测到该音频信号帧数中的最大值大于预设数量,则将该待处理音频的音质确定为无损音质;
(4)若检测到该音频信号帧数中的最大值不大于预设数量,则将该待处理音频的音质确定为有损音质。
其中,服务器检测主频率和峰值频率的值是否大于预设频率,如21KHz,如果两者都大于21KHz,说明概率密度分布达到百分之九十对应的频率都大于无损要求21KHz,将该待处理音频的音质确定为无损音质,如果两者任一不大于21KHz,那么检测该音频信号帧数中的最大值是否大于预设数量,该预设数量如30个,若服务器检测到音频信号帧数中的最大值大于预设数量,说明音频信号帧数中的最大值相应的阈值频率范围表现丰富,可以将该待处理音频的音质确定为无损音质,否则,将该待处理音频的音质确定为有损音质。
如图4c所示,手机界面10显示“如果有一天”的音乐,用户将该“如果有一天”的音乐上传至服务器,服务器通过上述检测方法进行检测,判定为该“如果有一天”的音乐为无损音乐并将该结果返回值手机,手机根据该结果进行刷新,得到刷新后的手机界面11,并将该手机界面11显示,使得用户不用人工听该“如果有一天”的音乐,即可知道该“如果有一天”的音乐为无损音乐,节省了用户的时间。
由上述可知,本申请实施例通过获取待处理音频,并对待处理音频进行处理,得到功率谱信息;对功率谱信息进行筛选,得到筛选后的目标功率谱信息;分析目标功率谱信息的频谱特点,获取待处理音频的多个频率峰值和滚降值;生成多个频率峰值和滚降值的概率分布信息;根据概率分布信息确定出待处理音频的检测结果。以此,通过获取待处理音频功率谱信息并进行相应的筛选,得到目标功率谱信息,分析目标功率谱信息的频谱特点,确定多个频率峰值和滚降值,生成频率峰值和滚降值的概率分布信息,根据该概率分布信息的分布特点确定出待处理音频的检测结果,极大的提升了音频信息的检测效率和准确率。
实施例三、
为便于更好的实施本申请实施例提供的音频信息的检测方法,本申请实施例还提供一种基于上述音频信息的检测方法的装置。其中名词的含义与上述音频信息的检测方法中相同,具体实现细节可以参考方法实施例中的说明。
请参阅图5a,图5a为本申请实施例提供的音频信息的检测装置的结构示意图,其中该音频信息的检测装置可以包括处理单元301、筛选单元302、分析单元303、、生成单元304和确定单元305等。
处理单元301,用于获取待处理音频,并对该待处理音频进行处理,得到功率谱信息。
在一些实施方式中,如图5b所示,处理单元301可以包括转化子单元3011、裁剪子单元3012以及计算子单元3013,如下:
转化子单元3011,用于将该待处理音频的格式转化为预设格式;
裁剪子单元3012,用于对转化为预设格式的待处理音频进行静音裁剪处理;
计算子单元3013,用于计算出静音裁剪处理后的待处理音频的功率谱信息。
在一些实施方式中,该计算子单元3013,用于:对静音裁剪处理后的待处理音频进行分帧,得到多帧音频信号;计算每帧音频信号的频谱,生成每帧音频信号的功率谱信息;将每帧音频信号的功率谱信息进行合成,得到静音裁剪处理后的待处理音频的功率谱信息。
筛选单元302,用于对该功率谱信息进行筛选,得到筛选后的目标功率谱信息。
在一些实施方式中,该筛选单元302用于:将该功率谱信息中存在削波失真的功率谱信息进行剔除,得到第一功率谱信息;将该第一功率谱信息中能量值低于第一预设阈值的功率谱进行剔除,得到第二功率谱信息;将该第二功率谱信息中存在静音区域大于第二预设阈值的功率谱进行剔除,得到目标功率谱信息。
分析单元303,用于分析该目标功率谱信息的频谱特点,获取该待处理音频的多个频率峰值和滚降值。
在一些实施方式中,如图5c所示,该分析单元303,包括:
第一确定子单元3031,用于根据目标功率谱信息中的频谱节点之间的变化状态确定出起始频谱节点和终止频谱节点;
第二确定子单元3032,用于根据该起始频谱节点和该终止频谱节点的横坐标变化量和纵坐标变化量确定出该待处理音频的多个频率峰值和滚降值。
在一些实施方式中,该第一确定子单元3031,用于:获取该目标功率谱信息中频谱强度小于第三预设阈值的起始频谱节点和终止频谱节点;当该目标功率谱信息的某段频谱节点之间形成曲线的曲线变化率大于第四预设阈值时,获取该某段频谱节点的起始频谱节点和终止频谱节点。
生成单元304,用于生成该多个频率峰值和滚降值的概率分布信息。
确定单元305,用于根据该概率分布信息确定出待处理音频的检测结果。
在一些实施方式中,确定单元305,用于:根据该概率分布信息获取主频率信息;确定出该概率分布信息中的峰值频率信息;预先设置多个不同的阈值频率范围,统计各个阈值频率范围包括的音频信号帧数,并确定各个音频信号帧数中的最大值;根据该主频率信息、峰值频率信息和音频信号帧数中的最大值确定出待处理音频的检测结果。
在一些实施方式中,确定单元305,还用于:根据该概率分布信息获取主频率信息;确定出该概率分布信息中的峰值频率信息;预先设置多个不同的阈值频率范围,统计各个阈值频率范围包括的音频信号帧数,并确定各个音频信号帧数中的最大值;若检测到该主频率信息和峰值频率信息均大于预设频率,则将该待处理音频的音质确定为无损音质;若检测到该主频率信息和峰值频率信息中至少一个不大于预设频率,则检测该音频信号帧数中的最大值是否大于预设数量;若检测到该音频信号帧数中的最大值大于预设数量,则将该待处理音频的音质确定为无损音质;若检测到该音频信号帧数中的最大值不大于预设数量,则将该待处理音频的音质确定为有损音质。
以上各个单元的具体实施可参见前面的实施例,在此不再赘述。
由上述可知,本申请实施例通过处理单元301获取待处理音频,并对待处理音频进行处理,得到功率谱信息;筛选单元302对功率谱信息进行筛选,得到筛选后的目标功率谱信息;分析单元303分析目标功率谱信息的频谱特点,获取待处理音频的多个频率峰值和滚降值;生成单元304生成多个频率峰值和滚降值的概率分布信息;确定单元305根据概率分布信息确定出待处理音频的检测结果。以此,通过获取待处理音频功率谱信息并进行相应的筛选,得到目标功率谱信息,分析目标功率谱信息的频谱特点,确定多个频率峰值和滚降值,生成频率峰值和滚降值的概率分布信息,根据该概率分布信息的分布特点确定出待处理音频的检测结果,极大的提升了音频信息的检测效率和准确率。
实施例四、
本申请实施例还提供一种服务器,如图6所示,其示出了本申请实施例所涉及的服务器的结构示意图,具体来讲:
该服务器可以包括一个或者一个以上处理核心的处理器401、一个或一个以上计算机可读存储介质的存储器402、电源403和输入单元404等部件。本领域技术人员可以理解,图6中示出的服务器结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
其中:
处理器401是该服务器的控制中心,利用各种接口和线路连接整个服务器的各个部分,通过运行或执行存储在存储器402内的软件程序和/或模块,以及调用存储在存储器402内的数据,执行服务器的各种功能和处理数据,从而对服务器进行整体监控。可选的,处理器401可包括一个或多个处理核心;优选的,处理器401可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
存储器402可用于存储软件程序以及模块,处理器401通过运行存储在存储器402的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器402可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据服务器的使用所创建的数据等。此外,存储器402可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器402还可以包括存储器控制器,以提供处理器401对存储器402的访问。
服务器还包括给各个部件供电的电源403,优选的,电源403可以通过电源管理系统与处理器401逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源403还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。
该服务器还可包括输入单元404,该输入单元404可用于接收输入的数字或字符信息,以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。
尽管未示出,服务器还可以包括显示单元等,在此不再赘述。具体在本实施例中,服务器中的处理器401会按照如下的指令,将一个或一个以上的应用程序的进程对应的可执行文件加载到存储器402中,并由处理器401来运行存储在存储器402中的应用程序,从而实现各种功能,如下:
获取待处理音频,并对该待处理音频进行处理,得到功率谱信息;对该功率谱信息进行筛选,得到筛选后的目标功率谱信息;分析该目标功率谱信息的频谱特点,获取该待处理音频的多个频率峰值和滚降值;生成该多个频率峰值和滚降值的概率分布信息;根据该概率分布信息确定出待处理音频的检测结果。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见上文针对音频信息的检测方法的详细描述,此处不再赘述。
由上述可知,本申请实施例的服务器可以通过获取待处理音频,并对待处理音频进行处理,得到功率谱信息;对功率谱信息进行筛选,得到筛选后的目标功率谱信息;分析目标功率谱信息的频谱特点,获取待处理音频的多个频率峰值和滚降值;生成多个频率峰值和滚降值的概率分布信息;根据概率分布信息确定出待处理音频的检测结果。以此,通过获取待处理音频功率谱信息并进行相应的筛选,得到目标功率谱信息,分析目标功率谱信息的频谱特点,确定多个频率峰值和滚降值,生成频率峰值和滚降值的概率分布信息,根据该概率分布信息的分布特点确定出待处理音频的检测结果,极大的提升了音频信息的检测效率和准确率。
实施例五、
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
为此,本申请实施例提供一种存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本申请实施例所提供的任一种音频信息的检测方法中的步骤。例如,该指令可以执行如下步骤:
获取待处理音频,并对该待处理音频进行处理,得到功率谱信息;对该功率谱信息进行筛选,得到筛选后的目标功率谱信息;分析该目标功率谱信息的频谱特点,获取该待处理音频的多个频率峰值和滚降值;生成该多个频率峰值和滚降值的概率分布信息;根据该概率分布信息确定出待处理音频的检测结果。
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
其中,该存储介质可以包括:只读存储器(ROM,Read Only Memory)、随机存取记忆体(RAM,Random Access Memory)、磁盘或光盘等。
由于该存储介质中所存储的指令,可以执行本申请实施例所提供的任一种音频信息的检测方法中的步骤,因此,可以实现本申请实施例所提供的任一种音频信息的检测方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
以上对本申请实施例所提供的一种音频信息的检测方法、装置及存储介质进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (7)

1.一种音频信息的检测方法,其特征在于,包括:
获取待处理音频,并对所述待处理音频进行处理,得到功率谱信息;
对所述功率谱信息进行筛选,得到筛选后的目标功率谱信息;
根据目标功率谱信息中的频谱节点之间的变化状态确定出起始频谱节点和终止频谱节点;所述频谱节点反映各个频率下音频信号的强度;
根据所述起始频谱节点和所述终止频谱节点的横坐标变化量和纵坐标变化量确定频谱类型;
根据所述频谱类型分别和频率峰值、滚降大小的对应关系,确定出所述待处理音频的多个频率峰值和滚降值,所述频率峰值代表一帧目标功率谱信息的频率最大值,所述滚降值代表所述频率最大值的变化程度;
生成所述多个频率峰值和滚降值的概率分布信息;
根据所述概率分布信息获取主频率信息;
确定出所述概率分布信息中的峰值频率信息;
预先设置多个不同的阈值频率范围,统计各个阈值频率范围包括的音频信号帧数,并确定各个音频信号帧数中的最大值;
若检测到所述主频率信息和峰值频率信息均大于预设频率,则将所述待处理音频的音质确定为无损音质;
若检测到所述主频率信息和峰值频率信息中至少一个不大于预设频率,则检测所述音频信号帧数中的最大值是否大于预设数量;
若检测到所述音频信号帧数中的最大值大于预设数量,则将所述待处理音频的音质确定为无损音质;
若检测到所述音频信号帧数中的最大值不大于预设数量,则将所述待处理音频的音质确定为有损音质。
2.根据权利要求1所述的检测方法,其特征在于,所述对所述待处理音频进行处理,得到功率谱信息的步骤,包括:
将所述待处理音频的格式转化为预设格式;
对转化为预设格式的待处理音频进行静音裁剪处理;
计算出静音裁剪处理后的待处理音频的功率谱信息。
3.根据权利要求2所述的检测方法,其特征在于,所述计算出静音裁剪处理后的待处理音频的功率谱信息的步骤,包括:
对静音裁剪处理后的待处理音频进行分帧,得到多帧音频信号;
计算每帧音频信号的频谱,生成每帧音频信号的功率谱信息;
将每帧音频信号的功率谱信息进行合成,得到静音裁剪处理后的待处理音频的功率谱信息。
4.根据权利要求1所述的检测方法,其特征在于,所述对所述功率谱信息进行筛选,得到筛选后的目标功率谱信息的步骤,包括:
将所述功率谱信息中存在削波失真的功率谱信息进行剔除,得到第一功率谱信息;
将所述第一功率谱信息中能量值低于第一预设阈值的功率谱进行剔除,得到第二功率谱信息;
将所述第二功率谱信息中存在静音区域大于第二预设阈值的功率谱进行剔除,得到目标功率谱信息。
5.根据权利要求1所述的检测方法,其特征在于,所述根据目标功率谱信息中的频谱节点之间的变化状态确定出起始频谱节点和终止频谱节点的步骤,包括:
获取所述目标功率谱信息中频谱强度小于第三预设阈值的起始频谱节点和终止频谱节点;
若所述目标功率谱信息的某段频谱节点之间形成曲线的曲线变化率大于第四预设阈值,则获取所述某段频谱节点的起始频谱节点和终止频谱节点。
6.一种音频信息的检测装置,其特征在于,包括:
处理单元,用于获取待处理音频,并对所述待处理音频进行处理,得到功率谱信息;
筛选单元,用于对所述功率谱信息进行筛选,得到筛选后的目标功率谱信息;
分析单元,用于根据目标功率谱信息中的频谱节点之间的变化状态确定出起始频谱节点和终止频谱节点;所述频谱节点反映各个频率下音频信号的强度;根据所述起始频谱节点和所述终止频谱节点的横坐标变化量和纵坐标变化量确定频谱类型;根据所述频谱类型分别和频率峰值、滚降大小的对应关系,确定出所述待处理音频的多个频率峰值和滚降值,所述频率峰值代表一帧目标功率谱信息的频率最大值,所述滚降值代表所述频率最大值的变化程度;
生成单元,用于生成所述多个频率峰值和滚降值的概率分布信息;
确定单元,用于根据所述概率分布信息获取主频率信息;确定出所述概率分布信息中的峰值频率信息;预先设置多个不同的阈值频率范围,统计各个阈值频率范围包括的音频信号帧数,并确定各个音频信号帧数中的最大值;若检测到所述主频率信息和峰值频率信息均大于预设频率,则将所述待处理音频的音质确定为无损音质;若检测到所述主频率信息和峰值频率信息中至少一个不大于预设频率,则检测所述音频信号帧数中的最大值是否大于预设数量;若检测到所述音频信号帧数中的最大值大于预设数量,则将所述待处理音频的音质确定为无损音质;若检测到所述音频信号帧数中的最大值不大于预设数量,则将所述待处理音频的音质确定为有损音质。
7.一种存储介质,其上存储有计算机程序,其特征在于,当所述计算机程序在计算机上运行时,使得所述计算机执行如权利要求1至5任一项所述的音频信息的检测方法。
CN202010441910.9A 2020-05-22 2020-05-22 一种音频信息的检测方法、装置及存储介质 Active CN111639225B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010441910.9A CN111639225B (zh) 2020-05-22 2020-05-22 一种音频信息的检测方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010441910.9A CN111639225B (zh) 2020-05-22 2020-05-22 一种音频信息的检测方法、装置及存储介质

Publications (2)

Publication Number Publication Date
CN111639225A CN111639225A (zh) 2020-09-08
CN111639225B true CN111639225B (zh) 2023-09-08

Family

ID=72332809

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010441910.9A Active CN111639225B (zh) 2020-05-22 2020-05-22 一种音频信息的检测方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN111639225B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112634910A (zh) * 2021-01-05 2021-04-09 三星电子(中国)研发中心 声纹识别方法、装置、设备以及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007298607A (ja) * 2006-04-28 2007-11-15 Victor Co Of Japan Ltd 音響信号分析装置、音響信号分析方法、及び音響信号分析用プログラム
WO2015078121A1 (zh) * 2013-11-29 2015-06-04 华为技术有限公司 音频信号质量检测方法及装置
CN109256146A (zh) * 2018-10-30 2019-01-22 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置及存储介质
CN110111811A (zh) * 2019-04-18 2019-08-09 腾讯音乐娱乐科技(深圳)有限公司 音频信号检测方法、装置和存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011026247A1 (en) * 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum
CN105070299A (zh) * 2015-07-01 2015-11-18 浙江天格信息技术有限公司 一种基于模式识别Hi-Fi音质检测方法
CN105788612B (zh) * 2016-03-31 2019-11-05 广州酷狗计算机科技有限公司 一种检测音质的方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007298607A (ja) * 2006-04-28 2007-11-15 Victor Co Of Japan Ltd 音響信号分析装置、音響信号分析方法、及び音響信号分析用プログラム
WO2015078121A1 (zh) * 2013-11-29 2015-06-04 华为技术有限公司 音频信号质量检测方法及装置
CN109256146A (zh) * 2018-10-30 2019-01-22 腾讯音乐娱乐科技(深圳)有限公司 音频检测方法、装置及存储介质
CN110111811A (zh) * 2019-04-18 2019-08-09 腾讯音乐娱乐科技(深圳)有限公司 音频信号检测方法、装置和存储介质

Also Published As

Publication number Publication date
CN111639225A (zh) 2020-09-08

Similar Documents

Publication Publication Date Title
JP4640461B2 (ja) 音量調整装置およびプログラム
KR100302370B1 (ko) 음성구간검출방법과시스템및그음성구간검출방법과시스템을이용한음성속도변환방법과시스템
EP2884493A1 (en) Method and apparatus for voice quality monitoring
US20230215451A1 (en) Automatic gain control based on machine learning level estimation of the desired signal
JP2015523606A (ja) 雑音検出及びラウドネス低下検出によるラウドネスコントロール
JP2002237785A (ja) 人間の聴覚補償によりsidフレームを検出する方法
CN111128167B (zh) 一种远场语音唤醒方法、装置、电子产品及存储介质
CN111312290B (zh) 音频数据音质检测方法及装置
EP3588776B1 (en) Audio signal dynamic range compression
CN111639225B (zh) 一种音频信息的检测方法、装置及存储介质
JP4983694B2 (ja) 音声再生装置
JP3840928B2 (ja) 信号処理装置および方法、記録媒体、並びにプログラム
CN208891053U (zh) 一种信号处理装置及扬声器
CN111312287B (zh) 一种音频信息的检测方法、装置及存储介质
US20230066854A1 (en) Computer implemented method, device and computer program product for setting a playback speed of media content comprising audio
US11695379B2 (en) Apparatus and method for automatic volume control with ambient noise compensation
CN113392234A (zh) 多媒体文件处理方法、装置、设备及介质
Hoffmann et al. Smart Virtual Bass Synthesis algorithm based on music genre classification
KR20080068397A (ko) 음성명료도 향상장치 및 방법
JP2002299975A (ja) デジタルagc装置
CN212724720U (zh) 一种语音编码装置
JPH05204395A (ja) 音声用利得制御装置および音声記録再生装置
CN115966214A (zh) 音频处理方法、装置、电子设备和计算机可读存储介质
CN117894327A (zh) 一种语音的编码方法、装置、设备及存储介质
CN115101082A (zh) 语音增强方法、装置、设备、存储介质及程序产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant