CN111918196A - 一种音频采集器录音异常的诊断方法、装置、设备及存储介质 - Google Patents

一种音频采集器录音异常的诊断方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN111918196A
CN111918196A CN201910380712.3A CN201910380712A CN111918196A CN 111918196 A CN111918196 A CN 111918196A CN 201910380712 A CN201910380712 A CN 201910380712A CN 111918196 A CN111918196 A CN 111918196A
Authority
CN
China
Prior art keywords
audio collector
signal
frame
spectrum
recording
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910380712.3A
Other languages
English (en)
Other versions
CN111918196B (zh
Inventor
梁俊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910380712.3A priority Critical patent/CN111918196B/zh
Publication of CN111918196A publication Critical patent/CN111918196A/zh
Application granted granted Critical
Publication of CN111918196B publication Critical patent/CN111918196B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R29/00Monitoring arrangements; Testing arrangements
    • H04R29/004Monitoring arrangements; Testing arrangements for microphones
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • General Health & Medical Sciences (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本申请提供了一种音频采集器录音异常的诊断方法、装置、设备及存储介质,该方法包括:获取音频采集器采集的信号;对所述信号进行处理,得到若干帧信号;将每帧信号从时间域变换到频率域,得到每帧信号在各个频域点的频谱幅度值;基于所述每帧信号在各个频域点的频谱幅度值,得到与每帧信号对应的谱熵值;比较所述与每帧信号对应的谱熵值与第一阈值的大小;基于比较结果,得到所述音频采集器录音异常的诊断结果。本申请采用谱熵检测来确定音频采集器录音异常的诊断结果,由于谱熵具有不随信号能量均值变化而发生波动的特点,因此音频采集器录音异常的诊断准确率较高。

Description

一种音频采集器录音异常的诊断方法、装置、设备及存储介质
技术领域
本申请属于通信技术领域,具体涉及一种音频采集器录音异常的诊断方法、装置、设备及存储介质。
背景技术
音频采集器,比如麦克风,是终端语音通话系统中的声学采集单元,实现声音声学信号到电信号的转换。而随着终端使用时间的加长,部分终端因音频采集器出现故障或终端底层音频算法设计失效等原因,导致音频采集器采集不到正常信号的案例越发增多。为了避免用户无法通话或无法录音,首先要准确检测音频采集器当前真实状态,即对音频采集器的录音状态进行诊断,对异常录音结果进行上报、故障排除或故障转移等,进而确保用户能够继续使用当前终端进行通话或录音。
现有技术中通过一播放设备播放一段有声信号(即预设检测信号),麦克风采集该预设检测信号,然后跟踪分析该预设测试信号的能量值,如果该能量值超过阈值则判定麦克风正常,否则判定麦克风异常。然而该预测检测信号主要用于终端出厂检测,在日常使用中一般不存在预设测试信号用于检测,此外,基于能量的判决方法,容易受到用户与终端的距离、说话声音大小、终端硬件底层的降噪处理力度以及电路电磁干扰等的影响,导致其在用于检测日常使用中的非预设测试信号时,存在能量值检测不准确的缺陷,从而导致音频采集器录音异常的诊断准确率较低。
发明内容
为了提高音频采集器录音异常的诊断准确率,本申请提出了一种音频采集器录音异常的诊断方法、装置、设备及存储介质。
一方面,本申请提出了一种音频采集器录音异常的诊断方法,所述方法包括:
获取音频采集器采集的信号;
对所述信号进行处理,得到若干帧信号;
将每帧信号从时间域变换到频率域,得到每帧信号在各个频域点的频谱幅度值;
基于所述每帧信号在各个频域点的频谱幅度值,得到与每帧信号对应的谱熵值;
比较所述与每帧信号对应的谱熵值与第一阈值的大小;
基于比较结果,得到所述音频采集器录音异常的诊断结果。
另一方面,本申请提出了一种音频采集器录音异常的诊断装置,所述装置包括:
第一获取模块,用于获取音频采集器采集的信号;
信号处理模块,用于对所述信号进行处理,得到若干帧信号;
变换模块,用于将每帧信号从时间域变换到频率域,得到每帧信号在各个频域点的频谱幅度值;
第二获取模块,用于基于所述每帧信号在各个频域点的频谱幅度值,得到与每帧信号对应的谱熵值;
第三获取模块,用于比较所述与每帧信号对应的谱熵值与第一阈值的大小;基于比较结果,得到所述音频采集器录音异常的诊断结果。
另一方面,本申请提出了一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现上述所述的音频采集器录音异常的诊断方法。
另一方面,本申请提出了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述所述的音频采集器录音异常的诊断方法。
本申请提出的一种音频采集器录音异常的诊断方法、装置、设备及存储介质,通过对音频采集器采集的信号进行分帧加窗处理、傅里叶变换处理后,计算信号的谱熵值,基于该谱熵值与预设阈值的比较结果,确定音频采集器录音异常的诊断结果。由于谱熵值具有不随信号能量均值的变换而发生波动的特点,因此音频采集器录音异常的诊断准确率较高,出现误判的概率较小,此外,通过谱熵值来对音频采集器录音异常进行诊断的输入信号可以是音频采集器在实际应用中采集的实际现场声音,即可以用于多种场景中的信号的检测,比如通话场景或录音场景等,应用范围更广。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种音频采集器录音异常的诊断方法的流程示意图。
图2是本申请实施例提供的所述基于所述每帧信号在各个频域点的频谱幅度值,得到与每帧信号对应的谱熵值一种流程示意图。
图3是本申请实施例提供的获取有效谱熵值的一种流程示意图。
图4是本申请实施例提供的所述比较所述与每帧信号对应的谱熵值与第一阈值的大小;基于比较结果,得到所述音频采集器录音异常的诊断结果的一种流程示意图。
图5是本申请实施例提供的一种麦克风信号谱熵曲线图。
图6是本申请实施例提供的修复策略的一种流程示意图。
图7是本申请实施例提供的修复策略的另一种流程示意图。
图8是本申请实施例提供的用户使用终端进行通话的一种应用场景图。
图9是本申请实施例提供的一种音频采集器录音异常的诊断装置结构示意图。
图10是本申请实施例提供的一种服务器的结构示意图。
具体实施策略
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
图1是本申请实施例提供的一种音频采集器录音异常的诊断方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图1所示,所述方法可以包括:
S101.获取音频采集器采集的信号。
本说明书实施例中,所述音频采集器包括但不限于麦克风、拾音器等,其可以单独设置,也可以为设置在终端中。当所述音频采集器设置于终端中时,该终端可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、车载、音箱、电视、机器人等类型的实体设备,也可以包括运行于实体设备中的软体,例如虚拟机等。
在一个可行的实施例中,若所述音频采集器为麦克风,该麦克风设置在终端中,且当前的应用场景为使用终端通话的场景,则所述音频采集器采集的信号可以为通话过程中实时采集的通话语音信号。其中,所述终端通话的场景包括视频通话场景、语音通话场景等。
在一个可行的实施例中,若所述音频采集器为麦克风,该麦克风设置在终端中,且当前的应用场景为使用终端通话的场景,则所述音频采集器采集的信号可以为预设时间段内采集的信号,预设时间段可以是通话高峰期的时间段,比如,上午10点到12点,下午2点到5点等,也可以是在通话过程中设置的时间段,比如,在通话过程中,每间隔5-10分钟采集一次通话语音信号。
在一个可行的实施例中,若所述音频采集器为麦克风,该麦克风设置在终端中,且当前的应用场景为使用终端录音的场景中,则所述音频采集器采集的信号可以为录音过程中麦克风实时采集的信号或在预设时间段内采集的信号,比如,在社交软件中,录制用户的语音信息,以便将录制的信息通过社交软件发送给用户的好友,或者打开录音软件,录制用户的歌声等。
在一个可行的实施例中,若所述音频采集器为麦克风,该麦克风设置在终端中,且当前的应用场景为使用终端录音的场景中,则所述音频采集器采集的信号可以为由一个播放设备发出的有声信号。
S103.对所述信号进行处理,得到若干帧信号。
本说明书实施例中,可以使用预设窗函数对所述信号进行分帧加窗处理,以得到若干帧信号,具体可以为:先对所述音频采集器采集的信号进行分帧处理,比如,以20ms为一帧,以将所述音频采集器采集的信号划分为若干帧信号,接着将每帧信号中的点与预设窗函数中对应的点相乘,得到加窗后的若干帧信号,其中,所述预设窗函数包括但不限于汉明窗、汉宁窗等。
在一个可行的实施例中,所述预设窗函数为汉明窗,则所述汉明窗的窗函数可以为:
Figure BDA0002053277170000061
其中,N为窗的长度,
Figure BDA0002053277170000062
S105.将每帧信号从时间域变换到频率域,得到每帧信号在各个频域点的频谱幅度值。
本说明书实施例中,可以通过傅里叶变换,将得到的每帧信号从时间域变换到频率域,得到每帧信号在各个频域点的频谱幅度值x(i,k),计算公式可以如下:
Figure BDA0002053277170000063
其中,0≤k≤N-1,N为每帧的采样点,i为帧序号,k为频域点序号,x(n)为S101中音频采集器采集的信号。
S107.基于所述每帧信号在各个频域点的频谱幅度值,得到与每帧信号对应的谱熵值。
本说明书实施例中,如图2所示,所述基于所述每帧信号在各个频域点的频谱幅度值,得到与每帧信号对应的谱熵值,可以包括:
S201.基于所述频谱幅度值的平方,得到每帧信号在各个频域点的功率谱。
本说明书实施例中,可以根据频谱幅度值x(i,k)的平方,得到每帧信号在各个频域点的功率谱Ex(i,k),计算公式可以如下:
EX(i,k)=|X(i,k)|2
其中,0≤k≤N-1,i为帧序号,k为频域点序号。
S203.对所述每帧信号在各个频域点的功率谱进行求和,得到与每帧信号对应的功率谱总和。
S205.基于所述功率谱与所述功率谱总和的商,得到每帧信号在各个频域点的概率密度。
本说明书实施例中,可以根据每帧信号在各个频域点的功率谱计算得到与每帧信号对应的功率谱总和,然后再根据功率谱与所述功率谱总和的商,计算得到每帧信号在各个频域点的概率密度p(i,k),计算公式可以如下:
Figure BDA0002053277170000071
其中,i为帧序号,k为频域点序号。
S207.基于所述概率密度与所述概率密度的对数的乘积,得到与每帧信号对应的谱熵值。
本说明书实施例中,可以根据每帧信号在每个频域点的概率密度,计算与每帧信号对应的谱熵值Ep(i),计算公式可以如下:
Figure BDA0002053277170000072
其中,i为帧序号,k为频域点序号。
S109.比较所述与每帧信号对应的谱熵值与第一阈值的大小;基于比较结果,得到所述音频采集器录音异常的诊断结果。
在实际应用中,以麦克风为例进行说明,在麦克风启动后的一段时间,或结束工作前的一段时间,比如0.5秒内,麦克风录音信号会有一定幅度的信号瞬态跳变,这种信号瞬态跳变可能是麦克风器件物理插拔过程中电信号脉冲导致,或者是录音数据缓冲区的残余数据引起的。这些瞬态跳变信号会导致谱熵值较大,干扰了麦克风异常诊断的判决结果,为了避免这种可能存在的干扰因素,确保诊断结果的准确性,在一个可行的实施例中,如图3所示,在所述得到与每帧信号对应的谱熵值之后,所述方法还包括获取有效谱熵值的步骤,所述获取有效谱熵值包括:
S301.获取所述音频采集器开始采集信号的第一时间点以及所述音频采集器结束采集信号的第二时间点。
S303.确定位于所述第一时间点之后预设时间的第三时间点,以及位于所述第二时间点之前预设时间的第四时间点。
S305.获取位于所述第三时间点与所述第四时间点之间的时间范围,得到有效时间范围。
S307.获取位于所述有效时间范围内的谱熵值,得到预选谱熵值集合。
S309.将谱熵值大于第二阈值的预选谱熵值确定为有效谱熵值。
在一个可行的实施例中,可以从系统层获取麦克风设备插播标志,记录麦克风插入的第一时间t1(与t1对应的可以是第一帧信号),插入后预设时间的第三时间t3(与t3对应的可以是第m1帧信号),拔出前预设时间的第四时间t4(与t4对应的可以是第m2帧信号)以及拔出时刻的第二时间t2(与t2对应的可以是最后一帧信号),将t3-t4范围内的时间作为有效时间范围,提取位于该有效时间范围内的谱熵值,得到预选谱熵值集合EP(i),将谱熵值最大的预选谱熵值确定为有效谱熵值EP_valid,计算公式可以如下:
EP_valid=max(EP(i)),
其中,m1≤i≤m2,m1与m2为比较小的值,比如可以为50-100帧,每帧可以为20ms。
在一些实施例中,如图4所示,所述比较所述与每帧信号对应的谱熵值与第一阈值的大小;基于比较结果,得到所述音频采集器录音异常的诊断结果,可以包括:
S401.比较所述有效谱熵值与所述第一阈值的大小。
S403.若所述有效谱熵值大于所述第一阈值,则确定所述音频采集器处于录音正常状态。
S405.若所述有效谱熵值小于或等于所述第一阈值,则确定所述音频采集器处于录音异常状态。
图5所示为本申请实施例提供的一种麦克风信号谱熵曲线图,经研究发现,相对于平稳信号,非平稳信号的谱熵值会比较大,且谱熵值具有不随信号能量均值的变化而发生波动的特点。当音频采集器录音异常时采集到的信号为频域上的平稳信号,如白噪声、灰色噪声等,这些信号的谱熵值较小,如图5中的虚线所示,而音频采集器(比如麦克风)正常工作的情况下则采集到的人声、环境声,这些信号大部分都是非平稳信号,谱熵值比较大,如图5中的实线所示。因此,可以通过谱熵值的大小来衡量音频采集器的录音状态。
在一个可行的实施例中,可以使用门限判决函数来确定所述音频采集器是否处于录音异常状态,该门限判决函数的公式可以如下:
Figure BDA0002053277170000091
其中,a=有效谱熵值EP_valid-第一阈值E0,如果有效谱熵值大于所述第一阈值E0,则f(a)=1,此时说明所述音频采集器处于录音正常状态,如果有效谱熵值小于或等于所述第一阈值E0,则f(a)=0,此时说明所述音频采集器处于录音异常状态。
本说明书实施例中,当检测出音频采集器处于录音异常状态之后,可以将该异常诊断结果上报至与该音频采集器对应的处理器,由与该音频采集器对应的处理器对异常诊断结果进行分析,从而确定出导致该异常状态的原因,并根据导致该异常状态的原因,做出相应的修复策略。在一个可行的实施例中,如图6所示,如果所述录音异常状态表征所述音频采集器处于堵塞或硬件损坏的状态,则所述确定所述音频采集器处于录音异常状态之后,所述方法还可以包括:
S601.获取备用音频采集器。
S603.将所述备用音频采集器的权限变更为使用权限,并将所述备用音频采集器的音频参数调整至第三阈值,以使所述备用音频采集器对信号进行采集。
在实际应用中,如果当前的应用场景为使用终端进行通话的场景中,且所述异常录音状态是由音频采集器处于堵塞或硬件损坏造成的,则可以获取终端中的备用音频采集器,该备用音频采集器可以是采集环境噪声的副麦克风,也可以是其他备用麦克风,将备用音频采集器的权限变更为使用权限以使该备用音频采集器替换该音频采集器的使用,即将发生异常的麦克风切换至正常麦克风,并调整备用音频采集器的灵敏度以及相应的音频参数,比如将备用音频采集器的增益调整至第三阈值,以保证备用音频采集器的声音输入效果。以此实现了当麦克风出现故障时,保证终端正常通话,提高了音频采集器或终端的可拓展性。
在一个可行的实施例中,如图7所示,如果所述音频采集器设置在终端上,且所述录音异常状态表征所述音频采集器处于堵塞或硬件损坏的状态,则所述确定所述音频采集器处于录音异常状态之后,所述方法还可以包括:
S701.获取终端中的备用音频采集器以及所述终端的底层驱动配置文件。
S703.将所述底层驱动配置文件中与所述音频采集器对应的信息修改为与所述备用音频采集器对应的信息,以使所述备用音频采集器对信号进行采集。
在实际应用中,如果当前的应用场景为使用终端进行通话的场景中,且所述异常录音状态是由所述音频采集器处于堵塞或硬件损坏造成的,则可以获取终端中的备用音频采集器,该备用音频采集器可以是采集环境噪声的副麦克风,也可以是其他备用麦克风,然后修改终端底层驱动配置文件,将底层驱动配置文件中与所述音频采集器对应的信息修改为与所述备用音频采集器对应的信息,比如以XML配置文件为例进行说明,可以将XML配置文件内容中的所述音频采集器的代码替换为备用音频采集器的代码,实现所述音频采集器到备用音频采集器的切换。同时切换音频校准数据库,将音频校准数据库中的双麦克风通道信息修改为单麦克风通道信息。以此实现了当麦克风出现故障时,保证终端正常通话,提高了音频采集器或终端的可拓展性。
在一个可行的实施例中,如果当前的应用场景为使用终端录音的场景,且终端内所述异常录音状态是由所述音频采集器处于堵塞或硬件损坏造成的,则所述确定所述音频采集器处于录音异常状态之后,所述方法还可以包括:
切断从所述编译解码器到所述音频播放器(比如扬声器)的输出通道,导通预先建立的从所述音频播放器到所述编译解码器的输入通道。
在实际应用中,以动圈式麦克风为例进行说明,动圈式麦克风的工作原理与现用的扬声器的工作原理是相同的,只是扬声器是将电转化为声,动圈式麦克风是将声转化为电。因此,扬声器是可以当成麦克风来使用。在麦克风可以正常工作的时候,扬声器连接到终端中的编译码器的输出接口,即从编译码器的输出接口到功放单元、再从功放单元到通路切换单元、再从通路切换单元到扬声器的输出通路是导通的;而在麦克风不可以正常工作时(发生故障时),控制单元控制通路切换单元从连接所述输出接口切换到连接所述输入接口,也就是说,旁路掉功放单元,这时,导通的是从扬声器到通路切换单元,再从通路切换单元到编译码器的输入接口的输入通路,这样,扬声器和编译码器的连接方式与麦克风和编译码器的连接方式是一致的,都是连接到编译码器的输入接口,因此,扬声器可以暂时替代麦克风工作,以保证终端的录音功能。
在一个可行的实施例中,如果所述音频采集器设置在终端上,且所述录音异常状态表征所述终端的底层音频算法处于失效的状态,则所述确定所述音频采集器处于录音异常状态之后,所述方法还可以包括:对所述终端的底层音频算法进行修复。
本说明书实施例中,在所述得到所述音频采集器录音异常的诊断结果之后,所述方法还包括:
向用户发送提醒消息,所述提醒消息包括所述音频采集器录音异常的诊断结果以及与所述诊断结果对应的修复策略。
在实际应用中,所述提醒消息可以为振动、语音提示、消息推送、或提示灯闪烁方式中的至少一种。通过向用户发送提醒消息,可以使用户在第一时间内获知当前录音情况,提高用户体验。
图8所示为本说明书实施例的用户使用终端进行通话的一种应用场景图,如图8所示,当用户使用终端进行通话时,终端中的音频采集器采集用户的语音信号,对该语音信号进行分帧加窗、傅里叶变换后,计算得到该信号的谱熵值,截取有效谱熵值EP_valid,并将有效谱熵值与预设阈值E0进行比较,如果有效谱熵值大于预设阈值,则认为音频采集器处于录音正常状态,否则处于录音异常状态。本说明书实施例中,由于谱熵值具有不随信号能量均值的变换而发生波动的特点,因此音频采集器录音异常的诊断的准确率较高,此外根据音频采集器的采集时间以及结束时间,确定有效时间范围,并获取位于还有效时间范围内的有效谱熵值,以该有效谱熵值为基础对音频采集器录音异常进行诊断,避免了瞬态跳变信号的干扰,进一步保证诊断结果的准确性。
如图9所示,本说明书实施例还公开了一种音频采集器录音异常的诊断装置,所述装置包括:
第一获取模块901,用于获取音频采集器采集的信号。
信号处理模块903,用于对所述信号进行处理,得到若干帧信号。
变换模块905,用于将每帧信号从时间域变换到频率域,得到每帧信号在各个频域点的频谱幅度值。
第二获取模块907,用于基于所述每帧信号在各个频域点的频谱幅度值,得到与每帧信号对应的谱熵值。
第三获取模块909,用于比较所述与每帧信号对应的谱熵值与第一阈值的大小;基于比较结果,得到所述音频采集器录音异常的诊断结果。
本说明书实施例中,所述第二获取模块进一步可以包括:
功率谱计算单元,用于基于所述频谱幅度值的平方,得到每帧信号在各个频域点的功率谱。
功率谱总和计算单元,用于对所述每帧信号在各个频域点的功率谱进行求和,得到与每帧信号对应的功率谱总和。
概率密度计算单元,用于基于所述功率谱与所述功率谱总和的商,得到每帧信号在各个频域点的概率密度。
谱熵值计算单元,用于基于所述概率密度与所述概率密度的对数的乘积,得到与每帧信号对应的谱熵值。
在一些实施例中,所述装置还可以包括有效谱熵值获取模块,所述有效谱熵值获取模块包括:
时间点获取单元,用于获取所述音频采集器开始采集信号的第一时间点以及所述音频采集器结束采集信号的第二时间点。
时间点确定单元,用于确定位于所述第一时间点之后预设时间的第三时间点,以及位于所述第二时间点之前预设时间的第四时间点。
有效时间范围获取单元,用于获取位于所述第三时间点与所述第四时间点之间的时间范围,得到有效时间范围。
预选谱熵值集合获取单元,用于获取位于所述有效时间范围内的谱熵值,得到预选谱熵值集合。
有效谱熵值确定单元,用于将谱熵值大于第二阈值的预选谱熵值确定为有效谱熵值。
在一些实施例中,所述第三获取模块还可以包括:
比较单元,用于比较所述有效谱熵值与所述第一阈值的大小。
录音状态确定单元,用于若所述有效谱熵值大于所述第一阈值,则确定所述音频采集器处于录音正常状态;若所述有效谱熵值小于或等于所述第一阈值,则确定所述音频采集器处于录音异常状态。
在一些实施例中,所述录音异常状态表征所述音频采集器处于堵塞或硬件损坏的状态,则所述装置还可以包括:
第四获取模块,用于获取备用音频采集器。
权限变更模块,用于将所述备用音频采集器的权限变更为使用权限,并将所述备用音频采集器的音频参数调整至第三阈值,以使所述备用音频采集器对信号进行采集。
在一些实施例中,所述音频采集器设置在终端上,且所述录音异常状态表征所述音频采集器处于堵塞或硬件损坏的状态,则所述装置还可以包括:
第五获取模块,用于获取终端中的备用音频采集器以及所述终端的底层驱动配置文件。
修改模块,用于将所述底层驱动配置文件中与所述音频采集器对应的信息修改为与所述备用音频采集器对应的信息,以使所述备用音频采集器对信号进行采集。
在一些实施例中,所述音频采集器设置在终端上,且所述录音异常状态表征所述终端的底层音频算法处于失效的状态,则所述装置还可以包括:
修复模块,用于对所述终端的底层音频算法进行修复。
在一些实施例中,所述装置还可以包括:
发送模块,用于向用户发送提醒消息,所述提醒消息包括所述音频采集器录音异常的诊断结果以及与所述诊断结果对应的修复策略。
本说明书实施例还提供了一种音频采集器录音异常诊断的设备,该设备包括处理器和存储器,该存储器中存储有至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现如上述方法实施例所提供的音频采集器录音异常的诊断方法。
本说明书实施例还提供了一种存储介质,所述存储介质可设置于终端之中以保存用于实现方法实施例中一种音频采集器录音异常的诊断方法相关的至少一条指令、至少一段程序、代码集或指令集,该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的音频采集器录音异常的诊断方法。
可选地,在本说明书实施例中,存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书实施例所述存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据所述设备的使用所创建的数据等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地,存储器还可以包括存储器控制器,以提供处理器对存储器的访问。
本申请实施例所提供的音频采集器录音异常的诊断方法实施例可以在终端、计算机终端、服务器或者类似的运算装置中执行。以运行在服务器上为例,图10是本申请实施例提供的一种音频采集器录音异常的诊断方法的服务器的硬件结构框图。如图10所示,该服务器1000可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(Central Processing Units,CPU)1010(处理器1010可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1030,一个或一个以上存储应用程序1023或数据1022的存储介质1020(例如一个或一个以上海量存储设备)。其中,存储器1030和存储介质1020可以是短暂存储或持久存储。存储在存储介质1020的程序可以包括一个或一个以上模块,每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1010可以设置为与存储介质1020通信,在服务器1000上执行存储介质1020中的一系列指令操作。服务器1000还可以包括一个或一个以上电源1060,一个或一个以上有线或无线网络接口1050,一个或一个以上输入输出接口1040,和/或,一个或一个以上操作系统1021,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等。
输入输出接口1040可以用于经由一个网络接收或者发送数据。上述的网络具体实例可包括服务器1000的通信供应商提供的无线网络。在一个实例中,输入输出接口1040包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,输入输出接口1040可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
本领域普通技术人员可以理解,图10所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,服务器1000还可包括比图10中所示更多或者更少的组件,或者具有与图10所示不同的配置。
由上述本申请提供的音频采集器录音异常的诊断方法、装置、设备及存储介质,通过对音频采集器采集的信号进行分帧加窗处理、傅里叶变换处理后,计算信号的谱熵值,基于该谱熵值与预设阈值的比较结果,确定音频采集器录音故障的诊断结果。一方面,由于谱熵值具有不随信号能量均值的变换而发生波动的特点,因此音频采集器录音异常的诊断的准确率较高;另一方面,根据音频采集器的采集时间以及结束时间,确定有效时间范围,并获取位于还有效时间范围内的有效谱熵值,以该有效谱熵值为基础对音频采集器录音异常进行诊断,避免了瞬态跳变信号的干扰,进一步保证诊断结果的准确性;另一方面,通过谱熵值对音频采集器录音异常进行诊断的输入信号可以是其他设备发出的预设检测信号,也可以是音频采集器在实际应用中采集的实际通话语音或录音信息,即可以用于多种场景中的信号的检测,应用范围更广;另一方面,在确定音频采集器处于录音异常状态之后,还可以分析出造成该异常录音状态的原因,并根据该原因,制定相应的修复策略,确保通话或录音的正常进行,提高终端或音频采集器的可拓展性;另一方面,可以将录音异常诊断结果以及对应的修复策略通过消息提醒的方式发送给用户,使用户在第一时间内获知音频采集器的异常情况,提高用户体验。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和服务器实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上所述仅为本申请的较佳实施例,并不用以限制本申请,凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。

Claims (14)

1.一种音频采集器录音异常的诊断方法,其特征在于,所述方法包括:
获取音频采集器采集的信号;
对所述信号进行处理,得到若干帧信号;
将每帧信号从时间域变换到频率域,得到每帧信号在各个频域点的频谱幅度值;
基于所述每帧信号在各个频域点的频谱幅度值,得到与每帧信号对应的谱熵值;
比较所述与每帧信号对应的谱熵值与第一阈值的大小;
基于比较结果,得到所述音频采集器录音异常的诊断结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述每帧信号在各个频域点的频谱幅度值,得到与每帧信号对应的谱熵值,包括:
基于所述频谱幅度值的平方,得到每帧信号在各个频域点的功率谱;
对所述每帧信号在各个频域点的功率谱进行求和,得到与每帧信号对应的功率谱总和;
基于所述功率谱与所述功率谱总和的商,得到每帧信号在各个频域点的概率密度;
基于所述概率密度与所述概率密度的对数的乘积,得到与每帧信号对应的谱熵值。
3.根据权利要求1所述的方法,其特征在于,在所述得到与每帧信号对应的谱熵值之后,所述方法还包括获取有效谱熵值的步骤,所述获取有效谱熵值包括:
获取所述音频采集器开始采集信号的第一时间点以及所述音频采集器结束采集信号的第二时间点;
确定位于所述第一时间点之后预设时间的第三时间点,以及位于所述第二时间点之前预设时间的第四时间点;
获取位于所述第三时间点与所述第四时间点之间的时间范围,得到有效时间范围;
获取位于所述有效时间范围内的谱熵值,得到预选谱熵值集合;
将谱熵值大于第二阈值的预选谱熵值确定为有效谱熵值。
4.根据权利要求3所述的方法,其特征在于,所述比较所述与每帧信号对应的谱熵值与第一阈值的大小;基于比较结果,得到所述音频采集器录音异常的诊断结果,包括:
比较所述有效谱熵值与所述第一阈值的大小;
若所述有效谱熵值大于所述第一阈值,则确定所述音频采集器处于录音正常状态;
若所述有效谱熵值小于或等于所述第一阈值,则确定所述音频采集器处于录音异常状态。
5.根据权利要求4所述的方法,其特征在于,所述录音异常状态表征所述音频采集器处于堵塞或硬件损坏的状态,则所述确定所述音频采集器处于录音异常状态之后,所述方法还包括:
获取备用音频采集器;
将所述备用音频采集器的权限变更为使用权限,并将所述备用音频采集器的音频参数调整至第三阈值,以使所述备用音频采集器对信号进行采集。
6.根据权利要求4所述的方法,其特征在于,所述音频采集器设置在终端上,且所述录音异常状态表征所述音频采集器处于堵塞或硬件损坏的状态,则所述确定所述音频采集器处于录音异常状态之后,所述方法还包括:
获取终端中的备用音频采集器以及所述终端的底层驱动配置文件;
将所述底层驱动配置文件中与所述音频采集器对应的信息修改为与所述备用音频采集器对应的信息,以使所述备用音频采集器对信号进行采集。
7.根据权利要求4所述的方法,其特征在于,所述音频采集器设置在终端上,且所述录音异常状态表征所述终端的底层音频算法处于失效的状态,则所述确定所述音频采集器处于录音异常状态之后,所述方法还包括:
对所述终端的底层音频算法进行修复。
8.根据权利要求1所述的方法,其特征在于,在所述得到所述音频采集器录音异常的诊断结果之后,所述方法还包括:
向用户发送提醒消息,所述提醒消息包括所述音频采集器录音异常的诊断结果以及与所述诊断结果对应的修复策略。
9.一种音频采集器录音异常的诊断装置,其特征在于,所述装置包括:
第一获取模块,用于获取音频采集器采集的信号;
信号处理模块,用于对所述信号进行处理,得到若干帧信号;
变换模块,用于将每帧信号从时间域变换到频率域,得到每帧信号在各个频域点的频谱幅度值;
第二获取模块,用于基于所述每帧信号在各个频域点的频谱幅度值,得到与每帧信号对应的谱熵值;
第三获取模块,用于比较所述与每帧信号对应的谱熵值与第一阈值的大小;基于比较结果,得到所述音频采集器录音异常的诊断结果。
10.根据权利要求9所述的装置,其特征在于,所述第二获取模块包括:
功率谱计算单元,用于基于所述频谱幅度值的平方,得到每帧信号在各个频域点的功率谱;
功率谱总和计算单元,用于对所述每帧信号在各个频域点的功率谱进行求和,得到与每帧信号对应的功率谱总和;
概率密度计算单元,用于基于所述功率谱与所述功率谱总和的商,得到每帧信号在各个频域点的概率密度;
谱熵值计算单元,用于基于所述概率密度与所述概率密度的对数的乘积,得到与每帧信号对应的谱熵值。
11.根据权利要求9所述的装置,其特征在于,所述装置还包括有效谱熵值获取模块,所述有效谱熵值获取模块包括:
时间点获取单元,用于获取所述音频采集器开始采集信号的第一时间点以及所述音频采集器结束采集信号的第二时间点;
时间点确定单元,用于确定位于所述第一时间点之后预设时间的第三时间点,以及位于所述第二时间点之前预设时间的第四时间点;
有效时间范围获取单元,用于获取位于所述第三时间点与所述第四时间点之间的时间范围,得到有效时间范围;
预选谱熵值集合获取单元,用于获取位于所述有效时间范围内的谱熵值,得到预选谱熵值集合;
有效谱熵值确定单元,用于将谱熵值大于第二阈值的预选谱熵值确定为有效谱熵值。
12.根据权利要求11所述的装置,其特征在于,所述第三获取模块包括:
比较单元,用于比较所述有效谱熵值与所述第一阈值的大小;
录音状态确定单元,用于若所述有效谱熵值大于所述第一阈值,则确定所述音频采集器处于录音正常状态;若所述有效谱熵值小于或等于所述第一阈值,则确定所述音频采集器处于录音异常状态。
13.一种设备,其特征在于,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1-8任一所述的音频采集器录音异常的诊断方法。
14.一种计算机可读存储介质,其特征在于,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1-8任一所述的音频采集器录音异常的诊断方法。
CN201910380712.3A 2019-05-08 2019-05-08 一种音频采集器录音异常的诊断方法、装置、设备及存储介质 Active CN111918196B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910380712.3A CN111918196B (zh) 2019-05-08 2019-05-08 一种音频采集器录音异常的诊断方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910380712.3A CN111918196B (zh) 2019-05-08 2019-05-08 一种音频采集器录音异常的诊断方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN111918196A true CN111918196A (zh) 2020-11-10
CN111918196B CN111918196B (zh) 2022-04-19

Family

ID=73242530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910380712.3A Active CN111918196B (zh) 2019-05-08 2019-05-08 一种音频采集器录音异常的诊断方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN111918196B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927720A (zh) * 2021-01-27 2021-06-08 宁波均联智行科技股份有限公司 一种音频异常的检测方法及装置
CN113543005A (zh) * 2021-07-01 2021-10-22 猫岐智能科技(上海)有限公司 音频设备检测方法及系统
CN113556491A (zh) * 2021-07-08 2021-10-26 上海松鼠课堂人工智能科技有限公司 线上教学录屏方法与系统
CN114708884A (zh) * 2022-04-22 2022-07-05 歌尔股份有限公司 一种声音信号处理方法、装置、音频设备及存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1447541A (zh) * 2003-01-24 2003-10-08 杭州国芯科技有限公司 数字信号传输中的脉冲干扰检测方法
CN101599269A (zh) * 2009-07-02 2009-12-09 中国农业大学 语音端点检测方法及装置
US20100280827A1 (en) * 2009-04-30 2010-11-04 Microsoft Corporation Noise robust speech classifier ensemble
EP3007169A1 (en) * 2013-05-30 2016-04-13 Huawei Technologies Co., Ltd. Media data transmission method, device and system
CN107548564A (zh) * 2016-04-29 2018-01-05 华为技术有限公司 一种语音输入异常的确定方法、装置、终端以及存储介质
CN109545188A (zh) * 2018-12-07 2019-03-29 深圳市友杰智新科技有限公司 一种实时语音端点检测方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1447541A (zh) * 2003-01-24 2003-10-08 杭州国芯科技有限公司 数字信号传输中的脉冲干扰检测方法
US20100280827A1 (en) * 2009-04-30 2010-11-04 Microsoft Corporation Noise robust speech classifier ensemble
CN101599269A (zh) * 2009-07-02 2009-12-09 中国农业大学 语音端点检测方法及装置
EP3007169A1 (en) * 2013-05-30 2016-04-13 Huawei Technologies Co., Ltd. Media data transmission method, device and system
CN107548564A (zh) * 2016-04-29 2018-01-05 华为技术有限公司 一种语音输入异常的确定方法、装置、终端以及存储介质
CN109545188A (zh) * 2018-12-07 2019-03-29 深圳市友杰智新科技有限公司 一种实时语音端点检测方法及装置

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112927720A (zh) * 2021-01-27 2021-06-08 宁波均联智行科技股份有限公司 一种音频异常的检测方法及装置
CN112927720B (zh) * 2021-01-27 2023-09-29 宁波均联智行科技股份有限公司 一种音频异常的检测方法及装置
CN113543005A (zh) * 2021-07-01 2021-10-22 猫岐智能科技(上海)有限公司 音频设备检测方法及系统
CN113556491A (zh) * 2021-07-08 2021-10-26 上海松鼠课堂人工智能科技有限公司 线上教学录屏方法与系统
CN114708884A (zh) * 2022-04-22 2022-07-05 歌尔股份有限公司 一种声音信号处理方法、装置、音频设备及存储介质
CN114708884B (zh) * 2022-04-22 2024-05-31 歌尔股份有限公司 一种声音信号处理方法、装置、音频设备及存储介质

Also Published As

Publication number Publication date
CN111918196B (zh) 2022-04-19

Similar Documents

Publication Publication Date Title
CN111918196B (zh) 一种音频采集器录音异常的诊断方法、装置、设备及存储介质
WO2020037555A1 (zh) 评估麦克风阵列一致性的方法、设备、装置和系统
CN107170465B (zh) 一种音频质量检测方法及音频质量检测系统
CN113259832B (zh) 麦克风阵列的检测方法、装置、电子设备及存储介质
CN113286244B (zh) 一种麦克风异常检测方法及装置
CN109348392B (zh) 一种实现麦克风阵列硬件状态检测的方法
JP2014126856A (ja) 雑音除去装置及びその制御方法
CN114627899A (zh) 声音信号检测方法及装置、计算机可读存储介质、终端
CN116564332A (zh) 频响分析方法、装置、设备及存储介质
CN115604621A (zh) 耳机测试方法、装置、设备及计算机可读存储介质
CN113271386B (zh) 啸叫检测方法及装置、存储介质、电子设备
CN112135235B (zh) 质量检测方法、系统及计算机可读存储介质
CN113593604A (zh) 检测音频质量方法、装置及存储介质
US9351072B2 (en) Multi-band harmonic discrimination for feedback suppression
CN110390954B (zh) 语音产品质量的评价方法和装置
JP2019144093A (ja) 音響信号処理装置、及び音響信号処理プログラム
CN106997768B (zh) 一种语音出现概率的计算方法、装置及电子设备
US11490198B1 (en) Single-microphone wind detection for audio device
CN115052240A (zh) 自动检测有源音箱故障的方法、装置、计算机设备及存储介质
CN113113046B (zh) 音频处理的性能检测方法、装置、存储介质及电子设备
CN113270118B (zh) 语音活动侦测方法及装置、存储介质和电子设备
CN117409815B (zh) 储能变流器pcs故障检测方法及相关装置
US20210174820A1 (en) Signal processing apparatus, voice speech communication terminal, signal processing method, and signal processing program
JP7304301B2 (ja) 音響診断方法、音響診断システム、及び音響診断プログラム
CN111724811A (zh) 基于亚音频的啸叫识别方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant