CN108447505B - 音频信号过零率处理方法、装置及语音识别设备 - Google Patents

音频信号过零率处理方法、装置及语音识别设备 Download PDF

Info

Publication number
CN108447505B
CN108447505B CN201810517706.3A CN201810517706A CN108447505B CN 108447505 B CN108447505 B CN 108447505B CN 201810517706 A CN201810517706 A CN 201810517706A CN 108447505 B CN108447505 B CN 108447505B
Authority
CN
China
Prior art keywords
audio signal
frame
threshold
target frame
signal strength
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810517706.3A
Other languages
English (en)
Other versions
CN108447505A (zh
Inventor
李超
朱唯鑫
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN201810517706.3A priority Critical patent/CN108447505B/zh
Publication of CN108447505A publication Critical patent/CN108447505A/zh
Application granted granted Critical
Publication of CN108447505B publication Critical patent/CN108447505B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • G10L2025/786Adaptive threshold

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephonic Communication Services (AREA)

Abstract

本发明实施例提供一种音频信号过零率处理方法、装置及语音识别设备。该方法包括:获取音频信号在目标帧的前一帧内的信号强度;根据所述音频信号在所述目标帧的前一帧内的信号强度,确定第一阈值;根据所述第一阈值,计算所述音频信号在所述目标帧内的过零率;根据所述音频信号在所述目标帧内的信号强度和所述第一阈值,确定第二阈值,所述第二阈值用于计算所述音频信号在所述目标帧的下一帧内的过零率。本发明实施例通过计算该音频信号在不同帧内的过零率时采用的阈值不同,可满足用户在不同场景下的使用要求,使得音频信号中的有用信号和噪声被准确的区分出来。

Description

音频信号过零率处理方法、装置及语音识别设备
技术领域
本发明实施例涉及通信技术领域,尤其涉及一种音频信号过零率处理方法、装置及语音识别设备。
背景技术
音频信号的过零率标识一帧中该音频信号波形穿过横轴即零电平的次数。过零率作为音频信号的重要特征,用于判断该音频信号中是否包括期望的有用信号,或该音频信号中只有噪声。
在现有技术中,过零率的统计需要通过一个阈值来确定,该阈值是一个固定的值,如果该阈值太小,则导致过零率很大,从而无法区分出该音频信号中的有用信号和噪声;如果该阈值太大,则导致过零率很小,同样无法区分出该音频信号中的有用信号和噪声。
发明内容
本发明实施例提供一种音频信号过零率处理方法、装置及语音识别设备,以使得音频信号中的有用信号和噪声被准确的区分出来。
第一方面,本发明实施例提供一种音频信号过零率处理方法,包括:
获取音频信号在目标帧的前一帧内的信号强度;
根据所述音频信号在所述目标帧的前一帧内的信号强度,确定第一阈值;
根据所述第一阈值,计算所述音频信号在所述目标帧内的过零率;
根据所述音频信号在所述目标帧内的信号强度和所述第一阈值,确定第二阈值,所述第二阈值用于计算所述音频信号在所述目标帧的下一帧内的过零率。
第二方面,本发明实施例提供一种音频信号过零率处理装置,包括:
获取模块,用于获取音频信号在目标帧的前一帧内的信号强度;
第一确定模块,用于根据所述音频信号在所述目标帧的前一帧内的信号强度,确定第一阈值;
计算模块,用于根据所述第一阈值,计算所述音频信号在所述目标帧内的过零率;
第二确定模块,用于根据所述音频信号在所述目标帧内的信号强度和所述第一阈值,确定第二阈值,所述第二阈值用于计算所述音频信号在所述目标帧的下一帧内的过零率。
第三方面,本发明实施例提供一种语音识别设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现第一方面所述的方法。
第四方面,本发明实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
本发明实施例提供的音频信号过零率处理方法、装置及语音识别设备,通过音频信号在上一帧的信号强度,确定计算该音频信号在当前帧内的过零率所采用的第一阈值,通过该音频信号在当前帧的信号强度以及第一阈值,确定计算该音频信号在下一帧内的过零率所采用的第二阈值,使得计算该音频信号在不同帧内的过零率时采用的阈值不同,可满足用户在不同场景下的使用要求。例如,当用户在比较安静的会议室时,该阈值会保持在一个比较低的水平,从而即时用户小声说话也可以被检测到。但是当用户在噪声较大的环境中说话时,阈值又会根据当时的使用场景处于一个比较高的水平,这样干扰用户的噪声就不会被判断为有用信号,只有用户大声说话的时候,才会被检测为有用信号,从而使得音频信号中的有用信号和噪声被准确的区分出来。
附图说明
图1为本发明实施例提供的一种应用场景的示意图;
图2为本发明实施例提供的音频信号过零率处理方法流程图;
图3为本发明实施例提供的一种音频信号的示意图;
图4为本发明另一实施例提供的音频信号过零率处理方法流程图;
图5为本发明实施例提供的另一种音频信号的示意图;
图6为本发明实施例提供的音频信号过零率处理装置的结构示意图;
图7为本发明实施例提供的语音识别设备的结构示意图。
通过上述附图,已示出本公开明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本公开构思的范围,而是通过参考特定实施例为本领域技术人员说明本公开的概念。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
本发明提供的音频信号过零率处理方法,可以适用于图1所示的通信系统。如图1所示,该通信系统包括:接入网设备11、终端设备12以及服务器13。需要说明的是,图1所示的通信系统可以适用于不同的网络制式,例如,可以适用于全球移动通讯(Global Systemof Mobile communication,简称GSM)、码分多址(Code Division Multiple Access,简称CDMA)、宽带码分多址(Wideband Code Division Multiple Access,简称WCDMA)、时分同步码分多址(Time Division-Synchronous Code Division Multiple Access,简称TD-SCDMA)、长期演进(Long Term Evolution,简称LTE)系统及未来的5G等网络制式。可选的,上述通信系统可以为5G通信系统中高可靠低时延通信(Ultra-Reliable and Low LatencyCommunications,简称URLLC)传输的场景中的系统。
故而,可选的,上述接入网设备11可以是GSM或CDMA中的基站(Base TransceiverStation,简称BTS)和/或基站控制器,也可以是WCDMA中的基站(NodeB,简称NB)和/或无线网络控制器(Radio Network Controller,简称RNC),还可以是LTE中的演进型基站(Evolutional Node B,简称eNB或eNodeB),或者中继站或接入点,或者未来5G网络中的基站(gNB)等,本发明在此并不限定。
上述终端设备12可以是无线终端也可以是有线终端。无线终端可以是指向用户提供语音和/或其他业务数据连通性的设备,具有无线连接功能的手持式设备、或连接到无线调制解调器的其他处理设备。无线终端可以经无线接入网(Radio Access Network,简称RAN)与一个或多个核心网设备进行通信,无线终端可以是移动终端,如移动电话(或称为“蜂窝”电话)和具有移动终端的计算机,例如,可以是便携式、袖珍式、手持式、计算机内置的或者车载的移动装置,它们与无线接入网交换语言和/或数据。再例如,无线终端还可以是个人通信业务(Personal Communication Service,简称PCS)电话、无绳电话、会话发起协议(Session Initiation Protocol,简称SIP)话机、无线本地环路(Wireless LocalLoop,简称WLL)站、个人数字助理(Personal Digital Assistant,简称PDA)等设备。无线终端也可以称为系统、订户单元(Subscriber Unit)、订户站(Subscriber Station),移动站(Mobile Station)、移动台(Mobile)、远程站(Remote Station)、远程终端(RemoteTerminal)、接入终端(Access Terminal)、用户终端(User Terminal)、用户代理(UserAgent)、用户设备(User Device or User Equipment),在此不作限定。可选的,上述终端设备12还可以是智能手表、平板电脑等设备。
在本实施例中,终端设备12或服务器13安装有语音识别系统,例如,终端设备12可以采集音频信号,并通过设置在终端设备12内的语音识别系统对该音频信号中的有用信号和/或噪声进行识别;或者,终端设备12采集音频信号,并将该音频信号通过接入网设备11发送给服务器13,服务器13内设置有语音识别系统,服务器13通过该语音识别系统对该音频信号中的有用信号和/或噪声进行识别。终端设备12或服务器13对该音频信号中的有用信号和/或噪声进行识别时,需要计算该音频信号的过零率,下面结合具体的实施例对本申请提出的一种音频信号过零率处理方法进行介绍。
图2为本发明实施例提供的音频信号过零率处理方法流程图。本发明实施例针对现有技术的如上技术问题,提供了音频信号过零率处理方法,该方法具体步骤如下:
步骤201、获取音频信号在目标帧的前一帧内的信号强度。
如图3所示,坐标系的横轴表示时间t,纵轴表示音频信号的幅度x(t)。本实施例将该音频信号在时间上进行等间隔分段,例如,将该音频信号按照10ms为单位划分为多帧,如图3所示,t0表示该音频信号的开始时刻,从t0到t1的时长为10ms,即从t0到t1为该音频信号的一帧;从t1到t2的时长为10ms,即从t1到t2为该音频信号的又一帧;从t2到t3的时长为10ms,即从t2到t3为该音频信号的又一帧,依次类推。此处只是示意性说明,在其他实施例中,还可以采用除了10ms之外的时间长度作为划分每一帧的单位。
假设终端设备12采集到的音频信号,或者服务器13从终端设备12接收到的音频信号为如图3所示的音频信号,此处以模拟的音频信号为例,在其他实施例中,也可以是数字音频信号。终端设备12或服务器13对该音频信号中的有用信号和/或噪声进行识别时,需要计算该音频信号的过零率,可选的,终端设备12或服务器13计算出该音频信号在每一帧的过零率,进一步得到该音频信号的过零率。
如图3所示,假设音频信号x(t)最开始的10ms内是静音,即从t0到t1的10ms内是静音,在从t0到t1的10ms内该音频信号的幅度较小,因此,从t1开始计算该音频信号的过零率。在本实施例中,将从t1到t2的10ms记为目标帧,从t0到t1的10ms记为该目标帧的前一帧,从t2到t3的10ms记为该目标帧的下一帧。
在计算该音频信号在该目标帧内的过零率之前,需要计算第一阈值,该第一阈值用于计算该音频信号在该目标帧内的过零率。
在本实施例中,该第一阈值是根据该音频信号在该目标帧的前一帧内的信号强度确定的。可选的,所述音频信号在所述目标帧的前一帧内的信号强度,包括:所述音频信号在所述目标帧的前一帧内的采样时刻上的信号强度。
例如,在从t0到t1的10ms内有T个采样时刻,可选的,对该音频信号进行采样的采样率为16000HZ,则从t0到t1的10ms内有T=160个采样时刻。因此,按照采样率16000HZ在从t0到t1的10ms内对该音频信号的幅度进行采样后,可得到160个采样值,例如,在从t0到t1的10ms内的第n个采样时刻对应的采样值记为x(n),1≤n≤160。可以理解,在从t0到t1的10ms内,该音频信号在第n个采样时刻对应的信号强度为该第n个采样时刻对应的采样值的绝对值。该音频信号在从t0到t1的10ms内的信号强度具体可以是该音频信号在从t0到t1的10ms内每个采样时刻上的信号强度。
步骤202、根据所述音频信号在所述目标帧的前一帧内的信号强度,确定第一阈值。
可选的,所述目标帧的前一帧包括所述音频信号的开始时刻;所述根据所述音频信号在所述目标帧的前一帧内的信号强度,确定第一阈值,包括:根据所述音频信号在所述目标帧的前一帧内的信号强度,确定所述音频信号在所述目标帧的前一帧内的平均信号强度;根据所述音频信号在所述目标帧的前一帧内的平均信号强度,确定所述第一阈值。
如图3所示,从t0到t1的10ms内包括该音频信号的开始时刻t0,并且在从t0到t1的10ms内该音频信号的幅度较小,具体的,根据该音频信号在从t0到t1的10ms内每个采样时刻上的信号强度,计算该音频信号在从t0到t1的10ms内的平均信号强度,该平均信号强度记为 其中,mean表示求均值的算子,abs表示求绝对值的算子,n表示从t0到t1的10ms内的第n个采样时刻。具体的,第一阈值记为θ1,可选的,θ1=α*mean(abs(x(n))),1≤n≤160。在本实施例中,α是一个系数,通常α大于1,在本实施例中,α可取值为2。
步骤203、根据所述第一阈值,计算所述音频信号在所述目标帧内的过零率。
同理,在从t1到t2的10ms内有T=160个采样时刻,按照采样率16000HZ在从t1到t2的10ms内对该音频信号的幅度进行采样后,可得到160个采样值,例如,在从t1到t2的10ms内的第m个采样时刻对应的采样值记为x(m),1≤m≤160。可选的,将从t1到t2的10ms内的第1个采样时刻对应的采样值记为x_pre,检测从t1到t2的10ms内的第2个采样时刻对应的采样值x(t)是否满足如下公式(1)所述的初始化条件:
[x(t)<-θ1||x(t)>θ1] (1)
如果从t1到t2的10ms内的第2个采样时刻对应的采样值满足公式(1)所述的初始化条件,则记录该第2个采样时刻,并将该音频信号在从t1到t2的10ms内的过零值初始化为0;如果该第2个采样时刻对应的采样值不满足公式(1)所述的初始化条件,则继续判断第3个采样时刻对应的采样值是否满足公式(1)所述的初始化条件,如果该第3个采样时刻对应的采样值满足公式(1)所述的初始化条件,则记录该第3个采样时刻,并将该音频信号在从t1到t2的10ms内的过零值初始化为0;如果该第3个采样时刻对应的采样值不满足公式(1)所述的初始化条件,则依次类推,直到检测到一个采样时刻,使得该采样时刻对应的采样值满足公式(1)所述的初始化条件。
在本实施例中,假设从t1到t2的10ms内的第2个采样时刻对应的采样值满足公式(1)所述的初始化条件,则从该第2个采样时刻开始,判断如下公式(2)所述的条件是否成立,如果公式(2)所述的条件成立,则将该音频信号在从t1到t2的10ms内的过零值加1,如果公式(2)所述的条件不成立,则继续判断下一个采样时刻是否满足公式(2)所述的条件。
F(x(t))*F(x_pre)<0&&abs(x(t)-x_pre)>2θ1 (2)
其中,F表示取符号的算子。例如,F(x_pre)表示从t1到t2的10ms内的第1个采样时刻对应的采样值的符号,F(x(t))表示从t1到t2的10ms内的第2个采样时刻对应的采样值的符号,x(t)表示从t1到t2的10ms内的第2个采样时刻对应的采样值,x_pre表示从t1到t2的10ms内的第1个采样时刻对应的采样值。
如果第1个采样时刻对应的采样值x_pre和第2个采样时刻对应的采样值x(t)满足公式(2)所述的条件,说明从第1个采样时刻到第2个采样时刻,该音频信号经过一次横轴即零电平,则将该音频信号在从t1到t2的10ms内的过零值加1。进一步,将从t1到t2的10ms内的第2个采样时刻对应的采样值记为x_pre,将从t1到t2的10ms内的第3个采样时刻对应的采样值记为x(t),检测该第2个采样时刻对应的采样值x_pre和该第3个采样时刻对应的采样值x(t)是否满足公式(2)所述的条件,如果满足,则说明从第2个采样时刻到第3个采样时刻,该音频信号又经过一次横轴即零电平,将该音频信号在从t1到t2的10ms内的过零值再加1,依次类推,直到x(t)表示从t1到t2的10ms内的第160个采样时刻对应的采样值。
如果第1个采样时刻对应的采样值x_pre和第2个采样时刻对应的采样值x(t)不满足公式(2)所述的条件,说明从第1个采样时刻到第2个采样时刻,该音频信号没有经过横轴即零电平,则该音频信号在从t1到t2的10ms内的过零值不加1。进一步,将从t1到t2的10ms内的第3个采样时刻对应的采样值记为x(t),检测该第1个采样时刻对应的采样值x_pre和该第3个采样时刻对应的采样值x(t)是否满足公式(2)所述的条件,如果满足,则说明从1个采样时刻到第3个采样时刻,该音频信号经过一次横轴即零电平,将该音频信号在从t1到t2的10ms内的过零值加1,进一步,将从t1到t2的10ms内的第3个采样时刻对应的采样值记为x_pre,将从t1到t2的10ms内的第4个采样时刻对应的采样值记为x(t),检测该第3个采样时刻对应的采样值x_pre和该第4个采样时刻对应的采样值x(t)是否满足公式(2)所述的条件,如果满足,则说明从第3个采样时刻到第4个采样时刻,该音频信号又经过一次横轴即零电平,将该音频信号在从t1到t2的10ms内的过零值再加1,依次类推,直到x(t)表示从t1到t2的10ms内的第160个采样时刻对应的采样值。
统计出该音频信号在从t1到t2的10ms内的过零值总数后,将该过零值总数与从t1到t2的10ms内的采样时刻的总数160相比,即可得出该音频信号在从t1到t2的10ms内的过零率。
步骤204、根据所述音频信号在所述目标帧内的信号强度和所述第一阈值,确定第二阈值,所述第二阈值用于计算所述音频信号在所述目标帧的下一帧内的过零率。
在本实施例中,计算该音频信号在不同帧内的过零率所采用的阈值可以是不同的,例如公式(1)和(2)所示,计算该音频信号在从t1到t2的10ms内的过零率时采用第一阈值θ1,当计算该音频信号在从t2到t3的10ms内的过零率时需要对该阈值进行更新,例如更新后的阈值记为第二阈值,该第二阈值表示为θ2。
在本实施例中,可根据该音频信号在从t1到t2的10ms内的信号强度和第一阈值θ1计算出第二阈值θ2。
具体的,所述根据所述音频信号在所述目标帧内的信号强度和所述第一阈值,确定第二阈值,包括:根据所述音频信号在所述目标帧内的信号强度,确定所述音频信号在所述目标帧内的平均信号强度;根据所述音频信号在所述目标帧内的平均信号强度和所述第一阈值,确定所述第二阈值,所述第二阈值是所述音频信号在所述目标帧内的平均信号强度和所述第一阈值的加权和。所述音频信号在所述目标帧内的信号强度,包括:所述音频信号在所述目标帧内的采样时刻上的信号强度。
可以理解,在从t1到t2的10ms内,该音频信号在第m个采样时刻对应的信号强度为该第m个采样时刻对应的采样值的绝对值。该音频信号在从t1到t2的10ms内的信号强度具体可以是该音频信号在从t1到t2的10ms内每个采样时刻上的信号强度。根据该音频信号在从t1到t2的10ms内每个采样时刻上的信号强度,计算该音频信号在从t1到t2的10ms内的平均信号强度,该平均信号强度记为mean(abs(x(m))),1≤m≤160即可选的,m表示从t1到t2的10ms内的第m个采样时刻,第一阈值θ1是计算该音频信号在从t1到t2的10ms内的过零率时采用的阈值。在本实施例中,β是一个平滑系数,可选的,β取值为0.02。
计算出第二阈值θ2后,可根据第二阈值θ2计算该音频信号在从t2到t3的10ms内的过零率,同理于根据第一阈值θ1计算该音频信号在从t1到t2的10ms内的过零率,此处不再赘述。
本发明实施例通过音频信号在上一帧的信号强度,确定计算该音频信号在当前帧内的过零率所采用的第一阈值,通过该音频信号在当前帧的信号强度以及第一阈值,确定计算该音频信号在下一帧内的过零率所采用的第二阈值,使得计算该音频信号在不同帧内的过零率时采用的阈值不同,可满足用户在不同场景下的使用要求。例如,当用户在比较安静的会议室时,该阈值会保持在一个比较低的水平,从而即时用户小声说话也可以被检测到。但是当用户在噪声较大的环境中说话时,阈值又会根据当时的使用场景处于一个比较高的水平,这样干扰用户的噪声就不会被判断为有用信号,只有用户大声说话的时候,才会被检测为有用信号,从而使得音频信号中的有用信号和噪声被准确的区分出来。
图4为本发明另一实施例提供的音频信号过零率处理方法流程图。在本实施例中,所述目标帧的前一帧不包括所述音频信号的开始时刻;步骤202根据所述音频信号在所述目标帧的前一帧内的信号强度,确定第一阈值具体包括如下步骤:
步骤401、根据所述音频信号在所述目标帧的前一帧内的信号强度,确定所述音频信号在所述目标帧的前一帧内的平均信号强度。
在本实施例中,音频信号如图5所示,坐标系的横轴表示时间t,纵轴表示音频信号的幅度x(t)。可选的,将从t1到t2的10ms记为目标帧,则从t0到t1的10ms为该目标帧的前一帧,从t2到t3的10ms为该目标帧的下一帧。如图5所示,该目标帧的前一帧即从t0到t1的10ms内不包括该音频信号的开始时刻0,即t0不是该音频信号的开始时刻。在这种情况下,需要统计该音频信号在从t0到t1的10ms内的过零率。
假设该音频信号中从0到t0的10ms是静音,可选的,在从0到t0的10ms内有T=160个采样时刻。例如,在从0到t0的10ms内的第n个采样时刻对应的采样值记为x(n),1≤n≤160。可以理解,在从0到t0的10ms内,该音频信号在第n个采样时刻对应的信号强度为该第n个采样时刻对应的采样值的绝对值。根据该音频信号在从0到t0的10ms内每个采样时刻上的信号强度,可计算出该音频信号在从0到t0的10ms内的平均信号强度,该平均信号强度的计算方法类似于上述实施例中该音频信号在从t0到t1的10ms内的平均信号强度的计算方法,此处不再赘述。
进一步,根据该音频信号在从0到t0的10ms内的平均信号强度可计算出第三阈值,该第三阈值记为θ0,该第三阈值θ0用于计算该音频信号在从t0到t1的10ms内的过零率,该第三阈值θ0的计算方法和上述实施例所述的第一阈值的计算方法类似,此处不再赘述。
计算出第三阈值后,可根据该第三阈值计算该音频信号在从t0到t1的10ms内的过零率,同理于上述实施例中根据第一阈值θ1计算该音频信号在从t1到t2的10ms内的过零率,此处不再赘述。
在本实施例中,同样在从t0到t1的10ms内有T=160个采样时刻,该音频信号在每个采样时刻对应的信号强度为该采样时刻对应的采样值的绝对值。根据该音频信号在从t0到t1的10ms内每个采样时刻对应的信号强度,可计算出该该音频信号在从t0到t1的10ms内的平均信号强度,具体计算过程与上述实施例一致,此处不再赘述。在本实施例中,该该音频信号在从t0到t1的10ms内的平均信号强度的表示方式与上述实施例的表示方式一致,该平均信号强度记为其中,n表示从t0到t1的10ms内的第n个采样时刻。
步骤402、根据所述音频信号在所述目标帧的前一帧内的平均信号强度和第三阈值,确定所述第一阈值,所述第三阈值用于计算所述音频信号在所述目标帧的前一帧内的过零率。
可选的,所述第一阈值是所述音频信号在所述目标帧的前一帧内的平均信号强度和所述第三阈值的加权和。
在本实施例中,根据该该音频信号在从t0到t1的10ms内的平均信号强度和计算该音频信号在从t0到t1的10ms内的过零率时采用的第三阈值θ0,可确定出计算该音频信号在从t1到t2的10ms内的过零率时采用的第一阈值θ1,可选的,在本实施例中,β是一个平滑系数,可选的,β取值为0.02。
本发明实施例通过音频信号在上一帧的信号强度,确定计算该音频信号在当前帧内的过零率所采用的第一阈值,通过该音频信号在当前帧的信号强度以及第一阈值,确定计算该音频信号在下一帧内的过零率所采用的第二阈值,使得计算该音频信号在不同帧内的过零率时采用的阈值不同,可满足用户在不同场景下的使用要求。例如,当用户在比较安静的会议室时,该阈值会保持在一个比较低的水平,从而即时用户小声说话也可以被检测到。但是当用户在噪声较大的环境中说话时,阈值又会根据当时的使用场景处于一个比较高的水平,这样干扰用户的噪声就不会被判断为有用信号,只有用户大声说话的时候,才会被检测为有用信号,从而使得音频信号中的有用信号和噪声被准确的区分出来。
图6为本发明实施例提供的音频信号过零率处理装置的结构示意图。该音频信号过零率处理装置具体可以是上述实施例所述的终端设备或服务器。本发明实施例提供的音频信号过零率处理装置可以执行音频信号过零率处理方法实施例提供的处理流程,如图6所示,音频信号过零率处理装置60包括:获取模块61、第一确定模块62、计算模块63和第二确定模块64;其中,获取模块61用于获取音频信号在目标帧的前一帧内的信号强度;第一确定模块62用于根据所述音频信号在所述目标帧的前一帧内的信号强度,确定第一阈值;计算模块63用于根据所述第一阈值,计算所述音频信号在所述目标帧内的过零率;第二确定模块64用于根据所述音频信号在所述目标帧内的信号强度和所述第一阈值,确定第二阈值,所述第二阈值用于计算所述音频信号在所述目标帧的下一帧内的过零率。
可选的,所述目标帧的前一帧包括所述音频信号的开始时刻;第一确定模块62具体用于:根据所述音频信号在所述目标帧的前一帧内的信号强度,确定所述音频信号在所述目标帧的前一帧内的平均信号强度;根据所述音频信号在所述目标帧的前一帧内的平均信号强度,确定所述第一阈值。
可选的,所述目标帧的前一帧不包括所述音频信号的开始时刻;第一确定模块62具体用于:根据所述音频信号在所述目标帧的前一帧内的信号强度,确定所述音频信号在所述目标帧的前一帧内的平均信号强度;根据所述音频信号在所述目标帧的前一帧内的平均信号强度和第三阈值,确定所述第一阈值,所述第三阈值用于计算所述音频信号在所述目标帧的前一帧内的过零率。可选的,所述第一阈值是所述音频信号在所述目标帧的前一帧内的平均信号强度和所述第三阈值的加权和。
可选的,第二确定模块64具体用于:根据所述音频信号在所述目标帧内的信号强度,确定所述音频信号在所述目标帧内的平均信号强度;根据所述音频信号在所述目标帧内的平均信号强度和所述第一阈值,确定所述第二阈值,所述第二阈值是所述音频信号在所述目标帧内的平均信号强度和所述第一阈值的加权和。
可选的,所述音频信号在所述目标帧的前一帧内的信号强度,包括:所述音频信号在所述目标帧的前一帧内的采样时刻上的信号强度。
可选的,所述音频信号在所述目标帧内的信号强度,包括:所述音频信号在所述目标帧内的采样时刻上的信号强度。
图6所示实施例的音频信号过零率处理装置可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本发明实施例提供的语音识别设备的结构示意图。该语音识别设备具体可以是上述实施例中的终端设备或服务器。本发明实施例提供的语音识别设备可以执行音频信号过零率处理方法实施例提供的处理流程,如图7所示,语音识别设备70包括存储器71、处理器72、计算机程序和通讯接口73;其中,计算机程序存储在存储器71中,并被配置为由处理器72执行上述实施例所述的音频信号过零率处理方法。
图7所示实施例的语音识别设备可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
另外,本实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的音频信号过零率处理方法。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
上述以软件功能单元的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。
本领域技术人员可以清楚地了解到,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述的装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims (16)

1.一种音频信号过零率处理方法,其特征在于,包括:
获取音频信号在目标帧的前一帧内的信号强度;
根据所述音频信号在所述目标帧的前一帧内的信号强度,确定第一阈值;
根据所述第一阈值,计算所述音频信号在所述目标帧内的过零率;
根据所述音频信号在所述目标帧内的信号强度和所述第一阈值,确定第二阈值,所述第二阈值用于计算所述音频信号在所述目标帧的下一帧内的过零率。
2.根据权利要求1所述的方法,其特征在于,所述目标帧的前一帧包括所述音频信号的开始时刻;
所述根据所述音频信号在所述目标帧的前一帧内的信号强度,确定第一阈值,包括:
根据所述音频信号在所述目标帧的前一帧内的信号强度,确定所述音频信号在所述目标帧的前一帧内的平均信号强度;
根据所述音频信号在所述目标帧的前一帧内的平均信号强度,确定所述第一阈值。
3.根据权利要求1所述的方法,其特征在于,所述目标帧的前一帧不包括所述音频信号的开始时刻;
所述根据所述音频信号在所述目标帧的前一帧内的信号强度,确定第一阈值,包括:
根据所述音频信号在所述目标帧的前一帧内的信号强度,确定所述音频信号在所述目标帧的前一帧内的平均信号强度;
根据所述音频信号在所述目标帧的前一帧内的平均信号强度和第三阈值,确定所述第一阈值,所述第三阈值用于计算所述音频信号在所述目标帧的前一帧内的过零率。
4.根据权利要求3所述的方法,其特征在于,所述第一阈值是所述音频信号在所述目标帧的前一帧内的平均信号强度和所述第三阈值的加权和。
5.根据权利要求1所述的方法,其特征在于,所述根据所述音频信号在所述目标帧内的信号强度和所述第一阈值,确定第二阈值,包括:
根据所述音频信号在所述目标帧内的信号强度,确定所述音频信号在所述目标帧内的平均信号强度;
根据所述音频信号在所述目标帧内的平均信号强度和所述第一阈值,确定所述第二阈值,所述第二阈值是所述音频信号在所述目标帧内的平均信号强度和所述第一阈值的加权和。
6.根据权利要求1-5任一项所述的方法,其特征在于,所述音频信号在所述目标帧的前一帧内的信号强度,包括:
所述音频信号在所述目标帧的前一帧内的采样时刻上的信号强度。
7.根据权利要求1-5任一项所述的方法,其特征在于,所述音频信号在所述目标帧内的信号强度,包括:
所述音频信号在所述目标帧内的采样时刻上的信号强度。
8.一种音频信号过零率处理装置,其特征在于,包括:
获取模块,用于获取音频信号在目标帧的前一帧内的信号强度;
第一确定模块,用于根据所述音频信号在所述目标帧的前一帧内的信号强度,确定第一阈值;
计算模块,用于根据所述第一阈值,计算所述音频信号在所述目标帧内的过零率;
第二确定模块,用于根据所述音频信号在所述目标帧内的信号强度和所述第一阈值,确定第二阈值,所述第二阈值用于计算所述音频信号在所述目标帧的下一帧内的过零率。
9.根据权利要求8所述的音频信号过零率处理装置,其特征在于,所述目标帧的前一帧包括所述音频信号的开始时刻;
所述第一确定模块具体用于:
根据所述音频信号在所述目标帧的前一帧内的信号强度,确定所述音频信号在所述目标帧的前一帧内的平均信号强度;
根据所述音频信号在所述目标帧的前一帧内的平均信号强度,确定所述第一阈值。
10.根据权利要求8所述的音频信号过零率处理装置,其特征在于,所述目标帧的前一帧不包括所述音频信号的开始时刻;
所述第一确定模块具体用于:
根据所述音频信号在所述目标帧的前一帧内的信号强度,确定所述音频信号在所述目标帧的前一帧内的平均信号强度;
根据所述音频信号在所述目标帧的前一帧内的平均信号强度和第三阈值,确定所述第一阈值,所述第三阈值用于计算所述音频信号在所述目标帧的前一帧内的过零率。
11.根据权利要求10所述的音频信号过零率处理装置,其特征在于,所述第一阈值是所述音频信号在所述目标帧的前一帧内的平均信号强度和所述第三阈值的加权和。
12.根据权利要求8所述的音频信号过零率处理装置,其特征在于,所述第二确定模块具体用于:
根据所述音频信号在所述目标帧内的信号强度,确定所述音频信号在所述目标帧内的平均信号强度;
根据所述音频信号在所述目标帧内的平均信号强度和所述第一阈值,确定所述第二阈值,所述第二阈值是所述音频信号在所述目标帧内的平均信号强度和所述第一阈值的加权和。
13.根据权利要求8-12任一项所述的音频信号过零率处理装置,其特征在于,所述音频信号在所述目标帧的前一帧内的信号强度,包括:
所述音频信号在所述目标帧的前一帧内的采样时刻上的信号强度。
14.根据权利要求8-12任一项所述的音频信号过零率处理装置,其特征在于,所述音频信号在所述目标帧内的信号强度,包括:
所述音频信号在所述目标帧内的采样时刻上的信号强度。
15.一种语音识别设备,其特征在于,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1-7任一项所述的方法。
16.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。
CN201810517706.3A 2018-05-25 2018-05-25 音频信号过零率处理方法、装置及语音识别设备 Active CN108447505B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810517706.3A CN108447505B (zh) 2018-05-25 2018-05-25 音频信号过零率处理方法、装置及语音识别设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810517706.3A CN108447505B (zh) 2018-05-25 2018-05-25 音频信号过零率处理方法、装置及语音识别设备

Publications (2)

Publication Number Publication Date
CN108447505A CN108447505A (zh) 2018-08-24
CN108447505B true CN108447505B (zh) 2019-11-05

Family

ID=63205663

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810517706.3A Active CN108447505B (zh) 2018-05-25 2018-05-25 音频信号过零率处理方法、装置及语音识别设备

Country Status (1)

Country Link
CN (1) CN108447505B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111951834A (zh) * 2020-08-18 2020-11-17 珠海声原智能科技有限公司 基于过零率计算的超低算力检测语音存在的方法和装置
CN114571473A (zh) * 2020-12-01 2022-06-03 北京小米移动软件有限公司 足式机器人的控制方法、装置及足式机器人

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5815507A (en) * 1996-04-15 1998-09-29 Motorola, Inc. Error detector circuit for digital receiver using variable threshold based on signal quality
TW349717U (en) * 1996-12-30 1999-01-01 Winbond Electronics Corp Method & apparatus for detecting surge noise in signal processor
CN1151490C (zh) * 2000-09-13 2004-05-26 中国科学院自动化研究所 用于语音识别的高精度高分辨率基频提取方法
CN100573663C (zh) * 2006-04-20 2009-12-23 南京大学 基于语音特征判别的静音检测方法
CN102314884B (zh) * 2011-08-16 2013-01-02 捷思锐科技(北京)有限公司 语音激活检测方法与装置
CN107305774B (zh) * 2016-04-22 2020-11-03 腾讯科技(深圳)有限公司 语音检测方法和装置

Also Published As

Publication number Publication date
CN108447505A (zh) 2018-08-24

Similar Documents

Publication Publication Date Title
CN105979197B (zh) 基于啸叫音自动识别的远程会议控制方法及装置
CN108899044B (zh) 语音信号处理方法及装置
US10205548B2 (en) Apparatus, method and system of communicating acoustic information of a distributed microphone array between mobile devices
EP4120724A1 (en) Information reporting method, access method determination method, terminal and network device
US20140142934A1 (en) Speech recognition
CN108447505B (zh) 音频信号过零率处理方法、装置及语音识别设备
CN108347763A (zh) 授时的方法、终端设备和网络设备
US11818592B2 (en) Uplink signal transmission method and device
CN109152005A (zh) 一种上行波束指示方法、ue、基站及存储介质
CN109727607B (zh) 时延估计方法、装置及电子设备
CN111278056A (zh) 信息传输方法、终端及网络设备
CN104053215A (zh) 一种选择接入点的最佳位置的方法及装置
WO2016173152A1 (zh) 分布式基站的下行天线选择方法及装置
CN103782635A (zh) 同步方法及基站
CN105165076A (zh) 一种定时提前调整的方法和设备
CN114189839A (zh) 非同步上行传输方法、终端及网络设备
Kiselev et al. WHISPER: Wirelessly synchronized distributed audio sensor platform
CN109039994B (zh) 一种计算音频和视频异步时差的方法及设备
CN107393543B (zh) 音频数据处理方法及装置
EP4142175A3 (en) Method for processing uplink fronthaul data in a wireless communications network
CN108899025A (zh) 终端设备控制方法、设备及存储介质
CN109391294A (zh) 一种指示及信息确定方法和装置
CN102098239B (zh) 一种信道估计方法、装置和vamos系统
CN109729578A (zh) 非对称上行载波聚合的上行同步方法及设备
CN105100338A (zh) 降低噪声的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant