CN111477246B - 语音处理方法、装置及智能终端 - Google Patents

语音处理方法、装置及智能终端 Download PDF

Info

Publication number
CN111477246B
CN111477246B CN201910067864.8A CN201910067864A CN111477246B CN 111477246 B CN111477246 B CN 111477246B CN 201910067864 A CN201910067864 A CN 201910067864A CN 111477246 B CN111477246 B CN 111477246B
Authority
CN
China
Prior art keywords
detected
audio signal
frequency
audio
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910067864.8A
Other languages
English (en)
Other versions
CN111477246A (zh
Inventor
梁俊斌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201910067864.8A priority Critical patent/CN111477246B/zh
Publication of CN111477246A publication Critical patent/CN111477246A/zh
Application granted granted Critical
Publication of CN111477246B publication Critical patent/CN111477246B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • G10L2025/937Signal energy in various frequency bands

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明实施例公开了一种语音处理方法、装置及智能终端,其中方法可包括:获取待检测音频信号,并确定待检测音频信号所属的音频类别;当待检测音频信号为第一类音频时,基于待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对待检测音频信号进行啸叫检测,确定待检测音频信号的啸叫频点;当待检测音频信号为第二类音频时,基于待检测音频信号在频域空间内包括的频点中的各个频点的功率值对待检测音频信号进行啸叫检测,确定待检测音频信号的啸叫频点。采用本发明实施例,可提高啸叫检测的准确性。

Description

语音处理方法、装置及智能终端
技术领域
本发明涉及语音处理技术领域,尤其涉及一种语音处理方法、装置及智能终端。
背景技术
诸如手机、平板电脑以及智能手表等智能终端在通话过程中,终端传声器如麦克风可能将终端扬声器放出的声音进行反复拾取并放大形成正反馈,此种情况下如果智能终端音量超过一定限度时,会在某频点出现啸叫,严重影响通话质量。
为了有效抑制啸叫,首先要进行啸叫检测以确定啸叫点,根据啸叫频点来进行啸叫抑制处理。因此,在啸叫抑制领域中,如何进行啸叫检测以便于更为准确地确定啸叫频点成为研究的热点问题。
发明内容
本发明实施例提供一种语音处理方法、装置及智能终端,可提高啸叫检测的准确性。
一方面,本发明实施例提供了一种语音处理方法,包括:
获取待检测音频信号,并确定所述待检测音频信号所属的音频类别;
当所述待检测音频信号为第一类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点;
当所述待检测音频信号为第二类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率值对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点。
另一方面,本发明实施例还提供了一种语音处理装置,包括获取单元和处理单元:
获取单元,用于获取待检测音频信号;
处理单元,用于确定所述待检测音频信号所属的音频类别;
所述处理单元,还用于当所述待检测音频信号为第一类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点;
所述处理单元,还用于当所述待检测音频信号为第二类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率值对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点;
又一方面,本发明实施例提供了一种智能终端,包括:处理器输入设备、输出设备和存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行上述语音处理方法。
相应地,本发明实施例还提供了一种计算机存储介质,所述计算机存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行上述语音处理方法。
本发明实施例中智能终端获取到待检测音频信号之后,确定该待检测音频信号所属的音频类别,在待检测音频信号为第一类音频的情况下,基于待检测音频信号中的各个频点的功率系数对待检测音频信号进行啸叫检测,在待检测音频信号为第二类音频的情况下,基于待检测音频信号中的各个频点的功率值对待检测音频信号进行啸叫检测,在上述对待检测音频信号的啸叫检测过程中,针对待检测音频信号所属的音频类别不同,采用不同的啸叫检测规则有针对性地进行啸叫检测,可提高啸叫检测的准确性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种语音处理方法的应用图;
图2是本发明实施例提供的一种语音处理方法的流程示意图;
图3是本发明实施例提供的另一种语音处理方法的流程示意图;
图4a是本发明实施例提供的一种待检测音频信号的功率谱图;
图4b为本发明实施例提供的另一种待检测音频信号的功率谱图;
图5为本发明实施例提供的一种基于频点的功率系数进行啸叫检测的流程示意图;
图6为本发明实施例提供的一种基于频点的功率值进行啸叫检测的流程示意图;
图7为本发明实施例提供的一种啸叫检测方法的流程示意图;
图8为本发明实施例提供的一种语音处理装置的结构示意图;
图9为本发明实施例提供的一种智能终端的结构示意图。
具体实施方式
在对啸叫检测的研究中发现,啸叫检测可以在时域进行也可以在频域进行,也即啸叫检测方法包括时域检测和频域检测。应当理解的,音频属于准稳态信号,即短时平稳。这个短时长一般为10-50ms,因此在进行音频信号处理时,为减少音频信号整体的非稳态、时变对处理过程的影响,对音频信号进行分帧处理。因此,本发明实施例中下述待检测音频信号即为一段音频信号中的一帧信号。
在一个实施例中,考虑到啸叫信号的能量具有突变特性以及啸叫信号具有往复周期性,时域检测主要是基于啸叫信号的能量特性和/或周期特性进行啸叫判决的。具体地,当待检测音频信号中某一段信号的能量瞬间增大且超过能量阈值时,将所述信号判定为啸叫信号;或者,当待检测音频信号中出现具有周期性能量瞬变的信号时,将周期性能量瞬变的信号判定为啸叫信号。
在一个实施例中,频域检测主要是基于待检测音频信号的傅里叶变换得到的功率谱进行分析。所述频域检测可包括峰均比判决法和参考频点判决法。所述峰均比判决法是指:计算待检测音频信号中某个频点对应的功率谱峰值与所述待检测音频信号的平均功率的比值;将所得的比值与设定的阈值进行对比,如果所述比值超过所述设定的阈值,则将该频点判定为啸叫频点;如果所述比值不超过所述设定的阈值,则可确定该频点不是啸叫频点。
所述参考频点判决法是指:将所述待检测音频信号在频域空间内划分为多个频带,分别为多个频带设置不同的参考功率值;计算各频带内的各个频点中某个频点的功率值与该频带对应的参考功率值之间的比值,若比值超过预设阈值,则判定某个频点为啸叫频点。
在一个实施例中,考虑到音频类别可包括第一类音频和第二类音频,第一类音频可指浊音,第二类音频可指清音,所述待检测音频信号可能为浊音,也可能为清音,由于浊音和清音的能量不同,导致浊音和清音的功率谱分布存在较大差异,如果在频域检测过程中,对不同音频类别的音频信号采用不同啸叫检测方法进行啸叫检测,可提高啸叫检测的准确性。
因此,本发明实施例中提出一种语音处理方法,所述语音处理方法可主要应用于对智能终端之间的通话过程进行啸叫检测。所述语音处理方法主要是基于音频类别对待检测音频信号进行啸叫检测,具体地,在获取到待检测音频信号之后,确定所述音频信号所属的音频类别;当所述音频信号为第一类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫点;当所述音频信号为第二类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率值对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点。
下面以所述语音处理方法应用于对智能终端之间的通话过程进行啸叫检测为例,介绍所述语音处理方法。参考图1,为本发明实施例提供的一种智能终端之间进行通话的场景图,如图1所示,假设用户A通过智能终端A与用户B进行通话,假设智能终端A的声音采集设备为麦克风,在麦克风采集到用户A的待检测音频信号后,智能终端A可以获取待检测音频信号在频域空间内包括的频点,并确定所述待检测音频信号所属的音频类别;如果确定出所述待检测音频信号为第一类音频时,所述智能终端A通过所述待检测音频信号在频域空间内包括的各个频点的功率系数对所述待检测音频信号进行啸叫检测,确定出所述待检测音频信号的啸叫频点;如果确定出待检测音频信号为第二类音频时,所述智能终端A通过对待检测音频信号在频域空间内包括的各个频点的功率值对所述待检测音频信号进行啸叫检测,确定出所述待检测音频信号的啸叫频点。
在一个实施例中,智能终端A通过上述步骤如果检测到待检测音频信号中包括啸叫频点,则采用啸叫抑制方法对所述啸叫频点进行处理,并将处理后的待检测音频信号发送给智能终端B,以便于用户B通过智能终端B听到用户A的语音,并根据用户A的语音输入相应的响应语音给用户A,从而实现了用户A与用户B之间的通话。在一个实施例中,上述智能终端A对用户A的语音的啸叫检测过程,也可以由智能终端B来执行,也即智能终端A在采集到用户A的待检测音频信号之后,可以直接将待检测音频信号发送给智能终端B,智能终端B对待检测音频信号进行上述啸叫检测过程,并对待检测音频信号中的啸叫频点进行啸叫抑制处理,最后将啸叫抑制处理后的待检测音频信号通过声音输出设备比如扬声器输出给用户B。
综上所述,利用本发明实施例所述的语音处理方法对待检测音频信号进行啸叫检测时,首先需要获取到待检测音频信号,并确定出待检测音频信号所属的音频类别,进而选择相应的检测规则对待检测音频信号进行啸叫检测。因此,本发明实施例提供了一种语音处理方法的流程示意图,如图2所示。图2所示的语音处理方法可以由智能终端执行,具体由智能终端的处理器执行。在一个实施例中,所述智能终端可包括手机、平板电脑、笔记本、智能穿戴设备中的一种或多种。图2所示的语音处理方法可包括以下步骤:
S201、获取待检测音频信号,并确定所述待检测音频信号所属的音频类别。
在一个实施例中,由于音频信号属于准稳态信号,也即短时平稳信号,所述短时平稳的时长一般为10ms-50ms,因此在对音频信号进行处理时,为了减少音频信号整体的非稳定、时变对处理过程的影响,需要对音频信号进行分帧处理,本发明实施例中所述待检测音频信号即为一段音频信号中的任意一帧音频信号。通常情况下,一帧音频信号的时长在10ms-50ms之间,在一个实施例中,智能终端可根据智能终端的处理能力、音频信号的总时长以及音频信号的特征设置每一帧音频信号的帧时长。
在一个实施例中,所述获取待检测音频信号的方式可以为:智能终端通过实时采集的方式获取,具体地,智能终端通过智能终端上的声音采集设备比如麦克风实时采集语音,当检测到采集语音的时间等于预先设定的帧时长时,智能终端将截止到当前时间为止采集到的语音作为待检测音频信号。再一个实施例中,所述获取待检测音频信号的方式还可以为:智能终端通过对历史采集的语音进行分帧处理得到的,具体地,智能终端通过预设的分帧规则对历史采集到的语音进行分帧处理得到多帧音频信号,然后从多帧音频信号中选择任意一帧音频信号作为待检测音频信号。
在获取到待检测音频信号之后,智能终端进一步的判断所述待检测音频信号所属的音频类别,所述音频类别可包括第一类音频和第二类音频。在一个实施例中,所述第一类音频为浊音,所述第二类音频为清音。所述清音和浊音是根据发声体在发声时是否能够引起声带颤动确定的,具体地,所述浊音是指发声体在发声时能够引起声带颤动的音,例如,在对m发音时声带颤动,m即为浊音,所述清音是指发声体在发声时不能引起声带颤动的音,例如,在对p发音时声带不颤动,p即为清音。
在一帧时长内,浊音的能量远高于清音的能量,且浊音的能量集中分布在低频,清音的能量集中分布在中高频。结合浊音和清音的能量特征,智能终端可以通过时域判别法和频域判别法确定待检测音频信号所属的音频类别。
对于频域判别法,智能终端基于待检测音频信号的功率谱确定待检测音频信号的低频的能量与待检测音频信号的总能量的比值,如果该比值大于预设比值,则智能终端确定待检测音频信号为第一类音频,即浊音;如果该比值不大于预设比值,则智能终端确定待检测音频信号为第二类音频,即清音。
所述时域判别法,可包括短时能量、和/或短时过零率、和/或短时自相关函数。具体地,对于短时能量,智能终端可利用短时能量计算规则计算所述待检测音频信号的短时能量,如果所述待检测音频信号的短时能量大于预设能量值,则确定待检测音频信号为浊音;如果所述待检测音频信号的短时能量不大于预设能量值,则确定待检测音频信号为清音。对于过零率,智能终端可利用短时过零率计算规则计算所述待检测音频信号的过零率,如果所述待检测音频信号的过零率大于预设过零率,则确定所述待检测音频信号为清音;如果所述待检测音频信号的过零率不大于预设过零率,则确定所述待检测音频信号为浊音。对于浊音来说,其自相关函数的短时能量变化较高,而清音的自相关函数的短时能量变化较低,智能终端可以通过计算待检测音频信号的自相关函数的短时能量变化确定所述待检测音频信号所属的音频类别。
S202、当待检测音频信号为第一类音频时,基于待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对待检测音频信号进行啸叫检测,确定待检测音频信号的啸叫频点。
本发明实施例中所述的语音处理方法主要是在频域空间对待检测音频信号进行啸叫检测,所述在频域空间对待检测音频信号进行啸叫检测也即对待检测音频信号在频域空间内包括的频点中的各个频点进行啸叫检测。在对待检测音频信号在频域空间内包括的频点进行啸叫检测之前,首先要获取到所述待检测音频信号在频域空间内包括的频点。
在一个实施例中,所述待检测音频信号在频域空间内包括的频点,可以指将待检测音频信号从时域空间变换到频域空间后得到的所有频率点,或者,所述待检测音频信号在频域空间内包括的频点也可以指从将待检测音频信号从时域空间变换到频域空间后得到的所有频率点中,按照预设频点选择规则选择出的部分频率点。在一个实施例中,预设频点选择规则可以是基于各个频率点的功率值选择的,例如,设置一个功率阈值,从所有频率点中选择功率值大于所述功率阈值的频率点作为所述待检测音频信号在频域空间内包括的频点。在其他实施例中,预设频点选择规则也可以为其他的规则,智能终端可根据具体场景选择合适的预设频点选择规则来选择待检测音频信号在频域空间内包括的频点,本发明实施例中不做具体限定。
由上述描述可知,欲获取到待检测音频信号包括的频点,需要将待检测音频信号从时域空间变化到频域空间,在一个实施例中,将所述待检测音频信号从时域空间变化到频域空间的方式可以是对待检测音频信号在时域空间做傅里叶变换,傅里叶变换的步骤可包括加窗、重叠等处理,在此不详细介绍。在对所述待检测音频信号进行傅里叶变换之前,需要对待检测音频信号进行预处理,所述预处理可包括:将待检测音频信号进行采样处理,使得所述待检测音频信号变换为数字信号,具体地,智能终端设置采样频率和采样点的个数,根据设置好的采样频率和采样点的个数对所述待检测音频信号进行采样处理,得到变换为数字信号的待检测音频信号。
进一步的,对变换为数字信号的待检测音频信号进行傅里叶变换,实现了将待检测音频信号从时域空间变换到频域空间。在一个实施例中,对变换为数字信号的待检测音频信号进行傅里叶变换到频域空间后,待检测音频信号在频域空间内对应的频率范围与采样率有关,所述待检测音频信号在频域空间内包括的所有频率点的数量与采样点有关。
在一个实施例中,由采样定理可指,采样频率大于信号频率(本发明实施例中所述信号频率即为所述待检测音频信号的频率)的两倍,假设对待检测音频信号进行采样处理时所使用的采样频率为fs,则待检测音频信号在频域空间内对应的频率范围可以为0-fs/2。对于待检测音频信号在频域空间内包括的所有频点来书,其数量可以大于或等于采样点的个数,通常情况下,设置所述所有频点的数量等于采样点的个数。例如,假设待检测音频信号的时长为10ms,对所述待检测音频信号进行采样处理时采样率为8KHz,则采样点的个数为8*10=80个,则待检测音频信号在频域空间包括的频点的个数也可以为80个。
在获取到待检测音频信号在频域空间内包括的频点后且当待检测音频信号为第一类音频时,智能终端可基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率系数进行啸叫检测。
所述第一类音频,即为浊音,浊音包括基音和谐波,相应的,浊音在频域空间内的功率分布中既包括基音频率(简称基频)又包括谐波频率,所述各个频点的功率系数是根据所述待检测音频信号在频域空间内的功率谱中包括的基频、谐波频率以及各个频点的功率值确定的,具体地,基于谐波频率确定出基准功率值,每个频点的功率系数可以是通过将该频点在功率谱中的功率值与基准功率值进行相除得到的。基于待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对所述待检测音频信息进行啸叫检测的具体检测过程,将在后面的实施例中详细描述。
S203、当待检测音频信号为第二类音频时,基于所述待检测音频信号在频域空间内包括的频点中各个频点的功率值对所述待检测音频信号进行啸叫检测,确定待检测音频信号的啸叫频点。
在一个实施例中,通过步骤S202中所述方法获取到所述待检测音频信号在频域空间内包括的频点之后,且待检测音频信号为第二音频信号即清音时,智能终端基于待检测音频信号在频域空间内包括的频点中各个频点的功率值对待检测音频信号进行啸叫检测。其中,所述各个频点的功率值是指各个频点在所述待检测音频信号在频域空间内对应的功率谱中的功率值。对于具体的啸叫检测过程,在后面的实施例中详细描述。
在一个实施例中,如果通过步骤S202和步骤S203检测到所述待检测音频信号包括啸叫频点,则智能终端可将啸叫频点及其邻近频点通过功率衰减或者陷波滤波方式进行处理,从而可实现啸叫抑制;如果通过步骤S202和步骤S203检测到所述待检测音频信号不包括啸叫频点,则智能终端可输出通知消息,用于通知所述待检测音频信息不包括啸叫频点。
本发明实施例中智能终端获取到待检测音频信号之后,确定该待检测音频信号所属的音频类别,在待检测音频信号为第一类音频的情况下,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对所述待检测音频信号进行啸叫检测,在待检测音频信号为第二类音频的情况下,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对所述待检测音频信号进行啸叫检测,实现了针对不同类别的待检测音频信号,采用不同的啸叫检测规则有针对性地进行啸叫检测,可提高啸叫检测的准确性。
请参考图3,为本发明实施例提供的另一种语音处理方法的流程示意图,图3所示的语音处理方法可以由智能终端执行,具体由智能终端的处理器执行。图3所示的语音处理方法可包括以下步骤:
S301、获取待检测音频信号,并获取所述待检测音频信号在频域空间内的功率谱和待检测音频信号对应的频率分界值。
本发明实施例基于不同音频类别之间的差异,针对不同音频类别的待检测音频信号分别通过相应的检测规则进行啸叫检测,可以提高啸叫检测的准确性。可见,在采用本发明所述的语音处理方法对待检测音频信号进行啸叫检测之前,需要确定待检测音频信号所属的音频类别。
在一个实施例中,确定待检测音频信号所属的音频类别可通过步骤S301-步骤S302实现。在步骤S301中,可以通过对所述待检测音频信号在时域空间内进行傅里叶变换获取到所述待检测音频信号在频域空间内的功率谱,具体的傅里叶变换处理可参见图2所示的实施例中相应部分的描述,在此不再赘述。所述功率谱用于表示待检测音频信号的功率随着频率的变化情况,所述功率谱中包括了所述待检测音频信号在频域内的频点中的各个频点的功率值。所述功率谱中通常包括功率谱曲线,横坐标和纵坐标,所述功率谱曲线能够反映待检测音频信号的功率随着频率的变化情况,所述横坐标表示频率范围,纵坐标表示功率变化范围。
由图2所示的实施例中相应部分对待检测音频信号进行傅里叶变换得到待检测音频信号在频域空间内的功率谱的描述可知,在进行傅里叶变换过程中待检测音频信号在频域空间内对应的频率范围与对待检测音频信号进行预处理时的采样率有关。另外,在所述频率范围内包括的频点的数量与对待检测音频信号进行预处理时的采样点的个数有关。参考图4a和图4b为针对时长为32ms的待检测音频信号,分别采用8KHz采样率和16KHz采样率对其进行采样处理,然后进行傅里叶变换得到的功率谱图。可见,由于图4a和图4b中的采样率不相同,采样点的个数不相同,两个功率谱中横坐标的频率范围不相同,功率谱上的频点数量也不相同。
在获取到待检测音频信号在频域空间内功率谱后,可进一步获取所述待检测音频信号对应的频率分界值,所述频率分界值用于将待检测音频信号在频域空间内包括的频点划分为低频频点和高频频点,也即是将功率谱中包括的各个频点划分为低频频点和高频频点。具体地,在所述待检测音频信号在频域空间内的功率谱横坐标上的各个频点中,将频率值小于所述频率分界值的频点确定为低频频点;将频率值大于所述频率分界值的频点确定为高频频点。
在一个实施例中,所述频率分界值可以设置为1KHz-2KHz之间的任意值,通常情况下,频率分界值可以设置为1KHz。假设频率分界值设置为1KHz,则所述待检测音频信号在频域空间内的功率谱中频率低于1KHz的频点确定为低频频点,如图4a中,401区域包括的频点为低频频点;频率高于1KHz的频点确定为高频频点,如图4a中,402区域包括的频点为高频频点。
S302、基于待检测音频信号的功率谱和待检测音频信号对应的频率分界值,确定待检测音频信号所属的音频类别。
由图2所示的实施例中对第一类音频(浊音)和第二类音频(清音)的描述可知,第一类音频的能量和第二类音频的能量在功率谱中的分布存在较大的差异,第一类音频的大部分能量集中分布在低频,而仅有较少部分能量分布在中高频,相反的,第二类音频的大部分能量集中分布在中高频,较少部分能量分布在低频。因此,在一个实施例中,所述步骤S302可以是基于第一类音频和第二类音频在功率谱上的能量分布差异来确定待检测音频信号所属的音频类别。
具体地,所述步骤S302的实现方式可以包括:基于所述功率谱确定所述待检测音频信号在频域空间内包括的频点的总能量;基于所述功率谱和所述频率分界值计算所述低频频点的能量;计算所述低频频点的能量与所述待检测音频信号在频域空间内包括的频点的总能量的比值;当所述比值大于第一阈值时,确定所述待检测音频信号为第一类音频;当所述比值不大于所述第一阈值时,确定所述待检测音频信号为第二类音频。其中,所述比值不大于所述第一阈值是指所述比值等于或者小于所述第一阈值。
在一个实施例中,所述基于所述功率谱确定所述待检测音频信号在频域空间内包括的频点的总能量的方式可以为:将所述待检测音频信号在频域空间内包括的频点中的各个频点对应的功率进行相加运算,运算所得的结果便可近似作为待检测音频信号在频域空间内包括的频点的总能量。在一个实施例中,所述基于所述功率谱和所述频率分界值计算所述低频频点的能量时,首先基于频率分界值确定出低频频点,根据所述功率谱获取各个低频频点的功率,将各个低频频点的功率进行相加运算,得到的结果便可近似作为低频频点的能量。
在一个实施例中,获取到所述待检测音频信号在频域空间内包括的频点的总能量和待检测音频信号包括的低频频点的能量之后,将所述低频频点的能量与所述频点的总能量作比,将所得的比值与预先设定的第一阈值进行比较:当所得的比值大于第一阈值时,说明低频频点的能量较高,结合第一类音频和第二类音频在功率谱中的分布可知第一类音频在低频的能量较高,因此确定待检测音频信号为第一类音频;当所得的比值不大于第一阈值时,所述低频频点的能量较低,结合第一类音频和第二类音频在功率谱中的分布可知第二类音频的低频的能量较低,因此确定待检测音频信号为第二类音频信号。其中,所述第一阈值可以是智能终端对大量历史音频信号进行分析得到的,或者所述第一阈值也可以是专业人员根据历史经验值设置的,本发明实施例不做具体限定。
S303、当所述待检测音频信号为第一类音频时,基于待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点。
本发明实施例中,在智能终端确定出所述待检测音频信号所属的音频类别之后,选择相应的检测规则对所述待检测音频信号在频域空间内包括的频点进行啸叫检测,对不同音频类别的待检测音频信号采用不同的检测规则进行啸叫检测,可提高啸叫检测的准确性。
在一个实施例中,当确定了所述待检测音频信号为第一类音频时,第一类音频可以为浊音,结合浊音的特征,智能终端基于待检测音频信号在频域空间内的频点中的各个频点的功率系数对待检测音频信号进行啸叫检测。具体地,所述步骤S303的实施方式可以包括:S501、确定所述待检测音频信号在频域空间内包括的频点中的各个频点对应的功率系数;S502、确定所述各个频点对应的参考功率系数;S503、计算所述各个频点中每个频点对应的功率系数与相应的参考功率系数的比值;S504、将得到的各个比值中大于第二阈值的比值对应的频点确定为所述待检测音频信号的啸叫频点。
在一个实施例中,步骤S501中所述各个频点对应的功率系数是通过将所述各个频点的功率值与待检测音频信号对应的基准功率值相除得到的,具体地,以所述待检测音频信号在频域空间内包括的频点中的目标频点为例,所述确定所述待检测音频信号在频域空间内包括的频点中的各个频点对应的功率系数,包括:基于功率谱和预设规则确定所述待检测音频信号的基准功率值;从所述功率谱中确定所述目标频点的功率值;将所述目标频点对应的功率值与所述基准功率值进行相除运算,得到的运算结果作为所述目标频点对应的功率系数。
其中,所述待检测音频信号的基准功率值可以是根据所述待检测音频信号的谐波在功率谱中的功率值确定的,具体地,所述基于功率谱和预设规则确定基准功率值的方式可以为:对所述待检测音频信号进行基频提取,得到基频值;基于所述基频值确定所述待检测音频信号包括的前N个谐波;基于功率谱获取所述前N个谐波中各个谐波的功率值;将所述各个谐波中的功率值中最大的功率值确定为基准功率值。其中,基频是发声体在发浊音时,气流通过声门使声带产生张弛振荡式振动,这种声带振动的频率即为基频。所述谐波在功率谱上是位于基频的整数倍的频点位置,因此在获取待检测音频信号的前N个谐波之前,需要确定基频值。在一个实施例中,基频值的计算过程称为基频检测,常用的基频检测方法可包括时域自相关法、短时平均幅度差以及倒谱法等,本发明实施例不详细介绍。在一个实施例中,N为大于1的整数,通常情况下,N为6,此时基准功率值即为所述6个谐波在功率谱中的各自对应的功率值中最大的功率值。
在一个实施例中,步骤S502所述各个频点对应的参考功率系数可以是根据一定规模的第一类音频对应的音频样本和所述基准功率值统计得到的。具体地,所述步骤S502可包括:获取所述第一类音频对应的音频样本集,所述音频样本集包括M个音频样本信号,M为正整数;针对所述目标频点,基于所述M个音频样本在频域空间内的功率谱和所述基准功率值,计算所述目标频点在所述M个音频样本信号中的各个样本功率系数;按照预设功率系数确定规则从所述各个样本功率系数中选择目标功率系数作为所述目标频点对应的参考功率系数。
概括来讲,以所述待检测音频信号在频域空间内包括的频点为目标频点为例,确定所述目标频点对应的参考功率系数的方式是对第一类音频对应的音频样本集采用与所述待检测音频信号相同的采样处理以及傅里叶变换,得到音频样本集中各个音频样本信号(假设音频样本信号的数量为3)对应的功率谱,分别计算所述目标频点在各个功率谱中对应的功率,假设为P1,P2和P3,然后将P1,P2和P3分别与基准功率系数进行相除运算,得到目标频点对应的三个样本功率系数,假设为A1,A2和A3,最后按照预设功率系数确定规则从A1,A2和A3中选择目标频点的对应的参考功率系数。
在一个实施例中,所述预设功率系数确定规则可以是从各个样本功率系数中选择最大的样本功率系数作为目标频点对应的参考功率系数,假设A1,A2和A3中,A2最大,则智能终端确定A2为所述目标频点对应的参考功率系数。在其他实施例中,所述预设功率系数确定规则也可以是将各个样本功率系数进行平均运算,将得到的结果作为目标频点对应的参考功率系数。应当理解的,所述目标频点为待检测音频信号在频域空间内包括的频点中的任意一个频点,上述只是以目标频点为例说明当待检测音频信号为第一类音频时,确定所述目标频点的参考功率系数的方法,对于待检测音频信号中其他频点,均可采用与上述相同的方法确定出相对应的参考功率系数。
在通过步骤S501和S502确定了各个频点的功率系数和各自对应的参考功率系数之后,执行S503各个频点中每个频点对应的功率系数与相应的参考功率系数的比值,并将得到的各个比值分别与第二阈值进行比较,将大于第二阈值的比值对应的频点确定为啸叫频点。例如,假设对于各个频点中的频点F,计算F频点的功率系数和F频点对应的参考功率系数之间的比值,并将该比值与第二阈值相比较,如果该比值大于第二阈值,说明频点F为啸叫频点,如果该比值不大于第二阈值,说明F为正常频点。
S304、当所述待检测音频信号为第二类音频时,基于待检测音频信号在频域空间内包括的频点中的各个频点的功率值进行啸叫检测,确定待检测音频信号的啸叫频点。
在一个实施例中,当所述待检测音频信号为第二类音频时,所述第二类音频为清音,结合清音的特征,所述智能终端基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率值对所述待检测音频信号进行啸叫检测。具体地,所述步骤S304的实施方式可参考图6所示的流程图:S601、根据所述待检测音频信号在频域空间内的功率谱,确定所述待检测音频信号在频域空间内中包括的频点中的各个频点的功率值;S602、获取所述各个频点对应的参考功率值;S603、计算所述各个频点中每个频点的功率值与相应的参考功率值的比值;S604、将得到的比值中大于第三阈值的比值对应的频点确定为所述待检测音频信号的啸叫频点。
其中,所述各个频点对应于功率谱中功率曲线上的值即为各个频点对应的功率值,所述各个频点对应的参考功率值可以是对一定规模的第二类音频对应的音频样本信号中各个频点对应的多个样本功率值统计的结果,具体地,以所述待检测音频信号在频域空间内包括的频点中的目标频点为例,所述S602获取所述待检测音频信号在频域空间内包括的频点中各个频点对应的参考功率值的实施方式为:获取所述第二类音频对应的音频样本集,所述第二类音频对应的音频样本集中包括M个音频样本信号,所述M为正整数;针对所述目标频点,基于所述各个音频样本信号在频域空间内的功率谱计算所述目标频点在所述M个音频样本信号中的各个样本功率值;按照预设参考功率值确定规则从所述各个功率值中选择目标功率值作为所述目标频点对应的参考功率值。
概括来讲,以所述待检测音频信号在频域空间内包括的频点为目标频点为例,确定所述目标频点对应的参考功率值的方式是对第二类音频对应的音频样本集采用与所述待检测音频信号相同的采样处理以及傅里叶变换,得到音频样本集中各个音频样本信号(假设音频样本信号的数量为3)对应的功率谱,分别计算所述目标频点在各个功率谱中对应的样本功率值,假设为P1,P2和P3,然后按照参考功率确定规则从P1,P2和P3中选择目标频点对应的参考功率值。
在一个实施例中,所述参考功率确定规则可以是从各个样本功率值中选择最大功率值作为目标频点的参考功率值,假设目标频点在各个音频信号样本中对应的样本功率值分别为P1,P2和P3,其中P3最大,则将P3作为所述目标频点的参考功率值。在其他实施例中,所述参考功率确定规则也可以是将各个样本功率值进行平均运算,将得到的结果作为所述目标频点对应的参考功率值。应当理解的,所述目标频点为待检测音频信号在频域空间内包括的频点中的任意一个频点,上述只是以目标频点为例说明当待检测音频信号为第二类音频时,确定所述目标频点的参考功率值的方法,对于待检测音频信号中的其他频点,均可采用与上述相同的方法确定出相对应的参考功率值。
在一个实施例中,在通过步骤S601和S602确定了各个频点的功率值和各自对应的参考功率值之后,执行S603计算各个频点中每个频点对应的功率值与相应的参考功率值的比值,并将计算得到的各个比值分别与第三阈值进行比较,将大于第三阈值的比值对应的频点确定为啸叫频点。例如,假设对于各个频点中的频点F,计算F频点的功率值和F频点对应的参考功率值之间的比值,并将该比值与第三阈值相比较,如果该比值大于第三阈值,说明频点F为啸叫频点,如果该比值不大于第三阈值,说明F为正常频点。在一个实施例中,所述第三阈值可以是专业人员通过对大量第二类音频信号进行啸叫检测处理得出的经验值,所述第三阈值与所述第二阈值不相同。
综合上述对图3所示的语音处理方法的描述,作为一种可行的实施例,本发明实施例提供了图7所示的啸叫检测方法流程图,在图7中假设第一类音频为浊音,第二类音频为清音,智能终端获取到待检测音频信号之后,可通过傅里叶变换得到待检测音频信号在频域空间内的功率谱以及待检测音频信号在频域空间内包括的各个频点,基于预设的频率分界值将待检测音频信号包括的频点分为低频频点和高频频点,进而基于低频频点的能量和各个频点的总能量判别所述待检测音频信号是清音还是浊音。具体地,计算低频频点的能量与各个频点的总能量之间的比值,若该比值大于第一阈值,则确定所述待检测音频信号为浊音;若该比值不大于所述第一阈值,则确定所述待检测音频信号为清音。
当所述待检测音频信号为浊音时,智能终端基于各个频点的功率系数进行啸叫检测。具体地,智能终端首先对所述待检测音频信号进行基频检测,得到基频值,然后基于基频值获取前N个谐波的功率值,并将前N个谐波的功率值中最大的功率值作为基准功率值。将各个频点的功率值与所述基准功率值相除,得到各个频点的功率系数,再将各个频点的功率系数与各个频点对应的参考功率系数进行相除运算,得到运算结果。将所述运算结果与第二阈值进行比较,将大于第二阈值的比值对应的频点确定为待检测音频信号的啸叫频点,将不大于第二阈值的比值对应的频点确定为待检测音频信号的正常浊音频点。
当所述待检测音频信号为清音时,智能终端基于各个频点的功率值进行啸叫检测。具体地,智能终端通过功率谱获取各个频点对应的功率值,再将各个频点对应的功率值与相应频点对应的参考功率值进行相除运算,将相除运算得到的结果与第三阈值进行比较:将大于第三阈值的比值对应的频点确定为待检测音频信号的啸叫频点;将不大于所述第三阈值的比值对应的频点确定为待检测音频信号的正常清音频点。
本发明实施例中,智能终端获取到待检测音频信号之后,进一步获取所述待检测音频信号在频域空间内的功率谱和所述待检测音频信号对应的频率分界值,基于所述功率谱和所述频率分界值确定待检测音频信号所属的音频类别。在待检测音频信号为第一类音频时,基于待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对待检测音频信号进行啸叫检测,确定待检测音频信号包括的啸叫频点;在待检测音频信号为第二类音频时,基于待检测音频信号在频域空间内包括的频点中的各个频点的功率值对待检测音频信号进行啸叫检测,确定待检测音频信号包括的啸叫频点。在上述啸叫检测过程中,基于待检测音频信号的功率谱和待检测音频信号对应的频率分界值判断待检测音频信号所述的音频类别,利用了第一类音频和第二类音频在功率谱中的分布差异,操作简单,在准确地判别出待检测音频信号所属音频类别的同时也节省了智能终端的功耗开销。同时,本发明实施例针对不同类别的待检测音频信号,采用不同的啸叫检测规则进行啸叫检测,可提高啸叫检测的准确性。
基于上述方法实施例的描述,在一个实施例中,本发明实施例还提供了一种如图8所示的语音处理装置的结构示意图。如图8所示,本发明实施例中的语音处理装置,包括获取单元801和处理单元802,在本发明实施例中,所述语音处理装置可以设置在需要对语音进行处理的智能终端中。
在一个实施例中,所述获取单元801用于获取待检测音频信号;所述处理单元802用于确定所述待检测音频信号所属的音频类别;所述处理单元802还用于当所述待检测音频信号为第一类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点;所述处理单元802还用于当所述待检测音频信号为第二类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率值对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点。
在一个实施例中,所述处理单元802在确定所述待检测音频信号所属的音频类别时,执行如下操作:获取所述待检测音频信号在频域空间内的功率谱;获取所述待检测音频信号对应的频率分界值,所述频率分界值用于将所述待检测音频信号在频域空间内包括的频点划分为低频频点和高频频点;基于所述功率谱和所述频率分界值确定所述待检测音频信号所属的音频类别。
在一个实施例中,所述处理单元802在基于所述功率谱和所述频率分界值确定所述待检测音频信号所属的音频类别时,执行如下操作:基于所述功率谱确定所述待检测音频信号在频域空间内包括的频点的总能量;基于所述功率谱和所述频率分界值计算所述低频频点的能量;计算所述低频频点的能量与所述待检测音频信号在频域空间内包括的频点的总能量的比值;当所述比值大于第一阈值时,确定所述待检测音频信号为第一类音频;当所述比值不大于所述第一阈值时,确定所述待检测音频信号为第二类音频。
在一个实施例中,所述处理单元802在当所述待检测音频信号为第一类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点时,执行如下操作:确定所述待检测音频信号在频域空间内包括的频点中的各个频点对应的功率系数;确定所述各个频点对应的参考功率系数;计算所述各个频点中每个频点对应的功率系数与相应的参考功率系数的比值;将得到的各个比值中大于第二阈值的比值对应的频点确定为所述待检测音频信号的啸叫频点。
在一个实施例中,所述待检测音频信号在频域空间内包括的频点中包括目标频点,所述处理单元802在确定所述待检测音频信号在频域空间内包括的频点中的各个频点对应的功率系数时,执行如下操作:基于功率谱和预设规则确定所述待检测音频信号的基准功率值;从所述功率谱中确定所述目标频点的功率值;将所述目标频点对应的功率值与所述基准功率值进行相除运算,得到的运算结果作为所述目标频点对应的功率系数。
在一个实施例中,所述处理单元802在基于功率谱和预设规则确定基准功率值时,执行如下操作:对所述待检测音频信号进行基频提取,得到基频值;基于所述基频值确定所述待检测音频信号包括的前N个谐波,N为大于1的整数;基于功率谱获取所述前N个谐波中各个谐波的功率值;将所述各个谐波的功率值中最大的功率值确定为基准功率值。
在一个实施例中,所述处理单元802在确定所述各个频点对应的参考功率系数时,执行如下操作:获取所述第一类音频对应的音频样本集,所述音频样本集包括M个音频样本信号,M为正整数;针对所述目标频点,基于所述M个音频样本在频域空间内的功率谱和所述基准功率值,计算所述目标频点在所述M个音频样本信号中的各个样本功率系数;按照预设功率系数确定规则从所述各个样本功率系数中选择目标功率系数作为所述目标频点对应的参考功率系数。
在一个实施例中,所述处理单元802在当所述待检测音频信号为第二类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率值对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点时,执行如下操作:根据所述待检测音频信号在频域空间内的功率谱,确定所述待检测音频信号中包括的频点中的各个频点的功率值;获取所述各个频点对应的参考功率值;计算所述各个频点中每个频点的功率值与相应的参考功率值的比值;将得到的比值中大于第三阈值的比值对应的频点确定为所述待检测音频信号的啸叫频点。
在一个实施例中,所述待检测音频信号在频域空间内包括的频点中包括目标频点,所述处理单元802在获取所述待检测音频信号在频域空间内包括的频点中的各个频点对应的参考功率值时,执行如下操作:获取所述第二类音频对应的音频样本集,所述第二类音频对应的音频样本集中包括M个音频样本信号,所述M为正整数;针对所述目标频点,基于所述各个音频样本信号在频域空间内的功率谱计算所述目标频点在所述M个音频样本信号中的各个样本功率值;按照预设参考功率值确定规则从所述各个样本功率值中选择目标功率值作为所述目标频点对应的参考功率值。
本发明实施例中获取单元801获取到待检测音频信号之后,处理单元802确定所述待检测音频信号所属的音频类别,在确定出所述待检测音频信号为第一类音频的情况下,处理单元802基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对所述待检测音频信号进行啸叫检测,在确定出所述待检测音频信号为第二类音频的情况下,处理单元802则基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率值对所述检测音频新高进行啸叫检测,实现了基于待检测音频信号所属的不同音频类别采用不同的啸叫检测规则进行检测,可提高啸叫检测的准确性。
请参见图9,为本发明实施例供的一种智能终端的结构示意图。如图9所示的智能终端包括:一个或多个处理器901、一个或多个存储器902、一个或多个输入设备903和一个或多个输出设备904,所述处理器901、存储器902、所述输入设备903和所述输出设备904通过总线905相连,存储器902用于存储计算机程序,所述计算机程序包括程序指令,处理器901用于执行所述存储器902存储程序指令。
所述输入设备903可包括音频输入接口比如麦克风,用于采集音频信息;所述输出设备904可包括音频输出设备比如扬声器,用于输出音频信息。
所述存储器902可以包括易失性存储器(volatile memory),如随机存取存储器(random-access memory,RAM);存储器902也可以包括非易失性存储器(non-volatilememory),如快闪存储器(flash memory),固态硬盘(solid-state drive,SSD)等;存储器902还可以包括上述种类的存储器的组合。
所述处理器901可以是中央处理器(Central Processing Unit,CPU)。所述处理器901还可以进一步包括硬件芯片。上述硬件芯片可以是专用集成电路(application-specific integrated circuit,ASIC),可编程逻辑器件(programmable logic device,PLD)等。该PLD可以是现场可编程逻辑门阵列(field-programmable gate array,FPGA),通用阵列逻辑(generic array logic,GAL)等。所述处理器901也可以为上述结构的组合。
本发明实施例中,所述存储器902用于存储计算机程序,所述计算机程序包括程序指令,所述处理器901用于执行存储器902存储的程序指令,用来实现上述语音处理方法实施例中的相应方法的步骤。
在一个实施例中,所述处理器901被配置调用所述程序指令用于:获取待检测音频信号,并确定所述待检测音频信号所属的音频类别;当所述待检测音频信号为第一类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点;当所述待检测音频信号为第二类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率值对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点。
在一个实施例中,所述处理器901在确定所述待检测音频信号所属的音频类别时,执行如下操作:获取所述待检测音频信号在频域空间内的功率谱;获取所述待检测音频信号对应的频率分界值,所述频率分界值用于将所述待检测音频信号在频域空间内包括的频点划分为低频频点和高频频点;基于所述功率谱和所述频率分界值确定所述待检测音频信号所属的音频类别。
在一个实施例中,所述处理器901在基于所述功率谱和所述频率分界值确定所述待检测音频信号所属的音频类别时,执行如下操作:基于所述功率谱确定所述待检测音频信号在频域空间内包括的频点的总能量;基于所述功率谱和所述频率分界值计算所述低频频点的能量;计算所述低频频点的能量与所述待检测音频信号在频域空间内包括的频点的总能量的比值;当所述比值大于第一阈值时,确定所述待检测音频信号为第一类音频;当所述比值不大于所述第一阈值时,确定所述待检测音频信号为第二类音频。
在一个实施例中,所述处理器901当所述待检测音频信号为第一类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点时,执行如下操作:确定所述待检测音频信号在频域空间内包括的频点中的各个频点对应的功率系数;确定所述各个频点对应的参考功率系数;计算所述各个频点中每个频点对应的功率系数与相应的参考功率系数的比值;将得到的各个比值中大于第二阈值的比值对应的频点确定为所述待检测音频信号的啸叫频点。
在一个实施例中,所述待检测音频信号在频域空间内包括的频点中包括目标频点,所述处理器901在确定所述待检测音频信号在频域空间内包括的频点中的各个频点对应的功率系数时,执行如下操作:基于功率谱和预设规则确定所述待检测音频信号的基准功率值;从所述功率谱中确定所述目标频点的功率值;将所述目标频点对应的功率值与所述基准功率值进行相除运算,得到的运算结果作为所述目标频点对应的功率系数。
在一个实施例中,所述处理器901基于功率谱和预设规则确定基准功率值时,执行如下操作:对所述待检测音频信号进行基频提取,得到基频值;基于所述基频值确定所述待检测音频信号包括的前N个谐波,N为大于1的整数;基于功率谱获取所述前N个谐波中各个谐波的功率值;将所述各个谐波的功率值中最大的功率值确定为基准功率值。
在一个实施例中,所述处理器901在确定所述各个频点对应的参考功率系数时,执行如下操作:获取所述第一类音频对应的音频样本集,所述音频样本集包括M个音频样本信号,M为正整数;针对所述目标频点,基于所述M个音频样本在频域空间内的功率谱和所述基准功率值,计算所述目标频点在所述M个音频样本信号中的各个样本功率系数;按照预设功率系数确定规则从所述各个样本功率系数中选择目标功率系数作为所述目标频点对应的参考功率系数。
在一个实施例中,所述处理器901在当所述待检测音频信号为第二类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率值对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点时,执行如下操作:根据所述待检测音频信号在频域空间内的功率谱,确定所述待检测音频信号中包括的频点中的各个频点的功率值;获取所述各个频点对应的参考功率值;计算所述各个频点中每个频点的功率值与相应的参考功率值的比值;将得到的比值中大于第三阈值的比值对应的频点确定为所述待检测音频信号的啸叫频点。
在一个实施例中,所述待检测音频信号在频域空间内包括的频点中包括目标频点,所述处理器901在获取所述待检测音频信号在频域空间内包括的频点中的各个频点对应的参考功率值时,执行如下操作:获取所述第二类音频对应的音频样本集,所述第二类音频对应的音频样本集中包括M个音频样本信号,所述M为正整数;针对所述目标频点,基于所述各个音频样本信号在频域空间内的功率谱计算所述目标频点在所述M个音频样本信号中的各个样本功率值;按照预设参考功率值确定规则从所述各个样本功率值中选择目标功率值作为所述目标频点对应的参考功率值。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所揭露的仅为本发明部分实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (11)

1.一种语音处理方法,其特征在于,包括:
获取待检测音频信号,并确定所述待检测音频信号所属的音频类别;
当所述待检测音频信号为第一类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点;所述第一类音频为浊音;各个频点中目标频点的功率系数是根据所述目标频点在功率谱中的功率值、与所述待检测音频信号的基准功率值相除得到的;
当所述待检测音频信号为第二类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率值对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点,所述第二类音频为清音;
其中,确定所述待检测音频信号的基准功率值包括:对所述待检测音频信号进行基频提取,得到基频值;基于所述基频值确定所述待检测音频信号包括的前N个谐波;基于功率谱获取所述前N个谐波中各个谐波的功率值;将所述各个谐波中的功率值中最大的功率值确定为基准功率值。
2.如权利要求1所述的方法,其特征在于,所述确定所述待检测音频信号所属的音频类别,包括:
获取所述待检测音频信号在频域空间内的功率谱;
获取所述待检测音频信号对应的频率分界值,所述频率分界值用于将所述待检测音频信号在频域空间内包括的频点划分为低频频点和高频频点;
基于所述功率谱和所述频率分界值确定所述待检测音频信号所属的音频类别。
3.如权利要求2所述的方法,其特征在于,所述基于所述功率谱和所述频率分界值确定所述待检测音频信号所属的音频类别,包括:
基于所述功率谱确定所述待检测音频信号在频域空间内包括的频点的总能量;
基于所述功率谱和所述频率分界值计算所述低频频点的能量;
计算所述低频频点的能量与所述待检测音频信号在频域空间内包括的频点的总能量的比值;
当所述比值大于第一阈值时,确定所述待检测音频信号为第一类音频;当所述比值不大于所述第一阈值时,确定所述待检测音频信号为第二类音频。
4.如权利要求1-3任一项所述的方法,其特征在于,当所述待检测音频信号为第一类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点,包括:
确定所述待检测音频信号在频域空间内包括的频点中的各个频点对应的功率系数;
确定所述各个频点对应的参考功率系数;
计算所述各个频点中每个频点对应的功率系数与相应的参考功率系数的比值;
将得到的各个比值中大于第二阈值的比值对应的频点确定为所述待检测音频信号的啸叫频点。
5.如权利要求4所述的方法,其特征在于,所述待检测音频信号在频域空间内包括的频点中包括目标频点,所述确定所述待检测音频信号在频域空间内包括的频点中的各个频点对应的功率系数,包括:
基于功率谱和预设规则确定所述待检测音频信号的基准功率值;
从所述功率谱中确定所述目标频点的功率值;
将所述目标频点对应的功率值与所述基准功率值进行相除运算,得到的运算结果作为所述目标频点对应的功率系数。
6.如权利要求5所述的方法,其特征在于,所述确定所述各个频点对应的参考功率系数,包括:
获取所述第一类音频对应的音频样本集,所述音频样本集包括M个音频样本信号,M为正整数;
针对所述目标频点,基于所述M个音频样本在频域空间内的功率谱和所述基准功率值,计算所述目标频点在所述M个音频样本信号中的各个样本功率系数;
按照预设功率系数确定规则从所述各个样本功率系数中选择目标功率系数作为所述目标频点对应的参考功率系数。
7.如权利要求1-3任一项所述的方法,其特征在于,当所述待检测音频信号为第二类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率值对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点,包括:
根据所述待检测音频信号在频域空间内的功率谱,确定所述待检测音频信号在频域空间内包括的频点中的各个频点的功率值;
获取所述各个频点对应的参考功率值;
计算所述各个频点中每个频点的功率值与相应的参考功率值的比值;
将得到的比值中大于第三阈值的比值对应的频点确定为所述待检测音频信号的啸叫频点。
8.如权利要求7所述的方法,其特征在于,所述待检测音频信号在频域空间内包括的频点中包括目标频点,所述获取所述各个频点对应的参考功率值,包括:
获取所述第二类音频对应的音频样本集,所述第二类音频对应的音频样本集中包括M个音频样本信号,所述M为正整数;
针对所述目标频点,基于各个音频样本信号在频域空间内的功率谱计算所述目标频点在所述M个音频样本信号中的各个样本功率值;
按照预设参考功率值确定规则从所述各个样本功率值中选择目标功率值作为所述目标频点对应的参考功率值。
9.一种语音处理装置,其特征在于,包括:
获取单元,用于获取待检测音频信号;
处理单元,用于确定所述待检测音频信号所属的音频类别;
所述处理单元,还用于当所述待检测音频信号为第一类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率系数对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点;所述第一类音频为浊音;各个频点中目标频点的功率系数是根据所述目标频点在功率谱中的功率值、与所述待检测音频信号的基准功率值相除得到的;
所述处理单元,还用于当所述待检测音频信号为第二类音频时,基于所述待检测音频信号在频域空间内包括的频点中的各个频点的功率值对所述待检测音频信号进行啸叫检测,确定所述待检测音频信号的啸叫频点,所述第二类音频为清音;
所述处理单元,还用于对所述待检测音频信号进行基频提取,得到基频值;基于所述基频值确定所述待检测音频信号包括的前N个谐波;基于功率谱获取所述前N个谐波中各个谐波的功率值;将所述各个谐波中的功率值中最大的功率值确定为基准功率值。
10.一种智能终端,其特征在于,包括处理器、输入设备、输出设备和存储器,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1-8任一项所述的语音处理方法。
11.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行如权利要求1-8任一项所述的语音处理方法。
CN201910067864.8A 2019-01-24 2019-01-24 语音处理方法、装置及智能终端 Active CN111477246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910067864.8A CN111477246B (zh) 2019-01-24 2019-01-24 语音处理方法、装置及智能终端

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910067864.8A CN111477246B (zh) 2019-01-24 2019-01-24 语音处理方法、装置及智能终端

Publications (2)

Publication Number Publication Date
CN111477246A CN111477246A (zh) 2020-07-31
CN111477246B true CN111477246B (zh) 2023-11-17

Family

ID=71743551

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910067864.8A Active CN111477246B (zh) 2019-01-24 2019-01-24 语音处理方法、装置及智能终端

Country Status (1)

Country Link
CN (1) CN111477246B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113316075B (zh) * 2021-05-11 2023-02-14 紫光展锐(重庆)科技有限公司 一种啸叫检测方法、装置及电子设备
CN113870885B (zh) * 2021-12-02 2022-02-22 北京百瑞互联技术有限公司 蓝牙音频啸叫检测和抑制方法、装置、介质及设备

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06164278A (ja) * 1992-11-25 1994-06-10 Matsushita Electric Ind Co Ltd ハウリング抑制装置
US5442712A (en) * 1992-11-25 1995-08-15 Matsushita Electric Industrial Co., Ltd. Sound amplifying apparatus with automatic howl-suppressing function
JP2010166225A (ja) * 2009-01-14 2010-07-29 Yamaha Corp ハウリング抑制装置
CN105895115A (zh) * 2016-04-01 2016-08-24 北京小米移动软件有限公司 啸叫的判定方法及装置
CN106488052A (zh) * 2015-08-27 2017-03-08 成都鼎桥通信技术有限公司 一种啸叫场景识别方法及设备
CN107180643A (zh) * 2016-03-11 2017-09-19 深圳市有信网络技术有限公司 一种啸叫声检测和消除系统
CN107919134A (zh) * 2016-10-10 2018-04-17 杭州海康威视数字技术股份有限公司 啸叫检测方法及装置和啸叫抑制方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7895036B2 (en) * 2003-02-21 2011-02-22 Qnx Software Systems Co. System for suppressing wind noise

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06164278A (ja) * 1992-11-25 1994-06-10 Matsushita Electric Ind Co Ltd ハウリング抑制装置
US5442712A (en) * 1992-11-25 1995-08-15 Matsushita Electric Industrial Co., Ltd. Sound amplifying apparatus with automatic howl-suppressing function
JP2010166225A (ja) * 2009-01-14 2010-07-29 Yamaha Corp ハウリング抑制装置
CN106488052A (zh) * 2015-08-27 2017-03-08 成都鼎桥通信技术有限公司 一种啸叫场景识别方法及设备
CN107180643A (zh) * 2016-03-11 2017-09-19 深圳市有信网络技术有限公司 一种啸叫声检测和消除系统
CN105895115A (zh) * 2016-04-01 2016-08-24 北京小米移动软件有限公司 啸叫的判定方法及装置
CN107919134A (zh) * 2016-10-10 2018-04-17 杭州海康威视数字技术股份有限公司 啸叫检测方法及装置和啸叫抑制方法及装置

Also Published As

Publication number Publication date
CN111477246A (zh) 2020-07-31

Similar Documents

Publication Publication Date Title
US10504539B2 (en) Voice activity detection systems and methods
EP2151822B1 (en) Apparatus and method for processing and audio signal for speech enhancement using a feature extraction
CN104520925B (zh) 噪声降低增益的百分位滤波
CN103325380B (zh) 用于信号增强的增益后处理
EP2546831A1 (en) Noise suppression device
CN105118522B (zh) 噪声检测方法及装置
Kim et al. Nonlinear enhancement of onset for robust speech recognition.
Saki et al. Automatic switching between noise classification and speech enhancement for hearing aid devices
EP2083417A2 (en) Sound processing device and program
CN112565981B (zh) 啸叫抑制方法、装置、助听器及存储介质
CN112700787B (zh) 一种降噪方法、非易失性可读存储介质及电子设备
RU2411595C2 (ru) Улучшение разборчивости речи в мобильном коммуникационном устройстве путем управления работой вибратора в зависимости от фонового шума
CN102214464A (zh) 音频信号的瞬态检测方法以及基于该方法的时长调整方法
CN111477246B (zh) 语音处理方法、装置及智能终端
EP3136389B1 (en) Noise detection method and apparatus
US9749741B1 (en) Systems and methods for reducing intermodulation distortion
US8423357B2 (en) System and method for biometric acoustic noise reduction
CN112967738A (zh) 人声检测方法、装置及电子设备和计算机可读存储介质
US11380312B1 (en) Residual echo suppression for keyword detection
CN113012710A (zh) 一种音频降噪方法及存储介质
CN112151055A (zh) 音频处理方法及装置
Sehgal et al. Utilization of two microphones for real-time low-latency audio smartphone apps
CN114333912B (zh) 语音激活检测方法、装置、电子设备和存储介质
CN107750038B (zh) 音量调节方法、装置、设备及存储介质
CN113316075B (zh) 一种啸叫检测方法、装置及电子设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40026159

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant