CN114299978A - 音频信号的处理方法、装置、设备及存储介质 - Google Patents

音频信号的处理方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN114299978A
CN114299978A CN202111486497.9A CN202111486497A CN114299978A CN 114299978 A CN114299978 A CN 114299978A CN 202111486497 A CN202111486497 A CN 202111486497A CN 114299978 A CN114299978 A CN 114299978A
Authority
CN
China
Prior art keywords
audio signal
target audio
noise
signal
covariance matrix
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111486497.9A
Other languages
English (en)
Inventor
纳跃跃
王子腾
付强
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba China Co Ltd
Original Assignee
Alibaba China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba China Co Ltd filed Critical Alibaba China Co Ltd
Priority to CN202111486497.9A priority Critical patent/CN114299978A/zh
Publication of CN114299978A publication Critical patent/CN114299978A/zh
Priority to PCT/CN2022/130736 priority patent/WO2023103693A1/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/0308Voice signal separating characterised by the type of parameter measurement, e.g. correlation techniques, zero crossing techniques or predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Quality & Reliability (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

本公开涉及一种音频信号的处理方法、装置、设备及存储介质。本公开通过获取目标音频信号,根据噪声协方差矩阵对所述目标音频信号进行处理,得到噪声抑制后的目标音频信号。对所述噪声抑制后的目标音频信号进行特征提取,得到多个特征向量,并将所述多个特征向量合成为单一向量。进一步,根据单一向量可以确定出该目标音频信号中是否包括语音信号。如果该目标音频信号中不包括语音信号,则对噪声协方差矩阵进行更新,使得更新后的噪声协方差矩阵尽可能的不包含语音成分,尽可能的抑制噪声而不抑制有用的语音成分。因此,当电子设备采集到的音频信号中存在较大的噪声时,可有效抑制该音频信号中的噪声,从而可以识别出用户语音,进行人机语音交互。

Description

音频信号的处理方法、装置、设备及存储介质
技术领域
本公开涉及信息技术领域,尤其涉及一种音频信号的处理方法、装置、设备及存储介质。
背景技术
随着科技的不断发展,语音交互式的电子设备琳琅满目。具体的,用户可以通过语音交互的方式控制电子设备,例如电子设备可以通过语音识别技术将用户的语音命令转换为文字,并通过语义理解技术理解命令的意图,从而做出相应的反馈。因此,人机语音交互的前提是电子设备能够听清语音命令。
但是,本申请的发明人发现,一些电子设备本身会发出较大的噪声,例如扫地机器人,从而导致电子设备采集到的音频信号中存在较大的噪声,而无法对用户的语音命令进行识别,从而导致人机语音交互无法正常进行。
发明内容
为了解决上述技术问题或者至少部分地解决上述技术问题,本公开提供了一种音频信号的处理方法、装置、设备及存储介质,通过更新后的噪声协方差矩阵可以有效的抑制该音频信号中的噪声,从而使得电子设备可以识别出用户的语音,进而正常的进行人机语音交互。
第一方面,本公开实施例提供一种音频信号的处理方法,包括:
获取目标音频信号;
根据噪声协方差矩阵对所述目标音频信号进行处理,得到噪声抑制后的目标音频信号;
对所述噪声抑制后的目标音频信号进行特征提取,得到多个特征向量;
将所述多个特征向量合成为单一向量;
根据所述单一向量确定所述目标音频信号中是否包括语音信号;
若所述目标音频信号中不包括语音信号,则更新所述噪声协方差矩阵,更新后的所述噪声协方差矩阵用于对所述目标音频信号的下一个音频信号进行处理。
第二方面,本公开实施例提供一种音频信号的处理装置,包括:
获取模块,用于获取目标音频信号;
处理模块,用于根据噪声协方差矩阵对所述目标音频信号进行处理,得到噪声抑制后的目标音频信号;
特征提取模块,用于对所述噪声抑制后的目标音频信号进行特征提取,得到多个特征向量;
合成模块,用于将所述多个特征向量合成为单一向量;
确定模块,用于根据所述单一向量确定所述目标音频信号中是否包括语音信号;
更新模块,用于当所述目标音频信号中不包括语音信号时,更新所述噪声协方差矩阵,更新后的所述噪声协方差矩阵用于对所述目标音频信号的下一个音频信号进行处理。
第三方面,本公开实施例提供一种电子设备,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如第一方面所述的方法。
第四方面,本公开实施例提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现第一方面所述的方法。
本公开实施例提供的音频信号的处理方法、装置、设备及存储介质,通过获取目标音频信号,根据噪声协方差矩阵对所述目标音频信号进行处理,得到噪声抑制后的目标音频信号。对所述噪声抑制后的目标音频信号进行特征提取,得到多个特征向量,并将所述多个特征向量合成为单一向量。进一步,根据单一向量可以确定出该目标音频信号中是否包括语音信号。如果该目标音频信号中不包括语音信号,则说明该目标音频信号中包括静音、噪声等非语音信号,此时对噪声协方差矩阵进行更新,使得更新后的噪声协方差矩阵尽可能的不包含语音成分,从而使得更新后的噪声协方差矩阵尽可能的抑制噪声而不抑制有用的语音成分。因此,当电子设备采集到的音频信号中存在较大的噪声时,通过更新后的噪声协方差矩阵可以有效的抑制该音频信号中的噪声,从而使得电子设备可以识别出用户的语音,进而正常的进行人机语音交互。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的音频信号的处理方法流程图;
图2为本公开实施例提供的应用场景的示意图;
图3为本公开另一实施例提供的音频信号的处理方法流程图;
图4为本公开另一实施例提供的音频信号的处理方法流程图;
图5为本公开另一实施例提供的音频信号的处理方法流程图;
图6为本公开实施例提供的音频信号的处理定位装置的结构示意图;
图7为本公开实施例提供的电子设备实施例的结构示意图。
具体实施方式
为了能够更清楚地理解本公开的上述目的、特征和优点,下面将对本公开的方案进行进一步描述。需要说明的是,在不冲突的情况下,本公开的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本公开,但本公开还可以采用其他不同于在此描述的方式来实施;显然,说明书中的实施例只是本公开的一部分实施例,而不是全部的实施例。
随着计算机、互联网、移动互联网、物联网的发展,以及相关科学技术的进步和特定业务领域数据的积累,人们所常用的电子设备也在从过去的电脑、手机,向着更多样化、小型化、可穿戴的方向发展。过去基于键盘鼠标、遥控器等单一的人机交互方式已经不能满足日益多样化的电子设备的需求。语音是人与人之间交互的最自然的方式,所以也必然会成为未来最有效的人机交互方式之一。
具体的,用户可以通过语音交互的方式控制电子设备,例如电子设备可以通过语音识别技术将用户的语音命令转换为文字,并通过语义理解技术理解命令的意图,从而做出相应的反馈。因此,人机语音交互的前提是电子设备能够听清语音命令。但是,一些电子设备本身会发出较大的噪声,例如扫地机器人,从而导致电子设备采集到的音频信号中存在较大的噪声,而无法对用户的语音命令进行识别,从而导致人机语音交互无法正常进行。
通常情况下,电子设备上的麦克风采集到的信号的信噪比较低,不利于后续的识别和唤醒处理。语音增强的作用就是通过算法处理,提高目标语音的信噪比和语音可懂度,便于后续的人机交互。例如,扫地机器人自身会发出噪声,例如电机声、各种机械摩擦声等。由于拾音设备安装在扫地机器人上,其距离噪声源的距离要远小于目标说话人的距离,所以采集到的原始信号往往信噪比较低,不利于后续处理。所以需要对扫地机器人的自噪声进行抑制即自噪声抑制(ego-noise suppression),从而对目标语音进行增强。因此,本公开实施例不仅可以适用于扫地机器人的自噪声抑制,还可以适用于其他在较高噪音环境下工作的电子设备,例如无人机、导购机器人、传输机器人等,这些电子设备采集到的音频信号的信噪比通常是较低的,也就是说,本公开实施例还可以适用于一些低信噪比的电子设备,例如,采集到的音频信号的信噪比低于阈值的电子设备。另外,由于本公开实施例提供的方法所需的算力较低,因此,还可以适用于各种低资源的嵌入式系统。
针对该问题,本公开实施例提供了一种音频信号的处理方法,下面结合具体的实施例对该方法进行介绍。
图1为本公开实施例提供的音频信号的处理方法流程图。该方法可以由如上所述的低信噪比的电子设备来执行,也可以由服务器来执行。在本公开实施例中,低信噪比的电子设备可以是一些工作在较高噪音环境下的电子设备,例如,无人机、可移动机器人、以及一些较高噪音环境下的智能家居设备等。其中,一些智能家居设备也在逐步向着语音化、智能化的方向发展,例如扫地机器人。下面以扫地机器人为例进行示意性说明,例如图2所示的扫地机器人21可以执行本公开实施例提供的音频信号的处理方法。或者,扫地机器人21和服务器22可以进行信息交互,从而使得服务器22可以执行本公开实施例提供的音频信号的处理方法。如图1所示,该方法具体步骤如下:
S101、获取目标音频信号。
如图2所示,扫地机器人21上可以设置有音频采集装置,该音频采集装置也可以称为拾音设备,具体可以是麦克风。另外,扫地机器人21上可以设置有一个或多个麦克风。例如,麦克风23可以设置在扫地机器人21的边缘部分,从而有效采集音频信号。
在一种可行的实现方式中,扫地机器人21内的处理装置例如处理器可以获取麦克风23采集到的音频信号,该音频信号可以是一个较长的音频信号。此时,处理器可以将该音频信号切分为多个片段,并且给每个片段分配一个标识,例如序号或索引号,每个片段的序号或索引号可以与该片段被采集时的时间有关,例如采集时间越早,片段的序号越小;采集时间越晚,片段的序号越大。此处可以将多个片段中的任意一个片段记为目标音频信号。
在另一种可行的实现方式中,麦克风23采集到的音频信号较短,例如,麦克风23可以在很短的时间内采集到一个音频信号,此时可以将麦克风23每次采集到的音频信号记为一个目标音频信号。在这种情况下,每个目标音频信号也会对应有一个标识信息,例如序号,该序号也可以与采集时间有关。
可以理解的是,在一些场景下,麦克风23可以实时的采集音频信号,此时,扫地机器人21内的处理器可以将每个目标音频信号作为一个单元,通过对每个单元依次进行处理,从而实现对实时的音频信号的处理。
S102、根据噪声协方差矩阵对所述目标音频信号进行处理,得到噪声抑制后的目标音频信号。
目前,扫地机器人21在工作状态时其自身会发出一些噪声,例如,机械噪声、电机噪声、吸尘器噪声等,并且这些噪声通常较大。而麦克风23又安装在扫地机器人21的机身上,距离这些噪声源较近。因此,麦克风23采集到的音频信号中总会夹杂有这些噪声。因此,当处理器获取到目标音频信号后,可以根据噪声协方差矩阵对该目标音频信号进行噪声抑制,也就是说,对该目标音频信号中的噪声成分进行抑制,从而得到噪声抑制后的目标音频信号。可以理解的是,在一些情况中,该目标音频信号中可能包括噪声,而没有有用的语音成分,例如用户语音。在另一些情况中,该目标音频信号中可能同时有噪声和有用的语音成分。或者在其他一些实施例中,该目标音频信号中可能包括静音。因此,为了区分,可以将有用的语音成分记为语音信号,将除语音信号之外的其他成分例如噪声、静音等记为非语音信号。
S103、对所述噪声抑制后的目标音频信号进行特征提取,得到多个特征向量。
例如,扫地机器人21中的处理器可以对噪声抑制后的目标音频信号进行特征提取,得到多个特征向量。
S104、将所述多个特征向量合成为单一向量。
例如,处理器可以将多个特征向量合成为单一向量。
S105、根据所述单一向量确定所述目标音频信号中是否包括语音信号。
例如,处理器可以根据该单一向量确定目标音频信号中是否包括语音信号。
S106、若所述目标音频信号中不包括语音信号,则更新所述噪声协方差矩阵,更新后的所述噪声协方差矩阵用于对所述目标音频信号的下一个音频信号进行处理。
如果目标音频信号中不包括语音信号,则说明该目标音频信号中可能包括静音、噪声等非语音信号。在这种情况下,可以对噪声协方差矩阵进行更新,使得更新后的噪声协方差矩阵可以对目标音频信号的下一个音频信号进行处理。另外,如果该目标音频信号中包括语音信号,则不更新噪声协方差矩阵。
此外,在其他实施例中,上述S101-S106还可以有服务器来执行,例如图2所示,扫地机器人21可以将其采集到的音频信号发送给服务器22,从而使得服务器可以执行S101-S106所述的方法。
本公开实施例通过获取目标音频信号,根据噪声协方差矩阵对所述目标音频信号进行处理,得到噪声抑制后的目标音频信号。对所述噪声抑制后的目标音频信号进行特征提取,得到多个特征向量,并将所述多个特征向量合成为单一向量。进一步,根据单一向量可以确定出该目标音频信号中是否包括语音信号。如果该目标音频信号中不包括语音信号,则说明该目标音频信号中包括静音、噪声等非语音信号,此时对噪声协方差矩阵进行更新,使得更新后的噪声协方差矩阵尽可能的不包含语音成分,从而使得更新后的噪声协方差矩阵尽可能的抑制噪声而不抑制有用的语音成分。因此,当电子设备采集到的音频信号中存在较大的噪声时,通过更新后的噪声协方差矩阵可以有效的抑制该音频信号中的噪声,从而使得电子设备可以识别出用户的语音,进而正常的进行人机语音交互。
可以理解的是,由于扫地机器人21或服务器22以目标音频信号为单位进行处理,因此,扫地机器人21在逐一处理每个目标音频信号的过程中,噪声协方差矩阵可以不断的被更新。也就是说,S106所述的更新所述噪声协方差矩阵是对噪声协方差矩阵的一次更新,本次更新后的噪声协方差矩阵可以作为下一次更新的对象,从而不断迭代。在不断迭代的过程中,噪声协方差矩阵对噪声的抑制能力会越来越强。
如图3所示,扫地机器人21或服务器22可以实现语音增强和关键词检测等功能。以扫地机器人为例,扫地机器人可以包括更新模块、噪声抑制模块、特征提取模块、自注意机制模块、声学模型、解码器和置信度计算模块。其中,更新模块可以根据解码器的反馈信息确定是否对噪声协方差矩阵进行更新,例如当该反馈信息表示目标音频信号中不包括语音信号时,更新模块可以对噪声协方差矩阵进行更新。当该反馈信息表示目标音频信号中包括语音信号时,更新模块不对噪声协方差矩阵进行更新。x表示输入的目标音频信号,例如,扫地机器人21可以设置有6个麦克风,6个麦克风可以同时采集音频信号,从而得到6路音频信号,因此该目标音频信号可以是6路音频信号。当x输入到更新模块时,更新模块可以根据解码器的反馈信息确定是否对噪声协方差矩阵进行更新。更新模块可以输出x和Φ,Φ表示噪声协方差矩阵,更新模块输出的噪声协方差矩阵可能是更新后的噪声协方差矩阵,也可能是没被更新的噪声协方差矩阵。y表示噪声抑制模块的输出,即噪声抑制后的目标音频信号。f1,…,fN表示特征提取模块的输出。
假设当前时间输入到更新模块的目标音频信号是
Figure BDA0003397709760000061
Figure BDA0003397709760000062
表示当前时间输入的目标音频信号的标识,该标识可以是序号或索引号。另外,
Figure BDA0003397709760000063
也可以表示当前时间或该目标音频信号的采集时间。当前时间更新模块输出的噪声协方差矩阵是
Figure BDA0003397709760000064
噪声抑制模块可以根据
Figure BDA0003397709760000065
Figure BDA0003397709760000066
进行噪声抑制,得到噪声抑制后的目标音频信号
Figure BDA0003397709760000067
n的取值可以是1,2…N,其中,N是噪声抑制模块的输出个数,例如,噪声抑制模块可以输出3路信号,则n的取值是1、2、3。因此,
Figure BDA0003397709760000071
的信噪比高于
Figure BDA0003397709760000072
的信噪比。其中,噪声抑制模块根据
Figure BDA0003397709760000073
Figure BDA0003397709760000074
计算得到
Figure BDA0003397709760000075
的过程可以通过如下公式(1)和(2)表示。
Figure BDA0003397709760000076
Figure BDA0003397709760000077
其中,
Figure BDA0003397709760000078
表示波束形成器,当噪声抑制模块采用多指向(Multi-look)最小方差无畸变响应(Minimum VavianceDistortionlessReponse,MVDR)波束形成算法计算
Figure BDA0003397709760000079
时,
Figure BDA00033977097600000710
可以是Multi-look MVDR波束形成器。∈表示已知数。I表示单位矩阵。
Figure BDA00033977097600000711
表示导向向量。
Figure BDA00033977097600000712
表示扫地机器人的方位角。θ表示导向向量的仰角。γ表示参数。
噪声抑制模块的输出
Figure BDA00033977097600000713
可以作为特征提取模块的输入,由于噪声抑制模块可以输出3路信号,因此,特征提取模块可以针对该3路信号中的每路信号,输出每路信号的特征向量,即特征提取模块可以输出3个特征向量,该3个特征向量可以记为f1,...,fN,N=3。当输入为
Figure BDA00033977097600000714
的情况下,f1,...,fN可以记为
Figure BDA00033977097600000715
n的取值是1、2、3。进一步,自注意机制模块可以将该3个特征向量合成为一个特征向量,合成后的特征向量记为单一向量
Figure BDA00033977097600000716
即当输入为
Figure BDA00033977097600000717
的情况下,
Figure BDA00033977097600000718
相当于图3中的
Figure BDA00033977097600000719
具体的,自注意机制模块可以对
Figure BDA00033977097600000720
进行加权求和得到
Figure BDA00033977097600000721
例如,
Figure BDA00033977097600000722
可以通过如下公式(3)、(4)、(5)得到:
Figure BDA00033977097600000723
Figure BDA00033977097600000724
Figure BDA0003397709760000081
其中,v表示已知向量。
Figure BDA0003397709760000082
表示
Figure BDA0003397709760000083
的加权系数。
在上述实施例的基础上,根据所述单一向量确定所述目标音频信号中是否包括语音信号可以包括如图4所示的如下几个步骤:
S401、将所述单一向量输入声学模型,所述声学模型包括多个子模型,所述声学模型输出多个第一条件概率,所述多个第一条件概率和所述多个子模型一一对应,每个第一条件概率用于表示在任一子模型条件下观测到所述单一向量的概率,所述多个子模型包括分别用于检测语音信号和非语音信号的模型。
如图3所示,将单一向量
Figure BDA0003397709760000084
输入声学模型,该声学模型中可以包括多个子模型,该多个子模型中包括分别用于检测语音信号和非语音信号的模型。通常情况下,用户可以通过关键词语音将电子设备唤醒,唤醒之后,用户可以向电子设备发送一些语音命令,使得电子设备执行该语音命令。因此,用户通过关键词语音将电子设备唤醒的过程、以及控制电子设备执行该语音命令的过程等可以看成是人机语音交互过程。因此,声学模型中用于检测语音信号的模型可以是检测关键词语音的模型,也可以是检测语音命令的模型。下面以检测关键词语音的模型为例进行示意性说明。例如,用于唤醒扫地机器人21的关键词是“ABCD”,该关键词也可以称为唤醒词。该声学模型中可以包括5个子模型,该5个子模型依次是非语音信号的建模模型、“A”的建模模型、“B”的建模模型、“C”的建模模型、“D”的建模模型,其中,非语音信号可以记为“Filler”,例如,Filler可以是噪声、静音、非唤醒词语音等。将单一向量
Figure BDA0003397709760000085
输入声学模型,声学模型可以输出5个条件概率,此处将声学模型输出的条件概率记为第一条件概率。例如,声学模型输出的5个第一条件概率依次记为
Figure BDA0003397709760000086
Figure BDA0003397709760000087
其中,
Figure BDA0003397709760000088
表示在非语音信号的建模模型的条件下,观测到
Figure BDA0003397709760000089
的概率。
Figure BDA00033977097600000810
表示在“A”的建模模型的条件下,观测到
Figure BDA00033977097600000811
的概率。
Figure BDA00033977097600000812
表示在“B”的建模模型的条件下,观测到
Figure BDA00033977097600000813
的概率。
Figure BDA00033977097600000814
表示在“C”的建模模型的条件下,观测到
Figure BDA00033977097600000815
的概率。
Figure BDA00033977097600000816
表示在“D”的建模模型的条件下,观测到
Figure BDA0003397709760000091
的概率。具体的,该声学模型可以是基于前馈序列记忆神经网络(FeedforwardSequential Memory Networks,FSMN)的声学模型。具体的,该声学模型可以是神经网络模型。另外,声学模型不仅可以采用FSMN架构的神经网络模型,还可以使用其它架构的网络,例如卷积神经网络(Convolutional NeuralNetwork,CNN)等。
具体的,声学模型根据
Figure BDA0003397709760000092
输出
Figure BDA0003397709760000093
的过程可以通过如下公式(6)、(7)、(8)得到:
Figure BDA0003397709760000094
Figure BDA0003397709760000095
Figure BDA0003397709760000096
其中,L表示神经网络模型的层数。公式(6)中的h0(τ)表示神经网络模型中第一层的输入,
Figure BDA0003397709760000097
表示神经网络模型中第l层的输出,公式(7)中的hl-1(τ)表示神经网络模型中第l-1层的输出,例如,L=5。公式(8)中的hL(τ)表示神经网络模型中第L层的输出。
Figure BDA0003397709760000098
是一个数组,
Figure BDA0003397709760000099
Figure BDA00033977097600000910
分别是
Figure BDA00033977097600000911
中的元素。
S402、根据所述多个第一条件概率、以及所述目标音频信号之前的一个或多个历史音频信号,确定所述目标音频信号中是否包括语音信号。
例如,
Figure BDA00033977097600000912
可以作为解码器的输入,解码器可以根据该多个第一条件概率、以及所述目标音频信号之前的一个或多个历史音频信号,确定目标音频信号
Figure BDA00033977097600000913
中是否包括语音信号。
可选的,根据所述多个第一条件概率、以及所述目标音频信号之前的一个或多个历史音频信号,确定所述目标音频信号中是否包括语音信号,包括:将所述多个第一条件概率输入解码器,所述解码器根据所述多个第一条件概率对所述解码器对应的概率转移矩阵进行更新;根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵,确定所述目标音频信号中是否包括语音信号。
可选的,所述解码器根据所述多个第一条件概率对所述解码器对应的概率转移矩阵进行更新,包括:所述解码器根据所述多个第一条件概率、历史前向概率和历史概率转移矩阵,计算得到更新后的前向概率;根据所述更新后的前向概率和所述历史概率转移矩阵,计算得到更新后的概率转移矩阵。
例如,将
Figure BDA0003397709760000101
输入解码器后,解码器可以根据
Figure BDA0003397709760000102
对该解码器对应的概率转移矩阵进行更新。具体的,该解码器可以采用隐马尔科夫模型(HiddenMarkov Model,HMM)解码器,该解码器对应有概率转移矩阵,该概率转移矩阵也可以称为状态转移矩阵。该解码器可以采用算法1(Algorithm1),算法1可以实现在线HMM转移矩阵更新。例如,更新之前的概率转移矩阵即历史概率转移矩阵可以记为
Figure BDA0003397709760000103
更新后的概率转移矩阵可以记为
Figure BDA0003397709760000104
T(τ-1)中的第i行第k列元素可以记为
Figure BDA0003397709760000105
Figure BDA0003397709760000106
中第i行第k列的元素可以记为
Figure BDA0003397709760000107
另外,在更新的过程中涉及到前向概率和矩阵
Figure BDA0003397709760000108
历史前向概率可以记为
Figure BDA0003397709760000109
Figure BDA00033977097600001010
中的第i个元素可以记为
Figure BDA00033977097600001011
Figure BDA00033977097600001012
的大小和概率转移矩阵的大小相同,
Figure BDA00033977097600001013
中第i行第j列的元素可以记为
Figure BDA00033977097600001014
具体的更新过程可以采用如下公式(9)-(14)得到:
Figure BDA00033977097600001015
Figure BDA00033977097600001016
Figure BDA00033977097600001017
Figure BDA00033977097600001018
Figure BDA00033977097600001019
Figure BDA00033977097600001020
其中,公式(9)中的pj(τ)表示
Figure BDA0003397709760000111
中的第j个元素,根据公式(9)可以计算出矩阵
Figure BDA0003397709760000112
中的每个元素。
公式(10)表示对历史前向概率
Figure BDA0003397709760000113
的更新过程,更新后的前向概率记为
Figure BDA0003397709760000114
公式(10)中的
Figure BDA0003397709760000115
表示
Figure BDA0003397709760000116
中的第j个元素。根据公式(10)可以计算出
Figure BDA0003397709760000117
中的每个元素。
公式(11)中的
Figure BDA0003397709760000118
是根据公式(9)计算得到的,公式(11)等号右侧的分子
Figure BDA00033977097600001131
表示由公式(9)计算出的
Figure BDA0003397709760000119
构成的矩阵,公式(11)表示对
Figure BDA00033977097600001132
的标准化处理过程,公式(11)等号右侧的分子
Figure BDA00033977097600001110
是标准化处理之前的矩阵,等号左侧的
Figure BDA00033977097600001111
是标准化处理之后的矩阵。
公式(12)表示对
Figure BDA00033977097600001112
的标准化处理过程,公式(12)等号右侧的分子
Figure BDA00033977097600001113
是标准化处理之前的更新后的前向概率,该
Figure BDA00033977097600001114
是根据公式(10)计算得到的
Figure BDA00033977097600001115
构成的,
Figure BDA00033977097600001116
表示该
Figure BDA00033977097600001117
中的第i个元素。公式(12)等号左侧的
Figure BDA00033977097600001118
是标准化处理之后的更新后的前向概率。
公式(13)中的
Figure BDA00033977097600001119
表示公式(12)等号左侧的
Figure BDA00033977097600001120
中的第i个元素。η(2)表示固定的遗忘因子,即η(2)可以是一个常数。ηi表示更新后的概率转移矩阵
Figure BDA00033977097600001121
中的第i行对应的遗忘因子。
公式(14)中的
Figure BDA00033977097600001122
表示更新后的概率转移矩阵
Figure BDA00033977097600001123
中的第i行第j列元素。公式(14)中的
Figure BDA00033977097600001124
表示公式(11)等号左侧的
Figure BDA00033977097600001125
中的第i行第j列元素。公式(14)中的
Figure BDA00033977097600001126
表示公式(12)等号左侧的
Figure BDA00033977097600001127
中的第i个元素。
进一步,解码器可以根据
Figure BDA00033977097600001128
之前的一个或多个历史音频信号、以及更新后的概率转移矩阵
Figure BDA00033977097600001129
确定
Figure BDA00033977097600001130
中是否包括语音信号。
可选的,根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵,确定所述目标音频信号中是否包括语音信号,包括如图5所示的如下几个步骤:
S501、根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵,输出识别结果。
例如,目标音频信号
Figure BDA0003397709760000121
之前的一个历史音频信号可以记为x(τ-1)。目标音频信号
Figure BDA0003397709760000122
之前的多个历史音频信号可以记为x(τ-m)、x(τ-m+1)、…x(τ-1),其中,m表示大于或等于1的数。可以理解的是,当更新模型的输入是x(τ-1)时,声学模型可以输出5个第一条件概率,该5个第一条件概率类似于
Figure BDA0003397709760000123
Figure BDA0003397709760000124
同理,当更新模型的输入是x(τ-m)、x(τ-m+1)、…、或x(τ-2)时,声学模型可以输出类似的5个第一条件概率。具体的,解码器可以根据
Figure BDA0003397709760000125
对应的5个第一条件概率,以及x(τ-m)、x(τ-m+1)、…x(τ-1)分别对应的5个第一条件概率,以及更新后的概率转移矩阵
Figure BDA0003397709760000126
输出识别结果。
S502、若所述目标音频信号中包括关键字的语音信号,则所述识别结果是所述关键字的标识。
若解码器确定目标音频信号
Figure BDA0003397709760000127
中包括关键字的语音信号,则输出的识别结果是该关键字的标识。
例如,关键词是“ABCD”,“A”、“B”、“C”、“D”分别记为关键字。例如“A”的标识为1,“B”的标识为2,“C”的标识为3,“D”的标识为4。若解码器确定目标音频信号
Figure BDA0003397709760000128
中包括“D”的语音信号,则输出的识别结果为4。同理,在历史时间,解码器也确定过x(τ-m)、x(τ-m+1)、…或x(τ-1)中是否包括某个关键字的语音信号,例如图3所示,解码器针对x(τ-m)、x(τ-m+1)、…x(τ-1)的识别结果分别为00112223344,其中,0是“Filler”的标识。
S503、若所述目标音频信号中不包括语音信号,则所述识别结果是预设标识。
例如,若解码器确定目标音频信号
Figure BDA0003397709760000129
中不包括任何一个关键字的语音信号,则确定该目标音频信号
Figure BDA0003397709760000131
中不包括语音信号,此时,解码器输出的识别结果是预设标识,例如0。
此外,解码器在输出识别结果的同时还可以输出前向概率。例如,当更新模块的输入为
Figure BDA0003397709760000132
时,解码器输出一个识别结果、以及该识别结果对应的前向概率
Figure BDA0003397709760000133
Figure BDA0003397709760000134
包括
Figure BDA0003397709760000135
此处的
Figure BDA0003397709760000136
Figure BDA0003397709760000137
当更新模块的输入为x(τ-1)时,解码器输出一个识别结果、以及该识别结果对应的前向概率
Figure BDA0003397709760000138
Figure BDA0003397709760000139
包括
Figure BDA00033977097600001310
Figure BDA00033977097600001311
此处的
Figure BDA00033977097600001312
Figure BDA00033977097600001313
以此类推。
具体的,所述更新后的前向概率包括第二条件概率,所述第二条件概率用于表示在所述单一向量的条件下观测到非语音信号的概率。
例如,可以将
Figure BDA00033977097600001314
记为第二条件概率,第二条件概率表示在单一向量
Figure BDA00033977097600001315
的条件下观测到非语音信号“Filler”的概率。当更新模块的输入不同时,单一向量
Figure BDA00033977097600001316
也不同。
相应的,若所述目标音频信号中不包括语音信号,则更新所述噪声协方差矩阵,包括:若所述目标音频信号中不包括语音信号,则根据所述第二条件概率更新所述噪声协方差矩阵。
例如图3所示,解码器可以将第二条件概率
Figure BDA00033977097600001317
作为反馈信息反馈给更新模块。具体的,更新模块可以根据
Figure BDA00033977097600001318
确定是否更新噪声协方差矩阵。例如,当更新模块的输入为
Figure BDA00033977097600001319
时,若解码器输出的识别结果为1、2、3、4中的某个数值,表示
Figure BDA00033977097600001320
中包括语音信号,此时,
Figure BDA00033977097600001321
Figure BDA00033977097600001322
Figure BDA00033977097600001323
则更新模块在接收到
Figure BDA00033977097600001324
的下一个音频信号x(τ+1)时,不对噪声协方差矩阵Φ(τ)更新,即Φ(τ+1)=Φ(τ),Φ(τ+1)可用于对x(τ+1)进行噪声抑制。当更新模块的输入为
Figure BDA00033977097600001325
时,若解码器输出的识别结果为0,表示
Figure BDA00033977097600001326
中不包括语音信号,此时,
Figure BDA0003397709760000141
Figure BDA0003397709760000142
Figure BDA0003397709760000143
则更新模块在接收到
Figure BDA0003397709760000144
的下一个音频信号x(τ+1)时,对噪声协方差矩阵Φ(τ)更新,得到更新后的噪声协方差矩阵Φ(τ+1),Φ(τ+1)不等于Φ(τ)。
同理,当更新模块的输入为x(τ-1)时,若解码器输出的识别结果为1、2、3、4中的某个数值,表示x(τ-1)中包括语音信号,此时,
Figure BDA0003397709760000145
Figure BDA0003397709760000146
Figure BDA0003397709760000147
则更新模块在接收到
Figure BDA0003397709760000148
时,不对噪声协方差矩阵Φ(τ-1)更新,即Φ(τ)=Φ(τ-1),Φ(τ)可用于对
Figure BDA0003397709760000149
进行噪声抑制。当更新模块的输入为x(τ-1)时,若解码器输出的识别结果为0,表示x(τ-1)中不包括语音信号,此时,
Figure BDA00033977097600001410
Figure BDA00033977097600001411
Figure BDA00033977097600001412
则更新模块在接收到
Figure BDA00033977097600001413
时,对噪声协方差矩阵x(τ-1)更新,该更新过程可以通过如下的公式(15)和(16)实现,从而得到更新后的噪声协方差矩阵Φ(τ),Φ(τ)不等于Φ(τ-1)。
Figure BDA00033977097600001414
Figure BDA00033977097600001415
其中,η(1)表示固定的遗忘因子,η(1)和上述的η(2)不同。η表示动态的遗忘因子。公式(16)中的
Figure BDA00033977097600001416
Figure BDA00033977097600001417
可选的,根据所述目标音频信号对应的识别结果、以及所述一个或多个历史音频信号分别对应的识别结果,计算关键词的置信度,所述关键词包括一个或多个关键字;若所述关键词的置信度大于阈值,则唤醒电子设备。
例如图3所示,每输入一个目标音频信号,解码器可输出一个识别结果、以及该识别结果对应的前向概率,该前向概率由5个条件概率构成。也就是说,如图3所示的0011222334440中的每个数值分别对应有一个前向概率。具体的,可以从0011222334440中选取部分连续的数值,例如通过一个滑动窗口选取出1122233444,置信度计算模块可根据1122233444中每个数值对应的前向概率,计算出关键词“ABCD”的置信度,如果该置信度大于阈值,则唤醒扫地机器人。其中,置信度的计算过程可以通过如下公式(17)、(18)、(19)实现。
Figure BDA0003397709760000151
Figure BDA0003397709760000152
Figure BDA0003397709760000153
其中,公式(17)中的i=A,B,C,D,
Figure BDA0003397709760000154
表示输入为
Figure BDA0003397709760000155
时,解码器输出的识别结果。
Figure BDA0003397709760000156
表示当前时间输入的目标音频信号x(τ0)的标识。
Figure BDA0003397709760000157
τ0-Z+2、…、τ0-1分别表示x(τ0)之前的多个历史音频信号的标识。Z表示从0011222334440中选取出的数值个数即滑动窗口的大小。例如,当公式(17)中的i=A时,由于A对应的标识是1,从0011222334440中选出的1122233444中包括两个1,并且每个1对应有一个前向概率,每个1对应的前向概率包括5个条件概率,例如,1122233444中的第一个1对应的前向概率包括
Figure BDA0003397709760000158
Figure BDA0003397709760000159
Figure BDA00033977097600001510
第二个1对应的前向概率包括
Figure BDA00033977097600001511
Figure BDA00033977097600001512
Figure BDA00033977097600001513
此时,公式(17)中的qi表示两个1分别对应的
Figure BDA00033977097600001514
中的最大值,qi可记为最大后验概率,qi表示“A”、“B”、“C”、“D”这4个关键字中第i个关键字在1122233444对应的这段较长的音频信号中出现的概率。由于1122233444中的每个数值对应有一个输入,该输入是一段较短的音频信号,因此,1122233444分别对应的较短的音频信号构成一段较长的音频信号。由于公式(17)中的i=A,B,C,D,因此,根据公式(17)可以计算出4个qi。公式(19)中的qj与公式(17)中qi的含义相同,公式(19)中的
Figure BDA00033977097600001515
表示当4个qj中的某个qi不等于0时,将该4个qj相乘之后除以qi。当该4个qj中的某个qi等于0时,
Figure BDA00033977097600001516
为0。公式(18)中的q表示关键词的置信度,q的含义是4个qj按照从大到小的顺序排序后,前3个qj的乘积。当关键词的置信度大于阈值时,表示扫地机器人中的处理器检测到了关键词即唤醒词,此时,处理器可以唤醒该扫地机器人,使得该扫地机器人可以进一步检测用户其他的语音。
在传统波束形成算法中,导向向量(或者称为导向矢量)的估计通常是一个难题,估计的准确度会直接影响降噪效果。但是在本公开实施例中可以采用固定的导向矢量,从而避免了导向矢量的估计问题。取而代之的是通过对噪声协方差矩阵的迭代更新,使得更新后的噪声协方差矩阵尽可能的不包含语音成分,从而使得更新后的噪声协方差矩阵尽可能的抑制噪声而不抑制有用的语音成分。
另外,如图3所示,通过解码器向更新模块发送反馈信息,使得更新模块可以根据该反馈信息确定是否更新噪声协方差矩阵,从而使得如图3所示的语音增强(SpeechEnhancement,SE)部分和关键词检测(Keyword Spotting,KWS)部分的迭代过程联合在一起,从而能够达到比单独迭代更好的效果。该迭代过程是指如图3所示的整体结构在使用阶段或推理阶段中的迭代。关键词检测(KeywordSpotting,KWS)即俗称的语音唤醒,电子设备连续监听某一预定义好的关键词,如“ABCD”,当检测到关键词出现时说明有人机交互需求,则启动相应的交互流程。
因此,通过更新后的噪声协方差矩阵可以有效抑制扫地机器人采集到的音频信号中的噪声,提高了噪声抑制后的音频信号的信噪比。从而使得本公开实施例所述的方法可以适用于扫地机器人具有多种噪声源例如电机声、各种机械摩擦声等,并且拾音设备距离多种噪声源较近的场景,即在这种场景下,通过不断迭代更新噪声协方差矩阵可以有效抑制拾音设备采集到的原始信号中的噪声,从而大大提高信噪比。另外,扫地机器人在工作过程中是移动的,而用户可能是不动的,导致扫地机器人采集到的音频信号可能是实时动态的,但是,通过解码器对概率转移矩阵的不断更新,使得解码器可能根据环境的不同进行动态调整,从而达到更好的降噪效果和唤醒效果。因此,本公开实施例可以在低信噪比、多干扰源、移动声源条件下有效抑制电子设备自身发出的噪声,实现有效的语音唤醒。
此外,本公开实施例所述的方法其计算量较小,从而使得该方法可以适用于低算力低资源的芯片,从而降低了硬件成本。因此,可以适用于各种低资源的嵌入式系统。
图6为本公开实施例提供的音频信号的处理装置的结构示意图。本公开实施例提供的音频信号的处理装置可以执行音频信号的处理方法实施例提供的处理流程,如图6所示,音频信号的处理装置60包括:
获取模块61,用于获取目标音频信号;
处理模块62,用于根据噪声协方差矩阵对所述目标音频信号进行处理,得到噪声抑制后的目标音频信号;
特征提取模块63,用于对所述噪声抑制后的目标音频信号进行特征提取,得到多个特征向量;
合成模块64,用于将所述多个特征向量合成为单一向量;
确定模块65,用于根据所述单一向量确定所述目标音频信号中是否包括语音信号;
更新模块66,用于当所述目标音频信号中不包括语音信号时,更新所述噪声协方差矩阵,更新后的所述噪声协方差矩阵用于对所述目标音频信号的下一个音频信号进行处理。
可选的,确定模块65根据所述单一向量确定所述目标音频信号中是否包括语音信号时,具体用于:
将所述单一向量输入声学模型,所述声学模型包括多个子模型,所述声学模型输出多个第一条件概率,所述多个第一条件概率和所述多个子模型一一对应,每个第一条件概率用于表示在任一子模型条件下观测到所述单一向量的概率,所述多个子模型包括分别用于检测语音信号和非语音信号的模型;
根据所述多个第一条件概率、以及所述目标音频信号之前的一个或多个历史音频信号,确定所述目标音频信号中是否包括语音信号。
可选的,确定模块65根据所述多个第一条件概率、以及所述目标音频信号之前的一个或多个历史音频信号,确定所述目标音频信号中是否包括语音信号时,具体用于:
将所述多个第一条件概率输入解码器,所述解码器根据所述多个第一条件概率对所述解码器对应的概率转移矩阵进行更新;
根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵,确定所述目标音频信号中是否包括语音信号。
可选的,所述解码器根据所述多个第一条件概率对所述解码器对应的概率转移矩阵进行更新时,具体用于:
所述解码器根据所述多个第一条件概率、历史前向概率和历史概率转移矩阵,计算得到更新后的前向概率;
根据所述更新后的前向概率和所述历史概率转移矩阵,计算得到更新后的概率转移矩阵。
可选的,所述更新后的前向概率包括第二条件概率,所述第二条件概率用于表示在所述单一向量的条件下观测到非语音信号的概率;更新模块66在所述目标音频信号中不包括语音信号时,更新所述噪声协方差矩阵,具体用于:
若所述目标音频信号中不包括语音信号,则根据所述第二条件概率更新所述噪声协方差矩阵。
可选的,确定模块65根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵,确定所述目标音频信号中是否包括语音信号时,具体用于:
根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵,输出识别结果;
若所述目标音频信号中包括关键字的语音信号,则所述识别结果是所述关键字的标识;
若所述目标音频信号中不包括语音信号,则所述识别结果是预设标识。
可选的,音频信号的处理装置60还包括计算模块67,计算模块67用于根据所述目标音频信号对应的识别结果、以及所述一个或多个历史音频信号分别对应的识别结果,计算关键词的置信度,所述关键词包括一个或多个关键字;若所述关键词的置信度大于阈值,则唤醒电子设备。
图6所示实施例的音频信号的处理装置可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
以上描述了音频信号的处理装置的内部功能和结构,该装置可实现为一种电子设备。图7为本公开实施例提供的电子设备实施例的结构示意图。如图7所示,该电子设备包括存储器71和处理器72。
存储器71用于存储程序。除上述程序之外,存储器71还可被配置为存储其它各种数据以支持在电子设备上的操作。这些数据的示例包括用于在电子设备上操作的任何应用程序或方法的指令,联系人数据,电话簿数据,消息,图片,视频等。
存储器71可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,如静态随机存取存储器(SRAM),电可擦除可编程只读存储器(EEPROM),可擦除可编程只读存储器(EPROM),可编程只读存储器(PROM),只读存储器(ROM),磁存储器,快闪存储器,磁盘或光盘。
处理器72与存储器71耦合,执行存储器71所存储的程序,以用于:
获取目标音频信号;
根据噪声协方差矩阵对所述目标音频信号进行处理,得到噪声抑制后的目标音频信号;
对所述噪声抑制后的目标音频信号进行特征提取,得到多个特征向量;
将所述多个特征向量合成为单一向量;
根据所述单一向量确定所述目标音频信号中是否包括语音信号;
若所述目标音频信号中不包括语音信号,则更新所述噪声协方差矩阵,更新后的所述噪声协方差矩阵用于对所述目标音频信号的下一个音频信号进行处理。
进一步,如图7所示,电子设备还可以包括:通信组件73、电源组件74、音频组件75、显示器76等其它组件。图7中仅示意性给出部分组件,并不意味着电子设备只包括图7所示组件。
通信组件73被配置为便于电子设备和其他设备之间有线或无线方式的通信。电子设备可以接入基于通信标准的无线网络,如WiFi,2G或3G,或它们的组合。在一个示例性实施例中,通信组件73经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中,所述通信组件73还包括近场通信(NFC)模块,以促进短程通信。例如,在NFC模块可基于射频识别(RFID)技术,红外数据协会(IrDA)技术,超宽带(UWB)技术,蓝牙(BT)技术和其他技术来实现。
电源组件74,为电子设备的各种组件提供电力。电源组件74可以包括电源管理系统,一个或多个电源,及其他与为电子设备生成、管理和分配电力相关联的组件。
音频组件75被配置为输出和/或输入音频信号。例如,音频组件75包括一个麦克风(MIC),当电子设备处于操作模式,如呼叫模式、记录模式和语音识别模式时,麦克风被配置为接收外部音频信号。所接收的音频信号可以被进一步存储在存储器71或经由通信组件73发送。在一些实施例中,音频组件75还包括一个扬声器,用于输出音频信号。
显示器76包括屏幕,其屏幕可以包括液晶显示器(LCD)和触摸面板(TP)。如果屏幕包括触摸面板,屏幕可以被实现为触摸屏,以接收来自用户的输入信号。触摸面板包括一个或多个触摸传感器以感测触摸、滑动和触摸面板上的手势。所述触摸传感器可以不仅感测触摸或滑动动作的边界,而且还检测与所述触摸或滑动操作相关的持续时间和压力。
可以理解的是,上述实施例是以扫地机器人为例介绍的音频信号的处理方法,在其他一些实施例中,该方法还可以应用于可移动平台,该可移动平台可以是工作在较高噪音环境下的设备,例如,可移动平台包括无人机、可移动机器人等。下面介绍一种噪音环境可移动平台的音频信号处理方法,该方法具体包括如下几个步骤:
S1、获取所述噪音环境可移动平台采集到的音频信号。
S2、根据噪声协方差矩阵对所述音频信号进行处理,得到噪声抑制后的音频信号。
S3、对所述噪声抑制后的音频信号进行特征提取,得到多个特征向量。
S4、将所述多个特征向量合成为单一向量。
S5、根据所述单一向量确定所述音频信号中是否包括语音信号。
S6、若所述音频信号中不包括语音信号,则更新所述噪声协方差矩阵,更新后的所述噪声协方差矩阵用于对所述音频信号的下一个音频信号进行处理。
具体的,S1-S6的实现过程和具体原理可以参照上述实施例所述的音频信号的处理方法实施例中的相关内容,此处不再赘述。
另外,本公开实施例还提供一种噪音环境可移动平台,噪音环境可移动平台包括无人机、可移动机器人等。该噪音环境可移动平台包括:机身、动力系统、音频信号采集装置、以及音频信号处理装置;其中,动力系统安装在所述机身,用于提供移动动力;音频信号采集装置用于采集音频信号,该音频信号采集装置可以是麦克风;音频信号处理装置用于采用如S1-S6所述的方法对所述音频信号进行处理,该音频信号处理装置的结构示意图可以参照图6所述的音频信号的处理装置的结构示意图,此处不再赘述。
另外,本公开实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行以实现上述实施例所述的音频信号的处理方法。
需要说明的是,在本文中,诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所述仅是本公开的具体实施方式,使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下,在其它实施例中实现。因此,本公开将不会被限制于本文所述的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (12)

1.一种噪音环境可移动平台的音频信号处理方法,其中,所述方法包括:
获取所述噪音环境可移动平台采集到的音频信号;
根据噪声协方差矩阵对所述音频信号进行处理,得到噪声抑制后的音频信号;
对所述噪声抑制后的音频信号进行特征提取,得到多个特征向量;
将所述多个特征向量合成为单一向量;
根据所述单一向量确定所述音频信号中是否包括语音信号;
若所述音频信号中不包括语音信号,则更新所述噪声协方差矩阵,更新后的所述噪声协方差矩阵用于对所述音频信号的下一个音频信号进行处理。
2.一种噪音环境可移动平台,其中,包括:
机身;
动力系统,安装在所述机身,用于提供移动动力;
音频信号采集装置,用于采集音频信号;以及
音频信号处理装置,用于采用如权利要求1所述的方法对所述音频信号进行处理。
3.一种音频信号的处理方法,其中,所述方法包括:
获取目标音频信号;
根据噪声协方差矩阵对所述目标音频信号进行处理,得到噪声抑制后的目标音频信号;
对所述噪声抑制后的目标音频信号进行特征提取,得到多个特征向量;
将所述多个特征向量合成为单一向量;
根据所述单一向量确定所述目标音频信号中是否包括语音信号;
若所述目标音频信号中不包括语音信号,则更新所述噪声协方差矩阵,更新后的所述噪声协方差矩阵用于对所述目标音频信号的下一个音频信号进行处理。
4.根据权利要求3所述的方法,其中,根据所述单一向量确定所述目标音频信号中是否包括语音信号,包括:
将所述单一向量输入声学模型,所述声学模型包括多个子模型,所述声学模型输出多个第一条件概率,所述多个第一条件概率和所述多个子模型一一对应,每个第一条件概率用于表示在任一子模型条件下观测到所述单一向量的概率,所述多个子模型包括分别用于检测语音信号和非语音信号的模型;
根据所述多个第一条件概率、以及所述目标音频信号之前的一个或多个历史音频信号,确定所述目标音频信号中是否包括语音信号。
5.根据权利要求4所述的方法,其中,根据所述多个第一条件概率、以及所述目标音频信号之前的一个或多个历史音频信号,确定所述目标音频信号中是否包括语音信号,包括:
将所述多个第一条件概率输入解码器,所述解码器根据所述多个第一条件概率对所述解码器对应的概率转移矩阵进行更新;
根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵,确定所述目标音频信号中是否包括语音信号。
6.根据权利要求5所述的方法,其中,所述解码器根据所述多个第一条件概率对所述解码器对应的概率转移矩阵进行更新,包括:
所述解码器根据所述多个第一条件概率、历史前向概率和历史概率转移矩阵,计算得到更新后的前向概率;
根据所述更新后的前向概率和所述历史概率转移矩阵,计算得到更新后的概率转移矩阵。
7.根据权利要求6所述的方法,其中,所述更新后的前向概率包括第二条件概率,所述第二条件概率用于表示在所述单一向量的条件下观测到非语音信号的概率;
相应的,若所述目标音频信号中不包括语音信号,则更新所述噪声协方差矩阵,包括:
若所述目标音频信号中不包括语音信号,则根据所述第二条件概率更新所述噪声协方差矩阵。
8.根据权利要求5所述的方法,其中,根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵,确定所述目标音频信号中是否包括语音信号,包括:
根据所述多个第一条件概率、所述目标音频信号之前的一个或多个历史音频信号、以及更新后的概率转移矩阵,输出识别结果;
若所述目标音频信号中包括关键字的语音信号,则所述识别结果是所述关键字的标识;
若所述目标音频信号中不包括语音信号,则所述识别结果是预设标识。
9.根据权利要求8所述的方法,其中,所述方法还包括:
根据所述目标音频信号对应的识别结果、以及所述一个或多个历史音频信号分别对应的识别结果,计算关键词的置信度,所述关键词包括一个或多个关键字;
若所述关键词的置信度大于阈值,则唤醒电子设备。
10.一种音频信号的处理装置,其中,包括:
获取模块,用于获取目标音频信号;
处理模块,用于根据噪声协方差矩阵对所述目标音频信号进行处理,得到噪声抑制后的目标音频信号;
特征提取模块,用于对所述噪声抑制后的目标音频信号进行特征提取,得到多个特征向量;
合成模块,用于将所述多个特征向量合成为单一向量;
确定模块,用于根据所述单一向量确定所述目标音频信号中是否包括语音信号;
更新模块,用于当所述目标音频信号中不包括语音信号时,更新所述噪声协方差矩阵,更新后的所述噪声协方差矩阵用于对所述目标音频信号的下一个音频信号进行处理。
11.一种电子设备,其中,包括:
存储器;
处理器;以及
计算机程序;
其中,所述计算机程序存储在所述存储器中,并被配置为由所述处理器执行以实现如权利要求1、3-9中任一项所述的方法。
12.一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现如权利要求1、3-9中任一项所述的方法。
CN202111486497.9A 2021-12-07 2021-12-07 音频信号的处理方法、装置、设备及存储介质 Pending CN114299978A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202111486497.9A CN114299978A (zh) 2021-12-07 2021-12-07 音频信号的处理方法、装置、设备及存储介质
PCT/CN2022/130736 WO2023103693A1 (zh) 2021-12-07 2022-11-08 音频信号的处理方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111486497.9A CN114299978A (zh) 2021-12-07 2021-12-07 音频信号的处理方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN114299978A true CN114299978A (zh) 2022-04-08

Family

ID=80966290

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111486497.9A Pending CN114299978A (zh) 2021-12-07 2021-12-07 音频信号的处理方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN114299978A (zh)
WO (1) WO2023103693A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023103693A1 (zh) * 2021-12-07 2023-06-15 阿里巴巴(中国)有限公司 音频信号的处理方法、装置、设备及存储介质

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6106611B2 (ja) * 2014-01-17 2017-04-05 日本電信電話株式会社 モデル推定装置、雑音抑圧装置、音声強調装置、これらの方法及びプログラム
CN104681036B (zh) * 2014-11-20 2018-09-25 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
CN106971714A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种应用于机器人的语音去噪识别方法及装置
CN107305774B (zh) * 2016-04-22 2020-11-03 腾讯科技(深圳)有限公司 语音检测方法和装置
CN108831495B (zh) * 2018-06-04 2022-11-29 桂林电子科技大学 一种应用于噪声环境下语音识别的语音增强方法
US10636434B1 (en) * 2018-09-28 2020-04-28 Apple Inc. Joint spatial echo and noise suppression with adaptive suppression criteria
KR20200132613A (ko) * 2019-05-16 2020-11-25 삼성전자주식회사 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치
CN112447184A (zh) * 2020-11-10 2021-03-05 北京小米松果电子有限公司 语音信号处理方法及装置、电子设备、存储介质
CN113362819B (zh) * 2021-05-14 2022-06-14 歌尔股份有限公司 语音提取方法、装置、设备、系统及存储介质
CN114299978A (zh) * 2021-12-07 2022-04-08 阿里巴巴(中国)有限公司 音频信号的处理方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023103693A1 (zh) * 2021-12-07 2023-06-15 阿里巴巴(中国)有限公司 音频信号的处理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2023103693A1 (zh) 2023-06-15

Similar Documents

Publication Publication Date Title
US20220165288A1 (en) Audio signal processing method and apparatus, electronic device, and storage medium
CN109671433B (zh) 一种关键词的检测方法以及相关装置
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN108463848B (zh) 用于多声道语音识别的自适应音频增强
US11694710B2 (en) Multi-stream target-speech detection and channel fusion
US20220172737A1 (en) Speech signal processing method and speech separation method
WO2019214361A1 (zh) 语音信号中关键词的检测方法、装置、终端及存储介质
CN110808063A (zh) 一种语音处理方法、装置和用于处理语音的装置
US20200219384A1 (en) Methods and systems for ambient system control
CN111696570B (zh) 语音信号处理方法、装置、设备及存储介质
CN111863020B (zh) 语音信号处理方法、装置、设备及存储介质
CN114678021A (zh) 音频信号的处理方法、装置、存储介质及车辆
WO2022206602A1 (zh) 语音唤醒方法、装置、存储介质及系统
WO2023103693A1 (zh) 音频信号的处理方法、装置、设备及存储介质
CN110837758A (zh) 一种关键词输入方法、装置及电子设备
US11521635B1 (en) Systems and methods for noise cancellation
WO2021051588A1 (zh) 一种数据处理方法、装置和用于数据处理的装置
WO2022147692A1 (zh) 一种语音指令识别方法、电子设备以及非瞬态计算机可读存储介质
US20230206937A1 (en) Speech processing method and apparatus and apparatus for speech processing
US11727926B1 (en) Systems and methods for noise reduction
CN110415718B (zh) 信号生成的方法、基于人工智能的语音识别方法及装置
CN114694667A (zh) 语音输出方法、装置、计算机设备及存储介质
CN109102810B (zh) 声纹识别方法和装置
CN115331672B (zh) 设备控制方法、装置、电子设备及存储介质
US20230038982A1 (en) Joint Acoustic Echo Cancelation, Speech Enhancement, and Voice Separation for Automatic Speech Recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination