CN114333769B - 语音识别方法、计算机程序产品、计算机设备及存储介质 - Google Patents

语音识别方法、计算机程序产品、计算机设备及存储介质 Download PDF

Info

Publication number
CN114333769B
CN114333769B CN202111168014.0A CN202111168014A CN114333769B CN 114333769 B CN114333769 B CN 114333769B CN 202111168014 A CN202111168014 A CN 202111168014A CN 114333769 B CN114333769 B CN 114333769B
Authority
CN
China
Prior art keywords
signal
feature
target
voice
model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111168014.0A
Other languages
English (en)
Other versions
CN114333769A (zh
Inventor
马东鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202111168014.0A priority Critical patent/CN114333769B/zh
Publication of CN114333769A publication Critical patent/CN114333769A/zh
Application granted granted Critical
Publication of CN114333769B publication Critical patent/CN114333769B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Circuit For Audible Band Transducer (AREA)

Abstract

本发明实施例公开了一种语音识别方法、计算机程序产品、计算机设备及存储介质,其中语音识别方法包括:在获取到目标麦克风信号后,对目标麦克风信号进行去噪处理,以得到目标对象的目标单通道语音信号;对目标单通道语音信号进行特征提取,得到第一信号特征;对目标麦克风信号进行特征提取,得到第二信号特征;根据第一信号特征和第二信号特征,为目标单通道语音信号分配第一动态权重,以及为目标麦克风信号分配第二动态权重;基于第一动态权重和第二动态权重,对第一信号特征和第二信号特征进行特征融合,得到融合信号特征;采用融合信号特征对目标单通道语音信号进行语音识别,得到语音识别结果。本发明实施例可以提高语音识别的准确率。

Description

语音识别方法、计算机程序产品、计算机设备及存储介质
技术领域
本申请涉及语音识别技术领域,尤其涉及一种语音识别方法、计算机程序产品、计算机设备及存储介质。
背景技术
目前,语音识别技术已被广泛地应用于多种人机交互系统中,用户可以通过语音识别技术将语音转化为相应的文字,或通过语音识别技术使系统能够根据用户发出的语音信号来识别用户的操作,如智能家居、语音助手等。但待识别的语音信号通常存在噪声、非主人声等;在这种情况下,如何对这些语音信号进行语音识别成为一个研究热点。
发明内容
本发明实施例提供了一种语音识别方法、计算机程序产品、计算机设备及存储介质,可以提高语音识别的准确率。
一方面,本发明实施例提供了一种语音识别方法,所述方法包括:
在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,对所述目标麦克风信号进行去噪处理,以得到所述目标对象的目标单通道语音信号;
对所述目标单通道语音信号进行特征提取,得到第一信号特征;以及,对所述目标麦克风信号进行特征提取,得到第二信号特征;
根据所述第一信号特征和所述第二信号特征,为所述目标单通道语音信号分配第一动态权重,以及为所述目标麦克风信号分配第二动态权重;
基于所述第一动态权重和所述第二动态权重,对所述第一信号特征和所述第二信号特征进行特征融合,得到融合信号特征;
采用所述融合信号特征对所述目标单通道语音信号进行语音识别,得到语音识别结果。
另一方面,本发明实施例提供了一种语音识别装置,所述装置包括:
处理单元,用于在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,对所述目标麦克风信号进行去噪处理,以得到所述目标对象的目标单通道语音信号;
所述处理单元,还用于对所述目标单通道语音信号进行特征提取,得到第一信号特征;以及,对所述目标麦克风信号进行特征提取,得到第二信号特征;
所述处理单元,还用于根据所述第一信号特征和所述第二信号特征,为所述目标单通道语音信号分配第一动态权重,以及为所述目标麦克风信号分配第二动态权重;
所述处理单元,还用于基于所述第一动态权重和所述第二动态权重,对所述第一信号特征和所述第二信号特征进行特征融合,得到融合信号特征;
识别单元,用于采用所述融合信号特征对所述目标单通道语音信号进行语音识别,得到语音识别结果。
再一方面,本发明实施例提供了一种计算机程序产品,所述计算机程序被处理器执行时实现如下步骤:
在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,对所述目标麦克风信号进行去噪处理,以得到所述目标对象的目标单通道语音信号;
对所述目标单通道语音信号进行特征提取,得到第一信号特征;以及,对所述目标麦克风信号进行特征提取,得到第二信号特征;
根据所述第一信号特征和所述第二信号特征,为所述目标单通道语音信号分配第一动态权重,以及为所述目标麦克风信号分配第二动态权重;
基于所述第一动态权重和所述第二动态权重,对所述第一信号特征和所述第二信号特征进行特征融合,得到融合信号特征;
采用所述融合信号特征对所述目标单通道语音信号进行语音识别,得到语音识别结果。
再一方面,本发明实施例提供了一种计算机设备,所述计算机设备包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时实现如下步骤:
在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,对所述目标麦克风信号进行去噪处理,以得到所述目标对象的目标单通道语音信号;
对所述目标单通道语音信号进行特征提取,得到第一信号特征;以及,对所述目标麦克风信号进行特征提取,得到第二信号特征;
根据所述第一信号特征和所述第二信号特征,为所述目标单通道语音信号分配第一动态权重,以及为所述目标麦克风信号分配第二动态权重;
基于所述第一动态权重和所述第二动态权重,对所述第一信号特征和所述第二信号特征进行特征融合,得到融合信号特征;
采用所述融合信号特征对所述目标单通道语音信号进行语音识别,得到语音识别结果。
再一方面,本发明实施例提供了一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由处理器加载并执行如下步骤:
在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,对所述目标麦克风信号进行去噪处理,以得到所述目标对象的目标单通道语音信号;
对所述目标单通道语音信号进行特征提取,得到第一信号特征;以及,对所述目标麦克风信号进行特征提取,得到第二信号特征;
根据所述第一信号特征和所述第二信号特征,为所述目标单通道语音信号分配第一动态权重,以及为所述目标麦克风信号分配第二动态权重;
基于所述第一动态权重和所述第二动态权重,对所述第一信号特征和所述第二信号特征进行特征融合,得到融合信号特征;
采用所述融合信号特征对所述目标单通道语音信号进行语音识别,得到语音识别结果。
本发明实施例在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,可对目标麦克风信号进行去噪处理,以得到目标对象的目标单通道语音信号,从而在后续语音识别的过程中,降低噪声对语音识别准确率的影响。其次,可对目标单通道语音信号进行特征提取,得到第一信号特征;以及,对目标麦克风信号进行特征提取,得到第二信号特征;并根据第一信号特征和第二信号特征,为目标单通道语音信号分配第一动态权重,以及为目标麦克风信号分配第二动态权重;基于所述第一动态权重和所述第二动态权重,对所述第一信号特征和所述第二信号特征进行特征融合,得到融合信号特征,从而通过动态权重融合第一信号特征和第二信号特征,使目标单通道语音信号包含的目标对象的语音声音得到改善,也就是说,可使目标对象的语音声音在上述去噪处理过程中受到的损坏得到补偿。然后,可采用所述融合信号特征对所述目标单通道语音信号进行语音识别,得到语音识别结果,提高语音识别的准确率。可见,本发明实施例通过对目标麦克风信号的去噪处理,以及对第一信号特征和第二信号特征的特征融合,可有效减少在去噪处理过程中对目标对象的语音声音的损坏。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1a是本发明实施例提供的一种语音识别系统的系统架构图;
图1b是本发明实施例提供的另一种语音识别系统的系统架构图;
图2是本发明实施例提供的一种语音识别方法的框架示意图;
图3是本发明实施例提供的一种语音识别方法的流程示意图;
图4是本发明实施例提供的另一种语音识别方法的流程示意图;
图5是本发明实施例提供的另一种语音识别方法的框架示意图;
图6是本发明实施例提供的另一种语音识别方法的框架示意图;
图7是本发明实施例提供的一种语音识别装置的结构示意图;
图8是本发明实施例提供的一种计算机设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明实施例中,涉及阵列信号处理技术;所谓的阵列信号处理技术是指将一定数目的声学传感器安置在空间的不同位置,组成阵列来对声场的空间特征进行采样并处理。其中,声学传感器一般指的是麦克风,也就是说,可以通过一定数目的麦克风组成麦克风阵列。麦克风阵列通过空间定位技术可以获取声源的有效位置,并具有获取多声源和跟踪移动声源的优势;所谓的空间定位技术可以指的是以地理信息系统、遥感、全球定位系统为研究对象,内容包括空间信息、空间模型、空间分析和空间决策等。
基于上述的阵列信号处理技术,尤其是麦克风阵列技术,本发明实施例首先提出了一种语音识别系统,参见1a所示,该系统至少包括计算机设备11。其中,计算机设备11指的是可以通过麦克风阵列接收语音信号,并对接收到的语音信号进行处理和识别的任意设备;其包括但不限于:终端、服务器,等等。其中,终端可包括但不限于:智能手机、平板电脑、笔记本电脑、车载终端、掌上电脑、个人数字助理(Personal Digital Assistant,PDA)、便捷式媒体播放器(Portable Media Player,PMP)、导航装置、可穿戴设备、智能手环、计步器等移动终端,诸如数字TV、台式计算机等固定终端,等等。相应的,服务器可提供数据存储服务、资源服务等多种服务,且可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content DeliveryNetwork,CDN)、大数据和人工智能平台等基础云计算服务的云服务器,等等。
如图1a所示,目标对象可以发出语音声音,以产生语音信号,那么计算机设备11可以接收目标对象的语音声音对应的语音信号,从而对目标对象11发出的语音声音对应的语音信号进行处理和识别,得到语音识别结果。其中,该语音识别结果可以是语音信号对应的文字,或者计算机设备11能够理解的指令。可选地,上述目标对象可以指的是能够发出语音声音的发声设备或人等;发声设备包括但不限于:便捷式媒体播放器(Portable MediaPlayer,PMP)、智能手机、平板电脑、笔记本电脑、数字TV,等等。
具体的,计算机设备11可以通过麦克风阵列接收目标麦克风信号,并对目标麦克风信号执行语音识别方法;所谓的目标麦克风信号为基于目标对象的语音声音和干扰噪声所生成的语音信号。需要说明的是,语音识别方法可以是终端执行的,也可以是服务器执行的,还可以是服务器在接收到终端发送的目标麦克风信号后执行的。
值得注意的是,计算机设备可以包括信号处理模型和语音识别模型,那么计算机设备11在对目标麦克风信号执行语音识别方法的过程中,可以调用信号处理模型对目标麦克风信号进行去噪处理,得到目标对象的目标单通道语音信号。进一步的,计算机设备11可以调用语音识别模型,结合目标单通道语音信号和目标麦克风语音信号对目标单通道语音信号进行语音识别,得到语音识别结果;计算机设备11也可以对目标麦克风信号进行回音消除(Acoustic Echo Cancelling,AEC)处理,得到目标回音消除信号,并调用语音识别模型,结合目标单通道语音信号和目标回音消除信号对目标单通道语音信号进行语音识别,得到语音识别结果。其中,所谓的回音消除可以指的是透过音波干扰方式消除麦克风与喇叭因空气产生的回受路径而产生的杂音。
可以理解的是,计算机设备11可以在模型训练阶段执行语音识别方法,也可以在模型推理阶段执行语音识别方法。需要说明的是,当计算机设备11在模型训练阶段执行语音识别方法时,目标麦克风信号可以是麦克风阵列接收到的模拟信号,该模拟信号可以指的是采用某些设备对目标对象的语音声音进行人为干扰所生成的具有噪声的语音信号;当计算机设备11在模型推理阶段执行语音识别方法时,目标麦克风信号可以是麦克风阵列接收到的自然界中的语音信号,该自然界中的语音信号可以指的是目标对象的语音声音在自然界中的干扰噪声的影响下生成的语音信号。
参见图1b所示,当计算机设备11在模型训练阶段执行语音识别方法时,本发明实施例提出的语音识别系统还可以包括噪声模拟器12,该噪声模拟器12可以指的是能够对语音信号进行干扰处理的任意设备,也就是说,在经过噪声模拟器12对语音信号的干扰处理后,得到的干扰语音信号具有噪声。
具体的,如图2所示,在模型训练阶段,噪声模拟器可以对样本单通道语音信号进行干扰处理,从而得到具有噪声的语音信号,即模拟信号。假设麦克风阵列包括5个麦克风,那么计算机设备可以通过麦克风阵列获取5个原始麦克风信号,其中,目标麦克风信号可以是5个原始麦克风信号中的一个或多个麦克风信号,从而对每个原始麦克风信号进行去噪处理,得到目标单通道语音信号。图2以计算机设备结合目标单通道语音信号和目标回音消除信号对目标单通道语音信号进行语音识别为例进行说明,假设计算机设备将第一个原始麦克风信号作为目标麦克风信号,那么计算机设备可以对目标单通道语音信号进行特征提取,得到第一信号特征,并对目标麦克风信号进行回音消除处理,得到目标回音消除信号,从而对目标麦克风信号对应的目标回音消除信号进行特征提取,得到第二信号特征。进一步的,计算机设备可以基于第一信号特征和第二信号特征,为目标单通道语音信号分配第一动态权重,并为目标麦克风信号分配第二动态权重,即为目标麦克风信号对应的目标回音消除信号分配第二动态权重,从而利用第一动态权重和第二动态权重对第一信号特征和第二信号特征进行特征融合,即对第一信号特征和第二信号特征进行加权求和,得到融合信号特征,那么计算机设备可以采用融合信号特征对目标单通道语音信号进行语音识别,得到语音识别结果。可以理解的是,计算机设备可以在模型训练阶段对信号处理模型和语音识别模型进行模型优化,得到优化后的信号处理模型以及优化后的语音识别模型。需要说明的是,图2仅示例性地本发明提出的语音识别方法的框架进行表示,本发明对语音识别方法的框架的具体内容不作限定,如图2也可以表示计算机设备结合目标麦克风信号和目标单通道语音信号对目标单通道语音信号进行语音识别,即图2可以表示计算机设备直接对目标麦克风信号进行特征提取,得到第二信号特征。
同理,如图2所示,在模型推理阶段,计算机设备可以通过麦克风阵列在自然界中获取语音信号,从而得到5个原始麦克风信号。可以理解的是,计算机设备在对5个原始麦克风信号进行处理,得到融合信号特征的过程中,可以使用在模型训练阶段得到的优化后的信号处理模型进行信号处理,并使用在模型训练阶段得到的优化后的语音识别模型进行语音识别。
基于上述语音识别系统的相关描述,本发明实施例提出一种语音识别方法。该语音识别方法可以由计算机设备(如计算机设备11)执行。请参见图3,该语音识别方法可以包括以下步骤S301-S305:
S301,在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,对目标麦克风信号进行去噪处理,以得到目标对象的目标单通道语音信号。
其中,干扰噪声包括但不限于:多个人声以及喇叭声,等等。可以理解的是,目标麦克风信号可以指的是:目标对象的语音声音对应的语音信号在受到干扰噪声的干扰时,产生的具有噪声的语音信号。相应的,计算机设备对目标麦克风信号进行的去噪处理可以指的是:为消除目标麦克风信号中的干扰噪声,计算机设备对目标麦克风信号进行的一种或多种处理。
可选地,基于目标对象的语音声音和干扰声音所生成的目标麦克风信号可以是计算机设备通过麦克风接收到的模拟语音信号,即目标对象的语音声音经过噪声模拟器进行干扰处理后的语音信号,也可以是计算机设备通过麦克风在自然界中接收到的语音信号,即目标对象的语音声音经过自然界中一种或多种噪声的干扰而产生的语音信号,本发明对此不作限定。
进一步的,在对目标麦克风信号进行去噪处理后,计算机设备可以得到目标对象的目标单通道语音信号。可以理解的是,目标单通道语音信号可以为消除目标麦克风信号中的干扰噪声而得到的语音信号,也就是说,目标单通道语音信号可以为目标对象发出的语音声音对应的语音信号。
可选地,计算机设备在对目标麦克风信号进行去噪处理,以得到目标对象的目标单通道语音信号的过程可以包括但不限于:回音消除处理、降噪处理、波束形成(BeamForming,BF)操作,等等。其中,所谓的降噪可以指的是减少噪音(如非主人声)对主人声的影响;所谓的波束形成可以指的是采用空间分布的传感器阵列采集场数据,并对采集的阵列数据进行线性加权组合处理得到一个标量波束输出。
S302,对目标单通道语音信号进行特征提取,得到第一信号特征;以及,对目标麦克风信号进行特征提取,得到第二信号特征。
其中,第一信号特征可以指的是目标单通道语音信号的时域特征,也可以指的是目标单通道语音信号的频域特征,本发明对此不作限定。具体的,当计算机设备在时域上对目标单通道语音信号进行特征提取时,上述第一信号特征则为目标单通道语音信号的时域特征;当计算机设备在频域上对目标单通道语音信号进行特征提取时,上述第一信号特征则为目标单通道语音信号的频域特征。
同理,第二信号特征可以指的是目标麦克风信号的时域特征,也可以指的是目标麦克风信号的频域特征,本发明对此不作限定。具体的,当计算机设备在时域上对目标麦克风信号进行特征提取时,上述第二信号特征则为目标麦克风信号的时域特征;当计算机设备在频域上对目标麦克风信号进行特征提取时,上述第二信号特征则为目标麦克风信号的频域特征。
需要说明的是,计算机设备对目标麦克风信号进行特征提取时,可以是直接对目标麦克风信号进行特征提取;也可以是先对目标麦克风信号进行回音消除处理,得到目标回音消除信号(即回音消除后的目标麦克风信号),然后对目标回音消除信号进行特征提取。也就是说,目标麦克风信号的时域特征,可以是指在时域上直接对目标麦克风信号进行特征提取所得到的时域特征,也可以是指在时域上对目标麦克风信号对应的目标回音消除信号进行特征提取所得到的时域特征;同理,目标麦克风信号的频域特征,可以是指在频域上直接对目标麦克风信号进行特征提取所得到的频域特征,也可以是指在频域上对目标麦克风信号对应的目标回音消除信号进行特征提取所得到的频域特征。
其中,目标回音消除信号可以指的是计算机设备对目标麦克风信号中的杂音进行消除后的语音信号,该杂音可以指的是麦克风与喇叭因空气产生的回受路径而产生的杂音。在此种情况下,第二信号特征为目标麦克风信号消除部分噪声后的语音信号对应的信号特征,从而在后续进行特征融合的过程中,降低噪声对融合信号特征的影响,以实现对语音识别准确率的提高。
具体的,计算机设备可以采用特征提取模型进行特征提取操作;所谓的特征提取模型包括但不限于:卷积神经网络(Convolutional Neural Network,CNN)、循环神经网络(Recurrent Neural Network,RNN)、长短期记忆网络(Long Short-Term Memory,LSTM),等等。
S303,根据第一信号特征和第二信号特征,为目标单通道语音信号分配第一动态权重,以及为目标麦克风信号分配第二动态权重。
需要说明的是,当第二信号特征为对目标麦克风信号对应的目标回音消除信号进行特征提取所得到的信号特征时,计算机设备为目标麦克风信号分配第二动态权重可以指的是:为目标麦克风信号对应的目标回音消除信号分配第二动态权重。
进一步的,步骤S303的具体实施过程可以包括:整合第一信号特征和第二信号特征,得到整合信号特征;调用权重预测模型根据整合信号特征进行权重预测,得到权重向量;以及,将权重向量分割成第一向量和第二向量;按照第一信号特征和第二信号特征的整合先后顺序,从第一向量和第二向量中选取一个向量,作为第一动态权重分配给目标单通道语音信号;以及,将未被选取的向量作为第二动态权重分配给目标麦克风信号。可以理解的是,若计算机设备将第一向量作为第一动态权重分配给目标单通道语音信号,那么计算机设备可以将第二向量作为第二动态权重分配给目标麦克风信号;若计算机设备将第二向量作为第一动态权重分配给目标单通道语音信号,那么计算机设备可以将第一向量作为第二动态权重分配给目标麦克风信号。
可选地,计算机设备整合第一信号特征和第二信号特征可以指的是:计算机设备对第一信号特征和第二信号特征进行串行连接,那么上述整合信号特征可以指的是对第一信号特征和第二信号特征进行串行连接,得到的串行连接信号特征。相应的,上述权重预测模型可以包括卷积神经网络,也可以包括循环神经网络,本发明对此不作限定。
具体的,在调用权重预测模型根据整合信号特征进行权重预测的过程中,计算机设备可以将整合信号特征输入权重预测模型,得到目标向量;在得到目标向量后,计算机设备可以对目标向量进行归一化处理,从而得到权重向量。
S304,基于第一动态权重和第二动态权重,对第一信号特征和第二信号特征进行特征融合,得到融合信号特征。
具体的,计算机设备可以基于第一动态权重和第二动态权重,对第一信号特征和第二信号特征进行加权求和,以实现对第一信号特征和第二信号特征的特征融合。可以理解的是,计算机设备在对第一信号特征和第二信号特征进行特征融合,得到融合信号特征的过程包括:将第一信号特征与第一动态权重相乘,得到加权后的第一信号特征;将第二信号特征与第二动态权重相乘,得到加权后的第二信号特征;将加权后的第一信号特征和加权后的第二信号特征相加,得到加权求和后的信号特征,即融合信号特征。
进一步的,计算机设备可以对第一信号特征执行进一步的特征提取,得到特征优化后的第一信号特征;以及,对第二信号特征执行进一步的特征提取,得到特征优化后的第二信号特征。在此种情况下,计算机设备可以基于第一动态权重和第二动态权重,对特征优化后的第一信号特征和特征优化后的第二信号特征进行特征融合,得到融合信号特征。
S305,采用融合信号特征对目标单通道语音信号进行语音识别,得到语音识别结果。
具体的,计算机设备可以包括语音模板;在计算机设备对目标单通道语音信号进行语音识别的过程中,计算机设备可以将上述语音模板与融合信号特征进行比较,并根据一定的搜索和匹配策略,找出一系列最优的与目标单通道语音信号匹配的模板;并根据这些模板的定义,通过查表得到语音识别结果。
可选地,上述语音模板可以是计算机设备预先获取的,如计算机设备可以在安装具有语音识别功能的应用程序时,获取用于语音识别的语音模板;上述语音模板也可以是计算机设备根据海量语音、语言数据库进行训练得到的,本发明对语音模板的具体获取过程不作限定。
本发明实施例在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,可对目标麦克风信号进行去噪处理,以得到目标对象的目标单通道语音信号,从而在后续语音识别的过程中,降低噪声对语音识别准确率的影响。其次,可对目标单通道语音信号进行特征提取,得到第一信号特征;以及,对目标麦克风信号进行特征提取,得到第二信号特征;并根据第一信号特征和第二信号特征,为目标单通道语音信号分配第一动态权重,以及为目标麦克风信号分配第二动态权重;基于所述第一动态权重和所述第二动态权重,对所述第一信号特征和所述第二信号特征进行特征融合,得到融合信号特征,从而通过动态权重融合第一信号特征和第二信号特征,使目标单通道语音信号包含的目标对象的语音声音得到改善,也就是说,可使目标对象的语音声音在上述去噪处理过程中受到的损坏得到补偿。然后,可采用所述融合信号特征对所述目标单通道语音信号进行语音识别,得到语音识别结果,提高语音识别的准确率。可见,本发明实施例通过对目标麦克风信号的去噪处理,以及对第一信号特征和第二信号特征的特征融合,可有效减少在去噪处理过程中对目标对象的语音声音的损坏。
请参见图4,是本发明实施例提供的另一种语音识别方法的流程示意图。该语音识别方法可以由上述提及到的计算机设备执行。在本申请实施例中,后续所提及的第一信号特征主要以目标单通道语音信号的频域特征为例进行说明,且第二信号特征主要以目标麦克风信号的频域特征为例进行说明。如图4所示,该语音识别方法可以包括以下步骤S401-S409:
S401,在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,对目标麦克风信号进行去噪处理,以得到目标对象的目标单通道语音信号。
在一种具体的实现中,目标麦克风信号可以是M个原始麦克风信号中的其中一个原始麦克风信号,每个原始麦克风信号均是基于目标对象的语音声音和干扰噪声生成的,M为大于1的整数;相应的,对目标麦克风信号进行去噪处理,以得到目标对象的目标单通道语音信号,包括:对每个原始麦克风信号进行回音消除处理,得到M个回音消除后的麦克风信号;对每个回音消除后的麦克风信号进行降噪处理,得到M个降噪后的麦克风信号;根据M个降噪后的麦克风信号执行波束形成操作,得到目标对象的目标单通道语音信号。
例如,如图2所示,假设M为5,那么计算机设备可以获取5个原始麦克风信号,且每个原始麦克风信号是基于目标对象的语音声音和干扰噪声所生成,目标麦克风信号为5个原始麦克风信号中的其中一个原始麦克风信号。在获取到5个原始麦克风信号后,计算机设备可以分别对5个原始麦克风信号中的每个原始麦克风信号进行回音消除处理,从而得到5个回音消除后的麦克风信号。然后,计算机设备可以对每个回音消除后的麦克风信号进行降噪处理,得到5个降噪后的麦克风信号。接下来,计算机设备可以对5个降噪后的麦克风信号执行波束形成操作,从而得到目标对象的目标单通道语音信号。
上述M个原始麦克风信号可以指的是:M个麦克风接收到的基于目标对象的语音声音和干扰噪声所生成的语音信号,其中,M个麦克风位于空间中的不同位置。可选地,基于目标对象的语音声音和干扰声音所生成的语音信号可以是通过噪声模拟器生成的,也可以是在自然界中生成的,本发明对此不作限定。例如,如图2所示,计算机设备中的5个麦克风可以接收噪声模拟器产生的语音信号,也可以接收自然界中的语音信号,从而得到5个原始麦克风信号,且每个原始麦克风信号中存在噪声。
S402,对目标单通道语音信号进行特征提取,得到第一信号特征;以及,对目标麦克风信号进行特征提取,得到第二信号特征。
可选地,计算机设备可以采用一维卷积神经网络对目标单通道语音信号或目标麦克风信号进行特征提取,也可以采用长短期记忆网络对目标单通道语音信号或目标麦克风信号进行特征提取,本发明对此不作限定。
值得注意的是,计算机设备对目标麦克风信号进行特征提取时,可以是直接对目标麦克风信号进行特征提取;也可以是先对目标麦克风信号进行回音消除处理,得到目标回音消除信号(即回音消除后的目标麦克风信号),然后对目标回音消除信号进行特征提取。
举例来说,如图5所示,以第二信号特征为计算机设备对目标回音消除信号进行特征提取得到的信号特征为例进行说明,目标麦克风信号可以为第一个麦克风接收到的语音信号,即第一个原始麦克风信号,且目标单通道语音信号可以是计算机设备对M个原始麦克风信号进行去噪处理后的语音信号,那么计算机设备可以在频域上对目标单通道语音信号进行特征提取,即对目标单通道语音信号进行频域特征提取,得到目标单通道语音信号的频域特征(即第一信号特征);以及,计算机设备可以在频域上对目标麦克风信号对应的目标回音消除信号进行特征提取,即对目标回音消除信号进行频域特征提取,得到目标麦克风信号的频域特征(即第二信号特征)。需要说明的是,图5仅示例性地对语音识别方法的框架进行表示,本发明对语音识别方法的框架的具体内容不作限定,例如图5中的长短期记忆网络也可以是循环神经网络,又如图5也可以表示计算机设备在频域上直接对目标麦克风信号进行特征提取,得到目标麦克风信号的频域特征(即第二信号特征)。
S403,基于目标单通道语音信号的时域特征以及目标麦克风信号的时域特征,进行信号重构处理,得到重构语音信号。
同理,目标麦克风信号的时域特征,可以是指在时域上直接对目标麦克风信号进行特征提取所得到的时域特征,也可以是指在时域上对目标麦克风信号对应的目标回音消除信号进行特征提取所得到的时域特征。
需要说明的是,在基于目标单通道语音信号的时域特征以及目标麦克风信号的时域特征,进行信号重构处理之前,计算机设备可以在时域上对目标单通道语音信号进行特征提取,得到目标单通道语音信号的时域特征,并在时域上对目标麦克风信号进行特征提取,得到目标麦克风信号的时域特征。
具体的,步骤S403的具体实施方式可以包括以下步骤s41-s43:
s41,根据目标单通道语音信号的时域特征以及目标麦克风信号的时域特征,为目标单通道语音信号分配第一特征权重,以及为目标麦克风信号分配第二特征权重。
具体的,计算机设备可以整合目标单通道语音信号的时域特征和目标麦克风信号的时域特征,得到整合时域特征。然后,计算机设备可以调用权重预测模型根据整合时域特征,得到时域权重向量;以及,将时域权重向量分割成第一时域向量和第二时域向量。接下来,计算机设备可以按照目标单通道语音信号的时域特征和目标麦克风信号的时域特征的整合先后顺序,从第一时域向量和第二时域向量中选取一个向量,作为第一特征权重分配给目标单通道语音信号;以及,将未被选取的向量作为第二特征权重分配给目标麦克风信号。
进一步的,在调用权重预测模型根据整合时域特征进行权重预测的过程中,计算机设备可以将整合时域特征输入权重预测模型,得到目标时域向量;在得到目标时域向量后,计算机设备可以对目标时域向量进行归一化处理,从而得到时域权重向量。
s42,根据第一特征权重和第二特征权重,对目标单通道语音信号的时域特征和目标麦克风信号的时域特征进行特征融合,得到特征融合后的时域特征。
具体的,计算机设备可以根据第一特征权重和第二特征权重,对目标单通道语音信号的时域特征和目标麦克风信号的时域特征进行加权求和,以实现对目标单通道语音信号的时域特征和目标麦克风信号的时域特征的特征融合,从而得到加权求和后的时域特征,即特征融合后的时域特征。
同理,计算机设备可以对目标单通道语音信号的时域特征执行进一步的特征提取,得到目标单通道语音信号的优化时域特征;以及,对目标麦克风信号的时域特征执行进一步的特征提取,得到目标麦克风信号的优化时域特征。在此种情况下,计算机设备可以基于第一特征权重和第二特征权重,对目标单通道语音信号的优化时域特征和目标麦克风信号的优化时域特征进行特征融合,得到特征融合后的时域特征。
s43,对特征融合后的时域特征进行转化,得到特征融合后的时域特征对应的重构语音信号。
可以理解的是,计算机设备可以对任一语音信号进行编码处理,即对该任一语音信号进行特征提取,得到该任一语音信号的信号特征。相应的,计算机设备也可以对任一信号特征进行解码处理,从而得到该任一信号特征对应的语音信号。
具体的,计算机设备可以对上述特征融合后的时域特征进行解码处理,以实现对特征融合后的时域特征的转化,从而得到特征融合后的时域特征对应的重构语音信号。可以理解的是,重构语音信号可以指的是:计算机设备对目标单通道语音信号和目标麦克风信号进行融合的结果。
例如,如图5所示,目标麦克风信号可以为第一个麦克风接收到的语音信号,即第一个原始麦克风信号,且目标单通道语音信号可以是计算机设备对M个原始麦克风信号进行去噪处理后的语音信号,那么计算机设备可以通过一维卷积神经网络在时域上对目标单通道语音信号进行特征提取,得到目标单通道语音信号的时域特征;以及,通过一维卷积神经网络在时域上对目标麦克风对应的目标回音消除信号进行特征提取,得到目标麦克风信号的时域特征。然后,计算机设备可以对目标单通道语音信号的时域特征和目标麦克风信号的时域特征进行整合,得到整合时域特征。接下来,计算机设备可以调用权重预测模型根据整合时域特征,得到时域权重向量,也就是说,计算机设备可以通过长短期记忆网络对整合时域特征进行学习,得到目标时域向量,并对目标时域向量进行归一化处理,从而得到时域权重向量。在得到时域权重向量后,计算机设备可以将时域权重向量分割为两个时域向量,并将这两个时域向量中的一个时域向量作为第一特征权重,将另一个时域向量作为第二特征权重。接下来,计算机设备可以基于第一特征权重和第二特征权重,对目标单通道语音信号的时域特征和目标麦克风信号的时域特征进行加权求和,得到加权求和后的时域特征,从而通过一维卷积神经网络将加权求和后的时域特征转化为重构语音信号。需要说明的是,图5仅示例性地对语音识别方法的框架进行表示,本发明对语音识别方法的框架的具体内容不作限定,例如计算机设备也可以通过长短期记忆网络对目标回音消除信号进行时域特征提取,又如图5也可以表示在时域上直接对目标麦克风信号进行特征提取,得到目标麦克风信号的时域特征,从而基于目标单通道语音信号的时域特征以及目标麦克风信号的时域特征,进行信号重构处理,得到重构语音信号。
S404,在频域上对重构语音信号进行特征提取,得到重构语音信号的频域特征。
例如,如图5所示,计算机设备可以对重构语音信号进行频域特征提取,以实现在频域上对重构语音信号的特征提取,从而得到重构语音信号的频域特征。
S405,整合重构语音信号的频域特征、第一信号特征以及第二信号特征,得到整合信号特征。
可以理解的是,以第二信号特征为计算机设备在频域上对目标麦克风信号对应的目标回音消除信号进行特征提取所得的频域特征为例进行说明,即以目标麦克风信号的频域特征指的是在频域上直接对目标麦克风信号进行特征提取所得到的频域特征为例进行说明,计算机设备对重构语音信号的频域特征、第一信号特征以及第二信号特征进行整合可以指的是:计算机设备对重构语音信号的频域特征、目标单通道语音信号的频域特征以及目标麦克风信号的频域特征进行整合。在此种情况下,计算机设备可以对重构语音信号的频域特征、目标单通道语音信号的频域特征以及目标麦克风信号的频域特征进行串行连接,从而得到整合信号特征。
S406,调用权重预测模型根据整合信号特征进行权重预测,得到权重向量;以及,将权重向量分割成第一向量和第二向量。
S407,按照第一信号特征和第二信号特征的整合先后顺序,从第一向量和所述第二向量中选取一个向量,作为第一动态权重分配给目标单通道语音信号;以及,将未被选取的向量作为第二动态权重分配给目标麦克风信号。
具体的,计算机设备可以根据重构语音信号的频域特征、第一信号特征以及第二信号特征的整合先后顺序,确定第一信号特征和第二信号特征的整合先后顺序。举例来说,假设第一信号特征在整合过程中位于第二信号特征之前,那么计算机设备可以将第一向量作为第一动态权重分配给目标单通道语音信号,并将第二向量作为第二动态权重分配给目标麦克风信号,其中,在对上述权重向量进行分割前,第一向量位于第二向量之前;或者,计算机设备可以将第一向量作为第一动态权重分配给目标单通道语音信号,并将第二向量作为第二动态权重分配给目标麦克风信号,其中,在对上述权重向量进行分割前,第一向量位于第二向量之后。
可以理解的是,当第二信号特征为计算机设备在频域上对目标麦克风信号对应的目标回音消除信号进行特征提取所得的频域特征时,上述将未被选取的向量作为第二动态权重分配给目标麦克风信号可以指的是:将将未被选取的向量作为第二动态权重分配给目标麦克风信号对应的目标回音消除信号。
S408,基于第一动态权重和第二动态权重,对第一信号特征和第二信号特征进行特征融合,得到融合信号特征。
例如,如图5所示,以第二信号特征(目标麦克风信号的频域特征)为计算机设备在频域上对目标麦克风信号对应的目标回音消除信号进行特征提取所得的频域特征为例进行说明,在得到目标单通道语音信号的频域特征、目标麦克风信号的频域特征以及重构语音信号的频域特征后,计算机设备可以整合目标单通道语音信号的频域特征、目标麦克风信号的频域特征以及重构语音信号的频域特征,得到整合信号特征,然后将长短期记忆网络和归一化处理作为预测权重模型,以实现根据整合信号特征得到权重向量,并分割权重向量,从而给目标单通道语音信号分配第一动态权重,以及给目标麦克风信号对应的目标回音消除信号分配第二动态权重。在此种情况下,计算机设备可以根据第一动态权重对目标单通道语音信号的频域特征(即第一信号特征)进行加权,得到加权后的第一信号特征,以及根据第二动态权重对目标麦克风信号的频域特征(即第二信号特征)进行加权,得到加权后的第二信号特征,并对加权后的第一信号特征和加权后的第二信号特征进行求和,得到加权求和后的信号特征(即融合信号特征)。需要说明的是,图5也可以表示在第二信号特征为计算机设备在频域上直接对目标麦克风信号进行特征提取所得的频域特征的情况下,对第一信号特征和第二信号特征进行特征融合的实施过程进行说明。
可以理解的是,如图5所示,在对第一信号特征进行加权前,计算机设备可以对第一信号特征执行进一步的特征提取,如通过长短期记忆网络对第一信号特征执行进一步的特征提取,从而得到特征优化后的第一信号特征,并根据第一动态权重对特征优化后的第一信号特征进行加权,得到加权后的第一优化信号特征;同理,计算机设备可以得到特征优化后的第二信号特征,并根据第二动态权重对特征优化后的第二信号特征进行加权,得到加权后的第二优化信号特征;在此种情况下,计算机设备可以对加权后的第一优化信号特征和加权后的第二优化信号特征进行求和,得到融合信号特征。
在一种具体的实现中,上述融合信号特征可以是通过调用信号处理模型得到的,目标麦克风信号可以是通过对用于模型优化的样本单通道语音信号进行加噪处理得到的。其中,样本单通道语音信号可以指的是上述目标对象的语音声音对应的语音信号。进一步的,计算机设备可以对样本单通道语音信号进行特征提取,得到样本信号特征;根据融合信号特征和样本信号特征之间的差异,计算信号处理模型的模型损失值;并根据信号处理模型的模型损失值,对信号处理模型进行模型优化。可以理解的是,计算机设备可以在模型训练阶段对信号处理模型进行模型优化。
需要说明的是,计算机设备还可以通过全连接层对融合信号特征进行后处理,从而实现对融合信号特征的校准,得到校准后的融合信号特征,并根据校准后的融合信号特征和样本信号特征之间的差异,计算信号处理模型的模型损失值。例如,如图6所示,计算机设备可以在频域上对样本单通道语音信号进行特征提取,得到样本信号特征,以及采用全连接层对融合信号特征进行后处理,得到校准后的融合信号特征,并采用第一损失函数计算校准后的融合信号特征和样本信号特征之间的差异,得到信号处理模型的模型损失值,从而根据信号处理模型的模型损失值,对信号处理模型进行模型优化。可以理解的是,计算机设备可以采用第一损失函数直接对融合信号特征和样本信号特征之间的差异进行计算,从而得到信号处理模型的模型损失值。可选地,第一损失函数可以指的是均方误差损失函数,也可以指的是指数损失函数,本发明对此不作限定。可以理解的是,图6仅示例性地对语音识别方法的框架进行表示,本发明对语音识别方法的框架的具体内容不作限定,例如图6中的长短期记忆网络也可以是循环神经网络,或者图6也可以不包括全连接层,即计算机设备采用第一损失函数直接对融合信号特征和样本信号特征之间的差异进行计算;又如图6也可以表示在第二信号特征为计算机设备在频域上直接对目标麦克风信号进行特征提取所得的频域特征的情况下,对信号处理模型进行模型优化的实施过程。
进一步的,计算机设备根据融合信号特征和样本信号特征之间的差异,计算信号处理模型的模型损失值的具体实施过程可以包括:根据融合信号特征和样本信号特征之间的差异,计算信号处理模型的特征处理损失值;根据重构语音信号和样本单通道语音信号之间的差异,计算信号处理模型的信号重构损失值;对特征处理损失值和信号重构损失值进行求和运算,得到信号处理模型的模型损失值。
例如,如图6所示,计算机设备可以采用第一损失函数对融合信号特征和样本信号特征之间的差异进行计算,得到信号处理模型的特征处理损失值,并采用第二损失函数对重构语音信号和样本单通道语音信号之间的差异进行计算,得到信号处理模型的信号重构损失值,那么计算机设备可以对特征处理损失值和信号重构损失值进行求和运算,得到信号处理模型的模型损失值。可选地,第二损失函数可以指的是信噪比(Signal-to-noiseratio,SNR)损失函数,也可以指的是SI-SNR(Scale-invariant_source-to-noise ratio)损失函数,本发明对此不作限定。
可以理解的是,信号处理模型可以包括时域建模部分和频域建模部分,计算机设备可以先通过时域建模部分得到时域输出,即重构语音信号。然后,计算机设备可以将时域输出输入到频域建模部分,从而得到融合信号特征。
S409,采用融合信号特征对目标单通道语音信号进行语音识别,得到语音识别结果。
如图5所示,在根据第一动态权重和第二动态权重,对第一信号特征和第二信号特征进行加权求和,得到融合信号特征后,可以采用融合信号特征对目标单通道语音信号进行语音识别,从而得到语音识别结果。
在一种具体的实现中,上述语音识别结果是通过调用语音识别模型得到的。在此种情况下,计算机设备可以根据语音识别结果和样本单通道语音信号的标注标签之间的差异,计算语音识别模型的模型损失值;并根据语音识别模型的模型损失值,对语音识别模型进行模型优化;在信号处理模型和语音识别模型均被优化后,对信号处理模型的模型损失值和语音识别模型的模型损失值进行求和运算,得到求和后的损失值;采用求和后的损失值,同时优化信号处理模型的模型参数和语音识别模型的模型参数。其中,上述标注标签可以指的是音素结果或者文字结果等。可以理解的是,计算机设备可以在模型训练阶段对语音识别模型进行模型优化。
例如,如图6所示,在得到语音识别结果后,计算机设备可以采用第三损失函数对语音识别结果和样本单通道语音信号的标注标签之间的差异进行计算,得到语音识别模型的模型损失值,从而根据语音识别模型的模型损失值,对语音识别模型进行模型优化。进一步的,计算机设备可以对信号处理模型的模型损失值和语音识别模型的模型损失值进行求和运算,得到求和后的损失值,并采用求和后的损失值,同时优化信号处理模型的模型参数和语音识别模型的模型参数。可选地,第三损失函数以指的是交叉熵损失函数,也可以指的是CTC(Connectionist temporal classification),本发明对此不作限定。
进一步的,为了更好地说明本发明提出的语音识别方法的效果,本发明还以结合目标单通道语音信号和目标回音消除信号对目标单通道语音信号进行语音识别为例进行实验,通过同一个测试集,比较了本发明提出的语音识别方法与采用BF后的语音信号进行语音识别的方法的字符错误率(Character Error Rate,CER),从而得到本发明提出的语音识别方法的字符错误率为8.01(单位:100%),采用BF后的语音信号进行语音识别的方法的字符错误率为18.31(单位:100%),具体比较结果如表1所示:
表1
模型 测试集
BF 18.31
本发明提出的语音识别方法 8.01
本发明提出的语音识别方法可以将目标单通道语音信号(即前端处理后的语音信号)和目标回音消除信号进行结合,取二者的优点,从而有效提高语音识别的准确率,如表1所示,本发明提出的语音识别方法可以使CER下降56.25%。在此情况下,本发明提出的语音识别方法可广泛用于会议、电话等场景的语音识别。举例来说,在将本发明提出的语音识别方法用于会议场景的过程中,计算机设备可以获取会议场景中的目标对象的语音声音(即主人声)和干扰噪声(如非主人声、话筒回声、喇叭声,等等)所生成的目标麦克风信号,从而对目标麦克风信号执行语音识别方法,得到语音识别结果。可以理解的是,在会议场景中,计算机设备使用本发明提出的语音识别方法可以生成准确率较高的字幕或会议记录等。
本发明实施例在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,可对目标麦克风信号进行去噪处理,以得到目标对象的目标单通道语音信号,从而在后续语音识别的过程中,降低噪声对语音识别准确率的影响。其次,可对目标单通道语音信号进行特征提取,得到第一信号特征;以及,对目标麦克风信号进行特征提取,得到第二信号特征;并根据第一信号特征和第二信号特征,为目标单通道语音信号分配第一动态权重,以及为目标麦克风信号分配第二动态权重;基于所述第一动态权重和所述第二动态权重,对所述第一信号特征和所述第二信号特征进行特征融合,得到融合信号特征,从而通过动态权重融合第一信号特征和第二信号特征,使目标单通道语音信号包含的目标对象的语音声音得到改善,也就是说,可使目标对象的语音声音在上述去噪处理过程中受到的损坏得到补偿。然后,可采用所述融合信号特征对所述目标单通道语音信号进行语音识别,得到语音识别结果,提高语音识别的准确率。可见,本发明实施例通过对目标麦克风信号的去噪处理,以及对第一信号特征和第二信号特征的特征融合,可有效减少在去噪处理过程中对目标对象的语音声音的损坏。
基于上述语音识别方法的相关实施例的描述,本发明实施例还提出了一种语音识别装置,该语音识别装置可以是计算机设备,也可以是运行于计算机设备中的一个计算机程序(包括程序代码)。该语音识别装置可以执行图3或图4所示的语音识别方法;请参见图7,所述语音识别装置可以运行如下单元:
处理单元710,用于在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,对所述目标麦克风信号进行去噪处理,以得到所述目标对象的目标单通道语音信号;
所述处理单元710,还用于对所述目标单通道语音信号进行特征提取,得到第一信号特征;以及,对所述目标麦克风信号进行特征提取,得到第二信号特征;
所述处理单元710,还用于根据所述第一信号特征和所述第二信号特征,为所述目标单通道语音信号分配第一动态权重,以及为所述目标麦克风信号分配第二动态权重;
所述处理单元710,还用于基于所述第一动态权重和所述第二动态权重,对所述第一信号特征和所述第二信号特征进行特征融合,得到融合信号特征;
识别单元720,用于采用所述融合信号特征对所述目标单通道语音信号进行语音识别,得到语音识别结果。
在一种实施方式中,所述目标麦克风信号是M个原始麦克风信号中的其中一个原始麦克风信号,每个原始麦克风信号均是基于所述目标对象的语音声音和所述干扰噪声生成的,M为大于1的整数;相应的,处理单元710在用于对所述目标麦克风信号进行去噪处理,以得到所述目标对象的目标单通道语音信号时,可具体用于:
对每个原始麦克风信号进行回音消除处理,得到M个回音消除后的麦克风信号;
对每个回音消除后的麦克风信号进行降噪处理,得到M个降噪后的麦克风信号;
根据所述M个降噪后的麦克风信号执行波束形成操作,得到所述目标对象的目标单通道语音信号。
再一种实施方式中,处理单元710在用于根据所述第一信号特征和所述第二信号特征,为所述目标单通道语音信号分配第一动态权重,以及为所述目标麦克风信号分配的第二动态权重时,可具体用于:
整合所述第一信号特征和所述第二信号特征,得到整合信号特征;
调用权重预测模型根据所述整合信号特征进行权重预测,得到权重向量;以及,将所述权重向量分割成第一向量和第二向量;
按照所述第一信号特征和所述第二信号特征的整合先后顺序,从所述第一向量和所述第二向量中选取一个向量,作为第一动态权重分配给所述目标单通道语音信号;以及,将未被选取的向量作为第二动态权重分配给所述目标麦克风信号。
再一种实施方式中,所述第一信号特征包括:所述目标单通道语音信号的频域特征;所述第二信号特征包括:所述目标麦克风信号的频域特征;相应的,处理单元710在用于整合所述第一信号特征和所述第二信号特征,得到整合信号特征时,可具体用于:
基于所述目标单通道语音信号的时域特征以及所述目标麦克风信号的时域特征,进行信号重构处理,得到重构语音信号;
在频域上对所述重构语音信号进行特征提取,得到所述重构语音信号的频域特征;
整合所述重构语音信号的频域特征、所述第一信号特征以及所述第二信号特征,得到整合信号特征。
再一种实施方式中,处理单元710在用于基于所述目标单通道语音信号的时域特征以及所述目标麦克风信号的时域特征,进行信号重构处理,得到重构语音信号时,可具体用于:
根据所述目标单通道语音信号的时域特征以及所述目标麦克风信号的时域特征,为所述目标单通道语音信号分配第一特征权重,以及为所述目标麦克风信号分配第二特征权重;
根据所述第一特征权重和所述第二特征权重,对所述目标单通道语音信号的时域特征和所述目标麦克风信号的时域特征进行特征融合,得到特征融合后的时域特征;
对所述特征融合后的时域特征进行转化,得到所述特征融合后的时域特征对应的重构语音信号。
再一种实施方式中,所述融合信号特征是通过调用信号处理模型得到的,所述目标麦克风信号是通过对用于模型优化的样本单通道语音信号进行加噪处理得到;相应的,处理单元710还可用于:
对所述样本单通道语音信号进行特征提取,得到样本信号特征;
根据所述融合信号特征和所述样本信号特征之间的差异,计算所述信号处理模型的模型损失值;
根据所述信号处理模型的模型损失值,对所述信号处理模型进行模型优化。
再一种实施方式中,处理单元710在用于根据所述融合信号特征和所述样本信号特征之间的差异,计算所述信号处理模型的模型损失值时,可具体用于:
根据所述融合信号特征和所述样本信号特征之间的差异,计算所述信号处理模型的特征处理损失值;
根据所述重构语音信号和所述样本单通道语音信号之间的差异,计算所述信号处理模型的信号重构损失值;
对所述特征处理损失值和所述信号重构损失值进行求和运算,得到所述信号处理模型的模型损失值。
再一种实施方式中,所述语音识别结果是通过调用语音识别模型得到的,处理单元710还可用于:
根据所述语音识别结果和所述样本单通道语音信号的标注标签之间的差异,计算所述语音识别模型的模型损失值;并根据所述语音识别模型的模型损失值,对所述语音识别模型进行模型优化;
在所述信号处理模型和所述语音识别模型均被优化后,对所述信号处理模型的模型损失值和所述语音识别模型的模型损失值进行求和运算,得到求和后的损失值;
采用所述求和后的损失值,优化所述信号处理模型的模型参数;
识别单元720还可用于:采用所述求和后的损失值,优化所述语音识别模型的模型参数。
根据本发明的一个实施例,图3或图4所示的方法所涉及的各个步骤均可由图7所示的语音识别装置中的各个单元执行的。例如图3中所示的步骤S301-S304均可由图7所示的处理单元710执行,步骤S305可由图7中所示的识别单元720执行。又如,图4中所示的步骤S401-S408可由图7中所示的处理单元710执行,步骤S409可由图7中所示的识别单元720执行。
根据本发明的另一个实施例,图7所示的语音识别装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,基于语音识别装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本发明的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行,能够执行如图3或图4中所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图7中所示的语音识别装置设备,以及来实现本发明实施例的语音识别方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本发明实施例在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,可对目标麦克风信号进行去噪处理,以得到目标对象的目标单通道语音信号,从而在后续语音识别的过程中,降低噪声对语音识别准确率的影响。其次,可对目标单通道语音信号进行特征提取,得到第一信号特征;以及,对目标麦克风信号进行特征提取,得到第二信号特征;并根据第一信号特征和第二信号特征,为目标单通道语音信号分配第一动态权重,以及为目标麦克风信号分配第二动态权重;基于所述第一动态权重和所述第二动态权重,对所述第一信号特征和所述第二信号特征进行特征融合,得到融合信号特征,从而通过动态权重融合第一信号特征和第二信号特征,使目标单通道语音信号包含的目标对象的语音声音得到改善,也就是说,可使目标对象的语音声音在上述去噪处理过程中受到的损坏得到补偿。然后,可采用所述融合信号特征对所述目标单通道语音信号进行语音识别,得到语音识别结果,提高语音识别的准确率。可见,本发明实施例通过对目标麦克风信号的去噪处理,以及对第一信号特征和第二信号特征的特征融合,可有效减少在去噪处理过程中对目标对象的语音声音的损坏。
基于上述方法实施例以及装置实施例的描述,本发明实施例还提供一种计算机设备。请参见图8,该计算机设备至少包括处理器810、输入设备820、输出设备830、计算机存储介质840以及语音识别设备850。其中,计算机设备内的处理器810、输入设备820、输出设备830、计算机存储介质840以及语音识别设备850可通过一条或多条通信总线或其他方式连接。计算机存储介质840可以存储在计算机设备的存储器中,所述计算机存储介质840用于存储计算机程序,所述计算机程序包括程序指令,所述处理器810用于执行所述计算机存储介质840存储的程序指令。处理器810(或称CPU(Central Processing Unit,中央处理器))是计算机设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现相应方法流程或相应功能。
在一个实施例中,本发明实施例所述的处理器810可以用于被计算机设备控制进行一系列的语音识别处理,包括:在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,对所述目标麦克风信号进行去噪处理,以得到所述目标对象的目标单通道语音信号;对所述目标单通道语音信号进行特征提取,得到第一信号特征;以及,对所述目标麦克风信号进行特征提取,得到第二信号特征;根据所述第一信号特征和所述第二信号特征,为所述目标单通道语音信号分配第一动态权重,以及为所述目标麦克风信号分配第二动态权重;基于所述第一动态权重和所述第二动态权重,对所述第一信号特征和所述第二信号特征进行特征融合,得到融合信号特征;采用所述融合信号特征对所述目标单通道语音信号进行语音识别,得到语音识别结果,等等。
本发明实施例还提供了一种计算机存储介质(Memory),所述计算机存储介质是计算机设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括计算机设备中的内置存储介质,当然也可以包括计算机设备所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了计算机设备的操作系统。并且,在该存储空间中还存放了适于被处理器810加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速RAM存储器,也可以是非不稳定的存储器(non-volatile memory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。在一个实施例中,该计算机存储介质中可存储有一条或多条指令;且可由处理器810加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图3或图4所示的语音识别方法的实施例中的各个方法步骤。
本发明实施例在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,可对目标麦克风信号进行去噪处理,以得到目标对象的目标单通道语音信号,从而在后续语音识别的过程中,降低噪声对语音识别准确率的影响。其次,可对目标单通道语音信号进行特征提取,得到第一信号特征;以及,对目标麦克风信号进行特征提取,得到第二信号特征;并根据第一信号特征和第二信号特征,为目标单通道语音信号分配第一动态权重,以及为目标麦克风信号分配第二动态权重;基于所述第一动态权重和所述第二动态权重,对所述第一信号特征和所述第二信号特征进行特征融合,得到融合信号特征,从而通过动态权重融合第一信号特征和第二信号特征,使目标单通道语音信号包含的目标对象的语音声音得到改善,也就是说,可使目标对象的语音声音在上述去噪处理过程中受到的损坏得到补偿。然后,可采用所述融合信号特征对所述目标单通道语音信号进行语音识别,得到语音识别结果,提高语音识别的准确率。可见,本发明实施例通过对目标麦克风信号的去噪处理,以及对第一信号特征和第二信号特征的特征融合,可有效减少在去噪处理过程中对目标对象的语音声音的损坏。
需要说明的是,根据本申请的一个方面,还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述图3或图4所示的语音识别方法实施例方面的各种可选方式中提供的方法。
并且,应理解的是,以上所揭露的仅为本发明较佳实施例而已,当然不能以此来限定本发明之权利范围,因此依本发明权利要求所作的等同变化,仍属本发明所涵盖的范围。

Claims (10)

1.一种语音识别方法,其特征在于,包括:
在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,对所述目标麦克风信号进行去噪处理,以得到所述目标对象的目标单通道语音信号;
对所述目标单通道语音信号进行特征提取,得到第一信号特征;以及,对所述目标麦克风信号进行特征提取,得到第二信号特征;
根据所述第一信号特征和所述第二信号特征,为所述目标单通道语音信号分配第一动态权重,以及为所述目标麦克风信号分配第二动态权重;其中,所述第一动态权重和所述第二动态权重是对基于整合信号特征所预测出的权重向量进行分割得到的,所述整合信号特征是对所述第一信号特征和所述第二信号特征进行整合得到的;其中,所述第一信号特征包括:所述目标单通道语音信号的频域特征;所述第二信号特征包括:所述目标麦克风信号的频域特征;整合所述第一信号特征和所述第二信号特征的过程包括:基于所述目标单通道语音信号的时域特征以及所述目标麦克风信号的时域特征,进行信号重构处理,得到重构语音信号;在频域上对所述重构语音信号进行特征提取,得到所述重构语音信号的频域特征;整合所述重构语音信号的频域特征、所述第一信号特征以及所述第二信号特征,得到整合信号特征;
基于所述第一动态权重和所述第二动态权重,对所述第一信号特征和所述第二信号特征进行特征融合,得到融合信号特征;
采用所述融合信号特征对所述目标单通道语音信号进行语音识别,得到语音识别结果。
2.根据权利要求1所述的方法,其特征在于,所述目标麦克风信号是M个原始麦克风信号中的其中一个原始麦克风信号,每个原始麦克风信号均是基于所述目标对象的语音声音和所述干扰噪声生成的,M为大于1的整数;
所述对所述目标麦克风信号进行去噪处理,以得到所述目标对象的目标单通道语音信号,包括:
对每个原始麦克风信号进行回音消除处理,得到M个回音消除后的麦克风信号;
对每个回音消除后的麦克风信号进行降噪处理,得到M个降噪后的麦克风信号;
根据所述M个降噪后的麦克风信号执行波束形成操作,得到所述目标对象的目标单通道语音信号。
3.根据权利要求1所述的方法,其特征在于,所述根据所述第一信号特征和所述第二信号特征,为所述目标单通道语音信号分配第一动态权重,以及为所述目标麦克风信号分配的第二动态权重,包括:
整合所述第一信号特征和所述第二信号特征,得到整合信号特征;
调用权重预测模型根据所述整合信号特征进行权重预测,得到权重向量;以及,将所述权重向量分割成第一向量和第二向量;
按照所述第一信号特征和所述第二信号特征的整合先后顺序,从所述第一向量和所述第二向量中选取一个向量,作为第一动态权重分配给所述目标单通道语音信号;以及,将未被选取的向量作为第二动态权重分配给所述目标麦克风信号。
4.根据权利要求1所述的方法,其特征在于,所述基于所述目标单通道语音信号的时域特征以及所述目标麦克风信号的时域特征,进行信号重构处理,得到重构语音信号,包括:
根据所述目标单通道语音信号的时域特征以及所述目标麦克风信号的时域特征,为所述目标单通道语音信号分配第一特征权重,以及为所述目标麦克风信号分配第二特征权重;
根据所述第一特征权重和所述第二特征权重,对所述目标单通道语音信号的时域特征和所述目标麦克风信号的时域特征进行特征融合,得到特征融合后的时域特征;
对所述特征融合后的时域特征进行转化,得到所述特征融合后的时域特征对应的重构语音信号。
5.根据权利要求1所述的方法,其特征在于,所述融合信号特征是通过调用信号处理模型得到的,所述目标麦克风信号是通过对用于模型优化的样本单通道语音信号进行加噪处理得到;所述方法还包括:
对所述样本单通道语音信号进行特征提取,得到样本信号特征;
根据所述融合信号特征和所述样本信号特征之间的差异,计算所述信号处理模型的模型损失值;
根据所述信号处理模型的模型损失值,对所述信号处理模型进行模型优化。
6.根据权利要求5所述的方法,其特征在于,所述根据所述融合信号特征和所述样本信号特征之间的差异,计算所述信号处理模型的模型损失值,包括:
根据所述融合信号特征和所述样本信号特征之间的差异,计算所述信号处理模型的特征处理损失值;
根据所述重构语音信号和所述样本单通道语音信号之间的差异,计算所述信号处理模型的信号重构损失值;
对所述特征处理损失值和所述信号重构损失值进行求和运算,得到所述信号处理模型的模型损失值。
7.根据权利要求5所述的方法,其特征在于,所述语音识别结果是通过调用语音识别模型得到的,所述方法还包括:
根据所述语音识别结果和所述样本单通道语音信号的标注标签之间的差异,计算所述语音识别模型的模型损失值;并根据所述语音识别模型的模型损失值,对所述语音识别模型进行模型优化;
在所述信号处理模型和所述语音识别模型均被优化后,对所述信号处理模型的模型损失值和所述语音识别模型的模型损失值进行求和运算,得到求和后的损失值;
采用所述求和后的损失值,同时优化所述信号处理模型的模型参数和所述语音识别模型的模型参数。
8.一种语音识别装置,其特征在于,包括:
处理单元,用于在获取到基于目标对象的语音声音和干扰噪声所生成的目标麦克风信号后,对所述目标麦克风信号进行去噪处理,以得到所述目标对象的目标单通道语音信号;
所述处理单元,还用于对所述目标单通道语音信号进行特征提取,得到第一信号特征;以及,对所述目标麦克风信号进行特征提取,得到第二信号特征;
所述处理单元,还用于根据所述第一信号特征和所述第二信号特征,为所述目标单通道语音信号分配第一动态权重,以及为所述目标麦克风信号分配第二动态权重;
所述处理单元,还用于基于所述第一动态权重和所述第二动态权重,对所述第一信号特征和所述第二信号特征进行特征融合,得到融合信号特征;其中,所述第一动态权重和所述第二动态权重是对基于整合信号特征所预测出的权重向量进行分割得到的,所述整合信号特征是对所述第一信号特征和所述第二信号特征进行整合得到的;其中,所述第一信号特征包括:所述目标单通道语音信号的频域特征;所述第二信号特征包括:所述目标麦克风信号的频域特征;整合所述第一信号特征和所述第二信号特征的过程包括:基于所述目标单通道语音信号的时域特征以及所述目标麦克风信号的时域特征,进行信号重构处理,得到重构语音信号;在频域上对所述重构语音信号进行特征提取,得到所述重构语音信号的频域特征;整合所述重构语音信号的频域特征、所述第一信号特征以及所述第二信号特征,得到整合信号特征;
识别单元,用于采用所述融合信号特征对所述目标单通道语音信号进行语音识别,得到语音识别结果。
9.一种计算机设备,其特征在于,包括处理器、存储器,其中,所述存储器用于存储计算机程序,所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的方法。
10.一种计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令被处理器执行时实现如权利要求1至7中任一项所述的方法。
CN202111168014.0A 2021-09-29 2021-09-29 语音识别方法、计算机程序产品、计算机设备及存储介质 Active CN114333769B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111168014.0A CN114333769B (zh) 2021-09-29 2021-09-29 语音识别方法、计算机程序产品、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111168014.0A CN114333769B (zh) 2021-09-29 2021-09-29 语音识别方法、计算机程序产品、计算机设备及存储介质

Publications (2)

Publication Number Publication Date
CN114333769A CN114333769A (zh) 2022-04-12
CN114333769B true CN114333769B (zh) 2024-03-01

Family

ID=81044511

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111168014.0A Active CN114333769B (zh) 2021-09-29 2021-09-29 语音识别方法、计算机程序产品、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN114333769B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117373674B (zh) * 2023-12-06 2024-02-02 四川大学华西医院 主动脉瓣狭窄持续性风险预测方法、系统、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110136709A (zh) * 2019-04-26 2019-08-16 国网浙江省电力有限公司信息通信分公司 语音识别方法及基于语音识别的视频会议系统
CN110931028A (zh) * 2018-09-19 2020-03-27 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN111696532A (zh) * 2020-06-17 2020-09-22 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备以及存储介质
CN111951796A (zh) * 2020-08-19 2020-11-17 北京达佳互联信息技术有限公司 语音识别方法及装置、电子设备、存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10573301B2 (en) * 2018-05-18 2020-02-25 Intel Corporation Neural network based time-frequency mask estimation and beamforming for speech pre-processing

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110931028A (zh) * 2018-09-19 2020-03-27 北京搜狗科技发展有限公司 一种语音处理方法、装置和电子设备
CN110136709A (zh) * 2019-04-26 2019-08-16 国网浙江省电力有限公司信息通信分公司 语音识别方法及基于语音识别的视频会议系统
CN111696532A (zh) * 2020-06-17 2020-09-22 北京达佳互联信息技术有限公司 语音识别方法、装置、电子设备以及存储介质
CN111951796A (zh) * 2020-08-19 2020-11-17 北京达佳互联信息技术有限公司 语音识别方法及装置、电子设备、存储介质

Also Published As

Publication number Publication date
CN114333769A (zh) 2022-04-12

Similar Documents

Publication Publication Date Title
EP3504703B1 (en) A speech recognition method and apparatus
JP7434137B2 (ja) 音声認識方法、装置、機器及びコンピュータ読み取り可能な記憶媒体
CN110600017A (zh) 语音处理模型的训练方法、语音识别方法、系统及装置
CN112435684B (zh) 语音分离方法、装置、计算机设备和存储介质
CN110556103A (zh) 音频信号处理方法、装置、系统、设备和存储介质
CN110473568B (zh) 场景识别方法、装置、存储介质及电子设备
US11435429B2 (en) Method and system of acoustic angle of arrival detection
CN110942779A (zh) 一种噪声处理方法、装置、系统
EP3392883A1 (en) Method for processing an input audio signal and corresponding electronic device, non-transitory computer readable program product and computer readable storage medium
US20220124433A1 (en) Method and system of neural network dynamic noise suppression for audio processing
US20240046955A1 (en) Voice extraction method and apparatus, and electronic device
CN111785288A (zh) 语音增强方法、装置、设备及存储介质
CN114974280A (zh) 音频降噪模型的训练方法、音频降噪的方法及装置
CN114333769B (zh) 语音识别方法、计算机程序产品、计算机设备及存储介质
CN111868823A (zh) 一种声源分离方法、装置及设备
CN113870893A (zh) 一种多通道双说话人分离方法及系统
CN112346012A (zh) 声源位置确定方法和装置、可读存储介质、电子设备
CN116737895A (zh) 一种数据处理方法及相关设备
CN116312570A (zh) 一种基于声纹识别的语音降噪方法、装置、设备及介质
CN113345465B (zh) 语音分离方法、装置、设备及计算机可读存储介质
CN113409756B (zh) 语音合成方法、系统、设备及存储介质
CN114627889A (zh) 多声源声音信号处理方法及装置、存储介质和电子设备
CN113035176A (zh) 语音数据处理方法、装置、计算机设备及存储介质
CN112489678A (zh) 一种基于信道特征的场景识别方法及装置
CN115910047B (zh) 数据处理方法、模型训练方法、关键词检测方法及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant