CN113571063A

CN113571063A - 语音信号的识别方法、装置、电子设备及存储介质

Info

Publication number: CN113571063A
Application number: CN202110146050.0A
Authority: CN
Inventors: 马东鹏
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-02-02
Filing date: 2021-02-02
Publication date: 2021-10-29
Anticipated expiration: 2041-02-02
Also published as: CN113571063B

Abstract

本申请实施例公开了一种语音信号的识别方法、装置、电子设备及存储介质，涉及人工智能、大数据、语音技术以及云技术等领域，可应用于社交、游戏、多媒体、车联、驾驶、医疗等各种语音处理场景。包括：获取待识别的初始语音信号；对初始语音信号进行信号分离，分离出初始语音信号中的目标语音信号；对目标语音信号进行语音识别，得到语音识别结果。采用本方案，可以有效提高包含音乐或者其他背景信号的混合语音信号的识别精确度。

Description

语音信号的识别方法、装置、电子设备及存储介质

技术领域

本申请实施例涉及人工智能、大数据、语音技术以及云技术领域，尤其涉及一种语音信号的识别方法、装置、电子设备及存储介质。

背景技术

目前，在对短视频、直播等场景中的语音进行处理时，由于这些场景中存在复杂多变的背景噪声，使得对这些场景中的语音进行语音识别带来了巨大的挑战。换言之，目前的语音识别系统在较强的背景噪声的干扰下识别性能会明显下降。

因此，如何提高语音识别的精确度，成为亟需解决的问题。

发明内容

本申请实施例提供一种语音信号的识别方法、装置、电子设备及存储介质，提高了语音识别的精确度。

一方面，本申请实施例提供一种语音信号的识别方法，该方法包括：

获取待识别的初始语音信号；

对上述初始语音信号进行信号分离，分离出上述初始语音信号中的目标语音信号；

对上述目标语音信号进行语音识别，得到语音识别结果。

一方面，本申请实施例提供了一种语音信号的识别装置，该装置包括：

初始语音信号获取模块，用于获取待识别的初始语音信号；

信号分离处理模块，用于对上述初始语音信号进行信号分离，分离出上述初始语音信号中的目标语音信号；

语音识别模块，用于对上述目标语音信号进行语音识别，得到语音识别结果。

在一种可行的实施例中，上述初始语音信号中包含背景信号，上述背景信号包括音乐信号或噪声信号中的至少一项。

在一种可行的实施例中，上述信号分离处理模块，用于：

提取上述初始语音信号的初始语音特征；

对上述初始语音特征进行特征分离，得到目标语音信号的特征；

基于上述目标语音信号的特征，得到目标语音信号。

在一种可行的实施例中，上述信号分离处理模块，用于：

将上述初始语音信号划分为若干个特征块；

将上述初始语音特征划分为若干个特征块；

对于每个上述特征块，提取上述特征块的局部特征；

基于每个上述特征块的局部特征，提取得到每个上述特征块对应的全局特征；

基于各上述特征块的局部特征和全局特征，得到上述目标语音信号的特征。在一种可行的实施例中，上述信号分离处理模块，用于：

将上述初始语音特征划分为相邻特征块之间具有部分信号重叠的若干个特征块。

在一种可行的实施例中，上述对上述初始语音信号进行信号分离，分离出上述初始语音信号中的目标语音信号通过信号分离模型实现的，上述信号分离模型包括语音特征提取模块、信号特征分离模块和信号输出模块，其中：

上述语音特征提取模块，用于提取上述初始语音信号的初始语音特征，将上述初始语音特征划分为若干个特征块，提取每个上述特征块的局部特征，通过融合各局部特征得到每个上述特征块对应的全局特征，基于各上述特征块的全局特征和局部特征，得到上述初始语音信号的深层语音特征；

上述信号特征分离模块，用于基于上述深层语音特征，确定上述初始语音信号对应目标语音信号的特征；

上述信号输出模块，用于对上述目标语音信号的特征进行解码，得到目标语音信号。

在一种可行的实施例中，上述语音特征提取模块具体用于：

对于每个上述特征块，对上述特征块进行特征提取，并通过融合上述特征块和提取的特征，得到上述特征块的局部特征，基于各上述特征块的局部特征进行特征融合及提取，得到每个上述特征块对应的全局特征，并通过融合上述特征块的局部特征和全局特征，得到上述特征块的融合特征；

叠加各上述特征块的融合特征，得到上述初始语音信号的深层语音特征；

上述信号特征分离模块具体用于：

基于上述深层语音特征，确定出上述深层语音特征中目标语音信号的特征权重信息；根据上述深层语音特征和上述目标语音信号的特征权重信息，得到目标语音信号的特征。

在一种可行的实施例中，对上述初始语音信号进行信号分离，分离出上述目标语音信号和背景信号，以及对上述目标语音信号进行语音识别，得到语音识别结果，是通过语音识别网络实现的，上述语音识别网络是通过训练模块训练得到的：

其中，上述语音识别网络是通过训练模块通过以下方式对神经网络模型训练得到的，上述神经网络模型包括级联的信号分离模型和语音识别模型：

获取训练数据集；

基于上述训练数据集和上述神经网络模型对应的总损失函数对上述神经网络模型进行迭代训练，直至上述总损失函数收敛，将收敛时的神经网络模型作为上述语音识别网络；

其中，上述总损失函数包括上述信号分离模型对应的第一损失函数和上述语音识别模型对应的第二损失函数。

在一种可行的实施例中，上述训练数据集中的每个训练样本包括样本待处理语音信号、上述样本待处理语音信号对应的真实目标语音信号，以及上述待处理语音信号对应的样本识别结果，上述训练模块，用于：

将各上述样本待处理语音信号输入至上述神经网络模型中，通过上述信号分离模型预测得到每个样本待处理语音信号的信号分离结果，并基于每个上述信号分离结果中的预测目标语音信号，通过上述语音识别模型得到每个样本待处理语音信号的预测识别结果；

基于各上述样本待处理语音信号对应的预测目标语音信号和真实目标语音信号，计算上述第一损失函数的第一损失值；

基于各上述样本待处理语音信号对应的预测识别结果和样本识别结果，计算上述第二损失函数的第二损失值；

基于上述第一损失值和上述第二损失值，确定上述总损失函数的总损失值；

基于上述训练数据集和上述总损失值对对上述神经网络模型进行迭代训练，直至上述总损失函数收敛。

在一种可行的实施例中，对于每个上述训练样本，上述训练样本还包括上述样本待处理语音信号对应的真实背景信号，上述信号分离结果还包括预测背景信号，上述训练模块，用于：

基于各上述样本待处理语音信号对应的预测目标语音信号和真实目标语音信号，以及各上述样本待处理语音信号对应的预测背景信号和真实背景信号，确定上述第一损失函数的第一损失值。

一方面，本申请实施例提供了一种电子设备，包括处理器和存储器，该处理器和存储器相互连接；

上述存储器用于存储计算机程序；

上述处理器被配置用于在调用上述计算机程序时，执行上述语音信号的识别方法的任一可选实施方式所提供的方法。

一方面，本申请实施例提供了一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，该计算机程序被处理器执行以实现上述语音信号的识别方法的任一种可能的实施方式所提供的方法。

一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行语音信号的识别方法的任一种可能的实施方式所提供的方法。

本申请实施例所提供的方案的有益效果在于：

本申请实施例中，本申请实施例所提供的语音信号的识别方法、装置、电子设备及存储介质，在获取到待识别的初始语音信号后，通过对该初始语音信号进行信号分离，能够分离出该初始语音信号中的目标语音信号，然后通过对分离出来的目标语音信号进行语音识别，来得到该待识别的初始语音信号对应的语音识别结果。采用这种方式，通过对初始语音信号进行信号分离，可以将初始语音信号中的背景信号分离出来，得到干净的目标语音信号，进而可以得到该干净的目标语音信号对应的语音识别结果，这种先语音分离后语音识别的方式，避免了直接对初始的语音信号进行语音识别而导致识别结果不准确的问题，可以有效提高包含音乐或者其他背景信号的混合语音信号的识别精确度。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音信号的识别方法的应用环境示意图；

图2是本申请实施例提供的一种语音信号的识别方法的流程示意图；

图3a是本申请实施例提供的一种可选的采用信号分离模型进行语音分离的原理示意图；

图3b是本申请实施例提供的一种可选的采用另一种信号分离模型进行语音分离的原理示意图；

图3c是本申请实施例提供的一种可选的对初始语音特征进行语音分割的原理示意图；

图4a是本申请实施例提供的一种可选的信号分离模型的训练过程的流程示意图；

图4b是本申请实施例提供的一种可选的语音识别模型的训练过程的流程示意图；

图4c是本申请实施例提供的一种神经网络模型的训练过程的流程示意图；

图5是本申请实施例提供的一种语音信号的识别装置的结构示意图；

图6是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本发明实施例中出现的术语包括：

语音分离：语音分离的目标是把目标语音从背景干扰中分离出来。在信号处理中，语音分离属于很基本的任务类型，应用范围很广泛，包括听力假体、移动通信、鲁棒的自动语音以及说话人识别。人类听觉系统能轻易地将一个人的声音和另一个人的分离开来。即使在鸡尾酒会那样的声音环境中，我们似乎也能毫不费力地在其他人的说话声和环境噪声的包围中听到一个人的说话内容。因此语音分离问题通常也被叫做[鸡尾酒会问题]。

信噪比：信噪比，英文名称叫做SNR或S/N(SIGNAL-NOISE RATIO)，又称为讯噪比。是指一个电子设备或者电子系统中信号与噪声的比例。这里面的信号指的是来自设备外部需要通过这台设备进行处理的电子信号，噪声是指经过该设备后产生的原信号中并不存在的无规则的额外信号(或信息)，并且该种信号并不随原信号的变化而变化。

本申请实施例提供的语音信号的识别方法涉及人工智能、大数据、语音技术以及云技术的多种领域，如语音技术中的语音识别、云技术(Cloud technology)中的云计算、云服务以及大数据领域中的相关数据计算处理等领域。

人工智能(Artificial Intelligence，AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音技术、自然语言处理技术以及机器学习/深度学习等几大方向。

语音技术(Speech Technology)的关键技术有自动语音识别技术(ASR)和语音合成技术(TTS)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。

自然语言处理(Nature Language processing，NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

机器学习(Machine Learning，ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。其中，本申请实施例中的初始语音信号可以为智能家居、虚拟助理、智能音箱、智能营销、机器人、智能客服等交互场景中的语音。

云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。本申请实施例所提供的语音信号的识别方法可基于云技术中的云计算(cloud computing)实现。

云计算是指通过网络以按需、易扩展的方式获得所需资源，是网格计算(GridComputing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network Storage Technologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。

人工智能云服务，一般也被称作是AIaaS(AI as a Service，AI即服务)。这是目前主流的一种人工智能平台的服务方式，具体来说AIaaS平台会把几类常见的人工智能服务进行拆分，并在云端提供独立或者打包的服务，如处理语音信号的识别请求等。

大数据(Big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注。基于大数据需要特殊的技术，以有效地实施本实施例所提供的语音信号的识别方法，其中适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、以及上述云计算等。

在一些可行的实施方式中，本申请的语音信号的识别方法可以应用于各种需要进行语音识别的场景中。其中，需要进行语音识别的初始语音信号可以根据实际场景确定，如短视频中的语音、直播场景中的语音、通话过程中产生的语音、人机交互场景(如智能家居、虚拟助理、智能音箱、智能营销、机器人、智能客服、车联网服务、车载服务、出行服务等人机交互场景)中产生的语音，等等，在此不作任何限定。

根据本发明实施例的一个方面，提供了一种语音信号的识别方法。为了更好的理解和说明本申请实施例所提供的方案，下面首先结合一个具体的实施例对本申请所提供的可选实施方案进行说明。

作为一个示例，图1中示出了本申请实施例所适用的一种语音信号的识别系统的结构示意图，可以理解的是，本申请实施例所提供的语音信号的识别方法可以适用于但不限于应用于如图1所示的应用场景中。

本示例中，以对获取到的待识别的初始语音信号为短视频或直播场景中的语音进行语音识别为例进行说明，如图1所示，该示例中的语音信号的识别系统可以包括但不限于用户终端101、网络102、服务器103。用户终端101可以通过网络102与服务器103通信，用户终端101可以通过网络向服务器103发送待识别的初始语音信号。用户终端101中运行有目标应用，通过该目标应用可以获取到待识别的初始语音信号，该目标应用可以为网页应用、应用程序(Application，简称APP)等。上述用户终端101中包括人机交互屏幕1011，处理器1012及存储器1013。人机交互屏幕1011用于用户通过该人机交互屏幕上传短视频或进行直播，即上传待识别的初始语音信号。处理器1012用于处理该用户的相关操作。存储器1013用于存储该待识别的初始语音信号。服务器103包括数据库1031和处理引擎1031。

如图1所示，本申请中的语音信号的识别方法的具体实现过程可以包括步骤S1-S3：

步骤S1，用户通过用户终端101中的目标应用上传待识别的初始语音信号(如短视频或直播场景中的语音)，该用户终端101通过网络102将待识别的初始语音信号发送至该目标应用对应的服务器103。

步骤S2，服务器103中的处理引擎1031接收该待识别的初始语音信号，并对上述初始语音信号进行信号分离，分离出上述初始语音信号中的目标语音信号，并去除掉初始语音信号中的背景信号。其中，服务器103中的数据库1031用于存储该初始语音信号、目标语音信号。

步骤S3，服务器103中的处理引擎1031对上述目标语音信号进行语音识别，得到语音识别结果。其中，服务器103中的数据库1031用于存储该语音识别结果。

可理解，上述仅为一种示例，本实施例在此不作限定。

其中，服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器或服务器集群。上述网络可以包括但不限于：有线网络，无线网络，其中，该有线网络包括：局域网、城域网和广域网，该无线网络包括：蓝牙、Wi-Fi及其他实现无线通信的网络。用户终端可以是智能手机(如Android手机、iOS手机等)、平板电脑、笔记本电脑、数字广播接收器、MID(Mobile InternetDevices，移动互联网设备)、PDA(个人数字助理)、台式计算机、车载终端(例如车载导航终端、车载电脑等)、智能音箱、智能手表等，用户终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接，但并不局限于此。具体也可基于实际应用场景需求确定，在此不作限定。

参见图2，图2是本申请实施例提供的一种语音信号的识别方法的流程示意图，该方法可以由任一电子设备执行，如可以是服务器或者用户终端，也可以是用户终端和服务器交互完成，可选的，可以由用户终端执行，如图2所示，本申请实施例提供的语音信号的识别方法包括如下步骤：

步骤S201，获取待识别的初始语音信号。

步骤S202，对上述初始语音信号进行信号分离，分离出上述初始语音信号中的目标语音信号。

步骤S203，对上述目标语音信号进行语音识别，得到语音识别结果。

可选的，待识别的初始语音信号可以基于实际场景情况确定，该初始语音信号可以为一段视频中的语音信号，还可以为一段语音中的语音信号，本申请实施例对该初始语音信号的来源不作限定。例如，该初始语音信号可以为短视频中的获取的语音信号，可以为视频直播、语音直播中获取的语音信号，可以为视频重播、语音重播中获取的语音信号等等。具体地，可以为电台语音、录音设备中的语音、通话录音、电视直播/重播中的语音、手机直播中的语音，等等，在此不作限定。

在获取到该待识别的初始语音信号后，由于该初始语音信号中可能会掺杂较多的噪声(如背景音乐、设备自身产生的噪声、非目标对象的声音等等)需要对该初始语音信号进行信号分离，以分离出该初始语音信号中的目标语音信号，并将背景信号去除。其中，目标语音信号即为想要的干净的目标语音信号。

在一种可选的实施例中，上述初始语音信号中包含背景信号，上述背景信号包括音乐信号或噪声信号中的至少一项。

可选的，该背景信号可以为该初始语音信号中携带音乐信号，该音乐信号可以为该初始语音信号对应的设备自身播放的背景音乐，或者除该初始语音信号对应的设备之外的其他设备所播放的音乐信号，在此不作任何限定。

或者，该背景信号还可以为产生或者播放该初始语音信号对应的设备，自身所产生的初始语音信号中并不存在的无规则的额外信号(或信息)，并且该种信号并不随初始语音信号的变化而变化。

可理解，上述仅为一种示例，本实施例在此不作任何限定。

按照上述方式可以将该初始语音信号中想要的干净的目标语音信号分离出来，进一步的，可以对该目标语音信号进行语音识别，得到语音识别结果。

其中，对该目标语音信号进行语音识别，可以通过语音识别技术实现，技术语音识别技术就是通过识别和理解过程把语音信号(如目标语音信号)转变为相应的文本或命令(如语音识别结果)的高技术。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

根据识别的对象不同，语音识别任务大体可分为3类，即孤立词识别(isolatedword recognition)，关键词识别(或称关键词检出，keyword spotting)和连续语音识别。其中，孤立词识别的任务是识别事先已知的孤立的词，如“开机”、“关机”等；连续语音识别的任务则是识别任意的连续语音，如一个句子或一段话；连续语音流中的关键词检测针对的是连续语音，但它并不识别全部文字，而只是检测已知的若干关键词在何处出现，如在一段话中检测“计算机”、“世界”这两个词。

根据针对的发音人，可以把语音识别技术分为特定人语音识别和非特定人语音识别，前者只能识别一个或几个人的语音，而后者则可以被任何人使用。

另外，根据语音设备和通道，可以分为桌面(如：PC)语音识别、电话语音识别和嵌入式设备(如：手机、PDA、车载设备等)语音识别。

语音识别的应用领域非常广泛，常见的应用系统有：语音输入系统，相对于键盘输入方法，它更符合人的日常习惯，也更自然、更高效；语音控制系统，即用语音来控制设备的运行，相对于手动控制来说更加快捷、方便，可以用在诸如工业控制、语音拨号系统、智能家电、声控智能玩具等许多领域；智能对话查询系统，根据客户的语音进行操作，为用户提供自然、友好的数据库检索服务，例如家庭服务、宾馆服务、旅行社服务系统、订票系统、医疗服务、银行服务、股票查询服务、出行服务等等。

在实际应用中，可根据实际应用场景，确定语音识别的具体使用场景，在此不作限定。

在一个示例中，上述语音信号的识别方法可以用于短视频、直播等中有复杂音乐背景下的语音分离与识别。在短视频、直播等场景中获取到要识别的初始语音信号，该初始语音信号中掺杂了复杂的音乐信号，通过对该掺杂了复杂音乐的初始语音信号进行信号分离，可以分离出将该初始语音信号中掺杂的音乐信号(即背景信号)分离出来，得到干净的人声信号，也可以称为说话人信号，即目标语音信号。然后，可以对该干净的人声信号进行语音识别，得到语音识别结果，如将该人声信号转变为对应的文本或者命令等，在此不作限定。

通过本申请实施例，通过对初始语音信号进行信号分离，可以将初始语音信号中的背景信号分离出来，得到干净的目标语音信号，进而可以得到该干净的目标语音信号对应的语音识别结果，这种先语音分离后语音识别的方式，避免了直接对初始的语音信号进行语音识别而导致识别结果不准确的问题，可以有效提高包含音乐或者其他背景信号的混合语音信号的识别精确度。

在一种可选的实施例中，上述对上述初始语音信号进行信号分离，分离出上述初始语音信号中的目标语音信号，包括：

提取上述初始语音信号的初始语音特征；

基于上述目标语音信号的特征，得到目标语音信号。

可选的，对初始语音信号(还可以称为混合语音)进行语音分离时，主要分为三个过程，先对初始语音信号进行特征提取，得到对应的初始语音特征。然后对该初始语音特征进行特征分离，得到该初始语音信号中包含的目标语音信号的特征。最后，基于该目标语音信号的特征进行解码，得到目标语音信号。其中，目标语音信号可能包括至少一个说话人对应的人声信号，在此不作限定。

本申请实施例中，从初始语音信号分离出目标语音信号和背景信号，可以采用信号分离模型进行语音分离，其中，信号分离模型的具体网络结构本申请实施例不做限定，可以根据实际需求配置。

作为一可选方案，图3a是本申请实施例提供的一种可选的采用信号分离模型进行语音分离的原理示意图，该信号分离模型的结构如图3a所示，它的结构分为编码器Encoder(即语音特征提取模块)、分离器Separator(即信号特征分离模块)、解码器Decoder(即信号输出模块)三个部分。如图3a中所示，在通过编码器对输入的初始语音信号进行编码前，可以先进行初始语音信号的预处理，如将初始语音信号进行模数转换，转换为数字信号，如将初始语音信号转换为混合脉冲编码调制信号即Mixture PCM(Pulse Code Modulation)信号，该PCM信号经过模型进行编码、信号分离及解码后，输出为分离过后的脉冲编码调制信号PCM，该分离过后的PCM信号即为图中所示的目标语音信号和背景信号。下面结合图3a对通过信号分离模型实现信号分离的具体过程进行说明：

将Mixture PCM信号输入至编码器，将该Mixture PCM信号分割(即Segmentation)为若个信号段，并对每个信号段进行标准化处理，之后对每个特征块进行编码处理即提取对每个信号段对应的语音特征，并通过拼接各特征块对应的语音特征，得到该Mixture PCM信号对应的初始语音特征(如图中所示的1.2，0.3，...，0，2.0)，也就是初始语音信号的初始语音特征，即目标语音信号的背景信号的混合信号(即初始语音信号)对应的特征。

在通过编码器提取得到初始语音特征之后，为了得到目标语音信号，需要对该初始语音特征进行特征分离，即分离出其中的目标语音信号的特征和背景语音信号的特征。具体的，将上述初始语音特征作为分离器Separation的输入，可选的，分离器可以分为特征提取模块和信号分离模块两个部分，特征提取模块可以基于该初始语音特征提取两部分信号(即目标语音信号和背景信号)各自所对应的权重特征，也就是对于初始语音特征中每个特征值，确定目标语音信号和背景信号对该特征值的贡献程度，之后，信号分离模块可以将该初始语音特征和目标语音信号对应的权重特征进行相乘，得到目标语音信号的特征，将该初始语音特征和背景信号对应的权重特征进行相乘，得到背景信号的特征，从而实现了对初始语音特征的分离，如图3a中所示的示例，目标语音信号的特征为图中所示的0.8，0.1，...，0，2.0，背景信号的特征为0.4，0.2，...，0，0.4，可以看出，初始语音特征中的每个特征值(可以简称为初始语音特征值)为目标语音信号和背景信号中相同位置的特征值之和，如初始语音特征中的第一个特征值为1.2，该特征值对应的目标语音信号的特征值和背景信号的特征值分别为0.8和0.4，即目标语音信号占该混合初始语音特征值的权重为0.8/1.2，背景信号占该初始语音特征值的权重为0.4/1.2。之后，可以通过解码器Decoder分别对目标语音信号的特征和背景信号的特征分别进行解码处理，得到目标语音信号对应的PCM信号和背景信号对应的PCM信号，之后可以分别对目标语音信号对应的PCM信号和背景信号对应的PCM信号进行数模转换，得到目标语音信号和背景信号。

需要说明的是，实际应用中，对于目标语音信号，识别出的目标语音信号可能会包含多个说话人的人声信号，如目标语音信号包含了说话人1(Speaker1)、说话人2(Speaker2)对应的人声信号。对于背景信号，可以不关注背景信号具体是什么，那么，解码器可以不用输出背景信号，在此不作限定。

在一种可选的实施例中，上述对上述初始语音特征进行特征分离，得到目标语音信号的特征，包括：

将上述初始语音特征划分为若干个特征块；

对于每个上述特征块，提取上述特征块的局部特征；

基于各上述特征块的局部特征和全局特征，得到上述目标语音信号的特征。

可选的，在对初始语音信号进行信号分离的过程中，可以将该初始语音信号划分为至少一个特征块，并提取每个特征块的局部特征(也就是每个特征块的特征，其中，局部是相对于整个初始语音信号而言的，由于该特征是初始语音信号中的部分信号的特征，因此，该特征为初始语音信号的局部特征)，来捕捉该初始语音信号的细粒度信息。同时，对于每个特征块来说，可以基于每个特征块的局部特征，来提取该特征块的全局特征，捕捉得到该特征块的整句信息。然后，基于各特征块的局部特征和全局特征，进行信号分离，得到该初始语音信号的目标语音信号，如果有需求，也可以分离出背景信号。

在一种可选的实施例中，上述将上述初始语音特征划分为若干个特征块，包括：

可选的，在将初始语音信号划分为至少一个特征块时，可以将初始语音信号划分为相邻特征块之间具有重叠部分的特征块。

通过本申请实施例，由于初始语音信号是一个完整的信息，在对初始语音信号进行划分处理时，通过使相邻两个特征块之间具有重叠部分，使得每个特征块不是独立存在，可以使每个特征块与相邻的其他特征块之间建立联系，便于获取更多的局部特征，提高了获取到的信息的丰富性、完整性。

在一种可选的实施例中，上述对上述初始语音信号进行信号分离，分离出上述初始语音信号中的目标语音信号通过信号分离模型实现的，上述信号分离模型包括语音特征提取模块、信号特征分离模块和信号输出模块，其中：

在一种可选的实施例中，上述语音特征提取模块具体用于：

对于每个上述特征块，对上述特征块进行特征提取，并通过融合上述特征块和提取的特征，得到上述信号块的局部特征，基于各上述特征块的局部特征进行特征融合及提取，得到每个上述特征块对应的全局特征，并通过融合上述特征块的局部特征和全局特征，得到上述特征块的融合特征；

上述信号特征分离模块具体用于：

对于语音特征提取模块、信号特征分离模块和信号输出模块的具体描述可参见后文中对图3b的描述，在此不再赘述。

作为一种可选方案，在进行语音分离的过程中，为了提高捕捉整句信息的能力，可以对图3a所示的编码器进行更新，得到更新后的编码器，即如图3b所示的结构，该模型包括更新后的编码器(即前文描述的语音特征提取模块)、分离器(信号特征分离模块)和解码器(信号输出模块)。图3b所示的模型进行语音分离时，主要分为编码、分离和解码三个部分。

以下结合图3b对语音分离的过程进行详细说明：

主要流程为：将初始语音信号输入该模型中，通过更新后的编码器进行初始特征提取得到该初始语音信号对应的初始语音特征，然后通过该更新后的编码器对该初始语音特征分别进行特征分割、块内处理、块间处理和特征叠加得到该初始语音信号对应的深层语音特征，基于深层语音特征进行特征分离，得到目标语音信号的特征和背景信号的特征，分别对目标语音信号的特征和背景信号的特征进行解码，可以得到对应的目标语音信号和背景信号。

对于初始特征提取得到初始语音特征的过程可参考前文描述，以下详述通过图3b所示的更新后的编码器结构对深层语音特征进行处理，可以得到其中的目标语音信号的特征和背景信号的特征，实现对初始语音信号中的两部分信号的特征分割。

主要分为：A.特征分割，B.块处理(即块内处理和块间处理)和C.重叠相加(即特征叠加)这三个过程，以下详述这三个过程：

A.分割。该部分是将分离器的输入即长语音序列(即初始语音信号的初始语音特征)分成一系列有重叠部分的特征块，如图3c所示，N为该长语音序列的特征维度(即通过更新后编码器得到的初始语音信号的初始语音特征的特征维度)，L为该长语音序列的时间维度(如初始语音信号对应的Mixture PCM信号的信号时间长度)，该示例中，分割后的各特征块之间可以的重叠长度为P，以避免由于特征块的分割点不够好导致的分割点前后的信号的特征缺失，通过分割得到的每个特征块的长度为K，可选的，K可以为2P，即使用步长为2P的长度来分割该长语音序列，得到若干个具有重叠部分为P的特征块。

B.块处理。接下来，针对分割所得到的若干个语音块(即特征块)进行处理。其中，对于每个特征块，可以首先提取各特征块的初始特征，即将各特征块转换为具有相同形状的张量(也就是得到各特征块的初始特征表示)，之后可以基于各特征块的初始特征进行块内处理和块间处理，其中，实现块内处理和块间处理的具体网络结构本申请实施例不做限定，块内处理和块间处理所采用的网络结构可以相同，也可以不同，如可以使用基于循环神经网络(Recurrent Neural Network，简称RNN)的结构对各特征块进行块内处理及块间处理。为了描述方便，下文中以基于RNN的网络结构作为块内处理的结构(简称为块内RNN)和块间处理的结构(块间RNN)为例进行说明。以下详述块内处理和块间处理的具体方式：

在一个或多个实施例中，对于每个特征块，块内处理的过程可以为：块内处理的目的是为了提取得到具有更好表达能力的该特征块自身所包含的信号特征，具体的，为了更好的提取每个特征块所包含的深层语义信息，首先可以对该特征块(即通过更新后的编码器提取的该特征块的语音特征)进行特征再提取，而为了提升每个特征块的特征的综合表达能力，可以通过融合该特征块的不同层级的特征得到该信号的局部特征，可选的，可以通过融合(如相加)该特征块(也可以称为浅层特征)和再提取得到的深层特征得到该特征块的局部特征。

而块间处理则是基于所有特征块的局部特征，进行全局信息的提取，即除了考虑各特征块自身的局部信息，还需要考虑所有特征块之间的关联关系(也就是特征块与整个初始语音信号的全局依赖信息)，块间处理的过程可以包括：将各特征块的局部特征作为块间处理的输入，对所有特征块的局部特征进行特征融合(如特征拼接)及特征提取(对拼接后的特征进行深层特征的提取)，以得到聚合了所有特征块的信息的全局特征。对于每个特征块，可以将该全局特征与该特征块对应的局部特征进行融合得到该特征块对应的融合特征，即每个特征块都有各自对应的融合特征。

在一个或多个实施例中，在对每个特征块进行处理的过程中，块内处理首先可以独立处理该特征块，即进行该特征块的特征再提取，并可以对再提取的特征经过应用线性完全连接层即全连接层FC进行特征维度的转换，以得到特征维度与初始特征维度一致的深层特征，并还可以通过标准层Layer Norm的进行归一化处理，得到归一化处理后的特征，之后可以通过融合该特征块的初始特征和归一化处理后的特征，得到该特征块的局部特征。然后对各特征块的局部特征进行块间处理，通过块间处理聚合来自所有特征块的信息做整句级别(utterance-level)的处理，可选的，再进行块间处理时，可以首先基于所有特征块的局部特征进行特征提取，如通过RNN网络进行特征提取，之后同样可以对该特征经过全连接层进行特征维度的转换，以保证转换后的特征维度与上述局部特征的维度一致，并通过标准层Layer Norm进行归一化处理，得到归一化处理后的全局特征。通过这种方式，既可以实验捕捉整句信息，又可以实现捕捉细粒度信息，这两种信息的捕获，对分离待处理的初始语音信号中的音乐信号的尤其有帮助，从而使得分离器能够更好的分离出目标语音信号部分的特征和背景语音信号部分的特征。

在一个或多个实施例中，块内RNN和块间RNN均可以使用基于前向的LSTM与后向的LSTM结合成Bilstm(Bi-directional Long Short-Term Memory，简称Bilstm)，以进一步提高对语音块的信息处理能力。

C.重叠相加。接下来，将得到的各特征块的融合特征进行重叠相加处理，得到目标语音信号的重叠特征(即深层语音特征)。具体的，接前文示例，假设每个特征块的长度为2P，相邻的各特征块之间的重叠长度为P，可以将各特征块对应的融合特征进行拼接，并将各个特征块之间有重叠部分的特征进行融合(如求平均)，得到该初始语音信号对应的深层语音特征。

举例来说，可以按照以下方式实现对各特征块的融合特征进行重叠相加处理，假设通过信号分割模块将初始语音信号划分为特征块1、特征块2、特征块3三个特征块，特征块1和特征块2之间的重叠部分为重叠部分1，特征块2和特征块3之间的重叠部分为重叠部分2，通过特征提取模块对该初始语音信号进行特征提取，可以得到这3个信号分别对应的融合特征1(该融合特征1包括重叠部分1的特征)，融合特征2(该融合特征2包括重叠部分1和重叠部分2的特征)，融合特征3(该融合特征3包括重叠部分2的特征)。然后，将各融合特征进行拼接，将重叠部分的特征采取求平均的方式进行融合，然后再将融合特征1、融合特征2和融合特征3进行拼接，得到深层语音特征。

之后，基于深层语音特征，通过分离器得到该深层语音特征中目标语音信号的特征权重信息，根据深层语音特征和目标语音信号的特征权重信息，得到目标语音信号的特征；

最后，基于得到的目标语音信号的特征，通过解码器对目标语音信号的特征进行解码，恢复生成目标长语音序列对应的目标语音信号，可以理解的，在实际应用中，还可以按照上述方式得到背景信号，在此不作限定。

可理解，上述仅为一种示例，本实施例在此不作任何限定。

通过本申请实施例，采用提取初始语音信号的局部特征，并基于局部特征获取全局特征，然后结合局部特征和全局特征来进行语音分离的方法，能够获取到细粒度信息和整句信息，使得获取的初始语音信号的信息更加丰富，提高了对初始语音信号进行语音分离的准确率。

在一种可选的实施例中，上述对上述初始语音信号进行信号分离，分离出上述目标语音信号和背景信号，以及对上述目标语音信号进行语音识别，得到语音识别结果，是通过语音识别网络实现的；

其中，上述语音识别网络是通过以下方式对神经网络模型训练得到的，上述神经网络模型包括级联的信号分离模型和语音识别模型：

获取训练数据集；

可选的，在对初始语音信号进行信号分离，分离出目标语音信号和背景信号，以及对目标语音信号进行语音识别，得到语音识别结果，可以通过一个语音识别网络来实现。

该语音识别网络可以通过对神经网络模型训练得到，该神经网络模型包括级联的信号分离模型和语音识别模型，在训练时，可以先分别训练信号分离模型和语音识别模型，然后在对训练好的信号分离模型和训练好的语音识别模型进行联合训练，得到最终训练好的神经网络模型，将联合训练结束时的神经网络模型作为语音识别网络。

具体地，获取训练数据集，基于该训练数据集和信号分离模型的对应的第一损失函数，对信号分离模型进行迭代训练，直至该第一损失函数收敛，将收敛时的信号分离模型作为训练好的信号分离模型。基于该训练数据集和语音识别模型的对应的第二损失函数，对语音识别模型进行迭代训练，直至该第二损失函数收敛，将收敛时的语音识别模型作为训练好的语音识别模型。

然后，将训练好的信号分离模型和训练好的语音识别模型串联起来，对神经网络模型进行联合训练，优化神经网络模型。基于训练数据集和神经网络模型的对应的总损失函数，对神经网络模型进行迭代训练，直至总损失函数收敛，当总损失函数不收敛时，调整神经网络模型的参数，重复执行上述过程，直到总损失函数收敛，将收敛时的神经网络模型作为训练好的神经网络模型，将该训练好的神经网络模型作为语音识别网络。其中，总损失函数包括第一损失函数和第二损失函数。

在一个示例中，信号分离模型的训练过程如图4a所示，图4a是本申请实施例提供的一种可选的信号分离模型的训练过程的流程示意图，其中，图4a中的分离模型即为该信号分离模型，具体步骤如下：

将语音(如样本待处理语音信号)和音乐(如真实背景信号)进行混合，得到混合后的语音信号，并将该混合后的语音信号输入分离模型(即信号分离模型)。通过分离模型(即信号分离模型)对该混合后的语音信号进行信号分离，可以得到分离后的语音(如预测目标语音信号)，该分离后的语音包括干净语音和音乐。基于分离后的语音(如预测目标语音信号)和原始的语音(如样本待处理语音信号)计算损失，该损失可以为如图4a所示的语音分离的尺度不变信噪比损失(SIGNAL-NOISE RATIO Loss，简称SiSNR Loss(即第一损失函数))。当该SiSNR Loss满足收敛的条件时，可以将收敛时的信号分离模型作为训练好的信号分离模型。其中，该SiSNR Loss可以使分离模型准确的分离出干净语音和音乐。

在一个示例中，语音识别模型的训练过程如图4b所示，图4b是本申请实施例提供的一种可选的语音识别模型的训练过程的流程示意图，其中，图4b中的声学模型即为该语音识别模型的一部分，具体步骤如下：

对干净语音进行特征提取，得到该干净语音的特征，然后基于语音识别模型进行识别，得到预测识别结果。其中，语音识别模型中包括声学模型、语言模型和解码器。基于预测识别结果和原始的干净语音对应的样本识别结果计算损失，该损失可以为图4b所示的CTC Loss(即第二损失函数)。当该联结主义时间分类损失(Connectionist TemporalClassification Loss，简称CTC Loss)满足收敛的条件时，可以将收敛时的语音识别模型作为训练好的语音识别模型。其中，该语音识别模型中包含声学模型，该声学模型在训练时采用的是CTC Loss，其目标是拟合声学训练目标，目标可以是音节，也可以是字，在此不作限定。

通过本申请实施例，可以分别训练信号分离模型和语音识别模型，然后基于训练好的信号分离模型和语音识别模型进行联合训练，得到优化后的神经网络模型，这种联合训练的方式，能够综合考虑考虑语音分离和语音识别，同时满足语音分离和语音识别的最优性，提高了语音识别网络的性能，当待识别的初始语音信号中存在干扰的非目标语音时，通过语音识别网络对待识别的初始语音信号通过先分离后识别的方式，极大地提高了语音识别的准确率。

上述详述了信号分离模型和语音识别模型分别训练的过程，以下详述对信号分离模型和语音识别模型(即神经网络模型)进行联合训练的过程。

在一种可选的实施例中，上述训练数据集中的每个训练样本包括样本待处理语音信号、上述样本待处理语音信号对应的真实目标语音信号，以及上述待处理语音信号对应的样本识别结果；

上述基于上述训练数据集和上述神经网络模型对应的总损失函数对上述神经网络模型进行迭代训练，直至上述总损失函数收敛，包括：

可选的，最新的语音分离通常采用SISNR作为目标准则，该目标主要是使得分离后语音的信噪比得到提升，从主观听感上带来明显的改善，然而主观听觉感受的变好并不一定带来识别性能的提升，这是因为分离算法会对语音造成潜在的损伤失真，人耳无法分辨但对识别系统可能造成很大的负面影响。

针对这一问题，本申请实施例中，采用前端信号分离模型-后端语音识别模型的识别准则，将信号分离模型和语音识别模型串联起来进行联合优化，可以显著提升分离后的识别性能。

在一个示例中，如图4c所示，图4c是本申请实施例提供的一种神经网络模型的训练过程的流程示意图。其中，图4c所示的语音即为真实目标语音信号，音乐即为真实背景信号，分离后的语音即为信号分离结果，该神经网络模型的联合训练过程具体如下：

在语音中混入音乐，得到混合后的语音，将混合后的语音输入信号分离模型，信号分离模型对混合后的语音进行处理，得到分离后的语音，即将混合后的语音分离成干净语音(即预测目标语音信号)和音乐(预测背景信号)。然后将通过信号分离模型分离出的干净语音，进行特征提取，得到该干净语音对应的特征，通过语音识别模型进行语音识别，可以得到该干净语音(预测目标语音信号)对应的预测识别结果。

其中，信号分离模型采用SiSNR Loss(即第一损失函数)计算损失，语音识别模型采用的CTC Loss(即第二损失函数)计算损失，SiSNR Loss和CTC Loss会同时往后传递梯度，对信号分离模型和语音识别模型同时进行训练，将结束训练时的信号分离模型和语音识别模型构成的神经网络模型作为语音识别网络。

以下详述图4c中的特征提取过程，从图中可以看出，通过对信号分离模型分离出的干净语音进行STFT变换、梅尔滤波器组(matmul)进行梅尔滤波操作、差分操作、扩帧处理和跳帧处理，可以得到该信号分离模型分离出的干净语音对应的特征。

采用这种信号分离模型和语音识别同时进行训练的方式，解决了信号分离模型和语音识别模型匹配错误的问题，进一步提升了语音识别效果。

在对训练好的语音识别网络进行测试，测试结果如表1所示，可以看出在音乐背景测试集A和背景测试集B上均取得了相对20％的性能提升，在综合测试集A和综合测试集B上取得了4+％的性能提升，在clean测试集上性能无损伤。本申请实施例中的方法，可以将音乐语音分离技术在真实工业场景、海量工业级数据中应用并取得显著效果，可以用于短视频、直播等复杂音乐背景下的语音分离与识别。

表1

通过本申请实施例，这种采用联合训练的方式，提高了信号分离模型和语音识别模型的匹配度，进而提高了语音识别网络的识别准确率。

在一种可选的实施例中，对于每个上述训练样本，上述训练样本还包括上述样本待处理语音信号对应的真实背景信号，上述信号分离结果还包括预测背景信号；

上述基于各上述样本待处理语音信号对应的预测目标语音信号和真实目标语音信号，计算上述第一损失函数的第一损失值，包括：

可选的，上述描述了第一损失函数可以通过样本待处理语音信号对应的预测目标语音信号和真实目标语音信号，来计算第一损失函数的第一损失值。也就是说，可以只关心真实的样本待处理语音信号和通过信号分离模型分离得到的预测目标语音信号之间的损失值，将该损失值作为第一损失函数的第一损失值。

在一示例中，对于训练数据集中的每个训练样本，该训练样本中还包括样本待处理语音信号对应的真实背景信号，信号分离结果还包括预测背景信号。在计算第一损失函数时，还可以考虑各样本待处理语音信号对应的预测目标语音信号和真实目标语音信号之间的损失值，以及各样本待处理语音信号对应的预测背景信号和真实背景信号之间的损失值，可以将这两者的损失值的加权求和值，确定为第一损失函数的第一损失值。

可理解，以上仅为一种示例，本实施例在此不作任何限定。

通过本申请实施例，可以同时考虑样本待处理语音信号和真实背景信号分别对应的损失值，将两者的损失作为信号分离模型的损失值，这种计算损失的方式，考虑的信息更加全面，提高了训练效果。

参见图5，图5是本申请实施例提供的一种语音信号的识别装置的结构示意图。本申请实施例提供的语音信号的识别装置1包括：

初始语音信号获取模块11，用于获取待识别的初始语音信号；

信号分离处理模块12，用于对上述初始语音信号进行信号分离，分离出上述初始语音信号中的目标语音信号；

语音识别模块13，用于对上述目标语音信号进行语音识别，得到语音识别结果。

在一种可行的实施例中，上述信号分离处理模块，用于：

提取上述初始语音信号的初始语音特征；

基于上述目标语音信号的特征，得到目标语音信号。

在一种可行的实施例中，上述信号分离处理模块，用于：

将上述初始语音信号划分为若干个特征块；

将上述初始语音特征划分为若干个特征块；

对于每个上述特征块，提取上述特征块的局部特征；

在一种可行的实施例中，上述语音特征提取模块具体用于：

上述信号特征分离模块具体用于：

获取训练数据集；

本申请实施例中，在获取到待识别的初始语音信号后，通过对该初始语音信号进行信号分离，能够分离出该初始语音信号中的目标语音信号，然后通过对分离出来的目标语音信号进行语音识别，来得到该待识别的初始语音信号对应的语音识别结果。采用这种方式，通过对初始语音信号进行信号分离，可以将初始语音信号中的背景信号分离出来，得到干净的目标语音信号，进而可以得到该干净的目标语音信号对应的语音识别结果，这种先语音分离后语音识别的方式，避免了直接对初始的语音信号进行语音识别而导致识别结果不准确的问题，可以有效提高包含音乐或者其他背景信号的混合语音信号的识别精确度。

具体实现中，上述装置1可通过其内置的各个功能模块执行如上述图2中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

参见图6，图6是本申请实施例提供的电子设备的结构示意图。如图6所示，本实施例中的电子设备1000可以包括：处理器1001，网络接口1004和存储器1005，此外，上述电子设备1000还可以包括：用户接口1003，和至少一个通信总线1002。其中，通信总线1002用于实现这些组件之间的连接通信。其中，用户接口1003可以包括显示屏(Display)、键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。存储器1004可以是高速RAM存储器，也可以是非不稳定的存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1005可选的还可以是至少一个位于远离前述处理器1001的存储装置。如图6所示，作为一种计算机可读存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及设备控制应用程序。

在图6所示的电子设备1000中，网络接口1004可提供网络通讯功能；而用户接口1003主要用于为用户提供输入的接口；而处理器1001可以用于调用存储器1005中存储的设备控制应用程序。

应当理解，在一些可行的实施方式中，上述处理器1001可以是中央处理单元(central processing unit，CPU)，该处理器还可以是其他通用处理器、数字信号处理器(digital signal processor，DSP)、专用集成电路(application specific integratedcircuit，ASIC)、现成可编程门阵列(field-programmable gate array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。该存储器可以包括只读存储器和随机存取存储器，并向处理器提供指令和数据。存储器的一部分还可以包括非易失性随机存取存储器。例如，存储器还可以存储设备类型的信息。

具体实现中，上述电子设备1000可通过其内置的各个功能模块执行如上述图2中各个步骤所提供的实现方式，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质存储有计算机程序，被处理器执行以实现图2中各个步骤所提供的方法，具体可参见上述各个步骤所提供的实现方式，在此不再赘述。

上述计算机可读存储介质可以是前述任一实施例提供的任务处理装置的内部存储单元，例如电子设备的硬盘或内存。该计算机可读存储介质也可以是该电子设备的外部存储设备，例如该电子设备上配备的插接式硬盘，智能存储卡(smart media card，SMC)，安全数字(secure digital，SD)卡，闪存卡(flash card)等。上述计算机可读存储介质还可以包括磁碟、光盘、只读存储记忆体(read-only memory，ROM)或随机存储记忆体(randomaccess memory，RAM)等。进一步地，该计算机可读存储介质还可以既包括该电子设备的内部存储单元也包括外部存储设备。该计算机可读存储介质用于存储该计算机程序以及该电子设备所需的其他程序和数据。该计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。电子设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行图2中各个步骤所提供的方法。

本申请的权利要求书和说明书及附图中的术语“第一”、“第二”等是用于区别不同对象，而不是用于描述特定顺序。此外，术语“包括”和“具有”以及它们任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或电子设备没有限定于已列出的步骤或单元，而是可选地还包括没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或电子设备固有的其它步骤或单元。在本文中提及“实施例”意味着，结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置展示该短语并不一定均是指相同的实施例，也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是，本文所描述的实施例可以与其它实施例相结合。在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

以上所揭露的仅为本申请较佳实施例而已，不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种语音信号的识别方法，其特征在于，包括：

获取待识别的初始语音信号；

对所述初始语音信号进行信号分离，分离出所述初始语音信号中的目标语音信号；

对所述目标语音信号进行语音识别，得到语音识别结果。

2.根据权利要求1所述的方法，其特征在于，所述初始语音信号中包含背景信号，所述背景信号包括音乐信号或噪声信号中的至少一项。

3.根据权利要求1所述的方法，其特征在于，所述对所述初始语音信号进行信号分离，分离出所述初始语音信号中的目标语音信号，包括：

提取所述初始语音信号的初始语音特征；

对所述初始语音特征进行特征分离，得到目标语音信号的特征；

基于所述目标语音信号的特征，得到目标语音信号。

4.根据权利要求1所述的方法，其特征在于，所述对所述初始语音特征进行特征分离，得到目标语音信号的特征，包括：

将所述初始语音信号划分为若干个特征块；

对于每个所述特征块，提取所述特征块的局部特征；

基于每个所述特征块的局部特征，提取得到每个所述特征块对应的全局特征；

基于各所述特征块的局部特征和全局特征，得到所述目标语音信号的特征。

5.根据权利要求4所述的方法，其特征在于，所述将所述初始语音信号划分为若干个特征块，包括：

将所述初始语音信号划分为相邻特征块之间具有部分信号重叠的若干个特征块。

6.根据权利要求4或5所述的方法，其特征在于，所述对所述初始语音信号进行信号分离，分离出所述初始语音信号中的目标语音信号通过信号分离模型实现的，所述信号分离模型包括语音特征提取模块、信号特征分离模块和信号输出模块，其中：

所述语音特征提取模块，用于提取所述初始语音信号的初始语音特征，将所述初始语音特征划分为若干个特征块，提取每个所述特征块的局部特征，通过融合各局部特征得到每个所述特征块对应的全局特征，基于各所述特征块的全局特征和局部特征，得到所述初始语音信号的深层语音特征；

所述信号特征分离模块，用于基于所述深层语音特征，确定所述初始语音信号对应目标语音信号的特征；

所述信号输出模块，用于对所述目标语音信号的特征进行解码，得到目标语音信号。

7.根据权利要求6所述的方法，其特征在于，所述语音特征提取模块具体用于：

对于每个所述特征块，对所述特征块进行特征提取，并通过融合所述特征块和提取的特征，得到所述特征块的局部特征，基于各所述特征块的局部特征进行特征融合及提取，得到每个所述特征块对应的全局特征，并通过融合所述特征块的局部特征和全局特征，得到所述特征块的融合特征；

叠加各所述特征块的融合特征，得到所述初始语音信号的深层语音特征；

所述信号特征分离模块具体用于：

基于所述深层语音特征，确定出所述深层语音特征中目标语音信号的特征权重信息；根据所述深层语音特征和所述目标语音信号的特征权重信息，得到目标语音信号的特征。

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述对所述初始语音信号进行信号分离，分离出所述目标语音信号，以及对所述目标语音信号进行语音识别，得到语音识别结果，是通过语音识别网络实现的；

其中，所述语音识别网络是通过以下方式对神经网络模型训练得到的，所述神经网络模型包括级联的信号分离模型和语音识别模型：

获取训练数据集；

基于所述训练数据集和所述神经网络模型对应的总损失函数对所述神经网络模型进行迭代训练，直至所述总损失函数收敛，将收敛时的神经网络模型作为所述语音识别网络；

其中，所述总损失函数包括所述信号分离模型对应的第一损失函数和所述语音识别模型对应的第二损失函数。

9.根据权利要求8所述的方法，其特征在于，所述训练数据集中的每个训练样本包括样本待处理语音信号、所述样本待处理语音信号对应的真实目标语音信号，以及所述待处理语音信号对应的样本识别结果；

所述基于所述训练数据集和所述神经网络模型对应的总损失函数对所述神经网络模型进行迭代训练，直至所述总损失函数收敛，包括：

将各所述样本待处理语音信号输入至所述神经网络模型中，通过所述信号分离模型预测得到每个样本待处理语音信号的信号分离结果，并基于每个所述信号分离结果中的预测目标语音信号，通过所述语音识别模型得到每个样本待处理语音信号的预测识别结果；

基于各所述样本待处理语音信号对应的预测目标语音信号和真实目标语音信号，计算所述第一损失函数的第一损失值；

基于各所述样本待处理语音信号对应的预测识别结果和样本识别结果，计算所述第二损失函数的第二损失值；

基于所述第一损失值和所述第二损失值，确定所述总损失函数的总损失值；

基于所述训练数据集和所述总损失值对对所述神经网络模型进行迭代训练，直至所述总损失函数收敛。

10.根据权利要求9所述的方法，其特征在于，对于每个所述训练样本，所述训练样本还包括所述样本待处理语音信号对应的真实背景信号，所述信号分离结果还包括预测背景信号；

所述基于各所述样本待处理语音信号对应的预测目标语音信号和真实目标语音信号，计算所述第一损失函数的第一损失值，包括：

基于各所述样本待处理语音信号对应的预测目标语音信号和真实目标语音信号，以及各所述样本待处理语音信号对应的预测背景信号和真实背景信号，确定所述第一损失函数的第一损失值。

11.一种语音信号的识别装置，其特征在于，所述装置包括：

初始语音信号获取模块，用于获取待识别的初始语音信号；

信号分离处理模块，用于对所述初始语音信号进行信号分离，分离出所述初始语音信号中的目标语音信号；

语音识别模块，用于对所述目标语音信号进行语音识别，得到语音识别结果。

12.一种电子设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接；

所述存储器用于存储计算机程序；

所述处理器被配置用于在调用所述计算机程序时，执行如权利要求1至10任一项所述的方法。

13.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行以实现权利要求1至10任一项所述的方法。