CN111383653A

CN111383653A - 语音处理方法及装置、存储介质、机器人

Info

Publication number: CN111383653A
Application number: CN202010191423.1A
Authority: CN
Inventors: 许哲涛
Original assignee: Beijing Haiyi Tongzhan Information Technology Co Ltd
Current assignee: Beijing Haiyi Tongzhan Information Technology Co Ltd
Priority date: 2020-03-18
Filing date: 2020-03-18
Publication date: 2020-07-07

Abstract

本公开提供一种语音处理方法、语音处理装置、存储介质与机器人，涉及计算机技术领域。其中，所述语音处理方法包括：获取目标环境中的环境噪声信号，并获取所述来自于所述目标环境中相同位置处的混合声音信号；其中，所述混合声音信号由目标语音信号和所述环境噪声信号形成；对所述环境噪声信号进行信号变换，确定所述环境噪声信号对应的环境属性信息；将所述混合声音信号进行信号变换，确定所述混合声音信号对应的声音属性信息；根据所述声音属性信息以及所述环境属性信息进行逻辑运算，从所述混合声音信号中确定所述目标语音信号。本公开的技术方案能够提高语音处理的准确性和可靠性。

Description

语音处理方法及装置、存储介质、机器人

技术领域

本公开涉及计算机技术领域，具体而言，涉及一种语音处理方法、语音处理装置、计算机可读存储介质以及机器人。

背景技术

机房巡检机器人在数据机房运行，以辅助或者替代部分人工巡检工作，语音交互是巡检机器人功能之一。但是机房中部署有大量计算机，计算机工作产生噪声较大，因此需要对噪声等进行降噪处理或语音增强处理，以提高机器人对语音的识别效果。

相关技术中，一般机器人语音交互通常采用麦克风阵列，利用声源定位的方式可以实现空间滤波，从而进行降噪或者语音增强处理。上述方式中，声源定位的方式由于机房中噪声不具有明显的方向性，因此导致降噪效果较差，不能准确识别语音，且局限性较大。

需要说明的是，在上述背景技术部分公开的信息仅用于加强对本公开的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

发明内容

本公开提供一种语音处理方法及装置、计算机可读存储介质和机器人，进而至少在一定程度上克服相关技术中降噪效果较差以及语音识别效果较差的问题。

本公开的其他特性和优点将通过下面的详细描述变得显然，或部分地通过本公开的实践而习得。

根据本公开的一个方面，提供了一种语音处理方法，包括：获取目标环境中的环境噪声信号，并获取所述来自于所述目标环境中相同位置处的混合声音信号；其中，所述混合声音信号由目标语音信号和所述环境噪声信号形成；对所述环境噪声信号进行信号变换，确定所述环境噪声信号对应的环境属性信息；将所述混合声音信号进行信号变换，确定所述混合声音信号对应的声音属性信息；根据所述声音属性信息以及所述环境属性信息进行逻辑运算，从所述混合声音信号中确定所述目标语音信号。

在本公开的一种示例性实施例中，所述对所述环境噪声信号进行信号变换，确定所述环境噪声信号对应的环境属性信息，包括：对所述环境噪声信号进行分帧和加窗处理，获取加窗噪声信号；对所述加窗噪声信号进行傅里叶变换，以得到所述环境噪声信号对应的频谱和相位；将所述环境噪声信号对应的频谱和相位形成的傅里叶变换结果进行平均处理，以获取所述环境属性信息。

在本公开的一种示例性实施例中，所述将所述混合声音信号进行信号变换，确定所述混合声音信号对应的声音属性信息，包括：对所述混合声音信号进行分帧和加窗处理，获取加窗声音信号；对所述加窗声音信号进行傅里叶变换，以得到所述混合声音信号对应的频谱和相位，并根据所述混合声音信号对应的频谱和相位组成的傅里叶变换结果确定所述声音属性信息。

在本公开的一种示例性实施例中，所述根据所述声音属性信息以及所述环境属性信息进行逻辑运算，从所述混合声音信号中确定所述目标语音信号，包括：对所述声音属性信息对应的功率谱以及所述环境属性信息对应的功率谱进行减法操作，获取语音信号频谱；将所述语音信号频谱从频域变换至时域，以根据所述语音信号频谱确定所述目标语音信号。

在本公开的一种示例性实施例中，所述将所述语音信号频谱从频域变换至时域，以根据所述语音信号频谱确定所述目标语音信号，包括：将所述语音信号频谱结合对应的相位，确定针对频域的语音信号；对所述针对频域的语音信号进行傅里叶逆变换，得到针对时域的语音信号；对所述针对时域的语音信号进行去窗操作，以获取所述目标语音信号。

在本公开的一种示例性实施例中，所述对所述针对时域的语音信号进行去窗操作，包括：确定每帧的所述针对时域的语音信号；对所述每帧的所述针对时域的语音信号进行组合，以生成所述目标语音信号。

在本公开的一种示例性实施例中，所述确定每帧的所述针对时域的语音信号，包括：若每帧包含的所述针对时域的语音信号中存在重叠信号，则将重叠信号的平均值作为所述语音信号；若每帧包含的所述针对时域的语音信号中不存在重叠信号，则直接将所述针对时域的语音信号作为所述语音信号。

根据本公开的一个方面，提供一种语音处理装置，包括：信号获取模块，获取目标环境中的环境噪声信号，并获取所述来自于所述目标环境中的混合声音信号；其中，所述混合声音信号由目标语音信号和所述环境噪声信号形成；环境噪声转换模块，用于对所述环境噪声信号进行信号变换，确定所述环境噪声信号对应的环境属性信息；混合声音转换模块，用于将所述混合声音信号进行信号变换，确定所述混合声音信号对应的声音属性信息；目标语音确定模块，用于根据所述声音属性信息以及所述环境属性信息进行逻辑运算，从所述混合声音信号中确定所述目标语音信号。

根据本公开的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任意一项所述的语音处理方法。

根据本公开的一个方面，提供一种机器人，包括：噪声采集单元，用于采集目标环境中的环境噪声信号；语音采集单元，用于采集所述目标环境中的混合声音信号；处理器；以及存储器，用于存储所述处理器的可执行指令；其中，所述处理器配置为经由执行所述可执行指令来执行上述任意一项所述的语音处理方法。

本公开实施例中提供的语音处理方法、语音处理装置、计算机可读存储介质以及机器人，通过获取目标环境中的环境噪声信号并对其进行信号变换得到环境属性信息，同时在相同位置处获取混合声音信号并采用信号变换得到环境属性信息，进一步根据环境噪声信号的环境属性信息以及声音属性信息进行逻辑运算，从混合声音信号中确定目标语音信号。本公开实施例中的技术方案，一方面，由于可以通过对环境噪声信号和混合声音信号进行信号变换得到对应的属性信息，进而根据属性信息之间的逻辑运算获取目标语音信号，可以降低噪声均匀分布而导致的无方向性的影响，从而能够提高降噪的效果，进而从混合声音信号中准确地识别出目标语音信号，提高了语音识别的准确性，也增加了可靠性。另一方面，由于避免了不具有方向性导致的影响，因此避免了环境导致的局限性，增加了应用范围，提高了可用性。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施方式，并与说明书一起用于解释本公开的原理。显而易见地，下面描述中的附图仅仅是本公开的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示意性示出本公开实施例用于实现语音处理方法的应用场景的示意图。

图2示意性示出本公开实施例中一种语音处理方法的示意图。

图3示意性示出本公开实施例中一种机器人的示意图。

图4示意性示出本公开实施例机器人巡检的示意图。

图5示意性示出本公开实施例语音处理的电路原理示意图。

图6示意性示出本公开实施例语音处理的具体流程示意图。

图7示意性示出本公开实施例去窗操作的示意图。

图8示意性示出本公开实施例中语音处理装置的框图。

图9示意性示出本公开实施例中一种机器人的框图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的范例；相反，提供这些实施方式使得本公开将更加全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施方式中。在下面的描述中，提供许多具体细节从而给出对本公开的实施方式的充分理解。然而，本领域技术人员将意识到，可以实践本公开的技术方案而省略所述特定细节中的一个或更多，或者可以采用其它的方法、组元、装置、步骤等。在其它情况下，不详细示出或描述公知技术方案以避免喧宾夺主而使得本公开的各方面变得模糊。

此外，附图仅为本公开的示意性图解，并非一定是按比例绘制。图中相同的附图标记表示相同或类似的部分，因而将省略对它们的重复描述。附图中所示的一些方框图是功能实体，不一定必须与物理或逻辑上独立的实体相对应。可以采用软件形式来实现这些功能实体，或在一个或多个硬件模块或集成电路中实现这些功能实体，或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。

图1示出了可以应用本公开实施例的技术方案的应用场景的示意图。该应用场景100中可以包括用户101、机器人102以及设备103。其中，设备可以为服务器或者是计算机等终端设备，也可以为车间的生产设备，且设备可以为多个，可以均匀分布于目标环境中。目标环境例如可以为机房等具有均匀放置的设备的场景。用户可以为进入目标环境且能够进行语音交互的对象。机器人可以为用于在目标环境中进行巡检的设备，且机器人具有语音识别和语音降噪功能。

参考图1中所示，机器人可以采集包括用户发出的语音以及噪声的混合声音，也可以采集目标环境中的噪声；进一步地，机器人可以对采集到的混合声音和噪声进行信号变换，并从混合声音中识别到用户发出的语音。

应该理解，图1中的机器人以及设备的数目仅仅是示意性的。

需要说明的是，本公开实施例所提供的语音处理方法可以完全由机器人执行，相应地，语音处理装置可设置于机器人中。

基于上述应用场景，本公开实施例中提供了一种语音处理方法。参考图2中所示，该语音处理方法包括步骤S210至步骤S240，详细介绍如下：

在步骤S210中，获取目标环境中的环境噪声信号，并获取所述来自于所述目标环境中相同位置处的混合声音信号；其中，所述混合声音信号由目标语音信号和所述环境噪声信号形成；

在步骤S220中，对所述环境噪声信号进行信号变换，确定所述环境噪声信号对应的环境属性信息；

在步骤S230中，将所述混合声音信号进行信号变换，确定所述混合声音信号对应的声音属性信息；

在步骤S240中，根据所述声音属性信息以及所述环境属性信息进行逻辑运算，从所述混合声音信号中确定所述目标语音信号。

本公开实施例提供的语音处理方法中，一方面，由于可以通过对环境噪声信号和混合声音信号从时域变换到频域以进行信号变换得到对应的属性信息，进而根据属性信息之间的逻辑运算获取目标语音信号，可以降低噪声均匀分布而导致的无方向性的影响，从而能够提高降噪的效果，进而从混合声音信号中准确地识别出目标语音信号，提高了语音识别的准确性，也增加了可靠性。另一方面，由于避免了不具有方向性导致的影响，因此避免了环境导致的局限性，增加了应用范围，提高了可用性。

接下来，结合附图对本公开实施例中的语音处理方法进行进一步解释说明。

参考图2中所示，在步骤S210中，获取目标环境中的环境噪声信号，并获取所述来自于所述目标环境中相同位置处的混合声音信号；其中，所述混合声音信号由目标语音信号和所述环境噪声信号形成。

本公开实施例中，目标环境可以为具有均匀放置多个设备的区域，且目标环境产生的噪声由于噪声源的均匀分布而不具有明显的方向性，即无法判断是哪台设备产生的噪声。多个设备的类型可以相同或不同，但是多个设备产生的噪声可以类似或相同。举例而言，目标环境例如可以为放置多台计算机或服务器的计算机机房；目标环境也可以为均匀放置相同类型的生产设备的生产车间等等。本公开实施例中，以目标环境为机房为例进行说明。

机房由很多排整齐机柜构成，计算机在工作时发出噪声，且噪声值较大通常在70分贝左右。由于计算机在机房内均匀布置，机房内噪声并没有明显的方向性，机房内同一位置点，不同高度位置噪声相似。

环境噪声信号指的是由于目标环境中的设备而产生的噪声。环境噪声信号较强，声音较大，且由于设备均匀放置使得噪声源均匀分布在目标环境中，因此目标环境中的噪声不具有明显的方向性和可识别性。

混合声音信号指的是来源于目标环境中的，由目标语音信号以及环境噪声信号共同组成的声音信号，即在环境噪声信号下产生的目标语音信号。目标语音信号可以为用户发出的语音或者是其他机器模拟的语音(例如智能音箱等)。

本公开实施例中，机器人可以获取环境噪声信号。图3中示意性示出了机器人的示意图，参考图3中所示，该机器人300可以包括语音采集单元301以及噪声采集单元302。其中，语音采集单元用于采集目标环境中预设位置处的混合声音信号，预设位置可以为机房中任意一个设备的位置，例如(x2,y2)处。噪声采集单元用于采集目标环境中在预设位置处由设备而产生的噪声。采集噪声信号以及采集语音信号的位置可以相同，但是由于机器人的结构，采集的高度可以不同。本公开实施例中，机器人的类型可以为巡检机器人，但是该巡检机器人还可以执行其他操作，此处不做限定。或者是机器人的类型也可以为其他类型的机器人，只要其具有语音识别功能即可。

参考图3中所示，机房巡检机器人实物示意图，噪声采集单元320位于机器人腰部位置，与设备的高度匹配；语音采集单元310位于机器人头部位置，语音采集单元的高度与用户嘴巴高度相仿，或者是机器人的语音采集单元可以为可调节部件，以便于根据用户身高进行智能调节，从而使得与人的高度匹配，此处不做限定。

图4中示意性示出了机器人进行巡检的示意图。参考图4中所示，数据机房内均匀分布多个计算机，巡检机器人可以按照从某一行的第一个设备开始，按照设备的坐标由小到大的顺序，呈弓字形顺序进行移动，以便于按照弓字形巡检所有设备。在巡检过程中，每个设备只会被巡检一次，而不会重复。参考图4中所示，从位置(x1,y1)开始在相同行巡检至位置(xn,y1)，在下一行的位置(xn,y2)处开始巡检至相同行的位置(x1,y2)处，以此类推，直至巡检机器人移动至位置(xn,yn)处为止。

图5中示意性示出了语音处理的电路原理示意图，参考图5中所示，语音采集单元310可以包括麦克风510、放大滤波电路511、语音处理模块512。其中，由于机房内噪声很大，人与机器人进行语音交互时需尽量靠近机器人。语音采集单元310位于机器人头部，与普通人嘴巴高度相仿，当工作人员与机器人进行语音交互时，麦克风510会采集到工作人员的语音和环境噪音，麦克风采集到的声音信息经过放大滤波电路511处理后传输到语音处理模块512得到声音A(K)，此处的A(K)可以用于表示混合声音信号。

继续参考图5中所示，噪声采集单元320中可以包括：电容式声敏元件520、运算放大器521、模数转换器522以及单片机523。其中，电容式声敏元件可以将机房内的噪声信号转换为电信号，输出给运算放大器，经过运算放大器放大后输出到模数转换器，转换为数字信号后再输入给单片机，单片机读取数字信号得到环境噪音B(K)，B(K)可以用于表示环境噪声信号。需要说明的是，噪声采集单元可以和语音采集单元同时进行声音采集，此处不做限定。

本公开实施例中，可以通过巡检机器人来获取噪声采集单元采集的环境噪声信号以及获取语音采集单元采集的混合声音信号，以便于进行后续处理。在进行采集过程中，可以通过噪声采集单元准确采集环境噪声，并根据噪声采集单元中包含的电容式声敏元件、运算放大器、数模转换器以及单片机等对环境噪声进行准确处理，从而得到精准的环境噪声信号。同时也可以通过语音采集单元中包含的麦克风以及放大滤波电路和语音处理模块，对接收到的语音进行处理得到精准的混合声音信号。因此，提高了信号采集的准确性。另外，由于机器人上设置的噪音采集单元的位置与设备的高度匹配，语音采集单元设置的位置与人的高度匹配，因此能够提高信号采集的便捷性，同时可以保证采集信号的有效性，从而提高可靠性。

继续参考图2中所示，在步骤S220中，对所述环境噪声信号进行信号变换，确定所述环境噪声信号对应的环境属性信息。

本公开实施例中，在确定环境噪声信号之后，由于该环境噪声信号属于时域信号，因此可以对其进行信号转换从而确定其环境属性信息。此处的进行信号转换指的是转换分析信号的角度，具体可以将环境噪声信号从时域转换至频域，以便于通过频域分析来准确实现对信号进行处理。相对应的，当从时域转换至频域时，环境属性信息可以为用于表示频域特征的信息，具体可以由频谱和相位而得到。对一个时域信号进行傅里叶变换，就可以得到的信号的频谱，信号的频谱由两部分构成：幅度谱和相位谱。相位是对于一个波，特定的时刻在它循环中的位置：一种它是否在波峰、波谷或它们之间的某点的标度。相位描述信号波形变化的度量，通常以角度作为单位。

具体而言，确定环境噪声信号对应的环境属性信息的步骤可以包括：对所述环境噪声信号进行分帧和加窗处理，获取加窗噪声信号；对所述加窗噪声信号进行傅里叶变换，以得到所述环境噪声信号对应的频谱和相位；将所述环境噪声信号对应的频谱和相位进行平均处理，以获取所述环境属性信息。其中，分帧处理指的是将一个信号划分为多个频段的过程。环境噪声信号在宏观上是不平稳的，在微观上是平稳的，具有短时平稳性例如25ms，因此就可以把环境噪声信号分为多个片段进行处理，每一个处理片段称为一帧。通过分帧处理，能够便于进行信号处理，提高准确性。

参考图6中所示的具体流程图，在对环境噪声信号B(K)进行分帧之后，可以对分帧的信号进行加窗处理以得到加窗噪声信号B_i(K)。数字信号处理的主要数学工具是傅里叶变换，而傅里叶变换是研究整个时间域和频率域的关系。当运用计算机实现工程测试信号处理时，不可能对无限长的信号进行测量和运算，而是取其有限的时间片段进行分析。加窗处理指的是从信号中截取一个时间片段，然后用观察的信号时间片段进行周期延拓处理，得到虚拟的无限长的信号，然后就可以对信号进行傅里叶变换、相关分析等数学处理。具体可以采用矩形窗、三角窗、海明窗以及高斯窗中的任意一种进行加窗处理。通过加窗处理，能够减少频谱能量的泄露，使得信号更准确。

在分帧和加窗之后，可以对得到的加窗噪声信号B_i(K)进行傅里叶变换，得到环境噪声信号对应的频谱和相位。具体可以表示为频谱|B_i(W)|，相位

进而根据频谱和相位得到傅里叶变换结果

此处的傅里叶变换可以为快速傅里叶变换。进一步地，可以对根据频谱和相位得到的傅里叶变换结果进行平均处理，以得到环境噪声信号对应的环境属性信息，具体可以用公式(1)来表示：

接下来，在步骤S230中，将所述混合声音信号进行信号变换，确定所述混合声音信号对应的声音属性信息。

本公开实施例中，与上述环境噪声信号的处理过程类似，可以将混合声音信号从时域转换至频域进行信号变换，从而得到混合声音信号对应的声音属性信息。其中，声音属性信息可以为用于表示混合声音信号的频域特征的信息，具体可以由频谱和相位而得到。具体而言，可以包括以下步骤：对所述混合声音信号进行分帧和加窗处理，获取加窗声音信号；对所述加窗声音信号进行傅里叶变换，以得到所述混合声音信号对应的频谱和相位，并根据所述混合声音信号对应的频谱和相位确定所述声音属性信息。

其中，分帧和加窗处理的过程与环境噪声信号的处理过程相同，此处不再赘述。

继续参考图6中所示，在对混合声音信号A(K)进行分帧和加窗处理之后，可以得到加窗声音信号A_i(K)；进一步地可以对得到的加窗声音信号A_i(K)进行傅里叶变换，得到混合声音信号对应的频谱和相位。具体可以表示为频谱|A_i(W)|，相位

进而根据频谱和相位得到傅里叶变换结果

此处的傅里叶变换可以为快速傅里叶变换。快速傅里叶变换利用计算机计算离散傅里叶变换的高效、快速计算方法的统称。采用这种算法能使计算机计算离散傅里叶变换所需要的乘法次数大为减少，特别是被变换的抽样点数N越多，快速傅里叶变换算法计算量的节省就越显著。进一步地，可以直接将根据频谱和相位得到的傅里叶变换结果确定混合声音信号对应的声音属性信息，具体可以表示为

需要说明的是，对于混合声音信号进行信号转换以及对于环境噪声信号进行信号转换的顺序可以不做限定，即二者可以同时进行，也可以先处理混合声音信号再处理环境噪声信号，只要能够实现信号处理过程即可。本公开实施例中，通过将混合声音信号以及环境噪声信号从时域转换至频域，能够更便于信号计算，提高信号处理的准确性和可参考性。

继续参考图2中所示，在步骤S240中，根据所述声音属性信息以及所述环境属性信息进行逻辑运算，从所述混合声音信号中确定所述目标语音信号。

本公开实施例中，由于混合声音信号中包含环境噪声信号，因此可以根据声音属性信息和环境属性信息，对环境噪声信号进行过滤和降噪，来从混合声音信号中确定目标语音信号或者是提取出用户的目标语音信号，以识别目标语音信号的内容。此处的逻辑运算可以为减法操作，或者是也可以为其他合适的运算，此处不作限定。

根据所述声音属性信息以及所述环境属性信息进行逻辑运算，从所述混合声音信号中确定所述目标语音信号，可以通过公式(2)来表示：

S(K)＝A(K)-B(K) 公式(2)

数据机房内背景噪声比较稳定均匀，机房环境中带有噪音的语音谱减去噪声谱，就会得到相对纯洁的语音，从而提高语音识别率。

基于上述公式(2)，根据所述声音属性信息以及所述环境属性信息进行逻辑运算，从所述混合声音信号中确定所述目标语音信号包括：对所述声音属性信息对应的功率谱以及所述环境属性信息对应的功率谱进行减法操作，获取语音信号频谱；将所述语音信号频谱从频域变换至时域，以根据所述语音信号频谱确定所述目标语音信号。具体而言，首先可以将声音属性信息和环境属性信息均转换为对应的功率谱。功率谱定义为单位频带内的信号功率，它表示了信号功率随着频率的变化情况，即信号功率在频域的分布状况。周期性连续信号的频谱可表示为离散的非周期序列，它的幅度频谱的平方所排成的序列，就被称之为该周期信号的功率谱。由此可以得知，声音属性信息对应的功率谱可以表示为|A_i(W)|²，环境属性信息的功率谱可以表示为M²。参考图6中所示，在得到各自对应的功率谱之后，可以将二者的功率谱进行减法操作，然后再进行开方操作，得到目标语音信号的语音信号频谱S_i(W)，语音信号频谱可以用公式(3)来计算：

S_i(W)＝(|A_i(W)|²-M²)^1/2 公式(3)

在得到语音信号频谱后，可以将语音信号频谱从频域再转换至时域，以根据转换后的语音信号频谱来确定对应的目标语音信号。具体而言，可以包括以下步骤，具体可以结合图6中进行说明，其中：

步骤一、将所述语音信号频谱结合对应的相位，确定针对频域的语音信号。其中，由于要识别的是人的语音，因此语音信号频谱的相位可以为混合声音信号对应的相位。可以对语音信号频谱添加相对应的相位

得到针对于频域的语音信号

步骤二、对所述针对频域的语音信号进行傅里叶逆变换，得到针对时域的语音信号。其中，由于需要的结果是时域结果，因此可以通过傅里叶逆变换将针对频域的语音信号从频域转换至时域，以提取出时域对应的语音信号。傅里叶逆变换指的是前述快速傅里叶变换的逆过程，具体可以为快速傅里叶逆变换。例如，参考图6中所示，对针对于频域的语音信号

进行傅里叶逆变换，能够得到针对时域的语音信号

步骤三、对所述针对时域的语音信号进行去窗操作，以获取所述目标语音信号。去窗操作指的是加窗操作的逆操作。由于加窗操作之前对混合声音信号和环境噪声信号都进行了分帧操作，以减少操作量。因此在去窗之后，得到的是依然是分帧的语音信号。由于此处需要识别的目标语音信号是连续的语音信号，因此需要对分帧的语音信号进行重新组合，以形成完整的目标语音信号。此处的分帧的语音信号指的是针对时域的语音信号。

基于此，去窗操作可以包括以下步骤：步骤一、确定每帧的所述针对时域的语音信号。每帧可以用一个片段来表示，每帧包含的语音信号的长度可以相同或不同，每帧包含的语音信号可以存在重叠信号或者是不存在重叠信号。举例而言，第一帧的信号为0-15秒的信号，第二帧的信号可以为10-25秒等等。为了保证信号的连续性，第一帧之后的所有帧的信号之间均可以存在重叠信号。基于此，可以根据每帧包含的语音信号(针对时域)是否存在重叠信号来确定每帧的针对时域的语音信号。具体地，若每帧包含的所述针对时域的语音信号中存在重叠信号，则将重叠信号的平均值作为所述每帧的语音信号；若每帧包含的所述针对时域的语音信号中不存在重叠信号，则直接将所述针对时域的语音信号作为所述语音信号。参考图7中所示的去窗操作的示意图，其中第一片段可以为a和b，第二片段可以为c和d，第三片段可以为e和f，且后一个片段与前一个片段之间存在重叠。因此第一帧包括信号a，其语音信号为a；第二帧包含信号b和c，其语音信号为b+c的平均值；第三帧包含信号d和e，其语音信号为d+e的平均值；第四帧包含信号f，其语音信号为f。

去窗操作还可以包括步骤二：对所述每帧的所述针对时域的语音信号进行组合，以生成所述目标语音信号。在进行组合时，可以按照信号之间的先后顺序，将每一帧的针对时域的语音信号进行组合拼接，以将所有帧的针对时域的语音信号之和作为完整的目标语音信号，从而从分帧后的语音信号中恢复目标语音信号，该目标语音信号即为从混合声音信号中降噪得到的人的语音信号。参考图7中所示，目标语音信号可以用公式(4)来表示：

S(K)＝a+(b+c)/2+(d+e)/2+... 公式(4)

再参考图6中所示，对针对时域的语音信号

进行去窗操作恢复原始信号，可以得到最终的目标语音信号S(K)。

本公开实施例中，针对数据机房大背景噪音(70分贝左右，且噪音平稳无方向性)，利用在机房同一坐标点不同高度处采集混合声音信号和环境噪声信号，对采集到的信号利用傅里叶变换将信号从时域变换到频域，混合声音信号的功率谱减去环境噪声信号的功率谱，得到语音信号功率谱，再将得到的针对频域的语音信号经过傅里叶逆变换得到降噪后的目标语音信号，可降低机房背景噪音影响，提高了目标环境中的降噪效果，并且提高语音识别的准确性、提高了机器人进行语音识别的识别率以及语音识别效果，能够为巡检过程以及交互过程提供便利。在不具有方向性的目标环境中，能够提高识别效果，避免了局限性，提高了可靠性。

本公开实施例中，还提供了一种语音处理装置，参考图8中所示，该语音处理装置800主要包括以下模块：

信号获取模块801，获取目标环境中的环境噪声信号，并获取所述来自于所述目标环境中的混合声音信号；其中，所述混合声音信号由目标语音信号和所述环境噪声信号形成；

环境噪声转换模块802，用于对所述环境噪声信号进行信号变换，确定所述环境噪声信号对应的环境属性信息；

混合声音转换模块803，用于将所述混合声音信号进行信号变换，确定所述混合声音信号对应的声音属性信息；

目标语音确定模块804，用于根据所述声音属性信息以及所述环境属性信息进行逻辑运算，从所述混合声音信号中确定所述目标语音信号。

在本公开的一种示例性实施例中，环境噪声转换模块被配置为：对所述环境噪声信号进行分帧和加窗处理，获取加窗噪声信号；对所述加窗噪声信号进行傅里叶变换，以得到所述环境噪声信号对应的频谱和相位；将所述环境噪声信号对应的频谱和相位形成的傅里叶变换结果进行平均处理，以获取所述环境属性信息。

在本公开的一种示例性实施例中，混合声音转换模块被配置为：对所述混合声音信号进行分帧和加窗处理，获取加窗声音信号；对所述加窗声音信号进行傅里叶变换，以得到所述混合声音信号对应的频谱和相位，并根据所述混合声音信号对应的频谱和相位组成的傅里叶变换结果确定所述声音属性信息。

在本公开的一种示例性实施例中，目标语音确定模块包括：频谱获取模块，用于对所述声音属性信息对应的功率谱以及所述环境属性信息对应的功率谱进行减法操作，获取语音信号频谱；频域转换模块，用于将所述语音信号频谱从频域变换至时域，以根据所述语音信号频谱确定所述目标语音信号。

在本公开的一种示例性实施例中，频域转换模块包括：相位增加模块，用于将所述语音信号频谱结合对应的相位，确定针对频域的语音信号；时域确定模块，用于对所述针对频域的语音信号进行傅里叶逆变换，得到针对时域的语音信号；信号去窗模块，用于对所述针对时域的语音信号进行去窗操作，以获取所述目标语音信号。

在本公开的一种示例性实施例中，信号去窗模块包括：信号确定模块，用于确定每帧对应的所述针对时域的语音信号；信号组合模块，用于对所述每帧的所述针对时域的语音信号进行组合，以生成所述目标语音信号。

在本公开的一种示例性实施例中，信号确定模块被配置为：若每帧包含的所述针对时域的语音信号中存在重叠信号，则将重叠信号的平均值作为所述语音信号；若每帧包含的所述针对时域的语音信号中不存在重叠信号，则直接将所述针对时域的语音信号作为所述语音信号。

此外，上述语音处理装置中各部分的具体细节在语音处理方法部分实施方式中已经详细说明，未披露的细节内容可以参见方法部分的实施方式内容，因而不再赘述。

应当注意，尽管在上文详细描述中提及了用于动作执行的设备的若干模块或者单元，但是这种划分并非强制性的。实际上，根据本公开的实施方式，上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之，上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。

此外，尽管在附图中以特定顺序描述了本公开中方法的各个步骤，但是，这并非要求或者暗示必须按照该特定顺序来执行这些步骤，或是必须执行全部所示的步骤才能实现期望的结果。附加的或备选的，可以省略某些步骤，将多个步骤合并为一个步骤执行，以及/或者将一个步骤分解为多个步骤执行等。

在本公开的实施例中，还提供了一种能够实现上述方法的机器人。

所属技术领域的技术人员能够理解，本公开的各个方面可以实现为系统、方法或程序产品。因此，本公开的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

下面参照图9来描述根据本公开的这种实施方式的机器人900。图9显示的机器人900仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图9所示，机器人900的组件可以包括但不限于：噪声采集单元910、语音采集单元920、上述至少一个处理单元(处理器)930、上述至少一个存储单元(存储器)940。其中，噪声采集单元用于采集目标环境中的环境噪声信号，语音采集单元用于采集所述目标环境中的混合声音信号。除此之外，机器人还可以包括连接不同系统组件(包括存储单元和处理单元)的总线以及显示单元。

其中，所述存储单元存储有程序代码，所述程序代码可以被所述处理单元执行，使得所述处理单元执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。例如，所述处理单元可以执行如图2中所示的步骤。

存储单元可以包括易失性存储单元形式的可读介质，例如随机存取存储单元(RAM)和/或高速缓存存储单元，还可以进一步包括只读存储单元(ROM)。

存储单元还可以包括具有一组(至少一个)程序模块的程序/实用工具，这样的程序模块包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线可以为表示几类总线结构中的一种或多种，包括存储单元总线或者存储单元控制器、外围总线、图形加速接口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

机器人900也可以与一个或多个外部设备(例如键盘、指向设备、蓝牙设备等)通信，还可与一个或者多个使得用户能与该机器人900交互的设备通信，和/或与使得该机器人900能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口进行。并且，机器人900还可以通过网络适配器与一个或者多个网络(例如局域网(LAN)，广域网(WAN)和/或公共网络，例如因特网)通信。如图所示，网络适配器通过总线与机器人900的其它模块通信。应当明白，尽管图中未示出，可以结合机器人900使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。

在本公开的实施例中，还提供了一种计算机可读存储介质，其上存储有能够实现本说明书上述方法的程序产品。在一些可能的实施方式中，本公开的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在终端设备上运行时，所述程序代码用于使所述终端设备执行本说明书上述“示例性方法”部分中描述的根据本公开各种示例性实施方式的步骤。

根据本公开的实施方式的用于实现上述方法的程序产品，其可以采用便携式紧凑盘只读存储器(CD-ROM)并包括程序代码，并可以在终端设备，例如个人电脑上运行。然而，本公开的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于无线、有线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本公开操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、C++等，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络，包括局域网(LAN)或广域网(WAN)，连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

此外，上述附图仅是根据本公开实施例的方法所包括的处理的示意性说明，而不是限制目的。易于理解，上述附图所示的处理并不表明或限制这些处理的时间顺序。另外，也易于理解，这些处理可以是例如在多个模块中同步或异步执行的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其他实施例。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限。

Claims

1.一种语音处理方法，其特征在于，包括：

获取目标环境中的环境噪声信号，并获取所述来自于所述目标环境中相同位置处的混合声音信号；其中，所述混合声音信号由目标语音信号和所述环境噪声信号形成；

对所述环境噪声信号进行信号变换，确定所述环境噪声信号对应的环境属性信息；

将所述混合声音信号进行信号变换，确定所述混合声音信号对应的声音属性信息；

根据所述声音属性信息以及所述环境属性信息进行逻辑运算，从所述混合声音信号中确定所述目标语音信号。

2.根据权利要求1所述的语音处理方法，其特征在于，所述对所述环境噪声信号进行信号变换，确定所述环境噪声信号对应的环境属性信息，包括：

对所述环境噪声信号进行分帧和加窗处理，获取加窗噪声信号；

对所述加窗噪声信号进行傅里叶变换，以得到所述环境噪声信号对应的频谱和相位；

将所述环境噪声信号对应的频谱和相位形成的傅里叶变换结果进行平均处理，以获取所述环境属性信息。

3.根据权利要求1所述的语音处理方法，其特征在于，所述将所述混合声音信号进行信号变换，确定所述混合声音信号对应的声音属性信息，包括：

对所述混合声音信号进行分帧和加窗处理，获取加窗声音信号；

对所述加窗声音信号进行傅里叶变换，以得到所述混合声音信号对应的频谱和相位，并根据所述混合声音信号对应的频谱和相位组成的傅里叶变换结果确定所述声音属性信息。

4.根据权利要求1所述的语音处理方法，其特征在于，所述根据所述声音属性信息以及所述环境属性信息进行逻辑运算，从所述混合声音信号中确定所述目标语音信号，包括：

对所述声音属性信息对应的功率谱以及所述环境属性信息对应的功率谱进行减法操作，获取语音信号频谱；

将所述语音信号频谱从频域变换至时域，以根据所述语音信号频谱确定所述目标语音信号。

5.根据权利要求4所述的语音处理方法，其特征在于，所述将所述语音信号频谱从频域变换至时域，以根据所述语音信号频谱确定所述目标语音信号，包括：

将所述语音信号频谱结合对应的相位，确定针对频域的语音信号；

对所述针对频域的语音信号进行傅里叶逆变换，得到针对时域的语音信号；

对所述针对时域的语音信号进行去窗操作，以获取所述目标语音信号。

6.根据权利要求5所述的语音处理方法，其特征在于，所述对所述针对时域的语音信号进行去窗操作，包括：

确定每帧的所述针对时域的语音信号；

对所述每帧的所述针对时域的语音信号进行组合，以生成所述目标语音信号。

7.根据权利要求6所述的语音处理方法，其特征在于，所述确定每帧的所述针对时域的语音信号，包括：

若每帧包含的所述针对时域的语音信号中存在重叠信号，则将重叠信号的平均值作为所述语音信号；

若每帧包含的所述针对时域的语音信号中不存在重叠信号，则直接将所述针对时域的语音信号作为所述语音信号。

8.一种语音处理装置，其特征在于，包括：

信号获取模块，获取目标环境中的环境噪声信号，并获取所述来自于所述目标环境中的混合声音信号；其中，所述混合声音信号由目标语音信号和所述环境噪声信号形成；

环境噪声转换模块，用于对所述环境噪声信号进行信号变换，确定所述环境噪声信号对应的环境属性信息；

混合声音转换模块，用于将所述混合声音信号进行信号变换，确定所述混合声音信号对应的声音属性信息；

目标语音确定模块，用于根据所述声音属性信息以及所述环境属性信息进行逻辑运算，从所述混合声音信号中确定所述目标语音信号。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1-7任意一项所述的语音处理方法。

10.一种机器人，其特征在于，包括：

噪声采集单元，用于采集目标环境中的环境噪声信号；

语音采集单元，用于采集所述目标环境中的混合声音信号；

处理器；以及

存储器，用于存储所述处理器的可执行指令；

其中，所述处理器配置为经由执行所述可执行指令来执行权利要求1-7任意一项所述的语音处理方法。