CN109524013B

CN109524013B - 一种语音处理方法、装置、介质和智能设备

Info

Publication number: CN109524013B
Application number: CN201811549701.5A
Authority: CN
Inventors: 李宝祥; 乔登科; 李国光; 祖思承
Original assignee: Beijing Orion Star Technology Co Ltd
Current assignee: Beijing Orion Star Technology Co Ltd
Priority date: 2018-12-18
Filing date: 2018-12-18
Publication date: 2022-07-22
Anticipated expiration: 2038-12-18
Also published as: CN109524013A

Abstract

本发明涉及语音识别技术领域，特别涉及一种语音处理方法、装置、介质和智能设备。根据本发明实施例提供的方案，可以对接收到的语音信号进行声纹识别，判断该语音信号是否为智能设备播报语音，并在判断出该语音信号是智能设备播报语音时，则确定不对该语音信号进行响应。由于不会对智能设备播报进行响应，从而可以避免对目标用户语音信号的正常响应的影响，优化对目标用户语音信号的响应效果。

Description

一种语音处理方法、装置、介质和智能设备

技术领域

本发明涉及语音识别技术领域，特别涉及一种语音处理方法、装置、介质和智能设备。

背景技术

通过语音进行交互的智能设备会同时内置有麦克风和扬声器。麦克风在采集目标用户语音的同时也会接收到扬声器发出的声音。对于内置语音控制中枢的智能音箱等智能设备，如果智能设备自身扬声器发出的回声不被抑制，则会影响语音识别的准确性，降低语音控制的智能化水平。如果多台智能设备在一起工作，智能设备发出的声音也会进入其他智能设备进行识别并进行响应，降低用户体验。

智能设备间的相互影响可以通过隔离的方式进行规避。而在回声消除系统中，麦克风采集到的目标用户语音信号，是需要保留的目标信号。由扬声器发出，再次被麦克风采集到的信号，需要被消除。传统回声消除系统中，对回声进行处理时，需要先收集一段参考信号，然后通过前端算法对回声进行消除。

但是传统回声消除方案，存在回声消除效果不佳的问题。特别是在智能设备扬声器发出的声音为语音信号(如，从文本到语音(TTS)语音信号)时，智能设备扬声器发出的语音信号会被识别、且智能设备会对识别出的语音信号进行响应，影响智能设备对目标用户语音信号的正常响应，如导致正常语音响应的中断、紊乱等，使得智能设备对目标用户语音信号的响应效果较差。

发明内容

本发明实施例提供一种语音处理方法、装置、介质和智能设备，用于解决智能设备对目标用户语音信号的响应效果较差的问题。

本发明提供一种语音处理方法，所述方法包括：

接收语音信号；

通过声纹识别模型对所述语音信号进行声纹识别；

若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则确定不对所述语音信号进行响应，其中，所述声纹识别模型利用所述智能设备扬声器使用的语音信号训练得到。

在一种可能的实现方式中，若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则确定不对所述语音信号进行响应，包括：

若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则结束对所述语音信号的后续处理。

在一种可能的实现方式中，若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则结束对所述语音信号的后续处理，包括：

若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则不将所述语音信号上报至服务器进行后续处理。

在一种可能的实现方式中，接收语音信号之后，所述方法还包括：将所述语音信号输入至语音识别模型进行识别，得到语音识别文本；

若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则结束对所述语音信号的后续处理包括：

若得到语音识别文本后，根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则结束对所述语音识别文本的后续处理。

在一种可能的实现方式中，确定不对所述语音信号进行响应，包括：控制所述智能设备不输出所述语音信号对应的响应信息。

在一种可能的实现方式中，所述方法还包括：

若根据所述声纹识别的结果，确定所述语音信号不是所述智能设备的播报语音，控制所述智能设备输出所述语音信号对应的响应信息。

在一种可能的实现方式中，所述声纹识别模型通过以下方式训练得到：

获得所述智能设备的播报语音作为训练样本；

利用所述训练样本对声纹识别模型进行训练。

在一种可能的实现方式中，所述方法还包括：

控制所述智能设备显示所述语音信号的语音识别文本。

本发明还提供了一种语音处理装置，所述装置包括：

接收模块，用于接收语音信号；

声纹识别模块，用于通过声纹识别模型对所述语音信号进行声纹识别，其中，所述声纹识别模型利用所述智能设备扬声器使用的语音信号训练得到；

处理模块，用于若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则确定不对所述语音信号进行响应。

在一种可能的实现方式中，所述处理模块，具体用于若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则结束对所述语音信号的后续处理。

在一种可能的实现方式中，所述处理模块，进一步用于若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则不将所述语音信号上报至服务器进行后续处理。

在一种可能的实现方式中，所述处理模块，还用于将所述语音信号输入至语音识别模型进行识别，得到语音识别文本；

在一种可能的实现方式中，所述处理模块，确定不对所述语音信号进行响应，包括：控制所述智能设备不输出所述语音信号对应的响应信息。

在一种可能的实现方式中，所述处理模块，还用于若根据所述声纹识别的结果，确定所述语音信号不是所述智能设备的播报语音，控制所述智能设备输出所述语音信号对应的响应信息。

在一种可能的实现方式中，所述处理模块，还用于控制所述智能设备显示所述语音信号的语音识别文本。

本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现如上任一所述方法的步骤。

本发明还提供了一种智能设备，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述程序时实现如上任一所述方法的步骤。

根据本发明实施例提供的方案，在接收到语音信号后，对该语音信号进行声纹识别，以判断该语音信号是否为智能设备自身的播报语音，并在判断出该语音信号是智能设备自身的播报语音时，确定不对该语音信号进行响应。由于不会对智能设备自身的播报语音进行响应，从而可以避免对目标用户语音信号的正常响应的影响，优化对目标用户语音信号的响应效果。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例一提供的语音处理方法的步骤流程图；

图2为本发明实施例二提供的语音处理装置的结构示意图；

图3为本发明实施例三提供的语音处理系统的结构示意图；

图4为本发明实施例四提供的语音处理方法的步骤流程图；

图5为本发明实施例五提供的智能设备的结构示意图。

具体实施方式

本案发明人研究发现，由于智能设备角色人设、企业语音产品品牌特点等的共同需求，智能设备扬声器播放的语音通常具有很高的辨识度，是具有特定音色的语音信号。

正是基于这一发现，本发明实施例提供的方案中提出，可以通过声纹识别模型对语音信号进行声纹识别，来判断该语音信号是智能设备自身的播报语音还是目标用户发出的语音信号。如果判断出语音信号是智能设备自身的播报语音，则无需对该语音信号进行响应，从而解决回声消除效果不佳的问题，优化智能设备对目标用户语音信号的响应效果。

为了使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明作进一步地详细描述，显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

需要说明的是，在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例一

本发明实施例一提供一种语音处理方法，该方法的步骤流程可以如图1所示，包括：

步骤101、接收语音信号。

在本步骤中，通过智能设备的音频采集模块(如麦克风Mic)采集周围环境中的语音信号。

步骤102、进行声纹识别。

在本步骤中，可以通过预先训练的声纹识别模型对所述语音信号进行声纹识别，以判断所述语音信号是否为所述智能设备自身的播报语音。其中，所述声纹识别模型的输入为语音信号，输出为该语音信号为所述智能设备自身的播报语音，以及该语音信号不是所述智能设备自身的播报语音的概率分布。

本实施例中，所述声纹识别模型可以通过以下方式训练得到：

获得所述智能设备的播报语音作为训练样本；

利用所述训练样本对声纹识别模型进行训练。

步骤103、根据声纹识别结果，对所述语音信号进行处理。

在本步骤中，可以在确定所述语音信号是所述智能设备播报语音时，确定不对所述语音信号进行响应。因此即使前端处理过程中对所述智能设备播报语音产生的回声消除效果不佳，由于在识别阶段增加了声纹识别，以基于声纹识别结果，对所述智能设备播报语音不响应，避免了影响智能设备对目标用户语音信号的正常响应，如导致正常语音响应的中断、紊乱等，提升智能设备对目标用户语音信号的响应效果。

对采集到的语音信号进行响应的形式可以为任意形式，如对采集到的语音信号的响应信息为语音播报响应、文字显示响应、图像展示响应、音频输出响应或视频输出响应中的至少一种。不对语音信号进行响应，则可以理解为不会以任何一种形式对语音信号进行响应。

需要说明的是，本实施例中的执行主体可以理解为智能设备或智能设备的控制器，也可以理解为服务器，如云端服务器。

本发明实施例中，语音信号的各处理模块的配置分布架构包括但不限于以下三种可能的实现方式：

架构1，声纹识别模型、ASR(Automatic Speech Recognition，自动语音识别)模型、NLP(Natural Language Processing，自然语言处理)和TTS(Text To Speech，从文本到语音)模型均配置在服务器端。

该架构下，上述方法的执行主体可以为服务器。

该架构下，智能设备采集到语音信号后，将语音信号上报至服务器，服务器对接收到的语音信号进行声纹识别，ASR、NLP等处理。

架构2，声纹识别模型、ASR模型、NLP和TTS模型均配置在智能设备端。

该架构下，上述方法的执行主体为智能设备或智能设备的控制器。

架构3，声纹识别模型配置在智能设备端，而ASR模型、NLP和TTS模型配置在服务器端。

在一种可能的实现方式中，根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则确定不对所述语音信号进行响应，可以包括：

从而可以通过不再对语音信号进行任何后续处理的方式，来实现不对语音信号进行响应。可以理解为可以不生成语音信号对应的响应信息。

本发明实施例中，对语音信号的处理可以采用以下两种可能的实现方式：

方式1、先对接收到的语音信号进行声纹识别处理，根据声纹识别的结果，判定是否进一步对该语音信号进行ASR处理、NLP和TTS处理(可选)等后续处理。

其中，TTS处理为可选处理，若需要通过语音播报方式对该语音信号进行响应，则需要通过TTS合成待播报语音，例如，回答用户问题等场景。在需要通过视频、图片、音频等方式对该语音信号进行响应，则有可能无需通过TTS处理，NLP之后直接推送视频、图片、音频等内容，例如，用户通过智能设备点歌等场景。

进一步的，该方式下，在一种可能的实现方式中，若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则结束对所述语音信号的后续处理，可以包括：

可以理解为如果声纹识别是在智能设备侧实现，即由智能设备或智能设备的控制器来实现，而对语音信号的后续处理是在服务器侧实现，则可以通过不将语音信号上报至服务器的方式，来结束对所述语音信号的后续处理。

该方式下，若声纹识别、ASR模型、NLP和TTS模型均配置在智能设备端，或者声纹识别、ASR模型、NLP和TTS模型均配置在服务器端，则若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则结束对所述语音信号的后续处理可以为不将所述语音信号输入ASR模型进行处理。

当然，若根据声纹识别的结果，确定所述语音信号不是所述智能设备的播报语音，则对所述语音信号进行ASR和NLP等进行后续处理，从而实现对目标用户语音的正常响应。

该方式下，由于在判断出接收到的语音信号为智能设备自身的播报语音，不对该语音信号进行后续处理，降低了后续处理的资源耗费。但是该方式下若接收到的语音信号并非智能设备自身的播报语音，需要在声纹识别判断后再对该语音信号进行后续处理，因此，对语音信号的响应会有一定的延迟。

方式2、在对接收到的语音信号进行声纹识别处理的同时，对该语音信号进行ASR处理、NLP和TTS处理(可选)等后续处理。然后，根据声纹识别的结果，判定是否对该语音信息进行响应。

该方式下，在一种可能的实现方式中，接收语音信号之后，可以将所述语音信号输入至语音识别模型进行识别，得到语音识别文本；那么，若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则结束对所述语音信号的后续处理可以包括：

具体的，接收到语音信号后，将所述语音信号输入至声纹识别模型的同时，还将所述语音信号输入至ASR模型进行识别。若在得到语音识别文本后，确定所述语音信号为所述智能设备播报语音，则结束对所述语音识别文本的后续处理，即不对所述语音识别文本进行NLP处理。

以对语音信号进行响应的形式为语音播报响应为例，生成的语音信号对应的响应信息可以为语音响应信号。以语音响应信号是通过对所述语音信号的语音识别文本进行自然语言处理(NLP)，基于NLP的处理结果，获取所述语音识别文本对应的响应文本，对所述响应文本进行从文本到语音(TTS)转换得到的为例，那么，对应的，结束对所述语音识别文本的后续处理可以理解为，不再对所述语音信号的语音识别文本进行NLP，从而可以最大程度地节约系统资源。

当然，也可以通过不再对响应文本进行TTS转换，来结束对所述语音信号的后续处理，本实施例不再赘述。

在另一种可能的实现方式中，确定不对所述语音信号进行响应，还可以理解为包括：控制所述智能设备不输出所述语音信号对应的响应信息。

即，可以通过控制智能设备不输出语音信号对应的响应信息的方式，来实现不对语音信号进行响应。可以理解为即使确定出了语音信号对应的响应信息，也可以控制智能设备不输出该响应信息，以达到不对语音信号进行响应的效果。例如，服务器端通过对智能设备采集到的语音信号进行ASR、NLP等处理后，确定出了该语音信号对应的响应信息，同时根据对该语音信号的声纹识别处理，确定该语音信号是智能设备的播报语音，此时，可以不把该语音信号对应的响应信息反馈给智能设备，以控制智能设备不输出该语音信号对应的响应信息；也可以将该语音信号对应的响应信息反馈给智能设备但指示该智能设备不输出响应信息，本发明实施例中不对具体实现方式进行限定。

当然，若根据所述声纹识别的结果，确定所述语音信号不是所述智能设备的播报语音，可以控制所述智能设备输出所述语音信号对应的响应信息。从而实现对目标用户语音的正常响应。

该方式下，由于同时对接收到的语音信号进行声纹识别处理和语音识别等处理，既可以在判断出该语音信号为智能设备自身的播报语音时，不对该语音信号进行响应，又可以判断出该语音信号并非智能设备自身的播报语音时，及时对该语音信号进行响应。

此外需要说明的是，如果智能设备包括显示屏，还可以将语音信号的语音识别文本实时显示在显示屏上。即，在本步骤中，还可以控制所述智能设备显示所述语音信号的语音识别文本。

与本发明实施例一基于同一发明构思，提供以下的装置和系统。

实施例二、

本发明实施例二提供一种语音处理装置，其结构可以如图2所示，包括：

接收模块01用于接收语音信号；

声纹识别模块02用于通过声纹识别模型对所述语音信号进行声纹识别，其中，所述声纹识别模型利用所述智能设备扬声器使用的语音信号训练得到；

处理模块03用于若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则确定不对所述语音信号进行响应。

在一种可能的实现方式中，所述处理模块03具体用于若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则结束对所述语音信号的后续处理。

在一种可能的实现方式中，所述处理模块03可以进一步用于若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则不将所述语音信号上报至服务器进行后续处理。

在一种可能的实现方式中，所述处理模块03还可以用于将所述语音信号输入至语音识别模型进行识别，得到语音识别文本；若得到语音识别文本后，根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则结束对所述语音识别文本的后续处理。

在一种可能的实现方式中，所述处理模块03确定不对所述语音信号进行响应，还可以包括：控制所述智能设备不输出所述语音信号对应的响应信息。

在一种可能的实现方式中，所述处理模块03还可以用于若根据所述声纹识别的结果，确定所述语音信号不是所述智能设备的播报语音，控制所述智能设备输出所述语音信号对应的响应信息。

在一种可能的实现方式中，所述处理模块03还可以用于控制所述智能设备显示所述语音信号的语音识别文本。

实施例三、

本发明实施例三提供一种语音处理系统，其结构可以如图3所示，包括智能设备11和服务器12。

其中，在本发明实施例一提供的架构2或架构3的语音信号的各处理模块的配置分布架构下，所述智能设备11可以包括本发明实施例二提供的装置，或者，在本发明实施例1提供的架构一的语音信号的各处理模块的配置分布架构下，所述服务器12可以包括本发明实施例二提供的装置。

下面通过一个具体的实例，对本发明实施例一～三的方案进行说明。

实施例四、

本发明实施例四提供一种语音处理方法，本实施例描述了声纹识别模型、ASR模型、NLP和TTS模型均配置在云端服务器，且对语音信号进行响应的形式为语音播报响应，该方法的步骤流程可以如图4所示，包括：

步骤201、智能设备采集到语音信号。

其中，智能设备可以但不限于为机器人(robot)，本实施例以智能设备为机器人为例进行说明。该语音信号可能是用户语音信号(可以表示为U)，也可能是智能设备扬声器播报的语音信号(可以表示为R，即机器人自身语音信号)。智能设备采集到语音信号后，可以将采集到的语音信号发送给云端服务器。

步骤202、云端服务器对所述语音信号进行声纹识别。

在本步骤中，云端服务器可以通过声纹识别模型对所述语音信号进行声纹识别，判断所述语音信号是否为所述智能设备发出的播报语音其中，所述声纹识别模型利用所述智能设备扬声器使用的语音信号训练得到。

需要说明的是，在本实施例中，在云端服务器进行声纹识别的同时，还可以实时进行语音信号的语音识别，从而实时得到语音信号的语音识别文本。

步骤203、云端服务器根据声纹识别结果，对所述语音信号进行处理。

在本步骤中，云端服务器可以根据声纹识别结果，来确定后续对语音信号的语音识别文本的处理方式。

在本实施例中，假设通过对所述语音信号的语音识别文本进行自然语言处理(NLP)，基于NLP的处理结果，获得所述语音识别文本对应的响应文本，对所述响应文本进行从文本到语音(TTS)转换得到语音响应信号。

那么，云端服务器在判断出语音信号是智能设备发出的播报语音时，可以不再对所述语音信号的语音识别文本进行自然语言处理(NLP)，也就不会生成语音响应信号，从而使得智能设备不会对智能设备扬声器发出的声音进行语音响应，不会针对自身扬声器发出的声音进行回复和反馈，解决智能设备自己说话自己回复的问题。

而如果云端服务器判断出语音信号不是智能设备发出的播报语音，可以继续对所述语音信号的语音识别文本进行自然语言处理(NLP)，基于NLP的处理结果，得到所述语音识别文本对应的响应文本，并对所述响应文本进行从文本到语音(TTS)转换得到语音响应信号，将语音响应信号发送给智能设备，智能设备通过播放语音响应信号，即可以进行语音响应。

即，如图4所示，机器人可以在云端服务器判断出语音信号不是智能设备发出的播报语音时，播放语音响应信号，实现对用户语音信号的语音响应。在云端服务器判断出语音信号是智能设备发出的播报语音时，由于云端服务器不会再进行NLP，也就不会生成语音响应信号，机器人自然也就不会播放语音响应信号，不会对机器人自身语音信号进行语音响应。

需要说明的是，在本实施例中，假设智能设备包括显示屏，那么云端服务器还可以将实时得到的语音信号的语音识别文本发送给智能设备，使得智能设备还可以显示语音识别文本，从而使得用户语音信号对应的语音识别文本，以及用户语音信号的语音响应信号对应的语音识别文本，都可以实时在智能设备显示屏上进行显示。

基于同一发明构思，本发明实施例提供以下的设备和介质。

实施例五

本发明实施例五提供一种智能设备，该设备的结构可以如图5所示，包括存储器21、处理器22及存储在存储器上的计算机程序，所述处理器22执行所述程序时实现本发明实施例一所述方法的步骤。

可选的，所述处理器22具体可以包括中央处理器(CPU)、特定应用集成电路(ASIC，application specific integrated circuit)，可以是一个或多个用于控制程序执行的集成电路，可以是使用现场可编程门阵列(FPGA，field programmable gate array)开发的硬件电路，可以是基带处理器。

可选的，所述处理器22可以包括至少一个处理核心。

可选的，所述存储器21可以包括只读存储器(ROM，read only memory)、随机存取存储器(RAM，random access memory)和磁盘存储器。存储器21用于存储至少一个处理器22运行时所需的数据。存储器21的数量可以为一个或多个。

本发明实施例六提供一种非易失性计算机存储介质，所述计算机存储介质存储有可执行程序，当可执行程序被处理器执行时，实现本发明实施例一提供的方法。

在具体的实施过程中，计算机存储介质可以包括：通用串行总线闪存盘(USB，Universal Serial Bus flash drive)、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的存储介质。

在本发明实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述单元或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，设备或单元的间接耦合或通信连接，可以是电性或其它的形式。

在本发明实施例中的各功能单元可以集成在一个处理单元中，或者各个单元也可以均是独立的物理模块。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实施例的技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备，例如可以是个人计算机，服务器，或者网络设备等，或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：通用串行总线闪存盘(universal serial bus flash drive)、移动硬盘、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、装置(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种语音处理方法，其特征在于，所述方法包括：

智能设备自身接收语音信号；

通过声纹识别模型对所述语音信号进行声纹识别；

若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则确定不对所述语音信号进行响应，其中，所述声纹识别模型利用所述智能设备扬声器的播报语音作为训练样本训练得到。

2.如权利要求1所述的方法，其特征在于，若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则确定不对所述语音信号进行响应，包括：

3.如权利要求2所述的方法，其特征在于，若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则结束对所述语音信号的后续处理，包括：

4.如权利要求2所述的方法，其特征在于，接收语音信号之后，所述方法还包括：将所述语音信号输入至语音识别模型进行识别，得到语音识别文本；

5.如权利要求1所述的方法，其特征在于，确定不对所述语音信号进行响应，包括：控制所述智能设备不输出所述语音信号对应的响应信息。

6.如权利要求1所述的方法，其特征在于，所述方法还包括：

7.如权利要求1-6任一项所述的方法，其特征在于，所述声纹识别模型通过以下方式训练得到：

获得所述智能设备的播报语音作为训练样本；

利用所述训练样本对声纹识别模型进行训练。

8.如权利要求4所述的方法，其特征在于，所述方法还包括：

控制所述智能设备显示所述语音信号的语音识别文本。

9.一种语音处理装置，其特征在于，所述装置为智能设备自身的语音处理装置，所述装置包括：

接收模块，用于接收语音信号；

声纹识别模块，用于通过声纹识别模型对所述语音信号进行声纹识别，其中，所述声纹识别模型利用所述智能设备扬声器的播报语音作为训练样本训练得到；

10.如权利要求9所述的装置，其特征在于，所述处理模块，具体用于若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则结束对所述语音信号的后续处理。

11.如权利要求10所述的装置，其特征在于，所述处理模块，进一步用于若根据所述声纹识别的结果，确定所述语音信号为所述智能设备播报语音，则不将所述语音信号上报至服务器进行后续处理。

12.如权利要求10所述的装置，其特征在于，所述处理模块，还用于：

将所述语音信号输入至语音识别模型进行识别，得到语音识别文本；

13.如权利要求9所述的装置，其特征在于，所述处理模块确定不对所述语音信号进行响应，包括：控制所述智能设备不输出所述语音信号对应的响应信息。

14.如权利要求9所述的装置，其特征在于，所述处理模块，还用于若根据所述声纹识别的结果，确定所述语音信号不是所述智能设备的播报语音，控制所述智能设备输出所述语音信号对应的响应信息。

15.如权利要求9～14任一所述的装置，其特征在于，所述处理模块，还用于控制所述智能设备显示所述语音信号的语音识别文本。

16.一种非易失性计算机存储介质，其特征在于，所述计算机存储介质存储有可执行程序，该可执行程序被处理器执行实现权利要求1～8任一所述方法的步骤。

17.一种智能设备，其特征在于，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述程序时实现权利要求1～8任一所述方法的步骤。