CN108648756A

CN108648756A - 语音交互方法、装置和系统

Info

Publication number: CN108648756A
Application number: CN201810489153.5A
Authority: CN
Inventors: 耿雷
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Baidu Online Network Technology Beijing Co Ltd; Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-05-21
Filing date: 2018-05-21
Publication date: 2018-10-12
Also published as: US20190355354A1; JP2019204074A

Abstract

本申请实施例公开了语音交互方法、装置和系统。该方法的一具体实施方式包括：基于输入的声音，生成语音输入信号，其中，输入的声音包括用户声音和环境声音；对语音输入信号进行降噪处理以提取出由用户发出的目标语音信号；将目标语音信号发送给目标语音处理终端，其中，目标语音处理终端对目标语音信号进行解析得到解析结果，以及执行与解析结果相关的操作。该实施方式可以提高针对语音信号的降噪率，进一步提高操作执行的准确率。

Description

语音交互方法、装置和系统

技术领域

本申请实施例涉及计算机技术领域，具体涉及语音交互方法、装置和系统。

背景技术

目前，随着智能语音交互技术的快速普及，越来越多的用户使用语音交互设备，语音交互技术给用户的生活带来了极大的便捷。在一些场景下(例如，室外环境下、用户移动中)，语音交互设备自身所产生的噪声信号通常会对由用户发出的语音信号产生很大的干扰，如何对语音信号进行降噪处理对于语音交互设备具有重要的意义。

发明内容

本申请实施例提出了语音交互方法、装置和系统。

第一方面，本申请实施例提供了一种语音交互方法，包括：基于输入的声音，生成语音输入信号，其中，输入的声音包括用户声音和环境声音；对语音输入信号进行降噪处理以提取出由用户发出的目标语音信号；将目标语音信号发送给目标语音处理终端，其中，目标语音处理终端对目标语音信号进行解析得到解析结果，以及执行与解析结果相关的操作。

在一些实施例中，基于输入的声音，生成声音输入信号，包括：将输入的声音转为音频信号；以预设的第一采样速率对音频信号进行采样得到语音输入信号。

在一些实施例中，对语音输入信号进行降噪处理以提取出由用户发出的目标语音信号，包括：对语音输入信号进行波束成形处理得到合成信号；对合成信号进行噪声抑制处理；对噪声抑制处理后的信号进行去混响处理和语音增强处理，得到由用户发出的目标语音信号。

在一些实施例中，在基于输入的声音，生成语音输入信号之前，该方法还包括：响应于接收到目标语音处理终端发送的配对请求，建立与目标语音处理终端的配对关系。

第二方面，本申请实施例提供了一种语音交互装置，包括：生成单元，被配置成基于输入的声音，生成语音输入信号，其中，输入的声音包括用户声音和环境声音；降噪单元，被配置成对语音输入信号进行降噪处理以提取出由用户发出的目标语音信号；发送单元，被配置成将目标语音信号发送给目标语音处理终端，其中，目标语音处理终端对目标语音信号进行解析得到解析结果，以及执行与解析结果相关的操作。

在一些实施例中，生成单元进一步被配置成按照如下步骤基于输入的声音，生成语音输入信号：将输入的声音转为音频信号；以预设的第一采样速率对音频信号进行采样得到语音输入信号。

在一些实施例中，降噪单元进一步被配置成按照如下步骤对语音输入信号进行降噪处理以提取出由用户发出的目标语音信号：对语音输入信号进行波束成形处理得到合成信号；对合成信号进行噪声抑制处理；对噪声抑制处理后的信号进行去混响处理和语音增强处理，得到由用户发出的目标语音信号。

在一些实施例中，该装置还包括：建立单元，被配置成响应于接收到目标语音处理终端发送的配对请求，建立与目标语音处理终端的配对关系。

第三方面，本申请实施例提供了一种语音交互方法，包括：接收降噪耳机发送的目标语音信号，其中，目标语音信号是降噪耳机对语音输入信号进行降噪处理以提取出的由用户发出的语音信号，语音输入信号是基于输入的声音所生成的；对目标语音信号进行解析得到解析结果；执行与解析结果相关的操作。

在一些实施例中，执行与解析结果相关的操作，包括：响应于确定出解析结果包括命令执行设备的设备标识和针对命令执行设备的控制命令，向设备标识所指示的命令执行设备发送控制命令，以供命令执行设备执行与控制命令相关的操作。

第四方面，本申请实施例提供了一种语音交互装置，包括：接收单元，被配置成接收降噪耳机发送的目标语音信号，其中，目标语音信号是降噪耳机对语音输入信号进行降噪处理以提取出的由用户发出的语音信号，语音输入信号是基于输入的声音所生成的；解析单元，被配置成对目标语音信号进行解析得到解析结果；执行单元，被配置成执行与解析结果相关的操作。

在一些实施例中，执行单元进一步被配置成按照如下步骤执行与解析结果相关的操作：响应于确定出解析结果包括命令执行设备的设备标识和针对命令执行设备的控制命令，向设备标识所指示的命令执行设备发送控制命令，以供命令执行设备执行与控制命令相关的操作。

第五方面，本申请实施例提供了一种语音交互系统，包括语音处理终端和降噪耳机，该系统包括：降噪耳机，被配置成基于输入的声音，生成语音输入信号，对语音输入信号进行降噪处理以提取出由用户发出的目标语音信号，以及将目标语音信号发送给语音处理终端，其中，输入的声音包括用户声音和环境声音；语音处理终端，被配置成对目标语音信号进行解析得到解析结果，执行与解析结果相关的操作。

在一些实施例中，降噪耳机，被配置成将输入的声音转为音频信号，以预设的第一采样速率对音频信号进行采样得到语音输入信号。

在一些实施例中，降噪耳机，被配置成对语音输入信号进行波束成形处理得到合成信号，对合成信号进行噪声抑制处理，对噪声抑制处理后的信号进行去混响处理和语音增强处理，得到由用户发出的目标语音信号。

在一些实施例中，语音处理终端，被配置成向降噪耳机发送配对请求；降噪耳机，被配置成建立与语音处理终端的配对关系。

在一些实施例中，该系统还包括命令执行设备；语音处理终端，被配置成响应于确定出解析结果包括命令执行设备的设备标识和针对命令执行设备的控制命令，向命令执行设备发送控制命令；命令执行设备，被配置成执行与控制命令相关的操作。

第六方面，本申请实施例提供了一种降噪耳机，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如语音交互方法中任一实施例的方法。

第七方面，本申请实施例提供了一种语音处理终端，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如语音交互方法中任一实施例的方法。

第八方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如语音交互方法中任一实施例的方法。

第九方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，该程序被处理器执行时实现如语音交互方法中任一实施例的方法。

本申请实施例提供的语音交互方法、装置和系统，降噪耳机首先基于输入的声音，生成语音输入信号，之后降噪耳机对上述语音输入信号进行降噪处理以提取出由用户发出的目标语音信号，以及将上述目标语音信号发送给语音处理终端，语音处理终端对上述目标语音信号进行解析得到解析结果，以及执行与上述解析结果相关的操作。从而可以在降噪耳机端对生成的语音信号进行降噪以提取出由用户发出的目标语音信号，将目标语音信号发送给语音处理终端进行解析从而执行相应的操作，这种语音交互方式可以提高针对语音信号的降噪率，进一步提高操作执行的准确率。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的语音交互方法的一个实施例的流程图；

图3是根据本申请的语音交互方法的一个应用场景的示意图；

图4是根据本申请的语音交互方法的另一个实施例的流程图；

图5是根据本申请的语音交互方法的再一个实施例的流程图；

图6是根据本申请的语音交互系统的一实施例的时序图；

图7是根据本申请的语音交互装置的一个实施例的结构示意图；

图8是根据本申请的语音交互装置的另一个实施例的结构示意图；

图9是适于用来实现本申请实施例的降噪耳机的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的语音交互方法或语音交互装置或语音交互系统的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括降噪耳机101，语音处理终端1021、1022，命令执行终端1031、1032、1033和网络1041、1042。其中，网络1041用以在降噪耳机101和语音处理终端1021、1022之间提供通信链路的介质；网络1042用以在语音处理终端1021、1022和命令执行终端1031、1032、1033之间提供通信链路的介质。网络1041、1042可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用降噪耳机101通过网络1041与语音处理终端1021、1022交互，以发送或接收消息等。例如，可以基于输入的声音，生成语音输入信号，以及对生成的语音输入信号进行降噪处理以提取出由用户发出的目标语音信号，之后，将上述目标语音信号发送给语音处理终端1021、1022。

命令执行终端1031、1032、1033可以是能够接收语音处理终端1021、1022发送的控制命令且能够执行控制命令所指示的操作的各种电子设备，包括但不限于电视、音箱、扫地机器人、智能洗衣机、智能冰箱、智能吸顶灯、窗帘、空调、安防装置等等。

语音处理终端1021、1022可以是对语音信号进行解析的各种电子设备。语音处理终端1021、1022可以接收降噪耳机101发送的目标语音信号，之后，对上述目标语音信号进行解析得到解析结果，而后，执行与上述解析结果相关的操作。

语音处理终端1021、1022可以是硬件，也可以是软件。当语音处理终端1021、1022为硬件时，可以是支持信息交互的各种电子设备，包括但不限于智能手机、平板电脑、智能手表、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。当语音处理终端1021、1022为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本申请实施例所提供的语音交互方法可以由降噪耳机101执行，此时，语音交互装置可以设置于降噪耳机101中。语音交互方法也可以由语音处理终端1021、1022执行，此时，语音交互装置也可以设置于语音处理终端1021、1022中。

应该理解，图1中的降噪耳机、语音处理终端、命令执行终端和网络的数目仅仅是示意性的。根据实现需要，可以具有任意数目的降噪耳机、语音处理终端、命令执行终端和网络。

继续参考图2，示出了根据本申请的语音交互方法的一个实施例的流程200。该语音交互方法，包括以下步骤：

步骤201，基于输入的声音，生成语音输入信号。

在本实施例中，语音交互方法的执行主体(例如图1所示的降噪耳机)可以基于输入的声音，生成语音输入信号。声音通常是指由物体振动产生的声波。上述输入的声音可以为当前获取到的声音，可以包括用户声音和环境声音，环境声音通常为噪声。当输入的声音传输到上述执行主体附近时，上述执行主体的麦克风中的振膜会随着声波一同振动，振膜的振动会推动里边的磁铁形成变化的电流，由此产生模拟电信号，产生的模拟电信号即为音频信号，是指带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。之后，上述执行主体可以对上述音频信号进行采样处理得到语音输入信号。

在本实施例的一些可选的实现方式中，上述执行主体可以将输入的声音转为音频信号，上述执行主体的麦克风中的振膜会随着声波一同振动，振膜的振动会推动里边的磁铁形成变化的电流，由此产生模拟电信号，产生的模拟电信号即为音频信号；之后，上述执行主体可以以预设的第一采样速率对上述音频信号进行采样得到语音输入信号。采样频率，也称为采样速度或者采样率，定义了每秒从连续信号中提取并组成离散信号的采样个数。由于需要将得到的语音输入信号发送给目标语音处理终端进行语音识别等处理，而目标语音处理终端通常对以16千赫兹(kHz)的采样速率进行采样所得到的数字信号进行语音识别的效果较好，因此，上述第一采样速率通常可以设置为16kHz，也可以设置为能够达到预定的语音识别效果的其它采样速率。

在本实施例的一些可选的实现方式中，上述执行主体可以接收语音处理终端的配对请求，若接收到语音处理终端的配对请求，可以建立与上述目标语音处理终端的配对关系。可以将与上述执行主体建立配对关系的语音处理终端确定为目标语音处理终端。在配对成功之后，上述执行主体可以成为上述目标语音处理终端的麦克风外设。

步骤202，对语音输入信号进行降噪处理以提取出由用户发出的目标语音信号。

在本实施例中，上述执行主体可以对步骤201生成的语音输入信号进行降噪处理以提取出由用户发出的目标语音信号。上述执行主体可以采用常用的数字滤波器，例如，FIR(Finite Impulse Response，有限长单位冲激响应滤波器)、IIR(Infinite ImpulseResponse，无限脉冲响应数字滤波器)等，对上述语音输入信号进行降噪处理，以提取出由用户发出的目标语音信号。

在本实施例的一些可选的实现方式中，上述执行主体中可以安装有麦克风阵列，麦克风阵列通常是由一定数目的声学传感器(一般是麦克风)组成，用来对声场的空间特性进行采样并处理的系统。采用麦克风阵列进行语音信号的采集可以利用多个麦克风接收到声波的相位之间的差异对声波进行过滤，能最大限度将环境背景声音清除掉，从而达到降噪的效果。上述执行主体可以对麦克风阵列中的麦克风所生成的语音输入信号进行波束成形处理得到合成信号，上述执行主体可以通过如下方式对语音输入信号进行波束成形处理：对各麦克风采集的语音输入信号进行加权、时延和求和等处理，以形成具有空间指向性的合成信号，从而对信源进行精确定向并抑制波束外的声音，例如交互设备自身发出的声音。之后，上述执行主体可以对上述合成信号进行噪声抑制处理，具体地，上述执行主体可以使用常用的滤波器，例如，FIR、IIR等，对上述合成信号进行噪声抑制处理。上述执行主体也可以根据噪声信号频率、噪声信号强度和噪声信号时长等对上述合成信号进行噪声抑制处理。而后，上述执行主体可以对噪声抑制处理后的信号进行去混响处理和语音增强处理，得到由用户发出的目标语音信号。上述执行主体可以采用现有的去混响技术，例如，倒谱法去混响技术、子带处理法等，对噪声抑制处理后的信号进行去混响处理。上述执行主体可以采用AGC(Automatic Gain Control，自动增益控制)电路对噪声抑制处理后的信号进行语音增强处理。

步骤203，将目标语音信号发送给目标语音处理终端。

在本实施例中，上述执行主体可以将上述目标语音信号发送给目标语音处理终端，上述目标语音处理终端通常为与上述执行主体建立连接关系的语音处理终端。上述目标语音处理终端可以对接收到的目标语音信号进行解析得到解析结果，对目标语音信号进行解析包括但不限于以下至少一项：对目标语音信号进行语音识别、对目标语音信号进行语义理解等。在语音识别过程中，上述目标语音处理终端可以对上述目标语音信号执行特征提取、语音解码以及文本转换等步骤。在语义理解过程中，上述目标语音处理终端可以对语音识别得到的文本信息进行自然语言理解(Natural Language Understanding，NLU)、关键词提取以及利用人工智能(Artificial Intelligence，AI)算法进行用户意图分析，用户意图可以是指用户想要达到的一个或多个目的。语义理解技术可以包括领域分析、意图识别和词槽填充等步骤。领域分析指的是分析语音识别所转换的文本所属的类型，例如，天气、音乐等。意图识别指对于领域数据的操作，一般以动宾短语来命名，例如询问天气、查找音乐等。词槽填充用于存放领域的属性，比如天气领域的日期、天气，音乐领域的歌手、歌曲名等。可以将词槽填充之后所组成的文本作为解析结果。

需要说明的是，上述语音特征提取、语音解码技术、文本转换、关键词提取以及人工智能算法是目前广泛研究和应用的公知技术，在此不再赘述。

在本实施例中，上述目标语音处理终端可以执行与上述解析结果相关的操作。若上述解析结果所指示的用户意图是用户想要对一个或多个信息进行查询，上述解析结果可以包括用户查询信息。上述目标语音处理终端可以根据上述用户查询信息生成语音合成信息。具体地，上述目标语音处理终端可以向查询服务器发送解析出的用户查询信息，接收上述查询服务器返回的针对上述用户查询信息的查询结果，之后，可以利用文本转语音技术(TTS，Text To Speech)将上述查询结果转换成语音形式的查询结果，得到语音合成信息。而后，可以向上述执行主体发送上述语音合成信息。作为示例，若上述解析结果所指示的用户意图为查询北京今日天气情况，上述目标语音处理终端可以向查询服务器发送用于查询北京今日天气情况的查询请求，之后，接收到查询服务器返回的查询结果为“天气晴，17-25度”，而后，可以利用文本转语音技术将上述查询结果“天气晴，17-25度”转换成语音形式的查询结果以得到语音合成信息。

在本实施例中，若上述解析结果中包括命令执行设备的设备标识和针对上述命令执行设备的控制命令，上述目标语音处理终端可以向上述设备标识所指示的命令执行设备发送上述控制命令，上述命令执行设备在接收到上述控制命令之后可以执行与上述控制命令相关的操作。需要说明的是，上述命令执行设备可以是与上述目标语音处理终端处于同一局域网内的智能家居设备，例如，智能电视、智能窗帘和智能冰箱等。作为示例，若上述解析结果中包括设备标识“电视001”和控制命令“开机”，上述目标语音处理终端可以向设备标识为“电视001”的电视终端发送控制命令“开机”，上述电视终端在接收到控制命令“开机”之后，可以执行开机操作。

继续参考图3，图3是根据本实施例的语音交互方法的应用场景的一个示意图。在图3的应用场景中，降噪耳机301可以首先接收到输入的声音303，例如，“闭合客厅窗帘”，基于输入的声音303，降噪耳机301可以生成语音输入信号304。之后，可以采用FIR、IIR等常用的数字滤波器对语音输入信号304进行降噪处理，从而提取出由用户发出的目标语音信号305。而后，降噪耳机301可以将目标语音信号305发送给目标语音处理终端302。目标语音处理终端302可以对目标语音信号305进行语音识别、语义理解等处理从而得到解析结果306。解析结果306中包括设备标识“窗帘003”和控制命令“闭合”。目标语音处理终端302执行与解析结果306相关的操作307，如，可以向设备标识为“窗帘003”的窗帘控制器发送控制命令“闭合”，上述窗帘控制器在接收到控制命令“闭合”之后，可以执行闭合操作。

本申请的上述实施例提供的方法通过在降噪耳机端对生成的语音信号进行降噪以提取出由用户发出的目标语音信号，将目标语音信号发送给语音处理终端进行解析从而执行相应的操作，这种语音交互方式可以提高针对语音信号的降噪率，进一步提高操作执行的准确率。

继续参考图4，示出了根据本申请的语音交互方法的另一个实施例的流程400。该语音交互方法，包括以下步骤：

步骤401，接收降噪耳机发送的目标语音信号。

在本实施例中，语音交互方法的执行主体(例如图1所示的语音处理终端)可以接收降噪耳机发送的目标语音信号。上述降噪耳机可以首先基于输入的声音，生成语音输入信号。声音通常是指由物体振动产生的声波。上述输入的声音可以为当前获取到的声音，可以包括用户声音和环境声音，环境声音通常为噪声。当输入的声音传输到上述降噪耳机附近时，上述降噪耳机的麦克风中的振膜会随着声波一同振动，振膜的振动会推动里边的磁铁形成变化的电流，由此产生模拟电信号，产生的模拟电信号即为音频信号，是指带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。之后，上述降噪耳机可以对上述音频信号进行采样处理得到语音输入信号。上述降噪耳机可以对生成的语音输入信号进行降噪处理以提取出由用户发出的目标语音信号。上述降噪耳机可以采用常用的数字滤波器，例如，FIR、IIR等，对上述语音输入信号进行降噪处理，以提取出由用户发出的目标语音信号。

步骤402，对目标语音信号进行解析得到解析结果。

在本实施例中，上述执行主体可以对上述目标语音信号进行解析得到解析结果，对目标语音信号进行解析包括但不限于以下至少一项：对目标语音信号进行语音识别、对目标语音信号进行语义理解等。在语音识别过程中，上述执行主体可以对上述目标语音信号执行特征提取、语音解码以及文本转换等步骤。在语义理解过程中，上述执行主体可以对语音识别得到的文本信息进行自然语言理解、关键词提取以及利用人工智能算法进行用户意图分析，用户意图可以是指用户想要达到的一个或多个目的。

步骤403，执行与解析结果相关的操作。

在本实施例中，上述执行主体可以执行与上述解析结果相关的操作。若上述解析结果所指示的用户意图是用户想要对一个或多个信息进行查询，上述解析结果可以包括用户查询信息。上述执行主体可以根据上述用户查询信息生成语音合成信息。具体地，上述执行主体可以向查询服务器发送用户查询信息，接收上述查询服务器返回的针对上述用户查询信息的查询结果，之后，可以利用文本转语音技术将上述查询结果转换成语音形式的查询结果，得到语音合成信息。而后，可以向上述降噪耳机发送上述语音合成信息。作为示例，若上述解析结果所指示的用户意图为查询北京今日天气情况，上述执行主体可以向查询服务器发送用于查询北京今日天气情况的查询请求，之后，接收到查询服务器返回的查询结果为“天气晴，17-25度”，而后，可以利用文本转语音技术将上述查询结果“天气晴，17-25度”转换成语音形式的查询结果以得到语音合成信息。

本申请的上述实施例提供的方法通过对降噪耳机所发送的目标语音信号进行解析得到解析结果，上述目标语音信号是降噪耳机对基于输入的声音所生成的语音输入信号进行降噪处理所得到的，之后执行与上述解析结果相关的操作，这种语音交互方式可以提高针对语音信号的降噪率，进一步提高操作执行的准确率。

继续参考图5，示出了根据本申请的语音交互方法的再一个实施例的流程500。该语音交互方法，包括以下步骤：

步骤501，接收降噪耳机发送的目标语音信号。

在本实施例中，步骤501的操作与步骤401的操作基本相同，在此不再赘述。

步骤502，对目标语音信号进行解析得到解析结果。

在本实施例中，步骤502的操作与步骤402的操作基本相同，在此不再赘述。

步骤503，确定解析结果是否包括命令执行设备的设备标识和针对命令执行设备的控制命令。

在本实施例中，上述执行主体可以确定步骤502中得到的解析结果中是否包括命令执行设备的设备标识和针对命令执行设备的控制命令。上述命令执行设备的设备标识可以是命令执行设备的名称或者命令执行设备的预设的编号或者命令执行设备的设备名称与设备编号的组合，例如，在一个智能家居系统中的两台电视终端的设备标识可以分别为“电视001”和“电视002”，需要预先设置设备标识“电视001”和“电视002”与这两台电视终端之间的对应关系。上述命令执行设备可以是与上述执行主体处于同一局域网内的智能家居设备，例如，智能电视、智能窗帘和智能冰箱等。

步骤504，响应于确定出解析结果包括命令执行设备的设备标识和针对命令执行设备的控制命令，向设备标识所指示的命令执行设备发送控制命令。

在本实施例中，若在步骤503中确定出上述解析结果中包括命令执行设备的设备标识和针对上述命令执行设备的控制命令，上述执行主体可以向上述设备标识所指示的命令执行设备发送上述控制命令，上述命令执行设备在接收到上述控制命令之后可以执行与上述控制命令相关的操作。作为示例，若上述解析结果中包括设备标识“电视001”和控制命令“开机”，上述执行主体可以向设备标识为“电视001”的电视终端发送控制命令“开机”，上述电视终端在接收到控制命令“开机”之后，可以执行开机操作。

从图5中可以看出，与图4对应的实施例相比，本实施例中的语音交互方法的流程500增加了确定解析结果中是否包括命令执行设备的设备标识和针对命令执行设备的控制命令的步骤503和响应于确定出解析结果包括命令执行设备的设备标识和针对命令执行设备的控制命令，向设备标识所指示的命令执行设备发送控制命令的步骤504。由此，本实施例描述的方案在用户与远场语音设备进行语音交互的过程中，不需要用户每次说出唤醒词对远场语音设备进行唤醒，而是借助于降噪耳机与远场语音设备进行语音交互，从而简化了用户的操作步骤。

图6示出了根据本申请的语音交互系统的一实施例的时序图。

本实施例的语音交互系统包括：语音处理终端和降噪耳机；其中，降噪耳机，被配置成基于输入的声音，生成语音输入信号，对语音输入信号进行降噪处理以提取出由用户发出的目标语音信号，以及将目标语音信号发送给语音处理终端，其中，输入的声音包括用户声音和环境声音；语音处理终端，被配置成对目标语音信号进行解析得到解析结果，执行与解析结果相关的操作。

本实施例提供的语音交互系统通过降噪耳机基于输入的声音生成语音输入信号，之后降噪耳机对上述语音输入信号进行降噪处理以提取出由用户发出的目标语音信号，以及将上述目标语音信号发送给语音处理终端使得语音处理终端对上述目标语音信号进行解析得到解析结果，以及执行与上述解析结果相关的操作。从而可以在降噪耳机端对获取到的语音信号进行降噪以提取出由用户发出的目标语音信号，将目标语音信号发送给语音处理终端进行解析从而执行相应的操作，这种语音交互方式可以提高针对语音信号的降噪率，进一步提高操作执行的准确率。

在本实施例的一些可选的实现方式中，上述语音交互系统还可以包括命令执行设备，其中，上述命令执行设备可配置成执行与所接收到的控制命令相关的操作。

如图6所示，在步骤601中，降噪耳机基于输入的声音，生成语音输入信号。

在这里，降噪耳机可以基于输入的声音，生成语音输入信号。声音通常是指由物体振动产生的声波。上述输入的声音可以为当前获取到的声音，可以包括用户声音和环境声音，环境声音通常为噪声。当输入的声音传输到降噪耳机附近时，降噪耳机的麦克风中的振膜会随着声波一同振动，振膜的振动会推动里边的磁铁形成变化的电流，由此产生模拟电信号，产生的模拟电信号即为音频信号，是指带有语音、音乐和音效的有规律的声波的频率、幅度变化信息载体。之后，降噪耳机可以对上述音频信号进行采样处理得到语音输入信号。

在步骤602中，降噪耳机对语音输入信号进行降噪处理以提取出由用户发出的目标语音信号。

在这里，降噪耳机可以对生成的语音输入信号进行降噪处理以提取出由用户发出的目标语音信号。降噪耳机可以采用常用的数字滤波器，例如，FIR、IIR等，对上述语音输入信号进行降噪处理，以提取出由用户发出的目标语音信号。

在本实施例的一些可选的实现方式中，降噪耳机中可以安装有麦克风阵列，麦克风阵列通常是由一定数目的声学传感器(一般是麦克风)组成，用来对声场的空间特性进行采样并处理的系统。采用麦克风阵列进行语音信号的采集可以利用多个麦克风接收到声波的相位之间的差异对声波进行过滤，能最大限度将环境背景声音清除掉，从而达到降噪的效果。降噪耳机可以对麦克风阵列中的麦克风所生成的语音输入信号进行波束成形处理得到合成信号，降噪耳机可以通过如下方式对语音输入信号进行波束成形处理：对各麦克风采集的语音输入信号进行加权、时延和求和等处理，以形成具有空间指向性的合成信号，从而对信源进行精确定向并抑制波束外的声音，例如交互设备自身发出的声音。之后，降噪耳机可以对上述合成信号进行噪声抑制处理，具体地，降噪耳机可以使用常用的滤波器，例如，FIR、IIR等，对上述合成信号进行噪声抑制处理。降噪耳机也可以根据噪声信号频率、噪声信号强度和噪声信号时长等对上述合成信号进行噪声抑制处理。而后，降噪耳机可以对噪声抑制处理后的信号进行去混响处理和语音增强处理，得到由用户发出的目标语音信号。降噪耳机可以采用现有的去混响技术，例如，倒谱法去混响技术、子带处理法等，对噪声抑制处理后的信号进行去混响处理。降噪耳机可以采用AGC电路对噪声抑制处理后的信号进行语音增强处理。

在步骤603中，降噪耳机将目标语音信号发送给语音处理终端。

在这里，降噪耳机可以将上述目标语音信号发送给目标语音处理终端，上述目标语音处理终端通常为与上述执行主体建立连接关系的语音处理终端。

在步骤604中，语音处理终端对目标语音信号进行解析得到解析结果。

在这里，语音处理终端可以对接收到的目标语音信号进行解析得到解析结果，对目标语音信号进行解析包括但不限于以下至少一项：对目标语音信号进行语音识别、对目标语音信号进行语义理解等。在语音识别过程中，语音处理终端可以对上述目标语音信号执行特征提取、语音解码以及文本转换等步骤。在语义理解过程中，语音处理终端可以对语音识别得到的文本信息进行自然语言理解、关键词提取以及利用人工智能算法进行用户意图分析，用户意图可以是指用户想要达到的一个或多个目的。

在步骤605中，语音处理终端执行与解析结果相关的操作。

在这里，语音处理终端可以执行与上述解析结果相关的操作。若上述解析结果所指示的用户意图是用户想要对一个或多个信息进行查询，上述解析结果可以包括用户查询信息。语音处理终端可以根据上述用户查询信息生成语音合成信息。具体地，语音处理终端可以向查询服务器发送解析出的用户查询信息，接收上述查询服务器返回的针对上述用户查询信息的查询结果，之后，可以利用文本转语音技术将上述查询结果转换成语音形式的查询结果，得到语音合成信息。而后，可以向上述降噪耳机发送上述语音合成信息。作为示例，若上述解析结果所指示的用户意图为查询北京今日天气情况，语音处理终端可以向查询服务器发送用于查询北京今日天气情况的查询请求，之后，接收到查询服务器返回的查询结果为“天气晴，17-25度”，而后，可以利用文本转语音技术将上述查询结果“天气晴，17-25度”转换成语音形式的查询结果以得到语音合成信息。

在本实施例的一些可选的实现方式中，语音处理终端可以确定上述解析结果中是否包括命令执行设备的设备标识和针对命令执行设备的控制命令。上述命令执行设备可以是与上述执行主体处于同一局域网内的智能家居设备，例如，智能电视、智能窗帘和智能冰箱等。若语音处理终端确定出上述解析结果中包括命令执行设备的设备标识和针对上述命令执行设备的控制命令，可以向上述设备标识所指示的命令执行设备发送上述控制命令，上述命令执行设备在接收到上述控制命令之后可以执行与上述控制命令相关的操作。作为示例，若上述解析结果中包括设备标识“电视001”和控制命令“开机”，语音处理终端可以向设备标识为“电视001”的电视终端发送控制命令“开机”，上述电视终端在接收到控制命令“开机”之后，可以执行开机操作。

进一步参考图7，作为对上述各图所示方法的实现，本申请提供了一种语音交互装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图7所示，本实施例的语音交互装置700包括：生成单元701、降噪单元702和发送单元703。其中，生成单元701被配置成基于输入的声音，生成语音输入信号，其中，输入的声音包括用户声音和环境声音；降噪单元702被配置成对语音输入信号进行降噪处理以提取出由用户发出的目标语音信号；发送单元703被配置成将目标语音信号发送给目标语音处理终端，其中，目标语音处理终端对目标语音信号进行解析得到解析结果，以及执行与解析结果相关的操作。

在本实施例中，语音交互装置700的生成单元701、降噪单元702和发送单元703的具体处理可以参考图2对应实施例中的步骤201、步骤202和步骤203。

在本实施例中的一些可选的实现方式中，上述获取单元701可以将输入的声音转为音频信号，上述执行主体的麦克风中的振膜会随着声波一同振动，振膜的振动会推动里边的磁铁形成变化的电流，由此产生模拟电信号，产生的模拟电信号即为音频信号；之后，上述执行主体可以以预设的第一采样速率对上述音频信号进行采样得到语音输入信号。采样频率，也称为采样速度或者采样率，定义了每秒从连续信号中提取并组成离散信号的采样个数。由于需要将得到的语音输入信号发送给目标语音处理终端进行语音识别等处理，而目标语音处理终端通常对以16千赫兹的采样速率进行采样所得到的数字信号进行语音识别的效果较好，因此，上述第一采样速率通常可以设置为16kHz，也可以设置为能够达到预定的语音识别效果的其它采样速率。

在本实施例中的一些可选的实现方式中，上述降噪单元702可以对麦克风阵列中的麦克风所生成的语音输入信号进行波束成形处理得到合成信号，上述降噪单元702可以通过如下方式对语音输入信号进行波束成形处理：对各麦克风采集的语音输入信号进行加权、时延和求和等处理，以形成具有空间指向性的合成信号，从而对信源进行精确定向并抑制波束外的声音，例如交互设备自身发出的声音。之后，上述降噪单元702可以对上述合成信号进行噪声抑制处理，具体地，上述降噪单元702可以使用常用的滤波器，例如，FIR、IIR等，对上述合成信号进行噪声抑制处理。上述降噪单元702也可以根据噪声信号频率、噪声信号强度和噪声信号时长等对上述合成信号进行噪声抑制处理。而后，上述降噪单元702可以对噪声抑制处理后的信号进行去混响处理和语音增强处理，得到由用户发出的目标语音信号。上述降噪单元702可以采用现有的去混响技术，例如，倒谱法去混响技术、子带处理法等，对噪声抑制处理后的信号进行去混响处理。上述降噪单元702可以采用AGC电路对噪声抑制处理后的信号进行语音增强处理。

在本实施例中的一些可选的实现方式中，上述语音交互装置700还可以包括建立单元(图中未示出)。上述建立单元可以接收语音处理终端的配对请求，若接收到语音处理终端的配对请求，可以建立与上述目标语音处理终端的配对关系。可以将与上述执行主体建立配对关系的语音处理终端确定为目标语音处理终端。在配对成功之后，上述执行主体可以成为上述目标语音处理终端的麦克风外设。

进一步参考图8，作为对上述各图所示方法的实现，本申请提供了一种语音交互装置的另一个实施例，该装置实施例与图4所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，本实施例的语音交互装置800包括：接收单元801、解析单元802和执行单元803。其中，接收单元801被配置成接收降噪耳机发送的目标语音信号，其中，目标语音信号是降噪耳机对语音输入信号进行降噪处理以提取出由用户发出的语音信号，语音输入信号是基于输入的声音所生成的；解析单元802被配置成对目标语音信号进行解析得到解析结果；执行单元803被配置成执行与解析结果相关的操作。

在本实施例中，语音交互装置800的接收单元801、解析单元802和执行单元803的具体处理可以参考图4对应实施例中的步骤401、步骤402和步骤403。

在本实施例的一些可选的实现方式中，上述执行单元803可以确定上述解析结果中是否包括命令执行设备的设备标识和针对命令执行设备的控制命令。上述命令执行设备可以是与上述执行主体处于同一局域网内的智能家居设备，例如，智能电视、智能窗帘和智能冰箱等。若上述执行单元803确定出上述解析结果中包括命令执行设备的设备标识和针对上述命令执行设备的控制命令，可以向上述设备标识所指示的命令执行设备发送上述控制命令，上述命令执行设备在接收到上述控制命令之后可以执行与上述控制命令相关的操作。作为示例，若上述解析结果中包括设备标识“电视001”和控制命令“开机”，上述执行单元803可以向设备标识为“电视001”的电视终端发送控制命令“开机”，上述电视终端在接收到控制命令“开机”之后，可以执行开机操作。

下面参考图9，其示出了适于用来实现本发明实施例的电子设备(例如，降噪耳机)的计算机系统900的结构示意图。图9示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图9所示，电子设备900包括中央处理单元(CPU)901、存储器902、输入单元903和输出单元904，其中，CPU 901、存储器902、输入单元903以及输出单元904通过总线905彼此相连。在此，根据本申请实施例的方法可以被实现为计算机程序，并且存储在存储器902中。电子设备900中的CPU 901通过调用存储器902中存储的上述计算机程序，来具体实现本申请实施例的方法中限定的语音交互功能。在一些实现方式中，输入单元903可以是麦克风等可用于接收输入的声音的设备，输出单元904可以是扬声器等可用于播放声音的设备。由此，CPU 901在调用上述计算机程序执行语音交互功能时，可以控制输入单元903从外部接收声音，以及控制输出单元904对声音进行播放。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在该计算机程序被中央处理单元(CPU)901执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括生成单元、降噪单元和发送单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。例如，生成单元还可以被描述为“基于输入的声音，生成语音输入信号的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：基于输入的声音，生成语音输入信号，其中，输入的声音包括用户声音和环境声音；对语音输入信号进行降噪处理以提取出由用户发出的目标语音信号；将目标语音信号发送给目标语音处理终端，其中，目标语音处理终端对目标语音信号进行解析得到解析结果，以及执行与解析结果相关的操作。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种语音交互方法，包括：

基于输入的声音，生成语音输入信号，其中，所述输入的声音包括用户声音和环境声音；

对所述语音输入信号进行降噪处理以提取出由用户发出的目标语音信号；

将所述目标语音信号发送给目标语音处理终端，其中，所述目标语音处理终端对所述目标语音信号进行解析得到解析结果，以及执行与所述解析结果相关的操作。

2.根据权利要求1所述的方法，其中，所述基于输入的声音，生成声音输入信号，包括：

将输入的声音转为音频信号；

以预设的第一采样速率对所述音频信号进行采样得到语音输入信号。

3.根据权利要求1所述的方法，其中，所述对所述语音输入信号进行降噪处理以提取出由用户发出的目标语音信号，包括：

对所述语音输入信号进行波束成形处理得到合成信号；

对所述合成信号进行噪声抑制处理；

对噪声抑制处理后的信号进行去混响处理和语音增强处理，得到由用户发出的目标语音信号。

4.根据权利要求1-3之一所述的方法，其中，在所述基于输入的声音，生成语音输入信号之前，所述方法还包括：

响应于接收到所述目标语音处理终端发送的配对请求，建立与所述目标语音处理终端的配对关系。

5.一种语音交互装置，包括：

生成单元，被配置成基于输入的声音，生成语音输入信号，其中，所述输入的声音包括用户声音和环境声音；

降噪单元，被配置成对所述语音输入信号进行降噪处理以提取出由用户发出的目标语音信号；

发送单元，被配置成将所述目标语音信号发送给目标语音处理终端，其中，所述目标语音处理终端对所述目标语音信号进行解析得到解析结果，以及执行与所述解析结果相关的操作。

6.根据权利要求5所述的装置，其中，所述生成单元进一步被配置成按照如下步骤基于输入的声音，生成语音输入信号：

将输入的声音转为音频信号；

7.根据权利要求5所述的装置，其中，所述降噪单元进一步被配置成按照如下步骤对所述语音输入信号进行降噪处理以提取出由用户发出的目标语音信号：

对所述语音输入信号进行波束成形处理得到合成信号；

对所述合成信号进行噪声抑制处理；

8.根据权利要求5-7之一所述的装置，其中，所述装置还包括：

建立单元，被配置成响应于接收到所述目标语音处理终端发送的配对请求，建立与所述目标语音处理终端的配对关系。

9.一种语音交互方法，包括：

接收降噪耳机发送的目标语音信号，其中，所述目标语音信号是所述降噪耳机对语音输入信号进行降噪处理以提取出的由用户发出的语音信号，所述语音输入信号是基于输入的声音所生成的；

对所述目标语音信号进行解析得到解析结果；

执行与所述解析结果相关的操作。

10.根据权利要求9所述的方法，其中，所述执行与所述解析结果相关的操作，包括：

响应于确定出所述解析结果包括命令执行设备的设备标识和针对所述命令执行设备的控制命令，向所述设备标识所指示的命令执行设备发送所述控制命令，以供所述命令执行设备执行与所述控制命令相关的操作。

11.一种语音交互装置，包括：

接收单元，被配置成接收降噪耳机发送的目标语音信号，其中，所述目标语音信号是所述降噪耳机对语音输入信号进行降噪处理以提取出的由用户发出的语音信号，所述语音输入信号是基于输入的声音所生成的；

解析单元，被配置成对所述目标语音信号进行解析得到解析结果；

执行单元，被配置成执行与所述解析结果相关的操作。

12.根据权利要求11所述的装置，其中，所述执行单元进一步被配置成按照如下步骤执行与所述解析结果相关的操作：

13.一种语音交互系统，包括语音处理终端和降噪耳机，所述系统包括：

所述降噪耳机，被配置成基于输入的声音，生成语音输入信号，对所述语音输入信号进行降噪处理以提取出由用户发出的目标语音信号，以及将所述目标语音信号发送给所述语音处理终端，其中，所述输入的声音包括用户声音和环境声音；

所述语音处理终端，被配置成对所述目标语音信号进行解析得到解析结果，执行与所述解析结果相关的操作。

14.根据权利要求13所述的系统，其中，

所述降噪耳机，被配置成将输入的声音转为音频信号，以预设的第一采样速率对所述音频信号进行采样得到语音输入信号。

15.根据权利要求13所述的系统，其中，

所述降噪耳机，被配置成对所述语音输入信号进行波束成形处理得到合成信号，对所述合成信号进行噪声抑制处理，对噪声抑制处理后的信号进行去混响处理和语音增强处理，得到由用户发出的目标语音信号。

16.根据权利要求13-15之一所述的系统，其中，

所述语音处理终端，被配置成向所述降噪耳机发送配对请求；

所述降噪耳机，被配置成建立与所述语音处理终端的配对关系。

17.根据权利要求13-15之一所述的系统，其中，所述系统还包括命令执行设备；

所述语音处理终端，被配置成响应于确定出所述解析结果包括所述命令执行设备的设备标识和针对所述命令执行设备的控制命令，向所述命令执行设备发送所述控制命令；

所述命令执行设备，被配置成执行与所述控制命令相关的操作。

18.一种降噪耳机，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-4中任一所述的方法。

19.一种语音处理终端，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求9-10中任一所述的方法。

20.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-4中任一所述的方法。

21.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求9-10中任一所述的方法。