CN108320751B

CN108320751B - 一种语音交互方法、装置、设备和服务器

Info

Publication number: CN108320751B
Application number: CN201810097235.5A
Authority: CN
Inventors: 田超
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-01-31
Filing date: 2018-01-31
Publication date: 2021-12-10
Anticipated expiration: 2038-01-31
Also published as: CN108320751A; US11587560B2; US20190237070A1

Abstract

本发明提出一种语音交互方法，应用于便携式设备，包括：通过至少两个麦克风采集语音信息；对所述语音信息进行处理，并且判断所述语音信息中是否包含有效语音命令；其中，所述有效语音命令为用户发出的针对移动终端的命令；以及在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端。本发明实施例中，将对语音信息的处理分配给外部的设备进行，降低了移动终端本身的电量消耗；并且，利用至少两个麦克风来采集语音信息，提高了语音采集的效率和质量。

Description

一种语音交互方法、装置、设备和服务器

技术领域

本发明涉及语音识别领域，并具体涉及一种语音交互方法、装置、设备和服务器。

背景技术

目前，由于语音识别技术的发展，移动终端、例如手机、平板电脑等常利用语音识别来对移动终端进行控制，例如拨打电话等。

但是，对于移动终端、特别是手机来说，经常开启语音识别会增加手机电量的消耗。而且，要想进行语音识别，需要长时间开启内置有语音识别功能的应用程序，对电量消耗较大。

此外，在利用语音对手机进行控制时，所采集到的语音信息中常包含无用的语音信息，例如在嘈杂的环境中，采集到的语音信息中常常包含除了用户的语音命令之外的人声，以及一些环境噪声。在这种情况下，即使用户没有发出语音命令，手机仍然会进行语音识别，由此增加了手机的计算量，进一步提高了耗电量。而且，由于移动终端只能设置少于两个的麦克风插入孔，语音信息的采集效率不高，很多时候需要用户将麦克风放置于嘴边，并且提高音量，才能使发出的语音命令被接收识别。

发明内容

本发明实施例提供一种语音交互方法、装置、设备和服务器，以至少解决现有技术中的以上技术问题。

第一方面，本发明实施例提供了一种语音交互方法，应用于便携式设备，包括：

通过至少两个麦克风采集语音信息；

对所述语音信息进行处理，并且判断所述语音信息中是否包含有效语音命令；其中，所述有效语音命令为用户发出的针对移动终端的命令；以及

在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端。

结合第一方面，本发明在第一方面的第一种实施方式中，所述对所述语音信息进行处理，并且判断所述语音信息中是否包含有效语音命令，包括：

利用DSP过滤所述语音信息中的噪声，得到来自用户的语音信息；以及

判断所述来自用户的语音信息中是否包含有效语音命令。

结合第一方面，本发明在第一方面的第二种实施方式中，所述判断所述语音信息中是否包含有效语音命令包括：

判断所述语音信息中是否包含预设唤醒词，并且在所述语音信息中包含所述预设唤醒词时确定所述语音信息中包含有效语音命令。

结合第一方面，本发明在第一方面的第三种实施方式中，还包括：从所述移动终端接收同步播放的命令，并且根据所述命令进行播放操作。

第二方面，本发明实施例提供了一种语音交互方法，

结合第二方面，本发明在第二方面的第一实施方式中，应用于移动终端，包括：

从便携式移动设备接收有效语音命令；其中，所述有效语音命令为用户针对所述移动终端的语音命令；以及

根据所述有效语音命令，指示与所述有效语音命令相关的应用程序进行相应操作。

结合第二方面，本发明在第二方面的第一种实施方式中，所述根据所述有效语音命令，指示与所述有效语音命令相关的应用程序进行相应操作，包括：

判断所述有效语音命令是否与音频播放相关联；

在所述有效语音命令与音频播放相关联时，指示音频播放程序打开相关音频；以及

将同步播放的命令发送至便携式设备；其中，所述同步播放的命令指示所述便携式设备与所述音频播放程序同步播放音频。

第三方面，本发明实施例提供了一种语音交互装置，应用于便携式设备，包括：

语音采集模块，用于通过至少两个麦克风采集语音信息；

语音处理模块，用于对所述语音信息进行处理，并且判断所述语音信息中是否包含有效语音命令；其中，所述有效语音命令为用户发出的针对移动终端的命令；以及

语音传输模块，用于在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端。

第四方面，本发明实施例提供了一种语音交互装置，应用于移动终端，包括：

语音接收模块，用于从便携式移动设备接收有效语音命令；其中，所述有效语音命令为用户针对所述移动终端的语音命令；以及

操作控制模块，用于根据所述有效语音命令，指示与所述有效语音命令相关的应用程序进行相应操作。

第五方面，本发明实施例提供了一种设备，所述设备包括：

一个或多个处理器；

存储装置，配置为存储一个或多个程序；

通信接口，配置为使所述处理器和存储装置与外部设备进行通信；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述第一方面中的方法。

第六方面，本发明实施例提供了一种服务器，所述服务器包括：

一个或多个处理器；

存储装置，配置为存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现上述第二方面中的方法。

第七方面，本发明实施例提供了一种计算机可读存储介质，用于存储所述语音交互装置所用的计算机软件指令，其包括用于执行上述第一方面中的语音交互方法为所述语音交互装置所涉及的程序。

第八方面，本发明实施例提供了一种计算机可读存储介质，用于存储所述语音交互装置所用的计算机软件指令，其包括用于执行上述第二方面中的语音交互方法为所述语音交互装置所涉及的程序。

上述技术方案中的另一个技术方案具有如下优点或有益效果：本发明实施例中，将对语音信息的处理分配给外部的设备进行，降低了移动终端本身的电量消耗；并且，利用至少两个麦克风来采集语音信息，提高了语音采集的效率和质量。

上述概述仅仅是为了说明书的目的，并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外，通过参考附图和以下的详细描述，本发明进一步的方面、实施方式和特征将会是容易明白的。

附图说明

在附图中，除非另外规定，否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解，这些附图仅描绘了根据本发明公开的一些实施方式，而不应将其视为是对本发明范围的限制。

图1为根据本发明一个实施例的语音交互方法的流程图；

图2为根据本发明另一实施例的语音交互方法的流程图；

图3为根据本发明另一实施例的语音交互方法的流程图；

图4为根据本发明另一实施例的音频播放控制方法的流程图；

图5为根据本发明另一实施例的语音交互装置的结构示意图；

图6为根据本发明另一实施例的语音交互装置的结构示意图；

图7为根据本发明另一实施例的操作控制模块的结构示意图；

图8为根据本发明另一实施例的设备的结构示意图。

具体实施方式

在下文中，仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样，在不脱离本发明的精神或范围的情况下，可通过各种不同方式修改所描述的实施例。因此，附图和描述被认为本质上是示例性的而非限制性的。

图1示出了根据本发明一个实施例的语音交互方法100的流程图。如图1所示，语音交互方法100可以包括：

S110：通过至少两个麦克风采集语音信息；

目前，在移动终端中，由于硬件上的限制，很难实现用两个以上的麦克风来采集语音信息。这样，对语音信息的采集效率不高。为此，在本发明实施例中，方法100可以在便携式设备上运行，该便携式设备可以设置有至少两个麦克风。

本发明实施例中的便携式设备可以是紧凑的设备，例如可以作为领带夹、手环、胸针等被用户随身携带，既不占用太多空间，有时也可以起到装饰作用。

在本发明一个优选实施方式中，该便携式设备的外形可以是方形的，或者在方形的各角处呈现一定的弧度，使得外形更为圆滑，也便于携带。在一个替代实施方式中，便携式设备可以是多边形的柱体。实际上，本发明实施例中的便携式设备可以具有任何具有点对称性质的形状，这样可以便于牢固地放置于便于携带的外壳中。但是，可以理解的是，圆形也是可以的，只要增加几个固定装置，使得便携式设备上设置的麦克风不会容易地移位即可。

此外，为了进一步提高语音采集效率，可以在便携式设备的每个方向上都设置有两个麦克风孔，并且在其中一个方向上设置喇叭，这样可以充当播放设备。

S120：对所述语音信息进行处理，并且判断所述语音信息中是否包含有效语音命令；

现实中，很多时候，用户所处的环境中不是只有用户本人一个声源，而是存在多个声源。例如，如果用户处于公共交通工具中，麦克风所采集到的语音信息不止包含用户本人发出的语音信息，还可能包括公共交通工具报站的语音信息、周围乘客发出的语音信息、甚至公共交通工具的喇叭等发出的语音信息。此时，需要先对采集到的语音信息进行处理。

在本发明一个优选实施方式中，S120可以包括：

判断所述来自用户的语音信息中是否包含有效语音命令。

DSP(Digital Signal Processor，数字信号处理器)是常用的信号处理装置，.特点是快速以及低功耗实现各种信号处理算法。本发明实施例中，利用DSP过滤所采集的语音信息中的噪声、即不属于用户的语音信息。具体的算法可以是任何一种信号处理的算法，在此不做具体限制。

可以理解的是，用户所发出的语音信息不一定是针对移动终端进行操作的。例如，用户可能仅是在与周围的人进行日常对话，而不是在与移动终端进行互动。因此，需要判断来自用户的语音信息中是否包含有效语音命令。本发明实施例中，有效语音命令可以为用户发出的针对移动终端的命令。

在本发明一个优选实施方式中，所述判断所述语音信息中是否包含有效语音命令包括：

本发明实施例中，唤醒词可以根据需要设置，可以是预先设置好的，也可以是用户自行设置。以唤醒词为“小度”为示例，对本发明实施例进行具体说明。例如，如果用户发出“小度，播放《星球大战7》”，则该语音命令会被确定为有效语音命令。

S130：在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端；

方法100中，通过至少两个麦克风采集语音信息，并且将语音处理分配给便携式设备进行，降低了移动终端的电耗。

图2示出了根据本发明另一实施例的语音交互方法200的流程图，方法200可以包括：

S210：通过至少两个麦克风采集语音信息；

S220：对所述语音信息进行处理，并且判断所述语音信息中是否包含有效语音命令；其中，所述有效语音命令为用户发出的针对移动终端的命令；以及

S230：在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端；

S210-S230与S110-S130相同，在此不赘述。

方法200还可以包括：

S240：从所述移动终端接收同步播放的命令，并且根据所述命令进行播放操作。

为了使便携式设备的功能更为丰富，可以将其作为一个播放设备，与移动终端同步播放音频。特别地，便携式设备和移动终端可以通过蓝牙通信。

图3示出了根据本发明另一实施例的语音交互方法300的流程图，方法300应用于移动终端，并且可以包括：

S310：从便携式移动设备接收有效语音命令；

本发明实施例中，有效语音命令为用户针对所述移动终端的语音命令，并且优选包含预设唤醒词。

S320：根据所述有效语音命令，指示与所述有效语音命令相关的应用程序进行相应操作；

本发明实施例中，方法300可以由单独的程序进行。该程序可以仅具有执行方法300这一种功能，所以需要使用的功耗非常低，也不需要占用太多移动终端的内存，并且可以在没有收到有效语音命令时关闭，进一步节省了移动终端的电耗。

以一个具体的示例来说明S320。如果有效语音命令为“小度，播放《西游降魔篇》”，该有效语音命令与视频播放相关联，则可以根据上述语音命令，指示视频播放程序对《西游降魔篇》进行播放。

优选地，如果有效语音命令涉及音频播放，可以使便携式设备同步播放音频，进一步降低移动终端的电耗。在这种情况下，如图4所示，S320可以包括：

S321：判断有效语音命令是否与音频播放相关联；

S322：在所述有效语音命令与音频播放相关联时，指示音频播放程序打开相关音频；

S323：将同步播放的命令发送至便携式设备；其中，所述同步播放的命令指示所述便携式设备与所述音频播放程序同步播放音频。

此时，由便携式设备进行音频的播放，移动终端中的音频播放程序只进行播放控制，而并不进行音频输出、即并不播放出声音。这样，实现了移动终端耗电量的进一步降低。

图5示出了根据本发明另一实施例的语音交互装置400的结构示意图，装置400可以应用于便携式设备，并且可以包括：

语音采集模块410，用于通过至少两个麦克风采集语音信息；

语音处理模块420，用于对所述语音信息进行处理，并且判断所述语音信息中是否包含有效语音命令；其中，所述有效语音命令为用户发出的针对移动终端的命令；以及

语音传输模块430，用于在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端。

特别地，语音处理模块420可以包括：

过滤单元，用于利用DSP过滤所述语音信息中的噪声，得到来自用户的语音信息；以及

判断单元，用于判断所述来自用户的语音信息中是否包含有效语音命令。

优选地，语音处理模块420可以进一步用于：对所述语音信息进行处理，判断所述语音信息中是否包含预设唤醒词，并且在所述语音信息中包含所述预设唤醒词时确定所述语音信息中包含有效语音命令。

特别地，装置400还可以包括：

播放模块，用于从所述移动终端接收同步播放的命令，并且根据所述命令进行播放操作。

图6示出了根据本发明另一实施例的语音交互装置500的结构示意图，装置500可以应用于移动终端，并且可以包括：

语音接收模块510，用于从便携式移动设备接收有效语音命令；其中，所述有效语音命令为用户针对所述移动终端的语音命令；以及

操作控制模块520，用于根据所述有效语音命令，指示与所述有效语音命令相关的应用程序进行相应操作。

特别地，如图7所示，操作控制模块520可以包括：

判断单元521，用于判断所述有效语音命令是否与音频播放相关联；

播放控制单元522，用于在所述有效语音命令与音频播放相关联时，指示音频播放程序打开相关音频；以及

命令发送单元523，用于将同步播放的命令发送至便携式设备；其中，所述同步播放的命令指示所述便携式设备与所述音频播放程序同步播放音频。

图8示出了根据本发明另一实施例的设备600的结构示意图。如图8所示，该设备包括：

一个或多个处理器610；

存储装置620，配置为存储一个或多个程序；

通信接口630，配置为使所述处理器610和存储装置620与外部设备进行通信；

当所述一个或多个程序被所述一个或多个处理器710执行时，使得所述一个或多个处理器610实现前述任一种语音交互方法。

根据本发明另一实施例，提供了一种计算机可读存储介质，其存储有计算机程序，该程序被处理器执行时实现前述任一种语音交互方法。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读存储介质中。所述存储介质可以是只读存储器，磁盘或光盘等。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到其各种变化或替换，这些都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

Claims

1.一种语音交互方法，应用于便携式设备，其特征在于，包括：

通过所述便携式设备上设置的至少两个麦克风采集语音信息；

对所述语音信息进行处理，并且判断所述语音信息中是否包含预设唤醒词，在所述语音信息中包含所述预设唤醒词时确定所述语音信息中包含有效语音命令；其中，所述有效语音命令为用户发出的针对移动终端的命令；以及

在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端，以使所述移动终端在判定所述有效语音命令与音频播放相关联时，指示所述移动终端的音频播放程序打开与所述有效语音命令相关的音频，并向所述便携式设备发送播放命令；

根据所述播放命令播放所述音频。

2.根据权利要求1所述的方法，其特征在于，所述对所述语音信息进行处理，并且判断所述语音信息中是否包含有效语音命令，包括：

判断所述来自用户的语音信息中是否包含有效语音命令。

3.一种语音交互方法，应用于移动终端，其特征在于，包括：

从便携式设备接收有效语音命令；其中，所述有效语音命令为用户针对所述移动终端的语音命令；判断所述有效语音命令是否与音频播放相关联；

在所述有效语音命令与音频播放相关联时，指示所述移动终端的音频播放程序打开与所述有效语音命令相关的音频；以及

将同步播放的命令发送至所述便携式设备；其中，所述同步播放的命令指示所述便携式设备与所述音频播放程序同步播放所述音频，并且所述移动终端不进行所述音频的播放。

4.一种语音交互装置，应用于便携式设备，其特征在于，包括：

语音采集模块，用于通过所述便携式设备上设置的至少两个麦克风采集语音信息；

语音处理模块，用于对所述语音信息进行处理，并且判断所述语音信息中是否包含预设唤醒词，在所述语音信息中包含所述预设唤醒词时确定所述语音信息中包含有效语音命令；其中，所述有效语音命令为用户发出的针对移动终端的命令；以及

语音传输模块，用于在所述语音信息中包含有效语音命令时将所述有效语音命令传输至所述移动终端，以使所述移动终端在判定所述有效语音命令与音频播放相关联时，指示所述移动终端的音频播放程序打开与所述有效语音命令相关的音频，并向所述便携式设备发送播放命令；

播放模块，用于根据所述播放命令播放所述音频。

5.根据权利要求4所述的装置，其特征在于，所述语音处理模块包括：

6.一种语音交互装置，应用于移动终端，其特征在于，包括：

语音接收模块，用于从便携式设备接收有效语音命令；其中，所述有效语音命令为用户针对所述移动终端的语音命令；以及

操作控制模块，用于根据所述有效语音命令，指示与所述有效语音命令相关的应用程序进行相应操作，

其中，所述操作控制模块包括：

判断单元，用于判断所述有效语音命令是否与音频播放相关联；

播放控制单元，用于在所述有效语音命令与音频播放相关联时，指示所述移动终端的音频播放程序打开与所述有效语音命令相关的音频；以及

命令发送单元，用于将同步播放的命令发送至便携式设备；其中，所述同步播放的命令指示所述便携式设备与所述音频播放程序同步播放所述音频，并且所述移动终端不进行所述音频的播放。

7.一种设备，其特征在于，所述设备包括：

一个或多个处理器；

存储装置，配置为存储一个或多个程序；

通信接口，配置为使所述处理器和所述存储装置与外部设备进行通信；当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1或2所述的方法。

8.一种服务器，其特征在于，所述服务器包括：

一个或多个处理器；

存储装置，配置为存储一个或多个程序；

通信接口，配置为使所述处理器和所述存储装置与外部设备进行通信；

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求3所述的方法。

9.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1或2所述的方法。

10.一种计算机可读存储介质，其存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求3所述的方法。