CN108922528A

CN108922528A - 用于处理语音的方法和装置

Info

Publication number: CN108922528A
Application number: CN201810718087.4A
Authority: CN
Inventors: 吴亚
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2018-06-29
Filing date: 2018-06-29
Publication date: 2018-11-30
Anticipated expiration: 2038-06-29
Also published as: JP2020003774A; US11244686B2; CN108922528B; US20200005793A1; JP6783339B2

Abstract

本申请实施例公开了用于处理语音的方法和装置。该方法的一具体实施方式包括：响应于确定出目标语音交互设备集合中的至少一个语音交互设备接收到输入语音，针对至少一个语音交互设备中的语音交互设备，获取该语音交互设备所接收到的输入语音的语音特征；基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备对输入语音进行处理。该实施方式实现了富于针对性的语音交互设备的选取。

Description

用于处理语音的方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及用于处理语音的方法和装置。

背景技术

目前，随着智能家居的研发和普及，智能家居设备走进千家万户。在多空间场景中，可以在卧室、客厅、厨房和卫生间均放置具有语音交互功能的智能家居设备，例如，可以在卧室放置智能音箱，在客厅放置智能电视，在厨房放置智能冰箱，在卫生间放置智能洗衣机。现有的用于语音交互设备的语音处理方式通常是用户说出语音指令后由接收到语音指令的至少一个语音交互设备对语音指令进行处理，从而实现与用户之间的语音交互。

发明内容

本申请实施例提出了用于处理语音的方法和装置。

第一方面，本申请实施例提供了一种用于处理语音的方法，包括：响应于确定出目标语音交互设备集合中的至少一个语音交互设备接收到输入语音，针对至少一个语音交互设备中的语音交互设备，获取该语音交互设备所接收到的输入语音的语音特征；基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备对输入语音进行处理。

在一些实施例中，语音特征包括响度；以及基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备对输入语音进行处理，包括：按照至少一个语音交互设备中的语音交互设备所接收到的输入语音的响度由大到小的顺序从至少一个语音交互设备中选取预设第一数目个语音交互设备对输入语音进行处理。

在一些实施例中，语音特征包括声压；以及基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备对输入语音进行处理，包括：按照至少一个语音交互设备中的语音交互设备所接收到的输入语音的声压由大到小的顺序从至少一个语音交互设备中选取预设第二数目个语音交互设备对输入语音进行处理。

在一些实施例中，基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备对输入语音进行处理，包括：响应于确定出输入语音中包括预设的唤醒词，基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备进行唤醒使得唤醒后的语音交互设备对输入语音进行处理。

在一些实施例中，在从至少一个语音交互设备中选取语音交互设备对输入语音进行处理之前，该方法还包括：对输入语音进行解析得到解析结果；以及从至少一个语音交互设备中选取语音交互设备对输入语音进行处理，包括：从至少一个语音交互设备中选取语音交互设备，向选取出的语音交互设备发送解析结果使得选取出的语音交互设备执行解析结果所指示的操作。

第二方面，本申请实施例提供了一种用于处理语音的装置，包括：获取单元，被配置成响应于确定出目标语音交互设备集合中的至少一个语音交互设备接收到输入语音，针对至少一个语音交互设备中的语音交互设备，获取该语音交互设备所接收到的输入语音的语音特征；选取单元，被配置成基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备对输入语音进行处理。

在一些实施例中，语音特征包括响度；以及选取单元进一步被配置成按照如下方式基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备对输入语音进行处理：按照至少一个语音交互设备中的语音交互设备所接收到的输入语音的响度由大到小的顺序从至少一个语音交互设备中选取预设第一数目个语音交互设备对输入语音进行处理。

在一些实施例中，语音特征包括声压；以及选取单元进一步被配置成按照如下方式基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备对输入语音进行处理：按照至少一个语音交互设备中的语音交互设备所接收到的输入语音的声压由大到小的顺序从至少一个语音交互设备中选取预设第二数目个语音交互设备对输入语音进行处理。

在一些实施例中，选取单元进一步被配置成按照如下方式基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备对输入语音进行处理：响应于确定出输入语音中包括预设的唤醒词，基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备进行唤醒使得唤醒后的语音交互设备对输入语音进行处理。

在一些实施例中，该装置还包括：解析单元，被配置成对输入语音进行解析得到解析结果；以及选取单元进一步被配置成按照如下方式从至少一个语音交互设备中选取语音交互设备对输入语音进行处理：从至少一个语音交互设备中选取语音交互设备，向选取出的语音交互设备发送解析结果使得选取出的语音交互设备执行解析结果所指示的操作。

第三方面，本申请实施例提供了一种终端设备，该终端设备包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行时，使得上述一个或多个处理器实现如第一方面中任一实现方式描述的方法。

第四方面，本申请实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请提供的用于处理语音的方法和装置，通过响应于确定出目标语音交互设备集合中存在接收到输入语音的语音交互设备，针对接收到输入语音的至少一个语音交互设备中的语音交互设备，获取该语音交互设备所接收到的输入语音的语音特征。之后，可以基于上述至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从上述至少一个语音交互设备中选取语音交互设备对上述输入语音进行处理。从而有效利用了语音交互设备所接收到输入语音的语音特征进行语音交互设备的选取，实现了富于针对性的语音交互设备的选取。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请的一个实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于处理语音的方法的一个实施例的流程图；

图3是根据本申请的用于处理语音的方法的一个应用场景的示意图；

图4是根据本申请的用于处理语音的方法的又一个实施例的流程图；

图5是根据本申请的用于处理语音的方法的再一个实施例的流程图；

图6是根据本申请的用于处理语音的装置的一个实施例的结构示意图；

图7是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的用于处理语音的方法或用于处理语音的装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括语音交互设备101、102、103，控制终端104和网络1051、1052、1053、1054、1055、1056。其中，网络1051用以在语音交互设备101和语音交互设备102之间提供通信链路的介质；网络1052用以在语音交互设备101和语音交互设备103之间提供通信链路的介质；网络1053用以在语音交互设备102和语音交互设备103之间提供通信链路的介质；网络1054用以在语音交互设备101和控制终端104之间提供通信链路的介质；网络1055用以在语音交互设备102和控制终端104之间提供通信链路的介质；网络1056用以在语音交互设备103和控制终端104之间提供通信链路的介质。

控制终端104可以通过网络1054、1055、1056分别与语音交互设备101、102、103进行交互，以发送或接收消息等。作为示例，在确定出语音交互设备101、102、103中的至少一个语音交互设备接收到输入语音，控制终端104可以针对上述至少一个语音交互设备中的语音交互设备，获取该语音交互设备所接收到的输入语音的语音特征；之后，控制终端104可以基于上述至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从上述至少一个语音交互设备中选取语音交互设备对上述输入语音进行处理。

控制终端104可以是硬件，也可以是软件。当控制终端104为硬件时，可以是支持信息交互和信息处理的各种电子设备，包括但不限于智能手机、智能手表、电子书阅读器、MP3播放器(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机等等。当控制终端104为软件时，可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

语音交互设备101、102、103可以是支持语音交互的各种电子设备，包括但不限于智能音箱、智能家居设备(例如，智能电视、智能洗衣机、智能冰箱等)。语音交互设备101、102、103可以通过网络1051、1052、1053与其他语音交互设备进行交互。作为示例，在确定出语音交互设备101、102、103中的至少一个语音交互设备接收到输入语音，语音交互设备101可以针对上述至少一个语音交互设备中的语音交互设备，获取该语音交互设备所接收到的输入语音的语音特征；之后，语音交互设备101可以基于上述至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从上述至少一个语音交互设备中选取语音交互设备对上述输入语音进行处理。

需要说明的是，本申请实施例所提供的用于处理语音的方法可以由控制终端104执行，相应地，用于处理语音的装置可以设置于控制终端104中。用于处理语音的方法还可以由语音交互设备101、102、103中的任一语音交互设备执行，相应地，用于处理语音的装置可以设置于相应的语音交互设备中。

还需要说明的是，若用于处理语音的方法由语音交互设备101、102、103中的任一语音交互设备执行，此时示例性系统架构100可以不存在网络1054、1055、1056和控制终端104。

需要说明的是，语音交互设备101、102、103可以是硬件，也可以是软件。当语音交互设备101、102、103为硬件时，可以实现成多个语音交互设备组成的分布式语音交互设备集群，也可以实现成单个语音交互设备。当语音交互设备为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

应该理解，图1中的语音交互设备、控制终端和网络的数目仅仅是示意性的。根据实现需要，可以具有任意数目的语音交互设备、控制终端和网络。

继续参考图2，示出了根据本申请的用于处理语音的方法的一个实施例的流程200。该用于处理语音的方法，包括以下步骤：

步骤201，确定目标语音交互设备集合中是否存在接收到输入语音的语音交互设备。

在本实施例中，用于处理语音的方法的执行主体(例如图1所示的控制终端104，或者语音交互设备101、102和103中的任一个)可以确定目标语音交互设备集合中是否存在接收到输入语音的语音交互设备。语音交互设备可以是基于用户的输入语音与用户进行交互的设备，能够对输入语音进行分析等处理从而反馈语音处理结果。语音交互设备可以包括但不限于以下至少一项：智能音箱、具有语音交互功能的智能家居设备(例如，智能电视、智能冰箱和智能洗衣机等)。

在本实施例中，目标语音交互设备集合可以是处于同一局域网(例如，家庭局域网)中、可以互相通信以进行信息交互的语音交互设备所组成的集合。作为示例，目标语音交互设备集合可以是在一个家庭中，由卧室的智能音箱、客厅的智能电视、厨房的智能冰箱和卫生间的智能洗衣机所组成的语音交互设备集合；目标语音交互设备集合还可以是在一个家庭中，由主卧的智能音箱、次卧的智能音箱、客厅的智能音箱和厨房的智能音箱所组成的音箱组合。

在本实施例中，上述执行主体可以是针对上述目标语音交互设备集合进行语音处理的控制终端，例如，手机、电脑等终端设备；上述执行主体还可以是目标语音交互设备集合中的任一个语音交互设备。作为示例，若目标语音交互设备集合是由卧室的智能音箱、客厅的智能电视、厨房的智能冰箱和卫生间的智能洗衣机所组成的语音交互设备集合，执行主体可以是客厅的智能电视，也可以是卧室的智能音箱，还可以是厨房的智能冰箱或者卫生间的智能洗衣机。

在本实施例中，输入语音也可以称为输入声音。若上述目标语音交互设备集合中的语音交互设备接收到输入语音，可以向上述执行主体发送用于表征接收到输入语音的信息。上述执行主体也可以对上述目标语音交互设备集合中的语音交互设备进行监控从而确定是否存在接收到输入语音的语音交互设备。

步骤202，响应于确定出目标语音交互设备集合中存在接收到输入语音的语音交互设备，针对接收到输入语音的至少一个语音交互设备中的语音交互设备，获取该语音交互设备所接收到的输入语音的语音特征。

在本实施例中，若在步骤201中确定出上述目标语音交互设备集合中存在接收到输入语音的语音交互设备，针对接收到输入语音的至少一个语音交互设备中的语音交互设备，上述执行主体可以获取该语音交互设备所接收到的输入语音的语音特征。语音特征可以用于描述语音，可以包括音色信息，音色信息可以包括音色标识，也可以包括音色所指示的用户的用户标识。由于每个人的声音通常是不一样的，因此每个人的音色通常是不同的，音色可以用于唯一标识用户。

在本实施例的一些可选的实现方式中，上述语音特征可以包括但不限于以下至少一项：响度和声压。响度也可以称为音量。响度的大小主要取决于声音接收处的波幅，就同一声源来说，波幅传播的越远，响度越小。声压就是大气压受到声波扰动后产生的变化，即为大气压强的余压，它相当于在大气压强上叠加一个声波扰动引起的压强变化。在这里，声压可以是语音交互设备在接收到输入语音时由于声波振动所引起的语音交互设备的麦克风中的振膜上的压强改变量。

在本实施例中，针对上述至少一个语音交互设备中的语音交互设备，该语音交互设备可以从所接收到的输入语音中提取语音特征，之后，上述执行主体可以从该语音交互设备中获取所提取出的语音特征。上述执行主体也可以从该语音交互设备中获取所接收到的输入语音，之后，从获取到的输入语音中提取语音特征作为该语音交互设备所接收到的输入语音的语音特征。

需要说明的是，上述执行主体通常可以针对接收到输入语音的至少一个语音交互设备中的每个语音交互设备进行语音特征的获取。

步骤203，基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备对输入语音进行处理。

在本实施例中，上述执行主体可以基于上述至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从上述至少一个语音交互设备中选取语音交互设备对输入语音进行处理。

在本实施例中，上述执行主体中可以存储有音色信息与语音交互设备标识之间的对应关系的对应关系表。若所获取到的语音特征为音色信息，上述执行主体可以利用上述对应关系表，从上述至少一个语音交互设备中选取与获取到的音色信息对应的语音交互设备标识所指示的语音交互设备，使得选取出的语音交互设备对上述输入语音进行处理。

在本实施例中，选取出的语音交互设备可以对上述输入语音进行语音识别与语义理解从而得到解析结果。在语音识别过程中，上述选取出的语音交互设备可以对上述输入语音执行特征提取、语音解码以及文本转换等步骤。在语义理解过程中，上述选取出的语音交互设备可以对语音识别得到的文本信息进行自然语言理解(Natural LanguageUnderstanding，NLU)、关键词提取以及利用人工智能(Artificial Intelligence，AI)算法进行用户意图分析，用户意图可以是指用户想要达到的一个或多个目的。

在本实施例中，若上述解析结果中包括用户指令，选取出的语音交互设备可以执行用户指令所指示的操作。通常来说，用户指令可以包括待执行操作的操作信息和待执行操作所针对的对象的对象信息中的至少一项。待执行操作可以包括但不限于：播放音乐、回答问题、计时。若待执行操作为播放音乐，待执行操作所针对的对象可以为音乐名称。

需要说明的是，上述语音特征提取、语音解码技术、文本转换、关键词提取以及人工智能算法是目前广泛研究和应用的公知技术，在此不再赘述。

在本实施例中，上述执行主体在选取出语音交互设备之后可以向所选取出的语音交互设备发送语音处理指示，接收到语音处理指示的语音交互设备可以对上述输入语音进行处理。

在本实施例的一些可选的实现方式中，若所获取到的语音特征包括声压，上述执行主体可以按照上述至少一个语音交互设备中的语音交互设备所接收到的输入语音在语音交互设备的麦克风的振膜上所产生的声压由大到小的顺序从上述至少一个语音交互设备中选取预设第二数目个(例如，一个、三个等)语音交互设备对上述输入语音进行处理。作为示例，若接收到输入语音的语音交互设备包括卧室的智能音箱、客厅的智能电视和厨房的智能冰箱，上述执行主体获取到卧室的智能音箱接收到输入语音的声压为0.002帕斯卡(Pa)，客厅的智能电视接收到输入语音的声压为0.02帕斯卡，厨房的智能冰箱接收到输入语音的声压为0.0012帕斯卡。上述执行主体可以选取接收到输入语音的声压最大的客厅的智能电视对上述输入语音进行处理。

在本实施例的一些可选的实现方式中，上述执行主体可以对上述输入语音进行解析得到解析结果。上述执行主体可以对上述输入语音进行语音识别与语义理解从而得到解析结果。在语音识别过程中，上述执行主体可以对上述输入语音执行特征提取、语音解码以及文本转换等步骤。在语义理解过程中，上述执行主体可以对语音识别得到的文本信息进行自然语言理解、关键词提取以及利用人工智能算法进行用户意图分析，用户意图可以是指用户想要达到的一个或多个目的。之后，上述执行主体可以从上述至少一个语音交互设备中选取语音交互设备，向选取出的语音交互设备发送上述解析结果使得选取出的语音交互设备执行上述解析结果所指示的操作。若上述解析结果中包括用户指令，选取出的语音交互设备可以执行用户指令所指示的操作。通常来说，用户指令可以包括待执行操作的操作信息和待执行操作所针对的对象的对象信息中的至少一项。待执行操作可以包括但不限于：播放音乐、回答问题、计时。若待执行操作为播放音乐，待执行操作所针对的对象可以为音乐名称。

继续参见图3，图3是根据本实施例的用于处理语音的方法的应用场景的一个示意图。在图3的应用场景中，由客厅的智能电视302、卧室的智能音箱303和厨房的智能冰箱304组成目标语音交互设备集合。用户在客厅说出“播放歌曲北京欢迎你”的输入语音305，若智能电视302、智能音箱303和智能冰箱304均接收到输入语音305，智能电视302、智能音箱303和智能冰箱304可以向用于处理语音的方法的执行主体301发送用于表征接收到输入语音的信息。之后，执行主体301可以分别获取智能电视302、智能音箱303和智能冰箱304所接收到的输入语音的第一语音特征306、第二语音特征307和第三语音特征308，作为示例，第一语音特征306、第二语音特征307和第三语音特征308可以均为音色标识2。而后，执行主体301中可以存储有音色标识与语音交互设备标识之间的对应关系的对应关系表，执行主体301可以在上述对应关系表中查找到与音色标识2对应的语音交互设备标识为智能电视，则执行主体301可以选取智能电视302对输入语音305“播放歌曲北京欢迎你”进行处理(如标号309所示)，智能电视302对歌曲“北京欢迎你”进行播放。

本申请的上述实施例提供的方法通过利用语音交互设备所接收到输入语音的语音特征进行语音交互设备的选取，实现了富于针对性的语音交互设备的选取。

进一步参考图4，其示出了用于处理语音的方法的又一个实施例的流程400。该用于处理语音的方法的流程400，包括以下步骤：

步骤401，确定目标语音交互设备集合中是否存在接收到输入语音的语音交互设备。

步骤402，响应于确定出目标语音交互设备集合中存在接收到输入语音的语音交互设备，针对接收到输入语音的至少一个语音交互设备中的语音交互设备，获取该语音交互设备所接收到的输入语音的语音特征。

在本实施例中，步骤401-402的操作与步骤201-202的操作基本相同，在此不再赘述。

步骤403，按照至少一个语音交互设备中的语音交互设备所接收到的输入语音的响度由大到小的顺序从至少一个语音交互设备中选取预设第一数目个语音交互设备对输入语音进行处理。

在本实施例中，获取到的语音特征可以包括响度，响度也可以称为音量。响度的大小主要取决于声音接收处的波幅，就同一声源来说，波幅传播的越远，响度越小。上述执行主体可以按照至少一个语音交互设备中的语音交互设备所接收到的输入语音的响度由大到小的顺序从至少一个语音交互设备中选取预设第一数目个(例如，一个、两个等)语音交互设备对输入语音进行处理。

作为示例，若接收到输入语音的语音交互设备包括卧室的智能音箱、客厅的智能电视和厨房的智能冰箱，上述执行主体获取到卧室的智能音箱接收到输入语音的响度为6，客厅的智能电视接收到输入语音的响度为8，厨房的智能冰箱接收到输入语音的响度为2。上述执行主体可以选取接收到输入语音的响度最大的客厅的智能电视对上述输入语音进行处理。

从图4中可以看出，与图2对应的实施例相比，本实施例中的用于处理语音的方法的流程400增加了按照各个语音交互设备所接收到的输入语音的响度由大到小的顺序从至少一个语音交互设备中选取语音交互设备对输入语音进行处理的步骤。由此，本实施例描述的方案可以选取距离声源较近的语音交互设备对输入语音进行处理，从而提高了语音处理的准确率。

进一步参考图5，其示出了用于处理语音的方法的再一个实施例的流程500。该用于处理语音的方法的流程500，包括以下步骤：

步骤501，确定目标语音交互设备集合中是否存在接收到输入语音的语音交互设备。

步骤502，响应于确定出目标语音交互设备集合中存在接收到输入语音的语音交互设备，针对接收到输入语音的至少一个语音交互设备中的语音交互设备，获取该语音交互设备所接收到的输入语音的语音特征。

在本实施例中，步骤501-502的操作与步骤201-202的操作基本相同，在此不再赘述。

步骤503，确定输入语音中是否包括预设的唤醒词。

在本实施例中，上述执行主体可以确定上述输入语音中是否包括预设的唤醒词。具体地，上述执行主体可以对上述输入语音进行解码得到音素序列，之后与预先存储的唤醒词的音素序列进行匹配，若解码得到的因素序列中存在与所存储的唤醒词的音素序列匹配的因素序列，则确定上述语音输入信息中包括预设的唤醒词。上述唤醒词可以为预先设置的命令词，例如，打开、你好、哈喽等等。需要说明的是，上述唤醒词可以是缺省的，也可以是用户设置的。

步骤504，响应于确定出输入语音中包括预设的唤醒词，基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备进行唤醒使得唤醒后的语音交互设备对输入语音进行处理。

在本实施例中，若在步骤503中确定出上述输入语音中包括预设的唤醒词，上述执行主体可以基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从上述至少一个语音交互设备中选取语音交互设备，对选取出的语音交互设备进行唤醒使得唤醒后的语音交互设备对输入语音进行处理。唤醒后的语音交互设备可以对上述输入语音进行语音识别、语义理解等处理从而识别出用户意图，以及用户意图所指示的操作。作为示例，若用户意图为播放歌曲“北京欢迎你”，选取出的语音交互设备可以播放歌曲“北京欢迎你”。

从图5中可以看出，与图2对应的实施例相比，本实施例中的用于处理语音的方法的流程500增加了若输入语音中包括预设的唤醒词，可以对选取出的语音交互设备进行唤醒使得唤醒后的语音交互设备对输入语音进行处理的步骤。由此，本实施例描述的方案可以利用唤醒后的语音交互设备对之后接收到的输入语音进行处理，而无需每次均重新选取语音交互设备进行语音处理，这种方式可以使得语音处理过程更加简便，提高了语音处理效率。

进一步参考图6，作为对上述各图所示方法的实现，本申请提供了一种用于处理语音的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图6所示，本实施例的用于处理语音的装置600包括：获取单元601和选取单元602。其中，获取单元601被配置成响应于确定出目标语音交互设备集合中的至少一个语音交互设备接收到输入语音，针对至少一个语音交互设备中的语音交互设备，获取该语音交互设备所接收到的输入语音的语音特征；选取单元602被配置成基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备对输入语音进行处理。

在本实施例中，用于处理语音的装置600的获取单元601的具体处理可以参考图2对应实施例中的步骤201和步骤202，选取单元602的具体处理可以参考图2对应实施例中的步骤203。

在本实施例的一些可选的实现方式中，上述语音特征可以包括响度。响度也可以称为音量。响度的大小主要取决于声音接收处的波幅，就同一声源来说，波幅传播的越远，响度越小。上述选取单元602可以按照至少一个语音交互设备中的语音交互设备所接收到的输入语音的响度由大到小的顺序从至少一个语音交互设备中选取预设第一数目个语音交互设备对输入语音进行处理。

在本实施例的一些可选的实现方式中，上述语音特征可以包括声压。声压就是大气压受到声波扰动后产生的变化，即为大气压强的余压，它相当于在大气压强上叠加一个声波扰动引起的压强变化。在这里，声压可以是语音交互设备在接收到输入语音时由于声波振动所引起的语音交互设备的麦克风中的振膜上的压强改变量。若所获取到的语音特征包括声压，上述选取单元602可以按照上述至少一个语音交互设备中的语音交互设备所接收到的输入语音在语音交互设备的麦克风的振膜上所产生的声压由大到小的顺序从上述至少一个语音交互设备中选取预设第二数目个语音交互设备对上述输入语音进行处理。

在本实施例的一些可选的实现方式中，上述选取单元602可以确定上述输入语音中是否包括预设的唤醒词。具体地，上述选取单元602可以对上述输入语音进行解码得到音素序列，之后与预先存储的唤醒词的音素序列进行匹配，若解码得到的因素序列中存在与所存储的唤醒词的音素序列匹配的因素序列，则确定上述语音输入信息中包括预设的唤醒词。上述唤醒词可以为预先设置的命令词，例如，打开、你好、哈喽等等。若确定出上述输入语音中包括预设的唤醒词，上述选取单元602可以基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从上述至少一个语音交互设备中选取语音交互设备，对选取出的语音交互设备进行唤醒使得唤醒后的语音交互设备对输入语音进行处理。唤醒后的语音交互设备可以对上述输入语音进行语音识别、语义理解等处理从而识别出用户意图，以及用户意图所指示的操作。

在本实施例的一些可选的实现方式中，上述用于处理语音的装置600还可以包括解析单元(图中未示出)。上述解析单元可以对上述输入语音进行解析得到解析结果。上述解析单元可以对上述输入语音进行语音识别与语义理解从而得到解析结果。在语音识别过程中，上述解析单元可以对上述输入语音执行特征提取、语音解码以及文本转换等步骤。在语义理解过程中，上述解析单元可以对语音识别得到的文本信息进行自然语言理解、关键词提取以及利用人工智能算法进行用户意图分析，用户意图可以是指用户想要达到的一个或多个目的。之后，上述选取单元602可以从上述至少一个语音交互设备中选取语音交互设备，向选取出的语音交互设备发送上述解析结果使得选取出的语音交互设备执行上述解析结果所指示的操作。若上述解析结果中包括用户指令，选取出的语音交互设备可以执行用户指令所指示的操作。通常来说，用户指令可以包括待执行操作的操作信息和待执行操作所针对的对象的对象信息中的至少一项。待执行操作可以包括但不限于：播放音乐、回答问题、计时。若待执行操作为播放音乐，待执行操作所针对的对象可以为音乐名称。

下面参考图7，其示出了适于用来实现本发明实施例的电子设备(例如图1中的控制终端104)的计算机系统700的结构示意图。图7示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，电子设备700包括中央处理单元(CPU)701、存储器702、输入单元703和输出单元704，其中，CPU 701、存储器702、输入单元703以及输出单元704通过总线705彼此相连。在此，根据本申请实施例的方法可以被实现为计算机程序，并且存储在存储器702中。电子设备700中的CPU 701通过调用存储器702中存储的上述计算机程序，来具体实现本申请实施例的方法中限定的语音处理功能。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括获取单元和选取单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。例如，选取单元还可以被描述为“基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备对输入语音进行处理的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：响应于确定出目标语音交互设备集合中的至少一个语音交互设备接收到输入语音，针对至少一个语音交互设备中的语音交互设备，获取该语音交互设备所接收到的输入语音的语音特征；基于至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从至少一个语音交互设备中选取语音交互设备对输入语音进行处理。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种用于处理语音的方法，包括：

响应于确定出目标语音交互设备集合中的至少一个语音交互设备接收到输入语音，针对所述至少一个语音交互设备中的语音交互设备，获取该语音交互设备所接收到的输入语音的语音特征；

基于所述至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从所述至少一个语音交互设备中选取语音交互设备对所述输入语音进行处理。

2.根据权利要求1所述的方法，其中，所述语音特征包括响度；以及

所述基于所述至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从所述至少一个语音交互设备中选取语音交互设备对所述输入语音进行处理，包括：

按照所述至少一个语音交互设备中的语音交互设备所接收到的输入语音的响度由大到小的顺序从所述至少一个语音交互设备中选取预设第一数目个语音交互设备对所述输入语音进行处理。

3.根据权利要求1所述的方法，其中，所述语音特征包括声压；以及

按照所述至少一个语音交互设备中的语音交互设备所接收到的输入语音的声压由大到小的顺序从所述至少一个语音交互设备中选取预设第二数目个语音交互设备对所述输入语音进行处理。

4.根据权利要求1所述的方法，其中，所述基于所述至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从所述至少一个语音交互设备中选取语音交互设备对所述输入语音进行处理，包括：

响应于确定出所述输入语音中包括预设的唤醒词，基于所述至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从所述至少一个语音交互设备中选取语音交互设备进行唤醒使得唤醒后的语音交互设备对所述输入语音进行处理。

5.根据权利要求1-4之一所述的方法，其中，在所述从所述至少一个语音交互设备中选取语音交互设备对所述输入语音进行处理之前，所述方法还包括：

对所述输入语音进行解析得到解析结果；以及

所述从所述至少一个语音交互设备中选取语音交互设备对所述输入语音进行处理，包括：

从所述至少一个语音交互设备中选取语音交互设备，向选取出的语音交互设备发送所述解析结果使得选取出的语音交互设备执行所述解析结果所指示的操作。

6.一种用于处理语音的装置，包括：

获取单元，被配置成响应于确定出目标语音交互设备集合中的至少一个语音交互设备接收到输入语音，针对所述至少一个语音交互设备中的语音交互设备，获取该语音交互设备所接收到的输入语音的语音特征；

选取单元，被配置成基于所述至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从所述至少一个语音交互设备中选取语音交互设备对所述输入语音进行处理。

7.根据权利要求6所述的装置，其中，所述语音特征包括响度；以及

所述选取单元进一步被配置成按照如下方式基于所述至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从所述至少一个语音交互设备中选取语音交互设备对所述输入语音进行处理：

8.根据权利要求6所述的装置，其中，所述语音特征包括声压；以及

9.根据权利要求6所述的装置，其中，所述选取单元进一步被配置成按照如下方式基于所述至少一个语音交互设备中的语音交互设备所接收到的输入语音的语音特征，从所述至少一个语音交互设备中选取语音交互设备对所述输入语音进行处理：

10.根据权利要求6-9之一所述的装置，其中，所述装置还包括：

解析单元，被配置成对所述输入语音进行解析得到解析结果；以及

所述选取单元进一步被配置成按照如下方式从所述至少一个语音交互设备中选取语音交互设备对所述输入语音进行处理：

11.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5中任一所述的方法。

12.一种计算机可读介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-5中任一所述的方法。