CN107895578B

CN107895578B - 语音交互方法和装置

Info

Publication number: CN107895578B
Application number: CN201711127100.0A
Authority: CN
Inventors: 曹玉树; 杨锐; 赵立峰; 李俊
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd; Shanghai Xiaodu Technology Co Ltd
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2021-07-20
Anticipated expiration: 2037-11-15
Also published as: CN107895578A

Abstract

本申请实施例公开了语音交互方法和装置。该方法的一具体实施方式包括：响应于接收到用户的语音输入信息，确定语音输入信息中是否包括预设的唤醒词；响应于确定出语音输入信息中包括唤醒词，解析语音输入信息得到解析结果；确定解析结果中是否包括可执行请求信息；响应于确定出解析结果中不包括可执行请求信息，执行询问操作，其中，询问操作用于确定用户的用户意图。该实施方式减少了用户的操作流程以及等待时间，使得语音交互更加方便快捷。

Description

语音交互方法和装置

技术领域

本申请实施例涉及计算机技术领域，具体涉及语音处理技术领域，尤其涉及语音交互方法和装置。

背景技术

目前，语音交互方式作为一种新的交互方式应用到越来越多的终端应用中，例如，可以用语音控制手机拨打电话、发送短信；可以用语音在搜索应用中代替文字输入进行搜索；可以用语音控制导航、切换路线和选择停车场等等。语音交互技术将在人们生活的各个方面提供方便快捷的服务。

发明内容

本申请实施例提出了语音交互方法和装置。

第一方面，本申请实施例提供了一种语音交互方法，包括：响应于接收到用户的语音输入信息，确定语音输入信息中是否包括预设的唤醒词；响应于确定出语音输入信息中包括唤醒词，解析语音输入信息得到解析结果；确定解析结果中是否包括可执行请求信息；响应于确定出解析结果中不包括可执行请求信息，执行询问操作，其中，询问操作用于确定用户的用户意图。

在一些实施例中，可执行请求信息包括待执行的操作的操作信息；以及执行询问操作，包括：响应于解析结果中不包括操作信息，呈现用于询问待执行的操作的询问信息。

在一些实施例中，可执行请求信息包括待执行的操作所针对的对象的对象信息；以及执行询问操作，包括：响应于解析结果中不包括对象信息，呈现用于询问待执行的操作所针对的对象的询问信息。

在一些实施例中，可执行请求信息用于指示待执行的操作和待执行的操作所针对的对象；以及方法还包括：响应于确定出解析结果中包括可执行请求信息，针对对象执行待执行的操作。

在一些实施例中，该方法还包括：响应于检测到语音输入信息输入时的语音音量小于预设的音量阈值的持续时长达到预设持续时长阈值，确定停止接收用户的语音输入信息。

在一些实施例中，该方法还包括：响应于确定出语音输入信息中包括预设的语音输入终止命令词，确定停止接收用户的语音输入信息。

在一些实施例中，该方法还包括：响应于确定出用户输入语音输入信息的输入时长大于预设的输入时长阈值，确定停止接收用户的语音输入信息。

在一些实施例中，确定语音输入信息中是否包括预设的唤醒词，包括：提取语音输入信息中的声纹特征向量；将声纹特征向量与预先存储的目标用户的注册声纹向量进行匹配，并生成声纹特征向量与注册声纹向量之间的匹配度；响应于匹配度大于等于预设的匹配度阈值，确定语音输入信息中是否包括预设的唤醒词。

第二方面，本申请实施例提供了一种语音交互装置，包括：第一确定单元，配置用于响应于接收到用户的语音输入信息，确定语音输入信息中是否包括预设的唤醒词；解析单元，配置用于响应于确定出语音输入信息中包括唤醒词，解析语音输入信息得到解析结果；第二确定单元，配置用于确定解析结果中是否包括可执行请求信息；第一执行单元，配置用于响应于确定出解析结果中不包括可执行请求信息，执行询问操作，其中，询问操作用于确定用户的用户意图。

在一些实施例中，可执行请求信息包括待执行的操作的操作信息；以及执行单元进一步配置用于：响应于解析结果中不包括操作信息，呈现用于询问待执行的操作的询问信息。

在一些实施例中，可执行请求信息包括待执行的操作所针对的对象的对象信息；以及执行单元进一步配置用于：响应于解析结果中不包括对象信息，呈现用于询问待执行的操作所针对的对象的询问信息。

在一些实施例中，可执行请求信息用于指示待执行的操作和待执行的操作所针对的对象；以及该装置还包括：第二执行单元，配置用于响应于确定出解析结果中包括可执行请求信息，针对对象执行待执行的操作。

在一些实施例中，该装置还包括：第三确定单元，配置用于响应于检测到语音输入信息输入时的语音音量小于预设的音量阈值的持续时长达到预设持续时长阈值，确定停止接收用户的语音输入信息。

在一些实施例中，该装置还包括：第四确定单元，配置用于响应于确定出语音输入信息中包括预设的语音输入终止命令词，确定停止接收用户的语音输入信息。

在一些实施例中，该装置还包括：第五确定单元，配置用于响应于确定出用户输入语音输入信息的输入时长大于预设的输入时长阈值，确定停止接收用户的语音输入信息。

在一些实施例中，第一确定单元，包括：提取模块，配置用于提取语音输入信息中的声纹特征向量；生成模块，配置用于将声纹特征向量与预先存储的目标用户的注册声纹向量进行匹配，并生成声纹特征向量与注册声纹向量之间的匹配度；确定模块，配置用于响应于匹配度大于等于预设的匹配度阈值，确定语音输入信息中是否包括预设的唤醒词。

第三方面，本申请实施例还提供了一种电子设备，包括：一个或多个处理器；存储装置，用于存储一个或多个程序，当上述一个或多个程序被上述一个或多个处理器执行，使得上述一个或多个处理器实现本申请提供的语音交互方法。

第四方面，本申请实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现本申请提供的语音交互方法。

本申请提供的语音交互方法和装置，通过响应于接收到用户的语音输入信息，首先确定上述语音输入信息中是否包括预设的唤醒词，若包括预设的唤醒词，则解析上述语音输入信息得到解析结果，之后确定上述解析结果中是否包括可执行请求信息，若不包括可执行请求信息，则执行询问操作以确定用户的用户意图，从而可以支持语音唤醒与语音解析连贯发起的语音输入信息，使得用户无需等待提示用户可以发起对话的提示音，从而减少了用户的操作流程以及等待时间；同时，通过对语音输入信息的解析确定是否执行询问操作以达到用户意图，使得语音交互更加方便快捷。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的语音交互方法的一个实施例的流程图；

图3是根据本申请的语音交互方法的应用场景的一个示意图；

图4是根据本申请的语音交互方法的又一个实施例的流程图；

图5是根据本申请的语音交互装置的一个实施例的结构示意图；

图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请的语音交互方法或语音交互装置的实施例的示例性系统架构100。

如图1所示，系统架构100可以包括可穿戴电子设备1011、1012、1013，网络1021、1022、1023，终端设备1031、1032、1033以及服务器104。其中，网络1021用以在可穿戴电子设备1011、1012、1013和服务器104之间提供通信链路的介质；网络1022用以在可穿戴电子设备1011、1012、1013和终端设备1031、1032、1033之间提供通信链路的介质；网络1023用以在终端设备1031、1032、1033和服务器104之间提供通信链路的介质。网络1021、1022、1023可以包括各种连接类型，例如有线、无线通信链路(例如蓝牙)或者光纤电缆等等。

可穿戴电子设备1011、1012、1013可以是具有话筒和扬声器并且支持语音交互的各种电子设备，包括但不限于蓝牙耳机、智能手表、智能框架眼镜等等。

终端设备1031、1032、1033可以是具有话筒和扬声器并且支持语音交互的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。

可穿戴电子设备1011、1012、1013可以是提供各种服务的可穿戴电子设备，例如对接收到的语音输入信息提供支持的可穿戴电子设备。可穿戴电子设备可以对接收到的语音输入信息进行分析等处理，并呈现处理结果(例如询问信息)。例如，响应于可穿戴电子设备接收到用户的语音输入信息，可以首先确定上述语音输入信息中是否包括预设的唤醒词，若上述语音输入信息中包括上述唤醒词，可以对上述语音输入信息进行解析得到解析结果，并确定解析结果中是否包括可执行请求信息，若解析结果中不包括可执行请求信息，则可以执行询问操作。可穿戴电子设备1011、1012、1013可以从服务器104中获取目标用户的注册声纹向量以确认输入语音输入信息的用户的身份信息。

用户可以使用可穿戴电子设备1011、1012、1013通过网络1022与终端设备1031、1032、1033交互，以发送或接收消息等。终端设备1031、1032、1033上可以安装有各种通讯客户端应用，例如语音交互类应用、音乐播放类应用、地图导航类应用、搜索类应用等。终端设备1031、1032、1033可以从可穿戴电子设备1011、1012、1013中接收用户的语音输入信息，并对接收到的语音输入信息进行分析等处理，并将处理结果(例如询问信息)发送给可穿戴电子设备1011、1012、1013进行呈现。终端设备1031、1032、1033也可以从服务器104中获取目标用户的注册声纹向量以确认输入语音输入信息的用户的身份信息。

服务器104可以是提供各种服务的服务器，例如在可穿戴电子设备1011、1012、1013或终端设备1031、1032、1033的系统中进行注册的用户的声纹特征向量提供支持的后台服务器。后台服务器可以对从可穿戴电子设备1011、1012、1013或终端设备1031、1032、1033上接收到的目标用户的声纹特征向量的获取请求进行分析等处理，并将处理结果(例如目标用户的声纹特征向量)发送给可穿戴电子设备1011、1012、1013或终端设备1031、1032、1033。

需要说明的是，本申请实施例所提供的语音交互方法可以由可穿戴电子设备1011、1012、1013执行，也可以由终端设备1031、1032、1033执行，相应地，语音交互装置可以设置于可穿戴电子设备1011、1012、1013中，也可以设置于终端设备1031、1032、1033中。

应该理解，图1中的可穿戴电子设备、网络、终端设备和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的可穿戴电子设备、网络、终端设备和服务器。

继续参考图2，示出了根据本申请的语音交互方法的一个实施例的流程200。该语音交互方法，包括以下步骤：

步骤201，响应于接收到用户的语音输入信息，确定语音输入信息中是否包括预设的唤醒词。

在本实施例中，语音交互方法运行于其上的电子设备(例如图1所示的可穿戴电子设备或者终端设备)可以在接收到用户的语音输入信息时，确定上述语音输入信息中是否包括预设的唤醒词。具体地，上述电子设备可以对上述语音输入信息进行解码得到音素序列，之后与预先存储的唤醒词的音素序列进行匹配，若解码得到的因素序列中存在与唤醒词的音素序列匹配的因素序列，则确定上述语音输入信息中包括上述唤醒词。上述唤醒词可以为预先设置的命令词，例如，打开、你好、哈喽等等。唤醒词可以在语音输入信息中的任意位置，例如，起始位置、结尾位置等。响应于上述电子设备确定出上述语音输入信息中包括上述唤醒词，可以执行步骤202。需要说明的是，上述唤醒词可以是缺省的，也可以是用户设置的。

在本实施例中，若上述电子设备处于未交互状态的持续时间超过预设时长时，可以进入休眠状态。电子设备处于休眠状态时，仍然可以接收用户的语音输入信息，用户可以通过输入预设的唤醒词唤醒电子设备对语音输入信息进行处理，例如，语音识别处理、语音解析处理等等。

在本实施例中，上述电子设备可以包括按钮，用户也可以通过对上述电子设备上的按钮的按压操作，唤醒上述电子设备，以使得上述电子设备对语音输入信息进行处理。若上述电子设备为蓝牙耳机，上述按钮可以为蓝牙耳机上的开关按钮、音量按钮等常规按钮，或者，上述按钮也可以为蓝牙耳机上新增加的专用于语音交互的按钮。

在本实施例的一些可选的实现方式中，上述电子设备在接收到用户的语音输入信息之后，可以首先检测上述用户在输入语音输入信息时的语音音量是否小于预设的音量阈值；若语音音量小于上述音量阈值，则可以检测语音音量小于上述音量阈值的持续时长是否达到预设持续时长阈值；若检测出语音音量小于上述音量阈值的持续时长达到上述持续时长阈值，则可以确定停止接收上述用户的语音输入信息。作为示例，上述音量阈值为35分贝(dB)，上述持续时长阈值为5秒，响应于用户在输入语音输入信息时的语音音量小于35分贝的持续时长大于5秒时，上述电子设备可以确定停止接收上述用户的语音输入信息。

在本实施例的一些可选的实现方式中，在上述电子设备中可以预先存储有语音输入终止命令词集合，上述电子设备可以确定用户的语音输入信息中是否包括上述语音输入终止命令词集合中的语音输入终止命令词(如，结束、完成、停止等)，若确定出用户的语音输入信息中包括上述语音输入终止命令词，则可以确定停止接收上述用户的语音输入信息。

在本实施例的一些可选的实现方式中，上述电子设备可以预先设置最长输入时长作为输入时长阈值。上述电子设备可以记录用户输入语音输入信息的输入时长，若确定出上述输入时长大于上述输入时长阈值，则可以确定停止接收上述用户的语音输入信息。作为示例，上述输入时长阈值为20秒，响应于确定出用户输入语音输入信息的输入时长大于20秒，上述电子设备可以确定停止接收上述用户的语音输入信息。

在本实施例的一些可选的实现方式中，上述电子设备在接收到用户的语音输入信息之后，可以首先提取上述语音输入信息中的声纹特征向量，声纹是用电声学仪器显示的携带言语信息的声波频谱，声纹特征向量可以是标识用户的声纹频谱特征的向量。上述电子设备可以将上述语音数据导入预先训练的全局背景模型(Universal BackgroundModel，UBM)中进行映射得到中间向量，然后，将上述中间向量进行特征变换得到声纹特征向量，上述全局背景模型可以是上述电子设备预先从服务器中获取到的。上述全局背景模型是一个在生物识别验证系统中偏重一般性且个体通用性的模型，例如，在用户语音验证系统中，上述全局背景模型是一个由性别均衡的不同说话者的大量语音样本训练得出的、且与说话者不相关的高斯混合模型(Gaussian Mixture Model，GMM)，上述全局背景模型可以用来表征语音数据与中间向量的对应关系。上述电子设备可以通过联合因子分析方法(Joint Factor Analysis，JFA)对上述中间向量进行特征变换得到声纹特征向量，上述联合因子分析方法是声纹认证算法中针对信道补偿的有效算法，它通过假设说话人空间和信道空间是独立的，并可以分别用两个低维因子空间进行描述，从而估计信道因子；也可以通过概率线性判别分析算法(Probabilistic Linear Discriminant Analysis，PLDA)对上述中间向量进行特征变换得到声纹特征向量，上述概率线性判别分析算法也是一种信道补偿算法，是概率形式的线性判别分析算法(Linear Discriminant Analysis，LDA)；还可以通过辨识矢量(Identifying Vector，I-Vector)对上述中间向量进行特征变换得到声纹特征向量。

之后，上述电子设备可以将上述声纹特征向量与预先存储的目标用户的注册声纹向量进行匹配，并生成上述声纹特征向量与上述注册声纹向量之间的匹配度。计算上述声纹特征向量与上述注册声纹向量之间的匹配度时，可以采用曼哈顿距离(ManhattanDistance)进行计算，也可以采用闵可夫斯基距离(Minkowski Distance)进行计算，还可以采用余弦相似度(Cosine Similarity)进行计算。上述目标用户为在上述电子设备的系统中注册账号从而成为上述电子设备的所有者的用户。上述电子设备可以预先从存储有目标用户的注册声纹向量的服务器中获取上述目标用户的注册声纹向量。

最后，生成上述匹配度之后，上述电子设备可以将上述匹配度与预设的匹配度阈值进行比较，若上述匹配度大于上述匹配度阈值，则确定上述语音输入信息中是否包括预设的唤醒词，即确定输入语音输入信息的用户是否为上述目标用户，若输入语音输入信息的用户为目标用户，则确定上述语音输入信息中是否包括预设的唤醒词。通过这种在语音解析之前通过声纹特征向量验证用户身份的方式，可以提高了设备使用的保密性和安全性。

步骤202，解析语音输入信息得到解析结果。

在本实施例中，响应于在步骤201中确定出上述语音输入信息中包括上述唤醒词，上述电子设备可以对上述语音输入信息进行解析得到解析结果。上述电子设备可以对上述语音输入信息进行语音识别与语义理解从而得到解析结果。在语音识别过程中，上述电子设备可以对上述语音输入信息执行特征提取、语音解码以及文本转换等步骤。在语义理解过程中，上述电子设备可以对语音识别得到的文本信息进行自然语言理解(NaturalLanguage Understanding，NLU)、关键词提取以及利用人工智能(ArtificialIntelligence，AI)算法进行用户意图分析，用户意图可以是指用户想要达到的一个或多个目的。

需要说明的是，上述语音特征提取、语音解码技术、文本转换、关键词提取以及人工智能算法是目前广泛研究和应用的公知技术，在此不再赘述。

在本实施例中，在对语音输入信息进行解析之前，上述电子设备可以对语音输入信息进行降噪处理。

步骤203，确定解析结果中是否包括可执行请求信息。

在本实施例中，在步骤202中得到解析结果之后，上述电子设备可以确定上述解析结果中是否包括可执行请求信息，其中，上述可执行请求信息可以是用于指示电子设备执行至少一项操作的必要信息。电子设备的待执行操作可以包括但不限于：拨打电话、发送短信、导航、播放音乐、计时。针对不同的待执行操作，上述可执行请求信息可能不同，例如，针对“发送短信”操作，上述可执行请求信息可以包括短信内容，针对“导航”操作，上述可执行请求信息可以包括目的地地址、出行方式，针对“计时”操作，上述可执行请求信息可以包括计时时长。若电子设备可以采用至少两种应用执行某一操作时，则上述可执行请求信息可以包括执行操作时所要采用的应用。若上述电子设备确定出上述解析结果中不包括可执行请求信息，则可以执行步骤204。

作为示例，当解析结果为“向小红发送短信”，电子设备可以确定待执行操作为“发送短信”操作，响应于电子设备确定出上述解析结果“向小红发送短信”中不包括短信内容，则可以确定上述解析结果不包括可执行请求信息。

步骤204，执行询问操作。

在本实施例中，若在步骤203中确定出上述解析结果中不包括可执行请求信息，则可以执行询问操作，上述询问操作可以通过呈现用于询问上述可执行请求信息的询问信息对用户进行询问以确定用户的用户意图，询问信息可以包括语音询问信息和文本询问信息。

在一些应用场景中，上述电子设备可以为可穿戴电子设备或者终端设备。在这些应用场景中，上述电子设备可以通过播放语音询问信息的方式向用户询问可执行请求信息。

在一些应用场景中，上述电子设备可以为终端设备。在这些应用场景中，上述电子设备可以通过显示文本询问信息的方式向用户询问可执行请求信息。

在本实施例中，响应于接收到用户对可执行请求信息的回答信息之后，可以继续确认上述回答信息中是否包括上述可执行请求信息，若包括，则可以执行与上述可执行请求信息相关的操作；若不包括，则继续向用户询问上述可执行请求信息直到用户的回答信息中包括上述可执行请求信息。

作为示例，若解析结果“向小红发送短信”中不包括短信内容，则可以播放“请提供短信内容”的语音询问信息。

在本实施例的一些可选的实现方式中，上述可执行请求信息可以用于指示待执行的操作和上述待执行的操作所针对的对象。响应于上述电子设备确定出上述解析结果中包括可执行请求信息，可以针对上述对象执行上述待执行的操作。作为示例，若解析结果为“播放龙的传人”，则上述电子设备可以播放歌曲“龙的传人”；若解析结果为“给小红发送短信，短信内容为：今晚去看电影吗？”，则上述电子设备可以向小红的终端设备发送短信内容为“今晚去看电影吗？”的短信。

在一些应用场景中，上述电子设备可以为可穿戴电子设备。在这些应用场景中，上述电子设备中可以存在服务满足模块，服务满足模块可以用于支撑满足用户对不同种类的信息的获取需求，例如，天气、音乐、导航、电子设备控制等等。此外，服务满足模块可以提供可插拔的信息获取服务配置方案，并且允许用户按照该模块提供的标准应用程序编程接口(Application Programming Interface，API)进行其它类别服务的定制。

继续参见图3，图3是根据本申请的语音交互方法的应用场景的一个示意图。在图3的应用场景中，蓝牙耳机301可以首先检测是否接收到用户的语音输入信息302，若接收到用户的语音输入信息302为音频信息“哈喽，给小红发送短信”，蓝牙耳机301可以确定语音输入信息302中是否包括预设的唤醒词303，若唤醒词303包括：你好、哈喽，则可以确定语音输入信息302“哈喽，给小红发送短信”的音频信息中包括唤醒词303“哈喽”；之后，蓝牙耳机301解析语音输入信息302“哈喽，给小红发送短信”的音频信息，得到解析结果304为：向小红的手机终端发送短信；而后，蓝牙耳机301确定解析结果304中不包括短信内容这一可执行请求信息305；最后，蓝牙耳机301执行询问操作306，如播放“请提供短信内容”的语音询问信息。

本申请的上述实施例提供的方法可以支持语音唤醒与语音解析连贯发起的语音输入信息，使得用户无需等待提示用户可以发起对话的提示音，从而减少了用户的操作流程以及等待时间；同时，通过对语音输入信息的解析确定是否执行询问操作以达到用户意图，使得语音交互更加方便快捷。

进一步参考图4，其示出了语音交互方法的又一个实施例的流程400。该语音交互方法的流程400，包括以下步骤：

步骤401，响应于接收到用户的语音输入信息，确定语音输入信息中是否包括预设的唤醒词。

步骤402，解析语音输入信息得到解析结果。

在本实施例中，步骤401-402的操作与步骤201-202的操作基本相同，在此不再赘述。

步骤403，确定解析结果中是否包括待执行的操作的操作信息。

在本实施例中，上述可执行请求信息可以包括待执行的操作的操作信息，操作可以包括拨打电话、播放音乐、导航等等，操作信息可以包括操作标识符，例如，操作名称、操作编号等。上述电子设备可以存储有操作与操作编号之间的对应关系表，例如，编号1可以代表“发送短信”操作，编号8可以代表“播放音乐”操作。

在本实施例中，在步骤402中对语音输入信息进行解析时，若解析出待执行的操作，可以在操作与操作编号之间的对应关系表中查找到解析出的待执行的操作所对应的操作编号，并将操作编号添加到解析结果中。

在本实施例中，在步骤402中解析得到解析结果之后，上述电子设备可以确定上述解析结果中是否包括上述待执行的操作的操作信息。具体地，上述电子设备可以首先利用句子成分分析法对上述解析结果的句子成分进行分析，得到句子的组成成分，例如，主语、谓语、宾语、定语、状语等等，上述电子设备可以确定句子的组成成分中是否包括谓语，谓语通常可以用于指示待执行的操作，若句子中没有谓语，则可以确定解析结果中不包括待执行的操作的操作信息。上述句子成分分析法是从句法结构的关系意义出发，对句子作成分功能或作用分析的方法，即用各种方法标注出基本成分(主语、谓语、宾语)和次要成分(状语和补语)。若上述电子设备确定出上述解析结果中不包括上述待执行的操作的操作信息，则可以执行步骤404。

作为示例，当解析结果为“龙的传人”，上述电子设备确定出解析结果中不包含谓语动词，则可以确定解析结果中不包括待执行的操作的操作信息。

步骤404，呈现用于询问待执行的操作的询问信息。

在本实施例中，若在步骤403中确定出上述解析结果中不包括上述待执行的操作的操作信息，则可以呈现用于询问待执行的操作的询问信息。上述电子设备可以通过播放询问语音信息的方式向用户询问待执行的操作，也可以通过显示询问文本信息的方式向用户询问待执行的操作。

在本实施例中，响应于接收到用户对待执行的操作的回答信息之后，可以继续确认上述回答信息中是否包括待执行的操作的操作信息，若包括，则可以执行待执行的操作；若不包括，则继续向用户询问待执行的操作直到用户的回答信息中包括待执行的操作的操作信息。

作为示例，若解析结果“龙的传人”中不包括待执行的操作的操作信息，则可以播放“您想要做什么”的语音询问信息。

在本实施例中，若电子设备的本地或者电子设备上所安装的应用的缓存中的存储信息中包括与上述解析结果相关的内容，则电子设备可以确定至少一种待执行的操作，并可以呈现是否执行上述至少一种待执行的操作的询问信息。作为示例，若电子设备中的音乐播放类应用中存储有歌曲“龙的传人”，上述电子设备也可以播放“是否播放歌曲龙的传人”的语音询问信息。

步骤405，确定解析结果中是否包括待执行的操作所针对的对象的对象信息。

在本实施例中，上述可执行请求信息可以包括待执行的操作所针对的对象的对象信息，对象信息可以包括对象标识符，例如，对象名称、对象编号等。上述电子设备可以存储有对象与对象编号之间的对应关系表，例如，编号2可以代表对象“小明的电话号码”，编号25可以代表对象“歌曲北京欢迎你”。

在本实施例中，在步骤402中解析得到解析结果之后，上述电子设备可以确定上述解析结果中是否包括待执行的操作所针对的对象的对象信息。具体地，上述电子设备可以首先利用句子成分分析法对上述解析结果的句子成分进行分析，得到句子的组成成分，例如，主语、谓语、宾语、定语、状语等等，上述电子设备可以确定句子的组成成分中是否包括宾语，宾语通常可以用于指示待执行的操作所针对的对象，若句子中没有宾语，则可以确定解析结果中不包括待执行的操作所针对的对象的对象信息。若上述电子设备确定出上述解析结果中不包括上述待执行的操作所针对的对象的对象信息，则可以执行步骤406。

作为示例，当解析结果为“播放”，上述电子设备确定出解析结果中不包含宾语，则可以确定解析结果中不包括待执行的操作所针对的对象的对象信息。

在本实施例中，在确定出上述解析结果中包括待执行的操作所针对的对象的对象信息之后，若上述电子设备确定出上述解析结果中存在操作所针对的至少两个对象，上述电子设备可以呈现用于确定上述至少两个对象中的用户所针对的对象的询问信息。作为示例，当解析结果为“拨打小红的电话”，若上述电子设备确定出电子设备的本地存储有小红的两个电话号码，则可以播放“请确认您想要拨打的号码为以下哪一个：号码A和号码B”的语音询问信息。

步骤406，呈现用于询问待执行的操作所针对的对象的询问信息。

在本实施例中，若在步骤405中确定出上述解析结果中不包括上述待执行的操作所针对的对象的对象信息，则可以呈现用于询问待执行的操作所针对的对象的询问信息。上述电子设备可以通过播放询问语音信息的方式向用户询问待执行的操作所针对的对象，也可以通过显示询问文本信息的方式向用户询问待执行的操作所针对的对象。

在本实施例中，响应于接收到用户对待执行的操作所针对的对象的回答信息之后，可以继续确认上述回答信息中是否包括待执行的操作所针对的对象的对象信息，若包括，则可以针对所针对的对象执行待执行的操作；若不包括，则继续向用户询问待执行的操作所针对的对象直到用户的回答信息中包括待执行的操作所针对的对象的对象信息。

作为示例，若解析结果“播放”中不包括待执行的操作所针对的对象的对象信息，则可以播放“您想要播放什么”的语音询问信息。

从图4中可以看出，与图2对应的实施例相比，本实施例中的语音交互方法的流程400突出了确定解析结果中是否包括待执行的操作的操作信息的步骤403、响应于解析结果中不包括待执行的操作的操作信息，呈现用于询问待执行的操作的询问信息的步骤404、确定解析结果中是否包括待执行的操作所针对的对象的对象信息的步骤405以及响应于解析结果中不包括待执行所针对的对象的对象信息，呈现用于询问待执行的操作所针对的对象的询问信息的步骤406。由此，本实施例描述的方案可以针对解析结果中所缺少的可执行请求信息，执行具有针对性的询问操作。

进一步参考图5，作为对上述各图所示方法的实现，本申请提供了一种语音交互装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，本实施例的语音交互装置500包括：第一确定单元501、解析单元502、第二确定单元503和第一执行单元504。其中，第一确定单元501配置用于响应于接收到用户的语音输入信息，确定语音输入信息中是否包括预设的唤醒词；解析单元502配置用于响应于确定出语音输入信息中包括唤醒词，解析语音输入信息得到解析结果；第二确定单元503配置用于确定解析结果中是否包括可执行请求信息；第一执行单元504配置用于响应于确定出解析结果中不包括可执行请求信息，执行询问操作，其中，询问操作用于确定用户的用户意图。

在本实施例中，语音交互装置500的第一确定单元501、解析单元502、第二确定单元503和第一执行单元504的具体处理可以参考图2对应实施例中的步骤201、步骤202、步骤203和步骤204。

在本实施例的一些可选的实现方式中，上述可执行请求信息可以包括待执行的操作的操作信息，操作可以包括拨打电话、播放音乐、导航等等，操作信息可以包括操作标识符，例如，操作名称、操作编号等。上述第二确定单元503可以首先利用句子成分分析法对上述解析结果的句子成分进行分析，得到句子的组成成分，例如，主语、谓语、宾语、定语、状语等等，上述第二确定单元503可以确定句子的组成成分中是否包括谓语，谓语通常可以用于指示待执行的操作，若句子中没有谓语，则可以确定解析结果中不包括待执行的操作的操作信息。上述句子成分分析法是从句法结构的关系意义出发，对句子作成分功能或作用分析的方法，即用各种方法标注出基本成分和次要成分。若第二确定单元503确定出上述解析结果中不包括上述待执行的操作的操作信息，则第一执行单元504可以呈现用于询问待执行的操作的询问信息。上述第一执行单元504可以通过播放询问语音信息的方式向用户询问待执行的操作，也可以通过显示询问文本信息的方式向用户询问待执行的操作。

在本实施例的一些可选的实现方式中，上述可执行请求信息可以包括待执行的操作所针对的对象的对象信息，对象信息可以包括对象标识符，例如，对象名称、对象编号等。上述第二确定单元503可以首先利用句子成分分析法对上述解析结果的句子成分进行分析，得到句子的组成成分，例如，主语、谓语、宾语、定语、状语等等，上述第二确定单元503可以确定句子的组成成分中是否包括宾语，宾语通常可以用于指示待执行的操作所针对的对象，若句子中没有宾语，则可以确定解析结果中不包括待执行的操作所针对的对象的对象信息。若上述第二确定单元503确定出上述解析结果中不包括上述待执行的操作所针对的对象的对象信息，则上述第一执行单元504可以呈现用于询问待执行的操作所针对的对象的询问信息。上述上述第一执行单元504可以通过播放询问语音信息的方式向用户询问待执行的操作所针对的对象，也可以通过显示询问文本信息的方式向用户询问待执行的操作所针对的对象。

在本实施例的一些可选的实现方式中，上述可执行请求信息可以用于指示待执行的操作和上述待执行的操作所针对的对象。上述语音交互装置500可以包括第二执行单元(图中未示出)。响应于上述第二确定单元503确定出上述解析结果中包括可执行请求信息，上述第二执行单元可以针对上述对象执行上述待执行的操作。

在本实施例的一些可选的实现方式中，上述语音交互装置500可以包括第三确定单元(图中未示出)。上述第三确定单元在接收到用户的语音输入信息之后，可以首先检测上述用户在输入语音输入信息时的语音音量是否小于预设的音量阈值；若语音音量小于上述音量阈值，则可以检测语音音量小于上述音量阈值的持续时长是否达到预设持续时长阈值；若检测出语音音量小于上述音量阈值的持续时长达到上述持续时长阈值，则可以确定停止接收上述用户的语音输入信息。

在本实施例的一些可选的实现方式中，上述语音交互装置500可以包括第四确定单元(图中未示出)。在上述第四确定单元中可以预先存储有语音输入终止命令词集合，上述第四确定单元可以确定用户的语音输入信息中是否包括上述语音输入终止命令词集合中的语音输入终止命令词，若确定出用户的语音输入信息中包括上述语音输入终止命令词，则可以确定停止接收上述用户的语音输入信息。

在本实施例的一些可选的实现方式中，上述语音交互装置500可以包括第五确定单元(图中未示出)。上述第五确定单元可以预先设置最长输入时长作为输入时长阈值。上述第五确定单元可以记录用户输入语音输入信息的输入时长，若确定出上述输入时长大于上述输入时长阈值，则可以确定停止接收上述用户的语音输入信息。

在本实施例的一些可选的实现方式中，上述第一确定单元501可以包括提取模块(图中未示出)、生成模块(图中未示出)和确定模块(图中未示出)。上述提取模块在接收到用户的语音输入信息之后，可以首先提取上述语音输入信息中的声纹特征向量，声纹是用电声学仪器显示的携带言语信息的声波频谱，声纹特征向量可以是标识用户的声纹频谱特征的向量。上述提取模块可以将上述语音数据导入预先训练的全局背景模型中进行映射得到中间向量，然后，将上述中间向量进行特征变换得到声纹特征向量，上述全局背景模型可以是上述提取模块预先从服务器中获取到的。上述全局背景模型是一个在生物识别验证系统中偏重一般性且个体通用性的模型，例如，在用户语音验证系统中，上述全局背景模型是一个由性别均衡的不同说话者的大量语音样本训练得出的、且与说话者不相关的高斯混合模型，上述全局背景模型可以用来表征语音数据与中间向量的对应关系。上述电子设备可以通过联合因子分析方法对上述中间向量进行特征变换得到声纹特征向量，上述联合因子分析方法是声纹认证算法中针对信道补偿的有效算法，它通过假设说话人空间和信道空间是独立的，并可以分别用两个低维因子空间进行描述，从而估计信道因子；也可以通过概率线性判别分析算法对上述中间向量进行特征变换得到声纹特征向量，上述概率线性判别分析算法也是一种信道补偿算法，是概率形式的线性判别分析算法；还可以通过辨识矢量对上述中间向量进行特征变换得到声纹特征向量。

之后，上述生成模块可以将上述声纹特征向量与预先存储的目标用户的注册声纹向量进行匹配，并生成上述声纹特征向量与上述注册声纹向量之间的匹配度。计算上述声纹特征向量与上述注册声纹向量之间的匹配度时，可以采用曼哈顿距离进行计算，也可以采用闵可夫斯基距离进行计算，还可以采用余弦相似度进行计算。上述生成模块可以预先从存储有目标用户的注册声纹向量的服务器中获取上述目标用户的注册声纹向量。

最后，生成上述匹配度之后，上述确定模块可以将上述匹配度与预设的匹配度阈值进行比较，若上述匹配度大于上述匹配度阈值，则确定上述语音输入信息中是否包括预设的唤醒词，即确定输入语音输入信息的用户是否为上述目标用户，若输入语音输入信息的用户为目标用户，则确定上述语音输入信息中是否包括预设的唤醒词。

下面参考图6，其示出了具有语音交互功能的电子设备600的硬件结构示意图。图6示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图6所示，电子设备600包括中央处理单元(CPU)601、存储器602、输入单元603和输出单元604，其中，CPU 601、存储器602、输入单元603以及输出单元604通过总线605彼此相连。在此，根据本申请实施例的方法可以被实现为计算机程序，并且存储在存储器602中。电子设备600还可以包括一个或多个按钮。电子设备600中的CPU 601通过调用存储器602中存储的上述计算机程序，来具体实现本申请实施例的方法中限定的语音交互功能。在一些实现方式中，输入单元603可以是麦克风等可用于接收语音输入信息的设备，输出单元604可以是扬声器等可用于播放声音的设备。由此，CPU 601在调用上述计算机程序执行语音交互功能时，可以控制输入单元603从外部接收语音输入信息，以及控制输出单元604对声音进行播放。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在该计算机程序被中央处理单元(CPU)601执行时，执行本申请的方法中限定的上述功能。需要说明的是，本申请上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

附图中的流程图和框图，图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本发明实施例中所涉及到的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括第一确定单元、解析单元、第二确定单元和第一执行单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定。例如，第一执行单元还可以被描述为“响应于确定出解析结果中不包括可执行请求信息，执行询问操作的单元”。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的装置中所包含的；也可以是单独存在，而未装配入该装置中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该装置执行时，使得该装置：响应于接收到用户的语音输入信息，确定语音输入信息中是否包括预设的唤醒词；响应于确定出语音输入信息中包括唤醒词，解析语音输入信息得到解析结果；确定解析结果中是否包括可执行请求信息；响应于确定出解析结果中不包括可执行请求信息，执行询问操作，其中，询问操作用于确定用户的用户意图。

以上描述仅为本发明的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本发明中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本发明中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种语音交互方法，包括：

响应于接收到用户的语音输入信息，确定所述语音输入信息中是否包括预设的唤醒词；

响应于确定出所述语音输入信息中包括所述唤醒词，解析所述语音输入信息得到解析结果；

利用句子成分分析法对上述解析结果的句子成分进行分析，得到句子的组成成分，确定所述组成成分中是否包括可执行请求信息，其中，所述组成成分包括以下至少一项：主语、谓语、宾语、定语、状语，所述可执行请求信息包括待执行的操作的操作信息；

若所述句子中没有谓语，则确定所述解析结果中不包括待执行的操作的操作信息；

响应于确定出所述解析结果中不包括可执行请求信息，执行询问操作，其中，所述询问操作用于确定所述用户的用户意图。

2.根据权利要求1所述的方法，其中，

所述执行询问操作，包括：

响应于所述解析结果中不包括所述操作信息，呈现用于询问待执行的操作的询问信息。

3.根据权利要求1或2所述的方法，其中，所述可执行请求信息包括所述待执行的操作所针对的对象的对象信息；以及

所述执行询问操作，包括：

响应于所述解析结果中不包括所述对象信息，呈现用于询问待执行的操作所针对的对象的询问信息。

4.根据权利要求1所述的方法，其中，所述可执行请求信息用于指示待执行的操作和待执行的操作所针对的对象；以及

所述方法还包括：

响应于确定出所述解析结果中包括可执行请求信息，针对所述对象执行所述待执行的操作。

5.根据权利要求1所述的方法，其中，所述方法还包括：

响应于检测到所述语音输入信息输入时的语音音量小于预设的音量阈值的持续时长达到预设持续时长阈值，确定停止接收所述用户的语音输入信息。

6.根据权利要求1所述的方法，其中，所述方法还包括：

响应于确定出所述语音输入信息中包括预设的语音输入终止命令词，确定停止接收所述用户的语音输入信息。

7.根据权利要求1所述的方法，其中，所述方法还包括：

响应于确定出所述用户输入语音输入信息的输入时长大于预设的输入时长阈值，确定停止接收所述用户的语音输入信息。

8.根据权利要求1所述的方法，其中，所述确定所述语音输入信息中是否包括预设的唤醒词，包括：

提取所述语音输入信息中的声纹特征向量；

将所述声纹特征向量与预先存储的目标用户的注册声纹向量进行匹配，并生成所述声纹特征向量与所述注册声纹向量之间的匹配度；

响应于所述匹配度大于等于预设的匹配度阈值，确定所述语音输入信息中是否包括预设的唤醒词。

9.一种语音交互装置，包括：

第一确定单元，配置用于响应于接收到用户的语音输入信息，确定所述语音输入信息中是否包括预设的唤醒词；

解析单元，配置用于响应于确定出所述语音输入信息中包括所述唤醒词，解析所述语音输入信息得到解析结果；

第二确定单元，配置用于利用句子成分分析法对上述解析结果的句子成分进行分析，得到句子的组成成分，确定所述组成成分中是否包括可执行请求信息，若所述句子中没有谓语，则确定所述解析结果中不包括待执行的操作的操作信息，其中，所述组成成分包括以下至少一项：主语、谓语、宾语、定语、状语，所述可执行请求信息包括待执行的操作的操作信息；第一执行单元，配置用于响应于确定出所述解析结果中不包括可执行请求信息，执行询问操作，其中，所述询问操作用于确定所述用户的用户意图。

10.根据权利要求9所述的装置，其中，所述执行单元进一步配置用于：

11.根据权利要求9或10所述的装置，其中，所述可执行请求信息包括所述待执行的操作所针对的对象的对象信息；以及

所述执行单元进一步配置用于：

12.根据权利要求9所述的装置，其中，所述可执行请求信息用于指示待执行的操作和待执行的操作所针对的对象；以及

所述装置还包括：

第二执行单元，配置用于响应于确定出所述解析结果中包括可执行请求信息，针对所述对象执行所述待执行的操作。

13.根据权利要求9所述的装置，其中，所述装置还包括：

第三确定单元，配置用于响应于检测到所述语音输入信息输入时的语音音量小于预设的音量阈值的持续时长达到预设持续时长阈值，确定停止接收所述用户的语音输入信息。

14.根据权利要求9所述的装置，其中，所述装置还包括：

第四确定单元，配置用于响应于确定出所述语音输入信息中包括预设的语音输入终止命令词，确定停止接收所述用户的语音输入信息。

15.根据权利要求9所述的装置，其中，所述装置还包括：

第五确定单元，配置用于响应于确定出所述用户输入语音输入信息的输入时长大于预设的输入时长阈值，确定停止接收所述用户的语音输入信息。

16.根据权利要求9所述的装置，其中，所述第一确定单元，包括：

提取模块，配置用于提取所述语音输入信息中的声纹特征向量；

生成模块，配置用于将所述声纹特征向量与预先存储的目标用户的注册声纹向量进行匹配，并生成所述声纹特征向量与所述注册声纹向量之间的匹配度；

确定模块，配置用于响应于所述匹配度大于等于预设的匹配度阈值，确定所述语音输入信息中是否包括预设的唤醒词。

17.一种电子设备，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行时，使得所述一个或多个处理器实现如权利要求1-8中任一所述的方法。

18.一种计算机可读存储介质，其上存储有计算机程序，其中，该程序被处理器执行时实现如权利要求1-8中任一所述的方法。