CN109859747A

CN109859747A - 语音交互方法、设备以及存储介质

Info

Publication number: CN109859747A
Application number: CN201811647996.XA
Authority: CN
Inventors: 刘智彬; 牛正雨; 吴文权
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2018-12-29
Filing date: 2018-12-29
Publication date: 2019-06-07
Anticipated expiration: 2038-12-29
Also published as: CN109859747B

Abstract

本实施例提供一种语音交互方法、设备以及存储介质，该方法包括：采集用户的第一语音，对所述第一语音进行分析，获取与所述第一语音对应的回复内容，该回复内容包括基于第一语音的语义的基础回复内容和附加内容，并播放所述回复内容，实现了在符合当前语境的情况下，提供知识内容丰富的回复，增强了用户体验，提高了娱乐性和便利性。

Description

语音交互方法、设备以及存储介质

技术领域

本发明实施例涉及智能语音交互领域，尤其涉及一种语音交互方法、设备以及存储介质。

背景技术

随着人工智能领域的不断发展，对于人工智能对话能力的要求也越来越高。

现有技术中，对于基本的语音交互系统(也称为对话系统)普遍存在两种技术框架：基于检索的方式和基于生成模型的方式，这两类技术针对用户输入的语音，在语义关联层面进行处理，得到基于用户语音的语义的单独一句话回复。在基本的对话系统的基础上，现有技术还提供了一种知识聊天系统，该知识聊天系统能够从兴趣引导、知识信息提供等角度给出一句和用户输入语句相关且内容更加丰富的附加内容(也称为额外知识句)。

然而，现有的知识聊天系统提供的附加内容具有知识结构单一、不符合当前语境的问题，进而，影响了用户体验。

发明内容

本发明实施例提供一种语音交互方法、设备以及存储介质，用于解决上述方案中互动效果不佳，用户体验和便利性较差的问题。

第一方面，本发明提供一种语音交互方法，包括：

采集用户的第一语音；

对所述第一语音进行分析，获取与所述第一语音对应的回复内容，所述回复内容包括基于所述第一语音的语义的基础回复内容和附加内容，所述附加内容是根据所述基础回复内容得到的；

播放所述回复内容。

在一种具体的实现方式中，所述对所述第一语音进行分析，获取与所述第一语音对应的回复内容，包括：

对所述第一语音进行语义分析，得到所述第一语音的语义和用户意图；

根据所述第一语音的语义查询获取所述基础回复内容；

根据所述基础回复内容和所述用户意图，从知识库中获取所述附加内容。

进一步地，所述根据所述基础回复内容和所述用户意图，从知识库中获取所述附加内容，包括：

获取所述基础回复内容和所述用户意图涉及的实体，所述实体包括涉及的主体和/或关键词；

根据所述实体，从所述知识库中查询获取到与满足预设条件的知识内容作为所述附加内容。

进一步地，所述根据所述实体，从所述知识库中查询获取到与所述实体匹配度满足预设条件的知识内容作为所述附加内容，包括：

从所述知识库中查询获取与所述实体相关的多个知识内容；

获取每个知识内容与所述第一语音的第一匹配程度，以及每个知识内容与所述基础回复内容的第二匹配程度；

根据每个知识内容的第一匹配程度和第二匹配程度，获取综合匹配程度满足所述预设条件的知识内容作为所述附加内容；所述预设条件包括综合匹配程度最高，所述综合匹配程度为根据知识内容的第一匹配程度与第二匹配程程度确定的。

可选的，所述知识库中包括：实体与知识内容的对应关系列表。

在一种具体的实现方式中，对所述第一语音进行语义分析，得到用户意图，包括：

根据所述第一语音以及预先训练的第一概率模型，获取所述用户意图为闲聊意图的概率以及为信息获取意图的概率，所述用户意图包括闲聊意图、所述闲聊意图的概率，信息获取意图以及所述信息获取意图的概率。

可选的，所述知识库还包括：每个知识内容为主观知识的概率和客观知识的概率；知识内容的所述主观知识的概率和所述客观知识的概率是根据预先训练的第二概率模型得到的。

第二方面，本发明提供一种语音交互装置，包括：

采集模块，用于采集用户的第一语音；

处理模块，用于对所述第一语音进行分析，获取与所述第一语音对应的回复内容，所述回复内容包括基于所述第一语音的语义的基础回复内容和附加内容，所述附加内容是根据所述基础回复内容得到的；

播放模块，用于播放所述回复内容。

在一种具体的实现方式中，所述处理模块具体用于对所述第一语音进行语义分析，得到所述第一语音的语义和用户意图；

根据所述第一语音的语义查询获取所述基础回复内容；

进一步地，所述处理模块具体用于获取所述基础回复内容和所述用户意图涉及的实体，所述实体包括涉及的主体和/或关键词；

进一步地，所述处理模块具体用于从所述知识库中查询获取与所述实体相关的多个知识内容；

在一种具体的实现方式中，所述处理模块具体用于根据所述第一语音以及预先训练的第一概率模型，获取所述用户意图为闲聊意图的概率以及为信息获取意图的概率，所述用户意图包括闲聊意图、所述闲聊意图的概率，信息获取意图以及所述信息获取意图的概率。

第三方面，本发明提供一种终端设备，包括：存储器及处理器；

所述处理器中集成有权利要求8至14任一项所述的语音交互装置；

所述存储器存储计算机执行指令；

所述至少一个处理器执行所述存储器存储的计算机执行指令，使得所述处理器执行如权利要求1至7任一项所述的语音交互方法。

第四方面，本发明提供一种存储介质，包括：可读存储介质和计算机程序，所述计算机程序用于实现权利要求1至7任一项所述的语音交互方法。

本实施例提供的语音交互方法、设备以及存储介质，通过对用户输入的第一语音进行分析，获取与第一语音对应的回复内容，该回复内容包括基于第一语音的语义的基础回复内容和附加内容，并播放所述回复内容。本实施例通过提供附加回复内容，在符合当前语境的情况下，提供知识内容丰富的回复，增强了用户体验，提高了娱乐性和便利性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其它的附图。

图1为本发明实施例提供的语音交互方法的应用场景示意图；

图2为本发明实施例提供的语音交互方法实施例一的流程示意图；

图3为本发明实施例提供的语音交互方法实施例二的流程示意图；

图4为本发明实施例提供的语音交互方法实施例三的流程示意图；

图5为本发明实施例提供的语音交互装置的结构示意图；

图6为本发明实施例提供的终端设备的硬件结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例，都属于本发明保护的范围。

图1为本发明实施例提供的语音交互方法的应用场景示意图，如图1所示，本实施例提供的系统包括终端设备01和服务器02。其中，终端设备01可以为智能电视、智能音箱、电脑、手机、平板等。本实施例对终端设备01的实现方式不做特别限制，只要该终端设备01能够通过有线或者无线的方式与网络连接，进行数据交互即可。服务器02用于实现知识库存储或者知识句生成，是一种云端平台。

在一种具体的实现方式中，用户通过语音遥控器、终端设备01上设置的语音采集装置、或者其他的智能设备向该终端设备01输入语音语句，该终端设备01可以根据该语音进行用户意图分析，根据用户意图以及用户语音中提取的实体，从服务器02的知识库中检索相关的知识内容，将检索到的知识内容返回终端设备01，终端设备01生成最终的回复语句。

在另一种具体的实现方式中，上述实施例中的回复语句的生成过程也可以由服务器02完成，具体步骤为：终端设备01可以根据该语音进行用户意图分析，根据用户意图以及用户语音中提取的实体，从服务器02的知识库中检索相关的知识内容，并由服务器生成最终的回复语句，将该回复语句返回到终端设备01。

终端设备01可通过自身的扬声器播放回复内容，也可以通过外接设备播放回复内容，例如音箱或者其他带有扬声器的设备。

图2为本发明实施例提供的语音交互方法实施例一的流程示意图，如图2所示，该方案应用在上述图1所示的场景中，语音交互方法的具体实现步骤为：

S101：采集用户的第一语音。

在本步骤中，用户可通过语音采集装置向终端设备输入第一语音。终端设备采集用户的第一语音并将其转化为语音数据。

可选的，上述语音采集装置可以是终端设备上设置的语音采集装置，例如麦克风等；也可以是其他智能设备；当终端设备是智能电视时，语音采集装置也可以是语音遥控器。

S102：对第一语音进行分析，获取与第一语音对应的回复内容。

终端设备对采集的第一语音(或者称为语音数据)进行语义分析，得到第一语音中的实体和用户意图，根据第一语音的实体和/或用户意图得到对应的回复内容，该回复内容包括两部分，分别是基础回复内容和附加内容。

其中，实体为第一语音中的主体和/或关键词，主体包括专有名词、自定义的关键词、事件、网络名词等等，关键词为对主体的补充描述。

在一种具体的实现方式中，终端设备需要结合历史语境对第一语音进行语义分析，历史语境为语音交互中的上文内容。可以理解的，若第一语音在当前语音交互前的预设时间范围内没有上文内容，则不需要结合历史语境进行语义分析。

基础回复内容是基于第一语音的语义生成的可以回复用户的最相关的知识内容。其可通过终端设备中配置的任一现有技术的语音对话系统完成，包括常见的基于检索的语音交互系统或者基于生成的语音交互系统。

附加内容是在基础回复内容的基础上得到的以兴趣引导、知识信息提供等为角度的额外知识句。是通过第一语音的实体、用户意图以及基础回复内容，在知识库中进行检索和匹配后生成的知识内容。

S103：播放回复内容。

终端设备将生成的回复内容通过自身的扬声器或者外接设备进行播放，例如音箱或者其他带有扬声器的设备，从而完成与用户的语音交互。

本实施例提供的语音交互方法，通过采集用户的第一语音，对第一语音进行分析，获取与第一语音对应的回复内容，该回复内容包括基于第一语音的语义的基础回复内容和附加内容，并播放所述回复内容，实现了在符合当前语境的情况下，提供知识内容丰富的回复，增强了用户体验，提高了娱乐性和便利性。

在上述实施例的基础上，图3为本发明实施例提供的语音交互方法实施例二的流程示意图，如图3所示，对第一语音进行分析，获取与第一语音对应的回复内容，具体包括以下步骤：

S201：对第一语音进行语义分析，得到第一语音的语义和用户意图。

终端设备对第一语音进行语义分析，一方面，可以得到第一语音的语义，具体可以是对第一语音进行实体提取，可采用的方法包括但不限于命名实体识别、term重要性打分等。

另一方面，通过语义分析可以得到第一语音对应的用户意图。具体的，将第一语音输入预先训练得到的第一概率模型，得到用户意图为闲聊意图的概率以及为信息获取意图的概率，并通过一个二元数组对用户意图进行表示。

S202：根据第一语音的语义查询获取基础回复内容。

根据第一语音的语义，也可以是根据第一语音中提取的实体，通过查询得到对应的基础回复内容，该基础回复内容通常为基于语义关联得到的一句可以回复第一语音的内容。其可通过任一现有的语音交互系统实现。

在一种具体的实现方式中，若在采集第一语音之前的预设的时间范围内终端设备还采集到上文语音，即第一语音存在历史语境，则根据第一语义以及历史语境获取基础回复内容。

S203：根据第一语音、基础回复内容和用户意图，从知识库中获取附加内容。

对第一语音和基础回复内容进行命名实体识别和term重要性打分，提取出涉及到的相关实体，包括主体和关键词，根据主体和/或实体(主体+关键词)在知识库中进行检索，将检索到的知识内容与第一语音和基础回复内容分别进行匹配，并根据用户意图对匹配结果进行加权，得到匹配度最高的知识内容，并根据该知识内容生成附加内容。

在一种具体的实现方式中，若在采集第一语音之前的预设的时间范围内终端设备还采集到上文语音，即第一语音存在历史语境，则根据历史语境、第一语音、基础回复内容和用户意图，从知识库中获取附加内容。具体的，对历史语境、第一语音和基础回复内容进行命名实体识别和term重要性打分，提取出涉及到的相关实体，包括主体和关键词，根据主体和/或实体(主体+关键词)在知识库中进行检索，将检索到的知识内容与第一语音和基础回复内容分别进行匹配，并根据用户意图对匹配结果进行加权，得到匹配度最高的知识内容，并根据该知识内容生成附加内容。

在上述实施例的基础上，图4为本发明实施例提供的语音交互方法实施例三的流程示意图，如图4所示，根据基础回复内容和所述用户意图，从知识库中获取所述附加内容，具体包括以下步骤：

S301：获取第一语音、基础回复内容涉及的实体。

在本步骤中，通过命名实体识别和term重要性打分等方法提取出第一语音、基础回复内容中涉及的实体，该实体包括各句中涉及的主体和/或关键词，主体包括专有名词、自定义的关键词、事件、网络名词等等，关键词为对主体的补充描述。

在一种具体的实现方式中，若在采集第一语音之前的预设的时间范围内终端设备还采集到上文语音，即第一语音存在历史语境，则提取出历史语境、第一语音、基础回复内容中涉及的实体。

S302：根据实体和用户意图，从知识库中查询获取到满足预设条件的知识内容，并根据知识内容生成附加内容。

在一种具体的实现方式中，根据步骤S301中提取的实体，将实体中的主体和/或实体(主体+关键词)作为key在知识库中的key-value列表中进行检索，得到与主体和/或实体相关的多个知识内容。确定检索到的多个知识内容的数量是否满足预设条件的要求，例如，设定预设条件为检索获取的知识内容数量应小于等于500条，当检索到的知识内容数量大于500条时，则确定每一个知识内容与第一语音或者基础回复内容或者历史语境的相似度，并根据用户意图(为闲聊意图的概率和为信息获取意图的概率的二元数组的表示)和每个知识内容携带的主客观二分类结果，对相似度进行加权，得到综合的相似度，根据综合的相似度得到相似度最高的500条知识内容(及处理后的多个知识内容)，完成从知识库查询获取知识内容的过程(该过程也称为知识召回)。

进一步地，将处理后的多个知识内容中的每个知识内容分别与第一语音和基础回复内容进行匹配，获取每个知识内容和第一语音的第一匹配程度，获取每个知识内容和基础回复内容的第二匹配程度，并对第一匹配程度和第二匹配程度进行加权，可选的，第一匹配程度对应0.7的权值，第二匹配程度对应0.3的权值。在此基础上，根据用户意图(为闲聊意图的概率和为信息获取意图的概率的二元数组的表示)和知识内容携带的主客观二分类结果进行加权，得到综合匹配程度。并根据综合匹配程度最高的知识内容生成附加内容。

具体的，根据综合匹配程度最高的知识内容生成附件内容，包括：1、将综合匹配程度最高的知识内容输入知识句生成模型，得到附加内容，可选的，该知识句生成模型为预先训练的sequence-to-sequence模型。2、在训练sequence-to-sequence模型时，通过统计回复内容的用词风格，将表示用词风格的词表概率合入sequence-to-sequence模型解码时以来的词表和对应的概率，即通过更新词表概率的方式使生成的附加内容与基础回复内容风格统一。

在一种具体的实现方式中，确定每个知识内容与第一语音或者基础回复内容或者历史语境的相似度，具体的，获取每个知识内容的key，将该知识内容的key与包含key中的实体的第一语音和/或基础回复内容和/或历史语境进行相似度计算，可选的，相似度计算可以是余弦(cosine)相似度计算。

若通过检索未得到任何知识内容，则不继续生成附加内容，即回复内容中仅包括基础回复内容。

在上述实施例的基础上，本方案还包括知识库的建库方法。该知识库可以是预先建立的离线知识库。具体步骤如下：

(1)针对不同的领域，设置不同的实体，包括主体和关键词，根据领域内的所有主体从至少一个数据源获取候选的知识内容。具体的，知识内容包括结构化知识和非结构化知识。其中，非结构化的客观知识的数据源可以是科普类网站；非结构化的主观知识的数据源可以是评价类网站，例如影评类网站、文学评论网站、各类论坛等；结构化的知识的数据源可以是科普类网站或者各类开元的三元组知识库，例如freebase中的结构化内容。

(2)获取到的结构化知识可直接用于建库，而非结构化知识需要进行筛选(也称作知识清洗)。将获取的所有非结构化知识内容切句，得到与实体相关的候选的知识内容(也可称为知识句子)，通过命名实体识别和term重要性打分等方法提取出候选的知识内容中涉及的实体，该实体包括各句中涉及的主体和/或关键词，当关键词属于步骤(1)中设置的关键词时，保留该知识内容。

(3)将保留的每个知识内容，分别输入预先训练的第二概率模型进行主客观软分类，得到每个知识内容为主观知识的概率和客观知识的概率，并通过二元数组表示该二分类结果。每个知识内容入库时需携带其二分类结果。应理解，该二分类结果与用户意图对应，即知识库中知识内容为主观知识的概率与用户意图的闲聊意图相对应，知识库中知识内容为可观知识的概率与用户意图的信息获取意图相对应。

(4)对所有知识内容以key-value列表形式进行建库，其中，每个key对应一个value。value是结构化知识(或者称为结构化三元组)和/或经过筛选的非结构化知识内容，而key是与value对应的实体，可以理解，一个key对应多个知识内容。可选的，为了提高对非结构知识内容的召回率，将提取非结构化知识内容中的关键词和实体组成新key，并对“新key-value”建库，应理解，新key为实体和非结构化知识内容中的关键词。

图5为本发明实施例提供的语音交互装置的结构示意图，如图5所示，该语音交互装置10，包括：

采集模块11：用于采集用户的第一语音；

处理模块12：用于对所述第一语音进行分析，获取与所述第一语音对应的回复内容，所述回复内容包括基于所述第一语音的语义的基础回复内容和附加内容，所述附加内容是根据所述基础回复内容得到的；

播放模块13：用于播放所述回复内容。

本实施例提供的语音交互装置包括采集模块，处理模块以及播放模块，通过采集用户的第一语音，对第一语音进行分析，获取与第一语音对应的回复内容，该回复内容包括基于第一语音的语义的基础回复内容和附加内容，并播放所述回复内容，实现了在符合当前语境的情况下，提供知识内容丰富的回复，增强了用户体验，提高了娱乐性和便利性。

在一种具体的实现方式中，处理模块具体用于对所述第一语音进行语义分析，得到所述第一语音的语义和用户意图；根据所述第一语音的语义查询获取所述基础回复内容；根据所述基础回复内容和所述用户意图，从知识库中获取所述附加内容。

在一种具体的实现方式中，处理模块具体用于获取所述基础回复内容和所述用户意图涉及的实体，所述实体包括涉及的主体和/或关键词；根据所述实体，从所述知识库中查询获取到与满足预设条件的知识内容作为所述附加内容。

在一种具体的实现方式中，处理模块具体用于从所述知识库中查询获取与所述实体相关的多个知识内容；获取每个知识内容与所述第一语音的第一匹配程度，以及每个知识内容与所述基础回复内容的第二匹配程度；根据每个知识内容的第一匹配程度和第二匹配程度，获取综合匹配程度满足所述预设条件的知识内容作为所述附加内容；所述预设条件包括综合匹配程度最高，所述综合匹配程度为根据知识内容的第一匹配程度与第二匹配程程度确定的。

可选的，知识库中包括：实体与知识内容的对应关系列表。

在一种具体的实现方式中，处理模块具体用于根据所述第一语音以及预先训练的第一概率模型，获取所述用户意图为闲聊意图的概率以及为信息获取意图的概率，所述用户意图包括闲聊意图、所述闲聊意图的概率，信息获取意图以及所述信息获取意图的概率。

可选的，知识库还包括：每个知识内容为主观知识的概率和客观知识的概率；知识内容的所述主观知识的概率和所述客观知识的概率是根据预先训练的第二概率模型得到的。

本实施例提供的设备，可用于执行上述方法的实施例的技术方案，其实现原理和技术效果类似，本实施例此处不再赘述。

图6为本发明实施例提供的终端设备的硬件结构示意图。如图6所示，本实施例的终端设备60包括：处理器601以及存储器602；其中

存储器602，用于存储计算机执行指令；

处理器601，集成有上述任一实施例中的语音交互装置；用于执行存储器存储的计算机执行指令，以实现上述任一实施例所述的语音交互方法。具体可以参见前述方法实施例中的相关描述。

可选地，存储器602既可以是独立的，也可以跟处理器601集成在一起。

当存储器602独立设置时，该终端设备还包括总线603，用于连接所述存储器602和处理器601。

本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如上所述的终端设备侧的语音交互方法。

在本发明所提供的几个实施例中，应该理解到，所揭露的设备和方法，可以通过其它的方式实现。例如，以上所描述的设备实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个模块可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或模块的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。上述模块成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能模块的形式实现的集成的模块，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(英文：processor)执行本申请各个实施例所述方法的部分步骤。

应理解，上述处理器可以是中央处理单元(英文：Central Processing Unit，简称：CPU)，还可以是其他通用处理器、数字信号处理器(英文：Digital Signal Processor，简称：DSP)、专用集成电路(英文：Application Specific Integrated Circuit，简称：ASIC)等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合发明所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

存储器可能包含高速RAM存储器，也可能还包括非易失性存储NVM，例如至少一个磁盘存储器，还可以为U盘、移动硬盘、只读存储器、磁盘或光盘等。

总线可以是工业标准体系结构(Industry Standard Architecture，ISA)总线、外部设备互连(Peripheral Component，PCI)总线或扩展工业标准体系结构(ExtendedIndustry Standard Architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，本申请附图中的总线并不限定仅有一根总线或一种类型的总线。

上述存储介质可以是由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。存储介质可以是通用或专用计算机能够存取的任何可用介质。

一种示例性的存储介质耦合至处理器，从而使处理器能够从该存储介质读取信息，且可向该存储介质写入信息。当然，存储介质也可以是处理器的组成部分。处理器和存储介质可以位于专用集成电路(Application Specific Integrated Circuits，简称：ASIC)中。当然，处理器和存储介质也可以作为分立组件存在于电子设备或主控设备中。

本领域普通技术人员可以理解：实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时，执行包括上述各方法实施例的步骤；而前述的存储介质包括：ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上各实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述各实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分或者全部技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

Claims

1.一种语音交互方法，其特征在于，包括：

采集用户的第一语音；

播放所述回复内容。

2.根据权利要求1所述的方法，其特征在于，所述对所述第一语音进行分析，获取与所述第一语音对应的回复内容，包括：

根据所述第一语音的语义查询获取所述基础回复内容；

根据所述第一语音、所述基础回复内容和所述用户意图，从知识库中获取所述附加内容。

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一语音、所述基础回复内容和所述用户意图，从知识库中获取所述附加内容，包括：

获取所述第一语音、所述基础回复内容涉及的实体，所述实体包括涉及的主体和/或关键词；

根据所述实体和所述用户意图，从所述知识库中查询获取到满足预设条件的知识内容，并根据所述知识内容生成所述附加内容。

4.根据权利要求3所述的方法，其特征在于，所述根据所述实体和所述用户意图，从所述知识库中查询获取到与所述实体匹配度满足预设条件的知识内容作为所述附加内容，包括：

从所述知识库中查询获取与所述实体相关的多个知识内容；

根据所述用户意图对所述多个知识内容进行筛选处理，得到处理后的多个知识内容；

获取所述处理后的多个知识内容中每个知识内容与所述第一语音的第一匹配程度，以及所述处理后的多个知识内容中每个知识内容与所述基础回复内容的第二匹配程度；

根据每个知识内容的第一匹配程度和第二匹配程度，获取综合匹配程度满足所述预设条件的知识内容作为所述附加内容；所述预设条件包括综合匹配程度最高，所述综合匹配程度为根据知识内容的第一匹配程度与第二匹配程度确定的。

5.根据权利要求2至4任一项所述的方法，其特征在于，所述知识库中包括：实体与知识内容的对应关系列表。

6.根据权利要求2至4任一项所述的方法，其特征在于，对所述第一语音进行语义分析，得到用户意图，包括：

7.根据权利要求5所述的方法，其特征在于，所述知识库还包括：每个知识内容为主观知识的概率和客观知识的概率；知识内容的所述主观知识的概率和所述客观知识的概率是根据预先训练的第二概率模型得到的。

8.一种语音交互装置，其特征在于，包括：

采集模块，用于采集用户的第一语音；

播放模块，用于播放所述回复内容。

9.根据权利要求8所述的装置，其特征在于，所述处理模块具体用于对所述第一语音进行语义分析，得到所述第一语音的语义和用户意图；

根据所述第一语音的语义查询获取所述基础回复内容；

10.根据权利要求9所述的装置，其特征在于，所述处理模块具体用于获取所述基础回复内容和所述用户意图涉及的实体，所述实体包括涉及的主体和/或关键词；

11.根据权利要求10所述的装置，其特征在于，所述处理模块具体用于从所述知识库中查询获取与所述实体相关的多个知识内容；

12.根据权利要求9至11任一项所述的装置，其特征在于，所述知识库中包括：实体与知识内容的对应关系列表。

13.根据权利要求9至11任一项所述的装置，其特征在于，所述处理模块具体用于根据所述第一语音以及预先训练的第一概率模型，获取所述用户意图为闲聊意图的概率以及为信息获取意图的概率，所述用户意图包括闲聊意图、所述闲聊意图的概率，信息获取意图以及所述信息获取意图的概率。

14.根据权利要求12所述的装置，其特征在于，所述知识库还包括：每个知识内容为主观知识的概率和客观知识的概率；知识内容的所述主观知识的概率和所述客观知识的概率是根据预先训练的第二概率模型得到的。

15.一种终端设备，其特征在于，包括：存储器及处理器；

所述存储器存储计算机执行指令；

16.一种存储介质，其特征在于，包括：可读存储介质和计算机程序，所述计算机程序用于实现权利要求1至7任一项所述的语音交互方法。