CN109389977B

CN109389977B - 一种语音交互方法及装置

Info

Publication number: CN109389977B
Application number: CN201811295637.2A
Authority: CN
Inventors: 陈昕昀
Original assignee: Tencent Technology Shenzhen Co Ltd; Tencent Dadi Tongtu Beijing Technology Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd; Tencent Dadi Tongtu Beijing Technology Co Ltd
Priority date: 2018-11-01
Filing date: 2018-11-01
Publication date: 2021-07-16
Anticipated expiration: 2038-11-01
Also published as: CN109389977A

Abstract

本发明涉及互联网技术领域，尤其涉及一种语音交互方法及装置。本发明分析唤醒词与语音数据之间的关联性，充分挖掘唤醒词可能具备的利于指令执行的语义特征，通过智能判断唤醒词与语音数据的语义关联性，决定是否将唤醒词合入语音数据中并执行，来使智能设备更加角色化，提高智能设备语义理解的准确性，智能地执行用户的指令。

Description

一种语音交互方法及装置

技术领域

本发明涉及互联网技术领域，尤其涉及一种语音交互方法及装置。

背景技术

随着科技的发展，为了更加方便用户使用智能设备，现有的很多智能设备支持用户进行语音输入。由于智能设备若长期在线，会造成智能设备的功耗较大，寿命较短。因此，现有的智能设备在不工作的时候可以处于休眠状态，以节省功耗。在用户需要使用智能设备的时候，可以通过唤醒词将智能设备唤醒。然后智能设备进入语音识别状态。在该状态下，智能设备接收用户输入的语音形式的请求，并配合云端服务器实现对用户的语音进行识别、语义进行分析、并满足用户所请求的服务。

目前市面上的语音助理均支持通过唤醒词在设备休眠状态下唤醒语音助理，用户语音输入的唤醒词普遍被设备为用于唤醒智能设备，唤醒词普遍被设置为与智能设备执行的指令无关的词汇。然而，现有的智能设备多数支持用户自定义唤醒词，存在唤醒词与用户指令中的词汇重合的情况，此情况下容易被理解为唤醒词与智能设备执行的指令无关，造成指令识别错误，无法满足用户的预期。

发明内容

针对现有技术的上述问题，本发明的目的在于提供一种语音交互方法及装置。本技术方案可以提高智能设备语义理解的准确性。

一方面，本发明提供一种语音交互方法，包括：

响应用户输入的唤醒词，根据所述唤醒词唤醒智能设备的语音交互功能；

接收待识别的语音数据；

对所述语音数据进行语义分析获得第一语义指令，结合所述唤醒词对所述语音数据进行语义分析获得第二语义指令；

判断所述第一语义指令的语义质量是否高于所述第二语义指令的语义质量；

如果所述第一语义指令的语义质量高于所述第二语义指令的语义质量，则执行所述第一语义指令；

如果所述第二语义指令的语义质量高于所述第一语义指令的语义质量，则执行所述第二语义指令。

另一方面，本发明提供一种语音交互装置，包括：

功能唤醒单元，用于响应用户输入的唤醒词，根据所述唤醒词唤醒智能设备的语音交互功能；

数据接收单元，用于接收待识别的语音数据；

语义分析单元，用于对所述语音数据进行语义分析获得第一语义指令，结合所述唤醒词对所述语音数据进行语义分析获得第二语义指令；

判断单元，用于判断所述第一语义指令的语义质量是否高于所述第二语义指令的语义质量；

第一执行单元，用于在所述第一语义指令的语义质量高于所述第二语义指令的语义质量时，执行所述第一语义指令；

第二执行单元，用于在所述第二语义指令的语义质量高于所述第一语义指令的语义质量时，执行所述第二语义指令。

另一方面，本发明提供一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集；所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述的语音交互方法。

本发明具有如下有益效果：

本发明分析唤醒词与语音数据之间的关联性，充分挖掘唤醒词可能具备的利于指令执行的语义特征，通过智能判断唤醒词与语音数据的语义关联性，决定是否将唤醒词合入语音数据中并执行，能够使智能设备更加角色化，提高智能设备语义理解的准确性，更智能地执行用户的指令，提升用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是现有技术中一种语音交互系统的一种实施例的示意图；

图2是现有技术中一种语音交互方法的流程示意图；

图3是本发明实施例提供的获取第一语义指令的一种流程示意图；

图4是本发明实施例提供的获取第二语义指令的一种流程示意图；

图5是本发明实施例提供的判断第一语义指令的语义质量是否高于第二语义指令的语义质量的方法流程示意图；

图6是本发明实施例提供的用户自定义唤醒词的示意图；

图7是本发明实施例提供的智能设备设置唤醒词的示意图；

图8是本发明实施例提供的用户输入语音指令的示意图；

图9是本发明实施例提供的输出语音指令处理结果的示意图；

图10是本发明实施例提供的一种语音交互装置的结构框图；

图11是本发明实施例提供的语义分析单元的结构框图；

图12是本发明实施例提供的判断单元的结构框图；

图13是本发明实施例提供的一种智能设备的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

目前市面上的语音助理均支持通过唤醒词在设备休眠状态下唤醒语音助理，多数支持用户自定义唤醒词，唤醒词可以被设置为任何词汇。唤醒词可自行设计为用户带来便捷性，同时也造成对语义理解的困惑。例如：唤醒词为“陈奕迅”时，用户发出语音指令“来首你的歌”，其语音指令中的“你”与唤醒词“陈奕迅”存在语义关联，但目前的语音处理方法中不会将唤醒词与语音指令融合，那么“来首你的歌”被智能设备理解为“来首歌”，而不是“来首陈奕迅的歌”，智能设备执行指令的输出结果与用户意愿偏离，造成用户体验下降。再如：唤醒词为“上海”时，当用户想要询问上海天气时，发出语音指令“今天天气怎么样”，按照目前的语义理解技术，智能设备的语义理解结果为“今天天气怎么样”，没有明确的对象，无法获得确切的指令，导致无法顺利输出执行结果。

现有的智能设备不具备将唤醒词与用户语音指令结合进行语义分析的功能，智能设备语义理解能力不足，影响了指令执行结果和用户体验。为此，本发明提供一种语音交互方法及装置，本技术方案通过智能判断唤醒词与语音指令之间的语义关联性，决定是否将唤醒词合入语音指令生成待执行指令，来提高智能设备对语义理解的准确性，使智能设备能够更加角色化、更加智能的执行用户指令。

图1是现有技术中一种语音交互系统的一种实施例的示意图，请参阅图1，该语音交互系统可以包括智能设备100和服务器200。

具体的，所述智能设备100可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能音箱、车载电脑、智能可穿戴设备等类型的实体设备；其中，智能可穿戴设备可以包括智能手环、智能手表、智能眼镜、智能头盔等。当然，所述智能设备100并不限于上述具有一定实体的电子设备，其还可以为运行于上述电子设备中的软体。

具体的，所述服务器200可以包括一个独立运行的服务器，或者分布式服务器，或者由多个服务器组成的服务器集群，服务器200可以包括有实现所述智能设备的相关功能的功能组件和基础数据。

本说明书实施例中，所述智能设备100可以与服务器200进行信息交互。智能设备100采集语音数据，对语音数据进行分析生成待执行指令，向服务器200发送所述待执行指令，服务器200根据待执行指令获得处理结果，以及向智能设备100返回处理结果，以便智能设备100语音输出所述处理结果。

以下介绍本发明的语音交互方法的一种实施例，图2是本发明提供的语音交互方法的一种实施例的流程示意图，本说明书提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。如图2所示，所述语音交互方法可以包括：

S201：响应用户输入的唤醒词，根据所述唤醒词唤醒智能设备的语音交互功能。

本说明书实施例中，唤醒词是与智能设备关联的一种指令，当智能设备处于休眠状态下时，通过输入唤醒词可以激活智能设备并执行指令对应的功能操作。一般而言，唤醒词为语音指令，用户通过向智能设备呼起唤醒词，可以唤醒智能设备的语音交互功能，无需通过触控方式唤起语音助理。当然，唤醒词也可以为手动输入指令，例如通过触摸屏或者键盘输入智能设备，以唤醒智能设备的语音交互功能。

S203：接收待识别的语音数据。

具体的，用户向智能设备下达语音指令，智能设备接收到语音指令，将其作为待识别的语音数据。

S205：对所述语音数据进行语义分析获得第一语义指令，结合所述唤醒词对所述语音数据进行语义分析获得第二语义指令。

语音数据为用户输入的原始话术，需要将其解析为智能设备可执行的指令，因此需要对语音数据进行语义分析，获得可执行指令。本发明分析唤醒词与原始话术之间语义的关联性，比较将唤醒词合入原始话术获得的指令与不将唤醒词合入原始话术获得的指令中，根据哪一个指令执行能够提供更明确且有意义的服务，以此决定按照何种语义理解获得待执行指令。

图3是本发明实施例提供的获取第一语义指令的一种流程示意图。请参阅图3，所述对所述语音数据进行语义分析获得第一语义指令包括：

S301：对所述语音数据进行语音识别，得到识别文本，所述识别文本中包含代词；

S303：对所述识别文本进行预处理，剔除识别文本中的代词；

S305：对经过预处理的识别文本进行语义识别，获得第一语义指令。

图4是本发明实施例提供的获取第二语义指令的一种流程示意图。请参阅图4，所述结合所述唤醒词对所述语音数据进行语义分析获得第二语义指令包括：

S401：对所述语音数据进行语音识别，得到识别文本，所述识别文本中包含代词；

S403：对所述识别文本进行预处理，将识别文本中的代词替换为所述唤醒词；

S404：对经过预处理的识别文本进行语义识别，获得第二语义指令。

本说明书实施例中，所述代词是指代名词或一句话的一种词类，指代作为一种常见的语言现象，广泛存在于自然语言的各种表达中。指代主要的形式为：人称代词、代词、有定描述、省略、部分-整体指代、普通名词短语等。

语音识别是利用计算机将语音信号自动转换为文本的一项技术。例如，可以事先利用声学模型、语言模型和发音词典构建一个解码空间，要对一段语音进行识别时，从语音数据中提取语音特征向量，将语音特征输入解码空间，利用解码器，结合每一组输入的语音特征向量在解码空间中进行搜索，找到一条最优的词序列，这个词序列就是语音数据对应的识别结果。语音识别技术为一项成熟技术，当前已有各种实现方法，在此不再详细描述。

图3对应的实施例中，待执行指令根据语音数据获得，不考虑与唤醒词的关联，因此，如果识别文本中存在代词，则需要剔除代词，然后进行语义处理。例如：唤醒词为“陈奕迅”，语音数据为“来首你的歌”，识别文本为“来首你的歌”，其中“你”为代词，需要在预处理阶段进行剔除，得到预处理的识别文本为“来首的歌”，显然“来首的歌”语义逻辑有问题，通过语义理解得到的结果为“来首歌”，最终根据“来首你的歌”获得的第一语义指令为“来首歌”。

图4对应的实施例中，待执行指令根据语音数据和唤醒词获得，需要考虑唤醒词与语音数据的关联性，因此，如果识别文本中存在代词，则需要将代词替换为唤醒词，然后进行语义处理。例如：唤醒词为“陈奕迅”，语音数据为“来首你的歌”，识别文本为“来首你的歌”，其中“你”为代词，将其与唤醒词结合，得到预处理的识别文本为“来首陈奕迅的歌”，经过语义理解得到结果为“来首陈奕迅的歌”，最终根据“来首你的歌”获得的第二语义指令为“来首陈奕迅的歌”。在一个可能的实施方式中，可以通过指代消解方式将唤醒词合入语音数据中，获得第二语义指令。

S207：判断所述第一语义指令的语义质量是否高于所述第二语义指令的语义质量。

语义质量是用于衡量语义明确与否以及执行是否有意义的，比较语义质量的高低包括比较语义是否明确和语义执行是否有意义。本说明书实施例中，第一语义指令和第二语义指令为候选的待执行指令，通过比较第一语义指令与第二语义指令的语义质量，找到语义更明确且更有意义的待执行指令，执行该指令才能为用户提供更明确且更有意义的服务，提升用户体验。

请参阅图5，所述判断所述第一语义指令的语义质量是否高于所述第二语义指令的语义质量，包括：

S501：获取第一语义指令和第二语义指令。

所述第一语义指令和第二语义指令的获取方法参见图3和图4的描述，在此不再赘述。

S503：判断所述第二语义指令的语义是否是具有自洽性。

自洽性(self-consistency)，即逻辑自洽性和概念、观点等的前后一贯性，是指建构一个科学理论的若干个基本假设之间，基本假设和由这些基本假设逻辑地导出的一系列结论之间，各个结论之间必须是相容的，不相互矛盾的。

在一个可能的实施方式中，判断第二语义指令的语义是否具有自洽性可以是判断第二语义指令的语义是否存在逻辑矛盾，如果不存在，则判定第二语义指令具有自洽性。

第二语义指令是将唤醒词合入语音数据中得到，因唤醒词为人为设置，可以为任何词性的词汇，可能导致第二语义指令存在逻辑矛盾导致无法执行的情况，因此在执行第二语义指令之前需要判断其是否具有自洽性。而第一语义指令是通过去除代词并进行语义理解而获得，一般不存在逻辑矛盾，无需对第一语义进行自洽性判断。

S505：如果所述第二语义指令的语义具有自洽性，则判断所述第二语义指令的执行质量是否高于所述第一语义指令的执行质量。

在一个可能的实施方式中，所述判断所述第二语义指令的执行质量是否高于所述第一语义指令的执行质量包括：

S5051：查询所述第二语义指令的执行结果；

S5053：判断所述执行结果是否为空；

S5055：如果所述执行结果为空，则判定所述第二语义指令的执行质量不高于所述第一语义指令的执行质量；

S5057：如果所述执行结果不为空，则判定所述第二语义指令的执行质量高于所述第一语义指令的执行质量。

第二语义指令是将唤醒词合入语音数据中得到，存在第二语义指令无对应执行结果的情况，如果第二语义指令没有对应的执行结果，就意味着没有对应的处理结果输出，则会降低用户体验。因此，本说明书实施例在第二语义指令具有自洽性的基础上，进一步判断第二语义指令是否存在有意义的指令结果。

例如，唤醒词为“叮当叮当”，语音数据为“来首你的歌”，对应的第二语义指令为“来首叮当叮当的歌”，将该第二语义指令发送给服务器，服务器查询后没有找到叮当叮当的歌，向智能设备返回执行结果为空，说明若执行第二语义指令，不能输出有意义的处理结果，而“来首你的歌”对应的第一语义指令为“来首歌”，服务器可以向智能设备返回任意歌曲作为执行结果，对比第一语义指令与第二语义指令的指令结果，显然第一语义指令的指令结果比第二语义指令的执行结果更有明确且有意义，因此判定第二语义指令的执行指令不高于第一语义指令的指令质量。

相应地，如果唤醒词为“陈奕迅”，第一语义指令为“来首歌”，第二语义指令为“来首陈奕迅的歌”，服务器根据第二语义指令查询结果不为空，显然，第二语义指令的执行结果比第一语义指令的执行结果更明确且有意义，此时，第二语义指令的执行指令高于第一语义指令的执行质量。

S507：如果所述第二语义指令的执行质量高于所述第一语义指令的执行质量，则判定所述第二语义指令的语义质量高于所述第一语义指令的语义质量。

如果所述第二语义指令的执行质量不高于所述第一语义指令的执行质量，则判定所述第一语义指令的语义质量高于所述第二语义指令的语义质量。

S509：如果所述第二语义指令的语义不具有自洽性，则判定所述第一语义指令的语义质量高于所述第二语义的语义质量。

S209：如果所述第一语义指令的语义质量高于所述第二语义的语义质量，则执行所述第一语义指令。

S211：如果所述第二语义指令的语义质量高于所述第一语义指令的语义质量，则执行所述第二语义指令。

在一个可能的实施例中，所述步骤S209之后还包括：输出所述第一语义指令的执行结果；接收指令修正数据；对所述指令修正数据进行分析，获得修正指令；根据所述修正指令执行所述第二语义指令。

具体的，当智能设备输出指令执行结果后，用户可以自行判断输出结果是否满足自身需求，如果满足，则说明执行结果符合用户意愿，如果不满足，则说明执行结果未贴合用户意愿，需要进行更正，此时，如果用户发出纠正的语音指令，则智能设备会将给纠正的语音指令作为指令修正数据，根据指令修正数据分析得到修正指令并执行。本实施例中，智能设备执行第一语义指令输出执行结果，若接收到用户的纠正的语音指令，则执行第二语义指令并输出执行结果。本实施例中用户发出的纠正的语音指令可以是没有明确指示对象的指令，纠正的语音指令例如可以是“不是这个”、“换一个”、“不对”等。

假设用户为智能设备设置的唤醒词为“上海”，当用户发出语音指令“上海，北京，今天天气怎么样”时，智能设备接收到“上海”这一唤醒词即唤醒语音交互功能，通过分析“北京，今天天气怎么样”，得到第一语义指令为“今天北京的天气怎么样”，得到第二语义指令为“今天上海的天气怎么样”，此时若智能设备判断出第二语义指令的得分没有高于第一语义指令的得分，可以直接执行第一语义指令并输出执行结果，即输出结果为北京的天气；之后，若收到用户的纠正指令“不对”，则可以执行第二语义指令并输出执行结果，即输出结果为上海的天气。

在一个可能的实施例中，所述步骤S211之后还包括：输出所述第二语义指令的执行结果；接收指令修正数据；对所述指令修正数据进行分析，获得修正指令；根据所述修正指令执行所述第一语义指令。

具体的，当智能设备输出指令执行结果后，用户可以自行判断输出结果是否满足自身需求，如果满足，则说明执行结果符合用户意愿，如果不满足，则说明执行结果未贴合用户意愿，需要进行更正，此时，如果用户发出纠正的语音指令，则智能设备会将给纠正的语音指令作为指令修正数据，根据指令修正数据分析得到修正指令并执行。本实施例中，智能设备执行第二语义指令输出执行结果，若接收到用户的纠正的语音指令，则执行第一语义指令并输出执行结果。本实施例中用户发出的纠正的语音指令可以是没有明确指示对象的指令，纠正的语音指令例如可以是“不是这个”、“换一个”、“不对”等。

请参见图6-9，假设用户为智能设备起了一个名字叫“陈奕迅”，智能设备响应该指令，将唤醒词设置为“陈奕迅”，当用户发出语音指令“陈奕迅，来首你的歌”时，智能设备接收到“陈奕迅”这一唤醒词即唤醒语音交互功能，通过分析“来首你的歌”，得到第一语义指令为“来首歌”，得到第二语义指令为“来首陈奕迅的歌”，相比于第一语义指令，第二语义指令是自洽的且更明确，执行第二语义指令具有更好的服务意义，判断第二语义指令的得分高于第一语义指令，由此执行第二语义指令“来首陈奕迅的歌”，输出如图9的执行结果，随机展示了一首陈奕迅的《孤独患者》；之后，若用户发出纠正指令“不是这个”，则智能设备立即执行第一语义指令“来首歌”，选择任意歌曲作为输出结果。

本发明实施例还提供了一种语音交互装置，所述语音交互装置600包括功能唤醒单元610、数据接收单元620、语义分析单元630、判断单元640、第一执行单元650和第二执行单元660。其中，

功能唤醒单元610，用于响应用户输入的唤醒词，根据所述唤醒词唤醒智能设备的语音交互功能；

数据接收单元620，用于接收待识别的语音数据；

语义分析单元630，用于对所述语音数据进行语义分析获得第一语义指令，结合所述唤醒词对所述语音数据进行语义分析获得第二语义指令；

判断单元640，用于判断所述第一语义指令的语义质量是否高于所述第二语义指令的语义质量；

第一执行单元650，用于在所述第一语义指令的语义质量高于所述第二语义指令的语义质量时，执行所述第一语义指令；

第二执行单元660，用于在所述第二语义指令的语义质量高于所述第一语义指令的语义质量时，执行所述第二语义指令。

在一个可能的实施例中，所述语义分析单元630包括：

第一语义分析模块710，用于对所述语音数据进行语音识别，得到识别文本，所述识别文本中包含代词；对所述识别文本进行预处理，剔除识别文本中的代词；对经过预处理的识别文本进行语义识别，获得第一语义指令；

第二语义分析模块720，用于对所述语音数据进行语音识别，得到识别文本，所述识别文本中包含代词；对所述识别文本进行预处理，将识别文本中的代词替换为所述唤醒词；对经过预处理的识别文本进行语义识别，获得第二语义指令。

在一个可能的实施例中，所述判断单元640包括：

自洽性判断模块810，用于判断所述第二语义指令的语义是否是具有自洽性；

第一判定模块820，用于在所述第二语义指令的语义不具有自洽性时，判定所述第一语义指令的语义质量高于所述第二语义指令的语义质量；

第二判定模块830，用于在所述第二语义指令的语义具有自洽性时，判断所述第二语义指令的执行质量是否高于所述第一语义指令的执行质量；如果所述第二语义指令的执行质量高于所述第一语义指令的执行质量，则判定所述第二语义指令的语义质量高于所述第一语义指令的语义质量；如果所述第二语义指令的执行质量不高于所述第一语义指令的执行质量，则判定所述第一语义指令的语义质量高于所述第二语义指令的语义质量。

在一个可能的实施例中，所述第二判定模块830包括：

查询子模块831，用于查询所述第二语义指令的执行结果；

判断子模块833，用于判断所述执行结果是否为空；

第一判定子模块835，用于在所述执行结果为空时，判定所述第二语义指令的执行质量不高于所述第一语义指令的执行质量；

第二判定子模块837，用于在所述执行结果不为空时，判定所述第二语义指令的执行质量高于所述第一语义指令的执行质量。

在一个可能的实施例中，所述装置还可以包括：

第一输出单元，用于输出所述第一语义指令的执行结果；

第一修正单元，用于接收指令修正数据；对所述指令修正数据进行分析，获得修正指令；以及根据所述修正指令执行所述第二语义指令。

在一个可能的实施例中，所述装置还可以包括：

第二输出单元，用于输出所述第二语义指令的执行结果；

第二修正单元，用于接收指令修正数据；对所述指令修正数据进行分析，获得修正指令；以及根据所述修正指令执行所述第一语义指令。

本实施例分析唤醒词与语音数据之间的关联性，充分挖掘唤醒词可能具备的利于指令执行的语义特征，通过智能判断唤醒词与语音数据的语义关联性，决定是否将唤醒词合入语音数据中并执行，能够使智能设备更加角色化，提高智能设备语义理解的准确性，更智能地执行用户的指令，提升用户体验。

需要说明的是：上述实施例提供的语音交互装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音交互装置与语音交互方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

本发明实施例还提供了一种智能设备的结构示意图，如图13所示，该智能设备中的客户端可以用于实施上述实施例中提供的语音交互方法。具体来讲：

所述客户端可以包括RF(Radio Frequency，射频)电路1310、包括有一个或一个以上计算机可读存储介质的存储器1320、输入单元1330、显示单元1340、传感器1350、音频电路1360、WiFi(wireless fidelity，无线保真)模块1370、包括有一个或者一个以上处理核心的处理器1380、以及电源1390等部件。本领域技术人员可以理解，图13中示出的客户端结构并不构成对客户端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。其中：

RF电路1310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，交由一个或者一个以上处理器1380处理；另外，将涉及上行的数据发送给基站。通常，RF电路1310包括但不限于天线、至少一个放大器、调谐器、一个或多个振荡器、用户身份模块(SIM)卡、收发信机、耦合器、LNA(Low Noise Amplifier，低噪声放大器)、双工器等。此外，RF电路810还可以通过无线通信与网络和其他客户端通信。所述无线通信可以使用任一通信标准或协议，包括但不限于GSM(Global System of Mobilecommunication，全球移动通讯系统)、GPRS(General Packet Radio Service，通用分组无线服务)、CDMA(Code Division Multiple Access，码分多址)、WCDMA(Wideband CodeDivision Multiple Access,宽带码分多址)、LTE(Long Term Evolution,长期演进)、电子邮件、SMS(Short Messaging Service，短消息服务)等。

存储器1320可用于存储软件程序以及模块，处理器1380通过运行存储在存储器1320的软件程序以及模块，从而执行各种功能应用以及数据处理。存储器1320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、功能所需的应用程序等；存储数据区可存储根据所述客户端的使用所创建的数据等。此外，存储器1320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器1320还可以包括存储器控制器，以提供处理器880和输入单元1330对存储器1320的访问。

输入单元1330可用于接收输入的数字或字符信息，以及产生与用户设置以及功能控制有关的键盘、鼠标、操作杆、光学或者轨迹球信号输入。具体地，输入单元1330可包括触敏表面1331以及其他输入设备1332。触敏表面1331，也称为触摸显示屏或者触控板，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触敏表面1331上或在触敏表面1331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触敏表面1331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器1380，并能接收处理器1380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触敏表面1331。除了触敏表面1331，输入单元1330还可以包括其他输入设备1332。具体地，其他输入设备1332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元1340可用于显示由用户输入的信息或提供给用户的信息以及所述客户端的各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示单元1340可包括显示面板1341，可选的，可以采用LCD(Liquid CrystalDisplay，液晶显示器)、OLED(Organic Light-Emitting Diode,有机发光二极管)等形式来配置显示面板1341。进一步的，触敏表面1331可覆盖显示面板1341，当触敏表面1331检测到在其上或附近的触摸操作后，传送给处理器1380以确定触摸事件的类型，随后处理器1380根据触摸事件的类型在显示面板1341上提供相应的视觉输出。其中，触敏表面1331与显示面板1341可以两个独立的部件来实现输入和输入功能，但是在某些实施例中，也可以将触敏表面1331与显示面板1341集成而实现输入和输出功能。

所述客户端还可包括至少一种传感器1350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板1341的亮度，接近传感器可在所述客户端移动到耳边时，关闭显示面板1341和/或背光。作为运动传感器的一种，重力加速度传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别客户端姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于所述客户端还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路1360、扬声器1361，传声器1362可提供用户与所述客户端之间的音频接口。音频电路1360可将接收到的音频数据转换后的电信号，传输到扬声器1361，由扬声器1361转换为声音信号输出；另一方面，传声器1362将收集的声音信号转换为电信号，由音频电路1360接收后转换为音频数据，再将音频数据输出处理器1380处理后，经RF电路1310以发送给比如另一客户端，或者将音频数据输出至存储器1320以便进一步处理。音频电路1360还可能包括耳塞插孔，以提供外设耳机与所述客户端的通信。

WiFi属于短距离无线传输技术，所述客户端通过WiFi模块1370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了WiFi模块1370，但是可以理解的是，其并不属于所述客户端的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器1380是所述客户端的控制中心，利用各种接口和线路连接整个客户端的各个部分，通过运行或执行存储在存储器1320内的软件程序和/或模块，以及调用存储在存储器1320内的数据，执行所述客户端的各种功能和处理数据，从而对客户端进行整体监控。可选的，处理器1380可包括一个或多个处理核心；优选的，处理器1380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器1380中。

所述客户端还包括给各个部件供电的电源1390(比如电池)，优选的，电源可以通过电源管理系统与处理器1380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。电源1390还可以包括一个或一个以上的直流或交流电源、再充电系统、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。

尽管未示出，所述客户端还可以包括摄像头、蓝牙模块等，在此不再赘述。具体在本实施例中，客户端的显示单元是触摸屏显示器，客户端还包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行本发明中方法实施例中的指令。

本发明的实施例还提供了一种存储介质，所述存储介质可设置于客户端之中以保存用于实现方法实施例中一种语音交互方法相关的至少一条指令、至少一段程序、代码集或指令集，该至少一条指令、该至少一段程序、该代码集或指令集由该处理器加载并执行以实现上述方法实施例提供的语音交互方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络客户端中的至少一个网络客户端。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种语音交互方法，其特征在于，包括：

接收待识别的语音数据；

对所述语音数据进行语义分析获得第一语义指令，包括：对所述语音数据进行语音识别，得到识别文本，所述识别文本中包含代词；对所述识别文本进行预处理，剔除识别文本中的代词；对经过预处理的识别文本进行语义识别，获得第一语义指令；

结合所述唤醒词对所述语音数据进行语义分析获得第二语义指令，包括：对所述语音数据进行语音识别，得到识别文本；对所述识别文本进行预处理，将识别文本中的代词替换为所述唤醒词，所述代词为指代名词或一句话的一种词类；对经过预处理的识别文本进行语义识别，获得第二语义指令；

判断所述第二语义指令的语义是否是具有自洽性；

如果所述第二语义指令的语义不具有自洽性，则判定所述第一语义指令的语义质量高于所述第二语义指令的语义质量；

如果所述第二语义指令的语义具有自洽性，则判断所述第二语义指令的执行质量是否高于所述第一语义指令的执行质量，包括：查询所述第二语义指令的执行结果；判断所述执行结果是否为空；如果所述执行结果为空，则判定所述第二语义指令的执行质量不高于所述第一语义指令的执行质量；如果所述执行结果不为空，则判定所述第二语义指令的执行质量高于所述第一语义指令的执行质量；

如果所述第二语义指令的执行质量高于所述第一语义指令的执行质量，则判定所述第二语义指令的语义质量高于所述第一语义指令的语义质量；如果所述第二语义指令的执行质量不高于所述第一语义指令的执行质量，则判定所述第一语义指令的语义质量高于所述第二语义指令的语义质量；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

输出所述第一语义指令的执行结果；

接收指令修正数据；

对所述指令修正数据进行分析，获得修正指令；

根据所述修正指令执行所述第二语义指令。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

输出所述第二语义指令的执行结果；

接收指令修正数据；

对所述指令修正数据进行分析，获得修正指令；

根据所述修正指令执行所述第一语义指令。

4.一种语音交互装置，其特征在于，包括：

数据接收单元，用于接收待识别的语音数据；

语义分析单元，用于对所述语音数据进行语义分析获得第一语义指令，结合所述唤醒词对所述语音数据进行语义分析获得第二语义指令，其中，所述语义分析单元包括第一语义分析模块和第二语义分析模块，所述第二语义分析模块用于对所述语音数据进行语音识别，得到识别文本，对所述识别文本进行预处理，将识别文本中的代词替换为所述唤醒词，所述代词为指代名词或一句话的一种词类，对经过预处理的识别文本进行语义识别，获得第二语义指令；所述第一语义分析模块用于对所述语音数据进行语音识别，得到识别文本，所述识别文本中包含代词，对所述识别文本进行预处理，剔除识别文本中的代词，对经过预处理的识别文本进行语义识别，获得第一语义指令；

判断单元，用于判断所述第一语义指令的语义质量是否高于所述第二语义指令的语义质量，所述判断单元包括自洽性判断模块、第一判定模块和第二判定模块，所述自洽性判断模块用于判断所述第二语义指令的语义是否是具有自洽性；所述第一判定模块用于在所述第二语义指令的语义不具有自洽性时，判定所述第一语义指令的语义质量高于所述第二语义指令的语义质量；所述第二判定模块用于在所述第二语义指令的语义具有自洽性时，判断所述第二语义指令的执行质量是否高于所述第一语义指令的执行质量，如果所述第二语义指令的执行质量高于所述第一语义指令的执行质量，则判定所述第二语义指令的语义质量高于所述第一语义指令的语义质量，如果所述第二语义指令的执行质量不高于所述第一语义指令的执行质量，则判定所述第一语义指令的语义质量高于所述第二语义指令的语义质量；所述第二判定模块包括查询子模块、判断子模块、第一判定子模块和第二判定子模块；所述查询子模块用于查询所述第二语义指令的执行结果；所述判断子模块用于判断所述执行结果是否为空；所述第一判定子模块用于在所述执行结果为空时，判定所述第二语义指令的执行质量不高于所述第一语义指令的执行质量；所述第二判定子模块用于在所述执行结果不为空时，判定所述第二语义指令的执行质量高于所述第一语义指令的执行质量；

5.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至3任一项所述的语音交互方法。