CN103000173B

CN103000173B - 一种语音交互方法及装置

Info

Publication number: CN103000173B
Application number: CN201210533845.8A
Authority: CN
Inventors: 梁捷; 俞永福; 何小鹏; 朱顺炎; 吴竑远
Original assignee: Ucweb Inc
Current assignee: Alibaba China Co Ltd
Priority date: 2012-12-11
Filing date: 2012-12-11
Publication date: 2015-06-17
Anticipated expiration: 2032-12-11
Also published as: CN103000173A

Abstract

本发明提出了一种语音交互方法，包括以下步骤：接收第一语音信息；将所述第一语音信息转换为第一文本信息；根据所述第一文本信息检索与所述第一文本信息对应的第一结果；显示所述第一结果；接收第二语音信息；将所述第二语音信息转换为第二文本信息；将所述第一文本信息与所述第二文本信息进行比较以得到第三文本信息；根据所述第三文本信息并基于所述第一结果检索得到第二结果；显示所述第二结果。本发明还提出了一种语音交互装置。本发明通过结合用户语音识别前一次的识别结果对本次输入的语音加以分析，结合用户的使用习惯、外界场景等因素进行智能识别，对第一次识别结果加以筛选，使识别效率更准确，并提高了用户体验。

Description

一种语音交互方法及装置

技术领域

本发明涉及移动通信技术领域，尤其涉及一种语音交互方法及装置。

背景技术

目前，随着移动终端用户对于语音技术准确性的要求越来越高，人工智能已经被应用到语音识别领域。但是在现有技术中，比如苹果公司的siri语音助手，能够将语音内容，反馈出相应的内容，实现人机对话。

但这样的交互是简单的、一次性的，比如使用siri搜索出“附近四星级的酒店”，再继续对话“我要400左右的”，则会失败，siri会重新以“我要400左右的”作为新的事件进行搜索、适配。即用户需要在一次语音交互之内提供全部信息以供检索，但是过长的语音信息又可能导致语音识别出错。

发明内容

本发明旨在至少解决上述技术问题之一。

为此，本发明的第一个目的在于提出一种语音交互方法，该方法通过在用户语音识别的第一次识别结果上继续接受用户的语音信息，结合用户的使用习惯、外界场景等因素进行智能识别，结合两次识别结果进行判断，提高结果精度，使识别效率更准确。本发明的另一个目的在于提出一种语音交互装置。

为了实现上述目的，根据本发明第一方面的实施例的语音交互方法包括以下步骤：接收第一语音信息；将所述第一语音信息转换为第一文本信息；根据所述第一文本信息检索与所述第一文本信息对应的第一结果；显示所述第一结果；接收第二语音信息；将所述第二语音信息转换为第二文本信息；将所述第一文本信息与所述第二文本信息进行比较以得到第三文本信息；根据所述第三文本信息并基于所述第一结果检索得到第二结果；显示所述第二结果。

根据本发明实施例的语音交互方法，通过在用户语音识别的第一次识别结果上继续接受用户的语音信息，并结合前一次的识别结果对本次输入的语音加以分析，结合用户的使用习惯、外界场景等因素进行智能识别，结合两次识别结果进行判断，提高结果精度，使识别效率更准确，提高结果精度，并提高了用户体验。

在本发明的一个实施例中，进一步包括步骤：判断所述第一文本信息是有效信息或者是无效信息；如果是无效信息，则显示所述第一文本信息；以及请求用户对所述第一文本信息进行确认；和/或判断所述第二文本信息是有效信息或者是无效信息；如果是无效信息，则显示所述第二文本信息；以及请求用户对第二所述文本信息进行确认。

在本发明的一个实施例中，进一步包括步骤：如果没有收到确认，则对所述第一文本信息或所述第二文本信息进行模糊匹配以分别得到第一匹配文本或第二匹配文本，其中根据所述第一文本信息检索与所述第一文本信息对应的第一结果并优先显示所述第一结果中与所述第一匹配文本对应的结果；或者根据所述第三文本信息并基于所述第一结果检索得到第二结果并优先显示所述第二结果中与所述第二匹配文本对应的结果。

在本发明的一个实施例中，将所述第一语音信息转换为第一文本信息的步骤包括：将所述第一语音信息转换为预处理文本；以及对所述预处理文本进行分词以得到所述第一文本信息，其中所述第一文本信息分别包括多个关键词；和/或将所述第二语音信息转换为第二文本信息的步骤包括：将所述第二语音信息转换为预处理文本；以及对所述预处理文本进行分词以得到所述第二文本信息，其中所述第二文本信息分别包括多个关键词。

在本发明的一个实施例中，根据所述第一文本信息检索与所述第一文本信息对应的第一结果的步骤进一步包括：判断所述第一文本信息中的多个关键词的权重，其中根据所述第一文本信息并基于所述第一文本信息中的多个关键词的权重检索与所述第一文本信息对应的第一结果；和/或将所述第一文本信息与所述第二文本信息进行比较以得到第三文本信息的步骤进一步包括：判断所述第二文本信息中的多个关键词的权重，其中根据所述第一文本信息中的多个关键词的权重并根据所述第二文本信息中的多个关键词的权重将所述第一文本信息与所述第二文本信息进行比较以得到第三文本信息。

在本发明的一个实施例中，所述第二语音信息与所述第一语音信息相关联。

在本发明的一个实施例中，根据所述第一文本信息检索与所述第一文本信息对应的第一结果或者根据所述第三文本信息并基于所述第一结果检索得到第二结果的步骤中，所述检索包括本地检索和/或云端检索。

根据本发明第二方面的实施例的语音交互装置包括：第一语音接收模块，所述第一语音接收模块用于接收第一语音信息；第一语音转换模块，所述第一语音转换模块用于将所述第一语音信息转换为第一文本信息；第一检索模块，所述第一检索模块用于根据所述第一文本信息检索与所述第一文本信息对应的第一结果；第一显示模块，所述第一显示模块用于向用户显示所述第一结果；第二语音接收模块，所述第二音接收模块用于接收第二语音信息；第二语音转换模块，所述第二语音转换模块用于将所述第二语音信息转换为第二文本信息；比较模块，所述比较模块用于将所述第一文本信息与所述第二文本信息进行比较以得到第三文本信息；第二检索模块，所述第二检索模块用于根据所述第三文本信息并基于所述第一结果检索得到第二结果；第二显示模块，所述第二显示模块用于向用户显示所述第二结果。

根据本发明实施例的语音交互装置，通过在用户语音识别的第一次识别结果上继续接受用户的语音信息，并结合前一次的识别结果对本次输入的语音加以分析，结合用户的使用习惯、外界场景等因素进行智能识别，结合两次识别结果进行判断，提高结果精度，使识别效率更准确，并提高了用户体验。

在本发明的一个实施例中，所述语音交互装置还包括：第一判断模块，所述第一判断模块用于判断所述第一文本信息是有效信息或者是无效信息，如果是无效信息，则所述第一显示模块显示所述第一文本信息并请求用户对所述第一文本信息进行确认；以及第二判断模块，所述第二判断模块用于判断所述第二文本信息是有效信息或者是无效信息，如果是无效信息，则所述第二显示模块显示所述第二文本信息并请求用户对所述第二文本信息进行确认。

在本发明的一个实施例中，所述语音交互装置还包括：模糊匹配模块，所述模糊匹配模块用于在用户未对所述第一文本信息或所述第二文本信息做出确认时，对所述第一文本信息或所述第二文本信息进行模糊匹配以分别得到第一匹配文本或第二匹配文本，其中所述第一检索模块根据所述第一文本信息检索与所述第一文本信息对应的第一结果并且所述第一显示模块优先显示所述第一结果中与所述第一匹配文本对应的结果；或者所述第二检索模块根据所述第三文本信息并基于所述第一结果检索得到第二结果并且所述第二显示模块优先显示所述第二结果中与所述第二匹配文本对应的结果。

在本发明的一个实施例中，所述第一语音转换模块或第二语音转换模块包括：语音转换单元，所述语音转换单元用于将所述第一语音信息或第二语音信息转换为预处理文本；分词单元，所述分词单元用于对所述预处理文本进行分词以得到所述第一文本信息或所述第二文本信息，其中所述第一文本信息或所述第二文本信息分别包括多个关键词。

在本发明的一个实施例中，所述第一语音转换模块或第二语音转换模块还包括：权重判断单元，用于判断所述第一文本信息或所述第二文本信息中的多个关键词的权重，之后所述第一检索模块根据所述第一文本信息并基于所述第一文本信息中的多个关键词的权重检索与所述第一文本信息对应的第一结果；或者所述比较模块根据所述第一文本信息中的多个关键词的权重并根据所述第二文本信息中的多个关键词的权重将所述第一文本信息与所述第二文本信息进行比较以得到第三文本信息。

在本发明的一个实施例中，所述检索包括本地检索和/或云端检索。

本发明附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中，

图1是根据本发明一个实施例的语音交互方法的流程图；

图2是根据本发明一个实施例的对第一文本信息的处理过程的流程图；

图3是根据本发明一个实施例的对第二文本信息的处理过程的流程图；

图4是根据本发明另一个实施例的语音交互方法的流程图；

图5是根据本发明一个实施例的语音交互装置的示意图；

图6是根据本发明一个实施例的第一语音转换模块的示意图；以及

图7是根据本发明一个实施例的第二语音转换模块的示意图。

具体实施方式

下面详细描述本发明的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本发明，而不能理解为对本发明的限制。相反，本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。

在本发明的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。在本发明的描述中，需要说明的是，除非另有明确的规定和限定，术语“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。此外，在本发明的描述中，除非另有说明，“多个”的含义是两个或两个以上。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

下面参考附图描述根据本发明实施例的语音交互方法及装置。

图1是根据本发明一个实施例的语音交互方法的流程图。

如图1所示，语音交互方法包括下述步骤。

S101：接收第一语音信息。

S102：将第一语音信息转换为第一文本信息。

在本发明的一个实施例中，将第一语音信息转换为第一文本信息的步骤包括：将语音信息转换为预处理文本，然后对预处理文本进行分词得到第一文本信息，其中第一文本信息包括多个关键词。例如，在一具体实施例中，用户说“我要附近四星级的酒店”，经过分词为“我”、“要”、“附近”、“四星级”、“酒店”，其中，真正提供了信息的关键字为“附近”、“四星级”、“酒店”。为使搜索结果更加符合用户的需要，可增加对关键字权重的设置，搜索前，先判断第一文本信息中各关键词的权重，再按照第一文本信息中各关键字的权重进行检索，以得到与第一文本信息对应的结果。例如，在前一实施例中，相比于“附近”，“酒店”显然是更为明确的信息，则“酒店”设置较大的权重值，而为“附近”、“四星级”设置较小的权重值，而检索结果依照命中关键字的权重值排序，将更加符合用户的需要。

在本发明的一个实施例中，将第一语音信息转换为第一文本信息后，还包括以下步骤：

S201：判断第一文本信息是有效信息或者是无效信息。

具体地，判断第一文本信息为有效信息或者是无效信息，可以对第一文本信息进行分词，根据分词后的语义进行判断。在实际应用中，用户的发音可能会不标准，比如将“我要四百左右的酒店”发音为“我要死吧左右的酒店”，分词后得到的结果是“我”、“要”、“死吧”、“左右”、“酒店”，分词结果怪异，可以认为是无效信息或含有无效信息；又或者所在的环境可能还会有其他的声源，比如电视的声音，或嘈杂环境下其他人的说话声，为避免这些无效信息干扰到语音识别，需要对转换后的文本信息加以判断，判断文本信息是否为有效信息。

S202：如果第一文本信息是无效信息，则向用户显示第一文本信息。

S203：请求用户对第一文本信息进行确认。

用户可以选择确认该文本信息无效需重新输入，或者该文本信息有效，则直接以该文本信息的分词结果作为关键字进行搜索。

S204：如果未收到用户确认，则对第一文本信息进行模糊匹配以得到第一匹配文本。

在具体实施例中，例如用户说“附近酒店”，但在文本识别中被识别为“福锦酒店”，

S205：根据第一文本信息检索与第一文本信息对应的第一结果并优先显示第一结果中与第一匹配文本对应的结果。

S103：根据第一文本信息检索与第一文本信息对应的第一结果。

根据第一文本信息，进行本地检索和/或云端检索，得到与第一文本信息对应的结果。另外，检索的数据来源还可以包括但不限于以下方式：

（A）检索模块可以通过本地检索+云端检索组成，优先在本地数据库进行匹配，当检索无法获得结果时，再联网获取数据进行检索；

（B）检索模块对应的检索引擎和数据库可以通过在线更新的方式完成更新；

（C）用户可以将自己感兴趣的检索用数据库下载到本地，提升语音交互的效率，比如，用户经常出差，那么他可以将某个（或某几个）地方的酒店数据下载，然后再使用的时候，他可以说“附近酒店”分词后，获得用户所在地附近酒店；

（D）结合前述实施例中的权重值设置，在常用数据库中，可以根据使用频率，结合用户的使用习惯和具体外界场景对常用短语的权重值加以区分设置，以提高系统判断用户需求的准确率。

S104：向用户显示第一结果。

向用户显示第一结果，如果用户对第一结果满意，不再输入语音信息，则该次语音任务完成。如果用户对第一结果不满意，还希望通过语音继续对第一结果进行筛选或延伸以进一步确定范围，则需进行新一次的语音任务。

S105：接收第二语音信息。

如前所述，第二次语音交互的目的在于对第一结果进行筛选或延伸以进一步确定范围，因此，第二语音信息应当与第一语音信息相关联。如果接收到的第二语音信息在语义上无法与第一语音信息相关联，或者第二语音信息在场景上无法与第一语音信息相关联，则认为用户转移了话题，要进行与前一次语音交互无关的语音交互。在一个具体实施例中，出现上述第二语音信息无法与第一语音信息相关联的情形时，则结束当前语音任务，并且将该第二语音信息作为新一次语音交互的第一语音信息，开始新一次语音任务。

S106：将第二语音信息转换为第二文本信息。

S107：将第一文本信息与第二文本信息进行比较以得到第三文本信息。

S108：根据第三文本信息并基于第一结果检索得到第二结果。

根据第三文本信息并在第一次检索的结果基础上，进行本地检索和/或云端检索，得到第二结果。另外，检索的数据来源还可以包括但不限于以下方式：

S109：向用户显示第二结果。

在本发明的一个实施例中，S106步骤包括：将语音信息转换为预处理文本，然后对预处理文本进行分词得到第二文本信息，其中第二文本信息包括多个关键字。为使搜索结果更加符合用户的需要，可增加对关键字权重的设置，S107步骤包括：先判断第二文本信息中各关键词的权重，再根据第一文本信息中的多个关键词的权重和第二文本信息中的多个关键词的权重将第一文本信息与第二文本信息进行比较以得到第三文本信息。例如，在一具体实施例中，用户说“我要附近四星级的酒店”，然后又说“要400左右的”；经过分词可得到第一文本信息，其关键字为“我”、“要”、“附近”、“四星级”、“酒店”，和第二文本信息，其关键字为“要”、“400”、“左右”，结合各关键字的语义及场景判断，可得到真正提供了信息的关键字为“附近”、“四星级”、“酒店”、“400”，这些关键字组成第三文本信息。其中，相比于“附近”，“酒店”显然是更为明确的信息，则可以为“酒店”设置较大的权重值，而为“附近”、“四星级”设置较小的权重值，而结合第一句话，可以判断第二句中的“400”指的是价格，则将“价格400”作为关键词设置以较大的权重值，检索结果依照命中关键字的权重值排序，将使第二结果更加符合用户的需要。

在具体应用中，由于用户个人的用词使用习惯，经常会出现描述中有省略的情况，例如用户先说“附近的酒店”，随后语音交互系统识别并根据“附近”、“酒店”检索，向用户显示附近的酒店信息，但用户认为结果太多，继续说“我要400左右的”，提取关键词为“400”、“左右”，“400”、“左右”可以代表的是距离，面积，价格，但结合上一次检索的关键字“附近”、“酒店”，“400”、“左右”的最适合的意义是价格，因此，识别模块会将上一次检索结果列表中的酒店进行价格上的匹配，筛选出“价格在400左右”的，再显示给用户。又或者，某用户经常旅游，下一站他要去西藏，他下载了关于西藏地区的旅游信息（酒店，景点，饮食等）。他到西藏后，第一个目的地是羊湖，他说“寻找羊湖旁的酒店”，然后在结果页面，他再说“要价格300左右，提供包车服务的酒店”，再一次缩小范围，显示出相应的酒店。满足了该用户的需求。

在本发明的一个实施例中，在S106步骤后，还包括以下步骤：

S301：判断第二文本信息是否为有效信息。

具体地，判断第二文本信息为有效信息或者是无效信息，可以对第二文本信息进行分词，根据分词后的语义进行判断。在实际应用中，用户的发音可能会不标准，比如将“我要四百左右的酒店”发音为“我要死吧左右的酒店”；或者所在的环境可能还会有其他的声源，比如电视的声音，或嘈杂环境下其他人的说话声，为避免这些因素干扰到语音识别，需要对转换后的文本信息加以判断，判断文本信息是否为无效信息或含有无效信息。

S302：如果第二文本信息为无效信息或含有无效信息，则向用户显示第二文本信息。

S303：请求用户对第二文本信息进行确认。

S304：如果未收到用户确认，则对第二文本信息进行模糊匹配以得到第二匹配文本。

此时，S107、S108步骤可结合模糊匹配转化为：

S305：将第一文本信息与第二匹配文本进行比较以得到第三文本信息。

S306：根据第三文本信息并基于第一结果检索得到第二结果，并优先显示第二结果中与第二匹配文本对应的结果。

在第一结果中，根据第三文本信息进行检索，得到第二结果。在第二结果中，优先显示与第二匹配文本，即用户最近一次输入的语音信息相对应的结果。

在具体的一个实施例中，例如用户说“附近酒店”，但在文本识别中被识别为“福锦酒店”，在一些情况下，系统是会认为这个是识别正确的，例如刚好也有一个酒店叫“福锦”，那么，在不进行模糊匹配的情况下，检索结果就与用户的预期出现了大的偏差。因此，为了充分考虑到这种情况，作为一种更优选的方案，可以引入LBS元素（基于位置的服务），并将这个元素作为隐藏搜索权重。可将“附近酒店”作为模糊匹配用关键字，结合前述实施例中的权重值设定，为“福锦酒店”设置较大的权重值，“（根据LBS判断的）附近酒店”设置较小的权重值进行搜索，保证了结果的精度。

在本发明的一个实施例中，如果用户对S109步骤得到的第二结果仍然不满意，则需要继续与用户进行语音交互，具体实施中可以将第二结果作为新的第一结果，重复S105~S109步骤，一直到用户得到满意的第二结果，若用户不再输入语音信息，则语音交互过程完成。此情形下，具体流程的执行过程如图4所示：

S401：接收用户的语音输入。

S402：将语音转换为文本信息。

S403：对文本信息进行分词处理。

S404：判断分词的结果是否怪异，如果是，执行S405；否则，执行S408。

S405：将分词结果怪异的文本信息向用户显示，提示用户。

S406：由用户对文本信息进行确认有效，或者判断该文本信息无效，需要再输入，如果用户确认有效，则执行S408；如果判断需要再输入，则执行S401；如果用户未做出确认，则执行S407。

S407：对怪异的分词结果进行模糊匹配。

S408：根据分词结果进行搜索。搜索过程中，可能会需要进行场景判断，在判断之后可调整分词优先级，并进行场景关联。

S409：将得到的检索结果向用户显示。

S410：由用户判断是否还需要继续输入语音，以在检索结果中进行进一步的检索，如果需要则执行S401；否则说明用户对结果已满意，结束。

根据本发明实施例的语音交互方法，通过在用户语音识别的第一次识别结果上继续接受用户的语音信息，并结合前一次的识别结果对本次输入的语音加以分析，结合用户的使用习惯、外界场景等因素进行智能识别，对第一次识别结果通过本地检索或云端检索加以筛选，使识别效率更准确，并提高了用户体验。

为了实现上述实施例，本发明还提出一种语音交互装置。

图5是根据本发明一个实施例的语音交互装置的示意图。

如图5所示，语音交互装置包括：第一语音接收模块510、第一语音转换模块520、第一检索模块530、第一显示模块540、第二语音接收模块550、第二语音转换模块560、比较模块570、第二检索模块580和第二显示模块590。

具体地，第一语音接收模块510用于接收第一语音信息。

第一语音转换模块520用于将第一语音信息转换为第一文本信息。在本发明的一个实施例中，如图6所示，第一语音转换模块520包括语音转换单元5201、分词单元5202和权重判断单元5203，语音转换单元5201用于将第一语音信息转换为预处理文本，分词单元5202用于对预处理文本进行分词以得到第一文本信息，其中第一文本信息包括多个关键词，权重判断单元5203用于判断第一文本信息中的多个关键词的权重。

例如，在一具体实施例中，用户说“我要附近四星级的酒店”，经过分词为“我”、“要”、“附近”、“四星级”、“酒店”，其中，真正提供了信息的关键字为“附近”、“四星级”、“酒店”。为使搜索结果更加符合用户的需要，可增加对关键字权重的设置，搜索前，先判断第一文本信息中各关键词的权重，再按照第一文本信息中各关键字的权重进行检索，以得到与第一文本信息对应的结果。或者，先判断第二文本信息中各关键词的权重，再根据第一文本信息中的多个关键词的权重和第二文本信息中的多个关键词的权重将第一文本信息与第二文本信息进行比较以得到第三文本信息。例如，在前一实施例中，相比于“附近”、“四星级”，“酒店”显然是更为明确的信息，则可以为“酒店”设置较大的权重值，而为“附近”、“四星级”设置较小的权重值，而检索结果依照命中关键字的权重值排序，将更加符合用户的需要。

第一检索模块530用于根据第一文本信息检索与第一文本信息相对应的第一结果。检索可包括本地检索和/或云端检索，即进行本地检索，或云端检索，或同时进行本地检索和云端检索。另外，检索的数据来源还可以包括但不限于以下方式：

第一显示模块540用于向用户显示第一结果。在实际应用中，第一显示模块可以是显示屏等显示设备。

第二语音接收模块550用于接收第二语音信息。

第二语音转换模块560用于将第二语音信息转换为第二文本信息。在本发明的一个实施例中，如图7所示，第二语音转换模块560包括语音转换单元5601、分词单元5602和权重判断单元5603，语音转换单元5601用于将第二语音信息转换为预处理文本，分词单元5602用于对预处理文本进行分词以得到第二文本信息，其中第二文本信息包括多个关键词，权重判断单元5603用于判断第二文本信息中的多个关键词的权重。例如，在一具体实施例中，用户说“我要附近四星级的酒店”，然后又说“要400左右的”；经过分词可得到第一文本信息，其关键字为“我”、“要”、“附近”、“四星级”、“酒店”，和第二文本信息，其关键字为“要”、“400”、“左右”，结合各关键字的语义及场景判断，可得到真正提供了信息的关键字为“附近”、“四星级”、“酒店”、“400”，这些关键字组成第三文本信息。为使搜索结果更加符合用户的需要，可增加对关键字权重的设置，搜索前，先判断第二文本信息中各关键词的权重，再根据第一文本信息中的多个关键词的权重和第二文本信息中的多个关键词的权重将第一文本信息与第二文本信息进行比较以得到第三文本信息。例如，在前一实施例中，相比于“附近”、“四星级”，“酒店”显然是更为明确的信息，则可以为“酒店”设置较大的权重值，而为“附近”、“四星级”设置较小的权重值，而结合第一句话，可以判断第二句中的“400”指的是价格，则将“价格400”作为关键词设置以较大的权重值，检索结果依照命中关键字的权重值排序，将使第二结果更加符合用户的需要。

比较模块570用于将第一文本信息与第二文本信息进行比较以得到第三文本信息。在具体应用中，由于用户个人的用词使用习惯，经常会出现描述中有省略的情况，例如用户先说“附近的酒店”，随后语音交互系统识别并根据“附近”、“酒店”检索，向用户显示附近的酒店信息，但用户认为结果太多，继续说“我要400左右的”，提取关键词为“400”、“左右”，“400”、“左右”可以代表的是距离，面积，价格，但结合上一次检索的关键字“附近”、“酒店”，“400”、“左右”的最适合的意义是价格，因此，识别模块会将上一次检索结果列表中的酒店进行价格上的匹配，筛选出“价格在400左右”的，再显示给用户。又或者，某用户经常旅游，下一站他要去西藏，他下载了关于西藏地区的旅游信息（酒店，景点，饮食等）。他到西藏后，第一个目的地是羊湖，他说“寻找羊湖旁的酒店”，然后在结果页面，他再说“要价格300左右，提供包车服务的酒店”，再一次缩小范围，显示出相应的酒店。满足了该用户的需求。第二次语音交互的目的在于对第一结果进行筛选或延伸以进一步确定范围，因此，第二语音信息的范围应当与第一语音信息相关联。如果第二语音信息在语义上无法与第一语音信息相关联，或者第二语音信息在场景上无法与第一语音信息相关联，则认为用户转移了话题，要进行与前一次语音交互无关的语音交互。

第二检索模块580用于根据第三文本信息并基于第一结果检索得到第二结果。检索包括本地检索和/或云端检索。另外，检索的数据来源还可以包括但不限于以下方式：

第二显示模块590用于向用户显示第二结果。在实际应用中，第二显示模块可以是显示屏等显示设备。

在本发明的一个实施例中，语音交互装置还包括：第一判断模块和第二判断模块，第一判断模块用于判断第一文本信息是有效信息或者是无效信息，第二判断模块用于判断第二文本信息是有效信息或者是无效信息。具体地，判断文本信息为有效信息或者是无效信息，可以对文本信息进行分词，根据分词后的语义进行判断。在实际应用中，用户的发音可能会不标准，比如将“我要四百左右的酒店”发音为“我要死吧左右的酒店”，分词后得到的结果是“我”、“要”、“死吧”、“左右”、“酒店”，分词结果怪异；又或者所在的环境可能还会有其他的声源，比如电视的声音，或嘈杂环境下其他人的说话声，为避免这些无效信息干扰到语音识别，需要对转换后的文本信息加以判断，判断文本信息是有效信息还是无效信息。如果是无效信息，则第一显示模块540向用户显示第一文本信息，并请求用户对第一文本信息进行确认，或者，第二显示模块590向用户显示第二文本信息，并请求用户对第二文本信息进行确认。用户可以选择确认该文本信息无效需重新输入，或者该文本信息有效，则直接以该文本信息的分词结果作为关键字进行搜索。

在本发明的一个实施例中，语音交互装置还包括：模糊匹配模块，用于在用户未对第一文本信息或第二文本信息做出确认时，对第一文本信息或第二文本信息进行模糊匹配以分别得到第一匹配文本或第二匹配文本。之后，第一检索模块530根据第一文本信息检索与第一文本信息对应的第一结果并优先显示第一结果中与第一匹配文本对应的结果；或者第二检索模块580根据第三文本信息并基于第一结果检索得到第二结果并优先显示第二结果中与第二匹配文本对应的结果。在具体的一个实施例中，例如用户说“附近酒店”，但在文本识别中被识别为“福锦酒店”，在一些情况下，系统是会认为这个是识别正确的，例如刚好也有一个酒店叫“福锦”，那么，在不进行模糊匹配的情况下，检索结果就与用户的预期出现了大的偏差。因此，为了充分考虑到这种情况，作为一种更优选的方案，可以引入LBS元素，并将这个元素作为隐藏搜索权重。结合前述实施例中的权重值设定，为“福锦酒店”设置较大的权重值，“（LBS）附近酒店”设置较小的权重值进行搜索，保证了结果的精度。

在本发明的一个实施例中，如果用户对得到的第二结果仍然不满意，则需要继续与用户进行语音交互，具体实施中可以将第二结果作为新的第一结果，重复语音输入、分词、检索等步骤，一直到用户得到满意的第二结果，则语音交互过程完成。

根据本发明实施例的语音交互装置，通过在用户语音识别的第一次识别结果上继续接受用户的语音信息，并结合前一次的识别结果对本次输入的语音加以分析，结合用户的使用习惯、外界场景等因素进行智能识别，对第一次识别结果通过本地检索或云端检索加以筛选，使识别效率更准确，并提高了用户体验。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列（PGA），现场可编程门阵列（FPGA）等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同限定。

Claims

1.一种语音交互方法，其特征在于，包括以下步骤：

接收第一语音信息；

将所述第一语音信息转换为第一文本信息，其中第一文本信息包括多个关键词；

对所述第一文本信息的多个关键词设置权重；

根据所述第一文本信息的关键词检索与所述第一文本信息对应的第一结果；

向用户显示所述第一结果；

接收第二语音信息；

将所述第二语音信息转换为第二文本信息，其中第二文本信息包括多个关键词；

对所述第二文本信息的多个关键词设置权重；

根据第一文本信息中的多个关键词的权重和第二文本信息中的多个关键词的权重将所述第一文本信息与所述第二文本信息进行比较以得到第三文本信息；

根据所述第三文本信息并基于所述第一结果检索得到第二结果；以及

向用户显示所述第二结果。

2.根据权利要求1所述的方法，其特征在于，进一步包括步骤：

判断所述第一文本信息是有效信息或者是无效信息；

如果是无效信息，则显示所述第一文本信息；以及

请求用户对所述第一文本信息进行确认；和/或

判断所述第二文本信息是有效信息或者是无效信息；

如果是无效信息，则显示所述第二文本信息；以及

请求用户对第二所述文本信息进行确认。

3.根据权利要求2所述的方法，其特征在于，进一步包括步骤：

如果没有收到确认，则对所述第一文本信息或所述第二文本信息进行模糊匹配以分别得到第一匹配文本或第二匹配文本，其中

根据所述第一文本信息检索与所述第一文本信息对应的第一结果并优先显示所述第一结果中与所述第一匹配文本对应的结果；或者根据所述第三文本信息并基于所述第一结果检索得到第二结果并优先显示所述第二结果中与所述第二匹配文本对应的结果。

4.根据权利要求1至3中任一项所述的方法，其特征在于，

将所述第一语音信息转换为第一文本信息的步骤包括：

将所述第一语音信息转换为预处理文本；以及

对所述预处理文本进行分词以得到所述第一文本信息，其中所述第一文本信息分别包括多个关键词；和/或

将所述第二语音信息转换为第二文本信息的步骤包括：

将所述第二语音信息转换为预处理文本；以及

对所述预处理文本进行分词以得到所述第二文本信息，其中所述第二文本信息分别包括多个关键词。

5.根据权利要求1至3中任一项所述的方法，其特征在于，所述第二语音信息与所述第一语音信息相关联。

6.根据权利要求1至3中任一项所述的方法，其特征在于，根据所述第一文本信息检索与所述第一文本信息对应的第一结果或者根据所述第三文本信息并基于所述第一结果检索得到第二结果的步骤中，所述检索包括本地检索和/或云端检索。

7.一种语音交互装置，其特征在于，包括：

第一语音接收模块，所述第一语音接收模块用于接收第一语音信息；

第一语音转换模块，所述第一语音转换模块用于将所述第一语音信息转换为第一文本信息，其中第一文本信息包括多个关键词；

第一检索模块，所述第一检索模块用于根据所述第一文本信息检索与所述第一文本信息对应的第一结果；

第一显示模块，所述第一显示模块用于向用户显示所述第一结果；

第二语音接收模块，所述第二语音接收模块用于接收第二语音信息；

第二语音转换模块，所述第二语音转换模块用于将所述第二语音信息转换为第二文本信息，其中第二文本信息包括多个关键词；

比较模块，所述比较模块用于根据第一文本信息中的多个关键词的权重和第二文本信息中的多个关键词的权重将所述第一文本信息与所述第二文本信息进行比较以得到第三文本信息；

第二检索模块，所述第二检索模块用于根据所述第三文本信息并基于所述第一结果检索得到第二结果；以及

第二显示模块，所述第二显示模块用于向用户显示所述第二结果。

8.根据权利要求7中所述的装置，其特征在于，还包括：

第一判断模块，所述第一判断模块用于判断所述第一文本信息是有效信息或者是无效信息，如果是无效信息，则所述第一显示模块显示所述第一文本信息并请求用户对所述第一文本信息进行确认；以及

第二判断模块，所述第二判断模块用于判断所述第二文本信息是有效信息或者是无效信息，如果是无效信息，则所述第二显示模块显示所述第二文本信息并请求用户对所述第二文本信息进行确认。

9.根据权利要求8中所述的装置，其特征在于，还包括：

模糊匹配模块，所述模糊匹配模块用于在用户未对所述第一文本信息或所述第二文本信息做出确认时，对所述第一文本信息或所述第二文本信息进行模糊匹配以分别得到第一匹配文本或第二匹配文本，其中

所述第一检索模块根据所述第一文本信息检索与所述第一文本信息对应的第一结果并且所述第一显示模块优先显示所述第一结果中与所述第一匹配文本对应的结果；或者所述第二检索模块根据所述第三文本信息并基于所述第一结果检索得到第二结果并且所述第二显示模块优先显示所述第二结果中与所述第二匹配文本对应的结果。