CN106202288B

CN106202288B - 一种人机交互系统知识库的优化方法及系统

Info

Publication number: CN106202288B
Application number: CN201610509413.1A
Authority: CN
Inventors: 郭祥; 郭瑞; 雷宇
Original assignee: Beijing Intelligent Housekeeper Technology Co Ltd
Current assignee: Beijing Rubu Technology Co.,Ltd.
Priority date: 2016-06-30
Filing date: 2016-06-30
Publication date: 2019-10-11
Anticipated expiration: 2036-06-30
Also published as: CN106202288A

Abstract

本发明提供了一种人机交互系统知识库的优化方法及系统。该方法包括：根据用户输入的问题信息获取多个对应的候选回答信息，将各个候选回答信息与所述用户输入的问题信息组成多个第一结果问题向量；判断知识库中是否存在与用户输入的问题信息相匹配的已检验的数据信息；若存在，则将所述知识库中的与用户输入的问题信息相匹配的已检验的数据信息组成第二结果问题向量；计算各个第一结果问题向量与第二结果问题向量的相似度，若所述相似度大于第一预设阈值，则将相应的候选回答信息与所述用户输入的问题信息增加到知识库中。本发明自动对知识库中的数据进行优化，提高了知识库优化的效率，缩短了知识库优化的时间。

Description

一种人机交互系统知识库的优化方法及系统

技术领域

本发明涉及人工智能技术领域，具体涉及一种人机交互系统知识库的优化方法及系统。

背景技术

人工智能(Artificial Intelligence，AI)，是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器，该领域的研究包括机器人、语义识别、图像识别、自然语言处理和专家系统等。人工智能从诞生以来，理论和技术日益成熟，应用领域也不断扩大。人机交互(Human-ComputerInteraction,HCI)是指人与计算机之间使用某种对话语言，以一定的交互方式，为完成确定任务的人与计算机之间的信息交换过程。

在人机交互系统与用户交互、响应用户指令的过程中，需要对用户的指令进行语音识别。其中，对话交互是一个非常重要的领域，用户可以通过语音与计算机进行“一问一答”的交流，使计算机理解用户意图，完成用户的指令。现有的人机交互系统通常在接收到用户提出的问题之后，从己有的知识库中进行检索，如果检索到与用户问题相匹配的回答信息，则向用户反馈该回答信息。为了提高人机交互系统向用户提供答案的准确性和智能性，需要及时对人机交互系统的知识库进行更新优化。

现有的人机交互系统的知识库的优化方法中通常需要人工对知识库中的回答信息及对应的问题进行标注及更新，效率低且成本高，对知识库的评估和优化需要较长的时间。对于特定领域(比如医学领域)的人机交互系统的知识库的优化方法则通过特定领域的专家将该领域的回答信息及对应的问题进行更新，门槛较高。同时，用户与智能机器人进行相互关联的多次问答时，问答流程较长，对知识库对应数据的更新复杂度较高，人工优化知识库的方法较难实现。

发明内容

本发明所要解决的技术问题是：现有的人机交互系统知识库的优化方法效率低、时间长的问题。

为解决上述技术问题，本发明提出了一种人机交互系统知识库的优化方法，该人机交互系统知识库的优化方法包括：

根据用户输入的问题信息获取多个对应的候选回答信息，将各个候选回答信息与所述用户输入的问题信息组成多个第一结果问题向量；

判断知识库中是否存在与用户输入的问题信息相匹配的已检验的数据信息；

若存在，则将所述知识库中的与用户输入的问题信息相匹配的已检验的数据信息组成第二结果问题向量；

计算各个第一结果问题向量与第二结果问题向量的相似度，若所述相似度大于第一预设阈值，则将相应的候选回答信息与所述用户输入的问题信息增加到知识库中，并将该候选回答信息与所述用户输入的问题信息标记为已检验。

可选地，所述方法还包括：

若所述知识库中不存在与用户输入的问题信息相匹配的已检验的数据信息，则将所述候选回答信息发送至多个用户；

接收多个用户反馈的候选回答信息正确与否的信息；

若各个用户均反馈候选回答信息为正确，则将所述候选回答信息与用户输入的问题信息增加到知识库中，并将该候选回答信息与所述用户输入的问题信息标记为已检验。

可选地，所述方法还包括：

若存在至少一个用户反馈候选回答信息为错误，则丢弃该候选回答信息与所述用户输入的问题信息。

可选地，所述根据用户输入的问题信息获取多个对应的候选回答信息包括：

获取所述用户输入的问题信息的至少一个关键词；

根据所述关键词查找所述知识库，获取知识库中多个回答信息作为候选回答信息，所述回答信息对应的问题信息包括与所述关键词相匹配的词语。

可选地，所述回答信息对应的问题信息包括所述关键词。

可选地，所述相似度包括：Jaccard相似度、皮尔森相似度、余弦相似度。

可选地，所述计算各个第一结果问题向量与第二结果问题向量的相似度包括：

计算各个第一结果问题向量与第二结果问题向量的向量距离，若所述向量距离小于第二预设阈值，则所述相似度大于第一预设阈值；

所述向量距离包括：欧式距离、汉明距离、编辑距离。

本发明还提出了一种人机交互系统知识库的优化系统，该人机交互系统知识库的优化系统包括：

第一结果问题向量组成单元，用于根据用户输入的问题信息获取多个对应的候选回答信息，将各个候选回答信息与所述用户输入的问题信息组成多个第一结果问题向量；

判断单元，用于判断知识库中是否存在与用户输入的问题信息相匹配的数据信息；

第二结果问题向量组成单元，用于当知识库中存在与用户输入的问题信息相匹配的数据信息时，则将所述知识库中的与用户输入的问题信息相匹配的已检验的回答信息与对应的问题信息组成第二结果问题向量；

第一优化单元，用于计算各个第一结果问题向量与第二结果问题向量的相似度，若所述相似度大于第一预设阈值，则将相应的候选回答信息与所述用户输入的问题信息增加到知识库中，并将该候选回答信息与所述用户输入的问题信息标记为已检验。

可选地，该人机交互系统的知识库的优化系统还包括：

用户反馈信息接收单元，用于当所述知识库中不存在与用户输入的问题信息相匹配的已检验的数据信息时，将所述候选回答信息发送至多个用户；接收多个用户反馈的候选回答信息正确与否的信息；

第二优化单元，用于当各个用户均反馈候选回答信息为正确时，则将所述候选回答信息与用户输入的问题信息增加到知识库中，并将该候选回答信息与所述用户输入的问题信息标记为已检验。

可选地，该人机交互系统的知识库的优化系统还包括：

第三优化单元，用于当存在至少一个用户反馈候选回答信息为错误时，丢弃该候选回答信息与所述用户输入的问题信息。

可选地，所述第一结果问题向量组成单元包括：

关键词获取模块，用于获取所述用户输入的问题信息的至少一个关键词；

候选回答信息获取模块，用于根据所述关键词查找所述知识库，获取知识库中多个回答信息作为候选回答信息，所述回答信息对应的问题信息包括与所述关键词相匹配的词语。

可选地，所述回答信息对应的问题信息包括所述关键词。

可选地，所述第一优化单元进一步用于：

所述向量距离包括：欧式距离、汉明距离、编辑距离。

本发明提供的人机交互系统知识库的优化方法及系统，通过计算各个第一结果问题向量与第二结果问题向量的相似度，若所述相似度大于第一预设阈值，则将相应的候选回答信息与所述用户输入的问题信息增加到知识库中，避免了现有的人机交互系统知识库的优化方法效率低、时间长的缺陷，实现自动对知识库中的数据进行优化，提高了知识库优化的效率，缩短了知识库优化的时间。优化后的知识库能向用户准确、智能地提供答案，提升了人机交互过程中的用户体验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明一个实施例的人机交互系统知识库的优化方法的流程示意图；

图2是本发明另一个实施例的人机交互系统知识库的优化方法的流程示意图；

图3是本发明一个实施例的人机交互系统知识库的优化系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整的描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图1是本发明一个实施例的人机交互系统知识库的优化方法的流程示意图。如图1所示，该实施例的人机交互系统知识库的优化方法包括：

S11：根据用户输入的问题信息获取多个对应的候选回答信息，将各个候选回答信息与所述用户输入的问题信息组成多个第一结果问题向量；

举例来说，用户输入的问题信息为“请告诉我中国的首都是哪个城市？”，人机交互系统返回的候选回答信息包括“北京”和“上海”，则各个候选回答信息与所述用户输入的问题信息组成的多个第一结果问题向量包括：(北京，请告诉我中国的首都是哪个城市？)和(上海，请告诉我中国的首都是哪个城市？)。

S12：判断知识库中是否存在与用户输入的问题信息相匹配的已检验的数据信息；

需要说明的是，人机交互系统的知识库中存储有回答信息与对应的问题信息；其中，知识库中的回答信息与对应的问题信息可以是一对一的关系，也可以是一对多的关系。在对人机交互系统的知识库进行优化的过程中，知识库中的部分回答信息与对应的问题信息是经过检验的，另外一部分回答信息与对应的问题信息是没有经过检验的。本发明实施例需要判断知识库中是否存在于用户输入的问题信息相匹配的已检验的问题信息与对应的回答信息。

S13：若存在，则将所述知识库中的与用户输入的问题信息相匹配的数据信息组成第二结果问题向量；

举例来说，知识库中存在两条与用户输入的问题信息相匹配的数据信息；其中一条数据：回答信息为“北京”，对应的问题信息为“中国的首都是哪里”；另一条数据：回答信息为“上海”，对应的问题信息为“请告诉我中国的第一大城市是哪个城市？”。假设上述知识库中的两条信息均为已检验信息，则将所述知识库中的与用户输入的问题信息相匹配的已检验的回答信息与对应的问题信息组成第二结果问题向量包括：(北京，中国的首都是哪里)和(上海，请告诉我中国的第一大城市是哪个城市？)。

S14：计算各个第一结果问题向量与第二结果问题向量的相似度，若所述相似度大于第一预设阈值，则将相应的候选回答信息与所述用户输入的问题信息增加到知识库中，并将该候选回答信息与所述用户输入的问题信息标记为已检验；

进一步地，所述相似度包括：Jaccard相似度、皮尔森相似度、余弦相似度。需要说明的是，当第一结果问题向量与第二结果问题向量的向量距离小于第二预设阈值时，说明第一结果问题向量与第二结果问题向量是相近的，可以把候选回答信息与所述用户输入的问题信息增加到知识库中，自动丰富知识库的数据。向量距离包括：欧式距离、汉明距离、编辑距离。

举例来说，第一结果问题向量(北京，请告诉我中国的首都是哪个城市？)与第二结果问题向量(北京，中国的首都是哪里)的向量距离小于预设阈值，则更新知识库的相应数据，回答信息为“北京”，对应的结果信息为“中国的首都是哪里”和“请告诉我中国的首都是哪个城市？”。

可理解的是，优化后的知识库在接收到用户的问题信息为“中国的首都是哪里”和“请告诉我中国的首都是哪个城市？”返回的答案信息均为“北京”，用户采用多种表达方式的问题信息均可以准确获得回答信息。

本发明实施例的人机交互系统知识库的优化方法，通过计算各个第一结果问题向量与第二结果问题向量的向量距离，若所述向量距离小于预设阈值，则将相应的候选回答信息与所述用户输入的问题信息增加到知识库中，避免了现有的人机交互系统知识库的优化方法效率低、时间长的缺陷，实现自动对知识库中的数据进行优化，提高了知识库优化的效率，缩短了知识库优化的时间。优化后的知识库能向用户准确、智能地提供答案，提升了人机交互过程中的用户体验。

图2是本发明另一个实施例的人机交互系统知识库的优化方法的流程示意图。如图2所示，该实施例的人机交互系统知识库的优化方法包括：

S21：获取所述用户输入的问题信息的至少一个关键词；根据所述关键词查找所述知识库，获取知识库中多个回答信息作为候选回答信息，所述回答信息对应的问题信息包括与所述关键词相匹配的词语，将各个候选回答信息与所述用户输入的问题信息组成多个第一结果问题向量；

举例来说，用户输入的问题信息为“请告诉我中国的首都是哪个城市？”，获取问题信息中的关键词“中国”和“城市”；知识库中存在两条回答信息中对应的问题信息与所述关键词相匹配的数据信息。其中一条数据：回答信息为“北京”，对应的问题信息为“中国的首都是哪里”；另一条数据：回答信息为“上海”，对应的问题信息为“请告诉我中国的第一大城市是哪个城市？”人机交互系统返回的候选回答信息包括“北京”和“上海”，则各个候选回答信息与所述用户输入的问题信息组成的多个第一结果问题向量包括：(北京，请告诉我中国的首都是哪个城市？)和(上海，请告诉我中国的首都是哪个城市？)。

优选地，为了提高知识库优化的准确性，在获取候选回答信息时，所述回答信息对应的问题信息包括所述关键词，即与关键词完全一致。

S22：判断知识库中是否存在与用户输入的问题信息相匹配的数据信息；

S23：若存在，则将所述知识库中的与用户输入的问题信息相匹配的数据信息组成第二结果问题向量；

步骤S22和步骤S23与图1中的实施例过程相同，在此不再赘述。

S24：计算各个第一结果问题向量与第二结果问题向量的向量距离，若所述向量距离小于预设阈值，则将相应的候选回答信息与所述用户输入的问题信息增加到知识库中，并将该候选回答信息与所述用户输入的问题信息标记为已检验；

在实际应用中，在获取与第二结果问题向量是相近的第一结果问题向量时，可以计算第一结果问题向量和第二结果问题向量的余弦距离，也可以计算第一结果问题向量和第二结果问题向量的欧式距离。

S25：若所述知识库中不存在与用户输入的问题信息相匹配的已检验的数据信息，则将所述候选回答信息发送至多个用户；接收多个用户反馈的候选回答信息正确与否的信息；

需要说明的是，当知识库中与用户输入的问题信息相匹配的数据信息均未检验时，需要采用人工盲测的方式对用户输入的问题信息与对应的多个候选回答信息进行检验。

S26：若各个用户均反馈候选回答信息为正确，则将所述候选回答信息与用户输入的问题信息增加到知识库中，并将该候选回答信息与所述用户输入的问题信息标记为已检验；

举例来说，将候选回答信息“北京”发送至多个用户，若各个用户均反馈回答信息“北京”为正确的，则将回答信息为“北京”，问题信息“请告诉我中国的首都是哪个城市？”的数据增加到知识库中。

S27：若存在至少一个用户反馈候选回答信息为错误，则丢弃该候选回答信息与所述用户输入的问题信息。

举例来说，将候选回答信息“上海”发送至多个用户，若存在至少一个用户反馈回答信息“上海”为错误的，则丢弃回答信息为“上海”，问题信息为“请告诉我中国的首都是哪个城市？”的数据。

图3是本发明一个实施例的基于响应结果的人机交互系统的结构示意图。如图3所示，本发明实施例的基于响应结果的人机交互系统包括：第一结果问题向量组成单元31、判断单元32、第二结果问题向量组成单元33和第一优化单元34，具体地：

第一结果问题向量组成单元31，用于根据用户输入的问题信息获取多个对应的候选回答信息，将各个候选回答信息与所述用户输入的问题信息组成多个第一结果问题向量；

判断单元32，用于判断知识库中是否存在与用户输入的问题信息相匹配的已检验的数据信息；

第二结果问题向量组成单元33，用于当知识库中存在与用户输入的问题信息相匹配的已检验的数据信息时，则将所述知识库中的与用户输入的问题信息相匹配的已检验的回答信息与对应的问题信息组成第二结果问题向量；

第一优化单元34，用于计算各个第一结果问题向量与第二结果问题向量的向量距离，若所述向量距离小于预设阈值，则将相应的候选回答信息与所述用户输入的问题信息增加到知识库中，并将该候选回答信息与所述用户输入的问题信息标记为已检验。

本发明提供的人机交互系统知识库的优化方法及系统，第一优化单元34通过计算各个第一结果问题向量与第二结果问题向量的向量距离，若所述向量距离小于预设阈值，则将相应的候选回答信息与所述用户输入的问题信息增加到知识库中，避免了现有的人机交互系统知识库的优化方法效率低、时间长的缺陷，实现自动对知识库中的数据进行优化，提高了知识库优化的效率，缩短了知识库优化的时间。优化后的知识库能向用户准确、智能地提供答案，提升了人机交互过程中的用户体验。

在一种可选的实施方式中，该人机交互系统的知识库的优化系统还包括：

进一步地，该人机交互系统的知识库的优化系统还包括：

具体地，第一结果问题向量组成单元31包括：

优选地，所述回答信息对应的问题信息包括所述关键词。

第一优化单元34进一步用于：

所述向量距离包括：欧式距离、汉明距离、编辑距离。

本实施例的人机交互系统知识库的优化系统可以用于执行上述方法实施例，其原理和技术效果类似，此处不再赘述。

本发明提供的人机交互系统知识库的优化方法及系统，通过计算各个第一结果问题向量与第二结果问题向量的向量距离，若所述向量距离小于预设阈值，则将相应的候选回答信息与所述用户输入的问题信息增加到知识库中，避免了现有的人机交互系统知识库的优化方法效率低、时间长的缺陷，实现自动对知识库中的数据进行优化，提高了知识库优化的效率，缩短了知识库优化的时间。优化后的知识库能向用户准确、智能地提供答案，提升了人机交互过程中的用户体验。

需要说明的是术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本发明的说明书中，说明了大量具体细节。然而能够理解的是，本发明的实施例可以在没有这些具体细节的情况下实践。在一些实例中，并未详细示出公知的方法、结构和技术，以便不模糊对本说明书的理解。类似地，应当理解，为了精简本发明公开并帮助理解各个发明方面中的一个或多个，在上面对本发明的示例性实施例的描述中，本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而，并不应将该公开的方法解释呈反映如下意图：即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说，如权利要求书所反映的那样，发明方面在于少于前面公开的单个实施例的所有特征。因此，遵循具体实施方式的权利要求书由此明确地并入该具体实施方式，其中每个权利要求本身都作为本发明的单独实施例。

以上实施例仅用于说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种人机交互系统知识库的优化方法，其特征在于，包括：

计算各个第一结果问题向量与第二结果问题向量的相似度，若所述相似度大于第一预设阈值，则将相应的候选回答信息与所述用户输入的问题信息增加到知识库中，并将该候选回答信息与所述用户输入的问题信息标记为已检验；

所述方法还包括：

接收多个用户反馈的候选回答信息正确与否的信息；

2.根据权利要求1所述的人机交互系统知识库的优化方法，其特征在于，所述方法还包括：

3.根据权利要求1所述的人机交互系统知识库的优化方法，其特征在于，所述根据用户输入的问题信息获取多个对应的候选回答信息包括：

获取所述用户输入的问题信息的至少一个关键词；

4.根据权利要求3所述的人机交互系统知识库的优化方法，其特征在于，所述回答信息对应的问题信息包括所述关键词。

5.根据权利要求1所述的人机交互系统知识库的优化方法，其特征在于，所述相似度包括：Jaccard相似度、皮尔森相似度、余弦相似度。

6.根据权利要求1所述的人机交互系统知识库的优化方法，其特征在于，所述计算各个第一结果问题向量与第二结果问题向量的相似度包括：

所述向量距离包括：欧式距离、汉明距离、编辑距离。

7.一种人机交互系统知识库的优化系统，其特征在于，包括：

判断单元，用于判断知识库中是否存在与用户输入的问题信息相匹配的已检验的数据信息；

第一优化单元，用于计算各个第一结果问题向量与第二结果问题向量的相似度，若所述相似度大于第一预设阈值，则将相应的候选回答信息与所述用户输入的问题信息增加到知识库中，并将该候选回答信息与所述用户输入的问题信息标记为已检验；

8.根据权利要求7所述的人机交互系统知识库的优化系统，其特征在于，还包括：

9.根据权利要求7所述的人机交互系统知识库的优化系统，其特征在于，所述第一结果问题向量组成单元包括：

10.根据权利要求9所述的人机交互系统知识库的优化系统，其特征在于，所述回答信息对应的问题信息包括所述关键词。

11.根据权利要求7所述的人机交互系统知识库的优化系统，其特征在于，所述相似度包括：Jaccard相似度、皮尔森相似度、余弦相似度。

12.根据权利要求7所述的人机交互系统知识库的优化系统，其特征在于，所述第一优化单元进一步用于：

所述向量距离包括：欧式距离、汉明距离、编辑距离。