CN105608199A

CN105608199A - 用于智能问答系统中的标准问的扩展方法和装置

Info

Publication number: CN105608199A
Application number: CN201510993294.7A
Authority: CN
Inventors: 曾永梅; 张磊; 朱频频
Original assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Current assignee: Shanghai Zhizhen Intelligent Network Technology Co Ltd
Priority date: 2015-12-25
Filing date: 2015-12-25
Publication date: 2016-05-25
Anticipated expiration: 2035-12-25
Also published as: CN105608199B

Abstract

本发明提供了一种用于智能问答系统中的标准问的扩展方法和装置。该智能问答系统包括标准问数据库，该扩展方法包括基于收集的日志集合从该标准问数据库中确定预定数目的标准问作为热点问题；以及扩展该些热点问题以获取扩展问。本发明由于无需对所有的标准问进行扩展，大大节省了扩展成本，提升了效率。

Description

用于智能问答系统中的标准问的扩展方法和装置

技术领域

本发明涉及人机交互技术领域，尤其涉及用于智能问答系统中的标准问的扩展方法和装置。

背景技术

人机交互是研究系统与用户之间的交互关系的科学。系统可以是各种各样的机器，也可以是计算机化的系统和软件。例如，通过人机交互可以实现各种人工智能系统，例如，智能客服系统、语音控制系统等等。人工智能语义识别是人机交互的基础，其能够对人类语言进行识别，以转换成机器能够理解的语言。

为了能够理解人类语言，人工智能语义识别系统需要一套知识库。海量异构数据通过知识学习体系整理成知识，并融入到已有的知识体系中来。不同企业会生成各自的“专属知识”；同领域企业的知识中可以总结出“领域语义库”，如图中的“电信领域语义库”；多个行业的知识还可以总结成“通用语义库和知识库”。

知识库的编辑与扩展对于人工智能语义识别系统尤其重要。

发明内容

以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述不是所有构想到的方面的详尽综览，并且既非旨在指认出所有方面的关键性或决定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

根据本发明的一方面，提供了一种用于智能问答系统中的标准问的扩展方法，该智能问答系统包括标准问数据库，该扩展方法包括：

基于收集的日志集合从该标准问数据库中确定预定数目的标准问作为热点问题；以及

扩展该些热点问题以获取扩展问。

在一实例中，该确定预定数目的标准问作为热点问题包括：

以该标准问数据库中的标准问为基础对该日志集合中的日志执行聚类分析，以使得各日志被聚集至该标准问数据库中的相应标准问；以及

将该标准问数据库中的标准问按照所聚集日志量的多少从高到底进行排序，将排序最靠前的该预定数目的标准问作为热点问题。

在一实例中，该数据库中排序最靠前的10％的标准问作为热点问题。

在一实例中，该扩展该热点问题包括：

从网络数据源采集数据；

以所采集数据为对象执行与每一热点问题的语义相似度计算以获得每一热点问题的相似问句集；以及

对每个热点问题的相似问句集执行主语修改以获得每个热点问题的扩展问。

在一实例中，该从网络数据源采集数据包括：

通过该网络数据源进行搜索爬取以采集数据。

在一实例中，还包括对通过该网络数据源爬取到的所采集数据进行整理以过滤无用数据，该语义相似度计算是以整理后的所采集数据为对象来执行的。

在一实例中，该网络数据源包括与该热点问题的所属领域相关的第三方数据库。

在一实例中，该语义相似度计算是基于文本聚类分析、LDA分析、或序列分析中的任一者或任意组合来执行的。

在一实例中，每一热点问题的相似问句集是与该热点问题的语义相似度超过预定阈值的问句的集合。

在一实例中，对该相似问句集执行主语修改是至少部分地基于人工选择来执行的。

根据本发明的另一方面，提供了一种用于智能问答系统中的标准问的扩展装置，该智能问答系统包括标准问数据库，该扩展装置包括：

判断单元，用于基于收集的日志集合从该标准问数据库中确定预定数目的标准问作为热点问题；以及

扩展单元，用于扩展该些热点问题以获取扩展问。

在一实例中，该判断单元包括：

聚类分析单元，用于以该标准问数据库中的标准问为基础对该日志集合中的日志执行聚类分析，以使得各日志被聚集至该标准问数据库中的相应标准问；以及

排序单元，用于将该标准问数据库中的标准问按照所聚集日志量的多少从高到底进行排序，将排序最靠前的该预定数目的标准问作为热点问题。

在一实例中，该扩展模块包括：

数据采集单元，从网络数据源采集数据；

语义相似度计算单元，用于以所采集数据为对象执行与每一热点问题的语义相似度计算以获得每一热点问题的相似问句集；以及

主语修改单元，用于对每个热点问题的相似问句集执行主语修改以获得每个热点问题的扩展问。

在一实例中，该数据采集单元包括：

爬取单元，用于通过该网络数据源进行搜索爬取以采集数据。

在一实例中，该装置还包括：

整理单元，用于对通过该网络数据源爬取到的所采集数据进行整理以过滤无用数据。

在一实例中，该语义相似度计算单元是基于文本聚类分析、LDA分析、或序列分析中的任一者或任意组合来执行该语义相似度计算的。

在一实例中，该主语修改单元至少部分地基于人工选择对该相似问句集执行主语修改。

与现有技术相比，本发明的有益效果包括：

由于热点问题是用户最关心的问题，因此也是智能问答系统最常被问到的问题。如有获取了这些热点标准问的扩展问，则对于提升智能问答系统的答案正确率是极有帮助的。而且，由于无需对所有的标准问进行扩展，大大节省了扩展成本，提升了效率。

附图说明

在结合以下附图阅读本公开的实施例的详细描述之后，能够更好地理解本发明的上述特征和优点。在附图中，各组件不一定是按比例绘制，并且具有类似的相关特性或特征的组件可能具有相同或相近的附图标记。

图1是示出了根据本发明的一方面的用于智能问答系统中的标准问的扩展方法的流程图；

图2是示出了根据本发明的一方面的扩展热点问题的方法的流程图；

图3是示出了根据本发明的一方面的用于智能问答系统中的标准问的扩展装置的框图；以及

图4是示出了根据本发明的一方面的扩展热点问题的装置的框图。

具体实施方式

以下结合附图和具体实施例对本发明作详细描述。注意，以下结合附图和具体实施例描述的诸方面仅是示例性的，而不应被理解为对本发明的保护范围进行任何限制。

知识库中的基本知识点最原始和最简单的形式就是平时常用的FAQ，一般的形式是“问-答”对。在本发明中，“标准问”是用来表示某个知识点的文字，主要目标是表达清晰，便于维护。例如，“彩铃的资费”就是表达清晰的标准问描述。这里的“问”不应被狭义地理解为“询问”，而应广义地来理解一“输入”，该“输入”具有对应的“输出”。例如，对于用于控制系统的语义识别而言，用户的一个指令，例如“打开收音机”也应可以被理解为是一个“问”，此时对应的“答”可以是用于执行相应控制的控制程序的调用。

用户在向机器输入时，最理想的情况是使用标准问，则机器的智能语义识别系统马上能够理解用户的意思。然而，用户往往并非使用的是标准问，而是标准问的一些变形的形式。例如，若对于收音机的电台切换的标准问形式是“换一个电台”，那么用户可能使用的命令是“切换一个电台”，机器也需要能够识别用户表达的是同一个意思。

因此，对于智能语义识别而言，知识库里需要有标准问的扩展问，该扩展问与标准问表达形式有略微差异，但是表达相同的含义。为此，需要为标准问生成尽可能多的扩展问。

问题在于，为知识库中的所有标准问生成扩展问是一个非常大的工作量。事实上，各个标准问对于用户而言，所关心的程度是不一样的。有些问题，可能是用户最常问到的，而有些问题可能是用户很少关心问到的。

因此，如果知道哪些标准问是用户关心的热点问题，并仅仅对这些热点问题进行扩展，将会大大减少工作量，同时不会明显降低智能问答系统的问答效果。

智能问答系统在使用中会产生大量的用户日志，每一条日志包括用户给出的用户问题以及针对该用户问题由智能问答系统给出的答案。在本发明中，充分利用智能问答系统的用户日志，通过对所收集的用户日志的分析，可以得知哪些问题是用户关心的热点问题，并将扩展过程局限于这些热点问题上。

另外传统上，往往依赖人工“想”的形式，想出一个标准问尽可能多的扩展问，但是非常耗费人力，而且“漏想”的概率很高。在本发明中，通过大数据分析聚合的方式，最大的利用了网络数据，快速定位到了语义扩展问的内容，将原来的“想”扩展问，改成了判定其内容准确性。

图1是示出了根据本发明的一方面的用于智能问答系统中的标准问的扩展方法100的流程图。智能问答系统可包括标准问数据库。如图1所示，扩展方法100可包括步骤102和步骤104。

在步骤102，基于收集的日志集合从标准问数据库中确定预定数目的标准问作为热点问题。

即，并不是对标准问数据库中的所有问题进行扩展，而是仅对用户关心的热点问题进行扩展。

在一实例中，该过程可包括两个子步骤。首先，以该标准问数据库中的标准问为基础对日志集合中的日志执行聚类分析，以使得各日志被聚集至标准问数据库中的相应标准问。

具体而言，将日志集合中的每一条用户日志(例如可以是该条用户日志的用户问题)与标准问数据库中的每个标准问执行一次语义相似度计算，然后，将该条用户日志聚到具有最高语义相似度的那一个标准问。日志集合中的所有用户日志都执行了语义相似度计算后，每一条用户日志都会被聚到与其具有最高语义相似度的标准问。作为结果，有的标准问聚集了较多的日志，有的标准问聚集了较少的日志，有的标准问也可能没有聚集到日志。

其次，可将标准问数据库中的标准问按照所聚集日志量从多到少进行排序，将排序最靠前的预定数目的标准问作为热点问题。

聚集日志的多少反映了该标准问的热度，聚集最多日志的标准问是最热的用户问题，聚集最少甚至没有聚集到日志的标准问是最冷僻的用户问题。例如，发明人经过创造性劳动发现，排序最靠前的10％的标准问约覆盖了90％的用户日志，因此可以将排序最靠前的10％的标准问被认为是用户关心的热点问题。

步骤104：扩展热点问题以获取相应的扩展问。

图2是示出了根据本发明的一方面的扩展热点问题的方法200的流程图。如图2所示，方法200可包括：

步骤202：从网络数据源采集数据。

例如，可通过爬取技术对网络数据源进行搜索爬取。这里的网络数据源可以是任何系统外的第三方数据源，例如百度、搜搜等。这些数据源上积累了海量数据。

较优地，可以爬取与该热点问题所属领域相关的第三方数据库。例如，若该热点问题属于医药领域，则可以爬取医院网站、药品销售网站的日志数据。这些数据与热点问题问的相关性可能更高，从而提高效率。

由于网络数据的噪声较大，可以对数据进行整理，以过滤无用的数据。

此后，在步骤204，可以执行这些数据与热点问题的语义相似度计算。此举的目的是从这些海量数据中筛选出与热点问题比较相似的那些句子。

一般地，可以采用任何合适的语义相似度计算方法，例如文本聚类分析、LDA分析、序列分析(TemplateMaker)等等。

由此，可以获得相似问句的聚合结果，即相似问句集。这里的相似问句集可包括与热点问题的相似度高于预定阈值的那些句子。该阈值可以根据需要人为调节。

较优地，可对相似问句集进行初步筛选，以剔除无用数据。

在步骤206，可对每个热点问题的相似问句集执行主语修改，以获得每个热点问题的扩展问。这里的主语是指问句里的主体内容。以“换一个扫地模式”为例，这里的“扫地模式”为该问题的主语。修改主语后，可以得到最初该热点问题的扩展问。

尽管为使解释简单化将上述方法图示并描述为一系列动作，但是应理解并领会，这些方法不受动作的次序所限，因为根据一个或多个实施例，一些动作可按不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可以理解的其他动作并发地发生。

上述一些步骤可以有人工的参与，例如响应于人工的选择进行筛选、主语修改，这可以增加精确度。当然，这些步骤也可以全自动地来执行。

以下表1示出了标准问形式的热点问题、聚合结果、最终扩展问结果的示例。

表1

图3示出了根据本发明的一方面的用于智能问答系统中的标准问的扩展装置300的框图。智能问答系统可包括标准问数据库。如图3所示，扩展装置300可包括判断单元302和扩展单元304。

判断单元302用于基于收集的日志集合从标准问数据库中确定预定数目的标准问作为热点问题。

在一实例中，判断单元302可包括两个子单元，即聚类分析单元和排序单元。首先，聚类分析单元以该标准问数据库中的标准问为基础对日志集合中的日志执行聚类分析，以使得各日志被聚集至标准问数据库中的相应标准问。

然后排序单元可将标准问数据库中的标准问按照所聚集日志量的多少从高到低进行排序，将排序最靠前的预定数目的标准问作为热点问题。

扩展单元304可扩展热点问题以获取相应的扩展问。

图4是示出了根据本发明的一方面的扩展热点问题的装置400的框图。如图4所示，装置400可包括数据采集单元402、语义相似度计算单元404、以及主语修改单元406。

数据采集单元402用于从网络数据源采集数据。

较优地，数据采集单元402可以爬取与该热点问题所属领域相关的第三方数据库。例如，若该热点问题属于医药领域，则可以爬取医院网站、药品销售网站的日志数据。这些数据与热点问题问的相关性可能更高，从而提高效率。

由于网络数据的噪声较大，装置400还可包括整理单元(未示出)以对数据进行整理，以过滤无用的数据。

语义相似度计算单元404可以执行这些数据与热点问题的语义相似度计算。此举的目的是从这些海量数据中筛选出与热点问题比较相似的那些句子。

较优地，可对相似问句集进行初步筛选，以剔除无用数据。

主语修改单元404可对每个热点问题的相似问句集执行主语修改，以获得每个热点问题的扩展问。这里的主语是指问句里的主体内容。以“换一个扫地模式”为例，这里的“扫地模式”为该问题的主语。修改主语后，可以得到最初该热点问题的扩展问。在一些实例中，主语修改可有人工参与，例如主语修改单元404可至少部分地基于用户的选择来修改主语。

在本发明中，通过利用智能问答系统产生的用户日志找出热点问题，从而仅对热点问题进行扩展，大大节省了成本。另外，通过大数据对网络数据进行自动扩展，进一步提高了扩展效率。

本领域技术人员将进一步领会，结合本文中所公开的实施例来描述的各种解说性逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或这两者的组合。为清楚地解说硬件与软件的这一可互换性，各种解说性组件、框、模块、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的功能性，但这样的实现决策不应被解读成导致脱离了本发明的范围。

软件应当被宽泛地解释成意味着指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行件、执行的线程、规程、函数等，无论其是用软件、固件、中间件、微代码、硬件描述语言、还是其它术语来述及皆是如此。

结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处理器，但在替换方案中，该处理器可以是任何常规的处理器、控制器、微控制器、或状态机。处理器还可以被实现为计算设备的组合，例如DSP与微处理器的组合、多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器执行的软件模块中、或在这两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换方案中，存储介质可以被整合到处理器。

提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的，且本文中所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此，本公开并非旨在被限定于本文中所描述的示例和设计，而是应被授予与本文中所公开的原理和新颖性特征相一致的最广范围。

Claims

1.一种用于智能问答系统中的标准问的扩展方法，所述智能问答系统包括标准问数据库，所述扩展方法包括：

基于收集的日志集合从所述标准问数据库中确定预定数目的标准问作为热点问题；以及

扩展所述热点问题以获取扩展问。

2.如权利要求1所述的扩展方法，其特征在于，所述确定预定数目的标准问作为热点问题包括：

以所述标准问数据库中的标准问为基础对所述日志集合中的日志执行聚类分析，以使得各日志被聚集至所述标准问数据库中的相应标准问；以及

将所述标准问数据库中的标准问按照所聚集日志量的多少从高到低进行排序，将排序最靠前的所述预定数目的标准问作为热点问题。

3.如权利要求2所述的扩展方法，其特征在于，所述数据库中排序最靠前的10％的标准问作为热点问题。

4.如权利要求1所述的扩展方法，其特征在于，所述扩展所述热点问题包括：

从网络数据源采集数据；

5.如权利要求4所述的扩展方法，其特征在于，所述从网络数据源采集数据包括：

通过所述网络数据源进行搜索爬取以采集数据。

6.如权利要求5所述的扩展方法，其特征在于，还包括对通过所述网络数据源爬取到的所采集数据进行整理以过滤无用数据，所述语义相似度计算是以整理后的所采集数据为对象来执行的。

7.如权利要求4所述的扩展方法，其特征在于，所述网络数据源包括与所述热点问题的所属领域相关的第三方数据库。

8.如权利要求4所述的扩展方法，其特征在于，所述语义相似度计算是基于文本聚类分析、LDA分析、或序列分析中的任一者或任意组合来执行的。

9.如权利要求4所述的扩展方法，其特征在于，每一热点问题的相似问句集是与该热点问题的语义相似度超过预定阈值的问句的集合。

10.如权利要求4所述的扩展方法，其特征在于，对所述相似问句集执行主语修改是至少部分地基于人工选择来执行的。

11.一种用于智能问答系统中的标准问的扩展装置，所述智能问答系统包括标准问数据库，所述扩展装置包括：

判断单元，用于基于收集的日志集合从所述标准问数据库中确定预定数目的标准问作为热点问题；以及

扩展单元，用于扩展所述热点问题以获取扩展问。

12.如权利要求11所述的扩展装置，其特征在于，所述判断单元包括：

聚类分析单元，用于以所述标准问数据库中的标准问为基础对所述日志集合中的日志执行聚类分析，以使得各日志被聚集至所述标准问数据库中的相应标准问；以及

排序单元，用于将所述标准问数据库中的标准问按照所聚集日志量的多少从高到低进行排序，将排序最靠前的所述预定数目的标准问作为热点问题。

13.如权利要求12所述的扩展装置，其特征在于，所述数据库中排序最靠前的10％的标准问作为热点问题。

14.如权利要求11所述的扩展装置，其特征在于，所述扩展模块包括：

数据采集单元，从网络数据源采集数据；

15.如权利要求14所述的扩展装置，其特征在于，所述数据采集单元包括：

爬取单元，用于通过所述网络数据源进行搜索爬取以采集数据。

16.如权利要求15所述的扩展装置，其特征在于，还包括：

整理单元，用于对通过所述网络数据源爬取到的所采集数据进行整理以过滤无用数据。

17.如权利要求14所述的扩展装置，其特征在于，所述网络数据源包括与所述热点问题的所属领域相关的第三方数据库。

18.如权利要求14所述的扩展装置，其特征在于，所述语义相似度计算单元是基于文本聚类分析、LDA分析、或序列分析中的任一者或任意组合来执行所述语义相似度计算的。

19.如权利要求14所述的扩展装置，其特征在于，每一热点问题的相似问句集是与该热点问题的语义相似度超过预定阈值的问句的集合。

20.如权利要求14所述的扩展装置，其特征在于，所述主语修改单元至少部分地基于人工选择对所述相似问句集执行主语修改。