CN105528437A

CN105528437A - 一种基于结构化文本知识提取的问答系统构建方法

Info

Publication number: CN105528437A
Application number: CN201510960519.9A
Authority: CN
Inventors: 李石坚; 朱余旭; 石龙翔; 陶海; 潘纲
Original assignee: Zhejiang University ZJU
Current assignee: Zhejiang University ZJU
Priority date: 2015-12-17
Filing date: 2015-12-17
Publication date: 2016-04-27
Anticipated expiration: 2035-12-17
Also published as: CN105528437B

Abstract

本发明公开了一种基于结构化文本知识提取的问答系统构建方法，该方法需要基于知识库、分词方法、决策树方法进行实现。知识库分为四部分，一是词库以及相应本体，基于本体方法，将词库中名词与相应本体关联；二是以文本主题本体为索引的结构化文本；三是文本主题本体和关键词本体关联的网状知识模型；四是基于决策树方法构建的决策树模型。决策树模型以网状知识模型的关键词本体数据为特征，以网状知识模型的文本主题本体为结果，将关键词本体和文本主题本体相关联，在问答系统中用于决策支持。本发明可适用于多种不同领域，针对各个领域的问题进行解答，且系统构建方法比较简便易于实现。

Description

一种基于结构化文本知识提取的问答系统构建方法

技术领域

本发明属于计算机自然语言处理技术领域，具体涉及一种基于结构化文本知识提取的问答系统构建方法。

背景技术

随着计算机技术的快速发展，基于自然语言处理的问答系统领域也得到了长足的发展。目前，问答系统领域主要涵盖了医疗、教育、旅游等方面，并在各个方面都有不错的表现。但现今的问答系统主要还是针对于某个方面而存在例如医疗，或者是基于资源描述框架而现实，但工程繁琐。

问答系统是信息检索系统的一种高级形式，它被用于准确地回答用户用自然语言提出的问题。随着人们对快速、准确地获取信息的需求日益升温，基于搜索引擎的百度、谷歌等搜索应用已经无法完全满足人们的这种需求，这些应用只能给出一些涵盖关键词的信息，并且量很多，而这些并不是人们心中所期望的答案。为了满足快速、准确地获取信息的需求，伴随人工智能和自然语言处理领域快速地发展，问答系统成为了其中一个备受关注的研究方向。

目前，最为著名的问答系统要属IBM的Watson，其采用DeepQA技术读取百万页文本数据，利用深度自然语言处理技术产生候选答案，其中还涉及了“嵌套分解”等诸多算法，相当的复杂；同时，与Watson所采用的技术相对应的硬件也是极其昂贵和高端，其主要由90台IBM服务器、360个计算机芯片驱动组成，拥有15TB内存以及2880个处理器。总体来说，难以让人快速并简单地构建这样一个问答系统。除了Watson，目前相当多的问答系统都只是专业领域问答系统，只提供该领域范围内的知识问答，例如公开号为CN101436206A的中国专利公开了一种基于本体推理的旅游问答系统答案抽取方法，其首先定义领域中的语义规则，进行人工本体知识库的构建，并对用户问句进行分析；然后将基于语义规则推理与信息检索相结合进行答案抽取，而不是简单地进行匹配；最后再根据不同的问句类型设计相应的答案抽取算法。该方法将本体的思想引入问答系统知识库的构建，把旅游领域的概念、属性和关系用OWL本体描述语言清晰明确地表示出来，更加有效地组织知识；但是该方法只提供了旅游本体知识库，只能够回答旅游范围内的知识问答，同时本体知识库构建过程较为复杂。可以说，至今还未出现一个通用并简便的问答系统构建方法。

发明内容

针对现有技术所存在的上述技术问题，本发明提供了一种基于结构化文本知识提取的问答系统构建方法，可适用于多种不同领域，针对各个领域的问题进行解答，且系统构建方法比较简便易于实现。

一种基于结构化文本知识提取的问答系统构建方法，包括如下步骤：

(1)对于任一领域，收集关于该领域的所有名词组成词库，同时收集该领域范围内的所有文本主题及其对应的结构化文本；

(2)将词库里的所有名词进行同义词归类，将所有具有相同含义的名词映射为一个本体；

(3)对文本主题的结构化文本进行分词，每个文本主题的结构化文本通过分词均对应得到若干个关键词，进而确定每个关键词和每个文本主题各自对应的本体；

(4)基于结构化文本关键词与文本主题的关联性，建立一个涵盖所有结构化文本关键词本体与文本主题本体关联的网状知识模型；

(5)基于上述网状知识模型，以关键词本体为特征，以文本主题本体为结果，根据所有结构化文本的关键词本体和文本主题本体构建该领域的决策树模型；

(6)对用户关于该领域所输入的问句进行分词，得到若干个关键词；将该问句各关键词所对应的本体输入至该领域的决策树模型中，得到相关的文本主题本体及其结构化文本作为输出呈现给用户。

所述的步骤(1)中通过互联网收集关于该领域的所有名词组成词库，同时收集该领域范围内的所有文本主题及其对应的结构化文本。

每个文本主题均对应一组结构化文本。

所述的词库、所有文本主题及其对应的结构化文本、网状知识模型以及决策树模型均存储于知识库中。

所述的步骤(2)中通过人工将词库里的所有名词进行同义词归类整合。

所述的步骤(3)中基于词库采用正向减字最大匹配法结合逆向减字最大匹配法对文本主题的结构化文本进行分词。

所述的网状知识模型以表格形式存储，表格以各文本主题本体对应每行，各关键词本体对应每列，第i行第j列的数值为0或1，0表示第i行所对应的文本主题本体与第j列所对应的关键词本体无关，1表示第i行所对应的文本主题本体与第j列所对应的关键词本体相关，i为行序号，j为列序号。

所述的步骤(5)中基于网状知识模型，将所有结构化文本的关键词本体和文本主题本体作为数据集通过决策树算法进行训练，得到一个以关键词本体为分支，文本主题本体为叶节点的树形模型即决策树模型。

对于新增的文本主题及其结构化文本，通过步骤(3)进行分词，将新增结构化文本的关键词本体以及文本主题本体纳入网状知识模型中，进而丰富决策树模型的知识内容。

所述的步骤(6)中基于词库采用正向减字最大匹配法结合逆向减字最大匹配法对用户关于该领域所输入的问句进行分词。

所述的步骤(6)中将问句各关键词所对应的本体输入至该领域的决策树模型中，通过关键词本体进行分支搜索，直到获取相关的文本主题本体，最后基于知识库获取对应的结构化文本呈现给用户。

本发明提供了一种通用并简便的问答系统构建方法，可适用于多种不同领域，针对各个领域的问题进行解答；本发明中提及的结构化文本以及词库易于收集；本发明虽然需要人工将同义词映射为本体，但能够自动化构建网状知识模型以建立文本主题本体和关键词本体之间的关联，同时该模型基于新增的结构化文本能够自动化地丰富知识内容，相对于人工构建本体知识库或人工整理语义网数据而言，构建更为简便，本体之间的关联更为直接；本发明所使用的决策树方法相对于语义网或本体知识库，在检索上更为直观，容易理解，有益于使用。

附图说明

图1为本发明问答系统的框架示意图。

图2为本发明问答系统构建方法的步骤流程示意图。

图3为本发明基于旅游案例的网状知识模型示意图。

图4为本发明基于旅游案例的决策树模型示意图。

具体实施方式

为了更为具体地描述本发明，下面结合附图及具体实施方式对本发明的技术方案进行详细说明。

图1为本发明基于问答系统构建流程所对应的问答系统框架图。图中主要包含了知识库模块、分词模块、决策树模块以及一些相关的交互。知识库模块对应于知识库，和分词模块相关联，为分词模块的分词提供词库，并与决策树模块相关，提供决策树构建所需的网状知识模型，存储决策树以及提供文本内容；分词模块对应于分词方法，与知识库模块相关联，基于知识库模块中的词库进行分词操作，并为丰富知识库中的网状知识模型提供本体数据，与决策树模块相关，为决策树搜索提供关键词本体；决策树模块对应于决策树方法，与分词模块相关联，基于分词模块提供的本体数据进行决策树搜索，并与知识库相关联，基于网状知识模型构建决策树，基于存储在知识库中的决策树模型，通过关键词本体数据进行分支搜索，直到获取相关文本主题本体，最后基于知识库获取对应文本内容。

图2为本发明问答系统构建方法的流程图，该方法首先针对某一领域的结构化文本数据，采用分词方法提取与文本主题相关的关键词，然后，基于知识库中的词库与本体的映射关系，根据上述关键字以及文本主题，获取关键词本体数据和文本主题本体，并将其添加至文本主题本体和关键词本体关联的网状知识模型中，同时将结构化文本数据以文本主题本体为索引存入知识库中；之后，基于网状知识模型，以模型中的关键词本体数据为特征，以模型中的文本主题本体为结果，采用决策树算法，构建在问答系统中用于决策支持的决策树，并将其存入知识库中。当用户进行查询时，首先将用户输入语句进行分词，提取查询关键词；然后，基于知识库中的词库，将查询关键词与相应本体进行关联，从而获取查询关键词本体；最后，基于这些关键词本体，通过上述构建的决策树，可搜索至相关文本主题本体，同时可基于文本主题本体和知识库获取对应结构化文本数据。

接下来，本实施方式将以在旅游领域的应用为案例对本发明问答系统构建方法的流程进行详细说明，具体步骤包括：

(1)结构化文本的构建。基于旅游领域，此处以西湖为一文本案例，将文本命名为西湖，即西湖就为该文本的主题，同时在文本中填充有关于西湖描述的内容，包含地域，最佳旅游时节等信息。

(2)知识库中的词库与相应本体的构建。基于旅游领域，此处词库主要以旅游领域的名词为主，例如，临安、武林、杭州、杭州市、苏州、北京等地域名，春季、夏季、秋季等季节名。对于本体构建而言，实则为将同义词合并为一词，例如本体为杭州，对应词库中的词为临安、武林、杭州、杭州市。对应于图1中知识库模块的同义词与本体的映射词库和图2中知识库的词库。

(3)对结构化文本进行分词。基于知识库中的词库提取文中的描述或属性名词。基于旅游领域，此处以西湖为一文本案例，文本内容为“位于浙江省杭州市西面，湖泊面积为……”。对文本内容先采用正向减字最大匹配法，首先以标点符号为分割符，将文本分割，之后一句一句分别处理。第一句为“位于浙江省杭州市西面”，和词库中的词进行匹配，因为此处没有匹配的词，于是右边省去一个字得“位于浙江省杭州市西”，紧接着再进行匹配，不匹配则右边再省去一个字，这样一直循环进行，此处最后只剩一个“位”字，由于不匹配，舍去后得下一步需要匹配的内容为“于浙江省杭州市西面”，基于上述方法，接着舍去“于”得“浙江省杭州市西面”，最后匹配成功的词为“浙江省”、“杭州市”两词，紧接着使用逆向减字最大匹配法，与正向减字最大匹配法类似，不再叙述，针对之后的句子也同样处理。对应于图2中结构化文本被基于词库的分词算法分词的过程。

(4)基于词库与本体的映射关系，根据文本主题以及上述获取的关键词获取文本主题本体和关键词本体，将其添加至文本主题本体和关键词本体关联的网状知识模型中，同时以文本主题本体为索引，将文本所有内容存储至知识库中。基于旅游领域，此处以西湖为一文本案例，“西湖”的本体为“西湖”，上述举例的提取出的关键词为“浙江省”和“杭州市”，它们的本体分别为“浙江”和“杭州”，将“西湖”、“浙江”和“杭州”添加至网状知识模型中(对应于图2中主题本体和关键词本体进入知识库中网状知识模型的过程)，同时以“西湖”作为索引，将文本内容进行存储(对应于图1中知识库模块的以文本主题本体为索引的结构化文本和图2中知识库的带索引的结构化文本)。

(5)基于网状知识模型，构建决策树。基于旅游领域，上述以西湖为一文本案例，可获取文本主题本体为“西湖”，关键词本体集合为“浙江”、“杭州”、“春天”等。同样的，针对以鼓浪屿为例，可获取文本主题本体为“鼓浪屿”，关键词本体集合为“福建”、“厦门”、“春天”等，针对西溪湿地，也可获取文本主题本体为“西溪湿地”，关键词本体集合为“浙江”、“杭州”、“春天”等。基于这些数据所形成的网状知识模型(如图3所示)，以模型中的文本主题本体为结果，模型中的关键词本体集合为特征，进行决策树的构建，可能的决策树结果如图4所示，具体步骤如下：

5.1计算当前基本数据集的熵值；

5.2根据不同特征(本体)分类，分别计算所对应数据集的熵值；

5.3通过比较当前基本数据集和这些分类间的熵值差，选取最大的最为分类特征(熵值差越大，类别区分越明显)；

5.4删除特征集中对应特征，同时根据该特征对应的不同值获取剩余数据集；

5.5基于剩余数据集和剩余特征集重复操作a至d，直至构建完成。

熵值的计算公式如下：

Entropy (S) = Σ_{i = 1}^{c} - p_{i} lo g_{2} p_{i}

其中，S为数据集，p_i为不同文本主题出现的频率，c为本体的种类。

信息增益的计算公式如下(即基本数据集和各特征分类间的熵值差)：

Gain (S, A) = Entropy (S) - \underset{v &Element; V (A)}{Σ} \frac{| S_{v} |}{| S |} Entropy (S_{v})

其中，S_v是S中属性A的值为v的子集，第一项就是原集合S的熵，第二项是用A分类S后的熵的期望值。

(6)将用户输入语句进行分词，基于知识库中的词库提取描述或属性名词并转化为本体名词。基于旅游领域，用户输入“临安春季去哪玩”，对用户输入内容先采用正向减字最大匹配法，首先以标点符号为分割符，将文本分割，之后一句一句分别处理。这里只有一句“临安春季去哪玩”，和词库中的词进行匹配，因为此处没有匹配的词，于是右边省去一个字得“临安春季去哪”，紧接着再进行匹配，不匹配则右边再省去一个字，这样一直循环进行，此处最后当剩下“临安”两字时，根据词库匹配成功，获取“临安”，同时舍去“临安”，对“春季去哪玩”进行分词，按照上述步骤，最后匹配成功的词为“临安”、“春季”两词，紧接着使用逆向减字最大匹配法，与正向减字最大匹配法类似，不再叙述，最后将这两词和词库中的本体对应，获取“杭州”和“春天”两本体名词，针对之后的句子也同样处理。对应于图2中用户输入内容被基于词库的分词算法分词以及提取本体的过程。

(7)根据所构建的决策树搜索相关景点，并基于知识库给出景点描述。以上述的“杭州”、“春天”为例，结合图4，可以搜索到西湖、西溪湿地等，选择其中一个即可查看相应详细的景点描述。

上述的对实施例的描述是为便于本技术领域的普通技术人员能理解和应用本发明。熟悉本领域技术的人员显然可以容易地对上述实施例做出各种修改，并把在此说明的一般原理应用到其他实施例中而不必经过创造性的劳动。因此，本发明不限于上述实施例，本领域技术人员根据本发明的揭示，对于本发明做出的改进和修改都应该在本发明的保护范围之内。

Claims

1.一种基于结构化文本知识提取的问答系统构建方法，包括如下步骤：

2.根据权利要求1所述的问答系统构建方法，其特征在于：所述的步骤(1)中通过互联网收集关于该领域的所有名词组成词库，同时收集该领域范围内的所有文本主题及其对应的结构化文本。

3.根据权利要求1所述的问答系统构建方法，其特征在于：每个文本主题均对应一组结构化文本。

4.根据权利要求1所述的问答系统构建方法，其特征在于：所述的词库、所有文本主题及其对应的结构化文本、网状知识模型以及决策树模型均存储于知识库中。

5.根据权利要求1所述的问答系统构建方法，其特征在于：所述的步骤(2)中通过人工将词库里的所有名词进行同义词归类整合。

6.根据权利要求1所述的问答系统构建方法，其特征在于：所述的步骤(3)中基于词库采用正向减字最大匹配法结合逆向减字最大匹配法对文本主题的结构化文本进行分词。

7.根据权利要求4所述的问答系统构建方法，其特征在于：所述的网状知识模型以表格形式存储，表格以各文本主题本体对应每行，各关键词本体对应每列，第i行第j列的数值为0或1，0表示第i行所对应的文本主题本体与第j列所对应的关键词本体无关，1表示第i行所对应的文本主题本体与第j列所对应的关键词本体相关，i为行序号，j为列序号。

8.根据权利要求1所述的问答系统构建方法，其特征在于：所述的步骤(5)中基于网状知识模型，将所有结构化文本的关键词本体和文本主题本体作为数据集通过决策树算法进行训练，得到一个以关键词本体为分支，文本主题本体为叶节点的树形模型即决策树模型。

9.根据权利要求1所述的问答系统构建方法，其特征在于：对于新增的文本主题及其结构化文本，通过步骤(3)进行分词，将新增结构化文本的关键词本体以及文本主题本体纳入网状知识模型中，进而丰富决策树模型的知识内容。

10.根据权利要求8所述的问答系统构建方法，其特征在于：所述的步骤(6)中将问句各关键词所对应的本体输入至该领域的决策树模型中，通过关键词本体进行分支搜索，直到获取相关的文本主题本体，最后基于知识库获取对应的结构化文本呈现给用户。