CN109977370A

CN109977370A - 一种基于文档结构树的问答对自动构建方法

Info

Publication number: CN109977370A
Application number: CN201910207607.XA
Authority: CN
Inventors: 陈婧怡; 陈慧萍; 丁翰雯; 杜鹏
Original assignee: Changzhou Campus of Hohai University
Current assignee: Changzhou Campus of Hohai University
Priority date: 2019-03-19
Filing date: 2019-03-19
Publication date: 2019-07-05
Anticipated expiration: 2039-03-19
Also published as: CN109977370B

Abstract

本发明公开了一种基于文档结构树的问答对自动构建方法，包括：问答对自动生成和问答对管理；所述问答对自动生成包括文档预处理、构建文档结构树以及构建问答对；问答对管理包括任务管理、文档管理、关键词管理以及问答对操作，本发明通过分析录入文档，构造文档结构树，从文档中提取尽可能多且质量高的问答对，实现问答对自动化生成，为便捷、高效地构建和管理知识库以及海量信息分析存储提供可靠的解决方案。

Description

一种基于文档结构树的问答对自动构建方法

技术领域

本发明属于自然语言处理和知识库存储技术领域，尤其涉及一种基于文档结构树的问答对自动构建方法。

背景技术

随着新媒体的爆发式增长，用户量与服务量的激增，使得传统的呼叫中心、客服中心已经面临大量实时化的重复数据，给信息的管理和存储带来极大的挑战，因此信息处理技术的要求不断提高。信息处理的基本目的是从大量的、可能是杂乱无章的、难以理解的信息中抽取并推导出对于某些特定的人们来说是有价值、有意义的信息。信息处理是系统工程和自动控制的基本环节，处理贯穿于社会生产和社会生活的各个领域。信息处理技术的发展及其应用的广度和深度，极大地影响着人类社会发展的进程。

而目前针对文档的文本处理，大多需要人工参与，覆盖面窄。人工分析处理大量的文档，耗时耗力，所需代价较大。少数自动化处理后的结果质量较差。且目前都是将无结构化数据转化为结构化的知识图谱存储，而知识图谱的存储不够灵活、结构较复杂，使得知识查询的效率和准确度都不够高。因此迫切需要有一套自动化方案，能够根据给定的文档(如产品手册、案例文档、用户指南等)自动高质量地进行分析处理。

发明内容

针对现有技术存在的不足，本发明提供了一种基于文档结构树的问答对自动构建方法，能够从文档中提取尽可能多且质量高的问答对，实现问答对的自动生成。

本发明所要解决的技术问题是通过以下技术方案实现的：

一种基于文档结构树的问答对自动构建方法，包括：

问答对自动生成和问答对管理；

所述问答对自动生成包括文档预处理、构建文档结构树以及构建问答对；

问答对管理包括任务管理、文档管理、关键词管理以及问答对管理。

进一步的，所述文档预处理包括：采用正则表达式过滤所接收到文档中的无用信息输出文件集OUT1；

采用最长公共子序列算法去除文件集OUT1中的重复部分得到文件集OUT2；

将文件集OUT2按照设定的粒度进行分类，去除各分类文档中的公有部分，得到包含目录和正文的文件集OUT3；

采用最长公共子串算法对文件集OUT3进行分类，除去各分类文档的公有部分，得到正文集合OUT4。

进一步的，所述构建文档结构树包括：

1)分析得到正文的HTML源码，根据深度优先遍历构建HTML树；

2)调节构建好的HTML树的结构，使树的叶子节点可以直接构成问答对的答案部分生成文档结构树；

3)深度遍历文档结构树，生成问题关键词结构树。

进一步的，生成问题关键词结构树的规则如下：

a)遍历到叶子节点；

b)孩子节点中存在表示句意完整的标点；

c)孩子节点存在分支，并且符合以下判定规则：

c1)各孩子节点语义近似；

c2)各孩子子树结构相同。

进一步的，所述构建问答对包括：

1)问答对构建模块将得到的文档结构树进行深度优先遍历，将得到的每一条路径中的关键词集合作为问题备选关键词，并对叶子节点的父节点进行遍历去除父节点信息后构成答案，产生关键词组-答案集合；

2)生成问题后，在构建问答对时，如果关键词、问句、答案有任何一部分为null值，则舍弃该问答对；

3)去除重复的问句，初步得到问答对，以根节点作为关键词，如果关键词与问题不匹配，则利用分词与命名实体抽取方法生成关键词作为该问答对的关键词；

遍历过程中遇到纯问句不进入问题生成流程，直接将问句作为问题，下属节点作为答案，作为问-答对并对问句做命题实体抽取，构成关键词导出。

生成问题的方法具体为：

对于问题关键词结构树进行中文分词构建自定义词库，再通过语义模板法生成问句：由文档结构树中减去叶子节点，生成问题关键词结构树，首先判断子树节点是否包含自定义词库的关键词，若包含之或完全匹配之，则删除该词；之后，判断子树节点是否包含动词词库定语修饰词词库的关键词，分类进行句法转换，生成问句。

进一步的，所述任务管理包括任务发布、任务状态监视；文档管理包括文件上传、文件解压、文档组查询；问答对操作包括问答对的添加、删除、修改、查询操作。

本发明有益效果包括：

高度自动化：用户上传文档后，从分析提取正文到最终生成问答这一过程可以完全自动，无需人工干预。

算法普适性：采用文档结构树构建问答对，适用于一切具有一定结构特性的文档。

提取问答对准确度高：利用文档结构树提取问答对，只要文档结构树结构完善质量高，即结构完善，节点准确以及符合书面表达，理论上问答对提取的准确度可以达到100％。

易于存储：现有知识库的存储方式往往是结构化存储，不易扩展与存储。而本方法创新地提出以问答对的形式存储信息，易于扩展与存储，易于检索与查询，并且可以直接导出做FAQ(常见问题解答)。

附图说明

图1为本发明中构建问答对的流程图；

图2为本发明中正文提取流程图；

图3为本发明中问答对构建流程图。

具体实施方式

为了进一步描述本发明的技术特点和效果，以下结合附图和具体实施方式对本发明做进一步描述。

如图1-3所示，一种基于文档结构树的问答对自动构建方法，包括：

问答对自动生成和问答对管理；

所述问答对自动生成包括文档预处理、构建文档结构树以及构建问答对(CreateQA)；

问答对(QA)管理包括任务管理、文档管理、关键词管理以及问答对操作，通过后台管理人员操。其中，任务管理包括任务发布、任务状态监视；文档管理包括文件上传、文件解压、文档组查询；关键词管理包括添加主题、删除主题、查询主题；问答对操作包括问答对的添加、删除、修改、查询操作。

实践中，用户上传ZIP格式的压缩文件到问答对自动构建系统，系统对文件进行解压，并将解压后的文件路径及任务ID传输给系统中的文档预处理模块，文档预处理模块从文件中提取正文，并将得到的正文按照规则构建文档结构树，问答对构建模块遍历文档结构树，提取关键词，并构建问答对，最终存入到数据库中。

具体的，在构建问答对的过程中，首先要对文档进行预处理，即首先要从原HTML文件中提取出有效信息。原文件包含大量干扰信息，为了去除这些干扰信息，首先采用正则表达式过滤所接收到文档中的无用信息(主要为：link,css,js脚本,注释,空标签对)输出文件集OUT1；

然后，采用最长公共子序列算法去除文件集OUT1中的重复部分得到文件集OUT2；

接着，将文件集OUT2按照设定的粒度进行分类，去除各分类文档中的公有部分，得到包含目录和正文的文件集OUT3；

最后，采用最长公共子串算法对文件集OUT3进行分类，除去各分类文档的公有部分，得到正文集合OUT4。

(注：最长公共子序列(LCS)是一个在一个序列集合中(通常为两个序列)用来查找所有序列中最长子序列的问题。一个数列，如果分别是两个或多个已知数列的子序列，且是所有符合此条件序列中最长的，则称为已知序列的最长公共子序列。)

预处理完成之后开始构建文档结构树，包括

1)分析得到正文的HTML源码(OUT4)，根据深度优先遍历构建HTML树；

2)调节构建好的HTML树的结构，使树的叶子节点可以直接构成问答对的答案部分生成文档结构树；(由于对文档的开发过程中，可能会存在失误或者是不遵循显示效果的开发，所以可能会存在小部分文档结构树生成的不够精确，这部分生成的问答对需要人工复核进行过滤)

3)深度遍历文档结构树，生成问题关键词结构树。

其中，生成问题关键词结构树的规则如下：

a)遍历到叶子节点；

b)孩子节点中存在表示句意完整的标点；

c)孩子节点存在分支，并且符合以下判定规则：

c1)各孩子节点语义近似；(通过百度的短文本近似度接口进行判断)

c2)各孩子子树结构相同。

接下来在此基础上构建问答对，具体为：

2)问题生成后，在构建问答对时，如果关键词、问句、答案有任何一部分为null值，则舍弃该问答对；

4)遍历过程中遇到纯问句不进入问题生成流程，直接将问句作为问题，下属节点作为答案，作为问-答对并对问句做命题实体抽取，构成关键词导出。

生成问题的方法具体为：

对于问题关键词结构树进行中文分词构建自定义词库，再通过语义模板法生成问句：由文档结构树中减去叶子节点，生成问题关键词结构树，首先判断子树节点是否包含自定义词库ACML、BCML的关键词，若包含之或完全匹配之，则删除该词；之后，判断子树节点是否包含动词词库VL、定语修饰词词库AL的关键词，分类进行句法转换，生成问句。

所述词库ACML、BCML、VL、AL的构建，是借助Stanford CoreNLP(斯坦福大学的的一套开源分词工具)进行中文分词，再通过人工方式筛选一定阈值范围内的词作为相应词库的内容。

作为问题的问句详细生成方法如下：

S0.对于问题关键词结构树的每一个节点，借助Stanford CoreNLP进行中文分词，再通过人工方式筛选一定阈值范围内的词，构建自定义词库：A类无意义词库(ACML)、B类无意义词库(BCML)、动词词库(VL)、定语修饰词库(AL)。其中A类无意义词库包含词如：“用户指南”、“欢迎使用”、“了解”等，当节点包含这类词时需要去除该冗余部分，删除该词；B类无意义词库包含词如：“帮助中心”、“欢迎下载”等，整个节点对问句生成无任何作用，需要删除整个节点。

S1.设置有效问题关键词节点粒度为4(该值须大于2)，选择第一棵子树。

S2.剪枝，方法为：遍历该子树的每一个节点，如果该节点包含中文标点符号或A类无意义词库ACML(如“帮助中心”、“用户指南”等)，则直接删除该节点；若节点包含B类无意义词库BCML(如“用户指南”、“欢迎使用”、“了解”等)，则保留该节点并删除该词。其他情况下不做处理。

S3.裁枝，方法为：判断S2中剪枝后得到的子树深度是否大于有效问题关键词节点粒度，如果大于，则返回值null，转S8；否则继续执行S4。

S4.根据该子树深度进行分类处理：如果子树深度为1，执行S5；如果子树深度为2，执行S6；其他情况下执行S7；

S5.对当前子树进行句法分析，如果节点所含词句包含动词词库VL，则生成的问题结构Stc51为：

“怎样”+<VL>+<该节点中除去该动词的其他词句，语序不变>

否则，生成的问题结构Stc52为：

<节点1>+”是什么”

转S8；

S6.生成的问题结构Stc6为：<节点1>+”的”+<节点2>+”是什么”

转S8；

S7.判断末节点是否为定语词库AL的包含词(”正常”,”异常”)，如果是，则生成的问题结构Stc71为：

<节点1>+<节点2>+…+<节点(length-2)>+”的”+<AL>+<节点(length-1)>+”是什么”

否则，生成的问题结构Stc72为：

<节点1>+<节点2>+…+<节点(length-1)>+”的”+<节点(length)>+”是什么”

转S8；

S8.若下一棵子树不为空，则选择下一课子树，转S2；否则完成该算法并退出。

注：词汇定义如下：

A类无意义词库：A class of meaningless lexicon(ACML)

B类无意义词库：B class of meaningless lexicon(BCML)

动词词库：Verb Lexicon(VL)

定语词库：Attribute Lexicon(AL)

本发明通过分析录入文档，构造文档结构树，从文档中提取尽可能多且质量高的问答对，实现问答对自动化生成，为便捷、高效地构建和管理知识库以及海量信息分析存储提供可靠的解决方案。

上述实施例不以任何形式限定本发明，凡采取等同替换或等效变换的形式所获得的技术方案，均落在本发明的保护范围之内。

Claims

1.一种基于文档结构树的问答对自动构建方法，其特征在于，包括：

问答对自动生成和问答对管理；

问答对管理包括任务管理、文档管理、关键词管理以及问答对操作。

2.根据权利要求1所述的一种基于文档结构树的问答对自动构建方法，其特征在于：

所述文档预处理包括：采用正则表达式过滤所接收到文档中的无用信息输出文件集OUT1；

3.根据权利要求2所述的一种基于文档结构树的问答对自动构建方法，其特征在于，所述构建文档结构树包括：

1）分析得到正文的HTML源码，根据深度优先遍历构建HTML树；

2）调节构建好的HTML树的结构，使树的叶子节点可以直接构成问答对的答案部分，生成文档结构树；

3）深度遍历文档结构树，生成问题关键词结构树。

4.根据权利要求3所述的一种基于文档结构树的问答对自动构建方法，其特征在于，生成问题关键词结构树的规则如下：

a) 遍历到叶子节点；

b) 孩子节点中存在表示句意完整的标点；

c) 孩子节点存在分支，并且符合以下判定规则： c1）各孩子节点语义近似；

c2）各孩子子树结构相同。

5.根据权利要求1所述的一种基于文档结构树的问答对自动构建方法，其特征在于，各孩子节点语义近似度通过百度的短文本近似度接口判断。

6.根据权利要求3所述的一种基于文档结构树的问答对自动构建方法，其特征在于，

所述构建问答对包括：

问答对构建模块将得到的文档结构树进行深度优先遍历，将得到的每一条路径中的关键词集合作为问题备选关键词，并对叶子节点的父节点进行遍历去除父节点信息后构成答案，产生关键词组-答案集合；

生成问题后，在构建问答对时，如果关键词、问句、答案有任何一部分为null值，则舍弃该问答对；

去除重复的问句，初步得到问答对，以根节点作为关键词，如果关键词与问题不匹配，则利用分词与命名实体抽取方法生成关键词作为该问答对的关键词；

7.根据权利要求1所述的一种基于文档结构树的问答对自动构建方法，其特征在于：

所述任务管理包括任务发布、任务状态监视；文档管理包括文件上传、文件解压、文档组查询；问答对操作包括问答对的添加、删除、修改、查询操作。

8.根据权利要求6所述的一种基于文档结构树的问答对自动构建方法，其特征在于：生成问题的方法具体为：