CN112163077A

CN112163077A - 一种面向领域问答的知识图谱构建方法

Info

Publication number: CN112163077A
Application number: CN202011036897.5A
Authority: CN
Inventors: 黄翰; 陈芳宇; 李刚; 徐杨; 郝志峰
Original assignee: South China University of Technology SCUT
Current assignee: South China University of Technology SCUT
Priority date: 2020-09-28
Filing date: 2020-09-28
Publication date: 2021-01-01
Anticipated expiration: 2040-09-28

Abstract

本发明提供了一种面向领域问答的知识图谱构建方法，包括以下步骤：S1、基于专业领域收集用户对于该领域的常问问题及其答案，对问题进行分类形成问题集，并基于这些数据训练中文预训练分类模型；S2、使用步骤S1的问题集，对问题集中的每个问题进行分词和词性标注分类，相同类别构成的每一个问题分词和词性标注后得到的词语字典来构造当前分类的知识图谱，存储于图数据库中；S3、根据对于用户问题按照实际需求进行子类别划分，根据子类别的结果以及关键词语集，在图数据库中对应类别的知识图谱中使用的检索规则进行检索，得到检索标号；S4、检索相应标号，提取标号在数据库中表示的问题，将问题所对应的答案返回给用户。

Description

一种面向领域问答的知识图谱构建方法

技术领域

本发明涉及自然语言处理、知识图谱构建、专业领域问答领域，具体涉及一种面向领域问答的知识图谱构建方法。

背景技术

领域类的问答系统的主要目的与通用类问答不同，主要是为用户解答相关专业领域的专业问题，通常，专业领域涉及众多的专有词汇，常规问答方法无法理解这些专有词汇的语义关联，同时，传统的问答方法存在专有词语关联性不足，导致回答的答案不精准等问题。

因此，通过将收集到的领域内用户常问的问题和答案，通过自然语言处理处理方法进行解析，提取出问题中的关键词语，并将这些词语构成知识图谱，大大加强了关键词语的关联性，基于词语进行图谱建模也符合领域内用户问题存在的专有词语繁多的背景，从而能够更好地回答领域内的用户问题，实现更好地人机交互，提升用户体验。

自然语言处理是人工智能和语言学领域的分支学科。此领域探讨如何处理及运用自然语言，特别是如何通过计算机编程处理大量的自然语言数据。

知识图谱，本质上是一种揭示实体之间关联关系的语义网络。利用这种结构，能够很方便地追溯到专有词汇之间的关联关系。申请号201910767579.7的一种基于领域知识图谱的问答系统及其构建方法，存在语料库固定，场景固定，问答十分依赖语料库，无法解决专业领域中专业词汇较多的问题，对于这种场景下的问答支撑不到位。借此本发明提出了新的方法。

对于问答领域来说，目前国内外的研究和应用中以常规的闲聊问答、功能性问答居多，它们的特点是语句不定，且专业词汇较少。而在一些专业领域，例如生物医学、物理学等领域，存在的专业词汇是海量的，而且这种领域的问答应用，用户问的问题通常包含较多领域特有的专业词汇，闲聊、功能性问答往往无法解析上述专业词汇，从而无法很好地回答用户问题。

发明内容

本发明针对现有领域类问答的专业词语难以语义化，回答准确率低的情况，主要利用知识图谱节点与节点之间的强关联性按照需求制定的不同类别，基于问题数据集提取的词语来构造领域问答知识图谱；若有用户提出问题，利用领域问答知识图谱通过设计的特殊推理规则寻找到最佳答案并返回给用户。本发明鉴于目前一些专业领域的专有名词数量多，这种领域下的问答对专有词语的依赖性更强，通过知识图谱进行检索的专有词语间实体关联度更高，更有利于回答用户的问题以及返回推荐的相关问题，从而提高用户体验，满足领域化的智能问答需求。

本发明至少通过如下技术方案之一实现。

一种面向领域问答的知识图谱构建方法，包括以下步骤：

S1、基于专业领域收集用户对于该领域的常问问题及其答案，并由用户对上述问题进行分类形成问题集，将问题集及其答案数据存储在结构化数据库中，并基于这些数据训练中文预训练分类模型；

S2、使用步骤S1的问题集，对问题集中的每个问题进行分词和词性标注分类，将每一个问题的分词和词性标注所得到的词语按照字典序进行排序；相同类别构成的每一个问题分词和词性标注后得到的词语字典来构造当前分类的知识图谱，每个类别单独生成一个图谱，存储于图数据库中；

S3、根据对于用户问题按照实际需求进行子类别划分，根据子类别的结果以及关键词语集，在图数据库中对应类别的知识图谱中使用的检索规则进行检索，得到检索标号；

S4、根据步骤S3得到的检索标号，在结构化数据库中检索相应标号，提取标号在数据库中表示的问题，将这个问题所对应的答案返回给用户。

优选的，步骤S1的数据以三元组<问题，答案，分类>的形式存储在结构化数据库中。

优选的，收集用户对于该领域的常问问题及其答案及训练中文预训练分类模型步骤包括：

S11、收集通过人工梳理领域相关一问一答的数据形式，或者使用领域积累下来的人工客服与客户的聊天记录，再手动修改或者增添问答所面向的领域、用户的常问问题及其答案；

S12、根据问答所面向的领域，将用户的常问题根据实际项目需要而划分成若干个类别；

S13、将选择的<问题，答案>以及给其定义的分类结果保存在关系型数据库MySQL中，并给每个问题赋予一个独一无二的标号；

S14、选择谷歌提供的Bert-Base中文预训练分类模型作为中文的句子分类，将收集到的数据整理成以下格式：

问题类别

一行代表一个问题以及该问题所对应的分类类别；

S15、用随机抽样方法将问题集分割成训练集、验证集、测试集；

S16、采用训练集对Bert-Base中文预训练分类模型进行训练，并调整参数得到Bert-Base模型的Fine-Tune结果。

优选的，步骤S2构建知识图谱步骤包括：

S21、在数据库中提取相同所属类别的<标号，问题>数据，使用jieba分词工具对问题进行分词、词性标注处理；

S22、将步骤S21处理得到的词性标注结果，按照领域专有词语的词性重要程度，去掉助词类的语气词，得到关键词语集；

S23、将经过步骤S22处理得到的对用户问题进行解析得到的用户问题解析词语集，使用中文字典顺序进行排序；

S24、将由步骤S23排序后得到的词语集保存在Neo4j图数据库；

S25、构造知识图谱，将排好序的词语集按照下面所述的规则导入图数据库：词语集中的词语对应图数据库中的节点，同一个问题解析出来的词语之间存在边的关系，代表是并列关系；每一个词语节点拥有的属性是一个字典，保存的是这个词语所属问题在数据库中的标号，由于每一个词语会出现在若干个问题中，使用字典保存序号集；

S26、将每一个类别下的所有问题，按照步骤S25的规则进行处理并导入到知识图谱中；

S27、通过将属于不同分类的问题集分别进行处理，各类别在图数据库中拥有相互独立的知识图谱。

优选的，步骤S3知识图谱检索规则包括：

S31、对于步骤S24得到的按字典序排序的用户问题解析词语集M，在图数据库中找到用户问题解析词语集M所属问题类别P对应的知识图谱U；

S32、根据用户问题解析词语集M内的顺序，检索用户问题解析词语集M＝{a1,a2,…,an}，n表示在词语集M中存在n个词语，an是标号为n的最后一个词语，在对应的知识图谱中首次出现的词语节点A，其中，检索规则为若M中a1在对应的知识图谱U中没有任何节点与其对应，则选取a2、a3、…循环直到找到U中存在对应节点A；若一直没有找到，则提示找不到对应答案，并提示用户补充问题信息；

S33、由ai找到对应的知识图U中对应节点A，则由节点A为起点，两跳距离范围内寻找能够与M中ai往后的所有词语中某一个或者某若干个词语相对应的节点，如果一开始就不存在，则提取A的属性序号，退出；

S34、如果步骤S33中对应的知识图谱U存在A两跳内的节点B符合条件，则按照符合的节点对应M中的词语aj与ai的距离和节点B与节点A的跳数距离进行加权衡量，取两者权重为一的加权平均数，越小则说明优先级越高，记录节点A和节点B这两个节点，以当前词语aj为起点，继续由步骤S32的规则开始循环，并记录匹配到的节点，直到M中词语遍历完毕或者图U中以节点A为起点的路径到达终点；

S35、遍历完成，得到对应的知识图谱U中的路径集合D’＝{A,B…}，根据路径集合D’中的所有节点的属性，取其交集，若存在一个或者多个序号，则返回；若不存在，则去掉路径集合D’中最后一个节点，剩余的节点取其属性并取交集；循环直到找到一个或者多个序号。

优选的，步骤S4包括：

S41、将获取到的检索序号在MySQL数据库中进行查找，提取该序号对应的所有<问题，答案>；

S42、若由步骤S35获得的序号为一个，则直接返回该序号对应的答案给用户；

S43、若由步骤S35获得的序号为多个，则将根据多个序号提取的所有问题，经过分词和词性标注，然后去除语气词之后采用字典序进行排序，排序后得到的词语集与用户问题解析词语集M再使用基于中文语料训练的Word2Vec模型进行余弦相似性比较；

S44、选取比较结果中相似度最高的问题，返回该问题对应的答案给用户，并将该问题和答案，作为用户提问的相似性问题推荐，推送返回给用户。

优选的，所述余弦相似性比较如下：

a·b＝|a||b|cosθ

得到所有问题对应词语集与M的相似性比较结果；其中，a是词语的词向量，b是另一个词语的词向量，θ为两个词向量的余弦，求这两个词向量的余弦相似性，得到这两个词语的相似程度。

与现有的技术相比，本发明的有益效果为：

更准确地服务于对于有大量专业词汇的领域问答场景，通过设计特殊的搜索策略，更好更准确地找到知识图谱中相关关键词，然后根据关键词的相关性来更准确地寻找答案。总的来说就是对于面向拥有大量专有词汇的领域问答系统，能够提供一种更简便准确的答案搜索策略。

附图说明

图1为本实施例面向领域问答的知识图谱构建方法整体流程图；

图2为本实施例检索规则示意图。

具体实施方法

为使本发明的目的、技术方案及优点更加清楚、明确，以下结合附图并举实施例对本发明作进一步详细描述。

如图1、图2所示，一种面向领域问答的知识图谱构建方法，包括以下步骤：

第一步、首先收集所面向的领域常问问题及其答案，按照需求将这些问题答案分类，并保存在MySQL等关系型数据库中；其中，不同分类的问题数量为1:1，便于平衡模型倾向。这一步是为了获取到问题的具体标号，以及对收集问题进行一个分类；

收集的数据是以三元组的形式存储，数据形式：<问题，答案，分类>。其中分类类别是根据领域需求进行进一步划分。例如：场景是设计物理学领域的智能问答，可以划分为声学、力学等等更小化的领域类别。

第二步、使用分类好的问题，训练中文预训练模型，这一步的目的是预训练好中文分类模型，用来对用户提问的问题进行类别划分，便于寻找和检索。

下载选取谷歌提供的Bert-Base中文预训练分类模型，将收集到的数据整理成<问题，类别>形式，然后使用随机抽样方法将问题集分割成训练集、验证集、测试集，对预训练模型进行训练并调整参数，得到Bert-Base模型的Fine-Tune结果。

第三步、使用收集到的领域问题，对每个问题进行分词和词性标注，利用得到的词性标注结果，根据当前领域的词性划分标准，选择重要的专业词语所属词性，并将每一个问题的分词和词性标注所得到的词语按照字典序进行排序；相同类别构成的每一个问题分词和词性标注后得到的词语字典来构造当前分类的知识图谱，每个类别单独生成一个图谱，存储于图数据库中；这一步的目的是构造该领域的知识图谱，以用来支撑专业领域问答。

在数据库中提取相同所属类别的<标号，问题>数据，使用jieba分词工具对问题进行分词、词性标注处理；然后按照领域专有词语的词性重要程度，保留重要的词语，去掉助词等无关紧要的词语，使用中文字典序顺序进行排序，使用Neo4j图数据库进行知识图谱的保存。

将排好序的词语集按照一定规则导入图数据库：词语集中的词语对应图数据库中的节点，同一个问题解析出来的词语之间存在边的关系，代表它们是并列关系；每一个词语节点拥有的属性是一个字典，保存的是这个词语所属问题在数据库中的标号，因为每一个词语可能会出现在若干个问题中，所以使用字典保存序号集。

第四步、若有用户提出问题，使用第二步得到的分类模型对问题提出的问题进行分类，并使用检索规则到Neo4j中对应分类的知识图谱中进行检索。

对于用户问题，进行分词、词性标注等进行解析，得到词语集，将这个词语集M的所有词语都到知识图谱中进行检索，对应的检索规则为：

根据M内的顺序，检索词语集M＝{a1,a2,…,an}(n表示在词语集M中存在n个词语，an是标号为n的最后一个词语)在对应知识图谱中首次出现的词语节点A，其规则为：若M中a1在对应的知识图谱U中没有任何节点与其对应，则选取a2、a3、…循环直到找到U中存在对应节点A；若一直没有找到，则提示找不到对应答案，并提示用户补充问题信息。

由ai找到对应的知识图谱U中对应节点A，则由A为起点，两跳距离范围内寻找能够与M中ai往后的所有词语中某一个或者某几个词语相对应的节点，若一开始就不存在，则提取A的属性序号，退出。

若对应的知识图谱存在A两跳内的节点B符合条件，则按照符合的节点对应M中的词语aj与ai的距离和B与A的跳数距离进行加权衡量，取两者权重为一的加权平均数，越小则说明优先级越高，记录A和B这两个节点，以当前词语aj为起点，继续由上述规则开始循环，并记录匹配到的节点，直到M中词语遍历完毕或者对应的知识图谱U中以A为起点的路径到达终点。

遍历完成，得到对应的知识图谱U中的路径集合D’＝{A,B…}，根据D’中的所有节点的属性，取其交集，若存在一个或者多个序号，则返回；若不存在，则去掉集合D’中最后一个节点，剩余的节点取其属性并取交集；循环直到找到一个或者多个序号。

第五步、处理由前一步提取到的序号，并返回给用户具体答案。

将获取到的序号在MySQL数据库中进行查找，提取该序号对应的所有<问题，答案>，如果提取到的序号仅仅为一个，则直接返回该序号对应的答案给用户；

如果提取的序号为多个，则根据这些序号提取所有问题，并经过将根据多个序号提取的所有问题，经过分词和词性标注，然后去除语气词之后采用字典序进行排序，排序后得到的词语集与用户问题解析词语集M再使用基于中文语料训练的Word2Vec模型进行余弦相似性比较，其中余弦相似度比较公式为：

a·b＝|a||b|cosθ

得到所有问题对应词语集与M的相似性比较结果；

a是词语1的词向量，b是词语2的词向量，求这两个词向量的余弦相似性，得到这两个词语的相似程度；

得到所有问题对应词语集与M的相似度比较结果，然后选取比较结果中相似度最高的问题，返回该问题对应的答案给用户；并将其它的问题和答案，作为用户提问的相似性问题推荐，推送返回给用户；相似度过低，低于设定的一个阈值，比如低于0.5的则舍弃。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受上述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

Claims

1.一种面向领域问答的知识图谱构建方法，其特征在于，包括以下步骤：

2.根据权利要求1中所述的一种面向领域问答的知识图谱构建方法，其特征在于，步骤S1的数据以三元组<问题，答案，分类>的形式存储在结构化数据库中。

3.根据权利要求2中所述的一种面向领域问答的知识图谱构建方法，其特征在于，收集用户对于该领域的常问问题及其答案及训练中文预训练分类模型步骤包括：

问题类别

一行代表一个问题以及该问题所对应的分类类别；

4.根据权利要求3所述的一种面向领域问答的知识图谱构建方法，其特征在于，步骤S2构建知识图谱步骤包括：

S24、将由步骤S23排序后得到的词语集保存在Neo4j图数据库；

5.根据权利要求4所述的一种面向领域问答的知识图谱构建方法，其特征在于，步骤S3知识图谱检索规则包括：

6.根据权利要求5所述的一种面向领域问答的知识图谱构建方法，其特征在于，步骤S4包括：

7.根据权利要求6所述的一种面向领域问答的知识图谱构建方法，其特征在于，所述余弦相似性比较如下：

a·b＝|a||b|cosθ