CN109255031B

CN109255031B - 基于知识图谱的数据处理方法

Info

Publication number: CN109255031B
Application number: CN201811117467.9A
Authority: CN
Inventors: 李可佳; 郭春雪; 郭晨阳
Original assignee: Suzhou Youjiao Xiyi Education Technology Co ltd
Current assignee: Suzhou Youjiao Xiyi Education Technology Co ltd
Priority date: 2018-09-20
Filing date: 2018-09-20
Publication date: 2022-02-11
Anticipated expiration: 2038-09-20
Also published as: CN109255031A

Abstract

本发明公开了一种基于知识图谱的数据处理方法，包括步骤：基于试题和教研知识、学校教学、教材、试题难易程度的排序构建知识图谱，得到知识库；设定搜索条件，根据搜索条件进行试题提取，其中，当搜索条件包含自然语言时、将搜索条件转化为包括知识点、搜索范围的结构化搜索指令，将所述搜索指令与所述知识图谱中的内容进行匹配，搜索出试题；对所述搜索出的试题进行相似度算法、排序算法、以及综合筛选算法，得到筛选结果；将筛选结果推送给用户。本发明通过建立试题化的知识图谱，在进行搜索时基于知识点进行搜索，简化了试题检索过程，提高了搜索试题的效率。

Description

基于知识图谱的数据处理方法

技术领域

本发明涉及信息搜索技术领域，更具体地，涉及一种基于知识图谱的数据处理方法。

背景技术

知识图谱(Knowledge Graph)又称为科学知识图谱，在图书情报界称为知识域可视化或知识领域映射地图，是显示知识发展进程与结构关系的一系列各种不同的图形，用可视化技术描述知识资源及其载体，挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。

通过将应用数学、图形学、信息可视化技术、信息科学等学科的理论与方法与计量学引文分析、共现分析等方法结合，并利用可视化的图谱形象地展示学科的核心结构、发展历史、前沿领域以及整体知识架构达到多学科融合目的的现代理论。为学科研究提供切实的、有价值的参考。

现有技术，公开了一种基于知识图谱的人物关系的搜索方法和装置，在知识图谱中匹配人物关系的属性数据，查找相应地人物关系数据对，利用所述人物关系数据对，查找与所述人物的关系属性数据对应的关系属性赋值，并将所述关系属性赋值作为搜索结果提供给所述用户。

现有技术还没有公开基于知识图谱查找试题的技术方案。

发明内容

有鉴于此，本发明提供了一种基于知识图谱的数据处理方法，包括步骤：

基于试题和教研知识、学校教学、教材、试题难易程度的排序构建知识图谱，得到知识库，其中，所述教研知识包括试题标签、学科知识点、学校等级、地区特化知识树、教材章节、以及学科能力模型；

设定搜索条件，根据搜索条件进行试题提取，其中，当搜索条件包含自然语言时、将搜索条件转化为包括知识点、搜索范围的结构化搜索指令，将所述搜索指令与所述知识图谱中的内容进行匹配，搜索出试题；

对所述搜索出的试题进行相似度算法、排序算法、以及综合筛选算法，得到筛选结果；

将筛选结果推送给用户。

优选地，所述构建知识图谱，进一步包括步骤：

模式设计：明确试题领域的基本属性、属性的适用概念、属性值的类别或者范围，其中，所述属性包括试题标签、知识点、学校标签、教材标签；

数据来源：主要包括业务数据、教研知识数据、学科知识、第三方来源数据及网络爬取的结构化数据，还包括在教材、教辅、教学文章、教育网页上的非结构化数据，其中，所述业务数据包括试题数据、学校教师及学生用户信息数据、教师组卷数据、以及学生作答记录；教研知识数据为教育领域知识数据，包括试题标签、学科知识点、学校等级、地区特化知识树、教材章节、以及学科能力模型的数据；

词汇挖掘：构建各学科的词典，挖掘与试题相关的词汇、同义词及缩略词；

实体发现：基于试题文本、学科知识文本使用长短期记忆网络LSTM结合条件随机场CRF进行实体提取建模，提取各学科试题中的实体；

关系发现：从试题文本、学科知识文本中抽取一个实体对的关系，使用DeepDive框架进行关系提取；

知识融合：基于数据来源，完成实体对齐、属性融合、值规范化，包括步骤本体对齐和实体匹配；

质量控制，通过勘误系统进行试题数据和教育领域知识提醒的补全、纠错和更新。

优选地，当数据来源为教师编辑的数据时模式设计使用自顶向下的知识建模方法；当数据为业务系统数据时模式设计使用自底向上的知识建模方法。

优选地，所述业务数据、教研知识数据、学科知识、第三方来源数据及网络爬取的数据存储于Neo4J图形数据库中，其中所述业务数据、教研知识数据进行结构化后通过D2RQ工具导入试题知识库。

优选地，所述知识融合，进一步为，包括步骤：

数据预处理：对所述业务数据、教研知识数据、学科知识、第三方来源数据及网络爬取的数据进行归一化处理，包括语法正则化和数据正则化；

记录链接：计算属性相似度、以及实体相似度，采用Canopy+K-means算法、TF-IDF、Cosine相似度算法进行计算，先根据实体的单个属性得到属性相似度，再根据实体的多个属性相似度得到实体相似度；

分块：使用Canopy聚类、排序邻居算法进行分块处理，从所述知识库中的所有实体对中，选出潜在匹配的记录对作为候选项，并将候选项的大小缩小；

复杂均衡：通过至少一次MapReduce操作，使得所有块中的实体数目相当；

结果评估：通过对比准确率、召回率和算法运行时间输出结果。

优选地，，所述设定搜索条件，根据搜索条件进行试题提取，其中，当搜索条件包含自然语言时、将搜索条件转化为包括知识点、搜索范围的结构化搜索指令，将所述搜索指令与所述知识图谱中的内容进行匹配，搜索出试题；

对所述搜索出的试题进行相似度算法、排序算法、以及综合筛选算法，得到筛选结果，进一步为，

输入题干、知识点、及解析的文本，对文本进行基于知识图谱的语义分析，基于实体、概念和属性，使用LSTM+CRF算法进行分词，识别概念、实体、属性、操作符、日期和数值结果，查询转换后在所述知识库中执行查询，该查询结果将与搜索引擎的搜索结果结合，更新结果得分并重新排序。

优选地，所述试题标签包括题干、答案、解析、学科、学段、知识点、作答准确率、难度系数、难度等级、区分度、学科思想属性、能力模型属性、来源试卷信息、以及出题时间。

与现有技术相比，本发明提供的基于知识图谱的数据处理方法，至少实现了如下的有益效果：

本发明通过建立试题化的知识图谱，在进行搜索时基于知识点进行搜索，简化了试题检索过程，提高了搜索试题的效率。

当然，实施本发明的任一产品必不特定需要同时达到以上所述的所有技术效果。

通过以下参照附图对本发明的示例性实施例的详细描述，本发明的其它特征及其优点将会变得清楚。

附图说明

被结合在说明书中并构成说明书的一部分的附图示出了本发明的实施例，并且连同其说明一起用于解释本发明的原理。

图1是实施例1中基于知识图谱的数据处理方法流程图；

图2是实施例2中构建知识图谱的流程图；

图3是实施例2中知识融合流程图

图4是实施例2中知识图谱切入搜索引擎的流程图。

具体实施方式

现在将参照附图来详细描述本发明的各种示例性实施例。应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，所述技术、方法和设备应当被视为说明书的一部分。

在这里示出和讨论的所有例子中，任何具体值应被解释为仅仅是示例性的，而不是作为限制。因此，示例性实施例的其它例子可以具有不同的值。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

实施例1：

结合图1，本实施例提供了一种基于知识图谱的数据处理方法，包括以下步骤：

步骤101：基于试题和教研结果、学校教学、教材、试题难易程度的排序构建知识图谱；

其中，所述教研知识包括试题标签、学科知识点、学校等级、地区特化知识树、教材章节、以及学科能力模型；

步骤102：设定搜索条件，根据搜索条件进行试题提取，其中，当搜索条件包含自然语言时、将搜索条件转化为包括知识点、搜索范围的结构化搜索指令，将所述搜索指令与所述知识图谱中的内容进行匹配，搜索出试题；

步骤103：对所述搜索出的试题进行相似度算法、排序算法、以及综合筛选算法，得到筛选结果；

步骤104：将筛选结果推送给用户。

实施例2：

结合图2-4，本实施例提供了一种基于知识图谱的数据处理方法，包括以下步骤：

步骤201：基于试题和教研结果、学校教学、教材、试题难易程度的排序构建知识图谱；

该构建知识图谱的过程如图2所示，包括以下步骤：

(1)模式设计：明确试题领域的基本属性、属性的适用概念、属性值的类别或者范围；

其中概念的类别及其示例或取值范围如表1所示：

表1概念的类别及其示例或取值范围

(2)数据来源：主要包括业务数据、教研知识数据、学科知识、第三方来源数据及网络爬取的数据，其中，业务端数据包括试题数据、学校教师及学生用户信息数据、教师组卷数据、以及学生作答记录；教研知识数据为教育领域知识，包括试题标签、学科知识点、学校等级、地区特化知识树、教材章节、以及学科能力模型；

试题标签主要是描述试题属性的，包括题干、答案、解析、学科、学段、知识点、作答准确率、难度系数、难度等级、区分度、学科思想属性、能力模型属性、来源试卷信息、出题时间等。

学科知识点是针对每个学科的最小粒度的知识表示，按学段、学科划分1-3级知识点，由学科教学专家评估定义并总结归纳。

学校等级是根据学校教学质量而定义的三级学校等级，由学科教学专家评估定义并总结归纳。

教材章节是根据教材章节目录架构，由学科教学专家评估定义并总结归纳。

地区特化知识树是根据各教材版本的教学内容而总结的特化知识点习题，由学科教学专家评估定义并总结归纳。

学科能力模型是根据中考、高考考纲中各学科所涉及的考查能力要求，由学科教学专家评估定义并总结归纳的能力模型。

当数据来源为教师编辑的数据时模式设计使用自顶向下的知识建模方法；当数据为业务系统数据时模式设计使用自底向上的知识建模方法。

本体的构建大体有两种方式：自顶向下和自底向上。开放域知识图谱的本体构建通常用自底向上的方法，自动地从知识图谱中抽取概念、概念层次和概念之间的关系。开放的世界太过复杂，用自顶向下的方法无法考虑周全，且随着世界变化，对应的概念还在增长。领域知识图谱多采用自顶向下的方法来构建本体,一方面，相对于开放域知识图谱，领域知识图谱涉及的概念和范围都是固定或者可控的；另一方面，对于领域知识图谱，要求其满足较高的精度。所述业务数据、教研知识数据、学科知识、第三方来源数据及网络爬取的数据存储于Neo4J图形数据库中，其中所述业务数据、教研知识数据进行结构化后通过D2RQ工具导入试题知识库。

Neo4j是一个高性能的，NOSQL图形数据库，它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎，但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。Neo4j也可以被看作是一个高性能的图引擎，该引擎具有成熟数据库的所有特性。

D2R主要包括D2R Server、D2RQ Engine以及D2RQ Mapping语言。D2R Server是一个HTTP Server，提供对RDF数据的查询访问接口；D2RQ Engine使用一个可定制的D2RQMapping文件(.ttl)将关系型数据库中的数据换成RDF格式，它并没有将关系型数据库发布成真实的RDF数据，而是使用D2RQ Mapping文件将其映射成虚拟的RDF格式。ttl文件的作用是在访问关系型数据时将RDF数据的查询语言SPARQL转换为RDB数据的查询语言SQL，并将SQL查询结果转换为RDF三元组或者SPARQL查询结果。D2RQ Mapping用来定义将关系型数据转换成RDF格式的Mapping规则。

(3)词汇挖掘：构建各学科的词典，挖掘与试题相关的词汇、同义词及缩略词；

(4)实体发现：基于试题文本、学科知识文本使用长短期记忆网络LSTM结合条件随机场CRF进行实体提取建模，提取各学科试题中的实体；

LSTM(Long Short-Term Memory)是长短期记忆网络，是一种时间递归神经网络，适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。LSTM区别于RNN的地方，主要就在于它在算法中加入了一个判断信息有用与否的“处理器”，这个处理器作用的结构被称为cell。一个cell当中被放置了三扇门，分别叫做输入门、遗忘门和输出门。一个信息进入LSTM的网络当中，可以根据规则来判断是否有用。只有符合算法认证的信息才会留下，不符的信息则通过遗忘门被遗忘。

CRF(conditional random field)条件随机场，是一种鉴别式机率模型，是随机场的一种，常用于标注或分析序列资料，如自然语言文字或是生物序列。如同马尔科夫随机场，条件随机场为无向性之图模型，图中的顶点代表随机变量，顶点间的连线代表随机变量间的相依关系，在条件随机场当中，随机变量Y的分布为条件机率，给定的观察值则为随机变量X。原则上，条件随机场的图模型布局是可以任意给定的，一般常用的布局是链结式的架构，链结式架构不论在训练(training)、推论(inference)、或是解码(decoding)上，都存在有效率的算法可供演算。条件随机场跟隐藏式马可夫模型常被一起提及，条件随机场对于输入和输出的机率分布，没有如隐藏式马可夫模型那般强烈的假设存在。

(5)关系发现：从试题文本、学科知识文本中抽取一个实体对的关系，使用DeepDive框架进行关系提取；

DeepDive是一个具有语言识别能力的信息抽取工具，可用作KBC系统(KnowledgeBase Construction)的内核，也可以理解为是一种Automatic KBC工具。DeepDive基于语法分析器构建，所以DeepDive可通过各类文本规则实现实体间关系的抽取，DeepDive面向异构、海量数据，所以其中涉及一些增量处理的机制。PaleoDeepDive是基于DeepDive的一个例子，用于推测人、地点、组织之间的关系，DeepDive的执行过程可以分为：featureextraction，probabilistic knowledge engineering，statisticalinference andlearning三部分。DeepDive的工作机制分为特征抽取、领域知识集成、监督学习、推理四步。

(6)知识融合，该步骤如图3所示：基于数据来源(针对多样的知识来源)，知识融合完成实体对齐、属性融合、值规范化，包括步骤本体对齐和实体匹配；

进一步，步骤(6)的知识融合，包括以下步骤：

(a)数据预处理：对所述业务数据、教研知识数据、学科知识、第三方来源数据及网络爬取的数据进行归一化处理，包括语法正则化和数据正则化；语法正则化和数据正则化的计算方法采用本领域常用的方法进行计算。

(b)记录链接：计算属性相似度、以及实体相似度，实体具有很多属性，首先根据实体的单个属性来计算属性相似度，然后再根据实体的多个属性相似度计算得到实体相似度，(综合单个属性相似度得到属性相似度，然后根据属性相似度向量得到实体相似度)，计算方法采用Canopy+K-means算法、TF-IDF、Cos ine相似度算法进行计算；

Canopy+K-means算法与传统的聚类算法(比如K-means)不同，Canopy聚类最大的特点是不需要事先指定k值(即clustering的个数)，因此具有很大的实际应用价值。与其他聚类算法相比，Canopy聚类虽然精度较低，但其在速度上有很大优势，因此可以使用Canopy聚类先对数据进行“粗”聚类，得到k值，以及大致的K个中心点，再使用K-means进行进一步“细”聚类。所以Canopy+K-means这种形式聚类算法聚类效果良好。

TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术。TF-IDF是一种统计方法，用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜寻引擎应用，作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外，因特网上的搜寻引擎还会使用基于连结分析的评级方法，以确定文件在搜寻结果中出现的顺序。

Cosine相似度算法，相似度度量(Similarity)，即计算个体间的相似程度，与距离度量相反，相似度度量的值越小，说明个体间相似度越小，差异越大。向量空间余弦相似度(Cosine Similarity)，余弦相似度用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小。相比距离度量，余弦相似度更加注重两个向量在方向上的差异，而非距离或长度上，公示如下：

(c)分块：使用Canopy聚类、排序邻居算法进行分块处理，从步骤201的知识库中的所有实体对中，选出潜在匹配的记录对作为候选项，并将候选项的大小缩小；

(d)复杂均衡：通过至少一次MapReduce操作，使得所有块中的实体数目相当；

MapReduce是一种编程模型，用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)"，和它们的主要思想，都是从函数式编程语言里借来的，还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下，将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数，用来把一组键值对映射成一组新的键值对，指定并发的Reduce(归约)函数，用来保证所有映射的键值对中的每一个共享相同的键组。MapReduce通过对数据集的大规模操作分发给网络上的每个节点实现可靠性；每个节点会周期性的返回它所完成的工作和最新的状态。如果一个节点保持沉默超过一个预设的时间间隔，主节点(类同Google File System中的主服务器)记录下这个节点状态为死亡，并把分配给这个节点的数据发到别的节点。每个操作使用命名文件的原子操作以确保不会发生并行线程间的冲突；当文件被改名的时候，系统可能会把他们复制到任务名以外的另一个名字上去。MapReduce提供了以下的主要功能：1)数据划分和计算任务调度：系统自动将一个作业(Job)待处理的大数据划分为很多个数据块，每个数据块对应于一个计算任务(Task)，并自动调度计算节点来处理相应的数据块。作业和任务调度功能主要负责分配和调度计算节点(Map节点或Reduce节点)，同时负责监控这些节点的执行状态，并负责Map节点执行的同步控制。2)数据/代码互定位:为了减少数据通信，一个基本原则是本地化数据处理，即一个计算节点尽可能处理其本地磁盘上所分布存储的数据，这实现了代码向数据的迁移；当无法进行这种本地化数据处理时，再寻找其他可用节点并将数据从网络上传送给该节点(数据向代码迁移)，但将尽可能从数据所在的本地机架上寻找可用节点以减少通信延迟。3)系统优化:为了减少数据通信开销，中间结果数据进入Reduce节点前会进行一定的合并处理；一个Reduce节点所处理的数据可能会来自多个Map节点，为了避免Reduce计算阶段发生数据相关性，Map节点输出的中间结果需使用一定的策略进行适当的划分处理，保证相关性数据发送到同一个Reduce节点；此外，系统还进行一些计算性能优化处理，如对最慢的计算任务采用多备份执行、选最快完成者作为结果。4)出错检测和恢复:以低端商用服务器构成的大规模MapReduce计算集群中，节点硬件(主机、磁盘、内存等)出错和软件出错是常态，因此MapReduce需要能检测并隔离出错节点，并调度分配新的节点接管出错节点的计算任务。同时，系统还将维护数据存储的可靠性，用多备份冗余存储机制提高数据存储的可靠性，并能及时检测和恢复出错的数据。

(e)结果评估：通过对比准确率、召回率和算法运行时间输出结果。

知识融合主要解决，由于多种数据来源可能会导致数据被重复导入的问题，所以使用知识融合技术将多来源中相同数据进行数据对齐、属性融合和值规范化。

(7)质量控制，通过勘误系统进行试题数据和教育领域知识提醒的补全、纠错和更新。

步骤202：设定搜索条件，根据搜索条件进行试题提取，其中，当搜索条件包含自然语言时、将搜索条件转化为包括知识点、搜索范围的结构化搜索指令，将所述搜索指令与所述知识图谱中的内容进行匹配，搜索出试题；

步骤203：对所述搜索出的试题进行相似度算法、排序算法、以及综合筛选算法，得到筛选结果；具体为如图4所示，输入题干、知识点、及解析的文本，对文本进行基于知识图谱的语义分析，基于实体、概念和属性，使用LSTM+CRF算法进行分词，识别概念、实体、属性、操作符、日期和数值结果，查询转换后在所述知识库中执行查询，该查询结果将与搜索引擎的搜索结果结合，更新结果得分并重新排序，实现知识图谱切入搜索引擎。

步骤204：将筛选结果推送给用户。

通过上述实施例可知，本发明提供的基于知识图谱的数据处理方法，至少实现了如下的有益效果：

虽然已经通过例子对本发明的一些特定实施例进行了详细说明，但是本领域的技术人员应该理解，以上例子仅是为了进行说明，而不是为了限制本发明的范围。本领域的技术人员应该理解，可在不脱离本发明的范围和精神的情况下，对以上实施例进行修改。本发明的范围由所附权利要求来限定。

Claims

1.一种基于知识图谱的数据处理方法，其特征在于，包括步骤：基于试题和教研知识、学校教学、教材、试题难易程度的排序构建知识图谱，得到知识库，其中，所述教研知识包括试题标签、学科知识点、学校等级、地区特化知识树、教材章节、以及学科能力模型；

对所述搜索出的试题进行相似度算法、排序算法、以及综合筛选算法，得到筛选结果；将筛选结果推送给用户；

其中，所述设定搜索条件，根据搜索条件进行试题提取，其中，当搜索条件包含自然语言时、将搜索条件转化为包括知识点、搜索范围的结构化搜索指令，将所述搜索指令与所述知识图谱中的内容进行匹配，搜索出试题；

2.根据权利要求1所述的基于知识图谱的数据处理方法，其特征在于，所述构建知识图谱，进一步包括步骤：

实体发现：基于试题文本、学科知识文本使用长短期记忆网络LSTM结合条件随机场CRF进行实体提取建模，提取各学科试题中的实体；关系发现：从试题文本、学科知识文本中抽取一个实体对的关系，使用DeepDive框架进行关系提取；

3.根据权利要求2所述的基于知识图谱的数据处理方法，其特征在于，当数据来源为教师编辑的数据时模式设计使用自顶向下的知识建模方法；当数据为业务系统数据时模式设计使用自底向上的知识建模方法。

4.根据权利要求2所述的基于知识图谱的数据处理方法，其特征在于，所述业务数据、教研知识数据、学科知识、第三方来源数据及网络爬取的数据存储于Neo4J图形数据库中，其中所述业务数据、教研知识数据进行结构化后通过D2RQ工具导入试题知识库。

5.根据权利要求2所述的基于知识图谱的数据处理方法，其特征在于，所述知识融合，进一步为，包括步骤：

6.根据权利要求2所述的基于知识图谱的数据处理方法，其特征在于，所述试题标签包括题干、答案、解析、学科、学段、知识点、作答准确率、难度系数、难度等级、区分度、学科思想属性、能力模型属性、来源试卷信息、以及出题时间。