CN115203429B

CN115203429B - 一种用于构建审计领域本体框架的知识图谱自动扩充方法

Info

Publication number: CN115203429B
Application number: CN202210736335.4A
Authority: CN
Inventors: 黄佳佳; 李鹏伟; 徐超
Original assignee: NANJING AUDIT UNIVERSITY
Current assignee: NANJING AUDIT UNIVERSITY
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2023-07-25
Anticipated expiration: 2042-06-27
Also published as: CN115203429A

Abstract

本发明公开了一种用于构建审计领域本体框架的知识图谱自动扩充方法，包括以下步骤，首先收集审计领域相关文本作为原始语料，接着对审计语料进行文本清洗、分词和命名实体识别，并抽取出其中的审计领域概念实体，随后利用处理后的审计语料训练审计领域词向量模型；本发明通过概念实体之间的语义相似度自动寻找候选概念实体的最相似概念，再通过构建本体概念的树结构方式计算候选概念与匹配概念的兄弟概念及子概念之间的语义相似度，从而判断出候选概念与匹配概念是上下位关系还是并列关系，有效的实现了在本体构建过程中以较小人工代价即可获得大规模高质量本体结构，满足目前信息化时代的审计全覆盖式需要，适合被广泛推广和使用。

Description

一种用于构建审计领域本体框架的知识图谱自动扩充方法

技术领域

本发明涉及知识图谱技术领域，具体涉及一种用于构建审计领域本体框架的知识图谱自动扩充方法。

背景技术

随着信息技术不断发展，由审计对象带来的审计数据体量呈现爆炸式增长，现有的审计分析方法和审计数据知识结构已经不能满足“审计全覆盖”的需要。从人工智能领域来说，获得更多的数据不是利用大数据的主要价值所在，发掘数据中知识以及知识之间的关系网络，并且解决在这个过程中发现的实际问题才是真正高效利用大数据。知识图谱是以人们对客观事物的认识来组织和构建知识的，即以“实体-关系-实体”形式构建三元组知识对象。通常情况下可将知识图谱划分成通用知识图谱和领域知识图谱。通用知识图谱是一种对客观事物的描绘和相互关联的表达，如Google的FreeBase等，一般可使用大规模维基百科或百度百科的inforbox结构化数据自动构建。而垂直领域知识图谱是指对特定领域内的知识表示，如医疗、电商、生物、法律等。垂直领域知识专业性更强、知识层次结构更加复杂、知识准确率和覆盖率要求更高。同时由于领域语料难以获得，领域本体构建需要大量专业人士参与，使得领域知识图谱构建更加耗时耗力。

在领域知识图谱构建中本体构建是其中关键步骤，是知识库的基本模板；而本体是以形式化方式对领域概念及其关系的明确定义，一般是以数状结构组织，关系主要包括“IsA”，即上下位关系；传统的领域本体框架往往使用人工编辑的方式手工构建，该方式有2点局限性：(1)需要较多领域专家长时间参与；(2)需要领域人士手工确认概念及其上下位关系，当领域概念较多，难以理清各类概念之间的上下位关系，且在构建过程中不停挖掘出新概念实体时需要领域专家及时参与，工作量较大；因此，需要设计一种用于构建审计领域本体框架的知识图谱自动扩充方法。

发明内容

本发明的目的是克服现有技术的不足，为更好的解决传统领域本体框架往往使用人工编辑的方式手工构建局限性，提供了一种用于构建审计领域本体框架的知识图谱自动扩充方法，其具有在本体构建过程中以较小人工代价即可获得大规模高质量本体结构，满足目前信息化时代的审计全覆盖式需要的优点。

为了达到上述目的，本发明所采用的技术方案是：

一种用于构建审计领域本体框架的知识图谱自动扩充方法，包括以下步骤，

步骤(A)，收集审计领域相关文本作为审计语料，审计领域相关文本包括审计百度百科词条、审计图书教材、审计署官网和审计法律法规制度；

步骤(B)，对审计语料进行文本清洗、分词和命名实体识别，并抽取出其中的审计领域概念实体；

步骤(C)，利用步骤(B)中处理后的审计语料训练审计领域词向量模型；

步骤(D)，利用步骤(B)中取得的审计领域概念实体构建审计领域本体结构框架，并为每个概念标注种子概念实体；

步骤(E)，基于审计领域词向量模型和初始本体树结构，构建自动扩充算法自动扩充本体结构，形成最终的审计领域本体框架。

优选的，步骤(A)中具体收集审计领域相关文本作为审计语料过程中采用网络爬虫方式收集语料，针对审计署网站数据设计爬虫程序自动收集网页信息并格式化存储，而针对审计百科词条获取网页语料具体步骤如下，

步骤(A1)，构建一个领域核心种子词汇；

步骤(A2)，通过网络爬虫的方式抓取这些词汇的百科网页，并将这些网页中出现的超链接词汇增添到种子词汇集，再往复上述抓取过程；

步骤(A3)，经过若干轮爬虫，即可获得候选审计领域专业词汇及其百科网页文本。

优选的，步骤(B)中具体审计领域概念实体获取步骤如下，

步骤(B1)，从百科词条及其超链接词条中直接获得候选概念词汇；

步骤(B2)，对候选概念词汇进行人工标注，并标注为领域概念和其他词汇中的一种；

步骤(B3)，通过分词和命名实体识别这两个自然语言处理技术从获取的原始语料中获得各类名词，并计算这些实体词汇与候选概念词汇之间的语义相似度，将相似度较高词汇作为候选词汇；

步骤(B4)，对候选词汇进行人工标注，并将候选词汇标注为领域概念和其他词汇中的一种，这样就获得了全部的领域概念集合C。

优选的，步骤(C)具体是将步骤(B)中抽取的所有审计领域概念实体作为自定义词典，再利用自定义词典对步骤(A)中获取的审计预料进行分词和停用词剔除，并生成加工语料，再使用Glove词向量模型训练该加工语料，这样就获得了审计领域词汇的词向量。

优选的，步骤(D)具体是基于给定的审计领域关系集合R构建领域本体层次结构，并为每个关系类别中注入5个领域概念实体，且这5个领域概念实体可以来自领域概念集合C或自行命名，最终形成一个初始本体树结构O_audit＝<C₀,A₀,R₀,X₀,I₀>，其中C₀表示已构建的本体概念实体类，用于表达审计知识框架中的分类概念；A₀表示所有概念实体的属性集，表示概念本身的特征；R₀表示语义关系，用于描述本体概念之间的分类关系，在本体构建中即为IsA关系；X₀表示公理集，公理用于定义概念、语义描述和语义关系之间的语义约束；I₀表示实例数据集，用于描述本体概念的实例。

优选的，步骤(E)具体步骤如下，

步骤(E1)，针对每个候选概念词汇c_j∈C'，计算c_j与本体树中各已有概念结点c_i∈C₀之间的语义相似性，如公式(1)所示，

sim(c_i,c_j)＝cos(v_i,v_j) (1)

其中，sim(c_i,c_j)为语义相似性，v_i和v_j分别为概念c_i和c_j的词向量；

步骤(E2)，若sim(c_i,c_j)大于指定相似度阈值θ，则保留与候选概念词汇c_i语义相似度最大的本体概念结点，并将该本体概念结点信息加入到候选本体概念集合C_c，如公式(2)所示，

C_c＝{c_i|index(c_i)＝{argmax_jsim(c_i,c_j) if sim(c_i,c_j)≥θ}} (2)；

步骤(E3)，针对候选本体概念结点c_j及其所属的概念结点c_i，需要判断将结点c_j作为结点c_i的父结点、兄弟结点还是子结点，且判断的具体步骤如下，

步骤(E31)，若本体树中当前结点c_i既有父结点也有子结点，则设将结点c_j放入当前结点c_i所在层后，分别计算当前结点c_i所在层所有概念结点与其父结点之间的平均相似，具体步骤如下，

步骤(E311)，c_j作为父结点的相似度，如公式(3)所示，

步骤(E312)，c_j作为兄弟结点的相似度，如公式(4)所示，

其中，为结点c_i的所有兄弟结点集合；

步骤(E313)，c_j作为子结点的相似度，如公式(5)所示，

其中，为结点c_i的所有子结点集合；

步骤(E32)，若本体树中当前结点c_i没有兄弟结点但是有子结点，则设将结点c_j放入当前结点c_i所在层后，分别计算当前结点c_i所在层所有概念结点与其父结点之间的平均相似，具体步骤如下，

步骤(E321)，c_j作为父结点的相似度，如公式(6)所示，

psim＝(sim(p,c_j)+sim(c_j,c_i))/2 (6)；

步骤(E322)，c_j作为兄弟结点的相似度，如公式(7)所示，

其中，为结点c_i的所有兄弟结点集合；

步骤(E323)，c_j作为子弟结点的相似度，如公式(8)所示，

其中，为结点c_i的所有子结点集合；

步骤(E33)，若本体树中当前结点c_i没有子结点，则假设将结点c_j放入当前结点c_i所在层后，分别计算当前结点c_i所在层所有概念结点与其父结点之间的平均相似，具体步骤如下，

步骤(E331)，c_j作为父结点的相似度，如公式(9)所示，

步骤(E332)，c_j作为兄弟结点的相似度，如公式(10)所示，

其中，为结点c_i的所有兄弟结点集合；

步骤(E333)，c_j作为子弟结点的相似度，如公式(11)所示，

步骤(E4)，比较相似度psim、bsim和csim，若psim最大，则将候选概念c_j作为概念c_i的父结点；若bsim最大，则将候选概念c_j作为概念c_i的兄弟结点；若csim最大，则将候选概念c_j作为概念c_i的子结点；

步骤(E5)，基于步骤(E4)更新本体树和更新候选概念集合C'＝C'-c_i；

步骤(E6)，重复步骤(E1～5)直至所有候选概念c_i均无合适的本体概念结点与之相似，则本体树构建完成。

本发明的有益效果是：本发明的一种用于构建审计领域本体框架的知识图谱自动扩充方法，首先通过概念实体之间的语义相似度自动寻找候选概念实体的最相似概念，再通过构建本体概念的树结构方式计算候选概念与匹配概念的兄弟概念及子概念之间的语义相似度，从而判断出候选概念与匹配概念是上下位关系还是并列关系，有效的实现了在本体构建过程中以较小人工代价即可获得大规模高质量本体结构，解决了传统领域本体框架往往使用人工编辑的方式手工构建局限性，满足目前信息化时代的审计全覆盖式需要，该方法具有科学合理、适用性强和效果佳等优点。

附图说明

图1是本发明的整体流程图；

图2是本发明的审计本体库构建与自动扩充过程示意图；

图3是本发明构建的种子本体树结构示意图；

图4是本发明的添加本体概念过程示意图；

图5是本发明基于语义距离的本体概念树自动扩充后的审计本体概念数示意图；

图6是本发明的审计准则对应的父结点和子结点树示意图。

具体实施方式

下面将结合说明书附图，对本发明作进一步的说明。

如图1所示，本发明的一种用于构建审计领域本体框架的知识图谱自动扩充方法，包括以下步骤，

步骤(A)，收集审计领域相关文本作为审计语料，审计领域相关文本包括审计百度百科词条、审计图书教材、审计署官网和审计法律法规制度；且步骤(A)中具体收集审计领域相关文本作为审计语料过程中采用网络爬虫方式收集语料，针对审计署网站数据设计爬虫程序自动收集网页信息并格式化存储，而针对审计百科词条获取网页语料具体步骤如下，

步骤(A1)，构建一个领域核心种子词汇；

步骤(B)，对审计语料进行文本清洗、分词和命名实体识别，并抽取出其中的审计领域概念实体；且步骤(B)中具体审计领域概念实体获取步骤如下，

其中，文本清洗主要包括剔除长度小于10个字符的较短文本，剔除停用词和标点符号和非中英文及数字的符号；然后使用jieba分词及词性标注、使用LTP实施命名实体识别，抽取语料库中名词并作为候选本体概念。

步骤(C)，利用步骤(B)中处理后的审计语料训练审计领域词向量模型；且步骤(C)具体是将步骤(B)中抽取的所有审计领域概念实体作为自定义词典，再利用自定义词典对步骤(A)中获取的审计预料进行分词和停用词剔除，并生成加工语料，再使用Glove词向量模型训练该加工语料，这样就获得了审计领域词汇的词向量。

如图2所示，步骤(D)，利用步骤(B)中取得的审计领域概念实体构建审计领域本体结构框架，并为每个概念标注种子概念实体；且步骤(D)具体是基于给定的审计领域关系集合R构建领域本体层次结构，并为每个关系类别中注入5个领域概念实体，且这5个领域概念实体可以来自领域概念集合C或自行命名，最终形成一个初始本体树结构O_audit＝<C₀,A₀,R₀,X₀,I₀>，其中C₀表示已构建的本体概念实体类，用于表达审计知识框架中的分类概念；A₀表示所有概念实体的属性集，表示概念本身的特征；R₀表示语义关系，用于描述本体概念之间的分类关系，在本体构建中即为IsA关系；X₀表示公理集，公理用于定义概念、语义描述和语义关系之间的语义约束；I₀表示实例数据集，用于描述本体概念的实例。

如图3和图5所示，步骤(E)，基于审计领域词向量模型和初始本体树结构，构建自动扩充算法自动扩充本体结构，形成最终的审计领域本体框架，且步骤(E)具体步骤如下，

步骤(E1)，针对每个候选概念词汇c_i∈C'，使用广度优先搜索算法分别计算c_i与本体树中各已有概念结点c_j∈C₀之间的语义相似性，如公式(1)所示，

sim(c_i,c_j)＝cos(v_i,v_j) (1)

C_c＝{c_i|index(c_i)＝{argmax_jsim(c_i,c_j) if sim(c_i,c_j)≥θ}} (2)；

如图4(a)所示，步骤(E31)，若本体树中当前结点c_i既有父结点也有子结点，则设将结点c_j放入当前结点c_i所在层后，分别计算当前结点c_i所在层所有概念结点与其父结点之间的平均相似，具体步骤如下，

步骤(E311)，c_j作为父结点的相似度，如公式(3)所示，

步骤(E312)，c_j作为兄弟结点的相似度，如公式(4)所示，

其中，为结点c_i的所有兄弟结点集合；

步骤(E313)，c_j作为子结点的相似度，如公式(5)所示，

其中，为结点c_i的所有子结点集合；

如图4(b)所示，步骤(E32)，若本体树中当前结点c_i没有兄弟结点但是有子结点，则设将结点c_j放入当前结点c_i所在层后，分别计算当前结点c_i所在层所有概念结点与其父结点之间的平均相似，具体步骤如下，

步骤(E321)，c_j作为父结点的相似度，如公式(6)所示，

步骤(E322)，c_j作为兄弟结点的相似度，如公式(7)所示，

其中，为结点c_i的所有兄弟结点集合；

步骤(E323)，c_j作为子弟结点的相似度，如公式(8)所示，

其中，为结点c_i的所有子结点集合；

如图4(c)所示，步骤(E33)，若本体树中当前结点c_i没有子结点，则假设将结点c_j放入当前结点c_i所在层后，分别计算当前结点c_i所在层所有概念结点与其父结点之间的平均相似，具体步骤如下，

步骤(E331)，c_j作为父结点的相似度，如公式(9)所示，

步骤(E332)，c_j作为兄弟结点的相似度，如公式(10)所示，

其中，为结点c_i的所有兄弟结点集合；

步骤(E333)，c_j作为子弟结点的相似度，如公式(11)所示，

csim＝(sim(p，c_i)+sim(c_j，c_i))/2 (II)；

为了更好的阐述本发明，下面介绍本发明的一个具体实施例：在一个具体实例中，百科词条包含概念实体“审计”、“政府审计”、“真实性”、“合法性”等，也包含非审计领域概念，如“走私”、“缓和”等；通过领域专家进行一次人工标注即可将候选词条分类为审计领域相关词汇和不相关词汇，从而构建出初始本体概念实体集合C₀。

对大规模领域文本通过分词抽取的名词包括“小金库”、“拨付”、等，通过命名实体识别抽取的概念包括“国有商业银行”、“环境保护事业资金”、“中国注册会计师”等由多个词汇合成的实体概念。由于抽取出的名词规模较大，本发明基于词向量语义相似度方式筛选候选词汇，即抽取出的名词w与初始本体概念实体集合C₀中任意一个概念实体c∈C₀之间相似度大于指定阈值θ，即可将该词汇w加入候选概念集合C₀中。计算词汇之间的语义相似度是基于步骤(C)所训练的大规模领域词向量实现的。基于步骤(B)即可自动快速地抽取出大规模零一后续本体概念实体集合C。

步骤(C)的词向量训练过程中，步骤(B)中所抽取的所有候选词汇作为自定义词典导入到jieba分词包中，并使用Glove词向量模型训练该语料，获得审计领域词汇的词向量。本发明使用Glove模型训练词向量，也可使用CBOW或者Skin-gram等其他预训练语言模型训练词向量。

基于步骤(B)获得的领域概念实体，邀请审计领域专家构建审计领域本体结构框架，并为每个概念标注若干种子概念实体，如图2所示。

本发明中步骤(E)通过如下方式自动扩充本体树，针对候选概念词汇“国际审计准则”，计算其与本体树中已有概念结点之间的相似度并找到相似度最大概念对应的结点，即“审计准则”，两者之间相似度为0.69，此时“审计准则”所对应的父结点和子结点树如图6(a)所示(有兄弟结点，但无子结点)，则根据步骤(E33)方式分别计算“国际审计准则”与“审计准则”的父节点、兄弟结点和子结点相似度，分别为0.257、0.253、0.524，发现其子结点相似度最高，因而，将“国际审计准则”作为“审计准则”的子结点。

针对候选概念“独立审计准则”，计算其与本体树中已有概念结点之间的相似度并找到相似度最大概念对应的结点，即“审计准则”，两者之间相似度为0.749，此时“审计准则”所对应的父结点和子结点树如图6(b)所示(有兄弟结点，有子结点)，则根据步骤(E31)方式分别计算“独立审计准则”与“审计准则”的父节点、兄弟结点和子结点相似度，即0.30、0.23、0.64，发现其兄弟结点相似度最高，因而，将“独立审计准则”作为“审计准则”的子结点。

综上所述，本发明的一种用于构建审计领域本体框架的知识图谱自动扩充方法，首先通过概念实体之间的语义相似度自动寻找候选概念实体的最相似概念，再通过构建本体概念的树结构方式计算候选概念与匹配概念的兄弟概念及子概念之间的语义相似度，从而判断出候选概念与匹配概念是上下位关系还是并列关系。

以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。

Claims

1.一种用于构建审计领域本体框架的知识图谱自动扩充方法，其特征在于：包括以下步骤，

步骤(E)，基于审计领域词向量模型和初始本体树结构，构建自动扩充算法自动扩充本体结构，形成最终的审计领域本体框架，其具体步骤如下，

sim(c_i,c_j)＝cos(v_i,v_j) (1)

C_c＝{c_i|index(c_i)＝{argmax_jsim(c_i,c_j)if sim(c_i,c_j)≥θ}} (2)；

步骤(E311)，c_j作为父结点的相似度，如公式(3)所示，

步骤(E312)，c_j作为兄弟结点的相似度，如公式(4)所示，

其中，为结点c_i的所有兄弟结点集合；

步骤(E313)，c_j作为子结点的相似度，如公式(5)所示，

其中，为结点c_i的所有子结点集合；

步骤(E321)，c_j作为父结点的相似度，如公式(6)所示，

psim＝(sim(p,c_j)+sim(c_j,c_i))/2 (6)；

步骤(E322)，c_j作为兄弟结点的相似度，如公式(7)所示，

其中，为结点c_i的所有兄弟结点集合；

步骤(E323)，c_j作为子弟结点的相似度，如公式(8)所示，

其中，为结点c_i的所有子结点集合；

步骤(E331)，c_j作为父结点的相似度，如公式(9)所示，

步骤(E332)，c_j作为兄弟结点的相似度，如公式(10)所示，

其中，为结点c_i的所有兄弟结点集合；

步骤(E333)，c_j作为子弟结点的相似度，如公式(11)所示，

csim＝(sim(p,c_i)+sim(c_j,c_i))/2 (11)；

2.根据权利要求1所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法，其特征在于：步骤(A)中具体收集审计领域相关文本作为审计语料过程中采用网络爬虫方式收集语料，针对审计署网站数据设计爬虫程序自动收集网页信息并格式化存储，而针对审计百科词条获取网页语料具体步骤如下，

步骤(A1)，构建一个领域核心种子词汇；

3.根据权利要求1所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法，其特征在于：步骤(B)中具体审计领域概念实体获取步骤如下，

4.根据权利要求3所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法，其特征在于：步骤(C)具体是将步骤(B)中抽取的所有审计领域概念实体作为自定义词典，再利用自定义词典对步骤(A)中获取的审计预料进行分词和停用词剔除，并生成加工语料，再使用Glove词向量模型训练该加工语料，这样就获得了审计领域词汇的词向量。

5.根据权利要求4所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法，其特征在于：步骤(D)具体是基于给定的审计领域关系集合R构建领域本体层次结构，并为每个关系类别中注入5个领域概念实体，且这5个领域概念实体可以来自领域概念集合C或自行命名，最终形成一个初始本体树结构O_audit＝<C₀,A₀,R₀,X₀,I₀>，其中C₀表示已构建的本体概念实体类，用于表达审计知识框架中的分类概念；A₀表示所有概念实体的属性集，表示概念本身的特征；

R₀表示语义关系，用于描述本体概念之间的分类关系，在本体构建中即为IsA关系；X₀表示公理集，公理用于定义概念、语义描述和语义关系之间的语义约束；I₀表示实例数据集，用于描述本体概念的实例。