CN115203429A - 一种用于构建审计领域本体框架的知识图谱自动扩充方法 - Google Patents
一种用于构建审计领域本体框架的知识图谱自动扩充方法 Download PDFInfo
- Publication number
- CN115203429A CN115203429A CN202210736335.4A CN202210736335A CN115203429A CN 115203429 A CN115203429 A CN 115203429A CN 202210736335 A CN202210736335 A CN 202210736335A CN 115203429 A CN115203429 A CN 115203429A
- Authority
- CN
- China
- Prior art keywords
- concept
- node
- audit
- ontology
- similarity
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012550 audit Methods 0.000 title claims abstract description 116
- 238000000034 method Methods 0.000 title claims abstract description 35
- 239000013598 vector Substances 0.000 claims abstract description 23
- 238000010276 construction Methods 0.000 claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims abstract description 12
- 238000012549 training Methods 0.000 claims abstract description 9
- 238000004140 cleaning Methods 0.000 claims abstract description 5
- 239000000463 material Substances 0.000 claims description 12
- 238000002372 labelling Methods 0.000 claims description 10
- 238000005516 engineering process Methods 0.000 claims description 4
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 239000004257 Anoxomer Substances 0.000 claims description 3
- 239000004322 Butylated hydroxytoluene Substances 0.000 claims description 3
- 239000004262 Ethyl gallate Substances 0.000 claims description 3
- 239000001354 calcium citrate Substances 0.000 claims description 3
- 239000000555 dodecyl gallate Substances 0.000 claims description 3
- 239000000787 lecithin Substances 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 239000000574 octyl gallate Substances 0.000 claims description 3
- 239000001508 potassium citrate Substances 0.000 claims description 3
- 239000001509 sodium citrate Substances 0.000 claims description 3
- 230000008685 targeting Effects 0.000 claims description 3
- 230000008030 elimination Effects 0.000 claims 1
- 238000003379 elimination reaction Methods 0.000 claims 1
- 238000010586 diagram Methods 0.000 description 6
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000003416 augmentation Effects 0.000 description 1
- 230000003190 augmentative effect Effects 0.000 description 1
- 239000002585 base Substances 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000012458 free base Substances 0.000 description 1
- 230000004807 localization Effects 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 230000000116 mitigating effect Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
- 230000001052 transient effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q40/00—Finance; Insurance; Tax strategies; Processing of corporate or income taxes
- G06Q40/12—Accounting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Finance (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Accounting & Taxation (AREA)
- Artificial Intelligence (AREA)
- Development Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Animal Behavior & Ethology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Economics (AREA)
- Marketing (AREA)
- Strategic Management (AREA)
- Technology Law (AREA)
- General Business, Economics & Management (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种用于构建审计领域本体框架的知识图谱自动扩充方法,包括以下步骤,首先收集审计领域相关文本作为原始语料,接着对审计语料进行文本清洗、分词和命名实体识别,并抽取出其中的审计领域概念实体,随后利用处理后的审计语料训练审计领域词向量模型;本发明通过概念实体之间的语义相似度自动寻找候选概念实体的最相似概念,再通过构建本体概念的树结构方式计算候选概念与匹配概念的兄弟概念及子概念之间的语义相似度,从而判断出候选概念与匹配概念是上下位关系还是并列关系,有效的实现了在本体构建过程中以较小人工代价即可获得大规模高质量本体结构,满足目前信息化时代的审计全覆盖式需要,适合被广泛推广和使用。
Description
技术领域
本发明涉及知识图谱技术领域,具体涉及一种用于构建审计领域本体框架的知识图谱自动扩充方法。
背景技术
随着信息技术不断发展,由审计对象带来的审计数据体量呈现爆炸式增长,现有的审计分析方法和审计数据知识结构已经不能满足“审计全覆盖”的需要。国家审计署领导提出应该重视大数据并加速推动审计信息化的建设,让大数据审计工作模式覆盖范围更广、使用效率更高。从人工智能领域来说,获得更多的数据不是利用大数据的主要价值所在,发掘数据中知识以及知识之间的关系网络,并且解决在这个过程中发现的实际问题才是真正高效利用大数据。知识图谱是以人们对客观事物的认识来组织和构建知识的,即以“实体-关系-实体”形式构建三元组知识对象。通常情况下可将知识图谱划分成通用知识图谱和领域知识图谱。通用知识图谱是一种对客观事物的描绘和相互关联的表达,如Google的FreeBase等,一般可使用大规模维基百科或百度百科的inforbox结构化数据自动构建。而垂直领域知识图谱是指对特定领域内的知识表示,如医疗、电商、生物、法律等。垂直领域知识专业性更强、知识层次结构更加复杂、知识准确率和覆盖率要求更高。同时由于领域语料难以获得,领域本体构建需要大量专业人士参与,使得领域知识图谱构建更加耗时耗力。
在领域知识图谱构建中本体构建是其中关键步骤,是知识库的基本模板;而本体是以形式化方式对领域概念及其关系的明确定义,一般是以数状结构组织,关系主要包括“IsA”,即上下位关系;传统的领域本体框架往往使用人工编辑的方式手工构建,该方式有2点局限性:(1)需要较多领域专家长时间参与;(2)需要领域人士手工确认概念及其上下位关系,当领域概念较多,难以理清各类概念之间的上下位关系,且在构建过程中不停挖掘出新概念实体时需要领域专家及时参与,工作量较大;因此,需要设计一种用于构建审计领域本体框架的知识图谱自动扩充方法。
发明内容
本发明的目的是克服现有技术的不足,为更好的解决传统领域本体框架往往使用人工编辑的方式手工构建局限性,提供了一种用于构建审计领域本体框架的知识图谱自动扩充方法,其具有在本体构建过程中以较小人工代价即可获得大规模高质量本体结构,满足目前信息化时代的审计全覆盖式需要的优点。
为了达到上述目的,本发明所采用的技术方案是:
一种用于构建审计领域本体框架的知识图谱自动扩充方法,包括以下步骤,
步骤(A),收集审计领域相关文本作为原始语料,包括审计百度百科词条、审计图书教材、审计署官网和审计法律法规制度;
步骤(B),对审计语料进行文本清洗、分词和命名实体识别,并抽取出其中的审计领域概念实体;
步骤(C),利用步骤(B)中处理后的审计语料训练审计领域词向量模型;
步骤(D),利用步骤(B)中取得的审计领域概念实体构建审计领域本体结构框架,并为每个概念标注种子概念实体;
步骤(E),基于审计领域词向量模型和初始本体树结构,构建自动扩充算法自动扩充本体结构,形成最终的审计领域本体框架。
优选的,步骤(A)中具体收集审计领域相关文本作为原始语料过程中采用网络爬虫方式收集语料,针对审计署网站数据设计爬虫程序自动收集网页信息并格式化存储,而针对审计百科词条获取网页语料具体步骤如下,
步骤(A1),构建一个领域核心种子词汇;
步骤(A2),通过网络爬虫的方式抓取这些词汇的百科网页,并将这些网页中出现的超链接词汇增添到种子词汇集,再往复这个抓取过程;
步骤(A3),经过若干轮爬虫,即可获得候选审计领域专业词汇及其百科网页文本。
优选的,步骤(B)中具体审计领域概念实体获取步骤如下,
步骤(B1),从百科词条及其超链接词条中直接获得候选概念词汇;
步骤(B2),对候选概念词汇进行人工标注,并标注为领域概念和其他词汇中的一种;
步骤(B3),通过分词和命名实体识别这两个自然语言处理技术从获取的原始语料中获得各类名词,并计算这些实体词汇与候选概念词汇之间的语义相似度,将相似度较高词汇作为候选词汇;
步骤(B4),对候选词汇进行人工标注,并将候选词汇标注为领域概念和其他词汇中的一种,这样就获得了全部的领域概念集合C。
优选的,步骤(C)具体是将步骤(B)中抽取的所有审计领域概念实体作为自定义词典,再利用自定义词典对步骤(A)中获取的原始预料进行分词和停用次剔除并生成加工预料,再使用Glove词向量模型训练该加工语料,这样就获得了审计领域词汇的词向量。
优选的,步骤(D)具体是基于给定的审计领域关系集合R构建领域本体层次结构,并为每个关系类别中注入5个领域概念实体,且这5个领域概念实体可以来自领域概念集合C或自行命名,最终形成一个初始本体树结构Oaudit=<C0,A0,R0,X0,I0>,其中C0表示已构建的本体概念实体类,用于表达审计知识框架中的分类概念;A0表示所有概念实体的属性集,表示概念本身的特征;R0表示语义关系,用于描述本体概念之间的分类关系,在本体构建中即为IsA关系;X0表示公理集,公理用于定义概念、语义描述和语义关系之间的语义约束;I0表示实例数据集,用于描述本体概念的实例。
优选的,步骤(E)具体步骤如下,
步骤(E1),针对每个候选概念词汇cj∈C',计算cj与本体树中各已有概念结点ci∈C0之间的语义相似性,如公式(1)所示,
sim(ci,cj)=cos(vi,vj) (1)
其中,sim(ci,cj)为语义相似性,vi和vj分别为概念ci和cj的词向量;
步骤(E2),若sim(ci,cj)大于指定相似度阈值θ,则保留与候选概念词汇cj语义相似度最大的本体概念结点ci,如公式(2)所示,
ci={argmaxisim(ci,cj)if sim(ci,cj)≥θ}} (2);
步骤(E3),针对候选本体概念结点cj及其所属的概念结点ci,需要判断将结点cj作为结点ci的父结点、兄弟结点还是子结点,且判断的具体步骤如下,
步骤(E31),若本体树中当前结点ci既有父结点也有子结点,则设将结点cj放入该层后,分别计算该层所有概念结点与其父结点之间的平均相似,具体步骤如下,
步骤(E311),cj作为父结点的相似度,如公式(3)所示,
步骤(E312),cj作为兄弟结点的相似度,如公式(4)所示,
步骤(E313),cj作为子结点的相似度,如公式(5)所示,
步骤(E32),若本体树中当前结点ci没有兄弟结点但是有子节点,则设将结点cj放入该层后,分别计算该层所有概念结点与其父结点之间的平均相似,具体步骤如下,
步骤(E321),cj作为父结点的相似度,如公式(6)所示,
psim=(sim(p,cj)+sim(cj,ci))/2 (6);
步骤(E322),cj作为兄弟结点的相似度,如公式(7)所示,
步骤(E323),cj作为子弟结点的相似度,如公式(8)所示,
步骤(E33),若本体树中当前结点ci没有子节点,则假设将结点cj放入该层后,分别计算该层所有概念结点与其父结点之间的平均相似,具体步骤如下,
步骤(E331),cj作为父结点的相似度,如公式(9)所示,
步骤(E332),cj作为兄弟结点的相似度,如公式(10)所示,
步骤(E333),cj作为子弟结点的相似度,如公式(11)所示,
csim=(sim(p,ci)+sim(cj,ci))/2 (11);
步骤(E4),比较相似度psim、bsim和csim,若psim最大,则将候选概念cj作为概念ci的父结点;若bsim最大,则将候选概念cj作为概念ci的兄弟结点;若csim最大,则将候选概念cj作为概念ci的子结点;
步骤(E5),基于步骤(E4)更新本体树和更新候选概念集合C'=C'-ci;
步骤(E6),重复步骤(E1~5)直至所有候选概念ci均无合适的本体概念结点与之相似,则本体树构建完成。
本发明的有益效果是:本发明的一种用于构建审计领域本体框架的知识图谱自动扩充方法,首先通过概念实体之间的语义相似度自动寻找候选概念实体的最相似概念,再通过构建本体概念的树结构方式计算候选概念与匹配概念的兄弟概念及子概念之间的语义相似度,从而判断出候选概念与匹配概念是上下位关系还是并列关系,有效的实现了在本体构建过程中以较小人工代价即可获得大规模高质量本体结构,解决了传统领域本体框架往往使用人工编辑的方式手工构建局限性,满足目前信息化时代的审计全覆盖式需要,该方法具有科学合理、适用性强和效果佳等优点。
附图说明
图1是本发明的整体流程图;
图2是本发明的审计本体库构建与自动扩充过程示意图;
图3是本发明构建的种子本体树结构示意图;
图4是本发明的添加本体概念过程示意图;
图5是本发明基于语义距离的本体概念树自动扩充后的审计本体概念数示意图;
图6是本发明的审计准则对应的父结点和子结点树示意图。
具体实施方式
下面将结合说明书附图,对本发明作进一步的说明。
如图1所示,本发明的一种用于构建审计领域本体框架的知识图谱自动扩充方法,包括以下步骤,
步骤(A),收集审计领域相关文本作为原始语料,包括审计百度百科词条、审计图书教材、审计署官网和审计法律法规制度;且步骤(A)中具体收集审计领域相关文本作为原始语料过程中采用网络爬虫方式收集语料,针对审计署网站数据设计爬虫程序自动收集网页信息并格式化存储,而针对审计百科词条获取网页语料具体步骤如下,
步骤(A1),构建一个领域核心种子词汇;
步骤(A2),通过网络爬虫的方式抓取这些词汇的百科网页,并将这些网页中出现的超链接词汇增添到种子词汇集,再往复这个抓取过程;
步骤(A3),经过若干轮爬虫,即可获得候选审计领域专业词汇及其百科网页文本。
步骤(B),对审计语料进行文本清洗、分词和命名实体识别,并抽取出其中的审计领域概念实体;且步骤(B)中具体审计领域概念实体获取步骤如下,
其中,文本清洗主要包括剔除长度小于10个字符的较短文本,剔除停用词和标点符号和非中英文及数字的符号;然后使用jieba分词及词性标注、使用LTP实施命名实体识别,抽取语料库中名词并作为候选本体概念。
步骤(B1),从百科词条及其超链接词条中直接获得候选概念词汇;
步骤(B2),对候选概念词汇进行人工标注,并标注为领域概念和其他词汇中的一种;
步骤(B3),通过分词和命名实体识别这两个自然语言处理技术从获取的原始语料中获得各类名词,并计算这些实体词汇与候选概念词汇之间的语义相似度,将相似度较高词汇作为候选词汇;
步骤(B4),对候选词汇进行人工标注,并将候选词汇标注为领域概念和其他词汇中的一种,这样就获得了全部的领域概念集合C。
步骤(C),利用步骤(B)中处理后的审计语料训练审计领域词向量模型;且步骤(C)具体是将步骤(B)中抽取的所有审计领域概念实体作为自定义词典,再利用自定义词典对步骤(A)中获取的原始预料进行分词和停用次剔除并生成加工预料,再使用Glove词向量模型训练该加工语料,这样就获得了审计领域词汇的词向量。
如图2所示,步骤(D),利用步骤(B)中取得的审计领域概念实体构建审计领域本体结构框架,并为每个概念标注种子概念实体;且步骤(D)具体是基于给定的审计领域关系集合R构建领域本体层次结构,并为每个关系类别中注入5个领域概念实体,且这5个领域概念实体可以来自领域概念集合C或自行命名,最终形成一个初始本体树结构Oaudit=<C0,A0,R0,X0,I0>,其中C0表示已构建的本体概念实体类,用于表达审计知识框架中的分类概念;A0表示所有概念实体的属性集,表示概念本身的特征;R0表示语义关系,用于描述本体概念之间的分类关系,在本体构建中即为IsA关系;X0表示公理集,公理用于定义概念、语义描述和语义关系之间的语义约束;I0表示实例数据集,用于描述本体概念的实例。
如图3和图5所示,步骤(E),基于审计领域词向量模型和初始本体树结构,构建自动扩充算法自动扩充本体结构,形成最终的审计领域本体框架,且步骤(E)具体步骤如下,
步骤(E1),针对每个候选概念词汇ci∈C',使用广度优先搜索算法分别计算ci与本体树中各已有概念结点cj∈C0之间的语义相似性,如公式(1)所示,
sim(ci,cj)=cos(vi,vj) (1)
其中,sim(ci,cj)为语义相似性,vi和vj分别为概念ci和cj的词向量;
步骤(E2),若sim(ci,cj)大于指定相似度阈值θ,则保留与候选概念词汇cj语义相似度最大的本体概念结点ci,如公式(2)所示,
ci={argmaxisim(ci,cj) if sim(ci,cj)≥θ}} (2);
步骤(E3),针对候选本体概念结点cj及其所属的概念结点ci,需要判断将结点cj作为结点ci的父结点、兄弟结点还是子结点,且判断的具体步骤如下,
如图4(a)所示,步骤(E31),若本体树中当前结点ci既有父结点也有子结点,则设将结点cj放入该层后,分别计算该层所有概念结点与其父结点之间的平均相似,具体步骤如下,
步骤(E311),cj作为父结点的相似度,如公式(3)所示,
步骤(E312),cj作为兄弟结点的相似度,如公式(4)所示,
步骤(E313),cj作为子结点的相似度,如公式(5)所示,
如图4(b)所示,步骤(E32),若本体树中当前结点ci没有兄弟结点但是有子节点,则设将结点cj放入该层后,分别计算该层所有概念结点与其父结点之间的平均相似,具体步骤如下,
步骤(E321),cj作为父结点的相似度,如公式(6)所示,
psim=(sim(p,cj)+sim(cj,ci))/2 (6);
步骤(E322),cj作为兄弟结点的相似度,如公式(7)所示,
步骤(E323),cj作为子弟结点的相似度,如公式(8)所示,
如图4(c)所示,步骤(E33),若本体树中当前结点ci没有子节点,则假设将结点cj放入该层后,分别计算该层所有概念结点与其父结点之间的平均相似,具体步骤如下,
步骤(E331),cj作为父结点的相似度,如公式(9)所示,
步骤(E332),cj作为兄弟结点的相似度,如公式(10)所示,
步骤(E333),cj作为子弟结点的相似度,如公式(11)所示,
csim=(sim(p,ci)+sim(cj,ci))/2 (11);
步骤(E4),比较相似度psim、bsim和csim,若psim最大,则将候选概念cj作为概念ci的父结点;若bsim最大,则将候选概念cj作为概念ci的兄弟结点;若csim最大,则将候选概念cj作为概念ci的子结点;
步骤(E5),基于步骤(E4)更新本体树和更新候选概念集合C'=C'-ci;
步骤(E6),重复步骤(E1~5)直至所有候选概念ci均无合适的本体概念结点与之相似,则本体树构建完成。
为了更好的阐述本发明,下面介绍本发明的一个具体实施例:在一个具体实例中,百科词条包含概念实体“审计”、“政府审计”、“真实性”、“合法性”等,也包含非审计领域概念,如“走私”、“缓和”等;通过领域专家进行一次人工标注即可将候选词条分类为审计领域相关词汇和不相关词汇,从而构建出初始本体概念实体集合C0。
对大规模领域文本通过分词抽取的名词包括“小金库”、“拨付”、等,通过命名实体识别抽取的概念包括“国有商业银行”、“环境保护事业资金”、“中国注册会计师”等由多个词汇合成的实体概念。由于抽取出的名词规模较大,本发明基于词向量语义相似度方式筛选候选词汇,即抽取出的名词w与初始本体概念实体集合C0中任意一个概念实体c∈C0之间相似度大于指定阈值θ,即可将该词汇w加入候选概念集合C0中。计算词汇之间的语义相似度是基于步骤(C)所训练的大规模领域词向量实现的。基于步骤(B)即可自动快速地抽取出大规模零一后续本体概念实体集合C
步骤(C)的词向量训练过程中,步骤(B)中所抽取的所有候选词汇作为自定义词典导入到jieba分词包中,并使用Glove词向量模型训练该语料,获得审计领域词汇的词向量。本发明使用Glove模型训练词向量,也可使用CBOW或者Skin-gram等其他预训练语言模型训练词向量。
基于步骤(B)获得的领域概念实体,邀请审计领域专家构建审计领域本体结构框架,并为每个概念标注若干种子概念实体,如图2所示。
本发明中步骤(E)通过如下方式自动扩充本体树,针对候选概念词汇“国际审计准则”,计算其与本体树中已有概念结点之间的相似度并找到相似度最大概念对应的结点,即“审计准则”,两者之间相似度为0.69,此时“审计准则”所对应的父结点和子结点树如图6(a)所示(有兄弟结点,但无子节点),则根据步骤(E33)方式分别计算“国际审计准则”与“审计准则”的父节点、兄弟结点和子结点相似度,分别为0.257、。0253、0.524,发现其子结点相似度最高,因而,将“国际审计准则”作为“审计准则”的子节点。
针对候选概念“独立审计准则”,计算其与本体树中已有概念结点之间的相似度并找到相似度最大概念对应的结点,即“审计准则”,两者之间相似度为0.749,此时“审计准则”所对应的父结点和子结点树如图6(b)所示(有兄弟结点,有子节点),则根据步骤(E31)方式分别计算“独立审计准则”与“审计准则”的父节点、兄弟结点和子结点相似度,即0.30、0.23、0.64,发现其兄弟结点相似度最高,因而,将“独立审计准则”作为“审计准则”的子节点。
综上所述,本发明的一种用于构建审计领域本体框架的知识图谱自动扩充方法,首先通过概念实体之间的语义相似度自动寻找候选概念实体的最相似概念,再通过构建本体概念的树结构方式计算候选概念与匹配概念的兄弟概念及子概念之间的语义相似度,从而判断出候选概念与匹配概念是上下位关系还是并列关系。
以上显示和描述了本发明的基本原理、主要特征及优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
Claims (6)
1.一种用于构建审计领域本体框架的知识图谱自动扩充方法,其特征在于:包括以下步骤,
步骤(A),收集审计领域相关文本作为原始语料,包括审计百度百科词条、审计图书教材、审计署官网和审计法律法规制度;
步骤(B),对审计语料进行文本清洗、分词和命名实体识别,并抽取出其中的审计领域概念实体;
步骤(C),利用步骤(B)中处理后的审计语料训练审计领域词向量模型;
步骤(D),利用步骤(B)中取得的审计领域概念实体构建审计领域本体结构框架,并为每个概念标注种子概念实体;
步骤(E),基于审计领域词向量模型和初始本体树结构,构建自动扩充算法自动扩充本体结构,形成最终的审计领域本体框架。
2.根据权利要求1所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法,其特征在于:步骤(A)中具体收集审计领域相关文本作为原始语料过程中采用网络爬虫方式收集语料,针对审计署网站数据设计爬虫程序自动收集网页信息并格式化存储,而针对审计百科词条获取网页语料具体步骤如下,
步骤(A1),构建一个领域核心种子词汇;
步骤(A2),通过网络爬虫的方式抓取这些词汇的百科网页,并将这些网页中出现的超链接词汇增添到种子词汇集,再往复这个抓取过程;
步骤(A3),经过若干轮爬虫,即可获得候选审计领域专业词汇及其百科网页文本。
3.根据权利要求1所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法,其特征在于:步骤(B)中具体审计领域概念实体获取步骤如下,
步骤(B1),从百科词条及其超链接词条中直接获得候选概念词汇;
步骤(B2),对候选概念词汇进行人工标注,并标注为领域概念和其他词汇中的一种;
步骤(B3),通过分词和命名实体识别这两个自然语言处理技术从获取的原始语料中获得各类名词,并计算这些实体词汇与候选概念词汇之间的语义相似度,将相似度较高词汇作为候选词汇;
步骤(B4),对候选词汇进行人工标注,并将候选词汇标注为领域概念和其他词汇中的一种,这样就获得了全部的领域概念集合C。
4.根据权利要求3所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法,其特征在于:步骤(C)具体是将步骤(B)中抽取的所有审计领域概念实体作为自定义词典,再利用自定义词典对步骤(A)中获取的原始预料进行分词和停用次剔除并生成加工预料,再使用Glove词向量模型训练该加工语料,这样就获得了审计领域词汇的词向量。
5.根据权利要求4所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法,其特征在于:步骤(D)具体是基于给定的审计领域关系集合R构建领域本体层次结构,并为每个关系类别中注入5个领域概念实体,且这5个领域概念实体可以来自领域概念集合C或自行命名,最终形成一个初始本体树结构Oaudit=<C0,A0,R0,X0,I0>,其中C0表示已构建的本体概念实体类,用于表达审计知识框架中的分类概念;A0表示所有概念实体的属性集,表示概念本身的特征;R0表示语义关系,用于描述本体概念之间的分类关系,在本体构建中即为IsA关系;X0表示公理集,公理用于定义概念、语义描述和语义关系之间的语义约束;I0表示实例数据集,用于描述本体概念的实例。
6.根据权利要求5所述的一种用于构建审计领域本体框架的知识图谱自动扩充方法,其特征在于:步骤(E)具体步骤如下,
步骤(E1),针对每个候选概念词汇ci∈C',使用广度优先搜索算法分别计算ci与本体树中各已有概念结点cj∈C0之间的语义相似性,如公式(1)所示,
sim(ci,cj)=cos(vi,vj) (1)
其中,sim(ci,cj)为语义相似性,vi和vj分别为概念ci和cj的词向量;
步骤(E2),若sim(ci,cj)大于指定相似度阈值θ,则保留与候选概念词汇ci语义相似度最大的本体概念结点,并将该信息加入到候选本体概念集合Cc,如公式(2)所示,
ci={argmaxisim(ci,cj)if sim(ci,cj)≥θ}} (2);
步骤(E3),针对候选本体概念结点cj及其所属的概念结点ci,需要判断将结点cj作为结点ci的父结点、兄弟结点还是子结点,且判断的具体步骤如下,
步骤(E31),若本体树中当前结点ci既有父结点也有子结点,则设将结点cj放入该层后,分别计算该层所有概念结点与其父结点之间的平均相似,具体步骤如下,
步骤(E311),cj作为父结点的相似度,如公式(3)所示,
步骤(E312),cj作为兄弟结点的相似度,如公式(4)所示,
步骤(E313),cj作为子结点的相似度,如公式(5)所示,
步骤(E32),若本体树中当前结点ci没有兄弟结点但是有子节点,则设将结点cj放入该层后,分别计算该层所有概念结点与其父结点之间的平均相似,具体步骤如下,
步骤(E321),cj作为父结点的相似度,如公式(6)所示,
psim=(sim(p,cj)+sim(cj,ci))/2 (6);
步骤(E322),cj作为兄弟结点的相似度,如公式(7)所示,
步骤(E323),cj作为子弟结点的相似度,如公式(8)所示,
步骤(E33),若本体树中当前结点ci没有子节点,则假设将结点cj放入该层后,分别计算该层所有概念结点与其父结点之间的平均相似,具体步骤如下,
步骤(E331),cj作为父结点的相似度,如公式(9)所示,
步骤(E332),cj作为兄弟结点的相似度,如公式(10)所示,
步骤(E333),cj作为子弟结点的相似度,如公式(11)所示,
csim=(sim(p,ci)+sim(cj,ci))/2 (11);
步骤(E4),比较相似度psim、bsim和csim,若psim最大,则将候选概念cj作为概念ci的父结点;若bsim最大,则将候选概念cj作为概念ci的兄弟结点;若csim最大,则将候选概念cj作为概念ci的子结点;
步骤(E5),基于步骤(E4)更新本体树和更新候选概念集合C'=C'-ci;
步骤(E6),重复步骤(E1~5)直至所有候选概念ci均无合适的本体概念结点与之相似,则本体树构建完成。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210736335.4A CN115203429B (zh) | 2022-06-27 | 2022-06-27 | 一种用于构建审计领域本体框架的知识图谱自动扩充方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210736335.4A CN115203429B (zh) | 2022-06-27 | 2022-06-27 | 一种用于构建审计领域本体框架的知识图谱自动扩充方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115203429A true CN115203429A (zh) | 2022-10-18 |
CN115203429B CN115203429B (zh) | 2023-07-25 |
Family
ID=83578372
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210736335.4A Active CN115203429B (zh) | 2022-06-27 | 2022-06-27 | 一种用于构建审计领域本体框架的知识图谱自动扩充方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115203429B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562785A (zh) * | 2023-03-17 | 2023-08-08 | 广东铭太信息科技有限公司 | 审计迎审系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130138696A1 (en) * | 2011-11-30 | 2013-05-30 | The Institute for System Programming of the Russian Academy of Sciences | Method to build a document semantic model |
CN104008090A (zh) * | 2014-04-29 | 2014-08-27 | 河海大学 | 一种基于概念向量模型的多主题提取方法 |
CN105808525A (zh) * | 2016-03-29 | 2016-07-27 | 国家计算机网络与信息安全管理中心 | 一种基于相似概念对的领域概念上下位关系抽取方法 |
CN109408743A (zh) * | 2018-08-21 | 2019-03-01 | 中国科学院自动化研究所 | 文本链接嵌入方法 |
CN114417004A (zh) * | 2021-11-10 | 2022-04-29 | 南京邮电大学 | 一种知识图谱和事理图谱的融合方法、装置和系统 |
-
2022
- 2022-06-27 CN CN202210736335.4A patent/CN115203429B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20130138696A1 (en) * | 2011-11-30 | 2013-05-30 | The Institute for System Programming of the Russian Academy of Sciences | Method to build a document semantic model |
CN104008090A (zh) * | 2014-04-29 | 2014-08-27 | 河海大学 | 一种基于概念向量模型的多主题提取方法 |
CN105808525A (zh) * | 2016-03-29 | 2016-07-27 | 国家计算机网络与信息安全管理中心 | 一种基于相似概念对的领域概念上下位关系抽取方法 |
CN109408743A (zh) * | 2018-08-21 | 2019-03-01 | 中国科学院自动化研究所 | 文本链接嵌入方法 |
CN114417004A (zh) * | 2021-11-10 | 2022-04-29 | 南京邮电大学 | 一种知识图谱和事理图谱的融合方法、装置和系统 |
Non-Patent Citations (3)
Title |
---|
吴雅娟;王鑫;: "基于领域本体的概念相似度算法研究", 科学技术与工程 * |
潘阳威;徐汀荣;靳涛;: "语义Web本体匹配算法研究", 计算机与现代化 * |
黄佳佳 等: "大数据驱动的审计知识库建设与应用", 《财会月刊》 * |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116562785A (zh) * | 2023-03-17 | 2023-08-08 | 广东铭太信息科技有限公司 | 审计迎审系统 |
CN116562785B (zh) * | 2023-03-17 | 2023-12-15 | 广东铭太信息科技有限公司 | 审计迎审系统 |
Also Published As
Publication number | Publication date |
---|---|
CN115203429B (zh) | 2023-07-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2021114745A1 (zh) | 一种基于词缀感知的社交媒体命名实体识别方法 | |
CN110825881B (zh) | 一种建立电力知识图谱的方法 | |
CN106776711B (zh) | 一种基于深度学习的中文医学知识图谱构建方法 | |
CN106777274B (zh) | 一种中文旅游领域知识图谱构建方法及系统 | |
CN111931506B (zh) | 一种基于图信息增强的实体关系抽取方法 | |
CN104035975B (zh) | 一种利用中文在线资源实现远程监督人物关系抽取的方法 | |
CN108628828A (zh) | 一种基于自注意力的观点及其持有者的联合抽取方法 | |
CN113761890B (zh) | 一种基于bert上下文感知的多层级语义信息检索方法 | |
CN110781670B (zh) | 基于百科知识库和词向量的中文地名语义消歧方法 | |
CN104778256B (zh) | 一种领域问答系统咨询的快速可增量聚类方法 | |
CN108874896B (zh) | 一种基于神经网络和幽默特征的幽默识别方法 | |
CN113268606B (zh) | 知识图谱构建的方法和装置 | |
CN103886020B (zh) | 一种房地产信息快速搜索方法 | |
CN108304424B (zh) | 文本关键词提取方法及文本关键词提取装置 | |
CN107688630A (zh) | 一种基于语义的弱监督微博多情感词典扩充方法 | |
CN108763192B (zh) | 用于文本处理的实体关系抽取方法及装置 | |
CN107526721A (zh) | 一种对电商产品评论词汇的歧义消除方法及装置 | |
CN112434164A (zh) | 一种兼顾话题发现和情感分析的网络舆情分析方法及系统 | |
CN112069312A (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN110134950A (zh) | 一种字词结合的文本自动校对方法 | |
CN102298589A (zh) | 情感倾向性模板的生成方法和装置以及应用方法和装置 | |
CN114491062B (zh) | 一种融合知识图谱和主题模型的短文本分类方法 | |
CN105956158A (zh) | 基于海量微博文本和用户信息的网络新词自动提取的方法 | |
CN106897274B (zh) | 一种跨语种的点评复述方法 | |
CN109189820A (zh) | 一种煤矿安全事故本体概念抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |