CN115795057B - 一种基于ai技术的审计知识处理方法与系统 - Google Patents

一种基于ai技术的审计知识处理方法与系统 Download PDF

Info

Publication number
CN115795057B
CN115795057B CN202310045166.4A CN202310045166A CN115795057B CN 115795057 B CN115795057 B CN 115795057B CN 202310045166 A CN202310045166 A CN 202310045166A CN 115795057 B CN115795057 B CN 115795057B
Authority
CN
China
Prior art keywords
data
knowledge
initial data
audit
entity
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310045166.4A
Other languages
English (en)
Other versions
CN115795057A (zh
Inventor
王开志
李勇
王开向
王涌
龚峰平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhizhen Cloud Intelligent Technology Co ltd
Original Assignee
Beijing Zhizhen Cloud Intelligent Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhizhen Cloud Intelligent Technology Co ltd filed Critical Beijing Zhizhen Cloud Intelligent Technology Co ltd
Priority to CN202310045166.4A priority Critical patent/CN115795057B/zh
Publication of CN115795057A publication Critical patent/CN115795057A/zh
Application granted granted Critical
Publication of CN115795057B publication Critical patent/CN115795057B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种基于AI技术的审计知识处理方法与系统,包括:获取初始数据,并将初始数据输入预先构建的审计知识提取模型,得到审计领域知识;根据审计领域知识,构建审计领域知识图谱;所述审计知识提取模型的构建过程包括:针对初始数据进行数据降噪处理,并通过新词发现技术,获取初始数据对应的实体数据和关系数据;将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析,并针对聚类分析结果进行关联度计算,将关联度计算结果大于预设阈值的初始数据作为审计领域知识。本发明通过构建审计领域知识图谱,极大增加了图谱应用的深度和宽度,丰富了知识体系。

Description

一种基于AI技术的审计知识处理方法与系统
技术领域
本发明涉及审计知识智能提取技术领域,特别涉及一种基于AI技术的审计知识处理方法与系统。
背景技术
目前,随着公司业务的不断延展和深入发展,被审计的业务范围以及数据量日益扩大、数据结构日益复杂,亟需利用新技术与业务融合,敏捷快速的响应公司信息化建设规模不断扩大情况下的审计监督全覆盖需求。在提升审计工作数据处理效率方面,自然语言处理及知识图谱、知识推理等人工智能AI技术具有重要应用价值,能够促进公司信息化建设质效提升,提高信息系统的可靠性、稳定性、安全性,以及数据处理的完整性和准确性。
现有技术的缺点:在知识图谱构建技术方面,对于审计业务知识识别和抽取技术,市场上现有技术更多采用封闭式抽取技术,依据业务场景制定审计知识图谱本体框架,通过数据分析、人工定义关系类别、人工定义实体类别、人工数据标注、模型训练进行实体和关系的抽取,但此类封闭式抽取技术方式易受到人为因素影响,实体关系抽取不全面、不完整,易使业务上有局限性。比如通过封闭式抽取技术往往抽取的是业务场景关键要素,假如一段文本包含15个实体和8个关系,封闭式抽取技术仅识别抽取关键的7到8个实体和关系,此段文本其它的实体甚至隐藏的实体无法识别抽取,导致构建的图谱知识不完整,直接限制了审计图谱应用广泛性。
发明内容
本发明提供了一种基于AI技术的审计知识处理方法,包括:
获取初始数据,并将所述初始数据输入预先构建的审计知识提取模型,得到审计领域知识;
根据所述审计领域知识,构建审计领域知识图谱;
所述审计知识提取模型的构建过程,包括:
针对所述初始数据进行数据降噪处理,将降噪处理后的初始数据通过新词发现技术,获取所述初始数据对应的实体数据和关系数据;
将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析,得到对应的聚类分析结果;
针对所述聚类分析结果进行关联度计算,将关联度计算结果大于预设阈值的初始数据作为审计领域知识构建审计知识提取模型。
优选的,所述根据所述审计领域知识,构建审计领域知识图谱,包括:
通过远程监督关系抽取方法,对所述审计领域知识进行关系抽取,得到开放式三元组;
通过所述新词发现技术,对所述初始数据进行关系抽取,得到封闭式三元组;
针对所述开放式三元组和所述封闭式三元组进行知识融合,并对知识融合后的开放式三元组和封闭式三元组进行知识图谱构建,得到审计领域知识图谱。
优选的, 所述针对所述初始数据进行数据降噪处理,包括:
获取所述初始数据中的无效数据,并针对所述无效数据进行剔除处理;其中,所述无效数据包括:重复数据和冗余数据。
优选的,所述将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析,得到对应的聚类分析结果,包括:
针对预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行标准化处理,得到一级处理数据;
针对所述一级处理数据进行层次聚类,得到对应的聚类分析结果。
优选的,所述将降噪处理后的初始数据通过新词发现技术,获取所述初始数据对应的实体数据和关系数据,包括:
将降噪处理后的初始数据通过预设的n-gram模型,获取每个长度的文字组合对应的候选词词频;
将降噪处理后的初始数据通过预设的textrank模型,获取每个长度的文字组合对应的候选词权重;
基于所述初始数据中每个长度的文字组合对应的候选词词频和候选词权重,对所述初始数据进行删除过滤,得到所述初始数据对应的实体数据关系数据。
优选的,所述将降噪处理后的初始数据通过预设的n-gram模型,获取每个长度的文字组合对应的候选词词频,包括:
将降噪处理后的初始数据使用滑动窗口获取预设长度的文字组合;
基于所述预设长度的文字组合,统计每个长度的文字组合对应的候选词词频。
基于同一发明构思,本发明还提供了一种基于AI技术的审计知识处理系统,包括:
知识抽取模块:用于获取初始数据,并将所述初始数据输入预先构建的审计知识提取模型,得到审计领域知识;
知识图谱构建模块:用于根据所述审计领域知识,构建审计领域知识图谱;
其中,所述知识抽取模块中审计知识提取模型的构建过程,包括:
针对所述初始数据进行数据降噪处理,将降噪处理后的初始数据通过新词发现技术,获取所述初始数据对应的实体数据和关系数据;
将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析,得到对应的聚类分析结果;
针对所述聚类分析结果进行关联度计算,将关联度计算结果大于预设阈值的初始数据作为审计领域知识构建审计知识提取模型。
优选的,所述知识图谱构建模块,具体用于:
通过远程监督关系抽取方法,对所述审计领域知识进行关系抽取,得到开放式三元组;
通过所述新词发现技术,对所述初始数据进行关系抽取,得到封闭式三元组;
针对所述开放式三元组和所述封闭式三元组进行知识融合,并对知识融合后的开放式三元组和封闭式三元组进行知识图谱构建,得到审计领域知识图谱。
优选的,所述知识抽取模块中针对所述初始数据进行数据降噪处理,包括:
获取所述初始数据中的无效数据,并针对所述无效数据进行剔除处理;其中,所述无效数据包括:重复数据和冗余数据。
优选的,所述知识抽取模块中将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析,得到对应的聚类分析结果,包括:
针对预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行标准化处理,得到一级处理数据;
针对所述一级处理数据进行层次聚类,得到对应的聚类分析结果。
优选的,所述知识图谱构建模块中将降噪处理后的初始数据通过新词发现技术,获取所述初始数据对应的实体数据和关系数据,包括:
将降噪处理后的初始数据通过预设的n-gram模型,获取每个长度的文字组合对应的候选词词频;
将降噪处理后的初始数据通过预设的textrank模型,获取每个长度的文字组合对应的候选词权重;
基于所述初始数据中每个长度的文字组合对应的候选词词频和候选词权重,对所述初始数据进行删除过滤,得到所述初始数据对应的实体数据关系数据。
优选的,所述知识图谱构建模块中将降噪处理后的初始数据通过预设的n-gram模型,获取每个长度的文字组合对应的候选词词频,包括:
将降噪处理后的初始数据使用滑动窗口获取预设长度的文字组合;
基于所述预设长度的文字组合,统计每个长度的文字组合对应的候选词词频。
与最接近的现有技术相比,本发明具有的有益效果如下:
本发明提供了一种基于AI技术的审计知识处理方法与系统,包括:获取初始数据,并将所述初始数据输入预先构建的审计知识提取模型,得到审计领域知识;根据所述审计领域知识,构建审计领域知识图谱;所述审计知识提取模型的构建过程,包括:针对所述初始数据进行数据降噪处理,将降噪处理后的初始数据通过新词发现技术,获取所述初始数据对应的实体数据和关系数据;将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析,得到对应的聚类分析结果;针对所述聚类分析结果进行关联度计算,将关联度计算结果大于预设阈值的初始数据作为审计领域知识。本发明通过将初始数据中的实体和关系进行识别,包括隐藏的不易发现实体,大大丰富了知识体系;同时新词发现技术能够辅助封闭式抽取关系类别定义、辅助预料标注;二是创新应用开放式抽取技术,基于新词发现细化的知识粒度,通过远程监督抽取技术,完成知识抽取,基于知识图谱技术构建的业务图谱,极大增加了图谱应用的深度和宽度,在智慧搜索、智能推荐、人机对话、决策支持应用方面起到立竿见影效果。
本发明的其它特征将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明提供的一种基于AI技术的审计知识处理方法流程示意图;
图2为本发明提供的一种基于AI技术的审计知识处理方法中新词发现技术对审计领域知识识别的流程示意图;
图3为本发明提供的一种基于AI技术的审计知识处理方法中开放式审计知识抽取技术对审计领域知识识别、抽取、融合的流程图;
图4为本发明提供的一种基于AI技术的审计知识处理系统结构组成示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序,“多个”的含义是两个或两个以上,除非另有明确具体的限定。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
实施例1
本发明实施例提供了一种基于AI技术的审计知识处理方法,如附图1所示,包括:
获取初始数据,并将所述初始数据输入预先构建的审计知识提取模型,得到审计领域知识;
根据所述审计领域知识,构建审计领域知识图谱;
所述审计知识提取模型的构建过程,包括:
针对所述初始数据进行数据降噪处理,将降噪处理后的初始数据通过新词发现技术,获取所述初始数据对应的实体数据和关系数据;
将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析,得到对应的聚类分析结果;
针对所述聚类分析结果进行关联度计算,将关联度计算结果大于预设阈值的初始数据作为审计领域知识构建审计知识提取模型。
所述根据所述审计领域知识,构建审计领域知识图谱,包括:
通过远程监督关系抽取方法,对所述审计领域知识进行关系抽取,得到开放式三元组;
通过所述新词发现技术,对所述初始数据进行关系抽取,得到封闭式三元组;
针对所述开放式三元组和所述封闭式三元组进行知识融合,并对知识融合后的开放式三元组和封闭式三元组进行知识图谱构建,得到审计领域知识图谱;
如附图2所示,开放式审计知识抽取技术方案如下:
201:基于新词发现智能技术识别审计领域知识为一个个独立的实体词、关系词、属性词;
202:通过远程监督抽取技术将独立的实体词、关系词、属性词抽取为开放式三元组;
203:基于新词发现智能技术识别的实体词、关系词辅助语料标注,支撑封闭式抽取技术对审计领域知识的数据抽取,形成封闭式三元组;
204:完成开放式三元组知识的融合以及封闭式三元组知识融合;
205:完成审计领域知识粒度细化的图谱构建,极大增加了图谱应用的深度和宽度。
所述针对所述初始数据进行数据降噪处理,包括:
获取所述初始数据中的无效数据,并针对所述无效数据进行剔除处理;其中,所述无效数据包括:重复数据和冗余数据。
所述将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析,得到对应的聚类分析结果,包括:
针对预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行标准化处理,得到一级处理数据;
针对所述一级处理数据进行层次聚类,得到对应的聚类分析结果。
所述将降噪处理后的初始数据通过新词发现技术,获取所述初始数据对应的实体数据和关系数据,包括:
将降噪处理后的初始数据通过预设的n-gram模型,获取每个长度的文字组合对应的候选词词频;
将降噪处理后的初始数据通过预设的textrank模型,获取每个长度的文字组合对应的候选词权重;
基于所述初始数据中每个长度的文字组合对应的候选词词频和候选词权重,对所述初始数据进行删除过滤,得到所述初始数据对应的实体数据关系数据。
如附图3所示,新词发现智能技术方案如下:
301:使用全部数据源,利用n-gram模型,使用滑动窗口获取2-10个字的各长度的文字组合,并:(1)分别统计每个长度组合的各候选词的词频;(2)利用textrank模型思想计算每个长度组合的各候选词权重;
302:利用父子串算法对“词-词频”列表自动过滤不可能的候选词语;
303:采用textrank思想计算权重,对“词-词频”列表进一步过滤不可能的候选词语;
304:基于互联网GitHub平台下载NLP的中文通用名词库和中文通用动词库,自动获取上述列表中的名词和动词,并将其从此列表中删除过滤;
305:根据自定义阈值,人工review“词-词频”列表,review过程中,从中分离出关系新词,合并步骤四的名词和动词,最后得到实体新词vocabulary和关系新词vocabulary。
所述将降噪处理后的初始数据通过预设的n-gram模型,获取每个长度的文字组合对应的候选词词频,包括:
将降噪处理后的初始数据使用滑动窗口获取预设长度的文字组合;
基于所述预设长度的文字组合,统计每个长度的文字组合对应的候选词词频;
本发明针对审计领域知识源数据分两个方向进行处理,分别是封闭式审计知识抽取技术和开放式审计知识抽取技术。封闭式审计知识抽取技术,如同盖房子先搭好框架,建数据库先设计数据表结构一样,构建知识图谱前,先要设计知识图谱的结构体系(Schema),主要是设计定义实体类别和关系类别,在知识图谱的术语里,一般称为本体体系。完成知识图谱的schema设计,就可以把审计领域知识抽取至知识图谱中。而知识的来源,可能是结构化的数据库,也可能是非结构化的文档,这个过程是构建知识图谱的关键步骤。一般称为知识抽取,主要是对数据的标注,并对数据抽取模型进行训练,新的审计领域知识数据进入后,按照本体框架对其进行数据的抽取,形成封闭式审计知识三元组,完成封闭式审计领域知识抽取。
开放式审计知识抽取技术通过创新新词发现智能技术,结合第三方知识库,用于实现将一篇文章或一段文字中所有客观存在的实体、关系以及属性都识别出来,包括隐藏的不易发现实体、关系和属性,大大丰富了知识体系,识别的实体词、关系词、属性词通过远程监督抽取技术,形成开放式审计知识三元组,完成开放式审计知识抽取。
对不同审计领域知识数据源抽取的实体词进行实体消歧,例如“苹果”,某些场景是指水果,某些场景是指苹果公司,通过算法和技术手段确定它的正确含义。通过实体链接技术将新的审计领域知识数据源发现的实体识别出来,并将其与知识图谱中已存在的实体进行对应关联,完成封闭式审计知识三元组和开放式审计知识三元组的知识融合更新,最终完成知识图谱构建,进行语义化智能应用。针对审计领域知识处理的流程,通过新词发现智能技术识别一段文字或一篇文章所有客观存在的实体和关系,包括隐藏的不易发现实体,大大丰富审计知识体系,同时,新词发现智能技术能够辅助封闭式抽取关系类别定义、辅助语料标注;基于新词发现细化的知识粒度,通过远程监督抽取技术,完成知识抽取支撑审计知识图谱构建,极大增加图谱应用深度和宽度,基于链接预测的审计领域知识融合更新技术实现新增审计知识元的融合更新。
实施例2
本发明实施例提供了一种基于AI技术的审计知识处理系统,如附图4所示,包括:
知识抽取模块:用于获取初始数据,并将所述初始数据输入预先构建的审计知识提取模型,得到审计领域知识;
知识图谱构建模块:用于根据所述审计领域知识,构建审计领域知识图谱;
其中,所述知识抽取模块中审计知识提取模型的构建过程,包括:
针对所述初始数据进行数据降噪处理,将降噪处理后的初始数据通过新词发现技术,获取所述初始数据对应的实体数据和关系数据;
将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析,得到对应的聚类分析结果;
针对所述聚类分析结果进行关联度计算,将关联度计算结果大于预设阈值的初始数据作为审计领域知识。
所述知识图谱构建模块,具体用于:
通过远程监督关系抽取方法,对所述审计领域知识进行关系抽取,得到开放式三元组;
通过所述新词发现技术,对所述初始数据进行关系抽取,得到封闭式三元组;
针对所述开放式三元组和所述封闭式三元组进行知识融合,并对知识融合后的开放式三元组和封闭式三元组进行知识图谱构建,得到审计领域知识图谱。
所述知识抽取模块中针对所述初始数据进行数据降噪处理,包括:
获取所述初始数据中的无效数据,并针对所述无效数据进行剔除处理;其中,所述无效数据包括:重复数据和冗余数据。
所述知识抽取模块中将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析,得到对应的聚类分析结果,包括:
针对预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行标准化处理,得到一级处理数据;
针对所述一级处理数据进行层次聚类,得到对应的聚类分析结果。
所述知识图谱构建模块中将降噪处理后的初始数据通过新词发现技术,获取所述初始数据对应的实体数据和关系数据,包括:
将降噪处理后的初始数据通过预设的n-gram模型,获取每个长度的文字组合对应的候选词词频;
将降噪处理后的初始数据通过预设的textrank模型,获取每个长度的文字组合对应的候选词权重;
基于所述初始数据中每个长度的文字组合对应的候选词词频和候选词权重,对所述初始数据进行删除过滤,得到所述初始数据对应的实体数据关系数据。
所述知识图谱构建模块中将降噪处理后的初始数据通过预设的n-gram模型,获取每个长度的文字组合对应的候选词词频,包括:
将降噪处理后的初始数据使用滑动窗口获取预设长度的文字组合;
基于所述预设长度的文字组合,统计每个长度的文字组合对应的候选词词频。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (5)

1.一种基于AI技术的审计知识处理方法,其特征在于,包括:
获取初始数据,并将所述初始数据输入预先构建的审计知识提取模型,得到审计领域知识;
根据所述审计领域知识,构建审计领域知识图谱;
所述审计知识提取模型的构建过程,包括:
针对所述初始数据进行数据降噪处理,将降噪处理后的初始数据通过新词发现技术,获取所述初始数据对应的实体数据和关系数据;
将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析,得到对应的聚类分析结果;
针对所述聚类分析结果进行关联度计算,将关联度计算结果大于预设阈值的初始数据作为审计领域知识构建审计知识提取模型;
所述根据所述审计领域知识,构建审计领域知识图谱,包括:
通过远程监督关系抽取方法,对所述审计领域知识进行关系抽取, 得到开放式三元组;
通过所述新词发现技术,对所述初始数据进行关系抽取,得到封闭式三元组;
针对所述开放式三元组和所述封闭式三元组进行知识融合,并对知识融合后的开放式三元组和封闭式三元组进行知识图谱构建,得到审计领域知识图谱;
所述将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析,得到对应的聚类分析结果,包括:
针对预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行标准化处理,得到一级处理数据;
针对所述一级处理数据进行层次聚类,得到对应的聚类分析结果;
所述将降噪处理后的初始数据通过新词发现技术,获取所述初始数据对应的实体数据和关系数据,包括:
将降噪处理后的初始数据通过预设的n-gram模型,获取每个长度的文字组合对应的候选词词频;
将降噪处理后的初始数据通过预设的textrank模型,获取每个长度的文字组合对应的候选词权重;
基于所述初始数据中每个长度的文字组合对应的候选词词频和候选词权重,对所述初始数据进行删除过滤,得到所述初始数据对应的实体数据关系数据。
2.如权利要求1所述的方法,其特征在于, 所述针对所述初始数据进行数据降噪处理,包括:
获取所述初始数据中的无效数据,并针对所述无效数据进行剔除处理;其中,所述无效数据包括:重复数据和冗余数据。
3.如权利要求1所述的方法,其特征在于,所述将降噪处理后的初始数据通过预设的n-gram模型,获取每个长度的文字组合对应的候选词词频,包括:
将降噪处理后的初始数据使用滑动窗口获取预设长度的文字组合;
基于所述预设长度的文字组合,统计每个长度的文字组合对应的候选词词频。
4.一种基于AI技术的审计知识处理系统,其特征在于,包括:
知识抽取模块:用于获取初始数据,并将所述初始数据输入预先构建的审计知识提取模型,得到审计领域知识;
知识图谱构建模块:用于根据所述审计领域知识,构建审计领域知识图谱;
其中,所述知识抽取模块中审计知识提取模型的构建过程,包括:
针对所述初始数据进行数据降噪处理,将降噪处理后的初始数据通过新词发现技术,获取所述初始数据对应的实体数据和关系数据;
将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析,得到对应的聚类分析结果;
针对所述聚类分析结果进行关联度计算,将关联度计算结果大于预设阈值的初始数据作为审计领域知识构建审计知识提取模型;
所述知识图谱构建模块,具体用于:
通过远程监督关系抽取方法,对所述审计领域知识进行关系抽取, 得到开放式三元组;
通过所述新词发现技术,对所述初始数据进行关系抽取,得到封闭式三元组;
针对所述开放式三元组和所述封闭式三元组进行知识融合,并对知识融合后的开放式三元组和封闭式三元组进行知识图谱构建,得到审计领域知识图谱;
所述知识图谱构建模块中将降噪处理后的初始数据通过新词发现技术,获取所述初始数据对应的实体数据和关系数据,包括:
将降噪处理后的初始数据通过预设的n-gram模型,获取每个长度的文字组合对应的候选词词频;
将降噪处理后的初始数据通过预设的textrank模型,获取每个长度的文字组合对应的候选词权重;
基于所述初始数据中每个长度的文字组合对应的候选词词频和候选词权重,对所述初始数据进行删除过滤,得到所述初始数据对应的实体数据关系数据。
5.如权利要求4所述的系统,其特征在于,所述知识图谱构建模块中将降噪处理后的初始数据通过预设的n-gram模型,获取每个长度的文字组合对应的候选词词频,包括:
将降噪处理后的初始数据使用滑动窗口获取预设长度的文字组合;
基于所述预设长度的文字组合,统计每个长度的文字组合对应的候选词词频。
CN202310045166.4A 2023-01-30 2023-01-30 一种基于ai技术的审计知识处理方法与系统 Active CN115795057B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310045166.4A CN115795057B (zh) 2023-01-30 2023-01-30 一种基于ai技术的审计知识处理方法与系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310045166.4A CN115795057B (zh) 2023-01-30 2023-01-30 一种基于ai技术的审计知识处理方法与系统

Publications (2)

Publication Number Publication Date
CN115795057A CN115795057A (zh) 2023-03-14
CN115795057B true CN115795057B (zh) 2023-05-02

Family

ID=85429198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310045166.4A Active CN115795057B (zh) 2023-01-30 2023-01-30 一种基于ai技术的审计知识处理方法与系统

Country Status (1)

Country Link
CN (1) CN115795057B (zh)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021139283A1 (zh) * 2020-06-16 2021-07-15 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110334212A (zh) * 2019-07-01 2019-10-15 南京审计大学 一种基于机器学习的领域性审计知识图谱构建方法
CN114691835A (zh) * 2022-04-21 2022-07-01 广东电网有限责任公司 基于文本挖掘的审计计划数据生成方法、装置和设备
CN114817570A (zh) * 2022-05-11 2022-07-29 四川封面传媒科技有限责任公司 基于知识图谱的新闻领域多场景文本纠错方法

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021139283A1 (zh) * 2020-06-16 2021-07-15 平安科技(深圳)有限公司 基于深度学习技术的知识图谱问答方法、装置及设备

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
"人工智能领域中计算机网络技术的应用";李勇;《软件技术与信息服务》;全文 *
"基于文本挖掘的管理科学学科研究热点及前沿发现与分析";侯捷;《中国优秀硕士学位论文全文数据库 经济与管理科学辑》;全文 *
"审计知识图谱的构建与研究——基于Neo4j的图谱技术";王瑞萍 等;《CICPA》;全文 *
Zhuang Ping 等."Visualization Analysis of the Hot Fields of China's Accounting Research——Based on the journal of Accounting Research".《2018年第一届经济管理与绿色发展国际会议论文集(ICEMGD2018)》.2018,全文. *

Also Published As

Publication number Publication date
CN115795057A (zh) 2023-03-14

Similar Documents

Publication Publication Date Title
CN109241538B (zh) 基于关键词和动词依存的中文实体关系抽取方法
CN106776711B (zh) 一种基于深度学习的中文医学知识图谱构建方法
CN110765257B (zh) 一种知识图谱驱动型的法律智能咨询系统
CN106844658B (zh) 一种中文文本知识图谱自动构建方法及系统
US9613317B2 (en) Justifying passage machine learning for question and answer systems
CN105528437B (zh) 一种基于结构化文本知识提取的问答系统构建方法
WO2020010834A1 (zh) 一种faq问答库泛化方法、装置及设备
US10387805B2 (en) System and method for ranking news feeds
CN105787134B (zh) 智能问答方法、装置及系统
WO2020074023A1 (zh) 基于深度学习的医学文献中关键句筛选方法及装置
CN105718585B (zh) 文档与标签词语义关联方法及其装置
CN115080694A (zh) 一种基于知识图谱的电力行业信息分析方法及设备
US20170169355A1 (en) Ground Truth Improvement Via Machine Learned Similar Passage Detection
CN111581990A (zh) 跨境交易撮合匹配方法及装置
CN104298683B (zh) 主题挖掘方法和设备、以及查询扩展方法和设备
CN109522396B (zh) 一种面向国防科技领域的知识处理方法及系统
CN109101551A (zh) 一种问答知识库的构建方法及装置
Menezes et al. Building a massive corpus for named entity recognition using free open data sources
CN112633012A (zh) 一种基于实体类型匹配的未登录词替换方法
CN112486919A (zh) 文档管理方法、系统及存储介质
CN111241299A (zh) 一种法律咨询的知识图谱自动构建方法及其检索系统
Amato et al. An application of semantic techniques for forensic analysis
CN114911893A (zh) 基于知识图谱的自动化构建知识库的方法及系统
CN114265931A (zh) 基于大数据文本挖掘的消费者政策感知分析方法及系统
CN111859922A (zh) 实体关系抽取技术在银行风控中的应用方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
PE01 Entry into force of the registration of the contract for pledge of patent right

Denomination of invention: An Audit Knowledge Processing Method and System Based on AI Technology

Granted publication date: 20230502

Pledgee: Mentougou Green Sub branch of Bank of Beijing Co.,Ltd.

Pledgor: Beijing Zhizhen Cloud Intelligent Technology Co.,Ltd.

Registration number: Y2024110000128

PE01 Entry into force of the registration of the contract for pledge of patent right