CN115795057B

CN115795057B - 一种基于ai技术的审计知识处理方法与系统

Info

Publication number: CN115795057B
Application number: CN202310045166.4A
Authority: CN
Inventors: 王开志; 李勇; 王开向; 王涌; 龚峰平
Original assignee: Beijing Zhizhen Cloud Intelligent Technology Co ltd
Current assignee: Beijing Zhizhen Cloud Intelligent Technology Co ltd
Priority date: 2023-01-30
Filing date: 2023-01-30
Publication date: 2023-05-02
Anticipated expiration: 2043-01-30
Also published as: CN115795057A

Abstract

本发明提供了一种基于AI技术的审计知识处理方法与系统，包括：获取初始数据，并将初始数据输入预先构建的审计知识提取模型，得到审计领域知识；根据审计领域知识，构建审计领域知识图谱；所述审计知识提取模型的构建过程包括：针对初始数据进行数据降噪处理，并通过新词发现技术，获取初始数据对应的实体数据和关系数据；将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析，并针对聚类分析结果进行关联度计算，将关联度计算结果大于预设阈值的初始数据作为审计领域知识。本发明通过构建审计领域知识图谱，极大增加了图谱应用的深度和宽度，丰富了知识体系。

Description

一种基于AI技术的审计知识处理方法与系统

技术领域

本发明涉及审计知识智能提取技术领域，特别涉及一种基于AI技术的审计知识处理方法与系统。

背景技术

目前，随着公司业务的不断延展和深入发展，被审计的业务范围以及数据量日益扩大、数据结构日益复杂，亟需利用新技术与业务融合，敏捷快速的响应公司信息化建设规模不断扩大情况下的审计监督全覆盖需求。在提升审计工作数据处理效率方面，自然语言处理及知识图谱、知识推理等人工智能AI技术具有重要应用价值，能够促进公司信息化建设质效提升，提高信息系统的可靠性、稳定性、安全性，以及数据处理的完整性和准确性。

现有技术的缺点：在知识图谱构建技术方面，对于审计业务知识识别和抽取技术，市场上现有技术更多采用封闭式抽取技术，依据业务场景制定审计知识图谱本体框架，通过数据分析、人工定义关系类别、人工定义实体类别、人工数据标注、模型训练进行实体和关系的抽取，但此类封闭式抽取技术方式易受到人为因素影响，实体关系抽取不全面、不完整，易使业务上有局限性。比如通过封闭式抽取技术往往抽取的是业务场景关键要素，假如一段文本包含15个实体和8个关系，封闭式抽取技术仅识别抽取关键的7到8个实体和关系，此段文本其它的实体甚至隐藏的实体无法识别抽取，导致构建的图谱知识不完整，直接限制了审计图谱应用广泛性。

发明内容

本发明提供了一种基于AI技术的审计知识处理方法，包括：

获取初始数据，并将所述初始数据输入预先构建的审计知识提取模型，得到审计领域知识；

根据所述审计领域知识，构建审计领域知识图谱；

所述审计知识提取模型的构建过程，包括：

针对所述初始数据进行数据降噪处理，将降噪处理后的初始数据通过新词发现技术，获取所述初始数据对应的实体数据和关系数据；

将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析，得到对应的聚类分析结果；

针对所述聚类分析结果进行关联度计算，将关联度计算结果大于预设阈值的初始数据作为审计领域知识构建审计知识提取模型。

优选的，所述根据所述审计领域知识，构建审计领域知识图谱，包括：

通过远程监督关系抽取方法，对所述审计领域知识进行关系抽取，得到开放式三元组；

通过所述新词发现技术，对所述初始数据进行关系抽取，得到封闭式三元组；

针对所述开放式三元组和所述封闭式三元组进行知识融合，并对知识融合后的开放式三元组和封闭式三元组进行知识图谱构建，得到审计领域知识图谱。

优选的，所述针对所述初始数据进行数据降噪处理，包括：

获取所述初始数据中的无效数据，并针对所述无效数据进行剔除处理；其中，所述无效数据包括：重复数据和冗余数据。

优选的，所述将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析，得到对应的聚类分析结果，包括：

针对预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行标准化处理，得到一级处理数据；

针对所述一级处理数据进行层次聚类，得到对应的聚类分析结果。

优选的，所述将降噪处理后的初始数据通过新词发现技术，获取所述初始数据对应的实体数据和关系数据，包括：

将降噪处理后的初始数据通过预设的n-gram模型，获取每个长度的文字组合对应的候选词词频；

将降噪处理后的初始数据通过预设的textrank模型，获取每个长度的文字组合对应的候选词权重；

基于所述初始数据中每个长度的文字组合对应的候选词词频和候选词权重，对所述初始数据进行删除过滤，得到所述初始数据对应的实体数据关系数据。

优选的，所述将降噪处理后的初始数据通过预设的n-gram模型，获取每个长度的文字组合对应的候选词词频，包括：

将降噪处理后的初始数据使用滑动窗口获取预设长度的文字组合；

基于所述预设长度的文字组合，统计每个长度的文字组合对应的候选词词频。

基于同一发明构思，本发明还提供了一种基于AI技术的审计知识处理系统，包括：

知识抽取模块：用于获取初始数据，并将所述初始数据输入预先构建的审计知识提取模型，得到审计领域知识；

知识图谱构建模块：用于根据所述审计领域知识，构建审计领域知识图谱；

其中，所述知识抽取模块中审计知识提取模型的构建过程，包括：

优选的，所述知识图谱构建模块，具体用于：

优选的，所述知识抽取模块中针对所述初始数据进行数据降噪处理，包括：

优选的，所述知识抽取模块中将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析，得到对应的聚类分析结果，包括：

优选的，所述知识图谱构建模块中将降噪处理后的初始数据通过新词发现技术，获取所述初始数据对应的实体数据和关系数据，包括：

优选的，所述知识图谱构建模块中将降噪处理后的初始数据通过预设的n-gram模型，获取每个长度的文字组合对应的候选词词频，包括：

与最接近的现有技术相比，本发明具有的有益效果如下：

本发明提供了一种基于AI技术的审计知识处理方法与系统，包括：获取初始数据，并将所述初始数据输入预先构建的审计知识提取模型，得到审计领域知识；根据所述审计领域知识，构建审计领域知识图谱；所述审计知识提取模型的构建过程，包括：针对所述初始数据进行数据降噪处理，将降噪处理后的初始数据通过新词发现技术，获取所述初始数据对应的实体数据和关系数据；将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析，得到对应的聚类分析结果；针对所述聚类分析结果进行关联度计算，将关联度计算结果大于预设阈值的初始数据作为审计领域知识。本发明通过将初始数据中的实体和关系进行识别，包括隐藏的不易发现实体，大大丰富了知识体系；同时新词发现技术能够辅助封闭式抽取关系类别定义、辅助预料标注；二是创新应用开放式抽取技术，基于新词发现细化的知识粒度，通过远程监督抽取技术，完成知识抽取，基于知识图谱技术构建的业务图谱，极大增加了图谱应用的深度和宽度，在智慧搜索、智能推荐、人机对话、决策支持应用方面起到立竿见影效果。

本发明的其它特征将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明提供的一种基于AI技术的审计知识处理方法流程示意图；

图2为本发明提供的一种基于AI技术的审计知识处理方法中新词发现技术对审计领域知识识别的流程示意图；

图3为本发明提供的一种基于AI技术的审计知识处理方法中开放式审计知识抽取技术对审计领域知识识别、抽取、融合的流程图；

图4为本发明提供的一种基于AI技术的审计知识处理系统结构组成示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序，“多个”的含义是两个或两个以上，除非另有明确具体的限定。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

实施例1

本发明实施例提供了一种基于AI技术的审计知识处理方法，如附图1所示，包括：

根据所述审计领域知识，构建审计领域知识图谱；

所述审计知识提取模型的构建过程，包括：

所述根据所述审计领域知识，构建审计领域知识图谱，包括：

针对所述开放式三元组和所述封闭式三元组进行知识融合，并对知识融合后的开放式三元组和封闭式三元组进行知识图谱构建，得到审计领域知识图谱；

如附图2所示，开放式审计知识抽取技术方案如下：

201：基于新词发现智能技术识别审计领域知识为一个个独立的实体词、关系词、属性词；

202：通过远程监督抽取技术将独立的实体词、关系词、属性词抽取为开放式三元组；

203：基于新词发现智能技术识别的实体词、关系词辅助语料标注，支撑封闭式抽取技术对审计领域知识的数据抽取，形成封闭式三元组；

204：完成开放式三元组知识的融合以及封闭式三元组知识融合；

205：完成审计领域知识粒度细化的图谱构建，极大增加了图谱应用的深度和宽度。

所述针对所述初始数据进行数据降噪处理，包括：

所述将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析，得到对应的聚类分析结果，包括：

所述将降噪处理后的初始数据通过新词发现技术，获取所述初始数据对应的实体数据和关系数据，包括：

如附图3所示，新词发现智能技术方案如下：

301：使用全部数据源，利用n-gram模型，使用滑动窗口获取2-10个字的各长度的文字组合，并：（1）分别统计每个长度组合的各候选词的词频；（2）利用textrank模型思想计算每个长度组合的各候选词权重；

302：利用父子串算法对“词-词频”列表自动过滤不可能的候选词语；

303：采用textrank思想计算权重，对“词-词频”列表进一步过滤不可能的候选词语；

304：基于互联网GitHub平台下载NLP的中文通用名词库和中文通用动词库，自动获取上述列表中的名词和动词，并将其从此列表中删除过滤；

305：根据自定义阈值，人工review“词-词频”列表，review过程中，从中分离出关系新词，合并步骤四的名词和动词，最后得到实体新词vocabulary和关系新词vocabulary。

所述将降噪处理后的初始数据通过预设的n-gram模型，获取每个长度的文字组合对应的候选词词频，包括：

基于所述预设长度的文字组合，统计每个长度的文字组合对应的候选词词频；

本发明针对审计领域知识源数据分两个方向进行处理，分别是封闭式审计知识抽取技术和开放式审计知识抽取技术。封闭式审计知识抽取技术，如同盖房子先搭好框架，建数据库先设计数据表结构一样，构建知识图谱前，先要设计知识图谱的结构体系(Schema)，主要是设计定义实体类别和关系类别，在知识图谱的术语里，一般称为本体体系。完成知识图谱的schema设计，就可以把审计领域知识抽取至知识图谱中。而知识的来源，可能是结构化的数据库，也可能是非结构化的文档，这个过程是构建知识图谱的关键步骤。一般称为知识抽取，主要是对数据的标注，并对数据抽取模型进行训练，新的审计领域知识数据进入后，按照本体框架对其进行数据的抽取，形成封闭式审计知识三元组，完成封闭式审计领域知识抽取。

开放式审计知识抽取技术通过创新新词发现智能技术，结合第三方知识库，用于实现将一篇文章或一段文字中所有客观存在的实体、关系以及属性都识别出来，包括隐藏的不易发现实体、关系和属性，大大丰富了知识体系，识别的实体词、关系词、属性词通过远程监督抽取技术，形成开放式审计知识三元组，完成开放式审计知识抽取。

对不同审计领域知识数据源抽取的实体词进行实体消歧，例如“苹果”，某些场景是指水果，某些场景是指苹果公司，通过算法和技术手段确定它的正确含义。通过实体链接技术将新的审计领域知识数据源发现的实体识别出来，并将其与知识图谱中已存在的实体进行对应关联，完成封闭式审计知识三元组和开放式审计知识三元组的知识融合更新，最终完成知识图谱构建，进行语义化智能应用。针对审计领域知识处理的流程，通过新词发现智能技术识别一段文字或一篇文章所有客观存在的实体和关系，包括隐藏的不易发现实体，大大丰富审计知识体系，同时，新词发现智能技术能够辅助封闭式抽取关系类别定义、辅助语料标注；基于新词发现细化的知识粒度，通过远程监督抽取技术，完成知识抽取支撑审计知识图谱构建，极大增加图谱应用深度和宽度，基于链接预测的审计领域知识融合更新技术实现新增审计知识元的融合更新。

实施例2

本发明实施例提供了一种基于AI技术的审计知识处理系统，如附图4所示，包括：

针对所述聚类分析结果进行关联度计算，将关联度计算结果大于预设阈值的初始数据作为审计领域知识。

所述知识图谱构建模块，具体用于：

所述知识抽取模块中针对所述初始数据进行数据降噪处理，包括：

所述知识抽取模块中将预设的审计领域实体关系信息及所述初始数据对应的实体数据和关系数据进行聚类分析，得到对应的聚类分析结果，包括：

所述知识图谱构建模块中将降噪处理后的初始数据通过新词发现技术，获取所述初始数据对应的实体数据和关系数据，包括：

所述知识图谱构建模块中将降噪处理后的初始数据通过预设的n-gram模型，获取每个长度的文字组合对应的候选词词频，包括：

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器和光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于AI技术的审计知识处理方法，其特征在于，包括：

根据所述审计领域知识，构建审计领域知识图谱；

所述审计知识提取模型的构建过程，包括：

针对所述聚类分析结果进行关联度计算，将关联度计算结果大于预设阈值的初始数据作为审计领域知识构建审计知识提取模型；

针对所述一级处理数据进行层次聚类，得到对应的聚类分析结果；

2.如权利要求1所述的方法，其特征在于，所述针对所述初始数据进行数据降噪处理，包括：

3.如权利要求1所述的方法，其特征在于，所述将降噪处理后的初始数据通过预设的n-gram模型，获取每个长度的文字组合对应的候选词词频，包括：

4.一种基于AI技术的审计知识处理系统，其特征在于，包括：

所述知识图谱构建模块，具体用于：

5.如权利要求4所述的系统，其特征在于，所述知识图谱构建模块中将降噪处理后的初始数据通过预设的n-gram模型，获取每个长度的文字组合对应的候选词词频，包括：