CN113535818A - 一种构建审计综合知识库的方法、设备 - Google Patents

一种构建审计综合知识库的方法、设备 Download PDF

Info

Publication number
CN113535818A
CN113535818A CN202110801307.1A CN202110801307A CN113535818A CN 113535818 A CN113535818 A CN 113535818A CN 202110801307 A CN202110801307 A CN 202110801307A CN 113535818 A CN113535818 A CN 113535818A
Authority
CN
China
Prior art keywords
audit
data
knowledge base
constructing
basis
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202110801307.1A
Other languages
English (en)
Inventor
庄莉
梁懿
苏江文
张垚
闫丽飞
邬奕强
刘高原
彭放
刘甜甜
丁勇
侯本忠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Center Of State Grid Corp Of China
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Shanghai Electric Power Co Ltd
Fujian Yirong Information Technology Co Ltd
Original Assignee
Big Data Center Of State Grid Corp Of China
State Grid Corp of China SGCC
State Grid Information and Telecommunication Co Ltd
State Grid Shanghai Electric Power Co Ltd
Fujian Yirong Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Center Of State Grid Corp Of China, State Grid Corp of China SGCC, State Grid Information and Telecommunication Co Ltd, State Grid Shanghai Electric Power Co Ltd, Fujian Yirong Information Technology Co Ltd filed Critical Big Data Center Of State Grid Corp Of China
Priority to CN202110801307.1A priority Critical patent/CN113535818A/zh
Publication of CN113535818A publication Critical patent/CN113535818A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • G06F16/2465Query processing support for facilitating data mining operations in structured databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/027Frames
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Fuzzy Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种构建审计综合知识库的方法,包括如下步骤:S1、获取审计数据,所述审计数据包括审计对象数据、审计依据数据、审计结果数据;S2、对审计数据进行预处理:对于审计对象数据和审计结果数据,将其中的非结构化数据转换为结构化数据;对于审计依据数据,通过篇章结构提取技术进行条款化拆分;S3、对预处理后的审计数据进行数据挖掘;S4、建立综合知识库,综合知识库包含多个知识库;将数据挖掘后的审计数据按类别存储在所述多个知识库中。

Description

一种构建审计综合知识库的方法、设备
技术领域
本发明涉及一种构建审计综合知识库的方法、设备,属于审计数据处理领域。
背景技术
审计数据可分为审计对象、审计依据、审计结果。其中,审计对象即审计所要考察的客体,包括财务收支、会计报表、合同等内容;审计依据是指用于规范审计活动的各项法规法条和公司的规章制度;审计结果是经审计得到的审计记录、审计报告、审计底稿等。现有的审计信息处理系统不能较好的处理海量的审计数据——多维度地提炼并展示其中的关键信息。
授权公开号为CN105160038B《一种基于审计知识库的数据分析方法及系统》公开了以下步骤:建立基于过往审计数据的数据池;通过对数据池进行挖掘和分析,建立分类表;依据分类表对新建的项目进行分类,确定项目类型;设定知识库的关联规则;知识库根据关联规则和项目类型对审计文本进行分析并生成反馈报告;将新项目数据添加到数据池内,并自主修改知识库的关联规则。该专利通过系统地统计和分析,通过对文本数据进行处理,形成分类表,生成相应的报告,最后把处理的审计项目的数据放入数据池供日后使用。具有逻辑清晰,检索效率高,更新周期短和人力成本低的优点。很好解决现有审计分析技术存在的架构混乱、检索效率低、更新周期长、管理和维护成本高的技术问题。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种构建审计综合知识库的方法。本发明的技术方案如下:
技术方案一:
一种构建审计综合知识库的方法,包括如下步骤:
S1、获取审计数据,所述审计数据包括审计对象数据、审计依据数据、审计结果数据;
S2、对审计数据进行预处理:对于审计对象数据和审计结果数据,将其中的非结构化数据转换为结构化数据;对于审计依据数据,通过篇章结构提取技术进行条款化拆分;
S3、对预处理后的审计数据进行数据挖掘;
S4、建立综合知识库,综合知识库包含多个知识库;将数据挖掘后的审计数据按类别存储在所述多个知识库中。
进一步的,在步骤S2中,使用POI工具或Tika工具,将非结构化数据转换为结构化数据;根据审计依据数据中段落的前后特征,进行章节段落的拆分。
进一步的,所述步骤S3具体为:
将预处理后的审计对象数据和审计结果数据输入至CRF模型,得到若干类别的审计对象数据和结果数据;
将预处理后的审计依据数据输入至基于注意力机制的卷积神经网络模型,提取审计依据数据中的关键信息和其相应的分类标签。
进一步的,所述步骤S4具体为:建立综合知识库,综合知识库包含多个知识库;依据审计数据的类别或分类标签,构建知识库的索引,并根据索引,将已分类和带有分类标签的关键信息存储在所述多个知识库中。
技术方案二:
一种审计综合知识库构建设备,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
S1、获取审计数据,所述审计数据包括审计对象数据、审计依据数据、审计结果数据;
S2、对审计数据进行预处理:对于审计对象数据和审计结果数据,将其中的非结构化数据转换为结构化数据;对于审计依据数据,通过篇章结构提取技术进行条款化拆分;
S3、对预处理后的审计数据进行数据挖掘;
S4、建立综合知识库,综合知识库包含多个知识库;将数据挖掘后的审计数据按类别存储在所述多个知识库中。
进一步的,在步骤S2中,使用POI工具或Tika工具,将非结构化数据转换为结构化数据;根据审计依据数据中段落的前后特征,进行章节段落的拆分。
进一步的,所述步骤S3具体为:
将预处理后的审计对象数据和审计结果数据输入至CRF模型,得到若干类别的审计对象数据和结果数据;
将预处理后的审计依据数据输入至基于注意力机制的卷积神经网络模型,提取审计依据数据中的关键信息和其相应的分类标签。
进一步的,所述步骤S4具体为:建立综合知识库,综合知识库包含多个知识库;依据审计数据的类别或分类标签,构建知识库的索引,并根据索引,将已分类和带有分类标签的关键信息存储在所述多个知识库中。
本发明具有如下有益效果:
根据审计对象、审计依据、审计结果文档,构建综合知识库,提取其中的关键信息,并以此为基础实现多维度检索、文档分类存储等功能,丰富非结构化文档信息维度,提高工作效率。
附图说明
图1为本发明的流程图;
图2为本发明提取的关键信息示意图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
参见图1,一种构建审计综合知识库的方法,包括如下步骤:
S1、获取审计数据,所述审计数据包括审计对象数据、审计依据数据、审计结果数据;
S2、对审计数据进行预处理:对于审计对象数据和审计结果数据,将其中的非结构化数据转换为结构化数据;对于审计依据数据,通过篇章结构提取技术进行条款化拆分;
S3、对预处理后的审计数据进行数据挖掘;
S4、建立综合知识库,综合知识库包含多个知识库;将数据挖掘后的审计数据按类别存储在所述多个知识库中。
实施例二
根据文档种类不同,分别使用POI、Tika工具,将数据转换为结构化数据。根据审计依据数据中段落的前后特征,如换行、起始字符、行尾字符等,进行章节段落的拆分。
实施例三
将预处理后的审计对象数据和审计结果数据输入至CRF模型,得到若干类别的审计对象数据和结果数据。
将预处理后的审计依据数据输入至基于注意力机制的卷积神经网络模型(比如BERT模型),提取审计依据数据中的关键信息和其相应的分类标签。举例说明:参照图2,将一份合同输入至CRF模型,可提取关键信息:合同编号、合同金额、合同名称、项目甲方、项目乙方等等。
实施例四
一种构建审计综合知识库的设备,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
S1、获取审计数据,所述审计数据包括审计对象数据、审计依据数据、审计结果数据;
S2、对审计数据进行预处理:对于审计对象数据和审计结果数据,将其中的非结构化数据转换为结构化数据;对于审计依据数据,通过篇章结构提取技术进行条款化拆分;
S3、对预处理后的审计数据进行数据挖掘;
S4、建立综合知识库,综合知识库包含多个知识库;将数据挖掘后的审计数据按类别存储在所述多个知识库中。
实施例五
根据文档种类不同,分别使用POI、Tika工具,将数据转换为结构化数据。根据审计依据数据中段落的前后特征,如换行、起始字符、行尾字符等,进行章节段落的拆分。
实施例六
将预处理后的审计对象数据和审计结果数据输入至CRF模型,得到若干类别的审计对象数据和结果数据。
将预处理后的审计依据数据输入至基于注意力机制的卷积神经网络模型(比如BERT模型),提取审计依据数据中的关键信息和其相应的分类标签。举例说明:参照图2,将一份合同输入至CRF模型,可提取关键信息:合同编号、合同金额、合同名称、项目甲方、项目乙方等等。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (5)

1.一种构建审计综合知识库的方法,其特征在于,包括:
S1、获取审计数据,所述审计数据包括审计对象数据、审计依据数据、审计结果数据;
S2、对审计数据进行预处理:对于审计对象数据和审计结果数据,将其中的非结构化数据转换为结构化数据;对于审计依据数据,通过篇章结构提取技术进行条款化拆分;
S3、对预处理后的审计数据进行数据挖掘;
S4、建立综合知识库,综合知识库包含多个知识库;将数据挖掘后的审计数据按类别存储在所述多个知识库中。
2.根据权利要求1所述的一种构建审计综合知识库的方法,其特征在于,在步骤S2中,使用POI工具或Tika工具,将非结构化数据转换为结构化数据;根据审计依据数据中段落的前后特征,进行章节段落的拆分。
3.根据权利要求2所述的一种构建审计综合知识库的方法,其特征在于,所述步骤S3具体为:
将预处理后的审计对象数据和审计结果数据输入至CRF模型,得到若干类别的审计对象数据和结果数据;
将预处理后的审计依据数据输入至基于注意力机制的卷积神经网络模型,提取审计依据数据中的关键信息和其相应的分类标签。
4.根据权利要求3所述的一种构建审计综合知识库的方法,其特征在于,所述步骤S4具体为:建立综合知识库,综合知识库包含多个知识库;依据审计数据的类别或分类标签,构建知识库的索引,并根据索引,将已分类和带有分类标签的关键信息存储在所述多个知识库中。
5.一种构建审计综合知识库的设备,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行如权利要求1-4任一权利要求所述的一种构建审计综合知识库的方法。
CN202110801307.1A 2021-07-15 2021-07-15 一种构建审计综合知识库的方法、设备 Pending CN113535818A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110801307.1A CN113535818A (zh) 2021-07-15 2021-07-15 一种构建审计综合知识库的方法、设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110801307.1A CN113535818A (zh) 2021-07-15 2021-07-15 一种构建审计综合知识库的方法、设备

Publications (1)

Publication Number Publication Date
CN113535818A true CN113535818A (zh) 2021-10-22

Family

ID=78099509

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110801307.1A Pending CN113535818A (zh) 2021-07-15 2021-07-15 一种构建审计综合知识库的方法、设备

Country Status (1)

Country Link
CN (1) CN113535818A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372118A (zh) * 2021-12-29 2022-04-19 国网天津市电力公司 一种基于递归算法的审计知识推荐系统及方法
CN116562785A (zh) * 2023-03-17 2023-08-08 广东铭太信息科技有限公司 审计迎审系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160038A (zh) * 2015-10-10 2015-12-16 广东卓维网络有限公司 一种基于审计知识库的数据分析方法及系统
CN110889556A (zh) * 2019-11-28 2020-03-17 福建亿榕信息技术有限公司 一种企业经营风险预测方法和系统
CN112214609A (zh) * 2020-09-24 2021-01-12 远光软件股份有限公司 一种基于知识图谱的审计方法和系统
CN112417161A (zh) * 2020-11-12 2021-02-26 福建亿榕信息技术有限公司 一种基于模式扩充及bert分类的知识图谱上下位关系识别的方法和存储设备
CN112766506A (zh) * 2021-01-19 2021-05-07 澜途集思生态科技集团有限公司 一种基于架构的知识库构建方法
CN113011959A (zh) * 2021-05-24 2021-06-22 国能大渡河大数据服务有限公司 一种“七项费用”智慧审计系统及其使用方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105160038A (zh) * 2015-10-10 2015-12-16 广东卓维网络有限公司 一种基于审计知识库的数据分析方法及系统
CN110889556A (zh) * 2019-11-28 2020-03-17 福建亿榕信息技术有限公司 一种企业经营风险预测方法和系统
CN112214609A (zh) * 2020-09-24 2021-01-12 远光软件股份有限公司 一种基于知识图谱的审计方法和系统
CN112417161A (zh) * 2020-11-12 2021-02-26 福建亿榕信息技术有限公司 一种基于模式扩充及bert分类的知识图谱上下位关系识别的方法和存储设备
CN112766506A (zh) * 2021-01-19 2021-05-07 澜途集思生态科技集团有限公司 一种基于架构的知识库构建方法
CN113011959A (zh) * 2021-05-24 2021-06-22 国能大渡河大数据服务有限公司 一种“七项费用”智慧审计系统及其使用方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
"审计互动百科及知识问答系统研究"", 中国优秀硕士学位论文全文数据库信息科技辑, no. 6, pages 50 - 73 *
刘勇: "国之重器出版工程 装甲车辆协同作战辅助决策技术 精装", 北京理工大学出社, pages: 162 - 167 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114372118A (zh) * 2021-12-29 2022-04-19 国网天津市电力公司 一种基于递归算法的审计知识推荐系统及方法
CN116562785A (zh) * 2023-03-17 2023-08-08 广东铭太信息科技有限公司 审计迎审系统
CN116562785B (zh) * 2023-03-17 2023-12-15 广东铭太信息科技有限公司 审计迎审系统

Similar Documents

Publication Publication Date Title
Meng et al. A hierarchical career-path-aware neural network for job mobility prediction
CN111612549B (zh) 一种平台运营服务系统的构建方法
CN108563783B (zh) 一种基于大数据的财务分析管理系统及方法
CN113535818A (zh) 一种构建审计综合知识库的方法、设备
CN111950921B (zh) 一种基于离线组网环境的多人协同评审方法
CN104077407A (zh) 一种智能数据搜索系统及方法
CN107945092A (zh) 用于审计领域的大数据综合管理方法及系统
Haryono et al. Comparison of the E-LT vs ETL method in data warehouse implementation: A qualitative study
CN111950922A (zh) 一种基于多源数据交互分析的装备经济数据评估方法
CN110928864A (zh) 一种科研项目管理方法及系统
US20080059443A1 (en) Method and system for the extraction of a data table from a data base, corresponding computer program product
CN110597796B (zh) 基于全生命周期的大数据实时建模方法及系统
Müller et al. Extracting knowledge from life courses: Clustering and visualization
CN110968596A (zh) 一种基于标签系统的数据处理方法
CN111061779A (zh) 一种基于大数据平台的数据处理方法及装置
CN110941957A (zh) 交通科技数据标引方法及系统
CN112967759B (zh) 基于内存堆栈技术的dna物证鉴定str分型比对方法
CN116204653A (zh) 一种基于知识图谱的产业链网络关系构建方法
CN113176873B (zh) 用于信息管理的方法和装置、电子设备、及介质
Das et al. A Review of Data Warehousing Using Feature Engineering
CN115617790A (zh) 数据仓库创建方法、电子设备及存储介质
CN110866083B (zh) 一种电力标准结构化地址库的地址稽核方法
CN112070107A (zh) 一种电子口岸船舶进港控制方法
Hadzhiev et al. Overview and analysis of methods and models for data structuring, storage and processing in the Internet
CN112287016B (zh) 一种企业视图的构建方法及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination