CN113535818A - 一种构建审计综合知识库的方法、设备 - Google Patents
一种构建审计综合知识库的方法、设备 Download PDFInfo
- Publication number
- CN113535818A CN113535818A CN202110801307.1A CN202110801307A CN113535818A CN 113535818 A CN113535818 A CN 113535818A CN 202110801307 A CN202110801307 A CN 202110801307A CN 113535818 A CN113535818 A CN 113535818A
- Authority
- CN
- China
- Prior art keywords
- audit
- data
- knowledge base
- constructing
- basis
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012550 audit Methods 0.000 title claims abstract description 144
- 238000000034 method Methods 0.000 title claims abstract description 16
- 238000007418 data mining Methods 0.000 claims abstract description 12
- 238000000605 extraction Methods 0.000 claims abstract description 6
- 238000007781 pre-processing Methods 0.000 claims abstract description 6
- 238000013527 convolutional neural network Methods 0.000 claims description 5
- 230000007246 mechanism Effects 0.000 claims description 5
- 230000008569 process Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012545 processing Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/022—Knowledge engineering; Knowledge acquisition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/02—Knowledge representation; Symbolic representation
- G06N5/027—Frames
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/03—Data mining
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Computing Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Fuzzy Systems (AREA)
- Probability & Statistics with Applications (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种构建审计综合知识库的方法,包括如下步骤:S1、获取审计数据,所述审计数据包括审计对象数据、审计依据数据、审计结果数据;S2、对审计数据进行预处理:对于审计对象数据和审计结果数据,将其中的非结构化数据转换为结构化数据;对于审计依据数据,通过篇章结构提取技术进行条款化拆分;S3、对预处理后的审计数据进行数据挖掘;S4、建立综合知识库,综合知识库包含多个知识库;将数据挖掘后的审计数据按类别存储在所述多个知识库中。
Description
技术领域
本发明涉及一种构建审计综合知识库的方法、设备,属于审计数据处理领域。
背景技术
审计数据可分为审计对象、审计依据、审计结果。其中,审计对象即审计所要考察的客体,包括财务收支、会计报表、合同等内容;审计依据是指用于规范审计活动的各项法规法条和公司的规章制度;审计结果是经审计得到的审计记录、审计报告、审计底稿等。现有的审计信息处理系统不能较好的处理海量的审计数据——多维度地提炼并展示其中的关键信息。
授权公开号为CN105160038B《一种基于审计知识库的数据分析方法及系统》公开了以下步骤:建立基于过往审计数据的数据池;通过对数据池进行挖掘和分析,建立分类表;依据分类表对新建的项目进行分类,确定项目类型;设定知识库的关联规则;知识库根据关联规则和项目类型对审计文本进行分析并生成反馈报告;将新项目数据添加到数据池内,并自主修改知识库的关联规则。该专利通过系统地统计和分析,通过对文本数据进行处理,形成分类表,生成相应的报告,最后把处理的审计项目的数据放入数据池供日后使用。具有逻辑清晰,检索效率高,更新周期短和人力成本低的优点。很好解决现有审计分析技术存在的架构混乱、检索效率低、更新周期长、管理和维护成本高的技术问题。
发明内容
为了解决上述现有技术中存在的问题,本发明提供一种构建审计综合知识库的方法。本发明的技术方案如下:
技术方案一:
一种构建审计综合知识库的方法,包括如下步骤:
S1、获取审计数据,所述审计数据包括审计对象数据、审计依据数据、审计结果数据;
S2、对审计数据进行预处理:对于审计对象数据和审计结果数据,将其中的非结构化数据转换为结构化数据;对于审计依据数据,通过篇章结构提取技术进行条款化拆分;
S3、对预处理后的审计数据进行数据挖掘;
S4、建立综合知识库,综合知识库包含多个知识库;将数据挖掘后的审计数据按类别存储在所述多个知识库中。
进一步的,在步骤S2中,使用POI工具或Tika工具,将非结构化数据转换为结构化数据;根据审计依据数据中段落的前后特征,进行章节段落的拆分。
进一步的,所述步骤S3具体为:
将预处理后的审计对象数据和审计结果数据输入至CRF模型,得到若干类别的审计对象数据和结果数据;
将预处理后的审计依据数据输入至基于注意力机制的卷积神经网络模型,提取审计依据数据中的关键信息和其相应的分类标签。
进一步的,所述步骤S4具体为:建立综合知识库,综合知识库包含多个知识库;依据审计数据的类别或分类标签,构建知识库的索引,并根据索引,将已分类和带有分类标签的关键信息存储在所述多个知识库中。
技术方案二:
一种审计综合知识库构建设备,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
S1、获取审计数据,所述审计数据包括审计对象数据、审计依据数据、审计结果数据;
S2、对审计数据进行预处理:对于审计对象数据和审计结果数据,将其中的非结构化数据转换为结构化数据;对于审计依据数据,通过篇章结构提取技术进行条款化拆分;
S3、对预处理后的审计数据进行数据挖掘;
S4、建立综合知识库,综合知识库包含多个知识库;将数据挖掘后的审计数据按类别存储在所述多个知识库中。
进一步的,在步骤S2中,使用POI工具或Tika工具,将非结构化数据转换为结构化数据;根据审计依据数据中段落的前后特征,进行章节段落的拆分。
进一步的,所述步骤S3具体为:
将预处理后的审计对象数据和审计结果数据输入至CRF模型,得到若干类别的审计对象数据和结果数据;
将预处理后的审计依据数据输入至基于注意力机制的卷积神经网络模型,提取审计依据数据中的关键信息和其相应的分类标签。
进一步的,所述步骤S4具体为:建立综合知识库,综合知识库包含多个知识库;依据审计数据的类别或分类标签,构建知识库的索引,并根据索引,将已分类和带有分类标签的关键信息存储在所述多个知识库中。
本发明具有如下有益效果:
根据审计对象、审计依据、审计结果文档,构建综合知识库,提取其中的关键信息,并以此为基础实现多维度检索、文档分类存储等功能,丰富非结构化文档信息维度,提高工作效率。
附图说明
图1为本发明的流程图;
图2为本发明提取的关键信息示意图。
具体实施方式
下面结合附图和具体实施例来对本发明进行详细的说明。
实施例一
参见图1,一种构建审计综合知识库的方法,包括如下步骤:
S1、获取审计数据,所述审计数据包括审计对象数据、审计依据数据、审计结果数据;
S2、对审计数据进行预处理:对于审计对象数据和审计结果数据,将其中的非结构化数据转换为结构化数据;对于审计依据数据,通过篇章结构提取技术进行条款化拆分;
S3、对预处理后的审计数据进行数据挖掘;
S4、建立综合知识库,综合知识库包含多个知识库;将数据挖掘后的审计数据按类别存储在所述多个知识库中。
实施例二
根据文档种类不同,分别使用POI、Tika工具,将数据转换为结构化数据。根据审计依据数据中段落的前后特征,如换行、起始字符、行尾字符等,进行章节段落的拆分。
实施例三
将预处理后的审计对象数据和审计结果数据输入至CRF模型,得到若干类别的审计对象数据和结果数据。
将预处理后的审计依据数据输入至基于注意力机制的卷积神经网络模型(比如BERT模型),提取审计依据数据中的关键信息和其相应的分类标签。举例说明:参照图2,将一份合同输入至CRF模型,可提取关键信息:合同编号、合同金额、合同名称、项目甲方、项目乙方等等。
实施例四
一种构建审计综合知识库的设备,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行以下步骤:
S1、获取审计数据,所述审计数据包括审计对象数据、审计依据数据、审计结果数据;
S2、对审计数据进行预处理:对于审计对象数据和审计结果数据,将其中的非结构化数据转换为结构化数据;对于审计依据数据,通过篇章结构提取技术进行条款化拆分;
S3、对预处理后的审计数据进行数据挖掘;
S4、建立综合知识库,综合知识库包含多个知识库;将数据挖掘后的审计数据按类别存储在所述多个知识库中。
实施例五
根据文档种类不同,分别使用POI、Tika工具,将数据转换为结构化数据。根据审计依据数据中段落的前后特征,如换行、起始字符、行尾字符等,进行章节段落的拆分。
实施例六
将预处理后的审计对象数据和审计结果数据输入至CRF模型,得到若干类别的审计对象数据和结果数据。
将预处理后的审计依据数据输入至基于注意力机制的卷积神经网络模型(比如BERT模型),提取审计依据数据中的关键信息和其相应的分类标签。举例说明:参照图2,将一份合同输入至CRF模型,可提取关键信息:合同编号、合同金额、合同名称、项目甲方、项目乙方等等。
以上所述仅为本发明的实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (5)
1.一种构建审计综合知识库的方法,其特征在于,包括:
S1、获取审计数据,所述审计数据包括审计对象数据、审计依据数据、审计结果数据;
S2、对审计数据进行预处理:对于审计对象数据和审计结果数据,将其中的非结构化数据转换为结构化数据;对于审计依据数据,通过篇章结构提取技术进行条款化拆分;
S3、对预处理后的审计数据进行数据挖掘;
S4、建立综合知识库,综合知识库包含多个知识库;将数据挖掘后的审计数据按类别存储在所述多个知识库中。
2.根据权利要求1所述的一种构建审计综合知识库的方法,其特征在于,在步骤S2中,使用POI工具或Tika工具,将非结构化数据转换为结构化数据;根据审计依据数据中段落的前后特征,进行章节段落的拆分。
3.根据权利要求2所述的一种构建审计综合知识库的方法,其特征在于,所述步骤S3具体为:
将预处理后的审计对象数据和审计结果数据输入至CRF模型,得到若干类别的审计对象数据和结果数据;
将预处理后的审计依据数据输入至基于注意力机制的卷积神经网络模型,提取审计依据数据中的关键信息和其相应的分类标签。
4.根据权利要求3所述的一种构建审计综合知识库的方法,其特征在于,所述步骤S4具体为:建立综合知识库,综合知识库包含多个知识库;依据审计数据的类别或分类标签,构建知识库的索引,并根据索引,将已分类和带有分类标签的关键信息存储在所述多个知识库中。
5.一种构建审计综合知识库的设备,其特征在于,包括存储器和处理器,所述存储器存储有指令,所述指令适于由处理器加载并执行如权利要求1-4任一权利要求所述的一种构建审计综合知识库的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110801307.1A CN113535818A (zh) | 2021-07-15 | 2021-07-15 | 一种构建审计综合知识库的方法、设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110801307.1A CN113535818A (zh) | 2021-07-15 | 2021-07-15 | 一种构建审计综合知识库的方法、设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113535818A true CN113535818A (zh) | 2021-10-22 |
Family
ID=78099509
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110801307.1A Pending CN113535818A (zh) | 2021-07-15 | 2021-07-15 | 一种构建审计综合知识库的方法、设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535818A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372118A (zh) * | 2021-12-29 | 2022-04-19 | 国网天津市电力公司 | 一种基于递归算法的审计知识推荐系统及方法 |
CN116562785A (zh) * | 2023-03-17 | 2023-08-08 | 广东铭太信息科技有限公司 | 审计迎审系统 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160038A (zh) * | 2015-10-10 | 2015-12-16 | 广东卓维网络有限公司 | 一种基于审计知识库的数据分析方法及系统 |
CN110889556A (zh) * | 2019-11-28 | 2020-03-17 | 福建亿榕信息技术有限公司 | 一种企业经营风险预测方法和系统 |
CN112214609A (zh) * | 2020-09-24 | 2021-01-12 | 远光软件股份有限公司 | 一种基于知识图谱的审计方法和系统 |
CN112417161A (zh) * | 2020-11-12 | 2021-02-26 | 福建亿榕信息技术有限公司 | 一种基于模式扩充及bert分类的知识图谱上下位关系识别的方法和存储设备 |
CN112766506A (zh) * | 2021-01-19 | 2021-05-07 | 澜途集思生态科技集团有限公司 | 一种基于架构的知识库构建方法 |
CN113011959A (zh) * | 2021-05-24 | 2021-06-22 | 国能大渡河大数据服务有限公司 | 一种“七项费用”智慧审计系统及其使用方法 |
-
2021
- 2021-07-15 CN CN202110801307.1A patent/CN113535818A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105160038A (zh) * | 2015-10-10 | 2015-12-16 | 广东卓维网络有限公司 | 一种基于审计知识库的数据分析方法及系统 |
CN110889556A (zh) * | 2019-11-28 | 2020-03-17 | 福建亿榕信息技术有限公司 | 一种企业经营风险预测方法和系统 |
CN112214609A (zh) * | 2020-09-24 | 2021-01-12 | 远光软件股份有限公司 | 一种基于知识图谱的审计方法和系统 |
CN112417161A (zh) * | 2020-11-12 | 2021-02-26 | 福建亿榕信息技术有限公司 | 一种基于模式扩充及bert分类的知识图谱上下位关系识别的方法和存储设备 |
CN112766506A (zh) * | 2021-01-19 | 2021-05-07 | 澜途集思生态科技集团有限公司 | 一种基于架构的知识库构建方法 |
CN113011959A (zh) * | 2021-05-24 | 2021-06-22 | 国能大渡河大数据服务有限公司 | 一种“七项费用”智慧审计系统及其使用方法 |
Non-Patent Citations (2)
Title |
---|
"审计互动百科及知识问答系统研究"", 中国优秀硕士学位论文全文数据库信息科技辑, no. 6, pages 50 - 73 * |
刘勇: "国之重器出版工程 装甲车辆协同作战辅助决策技术 精装", 北京理工大学出社, pages: 162 - 167 * |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114372118A (zh) * | 2021-12-29 | 2022-04-19 | 国网天津市电力公司 | 一种基于递归算法的审计知识推荐系统及方法 |
CN116562785A (zh) * | 2023-03-17 | 2023-08-08 | 广东铭太信息科技有限公司 | 审计迎审系统 |
CN116562785B (zh) * | 2023-03-17 | 2023-12-15 | 广东铭太信息科技有限公司 | 审计迎审系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Meng et al. | A hierarchical career-path-aware neural network for job mobility prediction | |
CN111612549B (zh) | 一种平台运营服务系统的构建方法 | |
CN108563783B (zh) | 一种基于大数据的财务分析管理系统及方法 | |
CN113535818A (zh) | 一种构建审计综合知识库的方法、设备 | |
CN111950921B (zh) | 一种基于离线组网环境的多人协同评审方法 | |
CN104077407A (zh) | 一种智能数据搜索系统及方法 | |
CN107945092A (zh) | 用于审计领域的大数据综合管理方法及系统 | |
Haryono et al. | Comparison of the E-LT vs ETL method in data warehouse implementation: A qualitative study | |
CN111950922A (zh) | 一种基于多源数据交互分析的装备经济数据评估方法 | |
CN110928864A (zh) | 一种科研项目管理方法及系统 | |
US20080059443A1 (en) | Method and system for the extraction of a data table from a data base, corresponding computer program product | |
CN110597796B (zh) | 基于全生命周期的大数据实时建模方法及系统 | |
Müller et al. | Extracting knowledge from life courses: Clustering and visualization | |
CN110968596A (zh) | 一种基于标签系统的数据处理方法 | |
CN111061779A (zh) | 一种基于大数据平台的数据处理方法及装置 | |
CN110941957A (zh) | 交通科技数据标引方法及系统 | |
CN112967759B (zh) | 基于内存堆栈技术的dna物证鉴定str分型比对方法 | |
CN116204653A (zh) | 一种基于知识图谱的产业链网络关系构建方法 | |
CN113176873B (zh) | 用于信息管理的方法和装置、电子设备、及介质 | |
Das et al. | A Review of Data Warehousing Using Feature Engineering | |
CN115617790A (zh) | 数据仓库创建方法、电子设备及存储介质 | |
CN110866083B (zh) | 一种电力标准结构化地址库的地址稽核方法 | |
CN112070107A (zh) | 一种电子口岸船舶进港控制方法 | |
Hadzhiev et al. | Overview and analysis of methods and models for data structuring, storage and processing in the Internet | |
CN112287016B (zh) | 一种企业视图的构建方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |