CN112711399A - 一种基于容器化设计的审计应用平台 - Google Patents

一种基于容器化设计的审计应用平台 Download PDF

Info

Publication number
CN112711399A
CN112711399A CN202011607209.6A CN202011607209A CN112711399A CN 112711399 A CN112711399 A CN 112711399A CN 202011607209 A CN202011607209 A CN 202011607209A CN 112711399 A CN112711399 A CN 112711399A
Authority
CN
China
Prior art keywords
data
audit
module
scene
layer
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011607209.6A
Other languages
English (en)
Inventor
张姝
李垂金
王尉
朱平
冯希佺
陈雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Resources Cement Holdings Ltd
China Resources Cement Investments Ltd
Original Assignee
China Resources Cement Holdings Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Resources Cement Holdings Ltd filed Critical China Resources Cement Holdings Ltd
Priority to CN202011607209.6A priority Critical patent/CN112711399A/zh
Publication of CN112711399A publication Critical patent/CN112711399A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F8/00Arrangements for software engineering
    • G06F8/20Software design
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Quality & Reliability (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明公开了一种基于容器化设计的审计应用平台,属于审计技术领域,包括数据层、技术层、平台工具层和管理层,所述管理层均与数据层、技术层和平台工具层连接,所述数据层与技术层连接,所述技术层与平台工具层连接。本发明在于使用容器化的思想,来快速搭建轻量级审计平,具有轻量级、可复用、易扩展、少资源、高效率的特点,针对不同的审计主题场景,融合所需平台技术层和工具层搭建不同主题的容器。

Description

一种基于容器化设计的审计应用平台
技术领域
本发明涉及审计技术领域,尤其涉及一种基于容器化设计的审计应用平台。
背景技术
大型企业数据多样性及分布均十分复杂,传统的平台很难满足大型企业的数据采集、分析需求。基于上述技术的系统平台结构单一,在复用性及灵活扩展性方面有所不足,建设成本偏高,且无法开展数据批处理,对于数据的重播和历史统计无法很好的支撑,离线分析仅仅支撑窗口之内的分析等。
发明内容
本发明的目的在于提供一种基于容器化设计的审计应用平台,解决现有传统审计工作模式及单一化非现场审计工具场景不适用不通用的技术问题。本发明以API、网络爬虫、局域网内部接口、人工导入等诸多方式等获取稳定、可靠的企业内、外个性化数据,并通过有效的数据整理、清洗,构成平台数据分析的基础数据库,平台应用容器化思路将各类工具、技术及应用场景进行有效融合。更好的解决了数据来源复杂问题,以及实现应用场景的简单、高效扩展,满足审计人员个性化需求。
一种基于容器化设计的审计应用平台,包括数据层、技术层、平台工具层和管理层,所述管理层均与数据层、技术层和平台工具层连接,所述数据层与技术层连接,所述技术层与平台工具层连接,所述数据层用于根据审计流程及管控要求,构建内部数据共享及外部数据自动化获取机制,形成具体审计业务特色的数据集,所述技术层用于构建通用且可复用的审计技术能力组件,实现审计技术的通用能力,平台工具层用于对数据及技术手段的整合封装,根据审计场景的业务需求,部署不同应用场景,所述管理层用于维护平台正常运转。
进一步地,所述平台工具层包括场景层和能力层,能力层用于将技术层组件进行融合及场景化处理,包含机器人自动审计、数据整合处理、文本挖掘及数据分析,场景层集成审计工作中的实际风险检查及工作场景需求点,包括工单/文本批量获取、费用审计、供应商审计、油价/造假信息监控、签审一致性校验和运营审计场景。
进一步地,外部数据包括从外部公开网站中获取授权的企业工商数据、油价信息、造价信息和发改委网站数据,内部数据为企业内部个性系统的数据,个性系统包括DCS系统、ERP系统、质检系统、SRM系统、ESH系统和报账系统。
进一步地,技术层包括机器人自动工作模块、数据自动处理模块、自然语言处理分析模块和数据分析模型模块,机器人自动工作模块用于文件下载、最新信息获取、基本信息核验和自动化生成报告,实现全天候的工作,数据自动处理模块用于对平台联通的内部系统数据、外部获取结构化及非结构化数据开展数据清洗、数据转换、数据整合和数据加载操作,基于不同场景功能需求及数据维度需求,将基础数据转换为适合审计场景工作开展需要的数据集,自然语言处理分析模块用于实体识别、时间抽取、因果关系抽取、中文分词、句法分析和语义分析,实现关键信息定位及抽取和文本数据挖掘,对文本类数据的快速理解及风险分析,数据分析模型模块用于融合前期业务理解、历史经验及专家规则,形成审计风险判定规则及风险预测模型,针对风险判定规则,构建基于数据库的SQL脚本,全量企业数据进行检查并定位问题,针对风险预测模型,基于审计历史数据,搭建风险预测机器学习模型,辅助审计人员对存在风险的业务点进行预先筛查及定位。
进一步地,能力层包括审计机器人模块、外部数据整合模块、关键信息定位提取模块和模型构建模块,审计机器人模块用于自动化对目标网页下载文件附件,并自动下载归档,对工单、发文及费控相关的文本数据自动化提取,以及费用信息核算控制,前期内嵌风险检查逻辑,自动确定审计结论,自动生成审计文档,并对接收获取和验证核查的结论自动输入系统中,外部数据整合模块基于不同审计场景的需求,对企业工商和价格的多数据源、复杂且多类型数据实现清洗、整合处理,并自动化在平台数据库中形成记录,构建审计知识库体系,实现风险检查能力,关键信息定位提取模块用于对合同和审计文档的文本进行句法语义分析、相似度计算、分词、关键文本定位,对合同内容、甲乙方名称、金额、时间的关键信息定位提取,文本内容相似度比对及文本风险识别,模型构建模块基于不同审计场景需要及内核风险判断逻辑,使用SQL脚本搭建的规则模型,并使用python构建机器学习风险预测模型,将风险判断逻辑固化到平台中的不同场景中,实现对不同审计场景的风险分析需要。
进一步地,场景层包括自动场景模块、监管场景模块、审核场景模块和运营审计场景模块,自动场景模块用于对系统及网站上的工单和文档的文本数据自动获取核查、系统附件自动下载、费用核算审计,监管场景模块用于对油价/造价信息监控,评估下属企业或生产基地油价及工程物料价格是否随市场价格波动而及时进行调整,审核场景模块用于对系统审核通过版及实际签定的pdf扫描版合同进行一致性检查,对关键条款修改、关键信息调整变化的感知,包括关键信息提取及系统校验、范本匹配度以及合同风险规则模型筛查,运营审计场景模块用于审计部门对企业生产、质量管控、矿山管理、安全环保管理、采购寻源管理、人力资源管理的运营各流程节点上全面深入审计管控,基于数据分析规则及模型,对风险做到事前事中事后控制,支持企业个性化审计场景的搭建,融合不同专项审计的风险检查逻辑,内嵌相应的规则及模型,实现个性化审计平台搭建的目的。
进一步地,机器人自动工作模块、审计机器人模块和自动场景模块构成机器人自动化审计容器,数据自动处理模块、外部数据整合模块和监管场景模块构成外部数据监控容器,自然语言处理分析模块、关键信息定位提取模块和审核场景模块构成文本风险挖掘容器,数据分析模型模块、模型构建模块和运营审计场景模块构成数据分析检查容器。
平台整体包含四层:数据层、技术层、平台工具层、通用管理层。平台基于底层数据层的的支撑及通用管理模块的辅助,实现技术及工具层的容器化模块搭建。平台容器包括机器人自动化审计容器、外部数据监控容器、文本风险挖掘容器及数据分析检查容器。
数据层基于审计流程及管控要求,构建内部数据共享及外部数据自动化获取的统一化平台。包含了外部数据以及企业内部个性系统的数据。平台自动从外部公开网站中获取企业工商数据、油价信息、造价信息、发改委网站数据等,融合企业内部个性化系统数据,如基地DCS系统、ERP系统、质检系统、SRM系统、ESH系统、报账系统等所有场景相关的系统数据。多渠道数据采集并提供安全的传输通道,形成具体审计业务特色的数据集市。
技术层用于构建通用且可复用的众多审计技术能力组件,实现审计技术的通用能力。包括审计机器人技术、数据整合处理技术、自然语言处理技术及数据分析模型综合模块。模块化的技术组件为工具的构建、组装并适用不同的审计场景提供敏捷、快速的能力支撑。
平台工具层实现对数据及技术手段的整合封装,根据审计场景的业务需求,部署不同应用场景。平台工具层可细分为场景层和能力层。
能力层用于将技术层组件进行融合及场景化处理。包含机器人技术、数据整合处理技术、文本挖掘技术及数据分析技术。
场景层集成了审计工作中的实际风险检查及工作场景需求点,包括工单/文本批量获取、费用审计、供应商审计、油价/造假信息监控、签审一致性校验、运营审计及其它专项审计场景。
通用管理层包括了轻量化审计平台的用户管理、权限管理、任务管理、数据集市维护及接口管理等子模块,维护平台正常运转。
本发明的亮点在于使用容器化的思想,来快速搭建轻量级审计平台。
容器化平台的特点是轻量级、可复用、易扩展、少资源、高效率等。
容器化平台可以针对不同的审计主题场景,融合所需平台技术层和工具层搭建不同主题的容器。基于审计场景需求,系统快速配置技术层中所需的技术模块组件,并针对需要,对技术组件进行能力化和场景化的优化及升级,从而支撑顶层场景应用使用。
容器化不同于以往传统审计平台搭建思路,无需针对众多审计工作内容及场景分别进行技术模块的搭建组装,而是将技术能力整合起来,形成中台力量,实现技术的通用及复用能力,降低前期开发成本,并且易于未来场景及其它技术功能模块的扩充拓展。
本发明中目前包含四大容器:
机器人自动化审计容器
技术层:机器人技术(RPA)覆盖了传统工作人员全部可自动化处理的简单工作,如文件下载、监管最新信息获取、基本信息核验、自动化报告生成等工作,RPA可以实现全天候的工作,减少繁杂且简单的重复性工作,使员工工作重心向更核心更需要人力投入的工作中。
工具层:审计机器人技术辅助审计工作人员执行由各种步骤组成的任务。可自动化对目标网页下载文件附件,如OA系统公文及SRM系统的采购寻源单及合同的自动下载归档。对工单、发文及费控相关等文本数据自动化提取,以及费用信息核算控制。支持前期在RPA中内嵌风险检查逻辑,实现自动确定审计结论,自动生成审计文档,并对接收获取到的和验证核查的结论自动输入系统中。
可实现的场景包括:系统及网站上的工单/文档等文本数据自动获取核查、系统附件自动下载、费用核算审计等
外部数据监控容器
技术层:对平台联通的多类内部系统数据、外部获取结构化及非结构化数据开展数据清洗、数据转换、数据整合及数据加载多种操作,基于不同场景功能需求及数据维度需求,将基础数据转换为适合审计场景工作开展需要的数据集。
工具层:外部数据整合子模块基于不同审计场景的需求,对企业工商、价格等多数据源、复杂且多类型数据实现清洗、整合处理等工作,并自动化在平台数据库中形成记录,构建审计知识库体系,发挥大数据及智能技术的风险检查能力。
可实现的场景包括:供应商审计,以支持对外部供应商潜在关联关系的风险检查,如外部供应商围标串标、内外关联交易、外部供应商风险快速感知等。油价/造价信息监控,评估下属企业或生产基地油价及工程物料价格是否随市场价格波动而及时进行调整。
文本风险挖掘容器
技术层:自然语言处理NLP技术包括实体识别、时间抽取、因果关系抽取、中文分词、句法分析、语义分析等技术子模块,从而实现关键信息定位及抽取、文本数据挖掘等能力,实现对海量文本类数据的快速理解及风险分析。
工具层:基于NLP技术组件,针对合同、审计文档等文本进行句法语义分析、相似度计算、分词、关键文本定位等操作,从而实现对如合同内容、甲乙方名称、金额、时间等关键信息定位提取,文本内容相似度比对及文本风险识别等功能。
可实现的场景包括:签审一致性校验场景,支持对系统审核通过版及实际签定pdf扫描版合同进行一致性检查,对关键条款修改、关键信息调整的细微变化实现感知。合同智能审核场景包括关键信息提取及系统校验、范本匹配度以及多类合同风险规则模型筛查。
数据分析检查容器
技术层:数据分析模型融合了前期业务理解、历史经验及专家规则,形成审计风险判定规则及风险预测模型。针对风险判定规则,平台构建基于数据库的SQL脚本,实现全量企业数据进行快速检查并定位问题。针对风险预测模型,平台基于审计历史数据,搭建适合不同场景的风险预测机器学习模型,辅助审计人员对可能存在风险的业务点进行预先筛查及定位。
工具层:基于不同审计场景需要及内核风险判断逻辑,使用SQL脚本搭建的份鲜规则模型,并及使用python构建机器学习风险预测模型,将风险判断逻辑固化到平台中的不同场景中,实现对不同审计场景的风险分析需要。
可实现的场景包括:运营审计场景,实现审计部门对企业生产、质量管控、矿山管理、安全环保管理、采购寻源管理、人力资源管理等运营各流程节点上实现全面深入审计管控,基于数据分析规则及模型,对风险做到事前事中事后控制。专项审计场景中支持企业个性化审计场景的搭建,融合不同专项审计的风险检查逻辑,平台内嵌相应的规则及模型,实现个性化审计平台搭建的目的。
本轻量级审计平台的搭建,在保持平台开发的传统思路上,引入容器化的概念。在以往审计系统数据共享的基础上,融入技术组件共享的思路,实现不同主题类型的多审计场景共享数据、技术组件的容器开发方式,前期降低重复技术组件部署的复杂性,并在后期更易于支持平台技术、场景的扩展,在保证场景实现度的前提下从全流程的角度降低成本投入,提升平台可扩展性。帮助审计人员极大的提升工作效率及审计结论质量,提升企业自身管理水平。
本平台数据传输及功能实现路径包括
外部结构化和非结构化数据通过API接口方式或基于Python的爬虫方式进行获取。针对非结构化数据进行数据提取工作,转换为结构化数据。如通过API方式获取第三方数据供应商提供的企业工商数据,通过爬虫方式对政府公开油价等数据进行获取等。最终基于不同场景容器需求,存储至内部数据库中。
内部系统数据通过内网环境下,服务器接口的方式实现数据传输关联,以及RPA方式对文档类附件进行自动化下载归档。基于不同场景容器需求,将企业内部个性系统的数据存储至对应数据库中。
内外部数据实现处理融合,形成统一的平台数据集市。
技术层内不同组件,基于各自的场景容器需要,对数据集市中的数据进行使用及处理。外部数据监控容器中外部数据整合技术组件对审计场景需要的油价、物材物料价格、企业工商信息、企业关联方工商信息、发改委公示的指导价格信息等直接从数据集市中进行提取并应用。文本风险检查容器中技术组件直接对数据集市中所需的审核通过版合同文本进行获取。数据分析检查容器中技术组件直接对数据集市中存储的内部各运营流程使用的多维度系统数据进行提取,如生产信息、采购数据、供应商数据、价格数据等。
不同场景主题的容器内分别开展对数据进行处理工作,以及该容器下的实际审计检查工作。
审计机器人自动化容器中,对RPA获取的内部系统附件及外部数据等进行数据处理、提取及分析,附件下载工作属于重复简单的工作内容,RPA模仿人工操作,实现直接批量下载及内容归档工作。在数据处理上,可以对工单等文本类数据关键字段完成提取及校验工作,将平台获取的数据与内部系统数据进行一致性核验。
外部数据监控容器中,首先对于获取的企业工商数据进行清洗处理,形成包含企业名、关联企业名、各层级关键人员、所属关系、投资关系等字段的数据宽表,对外部供应商间存在的直接投资关联关系、单层级间接关联关系及多层级间接关联关系的检查。其中直接投资关联关系包括供应商间存在的子公司、一级股东、二级股东关系,单层级间接关联关系包括不同供应商的主要人员(股东、董事、监事、高管、历史主要人员)存在关联关系,多层级间接关联关系包括不同供应商的子公司、一级股东、二级股东企业的主要人员存在关联关系。同时,油价/造假信息监控场景需要技术组件对爬取的油价信息、物料价格信息等进行清洗处理,形成统一的费用价格表,同时提取数据集市中内部各项目对应的费用价格,从而进行比对分析,进行实时监控价格匹配及价格变动情况。
文本风险挖掘容器中,在签审一致性校验场景下需要针对用户在前台上传的实际签订扫描版合同进行ocr识别,从而转换成系统可读的文本类型文件,同时对相应的内部系统中的审核通过版合同进行一致性匹配。平台首先需要基于文本处理技术,对两份文本的内容进行对齐,从而使得两边的合同内容完成定位工作。基于定位结果,匹配两边条款实际是否存在修改点,并提示用户一致性风险。针对OCR技术可能存在的识别误差,平台可以基于前期机器学习及规则的导入,对文本中重要性等级较低的字符及表述的差异实现忽略操作,提高风险提示的准确性。在合同智能审核场景下,系统对从数据集市中获取的电子档合同进行一系列操作。针对不同合同范本,基于用户所关心的关键条款实现快速定位并提取至一张汇总的excel表格中,供用户下载。并基于历史合同风险规则及模型,批量对合同文本中隐藏的风险点进行探查,从而在前台提示用户待关注的风险点。
数据分析检查容器中针对不同的运营审计或专项审计场景,平台基于各自场景风险规则及风险模型所需数据维度,对数据集市中数据进行获取。如针对采购寻源专项审计中,平台基于风险模型判断需要,对数据集市中所采集的SRM等系统数据的采购时间、采购价格、主体责任人、供应商、政府指导价格、其它投标方价格、物料质量评级等各维度数据进行获取,并统一输入风险模型/规则中,判断可能存在风险的项目及采购流程。
针对不同审计场景需要以及数据展示需求,搭建前端直观展示界面,辅助审计工作开展。
通用管理层中包含系统运行所需的各类子模块。
用户管理子模块对平台用户账号进行管理,基于部门、职位、需求等角度进行增删改
权限管理子模块作为包含敏感信息的审计平台关键组成,可针对不同审计方向、审计需求、非审计人员进行功能、场景、数据方面的权限限制及隔离
任务管理子模块负责系统内多应用和多用户操作的任务进程调度,同时容器化的平台共享数据及技术组件,任务管理是重要组成部分。同时,系统对外部数据和内部数据的实时获取机制也需强大的任务管理模块进行统一调度。
数据集市维护子模块对系统关键的审计知识库进行状态更新维护,保持数据准确性、可用性、实时性等特点。
接口管理子模块负责与内部系统数据双向传输的接口管理,检测接口状态、数据传输量等关键指标。
本发明采用了上述技术方案,本发明具有以下技术效果:
本发明在于使用容器化的思想,来快速搭建轻量级审计平,具有轻量级、可复用、易扩展、少资源、高效率的特点,针对不同的审计主题场景,融合所需平台技术层和工具层搭建不同主题的容器,基于审计场景需求,系统快速配置技术层中所需的技术模块组件,并针对需要,对技术组件进行能力化和场景化的优化及升级,从而支撑顶层场景应用使用,容器化不同于以往传统审计平台搭建思路,无需针对众多审计工作内容及场景分别进行技术模块的搭建组装,而是将技术能力整合起来,形成中台力量,实现技术的通用及复用能力,降低前期开发成本,并且易于未来场景及其它技术功能模块的扩充拓展。
附图说明
图1为本发明框架图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,举出优选实施例,对本发明进一步详细说明。然而,需要说明的是,说明书中列出的许多细节仅仅是为了使读者对本发明的一个或多个方面有一个透彻的理解,即便没有这些特定的细节也可以实现本发明的这些方面。
一种基于容器化设计的审计应用平台,如图1所示,包括数据层、技术层、平台工具层和管理层,所述管理层均与数据层、技术层和平台工具层连接,所述数据层与技术层连接,所述技术层与平台工具层连接,所述数据层用于根据审计流程及管控要求,构建内部数据共享及外部数据自动化获取机制,形成具体审计业务特色的数据集,所述技术层用于构建通用且可复用的审计技术能力组件,实现审计技术的通用能力,平台工具层用于对数据及技术手段的整合封装,根据审计场景的业务需求,部署不同应用场景,所述管理层用于维护平台正常运转。
本发明实施例中,所述平台工具层包括场景层和能力层,能力层用于将技术层组件进行融合及场景化处理,包含机器人自动审计、数据整合处理、文本挖掘及数据分析,场景层集成审计工作中的实际风险检查及工作场景需求点,包括工单/文本批量获取、费用审计、供应商审计、油价/造假信息监控、签审一致性校验和运营审计场景。
本发明实施例中,外部数据包括从外部公开网站中获取授权的企业工商数据、油价信息、造价信息和发改委网站数据,内部数据为企业内部个性系统的数据,个性系统包括DCS系统、ERP系统、质检系统、SRM系统、ESH系统和报账系统。
4.根据权利要求3所述的一种基于容器化设计的审计应用平台,其特征在于:技术层包括机器人自动工作模块、数据自动处理模块、自然语言处理分析模块和数据分析模型模块,机器人自动工作模块用于文件下载、最新信息获取、基本信息核验和自动化生成报告,实现全天候的工作,数据自动处理模块用于对平台联通的内部系统数据、外部获取结构化及非结构化数据开展数据清洗、数据转换、数据整合和数据加载操作,基于不同场景功能需求及数据维度需求,将基础数据转换为适合审计场景工作开展需要的数据集,自然语言处理分析模块用于实体识别、时间抽取、因果关系抽取、中文分词、句法分析和语义分析,实现关键信息定位及抽取和文本数据挖掘,对文本类数据的快速理解及风险分析,数据分析模型模块用于融合前期业务理解、历史经验及专家规则,形成审计风险判定规则及风险预测模型,针对风险判定规则,构建基于数据库的SQL脚本,全量企业数据进行检查并定位问题,针对风险预测模型,基于审计历史数据,搭建风险预测机器学习模型,辅助审计人员对存在风险的业务点进行预先筛查及定位。
本发明实施例中,能力层包括审计机器人模块、外部数据整合模块、关键信息定位提取模块和模型构建模块,审计机器人模块用于自动化对目标网页下载文件附件,并自动下载归档,对工单、发文及费控相关的文本数据自动化提取,以及费用信息核算控制,前期内嵌风险检查逻辑,自动确定审计结论,自动生成审计文档,并对接收获取和验证核查的结论自动输入系统中,外部数据整合模块基于不同审计场景的需求,对企业工商和价格的多数据源、复杂且多类型数据实现清洗、整合处理,并自动化在平台数据库中形成记录,构建审计知识库体系,实现风险检查能力,关键信息定位提取模块用于对合同和审计文档的文本进行句法语义分析、相似度计算、分词、关键文本定位,对合同内容、甲乙方名称、金额、时间的关键信息定位提取,文本内容相似度比对及文本风险识别,模型构建模块基于不同审计场景需要及内核风险判断逻辑,使用SQL脚本搭建的规则模型,并使用python构建机器学习风险预测模型,将风险判断逻辑固化到平台中的不同场景中,实现对不同审计场景的风险分析需要。
本发明实施例中,场景层包括自动场景模块、监管场景模块、审核场景模块和运营审计场景模块,自动场景模块用于对系统及网站上的工单和文档的文本数据自动获取核查、系统附件自动下载、费用核算审计,监管场景模块用于对油价/造价信息监控,评估下属企业或生产基地油价及工程物料价格是否随市场价格波动而及时进行调整,审核场景模块用于对系统审核通过版及实际签定的pdf扫描版合同进行一致性检查,对关键条款修改、关键信息调整变化的感知,包括关键信息提取及系统校验、范本匹配度以及合同风险规则模型筛查,运营审计场景模块用于审计部门对企业生产、质量管控、矿山管理、安全环保管理、采购寻源管理、人力资源管理的运营各流程节点上全面深入审计管控,基于数据分析规则及模型,对风险做到事前事中事后控制,支持企业个性化审计场景的搭建,融合不同专项审计的风险检查逻辑,内嵌相应的规则及模型,实现个性化审计平台搭建的目的。
本发明实施例中,机器人自动工作模块、审计机器人模块和自动场景模块构成机器人自动化审计容器,数据自动处理模块、外部数据整合模块和监管场景模块构成外部数据监控容器,自然语言处理分析模块、关键信息定位提取模块和审核场景模块构成文本风险挖掘容器,数据分析模型模块、模型构建模块和运营审计场景模块构成数据分析检查容器。
本平台数据传输及功能实现路径包括:
外部结构化和非结构化数据通过API接口方式或基于Python的爬虫方式进行获取。针对非结构化数据进行数据提取工作,转换为结构化数据。如通过API方式获取第三方数据供应商提供的企业工商数据,通过爬虫方式对政府公开油价等数据进行获取等。最终基于不同场景容器需求,存储至内部数据库中。内部系统数据通过内网环境下,服务器接口的方式实现数据传输关联,以及RPA方式对文档类附件进行自动化下载归档。基于不同场景容器需求,将企业内部个性系统的数据存储至对应数据库中。内外部数据实现处理融合,形成统一的平台数据集市。
技术层内不同组件,基于各自的场景容器需要,对数据集市中的数据进行使用及处理。外部数据监控容器中外部数据整合技术组件对审计场景需要的油价、物材物料价格、企业工商信息、发改委公示的指导价格信息等直接从数据集市中进行提取并应用。文本风险检查容器中技术组件直接对数据集市中所需的审核通过版合同文本进行获取。数据分析检查容器中技术组件直接对数据集市中存储的内部各运营流程使用的多维度系统数据进行提取,如生产信息、采购数据、供应商数据、价格数据等。不同场景主题的容器内分别开展对数据进行处理工作,以及该容器下的实际审计检查工作。
审计机器人自动化容器中,对RPA获取的内部系统附件及外部数据等进行数据处理、提取及分析,附件下载工作属于重复简单的工作内容,RPA模仿人工操作,实现直接批量下载及内容归档工作。在数据处理上,可以对工单等文本类数据关键字段完成提取及校验工作,将平台获取的数据与内部系统数据进行一致性核验。
外部数据监控容器中,首先对油价/造价信息监控场景需要技术组件对爬取的油价信息、物料价格信息等进行清洗处理,形成统一的费用价格表,同时提取数据集市中内部各项目对应的费用价格,从而进行比对分析,进行实时监控价格匹配及价格变动情况等。
文本风险挖掘容器中,在签审一致性校验场景下需要针对用户在前台上传的实际签订扫描版合同进行ocr识别,从而转换成系统可读的文本类型文件,同时对相应的内部系统中的审核通过版合同进行一致性匹配。平台首先需要基于文本处理技术,对两份文本的内容进行对齐,从而使得两边的合同内容完成定位工作。基于定位结果,匹配两边条款实际是否存在修改点,并提示用户一致性风险。针对OCR技术可能存在的识别误差,平台可以基于前期机器学习及规则的导入,对文本中重要性等级较低的字符及表述的差异实现忽略操作,提高风险提示的准确性。在合同智能审核场景下,系统对从数据集市中获取的电子档合同进行一系列操作。针对不同合同范本,基于用户所关心的关键条款实现快速定位并提取至一张汇总的excel表格中,供用户下载。并基于历史合同风险规则及模型,批量对合同文本中隐藏的风险点进行探查,从而在前台提示用户待关注的风险点。
数据分析检查容器中针对不同的运营审计或专项审计场景,平台基于各自场景风险规则及风险模型所需数据维度,对数据集市中数据进行获取。如针对采购寻源专项审计中,平台基于风险模型判断需要,对数据集市中所采集的SRM等系统数据的采购时间、采购价格、主体责任人、供应商、政府指导价格、其它投标方价格、物料质量评级等各维度数据进行获取,并统一输入风险模型/规则中,判断可能存在风险的项目及采购流程。
通用管理层中包含系统运行所需的各类子模块。
用户管理子模块对平台用户账号进行管理,基于部门、职位、需求等角度进行增删改
权限管理子模块作为包含敏感信息的审计平台关键组成,可针对不同审计方向、审计需求、非审计人员进行功能、场景、数据方面的权限限制及隔离
任务管理子模块负责系统内多应用和多用户操作的任务进程调度,同时容器化的平台共享数据及技术组件,任务管理是重要组成部分。同时,系统对外部数据和内部数据的实时获取机制也需强大的任务管理模块进行统一调度。
数据集市维护子模块对系统关键的审计知识库进行状态更新维护,保持数据准确性、可用性、实时性等特点。
接口管理子模块负责与内部系统数据双向传输的接口管理,检测接口状态、数据传输量等关键指标。
容器化平台的特点是:轻量级、可复用、易扩展、少资源、高效率等,该平台融合了现阶段很多流行的技术与工具,相互配合、衔接,可更深入、更全面开展审计业务的融合分析。可以针对不同的审计主题场景,融合所需平台技术层和工具层搭建不同主题的容器。基于审计场景需求,系统快速配置技术层中所需的技术模块组件,并针对需要,对技术组件进行能力化和场景化的优化及升级,从而支撑顶层场景应用使用。另,容器化不同于以往传统审计平台搭建思路,无需针对众多审计工作内容及场景分别进行技术模块的搭建组装,而是将技术能力整合起来,形成中台力量,实现技术的通用及复用能力,降低前期开发成本,并且易于未来场景及其它技术功能模块的扩充拓展。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种基于容器化设计的审计应用平台,其特征在于:包括数据层、技术层、平台工具层和管理层,所述管理层均与数据层、技术层和平台工具层连接,所述数据层与技术层连接,所述技术层与平台工具层连接,所述数据层用于根据审计流程及管控要求,构建内部数据共享及外部数据自动化获取机制,形成具体审计业务特色的数据集,所述技术层用于构建通用且可复用的审计技术能力组件,实现审计技术的通用能力,平台工具层用于对数据及技术手段的整合封装,根据审计场景的业务需求,部署不同应用场景,所述管理层用于维护平台正常运转。
2.根据权利要求1所述的一种基于容器化设计的审计应用平台,其特征在于:所述平台工具层包括场景层和能力层,能力层用于将技术层组件进行融合及场景化处理,包含机器人自动审计、数据整合处理、文本挖掘及数据分析,场景层集成审计工作中的实际风险检查及工作场景需求点,包括工单/文本批量获取、费用审计、供应商审计、油价/造假信息监控、签审一致性校验和运营审计场景。
3.根据权利要求2所述的一种基于容器化设计的审计应用平台,其特征在于:外部数据包括从外部公开网站中获取授权的企业工商数据、油价信息、造价信息和发改委网站数据,内部数据为企业内部个性系统的数据,个性系统包括DCS系统、ERP系统、质检系统、SRM系统、ESH系统和报账系统。
4.根据权利要求3所述的一种基于容器化设计的审计应用平台,其特征在于:技术层包括机器人自动工作模块、数据自动处理模块、自然语言处理分析模块和数据分析模型模块,机器人自动工作模块用于文件下载、最新信息获取、基本信息核验和自动化生成报告,实现全天候的工作,数据自动处理模块用于对平台联通的内部系统数据、外部获取结构化及非结构化数据开展数据清洗、数据转换、数据整合和数据加载操作,基于不同场景功能需求及数据维度需求,将基础数据转换为适合审计场景工作开展需要的数据集,自然语言处理分析模块用于实体识别、时间抽取、因果关系抽取、中文分词、句法分析和语义分析,实现关键信息定位及抽取和文本数据挖掘,对文本类数据的快速理解及风险分析,数据分析模型模块用于融合前期业务理解、历史经验及专家规则,形成审计风险判定规则及风险预测模型,针对风险判定规则,构建基于数据库的SQL脚本,全量企业数据进行检查并定位问题,针对风险预测模型,基于审计历史数据,搭建风险预测机器学习模型,辅助审计人员对存在风险的业务点进行预先筛查及定位。
5.根据权利要求4所述的一种基于容器化设计的审计应用平台,其特征在于:能力层包括审计机器人模块、外部数据整合模块、关键信息定位提取模块和模型构建模块,审计机器人模块用于自动化对目标网页下载文件附件,并自动下载归档,对工单、发文及费控相关的文本数据自动化提取,以及费用信息核算控制,前期内嵌风险检查逻辑,自动确定审计结论,自动生成审计文档,并对接收获取和验证核查的结论自动输入系统中,外部数据整合模块基于不同审计场景的需求,对企业工商和价格的多数据源、复杂且多类型数据实现清洗、整合处理,并自动化在平台数据库中形成记录,构建审计知识库体系,实现风险检查能力,关键信息定位提取模块用于对合同和审计文档的文本进行句法语义分析、相似度计算、分词、关键文本定位,对合同内容、甲乙方名称、金额、时间的关键信息定位提取,文本内容相似度比对及文本风险识别,模型构建模块基于不同审计场景需要及内核风险判断逻辑,使用SQL脚本搭建的规则模型,并使用python构建机器学习风险预测模型,将风险判断逻辑固化到平台中的不同场景中,实现对不同审计场景的风险分析需要。
6.根据权利要求5所述的一种基于容器化设计的审计应用平台,其特征在于:场景层包括自动场景模块、监管场景模块、审核场景模块和运营审计场景模块,自动场景模块用于对系统及网站上的工单和文档的文本数据自动获取核查、系统附件自动下载、费用核算审计,监管场景模块用于对油价/造价信息监控,评估下属企业或生产基地油价及工程物料价格是否随市场价格波动而及时进行调整,审核场景模块用于对系统审核通过版及实际签定的pdf扫描版合同进行一致性检查,对关键条款修改、关键信息调整变化的感知,包括关键信息提取及系统校验、范本匹配度以及合同风险规则模型筛查,运营审计场景模块用于审计部门对企业生产、质量管控、矿山管理、安全环保管理、采购寻源管理、人力资源管理的运营各流程节点上全面深入审计管控,基于数据分析规则及模型,对风险做到事前事中事后控制,支持企业个性化审计场景的搭建,融合不同专项审计的风险检查逻辑,内嵌相应的规则及模型,实现个性化审计平台搭建的目的。
7.根据权利要求6所述的一种基于容器化设计的审计应用平台,其特征在于:机器人自动工作模块、审计机器人模块和自动场景模块构成机器人自动化审计容器,数据自动处理模块、外部数据整合模块和监管场景模块构成外部数据监控容器,自然语言处理分析模块、关键信息定位提取模块和审核场景模块构成文本风险挖掘容器,数据分析模型模块、模型构建模块和运营审计场景模块构成数据分析检查容器。
CN202011607209.6A 2020-12-29 2020-12-29 一种基于容器化设计的审计应用平台 Pending CN112711399A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011607209.6A CN112711399A (zh) 2020-12-29 2020-12-29 一种基于容器化设计的审计应用平台

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011607209.6A CN112711399A (zh) 2020-12-29 2020-12-29 一种基于容器化设计的审计应用平台

Publications (1)

Publication Number Publication Date
CN112711399A true CN112711399A (zh) 2021-04-27

Family

ID=75547153

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011607209.6A Pending CN112711399A (zh) 2020-12-29 2020-12-29 一种基于容器化设计的审计应用平台

Country Status (1)

Country Link
CN (1) CN112711399A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115170270A (zh) * 2022-09-06 2022-10-11 湖南三湘银行股份有限公司 基于大数据行为分析的数据检测方法及系统
CN116843488A (zh) * 2023-06-28 2023-10-03 广东铭太信息科技有限公司 一种审计模型建立方法及系统
CN116843488B (zh) * 2023-06-28 2024-05-24 广东铭太信息科技有限公司 一种审计模型建立方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543464A (zh) * 2018-12-12 2019-12-06 广东鼎义互联科技股份有限公司 一种应用于智慧园区的大数据平台及操作方法
CN111144836A (zh) * 2019-12-12 2020-05-12 中建八局第二建设有限公司 一种智慧建造一体化协同大数据平台
CN111371830A (zh) * 2019-11-26 2020-07-03 航天科工网络信息发展有限公司 一种万网融合场景下基于数据驱动的智能协同云架构

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110543464A (zh) * 2018-12-12 2019-12-06 广东鼎义互联科技股份有限公司 一种应用于智慧园区的大数据平台及操作方法
CN111371830A (zh) * 2019-11-26 2020-07-03 航天科工网络信息发展有限公司 一种万网融合场景下基于数据驱动的智能协同云架构
CN111144836A (zh) * 2019-12-12 2020-05-12 中建八局第二建设有限公司 一种智慧建造一体化协同大数据平台

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115170270A (zh) * 2022-09-06 2022-10-11 湖南三湘银行股份有限公司 基于大数据行为分析的数据检测方法及系统
CN116843488A (zh) * 2023-06-28 2023-10-03 广东铭太信息科技有限公司 一种审计模型建立方法及系统
CN116843488B (zh) * 2023-06-28 2024-05-24 广东铭太信息科技有限公司 一种审计模型建立方法及系统

Similar Documents

Publication Publication Date Title
Laskurain-Iturbe et al. Exploring the influence of industry 4.0 technologies on the circular economy
Plociennik et al. Towards a digital lifecycle passport for the circular economy
Toval et al. Requirements reuse for improving information systems security: a practitioner’s approach
CN106845647A (zh) 充电站的巡视检修方法、装置及系统
KR20090124621A (ko) 제품 재생 관리 시스템
Sahara et al. Real-time data integration of an internet-of-things-based smart warehouse: a case study
Mazhar et al. Designing complex socio-technical process systems–the airport example
Heilala et al. Decision support using simulation for customer-driven manufacturing system design and operations planning
CN114816591A (zh) 服务接口处理方法、装置、计算机设备和存储介质
CN112711399A (zh) 一种基于容器化设计的审计应用平台
Deng et al. Computational operations research exchange (core): A cyber-infrastructure for analytics
CN102682355A (zh) 一种基于soa复合应用的可重构电网企业生产管理信息系统
Wen Research and design of ERP system for small and medium-sized enterprises under great intelligence mobile cloud
Bjorling et al. Maintenance knowledge management with fusion of CMMS and CM
Puspita et al. Framework zachman for design information system logistics management
CN115496337A (zh) 一种支撑企业大脑的数据系统
Pourjafarian et al. A Multi-Stakeholder Digital Product Passport Based on the Asset Administration Shell
Gernhardt et al. A semantic representation for process-oriented knowledge management based on functionblock domain models supporting distributed and collaborative production planning
Bergmann et al. Collecting experience on the systematic development of CBR applications using the INRECA methodology
Nanda et al. Workflow Automation of Routing Rules in the Accounting Process for Online Travel Agency
Reddicharla et al. A Holistic Outlook on Integrated Data Management and Architecture Philosophy in Digital Oil Field Production Workflows-Lessons Learned from 2006-2019 in Giant Brown Fields
Wang et al. Research on Intelligent Power Marketing Inspection Model Based on Knowledge Graph
Xing et al. Study on the Impact of Big Data Technology on the Audit and its Application
Zhong et al. Research on intelligent financial framework of colleges and universities in information age
Karthikeya et al. Pending Receipts RPA Bot

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination