CN106407216A - 基于语义网构建路径开发的线索追溯稽核系统及其构建方法 - Google Patents
基于语义网构建路径开发的线索追溯稽核系统及其构建方法 Download PDFInfo
- Publication number
- CN106407216A CN106407216A CN201510463334.7A CN201510463334A CN106407216A CN 106407216 A CN106407216 A CN 106407216A CN 201510463334 A CN201510463334 A CN 201510463334A CN 106407216 A CN106407216 A CN 106407216A
- Authority
- CN
- China
- Prior art keywords
- clue
- data
- business
- model
- rule
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
- G06F16/313—Selection or weighting of terms for indexing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开一种基于语义网构建路径开发的线索追溯稽核系统及其构建方法,稽核系统包括系统架构、数据模型、规则处理模型及可视化模型,系统架构具体包括数据采集层、数据存储以及处理层、业务处理层以及结果的可视化层。本发明在信息化环境下,基于语义网构建架构与构建路径,以全面风险管理为导向,针对风险内控点涉及的财务相关联数据信息形成轨迹的业务线索,经过搭建关联规则分析模型,系统实现对风险点相关因素进行在线稽核线索追溯、结果自动处理、直观展现等功能,满足财务稽核工作能够实时在线开展线索追溯稽核的技术实现方法。本发明不仅实现快速有效的财务稽核,而且有效支撑在线事前防范、事中监控的管理需求,也解决了在线稽核实现方式的单一性。
Description
〖技术领域〗
本发明涉及电子信息及数据处理技术领域,具体涉及企业信息管理系统中基于语义网构建路径开发的线索追溯稽核系统及其构建方法。
〖背景技术〗
从外部监管来看,财务稽核部门是面对国资委、财政部、审计署等外部检查的关键部门,要求集团公司提升财务稽核效率,加大财务稽核力度,迫切需要从以下三个方面提升:一是加强公司财务稽核与业务监督协同,发挥对前端业务的监督作用;二是规范计划、营销、物资等业务数据处理,提高财务信息质量;三是集成业务数据与财务数据,拓展支撑在线稽核的技术方法和手段,实现对前端业务合规性、完整性、准确性在线监控。从内部管控来看,集团公司内部正在强化依法治企监督管理工作,通过有效的监督控制机制,防范风险发生,发挥审计、法律、财务、纪检监察等协同作用,强化重点领域、关键环节监督,为在线稽核提出了发展方向。
目前的在线稽核是以稽核规则为核心,根据稽核要点配置稽核规则,在线检索疑点,在线检查的技术手段相对比较单一,对财务数据相关联关系复杂的业务问题,特别是对业务流程跨业务、跨部门、跨系统处理,产生的风险点多、线索关联度大等问题,目前人工处理保证,系统稽核技术无法满足处理的准确度、时效性、全面性和有效性。
随着语义网思想、大数据等新技术趋于成熟,都促使技术开发实现应用成为可能。语义网是能够根据语义进行判断的网络,也就是一种能理解人类语言,可以使人与电脑之间的交流变得轻松的智能网络。
下面介绍一下语义网及其架构与构建路径:
1、语义网:语义指的是提供能被计算机理解的数据,即它的逻辑分析和语义表示的维度。网指的是语义数据不是孤立存在的,而是彼此互联,形成一个网状结构,即它的数据连接的维度。语义网(Semantic Web)是由万维网联盟的蒂姆·伯纳斯-李(Tim Berners-Lee)在1998年提出的一个概念,它的核心是:通过给万维网上的文档(如:HTML)添加能够被计算机所理解的语义(Metadata),从而使整个互联网成为一个通用的信息交换媒介。简单地说,语义网是一种智能网络,它不但能够理解词语和概念,而且还能够理解它们之间的逻辑关系,可以使人与电脑的交流变得更有效率和价值。
2、语义网的体系结构:基本上共有七层,自下而上其各层功能逐渐增强,如图1所示。
第一层为:Unicode和URI:Unicode是一个字符集,这个字符集中所有字符都用两个字节表示,可以表示65536个字符,基本上包括了世界上所有语言的字符;URI(Uniform Resource Identifier),即统一资源定位符,用于唯一标识网络上的一个概念或资源。在语义网体系结构中,该层是整个语义网的基础,其中Unicode负责处理资源的编码,URI负责资源的标识。
第二层为:Xml+NS+XmlSchema:XML是一个精简的标准通用标记语言,它综合了标准通用标记语言的丰富功能与HTML的易用性,它允许用户在文档中加入任意的结构,而无需说明这些结构的含意;NS(Name Space)即命名空间,由URI索引确定,目的是为了避免不同的应用使用同样的字符描述不同的事物。XMLSchema是文档类型定义(DTD)的替代品,它本身采用XML语法,但比DTD更加灵活,提供更多的数据类型,能更好地为有效的XML文档服务并提供数据校验机制。
第三层为:rdf+rdfschema:RDF是一种描述WWW上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势,进行基于Web的数据交换和再利用。RDF解决的是如何采用XML标准语法无二义性地描述资源对象的问题,使得所描述的资源的元数据信息成为机器可理解的信息。如果把XML看作为一种标准化的元数据语法规范的话,那么RDF就可以看作为一种标准化的元数据语义描述规范;Rdf schema使用一种机器可以理解的体系来定义描述资源的词汇,其目的是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对Web资源的描述。
第四层为:ontology vocabulary:该层是在RDF(S)基础上定义的概念及其关系的抽象描述,用于描述应用领域本体的知识,描述各类资源及资源之间的关系,实现对词汇表的扩展。在这一层,用户不仅可以定义概念而且可以定义概念之间丰富的关系。
以下三层位于语义网体系结构的顶部,也是语义表达的高级要求,目前正处于研究阶段。
第五层为:logic:负责提供公理和推理规则,而Logic一旦建立,便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证,证明其有效性。
第六层为:proof:论证层通过运用这些规则进行逻辑推理和求证。
第七层为:trust:信托层则负责为应用程序提供一种机制以决定是否信任给出的论证。
三、语义网领域本体构建路径,结合图2所示。
本体(Ontology)的概念最初起源于哲学领域,20世纪70年代末JohnMcCarthy将这个哲学术语引入到计算机领域,在人工智能界,将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则定义”。1993年最为流行的定义“Ontology是概念模型的明确规范说明”。Ontology的目标是捕获相关领域的知识,提出供该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同的层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义。
领域本体(Domain Ontology),是专业性的本体,描述的是特定领域中的概念和概念之间的关系,提供了某个专业学科领域中概念的词表以及概念间的关系,或在该领域里占主导地位的理论,能够独立的存在和被使用。
web信息抽取(Web Information Extraction)是将web作为信息源的一类信息抽取。简单的说,web信息抽取是指从web页面中抽取用户感兴趣的信息而过滤掉不相关的信息,具体的是指研究如何将分散在半结构化web页面中的信息提取出来,并以结构化、语义更为清晰的模式表示,它为用户在web中查询数据、应用程序直接利用web数据提供了便利。输入信息抽取系统的是原始文本,输出的是固定格式的信息点。其主要功能就是把信息点从各种各样的文档中抽取出来,然后以统一的形式集成在一起。基于领域本体的web信息抽取的前提都是要有领域专家采用人工的方式编写领域本体,该策略的基础和核心就是本体的构建。目前还不能构建出通用型本体,只能对特定领域构建,并且还只能采用半自动的方式由人工参与,其要求高、工作量大。
语义网领域本体构建简单表述:
领域本体库---解析规则生成器---语义标注---信息输入---信息输出
(1)领域本体库,根据本体构建规则,合理完善地建立我们所要抽取的该网页的信息所属的领域本体,作为信息抽取的基础。
(2)ontology解析规则生成器,主要是根据领域本体库,解析生成对象的一系列概念和关系(可以是以关键字形式表示),并把结果存放到数据记录表中;同时还会产生抽取规则,把已产生的规则存储到规则库中,用于以后的实例抽取。
(3)语义标注,web页面上的信息大都是无结构、语义性差,通过预处理可以解析成为我们需要的形式化文本(也可为无结构文本),预处理阶段包括语义标注等环节,语义标注过程简单的说,可以化为本体实例的丰富化过程。
(4)信息输入,图中的虚线表示在本体解析和数据记录表、用户之间可以有类似于关键字管理器的设备,进行对操作结果的管理,用户可以自主的添加、删除、更新这些关键字,已达到对管理结果的补充。
(5)信息输出,这样在抽取器中,就可以去匹配预处理之后的文本与数据记录表的数据,从而得到我们想要抽取的信息,返回给用户。
必须说明,构建本体的目的就是让计算机能够理解自然语义。通过信息输入的表述,选取合适的本体构建工具进行领域本体的建立,采用最新的OWL语言进行本体设计,将领域本体内的类及他们之间的关系合理表示,之后运用基于本体产生的抽取规则,当然要用较好的语法来编写规则,完成对web信息的抽取,输出信息。
〖发明内容〗
本发明旨在通过语义网思想的构建架构与路径,开发一个基于企业各种信息化数据语义来进行线索追溯的稽核系统及其构建方法,能够使信息系统按照用户实际稽核工作的要求自动查询和分析企业数据,直至得到所需要的结果。
本发明的目的由以下技术方案实现:
一种基于语义网构建路径开发的线索追溯稽核系统,其特征在于,包括系统架构、数据模型、规则处理模型及可视化模型,系统架构包括:数据采集层、数据存储以及处理层、业务处理层以及结果的可视化层;数据采集层采用Sqoop作为ETL工具,实现从各个数据源中采集数据并导入到数据存储以及处理层中;数据存储以及处理层:采用大数据处理技术Hadoop和Hive,用Hadoop的HDFS做底层的结构化和非结构数据存储,用Hive来组织管理和分析数据,采用Cloudera Manager做为数据存储以及处理层集群的管理工具,采用Hue作为辅助开发Hive的可视化工具;业务处理层采用Java来实现业务规则和行为规则处理逻辑,后续采用流式处理框架Storm来实时处理业务规则和行为规则;可视化层采用ECP的可视化组件来实现线索追溯的可视化。
一种上述基于语义网构建路径开发的线索追溯稽核系统的构建方法,其特征在于,包括:首先,基于语义网思想搭建线索追溯业务模型,具体包括:1、确定业务模型的主题和范围;2、明确追溯关键点,分析追溯内容;3、业务处理规则与展现模型设计;其次,根据所述线索追溯业务模型搭建线索追溯技术模型,具体包括:a、技术适应性分析;b、系统与技术架构、系统部署设计;c、数据、规则处理、可视化模型设计。
作为具体的技术方案,所述确定业务模型的主题和范围具体为:根据稽核目标的相关文件、制度、系统数据资料,确定线索追溯稽核业务主体,及其风险内控点形成的因素与线索,据此确定稽核点线索切入点和追溯范围。
作为具体的技术方案,所述明确追溯关键点,分析追溯内容具体为:明确各项相关追溯因素的分类及关键点描述,研究分写追溯内容的逻辑,追溯内容包括:追溯点、数据来源、追溯指标名称及计算公式、追溯点之间流程、关联关系、时间顺序。
作为具体的技术方案,所述业务处理规则与展现模型设计具体为:总结并寻找人工线索追溯方法规律,设计线索追溯稽核业务处理规则与信息输入输出展现模型;
作为具体的技术方案,所述技术适应性分析具体为:在梳理解决各信息系统在处理业务数据过程中的数据不一致的问题的基础上,研究在线稽核结果与风控系统评价结果的共享方案,对技术实现适应性与实现路径进行分析。
作为具体的技术方案,所述系统与技术架构、系统部署设计具体为:考虑适应性和实用性,设计系统应用架构、技术实现架构及系统部署图。
作为具体的技术方案,所述数据、规则处理、可视化模型设计具体为:以线索追溯业务模型为依托,给出数据关系及分类的存储标准和描述语言标准,设计出数据、规则处理、可视化模型。
本发明在信息化环境下,基于语义网构建架构与构建路径,以全面风险管理为导向,针对风险内控点涉及的财务相关联数据信息形成轨迹的业务线索,经过搭建关联规则分析模型,系统实现对风险点相关因素进行在线稽核线索追溯、结果自动处理、直观展现等功能,满足财务稽核工作能够实时在线开展线索追溯稽核的技术实现方法。本发明不仅实现快速有效的财务稽核,而且有效支撑在线事前防范、事中监控的管理需求,也解决了在线稽核实现方式的单一性。
〖附图说明〗
图1为语义网架构图。
图2为语义网基于领域本体的WEB信息抽取路径框图。
图3为本发明基于语义网构建路径开发的线索追溯稽核系统的架构框图。
图4为本发明基于语义网构建路径开发的线索追溯稽核系统的构建方法流程图。
图5为本发明基于语义网构建路径开发的线索追溯稽核系统的构建方法中业务模型搭建的流程图。
图6为本发明基于语义网构建路径开发的线索追溯稽核系统的构建方法中技术模型搭建的流程图。
〖具体实施方式〗
本发明提供的稽核系统及构建方法是从研究风险管理导向的稽核方法和数据关联网络两个方面入手,运用语义网思想、大数据处理等新技术,对财务数据形成轨迹相关联的信息,梳理ERP(企业资源计划)系统的基础字段关系和增量关系,进行分析挖掘,抽取形成问题行为类型,追溯形成问题行为线索,搭建问题行为追溯模型,以构建风险管理为导向的线索追溯业务模型与问题行为模型为基础,构建满足在线稽核开展线索追溯的企业业务语义网,实现对经营管理过程的业务处理方式和管理行为模式的实时稽核,为公司财务稽核和风险控制工作的融合提供支撑。
本发明基于语义网领域本体构建路径,开发线索追溯稽核技术的路径如下:
首先研究搭建基于语义网思想搭建的、以风险管理为导向的、根据业务管理相关的问题稽核点与管理稽核点关联线索逻辑设计的线索追溯业务模型;其次据此业务模型搭建技术实现模型,开发线索追溯稽核技术,将业务模型植入信息系统,通过系统集成收集挖掘相关数据;基于构建业务领域本体实例基础上,定义语义标准,转化管理用语为系统识别标准,予以固化,进行系统在线稽核处理。
一、研究线索追溯稽核技术实现的业务资料与技术条件:
如确定对集团工程物资管理作为主题,全面收集梳理集团公司工程物资管理内部控制和风控建设成果,及集团工程物资管理相关的信息系统应用成果,结合在线稽核模块和风控系统特点,识别可实现在线监控或可翻译成系统可识别的内容,进行整理汇总,为研究搭建以风险管理为导向的线索追溯稽核业务模型打好实践基础。
二、搭建以风险管理为导向的线索追溯业务模型
(1)切入点确定
以既有集团风险管理研究成果及风险内控管理政策制度为依据,进行业务模型的研究与梳理,按照“依据稽核的问题结果,追溯管理问题”的思路,进行深入分析研究,体现更多的是“问题”产生的关联关系与行为习惯,结合实际工作,如选择若干工程管理与物资管理方面与财务管理联系紧密的“问题”,确定之后对这些业务的管理问题深入分析梳理,进行难易程度排序,最终确定一项业务,作为本次模拟模型搭建的切入点。
(2)建立映射关系
对可实现的在线监控内容,研究关键业务的风险点和稽核疑点,提出具体的在线稽核需求和在线查找内部控制缺陷的需求;从关键业务的风险点及稽核疑点出发,针对风险和问题收集财务稽核、审计检查等的线索追踪经验及现场稽核的业务处理及查询分析方法,分析问题之间及问题与业务数据之间的关联关系及问题发生的条件等,根据人工线索追溯方法梳理并描述映射出关键问题的线索追溯路径。
(3)业务模型构建
参照稽核的问题结果,参考管理制度要求,结合内控咨询成果,预设规范模型,据此追溯管理问题中“问题”产生的关联关系与行为习惯,总结并寻找人工线索追溯方法的规律,针对选择业务领域的关键问题,研究业务流程、业务单据、业务数据,分析信息化环境下企业各类业务数据之间直接或间接的关联关系,包括业务价值链的前驱后继关系、业务发生的先后依赖关系、流程环节的节点关系、业务发生时间的并行或先后关系、业务单据产生的入口出口关系、通过人员操作形成的业务联系、物资设备形成的关联关系、不同地域空间的业务衔接关系、不同组织间的业务衔接关系等,建立基本业务语义关系模型,建立业务实例,并验证业务模型定义方法和标准的适用性,搭建线索追溯稽核业务模型。
三、搭建用于解析线索追溯业务模型的技术模型
首先,对工程、物资管理可稽核点稽核结果,结合语义关系,赋予标准化问题描述,形成对应关系。从关键业务风险点及稽核疑点出发,根据人工线索追溯方法梳理并描述出关键问题的线索追溯路径,针对风险和问题收集财务稽核、审计检查等实践中的线索追踪经验及现场稽核业务处理及查询分析方法,分析问题之间及问题与业务数据之间的关联关系及问题发生的条件等,梳理出语义关系。
其次,在梳理解决各信息系统在处理业务数据过程中存在的数据不一致等问题的基础上,研究在线稽核结果与风控系统评价结果的共享方案,将在线稽核结果应用于公司风险管理及内部控制建设,以线索追溯稽核业务模型为依托,研究数据之间关系及关系分类定义的方法,给出数据关系及分类的存储标准和描述语言标准,如用XML或者其他结构化的语言对数据进行标记,并使用结构化的语言对数据之间的关系进行描述,使得两种不同类型的数据可以通过标记的关系产生逻辑的关联;依据标准定义的关系,归纳不同的领域本体,并根据本体找出描述关系的逻辑规则,研究使计算机可以透过逻辑规则进行数据与数据自动转化的方法,给出不同逻辑规则的标准描述方法和存储结构,解析线索追溯业务模型的技术模型的类别。线索追溯稽核技术模型主要包括:
(1)系统技术架构
基于语义网体系架构,建立的线索追溯稽核信息系统技术架构,参见图3,包括数据采集、数据存储以及处理、业务处理以及结果的可视化四个层次:
数据采集:采用Sqoop作为ETL工具。实现从各个数据源中采集数据并导入到Hadoop中。
大数据平台:采用流行的大数据处理技术Hadoop和Hive。用Hadoop的HDFS做底层的结构化和非结构数据存储。用Hive来组织管理和分析数据。采用Cloudera Manager做为Hadoop集群的管理工具。采用Hue作为辅助开发Hive的可视化工具。
业务处理层:用Java来实现业务规则和行为规则处理逻辑。后续采用流式处理框架Storm来实时处理业务规则和行为规则。
可视化层:采用ECP的可视化组件来实现线索追溯的可视化。
(2)数据模型
数据模型包括逻辑数据模型和物理数据模型。数据模型采用SysbasePowerDesigner工具建模。线索追溯业务关系的结构化标记和标准语义用逻辑数据模型来表示,而逻辑数据模型用E-R模型图来描述。线索追溯的数据本体用物理数据模型来描述。
(3)规则处理模型
根据业务专家整理出来业务模型,以及业务模型的各个追溯点以及追溯点的计算公式,把业务模型的各个追溯点转换为计算机能处理的逻辑。
(4)可视化模型
可视化包括阈值设置、风险设置、稽核项目设置、线索追溯结果的展示。它采用ECP的可视化组件来实现各个功能的展示。
下面对集团企业“工程物资成本管理”业务风险控制点稽核实例,具体说明线索追溯稽核技术实现的方法,参见图4。
一、搭建业务模型
如图5:线索追溯稽核业务模型搭建路径示意图所示:
1、确定模型名称
主题分析,选择关键业务领域,如工程物资成本管理领域,梳理历年针对工程物资成本管理稽核发现的重点问题,据此追溯梳理相关业务数据之间直接或间接的关联关系,形成基于问题出现关键点的业务基本关系与行为模式/习惯关联关系模型文档,由集团公司的制度、规范、管理办法、专家理论/业务骨干工作经验,并针对风险及稽核要点整理形成线索追溯主题目录,包括线索追溯稽核主题,如举例为“物资成本管理线索追溯稽核业务模型”。
2、确定追溯范围
涉及工程物资的成本管理相关的薄软环节与易出现造成工程成本不实或入账不及时的问题及其行为习惯。
3、明确相关追溯因素的分类/环节/关键点描述
明确各项相关追溯因素的分类及关键点描述,如业务问题、管理工作等类别,采购、验收入库、工程项目耗用、退库等环节,及其涉及相关的追溯关键点描述等。
4、描述追溯点及其系统数据来源设计追溯指标
研究分析追溯内容,描述追溯点、数据来源、追溯指标(指标名称、计算公式)等。
5、分析追溯点之间的逻辑关系
研究分析追溯点之间逻辑关系,如流程、关联关系、时间顺序等。
6、设计追溯任务入口
在系统稽核项目功能界面,输入某次稽核任务文本描述,如“上海浦东新区、徐汇区、静安区供电局三个单位,在2013年上半年变压器的采购价格与订单价格偏差情况如何?”。
其中稽核单位、操作人等信息可自动根据事先赋予的语义进行判断后获取,系统依据此具体稽核任务中的关键字信息,自动解析形成具体的稽核任务。
7、设计追溯结果展现
稽核任务执行,系统直观显示任务执行后结果,结果图例中:
(1)横坐标时间粒度依据稽核期间、追溯出结果数据的采购时间段来智能综合判断最合适的展现粒度。
(2)图例线性图中每粒度时间点,需按追溯要求显示稽核任务最关键信息。例如,此项稽核全年变压器价格偏差的任务,则需在线性图每月粒度点上显示“变压器当月订单批次数量”、“当月价格偏差率”;同时,图中需标识显示“偏差最高值”、“偏差最低值”等关键信息关注点。
(3)通过鼠标右键点选和图形右侧功能按钮直接选择,结果“按年度显示”、“按月度显示”、“按旬显示”、“按日显示”、“按明细显示”五种显示方式。各层级人员可依各自所需点选,选择查询结果不同程度的展现等。
二、搭建技术模型
如图6:线索追溯稽核技术模型搭建路径示意所示:
1、技术适应性分析-理解业务模型,采集数据
在梳理解决各信息系统在处理业务数据过程中存在的数据不一致等问题的基础上,研究在线稽核结果与风控系统评价结果的共享方案,理解业务模型设计思想与思路,对技术实现适应性与实现路径进行分析;采集系统数据:与业务模型相关的应用系统数据,如财务管/物资管理/工程管理/主数据管理等。
2、建立数据逻辑模型
数据模型包括逻辑数据模型和物理数据模型。数据模型采用SysbasePowerDesigner工具建模。
线索追溯业务关系的结构化标记和标准语义用逻辑数据模型来表示,而逻辑数据模型用E-R模型图来描述。
以“采购入账价格与订单价格的比较”追溯点为例,说明数据逻辑存储模型:(模型图说明:右边有标识“<M>”表示主键,中间有“<fi>”标识,表示外键。表与表之间的关联是主外键关联。)。其中RSEG是发票校验表,EKPO是采购订单明细表,PROJ是项目基本信息表。例如:EKPO表的采购凭证号(EBELN)和采购凭证行项目(EBELP)是主键。EKBE表中的采购凭证号(EBELN)和采购凭证行项目(EBELP)是关联与EKPO表的外键,同时也是此表的主键之一。
采购订单与发票校验的关联顺序如下:
首先EKPO与EKBE关联,EKBE表的EBELN、EBELP字段关联与EKPO表的EBELN、EBELP字段。
然后EKBE与RSEG关联,EKBE表的BELNR、GJAHR、BUZEI字段关联与RSEG表的BELNR、GJAHR、BUZEI字段。
3、建立数据物理模型
线索追溯的数据本体用物理数据模型来描述。
数据物理存储模型是数据逻辑存储的基础之上,细化表的字段。下面是“采购入账价格与订单价格的比较”追溯点所涉及的表,表之间的关系与数据逻辑存储的关系相同。
4、设计系统应用架构
本应用架构分为三部分:
(1)业务模型:由业务专家梳理业务规则以及行为规则,建立业务模型。
(2)数据源:支持多个数据源的集成,支持财务管控系统、SAP套装项目管理模块、SAP套装物资管理模块等业务系统的数据源集成。
(3)ECP平台:线索追溯稽核主要应用到ECP平台的如下模块:
大数据平台模块:引入大数据技术作为技术支撑,包括分布式存储引擎、分布式计算引擎、流式处理引擎、内存计算引擎。其中分布式存储引擎支持结构化数据和非结构化数据的存储。
业务处理模块:实现问题稽核和行为稽核的业务规则处理。
可视化模块:实现阈值设置、风险设置、稽核项目设置、线索追溯结果展示的可视化。
用户接入模块:支持多种终端,包括:PC、手机、平板电脑等设备,并且支持多种浏览器的接入访问。
5、设计系统技术架构
技术架构包括数据采集、数据存储以及处理、业务处理以及结果的可视化。
数据采集:采用Sqoop作为ETL工具。实现从各个数据源中采集数据并导入到Hadoop中。
大数据平台:采用流行的大数据处理技术Hadoop和Hive。用Hadoop的HDFS做底层的结构化和非结构数据存储。用Hive来组织管理和分析数据。采用Cloudera Manager做为Hadoop集群的管理工具。采用Hue作为辅助开发Hive的可视化工具。
业务处理层:用Java来实现业务规则和行为规则处理逻辑。后续采用流式处理框架Storm来实时处理业务规则和行为规则。
可视化层:采用ECP的可视化组件来实现线索追溯的可视化。
6、设计系统数据架构
数据流向图处理步骤:
(1)从数据源中通过Sqoop抽取数据,存放到Hadoop集群的HDFS中。
(2)规则处理层从HDFS中用JDBC获取数据,并处理线索追溯稽核业务和行为规则。
(3)规则处理完之后,把结果数据存储到Oracle关系型数据库中。
前端通过JDBC从Oracle关系型数据库中获取线索追溯结果。
7、设计系统部署架构
Hadoop集群一开始部署4个节点,其中一个节点为Namenode节点,其余三个为Datanode节点,数据冗余策略为3份。如果集群容量不能满足业务需求,则可以通过增加Datanode的节点数,达到线性扩展。
8、设计系统线索追溯稽核路径
从发票校验往工程项目方向追溯。
9、设计系统业务规则处理路径
(1)设置稽核任务:如“上海浦东新区、徐汇区、静安区供电局三个单位,在2013年上半年变压器的采购价格与订单价格偏差情况如何?”。
其中稽核单位、操作人等信息可自动根据事先赋予的语义进行判断后获取,系统依据此具体稽核任务中的关键字信息,自动解析形成具体的稽核任务。
②获取线索追溯点的当前阈值与风险级别设置值:获取“采购入账价格与订单价格的比较“的当前阈值,假设为5%,并获取风险级别设置值。
③追溯出需要采购订单入账价格;
④追溯出采购订单结果;
⑤追溯出物资成本所属工程项目;
⑥计算实际偏差率,预估风险范畴;
⑦计算稽核结果,分析稽核问题,出具稽核结论;
⑧保存稽核结果。
以上实施例仅为充分公开而非限制本发明,基于本发明创新主旨的、未经创造性劳动的等效技术特征的替换,应当属于本申请揭露的范围。
Claims (8)
1.一种基于语义网构建路径开发的线索追溯稽核系统,其特征在于,包括系统架构、数据模型、规则处理模型及可视化模型,系统架构包括:数据采集层、数据存储以及处理层、业务处理层以及结果的可视化层;数据采集层采用Sqoop作为ETL工具,实现从各个数据源中采集数据并导入到数据存储以及处理层中;数据存储以及处理层:采用大数据处理技术Hadoop和Hive,用Hadoop的HDFS做底层的结构化和非结构数据存储,用Hive来组织管理和分析数据,采用Cloudera Manager做为数据存储以及处理层集群的管理工具,采用Hue作为辅助开发Hive的可视化工具;业务处理层采用Java来实现业务规则和行为规则处理逻辑,后续采用流式处理框架Storm来实时处理业务规则和行为规则;可视化层采用ECP的可视化组件来实现线索追溯的可视化。
2.一种权利要求1所述的基于语义网构建路径开发的线索追溯稽核系统的构建方法,其特征在于,包括:首先,基于语义网思想搭建线索追溯业务模型,具体包括:1、确定业务模型的主题和范围;2、明确追溯关键点,分析追溯内容;3、业务处理规则与展现模型设计;其次,根据所述线索追溯业务模型搭建线索追溯技术模型,具体包括:a、技术适应性分析;b、系统与技术架构、系统部署设计;c、数据、规则处理、可视化模型设计。
3.根据权利要求2所述的构建方法,其特征在于,所述确定业务模型的主题和范围具体为:根据稽核目标的相关文件、制度、系统数据资料,确定线索追溯稽核业务主体,及其风险内控点形成的因素与线索,据此确定稽核点线索切入点和追溯范围。
4.根据权利要求3所述的构建方法,其特征在于,所述明确追溯关键点,分析追溯内容具体为:明确各项相关追溯因素的分类及关键点描述,研究分写追溯内容的逻辑,追溯内容包括:追溯点、数据来源、追溯指标名称及计算公式、追溯点之间流程、关联关系、时间顺序。
5.根据权利要求4所述的构建方法,其特征在于,所述业务处理规则与展现模型设计具体为:总结并寻找人工线索追溯方法规律,设计线索追溯稽核业务处理规则与信息输入输出展现模型。
6.根据权利要求5所述的构建方法,其特征在于,所述技术适应性分析具体为:在梳理解决各信息系统在处理业务数据过程中的数据不一致的问题的基础上,研究在线稽核结果与风控系统评价结果的共享方案,对技术实现适应性与实现路径进行分析。
7.根据权利要求6所述的构建方法,其特征在于,所述系统与技术架构、系统部署设计具体为:考虑适应性和实用性,设计系统应用架构、技术实现架构及系统部署图。
8.根据权利要求7所述的构建方法,其特征在于,所述数据、规则处理、可视化模型设计具体为:以线索追溯业务模型为依托,给出数据关系及分类的存储标准和描述语言标准,设计出数据、规则处理、可视化模型。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510463334.7A CN106407216A (zh) | 2015-07-31 | 2015-07-31 | 基于语义网构建路径开发的线索追溯稽核系统及其构建方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510463334.7A CN106407216A (zh) | 2015-07-31 | 2015-07-31 | 基于语义网构建路径开发的线索追溯稽核系统及其构建方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN106407216A true CN106407216A (zh) | 2017-02-15 |
Family
ID=58007929
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510463334.7A Pending CN106407216A (zh) | 2015-07-31 | 2015-07-31 | 基于语义网构建路径开发的线索追溯稽核系统及其构建方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN106407216A (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107123047A (zh) * | 2017-04-14 | 2017-09-01 | 北京金融资产交易所有限公司 | 基于债券交易的数据采集系统及其数据采集方法 |
CN108470228A (zh) * | 2017-02-22 | 2018-08-31 | 国网能源研究院 | 财务数据稽核方法及稽核系统 |
CN109101277A (zh) * | 2017-06-20 | 2018-12-28 | 恒为科技(上海)股份有限公司 | 一种基于语义一致性的信息处理系统 |
CN109165212A (zh) * | 2018-08-31 | 2019-01-08 | 浪潮软件集团有限公司 | 一种大数据实时监控与稽核的方法 |
CN109389483A (zh) * | 2018-08-20 | 2019-02-26 | 国网上海市电力公司 | 一种财务决算疑点问题的智能处理方法 |
CN109558393A (zh) * | 2018-11-28 | 2019-04-02 | 中国海洋石油集团有限公司 | 一种数据模型构建方法、装置、设备及存储介质 |
CN109740836A (zh) * | 2018-11-16 | 2019-05-10 | 国网山东省电力公司 | 一种全网异常可追溯的线路损耗和平衡分析方法和装置 |
CN110400207A (zh) * | 2019-07-31 | 2019-11-01 | 华北电力大学(保定) | 一种基于大数据的财务在线监督系统及其方法 |
CN111091292A (zh) * | 2019-12-18 | 2020-05-01 | 中国科学院合肥物质科学研究院 | 一种核电站实时风险动态建模分析系统 |
CN112506891A (zh) * | 2020-11-17 | 2021-03-16 | 贵州电网有限责任公司 | 一种指标数据溯源模型的构建方法、系统及其模型 |
CN112650903A (zh) * | 2020-08-28 | 2021-04-13 | 武汉市可伴信息技术有限公司 | 基于多融合模式下的商品集采平台 |
CN113610616A (zh) * | 2021-08-16 | 2021-11-05 | 傲林科技有限公司 | 一种基于事件网的财务勾稽关系分析方法和分析系统 |
CN115883439A (zh) * | 2022-11-25 | 2023-03-31 | 中国联合网络通信集团有限公司 | 网络传输路径的处理方法、设备及存储介质 |
CN117472981A (zh) * | 2023-11-08 | 2024-01-30 | 青岛元果数码科技有限公司 | 一种业务链追溯检索方法 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118551A1 (en) * | 2005-11-23 | 2007-05-24 | International Business Machines Corporation | Semantic business model management |
CN103473672A (zh) * | 2013-09-30 | 2013-12-25 | 国家电网公司 | 企业级数据中心的元数据质量稽核系统、方法及平台 |
CN103955502A (zh) * | 2014-04-24 | 2014-07-30 | 科技谷(厦门)信息技术有限公司 | 一种可视化olap的应用实现方法及系统 |
-
2015
- 2015-07-31 CN CN201510463334.7A patent/CN106407216A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070118551A1 (en) * | 2005-11-23 | 2007-05-24 | International Business Machines Corporation | Semantic business model management |
CN103473672A (zh) * | 2013-09-30 | 2013-12-25 | 国家电网公司 | 企业级数据中心的元数据质量稽核系统、方法及平台 |
CN103955502A (zh) * | 2014-04-24 | 2014-07-30 | 科技谷(厦门)信息技术有限公司 | 一种可视化olap的应用实现方法及系统 |
Cited By (21)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108470228A (zh) * | 2017-02-22 | 2018-08-31 | 国网能源研究院 | 财务数据稽核方法及稽核系统 |
CN107123047B (zh) * | 2017-04-14 | 2020-12-29 | 北京金融资产交易所有限公司 | 基于债券交易的数据采集系统及其数据采集方法 |
CN107123047A (zh) * | 2017-04-14 | 2017-09-01 | 北京金融资产交易所有限公司 | 基于债券交易的数据采集系统及其数据采集方法 |
CN109101277A (zh) * | 2017-06-20 | 2018-12-28 | 恒为科技(上海)股份有限公司 | 一种基于语义一致性的信息处理系统 |
CN109101277B (zh) * | 2017-06-20 | 2024-04-19 | 恒为科技(上海)股份有限公司 | 一种基于语义一致性的信息处理系统 |
CN109389483A (zh) * | 2018-08-20 | 2019-02-26 | 国网上海市电力公司 | 一种财务决算疑点问题的智能处理方法 |
CN109165212A (zh) * | 2018-08-31 | 2019-01-08 | 浪潮软件集团有限公司 | 一种大数据实时监控与稽核的方法 |
CN109740836B (zh) * | 2018-11-16 | 2023-04-07 | 国网山东省电力公司 | 一种全网异常可追溯的线路损耗和平衡分析方法和装置 |
CN109740836A (zh) * | 2018-11-16 | 2019-05-10 | 国网山东省电力公司 | 一种全网异常可追溯的线路损耗和平衡分析方法和装置 |
CN109558393A (zh) * | 2018-11-28 | 2019-04-02 | 中国海洋石油集团有限公司 | 一种数据模型构建方法、装置、设备及存储介质 |
CN109558393B (zh) * | 2018-11-28 | 2023-08-22 | 中国海洋石油集团有限公司 | 一种数据模型构建方法、装置、设备及存储介质 |
CN110400207A (zh) * | 2019-07-31 | 2019-11-01 | 华北电力大学(保定) | 一种基于大数据的财务在线监督系统及其方法 |
CN111091292B (zh) * | 2019-12-18 | 2023-08-18 | 中国科学院合肥物质科学研究院 | 一种核电站实时风险动态建模分析系统 |
CN111091292A (zh) * | 2019-12-18 | 2020-05-01 | 中国科学院合肥物质科学研究院 | 一种核电站实时风险动态建模分析系统 |
CN112650903A (zh) * | 2020-08-28 | 2021-04-13 | 武汉市可伴信息技术有限公司 | 基于多融合模式下的商品集采平台 |
CN112650903B (zh) * | 2020-08-28 | 2024-03-29 | 武汉市可伴信息技术有限公司 | 基于多融合模式下的商品集采平台 |
CN112506891A (zh) * | 2020-11-17 | 2021-03-16 | 贵州电网有限责任公司 | 一种指标数据溯源模型的构建方法、系统及其模型 |
CN113610616A (zh) * | 2021-08-16 | 2021-11-05 | 傲林科技有限公司 | 一种基于事件网的财务勾稽关系分析方法和分析系统 |
CN113610616B (zh) * | 2021-08-16 | 2023-10-13 | 傲林科技有限公司 | 一种基于事件网的财务勾稽关系分析方法和分析系统 |
CN115883439A (zh) * | 2022-11-25 | 2023-03-31 | 中国联合网络通信集团有限公司 | 网络传输路径的处理方法、设备及存储介质 |
CN117472981A (zh) * | 2023-11-08 | 2024-01-30 | 青岛元果数码科技有限公司 | 一种业务链追溯检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106407216A (zh) | 基于语义网构建路径开发的线索追溯稽核系统及其构建方法 | |
He et al. | Manufacturing knowledge graph: a connectivism to answer production problems query with knowledge reuse | |
Malik et al. | A methodology for real-time data sustainability in smart city: Towards inferencing and analytics for big-data | |
Barba-González et al. | BIGOWL: Knowledge centered big data analytics | |
Fileto et al. | POESIA: An ontological workflow approach for composing Web services in agriculture | |
CN111552820A (zh) | 水工程调度数据处理方法及装置 | |
Thenmozhi et al. | An ontology based hybrid approach to derive multidimensional schema for data warehouse | |
US10397326B2 (en) | IRC-Infoid data standardization for use in a plurality of mobile applications | |
CN112613611A (zh) | 一种基于知识图谱的税务知识库系统 | |
Zhang et al. | A knowledge graph system for the maintenance of coal mine equipment | |
Qiu et al. | An approach to filling firms' knowledge gaps based on organisational knowledge structure | |
Kaufmann et al. | SQL and NoSQL Databases | |
Ren et al. | Dynamically identifying and evaluating key barriers to promoting prefabricated buildings: Text mining approach | |
Bao et al. | Ontology-based assembly process modeling with element extraction and reasoning | |
Shi et al. | Human resources balanced allocation method based on deep learning algorithm | |
Dong et al. | Scene-based big data quality management framework | |
Zhu | Survey on ontology mapping | |
Chung et al. | Constructing city ontology from expert for smart city management | |
Ashraf et al. | Making sense from Big RDF Data: OUSAF for measuring ontology usage | |
Li | Construction of an interactive sharing platform for competitive intelligence data of marine resources under the background of intelligence construction | |
Kaufmann et al. | Database Modeling | |
Pascal Filho et al. | A MapReduce-based Method for Achieving Active Technological Surveillance in Big Data Environments | |
Kovalyov | Key Technologies of Digital Twins: A Model-Based Perspective | |
Assouroko et al. | Semantic relationship based knowledge management and reuse in collaborative product development | |
Kaur et al. | Towards Transparent Governance by Unifying Open Data. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20170215 |