CN110928892B - 一种数据信息扫描同步系统及方法 - Google Patents

一种数据信息扫描同步系统及方法 Download PDF

Info

Publication number
CN110928892B
CN110928892B CN201910980650.XA CN201910980650A CN110928892B CN 110928892 B CN110928892 B CN 110928892B CN 201910980650 A CN201910980650 A CN 201910980650A CN 110928892 B CN110928892 B CN 110928892B
Authority
CN
China
Prior art keywords
data
information
synchronization
attribute
list
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910980650.XA
Other languages
English (en)
Other versions
CN110928892A (zh
Inventor
董岩
余建勤
王臻
何鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Helicopter Research and Development Institute
Original Assignee
China Helicopter Research and Development Institute
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Helicopter Research and Development Institute filed Critical China Helicopter Research and Development Institute
Priority to CN201910980650.XA priority Critical patent/CN110928892B/zh
Publication of CN110928892A publication Critical patent/CN110928892A/zh
Application granted granted Critical
Publication of CN110928892B publication Critical patent/CN110928892B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明属于信息系统集成技术领域,具体涉及一种数据信息扫描同步系统及方法,本方法无需对产生和管理数据的上游信息系统和使用数据的下游信息系统进行改造,通过搭建信息扫描同步系统,获取和识别上游信息系统的数据变化,并以低代价和高效率的方式对数据进行分析后写入下游信息系统,实现了信息流的单向、稳定、及时的推送。本发明为信息系统的单向信息流集成提供了一种可靠系统及方法,减少了信息系统集成时的实施难度,并为无法改造的信息系统间的集成提供了一种可行方法。

Description

一种数据信息扫描同步系统及方法
技术领域
本发明属于信息系统集成技术领域,具体涉及一种数据信息扫描同步系统及方法。
背景技术
信息系统集成通常有接口编程、落地文件集成、数据集成、界面集成等多种方式。通常信息系统集成需要对产生信息的上游信息系统和接收信息的下游信息系统进行改造,比如修改增加数据获取和推送接口,建立DBLink数据库链接等技术手段。但对于企业内一些基于成熟产品的信息系统的集成而言,则由于产品技术架构的复杂度,难以开展技术改造工作,此时可以使用数据提取、转换、装载等工具进行数据层的集成,但使用工具集成,对于上游信息系统的数据存储格式有非常严格的要求,并且采用数据层的集成通常不是实时的,对于连贯要求较高的应用场景难以满足。
现有的数据信息同步系统及方法通常是面向文件级别的数据同步,无法实现从数据库和数据文件实时同步到下游信息系统的结构化数据存储中;面向结构化数据的信息同步通常对数据的格式化要求比较高,并且难以做到实时同步。
适用范围:上游信息系统无法进行改造,下游信息系统具有写入功能。
发明内容
本发明的目的:
本发明针对现有信息同步扫描同步方法在通用性和实时性方面的不足,提出了一种采用数据扫描、数据分析、信息推送装置,实现信息系统数据层集成的方法。
本发明的技术方案:
一种数据信息扫描同步系统及方法,其特征在于无需对产生和管理数据的上游信息系统和使用数据的下游信息系统进行改造,通过搭建信息扫描同步系统,获取和识别上游信息系统的数据变化,并以低代价和高效率的方式对数据进行分析后写入下游信息系统,实现了信息流的单向、稳定、及时的推送。
本发明的技术方案包括在上游信息系统和下游信息系统之间独立搭建信息扫描同步系统,在信息扫描同步系统中设置数据扫描装置、数据属性信息数据库、数据内容分析装置、数据内容分析规则库、数据信息同步装置。并将数据扫描装置的数据源设置为上游信息系统的数据存储,将数据同步装置的输出点设置为下游信息系统数据接口,并根据上游信息系统数据存储中数据的信息构成特征,设置数据内容分析规则库。上述同步系统中,数据扫描装置、数据信息同步装置、数据内容分析装置可以根据数据同步量,采取单机或分布式部署;当采用分布式部署时,数据内容分析装置可部署多个节点。
数据属性信息数据库以行存储方式存放上游信息系统数据的数据资源标识、数据更新时间标识、数据分析状态标识、数据同步状态标识、数据信息属性集。
数据内容分析规则库用于匹配数据内容中的数据信息,每条匹配规则对应一个信息字段,以及该信息字段在数据内容中的匹配特性和提取方法。
数据扫描装置用于周期的扫描上游信息系统数据存储,获取数据清单,根据上游信息系统数据存储中数据的数据更新时间标识信息,以及数据属性信息数据库中的已有数据属性信息,过滤得到增量的数据属性清单,并写入到数据属性信息数据库。具体工作特征如下述过程:
(1)开始第n个扫描周期,记录当前时间T(n);
(2)遍历上游信息系统数据存储,获取数据文件清单DL,根据数据源类型建立数据资源标识,并获取每个数据的最后更改时间,具体为文件的更改时间或数据库条目的最后更改时间属性;
(3)对步骤(2)所述的数据文件清单DL进行筛选,将最后更改时间晚于上个扫描周期开始时间T(n-1)的数据筛选出,得到最新更改数据文件清单NDL;
(4)从数据属性信息数据库中,按照最后更改时间属性晚于T(n-1)的条件取出上周期增量数据文件清单LADL,将步骤3)所述的最新更改数据文件清单NDL与上周期增量数据文件清单LADL进行对比,从最新更改数据文件清单NDL中去除已经存在于上周期增量数据文件清单LADL的数据,得到本周期增量数据清单CADL;
(5)对步骤4)所述的本周期增量数据文件清单CADL中的每一条数据D(i),根据数据资源标识值,在数据属性信息数据库中进行查询,得到数据属性信息结果集CQ(i);
(6)如果步骤(5)所述的数据属性信息结果集CQ(i)不为空,则执行步骤(8);否则,执行步骤(7);
(7)将数据D(i)的数据资源标识、最后更改时间写入数据属性信息数据库中,与之对应的数据分析状态标识、数据同步状态标识、数据信息属性集均为空;
(8)如果CADL的遍历未完成,则回到步骤(5)继续执行;如果对CADL的遍历结束,则返回步骤(1)开始下个执行周期,继续执行。采用上述执行步骤,扫描周期的执行效率可以达到最优。
数据内容分析装置用于周期性的根据数据分析状态标识过滤得到待分析的数据清单,对于清单中的每一行,根据数据资源标识获取数据内容,对获取到的数据内容按照数据内容分析规则库提供的匹配规则进行分析,得到数据信息,将数据信息写入数据信息属性集,更新数据分析状态标识。具体工作特征如下述过程:
(1)开始分析周期;
(2)按照数据分析状态标识为空的条件,在数据属性信息数据库中进行查询,得到数据属性信息查询结果集CQUA;
(3)对于CQUA的每一行L(i),根据数据资源标识,到上游信息系统数据存储中读取数据L-DATA(i);
(4)检查数据L-DATA(i)是否完整,如果L-DATA(i)不完整,跳过L(i),返回步骤3)处理下一条;如果L-DATA(i)完整,则读取数据内容分析规则库,得到规则清单RL;
(5)对于规则清单RL中的每一条R(i),读取其字段F(i),匹配表达式Exp(i),将Exp(i)应用于L-DATA(i),如果匹配成功得到信息数据FD(i),则在L(i)的数据信息属性集中增加一段(F(i),FD(i))的键值对属性记录,如果Exp(i)应用于L-DATA(i)未能匹配到任何信息,则跳过R(i);
(6)在步骤5)中对规则清单RL的遍历结束后,将L(i)的数据分析状态标识置为非空,之后将L(i)数据分析状态标识和数据信息属性集写回数据属性信息数据库,返回步骤3)处理下一条;
(7)在步骤3)至步骤6)中对数据属性信息查询结果集CQUA的遍历结束后,回到步骤1)开始下一个分析周期。
数据信息同步装置用于周期性的将数据信息属性集写入下游信息系统的数据接口,写入成功则更新数据同步状态标识。具体工作特征如下述过程:
(1)开始数据同步周期;
(2)按照数据分析状态标识为非空,且数据同步状态标识为空的条件,在数据属性信息数据库中进行查询,得到数据属性信息查询结果集CQTA;
(3)对于CQTA的每一行LT(i),将其数据信息属性集按照下游信息系统数据接口所要求的格式进行格式化,并写入下游信息系统数据接口;
(4)如果步骤3)所述的写入成功,则将LT(i)的数据同步状态标识置为非空,并写回数据属性信息数据库;否则跳过LT(i);
(5)在步骤3)至步骤4)中对数据属性信息查询结果集CQTA的遍历结束后,回到步骤1)开始下一个数据同步周期。
本发明的有益效果:本发明无需对产生和管理数据的上游信息系统和使用数据的下游信息系统进行改造,通过搭建信息扫描同步系统,获取和识别上游信息系统的数据变化,并以低代价和高效率的方式对数据进行分析后写入下游信息系统,实现了信息流的单向、稳定、及时的推送。本发明为信息系统的单向信息流集成提供了一种可靠系统及方法,减少了信息系统集成时的实施难度,并为无法改造的信息系统间的集成提供了一种可行方法。
附图说明
图1为数据信息扫描同步系统,
图2为数据扫描装置工作流程图,
图3为数据内容分析装置工作流程图,
图4为数据信息同步装置工作流程图。
具体实施方式
实施方式1:
本实施方式为一种在服务器采取分布式部署系统的方式,包括在搭建事务型数据库和部署系统服务。系统由数据扫描服务、数据信息同步服务、数据内容分析服务、存储数据属性信息的关系型数据库实例、存储数据内容分析规则的文档型数据库。由于数据内容分析运算量较大,将数据内容分析服务和数据内容分析规则数据库部署到一台服务器,将数据扫描服务、数据信息同步服务、数据属性信息数据库部署到一台服务器。
数据扫描服务的扫描数据源配置为上游信息系统的文件系统,将数据同步服务的输出点设置为下游信息系统的数据库,根据上游信息系统的文件格式,编写匹配表达式,并存入数据内容分析规则数据库。
其中:
数据属性信息数据库为关系型数据库,建立数据属性信息表,包括:数据资源标识列、数据更新时间列、数据分析状态列(默认为0)、数据同步状态列(默认为0);建立数据信息表,包括:数据资源标识列(以数据属性信息表的数据资源标识列为外键)、数据信息字段名、数据信息字段值。
数据内容分析规则数据库为文档型数据库,每条数据库记录包含字段名称,以及匹配表达式,匹配表达式为文本型,基于正则表达式。在实施信息扫描同步系统时,根据上游信息系统数据的格式编写匹配表达式,并配置到数据内容分析规则数据库中。
数据扫描服务为一个周期运行的操作系统服务程序,部署在分时操作系统中。将数据扫描服务的扫描目录配置为上游信息系统的文件存储目录,以便周期的扫描上游信息系统文件存储,获取数据文件清单,根据上游信息系统文件存储目录中的数据文件最后更新时间,以及数据属性信息数据库中的已有数据属性信息的数据更新时间列,过滤得到增量的文件属性清单,并写入到数据属性信息数据库。
数据扫描服务以操作系统服务框架进行编程,在后台服务中循环执行扫描过程,每个循环周期按照如下过程进行编程:
(1)开始第n个扫描周期,记录当前时间T(n);
(2)遍历上游信息系统文件存储目录,获取文件清单DL,根据建立以文件路径为标识的文件数据源标识,并获取每个文件的最后更改时间;
(3)对步骤(2)所述的文件清单DL进行筛选,将DL中文件最后更改时间晚于上个扫描周期开始时间T(n-1)的文件筛选出,得到最新更改文件清单NDL;
(4)从数据属性信息数据库中,按照最后更改时间属性晚于T(n-1)的条件取出上周期增量数据清单LADL,将步骤3)所述的文件清单NDL与上周期增量数据清单LADL进行对比,从NDL中去除已经存在于LADL的数据,得到本周期增量文件清单CADL。
(5)对步骤4)所述的本周期增量文件清单CADL中的每一条文件信息数据D(i),根据数据资源标识值,在数据属性信息数据库中进行查询,得到数据属性信息结果集CQ(i);
(6)如果步骤(5)所述的数据属性信息结果集CQ(i)为空,则执行步骤(8);否则,执行步骤(7);
(7)将文件信息数据D(i)的数据资源标识、最后更改时间写入数据属性信息数据库中的新行,新行的数据分析状态标识、数据同步状态标识、数据信息属性集均为默认值;
(8)如果本周期增量文件清单CADL的遍历未完成,则回到步骤(5)继续执行;如果对本周期增量文件清单CADL的遍历结束,则返回步骤(1)开始下个执行周期,继续执行。
数据内容分析服务与部署于数据内容分析规则数据库部署于同一个服务器,用于周期性的根据数据分析状态标识过滤得到待分析的数据清单,对于清单中的每一行,根据数据资源标识获取数据内容,对获取到的数据内容按照数据内容分析规则库提供的匹配规则进行分析,得到数据信息,将数据信息写入数据信息属性集,更新数据分析状态标识。
数据内容分析服务以操作系统服务框架进行编程,在后台服务中循环执行分析过程,每个循环周期按照如下过程进行编程:
(1)开始分析周期;
(2)按照数据分析状态标识为空的条件,在数据属性信息数据库中进行查询,得到数据属性信息查询结果集CQUA;
(3)对于数据属性信息查询结果集CQUA的每一行数据属性信息L(i),根据数据资源标识得到数据文件在上游信息系统文件目录中的路径,依此到上游信息系统数据文件系统中读取文件内容L-DATA(i);
(4)检查文件内容L-DATA(i)是否完整,如果文件内容L-DATA(i)不完整,跳过数据属性信息L(i),返回步骤3)处理下一条;如果文件内容L-DATA(i)完整,则读取数据内容分析规则数据库,得到规则清单RL;
(5)对于规则清单RL中的每一条规则R(i),读取其字段名称F(i),匹配表达式Exp(i),将匹配表达式Exp(i)应用于文件内容L-DATA(i),如果匹配成功得到信息数据FD(i),则在数据属性信息L(i)的数据信息属性集中增加一段(F(i),FD(i))的键值对属性记录,如果匹配表达式Exp(i)应用于文件内容L-DATA(i)未能匹配到任何信息,则跳过本条规则R(i);
(6)在步骤5)中对规则清单RL的遍历结束后,将数据属性信息L(i)的数据分析状态标识置为1,之后将数据属性信息L(i)的数据分析状态标识和数据信息属性集写回数据属性信息数据库,返回步骤3)处理下一条;
(7)在步骤3)至步骤6)中对数据属性信息查询结果集CQUA的遍历结束后,回到步骤1)开始下一个分析周期;
数据信息同步服务为一个周期运行的操作系统服务程序,部署在分时操作系统中。用于周期性的将数据信息属性集写入下游信息系统的数据接口,写入成功则更新数据同步状态标识。
数据信息同步服务以操作系统服务框架进行编程,在后台服务中循环执行分析过程,每个循环周期按照如下过程进行编程:
(1)开始数据同步周期;
(2)按照数据分析状态标识为非空,且数据同步状态标识为空的条件,在数据属性信息数据库的数据信息表中进行查询,得到数据属性信息查询结果集CQTA;
(3)对于数据属性信息查询结果集CQTA的每一行数据属性信息LT(i),将其数据信息属性集按照下游信息系统数据接口所要求的格式进行格式化,并写入下游信息系统数据接口;
(4)如果步骤3)所述的写入成功,则将第i条数据属性信息LT(i)的数据同步状态标识置为非空,并写回数据属性信息数据库;否则跳过第i条数据属性信息LT(i);
(5)在步骤3)至步骤4)中对数据属性信息查询结果集CQTA的遍历结束后,回到步骤1)开始下一个数据同步周期;
实施例1:
本实施例是某科技企业的两个信息系统进行单向数据集成的案例;上游信息系统为技术文件审签系统,为国外成熟软件产品,无法进行软件改造,且数据库结构较复杂,无法采用基于数据库的信息提取,下游为数据档案管理系统,为国产软件,也无法进行改造,但数据库结构较简单,可作写入用。上游信息系统的技术文件审签系统,每个被审签的技术文件及其审签状态,以文件形式存放在技术文件审签系统的服务器上。
在本实施例中,通过在技术文件审签系统和数据档案管理系统之间部署信息扫描同步系统,解决了技术文件审签状态同步到数据档案管理系统的问题。
在本实施例中,系统的具体部署如下:
数据属性信息数据库为MS Sql Server数据库,建立数据属性信息表DataSourceInfo,包括:数据资源标识列(dataUrl)、数据更新时间列(LastModifiedTime)、数据分析状态列(parseStatus,默认为0)、数据同步状态列(syncStatus,默认为0);建立数据信息表DataInfo,包括:数据资源标识列(dataUrl,以DataSourceInfo的dataUrl列为外键)、数据信息字段名(fieldName)、数据信息字段值(fieldValue)。
数据内容分析规则数据库为MongoDB数据库,每条数据库记录包含字段名称(fieldName),以及匹配表达式(Expression),匹配表达式为文本型,基于正则表达式。在实施信息扫描同步系统时,根据上游信息系统的技术文件审签系统中,对于数据审批状态的日志格式,在数据库中配置了一组字段和匹配表达式的结果如下:
(filename,"object\s{value}\sauthorized\sby.*"),
(authorizer,"object.*authrized\sby\s{value}\s\@.*")
(authorizeTime,"object.*authrized\sby.*\@{value}$")
具体使用时,对每个技术文件审签流程实例文件夹下的日志文件内容进行多行模式匹配,首先将{value}视作.*通配符对文件内容进行匹配,得到匹配串,其次对匹配串进行后续处理,将{value}的前后均作为正则表达式,对匹配串进行前向去余和后向去余,最终得到被提取的值。
数据扫描服务部署于Windows服务器,以C#编写,以Timer驱动而周期性运行,可以配置其扫描的目标目录。将数据扫描服务的扫描目录配置为技术文件审签系统的文件存储目录,以便周期的扫描技术文件审签流程实例文件夹,获取文件审签流程实例清单,根据技术文件审签流程实例文件夹的最后更新时间,以及数据属性信息数据库中DataSourceInfo表中的LastModifiedTime列,过滤得到增量的文件审签流程实例清单,并写入到数据属性信息数据库中。
数据扫描服务执行逻辑如下:
(1)开始ProcessScan过程,将当前T(n)赋值给T(n-1),将当前时间赋值给T(n);
(2)遍历技术文件审签系统的文件存储目录,获取文件清单DL,根据建立数据源标识如“file://{directory_path}/{instancename}”,并获取每个文件夹的最后更改时间;
(3)对步骤(2)所述的文件清单DL进行筛选,将DL中文件最后更改时间晚于T(n-1)的文件筛选出,得到最新更改文件清单NDL;
(4)从数据属性信息数据库中,按照最后更改时间属性晚于T(n-1)的条件取出上周期增量数据清单LADL,将步骤3)所述的文件清单NDL与上周期增量数据清单LADL进行对比,从NDL中去除已经存在于LADL的数据,得到本周期增量文件清单CADL。
(5)对步骤4)所述的本周期增量文件清单CADL中的每一条文件信息数据D(i),根据数据资源标识值,在数据属性信息数据库中进行查询,得到数据属性信息结果集CQ(i);
(6)如果步骤(5)所述的数据属性信息结果集CQ(i)为空,则执行步骤(8);否则,执行步骤(7);
(7)将文件信息数据D(i)的数据资源标识、最后更改时间写入数据属性信息数据库DataSourceInfo表,数据分析状态列(parseStatus)、数据同步状态列(syncStatus)均为默认值0;
(8)如果本周期增量文件清单CADL的遍历未完成,则回到步骤(5)继续执行;如果对本周期增量文件清单CADL的遍历结束,则返回步骤(1)开始下个执行周期,继续执行。
数据内容分析服务部署于Windows服务器,以C#编写,以Timer驱动而周期性运行,与数据内容分析规则数据库部署于同一个服务器,用于周期性的根据parseStatus=0的条件获取待分析的数据清单,对于清单中的每一行,根据数据资源标识获取数据内容,对获取到的数据内容按照数据内容分析规则库提供的匹配规则进行分析,得到数据信息,将数据信息写入数据信息属性集,更新数据分析状态标识。
数据内容分析服务执行逻辑如下:
(1)开始分析周期;
(2)按照parseStatus=0的条件,在数据属性信息数据库中的DataSourceInfo表中进行查询,得到数据属性信息查询结果集CQUA;
(3)对于数据属性信息查询结果集CQUA的每一行数据属性信息L(i),根据数据资源标识dataUrl得到技术文件审签流程实例文件夹路径,并读取其中的日志文件内容L-DATA(i);
(4)检查文件内容L-DATA(i)是否完整,判断依据为authorized是否存在,如果文件内容L-DATA(i)不完整,跳过数据属性信息L(i),返回步骤3)处理下一条;如果文件内容L-DATA(i)完整,则读取数据内容分析规则数据库,得到规则清单RL;
(5)对于规则清单RL中的每一条规则R(i),读取其字段名称FieldName(i),匹配表达式Expression(i),将匹配表达式Expression(i)应用于文件内容L-DATA(i),如果匹配成功得到信息数据FieldData(i),则在数据信息表DataInfo中增加(L(i)-dataUrl,FieldName(i),FieldData(i))的键值对属性记录,如果匹配表达式Exp(i)应用于文件内容L-DATA(i)未能匹配到任何信息,则跳过本条规则R(i);
(6)在步骤5)中对规则清单RL的遍历结束后,根据L(i)的dataUrl属性将数据属性信息数据库中的DataSourceInfo表中相应的行的数据分析状态parseStatus置为1,返回步骤3)处理下一条;
(7)在步骤3)至步骤6)中对数据属性信息查询结果集CQUA的遍历结束后,回到步骤1)开始下一个分析周期;
数据信息同步服务部署于Windows服务器,以C#编写,以Timer驱动而周期性运行,与数据属性信息数据库部署于同一个服务器。用于周期性的将数据信息表中的数据信息写入档案管理系统的数据接口,写入成功则更新数据同步状态标识。
数据信息同步服务执行逻辑如下:
(1)开始数据同步周期;
(2)按照parseStatus=1且syncStatus=0的条件,将数据属性信息数据库中DataSourceInfo表和DataInfo表以dataUrl为键进行联接查询,之后对同一dataUrl的数据信息进行合并,得到数据全信息查询结果集CQTA;
(3)对于数据全信息查询结果集CQTA的每一行数据信息LT(i),将其数据信息集按照档案管理系统的数据库字段名拼接成insert的sql语句,连接档案系统数据库并执行;
(4)如果步骤3)所述的写入成功,根据LT(i)的dataUrl值,更新数据属性信息数据库中DataSourceInfo表的内容,将匹配dataUrl=LT(i)的dataUrl值的行的syncStatus值置为1;
(5)在步骤3)至步骤4)中对数据属性信息查询结果集CQTA的遍历结束后,回到步骤1)开始下一个数据同步周期。

Claims (8)

1.一种数据信息扫描同步系统的同步方法,该同步系统独立搭建在上游信息系统和下游信息系统之间,
其特征在于,所述同步方法通过周期地扫描上游信息系统数据存储获得输入,通过预设的分析规则进行分析转换后,周期性推送到下游信息系统的数据写入接口;
其中,周期地扫描上游信息系统数据存储获得输入的实现过程为:
步骤S1、开始第n个扫描周期,记录当前时间T(n);
步骤S2、遍历上游信息系统数据存储,获取数据文件清单DL,根据数据源类型建立数据资源标识,并获取每个数据的最后更改时间;
步骤S3、对步骤S2所述的数据文件清单DL进行筛选,将最后更改时间晚于上个扫描周期开始时间T(n-1)的数据筛选出,得到最新更改数据文件清单NDL;
步骤S4、从数据属性信息数据库中,按照最后更改时间属性晚于T(n-1)的条件取出上周期增量数据文件清单LADL,将步骤S3所述的最新更改数据文件清单NDL与上周期增量数据文件清单LADL进行对比,从最新更改数据文件清单NDL中去除已经存在于上周期增量数据文件清单LADL的数据,得到本周期增量数据清单CADL;
步骤S5、对步骤S4所述的本周期增量数据清单CADL中的每一条数据D(i),根据数据资源标识值,在数据属性信息数据库中进行查询,得到数据属性信息结果集CQ(i);
步骤S6、如果步骤S5所述的数据属性信息结果集CQ(i)不为空,则执行步骤S8;否则,执行步骤S7;
步骤S7、将数据D(i)的数据资源标识、最后更改时间写入数据属性信息数据库中,与之对应的数据分析状态标识、数据同步状态标识、数据信息属性集均为空;
步骤S8、如果CADL的遍历未完成,则回到步骤S5继续执行;如果对CADL的遍历结束,则返回步骤S1开始下个执行周期,继续执行;
所述分析转换的实现过程为:
(1)、开始分析周期;
(2)、按照数据分析状态标识为空的条件,在数据属性信息数据库中进行查询,得到数据属性信息查询结果集CQUA;
(3)、对于CQUA的每一行L(i),根据数据资源标识,到上游信息系统数据存储中读取数据L-DATA(i);
(4)、检查数据L-DATA(i)是否完整,如果L-DATA(i)不完整,跳过L(i),返回步骤(3)处理下一条;如果L-DATA(i)完整,则读取数据内容分析规则库,得到规则清单RL;
(5)、对于规则清单RL中的每一条R(i),读取其字段F(i),匹配表达式Exp(i),将Exp(i)应用于L-DATA(i),如果匹配成功得到信息数据FD(i),则在L(i)的数据信息属性集中增加一段(F(i),FD(i))的键值对属性记录,如果Exp(i)应用于L-DATA(i)未能匹配到任何信息,则跳过R(i);
(6)、在步骤(5)中对规则清单RL的遍历结束后,将L(i)的数据分析状态标识置为非空,之后将L(i)数据分析状态标识和数据信息属性集写回数据属性信息数据库,返回步骤(3)处理下一条;
(7)、在步骤(3)至步骤(6)中对数据属性信息查询结果集CQUA的遍历结束后,回到步骤(1)开始下一个分析周期。
2.如权利要求1所述的一种数据信息扫描同步系统的同步方法,其特征在于,所述周期性推送的实现过程为:
(a)开始数据同步周期;
(b)按照数据分析状态标识为非空,且数据同步状态标识为空的条件,在数据属性信息数据库中进行查询,得到数据属性信息查询结果集CQTA;
(c)对于CQTA的每一行LT(i),将其数据信息属性集按照下游信息系统数据接口所要求的格式进行格式化,并写入下游信息系统数据接口;
(d)如果步骤(c)写入成功,则将LT(i)的数据同步状态标识置为非空,并写回数据属性信息数据库;否则跳过LT(i);
(e)在步骤(c)至步骤(d)中对数据属性信息查询结果集CQTA的遍历结束后,回到步骤(a)开始下一个数据同步周期。
3.如权利要求1所述的一种数据信息扫描同步系统的同步方法,其特征在于,所述同步系统至少由数据扫描装置、数据属性信息数据库、数据内容分析装置、数据内容分析规则库、数据信息同步装置构成;其中,系统以数据属性信息数据库为中心,数据扫描装置、数据内容分析装置、数据信息同步装置各自独立运行;数据内容分析规则库作为数据内容分析装置运行时的配置,数据扫描装置的数据源设置为上游信息系统的数据存储,将数据同步装置的输出点设置为下游信息系统数据接口。
4.如权利要求3所述的一种数据信息扫描同步系统的同步方法,其特征在于,所述数据属性信息数据库以行存储方式存放上游信息系统数据的数据资源标识、数据更新时间标识、数据分析状态标识、数据同步状态标识、数据信息属性集。
5.如权利要求3所述的一种数据信息扫描同步系统的同步方法,其特征在于,所述数据内容分析规则库用于匹配数据内容中的数据信息,每条匹配规则对应一个信息字段,以及该信息字段在数据内容中的匹配特性和提取方法。
6.如权利要求3所述的一种数据信息扫描同步系统的同步方法,其特征在于,所述数据扫描装置用于周期的扫描上游信息系统数据存储,获取数据清单,根据上游信息系统数据存储中数据的数据更新时间标识信息,以及数据属性信息数据库中的已有数据属性信息,过滤得到增量的数据属性清单,并写入到数据属性信息数据库。
7.如权利要求3所述的一种数据信息扫描同步系统的同步方法,其特征在于,所述数据内容分析装置用于周期性的根据数据分析状态标识过滤得到待分析的数据清单,对于清单中的每一行,根据数据资源标识获取数据内容,对获取到的数据内容按照数据内容分析规则库提供的匹配规则进行分析,得到数据信息,将数据信息写入数据信息属性集,更新数据分析状态标识。
8.如权利要求3所述的一种数据信息扫描同步系统的同步方法,其特征在于,所述数据信息同步装置用于周期性的将数据信息属性集写入下游信息系统的数据接口,写入成功则更新数据同步状态标识。
CN201910980650.XA 2019-10-15 2019-10-15 一种数据信息扫描同步系统及方法 Active CN110928892B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910980650.XA CN110928892B (zh) 2019-10-15 2019-10-15 一种数据信息扫描同步系统及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910980650.XA CN110928892B (zh) 2019-10-15 2019-10-15 一种数据信息扫描同步系统及方法

Publications (2)

Publication Number Publication Date
CN110928892A CN110928892A (zh) 2020-03-27
CN110928892B true CN110928892B (zh) 2023-06-27

Family

ID=69849204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910980650.XA Active CN110928892B (zh) 2019-10-15 2019-10-15 一种数据信息扫描同步系统及方法

Country Status (1)

Country Link
CN (1) CN110928892B (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637214A (zh) * 2012-04-28 2012-08-15 中国工商银行股份有限公司 基于数据库服务间的通用数据同步方法及其系统
CN103761318A (zh) * 2014-01-27 2014-04-30 中国工商银行股份有限公司 一种关系型异构数据库数据同步的方法及系统
CN105703867A (zh) * 2016-01-07 2016-06-22 烽火通信科技股份有限公司 适用于时间同步网的快速部署系统及方法
CN106991087A (zh) * 2016-01-20 2017-07-28 阿里巴巴集团控股有限公司 一种分布式事物处理的方法、装置及系统
WO2018010501A1 (zh) * 2016-07-13 2018-01-18 中兴通讯股份有限公司 全局事务标识gtid的同步方法、装置及系统、存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
AU2015375497A1 (en) * 2015-01-09 2017-07-13 Landmark Graphics Corporation Apparatus and methods of data synchronization

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102637214A (zh) * 2012-04-28 2012-08-15 中国工商银行股份有限公司 基于数据库服务间的通用数据同步方法及其系统
CN103761318A (zh) * 2014-01-27 2014-04-30 中国工商银行股份有限公司 一种关系型异构数据库数据同步的方法及系统
CN105703867A (zh) * 2016-01-07 2016-06-22 烽火通信科技股份有限公司 适用于时间同步网的快速部署系统及方法
CN106991087A (zh) * 2016-01-20 2017-07-28 阿里巴巴集团控股有限公司 一种分布式事物处理的方法、装置及系统
WO2018010501A1 (zh) * 2016-07-13 2018-01-18 中兴通讯股份有限公司 全局事务标识gtid的同步方法、装置及系统、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
孟雷 ; 孙彦杰 ; .基于P2P的异构数据库数据同步研究.山东大学学报(理学版).2008,(第11期),全文. *
王天亮 ; 陈刚 ; 徐宏炳 ; .基于共享数据库的数据共享技术.计算机工程与设计.2007,(第08期),全文. *

Also Published As

Publication number Publication date
CN110928892A (zh) 2020-03-27

Similar Documents

Publication Publication Date Title
US11461294B2 (en) System for importing data into a data repository
US11360950B2 (en) System for analysing data relationships to support data query execution
US11409764B2 (en) System for data management in a large scale data repository
US9189772B2 (en) Control and verification of permissions
US8271430B2 (en) Methods and systems for metadata driven data capture for a temporal data warehouse
CN103460208A (zh) 用于将数据加载到时态数据仓库的方法和系统
CN110334326B (zh) 一种识别配方文件并转化为xml文件的方法及系统
US10084792B2 (en) Control and verification of permissions
CN105224527A (zh) 适用于多种目的表更新方式的通用etl方法
US20090132607A1 (en) Techniques for log file processing
CN101645072A (zh) 基于Oracle CDC技术实现的变更数据抽取方法
González López de Murillas et al. Redo log process mining in real life: Data challenges & opportunities
CN110928892B (zh) 一种数据信息扫描同步系统及方法
US11256708B2 (en) Method of creating process protocols
EP4235460A1 (en) Method for filtering a graph
EP4235450A1 (en) Method for storing and reconstructing a graph
Hu et al. Design and implementation of oracle database incremental data capture based on trigger and identification table
JP2007334393A (ja) 部品表データ管理方法およびシステム
CN115168487A (zh) 基于kettle的数据同步方法、组件、设备及介质
CN117348916A (zh) 脚本生成方法、装置、设备及存储介质
Castellanos et al. A probabilistic-based approach to process model discovery
CN113436015A (zh) 一种基于区块链的链化数据库及操作方法
Ishii et al. Timecube-efficient storage, access and analysis of temporal (historical) data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant