CN108255851B - 一种项目数据的梳理系统及方法 - Google Patents
一种项目数据的梳理系统及方法 Download PDFInfo
- Publication number
- CN108255851B CN108255851B CN201611244126.9A CN201611244126A CN108255851B CN 108255851 B CN108255851 B CN 108255851B CN 201611244126 A CN201611244126 A CN 201611244126A CN 108255851 B CN108255851 B CN 108255851B
- Authority
- CN
- China
- Prior art keywords
- data
- project
- module
- output
- screening
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
- G06Q10/103—Workflow collaboration or project management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- General Physics & Mathematics (AREA)
- Operations Research (AREA)
- Tourism & Hospitality (AREA)
- General Business, Economics & Management (AREA)
- Quality & Reliability (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Engineering & Computer Science (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种项目数据的梳理系统及方法,本发明实施例在对项目数据进行梳理时,由数据抓取模块抓取项目所需数据,由源数据筛选模块根据设置的规则及架构类型进行筛选,得到筛选后的项目所需数据,业务处理模块对筛选后的项目所需数据根据设置的业务流程进行梳理后,得到项目数据,经过输出数据筛选模块的筛选后,存储或显示。这样,只需要设置规则及设置业务流程,就可以自动对项目数据进行梳理,而不需要人工处理,对项目数据的梳理是标准化过程,不会造成人工的失误,提高了项目数据梳理的质量,且节省了大量人力资源和时间资源。
Description
技术领域
本发明涉及对计算机数据的处理技术,特别涉及一种项目数据的梳理系统及方法。
背景技术
在执行某个计算机项目时,常常需要将项目数据在不同计算机系统中的不同数据库内转移或调取。当执行计算机项目的计算机系统交接时,由于不同计算机系统的时间问题或项目数据文档不全问题,就需要人工重新梳理整个项目数据的调取或转移过程,使得整个项目数据不会出现丢失或损坏的问题,特别对于一些项目中的重要业务流程完全依赖的项目数据文档等。采用这种人工梳理的方式虽然可以完成项目数据在不同计算机系统的交接,但是由于是采用人工方式,耗费大量人力资源和时间资源,且受到人工的经验限制,梳理人员难以快速熟悉整个项目数据,并正确梳理,使得项目数据的梳理的质量比较低。
发明内容
有鉴于此,本发明实施例提供一种项目数据的梳理系统,该系统能够对项目数据进行自动梳理,提高项目梳理的质量。
本发明实施例还提供一种项目数据的梳理方法,该方法能够对项目数据进行自动梳理,提高项目梳理的质量。
根据上述目的,本发明是这样实现的:
一种项目数据的梳理系统,包括:数据抓取模块、源数据筛选模块、规则录入模块、分析模块、业务处理模块及输出数据筛选模块,其中,
数据抓取模块,用于根据项目所需数据的路径从源码服务器中抓取项目所需数据;
规则录入模块,用于设置规则,发送给源数据筛选模块;
分析模块,用于设置项目的架构类型,发送给源数据筛选模块;
源数据筛选模块,用于设置的规则及架构类型对项目所需数据进行筛选,得到筛选后的项目所需数据,发送给业务处理模块;
业务处理模块,用于对筛选后的项目所需数据根据设置的业务流程进行梳理后,得到项目数据;
输出数据筛选模块,用于剔除项目数据中的垃圾数据后,输出。
所述系统还包括:
数据存储模块,用于将输出数据筛选模块输出的项目数据进行存储;
可视化输出模块,用于将输出数据筛选模块输出的项目数据进行显示。
所述数据抓取模块,还用于从源码服务器中抓取项目所需数据时,以所述路径为起点,从源码服务器中的数据库中逐层读取项目所需数据。
所述分析模块,用于在设置项目的架构类型时,还包括:依据配置的目标数据表、匹配规则及筛选规则对当前项目进行分析,按照项目架构进行分类,确定项目的架构类型。
所述规则录入模块,用于设置的规则为:指定要梳理的项目数据表。
所述规则录入模块,还用于设置输出数据筛选规则及可视化输出的样式规则;
所述输出数据筛选模块筛选时根据输出数据筛选规则筛选;
所述可视化输出模块进行项目数据的输出时,根据可视化输出的样式规则输出。
一种项目数据的梳理方法,包括:
根据项目所需数据的路径抓取项目所需数据;
根据设置的规则及架构类型进行筛选,得到筛选后的项目所需数据;
对筛选后的项目所需数据根据设置的业务流程进行梳理后,得到项目数据;
所述项目数据经过输出筛选后,输出。
所述架构类型为:根据配置的目标数据表、匹配规则及筛选规则对当前项目进行分析,按照项目架构进行分类,确定项目的架构类型;
所述设置的规则为:指定要梳理的项目数据表。
所述输出筛选为:
去除所述项目数据中的垃圾数据。
该方法还包括:输出的项目数据进行存储或按照设定的样式显示。
由上述方案可以看出,本发明实施例在对项目数据进行梳理时,由数据抓取模块抓取项目所需数据,由源数据筛选模块根据设置的规则及架构类型进行筛选,得到筛选后的项目所需数据,业务处理模块对筛选后的项目所需数据根据设置的业务流程进行梳理后,得到项目数据,经过输出数据筛选模块的筛选后,存储或显示。这样,只需要设置规则及设置业务流程,就可以自动对项目数据进行梳理,而不需要人工处理,对项目数据的梳理是标准化过程,不会造成人工的失误,提高了项目数据梳理的质量,且节省了大量人力资源和时间资源。
附图说明
图1为本发明实施例提供的一种项目数据的梳理系统结构示意图;
图2为本发明实施例提供的一种项目数据的梳理方法流程图;
图3为本发明实施例提供的一种项目数据的梳理方法具体例子流程图。
具体实施方式
为使本发明的目的、技术方案及优点更加清楚明白,以下参照附图并举实施例,对本发明作进一步详细说明。
本发明实施例在对项目数据进行梳理时,由数据抓取模块抓取项目所需数据,由源数据筛选模块根据设置的规则及架构类型进行筛选,得到筛选后的项目所需数据,业务处理模块对筛选后的项目所需数据根据设置的业务流程进行梳理后,得到项目数据,经过输出数据筛选模块的筛选后,存储或显示。
这样,只需要设置规则及设置业务流程,就可以自动对项目数据进行梳理,而不需要人工处理,对项目数据的梳理是标准化过程,不会造成人工的失误,提高了项目数据梳理的质量,且节省了大量人力资源和时间资源。
本发明实施例提供的系统及方法,基于项目数据使用的数据库,比如mySQL数据库、SQL Server数据库或Oracle Database数据库等,以数据表为单位,以表操作为维度进行项目数据的梳理。本发明实施例属于自动化梳理工具,在执行前配置项目数据源码路径、目标数据表及设置规则,启动本发明实施例提供的系统后不再需要手工干预项目数据的梳理过程。
图1为本发明实施例提供的一种项目数据的梳理系统结构示意图,包括:数据抓取模块、源数据筛选模块、规则录入模块、分析模块、业务处理模块及输出数据筛选模块,其中,
数据抓取模块,用于根据项目所需数据的路径从源码服务器中抓取项目所需数据;
规则录入模块,用于设置规则,发送给源数据筛选模块;
分析模块,用于设置项目的架构类型,发送给源数据筛选模块;
源数据筛选模块,用于设置的规则及架构类型对项目所需数据进行筛选,得到筛选后的项目所需数据,发送给业务处理模块;
业务处理模块,用于对筛选后的项目所需数据根据设置的业务流程进行梳理后,得到项目数据;
输出数据筛选模块,用于剔除项目数据中的垃圾数据后,输出。
在该结构中,还包括:数据存储模块,用于将输出数据筛选模块输出的项目数据进行存储。当然,该数据存储模块可以采用HBase数据库,以提高存储容量。
在该结构中,还包括:可视化输出模块,用于将输出数据筛选模块输出的项目数据进行显示。当然,在显示时,可以按照设定样式对项目数据进行渲染后,以设定样式显示。
在该结构中,所述数据抓取模块,还用于从源码服务器中抓取项目所需数据时,以所述路径为起点,从源码服务器中的数据库中逐层读取项目所需数据。
在该结构中,分析模块,用于在设置项目的架构类型时,还包括:依据配置的目标数据表、匹配规则及筛选规则对当前项目进行分析,按照项目架构进行分类,确定项目的架构类型。在这里,如果没有配置目标数据表,则默认为项目中所涉及的全部数据表。
在该结构中,规则录入模块,用于设置的规则为:指定要梳理的项目数据表。
在该步骤中,规则录入模块,还用于设置输出数据筛选规则及可视化输出的样式规则,这样,在输出数据筛选模块筛选时根据输出数据筛选规则筛选,在可视化输出模块进行项目数据的输出时,根据可视化输出的样式规则输出。
在该结构中,业务处理模块作为核心业务处理模块,支持水平扩展。
图2为本发明实施例提供的一种项目数据的梳理方法流程图,其具体步骤为:
步骤201、根据项目所需数据的路径抓取项目所需数据;
步骤202、根据设置的规则及架构类型进行筛选,得到筛选后的项目所需数据;
在该步骤中,架构类型为:根据配置的目标数据表、匹配规则及筛选规则对当前项目进行分析,按照项目架构进行分类,确定项目的架构类型;
设置的规则为:指定要梳理的项目数据表;
步骤203、对筛选后的项目所需数据根据设置的业务流程进行梳理后,得到项目数据;
步骤204、所述项目数据经过输出筛选后,输出;
在该步骤中,输出筛选就是去除所述项目数据中的垃圾数据。
该方法还包括:输出的项目数据进行存储或按照设定的样式显示。
举一个具体例子对本发明实施例进行详细说明。
图3为本发明实施例提供的一种项目数据的梳理方法具体例子流程图,该具体例子结合图1所示的结构说明,其具体步骤为:
步骤301、得到项目所需数据的源码文件路径;
在该步骤中,源码文件路径就是源码文件的存储位置,是由人工设置的;
步骤302、自动拉取加载项目所需数据的源码文件,执行步骤305;
在该步骤中,通过嵌入项目管理工具Git根据源码文件路径抓取相应的源码文件,通过文件输入流(FileInputStream)实现源码按层读取并加载到缓存中;
步骤303、分析项目所需数据,得到项目的架构类型,执行步骤305;
在该步骤中,使用正则表达式的文件匹配模块与源码文件进行匹配,依据项目中不同的框架配置文件达到按项目架构分类的目的;
步骤304、设置规则,执行步骤305;
在该步骤中,可定制化的规则录入:可指定目标数据表名称、录入数据筛选规则、数据输出规则及输出文件模板样式等;
在该步骤中,设置的规则可以采用正则表达式表示,使用层叠样式表单(CSS)技术实现输出文件模板样式的指定,如果不定制,则默认采用默认的规则模板;
步骤305、根据设置的规则及架构类型进行筛选,得到筛选后的项目所需数据;
在该步骤中,规则录入中录入的相应过滤、匹配规则进行输入数据的筛选,规则采用正则表达式编写;
在该步骤中,如果没有设置的规则及架构类型,则按照默认设置进行筛选;
步骤306、将筛选后的项目所需数据进行通用处理;
在该步骤中,只处理项目所需数据中的数据表名及进行数据表常规操作,依据SQL操作命令以CRUD为维度进行数据操作分类,根据数据操作类型对数据流向进行确认;也就是说,数据表常规操作是针对数据表的增加(Create)、读取查询(Retrieve)、更新(Update)和删除(Delete)的处理,目的是对数据表分类,然后按照类别得到数据流向的确认,确认针对数据表的输出还是输入,进行标记;
步骤307、将筛选后的项目所需数据进行异常处理;
在该步骤中,异常处理判断标准为只要不是表的常规操作就认为是异常的,进行异常处理;
异常处理包括:动态数据表名、存储过程和多表连接;其中,针对动态数据表名需要依靠操作命令代码,逐层向上查找,直到找到动态表名赋值;多表连接的情况根据筛选规则进行数据表的筛选,缺省按照多表连接关键字正则表达式进行数据表的分离,然后按照单数据表处理流程进行处理;存储过程则采用SQL语言作为一个流程节点,进行数据表的输出;
步骤308、对经过处理的筛选后的项目所需数据进行操作追踪;
在该步骤中,按照通用项目分层结构对所述数据进行分层,分层结构包括:web层、业务层及持久层,持久层为贴近数据源的一层,流程在持久层开始,遍历到web层结束;采用的追踪方式:以类的全路径与方法名共同组成查询条件,在内存加载的源码数据中逐层查找,直到web层,从而形成了一个以web层操作方法为入口,以持久层操作方法为结束的数据流程;
步骤309、进行输出数据筛选;
在该步骤中,针对即将输出的数据进行相应过滤和筛选,采用的输出筛选规则通过正则表达式表示;
步骤310、对进行输出数据筛选的项目数据进行存储;
在该步骤中,采用HBase完成输出数据存储,将数据节点及数据操作关系进行分类存储,即以SQL语句的操作关键字为分类标识,分类别存储数据操作流程数据;
步骤311、输出可视化视图,显示输出数据筛选的项目数据;
在该步骤中,设置了输出文件模板及样式,将数据渲染到模板上,采用.PDF格式文件显示,PDF文件输出采用PdfWriter实现。
本发明实施例自动根据计算机系统的流程完成项目数据的梳理,减轻了人工工作量及提高了工作效率,使得数据流程梳理更加准确并灵活。
以上举较佳实施例,对本发明的目的、技术方案和优点进行了进一步详细说明,所应理解的是,以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (9)
1.一种项目数据的梳理系统,其特征在于,对项目数据进行梳理,包括:数据抓取模块、源数据筛选模块、规则录入模块、分析模块、业务处理模块及输出数据筛选模块,其中,
数据抓取模块,用于根据项目所需数据的路径从源码服务器中抓取项目所需数据;
规则录入模块,用于设置规则,发送给源数据筛选模块;
分析模块,用于设置项目的架构类型,发送给源数据筛选模块;
源数据筛选模块,用于设置的规则及架构类型对项目所需数据进行筛选,得到筛选后的项目所需数据,发送给业务处理模块;
业务处理模块,用于对筛选后的项目所需数据根据设置的业务流程进行梳理后,得到项目数据;
输出数据筛选模块,用于剔除项目数据中的垃圾数据后,输出;
所述数据抓取模块,还用于从源码服务器中抓取项目所需数据时,以所述路径为起点,从源码服务器中的数据库中逐层读取项目所需数据;
所述规则录入模块,还用于设置输出数据筛选规则及可视化输出的样式规则;
所述输出数据筛选模块筛选时根据输出数据筛选规则筛选;
可视化输出模块进行项目数据的输出时,根据可视化输出的样式规则输出。
2.如权利要求1所述的系统,其特征在于,所述系统还包括:
数据存储模块,用于将输出数据筛选模块输出的项目数据进行存储;
可视化输出模块,用于将输出数据筛选模块输出的项目数据进行显示。
3.如权利要求1所述的系统,其特征在于,所述分析模块,用于在设置项目的架构类型时,还包括:依据配置的目标数据表、匹配规则及筛选规则对当前项目进行分析,按照项目架构进行分类,确定项目的架构类型。
4.如权利要求1或2所述的系统,其特征在于,所述规则录入模块,用于设置的规则为:指定要梳理的项目数据表。
5.一种项目数据的梳理方法,其特征在于,对项目数据形象梳理,包括:
根据项目所需数据的路径抓取项目所需数据;
根据设置的规则及架构类型进行筛选,得到筛选后的项目所需数据;
对筛选后的项目所需数据根据设置的业务流程进行梳理后,得到项目数据;
所述项目数据经过输出筛选后,输出;
所述抓取项目所需数据时,还包括:以所述路径为起点,从源码服务器中的数据库中逐层读取项目所需数据;
该方法还包括:输出的项目数据进行存储或按照设定的样式显示。
6.如权利要求5所述的方法,其特征在于,所述架构类型为:根据配置的目标数据表、匹配规则及筛选规则对当前项目进行分析,按照项目架构进行分类,确定项目的架构类型;
所述设置的规则为:指定要梳理的项目数据表。
7.如权利要求5所述的方法,其特征在于,所述输出筛选为:
去除所述项目数据中的垃圾数据。
8.一种项目数据的梳理装置,其特征在于,包括:
存储器;以及
耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器中的指令,执行如权利要求5-7中任一项所述的项目数据的梳理方法。
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求5-7中任一项所述的项目数据的梳理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611244126.9A CN108255851B (zh) | 2016-12-29 | 2016-12-29 | 一种项目数据的梳理系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201611244126.9A CN108255851B (zh) | 2016-12-29 | 2016-12-29 | 一种项目数据的梳理系统及方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108255851A CN108255851A (zh) | 2018-07-06 |
CN108255851B true CN108255851B (zh) | 2021-05-25 |
Family
ID=62720629
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201611244126.9A Active CN108255851B (zh) | 2016-12-29 | 2016-12-29 | 一种项目数据的梳理系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108255851B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110428319B (zh) * | 2019-08-05 | 2021-04-27 | 深圳乐信软件技术有限公司 | 一种数据比对平台、方法、设备和存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020088A (zh) * | 2011-09-27 | 2013-04-03 | 腾讯科技(深圳)有限公司 | 一种数据处理装置及方法 |
CN105653696A (zh) * | 2015-12-29 | 2016-06-08 | 台山核电合营有限公司 | 一种核电站数据库数据处理方法及系统 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9015115B2 (en) * | 2012-04-30 | 2015-04-21 | Oracle International Corporation | Project management system with asynchronous updating |
CN103744676A (zh) * | 2014-01-07 | 2014-04-23 | 上海新炬网络技术有限公司 | 一种多层级信息的关联展示方法 |
CN106095796A (zh) * | 2016-05-30 | 2016-11-09 | 中国邮政储蓄银行股份有限公司 | 分布式数据存储方法、装置及系统 |
CN106126701A (zh) * | 2016-06-29 | 2016-11-16 | 阜阳华润电力有限公司 | 燃煤发电厂副产品管理系统 |
-
2016
- 2016-12-29 CN CN201611244126.9A patent/CN108255851B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020088A (zh) * | 2011-09-27 | 2013-04-03 | 腾讯科技(深圳)有限公司 | 一种数据处理装置及方法 |
CN105653696A (zh) * | 2015-12-29 | 2016-06-08 | 台山核电合营有限公司 | 一种核电站数据库数据处理方法及系统 |
Also Published As
Publication number | Publication date |
---|---|
CN108255851A (zh) | 2018-07-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11030446B2 (en) | System and method for separation and classification of unstructured documents | |
CN106534344B (zh) | 一种云平台视频处理系统及其应用方法 | |
US9390176B2 (en) | System and method for recursively traversing the internet and other sources to identify, gather, curate, adjudicate, and qualify business identity and related data | |
US11869263B2 (en) | Automated classification and interpretation of life science documents | |
TWI223171B (en) | System for classifying files of non-textual subject data, method for categorizing files of non-textual data and method for identifying a class for data file at a classification node | |
US20050234896A1 (en) | Image retrieving apparatus, image retrieving method and image retrieving program | |
US11625660B2 (en) | Machine learning for automatic extraction and workflow assignment of action items | |
CN105095479A (zh) | 一种移动终端及其实现照片分类管理的方法 | |
US20230177267A1 (en) | Automated classification and interpretation of life science documents | |
JP2005532624A (ja) | データベースにおいてデータオブジェクトを分類する方法及び装置 | |
CN112631586A (zh) | 一种应用开发方法、装置、电子设备和存储介质 | |
CN106547726A (zh) | 一种基于文档的自动化审查方法及审查装置 | |
CN104933077B (zh) | 基于规则的多文件信息分析方法 | |
CN108255851B (zh) | 一种项目数据的梳理系统及方法 | |
CN113722518A (zh) | 基于遥感影像元数据的存储方法、检索方法、设备及介质 | |
US9036946B2 (en) | Image processing apparatus that retrieves similar images, method of controlling the same, and storage medium | |
CN110795520B (zh) | 一种数字化地质资料包目录与文件关联关系自动识别方法 | |
CN107004036B (zh) | 用以搜索包含大量条目的日志的方法和系统 | |
CN107577809A (zh) | 离线小文件处理方法及装置 | |
CN109165155A (zh) | 一种基于聚类分析的软件缺陷修复模板提取方法 | |
CN105786929A (zh) | 一种信息监测方法及装置 | |
JP5953145B2 (ja) | 帳票登録支援方法及び装置並びにプログラム | |
US20160011916A1 (en) | Computer, association calculation method, and storage medium | |
EP4009194A1 (en) | Automated classification and interpretation of life science documents | |
CN117290384B (zh) | 一种基于大数据与计算机视觉结合的图文检索系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |