CN115470279A - 基于企业数据的数源转换方法、装置、设备及介质 - Google Patents
基于企业数据的数源转换方法、装置、设备及介质 Download PDFInfo
- Publication number
- CN115470279A CN115470279A CN202211141329.0A CN202211141329A CN115470279A CN 115470279 A CN115470279 A CN 115470279A CN 202211141329 A CN202211141329 A CN 202211141329A CN 115470279 A CN115470279 A CN 115470279A
- Authority
- CN
- China
- Prior art keywords
- data
- processed
- enterprise
- enterprise data
- processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000006243 chemical reaction Methods 0.000 title claims abstract description 54
- 238000000034 method Methods 0.000 title claims abstract description 53
- 238000012545 processing Methods 0.000 claims abstract description 117
- 238000005516 engineering process Methods 0.000 claims abstract description 20
- 238000003860 storage Methods 0.000 claims description 23
- 238000004891 communication Methods 0.000 claims description 20
- 238000004590 computer program Methods 0.000 claims description 14
- 238000013507 mapping Methods 0.000 claims description 12
- 230000005540 biological transmission Effects 0.000 claims description 11
- 238000010586 diagram Methods 0.000 description 13
- 230000006870 function Effects 0.000 description 9
- 230000008569 process Effects 0.000 description 9
- 230000008676 import Effects 0.000 description 8
- 238000001914 filtration Methods 0.000 description 5
- 238000012986 modification Methods 0.000 description 5
- 230000004048 modification Effects 0.000 description 5
- 230000011218 segmentation Effects 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000012795 verification Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 3
- 238000004140 cleaning Methods 0.000 description 3
- 238000007689 inspection Methods 0.000 description 3
- 238000007726 management method Methods 0.000 description 3
- 230000007246 mechanism Effects 0.000 description 3
- 238000011084 recovery Methods 0.000 description 3
- 238000012163 sequencing technique Methods 0.000 description 3
- 230000001960 triggered effect Effects 0.000 description 3
- 230000002159 abnormal effect Effects 0.000 description 2
- 230000005856 abnormality Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 241000270295 Serpentes Species 0.000 description 1
- 230000002776 aggregation Effects 0.000 description 1
- 238000004220 aggregation Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 238000010923 batch production Methods 0.000 description 1
- 238000013506 data mapping Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000013524 data verification Methods 0.000 description 1
- 230000008021 deposition Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011002 quantification Methods 0.000 description 1
- 238000013515 script Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/24569—Query processing with adaptation to specific hardware, e.g. adapted for using GPUs or SSDs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2457—Query processing with adaptation to user needs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Computational Linguistics (AREA)
- Tourism & Hospitality (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请提供了基于企业数据的数源转换方法、装置、设备及介质,该方法在基于政府侧的各服务系统中存储的各企业的企业数据,获取各企业的待处理企业数据后,将各企业的待处理企业数据存储在汇总数据库中;采用预设的数源转换技术,对汇总数据库存储的待处理企业数据中存在关联关系的待处理企业数据进行处理;将处理后的企业数据存储在图数据库,图数据库存储了处理后的企业数据之间的关联关系。该方法采用数源转换技术实现汇总数据库中存在关联关系的企业数据转换为图数据库可识别以图谱形式的企业数据,提高了企业数据查询的查询效率。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种基于企业数据的数源转换方法、装置、设备及介质。
背景技术
社会的发展促进了市场的欣欣向荣,营商环境利好,越来越多的新企业成立,同时企业的经营发展变更、政府侧的监管行为、司法诉讼、企业间的关联关系、企业法人高管间关系等形成了超大量的数据,企业的关联数据达到了百亿级别,人员数据甚至达到万亿级别。
现有的企业数据查询技术主要包括关系型数据库查询和采用图数据库查询两种方式。
方式一,关系型数据库查询方式是通过查询企业主表数据查询关联字段再在服务器逻辑实现相关关联数据的依次查询封装,在大数据量及高层级数据下查询效率低。如图1所示,在数据查询中用户通过终端上的浏览器向服务器发送查询请求,服务器基于查询请求查询关系型数据库中的数据。
方式二,图数据库查询方式是由于原始数据存储在关系型数据库需要进行数源转换,大数据量下现有方法是采用分页查询再导入图数据库,查询方式查询效率低,耗时长。如图1所示,在数据查询中用户通过终端上的浏览器向服务器发送查询请求,服务器基于查询请求查询图数据库中的数据。
发明内容
本申请实施例的目的在于提供一种基于企业数据的数源转换方法、装置、设备及介质,用以解决了现有技术存在的上述问题,提高了企业数据查询的查询效率。
第一方面,提供了一种基于企业数据的数源转换方法,应用于服务器中,该方法可以包括:
基于政府侧的各服务系统中存储的各企业的企业数据,获取所述各企业的待处理企业数据,所述企业数据包括企业的各类业务数据和企业的基本数据;所述待处理企业数据包括具有时序传输关系的时序业务数据和具有预设时间粒度的归集业务数据;
将所述各企业的待处理企业数据存储在汇总数据库中;
采用预设的数源转换技术,对所述汇总数据库存储的所述待处理企业数据中存在关联关系的待处理企业数据进行处理;
将处理后的企业数据存储在图数据库,所述图数据库存储了所述处理后的企业数据之间的关联关系。
在一些可能的实现中,将处理后的企业数据存储在图数据库之后,所述方法还包括:
获取用户的业务查询请求;所述业务查询请求包括查询内容;
若所述查询内容为查询具有非关联关系的企业数据,则从所述汇总数据库中查询所述查询内容对应的目标企业数据;
若所述查询内容为查询具有关联关系的企业数据,则从所述图数据库中查询所述查询内容对应的目标企业数据。
在一些可能的实现中,采用预设的数源转换技术,对所述汇总数据库存储的所述待处理企业数据中存在关联关系的待处理企业数据进行处理,包括:
采用配置的定量取值方式,通过游标方式,按照数据顺序,获取所述汇总数据库存储的所述待处理企业数据中目标数量的存在关联关系的待处理企业数据;
基于所述服务器中CPU核数,采用配置的数据流分批方式,对所述目标数量的存在关联关系的待处理企业数据中待处理企业数据进行分批处理,得到与所述CPU核数相等的待处理数据组,每两个待处理数据组的数据处理时长不大于预设时长阈值;
针对每个待处理数据组,基于预设的数据类型与目标存储字段的处理映射表,对所述待处理数据组中的待处理企业数据进行字段处理,得到字段处理后的待处理企业数据;以及,将所述待处理数据组中字段处理后的待处理企业数据和未进行字段处理的待处理企业数据的数据格式进行转换,得到所述待处理数据组对应的满足所述图数据库存储格式的待处理企业数据。
在一些可能的实现中,采用配置的定量取值方式,获取所述汇总数据库存储的所述待处理企业数据中存在关联关系的待处理企业数据,包括:
计算所述汇总数据库存储的所述待处理企业数据中存在关联关系的各数据类型的待处理企业数据对应的所需运行内存量;
对所述各数据类型的待处理企业数据对应的所需运行内存量进行算数平均运算,得到所述各数据类型对应的平均运行内存量;
基于所述平均运行内存量、所述CPU核数、所述服务器运行的最大内存和预设的内存需求比例,确定获取存在关联关系的待处理企业数据的目标数量。
在一些可能的实现中,基于所述服务器中CPU核数,采用配置的数据流分批方式,对所述存在关联关系的待处理企业数据中各数据类型的待处理企业数据进行分批处理,得到与所述CPU核数相等的待处理数据组,包括:
计算各类型数据的待处理企业数据对应的所需处理时长;
对所述各类型数据的待处理企业数据对应的所需处理时长进行算数平均运算,得到所述各数据类型对应的平均处理时长;
基于所述平均处理时长和所述各类型数据的待处理企业数据的总数,得到所述各类型数据的总处理时长;
基于所述服务器中CPU核数,对所述各类型数据的总处理时长进行分批处理,得到与所述CPU核数相等的待处理数据组,每个待处理数据组包括不同总处理时长对应的待处理企业数据;每两个待处理数据组间的数据处理时长差不大于预设时长阈值。
在一些可能的实现中,将所述各企业的待处理企业数据存储在汇总数据库中之后,所述方法还包括:
实时对所述汇总数据库中存储的各企业的企业数据进行更新检测;
若存储的各企业的企业数据存在更新的数据,则执行:采用预设的数源转换技术,对所述汇总数据库存储的所述待处理企业数据中存在关联关系的待处理企业数据进行处理。
在一些可能的实现中,所述存在关联关系的待处理企业数据包括层级关联的待处理企业数据和/或统计关联的待处理企业数据。
第二方面,提供了一种基于企业数据的数源转换装置,应用于服务器中,该装置可以包括:
获取单元,用于基于政府侧的各服务系统中存储的各企业的企业数据,获取所述各企业的待处理企业数据,所述企业数据包括企业的各类业务数据和企业的基本数据;所述待处理企业数据包括具有时序传输关系的时序业务数据和具有预设时间粒度的归集业务数据;
存储单元,用于将所述各企业的待处理企业数据存储在汇总数据库中;
处理单元,用于采用预设的数源转换技术,对所述汇总数据库存储的所述待处理企业数据中存在关联关系的待处理企业数据进行处理;
所述存储单元,还用于将处理后的企业数据存储在图数据库,所述图数据库存储了所述处理后的企业数据之间的关联关系。
第三方面,提供了一种基于企业数据的数源转换设备,该设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存放的程序时,实现上述第一方面中任一所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面中任一所述的方法步骤。
本申请实施例提供的基于企业数据的数源转换方法在基于政府侧的各服务系统中存储的各企业的企业数据,获取各企业的待处理企业数据,企业数据包括企业的各类业务数据和企业的基本数据后,待处理企业数据包括具有时序传输关系的时序业务数据和具有预设时间粒度的归集业务数据;将各企业的待处理企业数据存储在汇总数据库中;采用预设的数源转换技术,对汇总数据库存储的待处理企业数据中存在关联关系的待处理企业数据进行处理;将处理后的企业数据存储在图数据库,图数据库存储了处理后的企业数据之间的关联关系。该方法采用数源转换技术实现汇总数据库中存在关联关系的企业数据转换为图数据库可识别以图谱形式的企业数据,提高了企业数据查询的查询效率。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为提供的一种企业数据查询方法的架构图;
图2为本申请实施例提供的一种应用基于企业数据的数源转换方法的系统架构图;
图3为本申请实施例提供的一种基于企业数据的数源转换方法的流程示意图;
图4为本申请实施例提供的一种应用数源转换技术的数源转换模型的结构示意图;
图5为本申请实施例提供的一种基于企业数据的数源转换装置的结构示意图;
图6为本申请实施例提供的一种基于企业数据的数源转换设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,并不是全部的实施例。基于本申请实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
企业的沉淀数据分部在不同的业务系统中,比如企业注册信息存储在市场监督管理局服务平台,企业的监管行为数据存储在综合执法系统,企业的司法诉讼数据存储在法院系统,这些系统是不互通的,保存的数据类型规范都无统一的标准,并且它们绝大部分采用关系型数据库存储,行式记录,自身系统数据的关系通过间接关联字段(比如:自定义id、企业名称、统一社会信用代码、身份证号等)进行查询,当数据量巨大时,关系型数据库对于企业数据的关联关系(层级数据)展示和查询性能极差,而图数据库直接存储关联数据,能够快速响应复杂关联查询,可以直观地可视化关系,是存储、查询、分析高层级关系数据的最优利器,常见的图数据有企业图谱、家族祖谱、人物关系网、案件分析图等。企业的全景图谱数据展示有助于全局商业判断、经营分析、风险规避。
本申请实施例提供的基于企业数据的数源转换方法可以应用在图2所示的系统架构中,该系统可以包括:政府侧的服务系统,如市场监督管理局系统、综合执法系统、法院系统以及与企业相关的其他服务系统、时序数据库、归集数据库、汇总数据库、图数据库、服务器和具有浏览器的终端。
时序数据库,用于存储各企业在政府侧的服务系统中的企业数据中具有时序传输关系的时序业务数据,即采用时序方式传输的业务数据;
归集数据库,用于存储各企业在政府侧的服务系统中的企业数据中具有预设时间粒度的归集业务数据,如采用按天或按周归集的业务数据;
汇总数据库,用于存储时序数据库和归集数据库存储的数据,汇总数据库可以为MySQL数据库,或称关系型数据库;
图数据库,用于存储汇总数据库中存在关联关系的企业数据,该存在关联关系的企业数据可以包括层级关联的待处理企业数据和/或统计关联的待处理企业数据。
服务器,用于将汇总数据库中存储的存在关联关系的企业数据,通过预设的数源转换技术,得到可存储在图数据库的企业数据。以及用于接收终端发送的查询请求;
终端,用于通过浏览器向服务器发送查询请求。
其中,该服务器可以是物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN),以及大数据和人工智能平台等基础云计算服务的云服务器。终端可以是移动电话、智能电话、笔记本电脑、数字广播接收器、个人数字助理(PDA)、平板电脑(PAD)等用户设备(UserEquipment,UE)、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备、移动台(Mobile Station,MS)、移动终端(Mobile Terminal)等。终端与服务器可以通过有线或无线的通信方式进行直接或间接的连接,本申请在此不做限定。
以下结合说明书附图对本申请的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本申请,并不用于限定本申请,并且在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
图3为本申请实施例提供的一种基于企业数据的数源转换方法的流程示意图。如图3所示,该方法可以包括:
步骤S310、基于政府侧的各服务系统中存储的各企业的企业数据,获取各企业的待处理企业数据。
其中,企业数据可以包括企业的各类业务数据和企业的基本数据,包括但不限于:企业注册数据、企业经营变更数据、企业投资相关数据、企业高管任职数据、企业生产年报数据、监管行政检查处罚数据、企业工商投诉数据、企业司法诉讼数据、企业法人高管间人物关系等。
具体实施中,从政府侧的各服务系统中存储的各企业的企业数据中采集出各企业的具有时序传输关系的时序业务数据和具有预设时间粒度的归集业务数据。
步骤S320、将各企业的待处理企业数据存储在汇总数据库中。
具体实施中,将具有时序传输关系的时序业务数据和具有预设时间粒度的归集业务数据进行合集汇总存储在汇总数据库中。
为了提高存储的数据准确性,可以对待存储的业务数据进行过滤,例如,删除社会信用代码不全、关联字段id缺失、枚举类型值超出范围等的业务数据。
步骤S330、采用预设的数源转换技术,对汇总数据库存储的待处理企业数据中存在关联关系的待处理企业数据进行处理。
具体实施中,(1)采用配置的定量取值方式,通过游标方式,按照数据顺序,获取汇总数据库存储的待处理企业数据中目标数量的存在关联关系的待处理企业数据。
具体的,计算汇总数据库存储的待处理企业数据中存在关联关系的各数据类型的待处理企业数据对应的所需运行内存量;
对待处理企业数据对应的所需运行内存量进行算数平均运算,得到各数据类型对应的平均运行内存量;
基于平均运行内存量、CPU核数、服务器运行的最大内存和预设的内存需求比例(如60%),确定获取存在关联关系的待处理企业数据的目标数量。目标数量可以表示为:(服务器运行的最大内存*预设的内存需求比例)/(平均运行内存量*CPU核数)。
在一个例子中,由于数据集都是亿级,全量拉取并处理,程序处理不了,采用分而治之思想,定量拉取多次进行。定量的数值需要考虑程序引用、处理内存的大小。故在得到各数据类型的待处理企业数据对应的所需运行内存量后,可以对所需运行内存量进行排序,并使用二八定律掐头去尾剔除20%的所需运行内存量,即过滤波动较大的这部分内存量,获取稳定的所需运行内存量。之后,使用算术平均,计算这80%的所需运行内存量,求得各类型数据对应的平均运行内存量;在预先配置出企业数据在程序中运行需占用内存为服务器运行的最大内存的60%后,计算获取存在关联关系的待处理企业数据的目标数量为(服务器运行的最大内存*预设的内存需求比例)/(平均运行内存量*CPU核数),再向下千位取整,目标数量的定量一般在1.8~2.3万间。
(2)由于各服务系统中的数据存储在汇总数据库的数据量超大,传统方式数据导入耗时长效率低下,故本申请实施例采用多线程多批分段的思想进行处理。
基于服务器中CPU核数,采用配置的数据流分批方式,对目标数量的存在关联关系的待处理企业数据中待处理企业数据进行分批处理,得到与CPU核数相等的待处理数据组,每两个待处理数据组的数据处理时长不大于预设时长阈值。
具体的,计算各类型数据的待处理企业数据对应的所需处理时长;
对待处理企业数据对应的所需处理时长进行算数平均运算,得到各数据类型对应的平均处理时长;
基于平均处理时长和所述各类型数据的待处理企业数据的总数,得到各类型数据的总处理时长;
基于服务器中CPU核数,对各类型数据的总处理时长进行分批处理,得到与CPU核数相等的待处理数据组,每个待处理数据组包括不同总处理时长对应的待处理企业数据;每两个待处理数据组间的数据处理时长差不大于预设时长阈值。
在一个例子中,由于提取数据后的处理采用代码实现属于CPU密集型,分批总数等于服务器核数为佳,但若各数据类型超过了核数,那就需要对各数据类型进行合理的分组进行分批处理,满足各CPU均等时间运行。故在得到各数据类型的待处理企业数据对应的所需处理时长后,可以对所需处理时长进行排序,并使用二八定律掐头去尾剔除20%的所需处理时长,即过滤波动较大的这部分处理时长,获取稳定的所需处理时长。之后,使用算术平均,计算这80%的所需处理时长,求得各数据类型对应的平均处理时长;将平均处理时长乘以各类型数据的待处理企业数据的总数,得到各类型数据的总处理时长,
按照对各类型数据的总处理时长均等分组的原则,得到与CPU核数相等的待处理数据组,以使每两个待处理数据组间的数据处理时长差不大于预设时长阈值。其中,具体分组方式可以采用改进型动态规范分组,对各类型数据的总处理时长进行排序,采用循环提取10%头尾的总处理时长对应的各类型数据的待处理企业数据再进行排序,依次蛇形放入CPU核数个组里,循环10次就可获取每个组里对应的数据类别,其中循环次数是百分比反推而来,值越大均等精度越高。
(3)不同的业务数据需对特定字段进行数据二次处理,来满足后续查询,本申请实施例可以针对每个待处理数据组,基于预设的数据类型与目标存储字段的处理映射表,对待处理数据组中的待处理企业数据进行字段处理,得到字段处理后的待处理企业数据;以及,将待处理数据组中字段处理后的待处理企业数据和未进行字段处理的待处理企业数据的数据格式进行转换,得到该待处理数据组对应的满足所述图数据库存储格式的待处理企业数据。
具体的,预设的数据类型与目标存储字段的处理映射表可以包括企业注册资本字符串与数字金额的映射关系、投资数据与投资金额除以总投资额计算投资比例的映射关系、投资数据与投资主体id的映射关系和通用的码值与中文名称的映射关系等,投资主体可以包括企业股东、自然人股东、事业单位股东。
可以理解的是,企业注册资本字符串转数字金额的字段处理可以满足排序范围查询;投资数据对投资金额除以总投资额计算投资比例的字段处理可以满足最大股东标识及占比的排序;投资数据对投资主体id的字段处理可以满足股份类型的查询;通用的码值转中文名称的字段处理可以依据身份证号对关联字段赋值(地区、出生日期、性别)等。
需要说明的是,在执行(1)之前,由于各服务系统中的数据标准、定义、质量都不统一,数据无法直接使用,故需要进行清洗、映射、转化等操作;
由于数源转换流程长步骤多,一旦处理出现异常,将导致数据缺失、后续流程中断等问题,本申请实施例可以采用基于异常提示的智能处置或人工干预来解决上述问题。
在一些实施例中,步骤S320中将各企业的待处理企业数据存储在汇总数据库中之后,可以实时对汇总数据库中存储的各企业的企业数据进行更新检测;
若存储的各企业的企业数据存在更新的数据,则执行步骤S330。
或者,预先设置定时执行周期,步骤S320中将各企业的待处理企业数据存储在汇总数据库中之后,若达到该定时执行周期,则执行步骤S330。
步骤S340、将处理后的企业数据存储在图数据库。
其中,图数据库存储了处理后的企业数据之间的关联关系,该关联关系可以以图谱的形式展现。
进一步的,将处理后的企业数据存储在图数据库之后,可以获取用户的业务查询请求;业务查询请求可以包括查询内容;
若该查询内容为查询具有非关联关系的企业数据,则从汇总数据库中查询该查询内容对应的目标企业数据;
若该查询内容为查询具有关联关系的企业数据,则从图数据库中查询该查询内容对应的目标企业数据。
在一些实施例中,上述涉及的数源转换技术可以由数源转换模型来完成,如图4所示的数源转换模型,包括:执行模块、清洗模块、处理模块、导入模块和看板模块。
执行模块:该模块主要负责对数据任务的启动执行,具有任务配置、定时执行(实时、低延时、定时)、人工执行等功能,为了短时间完成数据的转换,利用了多核处理性能实现异步多线程的数据处理,同时具备判断是否有同类任务(如相同数据类型)正在执行,可根据配置规则或提示(如是否可以同时执行)进行等待接续、关闭前任务和同时执行等操作。
(1)任务配置:由于各数据类型的待处理企业数据的获取方式不同(归集、时序),需要对不同数据类型采用不同获取策略,采用配置化形式,实现在线编辑(增加、修改、启用、暂停、删除等)功能。
(2)定时执行:对多样化的配置场景,实现实时执行(依赖于mysql中binlog对数据的变动进行触发),低延时执行(设置业务可接受的延时间隔(最低秒级)拉取数据进行触发),定时执行(设置时钟时间点来触发,比如每天6点执行)的功能。
(3)人工执行:对收到数据处理异常的告警消息可点击消息链接进行判断再执行,也可人工登录配置页面,对任务进行手动干预再执行。
清洗模块:该模块主要负责获取的汇总数据库存储的存在关联关系的待处理企业数据的过滤、映射、转化和数据备份的处理,由于数据来源于各服务系统,各服务系统中数据的标准、定义、质量都不统一,需经过过滤、映射、转化等操作才能转换成可用的企业数据,其中企业数据包含但不限于企业基础数据、人员基础数据、分公司关系数据、任职关系数据、投资关系数据、历史法人数据、历史股东数据、监督行政检查处罚数据、企业司法诉讼数据等。
数据过滤:针对不同的数据类型,制定字段校验规则,比如:身份证号校验、人名长度内容校验、时间格式校验、关联字段校验等,以过滤不符合条件的数据。
数据映射:不同各服务系统对字段定义不同,码值也不同。梳理同名不同义,同义不同名的字段,进行统一命名,对码值及中文进行规范统一映射标准。比如:企业名称,有的用name,有的用ent_name;证件类型,有的1是居民身份证,有的用01表示。
数据转化:企业数据存储样式不统一,对码值、格式、分级等进行转化统一样式,比如:地址,有的用一个地址字段存储,有的是分省市区街道存储;日期,有的是2022-08-26,有的是20220826。
处理模块:该模块主要负责数据处理和转换,采用异步多线程同时处理不同类型的数据,提升处理性能,主要分为四个步骤:数据拉取、数据分批分段、数据二次处理及数据格式转换。
数据拉取:该步骤通过游标的方式读取表,顺序的拉取待处理企业数据,将定量的待处理企业数据拉取到处理集合中,把处理集合传输给下一步,再循环定量拉取,即配置的定量取值方式。
数据分批分段(分量):该步骤是对数据进行分批分段(分量)截取,由于定量数据还是很大,可以依据后续处理性能合理的设置分批数量分段大小,充分利用服务器多核性能处理数据,即配置的数据流分批方式。
数据二次处理:不同的业务数据需对特定字段二次处理,来满足后续查询,各业务数据制定处理字段,并二次处理,比如:企业注册资本字符串转数字金额、满足排序范围查询;投资数据对投资金额除以总投资额计算投资比例,满足最大股东标识及占比的排序;投资数据对投资主体id识别,区分企业股东、自然人股东、事业单位股东,满足股份类型的查询;通用的码值转中文名称;依据身份证号对关联字段赋值(地区、出生日期、性别)等。
数据转换格式:该步骤将数据格式转换存储为图谱数据库能识别的格式文本,方便图数据库解析和导入。比如:图数据库neo4j大数据量导入采用CSV数据导入,以逗号“,”分割数据,每条数据以行记录,存储首行为定义的属性字段,后续行是具体业务数据。
导入模块:该模块主要负责数据备份、将处理模块中生成的格式数据文件或脚本导入到图数据库。
数据备份:对导入前图数据库进行数据备份处理,用于异常发生后能备份快速恢复。
数据导入:根据图数据库特性及导入方式,采用import命令行形式对数据文本进行导入,对节点数据优先导入处理,如:企业、人员、行政检查事件、行政处罚事件、司法诉讼事件等,再对节点之间的无次序关系数据采用并行导入处理,如分公司关系、投资关系、高管关系、股东关系、监管行为关系、夫妻关系等。
看板模块:该模块主要负责数据报表、异常处理告警消息发送。数据报表展示每次任务统计各阶段处理的耗时、各类数据量情况、前后对比以及数据验证反馈等信息。
进一步的,还包括异常机制;当处理模块或导入模块中的步骤发生异常报错或超时时,异常机制根据重试机制进行重新执行该步骤,当重试次数达到阈值(如3次)将进行预警消息的提示和发送,当处理人收到消息时可点击消息链接进行人工干预进行重新执行或备份恢复,若处理人长时间未接手处理系统将默认执行备份恢复。
本申请实施例提供的基于企业数据的数源转换方法在基于政府侧的各服务系统中存储的各企业的企业数据,获取各企业的待处理企业数据,企业数据包括企业的各类业务数据和企业的基本数据后,待处理企业数据包括具有时序传输关系的时序业务数据和具有预设时间粒度的归集业务数据;将各企业的待处理企业数据存储在汇总数据库中;采用预设的数源转换技术,对汇总数据库存储的待处理企业数据中存在关联关系的待处理企业数据进行处理;将处理后的企业数据存储在图数据库,图数据库存储了处理后的企业数据之间的关联关系。该方法采用数源转换技术实现汇总数据库中存在关联关系的企业数据转换为图数据库可识别以图谱形式的企业数据,以使不存在关联关系的企业数据存储在汇总数据库中,存在关联关系的企业数据存储在图数据库,以提高了企业数据查询的查询效率。
与上述方法对应的,本申请实施例还提供一种基于企业数据的数源转换装置,如图5所示,该装置包括:
获取单元510,用于基于政府侧的各服务系统中存储的各企业的企业数据,获取所述各企业的待处理企业数据,所述企业数据包括企业的各类业务数据和企业的基本数据;所述待处理企业数据包括具有时序传输关系的时序业务数据和具有预设时间粒度的归集业务数据;
存储单元520,用于将所述各企业的待处理企业数据存储在汇总数据库中;
处理单元530,用于采用预设的数源转换技术,对所述汇总数据库存储的所述待处理企业数据中存在关联关系的待处理企业数据进行处理;
存储单元520,还用于将处理后的企业数据存储在图数据库,所述图数据库存储了所述处理后的企业数据之间的关联关系。
本申请上述实施例提供的基于企业数据的数源转换装置的各功能单元的功能,可以通过上述各方法步骤来实现,因此,本申请实施例提供的基于企业数据的数源转换装置中的各个单元的具体工作过程和有益效果,在此不复赘述。
本申请实施例还提供了一种基于企业数据的数源转换设备,如图6所示,包括处理器610、通信接口620、存储器630和通信总线640,其中,处理器610,通信接口620,存储器630通过通信总线640完成相互间的通信。
存储器630,用于存放计算机程序;
处理器610,用于执行存储器630上所存放的程序时,实现如下步骤:
基于政府侧的各服务系统中存储的各企业的企业数据,获取所述各企业的待处理企业数据,所述企业数据包括企业的各类业务数据和企业的基本数据;所述待处理企业数据包括具有时序传输关系的时序业务数据和具有预设时间粒度的归集业务数据;
将所述各企业的待处理企业数据存储在汇总数据库中;
采用预设的数源转换技术,对所述汇总数据库存储的所述待处理企业数据中存在关联关系的待处理企业数据进行处理;
将处理后的企业数据存储在图数据库,所述图数据库存储了所述处理后的企业数据之间的关联关系。
上述提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
由于上述实施例中设备的各器件解决问题的实施方式以及有益效果可以参见图3所示的实施例中的各步骤来实现,因此,本申请实施例提供的设备的具体工作过程和有益效果,在此不复赘述。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于企业数据的数源转换方法。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的基于企业数据的数源转换方法。
本领域内的技术人员应明白,本申请实施例中的实施例可提供为方法、系统、或计算机程序产品。因此,本申请实施例中可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请实施例中可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请实施例中是参照根据本申请实施例中实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本申请实施例中的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例中范围的所有变更和修改。
显然,本领域的技术人员可以对本申请实施例中实施例进行各种改动和变型而不脱离本申请实施例中实施例的精神和范围。这样,倘若本申请实施例中实施例的这些修改和变型属于本申请实施例中权利要求及其等同技术的范围之内,则本申请实施例中也意图包含这些改动和变型在内。
Claims (10)
1.一种基于企业数据的数源转换方法,其特征在于,应用于服务器中,所述方法包括:
基于政府侧的各服务系统中存储的各企业的企业数据,获取所述各企业的待处理企业数据,所述企业数据包括企业的各类业务数据和企业的基本数据;所述待处理企业数据包括具有时序传输关系的时序业务数据和具有预设时间粒度的归集业务数据;
将所述各企业的待处理企业数据存储在汇总数据库中;
采用预设的数源转换技术,对所述汇总数据库存储的所述待处理企业数据中存在关联关系的待处理企业数据进行处理;
将处理后的企业数据存储在图数据库,所述图数据库存储了所述处理后的企业数据之间的关联关系。
2.如权利要求1所述的方法,其特征在于,将处理后的企业数据存储在图数据库之后,所述方法还包括:
获取用户的业务查询请求;所述业务查询请求包括查询内容;
若所述查询内容为查询具有非关联关系的企业数据,则从所述汇总数据库中查询所述查询内容对应的目标企业数据;
若所述查询内容为查询具有关联关系的企业数据,则从所述图数据库中查询所述查询内容对应的目标企业数据。
3.如权利要求1所述的方法,其特征在于,采用预设的数源转换技术,对所述汇总数据库存储的所述待处理企业数据中存在关联关系的待处理企业数据进行处理,包括:
采用配置的定量取值方式,通过游标方式,按照数据顺序,获取所述汇总数据库存储的所述待处理企业数据中目标数量的存在关联关系的待处理企业数据;
基于所述服务器中CPU核数,采用配置的数据流分批方式,对所述目标数量的存在关联关系的待处理企业数据中待处理企业数据进行分批处理,得到与所述CPU核数相等的待处理数据组,每两个待处理数据组的数据处理时长不大于预设时长阈值;
针对每个待处理数据组,基于预设的数据类型与目标存储字段的处理映射表,对所述待处理数据组中的待处理企业数据进行字段处理,得到字段处理后的待处理企业数据;以及,将所述待处理数据组中字段处理后的待处理企业数据和未进行字段处理的待处理企业数据的数据格式进行转换,得到所述待处理数据组对应的满足所述图数据库存储格式的待处理企业数据。
4.如权利要求3所述的方法,其特征在于,采用配置的定量取值方式,获取所述汇总数据库存储的所述待处理企业数据中存在关联关系的待处理企业数据,包括:
计算所述汇总数据库存储的所述待处理企业数据中存在关联关系的各数据类型的待处理企业数据对应的所需运行内存量;
对所述各数据类型的待处理企业数据对应的所需运行内存量进行算数平均运算,得到所述各数据类型对应的平均运行内存量;
基于所述平均运行内存量、所述CPU核数、所述服务器运行的最大内存和预设的内存需求比例,确定获取存在关联关系的待处理企业数据的目标数量。
5.如权利要求3所述的方法,其特征在于,基于所述服务器中CPU核数,采用配置的数据流分批方式,对所述存在关联关系的待处理企业数据中各数据类型的待处理企业数据进行分批处理,得到与所述CPU核数相等的待处理数据组,包括:
计算各类型数据的待处理企业数据对应的所需处理时长;
对所述各类型数据的待处理企业数据对应的所需处理时长进行算数平均运算,得到所述各数据类型对应的平均处理时长;
基于所述平均处理时长和所述各类型数据的待处理企业数据的总数,得到所述各类型数据的总处理时长;
基于所述服务器中CPU核数,对所述各类型数据的总处理时长进行分批处理,得到与所述CPU核数相等的待处理数据组,每个待处理数据组包括不同总处理时长对应的待处理企业数据;每两个待处理数据组间的数据处理时长差不大于预设时长阈值。
6.如权利要求1所述的方法,其特征在于,将所述各企业的待处理企业数据存储在汇总数据库中之后,所述方法还包括:
实时对所述汇总数据库中存储的各企业的企业数据进行更新检测;
若存储的各企业的企业数据存在更新的数据,则执行:采用预设的数源转换技术,对所述汇总数据库存储的所述待处理企业数据中存在关联关系的待处理企业数据进行处理。
7.如权利要求1所述的方法,其特征在于,所述存在关联关系的待处理企业数据包括层级关联的待处理企业数据和/或统计关联的待处理企业数据。
8.一种基于企业数据的数源转换装置,其特征在于,应用于服务器中,所述装置包括:
获取单元,用于基于政府侧的各服务系统中存储的各企业的企业数据,获取所述各企业的待处理企业数据,所述企业数据包括企业的各类业务数据和企业的基本数据;所述待处理企业数据包括具有时序传输关系的时序业务数据和具有预设时间粒度的归集业务数据;
存储单元,用于将所述各企业的待处理企业数据存储在汇总数据库中;
处理单元,用于采用预设的数源转换技术,对所述汇总数据库存储的所述待处理企业数据中存在关联关系的待处理企业数据进行处理;
所述存储单元,还用于将处理后的企业数据存储在图数据库,所述图数据库存储了所述处理后的企业数据之间的关联关系。
9.一种基于企业数据的数源转换设备,其特征在于,所述设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
存储器,用于存放计算机程序;
处理器,用于执行存储器上所存储的程序时,实现权利要求1-7任一所述的方法步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-7任一所述的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211141329.0A CN115470279A (zh) | 2022-09-20 | 2022-09-20 | 基于企业数据的数源转换方法、装置、设备及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211141329.0A CN115470279A (zh) | 2022-09-20 | 2022-09-20 | 基于企业数据的数源转换方法、装置、设备及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115470279A true CN115470279A (zh) | 2022-12-13 |
Family
ID=84333957
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211141329.0A Pending CN115470279A (zh) | 2022-09-20 | 2022-09-20 | 基于企业数据的数源转换方法、装置、设备及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115470279A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821155A (zh) * | 2023-06-27 | 2023-09-29 | 上海螣龙科技有限公司 | 一种网络资产数据存储和查询方法、装置及存储介质 |
-
2022
- 2022-09-20 CN CN202211141329.0A patent/CN115470279A/zh active Pending
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116821155A (zh) * | 2023-06-27 | 2023-09-29 | 上海螣龙科技有限公司 | 一种网络资产数据存储和查询方法、装置及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022134794A1 (zh) | 新闻事件的舆情处理方法及装置、存储介质、计算机设备 | |
CN111400288A (zh) | 数据质量检查方法及系统 | |
CN108241867B (zh) | 一种分类方法及装置 | |
CN113360554A (zh) | 一种数据抽取、转换和加载etl的方法和设备 | |
CN111310052A (zh) | 用户画像构建方法、装置及计算机可读存储介质 | |
CN113485989A (zh) | 一种监管数据的综合分析方法、系统、介质和设备 | |
CN111833018A (zh) | 一种科技项目的专利分析方法及系统 | |
CN114461644A (zh) | 一种数据采集方法、装置、电子设备及存储介质 | |
CN112632405A (zh) | 一种推荐方法、装置、设备及存储介质 | |
CN111242318A (zh) | 基于异构特征库的业务模型训练方法及装置 | |
CN115470279A (zh) | 基于企业数据的数源转换方法、装置、设备及介质 | |
CN113190623B (zh) | 数据处理方法、装置、服务器和存储介质 | |
CN109145109B (zh) | 基于社交网络的用户群体消息传播异常分析方法及装置 | |
CN105719072A (zh) | 关联多段组件交易的系统及方法 | |
CN110941536B (zh) | 监控方法及系统、第一服务器集群 | |
CN112100177A (zh) | 数据存储方法、装置、计算机设备及存储介质 | |
CN115983582A (zh) | 一种数据分析方法和能耗管理系统 | |
CN113641654B (zh) | 一种基于实时事件的营销处置规则引擎方法 | |
CN113220530B (zh) | 数据质量监控方法及平台 | |
CN115168509A (zh) | 风控数据的处理方法及装置、存储介质、计算机设备 | |
CN114140241A (zh) | 一种交易监控指标的异常识别方法及装置 | |
CN113487103A (zh) | 模型更新方法、装置、设备及存储介质 | |
CN113918577A (zh) | 数据表识别方法、装置、电子设备及存储介质 | |
CN104376021A (zh) | 文件推荐系统及方法 | |
CN114428813A (zh) | 基于报表平台的数据统计方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |