CN111198916B - 一种数据传输方法、装置,电子设备及存储介质 - Google Patents
一种数据传输方法、装置,电子设备及存储介质 Download PDFInfo
- Publication number
- CN111198916B CN111198916B CN202010008818.3A CN202010008818A CN111198916B CN 111198916 B CN111198916 B CN 111198916B CN 202010008818 A CN202010008818 A CN 202010008818A CN 111198916 B CN111198916 B CN 111198916B
- Authority
- CN
- China
- Prior art keywords
- file
- entity
- analyzed
- full
- importing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 73
- 230000005540 biological transmission Effects 0.000 title claims abstract description 38
- 238000010586 diagram Methods 0.000 claims abstract description 22
- 230000008569 process Effects 0.000 claims description 30
- 230000008676 import Effects 0.000 claims description 9
- 238000012544 monitoring process Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 3
- 238000012545 processing Methods 0.000 abstract description 10
- 238000004458 analytical method Methods 0.000 description 10
- 230000004044 response Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 230000009471 action Effects 0.000 description 4
- 235000013399 edible fruits Nutrition 0.000 description 4
- RTAQQCXQSZGOHL-UHFFFAOYSA-N Titanium Chemical compound [Ti] RTAQQCXQSZGOHL-UHFFFAOYSA-N 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000001419 dependent effect Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000000903 blocking effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000012216 screening Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/283—Multi-dimensional databases or data warehouses, e.g. MOLAP or ROLAP
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/258—Data format conversion from or to a database
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请提供一种数据传输方法、装置,电子设备及存储介质。属于数据处理技术领域。该方法包括:根据预设数据格式,对源数据进行全量备份,生成全量图;获取用户上传的待分析文件;从所述全量图中获取与所述待分析文件对应的待分析实体以及从所述全量图中查找出与所述待分析实体相关联的第一实体,并将所述待分析实体以及所述第一实体导入目标数据库。在本申请实施例中,对源数据根据预设数据格式进行一次全量备份,能够最大化降低对第三方不稳定数据源的依赖,提高了系统运行的稳定性、准确性。
Description
技术领域
本申请涉及数据处理技术领域,具体而言,涉及一种数据传输方法、装置,电子设备及存储介质。
背景技术
在知识图谱OLAP(on-Line Analytic Processing,联机分析处理)分析中,经常需要针对超大数据的实时关系挖掘分析。例如在公安行业下,知识图谱有上百亿的实体关系,而破案的线索大约有几万的嫌疑人,需要搜索、探查这几万人背后的几度关系,找到背后可能潜在的潜在嫌疑人、线索。
在知识图谱OLAP分析前需要获取数据并对数据进行处理,然后导入到存储产品中,最后在存储产品中进行知识图谱OLAP分析。但是目前的方案是通过API接口的方式将源数据传输,经过加工处理后,将处理后的数据文件导入存储产品中。该方式非常依赖数据源的性能和稳定性,如果数据源压力较大,那么会造成整个系统响应速度慢,系统长时间无响应。
发明内容
本申请实施例的目的在于提供一种数据传输方法、装置,电子设备及存储介质,以改善“通过API接口的方式进行数据传输,非常依赖数据源的性能和稳定性,如果数据源压力较大,那么会造成整个系统响应速度慢,系统长时间无响应”的问题。
本发明是这样实现的:
第一方面,本申请实施例提供一种数据传输方法,包括:根据预设数据格式,对源数据进行全量备份,生成全量图;获取用户上传的待分析文件;从所述全量图中获取与所述待分析文件对应的待分析实体以及从所述全量图中查找出与所述待分析实体相关联的第一实体,并将所述待分析实体以及所述第一实体导入目标数据库。
在本申请中,对源数据根据预设数据格式进行一次全量备份,能够最大化降低对第三方不稳定数据源的依赖,提高了系统运行的稳定性、准确性。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述根据预设数据格式,对源数据进行全量备份,生成全量图,包括:将所述源数据转化为统一文件格式进行传输;针对所述源数据中各实体的关系、事件,生成关系文件;根据所述关系文件,生成所述全量图。
在本申请中,通过将源数据转化为统一文件格式;针对源数据中各实体的关系、事件,生成关系文件;根据关系文件,生成所述全量图,方便后续直接在全量图中查找出与待分析实体相关联的第一实体。且在数据传输时,将源数据转化为统一文件格式传输,与现有技术通过API接口传输相比,降低对不稳定数据源的依赖,提供系统稳定性、准确性。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述方法还包括:每隔预设的时间间隔,从数据源中获取增量数据;将所述增量数据转换为所述统一文件格式;将所述增量数据更新至所述全量图中。
在本申请中,通过每隔预设的时间间隔,从数据源中获取增量数据;将增量数据转换为统一文件格式;最后将增量数据更新至所述全量图中,能够及时获取数据源中的更新的数据,保证获取到数据的完整性和及时性。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述第一实体包括第一子实体和第二子实体,所述从所述全量图中获取与所述待分析文件对应的待分析实体以及从所述全量图中查找出与所述待分析实体相关联的第一实体,并将所述待分析实体以及所述第一实体导入目标数据库,包括:从所述全量图中获取与所述待分析文件对应的待分析实体,生成第一文件,并将所述第一文件导入所述目标数据库;在所述全量图中查找出与所述待分析实体相关联的所述第一子实体,生成第二文件,并将所述第二文件导入所述目标数据库;从所述全量图中获取所述第一子实体,生成第三文件,并将所述第三文件导入所述目标数据库;从所述全量图中查找出与所述第一子实体相关联的所述第二子实体,生成第四文件,并将所述第四文件导入所述目标数据库。
在本申请中,通过从全量图中获取所述待分析实体,生成第一文件,并将第一文件导入目标数据库;在全量图中查找出与待分析实体相关联的第一子实体,生成第二文件,并将第二文件导入所述目标数据库;从全量图中获取第一子实体,生成第三文件,并将第三文件导入目标数据库;从全量图中查找出与第一子实体相关联的第二子实体,生成第四文件,并将第四文件导入所述目标数据库。通过该方式,将查找出的与待分析实体直接关联的第一子实体以及间接关联的第二子实体导入目标数据库中,便于后续知识图谱OLAP分析。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述第一文件、所述第二文件、所述第三文件以及所述第四文件为目标文件,在将所述目标文件导入所述目标数据库的过程中,所述方法还包括:判断所述目标文件的文件大小是否大于预设阈值;若是,则将所述目标文件拆分,直至拆分后的待导入文件的文件大小小于所述预设阈值。
在本申请中,通过判断目标文件的文件大小是否大于预设阈值;若是,则将目标文件拆分,直至拆分后的待导入文件的文件大小小于预设阈值,能够避免数据文件过大,导致数据传输速度慢,系统卡顿的情况。本申请中,若目标文件过大,则通过将目标文件拆分的方式,能够大幅度提升系统处理速度和系统的稳定性。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,所述目标文件的生成过程以及将所述目标文件导入所述目标数据库的过程并行处理。
在本申请中,通过多线程池模式,将目标文件的生成过程以及将所述目标文件导入所述目标数据库的过程并行处理,提高了系统响应。
结合上述第一方面提供的技术方案,在一些可能的实现方式中,在将所述目标文件导入所述目标数据库的过程中,所述方法还包括:对将所述目标文件导入所述目标数据库的完成进度进行监控。
在本申请中,通过对将目标文件导入目标数据库的完成进度进行监控,方便工作人员的监管。
第二方面,本申请实施例提供一种数据传输装置,包括:备份模块,用于根据预设数据格式,对源数据进行全量备份,生成全量图;获取模块,用于获取用户上传的待分析文件;导入模块,用于从所述全量图中获取与所述待分析文件对应的待分析实体以及从所述全量图中查找出与所述待分析实体相关联的第一实体,并将所述待分析实体以及所述第一实体导入目标数据库。
第三方面,本申请实施例提供一种电子设备,包括:处理器和存储器,所述处理器和所述存储器连接;所述存储器用于存储程序;所述处理器用于调用存储在所述存储器中的程序,执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法。
第四方面,本申请实施例提供一种存储介质,其上存储有计算机程序,所述计算机程序在被处理器运行时执行如上述第一方面实施例和/或结合上述第一方面实施例的一些可能的实现方式提供的方法。
附图说明
为了更清楚地说明本申请实施例的技术方案,下面将对本申请实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。
图1为本申请实施例提供的一种电子设备的结构示意图。
图2为本申请实施例提供的一种数据传输方法的步骤流程图。
图3为本申请实施例提供的一种步骤S101的子步骤流程图。
图4为本申请实施例提供的一种更新全量图的步骤流程图。
图5为本申请实施例提供的一种步骤S103的子步骤流程图。
图6为本申请实施例提供的一种数据传输装置的模块框图。
图标:100-电子设备;101-处理器;102-存储器;103-通信总线;200-数据传输装置;201-备份模块;202-获取模块;203-导入模块;204-判断模块;205-监控模块。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。
在知识图谱OLAP分析前需要获取数据并对数据进行处理,然后导入到存储产品中,最后在存储产品中进行知识图谱OLAP分析。目前的方案是通过API接口的方式将源数据传输,经过加工处理后,将处理后的数据文件导入存储产品中。该方式非常依赖数据源的性能和稳定性,如果数据源压力较大,那么会造成整个系统响应速度慢,系统长时间无响应。
鉴于上述问题,本申请发明人经过研究探索,提出以下实施例以解决上述问题。
请参阅图1,图1为本申请实施例提供的一种应用数据传输方法、装置的电子设备100的结构示意图。本申请实施例中,电子设备100可以是,但不限于电脑、智能手机、平板电脑、个人数字助理(Personal Digital Assistant,PAD)、移动上网设备(Mobile InternetDevice,MID)等。
在结构上,电子设备100包括至少一个处理器101,至少一个存储器102和至少一个通信总线103。其中,通信总线103用于实现处理器101、存储器102之间的通信。数据传输装置包括至少一个可以通过软件或固件的形式存储于存储器102中或固化在电子设备100的操作系统(Operating System,OS)中的软件模块。处理器101用于根据预设数据格式,对源数据进行全量备份,生成全量图;获取用户上传的待分析文件;从所述全量图中获取与所述待分析文件对应的待分析实体以及从所述全量图中查找出与所述待分析实体相关联的第一实体,并将所述待分析实体以及所述第一实体导入目标数据库。
其中,处理器101可以是一种集成电路芯片,具有信号处理能力。处理器101也可以是通用处理器,例如,可以是数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、分立门或晶体管逻辑器件、分立硬件组件,可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。此外,通用处理器可以是微处理器或者任何常规处理器等。
存储器102可以是,但不限于,随机存取存储器(Random Access Memory,RAM)、只读存储器(Read Only Memory,ROM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦可编程序只读存储器(Erasable Programmable Read-Only Memory,EPROM),以及电可擦编程只读存储器(Electric Erasable Programmable Read-OnlyMemory,EEPROM)。存储器102用于存储程序,处理器101在接收到执行指令后,执行该程序。
应当理解,图1所示的结构仅为示意,本申请实施例提供的电子设备100还可以具有比图1更少或更多的组件,或是具有与图1所示不同的配置。此外,图1所示的各组件可以通过软件、硬件或其组合实现。
请参考图2,本申请实施例提供一种数据传输方法。该方法应用于图1所示出的电子设备100中。下面,结合图2对数据传输方法的具体流程及步骤进行描述。该方法包括:步骤S101-步骤S103。
步骤S101:根据预设数据格式,对源数据进行全量备份,生成全量图。
其中,源数据是来源于各种数据源的数据,比如来源于终端、网站的数据。对源数据进行全量备份是指将源数据备份至数据库。该数据库可以是neo4j、orientDB、TITAN、FlockDB、AllegroGraph等图形数据库,本申请不作限定。
在本申请实施中,通过对源数据根据预设数据格式进行一次全量备份,能够最大化降低对第三方不稳定数据源的依赖,提高了系统运行的稳定性、准确性。
请参阅图3,可选地,根据预设数据格式,对源数据进行全量备份,生成全量图,可以包括:步骤S201-步骤S203。
步骤S201:将源数据转换为统一文件格式进行传输。
首先,将源数据转换为统一文件格式进行传输。其中,统一文件格式可以是csv(Comma-Separated Values,逗号分隔值)格式文件,也可以是parquet格式文件。若源数据本身即为csv格式文件或者parquet格式文件,则无需进行转换。
步骤S202:针对源数据中各实体的关系、事件,生成关系文件。
在获取到统一文件格式的源数据后,针对源数据中各实体的关系、事件,生成关系文件。其中,实体指的是具体的实物,比如某个人、某件物品,事件可以指的是与实体相关的一个动作或者是一个状态,比如陈某出生于A省。下面举例进行说明,比如张三的父亲是张四,则张三和张四这两个实体是父子关系,又比如李某的妻子是王某,则李某与王某这两个实体是夫妻关系,又比如源数据中包含的事件为陈某出生于A省,则陈某与A省这两个实体的关系为出生地。针对源数据中各实体的关系、事件,生成关系文件,对关系文件进行统一的维护管理。
步骤S203:根据关系文件,生成全量图。
然后根据上述关系文件,生成全量图。其中,全量图中包括所有的关系文件。具体的,根据关系文件,生成全量图包括:串行将所有的关系文件使用admin-import算法离线导入到数据库中,生成全量图。
需要说明的是,admin-import算法是一种将文件形式的数据导入数据库中的一种常用算法,因此,本申请不作过多的阐述。上述的数据库可以是neo4j、orientDB、TITAN、FlockDB、AllegroGraph等图形数据库,本申请不作限定。
在本申请实施例中,通过将源数据转化为统一文件格式;针对源数据中各实体的关系、事件,生成关系文件;根据关系文件,生成所述全量图,方便后续直接在全量图中查找出与待分析实体相关联的第一实体。且在数据传输时,将源数据转化为统一文件格式传输,与现有技术通过API接口传输相比,降低对不稳定数据源的依赖,提供系统稳定性、准确性。
请参阅图4,为了能够及时获取数据源中的更新的数据,保证获取到数据的完整性和及时性,可选地,在根据预设数据格式,对源数据进行全量备份,生成全量图的过程中,该方法还包括:步骤S301-步骤S303。
步骤S301:每隔预设的时间间隔,从数据源中获取增量数据。
本步骤是从数据源中获取更新的数据,即增量数据。其中,数据源可以是终端、网站。预设的时间间隔可以根据具体情况设定,比如可以是1个小时、12个小时、24个小时等,对此,本申请不作限定。
步骤S302:将增量数据转换为统一文件格式。
然后将获取到的增量数据转换为统一文件格式,需要说明的是,该步骤中对增量数据转换成的统一文件格式需要与步骤S201中将源数据转化成的统一文件格式保持一致,比如在步骤S201中将源数据转换为csv格式文件,则此步骤中,也将增量数据转换为csv格式文件。又比如在步骤S201中将源数据转化为parquet格式文件,则此步骤中,也将增量数据转换为parquet格式文件。
步骤S303:将增量数据更新至全量图中。
最后将增量数据更新至全量图中。具体的,增量数据更新至全量图中可以包括:通过load方式将增量数据在线更新至全量图中。
需要说明的是,load方式是一种在线的将数据传输的常用方式,比如load方式的完整格式包括:load(url,[data],[callback]);其中,url表示需要导入的地址,data以及callback表示可选参数。对于load方式的运用已经是本领域技术人员的熟知的,因此,本申请不作过多的阐述。
需要说明的是,上述步骤S201-步骤S203为全量备份采用的离线全量加载模式,而步骤S301-步骤S303为全量备份采用的在线增量更新模式。于本申请中,通过将两个模式结合,保证了获取的数据稳定性、一致性和及时性。
步骤S102:获取用户上传的待分析文件。
在完成全量备份后,然后获取用户上传的待分析文件。其中,待分析文件可以包括待分析人员的身份证信息、户口信息、图像信息(如待分析人员的照片)等。其中,待分析人员是指的需要进行知识图谱OLAP分析的人员,比如嫌疑人,走失人口等。
步骤S103:从全量图中获取与待分析文件对应的待分析实体以及从全量图中查找出与待分析实体相关联的第一实体,并将待分析实体以及第一实体导入目标数据库。
在获取到用户上传的待分析文件后,对待分析文件进行解析,然后从全量图中查找出与待分析文件对应的待分析实体以及与待分析实体相关联的第一实体,并将待分析实体以及第一实体导入目标数据库。最后在目标数据库中做知识图谱OLAP分析。该步骤相当于是从全量图中筛选出一个与待分析文件相关联的子图,然后将子图导入到目标数据库中进行知识图谱OLAP分析。
上述的目标数据库可以是neo4j、orientDB、TITAN、FlockDB、AllegroGraph等图形数据库,本申请不作限定。
可选地,第一实体包括第一子实体和第二子实体。请参阅图5,上述步骤S103从全量图中获取与待分析文件对应的待分析实体以及从全量图中查找出与待分析实体相关联的第一实体,并将待分析实体以及第一实体导入目标数据库可以包括:步骤S401-步骤S404。
步骤S401:从全量图中获取与待分析文件对应的待分析实体,生成第一文件,并将第一文件导入目标数据库。
首先,通过解析用户上传的待分析文件,比如待分析文件中包括身份证号码,解析该身份证号码,并从全量图中获取到与该身份证号码匹配的待分析实体。又比如待分析文件中包括待分析人员的照片,则从全量图中获取到与该分析人员的照片匹配的待分析实体。需要说明的是,获取到的待分析实体则包括待分析实体的相关的个人信息,如年龄、性别等等。在获取到待分析实体后,生成第一文件,其中,第一文件的格式也与步骤S201中将源数据转化成的统一文件格式保持一致,比如在步骤S201中将源数据转换为csv格式文件,则此步骤中,生成的第一文件也为csv格式文件。又比如在步骤S201中将源数据转化为parquet格式文件,则此步骤中,生成的第一文件也为parquet格式文件。为了便于阐述,下文均以生成csv格式的文件为例。最后将生成的第一文件导入到目标数据库中。
步骤S402:在全量图中查找出与待分析实体相关联的第一子实体,生成第二文件,并将第二文件导入目标数据库。
从全量图中获取到待分析实体后,再从全量图中查找出与待分析实体相关联的第一子实体。需要说明的是,待分析实体与第一子实体相关联表示待分析实体与第一子实体之间存在实体关系。如步骤S202中的例子,比如张三的父亲是张四,则张三和张四这两个实体之间的实体关系是父子,又比如李某的妻子是王某,则李某与王某这两个实体之间的实体关系是夫妻,又比如源数据中包含的事件为陈某出生于A省,则陈某与A省这两个实体之间的实体关系为出生地。在查找出与待分析实体相关联的第一子实体后,生成第二文件,不同的实体关系用不同的文件名,比如待分析实体是张三,查找到张三的父亲张四,则生成的张四的第二文件的文件名为父亲。在生成第二文件之后,使用上述在线load的方式,将csv格式的第二文件导入到目标数据库中。
步骤S403:从全量图中获取第一子实体,生成第三文件,并将第三文件导入目标数据库。
然后从全量图中获取第一子实体,获取到的第一子实体则包括第一子实体的相关的个人信息,如年龄、性别等等。生成新的csv文件,即第三文件,并将第三文件导入到目标数据库中。
步骤S404:从全量图中查找出与第一子实体相关联的第二子实体,生成第四文件,并将第四文件导入目标数据库。
接下来从全量图中查找出与第一子实体相关联的第二子实体,第一子实体与第二子实体相关联表示第一子实体与第二子实体之间存在实体关系。比如赵某的母亲是张某,则赵某和张某这两个实体之间的实体关系是母子,又比如李某是王某的老板,则李某与王某这两个实体之间的实体关系是雇佣关系,又比如源数据中包含的事件为陈某出生于B省,则陈某与B省这两个实体之间的实体关系为出生地。在查找出与第一子实体相关联的第二子实体后,生成第四文件,不同的实体关系用不同的文件名,比如待分析实体是赵某,查找到赵某的母亲张某,则生成的张某的第四文件的文件名为母亲。在生成第四文件之后,使用上述在线load的方式,将csv格式的第四文件导入到目标数据库中。
需要说明的是,在后生成的文件需要排除在先已经生成过的文件,也即在将文件导入目标数据库之前,会判断目标数据库中是否存在有与所生成的文件相同的文件。比如在后生成的第四文件中有与第二文件相同的文件,则将这个第四文件中与第二文件相同的文件排除。避免导入到目标数据库中有重复数据。
其中,上述的第一文件、第二文件、第三文件以及第四文件均为需要导入到目标数据库中的目标文件。可选地,为了避免目标文件过大,导致数据传输速度慢,系统卡顿的情况,上述方法还包括:判断目标文件的文件大小是否大于预设阈值。若是,则将目标文件拆分,直至拆分后的待导入文件的文件大小小于所述预设阈值。若否,则直接将目标文件导入到目标数据库中。
可选地,预设阈值为文件的行数,比如预设阈值为5000行,当目标文件包括9000行数据时,9000>5000,目标文件过大,则将目标文件进行拆分,比如将目标文件拆分为两个文件,每个文件的包括4500行数据,或者其中一个文件包括5000行数据,另一个文件包括4000行数据。具体的拆分方式,本申请不作限定。拆分后需保证每一个拆分后的文件小于预设阈值即可。当目标文件为3000行时,则直接将目标文件导入到目标数据库中。
上述的预设阈值也可以根据实际情况而设定,比如预设阈值为4000行、3000行等,对此,本申请不作限定。
在本申请实施例中,若目标文件过大,则通过将目标文件拆分的方式,能够大幅度提升系统处理速度和系统的稳定性。
可选地,于本申请中,目标文件的生成过程以及将目标文件导入目标数据库的过程并行处理。也即通过多线程池实现并行生成目标文件、导入目标数据库的功能。比如,生成第一文件以及将第一文件导入到目标数据库并行处理,即一部分文件仍处于生成第一文件的过程,而另一部分已经生成了的第一文件已经开始导入到目标数据库中了,又比如,将第一文件导入到目标数据库的过程与生产第二文件的过程并行处理,又比如生成第二文件的过程与生产第三文件的过程并行处理等等。
需要说明的,将目标文件导入目标数据库的线程池根据资源配置不同的处理任务数量,比如默认生成20个目标文件,则进行一次导入。当然,在其他实施例中,可以是生成10个目标文件,则进行一次导入,或者生成5个目标文件,则进行一次导入,对此,本申请不作限定。
在本申请实施例中,通过多线程池模式,将目标文件的生成过程以及将目标文件导入目标数据库的过程并行处理,提高了系统响应。
可选地,在将目标文件导入到目标数据库的过程中,该方法还包括:对将目标文件导入目标数据库的完成进度进行监控。通过对将目标文件导入目标数据库的完成进度进行监控,方便工作人员的监管。
可选地,在并行处理不同类型的任务时候,该方法还包括:分别针对不同类型的任务进行监控。比如分别对第一文件的生成过程、将第一文件导入目标数据库的过程;第二文件的生成过程、将第二文件导入目标数据库的过程;第三文件的生成过程、将第三文件导入目标数据库的过程;第四文件的生成过程、将第四文件导入目标数据库的过程进行监控。
需要说明的是,当某个任务失败后,会重新执行该任务,比如第一文件导入目标数据库失败,则重新导入或者重新生成第一文件。
请参阅图6,基于同一发明构思,本申请实施例中还提供一种数据传输装置200,包括备份模块201、获取模块202以及导入模块203。
备份模块201,用于根据预设数据格式,对源数据进行全量备份,生成全量图。
获取模块202,用于获取用户上传的待分析文件;其中,所述待分析文件中包括待分析实体。
导入模块203,用于从所述全量图中获取与所述待分析文件对应的待分析实体以及从所述全量图中查找出与所述待分析实体相关联的第一实体,并将所述待分析实体以及所述第一实体导入目标数据库。
可选的,备份模块201还用于将所述源数据转化为统一文件格式进行传输;针对所述源数据中各实体的关系、事件,生成关系文件;根据所述关系文件,生成所述全量图。
可选地,备份模块201还用于每隔预设的时间间隔,从数据源中获取增量数据;将所述增量数据转换为所述统一文件格式;将所述增量数据更新至所述全量图中。
可选地,第一实体还包括第一子实体和第二子实体。导入模块203还用于从所述全量图中获取与所述待分析文件对应的待分析实体,生成第一文件,并将所述第一文件导入所述目标数据库;在所述全量图中查找出与所述待分析实体相关联的所述第一子实体,生成第二文件,并将所述第二文件导入所述目标数据库;从所述全量图中获取所述第一子实体,生成第三文件,并将所述第三文件导入所述目标数据库;从所述全量图中查找出与所述第一子实体相关联的所述第二子实体,生成第四文件,并将所述第四文件导入所述目标数据库。
可选地,该数据传输装置200还包括判断模块204。判断模块204用于判断所述目标文件的文件大小是否大于预设阈值;若是,则将所述目标文件拆分,直至拆分后的待导入文件的文件大小小于所述预设阈值。
可选地,导入模块203中目标文件的生成过程以及将所述目标文件导入所述目标数据库的过程并行处理。
可选地,该数据传输装置200还包括监控模块205。监控模块205用于对将所述目标文件导入所述目标数据库的完成进度进行监控。
基于同一发明构思,本申请实施例还提供一种存储介质,其上存储有计算机程序,计算机程序在被运行时执行上述实施例中提供的方法。
该存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
在本申请所提供的实施例中,应该理解到,所揭露装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
另外,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
再者,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。
以上所述仅为本申请的实施例而已,并不用于限制本申请的保护范围,对于本领域的技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。
Claims (9)
1.一种数据传输方法,其特征在于,包括:
根据预设数据格式,对源数据进行全量备份,生成全量图,其中,所述全量图包括所述源数据中各实体的关系、事件;
获取用户上传的待分析文件;
从所述全量图中获取与所述待分析文件对应的待分析实体以及从所述全量图中查找出与所述待分析实体相关联的第一实体,并将所述待分析实体以及所述第一实体导入目标数据库;
其中,所述第一实体包括第一子实体和第二子实体,所述从所述全量图中获取与所述待分析文件对应的待分析实体以及从所述全量图中查找出与所述待分析实体相关联的第一实体,并将所述待分析实体以及所述第一实体导入目标数据库,包括:
从所述全量图中获取与所述待分析文件对应的待分析实体,生成第一文件,并将所述第一文件导入所述目标数据库;
在所述全量图中查找出与所述待分析实体相关联的所述第一子实体,生成第二文件,并将所述第二文件导入所述目标数据库,其中,所述第二文件的名称为所述待分析实体与所述第一子实体之间的实体关系;
从所述全量图中获取所述第一子实体的身份信息,生成第三文件,并将所述第三文件导入所述目标数据库,其中,所述第三文件包括所述第一子实体;
从所述全量图中查找出与所述第一子实体相关联的所述第二子实体,生成第四文件,并将所述第四文件导入所述目标数据库,其中,所述第四文件的名称为所述待分析实体与所述第二子实体之间的实体关系,所述第四文件包括所述第二子实体。
2.根据权利要求1所述的数据传输方法,其特征在于,所述根据预设数据格式,对源数据进行全量备份,生成全量图,包括:
将所述源数据转化为统一文件格式进行传输;
针对所述源数据中各实体的关系、事件,生成关系文件;
根据所述关系文件,生成所述全量图。
3.根据权利要求2所述的数据传输方法,其特征在于,所述方法还包括:
每隔预设的时间间隔,从数据源中获取增量数据;
将所述增量数据转换为所述统一文件格式;
将所述增量数据更新至所述全量图中。
4.根据权利要求1所述的数据传输方法,其特征在于,所述第一文件、所述第二文件、所述第三文件以及所述第四文件为目标文件,在将所述目标文件导入所述目标数据库的过程中,所述方法还包括:
判断所述目标文件的文件大小是否大于预设阈值;
若是,则将所述目标文件拆分,直至拆分后的待导入文件的文件大小小于所述预设阈值。
5.根据权利要求4所述的数据传输方法,其特征在于,所述目标文件的生成过程以及将所述目标文件导入所述目标数据库的过程并行处理。
6.根据权利要求5所述的数据传输方法,其特征在于,在将所述目标文件导入所述目标数据库的过程中,所述方法还包括:
对将所述目标文件导入所述目标数据库的完成进度进行监控。
7.一种数据传输装置,其特征在于,包括:
备份模块,用于根据预设数据格式,对源数据进行全量备份,生成全量图,其中,所述全量图包括所述源数据中各实体的关系、事件;
获取模块,用于获取用户上传的待分析文件;其中,所述待分析文件中包括待分析实体;
导入模块,用于从所述全量图中获取与所述待分析文件对应的待分析实体以及从所述全量图中查找出与所述待分析实体相关联的第一实体,并将所述待分析实体以及所述第一实体导入目标数据库;
所述第一实体包括第一子实体和第二子实体,所述导入模块,具体用于从所述全量图中获取与所述待分析文件对应的待分析实体,生成第一文件,并将所述第一文件导入所述目标数据库;在所述全量图中查找出与所述待分析实体相关联的所述第一子实体,生成第二文件,并将所述第二文件导入所述目标数据库,其中,所述第二文件的名称为所述待分析实体与所述第一子实体之间的实体关系;从所述全量图中获取所述第一子实体的身份信息,生成第三文件,并将所述第三文件导入所述目标数据库,其中,所述第三文件包括所述第一子实体;从所述全量图中查找出与所述第一子实体相关联的所述第二子实体,生成第四文件,并将所述第四文件导入所述目标数据库,其中,所述第四文件的名称为所述待分析实体与所述第二子实体之间的实体关系,所述第四文件包括所述第二子实体。
8.一种电子设备,其特征在于,包括:处理器和存储器,所述处理器和所述存储器连接;
所述存储器用于存储程序;
所述处理器用于运行存储在所述存储器中的程序,执行如权利要求1-6中任一项所述的方法。
9.一种存储介质,其特征在于,其上存储有计算机程序,所述计算机程序在被计算机运行时执行如权利要求1-6中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010008818.3A CN111198916B (zh) | 2020-01-03 | 2020-01-03 | 一种数据传输方法、装置,电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010008818.3A CN111198916B (zh) | 2020-01-03 | 2020-01-03 | 一种数据传输方法、装置,电子设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111198916A CN111198916A (zh) | 2020-05-26 |
CN111198916B true CN111198916B (zh) | 2023-12-08 |
Family
ID=70746802
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010008818.3A Active CN111198916B (zh) | 2020-01-03 | 2020-01-03 | 一种数据传输方法、装置,电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111198916B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114202947B (zh) * | 2021-12-07 | 2023-07-25 | 北京百度网讯科技有限公司 | 车联网数据传输方法、装置及自动驾驶车辆 |
CN114840599B (zh) * | 2022-07-05 | 2022-11-01 | 杭州广立微电子股份有限公司 | 半导体源数据解析方法、etl系统、计算机设备和产品 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073698A (zh) * | 2010-12-28 | 2011-05-25 | 中国工商银行股份有限公司 | 企业级数据仓库系统的样本数据获取方法及装置 |
CN110019616A (zh) * | 2017-12-04 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种poi现势状态获取方法及其设备、存储介质、服务器 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2004047078A2 (en) * | 2002-11-20 | 2004-06-03 | Filesx Ltd. | Fast backup storage and fast recovery of data (fbsrd) |
-
2020
- 2020-01-03 CN CN202010008818.3A patent/CN111198916B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102073698A (zh) * | 2010-12-28 | 2011-05-25 | 中国工商银行股份有限公司 | 企业级数据仓库系统的样本数据获取方法及装置 |
CN110019616A (zh) * | 2017-12-04 | 2019-07-16 | 腾讯科技(深圳)有限公司 | 一种poi现势状态获取方法及其设备、存储介质、服务器 |
Also Published As
Publication number | Publication date |
---|---|
CN111198916A (zh) | 2020-05-26 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112507027B (zh) | 基于Kafka的增量数据同步方法、装置、设备及介质 | |
CN111198916B (zh) | 一种数据传输方法、装置,电子设备及存储介质 | |
CN109885431B (zh) | 用于备份数据的方法和装置 | |
CN113268761B (zh) | 信息加密方法、装置、电子设备和计算机可读介质 | |
CN111880967A (zh) | 云场景下的文件备份方法、装置、介质和电子设备 | |
CN112907377A (zh) | 业务流程监控方法、装置、设备及介质 | |
CN111949850A (zh) | 多源数据的采集方法、装置、设备及存储介质 | |
WO2021068891A1 (en) | Method, system, electronic device, and storage medium for storing and collecting temperature data | |
CN111104259B (zh) | 一种数据库恢复方法、装置及存储介质 | |
CN115330540A (zh) | 一种处理交易数据的方法和装置 | |
CN114896347A (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN111198853B (zh) | 数据处理方法、装置、电子设备及计算机可读存储介质 | |
CN116545905A (zh) | 一种服务健康检测方法、装置、电子设备及存储介质 | |
CN112817687A (zh) | 一种数据同步方法和装置 | |
EP4231221A1 (en) | Transaction processing method and apparatus, medium and electronic device | |
CN114996057A (zh) | 数据备份方法及装置、电子设备和计算机可读存储介质 | |
CN116303427A (zh) | 数据处理方法及装置、电子设备和存储介质 | |
CN110955709B (zh) | 一种数据的处理方法、装置及电子设备 | |
CN115344627A (zh) | 数据筛选方法、装置、电子设备及存储介质 | |
CN113590447A (zh) | 埋点处理方法和装置 | |
CN108920602B (zh) | 用于输出信息的方法和装置 | |
CN112579413B (zh) | 服务器运行记录变更方法、装置、计算机设备和存储介质 | |
CN111107154B (zh) | 数据上报方法与装置 | |
CN116980435A (zh) | 一种车联网数据同步方法、装置、电子设备及存储介质 | |
CN114356067A (zh) | 数据存储方法、装置和电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |