CN112835972B - 非结构化数据的同步方法及系统 - Google Patents
非结构化数据的同步方法及系统 Download PDFInfo
- Publication number
- CN112835972B CN112835972B CN201911154907.2A CN201911154907A CN112835972B CN 112835972 B CN112835972 B CN 112835972B CN 201911154907 A CN201911154907 A CN 201911154907A CN 112835972 B CN112835972 B CN 112835972B
- Authority
- CN
- China
- Prior art keywords
- data
- unstructured
- unstructured data
- record
- data record
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 71
- 239000012634 fragment Substances 0.000 claims abstract description 90
- 238000002955 isolation Methods 0.000 claims abstract description 35
- 238000012546 transfer Methods 0.000 claims description 25
- 230000001360 synchronised effect Effects 0.000 claims description 19
- 238000013467 fragmentation Methods 0.000 claims description 18
- 238000006062 fragmentation reaction Methods 0.000 claims description 18
- 230000006870 function Effects 0.000 description 51
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 239000000284 extract Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种非结构化数据的同步方法及系统,其中方法包括:从非结构化数据列表获取一条非结构化数据;依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录;其中,每条数据记录包含的数据内容小于预设数据量;存储所述非结构化数据的数据记录至数据库服务器,以便基于所述非结构化数据的数据记录对所述非结构化数据执行同步操作。本发明使得一条非结构化数据对应一条或多条数据记录,这样可以使得每条数据记录包含的数据内容较小,从而达到不受SQL逻辑强隔离装置的驱动程序限制和数据库服务器的字段限制的目的。
Description
技术领域
本发明涉及网络技术领域,尤其涉及非结构化数据的同步方法及系统。
背景技术
为了保护网络安全,通常大型网络架构分为内网和外网两个独立地物理网络。对于一个应用系统而言,可以将内部服务部署在内网(也即部署于内网应用服务器),以便内部用户通过内网访问、保证安全性;将公众服务部署在外网(也即部署于外网应用服务器),以便公众用户通过外网访问、保证可用性。
为了保护内网安全性,外网和内网之间通过SQL逻辑强隔离装置进行隔离。SQL逻辑强隔离装置仅允许内网和外网之间通过数据库SQL操作进行通信,不允许其他方式穿透隔离装置,从而保证内网安全性。
在应用系统运行过程中会产生结构化数据和非结构化数据,非结构化数据包括图片、小视频、附件等。通常情况下,内网将内网用户上传的非结构化数据存储于内网文件服务器中,同样的,外网将外网用户上传的非结构化数据存储于外网文件服务器中。
在一些应用场景下,内网应用服务器需要使用外网的非结构化数据,外网应用服务器需要使用内网的非结构化数据。不过在SQL逻辑强隔离装置的隔离下,内网应用服务器无法直接访问外网文件服务器,同样,外网应用服务器无法直接访问内网文件服务器。因此应用系统还具有同步功能,以用于同步内网和外网的非结构化数据。
在目前应用系统的同步功能中,为了保证稳定性通常会限制非结构化数据的大小;在不限制非结构化数据大小情况下同步功能的稳定性较差。因此,目前应用系统的同步功能有待改善。
发明内容
发明人在研究过程中发现,应用系统的同步功能包括两个过程:
第一过程:内网应用服务器构建非结构化数据对应的数据记录,一条非结构化数据对应一条数据记录,并上传各个数据记录到数据库服务器。外网应用服务器通过SQL逻辑强隔离装置到数据库服务器中提取数据记录,并存储到外网文件服务器。
第二过程:外网应用服务器建非结构化数据对应的数据记录,一条非结构化数据对应一条数据记录,并通过SQL逻辑强隔离装置上传各个数据记录到数据库服务器。内网应用服务器到数据库服务器中提取数据记录,并存储到内网文件服务器。
在第一过程和第二过程中,每条数据记录包括二进制大对象字段(BLOB字段),在一个BLOB字段中存储有一条非结构化数据的整体数据内容。由于非结构化数据的数据量通常较大,对应的数据记录的数据量也较大。
由于在同步功能中内网和外网之间的同步操作需要经过SQL逻辑强隔离装置,且,数据记录需存储于数据库服务器中,因此,SQL逻辑强隔离装置的驱动程序限制和数据库服务器的字段限制对同步功能具有一定影响。
通常情况下,在应用系统的同步功能中,当一条数据记录中非结构化数据的数据量大于20M,同步功能很大程度会出现不稳定情况,即可能出现外网无法从内网读取数据记录的情况,或者,外网无法向内网写入数据记录的情况。
因此目前应用系统中,内网和外网之间的同步功能会限制非结构化数据的大小,这导致同步功能的适用范围具有局限性;在不限制非结构化数据的大小的情况下,同步功能的稳定性较差。
鉴于此,本发明提供非结构化数据的同步方法及系统,可以在不限制非结构化数据的大小的情况下,依然保证同步功能的稳定性。
为了实现上述目的,本申请提供了下述技术特征:
一种非结构化数据的同步方法,包括:
从非结构化数据列表获取一条非结构化数据;
依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录;其中,每条数据记录包含的数据内容小于预设数据量;
存储所述非结构化数据的数据记录至数据库服务器,以便基于所述非结构化数据的数据记录对所述非结构化数据执行同步操作。
可选的,所述依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录,包括:
若所述非结构化数据的数据量大于预设数据量,则切分所述非结构化数据为多个分片且每个分片的数据量不大于所述预设数据量,构建与所述多个分片一一对应的多条数据记录,且,每条数据记录保存对应分片的分片数据内容;
若所述非结构化数据的数据量不大于预设数据量,则构建所述非结构化数据的一条数据记录,所述数据记录保存所述非结构化数据的整体数据内容。
可选的,数据记录包括:
非结构化数据标识字段,用于表示非结构化数据的唯一性标识;
分片标识位字段,用于表示非结构化数据是否进行分片;
分片索引字段,用于在非结构化数据已分片的情况下表示某个分片的索引,或,在非结构化数据未分片的情况下表示整体数据的索引;
数据内容字段,用于在非结构化数据已分片的情况下保存某个分片的分片数据内容,或,在非结构化数据未分片的情况下保存整体数据内容;
文件全路径名称字段,用于表示非结构化数据的全路径。
可选的,所述存储所述非结构化数据的数据记录至数据库服务器包括:
在内网向外网执行同步功能的情况下,内网应用服务器中的内网上传应用、存储所述非结构化数据的数据记录至数据库服务器中的内转外中转表;
在外网向内网执行同步功能的情况下,外网应用服务器中的外网上传应用通过SQL逻辑强隔离装置、存储所述非结构化数据的数据记录至数据库服务器的外转内中转表。
一种非结构化数据的同步方法,包括:
从数据库服务器中获取一条数据记录;其中数据记录包含的数据内容小于预设数据量,所述数据记录包括非结构化数据标识字段和分片标识位字段;
依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录;
存储所有数据记录的数据内容至本地的文件服务器。
可选的,所述从数据库服务器中获取一条数据记录包括:
在内网向外网执行同步功能的情况下,外网应用服务器中的外网下载应用通过SQL逻辑强隔离装置、从数据库服务器的内转外中转表中获取一条数据记录;
在外网向内网执行同步功能的情况下,内网应用服务器的内网下载应用、从数据库服务器的外转内中转表中获取一条数据记录。
可选的,所述依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录,包括:
若所述数据记录中分片标识位字段指示已分片,则确定所述数据记录为本条非结构化数据中某一分片对应的数据记录,从所述中转表中获取包含非结构化数据标识的其余分片的数据记录,获得本条非结构化数据的所有分片的数据记录;
若所述数据记录中分片标识位字段指示未分片,则确定所述数据记录为本条非结构化数据对应的数据记录。
可选的,所述数据记录还包括分片索引字段和文件全路径名称字段;
则存储所有数据记录的数据内容至本地的文件服务器包括:
若所述数据记录中分片标识位字段指示已分片的情况下,创建以文件全路径名称为文件名称的文件夹,按分片索引字段中的索引、对所述所有分片的数据记录进行排序,按排列顺序存储各个分片数据记录中分片数据至本地的文件服务器;
若所述数据记录中分片标识位字段指示未分片的情况下,创建以文件全路径名称为文件名称的文件夹,存储所述数据记录中的整体数据内容至本地的文件服务器。
一种非结构化数据的同步系统,包括:
第一应用服务器、数据库服务器和第二应用服务器;
第一应用服务器,用于从非结构化数据列表获取一条非结构化数据;依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录,每条数据记录包含的数据内容小于预设数据量;存储所述非结构化数据的数据记录至数据库服务器;
第二应用服务器,用于从数据库服务器中获取一条数据记录;其中所述数据记录包括非结构化数据标识字段和分片标识位字段;依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录;存储所有数据记录的数据内容至本地的文件服务器。
可选的,在内网向外网执行同步功能的情况下,第一应用服务器为内网应用服务器,第二应用服务器外网应用服务器;
其中,内网应用服务器中的内网上传应用,用于从非结构化数据列表获取一条非结构化数据;依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录;存储所述非结构化数据的数据记录至数据库服务器;
外网应用服务器中的外网下载应用,用于从数据库服务器中获取一条数据记录;其中所述数据记录包括非结构化数据标识字段和分片标识位字段;依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录;存储所有数据记录的数据内容至外网文件服务器;
在外网向内网执行同步功能的情况下,第一应用服务器为外网应用服务器,第二应用服务器内网应用服务器;
其中,外网应用服务器中的外网上传应用,用于从非结构化数据列表获取一条非结构化数据;依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录;存储所述非结构化数据的数据记录至数据库服务器;
内网应用服务器中的内网下载应用,用于从数据库服务器中获取一条数据记录;其中所述数据记录包括非结构化数据标识字段和分片标识位字段;依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录;存储所有数据记录的数据内容至内网文件服务器。
通过上述技术特征,可知本发明具有以下有益效果:
本发明根据一条非结构化数据的大小对非结构化数据执行分片操作,若一条非结构化数据较大,则切分为较多分片,若一条非结构化数据较小,则切分为较少分片或者不切分,也即依据非结构化数据的数据量确定非结构化数据的分片数量。然后,构建与分片数量一致的数据记录,使得每条数据记录包含的数据内容小于预设数据量。
若每条数据记录包含的数据内容小于预设数据量,则可以使得数据记录在同步功能中不受SQL逻辑强隔离装置的驱动程序限制和数据库服务器的字段限制的影响。
本发明针对目前一条非结构化数据对应一条数据记录进行改善,使得一条非结构化数据对应一条或多条数据记录,这样可以使得每条数据记录包含的数据内容较小,从而达到不受SQL逻辑强隔离装置的驱动程序限制和数据库服务器的字段限制的目的。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例公开的一种非结构化数据的同步系统的结构示意图;
图2为本发明实施例公开的一种非结构化数据的同步方法实施例一的流程图;
图3为本发明实施例公开的一种非结构化数据的同步方法实施例二的流程图;
图4为本发明实施例公开的一种非结构化数据的同步方法实施例三的流程图;
图5为本发明实施例公开的一种非结构化数据的同步方法实施例四的流程图;
图6为本发明实施例公开的一种非结构化数据的同步方法中的时序图;
图7为本发明实施例公开的又一种非结构化数据的同步方法中的时序图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
参见图1,本发明提供一种非结构化数据的同步系统,包括:
内网架构100和外网架构200,内网架构100和外网架构200之间设置有SQL逻辑强隔离装置300。
内网架构100包括内网应用服务器101、与内网应用服务器101相连的内网文件服务器102和数据库服务器103。
外网架构200包括外网应用服务器201、与外网应用服务器201相连的外网文件服务器202。
可以理解的是,应用系统的同步功能为两个过程,第一过程:内网向外网执行同步功能;第一过程:外网向内网执行同步功能。下面分别对两个过程进行详细描述。两个过程中同步功能的技术思路是一致的。
本发明提供了一种非结构化数据的同步方法的实施例一,介绍同步功能中上传非结构化数据的过程。参见图2,可以包括以下步骤:
在第一过程的内网向外网执行同步功能的情况下,本实施例一应用于内网应用服务器中的内网上传应用,在第二过程的外网向内网执行同步功能的情况下,本实施例一应用于外网应用服务器中的外网上传应用。
步骤S201:从非结构化数据列表获取一条非结构化数据。
可选的,在第一过程的内网向外网执行同步功能情况下,非结构化数据列表为第一非结构化数据列表,第一非结构化数据列表用于存储内网中待同步到外网的非结构化数据的标识和文件全路径名称。
在第二过程的外网向内网执行同步功能情况下,非结构化数据列表为第二非结构化数据列表,第二非结构化数据列表用于存储外网中待同步到内网的非结构化数据的标识和文件全路径名称。
步骤S202:依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录;其中,每条数据记录包含的数据内容小于预设数据量。
根据本发明提供的一个实施例,本步骤可以采用以下方式实现:
步骤S2021:判断非结构化数据的数据量大于预设数据量,若是则进入步骤S2022,若否则进入步骤S2024。
其中,预设数据量为预先根据SQL逻辑强隔离装置的驱动程序限制和数据库服务器的字段限制所设置的数据量。
判断非结构化数据的数据量是否大于预设数据量,若大于则表示非结构化数据的数据量较大,若构建一条数据记录会可能出现不稳定问题,因此进入步骤S2022;若不大于则表示非结构化数据的数据量不大,直接进入步骤S2024。
步骤S2022:若所述非结构化数据的数据量大于预设数据量,则切分所述非结构化数据为多个分片且每个分片的数据量不大于所述预设数据量。
若非结构化数据的数据量大于预设数据量,则表示非结构化数据的数据量较大,若构建一条数据记录(也即一条数据记录中包含非结构化数据的整体数据内容)可能导致同步功能出现不稳定问题,为此,对非结构化数据执行分片操作。
也即,切分非结构化数据为多个分片,并且,保证每个分片的数据量不大于预设数据量。
可选的,可以按照预设数据量来切分非结构化数据,使得大部分分片的数据量等于预设数据量,以获得最少分片数量。还可以采用小于预设数据量一个数据量来切分非结构化数据,获得多个分片。当然,还可以按照其它方式来切分非结构化数据,在此不再赘述。
步骤S2023:构建与所述多个分片一一对应的多条数据记录,且,每条数据记录保存对应分片的分片数据内容。
下面介绍为一条数据记录的关键字段:
非结构化数据标识字段,用于表示非结构化数据的唯一性标识。
分片标识位字段,用于表示非结构化数据是否进行分片。
分片索引字段,用于在非结构化数据已分片的情况下表示某个分片的索引,或,在非结构化数据未分片的情况下表示整体数据的索引。
数据内容字段,通常称为BLOB字段,用于在非结构化数据已分片的情况下保存某个分片的分片数据内容,或,在非结构化数据未分片的情况下保存整体数据内容;
文件全路径名称字段,用于表示非结构化数据的全路径。
例如,以非结构化数据切分为3个分片为例,则每个分片的数据记录如下表所示:
第一分片对应的数据记录如下表1所示:
字段名称 | 字段值 |
非结构化数据标识 | 11111 |
分片标识位 | 已分片 |
分片索引 | 0 |
数据内容 | 1010100……(二进制数据内容) |
文件全路径名称 | C:\Documents and Settings\11111 |
第二分片对应的数据记录如下表2所示:
字段名称 | 字段值 |
非结构化数据标识 | 11111 |
分片标识位 | 已分片 |
分片索引 | 1 |
数据内容 | 1010100……(二进制数据内容) |
文件全路径名称 | C:\Documents and Settings\11111 |
第三分片对应的数据记录如下表3所示:
字段名称 | 字段值 |
非结构化数据标识 | 11111 |
分片标识位 | 已分片 |
分片索引 | 2 |
数据内容 | 1010100……(二进制数据内容) |
文件全路径名称 | C:\Documents and Settings\11111 |
参见上述三个表格,三个分片的分片索引字段值依次递增。
步骤S2024:若所述非结构化数据的数据量不大于预设数据量,则构建所述非结构化数据的一条数据记录,所述数据记录保存所述非结构化数据的整体数据内容。
若非结构化数据的数据量不大于预设数据量,则表示非结构化数据的数据量较小,直接构建一条数据记录即可(也即一条数据记录中包含非结构化数据的整体数据内容)。
则非结构化数据对应的数据记录如下表4所示:
字段名称 | 字段值 |
非结构化数据标识 | 11111 |
分片标识位 | 未分片 |
分片索引 | 0 |
数据内容 | 1010100……(二进制数据内容) |
文件全路径名称 | C:\Documents and Settings\11111 |
通过步骤S202可知,在一条非结构化数据的数据量不大于预设数据量的情况下,便不会出现因为受到SQL逻辑强隔离装置的驱动程序限制和数据库服务器的字段限制所导致的稳定性变差的问题,因此采用一条数据记录即可。
若一条非结构化数据的数据量大于预设数据量的情况下,为了避免出现不稳定的情况,切分非结构化数据为多个分片,以使得每个分片的数据量不大于预设数据量,从而不会出现因为受到SQL逻辑强隔离装置的驱动程序限制和数据库服务器的字段限制所导致的稳定性变差的问题,因此采用多条数据记录。
步骤S203:存储所述非结构化数据的数据记录至数据库服务器,以便基于所述非结构化数据的数据记录对所述非结构化数据执行同步操作。
在第一过程的内网向外网执行同步功能的情况下,内网应用服务器中的内网上传应用、存储所述非结构化数据的数据记录至数据库服务器中的内转外中转表。
在第二过程的外网向内网执行同步功能的情况下,外网应用服务器中的外网上传应用通过SQL逻辑强隔离装置、存储所述非结构化数据的数据记录至数据库服务器的外转内中转表。
通过上述技术特征,可知本发明具有以下有益效果:
本发明根据一条非结构化数据的大小对非结构化数据执行分片操作,若一条非结构化数据较大,则切分为较多分片,若一条非结构化数据较小,则切分为较少分片或者不切分,也即依据非结构化数据的数据量确定非结构化数据的分片数量。然后,构建与分片数量一致的数据记录,使得每条数据记录包含的数据内容小于预设数据量。
若每条数据记录包含的数据内容小于预设数据量,则可以使得数据记录在同步功能中不受SQL逻辑强隔离装置的驱动程序限制和数据库服务器的字段限制的影响。
本发明针对目前一条非结构化数据对应一条数据记录进行改善,使得一条非结构化数据对应一条或多条数据记录,这样可以使得每条数据记录包含的数据内容较小,从而达到不受SQL逻辑强隔离装置的驱动程序限制和数据库服务器的字段限制的目的。
本发明提供了一种非结构化数据的同步方法的实施例二,介绍同步功能中下载非结构化数据的过程。参见图3,可以包括以下步骤:
在第一过程的内网向外网执行同步功能的情况下,本实施例二应用于外网应用服务器中的外网下载应用,在第二过程的外网向内网执行同步功能的情况下,本实施例二应用于内网应用服务器中的内网下载应用。
步骤S301:从数据库服务器中获取一条数据记录;其中数据记录包含的数据内容小于预设数据量,所述数据记录包括非结构化数据标识字段和分片标识位字段。
在第一过程的内网向外网执行同步功能的情况下,外网应用服务器中的外网下载应用通过SQL逻辑强隔离装置、从数据库服务器的内转外中转表中获取一条数据记录。
在第二过程的外网向内网执行同步功能的情况下,内网应用服务器的内网下载应用、从数据库服务器的外转内中转表中获取一条数据记录。
数据记录可以详见表1-表4所示的表格。
步骤S302:依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录。
由于有的数据记录中包含非结构化数据的整体数据内容,有的包含非结构化数据某个分片的分片数据内容,因此需要判断并获取本条非结构化数据的所有数据记录。
可选的,本步骤可以采用下述方式实现:
若所述数据记录中分片标识位字段指示已分片,则确定所述数据记录为本条非结构化数据中某一分片对应的数据记录,从所述中转表中获取包含非结构化数据标识的其余分片的数据记录,获得本条非结构化数据的所有分片的数据记录。
若所述数据记录中分片标识位字段指示未分片,则确定所述数据记录为本条非结构化数据对应的数据记录。
步骤S303:存储所有数据记录的数据内容至本地的文件服务器。
所述数据记录还包括分片索引字段和文件全路径名称字段;可选的,本步骤可以采用下述方式实现:
若所述数据记录中分片标识位字段指示已分片的情况下,创建以文件全路径名称为文件名称的文件夹,按分片索引字段中的索引、对所述所有分片的数据记录进行排序,按排列顺序存储各个分片数据记录中分片数据至本地的文件服务器。
例如,以表1-表3为例,可以在本地的文件服务器创建文件名称为“C:\Documentsand Settings\11111”的文件,获取三条数据记录并分别从BLOB字段中提取分片数据内容,然后按照索引字段的字段值0、1和2的排列顺序存储三个分片数据内容至文件中。
若所述数据记录中分片标识位字段指示未分片的情况下,创建以文件全路径名称为文件名称的文件夹,存储所述数据记录中的整体数据内容至本地的文件服务器。
例如,以表4为例,可以在本地的文件服务器创建文件名称为“C:\Documents andSettings\11111”的文件,获取该数据记录并从BLOB字段中获取整体数据内容,然后存储的整体数据内容至文件中。
通过上述技术特征,可知本发明具有以下有益效果:
本发明根据一条非结构化数据的大小对非结构化数据执行分片操作,若一条非结构化数据较大,则切分为较多分片,若一条非结构化数据较小,则切分为较少分片或者不切分,也即依据非结构化数据的数据量确定非结构化数据的分片数量。然后,构建与分片数量一致的数据记录,使得每条数据记录包含的数据内容小于预设数据量。
若每条数据记录包含的数据内容小于预设数据量,则可以使得数据记录在同步功能中不受SQL逻辑强隔离装置的驱动程序限制和数据库服务器的字段限制的影响。
本发明针对目前一条非结构化数据对应一条数据记录进行改善,使得一条非结构化数据对应一条或多条数据记录,这样可以使得每条数据记录包含的数据内容较小,从而达到不受SQL逻辑强隔离装置的驱动程序限制和数据库服务器的字段限制的目的。
为了便于实现本发明的内容,内网应用服务器中设置有内网上传应用和内网下载应用,同样,外网应用服务器中设置有外网上传应用和外网下载应用。
在第一过程的内网向外网执行同步功能中,使用内网上传应用上传数据记录至数据库服务器,和,外网下载应用从数据库服务器下载数据记录到外网文件服务器。
在第二过程的外网向内网执行同步功能中,使用外网上传应用上传数据记录至数据库服务器,和,内网下载应用从数据库服务器下载数据记录到内网文件服务器。
本发明提供了一种非结构化数据的同步方法的实施例三,用于详细介绍第一过程的内网向外网执行同步功能的整体过程。参见图4,包括以下步骤:
步骤S401:内网上传应用读取预先配置的预设数据量。
内网应用服务器中预先配置有分片参数,也即预设数据量。预设数据量可以根据实际数据库服务器的配置和SQL逻辑强隔离装置的驱动程序进行配置,缺省情况下可以为5M。
步骤S402:内网上传应用从第一非结构化数据列表中获取一条非结构化数据。
内网应用服务器会不断监测内网文件服务器中的非结构化数据是否更新,如有更新,则将更新的非结构化数据标识和文件全路径名称,添加至第一非结构化数据列表。
因此,内网上传应用可以从第一非结构化数据列表中获取一条非结构化数据,并根据文件全路径名称从外网文件服务器中获取非结构化数据,以用于执行内网到外网的同步功能。
步骤S403:内网上传应用依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录;其中,每条数据记录包含的数据内容小于预设数据量。
步骤S403的详细内容可以参见步骤S202的执行过程,在此不再赘述。
步骤S404:内网上传应用存储所述非结构化数据的数据记录至数据库服务器中的内转外中转表。
步骤S405:外网下载应用通过SQL强隔离装置、从数据库服务器中的内转外中转表获取一条数据记录。
步骤S406:外网下载应用依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录。
步骤S406的具体过程可以参见步骤S302的具体过程,在此不再赘述。
步骤S407:存储所有数据记录的数据内容至外网文件服务器。
可选的,在一条非结构化数据处理完毕后,可以删除第一非结构化数据列表中该非结构化数据的记录,以及,删除内转外中转表中该非结构化数据的数据记录。
本发明提供了一种非结构化数据的同步方法的实施例四,用于详细介绍第二过程的外网向内网执行同步功能的整体过程。参见图5,包括以下步骤:
步骤501:外网上传应用读取预先配置的预设数据量。
外网应用服务器中预先配置有分片参数,也即预设数据量。预设数据量可以根据实际数据库服务器的配置和SQL逻辑强隔离装置的驱动程序进行配置,缺省情况下可以为5M。
需要指出的是,外网和内网中预设数据量是一致的。
步骤S502:外网上传应用从第二非结构化数据列表中获取一条非结构化数据。
外网应用服务器会不断监测外网文件服务器中的非结构化数据是否更新,如有更新,则将更新的非结构化数据标识和文件全路径名称,添加至第二非结构化数据列表。
因此,外网上传应用可以从第二非结构化数据列表中获取一条非结构化数据,并根据文件全路径名称从外网文件服务器中获取非结构化数据,以用于执行内网到外网的同步功能。
步骤S503:外网上传应用依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录;其中,每条数据记录包含的数据内容小于预设数据量。
步骤S503的详细内容可以参见步骤S202的执行过程,在此不再赘述。
步骤S504:外网上传应用通过SQL强隔离装置、存储所述非结构化数据的数据记录至数据库服务器中的外转内中转表。
步骤S505:内网下载应用从数据库服务器中的外转内中转表获取一条数据记录。
步骤S506:内网下载应用依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录。
步骤S506的具体过程可以参见步骤S302的具体过程,在此不再赘述。
步骤S507:存储所有数据记录的数据内容至内网文件服务器。
可选的,在一条非结构化数据处理完毕后,可以删除第二非结构化数据列表中该非结构化数据的记录,以及,删除外转内中转表中该非结构化数据的数据记录。
在实施例三和实施例四的同步功能中,需要按照时序严格执行,否则会出现不同步问题。由于同步功能是分别由内网程序和外网程序配合完成的,所以内网程序和外网程序的启动时序,是通过岔开启动时间并限制一个程序运行时间来达到目标的。参见图6为内网向外网执行同步功能的时序图,参见图7为外网向内网执行同步功能的时序图。
本发明还提供了一种非结构化数据的同步系统,包括:
第一应用服务器、数据库服务器和第二应用服务器;
第一应用服务器,用于从非结构化数据列表获取一条非结构化数据;依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录,每条数据记录包含的数据内容小于预设数据量;存储所述非结构化数据的数据记录至数据库服务器;
第二应用服务器,用于从数据库服务器中获取一条数据记录;其中所述数据记录包括非结构化数据标识字段和分片标识位字段;依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录;存储所有数据记录的数据内容至本地的文件服务器。
在内网向外网执行同步功能的情况下,第一应用服务器为内网应用服务器,第二应用服务器外网应用服务器;
其中,内网应用服务器中的内网上传应用,用于从非结构化数据列表获取一条非结构化数据;依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录;存储所述非结构化数据的数据记录至数据库服务器;
外网应用服务器中的外网下载应用,用于从数据库服务器中获取一条数据记录;其中所述数据记录包括非结构化数据标识字段和分片标识位字段;依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录;存储所有数据记录的数据内容至外网文件服务器;
在外网向内网执行同步功能的情况下,第一应用服务器为外网应用服务器,第二应用服务器内网应用服务器;
其中,外网应用服务器中的外网上传应用,用于从非结构化数据列表获取一条非结构化数据;依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录;存储所述非结构化数据的数据记录至数据库服务器;
内网应用服务器中的内网下载应用,用于从数据库服务器中获取一条数据记录;其中所述数据记录包括非结构化数据标识字段和分片标识位字段;依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录;存储所有数据记录的数据内容至内网文件服务器。
本实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本发明实施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
Claims (8)
1.一种非结构化数据的同步方法,其特征在于,包括:
从非结构化数据列表获取一条非结构化数据;
依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录;其中,每条数据记录包含的数据内容小于预设数据量;所述预设数据量为预先根据SQL逻辑强隔离装置的驱动程序限制和数据库服务器的字段限制所设置的数据量;
存储所述非结构化数据的数据记录至所述数据库服务器,以便基于所述非结构化数据的数据记录对所述非结构化数据执行同步操作;
所述存储所述非结构化数据的数据记录至所述数据库服务器,包括在内网向外网执行同步功能的情况下,内网应用服务器中的内网上传应用、存储所述非结构化数据的数据记录至数据库服务器中的内转外中转表;在外网向内网执行同步功能的情况下,外网应用服务器中的外网上传应用通过所述SQL逻辑强隔离装置、存储所述非结构化数据的数据记录至所述数据库服务器的外转内中转表。
2.如权利要求1所述的方法,其特征在于,所述依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录,包括:
若所述非结构化数据的数据量大于预设数据量,则切分所述非结构化数据为多个分片且每个分片的数据量不大于所述预设数据量,构建与所述多个分片一一对应的多条数据记录,且,每条数据记录保存对应分片的分片数据内容;
若所述非结构化数据的数据量不大于预设数据量,则构建所述非结构化数据的一条数据记录,所述数据记录保存所述非结构化数据的整体数据内容。
3.如权利要求2所述的方法,其特征在于,数据记录包括:
非结构化数据标识字段,用于表示非结构化数据的唯一性标识;
分片标识位字段,用于表示非结构化数据是否进行分片;
分片索引字段,用于在非结构化数据已分片的情况下表示某个分片的索引,或,在非结构化数据未分片的情况下表示整体数据的索引;
数据内容字段,用于在非结构化数据已分片的情况下保存某个分片的分片数据内容,或,在非结构化数据未分片的情况下保存整体数据内容;
文件全路径名称字段,用于表示非结构化数据的全路径。
4.一种非结构化数据的同步方法,其特征在于,包括:
从数据库服务器中获取一条数据记录;其中数据记录包含的数据内容小于预设数据量,所述数据记录包括非结构化数据标识字段和分片标识位字段;所述预设数据量为预先根据SQL逻辑强隔离装置的驱动程序限制和所述数据库服务器的字段限制所设置的数据量;
依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录;
存储所有数据记录的数据内容至本地的文件服务器;
所述从数据库服务器中获取一条数据记录包括:
在内网向外网执行同步功能的情况下,外网应用服务器中的外网下载应用通过所述SQL逻辑强隔离装置、从数据库服务器的内转外中转表中获取一条数据记录;
在外网向内网执行同步功能的情况下,内网应用服务器的内网下载应用、从所述数据库服务器的外转内中转表中获取一条数据记录。
5.如权利要求4所述的方法,其特征在于,所述依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录,包括:
若所述数据记录中分片标识位字段指示已分片,则确定所述数据记录为本条非结构化数据中某一分片对应的数据记录,从所述中转表中获取包含非结构化数据标识的其余分片的数据记录,获得本条非结构化数据的所有分片的数据记录;
若所述数据记录中分片标识位字段指示未分片,则确定所述数据记录为本条非结构化数据对应的数据记录。
6.如权利要求5所述的方法,其特征在于,所述数据记录还包括分片索引字段和文件全路径名称字段;
则存储所有数据记录的数据内容至本地的文件服务器包括:
若所述数据记录中分片标识位字段指示已分片的情况下,创建以文件全路径名称为文件名称的文件夹,按分片索引字段中的索引、对所述所有分片的数据记录进行排序,按排列顺序存储各个分片数据记录中分片数据至本地的文件服务器;
若所述数据记录中分片标识位字段指示未分片的情况下,创建以文件全路径名称为文件名称的文件夹,存储所述数据记录中的整体数据内容至本地的文件服务器。
7.一种非结构化数据的同步系统,其特征在于,包括:
第一应用服务器、数据库服务器和第二应用服务器;
第一应用服务器,用于从非结构化数据列表获取一条非结构化数据;依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录,每条数据记录包含的数据内容小于预设数据量;所述预设数据量为预先根据SQL逻辑强隔离装置的驱动程序限制和数据库服务器的字段限制所设置的数据量;存储所述非结构化数据的数据记录至所述数据库服务器;所述存储所述非结构化数据的数据记录至所述数据库服务器,包括在内网向外网执行同步功能的情况下,内网应用服务器中的内网上传应用、存储所述非结构化数据的数据记录至数据库服务器中的内转外中转表;在外网向内网执行同步功能的情况下,外网应用服务器中的外网上传应用通过所述SQL逻辑强隔离装置、存储所述非结构化数据的数据记录至所述数据库服务器的外转内中转表;
第二应用服务器,用于从数据库服务器中获取一条数据记录;其中所述数据记录包括非结构化数据标识字段和分片标识位字段;依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录;存储所有数据记录的数据内容至本地的文件服务器;所述从数据库服务器中获取一条数据记录包括:在内网向外网执行同步功能的情况下,外网应用服务器中的外网下载应用通过所述SQL逻辑强隔离装置、从数据库服务器的内转外中转表中获取一条数据记录;在外网向内网执行同步功能的情况下,内网应用服务器的内网下载应用、从所述数据库服务器的外转内中转表中获取一条数据记录。
8.如权利要求7所述的系统,其特征在于,
在内网向外网执行同步功能的情况下,第一应用服务器为内网应用服务器,第二应用服务器外网应用服务器;
其中,内网应用服务器中的内网上传应用,用于从非结构化数据列表获取一条非结构化数据;依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录;存储所述非结构化数据的数据记录至数据库服务器;
外网应用服务器中的外网下载应用,用于从数据库服务器中获取一条数据记录;其中所述数据记录包括非结构化数据标识字段和分片标识位字段;依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录;存储所有数据记录的数据内容至外网文件服务器;
在外网向内网执行同步功能的情况下,第一应用服务器为外网应用服务器,第二应用服务器内网应用服务器;
其中,外网应用服务器中的外网上传应用,用于从非结构化数据列表获取一条非结构化数据;依据非结构化数据的数据量匹配所述非结构化数据的分片数量,构建与分片数量一致的数据记录;存储所述非结构化数据的数据记录至数据库服务器;
内网应用服务器中的内网下载应用,用于从数据库服务器中获取一条数据记录;其中所述数据记录包括非结构化数据标识字段和分片标识位字段;依据所述非结构化数据标识字段和所述分片标识位字段,确定本条非结构化数据的所有数据记录;存储所有数据记录的数据内容至内网文件服务器。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911154907.2A CN112835972B (zh) | 2019-11-22 | 2019-11-22 | 非结构化数据的同步方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911154907.2A CN112835972B (zh) | 2019-11-22 | 2019-11-22 | 非结构化数据的同步方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112835972A CN112835972A (zh) | 2021-05-25 |
CN112835972B true CN112835972B (zh) | 2024-04-16 |
Family
ID=75921507
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911154907.2A Active CN112835972B (zh) | 2019-11-22 | 2019-11-22 | 非结构化数据的同步方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112835972B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113326318A (zh) * | 2021-05-28 | 2021-08-31 | 广州市炬元互联网科技有限公司 | 一种双系统间数据同步的方法与系统 |
CN113495928B (zh) * | 2021-09-08 | 2021-11-09 | 云账户技术(天津)有限公司 | 数据一致性校验方法、装置、电子设备和可读存储介质 |
CN116910310B (zh) * | 2023-06-16 | 2024-02-13 | 广东电网有限责任公司佛山供电局 | 一种基于分布式数据库的非结构化数据存储方法及装置 |
CN117520285A (zh) * | 2023-11-07 | 2024-02-06 | 湖北华中电力科技开发有限责任公司 | 一种基于内外网隔离装置的非结构化对象存储数据同步方法 |
Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010124568A1 (zh) * | 2009-04-30 | 2010-11-04 | 中兴通讯股份有限公司 | 一种iptv点播系统及方法 |
CN103338190A (zh) * | 2013-06-13 | 2013-10-02 | 国家电网公司 | 基于用户行为可信的非结构化数据安全交换方法 |
CN105007308A (zh) * | 2015-06-24 | 2015-10-28 | 国家电网公司 | 一种数据库隔离装置环境下的文件传输方法 |
CN105721526A (zh) * | 2014-12-04 | 2016-06-29 | 清华大学 | 一种终端、服务器文件同步的方法及装置 |
CN106055697A (zh) * | 2016-06-15 | 2016-10-26 | 安徽天枢信息科技有限公司 | 一种非结构化事件日志数据的划分和存储的方法与装置 |
CN106227822A (zh) * | 2016-07-22 | 2016-12-14 | 深圳市中润四方信息技术有限公司 | 一种数据分发方法及数据同步系统 |
CN107103529A (zh) * | 2016-02-23 | 2017-08-29 | 陈馨媛 | 基于soa框架的银行档案管理系统 |
CN108881158A (zh) * | 2018-05-04 | 2018-11-23 | 北京明朝万达科技股份有限公司 | 数据交互系统和方法 |
CN110032548A (zh) * | 2019-04-18 | 2019-07-19 | 中国南方电网有限责任公司 | 电力通信网监控平台非结构化数据分布式管理方法及系统 |
CN110297812A (zh) * | 2019-06-13 | 2019-10-01 | 深圳市比比赞科技有限公司 | 文件存储方法、文件同步的方法、计算机设备及存储介质 |
CN110347651A (zh) * | 2019-06-11 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于云存储的数据同步方法、装置、设备及存储介质 |
-
2019
- 2019-11-22 CN CN201911154907.2A patent/CN112835972B/zh active Active
Patent Citations (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2010124568A1 (zh) * | 2009-04-30 | 2010-11-04 | 中兴通讯股份有限公司 | 一种iptv点播系统及方法 |
CN103338190A (zh) * | 2013-06-13 | 2013-10-02 | 国家电网公司 | 基于用户行为可信的非结构化数据安全交换方法 |
CN105721526A (zh) * | 2014-12-04 | 2016-06-29 | 清华大学 | 一种终端、服务器文件同步的方法及装置 |
CN105007308A (zh) * | 2015-06-24 | 2015-10-28 | 国家电网公司 | 一种数据库隔离装置环境下的文件传输方法 |
CN107103529A (zh) * | 2016-02-23 | 2017-08-29 | 陈馨媛 | 基于soa框架的银行档案管理系统 |
CN106055697A (zh) * | 2016-06-15 | 2016-10-26 | 安徽天枢信息科技有限公司 | 一种非结构化事件日志数据的划分和存储的方法与装置 |
CN106227822A (zh) * | 2016-07-22 | 2016-12-14 | 深圳市中润四方信息技术有限公司 | 一种数据分发方法及数据同步系统 |
CN108881158A (zh) * | 2018-05-04 | 2018-11-23 | 北京明朝万达科技股份有限公司 | 数据交互系统和方法 |
CN110032548A (zh) * | 2019-04-18 | 2019-07-19 | 中国南方电网有限责任公司 | 电力通信网监控平台非结构化数据分布式管理方法及系统 |
CN110347651A (zh) * | 2019-06-11 | 2019-10-18 | 平安科技(深圳)有限公司 | 基于云存储的数据同步方法、装置、设备及存储介质 |
CN110297812A (zh) * | 2019-06-13 | 2019-10-01 | 深圳市比比赞科技有限公司 | 文件存储方法、文件同步的方法、计算机设备及存储介质 |
Non-Patent Citations (2)
Title |
---|
NoSQL Distributed Big Data Storage Technology and Application Based on Cloud Platform;Zheng-Wu Lu et al.;《Proceedings of the 2017 7th International Conference on Advanced Design and Manufacturing Engineering (ICADME 2017)》;20171231;334-340 * |
基于云存储的云同步系统的设计与实现;张莲;《中国优秀硕士学位论文全文数据库 信息科技辑》;20141015;I137-29 * |
Also Published As
Publication number | Publication date |
---|---|
CN112835972A (zh) | 2021-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112835972B (zh) | 非结构化数据的同步方法及系统 | |
EP3125501B1 (en) | File synchronization method, server, and terminal | |
US9081838B2 (en) | Methods, apparatuses, and computer program products for database record recovery | |
US20130073516A1 (en) | Extracting Incremental Data | |
US20130067237A1 (en) | Providing random access to archives with block maps | |
WO2015117426A1 (zh) | 文件管理方法及装置 | |
CN109669925B (zh) | 非结构化数据的管理方法及装置 | |
WO2013163813A1 (zh) | 重复数据删除方法及装置 | |
CN108572789B (zh) | 磁盘存储方法和装置、消息推送方法和装置及电子设备 | |
US9558272B2 (en) | Method of and a system for matching audio tracks using chromaprints with a fast candidate selection routine | |
EP3079385A1 (en) | System information processing method, apparatus and communication system | |
CN112714359A (zh) | 视频推荐方法、装置、计算机设备及存储介质 | |
CN112328842B (zh) | 一种数据处理方法、装置、电子设备及存储介质 | |
CN111061681A (zh) | 一种基于大小写不敏感的目录分片方法、装置及存储介质 | |
CN108038253B (zh) | 一种日志查询的处理方法及装置 | |
CN113190254A (zh) | 一种更新方法及装置 | |
CN105205074B (zh) | 文件增量升级方法及系统 | |
CN116137534A (zh) | 无损压缩方法、电子设备及存储介质 | |
US9881083B2 (en) | Method of and a system for indexing audio tracks using chromaprints | |
CN109408487B (zh) | 一种nas文件系统下文件处理系统及方法 | |
CN109189610B (zh) | 一种linux下服务器监测数据的处理方法 | |
CN112463527A (zh) | 一种数据处理方法、装置、设备、系统及存储介质 | |
CN106202293B (zh) | 一种突发事件语料库的更新方法及装置 | |
CN110069539B (zh) | 一种数据关联方法及系统 | |
CN112579611B (zh) | 一种数据处理方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |