CN110674360A - 一种用于数据关联图谱的构建和数据的溯源方法和系统 - Google Patents

一种用于数据关联图谱的构建和数据的溯源方法和系统 Download PDF

Info

Publication number
CN110674360A
CN110674360A CN201910927707.XA CN201910927707A CN110674360A CN 110674360 A CN110674360 A CN 110674360A CN 201910927707 A CN201910927707 A CN 201910927707A CN 110674360 A CN110674360 A CN 110674360A
Authority
CN
China
Prior art keywords
variable
data
variable group
file
map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910927707.XA
Other languages
English (en)
Other versions
CN110674360B (zh
Inventor
吴江煌
吴少华
吴世雄
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xiamen Meiya Yian Information Technology Co Ltd
Original Assignee
Xiamen Meiya Yian Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xiamen Meiya Yian Information Technology Co Ltd filed Critical Xiamen Meiya Yian Information Technology Co Ltd
Priority to CN201910927707.XA priority Critical patent/CN110674360B/zh
Publication of CN110674360A publication Critical patent/CN110674360A/zh
Application granted granted Critical
Publication of CN110674360B publication Critical patent/CN110674360B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明给出了一种用于数据关联图谱的构建和数据的溯源方法和系统,包括响应于目标机器上发生文件操作,获取文件信息;基于对文件信息进行筛选,获得结构化数据和与结构化数据对应的非结构化数据,其中,结构化数据作为固定的关键变量组,非结构化数据包括多组可变关键变量组;响应于关联图谱中不存在固定变量组的信息,将固定变量组对应的文件信息进行唯一标识并存入关联图谱中;响应于关联图谱中存在固定变量组的信息,对与固定变量组对应的可变关键变量组和关联图谱中已有的可变关键变量组进行相关性校验,若相关联,则将其纳入关联图谱中已有的可变关键变量组对应的文件信息的唯一标识下。利用该方法进行数据溯源可以大幅提高工作效率。

Description

一种用于数据关联图谱的构建和数据的溯源方法和系统
技术领域
本发明涉及计算机技术应用领域,尤其是一种用于数据关联图谱的构建和数据的溯源方法和系统。
背景技术
随着经济全球化、商务电子化和管理信息化的快速发展,计算机已逐渐成为各企事业单位的主要办公手段,各种电子文档也逐渐取代纸质文件成为重要的信息载体,信息泄密、商业纠纷等涉及电子数据安全问题越来越多,如何从海量数据中快速提取有价值的信息,是当前企事业单位亟待解决的问题。
现有技术中对数据溯源的方法中存在以下问题:
1)数据孤岛问题:目前大部分数据防护技术更多关注单条数据的获取、存储及查询,当需要从海量数据中掌握某条数据的全周期动态流向时,往往会造成更多的人力和时间成本,此技术通常较难满足企事业单位对数据潜在价值获取的需求。
2)数据原始有效性问题:目前存在部分数据签名技术,通过对数据写入自定义特征信息,基于对应的特征信息对数据进行唯一标识,便于对海量数据进行相关性分析,此技术需要对所有数据进行二次编码,影响到数据本身的原始性,降低了数据的可信度。
发明内容
为了解决现有技术存在的问题,针对企事业单位的应用场景,现提出一种基于特征关联的数据溯源的方法。
本发明提出了一种用于数据关联图谱的构建和数据的溯源方法和系统。
在一个方面,本发明提出了一种用于数据关联图谱的构建,包括以下步骤:
S1:响应于目标机器上发生文件操作,获取文件信息,其中文件信息包括操作时间、操作类型、文件来源、文件内容和文件属性;
S2:基于对文件信息进行筛选,获得结构化数据和与结构化数据对应的非结构化数据,其中,结构化数据作为固定的关键变量组,非结构化数据包括多组可变关键变量组;
S3:响应于关联图谱中不存在固定变量组的信息,将固定变量组对应的文件信息进行唯一标识并存入关联图谱中;
S4:响应于关联图谱中存在固定变量组的信息,对与固定变量组对应的可变关键变量组和关联图谱中已有的可变关键变量组进行相关性校验,若相关联,则将其纳入关联图谱中已有的可变关键变量组对应的文件信息的唯一标识下。
在具体的实施例中,非结构化数据包括文件内容,结构化数据包括:操作时间、操作类型、文件来源和文件属性。利用结构化数据和非结构化数据的筛选,可将文件数据分割筛选,更加便于关联图谱的构建。
在具体的实施例中,相关性校验的方法具体为利用协方差计算判断不同可变关键变量组的变化趋势是否一致。通过相关性校验可获得特征相似或相同的数据,便于进行归纳关联。
在优选的实施例中,协方差的计算公式具体为:
Figure BDA0002219369940000021
其中,变量组X表示待判断的可变关键变量组,变量组Y表示关联图谱中已存在的可变关联变量组,n表示抽取的样本数量。协方差可用于判断两个变量之间的总体误差,亦可利用其判断两个变量之间的变化趋势,推算获得两个变量之间的关联性。
在优选的实施例中,协方差为正值则变量组X与变量组Y正相关,协方差为负值则变量组X与变量组Y变化趋势相反,协方差为0则变量组X与变量组Y不相关。
在优选的实施例中,步骤S4具体包括:响应于变量组X与变量组Y正相关,将变量组X纳入变量组Y的标识下。通过变量组的相关性判断,将相关的数据利用一个唯一标识进行归纳,便于后续数据的追溯。
根据本发明的第二方面,提出了一种用于数据的溯源方法,利用上述方法构建的关联图谱,利用唯一标识获取关联图谱中的所有关联信息,并依据固定关键变量组的时间属性进行优先排序。利用预先构建的关联图谱进行数据的溯源,可获取该数据的唯一标识下的不同时间属性的文件数据,实现溯源的效果。
根据本发明的第三方面,提出了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时上述方法。
根据本发明的第四方面,提出了一种用于关联图谱的构建系统,包括:
文件信息获取模块:配置用于响应于目标机器上发生文件操作,获取文件信息,其中文件信息包括操作时间、操作类型、文件来源、文件内容和文件属性;
文件信息筛选模块:配置用于基于对文件信息进行筛选,获得结构化数据和与结构化数据对应的非结构化数据,其中,结构化数据作为固定的关键变量组,非结构化数据包括多组可变关键变量组;
关联图谱构建模块:配置用于响应于关联图谱中不存在固定变量组的信息,将固定变量组对应的文件信息进行标识并存入关联图谱中;
关联图谱更新模块:配置用于响应于关联图谱中存在固定变量组的信息,对与固定变量组对应的可变关键变量组和关联图谱中已有的可变关键变量组进行相关性校验,若相关联,则将其纳入关联图谱中已有的可变关键变量组对应的文件信息的唯一标识下。
根据本发明的第五方面,提出了一种用于数据的溯源系统,该系统包括上述的关联图谱的构建系统,还包括溯源模块:配置用于利用唯一标识获取关联图谱中的所有关联信息,并依据固定关键变量组的时间属性进行优先排序。
本发明基于特征关联的数据特性,将文件信息筛选划分为结构化数据和非结构化数据,并将其作为固定关键变量组合可变关键变量组,进行相似图计算,构建和更新关联图谱,对相关的数据进行唯一标识,构建特征网络图谱,便于对海量数据进行相关性分析,在需要查询溯源时,仅需通过待查询的数据特征即可快速获得该数据的相关联数据,极大的提升了工作效率。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请可以应用于其中的示例性系统架构图;
图2是本申请的一个实施例的用于数据关联图谱的构建方法的流程图;
图3是本申请的一个实施例的用于数据的溯源方法的流程图;
图4是本申请的一个具体实施例的数据溯源方法的流程图;
图5是本申请的一个实施例的用于数据关联图谱的构建系统的框架图;
图6是本申请的一个实施例的用于用于数据的溯源系统的框架图;
图7是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请实施例的用于关联数据图谱的构建和数据溯源方法的示例性系统架构100。
如图1所示,系统架构100可以包括数据服务器101,网络102和主服务器103。网络102用以在数据服务器101和主服务器103之间提供通信链路的介质。网络102可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
主服务器103可以是提供各种服务的服务器,例如对数据服务器101上传的信息进行处理的数据处理服务器。数据处理服务器可以对所需审查的数据进行处理,并将处理结果关联存储到匹配结果库中。
需要说明的是,本申请实施例所提供的用于关联数据图谱的构建和数据溯源方法一般由主服务器103执行,相应地,用于关联数据图谱的构建和数据溯源的程序一般设置于主服务器103中。
需要说明的是,数据服务器和主服务器可以是硬件,也可以是软件。当为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块),也可以实现成单个软件或软件模块。
应该理解,图1中的数据服务器、网络和主服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
根据本申请的一个实施例的用于数据关联图谱的构建方法,图2示出了根据本申请的实施例的用于数据关联图谱的构建方法的流程图。如图2所示,该方法包括以下步骤:
S201:特征获取。响应于目标机器上发生文件操作,获取文件信息,其中文件信息包括操作时间、操作类型、文件来源、文件内容和文件属性。
在具体的实施例中,对目标机器上部署文件操作实时检测服务,该检测服务可以通过软件或硬件的方式部署于目标机器上,并经过授权使其可以自动获得目标机器对应文件操作的信息,具体的信息包括且不限于操作时间、操作类型、文件来源、文件内容和文件属性。获取的文件操作的信息可作为构建数据关联图谱的基础。
S202:数据筛选。基于对文件信息进行筛选,获得结构化数据和与结构化数据对应的非结构化数据,其中,结构化数据作为固定的关键变量组,非结构化数据包括多组可变关键变量组。基于多维度的特征提取,以固定的关键变量组和可变的关键变量组构建基于数据特征的关键变量组,作为数据关联图谱的构建和更新的数据基础,并可以利用其进行数据的溯源。
在具体的实施例中,非结构化数据可以是文件内容,对应的结构化数据可以为操作时间、操作类型、文件来源和文件属性等,一个非结构化数据可对应多个结构化数据,通过将结构化数据作为固定的关键变量,将非结构化数据作为可变的关键变量,可以构建出基于数据特征的关键变量组,并依此作为数据关联图谱构建和更新的数据基础。
S203:异源构建。响应于关联图谱中不存在固定变量组的信息,将固定变量组对应的文件信息进行唯一标识并存入关联图谱中。对于关联图谱中不存在的固定变量组,对该固定变量组及其对应的可变变量组数据信息进行唯一标识,并将其在关联图谱中增加,作为关联图谱的数据信息便于后续数据查询或溯源的进行。
S204:同源归类。响应于关联图谱中存在固定变量组的信息,对与固定变量组对应的可变关键变量组和关联图谱中已有的可变关键变量组进行相关性校验,若相关联,则将其纳入关联图谱中已有的可变关键变量组对应的文件信息的唯一标识下。对于在关联图谱中以存在相关的固定变量组数据信息,判断其对应的可变关键变量组与关联图谱中已存在的固定变量组对应的可变关键变量组是否关联,若关联将其并入现有关联图谱中对应的唯一标识下,完成关联图谱的更新。
在具体的实施例中,利用协方差计算判断不同可变关键变量组的变化趋势的方式进行相关性校验,协方差可以表示是两个变量的总体的误差,与只表示一个变量误差的方差不同。如果两个变量的变化趋势一致,如果其中一个大于自身的期望值,另外一个也大于自身的期望值,那么两个变量之间的协方差就是正值。如果两个变量的变化趋势相反,即其中一个大于自身的期望值,另外一个却小于自身的期望值,那么两个变量之间的协方差就是负值。
协方差的具体计算公式为:
Figure BDA0002219369940000071
其中,变量组X表示待判断的可变关键变量组,变量组Y表示关联图谱中已存在的可变关联变量组,n表示抽取的样本数量。在本申请的实施例中,协方差为正值则表示变量组X与变量组Y正相关,协方差为负值则变量组X与变量组Y变化趋势相反,协方差为0则变量组X与变量组Y不相关。
在具体的实施例中,当变量组X与变量组Y正相关时,则将对应的固定变量组及其对应的可变关键变量组纳入关联图谱中已存在的变量组Y所对应的唯一标识下,完成对关联图谱的更新。
图3示出了本发明的一个具体的实施例的用于数据的溯源方法的流程图。如图3所示,该方法具体包括以下步骤:
S301:如图2所示的用于数据关联图谱的构建方法。利用如图2所构建的关联图谱;S302:利用唯一标识获取关联图谱中的所有关联信息,并依据固定关键变量组的时间属性进行优先排序。当需要了解某个数据的所有关联信息时,只需要通过该数据的唯一标识,即可快速得到所有相关的数据,通过对数据的固定关键变量组里的时间属性进行优先排序,即可快速了解数据的全周期流向,而无需在海量数据中逐一分析,该方法可以极大的提升海量数据下的数据挖掘的工作效率。
图4示出了本发明的一个具体实施例的数据溯源方法的流程图。该方法具体包括以下步骤:
S401数据获取:在目标机器上部署文件操作实时检测服务,当目标机器上发生对文件的操作时,该服务能自动获取对应文件操作的信息,包括操作时间、操作类型、文件来源、文件内容、文件属性等信息。
S402特征提取:对步骤S401中获取的数据信息进行筛选处理,可得到结构化数据和非结构化数据,通过对非结构化数据选取任意多个样本,作为可变的关键变量组X,同时可将所有的结构化数据视为一组固定的关键变量组F,进而构建一组基于数据特征的关键变量组。
在具体的实施例中,可变的关键变量组为任意抽取的样本组,例如,可变关键变量组X=0110101、1110101、…、1010101,固定变量组F具体为提取的对应数据特征,例如,关键变量组F=时间、类型、…、属性。
S403数据画像:将步骤S402中提取的固定关键变量组F在现有的关联图谱中进行搜索,若不存在对应的已有数据记录,可对当前数据及其特征进行全球唯一标识G,并存入关联图谱中。
S404关联图谱:将步骤S402中提取的固定关键变量组F在现有的关联图谱中进行搜索,若搜索到已有数据记录,则需要提取对应的可变关键变量组X进行相关性校验,判断是否将可变关键变量组X及其对应的相关数据存入关联图谱中。
在具体的实施例中,假设关联图谱中已有数据的可变关键变量组为Y,利用协方差计算两组变量的变化趋势是否一致,当协方差为正值时,说明两个变量正相关,若协方差为负值时,说明两个变量的变化趋势相反,如果两个变量相互独立,则协方差为0,说明两个变量不相关,协方差的计算公式如下:
Figure BDA0002219369940000081
其中,cov(X,Y)为协方差值,X、Y为两组可变关键变量组,n为抽取的样本数量。
在具体的实施例中,当X与Y存在正相关时,可认为两组数据的相关性趋于一致,可提取现有关联图谱中已有数据的全球唯一标识G,作为当前数据及特征的唯一标识,存入关联图谱中。
S405数据溯源:当需要某个数据的所有关联信息时,只需通过该数据的全球唯一标识G,即可获得所有的相关数据,通过对数据的固定关键变量组里的时间属性进行优先排序,获得数据的全周期的流向,无需再海量的数据库中逐一分析,极大的提高了工作效率。
图5示出了根据本发明的一个具体的实施例的用于数据关联图谱的构建系统的框架图。该系统包括:文件信息获取模块501、文件信息筛选模块502、关联图谱构建模块503和关联图谱更新模块504。文件信息获取模块501将获取的文件数据信息输入至文件信息筛选模块502,筛选后将数据发送至关联图谱构建模块503和关联图谱更新模块504以完成关联图谱的构建和更新。
在具体的实施例中,文件信息获取模块501被配置用于响应于目标机器上发生文件操作,获取文件信息,其中文件信息包括操作时间、操作类型、文件来源、文件内容和文件属性。
在具体的实施例中,文件信息筛选模块502配置用于基于对文件信息进行筛选,获得结构化数据和与结构化数据对应的非结构化数据,其中,结构化数据作为固定的关键变量组,非结构化数据包括多组可变关键变量组。
在具体的实施例中,关联图谱构建模块503配置用于响应于关联图谱中不存在固定变量组的信息,将固定变量组对应的文件信息进行标识并存入关联图谱中。关联图谱更新模块504配置用于响应于关联图谱中存在固定变量组的信息,对可变关键变量组进行相关性校验,将可变关键变量组相关的文本信息纳入关联图谱中与其对应的可变关键变量组的标识下。
图6是本申请的一个实施例的用于数据的溯源系统的框架图,该溯源系统具体包括如图5所示的关联图谱构建系统601和溯源模块602。利用已构建好的关联图谱601作为溯源的基础数据库,溯源模块602接入关联图谱601用于从关联图谱601中获取所需溯源数据在关联图谱601中的所有关联数据,并可依据时间属性进行优先排序,可以快速获取所需溯源数据的全周期数据流向。
在具体的实施例中,溯源模块602被配置用于通过待查询的数据特征获得该数据在关联图谱中的唯一标识,利用唯一标识获取所述关联图谱中的所有关联信息,并依据固定关键变量组的时间属性进行优先排序。
下面参考图7,其示出了适于用来实现本申请实施例的电子设备的计算机系统700的结构示意图。图7示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图7所示,计算机系统700包括中央处理单元(CPU)701,其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中,还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。
以下部件连接至I/O接口705:包括键盘、鼠标等的输入部分706;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分707;包括硬盘等的存储部分708;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器710上,以便于从其上读出的计算机程序根据需要被安装入存储部分708。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分709从网络上被下载和安装,和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括文件信息获取模块、文件信息筛选模块、关联图谱构建模块和关联图谱更新模块。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:响应于目标机器上发生文件操作,获取文件信息,其中文件信息包括操作时间、操作类型、文件来源、文件内容和文件属性;基于对文件信息进行筛选,获得结构化数据和与结构化数据对应的非结构化数据,其中,结构化数据作为固定的关键变量组,非结构化数据包括多组可变关键变量组;响应于关联图谱中不存在固定变量组的信息,将固定变量组对应的文件信息进行唯一标识并存入关联图谱中;响应于关联图谱中存在固定变量组的信息,对可变关键变量组进行相关性校验,将可变关键变量组对应的文件信息纳入关联图谱中与其对应且相关的可变关键变量组的唯一标识下。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims (10)

1.一种用于数据关联图谱的构建方法,其特征在于,包括以下步骤:
S1:响应于目标机器上发生文件操作,获取所述文件信息,其中所述文件信息包括操作时间、操作类型、文件来源、文件内容和文件属性;
S2:基于对所述文件信息进行筛选,获得结构化数据和与所述结构化数据对应的非结构化数据,其中,所述结构化数据作为固定的关键变量组,所述非结构化数据包括多组可变关键变量组;
S3:响应于关联图谱中不存在所述固定变量组的信息,将所述固定变量组对应的文件信息进行唯一标识并存入所述关联图谱中;以及
S4:响应于关联图谱中存在所述固定变量组的信息,对与所述固定变量组对应的所述可变关键变量组和所述关联图谱中已有的可变关键变量组进行相关性校验,若相关联,则将其纳入所述关联图谱中已有的可变关键变量组对应的文件信息的唯一标识下。
2.根据权利要求1所述的用于数据关联图谱的构建方法,其特征在于,所述非结构化数据为文件内容,所述结构化数据包括:操作时间、操作类型、文件来源和文件属性。
3.根据权利要求1所述的用于数据关联图谱的构建方法,其特征在于,所述相关性校验的方法具体为利用协方差计算判断不同可变关键变量组的变化趋势是否一致。
4.根据权利要求3所述的用于数据关联图谱的构建方法,其特征在于,所述协方差的计算公式具体为:
Figure FDA0002219369930000011
其中,变量组X表示待判断的可变关键变量组,变量组Y表示关联图谱中已存在的可变关联变量组,n表示抽取的样本数量。
5.根据权利要求4所述的用于数据关联图谱的构建方法,其特征在于,所述协方差为正值则所述变量组X与所述变量组Y正相关,所述协方差为负值则所述变量组X与所述变量组Y变化趋势相反,所述协方差为0则所述变量组X与所述变量组Y不相关。
6.根据权利要求4所述的用于数据关联图谱的构建方法,其特征在于,所述步骤S4具体包括:响应于所述变量组X与所述变量组Y正相关,将所述变量组X纳入所述变量组Y的标识下。
7.一种用于数据的溯源方法,利用如权利要求1至6中任一项所构建的关联图谱,其特征在于,利用唯一标识获取所述关联图谱中的所有关联信息,并依据固定关键变量组的时间属性进行优先排序。
8.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施权利要求1至7中任一项所述的方法。
9.一种用于关联图谱的构建系统,其特征在于,所述系统包括:
文件信息获取模块:配置用于响应于目标机器上发生文件操作,获取所述文件信息,其中所述文件信息包括操作时间、操作类型、文件来源、文件内容和文件属性;
文件信息筛选模块:配置用于基于对所述文件信息进行筛选,获得结构化数据和与所述结构化数据对应的非结构化数据,其中,所述结构化数据作为固定的关键变量组,所述非结构化数据包括多组可变关键变量组;
关联图谱构建模块:配置用于响应于关联图谱中不存在所述固定变量组的信息,将所述固定变量组对应的文件信息进行标识并存入所述关联图谱中;
关联图谱更新模块:配置用于响应于关联图谱中存在所述固定变量组的信息,对与所述固定变量组对应的所述可变关键变量组和所述关联图谱中已有的可变关键变量组进行相关性校验,若相关联,则将其纳入所述关联图谱中已有的可变关键变量组对应的文件信息的唯一标识下。
10.一种用于数据的溯源系统,包括如权利要求9所述的用于关联图谱的构建系统,其特征在于,该系统还包括溯源模块:配置用于利用唯一标识获取所述关联图谱中的所有关联信息,并依据固定关键变量组的时间属性进行优先排序。
CN201910927707.XA 2019-09-27 2019-09-27 一种用于数据的溯源方法和系统 Active CN110674360B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910927707.XA CN110674360B (zh) 2019-09-27 2019-09-27 一种用于数据的溯源方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910927707.XA CN110674360B (zh) 2019-09-27 2019-09-27 一种用于数据的溯源方法和系统

Publications (2)

Publication Number Publication Date
CN110674360A true CN110674360A (zh) 2020-01-10
CN110674360B CN110674360B (zh) 2023-03-31

Family

ID=69079719

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910927707.XA Active CN110674360B (zh) 2019-09-27 2019-09-27 一种用于数据的溯源方法和系统

Country Status (1)

Country Link
CN (1) CN110674360B (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737488A (zh) * 2020-06-12 2020-10-02 南京中孚信息技术有限公司 基于领域实体提取和关联分析的信息溯源方法及装置
CN111858518A (zh) * 2020-07-09 2020-10-30 北京字节跳动网络技术有限公司 一种引用文档的更新方法、装置、电子设备及存储介质
CN112069269A (zh) * 2020-08-27 2020-12-11 黄天红 基于大数据和多维特征的数据溯源方法及大数据云服务器
CN112348535A (zh) * 2020-11-04 2021-02-09 新华中经信用管理有限公司 一种基于区块链技术的溯源应用方法及系统
CN112395292A (zh) * 2020-11-25 2021-02-23 电信科学技术第十研究所有限公司 一种数据特征提取、匹配方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106819A1 (en) * 2009-10-29 2011-05-05 Google Inc. Identifying a group of related instances
CN103970871A (zh) * 2014-05-12 2014-08-06 华中科技大学 存储系统中基于溯源信息的文件元数据查询方法与系统
CN105786980A (zh) * 2016-02-14 2016-07-20 广州神马移动信息科技有限公司 对描述同一实体的不同实例进行合并的方法、装置及设备
CN106202184A (zh) * 2016-06-27 2016-12-07 华中科技大学 一种面向高校图书馆的图书个性化推荐方法和系统
US20170193110A1 (en) * 2015-12-31 2017-07-06 Fractal Industries, Inc. Distributed system for large volume deep web data extraction
CN107526731A (zh) * 2016-06-20 2017-12-29 吕成群 一种可交互的数据信息可视化系统
CN107705066A (zh) * 2017-09-15 2018-02-16 广州唯品会研究院有限公司 一种商品入库时信息录入方法及电子设备
CN107862075A (zh) * 2017-11-29 2018-03-30 浪潮软件股份有限公司 一种基于医疗卫生大数据的知识图谱构建方法及装置
CN108694177A (zh) * 2017-04-06 2018-10-23 北大方正集团有限公司 知识图谱构建方法及系统
CN109255035A (zh) * 2018-08-31 2019-01-22 北京字节跳动网络技术有限公司 用于构建知识图谱的方法和装置
CN109446343A (zh) * 2018-11-05 2019-03-08 上海德拓信息技术股份有限公司 一种公共安全知识图谱构建的方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110106819A1 (en) * 2009-10-29 2011-05-05 Google Inc. Identifying a group of related instances
CN103970871A (zh) * 2014-05-12 2014-08-06 华中科技大学 存储系统中基于溯源信息的文件元数据查询方法与系统
US20170193110A1 (en) * 2015-12-31 2017-07-06 Fractal Industries, Inc. Distributed system for large volume deep web data extraction
CN105786980A (zh) * 2016-02-14 2016-07-20 广州神马移动信息科技有限公司 对描述同一实体的不同实例进行合并的方法、装置及设备
CN107526731A (zh) * 2016-06-20 2017-12-29 吕成群 一种可交互的数据信息可视化系统
CN106202184A (zh) * 2016-06-27 2016-12-07 华中科技大学 一种面向高校图书馆的图书个性化推荐方法和系统
CN108694177A (zh) * 2017-04-06 2018-10-23 北大方正集团有限公司 知识图谱构建方法及系统
CN107705066A (zh) * 2017-09-15 2018-02-16 广州唯品会研究院有限公司 一种商品入库时信息录入方法及电子设备
CN107862075A (zh) * 2017-11-29 2018-03-30 浪潮软件股份有限公司 一种基于医疗卫生大数据的知识图谱构建方法及装置
CN109255035A (zh) * 2018-08-31 2019-01-22 北京字节跳动网络技术有限公司 用于构建知识图谱的方法和装置
CN109446343A (zh) * 2018-11-05 2019-03-08 上海德拓信息技术股份有限公司 一种公共安全知识图谱构建的方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MANMAN REN 等: "The design and implementation of visualized function correlation for secondary system in smart substation" *
李克果: "面向云平台优化的数据支撑工具研究与实现" *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737488A (zh) * 2020-06-12 2020-10-02 南京中孚信息技术有限公司 基于领域实体提取和关联分析的信息溯源方法及装置
CN111737488B (zh) * 2020-06-12 2021-02-02 南京中孚信息技术有限公司 基于领域实体提取和关联分析的信息溯源方法及装置
CN111858518A (zh) * 2020-07-09 2020-10-30 北京字节跳动网络技术有限公司 一种引用文档的更新方法、装置、电子设备及存储介质
CN111858518B (zh) * 2020-07-09 2022-10-25 北京字节跳动网络技术有限公司 一种引用文档的更新方法、装置、电子设备及存储介质
CN112069269A (zh) * 2020-08-27 2020-12-11 黄天红 基于大数据和多维特征的数据溯源方法及大数据云服务器
CN112069269B (zh) * 2020-08-27 2021-03-26 中润普达(深圳)大数据技术有限公司 基于大数据和多维特征的数据溯源方法及大数据云服务器
CN112348535A (zh) * 2020-11-04 2021-02-09 新华中经信用管理有限公司 一种基于区块链技术的溯源应用方法及系统
CN112348535B (zh) * 2020-11-04 2023-09-12 新华中经信用管理有限公司 一种基于区块链技术的溯源应用方法及系统
CN112395292A (zh) * 2020-11-25 2021-02-23 电信科学技术第十研究所有限公司 一种数据特征提取、匹配方法及装置
CN112395292B (zh) * 2020-11-25 2024-03-29 电信科学技术第十研究所有限公司 一种数据特征提取、匹配方法及装置

Also Published As

Publication number Publication date
CN110674360B (zh) 2023-03-31

Similar Documents

Publication Publication Date Title
CN110674360B (zh) 一种用于数据的溯源方法和系统
US11244011B2 (en) Ingestion planning for complex tables
US11386351B2 (en) Machine learning service
CN107818344B (zh) 用户行为进行分类和预测的方法和系统
US9886670B2 (en) Feature processing recipes for machine learning
WO2020232879A1 (zh) 风险传导关联图谱优化方法、装置、计算机设备和存储介质
US11093774B2 (en) Optical character recognition error correction model
CN111078776A (zh) 数据表的标准化方法、装置、设备及存储介质
CN115827895A (zh) 一种漏洞知识图谱处理方法、装置、设备及介质
Pita et al. A Spark-based Workflow for Probabilistic Record Linkage of Healthcare Data.
CN109542764B (zh) 网页自动化测试方法、装置、计算机设备和存储介质
CN111563103A (zh) 一种用于数据血缘检测方法和系统
CN110895587B (zh) 用于确定目标用户的方法和装置
US11010393B2 (en) Library search apparatus, library search system, and library search method
CN110895548B (zh) 用于处理信息的方法和装置
CN117093556A (zh) 日志分类方法、装置、计算机设备及计算机可读存储介质
US10528899B2 (en) Cladistics data analyzer for business data
CN115936895A (zh) 基于人工智能的风险评估方法、装置、设备及存储介质
CN114493853A (zh) 信用等级评价方法、装置、电子设备及存储介质
CN113064984A (zh) 意图识别方法、装置、电子设备及可读存储介质
Oliveira et al. Identification and prioritization of reuse opportunities with JReuse
CN110633430A (zh) 事件发现方法、装置、设备和计算机可读存储介质
CN109582534B (zh) 系统的操作入口的确定方法、装置和服务器
CN116738023A (zh) 油田技术服务数据管控方法、系统、存储介质和电子设备
CN117235328A (zh) 数据分类分级处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant