CN113849702A - 一种确定目标数据的方法、装置、电子设备及存储介质 - Google Patents

一种确定目标数据的方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN113849702A
CN113849702A CN202111185788.4A CN202111185788A CN113849702A CN 113849702 A CN113849702 A CN 113849702A CN 202111185788 A CN202111185788 A CN 202111185788A CN 113849702 A CN113849702 A CN 113849702A
Authority
CN
China
Prior art keywords
data
element content
target
processed
determining
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111185788.4A
Other languages
English (en)
Inventor
程帆
谢永恒
万月亮
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Ruian Technology Co Ltd
Original Assignee
Beijing Ruian Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Ruian Technology Co Ltd filed Critical Beijing Ruian Technology Co Ltd
Priority to CN202111185788.4A priority Critical patent/CN113849702A/zh
Publication of CN113849702A publication Critical patent/CN113849702A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/901Indexing; Data structures therefor; Storage structures
    • G06F16/9024Graphs; Linked lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/907Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种确定目标数据的方法,装置、电子设备及存储介质,其中,该方法包括:根据接收到的待处理数据的数据标识,确定与数据标识相一致的要素关联关系网,可信度值是根据预设目标模型确定的;根据要素关联关系网,确定与待处理数据相关联的至少一个目标要素内容;依据至少一个目标要素内容与待处理数据之间的层级关联度,确定至少一组目标数据;其中,至少一组目标数据中包括至少一个目标要素内容,且包括不同层级目标要素内容之间的可信度值。实现了基于要素关联关系网以及关系关联网中不同层级目标要素内容之间的可信度,进而得到与目标要素内容关联关系准确性最高的要素内容的效果。

Description

一种确定目标数据的方法、装置、电子设备及存储介质
技术领域
本发明实施例涉及大数据处理技术领域,尤其涉及一种确定目标数据的方法、装置、电子设备及存储介质。
背景技术
随着网络技术的发展,越来越多任务的执行多是通过相应的应用程序来实现的。在使用各种应用程序之前,都需要注册相应的用户信息,因此在获取与某个用户相关联的数据时,可以基于大数据统计来实现。
目前,大数据统计多是比较泛化的,即粗略统计,同时,用户为了确保一定的隐私,注册的信息中会包括一定的错误信息,即,与用户本身不一致的信息,导致大数据的统计结果可信度不高,进而在依据大数据统计结果获取相应的目标数据时,也存在不准确的问题。
发明内容
本发明提供一种确定目标数据的方法、装置、电子设备及存储介质,以实现确定各要素内容之间的关联度,进而确定各要素内容的可信度值,根据可信度值确定与目标要素内容相关联的要素内容的效果。
第一方面,本发明实施例提供了一种确定目标数据的方法,其特征在于,包括:
根据接收到的待处理数据的数据标识,确定与所述数据标识相一致的要素关联关系网;其中,所述要素关联关系网中的每个节点为要素内容,并显示相连接两个节点所对应的关联要素的可信度值,所述可信度值是根据预设目标模型确定的;
根据所述要素关联关系网,确定与所述待处理数据相关联的至少一个目标要素内容;
依据所述至少一个目标要素内容与所述待处理数据之间的层级关联度,确定至少一组目标数据;其中,所述至少一组目标数据中包括至少一个目标要素内容,且包括不同层级目标要素内容之间的可信度值。
第二方面,本发明实施例还提供了一种确定目标数据的装置,其特征在于,包括:
关系网确定模块,用于根据接收到的待处理数据的数据标识,确定与所述数据标识相一致的要素关联关系网;其中,所述要素关联关系网中的每个节点为要素内容,并显示相连接两个节点所对应的关联要素的可信度值,所述可信度值是根据预设目标模型确定的;
目标要素内容确定模块,用于根据所述要素关联关系网,确定与所述待处理数据相关联的至少一个目标要素内容;
目标数据确定模块,用于依据所述至少一个目标要素内容与所述待处理数据之间的层级关联度,确定至少一组目标数据;其中,所述至少一组目标数据中包括至少一个目标要素内容,且包括不同层级目标要素内容之间的可信度值。
第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如本发明实施例任一所述的确定目标数据的方法。
第四方面,本发明实施例还提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如本发明实施例任一所述的确定目标数据的方法。
本实施例的技术方案,根据接收到的待处理数据的数据标识,确定与所述数据标识相一致的要素关联关系网;其中,所述要素关联关系网中的每个节点为要素内容,并显示相连接两个节点所对应的关联要素的可信度值,所述可信度值是根据预设目标模型确定的,根据数据标识对从各个平台采集的待处理数据进行筛选,保留与数据标识对应的待处理数据,确定要素关联关系网,然后可以通过预先设置的目标模型计算要素关联关系网中的相邻两个要素之间的可信度值。根据所述要素关联关系网,确定与所述待处理数据相关联的至少一个目标要素内容,根据确定的目标要素内容可以确定与该目标要素内容直接或间接关联的要素内容,并按照与目标要素内容的关联程度,建立关联层级。依据所述至少一个目标要素内容与所述待处理数据之间的层级关联度,确定至少一组目标数据;其中,所述至少一组目标数据中包括至少一个目标要素内容,且包括不同层级目标要素内容之间的可信度值,进一步的可以根据可信度值的大小确定与目标要素内容关联准确度最高的要素内容,然后可以将该要素内容展示给用户。解决了关联要素内容中存在信息有误的情况,导致无法确定与目标要素内容相关的要素内容是否准确的问题,实现了基于要素关联关系网以及关系关联网中不同层级目标要素内容之间的可信度值,进而得到与目标要素内容关联关系准确性最高的要素内容的效果。
附图说明
为了更加清楚地说明本发明示例性实施例的技术方案,下面对描述实施例中所需要用到的附图做一简单介绍。显然,所介绍的附图只是本发明所要描述的一部分实施例的附图,而不是全部的附图,对于本领域普通技术人员,在不付出创造性劳动的前提下,还可以根据这些附图得到其他的附图。
图1为本发明实施例一所提供的一种确定目标数据的方法的流程图;
图2为本发明实施例一所提供的一种要素层级关联的示意图;
图3为本发明实施例一所提供的一种要素关联关系以及可信度值的示意图;
图4为本发明实施例二所提供的一种确定目标数据的方法的进一步细化流程图;
图5为本发明实施例三所提供的一种确定目标数据的方法的进一步细化流程图;
图6为本发明实施例四所提供的一种确定目标数据的方法的架构图;
图7为本发明实施例四所提供的一种可信度值计算结果示意图;
图8为本发明实施例四所提供的一种确定目标数据的方法的示意图;
图9为本发明实施例五所提供的一种确定目标数据的装置的结构示意图。
图10为本发明实施例六所提供的一种电子设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一所提供的一种确定目标数据的方法流程示意图,本实施例可适用于在海量信息中,根据目标数据与其他信息之间的可信度获取有效数据的情况,该方法可以由确定目标数据的装置来执行,该装置可以通过软件和/或硬件的形式实现,硬件可以是电子设备,如,移动终端或PC端等。
如图1所示,该方法具体包括:
S110、根据接收到的待处理数据的数据标识,确定与所述数据标识相一致的要素关联关系网;其中,所述要素关联关系网中的每个节点为要素内容,并显示相连接两个节点所对应的关联要素的可信度值,所述可信度值是根据预设目标模型确定的。
其中,待处理数据可以理解为从不同的平台采集到的原始数据,示例性地,待处理数据可以为用户的姓名、性别、年龄、手机号码、身份证号码、车牌号、工作单位以及家庭住址等数据,对具体的待处理数据的内容不做限定。数据标识可以理解为用于识别数据内容的标记,数据标识可以为字段形式,示例性地,可以将用户姓名作为数据标识,可以根据“用户姓名”这个数据标识,获取用户的姓名;还可以将手机号码作为数据标识,可以根据“手机号码”这个数据标识,获取该用户的手机号码内容。要素内容可以理解为由大数据形成的数据内容,要素内容既可以来自个人衣食住行、医疗以及社交等行为活动,也可以来自平台公司、政府以及商业机构提供服务后的统计或收集等。要素关联关系网可以理解为与同一个主体有关联关系的要素形成的关系网,其中,主体可以理解为在一个要素关联关系网中,与所有要素有直接或间接关联关系的要素内容,也可以理解为要素关联关系网中核心的要素内容。要素关联关系网是由许多个节点构成的,各个节点之间存在关联关系,可信度值可以理解为用来表示各个节点之间的关联关系的关联度的值。预设目标模型可以理解为预先设置的用以计算每两个相关联的要素内容之间的可信度的模型。
具体的,在实际应用中,在获取某个数据时,可以预先设置一个表单,表单中包含各种数据标识的识别字段,服务器可以根据预先设置的数据标识,从数据库中查找与该标识相关联的数据内容,并将与该标识相关联的数据内容作为要素内容,基于各要素内容进一步的可以确定要素关联关系网。在要素关联关系网中,每个要素内容可以视为一个节点,各个节点之间存在直接或间接的相关关系,每两个相连接的节点所对应的要素内容为关联要素,根据预先设置的目标模型确定要素关联关系网中的相连接两个节点所对应的关联要素的可信度值。
S120、根据所述要素关联关系网,确定与所述待处理数据相关联的至少一个目标要素内容。
其中,目标要素内容可以理解为要素关联关系网中与待处理数据直接关联的其他待处理数据,每个待处理数据相关联的要素内容可以有一个,也可以有多个。
具体的,根据数据标识确定要素关联关系网后,根据要素内容之间的关联关系,确定与待处理数据相关联的至少一个目标要素内容。
示例性地,以一个用户作为主体,从不同平台收集到该用户的数据信息作为待处理数据,并根据预先设置的数据标识的识别字段,筛选来自不同平台的待处理数据,将与数据标识相一致的待处理数据作为要素关联关系网中的一个节点,其中,每个节点为要素内容。例如从第一个平台中收集到的待处理数据为用户姓名、手机号和身份证号;从第二个平台收集到的待处理数据为用户姓名、身份证号和车牌号;从第三个平台收集到的待处理数据为用户的姓名、身份证号、毕业院校和工作单位。由此,与用户姓名相关联的至少一个目标要素内容可以包括手机号、身份证号、车牌号、毕业院校和工作单位;与身份证号相关联的至少一个目标要素内容可以包括用户姓名、手机号、车牌号、毕业院校和工作单位;与手机号相关联的至少一个目标要素内容可以包括用户姓名和身份证号;与车牌号相关联的至少一个目标要素内容可以包括用户姓名和身份证号;与毕业院校相关联的至少一个目标要素内容可以包括用户的姓名、身份证号和工作单位;与工作单位相关联的至少一个目标要素内容可以包括用户的姓名、身份证号和毕业院校。
S130、依据所述至少一个目标要素内容与所述待处理数据之间的层级关联度,确定至少一组目标数据;其中,所述至少一组目标数据中包括至少一个目标要素内容,且包括不同层级目标要素内容之间的可信度值。
其中,在要素关联关系网中,可以根据目标要素内容与各个节点所对应的要素内容的关联程度,将各个节点所对应的要素内容按照层级进行划分。层级关联度可以根据与节点的要素内容的相关联程度进行划分为第一层级、第二层级和第三层级。
示例性地,将从各个业务平台采集到的数据作为要素内容,每个业务平台可以视为一个原始数据集,可以理解的是,从同一个原始数据集中采集得到的数据之间具有直接关联关系。在确定目标要素内容后,可以将与目标要素内容的来源一致的要素内容作为第一层级的要素内容。同理,将与第一层级中的要素内容直接相关联的要素内容作为下一层级的要素内容,即,第二层级的要素内容;以此类推,将与第二层级中的要素内容直接相关联的要素内容作为下一层级的要素内容,即,第三层级的要素内容,其中,第一层级与第二层级的各要素内容之间为直接关联关系,第一层级与第三层机的各要素内容之间为间接关联关系。不同层级之间的要素内容存在。
具体的,根据目标要素内容和待处理数据之间的层级关联度,将与目标要素内容直接相关联的待处理数据作为第一层级,将与第一层级的待处理数据直接相关联的待处理数据作为第二层级,将与第二层级的待处理数据直接相关联的待处理数据作为第三层级,依此类推。与目标要素内容直接相关联的待处理数据可以有多个,与各个待处理数据直接相关联的待处理数据也可以有多个,因此,当层级数为三个或三个以上时,与目标要素内容对应的待处理数据可以为同一分支的数据,也可以为不同分支的数据,然后通过预先设置的目标模型可以计算不同层级目标要素内容之间的可信度值。其中,每个层级中的待处理数据可以视为一个独立的目标要素内容。
可选的,所述依据所述至少一个目标要素内容与所述待处理数据之间的层级关联度,确定至少一组目标数据,包括:根据所述至少一个目标要素内容和所述待处理数据的层级关联度,将位于同一分支上的各目标要素内容作为一组目标数据。
示例性地,如图2所示,以用户的身份证号作为一个目标要素内容,与该目标要素内容直接相关的待处理数据为手机号,则手机号为用户身份证号的第一层级关联;与手机号直接相关联,但与用户身份证号没有直接关联关系的国际移动用户识别码(IMSI)为该用户身份证号的第二层级关联;与IMSI直接相关,但与手机号不直接相关的移动设备国际身份码(IMEI)为用户身份证号的第三层级关联。将用户的身份证号作为目标要素,根据与目标要素内容和待处理数据直接的层级关联程度,可以确定用户的身份证号对应的至少一组目标数据包括:手机号、IMSI和IMEI。然后根据预先设置的目标模型可以计算出用户身份证号和手机号之间的可信度值、手机号和IMSI之间的可信度值以及IMSI和IMEI之间的可信度值。
如图3所示,在要素关联关系网中每两个节点对应的关联要素中,任意两个关联要素之间可以进行可信度打分,例如身份证号和手机号之间的要素关联可信度为85,手机号和IMSI之间的要素关联可信度为90,身份证号和IMSI之间的要素关联可信度是80。
本实施例的技术方案,根据接收到的待处理数据的数据标识,确定与所述数据标识相一致的要素关联关系网;其中,所述要素关联关系网中的每个节点为要素内容,并显示相连接两个节点所对应的关联要素的可信度值,所述可信度值是根据预设目标模型确定的,根据数据标识对从各个平台采集的待处理数据进行筛选,保留与数据标识对应的待处理数据,确定要素关联关系网,然后可以通过预先设置的目标模型计算要素关联关系网中的相邻两个要素之间的可信度值。根据所述要素关联关系网,确定与所述待处理数据相关联的至少一个目标要素内容,根据确定的目标要素内容可以确定与该目标要素内容直接或间接关联的要素内容,并按照与目标要素内容的关联程度,建立关联层级。依据所述至少一个目标要素内容与所述待处理数据之间的层级关联度,确定至少一组目标数据;其中,所述至少一组目标数据中包括至少一个目标要素内容,且包括不同层级目标要素内容之间的可信度值,进一步的可以根据可信度值的大小确定与目标要素内容关联准确度最高的要素内容,然后可以将该要素内容展示给用户。解决了关联要素内容中存在信息有误的情况,导致无法确定与目标要素内容相关的要素内容是否准确的问题,实现了基于要素关联关系网以及关系关联网中不同层级目标要素内容之间的可信度值,进而得到与目标要素内容关联关系准确性最高的要素内容的效果。
实施例二
作为上述实施例的一可选实施例,图4为本发明实施例二所提供的一种确定目标数据的方法的细化流程示意图,可选的,一种确定目标数据的方法还包括:建立所述要素关联关系网,对所述建立所述要素关联关系网进行进一步细化。
如图4所示,该方法具体包括:
S210、获取各业务平台采集的待整合数据,并记录所述待整合数据的原始数据关联信息;其中,所述原始数据关联信息包括原始数据集,所述原始数据集中包括多个存储数据的原始数据表。
其中,待整合数据可以理解为从各业务平台获取信息数据;原始数据关联信息可以包括原始数据集,原始数据集中包括多个存储数据的原始数据表。原始数据集可以理解为基于各业务平台所提供的数据的集合,每个业务平台可以对应一个原始数据集;原始数据表可以理解为原始数据集中的记录信息数据的表单,每个原始数据集中可以包含一个或多个原始数据表,每个原始数据表中记录了多个信息数据,不同的原始数据表中包含的信息数据可以重复。
示例性地,每个业务平台根据自身的业务需求采集的主体的信息数据的类型可以相同,也可以不同,信息数据的类型可以重复。例如将用户作为一个主体时,不同的业务平台采集的用户信息数据均包含包括用户名称、身份证号以及手机号信息等,此外,由于业务需求的不同,除了用户名称、身份证号以及手机号信息等常见的用户信息之外,车管所业务平台还会采集用户的车牌号、车辆登记时间、车辆购买时间以及车辆的状态信息等数据;医疗系统业务平台会采集用户的历史住院信息、病历情况以及医药报销数据信息等数据;房地产平台会采集用户的历史购房信息、名下房产数量、银行贷款、还款能力以及该用户的信用状态等数据。
具体的,从不同的业务平台采集的到待整合数据,可能包含不同的格式以及不同的信息类型,获取这些待整合数据后,同时记录这些待整合数据的原始数据关联信息,在原始数据关联信息中包括原始数据集,在原始数据集中包含多个存储数据的原始数据表,通过这些关联信息可以追溯待整合数据的来自于哪个业务平台,以及待处理数据是从该业务平台中的哪个原始数据表中得到的,便于通过追溯待处理数据来源确定该信息的可信程度。
S220、剔除各原始数据表中与预设数据提取字段不同的数据,得到待处理数据表。
其中,预设数据提取字段可以理解为预先设置的数据的关键词或可以标识待处理数据的字段,通过预设数据提取字段可以对待处理数据进行筛选;待处理数据表可以理解为通过筛选的待处理数据的表格或表单。
具体的,在筛选原始数据表中的数据信息之前,根据需求预先设置数据提取字段,在通过不同业务平台采集到的待整合数据后,然后根据预设数据提取字段提取待整合数据中的数据,剔除各原始数据表中与预设数据提取字段不同的数据,保留与预设提取字段相对应的所有的待整合数据,根据提取后的待处理数据得到待处理数据表。其中,提取后的待处理数据包括待整合数据的原始数据关联信息。
示例性地,由于待处理数据的来源不同,同一字段提取到的数据内容可能会存在差异,例如在业务平台采集信息时,可能出现从各业务平台采集的信息与实际信息不符的情况。例如在采集用户的手机号码时,可能出现号码中的某个数字与实际不符,或者还该用户有多个手机号码,甚至有些手机号码已被弃用的情况。从各业务平台采集到大量的待整合数据后,若预设数据字段为“手机号码”,则根据预设的数据提取字段中的手机号码,可以得到多个与该用户对应的手机号码,然后将这些得到的手机号码作为待处理数据记录在待处理数据表中。值得注意的是,此时待处理数据表的中的同一字段可以对应多个待处理数据,例如“手机号码”对应的手机号码中既包含该用户正确的手机号码,还包含可能错误的手机号码。
S230、针对各待处理数据表,将当前待处理数据表中同一字段的不同内容分别作为一个要素内容,得到与所述当前待处理数据表相对应的多个待组合要素内容,并通过对所述多个待组合要素内容进行两两组合,得到多个待使用要素内容组;所述待使用要素内容组中包括两个关联要素。
其中,待组合要素内容可以理解为待处理数据表中根据不同字段提取的要素内容;待使用要素内容组可以理解为待组合要素内容通过关联关系进行组合,形成的“A要素-B要素”形式的要素内容组。
具体的,在待处理数据表中包含同一字段对应提取的不同的要素内容,还包括不同字段对应提取的要素内容。将当前待处理数据表中同一字段的不同内容分别作为一个要素内容,其他字段的不同内容作为该字段对应的要素内容的待组合要素内容,可以得到与当前待处理数据表相对应的多个待组合要素内容,通过将某个字段提取的要素内容与多个待组合要素内容进行两两组合,可以得到多个“A要素-B要素”形式的待使用要素内容组。可以理解的是,每个待使用要素内容组之间包括两个关联要素,且两个关联要素所属不同字段对应的要素内容。
示例性地,从不同业务平台采集到的用户信息中,包含用户的名称、手机号码和身份证号码,其中,手机号码可以有多个,身份证号由于误填等因素也可以有多个。以各待处理表中的用户名称包含1个,手机号码包含3个,身份证号包含2个为例,将“用户名称”、“手机号码”和“身份证号”分别作为一个字段输入,可以得到1个用户名称、3个手机号码和2个身份证号,并将这几个不同的内容分别作为一个独立的要素内容。对于“用户名称”而言,“手机号码”字段对应的3个要素内容和“身份证号”字段对应的2个要素内容,均可视为“用户名称”的待组合要素内容,因此,“用户名称”对应的要素内容可以得到5个相对应的待组合要素内容,然后将“用户名称”对应的要素内容与对应的5个待组合要素内容进行两两组合,可以得到多个待使用要素内容组,且待使用要素内容组中包括两个关联要素。例如待使用要素内容组可以包括“用户名称-手机号码1”、“用户名称-手机号码2”、“用户名称-手机号码3”、“用户名称-身份证号1”和“用户名称-身份证号2”,
S240、通过对各待处理数据表的多个待使用要素内容组进行网状处理,得到所述要素关联关系网。
其中,要素关联关系网可以理解为各要素内容之间通过关联关系形成的网状关联结构网。
具体的,待处理数据表中的要素内容之间存在层级关联关系,与目标要素内容的来源相同的要素内容具有直接关联的关系,作为第一层级;与目标要素内容来源不同,可以通过第一层级的要素内容进行关联的要素内容为间接关联关系,作为第二层级;可以通过第二层级的要素内容进行关联的要素内容为间接关联关系,作为第三层级,以此类推。不同层级的要素内容可以与相邻层级的待组合要素内容两两组合,形成待使用要素内容组,然后将待使用要素内容组根据关联关系进行网状连接,由此,每个要素内容与目标要素内容之间存在直接或间接关联的关系,根据要素内容之间的关联关系,可以得到要素关联关系网。
可选的,所述通过对各待处理数据表的多个待使用要素内容组进行网状处理,得到所述要素关联关系网,包括:将各待处理数据表的待使用要素内容组中相同的要素内容去重处理,得到所述要素关联关系网;其中,所述待组合要素关联关系网中各节点的要素内容不同。
具体的,从各个业务平台采集的待整合数据,经过预设数据提取字段提取后,可以得到待处理数据表,此时待处理数据表中的数据来源于不同的业务平台,数据内容会有重叠现象,在对各待处理数据表的待使用要素内容组进行网状处理时,会发生同一个要素内容组多次出现的情况。因此,可以对待使用要素内容组中的相同要素内容进行去重处理,同一个要素内容只存储一次,将去重后的待使用要素内容组按照关联关系进行组合,得到要素关联关系网,其中,所述待组合要素关联关系网中各节点的要素内容不同。
可选的,在所述通过对各待处理数据表的多个待使用要素内容组进行网状处理,得到所述要素关联关系网之前,还包括:根据各待使用要素内容组中的要素内容,确定要素内容相同的第一待使用要素内容组的出现频次,并将所述出现频次作为所述第一要素内容组中关联要素的关联产生频次。
其中,第一待使用要素内容组可以理解为待使用要素内容组之一,所述第一不具有实际意义,仅作为区分不同待使用要素内容组的标志。
具体的,在通过对各待处理数据表的多个待使用要素内容组进行网状处理,得到要素关联关系网之前,需要确定待使用要素内容组的出现频次。由于各待处理数据表中的要素内容是来自多个业务平台,在对要素内容进行两两组合,形成待使用要素内容组时,同一个待使用要素内容组可能出现多次。以第一待使用要素内容组为例,当第一待使用要素内容组出现时,记录第一待使用要素内容组的出现频次为1,当第一待使用要素内容组再次出现时,记录第一待使用要素内容组的出现频次为2,……,第一待使用要素内容组每出现一次,则第一待使用要素内容组的出现频次增加1,其中,出现频次为第一要素内容组中关联要素的关联产生频次。
可选的,统计各待使用要素内容组中关联要素的初始建立时刻,并根据当前时刻和相应的初始建立时刻,确定关联要素的关联产生时长。确定各使用要素内容组中各要素内容的历史建立时刻中与当前时刻最近的第一历史时刻。
其中,关联要素的初始建立时刻可以理解为每个待使用要素内容组第一次建立关联关系的时间;历史时刻可以理解为同一各待使用要素内容组可能出现多次,该待使用要素内容组每次建立关联关系的时间;第一历史时刻可以理解为该待使用要素内容组最后的一次建立关联关系的时间。
具体的,为了计算各要素内容组中关联要素的可信度值,需要统计各待使用要素内容组中关联要素的初始建立时刻,然后根据初始建立时刻以及当前时刻,计算关联要素的关联产生时长,并根据记录的各待使用要素内容组的历史建立时,刻确定各使用要素内容组中各要素内容的历史建立时刻中与当前时刻最近的第一历史时刻。
可选的,确定各待使用要素内容组所属原始数据集的数据集个数;确定各待使用要素内容组所属各原始数据集中原始数据表的数据表数量;分别根据所述关联产生频次、关联产生时长、第一历史时刻、初始建立时刻、数据集个数、数据表数量以及相应的所述目标函数,确定相应关联要素的可信度值。
其中,目标函数可以理解为一个预先设置的计算函数,可以用来计算关联要素之间的可信度值。
具体的,为了计算关联要素之间的可信度值,根据记录的各待使用要素内容组的关联信息,可以确定各待使用要素内容组所属原始数据集的数据集个数,以及各待使用要素内容组所属各原始数据集中原始数据表的数据表数量。然后可以根据各待使用要素内容组的关联产生频次、关联产生时长、第一历史时刻、初始建立时刻、数据集个数、数据表数量以及相应的所述目标函数,可以计算得到相应关联要素的可信度值。
本实施例的技术方案,获取各业务平台采集的待整合数据,并记录所述待整合数据的原始数据关联信息;其中,所述原始数据关联信息包括原始数据集,所述原始数据集中包括多个存储数据的原始数据表,用以根据原始数据关联信息获得各待使用要素内容组的关联产生频次、关联产生时长、第一历史时刻、初始建立时刻、数据集个数、数据表数量。剔除各原始数据表中与预设数据提取字段不同的数据,得到待处理数据表,通过对原始数据表中的数据进行筛选,保留与预设数据提取字段相对应的数据,作为待处理数据表中的要素内容。针对各待处理数据表,将当前待处理数据表中同一字段的不同内容分别作为一个要素内容,得到与所述当前待处理数据表相对应的多个待组合要素内容,并通过对所述多个待组合要素内容进行两两组合,得到多个待使用要素内容组;所述待使用要素内容组中包括两个关联要素,可以确定每个要素内容与目标要素内容之间存在直接或间接关联的关系。然后,通过对各待处理数据表的多个待使用要素内容组进行网状处理,得到所述要素关联关系网,根据要素关联关系网中的关联关系,进一步的,可以计算每两个关联要素之间的可信度值。通过建立要素关联关系网,将各个要素内容直接或间接相关联,达到了通过要素关系之间的关联程度,计算相应关联要素的可信度值的目的。
实施例三
作为上述实施例的一可选实施例,图5为本发明实施例三所提供的一种确定目标数据的细化流程示意图,可选的,所述原始数据关联信息包括原始数据集,所述原始数据集中包括多个存储数据的原始数据表,对所述将各待处理数据表的待使用要素内容组中相同的要素内容去重处理,得到所述要素关联关系网进行进一步细化。
如图5所示,该方法具体包括:
S310、将各待处理数据表的待使用要素内容组中相同要素内容去重处理,得到多个待处理要素内容组。
具体的,为了节省存储空间,以及简化要素关联关系网的网状结构,各待处理数据表中每个要素内容只存储一次,对待使用要素内容组中多次出现的相同要素内容进行去重处理,最终得到要素内容不同的多个待处理要素内容组。
S320、确定各待处理要素内容组所属的原始数据表的原始数据集。
具体的,根据各要素内容组的关联信息可以确定该要素内容组所属的原始数据集是哪些,以及该要素内容组是由原始数据集中的哪些原始数据表中统计的,因此,通过关联信息,可以确定各待处理要素内容组所属的原始数据表的原始数据集。
S330、当所述原始数据集大于等于预设原始数据集数量阈值,则确定所述待处理要素内容组隶属于同一目标主体,以确定与所述目标主体相关联的要素内容的可信度值。
其中,待处理要素内容组可以理解为待处理表中存储的要素内容两两组合的要素内容组;同一目标主体可以理解为待处理要素内容组所属的共同的主体,例如当手机号码和身份证号同属于同一个用户时,则该用户为此手机号码和身份证号的同一目标主体。
具体的,预先设置原始数据集数量的阈值,根据各要素内容组的关联信息,可以确定各要素内容组的原始数据集的信息,其中包括原始数据集的数量,当同一个待处理要素内容组来自多个原始数据集时,可以理解为该待处理要素内容组的关联关系由多个原始数据集提供,因此,该待处理要素内容组的关联关系准确度较高,所属同一主体的可能性较大,当原始数据集的数量大于等于预设原始数据集数量阈值,则表示该要素内容组隶属于同一目标主体。其中,原始数据集的数量阈值可以自定义设置,例如可以设置为3个。根据各要素内容与目标主体关联准确度,可以确定与所述目标主体相关联的要素内容的可信度值。
S340、根据隶属于所述目标主体的待处理要素内容组和相应的可信度值,确定所述要素关联关系网。
具体的,当确定待处理要素内容组所属同一目标主体时,以及要素内容组之间的可信度值,可以确定要素关联关系网,其中,要素关联关系网中的各要素内容组之间的可信度值可以根据预设的目标函数以及各待处理要素内容组的关联信息确定。
可选的,根据预设目标模型,确定所述要素关联关系网中的关联要素之间的可信度值。
其中,预设目标模型可以为自定义设置的计算模型,包括各个要素内容组的关联信息以及各个关联信息的权重,可以用于计算要素关联关系网中的关联要素之间的可信度值。
具体的,在要素关联关系网中,各个节点对应的要素内容存在直接或间接关联的关系,然后按照各要素内容与目标要素内容的关联程度按照层级关联度进行划分,不同层级间具有关联关系的两个要素可视为关联要素。基于预先设置的目标模型,可以计算目标要素内容相关联的要素内容的关联关系的准确性,依据关联关系的准确性对关联要素之间的可信度值进行评估。
可选的,所述根据预设目标模型,确定所述要素关联关系网中的关联要素之间的可信度值,包括:针对同一目标主体,确定与当前目标主体相对应的待处理要素内容组,并确定各待处理要素内容组的原始数据集的数据集数量、所属各原始数据集中原始数据表的表数量。
具体的,根据预先设置的原始数据集的数量阈值或原始数量表的表数量阈值,可以确定要素关联关系网中的要素内容是否属于同一目标主体。如果不属于同一目标主体,则表示各要素内容与目标主体之间没有关联关系;当要素关联关系网中的要素内容为同一主体的要素内容时,则可以基于各要素内容与目标主体之间存在直接或间接的关联关系,确定与当前目标主体相对应的待处理要素内容组。进一步的,根据各待处理要素内容组的原始数据关联信息,可以得到各要素内容的原始数据集和所属各原始数据集中原始数据表的信息,示例性的,可以得到各待处理要素内容组来自于哪个原始数据集,以及来自原始数据集中的哪个原始数据表的信息。然后统计各待处理要素内容组对应的原始数据集的数量和所属各原始数据集中原始数据表的表数量,同一个待处理要素内容组的原始数据集的数量和原始数据表的表数量越多,表示两个关联要素之间的关联关系的可信度越高,根据统计的原始数据集的数量以及所属各原始数据集中原始数据表的表数据,通过预设目标模型可以确定要素关联关系网中的关联要素之间的可信度值。
可选的,根据所述预设目标模型对同一目标主体的各待处理要素内容组的原始数据集数量、与原始数据集相对应的权重、各原始数据集中原始数据表的表数量、与原始数据表所对应的表权重、时长权重、时长系统、关联产生时长以及与所述关联产生时长所对应的关联权重,确定相应待处理要素内容组的可信度值;其中,各权重是基于关联产生频次、关联产生时长、第一历史时刻、初始建立时刻、数据集个数以及数据表数量确定的。
具体的,预设目标模型可以设置为:可信度值=(原始数据集可信度+原始数据表可信度+关联产生时长可信度+关联产生天数可信度)*最大可信度。
其中,原始数据集可信度=与原始数据集相对应的权重*原始数据集系数;
原始数据表可信度=与原始数据表所对应的表权重*各原始数据集中原始数据表系数;
关联产生时长可信度=时长权重*时长系数;
关联产生天数可信度=与所述关联产生时长所对应的关联权重*关联产生时长系数。
可以理解的是,各待处理要素内容组的关联产生频次越多,表示该关联要素之间的关联关系的准确度越高;各待处理要素内容组的关联产生时长可以由第一历史时刻和初始建立时刻的差值确定各待处理要素内容组的关联产生时长,该关联要素之间的关联关系的准确度越高;待处理要素内容组的原始数据集的数量以及原始数据集中所属的原始数据表的数量越多,则表示该关联要素之间的关联关系的准确度越高。因此,各权重可以基于各待处理要素内容组的关联产生频次、关联产生时长、第一历史时刻、初始建立时刻、数据集个数以及数据表数量确定。
可选的,所述根据所述预设目标模型对同一目标主体的各待处理要素内容组的原始数据集数量、与原始数据集相对应的权重、各原始数据集中原始数据表的表数量、与原始数据表所对应的表权重、时长权重、时长系数、关联产生时长以及与所述关联产生时长所对应的关联权重,确定相应待处理要素内容组的可信度值,包括:确定原始数据集数量系数;确定各原始数据集中原始数据表的表数量系数;确定关联产生时长系数;确定时间系数;根据原始数量集数量系数、原始数据表的表数量系数、关联产生时长系数以及时间系数与相对应的权重,确定可信度值;其中,时间系数为e-2a,a为第一历史时刻和初始建立时刻的差值与预设数值之间的比值。
具体的,各待处理要素内容组的原始数据集数量系数可以根据各要素内容来源的原始数据集的数量确定,示例性地,当待处理要素内容组的原始数据集的数量为3个,则该待处理要素内容组的原始数据集数量系数为3。各原始数据集中原始数据表的表数量系数可以由每个原始数据集中包含该待处理要素内容组的表的数量确定,示例性地,当待处理要素内容组的所属的原始数据集中原始数据表的表数量为5个,则该待处理要素内容组的原始数据集中原始数据表的表数量系数为5。关联产生时长系数可以由各待处理要素内容组的初始建立时刻开始的关联产生天数确定,例如,当待处理要素内容组第一次建立时,开始记录待处理要素内容组的关联产生天数,若关联产生天数为10,则关联产生时长系数为10。时间系数为e-2a,a可以由第一历史时刻和初始建立时刻的差值与预设数值之间的比值确定,例如预设数值可以为10,可根据实际情况进行调整。
进一步的,根据原始数量集数量系数、原始数据表的表数量系数、关联产生时长系数以及时间系数与相对应的权重,确定可信度值。
需要说明的是,对目标主体的待处理要素内容组进行可信度值计算后,可以待处理要素内容组以及对应的可信度值存储在JanusGraph图库中,其中JanusGraph图库可以理解为一种显示个体与个体之间网络关系的数据结构存储图库,该图库中的任意两个节点之间都可能相关。当用户通过第三方平台对要素内容进行查询时,可以通过输入要素关联关系网中的任意一个要素,JanusGraph图库可以将与该要素内容相关联的、可信度值最高的要素内容展示给用户。可选的,用户还可以通过第三方平台的界面选择是否展示所有相关联的要素内容以及可信度值,如果用户希望展示所有与输入要素内容相关联的要素内容以及可信度值,那么JanusGraph图库可以将所有的与用户输入要素内容相关联的要素内容展示给用户,其中包括可信度值最高的和可信度值一般的要素内容。
本实施例的技术方案,将各待处理数据表的待使用要素内容组中相同要素内容去重处理,得到多个待处理要素内容组,相同的要素内容组只保留一次,不仅可以节省存储要素内容组的存储空间,还可以在进行要素内容组可信度计算时,避免了多次重复的计算。确定各待处理要素内容组所属的原始数据表的原始数据集,进一步可以确定原始数据集的数量以及原始数据表的数量,为可信度值的计算做准备;当所述原始数据集大于等于预设原始数据集数量阈值,则确定所述待处理要素内容组隶属于同一目标主体,以确定与所述目标主体相关联的要素内容的可信度值,用以判断待处理要素内容组是否所属同一目标主体,针对同一主体的待处理要素内容组进行可信度值的计算,根据隶属于所述目标主体的待处理要素内容组和相应的可信度值,确定所述要素关联关系网,并将可信度值显示在各要素内容组的关联线上,通过确定目标主体与各要素内容之间的关联关系,以及对同一目标主体相关联的各要素内容组的可信度值进行计算,实现了在用户通过第三方平台输入查询内容时,可以将与查询内容关联的,可信度值最高的要素内容以及各要素内容组之间的可信度展示给用户的效果。
实施例四
在一个具体的例子中,如图6所示,本发明实施例的具体实施过程可以分为:数据采集、数据处理、评估/可信度值打分、数据存储以及对外提供数据服务五个部分。在进行数据采集时,可以从各业务平台采集多源异构数据,即,由多个不同来源的成分构成,既有混合型数据(包括结构化和非结构化),又有离散性数据(数据分布在不同的系统或平台)的待整合数据。然后通过对数据进行标准化处理,根据预设数据提取字段对待整合数据进行提取,并将提取后的数据作为待处理数据存储在待处理表中,并形成多个待处理要素内容组,利用对各待处理数据的要素内容的关联关系,接着通过预设的目标函数可以对要素内容组进行评估/可信度值打分,将打分后的要素内容组存储在JanusGraph图库中,当用户通过第三方平台输入要素关联关系网中的任意一个要素内容时,可以将与该要素内容关联的所有可信度值高的要素内容展示给用户。
具体的,从各业务平台采集到待整合数据后,根据预先设置的数据提取字段对待整合数据进行统一的处理,保留与预设数据提取字段相对应的数据,并将所有的待整合数据按照“A要素-B要素”的形式进行关联,生成要素内容组。同时,按照要素内容是否属于同一主体,定义“同一主体关系”和“疑似同一主体”两种类型,在对待整合数据进行提取处理时,将所有的待整合数据按照非同一主体的进行提取。确定“A要素-B要素”的要素内容组后,需要记录要素内容组的原始数据集、原始数据表、关联产生频次、关联产生时长、第一历史时刻、初始建立时刻、数据集个数、数据表数量。然后对要素内容组中相同要素内容进行去重处理,得到待处理要素内容组,统计该要素内容组的原始数据集的数量、原始数据表的表数量、关联产生频次、关联产生时长、第一历史时刻以及初始建立时刻。对要素内容组是否所属同一主体进行识别时,可以通过设置阈值的方式进行识别,例如,若同一个要素内容组的原始数据集的数量大于等于3时,可以确定该要素内容组的关联准确度较高,视为同一个主体,若原始数据集的数量小于3,则表示该要素内容组的关联准确度较低,视为疑似同一主体。最后,根据预先设置的目标函数以及要素内容组的关联信息,针对确定为同一主体的要素内容组进行可信度值打分。可信度值计算方法如下:
可信度值=(与原始数据集相对应的权重*原始数据集系数+与原始数据表所对应的表权重*各原始数据集中原始数据表系数+时长权重*时长系数+与所述关联产生时长所对应的关联权重*关联产生时长系数)*最大可信度。
可以理解的是,各权重之和、每个关联信息的系数为0到1之间,权重可自定义配置。
其中:
时间系数=e-2a
a为(当前时刻-第一历史时刻)/10年的秒数,若大于1,则取1,约3.4年可信度降为1半。
关联产生时长系数=log11(count1+1),其中,count1表示关联产生时长,关联时长每增加一天,count1加1,即10天以上即达到满值,3天即达到中位值。
原始数据集系数=log4(count2+1),其中,count2表示关联原始数据集的数量,原始数据集数量每增加一个,count2加1,即当原始数据集的数量大于等于3时,即达到满值,原始数据集的数量为2个时即达到中位值。
原始数据表系数=log6(count3+1),其中,count3表示关联原始数据表的表数量,原始数据表的表数量每增加一个,count3加1,当原始数据表的数量为5个以上即达到满值,当原始数据表的表数量为3个即达到中位值。
最大置信度为设置的一个常量,例如百分制。
可以理解的是,以上关联产生时长系数、原始数据集系数和原始数据表系数公式中的底数均可根据实际情况进行调整。
值得注意的是,在计算可信度时,要素内容组的原始数据集的数量、原始数据表的表数量、关联产生频次、关联产生时长、第一历史时刻以及初始建立时刻都会对可信度值的计算产生影响。示例性得,以要素关联产生时长为例,如图7所示,图7中横坐标表示要素内容组关联产生时长,纵坐标表示可信度值,从图中可以看出,关联产生时长越长,可信度值分数越高。
如图8所示,将各业务平台的来源原始数据根据预先设置的规则进行要素关系提取,将要素内容分为同一主体要素关系和疑似同一主体要素关系,然后将同一主体的要素内容进行汇总,存储在分布式文件存储系统中;对疑似同一主体的要素关系进行可信度评估,根据预设的可信度值计算模型,进一步判断非同一主体中的要素内容的可信度值的高低设置阈值,将疑似同一主体的要素内容进一步划分为同一主体要素内容和疑似同一主体要素内容,然后将得到的同一主体要素内容和疑似同一主体要素内容也存储在分布式文件存储系统中,并在该系统中进行可信度值计算。最后根据要素内容和主体之间的可信度,将各要素内容形成要素内容组,将各个要素内容组按照关联关系进行网状处理,最后将要素内容以及各要素内容组之间的可信度值存储在JanusGraph图库中。当用户通过第三方平台输入查询要素内容时,根据用户的设置,可以将与该要素内容可信度值最高的要素内容展示给用户;还可以根据用户的设置,将与该要素内容相关的所有的要素内容展示给用户。
本实施例的技术方案,根据接收到的待处理数据的数据标识,确定与所述数据标识相一致的要素关联关系网;其中,所述要素关联关系网中的每个节点为要素内容,并显示相连接两个节点所对应的关联要素的可信度值,所述可信度值是根据预设目标模型确定的;根据所述要素关联关系网,确定与所述待处理数据相关联的至少一个目标要素内容;依据所述至少一个目标要素内容与所述待处理数据之间的层级关联度,确定至少一组目标数据;其中,所述至少一组目标数据中包括至少一个目标要素内容,且包括不同层级目标要素内容之间的可信度值。解决了关联要素内容中存在信息有误的情况,导致无法确定与目标要素内容相关的要素内容是否准确的问题,实现了基于要素关联关系网以及关系关联网中不同层级目标要素内容之间的可信度值,进而得到与目标要素内容关联关系准确性最高的要素内容的效果。
实施例五
图9为本发明实施例五提供的一种确定目标数据的装置,该装置包括:关系网确定模块510、目标要素内容确定模块520、目标数据确定模块530。
其中,关系网确定模块510,用于根据接收到的待处理数据的数据标识,确定与所述数据标识相一致的要素关联关系网;其中,所述要素关联关系网中的每个节点为要素内容,并显示相连接两个节点所对应的关联要素的可信度值,所述可信度值是根据预设目标模型确定的;
目标要素内容确定模块520,用于根据所述要素关联关系网,确定与所述待处理数据相关联的至少一个目标要素内容;
目标数据确定模块530,用于依据所述至少一个目标要素内容与所述待处理数据之间的层级关联度,确定至少一组目标数据;其中,所述至少一组目标数据中包括至少一个目标要素内容,且包括不同层级目标要素内容之间的可信度值。
本实施例的技术方案,根据接收到的待处理数据的数据标识,确定与所述数据标识相一致的要素关联关系网;其中,所述要素关联关系网中的每个节点为要素内容,并显示相连接两个节点所对应的关联要素的可信度值,所述可信度值是根据预设目标模型确定的,根据数据标识对从各个平台采集的待处理数据进行筛选,保留与数据标识对应的待处理数据,确定要素关联关系网,然后可以通过预先设置的目标模型计算要素关联关系网中的相邻两个要素之间的可信度值。根据所述要素关联关系网,确定与所述待处理数据相关联的至少一个目标要素内容,根据确定的目标要素内容可以确定与该目标要素内容直接或间接关联的要素内容,并按照与目标要素内容的关联程度,建立关联层级。依据所述至少一个目标要素内容与所述待处理数据之间的层级关联度,确定至少一组目标数据;其中,所述至少一组目标数据中包括至少一个目标要素内容,且包括不同层级目标要素内容之间的可信度值,进一步的可以根据可信度值的大小确定与目标要素内容关联准确度最高的要素内容,然后可以将该要素内容展示给用户。解决了关联要素内容中存在信息有误的情况,导致无法确定与目标要素内容相关的要素内容是否准确的问题,实现了基于要素关联关系网以及关系关联网中不同层级目标要素内容之间的可信度值,进而得到与目标要素内容关联关系准确性最高的要素内容的效果。
在本发明实施例中任一可选技术方案的基础上,可选地,所述确定目标数据的装置,还包括关系网建立模块,该模块具体包括:
关联信息记录子模块,用于获取各业务平台采集的待整合数据,并记录所述待整合数据的原始数据关联信息;其中,所述原始数据关联信息包括原始数据集,所述原始数据集中包括多个存储数据的原始数据表;
待处理数据表确定子模块,用于剔除各原始数据表中与预设数据提取字段不同的数据,得到待处理数据表;
要素内容处理子模块,用于针对各待处理数据表,将当前待处理数据表中同一字段的不同内容分别作为一个要素内容,得到与所述当前待处理数据表相对应的多个待组合要素内容,并通过对所述多个待组合要素内容进行两两组合,得到多个待使用要素内容组;所述待使用要素内容组中包括两个关联要素;
关系网确定子模块,用于通过对各待处理数据表的多个待使用要素内容组进行网状处理,得到所述要素关联关系网。
在本发明实施例中任一可选技术方案的基础上,可选地,所述关系网确定子模块,包括:
要素内容去重单元,用于将各待处理数据表的待使用要素内容组中相同的要素内容去重处理,得到所述要素关联关系网;其中,所述待组合要素关联关系网中各节点的要素内容不同。
在本发明实施例中任一可选技术方案的基础上,可选地,所述关系网确定子模块,具体包括:
关联产生频次确定单元,用于在所述通过对各待处理数据表的多个待使用要素内容组进行网状处理,得到所述要素关联关系网之前,根据各待使用要素内容组中的要素内容,确定要素内容相同的第一待使用要素内容组的出现频次,并将所述出现频次作为所述第一要素内容组中关联要素的关联产生频次;
关联产生时长确定单元,用于统计各待使用要素内容组中关联要素的初始建立时刻,并根据当前时刻和相应的初始建立时刻,确定关联要素的关联产生时长;
第一历史时刻确定单元,用于确定各使用要素内容组中各要素内容的历史建立时刻中与当前时刻最近的第一历史时刻;
数据集个数确定单元,用于确定各待使用要素内容组所属原始数据集的数据集个数;
数据表数量确定单元,用于确定各待使用要素内容组所属各原始数据集中原始数据表的数据表数量;
可信度值确定单元,用于分别根据所述关联产生频次、关联产生时长、第一历史时刻、初始建立时刻、数据集个数、数据表数量以及相应的所述目标函数,确定相应关联要素的可信度值。
在本发明实施例中任一可选技术方案的基础上,可选地,所述要素内容去重单元,具体包括:
要素内容组确定子单元,用于将各待处理数据表的待使用要素内容组中相同要素内容去重处理,得到多个待处理要素内容组;
原始数据集确定子单元,用于确定各待处理要素内容组所属的原始数据表的原始数据集;
可信度值确定子单元,用于当所述原始数据集大于等于预设原始数据集数量阈值,则确定所述待处理要素内容组隶属于同一目标主体,以确定与所述目标主体相关联的要素内容的可信度值;
关系网确定子单元,用于根据隶属于所述目标主体的待处理要素内容组和相应的可信度值,确定所述要素关联关系网。
在本发明实施例中任一可选技术方案的基础上,可选地,所述可信度值确定单元还包括:
可信度值确定第一子单元,用于根据预设目标模型,确定所述要素关联关系网中的关联要素之间的可信度值;
所述可信度值确定第一子单元,具体包括:
第一子单元,用于针对同一目标主体,确定与当前目标主体相对应的待处理要素内容组,并确定各待处理要素内容组的原始数据集的数据集数量、所属各原始数据集中原始数据表的表数量;
第二子单元,用于根据所述预设目标模型对同一目标主体的各待处理要素内容组的原始数据集数量、与原始数据集相对应的权重、各原始数据集中原始数据表的表数量、与原始数据表所对应的表权重、时长权重、时长系数、关联产生时长以及与所述关联产生时长所对应的关联权重,确定相应待处理要素内容组的可信度值;其中,各权重是基于关联产生频次、关联产生时长、第一历史时刻、初始建立时刻、数据集个数以及数据表数量确定的。
在本发明实施例中任一可选技术方案的基础上,可选地,所述根据所述预设目标模型对同一目标主体的各待处理要素内容组的原始数据集数量、与原始数据集相对应的权重、各原始数据集中原始数据表的表数量、与原始数据表所对应的表权重、时长权重、时长系数、关联产生时长以及与所述关联产生时长所对应的关联权重,确定相应待处理要素内容组的可信度值,包括:
确定原始数据集数量系数;确定各原始数据集中原始数据表的表数量系数;确定关联产生时长系数;确定时间系数;根据原始数量集数量系数、原始数据表的表数量系数、关联产生时长系数以及时间系数与相对应的权重,确定可信度值;
其中,时间系数为e-2a,a为第一历史时刻和初始建立时刻的差值与预设数值之间的比值。
在本发明实施例中任一可选技术方案的基础上,可选地,所述目标数据确定模块,具体用于:
根据所述至少一个目标要素内容和所述待处理数据的层级关联度,将位于同一分支上的各目标要素内容作为一组目标数据。
本发明实施例所提供的确定目标数据的装置可执行本发明任意实施例所提供的确定目标数据的方法,具备执行方法相应的功能模块和有益效果。
值得注意的是,上述装置所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明实施例的保护范围。
实施例六
图10为本发明实施例六提供的一种电子设备的结构示意图。图10示出了适于用来实现本发明实施例实施方式的示例性电子设备40的框图。图10显示的电子设备40仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图10所示,电子设备40以通用计算设备的形式表现。电子设备40的组件可以包括但不限于:一个或者多个处理器或者处理单元401,系统存储器402,连接不同系统组件(包括系统存储器402和处理单元401)的总线403。
总线403表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
电子设备40典型地包括多种计算机系统可读介质。这些介质可以是任何能够被电子设备40访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器402可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)404和/或高速缓存存储器405。电子设备40可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统406可以用于读写不可移动的、非易失性磁介质(图10未显示,通常称为“硬盘驱动器”)。尽管图10中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线403相连。存储器402可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块407的程序/实用工具408,可以存储在例如存储器402中,这样的程序模块407包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块407通常执行本发明所描述的实施例中的功能和/或方法。
电子设备40也可以与一个或多个外部设备409(例如键盘、指向设备、显示器410等)通信,还可与一个或者多个使得用户能与该电子设备40交互的设备通信,和/或与使得该电子设备40能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口411进行。并且,电子设备40还可以通过网络适配器412与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器412通过总线403与电子设备40的其它模块通信。应当明白,尽管图10中未示出,可以结合电子设备40使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
处理单元401通过运行存储在系统存储器402中的程序,从而执行各种功能应用以及数据处理,例如实现本发明实施例所提供的确定目标数据的方法。
实施例七
本发明实施例七还提供一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行确定目标数据的方法,该方法包括:根据接收到的待处理数据的数据标识,确定与所述数据标识相一致的要素关联关系网;其中,所述要素关联关系网中的每个节点为要素内容,并显示相连接两个节点所对应的关联要素的可信度值,所述可信度值是根据预设目标模型确定的;根据所述要素关联关系网,确定与所述待处理数据相关联的至少一个目标要素内容;依据所述至少一个目标要素内容与所述待处理数据之间的层级关联度,确定至少一组目标数据;其中,所述至少一组目标数据中包括至少一个目标要素内容,且包括不同层级目标要素内容之间的可信度值。
本发明实施例的计算机存储介质,可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本发明实施例操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (11)

1.一种确定目标数据的方法,其特征在于,包括:
根据接收到的待处理数据的数据标识,确定与所述数据标识相一致的要素关联关系网;其中,所述要素关联关系网中的每个节点为要素内容,并显示相连接两个节点所对应的关联要素的可信度值,所述可信度值是根据预设目标模型确定的;
根据所述要素关联关系网,确定与所述待处理数据相关联的至少一个目标要素内容;
依据所述至少一个目标要素内容与所述待处理数据之间的层级关联度,确定至少一组目标数据;其中,所述至少一组目标数据中包括至少一个目标要素内容,且包括不同层级目标要素内容之间的可信度值。
2.根据权利要求1所述的方法,其特征在于,还包括:
建立所述要素关联关系网;
所述建立所述要素关联关系网,包括:
获取各业务平台采集的待整合数据,并记录所述待整合数据的原始数据关联信息;其中,所述原始数据关联信息包括原始数据集,所述原始数据集中包括多个存储数据的原始数据表;
剔除各原始数据表中与预设数据提取字段不同的数据,得到待处理数据表;
针对各待处理数据表,将当前待处理数据表中同一字段的不同内容分别作为一个要素内容,得到与所述当前待处理数据表相对应的多个待组合要素内容,并通过对所述多个待组合要素内容进行两两组合,得到多个待使用要素内容组;所述待使用要素内容组中包括两个关联要素;
通过对各待处理数据表的多个待使用要素内容组进行网状处理,得到所述要素关联关系网。
3.根据权利要求2所述的方法,其特征在于,所述通过对各待处理数据表的多个待使用要素内容组进行网状处理,得到所述要素关联关系网,包括:
将各待处理数据表的待使用要素内容组中相同的要素内容去重处理,得到所述要素关联关系网;其中,所述待组合要素关联关系网中各节点的要素内容不同。
4.根据权利要求2所述的方法,其特征在于,在所述通过对各待处理数据表的多个待使用要素内容组进行网状处理,得到所述要素关联关系网之前,还包括:
根据各待使用要素内容组中的要素内容,确定要素内容相同的第一待使用要素内容组的出现频次,并将所述出现频次作为所述第一要素内容组中关联要素的关联产生频次;
统计各待使用要素内容组中关联要素的初始建立时刻,并根据当前时刻和相应的初始建立时刻,确定关联要素的关联产生时长;
确定各使用要素内容组中各要素内容的历史建立时刻中与当前时刻最近的第一历史时刻;
确定各待使用要素内容组所属原始数据集的数据集个数;
确定各待使用要素内容组所属各原始数据集中原始数据表的数据表数量;
分别根据所述关联产生频次、关联产生时长、第一历史时刻、初始建立时刻、数据集个数、数据表数量以及相应的所述目标函数,确定相应关联要素的可信度值。
5.根据权利要求3所述的方法,其特征在于,所述原始数据关联信息包括原始数据集,所述原始数据集中包括多个存储数据的原始数据表,所述将各待处理数据表的待使用要素内容组中相同的要素内容去重处理,得到所述要素关联关系网,包括:
将各待处理数据表的待使用要素内容组中相同要素内容去重处理,得到多个待处理要素内容组;
确定各待处理要素内容组所属的原始数据表的原始数据集;
当所述原始数据集大于等于预设原始数据集数量阈值,则确定所述待处理要素内容组隶属于同一目标主体,以确定与所述目标主体相关联的要素内容的可信度值;
根据隶属于所述目标主体的待处理要素内容组和相应的可信度值,确定所述要素关联关系网。
6.根据权利要求5所述的方法,其特征在于,还包括:
根据预设目标模型,确定所述要素关联关系网中的关联要素之间的可信度值;
所述根据预设目标模型,确定所述要素关联关系网中的关联要素之间的可信度值,包括:
针对同一目标主体,确定与当前目标主体相对应的待处理要素内容组,并确定各待处理要素内容组的原始数据集的数据集数量、所属各原始数据集中原始数据表的表数量;
根据所述预设目标模型对同一目标主体的各待处理要素内容组的原始数据集数量、与原始数据集相对应的权重、各原始数据集中原始数据表的表数量、与原始数据表所对应的表权重、时长权重、时长系数、关联产生时长以及与所述关联产生时长所对应的关联权重,确定相应待处理要素内容组的可信度值;其中,各权重是基于关联产生频次、关联产生时长、第一历史时刻、初始建立时刻、数据集个数以及数据表数量确定的。
7.根据权利要求6所述的方法,其特征在于,所述根据所述预设目标模型对同一目标主体的各待处理要素内容组的原始数据集数量、与原始数据集相对应的权重、各原始数据集中原始数据表的表数量、与原始数据表所对应的表权重、时长权重、时长系数、关联产生时长以及与所述关联产生时长所对应的关联权重,确定相应待处理要素内容组的可信度值,包括:
确定原始数据集数量系数;
确定各原始数据集中原始数据表的表数量系数;
确定关联产生时长系数;
确定时间系数;
根据原始数量集数量系数、原始数据表的表数量系数、关联产生时长系数以及时间系数与相对应的权重,确定可信度值;
其中,时间系数为e-2a,a为第一历史时刻和初始建立时刻的差值与预设数值之间的比值。
8.根据权利要求1所述方法,其特征在于,所述依据所述至少一个目标要素内容与所述待处理数据之间的层级关联度,确定至少一组目标数据,包括:
根据所述至少一个目标要素内容和所述待处理数据的层级关联度,将位于同一分支上的各目标要素内容作为一组目标数据。
9.一种确定目标数据的装置,其特征在于,包括:
关系网确定模块,用于根据接收到的待处理数据的数据标识,确定与所述数据标识相一致的要素关联关系网;其中,所述要素关联关系网中的每个节点为要素内容,并显示相连接两个节点所对应的关联要素的可信度值,所述可信度值是根据预设目标模型确定的;
目标要素内容确定模块,用于根据所述要素关联关系网,确定与所述待处理数据相关联的至少一个目标要素内容;
目标数据确定模块,用于依据所述至少一个目标要素内容与所述待处理数据之间的层级关联度,确定至少一组目标数据;其中,所述至少一组目标数据中包括至少一个目标要素内容,且包括不同层级目标要素内容之间的可信度值。
10.一种电子设备,其特征在于,所述电子设备包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-8中任一所述的确定目标数据的方法。
11.一种包含计算机可执行指令的存储介质,其特征在于,所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-8中任一所述的确定目标数据的方法。
CN202111185788.4A 2021-10-12 2021-10-12 一种确定目标数据的方法、装置、电子设备及存储介质 Pending CN113849702A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111185788.4A CN113849702A (zh) 2021-10-12 2021-10-12 一种确定目标数据的方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111185788.4A CN113849702A (zh) 2021-10-12 2021-10-12 一种确定目标数据的方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN113849702A true CN113849702A (zh) 2021-12-28

Family

ID=78977966

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111185788.4A Pending CN113849702A (zh) 2021-10-12 2021-10-12 一种确定目标数据的方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN113849702A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113987309A (zh) * 2021-12-29 2022-01-28 深圳红途科技有限公司 个人隐私数据识别方法、装置、计算机设备及存储介质
US20230185852A1 (en) * 2020-05-20 2023-06-15 Liveramp, Inc. Entity Resolution Data Structure System and Method
US12032630B2 (en) * 2021-04-09 2024-07-09 Liveramp, Inc. Entity resolution data structure system and method

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20230185852A1 (en) * 2020-05-20 2023-06-15 Liveramp, Inc. Entity Resolution Data Structure System and Method
US12032630B2 (en) * 2021-04-09 2024-07-09 Liveramp, Inc. Entity resolution data structure system and method
CN113987309A (zh) * 2021-12-29 2022-01-28 深圳红途科技有限公司 个人隐私数据识别方法、装置、计算机设备及存储介质
CN113987309B (zh) * 2021-12-29 2022-03-11 深圳红途科技有限公司 个人隐私数据识别方法、装置、计算机设备及存储介质

Similar Documents

Publication Publication Date Title
CN113064897B (zh) 一种业务指标模型的生成方法、装置、设备及存储介质
CN110019542B (zh) 企业关系的生成、生成组织成员数据库及识别同名成员
CN112506981A (zh) 一种线上培训服务推送方法和装置
CN111414410A (zh) 数据处理方法、装置、设备和存储介质
US8396877B2 (en) Method and apparatus for generating a fused view of one or more people
CN110688434A (zh) 一种兴趣点处理方法、装置、设备和介质
CN113849702A (zh) 一种确定目标数据的方法、装置、电子设备及存储介质
CN111680083B (zh) 智能化多级政府财政数据采集系统及数据采集方法
CN113642867A (zh) 评估风险的方法及系统
CN112948396A (zh) 数据存储方法、装置、电子设备及存储介质
CN117093556A (zh) 日志分类方法、装置、计算机设备及计算机可读存储介质
CN111831528A (zh) 一种计算机系统日志关联方法及相关装置
CN112163127B (zh) 关系图谱构建方法、装置、电子设备及存储介质
CN114860819A (zh) 商业智能系统的构建方法、装置、设备和存储介质
CN113742344A (zh) 电力系统数据的索引方法及装置
CN112907009B (zh) 标准化模型的构建方法、装置、存储介质及设备
CN110502529B (zh) 数据处理方法、装置、服务器及存储介质
CN112346938B (zh) 操作审计方法、装置及服务器和计算机可读存储介质
CN113806556A (zh) 基于电网数据的知识图谱的构建方法、装置、设备及介质
CN113792138A (zh) 报表生成方法、装置、电子设备及存储介质
CN109685094B (zh) 一种基于网络指纹的身份识别方法和装置
CN112667721A (zh) 数据分析方法、装置、设备及存储介质
EP4187431A1 (en) Address identification method and apparatus, electronic device, and storage medium
CN114327377B (zh) 需求跟踪矩阵生成方法、装置、计算机设备及存储介质
CN112261484B (zh) 一种目标用户识别方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination