CN112734466A - 一种关联信息的处理方法、装置及存储介质 - Google Patents
一种关联信息的处理方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112734466A CN112734466A CN202011629498.XA CN202011629498A CN112734466A CN 112734466 A CN112734466 A CN 112734466A CN 202011629498 A CN202011629498 A CN 202011629498A CN 112734466 A CN112734466 A CN 112734466A
- Authority
- CN
- China
- Prior art keywords
- relationship
- user
- relation
- weight
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012545 processing Methods 0.000 title claims abstract description 32
- 238000004364 calculation method Methods 0.000 claims abstract description 30
- 238000012216 screening Methods 0.000 abstract description 3
- 230000008569 process Effects 0.000 description 8
- 230000008901 benefit Effects 0.000 description 5
- 230000008859 change Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000010365 information processing Effects 0.000 description 3
- 238000003672 processing method Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 2
- 238000006467 substitution reaction Methods 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 235000014510 cooky Nutrition 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 230000007423 decrease Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001360 synchronised effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0201—Market modelling; Market analysis; Collecting market data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Strategic Management (AREA)
- Development Economics (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Physics & Mathematics (AREA)
- Marketing (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Tourism & Hospitality (AREA)
- Primary Health Care (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Health & Medical Sciences (AREA)
- Computing Systems (AREA)
- Game Theory and Decision Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种关联信息的处理方法、装置及计算机可读存储介质。该方法从多个系统中获取用户使用的多个用户标识以及用户标识之间的关系;然后从中提取每两个用户标识之间的关系得到一个关系集合,确定该集合中每个关系的权重,并根据权重和预设的权重阈值从中筛选出有效的关系作为备选关系集合;之后,根据第二关系集合,从多个用户标识中确定主标识并获取主标识与其他标识的对应关系。其中,通过计算每个关系的权重,并设定一个权重阈值将一些失效或无用的关系筛选掉,仅对有效的关系进行计算,可大大节省算力,提高计算效率,缩短处理时间,且使排除了无效关系的干扰,使最终的计算结果更准确。
Description
技术领域
本发明涉及信息处理领域,尤其涉及一种关联信息的处理方法、装置及计算机可读存储介质。
背景技术
目前,在大型企业信息系统或云平台中,常常会部署有各种各样的业务系统,而在这些业务系统中的用户往往存在千丝万缕的联系。打通各个业务系统,从不同业务系统中提取某一用户的所有相关信息,实现用户画像、建立用户的360度数字化建模,对于大数据分析服务,特别是用户行为模式分析和个性化信息服务具有重要意义。
而在实现用户画像、建立用户的360度数字化建模的过程中,将不同业务系统中的用户ID进行关联和对应,则是其中的关键步骤和核心功能。例如,一个生活中真实存在的用户个体可能有多个ID,比如手机号、邮箱、设备号等,如何识别出同一个用户的所有ID,并在这些ID之间建立对应关系,则是提取该用户所有相关信息的数据基础和主要依据。
目前,比较常用的方法是首先指定一个用户主ID,然后将提取到的用户ID及其关联关系转换为无向图数据,之后通过图算法来确定各个用户ID与主ID之间的对应关系。
而在实际应用过程中,随着时间的推移,ID和ID之间的关系会发生一些变化,例如,手机号变更、设备变更或某些权限过期导致一些关系失效等等。而由于业务系统较多,有些更新不能及时同步,就会产生一些垃圾数据,从而提取到一些失效或无用的ID和ID之间的关系。这些失效或无用的关系,不仅会增加额外的图数据,从而增加图算法的计算量,还会影响到最终的计算结果,使确定的ID之间的关系出现误差。
因此,如何能在确定ID之间的对应关系的过程中,动态剔除ID之间的无效或无用的关系,就成为一个亟需解决的技术问题。
发明内容
针对以上问题,本发明人创造性地提供一种关联信息的处理方法、装置、系统和计算机可读存储介质。
根据本发明实施例第一方面,提供一种关联信息的处理方法,该方法包括:获取多个用户标识的关联信息,其中多个用户标识的关联信息来自相同或不同的数据源;根据关联信息获取多个用户标识中每两个用户标识之间的关系得到第一关系集合;确定第一关系集合中每个关系的权重;根据权重和预设的权重阈值从第一关系集合中确定一个子集作为第二关系集合;根据第二关系集合,从多个用户标识中确定主标识并获取主标识与其他标识的对应关系。
根据本发明实施例一实施方式,获取多个用户标识的关联信息,包括:获取多个用户标识的增量信息;相应地,根据关联信息获取多个用户标识中每两个用户标识之间的关系得到第一关系集合,包括:根据增量信息和多个用户标识的已有关系集合,获取多个用户标识中每两个用户标识之间的关系得到第一关系集合。
根据本发明实施例一实施方式,确定第一关系集合中每个关系的权重,包括:获取与每个关系关联的动态统计数据;根据动态统计数据计算第一关系集合中每个关系的权重。
根据本发明实施例一实施方式,在根据动态统计数据计算第一关系集合中每个关系的权重之前,该方法还包括:根据每个关系的数据来源确定相应关系的权重初始值。
根据本发明实施例一实施方式,在根据动态统计数据计算第一关系集合中每个关系的权重之前,该方法还包括:对第一关系集合中每个关系的权重进行时间衰减处理。
根据本发明实施例一实施方式,根据第二关系集合,从多个用户标识中确定主标识并获取主标识与其他标识的对应关系,包括:根据第二关系集合构建图,其中,图中的每个点代表多个用户标识中的每个用户标识,每条边代表第二关系集合中的每个关系,每条边设置有权重值,权重值为相应关系的权重;对图进行聚类图计算得到多个子图;根据每个子图确定代表主标识的主节点;根据代表主标识的主节点以及主节点与其他节点之间的关系,确定主标识与其他标识的对应关系。
根据本发明实施例一实施方式,多个用户标识设置有优先级,相应地,第二关系集合中的每个关系为有向关系,有向关系的方向是由优先级高的用户标识指向优先级低的用户标识;图为有向图,其中边为有向边,每条有向边代表第二关系集合中的每个有向关系。
根据本发明实施例一实施方式,根据每个子图确定代表主标识的主节点,包括:根据每个节点所连接的边的权重确定每个节点的评分;将评分最高的节点确定为代表主标识的主节点。
根据本发明实施例第二方面,提供一种关联信息的处理装置,该装置包括:用户信息获取模块,用于获取多个用户标识的关联信息,其中多个用户标识的关联信息来自相同或不同的数据源;关系集合获取模块,用于根据关联信息获取多个用户标识中每两个用户标识之间的关系得到第一关系集合;关系权重确定模块,用于确定第一关系集合中每个关系的权重;有效关系确定模块,用于根据权重和预设的权重阈值从第一关系集合中确定一个子集作为第二关系集合;对应关系确定模块,用于根据第二关系集合,从多个用户标识中确定主标识并获取主标识与其他标识的对应关系。
根据本发明实施例第三方面,提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的关联信息的处理方法。
本发明实施例提供一种关联信息的处理方法、装置及计算机可读存储介质。该方法从多个系统中获取用户使用的多个用户标识以及用户标识之间的关系;然后从中提取每两个用户标识之间的关系得到一个关系集合,确定该集合中每个关系的权重,并根据权重和预设的权重阈值从中筛选出有效的关系作为备选关系集合;之后,根据第二关系集合,从多个用户标识中确定主标识并获取主标识与其他标识的对应关系。其中,通过计算每个关系的权重,并设定一个权重阈值将一些失效或无用的关系筛选掉,仅对有效的关系进行计算,可大大节省算力,提高计算效率,缩短处理时间,且使排除了无效关系的干扰,使最终的计算结果更准确。
需要理解的是,本发明的教导并不需要实现上面所述的全部有益效果,而是特定的技术方案可以实现特定的技术效果,并且本发明的其他实施方式还能够实现上面未提到的有益效果。
附图说明
通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:
在附图中,相同或对应的标号表示相同或对应的部分。
图1为本发明实施例关联信息的处理方法的实现流程示意图;
图2为本发明实施例关联信息的处理方法一应用的具体实现流程示意图;
图3为本发明实施例关联信息的处理装置的组成结构示意图。
具体实施方式
为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
图1示出了实施例关联信息的处理方法的实现流程示意图,如图1所示,该方法包括:操作110,获取多个用户标识的关联信息,其中多个用户标识的关联信息来自相同或不同的数据源;操作120,根据关联信息获取多个用户标识中每两个用户标识之间的关系得到第一关系集合;操作130,确定第一关系集合中每个关系的权重;操作140,根据权重和预设的权重阈值从第一关系集合中确定一个子集作为第二关系集合;操作150,根据第二关系集合,从多个用户标识中确定主标识并获取主标识与其他标识的对应关系。
在操作110中,每个用户对应的多个用户标识,指同一个用户在相同的系统或不同的系统中对应的多个可以标识该用户的用户标识,例如用于电话号码、电子邮件地址、各种ID、所用设备的MAC地址、唯一的cookie等等。这些用户标识可以是来自同一个系统的主、次标识,也可以是来自不同系统的、次标识。
多个用户标识的关联信息指相同的系统或不同的系统中包含多个用户标识的相关信息,即来自不同系统的记录中的多个用户标识的关系。例如,从商城用户数据中可以获得电话号码和LID的关系在一条记录中,则该条记录就是多个用户标识的关联信息。
通常多个用户标识的关联信息可以来自各个系统的自业务数据,监控数据,埋点数据等。
在操作110中获取的多个用户标识的关联信息可能是一对多,也可能是多对多的关系,这种结构的关系会使后续的计算变得非常复杂,甚至是难以实现,因此,还需要通过操作120将一对多或多对多的关系转换为一对一的关系。
在操作120中,根据关联信息获取多个用户标识中每两个用户标识之间的关系可通过先对关联信息进行分析得到多个用户标识之间一对多或多对多的关系,然后再对一对多或多对多的关系进行拆分得到每两个用户标识之间的一对一关系。
在现有的技术方案中,通常会直接根据操作120得到的关系集合进行计算,但由于随着时间的推移,系统会沉积越来越多的垃圾关系,就会使得第一关系集合变得日益庞大,使计算的负担也越来越重,而且垃圾关系还会对关系计算产生干扰,导致最终的计算结果产生误差。
因此,本发明人创造性地想到如果能对第一集合中的每个关系进行评分,并根据评分确定每个关系的有效性,将评分低于某些阈值的关系筛除掉就可以使后续的计算更为简单高效,且准确率稿。
于是,在操作120之后,还增加了操作130和操作140以从第一关系集合中筛除掉垃圾关系得到第二关系集合。
在操作130中,如何确定关系的权重主要依据关系的重要程度以及关系的时效性,也可以加入特定系统的特定考量。
例如,可以通过以下几个因素来确定关系的权重:
1)数据来源价值:业务数据的权重大于采集数据;线下数据的权重大于线上数据;
2)频次:关系出现次数越多,权重越高;
3)关系强弱程度不同:关系越强,权重越高;
4)时间增益:关系出现时间越近,权重越高。用户标识的重要程度和使用频率等等。
需要说明的是,以上仅为示例性说明,并非对确定权重方法的限定,实施者还可在此基础上进行扩展,采用任何适用的方法。
在操作140中,权重阈值通常是基于专家经验或统计结果的估算值,并可以根据实施效果进行调整的一个值。
在从第一关系集合中确定一个子集作为第二关系集合,通常是从第一关系集合中选取权重高于阈值的关系得到第二关系集合,也可以通过排序将权重低于阈值的关系删除掉。
在操作150中,可根据常用方法或任何适用的方法,对第二关系集合进行处理,以从多个用户标识中确定主标识并获取主标识与其他标识的对应关系。
由于经过操作130和操作140的处理,可以将一些失效或无用的关系筛选掉,因此,在操作150中仅需要对有效的关系进行计算,从而大大节省算力,使计算效率得以大幅提升。此外,由于排除了无效关系的干扰,也使得操作150处理后得到的结果更准确。
此外,在操作150中,主标识指可以唯一标识用户、稳定性最强、最常用的标识。从多个用户标识中确定主标识并确定确定主标识并获取主标识与其他标识的对应关系,可以使得到的多个用户标识之间的关系结果更稳定,进而使基于该关系结果的上层用户画像系统更稳定。
需要说明的是,图1示出的仅为本发明的一个基本实施例,实施者还可以基于上述实施例进行更多扩展可优化,例如下列实施方式:
根据本发明实施例一实施方式,在获取多个用户标识的关联信息时,可选择在仅获取多个用户标识的增量信息;相应地,在获取多个用户标识中每两个用户标识之间的关系得到第一关系集合时,可根据增量信息和多个用户标识的已有关系集合,获取多个用户标识中每两个用户标识之间的关系得到第一关系集合。
对于一些较为复杂或庞大的系统来说,多个用户标识之间的关系也是非常复杂和繁多的,这就使得获取第一关系集合的过程相对繁杂和耗时。如果每次提取用户标识之间的关系时,都需要进行一次的话会消耗大量的系统。但实际上,有些用户标识之间的关系是相对稳定,不会经常变化的。因此,如果能基于已有的关系集合,仅获取变化的增量信息,例如,把每天的数据合并到前一天得到的数据集合中,只处理发生变化的用户标识和在原有关系中加入包含当前新加入的关系,这样就可以节约大量的系统资源和时间消耗。
根据本发明实施例一实施方式,在确定第一关系集合中每个关系的权重时,可通过获取与每个关系关联的动态统计数据,并根据动态统计数据计算第一关系集合中每个关系的权重。
在本实施方式中,每个关系的权重并不是固定不变的,而是根据一些动态的统计数据进行相应变化的。例如,有些用户标识是具有时效的,那么随着时间的推移,该用户标识的权重也会随之衰减;有些用户标识在某段时间内经常使用,在某段时间内不经常使用,那在相应时段内的权重也会随之变化等等。因此,根据动态的统计数据所计算的权重更为合理也更为准确。
根据本发明实施例一实施方式,在根据动态统计数据计算第一关系集合中每个关系的权重之前,还可以根据每个关系的数据来源确定相应关系的权重初始值。
在使用动态的统计数据计算权重时,通常需要设置一个权重初始值,在本实施方式中,根据每个关系的数据来源来确定这一关系权重的初始值。
通常来说,每个关系的数据来源会更大程度上影响关系的稳定性和重要性,例如,用户经常使用的系统中的关系比起不经常使用的系统中的关系更为稳定;用于用户登录的认证信息中的关系比用于记录用户喜好信息中的关系更稳定也更重要。由此可见,每个关系的数据来源的价值越高,对关系的稳定性和重要性的影响也越大。
因此,以每个关系的数据来源来确定这一关系权重的初始值会使权重值更加合理、更能反映关系的重要程度。
根据本发明实施例一实施方式,在根据动态统计数据计算第一关系集合中每个关系的权重之前,还可以对第一关系集合中每个关系的权重进行时间衰减处理。
如前所述,有些关系是具有时效性的,随着时间的推移,该关系的重要程度也会随之降低。因此,在本实施方式中会对这部分关系进行时间衰减处理。其中,在进行衰减处理时,可根据关系强弱程度来进行不同处理,强关系的衰减周期可以设置为相对较长的时间,而弱关系的衰减周期可以设置为相对较短的时间。
根据本发明实施例一实施方式,根据第二关系集合,从多个用户标识中确定主标识并获取主标识与其他标识的对应关系,包括:根据第二关系集合构建图,其中,图中的每个点代表多个用户标识中的每个用户标识,每条边代表第二关系集合中的每个关系,每条边设置有权重值,权重值为相应关系的权重;对图进行聚类图计算得到多个子图;根据每个子图确定代表主标识的主节点;根据代表主标识的主节点以及主节点与其他节点之间的关系,确定主标识与其他标识的对应关系。
在本实施方式中采用了目前常用的图计算方法来确定确定主标识与其他标识的对应关系。这一方法主要通过将关系集合转换为图数据结构,然后利用图论中的图计算方法,例如连通算法,路径距离计算等算法,对图中的点进行聚类计算得到多个子集,其中,每个子集代表关联程度最高的点的集合。
通过这一方法,可以从第二关系子集中找到关系最为紧密的多个用户标识,这些用户标识通常是同一个用户所使用的标识,并可以从中选取一个和其他标识关联较多的标识作为主标识。
根据本发明实施例一实施方式,多个用户标识设置有优先级,相应地,第二关系集合中的每个关系为有向关系,有向关系的方向是由优先级高的用户标识指向优先级低的用户标识;图为有向图,其中边为有向边,每条有向边代表第二关系集合中的每个有向关系。
在本实施方式中,根据多个用户标识的优先级使无向图变为有向图,可大大节省图计算的时间;且用户标识的优先级也可以成为关系权重和节点评分的计算中,使权重值和评分更为准确。
用户标识的优先级通常都是预先指定的,主要根据ID是否常用,是否长期有效,是否经过认证等因素进行设定。
根据本发明实施例一实施方式,根据每个子图确定代表主标识的主节点,包括:根据每个节点所连接的边的权重确定每个节点的评分;将评分最高的节点确定为代表主标识的主节点。
由于评分最高的节点所代表的用户标识,通常是最重要也是最稳定的用户标识,将评分最高的节点确定为代表主标识的主节点,更符合主标识的定义,也使得获取的关系结果更为稳定。
图2示出了本发明实施例关联信息的处理方法一应用的具体实现流程示意图。如图2所示,在该应用中主要通过以下步骤确定了多个用户标识中的主标识,以及主标识和其他标识之间的对应关系:
操作2010,从不同数据源抽取ID关系;
步骤2020,将ID关系打平为有向关系:
即将一对多或多对多的关系转换为一对一的关系,并根据ID的优先级设置关系的方向,使优先级低的关系指向优先级高的关系。
步骤2030,依据数据来源表设置关系的初始权重;
步骤2040,判断本次计算是要进行全量计算还是要进行增量计算,如果是全量计算,则继续步骤2060,如果设增量计算,则继续步骤2050;
步骤2050,检索包含ID的所有子图及关系;
步骤2060,对ID关系权重进行时间衰减;
步骤2070,关系合并,计算关系的权重;
在计算关系权重值时采用了下面的公式:
计算ID关系权重值Weight=∑S(aF+bW+cG)
时间衰减函数W=W0 *ex(-λ*(T-T0))
其中:
W代表当前的关系权重值;
W0代表初始的关系权重值;
T代表当前时间;
T0代表关系产生的时间点;
步骤2080,判读关系权重是否小于阈值,若小于则继续步骤2090,若大于则继续步骤2100;
步骤2090,删除权重小于阈值的关系;
步骤2100,进行图计算;
步骤2110,删除权重小于阈值的关系之后,可以将关系转换为单点关系,再进行图计算;
步骤2120,生成多个子图;
步骤2130,进行ID排序:依据ID关系权重和ID优先级排序;
步骤2140,甄选出排序靠前的ID作为主ID;
步骤2150,存储主ID和其他ID之间的一对多关系。
需要说明的是,上述应用仅为本发明实施例关联关系的处理方法的应用之一,是示例性说明,并非对本发明实施例实施方式或应用场景的限定,实施者可根据具体实施条件采用任何适用的实施方式应用于任何适用的应用场景中。
进一步地,本发明实施例还提供一种关联信息的处理装置。如图3所示,该装置30包括:用户信息获取模块301,用于获取多个用户标识的关联信息,其中多个用户标识的关联信息来自相同或不同的数据源;关系集合获取模块302,用于根据关联信息获取多个用户标识中每两个用户标识之间的关系得到第一关系集合;关系权重确定模块303,用于确定第一关系集合中每个关系的权重;有效关系确定模块304,用于根据权重和预设的权重阈值从第一关系集合中确定一个子集作为第二关系集合;对应关系确定模块305,用于根据第二关系集合,从多个用户标识中确定主标识并获取主标识与其他标识的对应关系。
根据本发明实施例一实施方式,用户信息获取模块301包括:增量信息获取子模块,用于获取多个用户标识的增量信息;相应地,关系集合获取模块包括具体用于根据增量信息和多个用户标识的已有关系集合,获取多个用户标识中每两个用户标识之间的关系得到第一关系集合。
根据本发明实施例一实施方式,关系权重确定模块303包括:统计数据获取子模块,用于获取与每个关系关联的动态统计数据;权重计算子模块,用于根据动态统计数据计算第一关系集合中每个关系的权重。
根据本发明实施例一实施方式,关系权重确定模块还包括:权重初始值设置子模块,用于根据每个关系的数据来源确定相应关系的权重初始值。
根据本发明实施例一实施方式,关系权重确定模块303还包括:时间衰减处理模块,用于对第一关系集合中每个关系的权重进行时间衰减处理。
根据本发明实施例一实施方式,对应关系确定模块305包括:图构建子模块,用于根据第二关系集合构建图,其中,图中的每个点代表多个用户标识中的每个用户标识,每条边代表第二关系集合中的每个关系,每条边设置有权重值,权重值为相应关系的权重;聚类图计算子模块,用于对图进行聚类图计算得到多个子图;主节点确定子模块,用于根据每个子图确定代表主标识的主节点;对应关系确定子模块,用于根据代表主标识的主节点以及主节点与其他节点之间的关系,确定主标识与其他标识的对应关系。
根据本发明实施例一实施方式,主节点确定子模块包括节点评分单元,用于根据每个节点所连接的边的权重确定每个节点的评分;主节点确定单元,用于将评分最高的节点确定为代表主标识的主节点。
根据本发明实施例第三方面,提供一种计算机可读存储介质,存储介质包括一组计算机可执行指令,当指令被执行时用于执行上述任一项的关联信息的处理方法。
这里需要指出的是:以上针对关联信息的处理装置实施例的描述和以上针对计算机可读存储介质实施例的描述,与前述方法实施例的描述是类似的,具有同前述方法实施例相似的有益效果,因此不做赘述。对于本发明对关联信息的处理装置实施例的描述和对计算机可读存储介质实施例的描述尚未披露的技术细节,请参照本发明前述方法实施例的描述而理解,为节约篇幅,因此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储介质、只读存储器(Read Only Memory,ROM)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例方法的全部或部分。而前述的存储介质包括:移动存储介质、ROM、磁碟或者光盘等各种可以存储程序代码的介质。
以上,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
Claims (10)
1.一种关联信息的处理方法,所述方法包括:
获取多个用户标识的关联信息,其中所述多个用户标识的关联信息来自相同或不同的数据源;
根据所述用户标识之间的关系得到第一关系集合;
确定所述第一关系集合中每个关系的权重;
根据所述权重和预设的权重阈值从所述第一关系集合中确定一个子集作为第二关系集合;
根据所述第二关系集合,从所述多个用户标识中确定主标识并获取所述主标识与其他标识的对应关系。
2.根据权利要求1所述的方法,所述获取多个用户标识的关联信息,包括:
获取多个用户标识的增量信息;
相应地,所述根据所述关联信息获取所述多个用户标识中每两个用户标识之间的关系得到第一关系集合,包括:
根据所述增量信息和所述多个用户标识的已有关系集合,获取所述多个用户标识中每两个用户标识之间的关系得到第一关系集合。
3.根据权利要求1所述的方法,所述确定所述第一关系集合中每个关系的权重,包括:
获取与每个关系关联的动态统计数据;
根据所述动态统计数据计算所述第一关系集合中每个关系的权重。
4.根据权利要求3所述的方法,在所述根据所述动态统计数据计算所述第一关系集合中每个关系的权重之前,所述方法还包括:
根据每个关系的数据来源确定相应关系的权重初始值。
5.根据权利要求3所述的方法,在所述根据所述动态统计数据计算所述第一关系集合中每个关系的权重之前,所述方法还包括:
对所述第一关系集合中每个关系的权重进行时间衰减处理。
6.根据要求1所述的方法,所述根据所述第二关系集合,从所述多个用户标识中确定主标识并获取所述主标识与其他标识的对应关系,包括:
根据所述第二关系集合构建图,其中,图中的每个点代表所述多个用户标识中的每个用户标识,每条边代表所述第二关系集合中的每个关系,每条边设置有权重值,所述权重值为相应关系的权重;
对所述图进行聚类图计算得到多个子图;
根据每个子图确定代表主标识的主节点;
根据所述代表主标识的主节点以及主节点与其他节点之间的关系,确定所述主标识与其他标识的对应关系。
7.根据权利要求6所述的方法,所述多个用户标识设置有优先级,相应地,
所述第二关系集合中的每个关系为有向关系,所述有向关系的方向是由优先级高的用户标识指向优先级低的用户标识;
所述图为有向图,其中所述边为有向边,每条有向边代表所述第二关系集合中的每个有向关系。
8.根据权利要求6所述的方法,所述根据每个子图确定代表主标识的主节点,包括:
根据每个节点所连接的边的权重确定每个节点的评分;
将评分最高的节点确定为代表主标识的主节点。
9.一种关联信息的处理装置,所述装置包括:
用户信息获取模块,用于获取多个用户标识的关联信息,其中所述多个用户标识的关联信息来自相同或不同的数据源;
关系集合获取模块,用于根据所述关联信息获取所述多个用户标识中每两个用户标识之间的关系得到第一关系集合;
关系权重确定模块,用于确定所述第一关系集合中每个关系的权重;
有效关系确定模块,用于根据所述权重和预设的权重阈值从所述第一关系集合中确定一个子集作为第二关系集合;
对应关系确定模块,用于根据所述第二关系集合,从所述多个用户标识中确定主标识并获取所述主标识与其他标识的对应关系。
10.一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行权利要求1至8任一项所述的关联信息的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011629498.XA CN112734466A (zh) | 2020-12-31 | 2020-12-31 | 一种关联信息的处理方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011629498.XA CN112734466A (zh) | 2020-12-31 | 2020-12-31 | 一种关联信息的处理方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112734466A true CN112734466A (zh) | 2021-04-30 |
Family
ID=75608226
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011629498.XA Pending CN112734466A (zh) | 2020-12-31 | 2020-12-31 | 一种关联信息的处理方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112734466A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880407A (zh) * | 2022-05-30 | 2022-08-09 | 上海九方云智能科技有限公司 | 基于强弱关系网络的用户智能识别方法和系统 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105227352A (zh) * | 2015-09-02 | 2016-01-06 | 新浪网技术(中国)有限公司 | 一种用户标识集的更新方法及装置 |
US20180108086A1 (en) * | 2016-10-14 | 2018-04-19 | Chicago Mercantile Exchange Inc. | Object value range optimization based on inter-object relationships |
CN110046196A (zh) * | 2019-04-16 | 2019-07-23 | 北京品友互动信息技术股份公司 | 标识关联方法及装置、电子设备 |
CN111368013A (zh) * | 2020-06-01 | 2020-07-03 | 深圳市卡牛科技有限公司 | 基于多账户的统一标识方法、系统、设备和存储介质 |
CN111831923A (zh) * | 2020-07-14 | 2020-10-27 | 北京芯盾时代科技有限公司 | 识别关联的特定账户的方法、装置及存储介质 |
-
2020
- 2020-12-31 CN CN202011629498.XA patent/CN112734466A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105227352A (zh) * | 2015-09-02 | 2016-01-06 | 新浪网技术(中国)有限公司 | 一种用户标识集的更新方法及装置 |
US20180108086A1 (en) * | 2016-10-14 | 2018-04-19 | Chicago Mercantile Exchange Inc. | Object value range optimization based on inter-object relationships |
CN110046196A (zh) * | 2019-04-16 | 2019-07-23 | 北京品友互动信息技术股份公司 | 标识关联方法及装置、电子设备 |
CN111368013A (zh) * | 2020-06-01 | 2020-07-03 | 深圳市卡牛科技有限公司 | 基于多账户的统一标识方法、系统、设备和存储介质 |
CN111831923A (zh) * | 2020-07-14 | 2020-10-27 | 北京芯盾时代科技有限公司 | 识别关联的特定账户的方法、装置及存储介质 |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114880407A (zh) * | 2022-05-30 | 2022-08-09 | 上海九方云智能科技有限公司 | 基于强弱关系网络的用户智能识别方法和系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US20090006444A1 (en) | Method and system for distribution of information | |
CN108040136B (zh) | 一种ip资源管理方法及系统 | |
CN107944036B (zh) | 一种图谱变化差异的获取方法 | |
CN111352808A (zh) | 告警数据处理方法、装置、设备及存储介质 | |
US8700756B2 (en) | Systems, methods and devices for extracting and visualizing user-centric communities from emails | |
CN110674231A (zh) | 一种面向数据湖的用户id集成方法和系统 | |
CN104965846B (zh) | MapReduce平台上的虚拟人建立方法 | |
CN109639478A (zh) | 识别存在家庭关系客户的方法、装置、设备及介质 | |
CN115333966A (zh) | 一种基于拓扑的Nginx日志分析方法、系统及设备 | |
CN112734466A (zh) | 一种关联信息的处理方法、装置及存储介质 | |
CN117118810B (zh) | 一种网络通信异常预警方法及系统 | |
CN112100452B (zh) | 数据处理的方法、装置、设备及计算机可读存储介质 | |
CN116708369B (zh) | 网络应用信息合并方法、装置、电子设备和存储介质 | |
CN113205129A (zh) | 一种作弊团伙识别方法、装置、电子设备及存储介质 | |
CN117221078A (zh) | 关联规则确定方法、装置及存储介质 | |
CN104486769A (zh) | 一种价值小区的选取方法及装置 | |
CN112307297A (zh) | 一种基于优先级规则的用户标识统一方法及系统 | |
CN112068812A (zh) | 一种微服务生成方法、装置、计算机设备和存储介质 | |
CN115423030A (zh) | 一种设备识别的方法和装置 | |
JP2019036032A (ja) | 情報処理装置、情報処理方法、及びプログラム | |
CN116955709A (zh) | 一种用户数据融合处理方法及系统 | |
CN110597572B (zh) | 一种服务调用关系分析方法和计算机系统 | |
CN115269126B (zh) | 一种基于余弦相似度的云平台反亲和调度系统 | |
CN112235367A (zh) | 一种实体行为关系消息订阅方法、系统、终端及存储介质 | |
CN106600250B (zh) | 区块链去中心化到中心化的用户标识方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |