CN115730251A - 关系识别方法 - Google Patents
关系识别方法 Download PDFInfo
- Publication number
- CN115730251A CN115730251A CN202211559654.9A CN202211559654A CN115730251A CN 115730251 A CN115730251 A CN 115730251A CN 202211559654 A CN202211559654 A CN 202211559654A CN 115730251 A CN115730251 A CN 115730251A
- Authority
- CN
- China
- Prior art keywords
- relationship
- nodes
- identified
- strong
- users
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 63
- 230000008569 process Effects 0.000 description 7
- 230000002159 abnormal effect Effects 0.000 description 6
- 230000006399 behavior Effects 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 230000008901 benefit Effects 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000012986 modification Methods 0.000 description 2
- 230000004048 modification Effects 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000002457 bidirectional effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Images
Landscapes
- Telephonic Communication Services (AREA)
Abstract
本发明实施例公开了一种关系识别方法。所述关系识别方法包括:根据用户数据库中的多个节点之间的强关联关系,构建关于所述多个节点的强关系网络,其中,具有强关联关系的节点群构成所述强关系网络中的同一连通分量;通过第一梯度提升模型确定所述强关系网络中的同一连通分量中的待识别节点对之间的强关联关系的第一置信度;以及在所述第一置信度大于第一预设值的情况下,确定所述同一连通分量中的所述待识别节点对所对应的用户为同一决策主体。本发明可有效地识别具有强关联关系的待识别节点对(例如,手机号对)是否对应于同一决策主体,从而至少可有效识别上述换号成交的情况。
Description
技术领域
本发明涉及一种关系识别方法。
背景技术
CPS(Cost Per Sales,基于成交的收费)平台将商机分配给经纪人,一旦CPS客源发生成交,经纪人需要缴纳一定比例的信息服务费;而若不成交或不是通过平台分配的商机成交的(如用户与该经纪人在此次商机之前就已经发生过线下委托),则不需要缴纳服务费。因此,向CPS平台缴纳服务费有两个前提:用户与经纪人通过CPS平台提供的信息产生关联;用户在该经纪人的帮助下发生成交。
为了逃避要向平台缴纳的成交佣金,部分经纪人变更用户的信息来将CPS客源申报为非CPS客源,这种行为称为挪单。具体地,采用非CPS客源的手机号或账号进行成交,即换号或换人成交。然而,现有的CPS平台无法对上述换号或换人的情况进行识别,进而导致挪单行为影响CPS平台的实际收入和利润,使得其利益受到损失。
发明内容
本发明的目的是提供一种关系识别方法,其可有效地识别具有强关联关系的待识别节点对(例如,手机号对)是否对应于同一决策主体,从而至少可有效识别上述换号成交的情况。
为了实现上述目的,本发明一方面提供一种关系识别方法,所述关系识别方法包括:根据用户数据库中的多个节点之间的强关联关系,构建关于所述多个节点的强关系网络,其中,具有强关联关系的节点群构成所述强关系网络中的同一连通分量;通过第一梯度提升模型确定所述强关系网络中的同一连通分量中的待识别节点对之间的强关联关系的第一置信度;以及在所述第一置信度大于第一预设值的情况下,确定所述同一连通分量中的所述待识别节点对所对应的用户为同一决策主体。
在至少一个实施例中,所述多个节点包括:设备号、手机号、微信号、账号以及委托关系号。
在至少一个实施例中,所述通过第一梯度提升模型确定所述强关系网络中的同一连通分量中的待识别节点对之间的强关联关系的第一置信度包括:通过第一梯度提升模型与第一正样本集,并采用预设分类学习方法确定所述同一连通分量中的待识别节点对之间的强关联关系的第一置信度。
在至少一个实施例中,所述第一正样本集包括:在预设时间段内的同一连通分量中的满足以下条件的待识别节点对,相互分享过的用户、从发生共同成交或共同带看的用户中随机抽取的部分用户、以及发生共同成交或共同带看中的一者并且所述待识别节点对之间的路径长度大于预设数目的用户,以及所述第一正样本集中的每一者的多维度特征包括以下各项中的至少两者:最短路径长度、路径数目、路径总长度、连通分量中的节点总数、路径上手机号节点的数目、路径上设备号节点的数目以及路径上委托关系号节点的数目。
在至少一个实施例中,所述关系识别方法还包括:根据所述多个节点之间的弱关联关系及所述强关系网络,构建关于所述多个节点的关系网络;通过第二梯度提升模型确定所述关系网络中的不同连通分量中的所述待识别节点对之间的弱关联关系的第二置信度;以及在所述第二置信度大于第二预设值的情况下,确定所述不同连通分量中的所述待识别节点对所对应的用户为共同决策体。
在至少一个实施例中,所述通过第二梯度提升模型确定所述关系网络中的不同连通分量中的所述待识别节点对之间的弱关联关系的第二置信度包括:通过所述第二梯度提升模型与第二正样本集,并采用预设分类学习方法确定所述不同连通分量中的所述待识别节点对之间的弱关联关系的第二置信度。
在至少一个实施例中,所述第二正样本集包括:在不同连通分量中的共同成交的用户的待识别节点对;以及在不同连通分量中的共同带看用户的待识别节点对,以及所述第二正样本集中的每一者的多维度特征包括以下各项中的至少两者:分享次数;被分享次数;所述待识别节点对分别所在的连通分量中的节点总数;所述待识别节点对分别所在的连通分量中的待识别节点的数目、设备号的数目、委托关系号的数目;不同的特定时间段内共同连接的WiFi的数目;以及不同的特定时间段内共现在同一位置的次数。
在至少一个实施例中,所述待识别节点为手机号。
通过上述技术方案,本发明创造性地首先根据用户数据库中的多个节点之间的强关联关系,构建关于所述多个节点的强关系网络;接着通过第一梯度提升模型确定所述强关系网络中的同一连通分量中的待识别节点对之间的强关联关系的第一置信度;最后在所述第一置信度大于第一预设值的情况下,确定所述同一连通分量中的所述待识别节点对所对应的用户为同一决策主体。由此,本发明可有效地识别具有强关联关系的待识别节点对(例如,手机号对)是否对应于同一决策主体,从而至少可有效识别上述换号成交的情况。
本发明第二方面提供一种机器可读存储介质,所述机器可读存储介质上存储有指令,该指令用于使得机器执行上述的关系识别方法。
本发明第三方面提供一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的关系识别方法。
本发明的其它特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
附图是用来提供对本发明实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本发明实施例,但并不构成对本发明实施例的限制。在附图中:
图1是本发明一实施例提供的关系识别方法的流程图;
图2A是本发明一实施例提供的注册用户的节点组的示意图;
图2B是本发明一实施例提供的注册且委托用户的节点组的示意图;
图3是本发明一实施例提供的同一连通分量的示意图;
图4A是本发明一实施例提供的弱关联关系的示意图;以及
图4B是本发明一实施例提供的弱关联关系的示意图。
具体实施方式
以下结合附图对本发明的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本发明,并不用于限制本发明。
图1是本发明一实施例提供的关系识别方法的流程图。如图1所示,所述关系识别方法可包括以下步骤S101-S103。
步骤S101,根据用户数据库中的多个节点之间的强关联关系,构建关于所述多个节点的强关系网络。
其中,所述多个节点(即,关于用户身份及其所用设备的标识)可包括:设备号、手机号(phone)、微信号、账号(即ucid)以及委托关系号。其中,所述委托关系号(即委托关系id)可指表征用户和该用户所委托的经纪人的关系的标识。
其中,所述强关联关系包括以下各项中的至少两者:注册关系、绑定关系、登录关系、带看关系、委托关系以及成交关系。
所述注册关系是指因通过ID(例如,账号和/或手机号)在设备上注册的行为而产生的ID(例如,账号和/或手机号)与设备号之间的关系);所述绑定关系是指因在设备上绑定ID(例如,账号/手机号)的行为而产生的ID(例如,账号/手机号)与设备号之间的关系;所述登录关系是指因通过不同设备登录应用的行为而产生的不同设备号之间的关系;所述带看关系是指因经纪人的带看行为而产生的经纪人手机号与客户手机号之间的关系;所述委托关系是指因委托行为而产生的委托人手机号与被委托人手机号(或委托人手机号、被委托人手机号与委托关系号)之间的关系;成交关系是指因成交订单行为而产生的成交人微信号、成交人手机号、成交人账号中的任两者之间的关系。
具体地,所述强关联关系包括以下各项中的至少两者:应用程序数据中的不同设备号之间的关系;注册数据中的账号、设备号与手机号中的任两者之间的关系;商机数据中的手机号与设备号之间的关系;带看数据中的手机号与手机号之间的关系;委托数据中的手机号与手机号之间的关系或者手机号与委托关系号之间的关系;以及订单数据中的成交人微信号、成交人手机号与成交人账号中的任两者之间的关系。
其中,具有强关联关系的节点群构成所述强关系网络中的同一连通分量,如图3所示。
在一实施例中,首先,各个用户通过各自的节点之间的强关联关系形成如图2A或图2B所示的不同的用户节点组。例如,图2A表示注册用户的节点组;图2B表示注册且委托用户(CPS客源)的节点组。其中,所述设备号可包括:广告标识符(idfa)、国际移动设备识别码(imei)、匿名设备标识符(oaid)、链家设备标识符(lianjia_device_id)、通用唯一识别码(uuid)、唯一设备识别符(udid)数盟id、媒体访问控制标识符(macid)等。
图2A表示注册用户的节点组是指:手机号为phone1的用户在设备号为idfa1、lianjia_device_id1、uuid1、udid1的设备上登录过账号为ucid1的应用程序(例如CPS应用)。图2B表示注册且委托用户的节点组是指:手机号为phone2的用户委托手机号为phone3且CPS应用的注册ID为custdel_id1的经纪人;该用户在设备号为imei2、lianjia_device_id2、uuid2、udid2、android_id2的设备上登录过账号为ucid2的应用程序(例如CPS应用),且该用户还咨询过CPS应用的注册ID为custdel_id2的经纪人。
其次,采用不同用户的节点组之间的强关联关系,建立强关联关系网络。例如,若图2B所示的注册且委托用户还在uuid1设备上登录过ucid2账号,由此,注册且委托用户通过设备号uuid1建立账号ucid2与账号ucid1之间的强关联关系,如图3所示。类似地,建立其他不同用户的节点组之间的强关联关系。
在执行所述构建关于所述不同节点的强关系网络的步骤(即步骤S101)之后,所述关系识别方法还可包括:对所述强关系网络中的异常数据进行过滤。
其中,所述异常数据包括:经纪人的设备号和账号;以及默认账号与默认设备号。具体地,(1)过滤经纪人的设备号和账号,并通过经纪人的账号将其设备号与手机号带来的关联关系断掉,以防止因经纪人的手机或电脑等设备登录多个账号带来的异常关联。(2)默认账号与默认设备号可指获取不到的账号与设备号(如imei、idfa等),其会用默认值替代。这些默认值会将不同的设备号聚合到一个节点,因此,需要过滤默认账号或默认设备号,并将它们带来的关联关系断开。
在一实施例中,首先,利用线上埋点信息、注册、商机、带看、委托等数据,确定用户数据库中的多个节点之间的强关联关系,并对上述节点以及强关联关系进行合并去重,采用spark的graphX构造强关系网络以构造强关系网络。
由于强关系网络中可能存在异常关联,故可通过第一梯度提升模型(例如,强关系置信度预估模型)对位于同一个连通分量中的待识别节点对(例如,手机号对)之间的关系进行置信度检测,以将所检测的置信度作为所述待识别节点对之间的强关联关系的可信度。
步骤S102,通过第一梯度提升模型确定所述强关系网络中的同一连通分量中的待识别节点对之间的强关联关系的第一置信度。
换号成交识别问题关注的是两个手机号(即手机号对)之间的关系,但是由于在构建强关系网络过程中可能会存在异常节点和异常关系(如多个账号在同一设备登录或者一个账号在多个设备登录等,导致出现部分较大的连通分量),如果同一个连通分量上的手机号对都识别为同一决策主体,则会导致结果不可信。
在一实施例中,所述待识别节点可为手机号。因此,对位于同一连通分量中的手机号对之间的关系进行置信度校验,以给出两个手机号之间的关系强弱。
下面对所述第一梯度提升模型的相关内容进行说明。
所述通过第一梯度提升模型确定所述强关系网络中的同一连通分量中的待识别节点对之间的强关联关系的第一置信度可包括:通过第一梯度提升模型与第一正样本集,并采用预设分类学习方法(例如,正样本和未标记样本的分类学习方法,即,pu learning方法)确定所述同一连通分量中的待识别节点对之间的强关联关系的第一置信度。
其中,所述第一正样本集可包括在预设时间段内的同一连通分量中的满足以下条件的待识别节点对:相互分享过的用户、从发生共同成交或共同带看的用户中随机抽取的部分用户、以及发生共同成交或共同带看中的一者且所述待识别节点对之间的路径长度大于预设数目的用户。
其中,共同成交是指两人或两人以上共同作为成交订单中的一方与另一方达成交易并生成订单;共同带看是指经纪人带着两人或两人以上一起线上/线下看标的物(例如房子)。
具体地,所述第一正样本集可包括:近六个月互相分享过的用户;从发生共同成交或共同带看的用户中随机抽取的部分用户;以及发生共同成交或共同带看中的一者并且手机号对之间的路径长度大于3的用户(即,不是直接通过委托关系号连起来的用户)。
其中,所述第一正样本集中的每一者的多维度特征可包括以下各项中的至少两者:最短路径长度、路径数目、路径总长度、连通分量中的节点总数、路径上手机号节点的数目、路径上设备号节点的数目以及路径上委托关系号节点的数目。具体地,所述每个正样本的所述多维度特征可从步骤S101构建的强关系网络中得到。
在采用pu learning方法(更为具体地,pu bagging方法)对所述第一梯度提升模型进行训练的过程中,除了上述标记的少量的第一正样本集之外,还需要用到强关联关系的置信度的同一连通分量中的待识别节点对(即未标记样本)。其中,所述待识别节点对可为手机号对。
由于第一梯度提升模型只有少量的正样本,因此,用pu learning思想:将所述第一正样本集作为正样本(选用该正样本的上述7个特征作为多维度特征),将随机选择所述未标记样本中的与正样本等量的样本作为负样本,来训练所述第一梯度提升模型(例如xgboost树模型),然后对未被抽到的未标记样本对进行打分,以获取所述未标记样本的置信度。重复上述过程多次(如,20次),然后对多次得到的未标记样本的置信度取均值,以获取所述未标记样本的最终置信度(即,第一置信度)。
由此,通过该第一梯度提升模型(例如xgboost树模型)及少量的正样本可预估所构建的强关系网络中的大量的同一连通分量中的手机号对之间的强关联关系的概率。
步骤S103,在所述第一置信度大于第一预设值的情况下,确定所述同一连通分量中的所述待识别节点对所对应的用户为同一决策主体。
若通过步骤S102得到的所述强关系网络中的同一连通分量中的手机号对之间的强关联关系的置信度大于第一预设值,则表明所述手机号对之间为强关联关系的可信度非常高,即,可确定所述手机号对所对应的用户为同一决策主体。若通过步骤S102得到的所述强关系网络中的同一连通分量中的手机号对之间的强关联关系的置信度小于或等于第一预设值,则表明所述手机号对之间为强关联关系的可信度不高,即,可确定所述手机号对所对应的用户不是同一决策主体。
通过上述构建的强关系网络只能挖掘出有路径关联的节点之间的关系,因此,还可进一步对强关联关系覆盖不到的用户关系进行补充,以挖掘出强关系网络中不连通的节点之间属于共同决策体的可能性。由此,在构建好上述强关系网络的基础上,对于没有直接关联的用户节点组,可利用网络拓扑属性、不同时间段的WiFi登录信息、位置信息、分享信息,采用pu-learning方法可进一步构建弱关系网络,从而通过整个关系网络(包括弱关系网络与强关系网络)可预估非连通节点的关系,以挖掘不同用户、不同设备等之间的弱关联关系。
在一实施例中,所述关系识别方法还可包括:根据所述多个节点之间的弱关联关系及所述强关系网络,构建关于所述多个节点的关系网络;通过第二梯度提升模型确定所述关系网络中的不同连通分量中的所述待识别节点对之间的弱关联关系的第二置信度;以及在所述第二置信度大于第二预设值的情况下,确定所述不同连通分量中的所述待识别节点对所对应的用户为共同决策体。
在执行所述构建关于所述多个节点的关系网络的步骤之后,所述关系识别方法还可包括:对所述关系网络中的异常数据进行过滤。
其中,所述异常数据包括:异常WiFi。所述异常WiFi可为默认IP地址的WiFi。具体地,可过滤所述关系网络中的默认IP地址的WiFi。
其中,所述弱关联关系可包括在不同连通分量中但满足以下条件的关系:具有共同链接的WiFi、在特定时间段内共同出现在同一位置,或者发生相互分享。
具体地,如果两个用户之间不存在强关联关系,只在单一WiFi或单一位置共现,或者只发生过相互分享,则这两个用户之间的关系为弱关联关系(即不确定性关系)。
在一实施例中,利用上述弱关联关系将多个连通分量关联起来。例如,图4A所示,连通分量A与连通分量C通过彼此共同链接的WiFi而关联起来,连通分量A与连通分量C通过彼此相互分享过而关联起来;图4B所示,连通分量E与连通分量F、G、H通过彼此共同链接的WiFi而关联起来,连通分量E与连通分量I通过彼此共同链接的WiFi而关联起来。
下面对所述第二梯度提升模型的相关内容进行说明。
所述通过第二梯度提升模型确定所述关系网络中的不同连通分量中的所述待识别节点对之间的弱关联关系的第二置信度可包括:通过所述第二梯度提升模型与第二正样本集,并采用预设分类学习方法(例如,正样本和未标记样本的分类学习方法,即,pulearning方法)确定所述不同连通分量中的所述待识别节点对之间的弱关联关系的第二置信度。
其中,所述第二正样本集可包括:在不同连通分量中的共同成交的用户的待识别节点对;以及在不同连通分量中的共同带看用户的待识别节点对。
下面通过考虑WiFi数据(例如,不同时间段内的WiFi链接情况)、分享数据(例如单向或双向分享带来的账号之间的关系)、位置数据(例如,不同账号在不同时间段内的位置信息)来确定不同连通分量之间的弱关联关系(即不确定性关系)。
如果两个用户只在单一WiFi或单一位置共现,那么很可能是同事、合租的室友等非共同决策的用户;如果两个用户在多个位置、不同类型(私人、公共)的WiFi都出现共现关系,那么可以认为这两个用户存在共同决策的可能性比较大。同理,位置信息也是,当两个用户在多个位置都会同时出现,且同时打开app时,很可能两个用户存在共同决策的可能性比较大。
由此,所述第二正样本集中的每一者的多维度特征包括以下各项中的至少两者:分享次数;被分享次数;所述待识别节点对分别所在的连通分量中的节点总数;所述待识别节点对分别所在的连通分量中的待识别节点的数目、设备号的数目、委托关系号的数目;不同的特定时间段内共同连接的WiFi的数目;以及不同的特定时间段内共现在同一位置的次数。具体地,所述每个正样本的所述多维度特征可从上述构建的关系网络中得到。
具体地,不同的特定时间段的分类:(节假日、工作日、周末)*(9~21时、21时~次日9时),划分成6类。即,工作日9-21时、工作日21-次日9时、周末9-21时、周末21-次日9时、节假日9-21时与节假日21-次日9时。并且,对于WiFi而言,可根据bssid(即WiFi的Mac地址)认定不同用户链接的WiFi是否为同一WiFi。对于位置而言:可通过经纬度数据确定不同用户的位置,当不同用户之间的距离小于阈值时,确认所述不同用户处于同一位置。
在采用pu learning方法(更为具体地,pu bagging方法)对所述第二梯度提升模型进行训练的过程中,除了上述少量的标记的第二正样本集之外,还需要用到弱关联关系的置信度的不同连通分量中的所述待识别节点对(即未标记样本)。由于第二梯度提升模型只有少量的正样本,因此,用pu learning思想:将所述第二正样本集作为正样本(选用该正样本的上述8个特征作为多维度特征),将随机选择所述未标记样本中的与正样本等量的样本作为负样本,来训练所述第二梯度提升模型(例如xgboost树模型),然后对未被抽到的未标记样本对进行预测,以获取所述未标记样本的置信度。重复上述过程多次(如,20次),然后对多次得到的未标记样本的置信度取均值,以获取所述未标记样本的最终置信度(即,第二置信度)。
由此,通过该第二梯度提升模型(例如xgboost树模型)及少量的正样本可预估所构建的关系网络中的大量的不同连通分量中的手机号对之间的弱关联关系的概率。实际上,第二梯度提升模型的预测过程是一个链路预测过程。
在一实施例中,在上述步骤S101构建的强关系网络的基础上,可根据所述多个节点之间的弱关联关系,构建关于所述多个节点的整个关系网络。然后,通过上述训练的第二梯度提升模型来预测所述关系网络中的不同连通分量中的用户节点组所对应的用户为共同决策体的置信度。最终,若所述置信度大于第二预设值,则确定所述不同连通分量中的用户节点组所对应的用户为共同决策体;若所述置信度小于或等于所述第二预设值,则确定所述不同连通分量中的用户节点组所对应的用户不是共同决策体。
因此,通过上述实施例中的第二梯度提升模型可对预测待识别订单中的未关联用户是否为共同决策体,从而可有效识别通过更换账号(即换人)的方式来逃避向平台缴纳成交佣金的情况。
综上所述,本发明创造性地首先根据用户数据库中的多个节点之间的强关联关系,构建关于所述多个节点的强关系网络;接着通过第一梯度提升模型确定所述强关系网络中的同一连通分量中的待识别节点对之间的强关联关系的第一置信度;最后在所述第一置信度大于第一预设值的情况下,确定所述同一连通分量中的所述待识别节点对所对应的用户为同一决策主体。由此,本发明可有效地识别具有强关联关系的待识别节点对(例如,手机号对)是否对应于同一决策主体,从而至少可有效识别上述换号成交的情况。
本发明一实施例提供一种机器可读存储介质,所述机器可读存储介质上存储有指令,该指令用于使得机器执行上述的关系识别方法。
本发明一实施例提供一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述的关系识别方法。
以上结合附图详细描述了本发明实施例的可选实施方式,但是,本发明实施例并不限于上述实施方式中的具体细节,在本发明实施例的技术构思范围内,可以对本发明实施例的技术方案进行多种简单变型,这些简单变型均属于本发明实施例的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合。为了避免不必要的重复,本发明实施例对各种可能的组合方式不再另行说明。
本领域技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序存储在一个存储介质中,包括若干指令用以使得单片机、芯片或处理器(processor)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
此外,本发明实施例的各种不同的实施方式之间也可以进行任意组合,只要其不违背本发明实施例的思想,其同样应当视为本发明实施例所公开的内容。
Claims (10)
1.一种关系识别方法,其特征在于,所述关系识别方法包括:
根据用户数据库中的多个节点之间的强关联关系,构建关于所述多个节点的强关系网络,其中,具有强关联关系的节点群构成所述强关系网络中的同一连通分量;
通过第一梯度提升模型确定所述强关系网络中的所述同一连通分量中的待识别节点对之间的强关联关系的第一置信度;以及
在所述第一置信度大于第一预设值的情况下,确定所述同一连通分量中的所述待识别节点对所对应的用户为同一决策主体。
2.根据权利要求1所述的关系识别方法,其特征在于,所述多个节点包括:设备号、手机号、微信号、账号以及委托关系号。
3.根据权利要求1所述的关系识别方法,其特征在于,所述通过第一梯度提升模型确定所述强关系网络中的同一连通分量中的待识别节点对之间的强关联关系的第一置信度包括:
通过第一梯度提升模型与第一正样本集,并采用预设分类学习方法确定所述同一连通分量中的待识别节点对之间的强关联关系的第一置信度。
4.根据权利要求3所述的关系识别方法,其特征在于,所述第一正样本集包括:在预设时间段内的同一连通分量中的满足以下条件的待识别节点对,
相互分享过的用户、从发生共同成交或共同带看的用户中随机抽取的部分用户、以及发生共同成交或共同带看中的一者并且所述待识别节点对之间的路径长度大于预设数目的用户,以及
所述第一正样本集中的每一者的多维度特征包括以下各项中的至少两者:
最短路径长度、路径数目、路径总长度、连通分量中的节点总数、路径上手机号节点的数目、路径上设备号节点的数目以及路径上委托关系号节点的数目。
5.根据权利要求1所述的关系识别方法,其特征在于,所述关系识别方法还包括:
根据所述多个节点之间的弱关联关系及所述强关系网络,构建关于所述多个节点的关系网络;
通过第二梯度提升模型确定所述关系网络中的不同连通分量中的所述待识别节点对之间的弱关联关系的第二置信度;以及
在所述第二置信度大于第二预设值的情况下,确定所述不同连通分量中的所述待识别节点对所对应的用户为共同决策体。
6.根据权利要求5所述的关系识别方法,其特征在于,所述通过第二梯度提升模型确定所述关系网络中的不同连通分量中的所述待识别节点对之间的弱关联关系的第二置信度包括:
通过所述第二梯度提升模型与第二正样本集,并采用预设分类学习方法确定所述不同连通分量中的所述待识别节点对之间的弱关联关系的第二置信度。
7.根据权利要求5所述的关系识别方法,其特征在于,所述第二正样本集包括:在不同连通分量中的共同成交的用户的待识别节点对;以及在不同连通分量中的共同带看用户的待识别节点对,以及
所述第二正样本集中的每一者的多维度特征包括以下各项中的至少两者:
分享次数;被分享次数;所述待识别节点对分别所在的连通分量中的节点总数;所述待识别节点对分别所在的连通分量中的待识别节点的数目、设备号的数目、委托关系号的数目;不同的特定时间段内共同连接的WiFi的数目;以及不同的特定时间段内共现在同一位置的次数。
8.根据权利要求1-7中任一项所述的关系识别方法,其特征在于,所述待识别节点为手机号。
9.一种机器可读存储介质,其特征在于,所述机器可读存储介质上存储有指令,该指令用于使得机器执行上述权利要求1-8中任一项权利要求所述的关系识别方法。
10.一种电子设备,其特征在于,所述电子设备包括:
处理器;
用于存储所述处理器可执行指令的存储器;
所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现上述权利要求1-8中任一项权利要求所述的关系识别方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211559654.9A CN115730251B (zh) | 2022-12-06 | 2022-12-06 | 关系识别方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211559654.9A CN115730251B (zh) | 2022-12-06 | 2022-12-06 | 关系识别方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115730251A true CN115730251A (zh) | 2023-03-03 |
CN115730251B CN115730251B (zh) | 2024-06-07 |
Family
ID=85300385
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211559654.9A Active CN115730251B (zh) | 2022-12-06 | 2022-12-06 | 关系识别方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115730251B (zh) |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213111A1 (en) * | 2014-01-27 | 2015-07-30 | Alibaba Group Holding Limited | Obtaining social relationship type of network subjects |
CN108009915A (zh) * | 2017-12-21 | 2018-05-08 | 连连银通电子支付有限公司 | 一种欺诈用户社区的标记方法及相关装置 |
WO2018130201A1 (zh) * | 2017-01-16 | 2018-07-19 | 腾讯科技(深圳)有限公司 | 确定关联账号的方法、服务器及存储介质 |
CA2976114A1 (en) * | 2017-08-14 | 2019-02-14 | Ivan Tumbocon Dancel | Systems and methods for establishing a safe online communication network and for alerting users of the status of their mental health |
CN109978033A (zh) * | 2019-03-15 | 2019-07-05 | 第四范式(北京)技术有限公司 | 同操作人识别模型的构建与同操作人识别的方法和装置 |
CN110222484A (zh) * | 2019-04-28 | 2019-09-10 | 五八有限公司 | 一种用户身份识别方法、装置、电子设备及存储介质 |
CN110287688A (zh) * | 2019-06-28 | 2019-09-27 | 京东数字科技控股有限公司 | 关联账号分析方法、装置和计算机可读存储介质 |
CN110517104A (zh) * | 2019-07-18 | 2019-11-29 | 阿里巴巴集团控股有限公司 | 账户关联发现方法、装置、服务器及介质 |
CN111080304A (zh) * | 2019-12-12 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 一种可信关系识别方法、装置及设备 |
CN112148981A (zh) * | 2020-09-29 | 2020-12-29 | 广州小鹏自动驾驶科技有限公司 | 同人识别方法、装置、设备和存储介质 |
CN113326377A (zh) * | 2021-06-02 | 2021-08-31 | 上海生腾数据科技有限公司 | 一种基于企业关联关系的人名消歧方法及系统 |
WO2021213069A1 (zh) * | 2020-04-23 | 2021-10-28 | 北京京东振世信息技术有限公司 | 账号的识别方法、装置、电子设备及计算机可读介质 |
CN113806555A (zh) * | 2021-09-14 | 2021-12-17 | 国网北京市电力公司 | 用于app的运营异常识别方法、系统、装置及存储介质 |
CN114022227A (zh) * | 2022-01-05 | 2022-02-08 | 深圳市明源云客电子商务有限公司 | 信息推广方法、设备及可读存储介质 |
WO2022152018A1 (zh) * | 2021-01-14 | 2022-07-21 | 北京沃东天骏信息技术有限公司 | 用于识别一人多账号的方法及装置 |
CN115080934A (zh) * | 2022-02-17 | 2022-09-20 | 北京北卡星科技有限公司 | 即时通信系统中账号异常的识别方法及装置 |
CN115409104A (zh) * | 2022-08-25 | 2022-11-29 | 贝壳找房(北京)科技有限公司 | 用于识别对象类型的方法、装置、设备、介质和程序产品 |
-
2022
- 2022-12-06 CN CN202211559654.9A patent/CN115730251B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150213111A1 (en) * | 2014-01-27 | 2015-07-30 | Alibaba Group Holding Limited | Obtaining social relationship type of network subjects |
WO2018130201A1 (zh) * | 2017-01-16 | 2018-07-19 | 腾讯科技(深圳)有限公司 | 确定关联账号的方法、服务器及存储介质 |
CA2976114A1 (en) * | 2017-08-14 | 2019-02-14 | Ivan Tumbocon Dancel | Systems and methods for establishing a safe online communication network and for alerting users of the status of their mental health |
CN108009915A (zh) * | 2017-12-21 | 2018-05-08 | 连连银通电子支付有限公司 | 一种欺诈用户社区的标记方法及相关装置 |
CN109978033A (zh) * | 2019-03-15 | 2019-07-05 | 第四范式(北京)技术有限公司 | 同操作人识别模型的构建与同操作人识别的方法和装置 |
CN110222484A (zh) * | 2019-04-28 | 2019-09-10 | 五八有限公司 | 一种用户身份识别方法、装置、电子设备及存储介质 |
CN110287688A (zh) * | 2019-06-28 | 2019-09-27 | 京东数字科技控股有限公司 | 关联账号分析方法、装置和计算机可读存储介质 |
CN110517104A (zh) * | 2019-07-18 | 2019-11-29 | 阿里巴巴集团控股有限公司 | 账户关联发现方法、装置、服务器及介质 |
CN111080304A (zh) * | 2019-12-12 | 2020-04-28 | 支付宝(杭州)信息技术有限公司 | 一种可信关系识别方法、装置及设备 |
WO2021213069A1 (zh) * | 2020-04-23 | 2021-10-28 | 北京京东振世信息技术有限公司 | 账号的识别方法、装置、电子设备及计算机可读介质 |
CN112148981A (zh) * | 2020-09-29 | 2020-12-29 | 广州小鹏自动驾驶科技有限公司 | 同人识别方法、装置、设备和存储介质 |
WO2022152018A1 (zh) * | 2021-01-14 | 2022-07-21 | 北京沃东天骏信息技术有限公司 | 用于识别一人多账号的方法及装置 |
CN113326377A (zh) * | 2021-06-02 | 2021-08-31 | 上海生腾数据科技有限公司 | 一种基于企业关联关系的人名消歧方法及系统 |
CN113806555A (zh) * | 2021-09-14 | 2021-12-17 | 国网北京市电力公司 | 用于app的运营异常识别方法、系统、装置及存储介质 |
CN114022227A (zh) * | 2022-01-05 | 2022-02-08 | 深圳市明源云客电子商务有限公司 | 信息推广方法、设备及可读存储介质 |
CN115080934A (zh) * | 2022-02-17 | 2022-09-20 | 北京北卡星科技有限公司 | 即时通信系统中账号异常的识别方法及装置 |
CN115409104A (zh) * | 2022-08-25 | 2022-11-29 | 贝壳找房(北京)科技有限公司 | 用于识别对象类型的方法、装置、设备、介质和程序产品 |
Non-Patent Citations (2)
Title |
---|
SHUANG LI 等: "Identifying coal mine safety production risk factors by employing text mining and Bayesian network techniques", 《PROCESS SAFETY AND ENVIRONMENTAL PROTECTION》, vol. 162, pages 1067 - 1081, XP087079945, DOI: 10.1016/j.psep.2022.04.054 * |
成红红: "基于粒计算的关联关系挖掘研究", 《中国博士学位论文全文数据库 信息科技辑》, vol. 2020, no. 12, pages 138 - 5 * |
Also Published As
Publication number | Publication date |
---|---|
CN115730251B (zh) | 2024-06-07 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3605426A1 (en) | Resource transfer method, fund payment method and apparatus, and electronic device | |
CN102301362B (zh) | 请求离线配置文件数据用于以隐私敏感方式的在线使用 | |
CN110147967B (zh) | 风险防控方法及装置 | |
CN111818093B (zh) | 用于进行风险评估的神经网络系统、方法及装置 | |
CN112328760B (zh) | 服务提供方法、装置和系统 | |
CN110796269B (zh) | 一种生成模型的方法、装置、信息处理的方法及装置 | |
US11823197B2 (en) | Authenticating based on user behavioral transaction patterns | |
CN110909384B (zh) | 确定泄露用户信息的业务方的方法及装置 | |
CN114782161A (zh) | 识别风险用户的方法、装置、存储介质及电子装置 | |
CN110324418B (zh) | 基于用户关系推送业务的方法和装置 | |
CN116305033A (zh) | 一种异常账户识别方法、装置及电子设备 | |
CN111353001B (zh) | 对用户进行分类的方法和装置 | |
US20230083022A1 (en) | Computer-implemented method for removing access to data | |
CN115730251A (zh) | 关系识别方法 | |
CN115001776B (zh) | 数据处理系统及方法 | |
US20070025534A1 (en) | Fraud telecommunications pre-checking systems and methods | |
CN117993910A (zh) | 异常交易应对策略的验证方法及相关装置 | |
CN114358543A (zh) | 一种信息处理方法和装置 | |
US11256826B2 (en) | Method and system for generating consent recommendation | |
CN110087230B (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN113806555A (zh) | 用于app的运营异常识别方法、系统、装置及存储介质 | |
CN112907009A (zh) | 标准化模型的构建方法、装置、存储介质及设备 | |
CN113536279B (zh) | 一种用户权限管理方法、装置、电子设备及存储介质 | |
CN113938465B (zh) | 一种信息发送方法、装置、电子设备及存储介质 | |
US20220239773A1 (en) | Caller identification information analyzer |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant |