CN111192153B - 人群关系网络构建方法、装置、计算机设备和存储介质 - Google Patents

人群关系网络构建方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN111192153B
CN111192153B CN201911315161.9A CN201911315161A CN111192153B CN 111192153 B CN111192153 B CN 111192153B CN 201911315161 A CN201911315161 A CN 201911315161A CN 111192153 B CN111192153 B CN 111192153B
Authority
CN
China
Prior art keywords
user
data
information
crowd
user account
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911315161.9A
Other languages
English (en)
Other versions
CN111192153A (zh
Inventor
吴庭
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Dasou Vehicle Software Technology Co Ltd
Original Assignee
Zhejiang Dasou Vehicle Software Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Dasou Vehicle Software Technology Co Ltd filed Critical Zhejiang Dasou Vehicle Software Technology Co Ltd
Priority to CN201911315161.9A priority Critical patent/CN111192153B/zh
Publication of CN111192153A publication Critical patent/CN111192153A/zh
Application granted granted Critical
Publication of CN111192153B publication Critical patent/CN111192153B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D30/00Reducing energy consumption in communication networks
    • Y02D30/70Reducing energy consumption in communication networks in wireless communication networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • Marketing (AREA)
  • Human Resources & Organizations (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Artificial Intelligence (AREA)
  • Primary Health Care (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及一种人群关系网络构建方法、装置、计算机设备和存储介质。所述方法包括:获取多个业务线的用户账户数据;其中,用户账户数据包括用户标识信息;对多个业务线之间的所述用户账户数据进行用户识别,将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据;根据用户数据之间的关联关系,构建人群关系网络。利用由数字和字母组成的用户账户数据构建人群关系网络,不仅提高了人群关系网络的准确性,还减少了运算量。

Description

人群关系网络构建方法、装置、计算机设备和存储介质
技术领域
本申请涉及人工智能技术领域,特别是涉及一种人群关系网络构建方法、装置、计算机设备和存储介质。
背景技术
随着社会经济的不断发展,人物之间的关系越来越复杂,为了更好的研究人物之间的关系,一般会将人物之间的关系直观化,例如通过网络展示。
现有技术中,大多是对文本信息进行词法分析,建立知识库,再采用该知识库进行模式匹配匹配,提取人物关系。
然而,通过对文本信息进行词法分析的方法需要处理大量的文本信息,不仅仅需要复杂度较高的计算量,而且所构建的人群关系网络准确性较差。
发明内容
基于此,有必要针对上述技术问题,提供一种能够构建的人群关系网络的人群关系网络构建方法、装置、计算机设备和存储介质。
一种人群关系网络构建方法,所述方法包括:获取多个业务线的用户账户数据;其中,用户账户数据包括用户标识信息;对多个业务线之间的所述用户账户数据进行用户识别,将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据;根据用户数据之间的关联关系,构建人群关系网络。
在其中一个实施例中,所述用户账户数据包括用户标识信息;所述对多个业务线之间的所述用户账户数据进行用户识别,将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据包括:将多个业务线之间的所述用户账户数据进行对比,得到相似度评分;根据所述相似度评分将每个用户在不同业务线中的所述用户账户数据进行整合,得到用户数据;其中,所述用户标识信息包括实名认证信息、注册通讯信息和/或注册地址信息。
在其中一个实施例中,所述用户账户数据包括个人信息;所述根据用户数据之间的关联关系,构建人群关系网络包括:根据所述用户数据获取每个用户的个人信息;根据每个用户的个人信息确定各个用户之间的关联关系;根据所述关联关系构建所述人群关系网络;其中,所述个人信息包括通讯录信息、通话记录信息、无线网络连接历史信息和/或地理位置信息。
在其中一个实施例中,所述方法还包括:利用完成训练的亲密度评分模型对用户的个人信息进行评估,得到亲密度数据,其中,所述亲密度数据用于表示人群关系网络中各用户之间的亲密度;根据所述亲密度数据构建亲密度关系网络;其中,所述亲密度关系网络用于表示多个用户之间的亲密度。
在其中一个实施例中,所述方法还包括:基于所述亲密度关系网络,并利用标签传播算法确定社区;其中,所述社区中的节点用于表示具备相同特征的用户。
在其中一个实施例中,所述方法还包括:基于所述亲密度关系网络,并利用pagerank算法确定目标节点;其中,所述目标节点用于连接所述社区中的各个边缘节点。
在其中一个实施例中,所述方法还包括:利用已标签的用户账户数据,预训练所述亲密度评分模型。
一种人群关系网络构建装置,所述装置包括:获取模块,用于获取多个业务线的用户账户数据;其中,用户账户数据包括用户标识信息;识别模块,用于对对多个业务线之间的所述用户账户数据进行用户识别,将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据;人群关系网络构建模块,用于根据用户数据之间的关联关系,构建人群关系网络。
在其中一个实施例中,所述用户账户数据包括用户标识信息;所述识别模块包括:比对单元,用于将多个业务线之间的所述用户账户数据进行对比,得到相似度评分;整合单元,用于根据所述相似度评分将每个用户在不同业务线中的所述用户账户数据进行整合,得到用户数据;其中,所述用户标识信息包括实名认证信息、注册通讯信息和/或注册地址信息。
在其中一个实施例中,所述用户账户数据包括个人信息;人群关系网络构建模块包括:个人信息获取单元,用于根据所述用户数据获取每个用户的个人信息;关联关系确定单元,用于根据每个用户的个人信息确定各个用户之间的关联关系;人群关系网络构建单元,根据所述关联关系构建所述人群关系网络;其中,所述个人信息包括通讯录信息、通话记录信息、无线网络连接历史信息和/或地理位置信息。
在其中一个实施例中,所述装置还包括:评估模块,用于利用完成训练的亲密度评分模型对用户的个人信息进行评估,得到亲密度数据,其中,所述亲密度数据用于表示人群关系网络中各用户之间的亲密度;亲密度关系网络构建模块,用于根据所述亲密度数据构建亲密度关系网络;其中,所述亲密度关系网络用于表示多个用户之间的亲密度。
在其中一个实施例中,所述装置还包括:第一确定模块,用于基于所述亲密度关系网络,并利用标签传播算法确定社区;其中,所述社区中的节点用于表示具备相同特征的用户。
在其中一个实施例中,所述装置还包括:第二确定模块,用于基于所述亲密度关系网络,并利用pagerank算法确定目标节点;其中,所述目标节点用于连接所述社区中的各个边缘节点。
在其中一个实施例中,所述装置还包括:预训练模块,用于利用已标签的用户账户数据,预训练所述亲密度评分模型。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:获取多个业务线的用户账户数据;其中,用户账户数据包括用户标识信息;对多个业务线之间的所述用户账户数据进行用户识别,将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据;根据用户数据之间的关联关系,构建人群关系网络。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:获取多个业务线的用户账户数据;其中,用户账户数据包括用户标识信息;对多个业务线之间的所述用户账户数据进行用户识别,将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据;根据用户数据之间的关联关系,构建人群关系网络。
上述人群关系网络构建方法、装置、计算机设备和存储介质,通过获取多个业务线的用户账户数据;其中,用户账户数据包括用户标识信息;对多个业务线之间的所述用户账户数据进行用户识别,将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据;根据用户数据之间的关联关系,构建人群关系网络。利用由数字和字母组成的用户账户数据构建人群关系网络,不仅提高了人群关系网络的准确性,而且减少了运算量。
附图说明
图1为一个实施例中人群关系网络构建方法的应用环境图;
图2为一个实施例中人群关系网络构建方法的流程示意图;
图3为一个实施例中构建人群关系网络步骤的流程示意图;
图4为一个实施例中人群关系网络构建装置的结构框图;
图5为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的人群关系网络构建方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种人群关系网络构建方法,以该方法应用于图1中的终端为例进行说明,包括以下步骤:
步骤202,获取多个业务线的用户账户数据;其中,用户账户数据包括用户标识信息。
本实现方式中,所述人群关系网络构建方法可以根据用户(用户)在各个应用程序注册的用户账户数据,来构建用于分析用户之间的关系的人群关系网络。
其中,所述用户账户数据可以包括实名认证信息、注册通讯信息和/或注册地址信息等用户标识信息,也可以包括通讯录信息、通话记录信息、无线网络连接历史信息和/或地理位置信息等个人信息,还可以包括用于刻画用户画像的数据,所述用户标识信息可以通过数字和/或字母表示。
现有技术中对应用程序的使用过程中,同一用户在不同应用程序的用户账户数据不同,本实现方式中所述用户账户数据可以来自于多个不同应用程序,并且所有用户账户数据的获取及分析均已获得用户授权。
在一种实施例中,所述用户账户数据可以是用户自主注册的例如姓名、年龄、性别等个人信息,也可以是经过用户许可之后通过第三方平台中授权注册的信息。对应的,用户账户数据的获取方式可以与其注册方式相关;例如,当获取用户自主注册的用户账户数据时,可以从应用程序对应的数据库中直接获取;当获取通过第三方平台中授权注册的用户账户数据时,可以通过第三方平台获取。
步骤204,对多个业务线之间的所述用户账户数据进行用户识别,将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据。
其中,所述用户识别用于为用户账户数据和用户建立匹配关系;以确定每个用户在不同业务线中的用户账户数据。
本实现方式中,所述用户账户数据包括用户标识信息;所述对多个业务线之间的所述用户账户数据进行用户识别,将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据包括:将多个业务线之间的所述用户账户数据进行对比,得到相似度评分;根据所述相似度评分将每个用户在不同业务线中的所述用户账户数据进行整合,得到用户数据;其中,所述用户标识信息包括实名认证信息、注册通讯信息和/或注册地址信息等。
其中,所述实名认证信息可以是例如身份证号码、学生证号码、军官证号码等可以唯一标识用户身份的信息,注册通讯信息可以是例如手机号码、邮箱地址、通讯软件账号等信息;所述注册地址信息可以是用于标识用户所处位置的信息。
本实现方式中,可以通过用户标识信息的比对优先级来比对用户标识信息中各个信息;例如比对优先级可以是实名认证信息>注册通讯信息>注册地址信息,即先比对用户账户数据中的实名认证信息(例如,身份证号),若相同,则比对成功,并将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据,否则继续比对用户账户数据中的注册通讯信息,若相同,则比对成功,否则再次比对用户账户数据中的注册地址信息。本实现方式中,所述用户标识信息中的各个信息和比对优先级可以根据具体的业务需求进行调整。
在另外的实现方式中,可以通过机器学习或深度学习的方式来整合每个用户在不同业务线中的用户账户数据。对各个业务线留存的用户账户数据进行了实体人识别,综合考虑账户的注册属性,将用户账户整合成唯一的虚拟用户。
作为示例,A公司具有并行的多条业务线,各个业务线的用户账户数据没有打通,且在多数业务场景下,用户可以不限制的注册用户账户,导致用户账户与用户存在多对一的关系,这在统计人的行为信息时有较大的误差。为解决这一问题,具体的是,两两对比用户账户数据,比如,将用户账户数据中的注册姓名、注册手机号、注册地址、wifi、地理位置信息等进行一一对比,给出是否是同一个用户注册的不同账户的评分,确定每个用户在不同业务线中的用户账户数据,进而能够解决多业务用户账户体系孤立,无法统一进行统计的问题,以及解决用户账户与用户多对一关系造成的数据统计错误的问题。
如表1所示,账户A和账户B将被判断为较大可能为同一个用户;再生成该用户的唯一ID,并将相应的用户账户数据整理在下面,得到唯一的虚拟用户。
账户A 小张 188******** 杭州
账户B 张某某 188******** 余杭区
表1
步骤206,根据用户数据之间的关联关系,构建人群关系网络。
其中,所述用户数据之间的关联关系,可以通过步骤204确定。所述关联关系用于表示各个用户之间的关系、各用户账户数据之间的关联关系、用户与用户账户数据之间的关系来构建人群关系网络。
本实现方式中,人群关系网络可以用于分析社会关系的交互性、社会关系的扩展性、社会关系的继承性、社会关系的时效性、社会关系的亲密度。其应用场景主要包括:社交关系交互点的确定,社会关系的可扩展移植,社交网络结构的扩展与维持,社交网络中的亲疏关系推断,社交网络结构的预测与描述,社交网络与社会关系重组,亲密度模型与计算方法。
作为示例,所述人群关系网络可以用于表示家人、朋友、同事等具有具体实际意义的关系,也可以用于表示用户画像相似或者近似等不有具体实际意义的关系。
本实现方式中,所述人群关系网络可以有用于多种用途,例如,人群关系网络包括人在某个场所所处的角色,人在某个时间点在进行什么,以及人与人之间的关系等。通过根据每个人的一系列的社会活动记录包含的多条结构化信息,可以分析出人群关系网络,具体地,例如,通过分析一段时间内某个人在某个时间点经常进入某场所,可以分析该人在某个场所工作;又例如,通过分析一段时间内某个人在某个时间点进行某件事的频率,可以分析该人在某个时间点在进行什么,如上班;再例如,某两个人在同一时间段经常进入某场所,可以分析该两人为同事。
在另外的实现方式中,用户数据包括用户的人脸特征值。对应的,可以依托于现在的广泛的视频采集网络进行多个场所内用户账户数据的采集,可采用现有的视频图像采集技术。为了对广大范围内的数据实行统一的采集和分析,本实施例规定了数据采集的统一格式,采集到的数据包括人脸特征值和各人脸特征值对应的结构化信息。人脸特征值用于唯一准确地确定各个用户,通过人脸识别技术可以获得人脸特征值,各人脸特征值对应的结构化信息用于分析人群之间的关系,结构化信息可以是:时间、地点、性别、服饰、表情等。
上述人群关系网络构建方法中,可以通过获取多个业务线的用户账户数据;其中,用户账户数据包括用户标识信息;对所述用户账户数据进行用户识别,以确定每个用户在不同业务线中的用户账户数据;基于每个用户对应的各用户账户数据之间的关联关系,构建人群关系网络。利用由数字和字母组成的用户账户数据构建人群关系网络,不仅提高了人群关系网络的准确性,还减少了运算量。
在其中一个实施例中,所述用户账户数据还包括个人信息;所述根据用户数据之间的关联关系,构建人群关系网络,包括:
步骤302,根据所述用户数据获取每个用户的个人信息;
步骤304,根据每个用户的个人信息确定各个用户之间的关联关系;
步骤306,根据所述关联关系构建所述人群关系网络;
其中,所述个人信息包括通讯录信息、通话记录信息、无线网络连接历史信息和/或地理位置信息。
本实现方式中,所述个人信息可以是通过无线埋点的方式获取。
在一种可能的实现方式中,所述根据所述用户数据获取每个用户的个人信息包括,拼接各个用户的个人信息,以得到拼接数据;所述根据每个用户的个人信息确定各个用户之间的关联关系,包括:根据所述拼接数据确定各个用户的关联关系。
其中,在本实现方式中,个人信息可以通过特征的形式表示。作为示例,获取每个用户的个人信息的过程中,可以对第一个人信息的第一特征和第二个人信息的第二特征进行拼接,其中,第一特征和第二特征的通道数相同。即每一个第二特征都可以具有一个与其对应的第一特征,并可沿高度或宽度方向进行拼接,即实现融合。第二特征的宽度可与第一特征相同,二者的高度是否相同不做限制,这样相应的第二特征和第一特征可以沿宽度方向拼接。或者,第二特征的高度可与第一特征相同,二者的宽度是否相同不做限制,这样,相应的第二特征和第一特征可以沿高度方向拼接。
举例来说,第一特征的维度为X×Y×Z,第一特征的维度为W×Y×Z,在进行特征拼接后,可以沿高度对相应的第一特征和第二特征进行拼接,得到维度为(X+W)×Y×Z的拼接数据(拼接特征)。
在其中一个实施例中,所述方法还包括:利用完成训练的亲密度评分模型对用户的个人信息进行评估,得到亲密度数据,其中,所述亲密度数据用于表示人群关系网络中各用户之间的亲密度;根据所述亲密度数据构建亲密度关系网络;其中,所述亲密度关系网络用于表示多个用户之间的亲密度。
其中,所述亲密度指的是人类在一切社交活动中表现出来的人与人之间关系的亲疏程度。例如,在亲属关系中,传统的研究一般参照中国的“九族五服图”对这类关系的亲密程度进行认定。因此,本专利的阐述会对亲密度加以量化,并同时找出影响社会关系亲密度的因素。
在其中一个实施例中,所述方法还包括:利用已标签的用户账户数据,预训练所述亲密度评分模型。
其中,所述亲密度评分模型用于预测用户账户之间的亲密关系,并通过输出亲密度评分的方式表示个体之间的亲密度。亲密度评分模型的预训练过程可以包括多个训练周期,每个训练周期中,可以根据模型结果计算准确率并根据现有的结果反哺到样本训练集,重新训练模型以使得模型准确率达到阈值,从而提高该模型的预测准确率。本实现方式中,可以先获取个体用户社交数据;对该社交数据进行分析,分析出个体之间的社交数据中的特征数据;根据显著变量的正负相关性,从该特征数据中选取出呈正负相关性的相关性特征数据;对选取出的呈正负相关性的相关性特征数据按照预设的准则进行亲密度打标;从所述经亲密度打标后的相关性特征数据中选择出重要特征数据;构建关联该重要特征数据的亲密度评分模型;根据该亲密度评分模型,对个体之间的社交数据进行亲密度评分。
具体的,获取个体用户的社交数据;该社交数据可以是用户账户数据,该社交数据类别可包括通讯录数据、通话记录数据和无线上网数据等,该个体可以是个人。
具体的,对该社交数据进行分析,分析出个体之间的社交数据中的特征数据。该特征数据可以为个体之间的相关特征,该特征数据可以是该通话记录数据中的通话总时长数据、通话总次数数据、最早联系时距最近联系的时间间隔数据等,也可以是该通讯录数据中的紧急联系人数据、常用联系人数据等,还可以是该无线上网数据中的相同无线网络的种数数据、无线网络的权重数据、使用相同无线网络的最短时间间隔数据等,本发明不加以限定。
在本实施例中,该无线网络的权重数据可以是针对同一无线网络的用户人数取对数倒数的方式来取得等。
在本实施例中,该无线网络的权重数据可以是与同一无线网络的用户人数呈负相关的关系,这样的好处是能够排除公共无线网络对亲密度评分模型的影响。
具体的,根据显著变量的正负相关性,从该特征数据中选取出与亲密度呈正负相关性的相关性特征数据。该选取出的呈正负相关性的相关性特征数据可以是该通话记录数据中的通话总时长数据、通话总次数数据等,也可以是该无线上网数据中的相同无线网络的种数数据、使用相同无线网络的最短时间间隔数据等,本发明不加以限定。
具体的,对选取出的呈正负相关性的相关性特征数据按照预设的准则进行亲密度打标,包括:采用二八法则方式,对该相关性特征数据按照预设的取前20%的准则进行选取,对选取后的前20%的相关性特征数据按照预设的概率数准则进行亲密度打标。该亲密度打标的打标结果可以以数字1代表亲密,可以以数字0代表不亲密,本发明不加以限定。
在本实施例中,可以对选取的前20%的相关性特征数据按照预设的概率数准则进行打标,例如对选取的前20%的相关性特征数据按照预设的概率90%再进行亲密度打标为数字1表示亲密,按照预设的概率10%再进行亲密度打标为数字0表示不亲密,这样的好处是能够防止后续计算证据权重WOE编码出现无穷大的情况,使得亲密度评分模型更加光滑。对选取的前20%的相关性特征数据按照预设的概率90%进行打标,这90%可以在20%的数据中随机选取。
具体的,构建关联该重要特征数据的亲密度评分模型,可以包括:采用分箱方式,将该重要特征数据进行离散化,将离散化后的重要特征数据中的多状态的离散变量合并成少状态的离散变量,和将该经合并成少状态的离散变量后的重要特征数据采用证据权重WOE编码的方式,将预测类别的集中度的属性作为编码的数值,把该经合并成少状态的离散变量后的重要特征数据的特征的值规范到相近的尺度上,和采用IV(Information value,信息价值)的方式,选取区分度高的变量,和采用线性回归模型(logistic regressive),计算亲密度的分值刻度的比率,根据训练集训练得到亲密度评分模型的参数,这样的好处是能够便于通过该构建的亲密度评分模型,将人与人之间的亲密度进行数值量化。
在本实施例中,将重要特征数据分为m组区间,其中,j为重要特征数据类别数量,mi为每个类型的重要特征数据划分的区间数
在本实施例中,第i组证据权重WOE的计算公式,可以如下:
其中,#yi表示第i组响应数,响应数可以为亲密度打标为1的个数,该响应数可以用于表征与重要特征数据的关系;#yT可以表示所有样本响应数;#ni可以表示第i组未响应数,未响应数可以为亲密度打标为0的个数;#nT可以表示所有样本未响应数;pyi=#yi/#yT可以表示第i组响应数占总样本响应数的比例;pni=#ni/#nT可以表示第i组未响应数占总样本未响应数的比例;这里的i取值为1,2……m。根据步骤S104打标后的训练集可以计算出每组重要特征数据对应的WOE值。
在本实施例中,该信息价值IV值越大,可以表示该定义的该亲密度的分值刻度在该变量上的分布差异越大,即该变量的区分能力越好。可以选取区分度高的变量,即可以选取信息价值越大的区间对应的重要特征数据,进一步提高模型预测的准确性及模型训练时的收敛速度。
设个体间亲密度差的概率为p,个体间亲密度好的概率为1-p,记亲密度的分值刻度的比率为
在本实施例中,采用线性回归模型计算该定义的亲密度的分值刻度的比率的计算公式,可以如下:
log(odds)=β01x1+……βmxm
其中,β01……βm为模型参数,初始值可设为1或0,根据训练集训练得到模型参数;x为证据权重WOE,根据该公式可以计算出个体间亲密度差的概率为p,个体间亲密度好的概率为1-p。
在本实施例中,可以根据模型结果计算准确率并根据现有的结果反哺到样本训练集,重新训练模型直到模型准确率达到阈值,以提高模型的预测准确率。具体地,根据上述公式计算出个体间亲密度差的概率为p和个体间亲密度好的概率为1-p,p为0到1间的数值,对p和1-p进行量化处理,得到该亲密度评分模型的亲密度得分,如100(1-p),采用预设的规则对该亲密度得分进行亲密度打标,将训练集的亲密度打标的打标结果与该模型的亲密度打标结果进行比较得到比较结果,根据该得到的比较结果对该模型进行准确率计算,对模型进行训练,直至该准确率达到预设值。
在其中一个实施例中,基于所述亲密度关系网络,并利用标签传播算法确定社区;其中,所述社区中的节点用于表示具备相同特征的用户。
其中,所述社区可以是由多个具有某种相同特质,或者联系紧密的用户节点或用户账号数据节点等组成的组织。例如,可以是具备共同的爱好(读书群)、共同的理念(公益群)、某种产品的用户(车友会群)等。在另外的实施例中,可以通过所述亲密度关系网络在互联网金融的使用场景下挖掘欺诈团伙。作为示例,可以利用标签传播算法在所述亲密度关系网络确定社区。
基于所述亲密度关系网络,并利用pagerank算法确定目标节点;其中,所述目标节点用于连接所述社区中的各个边缘节点。
其中,所述目标节点可以是在任意规则下设定的用户节点或者用户账户数据节点,继续以互联网金融的使用场景为例,所述目标节点可以是长时间逾期、屡次催款不还,非法套现,等被相关银行列入拒绝信贷的用户。所述边缘节点可以是亲密度关系网络中目标节点以外的节点。
应该理解的是,虽然图2-3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图4所示,提供了一种人群关系网络构建装置,包括:获取模块410、识别模块420和人群关系网络构建模块430,其中:
获取模块410,用于获取多个业务线的用户账户数据;其中,用户账户数据包括用户标识信息;
识别模块420,用于对对多个业务线之间的所述用户账户数据进行用户识别,将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据;
人群关系网络构建模块430,用于根据用户数据之间的关联关系,构建人群关系网络。
在其中一个实施例中,所述用户账户数据包括用户标识信息;所述识别模块包括:比对单元,用于将多个业务线之间的所述用户账户数据进行对比,得到相似度评分;整合单元,用于根据所述相似度评分将每个用户在不同业务线中的所述用户账户数据进行整合,得到用户数据;其中,所述用户标识信息包括实名认证信息、注册通讯信息和/或注册地址信息。
在其中一个实施例中,所述用户账户数据包括个人信息;人群关系网络构建模块包括:个人信息获取单元,用于根据所述用户数据获取每个用户的个人信息;关联关系确定单元,用于根据每个用户的个人信息确定各个用户之间的关联关系;人群关系网络构建单元,根据所述关联关系构建所述人群关系网络;其中,所述个人信息包括通讯录信息、通话记录信息、无线网络连接历史信息和/或地理位置信息。
在其中一个实施例中,所述装置还包括:评估模块,用于利用完成训练的亲密度评分模型对用户的个人信息进行评估,得到亲密度数据,其中,所述亲密度数据用于表示人群关系网络中各用户之间的亲密度;亲密度关系网络构建模块,用于根据所述亲密度数据构建亲密度关系网络;其中,所述亲密度关系网络用于表示多个用户之间的亲密度。
在其中一个实施例中,所述装置还包括:第一确定模块,用于基于所述亲密度关系网络,并利用标签传播算法确定社区;其中,所述社区中的节点用于表示具备相同特征的用户。
在其中一个实施例中,所述装置还包括:第二确定模块,用于基于所述亲密度关系网络,并利用pagerank算法确定目标节点;其中,所述目标节点用于连接所述社区中的各个边缘节点。
在其中一个实施例中,所述装置还包括:预训练模块,用于利用已标签的用户账户数据,预训练所述亲密度评分模型。
关于人群关系网络构建装置的具体限定可以参见上文中对于人群关系网络构建方法的限定,在此不再赘述。上述人群关系网络构建装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
获取多个业务线的用户账户数据;其中,用户账户数据包括用户标识信息;对多个业务线之间的所述用户账户数据进行用户识别,将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据;根据用户数据之间的关联关系,构建人群关系网络。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述用户账户数据包括用户标识信息;所述对多个业务线之间的所述用户账户数据进行用户识别,将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据包括:将多个业务线之间的所述用户账户数据进行对比,得到相似度评分;根据所述相似度评分将每个用户在不同业务线中的所述用户账户数据进行整合,得到用户数据;其中,所述用户标识信息包括实名认证信息、注册通讯信息和/或注册地址信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述用户账户数据包括个人信息;所述根据用户数据之间的关联关系,构建人群关系网络包括:根据所述用户数据获取每个用户的个人信息;根据每个用户的个人信息确定各个用户之间的关联关系;根据所述关联关系构建所述人群关系网络;其中,所述个人信息包括通讯录信息、通话记录信息、无线网络连接历史信息和/或地理位置信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述方法还包括:利用完成训练的亲密度评分模型对用户的个人信息进行评估,得到亲密度数据,其中,所述亲密度数据用于表示人群关系网络中各用户之间的亲密度;根据所述亲密度数据构建亲密度关系网络;其中,所述亲密度关系网络用于表示多个用户之间的亲密度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述方法还包括:基于所述亲密度关系网络,并利用标签传播算法确定社区;其中,所述社区中的节点用于表示具备相同特征的用户。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述方法还包括:基于所述亲密度关系网络,并利用pagerank算法确定目标节点;其中,所述目标节点用于连接所述社区中的各个边缘节点。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述方法还包括:利用已标签的用户账户数据,预训练所述亲密度评分模型。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
获取多个业务线的用户账户数据;其中,用户账户数据包括用户标识信息;对多个业务线之间的所述用户账户数据进行用户识别,将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据;根据用户数据之间的关联关系,构建人群关系网络。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述用户账户数据包括用户标识信息;所述对多个业务线之间的所述用户账户数据进行用户识别,将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据包括:将多个业务线之间的所述用户账户数据进行对比,得到相似度评分;根据所述相似度评分将每个用户在不同业务线中的所述用户账户数据进行整合,得到用户数据;其中,所述用户标识信息包括实名认证信息、注册通讯信息和/或注册地址信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述用户账户数据包括个人信息;所述根据用户数据之间的关联关系,构建人群关系网络包括:根据所述用户数据获取每个用户的个人信息;根据每个用户的个人信息确定各个用户之间的关联关系;根据所述关联关系构建所述人群关系网络;其中,所述个人信息包括通讯录信息、通话记录信息、无线网络连接历史信息和/或地理位置信息。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述方法还包括:利用完成训练的亲密度评分模型对用户的个人信息进行评估,得到亲密度数据,其中,所述亲密度数据用于表示人群关系网络中各用户之间的亲密度;根据所述亲密度数据构建亲密度关系网络;其中,所述亲密度关系网络用于表示多个用户之间的亲密度。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述方法还包括:基于所述亲密度关系网络,并利用标签传播算法确定社区;其中,所述社区中的节点用于表示具备相同特征的用户。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述方法还包括:基于所述亲密度关系网络,并利用pagerank算法确定目标节点;其中,所述目标节点用于连接所述社区中的各个边缘节点。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:所述方法还包括:利用已标签的用户账户数据,预训练所述亲密度评分模型。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (9)

1.一种人群关系网络构建方法,其特征在于,所述方法包括:
获取多个业务线的用户账户数据;其中,所述用户账户数据包括用户标识信息和个人信息,所述用户标识信息包括实名认证信息、注册通讯信息和/或注册地址信息,所述个人信息包括通讯录信息、通话记录信息、无线网络连接历史信息和/或地理位置信息;
将多个业务线之间的所述用户账户数据进行对比,得到相似度评分;
根据所述相似度评分将每个用户在不同业务线中的所述用户账户数据进行整合,得到用户数据;
根据用户数据之间的关联关系,构建人群关系网络。
2.根据权利要求1所述的方法,其特征在于, 所述根据用户数据之间的关联关系,构建人群关系网络包括:
根据所述用户数据获取每个用户的个人信息;
根据每个用户的个人信息确定各个用户之间的关联关系;
根据所述关联关系构建所述人群关系网络。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
利用完成训练的亲密度评分模型对用户的个人信息进行评估,得到亲密度数据,其中,所述亲密度数据用于表示人群关系网络中各用户之间的亲密度;
根据所述亲密度数据构建亲密度关系网络;其中,所述亲密度关系网络用于表示多个用户之间的亲密度。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括:
基于所述亲密度关系网络,并利用标签传播算法确定社区;
其中,社区中的节点用于表示具备相同特征的用户。
5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
基于所述亲密度关系网络,并利用pagerank算法确定目标节点;
其中,所述目标节点用于连接所述社区中的各个边缘节点。
6.根据权利要求2所述的方法,其特征在于,所述方法还包括:
利用已标签的用户账户数据,预训练亲密度评分模型。
7.一种人群关系网络构建装置,其特征在于,所述人群关系网络构建装置包括:
获取模块,用于获取多个业务线的用户账户数据;其中,所述用户账户数据包括用户标识信息和个人信息,所述用户标识信息包括实名认证信息、注册通讯信息和/或注册地址信息,所述个人信息包括通讯录信息、通话记录信息、无线网络连接历史信息和/或地理位置信息;
识别模块,用于对对多个业务线之间的所述用户账户数据进行用户识别,将每个用户在不同业务线中的用户账户数据进行整合,得到用户数据;其中,所述识别模块包括对比单元和整合单元,所述对比单元用于将多个业务线之间的所述用户账户数据进行对比,得到相似度评分;所述整合单元用于根据所述相似度评分将每个用户在不同业务线中的所述用户账户数据进行整合,得到用户数据;
人群关系网络构建模块,用于根据用户数据之间的关联关系,构建人群关系网络。
8.根据权利要求7所述的装置,其特征在于,所述人群关系网络构建模块包括:个人信息获取单元、关联关系确定单元和人群关系网络构建单元,其中,所述个人信息获取单元用于根据所述用户数据获取每个用户的个人信息;
所述关联关系确定单元,用于根据每个用户的个人信息确定各个用户之间的关联关系;
所述人群关系网络构建单元,用于根据所述关联关系构建所述人群关系网络。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述方法的步骤。
CN201911315161.9A 2019-12-19 2019-12-19 人群关系网络构建方法、装置、计算机设备和存储介质 Active CN111192153B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911315161.9A CN111192153B (zh) 2019-12-19 2019-12-19 人群关系网络构建方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911315161.9A CN111192153B (zh) 2019-12-19 2019-12-19 人群关系网络构建方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN111192153A CN111192153A (zh) 2020-05-22
CN111192153B true CN111192153B (zh) 2023-08-29

Family

ID=70710123

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911315161.9A Active CN111192153B (zh) 2019-12-19 2019-12-19 人群关系网络构建方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN111192153B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113742605A (zh) * 2020-05-29 2021-12-03 京东城市(北京)数字科技有限公司 时空关联关系的确定方法、装置、设备和存储介质
CN112153220B (zh) * 2020-08-26 2021-08-27 北京邮电大学 一种基于社交评价动态更新的通信行为识别方法
CN112003953B (zh) * 2020-09-29 2023-04-07 中移(杭州)信息技术有限公司 广告推送方法及服务器
CN113572679B (zh) * 2021-06-30 2023-04-07 北京百度网讯科技有限公司 账户亲密度的生成方法、装置、电子设备和存储介质
CN114880407B (zh) * 2022-05-30 2024-06-21 上海九方云智能科技有限公司 基于强弱关系网络的用户智能识别方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015225540A (ja) * 2014-05-28 2015-12-14 株式会社エルテス 交友状況検知プログラム、交友状況検知装置及び交友状況の検知方法
CN108595579A (zh) * 2018-04-17 2018-09-28 平安普惠企业管理有限公司 联系人亲密度估算方法、装置、计算机设备和存储介质
CN108809709A (zh) * 2018-06-06 2018-11-13 山东大学 一种基于节点亲密性与标签传播的社区发现方法
CN109242710A (zh) * 2018-08-16 2019-01-18 北京交通大学 社交网络节点影响力排序方法及系统
CN110457573A (zh) * 2019-07-04 2019-11-15 平安科技(深圳)有限公司 产品推荐方法、装置、计算机设备及存储介质
CN110555052A (zh) * 2018-05-31 2019-12-10 杭州海康威视数字技术股份有限公司 一种关系网络建立方法、装置及设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2015225540A (ja) * 2014-05-28 2015-12-14 株式会社エルテス 交友状況検知プログラム、交友状況検知装置及び交友状況の検知方法
CN108595579A (zh) * 2018-04-17 2018-09-28 平安普惠企业管理有限公司 联系人亲密度估算方法、装置、计算机设备和存储介质
CN110555052A (zh) * 2018-05-31 2019-12-10 杭州海康威视数字技术股份有限公司 一种关系网络建立方法、装置及设备
CN108809709A (zh) * 2018-06-06 2018-11-13 山东大学 一种基于节点亲密性与标签传播的社区发现方法
CN109242710A (zh) * 2018-08-16 2019-01-18 北京交通大学 社交网络节点影响力排序方法及系统
CN110457573A (zh) * 2019-07-04 2019-11-15 平安科技(深圳)有限公司 产品推荐方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
林杰.信息化银行客户管理研究 ————以工商银行为例.信息化银行客户管理研究 ————以工商银行为例.2017,全文. *

Also Published As

Publication number Publication date
CN111192153A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN111192153B (zh) 人群关系网络构建方法、装置、计算机设备和存储介质
WO2021027317A1 (zh) 基于关系网络的属性信息处理方法、装置、计算机设备和存储介质
KR102260554B1 (ko) 학습 컨텐츠 생성 방법
CN109582876B (zh) 旅游行业用户画像构造方法、装置和计算机设备
CN109376237B (zh) 客户稳定性的预测方法、装置、计算机设备和存储介质
May Petry et al. MARC: a robust method for multiple-aspect trajectory classification via space, time, and semantic embeddings
CN109543925B (zh) 基于机器学习的风险预测方法、装置、计算机设备和存储介质
CN111079056A (zh) 提取用户画像的方法、装置、计算机设备和存储介质
CN111177473B (zh) 人员关系分析方法、装置和可读存储介质
CN110555164B (zh) 群体兴趣标签的生成方法、装置、计算机设备和存储介质
CN108334625B (zh) 用户信息的处理方法、装置、计算机设备和存储介质
CN110503099B (zh) 基于深度学习的信息识别方法及相关设备
CN107666649A (zh) 个人财产状态评估方法及装置
CN108073645A (zh) 一种招聘平台的求职人推荐页面展示方法及装置
CN106776609A (zh) 网站转载数量的统计方法及装置
CN112784168B (zh) 信息推送模型训练方法以及装置、信息推送方法以及装置
CN112417315A (zh) 基于网站注册的用户画像生成方法、装置、设备和介质
CN112131261B (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN112949297A (zh) 意图识别方法、装置、计算机设备和计算机可读存储介质
CN113112282A (zh) 基于客户画像处理咨诉问题的方法、装置、设备及介质
CN111259167B (zh) 用户请求风险识别方法及装置
CN114399396A (zh) 保险产品推荐方法、装置、计算机设备及存储介质
CN113656699B (zh) 用户特征向量确定方法、相关设备及介质
CN109766756A (zh) 闯红灯数据处理方法、装置、计算机设备和存储介质
CN111737320A (zh) 群体用户行为基线的建立方法、装置和计算机设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant