CN112380299A - 关系网络构建方法、装置及存储介质 - Google Patents
关系网络构建方法、装置及存储介质 Download PDFInfo
- Publication number
- CN112380299A CN112380299A CN202011424600.2A CN202011424600A CN112380299A CN 112380299 A CN112380299 A CN 112380299A CN 202011424600 A CN202011424600 A CN 202011424600A CN 112380299 A CN112380299 A CN 112380299A
- Authority
- CN
- China
- Prior art keywords
- users
- pair
- relationship type
- behavior
- relationship
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2465—Query processing support for facilitating data mining operations in structured databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F2216/00—Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
- G06F2216/05—Energy-efficient information retrieval
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Fuzzy Systems (AREA)
- Mathematical Physics (AREA)
- Probability & Statistics with Applications (AREA)
- Software Systems (AREA)
- Computational Linguistics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种关系网络构建方法、装置及存储介质,该方法包括:获取预设时间段内的样本,该样本包括每对用户的特征向量,以及每对用户在各种关系类型中的行为序列;针对每种关系类型,基于预设用户关系集中每对用户在该关系类型中的行为序列进行序列模式挖掘,得到该关系类型的至少一种行为序列模式;基于该关系类型的至少一种行为序列模式,对样本中每对用户在该关系类型中的行为序列进行匹配,以确定样本中每对用户在该关系类型中的权重;根据样本中每对用户在该关系类型中的权重,对样本中每对用户的特征向量进行加权聚类运算,得到该关系类型的聚类结果。本申请能够自动挖掘关系类型的行为序列模式,提高关系类型识别的准确性。
Description
技术领域
本申请涉及数据挖掘技术领域,尤其涉及一种关系网络构建方法、装置及存储介质。
背景技术
社交关系网络构建是社交画像和关系链建设的必要环节,伴随大数据时代的到来,准确的社交关系网络构建在数据挖掘中起着重要的作用。
现有进行社交关系网络构建的方法中,主要包括基于人工设定规则、基于图模型、基于分类机器学习模型以及基于网络地址定位等方式。基于人工设定规则的方式基于先验知识制定大量的映射关系类型规则,需要定期维护关系规则库,才能确保挖掘关系类型的准确性和时效性,无法实现完全的自动化。基于图模型的方式利用网络表示学习方法,将关系对象作为节点构建网络模型,随着待挖掘关系对象量级的增多,网络复杂性也随之剧增,训练网络模型的时间难以满足实际应用需求。基于分类机器学习模型的方式对用户特征和分类标签进行建模,而忽略掉相同类型的关系类型的用户对之间具有一定的行为序列模式,以及同一关系类型的用户对之间的互动行为往往具有一定的相关性,导致关系类型识别不够准确。基于网络地址定位不需要获得用户的社交属性信息,但是并未充分挖掘在社交数据中的许多模式特征,导致关系类型漏识别以及识别不够准确。
由于现有关系类型识别存在时效性、非自动化以及漏识别等问题,导致关系类型识别的准确性不高,进而影响了关系网络构建的准确性。
发明内容
本申请提供一种关系网络构建方法、装置及存储介质,能够自动挖掘各种关系类型的行为序列模式,提高关系类型识别的准确性,从而提升关系网络构建的准确性。
一方面,本申请提供了一种关系网络构建方法,所述方法包括:
获取预设时间段内的样本,所述样本包括每对用户的特征向量,以及所述每对用户在各种关系类型中的行为序列;
针对每种所述关系类型,基于预设用户关系集中每对用户在所述关系类型中的行为序列进行序列模式挖掘,得到所述关系类型的至少一种行为序列模式,其中,所述预设用户关系集中的每对用户均具有确定的关系类型;
基于所述关系类型的至少一种行为序列模式,对所述样本中每对用户在所述关系类型中的行为序列进行匹配,以确定所述样本中每对用户在所述关系类型中的权重;
根据所述样本中每对用户在所述关系类型中的权重,对所述样本中每对用户的特征向量进行加权聚类运算,得到所述关系类型的聚类结果。
另一方面提供了一种关系网络构建装置,所述装置包括:
样本获取模块,用于获取预设时间段内的样本,所述样本包括每对用户的特征向量,以及所述每对用户在各种关系类型中的行为序列;
行为模式挖掘模块,用于针对每种所述关系类型,基于预设用户关系集中每对用户在所述关系类型中的行为序列进行序列模式挖掘,得到所述关系类型的至少一种行为序列模式,其中,所述预设用户关系集中的每对用户均具有确定的关系类型;
模式匹配模块,用于基于所述关系类型的至少一种行为序列模式,对所述样本中每对用户在所述关系类型中的行为序列进行匹配,以确定所述样本中每对用户在所述关系类型中的权重;
关系类型确定模块,用于根据所述样本中每对用户在所述关系类型中的权重,对所述样本中每对用户的特征向量进行加权聚类运算,得到所述关系类型的聚类结果。
另一方面提供了一种计算机存储介质,所述计算机存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如上所述的关系网络构建方法。
本申请实施例提供的一种关系网络构建方法、装置及存储介质,具有以下有益效果:
在对关系类型识别时,通过具有确定的关系类型的各对用户在该关系类型的行为序列,自动挖掘出该关系类型的行为序列模式,而不需要人工制定,生成行为序列模式的泛化能力更强;由于行为序列模式自动生成,不需要过多人工参与,具有较强的实时性,同时也可以很好地满足线上迭代自动化需求,适用性更强。
基于行为序列模式确定各对用户在各关系类型中的权重,充分考虑相同关系类型的用户对之间互动行为的相关性,使得具有该关系类型的各对用户在该关系类型中具有较高的权重,而不具有该关系类型的各对用户在该关系类型中具有较低的权重;因此,基于权重对各对用户的特征向量进行加权聚类时,具有该关系类型的各对用户可以归到一类,不具有该关系类型的各对用户可以归到另一类,从而提高了各关系类型识别的准确性,进而提升了关系网络构建的准确性。
每次加权聚类识别一种关系类型的用户对,从而扩散得到每种关系类型的用户对,以此构建整个关系网络,不会存在漏识别现象,从而使得所构建的关系网络更准确。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。
图1是本申请实施例提供的一种关系网络构建方法的实施环境示意图。
图2是本申请实施例提供的一种关系网络构建方法的流程示意图。
图3是本申请实施例提供的样本获取的流程示意图。
图4是本申请实施例提供的构建行为序列的流程示意图。
图5是本申请实施例提供的构建特征向量的流程示意图。
图6是本申请实施例提供的挖掘行为序列模式的流程示意图。
图7是本申请实施例提供的确定每对用户权重的流程示意图。
图8是本申请实施例提供的确定目标序列模式支持度的流程示意图。
图9是本申请实施例提供的进行加权聚类运算的流程示意图。
图10是本申请实施例提供的一个所构建的关系网络的结构示例图。
图11是本申请实施例提供的一种关系网络构建装置的结构框图示意图。
图12是本申请实施例提供的样本获取模块的结构框图示意图。
图13是本申请实施例提供的行为序列构建单元的结构框图示意图。
图14是本申请实施例提供的特征向量构建单元的结构框图示意图。
图15是本申请实施例提供的行为模式挖掘模块的结构框图示意图。
图16是本申请实施例提供的模式匹配模块的结构框图示意图。
图17是本申请实施例提供的支持度确定单元的结构框图示意图。
图18是本申请实施例提供的关系类型确定模块的结构框图示意图。
图19是本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。
具体实施方式
云计算(cloud computing)指IT基础设施的交付和使用模式,指通过网络以按需、易扩展的方式获得所需资源;广义云计算指服务的交付和使用模式,指通过网络以按需、易扩展的方式获得所需服务。这种服务可以是IT和软件、互联网相关,也可是其他服务。云计算是网格计算(Grid Computing)、分布式计算(Distributed Computing)、并行计算(Parallel Computing)、效用计算(Utility Computing)、网络存储(Network StorageTechnologies)、虚拟化(Virtualization)、负载均衡(Load Balance)等传统计算机和网络技术发展融合的产物。
本申请实施例的技术方案涉及云计算的大数据(Big data)技术领域。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的过程,准确的社交关系网络构建可以为社交数据的数据挖掘提供有效的知识库。
现有的社交关系网络构建中,最典型的是基于人工设定规则、基于图模型、基于分类机器学习模型以及基于网络地址定位等几种方式。
在基于人工设定规则的方式中,需要基于先验知识制定大量的映射关系类型规则,并且定期维护关系规则库,才能确保挖掘关系的准确性和时效性,相对于数据变化灵活的各种工业应用场景而言,无法实现完全的自动化。
在基于图模型的方式中,首先需要利用网络表示学习方法,如Deep Walk、Node2vec等模型,将关系对象作为节点构建网络模型,随着待挖掘关系对象量级的增多,网络复杂性也随之剧增,训练网络模型的时间较难满足实际应用需求。
在基于分类机器学习模型的方式中,仅对用户特征和分类标签进行建模,而往往忽略用户关系对类型具有一定的行为序列模式和同一关系用户行为往往具有一定的相关性,例如情侣关系先后在情人节当天发布了朋友圈,这种相关性和序列模式对用户关系挖掘非常重要。
而基于网络地址定位的方式优势在于不需要获得用户的社交属性信息,就可以检测并确定出用户之间的关系类型。但是劣势是特征不够充分,社交网络关系在社交数据中隐含许多模式特征,这部分特征没有被充分挖掘和利用会导致漏识别或者识别不够准确。
鉴于此,为了实现关系网络构建的自动化,挖掘出样本数据中各种关系类型的行为序列模式,提高关系类型识别的准确性,提升关系网络构建的准确性,本申请提供了一种关系网络构建方法。为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本申请保护的范围。
需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
请参阅图1,其示出了本申请实施例提供的一种关系网络构建方法的实施环境示意图,如图1所示,该实施环境可以包括客户端01、服务器02和数据库03。
具体的,所述客户端01可以包括智能手机、台式电脑、平板电脑、笔记本电脑、数字助理、智能可穿戴设备、监控设备及语音交互设备等类型的设备,也可以包括运行于设备中的软体,例如一些服务商提供给用户的网页页面,也可以为该些服务商提供给用户的应用。具体的,所述客户端01可以为服务器02提供关系网络构建的样本,以及显示服务器02的关系网络构建的结果。
具体的,所述服务器02可以包括一个独立运行的服务器,或者分布式服务器,或者由多个服务器组成的服务器集群。所述服务器02可以包括有网络通信单元、处理器和存储器等等。具体的,所述服务器02可以用于接收从客户端01提交的样本,并对该样本进行数据处理,以对该样本所包含的各用户之间的关系类型进行识别,从而基于各用户之间的关系类型进行关系网络的构建。在一些实施例中,服务器02也可以直接从数据库03中获取预先存储的样本。
以下以服务器为执行主体介绍本申请的一种关系网络构建方法。图2是本申请实施例提供的一种关系网络构建方法的流程示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或服务器产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2所示,所述方法可以包括:
S201,获取预设时间段内的样本,所述样本包括每对用户的特征向量,以及所述每对用户在各种关系类型中的行为序列。
本申请实施例中,关系类型用于指示用户与用户之间的关系,例如同事关系、情侣关系、父子关系、母子关系、朋友关系等等。每对用户在每种关系类型中的行为序列,是基于该对用户在该关系类型中的互动行为进行确定的。服务器可以直接从客户端或数据库中获取预设时间段内的样本,也可以基于该预设时间段内所有用户的行为数据构建样本。
具体如图3所示,所述获取预设时间段内的样本,可以包括:
S2011,获取所述预设时间段内所有用户的行为数据。
本申请实施例中,预设时间段可以是任一设定的时间范围。但在每种关系类型中,具有该关系类型的每对用户之间通常会在一些关键时间节点发生互动行为,例如具有情侣关系的每对用户,可能会在情人节、双方生日以及圣诞节等关键时间节点进行发红包、转账等互动行为。因而,在一些实施例中,预设时间段也可以是包含有预设关键时间点前后的时间范围,例如,对于情侣关系而言,可以获取情人节前后D天所有用户的行为数据,预设时间段为[情人节-D,情人节+D]。
每个用户的行为数据包含了该用户与哪些用户之间存在互动行为,服务器所获取到的所用用户的行为数据是一个具有时间顺序的用户行为时间序列,该用户行为时间序列由时间节点以及对应的行为数据构成,如表1所示:
表1:用户行为时间序列示例
可以理解的,在不同的关系类型中的用户对有不同的互动行为,表1中仅示出了以转账、红包等常见互动行为为进行说明,在具体实施时,可以根据不同的关系类型进行设定。
S2012,基于所述所有用户的行为数据,构建所述每对用户在各种关系类型中的行为序列。
服务器基于预先确定的每种关系类型对应的互动行为,从行为数据中抽取出与该互动行为匹配的行为数据,然后基于匹配的行为数据构建每对用户在该关系类型中的行为序列。
具体如图4所示,所述基于所述所有用户的行为数据,构建所述每对用户在各种关系类型中的行为序列,可以包括
S20121,针对每种所述关系类型,获取所述关系类型对应的互动行为。
数据库中预先存储有与每种关系类型对应的互动行为,例如,情侣关系对应的互动行为可以包括发红包、转账、通时间段关注婚纱公众号等等,同事关系对应的互动行为可以包括点赞相同主题朋友圈、发布与公司主题相同朋友圈等等。
S20122,基于所述所有用户的行为数据与所述关系类型对应的互动行为,确定所述每对用户在各个时间节点的行为数据。
服务器以用户为单位,将所获取的所有用户的行为数据进行分组,将该用户以及与该用户有互动行为的用户确定为一对用户,然后抽取出与该关系类型对应的互动行为相关的行为数据。例如,表1中,与A有互动行为的用户包括B和K,则可以由A和B以及A和K分别组成一对用户。对于A和B这一对用户,在情侣关系中,其在各时间节点的行为数据可表示为:
表2:行为数据示例
时间节点 | 行为数据 |
t0时刻 | 用户A转账给用户B金额520并接受了 |
t3时刻 | 用户A邀请用户B关注婚纱摄影公众号 |
S20123,基于预设行为编码规则,对所述每对用户在各个时间节点的行为数据进行编码处理,得到所述每对用户在各个时间节点的行为编码。
本申请实施例中,在确定每对用户的行为数据后,在对行为数据进行编码处理时,可以先基于互动行为对行为数据进行标注,以简化行为数据的描述。例如可将表2映射为如下形式,然后在行为标注的基础上,基于预设行为编码规则进行编码处理,将相同的行为标注设置为同一个编码。
表3:互动行为示例
预设行为编码规则是预先基于互动行为设定的,相似的互动行为可以设置为同一个编码。例如520、5.20、52.0、99、1314、13.14、131.4、999等转账金额具有相似性,那么,可以将转账520与转账5.20以及转账52.0等认为是相似的互动行为,因此可以将转账520与转账5.20以及转账52.0等设置为同一个编码。
在具体实施时,每个编码可以用一个字符或多个字符表示,例如可以将转账520的交互行为用编码m表示,将关键时间范围内都发布朋友圈的交互行为用编码kp表示、将关注相同公众号的交互行为用编码u表示。
S20124,将所述每对用户在各个时间节点的行为编码,按照所述各个时间节点的先后顺序进行拼接,以生成所述每对用户在所述关系类型中的行为序列。
服务器将每对用户在各个时间节点上的行为编码按顺序拼接,如下表为C和D这一对用户在各个时间节点的行为编码,则C和D这一对用户的行为序列可表示为bcafgh。
表4:行为编码示例
S2013,获取所述每对用户的用户特征,并对所述每对用户的用户特征进行向量化处理,得到所述每对用户的特征向量。
本申请实施例中,每对用户的用户特征包括每对用户中各个用户的画像特征,以及每对用户的行为特征。例如,C和D这一对用户的用户特征,包括C用户的画像特征、D用户的画像特征以及C和D的行为特征。
画像特征包括基础画像、财富、人生阶段以及消费偏好等特征,基础画像特征是指如年龄、性别、常住地以及职业等特征,财富特征是指如资产评分、消费能力以及风险承受能力等特征,人生阶段特征是指如是否已婚、是否有孩子以及是否有房等特征,消费偏好特征是指如消费偏好商户、消费偏好金额以及消费偏好时间等特征。
行为特征是基于该对用户的所有互动行为得到的(而不限于某个具体的关系类型),同一关系类型的各对用户之间的互动行为存在一定的关联和因果关系。例如情侣关系对的用户A1在关键时间节点内转发了用户A2的朋友圈、用户A2给用户A1的朋友圈点赞、用户A2给用户A1转发了某个电商购物链接、用户A1点击购买等等。这一系列互动行为实际上反映了该对用户的互动行为具有相关性,可以通过将该对用户的所有互动行为进行编码,然后按照交互行为发生的各时间节点顺序进行拼接,作为该对用户的行为特征。
具体如图5所示,所述对所述每对用户的用户特征进行向量化处理,得到所述每对用户的特征向量,可以包括:
S20131,分别对所述每对用户中各个用户的画像特征进行向量化处理,得到所述每对用户的第一特征向量和第二特征向量。
通常情况下,服务器在对各个用户的画像特征进行向量化处理前,会对各对用户中各个用户的画像特征进行预处理。具体的,针对每个画像特征,统计不满足所述画像特征对应的预设画像条件的总数量;若所述总数据超过所述画像特征对应的预设缺失值过滤阈值,则基于所述画像特征的性质确定填充值,将不满足所述预设画像条件对应的画像特征的特征值替换为所述填充值。
画像特征的性质表征该画像特征是连续型特征还是离散型特征。若画像特征是连续型特征,则将该画像特征对应的平均值确定为填充值;若画像特征是离散型特征,则将该画像特征对应的预设常数值确定为填充值。
服务器可以为每个画像特征设置对应的预设画像条件,当不满足预设画像条件时,认为该画像特征缺失。预设缺失值过滤阈值的设置与用户的总数量正相关,例如,可以将用户的总数据量乘以预设占比值,得到预设缺失值过滤阈值,预设占比值是一个0到1之间的数值。在数学关系上,若用n表示预设占比值,Total表示用户的总数据量,则预设缺失值过滤阈值Th=n*Total。每个画像特征对应的预设缺失值过滤阈值可以相同,也可以不同,可以通过调节n的值来进行设置。
例如,对于50对用户的年龄,可以获取100个用户的年龄,即Total为100。假设n为0.4,则预设缺失值过滤阈值为40。若这100个用户中,有40个人的年龄都在100岁以下,而其中60个用户的年龄高于100岁,如果年龄对应的预设画像条件为小于100岁,那么总数量为60,超过了40,则将这60个用户的年龄用对应的预设常数值替换,比如98。
在对每个画像特征进行预处理时,服务器还可以对一些异常值处理,例如可以根据特征分布情况,将特征值太太、排在前预设位置的特征值滤除,然后按照上述缺失值的处理方式进行填充。
在一些实施方式中,服务器还可以通过特征变换、特征平方、特征加减等方式对每个用户的画像特征进行组合和衍生,以生成该用户的衍生特征;并将该衍生特征作为画像特征的一部分。
服务器在对每个用户的画像特征进行向量化处理时,针对每个用户的画像特征,将连续型特征进行分箱离散化处理,将离散型特征进行one-hot编码,得到该用户对应的特征向量。
S20132,将所述每对用户的行为特征用独热向量表示,得到所述每对用户的第三特征向量。
服务器对该对用户的行为特征进行one-hot编码,然后将所有编码按照行为特征对应的互动行为发生的时间顺序进行拼接,作为该对用户的第三特征向量。例如,将转发朋友圈编码为[1,0,0,0,0,0],朋友圈点赞编码为[0,1,0,0,0,0],转发电商购物链接编码为[0,0,1,0,0,0],点击购买编码为[0,0,0,1,0,0],则该对用户的第三特征向量为[1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0,0,0,0,0,1,0,0]。
S20133,对所述每对用户的第一特征向量、第二特征向量和第三特征向量进行拼接,得到所述每对用户的特征向量。
举例说明,对于A1和A2这一对用户中,在对A1的画像特征进行向量化处理后,可以得到A1对应的特征向量即第一特征向量为[0.2,-0.4,0.09,0.54,-2.5],在对A2的画像特征进行向量化处理后,可以得到A2对应的特征向量即第二特征向量为[0.7,-0.01,0.3,0.4,9],该对用户的行为特征用独热向量表示后的第三特征向量为[1,0,0,0,0,0,0,1,0,0,0,0],则该对用户的特征向量可表示为:[0.2,-0.4,0.09,0.54,-2.5,0.7,-0.01,0.3,0.4,9,1,0,0,0,0,0,0,1,0,0,0,0]。
S2014,将所述每对用户在各种关系类型中的行为序列,和所述每对用户的特征向量,确定为所述样本。
S202,针对每种所述关系类型,基于预设用户关系集中每对用户在所述关系类型中的行为序列进行序列模式挖掘,得到所述关系类型的至少一种行为序列模式,其中,所述预设用户关系集中的每对用户均具有确定的关系类型。
服务器将预设用户关系集中各对用户作为种子用户对,这些种子用户对之间具有确定的关系类型,比如用户K和用户O是情侣关系,用户K和用户R是同事关系等等。然后,利用确定的关系类型的种子用户对,确定出预设时间段内各对用户在不同关系类型中的行为序列,从而挖掘该关系类型所具有的行为序列模式。比如,情侣关系的每对用户,在情人节时都具有发送红包的交互行为。
在具体实施时,服务器可以基于频繁项集挖掘的关联算法进行序列模式挖掘,例如Apriori算法、FP Tree算法以及PrefixSpan算法等等。
本申请实施例中,服务器基于Prefixspan算法进行序列模式的挖掘,其主要实施步骤为:找出单位长度为1的行为序列元素所在上下文序列前缀和对应投影数据集;统计行为序列元素所在上下文序列前缀出现频率并将支持度高于最小支持度阈值的前缀添加到数据集,获取频繁一项集序列模式;对所有长度为i且满足最小支持度要求的前缀递归挖掘:挖掘前缀的投影数据集,如果投影数据为空集合,则返回递归;统计对应投影数据集中各项的最小支持度,将满足支持度的各单项与当前前缀合并,得到新前缀,不满足支持度要求则递归返回;令i=i+1,前缀为合并单项后的各个新前缀,分别递归执行此步骤;最终返回该行为序列元素所在上下文序列样本集中所有序列模式。
具体如图6所示,步骤S202可以包括:
S2021,针对每种所述关系类型,获取所述关系类型对应的最小支持率。
服务器将各对用户的行为序列作为挖掘对象,同时使用最小支持率策略,该最小支持率与该关系类型中用户对的数量正相关,且最小支持率是0到1之间的数。
S2022,将所述预设用户关系集中具有所述关系类型的各对用户,确定为所述关系类型对应的种子序列。
比如,若预设用户关系集中的各对用户及其对应的关系类型为{{“用户1-用户2”,“情侣关系”},{“用户3-用户4”,“同事关系”},{“用户5-用户6”,“父子关系”},{“用户7-用户8”,“情侣关系”}…},则情侣关系对应的种子序列为{“用户1-用户2”,{“用户7-用户8”,…},同事关系对应的种子序列为{“用户3-用户4”,…},父子关系对应的种子序列为{“用户5-用户6”,…}。
S2023,根据所述种子序列中的用户对数量和所述最小支持率,确定所述关系类型对应的最小支持度阈值。
服务器将用户对数量与最小支持率的乘积,确定为该关系类型对应的最小支持度阈值。在数学关系上,若用min表示最小支持绿,num表示用户对数量,则最小支持度阈值min_sup=min*num。比如,情侣关系对应的种子序列中用户对数量为2,情侣关系对应的最小支持率为0.5,则情侣关系对应的最小支持度阈值为1。
S2024,通过预设序列模式挖掘算法,基于所述种子序列中每对用户的行为序列进行模式挖掘,得到满足所述最小支持度阈值的各项前缀。
本申请实施例中,服务器基于Prefixspan算法挖掘各对用户的行为序列中蕴含的序列模式。以情侣关系为例,假设所设定的最小支持度阈值为0.5,种子序列中用户对数量为2,两个用户对的行为序列分别为bcafgh和bcdaghf,那么满足该最小支持度阈值的一项前缀及其对应的投影数据集为:
表5:一项前缀示例
对于一项前缀b,各项支持度可表示为{c:2,a:2,f:2,g:2,h:2,d:1},均满足最小支持度阈值,则以前缀为b的二项前缀为bc,ba,bf,bg,bh以及bd。同理,可以计算出以前缀为c、a、f、g以及h的二项前缀。然后再确定所有二项项前缀对应的投影数据集为:
表6:二项前缀示例
对于二项前缀bc,各项支持度可表示为{a:2,f:2,g:2,h:2,d:1},均满足最小支持度阈值,则以前缀为b的三项前缀为bca,bcf,bcg,bch以及bcd。依次可以确定出所有满足该最小支持度阈值的三项项前缀。然后再确定所有三项前缀对应的投影数据集为:
表7:三项前缀示例
对于三项前缀bca,各项支持度为{f:2,g:2,h:2},均满足最小支持度阈值,则以前缀为b的四项前缀为bcaf,bcag以及bcah。依次可以确定出所有满足该最小支持度阈值的四项项前缀。然后再确定所有四项前缀对应的投影数据集为:
表8:四项前缀示例
对于四项前缀bcaf,各项支持度为{g:1,h:1},均满足最小支持度阈值,则以前缀为b的五项前缀为bcafg以及bcafh。依次可以确定出所有满足该最小支持度阈值的五项项前缀。然后再确定所有五项前缀对应的投影数据集为:
表9:五项前缀示例
五项前缀 | 投影数据集 | 五项前缀 | 投影数据集 |
bcafg | h | … | … |
对于五项前缀bcafg,各项支持度为{h:1},均满足最小支持度阈值,则以前缀为b的一个六项前缀为bcafgh,该六项前缀对应的投影数据集为空,则bcafg的递归结束。同理,可以确定出所有满足该最小支持度阈值的六项前缀,然后再确定所有五项前缀对应的投影数据集。
S2025,将每项所述前缀,确定为所述关系类型的一种所述行为序列模式。
服务器将以上各项前缀组成该关系类型的各种行为序列模式,则上述例子中,该情侣关系的各种行为序列模式为b,c,a,f,g,h,bc,ba,bf,bg,bh,bd,bca,bcf,bcg,bch,bcd,bcaf,bcag,bcah以及bcafg……。
S203,基于所述关系类型的至少一种行为序列模式,对所述样本中每对用户在所述关系类型中的行为序列进行匹配,以确定所述样本中每对用户在所述关系类型中的权重。
具体如图7所示,步骤S203可以包括:
S2031,针对所述样本中的每对用户,将所述每对用户在所述关系类型中的行为序列中所包含的最长所述行为序列模式,确定为所述每对用户在所述关系类型中的目标序列模式。
服务器将每对用户在该关系类型中的行为序列,与该关系类型的所有行为序列模式进行匹配,以确定出每对用户在该关系类型中的行为序列所包含的最长的行为序列模式。例如,该对用户在该关系类型中的行为序列为bcafgh,在步骤S2025所确定出的所有序列模式中,所匹配的最长行为序列模式为bcafg,则bcafg即为该对用户在该关系类型中的目标序列模式。
S2032,确定所述目标序列模式在所述关系类型中的支持度。
本申请实施例中,支持度用于指示目标序列模式在该关系类型中的频繁程度,是一个0到1之间的值。如图8所示,步骤S2032可以包括:
S20321,统计所述关系类型对应的种子序列中,各对用户的行为序列出现所述目标序列模式的次数,以及确定所述关系类型对应的种子序列中的用户对数量。
如种子序列中各对用户的行为序列分别为bcafgh和bcdaghf,用户对数量也即行为序列数量为2。对于步骤S2031所确定的目标序列模式bcafg在bcafgh中出现,但并未出现在bcdaghf中,因此次数为1。
S20322,判断所述次数是否大于或等于预设阈值。
本申请实施例中,预设阈值可以基于用户对数量进行设置,例如,将次数设置为用户对数量的百分之五十,即只要该关系类型对应的所有行为序列中,有百分之五十的行为序列出现了目标序列模式,就认为该目标序列模式表征了该关系类型中各对用户的行为。当然,也可以直接将预设阈值设置为一个固定值,比如零。当设置为零时,即认为只要该目标序列模式能与一个行为序列匹配,就认为该目标序列模式有效。
若所述次数大于或等于预设阈值,则执行步骤S20323;若所述次数小于所述预设阈值,则执行步骤S20324。
S20323,将所述次数与所述用户对数量的比值,确定为所述目标序列模式在所述关系类型中的支持度。
服务器通过计算支持度得到该关系类型中出现该目标序列模式的频繁程度,计算方式可用如下式子表示:
则上述例子中,在情侣关系下,目标序列模式bcafg对应的支持度为0.5。
S20324,将所述关系类型对应的最小支持率确定为所述目标序列模式在所述关系类型中的支持度。
S2033,将所述支持度确定为所述每对用户在所述关系类型中的权重。
针对每一种关系类型,服务器先基于每对用户在该关系类型中的行为序列,确定出与该行为序列匹配的目标序列模式,然后基于目标序列模式在各对用户的行为序列中出现的频繁程度,来确定出该对用户的权重,使得在对该关系类型进行识别时,属于该关系类型的各对用户具有较高的权重,不属于该关系类型的各对用户的权重较低,从而使得服务器基于该权重进行加权聚类运算,可以更好的对该关系类型进行识别。
S204,根据所述样本中每对用户在所述关系类型中的权重,对所述样本中每对用户的特征向量进行加权聚类运算,得到所述关系类型的聚类结果。
服务器基于加权聚类算法进行加权聚类运算,在识别一种关系类型时,为提高聚类结果的准确性,也可以进行多次加权聚类运算,其中,多次表示至少一次。每次加权聚类运算采用“二分类”的方式对每个关系类型进行识别,将聚类结果分为该关系类型和非该关系类型。对于加权聚类算法的选取,可以是任一基于划分的聚类算法,例如K-means算法、EM算法等,本申请实施例不做具体限定,以下以K-means聚类算法为例,说明具体聚类过程。
如图9中所示,步骤S204可以包括:
S2041,设置K个目标聚类中心向量,所述K为2。
在第一次进行加权聚类运算时,服务器将预先设定的两个初始聚类中心向量作为目标聚类中心向量。初始聚类中心向量是基于该关系类型下,各对用户的特征向量进行初始估计运算得到的。
S2042,分别计算所述样本中每对用户的特征向量与各个所述目标聚类中心向量之间的相似度。
本申请实施例中,相似度可以用两个向量之间的距离计算得到,或者通过两个向量之间夹角的余弦计算得到。
S2043,根据所述相似度,确定所述每对用户的特征向量与所述K个目标聚类中心向量之间的映射关系。
计算每对用户的特征向量与目标聚类中心向量之间的相似度,然后将相似度小于一定阈值的各对用户映射为两个目标聚类中心向量中的一个。
S2044,将映射有相同的所述目标聚类中心向量的特征向量对应的每对用户划分至相同子样本中,得到K个子样本。
基于相似度,将样本进行二分类,划分为两个子样本,然后再重新计算每个子样本的中心向量。
S2045,针对每个所述子样本,将所述子样本中每对用户的权重一一对应地对所述子样本中每对用户的特征向量进行加权并求和,以得到所述关系类型的聚类结果。
在不考虑权重的情况下,K-means聚类算法在准则函数收敛时结束聚类,准则函数的公式为:
本申请实施例考虑每个成员对应的权重,在考虑权重的情况下,对样本加权后聚类的准则函数计算公式可以更新为:
其中,wj为第j个成员的权重。
对于每个关系类型,每对用户的特征向量即为公式中的每对用户在该关系类型中的权重即为wj。每次二分类后,得到两个类,每个类对应一个子样本。对于每个子样本,将该子样本中每对用户的权重一一对应地对该子样本中每对用户的特征向量进行加权并求和,可以计算出该子样本的修正聚类中心向量。然后将该子样本的目标聚类中心向量与修正聚类中心向量进行对比,如果差异在一定范围内,则说明聚类结果准确,将该聚类结果作为该关系类型的聚类结果;如果差异超出一定范围,则说明聚类结果不准确,可以将两个修正聚类中心向量设置为目标聚类中心向量,重新执行步骤S2042进行加权聚类。
通过对特征向量进行加权聚类,使得该关系类型的用户对的权重,高于非该关系类型的用户对的权重,因此聚类后该关系类型的各对用户倾向于聚集在一类,从而区分非该关系类型的用户对。例如用户对K的特征向量为[0.2,-0.4,0.09,0.54,-2.5,0.7,-0.01,0.3,0.4,9,1,0,0,0,0,0,0,1,0,0,0,0],在情侣关系下的行为序列模式支持度即权重为1;用户对J的特征向量为[0.02,-0.14,0.6,-0.7,5,0.09,0.65,-0.03,0.01,-0.58,0,0,0,0,1,0,0,0,0,0,0,1],在非情侣关系下的行为序列模式支持度即权重为0.5,加权后用户对K的各维度特征更集中到一类,而用户对J各维度特征集中到另一类,因此聚类后能够更好地区分是否为所识别的关系类型。
经过多次加权聚类将每种关系类型与其他关系类型区分开,从而扩散得到各个关系类型的用户对。然后基于各个关系类型的聚类结果,可以确定出该样本对应的关系网络结构,从而实现整个关系网络的构建。例如,聚类结果指示情侣关系的用户对为:用户A与用户B,用户C与用户W;父子关系的用户对为:用户M和用户B;母子关系的用户对为:用户Q和用户A;同学关系的用户对为:用户A和用户C,用户C和用户W,用户W和用户E;同事关系的用户对为:用户C和用户W,用户K和用户W,用户C和用户K。相应的关系网络结构如10所示。
由以上本申请实施例提供的关系网络构建方法可见,本申请具有如下有益效果:
(1)在对关系类型识别时,通过具有确定的关系类型的各对用户在该关系类型的行为序列,自动挖掘出该关系类型的行为序列模式,而不需要人工制定定,生成行为序列模式的泛化能力更强;由于行为序列模式自动生成,不需要过多人工参与,具有较强的实时性,同时也可以很好地满足线上迭代自动化需求,适用性更强。
(2)基于频繁序列模式挖掘生成,行为序列模式更能表征对应关系类型的行为共性。
(3)基于行为序列模式确定各对用户在各关系类型中的权重,充分考虑相同关系类型的用户对之间互动行为的相关性,使得具有该关系类型的各对用户在该关系类型中具有较高的权重,而不具有该关系类型的各对用户在该关系类型中具有较低的权重;因此,基于权重对各对用户的特征向量进行加权聚类时,具有该关系类型的各对用户可以归到一类,不具有该关系类型的各对用户可以归到另一类,从而提高了各关系类型识别的准确性,进而提升了关系网络构建的准确性。
(4)通过多次进行二分类,每次加权聚类识别一种关系类型的用户对,从而扩散得到每种关系类型的用户对,以此构建整个关系网络,不会存在漏识别现象,从而使得所构建的关系网络更准确。
本申请实施例还提供了一种关系网络构建装置,如图11所示,所述装置可以包括:
样本获取模块1110,用于获取预设时间段内的样本,所述样本包括每对用户的特征向量,以及所述每对用户在各种关系类型中的行为序列;
行为模式挖掘模块1120,用于针对每种所述关系类型,基于预设用户关系集中每对用户在所述关系类型中的行为序列进行序列模式挖掘,得到所述关系类型的至少一种行为序列模式,其中,所述预设用户关系集中的每对用户均具有确定的关系类型;
模式匹配模块1130,用于基于所述关系类型的至少一种行为序列模式,对所述样本中每对用户在所述关系类型中的行为序列进行匹配,以确定所述样本中每对用户在所述关系类型中的权重;
关系类型确定模块1140,用于根据所述样本中每对用户在所述关系类型中的权重,对所述样本中每对用户的特征向量进行加权聚类运算,得到所述关系类型的聚类结果。
在一些实施例中,如图12所示,所述样本获取模块1110可以包括:
行为数据获取单元1111,用于获取所述预设时间段内所有用户的行为数据;
行为序列构建单元1112,用于基于所述所有用户的行为数据,构建所述每对用户在各种关系类型中的行为序列;
特征向量构建单元1113,用于获取所述每对用户的用户特征,并对所述每对用户的用户特征进行向量化处理,得到所述每对用户的特征向量;
样本构建单元1114,用于将所述每对用户在各种关系类型中的行为序列,和所述每对用户的特征向量,确定为所述样本。
在一些实施例中,如图13所示,所述行为序列构建单元1112可以包括:
互动行为获取单元11121,用于针对每种所述关系类型,获取所述关系类型对应的互动行为;
用户对数据确定单元11122,用于基于所述所有用户的行为数据与所述关系类型对应的互动行为,确定所述每对用户在各个时间节点的行为数据;
行为编码单元11123,用于基于预设行为编码规则,对所述每对用户在各个时间节点的行为数据进行编码处理,得到所述每对用户在各个时间节点的行为编码;
编码拼接单元11124,用于将所述每对用户在各个时间节点的行为编码,按照所述各个时间节点的先后顺序进行拼接,以生成所述每对用户在所述关系类型中的行为序列。
在一些实施例中,所述每对用户的用户特征包括所述每对用户中各个用户的画像特征,以及所述每对用户的行为特征。如图14所示,所述特征向量构建单元1113可以包括:
画像特征处理单元11131,用于分别对所述每对用户中各个用户的画像特征进行向量化处理,得到所述每对用户的第一特征向量和第二特征向量;
行为特征处理单元11132,用于将所述每对用户的行为特征用独热向量表示,得到所述每对用户的第三特征向量;
特征向量拼接单元11133,用于对所述每对用户的第一特征向量、第二特征向量和第三特征向量进行拼接,得到所述每对用户的特征向量。
在一些实施例中,如图15所示,所述行为模式挖掘模块1120可以包括:
支持率获取单元1121,用于针对每种所述关系类型,获取所述关系类型对应的最小支持率;
种子序列确定单元1122,用于将所述预设用户关系集中具有所述关系类型的各对用户,确定为所述关系类型对应的种子序列;
支持度阈值确定单元1123,用于根据所述种子序列中的用户对数量和所述最小支持率,确定所述关系类型对应的最小支持度阈值;
前缀生成单元1124,用于通过预设序列模式挖掘算法,基于所述种子序列中每对用户的行为序列进行模式挖掘,得到满足所述最小支持度阈值的各项前缀;
序列模式生成单元1125,用于将每项所述前缀,确定为所述关系类型的一种所述行为序列模式。
在一些实施例中,如图16所示,所述模式匹配模块1130可以包括:
目标序列模式确定单元1131,用于针对所述样本中的每对用户,将所述每对用户在所述关系类型中的行为序列中所包含的最长所述行为序列模式,确定为所述每对用户在所述关系类型中的目标序列模式;
支持度确定单元1132,用于确定所述目标序列模式在所述关系类型中的支持度;
权重确定单元1133,用于将所述支持度确定为所述每对用户在所述关系类型中的权重。
在一些实施例中,如图17所示,所述支持度确定单元1132可以包括:
统计单元11321,用于统计所述关系类型对应的种子序列中,各对用户的行为序列出现所述目标序列模式的次数,以及确定所述关系类型对应的种子序列中的用户对数量;
判断单元11322,用于判断所述次数是否大于或等于预设阈值;
第一确定单元11323,用于在所述次数大于或等于预设阈值的情况下,将所述次数与所述用户对数量的比值,确定为所述目标序列模式在所述关系类型中的支持度;
第二确定单元11324,用于在所述次数小于所述预设阈值的情况下,将所述关系类型对应的最小支持率确定为所述目标序列模式在所述关系类型中的支持度。
在一些实施例中,如图18所示,所述关系类型确定模块1140可以包括:
中心向量设置单元1141,用于设置K个目标聚类中心向量,所述K为2;
相似度计算单元1142,用于分别计算所述样本中每对用户的特征向量与各个所述目标聚类中心向量之间的相似度;
映射单元1143,用于根据所述相似度,确定所述每对用户的特征向量与所述K个目标聚类中心向量之间的映射关系;
子样本划分单元1144,用于将映射有相同的所述目标聚类中心向量的特征向量对应的每对用户划分至相同子样本中,得到K个子样本;
聚类结果确定单元1145,用于针对每个所述子样本,将所述子样本中每对用户的权重一一对应地对所述子样本中每对用户的特征向量进行加权并求和,以得到所述关系类型的聚类结果。
需要说明的是,上述实施例提供的装置,在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘述。
本申请实施例还提供了一种关系网络构建设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令或至少一段程序,所述至少一条指令或至少一段程序由所述处理器加载并执行上述方法实施例提供的关系网络构建方法。
进一步地,图19示出了一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图,所述设备可以参与构成或包含本申请实施例所提供的装置或系统。如图19所示,设备19可以包括一个或多个(图中采用1902a、1902b,……,1902n来示出)处理器1902(处理器1902可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1904、以及用于通信功能的传输装置106。除此以外,还可以包括:显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图19所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,设备19还可包括比图19中所示更多或者更少的组件,或者具有与图19所示不同的配置。
应当注意到的是上述一个或多个处理器1902和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到设备19(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器1904可用于存储应用软件的软件程序以及模块,如本申请实施例中所述的方法对应的程序指令/数据存储装置,处理器1902通过运行存储在存储器1904内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的一种关系网络构建方法。存储器1904可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器1904可进一步包括相对于处理器1902远程设置的存储器,这些远程存储器可以通过网络连接至设备19。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置1906用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备19的通信供应商提供的无线网络。在一个实例中,传输装置1906包括一个网络适配器(NetworkInterfaceController,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置1906可以为射频(RadioFrequency,RF)模块,其用于通过无线方式与互联网进行通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与设备19(或移动设备)的用户界面进行交互。
本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有至少一条指令或至少一段程序,该至少一条指令或至少一段程序由处理器加载并执行以实现上述方法实施例提供的关系网络构建方法。
可选地,在本实施例中,上述计算机存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地,在本实施例中,上述存储介质可以包括但不限于:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
本申请实施例还提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机存储介质中。关系网络构建设备的处理器从计算机存储介质读取该计算机指令,处理器执行该计算机指令,使得该关系网络构建设备执行上述的方法实施例提供的关系网络构建方法。
需要说明的是:上述本申请实施例先后顺序仅仅为了描述,不代表实施例的优劣。且上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置和电子设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
上述说明已经充分揭露了本申请的具体实施方式。需要指出的是,熟悉该领域的技术人员对本申请的具体实施方式所做的任何改动均不脱离本申请的权利要求书的范围。相应地,本申请的权利要求的范围也并不仅仅局限于前述具体实施方式。
Claims (10)
1.一种关系网络构建方法,其特征在于,所述方法包括:
获取预设时间段内的样本,所述样本包括每对用户的特征向量,以及所述每对用户在各种关系类型中的行为序列;
针对每种所述关系类型,基于预设用户关系集中每对用户在所述关系类型中的行为序列进行序列模式挖掘,得到所述关系类型的至少一种行为序列模式,其中,所述预设用户关系集中的每对用户均具有确定的关系类型;
基于所述关系类型的至少一种行为序列模式,对所述样本中每对用户在所述关系类型中的行为序列进行匹配,以确定所述样本中每对用户在所述关系类型中的权重;
根据所述样本中每对用户在所述关系类型中的权重,对所述样本中每对用户的特征向量进行加权聚类运算,得到所述关系类型的聚类结果。
2.根据权利要求1所述的方法,其特征在于,所述获取预设时间段内的样本,包括:
获取所述预设时间段内所有用户的行为数据;
基于所述所有用户的行为数据,构建所述每对用户在各种关系类型中的行为序列;
获取所述每对用户的用户特征,并对所述每对用户的用户特征进行向量化处理,得到所述每对用户的特征向量;
将所述每对用户在各种关系类型中的行为序列,和所述每对用户的特征向量,确定为所述样本。
3.根据权利要求2所述的方法,其特征在于,所述基于所述所有用户的行为数据,构建所述每对用户在各种关系类型中的行为序列,包括:
针对每种所述关系类型,获取所述关系类型对应的互动行为;
基于所述所有用户的行为数据与所述关系类型对应的互动行为,确定所述每对用户在各个时间节点的行为数据;
基于预设行为编码规则,对所述每对用户在各个时间节点的行为数据进行编码处理,得到所述每对用户在各个时间节点的行为编码;
将所述每对用户在各个时间节点的行为编码,按照所述各个时间节点的先后顺序进行拼接,以生成所述每对用户在所述关系类型中的行为序列。
4.根据权利要求2所述的方法,其特征在于,所述每对用户的用户特征包括所述每对用户中各个用户的画像特征,以及所述每对用户的行为特征;
所述对所述每对用户的用户特征进行向量化处理,得到所述每对用户的特征向量,包括:
分别对所述每对用户中各个用户的画像特征进行向量化处理,得到所述每对用户的第一特征向量和第二特征向量;
将所述每对用户的行为特征用独热向量表示,得到所述每对用户的第三特征向量;
对所述每对用户的第一特征向量、第二特征向量和第三特征向量进行拼接,得到所述每对用户的特征向量。
5.根据权利要求1所述的方法,其特征在于,所述针对每种所述关系类型,基于预设用户关系集中每对用户在所述关系类型中的行为序列进行序列模式挖掘,得到所述关系类型的至少一种行为序列模式,包括:
针对每种所述关系类型,获取所述关系类型对应的最小支持率;
将所述预设用户关系集中具有所述关系类型的各对用户,确定为所述关系类型对应的种子序列;
根据所述种子序列中的用户对数量和所述最小支持率,确定所述关系类型对应的最小支持度阈值;
通过预设序列模式挖掘算法,基于所述种子序列中每对用户的行为序列进行模式挖掘,得到满足所述最小支持度阈值的各项前缀;
将每项所述前缀,确定为所述关系类型的一种所述行为序列模式。
6.根据权利要求5所述的方法,其特征在于,所述基于所述关系类型的至少一种行为序列模式,对所述样本中每对用户在所述关系类型中的行为序列进行匹配,以确定所述样本中每对用户在所述关系类型中的权重,包括:
针对所述样本中的每对用户,将所述每对用户在所述关系类型中的行为序列中所包含的最长所述行为序列模式,确定为所述每对用户在所述关系类型中的目标序列模式;
确定所述目标序列模式在所述关系类型中的支持度;
将所述支持度确定为所述每对用户在所述关系类型中的权重。
7.根据权利要求6所述的方法,其特征在于,所述确定所述目标序列模式在所述关系类型中的支持度,包括:
统计所述关系类型对应的种子序列中,各对用户的行为序列出现所述目标序列模式的次数,以及确定所述关系类型对应的种子序列中的用户对数量;
若所述次数大于或等于预设阈值,则将所述次数与所述用户对数量的比值,确定为所述目标序列模式在所述关系类型中的支持度;
若所述次数小于所述预设阈值,则将所述关系类型对应的最小支持率确定为所述目标序列模式在所述关系类型中的支持度。
8.根据权利要求1所述的方法,其特征在于,所述根据所述样本中每对用户的权重,对所述样本中每对用户的特征向量进行加权聚类运算,得到所述关系类型的聚类结果,包括:
设置K个目标聚类中心向量,所述K为2;
分别计算所述样本中每对用户的特征向量与各个所述目标聚类中心向量之间的相似度;
根据所述相似度,确定所述每对用户的特征向量与所述K个目标聚类中心向量之间的映射关系;
将映射有相同的所述目标聚类中心向量的特征向量对应的每对用户划分至相同子样本中,得到K个子样本;
针对每个所述子样本,将所述子样本中每对用户的权重一一对应地对所述子样本中每对用户的特征向量进行加权并求和,以得到所述关系类型的聚类结果。
9.一种关系网络构建装置,其特征在于,所述装置包括:
样本获取模块,用于获取预设时间段内的样本,所述样本包括每对用户的特征向量,以及所述每对用户在各种关系类型中的行为序列;
行为模式挖掘模块,用于针对每种所述关系类型,基于预设用户关系集中每对用户在所述关系类型中的行为序列进行序列模式挖掘,得到所述关系类型的至少一种行为序列模式,其中,所述预设用户关系集中的每对用户均具有确定的关系类型;
模式匹配模块,用于基于所述关系类型的至少一种行为序列模式,对所述样本中每对用户在所述关系类型中的行为序列进行匹配,以确定所述样本中每对用户在所述关系类型中的权重;
关系类型确定模块,用于根据所述样本中每对用户在所述关系类型中的权重,对所述样本中每对用户的特征向量进行加权聚类运算,得到所述关系类型的聚类结果。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-8任一所述的关系网络构建方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424600.2A CN112380299A (zh) | 2020-12-08 | 2020-12-08 | 关系网络构建方法、装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202011424600.2A CN112380299A (zh) | 2020-12-08 | 2020-12-08 | 关系网络构建方法、装置及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112380299A true CN112380299A (zh) | 2021-02-19 |
Family
ID=74590636
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202011424600.2A Pending CN112380299A (zh) | 2020-12-08 | 2020-12-08 | 关系网络构建方法、装置及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112380299A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113244627A (zh) * | 2021-06-24 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 识别外挂的方法、装置、电子设备以及存储介质 |
CN114422321A (zh) * | 2022-01-19 | 2022-04-29 | 北京百度网讯科技有限公司 | 构建组织协同网络的方法和装置 |
CN116975300A (zh) * | 2023-09-22 | 2023-10-31 | 中国铁塔股份有限公司吉林省分公司 | 基于大数据集合的信息挖掘方法及系统 |
-
2020
- 2020-12-08 CN CN202011424600.2A patent/CN112380299A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113244627A (zh) * | 2021-06-24 | 2021-08-13 | 腾讯科技(深圳)有限公司 | 识别外挂的方法、装置、电子设备以及存储介质 |
CN113244627B (zh) * | 2021-06-24 | 2021-11-19 | 腾讯科技(深圳)有限公司 | 识别外挂的方法、装置、电子设备以及存储介质 |
CN114422321A (zh) * | 2022-01-19 | 2022-04-29 | 北京百度网讯科技有限公司 | 构建组织协同网络的方法和装置 |
CN114422321B (zh) * | 2022-01-19 | 2024-03-22 | 北京百度网讯科技有限公司 | 构建组织协同网络的方法和装置 |
CN116975300A (zh) * | 2023-09-22 | 2023-10-31 | 中国铁塔股份有限公司吉林省分公司 | 基于大数据集合的信息挖掘方法及系统 |
CN116975300B (zh) * | 2023-09-22 | 2024-01-26 | 中国铁塔股份有限公司吉林省分公司 | 基于大数据集合的信息挖掘方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902849B (zh) | 用户行为预测方法及装置、行为预测模型训练方法及装置 | |
CN106503006B (zh) | 应用App中子应用的排序方法及装置 | |
CN112380299A (zh) | 关系网络构建方法、装置及存储介质 | |
CN102708130B (zh) | 计算用户微细分以用于要约匹配的可扩展引擎 | |
CN111259263B (zh) | 一种物品推荐方法、装置、计算机设备及存储介质 | |
CN103761254B (zh) | 多领域服务主题匹配推荐方法 | |
CN109784973A (zh) | 基于大数据分析的广告投放方法、装置及电子设备 | |
CN111723292B (zh) | 基于图神经网络的推荐方法、系统、电子设备及存储介质 | |
TW201939400A (zh) | 目標用戶群體的確定方法和裝置 | |
CN109697641A (zh) | 计算商品相似度的方法和装置 | |
CN109815406B (zh) | 一种数据处理、信息推荐方法及装置 | |
CN112434188A (zh) | 一种异构数据库的数据集成方法、装置及存储介质 | |
CN110866767A (zh) | 电信用户满意度的预测方法、装置、设备及介质 | |
CN110399564B (zh) | 帐号分类方法和装置、存储介质及电子装置 | |
CN111639700A (zh) | 目标相似度识别方法、装置、计算机设备及可读存储介质 | |
CN103678548A (zh) | 基于组合模式的失效服务替代推荐方法 | |
CN111667018A (zh) | 一种对象聚类的方法、装置、计算机可读介质及电子设备 | |
Liu et al. | Animation user value portrait based on RFM model under big data | |
CN112559640A (zh) | 图谱表征系统的训练方法及装置 | |
CN114596108A (zh) | 一种对象推荐方法、装置、电子设备及存储介质 | |
CN113781134A (zh) | 物品推荐方法、装置及计算机可读存储介质 | |
CN111460300A (zh) | 网络内容推送方法、装置及存储介质 | |
CN111651456A (zh) | 潜在用户确定方法、业务推送方法及装置 | |
CN111459990A (zh) | 对象处理方法、系统及计算机可读存储介质和计算机设备 | |
US20230334096A1 (en) | Graph data processing method and apparatus, computer device, and storage medium |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40038315 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |