CN109634995A - 评估主体对关系的方法、装置及服务器 - Google Patents

评估主体对关系的方法、装置及服务器 Download PDF

Info

Publication number
CN109634995A
CN109634995A CN201811052854.9A CN201811052854A CN109634995A CN 109634995 A CN109634995 A CN 109634995A CN 201811052854 A CN201811052854 A CN 201811052854A CN 109634995 A CN109634995 A CN 109634995A
Authority
CN
China
Prior art keywords
relationship
main body
assessment
characteristic
training sample
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811052854.9A
Other languages
English (en)
Other versions
CN109634995B (zh
Inventor
王凯
何慧梅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201811052854.9A priority Critical patent/CN109634995B/zh
Publication of CN109634995A publication Critical patent/CN109634995A/zh
Application granted granted Critical
Publication of CN109634995B publication Critical patent/CN109634995B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services

Landscapes

  • Engineering & Computer Science (AREA)
  • Computing Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本说明书实施例公开了一种评估主体对关系的方法、装置及服务器,根据与M个业务场景的关系评估特征对应的特征数据生成训练样本,并基于训练样本训练用于评估主体对关系的评估模型。

Description

评估主体对关系的方法、装置及服务器
技术领域
本说明书实施例涉及互联网技术领域,尤其涉及一种评估主体对关系的方法、装置及服务器。
背景技术
社交产品中会涉及很多营销场景,比如为用户或账户推荐好友、刻画用户或账户的人脉影响力等等。
而为用户或账户推荐好友、刻画人脉影响力的重要前提是能够得知用户与用户/账户与账户之间的关系强弱度,则需要对用户与用户之间、账户与账户之间关系进行评估,以体现关系强弱。
发明内容
本说明书实施例通过提供一种评估主体对关系的方法、装置及服务器。
第一方面,本说明书实施例提供一种评估主体对关系的方法,包括:
确定M个业务场景的关系评估特征,所述M个业务场景下包含多个主体对,所述关系评估特征与所述主体对之间的交互行为相关,M为正整数;
从所述M个业务场景的业务数据中,清洗出与所述M个业务场景的关系评估特征对应的特征数据;
根据所述特征数据生成训练样本,并基于所述训练样本训练用于评估主体对关系的评估模型。
第二方面,本说明书实施例提供一种评估主体对关系的装置,包括:
第一特征确定单元,用于确定M个业务场景的关系评估特征,所述M个业务场景下包含多个主体对,所述关系评估特征与所述主体对之间的交互行为相关,M为正整数;
第一数据清洗单元,用于从所述M个业务场景的业务数据中,清洗出与所述M个业务场景的关系评估特征对应的特征数据;
第一模型训练单元,用于根据所述特征数据生成训练样本,并基于所述训练样本训练用于评估主体对关系的评估模型。
第三方面,本说明书实施例提供一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述方法的步骤。
本说明书实施例有益效果如下:
本说明书实施例提供的评估主体对关系的方法、装置及服务器,根据从M个业务场景的业务数据中清洗出与M个业务场景的关系评估特征对应的特征数据,并以此生成训练样本,再基于该训练样本训练用于评估主体对关系的评估模型,从而,以此评估模型能够对主体对关系进行有监督的评估,无需为评估依赖的各个不同的业务场景独立设计评估逻辑,而是全部交由机器学习算法完成,避免人为干预。因此,提高了评估主体对关系的效率和准确性。
附图说明
图1为本说明书实施例中评估主体对关系的场景示意图;
图2为本说明书实施例第一方面提供的评估主体对关系的方法的流程图;
图3为本说明书实施例第二方面提供的评估主体对关系的装置的结构示意图;
图4为本说明书实施例第三方面提供的评估主体对关系的服务器的结构示意图。
具体实施方式
为了更好的理解上述技术方案,下面通过附图以及具体实施例对本说明书实施例的技术方案做详细的说明,应当理解本说明书实施例以及实施例中的具体特征是对本说明书实施例技术方案的详细的说明,而不是对本说明书技术方案的限定,在不冲突的情况下,本说明书实施例以及实施例中的技术特征可以相互组合。
参见图1所示,图1为本说明书实施例中评估主体对关系的场景示意图。多个用户侧的终端100,终端100中的客户端101的可以是基于互联网实现业务的APP或网站,各个终端100提供给用户使用的界面。各个终端100与对应的服务器300通信,服务器300中设置的业务处理系统301用于处理对应客户端101发起的业务。
网络侧的服务器200与各个终端100通信,监控各个终端100中的客户端101,从各个终端100中的客户端101获取业务数据。或者:服务器200与各个服务器300通信,从各个服务器300的业务处理系统301获取业务数据。各服务器300对应各自的业务场景,使得服务器200能够获得一个或者多个业务场景的业务数据。服务器200中设置有关系评估系统201,关系评估系统201基于接收的业务数据训练出评估主体对关系的评估模型202,并基于评估模型202对主体对关系进行预测,得到关系评估结果。任意给定一个用户或账户(记做A),需要取得与A相关的一系列用户或账户(记做A1,A2,…,An),并希望能对A与A1,A与A2,……,A与An之间的关系进行评估,以体现A与A1,A2,…,An之间的关系强弱,则适用于图1给出的场景。
第一方面,本说明书实施例提供一种评估主体对关系的方法,参考图2所示,包括如下步骤:
S202、确定M个业务场景的关系评估特征,M个业务场景下包含多个主体对,关系评估特征与主体对之间的交互行为相关,M为正整数。
在步骤S202中,从多种业务场景中选择关系评估所依赖的M个业务场景。具体的,选择出的关系评估所依赖的业务场景可以为一个或者多个。关系评估所依赖的业务场景根据实际需求选择。举例来讲,关系评估所依赖的业务场景可以包括:社交场景、资金场景、媒介场景中的一种或者多个。
具体的,确定M个业务场景中包含多个主体对,确定各主体对在M个业务场景下的关系评估特征。需要说明的是,在本说明书实施例中,主体对是指:两个主体构成的一对主体。业务场景不同,主体与主体之间的交互行为相应不同。社交场景下的交互行为是指:社交行为。资金场景下的交互行为是指:资金行为。媒介场景下的交互行为是指:媒介行为。本说明书实施例中所指的主体可以为业务场景下的用户或者账户或者其他实体。
针对M个业务场景对应选择关系评估特征。其中:业务场景不同,则针对该业务场景选择的关系评估特征可能会有所不同。
具体来讲,确定社交场景下的关系评估特征,具体为:确定社交场景中的主体对之间的消息发送量和/或联系天数。具体而言,即:确定主体与主体之间的消息发送量和/或联系天数。同理的,确定资金场景下的关系评估特征,具体为:确定资金场景中的主体对之间的转账次数和/或转账总金额,即:确定主体与主体之间的转账次数和/或转账总金额。确定媒介场景下的关系评估特征,具体为:确定媒介场景中的主体对连接过相同Wi-Fi的数量和/或共同使用过的生活缴费户号的数量,即:确定两个主体连接过相同Wi-Fi的数量和/或共同使用过的生活缴费户号的数量。
同一业务场景的特征有多种,可以根据业务数据的具体状况从业务场景的多种特征中选择一种以上与主体对的交互行为相关的特征作为关系评估特征。具体而言,业务数据的具体状况包括数据安全、用户隐私等等。
应当理解的是,为了训练样本的丰富性,在不存在数据安全与用户隐私问题的前提下,从M个业务场景下所选择的关系评估特征越丰富越好,在实际应用时,从M个业务场景下选择的关系评估特征以百数量级、千数量级计,并不限于如上举例的几种关系评估特征。
S204、从M个业务场景的业务数据中,清洗出与M个业务场景的关系评估特征对应的特征数据。
具体的,对M个业务场景下的业务数据进行统计,得到M个业务场景下的关系评估特征对应的特征数据。从而,若选择的关系评估所依赖的业务场景包含M个,则清洗出M份特征数据。每份特征数据中包含所对应业务场景下的全量特征数据。需要说明的是,全量特征数据是指该业务场景下的全量主体对的各条特征数据。
具体的,基于M个业务场景下的全量主体,确定M个业务场景下包含的主体对,进而清洗出M个业务场景下各主体对的特征数据。在具体实施过程中,在确定M个业务场景下包含的主体对时,可以考虑关系评估特征的方向信息,或者不考虑关系评估特征的方向信息,从而确定的M个业务场景下包含的主体对的数量不同,特征数据也对应不同。
在考虑关系评估特征的方向信息的实施方式中,主体1对主体2构成主体对,对应的特征数据为:主体1主动发起交互行为所对应的特征数据;主体2对主体1构成另一主体对,对应的特征数据为:主体2主动发起交互行为所对应的特征数据。因此,在考虑关系评估特征的方向信息的前提下,主体1与主体2会构成两个主体对。
在不考虑关系评估特征的方向信息的实施方式中,则主体1与主体2构成一个主体对,对应的特征数据包括:主体主动发起的交互行为所对应的特征数据与主体2主动发起的交互行为对应的特征数据之和。
下面,以社交场景为例进行举例说明:若该社交场景下包含3个用户:用户01、用户02、用户03。
若不考虑方向信息,则基于用户01、用户02、用户03构成3个用户对:用户01-用户02,用户01-用户03,用户02-用户03,则获得社交场景下的特征数据为:用户01-用户02之间的消息发送量和联系天数、用户01-用户03之间的消息发送量和联系天数,用户02-用户03之间的消息发送量和联系天数。
若考虑方向信息,则基于用户01、用户02、用户03构成6个用户对:用户01对用户02、用户02对用户01、用户01对用户03、用户03对用户01、用户02对用户03、用户03对用户02。则对应的,则获得社交场景下的特征数据包括:用户01向用户02发送消息的数量、用户01主动联系用户02的天数;用户02向用户01发送消息的数量、用户02主动联系用户01的天数;用户01向用户03发送消息的数量、用户01主动联系用户03的天数,用户03向用户01发送消息的数量,用户03主动联系用户01的天数;用户02向用户03发送消息的数量和用户02主动联系用户03的天数,用户03向用户02发送消息的数量,用户03主动联系用户02的天数。
需要说明的是,上述基于3个用户的举例描述仅为方便理解,在实际应用过程中,各业务场景下的用户或者账户的数量一般较多,以千数量级、万数量级或者更高数量级计,基于上述举例能够知晓如何获得各主体对在M个业务场景下的的特征数据。
在一可选的实施方式中,可以通过如下步骤清洗出与M个业务场景的关系评估特征对应的特征数据:
步骤S2041:分别获取M个业务场景的业务数据。具体的,针对M个业务场景,可以分别从M个业务场景对应的服务器收集业务数据。
步骤S2042:从M个业务场景的业务数据中,清洗出各主体对在M个业务场景下的关系评估特征对应的特征数据。
在一可选的实施方式中,清洗出各主体对在社交场景下的特征数据、资金场景下的特征数据和媒介场景下的特征数据。下面,清洗出同一主体对在M个业务场景下的特征数据包括:用户1与用户2之间的消息发送数量、联系天数、转账次数、转账总金额、连接过的相同Wi-Fi的数量、共同使用过的生活缴费户号的数量,等等。
下面,针对不同业务场景下清洗出的特征数据进行举例说明,以理解本说明书实施例:
若用户1与用户2在社交场景有过社交行为,则清洗出用户1与用户2在社交场景的如下特征数据:用户1与用户2之间的消息发送量和/或用户1与用户2之间的联系天数。若用户1与用户3在社交场景有过社交行为,则清洗出用户1与用户3在社交场景的如下特征数据为:用户1与用户3之间的消息发送量和/或用户1与用户3之间的联系天数.在具体实施过程中,可以用相同实施原理获得社交场景下的其他的用户与用户之间的特征数据,从而获得社交场景下的全量特征数据。
举例来讲,若账户A与账户B在资金场景有过资金行为,则可以清洗出账户A与账户B在资金场景的如下特征数据:账户A与账户B之间的转账次数和/或账户A与账户B之间的转账总金额;若账户C与账户D在资金场景下有过资金行为,则可以清洗出账户C与账户D在资金场景的如下特征数据:账户C与账户D之间的转账次数和/或账户C与账户D之间的转账总金额。在具体实施过程中,可以用相同实施原理获得资金场景下的其他的账户与账户之间的特征数据,从而获得资金场景下的全量特征数据。
举例来讲,若用户X与用户Y在媒介场景下使用过相同媒介,则可以清洗出用户X与用户Y在媒介场景的如下特征数据:用户X与用户Y之间连接过的相同Wi-Fi的数量和/或共同使用过的生活缴费户号的数量;若用户X与用户Z在资金场景下有过使用过相同媒介,则可以清洗出用户X与用户Z在媒介场景下的如下特征数据:用户X与用户Z之间连接过的相同Wi-Fi的数量和/或共同使用过的生活缴费户号的数量。在具体实施过程中,可以用相同实施原理获得媒介场景下的其他的用户与用户之间的特征数据,从而获得资金场景下的全量特征数据。
通过上述步骤S2041~S2042能够获得关系评估所依赖的M个业务场景的特征数据。
步骤S2043、基于M个业务场景的特征数据,构建M个业务场景对应的M个特征数据表,特征数据表中包含对应业务场景下的特征数据。
在一可选的实施方式中,特征数据表中包含对应业务场景下的全量特征数据。具体的,基于社交场景下的全量特征数据,构建社交场景对应的特征数据表;基于资金场景下的全量特征数据,构建资金场景对应的特征数据表;基于媒介场景下的全量特征数据,构建媒介场景对应的特征数据表。
具体的,M个特征数据表互为同构表,同构表,即为:针对M个业务场景的M个特征数据表结构相同。便于快速对M个特征数据表之间的合并,以及删减特征数据表中的特征数据。特征数据表中的特征数据以主体的ID、主体的名称为区分形成,特征数据表可以参考下表1所示:
表1.特征数据表
字段名 字段类型 字段说明
object_id STRING 主体1的ID
object_name STRING 主体1的名称
other_object_id STRING 主体2的主体ID
other_object_name STRING 主体2的主体名称
features STRING 特征数据列表,存储格式为键值对:K1:V1;K2:V2;...
表1中的features字段为特征字段,按特定符号拼接同一业务场景下的各条特征数据,以形成特征数据列表。具体来讲,以键值对的存储格式存储关系评估特征和对应的特征数据。键值对之间可以采用英文分号“;”拼接。如表1所示,K1和K2为同一业务场景的不同关系评估特征,V1为关系评估特征K1对应的特征数据,V2为关系评估特征K2对应的特征数据。以社交场景举例:
features字段存储主体1与主体2之间的如下特征数据:消息发送量:300;联系天数:3。
在具体实施过程中,特征数据的取值是数值类型(比如300,3),如果是其他类型(比如300条,3天),则转化为数值型。
应当理解的是,表1中的“主体1”与“主体2”泛指构成主体对的两个不同主体。特征数据表中包含同一业务场景下以英文分号“;”拼接的全量特征数据。为了说明书的简洁,表1中示意出同一业务场景下的“主体1”与“主体2”之间的特征数据,同一业务场景下的其他的主体与主体之间的特征数据也存在于该特征数据表中。
S206、根据M个业务场景下的特征数据生成训练样本,并基于训练样本训练用于评估主体对关系的评估模型。
在一可选的实施方式中,根据M个业务场景对应的M个特征数据表生成训练样本,具体可以通过如下步骤实现:
步骤S2061:将M个特征数据表中的特征数据进行汇总,得到包含M个业务场景的关系评估特征及对应特征数据的特征数据汇总表。
具体的,特征数据汇总表的结构与特征数据表的结构保持一致。与特征数据表不同的是,特征数据汇总表中的features字段是基于M个特征数据表的特征字段features按指定符号拼接的结果。在本说明书实施例中,可以保持以K1:V1;K2:V2;...这样的格式将M个特征数据表的features字段进行拼接,形成特征数据汇总表,在形成的特征数据汇总表中,包含M个业务场景下的特征数据。
步骤S2062:处理特征数据汇总表,生成训练样本。
具体而言,在特征数据汇总表中增加分组字段和顺序标记字段,以生成训练样本表,训练样本表中包含训练样本。在另一可选的实施方式中,筛选处理特征数据汇总表中的特征数据,以及在特征数据汇总表中增加分组字段和顺序标记字段,以生成训练样本表。需要说明的是,形成的训练样本表中为打好标记的训练样本。训练样本表的结构可以参考下表2所示:
表2.训练样本表
在具体实施过程中,表1中的id字段为顺序编号,相同的主体共用同一编号,比如,可以从1开始编号。label字段可以来自于人工标记或通过清洗业务数据得到。
在一可选的实施方式中,筛选处理特征数据汇总表中的特征数据是为了训练出性能更好的评估模型,加快模型训练进程。对特征数据汇总表中的特征数据进行采样或者优选,从而形成的训练样本中的数据量会比全量数据少。
选择的训练模型可以为L2R(排序学习模型,Learning To Rank),排序学习模型为一类有监督的机器学习算法的统称,从而基于训练样本对排序学习模型进行训练,以产出评估模型。本说明书实施例中,将排序学习模型创新地用于对人与人、账户与账户等实体之间的关系强弱进行评估。
在一可选的实施方式中,将打好标记的训练样本划分为训练集和评估集。基于训练集对排序学习模型进行模型训练,从而训练出待评估的评估模型。基于评估集对待评估的评估模型进行评估并基于评估结果优化评估模型的超参数,将满足预设评估指标的设定阈值的评估模型确定为最终评估模型。
具体的,可以使用随机抽样的方式从训练样本中抽取预设比例的训练样本作为训练集,剩余的训练样本作为评估集。举例来讲,可以随机抽取训练样本中的2/3训练样本作为训练集,其余的1/3训练样本作为评估集。但是对于训练样本的划分比例并不限于上述比例。
在具体实施过程中,可以使用NDCG(归一化折损累计增益,NormalizedDiscounted Cumulative Gain)或者MAP(平均精度均值,Mean Average Precision)作为对待评估的评估模型的评估指标。
具体的,根据训练数据的形态选择相应的排序学习模型训练评估模型。举例来讲,如果选用的数据形态为单文档(PointWise),则可选用SubsetRank算法或McRank算法训练评估模型;如果选用的数据形态为文档对(PairWise),则可选用Ranking SVM算法或者RankNet等算法训练评估模型;如果选用数据形态为文档列表(ListWise),则可选用LambdaRank算法或者LambdaMART算法或者AdaRank算法或者SoftRank算法进行训练评估模型。
在具体实施过程中,产出的最终评估模型的形式可以是模型表或模型文件。
在产出最终评估模型之后,基于最终评估模型对预测数据表进行预测,得到主体对的关系评估结果,预测数据表包含目标主体集群的全量特征数据。
在一可选的实施方式中,清洗出目标主体集群的预测数据表,目标主体集群属于M个业务场景中的一个以上业务场景。
具体的,目标主体集群可以为M个业务场景中的全量主体,可以为M个业务场景中的一个业务场景下的全量主体,或者为M个业务场景中的多个业务场景下的全量主体。目标主体集群还可以为一个以上业务场景中的部分主体,而部分主体为需要进行关系评估的主体。
在一可选的实施方式中,从M个业务场景的业务数据中清洗出预测数据表。在具体实施过程中,预测数据表的结构可以参考下表3所示,预测数据表比训练样本表少了顺序标记字段label。
表3.预测数据表
利用最终评估模型对预测数据表进行主体对关系强弱的预测,得到目标主体集群中各主体对的关系评估结果。
如果目标主体集群包括M个业务场景下的全量主体,具体实施过程为:从M个业务场景下的业务数据中,清洗出包含M个业务场景下的全量特征数据的预测数据表;基于产出的最终评估模型,对包含M个业务场景下的全量特征数据的预测数据表进行预测,得到M个业务场景下的各主体对的关系评估结果。
基于最终评估模型对预测数据表进行预测,具体可以是:基于最终评估模型对预测数据表进行打分预测,得出的关系评估结果为:主体与主体之间的关系强弱分。其中,分值越高,则表征主体与主体之间的关系越强;反之,分值越低,则表征主体与主体之间的关系越弱。
若关系评估结果具体为:主体对关系强弱分,即:主体与主体之间的关系强弱分,则以打分结果表的形式存储关系强弱分,打分结果表的结构可以参考如下表4所示,但是不用于限制本说明书实施例:
表4.打分结果表
字段名 字段类型 说明
object_id STRING 主体1的ID
object_name STRING 主体1的名称
other_object_id STRING 主体2的ID
other_object_name STRING 主体2的名称
predict_score DOUBLE 主体1与主体2之间的关系强弱分
进一步的,可以根据业务场景的需求,将主体对关系强弱分映射至M个业务场景中对应的业务场景的指定取值区间。具体的,将打分结果表中的predict_score字段映射到对应业务场景的指定取值区间。例如,业务场景A期望主体对关系强弱分是在1~100范围内取值,则将打分结果表中属于业务场景A的主体对关系强弱分线性映射到1~100范围内的取值;同理,业务场景B期望主体对关系强弱分是在1~1000范围内取值,则将打分结果表中属于业务场景B的主体对关系强弱分线性映射到1~1000范围内取值。
通过上述描述可以看出,通过排序学习模型训练出的评估模型对主体与主体之间的关系强弱进行预测,是全部交由机器学习算法完成,因此,无需单独为评估所依赖的各个场景单独设计评估逻辑,因此,评估结果更合理、准确。
本说明书实施例中,在基于训练样本训练评估模型之后,根据增、减特征数据对评估模型进行更新,使得增加或减少评估所依赖的业务场景时只需少量改动。
其中,针对新增特征数据的情况,更新评估模型的实施过程包括如下步骤A20~A24:
步骤A20、确定新增业务场景的关系评估特征。具体的,从新增业务场景的多个特征中选择用于评估主体对关系的特征,即:关系评估特征。在具体实施过程中,新增业务场景可以为一个或者多个。
步骤A22、从新增业务场景的业务数据中,清洗出与新增业务场景的关系评估特征对应的新增特征数据。
步骤A24、将新增特征数据与当前训练样本关联,生成第一更新训练样本,当前训练样本与步骤S206中的训练样本相关。
需要说明的是,步骤A24中的当前训练样本与训练样本相关,具体可以是:当前训练样本直接为步骤S206中的训练样本,或者,当前训练样本为:在步骤A24之前对步骤S206中的训练样本经过了删减特征数据和/或增加特征数据后所形成的训练样本。
在步骤A24中,基于新增特征数据构建新增业务场景对应的新的特征数据表。新的特征数据表与M个特征数据表互为同构表,为了说明书的简洁,不再对新的特征数据表的结构进行详细描述。
将新的特征数据表中features字段的取值与包含当前训练样本的样本表中的features字段的取值进行拼接,得到包含第一更新训练样本的更新样本表。在具体实施过程中,新的特征数据表与包含当前训练样本的样本表之间的拼接以字段object_id和字段other_object_id作为主键进行。
步骤A26、基于第一更新训练样本训练出第一更新评估模型。
具体的,基于第一更新训练样本对排序学习模型进行训练,产出第一更新评估模型。在具体实施过程中,可以是基于包含第一更新训练样本的更新样本表对排序学习模型进行训练,产出第一更新评估模型。需要说明的是,训练第一更新评估模型所使用的排序学习模型与训练最终评估模型所用的排序学习模型可以相同。产出第一更新评估模型与产出最终评估模型的实施原理相同或者相似,为了说明书的简洁,在此不再赘述。
在产生第一更新评估模型之后,准备第一更新预测数据表。具体的,通过目标主体集群的预测数据表的features字段拼接上新增特征数据,形成第一更新预测数据表。保持以英文分号“;”分隔的键值对形式拼接上新增特征数据。并基于第一更新评估模型对第一更新预测数据表进行主体对关系强弱的预测,得到新的关系评估结果。进一步的,可以将新的关系评估结果中属于新增业务场景的关系强弱分映射至新增业务场景对应的指定取值区间。
从以上步骤可以看出,如果新增业务场景,只需将新增业务场景的新增特征数据汇总进来重新进行评估模型训练和关系强弱预测即可,使得关系评估完全由机器学习算法从训练数据中学习得到,且只需花极少的时间就可以完成,而不需要针对新增的业务场景重新设计打分逻辑。
针对减少特征数据的情况,更新评估模型的实施过程包括如下步骤B22~B24:
步骤B22、从当前训练样本中删除特定业务场景的特征数据,生成第二更新训练样本,当前训练样本与S206中的训练样本相关。
需要说明的是,步骤B22中的当前训练样本与S206中生成的训练样本相关,具体可以是:当前训练样本直接为步骤S20的训练样本,或者,当前训练样本为:在步骤B22之前,对步骤S206的训练样本进行删减特征数据和/或增加特征数据后所形成的训练样本。
在具体实施过程中,从包含当前训练样本的样本表的features字段中删除属于特定业务场景的特征数据的键值对,从而生成包含第二更新训练样本的更新样本表。
在本说明书实施例中,特定业务场景,具体所指为:因业务关闭导致无法再获取对应业务数据的业务场景,或者为业务数据已经不适合用于训练评估模型的业务场景。
举例来讲,需要删除资金场景下的特征数据,则删除包含当前训练样本的样本表的features字段中的转账次数:x;转账总金额:y。
步骤B24、基于第二更新训练样本训练出第二更新评估模型。
在步骤B24中,基于第二更新训练样本对排序学习模型进行训练,产出第二更新评估模型。在具体实施过程中,可以是基于包含第二更新训练样本的更新样本表对排序学习模型进行训练,产出第二更新评估模型。需要说明的是,训练第二更新评估模型所使用的排序学习模型与训练最终评估模型所用的排序学习模型可以相同。产出第二更新评估模型的实施原理与产出最终评估模型的实施原理相同或者相似,为了说明书的简洁,此处不再赘述。
在产生第二更新评估模型之后,准备第二更新预测数据表,具体的,通过删除目标主体集群的预测数据表的features字段中属于特定业务场景的特征数据的键值对,形成第二更新预测数据表。基于第二更新评估模型对第二更新预测数据表进行主体对关系强弱的预测,得到新的关系评估结果。
从以上步骤可以看出,如果需要减少特征数据,只是将删除这部分特征数据之后的剩余的特征数据集进行模型训练和预测即可。
第二方面,基于与前述评估主体对关系的方法的相同发明构思,本说明书实施例提供一种评估主体对关系的装置,参考图3所示,本说明书实施例提供的评估主体对关系的装置包括:
第一特征确定单元301,用于确定M个业务场景的关系评估特征,M个业务场景下包含多个主体对,关系评估特征与主体对之间的交互行为相关,M为正整数;
第一数据清洗单元302,用于从M个业务场景的业务数据中,清洗出与M个业务场景的关系评估特征对应的特征数据;
第一模型训练单元303,用于根据特征数据生成训练样本,并基于训练样本训练用于评估主体对关系的评估模型。
在一可选的实施方式中,第一模型训练单元303,包括:
基于训练样本对排序学习模型进行训练,以产出最终评估模型。
在一可选的实施方式中,本说明书实施例提供的评估主体对关系的装置还包括:
第二特征确定单元,用于确定新增业务场景的关系评估特征;
第二数据清洗单元,用于从新增业务场景的业务数据中,清洗出与新增业务场景的关系评估特征对应的新增特征数据;
第一样本更新单元,用于将新增特征数据与当前训练样本关联,生成第一更新训练样本,其中,当前训练样本与训练样本相关;
第二模型训练单元,用于基于第一更新训练样本对排序学习模型进行训练,以产出第一更新评估模型。
在一可选的实施方式中,本说明书实施例提供的评估主体对关系的装置还包括:
第二样本更新单元,用于从当前训练样本中删除特定业务场景的特征数据,生成第二更新训练样本,其中,所述当前训练样本与训练样本相关;
第三模型训练单元,用于基于第二更新训练样本对排序学习模型进行训练,以产出第二更新评估模型。
在一可选的实施方式中,本说明书实施例提供的评估主体对关系的装置还包括:
预测数据清洗单元304,用于清洗出目标主体集群的预测数据表,目标主体集群属于M个业务场景中的一个以上业务场景,预测数据表包含目标主体集群的全量特征数据;
预测单元305,用于利用最终评估模型对预测数据表进行主体对关系强弱的预测,得到对目标主体集群中各主体对的关系评估结果。
在一可选的实施方式中,如果关系评估结果为主体对关系强弱分,本说明书实施例提供的评估主体对关系的装置还包括:
映射单元306,用于将主体对关系强弱分映射至M个业务场景中对应的业务场景的指定取值区间。
在一可选的实施方式中,第一特征确定单元301,具体用于确定如下一种或者多种业务场景的关系评估特征:
确定社交场景中的主体对之间的消息发送量、联系天数中的一种以上;
确定资金场景中的主体对之间的转账次数、转账总金额中的一种以上;
确定媒介场景中的主体对连接过相同Wi-Fi的数量、共同使用过的生活缴费户号的数量一种以上。
在一可选的实施方式中,第一数据清洗单元302,包括:
数据获取子单元,用于分别获取M个业务场景的业务数据;
数据清洗子单元,用于从M个业务场景的业务数据中,清洗出与M个业务场景的关系评估特征对应的特征数据;
数据表构建单元,用于基于M个业务场景的特征数据,构建M个业务场景对应的M个特征数据表,特征数据表中包含对应业务场景的特征数据。
在一可选的实施方式中,第一模型训练单元303,包括:
数据汇总子单元,用于将M个特征数据表中的特征数据进行汇总,生成包含M个特征数据表中特征数据的特征数据汇总表;
数据处理子单元,用于处理特征数据汇总表,生成训练样本。
在一可选的实施方式中,数据处理子单元,具体用于:
筛选处理特征数据汇总表中的特征数据,以及在特征数据汇总表中增加分组字段和顺序标记字段,以生成训练样本。
第三方面,基于与前述实施例中评估主体对关系的方法同样的发明构思,本说明书实施例还提供一种服务器,如图4所示,该服务器包括存储器404、处理器402及存储在存储器404上并可在处理器402上运行的计算机程序,处理器402执行程序时实现前文评估主体对关系的方法的任一实施方式所述的步骤。
其中,在图4中,总线架构(用总线400来代表),总线400可以包括任意数量的互联的总线和桥,总线400将包括由处理器402代表的一个或多个处理器和存储器404代表的存储器的各种电路链接在一起。总线400还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口406在总线400和接收器401和发送器403之间提供接口。接收器401和发送器403可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器402负责管理总线400和通常的处理,而存储器404可以被用于存储处理器402在执行操作时所使用的数据。
第四方面,基于与前述实施例中评估主体对关系的方法同样的发明构思,本说明书实施例还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文评估主体对关系的方法的任一实施方式所述的步骤。
本说明书是参照根据本说明书实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的设备。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令设备的制造品,该指令设备实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本说明书的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本说明书范围的所有变更和修改。
显然,本领域的技术人员可以对本说明书进行各种改动和变型而不脱离本说明书的精神和范围。这样,倘若本说明书的这些修改和变型属于本说明书权利要求及其等同技术的范围之内,则本说明书也意图包含这些改动和变型在内。

Claims (21)

1.一种评估主体对关系的方法,包括:
确定M个业务场景的关系评估特征,所述M个业务场景下包含多个主体对,所述关系评估特征与所述主体对之间的交互行为相关,M为正整数;
从所述M个业务场景的业务数据中,清洗出与所述M个业务场景的关系评估特征对应的特征数据;
根据所述特征数据生成训练样本,并基于所述训练样本训练用于评估主体对关系的评估模型。
2.如权利要求1所述的评估主体对关系的方法,所述基于所述训练样本训练用于评估主体对关系的评估模型,包括:
基于所述训练样本对排序学习模型进行训练,以产出最终评估模型。
3.如权利要求1所述的评估主体对关系的方法,在所述基于所述训练样本训练用于评估主体对关系的评估模型之后,还包括:
确定新增业务场景的关系评估特征;
从所述新增业务场景的业务数据中,清洗出与所述新增业务场景的关系评估特征对应的新增特征数据;
将所述新增特征数据与当前训练样本关联,生成第一更新训练样本,其中,所述当前训练样本与所述训练样本相关;
基于所述第一更新训练样本对所述排序学习模型进行训练,以产出第一更新评估模型。
4.如权利要求1所述的评估主体对关系的方法,还包括:
从当前训练样本中删除特定业务场景的特征数据,生成第二更新训练样本,其中,所述当前训练样本与所述训练样本相关;
基于所述第二更新训练样本对所述排序学习模型进行训练,以产出第二更新评估模型。
5.如权利要求2所述的评估主体对关系的方法,在所述产出最终评估模型之后,还包括:
清洗出目标主体集群的预测数据表,所述目标主体集群属于所述M个业务场景中的一个以上业务场景,所述预测数据表包含目标主体集群的全量特征数据;
利用所述最终评估模型对所述预测数据表进行主体对关系强弱的预测,得到对所述目标主体集群中各主体对的关系评估结果。
6.如权利要求5所述的评估主体对关系的方法,所述关系评估结果为主体对关系强弱分;
在所述对所述目标主体集群中各主体对的关系评估结果之后,还包括:
将所述主体对关系强弱分映射至所述M个业务场景中对应的业务场景的指定取值区间。
7.如权利要求1-6中任一项所述的评估主体对关系的方法,所述确定M个业务场景的关系评估特征,包括确定如下一种或者多种业务场景的关系评估特征:
确定社交场景中的主体对之间的消息发送量、联系天数中的一种以上;
确定资金场景中的主体对之间的转账次数、转账总金额中的一种以上;
确定媒介场景中的主体对连接过相同Wi-Fi的数量、共同使用过的生活缴费户号的数量一种以上。
8.如权利要求1-6中任一项所述的评估主体对关系的方法,所述从所述M个业务场景的业务数据中,清洗出与所述M个业务场景的关系评估特征对应的特征数据,包括:
分别获取所述M个业务场景的业务数据;
从所述M个业务场景的业务数据中,清洗出各主体对在所述M个业务场景下的关系评估特征对应的特征数据;
基于所述M个业务场景的特征数据,构建所述M个业务场景对应的M个特征数据表,所述特征数据表中包含对应业务场景的特征数据。
9.如权利要求8所述的评估主体对关系的方法,所述根据所述特征数据生成训练样本,包括:
将所述M个特征数据表中的特征数据进行汇总,生成包含所述M个特征数据表中特征数据的特征数据汇总表;
处理所述特征数据汇总表,生成所述训练样本。
10.如权利要求9所述的评估主体对关系的方法,所述处理所述特征数据汇总表,生成所述训练样本,包括:
筛选处理所述特征数据汇总表中的特征数据,以及在所述特征数据汇总表中增加分组字段和顺序标记字段,以生成所述训练样本。
11.一种评估主体对关系的装置,包括:
第一特征确定单元,用于确定M个业务场景的关系评估特征,所述M个业务场景下包含多个主体对,所述关系评估特征与所述主体对之间的交互行为相关,M为正整数;
第一数据清洗单元,用于从所述M个业务场景的业务数据中,清洗出与所述M个业务场景的关系评估特征对应的特征数据;
第一模型训练单元,用于根据所述特征数据生成训练样本,并基于所述训练样本训练用于评估主体对关系的评估模型。
12.如权利要求11所述的评估主体对关系的装置,所述第一模型训练单元,包括:
基于所述训练样本对排序学习模型进行训练,以产出最终评估模型。
13.如权利要求11所述的评估主体对关系的装置,还包括:
第二特征确定单元,用于确定新增业务场景的关系评估特征;
第二数据清洗单元,用于从所述新增业务场景的业务数据中,清洗出与所述新增业务场景的关系评估特征对应的新增特征数据;
第一样本更新单元,用于将所述新增特征数据与当前训练样本关联,生成第一更新训练样本,其中,所述当前训练样本与所述训练样本相关;
第二模型训练单元,用于基于所述第一更新训练样本对所述排序学习模型进行训练,以产出第一更新评估模型。
14.如权利要求11所述的评估主体对关系的装置,还包括:
第二样本更新单元,用于从当前训练样本中删除特定业务场景的特征数据,生成第二更新训练样本,其中,所述当前训练样本与所述训练样本相关;
第三模型训练单元,用于基于所述第二更新训练样本对所述排序学习模型进行训练,以产出第二更新评估模型。
15.如权利要求12所述的评估主体对关系的装置,还包括:
预测数据清洗单元,用于清洗出目标主体集群的预测数据表,所述目标主体集群属于所述M个业务场景中的一个以上业务场景,所述预测数据表包含目标主体集群的全量特征数据;
预测单元,用于利用所述最终评估模型对所述预测数据表进行主体对关系强弱的预测,得到对所述目标主体集群中各主体对的关系评估结果。
16.如权利要求15所述的评估主体对关系的装置,如果所述关系评估结果为主体对关系强弱分,所述装置还包括:
映射单元,用于将所述主体对关系强弱分映射至所述M个业务场景中对应的业务场景的指定取值区间。
17.如权利要求11-16中任一项所述的评估主体对关系的装置,所述第一特征确定单元,具体用于确定如下一种或者多种业务场景的关系评估特征:
确定社交场景中的主体对之间的消息发送量、联系天数中的一种以上;
确定资金场景中的主体对之间的转账次数、转账总金额中的一种以上;
确定媒介场景中的主体对连接过相同Wi-Fi的数量、共同使用过的生活缴费户号的数量一种以上。
18.如权利要求11-16中任一项所述的评估主体对关系的装置,所述第一数据清洗单元,包括:
数据获取子单元,用于分别获取所述M个业务场景的业务数据;
数据清洗子单元,用于从所述M个业务场景的业务数据中,清洗出各主体对所述M个业务场景下的关系评估特征对应的特征数据;
数据表构建单元,用于基于所述M个业务场景的特征数据,构建所述M个业务场景对应的M个特征数据表,所述特征数据表中包含对应业务场景的特征数据。
19.如权利要求18所述的评估主体对关系的装置,所述第一模型训练单元,包括:
数据汇总子单元,用于将所述M个特征数据表中的特征数据进行汇总,生成包含所述M个特征数据表中特征数据的特征数据汇总表;
数据处理子单元,用于处理所述特征数据汇总表,生成所述训练样本。
20.如权利要求19所述的评估主体对关系的装置,所述数据处理子单元,具体用于:
筛选处理所述特征数据汇总表中的特征数据,以及在所述特征数据汇总表中增加分组字段和顺序标记字段,以生成所述训练样本。
21.一种服务器,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现权利要求1-10中任一项所述方法的步骤。
CN201811052854.9A 2018-09-10 2018-09-10 评估主体对关系的方法、装置及服务器 Active CN109634995B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811052854.9A CN109634995B (zh) 2018-09-10 2018-09-10 评估主体对关系的方法、装置及服务器

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811052854.9A CN109634995B (zh) 2018-09-10 2018-09-10 评估主体对关系的方法、装置及服务器

Publications (2)

Publication Number Publication Date
CN109634995A true CN109634995A (zh) 2019-04-16
CN109634995B CN109634995B (zh) 2023-06-30

Family

ID=66066305

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811052854.9A Active CN109634995B (zh) 2018-09-10 2018-09-10 评估主体对关系的方法、装置及服务器

Country Status (1)

Country Link
CN (1) CN109634995B (zh)

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011096255A (ja) * 2009-10-30 2011-05-12 Nec (China) Co Ltd ランキング指向の協調フィルタリング推薦方法および装置
CN103617289A (zh) * 2013-12-12 2014-03-05 北京交通大学长三角研究院 基于用户特征及网络关系的微博推荐方法
WO2015099581A2 (en) * 2013-12-27 2015-07-02 Zakrytoe Aktsionernoe Obshchestvo "Ekopsi" Method and system of employee competency assessment field of the invention
US20160026918A1 (en) * 2014-07-28 2016-01-28 Yahoo! Inc. Systems and methods for providing recommendations and explanations
CN106021377A (zh) * 2016-05-11 2016-10-12 上海点荣金融信息服务有限责任公司 计算机实现的信息处理方法及装置
US20170228652A1 (en) * 2013-07-31 2017-08-10 International Business Machines Corporation Method and apparatus for evaluating predictive model
WO2017167069A1 (zh) * 2016-03-30 2017-10-05 阿里巴巴集团控股有限公司 简历评估方法和装置
CN108416684A (zh) * 2017-02-10 2018-08-17 腾讯科技(深圳)有限公司 一种账号主体的可信程度评估方法、装置及服务器
CN108416625A (zh) * 2018-02-28 2018-08-17 阿里巴巴集团控股有限公司 营销产品的推荐方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011096255A (ja) * 2009-10-30 2011-05-12 Nec (China) Co Ltd ランキング指向の協調フィルタリング推薦方法および装置
US20170228652A1 (en) * 2013-07-31 2017-08-10 International Business Machines Corporation Method and apparatus for evaluating predictive model
CN103617289A (zh) * 2013-12-12 2014-03-05 北京交通大学长三角研究院 基于用户特征及网络关系的微博推荐方法
WO2015099581A2 (en) * 2013-12-27 2015-07-02 Zakrytoe Aktsionernoe Obshchestvo "Ekopsi" Method and system of employee competency assessment field of the invention
US20160026918A1 (en) * 2014-07-28 2016-01-28 Yahoo! Inc. Systems and methods for providing recommendations and explanations
WO2017167069A1 (zh) * 2016-03-30 2017-10-05 阿里巴巴集团控股有限公司 简历评估方法和装置
CN106021377A (zh) * 2016-05-11 2016-10-12 上海点荣金融信息服务有限责任公司 计算机实现的信息处理方法及装置
CN108416684A (zh) * 2017-02-10 2018-08-17 腾讯科技(深圳)有限公司 一种账号主体的可信程度评估方法、装置及服务器
CN108416625A (zh) * 2018-02-28 2018-08-17 阿里巴巴集团控股有限公司 营销产品的推荐方法和装置

Also Published As

Publication number Publication date
CN109634995B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
Khan et al. An analysis of the barriers to the proliferation of M-Commerce in Qatar: A relationship modeling approach
CN109919316A (zh) 获取网络表示学习向量的方法、装置和设备及存储介质
CN104765751B (zh) 应用推荐方法及装置
CN109299220A (zh) 职工在线考试试卷生成方法及终端设备
CN107391542A (zh) 一种基于文件知识图谱的开源软件社区专家推荐方法
CN110086877A (zh) 应用程序分享、分享信息显示方法、装置、设备及介质
JP2021509492A (ja) 当事者の間の戦略的対話における戦略探索
CN109388674A (zh) 数据处理方法、装置、设备及可读存储介质
CN107992595A (zh) 一种学习内容推荐方法、装置及智能设备
CN109978033A (zh) 同操作人识别模型的构建与同操作人识别的方法和装置
CN103186664A (zh) 识别用于支持对复杂问题的推荐的解的最佳数据库群组的方法与系统
CN110246037A (zh) 交易特征预测方法、装置、服务器及可读存储介质
CN109118316A (zh) 线上店铺真实性的识别方法和装置
CN108182640A (zh) 一种基于用户行为传播模型求解影响力最大化问题的方法
Ceselli et al. Optimized assignment patterns in Mobile Edge Cloud networks
CN102664744B (zh) 网络消息通信中群发推荐的方法
CN110191183A (zh) 精准智能推送方法、系统、装置及计算机可读存储介质
Gnecco et al. Public transport transfers assessment via transferable utility games and Shapley value approximation
Kaya et al. Unsupervised link prediction in evolving abnormal medical parameter networks
CN112102011A (zh) 基于人工智能的用户等级预测方法、装置、终端及介质
Zhang et al. Link transmission centrality in large-scale social networks
Pak et al. Intermedia reliance and sustainability of emergent media: a large-scale analysis of American news outlets’ external linking behaviors
Patrizi et al. Health data acquisition from wearable devices during a pandemic: A techno-economics approach
Yu et al. Robust team orienteering problem with decreasing profits
CN105681384B (zh) 一种信息的过期处理方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

GR01 Patent grant
GR01 Patent grant