CN111274330B - 一种目标对象确定方法、装置、计算机设备及存储介质 - Google Patents
一种目标对象确定方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN111274330B CN111274330B CN202010040805.4A CN202010040805A CN111274330B CN 111274330 B CN111274330 B CN 111274330B CN 202010040805 A CN202010040805 A CN 202010040805A CN 111274330 B CN111274330 B CN 111274330B
- Authority
- CN
- China
- Prior art keywords
- sample
- evaluation
- evaluation category
- category label
- determining
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/953—Querying, e.g. by the use of web search engines
- G06F16/9536—Search customisation based on social or collaborative filtering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及人工智能技术领域,提供一种目标对象确定方法、装置、计算机设备及存储介质。该方法包括:获得当前对象的多个特征;其中,所述多个特征是根据当前对象在业务场景下相关的历史数据确定的;根据所述多个特征,从多个评估类别标签中确定所述当前对象所属的目标评估类别标签;其中,每个评估类别标签是在业务场景下对其他样本对象的转化行为具有相同的评估等级的样本对象进行聚类获得的,每个样本对象为在所述业务场景下存在转化行为的对象;将所述当前对象确定为所述目标评估类别标签中的目标对象。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及人工智能技术领域,提供一种目标对象确定方法、装置、计算机设备及存储介质。
背景技术
在各个领域,需在为各个用户进行推荐之前,通常需要挖掘出一些潜在的用户。目前,通常是基于各个用户社交关系网络获取各个用户的社交关系,预测量化各个用户之间的关联度,将关联度满足一定条件的用户确定为目标用户。但是,这种方法需要针对不同的目标用户进行挖掘时,需要重新定义不同的规则,导致确定目标对象的过程较为复杂。
发明内容
本申请实施例提供一种目标对象确定方法、装置、计算机设备及存储介质,用于简化挖掘目标对象的过程。
第一方面,提供一种目标对象确定方法,包括:
获得当前对象的多个特征;其中,所述多个特征是根据当前对象在业务场景下相关的历史数据确定的;
根据所述多个特征,从多个评估类别标签中确定所述当前对象所属的目标评估类别标签;其中,每个评估类别标签是在业务场景下对其他样本对象的转化行为具有相同的评估等级的样本对象进行聚类获得的,每个样本对象为在所述业务场景下存在转化行为的对象;
将所述当前对象确定为所述目标评估类别标签中的目标对象。
第二方面,提供一种目标对象确定装置,包括:
获得模块,用于获得当前对象的多个特征;其中,所述多个特征是根据当前对象在业务场景下相关的历史数据确定的;
第一确定模块,用于根据所述多个特征,从多个评估类别标签中确定所述当前对象所属的目标评估类别标签;其中,每个评估类别标签是在业务场景下对其他样本对象的转化行为具有相同的评估等级的样本对象进行聚类获得的,每个样本对象为在所述业务场景下存在转化行为的对象;
第二确定模块,用于将所述当前对象确定为所述目标评估类别标签中的目标对象。
在一种可能的实施例中,所述多个评估类别标签是通过如下步骤确定的:
获得当前对象的多个特征;其中,所述多个特征是根据当前对象在业务场景下相关的历史数据确定的;
根据所述多个特征,从多个评估类别标签中确定所述当前对象所属的目标评估类别标签;其中,每个评估类别标签是在业务场景下对其他样本对象的转化行为具有相同的评估等级的样本对象进行聚类获得的,每个样本对象为在所述业务场景下存在转化行为的对象;
将所述当前对象确定为所述目标评估类别标签中的目标对象。
在一种可能的实施例中,第一确定模块具体用于:
将所述多个特征转化为向量,获得组合特征向量;
对所述组合特征向量进行特征提取,获得组合编码特征向量;
确定所述组合编码特征向量属于各个评估类别标签的概率;
将概率满足预设概率的评估类别标签确定为所述当前对象所属的评估类别标签。
在一种可能的实施例中,获得模块具体用于:
获取当前对象在业务场景下各个指标关联的历史数据;
对每个指标关联的历史数据进行编码,获得每个指标关联的转化特征;
确定每个转化特征与各个转化特征之间的平均相关度;
所述多个特征为平均相关度满足相关度阈值的转化特征。
在一种可能的实施例中,获得模块具体用于:
对所述组合特征向量进行正向编码处理,获得前向编码向量;
对所述组合特征向量进行反向编码处理,获得后向编码向量;
对前向编码向量和样本后向编码向量进行组合,获得组合编码特征向量。
在一种可能的实施例中,所述装置还包括推荐模块,其中:
为所述当前对象推荐与所述当前对象所属的评估类别标签下关联的样本对象存在转化行为的物品。
在一种可能的实施例中,第一确定模块具体用于:
通过已训练的评估类别确定模型,从多个评估类别标签中,根据所述组合特征确定所述当前对象所属的评估类别标签;其中,所述评估类别确定模型是通过每个评估类别标签下的样本对象的多个样本特征训练得到的。
在一种可能的实施例中,所述评估类别确定模型包括第一子模型和第二子模型,所述评估类别确定模型是通过如下步骤共同训练得到的:
分别将每个评估类别标签下的样本对象在各个指标上的历史数据转换为向量,获得样本组合特征向量;
通过第一子模型,对样本组合特征向量进行特征提取,获得样本组合编码特征向量;
通过第二子模型,预测样本组合编码特征向量所属的评估类别标签;
当第二子模型的损失满足目标损失时,获得完成训练的第二子模型和第一子模型。
在一种可能的实施例中,所述第二子模型的损失是根据评估类别标签编码向量之间的余弦角度,和样本组合编码特征向量与样本用户真实所属的评估类别标签编码向量之间的角度距离之差确定的。
第三方面,提供一种计算机设备,包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如第一方面中任一项所述的方法。
第四方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如第一方面中任一项所述的方法。
由于本申请实施例采用上述技术方案,至少具有如下技术效果:
本申请实施例中,在挖掘对潜在的目标对象时,会对已经具有转化行为的样本对象进行分类,将具有相同的评估等级的样本对象划分为同一评估类别标签,从而建立更具有参考价值的评估类别标签,使得后续确定当前对象所属的目标评估类别标签,进而就可以挖掘出各个评估类别标签下的目标对象,确定目标对象的过程简单。且,在对挖掘目标对象时,可以根据当前用户的各个指标关联的历史数据,确定当前对象所属的评估类别标签,使得挖掘潜在对象过程不会过分依赖于目标对象的转化行为,使得该挖掘目标对象方法能够适用于大量的新对象,泛化能力较好,且能够适用于挖掘各种业务场景下的KOL,适用范围广。
附图说明
图1为本申请实施例提供的一种目标对象确定设备的结构示意图;
图2为本申请实施例提供的一种目标对象确定方法的应用场景示意图;
图3为本申请实施例提供的一种目标对象确定方法的原理示意图;
图4为本申请实施例提供的一种目标对象确定模型的结构示意图;
图5为本申请实施例提供的一种目标对象确定方法的流程示意图;
图6为本申请实施例提供的一种目标对象确定方法的交互示意图;
图7为本申请实施例提供的一种终端设备显示的界面示意图;
图8为本申请实施提供的一种终端设备显示推荐结果的界面示意图;
图9为本申请实施例提供的一种目标对象确定装置的结构示意图;
图10为本申请实施例提供的一种计算机设备的结构示意图。
具体实施方式
为了更好的理解本申请实施例提供的技术方案,下面将结合说明书附图以及具体的实施方式进行详细的说明。
应当说明的是,本申请实施例中的“至少一个”包括一个或多个,本申请实施例中的“多个”包括两个或两个以上。
为了便于本领域技术人员更好地理解本方案,下面对本方案涉及的专有名词进行介绍。
人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
自然语言处理(Nature Language processing,NLP):是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
数据库管理系统(英语:Database Management System,简称DBMS)是为管理数据库而设计的电脑软件系统,一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类,例如关系式、XML(Extensible MarkupLanguage,即可扩展标记语言);或依据所支持的计算机类型来作分类,例如服务器群集、移动电话;或依据所用查询语言来作分类,例如SQL(结构化查询语言(Structured QueryLanguage)、XQuery;或依据性能冲量重点来作分类,例如最大规模、最高运行速度;亦或其他的分类方式。不论使用哪种分类方式,一些DBMS能够跨类别,例如,同时支持多种查询语言。
人工智能云服务,一般也被称作是AI即服务(AI as a Service,AIaaS)。这是目前主流的一种人工智能平台的服务方式,具体来说AIaaS平台会把几类常见的AI服务进行拆分,并在云端提供独立或者打包的服务。这种服务模式类似于开了一个AI主题商城:所有的开发者都可以通过API接口的方式来接入使用平台提供的一种或者是多种人工智能服务,部分资深的开发者还可以使用平台提供的AI框架和AI基础设施来部署和运维自已专属的云人工智能服务。
关键意见领袖(Key Opinion Leader,KOL):是营销学上的概念,通常被定义为:拥有更多、更准确的产品信息,且为相关群体所接受或信任,并对该群体的购买行为有较大影响力的用户。金融KOL指在金融领域上尤其是理财投资、交易行为具有更高价值的用户,该部分用户的挖掘对于理财产品的推广运营和销售具有更大的意义。
对象:本申请实施例中的对象可以是指特定的业务场景中的用户。
样本对象:用于表示在某个业务场下确定的具有转化行为的对象。例如在金融物品领域,各个购买过对应的金融物品的样本用户就可以作为样本对象。
转化行为:是指用户在业务场景下进行的实施行为,例如在商品推荐领域,用户进行购买操作,可以理解为该用户进行了转化行为,或者例如在广告推荐领域,用户点击了该广告,可以理解为该用户存在转化行为。
指标:本申请中是指影响用户针对物品进行转化行为的指标,例如社交指标、物品指标等,社交指标可以理解为在该业务场景下,该用户的社交关系以及社交数据等可能影响用户购买物品等,物品指标是指物品本身特征和产生的数据等可能影响用户购买物品。
各个指标的历史数据:是指在各个指标产生或统计的历史数据。每个指标上的历史数据可能包括一个数据值,也可能包括多个数据值,这些数据值可以是直接可以获得的,也可以是通过数据统计获得的。这些指标上的历史数据可能都会影响对象进行转化行为,但是不同指标上的数据对转化行为的影响程度可能是不同的。例如包括社交指标的历史数据和物品维度的历史数据。社交指标的历史数据是指在该业务场景下,产生的一些社交方面的数据,以金融物品为例,社交指标的历史数据例如用户在该购买金融物品类客户端上发表的评论数量、接收的信息条数、发送的信息条数、发送的信息条数和接收的信息条数比例、关注的用户数量、与其他用户的互动次数、受邀回答问题的次数等。物品指标的历史数据是指在该业务场景下,产生的关于产品方面的数据,物品指标的历史数据例如用户在购买金融物品类客户端上在预设时间段内的发/收红包的数量、在预设时间段内的发/收红包的金额、在预设时间段内的转账次数、在预设时间段内的转账金额、在预设时间段内的支付金额、发/收送包的人数、理财产品历史申购赎回笔数、金额、最近一次申购赎回时间等。
业务场景下关联的历史数据:是指可能对用户针对物品进行转化行为的数据,包括可能直接影响用户对物品进行转化行为的数据,也可能包括间接影响用户对物品进行转化行为的数据等。
影响力分值:也可以称为KOL分值,是指表示某个对象对于其他对象在特定业务场景下的转化行为的影响力大小。影响力分值可以根据对象在各个指标上的历史数据确定的。影响力分值越高,表示某个对象对其他对象的影响力越大。
评估类别标签:是在业务场景下对其他样本对象的转化行为具有相同的评估等级的样本对象进行聚类获得的,例如可以用于表示一定区间范围内的影响力分值,评估类别标签的个数可以为多个,评估类别标签的个数可以根据实际业务场景需求进行设定,本申请不具体限制评估类别标签的数量。对象的影响力分值属于某个评估类别标签范围内,那么该对象则对应属于该评估类别标签。
相关技术中,根据各个用户之间的相关度,将关联度满足一定条件的用户确定为目标用户。但是,这种方法在针对不同的目标用户进行挖掘时,需要重新定义不同的规则,导致确定目标对象的过程较为复杂。
鉴于此,本申请发明人设计了一种目标对象确定方法,该方法提前基于已经具有转化行为的样本对象对应的影响力分值进行分类,获得多个评估类别标签,在挖掘当前对象时,可以获得当前对象的组合特征,根据当前对象的组合特征,确定当前对象所属的评估类别标签,将该当前对象确定为所属的评估类别标签中的目标对象,该方法在对潜在对象进行挖掘时,对已经具有转化行为的样本对象进行挖掘分类,挖掘样本对象中具有相同的评估等级的样本对象,建立更具有参考价值的评估类别标签,使得后续只需确定当前对象所属的评估类别标签,将当前对象划分为其评估类别标签所属的目标对象。且,在对对象挖掘时,可以直接根据当前用户的各个指标关联的历史数据,确定当前对象所属的评估类别标签,使得挖掘潜在对象过程不会过分依赖于对象的转化行为,使得该挖掘对象方法能够适用于大量的新对象,泛化能力较好,实用性较好,该方法能够适用于挖掘各种业务场景下的KOL,适用范围广。
本申请中以样本对象为样本用户为例,介绍本申请实施例涉及的目标用户确定方法的原理及过程。
下面对本申请实施例涉及的应用场景进行介绍。
请参照图1,表示执行本申请实施例中的目标对象确定方法的目标对象确定设备的结构示意图,该目标对象确定设备100包括一个或多个输入设备101、一个或多个处理器102、一个或多个存储器103和一个或多个输出设备104。
输入设备101用于提供输入接口,以获取外界设备或用户输入的挖掘信息等。在获得该挖掘信息之后,输入设备101将该挖掘信息发送给处理器102,处理器102利用存储器103中存储的程序指令,确定目标对象所属的评估类别标签,将当前对象确定为评估类别标签对应的目标对象。如果当前对象为用户,并可以为该用户推荐该评估类别标签所关联的物品,在获得推荐的相关物品之后,通过输出设备104输出推荐结果。
其中,输入设备101可以包括但不限于物理键盘、功能键、轨迹球、鼠标、触摸屏、操作杆等中的一种或多种。处理器102可以是一个中央处理单元(central processing unit,CPU),或者为数字处理单元等。存储器103可以是易失性存储器(volatile memory),例如随机存取存储器(random-access memory,RAM);存储器103也可以是非易失性存储器(non-volatile memory),例如只读存储器,快闪存储器(flash memory),硬盘(hard diskdrive,HDD)或固态硬盘(solid-state drive,SSD)、或者存储器103是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器103可以是上述存储器的组合。输出设备104例如显示器、扬声器和打印机等等。
在一种可能的实施例中,目标对象确定设备100可以是用户端设备,也可以是服务端设备。用户端设备可以是移动终端、固定终端或便携式终端,例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。还可预见到的是,目标对象确定设备100能够支持任意类型的针对用户的接口(例如可穿戴设备)等。服务端设备可以是各种服务提供的服务器、大型计算设备等。服务器可以是一个或多个服务器。服务器也可以是实体服务器或虚拟服务器等。
第一种情况下:
目标对象确定设备100通过服务器实现。
具体的,请参照图2,该应用场景中包括终端设备210、服务器220和数据库230,终端设备210中可以安装有客户端,该服务器220可以是与客户端通信的后台服务器,也可以是单独的用于挖掘潜在对象的服务器。客户端可以是网页版客户端,也可以是预装在终端设备210中的客户端,本申请中的客户端例如是电商类购物客户端,或者是理财类客户端,或者可以是可以投放广告的任意类型的客户端。终端设备210和服务器220均可以访问数据库230,将用户访问过程中产生的访问日志存储在数据库230中。数据库230可以设置在服务器220上,也可以是与服务器220相对独立设置,例如数据库230可以通过服务器集群、云服务器或者分布式存储服务器等实现。
例如,当前用户通过终端设备210访问时,当前用户可以请求推荐,或者是在满足预设条件下触发目标用户挖掘时,预设条件例如工作人员进行挖掘目标用户操作时,终端设备210向服务器220发送挖掘请求,该挖掘请求用于请求挖掘当前用户的影响力分值,服务器220在接收到挖掘请求之后,服务器220可以通过数据库230中记录的访问日志,和预先存储的一些对象数据等,获得当前用户的组合特征,根据该组合特征,确定出当前用户的评估类别标签,然后将该当前用户确定为所属的评估类别标签中的目标用户,进一步地服务器220可以为该当前用户推荐评估类别标签下对应的样本对象关联的转化过的一些物品,或者可以挖掘出一些潜在的KOL,通过这些KOL投放广告等。
第二种情况下:
目标对象确定设备100通过终端设备210实现。
继续以图2为例,可以是当前用户可以进行请求推荐操作之后,或者在满足预设条件下触发目标用户挖掘时,终端设备210进行目标用户的挖掘过程,终端设备210可以从数据库230获取当前用户的相关数据,从而获得当前用户的组合特征,确定该当前用户所属的评估类别标签,确定该当前用户为所属的评估类别标签中的目标用户,同理,终端设备210也可以为当前用户推荐评估类别标签下的样本对象关联的物品,或者可以挖掘出一些潜在的KOL,通过这些KOL投放广告等。
其中,终端设备210例如固定终端或便携式终端,例如移动手机、站点、单元、设备、多媒体计算机、多媒体平板、互联网节点、通信器、台式计算机、膝上型计算机、笔记本计算机、上网本计算机、平板计算机、个人通信系统(PCS)设备、个人导航设备、个人数字助理(PDA)、音频/视频播放器、数码相机/摄像机、定位设备、电视接收器、无线电广播接收器、电子书设备、游戏设备或者其任意组合,包括这些设备的配件和外设或者其任意组合。
基于图2论述的应用场景,以目标对象确定设备100为服务器220为例,对本申请实施例涉及的目标对象确定的方法的原理进行介绍。请参照图3,表示一种目标对象确定方法的原理示意图,实现目标对象确定的方法主要包括S301,构建评估类别标签;S302,构建样本数据;S303,训练目标对象确定模型;S304,使用目标对象确定模型。下面对各个部分依次进行介绍。
第一部分,S301,构建评估类别标签:
在挖掘目标对象之前,服务器220或工作人员可以通过网络资源或数据库230获取多个样本用户,以及多个样本用户中每个样本用户在各个指标上的历史数据,可以根据每个样本用户在各个指标上的历史数据,构建评估类别标签。
可以根据每个样本用户在各个指标上的历史数据,获得每个样本用户的影响力分值,在获得每个样本用户的影响力分值之后,可以对多个影响力分值进行区间划分,一个影响力评估区间对应一个评估类别标签,将属于一个影响力评估区间的样本用户划分为一个评估类别标签。下面以获得一个样本用户的影响力分值为例,对获得各个样本用户的影响力分值方式进行说明。
A1,可以对一样本用户在各个指标上的历史数据进行加权,获得每个样本用户的影响力分值。
具体的,在获得一样本用户在各个指标上的历史数据之后,对每个指标上的历史数据进行加权,加权结果可以作为该样本用户的影响力分值。
作为一种实施例,针对每个样本用户,对转化行为影响力越大的指标,该指标上的历史数据对应的权重越大。
对所有样本用户在各个指标上的数据经过上述A1论述的处理过程,可以获得各个样本数据的影响力分值。
A2,可以对一样本用户在各个指标上的历史数据进行标准化;
根据各个标准化后的历史数据,获得该样本用户的影响力分值。
具体的,标准化也可以理解为将所有数据进行按照比例进行缩放,使缩放后的数据落入一个特定区间,例如最大-最小化(Min-max)标准化,例如将所有数据进行归一化,也就是将所有数据的最大值为1,最小值为0。标准化之后可以避免一些不同量纲数据对最后处理结果的影响。
在对每个指标上的历史数据进行标准化处理之后,可以获得各个指标上,标准化后的历史数据,再将各个标准化后的历史数据进行求和,获得该样本用户的影响力分值,或者可以对各个标准化后的历史数据相乘,获得该样本用户的影响力分值。
对所有样本用户在各个指标上的数据经过上述A2论述的处理过程,可以获得各个样本数据的影响力分值。
在获得每个样本用户的影响力分值之后,可以对多个影响力分值进行区间划分,划分方式有多种,下面进行示例介绍。
一种划分方式为:
对多个影响力分值进行等区间划分,每个影响力评估区间作为一个评估类别标签。
具有的,可以预设有N个评估类别标签,N为大于或等于2的正整数。从多个影响力中确定出影响力分值的最大值和影响力分值的最小值。具体每个影响力评估区间间隔可以表示如下:
因此,每个影响力评估区间依次为[Smin,Smin+F],[Smin,Smin+F],[Smin+F,Smin+2F],[Smin+2F,Smin+3F],…[Smin+(N-1)F,Smax]。
在获得多个影响力评估区间之后,可以将每个影响力评估区间的样本用户划分为同一评估等级,并将同一评估等级下的样本用户划分为一个评估类别标签,从而获得每个评估类别标签下的样本用户。
上述是以影响力分为划分评估类别标签的依据,但是实际上不限制划分类别标签的具体方式。
作为一种实施例,N可以根据实际需要划分的评分种类以及每个范围的大小选取,在设定值时,尽量保证每个影响力评估区间均有样本用户分布。
例如,划分多个评估类别标签之后,构建如下表1所示的评分库:
表1
请参照表1,该评分库包括多个评估类别标签以及每个评估类别标签对应的样本用户。例如样本用户1~样本用户4的影响力分值均属于评估类别标签1对应的影响力评估区间。
作为一种实施例,可以为每个评估类别标签设定唯一标识,并对唯一标识进行编码,获得每个评估类别标签对应的评估类别标签编码向量。
第二部分,S302,构建样本数据:
具体的,在获得前文各个评估类别标签之后,可以获得各个评估类别标签下的各个样本用户,以及各个样本用户在各个指标上的历史数据,以此类推,每个样本用户在每个指标上的每个历史数据可以作为一个特征,将每个样本用户在所有指标上的所有历史数据进行编码之后,再将编码后的结果组合在一起,可以构成样本用户的多个样本特征,也可以称为样本对象的样本组合特征。
在一种可能的实施例中,在构造样本组合特征之后,部分样本组合特征可能并不符合预设需求,因此可以对样本组合特征进行预处理,筛掉不符合预设需求的样本组合特征。
B1:可以删除缺失特征大于预设数量的样本组合特征。
具体的,设定缺失值过滤阈值=样本组合特征标准数据量*权重值,权重值可以根据经验值设定,可以取0.4。当服务器220确定样本组合特征缺失的特征值大于该缺失值过滤阈值时,可以删除该样本组合特征,避免某些样本组合特征缺失过多,影响训练出的模型的准确性。
例如,标准的样本组合特征标准数据量是10个,例如,依次为用户年龄+用户性别+物品A的价格+物品A+…,权重值为0.4,设定缺失值过滤阈值则为4个,样本组合特征的数据量为5个,因此该样本组合特征缺失值为5个,因此,该样本组合特征的缺失的特征值大于设定缺失值过滤阈值,因此确定该样本组合特征不符合要求,删除该样本组合特征。
B2:可以删除样本组合特征中部分异常特征值,或者直接删除异常明显的样本组合特征。
具体的,样本组合特征值某些特征值具有一定的取值范围,如果某些特征值过大或者过小,则这些特征值异常,因此可以删除该样本组合特征中异常的特征,例如删除各个样本组合特征中每项特征在前0.1%的异常值。
B3:缺失值填充:如果样本组合特征值缺失一些连续型特征,则使用这些连续型特征的均值代替缺失的连续型特征;如果样本组合特征值缺失一些离散型特征,则可以用常数填充该特征。
例如,获取样本用户在2天中每天的消费金额为100元和200元,那么可以取用户在每天的平均消费为150作为样本组合特征中的一个特征。
B4:可以对每个样本组合特征中部分或全部特征进行特征变换、特征运算、特征组合和特征衍生等中的一种或几种组合,以获得更多的特征。
具体的,特征变换例如将特征的单位变换为统一单位,特征运算例如对特征进行评分、特征加减等。该实施例中通过对特征进行不同形式的处理,可以获得更多的特征。
B4:可以对连续型特征进行分箱离散化处理,离散型特征进行独热one-hot编码。
具体的,可以对连续型特征进行离散化处理,获得一些离散特征,例如对连续型特征进行聚类等,也可以对离散型特征进行编码处理。
上述B1~B4的预处理步骤的顺序可以是任意的,本申请不做具体限制,在实际处理过程中,可以实际需求采用上述任意一种或几种组合对样本组合特征进行处理,以获得更加标准的样本数据。
在一种可能的实施例中,可以利用卡方检验筛选特征,获得样本组合特征。
具体的,获取样本用户在各个指标关联的历史数据;对每个指标关联的历史数据进行编码,获得每个指标关联的样本转化特征;确定每个样本转化特征与各个样本转化特征之间的平均相关度;将平均相关度满足相关度阈值的样本转化特征进行组合,获得满足维度阈值的样本组合特征。
每个样本用户每个指标上可能包含大量的历史数据,且指标可能还包含多个,数据过多可能导致模型运行时长较长,或者过多的重合类型的数据甚至可能导致模型过拟合等现象,因此本申请实施例中可以基于各个转化特征之间的相关性,筛选出相关性差较大的转化特征,也就是筛选出一些差异较大的转化数据,最后将这些筛选出的转化特征组合为样本组合特征。
作为一种实施例,可以利用皮尔逊相关系数计算各个转化特征之间的相关性,计算公式如下:
其中,Xi表示转化特征X的每一个维度上的特征,m表示每个转化特征包含的维度总数,Yi表示转化特征Y的每一个维度上的特征,X’表示X的每一维度的均值,Y’表示Y的每一维度的均值,根据上式可以计算出X和Y之间的相关度,转化特征X与该样本用户的所有转化特征之间的平均相关性具体计算如下:
其中,fi表示样本用户的所有转化特征中的每个转化特征,Rel(X)表示转化特征X与所有转化特征之间的平均相关度。
在获得每个转化特征的平均相关度之后,可以将多个平均相关度进行降序排列,组合排前的多个转化特征,获得样本用户的样本组合特征。
第三部分,S303,训练目标对象确定模型:
具体的,由于每个样本组合特征可能包含不同格式的特征,因此可以对样本组合特征进行向量化编码,获得每个样本组合特征向量。向量化编码的方式有多种,例如采用独热one-Hot编码、词向量编码等。在获得各个样本组合特征向量之后,服务器220可以根据各个样本组合特征向量对物品推荐模型进行训练,直到物品推荐模型的损失达到目标损失,从而获得已训练的物品推荐模型。
下面对目标对象确定模型的结构进行示例说明。
在一种可能的实施例中,目标对象确定模型包括第一子模型和第二子模型。
具体的,第一子模型可以理解为编码子模型,用于提取样本组合特征向量中的深层特征,第二子模型可以理解为多分类子模型,用于对编码子模型的输出结果进行分类,确定出该样本用户对应的评估类别标签。
作为一种实施例,请参照图4,表示目标对象确定模型的结构示意图,编码子模型采用双向长短时记忆(Bi-directional Long Short-Term Memory,BI-LSTM)子模型410,多分类子模型采用间隔归一化(Additive Margin Softmax,am-softmax)子模型420。
具体的,BI-LSTM子模型410用于提取样本组合特征向量的深层特征,am-softmax子模型420用于对BI-LSTM子模型410的输出结果进行多分类,从而确定出待推荐用户所属的用户分群。对BI-LSTM子模型410以及am-softmax子模型420的具体表达式如下:
y=Bi-LSTM(x)
其中,x表示BI-LSTM子模型410的输入,y表示BI-LSTM子模型410的输出。
am-softmax子模型420的具体表达如下:
p=am-softmax(yW)
具体可以表达为:
p=am-softmax(<y,c1>,<y,c2>,…<y,cn>)
其中,p表示am-softmax子模型420预测的样本用户可能属于各个评估类别标签的概率,W具体表示如下:
W=(c1,c2…cn)
其中,c1至cn依次表示各个评估类别标签编码向量。
作为一种实施例,请继续参照图4,BI-LSTM子模型410包括多个正向LSTM单411、多个反向LSTM单元412和多个连接单元413,一正向LSTM单元411、一反向输入LSTM单元412和一连接单元413依次连接。
具体的,正向LSTM单411用于对样本组合特征向量进行正向编码,反向LSTM单元412用于对样本组合特征向量进行反向编码,连接单元413用于连接正向编码结果和反向编码结果。该实施例中,由于正向LSTM单411可以提取样本组合特征向量的前向信息,反向LSTM单元412可以提取样本组合特征向量的后向信息,使得能够提取出更加完整的特征信息。
作为一种实施例,请继续参照图4,目标对象确定模型还包括全连接层(fullyconnected layers,FC)430,全连接层430用于将BI-LSTM子模型410的输出连接,并传递给am-softmax子模型420。
作为一种实施例,编码子模型可以采用LSTM子模型,LSTM子模型也可以对样本组合特征向量进行特征提取。
下面以图4中的目标对象确定模型为例,对该目标对象确定模型的损失函数进行示例说明,目标对象确定模型的损失可以根据样本组合编码特征向量与样本用户真实所属的用户分群编码向量之间的余弦角度,和样本组合编码特征向量与样本用户真实所属的用户分群编码向量之间的角度距离之差确定的,物品推荐模型的损失的具体计算公式如下:
其中,θi表示y和评估类别标签编码向量ci之间的夹角,θi是指表示y与真实的评估类别标签编码向量ct之间的夹角,s表示缩放因子,s取值可以为30,m表示y和ci之间的角度距离,m可以取值为0.35。用户分群编码向量ci为多个评估类别标签中除了样本用户真实所属的评估类别标签之外的其它评估类别标签的评估类别标签编码向量。
下面以图4中的物品推荐模型为例,对目标对象确定模型的训练过程进行说明。
S1,分别将每个评估类别标签下的样本用户的样本组合特征进行向量化编码,获得样本组合特征向量;
S2,通过BI-LSTM子模型,对样本组合特征向量进行特征提取,获得样本组合编码特征向量;
S3,通过am-softmax子模型,预测样本组合编码特征向量所属的评估类别标签;
S4,当am-softmax子模型的损失满足目标损失时,获得完成训练的am-softmax子模型和BI-LSTM子模型。
具体的,如前文论述,在服务器220获得每个评估类别标签下的样本组合特征之后,可以将这些样本组合特征转换为向量,获得样本组合特征向量。将样本组合特征向量输入到BI-LSTM子模型410中,正向LSTM单411对样本组合特征向量进行正向编码,获得正向编码结果,反向LSTM单元412对样本组合特征向量进行反向编码,获得反向编码结果,连接单元413将正向编码结果和反向编码结果连接在一起,获得样本组合编码特征向量。
然后,连接单元413将输出的样本组合编码特征向量经过全连接层430,全连接层430连接所有的特征向量,并将这些特征向量输入am-softmax子模型,am-softmax子模型预测该样本用户可能属于每个评估类别标签的概率,比如可以输出一个概率矩阵,将概率满足概率阈值的评估类别标签确定为该样本用户所属的评估类别标签。例如,可以将概率大于概率阈值的评估类别标签确定为该样本用户所属的评估类别标签。
服务器220根据am-softmax子模型的输出结果,以及样本组合特征编码向量,可以确定目标对象确定模型的损失函数,朝着最小化损失函数的方向进行训练,直到损失函数的结果收敛,获得已训练的目标对象确定模型。am-softmax子模型的损失是指am-softmax子模型预测的样本对象所属的评估类别标签与样本对象真实所属的评估类别标签之间的误差,具体表示方式有多种,具体不做限制。
在一种可能的实施例中,S301~S303可以是周期性地执行,也就是说,服务器220可以周期性地更新目标对象确定模型。
具体的,因为随着时间的不断变化,样本用户可能会发生变化,各个样本用户的用户特征以及物品特征等均可能发生变化,因此,在达到预设周期之后,服务器220可以重复执行上述S301~S303过程,从而获得更加准确的目标对象确定模型。
作为一种实施例S301~S303的部分可以是其它设备执行,在其它设备训练获得目标对象确定模型之后,其它设备将已训练完成的目标对象确定模型发送给服务器220,服务器220直接进行使用。或者也可以是服务器220通过上述过程,获得目标对象确定模型。
第四部分,S304,使用目标对象确定模型。
在服务器220获得目标对象确定模型之后,可以基于该目标对象确定模型确定当前用户的评估类别标签,请参照图5,具体确定当前用户的评估类别标签的过程如下:
S501,获得当前用户的多个特征。
具体的,服务器220在需要确定当前用户所属的评估类别标签时,可以获得当前用户的多个特征,当前用户的多个特征也可以称为组合特征,多个特征是根据在业务场景下相关的历史数据确定的,具体确定方式可以参照前文获得样本组合特征的方式,此处不再赘述。
S502,根据多个特征,从多个评估类别标签中,确定当前用户所属的目标评估类别标签。
C1:
服务器220可以通过前文论述的评估类别标签,确定当前用户所属的目标评估类别标签。
具体的,服务器220可以对组合特征向量进行向量化编码,获得组合特征向量;对组合特征向量进行特征提取,获得组合编码特征向量;确定组合编码特征向量属于多个评估类别标签中每个评估类别标签的概率。
C2:
服务器220可以计算组合编码特征向量与各个评估类别标签编码向量的相似度,将组合编码特征向量与评估类别标签编码向量之间的相似度作为该当前用户属于该评估类别标签的概率。确定相似度的方式可以有很多种,例如确定组合编码特征向量与各个评估类别标签编码向量之间的余弦相似度等。
在获得当前用户属于各个评估类别标签的概率之后,可以将概率满足阈值的评估类别标签确定为当前用户所属的目标评估类别标签。
作为一种实施例,比如评估类别标签对应的样本用户较多的情况下,可以将概率大于概率阈值的所有评估类别标签,可以将概率大于概率阈值的所有评估类别标签均确定为当前用户的评估类别标签,或者可以从这些概率大于概率阈值的所有评估类别标签中样本用户占比最高的评估类别标签确定为该当前用户所属的评估类别标签,例如可以将概率从大到小依次排列,将排名在前的TOPN确定为当前用户所属的评估类别标签,N取小于用户分群总数的正整数,例如N可以取5。比如当评估类别标签对应的样本用户较少的情况下,服务器220也可以将最大概率对应的评估类别标签确定该当前用户对应的目标评估类别标签。
S503,将当前用户确定为目标评估类别标签中的目标对象。
具体的,在确定出当前用户所属的评估类别标签之后,可以将该当前用户归为其评估类别标签对应的目标对象,从而挖掘出各个潜在的KOL用户。
在一种可能的实施例中,为当前用户推荐确定出的评估类别标签关联的目标物。
具体的,如前文论述的内容,每个评估类别标签包含不同的样本用户,服务器220可以将样本用户所消费偏好的物品推荐给当前用户,也可以将该评估类别标签下,样本用户发生过转化行为的物品均推荐给当前用户。
在一种可能的实施例中,服务器220可以将本申请涉及的目标对象确定方法打包成服务,其它用户或企业可以通过API接口调用该服务,实现前文论述的目标对象确定方法。
在介绍完本申请实施例涉及的目标对象确定方法的原理之后,下面结合图2所示的应用场景,以服务器220为目标对象确定设备100为例,对本申请实施例涉及的目标对象确定方法进行举例说明。
请参照图6,该方法包括:
S601,响应于当前用户的请求推荐操作,生成推荐请求。
具体的,当当前用户打开客户端,或者客户端支持为用户推荐,当当前用户进行请求推荐操作时,终端设备210响应于当前用户的操作,生成推荐请求。该推荐请求中可以携带当前用户的用户标识,以便于服务器220后续根据该用户标识调用数据库230中与该当前用户相关的数据。
例如,请参照图7,表示一种理财类客户端的显示界面,当前用户在打开该客户端之后,终端设备210可以显示各种理财分类下的产品,以及产品的基本信息,例如产品的价格、产品名称、产品代码、日涨幅信息和产品的销售量等。当前用户如果想要被推荐一些符合自己需求的产品,可以点击界面上的推荐控件700,终端设备210接收到待推荐用户进行的请求推荐的操作信息。例如,针对基金1,基金1的代码为A,基金1的单价为1.3,基金1的当前持有人数为19000,基金1的日涨幅为1.3%。
S602,终端设备210将推荐请求发送给服务器220。
具体的,终端设备210生成推荐请求之后,将推荐请求发送给服务器220.
S603,服务器220根据推荐请求,确定当前用户的评估类别标签。
具体的,服务器220可以从数据库230调用当前用户在各个指标上相关的历史数据,生成组合特征,根据组合特征,确定当前用户所属的评估类别标签,具体确定当前用户所属的评估类别标签的方式可以参照前文论述的内容,此处不再赘述。
S604,根据评估类别标签,确定当前用户的推荐结果。
具体的,服务器220可以将该评估类别标签下关联的样本用户购买过的物品确定推荐给当前用户,获得当前用户的推荐结果。
例如,服务器220确定当前用户属于评估类别标签1,该评估类别标签1下的样本用户购买过基金1、股票6、基金3和理财产品8,因此可以为当前用户推荐这些产品。
S605,服务器220将推荐结果发送给终端设备210。
具体的,服务器220获得当前用户的推荐结果之后,可以将这些被推荐产品的标识发送给终端设备210,或者将这些产品的基础信息一并发送给终端设备210。
S606,终端设备210显示推荐结果。
具体的,终端设备210在获得推荐结果之后,如果推荐结果为各个被推荐产品的标识,终端设备210可以根据这些被推荐产品的标识,从数据库230中获取这些产品的基础信息,如果推荐结果为各个被推荐产品的基础信息,则终端设备显示各个被推荐产品的基础信息,以便于当前用户选择。
例如,请参照图8,表示一种终端设备210显示推荐结果的界面,在该界面中显示有基金1、股票6、基金3和理财产品8,以及各个产品的基础信息等。
作为一种实施例,图6中的S601~602,S604~606为可选的两部分,服务器220可以在工作人员输入挖掘目标用户的指令之后,执行S603的步骤,确定各个用户的评估类别标签,挖掘出各个目标对象。
作为一种实施例,目标对象确定模型是由服务器220或其它设备训练得到的,终端设备210可以根据已训练的目标对象确定模型,确定当前用户的评估类别标签。
基于同一发明构思,本申请实施例提供一种目标对象确定装置,该装置设置在前文论述的目标对象确定设备中,请参照图9,表示一种目标对象确定装置900的结构示意图,该目标对象确定装置900包括:
获得模块901,用于获得当前对象的多个特征;其中,多个特征是根据当前对象在业务场景下相关的历史数据确定的;
第一确定模块902,用于根据多个特征,从多个评估类别标签中确定当前对象所属的目标评估类别标签;其中,每个评估类别标签是在业务场景下对其他样本对象的转化行为具有相同的评估等级的样本对象进行聚类获得的,每个样本对象为在业务场景下存在转化行为的对象;
第二确定模块903,用于将当前对象确定为目标评估类别标签中的目标对象。
在一种可能的实施例中,多个评估类别标签是通过如下步骤确定的:
获得当前对象的多个特征;其中,多个特征是根据当前对象在业务场景下相关的历史数据确定的;
根据多个特征,从多个评估类别标签中确定当前对象所属的目标评估类别标签;其中,每个评估类别标签是在业务场景下对其他样本对象的转化行为具有相同的评估等级的样本对象进行聚类获得的,每个样本对象为在业务场景下存在转化行为的对象;
将当前对象确定为目标评估类别标签中的目标对象。
在一种可能的实施例中,第一确定模块902具体用于:
将多个特征转化为向量,获得组合特征向量;
对组合特征向量进行特征提取,获得组合编码特征向量;
确定组合编码特征向量属于各个评估类别标签的概率;
将概率满足预设概率的评估类别标签确定为当前对象所属的评估类别标签。
在一种可能的实施例中,获得模块901具体用于:
获取当前对象在业务场景下各个指标关联的历史数据;
对每个指标关联的历史数据进行编码,获得每个指标关联的转化特征;
确定每个转化特征与各个转化特征之间的平均相关度;
多个特征为平均相关度满足相关度阈值的转化特征。
在一种可能的实施例中,获得模块901具体用于:
对组合特征向量进行正向编码处理,获得前向编码向量;
对组合特征向量进行反向编码处理,获得后向编码向量;
对前向编码向量和样本后向编码向量进行组合,获得组合编码特征向量。
在一种可能的实施例中,装置还包括推荐模块904,其中:
为当前对象推荐与当前对象所属的评估类别标签下关联的样本对象存在转化行为的物品。
在一种可能的实施例中,第一确定模块902具体用于:
通过已训练的评估类别确定模型,从多个评估类别标签中,根据组合特征确定当前对象所属的评估类别标签;其中,评估类别确定模型是通过每个评估类别标签下的样本对象的多个样本特征训练得到的。
在一种可能的实施例中,评估类别确定模型包括第一子模型和第二子模型,评估类别确定模型是通过如下步骤共同训练得到的:
分别将每个评估类别标签下的样本对象在各个指标上的历史数据转换为向量,获得样本组合特征向量;
通过第一子模型,对样本组合特征向量进行特征提取,获得样本组合编码特征向量;
通过第二子模型,预测样本组合编码特征向量所属的评估类别标签;
当第二子模型的损失满足目标损失时,获得完成训练的第二子模型和第一子模型。
在一种可能的实施例中,第二子模型的损失是根据评估类别标签编码向量之间的余弦角度,和样本组合编码特征向量与样本用户真实所属的评估类别标签编码向量之间的角度距离之差确定的。
基于同一发明构思,本申请实施例还提供了一种计算机设备。请参照图10,计算机设备1000以通用计算设备的形式表现。计算机设备1000的组件可以包括但不限于:至少一个处理器1010、至少一个存储器1020、连接不同系统组件(包括处理器1010和存储器1020)的总线1030。
总线1030表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。
存储器1020可以包括易失性存储器形式的可读介质,例如随机存取存储器(RAM)1021和/或高速缓存存储器1022,还可以进一步包括只读存储器(ROM)1023。
存储器1020还可以包括具有一组(至少一个)程序模块1025的程序/实用工具1026,这样的程序模块1025包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。处理器1010用于执行存储器1020存储的程序指令等实现前文论述的目标对象确定方法,或实现前文论述的终端设备210或服务器220的功能。
计算机设备1000也可以与一个或多个外部设备1040(例如键盘、指向设备等)通信,还可与一个或者多个使得终端设备210能与计算机设备1000交互的设备通信,和/或与使得该计算机设备1000能与一个或多个其它设备进行通信的任何设备(例如路由器、调制解调器等)通信。这种通信可以通过输入/输出(I/O)接口1050进行。并且,计算机设备1000还可以通过网络适配器1060与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器1060通过总线1030与用于计算机设备1000的其它模块通信。应当理解,尽管图中未示出,可以结合计算机设备1000使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
基于同一发明构思,本申请实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行前文论述的目标对象确定方法。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
Claims (15)
1.一种目标对象确定方法,其特征在于,包括:
获得当前对象的多个特征;其中,所述多个特征是根据当前对象在业务场景下相关的历史数据确定的,所述多个特征为组合特征,对象是指特定的业务场景中的用户;
根据所述多个特征,从多个评估类别标签中确定所述当前对象所属的目标评估类别标签;其中,每个评估类别标签是在业务场景下对其他样本对象的转化行为具有相同的评估等级的样本对象进行聚类获得的,每个样本对象为在所述业务场景下存在转化行为的对象,所述转化行为是指用户在业务场景进行的实施行为;
将所述当前对象确定为所述目标评估类别标签中的目标对象;
其中,所述多个评估类别标签是通过如下步骤确定的:
获得多个样本对象中每个样本对象的转化行为相关的历史数据;
分别对每个样本对象对应的转化行为在各个指标上的历史数据进行加权,获得每个样本对象的影响力分值,所述影响力分值是指表示一个对象对于其他对象在特定的业务场景下的转化行为的影响力大小;
对获得的各个样本对象的影响力分值进行区间划分,获得至少两个影响力评估区间;
将处于同一影响力评估区间的样本对象划分为同一评估等级的样本对象,并为每个评估等级确定对应的评估类别标签。
2.如权利要求1所述的方法,其特征在于,根据所述多个特征,从多个评估类别标签中确定所述当前对象所属的目标评估类别标签,包括:
将所述多个特征转化为向量,获得组合特征向量;
对所述组合特征向量进行特征提取,获得组合编码特征向量;
确定所述组合编码特征向量属于所述多个评估类别标签中的各个评估类别标签的概率;
将概率满足预设概率的评估类别标签确定为所述当前对象所属的评估类别标签。
3.如权利要求1所述的方法,其特征在于,获得当前对象的多个特征,包括:
获取当前对象在业务场景下各个指标关联的历史数据;
对每个指标关联的历史数据进行编码,获得每个指标关联的转化特征;
确定每个转化特征与各个转化特征之间的平均相关度;
所述多个特征为平均相关度满足相关度阈值的转化特征。
4.如权利要求2所述的方法,其特征在于,对所述组合特征向量进行特征提取,获得组合编码特征向量,包括:
对所述组合特征向量进行正向编码处理,获得前向编码向量;
对所述组合特征向量进行反向编码处理,获得后向编码向量;
对前向编码向量和样本后向编码向量进行组合,获得组合编码特征向量。
5.如权利要求1所述的方法,其特征在于,在将所述当前对象确定为所述当前对象所属的评估类别标签中的目标对象之后,包括:
为所述当前对象推荐与所述当前对象所属的评估类别标签下关联的样本对象存在转化行为的物品。
6.如权利要求1~5任一项所述的方法,其特征在于,从根据所述多个特征,从多个评估类别标签中确定所述当前对象所属的目标评估类别标签,包括:
通过已训练的评估类别确定模型,从多个评估类别标签中,根据所述组合特征确定所述当前对象所属的评估类别标签;其中,所述评估类别确定模型是通过每个评估类别标签下的样本对象的多个样本特征训练得到的。
7.如权利要求6所述的方法,其特征在于,所述评估类别确定模型包括第一子模型和第二子模型,所述评估类别确定模型是通过如下步骤共同训练得到的:
分别将每个评估类别标签下的样本对象在各个指标上的历史数据转换为向量,获得样本组合特征向量;
通过第一子模型,对样本组合特征向量进行特征提取,获得样本组合编码特征向量;
通过第二子模型,预测样本组合编码特征向量所属的评估类别标签;
当第二子模型的损失满足目标损失时,获得完成训练的第二子模型和第一子模型。
8.如权利要求7所述的方法,其特征在于,所述第二子模型的损失是根据评估类别标签编码向量之间的余弦角度,和样本组合编码特征向量与样本用户真实所属的评估类别标签编码向量之间的角度距离之差确定的。
9.一种目标对象确定装置,其特征在于,包括:
获得模块,用于获得当前对象的多个特征;其中,所述多个特征是根据当前对象在业务场景下相关的历史数据确定的,所述多个特征为组合特征,对象是指特定的业务场景中的用户;
第一确定模块,用于根据所述多个特征,从多个评估类别标签中确定所述当前对象所属的目标评估类别标签;其中,每个评估类别标签是在业务场景下对其他样本对象的转化行为具有相同的评估等级的样本对象进行聚类获得的,每个样本对象为在所述业务场景下存在转化行为的对象,所述转化行为是指用户在业务场景进行的实施行为;
第二确定模块,用于将所述当前对象确定为所述目标评估类别标签中的目标对象;
其中,所述多个评估类别标签是通过如下步骤确定的:
获得多个样本对象中每个样本对象的转化行为相关的历史数据;
分别对每个样本对象对应的转化行为在各个指标上的历史数据进行加权,获得每个样本对象的影响力分值,所述影响力分值是指表示一个对象对于其他对象在特定的业务场景下的转化行为的影响力大小;
对获得的各个样本对象的影响力分值进行区间划分,获得至少两个影响力评估区间;
将处于同一影响力评估区间的样本对象划分为同一评估等级的样本对象,并为每个评估等级确定对应的评估类别标签。
10.如权利要求9所述的装置,其特征在于,第一确定模块具体用于:
将所述多个特征转化为向量,获得组合特征向量;
对所述组合特征向量进行特征提取,获得组合编码特征向量;
确定所述组合编码特征向量属于所述多个评估类别标签中的各个评估类别标签的概率;
将概率满足预设概率的评估类别标签确定为所述当前对象所属的评估类别标签。
11.如权利要求10所述的装置,其特征在于,获得模块具体用于:
获取当前对象在业务场景下各个指标关联的历史数据;
对每个指标关联的历史数据进行编码,获得每个指标关联的转化特征;
确定每个转化特征与各个转化特征之间的平均相关度;
所述多个特征为平均相关度满足相关度阈值的转化特征。
12.根据权利要求10所述的装置,其特征在于,第一确定模块具体用于:
对所述组合特征向量进行正向编码处理,获得前向编码向量;
对所述组合特征向量进行反向编码处理,获得后向编码向量;
对前向编码向量和样本后向编码向量进行组合,获得组合编码特征向量。
13.根据权利要求10所述的装置,其特征在于,所述装置还包括推荐模块,其中,所述推荐模块用于:
为所述当前对象推荐与所述当前对象所属的评估类别标签下关联的样本对象存在转化行为的物品。
14.一种计算机设备,其特征在于,包括:
至少一个处理器,以及
与所述至少一个处理器通信连接的存储器;
其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1~8中任一项所述的方法。
15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,使得计算机执行如权利要求1~8中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040805.4A CN111274330B (zh) | 2020-01-15 | 2020-01-15 | 一种目标对象确定方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010040805.4A CN111274330B (zh) | 2020-01-15 | 2020-01-15 | 一种目标对象确定方法、装置、计算机设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111274330A CN111274330A (zh) | 2020-06-12 |
CN111274330B true CN111274330B (zh) | 2022-08-26 |
Family
ID=71003172
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010040805.4A Active CN111274330B (zh) | 2020-01-15 | 2020-01-15 | 一种目标对象确定方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111274330B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111737520B (zh) * | 2020-06-22 | 2023-07-25 | Oppo广东移动通信有限公司 | 一种视频分类方法、视频分类装置、电子设备及存储介质 |
CN111984883B (zh) * | 2020-08-11 | 2024-05-14 | 北京百度网讯科技有限公司 | 标签挖掘方法、装置、设备以及存储介质 |
CN112468865B (zh) * | 2020-11-25 | 2024-02-23 | 咪咕视讯科技有限公司 | 一种视频处理方法、vr终端及计算机可读存储介质 |
CN112750043B (zh) * | 2021-01-14 | 2024-02-02 | 中国工商银行股份有限公司 | 业务数据的推送方法、装置和服务器 |
CN112925990B (zh) * | 2021-02-26 | 2022-09-06 | 上海哔哩哔哩科技有限公司 | 目标群体分类方法及装置 |
CN113255467A (zh) * | 2021-04-30 | 2021-08-13 | 广州有酱料网络科技有限公司 | 一种调味品原料销售智慧追溯系统 |
CN113590952B (zh) * | 2021-07-30 | 2023-10-24 | 上海德衡数据科技有限公司 | 一种数据中心构建的方法及系统 |
CN115994203B (zh) * | 2023-02-20 | 2023-06-23 | 广州佰锐网络科技有限公司 | 一种基于ai的数据标注处理方法、系统及ai中台 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391680A (zh) * | 2017-07-24 | 2017-11-24 | 北京京东尚科信息技术有限公司 | 内容推荐方法、装置和设备 |
CN108960686A (zh) * | 2018-08-20 | 2018-12-07 | 杜林蔚 | 影响力评估方法及系统 |
CN109345302A (zh) * | 2018-09-27 | 2019-02-15 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法、装置、存储介质和计算机设备 |
CN109345125A (zh) * | 2018-10-11 | 2019-02-15 | 北京深度制耀科技有限公司 | 一种确定关键意见领袖的影响力的方法及装置 |
CN109783730A (zh) * | 2019-01-03 | 2019-05-21 | 深圳壹账通智能科技有限公司 | 产品推荐方法、装置、计算机设备和存储介质 |
CN110490625A (zh) * | 2018-05-11 | 2019-11-22 | 北京京东尚科信息技术有限公司 | 用户偏好确定方法及装置、电子设备、存储介质 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10469437B2 (en) * | 2016-11-30 | 2019-11-05 | Facebook, Inc. | Notifications based on user activity on third-party websites |
-
2020
- 2020-01-15 CN CN202010040805.4A patent/CN111274330B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107391680A (zh) * | 2017-07-24 | 2017-11-24 | 北京京东尚科信息技术有限公司 | 内容推荐方法、装置和设备 |
CN110490625A (zh) * | 2018-05-11 | 2019-11-22 | 北京京东尚科信息技术有限公司 | 用户偏好确定方法及装置、电子设备、存储介质 |
CN108960686A (zh) * | 2018-08-20 | 2018-12-07 | 杜林蔚 | 影响力评估方法及系统 |
CN109345302A (zh) * | 2018-09-27 | 2019-02-15 | 腾讯科技(深圳)有限公司 | 机器学习模型训练方法、装置、存储介质和计算机设备 |
CN109345125A (zh) * | 2018-10-11 | 2019-02-15 | 北京深度制耀科技有限公司 | 一种确定关键意见领袖的影响力的方法及装置 |
CN109783730A (zh) * | 2019-01-03 | 2019-05-21 | 深圳壹账通智能科技有限公司 | 产品推荐方法、装置、计算机设备和存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN111274330A (zh) | 2020-06-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111274330B (zh) | 一种目标对象确定方法、装置、计算机设备及存储介质 | |
CN111680217B (zh) | 内容推荐方法、装置、设备及存储介质 | |
US10664540B2 (en) | Domain specific natural language understanding of customer intent in self-help | |
Zhang | Incorporating phrase-level sentiment analysis on textual reviews for personalized recommendation | |
CN111259263B (zh) | 一种物品推荐方法、装置、计算机设备及存储介质 | |
US20230102337A1 (en) | Method and apparatus for training recommendation model, computer device, and storage medium | |
CN111626832B (zh) | 产品推荐方法、装置及计算机设备 | |
CN105630856A (zh) | 在线用户简档的自动聚合 | |
WO2023011382A1 (zh) | 推荐方法、推荐模型训练方法及相关产品 | |
WO2021155691A1 (zh) | 用户画像生成方法、装置、存储介质及设备 | |
CN110135976A (zh) | 用户画像生成方法、装置、电子设备和计算机可读介质 | |
WO2023284516A1 (zh) | 基于知识图谱的信息推荐方法、装置、设备、介质及产品 | |
CN111966886A (zh) | 对象推荐方法、对象推荐装置、电子设备及存储介质 | |
CN114266443A (zh) | 数据评估方法和装置、电子设备、存储介质 | |
Wang et al. | Cognitive process-driven model design: A deep learning recommendation model with textual review and context | |
JP2023517518A (ja) | ヌル値又は同等の値を有するリレーショナル・テーブルのためのベクトル埋込モデル | |
Aramanda et al. | enemos-p: An enhanced emotion specific prediction for recommender systems | |
Su et al. | Lightweight deep learning model for marketing strategy optimization and characteristic analysis | |
CN116957128A (zh) | 业务指标预测方法、装置、设备和存储介质 | |
CN114298118B (zh) | 一种基于深度学习的数据处理方法、相关设备及存储介质 | |
CN113807920A (zh) | 基于人工智能的产品推荐方法、装置、设备及存储介质 | |
CN111444338A (zh) | 文本处理、装置、存储介质及设备 | |
CN112967100A (zh) | 相似人群扩展方法、装置、计算设备以及介质 | |
Peng et al. | Personalized product recommendation model of automatic question answering robot based on deep learning | |
US11989243B2 (en) | Ranking similar users based on values and personal journeys |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40024888 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |