CN112148952A - 一种任务执行方法、装置、设备及计算机可读存储介质 - Google Patents

一种任务执行方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN112148952A
CN112148952A CN202011043552.2A CN202011043552A CN112148952A CN 112148952 A CN112148952 A CN 112148952A CN 202011043552 A CN202011043552 A CN 202011043552A CN 112148952 A CN112148952 A CN 112148952A
Authority
CN
China
Prior art keywords
target
industry
cluster
label
class cluster
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011043552.2A
Other languages
English (en)
Inventor
尹程果
宋亚娟
董泽波
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202011043552.2A priority Critical patent/CN112148952A/zh
Publication of CN112148952A publication Critical patent/CN112148952A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2321Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Probability & Statistics with Applications (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请实施例提供了一种任务执行方法、装置、设备及计算机可读存储介质;方法包括:获取目标行业的目标行业标签;提取目标行业标签的特征,得到行业标签特征;依据预设类簇集合,确定与行业标签特征对应的目标类簇标识,预设类簇集合为多个行业的行业特征对应的各个类簇信息构成的集合;从预设特征与类簇标识的对应关系中,确定与目标类簇标识对应的目标行业特征,预设特征与类簇标识的对应关系为行业特征中的每个子行业特征与预设类簇集合中的一个类簇标识的对应关系构成的集合;利用目标行业特征,训练目标行业对应的预设模型,以利用训练后的预设模型执行预测任务。通过本申请实施例,能够提升人工智能领域中预设模型训练的效率。

Description

一种任务执行方法、装置、设备及计算机可读存储介质
技术领域
本申请涉及人工智能领域中的信息处理技术,尤其涉及一种任务执行方法、装置、设备及计算机可读存储介质。
背景技术
随着人工智能的快速发展,网络模型在各个行业都得到了广泛应用。通过网络模型能够提升各个行业中功能应用的智能性和效率;因此,网络模型的训练是各个行业快速发展的重要部分。
一般来说,针对指定行业的模型训练,通常是利用指定行业标签对各个行业的用户行为信息进行硬过滤,得到指定行业的用户行为信息,再对指定行业的用户行为信息依次进行特征提取和聚类,得到指定行业特征,最后利用指定行业特征训练指定行业的预测模型。然而,上述预测模型的训练过程中,每个指定行业特征的获取都需要通过筛选各个行业的用户行为信息并进行模型训练等处理实现,处理流程较多,且筛选和模型训练等处理均需要人工参与,从而指定行业特征的获取效率较低,进而预测模型训练的效率较低。
发明内容
本申请实施例提供一种任务执行方法、装置、设备及计算机可读存储介质,能够提升预测模型训练的效率。
本申请实施例的技术方案是这样实现的:
本申请实施例提供一种任务执行方法,包括:
获取目标行业的目标行业标签,所述目标行业标签为所述目标行业的表征信息;
提取所述目标行业标签的特征,得到行业标签特征;
依据类簇集合,确定与所述行业标签特征对应的目标类簇标识,所述类簇集合为多个行业的行业特征对应的各个类簇信息构成的集合,所述类簇集合是依据语料数据对所述多个行业的行为数据进行聚类得到的;
从特征与类簇标识的对应关系中,确定与所述目标类簇标识对应的目标行业特征,所述特征与类簇标识的对应关系为所述行业特征中的每个子行业特征与所述类簇集合中的一个类簇标识的对应关系构成的集合;
其中,所述特征与类簇标识的对应关系是依据所述语料数据对所述多个行业的行为数据进行聚类得到的;
利用所述目标行业特征,训练所述目标行业对应的预测模型,以利用训练后的预测模型执行预测任务。
本申请实施例还提供一种任务执行方法,包括:
获取目标用户的目标操作数据、以及目标行业中待推荐信息所对应的种子操作数据,所述种子操作数据为所述待推荐信息的种子用户的操作数据;
基于上述的训练后的预测模型,预测所述目标操作数据和所述种子操作数据之间的目标相似性;
比较所述目标相似性和相似性阈值,以确定所述待推荐信息的推荐结果;
基于所述推荐结果,对所述待推荐信息执行推荐处理,以完成预测任务的执行。
本申请实施例提供一种第一任务执行装置,包括:
标签获取模块,用于获取目标行业的目标行业标签,所述目标行业标签为所述目标行业的表征信息;
特征提取模块,用于提取所述目标行业标签的特征,得到行业标签特征;
标识确定模块,用于依据类簇集合,确定与所述行业标签特征对应的目标类簇标识,所述类簇集合为多个行业的行业特征对应的各个类簇信息构成的集合,所述类簇集合是依据语料数据对所述多个行业的行为数据进行聚类得到的;
特征确定模块,用于从特征与类簇标识的对应关系中,确定与所述目标类簇标识对应的目标行业特征,所述特征与类簇标识的对应关系为所述行业特征中的每个子行业特征与所述类簇集合中的一个类簇标识的对应关系构成的集合;其中,所述特征与类簇标识的对应关系是依据所述语料数据对所述多个行业的行为数据进行聚类得到的;
模型训练模块,用于利用所述目标行业特征,训练所述目标行业对应的预测模型,以利用训练后的预测模型执行预测任务。
在本申请实施例中,所述模型训练装置还包括特征提取模块,用于获取语料数据;利用各个行业标签,对所述语料数据进行分类,得到标签与语料的对应关系;将所述标签与语料的对应关系中的标签和语料进行交错组合,得到负样本;利用所述负样本,以及所述标签与语料的对应关系,训练初始特征提取模型,得到特征提取模型。
在本申请实施例中,所述特征确定模块,还用于利用所述特征提取模型,提取所述目标行业标签的特征,得到所述行业标签特征。
在本申请实施例中,所述模型训练装置还包括特征聚类模块,用于获取行业操作数据;从所述行业操作数据中提取文本信息,得到行业关键文本;提取所述行业关键文本的特征,得到所述行业特征;依据所述多个行业对应的行业数量,对所述行业特征进行聚类,得到所述类簇集合,以及所述特征与类簇标识的对应关系。
在本申请实施例中,所述特征聚类模块,还用于依据所述多个行业对应的所述行业数量,确定类簇数量,所述类簇数量大于所述行业数量;依据所述类簇数量,对所述行业特征进行聚类,得到分别包括类簇标识、类簇中心特征和类簇特征的各个类簇;将所述各个类簇中分别对应的类簇标识和类簇中心特征,构成所述类簇集合,所述各个类簇信息中的每个类簇信息包含类簇标识和类簇中心特征;基于所述各个类簇中分别对应的类簇标识和类簇特征,确定所述特征与类簇标识的对应关系。
在本申请实施例中,所述特征聚类模块,还用于从所述行业特征中,获取与当前类簇的类簇特征中的每个子类簇特征匹配的目标子行业特征,所述当前类簇为所述各个类簇中的任一类簇;基于所述目标子行业特征和所述当前类簇,确定所述特征与类簇标识的对应关系;其中,所述特征与类簇标识的对应关系,与所述各个类簇对应;所述目标子行业特征和所述当前类簇之间的对应关系,为所述特征与类簇标识的对应关系中的一个子对应关系。
在本申请实施例中,所述标识确定模块,还用于将当前子行业标签特征,与所述类簇集合中的每个类簇中心特征进行比较,得到当前距离集合,所述当前子行业标签特征为所述行业标签特征中的任一子行业标签特征;将所述类簇集合中,与所述当前距离集合中的最小当前距离所对应的类簇标识,确定为所述当前子行业标签特征对应的当前类簇标识,从而得到与所述行业标签特征对应的各个当前类簇标识;基于所述各个当前类簇标识,得到所述目标类簇标识。
在本申请实施例中,所述标识确定模块,还用于对所述各个当前类簇标识进行整合,得到各个子目标类簇标识以及所述各个子目标类簇标识对应的各个出现频次,所述各个子目标类簇标识与所述各个出现频次一一对应;依据所述各个出现频次,对所述各个子目标类簇标识进行排序;从排序后的各个子目标类簇标识中,选出预设数量个出现频次最大的子目标类簇标识;将所述预设数量个出现频次最大的子目标类簇标识,组合为所述目标类簇标识。
在本申请实施例中,所述特征确定模块,还用于从所述特征与类簇标识的对应关系中,获取与当前子目标类簇标识对应的当前子目标行业特征,从而得到与所述目标类簇标识对应的各个当前子目标行业特征,所述当前子目标类簇标识为所述目标类簇标识中的任一子目标类簇标识;将所述各个当前子目标行业特征,确定为所述目标行业特征。
在本申请实施例中,所述特征提取模块,还用于利用所述初始特征提取模型,获取目标样本中的目标标签对应的目标标签特征,所述目标样本为所述负样本或,所述标签与语料的对应关系;利用所述初始特征提取模型,获取所述目标样本中的目标语料对应的目标语料特征;获取所述目标标签特征和所述目标语料特征的相关性信息;依据所述相关性信息和所述目标样本对应的预设标注数据之间的差异,对所述初始特征提取模型进行迭代训练,当满足预设截止条件时,将迭代训练后的初始特征提取模型确定为所述特征提取模型。
本申请实施例提供一种第二任务执行装置,包括:
信息获取模块,用于获取目标用户的目标操作数据、以及目标行业中待推荐信息所对应的种子操作数据,所述种子操作数据为所述待推荐信息的种子用户的操作数据;
相似性模块,用于基于上述的训练后的预测模型,预测所述目标操作数据和所述种子操作数据之间的目标相似性;
结果确定模块,用于比较所述目标相似性和相似性阈值,以确定所述待推荐信息的推荐结果;
任务执行模块,用于基于所述推荐结果,对所述待推荐信息执行推荐处理,以完成预测任务的执行。
本申请实施例提供一种第一任务执行设备,包括:
第一存储器,用于存储可执行指令;
第一处理器,用于执行所述第一存储器中存储的可执行指令时,实现应用于所述第一任务执行设备上的所述的任务执行方法。
本申请实施例提供一种第二任务执行设备,包括:
第二存储器,用于存储可执行指令;
第二处理器,用于执行所述第二存储器中存储的可执行指令时,实现应用于所述第二任务执行设备上的所述的任务执行方法。
本申请实施例提供一种计算机可读存储介质,存储有可执行指令,用于引起第一处理器执行时,实现本申请实施例提供的应用于第一任务执行设备上的所述的任务执行方法;或者,用于被第二处理器执行时,实现本申请实施例提供的应用于第二任务执行设备上的所述的任务执行方法。
本申请实施例至少具有以下有益效果:由于预测模型的训练过程中所采用的目标行业特征,是通过目标行业标签从各个行业特征对应的各个类簇信息构成的集合中确定目标类簇标识,再通过目标类簇标识对每个子行业特征对应的类簇标识进行过滤而获得的;也就是说,通过调用类簇集合并过滤特征与类簇标识的对应关系,就能够得到目标行业的目标行业特征,因此,获取指定行业特征时,简化了处理流程,减少了人工参与度;从而目标行业特征的获取效率较高,进而依据目标行业特征训练预测模型时,预测模型训练的效率较高。
附图说明
图1是一种示例性的获取指定行业特征的流程示意图;
图2是本申请实施例提供的任务执行系统的一个可选的架构示意图;
图3a是本申请实施例提供的图2中的一服务器的组成结构示意图;
图3b是本申请实施例提供的图2中的另一服务器的组成结构示意图;
图4是本申请实施例提供的任务执行方法的一个可选的流程示意图;
图5是本申请实施例提供的任务执行方法的另一个可选的流程示意图;
图6是本申请实施例提供的任务执行方法的又一个可选的流程示意图;
图7是本申请实施例提供的任务执行方法的再一个可选的流程示意图;
图8是本申请实施例提供的任务执行方法的再又一个可选的流程示意图;
图9是本申请实施例提供的任务执行方法的又另一个可选的流程示意图;
图10是本申请实施例提供的一种示例性的获取目标行业特征的流程示意图;
图11是本申请实施例提供的另一种示例性的获取目标行业特征的流程示意图。
具体实施方式
为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。
在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。
对本申请实施例进行进一步详细说明之前,对本申请实施例中涉及的名词和术语进行说明,本申请实施例中涉及的名词和术语适用于如下的解释。
1)行业标签:是指用于区分各个行业的文本信息;比如,游戏行业的行业标签可以是“王者荣耀”和“和平精英”;又比如,电商行业的行业标签可以是“女装”和“舒适时尚透气潮鞋”。
2)行业特征:是指行业中用于训练该行业对应的预测模型的信息,比如,用户感兴趣的信息对应的向量表示信息。
3)云技术(Cloud Technology):是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来,实现数据的计算、储存、处理和共享的一种托管技术。
4)人工智能(Artificial Intelligence,AI):是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
一般来说,针对指定行业的模型训练,通常是利用指定行业标签对各个行业的用户行为信息进行硬过滤,得到指定行业的用户行为信息,再对指定行业的用户行为信息依次进行特征提取和聚类,得到指定行业特征,最后利用指定行业特征训练指定行业的预测模型。
示例性地,参见图1,图1是一种示例性的获取指定行业特征的流程示意图;如图1所示,获取各个行业的用户行为信息1-1和指定行业标签1-2,利用指定行业标签1-2对各个行业的用户行为信息1-1进行过滤,过滤的方式可以为硬匹配;过滤之后得到指定行业行为信息1-3。这里,还通过获取语料数据1-4来获得用于获取用户行为信息的向量的向量模型1-5。此时,利用向量模型1-5获取指定行业行为信息1-3的向量,得到用户兴趣向量1-6。接下来,为了实现训练过程中数据的压缩,对用户兴趣向量1-6进行聚类,从而得到包括用户兴趣向量和聚类标识的指定行业特征1-7。
需要说明的是,每次依据图1示出的流程获取指定行业特征时,均需要从数据源(各个行业的用户行为信息)进行指定行业行为信息的挑选(从用户行为信息1-1到得到指定行业行为信息1-3的处理过程),再对指定行业行为信息进行一系列的模型训练等处理(从指定行业行为信息1-3到得到指定行业特征1-7的处理过程)来获得,处理流程较多,且筛选和模型训练等处理均需要人工参与,时间消耗较大、人工参与度较高;从而指定行业特征的获取效率较低,进而预测模型训练的效率较低。另外,筛选的过程即获取指定行业行为信息的过程,无法准确地对各行业行为进行区分;也就是说,所获得的指定行业行为中通常包含一些其它行业行为信息或者一些无关信息,从而,依据指定行业行为信息确定指定行业特征,并依据确定的指定行业特征训练预测模型时,训练后的预测模型的准确性较差。
还需要说明的是,上述筛选和模型训练过程中,一方面,筛选时,即利用指定行业标签对各个行业的用户行为信息进行硬过滤,获取指定行业的用户行为信息时,不同的指定行业标签对应着不同参数,而参数的修改需要人工参与。另一方面,模型训练过程中的获取指定行业行为信息的向量的过程,由于不同的行为信息对应不同的向量,从而,需要人工修改输入输出路径等参数。再一方面,模型训练过程中的对用户兴趣向量进行聚类时,由于不同的用户兴趣向量对应不同的聚类模型的参数,从而,需要人工修改输入输出路径等聚类模型的参数。又一方面,获得了聚类结果之后,为了确定每个用户兴趣向量所对应的聚类标识,也需要人工修改输入输出路径等参数。也就是说,获得指定行业特征的各个阶段均需要人工参与配置各种路径等参数。
基于此,本申请实施例提供一种任务执行方法、装置、设备和计算机可读存储介质,通过调用类簇集合并过滤特征与类簇标识的对应关系,就能够得到目标行业的目标行业特征,目标行业特征的获取效率较高,进而依据目标行业特征训练预测模型时,预测模型训练的效率较高;且过滤特征与类簇标识的对应关系时,采用了高区分度的目标类簇,从而所获得的目标行业特征的准确性较高,进而依据目标行业特征训练预测模型时,预测模型的预测准确度较高。
下面说明本申请实施例提供的任务执行设备的示例性应用,本申请实施例提供的任务执行设备可以实施为笔记本电脑,平板电脑,台式计算机,机顶盒,移动设备(例如,移动电话,便携式音乐播放器,个人数字助理,专用消息设备,便携式游戏设备)等各种类型的用户终端,也可以实施为服务器。下面,将说明设备实施为服务器时的示例性应用。
参见图2,图2是本申请实施例提供的任务执行系统的一个可选的架构示意图;如图2所示,为支撑一个任务执行应用,在任务执行系统100中,终端200(示例性示出了终端200-1和终端200-2)通过网络300连接服务器600(第二任务执行设备),网络300可以是广域网或者局域网,又或者是二者的组合。另外,任务执行系统100中还包括数据库500和服务器400(第一任务执行设备);数据库500用于存储类簇集合,以及特征与类簇标识的对应关系,以通过存储的类簇集合,以及特征与类簇标识的对应关系,向服务器400提供模型训练的数据支持;数据库500,还用于存储训练后的预测模型,以通过存储的训练后的预测模型,向服务器600提供预测任务的数据支持。
终端200-1,用于通过图形界面200-11接收用户进行操作所确定的目标用户对应的目标操作数据,通过网络300向服务器600发送目标操作数据;还用于接收服务器600针对目标操作数据通过网络300所发送的待推荐信息,在图像界面200-11上显示。
终端200-2,用于通过图形界面200-21接收用户进行操作所确定的目标用户对应的目标操作数据,通过网络300向服务器600发送目标操作数据;还用于接收服务器600针对目标操作数据通过网络300所发送的待推荐信息,在图像界面200-21上显示。
服务器400,用于获取目标行业的目标行业标签,目标行业标签为目标行业的表征信息;提取目标行业标签的特征,得到行业标签特征;从数据库500中获取类簇集合,依据类簇集合,确定与行业标签特征对应的目标类簇标识,类簇集合为多个行业的行业特征对应的各个类簇信息构成的集合;从数据库中获取特征与类簇标识的对应关系,并从特征与类簇标识的对应关系中,确定与目标类簇标识对应的目标行业特征,特征与类簇标识的对应关系为行业特征中的每个子行业特征与类簇集合中的一个类簇标识的对应关系构成的集合;利用目标行业特征,训练目标行业对应的预测模型,以利用训练后的预测模型执行预测任务。
服务器600,用于通过网络300接收终端200发送的待预测信息,利用从数据库500获得的训练后的预测模型获取针对目标操作数据的推荐结果,并基于推荐结果通过网络300向终端200发送待推荐信息。
在一些实施例中,服务器400和服务器600可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(ContentDelivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器;另外,服务器400所对应的功能和服务器600所对应的功能可集成于一服务器中实现。终端200可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。终端以及服务器可以通过有线或无线通信方式进行直接或间接地连接,本申请实施例中不做限制。
还需要说明的是,本申请实施例所提供的任务执行方法,可以应用在任意应用场景的模型训练上。比如,可以应用在云平台中的模型训练上,以提升云平台中的模型的泛化能力,从而提升云服务质量;此时,需要借助云技术实现。
参见图3a,图3a是本申请实施例提供的图2中的一服务器的组成结构示意图,图3a所示的服务器400包括:至少一个第一处理器410、第一存储器450、至少一个第一网络接口420和第一用户接口430。第一服务器400中的各个组件通过第一总线系统440耦合在一起。可理解,第一总线系统440用于实现这些组件之间的连接通信。第一总线系统440除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3a中将各种总线都标为第一总线系统440。
第一处理器410可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器(DSP,Digital Signal Processor),或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
第一用户接口430包括使得能够呈现媒体内容的一个或多个第一输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。第一用户接口430还包括一个或多个第一输入装置432,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
第一存储器450可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。第一存储器450可选地包括在物理位置上远离第一处理器410的一个或多个存储设备。
第一存储器450包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器(ROM,Read Only Memory),易失性存储器可以是随机存取存储器(RAM,Random Access Memory)。本申请实施例描述的第一存储器450旨在包括任意适合类型的存储器。
在一些实施例中,第一存储器450能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
第一操作系统451,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
第一网络通信模块452,用于经由一个或多个(有线或无线)第一网络接口420到达其他计算设备,示例性的第一网络接口420包括:蓝牙、无线相容性认证(Wi-Fi)、和通用串行总线(USB,Universal Serial Bus)等;
第一呈现模块453,用于经由一个或多个与第一用户接口430相关联的第一输出装置431(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
第一输入处理模块454,用于对一个或多个来自一个或多个第一输入装置432之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的第一任务执行装置可以采用软件方式实现,图3a示出了存储在第一存储器450中的第一任务执行装置455,其可以是程序和插件等形式的软件,包括以下软件模块:标签获取模块4551、特征提取模块4552、标识确定模块4553、特征确定模块4554、模型训练模块4555、特征提取模块4556和特征聚类模块4557,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
参见图3b,图3b是本申请实施例提供的图2中的另一服务器的组成结构示意图,图3b所示的服务器600包括:至少一个第二处理器610、第二存储器650、至少一个第二网络接口620和第二用户接口630。第二服务器600中的各个组件通过第二总线系统640耦合在一起。可理解,第二总线系统640用于实现这些组件之间的连接通信。第二总线系统640除包括数据总线之外,还包括电源总线、控制总线和状态信号总线。但是为了清楚说明起见,在图3b中将各种总线都标为第二总线系统640。
第二处理器610可以是一种集成电路芯片,具有信号的处理能力,例如通用处理器、数字信号处理器,或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等,其中,通用处理器可以是微处理器或者任何常规的处理器等。
第二用户接口630包括使得能够呈现媒体内容的一个或多个第二输出装置431,包括一个或多个扬声器和/或一个或多个视觉显示屏。第二用户接口630还包括一个或多个第二输入装置632,包括有助于用户输入的用户接口部件,比如键盘、鼠标、麦克风、触屏显示屏、摄像头、其他输入按钮和控件。
第二存储器650可以是可移除的,不可移除的或其组合。示例性的硬件设备包括固态存储器,硬盘驱动器,光盘驱动器等。第二存储器650可选地包括在物理位置上远离第二处理器610的一个或多个存储设备。
第二存储器650包括易失性存储器或非易失性存储器,也可包括易失性和非易失性存储器两者。非易失性存储器可以是只读存储器,易失性存储器可以是随机存取存储器。本申请实施例描述的第二存储器650旨在包括任意适合类型的存储器。
在一些实施例中,第二存储器650能够存储数据以支持各种操作,这些数据的示例包括程序、模块和数据结构或者其子集或超集,下面示例性说明。
第二操作系统651,包括用于处理各种基本系统服务和执行硬件相关任务的系统程序,例如框架层、核心库层、驱动层等,用于实现各种基础业务以及处理基于硬件的任务;
第二网络通信模块652,用于经由一个或多个(有线或无线)第二网络接口620到达其他计算设备,示例性的第二网络接口620包括:蓝牙、无线相容性认证、和通用串行总线等;
第二呈现模块653,用于经由一个或多个与第二用户接口630相关联的第二输出装置631(例如,显示屏、扬声器等)使得能够呈现信息(例如,用于操作外围设备和显示内容和信息的用户接口);
第二输入处理模块654,用于对一个或多个来自一个或多个第二输入装置632之一的一个或多个用户输入或互动进行检测以及翻译所检测的输入或互动。
在一些实施例中,本申请实施例提供的第二任务执行装置可以采用软件方式实现,图3b示出了存储在第二存储器650中的第二任务执行装置655,其可以是程序和插件等形式的软件,包括以下软件模块:信息获取模块6551、相似性模块6552、结果确定模块6553和任务执行模块6554,这些模块是逻辑上的,因此根据所实现的功能可以进行任意的组合或进一步拆分。
将在下文中说明各个模块的功能。
在另一些实施例中,本申请实施例提供的第一任务执行装置和第二任务执行装置可以采用硬件方式实现,作为示例,本申请实施例提供的第一任务执行装置和第二任务执行装置可以是采用硬件译码处理器形式的处理器,其被编程以执行本申请实施例提供的任务执行方法,例如,硬件译码处理器形式的处理器可以采用一个或多个应用专用集成电路(ASIC,Application Specific Integrated Circuit)、DSP、可编程逻辑器件(PLD,Programmable Logic Device)、复杂可编程逻辑器件(CPLD,Complex Programmable LogicDevice)、现场可编程门阵列(FPGA,Field-Programmable Gate Array)或其他电子元件。
下面,将结合本申请实施例提供的服务器的示例性应用和实施,说明本申请实施例提供的任务执行方法。
参见图4,图4是本申请实施例提供的任务执行方法的一个可选的流程示意图,将结合图4示出的步骤进行说明。
S401、获取目标行业的目标行业标签。
在本申请实施例中,当优化指定行业中的模型或训练指定行业的模型时,服务器也就接收到了目标行业的目标行业标签。
需要说明的是,目标行业即指定行业,比如,游戏行业,电商行业。目标行业标签为目标行业的表征信息,比如,当目标行业为游戏行业时,目标行业标签为“王者荣耀”和“和平精英”等标签;并且,目标行业标签包括至少一个子目标行业标签,比如,“王者荣耀”为一个子目标行业标签,“和平精英”也为一个子目标行业标签;以及,目标行业标签中的每个子目标行业标签可以是文本形式的信息,还可以是图像形式的信息,又可以是其他形式的信息,本申请实施例对此不作具体限定。
S402、提取目标行业标签的特征,得到行业标签特征。
在本申请实施例中,服务器获得了目标行业标签之后,为了利用目标行业标签获取到目标行业的特征,对目标行业标签进行转化处理,以获取能够表征目标行业标签且能够用于计算的信息;这里,服务器对目标行业标签的转化处理为提取目标行业标签的特征的过程,所提取到的特征即行业标签特征。
易知,行业标签特征为目标行业标签的特征;其中,特征为能够用于计算的信息,可以为向量形式,还可以是矩阵形式,等等,本申请实施例对此不作具体限定。
需要说明的是,服务器提取目标行业标签的特征的过程,可以为服务器利用向量模型获取目标行业标签对应的向量表示的过程;其中,向量模型比如为训练好的DSSM(DeepStructured Semantic Model,基于深度网络的语义模型,又称为双塔模型,应用于文本相似度匹配场景下),或训练好的FM(Factorization Machine,因子分解机)模型,或其他用于获取向量表示的模型。另外,目标行业标签包括至少一个子目标行业标签时,相应地,行业标签特征包括至少一个子行业标签特征,且至少一个子行业标签特征与至少一个子目标行业标签一一对应。
S403、依据类簇集合,确定与行业标签特征对应的目标类簇标识。
在本申请实施例中,服务器中存储着类簇集合,或者服务器能够获取到类簇集合;该类簇集合为多个行业的行业特征对应的各个类簇信息构成的集合;因此,服务器从类簇集合中选择出行业标签特征中的每个子行业标签特征所属的类簇对应的类簇标识,再基于每个子行业标签特征对应的类簇标识,就能得到与行业标签特征对应的目标类簇标识。这里,类簇标识用于表示一个类簇,而一个类簇可以包括类簇中心和标识等;类簇集合是依据语料数据对多个行业的行为数据进行聚类得到的,其中,多个行业的行业特征为多个行业的行为数据的特征。
需要说明的是,行业特征为多个行业的特征的总称,包括至少一个子行业特征,每个子行业特征与一个对象(用户)对应。目标类簇标识可以为所有子行业标签特征对应的所有类簇标识构成的集合,也可以为依据类簇标识的区分特性,从所有子行业标签特征对应的所有类簇标识构成的集合中选出的至少一个类簇标识所构成的集合,本申请实施例对此不作具体限定。
S404、从特征与类簇标识的对应关系中,确定与目标类簇标识对应的目标行业特征。
在本申请实施例中,服务器中存储着特征与类簇标识的对应关系,或者服务器能够获取到特征与类簇标识的对应关系;该特征与类簇标识的对应关系为行业特征中的每个子行业特征与类簇集合中的一个类簇标识的对应关系构成的集合;因此,服务器利用目标类簇对特征与类簇标识的对应关系进行过滤,所获得的过滤结果即与目标类簇对应的目标行业特征。
需要说明的是,行业特征中的每个子行业特征都对应着一个类簇标识,该类簇标识用于在预测模型的训练过程中实现对样本数据的压缩,即根据类簇标识确定向预测模型所输入的样本。目标行业特征为目标行业的特征。
还需要说明的是,特征与类簇标识的对应关系是依据语料数据对多个行业的行为数据进行聚类得到的;也就是说,特征与类簇标识的对应关系,以及类簇集合均为依据语料数据对多个行业的行为数据进行处理,得到多个行业的行业特征,并对多个行业的行业特征进行聚类所获得的聚类结果。
S405、利用目标行业特征,训练目标行业对应的预测模型,以利用训练后的预测模型执行预测任务。
在本申请实施例中,服务器获得了目标行业特征之后,就能够利用目标行业特征对目标行业的模型进行优化或训练了,即利用目标行业特征训练目标行业对应的预测模型。
需要说明的是,预测模型可以为目标行业的待训练模型,也可以为目标行业的待优化模型,本申请实施例对此不作具体限定。另外,训练后的预测模型用于执行预测任务,比如,判断一个用户关注的信息(或行为信息)与某个广告信息的相关度。
可以理解的是,由于预测模型的训练过程中所采用的目标行业特征,是通过目标行业标签从各个行业特征对应的各个类簇信息构成的集合中确定目标类簇标识,再通过目标类簇标识对每个子行业特征对应的类簇标识进行过滤而获得的;也就是说,通过调用类簇集合并过滤特征与类簇标识的对应关系,就能够得到目标行业的目标行业特征,因此,获取指定行业特征时,简化了处理流程,减少了人工参与度;从而目标行业特征的获取效率较高,进而依据目标行业特征训练预测模型时,预测模型训练的效率较高。
参见图5,图5是本申请实施例提供的任务执行方法的另一个可选的流程示意图;如图5所示,在本申请实施例中,S402之前还包括S406-S409;也就是说,服务器提取目标行业标签的特征,得到行业标签特征之前,该任务执行方法还包括S406-S409,下面对各步骤分别进行说明。
S406、获取语料数据。
需要说明的是,服务器通过获取互联网中与用户的操作所关联的信息,也就得到了语料数据。也就是说,语料数据为用户在互联网中接触到的文本信息,比如,商品的文本描述:“夏季连衣裙、2020新款女装、韩版显瘦雪纺衫、大码泡泡袖、中长款碎花收腰裙子和花园雏菊连衣裙”;又比如文章内容中和“王者荣耀”相关的关键词汇的集合或一段相关文本:“大部分射手都会被盾山宫本克制,技能机制摆在那了”。
这里,服务器可以通过各种渠道获得语料数据,比如,各功能应用中,各网站中等。
S407、利用各个行业标签,对语料数据进行分类,得到标签与语料的对应关系。
在本申请实施例中,服务器中存储着各个行业标签即各个行业的标签,或者服务器能够获取到各个行业标签;各个行业标签中的每个标签用于表征用户在互联网上的操作意图,比如,点击的对象,搜索的信息等。从而,服务器获得了语料数据之后,利用各个行业标签,对语料数据进行分类,以获得各个行业的每个标签对应的语料;这里,各个行业的每个标签对应的语料即标签与语料的对应关系。
需要说明的是,标签与语料的对应关系中,由于标签与语料是相关的,故,标签语料的对应关系为用于训练初始特征提取模型的正样本,对应的标注信息比如为1。
S408、将标签与语料的对应关系中的标签和语料进行交错组合,得到负样本。
在本申请实施例中,服务器将标签与语料的对应关系中的标签和语料进行交错组合,也就得到了标签与语料不相关的负样本;易知,负样本同样为标签与语料的样本对,只是负样本的标签与语料不相关,比如,负样本中标签为“王者荣耀”时,负样本中语料为“遮阳挡汽车雪挡前档风玻璃防晒隔热遮阳帘汽车遮阳板太阳挡隔热板”;负样本对应的标注信息比如为0。
需要说明的是,除S406-S408描述的获取正样本和负样本的方式之外,还可采用其他的方式获取正样本和负样本,本申请实施例对此不作具体限定。
S409、利用负样本,以及标签与语料的对应关系,训练初始特征提取模型,得到特征提取模型。
在本申请实施例中,服务器能够获取到待训练的模型即初始特征提取模型,因此,获得了正样本和负样本之后,就能够利用正样本和负样本,对初始特征提取模型进行迭代训练了;当完成迭代训练之后,所获得的训练好的模型即特征提取模型。
这里,初始特征提取模型比如为DSSM,又比如为FM;另外,当向特征提取模型输入一个标签,则会输出表征该输入标签的特征。
相应地,在本申请实施例中,S402可通过S4021实现,其中:
S4021、利用特征提取模型,提取目标行业标签的特征,得到行业标签特征。
需要说明的是,服务器除了采用上述的特征提取模型获取目标行业标签的特征,还可以采用其他方式提取目标行业标签的特征,本申请实施例对此不作具体限定。
参见图6,图6是本申请实施例提供的任务执行方法的又一个可选的流程示意图;如图6所示,在本申请实施例中,S403之后还包括S4010-S4013;也就是说,服务器依据类簇集合,确定与行业标签特征对应的目标类簇标识之前,该任务执行方法还包括S4010-S4013,下面对各步骤分别进行说明。
S4010、获取行业操作数据。
需要说明的是,当服务器获取用户在各个行业的行为信息时,也就得到了行为操作数据;也就是说,行业操作数据为各个行业的行为数据。
S4011、从行业操作数据中提取文本信息,得到行业关键文本。
需要说明的是,行业操作数据中包括了各种形式的数据,这里,以文本形式的数据为例进行说明:服务器从行业操作数据中提取文本信息,所提取到的文本信息即行业关键文本。
S4012、提取行业关键文本的特征,得到行业特征。
在本申请实施例中,服务器获得了行业关键文本之后,为了利用行业关键文本获取到各个行业的特征,对行业关键文本进行转化处理,以获取能够表征行业关键文本且能够用于计算的信息;这里,服务器对行业关键文本的转化处理为提取行业关键文本的特征的过程,所提取到的特征即行业特征。
需要说明的是,当服务器获得了特征提取模型之后,S4012可通过S40121实现,其中:
S40121、利用特征提取模型,提取行业关键文本的特征,得到行业特征。
S4013、依据多个行业对应的行业数量,对行业特征进行聚类,得到类簇集合,以及特征与类簇标识的对应关系。
在本申请实施例中,为了对行业特征的数量维度进行压缩,提升模型的训练效率;服务器基于多个行业对应的行业数量,对行业特征进行聚类,根据聚类结果也就得到了类簇集合,以及特征与类簇标识的对应关系。
在本申请实施例中,S4013可通过S40131-S40134实现;也就是说,服务器依据多个行业对应的行业数量,对行业特征进行聚类,得到类簇集合,以及特征与类簇标识的对应关系,包括S40131-S40134,下面对各个步骤分别进行说明。
S40131、依据多个行业对应的行业数量,确定类簇数量。
需要说明的是,类簇数量大于或等于多个行业对应的行业数量;比如,当行业数量为5时,类簇数量可以为15或20。
S40132、依据类簇数量,对行业特征进行聚类,得到分别包括类簇标识、类簇中心特征和类簇特征的各个类簇。
需要说明的是,服务器确定了类簇数量之后,也就明确了将行业特征聚为多少个类簇,进而依据类簇数量对行业特征进行聚类,也就得到了分别包括类簇标识、类簇中心特征和类簇特征的各个类簇。另外,类簇标识用于表示类簇,类簇中心特征为类簇的聚类中心,类簇特征为属于该类簇的各个子行业特征。
S40133、将各个类簇中分别对应的类簇标识和类簇中心特征,构成类簇集合。
在本申请实施例中,服务器将各个类簇中的每个类簇中的类簇标识和类簇中心特征组合为一个类簇信息,也就得到了各个类簇信息,该各个类簇信息构成的集合即类簇集合。易知,各个类簇信息中的每个类簇信息包含类簇标识和类簇中心特征。
S40134、基于各个类簇中分别对应的类簇标识和类簇特征,确定特征与类簇标识的对应关系。
需要说明的是,各个类簇中每个类簇的类簇特征包括多个子行业特征;这里,服务器基于各个类簇中分别对应的类簇标识和类簇特征,确定每个子行业特征对应的类簇标识,也就得到了特征与类簇标识的对应关系。
在本申请实施例中,S40134可通过S401341和S401342实现;也就是说,服务器基于各个类簇中分别对应的类簇标识和类簇特征,确定特征与类簇标识的对应关系,包括S401341和S401342,下面对各步骤分别进行说明。
S401341、从行业特征中,获取与当前类簇的类簇特征中的每个子类簇特征匹配的目标子行业特征。
需要说明的是,当前类簇为各个类簇中的任一类簇;每个类簇特征属于行业特征;当行业特征中的每个子行业特征包括用户信息(比如用户标识)和兴趣特征,类簇特征包括至少一个子类簇特征时,每个子类簇特征即为一个兴趣特征;从而,服务器能够从行业特征中确定与每个子类簇特征匹配的一个子行业特征,即目标子行业特征。
S401342、基于目标子行业特征和当前类簇,确定特征与类簇标识的对应关系。
需要说明的是,特征与类簇标识的对应关系,与各个类簇对应;目标子行业特征和当前类簇之间的对应关系,为特征与类簇标识的对应关系中的一个子对应关系。
参见图7,图7是本申请实施例提供的任务执行方法的再一个可选的流程示意图;如图7所示,在本申请实施例中,S403可通过S4031-S4033实现;也就是说,服务器依据类簇集合,确定与行业标签特征对应的目标类簇标识,包括S4031-S4033,下面对各步骤分别进行说明。
S4031、将当前子行业标签特征,与类簇集合中的每个类簇中心特征进行比较,得到当前距离集合。
在本申请实施例中,服务器遍历行业标签特征中的每个子行业标签特征,针对当前遍历到的子行业标签特征,即当前子行业标签特征;服务器将该当前子行业标签特征,与类簇集合中的每个类簇中心特征进行比较,也就得到了当前子行业标签特征与每个类簇中心特征之间的当前距离构成的集合,即当前距离集合。
这里,当前子行业标签特征为行业标签特征中的任一子行业标签特征。
S4032、将类簇集合中,与当前距离集合中的最小当前距离所对应的类簇标识,确定为当前子行业标签特征对应的当前类簇标识,从而得到与行业标签特征对应的各个当前类簇标识。
需要说明的是,服务器获得了当前距离集合中,从当前距离集合中选择出最小当前距离;易知,最小当前距离所对应的类簇标识即当前类簇标识所表示的类簇,为当前子行业标签特征所属的类簇;这里,服务器采用当前类簇标识指示当前子行业标签特征所属的类簇。
S4033、基于各个当前类簇标识,得到目标类簇标识。
在本申请实施例中,服务器可以将各个当前类簇标识直接组合为目标类簇标识,还可以从各个当前类簇标识中选择至少一个当前类簇标识组合为目标类簇标识,本申请实施例对此不作具体限定。
在本申请实施例中,S4033可通过S40331-S40334实现;也就是说,服务器基于各个当前类簇标识,得到目标类簇标识,包括S40331-S40334,下面对各步骤分别进行说明。
S40331、对各个当前类簇标识进行整合,得到各个子目标类簇标识以及各个子目标类簇标识对应的各个出现频次。
需要说明的是,各个当前类簇标识中存在相同的类簇标识;这里,服务器将各个当前类簇标识中至少两个相同的当前类簇标识合并为一个子目标类簇标识,同时,统计子目标类簇标识的出现频次。
这里,各个子目标类簇标识与各个出现频次一一对应。
S40332、依据各个出现频次,对各个子目标类簇标识进行排序。
需要说明的是,如果一个子目标类簇标识的出现频次较高,表明子目标类簇标识具有较高的覆盖度和区分度;因此,服务器依据各个出现频次对各个子目标类簇标识进行排序,以从排序后的各个子目标类簇标识中选择出具有较高的覆盖度和区分度的目标类簇标识。这里,较高的覆盖度和区分度是指,覆盖度大于覆盖度阈值,区分度大于区分度阈值。
S40333、从排序后的各个子目标类簇标识中,选出预设数量个出现频次最大的子目标类簇标识。
在本申请实施例中,服务器中预先设置有预设数量比值(比如,80%),或者服务器能够获取到预设数量比值,该预设数量比值用于确定所选择的子目标类簇标识的预设数量。
S40334、将预设数量个出现频次最大的子目标类簇标识,组合为目标类簇标识。
需要说明的是,服务器获得了预设数量个出现频次最大的子目标类簇标识之后,将预设数量个出现频次最大的子目标类簇标识组合,所获得的组合结果即目标类簇标识;易知,目标类簇标识中包括预设数量个子目标类簇标识。
基于图7,参见图8,图8是本申请实施例提供的任务执行方法的再又一个可选的流程示意图;如图8所示,在本申请实施例中,S404可通过S4041和S4042实现;也就是说,服务器从特征与类簇标识的对应关系中,确定与目标类簇标识对应的目标行业特征,包括S4041和S4042,下面对各步骤分别进行说明。
S4041、从特征与类簇标识的对应关系中,获取与当前子目标类簇标识对应的当前子目标行业特征,从而得到与目标类簇标识对应的各个当前子目标行业特征。
需要说明的是,由于目标类簇标识包括多个子目标类簇标识;从而,服务器对目标类簇标识进行遍历;针对当前遍历到的子子目标类簇标识,即当前子目标类簇标识;服务器从特征与类簇标识的对应关系中,选择出与当前子目标类簇标识对应的至少一个子行业特征,所选择出的与当前子目标类簇标识对应的至少一个子行业特征,也就构成了与当前子目标类簇标识对应的当前子目标行业特征;当完成了对目标类簇标识的遍历,得到了各个子目标类簇标识的各个当前子目标行业特征时,也就得到了与目标类簇标识对应的各个当前子目标行业特征。
这里,当前子目标类簇标识为目标类簇标识中的任一子目标类簇标识。
S4042、将各个当前子目标行业特征,确定为目标行业特征。
在本申请实施例中,服务器获得了各个当前子目标行业特征之后,将各个当前子目标行业特征进行组合,所获得的组合结果即目标行业特征。
在本申请实施例中,S409可通过S4091-S4094实现;也就是说,服务器利用负样本,以及标签与语料的对应关系,训练初始特征提取模型,得到特征提取模型,包括S4091-S4094,下面对各步骤分别进行说明。
S4091、利用初始特征提取模型,获取目标样本中的目标标签对应的目标标签特征。
需要说明的是,服务器利用负样本,以及标签与语料的对应关系,训练初始特征提取模型时,针对每个样本即目标样本,服务器将目标样本的标签即目标标签输入至初始特征提取模型,目标标签的特征即目标标签特征。
这里,目标样本为负样本或,标签与语料的对应关系。
S4092、利用初始特征提取模型,获取目标样本中的目标语料对应的目标语料特征。
在本申请实施例中,同理,服务器将目标样本的语料即目标语料输入至初始特征提取模型,目标语料的特征即目标语料特征。
S4093、获取目标标签特征和目标语料特征的相关性信息。
在本申请实施例中,服务器获得了目标标签特征和目标语料特征之后,计算目标标签特征和目标语料特征之间的相关性,也就得到了相关性信息。这里,当目标标签特征和目标语料特征均为向量形式时,可以通过计算目标标签特征和目标语料特征之间的内积,并利用映射函数(比如,“softmax”函数)对内积结果进行转换来获得相关性信息。
S4094、依据相关性信息和目标样本对应的预设标注数据之间的差异,对初始特征提取模型进行迭代训练,当满足预设截止条件时,将迭代训练后的初始特征提取模型确定为特征提取模型。
在本申请实施例中,由于目标样本对应着预设标注数据,比如1或0;因此,服务器获得了相关性信息之后,通过预设计算方式计算相关性信息和预设标注数据之间的差异;其中,预设计算方式比如为损失函数,设置的计算公式等。由于相关性信息和预设标注数据之间的差异在一定程度上表征了初始特征提取模型的特征提取效果,差异越大特征提取效果越差;从而,当获得了相关性信息和预设标注数据之间的差异之后,利用相关性信息和预设标注数据之间的差异迭代调整始特征提取模型中的模型参数,以实现对初始特征提取模型的迭代训练。这里,当迭代训练过程中确定满足了预设截止条件之后,结束迭代训练;此时,迭代训练后的始特征提取模型即为特征提取模型。
需要说明的是,从S401的描述至此,所描述的执行主体(服务器)即上述服务器400。
参见图9,图9是本申请实施例提供的任务执行方法的又另一个可选的流程示意图;如图9所示,在本申请实施例中,服务器利用目标行业特征,训练目标行业对应的预测模型,以利用训练后的预测模型执行预测任务之后,该任务执行方法还包括S4014-S4017,下面对各步骤分别进行说明。
S4014、获取目标用户的目标操作数据、以及目标行业中待推荐信息所对应的种子操作数据,种子操作数据为待推荐信息的种子用户的操作数据。
在本申请实施例中,当判断是否将目标行业中的待推荐信息(比如,广告,文字等多媒体信息)推荐给目标用户时,对目标用户的行为数据进行获取,也就获得了目标操作数据。
需要说明的是,待推荐信息对应存在种子用户,该种子用户为对待推荐信息执行了转化操作的用户,或具有较大概率对待推荐信息执行转化操作的用户,服务器获取种子用户的操作数据,也就得到了种子操作数据;服务器通过获取目标操作数据和纵轴操作数据,以基于种子操作数据和目标操作数据,确定是否向目标用户向待推荐信息推荐。
S4015、基于训练后的预测模型,预测目标操作数据和种子操作数据之间的目标相似性。
在本申请实施例中,服务器获得了目标操作数据和种子操作数据之后,可以直接将待预测信息输入至训练后的预测模型中执行预测,也可以对目标操作数据和种子操作数据分别进行特征提取,将提取到的特征输入至训练后的预测模型中执行预测,本申请实施例对此不作具体限定。这里,训练后的预测模型所输出的结果即目标操作数据和种子操作数据之间的目标相似性。
S4016、比较目标相似性和相似性阈值,以确定待推荐信息的推荐结果。
需要说明的是,服务器中预先设置有相似性阈值,或着服务器能够获取到相似性阈值,该相似性阈值用于衡量目标操作数据和种子操作数据之间是否相似;比如,当目标相似性大于相似性阈值时,表明目标操作数据和种子操作数据之间相似;而当目标相似性小于或等于相似性阈值时,表明目标操作数据和种子操作数据之间不相似。易知,当目标操作数据和种子操作数据之间相似时,将待推荐信息推荐至目标用户,目标用户对待推荐信息执行操作的可能性大;而当目标操作数据和种子操作数据之间不相似时,将待推荐信息推荐至目标用户,目标用户对待推荐信息执行操作的可能性小。因此,服务器基于目标相似性和相似性阈值的比较结果,确定是否将待推荐信息推荐给目标用户的推荐结果。
S4017、基于推荐结果,对待推荐信息执行推荐处理,以完成预测任务的执行。
在本申请实施例中,服务器获得了推荐结果之后,由于推荐结果表征了是否将待推荐信息推荐给目标用户的信息;从而,服务器基于该推荐结果,将该待推荐信息作为目标用户的推荐信息,向终端发送待推荐信息,以在终端上显示该待推荐信息,实现向目标用户的准确推荐,提升召回率;或者,不向该目标用户推荐该待推荐信息。这里,S4014-S4017描述的预测任务的执行,可以是线上的,也可以是线下,本申请实施例对此不作具体限定。
还需要说明的是,S4014-S4017,所描述的执行主体(服务器)即上述服务器600。
需要说明的是,当获取目标行业的目标行业特征时,如果采用图1所示的流程,由于流程中需要多人联动,获得目标行业特征的时间为3-4天;如果采用本申请实施例提供的任务执行方法获取目标行业特征,获得目标行业特征的时间为1天,在时间上缩短了80%。
可以理解的是,由于类簇集合,以及特征与类簇标识的对应关系是预先处理得到的,从而,实现了多个行业的行业特征对应的各个类簇信息,以及每个子行业特征对应一个类簇标识的例行化;从而,实现了目标行业的目标行业特征的快速获取。
下面,将说明本申请实施例在一个实际的应用场景中的示例性应用。
参见图10,图10是本申请实施例提供的一种示例性的获取目标行业特征的流程示意图;如图10所示,该示例性地获取目标行业特征的流程示意图包括如下步骤:
S1001、获取语料数据。
需要说明的是,语料数据为用户在互联网上接触到的文本信息。
S1002、利用语料数据获取正样本(标签与语料的对应关系)和负样本。
需要说明的是,正样本和负样本的格式为<搜索词(各个行业标签中的标签),文档(语料),目标字段(预设标注数据)>。其中,搜索词是指用户在互联网上的点击或者搜索意图。文档是指与搜索词对应的语料,正样本中搜索词与文档相关,即文档是搜索词返回的结果中的文本信息;负样本中搜索词与文档不相关;在正样本中,目标字段为1,负样本中目标字段为0。
这里,正样本和负样本的获取时,利用预先统计得到的每个行业的行业标签(各个行业标签),对语料数据进行分类;从分类结果中提取标签和标签对应的语料来构建正样本。此时,将两个不同的正样本中搜索词和文档进行交错组合,也就得到了负样本。另外,还可以将用户未搜索或未点击的信息作为文档,与搜索词构建负样本。
S1003、利用正样本和负样本训练向量模型(特征提取模型)。
需要说明的是,将正样本或负样本中的搜索词(目标标签)和文档(目标语料)分别输入至DSSM(初始特征提取模型),在DSSM中经过多层非线性变换之后,分别得到搜索词对应的向量(目标标签特征)和文档对应的向量(目标语料特征);通过计算搜索词对应的向量和文档对应的向量的内积,也就获得了该样本(目标样本)中搜索词和文档的相关性得分,再利用“softmax”函数将该相关性得分转化为正负样本的概率(相关性信息),最后,基于该正负样本的概率与目标字段之间的差异对DSSM进行迭代训练,训练完成时也就得到了向量模型。
S1004、利用向量模型获取用户的正向行为数据(行业操作数据)对应的用户兴趣向量(行业特征)。
需要说明的是,用户的正向行为数据指的是用户在互联网上产生的点击、收藏、下单和搜索等可以表达用户意图的行为信息;从用户的正向行为数据中提取文本信息,例如,提取用户的搜索词和点击文章的标题等,将提取到的文本信息(行业关键文本)输入至向量模型,得到对应的向量,也就得到了格式为<用户标识,向量>的用户兴趣向量。
S1005、对用户兴趣向量进行聚类,得到类簇标识和类簇中心的(类簇中心特征)对应关系(类簇集合),以及带有类簇标识的用户兴趣向量(特征与类簇标识的对应关系)。
需要说明的是,类簇中心是一个向量;聚类时的模型可以是任意可以产生聚类效果的模型,例如,“K-means”聚类模型,一种无监督算法,对于给定的样本集,按照样本之间的距离大小,将样本集划分为K个簇,让簇内的点尽量紧密靠在一起,而让簇间的距离尽量的大。另外,类簇标识和类簇中心的对应关系中包含n对类簇标识和类簇中心,n是基于行业数量进行设置的。K和n均为大于0的正整数。此外,聚类时还可采用均值漂移聚类等其他聚类算法。
这里,S1001-S1005可以封装为HTTP((HyperTextTransferProtocol,超文本传输协议)服务被调用,调用时的HTTP请求中携带着表征指定行业的标签的文本信息,请求结果为对应的类簇标识集合(参见S1007)和向量(参见S1006)。
S1006、利用向量模型获取指定行业(目标行业)的标签数据(目标行业标签)对应的指定行业的兴趣向量(目标行业特征)。
S1007、指定行业的兴趣向量与,类簇标识和类簇中心的对应关系中的各个类簇中心一一比较,从而确定类簇标识集合。
这里,指定行业的标签数据,比如,给定的“王者荣耀”和“和平精英”等标签。
S1008、按照预设规则,对类簇标识集合进行筛选,得到筛选后的类簇标识集合(目标类簇标识)。
需要说明的是,预设规则可以为:筛选80%的出现频次最大的类簇标识。
S1009、利用筛选后的类簇标识集合,从带有类簇标识的用户兴趣向量,过滤出指定行业的用户兴趣向量(目标行业特征)。这里,可以通过“spark”任务实现该过滤。
参见图11,图11是本申请实施例提供的另一种示例性的获取目标行业特征的流程示意图;如图11所示,为了获取目标行业特征,对应的输入包括用户正向行为11-1(行业操作数据)、语料11-2(语料数据)和行业标签11-3(目标行业标签)。其中,用户正向行为11-1,是用户在互联网上产生的正向行为数据,例如用户点击,下单行为等。语料11-2,是用户在互联网接触到的文本信息,可以是用户在微信公众号阅读的一篇文章,也可以是电商平台用户接触过的商品描述信息等;语料11-2用于生成训练向量模型11-4(特征提取模型)所需的正负样本。行业标签11-3,是区分某个行业的文字标签,例如游戏行业的行业标签可以是“王者荣耀”和“和平精英”;电商行业的行业标签可以是“女装”和“舒适时尚透气潮鞋”。易知,指定行业的用户兴趣向量(目标行业特征)为输出结果,行业标签11-3为指定行业的标签。
这里,利用用户正向行为11-1、语料11-2和行业标签11-3,获取指定行业的用户兴趣向量的过程包括:首先,利用语料11-2训练样本,利用训练的样本训练获得向量模型11-4;另外,从用户正向行为11-1中提取文本信息,并将提取到的文本信息输入指向量模型11-4,得到用户兴趣向量11-5(多个行业的行业特征)。其次,将用户兴趣向量11-5输入至聚类模型11-6中进行聚类,得到聚类标识和聚类中心11-7(类簇集合)。然后,将聚类标识和聚类中心11-7中的聚类标识通过拼接11-8处理拼接到用户兴趣向量11-5上,得到用户兴趣向量和聚类标识11-9(特征与类簇标识的对应关系)。接下来,当获取指定行业的用户兴趣向量时,则将指定行业的行业标签11-3(目标行业标签),输入至向量模型11-4,并结合聚类标识和聚类中心11-7得到标签聚类标识11-10(各个当前类簇标识),按照规则11-11(选出预设数量个出现频次最大的子目标类簇标识对应的规则)从标签聚类标识11-10中筛选有区分度的标签聚类标识11-12(目标类簇标识)。最后,利用有区分度的标签聚类标识11-12对用户兴趣向量和聚类标识11-9进行过滤11-13,得到指定行业用户兴趣向量11-14(目标行业特征)。另外,图11中的虚线框的处理过程,可以作为http服务进行请求。
可以理解的是,一方面,处理的数据为全行业的用户的正向行为数据,不是指定行业的用户正向行为数据,处理的数据也就不会随指定行业的改变而改变,实现了处理的数据的固定化,也就不再需要人工参与修改各种参数的处理。另一方面,所获得的为筛选后的类簇标识集合,该筛选后的类簇标识集合具有较高的区分度和覆盖度,从而使得所过滤出的指定行业的用户兴趣向量的准确度高,进而提升了预测模型的训练效果。再一方面,确定类簇标识集合和过滤出指定行业的兴趣向量的过程中,人工参与的处理过程简便,从而,整体上,也就能够提升获取指定行业的兴趣向量的效率。
下面继续说明本申请实施例提供的第一任务执行装置455的实施为软件模块的示例性结构,在一些实施例中,如图3a所示,存储在第一存储器450的第一任务执行装置455中的软件模块可以包括:
标签获取模块4551,用于获取目标行业的目标行业标签,所述目标行业标签为所述目标行业的表征信息;
特征提取模块4552,用于提取所述目标行业标签的特征,得到行业标签特征;
标识确定模块4553,用于依据类簇集合,确定与所述行业标签特征对应的目标类簇标识,所述类簇集合为多个行业的行业特征对应的各个类簇信息构成的集合,所述类簇集合是依据语料数据对所述多个行业的行为数据进行聚类得到的;
特征确定模块4554,用于从特征与类簇标识的对应关系中,确定与所述目标类簇标识对应的目标行业特征,所述特征与类簇标识的对应关系为所述行业特征中的每个子行业特征与所述类簇集合中的一个类簇标识的对应关系构成的集合;其中,所述特征与类簇标识的对应关系是依据所述语料数据对所述多个行业的行为数据进行聚类得到的;
模型训练模块4555,用于利用所述目标行业特征,训练所述目标行业对应的预测模型,以利用训练后的预测模型执行预测任务。
在本申请实施例中,所述模型训练装置455还包括特征提取模块4556,用于获取所述语料数据;利用各个行业标签,对所述语料数据进行分类,得到标签与语料的对应关系;将所述标签与语料的对应关系中的标签和语料进行交错组合,得到负样本;利用所述负样本,以及所述标签与语料的对应关系,训练初始特征提取模型,得到特征提取模型。
在本申请实施例中,所述特征确定模块4554,还用于利用所述特征提取模型,提取所述目标行业标签的特征,得到所述行业标签特征。
在本申请实施例中,所述模型训练装置455还包括特征聚类模块4557,用于获取行业操作数据,所述行业操作数据为各个行业的行为数据;从所述行业操作数据中提取文本信息,得到行业关键文本;提取所述行业关键文本的特征,得到所述行业特征;依据所述多个行业对应的行业数量,对所述行业特征进行聚类,得到所述类簇集合,以及所述特征与类簇标识的对应关系。
在本申请实施例中,所述特征聚类模块4557,还用于依据所述多个行业对应的所述行业数量,确定类簇数量,所述类簇数量大于所述行业数量;依据所述类簇数量,对所述行业特征进行聚类,得到分别包括类簇标识、类簇中心特征和类簇特征的各个类簇;将所述各个类簇中分别对应的类簇标识和类簇中心特征,构成所述类簇集合,所述各个类簇信息中的每个类簇信息包含类簇标识和类簇中心特征;基于所述各个类簇中分别对应的类簇标识和类簇特征,确定所述特征与类簇标识的对应关系。
在本申请实施例中,所述特征聚类模块4557,还用于从所述行业特征中,获取与当前类簇的类簇特征中的每个子类簇特征匹配的目标子行业特征,所述当前类簇为所述各个类簇中的任一类簇;基于所述目标子行业特征和所述当前类簇,确定所述特征与类簇标识的对应关系;其中,所述特征与类簇标识的对应关系,与所述各个类簇对应;所述目标子行业特征和所述当前类簇之间的对应关系,为所述特征与类簇标识的对应关系中的一个子对应关系。
在本申请实施例中,所述标识确定模块4553,还用于将当前子行业标签特征,与所述类簇集合中的每个类簇中心特征进行比较,得到当前距离集合,所述当前子行业标签特征为所述行业标签特征中的任一子行业标签特征;将所述类簇集合中,与所述当前距离集合中的最小当前距离所对应的类簇标识,确定为所述当前子行业标签特征对应的当前类簇标识,从而得到与所述行业标签特征对应的各个当前类簇标识;基于所述各个当前类簇标识,得到所述目标类簇标识。
在本申请实施例中,所述标识确定模块4553,还用于对所述各个当前类簇标识进行整合,得到各个子目标类簇标识以及所述各个子目标类簇标识对应的各个出现频次,所述各个子目标类簇标识与所述各个出现频次一一对应;依据所述各个出现频次,对所述各个子目标类簇标识进行排序;从排序后的各个子目标类簇标识中,选出预设数量个出现频次最大的子目标类簇标识;将所述预设数量个出现频次最大的子目标类簇标识,组合为所述目标类簇标识。
在本申请实施例中,所述特征确定模块4554,还用于从所述特征与类簇标识的对应关系中,获取与当前子目标类簇标识对应的当前子目标行业特征,从而得到与所述目标类簇标识对应的各个当前子目标行业特征,所述当前子目标类簇标识为所述目标类簇标识中的任一子目标类簇标识;将所述各个当前子目标行业特征,确定为所述目标行业特征。
在本申请实施例中,所述特征提取模块4556,还用于利用所述初始特征提取模型,获取目标样本中的目标标签对应的目标标签特征,所述目标样本为所述负样本或,所述标签与语料的对应关系;利用所述初始特征提取模型,获取所述目标样本中的目标语料对应的目标语料特征;获取所述目标标签特征和所述目标语料特征的相关性信息;依据所述相关性信息和所述目标样本对应的预设标注数据之间的差异,对所述初始特征提取模型进行迭代训练,当满足预设截止条件时,将迭代训练后的初始特征提取模型确定为所述特征提取模型。
下面继续说明本申请实施例提供的第二任务执行装置655的实施为软件模块的示例性结构,在一些实施例中,如图3b所示,存储在第二存储器650的第二任务执行装置655中的软件模块可以包括:
信息获取模块6551,用于获取目标用户的目标操作数据、以及目标行业中待推荐信息所对应的种子操作数据,所述种子操作数据为所述待推荐信息的种子用户的操作数据;
相似性模块6552,用于基于第一任务执行装置455获得的训练后的预设模型,预测所述目标操作数据和所述种子操作数据之间的目标相似性;
结果确定模块6553,用于比较所述目标相似性和相似性阈值,以确定所述待推荐信息的推荐结果;
任务执行模块6554,用于基于所述推荐结果,对所述待推荐信息执行推荐处理,以完成预测任务的执行。
本申请实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。
本申请实施例提供一种存储有可执行指令的计算机可读存储介质,其中存储有可执行指令,当可执行指令被第一处理器执行时,将引起第一处理器执行本申请实施例提供的应用于第一任务执行设备的任务执行方法,例如,如图4示出的任务执行方法;或者,当可执行指令被第二处理器执行时,将引起第二处理器执行本申请实施例提供的应用于第二任务执行设备的任务执行方法,例如,如图9示出的任务执行方法。
在一些实施例中,计算机可读存储介质可以是FRAM、ROM、PROM、EPROM、EEPROM、闪存、磁表面存储器、光盘、或CD-ROM等存储器;也可以是包括上述存储器之一或任意组合的各种设备。
在一些实施例中,可执行指令可以采用程序、软件、软件模块、脚本或代码的形式,按任意形式的编程语言(包括编译或解释语言,或者声明性或过程性语言)来编写,并且其可按任意形式部署,包括被部署为独立的程序或者被部署为模块、组件、子例程或者适合在计算环境中使用的其它单元。
作为示例,可执行指令可以但不一定对应于文件系统中的文件,可以可被存储在保存其它程序或数据的文件的一部分,例如,存储在超文本标记语言(HTML,Hyper TextMarkup Language)文档中的一个或多个脚本中,存储在专用于所讨论的程序的单个文件中,或者,存储在多个协同文件(例如,存储一个或多个模块、子程序或代码部分的文件)中。
作为示例,可执行指令可被部署为在一个计算设备上执行,或者在位于一个地点的多个计算设备上执行,又或者,在分布在多个地点且通过通信网络互连的多个计算设备上执行。
综上所述,通过本申请实施例,由于预测模型的训练过程中所采用的目标行业特征,是通过目标行业标签从各个行业特征对应的各个类簇信息构成的集合中确定目标类簇标识,再通过目标类簇标识对每个子行业特征对应的类簇标识进行过滤而获得的;也就是说,通过调用类簇集合并过滤特征与类簇标识的对应关系,就能够得到目标行业的目标行业特征,因此,获取指定行业特征时,简化了处理流程,减少了人工参与度;从而目标行业特征的获取效率较高,进而依据目标行业特征训练预测模型时,预测模型训练的效率较高。另外,由于所获得的目标行业特征是具有高覆盖度和高区分度的,因此,能够提高预测模型训练的准确度。
以上所述,仅为本申请的实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和范围之内所作的任何修改、等同替换和改进等,均包含在本申请的保护范围之内。

Claims (15)

1.一种任务执行方法,其特征在于,包括:
获取目标行业的目标行业标签,所述目标行业标签为所述目标行业的表征信息;
提取所述目标行业标签的特征,得到行业标签特征;
依据类簇集合,确定与所述行业标签特征对应的目标类簇标识,所述类簇集合为多个行业的行业特征对应的各个类簇信息构成的集合,所述类簇集合是依据语料数据对所述多个行业的行为数据进行聚类得到的;
从特征与类簇标识的对应关系中,确定与所述目标类簇标识对应的目标行业特征,所述特征与类簇标识的对应关系为所述行业特征中的每个子行业特征与所述预设类簇集合中的一个类簇标识的对应关系构成的集合;
其中,所述特征与类簇标识的对应关系是依据所述语料数据对所述多个行业的行为数据进行聚类得到的;
利用所述目标行业特征,训练所述目标行业对应的预测模型,以利用训练后的预测模型执行预测任务。
2.根据权利要求1所述的方法,其特征在于,所述提取所述目标行业标签的特征,得到行业标签特征之前,所述方法还包括:
获取所述语料数据;
利用各个行业标签,对所述语料数据进行分类,得到标签与语料的对应关系;
将所述标签与语料的对应关系中的标签和语料进行交错组合,得到负样本;
利用所述负样本,以及所述标签与语料的对应关系,训练初始特征提取模型,得到特征提取模型;
所述提取所述目标行业标签的特征,得到行业标签特征,包括:
利用所述特征提取模型,提取所述目标行业标签的特征,得到所述行业标签特征。
3.根据权利要求1所述的方法,其特征在于,所述依据类簇集合,确定与所述行业标签特征对应的目标类簇标识之前,所述方法还包括:
获取行业操作数据,所述行业操作数据为多个行业的行为数据;
从所述行业操作数据中提取文本信息,得到行业关键文本;
提取所述行业关键文本的特征,得到所述行业特征;
依据所述多个行业对应的行业数量,对所述行业特征进行聚类,得到所述类簇集合,以及所述特征与类簇标识的对应关系。
4.根据权利要求3所述的方法,其特征在于,所述依据所述多个行业对应的行业数量,对所述行业特征进行聚类,得到所述类簇集合,以及所述特征与类簇标识的对应关系,包括:
依据所述多个行业对应的所述行业数量,确定类簇数量,所述类簇数量大于所述行业数量;
依据所述类簇数量,对所述行业特征进行聚类,得到分别包括类簇标识、类簇中心特征和类簇特征的各个类簇;
将所述各个类簇中分别对应的类簇标识和类簇中心特征,构成所述类簇集合,所述各个类簇信息中的每个类簇信息包含类簇标识和类簇中心特征;
基于所述各个类簇中分别对应的类簇标识和类簇特征,确定所述特征与类簇标识的对应关系。
5.根据权利要求4所述的方法,其特征在于,所述基于所述各个类簇中分别对应的类簇标识和类簇特征,确定所述特征与类簇标识的对应关系,包括:
从所述行业特征中,获取与当前类簇的类簇特征中的每个子类簇特征匹配的目标子行业特征,所述当前类簇为所述各个类簇中的任一类簇;
基于所述目标子行业特征和所述当前类簇,确定所述特征与类簇标识的对应关系;
其中,所述特征与类簇标识的对应关系,与所述各个类簇对应;所述目标子行业特征和所述当前类簇之间的对应关系,为所述特征与类簇标识的对应关系中的一个子对应关系。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述依据类簇集合,确定与所述行业标签特征对应的目标类簇标识,包括:
将当前子行业标签特征,与所述类簇集合中的每个类簇中心特征进行比较,得到当前距离集合,所述当前子行业标签特征为所述行业标签特征中的任一子行业标签特征;
将所述类簇集合中,与所述当前距离集合中的最小当前距离所对应的类簇标识,确定为所述当前子行业标签特征对应的当前类簇标识,从而得到与所述行业标签特征对应的各个当前类簇标识;
基于所述各个当前类簇标识,得到所述目标类簇标识。
7.根据权利要求6所述的方法,其特征在于,所述基于所述各个当前类簇标识,得到所述目标类簇标识,包括:
对所述各个当前类簇标识进行整合,得到各个子目标类簇标识以及所述各个子目标类簇标识对应的各个出现频次,所述各个子目标类簇标识与所述各个出现频次一一对应;
依据所述各个出现频次,对所述各个子目标类簇标识进行排序;
从排序后的各个子目标类簇标识中,选出预设数量个出现频次最大的子目标类簇标识;
将所述预设数量个出现频次最大的子目标类簇标识,组合为所述目标类簇标识。
8.根据权利要求1至5任一项所述的方法,其特征在于,所述从特征与类簇标识的对应关系中,确定与所述目标类簇标识对应的目标行业特征,包括:
从所述特征与类簇标识的对应关系中,获取与当前子目标类簇标识对应的当前子目标行业特征,从而得到与所述目标类簇标识对应的各个当前子目标行业特征,所述当前子目标类簇标识为所述目标类簇标识中的任一子目标类簇标识;
将所述各个当前子目标行业特征,确定为所述目标行业特征。
9.根据权利要求2至5任一项所述的方法,其特征在于,所述利用所述负样本,以及所述标签与语料的对应关系,训练初始特征提取模型,得到特征提取模型,包括:
利用所述初始特征提取模型,获取目标样本中的目标标签对应的目标标签特征,所述目标样本为所述负样本或,所述标签与语料的对应关系;
利用所述初始特征提取模型,获取所述目标样本中的目标语料对应的目标语料特征;
获取所述目标标签特征和所述目标语料特征的相关性信息;
依据所述相关性信息和所述目标样本对应的预设标注数据之间的差异,对所述初始特征提取模型进行迭代训练,当满足预设截止条件时,将迭代训练后的初始特征提取模型确定为所述特征提取模型。
10.一种任务执行方法,其特征在于,包括:
获取目标用户的目标操作数据、以及目标行业中待推荐信息所对应的种子操作数据,所述种子操作数据为所述待推荐信息的种子用户的操作数据;
基于权利要求1至9任一项所述的训练后的预测模型,预测所述目标操作数据和所述种子操作数据之间的目标相似性;
比较所述目标相似性和相似性阈值,以确定所述待推荐信息的推荐结果;
基于所述推荐结果,对所述待推荐信息执行推荐处理,以完成预测任务的执行。
11.一种第一任务执行装置,其特征在于,包括:
标签获取模块,用于获取目标行业的目标行业标签,所述目标行业标签为所述目标行业的表征信息;
特征提取模块,用于提取所述目标行业标签的特征,得到行业标签特征;
标识确定模块,用于依据类簇集合,确定与所述行业标签特征对应的目标类簇标识,所述类簇集合为多个行业的行业特征对应的各个类簇信息构成的集合,所述类簇集合是依据语料数据对多个行业的行为数据进行聚类得到的;
特征确定模块,用于从特征与类簇标识的对应关系中,确定与所述目标类簇标识对应的目标行业特征,所述特征与类簇标识的对应关系为所述行业特征中的每个子行业特征与所述类簇集合中的一个类簇标识的对应关系构成的集合;其中,所述特征与类簇标识的对应关系是依据所述语料数据对所述多个行业的行为数据进行聚类得到的;
模型训练模块,用于利用所述目标行业特征,训练所述目标行业对应的预测模型,以利用训练后的预测模型执行预测任务。
12.一种第二任务执行装置,其特征在于,包括:
信息获取模块,用于获取目标用户的目标操作数据、以及目标行业中待推荐信息所对应的种子操作数据,所述种子操作数据为所述待推荐信息的种子用户的操作数据;
相似性模块,用于基于权利要求1至9任一项所述的训练后的预测模型,预测所述目标操作数据和所述种子操作数据之间的目标相似性;
结果确定模块,用于比较所述目标相似性和相似性阈值,以确定所述待推荐信息的推荐结果;
任务执行模块,用于基于所述推荐结果,对所述待推荐信息执行推荐处理,以完成预测任务的执行。
13.一种第一任务执行设备,其特征在于,包括:
第一存储器,用于存储可执行指令;
第一处理器,用于执行所述第一存储器中存储的可执行指令时,实现权利要求1至9任一项所述的方法。
14.一种第二任务执行设备,其特征在于,包括:
第二存储器,用于存储可执行指令;
第二处理器,用于执行所述第二存储器中存储的可执行指令时,实现权利要求10所述的方法。
15.一种计算机可读存储介质,其特征在于,存储有可执行指令,用于被第一处理器执行时,实现权利要求1至9任一项所述的方法;或者,用于被第二处理器执行时,实现权利要求10所述的方法。
CN202011043552.2A 2020-09-28 2020-09-28 一种任务执行方法、装置、设备及计算机可读存储介质 Pending CN112148952A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011043552.2A CN112148952A (zh) 2020-09-28 2020-09-28 一种任务执行方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011043552.2A CN112148952A (zh) 2020-09-28 2020-09-28 一种任务执行方法、装置、设备及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN112148952A true CN112148952A (zh) 2020-12-29

Family

ID=73895858

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011043552.2A Pending CN112148952A (zh) 2020-09-28 2020-09-28 一种任务执行方法、装置、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN112148952A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255355A (zh) * 2021-06-08 2021-08-13 北京明略软件系统有限公司 文本信息中的实体识别方法、装置、电子设备和存储介质
CN115563289A (zh) * 2022-12-06 2023-01-03 中信证券股份有限公司 行业分类标签生成方法、装置、电子设备和可读介质
CN116663938A (zh) * 2023-07-28 2023-08-29 珠海大横琴泛旅游发展有限公司 基于企业数据中台系统的信息化管理方法及其相关装置

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113255355A (zh) * 2021-06-08 2021-08-13 北京明略软件系统有限公司 文本信息中的实体识别方法、装置、电子设备和存储介质
CN115563289A (zh) * 2022-12-06 2023-01-03 中信证券股份有限公司 行业分类标签生成方法、装置、电子设备和可读介质
CN115563289B (zh) * 2022-12-06 2023-03-07 中信证券股份有限公司 行业分类标签生成方法、装置、电子设备和可读介质
CN116663938A (zh) * 2023-07-28 2023-08-29 珠海大横琴泛旅游发展有限公司 基于企业数据中台系统的信息化管理方法及其相关装置
CN116663938B (zh) * 2023-07-28 2023-12-12 珠海大横琴泛旅游发展有限公司 基于企业数据中台系统的信息化管理方法及其相关装置

Similar Documents

Publication Publication Date Title
CN108021929B (zh) 基于大数据的移动端电商用户画像建立与分析方法及系统
CN112632385B (zh) 课程推荐方法、装置、计算机设备及介质
CN111444428B (zh) 基于人工智能的信息推荐方法、装置、电子设备及存储介质
US11341170B2 (en) Automated extraction, inference and normalization of structured attributes for product data
CN110569377B (zh) 一种媒体文件的处理方法和装置
CN108874992B (zh) 舆情分析方法、系统、计算机设备和存储介质
JP6894534B2 (ja) 情報処理方法及び端末、コンピュータ記憶媒体
CN108346075B (zh) 信息推荐方法和装置
CN112148952A (zh) 一种任务执行方法、装置、设备及计算机可读存储介质
CN114238573B (zh) 基于文本对抗样例的信息推送方法及装置
CN110765301B (zh) 图片处理方法、装置、设备及存储介质
CN110909222A (zh) 基于聚类的用户画像建立方法、装置、介质及电子设备
CN111666766A (zh) 数据处理方法、装置和设备
CN108959550B (zh) 用户关注点挖掘方法、装置、设备及计算机可读介质
CN111191133A (zh) 业务搜索处理方法、装置及设备
CN110968664A (zh) 一种文书检索方法、装置、设备及介质
CN114511085A (zh) 实体属性值的识别方法、装置、设备、介质及程序产品
CN116823410B (zh) 数据处理方法、对象处理方法、推荐方法及计算设备
CN111523315A (zh) 数据处理方法、文本识别方法、装置及计算机设备
CN117420998A (zh) 一种客户端ui交互组件生成方法、装置、终端及介质
CN111460257A (zh) 专题生成方法、装置、电子设备和存储介质
CN116204709A (zh) 一种数据处理方法及相关装置
CN112632275B (zh) 基于个人文本信息的人群聚类数据处理方法、装置及设备
CN111475721A (zh) 信息推送方法、装置、设备及存储介质
CN114298118B (zh) 一种基于深度学习的数据处理方法、相关设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination