CN112036486A - 训练标签生成模型的方法、装置、设备及其存储介质 - Google Patents

训练标签生成模型的方法、装置、设备及其存储介质 Download PDF

Info

Publication number
CN112036486A
CN112036486A CN202010899421.8A CN202010899421A CN112036486A CN 112036486 A CN112036486 A CN 112036486A CN 202010899421 A CN202010899421 A CN 202010899421A CN 112036486 A CN112036486 A CN 112036486A
Authority
CN
China
Prior art keywords
application
different users
lists
list
vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010899421.8A
Other languages
English (en)
Other versions
CN112036486B (zh
Inventor
贾壮
李原
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Baidu Netcom Science and Technology Co Ltd
Original Assignee
Beijing Baidu Netcom Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Baidu Netcom Science and Technology Co Ltd filed Critical Beijing Baidu Netcom Science and Technology Co Ltd
Priority to CN202010899421.8A priority Critical patent/CN112036486B/zh
Publication of CN112036486A publication Critical patent/CN112036486A/zh
Application granted granted Critical
Publication of CN112036486B publication Critical patent/CN112036486B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本公开的实施例公开了训练标签生成模型的方法、装置、设备及其存储介质,涉及人工智能技术领域和深度学习技术领域。具体实现方案为:获取不同用户的应用列表和不同用户的应用列表的业务标签;采用预先生成的应用嵌入向量,对不同用户的应用列表中的各个应用程序进行向量化,得到不同用户的应用列表中的各个应用程序的应用特征向量,以及基于不同用户的应用列表中的各个应用程序的应用特征向量,得到不同用户的应用列表的列表特征向量;将不同用户的应用列表的列表特征向量和不同用户的应用列表的业务标签分别作为标签生成模型的输入和期望输出,训练机器学习模型,得到标签生成模型。本实现方式能够准确地确定应用列表的业务标签。

Description

训练标签生成模型的方法、装置、设备及其存储介质
技术领域
本公开涉及计算机技术领域,具体涉及人工智能技术和深度学习技术领域,尤其涉及训练标签生成模型的方法、装置、设备及其存储介质。
背景技术
随着互联网的发展,应用程序(Application,APP)的种类越来越多样化,应用程序不仅向用户提供信息和简单的服务,还可以从各方面影响用户的生活、经济甚至健康安全。所以,通过模型确定应用程序的业务标签变得至关重要。
目前,可以特征化用户移动端上已安装的应用程序所组成的应用列表,并基于特征化后的应用列表训练标签生成模型,以通过标签生成模型实现对应用程序的业务标签的确定。其中,特征化后的应用列表包括:(1)将应用列表中已安装的应用程序和没有安装的应用程序分别特征化为1和特征化为0,得到高维稀疏特征向量,然后基于高维稀疏特征向量进行模型训练,得到标签生成模型。(2)按照预先设定的规则或应用描述对应用列表中的应用程序进行聚类和统计分析,得到应用列表中每种相同应用类别的计数向量,并基于计数向量进行模型训练,得到标签生成模型。
发明内容
提供了一种训练标签生成模型的方法、装置、设备及其存储介质。
根据第一方面,提供了一种训练标签生成模型的方法,该训练标签生成模型的方法可以包括:获取不同用户的应用列表和不同用户的应用列表的业务标签;采用预先生成的应用嵌入向量,对不同用户的应用列表中的各个应用程序进行向量化,得到不同用户的应用列表中的各个应用程序的应用特征向量,以及基于不同用户的应用列表中的各个应用程序的应用特征向量,得到不同用户的应用列表的列表特征向量;其中,应用嵌入向量为:采用图嵌入算法所计算的根据不同用户的应用列表中的应用程序所构建的应用关系网络图中的各个节点的向量;将不同用户的应用列表的列表特征向量分别作为标签生成模型的输入、将对应不同用户的应用列表的业务标签分别作为标签生成模型对应输入的期望输出,训练机器学习模型,得到标签生成模型。
根据第二方面,提供了一种确定业务标签的方法,该确定业务标签的方法可以包括:获取目标用户的目标应用列表;采用上述的预先生成的应用嵌入向量,对目标应用列表中的各个应用程序进行向量化,得到不同用户的应用列表中的各个应用程序的应用特征向量,以及基于不同用户的应用列表中的各个应用程序的应用特征向量,得到目标应用列表的列表特征向量;将目标应用列表的列表特征向量,输入上述的标签生成模型,得到对应目标应用列表的业务标签。
根据第三方面,提供了一种训练标签生成模型的装置,该训练标签生成模型的装置可以包括:数据获取模块,被配置为获取不同用户的应用列表和不同用户的应用列表的业务标签;向量化模块,被配置为采用预先生成的应用嵌入向量,对不同用户的应用列表中的各个应用程序进行向量化,得到不同用户的应用列表中的各个应用程序的应用特征向量,以及基于不同用户的应用列表中的各个应用程序的应用特征向量,得到不同用户的应用列表的列表特征向量;其中,应用嵌入向量为:采用图嵌入算法所计算的根据不同用户的应用列表中的应用程序所构建的应用关系网络图中的各个节点的向量;模型训练模块,被配置为将不同用户的应用列表的列表特征向量分别作为标签生成模型的输入、将对应不同用户的应用列表的业务标签分别作为标签生成模型对应输入的期望输出,训练机器学习模型,得到标签生成模型。
根据第四方面,提供了一种确定业务标签的方法,该确定业务标签的方法可以包括:列表获取模块,被配置为获取目标用户的目标应用列表;向量化模块,被配置为采用上述的预先生成的应用嵌入向量,对目标应用列表中的各个应用程序进行向量化,得到不同用户的应用列表中的各个应用程序的应用特征向量,以及基于不同用户的应用列表中的各个应用程序的应用特征向量,得到目标应用列表的列表特征向量;标签确定模块,被配置为将目标应用列表的列表特征向量,输入上述的标签生成模型,得到对应目标应用列表的业务标签。
根据第五方面,提供了一种电子设备,该电子设备可以包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够第一方面或第二方面所述的方法。
根据第六方面,提供了存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行第一方面或第二方面所述的方法。
本公开上述实施例的训练标签生成模型的方法、装置、设备及其存储介质,首先获取不同用户的应用列表和不同用户的应用列表的业务标签;之后,根据预先生成的应用嵌入向量,对不同用户的应用列表中的各个应用程序进行向量化,得到不同用户的应用列表中的各个应用程序的应用特征向量,以及基于不同用户的应用列表中的各个应用程序的应用特征向量,确定不同用户的应用列表的列表特征向量;其中,应用嵌入向量为:采用图嵌入算法所计算的根据不同用户的应用列表中的应用程序所构建的应用关系网络图中的各个节点的向量;最后,将不同用户的应用列表的列表特征向量和业务标签分别作为标签生成模型的输入和期望输出,训练机器学习模型,得到标签生成模型。这一过程中,与背景技术中对应用列表中的各个应用程序进行0-1特征化的处理,或按照预先设定的规则或应用描述对应用列表中的应用程序进行聚类和统计分析的处理导致训练后的模型不能准确地确定应用列表的业务标签;由于采用了图嵌入算法,对以应用列表中的各个应用程序为节点所组成的应用关系网络图进行降维,得到应用嵌入向量,然后基于该应用嵌入向量对应用列表中的各个应用程序进行向量化,得到应用列表的列表特征向量;因此,基于该应用嵌入向量所确定的列表特征向量能够体现该应用列表中的各个应用程序之间的关联关系,使得基于列表特征向量训练得到的标签生成模型能够准确地确定应用列表的业务标签。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本公开的限定。其中:
图1是本公开可以应用于其中的示例性系统架构;
图2是根据本公开的训练标签生成模型的方法的一个实施例的流程图;
图3A~图3B是根据本公开的应用关系网络图的一个实施例的示意图;
图4是根据本公开的训练标签生成模型的方法的另一个实施例的流程图;
图5是根据本公开的训练标签生成模型的方法的又一个实施例的流程图;
图6是根据本公开的确定业务标签的方法的一个实施例的流程图;
图7是根据本公开的训练标签生成模型的装置的一个实施例的示意图;
图8是根据本公开的确定业务标签的装置的一个实施例的示意图;
图9是用来实现本公开实施例的训练标签生成模型的方法或确定业务标签的方法的电子设备的框图。
具体实施方式
以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
图1示出了可以应用本公开的训练标签生成模型的方法或装置或确定业务标签的方法或装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种应用,例如各种客户端应用、多方交互应用、人工智能应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是支持文档处理应用的各种电子设备,包括但不限于智能终端、平板电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103提供支持的后台服务器。后台服务器可以对接收到的请求等数据进行分析等处理,并将处理结果反馈给终端设备。
需要说明的是,服务器可以是硬件,也可以是软件。当服务器为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器为软件时,可以实现成例如用来提供分布式服务的多个软件或软件模块,也可以实现成单个软件或软件模块。在此不做具体限定。
在实践中,本公开实施例所提供的训练标签生成模型的方法或确定业务标签的方法可以由终端设备101、102、103或服务器105执行,训练标签生成模型的装置或确定业务标签的装置也可以设置于终端设备101、102、103或服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
现有技术针对特征化应用列表的技术方案,将应用列表中已安装的应用程序和没有安装的应用程序分别特征化为1和0,得到高维稀疏特征向量;或者,按照预先设定的规则或应用描述对应用列表中的应用程序进行聚类和统计分析,得到应用列表中每种相同应用类别的计数向量;但是,高维稀疏特征向量的维度较高,在后续训练模型时,会耗费电子设备更多的存储资源和计算资源,且高维稀疏特征向量在特征空间中正交,即相近应用程序与不相近应用程序之间相似度相同,进而不能体现应用程序之间的关联关系;虽然,聚类和统计分析的方法可以降低维度;但是预先设定的规则和聚类的簇数都需要依靠经验来设定,且计数向量为某种相同应用类别的个数,在特征空间中不连续;因此,计数向量携带的信息量比较有限,在训练得到标签生成模型后,该标签生成模型确定应用程序的业务标签的准确性较低。
请参考图2,图2示出了根据本公开的训练标签生成模型的方法的一个实施例的流程200。该训练标签生成模型的方法包括以下步骤:
步骤201:获取不同用户的应用列表和不同用户的应用列表的业务标签。
本实施例中,训练标签生成模型的方法的执行主体(例如图1所示的服务器)可以获取不同用户的应用列表和不同用户的应用列表的业务标签。可选的,上述执行主体可以从上述执行主体之外的其它电子设备或者上述执行主体本地,获取不同用户的应用列表和不同用户的应用列表的业务标签。上述应用列表可以包括上述执行主体和/或上述执行主体之外的其它电子设备上已安装的所有的应用程序所组成的列表。上述业务标签可以是人工针对不同用户的应用列表进行标注的,其可以用于表示不同用户的应用列表所属的分类。上述业务标签可以通过与业务标签对应的用户的应用列表来表征与用户画像相关的信息;例如,用户的性格、用户的兴趣爱好、用户的生活、用户的经济、用户的金融风险等级和用户的健康安全。
获取不同用户的应用列表和不同用户的应用列表的业务标签的方法,可以为现有技术或未来发展的技术中获取不同用户的应用列表和不同用户的应用列表的业务标签的方法,本公开对此不做限定。例如,获取不同用户的应用列表和不同用户的应用列表的业务标签的方法可以采用爬虫技术或通过具有抓取数据的小程序来实现。
步骤202:采用预先生成的应用嵌入向量,对不同用户的应用列表中的各个应用程序进行向量化,得到不同用户的应用列表中的各个应用程序的应用特征向量,以及基于不同用户的应用列表中的各个应用程序的应用特征向量,得到不同用户的应用列表的列表特征向量。
本实施例中,上述执行主体可以采用与不同用户的应用列表中的各个应用程序对应的预先生成的应用嵌入向量,对不同用户的应用列表中的各个应用程序分别进行向量化,得到不同用户的应用列表中的各个应用程序的应用特征向量,以及根据不同用户的应用列表中的各个应用程序的应用特征向量,得到不同用户的应用列表的列表特征向量。上述向量化是指将不同用户的应用列表中的各个应用程序转化为其对应的向量。上述应用特征向量是指应用程序对应的向量。上述列表特征向量为应用列表对应的向量。
在这里,应用嵌入向量可以基于以下步骤确定:根据不同用户的应用列表中的应用程序,构建应用关系网络图;采用图嵌入算法,得到不同用户的应用列表中的各个节点的应用嵌入向量。上述的应用关系网络图包括多个节点,每个节点对应不同用户的应用列表中的一个应用程序。上述图嵌入算法,则是用于对应用关系网络图进行降维,以得到应用嵌入向量;基于该应用嵌入向量所确定的列表特征向量能够体现该应用列表中的各个应用程序之间的关联关系,使得基于列表特征向量训练得到的标签生成模型能够准确地确定应用列表的业务标签。
步骤203:将不同用户的应用列表的列表特征向量分别作为标签生成模型的输入、将对应不同用户的应用列表的业务标签分别作为标签生成模型对应输入的期望输出,训练机器学习模型,得到标签生成模型。
本实施例中,上述执行主体在得到不同用户的应用列表的列表特征向量,以及不同用户的应用列表的业务标签后,可以利用不同用户的应用列表的列表特征向量和不同用户的应用列表的业务标签训练机器学习模型,得到标签生成模型。在训练时,执行主体可以将不同用户的应用列表的列表特征向量作为标签生成模型的输入,以及将所输入对应的不同用户的应用列表的业务标签,作为期望输出,得到标签生成模型。上述机器学习模型可以为现有技术或未来发展技术中的概率模型、分类模型或者其他分类器等,例如,机器学习模型可以包括以下任意一项:极端梯度提升树模型(XGBoost)、逻辑斯蒂回归模型(LR)、深度神经网络模型(DNN)、梯度提升决策树模型(Gradient Boosting Decision Tree,GBDT)。
需要说明的是,获取不同用户的应用列表的业务标签步骤的执行顺序可以在步骤201之前执行;或者,与步骤201同时执行;或者,在步骤201之后,步骤202之前执行;其中,在图2中仅以与步骤201同时执行为一个示例。
在本公开的一些可选实现方式中,步骤202的列表特征向量可以基于以下步骤确定:计算不同用户的应用列表中的各个应用程序的应用特征向量的平均值,得到不同用户的应用列表的列表特征向量。
在本实现方式中,可以采用平均值的方式,针对不同用户中的每个用户,将每个用户的应用列表中的各个应用程序的应用特征向量求取平均值,得到不同用户的应用列表的列表特征向量。
在本实现方式中,还可以采用先加权求和,再求平均值的方式,对不同用户的应用列表中的各个应用程序的应用特征向量进行加权求和,然后再对加权求和后的应用特征向量求平均值,得到不同用户的应用列表的列表特征向量。上述加权求和中的加权系数,可以根据不同用户的应用列表中不同类别应用程序的数量来进行调整;例如,用户C(即,不同用户中的某一个用户)的应用列表中安装有A类别应用程序、B类别应用程序和C类别应用程序;其中,A类别应用程序中的应用程序的数量超过B类别应用程序和C类别应用程序中的应用程序的数量,可以给A类别应用程序设置一个较高的加权系数,该加权系数高于B类别应用程序的加权系数和C类别应用程序的加权系数,以通过A类别应用程序的加权系数来体现用户C更倾向于A类别应用程序;因此,更能准确地体现与用户画像相关的信息。
在本实现方式中,采用求取平均值的方式,对不同用户的应用列表中的各个应用程序的应用特性向量进行计算,得到不同用户的应用列表的列表特征向量;可以实现应用程序维度至用户维度的转换,进而能够基于不同用户的应用列表中所有的应用程序来体现与用户画像相关的信息。
在本公开的一些可选实现方式中,应用关系网络图基于以下步骤确定:将不同用户的应用列表中的应用程序在每一个用户的应用列表中的共现次数进行累计,得到每两个应用程序的共现次数;以不同用户的应用列表中的应用程序为节点,在共现次数大于预设权重阈值的每两个应用程序之间建立边连接,并将边所连接的两个应用程序之间的共现次数作为边的权重,构建应用关系网络图。
在本实现方式中,由于应用关系网络图包括了任意某两个应用程序之间的关联关系(即,共现次数),所以构建的应用关系网络图的结构会比较复杂,考虑到应用的分布以及应用程序连接的分布具有长尾属性,可以基于设置的预设权重阈值预先筛选掉权重小于预设权重阈值的边,进而可以精简应用关系网络图的结构。上述预设权重阈值可以基于应用嵌入向量的精度进行设置;或者,由用户自行设置;或者,根据上述执行体的运行速度和运行内存进行设置;或者,可以根据标签生成模型确定应用列表的业务标签的精准度来进行设置,在此不再赘述。
在本实现方式中,可以以不同用户的应用列表中的每个应用程序为节点,以每两个应用程序在不同用户的应用列表中的共现次数大于预设权重阈值的每两个应用程序之间建立边,以及以每两个应用程序在不同用户的应用列表中的共现次数为边的权重,构建应用关系网络图。上述的共现次数为某两个应用程序(例如,应用程序A和应用程序B),统计应用程序A和应用程序B同时在不同用户的应用列表中每一个应用列表是否安装,如果某一应用列表同时安装了应用程序A和应用程序B,则应用程序A和应用程序B的共线次数加1,直至统计完所有用户(某一预设数量范围的用户,在该预设数据范围内的用户都不是相同用户)的应用列表,得到应用程序A和应用程序B在不同用户的应用列表中累计的共现次数。
在本实现方式中,在生成应用关系网络图的过程中,应用关系网络图中的边的权重表示某两个应用程序的共现次数,因此,通过图嵌入算法对应用关系网络图降维后,得到的应用嵌入向量之间存在语义相似性,即具有共同或者类似属性,该语义相似性可以反映与用户画像相关的信息,例如当前用户的某种兴趣爱好,且具有语义相似性的应用嵌入向量之间距离相对更近,而无语义相似性或相似性低的应用嵌入向量之间的距离相对更远。
在本公开的一些可选实现方式中,应用关系网络图基于以下步骤确定:将不同用户的应用列表中的应用程序在每一个用户的应用列表中的共现次数进行累计,得到每两个应用程序的共现次数;以不同用户的应用列表中的应用程序为节点,在共现次数大于0的每两个应用程序之间建立边连接,并将边所连接的两个应用程序之间的共现次数作为边的权重,构建应用关系网络图。
在本实现方式中,可以以不同用户的应用列表中的每个应用程序为节点,以每两个应用程序在不同用户的应用列表中的共现次数大于0的每两个应用程序之间建立边,以及以每两个应用程序在不同用户的应用列表中的共现次数为边的权重,构建应用关系网络图。上述的共现次数为某两个应用程序(例如,应用程序A和应用程序B),统计应用程序A和应用程序B同时在不同用户的应用列表中每一个应用列表是否安装,如果某一应用列表同时安装了应用程序A和应用程序B,则应用程序A和应用程序B的共线次数加1,直至统计完所有用户(某一预设数量范围的用户,在该预设数据范围内的用户都不是相同用户)的应用列表,得到应用程序A和应用程序B在不同用户的应用列表中累计的共现次数。
在本实现方式中,在生成应用关系网络图的过程中,应用关系网络图中的边的权重表示某两个应用程序的共现次数,因此,通过图嵌入算法对应用关系网络图降维后,得到的应用嵌入向量之间存在语义相似性,即具有共同或者类似属性,该语义相似性可以反映与用户画像相关的信息,例如当前用户的某种兴趣爱好,且具有语义相似性的应用嵌入向量之间距离相对更近,而无语义相似性或相似性低的应用嵌入向量之间的距离相对更远。
在本公开的一些可选实现方式中,该训练标签生成模型的方法还包括:判断边的权重,是否超过预设权重阈值;在边的权重小于预设权重阈值时,删除边。上述预设权重阈值大于0;例如,预设权重阈值为3。
在本实现方式中,在确定应用关系网络图的节点、边,以及边的权重之后,即在基于确定的节点,边,以及边的权重确定应用关系网络图之前,还可以采用设置的预设权重阈值来实现对边的筛选,只将大于预设权重阈值的边保留,然后基于筛选后的边、节点,以及筛选后的边的权重,构建应用关系网络图。
在本实现方式中,通过将小于预设权重阈值的边进行删除,因为边的权重表征某两个应用程序的共现次数,共现次数越大说明用户更倾向于安装该某两个应用程序;因此,该某两个应用程序可以占一个较大的权重来体现与用户画像相关的信息;通过对共现次数小的边进行删除;一方面,能够减少噪声,且提高计算效果;另一方面,能够消除对与用户画像相关的信息影响小的因素,重点体现与用户画像相关的信息最相关的因素,进而能够准确地体现与用户画像相关的信息。
在一个具体的示例中,判断图3A中所有边的权重是否都大于或等于预设权重阈值,其中,“A1与A2之间、A1与A6之间、A1与A4之间、A1与A5之间”的边的权重,“A2与A4之间、A2与A7之间”的边的权重,“A3与A5之间、A3与A6之间、A1与A7之间”的边的权重,“A4与A5之间、A4与A6之间、A4与A7之间”的边的权重,“A5与A6之间”的边的权重均小于预设权重阈值,则对上述边进行删除,如果节点是孤立的(即无相连接的其他节点)也需要删除,得到图3B中的应用关系网络图。
在本公开的一些可选实现方式中,获取不同用户的应用列表,包括:获取不同用户的用户标识;获取预设时间点之前不同用户的用户标识对应的应用列表。
在本实现方式中,可以根据不同用户的用户标识,获取预设时间点之前不同用户的用户标识对应的应用列表。上述预设时间点可以为当前时刻对应的时间点。
在一个具体的示例中,以用户k为例,可以根据用户标识userid_k与时间戳timestamp,获取该用户k在对应时间戳时所安装的应用列表。userid_k用来匹配用户k,时间戳用来限定时间;在匹配到用户k之后,拉取用户k在该时间戳之前的最近一次的应用列表留存日志,应用列表留存日志的格式可以为:userid_k,app_k1,app_k2,...,app_kd,其中,userid_k为第k个用户的userid,app_k1到app_kd为用户k在timestamp之前且最新安装的应用列表,该应用列表共有d个app。
根据不同用户的用户标识,获取预设时间点之前不同用户的用户标识对应的应用列表的方法,可以为现有技术或未来发展的技术中根据不同用户的用户标识,获取预设时间点之前不同用户的用户标识对应的应用列表的方法,本公开对此不做限定。例如,根据不同用户的用户标识,获取预设时间点之前不同用户的用户标识对应的应用列表的方法可以采用爬虫技术或通过具有抓取数据的小程序来实现。
在本实现方式中,通过用户标识能够准确地定位到用户,然后再基于时间戳,可以获取该用户在该时间戳之前的最近一次的应用列表,确定该用户当前安装的应用程序;进而能够从时效性上,更有效地,确定与用户画像相关的信息最相关的应用程序;因为,与用户画像相关的信息会随着时间发生变化,因此,针对时间比较久远之前安装的应用程序,并不难准确地体现与当前用户画像相关的信息;因此,基于该时间戳,可以获取时间戳之前最近一次安装的应用程序,进而能够基于该最近一次安装的应用程序,准确地体现与当前用户画像相关的信息。
在本公开的一些可选实现方式中,应用嵌入向量基于以下步骤确定:采用网络嵌入模型(DeepWalk)、PyTorch大型图嵌入模型(PyTorchBigGraph)、大规模信息网络嵌入模型(Large-scale Information Network Embedding,LTNE)或图节点向量嵌入模型(Node2vec),对应用关系网络图中的各个节点进行嵌入,得到各个节点的应用嵌入向量。
在本实现方式中,可以采用DeepWalk、PytorchBigGraph、LTNE或Node2vec中的任意一种,对应用关系网络图中的各个节点进行嵌入,进而得到应用关系网络图中的各个节点的应用嵌入向量。
在本实现方式中,基于上述图嵌入算法,实现对应用关系网络图的降维,以得到的应用嵌入向量;且基于该应用嵌入向量所确定的列表特征向量能够体现该应用列表中的各个应用程序之间的关联关系,使得基于列表特征向量训练得到的标签生成模型能够准确地确定应用列表的业务标签。
本公开的上述实施例提供的训练标签生成模型的方法,通过采用图嵌入算法,对以应用列表中的各个应用程序为节点所组成的应用关系网络图进行降维,得到应用嵌入向量,然后基于该应用嵌入向量对应用列表中的各个应用程序进行向量化,得到该应用列表的列表特征向量;因此,基于该应用嵌入向量所确定的列表特征向量能够体现各个应用程序之间的关联关系,使得基于列表特征向量训练得到的标签生成模型能够准确地确定应用列表的业务标签。
请参考图4,图4示出了根据本公开的训练标签生成模型的方法的另一个实施例的流程400。该训练标签生成模型的方法包括以下步骤:
步骤401:获取不同用户的应用列表和不同用户的应用列表的业务标签。
本实施例的步骤401与前述实施例的步骤201一致,步骤401的具体实现方式可以分别参考前述实施例中步骤201的描述,此处不再赘述。
步骤402:采用预先生成的应用嵌入向量,对不同用户的应用列表中的各个应用程序进行向量化,得到不同用户的应用列表中的各个应用程序的应用特征向量。
本实施例中,上述执行主体可以采用与不同用户的应用列表中的各个应用程序对应的预先生成的应用嵌入向量,对不同用户的应用列表中的各个应用程序分别进行向量化,得到不同用户的应用列表中的各个应用程序的应用特征向量。
在这里,应用嵌入向量可以基于以下步骤确定:根据不同用户的应用列表中的应用程序,构建应用关系网络图;采用图嵌入算法,得到不同用户的应用列表中的各个节点的应用嵌入向量。上述的应用关系网络图包括多个节点,每个节点对应不同用户的应用列表中的一个应用程序。上述图嵌入算法,则是用于对应用关系网络图进行降维,以得到的应用嵌入向量;且基于该应用嵌入向量所确定的列表特征向量能够体现该应用列表中的各个应用程序之间的关联关系,使得基于列表特征向量训练得到的标签生成模型能够准确地确定应用列表的业务标签。
步骤403:采用预先生成的应用类别词典,对不同用户的应用列表中的应用程序进行分类,得到不同用户的应用列表中的不同类别的应用程序;计算不同类别的应用程序中的每种类别的应用程序中的各个应用程序的应用特征向量的平均值,得到每种类别的应用程序的向量;拼接每种类别的应用程序的向量,得到不同用户的应用列表的列表特征向量。
在实施例中,基于上述执行主体可以采用应用类别词典,对不同用户的应用列表中的应用程序进行分类,得到不同用户的应用列表中的不同类别的应用程序;之后,计算不同类别的应用程序中的每种类别的应用程序中的各个应用程序的应用特征向量的平均值,得到每种类别的应用程序的向量;之后,拼接每种类别的应用程序的向量,得到不同用户的应用列表的列表特征向量。上述不同类别的应用程序,例如,不同类别的应用程序为A类别和B类别。上述每种类别的应用程序中的各个应用程序包括,以A类别为例,A类别中的“app1”和“app2”。
步骤404:将不同用户的应用列表的列表特征向量分别作为标签生成模型的输入、将对应不同用户的应用列表的业务标签分别作为标签生成模型对应输入的期望输出,训练机器学习模型,得到标签生成模型。
本实施例的步骤404与前述实施例的步骤203一致,步骤404的具体实现方式可以分别参考前述实施例中步骤203的描述,此处不再赘述。
本公开上述实施例的训练标签生成模型的方法,采用图嵌入算法,对以应用列表中的各个应用程序为节点所组成的应用关系网络图进行降维,得到应用嵌入向量;之后,基于该应用嵌入向量对应用列表中的各个应用程序进行嵌入,得到应用列表中的各个应用程序的应用特征向量;之后,将应用列表中的各个应用程序进行分类,得到不同类别的应用程序;之后,针对不同类别中的各个应用程序的应用特征向量,计算不同类别对应的向量;之后,拼接不同类别对应的向量,得到应用列表的列表特征向量;因此,基于该应用嵌入向量,以及应用程序的类别所确定的列表特征向量能够体现该应用列表中的各个应用程序之间的关联关系,使得基于列表特征向量训练得到的标签生成模型能够准确地确定应用列表的业务标签。
在本公开的一些可选实现方式中,应用类别词典通过以下步骤确定:以不同用户的应用列表中的应用程序所构建的应用关系网络图中的各个节点和应用关系网络图中的各个节点的向量,作为不同用户的应用列表中的各个应用程序对应的特征向量字典的键值对,构建不同用户的应用列表中的各个应用程序对应的特征向量字典;对不同用户的应用列表中的各个应用程序对应的特征向量字典中的应用程序进行类别划分,得到不同用户的应用列表中的所有应用类别;以不同用户的应用列表中的各个应用程序和不同用户的应用列表中的各个应用程序的类别属于所有应用类别中的应用类别,作为不同用户的应用列表中的各个应用程序对应的应用类别字典的键值对,构建不同用户的应用列表中的各个应用程序对应的应用类别词典。
在本实现方式中,可以以不同用户的应用列表中的应用程序所构建的应用关系网络图中的各个节点和应用关系网络图中的各个节点的向量,作为不同用户的应用列表中的各个应用程序对应的特征向量字典的键值对,构建不同用户的应用列表中的各个应用程序对应的特征向量字典。
在一个具体的示例中,用户A的应用列表中包括“app1、app2”;用户B的应用列表中包括“app2、app3、app4”。以“app1、app2、app3和app4”和“app1、app2、app3和app4”的应用嵌入向量,分别作为“app1、app2、app3和app4”对应的特征向量字典的键值对。
在本实现方式中,可以对不同用户的应用列表中的各个应用程序对应的特征向量字典中的应用程序进行类别划分,得到不同用户的应用列表中的所有应用类别。上述所有应用类别为不同用户的应用列表中的应用程序的类别总数。
在一个具体的示例中,以用户A的应用列表中包括“app1、app2”;用户B的应用列表中包括“app2、app3、app4”。其中,“app1和app3属于同一类别的应用程序”,“app2和app4属于同一类别的应用程序”。那么,得到用户A的应用列表和用户B的应用列表中的所有应用类别,即2种应用类别。
在本实现方式中,可以不同用户的应用列表中的各个应用程序和不同用户的应用列表中的各个应用程序的类别属于所有应用类别中的应用类别,作为不同用户的应用列表中的各个应用程序对应的应用类别字典的键值对,构建不同用户的应用列表中的各个应用程序对应的应用类别词典。
在一个具体的示例中,以用户A的应用列表中包括“app1、app2”;用户B的应用列表中包括“app2、app3、app4”。其中,用户A的应用列表和用户B的应用列表中的2种应用类别(如M类应用类别和N类应用类别)。如果,“app1”对应M类应用类别,则可以根据“app1”和“app1”对应M类应用类别,构建“app1”对应的应用类别字典。
在本实现方式中,可以通过构建应用类别字典的方式预先确定各个应用程序的类别,以便于后续基于该应用类别字典对获取的应用列表中的各个应用程序的类别的准确的划分。
在本公开的一些可选实现方式中,对不同用户的应用列表中的各个应用程序对应的特征向量字典中的应用程序进行类别划分,得到不同用户的应用列表中的所有应用类别,包括:根据不同用户的应用列表中的各个应用程序的类别标签,确定不同用户的应用列表中的所有应用类别。
在本实现方式中,可以根据不同用户的应用列表中的各个应用程序的类别标签,确定不同用户的应用列表中的所有应用类别。
在一个具体的示例中,在图3A中,用户u1的应用列表中包括“A1(即app1)、A2、A3”;用户u2的应用列表中包括“A2、A3、A4、A7”;用户u3的应用列表中包括“A1、A3、A4、A5、A6”;用户u4的应用列表中包括“A5”;用户u5的应用列表中包括“A1、A5”。其中,“A1和A3自带的类别标签相同”,“A2和A4自带的类别标签相同”,“A5、A6和A7自带的类别标签相同”;那么,对用户u1至用户u5的用户列表中的每个app对应的特征向量字典中的app进行类别划分,得到3种应用类别。
在本实现方式中,可以通过应用程序自带的类别标签,实现对不同用户的应用列表中的各个应用程序的类别的准确划分。
在本公开的一些可选实现方式中,不同用户的应用列表中的各个应用程序对应的特征向量字典中的应用程序进行类别划分,得到不同用户的应用列表中的所有应用类别,包括:对不同用户的应用列表中的各个应用程序的应用嵌入向量进行无监督聚类,得到不同用户的应用列表中的所有应用类别。
在本实现方式中,可以对不同用户的应用列表中的各个应用程序的应用嵌入向量进行无监督聚类,得到不同用户的应用列表中的所有应用类别。上述无监督聚类包括但不限于基于局部密度的LOF和DBSCAN。只要最终能实现得到所有应用类别的目的,都可以纳入本公开的保护范围内。
在一个具体的示例中,在图3A中,用户u1的应用列表中包括“A1(即app1)、A2、A3”;用户u2的应用列表中包括“A2、A3、A4、A7”;用户u3的应用列表中包括“A1、A3、A4、A5、A6”;用户u4的应用列表中包括“A5”;用户u5的应用列表中包括“A1、A5”。其中,“A1和A3对应类簇的标识为1”,“A2和A4对应类簇的标识为2”,“A5、A6和A7对应类簇的标识为3”;那么,对用户u1至用户u5的用户列表中的每个app对应的特征向量字典中的app进行类别划分,得到3种应用类别。
在本实现方式中,可以通过对应用嵌入向量的有监督聚类,实现对不同用户的应用列表中的各个应用程序的类别的准确划分。
本公开的上述实施例提供的训练标签生成模型的方法,通过采用图嵌入算法,对以应用列表中的各个应用程序为节点所组成的应用关系网络图进行降维,得到应用嵌入向量,然后基于该应用嵌入向量对应用列表中的各个应用程序进行向量化,得到各个应用程序的应用特征向量;因此,基于该应用嵌入向量所确定的各个应用程序的应用特征向量能够体现各个应用程序之间的关联关系,使得基于各个应用程序的应用特征向量训练得到的标签生成模型的识别准确率高。
请参考图5,图5示出了根据本公开的确定业务标签的方法的又一个实施例的流程500。该确定业务标签的方法包括以下步骤:
步骤501:获取全量或采样的不同用户的应用列表。
在一个具体的示例中,每个用户的应用列表数据格式为:userid_i,app_i1,app_i2,...,app_id,其中userid_i为第i个用户的userid,app_i1到app_id为用户i安装的应用列表,共有d个安装的app。
步骤502:根据已获取到的不同用户的应用列表,统计每两个应用程序之间的共现关系。所谓共现关系,指的是某两个应用程序被同一个用户安装的情况。
在一个具体的示例中,在不同用户的应用列表中,有a个用户同时安装了“app1”和“app2”,那么,“app1”和“app2”之间的共现次数为a。
步骤503:将所有用户的应用列表中所有的应用程序作为应用关系网络图中的节点;如果某两个应用程序之间的共现次数大于0,则在某两个应用程序之间建立应用关系网络图中的边,以及根据某两个应用程序之间的共现次数确定某两个应用程序之间边的权重。
在一个具体的示例中,如果“app1”和“app2”共现次数a大于0,则在“app1”和“app2”之间建立边;以及将“app1”和“app2”的共现次数作为“app1”和“app2”之间连接边的权重。
步骤504:设置预设权重阈值,该预设权重阈值大于0,将边的权重小于预设权重阈值的边删除,然后根据删除后的边、节点、删除后的边的权重构建应用关系网络图。
在本实现方式中,由于应用关系网络图包括了所有app中的任意某两个app之间的关联关系(即,共现次数),所以构建的应用关系网络图的结构会比较复杂,考虑到app的分布以及app连接的分布具有长尾属性,可以基于设置的预设权重阈值删除权重(共现次数)小于该预设权重阈值的边,使得最终得到的应用关系网络图中的任意某两个app之间都是强相关,进而可以消除偶然误差的影响。
步骤505:将步骤504中得到的应用关系网络图作为输入,采用图嵌入算法,对应用关系网络图中各个节点进行嵌入,得到应用关系网络图中各个节点的应用嵌入向量。
在本实现方式中,应用嵌入向量的格式可以为:app_k:[v_1,v_2,v_3,...,v_dim],其中v_1到v_dim为各个维度的取值,dim为嵌入维度。
步骤506:根据步骤505中的各个应用程序的应用嵌入向量和各个应用程序为特征向量字典的键值对,构建各个应用程序对应的特征向量字典。
在一个具体的例子中,将“app1”和“app1”对应的应用嵌入向量作为“app1”对应的特征向量字典的键值对。
步骤507:基于得到的各个应用程序对应的特征向量字典,对所有用户的应用列表进行特征衍生;首先,对各个应用程序对应的特征向量字典中的应用程序进行分类,确定在不同用户的应用列表中所有应用类别;以及以不同用户的应用列表中的各个应用程序和不同用户的应用列表中的各个应用程序的类别属于所有应用类别中的应用类别,作为不同用户的应用列表中的各个应用程序对应的应用类别字典的键值对,构建不同用户的应用列表中的各个应用程序对应的应用类别词典。
在本实现方式中,可以根据app自带的标签,确定所有应用类别;例如,app自带的标签包括“社交类,游戏类,导航类”标签,通过上述标签,可以确定有3种应用类别。
在本实现方式中,还可以根据步骤505中得到的应用嵌入向量进行无监督聚类,对每个app分配一个类簇的标识,得到所有应用类别。
步骤508:首先,根据不同用户的用户标识userid与时间戳timestamp,获取不同用户在对应时间戳时所安装的应用列表和应用列表对应的业务标签;之后,采用步骤505得到的应用嵌入向量,对不同用户的应用列表中的各个应用程序进行向量化,得到不同用户的应用列表中的各个应用程序的应用特征向量;之后,采用步骤507中得到的应用类别字典,对不同用户的应用列表中的各个应用程序的应用特征向量进行分类,得到不同类别的应用程序;之后,针对每种类别的应用程序,根据该每种类别的应用程序中的应用程序的应用特征向量,计算该每种类别的应用程序的向量;之后,拼接每种类别的应用程序的向量,得到不同用户的应用列表的列表特征向量。
在一个具体的示例中,首先,对用户k的每个app转为对应的向量,记作u{app_k1},u{app_k2},...,u{app_kd}。之后,根据上述步骤中所得到的应用类别字典,对该用户k的所有app进行分类处理,得到C个类别;之后,对于C个类别中的每一个类别,例如D类别,计算D类别中的所有应用程序的应用特征向量的平均值,得到D类别的向量;之后,拼接C类别中的每个类别的向量,得到用户k的应用列表的列表特征向量;其中,用户k的应用列表的列表特征向量的维度为dim*C。
在本实现方式中,userid用来匹配用户,时间戳用来限定时间,拉取在该时间戳之前的最近一次用户的应用列表留存日志,以得到不同用户的应用列表。
在一个具体的示例中,以用户k为例,格式为:userid_k,app_k1,app_k2,...,app_kd,其中userid_k为第k个用户的userid,app_k1到app_kd为该用户在timestamp之前且最新的安装的APP列表,共有安装了d个APP。
步骤509:以上述获得的不同用户的列表特征向量和不同用户的列表特征向量的业务标签,训练标签生成模型。
在本实现方式中,将不同用户的列表特征向量和不同用户的列表特征向量的业务标签分别作为标签生成模型的输入和期望的输出,训练机器学习模型,得到标签生成模型。
在一个具体的示例中,以用户k为例,将u{applist_k}作为用户k的应用列表的列表特征向量,用户k的用户列表的业务标签y作为学习目标,训练标签生成模型。
请参考图6,图6示出了根据本公开的确定业务标签的方法的一个实施例的流程600。该确定业务标签的方法包括以下步骤:
步骤601:获取目标用户的目标应用列表。
本实施例中,确定业务标签的方法的执行主体(例如图1所示的终端设备)可以获取目标用户的目标应用列表。可选的,上述执行主体可以从本地,获取目标用户的目标应用列表。上述目标应用列表为上述执行主体上安装的应该程序所组成的列表。
根据获取目标用户的目标应用列表的方法,可以为现有技术或未来发展的技术中获取目标用户的目标应用列表的方法,本公开对此不做限定。例如,获取目标用户的目标应用列表的方法可以采用爬虫技术或通过具有抓取数据的小程序来实现。
步骤602:采用预先生成的应用嵌入向量,对不同用户的应用列表中的各个应用程序进行向量化,得到不同用户的应用列表中的各个应用程序的应用特征向量,以及基于不同用户的应用列表中的各个应用程序的应用特征向量,得到不同用户的应用列表的列表特征向量。
本实施例中,上述执行主体可以采用预先生成的应用嵌入向量,对目标应用列表中的各个应用程序进行向量化,得到目标应用列表的列表特征向量。
需要说明的是,确定应用嵌入向量的步骤可以参照图2对应的实施例中的描述,在此不再赘述。得到列表特征向量的步骤也可以参照图2对应的实施例中的描述,在此不再赘述。
步骤603:将目标应用列表的列表特征向量,输入上述标签生成模型,得到目标应用列表的业务标签。
在本实施例中,上述执行主体可以标签生成模型,确定目标应用列表的列表特征向量的业务标签。
需要说明的是,确定标签生成模型的步骤可以参照图2、图4和图5对应的实施例中的描述,在此不再赘述。
在本公开的一些可选实现方式中,该确定业务标签的方法还包括:向目标用户推送符合对应目标应用列表的业务标签的应用程序。
在本实现方式中,可以基于目标应用列表的业务标签,向目标用户推送符合目标应用列表的业务标签的应用程序。
在本实现方式中,基于业务标签表征的与目标用户画像相关的信息,来向目标用户推荐与目标用户画像相关的信息匹配的应用程序;例如,目标用户的业务标签表征目标用户安装的学习相关类别的应用程序较多,可以向用户推送学习相关的应用程序;进而能够基于业务标签实现对用户的准确推荐,提高用户体验度。
在本公开的一些可选实现方式中,向目标用户推送符合对应目标应用列表的业务标签的应用程序,包括:响应于接收到目标用户的应用查询请求,获取与应用查询请求相对应的多个应用程序;从多个应用程序中,向目标用户推送符合对应目标应用列表的业务标签的应用程序。
在本实现方式中,在用户主动查询应用程序的情况下,可以基于目标应用列表的业务标签,从与查询请求相对应的多个应用程序中向目标用户推送符合目标应用列表的业务标签的应用程序。
在一个具体的示例中,响应于接收到目标用户的查询“学习”应用程序的请求,获取与查询“学习”应用程序的请求相对应的多个应用程序;在目标用户的目标应用列表的业务标签表征的与用户画像的信息为目标用户当前在学习英语,则可以从与查询“学习”应用程序的请求相对应的多个应用程序中,向目标用户推荐“学习英语”的应用程序。
在本实现方式中,基于业务标签表征的与目标用户画像相关的信息,从与目标用户的应用查询请求相对对应的多个应用程序中,向目标用户推荐与目标用户画像相关的信息匹配的应用程序;进而能够基于业务标签,按照用户的需求实现对用户的准确推荐,提高用户体验度。
本公开的上述实施例提供的确定业务标签的方法,通过标签生成模型,就能准确地确定目标用户的目标业务列表对应的业务标签。
如图7所示,本实施例的训练标签生成模型的装置700可以包括:数据获取模块701、向量化模块702和模型训练模块703。其中,数据获取模块701,被配置为获取不同用户的应用列表和不同用户的应用列表的业务标签;向量化模块702,被配置为采用预先生成的应用嵌入向量,对不同用户的应用列表中的各个应用程序进行向量化,得到不同用户的应用列表中的各个应用程序的应用特征向量,以及基于不同用户的应用列表中的各个应用程序的应用特征向量,得到不同用户的应用列表的列表特征向量;其中,应用嵌入向量为:采用图嵌入算法所计算的根据不同用户的应用列表中的应用程序所构建的应用关系网络图中的各个节点的向量;模型训练模块703,被配置为将不同用户的应用列表的列表特征向量分别作为标签生成模型的输入、将对应不同用户的应用列表的业务标签分别作为标签生成模型对应输入的期望输出,训练机器学习模型,得到标签生成模型。
在本实施例中,训练标签生成模型的装置700中:数据获取模块701、向量化模块702和模型训练模块703的具体处理及其所带来的技术效果可分别参考图2对应实施例中的步骤201-203的相关说明,在此不再赘述。
在本实施例的一些可选的实现方式中,向量化模块702,进一步被配置为:类别分类子单元(图中未示出),被配置为采用预先生成的应用类别词典,对不同用户的应用列表中的应用程序进行分类,得到不同用户的应用列表中的不同类别的应用程序;向量得到单元(图中未示出),被配置为计算不同类别的应用程序中的每种类别的应用程序中的各个应用程序的应用特征向量的平均值,得到每种类别的应用程序的向量;向量拼接单元(图中未示出),被配置为拼接每种类别的应用程序的向量,得到不同用户的应用列表的列表特征向量。
在本实施例的一些可选的实现方式中,训练标签生成模型的装置还可以包括:第一构建模块(图中未示出),被配置为以不同用户的应用列表中的应用程序所构建的应用关系网络图中的各个节点和应用关系网络图中的各个节点的向量,作为不同用户的应用列表中的各个应用程序对应的特征向量字典的键值对,构建不同用户的应用列表中的各个应用程序对应的特征向量字典;类别分类模块(图中未示出),被配置为对不同用户的应用列表中的各个应用程序对应的特征向量字典中的应用程序进行类别划分,得到不同用户的应用列表中的所有应用类别;第二构建模块(图中未示出),被配置为以不同用户的应用列表中的各个应用程序和不同用户的应用列表中的各个应用程序的类别属于所有应用类别中的应用类别,作为不同用户的应用列表中的各个应用程序对应的应用类别字典的键值对,构建不同用户的应用列表中的各个应用程序对应的应用类别词典。
在本实施例的一些可选的实现方式中,该类别分类模块,进一步被配置为:根据不同用户的应用列表中的各个应用程序的类别标签,确定不同用户的应用列表中的所有应用类别。
在本实施例的一些可选的实现方式中,向量化模块702,进一步被配置为:对不同用户的应用列表中的各个应用程序的应用嵌入向量进行无监督聚类,得到不同用户的应用列表中的所有应用类别。
在本实施例的一些可选的实现方式中,该训练标签生成模型的装置还可以包括:次数得到模块(图中未示出),被配置为将不同用户的应用列表中的应用程序在每一个用户的应用列表中的共现次数进行累计,得到每两个应用程序的共现次数;关系构建模块(图中未示出),被配置为以不同用户的应用列表中的应用程序为节点,在共现次数大于预设权重阈值的每两个应用程序之间建立边连接,并将边所连接的两个应用程序之间的共现次数作为边的权重,构建应用关系网络图。
在本实施例的一些可选的实现方式中,数据获取模块701,进一步被配置为:获取不同用户的用户标识;获取预设时间点之前不同用户的用户标识对应的应用列表。
在本实施例的一些可选的实现方式中,该训练标签生成模型的装置还可以包括:向量嵌入模块(图中未示出),被配置为采用网络嵌入模型(DeepWalk)、PyTorch大型图嵌入模型(PytorchBigGraph)、大规模信息网络嵌入模型(LTNE)或图节点向量嵌入模型(Node2vec),对应用关系网络图中的各个节点进行嵌入,得到各个节点的应用嵌入向量。
如图8所示,本实施例的确定业务标签的装置800可以包括:列表获取模块801、向量化模块802和标签确定模块803。其中,列表获取模块801,被配置为获取目标用户的目标应用列表;处理模块802,被配置为采用预先生成的应用嵌入向量,对不同用户的应用列表中的各个应用程序进行向量化,得到不同用户的应用列表中的各个应用程序的应用特征向量,以及基于不同用户的应用列表中的各个应用程序的应用特征向量,得到不同用户的应用列表的列表特征向量;标签确定模块803,被配置为将目标应用列表的列表特征向量,输入上述训练得到的标签生成模型,得到对应目标应用列表的业务标签。
在本实施例的一些可选的实现方式中,该确定业务标签的装置800还包括:应用推送模块(图中未示出),被配置为向目标用户推送符合对应目标应用列表的业务标签的应用程序。
在本实施例的一些可选的实现方式中,应用推送模块,进一步被配置为:响应于接收到目标用户的应用查询请求,获取与应用查询请求相对应的多个应用程序;从多个应用程序中,向目标用户推送符合对应目标应用列表的业务标签的应用程序。
根据本公开的实施例,本公开还提供了一种电子设备和一种可读存储介质。
如图9所示,是根据本公开实施例的训练标签生成模型的方法或确定业务标签的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本公开的实现。
如图9所示,该电子设备包括:一个或多个处理器901、存储器902,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图9中以一个处理器901为例。
存储器902即为本公开所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本公开所提供的训练标签生成模型的方法或确定业务标签的方法。本公开的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本公开所提供的训练标签生成模型的方法或确定业务标签的方法。
存储器902作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本公开实施例中的训练标签生成模型的方法或确定业务标签的方法对应的程序指令/模块。处理器901通过运行存储在存储器902中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的训练标签生成模型的方法或确定业务标签的方法。
存储器902可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据训练标签生成模型的方法或确定业务标签的电子设备的使用所创建的数据等。此外,存储器902可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器902可选包括相对于处理器901远程设置的存储器,这些远程存储器可以通过网络连接至训练标签生成模型的方法或确定业务标签的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
训练标签生成模型的方法或确定业务标签的方法的电子设备还可以包括:输入装置903和输出装置904。处理器901、存储器902、输入装置903和输出装置904可以通过总线或者其他方式连接,图9中以通过总线连接为例。
输入装置903可接收输入的数字或字符信息,以及产生与训练标签生成模型的方法或确定业务标签的方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置904可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务("Virtual Private Server",或简称"VPS")中,存在的管理难度大,业务扩展性弱的缺陷。
本公开上述实施例的训练标签生成模型的方法、装置、设备及其存储介质,首先获取不同用户的应用列表和不同用户的应用列表的业务标签;之后,根据预先生成的应用嵌入向量,对不同用户的应用列表中的各个应用程序进行向量化,得到不同用户的应用列表中的各个应用程序的应用特征向量,以及基于不同用户的应用列表中的各个应用程序的应用特征向量,确定不同用户的应用列表的列表特征向量;其中,应用嵌入向量为:采用图嵌入算法所计算的根据不同用户的应用列表中的应用程序所构建的应用关系网络图中的各个节点的向量;最后,将不同用户的应用列表的列表特征向量和业务标签分别作为标签生成模型的输入和期望输出,得到标签生成模型。这一过程中,与背景技术中对应用列表中的各个应用程序进行0-1特征化的处理,或按照预先设定的规则或应用描述对应用列表中的应用程序进行聚类和统计分析的处理导致训练后的模型不能准确地确定应用列表的业务标签;由于采用了图嵌入算法,对以应用列表中的各个应用程序为节点所组成的应用关系网络图进行降维,得到应用嵌入向量,然后基于该应用嵌入向量对应用列表中的各个应用程序进行向量化,得到应用列表的列表特征向量;因此,基于该应用嵌入向量所确定的列表特征向量能够体现该应用列表中的各个应用程序之间的关联关系,使得基于列表特征向量训练得到的标签生成模型能够准确地确定应用列表的业务标签。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本公开公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本公开保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等,均应包含在本公开保护范围之内。

Claims (26)

1.一种训练标签生成模型的方法,包括:
获取不同用户的应用列表和所述不同用户的应用列表的业务标签;
采用预先生成的应用嵌入向量,对所述不同用户的应用列表中的各个应用程序进行向量化,得到所述不同用户的应用列表中的各个应用程序的应用特征向量,以及基于所述不同用户的应用列表中的各个应用程序的应用特征向量,得到所述不同用户的应用列表的列表特征向量;其中,所述应用嵌入向量为:采用图嵌入算法所计算的根据所述不同用户的应用列表中的应用程序所构建的应用关系网络图中的各个节点的向量;
将所述不同用户的应用列表的列表特征向量分别作为标签生成模型的输入、将对应所述不同用户的应用列表的业务标签分别作为所述标签生成模型对应所述输入的期望输出,训练机器学习模型,得到标签生成模型。
2.根据权利要求1所述的方法,其中,所述列表特征向量基于以下步骤确定:
采用预先生成的应用类别词典,对所述不同用户的应用列表中的应用程序进行分类,得到所述不同用户的应用列表中的不同类别的应用程序;
计算所述不同类别的应用程序中的每种类别的应用程序中的各个应用程序的应用特征向量的平均值,得到所述每种类别的应用程序的向量;
拼接所述每种类别的应用程序的向量,得到所述不同用户的应用列表的列表特征向量。
3.根据权利要求2所述的方法,其中,所述应用类别词典通过以下步骤确定:
以所述不同用户的应用列表中的应用程序所构建的应用关系网络图中的各个节点和所述应用关系网络图中的各个节点的向量,作为所述不同用户的应用列表中的各个应用程序对应的特征向量字典的键值对,构建所述不同用户的应用列表中的各个应用程序对应的特征向量字典;
对所述不同用户的应用列表中的各个应用程序对应的特征向量字典中的应用程序进行类别划分,得到所述不同用户的应用列表中的所有应用类别;
以所述不同用户的应用列表中的各个应用程序和所述不同用户的应用列表中的各个应用程序的类别属于所述所有应用类别中的应用类别,作为所述不同用户的应用列表中的各个应用程序对应的应用类别字典的键值对,构建所述不同用户的应用列表中的各个应用程序对应的应用类别词典。
4.根据权利要求2所述的方法,其中,所述对所述不同用户的应用列表中的各个应用程序对应的特征向量字典中的应用程序进行类别划分,得到所述不同用户的应用列表中的所有应用类别,包括:
根据所述不同用户的应用列表中的各个应用程序的类别标签,确定所述不同用户的应用列表中的所有应用类别。
5.根据权利要求2所述的方法,其中,所述对所述不同用户的应用列表中的各个应用程序对应的特征向量字典中的应用程序进行类别划分,得到所述不同用户的应用列表中的所有应用类别,包括:
对所述不同用户的应用列表中的各个应用程序的应用嵌入向量进行无监督聚类,得到所述不同用户的应用列表中的所有应用类别。
6.根据权利要求1所述的方法,其中,所述列表特征向量基于以下步骤确定:
计算所述不同用户的应用列表中的各个应用程序的应用特征向量的平均值,得到所述不同用户的应用列表的列表特征向量。
7.根据权利要求1所述的方法,其中,所述应用关系网络图基于以下步骤确定:
将所述不同用户的应用列表中的应用程序在每一个用户的应用列表中的共现次数进行累计,得到每两个应用程序的共现次数;
以所述不同用户的应用列表中的应用程序为节点,在共现次数大于预设权重阈值的每两个应用程序之间建立边连接,并将所述边所连接的两个应用程序之间的共现次数作为所述边的权重,构建所述应用关系网络图。
8.根据权利要求1所述的方法,其中,所述获取不同用户的应用列表,包括:
获取所述不同用户的用户标识;
获取预设时间点之前所述不同用户的用户标识对应的应用列表。
9.根据权利要求1所述的方法,其中,所述应用嵌入向量基于以下步骤确定:
采用网络嵌入模型、PyTorch大型图嵌入模型、大规模信息网络嵌入模型或图节点向量嵌入模型,对应用关系网络图中的各个节点进行嵌入,得到所述各个节点的应用嵌入向量。
10.一种确定业务标签的方法,包括:
获取目标用户的目标应用列表;
采用如权利要求1-9任意一项所述的预先生成的应用嵌入向量,对所述目标应用列表中的各个应用程序进行向量化,得到所述不同用户的应用列表中的各个应用程序的应用特征向量,以及基于所述不同用户的应用列表中的各个应用程序的应用特征向量,得到所述目标应用列表的列表特征向量;
将所述目标应用列表的列表特征向量,输入如权利要求1-9任意一项所述的标签生成模型,得到对应所述目标应用列表的业务标签。
11.根据权利要求10所述的方法,所述方法还包括:
向所述目标用户推送符合所述对应所述目标应用列表的业务标签的应用程序。
12.根据权利要求11所述的方法,其中,所述向所述目标用户推送符合所述对应所述目标应用列表的业务标签的应用程序,包括:
响应于接收到所述目标用户的应用查询请求,获取与所述应用查询请求相对应的多个应用程序;
从所述多个应用程序中,向所述目标用户推送符合所述对应所述目标应用列表的业务标签的应用程序。
13.一种训练标签生成模型的装置,包括:
数据获取模块,被配置为获取不同用户的应用列表和所述不同用户的应用列表的业务标签;
向量化模块,被配置为采用预先生成的应用嵌入向量,对所述不同用户的应用列表中的各个应用程序进行向量化,得到所述不同用户的应用列表中的各个应用程序的应用特征向量,以及基于所述不同用户的应用列表中的各个应用程序的应用特征向量,得到所述不同用户的应用列表的列表特征向量;其中,所述应用嵌入向量为:采用图嵌入算法所计算的根据所述不同用户的应用列表中的应用程序所构建的应用关系网络图中的各个节点的向量;
模型训练模块,被配置为将所述不同用户的应用列表的列表特征向量分别作为标签生成模型的输入、将对应所述不同用户的应用列表的业务标签分别作为所述标签生成模型对应所述输入的期望输出,训练机器学习模型,得到标签生成模型。
14.根据权利要求13所述的装置,其中,所述向量化模块,包括:
类别分类子单元,被配置为采用预先生成的应用类别词典,对所述不同用户的应用列表中的应用程序进行分类,得到所述不同用户的应用列表中的不同类别的应用程序;
向量得到单元,被配置为计算所述不同类别的应用程序中的每种类别的应用程序中的各个应用程序的应用特征向量的平均值,得到所述每种类别的应用程序的向量;
向量拼接单元,被配置为拼接所述每种类别的应用程序的向量,得到所述不同用户的应用列表的列表特征向量。
15.根据权利要求14所述的装置,所述装置还包括:
第一构建模块,被配置为以所述不同用户的应用列表中的应用程序所构建的应用关系网络图中的各个节点和所述应用关系网络图中的各个节点的向量,作为所述不同用户的应用列表中的各个应用程序对应的特征向量字典的键值对,构建所述不同用户的应用列表中的各个应用程序对应的特征向量字典;
类别分类模块,被配置为对所述不同用户的应用列表中的各个应用程序对应的特征向量字典中的应用程序进行类别划分,得到所述不同用户的应用列表中的所有应用类别;
第二构建模块,被配置为以所述不同用户的应用列表中的各个应用程序和所述不同用户的应用列表中的各个应用程序的类别属于所述所有应用类别中的应用类别,作为所述不同用户的应用列表中的各个应用程序对应的应用类别字典的键值对,构建所述不同用户的应用列表中的各个应用程序对应的应用类别词典。
16.根据权利要求14所述的装置,其中,所述类别分类模块,进一步被配置为:
根据所述不同用户的应用列表中的各个应用程序的类别标签,确定所述不同用户的应用列表中的所有应用类别。
17.根据权利要求14所述的装置,其中,所述向量化模块,进一步被配置为:
对所述不同用户的应用列表中的各个应用程序的应用嵌入向量进行无监督聚类,得到所述不同用户的应用列表中的所有应用类别。
18.根据权利要求13所述的装置,所述装置还包括:
向量计算模块,被配置为计算所述不同用户的应用列表中的各个应用程序的应用特征向量的平均值,得到所述不同用户的应用列表的列表特征向量。
19.根据权利要求13所述的装置,所述装置还包括:
次数得到模块,被配置为将所述不同用户的应用列表中的应用程序在每一个用户的应用列表中的共现次数进行累计,得到每两个应用程序的共现次数;
关系构建模块,被配置为以所述不同用户的应用列表中的应用程序为节点,在共现次数大于预设权重阈值的每两个应用程序之间建立边连接,并将所述边所连接的两个应用程序之间的共现次数作为所述边的权重,构建所述应用关系网络图。
20.根据权利要求13所述的装置,其中,所述数据获取模块,进一步被配置为:
获取所述不同用户的用户标识;
获取预设时间点之前所述不同用户的用户标识对应的应用列表。
21.根据权利要求13所述的装置,所述装置还包括:
向量嵌入模块,被配置为采用网络嵌入模型、PyTorch大型图嵌入模型、大规模信息网络嵌入模型或图节点向量嵌入模型,对应用关系网络图中的各个节点进行嵌入,得到所述各个节点的应用嵌入向量。
22.一种确定业务标签的装置,包括:
列表获取模块,被配置为获取目标用户的目标应用列表;
向量化模块,被配置为采用如权利要求1-9任意一项所述的预先生成的应用嵌入向量,对所述目标应用列表中的各个应用程序进行向量化,得到所述不同用户的应用列表中的各个应用程序的应用特征向量,以及基于所述不同用户的应用列表中的各个应用程序的应用特征向量,得到所述目标应用列表的列表特征向量;
标签确定模块,被配置为将所述目标应用列表的列表特征向量,输入如权利要求1-9任意一项所述的标签生成模型,得到对应所述目标应用列表的业务标签。
23.根据权利要求22所述的装置,所述装置还包括:
应用推送模块,被配置为向所述目标用户推送符合所述对应所述目标应用列表的业务标签的应用程序。
24.根据权利要求23所述的装置,其中,所述应用推送模块,进一步被配置为:
响应于接收到所述目标用户的应用查询请求,获取与所述应用查询请求相对应的多个应用程序;
从所述多个应用程序中,向所述目标用户推送符合所述对应所述目标应用列表的业务标签的应用程序。
25.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-9或10-12中任一项所述的方法。
26.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-9或10-12中任一项所述的方法。
CN202010899421.8A 2020-08-31 2020-08-31 训练标签生成模型的方法、装置、设备及其存储介质 Active CN112036486B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010899421.8A CN112036486B (zh) 2020-08-31 2020-08-31 训练标签生成模型的方法、装置、设备及其存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010899421.8A CN112036486B (zh) 2020-08-31 2020-08-31 训练标签生成模型的方法、装置、设备及其存储介质

Publications (2)

Publication Number Publication Date
CN112036486A true CN112036486A (zh) 2020-12-04
CN112036486B CN112036486B (zh) 2024-08-20

Family

ID=73587697

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010899421.8A Active CN112036486B (zh) 2020-08-31 2020-08-31 训练标签生成模型的方法、装置、设备及其存储介质

Country Status (1)

Country Link
CN (1) CN112036486B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139063A (zh) * 2022-01-30 2022-03-04 北京淇瑀信息科技有限公司 基于嵌入向量的用户标签提取方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090319288A1 (en) * 2008-06-24 2009-12-24 Yahoo Inc. Suggesting contacts for social networks
WO2017219548A1 (zh) * 2016-06-20 2017-12-28 乐视控股(北京)有限公司 用户属性预测方法及装置
CN108875781A (zh) * 2018-05-07 2018-11-23 腾讯科技(深圳)有限公司 一种标签分类方法、装置、电子设备及存储介质
CN110457404A (zh) * 2019-08-19 2019-11-15 电子科技大学 基于复杂异质网络的社交媒体账户分类方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090319288A1 (en) * 2008-06-24 2009-12-24 Yahoo Inc. Suggesting contacts for social networks
WO2017219548A1 (zh) * 2016-06-20 2017-12-28 乐视控股(北京)有限公司 用户属性预测方法及装置
CN108875781A (zh) * 2018-05-07 2018-11-23 腾讯科技(深圳)有限公司 一种标签分类方法、装置、电子设备及存储介质
CN110457404A (zh) * 2019-08-19 2019-11-15 电子科技大学 基于复杂异质网络的社交媒体账户分类方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
张随雨;杨成;: "一种多标签统一域嵌入的推荐模型", 哈尔滨工业大学学报, no. 05 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114139063A (zh) * 2022-01-30 2022-03-04 北京淇瑀信息科技有限公司 基于嵌入向量的用户标签提取方法、装置及电子设备

Also Published As

Publication number Publication date
CN112036486B (zh) 2024-08-20

Similar Documents

Publication Publication Date Title
CN111428008B (zh) 用于训练模型的方法、装置、设备以及存储介质
CN111753914B (zh) 模型优化方法和装置、电子设备及存储介质
CN107436875B (zh) 文本分类方法及装置
CN105630856B (zh) 在线用户简档的自动聚合
CN111950254B (zh) 搜索样本的词特征提取方法、装置、设备以及存储介质
US20170154280A1 (en) Incremental Generation of Models with Dynamic Clustering
US20190236135A1 (en) Cross-lingual text classification
CN111708922A (zh) 用于表示异构图节点的模型生成方法及装置
US20200279219A1 (en) Machine learning-based analysis platform
CN109471978B (zh) 一种电子资源推荐方法及装置
CN111667056A (zh) 用于搜索模型结构的方法和装置
US11436446B2 (en) Image analysis enhanced related item decision
US10262041B2 (en) Scoring mechanism for discovery of extremist content
CN111783468A (zh) 文本处理方法、装置、设备和介质
CN113051911B (zh) 提取敏感词的方法、装置、设备、介质及程序产品
CN111783427B (zh) 用于训练模型与输出信息的方法、装置、设备及存储介质
CN111611990A (zh) 用于识别图像中表格的方法和装置
CN111078878A (zh) 文本处理方法、装置、设备及计算机可读存储介质
CN111782785B (zh) 自动问答方法、装置、设备以及存储介质
CN115688920A (zh) 知识抽取方法、模型的训练方法、装置、设备和介质
CN111400456B (zh) 资讯推荐方法及装置
CN114037059A (zh) 预训练模型、模型的生成方法、数据处理方法及装置
CN112036486B (zh) 训练标签生成模型的方法、装置、设备及其存储介质
CN113312451A (zh) 文本标签确定方法和装置
CN112329429A (zh) 文本相似度学习方法、装置、设备以及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant