CN113010777A - 数据推送方法、装置、设备及存储介质 - Google Patents

数据推送方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN113010777A
CN113010777A CN202110248481.8A CN202110248481A CN113010777A CN 113010777 A CN113010777 A CN 113010777A CN 202110248481 A CN202110248481 A CN 202110248481A CN 113010777 A CN113010777 A CN 113010777A
Authority
CN
China
Prior art keywords
training
label
data
user
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110248481.8A
Other languages
English (en)
Other versions
CN113010777B (zh
Inventor
刘树林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yayue Technology Co ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110248481.8A priority Critical patent/CN113010777B/zh
Publication of CN113010777A publication Critical patent/CN113010777A/zh
Application granted granted Critical
Publication of CN113010777B publication Critical patent/CN113010777B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例涉及人工智能领域,公开了一种数据推送方法、装置、设备及存储介质,该方法包括:获取目标数据的关键描述信息以及目标用户的用户标签,目标数据的关键描述信息为描述目标数据的数据内容的文本信息,用户标签是通过对目标用户进行用户画像分析得到的;通过训练后的数据推送模型对目标数据的关键描述信息以及用户标签进行相关度计算处理,得到目标数据与目标用户的相关度,训练后的数据推送模型是基于训练样本对数据推送模型进行训练得到的,训练样本包括训练关键描述信息以及训练关键描述信息对应的训练标签;若相关度大于相关度阈值,则将目标数据推送给目标用户。采用本发明实施例,可提高个性化数据推送的精度。

Description

数据推送方法、装置、设备及存储介质
技术领域
本申请涉及人工智能领域,尤其涉及一种数据推送方法、装置、设备及存储介质。
背景技术
随着互联网行业的飞速发展,海量数据被推送给用户,但推送给用户的数据可能并非用户感兴趣的,能够实现对不同用户的个性化数据推送是提升用户粘合度的有效方式;但目前来说,实现对不同用户的个性化数据推送一般采用基于异构图的推送方法,该方法将待推送的数据的数据标识以及用户的用户标签构建成异构图,利用图嵌入算法(例如metapath2vec、node2vec等算法)对异构图进行学习,而后确定是否将该待推送的数据推送至用户,但由于该方法仅仅是对待推送的数据的数据标识进行处理从而进行推送,所以针对不同用户的个性化数据推送的精度仍然很低,无法确保推送的数据的数据内容是用户感兴趣的数据内容。
发明内容
本发明实施例提供一种数据推送方法、装置、设备及存储介质,可提高个性化数据推送的精度。
一方面,本发明实施例提供了一种数据推送方法,包括:
获取目标数据的关键描述信息以及目标用户的用户标签,所述目标数据的关键描述信息为描述所述目标数据的数据内容的文本信息,所述用户标签是通过对所述目标用户进行用户画像分析得到的;
通过训练后的数据推送模型对所述目标数据的关键描述信息以及所述用户标签进行相关度计算处理,得到所述目标数据与所述目标用户的相关度,所述训练后的数据推送模型是基于训练样本对数据推送模型进行训练得到的,所述训练样本包括训练关键描述信息以及所述训练关键描述信息对应的训练标签;
若所述相关度大于相关度阈值,则将所述目标数据推送给所述目标用户。
一方面,本发明实施例提供了一种数据推送装置,包括:
获取单元,用于获取目标数据的关键描述信息以及目标用户的用户标签,所述目标数据的关键描述信息为描述所述目标数据的数据内容的文本信息,所述用户标签是通过对所述目标用户进行用户画像分析得到的;
处理单元,用于通过训练后的数据推送模型对所述目标数据的关键描述信息以及所述用户标签进行相关度计算处理,得到所述目标数据与所述目标用户的相关度,所述训练后的数据推送模型是基于训练样本对数据推送模型进行训练得到的,所述训练样本包括训练关键描述信息以及所述训练关键描述信息对应的训练标签;
输出单元,用于若所述相关度大于相关度阈值,则将所述目标数据推送给所述目标用户。
一方面,本发明实施例提供了一种数据推送设备,其特征在于,所述数据推送设备包括输入接口和输出接口,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行上述数据推送方法。
一方面,本发明实施例提供了一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行上述数据推送方法。
一方面,本发明实施例提供了一种计算机程序产品或计算机程序,所述计算机程序产品或所述计算机程序包括计算机指令,所述计算机指令存储在计算机可读存储介质中;数据推送设备的处理器从所述计算机可读存储介质中读取所述计算机指令,所述处理器执行所述计算机指令,所述计算机指令被处理器执行时,用于执行上述数据推送方法。
本发明实施例中,数据推送设备获取目标数据的关键描述信息以及目标用户的用户标签,然后通过训练后的数据推送模型对目标数据的关键描述信息以及用户标签进行相关度计算处理,得到目标数据与目标用户的相关度,若相关度大于相关度阈值,则将目标数据推送给目标用户;其中,目标数据的关键描述信息为描述目标数据的数据内容的文本信息,用户标签是通过对目标用户进行用户画像分析得到的,训练后的数据推送模型是基于训练样本对数据推送模型进行训练得到的,训练样本包括训练关键描述信息以及训练关键描述信息对应的训练标签;可以通过对目标数据的关键描述信息以及目标用户的用户标签的处理,提高个性化数据推送的精度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种数据推送系统的结构示意图;
图2是本发明实施例提供的一种数据推送方法的流程示意图;
图3是本发明实施例提供的一种目标用户在预设时段内的浏览信息的示意图;
图4a是本发明实施例提供的一种训练后的数据推送模型的示意图;
图4b是本发明实施例提供的另一种训练后的数据推送模型的示意图;
图5a是本发明实施例提供的又一种训练后的数据推送模型的示意图;
图5b是本发明实施例提供的再一种训练后的数据推送模型的示意图;
图6是本发明实施例提供的一种训练数据推送模型的流程示意图;
图7是本发明实施例提供的一种数据推送模型的示意图;
图8是本发明实施例提供的另一种训练数据推送模型的流程示意图;
图9是本发明实施例提供的另一种数据推送模型的示意图;
图10是本发明实施例提供的一种数据推送装置的结构示意图;
图11是本发明实施例提供的一种数据推送设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
本发明实施例主要涉及人工智能领域中的机器学习(Machine Learning,ML),机器学习是人工智能的核心,是使计算机具有智能的根本途径,专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能,其应用遍及人工智能的各个领域。在涉及数据推送的相关领域中,海量数据被推送给用户,但推送给用户的数据可能并非用户感兴趣的,能够实现对不同用户的个性化数据推送是提升用户粘合度的有效方式;但目前来说,实现对不同用户的个性化数据推送一般采用基于异构图的推送方法,该方法将待推送的数据的数据标识以及用户的用户标签构建成异构图,利用图嵌入算法(例如metapath2vec、node2vec等算法)对异构图进行学习,而后确定是否将该待推送的数据推送至用户,但由于该方法仅仅是对待推送的数据的数据标识进行处理从而进行推送,所以针对不同用户的个性化数据推送的精度仍然很低,无法确保推送的数据的数据内容是用户感兴趣的数据内容。为了提高个性化数据推送的精度,本发明实施例提供了一种数据推送方法,可以获取目标数据的关键描述信息以及目标用户的用户标签,目标数据的关键描述信息为描述目标数据的数据内容的文本信息,用户标签是通过对目标用户进行用户画像分析得到的;通过训练后的数据推送模型对目标数据的关键描述信息以及用户标签进行相关度计算处理,得到目标数据与目标用户的相关度,训练后的数据推送模型是基于训练样本对数据推送模型进行训练得到的,训练样本包括训练关键描述信息以及训练关键描述信息对应的训练标签;若相关度大于相关度阈值,则将目标数据推送给目标用户。
本发明实施例中的数据推送方法可以应用在数据推送设备中,数据推送设备可以为服务器或者运行有服务器对应的客户端的终端设备。示例性的,服务器包含但不限定于即时通讯应用服务器或者网页推送服务器,客户端包含但不限定于即时通讯应用客户端或者网页推送客户端,例如服务器可以为微信服务器,客户端可以为微信客户端;又如服务器可以为天天快报服务器,客户端可以为天天快报客户端,等等。
在一个实施例中,假设数据推送设备为服务器,本发明实施例提供了一种数据推送系统。参考图1,为本发明实施例提供的一种数据推送系统的结构示意图。图1所示的数据推送系统可以包括服务器101以及至少一个终端设备102。
其中,服务器101可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network,CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器;终端设备102可以包括智能手机、平板电脑、笔记本电脑、台式计算机、智能车载以及智能可穿戴设备中的任意一种或多种。服务器101与终端设备102之间可以通过有线或无线通信方式进行直接或间接地通信连接,本申请在此不做限制。
在一个实施例中,不同的用户可通过各自的用户账号登录终端设备102中运行的客户端,以应用该客户端提供的相关功能;服务器101为终端设备102中运行的客户端提供服务支持,服务器101可以获取待推送数据中的目标数据的关键描述信息以及不同的用户中的目标用户的用户标签,目标数据的关键描述信息为描述目标数据的数据内容的文本信息,用户标签是通过对目标用户进行用户画像分析得到的;然后通过训练后的数据推送模型对目标数据的关键描述信息以及用户标签进行相关度计算处理,得到目标数据与目标用户的相关度,训练后的数据推送模型是基于训练样本对数据推送模型进行训练得到的,训练样本包括训练关键描述信息以及训练关键描述信息对应的训练标签;若相关度大于相关度阈值,则将目标数据推送给目标用户;针对不同的用户,服务器101均可以通过上述过程判断是否将该目标数据推送给不同的用户,由此可以实现对不同的用户的个性化数据推送,并且,由于服务器101是通过对目标数据的关键描述信息以及目标用户的用户标签进行处理,所以可以进一步提高个性化数据推送的精度。
在另一个实施例中,数据推送设备可以为终端设备。具体实现中,终端设备可以获取目标数据的关键描述信息以及不同的用户中的目标用户的用户标签,目标数据的关键描述信息为描述目标数据的数据内容的文本信息,用户标签是通过对目标用户进行用户画像分析得到的;然后通过训练后的数据推送模型对目标数据的关键描述信息以及用户标签进行相关度计算处理,得到目标数据与目标用户的相关度,训练后的数据推送模型是基于训练样本对数据推送模型进行训练得到的,训练样本包括训练关键描述信息以及训练关键描述信息对应的训练标签;若相关度大于相关度阈值,则将目标数据推送给目标用户;针对不同的用户,终端设备均可以通过上述过程判断是否将该目标数据推送给不同的用户,由此可以实现对不同的用户的个性化数据推送。
基于上述描述,本发明实施例提供了一种数据推送方法。参见图2,为本发明实施例提供的一种数据推送方法的流程示意图。图2所示的数据推送方法可由数据推送设备执行。图2所示的数据推送方法可包括如下步骤:
S201,获取目标数据的关键描述信息以及目标用户的用户标签。
其中,目标数据为待推送的数据,可以是文章数据、音频数据、视频数据、图片数据、商品数据等;目标数据的关键描述信息为描述目标数据的数据内容的文本信息,能够对目标数据的数据内容进行描述,例如可以为目标数据的标题、描述目标数据的数据内容的关键短语等;用户标签是通过对目标用户进行用户画像分析得到的,由至少一个用户子标签构成,其中每个用户子标签均可以反映目标用户所感兴趣的内容。
在一个实施例中,若目标数据的关键描述信息为目标数据的标题,则数据推送设备获取目标数据的关键描述信息时,可以包括:获取目标数据的标题;若目标数据的关键描述信息为描述目标数据的数据内容的关键短语,则数据推送设备获取目标数据的关键描述信息可以包括:对目标数据的数据内容进行文本提取处理,提取得到目标数据的数据内容中包括的文本数据,再对该文本数据进行文本分析处理,得到描述目标数据的数据内容的关键短语。
在一个实施例中,用户标签是通过对目标用户进行用户画像分析得到的,由至少一个用户子标签构成,其中每个用户子标签均可以反映目标用户所感兴趣的内容。具体的,数据推送设备可以通过提取与目标用户相关的信息,并基于提取到的与目标用户相关的信息来进行用户画像分析,得到用户子标签,再基于用户子标签得到用户标签;当所提取到的与目标用户相关的信息不同时,得到的目标用户的用户标签也不同,本发明实施例对获取目标用户的用户标签进行示例性的介绍。
在一个实施例中,数据推送设备获取目标用户的用户标签可以包括:获取所述目标用户在预设时段内的浏览信息,根据所述浏览信息进行用户画像分析,得到所述目标用户的用户子标签,基于所述目标用户的用户子标签得到所述目标用户的用户标签。其中,预设时段可以为目标用户通过终端设备使用客户端的时间段,例如目标用户在8:00-10:00的时间段内使用了客户端,则预设时段为8:00-10:00。所述浏览信息可以包括目标用户的用户标识、浏览数据的数据标识、浏览标签以及有效浏览次数,其中,目标用户的用户标识用于唯一标识目标用户,可以为目标用户的用户身份证明(User Identification,UID)号码;浏览数据的数据标识用于唯一标识浏览数据,其中浏览数据为目标用户在预设时段内所浏览的数据;浏览标签为能反映浏览数据的数据内容的标签,一个浏览数据对应一个浏览标签,一个浏览标签可以包括至少一个浏览子标签,浏览子标签携带了浏览子标签的标签标识以及浏览子标签的标签名称等信息;一个浏览数据的有效浏览次数可以为目标用户在预设时段内浏览该浏览数据超过一定时长的次数。可选的,浏览信息还可以包括浏览数据的标题。
举例来说,如图3所示,为本发明实施例提供的一种目标用户在预设时段内的浏览信息的示意图,假设目标用户的用户标识为UID210,目标用户在预设时段内浏览了浏览数据1,浏览数据1的数据标识为20201204A00PK701,对应浏览标签1,浏览标签1包括浏览子标签A、浏览子标签B、浏览子标签C以及浏览子标签D,其中浏览子标签A的标签标识/标签名称分别为181231/标签名称a,浏览子标签B的标签标识/标签名称分别为181232/标签名称b,浏览子标签C的标签标识/标签名称分别为181233/标签名称c,浏览子标签D的标签标识/标签名称分别为181234/标签名称d,有效浏览次数为5次;目标用户在预设时段内还浏览了浏览数据2,浏览数据2的数据标识为20201204A00PK702,对应浏览标签2,浏览标签2包括浏览子标签A、浏览子标签B以及浏览子标签E,其中浏览子标签E的标签标识/标签名称分别为181235/标签名称e,有效浏览次数为4次;目标用户在预设时段内还浏览了浏览数据3,浏览数据3的数据标识为20201204A00PK703,对应浏览标签3,浏览标签3包括浏览子标签A以及浏览子标签F,其中浏览子标签F的标签标识/标签名称分别为181236/标签名称f,有效浏览次数为1次。
进一步的,数据推送设备根据浏览信息进行用户画像分析,得到目标用户的用户子标签,基于目标用户的用户子标签得到目标用户的用户标签。可选的,可以选取浏览信息中有效浏览次数较高的浏览子标签作为目标用户的用户子标签,然后基于目标用户的用户子标签得到目标用户的用户标签,其中选取浏览子标签的个数可以是预先设定的。例如,如图3所示的浏览信息中,浏览子标签A对应的有效浏览次数为10(5+4+1)次,浏览子标签B对应的有效浏览次数为9(5+4)次,浏览子标签C对应的有效浏览次数为5次,浏览子标签D对应的有效浏览次数为5次,浏览子标签E对应的有效浏览次数为4次,浏览子标签F对应的有效浏览次数为1次,若预先设定选取浏览子标签的个数为2个,则选取有效浏览次数较高的2个浏览子标签:浏览子标签A以及浏览子标签B分别作为用户子标签A以及用户子标签B,然后由用户子标签A以及用户子标签B构成用户标签。可选的,可以选取浏览信息中有效浏览次数与有效浏览总次数比值大于子标签选取阈值的浏览子标签作为目标用户的用户子标签,然后基于目标用户的用户子标签得到目标用户的用户标签,其中,子标签选取阈值为预先设定的,该有效浏览总次数可以是浏览数据对应的有效浏览总次数。举例来说,如图3所示的浏览信息中,浏览数据对应的有效浏览总次数为10(5+4+1)次,假设子标签选取阈值为80%,则有效浏览次数与有效浏览总次数比值大于子标签选取阈值的浏览子标签分别为浏览子标签A以及浏览子标签B,其中浏览子标签A的有效浏览次数与有效浏览总次数的比值为1(10/10),浏览子标签B的有效浏览次数与有效浏览总次数的比值为90%(9/10)。
在一个实施例中,数据推送设备获取目标用户的用户标签还可以包括:获取目标用户预先选取的兴趣子标签,并将兴趣子标签作为目标用户的用户子标签,然后基于目标用户的用户子标签得到目标用户的用户标签。可选的,可以由一个兴趣子标签确定用户标签,也可以按照预设规则由多个兴趣子标签确定用户标签。例如,若目标用户预先选取的兴趣子标签为“娱乐”、“明星”、“计算机”,则可以由同一领域的兴趣子标签“娱乐”、“明星”确定出用户标签,也可以由另一个领域的兴趣子标签“计算机”确定出用户标签。
S202,通过训练后的数据推送模型对目标数据的关键描述信息以及用户标签进行相关度计算处理,得到目标数据与目标用户的相关度。
其中,训练后的数据推送模型是基于训练样本对数据推送模型进行训练得到的,训练样本包括训练关键描述信息以及训练关键描述信息对应的训练标签,基于训练样本对数据推送模型进行训练得到训练后的数据推送模型的具体实现方式将在之后的实施例中展开详细描述。
在一个实施例中,数据推送设备通过训练后的数据推送模型对目标数据的关键描述信息以及用户标签进行相关度计算处理,得到目标数据与目标用户的相关度可以包括:通过所述训练后的数据推送模型对所述目标数据的关键描述信息进行文本编码处理,得到所述目标数据的表示向量;对所述用户标签进行标签向量转换处理,得到所述用户标签对应的第一标签向量;通过第一损失函数对所述目标数据的表示向量以及所述用户标签对应的第一标签向量进行处理,得到所述目标数据与所述用户标签对应的第一损失值;基于所述目标数据与用户标签对应的第一损失值确定所述目标数据与目标用户的相关度。
可选的,数据推送设备通过训练后的数据推送模型对目标数据的关键描述信息进行文本编码处理,得到目标数据的表示向量,可以通过训练后的文本编码模型实现,例如可以通过训练后的双向表征编码器(Bidirectional Encoder Representations fromTransformers,BERT)、训练后的文本卷积神经网络(TextConvolutional NeuralNetworks,TextCNN)、训练后的长短期记忆网络(Long Short-Term Memory,LSTM)等来实现。以训练后的BERT为例,如图4a所示,为本发明实施例提供的一种训练后的数据推送模型的示意图。具体实现中,数据推送设备将目标数据的关键描述信息按照字进行拆分,并将拆分得到的字按照顺序进行排列得到关键描述信息的字符序列,将关键描述信息的字符序列通过训练后的BERT进行文本编码处理,得到目标数据的表示向量,其中,关键描述信息的字符序列中包括了预定义的标记符号,分别为[CLS]以及[SEP],其中,[CLS]置于关键描述信息的字符序列的首位,[SEP]置于关键描述信息的字符序列的末位。举例来说,若关键描述信息为“怎样将番茄炒蛋做得好吃”,经过处理得到的关键描述信息的字符序列为“[CLS]怎样将番茄炒蛋做得好吃[SEP]”。
进一步的,由于用户标签包括至少一个用户子标签,所以数据推送设备通过训练后的数据推送模型对用户标签进行标签向量转换处理,得到用户标签对应的第一标签向量可以包括:对各个所述用户子标签进行向量处理,得到所述各个用户子标签对应的用户子标签向量;根据所述至少一个用户子标签对应的用户子标签向量,得到所述用户标签对应的第一标签向量。具体实现中,数据推送设备通过训练后的数据推送模型将每个用户子标签分别进行嵌入查找(embedding look up)以实现向量处理,得到每个用户子标签对应的用户子标签向量;再将得到的所有用户子标签向量进行平均池化(avg pooling)处理,得到用户标签对应的第一标签向量。其中,上述对用户子标签进行的相关处理可以是对用户子标签对应的标签标识进行处理。
进一步的,数据推送设备通过训练后的数据推送模型通过第一损失函数对目标数据的表示向量以及用户标签对应的第一标签向量进行处理,得到目标数据与用户标签对应的第一损失值;基于目标数据与用户标签对应的第一损失值确定目标数据与目标用户的相关度。具体实现中,第一损失函数可以为余弦损失函数,余弦损失函数的函数值可以表征余弦损失函数的两个输入之间的相关性。其中,第一损失函数可以如公式(1)所示:
Figure BDA0002964269320000101
其中,et和eb分别为第一损失函数的输入,y为0或者1的变量,当第一损失函数用于求取目标数据与用户标签对应的第一损失值时,第一损失函数的输入分别为目标数据的表示向量以及用户标签对应的第一标签向量,且y为1。
目标数据与用户标签对应的第一损失值越小时,表征目标数据与目标用户的相关性越大,所以可以将目标数据与用户标签对应的第一损失值的相反数确定为目标数据与目标用户的相关度,也可以将固定数值减去目标数据与用户标签对应的第一损失值之后的结果确定为目标数据与目标用户的相关度,例如,当固定数值为1时,相关度为1减目标数据与用户标签对应的第一损失值。
在一个实施例中,数据推送设备通过训练后的数据推送模型对目标数据的关键描述信息以及用户标签进行相关度计算处理,得到目标数据与目标用户的相关度还可以包括:通过所述训练后的数据推送模型对所述目标数据的关键描述信息进行文本编码处理,得到所述目标数据的表示向量;对所述用户标签进行标签向量转换处理,得到所述用户标签对应的第一标签向量;通过第一损失函数对所述目标数据的表示向量以及所述用户标签对应的第一标签向量进行处理,得到所述目标数据与所述用户标签对应的第一损失值;对所述用户标签进行划分,得到多个用户标签组,各个所述用户标签组包括至少一个用户子标签,不同用户标签组包括不同用户子标签;对各个所述用户标签组进行标签向量转换处理,得到所述各个用户标签组对应的第二标签向量;通过第二损失函数对各个所述用户标签组对应的第二标签向量进行处理,得到所述各个用户标签组之间对应的第二损失值;根据所述目标数据与用户标签对应的第一损失值和所述各个用户标签组之间对应的第二损失值,得到所述训练后的数据推送模型的损失函数总值;基于所述训练后的数据推送模型的损失函数总值确定所述目标数据与目标用户的相关度。
如图4b所示,为本发明实施例提供的另一种训练后的数据推送模型的示意图。具体实现中,数据推送设备通过训练后的数据推送模型对用户标签进行划分,得到多个用户标签组时,可以将用户标签中的用户子标签进行随机等分,得到多个用户标签组,使得每个用户标签组中包括的用户子标签的数目相同;当用户标签中的用户子标签不能被随机等分时,可以随机复制用户标签中的用户子标签,然后再进行随机等分。举例来说,若用户标签中包括3个用户子标签,分别为“用户子标签A”、“用户子标签B”以及“用户子标签C”,若想要划分得到2个用户标签组,则可以随机复制3个用户子标签中的一个,例如可以复制“用户子标签A”,然后再进行随机等分,得到的一个用户标签组可以包括“用户子标签A、用户子标签B”,另一个用户标签组可以包括“用户子标签A”、“用户子标签C”,因为是对用户标签中的用户子标签进行随机等分,所以上述只是对得到的用户标签组的一种举例说明。
进一步的,数据推送设备通过训练后的数据推送模型对各个用户标签组进行标签向量转换处理,得到各个用户标签组对应的第二标签向量,可以包括:根据所述各个用户标签组所包含的用户子标签,生成所述各个用户标签组对应的用户子标签向量组,所述用户子标签向量组包括至少一个用户子标签向量,所述至少一个用户子标签向量为所述各个用户标签组所包含的用户子标签对应的用户子标签向量;根据所述各个用户标签组对应的用户子标签向量组中的至少一个用户子标签向量,得到所述各个用户标签组对应的第二标签向量。具体实现中,由于数据推送设备通过训练后的数据推送模型在对用户标签进行标签向量转换处理,得到用户标签对应的第一标签向量过程中已经得到了每个用户子标签对应的用户子标签向量,所以可以根据每一个用户标签组所包含的用户子标签,直接获取得到每一个用户标签组对应的用户子标签向量组;然后再对每一个用户子标签向量组中包括的用户子标签向量做平均池化处理,得到每一个用户子标签向量组对应的第二标签向量,即得到每一个用户标签组对应的第二标签向量。
进一步的,数据推送设备通过训练后的数据推送模型通过第二损失函数对各个用户标签组对应的第二标签向量进行处理,得到各个用户标签组之间对应的第二损失值,可以包括:通过第二损失函数对每两个用户标签组对应的第二标签向量进行处理,得到每两个用户标签组之间的第二损失值,然后再将所得到的所有每两个用户标签组之间的第二损失值进行平均处理,得到各个用户标签组之间对应的第二损失值。当用户标签组为2个时,通过第二损失函数对该2个用户标签组对应的第二标签向量进行处理,即得到各个用户标签组之间对应的第二损失值。
其中,第二损失函数可以为余弦损失函数,余弦损失函数的函数值可以表征余弦损失函数的两个输入之间的相关性。其中,第二损失函数可以如公式(2)所示:
Figure BDA0002964269320000121
其中,ehb1和ehhb2分别为第二损失函数的输入,当第二损失函数用于求取各个用户标签组之间对应的第二损失值时,第二损失函数的输入分别为两个不同的用户标签组对应的第二标签向量。
进一步的,数据推送设备通过训练后的数据推送模型根据所述目标数据与用户标签对应的第一损失值和所述各个用户标签组之间对应的第二损失值,得到所述训练后的数据推送模型的损失函数总值;基于所述训练后的数据推送模型的损失函数总值确定所述目标数据与目标用户的相关度。其中,所述训练后的数据推送模型的损失函数总值为所述目标数据与用户标签对应的第一损失值与所述各个用户标签组之间对应的第二损失值之和,可以将训练后的数据推送模型的损失函数总值的相反数确定为目标数据与目标用户的相关度,也可以将固定数值减去训练后的数据推送模型的损失函数总值之后的结果确定为目标数据与目标用户的相关度,例如,当固定数值为1时,相关度为1减训练后的数据推送模型的损失函数总值。
S203,若相关度大于相关度阈值,则将目标数据推送给目标用户。
在一个实施例中,所述相关度阈值是预先设定的;若相关度大于相关度阈值,则数据推送设备可以将目标数据推送至目标用户的客户端中,以使目标用户可以通过客户端进行查看目标数据;也可以将目标数据以通知消息的形式推送至终端设备的状态栏中,以使目标用户可以在点击状态栏中的通知消息后在客户端中进行查看目标数据;也可以将目标数据推送给与目标用户相关联的其他客户端中,以使目标用户可以通过其他客户端进行查看目标数据,其中,其他客户端可以为电子邮箱等用于接收消息的客户端。
在一个实施例中,由于第一损失函数可以表征第一损失函数的两个输入之间的相关性,第二损失函数可以表征第二损失函数的两个输入之间的相关性,所以,基于图4a所示的训练后的数据推送模型,本发明实施例提供了又一种训练后的数据推送模型,如图5a所示,为本发明实施例提供的又一种训练后的数据推送模型的示意图,并且根据步骤S202至步骤S203,数据推送设备可以通过训练后的数据推送模型对目标数据的关键描述信息以及用户标签进行处理,得到目标数据与用户标签对应的第一损失值,若目标数据与用户标签对应的第一损失值小于相关度损失阈值,则将目标数据推送给目标用户。基于如图4b所示的训练后的数据推送模型,本发明实施例提供了再一种训练后的数据推送模型,如图5b所示,为本发明实施例提供的再一种训练后的数据推送模型的示意图,并且根据步骤S202至步骤S203,数据推送设备可以通过训练后的数据推送模型对目标数据的关键描述信息以及用户标签进行处理,得到训练后的数据推送模型的损失函数总值,若训练后的数据推送模型的损失函数总值小于相关度损失阈值,则将目标数据推送给目标用户。其中,该相关损失阈值为预先设定的。
本发明实施例中,数据推送设备获取目标数据的关键描述信息以及目标用户的用户标签,然后通过训练后的数据推送模型对目标数据的关键描述信息以及用户标签进行相关度计算处理,得到目标数据与目标用户的相关度,若相关度大于相关度阈值,则将目标数据推送给目标用户;其中,目标数据的关键描述信息为描述目标数据的数据内容的文本信息,用户标签是通过对目标用户进行用户画像分析得到的,训练后的数据推送模型是基于训练样本对数据推送模型进行训练得到的,训练样本包括训练关键描述信息以及训练关键描述信息对应的训练标签;可以通过对目标数据的关键描述信息以及目标用户的用户标签的处理,提高个性化数据推送的精度。
基于上述描述,本发明实施例对一种数据推送模型的训练过程进行详细介绍,参见图6,为本发明实施例提供的一种训练数据推送模型的流程示意图。图6所示的数据推送模型的训练过程可由数据推送设备执行。图6所示的数据推送模型的训练过程可包括如下步骤:
S601,获取训练样本。
其中,训练样本用于对数据推送模型进行训练。一个训练样本包括训练关键描述信息以及训练关键描述信息对应的训练标签。其中,一个训练样本包括的训练关键描述信息为描述一个训练数据的数据内容的文本信息,可以为该训练数据的标题、描述该训练数据的数据内容的关键短语等;训练标签包括多个训练子标签,其中每个训练子标签均用于描述一个训练数据的数据内容,由于一个训练标签中包括的每个训练子标签均用于描述同一个训练数据的数据内容,所以一个训练标签中包括的每个训练子标签均相关;训练标签可以为该训练样本中包括的训练关键描述信息所描述训练数据的标签,也可以为其他训练数据的标签;当训练标签为该训练样本中包括的训练关键描述信息所描述训练数据的标签时,表示该训练样本为正训练样本,该正训练样本中包括的训练关键描述信息以及训练标签描述同一个训练数据,即训练关键描述信息和训练标签相关;当训练标签为其他训练数据的标签时,表示该训练样本为负训练样本,该负训练样本中包括的训练关键描述信息以及训练标签描述不同的训练数据,即训练关键描述信息和训练标签不相关。
S602,通过数据推送模型对训练样本中的训练关键描述信息进行文本编码处理,得到训练关键描述信息所描述训练数据的表示向量。
在一个实施例中,数据推送设备通过数据推送模型对训练样本中的训练关键描述信息进行文本编码处理,得到训练关键描述信息所描述训练数据的表示向量,可以通过文本编码模型实现,例如可以通过双向表征编码器、文本卷积神经网络、长短期记忆网络等来实现。以BERT为例,其中,BERT可以为12层文本特征编码(transformer)网络,如图7所示为本发明实施例提供的一种数据推送模型的示意图。具体实现中,数据推送设备将训练关键描述信息按照字进行拆分,并将拆分得到的字按照顺序进行排列得到训练关键描述信息的字符序列,将训练关键描述信息的字符序列通过BERT进行文本编码处理,得到训练关键描述信息所描述训练数据的表示向量,其中,训练关键描述信息的字符序列中包括了预定义的标记符号,分别为[CLS]以及[SEP],其中,[CLS]置于训练关键描述信息的字符序列的首位,[SEP]置于训练关键描述信息的字符序列的末位。举例来说,若训练关键描述信息为“怎样将鱼香肉丝做得好吃”,经过处理得到的训练关键描述信息的字符序列为“[CLS]怎样将鱼香肉丝做得好吃[SEP]”。
S603,对训练关键描述信息对应的训练标签进行标签向量转换处理,得到训练标签对应的第一标签向量。
由于训练标签包括多个训练子标签,所以数据推送设备通过数据推送模型对训练关键描述信息对应的训练标签进行标签向量转换处理,得到训练标签对应的第一标签向量可以包括:对各个训练子标签进行向量处理,得到各个训练子标签对应的训练子标签向量;根据多个训练子标签对应的训练子标签向量,得到训练标签对应的第一标签向量。具体实现中,数据推送设备通过数据推送模型将每个训练子标签分别进行嵌入查找(embeddinglook up)以实现向量处理,得到每个训练子标签对应的训练子标签向量;再将得到的所有训练子标签向量进行平均池化(avg pooling)处理,得到训练标签对应的第一标签向量。其中,上述对训练子标签进行的相关处理可以是对训练子标签对应的标签标识进行处理。
其中,步骤S602与步骤S603并没有严格的执行顺序,步骤S602与步骤S603可以同时执行,也可以先执行步骤S603后执行步骤S602。
S604,通过第一损失函数对训练关键描述信息所描述训练数据的表示向量以及训练标签对应的第一标签向量进行处理,得到训练样本对应的第一损失值。
其中,第一损失函数可以为余弦损失函数,具体可以如上述公式(1)给出。由第一损失函数:
Figure BDA0002964269320000151
可知,et和eb分别为第一损失函数的输入,y为0或者1的变量,当第一损失函数用于求取训练样本对应的第一损失值时,第一损失函数的输入分别为训练关键描述信息所描述训练数据的表示向量以及训练标签对应的第一标签向量,当该训练样本为正训练样本时,y为1,表征正训练样本中包括的训练关键描述信息以及训练标签描述同一个训练数据,即训练关键描述信息和训练标签相关;当该训练样本为负训练样本时,y为0,表征负训练样本中包括的训练关键描述信息以及训练标签描述不同的训练数据,即训练关键描述信息和训练标签不相关。
S605,基于训练样本对应的第一损失值对数据推送模型进行训练,得到训练后的数据推送模型。
其中,数据推送设备基于不同的训练样本对应的第一损失值对数据推送模型进行训练,使得用于测试的训练样本对应的第一损失值小于预设训练阈值,从而得到训练后的数据推送模型。进一步的,对数据推送模型的训练结束之后,还可以得到用于训练的不同的训练样本所包括的训练子标签对应的训练子标签向量;可选的,在通过训练后的数据推送模型对用户子标签进行向量处理得到用户子标签对应的用户子标签向量过程中,如果用户子标签与用于训练的训练子标签相同,那么,可以直接获取该用于训练的训练子标签对应的训练子标签向量作为用户子标签对应的用户子标签向量。
其中,步骤S601至步骤S605的执行主体,与上述实施例中步骤S201至步骤S203的执行主体可以是相同设备,也可以是不同设备,具体不受本发明实施例的限定。
本发明实施例中,数据推送设备通过获取训练样本,并基于训练样本中包括的训练关键描述信息以及训练关键描述信息对应的训练标签对数据推送模型进行训练得到训练后的数据推送模型;创新性提出了一种数据推送模型,使得数据推送设备可以基于训练后的数据推送模型对目标数据的关键描述信息以及目标用户的用户标签进行处理从而实现数据推送,由此可知,该训练后的数据推送模型泛化性好,并且由于目标数据的关键描述信息可以很好的描述目标数据的数据内容,所以提高了个性化数据推送的精度。
基于上述描述,本发明实施例对另一种数据推送模型的训练过程进行详细介绍,参见图8,为本发明实施例提供的另一种训练数据推送模型的流程示意图。图8所示的数据推送模型的训练过程可由数据推送设备执行。图8所示的数据推送模型的训练过程对应于图9所示的数据推送模型。图8所示的数据推送模型的训练过程可包括如下步骤:
S801,获取训练样本。
S802,通过数据推送模型对训练样本中的训练关键描述信息进行文本编码处理,得到训练关键描述信息所描述训练数据的表示向量。
S803,对训练关键描述信息对应的训练标签进行标签向量转换处理,得到训练标签对应的第一标签向量。
S804,通过第一损失函数对训练关键描述信息所描述训练数据的表示向量以及训练标签对应的第一标签向量进行处理,得到训练样本对应的第一损失值。
其中,步骤S801至步骤S804与步骤S601至步骤S604一致,在此不再赘述。
S805,对训练关键描述信息对应的训练标签进行划分,得到多个训练标签组。
其中,对训练关键描述信息对应的训练标签进行划分得到的各个训练标签组中包括至少一个训练子标签,不同训练标签组包括不同训练子标签。
在一个实施例中,数据推送设备通过数据推送模型可以将训练标签中的训练子标签进行随机等分,得到多个训练标签组,使得每个训练标签组中包括的训练子标签的数目相同;当训练标签中的训练子标签不能被随机等分时,可以随机复制训练标签中的训练子标签,然后再进行随机等分。举例来说,若训练标签中包括3个训练子标签,分别为“训练子标签X”、“训练子标签Y”以及“训练子标签Z”,若想要划分得到2个训练标签组,则可以随机复制3个训练子标签中的一个,例如可以复制“训练子标签X”,然后再进行随机等分,得到的一个训练标签组可以包括“训练子标签X、训练子标签Y”,另一个训练标签组可以包括“训练子标签X”、“训练子标签Z”,因为是对训练标签中的训练子标签进行随机等分,所以上述只是对得到的训练标签组的一种举例说明。
S806,对各个训练标签组进行标签向量转换处理,得到各个训练标签组对应的第二标签向量。
具体实现中,数据推送设备通过数据推送模型可以根据各个训练标签组所包含的训练子标签,生成各个训练标签组对应的训练子标签向量组,训练子标签向量组包括至少一个训练子标签向量,至少一个训练子标签向量为各个训练标签组所包含的训练子标签对应的训练子标签向量;根据各个训练标签组对应的训练子标签向量组中的至少一个训练子标签向量,得到各个训练标签组对应的第二标签向量。由于数据推送设备通过数据推送模型在对训练标签进行标签向量转换处理,得到训练标签对应的第一标签向量过程中已经得到了每个训练子标签对应的训练子标签向量,所以可以根据每一个训练标签组所包含的训练子标签,直接获取得到每一个训练标签组对应的训练子标签向量组;然后再对每一个训练子标签向量组中包括的训练子标签向量做平均池化处理,得到每一个训练子标签向量组对应的第二标签向量,即得到每一个训练标签组对应的第二标签向量。
S807,通过第二损失函数对各个训练标签组对应的第二标签向量进行处理,得到训练样本对应的第二损失值。
在一个实施例中,数据推送设备通过数据推送模型可以通过第二损失函数对每两个训练标签组对应的第二标签向量进行处理,得到每两个训练标签组之间的第二损失值,然后再将所得到的所有每两个训练标签组之间的第二损失值进行平均处理,得到训练样本对应的第二损失值。当训练标签组为2个时,通过第二损失函数对该2个训练标签组对应的第二标签向量进行处理,得到的2个训练标签组之间的第二损失值即为训练样本对应的第二损失值。
其中,第二损失函数可以为余弦损失函数,具体可以如上述公式(2)给出。由第二损失函数
Figure BDA0002964269320000181
可知,ehb1和ehhb2分别为第二损失函数的输入,当第二损失函数用于求取训练样本对应的第二损失值时,第二损失函数的输入分别为两个不同的训练标签组对应的第二标签向量,表征两个不同的训练标签组对应的第二标签向量相关,那是因为一个训练标签中包括的每个训练子标签均用于描述同一个训练数据的数据内容,所以一个训练标签中包括的每个训练子标签均相关,所以对训练标签进行划分后得到的多个训练标签组也相关,那么两个不同的训练标签组对应的第二标签向量也相关。
S808,根据训练样本对应的第一损失值和训练样本对应的第二损失值,得到数据推送模型的损失函数总值。
其中,数据推送模型的损失函数的总值为训练样本对应的第一损失值与训练样本对应的第二损失值之和。
S809,基于数据推送模型的损失函数总值对数据推送模型的进行训练,得到训练后的数据推送模型。
其中,数据推送设备基于不同的训练样本所产生的数据推送模型的损失函数总值对数据推送模型进行训练,使得用于测试的不同的训练样本所产生的数据推送模型的损失函数总值小于预设训练阈值,从而得到训练后的数据推送模型。进一步的,对数据推送模型的训练结束之后,还可以得到用于训练的不同的训练样本所包括的训练子标签对应的训练子标签向量;可选的,在通过训练后的数据推送模型对用户子标签进行向量处理得到用户子标签对应的用户子标签向量过程中,如果用户子标签与用于训练的训练子标签相同,那么,可以直接获取该用于训练的训练子标签对应的训练子标签向量作为用户子标签对应的用户子标签向量。
其中,步骤S802至步骤S804与步骤S805至步骤S807并没有严格的执行顺序,步骤S802至步骤S804与步骤S805至步骤S807可以同时执行,也可以先执行步骤S805至步骤S807再执行步骤S802至步骤S804。
其中,步骤S801至步骤S809的执行主体,与上述实施例中步骤S201至步骤S203的执行主体可以是相同设备,也可以是不同设备,具体不受本发明实施例的限定。
本发明实施例中,本发明实施例中,数据推送设备通过获取训练样本,并基于训练样本中包括的训练关键描述信息以及训练关键描述信息对应的训练标签对数据推送模型进行训练得到训练后的数据推送模型;创新性提出了一种数据推送模型,使得数据推送设备可以基于训练后的数据推送模型对目标数据的关键描述信息以及目标用户的用户标签进行处理从而实现数据推送,由此可知,该训练后的数据推送模型泛化性好,并且由于目标数据的关键描述信息可以很好的描述目标数据的数据内容,所以提高了个性化数据推送的精度。
基于上述数据推送方法实施例,本发明实施例提供了一种数据推送装置。参见图10,为本发明实施例提供的一种数据推送装置的结构示意图,该数据推送装置可包括获取单元1001、处理单元1002以及输出单元1003。图10所示的数据推送装置可运行如下单元:
获取单元1001,用于获取目标数据的关键描述信息以及目标用户的用户标签,所述目标数据的关键描述信息为描述所述目标数据的数据内容的文本信息,所述用户标签是通过对所述目标用户进行用户画像分析得到的;
处理单元1002,用于通过训练后的数据推送模型对所述目标数据的关键描述信息以及所述用户标签进行相关度计算处理,得到所述目标数据与所述目标用户的相关度,所述训练后的数据推送模型是基于训练样本对数据推送模型进行训练得到的,所述训练样本包括训练关键描述信息以及所述训练关键描述信息对应的训练标签;
输出单元1003,用于若所述相关度大于相关度阈值,则将所述目标数据推送给所述目标用户。
在一个实施例中,所述获取单元1001,还用于在所述处理单元1002通过训练后的数据推送模型对所述目标数据的关键描述信息以及所述用户标签进行相关度计算处理之前,获取训练样本;
所述处理单元1002,还用于通过所述数据推送模型对所述训练样本中的训练关键描述信息进行文本编码处理,得到所述训练关键描述信息所描述训练数据的表示向量;
所述处理单元1002,还用于对所述训练关键描述信息对应的训练标签进行标签向量转换处理,得到所述训练标签对应的第一标签向量;
所述处理单元1002,还用于通过第一损失函数对所述训练关键描述信息所描述训练数据的表示向量以及所述训练标签对应的第一标签向量进行处理,得到所述训练样本对应的第一损失值;
所述处理单元1002,还用于基于所述训练样本对应的第一损失值对所述数据推送模型进行训练,得到所述训练后的数据推送模型。
在一个实施例中,所述训练关键描述信息对应的训练标签包括多个训练子标签;
所述处理单元1002基于所述训练样本对应的第一损失值对所述数据推送模型进行训练,得到所述训练后的数据推送模型之前,还用于:
对所述训练关键描述信息对应的训练标签进行划分,得到多个训练标签组,各个所述训练标签组包括至少一个训练子标签,不同训练标签组包括不同训练子标签;
对各个所述训练标签组进行标签向量转换处理,得到所述各个训练标签组对应的第二标签向量;
通过第二损失函数对各个所述训练标签组对应的第二标签向量进行处理,得到所述训练样本对应的第二损失值;
根据所述训练样本对应的第一损失值和所述训练样本对应的第二损失值,得到所述数据推送模型的损失函数总值;
所述处理单元1002基于所述训练样本对应的第一损失值对所述数据推送模型进行训练,得到所述训练后的数据推送模型时,具体执行如下操作:
基于所述数据推送模型的损失函数总值对所述数据推送模型的进行训练,得到所述训练后的数据推送模型。
在一个实施例中,所述训练关键描述信息对应的训练标签包括多个训练子标签;
所述处理单元1002对所述训练关键描述信息对应的训练标签进行标签向量转换处理,得到所述训练标签对应的第一标签向量时,具体执行如下操作:
对各个所述训练子标签进行向量处理,得到所述各个训练子标签对应的训练子标签向量;
根据所述多个训练子标签对应的训练子标签向量,得到所述训练标签对应的第一标签向量。
在一个实施例中,所述处理单元1002对各个所述训练标签组进行标签向量转换处理,得到所述各个训练标签组对应的第二标签向量时,具体执行如下操作:
根据所述各个训练标签组所包含的训练子标签,生成所述各个训练标签组对应的训练子标签向量组,所述训练子标签向量组包括至少一个训练子标签向量,所述至少一个训练子标签向量为所述各个训练标签组所包含的训练子标签对应的训练子标签向量;
根据所述各个训练标签组对应的训练子标签向量组中的至少一个训练子标签向量,得到所述各个训练标签组对应的第二标签向量。
根据本发明的一个实施例,图2、图6以及图8所示的数据推送方法所涉及各个步骤可以是由图10所示的数据推送装置中的各个单元来执行的。例如,图2所示的步骤S201可由图10所示的数据推送装置中的获取单元1001来执行,图2所示的步骤S202可由图10所示的数据推送装置中的处理单元1002来执行,图2所示的步骤S203可由图10所示的数据推送装置中的输出单元1003来执行;再如,图6所示的步骤S601可由图10所示的数据推送装置中的获取单元1001来执行,图6所示的步骤S602至步骤S605可由图10所示的数据推送装置中的处理单元1002来执行;又如,图8所示的步骤S801可由图10所示的数据推送装置中的获取单元1001来执行,图8所示的步骤S802至步骤S809可由图10所示的数据推送装置中的处理单元1002来执行。
根据本发明的另一个实施例,图10所示的数据推送装置中的各个单元可以分别或全部合并为一个或若干个另外的单元来构成,或者其中的某个(些)单元还可以再拆分为功能上更小的多个单元来构成,这可以实现同样的操作,而不影响本发明的实施例的技术效果的实现。上述单元是基于逻辑功能划分的,在实际应用中,一个单元的功能也可以由多个单元来实现,或者多个单元的功能由一个单元实现。在本发明的其它实施例中,基于逻辑功能划分的数据推送装置也可以包括其它单元,在实际应用中,这些功能也可以由其它单元协助实现,并且可以由多个单元协作实现。
根据本发明的另一个实施例,可以通过在包括中央处理单元(CPU)、随机存取存储介质(RAM)、只读存储介质(ROM)等处理元件和存储元件的例如计算机的通用计算设备上运行能够执行如图2、图6以及图8所示的相应方法所涉及的各步骤的计算机程序(包括程序代码),来构造如图10中所示的数据推送装置,以及来实现本发明实施例数据推送方法。所述计算机程序可以记载于例如计算机可读存储介质上,并通过计算机可读存储介质装载于上述计算设备中,并在其中运行。
本发明实施例中,获取单元1001获取目标数据的关键描述信息以及目标用户的用户标签,其中,目标数据的关键描述信息为描述目标数据的数据内容的文本信息,用户标签是通过对目标用户进行用户画像分析得到的;处理单元1002通过训练后的数据推送模型对目标数据的关键描述信息以及用户标签进行相关度计算处理,得到目标数据与目标用户的相关度,其中,训练后的数据推送模型是基于训练样本对数据推送模型进行训练得到的,训练样本包括训练关键描述信息以及训练关键描述信息对应的训练标签;若相关度大于相关度阈值,输出单元1003则将目标数据推送给目标用户;可以通过对目标数据的关键描述信息以及目标用户的用户标签的处理,提高个性化数据推送的精度。
基于上述的方法实施例以及装置实施例,本发明还提供了一种数据推送设备。参见图11,为本发明实施例提供的一种数据推送设备的结构示意图。图11所示的数据推送设备可至少包括处理器1101、输入接口1102、输出接口1103以及计算机存储介质1104。其中,处理器1101、输入接口1102、输出接口1103以及计算机存储介质1104可通过总线或其他方式连接。
计算机存储介质1104可以存储在数据推送设备的存储器中,计算机存储介质1104用于存储计算机程序,计算机程序包括程序指令,处理器1101用于执行计算机存储介质1104存储的程序指令。处理器1101(或称CPU(Central Processing Unit,中央处理器))是数据推送设备的计算核心以及控制核心,其适于实现一条或多条指令,具体适于加载并执行一条或多条指令从而实现上述数据推送方法流程或相应功能。
本发明实施例还提供了一种计算机存储介质(Memory),计算机存储介质是数据推送设备中的记忆设备,用于存放程序和数据。可以理解的是,此处的计算机存储介质既可以包括终端中的内置存储介质,当然也可以包括终端所支持的扩展存储介质。计算机存储介质提供存储空间,该存储空间存储了终端的操作系统。并且,在该存储空间中还存放了适于被处理器1101加载并执行的一条或多条的指令,这些指令可以是一个或一个以上的计算机程序(包括程序代码)。需要说明的是,此处的计算机存储介质可以是高速随机存取存储器(random access memory,RAM)存储器,也可以是非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器;可选的还可以是至少一个位于远离前述处理器的计算机存储介质。
在一个实施例中,可由处理器1101以及输出接口1103加载并执行计算机存储介质中存放的一条或多条指令,以实现上述有关图2、图6以及图8的数据推送方法实施例中的方法的相应步骤,具体实现中,计算机存储介质中的一条或多条指令由处理器1101以及输出接口1103加载并执行如下步骤:
处理器1101,用于获取目标数据的关键描述信息以及目标用户的用户标签,所述目标数据的关键描述信息为描述所述目标数据的数据内容的文本信息,所述用户标签是通过对所述目标用户进行用户画像分析得到的;
处理器1101,用于通过训练后的数据推送模型对所述目标数据的关键描述信息以及所述用户标签进行相关度计算处理,得到所述目标数据与所述目标用户的相关度,所述训练后的数据推送模型是基于训练样本对数据推送模型进行训练得到的,所述训练样本包括训练关键描述信息以及所述训练关键描述信息对应的训练标签;
输出接口1103,用于若所述相关度大于相关度阈值,则将所述目标数据推送给所述目标用户。
在一个实施例中,所述处理器1101通过训练后的数据推送模型对所述目标数据的关键描述信息以及所述用户标签进行相关度计算处理之前,还用于:
获取训练样本;
通过所述数据推送模型对所述训练样本中的训练关键描述信息进行文本编码处理,得到所述训练关键描述信息所描述训练数据的表示向量;
对所述训练关键描述信息对应的训练标签进行标签向量转换处理,得到所述训练标签对应的第一标签向量;
通过第一损失函数对所述训练关键描述信息所描述训练数据的表示向量以及所述训练标签对应的第一标签向量进行处理,得到所述训练样本对应的第一损失值;
基于所述训练样本对应的第一损失值对所述数据推送模型进行训练,得到所述训练后的数据推送模型。
在一个实施例中,所述训练关键描述信息对应的训练标签包括多个训练子标签;
所述处理器1101基于所述训练样本对应的第一损失值对所述数据推送模型进行训练,得到所述训练后的数据推送模型之前,还用于:
对所述训练关键描述信息对应的训练标签进行划分,得到多个训练标签组,各个所述训练标签组包括至少一个训练子标签,不同训练标签组包括不同训练子标签;
对各个所述训练标签组进行标签向量转换处理,得到所述各个训练标签组对应的第二标签向量;
通过第二损失函数对各个所述训练标签组对应的第二标签向量进行处理,得到所述训练样本对应的第二损失值;
根据所述训练样本对应的第一损失值和所述训练样本对应的第二损失值,得到所述数据推送模型的损失函数总值;
所述处理器1101基于所述训练样本对应的第一损失值对所述数据推送模型进行训练,得到所述训练后的数据推送模型时,具体执行如下操作:
基于所述数据推送模型的损失函数总值对所述数据推送模型的进行训练,得到所述训练后的数据推送模型。
在一个实施例中,所述训练关键描述信息对应的训练标签包括多个训练子标签;
所述处理器1101对所述训练关键描述信息对应的训练标签进行标签向量转换处理,得到所述训练标签对应的第一标签向量时,具体执行如下操作:
对各个所述训练子标签进行向量处理,得到所述各个训练子标签对应的训练子标签向量;
根据所述多个训练子标签对应的训练子标签向量,得到所述训练标签对应的第一标签向量。
在一个实施例中,所述处理器1101对各个所述训练标签组进行标签向量转换处理,得到所述各个训练标签组对应的第二标签向量时,具体执行如下操作:
根据所述各个训练标签组所包含的训练子标签,生成所述各个训练标签组对应的训练子标签向量组,所述训练子标签向量组包括至少一个训练子标签向量,所述至少一个训练子标签向量为所述各个训练标签组所包含的训练子标签对应的训练子标签向量;
根据所述各个训练标签组对应的训练子标签向量组中的至少一个训练子标签向量,得到所述各个训练标签组对应的第二标签向量。
本发明实施例提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。数据推送设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该数据推送设备执行上述如图2、图6或图8所示的方法实施例。其中,计算机可读存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种数据推送方法,其特征在于,包括:
获取目标数据的关键描述信息以及目标用户的用户标签,所述目标数据的关键描述信息为描述所述目标数据的数据内容的文本信息,所述用户标签是通过对所述目标用户进行用户画像分析得到的;
通过训练后的数据推送模型对所述目标数据的关键描述信息以及所述用户标签进行相关度计算处理,得到所述目标数据与所述目标用户的相关度,所述训练后的数据推送模型是基于训练样本对数据推送模型进行训练得到的,所述训练样本包括训练关键描述信息以及所述训练关键描述信息对应的训练标签;
若所述相关度大于相关度阈值,则将所述目标数据推送给所述目标用户。
2.如权利要求1所述的方法,其特征在于,所述通过训练后的数据推送模型对所述目标数据的关键描述信息以及所述用户标签进行相关度计算处理之前,还包括:
获取训练样本;
通过所述数据推送模型对所述训练样本中的训练关键描述信息进行文本编码处理,得到所述训练关键描述信息所描述训练数据的表示向量;
对所述训练关键描述信息对应的训练标签进行标签向量转换处理,得到所述训练标签对应的第一标签向量;
通过第一损失函数对所述训练关键描述信息所描述训练数据的表示向量以及所述训练标签对应的第一标签向量进行处理,得到所述训练样本对应的第一损失值;
基于所述训练样本对应的第一损失值对所述数据推送模型进行训练,得到所述训练后的数据推送模型。
3.如权利要求2所述的方法,其特征在于,所述训练关键描述信息对应的训练标签包括多个训练子标签;
所述基于所述训练样本对应的第一损失值对所述数据推送模型进行训练,得到所述训练后的数据推送模型之前,还包括:
对所述训练关键描述信息对应的训练标签进行划分,得到多个训练标签组,各个所述训练标签组包括至少一个训练子标签,不同训练标签组包括不同训练子标签;
对各个所述训练标签组进行标签向量转换处理,得到所述各个训练标签组对应的第二标签向量;
通过第二损失函数对各个所述训练标签组对应的第二标签向量进行处理,得到所述训练样本对应的第二损失值;
根据所述训练样本对应的第一损失值和所述训练样本对应的第二损失值,得到所述数据推送模型的损失函数总值;
所述基于所述训练样本对应的第一损失值对所述数据推送模型进行训练,得到所述训练后的数据推送模型,包括:
基于所述数据推送模型的损失函数总值对所述数据推送模型的进行训练,得到所述训练后的数据推送模型。
4.如权利要求2所述的方法,其特征在于,所述训练关键描述信息对应的训练标签包括多个训练子标签;
所述对所述训练关键描述信息对应的训练标签进行标签向量转换处理,得到所述训练标签对应的第一标签向量,包括:
对各个所述训练子标签进行向量处理,得到所述各个训练子标签对应的训练子标签向量;
根据所述多个训练子标签对应的训练子标签向量,得到所述训练标签对应的第一标签向量。
5.如权利要求3所述的方法,其特征在于,所述对各个所述训练标签组进行标签向量转换处理,得到所述各个训练标签组对应的第二标签向量,包括:
根据所述各个训练标签组所包含的训练子标签,生成所述各个训练标签组对应的训练子标签向量组,所述训练子标签向量组包括至少一个训练子标签向量,所述至少一个训练子标签向量为所述各个训练标签组所包含的训练子标签对应的训练子标签向量;
根据所述各个训练标签组对应的训练子标签向量组中的至少一个训练子标签向量,得到所述各个训练标签组对应的第二标签向量。
6.一种数据推送装置,其特征在于,包括:
获取单元,用于获取目标数据的关键描述信息以及目标用户的用户标签,所述目标数据的关键描述信息为描述所述目标数据的数据内容的文本信息,所述用户标签是通过对所述目标用户进行用户画像分析得到的;
处理单元,用于通过训练后的数据推送模型对所述目标数据的关键描述信息以及所述用户标签进行相关度计算处理,得到所述目标数据与所述目标用户的相关度,所述训练后的数据推送模型是基于训练样本对数据推送模型进行训练得到的,所述训练样本包括训练关键描述信息以及所述训练关键描述信息对应的训练标签;
输出单元,用于若所述相关度大于相关度阈值,则将所述目标数据推送给所述目标用户。
7.如权利要求6所述的装置,其特征在于,
所述获取单元,还用于在所述处理单元通过训练后的数据推送模型对所述目标数据的关键描述信息以及所述用户标签进行相关度计算处理之前,获取训练样本;
所述处理单元,还用于通过所述数据推送模型对所述训练样本中的训练关键描述信息进行文本编码处理,得到所述训练关键描述信息所描述训练数据的表示向量;
所述处理单元,还用于对所述训练关键描述信息对应的训练标签进行标签向量转换处理,得到所述训练标签对应的第一标签向量;
所述处理单元,还用于通过第一损失函数对所述训练关键描述信息所描述训练数据的表示向量以及所述训练标签对应的第一标签向量进行处理,得到所述训练样本对应的第一损失值;
所述处理单元,还用于基于所述训练样本对应的第一损失值对所述数据推送模型进行训练,得到所述训练后的数据推送模型。
8.如权利要求7所述的装置,其特征在于,所述训练关键描述信息对应的训练标签包括多个训练子标签;
所述处理单元基于所述训练样本对应的第一损失值对所述数据推送模型进行训练,得到所述训练后的数据推送模型之前,还包括:
对所述训练关键描述信息对应的训练标签进行划分,得到多个训练标签组,各个所述训练标签组包括至少一个训练子标签,不同训练标签组包括不同训练子标签;
对各个所述训练标签组进行标签向量转换处理,得到所述各个训练标签组对应的第二标签向量;
通过第二损失函数对各个所述训练标签组对应的第二标签向量进行处理,得到所述训练样本对应的第二损失值;
根据所述训练样本对应的第一损失值和所述训练样本对应的第二损失值,得到所述数据推送模型的损失函数总值;
所述处理单元基于所述训练样本对应的第一损失值对所述数据推送模型进行训练,得到所述训练后的数据推送模型,包括:
基于所述数据推送模型的损失函数总值对所述数据推送模型的进行训练,得到所述训练后的数据推送模型。
9.一种数据推送设备,其特征在于,所述数据推送设备包括输入接口和输出接口,还包括:
处理器,适于实现一条或多条指令;以及,
计算机存储介质,所述计算机存储介质存储有一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行如权利要求1-5任一项所述的数据推送方法。
10.一种计算机存储介质,其特征在于,所述计算机存储介质中存储有计算机程序指令,所述计算机程序指令被处理器执行时,用于执行如权利要求1-5任一项所述的数据推送方法。
CN202110248481.8A 2021-03-05 2021-03-05 数据推送方法、装置、设备及存储介质 Active CN113010777B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110248481.8A CN113010777B (zh) 2021-03-05 2021-03-05 数据推送方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110248481.8A CN113010777B (zh) 2021-03-05 2021-03-05 数据推送方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN113010777A true CN113010777A (zh) 2021-06-22
CN113010777B CN113010777B (zh) 2022-10-14

Family

ID=76407620

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110248481.8A Active CN113010777B (zh) 2021-03-05 2021-03-05 数据推送方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN113010777B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643073A (zh) * 2021-09-01 2021-11-12 深圳市聚商鼎力网络技术有限公司 一种基于大数据的自动化信息投放系统
CN114359904A (zh) * 2022-01-06 2022-04-15 北京百度网讯科技有限公司 图像识别方法、装置、电子设备以及存储介质
CN117891447A (zh) * 2024-03-14 2024-04-16 蒲惠智造科技股份有限公司 一种企业管理软件开发方法、装置、设备及介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180374141A1 (en) * 2017-06-27 2018-12-27 Alibaba Group Holding Limited Information pushing method and system
CN109840793A (zh) * 2017-11-28 2019-06-04 广州腾讯科技有限公司 推广信息的推送方法和装置、存储介质、电子装置
CN110119477A (zh) * 2019-05-14 2019-08-13 腾讯科技(深圳)有限公司 一种信息推送方法、装置和存储介质
CN112100440A (zh) * 2020-08-21 2020-12-18 腾讯科技(深圳)有限公司 视频推送方法、设备及介质
CN112330455A (zh) * 2020-11-24 2021-02-05 北京百度网讯科技有限公司 用于推送信息的方法、装置、设备以及存储介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180374141A1 (en) * 2017-06-27 2018-12-27 Alibaba Group Holding Limited Information pushing method and system
CN109840793A (zh) * 2017-11-28 2019-06-04 广州腾讯科技有限公司 推广信息的推送方法和装置、存储介质、电子装置
CN110119477A (zh) * 2019-05-14 2019-08-13 腾讯科技(深圳)有限公司 一种信息推送方法、装置和存储介质
CN112100440A (zh) * 2020-08-21 2020-12-18 腾讯科技(深圳)有限公司 视频推送方法、设备及介质
CN112330455A (zh) * 2020-11-24 2021-02-05 北京百度网讯科技有限公司 用于推送信息的方法、装置、设备以及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113643073A (zh) * 2021-09-01 2021-11-12 深圳市聚商鼎力网络技术有限公司 一种基于大数据的自动化信息投放系统
CN114359904A (zh) * 2022-01-06 2022-04-15 北京百度网讯科技有限公司 图像识别方法、装置、电子设备以及存储介质
CN117891447A (zh) * 2024-03-14 2024-04-16 蒲惠智造科技股份有限公司 一种企业管理软件开发方法、装置、设备及介质

Also Published As

Publication number Publication date
CN113010777B (zh) 2022-10-14

Similar Documents

Publication Publication Date Title
CN113010777B (zh) 数据推送方法、装置、设备及存储介质
US11151177B2 (en) Search method and apparatus based on artificial intelligence
US11062089B2 (en) Method and apparatus for generating information
US20180336193A1 (en) Artificial Intelligence Based Method and Apparatus for Generating Article
CN112164391A (zh) 语句处理方法、装置、电子设备及存储介质
CN111737582B (zh) 一种内容推荐方法及装置
CN112035743B (zh) 数据推荐方法、装置、计算机设备以及存储介质
CN111666418B (zh) 文本重生成方法、装置、电子设备和计算机可读介质
Zhao et al. Text sentiment analysis algorithm optimization and platform development in social network
CN115640394A (zh) 文本分类方法、文本分类装置、计算机设备及存储介质
CN115269781A (zh) 模态关联度预测方法、装置、设备、存储介质及程序产品
US11568344B2 (en) Systems and methods for automated pattern detection in service tickets
CN115204436A (zh) 检测业务指标异常原因的方法、装置、设备及介质
CN112307738A (zh) 用于处理文本的方法和装置
CN110457603B (zh) 用户关系抽取方法、装置、电子设备及可读存储介质
CN111813899A (zh) 基于多轮会话的意图识别方法及装置
CN111126053B (zh) 一种信息处理方法及相关设备
CN115982452A (zh) 一种信息推荐方法、装置、电子设备及存储介质
CN116127066A (zh) 文本聚类方法、文本聚类装置、电子设备及存储介质
CN111488513A (zh) 用于生成页面的方法和装置
CN110442767B (zh) 一种确定内容互动平台标签的方法、装置及可读存储介质
CN114625658A (zh) App稳定性测试方法、装置、设备和计算机可读存储介质
CN111784377B (zh) 用于生成信息的方法和装置
CN112446738A (zh) 广告数据处理方法、装置、介质以及电子设备
CN113807920A (zh) 基于人工智能的产品推荐方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20221117

Address after: 1402, Floor 14, Block A, Haina Baichuan Headquarters Building, No. 6, Baoxing Road, Haibin Community, Xin'an Street, Bao'an District, Shenzhen, Guangdong 518000

Patentee after: Shenzhen Yayue Technology Co.,Ltd.

Address before: 518057 Tencent Building, No. 1 High-tech Zone, Nanshan District, Shenzhen City, Guangdong Province, 35 floors

Patentee before: TENCENT TECHNOLOGY (SHENZHEN) Co.,Ltd.

TR01 Transfer of patent right