CN112801425A - 信息点击率的确定方法、装置、计算机设备和存储介质 - Google Patents

信息点击率的确定方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN112801425A
CN112801425A CN202110351765.XA CN202110351765A CN112801425A CN 112801425 A CN112801425 A CN 112801425A CN 202110351765 A CN202110351765 A CN 202110351765A CN 112801425 A CN112801425 A CN 112801425A
Authority
CN
China
Prior art keywords
word
sample
click rate
user
promotion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110351765.XA
Other languages
English (en)
Other versions
CN112801425B (zh
Inventor
王韵陶
陈炳文
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202110351765.XA priority Critical patent/CN112801425B/zh
Publication of CN112801425A publication Critical patent/CN112801425A/zh
Application granted granted Critical
Publication of CN112801425B publication Critical patent/CN112801425B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0242Determining effectiveness of advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Strategic Management (AREA)
  • Economics (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Finance (AREA)
  • Accounting & Taxation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Game Theory and Decision Science (AREA)
  • Human Resources & Organizations (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种信息点击率的确定方法、装置、计算机设备和存储介质。该方法包括:获取与推广信息对应的推广描述内容和推广属性数据,并获取与用户对象对应的用户相关数据,该用户相关数据至少包括用户属性数据;对推广描述内容进行分词处理,得到对应的词序列;基于预先构建的目标词向量字典将词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征;对推广属性数据和用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征;基于词嵌入特征、推广属性特征和用户相关特征,确定信息点击率,信息点击率表征用户对象点击推广信息的概率。采用本方法能够提高信息点击率预估的精准度。

Description

信息点击率的确定方法、装置、计算机设备和存储介质
技术领域
本申请涉及计算机技术领域,特别是涉及一种信息点击率的确定方法、装置、计算机设备和存储介质。
背景技术
点击率是指网页中某一内容,例如,新闻、广告或者产品详情页等被用户点击的次数与被显示次数之比,它反映的是该内容被用户点击的概率。而通过预测用户对某个内容的点击率,可以为是否向该用户推荐该内容相关的信息提供依据。
在预测用户对某个内容的点击率时,一般会依据用户的年龄、性别等用户特征,以及该内容的类别、关键词信息等内容特征预测用户的点击率。然而,用户的用户特征以及内容的内容特征的复杂度较高,难以保证所预测的点击率的精准性,使得预测的点击率的精准度低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高精准度的信息点击率的确定方法、装置、计算机设备和存储介质。
一种信息点击率的确定方法,所述方法包括:
获取与推广信息对应的推广描述内容和推广属性数据,并获取与用户对象对应的用户相关数据,所述用户相关数据至少包括用户属性数据;
对所述推广描述内容进行分词处理,得到对应的词序列;
基于预先构建的目标词向量字典将所述词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征;
对所述推广属性数据和所述用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征;
基于所述词嵌入特征、所述推广属性特征和所述用户相关特征,确定信息点击率,所述信息点击率表征所述用户对象点击所述推广信息的概率。
一种信息点击率的确定装置,所述装置包括:
获取模块,用于获取与推广信息对应的推广描述内容和推广属性数据,并获取与用户对象对应的用户相关数据,所述用户相关数据至少包括用户属性数据;
分词模块,用于对所述推广描述内容进行分词处理,得到对应的词序列;
映射模块,用于基于预先构建的目标词向量字典将所述词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征;
编码模块,用于对所述推广属性数据和所述用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征;
确定模块,用于基于所述词嵌入特征、所述推广属性特征和所述用户相关特征,确定信息点击率,所述信息点击率表征所述用户对象点击所述推广信息的概率。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取与推广信息对应的推广描述内容和推广属性数据,并获取与用户对象对应的用户相关数据,所述用户相关数据至少包括用户属性数据;
对所述推广描述内容进行分词处理,得到对应的词序列;
基于预先构建的目标词向量字典将所述词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征;
对所述推广属性数据和所述用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征;
基于所述词嵌入特征、所述推广属性特征和所述用户相关特征,确定信息点击率,所述信息点击率表征所述用户对象点击所述推广信息的概率。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取与推广信息对应的推广描述内容和推广属性数据,并获取与用户对象对应的用户相关数据,所述用户相关数据至少包括用户属性数据;
对所述推广描述内容进行分词处理,得到对应的词序列;
基于预先构建的目标词向量字典将所述词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征;
对所述推广属性数据和所述用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征;
基于所述词嵌入特征、所述推广属性特征和所述用户相关特征,确定信息点击率,所述信息点击率表征所述用户对象点击所述推广信息的概率。
上述信息点击率的确定方法、装置、计算机设备和存储介质,获取与推广信息对应的推广描述内容和推广属性数据,并获取与用户对象对应的用户相关数据,对推广描述内容进行分词处理,得到对应的词序列,基于预先构建的目标词向量字典将词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征,从而能够将推广描述内容的文字信息转换为可计算的数值特征,可以有效完整地表达原始数据的信息,从信息源头保证数据的完整性和有效性。对推广属性数据和用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征,基于词嵌入特征、推广属性特征和用户相关特征,能够准确预测用户对象点击推广信息的信息点击率,从而提升信息点击率预估的精准度。
附图说明
图1为一个实施例中信息点击率的确定方法的应用环境图;
图2为一个实施例中信息点击率的确定方法的流程示意图;
图3为一个实施例中词向量模型的训练步骤的流程示意图;
图4为一个实施例中词向量模型的输入和输出的示意图;
图5为一个实施例中对推广属性数据和用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征的流程示意图;
图6为一个实施例中点击率预测模型的训练步骤的流程示意图;
图7为另一个实施例中点击率预测模型的训练步骤的流程示意图;
图8为另一个实施例中信息点击率的确定方法的流程示意图;
图9为一个实施例中信息点击率的确定装置的结构框图;
图10为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请涉及人工智能(Artificial Intelligence,AI)技术领域,其中,人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。本申请实施例提供的方案涉及人工智能的信息点击率的确定方法,具体通过如下各实施例进行说明。
本申请提供的信息点击率的确定方法,可以应用于如图1所示的信息点击率确定系统。如图1所示,该信息点击率确定系统包括终端110和服务器120。在一个实施例中,终端110和服务器120均可单独执行本申请实施例中提供的信息点击率的确定方法。终端110和服务器120也可协同用于执行本申请实施例中提供的信息点击率的确定方法。当终端110和服务器120协同用于执行本申请实施例中提供的信息点击率的确定方法时,终端110获取与推广信息对应的推广描述内容和推广属性数据,并获取与用户对象对应的用户相关数据,该用户相关数据至少包括用户属性数据。终端110对推广描述内容进行分词处理,得到对应的词序列。终端110基于预先构建的目标词向量字典将词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征。终端110对推广属性数据和用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征。终端110将词嵌入特征、推广属性特征和用户相关特征发送至服务器120。服务器120基于词嵌入特征、推广属性特征和用户相关特征,确定信息点击率,该信息点击率表征用户对象点击推广信息的概率。服务器120将信息点击率返回至终端110。
其中,终端110可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器120可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。终端110以及服务器120可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。
在一个实施例中,多个服务器可组成为一区块链,而服务器为区块链上的节点。
在一个实施例中,该信息点击率的确定方法所产生的数据可保存于区块链上,例如推广信息、推广描述内容、推广属性数据、用户相关数据、推广描述内容对应的词序列、词嵌入特征、推广属性数据对应的推广属性特征、用户相关数据对应的用户相关特征,以及信息点击率等数据均可保存于区块链上。
在一个实施例中,如图2所示,提供了一种信息点击率的确定方法,以该方法应用于图1中的计算机设备(该计算机设备具体可以是图1中的终端或服务器),包括以下步骤:
步骤S202,获取与推广信息对应的推广描述内容和推广属性数据,并获取与用户对象对应的用户相关数据,该用户相关数据至少包括用户属性数据。
其中,推广信息可以是推广描述内容的表示形式,具体可以是广告标题、广告链接、缩略图、内容概述、部分广告内容或者全部广告内容。推广描述内容是指对推广信息的详细描述,例如可以是广告内容。推广属性数据可以包括推广信息的所属的题材、类别、或来源平台等数据。
用户相关数据是与用户对象相关的数据,包括用户属性数据,还可以包括用户行为数据。用户属性数据是与用户对象相关的属性数据,具体可以是用户姓名、性别、年龄和所在城市等信息中的至少一种。用户行为数据是与用户对象的网络行为相关的数据,具体可以包括用户对象的历史点击行为等。
具体地,计算机设备可获取与推广信息对应的推广描述内容,并获取该推广信息对应的推广属性数据。计算机设备可获取与用户对象对应的用户相关数据。
在一个实施例中,计算机设备可从媒体平台获取待推送的推广信息,并获取每个待推送的推广信息所属的题材、所属类别、所属媒体平台等至少一种数据,将所获取的数据作为该待推送的推广信息对应的推广属性数据。
在一个实施例中,用户通过终端登录媒体应用,终端获取用户在该媒体应用上注册时所使用的用户姓名、性别、年龄和所在城市等信息中的至少一种,将用户姓名、性别、年龄和所在城市等信息中的至少一种作为用户属性数据。计算机设备可将用户属性数据作为用户相关数据。
进一步地,计算机设备还可以获取用户在媒体应用上产生的历史点击行为,并将历史点击行为作为用户行为数据。历史点击行为表示用户对历史推送信息进行点击的操作。计算机设备可将用户属性数据和用户点击行为作为用户相关数据。
步骤S204,对推广描述内容进行分词处理,得到对应的词序列。
具体地,推广描述内容包括文本内容,还可以包括图片、视频、音频中的至少一种。计算机设备可提取推广描述内容中的文本内容,对所提取的文本内容进行分词处理,得到各分词。各分词构成该推广描述内容对应的词序列。进一步地,计算机设备将各分词按照在推广描述内容中出现的顺序排列,得到词序列。
在一个实施例中,计算机设备对推广描述内容中的文本内容进行分词处理,获得各分词。计算机设备可对各分词进行去重处理,以去除相同的分词,获得词序列。计算机设备还可去除各分词中的语气助词或无实意词等,获得词序列。
在其中一个实施例中,当推广描述内容包括图片、视频、音频中的至少一种时,可将图片、视频、音频中的至少一种转换为相应的文本内容,并对转换得到的文本内容进行分词处理。
步骤S206,基于预先构建的目标词向量字典将词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征。
其中,目标词向量字典用于表征各候选词对应的词向量权重;该目标词向量词典是对训练词对中的输入词进行预测,以获得各个候选词对应训练词对中的关联词的关联概率,并基于关联概率对各候选词的词向量权重进行调整所得到的。
具体地,计算机设备可获取预先构建的目标词向量字典,基于目标词向量字典确定与每个词分别对应的词向量权重,以将每个词映射至对应的向量空间,从而将每个词转换为相应的数值向量,得到各个词分别对应的词嵌入特征。
在一个实施例中,计算机设备可对词序列中的每个词进行独热编码处理,得到每个词对应的独热码。接着,计算机设备可在目标词向量字典中查找与每个词分别对应的词向量权重,将每个词对应的独热码和对应的词向量权重进行点乘处理,得到每个词分别对应的词嵌入特征。
步骤S208,对推广属性数据和用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征。
具体地,计算机设备可通过预设编码规则对推广属性数据和用户相关数据分别进行编码处理,得到推广属性数据对应的推广属性特征,以及用户相关数据对应的用户相关特征。
在一个实施例中,预设编码规则可为独热编码,计算机设备可对推广属性属性和用户相关数据分别进行独热编码处理,得到推广属性数据对应的推广属性特征,以及用户相关数据对应的用户相关特征。该推广属性特征和用户相关特征通过独热码one-hot表征。
在一个实施例中,预设编码规则可为标签编码,计算机设备可对推广属性属性和用户相关数据分别进行标签编码处理,得到推广属性数据对应的推广属性特征,以及用户相关数据对应的用户相关特征。还可以通过TF-IDF(term frequency–inverse documentfrequency,词频-逆文档频率)编码方式,但不限于此。
步骤S210,基于词嵌入特征、推广属性特征和用户相关特征,确定信息点击率,该信息点击率表征用户对象点击推广信息的概率。
其中,信息点击率表征用户对象点击推广信息的概率,该信息点击率可用于对推广信息转化率的预估。比如对于某一个用户对象,预估用户对象是否会点击推广信息,或者预估该用户对象点击推广信息的概率,以及预估用户对象是否会产生下单等行为等。
具体地,计算机设备将词嵌入特征、推广属性特征和用户相关特征进行融合处理,以得到用户对象点击推广信息的信息点击率。计算机设备可将词嵌入特征、推广属性特征和用户相关特征输入至训练好的点击率预测模型,通过训练好的点击率预测模型将词嵌入特征、推广属性特征和用户相关特征进行拼接处理,并将点击率预测模型的权重矩阵和拼接后的特征进行融合处理,输出用户对象针对该推广信息的信息点击率。进一步地,计算机设备将拼接后的特征与点击率预测模型的权重矩阵进行点乘处理,得到用户对象针对该推广信息的信息点击率。按照相同的处理方式,计算机设备可获得每个用户对象针对每个推广信息的信息点击率。
上述信息点击率的确定方法中,获取与推广信息对应的推广描述内容和推广属性数据,并获取与用户对象对应的用户相关数据,对推广描述内容进行分词处理,得到对应的词序列,基于预先构建的目标词向量字典将词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征,从而能够将推广描述内容的文字信息转换为可计算的数值特征,可以有效完整地表达原始数据的信息,从信息源头保证数据的完整性和有效性。对推广属性数据和用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征,基于词嵌入特征、推广属性特征和用户相关特征,能够准确预测用户对象点击推广信息的概率,从而提升信息点击率预估的精准度。
在一个实施例中,如图3所示,该目标词向量字典是从训练好的词向量模型中获得,该词向量模型的第一训练步骤包括:
步骤S302,获取与样本推广信息对应的样本推广描述内容,并对样本推广描述内容进行分词处理,得到对应的各样本分词。
其中,样本推广信息是用于训练词向量模型的训练样本,可以是从已推送的历史推广信息中获取的。样本推广信息的数量可根据需求设置。
具体地,计算机设备可从已推送的历史推广信息中筛选出样本推广信息,并获取与该样本推广信息对应的样本推广描述内容。计算机设备可提取样本推广描述内容中的样本文本,对所提取的样本文本进行分词处理,得到该样本文本对应的各样本分词。
步骤S304,从各样本分词中选取输入词和相应的关联词,将输入词和关联词组合为样本词对;该关联词为输入词的上文词或下文词。
其中,输入词作为训练过程中的词向量模型的输入,关联词作为训练过程中的词向量模型的期望输出词。
具体地,计算机设备可将各样本分词按照在样本推广描述内容中出现的顺序排列,得到样本词序列。计算机设备可从各样本分词中选择输入词,并选择该输入词的上文词或下文词中的至少一种,将所选择的上文词或下文词作为该输入词的关联词。计算机设备将所选择的输入词分别和每个关联词进行组合,每个组合作为一个样本词对,从而得到各样本词对。
步骤S306,将输入词输入待训练的词向量模型,基于待训练的词向量模型中的初始词向量字典,预测各个候选词对应关联词的关联概率。
其中,训练过程中的词向量模型为单输入多输出的模型,样本词对中的输入词作为训练过程中的词向量模型的输入,训练过程中的词向量模型的输出为各个候选词对应该样本词对中的关联词的概率。初始词向量字典用于表征各候选词对应的初始词向量权重。词向量模型可以是Word2Vec模型,具体可以是Skig-gram模型。
如图4所示,为词向量模型的输入和输出的示意图。输入层的输入词为
Figure 166230DEST_PATH_IMAGE001
,输入词
Figure 526804DEST_PATH_IMAGE001
经过隐层的处理后,将隐层输出的隐层特征作为输出层的输入。经过输出层分别输出各个候选词为输入词
Figure 710661DEST_PATH_IMAGE001
的上文词
Figure 814883DEST_PATH_IMAGE002
Figure 502216DEST_PATH_IMAGE003
,以及各个候选词为输入词
Figure 299271DEST_PATH_IMAGE001
的下文词
Figure 642528DEST_PATH_IMAGE004
Figure 363490DEST_PATH_IMAGE005
的关联概率。
具体地,计算机设备将样本词对中的输入词输入待训练的词向量模型,初始词向量字典在待训练的词向量模型中表现为初始权重矩阵。待训练的词向量模型通过对输入词进行独热编码,得到对应的独热编码特征,并将该独热编码特征和初始权重矩阵的转置矩阵进行点乘处理,得到输入层到隐层的隐层特征。
例如,各样本分词可以编码成one-hot格式,输入层大小为1*N,其中N为样本分词的个数。
Figure 374171DEST_PATH_IMAGE006
为隐层的初始权重矩阵,即初始词向量词典,大小为V*N。
Figure 76548DEST_PATH_IMAGE006
中的每一行代表一个候选词的初始词向量权重,其中V为样本分词的长度,N为隐层神经元个数,同时也是词嵌入特征的维度。隐层到输出层的权重矩阵用O表示,大小为N*V。
待训练的词向量模型中输入层到隐层的隐层特征可通过以下公式获得:
Figure 172680DEST_PATH_IMAGE007
其中,X是指表示单个分词的独热编码特征,h为分词从输入层到隐层的输出的隐层特征,即
Figure 681022DEST_PATH_IMAGE008
从隐层到输出层的输出特征为:
Figure 280631DEST_PATH_IMAGE009
其中,
Figure 419488DEST_PATH_IMAGE010
是指从隐层到输出层的输出特征,
Figure 799654DEST_PATH_IMAGE011
为隐层到输出层的权重矩阵。
计算机设备对输出特征进行归一化处理,得到各个候选词对应关联词的关联概率。该候选词对应关联词的关联概率,是指该候选词为关联词的预测概率,可通过以下公式(3)计算,即
Figure 783790DEST_PATH_IMAGE001
出现的条件下,
Figure 769064DEST_PATH_IMAGE012
出现的概率为:
Figure 875560DEST_PATH_IMAGE013
其中,t表示第t个输入词,
Figure 680705DEST_PATH_IMAGE014
是一对训练词对,
Figure 734112DEST_PATH_IMAGE001
表示第t个输入词w,
Figure 622827DEST_PATH_IMAGE012
表示输入词
Figure 837907DEST_PATH_IMAGE001
的关联词,即期望输出。
Figure 130348DEST_PATH_IMAGE015
表示预测输出
Figure 784184DEST_PATH_IMAGE016
为期望输出
Figure 212891DEST_PATH_IMAGE012
的关联概率。K表示u中分量的总数量,
Figure 864452DEST_PATH_IMAGE017
为输出向量u中的第k个分量,
Figure 706506DEST_PATH_IMAGE016
为输出向量u中的第j个分量;
Figure 836136DEST_PATH_IMAGE018
表示u中k个分量之和。
在一个实施例中,计算机设备将各样本分词进行独热编码处理,得到各样本分词分别对应的独热编码特征。计算机设备将输入词对应的独热编码特征输入待训练的词向量模型。
步骤S308,根据各个候选词分别对应关联词的关联概率,构建第一损失函数。
具体地,计算机设备根据各个候选词分别对应关联词的关联概率,构建待训练的词向量模型的第一损失函数。进一步地,计算机设备获得每个候选词分别对应关联词的关联概率之后,选择最大的关联概率以确定第一损失函数。例如,计算机设备可通过如下公式构建第一损失函数:
Figure 384929DEST_PATH_IMAGE019
等价于
Figure 269709DEST_PATH_IMAGE020
改写为最小化损失函数,即第一损失函数:
Figure 536742DEST_PATH_IMAGE021
步骤S310,通过第一损失函数对待训练的词向量模型进行训练,以调整初始词向量词典,直至达到第一训练停止条件时停止,得到训练好的词向量模型,以及训练好的词向量模型中的目标词向量字典。
具体地,计算机设备可通过第一损失函数对待训练的词向量模型进行训练,在训练过程中调整词向量模型的初始词向量词典并继续进行训练,直到词向量模型满足训练停止条件时停止训练,得到训练好的词向量模型,从而得到训练好的词向量模型中的目标词向量字典。
在本实施例中,训练停止条件可以为词向量模型的损失值小于或等于损失阈值、训练迭代达到预设迭代次数,以及训练迭代时间达到预设迭代时间等中的至少一种。
例如,通过第一损失函数计算出每次训练中产生的损失值,基于损失值和损失阈值之间的差异调整该词向量模型的初始词向量词典并继续训练,直到训练停止,得到训练好的词向量模型。
例如,终端通过计算词向量模型在训练过程中的迭代次数,当训练过程终端的迭代次数达到预设迭代次数时,停止训练,得到训练好的词向量模型。
本实施例中,通过对样本推广描述内容进行分词处理,得到对应的各样本分词,从各样本分词中选取输入词,并选择输入词的上文词或下文次作为关联词,并将输入词作为待训练的词向量模型的输入特征,以预测各个候选词为关联词的关联概率,能够通过各分词上下文之间的关联程度对词向量模型中的初始词向量词典进行调整,从而得到目标词向量词典。该目标词向量词典表征各个候选词的词向量权重,则通过训练好的词向量模型能够准确将各个分词映射至向量空间,从而准确得到每个分词对应的词嵌入特征。
可以理解,在训练好词向量模型后,计算机设备对推广描述内容进行分词处理,得到对应的词序列。计算机设备将词序列中的每个词输入训练好的词向量模型,训练好的词向量模型的隐层基于目标词向量词典将每个词分别映射至对应的向量空间,输出每个词对应的词嵌入特征。
在一个实施例中,词序列中的每个词编码成one-hot格式,则目标词向量词典中的每一行可用于表示一个候选词对应的词嵌入特征。通过将词序列中的每个词编码成词向量格式,能够有效降低计算维度,提高预测效率。
在一个实施例中,从各样本分词中选取输入词和相应的关联词,将输入词和关联词组合为样本词对,包括:获取预设相邻参数,从各样本分词中选取输入词,并基于预设相邻参数确定各样本分词中与输入词相应的关联词;将输入词分别和每个关联词组合,获得样本词对。
其中,预设相邻参数是指与输入词相邻的上文词和下文词的数值,输入词是指作为词向量模型的输入的词。例如,预设相邻参数为2,则表示需要获取与输入词相邻的两个上文词,以及该输入词相邻的两个下文词。关联词作为词向量模型训练的标签,是词向量模型训练的期望输出词。
具体地,计算机设备可从各样本分词中选择任意词作为输入词,并获取预设相邻参数。计算机设备根据该预设相邻参数从样本分词中选择与该输入词相邻的上文词和下文词,将所获得的每个上文词和每个下文词作为该输入词的关联词。计算机设备将输入词分别和每个关联词进行组合,每个组合作为一个样本词对。例如,每个组合表示为(输入词,关联词)。
在一个实施例中,计算机设备可依次将每个样本分词作为输入词,根据预设相邻参数确定与该输入词相应的关联词,从而将输入词和输出词构建为样本词对。可以理解,该输入词和关联词来自样本推广描述内容对应的各样本分词。
在其中一个实施例中,计算机设备可将每个样本分词按照在样本推广描述内容中出现的先后顺序进行排列,并从排列后的样本分词中选择输入词,以及基于预设相邻参数确定对应的关联词。
例如,样本推广信息为“这是一款XX保险推出的特惠医疗,最高保额XXX元”,计算机设备对该样本推广信息进行分词处理,得到各样本词序列“这是,一款,XX保险,推出,特惠,医疗险,最高保额,XXX元”。当输入词为“XX保险”,预设相邻参数为2,则关联词为“这是”、“一款”、“推出”“特惠”,则构成的样本词对为(XX保险,这是)、(XX保险,一款)、(XX保险,推出)和(XX保险,特惠)。
本实施例中,从各样本分词中选取输入词,并基于预设相邻参数确定各样本分词中与输入词相应的关联词,将输入词分别和每个关联词组合,能够自动构建训练样本,并扩充训练样本的数量。
在一个实施例中,如图5所示,提供了一种信息点击率的确定方法,包括:
步骤S502,获取与推广信息对应的推广描述内容和推广属性数据,并获取与用户对象对应的用户相关数据,用户相关数据至少包括用户属性数据。
步骤S504,对推广描述内容进行分词处理,得到对应的词序列。
步骤S506,基于预先构建的目标词向量字典将词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征。
具体地,计算机设备可获取与推广信息对应的推广描述内容,并获取该推广信息对应的推广属性数据,以及获取与用户对象对应的用户相关数据。计算机设备对推广描述内容进行分词处理,得到对应的词序列。计算机设备获取预先构建的目标词向量字典,基于目标词向量字典将词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征。
该对推广属性数据和用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征,包括步骤S508-步骤S512:
步骤S508,当推广属性数据属于数值类型时,直接将推广属性数据作为对应的推广属性特征。
具体地,计算机设备可获取推广信息对应的推广属性数据,并确定推广信息对应的推广属性数据的数据类型。推广属性数据的数据类型包括数值类型和非数据类型。数据类型是指通过数值形式划分推广信息的属性,例如,推广属性数据为价格,价格通过数值表征,则该推广属性数据为数值类型。
当推广属性数据属于数值类型时,可直接将该推广属性数据作为对应的推广数据特征。
步骤S510,当推广属性数据属于非数值类型时,采用独热编码方式对推广属性数据进行编码处理,得到对应的推广属性特征。
具体地,非数值类型是指以非数值形式划分推广信息的属性。例如,推广属性数据包括商品类别,而商品类别包括男装、女装,则该推广属性数据数据非数值类型。
当推广属性数据属于非数值类型时,采用独热编码方式对推广属性数据进行独热编码处理,得到对应的独热码。计算机设备将该独热码作为该推广属性数据对应的推广属性特征。
步骤S512,对用户相关数据中的用户属性数据进行划分编号后,采用独热编码方式进行编码处理,得到对应的用户相关特征;该用户属性数据至少包括用户性别、用户年龄和用户所属地域中的一种。
具体地,该用户属性数据至少包括用户性别、用户年龄和用户所属地域中的一种,计算机设备对用户属性数据中所包含的属性划分编号。计算机设备对用户相关数据中的用户属性数据划分编号后,采用独热编码方式对用户属性数据进行独热编码处理,得到用户属性数据对应的独热码。计算机设备将用户属性数据对应的独热码作为对应的用户属性特征,该用户相关特征包括用户属性特征。
例如,对于用户性别,可直接用0和1表示不同的性别。对于用户年龄,可以由小到大划分为7个年龄段,每个年龄分别用整数1-7进行标识,可划分为0-18、18-25、25-30、30-40、40-50、50-60、60以上。对于用户所属地域,可以将所有地域进行编号,使用one-hot稀疏向量的方式表示用户所属地域。
在一个实施例中,用户相关数据还包括用户行为数据,用户行为数据是与用户对象的网络行为相关的数据,具体可以包括用户对象的历史点击行为等。计算机设备可采用独热编码方式对用户行为数据进行编码处理,得到对应的用户行为特征。用户相关特征包括该用户行为特征。
本实施例中,对于属于数值类型的推广属性数据,直接作为对应的推广属性特征,减少处理步骤,节省计算资源。对于属于非数值类型的推广属性数据,通独热编码方式将推广属性属性编码为对应的数值向量,并且通过独热编码方式得到的用户相关特征简单,能够降低计算维度。
在一个实施例中,基于词嵌入特征、推广属性特征和用户相关特征,确定信息点击率,包括:将词嵌入特征、推广属性特征和用户相关特征输入点击率预测模型,分别得到点击率预测模型中每个子预测模型输出的子点击率;基于每个子预测模型分别输出的子点击率和对应的权重,确定用户对象针对推广信息的信息点击率。
具体地,点击率预测模型包括多个子预测模型。计算机设备可将词嵌入特征、推广属性特征和用户相关特征输入点击率预测模型,通过点击率预测模型中的每个子预测模型分别对词嵌入特征、推广属性特征和用户相关特征进行融合处理,得到每个子预测模型分别输出的子点击率。点击率预测模型可确定每个子预测模型各自对应的权重,将各子预测模型对应的子点击率和对应的权重的乘积之和,作为该用户对象针对推广信息的信息点击率。
在一个实施例中,计算机设备可将各个词分别对应的词嵌入特征进行融合处理,得到推广描述内容对应的词嵌入表达。计算机设备将词嵌入表达、推广属性特征和用户相关特征输入点击率预测模型,分别得到点击率预测模型中每个子预测模型输出的子点击率。
本实施例中,点击率预测模型中集成了多个子预测模型,通过每个子预测模型分别对词嵌入特征、推广属性特征和用户相关特征进行处理,获得不同的子预测模型分别对应的子点击率,使得点击率预测模型的预测精度更高,所预估的信息点击率更准确。
在一个实施例中,基于词嵌入特征、推广属性特征和用户相关特征,确定信息点击率,包括:将各个词分别对应的词嵌入特征进行融合处理,得到推广描述内容对应的词嵌入表达;通过点击率预测模型对词嵌入表达、推广属性特征和用户相关特征进行拼接处理,以输出信息点击率。
具体地,计算机设备可获取每个词对应的权重,将每个词对应的权重和词嵌入特征进行点乘处理,得到各点乘处理的乘积。计算机设备将各乘积之和求均值,得到推广描述内容对应的词嵌入表达。
计算机设备将词嵌入表达、推广属性特征和用户相关特征输入训练好的点击率预测模型。点击率预测模型对词嵌入表达、推广属性特征和用户相关特征进行拼接处理,得到拼接特征。通过点击率预测模型中的权重矩阵和该拼接特征进行点乘处理,得到推广信息对应的信息点击率。
在一个实施例中,计算机设备可将词嵌入表达、推广属性特征和用户相关特征进行拼接处理,得到拼接特征。计算机设备将该拼接特征输入训练好的点击率预测模型,点击率预测模型将权重矩阵和拼接特征进行点乘处理,得到信息点击率。
本实施例中,将各个词分别对应的词嵌入特征进行融合处理,以将推广描述内容的特征信息进行整合,能够提取原始数据的关键特征。通过点击率预测模型对词嵌入表达、推广属性特征和用户相关特征等多方面的特征进行融合,结合多方面特征能够更准确地预估用户对象对推广信息的信息点击率。
在一个实施例中,如图6所示,该点击率预测模型通过第二训练步骤获得,该第二训练步骤包括:
步骤S602,获取与样本推广信息对应的样本推广描述内容和样本推广属性数据,并获取与样本用户对象对应的样本用户相关数据,以及样本用户对象对样本推广信息的期望点击率。
具体地,计算机设备可从已推送的推广信息中筛选出样本推广信息,并获取与该样本推广信息对应的样本推广描述内容,以及与样本推广信息对应的样本推广属性数据。计算机设备可从获取样本用户对象,并获取每个样本用户对象对应的样本用户相关数据,该样本用户相关数据可包括样本用户属性数据,还可以包括样本用户行为数据。
计算机设备获取每个样本用户对象对样本推广信息的期望点击率,将该期望点击率作为点击率预测模型在训练过程中的标签。
步骤S604,对样本推广描述内容进行分词处理,得到对应的各样本分词。
具体地,计算机设备可提取样本推广描述内容中的样本文本,对所提取的样本文本进行分词处理,得到该样本文本对应的各样本分词。
步骤S606,通过目标词向量字典将各样本分词转换为对应的样本词嵌入特征。
具体地,计算机设备获取目标词向量字典,基于目标词向量字典确定与每个样本分词分别对应的词向量权重,以将每个样本分词映射至对应的向量空间,从而将每个样本分词转换为相应的数值向量,得到各个样本分词分别对应的样本词嵌入特征。
在一个实施例中,计算机设备可将各样本分词输入训练好的词向量模型,通过词向量模型中的目标词向量词将各样本分词至对应的向量空间,得到各个样本分词分别对应的样本词嵌入特征。
步骤S608,对样本推广属性数据和样本用户相关数据分别进行编码处理,得到对应的样本推广属性特征和样本用户相关特征。
具体地,计算机设备可通过预设编码规则对样本推广属性数据和样本用户相关数据分别进行编码处理,得到样本推广属性数据对应的样本推广属性特征,以及样本用户相关数据对应的样本用户相关特征。
在一个实施例中,预设编码规则可为独热编码,计算机设备可对样本推广属性属性和样本用户相关数据分别进行独热编码处理,得到样本推广属性数据对应的推广属性特征,以及样本用户相关数据对应的样本用户相关特征。该样本推广属性特征和样本用户相关特征通过独热码one-hot表征。
在一个实施例中,该样本用户相关数据可包括样本用户属性数据和样本用户行为数据。计算机设备可对样本用户属性数据和样本用户行为数据分别进行独热编码处理,得到样本用户属性特征和样本用户行为特征,将样本用户属性特征和样本用户行为特征作为样本用户相关特征。
步骤S610,将样本词嵌入特征、样本推广属性特征和样本用户相关特征输入待训练的点击率预测模型,输出样本用户对象针对样本推广信息的预测点击率。
具体地,计算机设备将样本词嵌入特征、样本推广属性特征和样本用户相关特征输入待训练的点击率预测模型。待训练的点击率预测模型将样本词嵌入特征、样本推广属性特征和样本用户相关特征进行融合处理,输出每个样本用户对象针对样本推广信息的预测点击率。
在一个实施例中,计算机设备将各个样本分词分别对应的样本词嵌入特征进行融合处理,得到样本推广描述内容对应的样本词嵌入表达。通过待训练的点击率预测模型对样本词嵌入表达、样本推广属性特征和样本用户相关特征进行融合处理,输出预测点击率。
在一个实施例中,待训练的点击率预测模型对样本词嵌入表达、样本推广属性特征和样本用户相关特征进行拼接处理,得到样本拼接特征。通过待训练的点击率预测模型中的权重矩阵和该样本拼接特征进行点乘处理,得到样本推广信息对应的预测点击率。
步骤S612,根据预测点击率和对应的期望点击率之间的差异,调整待训练的点击率预测模型的参数,直至达到第二训练停止条件时停止,得到训练好的点击率预测模型。
具体地,计算机设备确定预测点击率和对应的期望点击率之间的差异,并根据预测点击率和对应的期望点击率之间的差异,调整待训练的点击率预测模型的参数。进一步地,计算机设备计算预测点击率和对应的期望点击率之间的损失误差,并根据该损失误差调整点击率预测模型的参数。
计算机设备对调整参数后的点击率预测模型继续训练,直至达到第二训练停止条件时停止,得到训练好的点击率预测模型。
在本实施例中,训练停止条件可以为点击率预测模型的损失误差小于或等于损失阈值、点击率预测模型的迭代次数达到预设迭代次数,以及迭代时间达到预设迭代时间,预测性能达到预设性能指标等中的至少一种。
例如,计算出点击率预测模型每次训练中产生的损失误差,基于损失误差和损失阈值之间的差异调整该点击率预测模型的参数并继续训练,直到训练停止,得到训练好的点击率预测模型。
在本实施例中,将样本推广描述内容、样本推广属性数据、样本用户对象对应的样本用户相关数据作为点击率预测模型的训练样本,并提取训练样本的特征,获得样本词嵌入特征、样本推广属性特征和样本用户相关特征。将多方面的特征输入待训练的点击率预测模型,充分考虑到各方面因素对点击率预测模型所产生的损失,从而通过训练能够提高点击率预测模型的预测精度。通过训练好的点击率预测模型,能够准确预估每个用户对象针对推广信息的信息点击率。
在一个实施例中,如图7所示,该点击率预测模型通过第二训练步骤获得,该第二训练步骤包括:
步骤S702,获取与样本推广信息对应的样本推广描述内容和样本推广属性数据,并获取与样本用户对象对应的样本用户相关数据,以及样本用户对象对样本推广信息的期望点击率。
步骤S704,对样本推广描述内容进行分词处理,得到对应的各样本分词。
步骤S706,通过目标词向量字典将各样本分词转换为对应的样本词嵌入特征。
步骤S708,对样本推广属性数据和样本用户相关数据分别进行编码处理,得到对应的样本推广属性特征和样本用户相关特征。
该将样本词嵌入特征、样本推广属性特征和样本用户相关特征输入待训练的点击率预测模型,输出样本用户对象针对样本推广信息的预测点击率,包括步骤S710-步骤S712:
步骤S710,将样本词嵌入特征、样本推广属性特征和样本用户相关特征输入待训练的点击率预测模型,得到点击率预测模型中每个子预测模型分别输出的子预测点击率。
具体地,点击率预测模型包括多个子预测模型。计算机设备可将样本词嵌入特征、样本推广属性特征和样本用户相关特征输入待训练的点击率预测模型,通过待训练的点击率预测模型中的每个子预测模型分别对样本词嵌入特征、样本推广属性特征和样本用户相关特征进行融合处理,得到每个子预测模型分别输出的子预测点击率。
在一个实施例中,计算机设备可将各个样本分词分别对应的样本词嵌入特征进行融合处理,得到样本推广描述内容对应的样本词嵌入表达。计算机设备将样本词嵌入表达、样本推广属性特征和样本用户相关特征输入点击率预测模型,分别得到点击率预测模型中每个子预测模型输出的子预测点击率。
步骤S712,根据各子预测点击率和每个子预测模型对应的权重,确定样本用户对象针对样本推广信息的预测点击率。
具体地,点击率预测模型可确定每个子预测模型各自对应的权重,将各子预测模型对应的子预测点击率与对应权重的乘积之和,作为该样本用户对象针对样本推广信息的预测点击率。
根据预测点击率和对应的期望点击率之间的差异,调整待训练的点击率预测模型的参数,直至达到第二训练停止条件时停止,得到训练好的点击率预测模型,包括步骤S714-步骤S716:
步骤S714,获取每个子预测模型的复杂度,根据预测点击率和对应的期望点击率之间的损失误差、子预测模型的复杂度,构建第二损失函数。
具体地,计算机设备可确定待训练的点击率预测模型中所包含的子预测模型,并获取每个子预测模型的复杂度。计算机设备计算预测点击率和对应的期望点击率之间的损失误差,根据损失误差和每个子预测模型的复杂度构建第二损失函数。
例如,第二损失函数为:
Figure 470063DEST_PATH_IMAGE022
其中,
Figure 420832DEST_PATH_IMAGE023
为第i个样本推广信息的期望点击率和预测点击率之间的损失误差。
Figure 679775DEST_PATH_IMAGE024
为第k个子预测模型的损失函数,即子预测模型的复杂度,
Figure 168526DEST_PATH_IMAGE024
也称为点击率预测模型的结构损失函数;
Figure 702275DEST_PATH_IMAGE025
表示点击率预测模型对第i个样本推广信息的预测点击率。
在一个实施例中,在每次训练过程中,计算机设备确定本次训练过程中的点击预测模型中所包含的预测模型,并获取每个子预测模型在本次训练过程中的复杂度。
步骤S716,通过第二损失函数对待训练的点击率预测模型进行训练,以调整各子预测模型的参数,直至达到第二训练停止条件时停止,得到训练好的点击率预测模型。
具体地,计算机设备可通过第二损失函数对待训练的点击率预测模型进行训练,在训练过程中调整点击率预测模型的各子预测模型的参数并继续进行训练,直到点击率预测模型满足第二训练停止条件时停止训练,得到训练好的点击率预测模型。
在本实施例中,训练停止条件可以为点击率预测模型的损失误差小于或等于损失阈值、点击率预测模型的迭代次数达到预设迭代次数,以及迭代时间达到预设迭代时间,各个预测子模型的预测性能达到预设性能指标等中的至少一种。
在训练迭代过程中,计算机设备可在点击率预测模型中依次增加子预测模型,在增加子预测模型后继续对点击率预测模型继续训练。
在点击率预测模型中加入第t个子预测模型后,点击率预测模型输出的预测点击率为:
Figure 225660DEST_PATH_IMAGE026
其中,
Figure 389925DEST_PATH_IMAGE027
表示第k个子预测模型,
Figure 162709DEST_PATH_IMAGE028
表示集成了t个子预测模型后的点击率预测模型对第i个样本推广信息的预测点击率。
对第二损失函数进行多轮训练优化,加入第t个子预测模型后的损失函数表达式为:
Figure 437833DEST_PATH_IMAGE029
其中,
Figure 81304DEST_PATH_IMAGE030
为第t次迭代中子预测模型输出的对第i个样本推广信息的子预测点击率;
对上式(10)做二阶泰勒展开:g为一阶导数,h为2阶导数
Figure 213208DEST_PATH_IMAGE031
Figure 676550DEST_PATH_IMAGE032
本实施例中,点击率预测模型可以为XGBoost(eXtreme Gradient Boosting,极端梯度提升)模型,还可以是逻辑斯特回归模型、朴素贝叶斯模型、决策树模型、神经网络模型等。子预测模型可以是逻辑斯特回归模型、朴素贝叶斯模型、决策树模型、神经网络模型等。
本实施例中,通过将样本词嵌入特征、样本推广属性特征和样本用户相关特征输入待训练的点击率预测模型,得到点击率预测模型中每个子预测模型分别输出的子预测点击率,根据各子预测点击率和每个子预测模型对应的权重,确定样本用户对象针对样本推广信息的预测点击率,根据预测点击率和对应的期望点击率之间的损失误差、子预测模型的复杂度,构建第二损失函数,使得构建的第二损失函数包含了多个子预测模型的损失特征。基于多方面的损失对点击率预测模型进行训练,能够充分考虑到各方面损失对点击率预测模型的所产生的影响,从而通过训练能够提高点击率预测模型的预测精度和准确性。并且,点击率预测模型中集成了多个子预测模型,训练过程中调整各个子预测模型的参数,以提高各个子预测模型的精度,从而使得训练好的点击率预测模型具备更高的预测精度和准确性。
在一个实施例中,获取每个子预测模型的复杂度,包括:对于每个子预测模型,分别根据相应子预测模型输出的子预测点击率和子预测模型的叶子节点的数量,确定相应子预测模型的复杂度。
具体地,针对每个子预测模型,计算机设备确定子预测模型的叶子节点的数量,根据子预测模型输出的样本推广信息对应的子预测点击率和对应的叶子节点的数量,计算该子预测模型的复杂度。
例如,计算机设备可按照下列公式计算子预测模型的复杂度:
Figure 755365DEST_PATH_IMAGE033
其中,
Figure 299347DEST_PATH_IMAGE034
为子预测模型中每个叶子节点对应的子预测点击率,T为子预测模型的叶子节点的数量,
Figure 539836DEST_PATH_IMAGE035
Figure 756054DEST_PATH_IMAGE036
为预设控制参数。
本实施例中,对于每个子预测模型,分别根据相应子预测模型输出的子预测点击率和子预测模型的叶子节点的数量,确定相应子预测模型的复杂度,从而能够在训练过程中调整点击率预测模型中的子预测模型的数量,并且能够通过训练调整每个子预测模型对应的复杂度,使得训练好的点击率预测模型具备更高的预测精度和准确性。
如图8所示,提供了一种应用于保险广告推送场景的信息点击率的确定方法的流程示意图。
步骤S802,计算机设备可获取已推送的历史广告信息。
步骤S804,计算机设备对所获取的历史广告信息进行数据清洗,以去除无效的历史广告信息,从而筛选出与保险相关的保险广告信息。
步骤S806,将保险广告信息进行分词处理,得到各分词,并对各分词进行去重处理。接着,将去重后的各分词进行序列化处理,得到对应的词序列。
对保险广告信息进行分词处理,可以先去除去掉标点、字母、数字、特殊符号,例如a-zA-Z0-9’!"#等,还可以去掉预设的无效词,例如“的”、“哦”、“呀”等。保险广告信息分词所得到的词序列如表一所示:
表一 词序列格式
广告ID 保险广告信息 词序列
0000001 这是一款xx保险推出的特惠医疗险,最高保额xxx元。 [这是,一款,xx保险,推出,特惠,医疗险,最高保额,元]
0000002 xx医疗险,覆盖xx种疾病报销,点击页面立即申请。 [xx医疗险,覆盖,种,疾病,报销,点击页面,立即申请]
步骤S808,基于训练好的词向量模型将词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征。
步骤S810,将保险广告信息所对应的保险广告属性数据进行独热编码处理,得到保险广告属性特征。
步骤S812,获取用户对象和该用户对象对应的用户相关数据。
步骤S814,对用户相关数据进行独热编码处理,得到用户相关特征。
步骤S816,将词嵌入特征、保险广告属性特征和用户相关特征进行融合处理。
步骤S818,基于融合后的特征训练点击率预测模型,以获得训练好的点击率预测模型。
步骤S820,通过训练好的点击率预测模型预测用户对象点击各保险广告信息的信息点击率。
通过从历史广告信息中筛选出保险广告信息,并获取对应的保险广告属性数据。对保险广告信息分词,获得每个词对应的词嵌入特征,对保险广告属性数据和用户对象的用户相关数据进行独热编码处理,可提取保险广告属性特征和用户相关特征,从而训练点击率预测模型,使得训练好的点击率预测模型能够准确预估用户对保险广告信息的点击率。
在一个实施例中,该方法还包括:从推广信息中选取信息点击率满足推送条件的目标推广信息;向相应用户对象所对应的终端推送目标推广信息。
具体地,计算机设备可确定每个推广信息对应的信息点击率,选择信息点击率大于点击率阈值的推广信息作为目标推广信息。计算机设备将目标推广信息推送至相应用户对象所对应的终端。
在一个实施例中,计算机设备可分别确定每个用户对象对于同一推广信息的信息点击率,并将各信息点击率和点击率阈值进行对比,确定大于点击率阈值的信息点击率的目标数量。当该目标数量大于数量阈值时,将该目标数量对应的推广信息推送给信息点击率大于点击率阈值的用户对象对应的终端。
本实施例中,从推广信息中选取信息点击率满足推送条件的目标推广信息,向相应用户对象所对应的终端推送目标推广信息,从而能够基于预估的信息点击率筛选出目标推广信息,所筛选出来的目标推广信息转化率最高,从而有效提高推广信息的转化率。
在一个实施例中,该方法还包括:从推广信息中选取信息点击率满足推送条件的目标用户对象;向目标用户对象所对应的终端推送相应推广信息。
具体地,计算机设备可确定每个推广信息对应的信息点击率,选择信息点击率大于点击率阈值的用户对象作为目标用户对象。计算机设备向目标用户对象所对应的终端推送相应的推广信息。
在一个实施例中,从推广信息中选取信息点击率满足推送条件的目标推广信息,包括:获取推广信息所推广的服务产品对应的消耗资源数值;根据服务产品的消耗资源数值和推广信息对应的信息点击率,计算推广信息对应的期望收益;从推广信息中选取使得期望收益满足目标收益条件的目标推广信息。
其中,消耗资源数值是指获得服务产品所需消耗的资源数值。期望收益是基于预测的信息点击率所预估的收益。服务产品是指对用户提供服务的产品,例如保险产品、理财产品等,但不限于此。
具体地,计算机设备可从推广信息对应的推广描述内容中获取所要推广的服务产品,并获取该服务产品对应的消耗资源数值。针对每个推广信息,计算机设备可根据每个用户对象对应的信息点击率和该服务产品对应的消耗资源数值,计算每个用户对象对应的期望收益,从而根据每个用户对象对应的期望收益计算该推广信息对应的总期望收益。计算机设备可从每个推广信息对应的总期望收益中,选择总期望收益大于总收益阈值的推广信息作为目标推广信息。计算机设备将目标推广信息推送至相应用户对象所对应的终端。
在一个实施例中,计算机设备可将总期望收益最大的推广信息作为目标推广信息。
在一个实施例中,从推广信息中选取信息点击率满足推送条件的目标用户对象,包括:获取推广信息所推广的服务产品对应的消耗资源数值;根据服务产品的消耗资源数值和推广信息对应的信息点击率,计算推广信息对应的期望收益;从推广信息中选取使得期望收益满足目标收益条件的目标用户对象。
具体地,针对每个推广信息,计算机设备可根据每个用户对象对应的信息点击率和该服务产品对应的消耗资源数值,计算每个用户对象对应的期望收益。计算机设备可将大于收益阈值的期望收益所对应的用户对象作为目标用户对象。计算机设备针对目标用户对象推送相应推广信息,该相应推广信息是指使得目标用户对象所对应的期望收益大于收益阈值的推广信息。
本实施例中,基于推广信息的信息点击率和服务产品对应的消耗资源数值,预测该推广信息所获得的收益,从而基于期望收益筛选目标推广信息,从而在进行推广信息的针对性推送的同时充分考虑推广信息所带来的收益。
在一个实施例中,该推广信息为虚拟馈赠资源,该方法还包括:根据虚拟馈赠资源对应的信息点击率和虚拟馈赠资源所含的资源数值,确定虚拟馈赠资源对应的期望收益;从虚拟馈赠资源中,选取使得期望收益满足发放条件的目标虚拟馈赠资源,并针对用户对象发放目标虚拟馈赠资源。
其中,虚拟馈赠资源是指发放给用户对象对应的资源账户的虚拟物品,包括账户数值、红包、礼品券、优惠券、电子卡券、虚拟形象产品、虚拟充值卡、游戏装备和虚拟货币中的至少一种。
具体地,当推广信息为虚拟馈赠资源时,计算机设备可计算用户对象针对虚拟馈赠资源的信息点击率。计算机设备获取虚拟馈赠资源所包含的资源数值,根据资源数值和信息点击率,计算用户对象使用该虚拟馈赠资源所获得的期望收益。按照相同的处理方式,计算机设备可计算出用户对象针对每种虚拟馈赠资源所对应的期望收益。接着,计算机设备可筛选出期望收益大于收益阈值的虚拟馈赠资源作为目标虚拟馈赠资源,并将目标虚拟馈赠资源发放至用户对象对应的资源账户。
在一个实施例中,计算机设备获取虚拟馈赠资源所包含的资源数值,根据资源数值和信息点击率,计算每个用户对象使用该虚拟馈赠资源时分别获得的期望收益。计算机设备根据各个用户对象对应的期望收益计算该虚拟馈赠资源所对应的总期望收益,计算机设备可从每种虚拟馈赠资源对应的总期望收益中,选择总期望收益大于总收益阈值的虚拟馈赠资源作为目标虚拟馈赠资源。计算机设备将将目标虚拟馈赠资源发放至用户对象对应的资源账户。
在一个实施例中,计算机设备可从用户对象中,筛选出信息点击率大于点击率阈值的目标用户对象。针对每种虚拟馈赠资源,计算机设备获取虚拟馈赠资源所包含的资源数值,根据资源数值和相应的目标用户对象所对应的信息点击率,计算每个目标用户对象使用该虚拟馈赠资源时分别获得的期望收益。针对每种虚拟馈赠资源,计算机设备根据各目标用户对象对应的期望收益,计算同一虚拟馈赠资源的总期望收益。计算机设备根据每种虚拟馈赠资源对应的总期望收益,将总期望收益大于总收益阈值的虚拟馈赠资源作为目标虚拟馈赠资源。
在其他实施例中,计算机设备可选择总期望收益最大的虚拟馈赠资源作为目标虚拟馈赠资源。
在一个实施例中,该方法还包括:展示信息点击率、虚拟馈赠资源和期望收益的可视化对应关系。
具体地,终端确定出用户对象对每种虚拟馈赠资源的信息点击率、每个虚拟馈赠资源所含的资源数值,以及针对每个虚拟馈赠资源对应的期望收益值。接着,终端根据同一虚拟馈赠资源所对应的信息点击率、资源数值和期望收益,生成三者之间的可视化对应关系。进一步地,终端可通过曲线显示信息点击率、资源数值和期望收益的对应关系。
本实施例中,展示信息点击率、资源数值和期望收益的可视化对应关系,能够直观显示信息点击率、资源数值和期望收益的对应关系。并且通过该可视化对应关系,能够直接获取期望收益最高的虚拟馈赠资源发放给用户对象,从而在针对用户发放虚拟馈赠资源的同时实现收益的最大化。
在一个实施例中,从虚拟馈赠资源中,选取使得期望收益满足发放条件的目标虚拟馈赠资源,并针对用户对象发放目标虚拟馈赠资源,包括:
从可视化对应关系中,选择期望收益最大时对应的虚拟馈赠资源作为目标虚拟馈赠资源,并针对用户对象发放目标虚拟馈赠资源。
具体地,终端生成信息点击率、资源数值和期望收益的可视化对应关系后,能够直接从该可视化对应关系中确定期望收益最大的虚拟馈赠资源。接着,终端将该期望收益最大时对应的虚拟馈赠资源作为目标虚拟馈赠资源,并发放至用户对象对应的资源账户。
本实施例中,通过从可视化对应关系中,选择期望收益最大时对应的虚拟馈赠资源作为目标虚拟馈赠资源,能够以期望收益最大化作为虚拟馈赠资源的发放条件,使得在进行优惠券的个性化推送时充分考虑到商家的收益。
在一个实施例中,提供了一种信息点击率的确定方法,包括:
步骤(S1),计算机设备获取与样本推广信息对应的样本推广描述内容,并对样本推广描述内容进行分词处理,得到对应的各样本分词。
步骤(S2),计算机设备获取预设相邻参数,从各样本分词中选取输入词,并基于预设相邻参数确定各样本分词中与输入词相应的关联词;关联词为输入词的上文词或下文词。
步骤(S3),计算机设备将输入词分别和每个关联词组合,获得样本词对。
步骤(S4),计算机设备将样本词对中的输入词输入待训练的词向量模型,基于待训练的词向量模型中的初始词向量字典,预测各个候选词对应关联词的关联概率。
步骤(S5),计算机设备根据各个候选词分别对应关联词的关联概率,构建第一损失函数。
步骤(S6),计算机设备通过第一损失函数对待训练的词向量模型进行训练,以调整初始词向量词典,直至达到第一训练停止条件时停止,得到训练好的词向量模型,以及训练好的词向量模型中的目标词向量字典。
步骤(S7),计算机设备获取与样本推广信息对应的样本推广属性数据,并获取与样本用户对象对应的样本用户相关数据,以及样本用户对象对样本推广信息的期望点击率。
步骤(S8),计算机设备通过训练好的词向量模型中的目标词向量词典将各样本分词转换为对应的样本词嵌入特征。
步骤(S9),计算机设备对样本推广属性数据和样本用户相关数据分别进行独热编码处理,得到对应的样本推广属性特征和样本用户相关特征。
步骤(S10),计算机设备将样本词嵌入特征、样本推广属性特征和样本用户相关特征输入待训练的点击率预测模型,得到点击率预测模型中每个子预测模型分别输出的子预测点击率。
步骤(S11),计算机设备根据各子预测点击率和每个子预测模型对应的权重,确定样本用户对象针对样本推广信息的预测点击率。
步骤(S12),对于每个子预测模型,计算机设备分别根据相应子预测模型输出的子预测点击率和子预测模型的叶子节点的数量,确定相应子预测模型的复杂度。
步骤(S13),计算机设备根据预测点击率和对应的期望点击率之间的损失误差、每个子预测模型的复杂度,构建第二损失函数。
步骤(S14),计算机设备通过第二损失函数对待训练的点击率预测模型进行训练,以调整各子预测模型的参数,直至达到第二训练停止条件时停止,得到训练好的点击率预测模型。
步骤(S15),计算机设备获取与推广信息对应的推广描述内容和推广属性数据,并获取与用户对象对应的用户相关数据,用户相关数据包括用户属性数据和用户行为数据。
步骤(S16),计算机设备对推广描述内容进行分词处理,得到对应的词序列。
步骤(S17),计算机设备将词序列中的每个词输入训练好的词向量模型,得到各个词分别对应的词嵌入特征。
步骤(S18),当推广属性数据属于数值类型时,计算机设备直接将推广属性数据作为对应的推广属性特征。
步骤(S19),当推广属性数据属于非数值类型时,计算机设备采用独热编码方式对推广属性数据进行编码处理,得到对应的推广属性特征。
步骤(S20),计算机设备对用户相关数据中的用户属性数据进行划分编号后,采用独热编码方式进行编码处理,得到对应的用户相关特征;该用户属性数据至少包括用户性别、用户年龄和用户所属地域中的一种。
步骤(S21),计算机设备将各个词分别对应的词嵌入特征进行融合处理,得到推广描述内容对应的词嵌入表达。
步骤(S22),通过点击率预测模型对词嵌入表达、推广属性特征和用户相关特征进行拼接处理,输出信息点击率。
步骤(S23),计算机设备获取推广信息所推广的服务产品对应的消耗资源数值。
步骤(S24),计算机设备根据服务产品的消耗资源数值和推广信息对应的信息点击率,计算推广信息对应的期望收益。
步骤(S25),计算机设备从推广信息中选取使得期望收益满足目标收益条件的目标推广信息,向相应用户对象所对应的终端推送目标推广信息。
本实施例,通过对词向量模型进行训练,以获得训练好的词向量模型,在需要对推广信息的点击率进行预估时,能够对推广信息的推广描述内容进行分词处理,再通过训练好的词向量模型输出每个词对应的词嵌入特征,从而将具有物理含义的推广文字转换为可计算的数值特征,并且能够完整、有效表达原始数据的信息。
点击率预测模型中集成多个子预测模型,通过对点击率预测模型进行训练,并训练过程中调整各个子预测模型的参数,以提高各个子预测模型的精度,从而使得训练好的点击率预测模型具备更高的预测精度和准确性。
对推广属性数据和用户相关数据分别进行独热编码处理,以通过独热码简单地表示推广属性数据和用户相关数据的相应特征信息,能够降低计算维度,提高预测速度。
通过训练好的点击率预测模型的每个子预测模型分别对词嵌入表达、推广属性特征和用户相关特征进行融合处理,获得不同的子预测模型分别对应的子点击率,从而能够更准确地预估用户对象点击推广信息的信息点击率,提高信息点击率预估的精准度。
应该理解的是,虽然图2-图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图9所示,提供了一种信息点击率的确定装置900,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:获取模块902、分词模块904、映射模块906、编码模块908和确定模块910,其中:
获取模块902,用于获取与推广信息对应的推广描述内容和推广属性数据,并获取与用户对象对应的用户相关数据,用户相关数据至少包括用户属性数据。
分词模块904,用于对推广描述内容进行分词处理,得到对应的词序列。
映射模块906,用于基于预先构建的目标词向量字典将词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征。
编码模块908,用于对推广属性数据和用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征。
确定模块910,用于基于词嵌入特征、推广属性特征和用户相关特征,确定信息点击率,信息点击率表征用户对象点击推广信息的概率。
本实施例中,获取与推广信息对应的推广描述内容和推广属性数据,并获取与用户对象对应的用户相关数据,对推广描述内容进行分词处理,得到对应的词序列,基于预先构建的目标词向量字典将词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征,从而能够将推广描述内容的文字信息转换为可计算的数值特征,可以有效完整地表达原始数据的信息,从源头保证了数据的完整性和有效性。对推广属性数据和用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征,基于词嵌入特征、推广属性特征和用户相关特征,能够准确确定用户对象点击推广信息信息点击率,从而提升信息点击率确定的精准度。
在一个实施例中,该装置还包括第一训练模块;该第一训练模块用于获取与样本推广信息对应的样本推广描述内容,并对样本推广描述内容进行分词处理,得到对应的各样本分词;从各样本分词中选取输入词和相应的关联词,将输入词和关联词组合为样本词对;关联词为输入词的上文词或下文词;将输入词输入待训练的词向量模型,基于待训练的词向量模型中的初始词向量字典,预测各个候选词对应关联词的关联概率;根据各个候选词分别对应关联词的关联概率,构建第一损失函数;通过第一损失函数对待训练的词向量模型进行训练,以调整初始词向量词典,直至达到第一训练停止条件时停止,得到训练好的词向量模型,以及训练好的词向量模型中的目标词向量字典。
本实施例中,通过对样本推广描述内容进行分词处理,得到对应的各样本分词,从各样本分词中选取输入词,并选择输入词的上文词或下文次作为关联词,并将输入词作为待训练的词向量模型的输入特征,以预测各个候选词为关联词的关联概率,能够通过各分词上下文之间的关联程度对词向量模型中的初始词向量词典进行调整,从而得到目标词向量词典。该目标词向量词典表征各个候选词的词向量权重,则通过训练好的词向量模型能够准确将各个分词映射至向量空间,从而准确得到每个分词对应的词嵌入特征。
在一个实施例中,该第一训练模块还用于:获取预设相邻参数,从各样本分词中选取输入词,并基于预设相邻参数确定各样本分词中与输入词相应的关联词;将输入词分别和每个关联词组合,获得样本词对。
本实施例中,从各样本分词中选取输入词,并基于预设相邻参数确定各样本分词中与输入词相应的关联词,将输入词分别和每个关联词组合,能够自动构建训练样本,并扩充训练样本的数量。
在一个实施例中,该编码模块908还用于:当推广属性数据属于数值类型时,直接将推广属性数据作为对应的推广属性特征;当推广属性数据属于非数值类型时,采用独热编码方式对推广属性数据进行编码处理,得到对应的推广属性特征;对用户相关数据中的用户属性数据进行划分编号后,采用独热编码方式进行编码处理,得到对应的用户相关特征;该用户属性数据至少包括用户性别、用户年龄和用户所属地域中的一种。
本实施例中,对于属于数值类型的推广属性数据,直接作为对应的推广属性特征,减少处理步骤,节省计算资源。对于属于非数值类型的推广属性数据,通独热编码方式将推广属性属性编码为对应的数值向量,并且通过独热编码方式得到的用户相关特征简单,能够降低计算维度。
在一个实施例中,该确定模块910还用于:将词嵌入特征、推广属性特征和用户相关特征输入点击率预测模型,分别得到点击率预测模型中每个子预测模型输出的子点击率;基于每个子预测模型分别输出的子点击率和对应的权重,确定用户对象针对推广信息的信息点击率。
本实施例中,点击率预测模型中集成了多个子预测模型,通过每个子预测模型分别对词嵌入特征、推广属性特征和用户相关特征进行处理,获得不同的子预测模型分别对应的子点击率,使得点击率预测模型的预测精度更高,所预估的信息点击率更准确。
在一个实施例中,该确定模块910还用于:将各个词分别对应的词嵌入特征进行融合处理,得到推广描述内容对应的词嵌入表达;通过点击率预测模型对词嵌入表达、推广属性特征和用户相关特征进行拼接处理,输出信息点击率。
本实施例中,将各个词分别对应的词嵌入特征进行融合处理,以将推广描述内容的特征信息进行整合,能够提取原始数据的关键特征。通过点击率预测模型对词嵌入表达、推广属性特征和用户相关特征等多方面的特征进行融合,结合多方面特征能够更准确地预估用户对象对推广信息的信息点击率。
在一个实施例中,该装置还包括第二训练模块;该第二训练模块用于获取与样本推广信息对应的样本推广描述内容和样本推广属性数据,并获取与样本用户对象对应的样本用户相关数据,以及样本用户对象对样本推广信息的期望点击率;对样本推广描述内容进行分词处理,得到对应的各样本分词;通过目标词向量字典将各样本分词转换为对应的样本词嵌入特征;对样本推广属性数据和样本用户相关数据分别进行编码处理,得到对应的样本推广属性特征和样本用户相关特征;将样本词嵌入特征、样本推广属性特征和样本用户相关特征输入待训练的点击率预测模型,输出样本用户对象针对样本推广信息的预测点击率;根据预测点击率和对应的期望点击率之间的差异,调整待训练的点击率预测模型的参数,直至达到第二训练停止条件时停止,得到训练好的点击率预测模型。
在本实施例中,将样本推广描述内容、样本推广属性数据、样本用户对象对应的样本用户相关数据作为点击率预测模型的训练样本,并提取训练样本的特征,获得样本词嵌入特征、样本推广属性特征和样本用户相关特征。将多方面的特征输入待训练的点击率预测模型,充分考虑到各方面因素对点击率预测模型所产生的损失,从而通过训练能够提高点击率预测模型的预测精度。通过训练好的点击率预测模型,能够准确预估每个用户对象针对推广信息的信息点击率。
在一个实施例中,该第二训练模块还用于:将样本词嵌入特征、样本推广属性特征和样本用户相关特征输入待训练的点击率预测模型,得到点击率预测模型中每个子预测模型分别输出的子预测点击率;根据各子预测点击率和每个子预测模型对应的权重,确定样本用户对象针对样本推广信息的预测点击率;获取每个子预测模型的复杂度,根据预测点击率和对应的期望点击率之间的损失误差、子预测模型的复杂度,构建第二损失函数;通过第二损失函数对待训练的点击率预测模型进行训练,以调整各子预测模型的参数,直至达到第二训练停止条件时停止,得到训练好的点击率预测模型。
本实施例中,通过将样本词嵌入特征、样本推广属性特征和样本用户相关特征输入待训练的点击率预测模型,得到点击率预测模型中每个子预测模型分别输出的子预测点击率,根据各子预测点击率和每个子预测模型对应的权重,确定样本用户对象针对样本推广信息的预测点击率,根据预测点击率和对应的期望点击率之间的损失误差、子预测模型的复杂度,构建第二损失函数,使得构建的第二损失函数包含了多个子预测模型的损失特征。基于多方面的损失对点击率预测模型进行训练,能够充分考虑到各方面损失对点击率预测模型的所产生的影响,从而通过训练能够提高点击率预测模型的预测精度和准确性。并且,点击率预测模型中集成了多个子预测模型,训练过程中调整各个子预测模型的参数,以提高各个子预测模型的精度,从而使得训练好的点击率预测模型具备更高的预测精度和准确性。
在一个实施例中,该第二训练模块还用于对于每个子预测模型,分别根据相应子预测模型输出的子预测点击率和子预测模型的叶子节点的数量,确定相应子预测模型的复杂度。
本实施例中,对于每个子预测模型,分别根据相应子预测模型输出的子预测点击率和子预测模型的叶子节点的数量,确定相应子预测模型的复杂度,从而能够在训练过程中调整点击率预测模型中的子预测模型的数量,并且能够通过训练调整每个子预测模型对应的复杂度,使得训练好的点击率预测模型具备更高的预测精度和准确性。
在一个实施例中,该装置还包括:推送模块;该推送模块用于:从推广信息中选取信息点击率满足推送条件的目标推广信息;向相应用户对象所对应的终端推送目标推广信息。
本实施例中,从推广信息中选取信息点击率满足推送条件的目标推广信息,向相应用户对象所对应的终端推送目标推广信息,从而能够基于预估的信息点击率筛选出目标推广信息,所筛选出来的目标推广信息转化率最高,从而有效提高推广信息的转化率。
在一个实施例中,该推送模块还用于:获取推广信息所推广的服务产品对应的消耗资源数值;根据服务产品的消耗资源数值和推广信息对应的信息点击率,计算推广信息对应的期望收益;从推广信息中选取使得期望收益满足目标收益条件的目标推广信息。
本实施例中,基于推广信息的信息点击率和服务产品对应的消耗资源数值,预测该推广信息所获得的收益,从而基于期望收益筛选目标推广信息,从而在进行推广信息的针对性推送的同时充分考虑推广信息所带来的收益。
在一个实施例中,该推广信息为虚拟馈赠资源,该装置还包括:推送模块;该推送模块用于:根据虚拟馈赠资源对应的信息点击率和虚拟馈赠资源所含的资源数值,确定虚拟馈赠资源对应的期望收益;从虚拟馈赠资源中,选取使得期望收益满足发放条件的目标虚拟馈赠资源,并针对用户对象发放目标虚拟馈赠资源。
本实施例中,展示信息点击率、资源数值和期望收益的可视化对应关系,能够直观显示信息点击率、资源数值和期望收益的对应关系。并且通过该可视化对应关系,能够直接获取期望收益最高的虚拟馈赠资源发放给用户对象,从而在针对用户发放虚拟馈赠资源的同时实现收益的最大化。
关于信息点击率的确定装置的具体限定可以参见上文中对于信息点击率的确定方法的限定,在此不再赘述。上述信息点击率的确定装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种信息点击率的确定方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种信息点击率的确定方法,其特征在于,所述方法包括:
获取与推广信息对应的推广描述内容和推广属性数据,并获取与用户对象对应的用户相关数据,所述用户相关数据至少包括用户属性数据;
对所述推广描述内容进行分词处理,得到对应的词序列;
基于预先构建的目标词向量字典将所述词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征;
对所述推广属性数据和所述用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征;
基于所述词嵌入特征、所述推广属性特征和所述用户相关特征,确定信息点击率,所述信息点击率表征所述用户对象点击所述推广信息的概率。
2.根据权利要求1所述的方法,其特征在于,所述目标词向量字典是从训练好的词向量模型中获得,所述词向量模型的第一训练步骤包括:
获取与样本推广信息对应的样本推广描述内容,并对所述样本推广描述内容进行分词处理,得到对应的各样本分词;
从各所述样本分词中选取输入词和相应的关联词,将所述输入词和所述关联词组合为样本词对;所述关联词为所述输入词的上文词或下文词;
将所述输入词输入待训练的词向量模型,基于所述待训练的词向量模型中的初始词向量字典,预测各个候选词对应所述关联词的关联概率;
根据各个所述候选词分别对应所述关联词的关联概率,构建第一损失函数;
通过所述第一损失函数对所述待训练的词向量模型进行训练,以调整所述初始词向量词典,直至达到第一训练停止条件时停止,得到训练好的词向量模型,以及所述训练好的词向量模型中的目标词向量字典。
3.根据权利要求2所述的方法,其特征在于,所述从各所述样本分词中选取输入词和相应的关联词,将所述输入词和所述关联词组合为样本词对,包括:
获取预设相邻参数,从各所述样本分词中选取输入词,并基于所述预设相邻参数确定各所述样本分词中与所述输入词相应的关联词;
将所述输入词分别和每个关联词组合,获得样本词对。
4.根据权利要求1所述的方法,其特征在于,所述对所述推广属性数据和所述用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征,包括:
当所述推广属性数据属于数值类型时,直接将所述推广属性数据作为对应的推广属性特征;
当所述推广属性数据属于非数值类型时,采用独热编码方式对所述推广属性数据进行编码处理,得到对应的推广属性特征;
对所述用户相关数据中的用户属性数据进行划分编号后,采用所述独热编码方式进行编码处理,得到对应的用户相关特征;所述用户属性数据至少包括用户性别、用户年龄和用户所属地域中的一种。
5.根据权利要求1所述的方法,其特征在于,所述基于所述词嵌入特征、所述推广属性特征和所述用户相关特征,确定信息点击率,包括:
将所述词嵌入特征、所述推广属性特征和所述用户相关特征输入点击率预测模型,分别得到所述点击率预测模型中每个子预测模型输出的子点击率;
基于所述每个子预测模型分别输出的子点击率和对应的权重,确定所述用户对象针对所述推广信息的信息点击率。
6.根据权利要求1所述的方法,其特征在于,所述基于所述词嵌入特征、所述推广属性特征和所述用户相关特征,确定信息点击率,包括:
将各个词分别对应的词嵌入特征进行融合处理,得到所述推广描述内容对应的词嵌入表达;
通过点击率预测模型对所述词嵌入表达、所述推广属性特征和所述用户相关特征进行拼接处理,以输出信息点击率。
7.根据权利要求6所述的方法,其特征在于,所述点击率预测模型通过第二训练步骤获得,所述第二训练步骤包括:
获取与样本推广信息对应的样本推广描述内容和样本推广属性数据,并获取与样本用户对象对应的样本用户相关数据,以及所述样本用户对象对所述样本推广信息的期望点击率;
对所述样本推广描述内容进行分词处理,得到对应的各样本分词;
通过所述目标词向量字典将所述各样本分词转换为对应的样本词嵌入特征;
对所述样本推广属性数据和所述样本用户相关数据分别进行编码处理,得到对应的样本推广属性特征和样本用户相关特征;
将所述样本词嵌入特征、所述样本推广属性特征和所述样本用户相关特征输入待训练的点击率预测模型,输出所述样本用户对象针对所述样本推广信息的预测点击率;
根据所述预测点击率和对应的期望点击率之间的差异,调整所述待训练的点击率预测模型的参数,直至达到第二训练停止条件时停止,得到训练好的点击率预测模型。
8.根据权利要求7所述的方法,其特征在于,所述将所述样本词嵌入特征、所述样本推广属性特征和所述样本用户相关特征输入待训练的点击率预测模型,输出所述样本用户对象针对所述样本推广信息的预测点击率,包括:
将所述样本词嵌入特征、所述样本推广属性特征和所述样本用户相关特征输入待训练的点击率预测模型,得到所述点击率预测模型中每个子预测模型分别输出的子预测点击率;
根据各所述子预测点击率和所述每个子预测模型对应的权重,确定所述样本用户对象针对所述样本推广信息的预测点击率;
所述根据所述预测点击率和对应的期望点击率之间的差异,调整所述待训练的点击率预测模型的参数,直至达到第二训练停止条件时停止,得到训练好的点击率预测模型,包括:
获取每个所述子预测模型的复杂度,根据所述预测点击率和对应的期望点击率之间的损失误差、所述子预测模型的复杂度,构建第二损失函数;
通过所述第二损失函数对所述待训练的点击率预测模型进行训练,以调整各所述子预测模型的参数,直至达到第二训练停止条件时停止,得到训练好的点击率预测模型。
9.根据权利要求8所述的方法,其特征在于,所述获取每个所述子预测模型的复杂度,包括:
对于每个子预测模型,分别根据相应子预测模型输出的子预测点击率和所述子预测模型的叶子节点的数量,确定相应子预测模型的复杂度。
10.根据权利要求1至9任意一项所述的方法,其特征在于,所述方法还包括:
从所述推广信息中选取信息点击率满足推送条件的目标推广信息;
向相应用户对象所对应的终端推送所述目标推广信息。
11.根据权利要求10所述的方法,其特征在于,所述从所述推广信息中选取信息点击率满足推送条件的目标推广信息,包括:
获取所述推广信息所推广的服务产品对应的消耗资源数值;
根据所述服务产品的消耗资源数值和所述推广信息对应的信息点击率,计算所述推广信息对应的期望收益;
从所述推广信息中选取使得期望收益满足目标收益条件的目标推广信息。
12.根据权利要求1至9任意一项所述的方法,其特征在于,所述推广信息为虚拟馈赠资源,所述方法还包括:
根据所述虚拟馈赠资源对应的信息点击率和所述虚拟馈赠资源所含的资源数值,确定所述虚拟馈赠资源对应的期望收益;
从所述虚拟馈赠资源中,选取使得所述期望收益满足发放条件的目标虚拟馈赠资源,并针对所述用户对象发放所述目标虚拟馈赠资源。
13.一种信息点击率的确定装置,其特征在于,所述装置包括:
获取模块,用于获取与推广信息对应的推广描述内容和推广属性数据,并获取与用户对象对应的用户相关数据,所述用户相关数据至少包括用户属性数据;
分词模块,用于对所述推广描述内容进行分词处理,得到对应的词序列;
映射模块,用于基于预先构建的目标词向量字典将所述词序列中的每个词分别映射至对应的向量空间,得到各个词分别对应的词嵌入特征;
编码模块,用于对所述推广属性数据和所述用户相关数据分别进行编码处理,得到对应的推广属性特征和用户相关特征;
确定模块,用于基于所述词嵌入特征、所述推广属性特征和所述用户相关特征,确定信息点击率,所述信息点击率表征所述用户对象点击所述推广信息的概率。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
CN202110351765.XA 2021-03-31 2021-03-31 信息点击率的确定方法、装置、计算机设备和存储介质 Active CN112801425B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110351765.XA CN112801425B (zh) 2021-03-31 2021-03-31 信息点击率的确定方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110351765.XA CN112801425B (zh) 2021-03-31 2021-03-31 信息点击率的确定方法、装置、计算机设备和存储介质

Publications (2)

Publication Number Publication Date
CN112801425A true CN112801425A (zh) 2021-05-14
CN112801425B CN112801425B (zh) 2021-07-02

Family

ID=75816154

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110351765.XA Active CN112801425B (zh) 2021-03-31 2021-03-31 信息点击率的确定方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN112801425B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626538A (zh) * 2021-07-14 2021-11-09 上海齐网网络科技有限公司 基于大数据的医疗信息智能分类的方法及系统
CN113672801A (zh) * 2021-07-30 2021-11-19 北京三快在线科技有限公司 信息的处理方法、装置、存储介质和电子设备
CN114549066A (zh) * 2022-02-15 2022-05-27 上海钧正网络科技有限公司 营销方式确定方法、装置及计算机存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649603A (zh) * 2016-11-25 2017-05-10 北京资采信息技术有限公司 一种基于网页文本数据情感分类的指定信息推送方法
CN106997549A (zh) * 2017-02-14 2017-08-01 火烈鸟网络(广州)股份有限公司 一种广告信息的推送方法及系统
CN110032738A (zh) * 2019-04-16 2019-07-19 中森云链(成都)科技有限责任公司 基于上下文图随机游走及音形码的微博文本规范化方法
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
CN111538912A (zh) * 2020-07-07 2020-08-14 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质
US20200265466A1 (en) * 2019-02-19 2020-08-20 Nec Laboratories America, Inc. Interpretable click-through rate prediction through hierarchical attention

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106649603A (zh) * 2016-11-25 2017-05-10 北京资采信息技术有限公司 一种基于网页文本数据情感分类的指定信息推送方法
CN106997549A (zh) * 2017-02-14 2017-08-01 火烈鸟网络(广州)股份有限公司 一种广告信息的推送方法及系统
CN111368535A (zh) * 2018-12-26 2020-07-03 珠海金山网络游戏科技有限公司 一种敏感词识别方法、装置及设备
US20200265466A1 (en) * 2019-02-19 2020-08-20 Nec Laboratories America, Inc. Interpretable click-through rate prediction through hierarchical attention
CN110032738A (zh) * 2019-04-16 2019-07-19 中森云链(成都)科技有限责任公司 基于上下文图随机游走及音形码的微博文本规范化方法
CN110717039A (zh) * 2019-09-17 2020-01-21 平安科技(深圳)有限公司 文本分类方法和装置、电子设备、计算机可读存储介质
CN111538912A (zh) * 2020-07-07 2020-08-14 腾讯科技(深圳)有限公司 内容推荐方法、装置、设备及可读存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113626538A (zh) * 2021-07-14 2021-11-09 上海齐网网络科技有限公司 基于大数据的医疗信息智能分类的方法及系统
CN113626538B (zh) * 2021-07-14 2023-11-24 上海德衡数据科技有限公司 基于大数据的医疗信息智能分类的方法及系统
CN113672801A (zh) * 2021-07-30 2021-11-19 北京三快在线科技有限公司 信息的处理方法、装置、存储介质和电子设备
CN114549066A (zh) * 2022-02-15 2022-05-27 上海钧正网络科技有限公司 营销方式确定方法、装置及计算机存储介质

Also Published As

Publication number Publication date
CN112801425B (zh) 2021-07-02

Similar Documents

Publication Publication Date Title
CN110598206B (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN112801425B (zh) 信息点击率的确定方法、装置、计算机设备和存储介质
WO2020125445A1 (zh) 分类模型训练方法、分类方法、设备及介质
CN109493199A (zh) 产品推荐方法、装置、计算机设备和存储介质
CN109783730A (zh) 产品推荐方法、装置、计算机设备和存储介质
CN110569500A (zh) 文本语义识别方法、装置、计算机设备和存储介质
CN104008203B (zh) 一种融入本体情境的用户兴趣挖掘方法
CN109582876B (zh) 旅游行业用户画像构造方法、装置和计算机设备
CN111784455A (zh) 一种物品推荐方法及推荐设备
CN110728541A (zh) 信息流媒体广告创意推荐方法及装置
CN111400613A (zh) 物品推荐方法、装置、介质及计算机设备
CN113379449B (zh) 多媒体资源召回方法、装置、电子设备以及存储介质
CN112632256A (zh) 基于问答系统的信息查询方法、装置、计算机设备和介质
Zhang et al. Prediction of Repeat Customers on E‐Commerce Platform Based on Blockchain
CN112131261A (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN114117048A (zh) 一种文本分类的方法、装置、计算机设备及存储介质
CN108876422B (zh) 用于信息推广的方法、装置、电子设备及计算机可读介质
CN112287111A (zh) 一种文本处理方法和相关装置
CN107944589A (zh) 广告点击率的预测方法和预测装置
CN114548242A (zh) 用户标签识别方法、装置、电子设备和计算机可读存储介质
CN114330519A (zh) 数据确定方法、装置、电子设备及存储介质
CN114329065A (zh) 视频标签预测模型的处理方法、视频标签预测方法和装置
CN115018608A (zh) 风险预测方法、装置、计算机设备
CN111797622B (zh) 用于生成属性信息的方法和装置
Bezbochina et al. Dynamic Classification of Bank Clients by the Predictability of Their Transactional Behavior

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40044564

Country of ref document: HK