CN110852801A - 信息处理方法、装置及设备 - Google Patents

信息处理方法、装置及设备 Download PDF

Info

Publication number
CN110852801A
CN110852801A CN201911088556.XA CN201911088556A CN110852801A CN 110852801 A CN110852801 A CN 110852801A CN 201911088556 A CN201911088556 A CN 201911088556A CN 110852801 A CN110852801 A CN 110852801A
Authority
CN
China
Prior art keywords
title
sample
input information
click rate
generation model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201911088556.XA
Other languages
English (en)
Other versions
CN110852801B (zh
Inventor
郝卓琳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing ByteDance Network Technology Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201911088556.XA priority Critical patent/CN110852801B/zh
Publication of CN110852801A publication Critical patent/CN110852801A/zh
Application granted granted Critical
Publication of CN110852801B publication Critical patent/CN110852801B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0276Advertisement creation

Abstract

本公开实施例提供一种信息处理方法、装置及设备,该方法包括:对输入信息进行解析,得到输入信息的描述对象对应的描述关键词;将描述关键词输入标题生成模型中,获取标题生成模型输出的标题。标题生成模型是对多组第一样本进行学习得到的,每组第一样本包括:样本标题、样本标题对应的样本关键词和样本标题对应的实际点击率。通过上述过程,实现了根据输入信息智能生成标题,提高了标题质量和点击率。

Description

信息处理方法、装置及设备
技术领域
本公开实施例涉及信息处理技术领域,尤其涉及一种信息处理方法、装置及设备。
背景技术
随着计算机技术和互联网技术的发展,大量的信息需要通过信息对象进行展示,信息对象是指作为信息载体的特定形式的数据对象或者虚拟信息。例如:信息对象可以为广告、视频等。
以广告为例,广告中会插入广告标题。广告标题以文本信息直接展示商品的信息。例如:某广告标题为“本地蚊虫多?试试这个驱蚊手环,今日特惠1折!”。广告标题的质量决定了人们对广告的感兴趣程度,进而会影响广告的点击率。因此,提升广告标题的质量对改善广告的投放效果至关重要。
通常,广告标题需要专业的文案人员根据灵感进行设计,一方面对文案人员的创作水平依赖较高,另一方面文案人员设计出的广告标题的质量参差不齐,使得广告对用户的吸引力较低,导致广告的点击率较低。
发明内容
本公开实施例提供一种信息处理方法、装置及设备,实现根据输入信息智能生成标题,提高标题质量和点击率。
第一方面,本公开实施例提供一种信息处理方法,包括:
对输入信息进行解析,得到所述输入信息的描述对象对应的描述关键词;
将所述描述关键词输入标题生成模型中,获取所述标题生成模型输出的标题,所述标题包括所述描述关键词,并且,所述标题的预测点击率高于预设阈值;
其中,所述标题生成模型是对多组第一样本进行学习得到的,每组所述第一样本包括:样本标题、所述样本标题对应的样本关键词和所述样本标题对应的实际点击率。
在一种可能的实施方式中,所述对输入信息进行解析,得到所述输入信息的描述对象对应的描述关键词,包括:
对所述输入信息进行解析,得到用于指示所述描述对象的第一关键词;
或者,
对所述输入信息进行解析,得到用于指示所述描述对象的第一关键词和用于指示所述描述对象的属性的第二关键词。
在一种可能的实施方式中,所述输入信息为一个或者多个词语,或者,所述输入信息为一个或者多个语句。
在一种可能的实施方式中,所述标题生成模型是通过以下方式得到的:
获取所述多组第一样本;
针对每组所述第一样本,执行训练过程,所述训练过程包括:将所述样本标题对应的样本关键词输入至标题生成模型中,获取预测标题和所述预测标题的预测点击率;根据所述样本标题、所述预测标题、所述预测点击率和所述实际点击率,获取损失函数;以最小化所述损失函数为目标,调整所述标题生成模型的参数;
重复执行所述训练过程,直至所述标题生成模型满足训练结束条件。
在一种可能的实施方式中,所述根据所述样本标题、所述预测标题、所述预测点击率和所述实际点击率,获取损失函数,包括:
根据所述预测标题和所述样本标题,获取第一损失项,所述第一损失项与所述预测标题和所述样本标题之间的差异正相关;
根据所述预测点击率和所述实际点击率,获取第二损失项,所述第二损失项与所述预测点击率和所述实际点击率之间的差异正相关;
根据所述预测点击率获取第三损失项,所述第三损失项与所述预测点击率负相关;
根据所述第一损失项、所述第二损失项和所述第三损失项,获取所述损失函数。
在一种可能的实施方式中,所述获取所述多组第一样本,包括:
从数据库中获取多个样本标题、以及各所述样本标题对应的实际点击率;
对各所述样本标题进行关键词提取,得到各所述样本标题对应的样本关键词;
将每个所述样本标题、所述样本标题对应的样本关键词、所述样本标题对应的实际点击率作为一组第一样本。
在一种可能的实施方式中,所述对输入信息进行解析,得到所述输入信息的描述对象对应的描述关键词,包括:
将所述输入信息输入至解析模型中,获取所述解析模型输出的描述关键词,所述解析模型是对多组第二样本进行学习得到的,每组所述第二样本包括:样本文本和所述样本文本对应的样本关键词。
第二方面,本公开实施例提供一种信息处理装置,包括:解析模块和生成模块,其中,
所述解析模块,用于对输入信息进行解析,得到所述输入信息的描述对象对应的描述关键词;
所述生成模块,用于将所述描述关键词输入标题生成模型中,获取所述标题生成模型输出的标题,所述标题包括所述描述关键词,并且,所述标题的预测点击率高于预设阈值;
其中,所述标题生成模型是对多组第一样本进行学习得到的,每组所述第一样本包括:样本标题、所述样本标题对应的样本关键词和所述样本标题对应的实际点击率。
在一种可能的实施方式中,所述解析模块具体用于:
对所述输入信息进行解析,得到用于指示所述描述对象的第一关键词;
或者,
对所述输入信息进行解析,得到用于指示所述描述对象的第一关键词和用于指示所述描述对象的属性的第二关键词。
在一种可能的实施方式中,所述输入信息为一个或者多个词语,或者,所述输入信息为一个或者多个语句。
在一种可能的实施方式中,所述装置还包括训练模块,所述训练模块用于:
获取所述多组第一样本;
针对每组所述第一样本,执行训练过程,所述训练过程包括:将所述样本标题对应的样本关键词输入至标题生成模型中,获取预测标题和所述预测标题的预测点击率;根据所述样本标题、所述预测标题、所述预测点击率和所述实际点击率,获取损失函数;以最小化所述损失函数为目标,调整所述标题生成模型的参数;
重复执行所述训练过程,直至所述标题生成模型满足训练结束条件。
在一种可能的实施方式中,所述训练模块具体用于:
根据所述预测标题和所述样本标题,获取第一损失项,所述第一损失项与所述预测标题和所述样本标题之间的差异正相关;
根据所述预测点击率和所述实际点击率,获取第二损失项,所述第二损失项与所述预测点击率和所述实际点击率之间的差异正相关;
根据所述预测点击率获取第三损失项,所述第三损失项与所述预测点击率负相关;
根据所述第一损失项、所述第二损失项和所述第三损失项,获取所述损失函数。
在一种可能的实施方式中,所述训练模块具体用于:
从数据库中获取多个样本标题、以及各所述样本标题对应的实际点击率;
对各所述样本标题进行关键词提取,得到各所述样本标题对应的样本关键词;
将每个所述样本标题、所述样本标题对应的样本关键词、所述样本标题对应的实际点击率作为一组第一样本。
在一种可能的实施方式中,所述解析模块具体用于:
将所述输入信息输入至解析模型中,获取所述解析模型输出的描述关键词,所述解析模型是对多组第二样本进行学习得到的,每组所述第二样本包括:样本文本和所述样本文本对应的样本关键词。
第三方面,本公开实施例提供一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行第一方面任一项所述的信息处理方法。
第四方面,本公开实施例提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如第一方面任一项所述的信息处理方法。
本公开实施例提供的信息处理方法、装置及设备,获取到输入信息后,对输入信息进行解析,得到输入信息的描述对象对应的描述关键词;将描述关键词输入标题生成模型中,获取标题生成模型输出的标题。标题生成模型是对多组第一样本进行学习得到的,每组第一样本包括:样本标题、样本标题对应的样本关键词和样本标题对应的实际点击率。通过上述过程,实现了根据输入信息智能生成标题,避免了对文案人员的创造水平的依赖;由于标题生成模型不仅学习了样本标题和样本关键词之间的关系,还学习了样本标题和点击率之间的关系,因此,能够保证标题生成模型最终输出的标题是包括描述关键词的、高点击率的标题,提高了标题质量。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开实施例提供的信息处理的架构图;
图2为本公开实施例提供的一种信息处理方法的流程示意图;
图3为本公开实施例提供的标题生成模型的训练方法的流程示意图;
图4为本公开实施例提供的一种标题生成模型的结构示意图;
图5为本公开实施例提供的标题生成模型的训练过程的示意图;
图6为本公开实施例提供的一种信息处理装置的结构示意图;
图7为本公开实施例提供的另一种信息处理装置的结构示意图;
图8为本公开实施例提供的电子设备的结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
图1为本公开实施例提供的信息处理的架构图。请参见图1,信息处理过程可以包括训练阶段和执行阶段。在训练阶段,数据库中存储有多组样本,每组样本包括样本标题、样本标题对应的样本关键词和样本标题对应的实际点击率。训练模块对多组样本进行学习,一方面,学习样本标题和样本关键词之间的关系,另一方面,还学习样本标题和点击率之间的关系,从而得到标题生成模型。
在执行阶段,获取到输入信息后,首先利用解析模块对输入信息进行解析,得到输入信息的描述对象对应的描述关键词;然后将描述关键词输入至标题生成模型中,得到标题生成模型输出的包括描述关键词的标题。由于标题生成模型在学习中,既学习了样本标题和样本关键词之间的关系,还学习了样本标题和点击率之间的关系,因此,能够保证标题生成模型最终输出的标题是包括描述关键词的、高点击率的标题。
需要说明的是,上述的训练阶段和执行阶段可以由同一电子设备执行,还可以由不同的电子设备执行,本实施例对此不作限定。
本公开实施例的信息处理过程,实现了电子设备根据输入信息智能生成标题,避免了对文案人员的创造水平的依赖,保证了生成的标题是高点击率的标题,提高了标题质量。
下面,通过具体实施例对本公开所示的技术方案进行详细说明。需要说明的是,下面几个具体实施例可以相互结合,对于相同或相似的内容,在不同的实施例中不再进行重复说明。
图2为本公开实施例提供的一种信息处理方法的流程示意图。请参见图2,该方法包括:
S201:对输入信息进行解析,得到输入信息的描述对象对应的描述关键词。
本公开实施例的执行主体可以为电子设备,也可以为设置在电子设备中的信息处理装置。可选的,信息处理装置可以通过软件实现,也可以通过软件和硬件的结合实现。
可选的,电子设备可以为手机、电脑、服务器等设备。
输入信息是指输入到电子设备/信息处理装置中的信息。
可选的,输入信息可以为一个或者多个词语。例如:输入信息可以为“三国”,输入信息也可以为“行李箱”,还可以为“铝框行李箱”等。
可选的,输入信息还可以为一个或者多个语句,例如:输入信息可以为“你需要个铝框行李箱”,也可以为“试试这个驱蚊手环”等。
其中,输入信息是用于描述某个对象(例如,该对象可以是商品)的信息,将输入信息所描述的对象称为描述对象。例如:若输入信息为“试试这个驱蚊手环”,则该输入信息的描述对象为驱蚊手环。若输入信息为“你需要个铝框行李箱”,则该输入信息的描述对象为行李箱。
以广告投放领域为例,假设广告所宣传的商品为行李箱,则输入信息可以是用户输入的用于描述行李箱的信息,用户希望根据输入信息来生成广告标题。例如:输入信息可以为“行李箱”、还可以为“铝框行李箱”等,还可以为“你需要个铝框行李箱”等。
本公开实施例中,描述对象对应的描述关键词,是指输入信息中用于对描述对象进行描述的词语。描述关键词既可以是用于指示描述对象的词语,还可以是用于指示描述对象的属性的词语。
一个示例中,可以对输入信息进行解析,得到用于指示描述对象的第一关键词。例如:对输入信息“试试这个驱蚊手环”进行解析,得到描述关键词为“驱蚊手环”。能够理解,“驱蚊手环”指示的是该输入信息的描述对象。
另一个示例中,可以对输入信息进行解析,得到用于指示描述对象的第一关键词和用于指示描述对象的属性的第二关键词。例如:对输入信息“你需要个铝框行李箱”进行解析,得到描述关键词为“行李箱”、“铝框”。能够理解,“行李箱”指示的是该输入信息的描述对象,“铝框”指示的是该描述对象的属性,即描述对象(行李箱)的属性(材质)为铝框。
可选的,可以通过如下可行的实现方式从输入信息中获取描述关键词:对输入信息进行语义识别,根据识别出的语义信息,确定出该输入信息中的哪些词语为描述关键词。例如:通过对输入信息“试试这个驱蚊手环”进行语义识别,可以确定出描述关键词为“驱蚊手环”。
可选的,还可以通过如下可行的实现方式从输入信息中获取描述关键词:将输入信息输入至解析模型中,获取解析模型输出的描述关键词。
其中,解析模型是对多组第二样本进行学习得到的,每组第二样本包括:样本文本和样本文本对应的样本关键词。其中,每组第二样本中,样本文本中的样本关键词可以是人工标注的。例如:人工确定出样本文本中的哪个词语是用于指示描述对象的词语,哪些词语是用于指示描述对象的属性的词语,并将这些词语标注为样本关键词。
在训练解析模型时,可以将样本文本和样本文本中的样本关键词输入至解析模型,解析模型对样本文本进行解析找出预测关键词(预测得到的用于指示描述对象的词语,和/或,用于指示描述对象的属性的词语),通过解析模型对预测关键词和样本关键词进行反向学习,直至解析模型收敛,学习得到解析模型。
在上述根据多组样本训练解析模型的过程中,还可以将多组样本划分为正样本和负样本,提高模型的学习能力。
解析模型可以为下述中的任一:长短期记忆网络(Long Short-Term Memory,LSTM)模型、LSTM+条件随机场模型(Conditional Random Field,CRF)模型、BERT(Bidirectional Encoder Representation from Transformers)模型、BERT+CRF模型等。
例如,将输入信息“你需要个铝框行李箱”输入至解析模型中,解析模型可以输出描述关键词“行李箱、铝框”。其中,行李箱为输入信息的描述对象(即广告标题对应的商品),铝框为描述对象的属性(即商品的材质)。
需要说明的是,本公开实施例中的输入信息可以是文本形式的信息,还可以是语音信息的信息,还可以是其他形式的信息,例如:图片、视频、音频等。本公开实施例对此不作具体限定。
当输入信息为文本形式的信息时,可以直接对输入信息进行解析。当输入信息为语音形式的信息时,可以先对输入信息进行语音识别,得到文本形式的输入信息,然后,再对文本形式的输入信息进行解析。类似的,当输入信息为图片、视频等形式的信息时,可以先对图片、视频的内容进行识别,得到文本形式的输入信息,然后再对文本形式的输入信息进行解析。
S202:将描述关键词输入标题生成模型中,获取标题生成模型输出的标题,标题包括描述关键词,并且,标题的预测点击率高于预设阈值。
其中,标题生成模型是对多组第一样本进行学习得到的,每组第一样本包括:样本标题、样本标题对应的样本关键词和样本标题对应的实际点击率。
以广告标题为例,样本标题可以是再投广告的广告标题,样本标题对应的实际点击率可以是再投广告的点击率,样本标题对应的样本关键词可以是从广告标题中提取的一个或者多个关键词。通过对真实的广告标题数据进行学习,不仅可以学习到广告标题和关键词之间的关系,还可以学习到广告标题和点击率之间的关系。从而,在标题生成模型生成标题时,能够保证生成的标题是包括描述关键词的、高点击率的标题。
举例说明:假设输入信息为“三国”,通过S201对输入信息进行解析,得到描述关键词为“三国”。将“三国”输入至标题生成模型中,标题生成模型输出的标题为“经典三国,老到掉牙的《三国志》突然在今日火了”。
可选的,标题生成模型可以采用Transformer模型。Transformer模型被广泛应用于NLP领域,例如机器翻译、问答系统、文本摘要和语音识别等方向。本实施例对于标题生成模型的训练过程不作详述,具体可以参见图3所示实施例的描述。
本公开实施例提供的信息处理方法,获取到输入信息后,对输入信息进行解析,得到输入信息的描述对象对应的描述关键词;将描述关键词输入标题生成模型中,获取标题生成模型输出的标题。标题生成模型是对多组第一样本进行学习得到的,每组第一样本包括:样本标题、样本标题对应的样本关键词和样本标题对应的实际点击率。通过上述过程,实现了根据输入信息智能生成标题,避免了对文案人员的创造水平的依赖;由于标题生成模型不仅学习了样本标题和样本关键词之间的关系,还学习了样本标题和点击率之间的关系,因此,能够保证标题生成模型最终输出的标题是包括描述关键词的、高点击率的标题,提高了标题质量。
在上述实施例的基础上,下面通过图3所示的实施例,对标题生成模型的训练过程进行描述。
图3为本公开实施例提供的标题生成模型的训练方法的流程示意图。请参见图3,该方法包括:
S301:获取多组第一样本。
其中,每组第一样本包括:样本标题、样本标题对应的样本关键词和样本标题对应的实际点击率。
可以采用如下可行的实现方式获取第一样本:从数据库中获取多个样本标题、以及各样本标题对应的实际点击率;对各样本标题进行关键词提取,得到各样本标题对应的样本关键词;将每个样本标题、样本标题对应的样本关键词、样本标题对应的实际点击率作为一组第一样本。
例如:以广告标题为例,首先从数据库中获取大量的在投广告/历史广告的广告标题。然后,针对每一个广告标题,获取到该广告标题的实际点击率。并对该广告标题进行关键词提取,得到该广告标题中的关键词。示例性的,假设某广告标题为“你需要个铝框行李箱”,该广告标题的实际点击率为60%,对该广告标题进行关键词提取,得到的关键词为“行李箱”,则可以生成一组第一样本{“你需要个铝框行李箱”、“行李箱”、80%}。其中,广告标题“你需要个铝框行李箱”作为样本标题,“行李箱”作为样本关键词,80%作为实际点击率。能够理解,每组第一样本中的样本关键词的数量可以为一个或者多个。
由于第一样本是根据在投广告或者历史广告的广告标题和实际点击率得到的,保证了样本数据的真实性,从而保证了利用这些样本数据训练得到的标题生成模型的准确性。
S302:针对每组第一样本,将样本标题对应的样本关键词输入至标题生成模型中,获取预测标题和预测标题的预测点击率。
S303:根据样本标题、预测标题、预测点击率和实际点击率,获取损失函数。
其中,本公开实施例中的标题生成模型既可以根据样本关键字生成预测标题,还可以对该预测标题的点击率进行预测。
图4为本公开实施例提供的一种标题生成模型的结构示意图。请参见图4,标题生成模型40可以包括生成单元41和预测单元42。其中,生成单元41用于根据样本关键词生成预测标题,预测单元42用于对预测标题进行点击率预测。
可选的,生成单元41可以采用Transformer模型。Transformer模型是一种基于Encoder-Decoder结构的模型。继续参见图4,以生成单元41采用Transformer模型为例,生成单元41可以进一步包括编码子单元411(Encoder)和解码子单元412(Decoder)。其中,编码子单元411中可以包括多个编码器,解码子单元412中可以包括相同数量的解码器。需要说明的是,本公开实施例对于编码子单元、解码子单元的具体结构不作限定。
能够理解,生成单元41还可以采用其他的模型结构,例如神经网络结构,本实施例对此不作限定,后续以Transformer模型为例进行说明。
图5为本公开实施例提供的标题生成模型的训练过程的示意图。请参见图5,在训练阶段,将每组第一样本(包括样本标题、样本关键词、实际点击率)输入至标题生成模型中。其中,如图5所示,样本关键词和样本标题被输入生成单元。生成单元首先对样本关键词进行编码和解码,生成预测标题。然后,生成单元根据预测标题和样本标题,获取第一损失项。其中,第一损失项与预测标题和样本标题之间的差异正相关。也就是说,当预测标题与样本标题之间的差异越大时,第一损失项越大,当预测标题与样本标题之间的差异越小时,第一损失项越小。
实际点击率和生成单元生成的预测标题被输入至预测单元,预测单元首先对预测标题的点击率进行预测,得到预测点击率。然后,预测单元根据预测点击率和实际点击率,获取第二损失项,第二损失项与预测点击率和实际点击率之间的差异正相关。也就是说,当预测点击率和实际点击率之间的差异越大时,第二损失项越大,当预测点击率和实际点击率之间的差异越小时,第二损失项越小。
进一步的,预测单元还根据预测点击率,获取第三损失项。其中,第三损失项与预测点击率负相关。也就是说,当预测点击率越大时,第三损失项越小,当预测点击率越小时,第三损失项越大。
这样,根据上述得到的第一损失项、第二损失项和第三损失项后,得到损失函数,损失函数可以是上述三个损失项的累加。
S304:以最小化损失函数为目标,调整标题生成模型的参数。
得到损失函数后,调整标题生成模型的参数(包括:调整生成单元的参数、调整预测单元的参数),使得损失函数最小化。也就是说,调整后的标题生成模型能够使得预测标题和样本标题之间的差异最小化、预测点击率和实际点击率之间的差异最小,并且,调整后的标题生成模型倾向于生成预测点击率高的预测标题。
S305:重复执行S302至S304,直至标题生成模型满足训练结束条件。
对多组第一样本重复执行上述的训练过程,直至满足训练结束条件。
可选的,训练结束条件可以为标题生成模型达到收敛,即无论如何调整标题生成模型,该模型的准确率无法得到提升。
可选的,训练结束条件还可以为标题生成模型的准确率达到预设阈值。例如,当标题生成模型的准确率达到98%时,停止训练过程。
下面结合一个具体的示例,描述标题生成模型的训练过程。假设训练样本中包括如下两个训练样本:
样本1:三国→经典三国,老到掉牙的《三国志》突然在今日火了!(实际点击率(real_ctr):100%)
样本2:三国→经典三国,老到掉牙的《三国演义》突然在今日火了!(实际点击率(real_ctr):50%)
各样本的训练过程是类似的,下面以样本1为例,描述标题生成模型的训练过程。在训练阶段,将样本1输入标题生成模型,标题生成模型生成预测标题,根据预测标题和样本1中的样本标题获取第一损失项,假设为Loss1(Loss1与预测标题和样本1之间的差异正相关)。进一步的,标题生成模型对预测标题的点击率进行预测,得到预测点击率(pre_ctr)。进而,标题生成模型根据预测点击率pre_ctr和样本1的实际点击率(real_ctr),获取第二损失项,将第二损失项记为Loss2,Loss2与预测点击率(pre_ctr)和实际点击率(real_ctr)之间的差异正相关。标题生成模型还根据预测点击率(pre_ctr)获取第三损失项,将第三损失项记为Loss3,Loss3与预测点击率(pre_ctr)负相关,示例性的:
Loss3=a*(b-pre_ctr)
其中,a和b可以为预设值。
根据上述三个损失项,获取损失函数Loss,并以最小化损失函数为目标,对标题生成模型的参数进行调整。
Loss=Loss1+Loss2+Loss3
通过上述的训练过程,使得标题生成模型生成的预测标题与样本标题之间的差异最小,还使得预测点击率与实际点击率之间的差异最小,同时,还使得标题生成模型倾向于生成预测点击率高的标题,从而保证了标题生成模型输出的标题的质量。
能够理解,若在训练过程中不考虑样本标题的实际点击率,则标题生成模型对上述两条训练样本进行学习后,学习到的两个广告标题的概率是相同的,这样,在执行阶段,当用户输入“三国”时,标题生成模型预测得到标题“经典三国,老到掉牙的《三国志》突然在今日火了!”的概率和预测得到标题“经典三国,老到掉牙的《三国演义》突然在今日火了!”的概率是相同的。
而本公开实施例中,由于训练过程中加入了样本标题的实际点击率,使得标题生成模型不仅学习了样本标题和样本关键词之间的关系,还学习了样本标题和实际点击率之间的关系,这样,能够保证标题生成模型最终输出的标题是包括描述关键词的、高点击率的标题。
例如:在执行阶段,当用户输入“三国”时,由于标题生成模型预测到标题“经典三国,老到掉牙的《三国志》突然在今日火了!”的预测点击率高于标题“经典三国,老到掉牙的《三国演义》突然在今日火了!”的预测点击率,因此,标题生成模型生成的标题为“经典三国,老到掉牙的《三国志》突然在今日火了!”。
图6为本公开实施例提供的一种信息处理装置的结构示意图。请参见图6,该信息处理装置700可以包括:解析模块701和生成模块702,其中,
所述解析模块701,用于对输入信息进行解析,得到所述输入信息的描述对象对应的描述关键词;
所述生成模块702,用于将所述描述关键词输入标题生成模型中,获取所述标题生成模型输出的标题,所述标题包括所述描述关键词,并且,所述标题的预测点击率高于预设阈值;
其中,所述标题生成模型是对多组第一样本进行学习得到的,每组所述第一样本包括:样本标题、所述样本标题对应的样本关键词和所述样本标题对应的实际点击率。
在一种可能的实施方式中,所述解析模块701具体用于:
对所述输入信息进行解析,得到用于指示所述描述对象的第一关键词;
或者,
对所述输入信息进行解析,得到用于指示所述描述对象的第一关键词和用于指示所述描述对象的属性的第二关键词。
在一种可能的实施方式中,所述输入信息为一个或者多个词语,或者,所述输入信息为一个或者多个语句。
在一种可能的实施方式中,所述解析模块701具体用于:
将所述输入信息输入至解析模型中,获取所述解析模型输出的描述关键词,所述解析模型是对多组第二样本进行学习得到的,每组所述第二样本包括:样本文本和所述样本文本对应的样本关键词。
本公开实施例提供的信息处理装置,可用于实现上述图2所示的方法实施例的技术方案,其实现原理和技术效果类似,此处不再赘述。
图7为本公开实施例提供的另一种信息处理装置的结构示意图。在图6所示实施例的基础上,请参考图7,信息处理装置700还可以包括:训练模块703,其中,所述训练模块703用于:
获取所述多组第一样本;
针对每组所述第一样本,执行训练过程,所述训练过程包括:将所述样本标题对应的样本关键词输入至标题生成模型中,获取预测标题和所述预测标题的预测点击率;根据所述样本标题、所述预测标题、所述预测点击率和所述实际点击率,获取损失函数;以最小化所述损失函数为目标,调整所述标题生成模型的参数;
重复执行所述训练过程,直至所述标题生成模型满足训练结束条件。
在一种可能的实施方式中,所述训练模块703具体用于:
根据所述预测标题和所述样本标题,获取第一损失项,所述第一损失项与所述预测标题和所述样本标题之间的差异正相关;
根据所述预测点击率和所述实际点击率,获取第二损失项,所述第二损失项与所述预测点击率和所述实际点击率之间的差异正相关;
根据所述预测点击率获取第三损失项,所述第三损失项与所述预测点击率负相关;
根据所述第一损失项、所述第二损失项和所述第三损失项,获取所述损失函数。
在一种可能的实施方式中,所述训练模块703具体用于:
从数据库中获取多个样本标题、以及各所述样本标题对应的实际点击率;
对各所述样本标题进行关键词提取,得到各所述样本标题对应的样本关键词;
将每个所述样本标题、所述样本标题对应的样本关键词、所述样本标题对应的实际点击率作为一组第一样本。
本公开实施例提供的信息处理装置,可用于执行如图3至图5所示的技术方案,其实现原理和技术效果类似,此处不再赘述。
图8为本公开实施例提供的电子设备的结构示意图。请参见图8,电子设备20可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑(PortableAndroid Device,简称PAD)、便携式多媒体播放器(Portable Media Player,简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图8示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
请参见图8,电子设备20可以包括处理装置(例如中央处理器、图形处理器等)21,其可以根据存储在只读存储器(Read Only Memory,简称ROM)22中的程序或者从存储装置28加载到随机访问存储器(Random Access Memory,简称RAM)23中的程序而执行各种适当的动作和处理。在RAM 23中,还存储有电子设备20操作所需的各种程序和数据。处理装置21、ROM 22以及RAM 23通过总线24彼此相连。输入/输出(I/O)接口25也连接至总线24。
通常,以下装置可以连接至I/O接口25:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置26;包括例如液晶显示器(Liquid CrystalDisplay,简称LCD)、扬声器、振动器等的输出装置27;包括例如磁带、硬盘等的存储装置28;以及通信装置29。通信装置29可以允许电子设备20与其他设备进行无线或有线通信以交换数据。虽然图8示出了具有各种装置的电子设备20,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置29从网络上被下载和安装,或者从存储装置28被安装,或者从ROM22被安装。在该计算机程序被处理装置21执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network,简称LAN)或广域网(Wide Area Network,简称WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。
最后应说明的是:以上各实施例仅用以说明本公开实施例的技术方案,而非对其限制;尽管参照前述各实施例对本公开实施例进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本公开实施例方案的范围。

Claims (10)

1.一种信息处理方法,其特征在于,包括:
对输入信息进行解析,得到所述输入信息的描述对象对应的描述关键词;
将所述描述关键词输入标题生成模型中,获取所述标题生成模型输出的标题,所述标题包括所述描述关键词,并且,所述标题的预测点击率高于预设阈值;
其中,所述标题生成模型是对多组第一样本进行学习得到的,每组所述第一样本包括:样本标题、所述样本标题对应的样本关键词和所述样本标题对应的实际点击率。
2.根据权利要求1所述的方法,其特征在于,所述对输入信息进行解析,得到所述输入信息的描述对象对应的描述关键词,包括:
对所述输入信息进行解析,得到用于指示所述描述对象的第一关键词;
或者,
对所述输入信息进行解析,得到用于指示所述描述对象的第一关键词和用于指示所述描述对象的属性的第二关键词。
3.根据权利要求1或2所述的方法,其特征在于,所述输入信息为一个或者多个词语,或者,所述输入信息为一个或者多个语句。
4.根据权利要求1至3任一项所述的方法,其特征在于,所述标题生成模型是通过以下方式得到的:
获取所述多组第一样本;
针对每组所述第一样本,执行训练过程,所述训练过程包括:将所述样本标题对应的样本关键词输入至标题生成模型中,获取预测标题和所述预测标题的预测点击率;根据所述样本标题、所述预测标题、所述预测点击率和所述实际点击率,获取损失函数;以最小化所述损失函数为目标,调整所述标题生成模型的参数;
重复执行所述训练过程,直至所述标题生成模型满足训练结束条件。
5.根据权利要求4所述的方法,其特征在于,所述根据所述样本标题、所述预测标题、所述预测点击率和所述实际点击率,获取损失函数,包括:
根据所述预测标题和所述样本标题,获取第一损失项,所述第一损失项与所述预测标题和所述样本标题之间的差异正相关;
根据所述预测点击率和所述实际点击率,获取第二损失项,所述第二损失项与所述预测点击率和所述实际点击率之间的差异正相关;
根据所述预测点击率获取第三损失项,所述第三损失项与所述预测点击率负相关;
根据所述第一损失项、所述第二损失项和所述第三损失项,获取所述损失函数。
6.根据权利要求4所述的方法,其特征在于,所述获取所述多组第一样本,包括:
从数据库中获取多个样本标题、以及各所述样本标题对应的实际点击率;
对各所述样本标题进行关键词提取,得到各所述样本标题对应的样本关键词;
将每个所述样本标题、所述样本标题对应的样本关键词、所述样本标题对应的实际点击率作为一组第一样本。
7.根据权利要求1至3任一项所述的方法,其特征在于,所述对输入信息进行解析,得到所述输入信息的描述对象对应的描述关键词,包括:
将所述输入信息输入至解析模型中,获取所述解析模型输出的描述关键词,所述解析模型是对多组第二样本进行学习得到的,每组所述第二样本包括:样本文本和所述样本文本对应的样本关键词。
8.一种信息处理装置,其特征在于,包括:解析模块和生成模块,其中,
所述解析模块,用于对输入信息进行解析,得到所述输入信息的描述对象对应的描述关键词;
所述生成模块,用于将所述描述关键词输入标题生成模型中,获取所述标题生成模型输出的标题,所述标题包括所述描述关键词,并且,所述标题的预测点击率高于预设阈值;
其中,所述标题生成模型是对多组第一样本进行学习得到的,每组所述第一样本包括:样本标题、所述样本标题对应的样本关键词和所述样本标题对应的实际点击率。
9.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1至7任一项所述的信息处理方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至7任一项所述的信息处理方法。
CN201911088556.XA 2019-11-08 2019-11-08 信息处理方法、装置及设备 Active CN110852801B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911088556.XA CN110852801B (zh) 2019-11-08 2019-11-08 信息处理方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911088556.XA CN110852801B (zh) 2019-11-08 2019-11-08 信息处理方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110852801A true CN110852801A (zh) 2020-02-28
CN110852801B CN110852801B (zh) 2022-09-09

Family

ID=69600049

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911088556.XA Active CN110852801B (zh) 2019-11-08 2019-11-08 信息处理方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110852801B (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723295A (zh) * 2020-06-30 2020-09-29 腾讯科技(深圳)有限公司 一种内容分发方法、装置和存储介质
CN112699656A (zh) * 2020-12-31 2021-04-23 北京有竹居网络技术有限公司 一种广告标题重写方法、装置、设备及储存介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845390A (zh) * 2017-01-18 2017-06-13 腾讯科技(深圳)有限公司 视频标题生成方法及装置
CN107832299A (zh) * 2017-11-17 2018-03-23 北京百度网讯科技有限公司 基于人工智能的标题的改写处理方法、装置及可读介质
CN107977363A (zh) * 2017-12-20 2018-05-01 北京百度网讯科技有限公司 标题生成方法、装置和电子设备

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106845390A (zh) * 2017-01-18 2017-06-13 腾讯科技(深圳)有限公司 视频标题生成方法及装置
CN107832299A (zh) * 2017-11-17 2018-03-23 北京百度网讯科技有限公司 基于人工智能的标题的改写处理方法、装置及可读介质
CN107977363A (zh) * 2017-12-20 2018-05-01 北京百度网讯科技有限公司 标题生成方法、装置和电子设备

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723295A (zh) * 2020-06-30 2020-09-29 腾讯科技(深圳)有限公司 一种内容分发方法、装置和存储介质
CN111723295B (zh) * 2020-06-30 2023-10-17 腾讯科技(深圳)有限公司 一种内容分发方法、装置和存储介质
CN112699656A (zh) * 2020-12-31 2021-04-23 北京有竹居网络技术有限公司 一种广告标题重写方法、装置、设备及储存介质

Also Published As

Publication number Publication date
CN110852801B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
US11758088B2 (en) Method and apparatus for aligning paragraph and video
US20180315094A1 (en) Method and system for targeted advertising based on natural language analytics
CN110267113B (zh) 视频文件加工方法、系统、介质和电子设备
CN113470619B (zh) 语音识别方法、装置、介质及设备
CN111625645B (zh) 文本生成模型的训练方法、装置和电子设备
CN110136715B (zh) 语音识别方法和装置
CN111986655B (zh) 音频内容识别方法、装置、设备和计算机可读介质
CN110852801B (zh) 信息处理方法、装置及设备
US20240078385A1 (en) Method and apparatus for generating text
WO2023036101A1 (zh) 确定文本情节类型的方法、装置、可读介质及电子设备
CN112182281B (zh) 一种音频推荐方法、装置及存储介质
CN110379406B (zh) 语音评论转换方法、系统、介质和电子设备
CN110827085A (zh) 文本处理方法、装置及设备
CN111177462A (zh) 视频分发时效的确定方法和装置
CN111898338B (zh) 文本生成方法、装置和电子设备
CN112633004A (zh) 文本标点符号删除方法、装置、电子设备和存储介质
CN110797013A (zh) 语音直播间的直播入口显示方法、相关设备及存储介质
CN112672202B (zh) 弹幕处理方法、设备和存储介质
CN115801980A (zh) 视频生成方法和装置
CN112651231B (zh) 口语信息处理方法、装置和电子设备
CN115098729A (zh) 视频处理方法、样本生成方法、模型训练方法及装置
US11250872B2 (en) Using closed captions as parallel training data for customization of closed captioning systems
CN113742593A (zh) 用于推送信息的方法和装置
CN114429629A (zh) 图像处理方法、装置、可读存储介质及电子设备
CN113076932A (zh) 训练音频语种识别模型的方法、视频检测方法及其装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant