CN115204959A - 广告文案生成方法及其装置、设备、介质 - Google Patents

广告文案生成方法及其装置、设备、介质 Download PDF

Info

Publication number
CN115204959A
CN115204959A CN202210893732.2A CN202210893732A CN115204959A CN 115204959 A CN115204959 A CN 115204959A CN 202210893732 A CN202210893732 A CN 202210893732A CN 115204959 A CN115204959 A CN 115204959A
Authority
CN
China
Prior art keywords
advertisement
word
commodity
candidate
probability distribution
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210893732.2A
Other languages
English (en)
Inventor
葛莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN202210893732.2A priority Critical patent/CN115204959A/zh
Publication of CN115204959A publication Critical patent/CN115204959A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0276Advertisement creation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Accounting & Taxation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及计算机技术领域中一种广告文案生成方法及其装置、设备、介质,所述方法包括:采用文本生成模型以广告商品的商品文本,预测出各个广告词元映射到编码词表相对应的生成概率分布。以广告商品的商品品类对应的品类概率分布对各个生成概率分布进行加权,获得相应的候选概率分布。根据每个候选概率分布从编码词表中选取多个候选词元,从历史广告短语库中选取对应广告商品的店铺的以各个的候选词元开头的广告短语作为候选词,构造出相对应的候选词集。为每个广告词元在其候选词集中或根据生成概率分布/候选概率分布在编码词表中确定对应词构造出广告文案。本申请能够生成高质量的广告文案。

Description

广告文案生成方法及其装置、设备、介质
技术领域
本申请涉及计算机技术领域,尤其涉及一种广告文案生成方法及其相应的装置、计算机设备、计算机可读存储介质。
背景技术
电商平台通常配置有广告投放页面,供店铺用户向广告系统投放店铺内上架商品相对应的广告,以吸引电商平台上的买家用户购买,实现通过广告引流,促进商品交易。
在发布广告时,需要提供相应的广告文案。专业的文案通常能起到更好的推广效果。然而创作专业的广告文案,十分不容易,需要充分理解商品的卖点及商品销售的目标市场,迎合目标市场需求提取出商品的卖点,了解一定的撰写规范,具备一定的语言表达技巧。故而,服务于电商平台的商品的广告发布需求,需要自动化生成发布广告商品的广告文案,以辅助店铺用户参考,降低创作门槛,轻松创作出专业的广告文案。
目前自动化生成发布广告商品的广告文案,主要采用神经网络模型,通过编码提取商品的文本信息例如商品标题、商品详情文本等,相应的文本语义信息,从而根据文本语义信息解码生成广告文案。采用模型确实实现了自动化生成的目的,但难以保证生成的广告文案能够诠释清楚商品的营销卖点,使得广告文案具备符合营销推广所需的质量。
发明内容
本申请的首要目的在于解决上述问题至少之一而提供一种广告文案生成方法及其相应的装置、计算机设备、计算机可读存储介质。
为满足本申请的各个目的,本申请采用如下技术方案:
适应本申请的目的之一而提供的一种广告文案生成方法,包括如下步骤:
获取广告商品的商品文本,将其输入至文本生成模型,预测出各个广告词元映射到编码词表相对应的生成概率分布,所述商品文本包括商品的商品描述信息;
获取为所述广告商品的商品品类而预设的品类概率分布对各个所述生成概率分布进行加权,获得每个广告词元相应的候选概率分布;
根据每个候选概率分布从所述编码词表中选取满足预设条件相对应的多个候选词元,从预设的历史广告短语库中选取对应所述广告商品的店铺的以各个所述的候选词元开头的广告短语作为候选词,构造出每个候选概率分布相对应的候选词集;
针对每个广告词元,从其相对应的候选词集随机择一作为对应词,或根据其生成概率分布/候选概率分布确定出编码词表中的词元作为对应词,将所有对应词构造为广告文案。
另一方面,适应本申请的目的之一而提供的一种广告文案生成装置,包括模型预测模块、概率分布模块、词集构造模块以及文案构造模块,其中:模型预测模块,用于获取广告商品的商品文本,将其输入至文本生成模型,预测出各个广告词元映射到编码词表相对应的生成概率分布,所述商品文本包括商品的商品描述信息;概率分布模块,用于获取为所述广告商品的商品品类而预设的品类概率分布对各个所述生成概率分布进行加权,获得每个广告词元相应的候选概率分布;词集构造模块,用于根据每个候选概率分布从所述编码词表中选取满足预设条件相对应的多个候选词元,从预设的历史广告短语库中选取对应所述广告商品的店铺的以各个所述的候选词元开头的广告短语作为候选词,构造出每个候选概率分布相对应的候选词集;文案构造模块,用于针对每个广告词元,从其相对应的候选词集随机择一作为对应词,或根据其生成概率分布/候选概率分布确定出编码词表中的词元作为对应词,将所有对应词构造为广告文案。
又一方面,适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的广告文案生成方法的步骤。
又一方面,适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的广告文案生成方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
本申请的技术方案存在多方面优势,包括但不限于如下各方面:
首先,本申请采用文本生成模型基于商品文本预测出广告文案的各个广告词元对应的生成概率分布之后,采用商品品类相对应的品类概率分布对所述生成概率分布进行加权获得候选概率分布,根据候选概率分布在历史广告短语库中优选出相对应的候选词集,最后,可选地为每个广告词元在其候选词集中或根据生成概率分布/候选概率分布在模型的词表中确定对应词,为广告文案的广告词元的确定引入了随机性,使其能够相对随机地将模型预测结果中的部分广告词元确定为历史广告短语库的优质广告短语,避免严重依赖文本生成模型自身的词表确定广告词元,丰富了所生成的广告文案的表达内容,可进一步提升广告文案的生成质量。
其次,本申请在文本生成模型所获得的各个广告词元的生成概率分布的基础上,利用商品品类相对应的品类概率分布对生成概率分布进行加权,品类概率分布例如可以是对优质广告文案表达相应品类的商品的卖点特征所采用的词汇凝练提取统计特征后所生成的参考数据,藉此,能够借助品类概率分布显化商品文本相对应的商品品类的用词习惯所对应的特征,使加权所获得的候选概率分布更具表示相应商品品类的用词习惯相对应的特征的能力,可以用于实现优质广告用词的优选。
此外,由于在广告文案的构造阶段引入了随机性,所生成的广告文案适量采用历史广告短语,更易产出优雅的语句,并且,由于历史广告短语通常能精准表达商品卖点,因而,所生成的广告短语更能表达所述商品文本的商品的卖点,可提升使用该广告文案的广告的转化率,提升广告收益。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请的广告文案生成方法的典型实施例的流程示意图;
图2为本申请的实施例中构建历史广告短语库的流程示意图;
图3为本申请的实施例中文本生成模型的编解码的流程示意图;
图4为本申请的实施例中获得品类概率分布的流程示意图;
图5为本申请的实施例中确定各个广告词元对应的对应词的流程示意图;
图6为本申请的一种实施例中设定决策概率的流程示意图;
图7为本申请的另一种实施例中设定决策概率的流程示意图;
图8为本申请的实施例中获得广告文案的质量评分的流程示意图;
图9为本申请的广告文案生成装置的原理框图;
图10为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种广告文案生成方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如,本申请的示例性应用场景中,可以在电商平台的服务器中部署实现,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
请参阅图1,本申请的广告文案生成方法,在其典型实施例中,包括如下步骤:
步骤S1100、获取广告商品的商品文本,将其输入至文本生成模型,预测出各个广告词元映射到编码词表相对应的生成概率分布,所述商品文本包括商品的商品描述信息;
所述广告商品是指电商平台的线上店铺的商家用户发布广告的商品,广告商品的商品文本,主要包括广告商品的商品标题,以其他实施例中,商品文本也可进一步包括商品详情文本、商品属性数据、商品品类等任意一种或任意多种数据。商品文本以文本的形式提供对广告商品的特性的描述,因而,通过商品文本可以提取到广告商品的卖点特性相对应的语义信息。
所述文本生成模型是Encoder-Decoder的语言模型,将所述广告商品的商品文本作为文本生成模型的输入,应用模型的预先训练至收敛的编码器对所述广告商品的商品文本进行编码,所述编码器可采用RNN(RecurrentNeuralNetwork,循环神经网络)实现,推荐采用基于自注意力层的适于处理序列任务的编码器实现。对商品文本进行分词,获得相应的词元,针对商品文本中包含的各个词元,通过查询编码词表,确定每个词元相对应的编码数值,根据这些编码数值构造各个词元相对应的嵌入向量,即词向量,由这些词向量构成所述商品文本对应的初始特征序列,所述编码词表中存储多个词元与其相对应的编码数据之间的映射关系数据。进一步,对所述初始特征序列提取广告商品的卖点特性的深层语义特征,获得文本特征序列。将所述文本特征序列作为前缀信息输入至模型的预先训练至收敛的解码器进行解码,采用自回归方式预测出相应的各个广告词元映射到编码词表中分布在各个词元相对应的概率即所述生成概率分布。
步骤S1200、获取为所述广告商品的商品品类而预设的品类概率分布对各个所述生成概率分布进行加权,获得每个广告词元相应的候选概率分布;
电商平台的店铺,通过均构建有商品的品类体系,用于分门别类归纳店铺内的海量商品。所述品类体系可以是多层分类体系,即包含多个分类层级,每个分类层级包含多个具体品类。品类体系的构建,可由电商平台统一提供模板,由商家用户自行修订确定。
针对各个商品品类都有为其相对应预设的品类概率分布,所述品类概率分布为相应商品品类下所述编码词表中分布在各个词元相对应的概率。一种实施例中,对于所述各个商品品类对应预设的品类概率分布,具体实现如下:
可以理解,电商平台通常配备有广告系统,各个线上店铺的商家用户可向广告系统投放的广告相对应的广告文案及广告配置信息,将其提交到广告系统自有的广告发布渠道或第三方的广告发布渠道向公众展示。此外,广告系统可跟踪广告的投放成效,采集相应的成效数据进行关联该广告存储,所述成效数据包含但不限于:点击率、转化率、收藏率、加购率、购买率、投入产出比等。
不难理解,所述成效数据能够客观反映广告的投放成效,成效数据越高,表示广告的投放成效越好,广告对应的广告文案质量越高。由此,可以通过调用所述的广告系统开放的数据获取接口,获取各个广告相对应的成效数据,获取满足预设阈值的各个成效数据例如转化率高于0.8、点击率高过0.8、加购率0.8等中的任意一项或多项,对应的广告的广告文案作为优质广告文案。所述预设阈值根据成效数据的一项或多项数据相应而设,具体数值可由本领域技术人员按需设置。可知,广告文案通常采用精炼的语句或词汇描述商品的卖点或其他广告信息,由此,以各个优质广告文案相对应描述的商品所属的商品品类进行划分,获得各个商品品类相对应的各个优质广告文案。
对各个商品品类相对应的各个优质广告文案进行相应的分词,并且去除停用词和标点符号,获得所述各个优质广告文案相对应的多个分词,构建出各个商品品类的分词集。针对每个商品品类,计算其分词集中各个分词相对应的词频,所述计算可以对应分词在分词集中的数量除以分词集中所有分词的数量,而算出的结果则为词频。如此,获得各个商品品类的分词集中各个分词相对应的词频。进一步,将各个商品品类的分词集中各个分词相对应的词频作为与分词相同的编码词表的词元的概率,获得品类概率分布。
根据上述不难理解,所述品类概率分布是对优质广告文案表达相应品类的商品的卖点特征所采用的词汇凝练提取统计特征后所生成的参考数据。
所述品类概率分布的另一种实现,可参考后续部分实施例的揭示,本步骤暂且按下不表。
获取所述广告商品的商品品类对应的品类概率分布,以其对每个广告词元相应的生成概率分布进行加权,一种实施例中,所述加权的示范性公式举例:
Pcan=Pgen*(1+w·Pbow)
其中:Pgen为生成概率分布,Pbow为品类概率分布,1为避免品类概率分布为0的正则项,0<w≤1,“*”为元素级别的按位乘法运算,即所述生成概率分布中分布的各个概率按位乘上(1+w乘上品类概率分布中分布的各个概率)。在此加权后,获得每个广告词元相应的候选概率分布。
步骤S1300、根据每个候选概率分布从所述编码词表中选取满足预设条件相对应的多个候选词元,从预设的历史广告短语库中选取对应所述广告商品的店铺的以各个所述的候选词元开头的广告短语作为候选词,构造出每个候选概率分布相对应的候选词集;
一种实施例中,可以根据每个广告词元对应的候选概率分布设置一个的阈值,以根据每个候选概率分布从所述编码词表中选取超过所述阈值的每个广告词元相对应的多个候选词元。具体而言,所述阈值与步骤S1200中加权过程中设置的“w”有关,“w”越大时,阈值越大,当“w”为1时,阈值可设置为0.8至1.5之间的数值。本领域技术人员可按此处揭示灵活变通设置所述阈值。
所述历史广告短语库存储各个商品品类下各个店铺的广告短语,具体实现由后续部分实施例进一步揭示,本步骤暂且按下不表。
进一步,确定发布所述广告商品的广告的店铺,以及确定所述广告商品对应的商品品类,根据该广告商品对应的店铺和商品品类确定在历史广告短语库中相应的广告短语,获取其中以各个所述的候选词元开头的广告短语作为候选词,以每个候选概率分布对应的候选词构造出相应的候选词集。
步骤S1400、针对每个广告词元,从其相对应的候选词集随机择一作为对应词,或根据其生成概率分布/候选概率分布确定出编码词表中的词元作为对应词,将所有对应词构造为广告文案。
可以理解,每个广告词元相对应的候选概率分布都有其对应候选词集,因此,针对每个广告词元,可选择从其相对应的候选词集随机择一作为对应词,相应的后者的广告词元择取的候选词与前者各个广告词元择取的候选词不同;或者选择根据其生成概率分布或候选概率分布确定出编码词表中对应模型编码预测概率最大的词元最为对应词。针对所述两种选择可设置相应的决策概率以确定相应执行该两种选择中的一种。据此,以每个广告词元对应的对应词构造为广告文案。进一步,可以多次执行本步骤以相应获得多个广告文案。
服务器可将所述广告商品对应的多个广告文案,推送至创作该广告商品对应的广告文案的页面,以向店铺的商家用户提供创作参考,降低创作门槛。
根据本申请的典型实施例可以知晓,本申请的技术方案存在多方面优势,包括但不限于如下各方面:
首先,本申请采用文本生成模型基于商品文本预测出广告文案的各个广告词元对应的生成概率分布之后,采用商品品类相对应的品类概率分布对所述生成概率分布进行加权获得候选概率分布,根据候选概率分布在历史广告短语库中优选出相对应的候选词集,最后,可选地为每个广告词元在其候选词集中或根据生成概率分布/候选概率分布在模型的词表中确定对应词,为广告文案的广告词元的确定引入了随机性,使其能够相对随机地将模型预测结果中的部分广告词元确定为历史广告短语库的优质广告短语,避免严重依赖文本生成模型自身的词表确定广告词元,丰富了所生成的广告文案的表达内容,可进一步提升广告文案的生成质量。
其次,本申请在文本生成模型所获得的各个广告词元的生成概率分布的基础上,利用商品品类相对应的品类概率分布对生成概率分布进行加权,品类概率分布例如可以是对优质广告文案表达相应品类的商品的卖点特征所采用的词汇凝练提取统计特征后所生成的参考数据,藉此,能够借助品类概率分布显化商品文本相对应的商品品类的用词习惯所对应的特征,使加权所获得的候选概率分布更具表示相应商品品类的用词习惯相对应的特征的能力,可以用于实现优质广告用词的优选。
此外,由于在广告文案的构造阶段引入了随机性,所生成的广告文案适量采用历史广告短语,更易产出优雅的语句,并且,由于历史广告短语通常能精准表达商品卖点,因而,所生成的广告短语更能表达所述商品文本的商品的卖点,可提升使用该广告文案的广告的转化率,提升广告收益。
请参阅图2,进一步的实施例中,步骤S1100、获取广告商品的商品文本之前,还包括如下步骤:
步骤S1000、获取广告系统中已投放广告的广告文案,每个广告文案由电商平台中的店铺所投放,用于推广与其描述相对应的商品;
电商平台通常配备有广告系统,通过向各个线上店铺的商家用户开放相应的广告发布接口,通过该广告发布接口获得任意店铺的商家用户向广告系统投放的广告相对应的广告文案及广告配置信息,将其提交到广告系统自有的广告发布渠道或第三方的广告发布渠道向公众展示。
本申请中,所述广告文案主要包括广告文本,其由自然语言表达而成,可以包含任意语种的文字。每个所述店铺可以对应部署于电商平台的一个独立站点中。每个店铺可以上架大量的商品,用户可以通过进入店铺访问其中的任意商品的交易页面实现下单和支付等操作,从而实现电商交易。每个店铺可以向所述的广告系统投放其店铺中任意商品相对应的广告,在发布广告过程中提供商品相对应的广告文案,通过所述广告发布接口提交至所述广告系统实现发布。所述广告文案中,可以借助相应语种的文字描述其对应的商品的卖点及其他广告信息。所述商品的卖点可以包括商品的名称、品牌、特点、属性等任意信息。
当商品相对应的广告文案被提交,其相应的广告成功投放后,广告系统会根据广告投放后,相应的广告展示页面或展示位被用户访问的情况而统计出该广告的各项成效数据,包含但不限于:点击率、转化率、收藏率、加购率、购买率、投入产出比等。
所述点击率CTR(Click-Through-Rate),是互联网广告常用的术语,指网络广告(图片广告/文字广告/关键词广告/排名广告/视频广告等)的点击率,即该广告的实际点击次数(严格来说,可以是点击广告而触发跳转到达至指定页面的次数)除以广告的展示次数(Showcontent)。
所述转化率CVR(ConVersion Rate),是指通过点击网络广告进入推广网站的网民形成转化的比例,通常反映广告的直接受益。最初由2009年6月18日召开的中国互联网协会网络营销工作委员会成员大会上《中国网络营销(广告)效果评估准则》中提出,统计周期通常有小时、天、周和月等,也可以按需设定,被统计对象包括flash广告、图片广告、文字链广告、软文、邮件广告、视频广告、多媒体广告等多种广告形式。CVR=(转化量/点击量)*100%。
所述收藏率是网络广告被点击后跳转到达至商品页面,收藏页面展示的商品的总量与点击用户的总量即访客数量的比率。
所述加购率与收藏率相仿,是指网络广告被点击后跳转到达至商品页面,添加页面展示的商品至购物车的总量与点击用户的总量即访客数量的比率。
所述购买率与加购率相仿,是指网络广告被点击后跳转到达至商品页面,购买页面展示的商品的总量与点击用户的总量即访客数量的比率。
所述投入产出比(Return On Advertising Spend,ROAS)是衡量网络广告投放成效的营销指标。ROAS=广告投放总收入/广告投放成本。
不难理解,对于历史投放过的广告,可以通过调用所述的广告系统开放的数据获取接口,不仅可以获取已投放过广告的广告文案,还可获取各个广告相对应的成效数据。
步骤S1010、构建商品的品类体系中的各个商品品类相对应的广告词库,每个广告词库存储以其相应商品品类的商品的广告文案中提取的广告短语,每个广告短语包含两个以上词元;
电商平台的店铺,通过均构建有商品的品类体系,用于分门别类归纳店铺内的海量商品。所述品类体系可以是多层分类体系,即包含多个分类层级,每个分类层级包含多个具体品类。品类体系的构建,可由电商平台统一提供模板,由商家用户自行修订确定。
从广告系统中获取已投放广告的广告文案,其中不乏有以精炼的语言精准地描述商品的卖点的广告短语,因而,可以按照一定的规则,从每个广告文案中提取出一个或多个广告短语,用于构建本申请的广告词库,存储所述提取的广告短语。每个广告短语按照其所在的广告文案相对应的商品的商品品类,存储至该商品品类相对应的广告词库中。所述广告短语可以是广告文案中包含两个或两个以上的词元的短语,所述词元可以是两个词、三个词或四个词。
一种实施例中,可预先提供词性结构信息,词性结构信息用于定义需要从广告文案中提取出的广告短语的词元构造规则,所以可以通过包括多个短语构造来表示,示例而言,短语构造按照如下形式表示:
名词&名词
形容词&名词
动词&名词
可见,每个短语构造用于表示相同(名词&名词)或不同词性(形容词&名词,动词&名词)的词元组合为广告短语。
对于每个广告文案而言,为了从其中获得广告短语,可以先应用预设的分词方式,例如采用N-Gram算法、Jieba分词器等对其进行分词,同时,借助预设的词性提取器或者预设的其他用于实现词性标注的神经网络模型对各分词进行词性标注,获得各个分词相对应的词性。
进一步,可根据每个广告文案包含的各个分词相对应的词性,匹配与所述短语构造的规范相符合的分词组合作为广告短语。
步骤S1020、关联包含所述广告短语的广告文案统计确定各个广告短语在约束商品品类和店铺条件下的推荐评分,所述推荐评分根据所述广告短语的品类维度评分、店铺维度评分、广告维度评分汇总确定;
所述广告短语的品类维度评分,可参考如下过程实现:
首先,统计每个广告短语在其相同的商品品类的商品的广告文案中使用的词频。以每个商品品类为独立单位,统计每个商品品类j对应的广告词库中的每个广告短语w,在其商品品类相对应的所有已投放广告的广告文案中的出现次数,也即其词频freqencyw_j。然后,统计出所述商品品类相对应的所有已投放广告的广告文案的文案数量countj,于是,便可获得每个广告短语在所有已投放广告的广告文案中的出现比例Ratiow_j,即:
Ratiow_j=freqencyw_j/countj
进一步,可以对每个品类的广告词库中的所有广告短语的出现比例进行归一化,实现数值规范,将各个出现比例的统计量纲调整到[0,1]的数值空间。一种实施例中,应用softmax函数进行归一化,对每个品类下的各个广告短语的出现比例进行转换,公式示例如下:
Figure BDA0003768573850000111
其中k表示广告短语所属的品类,j表示所有品类中的任一个品类。
经过转换之后,每个品类下的各个广告短语均可获得其相应的品类维度评分ScoreCategow
所述广告短语的店铺维度评分,可参考如下过程实现:
以店铺为单位,分别统计各个品类下,每一店铺已投放广告的广告文案中各个广告短语在该店铺已投放广告的广告文案中的词频。可以基于本店铺内,统计确定本店铺使用的每个广告短语在本店铺的已投放广告的多个相同的商品品类的商品的广告文案中的出现次数,即其词频freqencyw_j_s
对于每一广告短语,确定其词频高于预设阈值相对应的店铺为已使用店铺,确定投放过每个商品品类的商品的广告的相同的商品品类的店铺总量和已使用店铺总量。所述预设阈值可以是经验阈值或实测阈值,可由本领域技术人员按需设定。具体而言,对于每个店铺,将其所使用的每个广告短语的词频与所述预设阈值相比较,当词频高于预设阈值时,便将本店铺确定为高频使用该广告短语的已使用店铺,而对于词频未高于预设阈值的情况,可将本店铺确定为低频使用该广告短语的未使用店铺。
对于每个商品品类下的每个广告短语,均可按照以上原理确定其相对应的已使用店铺,于是可以确定出已使用店铺总量Storeused_j。此外,对于所有为同一商品品类j的商品投放过广告的店铺,可将其确定为投放过该商品品类的商品的广告的相同的商品品类的店铺,进而可以确定相同的商品品类的店铺总量Storeall_i
对于每个店铺而言,其在一个品类中使用的一个广告短语,当同样在相同的商品品类的店铺总量既定的情况下,如果使用该广告短语的已使用店铺总量越高,则表示其新鲜度越低,反之,其新鲜度相对较高,其对于本店铺用于区别其他店铺所起的作用越高,由此,通过相同的商品品类的店铺总量与已使用店铺总量的比值可以确定每个广告短语被广泛使用的程度,进一步,可应用如下公式用于确定每个店铺、每个品类下的每个广告短语的新鲜度ScoreStorew
Figure BDA0003768573850000121
其中,1是为了避免分母为零的正则项,广告短语的词频freqencyw_j_s在此处可视为调节权重,不难理解,词频越高,广告短语的新鲜度便相对较高,表明店铺不仅区别于其他店铺经常高频使用该广告短语,很可能是该店铺区别于其他同行店铺的常用词。
为了便于计算推荐评分,进一步,应用最大最小规范化处理方式,对每个店铺相对应的所有广告短语的新鲜度按品类进行归一化处理,便获得每个店铺在各个品类下的每个广告短语的店铺维度评分,为便于理解,后续仍以ScoreStorew表示所述的店铺维度评分。
所述广告短语的广告维度评分,可参考如下过程实现:
可以通过调用所述的广告系统开放的数据获取接口,从广告系统中调用每个广告短语相对应的包含该广告短语的相同商品品类的广告文案,及这些广告文案相对应的成效数据。对每个广告短语的相同商品品类的广告文案的成效数据求均值,获得每个广告短语在相应商品品类下的平均成效数据。为了便于计算推荐评分,进一步,应用最大最小规范化处理方式,对每个广告短语的平均成效数据按商品品类进行归一化处理,便获得每个商品品类下的每个广告短语的广告维度评分ScoreCTRw
所述广告短语的推荐评分,可参考如下过程实现:
以商品品类和店铺为约束条件,计算确定每个店铺下每个商品品类的广告短语的推荐评分,所述推荐评分为该广告短语在所述商品品类中的品类维度评分、在所述店铺中的店铺维度评分,以及在所述商品品类中的广告维度评分的加权汇总和值。示范性公式举例:
Scorew=c1*ScoreCatew+c2*ScoreStorew+c3*ScoreCTRw
其中,Scorew为广告短语在不同店铺下的推荐评分,c1、c2、c3分别为广告短语的品类维度评分、店铺维度评分、广告维度评分相对应的预设权重,可由本领域技术人员按需预设。
步骤S1030、根据所述广告词库中各个广告短语在约束商品品类和店铺条件下的推荐评分,获取各个商品品类相对应的广告词库中对应不同店铺推荐评分较高的部分广告短语构建历史广告短语库。
可以预先设置较高的推荐评分作为阈值,从而从各个商品品类相对应的广告词库中,选取出对应不同店铺的超过该预设阈值的推荐评分相对应的部分广告短语,不难理解,这些广告短语对应其所属的商品品类以及对应的店铺而言,是具有更高的信息贡献价值的,将这些广告短语关联其所属的商品品类及对应的店铺存储至历史广告短语库中。
本实施例中,运用一个标准化的处理过程,基于从广告系统中获得的广告文案所提取的广告短语,不仅从商品品类的维度量化了各个广告短语的信息贡献价值,也对应每个店铺维度量化了各个广告短语的信息贡献价值,同时结合各个广告短语在广告维度的信息贡献价值,综合确定出每个广告短语在约束了店铺、商品品类的条件下的推荐评分,更进一步的批量地确定了电商平台中海量线上店铺所需的历史广告短语库,其处理过程高效,而所生成的广告短语在其推荐评分的指示下又能精准地提供广告短语在广告文案中的信息贡献价值,为实现本申请的广告文案的生成提供了可靠的基础数据。
请参阅图3,深化的实施例中,步骤S1100、预测出各个广告词元映射到编码词表相对应的生成概率分布的步骤中,包括如下步骤:
步骤S1110、应用文本生成模型的编码器编码广告商品的商品文本获得文本特征序列;
可以所述广告商品的商品标题、商品详情文本、商品品类中任意一项或多项文本作为所述商品文本,对应多项文本时,可采用字符串拼接的方式将多项文本进行拼接获得商品文本。
所述文本生成模型是Encoder-Decoder的语言模型,将所述广告商品的商品文本作为文本生成模型的输入,应用模型的预先训练至收敛的编码器对所述广告商品的商品文本进行编码,所述编码器可采用RNN(RecurrentNeuralNetwork,循环神经网络)实现,推荐采用基于自注意力层的适于处理序列任务的编码器实现。对商品文本进行分词,获得相应的词元,针对商品文本中包含的各个词元,通过查询编码词表,确定每个词元相对应的编码数值,根据这些编码数值构造各个词元相对应的嵌入向量,即词向量,由这些词向量构成所述商品文本对应的初始特征序列,所述编码词表中存储多个词元与其相对应的编码数据之间的映射关系数据。进一步,对所述初始特征序列提取广告商品的卖点特性的深层语义特征,获得文本特征序列。
步骤S1120、将所述文本特征序列作为前缀信息输入文本生成模型的解码器进行解码,预测出各个广告词元映射到编码词表相对应的生成概率分布。
一种实施例中,可采用GPT-2(Generative Pre-Training,生成预训练)作为所述文本生成模型的解码器,其他的,诸如XLNet、DistilGPT2等,也可适于构造所述解码器。从结构上说GPT-2是使用transformer解码器模块构建的,采用自回归机制生成各个词元,所述自回归机制为在每个新词元生成后,该词元就被添加至之前生成的词元序列后面,而该词元序列会成为模型下一步的新输入,最终生成完整的词元序列。
将所述文本特征序列作为前缀信息输入至预先训练至收敛的所述GPT-2进行解码,采用自回归方式预测出相应的各个广告词元映射到编码词表中分布在各个词元相对应的概率即所述生成概率分布。
本实施例中,通过文本生成模型的编码器对广告商品的商品文本进行相应的编码,提取表征广告商品的卖点特征的文本特征,获得向量化表示的文本特征序列,以其作为前缀信息应用模型的解码器进行解码,在参考所述文本特征基础上,精准预测出相应的各广告词元映射到编码词表相对应的生成概率分布。使得后续根据所述生成概率分布,确定的广告词元对应的构造广告文案的对应词,能够精准描述广告商品的卖点特性。
请参阅图4,进一步的实施例中,步骤S1200、获取为所述广告商品的商品品类而预设的品类概率分布的步骤中,包括如下步骤:
步骤S1210、采用预设分词器对预设的历史广告短语库存储的各个商品品类的广告短语进行分词,获得各个广告短语相对应的分词词元;
所述历史广告短语库存储各个商品品类下各个店铺的广告短语,具体实现由后续部分实施例进一步揭示,本步骤暂且按下不表。
所述分词器可为Byte-level BPE(Byte-level Byte Pair Encoding)。可选的,可以采用的分词器有:WordPiece、SentencePiece、Byte-Pair Encoding、N-Gram算法、HanLP、Jieba分词器等,本领域技术人员可按需选取任意一种。
采用Byte-level BPE对预设的历史广告短语库存储的各个商品品类的广告短语进行分词,获得各个广告短语相对应的分词词元。
步骤S1220、采用词袋模型构建各个商品品类的词袋,其中包含相应商品品类的广告短语对应的分词词元及其在词袋中的数量;
所述词袋模型可为BOW(Bag of Words),本领域技术人员应当知晓,BOW词袋模型构建文本对应的词袋时,并不关注文本的语法构成或是其中的各个词汇之间排列顺序,而是关注文本中各个词汇各出现了多少次。据此,采用BOW词袋模型统计各个商品品类中相对应的各个分词词元出现的次数,进而以各个商品品类包含的广告短语对应的分词词元及其出现的次数,构建各个商品品类的词袋。所述词袋,示范性举例:
{(token_1,count_1)、(token_2,count_2)……(token_n,count_n)}
其中:token为分词词元,count为分词词元出现的次数。
步骤S1230、确定所述各个商品品类的词袋中各个分词词元对应的词频,将各个商品品类的各个分词词元对应的词频作为与分词词元相同的编码词表的词元的概率,获得品类概率分布。
进一步,可采取最大值归一化的方式,确定所述各个商品品类的词袋中各个分词词元对应的词频,所述最大值归一化的方式,示范性公式举例:
frequency_i=count_i/max(count_j)
其中:i,j都是1至n的正整数。count_i为各个商品品类的词袋中各个分词词元对应的出现次数,max(count_j)为各个商品品类的词袋中各个分词词元对应的出现次数中的最大值,frequency_i为各个商品品类的词袋中各个分词词元对应的词频。
将各个商品品类的各个分词词元对应的词频作为与分词词元相同的编码词表的词元的概率,相应的,编码词表中的其他的词元对应的概率置为0,获得对应各个商品品类下编码词表中分布在各个词元的概率即品类概率分布。
本实施例中,通过对历史广告短语库存储的各个商品品类的广告短语进行分词,获得相对应的分词词元,进而构建各个商品品类对应的分词词元的词袋,确定词袋中各个分词词元对应在词频,以其相应作为与分词词元相同的编码词表的词元的概率,获得对应各个商品品类对应的品类概率分布。可以理解,能够从历史广告数据中提取出各个商品品类对应的词元分布特征,以其转换为对应编码词表中的词元分布特征即品类概率分布。后续能够以该品类概率分布对模型预测的生成概率分布进行加权,以显化对应广告商品的商品品类的特征,能够引导模型的输出。
请参阅图5,进一步的实施例中,步骤S1400、针对每个广告词元,从其相对应的候选词集随机择一作为对应词,或根据其生成概率分布/候选概率分布确定出编码词表中的词元作为对应词的步骤中,包括如下步骤:
步骤S1410、针对每个广告词元,获取其对应的决策概率,其中部分广告词元的决策概率各不相同;
针对每个广告词元可设置其对应决策概率,用于以其判断所述广告词元的选词对象为该广告词元相对应的候选词集,或生成概率分布/候选概率分布。
一种实施例中,针对前N个广告词元,设定其决策概率为0,其中N大于等于1,针对后续广告词元,设定其决策概率自高于0的预设数值开始呈递减分布,所述决策概率可由本领域技术人员按此处揭示按需设置。
另一种实施例中,针对首个广告词元,设定其决策概率为高于0的预设数值,对于后续广告词元,反比于在先已确定为对应词的候选词的数量设定各个广告词元相对应的决策概率,所述决策概率可由本领域技术人员按此处揭示按需设置。
步骤S1420、根据所述决策概率判断所述广告词元的选词对象为该广告词元相对应的候选词集或生成概率分布/候选概率分布;
可以理解,所述广告词元的选词对象为该广告词元相对应的候选词集,或生成概率分布/候选概率分布,所述决策概率指的是选词对象为候选词集的概率,相应的选词对象为生成概率分布/候选概率分布的概率为(1-决策概率)。示范性举例,所述决策概率为86%,其为广告词元的选词对象为广告词元相对应的候选词集的概率,另外,14%的概率,广告词元的选词对象为生成概率分布/候选概率分布,当命中86%时,即选词对象为广告词元相对应候选词集,反之则命中14%时,即选词对象为生成概率分布/候选概率分布。由此,可根据所述决策概率命中的情况判断所述广告词元的选词对象。
步骤S1430、当所述选词对象为候选词集时,随机确定其中一个候选词作为对应词;
当所述广告词元的选词对象为该广告词元的候选词集时,确定该广告词元之前所有的广告词元对应选定的已选候选词,进而随机确定该广告词元相对应的候选词集中除该些已选候选词以外的一个候选词作为对应词。
步骤S1440、当所述选词对象为生成概率分布/候选概率分布时,根据其生成概率分布/候选概率分布确定出编码词表中的词元作为对应词。
当所述广告词元的选词对象为生成概率分布/候选概率分布时,可根据该广告词元的生成概率分布即相应的编码词表中分布在各个词元的概率,确定其中概率最大的词元作为对应词。或者根据该广告词元的候选概率分布即相应的编码词表中分布在各个词元的概率,确定其中概率最大的词元作为对应词。
本实施例中,通过每个广告词元对应的决策概率,以其灵活确定广告词元对应的选词对象,选定广告词元对应的对应词,使得后续以各个广告词元对应的对应词构建成的广告文案,看上去是自然嵌入候选词,而不是刻板地固定嵌入,看上去像是模板,影响广告文案的观感体验。
请参阅图6,较佳的实施例中,步骤S1410、针对每个广告词元,获取其对应的决策概率的步骤中,包括如下步骤:
步骤S1411、针对前N个广告词元,设定其决策概率为0,其中N大于等于1;
可以针对所述决策概率设定一种的动态调整方式,首先,可以针对文本生成模型预测出的前N个广告词元,例如8个或10个等,设定相应的设定各个广告词元对应的决策概率为0,即这些前N个广告词元的选词对象仅能是生成概率分布,确保不会是相应的候选词集。
步骤S1412、针对后续广告词元,设定其决策概率自高于0的预设数值开始呈递减分布;
其次,可以针对后续广告词元,设定紧接所述前N个广告词元后的第一个广告词元对应的决策概率为自高于0的较大的预设数值,继而继该第一个广告词元后的每个广告词元相对应的决策概率以一定的差值递减,直至达到预设的最低阈值后,相应的各个广告词元相对应的决策概率都为预设的最低阈值,所述最低阈值可为高于或等于0的数值。示范性举例,第一个广告词元对应的决策概率为60%,继该第一个广告词元后的每个广告词元相对应的决策概率相应以2%的差值递减,预设最低阈值为10%,即相应的决策概率为58%、56%……10%、10%、10%。所述最低阈值、决策概率、递减差值相对应的具体数值可由本领域技术人员按需设置。
请参阅图7,或者,包括如下步骤:
步骤S1411'、针对首个广告词元,设定其决策概率为高于0的预设数值;
可以针对所述决策概率设定一种的动态调整方式,首先,可以针对首个广告词元,设定其决策概率为高于0的较大的预设数值,例如80%,具体数值可由本领域技术人员按需设置。
步骤S1412'、对于后续广告词元,反比于在先已确定为对应词的候选词的数量设定各个广告词元相对应的决策概率。
其次,可以对于后续广告词元,以相对于各个广告词元,之前的广告词元及当前该广告词元,已确定为对应词的候选词的数量,反比设定各个广告词元相对应的决策概率,即相对而言,所述候选词的数量越多,相应的决策概率越小直至为0,据此,可根据所述候选词的数量,相应设置决策概率以一定的差值递减,直至为0。示范性举例,预设最低阈值为10%,当已确定为对应词的候选词的数量为0时,相应的各个广告词元的决策概率为80%,当以确定为对应词的候选词的数量为3时,相应的各个广告词元的决策概率为40%,当以确定为对应词的候选词的数量为6时,相应的各个广告词元的决策概率为0。所述根据候选词的数量,及所述递减差值相对应的具体数值可由本领域技术人员按需设置。
本实施例中,揭示了动态调整广告词元的决策概率的方式,使得后续以各个广告词元的对应词构造的商品文案,其中嵌入的对应词为候选词的数量充足且不过多。
请参阅图8,扩展的实施例中,步骤S1400、将所有对应词构造为广告文案的步骤之后,还包括如下步骤:
步骤S1500、确定所述广告商品的商品文本与广告文案之间的描述相似度和推广价值度;
一种实施例中,允许为描述相似度的确定设置多个表示不同密切程度等级的类别,可依描述相似度高低而映射到不同类别,后续方便通过类别筛选,快速过滤部分描述相似度较低的广告文案。
所述描述相似度的确定,可采用神经网络模型实施,通过提取广告商品的商品文本、广告文案或其结合的特征向量来计算。所述神经网络模型优选循环神经网络模型(RNN),例如LSTM(长短期记忆循环神经网络)、BiLSTM(双向长短期记忆循环神经网络)、Transformer、Bert、RoBERTa、ALBert、ERNIE、BERT-WWM等。所述神经网络模型可根据本申请所揭示的原理,可以选用Adam、AdamW等优化算法中的一个,建立多任务的分类模型,预先采用足量对应的训练样本将其训练至收敛状态,从而使得其习得根据给定的广告商品的商品文本、广告文案或其结合对应确定描述相似度的能力。
为此,一种实施例中,可以采用两个同构的基础神经网络模型搭建双塔模型,通过两个基础神经网络模型分别对广告商品的商品文本和广告文案提取特征向量并进行拼接获得综合特征向量后,进一步分类映射获得映射到预设类别的分类概率作为描述相似度;另一实施例中,可实现为采用单个基础神经网络模型利用广告商品的商品文本与广告文案的结合文本进行特征提取获得综合特征向量后做分类映射获得映射到预设类别的分类概率作为所述的描述相似度。
所述广告商品的商品文本与所述广告文案之间的推广价值度,主要用于表征该广告文案是否适于推广,推广价值度越高,表示相应的广告文案能为广告商品的推广带来更高的信息贡献价值,推广价值度越低,则表示广告文案为广告商品的推广带来的信息贡献价值也相应越低。
所述推广价值度的确定,同理可采用神经网络模型实施,通过提取广告商品的商品文本、广告文案或其结合的特征向量来计算,所述神经网络模型优选循环神经网络模型(RNN),例如LSTM(长短期记忆循环神经网络)、BiLSTM(双向长短期记忆循环神经网络)、Transformer、Bert、RoBERTa、ALBert、ERNIE、BERT-WWM等。所述神经网络模型可根据本申请所揭示的原理,可以选用Adam、AdamW等优化算法中的一个,建立多任务的分类模型,预先采用足量对应的训练样本将其训练至收敛状态,从而使得其习得根据给定的广告商品的商品文本、广告文案或其结合对应确定推广价值度的能力。
为此,一种实施例中,可以采用两个同构的基础神经网络模型搭建双塔模型,通过两个基础神经网络模型分别对广告商品的商品文本和广告文案提取特征向量并进行拼接获得综合特征向量后,进一步分类映射获得映射到预设类别的分类概率作为推广价值度;另一实施例中,可实现为采用单个基础神经网络模型利用广告商品的商品文本与广告文案的结合文本进行特征提取获得综合特征向量后做分类映射获得映射到预设类别的分类概率作为所述的推广价值度。
步骤S1600、确定广告文案中语句的文本困惑度;
文本困惑度可以用于评价语句是否通顺,因而,可以基于文本困惑度量化表示广告文案是否符合语法表达要求、遣词造句是否得当、语义是否通顺等。一个实施例中,对于广告文案存在多个独立语句的情况,可以不考虑其分句的事实,将其中的各个独立语句直接拼接在一起,作为单独的一个语句进行量化确定广告文案中语句在整体上的文本困惑度。另一实施例中,可以针对广告文案中的各个语句,分别独立确定各个独立语句的文本困惑度,然后将所有语句的文本困惑度求取均值作为广告文案中语句的整体上的文本困惑度。
一个实施例中,为了确定给定的语句的文本困惑度,可以采用预训练的因果语言模型(CausalLanguageModeling,CLM)实施。因果语言模型(causal language model),是跟掩码语言模型相对的语言模型,跟Transformer机制中的解码器很相似,因果语言模型采用了对角掩蔽矩阵,使得每个token只能看到在它之前的token信息,而看不到在它之后的token,模型的训练目标是根据在这之前的token来预测下一个位置的token。通常是根据概率分布来计算词之间组合的出现概率,因果语言模型根据所有之前的token信息来预测当前时刻token,所以可以很直接地应用到文本生成任务中。可以理解为encoder-decoder的模型结果使用了完整的transformer结构,但是因果语言模型则只用到transformer的decoder结构(同时去掉transformer中间的encoder-decoder attention,因为没有encoder的结构)。
由此,可将广告文案的语句的词元进行词嵌入之后获得的嵌入向量序列化地输入因果训练模型中进行逐步解码,获得其中各个词元相对应的预测概率,将这些词元的预测概率相乘的结果作为所述语句的文本困惑度,能够在一定程度上反映广告文案的语句的合法性和合理性。不难理解,广告文案的文本困惑度越低,广告文案便越是符合语法和表达习惯。
步骤S1700、融合描述相似度、推广价值度以及文本困惑度获得广告文案的质量评分。
获得所述广告文案的描述相似度Similar、推广价值度Value以及文本困惑度Perplexity之后,便可对这些数据进行融合,获得一个综合的结果,作为所述广告文案的质量评分Score。一种实施例中,可以通过匹配预设权重进行加权求和的方式,实现所述融合获得质量评分,示例性的公式如下:
Figure BDA0003768573850000211
其中,ω1、ω2、ω3为预设权重,,可由本领域技术人员按需预设,Similar、Value、Perplexity已预先归一化至[0,1]的置信区间,故以系数1/3求均值进一步将最终的质量评分归一化至[0,1]的数值区间,以使质量评分更为直观。
可以理解,步骤S1400执行具备一定的随机性,据此,可以多次执行该本步骤以相应获得所述广告商品对应的多个广告文案。可将该多个广告文案按照本实施例的技术实现获得相对应的质量评分,从而选取出质量评分较高的一个或多个广告文案,继而服务器可将质量评分较高的广告文案,推送至创作该广告商品对应的广告文案的页面,以向店铺的商家用户提供创作参考,降低创作门槛。
本实施例中,分别从描述相似度、推广价值度、文本困惑度三个维度对广告文案的质量进行量化评价,满足对广告文案进行营销推广所需的质量评价的需求。
请参阅图9,适应本申请的目的之一而提供的一种广告文案生成装置,是对本申请的广告文案生成方法的功能化体现,该装置包括包括模型预测模块1100、概率分布模块1200、词集构造模块1300以及文案构造模块1400,其中:模型预测模块1100,用于获取广告商品的商品文本,将其输入至文本生成模型,预测出各个广告词元映射到编码词表相对应的生成概率分布,所述商品文本包括商品的商品描述信息;概率分布模块1200,用于获取为所述广告商品的商品品类而预设的品类概率分布对各个所述生成概率分布进行加权,获得每个广告词元相应的候选概率分布;词集构造模块1300,用于根据每个候选概率分布从所述编码词表中选取满足预设条件相对应的多个候选词元,从预设的历史广告短语库中选取对应所述广告商品的店铺的以各个所述的候选词元开头的广告短语作为候选词,构造出每个候选概率分布相对应的候选词集;文案构造模块1400,用于针对每个广告词元,从其相对应的候选词集随机择一作为对应词,或根据其生成概率分布/候选概率分布确定出编码词表中的词元作为对应词,将所有对应词构造为广告文案。
进一步的实施例中,所述模型预测模块1100之前,还包括:文案获取模块,用于获取广告系统中已投放广告的广告文案,每个广告文案由电商平台中的店铺所投放,用于推广与其描述相对应的商品;词库构建模块,用于构建商品的品类体系中的各个商品品类相对应的广告词库,每个广告词库存储以其相应商品品类的商品的广告文案中提取的广告短语,每个广告短语包含两个以上词元;评分确定模块,用于关联包含所述广告短语的广告文案统计确定各个广告短语在约束商品品类和店铺条件下的推荐评分,所述推荐评分根据所述广告短语的品类维度评分、店铺维度评分、广告维度评分汇总确定;数据库构建模块,用于根据所述广告词库中各个广告短语在约束商品品类和店铺条件下的推荐评分,获取各个商品品类相对应的广告词库中对应不同店铺推荐评分较高的部分广告短语构建历史广告短语库。
深化的实施例中,所述模型预测模块1100,包括:编码子模块,用于应用文本生成模型的编码器编码广告商品的商品文本获得文本特征序列;解码子模块,用于将所述文本特征序列作为前缀信息输入文本生成模型的解码器进行解码,预测出各个广告词元映射到编码词表相对应的生成概率分布。
进一步的实施例中,所述概率分布模块1200,包括:文本分词子模块,用于采用预设分词器对预设的历史广告短语库存储的各个商品品类的广告短语进行分词,获得各个广告短语相对应的分词词元;词袋构建子模块,用于采用词袋模型构建各个商品品类的词袋,其中包含相应商品品类的广告短语对应的分词词元及其在词袋中的数量;品类概率分布子模块,用于确定所述各个商品品类的词袋中各个分词词元对应的词频,将各个商品品类的各个分词词元对应的词频作为与分词词元相同的编码词表的词元的概率,获得品类概率分布。
进一步的实施例中,所述文案构造模块1400,包括:决策概率获取子模块,用于针对每个广告词元,获取其对应的决策概率,其中部分广告词元的决策概率各不相同;选词对象判断子模块,用于根据所述决策概率判断所述广告词元的选词对象为该广告词元相对应的候选词集或生成概率分布/候选概率分布;第一对应词子模块,用于当所述选词对象为候选词集时,随机确定其中一个候选词作为对应词;第二对应词子模块,用于当所述选词对象为生成概率分布/候选概率分布时,根据其生成概率分布/候选概率分布确定出编码词表中的词元作为对应词。
较佳的实施例中,所述决策概率获取子模块,包括:第一初始设定单元,用于针对前N个广告词元,设定其决策概率为0,其中N大于等于1;第一后续设定单元,用于针对后续广告词元,设定其决策概率自高于0的预设数值开始呈递减分布;
或者,包括:第二初始设定单元,用于针对首个广告词元,设定其决策概率为高于0的预设数值;第二后续设定单元,用于对于后续广告词元,反比于在先已确定为对应词的候选词的数量设定各个广告词元相对应的决策概率。
扩展的实施例中,所述文案构造模块1400之后,还包括:第一运算模块,用于确定所述广告商品的商品文本与广告文案之间的描述相似度和推广价值度;第二运算模块,用于确定广告文案中语句的文本困惑度;综合运算模块,用于融合描述相似度、推广价值度以及文本困惑度获得广告文案的质量评分。
为解决上述技术问题,本申请实施例还提供计算机设备。如图10所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种广告文案生成方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的广告文案生成方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图9中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的广告文案生成装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的广告文案生成方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请通过干涉文本生成模型的编码过程,使得引导模型生成高质量的广告文案,另外,为广告文案的广告词元的确定引入了随机性,使得广告文案包含适量的优质的广告短语,进一步提升广告文案的质量。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种广告文案生成方法,其特征在于,包括如下步骤:
获取广告商品的商品文本,将其输入至文本生成模型,预测出各个广告词元映射到编码词表相对应的生成概率分布,所述商品文本包括商品的商品描述信息;
获取为所述广告商品的商品品类而预设的品类概率分布对各个所述生成概率分布进行加权,获得每个广告词元相应的候选概率分布;
根据每个候选概率分布从所述编码词表中选取满足预设条件相对应的多个候选词元,从预设的历史广告短语库中选取对应所述广告商品的店铺的以各个所述的候选词元开头的广告短语作为候选词,构造出每个候选概率分布相对应的候选词集;
针对每个广告词元,从其相对应的候选词集随机择一作为对应词,或根据其生成概率分布/候选概率分布确定出编码词表中的词元作为对应词,将所有对应词构造为广告文案。
2.根据权利要求1所述的广告文案生成方法,其特征在于,获取广告商品的商品文本之前,还包括如下步骤:
获取广告系统中已投放广告的广告文案,每个广告文案由电商平台中的店铺所投放,用于推广与其描述相对应的商品;
构建商品的品类体系中的各个商品品类相对应的广告词库,每个广告词库存储以其相应商品品类的商品的广告文案中提取的广告短语,每个广告短语包含两个以上词元;
关联包含所述广告短语的广告文案统计确定各个广告短语在约束商品品类和店铺条件下的推荐评分,所述推荐评分根据所述广告短语的品类维度评分、店铺维度评分、广告维度评分汇总确定;
根据所述广告词库中各个广告短语在约束商品品类和店铺条件下的推荐评分,获取各个商品品类相对应的广告词库中对应不同店铺推荐评分较高的部分广告短语构建历史广告短语库。
3.根据权利要求1所述的广告文案生成方法,其特征在于,预测出各个广告词元映射到编码词表相对应的生成概率分布的步骤中,包括如下步骤:
应用文本生成模型的编码器编码广告商品的商品文本获得文本特征序列;
将所述文本特征序列作为前缀信息输入文本生成模型的解码器进行解码,预测出各个广告词元映射到编码词表相对应的生成概率分布。
4.根据权利要求1所述的广告文案生成方法,其特征在于,获取为所述广告商品的商品品类而预设的品类概率分布的步骤中,包括如下步骤:
采用预设分词器对预设的历史广告短语库存储的各个商品品类的广告短语进行分词,获得各个广告短语相对应的分词词元;
采用词袋模型构建各个商品品类的词袋,其中包含相应商品品类的广告短语对应的分词词元及其在词袋中的数量;
确定所述各个商品品类的词袋中各个分词词元对应的词频,将各个商品品类的各个分词词元对应的词频作为与分词词元相同的编码词表的词元的概率,获得品类概率分布。
5.根据权利要求1所述的广告文案生成方法,其特征在于,针对每个广告词元,从其相对应的候选词集随机择一作为对应词,或根据其生成概率分布/候选概率分布确定出编码词表中的词元作为对应词的步骤中,包括如下步骤:
针对每个广告词元,获取其对应的决策概率,其中部分广告词元的决策概率各不相同;
根据所述决策概率判断所述广告词元的选词对象为该广告词元相对应的候选词集或生成概率分布/候选概率分布;
当所述选词对象为候选词集时,随机确定其中一个候选词作为对应词;
当所述选词对象为生成概率分布/候选概率分布时,根据其生成概率分布/候选概率分布确定出编码词表中的词元作为对应词。
6.根据权利要求1所述的广告文案生成方法,其特征在于,针对每个广告词元,获取其对应的决策概率的步骤中,包括如下步骤:
针对前N个广告词元,设定其决策概率为0,其中N大于等于1;
针对后续广告词元,设定其决策概率自高于0的预设数值开始呈递减分布;
或者,包括如下步骤:
针对首个广告词元,设定其决策概率为高于0的预设数值;
对于后续广告词元,反比于在先已确定为对应词的候选词的数量设定各个广告词元相对应的决策概率。
7.根据权利要求1所述的广告文案生成方法,其特征在于,将所有对应词构造为广告文案的步骤之后,还包括如下步骤:
确定所述广告商品的商品文本与广告文案之间的描述相似度和推广价值度;
确定广告文案中语句的文本困惑度;
融合描述相似度、推广价值度以及文本困惑度获得广告文案的质量评分。
8.一种广告文案生成装置,其特征在于,包括:
模型预测模块,用于获取广告商品的商品文本,将其输入至文本生成模型,预测出各个广告词元映射到编码词表相对应的生成概率分布,所述商品文本包括商品的商品描述信息;
概率分布模块,用于获取为所述广告商品的商品品类而预设的品类概率分布对各个所述生成概率分布进行加权,获得每个广告词元相应的候选概率分布;
词集构造模块,用于根据每个候选概率分布从所述编码词表中选取满足预设条件相对应的多个候选词元,从预设的历史广告短语库中选取对应所述广告商品的店铺的以各个所述的候选词元开头的广告短语作为候选词,构造出每个候选概率分布相对应的候选词集;
文案构造模块,用于针对每个广告词元,从其相对应的候选词集随机择一作为对应词,或根据其生成概率分布/候选概率分布确定出编码词表中的词元作为对应词,将所有对应词构造为广告文案。
9.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
CN202210893732.2A 2022-07-27 2022-07-27 广告文案生成方法及其装置、设备、介质 Pending CN115204959A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210893732.2A CN115204959A (zh) 2022-07-27 2022-07-27 广告文案生成方法及其装置、设备、介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210893732.2A CN115204959A (zh) 2022-07-27 2022-07-27 广告文案生成方法及其装置、设备、介质

Publications (1)

Publication Number Publication Date
CN115204959A true CN115204959A (zh) 2022-10-18

Family

ID=83583989

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210893732.2A Pending CN115204959A (zh) 2022-07-27 2022-07-27 广告文案生成方法及其装置、设备、介质

Country Status (1)

Country Link
CN (1) CN115204959A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI831432B (zh) * 2022-10-24 2024-02-01 中國信託商業銀行股份有限公司 行銷文案生成方法及其運算裝置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
TWI831432B (zh) * 2022-10-24 2024-02-01 中國信託商業銀行股份有限公司 行銷文案生成方法及其運算裝置

Similar Documents

Publication Publication Date Title
CN107491531B (zh) 基于集成学习框架的中文网络评论情感分类方法
CN109933664B (zh) 一种基于情感词嵌入的细粒度情绪分析改进方法
US8676730B2 (en) Sentiment classifiers based on feature extraction
CN110263248B (zh) 一种信息推送方法、装置、存储介质和服务器
CN106599032A (zh) 一种结合稀疏编码和结构感知机的文本事件抽取方法
US20220172247A1 (en) Method, apparatus and program for classifying subject matter of content in a webpage
CN114971730A (zh) 文案素材提取方法及其装置、设备、介质、产品
Gupta et al. PAN-LDA: A latent Dirichlet allocation based novel feature extraction model for COVID-19 data using machine learning
CN102609424B (zh) 评价信息抽取方法和设备
CN109582788A (zh) 垃圾评论训练、识别方法、装置、设备及可读存储介质
Baishya et al. SAFER: sentiment analysis-based fake review detection in e-commerce using deep learning
KR20230052609A (ko) 기계독해를 이용한 리뷰 분석 시스템 및 방법
CN114997288A (zh) 一种设计资源关联方法
CN113761114A (zh) 短语生成方法、装置和计算机可读存储介质
US20190019094A1 (en) Determining suitability for presentation as a testimonial about an entity
CN115204959A (zh) 广告文案生成方法及其装置、设备、介质
Al-Qershi et al. Predicting crowdfunding success with visuals and speech in video ads and text ads
Benton et al. Deep Dirichlet multinomial regression
Pavlick et al. Identifying 1950s american jazz musicians: Fine-grained isa extraction via modifier composition
CN111737607A (zh) 数据处理方法、装置、电子设备以及存储介质
CN109635289A (zh) 词条分类方法及审计信息抽取方法
CN115080741A (zh) 一种问卷调查分析方法、装置、存储介质及设备
Modak et al. A study on sentiment analysis
CN112115258B (zh) 一种用户的信用评价方法、装置、服务器及存储介质
Ning Domain adaptation for opinion classification: A self-training approach

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination