CN115293817A - 广告文本生成方法及其装置、设备、介质、产品 - Google Patents
广告文本生成方法及其装置、设备、介质、产品 Download PDFInfo
- Publication number
- CN115293817A CN115293817A CN202210986684.1A CN202210986684A CN115293817A CN 115293817 A CN115293817 A CN 115293817A CN 202210986684 A CN202210986684 A CN 202210986684A CN 115293817 A CN115293817 A CN 115293817A
- Authority
- CN
- China
- Prior art keywords
- text
- advertisement
- topic
- advertisement text
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/02—Marketing; Price estimation or determination; Fundraising
- G06Q30/0241—Advertisements
- G06Q30/0276—Advertisement creation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/041—Abduction
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- Development Economics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Accounting & Taxation (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Finance (AREA)
- Computing Systems (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Economics (AREA)
- Molecular Biology (AREA)
- Game Theory and Decision Science (AREA)
- Entrepreneurship & Innovation (AREA)
- Databases & Information Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本申请涉及广告文本生成方法及其装置、设备、介质、产品,所述方法包括:获取用于描述目标商品的文本信息及用于控制广告文本的主题特征的至少一个主题标签;从主题词表中查询确定各个所述的主题标签相对应的关键词,构造出关键词序列,所述关键词用于描述商品的卖点信息;采用广告文本生成模型,以所述关键词序列与所述文本信息构成的句对为输入预测出至少一个广告文本中的各个词元;确定每个预测出的广告文本映射到所述主题标签的匹配度作为相应的广告文本的排序分值,筛选出部分广告文本。本申请能够通过主题标签控制广告文本生成模型所生成的广告文本的主题风格,使其能够适配实际营销需求而生成有效的广告文本。
Description
技术领域
本申请涉及广告文本生成技术,尤其涉及一种广告文本生成方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
电商场景中,广告投放是商品吸引潜在顾客、促进购买行为的重要方式,而广告投放时向用户展示的重要内容之一就是广告文本。在实践中,创作广告文本需要充分理解商品和目标市场,了解广告投放的文案规范,在此基础之上,能够提取商品的卖点信息,采用一定的表达技巧,撰写出投合市场和最大程度达成商业目的的文案,由此足见广告文本的创作需要花费人力和时间。除此之外,编写广告文本也需要较高的专业水准,而商家用户往往缺少相应的条件,也为广告文本的创作带来困难。
为了解决这些问题,常借助基于深度学习的神经网络模型来为商家用户自动生成相关广告文本。目前常采用广告文本生成模型用于生成广告文本,主要通过接收商品的标题、详情页文本、商品图像等一种或多种信息作为输入,采用基于编码器-解码器模型或者语言模型的结构去生成文案,虽然可以获得语句流畅的、或多或少介绍商品特点的文案,但是难以控制文本生成的主题,因而无法控制所生成的广告文案的质量。
现实中,广告文本作为服务营销活动的文本,需要充分挖掘潜在客户对商品的关注点,文本内容要符合商品的信息和特性、突出商品的核心卖点,这样的广告文本方能最大程度的引流促转化,并最终达成营销目的。因而,生成广告文本时,除了需要考虑商品自身的特性和卖点,更需要引入商品的营销侧重点,聚焦其中一个或多个关键信息,生成能够诠释不同侧重点的广告文本。于是,生成广告文本时是否能够提供可控性用于调节所生成的广告文本,使其符合不同需求,便成为目前广告文本生成技术需要克服的核心问题。
发明内容
本申请的目的在于解决上述问题而提供一种广告文本生成方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品、
适应本申请的各个目的,采用如下技术方案:
一个方面,适应本申请的目的之一而提供一种广告文本生成方法,包括:
获取用于描述目标商品的文本信息及用于控制广告文本的主题特征的至少一个主题标签;
从预设的主题词表中查询确定各个所述的主题标签相对应的关键词,构造出涵盖各个所述的主题标签相对应的关键词序列,所述关键词用于描述商品的卖点信息,该卖点信息符合该关键词所属的主题标签的主题特征;
采用广告文本生成模型,以所述关键词序列与所述文本信息构成的句对为输入,逐时间步自回归预测出至少一个广告文本中的各个词元;
确定每个预测出的广告文本映射到所述主题标签的匹配度作为相应的广告文本的排序分值,筛选出部分广告文本。
另一方面,适应本申请的目的之一而提供一种广告文本生成装置,包括:
输入获取模块,设置为获取用于描述目标商品的文本信息及用于控制广告文本的主题特征的至少一个主题标签;
输入构造模块,设置为从预设的主题词表中查询确定各个所述的主题标签相对应的关键词,构造出涵盖各个所述的主题标签相对应的关键词序列,所述关键词用于描述商品的卖点信息,该卖点信息符合该关键词所属的主题标签的主题特征;
推理预测模块,设置为采用广告文本生成模型,以所述关键词序列与所述文本信息构成的句对为输入,逐时间步自回归预测出至少一个广告文本中的各个词元;
广告优选模块,设置为确定每个预测出的广告文本映射到所述主题标签的匹配度作为相应的广告文本的排序分值,筛选出部分广告文本。
又一方面,适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的广告文本生成方法的步骤。
又一方面,适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的广告文本生成方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
又一方面,适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述广告文本生成方法的步骤。
相对于现有技术,本申请包含多方面技术优势,包括但不限于:
首先,在生成广告文本时,通过提供主题标签确定一个关键词序列,其中的关键词是描述相应的卖点信息的词汇,以此实现对期望生成的广告文本所需符合的主题特征进行控制,然后,通过将所述关键词序列与商品的文本信息共同构造为句对,作为广告文本模型的输入,由模型预测出广告文本,所获得的广告文本必然是在所述的主题标签相对应的关键词序列的语义指导下生成的,因而,所获得的广告文本可以有效对应不同主题。
其次,由于本申请的主题标签属于可以灵活定义的输入要素,通过调节所述的主题标签便可控制所生成的广告文本的主题风格,因而,有望以更贴合营销侧的需求的方式,有效地表述出商品的特点。
此外,在最终确定广告文本时,本申请进一步评估所预测出的广告文本映射到输入时所指定的主题标签的匹配度,然后根据匹配度优选出最终的广告文本,实现对广告文本生成模型所生成广告文本的精选,可确保最终获得的广告文本的总体质量,使其更匹配原始输入相对应的期望。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请示例性的广告文本生成模型的网络架构示意图;
图2为本申请的广告文本生成方法的一种实施例的流程示意图。
图3为本申请实施例中广告文本生成模型预测广告文本的流程示意图。
图4为本申请实施例中解码器的自回归过程的流程示意图。
图5为本申请实施例中借助主题分类器筛选广告文本的流程示意图。
图6为本申请实施例中训练广告文本生成模型的流程示意图。
图7为本申请实施例中构造数据集的流程示意图。
图8为本申请实施例中构造主题词表的流程示意图。
图9为本申请的广告文本生成装置的原理框图;
图10为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
请参阅图1,本申请示例性给出的广告文本生成模型的网络架构中,所述广告文本生成模型包括编码器、解码器、词表分类器和主题分类器,所述编码器接收对商品的文本信息和起控制作用的主题标签的关键词序列进行序列化编码所获得的编码向量的输入,提取出其中的深层语义信息,获得编码向量序列,输入解码器中;所述解码器以所述编码向量序列为前缀信息进行自回归解码,经所述词表分类器,逐时间步地预测出每个前缀信息相对应的文本向量,再将根据该文本向量确定的词元的特征编码更新所述前缀信息以继续预测下一时间步的文本向量,实现自回归解码;所述词表分类器能够将解码器解码得到的隐层向量映射到广告文本生成模型所引用的参考词表从而获得一个映射到所述参考词表中各个词元的概率分布作为文本向量;所述主题分类器用于将解码器最后生成的广告文本相对应的文本特征序列进行分类映射,以确定出各个广告文本映射到所述主题标签的匹配度,以供对所述广告文本进行优选。
所述的编码器,适于对输入文本进行向量表示和多层语义空间的转化学习,可以从多种已知模型中选择,包括但不限于RNN、BiLSTM、BiGRU、RoBERTa、ALBert、ERNIE、BERT-WWM等。
所述的解码器,适于利用当前时间步的上文的编码向量序列以及编码器最后一个隐藏层的状态信息,经过多层自注意力和交叉自注意力机制,学习调整当前时间步的隐藏层的状态信息。可以选择的自回归预训练模型包括但不限于:GPT2、XLNet、DistilGPT2等,还可以采用RNN、LSTM、GRU等经典模型。
一个实施例中,可采用Transformer模型,同时提供编码器和解码器,用于作为所述广告文本生成模型的选型。
所述的词表分类器,可以采用Softmax函数来构造,其在解码器的最后一个隐藏层之后接入,预测当前时间步所对应的词元,计算出相应的隐层向量映射到整个参考词表中的各个词元的概率分布,作为一个文本向量。
所述的主题分类器,可以对应已知的每个主题标签设置一个Sigmoid函数来计算映射到该主题标签的分类概率,当解码器输出结束符时,把解码器最后一个隐藏层对应的张量的平均值或者预设的分类符(譬如:[CLS])所对应的张量,输入到主题分类器中,便可预测出其映射到各个主题标签相对应的分类概率,可以用于参考所输入的关键词序列的主题标签来计算出总体损失值而确定所生成的广告文本与在输入时所指定的主题标签的匹配度。
以上示例性的广告文本生成模型,预先被训练至收敛状态后,可以用于实施本申请的技术方案,包括本申请的方法、装置、设备、介质、产品等,以下将具体揭示各个技术方案的具体实施方式。
本申请的一种广告文本生成方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如,本申请的示例性应用场景中,可以在电商平台的服务器中部署实现。
请参阅图2,本申请的广告文本生成方法在其一种实施例中,包括如下步骤:
步骤S1100、获取用于描述目标商品的文本信息及用于控制广告文本的主题特征的至少一个主题标签;
在实际使用中,电商平台的广告主用户,可以提供一些用于描述目标商品的文本信息,同时提供用于定义所期望生成的广告文本所对应的主题特征的主题标签,然后,对应每个所述的主题标签选取关键词构成关键词序列,将所述的文本信息与关键词序列共同构造为本申请的广告文本生成模型的输入,以便指导广告文本生成模型生成满足所述的主题标签相对应的主题特征的广告文本。
所述的文本信息,可以包括目标商品中的商品标题、详情文本、属性数据、品类标签等任意一种或任意多种文本,所确定的文本信息可以先进行文本预处理,去除停用词、标点符号等,确定为纯净文本后再使用。一个实施例中,可以采用商品标题作为目标商品的文本信息,由于商品标题通常是对商品特点的凝练描述,因而,可以节省从海量的商品信息中采集有用信息的时间。
所述的主题标签,是对同一类卖点信息的关键词的索引,通过预构建主题词表,在主题词表中存储主题标签到其相对应的卖点信息的关键词的映射关系,后续便可根据主题标签获取对应的关键词。所述的主题标签的数量可以是所述主题词表中已有的一个也可以是任意多个。
适应广告文本生成模型输入的需要,一种实施例中,可以将关键词序列前置,将文本信息后置,在两者之间插入分隔符,例如[SEP]。分隔符有助于模型分清楚前半部分与后半部分的关系而进行语义理解。所述分隔符可以是自定义符号,只要其与广告文本生成模型所引用的参考词表中现有的词不重复,与广告文本生成模型的文本开始符、结束符、分类符、填充符等特殊字符不重复即可。
一种实施例中,可以在终端设备中显示用于指定目标商品及主题标签的页面,由广告主用户在其中指定目标商品的商品标题及选择罗列出的主题标签,然后点击确认提交,由此便获得构造输入所需的必要信息。
步骤S1200、从预设的主题词表中查询确定各个所述的主题标签相对应的关键词,构造出涵盖各个所述的主题标签相对应的关键词序列,所述关键词用于描述商品的卖点信息,该卖点信息符合该关键词所属的主题标签的主题特征;
可以采用一个预构建的主题词表用于确立主题标签与其可能的各种关键词之间的映射关系,使所述的主题标签能够起到对符合相应主题特征的关键词的索引的作用。
所述的关键词,主要是指描述商品的卖点相对应的词汇,起描述商品的卖点信息的作用,譬如,成人自行车的卖点词汇有:变速、时速、刹车、辅助系统、可折叠、续航里程、适用地形、电池、电机等等。对应每个卖点词汇可以建立一个主题标签,以“变速”相对应的主题标签为例,通过扩展同类词汇,该主题标签可以映射到多个关键词,例如:变速、可调速、变速齿轮、拨链器等。
由于主题词表中,同一主题标签下的各个关键词均是描述同一卖点信息的,因而,实际上同一主题标签对应同一主题特征,其下的各个关键词必然也是符合该主题标签相对应的主题特征的。由此可见,通过所述的主题标签可以实现对主题风格的指定。
一种实施例中,当广告主用户在提供主题标签时,仅提供单个主题标签,此时,可以查询该主题词表,获取该主题标签所映射的全部关键词构成关键词序列,用于搭配目标商品的文本信息构造广告文本生成模型的输入。
另一实施例中,当广告主用户指定了多个主题标签时,可以查询所述主题词表,对应每个指定的主题标签都选定其相映射的一个或多个关键词,将这些关键词构造为关键词序列,以用于构造输入。由此,使所述关键词序列中的关键词,能够涵盖所有指定的主题标签。
步骤S1300、采用广告文本生成模型,以所述关键词序列与所述文本信息构成的句对为输入,逐时间步自回归预测出至少一个广告文本中的各个词元;
适应广告文本生成模型的输入格式所需,可按照如下形式构造句对:“关键词序列[SEP]文本信息”。获得所述句对后,可以根据所述参考词表对该句对进行词嵌入,确定所述句对中各个词元在所述参考词表中的编码特征,获得相应的编码向量。
然后,在广告文本生成模型的编码器的作用下,在所述编码向量的基础上提取深层语义信息,获得相应的编码向量序列,将该编码向量序列作为前缀信息输入广告文本生成模型的解码器进行解码,解码器基于自身的自回归机制,根据所述编码向量序列进行逐个时间步的解码,解码过程中,将其隐藏层得到的结果经全连接层映射到词表分类器,获得相应的文本向量,该文本向量是对参考词表中的各个词元的分类概率的表示,根据该文本向量中的分类概率选定当前时间步相对应的词元后,以该词元在所述参考词表中的编码特征追加到所述前缀信息中,继续进行下一文本向量的预测,直到遭遇结束符为止。从而,整个过程便一步步地确定了广告文本中的各个词元,获得相应的文本特征序列,其中包含多个词元的Token,根据这些Token可以确定所述参考词表中的具体文本,从而将文本特征序列转换为广告文本。
需要指出的是,适应不同的选词算法,针对同一句对,可以获得多个广告文本相对应的文本特征序列,也就可以获得多个广告文本。所述的选词算法,根据给定参数,作用于每个时间步相对应的文本向量,对文本向量中的各个分类概率进行优选确定一个或多个词元,所述的选词算法可以包括但不限于如下各种算法:Top_K算法、集束搜索算法、贪心搜索算法等。
至此,不难理解,根据单个句对,可以通过本申请的广告文本生成模型生成一个或多个广告文本,对这些广告文本进行优选,便可获得符合用户期望的结果。
步骤S1400、确定每个预测出的广告文本映射到所述主题标签的匹配度作为相应的广告文本的排序分值,筛选出部分广告文本。
如图1所示,本申请的广告文本生成模型除了通过词表分类器确定出广告文本的词元之外,还通过主题分类器实现对所生成的广告文本在何种程度上匹配主题词表中的各个主题标签进行评估。据此,前一步骤中获得的由广告文本生成模型预测出的各个广告文本的文本特征序列,被输入各个所述的主题分类器中,每个主题分类器对应主题词表中的一个主题标签设置,通过各个主题分类器计算每个文本特征序列映射到相应的主题标签的正相关和负相关相对应的分类概率,由此获得各个主题标签相对应的分类结果。
一个实施例中,可以直接使用解码器的最后一个隐藏层对应的张量的均值池化结果,或者预设的分类符所对应的张量,作为各个主题分类器的输入进行映射获得所述的分类结果。由于解码器的最后一个隐藏层是综合了序列化解码过程中全部时间步的信息的结果,而分类符是指定了特定任务的符号,因而,对相应的张量进行分类,实际上便是对相应的文本特征序列进行分类。
为了评估预测出的各个广告文本与用户输入时指定的主题标签的匹配度,一种实施例中,可以基于各个主题分类器的分类结果相对应的总体损失值来确定。具体而言,可以基于用户为句对指定的各个主题标签,分别对应计算各个主题分类器的分类结果的分类损失,然后,将这些分类损失汇总为单个总体损失值,至此,每个广告文本的总体损失值便反向表征原始输入的主题标签与广告文本实际映射的主题标签之间的匹配度,总体损失值越低,表明输入的主题标签与预测结果之间越匹配,总体损失值越高,表明输入的主题标签与预测结果之间越不匹配。由此可见,广告文本生成模型确定的每个广告文本,均可获得其相应的匹配度。
根据所述匹配度对广告文本生成模型预测出的各个广告文本进行优选,例如选取匹配度低于预设阈值的广告文本,或者选取匹配度最低的广告文本,实现广告文本的筛选,最终筛选出的广告文本,便可作为合格的广告文本输出,提供给用户选用,完成广告生成服务过程。
根据以上实施例可以看出,本申请包含多方面技术优势,包括但不限于:
首先,在生成广告文本时,通过提供主题标签确定一个关键词序列,其中的关键词是描述相应的卖点信息的词汇,以此实现对期望生成的广告文本所需符合的主题特征进行控制,然后,通过将所述关键词序列与商品的文本信息共同构造为句对,作为广告文本模型的输入,由模型预测出广告文本,所获得的广告文本必然是在所述的主题标签相对应的关键词序列的语义指导下生成的,因而,所获得的广告文本可以有效对应不同主题。
其次,由于本申请的主题标签属于可以灵活定义的输入要素,通过调节所述的主题标签便可控制所生成的广告文本的主题风格,因而,有望以更贴合营销侧的需求的方式,有效地表述出商品的特点。
此外,在最终确定广告文本时,本申请进一步评估所预测出的广告文本映射到输入时所指定的主题标签的匹配度,然后根据匹配度优选出最终的广告文本,实现对广告文本生成模型所生成广告文本的精选,可确保最终获得的广告文本的总体质量,使其更匹配原始输入相对应的期望。
在本申请任意实施例的基础上,请参阅图3,采用广告文本生成模型,以所述关键词序列与所述文本信息构成的句对为输入,逐时间步自回归预测出至少一个广告文本中的各个词元,包括:
步骤S1310、根据所述广告文本生成模型所引用的参考词表编码所述关键词序列与所述文本信息构成的句对,获得编码向量;
适应广告文本生成模型的输入所需,需要对所述的句对进行编码,为此,可参考所述的参考词表,将所述句对中关键词序列中的各个关键词,以及所述句对中的文本信息的各个分词,转换为所述参考词表中对应的词元的编码特征,将这些编码特征构造为相应的编码向量,输入广告文本生成模型中进行推理。一些实施例中,还可以在所述词元的编码特征的基础上,进一步结合各个词元的位置编码,以丰富编码向量的参考信息。
步骤S1320、采用所述广告文本生成模型的编码器提取出所述编码向量的深层语义信息,获得相对应的编码向量序列;
广告文本生成模型中的编码器,如前所述,主要基于RNN实现,因而,适于参考所输入的编码向量的上下文信息进行深层语义信息的提取,实现对所输入的编码向量的深层语义表示,获得编码向量序列。所述编码器中也可以应用自注意力机制,以使其中的关键特征更为突出,使所获得的编码向量序列更有助于后续的解码。
步骤S1330、以所述编码向量序列为前缀信息输入所述广告文本生成模型的解码器,逐时间步自回归解码出各个时间步的文本向量,其中每个文本向量表示映射到所述参考词表中的各个词元的概率分布;
广告文本生成模型中的解码器,其以所述编码向量序列所构成的前缀信息为初始输入,在自注意力机制的基础上,进行序列化解码,逐个时间步地解码,将解码所得结果经过词表分类器进行分类映射,获得映射到所述参考词表中的各个词元的概率分布,构成文本向量,根据文本向量中的分类概率便可优选出当前时间步所对应的词元,将该词元在所述参考词表中的编码特征再追加到所述的前缀信息中,实现自回归,然后根据更新后的前缀信息继续下一时间步的解码,直至遭遇结束符。
步骤S1340、在自回归解码过程中,对应每个时间步,根据其生成的文本向量查询所述参考词表确定出其相对应的词元,将该词元的编码特征追加至该文本向量相对应的前缀信息中,以生成下一时间步的文本向量。
具体而言,在解码器进行自回归解码的过程中,对应每个时间步,可以根据词表分类器所获得的文本向量,查询所述参考词表,以确定出其中的一个或多个词元。
一种实施例中,以确定单个词元为例,该词元通常是文本向量中概率最高的词元,将该词元的编码特征追加到当前时间步相对应的前缀信息中,获得更新的前缀信息,便可继续交由解码器进行下一时间步的解码,以便生成下一时间步的文本向量,如此递进,直到遭遇结束符而完成所有文本向量的预测,也就完成广告文本中的各个词元的预测。在各个时间步中逐步获得的词元,可以按照时间步先后关系构成一个对应的文本特征序列,每个文本特征序列可以根据其中的编码特征对应确定参考词表中的词元而转换为一个相应的广告文本。
另一实施例中,针对每个时间步相对应的文本向量,可以结合预设的选词算法优选出多个词元,将各个词元分别追加到当前时间步所述的前缀信息中,便可以分化为多个更新的前缀信息,后续可以分别基于各个更新的前缀信息推理其下一时间步相对应的词元,并且,每个时间步中都可以控制从该时间步选取的词元,或者控制前缀信息的总量,从而实现多步逐渐分化,最终获得多个广告文本相对应的文本特征序列,相应也可确定出多个广告文本。
根据以上实施例可以理解,本在本申请的广告文本生成模型的帮助下,基于同一句对,可以按需预测出一个或多个广告文本,方便在一个集合的范围内择优。由于广告文本生成模型具有序列化处理能力,能够参考上下文预测出相应的文本特征序列,因而,其语义理解能力强,能够获得语句通顺的广告文本。
在本申请任意实施例的基础上,请参阅图4,在自回归解码过程中,对应每个时间步,根据其生成的文本向量查询所述参考词表确定出其相对应的词元,将该词元的编码特征追加至该文本向量相对应的前缀信息中,以生成下一时间步的文本向量,包括:
步骤S1341、从首个时间步获得的文本向量开始,确定出该文本向量映射到所述参考词表中概率最高的第一数量的多个词元,构造以每个词元的编码特征为先导的各个文本特征序列;
首个时间步时,编码器输出的编码向量序列,被作为初始的前缀信息输入解码器中,由解码器解码并经词表分类器映射到,获得相应的文本向量。由于文本向量表示的是当前时间步映射到参考词表中的各个词元的概率分布,因而,设定一个第一数量,对应每个时间步的文本向量,从其中选取第一数量相对应的具有最高概率的多个词元作为优选词元,将各个优选词元作为先导,分别构造相应多个文本特征序列。
步骤S1342、以每个文本特征序列后接于所述前缀信息,根据该前缀信息预测出下一时间步的文本向量,对应确定出该文本向量映射到所述参考词表中概率最高的第一数量的多个词元,将各个词元的编码特征追加到相应的文本特征序列中分化出多个更新的文本特征序列;
对于当前时间步所产生的一个或多个优选词元,可以分别将其编码特征追加到当前时间步据以产生文本向量的前缀信息中,分化出多个前缀信息,实现对前缀信息的更新,以便根据各个更新后的前缀信息继续产生下一时间步的文本向量,然后继续按照首个时间步的逻辑基于该文本向量进行选词。
随着时间步的推进,不难理解,每个时间步的一个优选词元追加到当前时间步相对应的前缀信息中时,实际上相当于将当前时间步相对应的一个文本特征序列追加到首个时间步相对应的前缀信息中。
前一时间步的一个文本特征序列,在当前时间步中的各个优选词元分别产出后,便可将该文本特征序列分别后接各个优选词元,从而分化出多个文本特征序列。不难理解,随着时间步的推进,在根据所述第一数量确定多个优选词元分别对相应的文本特征序列进行串接的情况下,可以不断分化出多个文本特征序列,当到达最后一个时间步时,可以获得大量的文本特征序列。由于每个文本特征序列可以对应确定一个广告文本,因而,基于单个句对,实际上可以预测出大量的广告文本。
步骤S1343、根据更新的每个文本特征序列的词元与文本向量的对应关系,确定各个词元在其文本向量中的概率,计算更新的每个文本特征序列的所有词元的概率总和;
在自回归解码过程中,每个时间步会分化成多个文本特征序列,为了实现对各个文本特征序列的择优,以适当压缩最终生成的广告文本的总量,可以在每个时间步中,对所获得的全部文本特征序列进行优选。
具体而言,对于每个时间步中添加到从该时间步相对应的文本向量中确定的优选词元的编码特征之后的文本特征序列,可以根据其中的各个词元对应到其相应的文本向量的概率进行求和,由此获得当前时间步状态下,每个文本特征序列相对应的概率总和。该概率总和实际上指示了整个文本特征序列中所有词元的总体预测准确率,具有评价文本特征序列的准确性的意义。
步骤S1344、根据预设的第二数量选取出多个更新的文本特征序列,继续对应下一时间步获取文本向量迭代以上过程,直至满足预设条件终止,获得最后确定的更新的文本特征序列用于构造相应的广告文本。
在每个时间步确定了各个文本特征序列的概率总和的情况下,可以采用一个预设的第二数量,先根据概率总和对各个文本特征序列进行排序,然后优选出个数与第二数量相对应的多个文本特征序列,后续只针对这些文本特征序列通过从步骤S1343继续迭代进行后续时间步的推理,直至满足预设条件时才终止,而对于其他未被选中的文本特征序列,可以丢弃。所述的预设条件,可以是指遭遇前缀信息中的结束符。当终止迭代时,意味着整个推理过程结束,最终所获得的全部文本特征序列,便可作为广告文本生成模型实际预测出的广告文本相对应的文本特征序列,可以用于转换出对应的广告文本。
根据以上示例性的自回归过程可以理解,本申请可以在广告文本生成模型的解码过程中,应用预设的选词算法,不断分化出各个时间步相对应的文本特征序列,且可针对这些文本特征序列进行优选,通常在词元层面和文本特征序列层面的两重优选,不仅关注词元层面的最佳效果,也关注序列层面的最佳效果,实现对广告文本生成模型所预测的广告文本的质量控制,确保广告文本生成模型生成总体质量较佳的一批广告文本。
在本申请任意实施例的基础上,请参阅图5,确定每个预测出的广告文本映射到所述主题标签的匹配度作为相应的广告文本的排序分值,筛选出部分广告文本,包括:
步骤S1410、将每个所述的广告文本对应的文本特征序列输入各个主题标签相对应的主题分类器,确定出每个广告文本对应各个主题标签的主题分类器的分类标签;
如前所述,对于解码器最后输出的信息,也即最后获得的各个文本特征序列,可以将每个文本特征序列均通过各个主题标签相对应的主题分类器计算其映射到主题标签相对应的分类结果,也就获得了映射到主题分类器相对应的分类标签。所述的分类器可以是二分类器,采用Sigmoid函数构造即可。
步骤S1420、参考所述句对中的各个主题标签计算其相对应的各个主题分类器的分类标签的单个损失值,将所有单个损失值汇总量化为相应的广告文本的匹配度;
各个文本特征序列所获得的分类标签在何种程度上对应作为广告文本生成模型的输入的句对中指定的主题标签,实际上便是对广告文本生成模型生成相应主题的广告文本的准确性的表示。这个程度可以通过计算相应的主题分类器的分类标签的损失值来确定。具体而言,一种实施例中,可以采用所述句对中指定的主题标签,对各个相应的主题分类器所生成的分类标签计算单个损失值,然后,期间,对未提供主题标签的主题分类器的分类结果也可不必参与计算。由此,将指定了主题标签相对应的各个主题分类器的单个损失值进行加和求均值,便可将其量化为相应的文本特征序列也即相应的广告文本的匹配度,不难理解,所述匹配度越高,表示所生成的广告文本符合指定的主题标签的准确率越低;所述匹配度越低,表示所生成的广告文本符合指定的主题标签的准确率越高。
步骤S1430、以所述匹配度作为排序分值筛选出部分广告文本确定为对应所述文本信息预测出的广告文本。
确定了每个文本特征序列的匹配度之后,便可将其作为排序分值,一种实施例中,对广告文本生成模型所预测出的所有文本特征序列进行排序,然后按照预设数量选取出相应多个文本特征序列,这些文本特征序列相对应的广告文本,便可以视为所述句对中目标商品的文本信息相对应的预测出的广告文本。另一实施例中,可以结合一个预设阈值对所述排序分值进行优选,只选取排序分值低于所述预设阈值的部分文本特征序列,获得其相对应的广告文本作为所述文本信息相对应预测出的广告文本。
根据以上实施例中可以看出,本申请巧妙地在解码器之后接入主题分类器,通过主题分类器对所生成的广告文本是否符合在输入阶段指定的主题标签进行判定,再根据各个主题分类器的单个损失值汇总出匹配度,根据匹配度对全部广告文本进行优选,进一步精选出高质量的广告文本,所精选出的广告文本更能符合用户在输入阶段指定的主题标签所对应的主题特征,从而产出满足营销侧指定的需求的广告文本。
在本申请任意实施例的基础上,请参阅图6,采用广告文本生成模型,以所述关键词序列与所述文本信息构成的句对为输入,逐时间步自回归预测出至少一个广告文本中的各个词元之前,包括:
步骤S2100、获取数据集中的单个训练样本,所述训练样本包括商品的文本信息及至少一个主题标签,关联所述训练样本设置有所述商品的广告参考样本;
为了训练本申请的广告文本生成模型,可以预备一个数据集,在所述数据集中存储多个数据记录,每个数据记录中存储一个训练样本及其相对应的可作为词表分类器的监督标签的广告参考样本。所述的广告参考样本可以是已经在广告系统中获得优质广告成效数据的历史广告文本,所述的训练样本则包含该历史广告文本所对应的商品的文本信息及根据所述历史广告文本所抽象确定的一个或多个主题标签。所述主题标签可以人工确定,也可以基于统计特征确定。对于本申请的主题分类器来说,所述的主题标签也可以用于监督相应的主题分类器的监督标签。所述的文本信息,如前所述,可以是多种商品的多种形式的信息任意之一或任意多种的结合。
可以出,本申请的数据集的构造较为巧妙,其中的训练样本中的主题标签,不仅作为整个广告文本生成模型的输入,也可以作为后续的主题分类器的监督标签,用于识别整个模型所生成的广告文本是否符合训练样本中的主题标签的主题特征。
步骤S2200、从预设的主题词表中查询确定各个所述的主题标签相对应的关键词,构造出涵盖各个所述的主题标签相对应的关键词序列,所述关键词用于描述商品的卖点信息,该卖点信息符合该关键词所属的主题标签的主题特征;
本步骤的执行与本申请的步骤S1200同理,均是参考预构造的主题词表,根据所述的主题标签确定出涵盖训练样本中所有主题标签相对应的关键词序列,所述关键词的作用已在前文描述,恕不赘述。
步骤S2300、将所述关键词序列与所述文本信息构成的句对输入被训练的所述广告文本生成模型逐时间步自回归预测出至少一个广告文本中的各个词元;
获得训练样本相对应的关键词序列及所述的文本信息后,便可根据步骤S1300及其相关实施例所述,将其输入被训练的广告文本生成模型中,进行逐时间步自回归解码,预测出一个或多个广告文本,获得各个广告文本相对应的文本特征序列,每个广告文本均由该广告文本生成模型所引用的参考词表中的词元构成。也即,本步骤由广告文本生成模型自身的机制所实施,其过程同于前文各个实施例所述,因而,恕不赘述。
步骤S2400、根据所述训练样本相对应的广告参考样本计算所述预测广告文本相对应的第一损失值;
如前所述,广告文本生成模型经过其整个推理过程后,在词表分类器的协助下,最终会预测出文本特征序列,这些文本特征序列相对应的广告文本,是预测广告文本,预测广告文本是否符合期望,可以采用所述训练样本相对应的广告参考样本作为监督标签,计算所述文本特征序列的分类损失,实际上也是计算相应的预测广告文本的分类损失,从而获得第一损失值。第一损失值表征广告文本生成模型是否准确生成相应的广告参考样本。不难理解,利用第一损失值校正模型的权重参数,便可提升整个模型准确生成训练样本相对应的广告参考样本的能力。
步骤S2500、将所述预测广告文本输入各个主题标签相对应的主题分类器,确定出每个广告文本对应各个主题标签的主题分类器的分类标签,参考所述训练样本中的各个主题标签计算所述分类标签相对应的第二损失值;
另一方面,为了评估广告文本生成模型所获得的预测广告文本是否高度对应相应的训练样本中指定的主题标签,可以将预测广告文本相对应的文本特征序列分别经过对应主题词表中的各个主题标签设置的各个主题分类器进行分类映射,获得所述文本特征序列映射到各个主题分类器的分类结果,然后,采用训练样本中的主题标签构造的监督标签,计算各个主题分类器的分类结果的分类损失,获得第二损失值。第二损失值可以对各个主题分类器的单个损失值汇总量化的结果,对此,可以灵活设定。不难理解,所述第二损失值表征了所述预测广告文本在何种程度上对应训练样本中指定的主题标签,利用第二损失值校正整个模型的权重参数,便可提升整个模型准确生成符合训练样本中指定的主题标签的主题特征的预测广告文本的能力。
步骤S2600、将所述第一损失值和第二损失值综合为总损失值,根据总损失值修正所述广告文本生成模型的模型参数,迭代以上过程直至广告文本生成模型根据该总损失值确定为达到收敛状态。
为了方便整合第一损失值和第二损失值,可以设计损失函数,所述损失函数示例性表示为:
loss=lmloss*lmcoef+mcloss*mccoef
其中,lmloss为第一损失值,lmcoef为第一加权系数,mcloss为第二损失值,mccoef为第二加权系数,各个加权系数可以灵活设定。
模型训练的目标是追求总损失值loss最小化,因此,可以设定以总损失值达到0或者无限接近于0为训练目标,来决策广告文本生成模型的训练终止条件。当根据总损失值判定其未到达所述的训练目标时,便根据该总损失值对整个模型进行模型参数的修正,实现梯度更新,然后继续从所述的数据集中获得下一训练样本对模型实施迭代训练。当根据总损失值判定其达到所述的训练目标时,便可以终止对模型的训练,此时,广告文本生成模型即达到收敛状态,从而可以服务于本申请的广告文本的生成。
对所述广告文本生成模型修正模型参数时,可以根据每个训练样本对应决策修正相应的模型参数,也可以采用小批量更新模型参数的方式,经过多个训练样本积累其各自的总损失值后,再综合所有总损失值对模型实施综合修正。
根据以上的实施例可以看出,本申请对广告文本生成模型实施训练的过程中,由于模型的网络架构存在主题分类器的优势,通过训练,使模型不仅具有生成广告文本的能力,而且也可以通过提供主题标签来控制模型所生成的广告文本的主题风格,使模型生成的广告文本更容易符合期待,确保其能够根据指定的主题标签生成合格的广告文本。
在本申请任意实施例的基础上,请参阅图7,获取数据集中的单个训练样本之前,包括:
步骤S3100、获取多个商品相对应的文本信息及广告文本,对每个广告文本进行分词,获得每个广告文本相对应的分词集;
为了构造本申请训练所需的数据集,可以从广告系统的广告数据库中调用历史数据。所述的广告数据库中,存储有历史发布的各个历史广告相对应的广告信息,其中包括商品特征标识以及相应的广告文本,通过所述商品特征标识可以进一步获取相应的商品的文本信息,所述文本信息适应对广告文本生成模型的输入所需的预先规范,如前所述,可以是商品标题、详情文本、属性数据、品类标签等,本实施例中不妨以采用商品标题为例进行形象理解即可。
适应模型训练所需,可以对应多个历史广告,获取海量的多个商品相对应的文本信息和广告文本。针对其中的广告文本,为便于确定主题标签,可以对其进行分词,获得其相应的分词集。由此,便获得了多个商品相对应的文本信息及其广告文本、以及所述广告文本相对应的分词集。
步骤S3200、基于每个广告文本的分词集,确定其与所述主题词表中具有最大相同关键词数量相对应的一个或多个主题标签;
本申请如前所述的主题词表中,每个主题标签与多个关键词相映射,因而,只要一个广告文本的分词集中存在的关键词能够根据主题词表对应到相应的主题标签,理论上这个主题标签便可以视为所述广告文本所对应的主题标签。
一个实施例中,首先统计每个广告文本的分词集中映射到主题词表中的各个主题标签的数量,也即确定所述分词集中的分词属于主题词表中的各个主题标签相对应的关键词集合的数量,也是统计一个分词集中,有多少个分词与每个主题标签中的关键词相同相对应的数量,每个分词集均可对应每个主题标签确定出这样的一个数量,然后,根据预设的优选规则,通常例如设定最多为两个主题标签,选取所述的数量最高的两个主题标签,用做所述分词集实际对应的主题标签,表示根据主题词表中的主题标签与关键词的映射关系,所述广告文本的描述主题风格实际所对应的主题标签。
步骤S3300、对应每个广告文本构造数据集中的数据记录,其中,将该广告文本相对应的文本信息及其相对应的所有主题标签构造为该数据记录中的训练样本,将所述广告文本作为该数据记录中与该训练样本相对应的广告参考样本。
针对各个商品相对应的广告文本均确定了其相应的主题标签后,便可将其存储到数据集中,构造数据集中相应的数据记录。具体来说,可以将广告文本相对应的文本信息及根据该广告文本打标获得的主题标签关联设置为训练样本,而将所述的广告文本关联设置为该训练样本相对应的广告参考样本,完成对数据记录的构造。
如前所述,训练样本相对应的广告参考样本,可以用于监督广告文本生成模型所预测出的广告文本的质量,而训练样本的主题标签则可以用于监督广告文本生成模型的所预测出的广告文本在何种程度上符合目标主题风格相对应的质量,两者联合,可以实施对广告文本生成模型的总体训练,提升模型的总体训练效率。
根据以上实施例,不难理解,本申请训练广告文本生成模型所需的数据集,其中的训练样本,在确定其相关联的广告参考样本时,可以从广告系统的历史广告中获取,而在确定其中的训练样本的主题标签时,可以参考本申请预设的主题词表,根据所述广告参考样本的分词集相对于该主题词表获得的统计特征来获取,可见,全程无需引入人工因素,标注成本极低,有助于提升广告文本生成模型的训练效率。
在本申请任意实施例的基础上,请参阅图8,获取数据集中的单个训练样本之前,包括:
步骤S4100、获取多个商品相对应的广告文本,统计选取出所述广告文本中的携带相应的商品的卖点信息的关键词;
本申请的主题词表可以预先构建,为此,可以从广告系统中获取历史广告相对应的多个商品的广告文本,通过对大量的广告文本的统计,来确定出主题词表所需的关键词。
一种实施例中,先对所获取的全量商品相对应的广告文本进行分词,相应获得各个分词集。然后,对所有分词集中的每个分词进行词频统计,统计每个分词出现在全部分词集中的词频,通常,词频越高,表示相应的分词被用于描述商品的卖点信息的情况越多,其成为主题词表中的关键词的机会也就越大。根据这样的原理,在确定每个分词相对应的词频后,可以根据预设阈值选取出其中的部分分词,作为主题词表可以采用的关键词。
步骤S4200、根据所述关键词从商品文本信息集中提取出各个关键词语义相近似的关键词集合,所述商品文本信息集包含多个商品相对应的文本信息;
基于词频统计从多个广告文本中获得的关键词数量相对较少,为了使主题词表中描述每个主题标签的关键词足够丰富,可以基于从多个广告文本中确定的各个关键词进行词汇扩充,为此,便可利用从多个广告文本中确定的各个关键词,在给定的一个商品文本信息集中寻找相近似的关键词集合,每个关键词集合可以视为描述同一卖点信息的关键词的总和,可以对应一个主题标签。
所述的商品文本信息集,可以从电商平台线上店铺的商品信息库中提取,对应文本信息的选型,可以是提取这些商品的商品标题、详情文本、属性数据、品类标签等任意一种或任意多种的结合,使其包含多个商品相对应的相应文本信息。
为了方便扩展词汇,商品文本信息集中的每个文本信息均可先行分词,然后再根据各个分词与每个从广告文本中提取出的关键词的语义相似度,确定所述关键词的相似关键词,通常所述相似关键词也高概率地包含从广告文本中提取出的相应的关键词,由此所有这些关键词构成相应的关键词集合,每个关键词集合中的各个关键词理论上均是语义相近的,是用于描述同一卖点信息的。
步骤S4300、构造主题词表,其中存储所述各个关键词集合,为每个关键词集合均标记相对应的主题标签。
确实了多个关键词集合之后,便可以构造所述的主题词表,为每个关键词集合赋予一个索引标识作为主题标签,每个主题标签便成为描述同一或同类卖点信息的主题特征,起到指代作用,后续根据给定的主题标签,便可从主题词表中确定相应的关键词。
根据以上实施例不难理解,本申请在构造主题词表的过程中,先参考历史广告的广告文本的词频统计结果确定出多个基础关键词,然后再参考商品信息库获得的文本信息对各个基础关键词进行扩展,获得多个基础关键词相对应的关键词集合,再对各个关键词集合自动打标,全过程无需引入人工因素,效率较高,由此可见,本申请的整个技术方案均可自动化实施,实施成本较低,而成效较佳。
请参阅图9,适应本申请的目的之一而提供一种广告文本生成装置,是对本申请的广告文本生成方法的功能化体现,该装置包括输入获取模块1100、输入构造模块1200、推理预测模块1300,以及广告优选模块1400,其中,所述输入获取模块1100,设置为获取用于描述目标商品的文本信息及用于控制广告文本的主题特征的至少一个主题标签;所述输入构造模块1200,设置为从预设的主题词表中查询确定各个所述的主题标签相对应的关键词,构造出涵盖各个所述的主题标签相对应的关键词序列,所述关键词用于描述商品的卖点信息,该卖点信息符合该关键词所属的主题标签的主题特征;所述推理预测模块1300,设置为采用广告文本生成模型,以所述关键词序列与所述文本信息构成的句对为输入,逐时间步自回归预测出至少一个广告文本中的各个词元;所述广告优选模块1400,设置为确定每个预测出的广告文本映射到所述主题标签的匹配度作为相应的广告文本的排序分值,筛选出部分广告文本。
在本申请任意实施例的基础上,所述推理预测模块1300,包括:句对编码单元,设置为根据所述广告文本生成模型所引用的参考词表编码所述关键词序列与所述文本信息构成的句对,获得编码向量;模型编码单元,设置为采用所述广告文本生成模型的编码器提取出所述编码向量的深层语义信息,获得相对应的编码向量序列;模型解码单元,设置为以所述编码向量序列为前缀信息输入所述广告文本生成模型的解码器,逐时间步自回归解码出各个时间步的文本向量,其中每个文本向量表示映射到所述参考词表中的各个词元的概率分布;回归处理单元,设置为在自回归解码过程中,对应每个时间步,根据其生成的文本向量查询所述参考词表确定出其相对应的词元,将该词元的编码特征追加至该文本向量相对应的前缀信息中,以生成下一时间步的文本向量。
在本申请任意实施例的基础上,所述回归处理模块,包括:初始处理子单元,设置为从首个时间步获得的文本向量开始,确定出该文本向量映射到所述参考词表中概率最高的第一数量的多个词元,构造以每个词元的编码特征为先导的各个文本特征序列;回归迭代子单元,设置为以每个文本特征序列后接于所述前缀信息,根据该前缀信息预测出下一时间步的文本向量,对应确定出该文本向量映射到所述参考词表中概率最高的第一数量的多个词元,将各个词元的编码特征追加到相应的文本特征序列中分化出多个更新的文本特征序列;串接精选子单元,设置为根据更新的每个文本特征序列的词元与文本向量的对应关系,确定各个词元在其文本向量中的概率,计算更新的每个文本特征序列的所有词元的概率总和;迭代控制子单元,设置为根据预设的第二数量选取出多个更新的文本特征序列,继续对应下一时间步获取文本向量迭代以上过程,直至满足预设条件终止,获得最后确定的更新的文本特征序列用于构造相应的广告文本。
在本申请任意实施例的基础上,所述广告优选模块1400,包括:标签分类单元,设置为将每个所述的广告文本对应的文本特征序列输入各个主题标签相对应的主题分类器,确定出每个广告文本对应各个主题标签的主题分类器的分类标签;损失计算单元,设置为参考所述句对中的各个主题标签计算其相对应的各个主题分类器的分类标签的单个损失值,将所有单个损失值汇总量化为相应的广告文本的匹配度;广告筛选单元,设置为以所述匹配度作为排序分值筛选出部分广告文本确定为对应所述文本信息预测出的广告文本。
在本申请任意实施例的基础上,先于所述推理预测模块1300,包括:样本调用模块,设置为获取数据集中的单个训练样本,所述训练样本包括商品的文本信息及至少一个主题标签,关联所述训练样本设置有所述商品的广告参考样本;输入构造模块1200,设置为从预设的主题词表中查询确定各个所述的主题标签相对应的关键词,构造出涵盖各个所述的主题标签相对应的关键词序列,所述关键词用于描述商品的卖点信息,该卖点信息符合该关键词所属的主题标签的主题特征;推理预测模块1300,设置为将所述关键词序列与所述文本信息构成的句对输入被训练的所述广告文本生成模型逐时间步自回归预测出至少一个广告文本中的各个词元,根据所述文本向量序列确定预测广告文本;文本级损失计算模块,设置为根据所述训练样本相对应的广告参考样本计算所述预测广告文本相对应的第一损失值;标签级损失计算模块,设置为将所述预测广告文本输入各个主题标签相对应的主题分类器,确定出每个广告文本对应各个主题标签的主题分类器的分类标签,参考所述训练样本中的各个主题标签计算所述分类标签相对应的第二损失值;迭代决策模块,设置为将所述第一损失值和第二损失值综合为总损失值,根据总损失值修正所述广告文本生成模型的模型参数,迭代以上过程直至广告文本生成模型根据总损失值确定为达到收敛状态。
在本申请任意实施例的基础上,先于所述样本调用模块,包括:广告分词模块,设置为获取多个商品相对应的文本信息及广告文本,对每个广告文本进行分词,获得每个广告文本相对应的分词集;主题匹配模块,设置为基于每个广告文本的分词集,确定其与所述主题词表中具有最大相同关键词数量相对应的一个或多个主题标签;记录构造模块,设置为对应每个广告文本构造数据集中的数据记录,其中,将该广告文本相对应的文本信息及其相对应的所有主题标签构造为该数据记录中的训练样本,将所述广告文本作为该数据记录中与该训练样本相对应的广告参考样本。
在本申请任意实施例的基础上,先于所述样本调用模块,包括:关键词选取模块,设置为获取多个商品相对应的广告文本,统计选取出所述广告文本中的携带相应的商品的卖点信息的关键词;关键词扩展模块,设置为根据所述关键词从商品文本信息集中提取出各个关键词语义相近似的关键词集合,所述商品文本信息集包含多个商品相对应的文本信息;主题词表构造模块,设置为构造主题词表,其中存储所述各个关键词集合,为每个关键词集合均标记相对应的主题标签。
为解决上述技术问题,本申请实施例还提供计算机设备。如图10所示,该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种商品搜索类目识别方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的广告文本生成方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图9中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的广告文本生成装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的广告文本生成方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请能够通过主题标签控制广告文本生成模型所生成的广告文本的主题风格,使其能够适配实际营销需求而生成有效的广告文本。
Claims (10)
1.一种广告文本生成方法,其特征在于,包括:
获取用于描述目标商品的文本信息及用于控制广告文本的主题特征的至少一个主题标签;
从预设的主题词表中查询确定各个所述的主题标签相对应的关键词,构造出涵盖各个所述的主题标签相对应的关键词序列,所述关键词用于描述商品的卖点信息,该卖点信息符合该关键词所属的主题标签的主题特征;
采用广告文本生成模型,以所述关键词序列与所述文本信息构成的句对为输入,逐时间步自回归预测出至少一个广告文本中的各个词元;
确定每个预测出的广告文本映射到所述主题标签的匹配度作为相应的广告文本的排序分值,筛选出部分广告文本。
2.根据权利要求1所述的广告文本生成方法,其特征在于,采用广告文本生成模型,以所述关键词序列与所述文本信息构成的句对为输入,逐时间步自回归预测出至少一个广告文本中的各个词元,包括:
根据所述广告文本生成模型所引用的参考词表编码所述关键词序列与所述文本信息构成的句对,获得编码向量;
采用所述广告文本生成模型的编码器提取出所述编码向量的深层语义信息,获得相对应的编码向量序列;
以所述编码向量序列为前缀信息输入所述广告文本生成模型的解码器,逐时间步自回归解码出各个时间步的文本向量,其中每个文本向量表示映射到所述参考词表中的各个词元的概率分布;
在自回归解码过程中,对应每个时间步,根据其生成的文本向量查询所述参考词表确定出其相对应的词元,将该词元的编码特征追加至该文本向量相对应的前缀信息中,以生成下一时间步的文本向量。
3.根据权利要求2所述的广告文本生成方法,其特征在于,在自回归解码过程中,对应每个时间步,根据其生成的文本向量查询所述参考词表确定出其相对应的词元,将该词元的编码特征追加至该文本向量相对应的前缀信息中,以生成下一时间步的文本向量,包括:
从首个时间步获得的文本向量开始,确定出该文本向量映射到所述参考词表中概率最高的第一数量的多个词元,构造以每个词元的编码特征为先导的各个文本特征序列;
以每个文本特征序列后接于所述前缀信息,根据该前缀信息预测出下一时间步的文本向量,对应确定出该文本向量映射到所述参考词表中概率最高的第一数量的多个词元,将各个词元的编码特征追加到相应的文本特征序列中分化出多个更新的文本特征序列;
根据更新的每个文本特征序列的词元与文本向量的对应关系,确定各个词元在其文本向量中的概率,计算更新的每个文本特征序列的所有词元的概率总和;
根据预设的第二数量选取出多个更新的文本特征序列,继续对应下一时间步获取文本向量迭代以上过程,直至满足预设条件终止,获得最后确定的更新的文本特征序列用于构造相应的广告文本。
4.根据权利要求2所述的广告文本生成方法,其特征在于,确定每个预测出的广告文本映射到所述主题标签的匹配度作为相应的广告文本的排序分值,筛选出部分广告文本,包括:
将每个所述的广告文本对应的文本特征序列输入各个主题标签相对应的主题分类器,确定出每个广告文本对应各个主题标签的主题分类器的分类标签;
参考所述句对中的各个主题标签计算其相对应的各个主题分类器的分类标签的单个损失值,将所有单个损失值汇总量化为相应的广告文本的匹配度;
以所述匹配度作为排序分值筛选出部分广告文本确定为对应所述文本信息预测出的广告文本。
5.根据权利要求1至4中任意一项所述的广告文本生成方法,其特征在于,采用广告文本生成模型,以所述关键词序列与所述文本信息构成的句对为输入,逐时间步自回归预测出至少一个广告文本中的各个词元之前,包括:
获取数据集中的单个训练样本,所述训练样本包括商品的文本信息及至少一个主题标签,关联所述训练样本设置有所述商品的广告参考样本;
从预设的主题词表中查询确定各个所述的主题标签相对应的关键词,构造出涵盖各个所述的主题标签相对应的关键词序列,所述关键词用于描述商品的卖点信息,该卖点信息符合该关键词所属的主题标签的主题特征;
将所述关键词序列与所述文本信息构成的句对输入被训练的所述广告文本生成模型逐时间步自回归预测出至少一个广告文本中的各个词元;
根据所述训练样本相对应的广告参考样本计算所述预测广告文本相对应的第一损失值;
将所述预测广告文本输入各个主题标签相对应的主题分类器,确定出每个广告文本对应各个主题标签的主题分类器的分类标签,参考所述训练样本中的各个主题标签计算所述分类标签相对应的第二损失值;
将所述第一损失值和第二损失值综合为总损失值,根据总损失值修正所述广告文本生成模型的模型参数,迭代以上过程直至广告文本生成模型根据该总损失值确定为达到收敛状态。
6.根据权利要求5所述的广告文本生成方法,其特征在于,获取数据集中的单个训练样本之前,包括:
获取多个商品相对应的文本信息及广告文本,对每个广告文本进行分词,获得每个广告文本相对应的分词集;
基于每个广告文本的分词集,确定其与所述主题词表中具有最大相同关键词数量相对应的一个或多个主题标签;
对应每个广告文本构造数据集中的数据记录,其中,将该广告文本相对应的文本信息及其相对应的所有主题标签构造为该数据记录中的训练样本,将所述广告文本作为该数据记录中与该训练样本相对应的广告参考样本。
7.根据权利要求5所述的广告文本生成方法,其特征在于,获取数据集中的单个训练样本之前,包括:
获取多个商品相对应的广告文本,统计选取出所述广告文本中的携带相应的商品的卖点信息的关键词;
根据所述关键词从商品文本信息集中提取出各个关键词语义相近似的关键词集合,所述商品文本信息集包含多个商品相对应的文本信息;
构造主题词表,其中存储所述各个关键词集合,为每个关键词集合均标记相对应的主题标签。
8.一种广告文本生成装置,其特征在于,包括:
输入获取模块,设置为获取用于描述目标商品的文本信息及用于控制广告文本的主题特征的至少一个主题标签;
输入构造模块,设置为从预设的主题词表中查询确定各个所述的主题标签相对应的关键词,构造出涵盖各个所述的主题标签相对应的关键词序列,所述关键词用于描述商品的卖点信息,该卖点信息符合该关键词所属的主题标签的主题特征;
推理预测模块,设置为采用广告文本生成模型,以所述关键词序列与所述文本信息构成的句对为输入,逐时间步自回归预测出至少一个广告文本中的各个词元;
广告优选模块,设置为确定每个预测出的广告文本映射到所述主题标签的匹配度作为相应的广告文本的排序分值,筛选出部分广告文本。
9.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210986684.1A CN115293817A (zh) | 2022-08-17 | 2022-08-17 | 广告文本生成方法及其装置、设备、介质、产品 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210986684.1A CN115293817A (zh) | 2022-08-17 | 2022-08-17 | 广告文本生成方法及其装置、设备、介质、产品 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115293817A true CN115293817A (zh) | 2022-11-04 |
Family
ID=83829743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210986684.1A Pending CN115293817A (zh) | 2022-08-17 | 2022-08-17 | 广告文本生成方法及其装置、设备、介质、产品 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115293817A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932686A (zh) * | 2023-09-19 | 2023-10-24 | 苏州元脑智能科技有限公司 | 主题挖掘方法、装置、电子设备及存储介质 |
CN116956897A (zh) * | 2023-09-20 | 2023-10-27 | 湖南财信数字科技有限公司 | 隐性广告处理方法、装置、计算机设备及存储介质 |
CN117217236A (zh) * | 2023-11-07 | 2023-12-12 | 深圳市灵智数字科技有限公司 | 文本生成方法、装置、电子设备及计算机可读存储介质 |
-
2022
- 2022-08-17 CN CN202210986684.1A patent/CN115293817A/zh active Pending
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116932686A (zh) * | 2023-09-19 | 2023-10-24 | 苏州元脑智能科技有限公司 | 主题挖掘方法、装置、电子设备及存储介质 |
CN116932686B (zh) * | 2023-09-19 | 2024-01-23 | 苏州元脑智能科技有限公司 | 主题挖掘方法、装置、电子设备及存储介质 |
CN116956897A (zh) * | 2023-09-20 | 2023-10-27 | 湖南财信数字科技有限公司 | 隐性广告处理方法、装置、计算机设备及存储介质 |
CN116956897B (zh) * | 2023-09-20 | 2023-12-15 | 湖南财信数字科技有限公司 | 隐性广告处理方法、装置、计算机设备及存储介质 |
CN117217236A (zh) * | 2023-11-07 | 2023-12-12 | 深圳市灵智数字科技有限公司 | 文本生成方法、装置、电子设备及计算机可读存储介质 |
CN117217236B (zh) * | 2023-11-07 | 2024-02-27 | 深圳市灵智数字科技有限公司 | 文本生成方法、装置、电子设备及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106649561B (zh) | 面向税务咨询业务的智能问答系统 | |
CN115293817A (zh) | 广告文本生成方法及其装置、设备、介质、产品 | |
CN108509465A (zh) | 一种视频数据的推荐方法、装置和服务器 | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
CN109376775B (zh) | 在线新闻多模态情感分析方法 | |
CN110245257B (zh) | 推送信息的生成方法及装置 | |
CN108197282A (zh) | 文件数据的分类方法、装置及终端、服务器、存储介质 | |
CN110399490A (zh) | 一种弹幕文本分类方法、装置、设备及存储介质 | |
CN110287341B (zh) | 一种数据处理方法、装置以及可读存储介质 | |
CN110827797B (zh) | 语音应答事件分类处理方法和装置 | |
CN110083729A (zh) | 一种图像搜索的方法及系统 | |
CN111666400B (zh) | 消息获取方法、装置、计算机设备及存储介质 | |
CN111159414A (zh) | 文本分类方法及系统、电子设备、计算机可读存储介质 | |
CN112364168A (zh) | 一种基于多属性信息融合的舆情分类方法 | |
CN115563982A (zh) | 广告文本优化方法及其装置、设备、介质、产品 | |
CN111125457A (zh) | 一种深度跨模态哈希检索方法及装置 | |
CN113254711A (zh) | 一种互动图像的显示方法、装置、计算机设备和存储介质 | |
CN111680190A (zh) | 一种融合视觉语义信息的视频缩略图推荐方法 | |
CN111475607A (zh) | 一种基于Mashup服务功能特征表示与密度峰值检测的Web数据聚类方法 | |
CN117313728A (zh) | 实体识别方法、模型训练方法、装置、设备和存储介质 | |
CN108021565B (zh) | 一种基于对话的用户满意度的分析方法及装置 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN111988668B (zh) | 一种视频推荐方法、装置、计算机设备及存储介质 | |
CN115470322B (zh) | 一种基于人工智能的关键词生成系统及方法 | |
CN115953217A (zh) | 商品评分推荐方法及其装置、设备、介质、产品 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |