CN115099854A - 广告文案创作方法及其装置、设备、介质、产品 - Google Patents

广告文案创作方法及其装置、设备、介质、产品 Download PDF

Info

Publication number
CN115099854A
CN115099854A CN202210726294.0A CN202210726294A CN115099854A CN 115099854 A CN115099854 A CN 115099854A CN 202210726294 A CN202210726294 A CN 202210726294A CN 115099854 A CN115099854 A CN 115099854A
Authority
CN
China
Prior art keywords
vector
picture
commodity
text
decoder
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210726294.0A
Other languages
English (en)
Inventor
胡凌宇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Huaduo Network Technology Co Ltd
Original Assignee
Guangzhou Huaduo Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Huaduo Network Technology Co Ltd filed Critical Guangzhou Huaduo Network Technology Co Ltd
Priority to CN202210726294.0A priority Critical patent/CN115099854A/zh
Publication of CN115099854A publication Critical patent/CN115099854A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0276Advertisement creation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Finance (AREA)
  • Strategic Management (AREA)
  • General Physics & Mathematics (AREA)
  • Game Theory and Decision Science (AREA)
  • Marketing (AREA)
  • General Business, Economics & Management (AREA)
  • Economics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本申请涉及广告文案创作方法及其装置、设备、介质、产品,所述方法包括:获取目标商品的商品图片;经图片编码器提取出商品图片的图像特征,获得商品图片映射到特定语义空间的图像特征向量;将所述图像特征向量作为初始的输入向量提供给解码器逐步自回归解码出广告文案的文本序列中的各个文本向量,其中,前一步的文本向量用于查询商品图片的图像特征中的关键特征作为后一步的文本向量相对应的输入向量;根据解码器预测出的文本向量序列还原出广告文案的文本序列。本申请获得的广告文案由于基于商品图片的图像特征而获得,能够更为全面地反映商品图片中的卖点特性,且不受创作者风格的影响而具有均一质量。

Description

广告文案创作方法及其装置、设备、介质、产品
技术领域
本申请涉及电商信息技术领域,尤其涉及一种广告文案创作方法及其相应的装置、计算机设备、计算机可读存储介质,以及计算机程序产品。
背景技术
电商平台通常配置有广告投放页面,供店铺用户向广告系统投放店铺内上架商品相对应的广告,以达到线上引流,促进商品交易额提升的目的。
广告文案是广告投放的重要组成部分,对广告投放的最终效果有直接影响。广告文案具有突出商品信息和卖点、加深消费者印象、吸引消费者的作用。但在真实的实践场景下,广告文案创作需要经历商品理解、卖点提炼、组织表达、完成编写等步骤,是一个十分耗时耗力的任务。而且商品种类繁多,很容易出现对商品卖点不了解的情况,从而产生创作失误,影响广告效果。因此,一种自动化的广告文案创作算法是十分迫切和必要的。
现有的广告文案生成算法主要都是根据商品标题等文本信息对广告文案进行创作,此类算法至少存在如下问题:
1.由于商品标题等文本信息受展示或平台长度要求等限制,往往只能对商品进行大致描述,无法详细准确地对商品进行全面描述,造成商品关键信息的遗漏,从而影响后续的广告文案生成。
2.由于不同商家的文化背景和创作风格的不同,很容易导致商品标题等风格内容差异较大。
3.商品关键信息遗漏和文本数据风格差异较大很容易产生算法训练难以收敛和创作的广告文案质量较差等问题。
以上问题的存在导致现有的广告文案生成算法所起作用有限,因而,有必要另行探索有效的解决方案。
发明内容
本申请的目的在于解决上述问题而提供一种广告文案创作方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品、
适应本申请的各个目的,采用如下技术方案:
一个方面,适应本申请的目的之一而提供一种广告文案创作方法,包括:
获取目标商品的商品图片;
经图片编码器提取出商品图片的图像特征,获得商品图片映射到特定语义空间的图像特征向量;
将所述图像特征向量作为初始的输入向量提供给解码器逐步自回归解码出广告文案的文本序列中的各个文本向量,其中,前一步的文本向量用于查询商品图片的图像特征中的关键特征作为后一步的文本向量相对应的输入向量;
根据解码器预测出的文本向量序列还原出广告文案的文本序列。
另一方面,适应本申请的目的之一而提供一种广告文案创作装置,包括:
图片获取模块,用于获取目标商品的商品图片;
图片编码模块,用于经图片编码器提取出商品图片的图像特征,获得商品图片映射到特定语义空间的图像特征向量;
解码输出模块,用于将所述图像特征向量作为初始的输入向量提供给解码器逐步自回归解码出广告文案的文本序列中的各个文本向量,其中,前一步的文本向量用于查询商品图片的图像特征中的关键特征作为后一步的文本向量相对应的输入向量;
文案还原模块,用于根据解码器预测出的文本向量序列还原出广告文案的文本序列。
又一方面,适应本申请的目的之一而提供的一种计算机设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的广告文案创作方法的步骤。
又一方面,适应本申请的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述的广告文案创作方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行该方法所包括的步骤。
又一方面,适应本申请的另一目的而提供的一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述广告文案创作方法的步骤。
相对于现有技术,本申请具有多方面优势,包括但不限于:
首先,本申请仅依赖目标商品的商品图片所提供的图像特征,便可以生成目标商品相对应的广告文案。由于商品图片提供更为切实的商品特点,通过对商品图片进行语义理解获得的图像特征,能够有效且更为全面地实现对目标商品的卖点特性的有效表示,从而可以根据这些图像特征获得有效的广告文案。
其次,本申请在创作广告文案时无需依赖文本信息作为广告文案创作模型的初始输入,不受人为的文化背景和创作风格所影响,能够创作出具有风格一致性的广告文案。
此外,根据本申请的原理所实现的算法,由于通过商品图片获得更全面的卖点特性且能不受文本风格差异的影响,仅需借助商品图片进行训练,制备样本更为高效,算法更容易收敛,所创作的广告文案的质量更为优质。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请所实现的广告文案创作模型的示例性网络架构原理框图。
图2为本申请的广告文案创作方法的典型实施例的流程示意图。
图3为本申请实施例中获取目标商品的图像特征向量的流程示意图。
图4为本申请实施例中解码器解码过程的流程示意图。
图5为本申请实施例中注意力层查询获取关键特征向量的流程示意图
图6为本申请用于实施训练的生成对抗网络的示例性网络架构原理框图。
图7为本申请的生成对抗网络中的判别器的示例性网络架构原理框图。
图8为本申请实施例中对广告文案创作模型实施两阶段训练的流程示意图。
图9为本申请的广告文案创作装置的原理框图;
图10为本申请所采用的一种计算机设备的结构示意图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,进行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他诸如个人计算机、平板电脑之类的通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件,本质上是具备个人计算机等效能力的电子设备,为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置,计算机程序存储于其存储器中,中央处理器将存储在外存中的程序调入内存中运行,执行程序中的指令,与输入输出设备交互,借此完成特定的功能。
需要指出的是,本申请所称的“服务器”这一概念,同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理,所述各服务器应是逻辑上的划分,在物理空间上,这些服务器既可以是互相独立但可通过接口调用的,也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通,而不应以此约束本申请的网络部署方式的实施方式。
本申请的一个或数个技术特征,除非明文指定,既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问,也可直接部署并运行于客户端来实施访问。
本申请中所引用或可能引用到的神经网络模型,除非明文指定,既可部署于远程服务器且在客户端实施远程调用,也可部署于设备能力胜任的客户端直接调用,某些实施例中,当其运行于客户端时,其相应的智能可通过迁移学习来获得,以便降低对客户端硬件运行资源的要求,避免过度占用客户端硬件运行资源。
本申请所涉及的各种数据,除非明文指定,既可远程存储于服务器,也可存储于本地终端设备,只要其适于被本申请的技术方案所调用即可。
本领域技术人员对此应当知晓:本申请的各种方法,虽然基于相同的概念而进行描述而使其彼此间呈现共通性,但是,除非特别说明,否则这些方法都是可以独立执行的。同理,对于本申请所揭示的各个实施例而言,均基于同一发明构思而提出,因此,对于相同表述的概念,以及尽管概念表述不同但仅是为了方便而适当变换的概念,应被等同理解。
本申请即将揭示的各个实施例,除非明文指出彼此之间的相互排斥关系,否则,各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例,只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通,本领域技术人员应当知晓。
本申请的一种广告文案创作方法,可被编程为计算机程序产品,部署于客户端或服务器中运行而实现,例如,本申请的示例性应用场景中,可以在电商平台的服务器中部署实现,藉此可以通过访问该计算机程序产品运行后开放的接口,通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。
本申请示例性的应用场景是在电商平台的广告场景的应用。电商平台通常配备有广告系统,通过向各个线上店铺的商家用户开放相应的广告发布接口,通过该广告发布接口获得任意店铺的商家用户向广告系统投放的广告相对应的广告文案及广告配置信息,将其提交到广告系统自有的广告发布渠道或第三方的广告发布渠道向公众展示。
本申请中,所述广告文案主要表示为自然语言文本,可以为任意语种的文字。每个所述店铺可以对应部署于电商平台的一个独立站点中。每个店铺可以上架大量的商品,每个商品相对应的商品信息存储于线上店铺的商品信息库中。用户可以通过进入店铺访问其中的任意商品的交易页面进行下单和支付等操作,从而实现电商交易。每个店铺可以向所述的广告系统投放其店铺中任意商品相对应的广告,这样的商品可称为广告商品,在发布广告过程中提供广告商品相对应的广告文案,通过所述广告发布接口提交至所述的广告系统实现发布。
可以通过本申请的广告文案创作模型为指定的目标商品自动生成所述的广告文案。为了生成广告文案,可以确定目标商品相对应的商品图片作为广告文案创作模型的输入,然后由广告文案创作模型输出对应描述了所述商品图片所呈现的商品的卖点特性的广告文案。
请参阅图1,其示出本申请的广告文案创作模型的网络架构,该模型包括图片编码器、解码器以及注意力层,所述图片编码器可以对输入其中的商品图片提取图像特征,所述解码器可以根据商品图片的图像特征解码出广告文案的文本向量序列,后续根据所述文本向量序列还原出广告文案相对应的文本序列。
所述广告文案创作模型经预先训练至收敛状态后,便可习得根据给定的商品图片生成相应的广告文案的能力。所述广告文案创作模型的训练方式,可以灵活实施。
一种实施例中,所述广告文案创作模型基于生成对抗思想进行训练,先预备一个适于对广告文案创作模型中的解码器输出的文本向量进行质量类别判别的判别器,将该判别器训练至收敛状态,然后,将广告文案创作模型作为生成器后接所述判别器构成生成对抗网络,在冻结判别器的权重的条件下,采用相应的训练样本对生成对抗网络实施训练,将其中的生成器训练至收敛状态后,该生成器即可输出为适于线上推理的广告文案创作模型。
另一实施例中,所述广告文案创作模型采用两阶段训练方式进行训练,在第一阶段,分别对其中的图片编码器和解码器实施独立的预训练,将图片编码器和解码器分别训练至收敛状态,然后,在第二阶段,将完成预训练的图片编码器后接解码器构成广告文案创作模型,然后采用对应的训练样本及监督标签将广告文案创作模型训练至收敛状态。
关于本申请的广告文案创作模型训练相关的实施例,将在后续深入揭示,此处暂按不表。
所述广告文案创作模型中,图片编码器可为任意适于提取图像特征的基础模型,例如,基于多重卷积操作的AlexNet、Resnet、DenseNet、EfficientNet等,基于注意力机制的Transformer的编码器、Vision Transformer的编码器等,以及基于多重Transformer编码器的Swin Transformer等,诸如此类,只要适于对输入其中的图片提取其中的图像特征均可。
所述广告文案创作模型中,解码器可为任意处理序列任务的循环神经网络(RNN,Recurrent Neural Network),或在RNN基础上演进的LSTM(长短时记忆网络),一种实施例中,推荐直接使用Transformer的解码器,或者BART模型的解码器等,这些解码器均基于RNN实现且添加了注意力机制,能够有效的对序列信息进行解码。本领域技术人员可以根据此处揭示的原理灵活选型。
所述广告文案创作模型中,注意力层用于在解码器每一步解码之后,根据解码所得的文本向量查询出商品图片的图像特征中的关键特征,然后将关键特征追加到解码器的输入中,使解码器能够进一步结合该关键特征预测出下一步相对应的文本向量。所述注意力层可以是多头注意力层或单头注意力层。
不难理解,当本申请的广告文案创作模型最终被训练至收敛状态后,便可投入线上推理使用,因而,可以用于实现本申请所期望的广告文案的自动生成。
请参阅图2,本申请的广告文案创作方法在其典型实施例中,包括如下步骤:
步骤S1100、获取目标商品的商品图片;
所述商品图片,主要包括目标商品的默认展示图片,其在目标商品的详情展示页面中显要展示,或者作为目标商品的摘要展示界面的默认图片进行显示。除此之外,还可采集目标商品相对应的其他配套图片,这些配置套片一般被显示于目标商品的详情展示页面的详情展示区中。对于商品图片的选取,可由本领域技术人员灵活确定。商品图片以图像的形式提供对目标商品的特征特点是其中的卖点特性的描述,因而,通过商品图片可以提取到目标商品的卖点特性相对应的语义信息。
一种实施例中,结合电商平台的广告场景,可以通过如下过程获得目标商品的商品图片:
步骤S1110、响应广告文案预测请求,确定该请求所指定的目标商品;
广告发布用户可以在其线上店铺的后台页面触发广告文案预测请求,在该请求中指定相应的目标商品,服务器响应该请求而确定所述目标商品。
步骤S1120、从商品信息库中查询获取所述目标商品相对应的商品图片;
根据所述广告文案预测请求中指定的目标商品,可以从广告发布用户具有访问权限的线上店铺的商品信息库中查询出该目标商品相对应的商品图片。在一个实施例中,可以同时获得目标商品的多张商品图片,然后通过预设的商品图片分类模型,判断出其中表示信息最为完整的商品图片,作为所需获取的商品图片,最终所获得的商品图片,既可以是目标商品设置在商品信息库中的默认展示图片,也可以是其他配套图片。
步骤S1130、完成对所述商品图片的格式预处理。
对于目标商品的商品图片,可以根据电商场景下商品图片的特点,譬如商品大多水平居中、部分适度旋转、商品尺寸较大、图像较为清晰等,以及根据图片编码器对输入的要求,譬如图像尺寸大小、通道数量、像素值归一化等,对商品图片进行增强或转换等预处理,以使商品图片更适于被图片编码器处理。
经过以上过程,实现根据用户指定的目标商品获取其相对应的商品图片、,得到规范化的信息资源,确保后续能够根据这些信息资源高效准确地预测出相对应的广告文案。
步骤S1200、经图片编码器提取出商品图片的图像特征,获得商品图片映射到特定语义空间的图像特征向量;
将需要生成对应的广告文案的商品图片输入本申请的广告文案创作模型的图片编码器,通过所述图片编码器对商品图片提取深层语义信息,提取出其中表示商品图片中目标商品的卖点特性的图像特征,最终可以获得符合特定语义空间的规范的图像特征向量。所述的特定语义空间,可以与解码器进行协调规范,以便使得所述图像特征向量可以转化为解码器的输入。示例而言,所述特定语义空间可以要求所获得的图像特征向量的维度为512维。
步骤S1300、将所述图像特征向量作为初始的输入向量提供给解码器逐步自回归解码出广告文案的文本序列中的各个文本向量,其中,前一步的文本向量用于查询商品图片的图像特征中的关键特征作为后一步的文本向量相对应的输入向量;
所述的解码器,其适于将初始输入的输入向量作为前缀信息进行基于注意力层的特征交互,本申请中,将广告文案创作模型的图片编码器提取商品图片所得的图像特征向量作为解码器的前缀信息输入。然后,解码器以自回归的方式,逐一输出广告文案中每一个字相对应的文本向量。在选择要生成的文本向量时,可以采用集束搜索算法(Beam Search)或贪心搜索算法(Greedy Search)以提升搜索效率。这个文本向量经过全连接层映射成解码器相对应的词表中每一个词可能出现的概率,因而借助一个前向反馈层对每一个文本向量都使用同一个全连接层进行处理。每一个文本向量均按照所述特定的语义空间的规范输出为特定维度例如512维。经过全连接层后,转化为一个维度与词表大小相同的文本向量,其中,指向词表中最大概率的词元,即为该文本向量相对应的词元,适于构成广告文案中的一个字。
所述解码器,可以是基于GPT-2(Generative Pre-Training,生成预训练)版本相对应的解码器,其他的,诸如XLNet、DistilGPT2等,也可适于构造本申请所需的解码器。
解码器根据输入向量生成与输入对应的文本的文本向量,这个输入可作为上文,也即解码器对应上文预测出其下文的一个文本向量,初始的上文即为所述前缀信息。在基于前缀信息预测出一个文本向量后,基于解码器的自回归原理,该文本向量将被追加到上一步的上文中构成新的上文,然后继续根据新的上文生成下一个文本向量,以此类推迭代执行,不断预测出广告文案中的所有文本相对应的文本向量。
本申请中,在解码器将其预测出的上一步的文本向量自回归追加到上一步的上文中用于预测下一步的文本向量的过程中,采用独立设置的注意力层,根据上一步的文本向量,查询出商品图片的图像特征中的关键特征,再将该关键特征追加到上一步的上文中生成预测下一个文本向量相对应的新的上文,由此,实现利用解码器逐步输出的信息,自回归查询出商品图片中的关键特征,逐步实现对商品图片的图像特征的深度挖掘,通过关键特征有效表示商品图片中对于生成广告文案有价值的特征信息,从而可以更为有效地指导解码器的解码过程,以期产出优质的广告文案。
一种实施例中,在基于上一步的文本向量查询商品图片的图像特征中的关键特征的过程中,所采用的图像特征可以是图片编码器在其提取图像特征的中间过程所获得的图像特征。例如,当图片编码器基于多层卷积提取商品图片的图像特征时,可以采用其中第二卷积层或第二卷积层所获得的图像特征;同理,当图片编码器基于多个注意力层逐层提取商品图片的图像特征时,也可以采用其中第二个或第三个注意力层所获得的图像特征。当所述图像特征未规范至本申请特定的语义空间时,可通过全连接层将其映射至所述的语义空间。由于图片编码器在提取商品图片的图像特征的过程中,其操作深度越深,所获得的图像特征所表征的语义越抽象,操作深度越清,所获得的图像特征所表征的语义越丰富,有鉴于此,采用图片编码器的中间过程中的图像特征用于查询所述的关键特征,能够避免遗漏商品图片中的关键信息,确保追加到前一步的上文的关键特征具有实际意义。
步骤S1400、根据解码器预测出的文本向量序列还原出广告文案的文本序列。
经过解码器预测出整个广告文案相对应的全部文本向量之后,即获得广告文案的文本序列相对应的文本向量序列,便可针对其中各个文本向量逐一查询所述解码器相对应的词表,获得该词表中相对应的词元作为相应的文本,将这些文本顺序拼接为广告文案。
根据本实施例可以知晓,在生成广告文案过程中,仅需向本申请的广告文案创作模型的图片编码器输入根据商品图片获得的前缀信息,便可在解码器的自回归特性的作用下,串行获得广告文案中的各个词元相对应的文本,并且,在后的文本根据在先的上文自动预测而得,在商品文本的文本向量序列的基础上,进一步结合了商品图片的关键特征序列,而关键特征序列本身又是事先在商品图片的图片特征的基础上参考文本特征序列深度挖掘出的关键信息,因而,虽然仅依赖于商品图片,但每一步输入解码器的前缀信息所包含的语义特征更为丰富和精准,可以确保解码器以充足的语义信息为参考,有效预测出目标商品的商品图片相对应的广告文案,使广告文案能够精准描述目标商品的卖点特性。
根据以上的实施例,本申请具有多方面优势,包括但不限于:
首先,本申请仅依赖目标商品的商品图片所提供的图像特征,便可以生成目标商品相对应的广告文案。由于商品图片提供更为切实的商品特点,通过对商品图片进行语义理解获得的图像特征,能够有效且更为全面地实现对目标商品的卖点特性的有效表示,从而可以根据这些图像特征获得有效的广告文案。
其次,本申请在创作广告文案时无需依赖文本信息作为广告文案创作模型的初始输入,不受人为的文化背景和创作风格所影响,能够创作出具有风格一致性的广告文案。
此外,根据本申请的原理所实现的算法,由于通过商品图片获得更全面的卖点特性且能不受文本风格差异的影响,仅需借助商品图片进行训练,制备样本更为高效,算法更容易收敛,所创作的广告文案的质量更为优质。
在本申请任意实施例的基础上,请参阅图3,所述步骤S1200、经图片编码器提取出商品图片的图像特征,获得商品图片映射到特定语义空间的图像特征向量,包括:
步骤S1210、将商品图片切分为多个等规格的子图,构成子图序列;
本实施例中,采用Vision Transformer作为图片编码器对商品图片进行编码,根据Vision Transformer的原理,将商品图片按照预设尺寸,将其切分为多个等规格的子图,从而获得子图序列。
步骤S1220、应用图片编码器对所述子图序列中的各个子图提取图像特征,获得各卷积层相对应的图像特征信息;
所述子图序列输入图片编码器进行特征交互,Vision Transformer是基于注意力层的编码部件,其通过对各个子图进行深度的特征交互,提取出其中的各个子图相对应的图像特征信息。
步骤S1230、将所述图像特征信息处理为适配所述解码器的输入的图像特征向量,使其投射于特定语义空间。
最后,可将前一步骤获得的各个子图相对应的图像特征信息转换为特定语义空间输入所需的图像特征向量,以便适应解码器的输入的规范,实现图片编码器所输出的图像特征向量与解码器的输入要求的协调统一。
本实施例中,借助对商品图片进行子图切分,在各个子图对应的局部信息的基础上对商品图片进行特征提取,能够以更细粒度获取商品图片的图像语义特征,能够更为有效地指导解码器精准预测广告文案。
在本申请任意实施例的基础上,区别于前一实施例,所述步骤S1200、经图片编码器提取出商品图片的图像特征,获得商品图片映射到特定语义空间的图像特征向量,包括:
步骤S1201、经图片编码器中预设的多个卷积层逐步提取所述商品图片的图像特征,获得各卷积层相对应的图像特征信息;
以基于例如AlexNet、ResNet等应用多层卷积原理的基础模型实现的图片编码器为例,图片编码器中包含多个卷积层,由浅入深地对商品图片提取图像特征,每个卷积层均可获得该层所提取的图像特征,然后再将其图像特征输入下一个卷积层中继续提取更深一层的图像特征。在整个过程中,每个卷积层均可输出相应的图像特征信息,后续可按需获取其中的任意一个卷积层相对应的图像特征信息,以便在该层所提取的图像特征。
步骤S1202、将最后一个卷积层所提取的图像特征全连接映射至适配所述解码器的输入的特定语义空间,获得图像特征向量。
图片编码器最后一个卷积层输出的图像特征信息,通过全连接层之后,便可映射至特定的语义空间,由此获得符合解码器输入要求的图像特征向量。
本实施例中,应用多层卷积原理,逐层提取出商品图片的图像特征,最终输出符合解码器要求的图像特征向量,其实现成本较低,特征提取精准,据此搭建的图片编码器,或在该图片编码器基础搭建的模型,包括本申请的广告文案创作模型、生成对抗网络、生成器、判别器等,更容易快速训练至收敛。
在本申请任意实施例的基础上,请参阅图4,所述步骤S1300、将所述图像特征向量作为初始的输入向量提供给解码器逐步自回归解码出广告文案的文本序列中的各个文本向量,包括:
步骤S1310、将所述图像特征向量作为初始的输入向量输入至所述解码器开始逐步解码;
图片编码器输出的图像特征向量,在初始时刻,作为前缀信息相对应的输入向量,直接输入至所述解码器,解码器于是开始进行自回归逐步解码。
步骤S1320、每一步解码后,解码器根据所述输入向量预测出其对应的文本向量,将该文本向量自回归传递至预设的注意力层;
解码器是基于自回归机制进行解码的,可以将其解码过程视为对应多个时刻的多步操作,因而,在每一步解码时,解码器应用其自身固有的算法,根据该步相对应的输入向量预测出其对应的文本向量,所述文本向量表示为映射到解码器相对应的词表的每个字的概率分布,其中最大概率相对应的字,便是用于构造广告文本所需的文本。根据解码器的自回归机制,将该文本向量自回归传递至广告文案创作模型中预设的注意力层。
步骤S1330、注意力层根据自回归的文本向量查询出图片编码器提取图像特征过程中的图像特征信息中的关键特征向量;
所述注意力层具有两路输入,其一为从图片编码器的图像特征提取过程中获得的中间态的图像特征信息,其二为解码器输出并自回归的文本向量,据此,可以基于所述图像特征信息和文本向量执行QKV运算,通过运算获得所述图像特征信息中的关键特征向量,实现对图像特征信息中的关键特征的提取。由于所引用的图像特征信息包含的是图片编码器在浅层提取的商品图片的图像特征,因而,其语义更为原始,相对也更为丰富全面,可望查询出更为有效的特征信息,例如商品图片所表示的目标商品的卖点特征等。
步骤S1340、将该关键特征向量作为解码器下一步解码的输入向量继续迭代预测出下一文本向量,直至完成广告文案的文本序列相对应的各个文本向量的预测。
注意力层进一步将其所获得的关键特征向量作为解码器下一步解码的输入向量输入至解码器中,解码器继续按照其自身的算法逻辑预测出下一步的文本向量,以此类推,循环迭代,直至完成广告文案的文本序列相对应的各个文本向量的预测。
根据本实施例可以理解,在广告文案创作模型内置的注意力层,在解码器逐步解码的过程中,发挥更新解码器所输入的前缀信息的作用,逐步为解码器的解码提供源自商品图片的关键特征,使解码器能够不断根据商品图片的图像语义预测文本向量,保持创作风格一致性的同时,通过不断追加关键特征而全面考虑商品图片的深层语义,由此而可望生成描述内容与商品图片呈现的卖点特性相对应的广告文案。
在本申请任意实施例的基础上,请参阅图5,所述步骤S1330、注意力层根据自回归的文本向量查询出图片编码器提取图像特征过程中的图像特征信息中的关键特征向量,包括:
步骤S1331、以自回归的文本向量为查询向量,以图片编码器的图像特征信息为键向量和值向量,将查询向量与键向量进行交互以确定出商品图片的关键向量;
由于键向量是商品图片的图像特征信息,是对商品图片的特征表示,而查询向量是解码器输出的文本向量,包含广告文案的前文相对应的语义信息,因而,以注意力层使用多头注意力机制的实施例中,可将查询向量Q与键向量K分别匹配其各自的可学习权重WQ、WK之后,求点积运算实现特征交互,以文本向量提供的前文语义为参考,从键向量K匹配相应的可学习权重WK所得的结果中确定出商品图片中的图像特征中的关键特征,可表示为关键特征向量。
对于注意力层使用单头注意力机制的实施例,所述查询向量Q可以无需匹配可学习权重。
步骤S1332、将所述关键向量进行归一化计算出注意力权重,获得权重向量;
获得所述关键特征后,可采用Softmax函数对其进行归一化,将其中的特征数值映射至[0,1]的置信区间,获得一个权重向量,用于表征商品图片的图片特征信息中各个对应特征所享有的关键程度的权重。
步骤S1333、以所述权重向量对所述值向量加权求和获得关键特征向量。
为了从商品图片的图片特征信息中提取出关键特征向量,进一步,可将所述值向量V(可事先按需匹配相应的可学习权重WV),也即所述图片特征信息,与所述权重向量相乘,实现对所述图片特征信息中的特征值的加权求和,由此便可获得最后的关键特征向量,其中的各个特征数值在权重向量的作用下得到调节,从而实现对商品图片中的关键特征的挖掘和表示。
部分实施例中,无论是基于单头注意力机制还是多头注意力机制,所述值向量V可以直接复用所述键向量K,以便减少需要学习的权重参数,以便在训练过程中加速相应的模型的收敛速度。不难理解,所述各个可学习权重在图片编码器的训练过程中被反向传播修正,在图片编码器被训练至收敛后得到固化。
本实施例中,注意力层通过参考解码器预测出的文本向量对商品图片的图像特征信息执行注意力运算,实现对商品图片中的关键特征的深度挖掘,获得关键特征向量,使关键特征向量可以有效表示商品图片中对于生成广告文案有价值的特征信息,从而可以进一步追加为解码器下一步解码所需的上文信息,逐步增强解码器解码所需的语义参考,更为有效地指导广告文案的自动生成。
在本申请任意实施例的基础上,所述步骤S1200、经图片编码器提取出商品图片的图像特征的步骤之前,应用生成对抗思想对本申请的广告文案创作模型实施训练,将其训练至收敛状态,据此,其训练过程包括:
步骤S2100、将所述图片编码器和解码器构造为广告文案创作模型,作为生成器与预设的判别器构造为生成对抗网络,所述判别器预先被训练至收敛状态,适于二分类判别广告文案的质量类别;
请参阅图6所示的生成对抗网络,该生成对抗网络包括生成器和判别器,所述生成器直接采用本申请的广告文案创作模型充当,所述判别器是适应生成对抗训练所需而预备的,其事先通过训练,获得了适于根据本申请广告文案创作模型的解码器所输出的文本向量序列而二分类识别出其该文本向量序列相对应的广告文案的质量类别的能力。也即,提供一个广告文案的文本序列相对应的文本向量序列,判别器可以根据判断出相应的广告文案是合格的正样本还是不合格的负样本。
一个实施例中,所述判别器的网络架构如图7所示,其以本申请的广告文本案创作模型所采用的图片编码器和解码器同构的图片编码器和解码器为两个基础模型,将这两个基础模型搭建为双塔模型,由图片编码器提取出商品图片的图像特征向量,由解码器对输入其中的文本向量序列进行解码获得另一文本向量序列,然后,通过拼接层将所述图像特征向量和文本向量序列拼接为合并特征向量,再经全连接层映射到分类器的二分类空间,获得正样本、负样本两个类别相对应的分类概率,其中分类概率最大的类别,即是判别器根据输入确定出的质量类别。
判别器按照以上架构预先训练至收敛状态之后,便可根据输入而做出判定,由此,便可在生成对抗网络中,根据生成器解码商品图片的图像特征向量所生成的文本向量序列,对该文本向量序列进行解码获得另一文本向量序列,然后与判别器的图片编码器自行从所述商品图片中提取出的图像特征向量相结合获得合并特征向量,根据合并特征向量进行质量类别的判别,获得映射到二分类空间各个质量类别对应的分类概率。
在生成对抗网络中,判别器的输入是生成器的解码器输出的文本向量序列,充分考虑到所述文本向量序列是一组离线数据,会阻断训练时梯度更新过程中的反向传播,因而,采用这样的架构,将生成器生成的广告文案的每一个字的概率分布作为判别器中的解码器的输入,使得生成器在整个生成对抗训练过程中均能够正常参与梯度更新,包括在事先对判别器训练时由生成器为判别器提供商品图片相对应的文本向量序列作为负样本的阶段,生成器也可以正常参与梯度更新。
另一实施例中,在前置对所述判别器训练的阶段,不仅可以采用生成器根据作为训练样本的商品图片生成的文本向量序列,作为判别器的解码器的输入,还可以采用从广告系统的历史商品广告中自行采集的商品图片相对应的广告文案的编码向量序列作为其解码器的输入,所述的编码向量序列可以根据历史广告商品的广告文案自行编码并添加均匀分布噪声后归一化而获得的,编码的方式可以是采用独热编码方式,所述均匀分布噪声可以是一个预设置信区间例如[-3,3]范围内的概率分布。由此可见,判别器的输入,既可以兼容生成器输出的文本向量序列,也可以兼容自行编码获得的编码向量序列,方便扩充其训练所需的样本总量,使生成器生成的假定样本与预先采集的真实样本均可以用于训练判别器,使判别器更易被训练至收敛。
步骤S2200、冻结所述判别器的权重,采用商品图片作为生成对抗网络的输入,以正样本对应的标签计算判别器输出的损失值,将该生成器训练至收敛状态。
在启动对抗生成网络的训练之前,可以先行配置所述判别器冻结其权重,使其处于权重不可修正的状态,然后,便可启动对整个生成对抗网络的训练,其本质上借助生成对抗网络实施对所述生成器的训练。
在实施训练时,可以采用作为训练样本的商品图片,该商品图片分别输入至生成器的图片编码器和判别器的图片编码器用于提取图像特征向量,在生成器中,其图片编码器获得的图像特征向量,经生成器中的解码器进一步解码出广告文案相对应的文本向量序列,然后,直接输入判别器的解码器进行解码,由该解码器对应解码出另一文本向量序列,继而,判别器通过其拼接层将其图片编码器所获得的图像特征向量与其解码器所获得的另一文本向量序列进行特征拼接,获得合并特征向量,再经全连接后实施二分类,获得映射到二分类空间的分类概率。
根据生成对抗思想,在对生成器训练的阶段,假定生成器所生成的文本向量序列经判别器识别为符合期望的正样本,因而,针对正样本相对应的质量类别进行损失值的计算,即计算假定样本标签为正样本(可表示为1)的交叉熵损失,然后通过梯度下降算法对生成器的权重参数进行更新。
在对生成器训练的过程中,对应每个训练样本获得损失值后,可采用一预设阈值与之相比较,以便判断生成器是否已经达致收敛的状态。具体而言,当所述损失值达到所述预设阈值时,表明生成器已经被训练至收敛状态,可以将该生成器输出为本申请进行线上推理所需的广告文案创作模型。当所述损失值未到达所述预设阈值时,表明生成器未被训练至收敛状态,可以对生成器实施权重更新,然后继续调用下一训练样本,继续对生成器实施迭代训练,直至生成器被训练至收敛状态产出本申请所需的广告文案创作模型为止。
根据以上训练过程可知,借助生成对抗思想对本申请的广告文案创作模型实施训练,可以有效地将广告文案创作模型快速训练至收敛,使其获得较为可靠的广告文案生成能力。特别是在所述判别器也采用了生成器所采用的图片编码器和解码器的情况下,通过巧妙地处理判别器的解码器的输入,事先将判别器快速训练至收敛而使其获得判别生成器所生成的文本向量序列的优劣的能力,使判别器后续可以为生成器的训练提供有效的判据,监督生成器的训练,使生成器通过训练而提升生成广告文案的能力,最终产出符合本申请所需的广告文案创作模型。
在本申请任意实施例的基础上,区别于前一实施例,请参阅图8,所述步骤S1200、经图片编码器提取出商品图片的图像特征的步骤之前,应用两阶段训练思想对本申请的广告文案创作模型实施训练,将其训练至收敛状态,据此,其训练过程包括:
步骤S3100、采集历史商品广告中的商品图片、广告文案以及商品类别标识,构造为数据集中的映射关系数据;
对本申请的广告文案创作模型实施两阶段训练所需的训练样本,可从电商平台的广告系统中获取,具体是获取广告系统中的历史商品广告中的商品图片、广告文案以及商品类别标识,按照每个商品构造为映射关系数据,将这些映射关系数据存储于数据集中,后续可从中灵活选取各个训练阶段所需的训练样本。
步骤S3200、以数据集的映射关系数据中的商品图片为训练样本输入所述的图片编码器进行预训练,采用对应预设的商品类别标识作为所述商品图片预训练的监督标签,将图片编码器训练至收敛状态;
在第一阶段训练中,先对所述图片编码器实施训练,使其具备提取图像特征的能力。为此,可将所述图片编码器后接分类器实施训练。在单次训练时,以所述数据集的一个映射关系数据中的商品图片作为图片编码器的输入,由图片编码器对该商品图片提取图像特征,获得图像特征向量,经全连接层映射到分类器的分类空间获得其中各个类别相应的分类概率作为分类结果,然后,利用该映射关系数据中的商品类别标识作为监督标签,计算所述分类结果的损失值,当该损失达到预设阈值时,表示图片编码器已经被训练至收敛状态,可以将该图片编码器用作本申请的广告文案创作模型的构件,当然也可用作本申请前一实施例的生成器和判别器的构件。当所述损失值未到达所述预设阈值时,表明图片编码器未被训练至收敛状态,可以对图片编码器实施权重更新,然后继续调用下一训练样本,继续对图片编码器实施迭代训练,直至图片编码器被训练至收敛状态为止,由此完成对图片编码器的预训练。
步骤S3300、以数据集的映射关系数据中的广告文案为训练样本输入所述的解码器进行基于无监督的预训练,将解码器训练至收敛状态;
同理,第一阶段训练中,还需执行对解码器的预训练,使其具备根据输入向量对应逐步解码预测而获得文本向量的能力。由于本申请所采用的解码器是具有自回归机制的解码器,因而,可以采用其据以解码的输入向量自行监督其解码获得的文本向量,从而实现无监督训练。据此,可以采用所述数据集的映射关系数据中的广告文案作为训练样本,将其编码为嵌入向量后序列化输入解码器以提供逐步解码所需的输入向量,同理可以理解,解码器基于自回归机制,在每一步解码后会将自身解码所得的文本向量追加到其下一步解码所需的输入中,以便实现解码过程中的上下文关联。
解码器逐步针对广告文案中每一字解码获得的文本向量,是通过Softmax函数构造的分类器映射到预设词表的各个字所获得的概率分布,因而,以广告文案中下一字为依据,应用交叉熵函数计算该文本向量的损失值,然后根据该损失值梯度下降对解码器实施参数更新。通过迭代多个训练样本对所述解码器实施训练,最终该损失值可达至收敛状态,便可终止对解码器的训练,由此,解码器即获得根据输入向量解码出广告文案相对应的文本向量序列的能力。
步骤S3400、将完成预训练的图片编码器和解码器与注意力层构造为广告文案创作模型,以商品图片为输入,以所述商品图片相对应的广告文案为监督标签将该模型训练至收敛状态。
完成所述图片编码器和解码器的预训练之后,便可按照本申请的广告文案创作模型的网络结构,将图片编码器后接解码器,在图片编码器和解码器之间接入注意力层,构造出本申请的广告文案创作模型的网络架构,然后,针对该网络架构实施微调训练。
在实施微调训练时,可以采用所述数据集的映射关系数据中的商品图片作为广告文案创作模型的输入的训练样本,然后,根据本申请的广告文案创作模型的算法原理,先由图片编码器获得商品图片的图像特征向量,再由解码器根据所述图像特征向量并结合自回归机制下由注意力层获得的关键特征,逐步解码出广告文案中每个字相对应的文本向量,获得广告文案相对应的文本向量序列。
由于数据集的映射关系数据中,与作为训练样本的商品图片相对应存储有关联于同一历史商品广告的广告文案,因而,可根据该广告文案提供监督标签,用于微调训练过程中,计算解码器在每一步输出的文本向量的交叉熵损失,获得损失值,在损失值达致预设阈值时终止微调训练,产出广告文案创作模型,在损失值未达到预设阈值时实施反向传播修正广告文案创作模型的权重参数使其逼近收敛,然后继续调用数据集中的下一训练样本实施迭代训练,以此类推,直至广告文案创作模型被训练至收敛状态为止,即可产出本申请线上推理所需的广告文案创作模型。
根据以上过程可以看出,采用两阶段训练方式训练本申请的广告文案创作模型,较为简便高效,易将模型快速训练至收敛状态,实现成本较低。
请参阅图9,适应本申请的目的之一而提供一种广告文案创作装置,是对本申请的广告文案创作方法的功能化体现,该装置包括图片获取模块1100、图片编码模块1200、解码输出模块1300,以及文案还原模块1400,其中:所述图片获取模块1100,用于获取目标商品的商品图片;所述图片编码模块1200,用于经图片编码器提取出商品图片的图像特征,获得商品图片映射到特定语义空间的图像特征向量;所述解码输出模块1300,用于将所述图像特征向量作为初始的输入向量提供给解码器逐步自回归解码出广告文案的文本序列中的各个文本向量,其中,前一步的文本向量用于查询商品图片的图像特征中的关键特征作为后一步的文本向量相对应的输入向量;所述文案还原模块1400,用于根据解码器预测出的文本向量序列还原出广告文案的文本序列。
在本申请任意实施例的基础上,所述图片获取模块1100,包括:请求响应单元,用于响应广告文案生成请求,确定该请求所指定的目标商品;查询获取单元,用于从商品信息库中查询获取所述目标商品相对应的商品图片,所述商品图片为目标商品的默认展示图片;格式处理单元,用于完成对所述商品图片的格式预处理。
在本申请任意实施例的基础上,所述图片编码模块1200,包括:图片切分单元,用于将商品图片切分为多个等规格的子图,构成子图序列;特征提取单元,用于应用图片编码器对所述子图序列中的各个子图提取图像特征,获得各卷积层相对应的图像特征信息;向量编码单元,用于将所述图像特征信息处理为适配所述解码器的输入的图像特征向量,使其投射于特定语义空间。
在本申请任意实施例的基础上,区别于前一实施例,所述图片编码模块1200,包括:卷积提取单元,用于经图片编码器中预设的多个卷积层逐步提取所述商品图片的图像特征,获得各卷积层相对应的图像特征信息;向量编码单元,用于将最后一个卷积层所提取的图像特征全连接映射至适配所述解码器的输入的特定语义空间,获得图像特征向量。
在本申请任意实施例的基础上,所述解码输出模块1300,包括:解码启动单元,用于将所述图像特征向量作为初始的输入向量输入至所述解码器开始逐步解码;预测回归单元,用于每一步解码后,解码器根据所述输入向量预测出其对应的文本向量,将该文本向量自回归传递至预设的注意力层;查询叠加单元,用于注意力层根据自回归的文本向量查询出图片编码器提取图像特征过程中的图像特征信息中的关键特征向量;迭代处理单元,用于将该关键特征向量作为解码器下一步解码的输入向量继续迭代预测出下一文本向量,直至完成广告文案的文本序列相对应的各个文本向量的预测。
在本申请任意实施例的基础上,所述查询叠加单元,包括:特征交互单元,用于以自回归的文本向量为查询向量,以图片编码器的图像特征信息为键向量和值向量,将查询向量与键向量进行交互以确定出商品图片的关键向量;权重优化单元,用于将所述关键向量进行归一化计算出注意力权重,获得权重向量;特征运算单元,用于以所述权重向量对所述值向量加权求和获得关键特征向量。
在本申请任意实施例的基础上,先于所述图片编码模块1200,包括:网络构造模块,用于将所述图片编码器和解码器构造为广告文案创作模型,作为生成器与预设的判别器构造为生成对抗网络,所述判别器预先被训练至收敛状态,适于二分类判别广告文案的质量类别;生成训练模块,用于冻结所述判别器的权重,采用商品图片作为生成对抗网络的输入,以正样本对应的标签计算判别器输出的损失值,将该生成器训练至收敛状态。
在本申请任意实施例的基础上,区别于前一实施例,先于所述图片编码模块1200,包括:样本构造模块,用于采集历史商品广告中的商品图片、广告文案以及商品类别标识,构造为数据集中的映射关系数据;编码器预训练模块,用于以数据集的映射关系数据中的商品图片为训练样本输入所述的图片编码器进行预训练,采用对应预设的商品类别标识作为所述商品图片预训练的监督标签,将图片编码器训练至收敛状态;解码器预训练模块,用于以数据集的映射关系数据中的广告文案为训练样本输入所述的解码器进行基于无监督的预训练,将解码器训练至收敛状态;联合微调训练模块,用于将完成预训练的图片编码器和解码器与注意力层构造为广告文案创作模型,以商品图片为输入,以所述商品图片相对应的广告文案为监督标签将该模型训练至收敛状态。
为解决上述技术问题,本申请实施例还提供计算机设备。如图10所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中,该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种商品搜索类目识别方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行本申请的广告文案创作方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本实施方式中处理器用于执行图9中的各个模块及其子模块的具体功能,存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的广告文案创作装置中执行所有模块/子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。
本申请还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行本申请任一实施例的广告文案创作方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。
本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等计算机可读存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
综上所述,本申请根据商品图片的图像特征转换为序列信息,经解码器生成文本向量构成的序列信息,然后巧妙地利用解码器的自回归机制,将前一步的文本向量用于确定商品图片中的关键特征,再追加为解码器的输入,将商品图片的图像特征序列化地提供给解码器进行陆续解码,使解码器逐步预测出与商品图片相对应的文本向量序列,最后根据文本向量序列获得相应的广告文案,所述广告文案由于基于商品图片的图像特征而获得,因而,能够使所获得的广告文案更为全面地反映商品图片中的卖点特性,且所创作的广告文案不受创作者风格的影响而具有均一质量,据此所实现的算法模型,也自然更易于训练,从而能够有效节省训练成本。
本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。
以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种广告文案创作方法,其特征在于,包括:
获取目标商品的商品图片;
经图片编码器提取出商品图片的图像特征,获得商品图片映射到特定语义空间的图像特征向量;
将所述图像特征向量作为初始的输入向量提供给解码器逐步自回归解码出广告文案的文本序列中的各个文本向量,其中,前一步的文本向量用于查询商品图片的图像特征中的关键特征作为后一步的文本向量相对应的输入向量;
根据解码器预测出的文本向量序列还原出广告文案的文本序列。
2.根据权利要求1所述的广告文案创作方法,其特征在于,经图片编码器提取出商品图片的图像特征,获得商品图片映射到特定语义空间的图像特征向量,包括:
将商品图片切分为多个等规格的子图,构成子图序列;
应用图片编码器对所述子图序列中的各个子图提取图像特征,获得各卷积层相对应的图像特征信息;
将所述图像特征信息处理为适配所述解码器的输入的图像特征向量,使其投射于特定语义空间。
3.根据权利要求1所述的广告文案创作方法,其特征在于,经图片编码器提取出商品图片的图像特征,获得商品图片映射到特定语义空间的图像特征向量,包括:
经图片编码器中预设的多个卷积层逐步提取所述商品图片的图像特征,获得各卷积层相对应的图像特征信息;
将最后一个卷积层所提取的图像特征全连接映射至适配所述解码器的输入的特定语义空间,获得图像特征向量。
4.根据权利要求1所述的广告文案生成方法,其特征在于,将所述图像特征向量作为初始的输入向量提供给解码器逐步自回归解码出广告文案的文本序列中的各个文本向量,包括:
将所述图像特征向量作为初始的输入向量输入至所述解码器开始逐步解码;
每一步解码后,解码器根据所述输入向量预测出其对应的文本向量,将该文本向量自回归传递至预设的注意力层;
注意力层根据自回归的文本向量查询出图片编码器提取图像特征过程中的图像特征信息中的关键特征向量;
将该关键特征向量作为解码器下一步解码的输入向量继续迭代预测出下一文本向量,直至完成广告文案的文本序列相对应的各个文本向量的预测。
5.根据权利要求4所述的广告文案创作方法,其特征在于,注意力层根据自回归的文本向量查询出图片编码器提取图像特征过程中的图像特征信息中的关键特征向量,包括:
以自回归的文本向量为查询向量,以图片编码器的图像特征信息为键向量和值向量,将查询向量与键向量进行交互以确定出商品图片的关键向量;
将所述关键向量进行归一化计算出注意力权重,获得权重向量;
以所述权重向量对所述值向量加权求和获得关键特征向量。
6.根据权利要求1所述的广告文案创作方法,其特征在于,经图片编码器提取出商品图片的图像特征的步骤之前,包括:
将所述图片编码器和解码器构造为广告文案创作模型,作为生成器与预设的判别器构造为生成对抗网络,所述判别器预先被训练至收敛状态,适于二分类判别广告文案的质量类别;
冻结所述判别器的权重,采用商品图片作为生成对抗网络的输入,以正样本对应的标签计算判别器输出的损失值,将该生成器训练至收敛状态。
7.根据权利要求1所述的广告文案创作方法,其特征在于,经图片编码器提取出商品图片的图像特征的步骤之前,包括:
采集历史商品广告中的商品图片、广告文案以及商品类别标识,构造为数据集中的映射关系数据;
以数据集的映射关系数据中的商品图片为训练样本输入所述的图片编码器进行预训练,采用对应预设的商品类别标识作为所述商品图片预训练的监督标签,将图片编码器训练至收敛状态;
以数据集的映射关系数据中的广告文案为训练样本输入所述的解码器进行基于无监督的预训练,将解码器训练至收敛状态;
将完成预训练的图片编码器和解码器与注意力层构造为广告文案创作模型,以商品图片为输入,以所述商品图片相对应的广告文案为监督标签将该模型训练至收敛状态。
8.一种广告文案创作装置,其特征在于,包括:
图片获取模块,用于获取目标商品的商品图片;
图片编码模块,用于经图片编码器提取出商品图片的图像特征,获得商品图片映射到特定语义空间的图像特征向量;
解码输出模块,用于将所述图像特征向量作为初始的输入向量提供给解码器逐步自回归解码出广告文案的文本序列中的各个文本向量,其中,前一步的文本向量用于查询商品图片的图像特征中的关键特征作为后一步的文本向量相对应的输入向量;
文案还原模块,用于根据解码器预测出的文本向量序列还原出广告文案的文本序列。
9.一种计算机设备,包括中央处理器和存储器,其特征在于,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。
10.一种计算机可读存储介质,其特征在于,其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。
CN202210726294.0A 2022-06-23 2022-06-23 广告文案创作方法及其装置、设备、介质、产品 Pending CN115099854A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210726294.0A CN115099854A (zh) 2022-06-23 2022-06-23 广告文案创作方法及其装置、设备、介质、产品

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210726294.0A CN115099854A (zh) 2022-06-23 2022-06-23 广告文案创作方法及其装置、设备、介质、产品

Publications (1)

Publication Number Publication Date
CN115099854A true CN115099854A (zh) 2022-09-23

Family

ID=83293572

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210726294.0A Pending CN115099854A (zh) 2022-06-23 2022-06-23 广告文案创作方法及其装置、设备、介质、产品

Country Status (1)

Country Link
CN (1) CN115099854A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115830189A (zh) * 2022-12-22 2023-03-21 中国科学技术大学 电商创意图像自动制作方法、系统、设备与存储介质
CN115953590A (zh) * 2022-12-12 2023-04-11 之江实验室 一种分段式细粒度的商品图像描述生成方法、装置和介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115953590A (zh) * 2022-12-12 2023-04-11 之江实验室 一种分段式细粒度的商品图像描述生成方法、装置和介质
CN115953590B (zh) * 2022-12-12 2024-01-30 之江实验室 一种分段式细粒度的商品图像描述生成方法、装置和介质
CN115830189A (zh) * 2022-12-22 2023-03-21 中国科学技术大学 电商创意图像自动制作方法、系统、设备与存储介质

Similar Documents

Publication Publication Date Title
CN113378784B (zh) 视频标签推荐模型的训练方法和确定视频标签的方法
CN115099854A (zh) 广告文案创作方法及其装置、设备、介质、产品
CN113837102B (zh) 图文融合分类方法及其装置、设备、介质、产品
CN113869048A (zh) 商品对象搜索方法及其装置、设备、介质、产品
CN113850201A (zh) 跨模态商品分类方法及其装置、设备、介质、产品
CN113254684B (zh) 一种内容时效的确定方法、相关装置、设备以及存储介质
CN108959304B (zh) 一种标签预测方法及装置
US20240078385A1 (en) Method and apparatus for generating text
CN114495916B (zh) 背景音乐的插入时间点确定方法、装置、设备和存储介质
CN113962773A (zh) 同款商品聚合方法及其装置、设备、介质、产品
CN113962224A (zh) 命名实体识别方法及其装置、设备、介质、产品
CN114663155A (zh) 广告投放选品方法及其装置、设备、介质、产品
CN115545832A (zh) 商品搜索推荐方法及其装置、设备、介质
CN115587535A (zh) 模型构建优化方法、设备、存储介质及程序产品
CN116976920A (zh) 商品导购方法及其装置、设备、介质
CN114282622A (zh) 训练样本排查方法及其装置、设备、介质、产品
CN115018548A (zh) 广告文案预测方法及其装置、设备、介质、产品
CN112950291A (zh) 模型的偏差优化方法、装置、设备及计算机可读介质
CN115099855A (zh) 广告文案创作模型制备方法及其装置、设备、介质、产品
CN113806536B (zh) 文本分类方法及其装置、设备、介质、产品
CN115309905A (zh) 广告文本生成方法及其装置、设备、介质
CN115292603A (zh) 商品搜索方法及其装置、设备、介质
CN115700579A (zh) 广告文本生成方法及其装置、设备、介质
CN115205884A (zh) 票据信息提取方法及其装置、设备、介质、产品
CN114581202A (zh) 装修样式定制方法及其装置、设备、介质、产品

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination