CN114971730A

CN114971730A - 文案素材提取方法及其装置、设备、介质、产品

Info

Publication number: CN114971730A
Application number: CN202210626061.3A
Authority: CN
Inventors: 葛莉
Original assignee: Guangzhou Huanju Shidai Information Technology Co Ltd
Current assignee: Guangzhou Huanju Shidai Information Technology Co Ltd
Priority date: 2022-06-02
Filing date: 2022-06-02
Publication date: 2022-08-30

Abstract

本申请涉及文案素材提取方法及其装置、设备、介质、产品，所述方法包括：获取广告商品的标题文本及品类标签，构造为查询语句；根据所述标题文本和/或品类标签相匹配的文案短语，召回与文案短语相匹配的源自广告商品的详情文本中的详情语句；确定所述查询语句与匹配出的每个详情语句之间的相似度和置信度；根据所述相似度和置信度筛选出部分详情语句，作为广告商品的广告文案的文案素材，构成文案素材列表。本申请可以从待发布广告的广告商品的详情文本中提取出能够描述商品特征的优质详情语句，作为文案素材供用户引用，可实现广告文案辅助创作。

Description

文案素材提取方法及其装置、设备、介质、产品

技术领域

本申请涉及电商信息技术领域，尤其涉及一种文案素材提取方法及其相应的装置、计算机设备、计算机可读存储介质，以及计算机程序产品。

背景技术

电商平台通常配置有广告投放页面，供店铺用户向广告系统投放店铺内上架商品相对应的广告，以达到线上引流，促进商品交易额提升的目的。

在发布广告时，需要提供相应的广告文案。专业的文案通常能起到更好的推广效果。现实存在的问题是，电商平台中大量的店铺用户不具备专业文案撰写能力，或者无法承担高额的撰写服务费用，而店铺用户自行撰写的文案，却又因为专业不足导致质量不佳，无法起到有效的推广效果。

传统的处理方式是由电商平台基于店铺用户指定的商品，套用预设的文案模板生成相应的广告文案，这种方式解决了广告文案自动生成的问题，但却未能体现店铺用户的个性化内容，经常出现的现象是系统生成的广告文案不能达到店铺用户的主观期望，而店铺用户又无法把握自身撰写的文案内容的优劣。

因此，如何为商品的广告发布提供有效的广告文案辅助创作方式，仍有探索的空间。

发明内容

本申请的目的在于解决上述问题而提供一种文案素材提取方法及其相应的装置、计算机设备、计算机可读存储介质、计算机程序产品、

适应本申请的各个目的，采用如下技术方案：

一个方面，适应本申请的目的之一而提供一种文案素材提取方法，包括：

获取广告商品的标题文本及品类标签，构造为查询语句；

根据所述标题文本和/或品类标签相匹配的文案短语，召回与文案短语相匹配的源自广告商品的详情文本中的详情语句；

确定所述查询语句与匹配出的每个详情语句之间的相似度和置信度；

根据所述相似度和置信度筛选出部分详情语句，作为广告商品的广告文案的文案素材，构成文案素材列表。

另一方面，适应本申请的目的之一而提供一种文案素材提取装置，包括查询构造模块、语句召回模块、匹配处理模块，以及素材生成模块，其中：所述查询构造模块，用于获取广告商品的标题文本及品类标签，构造为查询语句；所述语句召回模块，用于根据所述标题文本和/或品类标签相匹配的文案短语，召回与文案短语相匹配的源自广告商品的详情文本中的详情语句；所述匹配处理模块，用于确定所述查询语句与匹配出的每个详情语句之间的相似度和置信度；所述素材生成模块，用于根据所述相似度和置信度筛选出部分详情语句，作为广告商品的广告文案的文案素材，构成文案素材列表。

又一方面，适应本申请的目的之一而提供的一种计算机设备，包括中央处理器和存储器，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本申请所述的文案素材提取方法的步骤。

又一方面，适应本申请的另一目的而提供的一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的文案素材提取方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

又一方面，适应本申请的另一目的而提供的一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述文案素材提取方法的步骤。

相对于现有技术，本申请具有多方面的优势，至少包括如下各方面：

首先，本申请一方面利用待发布到广告系统的广告商品的商品标题及品类标签构造出查询语句，另一方面根据商品标题和/或品类标签召回文案短语，并根据召回的文案短语从广告商品的详情文本中获取其中的详情语句，进而，根据查询语句与各个获取的详情语句之间的相似度和置信度，综合确定每个详情语句对应的信息贡献价值，筛选出一部分作为文案素材，从而确保所召回的文案素材是能够对应表达广告商品的商品特征的文字内容，可提升广告商品的广告文案的撰写效率和表达能力，实现广告文案辅助创作。

其次，在本申请制备文案素材的过程中，主要根据查询语句与详情语句的语义关系同步确定两者之间的相似度和置信度，其中的相似度指示了广告商品中的商品标题和品类标签与详情语句之间的相关程度，可以表征该详情语句对该广告商品的商品特征所进行的描述的密切程度，而置信度主要基于详情语句，可用于指示该条语句是否适宜作为推广文案，参考相似度和置信度筛选出的文案素材，能够有效表征每个详情语句对于广告商品的广告文案的信息贡献价值，方便衡量各个详情语句的优劣，从而能够有效地为广告商品精选出其商品详情文本中的优质语句。

此外，广告商品的详情文本中的详情语句，是根据文案短语匹配出的，而文案短语本身是根据商品标题及品类标签匹配出的，因而，文案短语起到了扩大广告商品的商品标题和品类标签的语义的作用，由此匹配出的内容更为丰富的文案短语，能够确保后续从详情文本中匹配出更全面的详情语句，实现数据查全，确保不至于遗漏有效的详情语句，后续根据各个详情语句相对应的相似度和置信度进行筛选，则可实现数据查准，因而，所确定的文案素材既全面又精准。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本申请的文案素材提取方法的典型实施例的流程示意图。

图2为本申请实施例中详情语句召回过程的流程示意图。

图3为本申请实施例中构建短语库的流程示意图。

图4为本申请实施例中确定详情语句的相似度与置信度的流程示意图。

图5为本申请示例性的文本匹配分类模型的网络架构示意图。

图6为本申请实施例中文本匹配分类模型的训练过程的流程示意图。

图7为本申请实施例中对精选文案素材的流程示意图。

图8为本申请实施例中发布广告过程的流程示意图。

图9为本申请的文案素材提取装置的原理框图；

图10为本申请所采用的一种计算机设备的结构示意图。

具体实施方式

下面详细描述本申请的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的，仅用于解释本申请，而不能解释为对本申请的限制。

本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。

本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解，这里所使用的“客户端”、“终端”、“终端设备”既包括无线信号接收器的设备，其仅具备无发射能力的无线信号接收器的设备，又包括接收和发射硬件的设备，其具有能够在双向通信链路上，进行双向通信的接收和发射硬件的设备。这种设备可以包括：蜂窝或其他诸如个人计算机、平板电脑之类的通信设备，其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备；PCS(PersonalCommunications Service，个人通信系统)，其可以组合语音、数据处理、传真和/或数据通信能力；PDA(Personal Digital Assistant，个人数字助理)，其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global PositioningSystem，全球定位系统)接收器；常规膝上型和/或掌上型计算机或其他设备，其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“客户端”、“终端”、“终端设备”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的，或者适合于和/或配置为在本地运行，和/或以分布形式，运行在地球和/或空间的任何其他位置运行。这里所使用的“客户端”、“终端”、“终端设备”还可以是通信终端、上网终端、音乐/视频播放终端，例如可以是PDA、MID(Mobile Internet Device，移动互联网设备)和/或具有音乐/视频播放功能的移动电话，也可以是智能电视、机顶盒等设备。

本申请所称的“服务器”、“客户端”、“服务节点”等名称所指向的硬件，本质上是具备个人计算机等效能力的电子设备，为具有中央处理器(包括运算器和控制器)、存储器、输入设备以及输出设备等冯诺依曼原理所揭示的必要构件的硬件装置，计算机程序存储于其存储器中，中央处理器将存储在外存中的程序调入内存中运行，执行程序中的指令，与输入输出设备交互，借此完成特定的功能。

需要指出的是，本申请所称的“服务器”这一概念，同理也可扩展到适用于服务器机群的情况。依据本领域技术人员所理解的网络部署原理，所述各服务器应是逻辑上的划分，在物理空间上，这些服务器既可以是互相独立但可通过接口调用的，也可以是集成到一台物理计算机或一套计算机机群的。本领域技术人员应当理解这一变通，而不应以此约束本申请的网络部署方式的实施方式。

本申请的一个或数个技术特征，除非明文指定，既可部署于服务器实施而由客户端远程调用获取服务器提供的在线服务接口来实施访问，也可直接部署并运行于客户端来实施访问。

本申请中所引用或可能引用到的神经网络模型，除非明文指定，既可部署于远程服务器且在客户端实施远程调用，也可部署于设备能力胜任的客户端直接调用，某些实施例中，当其运行于客户端时，其相应的智能可通过迁移学习来获得，以便降低对客户端硬件运行资源的要求，避免过度占用客户端硬件运行资源。

本申请所涉及的各种数据，除非明文指定，既可远程存储于服务器，也可存储于本地终端设备，只要其适于被本申请的技术方案所调用即可。

本领域技术人员对此应当知晓：本申请的各种方法，虽然基于相同的概念而进行描述而使其彼此间呈现共通性，但是，除非特别说明，否则这些方法都是可以独立执行的。同理，对于本申请所揭示的各个实施例而言，均基于同一发明构思而提出，因此，对于相同表述的概念，以及尽管概念表述不同但仅是为了方便而适当变换的概念，应被等同理解。

本申请即将揭示的各个实施例，除非明文指出彼此之间的相互排斥关系，否则，各个实施例所涉的相关技术特征可以交叉结合而灵活构造出新的实施例，只要这种结合不背离本申请的创造精神且可满足现有技术中的需求或解决现有技术中的某方面的不足即可。对此变通，本领域技术人员应当知晓。

本申请的一种文案素材提取方法，可被编程为计算机程序产品，部署于客户端或服务器中运行而实现，例如，本申请的示例性应用场景中，可以在电商平台的服务器中部署实现，藉此可以通过访问该计算机程序产品运行后开放的接口，通过图形用户界面与该计算机程序产品的进程进行人机交互而执行该方法。

请参阅图1，本申请的文案素材提取方法在其典型实施例中，包括如下步骤：

步骤S1100、获取广告商品的标题文本及品类标签，构造为查询语句；

电商平台通常配备有广告系统，通过向各个线上店铺的商家用户开放相应的广告发布接口，通过该广告发布接口获得任意店铺的商家用户向广告系统投放的广告相对应的广告文案及广告配置信息，将其提交到广告系统自有的广告发布渠道或第三方的广告发布渠道向公众展示。

本申请中，所述广告文案主要包括广告文本，其由自然语言表述而成，可以为任意语种的文字。每个所述店铺可以对应部署于电商平台的一个独立站点中。每个店铺可以上架大量的商品，用户可以通过进入店铺访问其中的任意商品的交易页面进行下单和支付等操作，从而实现电商交易。每个店铺可以向所述的广告系统投放其店铺中任意商品相对应的广告，这样的商品可称为广告商品，在发布广告过程中提供广告商品相对应的广告文案，通过所述广告发布接口提交至所述的广告系统实现发布。

线上店铺的商品信息库中，存储有其上架的每个商品的商品信息，包括但不限于商品所归属的品类标签、起主要提示作用的商品标题、起对商品信息进行综合介绍作用的详情文本等，其中，商品标题一般是较为精简的词汇的组合，通常由商品特性相对应的多个关键词构成，商品详情文本的篇幅较为详尽，从不同方面不同细节对商品的特性展开描述。

所述的品类标签，是商品对应到电商平台预设的品类体系中的具体品类相对应的标识符。具体而言，电商平台的店铺，通常均构建有商品的品类体系，用于分门别类归纳店铺内的海量商品。所述品类体系可以是多层级分类体系，即包含多个分类层级，每个分类层级包含多个具体品类。品类体系的构建，可由电商平台统一提供模板，由商家用户自行修订确定。

所述广告文案中，可以借助相应语种的文字描述广告商品对应的商品特性及其他广告信息。所述商品特性可以包括广告商品的名称、品牌、特点、功能、参数、属性等有助于让观众认知该商品的任意信息。一种实施例中，用于描述商品特性的文字内容可以是广告商品的详情文本中的一个独立语句即详情语句，也可以是基于这样的详情语句进一步优化编辑但不改变其主要意思的替换语句。

当商家用户需要为其线上店铺的目标商品制作广告文案以实现广告发布目的时，可以调用电商平台提供的广告发布接口，将该目标商品指定为广告商品。广告系统在服务器侧接收到用户指定的广告商品后，可以从商品信息库中调用该广告商品的商品标题、品类标签以及详情文本等具体信息。进一步，先将商品标题与品类标签进行拼接，构造为查询语句，以便后续以该查询语句为广告商品推荐文案素材。一个实施例中，在构造查询语句之前，可先对商品标题进行文本预处理，例如去除停用词，去除无效字符等。至于所述商品标题与品类标签的拼接顺序，可按需设置，只要保持统一拼接规则处理即可。

步骤S1200、根据所述标题文本和/或品类标签相匹配的文案短语，召回与文案短语相匹配的源自广告商品的详情文本中的详情语句；

本申请为品类体系中的每个品类预备有对应的短语库，通过广告商品的品类标签可以确定对应品类的短语库，每个短语库收藏采摘自历史广告的广告文案的文案短语。一个实施例中，所述文案短语可由两个以上词元构成，这些词元可以是与广告商品属于同品类的商品的历史广告文案中的相同或不同词性的关键词。所述词性可以由名词加上名词、动词或形容词任意之一。不难理解，文案短语是从历史广告文案中精选出来的局部短语，具有一定的信息参考作用。

进一步，可根据所述标题文本、品类标签任意之一或其结合，从所述短语库中匹配出多个文案短语，通常可采用语义匹配的方式获取。一种实施例中，分别以标题文本和品类标签对短语库实施多通道召回，采用文本特征提取模型分别获得标题文本、品类标签相对应的特征向量，然后根据所述特征向量分别与短语库中的各个文案短语进行语义匹配，确定出匹配程度(相似度)达到预设阈值的文案短语，从而实现对文案短语的召回。

实现对文案短语的召回，本质上是基于广告商品的商品标题和品类标签扩大了其语义范围，所以，所述文案短语可进一步用于从广告商品的详情文本中匹配出其中的详情语句，以便利用扩大后的语义范围实现对广告商品的详情文本中的详情语句的查全。

一种实施例中，因应根据文案短语匹配出广告商品的详情文本中的详情语句所需，可先以自然标点符号为分隔标识，将详情文本分为多个独立的自然语句，即详情语句，构成一个语句列表候匹配。以语句列表为基础，便可根据每个文案短语与语句列表中的每个详情语句进行语义匹配，实现对其中相匹配的详情语句的召回。

不难理解，当利用从短语库中匹配出来的每一个文案短语从详情文本中匹配出相应的详情语句，实际上也是根据商品标题和/或品类标签获得其语义相匹配的详情语句，两者虽然通过文案短语作为媒介，但仍然具有语义上的关联性。

步骤S1300、确定所述查询语句与匹配出的每个详情语句之间的相似度和置信度；

由商品标题和品类标签构成的查询语句，其与从详情文本中召回的每个详情语句之间的关联密切程度，可以通过两者在语义上的相似度来表征，使得相似度越高，表示相应的详情语句与商品标题更加呼应，也就更能表示相应的广告商品的商品特性；相似度越低，表示相应的详情语句与商品标题的呼应程度较低，从而相对未能有效描述广告商品的商品特性。

一种实施例中，允许为相似度的确定设置多个表示不同密切程度等级的类别，可依相似度高低而映射到不同类别，后续方便通过类别筛选快速过滤部分相似度较低的详情语句。

所述相似度的确定，可采用神经网络模型实施，通过提取查询语句、详情语句或其结合的特征向量来计算，所述神经网络模型优选循环神经网络模型(RNN)，例如LSTM(长短期记忆循环神经网络)、BiLSTM(双向长短期记忆循环神经网络)、Transformer、Bert、SimCSE等。所述神经网络模型可根据本申请所揭示的原理，预先采用足量对应的训练样本将其训练至收敛状态，从而使得其习得根据给定的查询语句、详情语句或其结合对应确定相似度的能力。

为此，一种实施例中，可以采用两个同构的基础神经网络模型搭建双塔模型，通过两个基础神经网络模型分别对查询语句和详情语句提取特征向量并进行拼接获得综合特征向量后，进一步分类映射获得映射到预设类别的分类概率作为相似度；另一实施例中，可实现为采用单个基础神经网络模型利用查询语句与详情语句的结合文本进行特征提取获得综合特征向量后做分类映射获得映射到预设类别的分类概率作为所述的相似度。

所述查询语句与所召回的每个详情语句之间的置信度，主要用于表征该详情语句是否适于推广，置信度越高，表示相应的详情语句能为广告商品的广告文案带来更高的信息贡献价值，置信度越低，则表示详情语句为广告商品的广告文案带来的信息贡献价值也相应越低。

所述置信度的确定，同理可采用神经网络模型实施，通过提取查询语句、详情语句或其结合的特征向量来计算，所述神经网络模型优选循环神经网络模型(RNN)，例如LSTM(长短期记忆循环神经网络)、BiLSTM(双向长短期记忆循环神经网络)、Transformer、Bert、SimCSE等。所述神经网络模型可根据本申请所揭示的原理，预先采用足量对应的训练样本将其训练至收敛状态，从而使得其习得根据给定的查询语句、详情语句或其结合对应确定置信度的能力。

为此，一种实施例中，可以采用两个同构的基础神经网络模型搭建双塔模型，通过两个基础神经网络模型分别对查询语句和详情语句提取特征向量并进行拼接获得综合特征向量后，进一步分类映射获得映射到预设类别的分类概率作为置信度；另一实施例中，可实现为采用单个基础神经网络模型利用查询语句与详情语句的结合文本进行特征提取获得综合特征向量后做分类映射获得映射到预设类别的分类概率作为所述的置信度。

根据以上关于相似度和置信度的实现原理可以理解，相似度和置信度的确定，可以同步实现，因而在一种实施例中可以并行确定，也即所述相似度与置信度对应每个详情语句同步确定，从而提升相似度和置信度的确定效率。并且，实际上，相似度与置信度的确定可以基于相同的模型架构来确定，因而，一种实施例中，计算相似度和置信度的神经网络模型架构，采用同一神经网络模型架构，但在最后获得查询语句与详情语句的综合特征向量后，将其分成两个支路，分别进行基于相似度和置信度的分类映射，获得相应的相似度和置信度即可。

不难理解，这样的模型架构可以通过联合训练至收敛状态来实现制备，使其习得根据给定的查询语句和详情语句同步确定出两者相对应的相似度和置信度的能力即可。在联合训练的过程中，适应性采用相似度和置信度对应的监督标签对各个支路计算损失值，再以两个支路的损失值的和值对整个模型架构实施梯度更新即可。由此可见，对于联合输入的查询语句和详情语句，可以一次性同步确定出两者之间的相似度和置信度，从而确定出所述详情语句与所述查询语句中的商品标题、品类标签的语义密切程序，以及所述详情语句适于投放广告的可推广程度。

为了使所述相似度能够实现对查询语句和详情语句之间的语义关联密切程度的表征，可以使用预标注的训练样本实施，由人工根据训练样本中的查询语句和详情语句之间的实际关联而设定对应的监督标签即可。

同理，为了使所述置信度能够实现对详情语句的可推广程度进行表征，也可预先对所述训练样本进行人工标注，根据相应的训练样本对应的广告文案是否带有能够满足消费者所关注的一些收益之类的信息给定相应的监督标签即可。

至此可知，针对每个召回的详情语句，均可根据以上原理，通过与所述查询语句相联合，确定出每个详情语句相对应的相似度和置信度。

步骤S1400、根据所述相似度和置信度筛选出部分详情语句，作为广告商品的广告文案的文案素材，构成文案素材列表。

每个召回的详情语句均获得其对应的相似度和置信度后，便可利用相似度和置信度进一步对召回的详情语句进行排序。排序的方式可以有多种。例如：

一种实施例中，针对每个详情语句，求取所述相似度与所述置信度的加权结果，利用加权结果对详情语句进行排序。

另一实施例中，将相似度作为主索引，将置信度作为次索引，对详情语句进行多索引排序。

无论如何，均可在相似度和置信度的帮助下，实现对召回的详情语句的精排序，在排序后，根据期望的预设数量，选取出排序优先的相应部分详情语句，不难理解，排序优先的详情语句一般是相似度、置信度相对较高的详情语句，将这些详情语句作为广告文案所需的文案素材，构成一个文案素材列表，可推送至用户的终端设备处显示，供用户引用以创作相应的广告文案。

根据以上实施例，可以看出，本申请具有多方面的优势，至少包括如下各方面：

根据以上任意实施例扩展的实施例中，请参阅图2，所述步骤S1200、根据所述标题文本和/或品类标签相匹配的文案短语，召回与文案短语相匹配的源自广告商品的详情文本中的详情语句，包括：

步骤S1210、将广告商品的详情文本进行分句，获得由详情文本中各个详情语句构成的语句列表；

广告商品的详情文本中可能包含干扰信息，例如HTML标签、表情字符等、标点符号等，可先对其进行数据清洗，去除以上的一种或多种干扰信息或其他干扰信息，然后，借助NLTK(Natural Language Tool Kit，自然语言工具包)所提供的专用于实现分句的tokenizer函数，对数据清洗后的详情文本进行分词，由此便获得一个语句列表，该语句列表中包含多个从所述详情文本中提取的独立语句，这些独立语句即为详情语句。

步骤S1220、根据所述标题文本和/或品类标签，从所述品类标签相对应的短语库中匹配出多个文案短语，构成短语列表，所述文案短语包括多个具有独立词性的词元；

本实施例中，可以从与广告商品的品类标签相对应的短语库中，实施两个以上的召回通道相对应的召回操作，这些召回操作包括单独根据标题文本实施召回、单独根据品类标签实施召回、以及分别根据标题文本和品类标签实施召回。

在实施多通道召回之前，可先将短语库中的文案短语、广告商品的商品标题、品类标签等待处理文本，借助开源框架Sentence Transformers所提供的预训练好的各种神经网络模型，包括但不限于：BERT、RoBERTa、XLM-RoBERTa、MPNet等，采用此类神经网络模型将所述各种待处理文本进行词嵌入并转换为高维的特征向量。

在所述文案短语、广告商品的商品标题、品类标签均具有其特征向量的基础上，便可采用预设的数据距离算法，通过计算商品标题、品类标签与每个文案短语之间的数据距离来确定彼此之间的相似度。所述数据距离算法可以是余弦相似度算法、欧氏距离算法、杰卡德系数算法、皮尔逊系数算法中任意一项或任意多项。在每个召回通过中确定短语库中各个文案短语的相似度后，便可根据预设阈值或者预设数量，选取出相似度较高的部分文案短语，将其构造为短语列表。短语列表中的各个文案短语，便是根据商品标题、品类标签召回所得的文案短语。如前所述，文案短语包括多个具有独立词性的词元。

步骤S1230、计算短语列表中的每个文案短语分别与语句列表中的各个详情语句的相似度，根据相似度筛选出与每个文案短语构成语义匹配的详情语句。

通过前一步骤，根据广告商品的商品标题、品类标签实现语义扩展，根据语义扩展后的语义范围，获得短语列表之后，便可利用短语列表中的每个文案短语从广告商品的详情文本相对应的语句列表中召回其中的部分详情语句，以便对详情文本中的详情语句实现数据查全。

同理，所述语句列表中各个详情语句，也可以前一步骤相同的神经网络模型对其生成高维的特征向量，然后，与前一步骤中召回文案短语的操作同理，利用所述短语列表中的每个文案短语，与所述语句列表中的每个详情语句计算数据距离确定其相对应的相似度，然后根据相似度筛选出与每个文案短语相似度较高的详情语句，这些被召回的详情语句，便是与短语列表中的文案短语在语义相匹配的详情语句。

根据以上实施例可知，在从广告商品的详情文本中召回广告商品相对应的详情语句的过程中，先借助广告商品的品类标签对应的短语库召回部分文案短语，这些文案短语与广告商品的商品标题、品类标签是语义相匹配的，因而通过这些文案短语实现对广告商品的商品标题和品类标签的语义扩展，然后，再根据这些文案短语进一步从广告商品的详情文本中召回详情语句，从而避免遗漏关键信息，实现数据查全。这个过程中，均可基于特征向量进行语义匹配，运算效率也相对较高。

根据以上任意实施例扩展的实施例中，请参阅图3，所述步骤S1220、根据所述标题文本和/或品类标签相匹配的文案短语之前，包括：

步骤S2100、从广告系统中与品类标签相对应的已投放广告的广告文案中提取多个文案短语构成候选短语，所述文案短语根据预设的多个短语构造提取，所述短语构造包括多个有序排列的词性标签，其中至少包含一个表示名词的词性标签，该词性标签相对于其他词性标签后置；

本申请中与电商平台的品类体系的各个品类相对应的短语库，其中的文案短语可以从电商平台相关联的广告系统中历史投放广告的同品类商品的广告文案中提取制备。为此，对于每个线上店铺而言，其每个品类标签相对应的短语库所需的广告文案，便是这个品类标签相对应的商品所使用的广告文案。从这些广告文案中按照预设规则提取出的文案短语，便可用于构造相应品类的短语库。

一种实施例中，预先提供词性结构信息，词性结构信息用于定义需要从广告文案中提取出的文案短语的词元构造规则，所以可以通过包括多个短语构造来表示，示例而言，短语构造按照如下形式表示：

名词&名词

形容词&名词

动词&名词

可以看出，每个短语构造包括多个有序排列的词性标签，用于表示将相同(名词&名词)或不同词性(形容词&名词，动词&名词)的词元组合为文案短语。考虑到自然语言习惯中，商品名词相对于形容词、动词等后置的习惯，在短语构造中也可将名词相对应的词性标签置于语序的末尾位置处。

对于每个广告文案而言，为了从其中获得文案短语，可以先应用预设的分词方式，例如采用N-Gram算法、Jieba分词器等对其进行分词，同时，借助预设的词性提取器或者其他预设的用于实现词性标注的神经网络模型对各分词进行词性标注，获得各个分词相对应的词性。

一种实施例中，用于实现词性标注的神经网络模型，可以采用LSTM(Long Short-Term Memory，长短期记忆循环神经网络)或Bert(Bidirectional EncoderRepresentation from Transformers，基于转换器的双向编码表征)之类的文本特征提取器结合条件随机场CRF来实现。

一种实施例中，在对所述广告文案进行分词时，可以先采用尺度较小的滑动窗口来取词，例如采用两个单字长度，所述单字，对于中文而言，是单个汉字，对于英文之类的表音语种而言，可以是单词。通过以较小的滑动窗口取词来获得广告文案的分词，在此基础上进行词性标注，标注了词性的分词可作为词元使用。

一种实施例中，可以借助N-Gram算法，多次加大对广告文案分词的滑动窗口进行分词，例如将该滑动窗口分别设置为四字词或五字词，从而获得所述广告文案中的多个候选短语，不难理解，这些候选短语中可以包含以更小滑动窗口获得的分词(二字词、三字词等)，这些分词均已确定了其相应的词性。

另一实施例中，可以根据所述的短语构造，根据短语构造中不同词性的组合关系的规范，参照广告文案中各个分词的顺序关系，将各个分词作为词元进行相邻组合，从而获得多个候选短语。

对于每个广告文案，获得其相应的多个候选短语之后，便可根据所述词性结构信息中的各个短语构造，对各个候选短语进行一一匹配，当一个候选短语的词元组合关系匹配一个短语构造时，便将该候选短语确定为文案短语，否则将该候选短语舍弃。经过与候选短语匹配之后，便可从一个广告文案的多个候选短语中匹配确定出相应的文案短语，可存储于相应品类的短语库中。一种实施例中，在进行短语构造的匹配之前，还可进一步对各个候选短语进行去重处理，先对各个候选短语提取词干，然后将词干相同的候选短语去重，只保留一个。

步骤S2200、参考候选短语所在的品类、店铺、广告确定每个候选短语的信息贡献评分；

为了明晰文案短语在广告信息中的信息贡献价值，可以为所述的文案短语确定其信息贡献评分，所述的信息贡献评分本质上是一个推荐度，可以参考从广告系统中获取的已投放的广告的广告文案来确定，通过信息贡献评分实现对各个文案短语的信息参考价值的量化。

在确定所述信息贡献评分时，根据文案短语相对应的品类、店铺、广告三者关联确定每个文案短语的信息贡献评分。

对于品类维度，由于各个文案短语在每个品类的商品的广告文案中使用的频度会有所不同，因而，对于一个品类而言，该品类之下的各个文案短语在该品类下的广告文案中的使用频率也有所不同，也即是说，在一个品类相对应的短语库中，各个文案短语被使用的频度也是不同的，意味着各个文案短语的受欢迎程度是不同的，根据这种原理，针对每个短语库，便可量化确定出其中各个文案短语相对应的品类维度评分，用于表征文案短语在相应的品类下的广告文案中的信息贡献价值。

对于店铺维度，每个店铺在同一品类商品的广告文案中使用同一文案短语的喜好程度不同，因而，即使在同一品类相对应的短语库中的各个文案短语，其在一个店铺中使用的频度较高，而在同品类的广告文案所归属的其他店铺中使用的频度可能较低，该文案短语在前者店铺中获得的新鲜程度显然高于后者店铺。由此可知，即使是同一文案短语和同一品类，其对应不同店铺的信息贡献价值也是不同的，可以根据这种原理，针对每个品类的短语库中的每个文案短语，量化确定出其对于每个店铺的店铺维度评分，用于表征文案短语在发布同品类的广告文案的店铺中对于特定店铺的信息贡献价值。

对于广告维度，由于每个广告均会产生相应的成效数据，每个广告采用一个对应的广告文案，每个广告文案中包含一个或多个文案短语，这些文案短语存储于该广告文案对应的商品的品类相对应的短语库中，因而，每个短语库中的每个文案短语，可以根据其所属的广告文案而获得对应的成效数据，针对这些成效数据进行统计，可以获得每个文案短语相对应的广告维度评分，用于表征文案短语在同品类的广告文案的成效数据中的信息贡献价值。所述广告成效数据，包括但不限于：点击通过率(CTR，Click Through Rate)、收藏率、加购率、转化率(CVR，Conversion Rate)、投入产出比(ROAS，Return On AdvertisingSpend)等。

获得文案短语的品类维度评分、店铺维度评分、广告维度评分之后，便可以为每个品类的短语库中的每一文案短语，对应各个店铺确定其信息贡献评分。示例而言，对于每个店铺，计算每个短语库的每个文案短语的信息贡献评分时，将该文案短语相对应的品类维度评分、该文案短语相对于当前店铺的店铺维度评分，以及该文案短语相对应的广告维度评分进行汇总，汇总方式可以采用求和、求均值、求加权和等任意方式，即可获得该文案短语在当前店铺中获得的信息贡献评分。

可见，对于每个文案短语，只要给定的店铺和品类不同，其所获得的信息贡献评分便不同，也即，本实施例采用统一的处理过程，完成了每个文案短语相对于特定品类、特定店铺下获得的信息贡献评分，因此，实现了对各个店铺的文案短语的个性化定制。其中除受按品类划分短语库的影响之外，主要是受店铺维度评分的影响，使得每个文案短语均关联于店铺对文案短语的喜好而确定其最终的信息贡献评分。

不难看出，文案短语的信息贡献评分，给定了品类、店铺、广告等各方面的信息贡献价值，且实现与店铺的个性化对应评分，具有高效表征其实际信息价值的作用。

步骤S2300、根据信息贡献评分筛选部分候选短语，保留存储为短语库的文案短语。

所述短语库中的各个文案短语均有其对应的信息贡献评分，但该评分有高有低，可以根据预设阈值或者预设数量，对前文所确定出来的候选短语进行择优，选取出信息贡献评分高于预设阈值，或者根据信息贡献评分倒排序靠前的预设数据的多个候选短语作为最终的文案短语，利用最终的文案短语构造出所述的短语库。

以上实施例从广告系统投放的历史广告的广告文案中提取出由两个词元以上构成的文案短语，构造出短语库，然后结合品类维度、店铺维度以及广告成效相对应的广告维度，对各个文案短语进行综合评分，获得各个文案短语在约束了店铺和品类条件下的信息贡献评分，最后，根据信息贡献评分对文案短语进行过滤，实现文案短语的优选，获得最终的短语库。该短语库中的文案短语，具有表征历史广告文案中的高价值的遣词造句的作用，可以为后续确定详情语句提供语义参考。

一种实施例中，可以品类为维度，根据所述文案短语在其同品类的广告文案中的出现比例确定每个文案短语的品类维度评分；

首先，统计每个文案短语在其同品类商品的广告文案中使用的词频，及所述同品类商品的广告文案的文案数量，将所述词频与所述文案数量的比值确定为相应的文案短语的出现比例；

先以每个品类为独立单位，统计每个品类j对应的短语库中的每个文案短语w，在其品类相对应的所有已投放广告的广告文案中的出现次数，也即其词频freqency_{w_j}。

然后统计出所述品类相对应的所有已投放广告的广告文案的文案数量count_j，于是，便可获得每个文案短语在所有已投放广告的广告文案中的出现比例Ratio_{w_j}，即：

Ratio_{w_j}＝freqency_{w_j}/count_j

继而，将每个品类相对应的所有文案短语的出现比例按品类进行归一化，获得各个文案短语在相应的品类下的品类维度评分。

可以对每个品类的短语库中的所有文案短语的出现比例进行归一化，实现数值规范，将各个出现比例的统计量纲调整到[0,1]的数值空间。一种实施例中，应用softmax函数进行归一化，对每个品类下的各个文案短语的出现比例进行转换，公式示例如下：

其中k表示文案短语所属的品类，j表示所有品类中的任一个品类。

经过转换之后，每个品类下的各个文案短语均可获得其相应的品类维度评分ScoreCategory_w。

不难理解，品类维度评分以每个文案短语在其同品类广告文案中的出现比例转换而得，从品类的视角量化了每个文案短语在同类商品的广告文案中的信息贡献价值。

一种实施例中，当需要确定一个文案短语的店铺维度相对应的店铺维度评分时，可参照如下过程实现：

首先，以店铺为单位，分别统计各个品类下，每一店铺已投放广告的广告文案中各个文案短语在该店铺已投放广告的广告文案中的词频；

每个店铺中包含多个品类相对应的商品，因而也可能投放不同品类的商品的广告，从而，每个品类将可能包含多个广告文案，据此，可以基于本店铺内，统计确定本店铺使用的每个文案短语在本店铺的已投放广告的多个同品类商品的广告文案中的出现次数，即其词频freqency_{w_j_s}。可见，这里的词频不仅关联了文案短语所在的短语库所属的品类，而且也关联了源自本店铺的广告文案，结合两者统计获得。

继而，对于每一文案短语，确定其词频高于预设阈值相对应的店铺为已使用店铺，确定投放过每品类商品的广告的同品类店铺总量和已使用店铺总量；

对于每一文案短语而言，如果一个店铺对其使用次数低于一定的程度，相对来说，该店铺对该文案短语的引用程度便相对较弱，因而，可以借助一个预设阈值来确定高频使用所述文案短语的店铺。所述预设阈值可以是经验阈值或实测阈值，可由本领域技术人员按需设定。具体而言，对于每个店铺，将其所使用的每个文案短语的词频与所述预设阈值相比较，当词频高于预设阈值时，便将本店铺确定为高频使用该文案短语的已使用店铺，而对于词频未高于预设阈值的情况，可将本店铺确定为低频使用该文案短语的未使用店铺。

对于每个品类下的每个文案短语，均可按照以上原理确定其相对应的已使用店铺，于是可以确定出已使用店铺总量Store_{used_j}。此外，对于所有为同一品类j的商品投放过广告的店铺，可将其确定为投放过该品类商品的广告的同品类店铺，进而可以确定同品类店铺总量Store_{all_j}。

进而，将每个店铺下的每个文案短语的词频乘以同品类店铺总量与已使用店铺总量的比值，获得店铺维度下所述文案短语的新鲜度；

对于每个店铺而言，其在一个品类中使用的一个文案短语，当同样在同品类店铺总量既定的情况下，如果使用该文案短语的已使用店铺总量越高，则表示其新鲜度越低，反之，其新鲜度相对较高，其对于本店铺用于区别其他店铺所起的作用越高，由此，通过同品类店铺总量与已使用店铺总量的比值可以确定每个文案短语被广泛使用的程度，进一步，可应用如下公式用于确定每个店铺、每个品类下的每个文案短语的新鲜度ScoreStore_w：

其中，1为用于避免分母为零的正则项，也可以是任意极小数，文案短语的词频freqency_{w_j_s}在此处可视为调节权重，不难理解，词频越高，文案短语的新鲜度便相对较高，表明店铺不仅区别于其他店铺经常高频使用该文案短语，很可能是该店铺区别于其他同行店铺的常用词。

最后，将每个店铺相对应的所有文案短语的新鲜度按品类进行归一化，获得各个文案短语在相应店铺相应品类下的店铺维度评分。

为了便于计算信息贡献评分，进一步，应用最大最小规范化处理方式，对每个店铺相对应的所有文案短语的新鲜度按品类进行归一化处理，便获得每个店铺在各个品类下的每个文案短语的店铺维度评分，为便于理解，后续仍以ScoreStore_w表示所述的店铺维度评分。

可以看出，通过以上过程实现对各个品类的短语库的文案短语对应于各个使用过该文案短语的店铺所获得的店铺维度评分的确定，基于从所述广告系统中获取的同一广告文案集实现了针对各个店铺确定该店铺所使用过的文案短语的店铺维度评分，对于每一个店铺而言，其针对每个文案短语所获得的店铺维度评分是个性化的，关联了本店铺对该文案短语的使用频度和该文案短语被广泛使用的程度，具有新鲜度表征作用，从店铺使用新鲜度的视角出发量化了文案短语的信息贡献价值。

一种实施例中，以广告为维度，根据每个文案短语在包含该文案短语的同品类的广告文案获得的成效数据的平均成效数据确定每个文案短语的广告维度评分，具体可参照如下过程实现：

首先，确定每个文案短语相对应的包含该文案短语的同品类商品的广告文案；

可以短语库为单位，在广告系统获得的广告文案集中，确定该短语库所属的品类相对应的广告文案，更具体的，对于该短语库中的一个文案短语而言，根据该短语库所对应的品类，确定出同品类商品的广告文案中，使用过该文案短语的广告文案，这些广告文案便是该文案短语相对应的同品类广告文案。

继而，从广告系统中调用每个文案短语相对应的同品类的广告文案的成效数据；

对于每个文案短语所确定出的使用过该文案短语的广告文案，进一步可从广告系统中调用其相对应的成效数据。

进而，对每个文案短语的同品类的广告文案的成效数据求均值获得每个文案短语在相应品类下的平均成效数据；

对于每个文案短语，将其确定出的同品类广告文案的成效数据求均值，便可获得每个文案短语在相应品类下的平均成效数据。例如，所述的成效数据可以优选为点击通过率CTR，于是，可获得每个文案短语相对应的平均点击通过率CTR_aveage。

最后，对每个文案短语的平均成效数据按品类进行归一化，获得每个品类下各个文案短语的广告维度评分。

为了便于计算信息贡献评分，进一步，应用最大最小规范化处理方式，对每个文案短语的平均成效数据按品类进行归一化处理，便获得每个品类下的每个文案短语的广告维度评分ScoreCTR_w。

可以看出，通过以上过程，关联文案短语所属的品类，根据同品类的广告文案的成效数据量化获得各个文案短语相对应的广告维度评分，该广告维度评分具有表征采用该文案短语的广告文案所获得的广告成效的作用，从广告成效的视角出发量化了文案短语的信息贡献价值。

一个实施例中，为了实现对各个不同维度获得的评分的综合，根据针对每个店铺中每个品类相对应的短语库中的每个文案短语，将每个文案短语相对应的各个评分进行加权汇总，获得各个文案短语在不同店铺下的信息贡献评分Score_w，示例性的公式如下：

Score_w＝c₁*ScoreCategory_w+c₂*ScoreStore_w+c₃*ScoreCTR_w

其中，c₁、c₂、c₃分别为文案短语的品类维度评分、店铺维度评分、广告维度评分相对应的预设权重，可由本领域技术人员按需预设。

根据该公式，不难理解，所述信息贡献评分的确定，引入了店铺维度评分，而店铺维度评分是针对每个文案短语在每个店铺的具体情况而确定的，因而，根据该公式所获得的信息贡献评分，实际是根据每店铺确定的。同理，该公式中也包含了品类维度评分，而文案短语本身可能属于不同品类共用，因而，信息贡献评分也需关联文案短语所使用的品类而确定。由此可见，所述的信息贡献评分，是在指定店铺、指定品类的情况下确定出的，在计算一个文案短语的信息贡献评分时，需要以品类和店铺为约束条件，给出相应的品类和店铺，以便调用相对应的品类维度评分和店铺维度评分，与广告维度评分加权汇总获得最终的信息贡献评分。

根据以上原理，每个店铺实际上自有各品类相对应的短语库，各短语库内每个文案短语存储其在本店铺条件下，在各品类相对应的信息贡献评分。

根据以上实施例不难理解，本实施例运用一个标准化的处理过程，基于从广告系统中获得的广告文案所提取的文案短语，不仅从品类的维度量化了各个文案短语的信息贡献价值，也对应每个店铺维度量化了各个文案短语的信息贡献价值。

根据以上任意实施例扩展的实施例中，请参阅图4，所述步骤S1300、确定所述查询语句与匹配出的每个详情语句之间的相似度和置信度，包括：

步骤S1310、将查询语句与匹配出的每个详情语句组成句对，输入预训练至收敛状态的文本匹配分类模型中同步确定出该句对相对应的第一分类空间表征不同匹配程度的各个类别的分类概率和第二分类空间表征是否适于推广的类别的分类概率；

本实施例中，采用预设的文本匹配分类模型用于确定根据文案短语召回的详情语句相对应的相似度和置信度。示例性的文本匹配分类模型如图5所示，其由文本特征提取模型及两个分类器构造，文本特征提取模型以查询语句和详情语句组成的句对为输入，对其进行词嵌入获得嵌入向量，然后根据嵌入向量进行特征抽取，提取出深层语义信息，获得相应的综合特征向量，然后将该综合特征向量分别输入两个分类器进行分类映射，两个分类器分别映射出所述详情语句相对应的相似度和置信度。所述文本特征提取模型优选Bert模型，一种实施例中，查询语句与详情语句之间可以通过添加Bert模型中的[SEP]标签并前置[CLS]构造为模型的输入，并指示模型执行下一句识别任务，形式如：

[CLS]查询语句[SEP]详情语句

所述文本匹配分类模型事先被采用相应预设的数据集中的训练样本训练至收敛状态，使其习得为输入的句对同步确定其相对应的相似度和置信度的能力即可。

所述文本匹配分类模型中，第一分类器可以为多分类器。第一分类器相对应的第一分类空间，可以根据句对中查询语句与详情语句的匹配程度划分匹配等级而设置对应的多个类别，各个类别对应表征查询语句与详情语句之间的语义密切等级，并且，每个类别经分类所得的分类概率，可以作为表征查询语句与详情语句之间的相似度。

示例而言，第二分类空间的类别可以设置为三个，分别表示查询语句与详情语句完全不相关、部分相关、密切相关，借此可以建立详情语句与商品标题的匹配程度LabelMatch的分类评分标准：

LabelMatch＝0，为表征完全不相关的第一类别，表示详情语句不能有效表示广告商品的商品特性，譬如：商品售后、打折促销、工作方式原理、产品养护、物流运输等。

LabelMatch＝1，为表征部分相关的第二类别，首先详情语句能够有效表示商品特性，然后，满足情况1：详情语句表述的是商品的基本功能但不是核心的卖点；和/或，满足情况2：详情语句的表述和广告商品的商品特征部分匹配。

LabelMatch＝2，为表征密切相关的第三类别，详情语句完全符合商品特征，并且能够很恰当很充分地表达出商品的核心卖点。

所述文本匹配分类模型中，第二分类器可以为二分类器。第二分类器相对应的第二分类空间，可以根据句对中查询语句和详情语句是、否适于投放广告实现推广而设置对应的两个类别，每个类别经分类所得的分类概率，可以作为表征是否适于推广相对应之间的置信度。

示例而言，第二分类空间的类别可以设置为两个，分别表示查询语句和详情语句，主要是详情语句，适合或不适合用于作为广告文案的要素，也即相应的详情语句是否适于推广。据此，可以建立详情语句对商品的可推广程度LabelPromote的分类评分标准：

LabelPromote＝1，表示详情语句非常适合作为营销推广的文案，是从商品可以带来的收益、商品使用场景、功能详细参数说明，这三个角度中的一个以上的角度，来介绍商品的功能卖点。

LabelPromote＝0，不满足LabelPromote＝1的语句。

需要指出的是，所述的商品特征，主要是指商品的卖点特性，即具有吸引消费者购买相应商品的信息参考价值的商品描述内容。

步骤S1320、将第一分类空间的表征所述句对中的查询语句与详情语句相匹配的类别的分类概率，确定为该句对中的详情语句对应所述相匹配的类别的相似度；

根据前文所述，文本匹配分类模型设置有多个类别，当一个句对的综合特征向量经过第一分类器处理获得其映射到各个类别的分类概率时，分类概率最大的类别，便是该句对相对应的类别，该类别的分类概率便可作为该句对中的详情语句相对应的相似度。

步骤S1330、将第二分类空间的表征所述句对中的详情语句适于推广的类别的分类概率，确定为该句对中的详情语句对应所述适于推广的类别的置信度；

根据前文所述，当一个句对的综合特征向量经过第二分类器处理获得其映射到各个类别的分类概率时，只需取其正向结果相对应的类别，例如前文示例中LabelPromote＝1相对应的分类概率，即可作为其相应的置信度。

步骤S1340、建立所述匹配出的每个详情语句与其在第一分类空间的类别对应的相似度、在第二分类空间的类别对应的置信度之间的映射关系。

通过将每个详情语句与查询语句构成句对，逐一将每个句对输入文本匹配分类模型中，便可同步确定出每个详情语句相对应的相似度和置信度，将每个详情语句与其相似度、置信度对应建立映射关系，确定映射关系数据，后续便可直接调用。

根据以上实施例，可以看出，借助同一神经网络模型便查同步确定每个详情语句相对应的相似度和置信度，其中的相似度可以用于表征该详情语句是否与查询语句中的商品标题的卖点密切相关，置信度可以用于表征详情语句是否适于推广，不难理解，根据两者的结合，便可更为有效地表示每个详情语句的对于创作广告文案的信息贡献价格，后续可根据两者对详情语句进行优选，为广告商品从其商品详情文本中精准匹配到更能体现推广价值的详情语句。

根据以上任意实施例扩展的实施例中，请参阅图6，所述文本匹配分类模型的训练过程，包括：

步骤S3100、调用预设的数据集中的单个训练样本输入文本匹配分类模型，每个训练样本关联设置第一标签和第二标签，且包括样本查询语句和样本详情语句，样本查询语句包括历史广告商品的商品标题和品类标签，样本详情语句为从所述历史广告商品的详情文本中提取的详情语句，第一标签用于指示所述样本查询语句与样本详情语句之间的多种匹配程度相对应的类别，第二标签用于指示所述样本详情语句是否适于推广相对应的类别；

请继续参考图5所示的所述文本匹配分类模型，如前文所述，其对应设置有两个分支，以便将其文本特征提取模型获得的综合特征映射输出至两个分类器中确定相似度和置信度。这两个分类器相对应的第一分类空间、第二分类空间，根据前一实施例的示例同理，分别设置多个类别和两个分类。

为了训练这样的文本匹配分类模型，使其能够有效求取每个详情语句相对应的相似度和置信度，本实施例中，预备一个数据集，用于对其实施迭代训练，将其训练至收敛而获得其相应的能力。

所述的数据集包括足以将该文本匹配分类模型训练至收敛的训练样本，所述训练样本按照前文所揭示的原理而构造，也即，每个训练样本中，会包括商品的商品标题、品类标签构成的样本查询语句，同时包括从该商品的详情语句中提取的一个样本详情语句，将该样本查询语句与样本详情语句组成句对，即构造出一个训练样本。用于构造训练样本的信息所属的商品，一个实施例中，采用曾在广告系统中投放过广告的商品，即历史广告商品。

为了对训练过程实施监督，每个训练样本对应两个分类器的输出而提供两个监督标签，所述监督标签可以是人工标注的标签，分别是第一标签和第二标签。第一标签对应第一分类器而提供，用于监督第一分类器的输入，其指示训练样本中详情语句在第一分类空间中所应匹配的类别；第二标签对应第二分类器而提供，用于监督第二分类器的输入，其指示训练样本中详情语句在第二分类空间中所应匹配的类别。一个实施例中，在进行人工标注时，可由标注者根据详情语句所起的信息贡献价值做主观评估，确定出其相应的第一标签和第二标签；另一实施例中，可以根据相应的详情语句与查询语句中的商品标题的特征向量间的相似度而确定第一标签，可以根据相应的历史广告商品的广告所取得的广告成效数据的优劣而确定所述的第二标签。

第一分类空间和第二分类空间的类别结构，可以在训练之前预先设置。

步骤S3200、由文本匹配分类模型提取所述训练样本的深层语义信息，根据该深层语义信息同步执行两路分类映射，分别映射至第一分类空间和第二分类空间，获得第一分类空间和第二分类空间中各个类别相对应的分类概率，根据分类概率确定所述训练样本在第一分类空间和第二分类空间相对应的目标类别；

如前所述，文本匹配分类模型通过其内部的文本特征提取模型提取输入其中的训练样本的嵌入向量的深层语义信息，获得其相应的综合特征向量，然后，该综合特征向量分别进入第一分类器和第二分类器相对应的支路，在每个分类器中经过内部的全连接层对应各个分类空间进行分类映射至相应的输出层，由输出层根据预设的分类函数计算出其映射到各个类别相对应的分类概率。从而，第一分类空间、第二分类空间均可获得其各个类别相对应的分类概率。

对于第一分类空间，其分类概率最大的类别，即为训练样本所获得的匹配程度相对应的类别，该分类概率可作为相似度使用。对于第二分类空间也同理，其分类概率最大的类别，也为训练样本是否适于推广相对应的类别，后续在模型推理的阶段可使用表征适于推广的类别相对应的分类概率作为置信度。

步骤S3300、根据第一标签计算第一分类空间的目标类别的损失而获得的第一损失值，根据第二标签计算第二分类空间的目标类别的损失而获得第二损失值，将第一损失值和第二损失值汇总为模型损失值；

为了使文本匹配分类模型收敛，需要针对第一分类空间和第二分类空间的分类结果计算损失值。具体而言，使用训练样本相对应的第一标签，根据第一标签计算第一分类空间中确定的目标类别相对应的第一损失值，同理，使用训练样本相对应的第二标签，根据第二标签计算第二分类空间中确定的目标类别相对应的第二损失值。由此可见，两个标签分别用于计算两个分类器的分类结果，实施分别监督。

为了实现联合训练，在获得第一损失值和第二损失值的基础上，进一步，为第一损失值和第二损失值匹配预设权重进行求和，也即求取两者的加权和值实现损失值的汇总，获得汇总后的模型损失值。至此不难理解，通过追求模型损失值最小化，便可将文本匹配分类模型不断训练至收敛状态。

步骤S3400、根据所述模型损失值判断文本匹配分类模型是否收敛，当未收敛时，对文本匹配分类模型实施梯度更新，继续调用下一训练样本迭代训练。

为了控制文本匹配分类模型的训练过程，提供一个预设阈值，将每个训练样本相对应的模型损失值与该预设阈值进行比较，当模型损失值达至该预设阈值时，表征模型已经收敛，可以终止对模型的迭代训练，将其投入推理阶段使用。当模型损失值未达到该预设阈值时，表明模型未收敛，因而，可以根据该模型损失值对模型反向传播，实现模型各环节权重的梯度更新，使模型进一步逼近收敛，然后，继续从数据集中调用下一训练样本实施对模型的下一迭代的训练。以此类推，直至模型被训练至收敛状态为止。

根据以上的实施例可知，通过在训练阶段提供确定训练样本的相似度、置信度相对应的第一标签和第二标签，对文本匹配分类模型实施联合训练，在训练过程中分别计算相似度、置信度相对应的损失值，并最终汇总计算模型损失值，追求模型损失值的最小化，由此实现让模型能够同步地为句对确定其相应的相似度和置信度，使模型具有给出句对中的详情语句对于广告商品的广告文案创作所起的信息贡献价值量化数据的作用。本实施例中，数据集中训练样本的取材可从电商平台及广告系统中获取，易于批量制备，训练效率较高。

根据以上任意实施例扩展的实施例中，请参阅图7，所述步骤S1400、根据所述相似度和置信度筛选出部分详情语句，包括：

步骤S1410、以所述第一分类空间的类别为主索引，根据所述相似度对所述匹配出的每个详情语句进行第一次倒排序；

第一分类空间中的各个类别本身表征了详情语句与广告商品的关于商品特性方面的语义密切程度，因而，借助其类别标签本身便可实现对其快速过滤。在筛选详情语句的过程中，可以先以每个详情语句在第一分类空间中获得的类别标签LabelMatch为主索引，对各个详情语句进行第一次倒排序，获得第一列表。

步骤S1420、以匹配出的每个详情语句的相似度和置信度的加权和值对第一次排序后的各个详情语句进行第二次倒排序；

每个详情语句的相似度和置信度可以综合表征详情语句的信息贡献价值，因而，可以通过对每个详情语句相对应的相似度和置信度进行加权求和，获得相应的加权和值作为每个详情语句相对应的综合评分，然后根据该综合评分作为次索引，对第一列表中的详情语句进行第二次倒排序，获得第二列表。其中，相似度和置信度相对应的权重可以按需设定。一个实施例中，所述权重可以沿用文本匹配分类模型在训练阶段计算模型总损失值时为第一损失值和第二损失值配置的权重，以便尽量维持信息价值衡量标准的一致性。

步骤S1430、从第二次排序后的各个详情语句中选取排行靠前的预定数量的多个详情语句，作为广告商品的广告文案的文案素材。

不难理解，经过以上两次倒排序所得的第二列表中，质量较优的部分详情语句已经相对靠前排列，已经实现了对利用文案短语从广告商品的详情文本中匹配出的详情语句的精排序，因而，只要按照预定数量，从第二列表中选取相应数量的排行靠前的多个详情语句，这些详情语句便是适合用于制作广告文案的文本素材。

可以看出，以上实施例中，第一分类空间的类别起到对详情文本进行粗排序的作用，突出对详情语句是否表现广告商品的商品特征的重视，在此基础上，利用相似度与置信度的加权和值进行精排序，最后再排序择优使用，所获得的详情语句作为文案素材，优先考虑了其用于表现广告商品的商品特性的密切程度，在同等密切程度的基础上则优先考虑详情语句适于推广的程度，由此确定的文案素材，信息参考价值排序合理，被引用的效率高，能提升广告文案创作的文案素材调用效率和精准度。

根据以上任意实施例扩展的实施例中，请参阅图8，所述构成文案素材列表之后，包括：

步骤S1500、将所述文案素材列表推送至提交所述广告商品的终端设备显示；

从广告商品的详情文本中匹配出的文案素材被构造为文案素材列表之后，可以将该列表推送至提交所述广告商品的终端设备显示，也即响应于用户调用广告发布接口的事件，而为其推送其指定的广告商品相对应的文案素材列表，列表中的文案素材是从该广告商品的详情文本中精选的，方便引导用户将广告商品中的表现商品特性的语句快速摘取出来。

步骤S1600、响应该终端设备提交的广告发布请求，获取对应的广告文案，所述广告文案中包含引用自所述文案素材列表中的文案素材；

当用户在其终端设备引用了文案素材列表中的文案素材并完全其广告的配置后，便可提交广告发布请求，服务器响应该广告发布请求，便可通过该请求获取用户最终提交的广告文案，一般来说，用户会引用所述的文案素材，因而，广告文案中一般会包含所述文案素材列表中的一个或多个文案素材，当然，用户也可能在这些文案素材的基础上做适当的编辑，从而表现为该些文案素材的修订更新版本。

步骤S1700、以该广告文案发布所述广告商品相对应的广告。

服务器获得所述的广告文案后，便将该广告文案发布至广告系统中，通过广告系统发布广告商品相对应的广告，送达相关受众用户的终端设备，接收该广告的受众用户便可阅读到包含相应文案素材的广告文案。

根据以上的实施例可知，本申请能够在用户自行撰写广告文案的过程中，能够根据用户待发布广告的广告商品，从广告商品的详情文本中引用具有信息贡献价值的详情语句，作为文案素材提供给用户调用，有创作启示的作用，能提升广告文案的自主创作效率，引导用户产出优质的广告文案。

请参阅图9，适应本申请的目的之一而提供一种文案素材提取装置，是对本申请的文案素材提取方法的功能化体现，该装置包括查询构造模块1100、语句召回模块1200、匹配处理模块1300，以及素材生成模块1400，其中：所述查询构造模块1100，用于获取广告商品的标题文本及品类标签，构造为查询语句；所述语句召回模块1200，用于根据所述标题文本和/或品类标签相匹配的文案短语，召回与文案短语相匹配的源自广告商品的详情文本中的详情语句；所述匹配处理模块1300，用于确定所述查询语句与匹配出的每个详情语句之间的相似度和置信度；所述素材生成模块1400，用于根据所述相似度和置信度筛选出部分详情语句，作为广告商品的广告文案的文案素材，构成文案素材列表。

根据以上任意实施例扩展的实施例中，所述语句召回模块1200，包括：详情分句单元，用于将广告商品的详情文本进行分句，获得由详情文本中各个详情语句构成的语句列表；短语匹配单元，用于根据所述标题文本和/或品类标签，从所述品类标签相对应的短语库中匹配出多个文案短语，构成短语列表，所述文案短语包括多个具有独立词性的词元；语句筛选单元，用于计算短语列表中的每个文案短语分别与语句列表中的各个详情语句的相似度，根据相似度筛选出与每个文案短语构成语义匹配的详情语句。

根据以上任意实施例扩展的实施例中，根据所述标题文本和/或品类标签相匹配的文案短语之前，包括：短语提取单元，用于从广告系统中与品类标签相对应的已投放广告的广告文案中提取多个文案短语构成候选短语，所述文案短语根据预设的多个短语构造提取，所述短语构造包括多个有序排列的词性标签，其中至少包含一个表示名词的词性标签，该词性标签相对于其他词性标签后置；短语评分单元，用于参考候选短语所在的品类、店铺、广告确定每个候选短语的信息贡献评分；筛选建库单元，用于根据信息贡献评分筛选部分候选短语，保留存储为短语库的文案短语。

根据以上任意实施例扩展的实施例中，匹配处理模块1300，包括：句对输入单元，用于将查询语句与匹配出的每个详情语句组成句对，输入预训练至收敛状态的文本匹配分类模型中同步确定出该句对相对应的第一分类空间表征不同匹配程度的各个类别的分类概率和第二分类空间表征是否适于推广的类别的分类概率；第一分类单元，用于将第一分类空间的表征所述句对中的查询语句与详情语句相匹配的类别的分类概率，确定为该句对中的详情语句对应所述相匹配的类别的相似度；第二分类单元，用于将第二分类空间的表征所述句对中的详情语句适于推广的类别的分类概率，确定为该句对中的详情语句对应所述适于推广的类别的置信度；数据存储单元，用于建立所述匹配出的每个详情语句与其在第一分类空间的类别对应的相似度、在第二分类空间的类别对应的置信度之间的映射关系。

根据以上任意实施例扩展的实施例中，所述文案素材提取装置包括训练模块，用于执行对所述文本匹配分类模型的训练过程，包括：样本调用单元，用于调用预设的数据集中的单个训练样本输入文本匹配分类模型，每个训练样本关联设置第一标签和第二标签，且包括样本查询语句和样本详情语句，样本查询语句包括历史广告商品的商品标题和品类标签，样本详情语句为从所述历史广告商品的详情文本中提取的详情语句，第一标签用于指示所述样本查询语句与样本详情语句之间的多种匹配程度相对应的类别，第二标签用于指示所述样本详情语句是否适于推广相对应的类别；训练执行单元，用于由文本匹配分类模型提取所述训练样本的深层语义信息，根据该深层语义信息同步执行两路分类映射，分别映射至第一分类空间和第二分类空间，获得第一分类空间和第二分类空间中各个类别相对应的分类概率，根据分类概率确定所述训练样本在第一分类空间和第二分类空间相对应的目标类别；损失计算单元，用于根据第一标签计算第一分类空间的目标类别的损失而获得的第一损失值，根据第二标签计算第二分类空间的目标类别的损失而获得第二损失值，将第一损失值和第二损失值汇总为模型损失值；迭代决策单元，用于根据所述模型损失值判断文本匹配分类模型是否收敛，当未收敛时，对文本匹配分类模型实施梯度更新，继续调用下一训练样本迭代训练。

根据以上任意实施例扩展的实施例中，所述素材生成模块1400，包括：第一排序单元，用于以所述第一分类空间的类别为主索引，根据所述相似度对所述匹配出的每个详情语句进行第一次倒排序；第二排序单元，用于以匹配出的每个详情语句的相似度和置信度的加权和值对第一次排序后的各个详情语句进行第二次倒排序；素材选取单元，用于从第二次排序后的各个详情语句中选取排行靠前的预定数量的多个详情语句，作为广告商品的广告文案的文案素材。

根据以上任意实施例扩展的实施例中，后于所述素材生成模块1400，包括：列表推送单元，用于将所述文案素材列表推送至提交所述广告商品的终端设备显示；文案获取单元，用于响应该终端设备提交的广告发布请求，获取对应的广告文案，所述广告文案中包含引用自所述文案素材列表中的文案素材；广告发布单元，用于以该广告文案发布所述广告商品相对应的广告。

为解决上述技术问题，本申请实施例还提供计算机设备。如图10所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种商品搜索类目识别方法。该计算机设备的处理器用于提供计算和控制能力，支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令，该计算机可读指令被处理器执行时，可使得处理器执行本申请的文案素材提取方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解，图10中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

本实施方式中处理器用于执行图9中的各个模块及其子模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的文案素材提取装置中执行所有模块/子模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的文案素材提取方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

本领域普通技术人员可以理解实现本申请上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)等计算机可读存储介质，或随机存储记忆体(Random Access Memory，RAM)等。

综上所述，本申请可以从待发布广告的广告商品的详情文本中提取出能够描述商品特征的优质详情语句，作为文案素材供用户引用，可实现广告文案辅助创作，对于广告文案撰写过程而言，用户可以按需引用文案素材。

本技术领域技术人员可以理解，本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地，具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地，现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种文案素材提取方法，其特征在于，包括：

获取广告商品的标题文本及品类标签，构造为查询语句；

2.根据权利要求1所述的文案素材提取方法，其特征在于，根据所述标题文本和/或品类标签相匹配的文案短语，召回与文案短语相匹配的源自广告商品的详情文本中的详情语句，包括：

将广告商品的详情文本进行分句，获得由详情文本中各个详情语句构成的语句列表；

根据所述标题文本和/或品类标签，从所述品类标签相对应的短语库中匹配出多个文案短语，构成短语列表，所述文案短语包括多个具有独立词性的词元；

计算短语列表中的每个文案短语分别与语句列表中的各个详情语句的相似度，根据相似度筛选出与每个文案短语构成语义匹配的详情语句。

3.根据权利要求1所述的文案素材提取方法，其特征在于，根据所述标题文本和/或品类标签相匹配的文案短语之前，包括：

从广告系统中与品类标签相对应的已投放广告的广告文案中提取多个文案短语构成候选短语，所述文案短语根据预设的多个短语构造提取，所述短语构造包括多个有序排列的词性标签，其中至少包含一个表示名词的词性标签，该词性标签相对于其他词性标签后置；

参考候选短语所在的品类、店铺、广告确定每个候选短语的信息贡献评分；

根据信息贡献评分筛选部分候选短语，保留存储为短语库的文案短语。

4.根据权利要求1所述的文案素材提取方法，其特征在于，确定所述查询语句与匹配出的每个详情语句之间的相似度和置信度，包括：

将查询语句与匹配出的每个详情语句组成句对，输入预训练至收敛状态的文本匹配分类模型中同步确定出该句对相对应的第一分类空间表征不同匹配程度的各个类别的分类概率和第二分类空间表征是否适于推广的类别的分类概率；

将第一分类空间的表征所述句对中的查询语句与详情语句相匹配的类别的分类概率，确定为该句对中的详情语句对应所述相匹配的类别的相似度；

将第二分类空间的表征所述句对中的详情语句适于推广的类别的分类概率，确定为该句对中的详情语句对应所述适于推广的类别的置信度；

建立所述匹配出的每个详情语句与其在第一分类空间的类别对应的相似度、在第二分类空间的类别对应的置信度之间的映射关系。

5.根据权利要求4所述的文案素材提取方法，其特征在于，所述文本匹配分类模型的训练过程，包括：

调用预设的数据集中的单个训练样本输入文本匹配分类模型，每个训练样本关联设置第一标签和第二标签，且包括样本查询语句和样本详情语句，样本查询语句包括历史广告商品的商品标题和品类标签，样本详情语句为从所述历史广告商品的详情文本中提取的详情语句，第一标签用于指示所述样本查询语句与样本详情语句之间的多种匹配程度相对应的类别，第二标签用于指示所述样本详情语句是否适于推广相对应的类别；

由文本匹配分类模型提取所述训练样本的深层语义信息，根据该深层语义信息同步执行两路分类映射，分别映射至第一分类空间和第二分类空间，获得第一分类空间和第二分类空间中各个类别相对应的分类概率，根据分类概率确定所述训练样本在第一分类空间和第二分类空间相对应的目标类别；

根据第一标签计算第一分类空间的目标类别的损失而获得的第一损失值，根据第二标签计算第二分类空间的目标类别的损失而获得第二损失值，将第一损失值和第二损失值汇总为模型损失值；

根据所述模型损失值判断文本匹配分类模型是否收敛，当未收敛时，对文本匹配分类模型实施梯度更新，继续调用下一训练样本迭代训练。

6.根据权利要求4所述的文案素材提取方法，其特征在于，根据所述相似度和置信度筛选出部分详情语句，包括：

以所述第一分类空间的类别为主索引，根据所述相似度对所述匹配出的每个详情语句进行第一次倒排序；

以匹配出的每个详情语句的相似度和置信度的加权和值对第一次排序后的各个详情语句进行第二次倒排序；

从第二次排序后的各个详情语句中选取排行靠前的预定数量的多个详情语句，作为广告商品的广告文案的文案素材。

7.根据权利要求1至6中任意一项所述的文案素材提取方法，其特征在于，构成文案素材列表之后，包括：

将所述文案素材列表推送至提交所述广告商品的终端设备显示；

响应该终端设备提交的广告发布请求，获取对应的广告文案，所述广告文案中包含引用自所述文案素材列表中的文案素材；

以该广告文案发布所述广告商品相对应的广告。

8.一种文案素材提取装置，其特征在于，包括：

查询构造模块，用于获取广告商品的标题文本及品类标签，构造为查询语句；

语句召回模块，用于根据所述标题文本和/或品类标签相匹配的文案短语，召回与文案短语相匹配的源自广告商品的详情文本中的详情语句；

匹配处理模块，用于确定所述查询语句与匹配出的每个详情语句之间的相似度和置信度，所述相似度与置信度对应每个详情语句同步确定；

素材生成模块，用于根据所述相似度和置信度筛选出部分详情语句，作为广告商品的广告文案的文案素材，构成文案素材列表。

9.一种计算机设备，包括中央处理器和存储器，其特征在于，所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行如权利要求1至7中任意一项所述的方法的步骤。

10.一种计算机可读存储介质，其特征在于，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。