CN111523304B

CN111523304B - 一种基于预训练模型的产品描述文本的自动生成方法

Info

Publication number: CN111523304B
Application number: CN202010342927.9A
Authority: CN
Inventors: 高明; 高宝丽
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2020-04-27
Filing date: 2020-04-27
Publication date: 2022-08-02
Anticipated expiration: 2040-04-27
Also published as: CN111523304A

Abstract

本发明公开了一种基于预训练模型的产品描述文本的自动生成方法，其特点是采用框架预训练模型方法，通过引入辅助数据库以及预训练的BERT模型权重，根据给定的产品功能类属性特征，自动生成产品描述文本，具体包括：词典、共现关系库和检索数据库的构建，以及模型和文本的生成。本发明与现有技术相比具有根据给定的产品功能类属性特征来生成一段通顺可读、信息量丰富的产品描述文本，有效解决了数据量少、生成文本长度控制以及功能类属性特征可控三大问题，提高了产品描述文本的生成质量和文本多样性。

Description

一种基于预训练模型的产品描述文本的自动生成方法

技术领域

本发明涉及自然语言处理技术领域，尤其是一种基于预训练模型的产品描述文本的自动生成方法。

背景技术

产品描述的自动生成是一项根据给定的产品属性特征，自动生成一段包含给定特征信息、通顺可读且文本长度可控的描述性文本的技术。以空调为例，给出属性特征“静音、除霜、5匹”，会自动生成一段包含以上特征的描述文本。撰写产品描述对人而言是一项乏味、耗时的工作，但产品描述无疑又是重要的，因为它是消费者了解产品的一项重要途径，在一定程度上决定着消费者购买产品与否。自动生成技术可以辅助人类写作，给人以灵感，因此，自动的产品描述生成技术受到了学术界和工业界的颇多关注。目前，产品的属性特征大体分为两类，一类是规格类属性特征，如“5匹”，用来描述产品的规格大小；一类是功能类属性特征，如“除霜”、“健康”，用来描述产品的功能或者某一功能带来的使用效果。

Wang J,Hou Y,Liu J,et al.A statistical framework for productdescription generation[C]//Proceedings of the Eighth International JointConference on Natural Language Processing(Volume 2:Short Papers).2017:187-192.其工作通过模板的方式来生成产品描述，但主要解决的是给定规格类属性的产品描述。

Chen Q,Lin J,Zhang Y,et al.Towards Knowledge-Based PersonalizedProduct Description Generation in E-commerce[C]//Proceedings of the 25th ACMSIGKDD International Conference on Knowledge Discovery&Data Mining.ACM,2019:3040-3050.公开的产品描述技术，是将产品分为“外表、手感和功能”三个属性，在构造数据集时，用了复杂的启发式算法来对每一条数据标注相应的产品属性，其标注方法注定了无法细分产品的具体功能是什么，因此该工作虽然能生成产品描述，但是可控性不高。

Feng X,Liu M,Liu J,et al.Topic-to-Essay Generation with NeuralNetworks[C]//IJCAI.2018:4078-4084.和Yang P,Li L,Luo F,et al.Enhancing Topic-to-Essay Generation with External Commonsense Knowledge[C]//Proceedings ofthe 57th Annual Meeting of the，公开了产品描述的相关技术，其生成的产品描述难以保证覆盖全部的给定属性特征。

Miao N,Zhou H,Mou L,et al.Cgmh:Constrained sentence generation bymetropolis-hastings sampling[C]//Proceedings of the AAAI Conference onArtificial Intelligence.2019,33:6834-6842.公开了一种产品描述的技术，它虽然能覆盖所有给定的产品属性特征词，但长度往往过短。

现有技术的产品描述的自动生成，其工作都是从零开始训练模型，需要大量的数据以及良好的硬件资源，存在着以下问题：

1)数据量少易导致欠拟合，影响文本生成质，数据的获取，尤其是高质量数据的获取是需要成本的，如何在数据量较少的情况下，生成通顺可读且信息量丰富的产品描述。

2)文本长度控制，如何生成可控长度的产品描述，过短的文本长度表达的信息不充分，过长的文本长度会降低消费者的阅读欲望。

3)功能类产品属性特征的可控，因为即使是同一产品，如空调，不同品牌、不同型号的产品功能是有差异的，如何根据给定的产品功能特征生成包含所有给定属性特征的通顺可读的产品。

发明内容

本发明的目的是针对现有技术的不足而设计的一种基于预训练模型的产品描述文本的自动生成方法，采用检索加生成的框架预训练模型方法，通过引入共现关系库、检索数据库等辅助数据库，以及预训练的BERT模型权重，可根据给定的产品功能类属性特征，生成一段通顺可读、信息量丰富的产品描述文本，有效解决了数据量少易导致欠拟合，影响文本生成质量的问题，使文本长度控制在指定产品描述所含字符数的范围内，给定属性特征的通顺可读，进而提高了产品描述文本的生成质量和文本多样性。

实现本发明目的的具体技术方案是：一种基于预训练模型的产品描述文本的自动生成方法，其特点是采用框架预训练模型方法，通过引入辅助数据库以及预训练的BERT模型权重，根据给定的产品功能类属性特征，自动生成产品描述文本，其具体生成过程包括如下步骤：

(一)词典的构建

步骤A1:采用Jieba分词工具对语料库的数据进行分词，所述语料库可通过爬虫从合适的数据源中爬取众多在线的、通顺可读的产品描述，或通过其他途径获取，如空调的产品描述数据可以在58空调网上爬取。

步骤A2：加载停止词表，对步骤A1得到的每个词进行词频统计，去除词频为1或出现在停止词表中的词，所剩的词为构建的词典。

(二)共现关系库的构建

步骤B1:将语料库中的每段产品描述按句号或分号进行分割。

步骤B2：为了降低复杂度，只保留句子中的重要成分。

对步骤B1得到的每个句子，保留动词、名词、动名词、机构名、地名、人名，以及专有名词和形容词的词性词。

步骤B3：遍历每一个句子，对步骤B2得到的各词性词统计前向共现关系库和后向共现关系库，构建如下哈希表实现共现关系库的结构：

{center:{context:count,…},…}；

其中，count表示中心词center和上下文词context的共现次数，如果是前向共现关系库，那么在句子中上下文词context出现在中心词center的后面；如果是后向共现关系库，那么上下文词context出现在中心词center的前面；

(三)检索数据库的构建

根据步骤(二)得到的结果，去语料库中检索合适的句子以进一步扩充产品特征词，为了提高检索效率，采用倒排索引技术构建检索数据库，其具体步骤如下：

步骤C1：给语料库的每条数据一个文件ID，给词典中的每个词一个单词ID。

步骤C2：检索数据库实际上是一个倒排文件，并用哈希表存储，所有的倒排列表构成的文件叫做倒排文件，也就是检索数据库。

遍历语料库中的每条数据，记录倒排项，最终形成如下结构的倒排列表：

{search_token:[IDF,[(DocID,TF),…]]}；

其中，IDF表示检索词search_token出现在多少个不同的文件中，DocID是文件编号，TF为该检索词search_token在文件DocID中出现的频次；

(四)产品描述模型的生成

产品描述模型的生成，其输入是有序关键词，输出是一段产品描述，训练产品描述生成模型的具体步骤如下：

步骤D1：准备数据集

对语料库的每条数据，抽取名词、动词词性的词作为关键词，并按在数据中出现的顺序对关键词排序作为UNILM模型的输入建立数据集。数据集包括关键词列和产品描述列，根据UNILM模型能够处理的最大字符长度，应尽可能保证产品描述和关键词的字符数总和小于510。

步骤D2：将上述数据集划分为训练集、验证集和测试集，划分的三个数据集其数据不能有重叠。

步骤D3：采用Keras深度学习框架构建模型，其模型采用UNILM，加载了中文预训练BERT模型(12-layer,768-hidden,12-heads)的权重。

步骤D4：利用训练集对加载中文预训练BERT模型的权重，在此基础上进行微调权重参数，损失函数是交叉熵损失函数，由此训练BERT模型，并利用验证集训练至模型收敛，最终得到产品描述模型；

步骤D5：利用测试集测试产品描述模型的性能；

(五)产品描述文本的生成的具体应用步骤如下：

步骤E1：扩词

对于用户给定的每个产品特征词w进行扩词，得到若干个出现在特征词w后面的词和若干个出现在特征词w前面的词。在这一步，优先选择共现次数高的词，因为共现次数太低的很可能是噪音。

步骤E2：检索

根据给定的产品特征词w以及由步骤E1得到的所有扩充词，在检索数据库中检索。

步骤E3：有序关键词

对于步骤E2检索到的每条数据，抽取关键词，抽取关键词的方式与步骤D1相同，即把句子中名词、动词词性的词作为关键词，即给定产品特征词的最终扩展结果。

步骤E4:生成描述

把步骤E3得到的有序关键词，输入到训练好的产品描述模型中，即可得到通顺流畅、长度可控的产品描述文本。其中产品描述模型在得到下一个的预测词时，采用核采样(Nucleus Sampling)方法。

本发明与现有技术相比具有根据给定的产品功能类属性特征生成一段通顺可读、信息量丰富的产品描述文本，方法简单，使用方便，有效解决了在数据量较少的情况下仍能有不错的精度，可使文本长度控制在指定产品描述所含字符数的范围内，以及功能类属性特征可控问题。

附图说明

图1为产品描述自动生成流程图。

具体实施方式

下面以空调产品的属性特征为例对本发明作进一步的详细说明。

实施例1

本发明根据给定的产品功能类属性特征，自动生成一段通顺可读、信息量丰富的产品描述文本，其具体生成步骤如下：

(一)词典的构建

步骤A1:采用Jieba分词工具对语料库的数据进行分词，在58空调网上爬取的空调数据见下表1示例：

表1空调语料库示例

步骤A2：加载停止词表，对得到的每个词进行词频统计，去掉词频为1或者出现在停止词表中的词，构建的词典见下表2示例：

表2空调词典示例

(二)共现关系库的构建

步骤B1:将语料库中的每段产品描述按句号或分号进行分割。

步骤B2：为了降低复杂度，只保留句子中的重要成分，对步骤B1得到的每个句子，只保留动词、名词、动名词、机构名、地名、人名，以及专有名词和形容词的词性词。

步骤B3：遍历每一个句子，对步骤B2得到的各词性词进行统计，构建由前向共现关系库和后向共现关系库组成的共现关系库，其前向共现关系库见下表3示例：

表3前向共现关系库示例

后向共现关系库见下表4示例：

表4后向共现关系库示例

(三)检索数据库的构建

根据上述步骤(二)得到的结果，去语料库中检索合适的句子以进一步扩充产品特征词。为了提高检索效率，需要用倒排索引技术构建检索数据库，其具体步骤如下：

步骤C2：遍历语料库中的每条数据并记录倒排项，将其形成的所有倒排列表构成的倒排文件组建为检索数据库，所有的倒排列表构成的文件叫做倒排文件，也就是检索数据库见下表5示例：

表5检索数据库示例

(四)产品描述模型的生成

步骤D1：抽取语料库中每条数据中的名词和动词作为关键词，并将其在数据中出现的顺序进行关键词排序后作为UNILM模型的输入，建立由关键词列和产品描述列组成的数据集。

步骤D2：将上述数据集划分为三个数据各不重叠的训练集、验证集和测试集。

步骤D3：采用Keras深度学习框架构建UNILM模型，并加载中文预训练BERT模型的权重。

步骤D4：利用训练集对加载中文预训练BERT模型的权重进行微调，其损失函数是交叉熵损失函数，由此训练UNILM模型，并利用验证集训练至模型收敛，最终得到产品描述模型。

步骤D5：利用测试集测试产品描述模型的性能。

上述训练模型时，Batch size为16，学习率为1×10^-5，优化器采用Adam。

(五)产品描述文本的生成

参阅附图1，产品描述文本生成具体包括：扩词、检索、提取有序关键词和产品描述生成等步骤，所述扩词是根据用户给定的产品属性特征通过共现关系库得到的扩充词；所述检索是通过检索数据库(倒排文件)和产品描述语料库得到的描述句子；所述有序关键词是将检索到的描述句子抽取关键词，得到最终得扩展结果；所述产品描述生成是通过产品描述生成模型得到通顺流畅、长度可控的产品描述文本，其具体过程包括下述步骤：

步骤E1：对于用户给定的每个产品特征词w进行扩词，得到若干个出现在特征词w后面的词和若干个出现在特征词w前面的词。在这一步，优先选择共现次数高的词，因为共现次数太低的很可能是噪音。

步骤E2：在检索数据库中将给定的产品特征词w，以及由步骤E1得到的所有扩充词进行检索，得到指定数量且符合要求的描述句子。

步骤E3：将步骤E2检索到的描述句子中抽取的名词和动词作为关键词(即给定产品特征词的最终扩展结果)，并按出现的顺序排序为有序关键词。

步骤E4:将步骤E3得到的有序关键词输入到训练好的产品描述生成模型(产品描述模型)中，即可得到通顺流畅、长度可控的产品描述文本。其中生成模型在得到下一个的预测词时，采用核采样(Nucleus Sampling)方法。

上述步骤E2的具体实施方式为：是先根据给定词及其扩充词计算语料库中每条数据的检索得分，然后，对于每一个给定词，按得分从高到低遍历包含该给定词的产品描述，根据正则表达式抽取句子，如果抽取的句子没有被抽取过，则存储起来，直至得到指定数量的产品描述句。该方法中的变量para是一个自定义参数，其值越大，对长文本的惩罚越大，更倾向于检索较短的句子，其检索模型的实现过程见下述表6：

表6检索模型实现示例

上述步骤E4的具体实施方式为：即对每个给定词在步骤E3得到的扩充关键词，输入生成模型，得到该关键词下的产品描述，最后将各个关键词的产品描述合在一起得到最终的产品描述。Nucleus Sampling函数中的maxn是一个自定义参数，表示由单个产品特征词生成的产品描述文本的最大长度，top probs也是一个自定义参数，其值越大，生成句子的质量越高，但同时句子的多样性会降低，其检索模型的实现过程见下述表7：

表7产品描述生成实现示例

本发明有效解决了数据量、文本长度控制以及功能类属性特征可控的问题，其数据量问题的解决方案为：在预训练的中文BERT模型(12-layer,768-hidden,12-heads)的权重基础上进一步微调参数来做产品描述生成。因为该模型已经用大规模通用语料训练过，其模型参数中蕴含了通用知识，所以，只要用少量的领域数据(比如空调的产品描述生成，领域数据就是空调描述数据)来微调模型就能得到不错的精度。

文本长度控制问题的解决方案为：文本长度不同代表了文本含有的信息量不同，通常用户给出的功能类特征词很少，无法提供足够的信息来生成较长的产品描述。为了解决这个问题，本发明借助在线产品描述文本来扩展产品特征词，产品特征词越多，生成的产品描述长度越长，即通过改变产品特征词的数量来控制产品描述文本的长度。

功能类属性特征可控问题的解决方案为：在保证包含所有给定的功能类属性特征方面，本发明在训练产品描述生成模型时，输入是有序词，输出是包含所有输入词的产品描述文本。这样做可以让模型容易地学到一种模式——按顺序、不遗漏的包含输入词。因此，将给定的功能类属性特征词及其扩展词作为模型输入时，生成的描述文本中一定包含给定的产品特征词。在保证生成文本通顺可读和多样性等特点方面，在模型推断阶段采用了核采样(Nucleus Sampling)方法。

以上各实施例只是对本发明做进一步说明，并非用以限制本发明专利，凡为本发明等效实施，均应包含于本发明专利的权利要求范围之内。

Claims

1.一种基于预训练模型的产品描述文本的自动生成方法，其特征在于采用框架预训练模型方法，通过引入辅助数据库以及预训练的BERT模型权重，根据给定的产品功能类属性特征，自动生成产品描述文本，其具体生成过程包括如下步骤：

(一)词典的构建

步骤A1:采用Jieba分词工具对语料库的数据进行分词；

步骤A2：加载停止词表，对步骤A1得到的每个词进行词频统计，去除词频为1或出现在停止词表中的词，所剩的词为构建的词典；

(二)共现关系库的构建

步骤B1:将语料库中的每段产品描述按句号或分号进行分割；

步骤B2：对步骤B1得到的每个句子，保留动词、名词、动名词、机构名、地名、人名，以及专有名词和形容词的词性词；

{center:{context:count,…},…}；

(三)检索数据库的构建

步骤C1：给语料库的每条数据一个文件ID，给词典中的每个词一个单词ID；

步骤C2：遍历语料库中的每条数据并记录倒排项，将其形成的所有倒排列表构成的倒排文件组建为检索数据库，所述倒排列表的结构如下：

{search_token:[IDF,[(DocID,TF),…]]}；

(四)产品描述模型的生成

步骤D1：抽取语料库中每条数据中的名词和动词作为关键词，并按其在数据中出现的顺序对关键词进行排序，建立由关键词列和产品描述列组成的数据集，其中关键词列是UNILM模型的输入；

步骤D2：将上述数据集划分为三个数据各不重叠的训练集、验证集和测试集；

步骤D3：采用Keras深度学习框架构建UNILM模型，并加载中文预训练BERT模型的权重；

步骤D4：利用训练集对加载的中文预训练BERT模型的权重进行微调，其损失函数是交叉熵损失函数，并利用验证集来判断收敛与否，由此训练UNILM模型直至模型收敛，最终得到产品描述模型；

步骤D5：利用测试集测试产品描述模型的性能；

(五)产品描述文本的生成

步骤E1：对于用户给定的每个产品特征词w进行扩词，得到若干个出现在特征词w后面的词和若干个出现在特征词w前面的词；

步骤E2：在检索数据库中将给定的产品特征词w，以及由步骤E1得到的所有扩充词进行检索；

步骤E3：将步骤E2检索到的描述句子中抽取的名词和动词作为关键词，并按出现的顺序排序为有序关键词；

步骤E4:将步骤E3得到的有序关键词输入产品描述模型，即可得到通顺流畅、长度可控的产品描述文本。

2.根据权利要求1所述基于预训练模型的产品描述文本的自动生成方法，其特征在于所述步骤D1中的产品描述与关键词的字符和<510。

3.根据权利要求1所述基于预训练模型的产品描述文本的自动生成方法，其特征在于所述框架由词典、共现关系库、检索数据库、产品描述生成模型和产品描述文本生成五个阶段性结构组成，所述词典是根据语料库构建；所述共现关系库是根据词的共现关系构建；所述检索数据库采用倒排索引技术和扩充产品特征词构建；所述产品描述生成模型由训练UNILM模型后形成，训练产品描述生成模型时，输入是有序词，输出是包含所有输入词的产品描述文本；所述产品描述文本生成为产品描述自动生成技术的应用流水线。