CN116756266A

CN116756266A - 基于外部知识和主题信息的服装文本摘要生成方法

Info

Publication number: CN116756266A
Application number: CN202310080040.0A
Authority: CN
Inventors: 张晓滨; 谢文博
Original assignee: Xian Polytechnic University
Current assignee: Xian Polytechnic University
Priority date: 2023-01-31
Filing date: 2023-01-31
Publication date: 2023-09-15

Abstract

本发明公开了基于外部知识和主题信息的服装文本摘要生成方法，具体按照以下步骤实施：步骤1，构建服装特定领域知识图谱；步骤2，利用步骤1中的知识图谱与预训练模型结合改进LDA模型生成服装文本主题关键词；步骤3，构建由TreeLSTM与Transformer相结合的改进Seq2Seq模型，并在其中引入步骤2中获取的主题关键词，最后训练该模型并保存得到文本摘要生成模型，输入服装文本获得摘要即成。本发明通过自主构建的服装领域下专有知识图谱，并利用其做为外部知识指导服装领域文本主题关键词与文本摘要的生成，有效提高了摘要的生成效果。

Description

基于外部知识和主题信息的服装文本摘要生成方法

技术领域

本发明属于服装信息化方法技术领域，具体涉及基于外部知识和主题信息的服装文本摘要生成方法。

背景技术

随着互联网的发展，人们在享受数字信息便利的同时也不得不面对其所带来的数据爆炸问题。如何使用计算机技术对文本内容进行抽取，使人们可以快速准确地获取文本的主题和主要内容的研究就变得至关重要，文本摘要模型的研究成为学术界的热点研究方向。

同时，随着新一代人工智能的发展，服装纺织等传统工业急需依靠智能化转型提高产业的竞争力。如何帮助用户快速了解服装产品的款式、用料、产地等信息，提高用户的购买欲望已经成为互联网时代服装产业迫切需要处理的难题。在服装领域文本摘要的相关技术中，如何有效利用知识图谱的外部知识去指导文本摘要生成的研究由于缺少相关的服装领域知识图谱而进展缓慢。因此，如何构建特定的服装领域知识图谱，并利用其做为外部知识对服装文本摘要生成进行指导，提高服装文本摘要的生成效果成为一种有效的解决思路。

发明内容

本发明的目的是提供基于外部知识和主题信息的服装文本摘要生成方法，能够有效提高服装文本摘要的生成效果。

本发明所采用的技术方案是，基于外部知识和主题信息的服装文本摘要生成方法，具体按照以下步骤实施：

步骤1，构建服装特定领域知识图谱；

步骤2，利用步骤1中的知识图谱与预训练模型结合改进LDA模型生成服装文本主题关键词；

步骤3，构建由TreeLSTM与Transformer相结合的改进Seq2Seq模型，并在其中引入步骤2中获取的主题关键词，最后训练该模型并保存得到文本摘要生成模型，输入服装文本获得摘要即成。

本发明的特点还在于，步骤1具体按照以下步骤实施：

步骤1.1，原始数据收集及处理

从中服网获取有关服装材料，厂商的介绍文章，清洗后得到的数据作为构建知识图谱的原始数据，利用正则表达式对原始数据进行清洗处理，删去空格，统一文本格式，删去不正确与多余的文本数据，将处理完成后的服装文本数据作为源数据集；

步骤1.2，服装领域知识图谱构建

将服装知识图谱定义为CKG＝(V,E)，其中V代表构建的服装知识图谱中所有的节点集合，E代表各个服装实体之间的关系集合；

步骤1.3，服装知识图谱的持久化与展示

使用Neo4j数据库作为具体的持久化平台，读取步骤1.2所获取的excel文件，读取三元组数据，使用CREATE与MATCH命令将构建所有三元组数据插入Neo4j数据库，完成服装知识图谱CKG的持久化与展示，最终获取服装领域知识图谱。

步骤1.2具体按照以下步骤实施：

步骤1.2.1，服装关系类型定义

服装知识图谱CKG＝(V,E)中的E代表各个服装实体之间的关系集合，其具体为E＝{v_i,r_k,v_j}，其中v_i,r_k∈V，代表服装实体，r_k∈R，r_k代表实体v_i,r_k之间的关系，R代表所有实体关系的集合；

步骤1.2.2，服装实体抽取

以步骤1.1中获取的数据为源数据进行服装实体抽取；

步骤1.2.3，服装关系对应

将步骤1.2.2中抽取的服装实体按公司名称进行分类标识，在每个公司分类下，将公司名称与其包含的其余服装实体按照实体字典D定义的含义与步骤1.2.1定义的关系集合R对应，组装成三元组数据结构，将最终获取的三元组数据集合按行写入excel文件存储。

步骤2具体按照以下步骤实施：

步骤2.1，数据预处理

利用正则表达式将步骤1.2中获取的文本数据预处理分为多个句集合S＝{S₁,S₂,S₃,···,S_n}，其中S_n代表第n个句子，然后利用预训练模型SimBERT获取所有句子的句向量特征

步骤2.2，主题句划分

基于对步骤2.1处理后的句向量特征计算每个句子之间的余弦相似度，公式如下：

其中S_i，S_j代表第i,j个句子，得到所有句子之间的余弦相似度后以此为依据，利用谱聚类算法对句集合进行聚类，将主题相似的句子划分为多个聚类簇集合C＝{C₁,C₂,···,C_n}，其中C_n＝{S₁,S₂,···,S_i}；

步骤2.3，文本内容知识化

将服装文本进行主题句划分后，并为其引入外部知识；

步骤2.4，服装文本主题词识别

将初始的候选词空间由源文档自身包含的词汇内容扩展至服装文本所包含的所有外部知识，改进的LDA模型中，每个聚类簇C_i都有自己的主题分布，该主题分布为多项式分布，记参数α使该主题分布符合狄利克雷分布，每个主题下都包含其对应的词分布，记参数β使该词分布符合狄利克雷分布。

步骤2.3具体按照以下步骤实施：

步骤2.3.1，分词处理

利用jieba分词器对步骤2.2获取到文本的句聚类集C中包含的每个聚类簇进行分词处理，生成对应的词集W＝{W₁,W₂,···,W_m}，其中每个W_m中都包含本聚类簇下所有的分词结果；

步骤2.3.2，知识链接

以步骤2.2获取的聚类簇集合C中的每个聚类簇为基本单位，将步骤2.3.1获取的文本分词与步骤1建立的服装知识库进行链接，获取每个聚类簇下所有分词的相关背景知识，记为知识集合K，具体为K＝{K₁,K₂,···,K_n}，其中K_n代表当前句聚类下所有的相关知识，记为K_n＝{w₁,w₂,···,w_t}，其中w_t代表每个分词的关联外部知识，其存储形式为w_t＝{I₁,I₂,···,I_i}，其中I_i代表根据分词从外部知识库获取的第i个知识；

步骤2.3.3，同义词消歧

将步骤2.3.2获取到的知识K输入词林进行筛选，删去部分频繁出现且词义类似的词。

步骤2.4中对于每个句聚类簇C_i主题词的识别过程具体为：

步骤2.4.1，设定当前句聚类簇C_i的先验分布为P(C_i)；

步骤2.4.2，利用符合狄利克雷分布的参数α，对聚类簇C_i所属的知识集K_i进行吉布斯采样，获取其可能的主题分布θ_i；

步骤2.4.3，从主题分布θ_i中使用吉布斯采样获取聚类簇C_i的第j个词的主题Z_i,j；

步骤2.4.4，利用符合狄利克雷分布的参数β，对聚类簇C_i所属的知识集K_i通过吉布斯采样获取其每个主题Z_i,j对应的词分布

步骤2.4.5，从词分布中根据当前聚类簇C_i所包含的句子数m选取前m个主题词T_i,j。

步骤3具体为：

步骤3.1，首先为TreeLSTM与Transformer构造输入序列，对源文本进行数据预处理，对Transformer编码器,输入序列的处理方式是先进行分词，将源文本的句子切分成单词，切分后的输入序列S表示为S＝{X₁,X₂,···,X_n}，n代表切分后的单词总数，TreeLSTM编码器则使用语义依存分析为其构造树形输入数据，获得输入序列，将结果记为X_j，j代表源文本中的单词数；

步骤3.2，构建一个改进的Seq2Seq序列模型，包括编码层、注意力层、解码层、指针网络层，由Transformer与TreeLSTM作为编码层，由LSTM层构成解码层，注意力层负责特征融合，指针网络用于优化最终输出；

步骤3.3，将步骤2中所得到的服装文本关键词与知识特征通过BERT预训练模型抽取特征，记为知识主题特征T_v；

步骤3.4，使用注意力机制，将主题特征T_v与语义特征S_v，全文特征H_v进行融合，生成全文本的语义主题特征S_Tv和全文主题特征H_Tv；

步骤3.5，构建门控机制融合与指针网络融合取舍已有的语义主题特征S_Tv与全文主题特征向量H_Tv，其中门控与指针网络的计算公式如下所示：

G＝sigmod(W₅S_Tv+W₆h_lstm+W₇d_in+b_g) (2)

P_gen＝sigmod(W₉h_lstm+W₁₀H_Tv+b_pgen) (3)

其中W₅,W₆,W₇,b_g,W₉,W₁₀,b_pgen为训练参数；h_lstm为解码器隐层状态，d_in为解码器输入，G∈[0,1]，用于控制语义主题特征S_Tv与全文主题特征H_Tv融合，P_gen的范围是[0,1]，当P_gen＝1时，使用预测的词作为输出，当P_gen＝0时，选择从源文本进行拷贝；

步骤3.6，利用集束搜索扩展最终摘要生成的候选词空间，设置搜索宽度q＝5；

步骤3.7，训练该模型并存储；

步骤3.8，输入服装文本进入模型，得到服装文本摘要。

步骤3.2中编码器与解码器具体为：

步骤3.2.1，使用Transformer抽取源文本的时序位置特征，记为文本全文特征H_v；

步骤3.2.2，使用TreeLSTM抽取文本语义特征，TreeLSTM首先会按照句法依存树的形式读取输入序列，然后使用输出门o_j，遗忘门f_jk，输入门i_j控制信息的传递，其中，u_j控制当前输入与当前结点的子节点输出状态信息的融合，然后通过输入门i_j获得当前结点状态，最后将所有的隐层状态连接记录得到文本的语义特征表示记为文本语义特征S_v，具体公式如下：

c_j＝i_j⊙u_j+∑_k∈c(j)f_jk⊙c_k (7)

其中，h_k代表单元子节点的隐藏状态，W和U为参数矩阵，表示h_k与输入X_j之间的相关性，o_j，f_jk和i_j分别代表TreeLSTM的输出门，遗忘门和输入门，c_j代表TreeLSTM当前节点的存储单元；训练过程中，模型学习参数矩阵，使得语义重要的单词输入时，输入门值接近1；当输入是相对不重要的单词时，输入门的值接近0，即可控制对文本重要语义信息的获取；

步骤3.2.3，使用LSTM用作生成摘要的解码器，将Transformer与TreeLSTM获得到的隐层状态进行拼接融合，记为d_in，作为单向LSTM解码器的输入，将单向LSTM获取到的的隐层特征状态记录为h_lstm。

步骤3.4具体为：

步骤3.4.1，利用软注意力机制获取文本的全文主题特征H_Tv，如下式：

a＝softmax(s(H_v,T_v)) (9)

H_Tv＝∑aH_v (10)

上式中，W₁,W₂为训练参数；s(H_v,T_v)代表由多层感知机计算出的H_v与T_v的相似度；之后使用softmax()函数对其归一化得到权重a，与Transformer编码器获取的全文特征H_v相乘，得到最终的全文主题特征向量H_Tv；

步骤3.4.2，通过软注意力机制可以获取到文本的语义主题特征S_Tv，具体过程如下式所示：

a＝softmax(s(S_v,T_v)) (12)

S_Tv＝∑aS_v (13)

上式中，W₃,W₄为训练参数，s(S_v,T_v)代表由多层感知机计算出的S_v与T_v的相似度；之后使用softmax()函数对其归一化得到权重a，与语义主题特征S_v相乘得到文本的语义主题特征S_Tv。

本发明的有益效果是，通过自主构建的服装领域下专有知识图谱，并利用其做为外部知识指导服装领域文本主题关键词与文本摘要的生成，有效提高了摘要的生成效果。该服装领域下专有知识图谱可有效解决传统文本主题关键词生成过程中缺少外部知识引导、中文分词歧义较大的问题，从而提高了服装文本主题关键词的获取效率。文本摘要生成模型通过结合Transformer提取的文本时序特征与TreeLSTM提取的文本语义特征，提高了文本特征的提取效率。且通过使用注意力机制将外部知识与文本的主题关键词融合入服装文本摘要的生成中，有效地解决了当前服装文本摘要生成过程中存在的语义编码信息获取不完全，语义不通畅及生成摘要缺少文本关键信息等问题。该技术应用于服装信息化处理过程中可有效促进服装产业智能化、互联网化的进展。

附图说明

图1是本发明的执行流程图；

图2是本发明中识别服装文本主题的流程图；

图3是本发明改进的LDA模型的结构图；

图4是本发明改进的Seq2Seq摘要生成模型图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

本发明基于外部知识和主题信息的服装文本摘要生成方法，如图1所示，分为模型训练和模型应用两个阶段，具体按照以下步骤实施：

步骤1，构建服装特定领域知识图谱；

步骤1具体按照以下步骤实施：

步骤1.1，原始数据收集及处理

从中服网上爬取有关服装材料，厂商的介绍文章，清洗后得到约2万8千余条数据作为构建知识图谱的原始数据；收集到的原始数据存在重复，多余且文本格式不统一的问题，不能直接用于知识图谱的构建，为此利用正则表达式对原始数据进行清洗处理，删去空格，统一文本格式，删去不正确与多余的文本数据；将处理完成后的服装文本数据作为本方法使用的源数据集；

步骤1.2，服装领域知识图谱构建

将服装知识图谱定义为CKG＝{V,E}，其中V代表构建的服装知识图谱中所有的节点集合，由公司名称，地址，时间，类型，品牌等服装实体构成，E代表各个服装实体之间的关系集合；

步骤1.2具体按照以下步骤实施：

步骤1.2.1，服装关系类型定义

服装知识图谱CKG＝{V,E}中的E代表各个服装实体之间的关系集合，其具体为E＝{v_i,r_k,v_j}，其中v_i,r_k∈V，代表服装实体，r_k∈R，r_k代表实体v_i,r_k之间的关系，R代表所有实体关系的集合，定义服装实体之间的关系R具体为R＝{公司名称，所属品牌，品牌理念，所属产地，所属产品，经营范围，产品材质，公司类型，员工人数，场地面积，产品特质，面向人群}；

步骤1.2.2，服装实体抽取

以步骤1.1获取到的数据为源数据进行服装实体抽取。实际抽取过程中，由于缺少服装领域对应的文本数据集，因此需要自行对源数据进行文本的序列标注，首先，根据步骤1.2.1定义的知识图谱关系集R为蓝本，定义实体字典形式如下表1所示：

表1实体字典形式

接下来从源数据中随机挑选500条文本数据，从文本中提取出与字典对应的实体信息，记为实体字典D。

将实体字典D作为标注的基本依据。首先读取步骤1.1中清洗后的数据，对其进行分句处理，利用BIO标注体系对其进行标注；之后人工对已标注的数据进行校对，完成后将其更新为BIOes标注体系；最后将竖排展示的数据集转换为横向展示的数据集(便于人工检阅)，完成标注。将标注后的数据按2:8的比例划分为测试集与训练集。

最后利用BERT+BiLSTM模型获取文本数据的子向量及上下文特征信息，使用CRF模型解决输入之间的依赖性，最终构建BERT+BiLSTM+CRF模型。利用已标注好的源数据训练模型，完成后使用该模型按照定义的实体字典D对所有源数据进行实体抽取，将抽取到的所有实体集记为E＝{(v_i,d_i)},其中v_i代表抽取出的实体，d_i∈D代表该实体含义；

步骤1.2.3，服装关系对应

本步骤的目的是为了给步骤1.2.2抽取的服装实体E之间建立对应关系，形成可直接使用的三元组数据结构。将步骤1.2.2中抽取到的服装实体按公司名称进行分类标识，在每个公司分类下，将公司名称与其包含的其余服装实体按照实体字典D定义的含义与步骤1.2.1定义的关系集合R对应，组装成三元组数据结构，如(卡蔓，创立时间，1997年)，对所有获取到的服装实体执行上述操作即可获取服装知识图谱所需的三元组结构化数据，将最终获取的三元组数据集合按行写入excel文件存储；

步骤1.3，服装知识图谱的持久化与展示

使用Neo4j数据库作为具体的持久化平台，读取步骤1.2所获取的excel文件，读取三元组数据，使用CREATE与MATCH命令将前述步骤构建所有三元组数据插入Neo4j数据库，完成服装知识图谱CKG的持久化与展示，最终获取到共计约40万节点的服装领域知识图谱。

步骤2，如图2所示，利用步骤1中的知识图谱与预训练模型结合改进LDA模型生成服装文本主题关键词；

步骤2具体按照以下步骤实施：

步骤2.1，数据预处理

利用正则表达式将步骤1.2中获取的文本数据预处理分为多个句集合S＝{S₁,S₂,S₃,···,S_n}，其中S_n代表第n句子，然后利用预训练模型SimBERT获取所有句子的句向量特征

步骤2.2，主题句划分

步骤2.3，文本内容知识化

将服装文本进行主题句划分后，并为其引入外部知识；

步骤2.3具体按照以下步骤实施：

步骤2.3.1，分词处理

该步骤的主要作用是将文本数据中的长句子转换为词组形式，为接下来的知识链接提供依据，利用jieba分词器对步骤2.2获取到文本的句聚类集C中包含的每个聚类簇进行分词处理，生成对应的词集W＝{W₁,W₂,···,W_m}，其中每个W_m中都包含本聚类簇下所有的分词结果；

步骤2.3.2，知识链接

该步骤的主要作用是为服装文本引入外部知识，以步骤2.2获取的聚类簇集合C中的每个聚类簇为基本单位，将步骤2.3.1获取的文本分词与步骤1建立的服装知识库进行链接，获取每个聚类簇下所有分词的相关背景知识，记为知识集K＝{K₁,K₂,···,K_n}，其中K_n代表当前句聚类下所有的相关知识，记为K_n＝{w₁,w₂,···,w_t}，其中w_t代表每个分词的关联外部知识，存储形式为w_t＝{I₁,I₂,···,I_i}，此外，在知识链接的过程中，为进一步扩展文本的背景知识，对于无法在步骤1的服装知识库中获取关联知识的分词，链接通用型知识库CN-Dbpedia补充相关知识；

步骤2.3.3，同义词消歧

该步骤处理流程是将步骤2.3.2获取到的知识K输入由哈尔滨工业大学信息检索研究室扩展维护的词林进行筛选，删去部分频繁出现且词义类似的词，以此将那些关联度不是很高但又多次出现的词汇进行剔除，减少其对接下来主题关键词识别的干扰，利用倒排索引的技术去推断每个知识与服装文本的关联度，并以此为依据进行无意义高频词的过滤；

步骤2.4，服装文本主题词识别

改进后的LDA模型结构如图3示，传统LDA模型采用词袋模型为源文档中的每个词赋予相同初始权值，计算其狄利克雷分布从而推导文本主题，而本方法改进的LDA模型使用步骤2.2中获得的句聚类簇代替源文档的概念，并将初始的候选词空间由源文档自身包含的词汇内容扩展至服装文本所包含的所有外部知识，具体如图3右侧部分；

在改进的LDA模型中，每个聚类簇C_i都有自己的主题分布，该主题分布为多项式分布，记参数α使该主题分布符合狄利克雷分布；同样的道理，每个主题下都包含其对应的词分布，记参数β使该词分布符合狄利克雷分布。参数α与β初始均选gensim库下LDA模型的默认值；

步骤2.4中对于每个句聚类簇C_i主题词的识别过程具体为：

步骤2.4.1，设定当前句聚类簇C_i的先验分布为P(C_i)；

步骤2.4.5，从词分布中根据当前聚类簇C_i所包含的句子数m选取前m个主题词T_i,j

对每个聚类簇C_i重复步骤2.4.1至步骤2.4.5直至生成所有的主题词即可获取最终识别到的主题，将所有聚类簇的主题词集记为集合T；

在改进的主题关键词识别模型中，利用服装文本知识化的过程将主题关键词候选空间从传统的源文档分词扩展至包含整个源文档相关背景知识的词汇空间，扩展主题词获选范围的同时利用同义词词林过滤高频且意义不明显的词，减少了传统主题识别模型主题识别结果倾向于高频词的问题，获取了表征效果更好的服装文本主题信息；

步骤3，如图4所示，构建由TreeLSTM与Transformer相结合的改进Seq2Seq模型，并在其中引入步骤2中获取的主题关键词，最后训练该模型并保存得到文本摘要生成模型，输入服装文本获得摘要即成。

步骤3具体为：

步骤3.1，首先为TreeLSTM与Transformer构造输入序列，对源文本进行数据预处理，对Transformer编码器,输入序列的处理方式是先进行分词，将源文本的句子切分成单词，切分后的输入序列S表示为S＝{X₁,X₂,···,X_n}，n代表切分后的单词总数。TreeLSTM编码器则使用语义依存分析为其构造树形输入数据，获得输入序列，将结果记为X_j，j代表源文本中的单词数；

步骤3.2中编码器与解码器具体为：

c_j＝i_j⊙u_j+∑_k∈c(j)f_jk⊙c_k (5)

步骤3.2.3，将LSTM用作生成摘要的解码器，将Transformer与TreeLSTM获得到的隐层状态进行拼接融合，记为d_in，作为单向LSTM解码器的输入，将单向LSTM获取到的的隐层特征状态记录为h_lstm

步骤3.4具体为：

a＝softmax(s(H_v,T_v)) (7)

H_Tv＝∑aH_v (8)

步骤3.4.2，用与3.4.1类似的方法通过软注意力机制可以获取到文本的语义主题特征S_Tv，具体过程如下式所示：

a＝softmax(s(S_v,T_v)) (10)

S_Tv＝∑aS_v (11)

G＝sigmod(W₅S_Tv+W₆h_lstm+W₇d_in+b_g) (2)

P_gen＝sigmod(W₉h_lstm+W₁₀H_Tv+b_pgen) (3)

步骤3.7，训练该模型并存储；

步骤3.8，输入服装文本进入模型，得到服装文本摘要。

实施例1

为验证本方法的有效性，以中文数据集LCSTS与通过爬虫中服网上有关服装的文本数据作为实验数据集。最终的评测标准选择使用ROUGE工具包对模型最终生成的文本摘要质量进行评估。本方法选取ROUGE-N中ROUGE-1，ROUGE-2和ROUGE-L作为具体的评价指标，其中ROUGE-N计算公式如下式所示。

上式中n代表连续匹配单词数，Ref代表参考摘要集，Count(gram_n)用于计算参考摘要的N个连续单词。

上式中，R代表模型最终生成的摘要，Ref代表参考摘要集，LCS(R,Ref)代表生成摘要与参考摘要的最大公共长度，m表示参考摘要长度，n表示生成摘要长度，参数β设置为1。

对比模型选择Text Rank模型、RNN-Seq2Seq模型、RNN-Attention-Seq2Seq、TCN+CNN-Seq2Seq、TCN+CNN-Seq2Seq、Pointer Generator+coverage、BiLSTM-PointerGenerator进行实验。实验结果见下表2和表3：

表2主题识别效果

由表2可以看出本方法在引入服装知识图谱后扩展了整个主题识别的候选词范围，提高了主题识别的准确性与可读性。例如，源文本1“CARMEN”在连接知识图谱后使得生成的主题词包含了“卡蔓”与“女装”两个源文本中不存在的外部知识；而源文本2则在服装知识图谱缺少相关知识时利用通用型知识图谱CN-Dbpedia引入了“关注”这个外部知识，替换了源文本中“瞩目”一词。验证了本方法改进的主题词识别模型可以有效提高服装文本主题的识别效果。

表3不同模型的实验对比

模型	ROUGE-1	ROUGE-2	ROUGE-L
				Text Rank	30.42	16.34	29.64
RNN-Seq2Seq	20.23	7.95	17.18
				RNN-Attention-Seq2Seq	24.35	12.84	21.57
TCN+CNN-Seq2Seq	26.41	14.34	24.08
				Pointer Generator+coverage	31.67	20.14	28.46
BiLSTM-Pointer Generator	34.32	21.28	31.91
				本方法	35.56	21.89	33.24

从最终的实验结果可以看出，本方法所提出的摘要模型在RNN-Seq2Seq与RNN-Attention-Seq2Seq模型基础上引入了多种文本特征信息，使得文本摘要效果有了很大的提升；此外，本方法模型与TCN+CNN-Seq2Seq与Pointer Generator+coverage模型相比，本方法模型分别在ROUGE-1，ROUGE-2，ROUGE-L指标上有了明显的提高，可见本方法所选取的双编码器器可以更高效的获取文本的特征信息；同时，本方法模型与基线模型BiLSTM-Pointer Generator相比较，各项指标也均有所提升，验证了引入文本主题词后对摘要模型生成效果的提升。此外，由于本方法所用的摘要模型引入了主题词及外部知识库，使得最终生成的文本摘要有更好的可读性与准确性。

Claims

1.基于外部知识和主题信息的服装文本摘要生成方法，其特征在于，具体按照以下步骤实施：

步骤1，构建服装特定领域知识图谱；

步骤2，利用所述步骤1中的知识图谱与预训练模型结合改进LDA模型生成服装文本主题关键词；

2.根据权利要求1所述的基于外部知识和主题信息的服装文本摘要生成方法，其特征在于，所述步骤1具体按照以下步骤实施：

步骤1.1，原始数据收集及处理

步骤1.2，服装领域知识图谱构建

步骤1.3，服装知识图谱的持久化与展示

3.根据权利要求2所述的基于外部知识和主题信息的服装文本摘要生成方法，其特征在于，所述步骤1.2具体按照以下步骤实施：

步骤1.2.1，服装关系类型定义

步骤1.2.2，服装实体抽取

以步骤1.1中获取的数据为源数据进行服装实体抽取；

步骤1.2.3，服装关系对应

4.根据权利要求1所述的基于外部知识和主题信息的服装文本摘要生成方法，其特征在于，所述步骤2具体按照以下步骤实施：

步骤2.1，数据预处理

步骤2.2，主题句划分

步骤2.3，文本内容知识化

将服装文本进行主题句划分后，并为其引入外部知识；

步骤2.4，服装文本主题词识别

5.根据权利要求4所述的基于外部知识和主题信息的服装文本摘要生成方法，其特征在于，所述步骤2.3具体按照以下步骤实施：

步骤2.3.1，分词处理

步骤2.3.2，知识链接

以步骤2.2获取的聚类簇集合C中的每个聚类簇为基本单位，将步骤2.3.1获取的文本分词与步骤1建立的服装知识库进行链接，获取每个聚类簇下所有分词的相关背景知识，记为知识集K＝{K₁,K₂,···,K_n}，其中K_n代表当前句聚类下所有的相关知识，记为K_n＝{w₁,w₂,···,w_t}，其中w_t代表每个分词的关联外部知识，存储形式为w_t＝{I₁,I₂,···,I_i}；

步骤2.3.3，同义词消歧

6.根据权利要求4所述的基于外部知识和主题信息的服装文本摘要生成方法，其特征在于，所述步骤2.4中对于每个句聚类簇C_i主题词的识别过程具体为：

步骤2.4.1，设定当前句聚类簇C_i的先验分布为P(C_i)；

7.根据权利要求1所述的基于外部知识和主题信息的服装文本摘要生成方法，其特征在于，所述步骤3具体为：

G＝sigmod(W₅S_Tv+W₆h_lstm+W₇d_in+b_g) (2)

P_gen＝sigmod(W₉h_lstm+W₁₀H_Tv+b_pgen) (3)

步骤3.7，训练该模型并存储；

步骤3.8，输入服装文本进入模型，得到服装文本摘要。

8.根据权利要求7所述的基于外部知识和主题信息的服装文本摘要生成方法，其特征在于，所述步骤3.2中编码器与解码器具体为：

c_j＝i_j⊙u_j+∑_k∈c(j)f_jk⊙c_k (7)

步骤3.2.3，将LSTM用作生成摘要的解码器，将Transformer与TreeLSTM获得到的隐层状态进行拼接融合，记为d_in，作为单向LSTM解码器的输入，将单向LSTM获取到的的隐层特征状态记录为h_lstm。

9.根据权利要求7所述的基于外部知识和主题信息的服装文本摘要生成方法，其特征在于，所述步骤3.4具体为：

a＝softmax(s(H_v,T_v)) (9)

H_Tv＝ΣaH_v (10)

上式中，W₁,W₂为训练参数；s(H_v,T_v)代表由多层感知机计算出的H_v与T_v的相似度；之后使用soft max()函数对其归一化得到权重a，与Transformer编码器获取的全文特征H_v相乘，得到最终的全文主题特征向量H_Tv；

a＝soft max(s(S_v,T_v)) (12)

S_Tv＝∑aS_v (13)

上式中，W₃,W₄为训练参数，s(S_v,T_v)代表由多层感知机计算出的S_v与T_v的相似度；之后使用soft max()函数对其归一化得到权重a，与语义主题特征S_v相乘得到文本的语义主题特征S_Tv。