CN116756266A - 基于外部知识和主题信息的服装文本摘要生成方法 - Google Patents

基于外部知识和主题信息的服装文本摘要生成方法 Download PDF

Info

Publication number
CN116756266A
CN116756266A CN202310080040.0A CN202310080040A CN116756266A CN 116756266 A CN116756266 A CN 116756266A CN 202310080040 A CN202310080040 A CN 202310080040A CN 116756266 A CN116756266 A CN 116756266A
Authority
CN
China
Prior art keywords
text
clothing
knowledge
model
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310080040.0A
Other languages
English (en)
Inventor
张晓滨
谢文博
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Xian Polytechnic University
Original Assignee
Xian Polytechnic University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Xian Polytechnic University filed Critical Xian Polytechnic University
Priority to CN202310080040.0A priority Critical patent/CN116756266A/zh
Publication of CN116756266A publication Critical patent/CN116756266A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Evolutionary Computation (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了基于外部知识和主题信息的服装文本摘要生成方法,具体按照以下步骤实施:步骤1,构建服装特定领域知识图谱;步骤2,利用步骤1中的知识图谱与预训练模型结合改进LDA模型生成服装文本主题关键词;步骤3,构建由TreeLSTM与Transformer相结合的改进Seq2Seq模型,并在其中引入步骤2中获取的主题关键词,最后训练该模型并保存得到文本摘要生成模型,输入服装文本获得摘要即成。本发明通过自主构建的服装领域下专有知识图谱,并利用其做为外部知识指导服装领域文本主题关键词与文本摘要的生成,有效提高了摘要的生成效果。

Description

基于外部知识和主题信息的服装文本摘要生成方法
技术领域
本发明属于服装信息化方法技术领域,具体涉及基于外部知识和主题信息的服装文本摘要生成方法。
背景技术
随着互联网的发展,人们在享受数字信息便利的同时也不得不面对其所带来的数据爆炸问题。如何使用计算机技术对文本内容进行抽取,使人们可以快速准确地获取文本的主题和主要内容的研究就变得至关重要,文本摘要模型的研究成为学术界的热点研究方向。
同时,随着新一代人工智能的发展,服装纺织等传统工业急需依靠智能化转型提高产业的竞争力。如何帮助用户快速了解服装产品的款式、用料、产地等信息,提高用户的购买欲望已经成为互联网时代服装产业迫切需要处理的难题。在服装领域文本摘要的相关技术中,如何有效利用知识图谱的外部知识去指导文本摘要生成的研究由于缺少相关的服装领域知识图谱而进展缓慢。因此,如何构建特定的服装领域知识图谱,并利用其做为外部知识对服装文本摘要生成进行指导,提高服装文本摘要的生成效果成为一种有效的解决思路。
发明内容
本发明的目的是提供基于外部知识和主题信息的服装文本摘要生成方法,能够有效提高服装文本摘要的生成效果。
本发明所采用的技术方案是,基于外部知识和主题信息的服装文本摘要生成方法,具体按照以下步骤实施:
步骤1,构建服装特定领域知识图谱;
步骤2,利用步骤1中的知识图谱与预训练模型结合改进LDA模型生成服装文本主题关键词;
步骤3,构建由TreeLSTM与Transformer相结合的改进Seq2Seq模型,并在其中引入步骤2中获取的主题关键词,最后训练该模型并保存得到文本摘要生成模型,输入服装文本获得摘要即成。
本发明的特点还在于,步骤1具体按照以下步骤实施:
步骤1.1,原始数据收集及处理
从中服网获取有关服装材料,厂商的介绍文章,清洗后得到的数据作为构建知识图谱的原始数据,利用正则表达式对原始数据进行清洗处理,删去空格,统一文本格式,删去不正确与多余的文本数据,将处理完成后的服装文本数据作为源数据集;
步骤1.2,服装领域知识图谱构建
将服装知识图谱定义为CKG=(V,E),其中V代表构建的服装知识图谱中所有的节点集合,E代表各个服装实体之间的关系集合;
步骤1.3,服装知识图谱的持久化与展示
使用Neo4j数据库作为具体的持久化平台,读取步骤1.2所获取的excel文件,读取三元组数据,使用CREATE与MATCH命令将构建所有三元组数据插入Neo4j数据库,完成服装知识图谱CKG的持久化与展示,最终获取服装领域知识图谱。
步骤1.2具体按照以下步骤实施:
步骤1.2.1,服装关系类型定义
服装知识图谱CKG=(V,E)中的E代表各个服装实体之间的关系集合,其具体为E={vi,rk,vj},其中vi,rk∈V,代表服装实体,rk∈R,rk代表实体vi,rk之间的关系,R代表所有实体关系的集合;
步骤1.2.2,服装实体抽取
以步骤1.1中获取的数据为源数据进行服装实体抽取;
步骤1.2.3,服装关系对应
将步骤1.2.2中抽取的服装实体按公司名称进行分类标识,在每个公司分类下,将公司名称与其包含的其余服装实体按照实体字典D定义的含义与步骤1.2.1定义的关系集合R对应,组装成三元组数据结构,将最终获取的三元组数据集合按行写入excel文件存储。
步骤2具体按照以下步骤实施:
步骤2.1,数据预处理
利用正则表达式将步骤1.2中获取的文本数据预处理分为多个句集合S={S1,S2,S3,···,Sn},其中Sn代表第n个句子,然后利用预训练模型SimBERT获取所有句子的句向量特征
步骤2.2,主题句划分
基于对步骤2.1处理后的句向量特征计算每个句子之间的余弦相似度,公式如下:
其中Si,Sj代表第i,j个句子,得到所有句子之间的余弦相似度后以此为依据,利用谱聚类算法对句集合进行聚类,将主题相似的句子划分为多个聚类簇集合C={C1,C2,···,Cn},其中Cn={S1,S2,···,Si};
步骤2.3,文本内容知识化
将服装文本进行主题句划分后,并为其引入外部知识;
步骤2.4,服装文本主题词识别
将初始的候选词空间由源文档自身包含的词汇内容扩展至服装文本所包含的所有外部知识,改进的LDA模型中,每个聚类簇Ci都有自己的主题分布,该主题分布为多项式分布,记参数α使该主题分布符合狄利克雷分布,每个主题下都包含其对应的词分布,记参数β使该词分布符合狄利克雷分布。
步骤2.3具体按照以下步骤实施:
步骤2.3.1,分词处理
利用jieba分词器对步骤2.2获取到文本的句聚类集C中包含的每个聚类簇进行分词处理,生成对应的词集W={W1,W2,···,Wm},其中每个Wm中都包含本聚类簇下所有的分词结果;
步骤2.3.2,知识链接
以步骤2.2获取的聚类簇集合C中的每个聚类簇为基本单位,将步骤2.3.1获取的文本分词与步骤1建立的服装知识库进行链接,获取每个聚类簇下所有分词的相关背景知识,记为知识集合K,具体为K={K1,K2,···,Kn},其中Kn代表当前句聚类下所有的相关知识,记为Kn={w1,w2,···,wt},其中wt代表每个分词的关联外部知识,其存储形式为wt={I1,I2,···,Ii},其中Ii代表根据分词从外部知识库获取的第i个知识;
步骤2.3.3,同义词消歧
将步骤2.3.2获取到的知识K输入词林进行筛选,删去部分频繁出现且词义类似的词。
步骤2.4中对于每个句聚类簇Ci主题词的识别过程具体为:
步骤2.4.1,设定当前句聚类簇Ci的先验分布为P(Ci);
步骤2.4.2,利用符合狄利克雷分布的参数α,对聚类簇Ci所属的知识集Ki进行吉布斯采样,获取其可能的主题分布θi
步骤2.4.3,从主题分布θi中使用吉布斯采样获取聚类簇Ci的第j个词的主题Zi,j
步骤2.4.4,利用符合狄利克雷分布的参数β,对聚类簇Ci所属的知识集Ki通过吉布斯采样获取其每个主题Zi,j对应的词分布
步骤2.4.5,从词分布中根据当前聚类簇Ci所包含的句子数m选取前m个主题词Ti,j
步骤3具体为:
步骤3.1,首先为TreeLSTM与Transformer构造输入序列,对源文本进行数据预处理,对Transformer编码器,输入序列的处理方式是先进行分词,将源文本的句子切分成单词,切分后的输入序列S表示为S={X1,X2,···,Xn},n代表切分后的单词总数,TreeLSTM编码器则使用语义依存分析为其构造树形输入数据,获得输入序列,将结果记为Xj,j代表源文本中的单词数;
步骤3.2,构建一个改进的Seq2Seq序列模型,包括编码层、注意力层、解码层、指针网络层,由Transformer与TreeLSTM作为编码层,由LSTM层构成解码层,注意力层负责特征融合,指针网络用于优化最终输出;
步骤3.3,将步骤2中所得到的服装文本关键词与知识特征通过BERT预训练模型抽取特征,记为知识主题特征Tv
步骤3.4,使用注意力机制,将主题特征Tv与语义特征Sv,全文特征Hv进行融合,生成全文本的语义主题特征STv和全文主题特征HTv
步骤3.5,构建门控机制融合与指针网络融合取舍已有的语义主题特征STv与全文主题特征向量HTv,其中门控与指针网络的计算公式如下所示:
G=sigmod(W5STv+W6hlstm+W7din+bg) (2)
Pgen=sigmod(W9hlstm+W10HTv+bpgen) (3)
其中W5,W6,W7,bg,W9,W10,bpgen为训练参数;hlstm为解码器隐层状态,din为解码器输入,G∈[0,1],用于控制语义主题特征STv与全文主题特征HTv融合,Pgen的范围是[0,1],当Pgen=1时,使用预测的词作为输出,当Pgen=0时,选择从源文本进行拷贝;
步骤3.6,利用集束搜索扩展最终摘要生成的候选词空间,设置搜索宽度q=5;
步骤3.7,训练该模型并存储;
步骤3.8,输入服装文本进入模型,得到服装文本摘要。
步骤3.2中编码器与解码器具体为:
步骤3.2.1,使用Transformer抽取源文本的时序位置特征,记为文本全文特征Hv
步骤3.2.2,使用TreeLSTM抽取文本语义特征,TreeLSTM首先会按照句法依存树的形式读取输入序列,然后使用输出门oj,遗忘门fjk,输入门ij控制信息的传递,其中,uj控制当前输入与当前结点的子节点输出状态信息的融合,然后通过输入门ij获得当前结点状态,最后将所有的隐层状态连接记录得到文本的语义特征表示记为文本语义特征Sv,具体公式如下:
cj=ij⊙uj+∑k∈c(j)fjk⊙ck (7)
其中,hk代表单元子节点的隐藏状态,W和U为参数矩阵,表示hk与输入Xj之间的相关性,oj,fjk和ij分别代表TreeLSTM的输出门,遗忘门和输入门,cj代表TreeLSTM当前节点的存储单元;训练过程中,模型学习参数矩阵,使得语义重要的单词输入时,输入门值接近1;当输入是相对不重要的单词时,输入门的值接近0,即可控制对文本重要语义信息的获取;
步骤3.2.3,使用LSTM用作生成摘要的解码器,将Transformer与TreeLSTM获得到的隐层状态进行拼接融合,记为din,作为单向LSTM解码器的输入,将单向LSTM获取到的的隐层特征状态记录为hlstm
步骤3.4具体为:
步骤3.4.1,利用软注意力机制获取文本的全文主题特征HTv,如下式:
a=softmax(s(Hv,Tv)) (9)
HTv=∑aHv (10)
上式中,W1,W2为训练参数;s(Hv,Tv)代表由多层感知机计算出的Hv与Tv的相似度;之后使用softmax()函数对其归一化得到权重a,与Transformer编码器获取的全文特征Hv相乘,得到最终的全文主题特征向量HTv
步骤3.4.2,通过软注意力机制可以获取到文本的语义主题特征STv,具体过程如下式所示:
a=softmax(s(Sv,Tv)) (12)
STv=∑aSv (13)
上式中,W3,W4为训练参数,s(Sv,Tv)代表由多层感知机计算出的Sv与Tv的相似度;之后使用softmax()函数对其归一化得到权重a,与语义主题特征Sv相乘得到文本的语义主题特征STv
本发明的有益效果是,通过自主构建的服装领域下专有知识图谱,并利用其做为外部知识指导服装领域文本主题关键词与文本摘要的生成,有效提高了摘要的生成效果。该服装领域下专有知识图谱可有效解决传统文本主题关键词生成过程中缺少外部知识引导、中文分词歧义较大的问题,从而提高了服装文本主题关键词的获取效率。文本摘要生成模型通过结合Transformer提取的文本时序特征与TreeLSTM提取的文本语义特征,提高了文本特征的提取效率。且通过使用注意力机制将外部知识与文本的主题关键词融合入服装文本摘要的生成中,有效地解决了当前服装文本摘要生成过程中存在的语义编码信息获取不完全,语义不通畅及生成摘要缺少文本关键信息等问题。该技术应用于服装信息化处理过程中可有效促进服装产业智能化、互联网化的进展。
附图说明
图1是本发明的执行流程图;
图2是本发明中识别服装文本主题的流程图;
图3是本发明改进的LDA模型的结构图;
图4是本发明改进的Seq2Seq摘要生成模型图。
具体实施方式
下面结合附图和具体实施方式对本发明进行详细说明。
本发明基于外部知识和主题信息的服装文本摘要生成方法,如图1所示,分为模型训练和模型应用两个阶段,具体按照以下步骤实施:
步骤1,构建服装特定领域知识图谱;
步骤1具体按照以下步骤实施:
步骤1.1,原始数据收集及处理
从中服网上爬取有关服装材料,厂商的介绍文章,清洗后得到约2万8千余条数据作为构建知识图谱的原始数据;收集到的原始数据存在重复,多余且文本格式不统一的问题,不能直接用于知识图谱的构建,为此利用正则表达式对原始数据进行清洗处理,删去空格,统一文本格式,删去不正确与多余的文本数据;将处理完成后的服装文本数据作为本方法使用的源数据集;
步骤1.2,服装领域知识图谱构建
将服装知识图谱定义为CKG={V,E},其中V代表构建的服装知识图谱中所有的节点集合,由公司名称,地址,时间,类型,品牌等服装实体构成,E代表各个服装实体之间的关系集合;
步骤1.2具体按照以下步骤实施:
步骤1.2.1,服装关系类型定义
服装知识图谱CKG={V,E}中的E代表各个服装实体之间的关系集合,其具体为E={vi,rk,vj},其中vi,rk∈V,代表服装实体,rk∈R,rk代表实体vi,rk之间的关系,R代表所有实体关系的集合,定义服装实体之间的关系R具体为R={公司名称,所属品牌,品牌理念,所属产地,所属产品,经营范围,产品材质,公司类型,员工人数,场地面积,产品特质,面向人群};
步骤1.2.2,服装实体抽取
以步骤1.1获取到的数据为源数据进行服装实体抽取。实际抽取过程中,由于缺少服装领域对应的文本数据集,因此需要自行对源数据进行文本的序列标注,首先,根据步骤1.2.1定义的知识图谱关系集R为蓝本,定义实体字典形式如下表1所示:
表1实体字典形式
接下来从源数据中随机挑选500条文本数据,从文本中提取出与字典对应的实体信息,记为实体字典D。
将实体字典D作为标注的基本依据。首先读取步骤1.1中清洗后的数据,对其进行分句处理,利用BIO标注体系对其进行标注;之后人工对已标注的数据进行校对,完成后将其更新为BIOes标注体系;最后将竖排展示的数据集转换为横向展示的数据集(便于人工检阅),完成标注。将标注后的数据按2:8的比例划分为测试集与训练集。
最后利用BERT+BiLSTM模型获取文本数据的子向量及上下文特征信息,使用CRF模型解决输入之间的依赖性,最终构建BERT+BiLSTM+CRF模型。利用已标注好的源数据训练模型,完成后使用该模型按照定义的实体字典D对所有源数据进行实体抽取,将抽取到的所有实体集记为E={(vi,di)},其中vi代表抽取出的实体,di∈D代表该实体含义;
步骤1.2.3,服装关系对应
本步骤的目的是为了给步骤1.2.2抽取的服装实体E之间建立对应关系,形成可直接使用的三元组数据结构。将步骤1.2.2中抽取到的服装实体按公司名称进行分类标识,在每个公司分类下,将公司名称与其包含的其余服装实体按照实体字典D定义的含义与步骤1.2.1定义的关系集合R对应,组装成三元组数据结构,如(卡蔓,创立时间,1997年),对所有获取到的服装实体执行上述操作即可获取服装知识图谱所需的三元组结构化数据,将最终获取的三元组数据集合按行写入excel文件存储;
步骤1.3,服装知识图谱的持久化与展示
使用Neo4j数据库作为具体的持久化平台,读取步骤1.2所获取的excel文件,读取三元组数据,使用CREATE与MATCH命令将前述步骤构建所有三元组数据插入Neo4j数据库,完成服装知识图谱CKG的持久化与展示,最终获取到共计约40万节点的服装领域知识图谱。
步骤2,如图2所示,利用步骤1中的知识图谱与预训练模型结合改进LDA模型生成服装文本主题关键词;
步骤2具体按照以下步骤实施:
步骤2.1,数据预处理
利用正则表达式将步骤1.2中获取的文本数据预处理分为多个句集合S={S1,S2,S3,···,Sn},其中Sn代表第n句子,然后利用预训练模型SimBERT获取所有句子的句向量特征
步骤2.2,主题句划分
基于对步骤2.1处理后的句向量特征计算每个句子之间的余弦相似度,公式如下:
其中Si,Sj代表第i,j个句子,得到所有句子之间的余弦相似度后以此为依据,利用谱聚类算法对句集合进行聚类,将主题相似的句子划分为多个聚类簇集合C={C1,C2,···,Cn},其中Cn={S1,S2,···,Si};
步骤2.3,文本内容知识化
将服装文本进行主题句划分后,并为其引入外部知识;
步骤2.3具体按照以下步骤实施:
步骤2.3.1,分词处理
该步骤的主要作用是将文本数据中的长句子转换为词组形式,为接下来的知识链接提供依据,利用jieba分词器对步骤2.2获取到文本的句聚类集C中包含的每个聚类簇进行分词处理,生成对应的词集W={W1,W2,···,Wm},其中每个Wm中都包含本聚类簇下所有的分词结果;
步骤2.3.2,知识链接
该步骤的主要作用是为服装文本引入外部知识,以步骤2.2获取的聚类簇集合C中的每个聚类簇为基本单位,将步骤2.3.1获取的文本分词与步骤1建立的服装知识库进行链接,获取每个聚类簇下所有分词的相关背景知识,记为知识集K={K1,K2,···,Kn},其中Kn代表当前句聚类下所有的相关知识,记为Kn={w1,w2,···,wt},其中wt代表每个分词的关联外部知识,存储形式为wt={I1,I2,···,Ii},此外,在知识链接的过程中,为进一步扩展文本的背景知识,对于无法在步骤1的服装知识库中获取关联知识的分词,链接通用型知识库CN-Dbpedia补充相关知识;
步骤2.3.3,同义词消歧
该步骤处理流程是将步骤2.3.2获取到的知识K输入由哈尔滨工业大学信息检索研究室扩展维护的词林进行筛选,删去部分频繁出现且词义类似的词,以此将那些关联度不是很高但又多次出现的词汇进行剔除,减少其对接下来主题关键词识别的干扰,利用倒排索引的技术去推断每个知识与服装文本的关联度,并以此为依据进行无意义高频词的过滤;
步骤2.4,服装文本主题词识别
改进后的LDA模型结构如图3示,传统LDA模型采用词袋模型为源文档中的每个词赋予相同初始权值,计算其狄利克雷分布从而推导文本主题,而本方法改进的LDA模型使用步骤2.2中获得的句聚类簇代替源文档的概念,并将初始的候选词空间由源文档自身包含的词汇内容扩展至服装文本所包含的所有外部知识,具体如图3右侧部分;
在改进的LDA模型中,每个聚类簇Ci都有自己的主题分布,该主题分布为多项式分布,记参数α使该主题分布符合狄利克雷分布;同样的道理,每个主题下都包含其对应的词分布,记参数β使该词分布符合狄利克雷分布。参数α与β初始均选gensim库下LDA模型的默认值;
步骤2.4中对于每个句聚类簇Ci主题词的识别过程具体为:
步骤2.4.1,设定当前句聚类簇Ci的先验分布为P(Ci);
步骤2.4.2,利用符合狄利克雷分布的参数α,对聚类簇Ci所属的知识集Ki进行吉布斯采样,获取其可能的主题分布θi
步骤2.4.3,从主题分布θi中使用吉布斯采样获取聚类簇Ci的第j个词的主题Zi,j
步骤2.4.4,利用符合狄利克雷分布的参数β,对聚类簇Ci所属的知识集Ki通过吉布斯采样获取其每个主题Zi,j对应的词分布
步骤2.4.5,从词分布中根据当前聚类簇Ci所包含的句子数m选取前m个主题词Ti,j
对每个聚类簇Ci重复步骤2.4.1至步骤2.4.5直至生成所有的主题词即可获取最终识别到的主题,将所有聚类簇的主题词集记为集合T;
在改进的主题关键词识别模型中,利用服装文本知识化的过程将主题关键词候选空间从传统的源文档分词扩展至包含整个源文档相关背景知识的词汇空间,扩展主题词获选范围的同时利用同义词词林过滤高频且意义不明显的词,减少了传统主题识别模型主题识别结果倾向于高频词的问题,获取了表征效果更好的服装文本主题信息;
步骤3,如图4所示,构建由TreeLSTM与Transformer相结合的改进Seq2Seq模型,并在其中引入步骤2中获取的主题关键词,最后训练该模型并保存得到文本摘要生成模型,输入服装文本获得摘要即成。
步骤3具体为:
步骤3.1,首先为TreeLSTM与Transformer构造输入序列,对源文本进行数据预处理,对Transformer编码器,输入序列的处理方式是先进行分词,将源文本的句子切分成单词,切分后的输入序列S表示为S={X1,X2,···,Xn},n代表切分后的单词总数。TreeLSTM编码器则使用语义依存分析为其构造树形输入数据,获得输入序列,将结果记为Xj,j代表源文本中的单词数;
步骤3.2,构建一个改进的Seq2Seq序列模型,包括编码层、注意力层、解码层、指针网络层,由Transformer与TreeLSTM作为编码层,由LSTM层构成解码层,注意力层负责特征融合,指针网络用于优化最终输出;
步骤3.2中编码器与解码器具体为:
步骤3.2.1,使用Transformer抽取源文本的时序位置特征,记为文本全文特征Hv
步骤3.2.2,使用TreeLSTM抽取文本语义特征,TreeLSTM首先会按照句法依存树的形式读取输入序列,然后使用输出门oj,遗忘门fjk,输入门ij控制信息的传递,其中,uj控制当前输入与当前结点的子节点输出状态信息的融合,然后通过输入门ij获得当前结点状态,最后将所有的隐层状态连接记录得到文本的语义特征表示记为文本语义特征Sv,具体公式如下:
cj=ij⊙uj+∑k∈c(j)fjk⊙ck (5)
其中,hk代表单元子节点的隐藏状态,W和U为参数矩阵,表示hk与输入Xj之间的相关性,oj,fjk和ij分别代表TreeLSTM的输出门,遗忘门和输入门,cj代表TreeLSTM当前节点的存储单元;训练过程中,模型学习参数矩阵,使得语义重要的单词输入时,输入门值接近1;当输入是相对不重要的单词时,输入门的值接近0,即可控制对文本重要语义信息的获取;
步骤3.2.3,将LSTM用作生成摘要的解码器,将Transformer与TreeLSTM获得到的隐层状态进行拼接融合,记为din,作为单向LSTM解码器的输入,将单向LSTM获取到的的隐层特征状态记录为hlstm
步骤3.3,将步骤2中所得到的服装文本关键词与知识特征通过BERT预训练模型抽取特征,记为知识主题特征Tv
步骤3.4,使用注意力机制,将主题特征Tv与语义特征Sv,全文特征Hv进行融合,生成全文本的语义主题特征STv和全文主题特征HTv
步骤3.4具体为:
步骤3.4.1,利用软注意力机制获取文本的全文主题特征HTv,如下式:
a=softmax(s(Hv,Tv)) (7)
HTv=∑aHv (8)
上式中,W1,W2为训练参数;s(Hv,Tv)代表由多层感知机计算出的Hv与Tv的相似度;之后使用softmax()函数对其归一化得到权重a,与Transformer编码器获取的全文特征Hv相乘,得到最终的全文主题特征向量HTv
步骤3.4.2,用与3.4.1类似的方法通过软注意力机制可以获取到文本的语义主题特征STv,具体过程如下式所示:
a=softmax(s(Sv,Tv)) (10)
STv=∑aSv (11)
上式中,W3,W4为训练参数,s(Sv,Tv)代表由多层感知机计算出的Sv与Tv的相似度;之后使用softmax()函数对其归一化得到权重a,与语义主题特征Sv相乘得到文本的语义主题特征STv
步骤3.5,构建门控机制融合与指针网络融合取舍已有的语义主题特征STv与全文主题特征向量HTv,其中门控与指针网络的计算公式如下所示:
G=sigmod(W5STv+W6hlstm+W7din+bg) (2)
Pgen=sigmod(W9hlstm+W10HTv+bpgen) (3)
其中W5,W6,W7,bg,W9,W10,bpgen为训练参数;hlstm为解码器隐层状态,din为解码器输入,G∈[0,1],用于控制语义主题特征STv与全文主题特征HTv融合,Pgen的范围是[0,1],当Pgen=1时,使用预测的词作为输出,当Pgen=0时,选择从源文本进行拷贝;
步骤3.6,利用集束搜索扩展最终摘要生成的候选词空间,设置搜索宽度q=5;
步骤3.7,训练该模型并存储;
步骤3.8,输入服装文本进入模型,得到服装文本摘要。
实施例1
为验证本方法的有效性,以中文数据集LCSTS与通过爬虫中服网上有关服装的文本数据作为实验数据集。最终的评测标准选择使用ROUGE工具包对模型最终生成的文本摘要质量进行评估。本方法选取ROUGE-N中ROUGE-1,ROUGE-2和ROUGE-L作为具体的评价指标,其中ROUGE-N计算公式如下式所示。
上式中n代表连续匹配单词数,Ref代表参考摘要集,Count(gramn)用于计算参考摘要的N个连续单词。
上式中,R代表模型最终生成的摘要,Ref代表参考摘要集,LCS(R,Ref)代表生成摘要与参考摘要的最大公共长度,m表示参考摘要长度,n表示生成摘要长度,参数β设置为1。
对比模型选择Text Rank模型、RNN-Seq2Seq模型、RNN-Attention-Seq2Seq、TCN+CNN-Seq2Seq、TCN+CNN-Seq2Seq、Pointer Generator+coverage、BiLSTM-PointerGenerator进行实验。实验结果见下表2和表3:
表2主题识别效果
由表2可以看出本方法在引入服装知识图谱后扩展了整个主题识别的候选词范围,提高了主题识别的准确性与可读性。例如,源文本1“CARMEN”在连接知识图谱后使得生成的主题词包含了“卡蔓”与“女装”两个源文本中不存在的外部知识;而源文本2则在服装知识图谱缺少相关知识时利用通用型知识图谱CN-Dbpedia引入了“关注”这个外部知识,替换了源文本中“瞩目”一词。验证了本方法改进的主题词识别模型可以有效提高服装文本主题的识别效果。
表3不同模型的实验对比
模型 ROUGE-1 ROUGE-2 ROUGE-L
Text Rank 30.42 16.34 29.64
RNN-Seq2Seq 20.23 7.95 17.18
RNN-Attention-Seq2Seq 24.35 12.84 21.57
TCN+CNN-Seq2Seq 26.41 14.34 24.08
Pointer Generator+coverage 31.67 20.14 28.46
BiLSTM-Pointer Generator 34.32 21.28 31.91
本方法 35.56 21.89 33.24
从最终的实验结果可以看出,本方法所提出的摘要模型在RNN-Seq2Seq与RNN-Attention-Seq2Seq模型基础上引入了多种文本特征信息,使得文本摘要效果有了很大的提升;此外,本方法模型与TCN+CNN-Seq2Seq与Pointer Generator+coverage模型相比,本方法模型分别在ROUGE-1,ROUGE-2,ROUGE-L指标上有了明显的提高,可见本方法所选取的双编码器器可以更高效的获取文本的特征信息;同时,本方法模型与基线模型BiLSTM-Pointer Generator相比较,各项指标也均有所提升,验证了引入文本主题词后对摘要模型生成效果的提升。此外,由于本方法所用的摘要模型引入了主题词及外部知识库,使得最终生成的文本摘要有更好的可读性与准确性。

Claims (9)

1.基于外部知识和主题信息的服装文本摘要生成方法,其特征在于,具体按照以下步骤实施:
步骤1,构建服装特定领域知识图谱;
步骤2,利用所述步骤1中的知识图谱与预训练模型结合改进LDA模型生成服装文本主题关键词;
步骤3,构建由TreeLSTM与Transformer相结合的改进Seq2Seq模型,并在其中引入步骤2中获取的主题关键词,最后训练该模型并保存得到文本摘要生成模型,输入服装文本获得摘要即成。
2.根据权利要求1所述的基于外部知识和主题信息的服装文本摘要生成方法,其特征在于,所述步骤1具体按照以下步骤实施:
步骤1.1,原始数据收集及处理
从中服网获取有关服装材料,厂商的介绍文章,清洗后得到的数据作为构建知识图谱的原始数据,利用正则表达式对原始数据进行清洗处理,删去空格,统一文本格式,删去不正确与多余的文本数据,将处理完成后的服装文本数据作为源数据集;
步骤1.2,服装领域知识图谱构建
将服装知识图谱定义为CKG=(V,E),其中V代表构建的服装知识图谱中所有的节点集合,E代表各个服装实体之间的关系集合;
步骤1.3,服装知识图谱的持久化与展示
使用Neo4j数据库作为具体的持久化平台,读取步骤1.2所获取的excel文件,读取三元组数据,使用CREATE与MATCH命令将构建所有三元组数据插入Neo4j数据库,完成服装知识图谱CKG的持久化与展示,最终获取服装领域知识图谱。
3.根据权利要求2所述的基于外部知识和主题信息的服装文本摘要生成方法,其特征在于,所述步骤1.2具体按照以下步骤实施:
步骤1.2.1,服装关系类型定义
服装知识图谱CKG=(V,E)中的E代表各个服装实体之间的关系集合,其具体为E={vi,rk,vj},其中vi,rk∈V,代表服装实体,rk∈R,rk代表实体vi,rk之间的关系,R代表所有实体关系的集合;
步骤1.2.2,服装实体抽取
以步骤1.1中获取的数据为源数据进行服装实体抽取;
步骤1.2.3,服装关系对应
将步骤1.2.2中抽取的服装实体按公司名称进行分类标识,在每个公司分类下,将公司名称与其包含的其余服装实体按照实体字典D定义的含义与步骤1.2.1定义的关系集合R对应,组装成三元组数据结构,将最终获取的三元组数据集合按行写入excel文件存储。
4.根据权利要求1所述的基于外部知识和主题信息的服装文本摘要生成方法,其特征在于,所述步骤2具体按照以下步骤实施:
步骤2.1,数据预处理
利用正则表达式将步骤1.2中获取的文本数据预处理分为多个句集合S={S1,S2,S3,···,Sn},其中Sn代表第n个句子,然后利用预训练模型SimBERT获取所有句子的句向量特征
步骤2.2,主题句划分
基于对步骤2.1处理后的句向量特征计算每个句子之间的余弦相似度,公式如下:
其中Si,Sj代表第i,j个句子,得到所有句子之间的余弦相似度后以此为依据,利用谱聚类算法对句集合进行聚类,将主题相似的句子划分为多个聚类簇集合C={C1,C2,···,Cn},其中Cn={S1,S2,···,Si};
步骤2.3,文本内容知识化
将服装文本进行主题句划分后,并为其引入外部知识;
步骤2.4,服装文本主题词识别
将初始的候选词空间由源文档自身包含的词汇内容扩展至服装文本所包含的所有外部知识,改进的LDA模型中,每个聚类簇Ci都有自己的主题分布,该主题分布为多项式分布,记参数α使该主题分布符合狄利克雷分布,每个主题下都包含其对应的词分布,记参数β使该词分布符合狄利克雷分布。
5.根据权利要求4所述的基于外部知识和主题信息的服装文本摘要生成方法,其特征在于,所述步骤2.3具体按照以下步骤实施:
步骤2.3.1,分词处理
利用jieba分词器对步骤2.2获取到文本的句聚类集C中包含的每个聚类簇进行分词处理,生成对应的词集W={W1,W2,···,Wm},其中每个Wm中都包含本聚类簇下所有的分词结果;
步骤2.3.2,知识链接
以步骤2.2获取的聚类簇集合C中的每个聚类簇为基本单位,将步骤2.3.1获取的文本分词与步骤1建立的服装知识库进行链接,获取每个聚类簇下所有分词的相关背景知识,记为知识集K={K1,K2,···,Kn},其中Kn代表当前句聚类下所有的相关知识,记为Kn={w1,w2,···,wt},其中wt代表每个分词的关联外部知识,存储形式为wt={I1,I2,···,Ii};
步骤2.3.3,同义词消歧
将步骤2.3.2获取到的知识K输入词林进行筛选,删去部分频繁出现且词义类似的词。
6.根据权利要求4所述的基于外部知识和主题信息的服装文本摘要生成方法,其特征在于,所述步骤2.4中对于每个句聚类簇Ci主题词的识别过程具体为:
步骤2.4.1,设定当前句聚类簇Ci的先验分布为P(Ci);
步骤2.4.2,利用符合狄利克雷分布的参数α,对聚类簇Ci所属的知识集Ki进行吉布斯采样,获取其可能的主题分布θi
步骤2.4.3,从主题分布θi中使用吉布斯采样获取聚类簇Ci的第j个词的主题Zi,j
步骤2.4.4,利用符合狄利克雷分布的参数β,对聚类簇Ci所属的知识集Ki通过吉布斯采样获取其每个主题Zi,j对应的词分布
步骤2.4.5,从词分布中根据当前聚类簇Ci所包含的句子数m选取前m个主题词Ti,j
7.根据权利要求1所述的基于外部知识和主题信息的服装文本摘要生成方法,其特征在于,所述步骤3具体为:
步骤3.1,首先为TreeLSTM与Transformer构造输入序列,对源文本进行数据预处理,对Transformer编码器,输入序列的处理方式是先进行分词,将源文本的句子切分成单词,切分后的输入序列S表示为S={X1,X2,···,Xn},n代表切分后的单词总数,TreeLSTM编码器则使用语义依存分析为其构造树形输入数据,获得输入序列,将结果记为Xj,j代表源文本中的单词数;
步骤3.2,构建一个改进的Seq2Seq序列模型,包括编码层、注意力层、解码层、指针网络层,由Transformer与TreeLSTM作为编码层,由LSTM层构成解码层,注意力层负责特征融合,指针网络用于优化最终输出;
步骤3.3,将步骤2中所得到的服装文本关键词与知识特征通过BERT预训练模型抽取特征,记为知识主题特征Tv
步骤3.4,使用注意力机制,将主题特征Tv与语义特征Sv,全文特征Hv进行融合,生成全文本的语义主题特征STv和全文主题特征HTv
步骤3.5,构建门控机制融合与指针网络融合取舍已有的语义主题特征STv与全文主题特征向量HTv,其中门控与指针网络的计算公式如下所示:
G=sigmod(W5STv+W6hlstm+W7din+bg) (2)
Pgen=sigmod(W9hlstm+W10HTv+bpgen) (3)
其中W5,W6,W7,bg,W9,W10,bpgen为训练参数;hlstm为解码器隐层状态,din为解码器输入,G∈[0,1],用于控制语义主题特征STv与全文主题特征HTv融合,Pgen的范围是[0,1],当Pgen=1时,使用预测的词作为输出,当Pgen=0时,选择从源文本进行拷贝;
步骤3.6,利用集束搜索扩展最终摘要生成的候选词空间,设置搜索宽度q=5;
步骤3.7,训练该模型并存储;
步骤3.8,输入服装文本进入模型,得到服装文本摘要。
8.根据权利要求7所述的基于外部知识和主题信息的服装文本摘要生成方法,其特征在于,所述步骤3.2中编码器与解码器具体为:
步骤3.2.1,使用Transformer抽取源文本的时序位置特征,记为文本全文特征Hv
步骤3.2.2,使用TreeLSTM抽取文本语义特征,TreeLSTM首先会按照句法依存树的形式读取输入序列,然后使用输出门oj,遗忘门fjk,输入门ij控制信息的传递,其中,uj控制当前输入与当前结点的子节点输出状态信息的融合,然后通过输入门ij获得当前结点状态,最后将所有的隐层状态连接记录得到文本的语义特征表示记为文本语义特征Sv,具体公式如下:
cj=ij⊙uj+∑k∈c(j)fjk⊙ck (7)
其中,hk代表单元子节点的隐藏状态,W和U为参数矩阵,表示hk与输入Xj之间的相关性,oj,fjk和ij分别代表TreeLSTM的输出门,遗忘门和输入门,cj代表TreeLSTM当前节点的存储单元;训练过程中,模型学习参数矩阵,使得语义重要的单词输入时,输入门值接近1;当输入是相对不重要的单词时,输入门的值接近0,即可控制对文本重要语义信息的获取;
步骤3.2.3,将LSTM用作生成摘要的解码器,将Transformer与TreeLSTM获得到的隐层状态进行拼接融合,记为din,作为单向LSTM解码器的输入,将单向LSTM获取到的的隐层特征状态记录为hlstm
9.根据权利要求7所述的基于外部知识和主题信息的服装文本摘要生成方法,其特征在于,所述步骤3.4具体为:
步骤3.4.1,利用软注意力机制获取文本的全文主题特征HTv,如下式:
a=softmax(s(Hv,Tv)) (9)
HTv=ΣaHv (10)
上式中,W1,W2为训练参数;s(Hv,Tv)代表由多层感知机计算出的Hv与Tv的相似度;之后使用soft max()函数对其归一化得到权重a,与Transformer编码器获取的全文特征Hv相乘,得到最终的全文主题特征向量HTv
步骤3.4.2,通过软注意力机制可以获取到文本的语义主题特征STv,具体过程如下式所示:
a=soft max(s(Sv,Tv)) (12)
STv=∑aSv (13)
上式中,W3,W4为训练参数,s(Sv,Tv)代表由多层感知机计算出的Sv与Tv的相似度;之后使用soft max()函数对其归一化得到权重a,与语义主题特征Sv相乘得到文本的语义主题特征STv
CN202310080040.0A 2023-01-31 2023-01-31 基于外部知识和主题信息的服装文本摘要生成方法 Pending CN116756266A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310080040.0A CN116756266A (zh) 2023-01-31 2023-01-31 基于外部知识和主题信息的服装文本摘要生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310080040.0A CN116756266A (zh) 2023-01-31 2023-01-31 基于外部知识和主题信息的服装文本摘要生成方法

Publications (1)

Publication Number Publication Date
CN116756266A true CN116756266A (zh) 2023-09-15

Family

ID=87957729

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310080040.0A Pending CN116756266A (zh) 2023-01-31 2023-01-31 基于外部知识和主题信息的服装文本摘要生成方法

Country Status (1)

Country Link
CN (1) CN116756266A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117875268A (zh) * 2024-03-13 2024-04-12 山东科技大学 一种基于分句编码的抽取式文本摘要生成方法
CN118012992A (zh) * 2024-04-09 2024-05-10 华南理工大学 一种金融文本关系抽取方法、系统及存储介质

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117875268A (zh) * 2024-03-13 2024-04-12 山东科技大学 一种基于分句编码的抽取式文本摘要生成方法
CN117875268B (zh) * 2024-03-13 2024-05-31 山东科技大学 一种基于分句编码的抽取式文本摘要生成方法
CN118012992A (zh) * 2024-04-09 2024-05-10 华南理工大学 一种金融文本关系抽取方法、系统及存储介质

Similar Documents

Publication Publication Date Title
CN111914558B (zh) 基于句袋注意力远程监督的课程知识关系抽取方法及系统
CN104408173B (zh) 一种基于b2b平台的核心关键词自动提取方法
Zubrinic et al. The automatic creation of concept maps from documents written using morphologically rich languages
US20220004545A1 (en) Method of searching patent documents
US20210350125A1 (en) System for searching natural language documents
US20210397790A1 (en) Method of training a natural language search system, search system and corresponding use
CN112328800A (zh) 自动生成编程规范问题答案的系统及方法
US20230138014A1 (en) System and method for performing a search in a vector space based search engine
CN116737967B (zh) 一种基于自然语言的知识图谱构建和完善系统及方法
CN114048305A (zh) 一种基于图卷积神经网络的行政处罚文书的类案推荐方法
CN111651569A (zh) 一种电力领域的知识库问答方法及系统
CN114064901B (zh) 一种基于知识图谱词义消歧的书评文本分类方法
CN116756266A (zh) 基于外部知识和主题信息的服装文本摘要生成方法
Dawar et al. Comparing topic modeling and named entity recognition techniques for the semantic indexing of a landscape architecture textbook
CN110765781A (zh) 一种领域术语语义知识库人机协同构建方法
CN114840685A (zh) 一种应急预案知识图谱构建方法
CN114265936A (zh) 一种科技项目文本挖掘的实现方法
CN113963748A (zh) 一种蛋白质知识图谱向量化方法
Hossen et al. Bert model-based natural language to nosql query conversion using deep learning approach
CN111199154B (zh) 基于容错粗糙集的多义词词表示方法、系统及介质
CN113821618B (zh) 一种电子病历是否类细项提取方法与系统
Dai Construction of English and American literature corpus based on machine learning algorithm
CN117453851B (zh) 基于知识图谱的文本索引增强问答方法及系统
CN112100370B (zh) 一种基于文本卷积和相似度算法的图审专家组合推荐方法
CN111259166B (zh) 基于知识图谱的科研实体链接方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination