CN113901200A - 基于主题模型的文本摘要方法、装置及存储介质 - Google Patents

基于主题模型的文本摘要方法、装置及存储介质 Download PDF

Info

Publication number
CN113901200A
CN113901200A CN202111145727.5A CN202111145727A CN113901200A CN 113901200 A CN113901200 A CN 113901200A CN 202111145727 A CN202111145727 A CN 202111145727A CN 113901200 A CN113901200 A CN 113901200A
Authority
CN
China
Prior art keywords
model
topic
text
vector
seq2seq
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111145727.5A
Other languages
English (en)
Inventor
范凌
王喆
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tezign Shanghai Information Technology Co Ltd
Original Assignee
Tezign Shanghai Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tezign Shanghai Information Technology Co Ltd filed Critical Tezign Shanghai Information Technology Co Ltd
Priority to CN202111145727.5A priority Critical patent/CN113901200A/zh
Publication of CN113901200A publication Critical patent/CN113901200A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2411Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on the proximity to a decision surface, e.g. support vector machines
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/166Editing, e.g. inserting or deleting
    • G06F40/186Templates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供一种基于主题模型的文本摘要方法、装置及存储介质,包括:基于seq2seq序列模型中的编码器对获取的文本信息进行编码,得到基于文本句法层面的第一中间语义向量;将所述第一中间语义向量输入至主题模型中,得到主题向量;根据所述主题向量和所述第一中间语义向量,并通过seq2seq序列模型中的解码器进行解码,生成目标摘要信息。利用由主题模型和seq2seq序列模型组成的联合学习网络,能够学习和保留全局语义信息,以及可以提供额外的语义指导来抓取文档重要语义信息,有助于捕获文本的语义信息作为关键信息来对解码器端的文本摘要生成进行指导,使得生成的文本摘要更贴合输入文档的语义信息。

Description

基于主题模型的文本摘要方法、装置及存储介质
技术领域
本申请涉及数据处理领域,具体而言,涉及一种基于主题模型的文本摘要方 法、装置及存储介质。
背景技术
在当今的数字经济中,我们每天面临着大量的信息输入,伴随而来的是信息 过载,这对于高效的信息消费形成了挑战,如何对海量的文本实现信息内容的浓 缩和概括则成为了必要的研究课题。从较长的文本自动生成简短而连贯的片段和 准确而简洁的摘要对许多下游任务都非常关键,比如一些信息检索和推荐系统。 同时,通过算法的自动总结也可以减少用户的阅读时间,使用户的选择过程更容 易,检索更有效,增加消费者能处理的文本数量。此外,通过摘要式的模型由于 是基于训练语料,所以在预测生成阶段采取的是近乎统一的评价,相比于人工书 写的摘要更加的客观。
现有的文本摘要主要分为两种方式,抽取式摘要:直接从文本中抽取一些拼 接成新的文本摘要,不会修改任何单词;总结式摘要:通过对文本内容的理解直 接将原始的大段文本从新概括的总结成简短的文本内容,产生全新的短语和句子, 源于逐字捕捉原文的内容并重新生成新的摘要,这是一个更具挑战性的工作但是 却与人类总结文本摘要的形式一致,也更为通用。本方法也是在此类方向上的探 索实现。无论是哪种摘要任务,通常采取的都是seq2seq的结构,即序列到序列 的结构,输入一段文本,输出一段文本,在这个模型中关键的一个因素就是我们 如何表达和编码一段输入文本。传统的方式我们通过总结方法和自注意力模型方 法来实现这个过程。
总结类方法就是探索文本的潜在表征,并将这些表征作为输入文本的解码序 列输入解码器,这种方法有以下几个缺点:
(1)由于强调文本的潜在表征进行提取,并默认这些表征的相互交互都必 须是相关的,但在现实中这种情况并不能保证,因为文本信息中可能会存在噪声 点;
(2)只有当文本中的组内或集成信息的独立性被忽略时才能较好提取文本 的离散信息,不能解决输入文本的信息重要性之间可能存在不均衡的问题。
针对以上缺点,基于序列的注意力机制应运而生,这种方法可以通过学习的 注意力方式去处理文本中的不同信息,尤其以transformer架构中的self- attention最为常见,能很好的捕捉到文本中不均衡的短时序和长时序的文本信 息,但是这种方法也有缺点:self-attention这种自注意力方法可以在句法层面 上很好的捕捉上下文表征信息,但是却丢失了文本的语义层面的信息,这可能会 降低seq2seq序列模型的表现效果,特别是对于摘要任务。
因此,亟需解决上述现有的文本摘要所存在的技术问题。
发明内容
本发明实施例提供一种基于主题模型的文本摘要方法、装置及存储介质,用 以解决现有的文本摘要技术中所存在的文本信息中可能会存在噪声点、输入文本 的信息重要性之间可能存在不均衡以及丢失文本的语义层面的信息的技术问题。
本发明实施例的第一方面,提供一种基于主题模型的文本摘要方法,包括:
基于seq2seq序列模型中的编码器对获取的文本信息进行编码,得到基于文 本句法层面的第一中间语义向量;
将所述第一中间语义向量输入至主题模型中,得到主题向量;
根据所述主题向量和所述第一中间语义向量,并通过seq2seq序列模型中的 解码器进行解码,生成目标摘要信息。
可选地,在第一方面的一种可能实现方式中,将所述第一中间语义向量输入 至主题模型中,得到主题向量,包括:
根据第一损失函数对所述主题模型进行训练,所述主题模型的第一损失函数 如下:
Figure BDA0003285483340000021
其中,DKL是KL散度,用以衡量两个分布之间的差异;x是主题模型编码 器的输入;h是主题模型的中间变量;
Figure BDA0003285483340000022
表示的是拟合正态分布的h概率分 布;pθ(h)是编码器端中间变量h的后验概率分布;logpθ(xi|zi,l)表示是以z=f(h) 作为输入,重新还原得到x的概率分布的似然估计。
可选地,在第一方面的一种可能实现方式中,所述将所述第一中间语义向量 输入至主题模型中,得到主题向量,包括:
将所述第一中间语义向量通过变换的方式得到符合正态分布的中间语义向 量;
对所述符合正态分布的中间语义向量使用Relu激活函数,以得到主题向量。
可选地,在第一方面的一种可能实现方式中,所述根据所述主题向量和所述 第一中间语义向量,并通过seq2seq序列模型中的解码器进行解码,生成目标摘 要信息,包括:
根据第二损失函数对联合学习网络进行训练,所述联合学习网络由主题模型 和seq2seq序列模型组成;
基于训练后的联合学习网络得到目标摘要信息。
可选地,在第一方面的一种可能实现方式中,所述所述第二损失函数如 下:
L=αLtm+βLfinetune
其中,α和β是两个超参数,Ltm是主题模型的损失函数,Lfinetune 是seq2seq序列模型的损失函数。
可选地,在第一方面的一种可能实现方式中,目标摘要信息的生成采用如下 公式:
Figure BDA0003285483340000031
其中LM是language model,TM是topic model,两个部分都有head,表示 两个模型都是多头注意力机制,多头注意力机制表示计算过程中向量最后一维 的维度维度会按头数进行拆解;Wtopic表示主题模型的输出的向量矩阵表示z(d)
Figure BDA0003285483340000032
表示单词矩阵的转置;yi-1表示前i-1个输出结果,因为采用 的是语言模型的思路,预测第i个文字的时候会利用前i-1个文字的结果。
本发明实施例的第二方面,提供一种基于主题模型的文本摘要装置,包括:
第一获取模块,用于基于seq2seq序列模型中的编码器对获取的文本信息进 行编码,得到基于文本句法层面的第一中间语义向量;
第二获取模块,用于将所述第一中间语义向量输入至主题模型中,得到主题 向量;
目标摘要生成模块,用于根据所述主题向量和所述第一中间语义向量,并通 过seq2seq序列模型中的解码器进行解码,生成目标摘要信息。
可选地,在第二方面的一种可能实现方式中,所述目标摘要生成模块用于执 行以下步骤,包括:
根据第二损失函数对联合学习网络进行训练,所述联合学习网络由主题模型 和seq2seq序列模型组成;
基于训练后的联合学习网络得到目标摘要信息。
可选地,在第二方面的一种可能实现方式中,主题模型的训练过程,包括:
根据第一损失函数对所述主题模型进行训练,所述主题模型的第一损失函数 如下:
Figure BDA0003285483340000041
其中,DKL是KL散度,用以衡量两个分布之间的差异;x是主题模型编码 器的输入;h是主题模型的中间变量;
Figure BDA0003285483340000042
表示的是拟合正态分布的h概率分 布;pθ(h)是编码器端中间变量h的后验概率分布;logpθ(xi|zi,l)表示是以z=f(h) 作为输入,重新还原得到x的概率分布的似然估计。
可选地,在第二方面的一种可能实现方式中,所述第二获取模块,用于执行 以下步骤,包括:
将所述第一中间语义向量通过变换的方式得到符合正态分布的中间语义向 量;
对所述符合正态分布的中间语义向量使用Relu激活函数,以得到主题向量。
可选地,在第二方面的一种可能实现方式中,所述所述第二损失函数如 下:
L=αLtm+βLfinetune
其中,α和β是两个超参数,Ltm是主题模型的损失函数,Lfinetune 是seq2seq序列模型的损失函数。
可选地,在第二方面的一种可能实现方式中,目标摘要信息的生成采用如下 公式:
Figure BDA0003285483340000043
其中LM是language model,TM是topic model,两个部分都有head,表示 两个模型都是多头注意力机制,多头注意力机制表示计算过程中向量最后一维的 维度维度会按头数进行拆解;Wtopic表示主题模型的输出的向量矩阵表示z(d)
Figure BDA0003285483340000051
表示单词矩阵的转置;yi-1表示前i-1个输出结果,因为采用 的是语言模型的思路,预测第i个文字的时候会利用前i-1个文字的结果。
本发明实施例的第三方面,提供一种可读存储介质,所述可读存储介质中存 储有计算机程序,所述计算机程序被处理器执行时用于实现本发明第一方面及第 一方面各种可能设计的所述方法。
本发明提供的基于主题模型的文本摘要方法、装置及存储介质,能够基于seq2seq序列模型中的编码器对获取的文本信息进行编码,得到基于文本句法层 面的第一中间语义向量;将所述第一中间语义向量输入至主题模型中,得到主题 向量;根据所述主题向量和所述第一中间语义向量,并通过seq2seq序列模型中 的解码器进行解码,生成目标摘要信息。利用由主题模型和seq2seq序列模型组 成的联合学习网络,能够学习和保留全局语义信息,以及可以提供额外的语义指 导来抓取文档重要语义信息,有助于捕获文本的语义信息作为关键信息来对解码 器端的文本摘要生成进行指导,使得生成的文本摘要更贴合输入文档的语义信息。
附图说明
图1、2为基于主题模型的文本摘要方法的第一种实施方式的流程图;
图3为基于主题模型的文本摘要装置的第一种实施方式的结构图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实 施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所 描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中 的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、 “第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定 的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里 描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行 顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实 施例的实施过程构成任何限定。
应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在 于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产 品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的 或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是 一种描述关联对象的关联关系,表示可以存在三种关系,例如,和/或B,可以表 示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示 前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指 A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、 B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
应当理解,在本发明中,“与A对应的B”、“与A相对应的B”、“A与B 相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A 确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。A与 B的匹配,是A与B的相似度大于或等于预设的阈值。
取决于语境,如在此所使用的“若”可以被解释成为“在……时”或 “当……时”或“响应于确定”或“响应于检测”。
下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的 实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
实施例1:
本发明提供一种基于主题模型的文本摘要方法,如图1和图2所示其流程图, 包括:
步骤S110、基于seq2seq序列模型中的编码器对获取的文本信息进行编码, 得到基于文本句法层面的第一中间语义向量。在本步骤中,该seq2seq序列模型 由编码器和解码器构成;获取的文本信息可以是含有n个文字的文档,该文档可 以表示为n个向量的形式,即输入序列X1:n={X1,X2,...Xn};然后通过编码器端转 换成第一中间语义向量,得到提取了基于文本句法层面的语义表征作为编码器 端的输出。采用编码器端的预训练语言模型的最后一层隐层输出,作为seq2seq 序列模型中的解码器端和主题模型的输入。
步骤S120、将所述第一中间语义向量输入至主题模型中,得到主题向量。
在本步骤中,主题模型采用变分编码器的思路,利用变分编码器进行编码, 可以学习到全局特征,得到主题词汇的概率分布及主题向量,并将其作为指导 m 附加在seq2seq序列模型中的解码器端,让解码器端输出更贴合文本主题语义 信息的摘要。其中变分编码器涉及的编码器和解码器是要区别于seq2seq序列 m 模型中的编码器和解码器的。
步骤S130、根据所述主题向量和所述第一中间语义向量,并通过seq2seq序 列模型中的解码器进行解码,生成目标摘要信息。
在上述步骤S110-S130中,其文本摘要的生成过程主要包括:先将原始输入 序列X1:n输入至seq2seq序列模型中的编码器端进行编码得到第一中间语义向 量X1:n’;然后通过seq2seq序列模型中的解码器端进行解码生成最终的目标摘 要Y1:m;在解码过程中融合了主题模型输出的主题向量作为影响因子。
在本步骤中,在解码过程中,当解码器端从词汇表中逐个概率选取字用于摘 要表示的同时,同时将主题模型得到的基于语义层面的主题向量作为影响因子, 来指导这个概率,使得生成的文本摘要更贴合输入文档的语义信息。在seq2seq 序列模型的解码器中有三层,第一层的输入是seq2seq序列模型的编码器输出的 第一中间语义向量(与主题模型的输入相同),在最后一层会采用一般注意力机 制将编码器输出的第一中间语义向量与主题模型中的主题向量进行结合,然后在 解码器端进行解码。其中采用如下公式进行结合:
Figure BDA0003285483340000073
其中,Q=Wq·zd代表query,是主题模型的输出;K=Wk·H1:n代表key,是 seq2seq编码器的输出;V=Wv·H1:n代表value,是seq2seq编码器的输出。
在本步骤中,通过transformer-based的解码器对所述第一中间语义向量进 行解码,生成条件概率分布,得到输出序列Y1:m,即摘要信息pdecoder(Y1:m∣ X1:n’)。transfomer-based的解码器是多个解码器块的叠加,利用语言模型LM 的特性,一方面会利用编码器端输出的中间语义向量X1:n’;
另一方面对于第i步的推测结果yi会利用前i-1步的结果的Y1:i-1,仅考 虑主干网络的部分,我们可以将最终结果的推导,以下面的形式表示:
Figure BDA0003285483340000074
Figure BDA0003285483340000081
其中,
Figure RE-GDA0003376951340000082
这里表示单词矩阵的转置;
在一个实施例中,将所述第一中间语义向量输入至主题模型中,得到主题向 量,包括:
根据所述第一损失函数对所述主题模型进行训练,所述主题模型的第一损失 函数如下:
Figure BDA0003285483340000084
其中,DKL是KL散度,用以衡量两个分布之间的差异;x是主题模型编码 器的输入;h是主题模型的中间变量;
Figure BDA0003285483340000085
表示的是拟合正态分布的h概率分 布;pθ(h)是编码器端中间变量h的后验概率分布;logpθ(xi|zi,l)表示是以z=f(h) 作为输入,重新还原得到x的概率分布的似然估计。
在本步骤中,会先基于变分编码器中的编码器对输入的文本1进行编码,得 到一个中间语义向量,然后通过变分编码器中的解码器进行解码,得到文本2; 在这个过程中,编码器和解码器的参数是可学习的;将损失函数设置为文 本1和文本2的差距,并根据该损失函数对主题模型(变分编码器)进行训练, 其目的是能缩小文本1和文本2的差距。以达到“将一段话转变成一些主题词, 再通过主题词把这段话能够还原出来”的目的,那么变分编码器的训练就完成。
在一个实施例中,所述将所述第一中间语义向量输入至主题模型中,得到主 题向量,包括:
将所述第一中间语义向量通过变换的方式得到符合正态分布的中间语义向 量;
对所述符合正态分布的中间语义向量使用Relu激活函数,以得到主题向 量。
在本步骤中,变分编码器在训练的过程中还会设置一些约束,如图2中主 题模型框架内所示:x表示seq2seq编码器端的输入,即第一中间语义向量; μ(x)和logσ(x)表示输入的第一中间语义向量要进行符合正态分布的约束;h 表示主题模型框架内通过变换得到的符合正态分布的中间语义向量;z表示h 通过Relu激活函数得到的z=f(h)。在主题模型训练完成后,主题模型激活后 的z作为输入文本的主题向量表示,
采用Wtopic∈RK×Vtopic表示;其中K表示主题数,Vtopic是词汇 表大小。
在一个实施例中,根据所述主题向量和所述第一中间语义向量,并通过 seq2seq序列模型中的解码器进行解码,生成目标摘要信息,包括:
根据所述第二损失函数的值对联合学习网络进行训练,所述联合学习网络由 主题模型和seq2seq序列模型组成;
基于训练后的联合学习网络得到目标摘要信息。
在本步骤中,该过程是seq2seq的LMhead和主题模型的TMHead联合指导共 同产生的结果。
在一个实施例中,所述第二损失函数如下:
L=αLtm+βLfinetune
其中,α和β是两个超参数,Ltm是主题模型的损失函数,Lfinetune 是seq2seq序列模型的损失函数。
在本步骤中,首先整个文本的输入是文本1,最终联合学习网络的输出也可 以看作是主干网络seq2seq最终的输出,即文本3,那么联合学习网络的损失函 数与文本1和文本3有关,文本1就是原文,文本3就是生成的摘要信息,联合 学习网络通过文本1输出文本3,对于文本3,我们有标准摘要答案(文本3’), 第二损失函数的目的就是使(文本3)和(文本3’)尽可能接近。
在一个实施例中,在基于训练后的联合学习网络得到目标摘要信息的过程中, 目标摘要信息的生成采用如下公式:
Figure BDA0003285483340000091
其中LM是language model,TM是topic model,两个部分都有head,表示 两个模型都是多头注意力机制,多头注意力机制表示计算过程中向量最后一维 的维度维度会按头数进行拆解;Wtopic表示主题模型的输出的向量矩阵表示z(d)
Figure BDA0003285483340000092
表示单词矩阵的转置;yi-1表示前i-1个输出结果,因为采用 的是语言模型的思路,预测第i个文字的时候会利用前i-1个文字的结果。
本发明提供的技术方案,能够基于seq2seq序列模型中的编码器对获取的文 本信息进行编码,得到基于文本句法层面的第一中间语义向量;将所述第一中间 语义向量输入至主题模型中,得到主题向量;根据所述主题向量和所述第一中间 语义向量,并通过seq2seq序列模型中的解码器进行解码,生成目标摘要信息。 利用由主题模型和seq2seq序列模型组成的联合学习网络,能够学习和保留全局 语义信息,以及可以提供额外的语义指导来抓取文档重要语义信息,有助于捕获 文本的语义信息作为关键信息来对解码器端的文本摘要生成进行指导,使得生成 的文本摘要更贴合输入文档的语义信息。
实施例2:
本发明的实施例还提供一种基于主题模型的文本摘要装置,如图3所示,包 括:
第一获取模块,用于基于seq2seq序列模型中的编码器对获取的文本信息进 行编码,得到基于文本句法层面的第一中间语义向量;
第二获取模块,用于将所述第一中间语义向量输入至主题模型中,得到主题 向量;
目标摘要生成模块,用于根据所述主题向量和所述第一中间语义向量,并通 过seq2seq序列模型中的解码器进行解码,生成目标摘要信息。
在一个实施例中,所述目标摘要生成模块用于执行以下步骤,包括:
根据所述第二损失函数的值对联合学习网络进行训练,所述联合学习网络由 主题模型和seq2seq序列模型组成;
基于训练后的联合学习网络得到目标摘要信息。
在一个实施例中,可选地,在第二方面的一种可能实现方式中,将所述第一 中间语义向量输入至主题模型中,得到主题向量,包括:
根据所述第一损失函数对所述主题模型进行训练,所述主题模型的第一损失 函数如下:
Figure BDA0003285483340000101
其中,DKL是KL散度,用以衡量两个分布之间的差异;x是主题模型编码 器的输入;h是主题模型的中间变量;
Figure BDA0003285483340000102
表示的是拟合正态分布的h概率分 布;pθ(h)是编码器端中间变量h的后验概率分布;logpθ(xi|zi,l)表示是以z=f(h) 作为输入,重新还原得到x的概率分布的似然估计。
在一个实施例中,所述第二获取模块,用于执行以下步骤,包括:
将所述第一中间语义向量通过变换的方式得到符合正态分布的中间语义向 量;
对所述符合正态分布的中间语义向量使用Relu激活函数,以得到主题向量。 在一个实施例中,所述所述第二损失函数如下:
L=αLtm+βLfinetune
其中,α和β是两个超参数,Ltm是主题模型的损失函数,Lfinetune 是seq2seq中基于seq2seq序列模型中的第二解码器的损失函数。
可选地,在第二方面的一种可能实现方式中,目标摘要信息的生成采用如下 公式:
Figure BDA0003285483340000111
其中LM是language model,TM是topic model,两个部分都有head,表示 两个模型都是多头注意力机制,多头注意力机制表示计算过程中向量最后一维 的维度维度会按头数进行拆解;Wtopic表示主题模型的输出的向量矩阵表示z(d)
Figure BDA0003285483340000112
表示单词矩阵的转置;yi-1表示前i-1个输出结果,因为采用 的是语言模型的思路,预测第i个文字的时候会利用前i-1个文字的结果。
实施例3:
整体逻辑
将神经主题模型和基于seq2seq的transformer模型构建的联合学习网 络,能够学习和保留全局语义信息,以及可以提供额外的语义指导来抓取文 档重要语义信息。采用编码器端的预训练语言模型的最后一层隐层输出,作 为解码器端和主题模型的输入,同时将主题模型提取的语义分布通过注意机 制,作为先验知识附加在解码器端,让解码器端输出更贴合文本主题语义信 息的摘要,简要流程示例如下:
1.带有n个文字的文档首先通过编码生成数字向量,借由词汇矩阵对数字 向量进行词向量编码,此过程中借由自注意力机制,得到提取了基于文本句 法层面的语义表征作为编码器端的输出。
2.由于编码器端的输出已经具备了文本的上下文句法信息,在这个给定 的语料下,主题模型以这个输出作为输入,利用主题矩阵(矩阵行数为指定 主题类别,列数为主题词汇数)编码,则可以学习到全局特征,得到主题词 汇的概率分布及信息编码表征,并将其作为指导附加在解码器端。
3.解码器端,是逐字生成文本摘要,采用时序模型的思路,一方面利用 编码器端的全部输出,另一方面,在预测当前字的结果时,还需要利用解码 器端前面生成的摘要文本信息。
4.同时,在解码过程中,当解码器端从词汇表中逐个概率选取字用于摘 要表示的同时,同时将主题模型得到的基于语义层面的主题词汇编码表征作 为影响因子,指导这个概率,使得生成的文本摘要更贴合输入文档的语义信 息。
5.最终在解码器端生成包含m个文字的文本摘要。
效果验证:
我们衡量比较了我们的模型和当前学术界比较认可的BART模型(一种公认 的对于摘要生成任务较好的SOTA模型)在CNN/DM数据集上的结果,采取的 衡量指标是学术界认可的生成式任务的衡量指标ROUGE-1, ROUGE-2,ROUGE-L,我们的模型测试结果分别为44.38,22.19, 41.33,BART的结果为44.16,21.28,40.09,可以看到我们的模型虽 然在ROUGE-2上的衡量指标略低于BART,在ROUGE-1和ROUGE- L均在SOTA模型上有所提高。
技术效果分析:
(1)在之前seq2seq序列模型的基础上提出了一个用于概括摘要的新主 题模型框架,包含主题信息,有助于捕获文本的语义信息作为关键信息来对 解码器端的文本摘要生成进行指导。这种通用框架在NLP中开辟了一个新的视 角,并且可以扩展到其他语言任务。
(2)通过主题模型和基于注意力机制的transformer转换器来利用主题 级特征,从而实现基于主题感知注意力的编码器-解码器,可有效提升文本摘 要任务的表现效果。
(3)主题模型的部分可以抽取文档中的单词属于特定主题的概率,通 过利用主题关联信息,对于文档中的词汇,我们的模型能够分配更多更可能 代表关键词主题的词的权重,从而产生更好的总结。
(4)对于单采用transfomer的的seq2seq序列模型而言,由于主题模型 的融合可以更好的捕获文本的语义信息,而不仅仅停留于上下文表征的句法 信息内容,这意味在全局层面上,可以更好的生成整合了文档语义信息的文 本摘要。
(5)在注意力机制的影响下,我们的模型会有条件的忽略到文本噪 声,去掉一些文本无关信息对于概括摘要生成的影响,从而具有更高的鲁棒 性
(6)对于文本中的长、短语料以及不均衡语料信息均能在主题模型的影 响下通过解码器端以注意力机制进行此表中的文字序列采样输出摘要,缓解 了传统模型对于语料均衡的限制条件。
其中,可读存储介质可以是计算机存储介质,也可以是通信介质。通信介 质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储 介质可以是通用或专用计算机能够存取的任何可用介质。例如,可读存储介质 耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读 存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器 和可读存储介质可以位于专用集成电路(Application Specific Integrated Circuits,ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和可 读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读 存储器(ROM)、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储 设备等。
本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在 可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令, 至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的方法。
在上述终端或者服务器的实施例中,应理解,处理器可以是中央处理单元 (英文:Central Processing Unit,CPU),还可以是其他通用处理器、数字信 号处理器(英文:Digital Signal Processor,DSP)等。通用处理器可以是微处 理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步 骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合 执行完成。
最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限 制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员 应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中 部分或者全部技术特征进行等同替换;而这些修改或者替换,并不使相应技术方 案的本质脱离本发明各实施例技术方案的范围。

Claims (10)

1.一种基于主题模型的文本摘要方法,其特征在于,包括:
基于seq2seq序列模型中的编码器对获取的文本信息进行编码,得到基于文本句法层面的第一中间语义向量;
将所述第一中间语义向量输入至主题模型中,得到主题向量;
根据所述主题向量和所述第一中间语义向量,并通过seq2seq序列模型中的解码器进行解码,生成目标摘要信息。
2.根据权利要求1所述的基于主题模型的文本摘要方法,其特征在于,将所述第一中间语义向量输入至主题模型中,得到主题向量,包括:
根据第一损失函数对所述主题模型进行训练,所述主题模型的第一损失函数如下:
Figure FDA0003285483330000011
其中,DKL是KL散度,用以衡量两个分布之间的差异;x是主题模型编码器的输入;h是主题模型的中间变量;
Figure FDA0003285483330000012
表示的是拟合正态分布的h概率分布;pθ(h)是编码器端中间变量h的后验概率分布;log pθ(xi|zi,l)表示是以z=f(h)作为输入,重新还原得到x的概率分布的似然估计。
3.根据权利要求2所述的基于主题模型的文本摘要方法,其特征在于,所述将所述第一中间语义向量输入至主题模型中,得到主题向量,包括:
将所述第一中间语义向量通过变换的方式得到符合正态分布的中间语义向量;
对所述符合正态分布的中间语义向量使用Relu激活函数,以得到主题向量。
4.根据权利要求1所述的基于主题模型的文本摘要方法,其特征在于,根据所述主题向量和所述第一中间语义向量,并通过seq2seq序列模型中的解码器进行解码,生成目标摘要信息,包括:
根据第二损失函数对联合学习网络进行训练,所述联合学习网络由主题模型和seq2seq序列模型组成;
基于训练后的联合学习网络得到目标摘要信息。
5.根据权利要求4所述的基于主题模型的文本摘要方法,其特征在于,所述第二损失函数如下:
L=αLtm+βLfinetune
其中,α和β是两个超参数,Ltm是主题模型的损失函数,Lfinetune是seq2seq序列模型的损失函数。
6.根据权利要求4所述的基于主题模型的文本摘要方法,其特征在于,在基于训练后的联合学习网络得到目标摘要信息的过程中,目标摘要信息的生成采用如下公式:
Figure FDA0003285483330000021
其中LM是language model,TM是topic model,两个部分都有head,表示两个模型都是多头注意力机制,多头注意力机制表示计算过程中向量最后一维的维度维度会按头数进行拆解;Wtopic表示主题模型的输出的向量矩阵表示z(d)
Figure FDA0003285483330000022
表示单词矩阵的转置;yi-1表示前i-1个输出结果,因为采用的是语言模型的思路,预测第i个文字的时候会利用前i-1个文字的结果。
7.一种基于主题模型的文本摘要装置,其特征在于,包括:
第一获取模块,用于基于seq2seq序列模型中的编码器对获取的文本信息进行编码,得到基于文本句法层面的第一中间语义向量;
第二获取模块,用于将所述第一中间语义向量输入至主题模型中,得到主题向量;
目标摘要生成模块,用于根据所述主题向量和所述第一中间语义向量,并通过seq2seq序列模型中的解码器进行解码,生成目标摘要信息。
8.根据权利要求7所述的基于主题模型的文本摘要装置,其特征在于,所述目标摘要生成模块用于执行以下步骤,包括:
根据第二损失函数对联合学习网络进行训练,所述联合学习网络由主题模型和seq2seq序列模型组成;
基于训练后的联合学习网络得到目标摘要信息。
9.一种可读存储介质,其特征在于,所述可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时用于实现权利要求1至6任一所述的方法
10.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器执行权利要求1至6中任意一项所述的方法。
CN202111145727.5A 2021-09-28 2021-09-28 基于主题模型的文本摘要方法、装置及存储介质 Pending CN113901200A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111145727.5A CN113901200A (zh) 2021-09-28 2021-09-28 基于主题模型的文本摘要方法、装置及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111145727.5A CN113901200A (zh) 2021-09-28 2021-09-28 基于主题模型的文本摘要方法、装置及存储介质

Publications (1)

Publication Number Publication Date
CN113901200A true CN113901200A (zh) 2022-01-07

Family

ID=79189075

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111145727.5A Pending CN113901200A (zh) 2021-09-28 2021-09-28 基于主题模型的文本摘要方法、装置及存储介质

Country Status (1)

Country Link
CN (1) CN113901200A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969313A (zh) * 2022-06-07 2022-08-30 四川大学 摘要抽取方法、装置、计算机设备及计算机可读存储介质
CN115658882A (zh) * 2022-10-08 2023-01-31 重庆理工大学 一种结合全局主题信息的摘要生成方法
CN116453023A (zh) * 2023-04-23 2023-07-18 上海帜讯信息技术股份有限公司 5g富媒体信息的视频摘要系统、方法、电子设备及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114969313A (zh) * 2022-06-07 2022-08-30 四川大学 摘要抽取方法、装置、计算机设备及计算机可读存储介质
CN114969313B (zh) * 2022-06-07 2023-05-09 四川大学 摘要抽取方法、装置、计算机设备及计算机可读存储介质
CN115658882A (zh) * 2022-10-08 2023-01-31 重庆理工大学 一种结合全局主题信息的摘要生成方法
CN115658882B (zh) * 2022-10-08 2023-05-30 重庆理工大学 一种结合全局主题信息的摘要生成方法
CN116453023A (zh) * 2023-04-23 2023-07-18 上海帜讯信息技术股份有限公司 5g富媒体信息的视频摘要系统、方法、电子设备及介质
CN116453023B (zh) * 2023-04-23 2024-01-26 上海帜讯信息技术股份有限公司 5g富媒体信息的视频摘要系统、方法、电子设备及介质

Similar Documents

Publication Publication Date Title
Chen et al. Deep Learning for Video Captioning: A Review.
CN113901200A (zh) 基于主题模型的文本摘要方法、装置及存储介质
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN109918681B (zh) 一种基于汉字-拼音的融合问题语义匹配方法
Erdem et al. Neural natural language generation: A survey on multilinguality, multimodality, controllability and learning
Xue et al. A better way to attend: Attention with trees for video question answering
CN111401084A (zh) 一种机器翻译的方法、设备以及计算机可读存储介质
CN111859940B (zh) 一种关键词提取方法、装置、电子设备及存储介质
CN113239666B (zh) 一种文本相似度计算方法及系统
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN111930914A (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN113705315B (zh) 视频处理方法、装置、设备及存储介质
CN111401081A (zh) 神经网络机器翻译方法、模型及模型形成方法
CN116628186B (zh) 文本摘要生成方法及系统
CN116127953A (zh) 一种基于对比学习的中文拼写纠错方法、装置和介质
CN115408488A (zh) 用于小说场景文本的分割方法及系统
CN110852071A (zh) 知识点检测方法、装置、设备及可读存储介质
CN113961706A (zh) 一种基于神经网络自注意力机制的精确文本表示方法
CN116910251A (zh) 基于bert模型的文本分类方法、装置、设备及介质
CN112818688B (zh) 文本处理方法、装置、设备及存储介质
CN115240712A (zh) 一种基于多模态的情感分类方法、装置、设备及存储介质
CN115408494A (zh) 一种融合多头注意力对齐的文本匹配方法
Yu et al. Abstractive headline generation for spoken content by attentive recurrent neural networks with ASR error modeling
CN112686060A (zh) 文本翻译方法、装置、电子设备和存储介质
Oura et al. Multimodal Deep Neural Network with Image Sequence Features for Video Captioning

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination