CN112052329A - 文本摘要生成方法、装置、计算机设备及可读存储介质 - Google Patents

文本摘要生成方法、装置、计算机设备及可读存储介质 Download PDF

Info

Publication number
CN112052329A
CN112052329A CN202010912303.6A CN202010912303A CN112052329A CN 112052329 A CN112052329 A CN 112052329A CN 202010912303 A CN202010912303 A CN 202010912303A CN 112052329 A CN112052329 A CN 112052329A
Authority
CN
China
Prior art keywords
text
sentence
processed
vector
output vector
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010912303.6A
Other languages
English (en)
Inventor
回艳菲
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202010912303.6A priority Critical patent/CN112052329A/zh
Priority to PCT/CN2020/131775 priority patent/WO2021159803A1/zh
Publication of CN112052329A publication Critical patent/CN112052329A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2415Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/253Grammatical analysis; Style critique
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis

Abstract

本申请实施例提供了一种文本摘要生成方法、装置、计算机设备及计算机可读存储介质。本申请实施例属于自然语言处理技术领域,通过获取待处理文本,及基于待处理文本获取待处理文本所对应的文本向量,将文本向量输入至预设Transformer模型进行处理,以得到待处理文本所对应的第一输出向量,将第一输出向量输入至预设Seq2Seq模型进行处理,以得到待处理文本所对应的第二输出向量,根据第二输出向量生成待处理文本所对应的文本摘要,Transformer使用多头注意力机制弥补了Seq2Seq的缺陷,Transformer和Seq2Seq模型能够充分的互补,实现更丰富的编码向量表示,提升了生成文本摘要的准确性。

Description

文本摘要生成方法、装置、计算机设备及可读存储介质
技术领域
本申请涉及自然语言处理技术领域,尤其涉及一种文本摘要生成方法、装置、计算机设备及计算机可读存储介质。
背景技术
文本摘要是自然语言处理领域的一项重要研究,根据实现方式不同,将其分为抽取式和生成式。抽取式摘要应用比较简单,并且被广泛使用,其原理主要是摘取文本中的重要句子或段落,将其以某种方式进行拼接并输出。生成式摘要是基于不同的形式对原文本的核心内容以及概念进行重新表示,生成的摘要无需与原文本相同。早期方法是使用图进行人工特征工程,也存在通过计算句子间的相似度,来获取权重最大的几个句子,并对其根据特定的方法进行拼接。现在主要把焦点集中在数据驱动的神经网络上,通过编解码进行文本摘要的生成。
然而传统的方法中,没有对文本数据进行充分的利用,导致进行了不太合理的信息抽取,致使抽取的摘要内容准确性不高。
发明内容
本申请实施例提供了一种文本摘要生成方法、装置、计算机设备及计算机可读存储介质,能够解决传统技术中对摘要内容进行抽取存在准确性较低的技术问题。
第一方面,本申请实施例提供了一种文本摘要生成方法,所述方法包括:获取待处理文本,并基于所述待处理文本获取所述待处理文本所对应的文本向量;将所述待处理文本向量输入至预设Transformer模型进行处理,以得到所述待处理文本所对应的第一输出向量;将所述第一输出向量输入至预设Seq2Seq模型进行处理,以得到所述待处理文本所对应的第二输出向量;根据所述第二输出向量生成所述待处理文本所对应的文本摘要。
第二方面,本申请实施例还提供了一种文本摘要生成装置,包括:获取单元,用于获取待处理文本,并基于所述待处理文本获取所述待处理文本所对应的文本向量;第一输入单元,用于将所述待处理文本向量输入至预设Transformer模型进行处理,以得到所述待处理文本所对应的第一输出向量;第二输入单元,用于将所述第一输出向量输入至预设Seq2Seq模型进行处理,以得到所述待处理文本所对应的第二输出向量;生成单元,用于根据所述第二输出向量生成所述待处理文本所对应的文本摘要。
第三方面,本申请实施例还提供了一种计算机设备,其包括存储器及处理器,所述存储器上存储有计算机程序,所述处理器执行所述计算机程序时实现所述待处理文本摘要生成方法的步骤。
第四方面,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时使所述处理器执行所述待处理文本摘要生成方法的步骤。
本申请实施例提供了一种文本摘要生成方法、装置、计算机设备及计算机可读存储介质。本申请实施例通过获取待处理文本,并基于所述待处理文本获取所述待处理文本所对应的文本向量,将所述待处理文本向量输入至预设Transformer模型进行处理,以得到所述待处理文本所对应的第一输出向量,将所述第一输出向量输入至预设Seq2Seq模型进行处理,以得到所述待处理文本所对应的第二输出向量,根据所述第二输出向量生成所述待处理文本所对应的文本摘要,由于使用了Transformer和Seq2Seq分别为抽取模型和摘要模型,Transformer使用多头注意力机制弥补了Seq2Seq的缺陷,Transformer和Seq2Seq模型能够充分的互补,从而实现更丰富的编码向量表示,能够实现通过对待处理文本进行抽取,生成内容连贯、句意通顺的文本摘要,提升了生成文本摘要的准确性。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的文本摘要生成方法的一个流程示意图;
图2为本申请实施例提供的文本摘要生成方法中模型流程示意图;
图3为本申请实施例提供的文本摘要生成方法的一个子流程示意图;
图4为本申请实施例提供的文本摘要生成装置的一个示意性框图;以及
图5为本申请实施例提供的计算机设备的示意性框图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
请参阅图1,图1为本申请实施例提供的文本摘要生成方法的一个流程示意图。如图1所示,该方法包括以下步骤S101-S105:
S101、获取待处理文本,并基于所述待处理文本获取所述待处理文本所对应的文本向量。
具体地,针对要生成摘要的待处理文本,获取待处理文本,并根据待处理文本生成待处理文本所对应的文本向量。生成文本向量时,可以先对待处理文本进行分词以得到待处理文本所包含的词语,然后将词语进行词嵌入以得到所述待处理文本所对应的词向量。其中,词嵌入,英文为Word Embedding,是指将一个词语(Word)转换为一个向量(Vector)表示,是单词的一种数值化表示方式,一般情况下会将一个单词映射到一个高维的向量中(词向量)来代表这个单词,词嵌入有时又被叫作“word2vec",可以通过Embedding Layer、Word2Vec或者GloVe等方式实现。
将待处理文本中所包含的词语进行词嵌入后,可以将待处理文本根据待处理文本中所包含的标点符号进行分割以得到待处理所包含的不同句子,进而通过预设分词方式获取每个句子中所包含的词语,由于已经得到每个词语所对应的词向量,因此,可以获得组成句子的所有词语各自所对应的词向量,进而根据组成句子的词语所对应的词向量,通过句子嵌入获得句子所对应的句子向量,由于待处理文本是由句子组成的,获得每个句子所对应的句子向量后,即可得到所述待处理文本所对应的文本向量,每一个句子对应一个句子向量,若干个句子就对应若干个句子向量,将所述句子向量可以看作序列,从而后续将生成待处理所对应的文本摘要当做序列分类问题。其中,句子嵌入,英文为SentenceEmbedding,是指将一个句子转换为句子向量表示的方式,句子向量(英文为Sentencevector)是指数值化表示句子的方式,可以通过平均词向量、TFIDF加权平均词向量或者SIF加权平均词向量等方式实现。
进一步地,获取文本,将文本提取成初始句子,并将初始句子组成初始句子集合后,以得到初始句子集合后,再将提取的初始句子进行抽取,以筛选出目标句子组成文本摘要,可以从初始句子中筛选出与生成文本摘要有关的初始目标句子以组成初始目标句子集合,进而对初始目标句子而不是所有的初始句子进行抽取,由于减小了处理句子的句子数量,可以提高文本摘要生成的效率。例如,对于每个文本Dj,初始包含n个句子,可以提取其中的m个句子,以组成初始目标句子集合,然后从初始目标句子集合中进行抽取句子,以生成文本摘要,例如,如下公式(1)所示。
Figure BDA0002663759920000041
其中,
Figure BDA0002663759920000042
用于描述第j个文本的第m个句子,
Figure BDA0002663759920000043
表示第j个文本的句子子集合。
S102、将所述待处理文本向量输入至预设Transformer模型进行处理,以得到所述待处理文本所对应的第一输出向量。
具体地,获得待处理文本所对应的文本向量后,其中,文本向量是由句子向量组成的,将所述待处理文本向量输入至预设Transformer模型进行处理,以得到所述待处理文本所对应的第一输出向量,所述第一输出向量中包括各个句子所对应的句子向量。请参阅图2,图2为本申请实施例提供的文本摘要生成方法中模型流程示意图。如图2所示,将文本向量所对应的句子向量S1、S2、S3…Sn输入至Transformer中,经由Transformer所包括的Transformer Encoder层进行编码处理,即可得到所述待处理文本所对应的第一输出向量
Figure BDA0002663759920000051
从而充分使用了Transformer的多头注意力机制以弥补Seq2Seq模型的缺陷,而使对所述待处理文本进行编码得到的向量表示更丰富,提升了向量表示的准确性。
其中,Transformer由Encoder(即编码)和Decoder(即解码)两个部分组成,Encoder和Decoder都包含6个block。Transformer中单词的输入表示x由单词Embedding和位置Embedding相加得到。单词的Embedding有很多种方式可以获取,例如可以采用Word2Vec或者Glove等算法预训练得到,也可以在Transformer中训练得到。位置Embedding用PE表示,PE的维度与单词Embedding是一样的,PE可以通过训练得到,也可以使用公式计算得到。
Transformer的工作流程如下:
1)获取输入句子的每一个单词的表示向量X,X由单词的Embedding和单词位置的Embedding相加得到。
2)将得到的单词表示向量矩阵(如上图所示,每一行是一个单词的表示x)传入Encoder中,经过6个Encoderblock后可以得到句子所有单词的编码信息矩阵。
3)将Encoder输出的编码信息矩阵C传递到Decoder中,Decoder依次会根据当前翻译过的单词1~i翻译下一个单词i+1。
S103、将所述第一输出向量输入至预设Seq2Seq模型进行处理,以得到所述待处理文本所对应的第二输出向量。
具体地,将通过预设Transformer模型得到的所述待处理文本所对应的第一输出向量输入至预设Seq2Seq模型进行处理,以得到所述待处理文本所对应的第二输出向量。
其中,Seq2Seq模型是输出的长度不确定时采用的模型,Seq2Seq属于Encoder-Decoder结构的一种,是利用两个RNN,一个RNN作为Encoder,另一个RNN作为Decoder。Encoder负责将输入序列压缩成指定长度的向量,这个向量就可以看成是这个序列的语义,这个过程称为编码,获取语义向量最简单的方式就是直接将最后一个输入的隐状态作为语义向量,也可以对最后一个隐含状态做一个变换得到语义向量,还可以将输入序列的所有隐含状态做一个变换得到语义变量。Decoder则负责根据语义向量生成指定的序列,这个过程也称为解码,最简单的方式是将Encoder得到的语义变量作为初始状态输入到Decoder的RNN中,得到输出序列。
在本申请实施例生成文本摘要的过程中,使用Transformer编码器作为对输入语句的第一次编码处理,以得到所述待处理文本所对应的第一输出向量,将所述第一输出向量输入至预设Seq2Seq模型进行第二次编码处理,以得到所述待处理文本所对应的第二输出向量。预设Seq2Seq模型可以采用一个单层的单向的GRU-RNN,它的输入是Transformer的输出即第一输出向量。
由GRU-RNN产生的固定的向量表示作为解码器的初始状态,在每一个时间步,解码器收到之前产生的词汇yt-1和隐状态st-1,在每个时间步输出的yt是经过Softmax分类器得到的概率。
本申请实施例中,针对要生成连贯的、从语法上讲正确的句子,需要去学习长期的依赖,由于Transformer使用多头注意力机制弥补了Seq2Seq的缺陷,通过Transformer和Seq2Seq模型能够充分的互补,以充分发挥两种模型的各自功能,在功能互补方面效果显著,使得到的向量含义更为丰富,对文本数据进行充分的利用而进行合理的信息抽取,充分表征了待处理文本中的句子上下文的信息,从而实现更丰富的编码向量表示,使抽取的摘要内容连贯、句意通顺,提升了生成文本摘要的准确性。
S104、基于所述第二输出向量生成所述待处理文本所对应的文本摘要。
具体地,通过预设Seq2Seq模型进行处理得到所述待处理文本所对应的第二输出向量,在所述第二输出向量的基础上,生成所述待处理文本所对应的文本摘要,可以再通过对所述第二输出向量进行多分类,以得到所述第二输出向量的分布概率,获取分布概率最高的第二输出向量作为目标向量,将目标向量所对应的句子作为摘要,从而实现针对待处理文本进行抽取,以生成内容连贯、句意通顺的文本摘要,例如,对于给定的中文文本,本申请实施例可以对待处理中文文本进行处理,进而生成待处理中文文本所对应的文本摘要,能够提高生成中文文本所对应的文本摘要的准确性。
在本申请实施例中,由于使用了Transformer和Seq2Seq分别为抽取模型和摘要模型,以基于混合二次编码再解码,对初始文本先用Transformer模型进行编码,然后对Transformer的输出所对应的第一输出向量,经过Seq2Seq模型进行二次编码,以得到所述待处理文本所对应的第二输出向量,基于所述第二输出向量生成所述待处理文本所对应的文本摘要,由于要生成连贯的、从语法上讲正确的句子,需要去学习长期的依赖,而Transformer使用多头注意力机制弥补了Seq2Seq的缺陷,实践表明Transformer和Seq2Seq模型能够充分的互补,从而实现更丰富的编码向量表示,能够实现对文本进行抽取,生成内容连贯、句意通顺的文本摘要,提升了生成文本摘要的准确性。
请参阅图3,图3为本申请实施例提供的文本摘要生成方法的一个子流程示意图。如图3所示,在该实施例中,所述基于所述第二输出向量生成所述待处理文本所对应的文本摘要的步骤包括:
S301、将所述第二输出向量进行多分类,以得到所述第二输出向量所对应的分布概率;
S302、判断所述分布概率是否大于或者等于预设概率阈值;
S303、若所述分布概率小于所述预设概率阈值,不将所述分布概率所对应的第二输出向量作为目标向量;
S304、若所述分布概率大于或者等于所述预设概率阈值,将所述分布概率所对应的第二输出向量作为目标向量;
S305、获取所述目标向量所对应的目标句子;
S306、将所述目标句子进行组合,以生成所述待处理文本所对应的文本摘要。
进一步地,所述将所述第二输出向量进行多分类,以得到所述第二输出向量所对应的分布概率的步骤包括:
将所述第二输出向量输入至基于Sotfmax函数的预设分类器;
根据所述Sotfmax函数对所述第二输出向量进行多分类,以得到所述第二输出向量所对应的分布概率。
具体地,基于Transformer和Seq2Seq分别为抽取模型和摘要模型对初始文本进行处理,以得到第二输出向量后,将所述第二输出向量进行多分类,可以使用Sotfmax函数进行多分类,由于Softmax是用于分类过程,用来实现多分类的,它把一些输入的向量映射到(0-1)之间的实数,并且归一化保证和为1,从而使得多分类的概率之和也刚好为1,其中,Softmax可以分为soft和max,max也就是最大值,假设有两个变量a,b。如果a>b,则max为a,反之为b。那么在分类问题里面,如果只有max,输出的分类结果只有a或者b,是个非黑即白的结果,但是在实践中,希望输出的是取到某个分类的概率,或者说,希望分值大的那一项被经常取到,而分值较小的那一项也有一定的概率偶尔被取到,所以应用到了soft的概念,即最后的输出是每个分类被取到的概率,从而在将所述第二输出向量通过基于Sotfmax函数的预设分类器进行多分类,根据所述Sotfmax函数对所述第二输出向量进行多分类,以得到所述第二输出向量所对应的分布概率后,判断所述分布概率是否大于或者等于预设概率阈值,若所述分布概率大于或者等于所述预设概率阈值,将所述分布概率所对应的第二输出向量作为目标向量,获取所述目标向量所对应的目标句子,将所述目标句子进行组合,以生成所述待处理文本所对应的文本摘要。
在本申请实施例中,针对生成文本摘要的抽取模型中,最后一层采用Softmax做的多分类,从而可以使抽取模型可以学到包含在句子中的摘要的概率分布。
进一步地,在本申请实施例中,还使用一种F1方法创建提取标签,请参阅图2中每个句子向量所对应的1和0标签,用标签1描述生成文本摘要所采取的句子,用标签0描述从摘要中排除该句子,假设每个相关的摘要来源于至少一个待处理文本中的句子,目标是识别最相似的文本句子,句子级相似度得分是基于句子的二元重叠。此外,每当二元重叠集合中的两个单词都是停用词时,将相似度得分减去1,从而能够捕捉更重要的相似点。
因为生成的文本摘要是待处理文本中的一个片段,所以大多数标签都是0(从摘要中排除)。因此,较高的分类精度并不一定转化为高度突出的摘要。因此,本文考虑F1得分,它是精度和回忆的加权平均值,并在最小化损失时应用一个早期停止标准,如果F1得分在一定数量的训练期后没有增加。此外,在训练中,可以综合平衡标签,通过强迫一些随机的句子被标记为1,然后掩盖它们的权重。其中,F1分数,英文为F1 Score,是用来衡量二分类模型精确度的一种指标,它同时兼顾了分类模型的精确率和召回率,F1分数可以看作是模型精确率和召回率的一种调和平均,它的最大值是1,最小值是0。
在一实施例中,所述获取待处理文本,并基于所述待处理文本获取所述待处理文本所对应的文本向量的步骤包括:
获取待处理文本,并将所述待处理文本进行分词,以得到所述待处理文本所包括的词语;
对所述词语进行词嵌入以得到所述词语所对应的词向量;
将所述待处理文本根据所述待处理文本中所包含的标点符号进行切割,以得到所述待处理文本中所包含的句子;
基于所述词向量,将所述句子进行句子嵌入以得到所述句子所对应的句子向量;
将所有所述句子向量进行组合以得到所述待处理文本所对应的文本向量。
进一步地,所述基于所述词向量,将所述句子进行句子嵌入以得到所述句子所对应的句子向量的步骤包括:
获取所述句子中所包含的词语;
根据所述词向量及所述句子中所包含的词语,得到所述句子所对应的句子向量。
具体地,获取要生成文本摘要的待处理文本后,先对待处理文本进行分词,以得到所述待处理文本所包括的词语。其中,分词,又称为中文分词,中文分词根据基于词典分词算法进行,也可以基于统计的机器学习算法,例如常用算法包括HMM、CRF、SVM及深度学习等算法,其中,Stanford及、Hanlp分词工具是基于CRF算法。
得到所述待处理文本所包括的词语后,对所述词语进行词嵌入以得到所述词语所对应的词向量,由于词嵌入是将词语映射到数值向量来描述该词语的方式,因此,可以得到词语所对应的词向量。由于待处理文本中一般通过标点符号进行断句,也可以将标点符号作为对句子的划分,因此,可以利用标点符号对待处理文本进行切割,以识别出所述待处理文本中所包含的句子,从而得到所述待处理文本中包含的句子。得到句子后,由于句子由词语组成,利用已进行对句子进行的分词,即可确定句子由哪些词语组成,获得组成句子的词语后,由于已经得到词语所对应的词向量,基于所述词向量,将所述句子进行句子嵌入,即可得到所述句子所对应的句子向量,例如图3中的S1、S2、S3…Sn,由S1、S2、S3…Sn组成的句子向量集合,即为所述待处理文本所对应的文本向量。
在一实施例中,所述根据所述词向量及所述句子中所包含的词语,得到所述句子所对应的句子向量的步骤包括:
获取所述句子中所包含的词语所对应的词向量;
将所有所述句子中所包含的词语所对应的词向量进行相加并取平均,以得到所述句子所对应的句子向量。
具体地,获取所述句子中所包含的词语所对应的词向量,将所有所述句子中所包含的词语所对应的词向量进行相加并取平均,以得到所述句子所对应的句子向量。其中,Transformer的输入是待处理文本的表示,待处理文本的表示是由一些列句子表示组合而成,而每个句子的表示是通过对其组成词的向量进行平均得到的,将文本中包含的所有句子各自所对应的向量组合,即得到文本向量。
在一实施例中,所述基于所述词向量,将所述句子进行句子嵌入以得到所述句子所对应的句子向量的步骤包括:
判断所述句子中是否包含预设词语;
若所述句子中未包含预设词语,将所述句子作为目标句子;
基于所述词向量,将所述目标句子进行句子嵌入以得到所述目标句子所对应的句子向量。
具体地,可以预先设置一个词库,该词库中的词语对辨识文本的主题没有关联性,例如该词库的词语为通用性词语,例如“上述”、“可以”及“参阅”等词语,可以根据具体领域不同文本的属性进行设置。在对文本进行切割以获得句子后,判断所述句子中是否包含预设词语,若包含预设词语,默认该句子对生成文本摘要的影响较小,若句子中未包含预设词语,默认该句子对生成文本摘要存在较大影响,从而将该句子作为目标句子,后续基于所述词向量,将所述目标句子进行句子嵌入以得到所述目标句子所对应的句子向量,从而仅对目标句子进行抽取处理,在目标句子的基础上生成文本摘要,从而通过对文本所包含句子进行预筛选,缩小了生成文本摘要的句子的选取范围,较少了数据处理量,能够提高生成文本摘要的效率,同时,由于针对目标句子生成文本摘要,也提高了文本摘要生成的准确性。
需要说明的是,上述各个实施例所述的文本摘要生成方法,可以根据需要将不同实施例中包含的技术特征重新进行组合,以获取组合后的实施方案,但都在本申请要求的保护范围之内。
请参阅图4,图4为本申请实施例提供的文本摘要生成装置的一个示意性框图。对应于上述所述待处理文本摘要生成方法,本申请实施例还提供一种文本摘要生成装置。如图4所示,该文本摘要生成装置包括用于执行上述所述待处理文本摘要生成方法的单元,该文本摘要生成装置可以被配置于计算机设备中。具体地,请参阅图4,该文本摘要生成装置400包括获取单元401、第一输入单元402、第二输入单元403及生成单元404。
其中,获取单元401,用于获取待处理文本,并基于所述待处理文本获取所述待处理文本所对应的文本向量;
第一输入单元402,用于将所述待处理文本向量输入至预设Transformer模型进行处理,以得到所述待处理文本所对应的第一输出向量;
第二输入单元403,用于将所述第一输出向量输入至预设Seq2Seq模型进行处理,以得到所述待处理文本所对应的第二输出向量;
生成单元404,用于根据所述第二输出向量生成所述待处理文本所对应的文本摘要。
在一实施例中,所述生成单元404包括:
分类子单元,用于将所述第二输出向量进行多分类,以得到所述第二输出向量所对应的分布概率;
第一判断子单元,用于判断所述分布概率是否大于或者等于预设概率阈值;
筛选子单元,用于若所述分布概率大于或者等于所述预设概率阈值,将所述分布概率所对应的第二输出向量作为目标向量;
第一获取子单元,用于获取所述目标向量所对应的目标句子;
生成子单元,用于将所述目标句子进行组合,以得到所述待处理文本所对应的文本摘要。
在一实施例中,所述分类子单元包括:
输入子单元,用于将所述第二输出向量输入至基于Sotfmax函数的预设分类器;
第二获取子单元,用于根据所述Sotfmax函数对所述第二输出向量进行多分类,以得到所述第二输出向量所对应的分布概率。
在一实施例中,所述获取单元401包括:
第三获取子单元,用于获取待处理文本,并将所述待处理文本进行分词,以得到所述待处理文本所包括的词语;
词嵌入子单元,用于对所述词语进行词嵌入以得到所述词语所对应的词向量;
切割子单元,用于将所述待处理文本根据所述待处理文本中所包含的标点符号进行切割,以得到所述待处理文本中所包含的句子;
第一句子嵌入子单元,用于基于所述词向量,将所述句子进行句子嵌入以得到所述句子所对应的句子向量;
组合子单元,用于将所有所述句子向量进行组合以得到所述待处理文本所对应的文本向量。
在一实施例中,所述第一句子嵌入子单元包括:
第四获取子单元,用于获取所述句子中所包含的词语;
第五获取子单元,用于根据所述词向量及所述句子中所包含的词语,得到所述句子所对应的句子向量。
在一实施例中,所述第五获取子单元包括:
第六获取子单元,用于获取所述句子中所包含的词语所对应的词向量;
均值子单元,用于将所有所述句子中所包含的词语所对应的词向量进行相加并取平均,以得到所述句子所对应的句子向量。
在一实施例中,所述第一句子嵌入子单元包括:
第二判断子单元,用于判断所述句子中是否包含预设词语;
第七获取子单元,用于若所述句子中未包含预设词语,将所述句子作为目标句子;
第二句子嵌入子单元,用于基于所述词向量,将所述目标句子进行句子嵌入以得到所述目标句子所对应的句子向量。
需要说明的是,所属领域的技术人员可以清楚地了解到,上述文本摘要生成装置和各单元的具体实现过程,可以参考前述方法实施例中的相应描述,为了描述的方便和简洁,在此不再赘述。
同时,上述文本摘要生成装置中各个单元的划分和连接方式仅用于举例说明,在其他实施例中,可将文本摘要生成装置按照需要划分为不同的单元,也可将文本摘要生成装置中各单元采取不同的连接顺序和方式,以完成上述文本摘要生成装置的全部或部分功能。
上述文本摘要生成装置可以实现为一种计算机程序的形式,该计算机程序可以在如图5所示的计算机设备上运行。
请参阅图5,图5是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是台式机电脑或者服务器等计算机设备,也可以是其他设备中的组件或者部件。
参阅图5,该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。所述存储介质503可以是非易失性的,也可以是易失性的。
该存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行一种上述文本摘要生成方法。
该处理器502用于提供计算和控制能力,以支撑整个计算机设备500的运行。
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行一种上述文本摘要生成方法。
该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解,图5中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图5所示实施例一致,在此不再赘述。
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现如下步骤:获取待处理文本,并基于所述待处理文本获取所述待处理文本所对应的文本向量;将所述待处理文本向量输入至预设Transformer模型进行处理,以得到所述待处理文本所对应的第一输出向量;将所述第一输出向量输入至预设Seq2Seq模型进行处理,以得到所述待处理文本所对应的第二输出向量;根据所述第二输出向量生成所述待处理文本所对应的文本摘要。
在一实施例中,所述处理器502在实现所述根据所述第二输出向量生成所述待处理文本所对应的文本摘要的步骤时,具体实现以下步骤:
将所述第二输出向量进行多分类,以得到所述第二输出向量所对应的分布概率;
判断所述分布概率是否大于或者等于预设概率阈值;
若所述分布概率大于或者等于所述预设概率阈值,将所述分布概率所对应的第二输出向量作为目标向量;
获取所述目标向量所对应的目标句子;
将所述目标句子进行组合,以生成所述待处理文本所对应的文本摘要。
在一实施例中,所述处理器502在实现所述将所述第二输出向量进行多分类,以得到所述第二输出向量所对应的分布概率的步骤时,具体实现以下步骤:
将所述第二输出向量输入至基于Sotfmax函数的预设分类器;
根据所述Sotfmax函数对所述第二输出向量进行多分类,以得到所述第二输出向量所对应的分布概率。
在一实施例中,所述处理器502在实现所述获取待处理文本,并基于所述待处理文本获取所述待处理文本所对应的文本向量的步骤时,具体实现以下步骤:
获取待处理文本,并将所述待处理文本进行分词,以得到所述待处理文本所包括的词语;
对所述词语进行词嵌入以得到所述词语所对应的词向量;
将所述待处理文本根据所述待处理文本中所包含的标点符号进行切割,以得到所述待处理文本中所包含的句子;
基于所述词向量,将所述句子进行句子嵌入以得到所述句子所对应的句子向量;
将所有所述句子向量进行组合以得到所述待处理文本所对应的文本向量。
在一实施例中,所述处理器502在实现所述基于所述词向量,将所述句子进行句子嵌入以得到所述句子所对应的句子向量的步骤时,具体实现以下步骤:
获取所述句子中所包含的词语;
根据所述词向量及所述句子中所包含的词语,得到所述句子所对应的句子向量。
在一实施例中,所述处理器502在实现所述根据所述词向量及所述句子中所包含的词语,得到所述句子所对应的句子向量的步骤时,具体实现以下步骤:
获取所述句子中所包含的词语所对应的词向量;
将所有所述句子中所包含的词语所对应的词向量进行相加并取平均,以得到所述句子所对应的句子向量。
在一实施例中,所述处理器502在实现所述基于所述词向量,将所述句子进行句子嵌入以得到所述句子所对应的句子向量的步骤时,具体实现以下步骤:
判断所述句子中是否包含预设词语;
若所述句子中未包含预设词语,将所述句子作为目标句子;
基于所述词向量,将所述目标句子进行句子嵌入以得到所述目标句子所对应的句子向量。
应当理解,在本申请实施例中,处理器502可以是中央处理单元(CentralProcessingUnit,CPU),该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable GateArray,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程,是可以通过计算机程序来完成,该计算机程序可存储于一计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行,以实现上述方法的实施例的流程步骤。
因此,本申请还提供一种计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时使处理器执行以上各实施例中所描述的所述待处理文本摘要生成方法的步骤。
所述计算机可读存储介质可以是前述设备的内部存储单元,例如设备的硬盘或内存。所述计算机可读存储介质也可以是所述设备的外部存储设备,例如所述设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,所述计算机可读存储介质还可以既包括所述设备的内部存储单元也包括外部存储设备。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
所述存储介质为实体的、非瞬时性的存储介质,例如可以是U盘、移动硬盘、只读存储器(Read-OnlyMemory,ROM)、磁碟或者光盘等各种可以存储计算机程序的实体存储介质。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的。例如,各个单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
本申请实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本申请实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。
该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台电子设备(可以是个人计算机,终端,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。
以上所述,仅为本申请的具体实施方式,但本申请明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种文本摘要生成方法,其特征在于,所述方法包括:
获取待处理文本,并基于所述待处理文本获取所述待处理文本所对应的文本向量;
将所述文本向量输入至预设Transformer模型进行处理,以得到所述待处理文本所对应的第一输出向量;
将所述第一输出向量输入至预设Seq2Seq模型进行处理,以得到所述待处理文本所对应的第二输出向量;
根据所述第二输出向量生成所述待处理文本所对应的文本摘要。
2.根据权利要求1所述待处理文本摘要生成方法,其特征在于,所述根据所述第二输出向量生成所述待处理文本所对应的文本摘要的步骤包括:
将所述第二输出向量进行多分类,以得到所述第二输出向量所对应的分布概率;
判断所述分布概率是否大于或者等于预设概率阈值;
若所述分布概率大于或者等于所述预设概率阈值,将所述分布概率所对应的第二输出向量作为目标向量;
获取所述目标向量所对应的目标句子;
将所述目标句子进行组合,以生成所述待处理文本所对应的文本摘要。
3.根据权利要求2所述待处理文本摘要生成方法,其特征在于,所述将所述第二输出向量进行多分类,以得到所述第二输出向量所对应的分布概率的步骤包括:
将所述第二输出向量输入至基于Sotfmax函数的预设分类器;
根据所述Sotfmax函数对所述第二输出向量进行多分类,以得到所述第二输出向量所对应的分布概率。
4.根据权利要求1-3任一项所述待处理文本摘要生成方法,其特征在于,所述获取待处理文本,并基于所述待处理文本获取所述待处理文本所对应的文本向量的步骤包括:
获取待处理文本,并将所述待处理文本进行分词,以得到所述待处理文本所包括的词语;
对所述词语进行词嵌入以得到所述词语所对应的词向量;
将所述待处理文本根据所述待处理文本中所包含的标点符号进行切割,以得到所述待处理文本中所包含的句子;
基于所述词向量,将所述句子进行句子嵌入以得到所述句子所对应的句子向量;
将所有所述句子向量进行组合以得到所述待处理文本所对应的文本向量。
5.根据权利要求4所述待处理文本摘要生成方法,其特征在于,所述基于所述词向量,将所述句子进行句子嵌入以得到所述句子所对应的句子向量的步骤包括:
获取所述句子中所包含的词语;
根据所述词向量及所述句子中所包含的词语,得到所述句子所对应的句子向量。
6.根据权利要求5所述待处理文本摘要生成方法,其特征在于,所述根据所述词向量及所述句子中所包含的词语,得到所述句子所对应的句子向量的步骤包括:
获取所述句子中所包含的词语所对应的词向量;
将所有所述句子中所包含的词语所对应的词向量进行相加并取平均,以得到所述句子所对应的句子向量。
7.根据权利要求4所述待处理文本摘要生成方法,其特征在于,所述基于所述词向量,将所述句子进行句子嵌入以得到所述句子所对应的句子向量的步骤包括:
判断所述句子中是否包含预设词语;
若所述句子中未包含预设词语,将所述句子作为目标句子;
基于所述词向量,将所述目标句子进行句子嵌入以得到所述目标句子所对应的句子向量。
8.一种文本摘要生成装置,其特征在于,包括:
获取单元,用于获取待处理文本,并基于所述待处理文本获取所述待处理文本所对应的文本向量;
第一输入单元,用于将所述待处理文本向量输入至预设Transformer模型进行处理,以得到所述待处理文本所对应的第一输出向量;
第二输入单元,用于将所述第一输出向量输入至预设Seq2Seq模型进行处理,以得到所述待处理文本所对应的第二输出向量;
生成单元,用于根据所述第二输出向量生成所述待处理文本所对应的文本摘要。
9.一种计算机设备,其特征在于,所述计算机设备包括存储器以及与所述存储器相连的处理器;所述存储器用于存储计算机程序;所述处理器用于运行所述计算机程序,以执行如权利要求1-7任一项所述方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时可实现如权利要求1-7中任一项所述方法的步骤。
CN202010912303.6A 2020-09-02 2020-09-02 文本摘要生成方法、装置、计算机设备及可读存储介质 Pending CN112052329A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202010912303.6A CN112052329A (zh) 2020-09-02 2020-09-02 文本摘要生成方法、装置、计算机设备及可读存储介质
PCT/CN2020/131775 WO2021159803A1 (zh) 2020-09-02 2020-11-26 文本摘要生成方法、装置、计算机设备及可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010912303.6A CN112052329A (zh) 2020-09-02 2020-09-02 文本摘要生成方法、装置、计算机设备及可读存储介质

Publications (1)

Publication Number Publication Date
CN112052329A true CN112052329A (zh) 2020-12-08

Family

ID=73607224

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010912303.6A Pending CN112052329A (zh) 2020-09-02 2020-09-02 文本摘要生成方法、装置、计算机设备及可读存储介质

Country Status (2)

Country Link
CN (1) CN112052329A (zh)
WO (1) WO2021159803A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435183A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 文本生成方法、装置及存储介质
WO2023168814A1 (zh) * 2022-03-09 2023-09-14 平安科技(深圳)有限公司 句子向量生成方法、装置、计算机设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN110929024A (zh) * 2019-12-10 2020-03-27 哈尔滨工业大学 一种基于多模型融合的抽取式文本摘要生成方法
CN111597327A (zh) * 2020-04-22 2020-08-28 哈尔滨工业大学 一种面向舆情分析的无监督式多文档文摘生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10127323B1 (en) * 2017-07-26 2018-11-13 International Business Machines Corporation Extractive query-focused multi-document summarization
CN110597979B (zh) * 2019-06-13 2023-06-23 中山大学 一种基于自注意力的生成式文本摘要方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109657051A (zh) * 2018-11-30 2019-04-19 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
WO2020107878A1 (zh) * 2018-11-30 2020-06-04 平安科技(深圳)有限公司 文本摘要生成方法、装置、计算机设备及存储介质
CN110929024A (zh) * 2019-12-10 2020-03-27 哈尔滨工业大学 一种基于多模型融合的抽取式文本摘要生成方法
CN111597327A (zh) * 2020-04-22 2020-08-28 哈尔滨工业大学 一种面向舆情分析的无监督式多文档文摘生成方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435183A (zh) * 2021-06-30 2021-09-24 平安科技(深圳)有限公司 文本生成方法、装置及存储介质
CN113435183B (zh) * 2021-06-30 2023-08-29 平安科技(深圳)有限公司 文本生成方法、装置及存储介质
WO2023168814A1 (zh) * 2022-03-09 2023-09-14 平安科技(深圳)有限公司 句子向量生成方法、装置、计算机设备及存储介质

Also Published As

Publication number Publication date
WO2021159803A1 (zh) 2021-08-19

Similar Documents

Publication Publication Date Title
WO2021082953A1 (zh) 机器阅读理解方法、设备、存储介质及装置
WO2022088672A1 (zh) 基于bert的机器阅读理解方法、装置、设备及存储介质
CN110347799B (zh) 语言模型训练方法、装置和计算机设备
JP5901001B1 (ja) 音響言語モデルトレーニングのための方法およびデバイス
CN111931517B (zh) 文本翻译方法、装置、电子设备以及存储介质
CN111581229A (zh) Sql语句的生成方法、装置、计算机设备及存储介质
CN112528637B (zh) 文本处理模型训练方法、装置、计算机设备和存储介质
CN111967264B (zh) 一种命名实体识别方法
CN110377733B (zh) 一种基于文本的情绪识别方法、终端设备及介质
CN112633003A (zh) 一种地址识别方法、装置、计算机设备及存储介质
WO2021143206A1 (zh) 单语句自然语言处理方法、装置、计算机设备及可读存储介质
WO2022174496A1 (zh) 基于生成模型的数据标注方法、装置、设备及存储介质
CN111599340A (zh) 一种多音字读音预测方法、装置及计算机可读存储介质
CN110188926A (zh) 一种订单信息预测系统和方法
CN115759119B (zh) 一种金融文本情感分析方法、系统、介质和设备
CN112101042A (zh) 文本情绪识别方法、装置、终端设备和存储介质
CN112052329A (zh) 文本摘要生成方法、装置、计算机设备及可读存储介质
CN111767694A (zh) 文本生成方法、装置和计算机可读存储介质
CN111145914B (zh) 一种确定肺癌临床病种库文本实体的方法及装置
CN113204956B (zh) 多模型训练方法、摘要分段方法、文本分段方法及装置
CN112906403B (zh) 语义分析模型训练方法、装置、终端设备及存储介质
CN113449081A (zh) 文本特征的提取方法、装置、计算机设备及存储介质
CN115033683B (zh) 摘要生成方法、装置、设备及存储介质
CN113704466B (zh) 基于迭代网络的文本多标签分类方法、装置及电子设备
CN113486169B (zh) 基于bert模型的同义语句生成方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination