CN110119444A - 一种抽取式与生成式相结合的公文摘要生成模型 - Google Patents

一种抽取式与生成式相结合的公文摘要生成模型 Download PDF

Info

Publication number
CN110119444A
CN110119444A CN201910330573.3A CN201910330573A CN110119444A CN 110119444 A CN110119444 A CN 110119444A CN 201910330573 A CN201910330573 A CN 201910330573A CN 110119444 A CN110119444 A CN 110119444A
Authority
CN
China
Prior art keywords
official document
data
model
extraction
type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910330573.3A
Other languages
English (en)
Other versions
CN110119444B (zh
Inventor
宋荣伟
王进
王鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Division Big Data Research Institute Co Ltd
Original Assignee
Division Big Data Research Institute Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Division Big Data Research Institute Co Ltd filed Critical Division Big Data Research Institute Co Ltd
Priority to CN201910330573.3A priority Critical patent/CN110119444B/zh
Publication of CN110119444A publication Critical patent/CN110119444A/zh
Application granted granted Critical
Publication of CN110119444B publication Critical patent/CN110119444B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了一种抽取式与生成式相结合的公文摘要生成模型,通过将抽取式摘要和生成式摘要相结合,对公文数据进行筛选与预处理,同时增强了抽取式摘要生成的弱标签数据的语义含义,学习了一个公文文本摘要自动生成模型来实现公文摘要的自动生成,相对于传统的基于端到端并加入注意力机制的摘要生成方法,本方法解决了缺少训练数据的问题,并针对公文数据的特征进行了数据筛选与语义增强,从而能够更准确的表征公文文本的语义含义。

Description

一种抽取式与生成式相结合的公文摘要生成模型
技术领域
本发明涉及一种抽取式与生成式相结合的公文摘要生成模型,属于自然语言处理技术领域。
背景技术
大量的政府公文文本数据的存在使得人们针对性的检索和查阅变得十分困难,庞大的信息使得人们在浏览阅读时花费大量时间。因此,如何通过自动化的方法快速从大量公文信息中提取关键内容,解决信息过载的问题,成为了一个迫切的需求,自动公文摘要技术是其中一个可行有效的解决方案。
文本摘要技术按照生成摘要类型可分为抽取式摘要和生成式摘要。前者是将原文中的句子按照一定的方法来进行重要性排序,将重要性最高的前n个句子作为摘要;后者是通过挖掘更深层次的语义信息,对原文中心思想进行转述、概括而生成摘要。然而生成式算法模型的训练需要大量的人工标注数据,在人力、财力和时间有限的情况下,生成式算法的应用收到了一定的限制,本发明提出了一种将抽取式和生成式摘要相结合的公文摘要生成方法有效的解决了这个问题。
发明内容
为解决上述技术问题,本发明提供了一种抽取式与生成式相结合的公文摘要生成模型,该抽取式与生成式相结合的公文摘要生成模型对公文数据进行预先处理,使用抽取式摘要模型产生弱标签摘要数据A,并对弱标签摘要数据A进行语义增强,利用基于Seq2Seq+Attention机制的生成式摘要模型进行训练,使所生成的公文摘要更准确的表征文本的语义含义。
本发明通过以下技术方案得以实现。
本发明提供的一种抽取式与生成式相结合的公文摘要生成模型;首先筛选公文内容,去除公文摘要噪声数据,并对处理后的数据进行清洗、预处理,然后采用抽取式摘要模型生成弱标签数据集A,其次通过摘要连贯性和增加高置信度样本数的方式增强弱标签数据集A的质量,最后采用弱标签数据集A训练生成式摘要模型,获取公文摘要生成模型。
具体包括以下步骤:
①公文内容筛选:从公文数据语料中,对公文内容进行筛选,去除公文中的公文摘要噪声数据;
②数据清洗、预处理:对筛选后的公文进行文本预处理和清洗,获取文本数据,将文本数据进行预处理分词,再利用训练好的政务领域专用word2vec模型将分词后的词语表示成词向量;
③抽取式摘要模型:将词向量融合表示成句子向量,并将句子向量输入抽取式摘要模型,获取每个句子在公文中的重要性,选取重要性最大的句子作为抽取式摘要模型生成的弱标签摘要数据A;
④弱标签摘要数据A语义增强:对弱标签摘要数据A进行数据增强,增强摘要句子之间的语义连贯性,筛选去除抽取式摘要模型中置信度较小的样本;
⑤生成式摘要模型:将弱标签摘要数据A以及公文数据语料输入生成式摘要模型,并采用步骤①及步骤②的方法对公文数据语料进行处理;
⑥公文摘要:训练步骤⑤中的生成式摘要模型,获取公文摘要生成模型。
所述步骤①中,公文摘要噪声数据包括表格、具体叙述条文、名单列表,并采用正则匹配的方式去除公文中的表格、名单列表、具体叙述条文与公文正文之间的空白行。
所述步骤②中,文本预处理和清洗为:去除筛选后的公文中的数字、网络字符以及特殊字符。
所述步骤⑤中,生成式摘要模型采用基于Seq2Seq+Attention机制的方法生成公文摘要序列。
所述Seq2Seq由基于LSTM的编码器和解码器组成,并采用Attention机制来增大重要信息权重。
所述步骤②分为以下步骤:
(2.1)采用正则匹配的方式去除筛选后的公文中的数字、网络字符以及特殊字符;
(2.2)根据政务领域的特征构建政务领域停用词表及分词表,并采用jieba分词对公文数据进行分词;
(2.3)将步骤(2.1)中的公文进行政务领域词向量模型训练,获取政务领域专用word2vec模型;
(2.4)利用训练好的政务领域专用word2vec模型将分词后的词语表示成词向量。
所述步骤③分为以下步骤:
(3.1)将每个句子中的词向量相加取平均,得到句子向量,采用余弦相似度的方法,获取公文中句子与句子之间的相似度;
(3.2)输入句子相似度矩阵,使用抽取式摘要模型,采用textrank算法,获取到每个句子在公文中的重要度,选取重要度高的句子作为抽取式摘要模型的弱标签摘要数据A。
所述步骤④中,对弱标签摘要数据A采用正则匹配的方式去除弱标签摘要数据A中的数字、网络字符以及特殊字符,并利用连接词词典,增加句子的语义连贯性,对弱标签摘要数据A进行增强。
所述步骤⑤分为以下步骤:
(5.1)采用步骤①及步骤②的方法对公文数据进行处理;
(5.2)编码器对于输入的公文正文句子,用一个双向LSTM网络进行编码,其中在embedding部分使用政务领域专用word2vec词向量模型进行向量化表示;
(5.3)解码器采用单向LSTM网络模型,在每个时刻输入的公文数据语料由前一时刻的输出、前一时刻隐藏状态以及编码器产生的语义向量组成,输出为公文摘要序列;
(5.4)将步骤(5.1)~(5.3)中的数据输入生成式摘要模型。
本发明的有益效果在于:通过将抽取式摘要和生成式摘要相结合,对公文数据进行筛选与预处理,同时增强了抽取式摘要生成的弱标签数据的语义含义,学习了一个公文文本摘要自动生成模型来实现公文摘要的自动生成,相对于传统的基于端到端并加入注意力机制的摘要生成方法,本方法解决了缺少训练数据的问题,并针对公文数据的特征进行了数据筛选与语义增强,从而能够更准确的表征公文文本的语义含义。
附图说明
图1是本发明分析抽取式摘要模型的流程图;
图2是本发明基于编码器、解码器结构以及引入注意力机制的生成式摘要模型结构示意图;
图3是本发明的流程图。
具体实施方式
下面进一步描述本发明的技术方案,但要求保护的范围并不局限于所述。
如图3所示,一种抽取式与生成式相结合的公文摘要生成模型;首先筛选公文内容,去除公文摘要噪声数据,并对处理后的数据进行清洗、预处理,然后采用抽取式摘要模型生成弱标签数据集A,其次通过摘要连贯性和增加高置信度样本数的方式增强弱标签数据集A的质量,最后采用弱标签数据集A训练生成式摘要模型,获取公文摘要生成模型。
具体包括以下步骤:
①公文内容筛选:从公文数据语料中,对公文内容进行筛选,去除公文中的公文摘要噪声数据;
②数据清洗、预处理:对筛选后的公文进行文本预处理和清洗,获取文本数据,将文本数据进行预处理分词,再利用训练好的政务领域专用word2vec模型将分词后的词语表示成词向量;
③抽取式摘要模型:将词向量融合表示成句子向量,并将句子向量输入抽取式摘要模型,获取每个句子在公文中的重要性,选取重要性最大的句子作为抽取式摘要模型生成的弱标签摘要数据A,如图1所示;
④弱标签摘要数据A语义增强:对弱标签摘要数据A进行数据增强,增强摘要句子之间的语义连贯性,筛选去除抽取式摘要模型中置信度较小的样本;
⑤生成式摘要模型:将弱标签摘要数据A以及公文数据语料输入生成式摘要模型,并采用步骤①及步骤②的方法对公文数据语料进行处理;
⑥公文摘要:训练步骤⑤中的生成式摘要模型,获取公文摘要生成模型。
所述步骤①中,公文摘要噪声数据包括表格、具体叙述条文、名单列表,并采用正则匹配的方式去除公文中的表格、名单列表、具体叙述条文与公文正文之间的空白行。
所述步骤②中,文本预处理和清洗为:去除筛选后的公文中的数字、网络字符以及特殊字符。
所述步骤⑤中,生成式摘要模型采用基于Seq2Seq+Attention机制的方法生成公文摘要序列,如图2所示,其中x为输入序列,h为编码隐状态,H为解码隐状态,c为语义编码向量,y为输出序列,EOS为标识符。
所述Seq2Seq由基于LSTM的编码器和解码器组成,并采用Attention机制来增大重要信息权重。
进一步地,关于Attention机制在生成式摘要模型中的作用;在编码阶段,编码器将输入编码成一个向量序列,在解码阶段,每一时刻都选择性的从向量序列中挑选一个子集进行处理,因此在产生输出时能充分利用输入序列携带的信息。
所述步骤②分为以下步骤:
(2.1)采用正则匹配的方式去除筛选后的公文中的数字、网络字符以及特殊字符;
(2.2)根据政务领域的特征构建政务领域停用词表及分词表,并采用jieba分词对公文数据进行分词;
(2.3)将步骤(2.1)中的公文进行政务领域词向量模型训练,获取政务领域专用word2vec模型;
(2.4)利用训练好的政务领域专用word2vec模型将分词后的词语表示成词向量。
所述步骤③分为以下步骤:
(3.1)将每个句子中的词向量相加取平均,得到句子向量,采用余弦相似度的方法,获取公文中句子与句子之间的相似度;
(3.2)输入句子相似度矩阵,使用抽取式摘要模型,采用textrank算法,获取到每个句子在公文中的重要度,选取重要度高的句子作为抽取式摘要模型的弱标签摘要数据A。
所述步骤④中,对弱标签摘要数据A采用正则匹配的方式去除弱标签摘要数据A中的数字、网络字符以及特殊字符,并利用连接词词典,增加句子的语义连贯性,对弱标签摘要数据A进行增强。
所述步骤⑤分为以下步骤:
(5.1)采用步骤①及步骤②的方法对公文数据进行处理;
(5.2)编码器对于输入的公文正文句子,用一个双向LSTM网络进行编码,其中在embedding部分使用政务领域专用word2vec词向量模型进行向量化表示;
(5.3)解码器采用单向LSTM网络模型,在每个时刻输入的公文数据语料由前一时刻的输出、前一时刻隐藏状态以及编码器产生的语义向量组成,输出为公文摘要序列;
(5.4)将步骤(5.1)~(5.3)中的数据输入生成式摘要模型。
进一步地,本发明首先对公文进行筛选处理,并进行文本预处理,再使用抽取式摘要方法生成弱标签摘要数据A,将弱标签摘要数据A进行语义增强,最后利用基于生成式摘要模型进行训练,对于新公文文本,利用训练后获取的公文摘要生成模型生成摘要。
具体的,本发明针对基于深度学习的文本摘要生成方法需要大量人工标注数据而带来的巨大人力物力和时间成本问题,通过数据增强的方式作为弱标签摘要数据A,以辅助基于深度学习端到端文本摘要生成模型的参数微调训练。
综上所述,本发明通过训练一个公文摘要,自动生成公文摘要生成模型,其生成的公文摘要不局限于公文文本中的词,能生成语义更通顺的公文摘要;在实际应用中,可以简略清晰地描述公文的主要内容,达到提高工作效率的目的,有效解决了生成式公文摘要和生成算法中缺少标注数据训练的问题,同时又避免了抽取式方法导致的摘要信息片段化、歧义化的问题。

Claims (10)

1.一种抽取式与生成式相结合的公文摘要生成模型,其特征在于:首先筛选公文内容,去除公文摘要噪声数据,并对处理后的数据进行清洗、预处理,然后采用抽取式摘要模型生成弱标签数据集A,其次通过摘要连贯性和增加高置信度样本数的方式增强弱标签数据集A的质量,最后采用弱标签数据集A训练生成式摘要模型,获取公文摘要生成模型。
2.如权利要求1所述的抽取式与生成式相结合的公文摘要生成模型,其特征在于:包括以下步骤:
①公文内容筛选:从公文数据语料中,对公文内容进行筛选,去除公文中的公文摘要噪声数据;
②数据清洗、预处理:对筛选后的公文进行文本预处理和清洗,获取文本数据,将文本数据进行预处理分词,再利用训练好的政务领域专用word2vec模型将分词后的词语表示成词向量;
③抽取式摘要模型:将词向量融合表示成句子向量,并将句子向量输入抽取式摘要模型,获取每个句子在公文中的重要性,选取重要性最大的句子作为抽取式摘要模型生成的弱标签摘要数据A;
④弱标签摘要数据A语义增强:对弱标签摘要数据A进行数据增强,增强摘要句子之间的语义连贯性,筛选去除抽取式摘要模型中置信度较小的样本;
⑤生成式摘要模型:将弱标签摘要数据A以及公文数据语料输入生成式摘要模型,并采用步骤①及步骤②的方法对公文数据语料进行处理;
⑥公文摘要:训练步骤⑤中的生成式摘要模型,获取公文摘要生成模型。
3.如权利要求2所述的抽取式与生成式相结合的公文摘要生成模型,其特征在于:所述步骤①中,公文摘要噪声数据包括表格、具体叙述条文、名单列表,并采用正则匹配的方式去除公文中的表格、名单列表、具体叙述条文与公文正文之间的空白行。
4.如权利要求2所述的抽取式与生成式相结合的公文摘要生成模型,其特征在于:所述步骤②中,文本预处理和清洗为:去除筛选后的公文中的数字、网络字符以及特殊字符。
5.如权利要求2所述的抽取式与生成式相结合的公文摘要生成模型,其特征在于:所述步骤⑤中,生成式摘要模型采用基于Seq2Seq+Attention机制的方法生成公文摘要序列。
6.如权利要求5所述的抽取式与生成式相结合的公文摘要生成模型,其特征在于:所述Seq2Seq由基于LSTM的编码器和解码器组成,并采用Attention机制来增大重要信息权重。
7.如权利要求2所述的抽取式与生成式相结合的公文摘要生成模型,其特征在于:所述步骤②分为以下步骤:
(2.1)采用正则匹配的方式去除筛选后的公文中的数字、网络字符以及特殊字符;
(2.2)根据政务领域的特征构建政务领域停用词表及分词表,并采用jieba分词对公文数据进行分词;
(2.3)将步骤(2.1)中的公文进行政务领域词向量模型训练,获取政务领域专用word2vec模型;
(2.4)利用训练好的政务领域专用word2vec模型将分词后的词语表示成词向量。
8.如权利要求2所述的抽取式与生成式相结合的公文摘要生成模型,其特征在于:所述步骤③分为以下步骤:
(3.1)将每个句子中的词向量相加取平均,得到句子向量,采用余弦相似度的方法,获取公文中句子与句子之间的相似度;
(3.2)输入句子相似度矩阵,使用抽取式摘要模型,采用textrank算法,获取到每个句子在公文中的重要度,选取重要度高的句子作为抽取式摘要模型的弱标签摘要数据A。
9.如权利要求2所述的抽取式与生成式相结合的公文摘要生成模型,其特征在于:所述步骤④中,对弱标签摘要数据A采用正则匹配的方式去除弱标签摘要数据A中的数字、网络字符以及特殊字符,并利用连接词词典,增加句子的语义连贯性,对弱标签摘要数据A进行增强。
10.如权利要求2所述的抽取式与生成式相结合的公文摘要生成模型,其特征在于:所述步骤⑤分为以下步骤:
(5.1)采用步骤①及步骤②的方法对公文数据进行处理;
(5.2)编码器对于输入的公文正文句子,用一个双向LSTM网络进行编码,其中在embedding部分使用政务领域专用word2vec词向量模型进行向量化表示;
(5.3)解码器采用单向LSTM网络模型,在每个时刻输入的公文数据语料由前一时刻的输出、前一时刻隐藏状态以及编码器产生的语义向量组成,输出为公文摘要序列;
(5.4)将步骤(5.1)~(5.3)中的数据输入生成式摘要模型。
CN201910330573.3A 2019-04-23 2019-04-23 一种抽取式与生成式相结合的公文摘要生成模型 Active CN110119444B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910330573.3A CN110119444B (zh) 2019-04-23 2019-04-23 一种抽取式与生成式相结合的公文摘要生成模型

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910330573.3A CN110119444B (zh) 2019-04-23 2019-04-23 一种抽取式与生成式相结合的公文摘要生成模型

Publications (2)

Publication Number Publication Date
CN110119444A true CN110119444A (zh) 2019-08-13
CN110119444B CN110119444B (zh) 2023-06-30

Family

ID=67521315

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910330573.3A Active CN110119444B (zh) 2019-04-23 2019-04-23 一种抽取式与生成式相结合的公文摘要生成模型

Country Status (1)

Country Link
CN (1) CN110119444B (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968667A (zh) * 2019-11-27 2020-04-07 广西大学 一种基于文本状态特征的期刊文献表格抽取方法
CN111178053A (zh) * 2019-12-30 2020-05-19 电子科技大学 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
CN111581374A (zh) * 2020-05-09 2020-08-25 联想(北京)有限公司 文本的摘要获取方法、装置及电子设备
CN111858913A (zh) * 2020-07-08 2020-10-30 北京嘀嘀无限科技发展有限公司 一种自动生成文本摘要的方法和系统
CN111966820A (zh) * 2020-07-21 2020-11-20 西北工业大学 一种生成式摘要模型构建、提取生成式摘要方法及系统
CN112115256A (zh) * 2020-09-15 2020-12-22 大连大学 一种融入中文笔画信息的新闻文本摘要生成的方法及装置
CN112183077A (zh) * 2020-10-13 2021-01-05 京华信息科技股份有限公司 一种基于模式识别的公文摘要抽取方法及系统
CN112417139A (zh) * 2020-11-19 2021-02-26 深圳大学 一种基于预训练语言模型的摘要生成方法
CN113157909A (zh) * 2021-04-14 2021-07-23 上海明略人工智能(集团)有限公司 一种文本生成摘要方法、系统、电子设备及存储介质
CN113609287A (zh) * 2021-09-16 2021-11-05 深圳豹耳科技有限公司 一种文本摘要的生成方法、装置、计算机设备和存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280112A (zh) * 2017-06-22 2018-07-13 腾讯科技(深圳)有限公司 摘要生成方法、装置及计算机设备
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108519890A (zh) * 2018-04-08 2018-09-11 武汉大学 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN109376234A (zh) * 2018-10-10 2019-02-22 北京京东金融科技控股有限公司 一种训练摘要生成模型的方法和装置
CN109597886A (zh) * 2018-10-23 2019-04-09 中国科学院自动化研究所 抽取生成混合型摘要生成方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108280112A (zh) * 2017-06-22 2018-07-13 腾讯科技(深圳)有限公司 摘要生成方法、装置及计算机设备
CN108319668A (zh) * 2018-01-23 2018-07-24 义语智能科技(上海)有限公司 生成文本摘要的方法及设备
CN108804495A (zh) * 2018-04-02 2018-11-13 华南理工大学 一种基于增强语义的自动文本摘要方法
CN108519890A (zh) * 2018-04-08 2018-09-11 武汉大学 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN109376234A (zh) * 2018-10-10 2019-02-22 北京京东金融科技控股有限公司 一种训练摘要生成模型的方法和装置
CN109597886A (zh) * 2018-10-23 2019-04-09 中国科学院自动化研究所 抽取生成混合型摘要生成方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
CHANDRA KHATRI等: "Abstractive and Extractive Text Summarization using Document Context Vector and Recurrent Neural Networks", 《ARXIV》 *
GLORIAN YAPINUS等: "Automatic multi-document summarization for Indonesian documents using hybrid abstractive-extractive summarization technique", 《IEEE》 *
RAMESH NALLAPATI等: "SummaRuNNer A Recurrent Neural Network based Sequence Model for Extractive Summarization of Documents", 《ARXIV》 *
VIPUL DALAL等: "A Survey of Extractive and Abstractive Automatic Text Summarization Techniques", 《IEEE》 *

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110968667A (zh) * 2019-11-27 2020-04-07 广西大学 一种基于文本状态特征的期刊文献表格抽取方法
CN111178053A (zh) * 2019-12-30 2020-05-19 电子科技大学 一种结合语义和文本结构进行生成式摘要抽取的文本生成方法
CN111581374A (zh) * 2020-05-09 2020-08-25 联想(北京)有限公司 文本的摘要获取方法、装置及电子设备
CN111858913A (zh) * 2020-07-08 2020-10-30 北京嘀嘀无限科技发展有限公司 一种自动生成文本摘要的方法和系统
CN111966820A (zh) * 2020-07-21 2020-11-20 西北工业大学 一种生成式摘要模型构建、提取生成式摘要方法及系统
CN112115256A (zh) * 2020-09-15 2020-12-22 大连大学 一种融入中文笔画信息的新闻文本摘要生成的方法及装置
CN112183077A (zh) * 2020-10-13 2021-01-05 京华信息科技股份有限公司 一种基于模式识别的公文摘要抽取方法及系统
CN112417139A (zh) * 2020-11-19 2021-02-26 深圳大学 一种基于预训练语言模型的摘要生成方法
WO2022104967A1 (zh) * 2020-11-19 2022-05-27 深圳大学 一种基于预训练语言模型的摘要生成方法
CN112417139B (zh) * 2020-11-19 2023-07-25 深圳大学 一种基于预训练语言模型的摘要生成方法
CN113157909A (zh) * 2021-04-14 2021-07-23 上海明略人工智能(集团)有限公司 一种文本生成摘要方法、系统、电子设备及存储介质
CN113609287A (zh) * 2021-09-16 2021-11-05 深圳豹耳科技有限公司 一种文本摘要的生成方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
CN110119444B (zh) 2023-06-30

Similar Documents

Publication Publication Date Title
CN110119444A (zh) 一种抽取式与生成式相结合的公文摘要生成模型
CN108897857B (zh) 面向领域的中文文本主题句生成方法
CN111382580A (zh) 一种面向神经机器翻译的编码器-解码器框架预训练方法
CN110334361A (zh) 一种面向小语种语言的神经机器翻译方法
CN108519890A (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN108804495A (zh) 一种基于增强语义的自动文本摘要方法
CN108804417A (zh) 一种基于特定领域情感词的文档级情感分析方法
CN108491372B (zh) 一种基于seq2seq模型的中文分词方法
CN110020438A (zh) 基于序列识别的企业或组织中文名称实体消歧方法和装置
CN110619043A (zh) 基于动态词向量的自动文本摘要生成方法
CN109766432A (zh) 一种基于生成对抗网络的中文摘要生成方法和装置
Wu et al. Linguistic steganalysis with graph neural networks
CN104050160A (zh) 一种机器与人工翻译相融合的口语翻译方法和装置
CN109460459A (zh) 一种基于日志学习的对话系统自动优化方法
CN114880461A (zh) 一种结合对比学习和预训练技术的中文新闻文本摘要方法
CN111259196B (zh) 一种基于视频大数据的文章转视频的方法
Xiong et al. Transferable natural language interface to structured queries aided by adversarial generation
CN113239710A (zh) 多语言机器翻译方法、装置、电子设备和存储介质
CN116432654A (zh) 一种基于内容上下文的自动续写生成方法
CN115935995A (zh) 面向知识图谱生成的非遗丝织领域实体关系抽取方法
KR20190104656A (ko) 텍스트에서 제목을 추출하는 방법 및 장치
CN114564953A (zh) 一种基于多种词嵌入融合与注意力机制的情感目标抽取模型
CN111259109B (zh) 一种基于视频大数据的音频转视频的方法
CN111191023B (zh) 一种话题标签自动生成方法、装置及系统
Shi et al. StarSum: A star architecture based model for extractive summarization

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant