CN109829161A - 一种多语种自动摘要的方法 - Google Patents
一种多语种自动摘要的方法 Download PDFInfo
- Publication number
- CN109829161A CN109829161A CN201910093268.7A CN201910093268A CN109829161A CN 109829161 A CN109829161 A CN 109829161A CN 201910093268 A CN201910093268 A CN 201910093268A CN 109829161 A CN109829161 A CN 109829161A
- Authority
- CN
- China
- Prior art keywords
- module
- text
- sentence
- abstract
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Machine Translation (AREA)
Abstract
本发明涉及自然语言处理中的文本生成技术领域,具体涉及一种多语种自动摘要的方法,包括整个自动摘要系统,自动摘要系统分为模型训练模块、单文档摘要模块和多文档摘要模块,模型训练模块分为文本预处理模块和训练模块,单文档摘要模块分为文本预处理模块和摘要生成模块,多文档摘要模块分为文本预处理模块、多语种句子聚类模块和摘要生成模块,其中,模型训练模块中的模型为seq2seq神经网络模型,训练文本由“摘要‑标题”对组成,本发明设计并实现一个多语种生成式自动摘要系统,采用双语词嵌入技术和深度学习的方法,对用户指定的文本或文本集生成一个简短摘要,帮助用户浏览原文大意,快速地找到自己最需要的信息。
Description
技术领域
本发明涉及自然语言处理中的文本生成技术领域,具体涉及一种多语种自动摘要的方法。
背景技术
文本摘要通常是指从单个或者多个文档中生成一段文本,该文本传达了原始文本中的主要信息,但是仅有不到原始文本一半甚至更少的篇幅。例如,对一个1500字的文本总结出150字的摘要,就可以为读者节省大量阅读时间,同时也起到信息压缩的作用。
根据摘要的生成方法,我们可以把自动摘要分为抽取式摘要(ExtractiveSummarization)和生成式摘要(Abstractive Summarization)。其中,抽取式摘要的特点是摘要中的句子是原文中的句子,又叫做“句子摘录”,而生成式摘要的特点是摘要中的句子不是原文中的句子,是重新生成的新句子。目前占据主导地位的是抽取式摘要,其对不同语言、不同领域、不同风格的文档集都表现出了良好的适应性。而生成式摘要涉及相对复杂的自然语言处理技术,实用性较差,相比抽取式摘要来说研究较少。
目前抽取式摘要主要有以下几种方法:基于统计的自动文摘、基于主题的自动文摘、基于篇章结构的自动文摘、基于机器学习的自动文摘、基于图排序方法的自动文摘。抽取式摘要的主要思想为:按照某种方法对全文中每个句子的重要性进行打分,然后从这些句子中抽取得分排名靠前的一些句子。
生成式摘要主要有以下几种方法:基于语言学知识的方法,基于框架填充信息的方法,基于深度学习的方法。
基于语言学知识的方法利用语言学知识,将句子按照组成成分切割,然后将原句子中的形容词、副词等对表征原句意义不大的词删去,保留剩下的句子主干部分。这种方法对语言学知识要求较高,实际上可以看成是一个“句子压缩”任务。在文献中,王开铸等人(1996)利用深层格关系来表示句子的意义,将一个句子的成分用8个格关系来表示:施事格,受动格,客体格,工具格,方位格,源格,目的格。类似于汉语中的主语、谓语、宾语等句子成分。然后去掉定语、状语、补语等对原句意义影响不大的部分,保留句子的主要成分,最后抽取出重要的句子形成原文的摘要。
基于框架填充的方法主要是针对某个领域,预先写好一个总体框架,然后在该领域的文章中寻找相对应的信息填入框架。例如:杨晓兰等人(1997)提出基于选择生成法的自动文摘系统,通过文本选择分析器对与文摘有关的文本部分进行分析和理解,把与文摘生成有关的概念提取出来,填入预先写好的文摘框架中。文摘生成器根据文摘框架的填充情况生成完整、简洁、可读性好的文摘。这种方法主要是在框架的引导下抽取文档中合适的信息进行填充生成最终的摘要。
深度学习是一类广泛的机器学习技术和架构,是机器学习中一种基于对数据进行表征学习的方法。目前深度学习方法已逐渐在包括自然语言处理的众多领域中被广泛应用。利用深度学习方法对文本生成摘要主要是依靠谷歌研究人员2014年在机器翻译领域提出的“序列到序列(sequence-to-sequence)”模型。该模型在机器翻译、语音识别、视频字幕等研究上取得了不错的效果。自动摘要问题同样可视为从原文本到摘要文本的映射,因此可使用序列到序列建模方法来解决,很多研究者都在”Seq2Seq”模型的基础上加以改进,得到一个效果更好的自动摘要模型。2015年,Rush等人率先提出用一个神经网络语言模型(NNLM)加上注意力机制来对句子生成摘要,将深度学习技术用到了自动摘要上。该方法用大量的“句子-摘要”对训练神经网络模型,产生的是句子级别的生成式摘要。
目前,在多语种自动摘要领域还存在以下需要解决的问题:
(1)传统的抽取式摘要抽取的句子含有大量冗余信息,并且句子之间连贯性不强,可读性较差,而生成式摘要长度较短,冗余性低,句子的概括性强;
(2)基于机器翻译的多语种自动摘要比较简单,将不同语言的文本翻译成一种语言再进行自动摘要,这种方法严重依赖于机器翻译结果的好坏,执行效率较低。
发明内容
针对现有技术的不足,本发明公开了一种多语种自动摘要的方法,采用双语词嵌入技术和深度学习的方法,对用户指定的文本或文本集生成一个简短摘要,帮助用户浏览原文大意,快速地找到自己最需要的信息。
一种多语种自动摘要的方法,包括整个自动摘要系统,所述的自动摘要系统分为模型训练模块、单文档摘要模块和多文档摘要模块,所述的模型训练模块分为文本预处理模块和训练模块,所述的单文档摘要模块分为文本预处理模块和摘要生成模块,所述的多文档摘要模块分为文本预处理模块、多语种句子聚类模块和摘要生成模块,其中,所述的模型训练模块中的模型为seq2seq神经网络模型,所述的模型训练模块下的文本预处理模块中的文本为训练文本且由“摘要-标题”对组成;
优选的,所述的自动摘要系统面向中、朝、英三种语言的科技文献,其中,对单个文本生成一个描述该文本大致内容的自然语言摘要,摘要语言与源文本语言一致;对包含中、朝、英三种语言的文本集生成一个描述这个文本集内容的自然语言摘要,摘要语言默认为中文;
优选的,所述的seq2seq神经网络模型采用编码端和解码端都是LSTM的结构;
优选的,所述的模型训练模块实现方法包括,
1)将中文的所有训练文本放在一起,分词后建立总的词表,并统计每一个词的词频,每一个词在词表中有一个唯一对应的id;
2)将词频过低的词舍去,并用“<unk>”来替代,构建语料库的词表;
3)将“<unk>”,“<sos>”,“<eos>”这三个词加到词表中;“<sos>”表示句子的开始,“<eos>”表示句子的结束,将摘要的末尾加上“<eos>”,标题的开头加上“<sos>”,标题的末尾加上“<eos>”;
4)将训练文本中的所有词项转换成词表中相对应的id,词表中没有出现的词用“<unk>”的id来替换,构建原始“摘要-标题”对新的表示,新的表示为“数字序列-数字序列”,并交给训练模型,其中,训练文本处理模块的输入是原始训练集,输出是该训练集由词表id构成的新的表示;
5)训练模型用数字组成的“摘要-标题”对来训练,模型的输入端是“摘要”相对应的数字序列,模型的输出端是“标题”相对应的数字序列;
优选的,所述的单文档摘要模块实现方法为,
S1:文本的预处理模块先对文本进行分词,并去除停用词,在每一句结束的时候添加“<eos>”,构造句子序列,最后将每一个词用训练阶段的词表中相对应的id来表示,其中,模块的输入是原始文本,输出是由数字表示的句子序列;
S2:摘要生成模块先对原始文本进行抽取式摘要,抽取出重要的句子;
S3:然后,摘要生成模块将重要的句子的数字序列依次输入到模型,经模型处理后生成句子的摘要,得到文本的摘要,其中,模块的输入是抽取出的重要句子的数字序列,模块的输出是文本的摘要;
优选的,所述的多文档摘要模块实现方法为,
a1:在文本预处理模块中,先对文本进行分词,然后在每一个句子结束的时候添加“<eos>”,分词结束后,将一个句子中每一个词的词向量进行加和,其中,模块的输入是文本,输出是文本中句子的向量;
a2:在多语种句子聚类模块中,给定一个相似度阈值,对文本集中所有句子向量进行凝聚层次聚类,让语义上相近的多语种句子聚类到一起,其中,模块的输入是文本集中所有句子向量集合,输出是文本集中的句子聚类;
a3:在摘要生成模块中,首先从多语种句子聚类中抽出“代表性”句子,对这个句子生成摘要,并用此摘要代表这个聚类的主旨,对有中文句子的聚类使用中文句子的摘要代表这个聚类的主旨,对没有中文句子的聚类,根据该聚类中的朝文或者英文句子的词项,在多语种向量空间中找到与其最接近的中文词项,并给出这些中文的关键词项来代表这个聚类的主旨;
a4:摘要生成模块再对文本集中各个聚类的摘要进行筛选,最终生成文本集的摘要,其中,模块的输入是每个子文本集的句子聚类,输出是子文本集的摘要。
有益效果:本发明设计并实现一个多语种生成式自动摘要系统,采用双语词嵌入技术和深度学习的方法,将不同语言下的词向量映射到同一个空间中,使得语义上相似的词在该空间下分布式接近的,这样就避开了机器翻译技术,将多语种自动摘要就转换为“单语种”自动摘要,并对用户指定的文本或文本集生成一个简短摘要,帮助用户浏览原文大意,快速地找到自己最需要的信息。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1:本发明整体系统框图;
图2:本发明单文档摘要模块实现框图;
图3:本发明多文档摘要模块实现框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本自动摘要系统面向中、朝、英三种语言的科技文献,其中,对单个文本生成一个描述该文本大致内容的自然语言摘要,摘要语言与源文本语言一致;对包含中、朝、英三种语言的文本集生成一个描述这个文本集内容的自然语言摘要,摘要语言默认为中文。
如图1所示,一种多语种自动摘要的方法模型训练模块的具体实现过程为:
1、首先是模型训练模块,模型训练模块分为训练文本处理模块和训练模型部分,其中,训练文本是由大量的“摘要-标题”对组成;
2、对于中文来说,首先要将中文的所有训练文本放在一起,分词后建立总的词表,并统计每一个词的词频,这样,每一个词在词表中有一个唯一对应的id,为了限制词表的大小,需要将词频过低的词舍去,并用“<unk>”来替代,这样,语料库的词表就构建完成;
3、然后将“<unk>”,“<sos>”,“<eos>”这三个词加到词表中,其中,“<sos>”表示句子的开始,“<eos>”表示句子的结束,并将摘要的末尾加上“<eos>”,标题的开头加上“<sos>”,标题的末尾加上“<eos>”;
4、最后将训练文本中的所有词项转换成词表中相对应的id,词表中没有出现的词用“<unk>”的id来替换,用这样的方法来构建原始“摘要-标题”对新的表示(“数字序列-数字序列”),交给下一步的训练模型,其中,训练文本处理模块的输入是原始训练集,输出是该训练集由词表id构成的新的表示;
5、训练模型的时候全部是数字组成的“摘要-标题”对来训练,其中,模型的输入端是“摘要”相对应的数字序列,模型的输出端是“标题”相对应的数字序列。
其中,所述的模型训练模块中的模型为seq2seq神经网络模型,采用编码端和解码端都是LSTM的结构,LSTM是RNN(recurrent neural networks)的一种变体,是深度学习中用于处理时序数据的常用技术,LSTM通过设计精巧的网络结构来缓解梯度消失问题,其数学上的形式化表示如下:
在公式中,“:=”表示“定义为”
sigm代表sigmoid激活函数sigm(z):=1/(1+exp(-z));
tanh代表tanh激活函数:
Wxi代表权重矩阵,是通过学习可以修改的;
表示输入门:it控制当前词xt的信息融入记忆单元ct,在理解一句话时,当前词xt可能对整句话的意思很重要,也可能并不重要。输入门的目的就是判断当前词xt对全局的重要性,当it开关打开的时候,网络将不考虑当前输入xt;
表示遗忘门:ft控制上一时刻记忆单元ct-1的信息融入记忆单元ct。在理解一句话时,当前词xt可能继续延续上文的意思继续描述,也可能从当前词xt开始描述新的内容,与上文无关。和输入门it相反,ft不对当前词xt的重要性作判断,而判断的是上一时刻的记忆单元ct-1对计算当前记忆单元ct的重要性,当ft开关打开的时候,网络将不考虑上一时刻的记忆单元ct-1;
表示输出门:输出门的目的是从记忆单元ct产生隐层单元ht,并不是ct中的全部信息都和隐层单元ht有关,ct可能包含了很多对ht无用的信息,因此,ot的作用就是判断ct中哪些部分是对ht有用的,哪些部分是无用的;
表示记忆单元:ct综合了当前词xt和前一时刻记忆单元ct-1的信息。这和ResNet中的残差逼近思想十分相似,通过从ct-1到ct的”短路连接”,梯度得已有效地反向传播,当ft处于闭合状态时,ct的梯度可以直接传递到ct-1,不受参数W的影响,这是LSTM能有效地缓解梯度消失现象的关键所在;
表示t时刻隐层的输出;
符号表示hadamard乘积,是对两个向量进行element-wise乘法,即对应元素相乘;
其中,用训练集中所有的“摘要-标题”对的数字序列来训练这个神经网络模型,训练模块的输入是“摘要-标题”对相对应的数字序列,训练的结果是得到一个可以产生摘要的神经网络模型,对于英文和朝文来说,用同样的方法分别训练,得到三个神经网络模型。
如图2所示,一种多语种自动摘要的方法单文档摘要模块实现过程为:
S1:文本的预处理模块主要是先对文本进行分词,接着和训练阶段的预处理方式一样,在每一句结束的时候添加“<eos>”,构造句子序列,最后将每一个词用训练阶段的词表中相对应的id来表示,其中,模块的输入是原始文本,输出是由数字表示的句子序列;
S2:摘要生成模块主要分为两个部分:首先对原始文本进行抽取式摘要,抽取出重要的句子,抽取法采用TextRank算法:
TextRank算法的公式为:
WS(Vi):代表句子Vi的得分;
d:阻尼系数,确保每一个句子至少有1-d的分数;
In(Vi):表示推荐句子Vi的句子;
Out(Vj):表示句子Vj推荐的句子;
句子之间的推荐,指的是两个句子之间相似度不为0,他们互相推荐;
wji:表示句子Vi和Vj之间的相似度;
两个句子之间的相似度计算公式为
Si和Sj分别代表句子i和句子j;
tk代表句子中的词项;
分子表示句子i和句子j中,相同词项的个数;
|Si|和|Sj|分别表示句子i和句子j中词项的个数;
S3:然后将重要的句子的数字序列依次输入到模型,经模型处理后生成句子的摘要,得到文本的摘要,其中,模块的输入是抽取出的重要句子的数字序列,模块的输出是文本的摘要。
如图3所示,一种多语种自动摘要的方法单文档摘要模块实现过程为,
a1:在文本预处理模块中,先对文本进行分词,然后在每一个句子结束的时候添加“<eos>”,与单文档摘要模块中的文本预处理不同的是,在分词结束后,利用多语种词向量来构造每一个句子的句向量,构造句向量的方法是将这个句子中的所有单词的词向量相加,其中,模块的输入是文本,输出是文本中句子的向量;
a2:在多语种句子聚类模块中,给定一个相似度阈值,对文本集中所有句子向量进行凝聚层次聚类,让语义上相近的多语种句子聚类到一起,其中,模块的输入是文本集中所有句子向量集合,输出是文本集中的句子聚类;
a3:在摘要生成模块中,首先从多语种句子聚类中抽出“代表性”句子,对这个句子生成摘要,并用此摘要代表这个聚类的主旨,对有中文句子的聚类使用中文句子的摘要代表这个聚类的主旨,对没有中文句子的聚类,根据该聚类中的朝文或者英文句子的词项,在多语种向量空间中找到与其最接近的中文词项,并给出这些中文的关键词项来代表这个聚类的主旨;
a4:摘要生成模块再对文本集中各个聚类的摘要进行筛选,最终生成文本集的摘要,其中,模块的输入是每个子文本集的句子聚类,输出是子文本集的摘要。
本发明设计并实现一个多语种生成式自动摘要系统,采用双语词嵌入技术和深度学习的方法,对用户指定的文本或文本集生成一个简短摘要,帮助用户浏览原文大意,快速地找到自己最需要的信息。
以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (6)
1.一种多语种自动摘要的方法,其特征在于:包括整个自动摘要系统,所述的自动摘要系统分为模型训练模块、单文档摘要模块和多文档摘要模块,所述的模型训练模块分为文本预处理模块和训练模块,所述的单文档摘要模块分为文本预处理模块和摘要生成模块,所述的多文档摘要模块分为文本预处理模块、多语种句子聚类模块和摘要生成模块,其中,所述的模型训练模块中的模型为seq2seq神经网络模型,所述的模型训练模块下的文本预处理模块中的文本为训练文本且由“摘要-标题”对组成。
2.根据权利要求1所述的多语种自动摘要的方法,其特征在于:所述的自动摘要系统面向中、朝、英三种语言的科技文献,其中,对单个文本生成一个描述该文本大致内容的自然语言摘要,摘要语言与源文本语言一致;对包含中、朝、英三种语言的文本集生成一个描述这个文本集内容的自然语言摘要,摘要语言默认为中文。
3.根据权利要求1所述的多语种自动摘要的方法,其特征在于:所述的seq2seq神经网络模型采用编码端和解码端都是LSTM的结构。
4.根据权利要求1所述的多语种自动摘要的方法,其特征在于:所述的模型训练模块实现方法包括,
1)将中文的所有训练文本放在一起,分词后建立总的词表,并统计每一个词的词频,每一个词在词表中有一个唯一对应的id;
2)将词频过低的词舍去,并用“<unk>”来替代,构建语料库的词表;
3)将“<unk>”,“<sos>”,“<eos>”这三个词加到词表中;“<sos>”表示句子的开始,“<eos>”表示句子的结束,将摘要的末尾加上“<eos>”,将标题的开头加上“<sos>”,标题的末尾加上“<eos>”;
4)将训练文本中的所有词项转换成词表中相对应的id,词表中没有出现的词用“<unk>”的id来替换,构建原始“摘要-标题”对新的表示,新的表示为“数字序列-数字序列”,并交给训练模型,其中,训练文本处理模块的输入是原始训练集,输出是该训练集由词表id构成的新的表示;
5)训练模型用数字组成的“摘要-标题”对来训练,模型的输入端是“摘要”相对应的数字序列,模型的输出端是“标题”相对应的数字序列。
5.根据权利要求4所述的多语种自动摘要的方法,其特征在于:所述的单文档摘要模块实现方法为,
S1:文本的预处理模块先对文本进行分词,并去除停用词,在每一句结束的时候添加“<eos>”,构造句子序列,最后将每一个词用训练阶段的词表中相对应的id来表示,其中,模块的输入是原始文本,输出是由数字表示的句子序列;
S2:摘要生成模块先对原始文本进行抽取式摘要,抽取出重要的句子;
S3:然后,摘要生成模块将重要的句子的数字序列依次输入到模型,经模型处理后生成句子的摘要,得到文本的摘要,其中,模块的输入是抽取出的重要句子的数字序列,模块的输出是文本的摘要。
6.根据权利要求2所述的多语种自动摘要的方法,其特征在于:所述的多文档摘要模块实现方法为,
a1:在文本预处理模块中,先对文本进行分词,然后在每一个句子结束的时候添加“<eos>”,分词结束后,利用多语种词向量来构造每一个句子的句向量,其中,模块的输入是文本,输出是文本中句子的向量;
a2:在多语种句子聚类模块中,给定一个相似度阈值,对文本集中所有句子向量进行凝聚层次聚类,让语义上相近的多语种句子聚类到一起,其中,模块的输入是文本集中所有句子向量集合,输出是文本集中的句子聚类;
a3:在摘要生成模块中,首先从多语种句子聚类中抽出“代表性”句子,对这个句子生成摘要,并用此摘要代表这个聚类的主旨,对有中文句子的聚类使用中文句子的摘要代表这个聚类的主旨,对没有中文句子的聚类,根据该聚类中的朝文或者英文句子的词项,在多语种向量空间中找到与其最接近的中文词项,并给出这些中文的关键词项来代表这个聚类的主旨;
a4:摘要生成模块再对文本集中各个聚类的摘要进行筛选,最终生成文本集的摘要,其中,模块的输入是每个子文本集的句子聚类,输出是子文本集的摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910093268.7A CN109829161B (zh) | 2019-01-30 | 2019-01-30 | 一种多语种自动摘要的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910093268.7A CN109829161B (zh) | 2019-01-30 | 2019-01-30 | 一种多语种自动摘要的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN109829161A true CN109829161A (zh) | 2019-05-31 |
CN109829161B CN109829161B (zh) | 2023-08-04 |
Family
ID=66863055
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910093268.7A Active CN109829161B (zh) | 2019-01-30 | 2019-01-30 | 一种多语种自动摘要的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109829161B (zh) |
Cited By (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297903A (zh) * | 2019-06-11 | 2019-10-01 | 昆明理工大学 | 一种基于不对等语料的跨语言词嵌入方法 |
CN110442866A (zh) * | 2019-07-28 | 2019-11-12 | 广东工业大学 | 一种融合语法信息的句子压缩方法 |
CN110472047A (zh) * | 2019-07-15 | 2019-11-19 | 昆明理工大学 | 一种多特征融合的汉越新闻观点句抽取方法 |
CN111158640A (zh) * | 2019-12-24 | 2020-05-15 | 中国科学院软件研究所 | 一种基于深度学习的一对多需求分析识别方法 |
CN111368515A (zh) * | 2020-03-02 | 2020-07-03 | 中国农业科学院农业信息研究所 | 基于pdf文档碎片化的行业动态交互式报告生成方法及系统 |
CN111382261A (zh) * | 2020-03-17 | 2020-07-07 | 北京字节跳动网络技术有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
CN111400454A (zh) * | 2020-03-17 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
CN111597327A (zh) * | 2020-04-22 | 2020-08-28 | 哈尔滨工业大学 | 一种面向舆情分析的无监督式多文档文摘生成方法 |
CN111831814A (zh) * | 2020-06-04 | 2020-10-27 | 北京百度网讯科技有限公司 | 摘要生成模型的预训练方法、装置、电子设备和存储介质 |
CN112417139A (zh) * | 2020-11-19 | 2021-02-26 | 深圳大学 | 一种基于预训练语言模型的摘要生成方法 |
CN112507111A (zh) * | 2020-10-20 | 2021-03-16 | 北京中科凡语科技有限公司 | 用于生成式自动摘要生成的模型建立方法及摘要生成方法 |
CN112765996A (zh) * | 2021-01-19 | 2021-05-07 | 延边大学 | 基于强化学习和机器翻译质量评估的中朝机器翻译方法 |
CN114330276A (zh) * | 2022-01-04 | 2022-04-12 | 四川新网银行股份有限公司 | 一种基于深度学习的短信模板生成方法、系统及电子装置 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411621A (zh) * | 2011-11-22 | 2012-04-11 | 华中师范大学 | 一种基于云模型的中文面向查询的多文档自动文摘方法 |
CN103136359A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 单文档摘要生成方法 |
CN104679730A (zh) * | 2015-02-13 | 2015-06-03 | 刘秀磊 | 网页摘要抽取方法及其装置 |
CN106528536A (zh) * | 2016-11-14 | 2017-03-22 | 北京赛思信安技术股份有限公司 | 一种基于词典与文法分析的多语种分词方法 |
CN108090049A (zh) * | 2018-01-17 | 2018-05-29 | 山东工商学院 | 基于句子向量的多文档摘要自动提取方法及系统 |
CN108491512A (zh) * | 2018-03-23 | 2018-09-04 | 北京奇虎科技有限公司 | 新闻标题的摘要方法及装置 |
CN108804495A (zh) * | 2018-04-02 | 2018-11-13 | 华南理工大学 | 一种基于增强语义的自动文本摘要方法 |
-
2019
- 2019-01-30 CN CN201910093268.7A patent/CN109829161B/zh active Active
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102411621A (zh) * | 2011-11-22 | 2012-04-11 | 华中师范大学 | 一种基于云模型的中文面向查询的多文档自动文摘方法 |
CN103136359A (zh) * | 2013-03-07 | 2013-06-05 | 宁波成电泰克电子信息技术发展有限公司 | 单文档摘要生成方法 |
CN104679730A (zh) * | 2015-02-13 | 2015-06-03 | 刘秀磊 | 网页摘要抽取方法及其装置 |
CN106528536A (zh) * | 2016-11-14 | 2017-03-22 | 北京赛思信安技术股份有限公司 | 一种基于词典与文法分析的多语种分词方法 |
CN108090049A (zh) * | 2018-01-17 | 2018-05-29 | 山东工商学院 | 基于句子向量的多文档摘要自动提取方法及系统 |
CN108491512A (zh) * | 2018-03-23 | 2018-09-04 | 北京奇虎科技有限公司 | 新闻标题的摘要方法及装置 |
CN108804495A (zh) * | 2018-04-02 | 2018-11-13 | 华南理工大学 | 一种基于增强语义的自动文本摘要方法 |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110297903A (zh) * | 2019-06-11 | 2019-10-01 | 昆明理工大学 | 一种基于不对等语料的跨语言词嵌入方法 |
CN110297903B (zh) * | 2019-06-11 | 2021-04-30 | 昆明理工大学 | 一种基于不对等语料的跨语言词嵌入方法 |
CN110472047A (zh) * | 2019-07-15 | 2019-11-19 | 昆明理工大学 | 一种多特征融合的汉越新闻观点句抽取方法 |
CN110472047B (zh) * | 2019-07-15 | 2022-12-13 | 昆明理工大学 | 一种多特征融合的汉越新闻观点句抽取方法 |
CN110442866A (zh) * | 2019-07-28 | 2019-11-12 | 广东工业大学 | 一种融合语法信息的句子压缩方法 |
CN111158640A (zh) * | 2019-12-24 | 2020-05-15 | 中国科学院软件研究所 | 一种基于深度学习的一对多需求分析识别方法 |
CN111158640B (zh) * | 2019-12-24 | 2021-06-01 | 中国科学院软件研究所 | 一种基于深度学习的一对多需求分析识别方法 |
CN111368515A (zh) * | 2020-03-02 | 2020-07-03 | 中国农业科学院农业信息研究所 | 基于pdf文档碎片化的行业动态交互式报告生成方法及系统 |
CN111400454A (zh) * | 2020-03-17 | 2020-07-10 | 北京字节跳动网络技术有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
CN111382261A (zh) * | 2020-03-17 | 2020-07-07 | 北京字节跳动网络技术有限公司 | 摘要生成方法、装置、电子设备及存储介质 |
CN111597327A (zh) * | 2020-04-22 | 2020-08-28 | 哈尔滨工业大学 | 一种面向舆情分析的无监督式多文档文摘生成方法 |
CN111831814B (zh) * | 2020-06-04 | 2023-06-23 | 北京百度网讯科技有限公司 | 摘要生成模型的预训练方法、装置、电子设备和存储介质 |
CN111831814A (zh) * | 2020-06-04 | 2020-10-27 | 北京百度网讯科技有限公司 | 摘要生成模型的预训练方法、装置、电子设备和存储介质 |
CN112507111A (zh) * | 2020-10-20 | 2021-03-16 | 北京中科凡语科技有限公司 | 用于生成式自动摘要生成的模型建立方法及摘要生成方法 |
CN112507111B (zh) * | 2020-10-20 | 2024-02-06 | 北京中科凡语科技有限公司 | 用于生成式自动摘要生成的模型建立方法及摘要生成方法 |
WO2022104967A1 (zh) * | 2020-11-19 | 2022-05-27 | 深圳大学 | 一种基于预训练语言模型的摘要生成方法 |
CN112417139A (zh) * | 2020-11-19 | 2021-02-26 | 深圳大学 | 一种基于预训练语言模型的摘要生成方法 |
CN112417139B (zh) * | 2020-11-19 | 2023-07-25 | 深圳大学 | 一种基于预训练语言模型的摘要生成方法 |
CN112765996A (zh) * | 2021-01-19 | 2021-05-07 | 延边大学 | 基于强化学习和机器翻译质量评估的中朝机器翻译方法 |
CN114330276A (zh) * | 2022-01-04 | 2022-04-12 | 四川新网银行股份有限公司 | 一种基于深度学习的短信模板生成方法、系统及电子装置 |
Also Published As
Publication number | Publication date |
---|---|
CN109829161B (zh) | 2023-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109829161A (zh) | 一种多语种自动摘要的方法 | |
Tan et al. | Phrase-based image caption generator with hierarchical LSTM network | |
Wang et al. | Using Wikipedia knowledge to improve text classification | |
Wang et al. | Improving text classification by using encyclopedia knowledge | |
CN107577671A (zh) | 一种基于多特征融合的主题词提取方法 | |
CN113032552B (zh) | 一种基于文本摘要的政策要点抽取方法与提取系统 | |
CN109062904A (zh) | 逻辑谓词提取方法和装置 | |
CN114265936A (zh) | 一种科技项目文本挖掘的实现方法 | |
CN115017903A (zh) | 文档层次结构联合全局局部信息抽取关键短语方法及系统 | |
Alhojely et al. | Recent progress on text summarization | |
CN112836062B (zh) | 一种文本语料库的关系抽取方法 | |
Tahrat et al. | Text2geo: from textual data to geospatial information | |
Singh et al. | Analysis of changing trends in textual data representation | |
CN113486155B (zh) | 一种融合固定短语信息的中文命名方法 | |
CN116108840A (zh) | 一种文本细粒度情感分析方法、系统、介质和计算设备 | |
CN116186241A (zh) | 基于语义学分析与提示学习的事件要素抽取方法、装置、电子设备及存储介质 | |
CN113128199B (zh) | 基于预训练语言模型与多重词信息嵌入的字向量生成方法 | |
CN114925689A (zh) | 一种基于bi-lstm-mhsa的医疗文本分类方法及装置 | |
Karoui et al. | Contextual Concept Discovery Algorithm. | |
Wei et al. | Research on Error Detection Technology of English Writing Based on Recurrent Neural Network | |
Fu et al. | Domain ontology learning for question answering system in network education | |
Tan et al. | Phrase-based image captioning with hierarchical lstm model | |
Zhang et al. | Multi-granularity entity recognition based sentence ranking for multi-document summarization | |
Gao et al. | Study on Academic Documents–Oriented Automatic Summarization of Short Texts | |
Jearanaitanakij et al. | Fast Hybrid Approach for Thai News Summarization |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |