CN108319668B - 生成文本摘要的方法及设备 - Google Patents

生成文本摘要的方法及设备 Download PDF

Info

Publication number
CN108319668B
CN108319668B CN201810061577.1A CN201810061577A CN108319668B CN 108319668 B CN108319668 B CN 108319668B CN 201810061577 A CN201810061577 A CN 201810061577A CN 108319668 B CN108319668 B CN 108319668B
Authority
CN
China
Prior art keywords
sentence
title
deep learning
similar
output
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810061577.1A
Other languages
English (en)
Other versions
CN108319668A (zh
Inventor
章乐
舒畅
何永
李传丰
武拥珍
李竹桥
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yiyu Intelligent Technology (Jiaxing) Co.,Ltd.
Original Assignee
Yiyu Intelligent Technology Shanghai Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yiyu Intelligent Technology Shanghai Co ltd filed Critical Yiyu Intelligent Technology Shanghai Co ltd
Priority to CN201810061577.1A priority Critical patent/CN108319668B/zh
Publication of CN108319668A publication Critical patent/CN108319668A/zh
Application granted granted Critical
Publication of CN108319668B publication Critical patent/CN108319668B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/34Browsing; Visualisation therefor
    • G06F16/345Summarisation for human users
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Abstract

本发明的目的是提供一种生成文本摘要的方法及设备,本发明通过导入一段文章和标题,从文章中抽取与所述标题最相似的一个代表性句子和关键词,另外加上文章标题通过深度学习生成式模型,从而自动生成高质量的文本摘要。

Description

生成文本摘要的方法及设备
技术领域
本发明涉及计算机领域,尤其涉及一种生成文本摘要的方法及设备。
背景技术
现有的方案只能根据文章的内容得到简单的摘要,对整篇文章概括不够充分,读者无法根据该摘要的内容准确了解文章的主要内容。
发明内容
本发明的一个目的是提供一种生成文本摘要的方法,能够解决现有方案的生成的摘要对整篇文章概括不充分,读者无法根据摘要的内容准确了解文章的主要内容的问题。采用此方法生成的摘要能够充当副标题的作用
根据本发明的一个方面,提供了一种生成文本摘要的方法,该方法包括:
获取待提取文本摘要的文章和标题;
对所述文章进行标准化处理;
从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子;
将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要。
进一步的,上述方法中,从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子,包括:
将所述标准化处理后的文章中的句子进行聚类,从其中一个类中获取与所述标题最相似的一个句子,从剩余的其它类的句子中提取关键词。
进一步的,上述方法中,将所述标准化处理后的文章中的句子进行聚类,从其中一个类中获取与所述标题最相似的一个句子,从剩余的其它类的句子中提取关键词,包括:
将所述标准化处理后的文章进行分句;
对每个句子再用jieba等分词工具进行分词,用tf-idf算法给所述分词后的每个词语打分,并把每个词语转换成预先训练好的词向量;
用每个句子的每个词语的tf-idf分数乘以该词语的词向量得到对应乘积,以句子为单位对乘积做累加作为该句子的句向量;
以每个句子为节点,并以每个句子的句向量的余弦值作为边用k-means算法将所述文章的句子聚成若干类;
在每个类中用textrank算法以相同的节点和边的方式用对每个句子排序,根据所述排序从每个类取一个最优句子;
将每个类的最优句子和所述标题分别作相似度计算,获取与所述标题最相似的的某个类的最优句子;
把其余每个类中的所述排序第一的句子中的关键词提取出来。
进一步的,上述方法中,将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要,包括:
将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要。
进一步的,上述方法中,将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要,包括:
将所述标题输入第一个编码器进行编码;
将与所述标题最相似的一个句子输入第二个编码器进行编码;
对第一个编码器的输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;
对第二个编码器的编码输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;
将第一个编码器和第二个编码器的卷积神经网络cnn的语义抽象的输出合并,将第一个编码器和第二个编码器的循环神经网络rnn的语法提取的输出合并;
将合并后的语法提取的输出加上所述关键词转化得到的词向量作为attention的输入传到所述解码器decoder,并将合并后的语法提取的输出和合并后的语义抽象的输出输入到所述解码器,其中,所述解码器包括一个attention和copy-mechanism。
进一步的,上述方法中,所述深度学习生成式模型还包括一基于卷积神经网络cnn的判别器,将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型之前,还包括:
利用所述判别器对所述两个编码器和一个解码器进行优化。
进一步的,上述方法中,对所述文章进行标准化处理,包括:
对所述文章得标点和字符进行标准化;
删除所述文章中的不需要的多余字符;
将所述文章中包含预设关键字或者与预设结构相符合的句子删除。
根据本发明的另一方面,还提供了一种生成文本摘要的设备,该设备包括:
获取装置,用于获取待提取文本摘要的文章和标题;
标准化装置,用于对所述文章进行标准化处理;
抽取装置,用于从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子;
生成装置,用于将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要。
进一步的,上述设备中,所述抽取装置,用于将所述标准化处理后的文章中的句子进行聚类,从其中一个类中获取与所述标题最相似的一个句子,从剩余的其它类的句子中提取关键词。
进一步的,上述设备中,所述抽取装置,用于将所述标准化处理后的文章进行分句;对每个句子再用jieba等分词工具进行分词,用tf-idf算法给所述分词后的每个词语打分,并把每个词语转换成预先训练好的词向量;用每个句子的每个词语的tf-idf分数乘以该词语的词向量得到对应乘积,以句子为单位对乘积做累加作为该句子的句向量;以每个句子为节点,并以每个句子的句向量的余弦值作为边用k-means算法将所述文章的句子聚成若干类;在每个类中用textrank算法以相同的节点和边的方式用对每个句子排序,根据所述排序从每个类取一个最优句子;将每个类的最优句子和所述标题分别作相似度计算,获取与所述标题最相似的的某个类的最优句子;把其余每个类中的所述排序第一的句子中的关键词提取出来。
进一步的,上述设备中,所述生成装置,用于将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要。
进一步的,上述设备中,所述生成装置,用于将所述标题输入第一个编码器进行编码;将与所述标题最相似的一个句子输入第二个编码器进行编码;对第一个编码器的输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;对第二个编码器的编码输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;将第一个编码器和第二个编码器的卷积神经网络cnn的语义抽象的输出合并,将第一个编码器和第二个编码器的循环神经网络rnn的语法提取的输出合并;将合并后的语法提取的输出加上所述关键词转化得到的词向量作为attention的输入传到所述解码器decoder,并将合并后的语法提取的输出和合并后的语义抽象的输出输入到所述解码器,其中,所述解码器包括一个attention和copy-mechanism。
进一步的,上述设备中,所述深度学习生成式模型还包括一基于卷积神经网络cnn的判别器,所述生成装置,还用于在将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型之前,利用所述判别器对所述两个编码器和一个解码器进行优化。
进一步的,上述设备中,所述标准化装置,用于对所述文章得标点和字符进行标准化;删除所述文章中的不需要的多余字符;将所述文章中包含预设关键字或者与预设结构相符合的句子删除。
根据本发明的另一方面,还提供一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待提取文本摘要的文章和标题;
对所述文章进行标准化处理;
从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子;
将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要。
根据本发明的另一方面,还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
获取待提取文本摘要的文章和标题;
对所述文章进行标准化处理;
从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子;
将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要。
与现有技术相比,本发明通过导入一段文章和标题,从文章中抽取与所述标题最相似的一个代表性句子和关键词,另外加上文章标题通过深度学习生成式模型,从而自动生成高质量的文本摘要。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1示出根据本发明一实施例的生成文本摘要的方法的流程图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本发明作进一步详细描述。
在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flash RAM)。内存是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
本发明提供一种生成文本摘要的方法,包括:
步骤S1,获取待提取文本摘要的文章和标题;
在此,本发明的语料可以采用黑马等新闻数据,具体可以从黑马等网站爬取大量文本,包括标题,副标题还有文章内容;
步骤S2,对所述文章进行标准化处理;
在此,对每篇爬取文章做处理:包括去除不可能是文章重要内容的句子,比如包含“**报道”,“请联系”,“责任编辑”等等;把数字转换为*号,对日期做标准化处理等;
步骤S3,从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子;
步骤S4,将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要。
在此,本发明通过导入一段文章和标题,从文章中抽取与所述标题最相似的一个代表性句子和关键词,另外加上文章标题通过深度学习生成式模型,从而自动生成高质量的文本摘要。
本发明的生成文本摘要的方法一实施例中,步骤S3,从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子,包括:
将所述标准化处理后的文章中的句子进行聚类,从其中一个类中获取与所述标题最相似的一个句子,从剩余的其它类的句子中提取关键词。
本发明的生成文本摘要的方法一实施例中,将所述标准化处理后的文章中的句子进行聚类,从其中一个类中获取与所述标题最相似的一个句子,从剩余的其它类的句子中提取关键词,包括:
将所述标准化处理后的文章进行分句;
对每个句子再用jieba等分词工具进行分词,用tf-idf算法给所述分词后的每个词语打分,并把每个词语转换成预先训练好的词向量;
用每个句子的每个词语的tf-idf分数乘以该词语的词向量得到对应乘积,以句子为单位对乘积做累加作为该句子的句向量;
以每个句子为节点,并以每个句子的句向量的余弦值(cos)作为边用k-means算法将所述文章的句子聚成若干类;
在每个类中用textrank算法以相同的节点和边的方式用对每个句子排序,根据所述排序从每个类取一个最优句子;
将每个类的最优句子和所述标题分别作相似度计算,获取与所述标题最相似的的某个类的最优句子;
把其余每个类中的所述排序第一的句子中的关键词提取出来。
在此,本实施例采用基于词向量的计算法,能够很大程度的提高准确度。
具体的,首先可以通过收集的12G语料用word2vec算法计算每个常用词的词向量。然后通过tf-idf算法在文本中找出两句话的关键字,然后通过查找每个关键词的词向量再用ifidf值相加取平均值作为该句子的句向量,然后计算两个句向量的余弦值得到任意两句话的相似度。然后通过k-means聚类算法把所述文章分为若干类,然后在每一个类中通过textrank算法给每个句子打分,每个类别取分数最高的句子作为该类别的代表。然后把这些得到的句子和文章的标题的句向量(同样通过前述关键字词向量方法得到)进行相似度计算,把最相似的句子作为该文本的抽取式摘要。
本发明的生成文本摘要的方法一实施例中,步骤S3,从所述标准化处理后的文章中提取与所述标题最相似的一个句子,包括:
采用textrank算法,在textrank算法中通过所述文章中任意两个句子间重叠的字数来计算句子相似度,取textrank算法中排序最高分的一个句子作为与所述标题最相似的一个句。
在此,可以通过抽取式的方式提取与所述标题最相似的一个句。一般采用textrank算法,在其算法中计算句子相似度的方法是采用字重叠计算法,即通过任意两个句子间重叠的字数来计算文本相似度,直接排序取最高分的一个句子作为与所述标题最相似的一个句。
本发明的生成文本摘要的方法一实施例中,所述生成式模型,采用seq2seq加上copy mechanism和attention mechanism训练输出文本摘要,输入为与所述标题最相似的一个句子。
在此,可以通过生成式的方式生成文本摘要,具体可采用seq2seq加上copymechanism和attention mechanism训练生成文本摘要,输入为整个文本或者用常用抽取式算法抽取的摘要生成标题。
本发明的生成文本摘要的方法一实施例中,步骤S4,将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要,包括:
将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要。
本发明的生成文本摘要的方法一实施例中,将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要,包括:
将所述标题输入第一个编码器进行编码;
将与所述标题最相似的一个句子输入第二个编码器进行编码;
对第一个编码器的输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;
对第二个编码器的编码输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;
将第一个编码器和第二个编码器的卷积神经网络cnn的语义抽象的输出合并,将第一个编码器和第二个编码器的循环神经网络rnn的语法提取的输出合并;
将合并后的语法提取的输出加上所述关键词转化得到的词向量作为attention的输入传到所述解码器decoder,并将合并后的语法提取的输出和合并后的语义抽象的输出输入到所述解码器,其中,所述解码器decoder包括一个attention(注意力机制)和copy-mechanism(复制机制)。
在此,所述深度学习生成式模型包括两个编码器(encoder)和一个解码器(decoder),第一个encoder编码文章的标题,第二个编码与所述标题最相似的一个句子。两个encoder经过第一次编码之后再用一个卷积神经网络cnn进行“语义抽象”,用一个循环神经网络rnn进行“语法提取”,然后把两个层的输出合并,把rnn的output加上从其他句子中得到的关键词转化得到的词向量作为attention的输入传到decoder,decoder为一个普通的attention和copy-mechanism的decoder。
本发明的encoder能够从两个方面抽取文章和标题的语义和语法,还考虑了其他关键句中的关键词丰富输出的多样性,能够生成更有质量的副标题。
所述深度学习生成式模型训练完以后,只要输入一篇文章和一个标题就可以生成通顺准确的文本摘要,具有很高的效率和很好的效果。
本发明的生成文本摘要的方法一实施例中,所述深度学习生成式模型还包括一基于卷积神经网络cnn的判别器,将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型之前,还包括:
利用所述判别器对所述两个编码器和一个解码器进行优化。
在此,采用所述深度学习生成式模型的两个编码器和一个解码器生成大量样本,作为负样本结合原有的副标题训练一个基于卷积神经网络cnn的判别器。
训练能得到较好的副标题以后把生成的sample在进行multinomial的采样解码,然后用训练decoder的同样方式得到loss然后用一个采样器rollout把该sample从第一个字开始逐词生成一句话,把每句句生成的话输入判别器进行打分,得到每一步的一个分数。重复该过程若干次,比如4次得到每步的平均值作为该步骤的反馈值,乘以该步骤的loss值用back propagation反向传播更新模型,从而能让生成的样本更好。
本实施例采用强化学习方法对所述深度学习生成式模型进行微调,可以让生成的文本摘要更加通顺准确。
本发明的生成文本摘要的方法一实施例中,步骤S2,对所述文章进行标准化处理,包括:
对所述文章得标点和字符进行标准化;
删除所述文章中的不需要的多余字符;
将所述文章中包含预设关键字或者与预设结构相符合的句子删除。
在此,标准化即文本清洗分为三个方面,第一方面是文本的正规化,也就是对一些标点和字符进行标准化,比如单位英文名称等。第二个方面是文本的清洗,删除文本中的不需要的多余字符,比如数字,标点,括号中的字符等。第三方面是筛选,把一些包含某些预设关键字或者与某些预设结构相符合的句子删除。这三种处理方法的先后顺序会影响到整体的结果的效果,所以需要做非常仔细的调整。
本实施例对文本进行清洗,可以使后期生成文本摘要的工作更高效更准确的进行。
本发明还提供一种生成文本摘要的设备,其中,该设备包括:
获取装置,用于获取待提取文本摘要的文章和标题;
标准化装置,用于对所述文章进行标准化处理;
抽取装置,用于从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子;
生成装置,用于将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要。
本发明的生成文本摘要的设备一实施例中,所述抽取装置,用于将所述标准化处理后的文章中的句子进行聚类,从其中一个类中获取与所述标题最相似的一个句子,从剩余的其它类的句子中提取关键词。
本发明的生成文本摘要的设备一实施例中,所述抽取装置,用于将所述标准化处理后的文章进行分句;对每个句子再用jieba等分词工具进行分词,用tf-idf算法给所述分词后的每个词语打分,并把每个词语转换成预先训练好的词向量;用每个句子的每个词语的tf-idf分数乘以该词语的词向量得到对应乘积,以句子为单位对乘积做累加作为该句子的句向量;以每个句子为节点,并以每个句子的句向量的余弦值作为边用k-means算法将所述文章的句子聚成若干类;在每个类中用textrank算法以相同的节点和边的方式用对每个句子排序,根据所述排序从每个类取一个最优句子;将每个类的最优句子和所述标题分别作相似度计算,获取与所述标题最相似的的某个类的最优句子;把其余每个类中的所述排序第一的句子中的关键词提取出来。
本发明的生成文本摘要的设备一实施例中,所述生成装置,用于将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要。
12.根据权利要求11所述的设备,其中,所述生成装置,用于将所述标题输入第一个编码器进行编码;将与所述标题最相似的一个句子输入第二个编码器进行编码;对第一个编码器的输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;对第二个编码器的编码输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;将第一个编码器和第二个编码器的卷积神经网络cnn的语义抽象的输出合并,将第一个编码器和第二个编码器的循环神经网络rnn的语法提取的输出合并;将合并后的语法提取的输出加上所述关键词转化得到的词向量作为attention的输入传到所述解码器decoder,并将合并后的语法提取的输出和合并后的语义抽象的输出输入到所述解码器,其中,所述解码器包括一个attention和copy-mechanism。
本发明的生成文本摘要的设备一实施例中,所述深度学习生成式模型还包括一基于卷积神经网络cnn的判别器,所述生成装置,还用于在将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型之前,利用所述判别器对所述两个编码器和一个解码器进行优化。
本发明的生成文本摘要的设备一实施例中,所述标准化装置,用于对所述文章得标点和字符进行标准化;删除所述文章中的不需要的多余字符;将所述文章中包含预设关键字或者与预设结构相符合的句子删除。
本发明还提供一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待提取文本摘要的文章和标题;
对所述文章进行标准化处理;
从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子;
将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要。
本发明还提供一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
获取待提取文本摘要的文章和标题;
对所述文章进行标准化处理;
从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子;
将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要。
上述设备和计算机可读存储介质各实施例的详细内容具体可参见各方法实施例的对应部分,在此不再赘述。
显然,本领域的技术人员可以对本申请进行各种改动和变型而不脱离本申请的精神和范围。这样,倘若本申请的这些修改和变型属于本申请权利要求及其等同技术的范围之内,则本申请也意图包含这些改动和变型在内。
需要注意的是,本发明可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(ASIC)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,RAM存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。

Claims (12)

1.一种生成文本摘要的方法,其中,该方法包括:
获取待提取文本摘要的文章和标题;
对所述文章进行标准化处理;
从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子;
将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要;
将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要,包括:
将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要;
将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要,包括:
将所述标题输入第一个编码器进行编码;
将与所述标题最相似的一个句子输入第二个编码器进行编码;
对第一个编码器的输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;
对第二个编码器的编码输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;
将第一个编码器和第二个编码器的卷积神经网络cnn的语义抽象的输出合并,将第一个编码器和第二个编码器的循环神经网络rnn的语法提取的输出合并;
将合并后的语法提取的输出加上所述关键词转化得到的词向量作为attention的输入传到所述解码器decoder,并将合并后的语法提取的输出和合并后的语义抽象的输出输入到所述解码器,其中,所述解码器包括一个attention和copy-mechanism。
2.根据权利要求1所述的方法,其中,从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子,包括:
将所述标准化处理后的文章中的句子进行聚类,从其中一个类中获取与所述标题最相似的一个句子,从剩余的其它类的句子中提取关键词。
3.根据权利要求2所述的方法,其中,将所述标准化处理后的文章中的句子进行聚类,从其中一个类中获取与所述标题最相似的一个句子,从剩余的其它类的句子中提取关键词,包括:
将所述标准化处理后的文章进行分句;
对每个句子再用jieba分词工具进行分词,用tf-idf算法给所述分词后的每个词语打分,并把每个词语转换成预先训练好的词向量;
用每个句子的每个词语的tf-idf分数乘以该词语的词向量得到对应乘积,以句子为单位对乘积做累加作为该句子的句向量;
以每个句子为节点,并以每个句子的句向量的余弦值作为边用k-means算法将所述文章的句子聚成若干类;
在每个类中用textrank算法以相同的节点和边的方式用对每个句子排序,根据所述排序从每个类取一个最优句子;
将每个类的最优句子和所述标题分别作相似度计算,获取与所述标题最相似的的某个类的最优句子;
把其余每个类中的所述排序第一的句子中的关键词提取出来。
4.根据权利要求1所述的方法,其中,所述深度学习生成式模型还包括一基于卷积神经网络cnn的判别器,将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型之前,还包括:
利用所述判别器对所述两个编码器和一个解码器进行优化。
5.根据权利要求1所述的方法,其中,对所述文章进行标准化处理,包括:
对所述文章得标点和字符进行标准化;
删除所述文章中的不需要的多余字符;
将所述文章中包含预设关键字或者与预设结构相符合的句子删除。
6.一种生成文本摘要的设备,其中,该设备包括:
获取装置,用于获取待提取文本摘要的文章和标题;
标准化装置,用于对所述文章进行标准化处理;
抽取装置,用于从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子;
生成装置,用于将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要;
所述生成装置,用于将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要;
所述生成装置,用于将所述标题输入第一个编码器进行编码;将与所述标题最相似的一个句子输入第二个编码器进行编码;对第一个编码器的输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;对第二个编码器的编码输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;将第一个编码器和第二个编码器的卷积神经网络cnn的语义抽象的输出合并,将第一个编码器和第二个编码器的循环神经网络rnn的语法提取的输出合并;将合并后的语法提取的输出加上所述关键词转化得到的词向量作为attention的输入传到所述解码器decoder,并将合并后的语法提取的输出和合并后的语义抽象的输出输入到所述解码器,其中,所述解码器包括一个attention和copy-mechanism。
7.根据权利要求6所述的设备,其中,所述抽取装置,用于将所述标准化处理后的文章中的句子进行聚类,从其中一个类中获取与所述标题最相似的一个句子,从剩余的其它类的句子中提取关键词。
8.根据权利要求7所述的设备,其中,所述抽取装置,用于将所述标准化处理后的文章进行分句;对每个句子再用jieba分词工具进行分词,用tf-idf算法给所述分词后的每个词语打分,并把每个词语转换成预先训练好的词向量;用每个句子的每个词语的tf-idf分数乘以该词语的词向量得到对应乘积,以句子为单位对乘积做累加作为该句子的句向量;以每个句子为节点,并以每个句子的句向量的余弦值作为边用k-means算法将所述文章的句子聚成若干类;在每个类中用textrank算法以相同的节点和边的方式用对每个句子排序,根据所述排序从每个类取一个最优句子;将每个类的最优句子和所述标题分别作相似度计算,获取与所述标题最相似的的某个类的最优句子;把其余每个类中的所述排序第一的句子中的关键词提取出来。
9.根据权利要求6所述的设备,其中,所述深度学习生成式模型还包括一基于卷积神经网络cnn的判别器,所述生成装置,还用于在将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型之前,利用所述判别器对所述两个编码器和一个解码器进行优化。
10.根据权利要求6所述的设备,其中,所述标准化装置,用于对所述文章得标点和字符进行标准化;删除所述文章中的不需要的多余字符;将所述文章中包含预设关键字或者与预设结构相符合的句子删除。
11.一种基于计算的设备,其中,包括:
处理器;以及
被安排成存储计算机可执行指令的存储器,所述可执行指令在被执行时使所述处理器:
获取待提取文本摘要的文章和标题;
对所述文章进行标准化处理;
从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子;
将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要;
将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要,包括:
将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要;
将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要,包括:
将所述标题输入第一个编码器进行编码;
将与所述标题最相似的一个句子输入第二个编码器进行编码;
对第一个编码器的输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;
对第二个编码器的编码输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;
将第一个编码器和第二个编码器的卷积神经网络cnn的语义抽象的输出合并,将第一个编码器和第二个编码器的循环神经网络rnn的语法提取的输出合并;
将合并后的语法提取的输出加上所述关键词转化得到的词向量作为attention的输入传到所述解码器decoder,并将合并后的语法提取的输出和合并后的语义抽象的输出输入到所述解码器,其中,所述解码器包括一个attention和copy-mechanism。
12.一种计算机可读存储介质,其上存储有计算机可执行指令,其中,该计算机可执行指令被处理器执行时使得该处理器:
获取待提取文本摘要的文章和标题;
对所述文章进行标准化处理;
从所述标准化处理后的文章中提取关键词和与所述标题最相似的一个句子;
将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要;
将所述标题、关键词和与所述标题最相似的一个句子输入深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要,包括:
将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要;
将所述标题、关键词和与所述标题最相似的一个句子输入包含两个编码器和一个解码器的深度学习生成式模型,以获取所述深度学习生成式模型输出的文本摘要,包括:
将所述标题输入第一个编码器进行编码;
将与所述标题最相似的一个句子输入第二个编码器进行编码;
对第一个编码器的输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;
对第二个编码器的编码输出用一个卷积神经网络cnn进行语义抽象,并用一个循环神经网络rnn进行语法提取;
将第一个编码器和第二个编码器的卷积神经网络cnn的语义抽象的输出合并,将第一个编码器和第二个编码器的循环神经网络rnn的语法提取的输出合并;
将合并后的语法提取的输出加上所述关键词转化得到的词向量作为attention的输入传到所述解码器decoder,并将合并后的语法提取的输出和合并后的语义抽象的输出输入到所述解码器,其中,所述解码器包括一个attention和copy-mechanism。
CN201810061577.1A 2018-01-23 2018-01-23 生成文本摘要的方法及设备 Active CN108319668B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810061577.1A CN108319668B (zh) 2018-01-23 2018-01-23 生成文本摘要的方法及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810061577.1A CN108319668B (zh) 2018-01-23 2018-01-23 生成文本摘要的方法及设备

Publications (2)

Publication Number Publication Date
CN108319668A CN108319668A (zh) 2018-07-24
CN108319668B true CN108319668B (zh) 2021-04-20

Family

ID=62886990

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810061577.1A Active CN108319668B (zh) 2018-01-23 2018-01-23 生成文本摘要的方法及设备

Country Status (1)

Country Link
CN (1) CN108319668B (zh)

Families Citing this family (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109308316B (zh) * 2018-07-25 2021-05-14 华南理工大学 一种基于主题聚类的自适应对话生成系统
CN109376234B (zh) * 2018-10-10 2020-09-01 京东数字科技控股有限公司 一种训练摘要生成模型的方法和装置
CN109446519B (zh) * 2018-10-10 2020-05-22 西安交通大学 一种融合数据类别信息的文本特征提取方法
CN109471933B (zh) * 2018-10-11 2024-05-07 平安科技(深圳)有限公司 一种文本摘要的生成方法、存储介质和服务器
CN109359300A (zh) * 2018-10-12 2019-02-19 北京大学第三医院 基于深度学习的医学文献中关键词筛选方法及装置
CN109635273B (zh) * 2018-10-25 2023-04-25 平安科技(深圳)有限公司 文本关键词提取方法、装置、设备及存储介质
CN109948162A (zh) * 2019-03-25 2019-06-28 北京理工大学 融合序列语法标注框架的生成式文本摘要方法
CN110019768B (zh) * 2019-03-28 2021-09-21 北京寓乐世界教育科技有限公司 生成文本摘要的方法及装置
CN109933806B (zh) * 2019-04-01 2024-01-30 长沙理工大学 一种复述生成方法、系统、设备及计算机可读存储介质
CN110134942B (zh) * 2019-04-01 2020-10-23 北京中科闻歌科技股份有限公司 文本热点提取方法及装置
CN110119444B (zh) * 2019-04-23 2023-06-30 中电科大数据研究院有限公司 一种抽取式与生成式相结合的公文摘要生成模型
CN113811870A (zh) * 2019-05-15 2021-12-17 北京嘀嘀无限科技发展有限公司 用于生成抽象文本摘要的系统和方法
CN110222168B (zh) * 2019-05-20 2023-08-18 平安科技(深圳)有限公司 一种数据处理的方法及相关装置
CN110377808A (zh) * 2019-06-14 2019-10-25 北京达佳互联信息技术有限公司 文档处理方法、装置、电子设备及存储介质
CN110287491B (zh) * 2019-06-25 2024-01-12 北京百度网讯科技有限公司 事件名生成方法及装置
CN110489528B (zh) * 2019-08-14 2022-05-17 掌阅科技股份有限公司 基于电子书内容的电子词典重构方法及计算设备
CN110705310B (zh) * 2019-09-20 2023-07-18 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110674286A (zh) * 2019-09-29 2020-01-10 出门问问信息科技有限公司 一种文本摘要抽取方法、装置及存储设备
CN110688857B (zh) * 2019-10-08 2023-04-21 北京金山数字娱乐科技有限公司 一种文章生成的方法和装置
CN110888976B (zh) * 2019-11-14 2023-06-20 北京香侬慧语科技有限责任公司 一种文本摘要生成方法和装置
CN111061862B (zh) * 2019-12-16 2020-12-15 湖南大学 一种基于注意力机制生成摘要的方法
CN111324728B (zh) * 2020-01-22 2023-08-22 腾讯科技(深圳)有限公司 文本事件摘要的生成方法、装置、电子设备及存储介质
CN111831814B (zh) * 2020-06-04 2023-06-23 北京百度网讯科技有限公司 摘要生成模型的预训练方法、装置、电子设备和存储介质
CN111858913A (zh) * 2020-07-08 2020-10-30 北京嘀嘀无限科技发展有限公司 一种自动生成文本摘要的方法和系统
CN111897949B (zh) * 2020-07-28 2021-10-26 北京工业大学 一种基于Transformer的引导性文本摘要生成方法
CN112231468A (zh) * 2020-10-15 2021-01-15 平安科技(深圳)有限公司 信息生成方法、装置、电子设备及存储介质
CN112417865B (zh) * 2020-12-02 2023-01-31 中山大学 一种基于文章和标题动态融合的摘要提取方法及系统
CN113688230A (zh) * 2021-07-21 2021-11-23 武汉众智数字技术有限公司 一种文本摘要生成的方法及系统
CN114997143B (zh) * 2022-08-04 2022-11-15 北京澜舟科技有限公司 文本生成模型训练方法和系统、文本生成方法及存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成系统及方法
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN106933785A (zh) * 2017-02-23 2017-07-07 中山大学 一种基于递归神经网络的摘要生成方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170213130A1 (en) * 2016-01-21 2017-07-27 Ebay Inc. Snippet extractor: recurrent neural networks for text summarization at industry scale
CN107291836B (zh) * 2017-05-31 2020-06-02 北京大学 一种基于语义相关度模型的中文文本摘要获取方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105930314A (zh) * 2016-04-14 2016-09-07 清华大学 基于编码-解码深度神经网络的文本摘要生成系统及方法
CN106919646A (zh) * 2017-01-18 2017-07-04 南京云思创智信息科技有限公司 中文文本摘要生成系统及方法
CN106933785A (zh) * 2017-02-23 2017-07-07 中山大学 一种基于递归神经网络的摘要生成方法
CN106980683A (zh) * 2017-03-30 2017-07-25 中国科学技术大学苏州研究院 基于深度学习的博客文本摘要生成方法
CN107484017A (zh) * 2017-07-25 2017-12-15 天津大学 基于注意力模型的有监督视频摘要生成方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"面向事件的社交媒体文本自动摘要研究";官宸宇;《中国优秀硕士学位论文全文数据库 信息科技辑》;20170815(第8期);I138-548 *

Also Published As

Publication number Publication date
CN108319668A (zh) 2018-07-24

Similar Documents

Publication Publication Date Title
CN108319668B (zh) 生成文本摘要的方法及设备
US11216504B2 (en) Document recommendation method and device based on semantic tag
US11914954B2 (en) Methods and systems for generating declarative statements given documents with questions and answers
US9317498B2 (en) Systems and methods for generating summaries of documents
US8452772B1 (en) Methods, systems, and articles of manufacture for addressing popular topics in a socials sphere
US20200167675A1 (en) Question Answering with Time-Based Weighting
CN109635103B (zh) 摘要生成方法和装置
US20200057807A1 (en) Systems and methods providing a cognitive augmented memory network
CN111046656B (zh) 文本处理方法、装置、电子设备及可读存储介质
Nagamanjula et al. A novel framework based on bi-objective optimization and LAN2FIS for Twitter sentiment analysis
CN108241613A (zh) 一种提取关键词的方法及设备
CN112581327B (zh) 基于知识图谱的法律推荐方法、装置和电子设备
US20140040297A1 (en) Keyword extraction
CN116484808A (zh) 一种公文用可控文本生成方法及装置
Spreafico et al. Neural data-driven captioning of time-series line charts
Ertam et al. Abstractive text summarization using deep learning with a new Turkish summarization benchmark dataset
Mani et al. Hi, how can I help you?: Automating enterprise IT support help desks
US20090182759A1 (en) Extracting entities from a web page
Ramesh et al. Abstractive text summarization using t5 architecture
CN116108181A (zh) 客户信息的处理方法、装置及电子设备
Timoney et al. Nostalgic sentiment analysis of youtube comments for chart hits of the 20th century
CN113934849A (zh) 一种文本聚类方法、装置、电子设备及存储介质
JP2011150603A (ja) カテゴリ主題語句抽出装置及び階層的タグ付与装置及び方法及びプログラム及びコンピュータ読み取り可能な記録媒体
Ava et al. Intelligent Identification of Hate Speeches to address the increased rate of Individual Mental Degeneration
Zhang et al. From coarse to fine: Enhancing multi-document summarization with multi-granularity relationship-based extractor

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20210719

Address after: 314299 room 202-5, 2nd floor, Huayuan Building, Pinghu Economic and Technological Development Zone, Jiaxing City, Zhejiang Province

Patentee after: Yiyu Intelligent Technology (Jiaxing) Co.,Ltd.

Address before: 201203 Shanghai Pudong New Area free trade trial area, 1 spring 3, 400 Fang Chun road.

Patentee before: YIYU INTELLIGENT TECHNOLOGY (SHANGHAI) Co.,Ltd.

TR01 Transfer of patent right