CN110705287A - 一种用于文本摘要的生成方法和系统 - Google Patents
一种用于文本摘要的生成方法和系统 Download PDFInfo
- Publication number
- CN110705287A CN110705287A CN201910926161.6A CN201910926161A CN110705287A CN 110705287 A CN110705287 A CN 110705287A CN 201910926161 A CN201910926161 A CN 201910926161A CN 110705287 A CN110705287 A CN 110705287A
- Authority
- CN
- China
- Prior art keywords
- text
- abstract
- processed
- text abstract
- algorithm
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明给出了一种用于文本摘要的生成方法和系统,包括对待处理文本进行预处理,其中,预处理包括去除待处理文本的html标签;基于TF‑IDF统计方法,获取待处理文本中文本单元的权重;利用ilp算法计算、submodular算法和centroid算法分别计算获得待处理文本的第一文本摘要、第二文本摘要和第三文本摘要;基于深度卷积网络学习模型,获取待处理文本的第四文本摘要;响应于文本单元中含有预先建立的摘要词库中的词汇,获取第五文本摘要;将第一文本摘要、第二文本摘要、第三文本摘要、第四文本摘要和第五文本摘要进行加权计算,获取待处理文本的文本摘要。本发明在实际应用中,对文本摘要的获取取得了非常好的效果,准确率非常高。
Description
技术领域
本发明属于人工智能和自然语言处理技术领域,尤其涉及一种用于文本摘要的生成方法和系统。
背景技术
随着信息时代的迅猛发展,当今世界的信息量呈现出了几何级别的增长速度。信息爆炸使得人们要面对海量的信息,从海量信息中智能、快速的获取摘要信息成为了一项重要技术课题。
在文本摘要中,或者采用抽取式方式,或者采用生成式方式,或者抽取文本中的文本单元,或者用机器生成对文本的归纳摘要,来获取文本摘要。但无论采用抽取式,或者采用生成式,来获取文本摘要,都存在着不尽人意的地方。
采用抽取式方式来获取文本摘要,抽取出的摘要精度不够高。抽取出的内容具有片面性,不能准确地抽出关键内容。
采用生成式方式来获取文本摘要,有训练数据不足,训练输入内容过长,得到的生成内容意思晦涩,得到的生成内容语法不准确等问题。
因此在传统的文本摘要获取中,存在着有待解决的问题。
发明内容
本发明提出了一种用于文本摘要的生成方法和系统。
在一个方面,本发明提出了一种用于文本摘要的生成方法,包括以下步骤:
S1:对待处理文本进行预处理,其中,预处理包括去除待处理文本的html标签以及对待处理文本进行分词处理;
S2:基于TF-IDF统计方法,获取待处理文本中文本单元的权重;
S3:利用ilp算法、submodular算法和centroid算法分别计算获得待处理文本的第一文本摘要、第二文本摘要和第三文本摘要;基于深度卷积网络学习模型,获取待处理文本的第四文本摘要;响应于文本单元中含有预先建立的摘要词库中的词汇,获取第五文本摘要;
S4:将第一文本摘要、第二文本摘要、第三文本摘要、第四文本摘要和第五文本摘要进行加权计算,获取待处理文本的文本摘要。
在具体的实施例中,TF-IDF的计算公式如下:TF-IDF=TF*IDF,其中TF表示词频,即某个词在文本中出现次数,IDF表示逆文档频率,具体计算为采用TF-IDF可以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
在具体的实施例中,步骤S2中利用ilp算法获得第一文本摘要的具体方式为:对待处理文本进行概念抽取,利用带有约束的优化解进行计算,进而获得第一文本摘要,具体计算公式如下:
其中,xi表示待处理文本的概念,s(xi)表示概念的权值函数,表示概念是否出现在文本摘要中,dj表示抽取的单元,n(dj)表示dj中的单词个数,表示抽取单元是否在文本摘要中,R表示文本摘要的长度约束,b(i,j)为二元常量,表示xi是否出现在dj中,sim表示计算冗余度度量,δ表示冗余门槛值。
在具体的实施例中,步骤S3中利用submodular算法获得第二文本摘要的具体方式为:利用贪心算法计算文本单元满足submodular函数最大化,submodular函数公式如下:
f(s∩t)+f(s∪t)≤f(s)+f(t)
其中,f为submodular函数,v表示文档中所有文本单元的集合,s、t表示抽取的文本摘要,ci表示非负实数,β表示计划选择文本单元数。
在具体的实施例中,步骤S3中利用centroid算法获得第三文本摘要的具体步骤为:
获取文本单元的权重wi=∑nwn,i,其中w表示文本单元的权重值,n表示文本单元中的词,i表示文本单元的序号;
基于文本单元权重、文本单元位置值、文本单元和第一个文本单元的相似度利用centroid算法获取第三文本摘要,相似度计算采用余弦近似公式计算,具体相似度的计算公式为:
其中,x表示文本单元的相似度,A·B表示文本单元之间的向量内积,|A|×|B|表示文本单元的向量长度。
在具体的实施例中,步骤S4中第四文本摘要的获取方式具体包括:
基于将待处理文本、分割符和文本单元输入至输入层,基于word2vec将词语转换为向量值输入至卷积层,进行最大池化运算,输入至输出层进行softmax计算,利用标准结果进行差的运算调整卷积层和输出层的参数,进行深度神经网络的训练;
基于深度神经网络的训练,判断文本单元是否为文本摘要,输出第四文本摘要。
在具体的实施例中,文本摘要的计算公式为:ji=∑(pdd+pii+pss+pcc+pll),其中,pd表示深度学习获取的第四文本摘要的准确率,pi表示ilp算法获取的第一文本摘要的准确率,ps表示submodular算法获取的第二文本摘要的准确率,pc表示centroid算法获取的第三文本摘要的准确率,pl表示摘要词库获取的第五文本摘要的准确率,d、i、s、c、l分别表示深度学习、ilp、submodular、centroid、摘要词库获取的文本摘要是否为待处理文本摘要的判断,取1表示是待处理文本摘要,取0表示不是待处理文本摘要。
在其他的具体实施例中,步骤S4还可以为:对ilp算法、submodular算法和centroid算法分别计算获得的第一文本摘要、第二文本摘要和第三文本摘要进行加权计算,获得综合算法文本摘要,进而将综合算法文本摘要与第四文本摘要和第五文本摘要进行加权计算,获取最终的文本摘要。
根据本发明的第二方面,提出了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被计算机处理器执行时上述方法。
根据本发明的第三方面,提出了一种用于文本摘要的生成系统,该系统包括:
预处理模块:配置用于对待处理文本进行预处理,去除待处理文本的html标签以及对待处理文本进行分词处理;
文本单元权重计算模块:配置用于基于TF-IDF统计方法,获取待处理文本中文本单元的权重;
摘要获取模块:配置用于利用ilp算法计算、submodular算法和centroid算法分别计算出待处理文本的第一文本摘要、第二文本摘要和第三文本摘要,基于深度卷积网络学习模型和判断,获取待处理文本的第四文本摘要,响应于文本单元中含有预先建立的摘要词库中的词汇,获取第五文本摘要;
加权计算模块:配置用于将第一文本摘要、第二文本摘要、第三文本摘要、第四文本摘要和第五文本摘要进行加权计算,获取待处理文本的文本摘要。
本发明通过对待处理的文本进行处理并获取文本单元的权重,利用ilp、submodular、centroid等文本摘要算法以及摘要词库和深度卷积网络参与判断来进行文本摘要的获取,通过加权计算综合各种方式获取的文本摘要最终获得该文本的摘要。本发明提出了用深度卷积网络来参与判断文本单元作为文本摘要的可能性,而且,结合了摘要词库,来判断文本单元是否为文本摘要,在深度卷积网络和摘要词库的基础上,使用ilp、submodular、centroid等文本摘要算法,综合得到文本的摘要,相较于单一使用算法的准确率提高了很多,取得了非常好的效果。
附图说明
包括附图以提供对实施例的进一步理解并且附图被并入本说明书中并且构成本说明书的一部分。附图图示了实施例并且与描述一起用于解释本发明的原理。将容易认识到其它实施例和实施例的很多预期优点,因为通过引用以下详细描述,它们变得被更好地理解。通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本申请的一个实施例的用于文本摘要的生成方法的流程图;
图2是本申请的第一个具体的实施例的文本摘要的生成方法的示意性流程图;
图3是本申请的一个具体的实施例的深度神经网络的训练流程图;
图4是本申请的一个具体的实施例的深度神经网络的判断流程图;
图5是本申请的第二个具体的实施例的文本摘要的生成方法的示意性流程图;
图6是本申请的一个实施例的用于文本摘要的生成系统的框架图;
图7是本申请的一个具体的实施例的文本摘要生成系统的示意性结构图;
图8是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
根据本申请的一个实施例的用于文本摘要的生成方法,图1示出了根据本申请的实施例的用于文本摘要的生成方法的流程图。如图1所示,该方法包括以下步骤:
S101:对待处理文本进行预处理,其中,预处理包括去除待处理文本的html标签以及对待处理文本进行分词处理。
在具体的实施例中,若文本是从互联网上获取的,文本中会带有html标签,会影响文本摘要的提取,对文本进行去除html标签的预处理,便于后续的摘要算法获取文本摘要。
在具体的实施例中,对文本进行分词作为文本摘要的数据基础,可以基于词典分词算法或基于统计的机器学习算法或组合式的分词算法等进行文本分词,基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化,比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构,比如采用TRIE索引树、哈希索引等。基于统计的机器学习算法进行文本分词,目前常用的是算法是HMM、CRF、SVM、深度学习等算法,比如stanford、Hanlp分词工具是基于CRF算法。以CRF为例,基本思路是对汉字进行标注训练,不仅考虑了词语出现的频率,还考虑上下文语境,具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果。常见的分词器都是使用机器学习算法和词典相结合,一方面能够提高分词准确率,另一方面能够改善领域适应性。
S102:基于TF-IDF统计方法,获取待处理文本中文本单元的权重。利用文本单元的权重作为后续摘要算法的基础数据,可以提升摘要算法的计算效率和准确率。
在具体的实施例中,TF-IDF是一种统计方法,用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。TF-IDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TF-IDF的计算公式如下:TF-IDF=TF*IDF,其中TF表示词频,即某个词在文本中出现次数,IDF表示逆文档频率,具体计算为
S103:利用ilp算法、submodular算法和centroid算法分别计算获得待处理文本的第一文本摘要、第二文本摘要和第三文本摘要;基于深度卷积网络学习模型,获取待处理文本的第四文本摘要;响应于文本单元中含有预先建立的摘要词库中的词汇,获取第五文本摘要。利用多种摘要算法获取文本的摘要,可以结合各算法的优点,最终结合获得更为准确的文本摘要。
在具体的实施例中,ilp算法获得第一文本摘要的具体方式为:对待处理文本进行概念抽取,利用带有约束的优化解进行计算,进而获得第一文本摘要,具体计算公式如下:
其中,xi表示待处理文本的概念,s(xi)表示概念的权值函数,表示概念是否出现在文本摘要中,dj表示抽取的单元,n(dj)表示dj中的单词个数,表示抽取单元是否在文本摘要中,R表示文本摘要的长度约束,b(i,j)为二元常量,表示xi是否出现在dj中,sim表示计算冗余度度量,δ表示冗余门槛值。
在具体的实施例中,利用submodular算法获得第二文本摘要的具体方式为:利用贪心算法计算文本单元满足submodular函数最大化,submodular函数公式如下:
f(s∩t)+f(s∪t)≤f(s)+f(t)
其中,f为submodular函数,v表示文档中所有文本单元的集合,s、t表示抽取的文本摘要,ci表示非负实数,β表示计划选择文本单元数。
在具体的实施例中,利用centroid算法获得第三文本摘要的具体步骤为:
获取文本单元的权重wi=∑nwn,i,其中w表示文本单元的权重值,n表示文本单元中的词,i表示文本单元的序号;
基于文本单元权重、文本单元位置值、文本单元和第一个文本单元的相似度利用centroid算法获取第三文本摘要,相似度计算采用余弦近似公式计算,具体相似度的计算公式为:
其中,x表示文本单元的相似度,A·B表示文本单元之间的向量内积,|A|×|B|表示文本单元的向量长度。
在具体的实施例中,第四文本摘要的获取方式具体包括:
基于将待处理文本、分割符和文本单元输入至输入层,基于word2vec将词语转换为向量值输入至卷积层,进行最大池化运算,输入至输出层进行softmax计算,利用标准结果进行差的运算调整卷积层和输出层的参数,进行深度神经网络的训练;
基于深度神经网络的训练,判断文本单元是否为文本摘要,输出第四文本摘要。
在具体的实施例中,摘要词库中的词包括:“总之”,“总的来说”,“总而言之”,“归根结底”,“综合来看”,“不得不说”,“首先”,“新战略”,“指导意见”,“政策”,“危机”,“暴涨”,“大卖”,“独家消息”,“亮相”。应当认识到,摘要词库中应当包括除了上述词之外的其他可作为摘要的词汇,设置全面的摘要词库可以提高摘要词库算法获取摘要的准确性。
S104:将第一文本摘要、第二文本摘要、第三文本摘要、第四文本摘要和第五文本摘要进行加权计算,获取待处理文本的文本摘要。通过对各种算法获取到的文本摘要进行加权计算,最终获得的文本摘要更为准确。
在具体的实施例中,文本摘要的计算公式为:ji=∑(pdd+pii+pss+pcc+pll),其中,pd表示深度学习获取的第四文本摘要的准确率,pi表示ilp算法获取的第一文本摘要的准确率,ps表示submodular算法获取的第二文本摘要的准确率,pc表示centroid算法获取的第三文本摘要的准确率,pl表示摘要词库获取的第五文本摘要的准确率,d、i、s、c、l分别表示深度学习、ilp、submodular、centroid、摘要词库获取的文本摘要是否为待处理文本摘要的判断,取1表示是待处理文本摘要,取0表示不是待处理文本摘要。
继续参考图2,图2示出了本发明的第一个具体的实施例的文本摘要的生成方法的示意性流程图,该方法具体包括以下步骤:
S201:预处理步骤,这包括文本是从互联网上获取的,需要去除掉文本中html标签。
S202:对文本进行分词处理。
S203:利用ilp方法获取摘要。首先对文本的词语进行tf-idf计算,对文本单元(例如句)的词的tf-idf进行计分,用以下公式进行摘要获取计算:
其中,xi表示待处理文本的概念,s(xi)表示概念的权值函数,表示概念是否出现在文本摘要中,dj表示抽取的单元,n(dj)表示dj中的单词个数,表示抽取单元是否在文本摘要中,R表示文本摘要的长度约束,b(i,j)为二元常量,表示xi是否出现在dj中,sim表示计算冗余度度量,δ表示冗余门槛值。
S204:利用submodular方法获取摘要。进行tf-idf计算,对文本单元的词的tf-idf进行计分,用公式:
f(s∩t)+f(s∪t)≤f(s)+f(t)
进行摘要获取计算。其中,f为submodular函数,v表示文档中所有文本单元的集合,s、t表示抽取的文本摘要,ci表示非负实数,β表示计划选择文本单元数。
在submodular函数计算时,采用如下公式进行计算:
在上面的计算中,G代表候选摘要,C代表文本单元的代价,U代表文本选择集,在计算中选择v*能够让submodular函数具有最大增益值。
S205:采用centroid的方法对文本获取摘要。通过文本单元词语、词语tf-idf,获取文本单元权重,通过文本单元位置,计算文本单元位置值,计算文本单元和第一个文本单元的相似度,通过文本单元权重、文本单元位置值、文本单元和第一个文本单元的相似度,来进行计算,从而获取centroid方法的文本摘要。
文本单元权重值用如下公式计算:wi=∑nwn,i。其中,w为文本单元权重值,n为文本单元中的词,i为文本单元的序号。
S206:对ilp方法获取摘要、submodular方法获取摘要、centroid方法获取摘要、进行加权计算。
S207:用深度卷积网络来判断文本单元是否为文本摘要。S207的基础是深度神经网络的学习,如图3的深度神经网络的训练流程图所示,301部表示为文本部分,302部表示为文本和文本单元的分割符(在实施中用“&&&&&”代表),图3中的303部,为文本题目部分。304部表示为文本单元部。它们一同输入到输入层305部。305部中使用word2vec把词语转成向量值,然后输入到305部卷积层。经过306部卷积层计算后,输入到307输出部,进行softmax计算并和标准结果进行交叉熵的运算,进而调整卷积层与输出层的参数,最后进行深度神经网络的训练。
在具体的实施例中,S207采用深度神经网络判断文本单元是否为文本摘要时,参照图4的深度神经网络的判断流程图判断实施步骤。如图4所示401部表示文本内容部分,402部表示为文本和文本单元的分割符(在实施中用“&&&&&”代表),将402部文本和文本单元的分割符加入到词库中,在分词时作为一个词分出来。403部表示为文本题目部分。404部表示为文本单元部。把401部、402部、403部、402部、404部、即文本内容部分、分隔符、文本题目部分、分隔符、文本单元部分、一同输入到输入层405部。405部使用word2vec把词语转成向量值,然后输入到406部卷积层。
在卷积层中,加入最大池化运算,获取卷积运算后矩阵中的局部最大值。
其中,x为输入,h为卷积的变量序列。
经过卷积层计算后,输入到输出层407部,进行softmax计算。计算公式如下:
其中,x为输入,θ为向量参数,加入上标T为转置。
经过408部判断结果部,得出判断结果。
S208:文本单元含有摘要词库中的词的时候,对文本单元作为摘要进行获取。摘要词库的词包括,“总之”,“总的来说”,“总而言之”,“归根结底”,“综合来看”,“不得不说”,“首先”,“新战略”,“指导意见”,“政策”,“危机”,“暴涨”,“大卖”,“独家消息”,“亮相”,等等。
S209:对步骤206获取的摘要结果、步骤207通过深度学习获取的摘要和步骤208通过摘要词库获取的摘要,进行加权计算,获取到最终的文本摘要。计算公式如下所示:
ji=∑(pdd+pz∑(pii+pss+pcc)+pll)
其中,pd、pz、pi、ps、pc、pl分别为深度学习、ilp和submodular和centroid综合、ilp、submodular、centroid、摘要词库的准确率。d、i、s、c、l分别为深度学习、ilp、submodular、centroid、摘要词库对该文本单元是否为摘要的判断,取值为1时为是文本的摘要,取值为0时为不是文本的摘要。
继续参考图5,图5示出了根据本发明的第二个具体的实施例的文本摘要的生成方法的示意性流程图,具体流程包括以下步骤:
S501:预处理步骤,这包括文本是从互联网上获取的,去除掉文本中html标签。
S502:对文本进行分词处理。
S503:用ilp方法获取摘要。此步骤同图2中第一实施例的S203中同样的方式计算获得摘要。
S504:用submodular方法获取摘要。在进行tf-idf计算,对文本单元的词的tf-idf进行计分。此步骤同图2中第一实施例的S204中同样的方式计算获得摘要。
S505:用centroid的方法对文本获取摘要。通过文本单元词语、词语tf-idf,获取文本单元权重。此步骤同图2中第一实施例的S205中同样的方式计算获得摘要。
S506:用深度卷积网络来判断文本单元是否为文本摘要。此步骤同图2中第一实施例的S207。
S507:对当文本单元含有摘要词库中的词的时候,对文本单元作为摘要进行获取。
S508:对ilp方法获取摘要、submodular方法获取摘要、centroid方法获取摘要、深度卷积网络获取摘要、摘要词库方法获取摘要,进行加权计算,获取到最终的文本摘要。计算公式如下所示:
ji=∑(pdd+pii+pss+pcc+pll)
其中,pd、pi、ps、pc、pl分别为深度学习、ilp、submodular、centroid、摘要词库的准确率。d、i、s、c、l分别为深度学习、ilp、submodular、centroid、摘要词库对该文本单元是否为摘要的判断,取值为1时为是文本的摘要,取值为0时为不是文本的摘要。
图6示出了根据本发明的一个的实施例的用于文本摘要的生成系统的框架图,该系统包括依次连接的预处理模块601、文本单元权重计算模块602、摘要获取模块603和加权计算模块604。其中,预处理模块模块601配置用于配置用于对待处理文本进行预处理,去除待处理文本的html标签以及对待处理文本进行分词处理;文本单元权重计算模块602配置用于基于TF-IDF统计方法,获取待处理文本中文本单元的权重;摘要获取模块603配置用于利用ilp算法计算、submodular算法和centroid算法分别计算出待处理文本的第一文本摘要、第二文本摘要和第三文本摘要,基于深度卷积网络学习模型和判断,获取待处理文本的第四文本摘要,响应于文本单元中含有预先建立的摘要词库中的词汇,获取第五文本摘要;加权计算模块604配置用于将第一文本摘要、第二文本摘要、第三文本摘要、第四文本摘要和第五文本摘要进行加权计算,获取待处理文本的文本摘要。
继续参考图7,图7示出了根据本发明的一个具体的实施例的文本摘要生成系统的示意性结构图,该系统包括预处理模块701、分词模块702、ilp算法模块703、submodular算法模块704、centroid算法模块705、深度学习判断模块706、摘要词库算法模块707和综合判断模块708。
在具体的实施例中,预处理模块701将文本中的html标签去除,并将文本信息传输至分词模块702中,分词模块702对文本信息进行分词,并将分词后的数据分别输出至ilp算法模块703、submodular算法模块704、centroid算法模块705中进行对应算法的摘要获取,同时利用深度学习判断模块706用深度卷积网络来判断文本单元是否为文本摘要,在深度卷积网络来判断文本单元是否为文本摘要之前,使用深度卷积网络判断文本单元是否为文本摘要的模型,摘要词库算法模块707用于在文本单元含有摘要词库中的词的时候,对文本单元作为摘要进行获取,将上述各模块的计算结果输入至综合判断模块708中,进行权重计算,获取综合判断的文本摘要。
下面参考图8,其示出了适于用来实现本申请实施例的电子设备的计算机系统800的结构示意图。图8示出的电子设备仅仅是一个示例,不应对本申请实施例的功能和使用范围带来任何限制。
如图8所示,计算机系统800包括中央处理单元(CPU)801,其可以根据存储在只读存储器(ROM)802中的程序或者从存储部分808加载到随机访问存储器(RAM)803中的程序而执行各种适当的动作和处理。在RAM 803中,还存储有系统800操作所需的各种程序和数据。CPU 801、ROM 802以及RAM 803通过总线804彼此相连。输入/输出(I/O)接口805也连接至总线804。
以下部件连接至I/O接口805:包括键盘、鼠标等的输入部分806;包括诸如液晶显示器(LCD)等以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分809。通信部分809经由诸如因特网的网络执行通信处理。驱动器810也根据需要连接至I/O接口805。可拆卸介质811,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器810上,以便于从其上读出的计算机程序根据需要被安装入存储部分808。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分809从网络上被下载和安装,和/或从可拆卸介质811被安装。在该计算机程序被中央处理单元(CPU)801执行时,执行本申请的方法中限定的上述功能。需要说明的是,本申请所述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号或语音信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质,该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言-诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本申请实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中,例如,可以描述为:一种处理器包括预处理模块、文本单元权重计算模块、摘要获取模块和加权计算模块。其中,这些单元的名称在某种情况下并不构成对该单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备:对待处理文本进行预处理,其中,预处理包括去除待处理文本的html标签以及对待处理文本进行分词处理;基于TF-IDF统计方法,获取待处理文本中文本单元的权重;利用ilp算法、submodular算法和centroid算法分别计算获得待处理文本的第一文本摘要、第二文本摘要和第三文本摘要;基于深度卷积网络学习模型,获取待处理文本的第四文本摘要;响应于文本单元中含有预先建立的摘要词库中的词汇,获取第五文本摘要;将第一文本摘要、第二文本摘要、第三文本摘要、第四文本摘要和第五文本摘要进行加权计算,获取待处理文本的文本摘要。
以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解,本申请中所涉及的发明范围,并不限于上述技术特征的特定组合而成的技术方案,同时也应涵盖在不脱离上述发明构思的情况下,由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。
Claims (10)
1.一种用于文本摘要的生成方法,其特征在于,包括以下步骤:
S1:对待处理文本进行预处理,其中,所述预处理包括去除所述待处理文本的html标签以及对所述待处理文本进行分词处理;
S2:基于TF-IDF统计方法,获取待处理文本中文本单元的权重;
S3:利用ilp算法、submodular算法和centroid算法分别计算获得所述待处理文本的第一文本摘要、第二文本摘要和第三文本摘要;基于深度卷积网络学习模型,获取所述待处理文本的第四文本摘要;响应于所述文本单元中含有预先建立的摘要词库中的词汇,获取第五文本摘要;
S4:将所述第一文本摘要、所述第二文本摘要、所述第三文本摘要、所述第四文本摘要和所述第五文本摘要进行加权计算,获取所述待处理文本的文本摘要。
2.根据权利要求1所述的用于文本摘要的生成方法,其特征在于,所述TF-IDF的计算公式如下:TF-IDF=TF*IDF,其中TF表示词频,即某个词在文本中出现次数,IDF表示逆文档频率,具体计算为
5.根据权利要求1所述的用于文本摘要的生成方法,其特征在于,所述步骤S3中利用centroid算法获得所述第三文本摘要的具体步骤为:
获取所述文本单元的权重wi=∑nwn,i,其中w表示所述文本单元的权重值,n表示所述文本单元中的词,i表示所述文本单元的序号;
基于所述文本单元权重、所述文本单元位置值、所述文本单元和第一个文本单元的相似度利用centroid算法获取所述第三文本摘要,所述相似度计算采用余弦近似公式计算,具体相似度的计算公式为:
其中,x表示所述文本单元的相似度,A·B表示所述文本单元之间的向量内积,|A|×|B|表示所述文本单元的向量长度。
6.根据权利要求1所述的用于文本摘要的生成方法,其特征在于,所述步骤S4中所述第四文本摘要的获取方式具体包括:
基于将所述待处理文本、分割符和所述文本单元输入至输入层,基于word2vec将词语转换为向量值输入至卷积层,进行最大池化运算,输入至输出层进行softmax计算,利用标准结果进行差的运算调整卷积层和输出层的参数,进行深度神经网络的训练;
基于所述深度神经网络的训练,判断所述文本单元是否为文本摘要,输出所述第四文本摘要。
7.根据权利要求1所述的用于文本摘要的生成方法,其特征在于,所述文本摘要的计算公式为:ji=∑(pdd+pii+pss+pcc+pll),其中,pd表示深度学习获取的所述第四文本摘要的准确率,pi表示ilp算法获取的所述第一文本摘要的准确率,ps表示submodular算法获取的所述第二文本摘要的准确率,pc表示centroid算法获取的所述第三文本摘要的准确率,pl表示摘要词库获取的所述第五文本摘要的准确率,d、i、s、c、l分别表示深度学习、ilp、submodular、centroid、摘要词库获取的文本摘要是否为待处理文本摘要的判断,取1表示是待处理文本摘要,取0表示不是待处理文本摘要。
8.根据权利要求1所述的用于文本摘要的生成方法,其特征在于,所述步骤S4还可以为:对所述ilp算法、所述submodular算法和所述centroid算法分别计算获得的所述第一文本摘要、所述第二文本摘要和所述第三文本摘要进行加权计算,获得综合算法文本摘要,进而将所述综合算法文本摘要与所述第四文本摘要和所述第五文本摘要进行加权计算,获取最终的文本摘要。
9.一种计算机可读存储介质,其上存储有一或多个计算机程序,其特征在于,该一或多个计算机程序被计算机处理器执行时实施权利要求1至8中任一项所述的方法。
10.一种用于文本摘要的生成系统,其特征在于,所述系统包括:
预处理模块:配置用于对待处理文本进行预处理,去除所述待处理文本的html标签以及对所述待处理文本进行分词处理;
文本单元权重计算模块:配置用于基于TF-IDF统计方法,获取待处理文本中文本单元的权重;
摘要获取模块:配置用于利用ilp算法计算、submodular算法和centroid算法分别计算出所述待处理文本的第一文本摘要、第二文本摘要和第三文本摘要,基于深度卷积网络学习模型和判断,获取所述待处理文本的第四文本摘要,响应于所述文本单元中含有预先建立的摘要词库中的词汇,获取第五文本摘要;
加权计算模块:配置用于将所述第一文本摘要、所述第二文本摘要、所述第三文本摘要、所述第四文本摘要和所述第五文本摘要进行加权计算,获取所述待处理文本的文本摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910926161.6A CN110705287B (zh) | 2019-09-27 | 2019-09-27 | 一种用于文本摘要的生成方法和系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910926161.6A CN110705287B (zh) | 2019-09-27 | 2019-09-27 | 一种用于文本摘要的生成方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110705287A true CN110705287A (zh) | 2020-01-17 |
CN110705287B CN110705287B (zh) | 2023-06-30 |
Family
ID=69196772
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910926161.6A Active CN110705287B (zh) | 2019-09-27 | 2019-09-27 | 一种用于文本摘要的生成方法和系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110705287B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407722A (zh) * | 2021-07-09 | 2021-09-17 | 平安国际智慧城市科技股份有限公司 | 基于文本摘要的文本分类方法、装置、电子设备及介质 |
Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7310633B1 (en) * | 2004-03-31 | 2007-12-18 | Google Inc. | Methods and systems for generating textual information |
CN101446940A (zh) * | 2007-11-27 | 2009-06-03 | 北京大学 | 为文档集自动生成摘要的方法及装置 |
JP2012123455A (ja) * | 2010-12-06 | 2012-06-28 | Nippon Telegr & Teleph Corp <Ntt> | 要約装置、要約作成方法及びプログラム |
CN102945228A (zh) * | 2012-10-29 | 2013-02-27 | 广西工学院 | 一种基于文本分割技术的多文档文摘方法 |
CN103079117A (zh) * | 2012-12-30 | 2013-05-01 | 信帧电子技术(北京)有限公司 | 视频摘要生成方法和视频摘要生成装置 |
CN104156452A (zh) * | 2014-08-18 | 2014-11-19 | 中国人民解放军国防科学技术大学 | 一种网页文本摘要生成方法和装置 |
CN105320642A (zh) * | 2014-06-30 | 2016-02-10 | 中国科学院声学研究所 | 一种基于概念语义基元的文摘自动生成方法 |
CN106599148A (zh) * | 2016-12-02 | 2017-04-26 | 东软集团股份有限公司 | 一种文摘生成方法及装置 |
CN106844341A (zh) * | 2017-01-10 | 2017-06-13 | 北京百度网讯科技有限公司 | 基于人工智能的新闻摘要提取方法及装置 |
CN106980683A (zh) * | 2017-03-30 | 2017-07-25 | 中国科学技术大学苏州研究院 | 基于深度学习的博客文本摘要生成方法 |
US9721165B1 (en) * | 2015-11-13 | 2017-08-01 | Amazon Technologies, Inc. | Video microsummarization |
CN108319630A (zh) * | 2017-07-05 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、存储介质和计算机设备 |
CN108427771A (zh) * | 2018-04-09 | 2018-08-21 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置和计算机设备 |
CN108595632A (zh) * | 2018-04-24 | 2018-09-28 | 福州大学 | 一种融合摘要与主体特征的混合神经网络文本分类方法 |
CN109766434A (zh) * | 2018-12-29 | 2019-05-17 | 北京百度网讯科技有限公司 | 摘要生成方法及装置 |
CN109960724A (zh) * | 2019-03-13 | 2019-07-02 | 北京工业大学 | 一种基于tf-idf的文本摘要方法 |
JP2019139772A (ja) * | 2018-02-08 | 2019-08-22 | 株式会社リコー | 文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体 |
-
2019
- 2019-09-27 CN CN201910926161.6A patent/CN110705287B/zh active Active
Patent Citations (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7310633B1 (en) * | 2004-03-31 | 2007-12-18 | Google Inc. | Methods and systems for generating textual information |
CN101446940A (zh) * | 2007-11-27 | 2009-06-03 | 北京大学 | 为文档集自动生成摘要的方法及装置 |
JP2012123455A (ja) * | 2010-12-06 | 2012-06-28 | Nippon Telegr & Teleph Corp <Ntt> | 要約装置、要約作成方法及びプログラム |
CN102945228A (zh) * | 2012-10-29 | 2013-02-27 | 广西工学院 | 一种基于文本分割技术的多文档文摘方法 |
CN103079117A (zh) * | 2012-12-30 | 2013-05-01 | 信帧电子技术(北京)有限公司 | 视频摘要生成方法和视频摘要生成装置 |
CN105320642A (zh) * | 2014-06-30 | 2016-02-10 | 中国科学院声学研究所 | 一种基于概念语义基元的文摘自动生成方法 |
CN104156452A (zh) * | 2014-08-18 | 2014-11-19 | 中国人民解放军国防科学技术大学 | 一种网页文本摘要生成方法和装置 |
US9721165B1 (en) * | 2015-11-13 | 2017-08-01 | Amazon Technologies, Inc. | Video microsummarization |
CN106599148A (zh) * | 2016-12-02 | 2017-04-26 | 东软集团股份有限公司 | 一种文摘生成方法及装置 |
CN106844341A (zh) * | 2017-01-10 | 2017-06-13 | 北京百度网讯科技有限公司 | 基于人工智能的新闻摘要提取方法及装置 |
CN106980683A (zh) * | 2017-03-30 | 2017-07-25 | 中国科学技术大学苏州研究院 | 基于深度学习的博客文本摘要生成方法 |
CN108319630A (zh) * | 2017-07-05 | 2018-07-24 | 腾讯科技(深圳)有限公司 | 信息处理方法、装置、存储介质和计算机设备 |
JP2019139772A (ja) * | 2018-02-08 | 2019-08-22 | 株式会社リコー | 文書要約の生成方法、装置、電子機器、コンピュータ読み取り可能な記憶媒体 |
CN108427771A (zh) * | 2018-04-09 | 2018-08-21 | 腾讯科技(深圳)有限公司 | 摘要文本生成方法、装置和计算机设备 |
CN108595632A (zh) * | 2018-04-24 | 2018-09-28 | 福州大学 | 一种融合摘要与主体特征的混合神经网络文本分类方法 |
CN109766434A (zh) * | 2018-12-29 | 2019-05-17 | 北京百度网讯科技有限公司 | 摘要生成方法及装置 |
CN109960724A (zh) * | 2019-03-13 | 2019-07-02 | 北京工业大学 | 一种基于tf-idf的文本摘要方法 |
Non-Patent Citations (5)
Title |
---|
任纪生等: "一种基于词序信息的自动文摘方法", 《计算机工程与设计》 * |
张敏;杜华: ""垂直搜索引擎系统的设计与实现"" * |
徐晓丹: "中文网页自动摘要系统的研究", 《计算机与现代化》 * |
柯修等: "基于混合方法的多语言多文档自动摘要系统构建及实现", 《图书馆学研究》 * |
毛良文等: "基于句子权重和篇章结构的政府公文自动文摘算法", 《计算机与现代化》 * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113407722A (zh) * | 2021-07-09 | 2021-09-17 | 平安国际智慧城市科技股份有限公司 | 基于文本摘要的文本分类方法、装置、电子设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN110705287B (zh) | 2023-06-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109902145B (zh) | 一种基于注意力机制的实体关系联合抽取方法和系统 | |
US11501182B2 (en) | Method and apparatus for generating model | |
CN107679039B (zh) | 用于确定语句意图的方法和装置 | |
WO2020224219A1 (zh) | 中文分词方法、装置、电子设备及可读存储介质 | |
WO2021068339A1 (zh) | 文本分类方法、装置及计算机可读存储介质 | |
CN111309915A (zh) | 联合学习的自然语言训练方法、系统、设备及存储介质 | |
CN112818093B (zh) | 基于语义匹配的证据文档检索方法、系统及存储介质 | |
CN108304373B (zh) | 语义词典的构建方法、装置、存储介质和电子装置 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
CN110674635B (zh) | 一种用于文本段落划分的方法和装置 | |
CN112347758B (zh) | 文本摘要的生成方法、装置、终端设备及存储介质 | |
CN113434636B (zh) | 基于语义的近似文本搜索方法、装置、计算机设备及介质 | |
CN111832290A (zh) | 用于确定文本相关度的模型训练方法、装置、电子设备及可读存储介质 | |
CN112069312B (zh) | 一种基于实体识别的文本分类方法及电子装置 | |
CN114676255A (zh) | 文本处理方法、装置、设备、存储介质及计算机程序产品 | |
CN113609847B (zh) | 信息抽取方法、装置、电子设备及存储介质 | |
CN113505601A (zh) | 一种正负样本对构造方法、装置、计算机设备及存储介质 | |
CN115203421A (zh) | 一种长文本的标签生成方法、装置、设备及存储介质 | |
CN114416979A (zh) | 一种文本查询方法、设备和存储介质 | |
CN111061939A (zh) | 基于深度学习的科研学术新闻关键字匹配推荐方法 | |
CN114218945A (zh) | 实体识别方法、装置、服务器及存储介质 | |
CN114492470A (zh) | 商品标题文本翻译方法及其装置、设备、介质、产品 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
US20190095525A1 (en) | Extraction of expression for natural language processing | |
CN113254586A (zh) | 一种基于深度学习的无监督文本检索方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |