CN105989058A - 一种汉语新闻摘要生成系统及方法 - Google Patents
一种汉语新闻摘要生成系统及方法 Download PDFInfo
- Publication number
- CN105989058A CN105989058A CN201510063915.1A CN201510063915A CN105989058A CN 105989058 A CN105989058 A CN 105989058A CN 201510063915 A CN201510063915 A CN 201510063915A CN 105989058 A CN105989058 A CN 105989058A
- Authority
- CN
- China
- Prior art keywords
- sentence
- news
- brief
- processing module
- chinese
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Document Processing Apparatus (AREA)
Abstract
本发明提供了一种汉语新闻摘要生成系统,该系统包括依次连接的前处理模块、打分模块和后处理模块;所述前处理模块接收待处理文档,所述打分模块获取前处理模块输出的句子并进行重要性打分,所述后处理模块根据打分结果确定新闻摘要。该系统以非监督的图算法为基础,以简单领域规则为辅助,能够快速阅读面向汉语新闻,自动生成新闻摘要。
Description
技术领域
本发明涉及一种互联网领域的系统及方法,具体讲涉及一种汉语新闻摘要生成系统及方法。
背景技术
随着现代社会信息的爆炸式增长和信息获取途径的不断拓展,包括移动互联网的普及,人们通过互联网获得新闻越来越方便。然而由于被海量信息淹没,人们从互联网获取自己感兴趣的新闻的手段通常只有浏览标题(或简短摘要),然后从感兴趣的标题入手,再详细了解新闻的内容。即便如此,在进入新闻(尤其是篇幅较大的新闻)的正文后,通常读者也会因文章内容冗长而在尚未通读全文的情况下中途退出。为此,有必要使用自动摘要技术为用户提供文章的一个精简版本,保留正文的大意,但又不超过用户阅读耐心的上限,从而改善用户的新闻阅读体验。目前,自动摘要主要采用从原文中抽取句子组成摘要的方式来实现(也有采用自然语言生成的方法,即把从文章中提取到的关键词语及语句,通过一些模板和连接词进行拼接,添加成分等来重新生成一篇文档,这种方式目前几乎没有使用,因效果和效率均不佳,且实现难度大),这种方式可分为基于规则的方法和基于学习的方法,而基于学习的方法又可以分为基于监督学习的方法和基于非监督学习的方法。
基于规则的方法:主要将领域专家对该领域文档的结构和关键词等知识转化为规则,利用这些规则分析输入的文本,确定其最核心内容所在的段落及语句,选择这些语句并对其重新拼接,形成对该文档的摘要。另外,简单的取文章的前若干句或若干段作为摘要的方法也可以认为是基于规则的方法,不过这类方法如果所取句子太少则易损失信息,影响阅读体验,而如果取的内容太多,则又失去了摘要减少阅读篇幅的意义,也会影响阅读体验,因此很少使用。
基于监督学习的方法:使用人工或半人工方式构建一批所研究领域内的文档的语料(用专用标记在文中标出要出现在最终的摘要中的句子),然后选取适当特征训练相应的分类器或序列标注器,再用训练好的分类器或序列标注器对新的文档的每个句子进行标注,将标为候选的句子取出后拼接成摘要。
基于非监督学习的方法:无需训练语料,直接使用某种启发式的打分机制(如tfidf、图算法等)为每个句子(或词)打分,以表名其在文章中的重要程度,选取分值最高的前若干个句子作为候选,将其拼接成摘要。对选词类的方法而言,则是选择分值最高的若干词作为文章的关键词,再使用这些关键词以一定的策略选择句子(如按含有关键词的数量等),之后拼接所选句子成为摘要。
上述三种方法分别有其优缺点,具体如下:
基于规则的可扩展性较差,因为所使用的规则大都领域相关性很高,某领域效果较好的系统几乎无法应用于其他领域。该方法成本也很高,为了达到一定的精度要求,需要获取大量的领域专家的知识并对其进行精心整理。
基于监督学习的方法尽管能够更容易地捕捉更多细节,达到较好的精度,但其可扩展性也不高,因为不同领域内的规律也不尽相同,而对一个新的领域构建语料库是一个非常耗时耗力的工作。
基于非监督学习的方法因其算法简洁,无需人工知识整理以及构建语料库,因此具有很好的可扩展性,一个领域中应用成熟的方案非常易于移植到其他领域。但往往由于算法过于追求普适性而忽略领域相关的细节,导致抽取结果内容基本涵盖了文章主旨,但却缺少必要的连接句,导致可读性下降。
因此,需要提供一种改进的汉语新闻摘要生成系统及方法。
发明内容
为克服上述现有技术的不足,本发明提供一种汉语新闻摘要生成系统及方法。
实现上述目的所采用的解决方案为:
一种汉语新闻摘要生成系统,其改进之处在于:所述系统包括依次连接的前处理模块、打分模块和后处理模块;
所述前处理模块接收待处理文档,所述打分模块获取前处理模块输出的句子并进行重要性打分,所述后处理模块根据打分结果确定新闻摘要。
进一步的,所述前处理模块根据切分规则切分所述待处理文档的段落粒度和句子粒度,并处理句子的词法。
进一步的,所述打分模块计算全文句子的重要性,确定重要性分值。
进一步的,所述打分模块采用基于图的算法确定所述重要性分值,按所述重要性分值进行降序排序,构建全文句子的图结构,确定图的边的权重表示句子两两之间的相关程度。
进一步的,采用词语共现率作为所述权重。
进一步的,所述后处理模块根据摘要生成规则选择所述新闻摘要的句子,确定所述新闻摘要。
进一步的,所述摘要生成规则包括:
所述新闻摘要中句子满足合理长度、保证句子可读性和将新闻类材料文档的第一句加入新闻摘要。
进一步的,所述后处理模块确定所述新闻摘要包括以下步骤:
I、根据句子重要性分值对句子进行降序排序;
II、过滤已属于候选句集合和不规范句子;
III、扩展经过过滤的合法句子;
IV、判断当前候选集合中句子的长度是否超过预定的摘要长度上限,若超过则停止,否则返回步骤I。
一种汉语新闻摘要生成方法,其改进之处在于:所述方法包括以下步骤:
步骤一、接收待处理文档;
步骤二、根据切分规则切分所述待处理文档,并处理句子的词法;
步骤三、计算全文句子的重要性,确定重要性分值;
步骤四、根据摘要生成规则选择所述新闻摘要的子句,确定所述新闻摘要。
进一步的,所述步骤三中,采用基于图的算法确定所述重要性分值,按所述重要性分值进行降序排序,构建全文句子的图结构,确定图的边的权重表示句子两两之间的相关程度;
采用词语共现率作为所述权重。
进一步的,所述步骤四中,根据摘要生成规则选择所述新闻摘要的子句,确定所述新闻摘要,包括以下步骤:
I、根据句子重要性分值对句子进行降序排序;
II、过滤已属于候选句集合和不规范句子;
III、扩展经过过滤的合法句子;
IV、判断当前候选集合中句子的长度是否超过预定的摘要长度上限,若超过则停止,否则返回步骤I。
进一步的,所述摘要生成规则包括:
所述新闻摘要中句子满足合理长度、保证句子可读性和将新闻类材料文档的第一句加入新闻摘要。
与现有技术相比,本发明具有以下有益效果:
1、本发明提供的系统及方法以非监督的图算法为基础,以简单领域规则为辅助,能够快速阅读面向汉语的新闻,自动生成新闻摘要。
2、本发明提供的系统及方法由于引入可添加简单领域规则的前处理模块和后处理模块,使得领域内文档的摘要的连贯性得到提高,从而增强了摘要的可读性;
3、本发明提供的系统及方法由于领域规则并不复杂,只起辅助作用,而以非监督的图算法为基础,可非常容易地扩展到其他领域,因此具有较高的可扩展性。
4、本发明提供的系统及方法以非监督学习为基础并辅以少量简单规则的汉语新闻的实现摘要的自动生成,既保证高可扩展性,方便应用于其他领域(如博客内容的摘要等),且本发明的系统实现自动生成,无需耗费大量人工成本,又能够保证摘要具有较大的信息量和较高的连贯性,为人们快速阅读新闻主旨提供支持。
附图说明
图1为本实施例中汉语新闻摘要生成系统示意图;
图2为本实施例中前处理模块处理流程图;
图3为本实施例中打分模块处理流程图;
图4为本实施例中后处理模块处理流程图。
具体实施方式
下面结合附图对本发明的具体实施方式做进一步的详细说明。
如图1所示,图1为本实施例中汉语新闻摘要生成系统示意图;本实施例中,汉语新闻摘要生成系统包括:前处理模块、打分模块和后处理模块。
前处理模块、打分模块和后处理模块依次连接。前处理模块用于接收待处理文档;打分模块用于获取前处理模块处理后输出的句子,并进行重要性打分;后处理模块根据打分模块输出的打分结果确定新闻摘要。
如图2-4,分别为本实施例中前处理模块、打分模块、后处理模块的处理流程图;结合图2-4对上述前处理模块、打分模块和后处理模块做如下说明。
①、前处理模块:用于根据切分规则切分所述待处理文档,并处理句子的词法。
“粒度”(granularity)指信息单元的相对大小或粗糙程度。各种不同的粗细程度包括:杂志的议题、文章、段落及句子等。
本实施例中,前处理模块根据相关规则对所述待处理文档进行段落粒度和句子粒度的切分。
相关规则包括:文章分段字符规则、段落长度限制规则、句子结束标记规则等。
分段字符规则包括:如换行符前的内容是否包含句子结束标记来确定该换行是否为段落结束等。
段落长度限制规则:不同系统中可对段落长度进行不同长度限值。
句子结束标记规则:不同系统中可运用不同的分隔符认定为句子的结束标记,如句号、感叹号等。
文档切分过程具体如下:
根据段落规则切分段落,如采用分段字符规则;再对每段内容进行句子切分,如采用各类句子结束标记、句内括号、引号等的配对情况等。
词法处理过程具体如下:
采用分词工具将句子切分为词后,再根据停用词表去掉停用词,将句子转换为词序列的形式,即形成词向量以便后续相似度的计算处理。
常用的分词工具有,je-analysis-1.5.3(极易中文分词)、paoding-analyzer.jar(庖丁分词)、IKAnalyzer3.0、imdict-chinese-analyzer、ictclas4j等。
停用词:在信息检索中,为节省存储空间和提高搜索效率,在处理自然语言数据或文本之前或之后会自动过滤掉某些字或词,这些字或词被称为停用词。
停用词为人工输入、非自动化生成的,生成后的停用词会形成一个停用词表。实际应用中,根据各个不同系统可制定不同的停用词表。
②、打分模块:用于计算全文句子的重要性,确定重要性分值。
打分模块采用基于图的算法确定所述重要性分值,按所述重要性分值进行降序排序,构建全文句子的图结构,确定图的边的权重表示句子两两之间的相关程度。
首先,需确定任意两个句子之间的相似度用于计算重要性分值。具体方法如下:
i.构建并初始化相似度矩阵:
方法为:根据句子数目n构建一个n*n的矩阵,并初始化每个元素为0;
ii.计算相似度并填充相似度矩阵:
方法为:根据上述形成的词向量计算对两个句子间的词语共现率,将计算获得的词语共现率填入相似度矩阵,所述词语共现率作为句子之间关系的权重。
所述词语共现率即为两句中相同词数量与两句总词数的比,可以有其他变形。
然后,使用page rank算法(图算法)计算全文句子的重要性,确定重要性分值。具体方法如下:
i.生成关系矩阵:负责生成图算法所需的图,确定所有句子之间的关系,即相似矩阵,该相似句子表示句子之间关系的权重。
可采用位置关系表示,如:句子a在句子b的前面,则句子a与句子b之间的关系为1,否则为0。
ii.计算page rank得分:根据关系图即相似矩阵,运用page rank算法对每个句子的page rank得分进行迭代求解,直到达到稳定状态(每个句子得分的变化小于阈值)或迭代次数超过迭代阈值。
③、后处理模块:用于根据摘要生成规则选择所述新闻摘要的子句,确定所述新闻摘要。
首先,对运用page rank算法计算获得的句子进行降序排序。
然后,根据从排序过后的句子中按顺序筛选出候选句。具体过程如下:
i、过滤不规范的句子,如:出现多个空白却没有任何结束标记;
ii、过滤已经属于候选句集合的规范句子;
iii、扩展经过过滤的合法句子:当前合法句子的前后句,如果在同一段落内,且长度不低于一个最小阈值(本实施例中最小阈值采用3个汉字字符),则认为此上下文句子也是候选;
将当前候选句子及其上下文中的句子按顺序结合,形成候选句子(长度符合规则),从而避免选出的句子太少,以及句子连贯性不好。
iv、判断长度要求:如果当前候选集合中句子的长度已经超过预先设定的摘要的长度上限(参考值),则停止算法运行。
后处理模块确定新闻摘要的过程中需要符合一定的新闻摘要生成规则。本实施例中,采用如下规则:
(1)、考虑到在实际运用中,对于新闻类题材内容,文档第一句几乎总是较为重要的,因此,本实施例的方法中,采用硬规则将第一句加入摘要。
(2)、新闻摘要中句子的合理长度。
(3)、保证句子可读性;为保证句子可读性,可对不连续句子前后上下文中的句子进行保留。
本发明还提供了一种汉语新闻摘要生成方法,该方法包括以下步骤:
步骤一、接收待处理文档。
步骤二、根据切分规则切分所述待处理文档,并处理句子的词法。
步骤三、计算全文句子的重要性,确定重要性分值。
步骤四、根据摘要生成规则选择所述新闻摘要的子句,确定所述新闻摘要。
步骤二中,根据切分规则切分所述待处理文档,并处理句子的词法。
相关规则包括:文章分段字符规则、段落长度限制规则、句子结束标记规则等。
文档切分过程具体如下:
根据段落规则切分段落,如采用分段字符规则;再对每段内容进行句子切分,如采用各类句子结束标记、句内括号、引号等的配对情况等。
词法处理过程具体如下:
采用分词工具将句子切分为词后,再根据停用词表去掉停用词,将句子转换为词序列的形式,即形成词向量,以便后续相似度的计算处理。
常用的分词工具有,je-analysis-1.5.3(极易中文分词)、paoding-analyzer.jar(庖丁分词)、IKAnalyzer3.0、imdict-chinese-analyzer、ictclas4j等。
步骤三中,采用基于图的算法确定所述重要性分值,按所述重要性分值进行降序排序,构建全文句子的图结构,确定图的边的权重表示句子两两之间的相关程度。
首先,需确定任意两个句子之间的相似度用于计算重要性分值。具体方法如下:
i.构建并初始化相似度矩阵:
方法为:根据句子数目n构建一个n*n的矩阵,并初始化每个元素为0;
ii.计算相似度并填充相似度矩阵:
方法为:根据上述形成的词向量计算对两个句子间的词语共现率,进一步将获得的词语共现率填入相似度矩阵,所述词语共现率作为句子之间关系的权重。
词语共现率等于两句中相同词数量与两句总词数的比,可以有其他变形。
然后,使用page rank算法(图算法)计算全文句子的重要性,确定重要性分值。具体方法如下:
i.生成关系矩阵:负责生成图算法所需的图,确定所有句子之间的关系,即相似矩阵,该相似句子表示句子之间关系的权重。
可采用位置关系表示,如:句子a在句子b的前面,则句子a与句子b之间的关系为1,否则为0。
ii.计算page rank得分:根据关系图即相似矩阵,运用page rank算法对每个句子的page rank得分进行迭代求解,直到达到稳定状态(每个句子得分的变化小于阈值)或迭代次数超过迭代阈值。
步骤四中,根据摘要生成规则选择所述新闻摘要的子句,确定所述新闻摘要。
首先,对运用page rank算法计算获得的句子进行降序排序。
然后,根据从排序过后的句子中按顺序筛选出候选句。具体过程如下:
i、过滤不规范的句子,如:出现多个空白却没有任何结束标记;
ii、过滤已经属于候选句集合的规范句子;
iii、扩展经过过滤的合法句子:当前合法句子的前后句,如果在同一段落内,且长度不低于一个最小阈值(本实施例中最小阈值采用3个汉字字符),则认为此上下文句子也是候选;
将当前候选句子及其上下文中的句子按顺序结合,形成候选句子(长度符合规则),从而避免选出的句子太少,以及句子连贯性不好。
iv、判断长度要求:如果当前候选集合中句子的长度已经超过预先设定的摘要的长度上限(参考值),则停止算法运行。
本实施例中,确定新闻摘要还需满足一定的规则,例如包括如下规则:
(1)、考虑到在实际运用中,对于新闻类题材内容,文档第一句几乎总是较为重要的,因此,本实施例的方法中,采用硬规则将第一句加入摘要。
(2)、新闻摘要中句子的合理长度。
(3)、为保证句子可读性而对不连续句子前后上下文中的句子进行保留所需要的分值的阈值。
最后应当说明的是:以上实施例仅用于说明本申请的技术方案而非对其保护范围的限制,尽管参照上述实施例对本申请进行了详细的说明,所属领域的普通技术人员应当理解:本领域技术人员阅读本申请后依然可对申请的具体实施方式进行种种变更、修改或者等同替换,但这些变更、修改或者等同替换,均在申请待批的权利要求保护范围之内。
Claims (12)
1.一种汉语新闻摘要生成系统,其特征在于:所述系统包括依次连接的前处理模块、打分模块和后处理模块;
所述前处理模块接收待处理文档,所述打分模块获取前处理模块输出的句子并进行重要性打分,所述后处理模块根据打分结果确定新闻摘要。
2.如权利要求1所述的一种汉语新闻摘要生成系统,其特征在于:所述前处理模块根据切分规则切分所述待处理文档的段落粒度和句子粒度,并处理句子的词法。
3.如权利要求1所述的一种汉语新闻摘要生成系统,其特征在于:所述打分模块计算全文句子的重要性,确定重要性分值。
4.如权利要求3所述的一种汉语新闻摘要生成系统,其特征在于:所述打分模块采用基于图的算法确定所述重要性分值,按所述重要性分值进行降序排序,构建全文句子的图结构,确定图的边的权重表示句子两两之间的相关程度。
5.如权利要求4所述的一种汉语新闻摘要生成系统,其特征在于:采用词语共现率作为所述权重。
6.如权利要求1所述的一种汉语新闻摘要生成系统,其特征在于:所述后处理模块根据摘要生成规则选择所述新闻摘要的句子,确定所述新闻摘要。
7.如权利要求6所述的一种汉语新闻摘要生成系统,其特征在于:所述摘要生成规则包括:
所述新闻摘要中句子满足合理长度、保证句子可读性和将新闻类材料文档的第一句加入新闻摘要。
8.如权利要求5所述的一种汉语新闻摘要生成系统,其特征在于:所述后处理模块确定所述新闻摘要包括以下步骤:
I、根据句子重要性分值对句子进行降序排序;
II、过滤已属于候选句集合和不规范句子;
III、扩展经过过滤的合法句子;
IV、判断当前候选集合中句子的长度是否超过预定的摘要长度上限,若超过则停止,否则返回步骤I。
9.一种汉语新闻摘要生成方法,其特征在于:所述方法包括以下步骤:
步骤一、接收待处理文档;
步骤二、根据切分规则切分所述待处理文档,并处理句子的词法;
步骤三、计算全文句子的重要性,确定重要性分值;
步骤四、根据摘要生成规则选择所述新闻摘要的子句,确定所述新闻摘要。
10.如权利要求9所述的一种汉语新闻摘要生成方法,其特征在于:所述步骤三中,采用基于图的算法确定所述重要性分值,按所述重要性分值进行降序排序,构建全文句子的图结构,确定图的边的权重表示句子两两之间的相关程度;
采用词语共现率作为所述权重。
11.如权利要求9所述的一种汉语新闻摘要生成方法,其特征在于:所述步骤四中,根据摘要生成规则选择所述新闻摘要的子句,确定所述新闻摘要,包括以下步骤:
I、根据句子重要性分值对句子进行降序排序;
II、过滤已属于候选句集合和不规范句子;
III、扩展经过过滤的合法句子;
IV、判断当前候选集合中句子的长度是否超过预定的摘要长度上限,若超过则停止,否则返回步骤I。
12.如权利要求11所述的一种汉语新闻摘要生成方法,其特征在于:所述摘要生成规则包括:
所述新闻摘要中句子满足合理长度、保证句子可读性和将新闻类材料文档的第一句加入新闻摘要。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510063915.1A CN105989058A (zh) | 2015-02-06 | 2015-02-06 | 一种汉语新闻摘要生成系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510063915.1A CN105989058A (zh) | 2015-02-06 | 2015-02-06 | 一种汉语新闻摘要生成系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN105989058A true CN105989058A (zh) | 2016-10-05 |
Family
ID=57036167
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510063915.1A Pending CN105989058A (zh) | 2015-02-06 | 2015-02-06 | 一种汉语新闻摘要生成系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN105989058A (zh) |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106681982A (zh) * | 2016-11-15 | 2017-05-17 | 温州大学瓯江学院 | 英文长篇小说摘要生成方法 |
CN107491434A (zh) * | 2017-08-10 | 2017-12-19 | 北京邮电大学 | 基于语义相关性的文本摘要自动生成方法及装置 |
CN107608946A (zh) * | 2017-09-30 | 2018-01-19 | 努比亚技术有限公司 | 文字重点内容提取方法及对应的移动终端 |
CN109274825A (zh) * | 2018-09-27 | 2019-01-25 | 北京小米移动软件有限公司 | 一种消息提醒方法及装置 |
CN109684642A (zh) * | 2018-12-26 | 2019-04-26 | 重庆誉存大数据科技有限公司 | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 |
CN109977219A (zh) * | 2019-03-19 | 2019-07-05 | 国家计算机网络与信息安全管理中心 | 基于启发式规则的文本摘要自动生成方法及装置 |
CN112434515A (zh) * | 2020-12-01 | 2021-03-02 | 天冕信息技术(深圳)有限公司 | 语句压缩方法、装置、电子设备及可读存储介质 |
CN114330251A (zh) * | 2022-03-04 | 2022-04-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本生成方法、模型的训练方法、设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
CN101446940A (zh) * | 2007-11-27 | 2009-06-03 | 北京大学 | 为文档集自动生成摘要的方法及装置 |
-
2015
- 2015-02-06 CN CN201510063915.1A patent/CN105989058A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
CN101446940A (zh) * | 2007-11-27 | 2009-06-03 | 北京大学 | 为文档集自动生成摘要的方法及装置 |
Non-Patent Citations (2)
Title |
---|
乐天: "使用TextRank算法为文本生成关键字和摘要", 《HTTPS://WEB.ARCHIVE.ORG/WEB/20141213124527/HTTPS://MY.OSCHINA.NET/LETIANTIAN/BLOG/351154》 * |
段晓丽 等: "基于主题分割与PageRank算法的文本主题抽取", 《现代图书情报技术》 * |
Cited By (12)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106681982A (zh) * | 2016-11-15 | 2017-05-17 | 温州大学瓯江学院 | 英文长篇小说摘要生成方法 |
CN106681982B (zh) * | 2016-11-15 | 2018-04-24 | 温州大学瓯江学院 | 英文长篇小说摘要生成方法 |
CN107491434A (zh) * | 2017-08-10 | 2017-12-19 | 北京邮电大学 | 基于语义相关性的文本摘要自动生成方法及装置 |
CN107608946A (zh) * | 2017-09-30 | 2018-01-19 | 努比亚技术有限公司 | 文字重点内容提取方法及对应的移动终端 |
CN109274825A (zh) * | 2018-09-27 | 2019-01-25 | 北京小米移动软件有限公司 | 一种消息提醒方法及装置 |
CN109684642A (zh) * | 2018-12-26 | 2019-04-26 | 重庆誉存大数据科技有限公司 | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 |
CN109684642B (zh) * | 2018-12-26 | 2023-01-13 | 重庆电信系统集成有限公司 | 一种结合页面解析规则和nlp文本向量化的摘要提取方法 |
CN109977219A (zh) * | 2019-03-19 | 2019-07-05 | 国家计算机网络与信息安全管理中心 | 基于启发式规则的文本摘要自动生成方法及装置 |
CN109977219B (zh) * | 2019-03-19 | 2021-04-09 | 国家计算机网络与信息安全管理中心 | 基于启发式规则的文本摘要自动生成方法及装置 |
CN112434515A (zh) * | 2020-12-01 | 2021-03-02 | 天冕信息技术(深圳)有限公司 | 语句压缩方法、装置、电子设备及可读存储介质 |
CN114330251A (zh) * | 2022-03-04 | 2022-04-12 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本生成方法、模型的训练方法、设备及存储介质 |
CN114330251B (zh) * | 2022-03-04 | 2022-07-19 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本生成方法、模型的训练方法、设备及存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN105989058A (zh) | 一种汉语新闻摘要生成系统及方法 | |
Dietz et al. | TREC Complex Answer Retrieval Overview. | |
CN102479191B (zh) | 提供多粒度分词结果的方法及其装置 | |
CN104765769B (zh) | 一种基于词矢量的短文本查询扩展及检索方法 | |
CN105975558B (zh) | 建立语句编辑模型的方法、语句自动编辑方法及对应装置 | |
CN105824933A (zh) | 基于主述位的自动问答系统及其实现方法 | |
CN103678576B (zh) | 基于动态语义分析的全文检索系统 | |
CN104484374B (zh) | 一种创建网络百科词条的方法及装置 | |
CN106776564B (zh) | 一种基于知识图谱的语义识别方法及系统 | |
CN105740229B (zh) | 关键词提取的方法及装置 | |
CN105205699A (zh) | 基于酒店点评的用户标签和酒店标签匹配方法及装置 | |
CN101404036B (zh) | PowerPoint电子演示文稿的关键词抽取方法 | |
CN107392143A (zh) | 一种基于svm文本分类的简历精确解析方法 | |
CN103077164A (zh) | 文本分析方法及文本分析器 | |
CN103150356B (zh) | 一种应用的泛需求检索方法及系统 | |
CN101599071A (zh) | 对话文本主题的自动提取方法 | |
CN107480200A (zh) | 基于词标签的词语标注方法、装置、服务器及存储介质 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN108021715B (zh) | 基于语义结构特征分析的异构标签融合系统 | |
CN109344187A (zh) | 一种司法判决书案情信息结构化处理系统 | |
CN101923556B (zh) | 根据句子序列号进行网页搜索的方法和装置 | |
US9652997B2 (en) | Method and apparatus for building emotion basis lexeme information on an emotion lexicon comprising calculation of an emotion strength for each lexeme | |
CN108228612B (zh) | 一种提取网络事件关键词以及情绪倾向的方法及装置 | |
CN106294358A (zh) | 一种信息的检索方法及系统 | |
CN109033166A (zh) | 一种人物属性抽取训练数据集构建方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20170426 Address after: 100086 Beijing, Haidian District, North Third Ring Road West, No. 43, building 5, floor 08-09, No. 2 Applicant after: BEIJING ZHONGSOU CLOUD BUSINESS NETWORK TECHNOLOGY CO., LTD. Address before: Shou Heng Technology Building No. 51 Beijing 100191 Haidian District Xueyuan Road room 0902 Applicant before: Beijing Zhongsou Network Technology Co,Ltd |
|
TA01 | Transfer of patent application right | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20161005 |
|
RJ01 | Rejection of invention patent application after publication |