CN101231634B - 一种多文档自动文摘方法 - Google Patents

一种多文档自动文摘方法 Download PDF

Info

Publication number
CN101231634B
CN101231634B CN2007103085162A CN200710308516A CN101231634B CN 101231634 B CN101231634 B CN 101231634B CN 2007103085162 A CN2007103085162 A CN 2007103085162A CN 200710308516 A CN200710308516 A CN 200710308516A CN 101231634 B CN101231634 B CN 101231634B
Authority
CN
China
Prior art keywords
sentence
weight
node
incidence matrix
theme
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2007103085162A
Other languages
English (en)
Other versions
CN101231634A (zh
Inventor
张瑾
许洪波
王小磊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Computing Technology of CAS
Original Assignee
Institute of Computing Technology of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Computing Technology of CAS filed Critical Institute of Computing Technology of CAS
Priority to CN2007103085162A priority Critical patent/CN101231634B/zh
Publication of CN101231634A publication Critical patent/CN101231634A/zh
Application granted granted Critical
Publication of CN101231634B publication Critical patent/CN101231634B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种利用图划分方法来自动提取多文档文摘的方法,包括以下步骤:进行句子边界切分,把文档用切分出来的句子表示;将句子表示成向量,计算句子两两间的相似度构成句子关联矩阵,并按指定的阈值对关联矩阵进行约简,同时进行规范化处理;在多文档文摘中引入主题的隐性逻辑结构的挖掘,将文档集按主题划分成不同的隐性子主题,从而把文摘任务转化为对子主题的选取和抽取过程;利用图划分的方法,既从全局特性上保证句子所在子主题的重要度,又从局部特性上保证不同子主题之间内容的低冗余性,从而有效提高了文摘质量。

Description

一种多文档自动文摘方法 
技术领域
本发明涉及信息处理领域,进一步地,涉及到一种多文档自动文摘方法。 
背景技术
随着时代的进步和经济的发展,人们日常生活中对信息的需求量越来越大,尤其是随着互联网的日益普及,每天都有海量的信息在互联网上发布和传播。以中国互联网的发展为例,根据北大天网提供的搜索结果,2005年底中国的网页总数约为10.8亿个,另据CNNIC的统计,截至2007年3月底,中国WAP网页数量约为2.6亿,网页字节数约为800GB。网页规模急剧增长的互联网,在为人们提供更加丰富的信息服务的同时,也给人们带来了如何高速有效获取有用信息的困惑。以搜索引擎为代表的信息检索技术可以根据用户的需求从海量信息中找出一批相关网页,提高了信息获取的效率。但这种方法很大程度上依赖于对于用户查询的准确理解以及查询结果的排序策略,同时在返回的查询结果的基础上还需要用户自己逐个网页查看以获取真正想要的信息,在用户查询意图不明确时难以做到准确高效,另外受搜索引擎采集和存储能力的影响,很难保证无信息的遗漏。在信息极大丰富的情况下,人们迫切需要取代获取相关信息、直接获取有用信息甚至最有价值信息的方法,以进一步减轻信息获取的工作量。多文档自动文摘技术可以在未给定先验知识的条件下对大量未知信息进行大意概括以帮助人们快速了解信息内容,可以在用户查询意图不明确时对杂乱的检索结果进行自动摘要以辅助人们加快查找速度,从而大大减轻了信息获取的代价,进一步提高了信息获取效率。多文档自动文摘方法在信息融合、信息检索、在线问答、移动内容服务和互联网内容安全等许多领域都具有重要价值和良好的应用前景。人工生成摘要信息的方法在针对单篇文档时比较有效,但由于代价昂贵,在面对大量文档时显得无能为力。通过机器学习和人工智能的方法,从多篇文档中自动进行重要信息的提取并形成多文档文摘,成为重要信息高效获取的最为现实而有效的技术手段。 
目前的自动文摘技术主要是基于句子级的内容分析与抽取,即从原始的文档(或文档集)中抽取一些关键的句子组成文摘,主要的文摘算法可以概括为以下三类: 
基于机器学习的文摘方法。该方法在向量空间模型的基础上利用分类、聚类等机器学习方法将句子划分为不同的类别,再从每个类别中抽取出最重要的句子来构成文摘。这种方法不受应用领域的限制,但受模型和机器学习方法的限制,往往算法精度有限。 
搜索式的文摘方法。该方法借助文本搜索领域的算法,针对文摘任务的特点,对所有句子构造一种特殊的查询结果排序策略,再根据文摘长度要求选取排在前面的若干句子构成文摘。这种方法不用单独去构造句子所在的类别信息,但受查询结果排序策略的影响很大。 
基于图排列的文摘方法。该方法先利用聚类算法把文档集划分为不同类别,再借助图模型对不同类别的文档集进行建模,通过对同一类别中句子间关联关系分析,计算出此类别中权重最大的句子作为最重要的句子,这些重要句子组成文摘。这种方法与基于机器学习的文摘方法相比能够更好的进行重要句的选取,但文摘性能往往取决于聚类算法的性能。 
综上所述,现有技术中自动提取文摘的能力,受各种不同因素限制,精度难以保证。 
发明内容
本发明的目的是提供一种多文档自动文摘的方法,即能够有效地进行句子类别信息的区分,又能从中抽取最重要句子,从而得到一种精度高、推广性好的多文档自动文摘方法。 
为实现上述目的,根据本发明的一个方面,提供了一种多文档自动文摘方法,包括以下步骤: 
1)把文档集进行句子边界切分,用向量空间模型表示句子; 
2)计算句子向量间的距离构成句子关联矩阵; 
3)根据句子关联矩阵计算初始句子权重向量,根据初始句子权重向量,选取权重最大的结点,把此结点所对应的句子作为候选文摘句,从句子关联矩阵中划分出对应的句子所代表子主题所在的子矩阵,更新句子关联矩阵; 
4)重复步骤3),完成文摘。 
根据本发明的另一方面,上述步骤3)中根据所述初始句子权重向量, 选取权重最大的结点包含步骤: 
根据初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型,根据句子权重调整模型,选取当前权重最大的结点。 
根据本发明的又一方面,上述根据初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型包含步骤: 
a)首先计算句子对主题的贡献度; 
b)对句子在文档中的位置进行分类,学习训练语料,得到句子位置偏好性概率的分布; 
c)对初始句子权重向量、句子对主题的贡献度按线性模型进行加权,对句子位置偏好性概率按乘积进行加权,得到句子权重调整模型。 
根据本发明的又一方面,上述步骤a)计算所述句子对主题的贡献度包含计算句子与主题的相似度和句子所在文档与主题的相似度。 
根据本发明的又一方面,上述步骤4)包含: 
根据初始句子权重向量计算调整的句子权重向量; 
然后从调整的句子权重向量中选取具有最大权重的结点,把此结点所对应的句子作为候选文摘句; 
利用图划分的方法,从句子关联矩阵中划分出与具有最大权重的结点关系密切的结点,共同构成一个子主题; 
从句子关联矩阵中删除子主题中所有结点的连边。 
根据本发明的另一方面,还提供了另一种多文档自动文摘方法,包括下列步骤: 
1)把文档集进行句子边界切分,用向量空间模型表示句子; 
2)计算句子向量间的距离构成句子关联矩阵,对所述句子关联矩阵进行规范化,形成句子关系图; 
3)根据所述句子关系图计算初始句子权重向量,根据所述初始句子权重向量,选取权重最大的结点,把此结点所对应的句子作为候选文摘句,从所述句子关系图中划分出所述对应的句子所代表子主题所在的子图,更新句子关系图; 
4)重复步骤3),完成文摘。 
在该方法中,所述步骤3)中根据所述初始句子权重向量,选取权重最大的结点包含步骤: 
根据所述初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型,根据所述句子权重调整模型,选取当前权重最大的结点。 
在该方法中,所述步骤2)中对所述句子关联矩阵进行规范化包含步骤:对所述句子关联矩阵根据阈值进行约简,然后对约简后的矩阵进行规范化。 
本发明所述方法与现有技术相比,具有以下效果: 
在借助图模型进行最重要句子抽取的同时利用图的划分方法进行文档中类别信息的有效区分,提高了多文档自动文摘的精度。 
附图说明
以下,结合附图来详细说明本发明的实施例,其中: 
图1是本发明方法的流程图。 
图2是本发明的句子位置特征概率分布实例图。 
图3是本发明方法的图划分过程示意图。 
具体实施方式
本发明的核心思想在于,在多文档文摘中引入句子关系图模型和主题-子主题的隐性逻辑结构的挖掘,把文摘问题转换为一个子主题查找和子图划分的迭代过程。图1绘制了根据本发明的一个较佳实施例的多文档文摘方法的流程图。 
下面结合附图1对本发明的具体实施方式进行详细说明。 
如附图1步骤101所示,读入所需的文档集,利用句子边界检测方法把文档用切分出来的句子集合表示,再进行中文分词/去停用词和西文还原/去停用词操作,用向量空间模型表示句子。 
如附图1步骤102所示,计算句子两两之间的距离,这里采用下面的cosine公式来度量任意两个句子si和sj之间的距离 
Figure DEST_PATH_GA20172113200710308516201D00031
dist ( s i ‾ , s j ‾ ) = 1.0 - cos ine ( s i ‾ , s j ‾ ) = 1.0 - s i ‾ · s j ‾ | | s i ‾ | | · | | s j ‾ | | - - - ( 1 )
其中 
Figure DEST_PATH_GA20172113200710308516201D00033
是两个句子对应的词向量表示,词向量中每个词的权重可以依据tf*isf公式计算得到,tf是句子中词的出现频次,isf=log(1.0+N/SF),SF是出现该词的句子总数,N是所有句子数; 
Figure DEST_PATH_GA20172113200710308516201D00034
是句子向量 
Figure DEST_PATH_GA20172113200710308516201D00035
的范数。根据句子距离可以得到句子关联矩阵。 
可以依据某一阈值ξ对得到的句子关联矩阵按以下规则进行约简: 
r ij = 0 dist ( s i → , s j → ) > ξ 1 dist ( s i → , s j → ) ≤ ξ - - - ( 2 )
其中,rij是关联矩阵中第i行第j列的值,本实施例中0<ξ<0.5。然后可以对约简后的矩阵按行进行规范化,以规范化后的rij′表示两结点(句子Si,Sj)之间的距离,构建出句子关系图。 
如图1步骤103所示,根据句子关联矩阵或句子关系图,采用特征值求解方法,例如幂解法(Power Method),求解句子的初始权重向量 
Figure S2007103085162D00052
l ( s → ) i = U i = 0 B T · l ( s → ) i - 1 i > = 1 其中: | l ( s → ) i + 1 - l ( s → ) i | ≤ ζ , ( i ≥ 1 ) - - - ( 3 )
其中, 
Figure S2007103085162D00055
代表第i次迭代后的 向量,U表示所有元素为1/N的向量,B为句子关联矩阵或句子关系图,ζ为 的收敛阈值,其取值范围为(0.6,1.0),收敛时的 
Figure S2007103085162D00058
即为句子初始权重向量。 
如附图1步骤104所示,初始权重向量没有考虑主题偏向性和摘要选取主观性因素。因此,本发明引入了句子权重调整模型。首先计算句子对主题的贡献度,即利用cosine公式分别计算每个句子与主题的相似度以及句子所在文档与主题的相似度,其中针对主题无关与主题相关的文摘任务的不同,主题可以定义为多档集的中心或是用户指定的某个特定主题或查询主题;为了挖掘人工文摘对长度和句式,特别是句子在文档中的位置方面的偏好性,本发明对句子在文档中的位置进行了如下表1的分类,然后采用概率模型拟合人工摘要选取的偏好性,在给定的训练语料上,对长度、位置和句式特征进行监督学习得到相应的概率分布。最后,为了综合考虑这两类因素对句子重要度度量的影响,本发明对图模型中受词特征影响的部分按线性模型进行加权,而对受主观偏好影响的部分在独立性假设的前提下用乘积形式进行加权,从而得到句子权重调整模型: 
A=[α1,…,αi,…,αn
其中: 
α i = [ l ( s → i ) + λ 1 cos ine ( s → i , T → ) + λ 2 cos ine ( D ( s i ) → , T → ) ] * Π j = 1 k p ( f i / s → i ) - - - ( 4 )
其中,n多文档集中句子的个数,i为对应句子的编号, 为用公式(3)求得的句子向量 
Figure S2007103085162D000511
的初始权重, 
Figure S2007103085162D000512
和 
Figure S2007103085162D000513
代表主题向量及当前句子所在的文档向量。 
Figure S2007103085162D000514
和 
Figure S2007103085162D000515
分别是当前句子及其所在文档对主题 的贡献度, 
Figure S2007103085162D00061
表示事先学习的各个偏好性特征对文摘影响的概率分布,其中k是偏好性特征的总数,fj代表偏好性特征,λ1,λ2表示加权系数,其取值范围为(0,10)。 
表1文章中句子的位置属性 
位置 描述
1 只有一句的首段首句
2 首段首句
3 首段尾句
4 首段其它句
5 只有一句的尾段首句
6 尾段首句
7 尾段尾句
8 尾段其它句
9 只有一句的其它段(多于2段)首句
10 其它段(多于2段)首句
11 其它段(多于2段)尾句
12 其它段(多于2段)其它句
13 只有一句的其它类型段落(不足2段)
14 其它类型段落(不足2段)首句
15 其它类型段落(不足2段)尾句
16 其它类型段落(不足2段)其它句
以某一西文新闻语料为例,文章中句子位置偏好性特征的概率分布如附图2所示。附图2中每个位置的值对应于该位置上出现文摘句的条件概率。 
如附图1步骤105所示,根据句子权重调整模型,在句子关联矩阵或句子关系图上选取当前权重最大的结点,把此结点所对应的句子作为候选文摘句,利用图划分方法从句子关系图中划分出该句子所代表子主题所在的子矩阵或子图,更新句子关联矩阵或句子关系图。具体过程如附图3所示,先利用句子权重调整模型计算调整的句子权重向量A;然后从A中选 取具有最大权重的句子si作为候选文摘句;再利用图划分的方法,从关联矩阵或关系图上划分出与si关系密切的结点,这些结点与si一起构成一个子主题;最后从关联矩阵或关系图上删除与当前子主题中所有结点的连边,即删除此结点在关联矩阵或关系图中所对应的行和列,完成子主题所在子图的划分和关系图的调整。其中图划分方法可以选择图的查找算法,例如BFS,或切分算法,例如Mincut。 
在此步骤中,也可以直接根据初始权重向量,在句子关联矩阵或句子关系图上选取权重最大的结点,把此结点所对应的句子作为候选文摘句,利用图划分方法从句子关联矩阵或句子关系图中划分出该句子所代表子主题所在的子矩阵或子图。具体过程与上述过程类似。 
重复步骤103、104、105,一旦文摘长度满足用户设定的条件,例如文摘长度要求,或是图中已无子图可划分,则算法终止,此时所有候选文摘句构成文摘,即在关系图结点规模不断缩减的迭代过程中,本发明完成文摘句提取和文摘生成的过程。 
为了验证本发明的有效性,采用文档理解会议(DocumentUnderstanding Conference)2005年的测试数据进行测试,使用目前通用的ROUGE工具对结果进行评测,并将ROUGE中两种最主要的指标ROUGE-2和ROUGE-SU4的评测结果与DUC 2005最好的三个系统NUS3、PolyU、IIITH-Sum和基准系统(Baseline)的评测结果进行了对比,结果如表2所示: 
表2:在DUC2005任务上系统评测的比较结果 
系统 ROUGE-2 ROUGE-SU4
本发明NUS3PolyUIIITH-SumBaseline 0.073110.07250.07170.069630.04160 0.132310.13160.12970.125250.08946
其中ROUGE-2和ROUGE-SU4的得分越高,文摘效果越好,即与人工标准文摘更接近。表2的评测结果表明,本发明的方法表现优异,在两个主要评价指标上都优于国际上最好的评测系统以及基准系统。 
提供所述公开的实施例子的上述描述,使得本领域的技术人员能够制造或者使用本发明。对于本领域的技术人员来说,这些实施例的各种修改是显而易见的,并且这里定义的总体原理也可以在不脱离本发明的范围的基础上应用于其他实施例。因此,本发明并不限于这里示出的实施例,而是与符合这里公开的原理和新颖特征的最广范围相一致。 

Claims (8)

1.一种多文档自动文摘方法,包括下列步骤:
1)把文档集进行句子边界切分,用向量空间模型表示句子;
2)计算句子向量间的距离构成句子关联矩阵;
3)根据所述句子关联矩阵计算初始句子权重向量,根据所述初始句子权重向量,选取权重最大的结点,把此结点所对应的句子作为候选文摘句,从所述句子关联矩阵中划分出所述对应的句子所代表子主题所在的子矩阵,更新句子关联矩阵;
4)重复步骤3),完成文摘。
2.如权利要求1所述的方法,其特征在于所述步骤3)中根据所述初始句子权重向量,选取权重最大的结点包含步骤:
根据所述初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型,根据所述句子权重调整模型,选取当前权重最大的结点。
3.如权利要求2所述的方法,其特征在于所述根据所述初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型包含步骤:
a)首先计算所述句子对主题的贡献度;
b)对所述句子在所述文档中的位置进行分类,学习训练语料,得到所述句子位置偏好性概率的分布;
c)对所述初始句子权重向量、所述句子对主题的贡献度按线性模型进行加权,对句子位置偏好性概率按乘积进行加权,得到所述句子权重调整模型。
4.如权利要求3所述的方法,其特征在于所述步骤a)计算所述句子对主题的贡献度包含计算所述句子与主题的相似度和所述句子所在文档与主题的相似度。
5.如上面任意一项权利要求所述的方法,其特征在于,所述步骤4)包含:
根据所述初始句子权重向量计算调整的句子权重向量;
然后从所述调整的句子权重向量中选取具有最大权重的结点,把此结点所对应的句子作为候选文摘句;
利用图划分的方法,从所述句子关联矩阵中划分出与所述具有最大权重的结点关系密切的结点,共同构成一个子主题;
从所述句子关联矩阵中删除所述子主题中所有结点的连边。
6.一种多文档自动文摘方法,包括下列步骤:
1)把文档集进行句子边界切分,用向量空间模型表示句子;
2)计算句子向量间的距离构成句子关联矩阵,对所述句子关联矩阵进行规范化,形成句子关系图;
3)根据所述句子关系图计算初始句子权重向量,根据所述初始句子权重向量,选取权重最大的结点,把此结点所对应的句子作为候选文摘句,从所述句子关系图中划分出所述对应的句子所代表子主题所在的子图,更新句子关系图;
4)重复步骤3),完成文摘。
7.如权利要求6所述的方法,其特征在于所述步骤3)中根据所述初始句子权重向量,选取权重最大的结点包含步骤:
根据所述初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型,根据所述句子权重调整模型,选取当前权重最大的结点。
8.如权利要求6或7所述的方法,其特征在于所述步骤2)中对所述句子关联矩阵进行规范化包含步骤:对所述句子关联矩阵根据阈值进行约简,然后对约简后的矩阵进行规范化。
CN2007103085162A 2007-12-29 2007-12-29 一种多文档自动文摘方法 Active CN101231634B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2007103085162A CN101231634B (zh) 2007-12-29 2007-12-29 一种多文档自动文摘方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2007103085162A CN101231634B (zh) 2007-12-29 2007-12-29 一种多文档自动文摘方法

Publications (2)

Publication Number Publication Date
CN101231634A CN101231634A (zh) 2008-07-30
CN101231634B true CN101231634B (zh) 2011-05-04

Family

ID=39898119

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2007103085162A Active CN101231634B (zh) 2007-12-29 2007-12-29 一种多文档自动文摘方法

Country Status (1)

Country Link
CN (1) CN101231634B (zh)

Families Citing this family (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011150450A (ja) * 2010-01-20 2011-08-04 Sony Corp 情報処理装置、情報処理方法、およびプログラム
CN102298583B (zh) * 2010-06-22 2016-04-27 深圳市世纪光速信息技术有限公司 一种电子公告板网页质量评价方法和系统
CN102043851A (zh) * 2010-12-22 2011-05-04 四川大学 一种基于频繁项集的多文档自动摘要方法
JP5869948B2 (ja) * 2012-04-19 2016-02-24 株式会社日立製作所 パッセージ分割方法、装置、及びプログラム
CN102929906B (zh) * 2012-08-10 2015-07-22 北京邮电大学 基于内容特征和主题特征的文本分组聚类方法
CN103207899B (zh) * 2013-03-19 2016-12-07 新浪网技术(中国)有限公司 文本文件推荐方法及系统
CN105335375B (zh) * 2014-06-20 2019-01-15 华为技术有限公司 主题挖掘方法和装置
CN104298709A (zh) * 2014-09-05 2015-01-21 上海中和软件有限公司 基于句间关联图的文本主题挖掘方法
CN104572849A (zh) * 2014-12-17 2015-04-29 西安美林数据技术股份有限公司 基于文本语义挖掘的标准化自动建档方法
CN104915335B (zh) * 2015-06-12 2018-03-16 百度在线网络技术(北京)有限公司 为主题文档集生成摘要的方法和装置
CN106598997B (zh) * 2015-10-19 2021-05-18 北京国双科技有限公司 一种计算文本主题归属度的方法及装置
CN105243152B (zh) * 2015-10-26 2018-08-24 同济大学 一种基于图模型的自动文摘方法
CN105426356B (zh) * 2015-10-29 2019-05-21 杭州九言科技股份有限公司 一种目标信息识别方法和装置
CN105824915A (zh) * 2016-03-16 2016-08-03 上海珍岛信息技术有限公司 一种网购产品评论文摘生成方法及系统
CN106294863A (zh) * 2016-08-23 2017-01-04 电子科技大学 一种针对海量文本快速理解的文摘方法
CN106407178B (zh) * 2016-08-25 2019-08-13 中国科学院计算技术研究所 一种会话摘要生成方法、装置、服务器设备以及终端设备
CN106649214A (zh) * 2016-10-21 2017-05-10 天津海量信息技术股份有限公司 互联网信息内容相似定义方法
CN107169086B (zh) * 2017-05-12 2020-10-27 北京化工大学 一种文本分类方法
WO2018230551A1 (ja) * 2017-06-16 2018-12-20 新日鉄住金ソリューションズ株式会社 情報処理装置、情報処理方法及びプログラム
CN107608972B (zh) * 2017-10-24 2020-07-24 河海大学 一种多文本快速摘要方法
CN108090049B (zh) * 2018-01-17 2021-02-05 山东工商学院 基于句子向量的多文档摘要自动提取方法及系统
CN109033050B (zh) * 2018-06-29 2019-12-17 北京百度网讯科技有限公司 文章生成方法、设备及存储介质
CN109815328B (zh) * 2018-12-28 2021-05-25 东软集团股份有限公司 一种摘要生成方法及装置
CN110287489B (zh) * 2019-06-24 2023-07-28 北京大米科技有限公司 文本生成方法、装置、存储介质和电子设备
CN110674283A (zh) * 2019-08-15 2020-01-10 中国平安财产保险股份有限公司 文本摘要的智能抽取方法、装置、计算机设备及存储介质
CN110941962B (zh) * 2019-11-26 2021-09-28 中国科学院自动化研究所 基于图网络的答案句选择方法及装置
CN112035658B (zh) * 2020-08-05 2024-04-30 海纳致远数字科技(上海)有限公司 基于深度学习的企业舆情监测方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1341899A (zh) * 2000-09-07 2002-03-27 国际商业机器公司 为文字文档自动生成摘要的方法
US6789230B2 (en) * 1998-10-09 2004-09-07 Microsoft Corporation Creating a summary having sentences with the highest weight, and lowest length
EP1626356A2 (en) * 2004-08-13 2006-02-15 Microsoft Corporation Method and system for summarizing a document
CN1828608A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种基于句子关系图的多文档摘要方法
CN101008941A (zh) * 2007-01-10 2007-08-01 复旦大学 多文档自动摘要的逐次主轴筛选法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6789230B2 (en) * 1998-10-09 2004-09-07 Microsoft Corporation Creating a summary having sentences with the highest weight, and lowest length
CN1341899A (zh) * 2000-09-07 2002-03-27 国际商业机器公司 为文字文档自动生成摘要的方法
EP1626356A2 (en) * 2004-08-13 2006-02-15 Microsoft Corporation Method and system for summarizing a document
CN1828608A (zh) * 2006-04-13 2006-09-06 北大方正集团有限公司 一种基于句子关系图的多文档摘要方法
CN101008941A (zh) * 2007-01-10 2007-08-01 复旦大学 多文档自动摘要的逐次主轴筛选法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Chin-Yew Lin,Eduard Hovy.From Single to Multi-document Summarization:APrototype System and its Evaluation.Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics.2002,457-464. *
徐东明,徐志明,王晓龙.基于信息融合的多文档自动文摘技术.计算机学报30 11.2007,30(11),2049-2054.
徐东明,徐志明,王晓龙.基于信息融合的多文档自动文摘技术.计算机学报30 11.2007,30(11),2049-2054. *

Also Published As

Publication number Publication date
CN101231634A (zh) 2008-07-30

Similar Documents

Publication Publication Date Title
CN101231634B (zh) 一种多文档自动文摘方法
CN108197117B (zh) 一种基于文档主题结构与语义的中文文本关键词提取方法
CN104765769B (zh) 一种基于词矢量的短文本查询扩展及检索方法
CN109543178B (zh) 一种司法文本标签体系构建方法及系统
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
Wen et al. Research on keyword extraction based on word2vec weighted textrank
CN107861939A (zh) 一种融合词向量和主题模型的领域实体消歧方法
Froud et al. Arabic text summarization based on latent semantic analysis to enhance arabic documents clustering
CN110020189A (zh) 一种基于中文相似性计算的文章推荐方法
CN107992542A (zh) 一种基于主题模型的相似文章推荐方法
CN106709754A (zh) 一种用基于文本挖掘的电力用户分群方法
CN112131872A (zh) 一种文献作者重名消歧方法和构建系统
CN101127042A (zh) 一种基于语言模型的情感分类方法
CN100511214C (zh) 一种对文档集进行批量单文档摘要的方法及系统
CN102622338A (zh) 一种短文本间语义距离的计算机辅助计算方法
CN103049470A (zh) 基于情感相关度的观点检索方法
CN109376352A (zh) 一种基于word2vec和语义相似度的专利文本建模方法
CN104484380A (zh) 个性化搜索方法及装置
CN104899188A (zh) 一种基于问题主题和焦点的问题相似度计算方法
CN101702167A (zh) 一种基于互联网的模板抽取属性和评论词的方法
CN105512333A (zh) 基于情感倾向的产品评论主题搜索方法
CN106599072B (zh) 一种文本聚类方法及装置
Sadr et al. Unified topic-based semantic models: A study in computing the semantic relatedness of geographic terms
Hillard et al. Learning weighted entity lists from web click logs for spoken language understanding
CN111488429A (zh) 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
EE01 Entry into force of recordation of patent licensing contract

Application publication date: 20080730

Assignee: Branch DNT data Polytron Technologies Inc

Assignor: Institute of Computing Technology, Chinese Academy of Sciences

Contract record no.: 2018110000033

Denomination of invention: Autoabstract method for multi-document

Granted publication date: 20110504

License type: Common License

Record date: 20180807

EE01 Entry into force of recordation of patent licensing contract