CN101231634B - 一种多文档自动文摘方法 - Google Patents
一种多文档自动文摘方法 Download PDFInfo
- Publication number
- CN101231634B CN101231634B CN2007103085162A CN200710308516A CN101231634B CN 101231634 B CN101231634 B CN 101231634B CN 2007103085162 A CN2007103085162 A CN 2007103085162A CN 200710308516 A CN200710308516 A CN 200710308516A CN 101231634 B CN101231634 B CN 101231634B
- Authority
- CN
- China
- Prior art keywords
- sentence
- weight
- calculating
- node
- topic
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 239000013598 vector Substances 0.000 claims abstract description 49
- 239000011159 matrix material Substances 0.000 claims abstract description 39
- 230000011218 segmentation Effects 0.000 claims description 5
- 238000012549 training Methods 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 3
- 238000000605 extraction Methods 0.000 abstract description 3
- 238000005192 partition Methods 0.000 abstract 2
- 230000009193 crawling Effects 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 description 6
- 238000010801 machine learning Methods 0.000 description 5
- 238000000638 solvent extraction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 3
- 238000011161 development Methods 0.000 description 2
- 230000018109 developmental process Effects 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- JEIPFZHSYJVQDO-UHFFFAOYSA-N iron(III) oxide Inorganic materials O=[Fe]O[Fe]=O JEIPFZHSYJVQDO-UHFFFAOYSA-N 0.000 description 2
- 238000012360 testing method Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000002354 daily effect Effects 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000012804 iterative process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000010845 search algorithm Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种利用图划分方法来自动提取多文档文摘的方法,包括以下步骤:进行句子边界切分,把文档用切分出来的句子表示;将句子表示成向量,计算句子两两间的相似度构成句子关联矩阵,并按指定的阈值对关联矩阵进行约简,同时进行规范化处理;在多文档文摘中引入主题的隐性逻辑结构的挖掘,将文档集按主题划分成不同的隐性子主题,从而把文摘任务转化为对子主题的选取和抽取过程;利用图划分的方法,既从全局特性上保证句子所在子主题的重要度,又从局部特性上保证不同子主题之间内容的低冗余性,从而有效提高了文摘质量。
Description
技术领域
本发明涉及信息处理领域,进一步地,涉及到一种多文档自动文摘方法。
背景技术
随着时代的进步和经济的发展,人们日常生活中对信息的需求量越来越大,尤其是随着互联网的日益普及,每天都有海量的信息在互联网上发布和传播。以中国互联网的发展为例,根据北大天网提供的搜索结果,2005年底中国的网页总数约为10.8亿个,另据CNNIC的统计,截至2007年3月底,中国WAP网页数量约为2.6亿,网页字节数约为800GB。网页规模急剧增长的互联网,在为人们提供更加丰富的信息服务的同时,也给人们带来了如何高速有效获取有用信息的困惑。以搜索引擎为代表的信息检索技术可以根据用户的需求从海量信息中找出一批相关网页,提高了信息获取的效率。但这种方法很大程度上依赖于对于用户查询的准确理解以及查询结果的排序策略,同时在返回的查询结果的基础上还需要用户自己逐个网页查看以获取真正想要的信息,在用户查询意图不明确时难以做到准确高效,另外受搜索引擎采集和存储能力的影响,很难保证无信息的遗漏。在信息极大丰富的情况下,人们迫切需要取代获取相关信息、直接获取有用信息甚至最有价值信息的方法,以进一步减轻信息获取的工作量。多文档自动文摘技术可以在未给定先验知识的条件下对大量未知信息进行大意概括以帮助人们快速了解信息内容,可以在用户查询意图不明确时对杂乱的检索结果进行自动摘要以辅助人们加快查找速度,从而大大减轻了信息获取的代价,进一步提高了信息获取效率。多文档自动文摘方法在信息融合、信息检索、在线问答、移动内容服务和互联网内容安全等许多领域都具有重要价值和良好的应用前景。人工生成摘要信息的方法在针对单篇文档时比较有效,但由于代价昂贵,在面对大量文档时显得无能为力。通过机器学习和人工智能的方法,从多篇文档中自动进行重要信息的提取并形成多文档文摘,成为重要信息高效获取的最为现实而有效的技术手段。
目前的自动文摘技术主要是基于句子级的内容分析与抽取,即从原始的文档(或文档集)中抽取一些关键的句子组成文摘,主要的文摘算法可以概括为以下三类:
基于机器学习的文摘方法。该方法在向量空间模型的基础上利用分类、聚类等机器学习方法将句子划分为不同的类别,再从每个类别中抽取出最重要的句子来构成文摘。这种方法不受应用领域的限制,但受模型和机器学习方法的限制,往往算法精度有限。
搜索式的文摘方法。该方法借助文本搜索领域的算法,针对文摘任务的特点,对所有句子构造一种特殊的查询结果排序策略,再根据文摘长度要求选取排在前面的若干句子构成文摘。这种方法不用单独去构造句子所在的类别信息,但受查询结果排序策略的影响很大。
基于图排列的文摘方法。该方法先利用聚类算法把文档集划分为不同类别,再借助图模型对不同类别的文档集进行建模,通过对同一类别中句子间关联关系分析,计算出此类别中权重最大的句子作为最重要的句子,这些重要句子组成文摘。这种方法与基于机器学习的文摘方法相比能够更好的进行重要句的选取,但文摘性能往往取决于聚类算法的性能。
综上所述,现有技术中自动提取文摘的能力,受各种不同因素限制,精度难以保证。
发明内容
本发明的目的是提供一种多文档自动文摘的方法,即能够有效地进行句子类别信息的区分,又能从中抽取最重要句子,从而得到一种精度高、推广性好的多文档自动文摘方法。
为实现上述目的,根据本发明的一个方面,提供了一种多文档自动文摘方法,包括以下步骤:
1)把文档集进行句子边界切分,用向量空间模型表示句子;
2)计算句子向量间的距离构成句子关联矩阵;
3)根据句子关联矩阵计算初始句子权重向量,根据初始句子权重向量,选取权重最大的结点,把此结点所对应的句子作为候选文摘句,从句子关联矩阵中划分出对应的句子所代表子主题所在的子矩阵,更新句子关联矩阵;
4)重复步骤3),完成文摘。
根据本发明的另一方面,上述步骤3)中根据所述初始句子权重向量, 选取权重最大的结点包含步骤:
根据初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型,根据句子权重调整模型,选取当前权重最大的结点。
根据本发明的又一方面,上述根据初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型包含步骤:
a)首先计算句子对主题的贡献度;
b)对句子在文档中的位置进行分类,学习训练语料,得到句子位置偏好性概率的分布;
c)对初始句子权重向量、句子对主题的贡献度按线性模型进行加权,对句子位置偏好性概率按乘积进行加权,得到句子权重调整模型。
根据本发明的又一方面,上述步骤a)计算所述句子对主题的贡献度包含计算句子与主题的相似度和句子所在文档与主题的相似度。
根据本发明的又一方面,上述步骤4)包含:
根据初始句子权重向量计算调整的句子权重向量;
然后从调整的句子权重向量中选取具有最大权重的结点,把此结点所对应的句子作为候选文摘句;
利用图划分的方法,从句子关联矩阵中划分出与具有最大权重的结点关系密切的结点,共同构成一个子主题;
从句子关联矩阵中删除子主题中所有结点的连边。
根据本发明的另一方面,还提供了另一种多文档自动文摘方法,包括下列步骤:
1)把文档集进行句子边界切分,用向量空间模型表示句子;
2)计算句子向量间的距离构成句子关联矩阵,对所述句子关联矩阵进行规范化,形成句子关系图;
3)根据所述句子关系图计算初始句子权重向量,根据所述初始句子权重向量,选取权重最大的结点,把此结点所对应的句子作为候选文摘句,从所述句子关系图中划分出所述对应的句子所代表子主题所在的子图,更新句子关系图;
4)重复步骤3),完成文摘。
在该方法中,所述步骤3)中根据所述初始句子权重向量,选取权重最大的结点包含步骤:
根据所述初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型,根据所述句子权重调整模型,选取当前权重最大的结点。
在该方法中,所述步骤2)中对所述句子关联矩阵进行规范化包含步骤:对所述句子关联矩阵根据阈值进行约简,然后对约简后的矩阵进行规范化。
本发明所述方法与现有技术相比,具有以下效果:
在借助图模型进行最重要句子抽取的同时利用图的划分方法进行文档中类别信息的有效区分,提高了多文档自动文摘的精度。
附图说明
以下,结合附图来详细说明本发明的实施例,其中:
图1是本发明方法的流程图。
图2是本发明的句子位置特征概率分布实例图。
图3是本发明方法的图划分过程示意图。
具体实施方式
本发明的核心思想在于,在多文档文摘中引入句子关系图模型和主题-子主题的隐性逻辑结构的挖掘,把文摘问题转换为一个子主题查找和子图划分的迭代过程。图1绘制了根据本发明的一个较佳实施例的多文档文摘方法的流程图。
下面结合附图1对本发明的具体实施方式进行详细说明。
如附图1步骤101所示,读入所需的文档集,利用句子边界检测方法把文档用切分出来的句子集合表示,再进行中文分词/去停用词和西文还原/去停用词操作,用向量空间模型表示句子。
其中 是两个句子对应的词向量表示,词向量中每个词的权重可以依据tf*isf公式计算得到,tf是句子中词的出现频次,isf=log(1.0+N/SF),SF是出现该词的句子总数,N是所有句子数; 是句子向量 的范数。根据句子距离可以得到句子关联矩阵。
可以依据某一阈值ξ对得到的句子关联矩阵按以下规则进行约简:
其中,rij是关联矩阵中第i行第j列的值,本实施例中0<ξ<0.5。然后可以对约简后的矩阵按行进行规范化,以规范化后的rij′表示两结点(句子Si,Sj)之间的距离,构建出句子关系图。
如附图1步骤104所示,初始权重向量没有考虑主题偏向性和摘要选取主观性因素。因此,本发明引入了句子权重调整模型。首先计算句子对主题的贡献度,即利用cosine公式分别计算每个句子与主题的相似度以及句子所在文档与主题的相似度,其中针对主题无关与主题相关的文摘任务的不同,主题可以定义为多档集的中心或是用户指定的某个特定主题或查询主题;为了挖掘人工文摘对长度和句式,特别是句子在文档中的位置方面的偏好性,本发明对句子在文档中的位置进行了如下表1的分类,然后采用概率模型拟合人工摘要选取的偏好性,在给定的训练语料上,对长度、位置和句式特征进行监督学习得到相应的概率分布。最后,为了综合考虑这两类因素对句子重要度度量的影响,本发明对图模型中受词特征影响的部分按线性模型进行加权,而对受主观偏好影响的部分在独立性假设的前提下用乘积形式进行加权,从而得到句子权重调整模型:
A=[α1,…,αi,…,αn]
其中:
其中,n多文档集中句子的个数,i为对应句子的编号, 为用公式(3)求得的句子向量 的初始权重, 和 代表主题向量及当前句子所在的文档向量。 和 分别是当前句子及其所在文档对主题 的贡献度, 表示事先学习的各个偏好性特征对文摘影响的概率分布,其中k是偏好性特征的总数,fj代表偏好性特征,λ1,λ2表示加权系数,其取值范围为(0,10)。
表1文章中句子的位置属性
位置 | 描述 |
1 | 只有一句的首段首句 |
2 | 首段首句 |
3 | 首段尾句 |
4 | 首段其它句 |
5 | 只有一句的尾段首句 |
6 | 尾段首句 |
7 | 尾段尾句 |
8 | 尾段其它句 |
9 | 只有一句的其它段(多于2段)首句 |
10 | 其它段(多于2段)首句 |
11 | 其它段(多于2段)尾句 |
12 | 其它段(多于2段)其它句 |
13 | 只有一句的其它类型段落(不足2段) |
14 | 其它类型段落(不足2段)首句 |
15 | 其它类型段落(不足2段)尾句 |
16 | 其它类型段落(不足2段)其它句 |
以某一西文新闻语料为例,文章中句子位置偏好性特征的概率分布如附图2所示。附图2中每个位置的值对应于该位置上出现文摘句的条件概率。
如附图1步骤105所示,根据句子权重调整模型,在句子关联矩阵或句子关系图上选取当前权重最大的结点,把此结点所对应的句子作为候选文摘句,利用图划分方法从句子关系图中划分出该句子所代表子主题所在的子矩阵或子图,更新句子关联矩阵或句子关系图。具体过程如附图3所示,先利用句子权重调整模型计算调整的句子权重向量A;然后从A中选 取具有最大权重的句子si作为候选文摘句;再利用图划分的方法,从关联矩阵或关系图上划分出与si关系密切的结点,这些结点与si一起构成一个子主题;最后从关联矩阵或关系图上删除与当前子主题中所有结点的连边,即删除此结点在关联矩阵或关系图中所对应的行和列,完成子主题所在子图的划分和关系图的调整。其中图划分方法可以选择图的查找算法,例如BFS,或切分算法,例如Mincut。
在此步骤中,也可以直接根据初始权重向量,在句子关联矩阵或句子关系图上选取权重最大的结点,把此结点所对应的句子作为候选文摘句,利用图划分方法从句子关联矩阵或句子关系图中划分出该句子所代表子主题所在的子矩阵或子图。具体过程与上述过程类似。
重复步骤103、104、105,一旦文摘长度满足用户设定的条件,例如文摘长度要求,或是图中已无子图可划分,则算法终止,此时所有候选文摘句构成文摘,即在关系图结点规模不断缩减的迭代过程中,本发明完成文摘句提取和文摘生成的过程。
为了验证本发明的有效性,采用文档理解会议(DocumentUnderstanding Conference)2005年的测试数据进行测试,使用目前通用的ROUGE工具对结果进行评测,并将ROUGE中两种最主要的指标ROUGE-2和ROUGE-SU4的评测结果与DUC 2005最好的三个系统NUS3、PolyU、IIITH-Sum和基准系统(Baseline)的评测结果进行了对比,结果如表2所示:
表2:在DUC2005任务上系统评测的比较结果
系统 | ROUGE-2 | ROUGE-SU4 |
本发明NUS3PolyUIIITH-SumBaseline | 0.073110.07250.07170.069630.04160 | 0.132310.13160.12970.125250.08946 |
其中ROUGE-2和ROUGE-SU4的得分越高,文摘效果越好,即与人工标准文摘更接近。表2的评测结果表明,本发明的方法表现优异,在两个主要评价指标上都优于国际上最好的评测系统以及基准系统。
提供所述公开的实施例子的上述描述,使得本领域的技术人员能够制造或者使用本发明。对于本领域的技术人员来说,这些实施例的各种修改是显而易见的,并且这里定义的总体原理也可以在不脱离本发明的范围的基础上应用于其他实施例。因此,本发明并不限于这里示出的实施例,而是与符合这里公开的原理和新颖特征的最广范围相一致。
Claims (8)
1.一种多文档自动文摘方法,包括下列步骤:
1)把文档集进行句子边界切分,用向量空间模型表示句子;
2)计算句子向量间的距离构成句子关联矩阵;
3)根据所述句子关联矩阵计算初始句子权重向量,根据所述初始句子权重向量,选取权重最大的结点,把此结点所对应的句子作为候选文摘句,从所述句子关联矩阵中划分出所述对应的句子所代表子主题所在的子矩阵,更新句子关联矩阵;
4)重复步骤3),完成文摘。
2.如权利要求1所述的方法,其特征在于所述步骤3)中根据所述初始句子权重向量,选取权重最大的结点包含步骤:
根据所述初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型,根据所述句子权重调整模型,选取当前权重最大的结点。
3.如权利要求2所述的方法,其特征在于所述根据所述初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型包含步骤:
a)首先计算所述句子对主题的贡献度;
b)对所述句子在所述文档中的位置进行分类,学习训练语料,得到所述句子位置偏好性概率的分布;
c)对所述初始句子权重向量、所述句子对主题的贡献度按线性模型进行加权,对句子位置偏好性概率按乘积进行加权,得到所述句子权重调整模型。
4.如权利要求3所述的方法,其特征在于所述步骤a)计算所述句子对主题的贡献度包含计算所述句子与主题的相似度和所述句子所在文档与主题的相似度。
5.如上面任意一项权利要求所述的方法,其特征在于,所述步骤4)包含:
根据所述初始句子权重向量计算调整的句子权重向量;
然后从所述调整的句子权重向量中选取具有最大权重的结点,把此结点所对应的句子作为候选文摘句;
利用图划分的方法,从所述句子关联矩阵中划分出与所述具有最大权重的结点关系密切的结点,共同构成一个子主题;
从所述句子关联矩阵中删除所述子主题中所有结点的连边。
6.一种多文档自动文摘方法,包括下列步骤:
1)把文档集进行句子边界切分,用向量空间模型表示句子;
2)计算句子向量间的距离构成句子关联矩阵,对所述句子关联矩阵进行规范化,形成句子关系图;
3)根据所述句子关系图计算初始句子权重向量,根据所述初始句子权重向量,选取权重最大的结点,把此结点所对应的句子作为候选文摘句,从所述句子关系图中划分出所述对应的句子所代表子主题所在的子图,更新句子关系图;
4)重复步骤3),完成文摘。
7.如权利要求6所述的方法,其特征在于所述步骤3)中根据所述初始句子权重向量,选取权重最大的结点包含步骤:
根据所述初始句子权重向量、句子对主题的贡献度和句子位置偏好性概率计算句子权重调整模型,根据所述句子权重调整模型,选取当前权重最大的结点。
8.如权利要求6或7所述的方法,其特征在于所述步骤2)中对所述句子关联矩阵进行规范化包含步骤:对所述句子关联矩阵根据阈值进行约简,然后对约简后的矩阵进行规范化。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007103085162A CN101231634B (zh) | 2007-12-29 | 2007-12-29 | 一种多文档自动文摘方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2007103085162A CN101231634B (zh) | 2007-12-29 | 2007-12-29 | 一种多文档自动文摘方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101231634A CN101231634A (zh) | 2008-07-30 |
CN101231634B true CN101231634B (zh) | 2011-05-04 |
Family
ID=39898119
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2007103085162A Active CN101231634B (zh) | 2007-12-29 | 2007-12-29 | 一种多文档自动文摘方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN101231634B (zh) |
Families Citing this family (28)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2011150450A (ja) * | 2010-01-20 | 2011-08-04 | Sony Corp | 情報処理装置、情報処理方法、およびプログラム |
CN102298583B (zh) * | 2010-06-22 | 2016-04-27 | 深圳市世纪光速信息技术有限公司 | 一种电子公告板网页质量评价方法和系统 |
CN102043851A (zh) * | 2010-12-22 | 2011-05-04 | 四川大学 | 一种基于频繁项集的多文档自动摘要方法 |
JP5869948B2 (ja) * | 2012-04-19 | 2016-02-24 | 株式会社日立製作所 | パッセージ分割方法、装置、及びプログラム |
CN102929906B (zh) * | 2012-08-10 | 2015-07-22 | 北京邮电大学 | 基于内容特征和主题特征的文本分组聚类方法 |
CN103207899B (zh) * | 2013-03-19 | 2016-12-07 | 新浪网技术(中国)有限公司 | 文本文件推荐方法及系统 |
CN105335375B (zh) * | 2014-06-20 | 2019-01-15 | 华为技术有限公司 | 主题挖掘方法和装置 |
CN104298709A (zh) * | 2014-09-05 | 2015-01-21 | 上海中和软件有限公司 | 基于句间关联图的文本主题挖掘方法 |
CN104572849A (zh) * | 2014-12-17 | 2015-04-29 | 西安美林数据技术股份有限公司 | 基于文本语义挖掘的标准化自动建档方法 |
CN104915335B (zh) * | 2015-06-12 | 2018-03-16 | 百度在线网络技术(北京)有限公司 | 为主题文档集生成摘要的方法和装置 |
CN106598997B (zh) * | 2015-10-19 | 2021-05-18 | 北京国双科技有限公司 | 一种计算文本主题归属度的方法及装置 |
CN105243152B (zh) * | 2015-10-26 | 2018-08-24 | 同济大学 | 一种基于图模型的自动文摘方法 |
CN105426356B (zh) * | 2015-10-29 | 2019-05-21 | 杭州九言科技股份有限公司 | 一种目标信息识别方法和装置 |
CN105824915A (zh) * | 2016-03-16 | 2016-08-03 | 上海珍岛信息技术有限公司 | 一种网购产品评论文摘生成方法及系统 |
CN106294863A (zh) * | 2016-08-23 | 2017-01-04 | 电子科技大学 | 一种针对海量文本快速理解的文摘方法 |
CN106407178B (zh) * | 2016-08-25 | 2019-08-13 | 中国科学院计算技术研究所 | 一种会话摘要生成方法、装置、服务器设备以及终端设备 |
CN106649214A (zh) * | 2016-10-21 | 2017-05-10 | 天津海量信息技术股份有限公司 | 互联网信息内容相似定义方法 |
CN107169086B (zh) * | 2017-05-12 | 2020-10-27 | 北京化工大学 | 一种文本分类方法 |
CN110612524B (zh) * | 2017-06-16 | 2023-11-10 | 日铁系统集成株式会社 | 信息处理装置、信息处理方法以及记录介质 |
CN107608972B (zh) * | 2017-10-24 | 2020-07-24 | 河海大学 | 一种多文本快速摘要方法 |
CN108090049B (zh) * | 2018-01-17 | 2021-02-05 | 山东工商学院 | 基于句子向量的多文档摘要自动提取方法及系统 |
CN109033050B (zh) * | 2018-06-29 | 2019-12-17 | 北京百度网讯科技有限公司 | 文章生成方法、设备及存储介质 |
CN109815328B (zh) * | 2018-12-28 | 2021-05-25 | 东软集团股份有限公司 | 一种摘要生成方法及装置 |
CN111914083B (zh) * | 2019-05-10 | 2024-07-09 | 腾讯科技(深圳)有限公司 | 语句处理方法、装置及存储介质 |
CN110287489B (zh) * | 2019-06-24 | 2023-07-28 | 北京大米科技有限公司 | 文本生成方法、装置、存储介质和电子设备 |
CN110674283B (zh) * | 2019-08-15 | 2024-09-13 | 中国平安财产保险股份有限公司 | 文本摘要的智能抽取方法、装置、计算机设备及存储介质 |
CN110941962B (zh) * | 2019-11-26 | 2021-09-28 | 中国科学院自动化研究所 | 基于图网络的答案句选择方法及装置 |
CN112035658B (zh) * | 2020-08-05 | 2024-04-30 | 海纳致远数字科技(上海)有限公司 | 基于深度学习的企业舆情监测方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1341899A (zh) * | 2000-09-07 | 2002-03-27 | 国际商业机器公司 | 为文字文档自动生成摘要的方法 |
US6789230B2 (en) * | 1998-10-09 | 2004-09-07 | Microsoft Corporation | Creating a summary having sentences with the highest weight, and lowest length |
EP1626356A2 (en) * | 2004-08-13 | 2006-02-15 | Microsoft Corporation | Method and system for summarizing a document |
CN1828608A (zh) * | 2006-04-13 | 2006-09-06 | 北大方正集团有限公司 | 一种基于句子关系图的多文档摘要方法 |
CN101008941A (zh) * | 2007-01-10 | 2007-08-01 | 复旦大学 | 多文档自动摘要的逐次主轴筛选法 |
-
2007
- 2007-12-29 CN CN2007103085162A patent/CN101231634B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6789230B2 (en) * | 1998-10-09 | 2004-09-07 | Microsoft Corporation | Creating a summary having sentences with the highest weight, and lowest length |
CN1341899A (zh) * | 2000-09-07 | 2002-03-27 | 国际商业机器公司 | 为文字文档自动生成摘要的方法 |
EP1626356A2 (en) * | 2004-08-13 | 2006-02-15 | Microsoft Corporation | Method and system for summarizing a document |
CN1828608A (zh) * | 2006-04-13 | 2006-09-06 | 北大方正集团有限公司 | 一种基于句子关系图的多文档摘要方法 |
CN101008941A (zh) * | 2007-01-10 | 2007-08-01 | 复旦大学 | 多文档自动摘要的逐次主轴筛选法 |
Non-Patent Citations (3)
Title |
---|
Chin-Yew Lin,Eduard Hovy.From Single to Multi-document Summarization:APrototype System and its Evaluation.Proceedings of the 40th Anniversary Meeting of the Association for Computational Linguistics.2002,457-464. * |
徐东明,徐志明,王晓龙.基于信息融合的多文档自动文摘技术.计算机学报30 11.2007,30(11),2049-2054. |
徐东明,徐志明,王晓龙.基于信息融合的多文档自动文摘技术.计算机学报30 11.2007,30(11),2049-2054. * |
Also Published As
Publication number | Publication date |
---|---|
CN101231634A (zh) | 2008-07-30 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101231634B (zh) | 一种多文档自动文摘方法 | |
CN108197117B (zh) | 一种基于文档主题结构与语义的中文文本关键词提取方法 | |
CN108763213A (zh) | 主题特征文本关键词提取方法 | |
CN110825877A (zh) | 一种基于文本聚类的语义相似度分析方法 | |
CN104199857B (zh) | 一种基于多标签分类的税务文档层次分类方法 | |
CN107180045B (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN103970729B (zh) | 一种基于语义类的多主题提取方法 | |
CN100353361C (zh) | 一种新的面向文本分类的特征向量权重的方法及装置 | |
CN109960756B (zh) | 新闻事件信息归纳方法 | |
CN106997382A (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
CN109271477A (zh) | 一种借助互联网构建分类语料库的方法及系统 | |
CN109948143A (zh) | 社区问答系统的答案抽取方法 | |
CN107895000B (zh) | 一种基于卷积神经网络的跨领域语义信息检索方法 | |
CN103970730A (zh) | 一种从单个中文文本中提取多主题词的方法 | |
CN111368088A (zh) | 一种基于深度学习的文本情感分类方法 | |
CN110705247B (zh) | 基于χ2-C的文本相似度计算方法 | |
CN112051986B (zh) | 基于开源知识的代码搜索推荐装置及方法 | |
CN100511214C (zh) | 一种对文档集进行批量单文档摘要的方法及系统 | |
CN110728136A (zh) | 一种融合多因素的textrank关键词提取算法 | |
CN112307182A (zh) | 一种基于问答系统的伪相关反馈的扩展查询方法 | |
CN106294736A (zh) | 基于关键词频率的文本特征提取方法 | |
CN106294733A (zh) | 基于文本分析的网页检测方法 | |
CN110555154A (zh) | 一种面向主题的信息检索方法 | |
CN110263343A (zh) | 基于短语向量的关键词抽取方法及系统 | |
CN109446313A (zh) | 一种基于自然语言分析的排序系统及方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
EE01 | Entry into force of recordation of patent licensing contract |
Application publication date: 20080730 Assignee: Branch DNT data Polytron Technologies Inc Assignor: Institute of Computing Technology, Chinese Academy of Sciences Contract record no.: 2018110000033 Denomination of invention: Autoabstract method for multi-document Granted publication date: 20110504 License type: Common License Record date: 20180807 |
|
EE01 | Entry into force of recordation of patent licensing contract |