CN101008941A - 多文档自动摘要的逐次主轴筛选法 - Google Patents

多文档自动摘要的逐次主轴筛选法 Download PDF

Info

Publication number
CN101008941A
CN101008941A CN 200710036306 CN200710036306A CN101008941A CN 101008941 A CN101008941 A CN 101008941A CN 200710036306 CN200710036306 CN 200710036306 CN 200710036306 A CN200710036306 A CN 200710036306A CN 101008941 A CN101008941 A CN 101008941A
Authority
CN
China
Prior art keywords
sentence
digest
vector
weight
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN 200710036306
Other languages
English (en)
Inventor
黄萱菁
赵林
吴中勤
刘菲
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fudan University
Original Assignee
Fudan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fudan University filed Critical Fudan University
Priority to CN 200710036306 priority Critical patent/CN101008941A/zh
Publication of CN101008941A publication Critical patent/CN101008941A/zh
Pending legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明属文本信息技术领域,具体涉及一种多文档自动摘要的逐次主轴筛选法。该方法是OR转轴法的改进,包括句子两两之间相似度的计算,求解主轴,抽去句子并去冗。本发明方法无需人工标注的训练数据,而且精度高,应用广泛。

Description

多文档自动摘要的逐次主轴筛选法
技术领域
本发明属文本信息技术领域,具体涉及一种多文档自动文摘方法。
背景技术
随着通信的迅速发展,人们日益享受着信息带来的方便,特别是文本信息,包括邮件、网页、短信等等。随之而来的一个问题是大量的信息往往令人难以抓住重点。如何利用计算机帮助人们分析这些信息,挑出重要的信息成为一个十分重要的问题。自动文摘正是迎合这样的需求产生的。分为单文档文摘和多文档文摘,由于现实中信息太多,多文档文摘应用更为广泛,它针对多个文档产生一个摘要,提交给用户。目前的文摘技术主要是抽句式文摘,即从原文档中抽取一些关键的句子组成一个文摘,主要的文摘算法有以下两种:
1、有监督文摘算法。该方法需要人工构造训练集,即人工先给出一些文档的摘要,然后让机器去学习出一个分类器,来判别测试文档中哪些是关键的句子。这个方法的优点是精度比较高,但是缺点是应用不是很广泛,一般只是针对特定领域的文档进行摘要,而且人工给出摘要的代价也十分昂贵。
2、无监督文摘算法。该方法无需人工构造训练集,它根据文档中句子之间的相似程度来判别每句话的重要程度。经典的方法有基于聚类法和QR转轴法。前者将文档中的句子先聚类,然后在每个类中抽出一句最重要的句子构成文摘;后者每次从没有在文摘中的句子中抽出一句与其他句子最相似的句子加入文摘中,然后将剩下的句子去掉与摘出的句子冗余的信息,重复这样的过程,直到得到的文摘满足用户要求的长度为止。无监督文摘算法的优点是速度快,无需人工标注的训练集,而且应用不受领域限制;缺点是精度不是很高。
发明内容
本发明的目的在于提出一种精度高、应用广泛的多文档自动摘要的方法。
本发明提出的多文档自动摘要方法,是一种无监督文摘算法,是对QR转轴法的改进,提高了QR转轴法的精度。该方法分为3个步骤:句子两两之间相似度的计算,求解主轴,抽取句子并去冗。第一步和QR转轴法相同,在将句子表示成空间向量,然后计算句子两两之间的相似度。第二步求解主轴与QR转轴法不同的是,本发明中句子的重要性并不是该句话与其他句子相似的总和(权重)。本发明认为与重要的句子相似的句子也很重要,这样在求出每句话的权重之后,需要对每句话进行加权,即乘以该句话的权重,并重新计算每句话的权重。重复这样的过程,直到句子的权重不再变化为止。第3步与QR转轴法相同,从没有成为文摘中的句子中抽出权重最大的一句加入文摘,并将剩下的句子去掉与摘出的句子冗余的信息。
重复这3个步骤,直到得到的文摘符合用户要求的长度为止。
称本发明方法为“逐次主轴筛选法”。
发明的优点、特点
由于“逐次主轴筛选法”的是对QR转轴法的改进,它继承了QR的所有优点,并提高了精度。具体体现在以下几个方面:
1、无需人工标注的训练数据。因为“逐次主轴筛选法”是一种无监督的文摘算法,其优点可以直接从无监督的文摘算法中导出。
2、应用广泛。“逐次主轴筛选法”不针对某一特定领域的文档,而是一种普适的算法,应用广泛。
3、效果好。与传统的无监督文摘方法比,“逐次主轴筛选法”可以获得更高的精度,这是因为“逐次主轴筛选法”对句子的重要性做了更加详尽的定义,综合考虑了句子之间的关系和句子本身的权重。与监督的文摘方法相比,效果相差也不是很大。
综上所述,“逐次主轴筛选法”的层次聚类算法具有自动、效果好、应用广泛的特性,是一种更优秀的自动文摘算法。
具体实施方式
基本流程是将每句话表示成空间向量后,计算出两两句子之间的相似度,得到相似度矩阵,求出的主特征向量得到每句话的重要性,抽取最重要的一句,然后将剩下的句子去掉与摘出的句子冗余的信息。
1、句子的向量空间表示。
假设现在有n个句子,一共出现了m个词。则每个句子用一个m维的向量表示,n个句子构成了m×n的矩阵,记为M。Mij表示第i个单词在第j个句子中的tfidf值: M ij = tf ij × log n df i , 其中tfij表示第i个词在第j个句子中出现的频率,dfi表示包含第i个词的句子数。这样,就将句子表示成了空间中一个向量了。向量的模长代表了该句的初始权重。
2、相似度矩阵的计算。
计算句子两两之间的相似度,即两个句子向量的内积。得到的相似度矩阵用S表示。
3、抽句:
求S的主特征向量u,则ui代表了第i句话的重要性。将重要性最大的一句话抽出加入到文摘中。
4、去冗:
由于原来重要性高的句子有可能与抽出的句子表达的是同一个意思,那么这些句子不应该再加入到文摘中,这一步就是去除未加入到文摘中的句子与被抽出句子的冗余信息。假设在第3步中,第i句被抽取,那么对所有剩下的句子,将他们投入第i句的零空间:
s ′ j = s j - s j T s i | | s i | | 2 s i
其中sj是第j句话的向量,sT j代表sj的转置,‖sj‖代表sj的模长。
重复步骤2-4直到文摘长度达到用户的要求为止。

Claims (2)

1、一种多文档自动摘要的逐次主轴筛选法,其特征在于具体步骤如下:
(1)将句子表示成空间向量,然后计算句子两两之间的相似度;
(2)求解主轴,先求出每句话的权重,对每句话进行加权,并重新计算每句话的权重,重复这样的过程,直到句子的权重不再变化为止;
(3)从没有成为文摘中的句子中抽出权重最大的一句加入文摘,并将剩下的句子去掉与摘出的句子冗余的信息;
重复步骤(1)-(3),直到得到的文摘符合用户要求的长度为止。
2、根据权利要求1所述的方法,其特征在于具体计算步骤如下:
(1)句子的向量空间表示:
假设有n个句子,一共出现了m个词,则每个句子用一个m维的向量表示,n个句子构成了m×n的矩阵,记为M;Mij表示第i个单词在第j个句子中的tfidf值: M ij = tf ij × log n df i , 其中tfij表示第i个词在第j个句子中出现的频率,dfi表示包含第i个词的句子数;这样,就将句子表示成了空间中一个向量;向量的模长代表了该句的初始权重;
(2)相似度矩阵的计算:
计算句子两两之间的相似度,得到的相似度矩阵用S表示。
(3)抽句:
求S的主特征向量u,则ui代表了第i句话的重要性,将重要性最大的一句话抽出加入到文摘中;
(4)去冗:
假设在第3步中,第i句被抽取,那么对所有剩下的句子,将他们投入第i句的零空间:
S ′ j = S j - S j T S i | | S i | | 2 S i
其中sj是第j句话的向量,sT j代表sj的转置,||sj||代表sj的模长;重复步骤2-4直到文摘长度达到用户的要求为止。
CN 200710036306 2007-01-10 2007-01-10 多文档自动摘要的逐次主轴筛选法 Pending CN101008941A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN 200710036306 CN101008941A (zh) 2007-01-10 2007-01-10 多文档自动摘要的逐次主轴筛选法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN 200710036306 CN101008941A (zh) 2007-01-10 2007-01-10 多文档自动摘要的逐次主轴筛选法

Publications (1)

Publication Number Publication Date
CN101008941A true CN101008941A (zh) 2007-08-01

Family

ID=38697375

Family Applications (1)

Application Number Title Priority Date Filing Date
CN 200710036306 Pending CN101008941A (zh) 2007-01-10 2007-01-10 多文档自动摘要的逐次主轴筛选法

Country Status (1)

Country Link
CN (1) CN101008941A (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101676897A (zh) * 2008-05-28 2010-03-24 美国日本电气实验室公司 利用文档聚类的多文档概括
CN101231634B (zh) * 2007-12-29 2011-05-04 中国科学院计算技术研究所 一种多文档自动文摘方法
CN101446940B (zh) * 2007-11-27 2011-09-28 北京大学 为文档集自动生成摘要的方法及装置
CN103678645A (zh) * 2013-12-20 2014-03-26 中电长城网际系统应用有限公司 文档匹配方法和文档匹配装置
CN105653704A (zh) * 2015-12-31 2016-06-08 南京财经大学 自动摘要生成方法及装置
CN108959312A (zh) * 2017-05-23 2018-12-07 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
CN108986134A (zh) * 2018-08-17 2018-12-11 浙江捷尚视觉科技股份有限公司 一种基于相关滤波跟踪的视频目标半自动标注方法
CN109783795A (zh) * 2017-11-14 2019-05-21 深圳市腾讯计算机系统有限公司 一种摘要获取的方法、装置、设备及计算机可读存储介质
CN111597327A (zh) * 2020-04-22 2020-08-28 哈尔滨工业大学 一种面向舆情分析的无监督式多文档文摘生成方法

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101446940B (zh) * 2007-11-27 2011-09-28 北京大学 为文档集自动生成摘要的方法及装置
CN101231634B (zh) * 2007-12-29 2011-05-04 中国科学院计算技术研究所 一种多文档自动文摘方法
CN101676897A (zh) * 2008-05-28 2010-03-24 美国日本电气实验室公司 利用文档聚类的多文档概括
CN103678645A (zh) * 2013-12-20 2014-03-26 中电长城网际系统应用有限公司 文档匹配方法和文档匹配装置
CN105653704A (zh) * 2015-12-31 2016-06-08 南京财经大学 自动摘要生成方法及装置
CN105653704B (zh) * 2015-12-31 2018-10-12 南京财经大学 自动摘要生成方法及装置
CN108959312A (zh) * 2017-05-23 2018-12-07 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
CN108959312B (zh) * 2017-05-23 2021-01-29 华为技术有限公司 一种多文档摘要生成的方法、装置和终端
US10929452B2 (en) 2017-05-23 2021-02-23 Huawei Technologies Co., Ltd. Multi-document summary generation method and apparatus, and terminal
CN109783795A (zh) * 2017-11-14 2019-05-21 深圳市腾讯计算机系统有限公司 一种摘要获取的方法、装置、设备及计算机可读存储介质
CN109783795B (zh) * 2017-11-14 2022-05-06 深圳市腾讯计算机系统有限公司 一种摘要获取的方法、装置、设备及计算机可读存储介质
CN108986134A (zh) * 2018-08-17 2018-12-11 浙江捷尚视觉科技股份有限公司 一种基于相关滤波跟踪的视频目标半自动标注方法
CN108986134B (zh) * 2018-08-17 2021-06-18 浙江捷尚视觉科技股份有限公司 一种基于相关滤波跟踪的视频目标半自动标注方法
CN111597327A (zh) * 2020-04-22 2020-08-28 哈尔滨工业大学 一种面向舆情分析的无监督式多文档文摘生成方法
CN111597327B (zh) * 2020-04-22 2023-04-07 哈尔滨工业大学 一种面向舆情分析的无监督式多文档文摘生成方法

Similar Documents

Publication Publication Date Title
CN101008941A (zh) 多文档自动摘要的逐次主轴筛选法
CN101398814B (zh) 一种同时抽取文档摘要和关键词的方法及系统
CN108681537A (zh) 一种基于神经网络及词向量的中文实体链接方法
CN108052593A (zh) 一种基于主题词向量和网络结构的主题关键词提取方法
CN105975454A (zh) 一种网页文本的中文分词方法和装置
CN108108468A (zh) 一种基于概念和文本情感的短文本情感分析方法和装置
CN110362678A (zh) 一种自动提取中文文本关键词的方法与装置
CN100511214C (zh) 一种对文档集进行批量单文档摘要的方法及系统
CN106202032A (zh) 一种面向微博短文本的情感分析方法及其系统
Al-Taani et al. An extractive graph-based Arabic text summarization approach
CN112100365A (zh) 双阶段文本摘要方法
CN103150405A (zh) 一种分类模型建模方法、中文跨文本指代消解方法和系统
CN104484380A (zh) 个性化搜索方法及装置
Alami et al. Automatic texts summarization: Current state of the art
CN110457711A (zh) 一种基于主题词的社交媒体事件主题识别方法
Alian et al. Arabic semantic similarity approaches-review
Reddy et al. N-gram approach for gender prediction
CN112905736A (zh) 一种基于量子理论的无监督文本情感分析方法
Kurniawan et al. Indonesian twitter sentiment analysis using Word2Vec
CN111061873B (zh) 一种基于Attention机制的多通道的文本分类方法
CN102929962B (zh) 一种搜索引擎的评测方法
CN102253973A (zh) 汉英跨语言新闻话题检测方法及系统
Gupta et al. Text analysis and information retrieval of text data
CN111079582A (zh) 一种图像识别的英语作文跑题判断方法
Jibril et al. Anec: An amharic named entity corpus and transformer based recognizer

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C12 Rejection of a patent application after its publication
RJ01 Rejection of invention patent application after publication

Open date: 20070801