CN103699525A

CN103699525A - 一种基于文本多维度特征自动生成摘要的方法和装置

Info

Publication number: CN103699525A
Application number: CN201410003152.7A
Authority: CN
Inventors: 罗晶
Original assignee: JIANGSU WISEDU INFORMATION TECHNOLOGY Co Ltd
Current assignee: JIANGSU WISEDU INFORMATION TECHNOLOGY Co Ltd
Priority date: 2014-01-03
Filing date: 2014-01-03
Publication date: 2014-04-02
Anticipated expiration: 2034-01-03
Also published as: CN103699525B

Abstract

本发明公开了一种基于文本多维度特征自动生成摘要的方法和装置。本发明的方法包括以下步骤：断句，分词，计算句子和关键词权重值，计算句子位置权重值、句子精炼权重值和句子语义权重值，然后将句子位置权重值、句子精炼权重值和句子语义权重值加权求和后获得每个句子的权重值，再采用K均值聚类算法将句子划分成话题簇，最后从各话题簇中选取权重值最高的句子构成摘要。相比现有技术，本发明在计算句子权重时，增加了评判的维度，从多种维度考虑文本的句子特征，并且通过聚类算法得到话题簇中提取句子，获得高质量的文摘。本发明可以通过根据不同的文本来源调整不同维度的权重系数，从而实现调整句子权重算法，使得本发明不受领域限制。

Description

一种基于文本多维度特征自动生成摘要的方法和装置

技术领域

本发明涉及信息检索领域，具体涉及一种为文本文档自动生成摘要的方法和装置。

背景技术

随着互联网技术的发展，人们从网络中获取到的信息量越来越大，如何从海量信息中快速获取到有效信息一直是信息检索领域的研究热点。文本自动摘要是指利用计算机处理自然语言文本，自动从原始文本中提取文摘，文摘能准确地反映出文本的中心内容。这种技术能有效降低互联网用户所面临的信息过载问题，帮助用户更快、更有效地从互联网定位到需要的信息。

文本自动摘要出现于20世纪50年代末，可以分为基于统计的文本自动摘要、基于理解的文本自动摘要、基于信息抽取的文本自动摘要和基于结构的文本自动摘要。

1. 基于统计的文本自动摘要方法通过对词和句子的统计特征计算，摘录权重较高的原文句子形成文摘。这种方法不受领域限制、速度快、摘要长度可调节，但局限于文本表层信息，生成的摘要质量较差，存在内容不全面、语句冗余、不连贯等问题；

2. 基于理解的文本自动摘要可以通过对文本语法、语义和语用信息进行深层分析，提取出有用信息，最终形成连贯的文摘。这种方法可以深入理解文本，但是却有严格的领域限制，无法推广使用；

3. 基于信息抽取的文本自动摘要只对有用的文本片段进行有限的深度分析，效率和灵活性比基于理解的文摘高。但是这种方法以依赖领域知识的摘要框架为中枢，仍然受到领域的限制；

4. 基于结构的文本自动摘要将文本信息当作句子的关联网络，选择与其他句子联系较多的中心句构成摘要。这种方法可以避免领域限制，对结构规范的文章提取文摘质量高，但是互联网上的文章结构灵活，可用的统一结构规则并不多。

上述这些现有的文本自动摘要方法各有所长，适用于不同的场景，针对某一类型的文本进行自动摘要。这些方法实际上都是通过计算句子的权重，然后选择权重值高的句子作为摘要。所不同的是具体的句子的权重的计算方法之间的区别。也就是说，自动生成文档摘要功能中，计算句子权重的算法的好坏决定了自动生成文档的摘要的好坏。文献CN101446940也同样公开了一种句子权重的计算方法，该方法还是存在着一些欠缺。

总体来说，现有的算法下，只能针对特定领域来源的文档，在某一特定领域下，该算法可能具有相当好的技术效果，但是在其他领域下，该算法却存在很大的问题。特别是针对新闻门户、博客、论坛、微博等不同的文本来源，这些现有的算法还存在着一些缺陷。

发明内容

本发明所要解决的问题是更好地生成文本摘要，并增加生成的文本摘要的可读性。

一种基于文本多维度特征自动生成摘要的方法，该方法包括以下步骤：

S1：断句，将文本拆分成句子；

S2：分词，将本文拆分成关键词；

S3：计算各个句子的权重值Wi；

S4：根据句子的权重值选择句子构成摘要。

其中所述的步骤S3包括：

S31：计算每个句子与各个关键词的权重Wij；

S32：计算每个句子的位置权重值WPi、精炼权重值WCi、语义权重值WSi；

S33：计算每个句子的权重值Wi，，其中

为权重系数。

进一步，根据本发明的基于文本多维度特征自动生成摘要的方法，所述的步骤S4包括：

S41：采用聚类算法将句子聚类成话题簇CP ；

S42各话题簇选取权重值Wi最高的句子构成摘要。

进一步，根据本发明的基于文本多维度特征自动生成摘要的方法，所述的Wij表示文本第i个句子的第j个关键词的特征权重，Wij满足如下计算公式：

；

其中，表示第j个关键词在第i个句子中出现的频数；

表示各句子中包含有第j个关键词的句子数；m为句子总数；n为关键词总数。

进一步，根据本发明的基于文本多维度特征自动生成摘要的方法，所述的位置权重值WPi表示第i个句子的位置权重值，WPi满足如下计算公式：

；

其中，m为句子总数。

进一步，根据本发明的基于文本多维度特征自动生成摘要的方法，所述的精炼权重值WCi表示第i个句子的精炼权重值，WCi满足如下计算公式：

；

其中，Wij表示文本第i个句子的第j个关键词的特征权重；

为句子的字符数；n为关键词总数。

进一步，根据本发明的基于文本多维度特征自动生成摘要的方法，所述的语义权重值WSi为第i个句子的语义权重值，WSi满足如下计算公式：

；

其中，Wij表示文本第i个句子的第j个关键词的特征权重；WTj表示文本标题的第j个关键词的特征权重；n为关键词总数。

进一步，根据本发明的基于文本多维度特征自动生成摘要的方法，所述的聚类算法为K均值法。

一种基于文本多维度特征自动生成摘要的装置，该装置包括：断句装置、分词装置、句子关键词权重装置、句子位置权重装置、句子精炼权重装置、句子语义权重装置、句子权重汇总装置；其中，所述的断句装置用于将文本拆分成句子；分词装置用于将文本拆分成关键词；句子关键词权重装置用于计算每个句子与各个关键词的权重Wij；句子位置权重装置用于计算每个句子的位置权重值WPi；句子精炼权重装置用于计算每个句子的精炼权重值WCi；句子语义权重装置用于计算每个句子的语义权重值WSi；句子权重汇总装置计算每个句子的权重值Wi；

所述的Wij表示文本第i个句子的第j个关键词的特征权重，Wij满足如下计算公式：

；

所述的位置权重值WPi表示第i个句子的位置权重值，WPi满足如下计算公式：

；

所述的精炼权重值WCi表示第i个句子的精炼权重值，WCi满足如下计算公式：

；

所述的语义权重值WSi为第i个句子的语义权重值，WSi满足如下计算公式：

；

所述句子的权重值Wi满足计算公式：

；

公式中，

表示第j个关键词在第i个句子中出现的频数；

表示各句子中包含有第j个关键词的句子数；

为句子的字符数；m为句子总数；n为关键词总数；

为权重系数。

进一步，根据本发明的基于文本多维度特征自动生成摘要的装置，该装置还包括：句子聚类装置和话题簇句子选取装置；所述的句子聚类装置用于采用聚类算法将句子聚类成话题簇CP ；所述的话题簇句子选取装置用于从各话题簇选取权重值Wi最高的句子构成摘要；所述的聚类算法为K均值法。

一种机器可读介质，该可读介质上存储有指令集合，当该指令集合被执行时，使得该机器可执行上述基于文本多维度特征自动生成摘要的方法。

本发明的技术效果：

1、本发明在计算句子权重时，增加了评判的维度，从多种维度考虑文本的句子特征。

2、本发明通过聚类算法得到话题簇中提取句子，提取出高质量的文摘。

3、本发明的文本自动摘要方法不受领域限制。本发明可以通过根据不同的文本来源调整不同维度的权重系数，从而实现调整句子权重的算法。

附图说明

图1为本发明完整实施方式下模块结构关系图。

图2为本发明可选实施方式下模块结构关系图。

具体实施方式

下面对本发明的发明内容和权利要求作进一步详细说明。

一、完整的模块结构和模块之间的关系

图1为本发明完整实施的模块结构关系图。本发明的基于文本多维度特征自动生成摘要的装置，如图1所示，包括：预处理模块、句子建模模块、句子特征分析模块、句子聚类分析模块、句子聚类抽取模块。输入的文本经这些模块处理后输出文本的摘要。下面就上述各个模块分别进行描述。

1、预处理模块

预处理模块用于实现发明内容中的步骤S1和S2，即实现断句、分词的步骤。相应地，预处理模块划分成两个模块或装置：断句模块（或装置）、分词模块（或装置）。

断句模块（或装置）用于将文本拆分成句子，其输入为文本，输出为句子列表。一般情况下，主要是以标点符号作为句子切分的依据，标点符号分为句末符号和句中符号，句末符号主要有“。”、“！”、“？”。考虑到文本行文的不规范性，本发明在进行断句时，以中文的句末符号“。”、“！”、“？”和英文的句末符号“.”、“!”、“?”、“…”以及分段符等特殊符号作为断句标准。由此，断句模块（或装置）实现将文本拆分成句子的过程即为将字符串根据特定的字符分割成子字符串的过程，本领域技术人员理解，该过程为现有技术，本说明书不再累述。

分词模块（或装置）用于将文本拆分成关键词，其输入为文本，输出为关键词列表。分词模块也可以称为分词器。分词器的分词过程的实现依赖于词典，通过对词典的查找，从文本中选出与词典对应的词语。现有分词器很多，比如 ICTCLAS、Ansj，IKanalyzer、mmseg4j 等系统。这些分词器可以直接应用于本发明。本发明的分词装置优先由分词器和滤词装置构成。滤词装置用于在拆分得到的词语中过滤掉无实义的词语后获得关键词。相应地，分词装置将文本拆分成关键词的过程由两个步骤组成：首先由分词器将输入的文本成分割成词语列表；然后对获得的词语列表进行过滤，过滤掉其中无实义的词语，留下的有实义的词语即为关键词。滤词可以通过查询事先定义的无实义词语词典或有实义词语词典实现。本领域技术人员理解，滤词也可以和分词器结合一起，只需要将分词器的词典改成有实义词语词典即可以实现上述分词和滤词过程。

2、句子建模模块

句子建模模块主要用于实现发明内容中步骤S31，即句子关键词权重装置，用于计算每个句子与各个关键词的权重W_ij。设某一文本经前述预处理模块处理后得到m个句子和n个关键词，则m个句子和n个关键词可以构成m×n大小的句子和关键词权重矩阵｛W_ij｝。W_ij表示表示文本第i个句子的第j个关键词的特征权重。W_ij本发明中也称为词项特征权重值。词项特征权重值W_ij的计算本发明采用TF-IDF公式，具体如下：

其中，

表示第j个关键词在第i个句子中出现的频数；表示各句子中包含有第j个关键词的句子数。根据上述公式，如果一个词项在一个句子中出现的频率越高，同时在其他句子中出现的频率越低，则该词项越能表征该句子，该词项与该句子对应的词项特征权重值W_ij也就越大。根据上述公式，本领域技术人员可以理解，本模块的实现依赖于前述预处理模块中分词和断句的处理。

需要说明的是，词项特征权重值W_ij的计算还存在其他的方法。比如，文献CN101446940公开的方法中同样需要计算词项特征权重值W_ij，但其具体的方法与本案不相同。也就是说，文献CN101446940公开的词项特征权重值W_ij的计算方法也可以应用到本发明中。上述的公式仅为本发明的一种优先计算方法。

3、句子特征分析模块

句子特征分析模块用于实现发明内容中的步骤S32和S33。相应地，句子特征分析模块可以划分成四个模块或装置：句子位置权重模块（装置）、句子精炼权重模块（装置）、句子语义权重模块（装置）、句子权重汇总模块（装置）。句子位置权重模块（装置）、句子精炼权重模块（装置）、句子语义权重模块（装置）分别用于计算位置权重值WPi、精炼权重值WCi、语义权重值WSi。句子权重汇总模块（装置）根据位置权重值WPi、精炼权重值WCi、语义权重值WSi通过加权汇总后得到句子的权重值Wi。

位置权重值WPi表示第i个句子的位置权重值。本发明中，WPi优先满足计算公式：

。其中m为文本句子总数。

精炼权重值WCi表示第i个句子的精炼权重值。本发明中，WCi优先满足计算公式：

。其中，为句子的字符数。W_ij表示表示文本第i个句子的第j个关键词的特征权重，由前述的句子关键词权重装置计算获得。

语义权重值WSi表示第i个句子的语义权重值。本发明中，WSi优先满足计算公式：

。其中，W_ij表示表示文本第i个句子的第j个关键词的特征权重，W_Tj表示文本标题的第j个关键词的特征权重，由前述的句子关键词权重装置计算获得。

需要说明的是，位置权重值WPi、精炼权重值WCi和语义权重值WSi的计算还存在其他的方法。比如文献CN101446940公开的方法中涉及了内容权重值（相当于本发明的语义权重值）的计算和位置权重值的计算，其中内容权重值和位置权重值的计算方法不同于上述的公式。本领域技术人员理解，文献CN101446940公开的方法中的内容权重值和位置权重值的计算方法同样可以应用本发明计算语义权重值和位置权重值。上述的公式仅为本发明的一种优先计算方法。

句子权重汇总模块（装置）根据位置权重值WPi、精炼权重值WCi、语义权重值WSi通过加权汇总后得到句子的权重值Wi采用的计算公式为：

。

为权重系数。用户可以自定义权重系数。在实际的应用中，用户可以通过在不同领域下修改并设定不同的为权重系数调整的句子权重值的算法。

根据上述公式，本领域技术人员理解，句子特征分析模块所实现的步骤依赖于句子建模模块得到的词项特征权重值W_ij。

4、句子聚类分析模块

句子聚类分析模块用于实现发明内容中步骤S51，即句子聚类装置，用于采用聚类算法将句子聚类成话题簇C_P 。聚类算法有很多，比如K-MEANS算法、K-MEDOIDS算法、CLARANS算法。本发明中句子聚类优先采用K-MEANS算法，即K均值法。选择K=3。具体的实现如下：

经过前述的预处理模块处理以及句子建模模块处理后，得到句子和关键词权重矩阵｛W_ij｝。其中句子总数为m，关键词总数为n。设m个句子分别为｛S₁、S₂、S₃、...、S_m｝。句子聚类装置的具体步骤如下：

S100：从m个句子中通过随机方法选择任意3（K=3）个句子S_x、S_y、S_z分别作为初始聚类中心构成三个话题簇C_x、C_y、C_z。其中，S_x、S_y、S_z∈｛S₁、S₂、S₃、...、S_m｝。

S101：根据句子和关键词权重矩阵｛W_ij｝计算｛S₁、S₂、S₃、...、S_m｝中各个句子分别与S_x、S_y、S_z的距离得到分别得到D_x={D_x1、D_x2，D_x3，...，D_xm}，D_y={D_y1、D_y2，D_y3，...，D_ym}，Dz={D_z1、D_z2，D_z3，...，D_zm}。其中

，

，。W_xj ，W_xj ，W_xj分别为三个话题簇C_x、C_y、C_z聚类中心的第j个关键词的特征权重，其初始值分别为三个初始聚类中心S_x、S_y、S_z句子的关键词权重。

S102：比较D_x，D_y，D_z中对于任意的i∈[1..m]的D_xi，D_yi，D_zi的大小将其中最小者分配至对应的聚类。比如第i个句子与话题簇C_x、C_y、C_z聚类中心的距离分别为D_xi，D_yi，D_zi；假如其中，D_xi的数值最小，则将该句子归类至C_x类中；如果D_yi的数值最小，则将该句子归类至C_y类中，否则将该句子归类至C_z类中。

S103：重新计算三个话题簇C_x、C_y、C_z聚类中心的第j个关键词的特征权重，并重复步骤S101和S102，直到三个话题簇内包含的句子不再变化为止。

需要说明的是上述聚类过程采用了K-MEANS算法（K均值法），并选择K=3。本领域技术人员理解，本发明中，聚类过程还可以采用其他的方法，比如K-MEDOIDS算法、CLARANS算法，K值也可以为4或5。

需要说明的是，图1中给出的句子特征分析模块和句子聚类分析模块的处理为并列关系，这种并列关系是模块的数据流之间的关系，表示这两个模块对数据的处理不论先后。

5、句子聚类抽取模块

句子聚类分析模块用于实现发明内容中步骤S52，即前述的话题簇句子选取装置，用于从各话题簇选取权重值W_i最高的句子构成摘要。经过句子聚类分析模块处理后，文本的句子分为几类话题簇（三类、四类或五类）。每类话题簇包含多个句子。分别对这些话题簇的句子根据句子权重值W_i按升序或降序进行排序后得到每类话题簇排序后的句子序列，然后从各类话题簇中分别选取权重值W_i最高的1至3个句子，作为文本摘要的基本句子。然后对这些句子按初始文本的顺序排序后即可得到文本摘要。

二、完整的实施方式下举例说明

设有一文本Text经过前述的断句装置处理后得到句子S_T，S₁，S₂，S₃，S₄，S₅，S₆，S₇，S₈，S₉。其中，S_T为标题句子。经过分词器分词处理后得到50个词语，50个词语经滤词装置处理后得到6个关键词分别标记为：Word₁，Word₂，Word₃，Word₄，Word₅，Wd₆。然后，句子建模计算每个句子与各个关键词的权重W_ij得到10×6的矩阵数据，如下表所示：

根据公式

计算各个句子的位置权重值（m=9，为奇数，采用奇数公式）得到9个句子的位置权重值为：WP₁=1，WP₂=0.65，WP₃=0.4，WP₄=0.25，WP₅=0.2，WP₆=0.25，WP₇=0.4，WP₈=0.65，WP₉=1。

根据公式计算各个句子的精炼权重值，得到9个句子的精炼权重值分别为：WC₁，WC₂，WC₃，WC₄，WC₅，WC₆，WC₇，WC₈，WC₉。

根据公式

计算各个句子的语义权重值，得到9个句子的语义权重值分别为：WS₁，WS₂，WS₃，WS₄，WS₅，WS₆，WS₇，WS₈，WS₉。该公式中W_Tj为上述表格中标题句子与各个关键词的权重分别为：W₀₁，W₀₂，W₀₃，W₀₄，W₀₅，W₀₆。

根据上述的WP₁，WP₂，WP₃，WP₄，WP₅，WP₆，WP₇，WP₈，WP₉和WC₁，WC₂，WC₃，WC₄，WC₅，WC₆，WC₇，WC₈，WC₉以及WS₁，WS₂，WS₃，WS₄，WS₅，WS₆，WS₇，WS₈，WS₉得到9个句子的权重值W₁，W₂，W₃，W₄，W₅，W₆，W₇，W₈，W₉，分别为：

，，...，。

经句子聚类后，句子分成三类，C_x＝｛S₄，S₈｝，C_y＝｛S₁，S₃，S₆，S₉｝，C_y＝｛S₂，S₅，S₇｝，根据各个句子的权重值（W₁，W₂，W₃，W₄，W₅，W₆，W₇，W₈，W₉）按降序排序后得到：C_x＝｛S₈，S₄｝，C_y＝｛S₁，S₉，S₃，S₆｝，C_y＝｛S₇，S₂，S₅｝，每一类中选择权重值最高的句子分别为：S₈，S₁，S₇。然后按文本的顺序排序后得到文本摘要为：S₁，S₇ ，S₈。

三、可选技术方案

前述的实施方式为本发明完整的实施方式以及优先的实施方式。实际应用中，应用本发明还可以存在其他的实施方案。如图2所示，本发明的基于文本多维度特征自动生成摘要的装置包括：预处理模块、句子建模模块、句子特征分析模块、句子选择模块。其中预处理模块、句子建模模块、句子特征分析模块与前述实施方式相同。不同的是本实施方式下，缺少了句子聚类分析模块和句子聚类抽取模块，采用句子选择模块代替。句子选择模块用于从句子中选出句子的权重值Wi最高的3 至10个句子组成文本摘要。该实施方式可以视为前述实施方式的一种特例形式，即聚类算法中将所有的句子聚为唯一的一类话题簇。

Claims

1.一种基于文本多维度特征自动生成摘要的方法，其特征在于，该方法包括以下步骤：

S1：断句，将文本拆分成句子；

S2：分词，将本文拆分成关键词；

S3：计算各个句子的权重值W_i；

S4：根据句子的权重值选择句子构成摘要。

其中所述的步骤S3包括：

S31：计算每个句子与各个关键词的权重W_ij；

S32：计算每个句子的位置权重值WP_i、精炼权重值WC_i、语义权重值WS_i；

S33：计算每个句子的权重值W_i，，其中为权重系数。

2.如权利要求1所述的基于文本多维度特征自动生成摘要的方法，其特征在于，所述的步骤S4包括：

S41：采用聚类算法将句子聚类成话题簇C_P；

S42：从各话题簇选取权重值W_i最高的句子构成摘要。

3.如权利要求1或2所述的基于文本多维度特征自动生成摘要的方法，其特征在于，所述的W_ij表示文本第i个句子的第j个关键词的特征权重，W_ij满足如下计算公式：

；

其中，

表示第j个关键词在第i个句子中出现的频数；

4.如权利要求1或2所述的基于文本多维度特征自动生成摘要的方法，其特征在于，所述的位置权重值WP_i表示第i个句子的位置权重值，WP_i满足如下计算公式：

；

其中，m为句子总数。

5.如权利要求1或2所述的基于文本多维度特征自动生成摘要的方法，其特征在于，所述的精炼权重值WC_i表示第i个句子的精炼权重值，WC_i满足如下计算公式：

；

其中，W_ij表示文本第i个句子的第j个关键词的特征权重；

为句子的字符数；n为关键词总数。

6.如权利要求1或2所述的基于文本多维度特征自动生成摘要的方法，其特征在于，所述的语义权重值WS_i为第i个句子的语义权重值，WS_i满足如下计算公式：

；

其中，W_ij表示文本第i个句子的第j个关键词的特征权重；W_Tj表示文本标题的第j个关键词的特征权重；n为关键词总数。

7.如权利要求2所述的基于文本多维度特征自动生成摘要的方法，其特征在于，所述的聚类算法为K均值法。

8.一种基于文本多维度特征自动生成摘要的装置，其特征在于，该装置包括：断句装置、分词装置、句子关键词权重装置、句子位置权重装置、句子精炼权重装置、句子语义权重装置、句子权重汇总装置；其中，所述的断句装置用于将文本拆分成句子；分词装置用于将文本拆分成关键词；关键词权重装置用于计算每个句子与各个关键词的权重W_ij；句子位置权重装置用于计算每个句子的位置权重值WP_i；句子精炼权重装置用于计算每个句子的精炼权重值WC_i；句子语义权重装置用于计算每个句子的语义权重值WS_i；句子权重汇总装置计算每个句子的权重值W_i；

所述的W_ij表示文本第i个句子的第j个关键词的特征权重，W_ij满足如下计算公式：