CN102004724B

CN102004724B - 文档段落分割方法

Info

Publication number: CN102004724B
Application number: CN2010106020301A
Authority: CN
Inventors: 刘铭; 刘远超; 王晓龙; 刘秉权; 林磊; 单丽莉; 孙承杰
Original assignee: Harbin Institute of Technology Shenzhen
Current assignee: Harbin Institute of Technology Shenzhen
Priority date: 2010-12-23
Filing date: 2010-12-23
Publication date: 2012-06-20
Anticipated expiration: 2030-12-23
Also published as: CN102004724A

Abstract

文档段落分割方法，本发明涉及文档的分割方法。用于文本分割。它解决现有技术引入与文档描述的主题无关的噪声词而增大或缩小描述不同或相同子主题的片段间的相似度，使得片段划分的结果不准确的缺陷。它通过下述步骤实现：一、对文档进行分词的操作及停用词过滤的操作；二、采用词典《知网》对文档的多义词进行消歧；三、对消歧后的词语通过词语之间的相似度构造词汇链；四、对文档构造全文词汇链；五、对文档进行划分，将其划分为多个长度相等的片段，对片段构造词汇链；六、根据片段词汇链和全文词汇链相互覆盖的程度确定片段之间的相似度；七、根据片段之间的相似度构造片段相似图，根据片段相似度图对片段进行分割。

Description

文档段落分割方法

技术领域

本发明涉及文档的分割方法。

背景技术

文本分割，主要是对一篇文本中的各个段落，按照语义关系进行分割，将各个自然段落进行归并，使得文章中所有大意属于一个子主题的段落归并于一个语义段落，这样把一篇文本分割成若干个语义段落。这种文本分割的方式很类似于小学语文教学中对文章分段的方式。

文本分割的意义在于对文本的分析可以从原来的文本级别细致到语义段落级别。过去对文本的分析只能停留在当前文本的主题思想或者类别等有限的范围内。如果想进一步分析文本就只能以自然段落为单位，但这样的自然段落往往不能完整地表达一个子主题，所以很难对文本的结构做出分析。

一旦文本的结构能够正确地被分析出来，则文本处理的很多任务可以通过结构分析的结果完成或提高。文本的自动摘要就是一个典型的例子，对于摘要的对象完全可以根据文本的结构分析出主题的位置、修饰的成分或者结论性语句，这样在这些信息的基础上进行摘要无疑将大大提升结果的准确程度。文本分割的用途除了上文提及自动文本摘要外还有很多，但这些用途多数都是建立在文本理解的基础之上的，而较为著名的应用应当是问答系统。因为问答系统是要计算机模拟人对用户的提问做出回答，整个过程与图灵试验极其相似，所以要求对文本的理解程度较高。

尤其是在信息检索任务中，文本分割将直接提升检索的准确性和缩小结果的范围。以往信息检索是以篇章为单位，结果往往是一篇篇与检索关键字相关的文档，而这样的结果使得用户很少有耐心读完整个文档以确定是否检索结果是其感兴趣的内容。如果结合文本分割技术，将不在以文档为检索的最小单位，而是使用语义段落作为最小的单位，这样用户在检索的时候就能更准确的获知其感兴趣内容的位置，从而不需要通读全文，节省了时间，提高了效率。目前无论是基于局部片段相似性的文本分割算法还是基于全局片段相似性的文本分割算法均以文中所有词作为片段相似度计算的依据。此方法非常容易引入与文档描述的主题无关的噪声词，而增大或缩小描述不同或相同子主题的片段间的相似度，使得片段划分的结果不准确。同时由于上述方法没有对文档主题进行分析，很可能将描述相同子主题的片段分裂到不同的分割单元中。

发明内容

本发明的目的是提供一种文档段落分割方法，以解决现有技术引入与文档描述的主题无关的噪声词而增大或缩小描述不同或相同子主题的片段间的相似度，使得片段划分的结果不准确的缺陷。本发明的方法通过下述步骤实现：一、对文档进行分词的操作及停用词过滤的操作；二、采用词典《知网》对文档的多义词进行消歧；三、对消歧后的词语通过词语之间的相似度构造词汇链；四、对文档构造全文词汇链；五、对文档进行划分，将其划分为多个长度相等的片段，对片段构造词汇链；六、根据片段词汇链和全文词汇链相互覆盖的程度确定片段之间的相似度；七、根据片段之间的相似度构造片段相似图，根据片段相似度图对片段进行分割。

文本分割是按照文档主题叙述的线性变换将文档划分成为若干个语义片段或分割单元，以形成语义片段序列的过程，其能够使不同的分割单元描述不同的子主题信息。文本分割的应用范围相当广泛，如自动文摘、问答检索等系统中文本分割均起到很大的作用。本发明通过分析文档主题，去除与主题信息无关的词语对片段相似度计算的干扰。同时将图的思想引入到文本分割中，使分割转化为一种在全局范围内寻找连通分量的过程，结合了全局和局部特征寻找片段划分的最优值，增加了划分的可信度。由于当代语言处理已经要求越来越高，所以基于内容理解的技术已经得到了广泛的重视。因此本发明提出了一种新颖的文本分割方法，其首先将待分割文档划分为若干片段的集合，然后构造全文词汇链分析文中描述的多个子主题，并通过构造片段对子主题的覆盖图将描述相同子主题的相似片段归类。本发明通过分析文档主题去除与主题信息无关的词语对片段相似度计算的干扰，同时将图的思想引入到文本分割中，使分割转化为一种在全局范围内寻找连通分量的过程，结合了全局和局部特征寻找片段划分的最优值，增加了划分的可信度。

附图说明

图1是以片段(BLOCK)为顶点，以片段间的相似度为边构造片段对子主题的覆盖图。图2是根据阈值去掉弱相关弧后的片段对子主题的覆盖图。

具体实施方式

具体实施方式一：本实施方式通过下述步骤实现：一、对文档进行分词(把整个句子以词为单位划分)的操作及停用词过滤的操作；二、采用词典《知网》对文档的多义词进行消歧；三、对消歧后的词语通过词语之间的相似度构造词汇链；四、对文档构造全文词汇链；五、对文档进行划分，将其划分为多个长度相等的片段(Block)，对片段构造词汇链；六、根据片段词汇链和全文词汇链相互覆盖的程度确定片段之间的相似度；七、根据片段之间的相似度构造片段相似图，根据片段相似度图对片段进行分割。

本实施方式采用《知网》确定文档的词义，并将词义确定和词汇链构造融合在一起。《知网》将词的词义表示为DEF，但是观察《知网》可知，《知网》中对于词义(DEF)的区分过于严格，并且每个词的DEF中的基本义原在很大程度上决定了该词的含义，至少对于本发明的应用来说这个结论是成立的。因此本实施方式将《知网》中每个词条的DEF集合划分为多个子集，使每个子集仅包含基本义原相同的DEF，并将此子集视为该词的一个义类。将每个义类表示为两部分：一部分是该义类对应的基本义原，另一部分是该义类的每个DEF所包含的关系义原的并集。对文档进行分词及停用词过滤后即可获得文档的词空间，本实施方式通过计算词空间中的词语之间反映信息的相似程度将相似或相关的词构成一条词汇链，下面为词汇链的构造过程：

[1]过滤掉《知网》中含义过大、过于宽泛的抽象义原，如“属性”、“事件”、“实体”等。

[2]设待分割文档Doc的词空间为WordSet，词汇链集合为L。

[3]顺序扫描WordSet，设当前正在扫描的词为W_i，该词具有t个义类。

[4]顺序扫描W_i的t个义类，设当前正在扫描第j个义类，记其为W_ij。

[5]按公式(1)计算W_ij与L中每条链的关联关系，并找到与W_ij具有最大关联关系的链，设此词汇链为L_m。

[6]按公式(2)计算W_ij与L_m的Select值，如值为1，则将词W_i插入到词汇链L_m中，并标记W_i在L_m中的义类为W_ij，否则新建一条词汇链包含W_i，同时标记W_i在新建链中的义类为W_ij。

[7]如果j≥t，即W_ij为词W_i的最后一个义类则转步骤[8]，否则循环运行步骤[4]～步骤[7]。

[8]如果词W_i为WordSet的末尾则转步骤[9]，否则循环运行步骤[3]～步骤[8]。

[9]计算L中每条词汇链的权值，权值为词汇链包含的词数。

[10]取大于平均链权重的词汇链作为文档Doc描述的子主题的代表，并记这些大于平均链权重的词汇链为强链。

R(W_ij，L_k)＝max(Sim(W_ij，L_k)，Cor(W_ij，L_k)) (1)

公式(1)中Sim(W_ij，L_k)反映的是义类W_ij和词汇链L_k所描述的信息之间的相似性。Cor(W_ij，L_k)反映的是W_ij和L_k所描述的信息之间的相关性。

Select (W_{ij}, L_{m}) = \{\begin{matrix} 1; & IfR (W_{ij}, L_{m}) &GreaterEqual; TH \\ 0; & Else \end{matrix} - - - (2)

公式(2)中TH为义类W_ij与词汇链L_m反映的信息之间是否相互关联的阈值。其中以词与词汇链包含的所有词的最大相似度和最大相关度作为词与链的关联度。因此词与词汇链之间的关联度阈值也就是词与词之间的关联度阈值。实验中发现，如果词与词之间的关联度超过0.7，则两个词较为相似，因此本发明设TH为0.7。

本发明将待分割文档划分成为固定大小的片段(BLOCK)。如果片段的结尾不为复句标点(“.”、“！”、“；”等)，则扩充此片段到最近的复句标点。此方法可以使每个片段的结尾均为有意义的分割点。首先为每个片段建立词汇链集合以反映该片段所描述的信息，然后计算每个片段的词汇链集合与文中强链集合的相交模式，并将结果表示为矩阵A＝(A_ij)。矩阵A的第i个行向量为片段i与文中强链集合的相交模式。A的行为强链集合，列为片段集合，A_ij为待分割文档中的第i个片段覆盖第j条强链所述信息的程度。由于强链能够在一定程度上反映文中的多个子主题，因此矩阵A能够在一定程度上反映片段对子主题的侧重程度。

具体实施方式二：本实施方式与实施方式一的不同点是：它还包括步骤八、如果某些分割点位于片段的内部，以这些分割点为疑似分割点把这些片段采用片段内部划分重新确定片段内的分割点。

由于将片段划分为固定大小，然而片段的大小大多是根据经验值得到的，这样某些片段的结尾并不一定是真实的段落分割点，真实的分割点很可能落在算法确定的分割点上下两个片段的内部。此时将片段内部可能的分割点记为疑似分割点。本发明以片段内的复句标点作为疑似分割点，并以这些疑似分割点重新划分片段。

具体实施方式三：下面结合图1和图2具体说明本实施方式：以标题为《驻沪海军某部党委机关倾心为基层解难》的文档作为说明文档。(http://military.people.com.cn/GB/1076/52965/5269015.html)，该文主要叙述了海军党委对海军官兵学习、工作、生活上的关心。

首先将待分割文档划分成为固定大小的片段(BLOCK)，并以矩阵A＝(A_ij)表示每个片段的词汇链集合与文中强链集合的相交模式。设待分割文档中的第i个片段的词汇链集合为BL(i)，大小为|BL(i)|，其中第m条词汇链为BL(i)_m。设文中第j条强链为SL_j.公式(3)为A_ij的计算方法：

A_{ij} = Σ_{m = 1}^{| BL (i) |} \frac{LS (BL {(i)}_{m}, {SL}_{j})}{| BL (i) |} - - - (3)

设词汇链BL(i)_m和文中强链SL_j中词的并集为CWSet，其大小记为|CWSet|。CWSet中的第l个词为CW_l，Blockfre(i，CW_l)和Articlefre(CW_l)分别为词CW_l在文中第i个片段和在全文中的词频。如果词CW_l在BL(i)_m和SL_j中均出现，Same(CW_l)为1，否则为0。公式(4)为词汇链BL(i)_m和强链SL_j的相似度：

LS ({BL (i)}_{m}, {SL}_{j}) = \frac{Σ_{l = 1}^{| CWSet |} Same (C W_{l}) \times \frac{Blockfre (i, {CW}_{l})}{Articlefre ({CW}_{l})}}{| CWSet |} - - - (4)

以乘号为界，公式(4)中分母的第一部分反映了词汇链BL(i)_m和SL_j中相同词的个数，代表了两条词汇链反映的信息的相似程度。而乘上相同词CW_l在片段i中的频率与该词在待分割文档中的频率之商，则反映了此相似程度就全文来说的比例。因此该公式能够反映词汇链BL(i)_m和SL_j所述信息的相似度。

计算任意两个片段i、j在矩阵A中对应的行向量A_i和A_j的余弦相似度，以无向图反映此片段相似度。以片段代表图中顶点，以边(弧)代表两个顶点(片段)之间的相似性，边上的权值则反映了此相似性的大小。由于矩阵A能够反映片段对子主题的侧重程度，则此图即为片段对子主题的覆盖图，具体图示可参见图1、2。图2中线性融合片段内距离BI和片段间距离BA后可得相似度阈值为0.089，去掉相似度小于阈值的边后获得的片段对子主题的覆盖图。

上述片段对子主题的覆盖图中的某些顶点间的相似弧相对于其它顶点间的相似弧是一种弱相关，应该依据阈值予以去掉以减少分割干扰。本发明以矩阵A作为阈值计算的依据，通过矩阵A计算片段内部以及片段间子主题的分布情况，即片段内距离BI和片段间距离BA，并通过线性回归融合BI和BA以确定分割阈值。

定义片段内距离BI为：

BI = Σ_{i = 1}^{b} \frac{\log_{2} (P_{i} + 1)}{b} - - - (5)

其中P_i为片段i在矩阵A中对应的行向量的非零列数，反映了片段i对文中多个子主题的侧重程度，b为片段总数.则BI反映了各片段对文中多个子主题的侧重程度的平均值。

定义片段间距离BA为：

BA = Σ_{i = 1}^{b} \frac{{| | A_{i} - M | |}^{2}}{b} - - - (6)

其中M为矩阵A中各行向量的平均向量。则BA反映了各片段对文档中心的离散程度。

在片段分割中本发明将片段划分为固定大小，然而片段的大小大多是根据经验值得到的，这样某些片段的结尾并不一定是真实的段落分割点，真实的分割点很可能落在算法确定的分割点上下两个片段的内部。此时将片段内部可能的分割点记为疑似分割点。本发明以片段内的复句标点作为疑似分割点，并以这些疑似分割点重新划分片段。下面即详细叙述了如何寻找某些落在片段内的分割点：

[1]设分割点s的上下两个片段分别为BU(s)和BD(s)，设BU(s)和BD(s)的相似度为SimUD(s)，设BU(s)和BD(s)内疑似分割点的集合为SegUSet(s)和SegDSet(s)。

[2]设片段BU(s)和BD(s)内所有疑似分割点对应的上下两个片段的相似度集合为SegSimSet(s)。

[3]顺序扫描SegUSet(s)，设当前正在扫描的疑似分割点为SegU(s)_p。

[4]以SegU(s)_p作为划分点，将片段BU(s)中位于SegU(s)_p以上的内容作为一个单独的片段，将SegU(s)_p以下的内容归入到片段BD(s)中，这样即可以形成两个新的片段，将其记为BU(s，SegU(s)_p)和BD(s，SegU(s)_p)。

[5]分别计算BU(s，SegU(s)_p)和BD(s，SegU(s)_p)与强链集合的相交模式，然后计算这两个片段对应的相交模式的余弦相似度，记此相似度为SimUD(s，SegU(s)_p)，并将其插入到SegSimSet(s)中。

[6]如果SegU(s)_p为SegUSet(s)的末尾则转[7]，否则循环步骤[3]～[6]。

[7]按步骤[3]～[6]处理SegDSet(s)中的疑似分割点。

[8]设SegSimSet(s)中相似度的最小值为SegSim(s)_min，检测其是否小于SimUD(s)，如小于，则以SegSim(s)_min对应的疑似分割点作为新的片段分割点。

Claims

1.文档段落分割方法，其特征在于通过下述步骤实现：一、对文档进行分词的操作及停用词过滤的操作；二、采用词典《知网》对文档的多义词进行消歧；三、对消歧后的词语通过词语之间的相似度构造词汇链；四、对文档构造全文词汇链；五、对文档进行划分，将其划分为多个长度相等的片段，对片段构造词汇链；六、根据片段词汇链和全文词汇链相互覆盖的程度确定片段之间的相似度；七、根据片段之间的相似度构造片段相似图，根据片段相似度图对片段进行分割；

步骤三中词汇链的构造过程如下：

[1]过滤掉《知网》中的抽象义原；

[2]设待分割文档Doc的词空间为WordSet，词汇链集合为L；

[3]顺序扫描WordSet，设当前正在扫描的词为W_i，该词具有t个义类；

[4]顺序扫描W_i的t个义类，设当前正在扫描第j个义类，记其为W_ij；

[5]按公式(1)计算W_ij与L中每条链的关联关系，并找到与W_ij具有最大关联关系的链，设此词汇链为L_m；

[6]按公式(2)计算W_ij与L_m的Select值，如值为1，则将词W_i插入到词汇链L_m中，并标记W_i在L_m中的义类为W_ij，否则新建一条词汇链包含W_i，同时标记W_i在新建链中的义类为W_ij；

[7]如果j≥t，即W_ij为词W_i的最后一个义类则转步骤[8]，否则循环运行步骤[4]～步骤[7]；

[8]如果词W_i为WordSet的末尾则转步骤[9]，否则循环运行步骤[3]～步骤[8]；

[9]计算L中每条词汇链的权值，权值为词汇链包含的词数；

[10]取大于平均链权重的词汇链作为文档Doc描述的子主题的代表，并记这些大于平均链权重的词汇链为强链；

R(W_ij，L_k)＝max(Sim(W_ij，L_k)，Cor(W_ij，L_k)) (1)

公式(1)中Sim(W_ij，L_k)反映的是义类W_ij和词汇链L_k所描述的信息之间的相似性；Cor(W_ij，L_k)反映的是W_ij和L_k所描述的信息之间的相关性；

公式(2)中TH为义类W_ij与词汇链L_m反映的信息之间是否相互关联的阈值；其中以词与词汇链包含的所有词的最大相似度和最大相关度作为词与链的关联度；因此词与词汇链之间的关联度阈值也就是词与词之间的关联度阈值；TH为0.7；

文档段落分割方法，首先将待分割文档划分成为固定大小的片段，并以矩阵A＝(A_ij)表示每个片段的词汇链集合与文中强链集合的相交模式；待分割文档中的第i个片段的词汇链集合为BL(i)，大小为|BL(i)|，其中第m条词汇链为BL(i)_m；文中第j条强链为SL_j公式(3)为A_ij的计算方法：

A_{ij} = Σ_{m = 1}^{| BL (i) |} \frac{LS (BL {(i)}_{m}, {SL}_{j})}{| BL (i) |} - - - (3)

设词汇链BL(i)_m和文中强链SL_j中词的并集为CWSet，其大小记为|CWSet|；CWSet中的第1个词为CW₁，Blockfre(i，CW₁)和Articlefre(CW₁)分别为词CW₁在文中第i个片段和在全文中的词频；如果词CW₁在BL(i)_m和SL_j中均出现，Same(CW₁)为1，否则为0；公式(4)为词汇链BL(i)_m和强链SL_j的相似度：

LS (BL {(i)}_{m}, {SL}_{j}) = \frac{Σ_{l = 1}^{| CWSet |} Same ({CW}_{1}) \times \frac{Blockfre (i, {CW}_{1})}{Articlefre ({CW}_{1})}}{| CWSet |} - - - (4)

以乘号为界，公式(4)中分子的第一部分反映了词汇链BL(i)_m和SL_j中相同词的个数，代表了两条词汇链反映的信息的相似程度；而乘上相同词CW₁在片段i中的频率与该词在待分割文档中的频率之商，则反映了此相似程度就全文来说的比例；

计算任意两个片段i、j在矩阵A中对应的行向量A_i和A_j的余弦相似度，以无向图反映此片段相似度；以片段代表代表图中顶点，以边或弧代表两个顶点或片段之间的相似性，边上的权值则反映了此相似性的大小；

以矩阵A作为阈值计算的依据，通过矩阵A计算片段内部以及片段间子主题的分布情况，即片段内距离BI和片段间距离BA，并通过线性回归融合BI和BA以确定分割阈值；

片段内距离BI为：

BI = Σ_{i = 1}^{b} \frac{\log_{2} (P_{i} + 1)}{b} - - - (5)

其中P_i为片段i在矩阵A中对应的行向量的非零列数，反映了片段i对文中多个子主题的侧重程度，b为片段总数.则BI反映了各片段对文中多个子主题的侧重程度的平均值；

片段间距离BA为：

BA = Σ_{i = 1}^{b} \frac{| | A_{i} - M | |}{b} - - - (6)

其中M为矩阵A中各行向量的平均向量；BA反映了各片段对文档中心的离散程度。

2.根据权利要求1所述的文档段落分割方法，其特征在于它还包括步骤八、如果某些分割点位于片段的内部，以这些分割点为疑似分割点把这些片段采用片段内部划分重新确定片段内的分割点；

寻找落在片段内的分割点的步骤如下：

[I]设分割点s的上下两个片段分别为BU(s)和BD(s)，设BU(s)和BD(s)的相似度为SimUD(s)，设BU(s)和BD(s)内疑似分割点的集合为SegUSet(s)和SegDSet(s)；

[II]设片段BU(s)和BD(s)内所有疑似分割点对应的上下两个片段的相似度集合为SegSimSet(s)；

[III]顺序扫描SegUSet(s)，设当前正在扫描的疑似分割点为SegU(s)_p；

[IV]以SegU(s)_p作为划分点，将片段BU(s)中位于SegU(s)_p以上的内容作为一个单独的片段，将SegU(s)_p以下的内容归入到片段BD(s)中，这样即可以形成两个新的片段，将其记为BU(s，SegU(s)_p)和BD(s，SegU(s)_p)；

[V]分别计算BU(s，SegU(s)_p)和BD(s，SegU(s)_p)与强链集合的相交模式，然后计算这两个片段对应的相交模式的余弦相似度，记此相似度为SimUD(s，SegU(s)_p)，并将其插入到SegSimSet(s)中；

[VI]如果SegU(s)_p为SegUSet(s)的末尾则转步骤[VII]，否则循环步骤[III]～步骤[VI]；

[VII]按步骤[III]～步骤[VI]处理SegDSet(s)中的疑似分割点；

[VIII]设SegSimSet(s)中相似度的最小值为SegSim(s)_min，检测其是否小于SimUD(s)，如小于，则以SegSim(s)_min对应的疑似分割点作为新的片段分割点。