CN103034656B

CN103034656B - 章节内容分层方法和装置、文章内容分层方法和装置

Info

Publication number: CN103034656B
Application number: CN201110303684.9A
Authority: CN
Inventors: 刘宏建; 周泉; 邓攀; 小林义行
Original assignee: Hitachi China Research and Development Corp
Current assignee: Hitachi China Research and Development Corp
Priority date: 2011-09-29
Filing date: 2011-09-29
Publication date: 2016-04-20
Anticipated expiration: 2031-09-29
Also published as: CN103034656A

Abstract

本发明提供一种章节内容分层方法和装置以及文章内容分层方法和装置。本发明在充分考虑文章本身的结构信息(如文档中存在的各级标题蕴含的信息)的基础上，利用选定词在文章中的出现频率，形成分层结构，将文章的内容分层。这样，能够有效地反映文章内容的结构层级关系。本发明还通过对不同章节、不同文章的内容进行结构处理，能够对跨文档内容进行有效的合并，从而实现跨文档间信息的有效管理，以便用户能够快速地获取所需的信息。

Description

章节内容分层方法和装置、文章内容分层方法和装置

技术领域

本发明涉及一种文章内容分层方法和装置，尤其涉及根据章节、文章内容的结构信息，进行章节、文章内容分层方法和装置。

背景技术

近年来，随着信息技术的发展使收集、存储信息的能力得到迅速增长。数据管理技术的进步促进了商业和政府事务的信息化，产生了大量的数据信息，特别是随着互联网技术的发展，互联网上的信息更是按指数速度增长，并且其中大部分信息的格式为软件文件。为了管理这些数据，大型数据库正被广泛地应用于商业和科学工程等领域。

然而，虽然数据库技术的进步使信息的收集和存储变得越来越容易，但是数据规模的爆炸性增长，已远远超出了人们的接受能力。随着数据库和计算机网络的广泛应用，数据库中存储的数据量急剧增大。在数量庞大的数据的背后隐藏着许多重要的信息，人们希望能够对其进行更高层次的分析，以便更好地利用这些数据。但传统的数据分析方法，很难对这些数据进行深层次的处理，也无法发现数据中存在的内在关系和隐含的信息。这样，造成在以指数形式增长的数据与人们从中能够获取的有效信息之间形成巨大的反差，导致了“数据爆炸但知识贫乏”的现象，如何让人们从庞大的信息中快速获取有效的信息成为当务之急。

在这种情况下，专利申请CN1669029A公开了一种自文件集合中自动搜寻概念层次结构的方法及装置，该申请提供了一种方法来对文件中的概念进行自动分层。虽然上述方法涉及到知识分类的方法，但是由于该专利申请仅利用词汇频率分布的相似度来进行分层、聚类并以此进行概念抽取，并没有考虑文档自身具有的结构特点，另外上述专利申请仅考虑了通过多种文档进行概念抽取的方法，并没有根据文档自身的结构，因而难以对文档信息进行有效管理。

发明内容

本发明是鉴于上述问题而提出的，其目的在于提供一种根据文章内容的结构信息，进行文章内容分层的方法及装置。

本发明的章节内容分层方法，包括：抽取所述章节所包含的标题中的多个词汇的第1抽取步骤；将所抽取的标题中的所述词汇选定为核心词的选定步骤；利用规定了词汇隶属关系的隶属关系表，对所选定的核心词进行分层处理，将属于上位的核心词作为第1阶层核心词而属于下位的核心词作为第2阶层核心词形成第1区域分层结构的第1区域设置步骤；对已分层核心词以外的核心词进行分层处理，基于所述核心词在所述章节中的出现频率，利用规定了词汇并列关系的并列关系表，将出现频率高的核心词作为第1阶层核心词而出现频率低的核心词作为第2阶层核心词形成第2区域分层结构的第2区域设置步骤；抽取所述标题以外的语句中的多个词汇的第2抽取步骤；将所抽取的多个词汇选定为选定词，基于所述选定词在文章中的出现频率进行排列的第1排列步骤；和按照出现频率高低的顺序，根据关联词表找出与所述第1区域分层结构和所述第2区域分层结构中的第2阶层核心词最相关联的选定词并将其确定为关联词，将包含该关联词的语句作为第3阶层置于与其有关联关系的所述第2阶层核心词之下，形成子树归并图的第1分层步骤。

本发明的文章内容分层方法，对于得到的子树归并图，根据关联词表，找出同一阶层中的核心词的关联性，通过相关联的所述核心词的上位关联词，将不同的子树归并图连接起来生成树归并图。

本发明的章节内容分层装置，包括：第1抽取装置，抽取所述章节所包含的标题中的多个词汇；选定装置，将所抽取的标题中的所述词汇选定为核心词；第1区域设置装置，利用规定了词汇隶属关系的隶属关系表，对所述标题中所选定的核心词进行分层处理，将属于上位的核心词作为第1阶层核心词而属于下位的核心词作为第2阶层核心词来形成第1区域分层结构；第2区域设置装置，对已分层核心词以外的核心词进行分层处理，基于所述核心词在所述章节中的出现频率，利用规定了词汇并列关系的并列关系表，将出现频率高的核心词作为第1阶层核心词，而出现频率低的核心词作为第2阶层核心词形成第2区域分层结构；第2抽取装置，抽取所述标题以外的语句中的多个词汇；第1排列装置，选定所抽取的多个词汇为选定词，基于所述选定词在文章中的出现频率进行排列；和第1分层装置，按照出现频率高低的顺序，根据关联词表找出与第2阶层的核心词最相关联的选定词并将其确定为关联词，将包含该关联词的语句作为第3阶层置于与其有关联关系的所述第2阶层的所述核心词之下，形成子树归并图。

本发明的文章内容分层装置，还包括连接装置，对于依据本发明的章节内容分层得到的子树归并图，根据关联表同一阶层中核心词的关联性，将不同子树归并图连接起来，生成树归并图。

本发明在根据章节自身的结构信息(如文档中存在的各级标题蕴含的信息)的基础上，利用了词汇的重要度(即词汇在文档中出现的频率)，这样，通过章节内容分层，能够更加有效地反映章节中的结构层次关系，并且节省了处理时间。另外，本发明还通过对文章的各章节以及不同文章间分层处理，能够进行跨文档内容的合并，因而对文档内容能够进行有效的管理且大大地提高了处理速度。

附图说明

图1是表示本发明的章节内容分层装置的结构示意图。

图2是说明图1的章节内容分层装置的操作的流程图。

图3A和图3B是表示实施例1的隶属关系和并列关系的示意图。

图4是表示实施例1的章节内容分层结构的示意子树归并图。

图5A和图5B是表示不同的章节内容分层结构的示意子树归并图，图5C是表示连接不同的章节内容分层结构的示意树归并图。

图6A和图6B是表示不同的章节内容分层结构的示意子树归并图，图6C是表示合并不同的章节内容分层结构的示意树归并图。

具体实施方式

下面，基于附图对本发明的实施方式进行说明。

图1是本发明装置的结构示意图。

在图1的章节内容分层装置中，语料库101存放有多种文档，第1数据处理部102对语料库101的数据进行分析处理而得到关联词表等数据，将经处理的例如关联词表数据存放到数据存储部103中，数据存储部103还存储有高频词表、隶属关系词汇表、并列关系词汇表等中间处理数据等。输入单元104用来接收用户输入的各类文档，其中，文档的输入形式不限，可手动输入、也可以直接从已有文献库中输入。第2数据处理部105对输入文章根据其结构特点和利用存储在数据存储部103中的关联词表等进行分析处理。然后将经分析而得到的结果树归并图由显示单元104显示。显示单元104作为输出单元，用来向用户输出最终处理信息。

在此，第1数据处理部102可以采用现有的同义词词典等进行处理而预先得到关联词表。高频词表是根据例如《现代汉语词频统计语料库》等中的词频信息而得到。出现频率表根据后述的选定词在章节中出现频率进行排列而生成。

图2说明图1的章节内容分层装置的分析处理方式与过程。

从输入单元104得到输入标题和语句(步骤S201)，并对输入的标题和语句进行分词处理，即按照标题和语句的语法结构将标题和语句分割为多个词汇，接着，利用高频词表删除经分词处理的词汇中的虚词，例如“的”、“和”这样的高频词，将删除了标题和语句中的高频词后的词汇确定为选定词(步骤S202)，根据选定词在文章中的出现频率生成出现频率表，并将在步骤S202得到的结果存储在数据存储部103中。

通过采用现有的分析文章的格式(样式)的方法，判断章节是否为带有标题的章节，针对不带有标题的章节的处理方式在后面进行说明。

以下说明带有标题的章节的处理过程。首先，将在步骤S202中选定的标题中的选定词确定为核心词，提取标题中的核心词(步骤S203)。接着，判断标题中的核心词是属于隶属关系还是并列关系(步骤S204)。通过利用隶属关系词汇表或并列关系词汇表来判断核心词是隶属关系还是并列关系。在此，隶属关系表包括具有各种隶属关系的词汇，而并列关系表包括具有并列关系的词汇，隶属关系表和并列关系表均预先生成并存储在上述数据存储部103中。

如果判断为标题中的核心词间存在隶属关系(步骤S207)，则根据该隶属关系直接将属于上位的核心词作为第1阶层而将属于下位的核心词作为第2阶层进行分层，从而形成具有隶属关系的第1区域分层结构(步骤S208)。

接着，对于标题中的其他核心词进行进一步分析，如果其他核心词间存在并列关系(步骤S206)，则根据这些其他核心词出现在文档中的频率，利用步骤S202生成的出现频率表，将出现频率高的该核心词作为第1阶层，而将剩余的另一个核心词作为第2阶层。即，属于并列关系的核心词根据在文档中出现的频率来进行归类。将出现频率高的核心词作为第1阶层而频率低的另一核心词作为第2阶层进行分层，从而形成具有并列关系的第2区域分层结构(步骤S208)。

然后，对标题以外的章节进行处理，即提取标题以外的语句的选定词(步骤S205)，基于这些词汇在文章中的出现频率进行排列，按照出现频率高低的顺序，利用步骤S202生成的出现频率表和存储在第1数据存储部的关联词表，找出与第2阶层的词汇最相关联的词汇(步骤S209)，将包含该词汇的语句作为第3阶层置于与其有相关关系的所述第2阶层之下(步骤S210)，从而形成子树归并图。

通过以上分析，可以得到带有标题的章节的多个子树归并图。对于不同的带有标题的章节，通过相同的处理，可以得到各自章节的多个子树归并图。

对于不带标题的章节，也根据步骤S202生成的出现频率表的方式，对不带标题的语句进行分词，删除高频词，再将删除了高频词并选定为选定词的词汇按照在文档中出现频率高低的顺序进行排列，利用关联词表，对经排列的选定词与不同章节的所有子树归并图的第2阶层核心词间进行关联性判断，当判断为该选定词与第2阶层的某个核心词最相关联时，将包含该选定词的语句置于该第2阶层核心词之下，形成结构阶层图。通过多次反复循环处理，可以得到包括带标题章节和不带标题章节的文章的内容结构阶层图，即，可以得到文章内容的树归并图。

(实施例1)

以下通过一个简单的实施例说明本发明分析过程。例如，在文档中存在以下章节，即带有标题的段落。

(1)ID3算法的假设空间包含所有的决策树，搜索空间是完整的假设空间。因为每个有限离散值函数可以被表示为某个决策树，所以它避免了假设空间可能不包含目标函数的风险。

(2)ID3算法在搜索的每一步都使用当前的所有训练样本，以信息增益的标准为基础决定怎样简化当前的假设。使用信息增益这一统计属性的一个优点是大大降低了对个别训练样本错误的敏感性，因此，通过修改算法可以很容易地扩展到处理含有噪声的训练样本。

(3)ID3算法采用自顶向下的搜索策略，搜索全部空间的一部分，确保所作的测试次数较少，分类速度较快。算法的计算时间与样本例子个数、特征个数、结点个数三者之积呈线性关系。

(10)以上，分析和考察了ID3算法的优点。

根据图2，首先在输入单元104输入上述章节的语句和标题，根据“ID3算法的优点的分析与考察”是黑体、且下方包含(1)～(10)序号，可以确定“ID3算法的优点的分析与考察”是章节中的标题，同时确定(1)(2)...(10)序号中的内容为章节的段落。

在步骤S202进行了以下处理：对标题“ID3算法的优点的分析与考察”进行分词，得到“ID3算法/的/优点/分析/与/考察”，由于“的”和“与”为高频词表中存在的高频词，所以将高频词表中“的”和“与”删除，在此，仅说明了标题中选定词的选定过程，而对于语句中选定词的选定也进行同样处理，在此不作详细地说明。选定的结果，保留核心词“ID3算法”、“优点”、“分析”和“考察”。在步骤S202中得到核心词(步骤S203)后，判断核心词“ID3算法”与“优点”、“分析”与“考察”之间的关系(步骤S204)。

根据隶属关系词汇表判断“ID3算法”与“优点”为隶属关系(步骤S207)，故将属于隶属关系中的上位的“ID3算法”作为第1阶层核心词，而将下位的“优点”作为第2阶层核心词形成第1区域分层结构(步骤S208)，建立子树归并图(参见图3A)。

接着，对于核心词“分析”与“考察”，根据隶属关联词表可以判断不属于隶属关系，在判断为不属于隶属关系的情况下，根据并列关联词表判断核心词“分析”与“考察”为并列关系(步骤S206)。根据核心词“分析”与“考察”在段落(1)～(10)中的出现频率，经统计，可以知道核心词“分析”共计出现8次，而核心词“考察”共计出现3次，由于核心词“分析”的出现频率比核心词“考察”高，故将“分析”作为第1阶层核心词，并且与上述第1区域中的第1阶层核心词并列，而将“考察”作为第2阶层核心词形成第2区域分层结构(步骤S208)，建立章节内容结构的子树归并图(参见图3B)。

另外，上述隶属关系表和并列关系表均为预先生成的且已知的表，关联性表可以是根据同义词词典而生成的。

在对标题进行分析处理后，对标题下面的带有(1)(2)...(10)序号的段落进行分析处理，对提取的段落选定词，首先根据在步骤S202中生成的出现频率表，按照出现频率高低的顺序进行排序，再利用关联词表，找出按出现频率高低的排列的与上述第2阶层的中核心词的最相关的选定词，一旦找到这样的选定词，则将包含该选定词的语句作为第3阶层置于第2阶层核心词之下，形成文章内容的结构阶层图。

针对(1)(2)...(10)序号的段落，提取段落中的选定词(步骤S205)，按照出现频率高低的排列，根据关联词表判断关联关系。即，分析出现频率表中的选定词与第2阶层核心词的“优点”、“缺点”、“参考文献”和“考察”的关系。例如，从关联词表中找到选定词“避免”与第2阶层核心词“优点”最相关联(步骤S209)，故在段落中找到包含关联词“避免”的语句，将包含与第2阶层核心词“优点”最相关联的该关联词“避免”的语句，即“因为每个有限离散值函数可以被表示为某个决策树，所以它避免了假设空间可能不包含目标函数的风险。”作为第3阶层置于第2阶层之下(步骤S210)。这样便可以得到如图4所示的树归并图。

与上述过程相同，可以对其他章节的标题如“ID3算法的缺点”和“ID3算法所用的参考文献”等进行同样的处理，由于“缺点”、“参考文献”与“D3算法”属于隶属关系，故将下位的“缺点”、“参考文献”作为第2阶层核心词建立子树归并图。

(实施例2)

在实施例1中，通过举例对章节内容分层处理进行了简单的说明，利用该方法可以针对一篇文章中的不同章节进行分析而得到多个子树归并图，如图5A和5B所示。对于不同的子树归并图，可以根据关联词表判断同一阶层中词汇的关联性，如果存在关联，则通过它们的相应的关联词汇将不同子树归并图连接起来，生成更高阶层的树归并图(参见图5c)。例如，从关联词表可知，根据核心词“C4.5算法”和“ID3算法”与“决策树”存在关联，故通过上位相关词“决策树”将核心词“C4.5算法”和“ID3算法”列在上位相关词“决策树”，形成如图5c所示的结构阶层图。

另外，对于不同的子树归并图，图6A存在结点为核心词“ID3算法”，图6B也存在结点为核心词“ID3算法”。当两个节点为相同时，可以对两个子树归并图进行合并，生成一个更完整的树归并图，如图6c所示，将两个子树归并图的共同的节点“ID3算法”作为新树归并图的节点。

(实施例3)

对于不带标题的章节，通过以下实施方式形成树归并图。

首先，对于通过输入单元输入的不带标题的章节的每一个语句，在判断章节没有标题时，将输入的语句进行分词，按各词汇在章节中的出现频率根据出现频率高低进行排列，再根据关联词表找出与多个子树归并图的第2阶层最相关联的词汇，将包含找出的与第2阶层最相关联的词汇的语句置于该第2阶层之下作为第3阶层，形成结构阶层图。

同样，也可以将不同章节的树归并图进行合并来形成文章信息归并图。

以上对本发明的实施例进行了说明，本发明不限定于上述实施方式(实施例)，能够基于本领域的技术人员的知识进行各种设计变更等变形，已施加这种变形的实施方式(实施例)也包括在本发明的范围内。

Claims

1.一种章节内容分层方法，其特征在于，包括：

抽取文章的章节的步骤；

抽取所述章节所包含的标题中的多个词汇的第1抽取步骤；

将所抽取的标题中的所述词汇选定为核心词的选定步骤；

利用规定了词汇隶属关系的隶属关系表，对所选定的核心词进行分层处理，将属于上位的核心词作为第1阶层核心词而属于下位的核心词作为第2阶层核心词形成第1区域分层结构的第1区域设置步骤；

对已分层核心词以外的核心词进行分层处理，基于所述核心词在所述章节中的出现频率，利用规定了词汇并列关系的并列关系表，将出现频率高的核心词作为第1阶层核心词而出现频率低的核心词作为第2阶层核心词形成第2区域分层结构的第2区域设置步骤；

抽取所述标题以外的语句中的多个词汇的第2抽取步骤；

将所抽取的多个词汇选定为选定词，基于所述选定词在文章中的出现频率进行排列的第1排列步骤；和

按照出现频率高低的顺序，根据关联词表找出与所述第1区域分层结构和所述第2区域分层结构中的第2阶层核心词最相关联的选定词并将其确定为关联词，将包含该关联词的语句作为第3阶层置于与其有关联关系的所述第2阶层核心词之下，形成子树归并图的第1分层步骤。

2.如权利要求1所述的方法，其特征在于：

在所述第1抽取步骤和第2抽取步骤中，所述抽取是按照所述标题和/或语句的语法结构将所述标题和/或语句分割为多个词汇的处理。

3.如权利要求1所述的方法，其特征在于：

在所述选定步骤中，所述选定是通过删除所述词汇中的虚词而得到所述核心词和/或选定词的处理。

4.如权利要求1～3中任一项所述的方法，其特征在于：

所述关联词表基于语料库生成。

5.一种文章内容分层方法，所述文章包括带标题的章节和不带标题的章节，其特征在于：

对于权利要求1～4任一项所述的方法得到的子树归并图，根据关联词表，找出同一阶层中的核心词的关联性，通过相关联的所述核心词的上位关联词，将不同的子树归并图连接起来生成树归并图。

6.如权利要求5所述的方法，其特征在于，包括：

针对不带标题的章节，抽取所述章节的语句中的多个词汇，将抽取的词汇选定为选定词，基于所述选定词在所述文章中的出现频率进行排列的第2排列步骤，

按照出现频率高低的顺序，找出与所述第2阶层核心词最相关联的选定词并将其确定为关联词，将包含该关联词的语句作为第3阶层置于与其有关联关系的所述第2阶层核心词之下的第2分层步骤。

7.一种章节内容分层装置，其特征在于，包括：

第1抽取装置，抽取文章的章节，抽取所述章节所包含的标题中的多个词汇；

选定装置，将所抽取的标题中的所述词汇选定为核心词；

第1区域设置装置，利用规定了词汇隶属关系的隶属关系表，对所述标题中所选定的核心词进行分层处理，将属于上位的核心词作为第1阶层核心词而属于下位的核心词作为第2阶层核心词来形成第1区域分层结构；

第2区域设置装置，对已分层核心词以外的核心词进行分层处理，基于所述核心词在所述章节中的出现频率，利用规定了词汇并列关系的并列关系表，将出现频率高的核心词作为第1阶层核心词，而出现频率低的核心词作为第2阶层核心词形成第2区域分层结构；

第2抽取装置，抽取所述标题以外的语句中的多个词汇；

第1排列装置，选定所抽取的多个词汇为选定词，基于所述选定词在文章中的出现频率进行排列；和

第1分层装置，按照出现频率高低的顺序，根据关联词表找出与所述第1区域分层结构和所述第2区域分层结构中的第2阶层的核心词最相关联的选定词并将其确定为关联词，将包含该关联词的语句作为第3阶层置于与其有关联关系的所述第2阶层的所述核心词之下，形成子树归并图。

8.一种文章内容分层装置，所述文章包括带标题的章节和不带标题的章节，其特征在于：

还包括连接装置，对于根据权利要求7所述装置得到的子树归并图，找出同一阶层中的核心词的关联性，通过相关联的所述核心词的上位关联词，将不同的子树归并图连接起来生成树归并图。

9.如权利要求8所述的装置，其特征在于：

还包括第2排列装置，针对不带标题的章节，抽取所述章节的语句中的多个词汇，将所抽取的词汇选定为选定词，基于所述选定词在章节中的出现频率进行排列；和

第2分层装置，按照所述出现频率高低的顺序，找出与第2阶层核心词最相关联的选定词并将其确定为关联词，将包含该关联词的语句作为第3阶层置于与其有关联关系的所述第2阶层核心词之下。