CN103593339A

CN103593339A - 面向电子图书的语义空间表示方法及系统

Info

Publication number: CN103593339A
Application number: CN201310634080.1A
Authority: CN
Inventors: 张海军; 黄晓辉; 叶允明; 张晓利
Original assignee: Shenzhen Graduate School Harbin Institute of Technology
Current assignee: Shenzhen Graduate School Harbin Institute of Technology
Priority date: 2013-11-29
Filing date: 2013-11-29
Publication date: 2014-02-19

Abstract

本发明提供了一种面向电子图书的语义空间表示方法及系统，该面向电子图书的语义空间表示方法包括如下步骤：A.文档分割：将电子图书按语义结构分成若干个语义单元；B.权重计算：首先构建全文的词汇表，从而电子图书的每一个语义单元用一个词频向量表示，整个电子图书用一个词频矩阵来表示；然后根据权重计算方法针对每个词计算其权重；C.关系图构建：根据电子图书的词频矩阵和词的权重构建一个词邻接关系图；D.多维压缩：用该低维语义空间模型表示电子图书。本发明的有益效果是本发明的低维空间表示可以更加有效的用于储存、分类、聚类等数据分析与挖掘。

Description

面向电子图书的语义空间表示方法及系统

技术领域

本发明涉及数据处理方法，尤其涉及面向电子图书的语义空间表示方法及系统。

背景技术

随着互联网、电子商务的快速发展，电子图书的应用愈加广泛。然而，快速的组织和理解这些海量的电子图书已经远远超出了人类的认知与理解能力，只有借助计算机的高效处理才有可能从中获取人们感兴趣的知识与信息。其中，文本信息是互联网信息中的重要部分，而文本信息是一种半结构或无结构的数据，传统数据挖掘算法无法直接适用于文本挖掘，因此，将无结构的文本信息转化为结构化信息是文本挖掘的关键性、基础性的问题。文档的结构化表示模型是文档自动处理的基础。文档表示模型的优劣是影响后续处理的重要因素之一。传统的文档表示模型以向量空间模型(Vector Space Model,VSM)为主，然而，随着文本规模增大，向量空间的维数也迅速增大，造成了“维数灾难”问题，现有文本挖掘算法的性能急剧下降；其次由于忽略了词与词之间的语义相关性，同义词与多义词等语言现象导致了算法准确性的下降；同时由于向量空间模型只考虑了词频信息，而忽略了词频的空间分布信息，它无法达到更高的准确率。

发明内容

为了解决现有技术中的问题，本发明提供了一种面向电子图书的语义空间表示方法。

本发明提供了一种面向电子图书的语义空间表示方法，包括如下步骤：

A.文档分割：将电子图书按语义结构分成若干个语义单元；

B.权重计算：首先构建全文的词汇表，从而电子图书的每一个语义单元用一个词频向量表示，整个电子图书用一个词频矩阵来表示；然后根据权重计算方法针对每个词计算其权重；

C.关系图构建：根据电子图书的词频矩阵和词的权重构建一个词邻接关系图，词邻接关系图用一个邻接矩阵表示，矩阵中的每个元素值表示词邻接关系图中边的权重；

D.多维压缩：利用多维主成分分析将词邻接关系图映射到一个低维语义空间上，用该低维语义空间模型表示电子图书。

作为本发明的进一步改进，在所述文档分割步骤中，将电子图书按照自然段落划分为不同的语义单元，划分过程如下：

（1）.把全文按自然段落划分，每一个段落成为一个单独的语义单元；

（2）.如果某一个自然段落的词数目少于一个给定阀值，则把该段落合并到下个一个语义单元中。

作为本发明的进一步改进，在所述权重计算步骤中，构建词汇表的方法步骤如下：

（1）.去停词：将文档中没有具体意义的词去掉；

（2）.提取词干或提取词组：在英文中，需要对词做词干；中文需要提取文章中的词语；

（3）.计算每个词的tfidf值：计算公式如下，其中，是第u个词在整个文档中的频率，idf表示逆文档频率，

n是文档的数目；

（4）.根据tfidf值选择前m个词作为文档集的词汇表。

作为本发明的进一步改进，在所述关系图构建步骤中，为了表示词空间分布，对每一个文档构建一个词关系邻接图,词汇表中每一个词作为一个顶点；在同一个语义单元中共同出现的词之间有一条边，这样，文档G_i可以用一个m×m的矩阵表示其邻接关系图，图中边的权重计算如下：

g_{i, u, v} \{\begin{matrix} F_{u, v} \log_{2} (n / {DF}_{u, v}) {{| | G}_{i} | |}_{2}, u &NotEqual; v \\ f_{u}^{t} \log (n / f_{u}^{d}) / {| | G_{i} | |}_{2}, u = v \end{matrix}

其中，||.||₂为Frobenius范数，F_u,v为在文档i词u，词v共同在一段中发生的词频，DF_u,v为词u，词v共同出的文档数，

为词u在所有文档中的频率之和，

为第u个词的文档频率。

作为本发明的进一步改进，在所述多维压缩步骤中，包括如下步骤：

语义投影：对邻接矩阵图进行语义投影降低矩阵的维度，给定一个m×m的邻接矩阵图Ｇ，语义投影的目的是产生一个d×d(d<<m)的低维投影矩阵

其中，Ｖ是一个m×d的线性变换矩阵；

语义空间学习：利用二维主成分分析来获得矩阵V；

语义空间投影选择：选择

的一个子矩阵Ｚ(d×k,k≤d)作为图Ｇ的低维压缩表示。

本发明还提供了一种面向电子图书的语义空间表示系统，包括：

文档分割单元：用于将电子图书按语义结构分成若干个语义单元；

权重计算单元：用于首先构建全文的词汇表，从而电子图书的每一个语义单元用一个词频向量表示，整个电子图书用一个词频矩阵来表示；然后根据权重计算方法针对每个词计算其权重；

关系图构建单元：用于根据电子图书的词频矩阵和词的权重构建一个词邻接关系图，词邻接关系图用一个邻接矩阵表示，矩阵中的每个元素值表示词邻接关系图中边的权重；

多维压缩单元：利用多维主成分分析将词邻接关系图映射到一个低维语义空间上，用该低维语义空间模型表示电子图书。

作为本发明的进一步改进，在所述文档分割单元中，将电子图书按照自然段落划分为不同的语义单元，划分过程执行如下模块：

划分模块：用于把全文按自然段落划分，每一个段落成为一个单独的语义单元；

合并模块：如果某一个自然段落的词数目少于一个给定阀值，则把该段落合并到下个一个语义单元中。

作为本发明的进一步改进，在所述权重计算单元中，构建词汇表时执行如下模块：

去停词模块：用于将文档中没有具体意义的词去掉；

提取词干或提取词组模块：用于在英文中，需要对词做词干；中文需要提取文章中的词语；

计算每个词的tfidf值模块：计算公式如下，

其中，

是第u个词在整个文档中的频率，idf表示逆文档频率，

n是文档的数目；

选择模块：用于根据tfidf值选择前m个词作为文档集的词汇表。

作为本发明的进一步改进，在所述关系图构建单元中，为了表示词空间分布，对每一个文档构建一个词关系邻接图,词汇表中每一个词作为一个顶点；在同一个语义单元中共同出现的词之间有一条边，这样，文档G_i可以用一个m×m的矩阵表示其邻接关系图，图中边的权重计算如下：

g_{i, u, v} \{\begin{matrix} F_{u, v} \log_{2} (n / {DF}_{u, v}) {{| | G}_{i} | |}_{2}, u &NotEqual; v \\ f_{u}^{t} \log (n / f_{u}^{d}) / {| | G_{i} | |}_{2}, u = v \end{matrix}

其中，||.||₂为Frobenius范数，F_u,v为在文档i词u，词v共同在一段中发生的词频，DF_u,v为词u，词v共同出的文档数，为词u在所有文档中的频率之和，

为第u个词的文档频率。

作为本发明的进一步改进，在所述多维压缩单元中，包括：

语义投影模块：用于对邻接矩阵图进行语义投影降低矩阵的维度，给定一个m×m的邻接矩阵图Ｇ，语义投影的目的是产生一个d×d(d<<m)的低维投影矩阵

其中，Ｖ是一个m×d的线性变换矩阵；

语义空间学习模块：用于利用二维主成分分析来获得矩阵V；

语义空间投影选择模块：用于选择

的一个子矩阵Ｚ(d×k,k≤d)作为图Ｇ的低维压缩表示。

本发明的有益效果是：本发明通过对长文本进行分割，计算词的权重，构建关系图，多维压缩关系图后得到一个长文本的低维空间表示。本发明的低维空间表示可以更加有效的用于储存、分类、聚类等数据分析与挖掘。

附图说明

图1是本发明的流程图。

图2是本发明的词汇表构建流程图。

图3是本发明的词邻接关系图构建示例图。

图4是本发明的多维语义压缩流程图。

图5是本发明的多维语义压缩算法流程。

具体实施方式

如图1所示，本发明公开了一种面向电子图书的语义空间表示方法，包括如下步骤：

100文档分割：将超长文档按语义单元划分若干部分，每一个部分都是相对独立的语义单元。针对于电子图书，本发明按文中的自然段落划分，每一个段落看成一个语义单元。

具体实施过程如下：传统的主成分分析(Principle Component Analysis,PCA)模型和潜层语义分析(Latent Semantic Index,LSI)模型缺乏对词与词之间的联系和词的空间分布描述。本发明中提出一种新的能够满足上述要求的文档描述方法。首先，把电子图书按照自然段落划分为不同的语义单元，划分过程如下：

1.把全文按自然段落划分，每一个段落成为一个单独的语义单元；

2.如果某一个自然段落的词数目少于一个给定阀值(一般为50)，则把该段落合并到下个一个语义单元中。

在具体应用中，可以根据要求可以把文章划成更大或者更小的语义单元，例如，可根据章节，页面，句子或短语等把文章划分成不同的语义单元。

101权重计算：在权重计算中，首先需要构建全文的词汇表；这样，电子图书的每一个语义单元可以用一个词频向量表示，整个电子图书可以用一个词频矩阵来表示。然后根据合适的权重计算方法，针对每个词计算其权重。

具体实施过程如下：在计算权重之前，首先要针对整个数据集构建文档的词汇表。构建词汇表的过程如图2，其中包括如下步骤：

1.去停词：文档中有很多没有具体意义的词，在做处理之前，先要把这些词去掉，例如英文中的，“a”,“the”，“are”等，中文的“的”，“得”，“这”等。

2.做词干或提取词组：在英文中，需要对词做词干，例如“programs”,“programming”和“program”具有相同的意义，因此需要把“programs”和“programming”转换成“program”。而中文文章是由单个的词组成，大部分情况下，单个的词没有很明确的意义，例如“中国”比“中”和“国”的意义更明确。因此，需要提取文章中的词语。

3.计算每个词的term frequency-inverse document frequency(tfidf)值：为了取得更有区分能力的词，本发明先计算每个词的tfidf值,计算公式如下：

w_{u} = f_{u}^{t} idf

其中，

是第u个词在整个文档中的频率，idf表示逆文档频率，

idf = \log_{2} (n / f_{u}^{d}),

n是文档的数目。

4.根据tfidf值选择前m个词作为文档集的词汇表。

构建完词汇表后，针对每篇文档中的每个词，可以计算词的权重，权重计算有如下方法：

NORM : w_{u} = (\frac{f_{u, i}}{W_{i}}) \log (n / f_{u}^{d})

BD - ACI - BCA : w_{u} = (\frac{1 + \log f_{u, i}}{1 - s + s W_{i} / {\overset{&OverBar;}{W}}_{i}}) \log (1 + f_{u}^{m} / f_{u}^{d})

AB - AFD - BAA (Okapi) : w_{u} = (\frac{f_{u, i}}{f_{u, i} + τ_{i} / {\overset{&OverBar;}{τ}}_{i}}) \log (1 + n / f_{u}^{d})

BI - ACI - BCA : w_{u} = (\frac{1 + \log f_{u, i}}{1 - s + s W_{i} / {\overset{&OverBar;}{W}}_{i}}) \log (1 - \frac{n_{u}}{\log_{2} n})

Lnu . ltu (SMART) : w_{u} = (\frac{(1 + \log) f_{u, i} / (1 + \log {\overset{&OverBar;}{f}}_{u, i})}{1 - s + s τ_{i} / {\overset{&OverBar;}{τ}}_{i}}) \log (n / f_{u}^{d})

其中，f_u,i为第i个文档中第u个词词频，

为第u个词的文档频率，

为所有词中最大的文档频率，W_i为第i个文档的二范数，

为W_i的平均值，τ_i为文档i中的词的数目，

为所有文档平均词数目，s为斜率参数(一般设置为0.7)，n_u是词u的噪音度量。

102关系图构建：根据电子图书的词频矩阵和词的权重构建一个词邻接关系图。词邻接关系图可以用一个邻接矩阵表示，矩阵中的每个元素值表示词邻接关系图中边的权重。

具体实施过程如下：

为了表示词空间分布，本发明对每一个文档构建一个词关系邻接图。词汇表中每一个词作为一个顶点。在同一个语义单元中共同出现的词之间有一条边，这样，文档G_i可以用一个m×m的矩阵表示其邻接关系图，图中边的权重计算如下：

g_{i, u, v} \{\begin{matrix} F_{u, v} \log_{2} (n / {DF}_{u, v}) {{| | G}_{i} | |}_{2}, u &NotEqual; v \\ f_{u}^{t} \log (n / f_{u}^{d}) / {| | G_{i} | |}_{2}, u = v \end{matrix}

为词u在所有文档中的频率之和，

为第u个词的文档频率。如图3所示，假设词汇表中有三个词，把一个文档分为五个段落。然后把该段落词频表转换成邻接关系图矩阵。

103多维压缩：利用多维主成分分析将词邻接关系图映射到一个低维语义空间上。用该低维语义空间模型表示电子图书。

具体实施过程如下：

在上一步骤中，得到了电子图书的邻接关系图。在这一步骤中，将该邻接关系图压缩到一个低维的语义空间上。具体可以分三个子步骤实施：语义投影、语义空间学习和语义空间投影选择，如图4。

语义投影：在102步骤中，词邻接矩阵图通常是大规模的而且是稀疏的。此外，词邻接矩阵图可能会包含大量的来自于原始文档的噪音。对该矩阵进行语义投影可以降低矩阵的维度，同时消除部分噪音。给定一个m×m的邻接矩阵图Ｇ，语义投影的目的是产生一个d×d(d<<m)的低维投影矩阵

\tilde{Z} = V^{T} GV

其中，Ｖ是一个m×d的线性变换矩阵。在具体应用中，可以选择

的部分列作为Ｇ压缩表示。

语义空间学习：语义空间学习的目的是为了获得线性变化矩阵V，本发明中利用二维主成分分析(2-dimension Principle Component Analysis，2DPCA)来获得矩阵V。假设{G₁,G₂,...,G_n}是一个训练文档集，每一个G_i表示成一个词邻接关系图矩阵，那么数据集的散度矩阵C可以表示成

C = \frac{1}{n} Σ_{i = 1}^{n} {(G_{i} - \overset{&OverBar;}{G})}^{T} (G_{i} - \overset{&OverBar;}{G})

其中，为所有训练集的平均图。与主成分分析相似，二维主成分分析也利用散度矩阵C来度量线性变化矩阵V的区分能力。可以通过最大化以下准则来计算V，

J(v)=v^TCv

其中，v是归一化的列向量。通常只把Ｃ投影到一个最优特征向量上是不能够准确的。因此，需要找到一组正交特征向量集v₁,v₂,...,v_d，该特征向量集满足下列标准：

{v₁,v₂,...,v_d}=argmaxJ(v)

服从约束条件

v_{j}^{T} v_{l} = 0 (j &NotEqual; l, j, l = 1,2, . . ., d) .

语义空间投影选择：在实际运用中，可以选择

的一个子矩阵Ｚ(d×k,k≤d)作为图Ｇ的低维压缩表示。当k=1时，矩阵Ｚ就变成一个列向量。在实际应用中，当k=1时就可以取得较好的效果，如图5为本发明算法的流程图。

本发明是一种面向电子图书的语义空间表示模型。针对超长文本的高维性、词汇量大等特点，本发明设计了一种基于词汇空间分布的压缩语义表示模型。具体来说，本发明通过对长文本进行分割，计算词的权重，构建关系图，多维压缩关系图后得到一个长文本的低维空间表示。本发明的低维空间表示可以更加有效的用于储存、分类、聚类等数据分析与挖掘。

本发明还公开了一种面向电子图书的语义空间表示系统，包括：

在所述文档分割单元中，将电子图书按照自然段落划分为不同的语义单元，划分过程执行如下模块：

在所述权重计算单元中，构建词汇表时执行如下模块：

去停词模块：用于将文档中没有具体意义的词去掉；

计算每个词的tfidf值模块：计算公式如下，

其中，

是第u个词在整个文档中的频率，idf表示逆文档频率，

n是文档的数目；

在所述关系图构建单元中，为了表示词空间分布，对每一个文档构建一个词关系邻接图,词汇表中每一个词作为一个顶点；在同一个语义单元中共同出现的词之间有一条边，这样，文档G_i可以用一个m×m的矩阵表示其邻接关系图，图中边的权重计算如下：

g_{i, u, v} \{\begin{matrix} F_{u, v} \log_{2} (n / {DF}_{u, v}) {{| | G}_{i} | |}_{2}, u &NotEqual; v \\ f_{u}^{t} \log (n / f_{u}^{d}) / {| | G_{i} | |}_{2}, u = v \end{matrix}

为词u在所有文档中的频率之和，

为第u个词的文档频率。

在所述多维压缩单元中，包括：

其中，Ｖ是一个m×d的线性变换矩阵；

语义空间学习模块：用于利用二维主成分分析来获得矩阵V；

语义空间投影选择模块：用于选择

的一个子矩阵Ｚ(d×k,k≤d)作为图Ｇ的低维压缩表示。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。