CN103593339A - 面向电子图书的语义空间表示方法及系统 - Google Patents
面向电子图书的语义空间表示方法及系统 Download PDFInfo
- Publication number
- CN103593339A CN103593339A CN201310634080.1A CN201310634080A CN103593339A CN 103593339 A CN103593339 A CN 103593339A CN 201310634080 A CN201310634080 A CN 201310634080A CN 103593339 A CN103593339 A CN 103593339A
- Authority
- CN
- China
- Prior art keywords
- word
- semantic
- document
- book
- matrix
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Machine Translation (AREA)
Abstract
本发明提供了一种面向电子图书的语义空间表示方法及系统,该面向电子图书的语义空间表示方法包括如下步骤:A.文档分割:将电子图书按语义结构分成若干个语义单元;B.权重计算:首先构建全文的词汇表,从而电子图书的每一个语义单元用一个词频向量表示,整个电子图书用一个词频矩阵来表示;然后根据权重计算方法针对每个词计算其权重;C.关系图构建:根据电子图书的词频矩阵和词的权重构建一个词邻接关系图;D.多维压缩:用该低维语义空间模型表示电子图书。本发明的有益效果是本发明的低维空间表示可以更加有效的用于储存、分类、聚类等数据分析与挖掘。
Description
技术领域
本发明涉及数据处理方法,尤其涉及面向电子图书的语义空间表示方法及系统。
背景技术
随着互联网、电子商务的快速发展,电子图书的应用愈加广泛。然而,快速的组织和理解这些海量的电子图书已经远远超出了人类的认知与理解能力,只有借助计算机的高效处理才有可能从中获取人们感兴趣的知识与信息。其中,文本信息是互联网信息中的重要部分,而文本信息是一种半结构或无结构的数据,传统数据挖掘算法无法直接适用于文本挖掘,因此,将无结构的文本信息转化为结构化信息是文本挖掘的关键性、基础性的问题。文档的结构化表示模型是文档自动处理的基础。文档表示模型的优劣是影响后续处理的重要因素之一。传统的文档表示模型以向量空间模型(Vector Space Model,VSM)为主,然而,随着文本规模增大,向量空间的维数也迅速增大,造成了“维数灾难”问题,现有文本挖掘算法的性能急剧下降;其次由于忽略了词与词之间的语义相关性,同义词与多义词等语言现象导致了算法准确性的下降;同时由于向量空间模型只考虑了词频信息,而忽略了词频的空间分布信息,它无法达到更高的准确率。
发明内容
为了解决现有技术中的问题,本发明提供了一种面向电子图书的语义空间表示方法。
本发明提供了一种面向电子图书的语义空间表示方法,包括如下步骤:
A.文档分割:将电子图书按语义结构分成若干个语义单元;
B.权重计算:首先构建全文的词汇表,从而电子图书的每一个语义单元用一个词频向量表示,整个电子图书用一个词频矩阵来表示;然后根据权重计算方法针对每个词计算其权重;
C.关系图构建:根据电子图书的词频矩阵和词的权重构建一个词邻接关系图,词邻接关系图用一个邻接矩阵表示,矩阵中的每个元素值表示词邻接关系图中边的权重;
D.多维压缩:利用多维主成分分析将词邻接关系图映射到一个低维语义空间上,用该低维语义空间模型表示电子图书。
作为本发明的进一步改进,在所述文档分割步骤中,将电子图书按照自然段落划分为不同的语义单元,划分过程如下:
(1).把全文按自然段落划分,每一个段落成为一个单独的语义单元;
(2).如果某一个自然段落的词数目少于一个给定阀值,则把该段落合并到下个一个语义单元中。
作为本发明的进一步改进,在所述权重计算步骤中,构建词汇表的方法步骤如下:
(1).去停词:将文档中没有具体意义的词去掉;
(2).提取词干或提取词组:在英文中,需要对词做词干;中文需要提取文章中的词语;
(4).根据tfidf值选择前m个词作为文档集的词汇表。
作为本发明的进一步改进,在所述关系图构建步骤中,为了表示词空间分布,对每一个文档构建一个词关系邻接图,词汇表中每一个词作为一个顶点;在同一个语义单元中共同出现的词之间有一条边,这样,文档Gi可以用一个m×m的矩阵表示其邻接关系图,图中边的权重计算如下:
作为本发明的进一步改进,在所述多维压缩步骤中,包括如下步骤:
语义空间学习:利用二维主成分分析来获得矩阵V;
本发明还提供了一种面向电子图书的语义空间表示系统,包括:
文档分割单元:用于将电子图书按语义结构分成若干个语义单元;
权重计算单元:用于首先构建全文的词汇表,从而电子图书的每一个语义单元用一个词频向量表示,整个电子图书用一个词频矩阵来表示;然后根据权重计算方法针对每个词计算其权重;
关系图构建单元:用于根据电子图书的词频矩阵和词的权重构建一个词邻接关系图,词邻接关系图用一个邻接矩阵表示,矩阵中的每个元素值表示词邻接关系图中边的权重;
多维压缩单元:利用多维主成分分析将词邻接关系图映射到一个低维语义空间上,用该低维语义空间模型表示电子图书。
作为本发明的进一步改进,在所述文档分割单元中,将电子图书按照自然段落划分为不同的语义单元,划分过程执行如下模块:
划分模块:用于把全文按自然段落划分,每一个段落成为一个单独的语义单元;
合并模块:如果某一个自然段落的词数目少于一个给定阀值,则把该段落合并到下个一个语义单元中。
作为本发明的进一步改进,在所述权重计算单元中,构建词汇表时执行如下模块:
去停词模块:用于将文档中没有具体意义的词去掉;
提取词干或提取词组模块:用于在英文中,需要对词做词干;中文需要提取文章中的词语;
选择模块:用于根据tfidf值选择前m个词作为文档集的词汇表。
作为本发明的进一步改进,在所述关系图构建单元中,为了表示词空间分布,对每一个文档构建一个词关系邻接图,词汇表中每一个词作为一个顶点;在同一个语义单元中共同出现的词之间有一条边,这样,文档Gi可以用一个m×m的矩阵表示其邻接关系图,图中边的权重计算如下:
作为本发明的进一步改进,在所述多维压缩单元中,包括:
语义空间学习模块:用于利用二维主成分分析来获得矩阵V;
本发明的有益效果是:本发明通过对长文本进行分割,计算词的权重,构建关系图,多维压缩关系图后得到一个长文本的低维空间表示。本发明的低维空间表示可以更加有效的用于储存、分类、聚类等数据分析与挖掘。
附图说明
图1是本发明的流程图。
图2是本发明的词汇表构建流程图。
图3是本发明的词邻接关系图构建示例图。
图4是本发明的多维语义压缩流程图。
图5是本发明的多维语义压缩算法流程。
具体实施方式
如图1所示,本发明公开了一种面向电子图书的语义空间表示方法,包括如下步骤:
100文档分割:将超长文档按语义单元划分若干部分,每一个部分都是相对独立的语义单元。针对于电子图书,本发明按文中的自然段落划分,每一个段落看成一个语义单元。
具体实施过程如下:传统的主成分分析(Principle Component Analysis,PCA)模型和潜层语义分析(Latent Semantic Index,LSI)模型缺乏对词与词之间的联系和词的空间分布描述。本发明中提出一种新的能够满足上述要求的文档描述方法。首先,把电子图书按照自然段落划分为不同的语义单元,划分过程如下:
1.把全文按自然段落划分,每一个段落成为一个单独的语义单元;
2.如果某一个自然段落的词数目少于一个给定阀值(一般为50),则把该段落合并到下个一个语义单元中。
在具体应用中,可以根据要求可以把文章划成更大或者更小的语义单元,例如,可根据章节,页面,句子或短语等把文章划分成不同的语义单元。
101权重计算:在权重计算中,首先需要构建全文的词汇表;这样,电子图书的每一个语义单元可以用一个词频向量表示,整个电子图书可以用一个词频矩阵来表示。然后根据合适的权重计算方法,针对每个词计算其权重。
具体实施过程如下:在计算权重之前,首先要针对整个数据集构建文档的词汇表。构建词汇表的过程如图2,其中包括如下步骤:
1.去停词:文档中有很多没有具体意义的词,在做处理之前,先要把这些词去掉,例如英文中的,“a”,“the”,“are”等,中文的“的”,“得”,“这”等。
2.做词干或提取词组:在英文中,需要对词做词干,例如“programs”,“programming”和“program”具有相同的意义,因此需要把“programs”和“programming”转换成“program”。而中文文章是由单个的词组成,大部分情况下,单个的词没有很明确的意义,例如“中国”比“中”和“国”的意义更明确。因此,需要提取文章中的词语。
3.计算每个词的term frequency-inverse document frequency(tfidf)值:为了取得更有区分能力的词,本发明先计算每个词的tfidf值,计算公式如下:
4.根据tfidf值选择前m个词作为文档集的词汇表。
构建完词汇表后,针对每篇文档中的每个词,可以计算词的权重,权重计算有如下方法:
其中,fu,i为第i个文档中第u个词词频,为第u个词的文档频率,为所有词中最大的文档频率,Wi为第i个文档的二范数,为Wi的平均值,τi为文档i中的词的数目,为所有文档平均词数目,s为斜率参数(一般设置为0.7),nu是词u的噪音度量。
102关系图构建:根据电子图书的词频矩阵和词的权重构建一个词邻接关系图。词邻接关系图可以用一个邻接矩阵表示,矩阵中的每个元素值表示词邻接关系图中边的权重。
具体实施过程如下:
为了表示词空间分布,本发明对每一个文档构建一个词关系邻接图。词汇表中每一个词作为一个顶点。在同一个语义单元中共同出现的词之间有一条边,这样,文档Gi可以用一个m×m的矩阵表示其邻接关系图,图中边的权重计算如下:
其中,||.||2为Frobenius范数,Fu,v为在文档i词u,词v共同在一段中发生的词频,DFu,v为词u,词v共同出的文档数,为词u在所有文档中的频率之和,为第u个词的文档频率。如图3所示,假设词汇表中有三个词,把一个文档分为五个段落。然后把该段落词频表转换成邻接关系图矩阵。
103多维压缩:利用多维主成分分析将词邻接关系图映射到一个低维语义空间上。用该低维语义空间模型表示电子图书。
具体实施过程如下:
在上一步骤中,得到了电子图书的邻接关系图。在这一步骤中,将该邻接关系图压缩到一个低维的语义空间上。具体可以分三个子步骤实施:语义投影、语义空间学习和语义空间投影选择,如图4。
语义投影:在102步骤中,词邻接矩阵图通常是大规模的而且是稀疏的。此外,词邻接矩阵图可能会包含大量的来自于原始文档的噪音。对该矩阵进行语义投影可以降低矩阵的维度,同时消除部分噪音。给定一个m×m的邻接矩阵图G,语义投影的目的是产生一个d×d(d<<m)的低维投影矩阵
语义空间学习:语义空间学习的目的是为了获得线性变化矩阵V,本发明中利用二维主成分分析(2-dimension Principle Component Analysis,2DPCA)来获得矩阵V。假设{G1,G2,...,Gn}是一个训练文档集,每一个Gi表示成一个词邻接关系图矩阵,那么数据集的散度矩阵C可以表示成
其中,为所有训练集的平均图。与主成分分析相似,二维主成分分析也利用散度矩阵C来度量线性变化矩阵V的区分能力。可以通过最大化以下准则来计算V,
J(v)=vTCv
其中,v是归一化的列向量。通常只把C投影到一个最优特征向量上是不能够准确的。因此,需要找到一组正交特征向量集v1,v2,...,vd,该特征向量集满足下列标准:
{v1,v2,...,vd}=argmaxJ(v)
服从约束条件
语义空间投影选择:在实际运用中,可以选择的一个子矩阵Z(d×k,k≤d)作为图G的低维压缩表示。当k=1时,矩阵Z就变成一个列向量。在实际应用中,当k=1时就可以取得较好的效果,如图5为本发明算法的流程图。
本发明是一种面向电子图书的语义空间表示模型。针对超长文本的高维性、词汇量大等特点,本发明设计了一种基于词汇空间分布的压缩语义表示模型。具体来说,本发明通过对长文本进行分割,计算词的权重,构建关系图,多维压缩关系图后得到一个长文本的低维空间表示。本发明的低维空间表示可以更加有效的用于储存、分类、聚类等数据分析与挖掘。
本发明还公开了一种面向电子图书的语义空间表示系统,包括:
文档分割单元:用于将电子图书按语义结构分成若干个语义单元;
权重计算单元:用于首先构建全文的词汇表,从而电子图书的每一个语义单元用一个词频向量表示,整个电子图书用一个词频矩阵来表示;然后根据权重计算方法针对每个词计算其权重;
关系图构建单元:用于根据电子图书的词频矩阵和词的权重构建一个词邻接关系图,词邻接关系图用一个邻接矩阵表示,矩阵中的每个元素值表示词邻接关系图中边的权重;
多维压缩单元:利用多维主成分分析将词邻接关系图映射到一个低维语义空间上,用该低维语义空间模型表示电子图书。
在所述文档分割单元中,将电子图书按照自然段落划分为不同的语义单元,划分过程执行如下模块:
划分模块:用于把全文按自然段落划分,每一个段落成为一个单独的语义单元;
合并模块:如果某一个自然段落的词数目少于一个给定阀值,则把该段落合并到下个一个语义单元中。
在所述权重计算单元中,构建词汇表时执行如下模块:
去停词模块:用于将文档中没有具体意义的词去掉;
提取词干或提取词组模块:用于在英文中,需要对词做词干;中文需要提取文章中的词语;
选择模块:用于根据tfidf值选择前m个词作为文档集的词汇表。
在所述关系图构建单元中,为了表示词空间分布,对每一个文档构建一个词关系邻接图,词汇表中每一个词作为一个顶点;在同一个语义单元中共同出现的词之间有一条边,这样,文档Gi可以用一个m×m的矩阵表示其邻接关系图,图中边的权重计算如下:
在所述多维压缩单元中,包括:
语义空间学习模块:用于利用二维主成分分析来获得矩阵V;
以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明,不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干简单推演或替换,都应当视为属于本发明的保护范围。
Claims (10)
1.一种面向电子图书的语义空间表示方法,其特征在于,包括如下步骤:
A.文档分割:将电子图书按语义结构分成若干个语义单元;
B.权重计算:首先构建全文的词汇表,从而电子图书的每一个语义单元用一个词频向量表示,整个电子图书用一个词频矩阵来表示;然后根据权重计算方法针对每个词计算其权重;
C.关系图构建:根据电子图书的词频矩阵和词的权重构建一个词邻接关系图,词邻接关系图用一个邻接矩阵表示,矩阵中的每个元素值表示词邻接关系图中边的权重;
D.多维压缩:利用多维主成分分析将词邻接关系图映射到一个低维语义空间上,用该低维语义空间模型表示电子图书。
2.根据权利要求1所述的语义空间表示方法,其特征在于,在所述文档分割步骤中,将电子图书按照自然段落划分为不同的语义单元,划分过程如下:
(1).把全文按自然段落划分,每一个段落成为一个单独的语义单元;
(2).如果某一个自然段落的词数目少于一个给定阀值,则把该段落合并到下个一个语义单元中。
6.一种面向电子图书的语义空间表示系统,其特征在于,包括:
文档分割单元:用于将电子图书按语义结构分成若干个语义单元;
权重计算单元:用于首先构建全文的词汇表,从而电子图书的每一个语义单元用一个词频向量表示,整个电子图书用一个词频矩阵来表示;然后根据权重计算方法针对每个词计算其权重;
关系图构建单元:用于根据电子图书的词频矩阵和词的权重构建一个词邻接关系图,词邻接关系图用一个邻接矩阵表示,矩阵中的每个元素值表示词邻接关系图中边的权重;
多维压缩单元:利用多维主成分分析将词邻接关系图映射到一个低维语义空间上,用该低维语义空间模型表示电子图书。
7.根据权利要求6所述的语义空间表示系统,其特征在于,在所述文档分割单元中,将电子图书按照自然段落划分为不同的语义单元,划分过程执行如下模块:
划分模块:用于把全文按自然段落划分,每一个段落成为一个单独的语义单元;
合并模块:如果某一个自然段落的词数目少于一个给定阀值,则把该段落合并到下个一个语义单元中。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310634080.1A CN103593339A (zh) | 2013-11-29 | 2013-11-29 | 面向电子图书的语义空间表示方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310634080.1A CN103593339A (zh) | 2013-11-29 | 2013-11-29 | 面向电子图书的语义空间表示方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103593339A true CN103593339A (zh) | 2014-02-19 |
Family
ID=50083489
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310634080.1A Pending CN103593339A (zh) | 2013-11-29 | 2013-11-29 | 面向电子图书的语义空间表示方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103593339A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117487A (zh) * | 2015-09-19 | 2015-12-02 | 杭州电子科技大学 | 一种基于内容结构的图书语义检索方法 |
CN108650428A (zh) * | 2018-04-23 | 2018-10-12 | 贵州小爱机器人科技有限公司 | 案件申诉举报处理方法及系统、应用装置 |
CN111274537A (zh) * | 2020-01-20 | 2020-06-12 | 山西大学 | 一种基于惩罚性矩阵分解的文献表示方法 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
US20100332503A1 (en) * | 2009-06-30 | 2010-12-30 | Brad Buckley | System and Method for Using an Exemplar Document to Retrieve Relevant Documents from an Inverted Index of a Large Corpus |
US20110225159A1 (en) * | 2010-01-27 | 2011-09-15 | Jonathan Murray | System and method of structuring data for search using latent semantic analysis techniques |
CN102622373A (zh) * | 2011-01-31 | 2012-08-01 | 中国科学院声学研究所 | 一种基于tf*idf算法的统计学文本分类系统及方法 |
CN102662952A (zh) * | 2012-03-02 | 2012-09-12 | 成都康赛电子科大信息技术有限责任公司 | 一种基于层次的中文文本并行数据挖掘方法 |
-
2013
- 2013-11-29 CN CN201310634080.1A patent/CN103593339A/zh active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101398814A (zh) * | 2007-09-26 | 2009-04-01 | 北京大学 | 一种同时抽取文档摘要和关键词的方法及系统 |
US20100332503A1 (en) * | 2009-06-30 | 2010-12-30 | Brad Buckley | System and Method for Using an Exemplar Document to Retrieve Relevant Documents from an Inverted Index of a Large Corpus |
US20110225159A1 (en) * | 2010-01-27 | 2011-09-15 | Jonathan Murray | System and method of structuring data for search using latent semantic analysis techniques |
CN102622373A (zh) * | 2011-01-31 | 2012-08-01 | 中国科学院声学研究所 | 一种基于tf*idf算法的统计学文本分类系统及方法 |
CN102662952A (zh) * | 2012-03-02 | 2012-09-12 | 成都康赛电子科大信息技术有限责任公司 | 一种基于层次的中文文本并行数据挖掘方法 |
Non-Patent Citations (1)
Title |
---|
HAIJUN ZHANG, JOHN K. L. HO, Q. M. JONATHAN WU, YUNMING YE: "Multidimensional Latent Semantic Analysis Using Term Spatial Information", 《IEEE TRANSACTIONS ON CYBERNETICS》 * |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105117487A (zh) * | 2015-09-19 | 2015-12-02 | 杭州电子科技大学 | 一种基于内容结构的图书语义检索方法 |
CN105117487B (zh) * | 2015-09-19 | 2018-11-16 | 杭州电子科技大学 | 一种基于内容结构的图书语义检索方法 |
CN108650428A (zh) * | 2018-04-23 | 2018-10-12 | 贵州小爱机器人科技有限公司 | 案件申诉举报处理方法及系统、应用装置 |
CN111274537A (zh) * | 2020-01-20 | 2020-06-12 | 山西大学 | 一种基于惩罚性矩阵分解的文献表示方法 |
CN111274537B (zh) * | 2020-01-20 | 2021-12-31 | 山西大学 | 一种基于惩罚性矩阵分解的文献表示方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111104794B (zh) | 一种基于主题词的文本相似度匹配方法 | |
US10255272B2 (en) | Adjustment of document relationship graphs | |
CN104933027B (zh) | 一种利用依存分析的开放式中文实体关系抽取方法 | |
US10346257B2 (en) | Method and device for deduplicating web page | |
CN103279478B (zh) | 一种基于分布式互信息文档特征提取方法 | |
US20110302168A1 (en) | Graphical models for representing text documents for computer analysis | |
CN102262765B (zh) | 一种发布商品信息的方法及装置 | |
CN107992542A (zh) | 一种基于主题模型的相似文章推荐方法 | |
CN106598940A (zh) | 基于全局优化关键词质量的文本相似度求解算法 | |
CN103678278A (zh) | 一种中文文本情感识别方法 | |
CN111291177A (zh) | 一种信息处理方法、装置和计算机存储介质 | |
CN109101489A (zh) | 一种文本自动摘要方法、装置及一种电子设备 | |
TW201403354A (zh) | 以資料降維法及非線性算則建構中文文本可讀性數學模型之系統及其方法 | |
CN105095430A (zh) | 构建词语网络及抽取关键词的方法和装置 | |
CN106202065A (zh) | 一种跨语言话题检测方法及系统 | |
CN103530316A (zh) | 一种基于多视图学习的科学主题提取方法 | |
US20230418894A1 (en) | Input method and apparatus based on sample-probability quantization, and electronic device | |
CN110019820B (zh) | 一种病历中主诉与现病史症状时间一致性检测方法 | |
CN103593339A (zh) | 面向电子图书的语义空间表示方法及系统 | |
CN113743079A (zh) | 一种基于共现实体交互图的文本相似度计算方法及装置 | |
CN102622405B (zh) | 基于语言实义单元数估计的短文本间文本距离的计算方法 | |
US20130339003A1 (en) | Assisted Free Form Decision Definition Using Rules Vocabulary | |
WO2022141860A1 (zh) | 文本去重方法、装置、电子设备及计算机可读存储介质 | |
Thomas et al. | Co-clustering with side information for text mining | |
CN104090918A (zh) | 一种基于信息量的句子相似度计算方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20140219 |
|
RJ01 | Rejection of invention patent application after publication |