CN103605729A

CN103605729A - 一种基于局部随机词汇密度模型poi中文文本分类的方法

Info

Publication number: CN103605729A
Application number: CN201310577670.5A
Authority: CN
Inventors: 段炼; 胡宝清; 覃开贤
Original assignee: Individual
Current assignee: Individual
Priority date: 2013-11-19
Filing date: 2013-11-19
Publication date: 2014-02-26
Anticipated expiration: 2033-11-19
Also published as: CN103605729B

Abstract

本发明公开了一种基于局部随机词汇密度模型POI中文文本分类的方法，该基于局部随机词汇密度模型POI中文文本分类的方法包括以下步骤：首先采用贝叶斯分类器判断文本主题是否为POI相关，利用改进的词汇集中度、离散度和频度方法，筛选出特征词以构建特征空间；依据文本与各POI类别的相似度进行局部区域划分，在每个局部区域内通过特征映射矩阵将文本转为特征向量，最终利用SVM进行POI文本分类。本发明通过了执行效率、分类覆盖率和准确率。今后拟结合知网大型知识库，捕获低频词汇和未见词汇的语义概念，进一步提高对POI文本差异的识别能力，较好的解决了现有的常规的特征评价函数和文本降维方法并不能取得较好的分类性能的问题。

Description

一种基于局部随机词汇密度模型POI中文文本分类的方法

技术领域

本发明属于海量兴趣点文本分类技术领域，尤其涉及一种基于局部随机词汇密度模型POI中文文本分类的方法。

背景技术

传统的海量兴趣点(Point of Interest,POI)采集方式为各级测绘部门的外业调查。这种方式所采集数据精度高，但采集效率较低，信息更新速度慢，覆盖面往往不足。此外，POI采集还有专业公司生产和VGI大众采集(如Go2Map和Locationary公司)两种方式，前者仍然没有解决需要大量人工标注POI的问题，导致数据深度不足、更新困难；后者存在海量多源POI数据管理、平台异构、服务知名度、数据质量和数据保密性等方面的问题。

当前，各种新闻网站、博客、门户网站和大众生活网站等包含了大量POI更新信息，它们准确性较高，现势性好，是快速获取POI更新信息一种新途径[2][6][7][8]。而作为Web上大规模POI信息抽取的重要前期数据清洗工作之一，POI文本分类能过滤掉大量无效文本，利于依据POI类别采用不同方法进行POI信息抽取，提高POI信息质量，也便于POI信息的入库和检索。

与一般文本不同的是，POI文本中主题POI名称的语法位置并不固定，且同一类别POI的名称多变，多个不同类别的POI又常共处同一文本，仅仅通过句法模式或直接采用BoW(Bag of Words)的机器学习方法难以正确识别文本的主题POI类别。此外，不同类别POI文本间交叉和重叠用词现象严重，如“道路”和“桥梁”类别的POI文本中，大都包含了长度信息、所跨越的地名信息，因此，常规的特征评价函数和文本降维方法并不能取得较好的分类性能。

在文本降维研究中，TF-IDF是常见的降维方式，但其不能发现词汇之间语义相似性。LS将文档词频向量通过矩阵奇异值分解转换到潜在语义空间，然而潜在语义空间的物理含义无法明确。Probabilistic LSI(pLSI)利用概率生成模型将文档看做是某组主题分布下的词汇集合；LDA在pLSI的基础上，利用Dirichlet先验分布进行文档主题分布的描述，具有较高健壮性和准确性，目前LDA及其变体已在文本层次分类等多个方面有了深入应用，但pLSI与LDA执行效率较低。利用大型词汇知识库(WordNet、SUMO等)进行降维，但没有针对领域需求从词汇分布特征上进行分析。Xu[11]通过文本中词汇的随机删除和重构来获取词汇间的语义关联强度，其中仅以语料库中的频繁词作为特征词，且没有给出模型迭代的停止条件。

在POI分类相关研究中，蒋睿利用POI主题网络爬虫进行网页分类；张华平提出了从网络的新闻中抽取POI相关信息的方式，但获取到的Web文本不一定满足POI文本的有效性，如搜索“武汉道路”，得到的很多文本是描述道路上发生的事件，而不是有效的POI信息。此外，较多学者从地名、机构名及地址抽取角度进行了与中文文本POI信息抽取相关的研究。但他们都没有进行POI文本的有效性验证，也没有提供相应方法判断文本的主题POI类别。张玲给出了POI分类的原则和方法；张雪英以地理命名实体所指代的空间位置、地理特征和属性作为分类标准设计了地理命名实体分类体系，他们给出了POI分类体系，但同样未涉及具体POI文本分类的研究。

总体来说，目前还未见详细阐述POI文本分类，常规的特征评价函数和文本降维方法并不能取得较好的分类性能。

发明内容

本发明实施例的目的在于提供一种基于局部随机词汇密度模型POI中文文本分类的方法，旨在解决现有的常规的特征评价函数和文本降维方法并不能取得较好的分类性能的问题。

本发明实施例是这样实现的，一种基于局部随机词汇密度模型POI中文文本分类的方法，该基于局部随机词汇密度模型POI中文文本分类的方法包括以下步骤：

采用贝叶斯分类器判断文本主题是否为POI相关，利用改进的词汇集中度、离散度和频度方法，筛选出特征词以构建特征空间；

依据文本与各POI类别的相似度进行局部区域划分，在每个局部区域内通过特征映射矩阵将文本转为特征向量；

最终利用SVM进行POI文本分类；

具体的步骤为：

第一步，文档有效性判断：采用贝叶斯分类器，基于文档词频向量模型进行分类器训练，只要文本中含有较多某一类或若干类POI常涉及的词汇，则即可被判断为有效；再建立建立局部随机词汇密度模型；

第二步，基于词汇离散度、集中度和频度选取出特征词，以特征词为维度构建特征空间；

第三步，局部区域划分：在局部区域划分方法中，属于同一POI类别的文本均属于相同的局部区域，且每个局部区域需包含其他各类别一定数量的文本作为反例，为每个局部区域设置反例文本数量的方法为：

设类别总数为m，当前设置反例数量的类别为c_x，计算c_i(i∈{1，...，x-1，x+1，...，m})中所有文档与类别c_x的相似度

(d_ij表示c_i类别中第j篇文档)，相似度大于阈值λ的文本作为c_x的反例，相似度

公式为：

l_{d_{ij} &RightArrow; c_{x}} = {(\frac{Σ_{v = 0}^{| c_{x} |} {dist}_{ij &RightArrow; x} (d_{ij}, d_{xv})}{| c_{x} |})}^{- 1}

其中，dist_ij→x(d_ij，d_xv)为类别i内文档j和类别c_x内文档v的文本距离；

第四步，局部特征映射矩阵的获取：LRTDM的目标就是求解每个局部区域内的映射矩阵M^j(j表示第j个局部区域)，映射矩阵的获取过程，M^j表示为M，具体方法为：

步骤一，定义

词汇表：W＝{w₁，w₂，...，w_n}，为POI文本集中所有的词汇，其中词汇总数为n＝|W|；

文档词频向量模型：d={x₁，x₂，...，x_j，...x_n}，x∈□ⁿ，其中，x_j代表词汇w_j在文档中出现的次数；

某局部文档集合：X＝{d₁，d₂，...，d_t}，t=|X|，为某局部区域文档数量；

文档类别：Y＝{y₁，y₂，...，y_c}，其中，y_j表示c_j类别的文本数量；

特征词：F={w_f1，w_f2，...，w_fr}∈W，F∈□^t，其中，r＝|F|且r<<n，为特征词数量，也为特征空间的维度总数；

步骤二，虚拟文档构建

基于概率p删除原始文本词频向量中的每一个词汇，经过u次这样的操作，便为每个文本向量d_i创建u个虚拟文档矢量

步骤三，局部特征映射矩阵计算公式：假设存在特征向量

用以表达文本d_i在局部区域内的正确特征向量，LRTDM需要学习映射矩阵M∈□^r×t，以使得所有虚拟文档通过其被转换到特征空间后，与其正确特征向量的误差平方和最小：

Δd = \frac{1}{2} \times t \times u \times Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | {\overset{&OverBar;}{d}}_{i} - M {\hat{d}}_{i}^{j} | |}^{2}

由上，可在局部区域中利用局部区域文档定义局部虚拟文档集合矩阵：

类似，在局部文档空间中定义t组由所有文档的正确特征向量构成的矩阵，其中每组包含u个相同的正确文本特征向量：

由此，局部区域文本重构误差平方为：

ΔD = \frac{1}{2} tu {| | \overset{&OverBar;}{D} - M \hat{D} | |}_{F}^{2}

其中，

为Frobenius平方范式，上式的最小化可以通过最小线性二乘法求得：

M＝RQ^-1，而

Q = \hat{D} {\hat{D}}^{T}, R = \overset{&OverBar;}{D} {\hat{D}}^{T}

第五步，映射矩阵求解：假设该局部区域中虚拟文档向量的总数趋向于无穷，即t→∞，这时式中的R和Q将收敛到他们的期望值，变为：

M=E[R]E[Q]^-1

而R和Q的期望值分别为：

E [R] = Σ_{i = 1}^{t} E [{\overset{&OverBar;}{d}}_{i} {\hat{d}}_{i}^{T}], E [Q] = Σ_{i = 1}^{t} E [{\hat{d}}_{i} {\hat{d}}_{i}^{T}]

标准因子分解能让求解出期望值，定义矢量q：

q=[(1-p)，...，(1-p),1]^T∈□^t+1

其中，(1-p)为词汇在虚拟文档中的存在概率，由局部文档的散布矩阵为S=DD^T，可知：

E[R]_αβ=S_αβq_α；E[Q]_αβ＝S_αβq_αq_β，if α≠β或E[Q]_αβ＝S_αβq_α，if α＝β

其中，α、β分别为矩阵的行列值，E[Q]对角线上的元素为同一词汇相乘的结果，词汇在虚拟文档向量中存在的概率为(1-p)，因此，E[Q]对角线上的元素等于S乘上q，而E[Q]非对角线上的元素为两个不同词汇相乘的结果，因此，两个不同词汇同时存在的概率为(1-p)²，即E[Q]非对角线上的元素等于S乘上q_α和q_β；

第六步，特征向量的归一化：通过线性映射M：□^t→□^r，可将文档转换到特征空间，为了对大规模POI文本向特征空间转换时表达和计算的方便，利用sigmoid函数对映射公式进行平滑和归一化处理：

s_{i} = sigmoid ({Md}_{i}) = \frac{1}{1 + e^{- a ({Md}_{i} + b)}}

此时，原始文档向量d_i通过映射矩阵M即可对应到特征空间向量s_i，其中a和b为可调系数，以便依据POI文本集中词汇分布特点调整特征词之间的语义距离；

第七步，词汇删除和重建过程的迭代：映射矩阵对不同文本中特征词与普通词的映射能力较弱，这可通过第一步至第五步迭代执行，让映射矩阵进一步反映特征词之间的语义关系来解决这一问题，即在每次迭代中将局部区域文本通过映射矩阵M_j转为特征向量，再将特征向量作为原始文本向量，再一次进行词汇删除和重建过程，从而得到新的特征映射矩阵M_j+1，依此反复，最终存在一个k值，使得经过k次迭代后，文档特征向量收敛于某个固定向量；

实际操作中可将ε或φ设置得较大，减少迭代的次数，因为迭代次数过多并不能提高分类精度，反而降低了模型执行效率，假设文档d_i经过了k次模型迭代，最终得到的特征空间向量为：

s_{i} = {\frac{s_{i}^{1} + . . . + s_{i}^{k}}{k}}^{T};

第八步，分类器训练和分类：在每个局部区域中，利用其映射矩阵将训练集中所有文本转换为特征向量，并放入该局部区域的二值分类器进行训练，之后该分类器就能用来判断测试文本是否为该局部区域所属的POI类别，同样，在每个局部区域执行第二步至第七步的操作，即可最终判断测试文本所属的POI类别。

进一步，在第一步中，特征空间由基于离散度、集中度和频度获取的具有最大类别区分作用的词汇构成，在各局部区域内构建相应的特征映射矩阵。

进一步，在第一步中，建立局部随机词汇密度模型的方法为：

步骤一，筛选出能显著区分POI类别的特征词以构建特征空间；

步骤二，以类别为单位基于文本语义关联性划分局部区域，在局部区域内的进行词汇随机删除和重构过程的迭代，得到局部特征映射矩阵，从而在各局部区域内将所有训练POI文本转换到特征空间，以训练局部二值分类器；

步骤三，最终利用所有局部二值分类器共同对测试POI文本进行分类。

进一步，在第二步中，频度指的是特征在某类别中出现的次数，在同一类文本中出现次数多的词汇对这类文本有较好的代表性，特征t在c_i类内的频度计算公式为：

TF (t, c_{i}) = \frac{P (t | c_{i})}{\underset{j &RightArrow; n}{Σ} P (t_{j} | c_{i})}

其中，t为当前词汇，c_i为第i个类，t_j为词库中第j个词汇，n为词库中词汇总数；

集中度指的是特征与某个类的相关程度，一个对分类有价值的特征，应集中出现在某一个或少数几个文本类别中，采用互信息表达特征t在c_i类内的集中度：

CON (t, c_{i}) = \log \frac{P (d | t, c_{i})}{P (d | t)} = \log \frac{P (d | t, c_{i})}{\underset{i &RightArrow; m}{Σ} P (d | t, c_{i})}

其中，P(d|t，c_i)为c_i类中包含有词汇t的文档出现概率，m为类别总数；

离散度指的是特征在同一类别的各文档间的分散程度，一个能有效类区分不同类别的特征，应在某类文本中均匀出现，特征t在c_i类内的分散度：

DIS (t, c_{i}) = \frac{P (d | t, c_{i})}{P (d | c_{i})}

其中，P(d|c_i)为c_i类中所有文档出现概率；特征词的频度越大、集中度越强、分散度越高，该特征对文本类别的分辨度越强，因此，将前三式合起来得到特征词t在c_i类内的重要程度计算公式：

SF(t，c_i)=TF(t，c_i)×CON(t,c_i)×DIS(t，c_i)

利用最大值平均法判断词汇t对POI类别的分辨度：

MSF (t) = \frac{{Max}_{i &Element; m} {SF (t, c_{i})}}{\underset{i &RightArrow; m}{Σ} SF (t, c_{i})}

MSF值高于特定阈值μ的词汇为特征词，同时也成为特征空间的维度之一。

进一步，在第七中，得到迭代停止条件的证明如下：

设M₀为单位对角矩阵，M_k为第k次(k>2)迭代产生的局部特征映射矩阵，由最小乘法原理可知：

Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | \overset{&OverBar;}{d_{i}} - M_{k} \hat{d_{i_k}^{j}} | |}^{2} \leq Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | \overset{&OverBar;}{d_{i}} - M_{0} \hat{d_{i_k}^{j}} | |}^{2} = Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | \overset{&OverBar;}{d_{i}} - \hat{d_{i_k}^{j}} | |}^{2},

因为词汇被删除的概率在任意迭代中是独立其相等的，可得：

\hat{d_{i_k}^{j}} = \bar{d_{i_k}^{j}} p = (\bar{M_{k - 1} d_{i_k - 1}^{j}}) p = M_{k - 1} (\bar{d_{i_k - 1}^{j}} p) = M_{k - 1} \hat{d_{i_k - 1}^{j}} &DoubleRightArrow; {Δd}_{k} = Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | \overset{&OverBar;}{d_{i}} - M_{k} \hat{d_{i_k}^{j}} | |}^{2} \leq

Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | \overset{&OverBar;}{d_{i}} - \hat{d_{i_k}^{j}} | |}^{2} = Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | \overset{&OverBar;}{d_{i}} - M_{k - 1} \hat{d_{i_k - 1}^{j}} | |}^{2} = {Δd}_{k - 1} &DoubleRightArrow; {Δd}_{k} \leq {Δd}_{k - 1}

(其中，为第k次迭代中局部文档i的第j个虚拟文档)，

最终会单调递减并收敛于某个值；

设

第k次迭代时所有局部文档的虚拟文档构成的矩阵为

则：

\lim_{k &RightArrow; \infty} {Δd}_{k} = \lim_{k &RightArrow; \infty} Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | \overset{&OverBar;}{d_{i}} - M_{k} \hat{d_{i_k}^{j}} | |}^{2} = \lim_{k &RightArrow; \infty} {| | \overset{&OverBar;}{D} - M_{k} \hat{D_{k}} | |}^{2} = {Δd}_{δ};

由于

是固定的，因此，

最终会趋于一个固定的矩阵值，即

因此，存在某k值，使得k次以后的每次迭代，

即M也会收敛到单位对角阵M₀，这时，文本i的特征向量

为：

s_{i}^{1} \times M_{2} \times . . . \times M_{k} = s_{i}^{k}

从而最终收敛到靠近自己正确特征向量的某个位置表示局部文档i在第k次迭代中特征向量，证毕；

由以上证明可得到迭代停止条件：

\frac{Σ_{i = 1}^{t} Σ_{j = 1}^{r} | s_{i}^{k} [j] - s_{i}^{k - 1} [j] |}{r \times t} \leq φ

其中，φ为阈值常数。

本发明提供的基于局部随机词汇密度模型POI中文文本分类的方法，通过从特征选择、局部区域划分和词汇语义相似性计算入手，利用局部随机词汇密度模型进行POI文本分类。本发明首先采用贝叶斯分类器判断文本主题是否为POI相关，利用改进的词汇集中度、离散度和频度方法，筛选出特征词以构建特征空间；依据文本与各POI类别的相似度进行局部区域划分，在每个局部区域内通过特征映射矩阵将文本转为特征向量，最终利用SVM进行POI文本分类。本发明分类准确性和覆盖率好，较LDA有10％效率提升。

附图说明

图1是本发明实施例提供的基于局部随机词汇密度模型POI中文文本分类的方法流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

下面结合附图及具体实施例对本发明的应用原理作进一步描述。

如图1所示，本发明实施例的基于局部随机词汇密度模型POI中文文本分类的方法包括以下步骤：

S101：采用贝叶斯分类器判断文本主题是否为POI相关，利用改进的词汇集中度、离散度和频度方法，筛选出特征词以构建特征空间；

S102：依据文本与各POI类别的相似度进行局部区域划分，在每个局部区域内通过特征映射矩阵将文本转为特征向量；

S103：最终利用SVM进行POI文本分类。

本发明的具体步骤为：

第一步，文档有效性判断：文档有效性判断实际上是一种二值分类，即辨别所要处理文本的主题是否与POI有关，提高后续POI文本分类效率和准确率，本发明采用贝叶斯分类器，基于文档词频向量模型进行分类器训练，只要文本中含有较多某一类或若干类POI常涉及的词汇，则其即可被判断为有效，实验结果表明，文档有效性判断的准确率高达99％，覆盖率达到了95％，已经完全满足实用需求，然而，同一文本常包含涉及多种POI类别的词汇，还需进一步判断文本的主题POI；

局部随机词汇密度模型的方法为：首先，筛选出能显著区分POI类别的特征词以构建特征空间；其次，以类别为单位基于文本语义关联性划分局部区域，在局部区域内的进行词汇随机删除和重构过程的迭代，得到局部特征映射矩阵，从而在各局部区域内将所有训练POI文本转换到特征空间，以训练局部二值分类器，最终利用所有局部二值分类器共同对测试POI文本进行分类；

本发明中特征空间不是由全局高频词汇构成，而是由基于离散度、集中度和频度获取的具有最大类别区分作用的词汇构成；其次，不是在全局环境下，而是在各局部区域内构建相应的特征映射矩阵；此外，给出了模型迭代执行的终止条件；

第二步，特征空间构建

基于词汇离散度、集中度和频度选取出特征词，以特征词为维度构建特征空间，能较好体现出每个类别涉及的多个主题维度，利于降维时增强文本与其正确类别的关联程度；

频度指的是特征在某类别中出现的次数，在同一类文本中出现次数多的词汇对这类文本有较好的代表性，特征t在c_i类内的频度计算公式为：

TF (t, c_{i}) = \frac{P (t | c_{i})}{\underset{j &RightArrow; n}{Σ} P (t_{j} | c_{i})} - - - (1)

CON (t, c_{i}) = \log \frac{P (d | t, c_{i})}{P (d | t)} = \log \frac{P (d | t, c_{i})}{\underset{i &RightArrow; m}{Σ} P (d | t, c_{i})} - - - (2)

DIS (t, c_{i}) = \frac{P (d | t, c_{i})}{P (d | c_{i})} - - - (3)

SF(t，c_i)=TF(t，c_i)×CON(t,c_i)×DIS(t，c_i) (4)

利用最大值平均法判断词汇t对POI类别的分辨度：

MSF (t) = \frac{{Max}_{i &Element; m} {SF (t, c_{i})}}{\underset{i &RightArrow; m}{Σ} SF (t, c_{i})} - - - (5)

MSF值高于特定阈值μ的词汇为特征词，同时也成为特征空间的维度之一；

第三步，局部区域划分

在局部区域划分方法中，属于同一POI类别的文本均属于相同的局部区域，且每个局部区域需包含其他各类别一定数量的文本作为反例，下面阐述如何为每个局部区域设置反例文本数量；

(d_ij表示c_i类别中第j篇文档)，相似度大于阈值λ的文本作为c_x的反例，相似度公式为：

l_{d_{ij} &RightArrow; c_{x}} = {(\frac{Σ_{v = 0}^{| c_{x} |} {dist}_{ij &RightArrow; x} (d_{ij}, d_{xv})}{| c_{x} |})}^{- 1} - - - (6)

其中，dist_ij→x(d_ij，d_xv)为类别i内文档j和类别c_x内文档v的文本距离；本发明提出的局部划分方法不仅能将所有文档包含到局部区域，还能考虑本类别特征词与其他所有POI类别的主题关联性；

第四步，局部特征映射矩阵的获取：LRTDM的目标就是求解每个局部区域内的映射矩阵M^j(j表示第j个局部区域)，下面以某一局部区域为例，讲解映射矩阵的获取过程，M^j表示为M，具体方法为：

步骤一，定义

词汇表：W={w₁，w₂,...，w_n}，为POI文本集中所有的词汇，其中词汇总数为n=|W|；

文档词频向量模型：d={x₁,x₂，...，x_j，...x_n}，x∈□ⁿ，其中，x_j代表词汇w_j在文档中出现的次数；

某局部文档集合：X＝{d₁，d₂，...，d_t}，t＝|X|，为某局部区域文档数量；

特征词：F={w_f1，w_f2,...，w_fr}∈W，F∈□^t，其中，r＝|F|且r<<n，为特征词数量，也为特征空间的维度总数，特征词获取方法在上一节中已经阐述；

步骤二，虚拟文档构建

基于概率p删除原始文本词频向量中的每一个词汇(即词汇随机删除)，经过u次这样的操作，便为每个文本向量d_i创建u个虚拟文档矢量

步骤三，局部特征映射矩阵计算公式：假设存在特征向量

用以表达文本d_i在局部区域内的正确特征向量，LRTDM需要学习映射矩阵M∈□^r×t，以使得所有虚拟文档通过其被转换到特征空间后(即文档重建)，与其正确特征向量的误差平方和最小：

Δd = \frac{1}{2} \times t \times u \times Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | {\overset{&OverBar;}{d}}_{i} - M {\hat{d}}_{i}^{j} | |}^{2} - - - (7)

由上，可在局部区域中利用局部区域文档(简称局部文档)定义局部虚拟文档集合矩阵：

由此，局部区域文本重构误差平方为：

ΔD = \frac{1}{2} tu {| | \overset{&OverBar;}{D} - M \hat{D} | |}_{F}^{2} - - - (10)

其中，

M＝RQ^-1，而

Q = \hat{D} {\hat{D}}^{T}, R = \overset{&OverBar;}{D} {\hat{D}}^{T} - - - (11)

第五步，映射矩阵求解：假设该局部区域中虚拟文档向量的总数趋向于无穷，即t→∞，这时(11)式中的R和Q将收敛到他们的期望值，(11)变为：

M＝E[R]E[Q]^-1 (12)

而R和Q的期望值分别为：

E [R] = Σ_{i = 1}^{t} E [{\overset{&OverBar;}{d}}_{i} {\hat{d}}_{i}^{T}], E [Q] = Σ_{i = 1}^{t} E [{\hat{d}}_{i} {\hat{d}}_{i}^{T}] - - - (13)

标准因子分解能让求解出(13)中的期望值，定义矢量q：

q＝[(1-p)，...，(1-p)，1]^T∈□^t+1 (14)

其中，(1-p)为词汇在虚拟文档中的存在概率，由局部文档的散布矩阵(Scatter Matrix)为S=DD^T，可知：

E[R]_αβ＝S_αβq_α；E[Q]_αβ＝S_αβq_αq_β，if α≠β或E[Q]_αβ=S_αβq_α，if α＝β (15)

其中，α、β分别为矩阵的行列值，E[Q]对角线上的元素为同一词汇相乘的结果，因为该词汇在虚拟文档向量中存在的概率为(1-p)，因此，E[Q]对角线上的元素等于S乘上q，而E[Q]非对角线上的元素为两个不同词汇相乘的结果，因此，两个不同词汇同时存在的概率为(1-p)²，即E[Q]非对角线上的元素等于S乘上q_α和q_β；

s_{i} = sigmoid ({Md}_{i}) = \frac{1}{1 + e^{- a ({Md}_{i} + b)}} - - - (16)

第七步，词汇删除和重建过程的迭代：映射矩阵对不同文本中特征词与普通词的映射能力较弱，这可通过第一步至第五步迭代执行，让映射矩阵进一步反映特征词之间的语义关系来解决这一问题，即在每次迭代中将局部区域文本通过映射矩阵M_j转为特征向量，再将这些特征向量作为原始文本向量，再一次进行词汇删除和重建过程，从而得到新的特征映射矩阵M_j+1，依此反复，最终存在一个k值，使得经过k次迭代后，文档特征向量收敛于某个固定向量，证明如下：

Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | \overset{&OverBar;}{d_{i}} - M_{k} \hat{d_{i_k}^{j}} | |}^{2} \leq Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | \overset{&OverBar;}{d_{i}} - M_{0} \hat{d_{i_k}^{j}} | |}^{2} = Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | \overset{&OverBar;}{d_{i}} - \hat{d_{i_k}^{j}} | |}^{2},

\hat{d_{i_k}^{j}} = \bar{d_{i_k}^{j}} p = (\bar{M_{k - 1} d_{i_k - 1}^{j}}) p = M_{k - 1} (\bar{d_{i_k - 1}^{j}} p) = M_{k - 1} \hat{d_{i_k - 1}^{j}} &DoubleRightArrow; {Δd}_{k} = Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | \overset{&OverBar;}{d_{i}} - M_{k} \hat{d_{i_k}^{j}} | |}^{2} \leq

Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | \overset{&OverBar;}{d_{i}} - \hat{d_{i_k}^{j}} | |}^{2} = Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | \overset{&OverBar;}{d_{i}} - M_{k - 1} \hat{d_{i_k - 1}^{j}} | |}^{2} = {Δd}_{k - 1} &DoubleRightArrow; {Δd}_{k} \leq {Δd}_{k - 1}

(其中，

为第k次迭代中局部文档i的第j个虚拟文档)，

最终会单调递减并收敛于某个值；

设

第k次迭代时所有局部文档的虚拟文档构成的矩阵为

则：

\lim_{k &RightArrow; \infty} {Δd}_{k} = \lim_{k &RightArrow; \infty} Σ_{i = 1}^{t} Σ_{j = 1}^{u} {| | \overset{&OverBar;}{d_{i}} - M_{k} \hat{d_{i_k}^{j}} | |}^{2} = \lim_{k &RightArrow; \infty} {| | \overset{&OverBar;}{D} - M_{k} \hat{D_{k}} | |}^{2} = {Δd}_{δ};

由于

是固定的，因此，

最终会趋于一个固定的矩阵值，即

因此，存在某k值，使得k次以后的每次迭代，即M也会收敛到单位对角阵M₀，这时，文本i的特征向量

为：

s_{i}^{1} \times M_{2} \times . . . \times M_{k} = s_{i}^{k} - - - (17)

从而最终收敛到靠近自己正确特征向量的某个位置(表示局部文档i在第k次迭代中特征向量)，证毕；

由以上证明可得到迭代停止条件：

\frac{Σ_{i = 1}^{t} Σ_{j = 1}^{r} | s_{i}^{k} [j] - s_{i}^{k - 1} [j] |}{r \times t} \leq φ - - - (18)

其中，φ为阈值常数；

s_{i} = {\frac{s_{i}^{1} + . . . + s_{i}^{k}}{k}}^{T} - - - (19)

第八步，分类器训练和分类：

在每个局部区域中，利用其映射矩阵将训练集中所有文本转换为特征向量，并放入该局部区域的二值分类器进行训练，之后该分类器就能用来判断测试文本是否为该局部区域所属的POI类别，同样，在每个局部区域执行第二步至第七步的操作，即可最终判断测试文本所属的POI类别。

通过以下实验和分析对本发明做进一步的说明：

1、实验

1.1实验数据及预处理

借助Google Search API通过POI关键字搜集POI信息相关网页，提取出其文档主要内容部分的文字，通过文本有效性判断过滤掉无效文本，从而得到3728篇POI情报文本，包括高速公路、教育等21种POI类别，平均每篇文档296个字，训练文档和测试文档的比例在3：1左右；

首先采用中科院ICTCLAS系统对数据集分词，按词性只保留了名词、动词，利用地名库将所有地名转换为通名，转换后平均每篇文档128个词汇；利用Lucene将文档表示成向量空间模型；特征词汇选择在Matlab2012a中完成；局部特征语义中文档与各类别的语义距离计算和文本分类都通过SVM，由Matlab2012a的SVM Toolbox修改实现；

1.2实验比较结果及分析：实验结果采用5次交叉验证，得到TF-IDF、IG、LDA、dCoT和LRTDM五种特征向量获取方法的分类准确率和覆盖率，分类方法统一为SVM，其中，TF-IDF和IG中，文档距离基于词频向量和余弦距离公式；LDA经过多次参数调整(设置其主题数量220个)后利用其最佳分类准确率，采用KL(Kullback-Leibler divergence)差异表示文档距离；dCoT采用提供的开源代码；LRTDM中的文档距离是基于局部特征向量、采用余弦距离公式计算，此外，假设LRTDM中参数对分类的影响的相互独立的，因此依次对参数调优，以获取最优分类F1效果，最终，特征词选取阈值μ=1.8，词汇删除概率p=0.5，sigmoid中的系数a=4、b＝0.6，模型迭代阈值φ＝0.03，局部区域反例文档数量公式中的系数λ＝8；

随着训练数据的增加(每次每个类别增加10％文本)，在40％的训练集下，LRTDM的准确率较TF-IDF、IG、LDA和DCoT都有明显的优势，这说明该方法能够充分考虑类别信息，有较强的语义捕获能力，提升了分类的性能，弥补了普通特征获取方法在文本表示方面的不足，和LDA方法和dCoT相比，在训练数据集较小的情况下，LRTDM的分类准确率值较低，但随着训练数据集的增加，LRTDM的准确率开始高于LDA和dCoT，达到了95％以上准确率，而LDA最高仅为85％，准确率提高10％，dCoT最高为89％，准确率提升了6％。

分析可以得出，表现出LRTDM的覆盖率明显优于其他四种方法。在训练数据最少和最多的情况下，LRTDM都比LDA和dCoT的覆盖率高出10％和5％，这得益于LRTDM中基于集中度和离散度的特征选取方法对类别特征的良好发现能力，同时局部区域进一步增强了文档对类别主题的关联性，从而使得LRTDM能发现同一类别的大部分文档。IF-IDF和IG的覆盖率普遍较低，这是因为其无法发现词汇之间的语义相似性，从而造成其对很多同一类别的但用词不同的文档判断错误。

1.3特征提取性能比较

利用4核Xeon2.66GHz处理器，8G内存的服务器分别执行上述5中方法。从表1可知，TF-IDF的性能最高，信息增益方法(IG)次之，但这两种无法发现词汇之间的语义关联性；LDA方法最慢，由于它每次Gibbs迭代都要对语料库中所有文档进行一次比较和词汇关联强度更新，因此耗费时间特别长；而LRTDM的性能较LDA方法有几乎10倍的提升；与dCoT相比，LRTDM的效率有所降低，因为其需要进行特征词选取和局部区域划分，近70％的时间消耗在了文档距离的计算上。

表1 5种特征获取方法执行效率比较

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。