CN103605729A - 一种基于局部随机词汇密度模型poi中文文本分类的方法 - Google Patents
一种基于局部随机词汇密度模型poi中文文本分类的方法 Download PDFInfo
- Publication number
- CN103605729A CN103605729A CN201310577670.5A CN201310577670A CN103605729A CN 103605729 A CN103605729 A CN 103605729A CN 201310577670 A CN201310577670 A CN 201310577670A CN 103605729 A CN103605729 A CN 103605729A
- Authority
- CN
- China
- Prior art keywords
- text
- poi
- feature
- document
- vocabulary
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于局部随机词汇密度模型POI中文文本分类的方法,该基于局部随机词汇密度模型POI中文文本分类的方法包括以下步骤:首先采用贝叶斯分类器判断文本主题是否为POI相关,利用改进的词汇集中度、离散度和频度方法,筛选出特征词以构建特征空间;依据文本与各POI类别的相似度进行局部区域划分,在每个局部区域内通过特征映射矩阵将文本转为特征向量,最终利用SVM进行POI文本分类。本发明通过了执行效率、分类覆盖率和准确率。今后拟结合知网大型知识库,捕获低频词汇和未见词汇的语义概念,进一步提高对POI文本差异的识别能力,较好的解决了现有的常规的特征评价函数和文本降维方法并不能取得较好的分类性能的问题。
Description
技术领域
本发明属于海量兴趣点文本分类技术领域,尤其涉及一种基于局部随机词汇密度模型POI中文文本分类的方法。
背景技术
传统的海量兴趣点(Point of Interest,POI)采集方式为各级测绘部门的外业调查。这种方式所采集数据精度高,但采集效率较低,信息更新速度慢,覆盖面往往不足。此外,POI采集还有专业公司生产和VGI大众采集(如Go2Map和Locationary公司)两种方式,前者仍然没有解决需要大量人工标注POI的问题,导致数据深度不足、更新困难;后者存在海量多源POI数据管理、平台异构、服务知名度、数据质量和数据保密性等方面的问题。
当前,各种新闻网站、博客、门户网站和大众生活网站等包含了大量POI更新信息,它们准确性较高,现势性好,是快速获取POI更新信息一种新途径[2][6][7][8]。而作为Web上大规模POI信息抽取的重要前期数据清洗工作之一,POI文本分类能过滤掉大量无效文本,利于依据POI类别采用不同方法进行POI信息抽取,提高POI信息质量,也便于POI信息的入库和检索。
与一般文本不同的是,POI文本中主题POI名称的语法位置并不固定,且同一类别POI的名称多变,多个不同类别的POI又常共处同一文本,仅仅通过句法模式或直接采用BoW(Bag of Words)的机器学习方法难以正确识别文本的主题POI类别。此外,不同类别POI文本间交叉和重叠用词现象严重,如“道路”和“桥梁”类别的POI文本中,大都包含了长度信息、所跨越的地名信息,因此,常规的特征评价函数和文本降维方法并不能取得较好的分类性能。
在文本降维研究中,TF-IDF是常见的降维方式,但其不能发现词汇之间语义相似性。LS将文档词频向量通过矩阵奇异值分解转换到潜在语义空间,然而潜在语义空间的物理含义无法明确。Probabilistic LSI(pLSI)利用概率生成模型将文档看做是某组主题分布下的词汇集合;LDA在pLSI的基础上,利用Dirichlet先验分布进行文档主题分布的描述,具有较高健壮性和准确性,目前LDA及其变体已在文本层次分类等多个方面有了深入应用,但pLSI与LDA执行效率较低。利用大型词汇知识库(WordNet、SUMO等)进行降维,但没有针对领域需求从词汇分布特征上进行分析。Xu[11]通过文本中词汇的随机删除和重构来获取词汇间的语义关联强度,其中仅以语料库中的频繁词作为特征词,且没有给出模型迭代的停止条件。
在POI分类相关研究中,蒋睿利用POI主题网络爬虫进行网页分类;张华平提出了从网络的新闻中抽取POI相关信息的方式,但获取到的Web文本不一定满足POI文本的有效性,如搜索“武汉道路”,得到的很多文本是描述道路上发生的事件,而不是有效的POI信息。此外,较多学者从地名、机构名及地址抽取角度进行了与中文文本POI信息抽取相关的研究。但他们都没有进行POI文本的有效性验证,也没有提供相应方法判断文本的主题POI类别。张玲给出了POI分类的原则和方法;张雪英以地理命名实体所指代的空间位置、地理特征和属性作为分类标准设计了地理命名实体分类体系,他们给出了POI分类体系,但同样未涉及具体POI文本分类的研究。
总体来说,目前还未见详细阐述POI文本分类,常规的特征评价函数和文本降维方法并不能取得较好的分类性能。
发明内容
本发明实施例的目的在于提供一种基于局部随机词汇密度模型POI中文文本分类的方法,旨在解决现有的常规的特征评价函数和文本降维方法并不能取得较好的分类性能的问题。
本发明实施例是这样实现的,一种基于局部随机词汇密度模型POI中文文本分类的方法,该基于局部随机词汇密度模型POI中文文本分类的方法包括以下步骤:
采用贝叶斯分类器判断文本主题是否为POI相关,利用改进的词汇集中度、离散度和频度方法,筛选出特征词以构建特征空间;
依据文本与各POI类别的相似度进行局部区域划分,在每个局部区域内通过特征映射矩阵将文本转为特征向量;
最终利用SVM进行POI文本分类;
具体的步骤为:
第一步,文档有效性判断:采用贝叶斯分类器,基于文档词频向量模型进行分类器训练,只要文本中含有较多某一类或若干类POI常涉及的词汇,则即可被判断为有效;再建立建立局部随机词汇密度模型;
第二步,基于词汇离散度、集中度和频度选取出特征词,以特征词为维度构建特征空间;
第三步,局部区域划分:在局部区域划分方法中,属于同一POI类别的文本均属于相同的局部区域,且每个局部区域需包含其他各类别一定数量的文本作为反例,为每个局部区域设置反例文本数量的方法为:
设类别总数为m,当前设置反例数量的类别为cx,计算ci(i∈{1,...,x-1,x+1,...,m})中所有文档与类别cx的相似度(dij表示ci类别中第j篇文档),相似度大于阈值λ的文本作为cx的反例,相似度公式为:
其中,distij→x(dij,dxv)为类别i内文档j和类别cx内文档v的文本距离;
第四步,局部特征映射矩阵的获取:LRTDM的目标就是求解每个局部区域内的映射矩阵Mj(j表示第j个局部区域),映射矩阵的获取过程,Mj表示为M,具体方法为:
步骤一,定义
词汇表:W={w1,w2,...,wn},为POI文本集中所有的词汇,其中词汇总数为n=|W|;
文档词频向量模型:d={x1,x2,...,xj,...xn},x∈□n,其中,xj代表词汇wj在文档中出现的次数;
某局部文档集合:X={d1,d2,...,dt},t=|X|,为某局部区域文档数量;
文档类别:Y={y1,y2,...,yc},其中,yj表示cj类别的文本数量;
特征词:F={wf1,wf2,...,wfr}∈W,F∈□t,其中,r=|F|且r<<n,为特征词数量,也为特征空间的维度总数;
步骤二,虚拟文档构建
步骤三,局部特征映射矩阵计算公式:假设存在特征向量 用以表达文本di在局部区域内的正确特征向量,LRTDM需要学习映射矩阵M∈□r×t,以使得所有虚拟文档通过其被转换到特征空间后,与其正确特征向量的误差平方和最小:
由上,可在局部区域中利用局部区域文档定义局部虚拟文档集合矩阵:
类似,在局部文档空间中定义t组由所有文档的正确特征向量构成的矩阵,其中每组包含u个相同的正确文本特征向量:
由此,局部区域文本重构误差平方为:
M=RQ-1,而
第五步,映射矩阵求解:假设该局部区域中虚拟文档向量的总数趋向于无穷,即t→∞,这时式中的R和Q将收敛到他们的期望值,变为:
M=E[R]E[Q]-1
而R和Q的期望值分别为:
标准因子分解能让求解出期望值,定义矢量q:
q=[(1-p),...,(1-p),1]T∈□t+1
其中,(1-p)为词汇在虚拟文档中的存在概率,由局部文档的散布矩阵为S=DDT,可知:
E[R]αβ=Sαβqα;E[Q]αβ=Sαβqαqβ,if α≠β或E[Q]αβ=Sαβqα,if α=β
其中,α、β分别为矩阵的行列值,E[Q]对角线上的元素为同一词汇相乘的结果,词汇在虚拟文档向量中存在的概率为(1-p),因此,E[Q]对角线上的元素等于S乘上q,而E[Q]非对角线上的元素为两个不同词汇相乘的结果,因此,两个不同词汇同时存在的概率为(1-p)2,即E[Q]非对角线上的元素等于S乘上qα和qβ;
第六步,特征向量的归一化:通过线性映射M:□t→□r,可将文档转换到特征空间,为了对大规模POI文本向特征空间转换时表达和计算的方便,利用sigmoid函数对映射公式进行平滑和归一化处理:
此时,原始文档向量di通过映射矩阵M即可对应到特征空间向量si,其中a和b为可调系数,以便依据POI文本集中词汇分布特点调整特征词之间的语义距离;
第七步,词汇删除和重建过程的迭代:映射矩阵对不同文本中特征词与普通词的映射能力较弱,这可通过第一步至第五步迭代执行,让映射矩阵进一步反映特征词之间的语义关系来解决这一问题,即在每次迭代中将局部区域文本通过映射矩阵Mj转为特征向量,再将特征向量作为原始文本向量,再一次进行词汇删除和重建过程,从而得到新的特征映射矩阵Mj+1,依此反复,最终存在一个k值,使得经过k次迭代后,文档特征向量收敛于某个固定向量;
实际操作中可将ε或φ设置得较大,减少迭代的次数,因为迭代次数过多并不能提高分类精度,反而降低了模型执行效率,假设文档di经过了k次模型迭代,最终得到的特征空间向量为:
第八步,分类器训练和分类:在每个局部区域中,利用其映射矩阵将训练集中所有文本转换为特征向量,并放入该局部区域的二值分类器进行训练,之后该分类器就能用来判断测试文本是否为该局部区域所属的POI类别,同样,在每个局部区域执行第二步至第七步的操作,即可最终判断测试文本所属的POI类别。
进一步,在第一步中,特征空间由基于离散度、集中度和频度获取的具有最大类别区分作用的词汇构成,在各局部区域内构建相应的特征映射矩阵。
进一步,在第一步中,建立局部随机词汇密度模型的方法为:
步骤一,筛选出能显著区分POI类别的特征词以构建特征空间;
步骤二,以类别为单位基于文本语义关联性划分局部区域,在局部区域内的进行词汇随机删除和重构过程的迭代,得到局部特征映射矩阵,从而在各局部区域内将所有训练POI文本转换到特征空间,以训练局部二值分类器;
步骤三,最终利用所有局部二值分类器共同对测试POI文本进行分类。
进一步,在第二步中,频度指的是特征在某类别中出现的次数,在同一类文本中出现次数多的词汇对这类文本有较好的代表性,特征t在ci类内的频度计算公式为:
其中,t为当前词汇,ci为第i个类,tj为词库中第j个词汇,n为词库中词汇总数;
集中度指的是特征与某个类的相关程度,一个对分类有价值的特征,应集中出现在某一个或少数几个文本类别中,采用互信息表达特征t在ci类内的集中度:
其中,P(d|t,ci)为ci类中包含有词汇t的文档出现概率,m为类别总数;
离散度指的是特征在同一类别的各文档间的分散程度,一个能有效类区分不同类别的特征,应在某类文本中均匀出现,特征t在ci类内的分散度:
其中,P(d|ci)为ci类中所有文档出现概率;特征词的频度越大、集中度越强、分散度越高,该特征对文本类别的分辨度越强,因此,将前三式合起来得到特征词t在ci类内的重要程度计算公式:
SF(t,ci)=TF(t,ci)×CON(t,ci)×DIS(t,ci)
利用最大值平均法判断词汇t对POI类别的分辨度:
MSF值高于特定阈值μ的词汇为特征词,同时也成为特征空间的维度之一。
进一步,在第七中,得到迭代停止条件的证明如下:
设M0为单位对角矩阵,Mk为第k次(k>2)迭代产生的局部特征映射矩阵,由最小乘法原理可知:
因为词汇被删除的概率在任意迭代中是独立其相等的,可得:
从而最终收敛到靠近自己正确特征向量的某个位置表示局部文档i在第k次迭代中特征向量,证毕;
由以上证明可得到迭代停止条件:
其中,φ为阈值常数。
本发明提供的基于局部随机词汇密度模型POI中文文本分类的方法,通过从特征选择、局部区域划分和词汇语义相似性计算入手,利用局部随机词汇密度模型进行POI文本分类。本发明首先采用贝叶斯分类器判断文本主题是否为POI相关,利用改进的词汇集中度、离散度和频度方法,筛选出特征词以构建特征空间;依据文本与各POI类别的相似度进行局部区域划分,在每个局部区域内通过特征映射矩阵将文本转为特征向量,最终利用SVM进行POI文本分类。本发明分类准确性和覆盖率好,较LDA有10%效率提升。
附图说明
图1是本发明实施例提供的基于局部随机词汇密度模型POI中文文本分类的方法流程图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
下面结合附图及具体实施例对本发明的应用原理作进一步描述。
如图1所示,本发明实施例的基于局部随机词汇密度模型POI中文文本分类的方法包括以下步骤:
S101:采用贝叶斯分类器判断文本主题是否为POI相关,利用改进的词汇集中度、离散度和频度方法,筛选出特征词以构建特征空间;
S102:依据文本与各POI类别的相似度进行局部区域划分,在每个局部区域内通过特征映射矩阵将文本转为特征向量;
S103:最终利用SVM进行POI文本分类。
本发明的具体步骤为:
第一步,文档有效性判断:文档有效性判断实际上是一种二值分类,即辨别所要处理文本的主题是否与POI有关,提高后续POI文本分类效率和准确率,本发明采用贝叶斯分类器,基于文档词频向量模型进行分类器训练,只要文本中含有较多某一类或若干类POI常涉及的词汇,则其即可被判断为有效,实验结果表明,文档有效性判断的准确率高达99%,覆盖率达到了95%,已经完全满足实用需求,然而,同一文本常包含涉及多种POI类别的词汇,还需进一步判断文本的主题POI;
局部随机词汇密度模型的方法为:首先,筛选出能显著区分POI类别的特征词以构建特征空间;其次,以类别为单位基于文本语义关联性划分局部区域,在局部区域内的进行词汇随机删除和重构过程的迭代,得到局部特征映射矩阵,从而在各局部区域内将所有训练POI文本转换到特征空间,以训练局部二值分类器,最终利用所有局部二值分类器共同对测试POI文本进行分类;
本发明中特征空间不是由全局高频词汇构成,而是由基于离散度、集中度和频度获取的具有最大类别区分作用的词汇构成;其次,不是在全局环境下,而是在各局部区域内构建相应的特征映射矩阵;此外,给出了模型迭代执行的终止条件;
第二步,特征空间构建
基于词汇离散度、集中度和频度选取出特征词,以特征词为维度构建特征空间,能较好体现出每个类别涉及的多个主题维度,利于降维时增强文本与其正确类别的关联程度;
频度指的是特征在某类别中出现的次数,在同一类文本中出现次数多的词汇对这类文本有较好的代表性,特征t在ci类内的频度计算公式为:
其中,t为当前词汇,ci为第i个类,tj为词库中第j个词汇,n为词库中词汇总数;
集中度指的是特征与某个类的相关程度,一个对分类有价值的特征,应集中出现在某一个或少数几个文本类别中,采用互信息表达特征t在ci类内的集中度:
其中,P(d|t,ci)为ci类中包含有词汇t的文档出现概率,m为类别总数;
离散度指的是特征在同一类别的各文档间的分散程度,一个能有效类区分不同类别的特征,应在某类文本中均匀出现,特征t在ci类内的分散度:
其中,P(d|ci)为ci类中所有文档出现概率;特征词的频度越大、集中度越强、分散度越高,该特征对文本类别的分辨度越强,因此,将前三式合起来得到特征词t在ci类内的重要程度计算公式:
SF(t,ci)=TF(t,ci)×CON(t,ci)×DIS(t,ci) (4)
利用最大值平均法判断词汇t对POI类别的分辨度:
MSF值高于特定阈值μ的词汇为特征词,同时也成为特征空间的维度之一;
第三步,局部区域划分
在局部区域划分方法中,属于同一POI类别的文本均属于相同的局部区域,且每个局部区域需包含其他各类别一定数量的文本作为反例,下面阐述如何为每个局部区域设置反例文本数量;
设类别总数为m,当前设置反例数量的类别为cx,计算ci(i∈{1,...,x-1,x+1,...,m})中所有文档与类别cx的相似度(dij表示ci类别中第j篇文档),相似度大于阈值λ的文本作为cx的反例,相似度公式为:
其中,distij→x(dij,dxv)为类别i内文档j和类别cx内文档v的文本距离;本发明提出的局部划分方法不仅能将所有文档包含到局部区域,还能考虑本类别特征词与其他所有POI类别的主题关联性;
第四步,局部特征映射矩阵的获取:LRTDM的目标就是求解每个局部区域内的映射矩阵Mj(j表示第j个局部区域),下面以某一局部区域为例,讲解映射矩阵的获取过程,Mj表示为M,具体方法为:
步骤一,定义
词汇表:W={w1,w2,...,wn},为POI文本集中所有的词汇,其中词汇总数为n=|W|;
文档词频向量模型:d={x1,x2,...,xj,...xn},x∈□n,其中,xj代表词汇wj在文档中出现的次数;
某局部文档集合:X={d1,d2,...,dt},t=|X|,为某局部区域文档数量;
文档类别:Y={y1,y2,...,yc},其中,yj表示cj类别的文本数量;
特征词:F={wf1,wf2,...,wfr}∈W,F∈□t,其中,r=|F|且r<<n,为特征词数量,也为特征空间的维度总数,特征词获取方法在上一节中已经阐述;
步骤二,虚拟文档构建
步骤三,局部特征映射矩阵计算公式:假设存在特征向量 用以表达文本di在局部区域内的正确特征向量,LRTDM需要学习映射矩阵M∈□r×t,以使得所有虚拟文档通过其被转换到特征空间后(即文档重建),与其正确特征向量的误差平方和最小:
由上,可在局部区域中利用局部区域文档(简称局部文档)定义局部虚拟文档集合矩阵:
类似,在局部文档空间中定义t组由所有文档的正确特征向量构成的矩阵,其中每组包含u个相同的正确文本特征向量:
由此,局部区域文本重构误差平方为:
M=RQ-1,而
第五步,映射矩阵求解:假设该局部区域中虚拟文档向量的总数趋向于无穷,即t→∞,这时(11)式中的R和Q将收敛到他们的期望值,(11)变为:
M=E[R]E[Q]-1 (12)
而R和Q的期望值分别为:
标准因子分解能让求解出(13)中的期望值,定义矢量q:
q=[(1-p),...,(1-p),1]T∈□t+1 (14)
其中,(1-p)为词汇在虚拟文档中的存在概率,由局部文档的散布矩阵(Scatter Matrix)为S=DDT,可知:
E[R]αβ=Sαβqα;E[Q]αβ=Sαβqαqβ,if α≠β或E[Q]αβ=Sαβqα,if α=β (15)
其中,α、β分别为矩阵的行列值,E[Q]对角线上的元素为同一词汇相乘的结果,因为该词汇在虚拟文档向量中存在的概率为(1-p),因此,E[Q]对角线上的元素等于S乘上q,而E[Q]非对角线上的元素为两个不同词汇相乘的结果,因此,两个不同词汇同时存在的概率为(1-p)2,即E[Q]非对角线上的元素等于S乘上qα和qβ;
第六步,特征向量的归一化:通过线性映射M:□t→□r,可将文档转换到特征空间,为了对大规模POI文本向特征空间转换时表达和计算的方便,利用sigmoid函数对映射公式进行平滑和归一化处理:
此时,原始文档向量di通过映射矩阵M即可对应到特征空间向量si,其中a和b为可调系数,以便依据POI文本集中词汇分布特点调整特征词之间的语义距离;
第七步,词汇删除和重建过程的迭代:映射矩阵对不同文本中特征词与普通词的映射能力较弱,这可通过第一步至第五步迭代执行,让映射矩阵进一步反映特征词之间的语义关系来解决这一问题,即在每次迭代中将局部区域文本通过映射矩阵Mj转为特征向量,再将这些特征向量作为原始文本向量,再一次进行词汇删除和重建过程,从而得到新的特征映射矩阵Mj+1,依此反复,最终存在一个k值,使得经过k次迭代后,文档特征向量收敛于某个固定向量,证明如下:
设M0为单位对角矩阵,Mk为第k次(k>2)迭代产生的局部特征映射矩阵,由最小乘法原理可知:
因为词汇被删除的概率在任意迭代中是独立其相等的,可得:
从而最终收敛到靠近自己正确特征向量的某个位置(表示局部文档i在第k次迭代中特征向量),证毕;
由以上证明可得到迭代停止条件:
其中,φ为阈值常数;
实际操作中可将ε或φ设置得较大,减少迭代的次数,因为迭代次数过多并不能提高分类精度,反而降低了模型执行效率,假设文档di经过了k次模型迭代,最终得到的特征空间向量为:
第八步,分类器训练和分类:
在每个局部区域中,利用其映射矩阵将训练集中所有文本转换为特征向量,并放入该局部区域的二值分类器进行训练,之后该分类器就能用来判断测试文本是否为该局部区域所属的POI类别,同样,在每个局部区域执行第二步至第七步的操作,即可最终判断测试文本所属的POI类别。
通过以下实验和分析对本发明做进一步的说明:
1、实验
1.1实验数据及预处理
借助Google Search API通过POI关键字搜集POI信息相关网页,提取出其文档主要内容部分的文字,通过文本有效性判断过滤掉无效文本,从而得到3728篇POI情报文本,包括高速公路、教育等21种POI类别,平均每篇文档296个字,训练文档和测试文档的比例在3:1左右;
首先采用中科院ICTCLAS系统对数据集分词,按词性只保留了名词、动词,利用地名库将所有地名转换为通名,转换后平均每篇文档128个词汇;利用Lucene将文档表示成向量空间模型;特征词汇选择在Matlab2012a中完成;局部特征语义中文档与各类别的语义距离计算和文本分类都通过SVM,由Matlab2012a的SVM Toolbox修改实现;
1.2实验比较结果及分析:实验结果采用5次交叉验证,得到TF-IDF、IG、LDA、dCoT和LRTDM五种特征向量获取方法的分类准确率和覆盖率,分类方法统一为SVM,其中,TF-IDF和IG中,文档距离基于词频向量和余弦距离公式;LDA经过多次参数调整(设置其主题数量220个)后利用其最佳分类准确率,采用KL(Kullback-Leibler divergence)差异表示文档距离;dCoT采用提供的开源代码;LRTDM中的文档距离是基于局部特征向量、采用余弦距离公式计算,此外,假设LRTDM中参数对分类的影响的相互独立的,因此依次对参数调优,以获取最优分类F1效果,最终,特征词选取阈值μ=1.8,词汇删除概率p=0.5,sigmoid中的系数a=4、b=0.6,模型迭代阈值φ=0.03,局部区域反例文档数量公式中的系数λ=8;
随着训练数据的增加(每次每个类别增加10%文本),在40%的训练集下,LRTDM的准确率较TF-IDF、IG、LDA和DCoT都有明显的优势,这说明该方法能够充分考虑类别信息,有较强的语义捕获能力,提升了分类的性能,弥补了普通特征获取方法在文本表示方面的不足,和LDA方法和dCoT相比,在训练数据集较小的情况下,LRTDM的分类准确率值较低,但随着训练数据集的增加,LRTDM的准确率开始高于LDA和dCoT,达到了95%以上准确率,而LDA最高仅为85%,准确率提高10%,dCoT最高为89%,准确率提升了6%。
分析可以得出,表现出LRTDM的覆盖率明显优于其他四种方法。在训练数据最少和最多的情况下,LRTDM都比LDA和dCoT的覆盖率高出10%和5%,这得益于LRTDM中基于集中度和离散度的特征选取方法对类别特征的良好发现能力,同时局部区域进一步增强了文档对类别主题的关联性,从而使得LRTDM能发现同一类别的大部分文档。IF-IDF和IG的覆盖率普遍较低,这是因为其无法发现词汇之间的语义相似性,从而造成其对很多同一类别的但用词不同的文档判断错误。
1.3特征提取性能比较
利用4核Xeon2.66GHz处理器,8G内存的服务器分别执行上述5中方法。从表1可知,TF-IDF的性能最高,信息增益方法(IG)次之,但这两种无法发现词汇之间的语义关联性;LDA方法最慢,由于它每次Gibbs迭代都要对语料库中所有文档进行一次比较和词汇关联强度更新,因此耗费时间特别长;而LRTDM的性能较LDA方法有几乎10倍的提升;与dCoT相比,LRTDM的效率有所降低,因为其需要进行特征词选取和局部区域划分,近70%的时间消耗在了文档距离的计算上。
表1 5种特征获取方法执行效率比较
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于局部随机词汇密度模型POI中文文本分类的方法,其特征在于,该基于局部随机词汇密度模型POI中文文本分类的方法包括以下步骤:
采用贝叶斯分类器判断文本主题是否为POI相关,利用改进的词汇集中度、离散度和频度方法,筛选出特征词以构建特征空间;
依据文本与各POI类别的相似度进行局部区域划分,在每个局部区域内通过特征映射矩阵将文本转为特征向量;
最终利用SVM进行POI文本分类;
具体的步骤为:
第一步,文档有效性判断:采用贝叶斯分类器,基于文档词频向量模型进行分类器训练,只要文本中含有较多某一类或若干类POI常涉及的词汇,则即可被判断为有效;再建立建立局部随机词汇密度模型;
第二步,基于词汇离散度、集中度和频度选取出特征词,以特征词为维度构建特征空间;
第三步,局部区域划分:在局部区域划分方法中,属于同一POI类别的文本均属于相同的局部区域,且每个局部区域需包含其他各类别一定数量的文本作为反例,为每个局部区域设置反例文本数量的方法为:
设类别总数为m,当前设置反例数量的类别为cx,计算ci(i∈{1,...,x-1,x+1,...,m})中所有文档与类别cx的相似度(dij表示ci类别中第j篇文档),相似度大于阈值λ的文本作为cx的反例,相似度公式为:
其中,distij→x(dij,dxv)为类别i内文档j和类别cx内文档v的文本距离;
第四步,局部特征映射矩阵的获取:LRTDM的目标就是求解每个局部区域内的映射矩阵Mj(j表示第j个局部区域),映射矩阵的获取过程,Mj表示为M;
第五步,映射矩阵求解:假设该局部区域中虚拟文档向量的总数趋向于无穷,即t→∞,这时式中的R和Q将收敛到他们的期望值,变为:
M=E[R]E[Q]-1
而R和Q的期望值分别为:
标准因子分解能让求解出期望值,定义矢量q:
其中,(1-p)为词汇在虚拟文档中的存在概率,由局部文档的散布矩阵为S=DDT,可知:
E[R]αβ=Sαβqα;E[Q]αβ=Sαβqαqβ,if α≠β或E[Q]αβ=Sαβqα,ifα=β
其中,α、β分别为矩阵的行列值,E[Q]对角线上的元素为同一词汇相乘的结果,词汇在虚拟文档向量中存在的概率为(1-p),因此,E[Q]对角线上的元素等于S乘上q,而E[Q]非对角线上的元素为两个不同词汇相乘的结果,因此,两个不同词汇同时存在的概率为(1-p)2,即E[Q]非对角线上的元素等于S乘上qα和qβ;
此时,原始文档向量di通过映射矩阵M即可对应到特征空间向量si,其中a和b为可调系数,以便依据POI文本集中词汇分布特点调整特征词之间的语义距离;
第七步,词汇删除和重建过程的迭代:映射矩阵对不同文本中特征词与普通词的映射能力较弱,这可通过第一步至第五步迭代执行,让映射矩阵进一步反映特征词之间的语义关系来解决这一问题,即在每次迭代中将局部区域文本通过映射矩阵Mj转为特征向量,再将特征向量作为原始文本向量,再一次进行词汇删除和重建过程,从而得到新的特征映射矩阵Mj+1,依此反复,最终存在一个k值,使得经过k次迭代后,文档特征向量收敛于某个固定向量;
实际操作中可将ε或φ设置得较大,减少迭代的次数,因为迭代次数过多并不能提高分类精度,反而降低了模型执行效率,假设文档di经过了k次模型迭代,最终得到的特征空间向量为:
第八步,分类器训练和分类:在每个局部区域中,利用其映射矩阵将训练集中所有文本转换为特征向量,并放入该局部区域的二值分类器进行训练,之后该分类器就能用来判断测试文本是否为该局部区域所属的POI类别,同样,在每个局部区域执行第二步至第七步的操作,即可最终判断测试文本所属的POI类别。
2.如权利要求1所述的基于局部随机词汇密度模型POI中文文本分类的方法,第四步,局部特征映射矩阵的获取:LRTDM的目标就是求解每个局部区域内的映射矩阵Mj(j表示第j个局部区域),映射矩阵的获取过程,Mj表示为M,具体方法为:
步骤一,定义
词汇表:W={w1,w2,...,wn},为POI文本集中所有的词汇,其中词汇总数为n=|W|;
文档词频向量模型:d={x1,x2,...,xj,...xn},其中,xj代表词汇wj在文档中出现的次数;
某局部文档集合:X={d1,d2,...,dt},t=|X|,为某局部区域文档数量;
文档类别:Y={y1,y2,...,yc},其中,yj表示cj类别的文本数量;
特征词:F={wf1,wf2,...,wfr}∈W,其中,r=|F|且r<<n,为特征词数量,也为特征空间的维度总数;
步骤二,虚拟文档构建
步骤三,局部特征映射矩阵计算公式:假设存在特征向量 用以表达文本di在局部区域内的正确特征向量,LRTDM需要学习映射矩阵以使得所有虚拟文档通过其被转换到特征空间后,与其正确特征向量的误差平方和最小:
由上,可在局部区域中利用局部区域文档定义局部虚拟文档集合矩阵:
类似,在局部文档空间中定义t组由所有文档的正确特征向量构成的矩阵,其中每组包含u个相同的正确文本特征向量:
由此,局部区域文本重构误差平方为:
其中,为Frobenius平方范式,上式的最小化可以通过最小线性二乘法求得:
M=RQ-1,而
3.如权利要求1所述的基于局部随机词汇密度模型POI中文文本分类的方法,在第一步中,特征空间由基于离散度、集中度和频度获取的具有最大类别区分作用的词汇构成,在各局部区域内构建相应的特征映射矩阵。
4.如权利要求1所述的基于局部随机词汇密度模型POI中文文本分类的方法,在第一步中,建立局部随机词汇密度模型的方法为:
步骤一,筛选出能显著区分POI类别的特征词以构建特征空间;
步骤二,以类别为单位基于文本语义关联性划分局部区域,在局部区域内的进行词汇随机删除和重构过程的迭代,得到局部特征映射矩阵,从而在各局部区域内将所有训练POI文本转换到特征空间,以训练局部二值分类器;
步骤三,最终利用所有局部二值分类器共同对测试POI文本进行分类。
5.如权利要求1所述的基于局部随机词汇密度模型POI中文文本分类的方法,在第二步中,频度指的是特征在某类别中出现的次数,在同一类文本中出现次数多的词汇对这类文本有较好的代表性,特征t在ci类内的频度计算公式为:
其中,t为当前词汇,ci为第i个类,tj为词库中第j个词汇,n为词库中词汇总数;
集中度指的是特征与某个类的相关程度,一个对分类有价值的特征,应集中出现在某一个或少数几个文本类别中,采用互信息表达特征t在ci类内的集中度:
其中,P(d|t,ci)为ci类中包含有词汇t的文档出现概率,m为类别总数;
离散度指的是特征在同一类别的各文档间的分散程度,一个能有效类区分不同类别的特征,应在某类文本中均匀出现,特征t在ci类内的分散度:
其中,P(d|ci)为ci类中所有文档出现概率;特征词的频度越大、集中度越强、分散度越高,该特征对文本类别的分辨度越强,因此,将前三式合起来得到特征词t在ci类内的重要程度计算公式:
SF(t,ci)=TF(t,ci)×CON(t,ci)×DIS(t,ci)
利用最大值平均法判断词汇t对POI类别的分辨度:
MSF值高于特定阈值μ的词汇为特征词,同时也成为特征空间的维度之一。
6.如权利要求1所述的基于局部随机词汇密度模型POI中文文本分类的方法,得到迭代停止条件的证明如下:
设M0为单位对角矩阵,Mk为第k次(k>2)迭代产生的局部特征映射矩阵,由最小乘法原理可知:
因为词汇被删除的概率在任意迭代中是独立其相等的,可得:
由以上证明可得到迭代停止条件:
其中,φ为阈值常数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310577670.5A CN103605729B (zh) | 2013-11-19 | 2013-11-19 | 一种基于局部随机词汇密度模型poi中文文本分类的方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310577670.5A CN103605729B (zh) | 2013-11-19 | 2013-11-19 | 一种基于局部随机词汇密度模型poi中文文本分类的方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103605729A true CN103605729A (zh) | 2014-02-26 |
CN103605729B CN103605729B (zh) | 2017-06-06 |
Family
ID=50123951
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310577670.5A Expired - Fee Related CN103605729B (zh) | 2013-11-19 | 2013-11-19 | 一种基于局部随机词汇密度模型poi中文文本分类的方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103605729B (zh) |
Cited By (17)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021456A (zh) * | 2016-05-17 | 2016-10-12 | 中山大学 | 将文本和地理信息融合在局部协同排列的兴趣点推荐方法 |
CN106547739A (zh) * | 2016-11-03 | 2017-03-29 | 同济大学 | 一种文本语义相似度分析方法 |
CN106855886A (zh) * | 2016-12-26 | 2017-06-16 | 武汉大学 | 基于位置描述的显著性结构的位置概念结构化提取方法 |
CN108287816A (zh) * | 2017-01-10 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 兴趣点在线检测、机器学习分类器训练方法和装置 |
CN109033219A (zh) * | 2018-06-29 | 2018-12-18 | 北京奇虎科技有限公司 | 兴趣点poi分类方法和装置 |
CN109948066A (zh) * | 2019-04-16 | 2019-06-28 | 杭州电子科技大学 | 一种基于异构信息网络的兴趣点推荐方法 |
CN110096710A (zh) * | 2019-05-09 | 2019-08-06 | 董云鹏 | 一种文章分析及自论证的方法 |
CN110377734A (zh) * | 2019-07-01 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种基于支持向量机的文本分类方法 |
CN110609897A (zh) * | 2019-08-12 | 2019-12-24 | 北京化工大学 | 一种融合全局和局部特征的多类别中文文本分类方法 |
CN110727793A (zh) * | 2018-06-28 | 2020-01-24 | 百度在线网络技术(北京)有限公司 | 区域识别的方法、装置、终端和计算机可读存储介质 |
CN111837145A (zh) * | 2017-12-18 | 2020-10-27 | 米西克有限公司 | 用于将矩阵计算映射到矩阵乘法加速器的系统和方法 |
CN112101165A (zh) * | 2020-09-07 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
CN112117475A (zh) * | 2020-09-30 | 2020-12-22 | 国网四川省电力公司经济技术研究院 | 一种燃料电池水管理子系统故障检测装置及方法 |
CN113435212A (zh) * | 2021-08-26 | 2021-09-24 | 山东大学 | 一种基于规则嵌入的文本推断方法及装置 |
CN113673228A (zh) * | 2021-09-01 | 2021-11-19 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本纠错方法、装置、计算机存储介质及计算机程序产品 |
CN113449966B (zh) * | 2021-06-03 | 2023-04-07 | 湖北北新建材有限公司 | 一种石膏板设备巡检方法及系统 |
CN117933372A (zh) * | 2024-03-22 | 2024-04-26 | 山东大学 | 一种面向数据增强的词汇组合知识建模方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008064020A2 (en) * | 2006-11-13 | 2008-05-29 | Tele Atlas North America, Inc. | System and method for providing multiple participants with a central access portal to geographic point of interest |
CN102479229A (zh) * | 2010-11-29 | 2012-05-30 | 北京四维图新科技股份有限公司 | 一种兴趣点poi数据产生方法和系统 |
CN103092964A (zh) * | 2013-01-22 | 2013-05-08 | 沈阳美行科技有限公司 | 一种导航设备的父子poi查询方法 |
-
2013
- 2013-11-19 CN CN201310577670.5A patent/CN103605729B/zh not_active Expired - Fee Related
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008064020A2 (en) * | 2006-11-13 | 2008-05-29 | Tele Atlas North America, Inc. | System and method for providing multiple participants with a central access portal to geographic point of interest |
CN102479229A (zh) * | 2010-11-29 | 2012-05-30 | 北京四维图新科技股份有限公司 | 一种兴趣点poi数据产生方法和系统 |
CN103092964A (zh) * | 2013-01-22 | 2013-05-08 | 沈阳美行科技有限公司 | 一种导航设备的父子poi查询方法 |
Cited By (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106021456A (zh) * | 2016-05-17 | 2016-10-12 | 中山大学 | 将文本和地理信息融合在局部协同排列的兴趣点推荐方法 |
CN106021456B (zh) * | 2016-05-17 | 2020-02-21 | 中山大学 | 将文本和地理信息融合在局部协同排列的兴趣点推荐方法 |
CN106547739A (zh) * | 2016-11-03 | 2017-03-29 | 同济大学 | 一种文本语义相似度分析方法 |
CN106547739B (zh) * | 2016-11-03 | 2019-04-02 | 同济大学 | 一种文本语义相似度分析方法 |
CN106855886A (zh) * | 2016-12-26 | 2017-06-16 | 武汉大学 | 基于位置描述的显著性结构的位置概念结构化提取方法 |
CN106855886B (zh) * | 2016-12-26 | 2019-10-25 | 武汉大学 | 基于位置描述的显著性结构的位置概念结构化提取方法 |
CN108287816A (zh) * | 2017-01-10 | 2018-07-17 | 腾讯科技(深圳)有限公司 | 兴趣点在线检测、机器学习分类器训练方法和装置 |
CN108287816B (zh) * | 2017-01-10 | 2021-06-04 | 腾讯科技(深圳)有限公司 | 兴趣点在线检测、机器学习分类器训练方法和装置 |
CN111837145B (zh) * | 2017-12-18 | 2024-02-02 | 米西克有限公司 | 用于将矩阵计算映射到矩阵乘法加速器的系统和方法 |
CN111837145A (zh) * | 2017-12-18 | 2020-10-27 | 米西克有限公司 | 用于将矩阵计算映射到矩阵乘法加速器的系统和方法 |
CN110727793B (zh) * | 2018-06-28 | 2023-03-24 | 百度在线网络技术(北京)有限公司 | 区域识别的方法、装置、终端和计算机可读存储介质 |
CN110727793A (zh) * | 2018-06-28 | 2020-01-24 | 百度在线网络技术(北京)有限公司 | 区域识别的方法、装置、终端和计算机可读存储介质 |
CN109033219A (zh) * | 2018-06-29 | 2018-12-18 | 北京奇虎科技有限公司 | 兴趣点poi分类方法和装置 |
CN109948066A (zh) * | 2019-04-16 | 2019-06-28 | 杭州电子科技大学 | 一种基于异构信息网络的兴趣点推荐方法 |
CN109948066B (zh) * | 2019-04-16 | 2020-12-11 | 杭州电子科技大学 | 一种基于异构信息网络的兴趣点推荐方法 |
CN110096710B (zh) * | 2019-05-09 | 2022-12-30 | 董云鹏 | 一种文章分析及自论证的方法 |
CN110096710A (zh) * | 2019-05-09 | 2019-08-06 | 董云鹏 | 一种文章分析及自论证的方法 |
CN110377734A (zh) * | 2019-07-01 | 2019-10-25 | 厦门美域中央信息科技有限公司 | 一种基于支持向量机的文本分类方法 |
CN110609897A (zh) * | 2019-08-12 | 2019-12-24 | 北京化工大学 | 一种融合全局和局部特征的多类别中文文本分类方法 |
CN112101165A (zh) * | 2020-09-07 | 2020-12-18 | 腾讯科技(深圳)有限公司 | 兴趣点识别方法、装置、计算机设备和存储介质 |
CN112117475A (zh) * | 2020-09-30 | 2020-12-22 | 国网四川省电力公司经济技术研究院 | 一种燃料电池水管理子系统故障检测装置及方法 |
CN113449966B (zh) * | 2021-06-03 | 2023-04-07 | 湖北北新建材有限公司 | 一种石膏板设备巡检方法及系统 |
CN113435212A (zh) * | 2021-08-26 | 2021-09-24 | 山东大学 | 一种基于规则嵌入的文本推断方法及装置 |
CN113673228A (zh) * | 2021-09-01 | 2021-11-19 | 阿里巴巴达摩院(杭州)科技有限公司 | 文本纠错方法、装置、计算机存储介质及计算机程序产品 |
CN117933372A (zh) * | 2024-03-22 | 2024-04-26 | 山东大学 | 一种面向数据增强的词汇组合知识建模方法及装置 |
Also Published As
Publication number | Publication date |
---|---|
CN103605729B (zh) | 2017-06-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103605729A (zh) | 一种基于局部随机词汇密度模型poi中文文本分类的方法 | |
Du et al. | Text classification research with attention-based recurrent neural networks | |
CN110633409B (zh) | 一种融合规则与深度学习的汽车新闻事件抽取方法 | |
CN109885824B (zh) | 一种层次的中文命名实体识别方法、装置及可读存储介质 | |
CN107463607B (zh) | 结合词向量和自举学习的领域实体上下位关系获取与组织方法 | |
CN112256939B (zh) | 一种针对化工领域的文本实体关系抽取方法 | |
WO2017019705A1 (en) | Systems and methods for domain-specific machine-interpretation of input data | |
CN110674252A (zh) | 一种面向司法领域的高精度语义搜索系统 | |
CN104951548A (zh) | 一种负面舆情指数的计算方法及系统 | |
CN111832289A (zh) | 一种基于聚类和高斯lda的服务发现方法 | |
CN113392209B (zh) | 一种基于人工智能的文本聚类方法、相关设备及存储介质 | |
Zhao et al. | The study on the text classification for financial news based on partial information | |
CN113515632B (zh) | 基于图路径知识萃取的文本分类方法 | |
CN113312480B (zh) | 基于图卷积网络的科技论文层级多标签分类方法及设备 | |
CN110633365A (zh) | 一种基于词向量的层次多标签文本分类方法及系统 | |
CN110750635A (zh) | 一种基于联合深度学习模型的法条推荐方法 | |
CN108090178A (zh) | 一种文本数据分析方法、装置、服务器和存储介质 | |
CN109271624B (zh) | 一种目标词确定方法、装置及存储介质 | |
CN115952292B (zh) | 多标签分类方法、装置及计算机可读介质 | |
CN111985207B (zh) | 一种访问控制策略的获取方法、装置及电子设备 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN103377224A (zh) | 识别问题类型的方法及装置、建立识别模型的方法及装置 | |
Garrido-Munoz et al. | A holistic approach for image-to-graph: application to optical music recognition | |
Ma et al. | Enhanced semantic representation learning for implicit discourse relation classification | |
CN115017260A (zh) | 一种基于子主题建模的关键词生成方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20170606 Termination date: 20171119 |