CN103218444B - 基于语义的藏文网页文本分类方法 - Google Patents
基于语义的藏文网页文本分类方法 Download PDFInfo
- Publication number
- CN103218444B CN103218444B CN201310141985.5A CN201310141985A CN103218444B CN 103218444 B CN103218444 B CN 103218444B CN 201310141985 A CN201310141985 A CN 201310141985A CN 103218444 B CN103218444 B CN 103218444B
- Authority
- CN
- China
- Prior art keywords
- word
- text
- semantic
- tibetan
- concept
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000012549 training Methods 0.000 claims abstract description 42
- 230000011218 segmentation Effects 0.000 claims abstract description 23
- 238000012545 processing Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims description 16
- 239000000463 material Substances 0.000 claims description 15
- 238000009499 grossing Methods 0.000 claims description 5
- 230000008569 process Effects 0.000 claims description 4
- 239000012141 concentrate Substances 0.000 claims description 3
- 239000000284 extract Substances 0.000 abstract description 11
- 239000000203 mixture Substances 0.000 description 7
- 230000014509 gene expression Effects 0.000 description 6
- 241000269795 Lateolabrax japonicus Species 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 208000006011 Stroke Diseases 0.000 description 3
- 241000616933 Trichiurus haumela Species 0.000 description 3
- 206010008190 Cerebrovascular accident Diseases 0.000 description 2
- 238000013459 approach Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 241000252229 Carassius auratus Species 0.000 description 1
- 241000252230 Ctenopharyngodon idella Species 0.000 description 1
- 241000252233 Cyprinus carpio Species 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000008878 coupling Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000003203 everyday effect Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 239000003550 marker Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 239000002245 particle Substances 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012800 visualization Methods 0.000 description 1
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种基于语义的藏文网页文本分类方法。本发明首先从藏文网页中抽取用于表征该网页的文本信息,然后对所述文本信息进行分词处理,将所述经过分词处理得到的词语表示为词向量空间,其次根据预设的藏文分类本体,将所述通过词向量空间表示的词语映射到语义空间的概念中,得到待分类文本的语义空间,最后根据预设的训练样本集的语义空间,采用分类算法对所述待分类文本的语义空间进行分类。本发明提供的基于语义的藏文网页文本分类方法,通过对网页进行预处理,并采用加权语义网文本相似度的KNN分类算法实现了对藏文网页实时、高效的分类。
Description
技术领域
本发明涉及数据预处理技术,尤其涉及一种基于语义的藏文网页文本分类方法。
背景技术
随着藏区信息化和经济化的飞速发展,藏族网民和网页的规模正以惊人的速度增长,网络成为藏语信息传递和共享的载体,也成为藏族人民发表舆论的场所。不当的言论可能引起舆论的导火索,负面的信息将对社会公共安全形成较大威胁。藏文网页文本分类技术是藏文网络舆情监测技术实现的前提和基础,具有重要的研究价值。
基于藏文网络的语义文本分类作为处理和组织大量网络文本数据的关键技术,可以根据文本的内容自动确定文本类别,方便用户快速、准确地定位所需要的信息。然而,藏语本体知识库资源缺乏,致使基于藏文语义层面的应用研究受到约束。而且在传统的Web文本分类方法中,认为藏语的词汇之间是独立的,忽略了词语间同义词、上下位关系等语义问题,丢失了很多重要的信息,导致分类结果不够准确且计算量大。
发明内容
本发明的目的是在于提供一种能对藏文网页文本信息进行实时、高效的分类的方法。
为实现上述目的,本发明提供了一种基于语义的藏文网页文本分类方法,该方法包括:
从藏文网页中抽取用于表征该网页的文本信息;
对所述文本信息进行分词处理,将所述经过分词处理得到的词语表示为词向量空间;
根据预设的藏文分类本体,将所述通过词向量空间表示的词语映射到语义空间的概念中,得到待分类文本的语义空间;
根据预设的训练样本集的语义空间,采用分类算法对所述待分类文本的语义空间进行分类。
在上述方法中,所述从藏文网页中抽取用于表征该网页的文本信息包括:
采用规则法从藏文网页中抽取文本信息,将所得到的文本信息表示为X1;
采用模板法从藏文网页中抽取文本信息,将所得到的文本信息表示为X2;
判断X1与X2是否一致,如果不一致,则分别对X1与X2中每类信息进行比较,选择每类信息中最优信息的组合作为表征所述藏文网页的文本信息。
在上述方法中,所述文本信息中包括网页的发布日期和网页的标题;
所述在对所述文本信息进行分词处理之前,在从藏文网页中抽取用于表征该网页的文本信息之后还包括:
根据所述网页的发布日期和网页的标题对所述藏文网页进行去重处理;
将所述网页中的文本信息中的藏文文本的字符编码方式转换成统一码Unicode字符编码方式。
在上述方法中,对所述文本信息进行分词处理包括:
利用字切分特征和字性库先识别每一个字,同时依据字性特征或接续特征判断出所述文本信息中的所有格助词;
通过标点符号和关联词对所述文本信息进行分句,根据所述格助词将每个句子分块;
通过词典对所述划分成块的所述文本信息进行分词,得到各个词语;
在所得到的包含多个词语的字串中含有某个紧缩词时,判断去掉该紧缩词后的字串是否在词典中存在,若是,则分词成功,分词结果为去除紧缩词后字串和紧缩词;若否,去掉紧缩词并添加后置字后在词典中查找,分词结果是原字串加后置字后的词和紧缩词。
在上述方法中,所述预设的藏文分类本体包括:
对藏文分类语料进行藏语类别主题词提取;
从藏汉电子词典获取所述藏语类别主题词的汉语释义,参考知网Hownet汉语本体的语义,将所述藏语类别主题词扩充为藏文分类本体中的概念;
以树状层次结构描述所述概念的内涵及所述概念间的上下位关系、整体-部分关系、同义关系、近义关系。
在上述方法中,所述预设的训练样本集的语义空间包括:根据所述预设的藏文分类本体,将藏文分类语料中的通过词向量空间表示的词语映射到语义空间的概念中,得到训练样本集中各个样本的语义空间。
在上述方法中,所述采用分类算法对所述待分类文本的语义空间进行分类包括:
计算待分类文本的语义空间与训练样本集的语义空间中每一个样本的语义空间的加权语义网文本相似度;
对所述加权语义网文本相似度的值进行从大到小排列,选取与前k个加权语义网文本相似度对应的训练样本的语义空间,其中,k为自然数;
在训练样本集的语义空间中查询所述k个训练样本的语义空间各自归属的类,从中选择包含样本数最多的类作为所述待分类文本的语义空间归属的类。
在上述方法中,根据以下公式计算加权语义网文本相似度:
其中,Sim(Di,Dj)表示第i个待分类文本的语义空间Di和训练样本集的语义空间中第j个训练样本的语义空间Dj的相似度,m和n分别为Di和Dj中概念的个数,Si和Sj分别为Di和Dj中的概念,Sim(Si,Sj)表示概念语义相似度,Wi和Wj为Si和Sj在各自文本中的归一化权重权值,α为平滑因子,0.0001≤α≤0.001。
在上述方法中,根据以下公式计算概念语义相似度:
其中,Si表示待分类文本的语义空间中第i个概念和Sj表示训练样本的语义空间中第j个概念,Sim(Si,Sj)表示概念语义相似度,C(Si,Sj)表示语义重合度,D(Si,Sj)表示语义距离,Mi和Mj表示概念Si和Sj的节点密度,Hi和Hj表示概念Si和Sj的层次深度,β和γ为平滑因子,0.01≤β≤0.1,0.01≤γ≤0.1。
本发明提供的方法采用基于规则和模板相结合的方法对藏文网页中的文本信息进行提取,这两种方法取长补短,能有效地对藏文网页的文本信息进行实时抽取。根据预设的藏文分类本体,将文本中通过词向量空间表示的词语映射到语义空间的概念中,再采用基于加权语义网文本相似度的KNN分类算法,对待分类文本的语义空间进行分类,提高了对藏文网页文本信息分类的精度。
附图说明
图1为本发明基于语义的藏文网页文本分类方法流程图;
图2为本发明藏文分类本体的构建流程图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
图1是本发明基于语义的藏文网页文本分类方法流程图,如图1所示,本发明的基于语义的藏文网页文本分类方法包括:
步骤101,从藏文网页中抽取用于表征该网页的文本信息。
在步骤101中,先采用规则法从藏文网页中抽取文本信息,将所得到的文本信息表示为X1,文本信息X1中包括网页的正文内容CT1、网页的栏目CL1、网页的标题T1和网页的发布日期D1;
具体地,采用规则的方法预先分析每个网站网页集合的特征,撰写相应正则表达式规则,自动抽取每个网站的信息。
以中国西藏信息中心网站http://tb.tibet.cn为例,采用规则法提取网页的CT1、CL1、T1及D1。
提取网页的正文内容CT1的正则表达式为:
content=<font\\s+id=\\"Zoom\\">(.+?)</td>\\s+</tr>;;<div id=\\"NewsContent\\">(.+?)</div>;;<td\\s+valign=\\"bottom\\"\\s+cl ass=\\"content\\">(.+?)</td>;;
提取网页的栏目CL1的正则表达式为:
column=<div\\s+class=\\"whereiam\\">(.+?)</div>;;<td>.*?<a\\s+href=.+?target=\\"_BLANK\\"(.*?>.*?)?</td>;;
提取网页的标题T1的正则表达式为:
title=class="title">(.+?)</td>;;class=\\"biaoti\\">(.+?)</th>;;class=\\"lan_20\\">(.+?)</td>;;class=\\"hei_c\\">(.+?)</td>;;clas s=\\"title1\\">(.+?)</td>;;class=\\"hei_c1\\">(.+?)</td>;;<div\\s+id=\\"NewsTitle\\"(.+?)</div>;;
提取网页的发布日期D1的正则表达式为:
date=<!--date-->(.+?)<!--/date-->;;<div\\s+id=\\"NewsTime\\"(.+?)</div>;;(\\d{4}-\\d{1,2}-\\d{1,2});;
然后采用模板法从藏文网页中抽取文本信息,将所得到的文本信息表示为X2,文本信息X2中包括网页的正文内容CT2、网页的栏目CL2、网页的标题T2和网页的发布日期D2;
具体地,采用模板法首先抽取每个网站的多个表结构信息,然后由藏语领域专家通过可视化界面,设置相关抽取内容的索引标记,形成信息抽取的表结构模板。
以中国西藏信息中心网站http://tb.tibet.cn为例,提取的一个表结构模板S1如下:
tableStructure=<table><tr><td><table><tr><td></td></tr></table></td></tr><tr><td><table><tr><td><table><tr><td></td></tr><tr><td></td></tr><tr><td><table><tr><td></td><td><table><tr><td></td></t r><tr></tr><tr></tr><tr><td></td></tr><tr></tr><tr><td></td></tr></table><table><tr><td></td></tr></table><table><tr><td></td><td></td><td></td><td></td></tr></table><table><tr><td></td></tr></table><table><tr><td></td></tr></table><table><tr><td><table><tr><td></td></tr><tr><td></td></tr><tr><td></td></tr></table><table><tr><td></td></tr><tr><td></td></tr><tr><td></td></tr></table></td></tr></table></td><td></td></tr></table></td></tr></table></td></tr></ta ble></td></tr><tr><td><tr><td></table>
通过图形用户界面,由藏语领域专家指定网页栏目、网页的标题、网页的正文内容和网页的发布日期在表结构的索引位置,如下所示:
column= //网页栏目CL2在表结构中的索引位置
title=37 //网页标题T2在表结构中的索引位置
timeOfPublish=48 //网页发布日期D2在表结构中的索引位置
fileText=91 //网页正文CT2在表结构中的索引位置
若某网页P的表结构S2与该表结构S1一致,则网页P的标题T2在第37个标签</tr>和第38个标签<tr>之间抽取,网页的发布日期D2在第48标签</tr>和49个标签<tr>之间抽取,网页的正文内容CT2在第91个标签</tr>和92个标签<tr>之间抽取。Column后面无信息,表示该模板没有栏目可以提取,即网页的栏目CL2为空。
判断X1与X2是否一致,如果不一致,则分别对X1与X2中每类信息进行比较,具体为,分别对X1与X2中每类信息CT1与CT2、CL1与CL2、T1与T2及D1与D2进行比较,选择每类信息中最优信息的组合作为表征所述藏文网页的文本信息。其中,CT1与CT2、CL1与CL2、T1与T2的择优标准可以为长度,例如:如果|CT1|>|CT2|、|CL1|>|CL2|、|T1|<|T2|,且|CT1|、|CT2|、|CL1|、|CL2|、|T1|和|T2|分别表示CT1、CT2、CL1、CL2、T1和T2的长度,则选取得到的最优信息为CT1、CL1和T2;D1与D2的择优标准可以为离当前日期最近,如果D1与D2相比,D2离当前日期最近,则选取得到的最优信息为D2;最后得到的作为表征该藏文网页的文本信息为CT1、CL1、T2和D2。
本发明中采用规则法和模板法相结合的方法,从藏文网页中抽取用于表征该网页的文本信息,能够取长补短,有效地进行实时信息抽取。
可选地,为了能够不重复对同一网页进行文本分类,提高处理效率,本发明的基于语义的藏文网页文本分类方法在对文本信息进行分词处理之前,在从藏文网页中抽取用于表征该网页的文本信息之后还包括:根据藏文网页文本信息中网页的发布日期和网页的标题对藏文网页进行去重处理,去重处理即为删除网页的发布日期和网页的标题相同的藏文网页,只保留其中一个。
由于藏文国际标准编码和国家标准编码指定的时间相对滞后,市场上各种软件厂商采用自己的编码标准,可能导致各藏文网页的页面信息并不能兼容共享,在处理时也会由于编码不同而带来统计误差等影响文本分类的准确性。
因而,本发明的基于语义的藏文网页文本分类方法在对藏文网页去重处理后还包括:将网页中的文本信息中的藏文文本的字符编码方式进行转换,得到统一编码方式的文本信息。在本发明的一种实施中,将班智达、同元编码等编码方式转换成统一码Unicode基本集字符编码。
步骤102,对所述文本信息进行分词处理,将所述经过分词处理得到的词语表示为词向量空间。
在步骤102中,对从藏文网页中抽取的用于表征该网页的文本信息,采用基于统计和词典相结合的方法进行分词处理,将能够与词典中相匹配的词语切分出来,得到各个词语,统计各个词语的词频,并为各个词语赋予权重,所述各个词语及各个词语的权重构成该词语的词向量空间。
在上述分词处理的过程中,首先,利用字切分特征和字性库先识别每一个字,同时依据字性特征或接续特征判断出所述文本信息中的所有格助词;然后,通过标点符号和关联词对所述文本信息进行分句,根据所述格助词将每个句子分块;其次,通过词典对所述划分成块的所述文本信息进行分词,得到各个词语;最后,在所得到的包含多个词语的字串中含有某个紧缩词时,判断去掉该紧缩词后的字串是否在词典中存在,若是,则分词成功,分词结果为去除紧缩词后字串和紧缩词;若否,去掉紧缩词并添加后置字后在词典中查找,分词结果是原字串加后置字后的词和紧缩词。
在统计得到的各个词项的词频后,可以采用基于词频-倒文档率(TF-IDF)的方法为各个词语赋予权重。词频表示该词语在文档中出现的次数,倒文档率表示该词语在各文档之间的区别度,倒文档率越大,越能区分词语所属的类别。
利用各个词语及各个词语的权重构成该词语的词向量空间,而藏文网页的待分类文本信息的向量空间则由文本信息中所有词语的词向量空间组成。如果藏文网页的待分类文本信息中包含k个词语,具体表示为:T={v1,v2,…,vk},各个词语对应的权重表示为:W={w1,w2,…,wk},第i词语的权重为wi;藏文网页的待分类文本信息的向量空间表示为P={{v1,w1},{v2,w2},…,{vk,wk}}。
具体地,某藏文网页P的待分类文本信息中包括8个词语,且已经根据各个词语的词频计算得到了对应的权重,则该待分类文本信息的向量空间用中文可表示为P={{计算机,3},{电脑,3},{经济,2},{鲈鱼,3},{带鱼,2},{鱼鳍,2},{法律,5},{大海,5}}。
步骤103,根据预设的藏文分类本体,将所述通过词向量空间表示的词语映射到语义空间的概念中,得到待分类文本的语义空间。
根据预设的藏文分类本体,将所述通过词向量空间表示的词语映射到语义空间的概念中,即根据藏文分类本体中概念的内涵及概念之间的关联关系,将通过词向量空间表示的语义相同的词语只保留一个概念,将实例集合中的元素映射成实例对应的类别名称,或者将在分类本体中匹配不到的词语删除,从而形成语义单一且内容简洁的待分类文本的语义空间。
具体地,对于某藏网页P的待分类文本的语义空间P={{计算机,3},{电脑,3},{经济,2},{鲈鱼,3},{带鱼,2},{鱼鳍,2},{法律,5},{大海,5}},根据藏文分类本体中概念的内涵及概念之间的关联关系,将P中通过词向量空间表示的各个词语映射到语义空间的概念中,即在藏文分类本体中,计算机和电脑为同义词,则将其映射到语义空间后,只保留一个概念“计算机”,鲈鱼和带鱼是“鱼类”的实例,将其映射到语义空间后为“鱼类”,分类本体中没有大海,删除该词语,最后得到的待分类文本的语义空间为P={{计算机,6},{经济,2},{鱼类,5},{鱼鳍,2},{法律,5}}。
步骤104,根据预设的训练样本集的语义空间,采用分类算法对所述待分类文本的语义空间进行分类。
在步骤104中,在藏文分类语料的基础上,构建训练样本集的语义空间。根据预设的藏文分类本体,将藏文分类语料中的通过词向量空间表示的词语映射到语义空间的概念中,得到训练样本集中各个样本的语义空间;其中,藏文分类语料为已经分好类的并经过了分词处理的藏语文本集合。具体实现为:根据藏文分类本体中概念的内涵及概念之间的关联关系,将藏文分类语料中语义相同的词语只保留一个概念,将实例集合中的元素映射成实例对应的类别名称,或者将在分类本体中匹配不到的词语删除,从而使每一类中的文本都语义单一且内容简洁,并以该文本的集合作为训练样本集的语义空间。
根据预设的训练样本集的语义空间,可以采用基于加权语义网文本相似度的KNN分类算法对待分类文本的语义空间进行分类。
在本发明的一个实施例中,综合考虑待分类文本的语义空间中的概念与训练样本集的语义空间中每一个训练样本的语义空间中的概念的相似度以及概念在待分类文本的语义空间和各训练样本的语义空间中的权重,对加权语义网文本相似度的值进行从大到小排列,选取与前k个加权语义网文本相似度对应的训练样本的语义空间,其中,k为自然数;在训练样本集的语义空间中查询所述k个训练样本的语义空间各自归属的类,从中选择包含样本数最多的类作为所述待分类文本的语义空间归属的类。
具体地,通过概念相似度计算公式,计算待分类文本的语义空间中的概念与训练样本集的语义空间中每一个训练样本的语义空间中的概念的相似度。设Si表示待分类文本的语义空间中第i个概念,Sj表示训练样本的语义空间中第j个概念,Sim(Si,Sj)表示概念语义相似度,其计算公式如下所示:
其中,C(Si,Sj)表示语义重合度,即在藏文分类本体中概念Si和概念Sj共同的祖先节点数目。D(Si,Sj)表示语义距离,即在藏文分类本体中连接概念Si和概念Sj的最短路径长度。Mi和Mj表示概念Si和概念Sj的节点密度,即在藏文分类本体中Si和Sj各自的子节点数目。Hi和Hj表示概念Si和Sj的层次深度,即在藏文分类本体中Si和Sj各自的节点深度。分母中的β是为了防止D(Si,Sj)为0的情况,0.01≤β≤0.1。分母中的γ是为了防止|Hi-Hj|为0的情况,0.01≤γ≤0.1。
计算出概念Si与Sj的概念语义相似度之后,再结合概念Si与Sj在各自文本中的权重,计算待分类文本的语义空间与训练样本集的语义空间中每个训练样本的语义空间的加权语义网文本相似度,用Di表示第i个待分类文本的语义空间,Dj表示训练样本集的语义空间中第j个训练样本的语义空间,Sim(Di,Dj)表示Di和Dj的相似度,计算公式如下:
其中,m、n分别为Di和Dj中概念的个数,Si、Sj分别为Di和Dj中的概念,Wi和Wj为Si和Sj在各自文本中的归一化权重权值,Wi和Wj通过TF-IDF方法计算。Wi和Wj的差值越小,概念Si和Sj在文本Di和Dj的重要性就越相似,待分类文本的语义空间与训练样本的语义空间就越相似,即|Wi-Wj|与文本的相似度成反比。α为平滑因子,0.0001≤α≤0.001,防止|Wi-Wj|=0。
通过上述计算公式,找到与待分类文本的语义空间最相近的k(k≥1)个训练样本的语义空间d1,d2,…,dk,并在训练样本集的语义空间中查询k个样本的语义空间各自归属的类,将待分类文本的语义空间归属为包含样本数最多的类,例如:k=10,其中5个样本属于政治类,2个样本属于经济类,2个样本属于文学类,1个样本属于体育类,则待分类文本的语义空间属于政治类。
为了更好的理解,下面对藏文本体的构建方式进行说明。
图2为本发明藏文分类本体的构建流程图,如图2所示,本实施例具体包括如下步骤:
步骤201,对藏文分类语料进行藏语类别主题词提取;
藏语类别主题词可分为人文与社会科学和自然科学两个大类,人文与社会科学类包括:政治类、法律类、历史类、社会类、经济类、艺术类、文学类、军事类、体育类、生活类、宗教类、文化宣传类12个类。自然科学类包括数理类、生物环境类、医药卫生类3个类别,共15个类别,n=15。
具体地,用C={C1,C2,…,Cs}表示藏语分类语料的类别集合,|C|表示类别的个数,用T={t1,t2,…,tp}表示藏文分类语料中所有特征词的集合,其中,tl表示第l个特征词,p表示特征词的个数,l取1到p。采用信息增益的方法,即通过公式(3)计算p个特征词各自在文本各类别中的平均信息:
其中,P(Ci)表示Ci类文本在对藏文分类语料中出现的概率,P(tl)表示特征词tl在文本集中出现的概率,P(Ci|tl)表示文本包含特征词tl时属于Ci类的条件概率,表示文本集中不出现特征词tl的概率,表示文本不包含特征词tl时属于Ci的条件概率。
计算得到p个特征词各自在文本各类别中的平均信息后,按照从大到小的顺序获取m个特征词(m<p),所获取到的m个特征词表示为T={t1,t2,…,tm},然后根据各特征词在各类别文本中的权重,计算各特征词在各类别文本中的权重总和,最后确定各特征词所属文本类别。
具体地,用D={d1,d2,…,dn}表示藏文分类语料中各文本的集合。每个文本dj都属于且仅属于一个类Ci,m个特征词T={t1,t2,…,tm}各自在文本dj中权重表示W(dj)={w1,w2,…,wm},其中,wl表示第l个特征词tl在文本dj中的权重,表示特征词tl在文本中的重要程度,l取从1到m;文本dj的向量空间可表示为v(dj)={{t1,w1},{t2,w2},…,{tm,wm}}。
根据如下公式计算m个特征词各自在各类别文本中的权重总和:
其中,dj∈Ci表示dj为Ci中的文本,wl为特征词tl在dj中对应的权重。score(tl,Ci)为特征词tl在类别Ci的权重和。
根据如下公式确定m个特征词各自所属于文本类别:
其中,表示的意思是从score(tl,Ci)中取最大值所对应的类别作为S(tl),而S(tl)表示tl所对应的类别,将确定了类别的各特征词称为类别主题词。
步骤202,从藏汉电子词典获取藏语类别主题词的汉语释义,参考知网Hownet汉语本体的语义,将通过公式(5)确定的藏语类别主题词扩充为藏文分类本体中的概念;
步骤203,以树状层次结构描述所述概念的内涵及所述概念间的上下位关系、整体-部分关系、同义关系、近义关系。
以树状层次结构表示的概念之间的关联关系即为藏文分类本体,用五元组O={C,Hc,R,HR,I}表示,其中,C表示领域概念的集合;Hc表示概念层次关系,例如:概念间的上下关系及整体和部分关系;R表示概念其他关系,例如:概念间的同义、近义关系;HR表示关系层次结构,例如:计算机类,计算机包括软件和硬件,软件又包括系统软件和应用软件,硬件包括内存和主板,那么在藏文分类本体中,第一层为计算机,第二层为软件和硬件,第三层为系统软件、应用软件、内存和主板;I表示本体实例的集合,该集合中存放该类中常用词语,如:用I表示鱼类的实例集合,则I={鲤鱼,鲫鱼,鲈鱼,草鱼}。
综上,本发明首先提供了一种藏文分类本体的构建方法,即对前期研究形成的2万篇藏文分类语料进行藏语类别主题词提取,然后基于所提取的类别主题词、知网Hownet、藏汉电子词典,采用匹配映射的方式对藏文分类本体进行构建,该方法有效地降低了手工构建领域本体的人力、物力、财力投入,制定了藏语的知识描述体系,解决了藏语语言资源比较匮乏的问题,大大提到藏语信息处理精度。
本发明提供的方法采用基于规则和模板相结合的方法对藏文网页中的文本信息进行提取,这两种方法取长补短,能有效地对藏文网页的文本信息进行实时抽取。根据预设的藏文分类本体,将文本中通过词向量空间表示的词语映射到语义空间的概念中,再采用基于加权语义网文本相似度的KNN分类算法,对待分类文本的语义空间进行分类,该方法有效地提高了对藏文网页文本信息分类的精度。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (6)
1.一种基于语义的藏文网页文本分类方法,其特征在于,该方法包括:
从藏文网页中抽取用于表征该网页的文本信息,所述文本信息包括网页的发布日期和网页的标题,根据所述网页的发布日期和网页的标题对所述藏文网页进行去重处理,以及将所述网页中的文本信息中的藏文文本的字符编码方式转换成统一码Unicode字符编码方式;
对所述文本信息进行分词处理,将所述经过分词处理得到的词语表示为词向量空间;
根据预设的藏文分类本体,将所述通过词向量空间表示的词语映射到语义空间的概念中,得到待分类文本的语义空间;
根据预设的训练样本集的语义空间,计算待分类文本的语义空间与预设的训练样本集的语义空间中每一个样本的语义空间的加权语义网文本相似度;
对所述加权语义网文本相似度的值进行从大到小排列,选取与前k个加权语义网文本相似度对应的训练样本的语义空间,其中,k为自然数;
在训练样本集的语义空间中查询所述k个训练样本的语义空间各自归属的类,从中选择包含样本数最多的类作为所述待分类文本的语义空间归属的类,获得所述文本信息的语义分类;
其中,计算所述加权语义网文本相似度的公式为:
其中,Sim(Di,Dj)表示第i个待分类文本的语义空间Di和训练样本集的语义空间中第j个训练样本的语义空间Dj的相似度,m和n分别为Di和Dj中概念的个数,Si和Sj分别为Di和Dj中的概念,Sim(Si,Sj)表示概念语义相似度,Wi和Wj为Si和Sj在各自文本中的归一化权重权值,α为平滑因子,0.0001≤α≤0.001。
2.根据权利要求1所述的方法,其特征在于,所述从藏文网页中抽取用于表征该网页的文本信息包括:
采用规则法从藏文网页中抽取文本信息,将所得到的文本信息表示为X1;
采用模板法从藏文网页中抽取文本信息,将所得到的文本信息表示为X2;
判断X1与X2是否一致,如果不一致,则分别对X1与X2中每类信息进行比较,选择每类信息中最优信息的组合作为表征所述藏文网页的文本信息。
3.根据权利要求1所述的方法,其特征在于,所述对所述文本信息进行分词处理包括:
利用字切分特征和字性库先识别每一个字,同时依据字性特征或接续特征判断出所述文本信息中的所有格助词;
通过标点符号和关联词对所述文本信息进行分句,根据所述格助词将每个句子分块;
通过词典对所述划分成块的所述文本信息进行分词,得到各个词语;
在所得到的包含多个词语的字串中含有某个紧缩词时,判断去掉该紧缩词后的字串是否在词典中存在,若是,则分词成功,分词结果为去除紧缩词后字串和紧缩词;若否,去掉紧缩词并添加后置字后在词典中查找,分词结果是原字串加后置字后的词和紧缩词。
4.据权利要求1所述的方法,其特征在于,所述预设的藏文分类本体包括:
对藏文分类语料进行藏语类别主题词提取;
从藏汉电子词典获取所述藏语类别主题词的汉语释义,参考知网Hownet汉语本体的语义,将所述藏语类别主题词扩充为藏文分类本体中的概念;
以树状层次结构描述所述概念的内涵及所述概念间的上下位关系、整体-部分关系、同义关系、近义关系。
5.根据权利要求1所述的方法,其特征在于,所述预设的训练样本集的语义空间包括:根据所述预设的藏文分类本体,将藏文分类语料中的通过词向量空间表示的词语映射到语义空间的概念中,得到训练样本集中各样本的语义空间。
6.根据权利要求1所述的方法,其特征在于,根据以下公式计算概念语义相似度:
其中,Si表示待分类文本的语义空间中第i个概念和Sj表示训练样本的语义空间中第j个概念,Sim(Si,Sj)表示概念语义相似度,C(Si,Sj)表示语义重合度,D(Si,Sj)表示语义距离,Mi和Mj表示概念Si和Sj的节点密度,Hi和Hj表示概念Si和Sj的层次深度,β和γ为平滑因子,0.01≤β≤0.1,0.01≤γ≤0.1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310141985.5A CN103218444B (zh) | 2013-04-22 | 2013-04-22 | 基于语义的藏文网页文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310141985.5A CN103218444B (zh) | 2013-04-22 | 2013-04-22 | 基于语义的藏文网页文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103218444A CN103218444A (zh) | 2013-07-24 |
CN103218444B true CN103218444B (zh) | 2016-12-28 |
Family
ID=48816231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310141985.5A Expired - Fee Related CN103218444B (zh) | 2013-04-22 | 2013-04-22 | 基于语义的藏文网页文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103218444B (zh) |
Families Citing this family (19)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR102063566B1 (ko) | 2014-02-23 | 2020-01-09 | 삼성전자주식회사 | 메시지 운용 방법 및 이를 지원하는 전자 장치 |
CN103886108B (zh) * | 2014-04-13 | 2017-09-01 | 北京工业大学 | 一种不均衡文本集的特征选择和权重计算方法 |
CN104133848B (zh) * | 2014-07-01 | 2017-09-19 | 中央民族大学 | 藏语实体知识信息抽取方法 |
CN105550291B (zh) * | 2015-12-10 | 2019-05-31 | 百度在线网络技术(北京)有限公司 | 文本分类方法和装置 |
CN105786782B (zh) * | 2016-03-25 | 2018-10-19 | 北京搜狗信息服务有限公司 | 一种词向量的训练方法和装置 |
CN106339371B (zh) * | 2016-08-30 | 2019-04-30 | 齐鲁工业大学 | 一种基于词向量的英汉词义映射方法和装置 |
CN106649563B (zh) * | 2016-11-10 | 2022-02-25 | 新华三技术有限公司 | 一种网站分类字典的构建方法及装置 |
CN106844516A (zh) * | 2016-12-28 | 2017-06-13 | 中央民族大学 | 一种热点词的提取方法及系统 |
CN108509409A (zh) * | 2017-02-27 | 2018-09-07 | 芋头科技(杭州)有限公司 | 一种自动生成语义相近句子样本的方法 |
CN109388707B (zh) * | 2017-08-11 | 2022-12-30 | 腾讯科技(深圳)有限公司 | 短文本分类方法及装置 |
CN107704559B (zh) * | 2017-09-29 | 2020-06-05 | 北京软通智城科技有限公司 | 一种语义理解方法及装置 |
CN107741930B (zh) * | 2017-11-03 | 2021-03-16 | 福建工程学院 | 一种多目标本体匹配方法及计算机设备 |
CN110245234A (zh) * | 2019-03-27 | 2019-09-17 | 中国海洋大学 | 一种基于本体和语义相似度的多源数据样本关联方法 |
CN110019822B (zh) * | 2019-04-16 | 2021-07-06 | 中国科学技术大学 | 一种少样本关系分类方法及系统 |
CN110210018B (zh) * | 2019-05-14 | 2023-07-11 | 北京百度网讯科技有限公司 | 挂号科室的匹配方法和装置 |
CN110347841B (zh) * | 2019-07-18 | 2021-07-02 | 北京香侬慧语科技有限责任公司 | 一种文档内容分类的方法、装置、存储介质及电子设备 |
CN111368552B (zh) * | 2020-02-26 | 2023-09-26 | 北京市公安局 | 一种面向特定领域的网络用户群组划分方法及装置 |
CN111460149B (zh) * | 2020-03-27 | 2023-07-25 | 科大讯飞股份有限公司 | 文本分类方法、相关设备及可读存储介质 |
CN116737935B (zh) * | 2023-06-20 | 2024-05-03 | 青海师范大学 | 基于提示学习的藏文文本分类方法、装置及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6304864B1 (en) * | 1999-04-20 | 2001-10-16 | Textwise Llc | System for retrieving multimedia information from the internet using multiple evolving intelligent agents |
CN101661513A (zh) * | 2009-10-21 | 2010-03-03 | 上海交通大学 | 网络热点和舆情的检测方法 |
-
2013
- 2013-04-22 CN CN201310141985.5A patent/CN103218444B/zh not_active Expired - Fee Related
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6304864B1 (en) * | 1999-04-20 | 2001-10-16 | Textwise Llc | System for retrieving multimedia information from the internet using multiple evolving intelligent agents |
CN101661513A (zh) * | 2009-10-21 | 2010-03-03 | 上海交通大学 | 网络热点和舆情的检测方法 |
Non-Patent Citations (1)
Title |
---|
藏文自动分词系统中紧缩词的识别;才智杰;《中文信息学报》;20090130(第01期);第35-37页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103218444A (zh) | 2013-07-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN103218444B (zh) | 基于语义的藏文网页文本分类方法 | |
CN109189942B (zh) | 一种专利数据知识图谱的构建方法及装置 | |
Li et al. | Twiner: named entity recognition in targeted twitter stream | |
US10437867B2 (en) | Scenario generating apparatus and computer program therefor | |
CN102411563B (zh) | 一种识别目标词的方法、装置及系统 | |
WO2019080863A1 (zh) | 文本情感分类方法、存储介质及计算机 | |
US10095685B2 (en) | Phrase pair collecting apparatus and computer program therefor | |
CN103116637A (zh) | 一种面向中文Web评论的文本情感分类方法 | |
Jha et al. | Homs: Hindi opinion mining system | |
CN107463658A (zh) | 文本分类方法及装置 | |
CN105183833A (zh) | 一种基于用户模型的微博文本推荐方法及其推荐装置 | |
Suleiman et al. | Comparative study of word embeddings models and their usage in Arabic language applications | |
CN106599054A (zh) | 一种题目分类及推送的方法及系统 | |
CN115796181A (zh) | 一种针对化工领域的文本关系抽取方法 | |
CN108763348A (zh) | 一种扩展短文本词特征向量的分类改进方法 | |
Man | Feature extension for short text categorization using frequent term sets | |
US20160328657A1 (en) | Complex predicate template collecting apparatus and computer program therefor | |
CN104361059A (zh) | 一种基于多示例学习的有害信息识别和网页分类方法 | |
Sadr et al. | Unified topic-based semantic models: a study in computing the semantic relatedness of geographic terms | |
CN107391565A (zh) | 一种基于主题模型的跨语言层次分类体系匹配方法 | |
CN114997288A (zh) | 一种设计资源关联方法 | |
CN102722526B (zh) | 基于词性分类统计的重复网页和近似网页的识别方法 | |
Smirnova | A model for expert finding in social networks | |
CN110377690A (zh) | 一种基于远程关系抽取的信息获取方法和系统 | |
CN103699568B (zh) | 一种从维基中抽取领域术语间上下位关系的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant | ||
CF01 | Termination of patent right due to non-payment of annual fee | ||
CF01 | Termination of patent right due to non-payment of annual fee |
Granted publication date: 20161228 |