CN102831246B - 藏文网页分类方法和装置 - Google Patents

藏文网页分类方法和装置 Download PDF

Info

Publication number
CN102831246B
CN102831246B CN201210345230.2A CN201210345230A CN102831246B CN 102831246 B CN102831246 B CN 102831246B CN 201210345230 A CN201210345230 A CN 201210345230A CN 102831246 B CN102831246 B CN 102831246B
Authority
CN
China
Prior art keywords
classification
tibetan
web page
lexical item
sorted
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201210345230.2A
Other languages
English (en)
Other versions
CN102831246A (zh
Inventor
胥桂仙
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Minzu University of China
Original Assignee
Minzu University of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Minzu University of China filed Critical Minzu University of China
Priority to CN201210345230.2A priority Critical patent/CN102831246B/zh
Publication of CN102831246A publication Critical patent/CN102831246A/zh
Application granted granted Critical
Publication of CN102831246B publication Critical patent/CN102831246B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及一种藏文网页分类方法和装置,所述方法包括:提取待分类藏文网页的页面信息;对所述页面信息进行分词处理,得到所述待分类藏文网页的词项向量;利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度;将所述文本相似度满足要求的所述主题词向量的类别确定为所述待分类藏文网页的类别。本发明提供的藏文网页分类方法及装置,通过对网页的文本内容进行分析,提高了分类的准确性,从而可以提高搜索引擎的返回结果及藏文语料库的准确性。

Description

藏文网页分类方法和装置
技术领域
本发明涉及网络技术领域,尤其涉及一种藏文网页分类方法和装置。
背景技术
随着国家对少数民族地区信息化基础建设的大力投入,藏文电子数据正以惊人的速度增长。在海量纷繁的藏文信息中,如何快速地定位到感兴趣的类别,具有重要的意义。为了在这些海量的、异质的、非结构化的数据源中提取感兴趣的、潜在的、有用模式和隐藏的信息,需要对网页Web文本信息进行数据挖掘,即进行Web文本挖掘。基于web的文本分类作为处理和组织大量文本数据的关键技术,可以解决网络信息的纷繁杂乱问题,方便用户快速、准确地定位所需要的信息。藏文文本的分类对于藏文搜索引擎、藏文数字图书馆、藏语语料库的建设以及藏文出版等领域具有广泛的应用前景和很重要的现实意义。
目前,大多数web页面分类都是基于中文和英文进行的,已经出现了很多有效的汉英文文本分类算法,如K邻近算法(KNN)、贝叶斯算法、支持向量机(SVM)等分类算法,有效的分类算法可以提高分类的准确性。采用网页链接分类时,不能考虑文本内容,分类具有一定的片面性。采用机器学习的web页面分类,需要构建大量的分类语料,这需要大量人力、物力、财力才能完成;同时,对于中文文本分类,还需要进行分词预处理,分词算法的准确性亦影响到分类的准确性。
由于藏文文本属于黏着性语言,藏文语法结构具有一定的特殊性,已有的这些汉英文文本分类算法不能直接使用到藏文文本分类中。在进行藏文文本分类时,要进行分词,由于紧缩词(缩略语形式)在藏文文本中出现的频率非常高,给分词的准确性带来了难度,也约束了后继的网页进行文本分类。现有的藏文文本分类方法是采用栏目的分类方法,利用网页中的栏目信息进行分类,因而,该方法不能分类没有网页栏目信息的web页面,同时没有考虑文本的内容,导致不能精确地分类,从而影响搜索引擎的返回结果及藏文数据库的准确性。
发明内容
本发明的目的是提供一种藏文网页分类方法和装置,能够对不具有网页栏目信息的网页页面进行分类,通过对网页的文本内容进行分析,提高了分类的准确性,从而可以提高搜索引擎的返回结果及藏文语料库的准确性。
为实现上述目的,本发明提供了一种藏文网页分类方法,所述方法包括:
提取待分类藏文网页的页面信息;
对所述页面信息进行分词处理,得到所述待分类藏文网页的词项向量;
利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度;
从所述页面信息中获取网页栏目词条,利用藏文类别特征词表,查找出所述网页栏目词条所在的类别;
根据所述网页栏目词条的类别和所述文本相似度,确定所述待分类藏文网页属于各个类别的可信度;
将可信度满足要求的类别确定为所述待分类藏文网页的类别。
另一方面,本发明还提供了一种藏文网页分类装置,所述装置包括:
信息提取单元,用于提取待分类藏文网页的页面信息;
第一处理单元,用于对所述信息提取单元提取的所述页面信息进行分词处理,得到所述待分类藏文网页的词项向量;
第一计算单元,用于利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度;
栏目提取单元,用于从所述信息提取单元提取的所述页面信息中获取网页栏目词条;
第二分类单元,用于利用藏文类别特征词表,查找出所述网页栏目词条所在的类别;
置信决策单元,用于根据所述网页栏目词条的类别和所述文本相似度,确定所述待分类藏文网页属于各个类别的可信度,将可信度满足要求的类别确定为所述待分类藏文网页的类别。
本发明提供的藏文网页分类方法和装置,采用基于规则和模板相结合的方法进行网页信息提取,利用预先构建的藏文类别特征词表和藏文类别主题词表,对藏文网页文本进行网页栏目和基于类别主题词相结合的文本分类,提高了分类的准确性,对不具有网页栏目信息的网页页面也能进行分类,可用于搜索引擎中帮助人们快速、准确获取所需信息或者用于构建藏文语料库,提高语料库的准确性。
附图说明
图1为本发明实施例一提供的藏文网页分类方法流程图;
图2为本发明实施例一提供的一种藏文类别特征词表的存储结构示意图;
图3为本发明实施例二提供的藏文网页分类装置示意图。
具体实施方式
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
实施例一
图1是本实施例提供的藏文网页分类方法流程图,如图1所示,本发明的藏文网页分类方法包括:
步骤S101、提取待分类藏文网页的页面信息。
获取待分类藏文网页的网页页面,通常为html文件,对于网页页面中的页面信息可以但不限于采用规则法和(或)模板法来提取网页中预定义的相关文本信息,包括网页的标题、作者、日期、栏目等网页元数据信息,以及正文信息。
具体地,采用模板法来提取页面信息是指基于网页模板对网页进行分析,提取能够与网页模板相匹配的内容为所需的页面信息。
网页模板通过预先训练的方式获得,从一定数量的网页样本中提取特征信息,当然,也可以以同一网站的网页作为样本进行特征提取。以训练正文标题的模板为例,获取网页样本中的正文标题在网页中出现的区块位置或上下文信息作为对应的特征信息,统计这些特征信息出现的频次,将频次满足要求的特征信息作为正文标题的模板。例如,在某网站的网页html文件中,正文标题主要以“<title>***</title>”或者“<head>***</head>”为上下文信息,其出现的频次大于预设阈值,则将“<title>***</title>”或者“<head>***</head>”作为正文标题的模板。
具体地,采用规则法来提取页面信息是指针对网页中不同区块的内容采用相应的正则表达式来进行页面信息的提取。
以青海藏语广播网http://www.qhtb.cn为例,采用规则法提取网页的标题、作者、日期、栏目、正文等信息。
其中,提取网页正文内容的正则表达式为:
content=<div id=\\"zoom\\">(.+?)</div>;;<div class=\\"zwzw\\">(.+?)</div>;;<div class=\\"fmtj\\">(.+?)</div>;;<div align=\\"left\\">(.+?)</div>;;<div class=\\"lynr-center\\">(.+?)</div>;;(<td><p>(.+?)</p></td>)
提取网页栏目的正则表达式为:
column=<div class=\\"fmnav\\">(.+?)</div>;;<div align=\\"left\\"(.+?)</div>;;<div class=\\"lynav\\">(.+?)</div>;;
提取网页正文标题的正则表达式为:
titl =<div\\s+class=\\"zwbt\\">(.+?)</div>;;
提取子标题的正则表达式为:
subTitle=<subtitle>(.*?)</subtitle>;;
提取网页发布日期的正则表达式为:
date=<date>(\\d{4}-\\d{1,2}-\\d{1,2})(.*?)</date>;;<span\\s+class=\\"hz\\">(.+?)</span>;;(\\d{4}\\W{5,7}\\d{1,2}\\W{3,5}\\d{1,2})(.{1,3}\\d{1,2}:\\d{1,2});;(\\d{4}\\W{5,7}\\d{1,2}\\W{3,5}\\d{1,2});;(\\d{4}-\\d{1,2}-\\d{1,2});;
提取正文作者的正则表达式为:
author=<author>(.*?)</author>;;
需要说明的是,对于网页中不同区块的内容可以采用不同提取方法来提取,对于同一区块的内容也可以采用两种方法结合的方式来提取,对抽取的结果再进行决策,以选择较完善的一个作为提取结果,并将提取结果以可扩展标示语言(XML)数据格式保存。
可选地,为了能够不重复对同一网页进行分类,提高处理效率,本发明的藏文网页分类方法还包括网页去重处理步骤,判断待分类藏文网页是否为重复网页或者判断提取的页面信息是否为重复的页面信息,如果是,则直接作丢弃处理。
具体地,网页去重处理步骤可以选择在提取待分类藏文网页的页面信息之前或之后进行。
在提取待分类藏文网页的页面信息之前进行时,对待分类藏文网页的网址url进行判断,在去重日志中保存处理过的url,如果url重复,则作丢弃处理,否则进行提取待分类藏文网页的页面信息的步骤。
在提取待分类藏文网页的页面信息之后进行时,利用提取的页面信息与去重日志中保存的页面信息进行对比判断,如果出现重复,则丢弃处理,否则继续执行步骤S102或S105。
由于藏文国际标准编码和国家标准编码制定的时间相对滞后,市场上各种软件厂商采用自己的编码标准,可能导致各藏文网页的页面信息并不能兼容共享,在处理时也会由于编码不同而带来统计误差等影响分类的准确性。
因而,本发明的藏文网页分类方法在所述提取待分类藏文网页的页面信息之后,还对所获取的页面信息进行编码转换,得到统一编码方式的页面信息。本实施例中,将方正编码(大字符集)、班智达编码以及同元编码等编码方式统一转换为vista编码(小字符集)。
步骤S102、对所述页面信息进行分词处理,得到所述待分类藏文网页的词项向量。
具体地,对所提取的页面信息利用预先构建的藏文类别主题词表进行分词处理,将能够与主题词表相匹配的词项切分出来,得到各个词项,统计所述各个词项的词频,并为各个词项赋予权重,所述各个词项及各个词项的权重构成所述待分类藏文网页的词项向量。所述藏文类别主题词表的预先构建方法将在步骤S103中进行详细说明。
在统计得到的各个词项的词频后,可以但不限于基于词频-倒文档率(TF-IDF)的方式为各个词项赋予权重。词频表示该词项在文档中出现的次数,倒文档率表示该词项在各文档之间的区别度,倒文档率越大,越能区分词项所属的类别。
利用各个词项及各个词项的权重构成所述待分类藏文网页的词项向量。如果待分类藏文网页中包含k个词项,具体表示为:T=(t1,t2,…,tk);对应的词频向量表示为:F=(f1,f2,…,fk);各个词项对应的权重向量表示为:V=(v1,v2,…,vk)。词项向量P表示为P=(T,V)或者P=(T,F,V)。
步骤S103、利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度。
所述藏文类别主题词表可以但不限于采用预先构建方式,具体包括:
利用一定规模的藏语语料,为预定的类别构建藏文类别主题词表,简称为主题词表。
具体地,主题词表表示为Dic=(C1,C2,…,Cn),共n个主题类别。其中,Ci=(k1,k2,…,km),表示第i个主题类别Ci中包含m个主题词;第i个主题类别Ci对应的权重向量为:Wi=(w1,w2,…,wm),wm表示第m个主题词的权重。
所述预定的主题类别可以但不限于参照《国务院公文主题词表》规定的主题词包括人文与社会科学类、自然科学类两个大类。其中,人文与社会科学类包括政治类、法律类、历史类、社会类、经济类、艺术类、文学类、军事类、体育类、生活类、宗教类、文化宣传类12个类别。自然科学类包括数理类、生物环境类、医药卫生类3个类别,共15个类别,即n=15。
计算所述词项向量与各类别的主题词向量的文本相似度可以采用向量余弦夹角或者内积方式进行计算。以向量余弦夹角为例,所述词项向量与第i个主题类别的主题词向量的文本相似度计算公式为:Sim<Ci,T>=Wi*V/sqrt(|Wi|*|V|),其中i∈(1,n),Wi=length(Ci);V=F*Wi
步骤S104、将所述文本相似度满足要求的主题词向量的类别作为所述词项向量的类别。
所述满足要求包括所述文本相似度大于或等于预设相似度阈值,或者,所述文本相似度排在前N位,N为预设正整数。
例如,N取1时,则选取文本相似度最大的主题类别Ci,作为所述词项向量的类别,即Max(Sim<Ci,T>)。可以直接将所确定的词项向量的类别作为藏文网页的分类类别。
为了针对不同类别的网页,提高分类的准确性,本发明在基于类别主题词分类的基础上,还结合网页栏目的分类方法。
步骤S105、从所述页面信息中获取网页栏目词条。
网页栏目词条是指网站各个频道中对不同的内容或功能进行的分类,可以有不同的划分标准和不同的级别,各个级别的栏目共同构成网站的频道。一般综合类的网站都会包括新闻、体育、财经、科技、数码、旅游、娱乐等网页栏目词条。
栏目词条的出现位置通常较为固定,而且网页栏目词条一般以锚文本(anchor)的形式出现。例如,有译成中文后的藏文栏目词组:“首页->科技->互联网”,从网页中获取符合栏目词条特征的锚文本,作为待分类藏文网页的网页栏目词条。
步骤S106、利用藏文类别特征词表,查找出所述网页栏目词条所在的类别。
所述藏文类别特征词表可以采用预先构建的方式,具体包括:
由于一个网站符合要求的栏目词条是有限的,因此可以快速、准确地采集类别特征词,建立类别特征词表。例如有译成中文后的藏文栏目词组:“首页->专栏->格尔萨传”,那么仅可将词条“格尔萨传”加入预定义的“文学类”一类中。利用一定数量的藏文网站来确定各个类别的网页栏目词条。
为了实现类别特征词表被快速顺序查找和动态扩充的功能,可以但不限于采用链表数组的方式来存储类别特征词表。图2是一种藏文类别特征词表的存储结构示意图,如图2所示,用Tn来表示类别名称,其中n表示类别个数。
类别T1及其特征词用一个链表来存储,该类别扩充的特征词加入链尾;t1i表示类别中T1的第i个特征词。n个类别链表由一个大小为n的数组管理。这样建立和存储类别特征词表,可以保证随机顺序匹配速度快,特征词可以动态扩充,其个数及长度不限。
将步骤S105所获取的网页栏目词条与所述类别特征词表进行匹配。例如,步骤S105获取的网页栏目词条为“篮球”,匹配到所述类别特征词表中的体育分类,则将“体育”作为该网页栏目词条的类别。
步骤S107、根据所述网页栏目词条的类别和所述文本相似度,确定所述待分类藏文网页属于各个类别的可信度。
具体地,如果所述词项向量的类别与所述网页栏目词条的类别一致,且所述文本相似度大于或等于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N1。如果所述词项向量的类别与所述网页栏目词条的类别不一致,但所述文本相似度大于或等于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N2。如果所述词项向量的类别与所述网页栏目词条的类别不一致,且所述文本相似度小于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N3。如果所述网页栏目词条的类别不能确定,且所述文本相似度小于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N4。其中,N1、N2、N3为预设的任意正数值,且N1>N2>N3>N4。
例如,如果所述词项向量与类别A的主题词向量的文本相似度大于预设阈值但栏目词条所在类别不包括类别A,则这个类别A的可信度设为2,代表所述词项向量属于类别A的可信度为中。如果所述词项向量与类别A的主题词向量的文本相似度大于预设阈值,且栏目词条所在类别也包括类别A,则类别A的可信度设为3,代表所述词项向量属于类别A的可信度为高。
如果所述词项向量与类别A的主题词向量的文本相似度小于预设阈值,但栏目词条所在类别包括类别A,则设置类别A的可信度为1,代表所述词项向量属于类别A的可信度为低。如果所述词项向量与所有类别的主题词向量的文本相似度小于预设阈值,且藏文网页中不包含栏目词条,无法确定栏目词条的类别,则所有类别的可信度为0,表示不能分类。
步骤S108、将可信度满足要求的类别确定为所述待分类藏文网页的类别。
所述可信度满足要求的类别是指可信度大于或等于预设可信度阈值。预设可信度阈值根据实际需求而设定,例如可以设为2。当步骤S107计算得到类别A的可信度大于或等于2时,则将类别A确定为所述待分类藏文网页的类别。
一个藏文网页中包含的内容可能包括多个方面,因而,对于同一藏文网页的分类可以属于不同的多个类别。
以上是对本发明所提供的藏文网页分类方法进行的详细描述,下面对本发明提供的藏文网页分类装置进行详细描述。
实施例二
图3是本实施例提供的藏文网页分类装置示意图,如图3所示,本发明的藏文网页分类装置包括:信息提取单元11、编码转换单元12、第一处理单元13、第一计算单元14、第一分类单元15、栏目提取单元16、第二分类单元17和置信决策单元18。
信息提取单元11用于提取待分类藏文网页的页面信息。
信息提取单元11获取待分类藏文网页的网页页面,通常为html文件,对于网页页面中的页面信息可以但不限于采用规则法和(或)模板法来提取网页中预定义的相关文本信息,包括网页的标题、作者、日期、栏目等网页元数据信息,以及正文信息。
具体地,信息提取单元11采用模板法来提取页面信息是指基于网页模板对网页进行分析,提取能够与网页模板相匹配的内容为所需的页面信息。
网页模板通过预先训练的方式获得,从一定数量的网页样本中提取特征信息,当然,也可以以同一网站的网页作为样本进行特征提取。以训练正文标题的模板为例,获取网页样本中的正文标题在网页中出现的区块位置或上下文信息作为对应的特征信息,统计这些特征信息出现的频次,将频次满足要求的特征信息作为正文标题的模板。例如,在某网站的网页html文件中,正文标题主要以“<title>***</title>”或者“<head>***</head>”为上下文信息,其出现的频次大于预设阈值,则将“<title>***</title>”或者“<head>***</head>”作为正文标题的模板。
或者,信息提取单元11采用规则法来提取页面信息是指针对网页中不同区块的内容采用相应的正则表达式来进行页面信息的提取。
以青海藏语广播网http://www.qhtb.cn为例,采用规则法提取网页的标题、作者、日期、栏目、正文等信息。
其中,提取网页正文内容的正则表达式为:
content=<div id=\\"zoom\\">(.+?)</div>;;<div clas s=\\"zwzw\\">(.+?)</div>;;<div class=\\"fmtj\\">(.+?)</div>;;<div align=\\"left\\">(.+?)</div>;;<div class=\\"lynr-center\\">(.+?)</div>;;(<td><p>(.+?)</p></td>)
提取网页栏目的正则表达式为:
column=<div class=\\"fmnav\\">(.+?)</div>;;<div align=\\"left\\"(.+?)</div>;;<div class=\\"lynav\\">(.+?)</div>;;
提取网页正文标题的正则表达式为:
title=<div\\s+class=\\"zwbt\\">(.+?)</div>;;
提取子标题的正则表达式为:
subTitle=<subtitle>(.*?)</subtitle>;;
提取网页发布日期的正则表达式为:
date=<date>(\\d{4}-\\d{1,2}-\\d{1,2})(.*?)</date>;;<span\\s+class=\\"hz\\">(.+?)</span>;;(\\d{4}\\W{5,7}\\d{1,2}\\W{3,5}\\d{1,2})(.{1,3}\\d{1,2}:\\d{1,2});;(\\d{4}\\W{5,7}\\d{1,2}\\W{3,5}\\d{1,2});;(\\d{4}-\\d{1,2}-\\d{1,2});;
提取正文作者的正则表达式为:
author=<author>(.*?)</author>;;
需要说明的是,信息提取单元11对于网页中不同区块的内容可以采用不同提取方法来提取,对于同一区块的内容也可以采用两种方法结合的方式来提取,对抽取的结果再进行决策,以选择较完善的一个作为提取结果,并将提取结果以可扩展标示语言(XML)数据格式保存。
可选地,为了能够不重复对同一网页进行分类,提高处理效率,本发明的藏文网页分类装置还包括去重单元10。
去重单元10用于利用记录的去重日志,判断所述待分类藏文网页是否为重复网页或页面信息,如果是,则丢弃该网页。
具体地,去重单元10可以设置在信息提取单元11之前或之后。如果设置在信息提取单元11之前,去重单元10对待分类藏文网页的网址url进行判断,在去重日志中保存处理过的url,如果url重复,则作丢弃处理,否则将url提供给信息提取单元11。如果设置在信息提取单元11之后,去重单元10利用提取的网页内容或url与去重日志中保存的网页内容或url进行对比判断,如果出现重复,则丢弃处理,否则将信息提取单元11获取的页面信息提供给后续处理单元。
编码转换单元12用于对信息提取单元11获取的页面信息进行编码转换,得到统一编码方式的页面信息,并将转换后的页面信息提供给第一处理单元13或栏目提取单元16。
由于藏文国际标准编码和国家标准编码制定的时间相对滞后,市场上各种软件厂商采用自己的编码标准,可能导致各藏文网页的页面信息并不能兼容共享,在处理时也会由于编码不同而带来统计误差等影响分类的准确性。
因而,本发明的藏文网页分类装置设置编码转换单元12,对所获取的页面信息进行编码转换,得到统一编码方式的页面信息。本实施例中,将方正编码(大字符集)、班智达编码以及同元编码等编码方式统一转换为vista编码(小字符集)。
第一处理单元13用于对信息提取单元11提取的所述页面信息进行分词处理,得到所述待分类藏文网页的词项向量。具体包括:分词子单元131、统计子单元132和赋值子单元133。
分词子单元131用于对信息提取单元11所提取的页面信息利用预先构建的藏文类别主题词表进行分词,将能够与主题词表相匹配的词项切分出来,得到各个词项。
统计子单元132用于统计分词子单元131分词得到的各个词项的词频。赋值子单元133用于为各个词项赋予权重。赋值子单元133可以但不限于基于词频-倒文档率(TF-IDF)的方式为各个词项赋予权重。词频表示该词项在文档中出现的次数,倒文档率表示该词项在各文档之间的区别度,倒文档率越大,越能区分词项所属的类别。
利用各个词项及各个词项的权重构成所述待分类藏文网页的词项向量。如果待分类藏文网页中包含k个词项,具体表示为:T=(t1,t2,…,tk);对应的词频向量表示为:F=(f1,f2,…,fk);各词项对应的权重向量表示为:V=(v1,v2,…,vk)。词项向量P表示为P=(T,V)或者P=(T,F,V)。
第一计算单元14用于利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度。
所述藏文类别主题词表可以但不限于采用预先构建方式,具体包括:
利用一定规模的藏语语料,为预定的类别构建藏文类别主题词表,简称为主题词表。
具体地,主题词表表示为Dic=(C1,C2,…,Cn),共n个主题类别。其中,Ci=(k1,k2,…,km),表示第i个主题类别Ci中包含m个主题词;第i个主题类别Ci对应的权重向量为:Wi=(w1,w2,…,wm),wm表示第m个主题词的权重。
所述预定的主题类别可以但不限于参照《国务院公文主题词表》规定的主题词包括人文与社会科学类、自然科学类两个大类。其中,人文与社会科学类包括政治类、法律类、历史类、社会类、经济类、艺术类、文学类、军事类、体育类、生活类、宗教类、文化宣传类12个类别。自然科学类包括数理类、生物环境类、医药卫生类3个类别,共15个类别,即n=15。
第一计算单元14计算所述词项向量与各类别的主题词向量的文本相似度可以采用向量余弦夹角或者内积方式进行计算。以向量余弦夹角为例,所述词项向量与第i个主题类别的主题词向量的文本相似度计算公式为:Sim<Ci,T>=Wi*V/sqrt(|Wi|*|V|),其中i∈(1,n),Wi=length(Ci);V=F*Wi
第一分类单元15用于将所述文本相似度满足要求的主题词向量所在的类别作为所述词项向量的类别。
所述满足要求包括所述文本相似度大于或等于预设相似度阈值,或者,所述文本相似度排在前N位,N为预设正整数。
例如,N取1时,第一分类单元15选取文本相似度最大的主题类别Ci,作为所述词项向量的类别,即Max(Sim<Ci,T>)。本发明的藏文网页分类装置可以直接将所确定的词项向量的类别作为藏文网页的分类类别。
为了针对不同类别的网页,提高分类的准确性,本发明的藏文网页分类装置在基于类别主题词分类的基础上,还结合网页栏目的分类。
栏目提取单元16用于从所述页面信息中获取网页栏目词条。
网页栏目词条是指网站各个频道中对不同的内容或功能进行的分类,可以有不同的划分标准和不同的级别,各个级别的栏目共同构成网站的频道。一般综合类的网站都会包括新闻、体育、财经、科技、数码、旅游、娱乐等网页栏目词条。
栏目词条的出现位置通常较为固定,而且网页栏目词条一般以锚文本(anchor)的形式出现。例如,有译成中文后的藏文栏目词组:“首页->科技->互联网”,栏目提取单元16从网页中获取符合栏目词条特征的锚文本,作为待分类藏文网页的网页栏目词条。
第二分类单元17用于利用藏文类别特征词表,查找出所述网页栏目词条所在的类别。
所述藏文类别特征词表可以采用预先构建的方式,具体包括:
由于一个网站符合要求的栏目词条是有限的,因此可以快速、准确地采集类别特征词,建立类别特征词表。例如有译成中文后的藏文栏目词组:“首页->专栏->格尔萨传”,那么仅可将词条“格尔萨传”加入预定义的“文学类”一类中。利用一定数量的藏文网站来确定各个类别的网页栏目词条。
为了实现类别特征词表被快速顺序查找和动态扩充的功能,可以但不限于采用链表数组的方式来存储类别特征词表。
第二分类单元17将栏目提取单元16所获取的网页栏目词条与所述类别特征词表进行匹配。例如,栏目提取单元16获取的网页栏目词条为“篮球”,匹配到所述类别特征词表中的体育分类,则第二分类单元17将“体育”作为该网页栏目词条的类别。
置信决策单元18用于根据所述网页栏目词条的类别和所述文本相似度,确定所述待分类藏文网页属于各个类别的可信度,将可信度满足要求的类别确定为所述待分类藏文网页的类别。
具体地,如果所述词项向量的类别与所述网页栏目词条的类别一致,且所述文本相似度大于或等于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N1。如果所述词项向量的类别与所述网页栏目词条的类别不一致,但所述文本相似度大于或等于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N2。如果所述词项向量的类别与所述网页栏目词条的类别不一致,且所述文本相似度小于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N3。如果所述网页栏目词条的类别不能确定,且所述文本相似度小于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N4。其中,N1、N2、N3为预设的任意正数值,且N1>N2>N3>N4。
例如,如果所述词项向量与类别A的主题词向量的文本相似度大于预设阈值但栏目词条所在类别不包括类别A,则这个类别A的可信度设为2,代表所述词项向量属于类别A的可信度为中。如果所述词项向量与类别A的主题词向量的文本相似度大于预设阈值,且栏目词条所在类别也包括类别A,则类别A的可信度设为3,代表所述词项向量属于类别A的可信度为高。
如果所述词项向量与类别A的主题词向量的文本相似度小于预设阈值,但栏目词条所在类别包括类别A,则设置类别A的可信度为1,代表所述词项向量属于类别A的可信度为低。如果所述词项向量与所有类别的主题词向量的文本相似度小于预设阈值,且藏文网页中不包含栏目词条,无法确定栏目词条的类别,则所有类别的可信度为0,表示不能分类。
置信决策单元18将可信度满足要求的类别确定为所述待分类藏文网页的类别。
所述可信度满足要求的类别是指可信度大于或等于预设可信度阈值。预设可信度阈值根据实际需求而设定,例如可以设为2。置信决策单元18如果计算得到类别A的可信度大于或等于2时,则将类别A确定为所述待分类藏文网页的类别。
本发明提供的藏文网页分类方法和装置,采用基于规则和模板相结合方法进行网页信息抽取,采用基于网页栏目信息和主题词表相结合的方法进行网页分类,能够提高分类的准确性,从而可以提高搜索引擎的返回结果及藏文数据库的准确性。本发明不仅对于帮助人们快速、准确获取所需信息及构建藏文语料库具有积极的意义,而且对于推动和发展藏文信息检索技术,保护少数民族语言文化也有重要作用。
专业人员应该还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种藏文网页分类方法,其特征在于,所述方法包括: 
提取待分类藏文网页的页面信息; 
对所述页面信息进行分词处理,得到所述待分类藏文网页的词项向量; 
利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度; 
从所述页面信息中获取网页栏目词条,利用藏文类别特征词表,查找出所述网页栏目词条所在的类别; 
根据所述网页栏目词条的类别和所述文本相似度,确定所述待分类藏文网页属于各个类别的可信度; 
将可信度满足要求的类别确定为所述待分类藏文网页的类别; 
其中,对所述页面信息进行分词得到各个词项,统计所述各个词项的词频,并为各个词项赋予权重; 
所述各个词项及各个词项的权重构成所述待分类藏文网页的词项向量; 
所述利用藏文类别主题词表中各类别的主题词向量,计算所述词项向量与所述各类别的主题词向量的文本相似度,具体为: 
所述藏文类别主题词表中包括n个类别Dic=(C1,C2,…,Ci,…,Cn),其中,Ci表示第i个类别,Ci=(l1,l2,…,lm)表示第i个类别Ci中包含m个主题词,Ci对应的权重向量为:Wi=(w1,w2,…,wm),wm表示第m个主题词的权重; 
所述待分类藏文网页的所述词项向量中包含k个词项T=(t1,t2,…,tk),各个词项对应的词频为F=(f1,f2,…,fk),各个词项对应的权重为V=(v1,v2,…,vk); 
根据相似度计算公式Sim<Ci,T>=Wi*V/sqrt(|Wi|*|V|),计算得到所述第i个主题类别的主题词向量与所述词项向量的文本相似度,其中i∈(1,n),Wi=length(Ci);V=F*Wi。 
2.根据权利要求1所述的藏文网页分类方法,其特征在于,在所述提取待分类藏文网页的页面信息之前,还包括: 
利用记录的去重日志,判断所述待分类藏文网页是否为重复网页,如果是,则丢弃该藏文网页,否则提取待分类藏文网页的页面信息,并更新所述去重日志。
3.根据权利要求1所述的藏文网页分类方法,其特征在于,在所述提取待分类藏文网页的页面信息之后,还包括: 
利用记录的去重日志,判断所述页面信息是否为重复的页面信息,如果是,则丢弃该藏文网页,否则执行所述对所述页面信息进行分词处理,并更新所述去重日志。 
4.根据权利要求1所述的藏文网页分类方法,其特征在于,在所述提取待分类藏文网页的页面信息之后,还包括: 
对所述页面信息进行编码转换,得到统一编码方式的页面信息; 
对转换后的所述页面信息进行分词处理,或者,从转换后的所述页面信息中获取所述网页栏目词条。 
5.根据权利要求1所述的藏文网页分类方法,其特征在于,所 述根据所述网页栏目词条的类别和所述文本相似度,确定所述待分类藏文网页属于各个类别的可信度,具体包括: 
所述文本相似度满足预设要求的所述主题词向量的类别为所述词项向量的类别; 
如果所述词项向量的类别与所述网页栏目词条的类别一致,且所述文本相似度大于或等于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N1; 
如果所述词项向量的类别与所述网页栏目词条的类别不一致,但所述文本相似度大于或等于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N2; 
如果所述词项向量的类别与所述网页栏目词条的类别不一致,且所述文本相似度小于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N3; 
如果所述网页栏目词条的类别不能确定,且所述文本相似度小于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N4; 
其中,N1、N2、N3为预设的任意正数值,且N1>N2>N3>N4。 
6.一种藏文网页分类装置,其特征在于,所述装置包括: 
信息提取单元,用于提取待分类藏文网页的页面信息; 
第一处理单元,用于对所述信息提取单元提取的所述页面信息进行分词处理,得到所述待分类藏文网页的词项向量; 
第一计算单元,用于利用藏文类别主题词表中各类别的主题词向 量,计算所述词项向量与所述各类别的主题词向量的文本相似度; 
栏目提取单元,用于从所述信息提取单元提取的所述页面信息中获取网页栏目词条; 
第二分类单元,用于利用藏文类别特征词表,查找出所述网页栏目词条所在的类别; 
置信决策单元,用于根据所述网页栏目词条的类别和所述文本相似度,确定所述待分类藏文网页属于各个类别的可信度,将可信度满足要求的类别确定为所述待分类藏文网页的类别;
其中,所述第一处理单元具体包括: 
分词子单元,用于对所述信息提取单元提取的所述页面信息进行分词,得到各个词项; 
统计子单元,用于统计所述各个词项的词频; 
赋值子单元,用于为各个词项赋予权重; 
所述各个词项及各个词项的权重构成所述待分类藏文网页的词项向量; 
所述藏文类别主题词表中包括n个类别Dic=(C1,C2,…,Ci,…,Cn),其中,Ci表示第i个类别,Ci=(l1,l2,…,lm)表示第i个类别Ci中包含m个主题词,Ci对应的权重向量为:Wi=(w1,w2,…,wm),wm表示第m个主题词的权重; 
所述第一处理单元得到的所述词项向量中包含k个词项T=(t1,t2,…,tk),各个词项对应的词频为F=(f1,f2,…,fk),各个词项对应的权重为V=(v1,v2,…,vk); 
所述第一计算单元具体用于: 
根据相似度计算公式Sim<Ci,T>=Wi*V/sqrt(|Wi|*|V|),计算得到所述第i个主题类别的主题词向量与所述词项向量的文本相似度,其中i∈(1,n),Wi=length(Ci);V=F*Wi。 
7.根据权利要求6所述的藏文网页分类装置,其特征在于,所述装置还包括: 
去重单元,用于利用记录的去重日志,判断所述待分类藏文网页是否为重复网页,如果是,则丢弃该藏文网页,否则将该网页提供给所述信息提取单元提取待分类藏文网页的页面信息,并更新所述去重日志。 
8.根据权利要求6所述的藏文网页分类装置,其特征在于,所述装置还包括: 
去重单元,用于利用记录的去重日志,判断所述信息提取单元提取的所述页面信息是否为重复的页面信息,如果是,则丢弃该藏文网页,否则将所述页面信息提供给所述第一处理单元。 
9.根据权利要求6所述的藏文网页分类装置,其特征在于,所述装置还包括: 
编码转换单元,用于对所述信息提取单元提取的所述页面信息进行编码转换,得到统一编码方式的页面信息,并将转换后的页面信息提供给所述第一处理单元或栏目提取单元。 
10.根据权利要求6所述的藏文网页分类装置,其特征在于,所述装置还包括: 
第一分类单元,用于将所述文本相似度满足预设要求的所述主题词向量的类别作为所述词项向量的类别; 
所述置信决策单元具体用于: 
如果所述词项向量的类别与所述网页栏目词条的类别一致,且所述文本相似度大于或等于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N1; 
如果所述词项向量的类别与所述网页栏目词条的类别不一致,但所述文本相似度大于或等于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N2; 
如果所述词项向量的类别与所述网页栏目词条的类别不一致,且所述文本相似度小于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N3; 
如果所述网页栏目词条的类别不能确定,且所述文本相似度小于预设相似度阈值,则所述待分类藏文网页属于各个类别的可信度为N4; 
其中,N1、N2、N3为预设的任意正数值,且N1>N2>N3>N4。 
CN201210345230.2A 2012-09-17 2012-09-17 藏文网页分类方法和装置 Expired - Fee Related CN102831246B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210345230.2A CN102831246B (zh) 2012-09-17 2012-09-17 藏文网页分类方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210345230.2A CN102831246B (zh) 2012-09-17 2012-09-17 藏文网页分类方法和装置

Publications (2)

Publication Number Publication Date
CN102831246A CN102831246A (zh) 2012-12-19
CN102831246B true CN102831246B (zh) 2014-09-24

Family

ID=47334381

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210345230.2A Expired - Fee Related CN102831246B (zh) 2012-09-17 2012-09-17 藏文网页分类方法和装置

Country Status (1)

Country Link
CN (1) CN102831246B (zh)

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105302807B (zh) * 2014-06-06 2020-01-10 腾讯科技(深圳)有限公司 一种获取信息类别的方法和装置
CN104036010B (zh) * 2014-06-25 2017-05-24 华东师范大学 一种基于半监督cbow的用户搜索词主题分类的方法
CN104133848B (zh) * 2014-07-01 2017-09-19 中央民族大学 藏语实体知识信息抽取方法
CN105653548A (zh) * 2014-11-12 2016-06-08 北大方正集团有限公司 一种电子文档页面类型识别方法和系统
CN104615714B (zh) * 2015-02-05 2019-05-24 北京中搜云商网络技术有限公司 基于文本相似度和微博频道特征的博文排重方法
CN106202124B (zh) * 2015-05-08 2019-12-31 广州市动景计算机科技有限公司 网页分类方法及装置
CN105389345A (zh) * 2015-10-26 2016-03-09 天津大学 一种分类短信文本内容的方法
CN106776652B (zh) * 2015-11-24 2020-09-25 北京国双科技有限公司 数据处理方法及装置
CN106776654B (zh) * 2015-11-24 2021-01-22 北京国双科技有限公司 一种数据搜索方法及装置
CN107153654B (zh) * 2016-03-03 2020-04-28 阿里巴巴集团控股有限公司 一种识别用户所属地区的方法及装置
CN107402930B (zh) * 2016-05-20 2020-08-04 阿里巴巴集团控股有限公司 网页文本的修改方法及装置
CN106372117B (zh) * 2016-08-23 2019-06-14 电子科技大学 一种基于词共现的文本分类方法及其装置
CN107122392B (zh) * 2017-03-09 2020-08-04 北京星选科技有限公司 词库构建方法、识别搜索需求的方法及相关装置
CN110020296A (zh) * 2017-10-31 2019-07-16 北京国双科技有限公司 一种提取新闻网页正文的方法及装置
CN109033077A (zh) * 2018-07-03 2018-12-18 龙马智芯(珠海横琴)科技有限公司 时间类型的识别方法、装置、存储介质、电子装置
CN110852094B (zh) * 2018-08-01 2023-11-03 北京京东尚科信息技术有限公司 检索目标的方法、装置及计算机可读存储介质
CN109492110A (zh) * 2018-11-28 2019-03-19 南京中孚信息技术有限公司 文档分类方法及装置
CN110008343B (zh) * 2019-04-12 2024-08-02 深圳前海微众银行股份有限公司 文本分类方法、装置、设备及计算机可读存储介质
CN110705290B (zh) * 2019-09-29 2023-06-23 新华三信息安全技术有限公司 一种网页分类方法及装置
CN111191028A (zh) * 2019-12-16 2020-05-22 浙江大搜车软件技术有限公司 样本标注方法、装置、计算机设备和存储介质
CN111414336A (zh) * 2020-03-20 2020-07-14 北京师范大学 一种知识点导向的教育资源采集与分类的方法和系统
CN115203620B (zh) * 2022-09-14 2023-02-07 北京大学 面向接口迁移的相似语义主题的网页识别方法、装置和设备
CN116245096B (zh) * 2022-12-09 2024-02-20 西南民族大学 一种基于局部词表的藏文分词评测集构建方法
CN116737935B (zh) * 2023-06-20 2024-05-03 青海师范大学 基于提示学习的藏文文本分类方法、装置及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178714A (zh) * 2006-12-20 2008-05-14 腾讯科技(深圳)有限公司 一种网页分类方法及装置
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7657507B2 (en) * 2007-03-02 2010-02-02 Microsoft Corporation Pseudo-anchor text extraction for vertical search

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178714A (zh) * 2006-12-20 2008-05-14 腾讯科技(深圳)有限公司 一种网页分类方法及装置
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于栏目的藏文网页文本自动分类方法;胥桂仙 等;《中文信息学报》;20110715;第25卷(第4期);20-23 *
胥桂仙 等.基于栏目的藏文网页文本自动分类方法.《中文信息学报》.2011,第25卷(第4期),20-23.
藏文文本分类器的设计与实现;贾会强 等;《科技向导》;20100425;30-31 *
贾会强 等.藏文文本分类器的设计与实现.《科技向导》.2010,30-31.

Also Published As

Publication number Publication date
CN102831246A (zh) 2012-12-19

Similar Documents

Publication Publication Date Title
CN102831246B (zh) 藏文网页分类方法和装置
US9317498B2 (en) Systems and methods for generating summaries of documents
Chy et al. Bangla news classification using naive Bayes classifier
RU2377645C2 (ru) Способ и система для классификации дисплейных страниц с помощью рефератов
TWI536181B (zh) 在多語文本中的語言識別
WO2015149533A1 (zh) 一种基于网页内容分类进行分词处理的方法和装置
CN106021572B (zh) 二元特征词典的构建方法和装置
US10810245B2 (en) Hybrid method of building topic ontologies for publisher and marketer content and ad recommendations
Alami et al. Hybrid method for text summarization based on statistical and semantic treatment
Yang et al. Sentiment analysis for Chinese reviews of movies in multi-genre based on morpheme-based features and collocations
CN108875065B (zh) 一种基于内容的印尼新闻网页推荐方法
US20230282018A1 (en) Generating weighted contextual themes to guide unsupervised keyphrase relevance models
Rajalakshmi et al. Design of kids-specific URL classifier using Recurrent Convolutional Neural Network
CN108038099A (zh) 基于词聚类的低频关键词识别方法
CN108228612B (zh) 一种提取网络事件关键词以及情绪倾向的方法及装置
CN111651675B (zh) 一种基于ucl的用户兴趣主题挖掘方法及装置
Hassan et al. Automatic document topic identification using wikipedia hierarchical ontology
JP2014102827A (ja) 検索システム及びその検索方法
Shah et al. An automatic text summarization on Naive Bayes classifier using latent semantic analysis
Mirończuk et al. A diversified classification committee for recognition of innovative internet domains
Yadlapalli et al. Advanced Twitter sentiment analysis using supervised techniques and minimalistic features
JP2012104051A (ja) 文書インデックス作成装置
Tian et al. Research of product ranking technology based on opinion mining
Wu et al. A new approach to query segmentation for relevance ranking in web search
Shao et al. Robust single-document summarizations and a semantic measurement of quality

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20140924

CF01 Termination of patent right due to non-payment of annual fee