CN103218444B

CN103218444B - 基于语义的藏文网页文本分类方法

Info

Publication number: CN103218444B
Application number: CN201310141985.5A
Authority: CN
Inventors: 胥桂仙
Original assignee: Minzu University of China
Current assignee: Minzu University of China
Priority date: 2013-04-22
Filing date: 2013-04-22
Publication date: 2016-12-28
Anticipated expiration: 2033-04-22
Also published as: CN103218444A

Abstract

本发明涉及一种基于语义的藏文网页文本分类方法。本发明首先从藏文网页中抽取用于表征该网页的文本信息，然后对所述文本信息进行分词处理，将所述经过分词处理得到的词语表示为词向量空间，其次根据预设的藏文分类本体，将所述通过词向量空间表示的词语映射到语义空间的概念中，得到待分类文本的语义空间，最后根据预设的训练样本集的语义空间，采用分类算法对所述待分类文本的语义空间进行分类。本发明提供的基于语义的藏文网页文本分类方法，通过对网页进行预处理，并采用加权语义网文本相似度的KNN分类算法实现了对藏文网页实时、高效的分类。

Description

基于语义的藏文网页文本分类方法

技术领域

本发明涉及数据预处理技术，尤其涉及一种基于语义的藏文网页文本分类方法。

背景技术

随着藏区信息化和经济化的飞速发展，藏族网民和网页的规模正以惊人的速度增长，网络成为藏语信息传递和共享的载体，也成为藏族人民发表舆论的场所。不当的言论可能引起舆论的导火索，负面的信息将对社会公共安全形成较大威胁。藏文网页文本分类技术是藏文网络舆情监测技术实现的前提和基础，具有重要的研究价值。

基于藏文网络的语义文本分类作为处理和组织大量网络文本数据的关键技术，可以根据文本的内容自动确定文本类别，方便用户快速、准确地定位所需要的信息。然而，藏语本体知识库资源缺乏，致使基于藏文语义层面的应用研究受到约束。而且在传统的Web文本分类方法中，认为藏语的词汇之间是独立的，忽略了词语间同义词、上下位关系等语义问题，丢失了很多重要的信息，导致分类结果不够准确且计算量大。

发明内容

本发明的目的是在于提供一种能对藏文网页文本信息进行实时、高效的分类的方法。

为实现上述目的，本发明提供了一种基于语义的藏文网页文本分类方法，该方法包括：

从藏文网页中抽取用于表征该网页的文本信息；

对所述文本信息进行分词处理，将所述经过分词处理得到的词语表示为词向量空间；

根据预设的藏文分类本体，将所述通过词向量空间表示的词语映射到语义空间的概念中，得到待分类文本的语义空间；

根据预设的训练样本集的语义空间，采用分类算法对所述待分类文本的语义空间进行分类。

在上述方法中，所述从藏文网页中抽取用于表征该网页的文本信息包括：

采用规则法从藏文网页中抽取文本信息，将所得到的文本信息表示为X₁；

采用模板法从藏文网页中抽取文本信息，将所得到的文本信息表示为X₂；

判断X₁与X₂是否一致，如果不一致，则分别对X₁与X₂中每类信息进行比较，选择每类信息中最优信息的组合作为表征所述藏文网页的文本信息。

在上述方法中，所述文本信息中包括网页的发布日期和网页的标题；

所述在对所述文本信息进行分词处理之前，在从藏文网页中抽取用于表征该网页的文本信息之后还包括：

根据所述网页的发布日期和网页的标题对所述藏文网页进行去重处理；

将所述网页中的文本信息中的藏文文本的字符编码方式转换成统一码Unicode字符编码方式。

在上述方法中，对所述文本信息进行分词处理包括：

利用字切分特征和字性库先识别每一个字，同时依据字性特征或接续特征判断出所述文本信息中的所有格助词；

通过标点符号和关联词对所述文本信息进行分句，根据所述格助词将每个句子分块；

通过词典对所述划分成块的所述文本信息进行分词，得到各个词语；

在所得到的包含多个词语的字串中含有某个紧缩词时，判断去掉该紧缩词后的字串是否在词典中存在，若是，则分词成功，分词结果为去除紧缩词后字串和紧缩词；若否，去掉紧缩词并添加后置字后在词典中查找，分词结果是原字串加后置字后的词和紧缩词。

在上述方法中，所述预设的藏文分类本体包括：

对藏文分类语料进行藏语类别主题词提取；

从藏汉电子词典获取所述藏语类别主题词的汉语释义，参考知网Hownet汉语本体的语义，将所述藏语类别主题词扩充为藏文分类本体中的概念；

以树状层次结构描述所述概念的内涵及所述概念间的上下位关系、整体-部分关系、同义关系、近义关系。

在上述方法中，所述预设的训练样本集的语义空间包括：根据所述预设的藏文分类本体，将藏文分类语料中的通过词向量空间表示的词语映射到语义空间的概念中，得到训练样本集中各个样本的语义空间。

在上述方法中，所述采用分类算法对所述待分类文本的语义空间进行分类包括：

计算待分类文本的语义空间与训练样本集的语义空间中每一个样本的语义空间的加权语义网文本相似度；

对所述加权语义网文本相似度的值进行从大到小排列，选取与前k个加权语义网文本相似度对应的训练样本的语义空间，其中，k为自然数；

在训练样本集的语义空间中查询所述k个训练样本的语义空间各自归属的类，从中选择包含样本数最多的类作为所述待分类文本的语义空间归属的类。

在上述方法中，根据以下公式计算加权语义网文本相似度：

Sim (D_{i}, D_{j}) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} \frac{Sim (S_{i}, S_{j}) (W_{i} + W_{j})}{m \times n \times (α + | W_{i} - W_{j} |)}

其中，Sim（D_i,D_j）表示第i个待分类文本的语义空间D_i和训练样本集的语义空间中第j个训练样本的语义空间D_j的相似度，m和n分别为D_i和D_j中概念的个数，S_i和S_j分别为D_i和D_j中的概念，Sim(S_i,S_j)表示概念语义相似度，W_i和W_j为S_i和S_j在各自文本中的归一化权重权值，α为平滑因子，0.0001≤α≤0.001。

在上述方法中，根据以下公式计算概念语义相似度：

Sim (S_{i}, S_{j}) = \frac{C (S_{i}, S_{j}) * E (S_{i}, S_{j})}{(D (S_{i}, S_{j}) + β) * (| H_{i} - H_{j} | + γ)}

其中，S_i表示待分类文本的语义空间中第i个概念和S_j表示训练样本的语义空间中第j个概念，Sim(S_i,S_j)表示概念语义相似度，C(S_i,S_j)表示语义重合度，D(S_i,S_j)表示语义距离，M_i和M_j表示概念S_i和S_j的节点密度，H_i和H_j表示概念S_i和S_j的层次深度，β和γ为平滑因子，0.01≤β≤0.1，0.01≤γ≤0.1。

本发明提供的方法采用基于规则和模板相结合的方法对藏文网页中的文本信息进行提取，这两种方法取长补短，能有效地对藏文网页的文本信息进行实时抽取。根据预设的藏文分类本体，将文本中通过词向量空间表示的词语映射到语义空间的概念中，再采用基于加权语义网文本相似度的KNN分类算法，对待分类文本的语义空间进行分类，提高了对藏文网页文本信息分类的精度。

附图说明

图1为本发明基于语义的藏文网页文本分类方法流程图；

图2为本发明藏文分类本体的构建流程图。

具体实施方式

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

图1是本发明基于语义的藏文网页文本分类方法流程图，如图1所示，本发明的基于语义的藏文网页文本分类方法包括：

步骤101，从藏文网页中抽取用于表征该网页的文本信息。

在步骤101中，先采用规则法从藏文网页中抽取文本信息，将所得到的文本信息表示为X₁，文本信息X₁中包括网页的正文内容CT₁、网页的栏目CL₁、网页的标题T₁和网页的发布日期D₁；

具体地，采用规则的方法预先分析每个网站网页集合的特征，撰写相应正则表达式规则，自动抽取每个网站的信息。

以中国西藏信息中心网站http://tb.tibet.cn为例，采用规则法提取网页的CT₁、CL₁、T₁及D₁。

提取网页的正文内容CT₁的正则表达式为：

content=<font\\s+id=\\"Zoom\\">(.+?)</td>\\s+</tr>;;<div id=\\"NewsContent\\">(.+?)</div>;;<td\\s+valign=\\"bottom\\"\\s+cl ass=\\"content\\">(.+?)</td>;;

提取网页的栏目CL₁的正则表达式为：

column=<div\\s+class=\\"whereiam\\">(.+?)</div>;;<td>.*?<a\\s+href=.+?target=\\"_BLANK\\"(.*?>.*?)?</td>;;

提取网页的标题T₁的正则表达式为：

title=class="title">(.+?)</td>;;class=\\"biaoti\\">(.+?)</th>;;class=\\"lan_20\\">(.+?)</td>;;class=\\"hei_c\\">(.+?)</td>;;clas s=\\"title1\\">(.+?)</td>;;class=\\"hei_c1\\">(.+?)</td>;;<div\\s+id=\\"NewsTitle\\"(.+?)</div>;;

提取网页的发布日期D₁的正则表达式为：

date=(.+?);;<div\\s+id=\\"NewsTime\\"(.+?)</div>;;(\\d{4}-\\d{1,2}-\\d{1,2});;

然后采用模板法从藏文网页中抽取文本信息，将所得到的文本信息表示为X₂，文本信息X₂中包括网页的正文内容CT₂、网页的栏目CL₂、网页的标题T₂和网页的发布日期D₂；

具体地，采用模板法首先抽取每个网站的多个表结构信息，然后由藏语领域专家通过可视化界面，设置相关抽取内容的索引标记，形成信息抽取的表结构模板。

以中国西藏信息中心网站http://tb.tibet.cn为例,提取的一个表结构模板S₁如下:

tableStructure=<table><tr><td><table><tr><td></td></tr></table></td></tr><tr><td><table><tr><td><table><tr><td></td></tr><tr><td></td></tr><tr><td><table><tr><td></td><td><table><tr><td></td></t r><tr></tr><tr></tr><tr><td></td></tr><tr></tr><tr><td></td></tr></table><table><tr><td></td></tr></table><table><tr><td></td><td></td><td></td><td></td></tr></table><table><tr><td></td></tr></table><table><tr><td></td></tr></table><table><tr><td><table><tr><td></td></tr><tr><td></td></tr><tr><td></td></tr></table><table><tr><td></td></tr><tr><td></td></tr><tr><td></td></tr></table></td></tr></table></td><td></td></tr></table></td></tr></table></td></tr></ta ble></td></tr><tr><td><tr><td></table>

通过图形用户界面,由藏语领域专家指定网页栏目、网页的标题、网页的正文内容和网页的发布日期在表结构的索引位置，如下所示：

column= //网页栏目CL₂在表结构中的索引位置

title=37 //网页标题T₂在表结构中的索引位置

timeOfPublish=48 //网页发布日期D₂在表结构中的索引位置

fileText=91 //网页正文CT₂在表结构中的索引位置

若某网页P的表结构S₂与该表结构S₁一致,则网页P的标题T₂在第37个标签</tr>和第38个标签<tr>之间抽取,网页的发布日期D₂在第48标签</tr>和49个标签<tr>之间抽取,网页的正文内容CT₂在第91个标签</tr>和92个标签<tr>之间抽取。Column后面无信息，表示该模板没有栏目可以提取，即网页的栏目CL₂为空。

判断X₁与X₂是否一致，如果不一致，则分别对X₁与X₂中每类信息进行比较，具体为，分别对X₁与X₂中每类信息CT₁与CT₂、CL₁与CL₂、T₁与T₂及D₁与D₂进行比较，选择每类信息中最优信息的组合作为表征所述藏文网页的文本信息。其中，CT₁与CT₂、CL₁与CL₂、T₁与T₂的择优标准可以为长度，例如：如果|CT₁|>|CT₂|、|CL₁|>|CL₂|、|T₁|<|T₂|，且|CT₁|、|CT₂|、|CL₁|、|CL₂|、|T₁|和|T₂|分别表示CT₁、CT₂、CL₁、CL₂、T₁和T₂的长度，则选取得到的最优信息为CT₁、CL₁和T₂；D₁与D₂的择优标准可以为离当前日期最近，如果D₁与D₂相比，D₂离当前日期最近，则选取得到的最优信息为D₂；最后得到的作为表征该藏文网页的文本信息为CT₁、CL₁、T₂和D₂。

本发明中采用规则法和模板法相结合的方法，从藏文网页中抽取用于表征该网页的文本信息，能够取长补短，有效地进行实时信息抽取。

可选地，为了能够不重复对同一网页进行文本分类，提高处理效率，本发明的基于语义的藏文网页文本分类方法在对文本信息进行分词处理之前，在从藏文网页中抽取用于表征该网页的文本信息之后还包括：根据藏文网页文本信息中网页的发布日期和网页的标题对藏文网页进行去重处理，去重处理即为删除网页的发布日期和网页的标题相同的藏文网页，只保留其中一个。

由于藏文国际标准编码和国家标准编码指定的时间相对滞后，市场上各种软件厂商采用自己的编码标准，可能导致各藏文网页的页面信息并不能兼容共享，在处理时也会由于编码不同而带来统计误差等影响文本分类的准确性。

因而，本发明的基于语义的藏文网页文本分类方法在对藏文网页去重处理后还包括：将网页中的文本信息中的藏文文本的字符编码方式进行转换，得到统一编码方式的文本信息。在本发明的一种实施中，将班智达、同元编码等编码方式转换成统一码Unicode基本集字符编码。

步骤102，对所述文本信息进行分词处理，将所述经过分词处理得到的词语表示为词向量空间。

在步骤102中，对从藏文网页中抽取的用于表征该网页的文本信息，采用基于统计和词典相结合的方法进行分词处理，将能够与词典中相匹配的词语切分出来，得到各个词语，统计各个词语的词频，并为各个词语赋予权重，所述各个词语及各个词语的权重构成该词语的词向量空间。

在上述分词处理的过程中，首先，利用字切分特征和字性库先识别每一个字，同时依据字性特征或接续特征判断出所述文本信息中的所有格助词；然后，通过标点符号和关联词对所述文本信息进行分句，根据所述格助词将每个句子分块；其次，通过词典对所述划分成块的所述文本信息进行分词，得到各个词语；最后，在所得到的包含多个词语的字串中含有某个紧缩词时，判断去掉该紧缩词后的字串是否在词典中存在，若是，则分词成功，分词结果为去除紧缩词后字串和紧缩词；若否，去掉紧缩词并添加后置字后在词典中查找，分词结果是原字串加后置字后的词和紧缩词。

在统计得到的各个词项的词频后，可以采用基于词频-倒文档率(TF-IDF)的方法为各个词语赋予权重。词频表示该词语在文档中出现的次数，倒文档率表示该词语在各文档之间的区别度，倒文档率越大，越能区分词语所属的类别。

利用各个词语及各个词语的权重构成该词语的词向量空间，而藏文网页的待分类文本信息的向量空间则由文本信息中所有词语的词向量空间组成。如果藏文网页的待分类文本信息中包含k个词语，具体表示为：T={v₁,v₂,…,v_k},各个词语对应的权重表示为：W={w₁,w₂,…,w_k},第i词语的权重为w_i；藏文网页的待分类文本信息的向量空间表示为P={{v₁,w₁},{v₂,w₂}，…，{v_k,w_k}}。

具体地，某藏文网页P的待分类文本信息中包括8个词语，且已经根据各个词语的词频计算得到了对应的权重，则该待分类文本信息的向量空间用中文可表示为P={{计算机，3}，{电脑，3}，{经济，2}，{鲈鱼，3}，{带鱼，2}，{鱼鳍，2}，{法律，5}，{大海，5}}。

步骤103，根据预设的藏文分类本体，将所述通过词向量空间表示的词语映射到语义空间的概念中，得到待分类文本的语义空间。

根据预设的藏文分类本体，将所述通过词向量空间表示的词语映射到语义空间的概念中，即根据藏文分类本体中概念的内涵及概念之间的关联关系，将通过词向量空间表示的语义相同的词语只保留一个概念，将实例集合中的元素映射成实例对应的类别名称，或者将在分类本体中匹配不到的词语删除，从而形成语义单一且内容简洁的待分类文本的语义空间。

具体地，对于某藏网页P的待分类文本的语义空间P={{计算机，3}，{电脑，3}，{经济，2}，{鲈鱼，3}，{带鱼，2}，{鱼鳍，2}，{法律，5}，{大海，5}},根据藏文分类本体中概念的内涵及概念之间的关联关系，将P中通过词向量空间表示的各个词语映射到语义空间的概念中，即在藏文分类本体中，计算机和电脑为同义词，则将其映射到语义空间后，只保留一个概念“计算机”，鲈鱼和带鱼是“鱼类”的实例，将其映射到语义空间后为“鱼类”，分类本体中没有大海，删除该词语，最后得到的待分类文本的语义空间为P={{计算机，6}，{经济，2}，{鱼类，5}，{鱼鳍，2}，{法律，5}}。

步骤104，根据预设的训练样本集的语义空间，采用分类算法对所述待分类文本的语义空间进行分类。

在步骤104中，在藏文分类语料的基础上，构建训练样本集的语义空间。根据预设的藏文分类本体，将藏文分类语料中的通过词向量空间表示的词语映射到语义空间的概念中，得到训练样本集中各个样本的语义空间；其中，藏文分类语料为已经分好类的并经过了分词处理的藏语文本集合。具体实现为：根据藏文分类本体中概念的内涵及概念之间的关联关系，将藏文分类语料中语义相同的词语只保留一个概念，将实例集合中的元素映射成实例对应的类别名称，或者将在分类本体中匹配不到的词语删除，从而使每一类中的文本都语义单一且内容简洁，并以该文本的集合作为训练样本集的语义空间。

根据预设的训练样本集的语义空间，可以采用基于加权语义网文本相似度的KNN分类算法对待分类文本的语义空间进行分类。

在本发明的一个实施例中，综合考虑待分类文本的语义空间中的概念与训练样本集的语义空间中每一个训练样本的语义空间中的概念的相似度以及概念在待分类文本的语义空间和各训练样本的语义空间中的权重，对加权语义网文本相似度的值进行从大到小排列，选取与前k个加权语义网文本相似度对应的训练样本的语义空间，其中，k为自然数；在训练样本集的语义空间中查询所述k个训练样本的语义空间各自归属的类，从中选择包含样本数最多的类作为所述待分类文本的语义空间归属的类。

具体地，通过概念相似度计算公式，计算待分类文本的语义空间中的概念与训练样本集的语义空间中每一个训练样本的语义空间中的概念的相似度。设S_i表示待分类文本的语义空间中第i个概念，S_j表示训练样本的语义空间中第j个概念，Sim(S_i,S_j)表示概念语义相似度，其计算公式如下所示：

Sim (S_{i}, S_{j}) = \frac{C (S_{i}, S_{j}) * E (S_{i}, S_{j})}{(D (S_{i}, S_{j}) + β) * (| H_{i} - H_{j} | + γ)} - - - (1)

其中，C(S_i,S_j)表示语义重合度，即在藏文分类本体中概念S_i和概念S_j共同的祖先节点数目。D(S_i,S_j)表示语义距离，即在藏文分类本体中连接概念S_i和概念S_j的最短路径长度。M_i和M_j表示概念S_i和概念S_j的节点密度，即在藏文分类本体中S_i和S_j各自的子节点数目。H_i和H_j表示概念S_i和S_j的层次深度,即在藏文分类本体中S_i和S_j各自的节点深度。分母中的β是为了防止D(S_i,S_j)为0的情况，0.01≤β≤0.1。分母中的γ是为了防止|H_i-H_j|为0的情况，0.01≤γ≤0.1。

计算出概念S_i与S_j的概念语义相似度之后，再结合概念S_i与S_j在各自文本中的权重，计算待分类文本的语义空间与训练样本集的语义空间中每个训练样本的语义空间的加权语义网文本相似度，用D_i表示第i个待分类文本的语义空间，D_j表示训练样本集的语义空间中第j个训练样本的语义空间，Sim（D_i,D_j）表示D_i和D_j的相似度，计算公式如下：

Sim (D_{i}, D_{j}) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} \frac{Sim (S_{i}, S_{j}) (W_{i} + W_{j})}{m \times n \times (α + | W_{i} - W_{j} |)} - - - (2)

其中，m、n分别为D_i和D_j中概念的个数，S_i、S_j分别为D_i和D_j中的概念，W_i和W_j为S_i和S_j在各自文本中的归一化权重权值，W_i和W_j通过TF-IDF方法计算。W_i和W_j的差值越小，概念S_i和S_j在文本D_i和D_j的重要性就越相似，待分类文本的语义空间与训练样本的语义空间就越相似，即|W_i-W_j|与文本的相似度成反比。α为平滑因子，0.0001≤α≤0.001，防止|W_i-W_j|=0。

通过上述计算公式，找到与待分类文本的语义空间最相近的k(k≥1)个训练样本的语义空间d₁,d₂,…，d_k,并在训练样本集的语义空间中查询k个样本的语义空间各自归属的类，将待分类文本的语义空间归属为包含样本数最多的类，例如：k=10，其中5个样本属于政治类，2个样本属于经济类，2个样本属于文学类，1个样本属于体育类，则待分类文本的语义空间属于政治类。

为了更好的理解，下面对藏文本体的构建方式进行说明。

图2为本发明藏文分类本体的构建流程图，如图2所示，本实施例具体包括如下步骤：

步骤201，对藏文分类语料进行藏语类别主题词提取；

藏语类别主题词可分为人文与社会科学和自然科学两个大类，人文与社会科学类包括：政治类、法律类、历史类、社会类、经济类、艺术类、文学类、军事类、体育类、生活类、宗教类、文化宣传类12个类。自然科学类包括数理类、生物环境类、医药卫生类3个类别，共15个类别，n=15。

具体地，用C={C₁,C₂,…,C_s}表示藏语分类语料的类别集合，|C|表示类别的个数，用T={t₁,t₂,…,t_p}表示藏文分类语料中所有特征词的集合，其中，t_l表示第l个特征词，p表示特征词的个数,l取1到p。采用信息增益的方法，即通过公式（3）计算p个特征词各自在文本各类别中的平均信息：

IG (t_{l}) = - Σ_{i = 1}^{| C |} P (C_{i}) \log P (C_{i}) + P (t_{l}) Σ_{i = 1}^{| C |} P (C_{i} | t_{l}) \log P (C_{i} | t_{l}) + P (\overset{&OverBar;}{t_{l}}) Σ_{i = 1}^{| C |} P (C_{i} | \overset{&OverBar;}{t_{l}}) \log P (C_{i} | {\overset{&OverBar;}{t}}_{l}) - - - (3)

其中，P(C_i)表示C_i类文本在对藏文分类语料中出现的概率，P(t_l)表示特征词t_l在文本集中出现的概率，P(C_i|t_l)表示文本包含特征词t_l时属于C_i类的条件概率，表示文本集中不出现特征词t_l的概率，表示文本不包含特征词t_l时属于C_i的条件概率。

计算得到p个特征词各自在文本各类别中的平均信息后，按照从大到小的顺序获取m个特征词（m<p），所获取到的m个特征词表示为T={t₁,t₂,…,t_m}，然后根据各特征词在各类别文本中的权重，计算各特征词在各类别文本中的权重总和，最后确定各特征词所属文本类别。

具体地，用D={d₁,d₂,…,d_n}表示藏文分类语料中各文本的集合。每个文本d_j都属于且仅属于一个类C_i，m个特征词T={t₁,t₂,…,t_m}各自在文本d_j中权重表示W(d_j)={w₁,w₂,…,w_m},其中，w_l表示第l个特征词t_l在文本d_j中的权重，表示特征词t_l在文本中的重要程度，l取从1到m；文本d_j的向量空间可表示为v(d_j)={{t₁,w₁},{t₂,w₂}，…，{t_m,w_m}}。

根据如下公式计算m个特征词各自在各类别文本中的权重总和：

其中，d_j∈C_i表示d_j为C_i中的文本，w_l为特征词t_l在d_j中对应的权重。score(t_l,C_i)为特征词t_l在类别C_i的权重和。

根据如下公式确定m个特征词各自所属于文本类别：

S (t_{l}) = \arg \max_{i = 1}^{| C |} score (t_{l}, C_{i}) - - - (5)

其中，表示的意思是从score(t_l,C_i)中取最大值所对应的类别作为S(t_l)，而S(t_l)表示t_l所对应的类别，将确定了类别的各特征词称为类别主题词。

步骤202，从藏汉电子词典获取藏语类别主题词的汉语释义，参考知网Hownet汉语本体的语义，将通过公式(5)确定的藏语类别主题词扩充为藏文分类本体中的概念；

步骤203，以树状层次结构描述所述概念的内涵及所述概念间的上下位关系、整体-部分关系、同义关系、近义关系。

以树状层次结构表示的概念之间的关联关系即为藏文分类本体，用五元组O={C,H_c,R,H_R,I}表示，其中，C表示领域概念的集合；H_c表示概念层次关系，例如：概念间的上下关系及整体和部分关系；R表示概念其他关系，例如：概念间的同义、近义关系；H_R表示关系层次结构，例如：计算机类，计算机包括软件和硬件，软件又包括系统软件和应用软件，硬件包括内存和主板，那么在藏文分类本体中，第一层为计算机，第二层为软件和硬件，第三层为系统软件、应用软件、内存和主板；I表示本体实例的集合，该集合中存放该类中常用词语，如：用I表示鱼类的实例集合，则I={鲤鱼，鲫鱼，鲈鱼，草鱼}。

综上，本发明首先提供了一种藏文分类本体的构建方法，即对前期研究形成的2万篇藏文分类语料进行藏语类别主题词提取，然后基于所提取的类别主题词、知网Hownet、藏汉电子词典，采用匹配映射的方式对藏文分类本体进行构建，该方法有效地降低了手工构建领域本体的人力、物力、财力投入，制定了藏语的知识描述体系，解决了藏语语言资源比较匮乏的问题，大大提到藏语信息处理精度。

本发明提供的方法采用基于规则和模板相结合的方法对藏文网页中的文本信息进行提取，这两种方法取长补短，能有效地对藏文网页的文本信息进行实时抽取。根据预设的藏文分类本体，将文本中通过词向量空间表示的词语映射到语义空间的概念中，再采用基于加权语义网文本相似度的KNN分类算法，对待分类文本的语义空间进行分类，该方法有效地提高了对藏文网页文本信息分类的精度。

以上所述的具体实施方式，对本发明的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本发明的具体实施方式而已，并不用于限定本发明的保护范围，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于语义的藏文网页文本分类方法，其特征在于，该方法包括：

从藏文网页中抽取用于表征该网页的文本信息，所述文本信息包括网页的发布日期和网页的标题，根据所述网页的发布日期和网页的标题对所述藏文网页进行去重处理，以及将所述网页中的文本信息中的藏文文本的字符编码方式转换成统一码Unicode字符编码方式；

根据预设的训练样本集的语义空间，计算待分类文本的语义空间与预设的训练样本集的语义空间中每一个样本的语义空间的加权语义网文本相似度；

在训练样本集的语义空间中查询所述k个训练样本的语义空间各自归属的类，从中选择包含样本数最多的类作为所述待分类文本的语义空间归属的类,获得所述文本信息的语义分类；

其中，计算所述加权语义网文本相似度的公式为：

S i m (D_{i}, D_{j}) = Σ_{i = 1}^{m} Σ_{j = 1}^{n} \frac{S i m (S_{i}, S_{j}) (W_{i} + W_{j})}{m \times n \times (α + | W_{i} - W_{j} |)}

其中，Sim(D_i,D_j)表示第i个待分类文本的语义空间D_i和训练样本集的语义空间中第j个训练样本的语义空间D_j的相似度，m和n分别为D_i和D_j中概念的个数，S_i和S_j分别为D_i和D_j中的概念，Sim(S_i,S_j)表示概念语义相似度，W_i和W_j为S_i和S_j在各自文本中的归一化权重权值，α为平滑因子，0.0001≤α≤0.001。

2.根据权利要求1所述的方法，其特征在于，所述从藏文网页中抽取用于表征该网页的文本信息包括：

采用规则法从藏文网页中抽取文本信息，将所得到的文本信息表示为X1；

采用模板法从藏文网页中抽取文本信息，将所得到的文本信息表示为X2；

判断X1与X2是否一致，如果不一致，则分别对X1与X2中每类信息进行比较，选择每类信息中最优信息的组合作为表征所述藏文网页的文本信息。

3.根据权利要求1所述的方法，其特征在于，所述对所述文本信息进行分词处理包括：

4.据权利要求1所述的方法，其特征在于，所述预设的藏文分类本体包括：

对藏文分类语料进行藏语类别主题词提取；

5.根据权利要求1所述的方法，其特征在于，所述预设的训练样本集的语义空间包括：根据所述预设的藏文分类本体，将藏文分类语料中的通过词向量空间表示的词语映射到语义空间的概念中，得到训练样本集中各样本的语义空间。

6.根据权利要求1所述的方法，其特征在于，根据以下公式计算概念语义相似度：

S i m (S_{i}, S_{j}) = \frac{C (S_{i}, S_{j}) * E (S_{i}, S_{j})}{(D (S_{i}, S_{j}) + β) * (| H_{i} - H_{j} | + γ)}