CN103488741A

CN103488741A - 一种基于url的中文多语义名词的在线语义挖掘系统

Info

Publication number: CN103488741A
Application number: CN201310431789.1A
Authority: CN
Inventors: 刘一正
Original assignee: East China Normal University
Current assignee: East China Normal University
Priority date: 2013-09-22
Filing date: 2013-09-22
Publication date: 2014-01-01

Abstract

本发明公开了一种基于URL的中文多语义名词的在线语义挖掘系统，该系统利用基于URL的网页分类方法，能在线对中文多语义词进行语义挖掘，其过程：首先，通过在线URL分类目录，构建得到URL分类器；然后，借助于URL分类器，对搜索引擎返回的多语义词的搜索结果（包括网页URL及摘要）进行分类，得到多语义词的初始语义分类结果；最后，对初始语义分类结果按其网页摘要聚类，得到多语义词的语义挖掘结果。本发明提出的语义挖掘具有较为理想的准确率及召回率，且高度适用于网络热词语义挖掘。

Description

一种基于URL的中文多语义名词的在线语义挖掘系统

技术领域

本发明涉及网页爬虫、网页信息清洗、命名实体识别、URL特征提取、基于URL的语义分类、文本特征词提取、聚类算法等技术领域，具体地说是一种基于URL利用开放的互联网信息实时进行中文语义挖掘的多语义词语义挖掘系统。

背景技术

语义知识学习在人工智能领域中的重要应用，因此，一直以来都是自然语言处理（NLP）研究中的热点问题。其中，语义挖掘研究多语义词的语义信息获取，在相关度计算、查询扩展等领域得到广泛应用。名词的多语义特征表现的尤为明显，所以它是语义挖掘的研究重点。对于中文多语义名词，语义挖掘应能较为全面地挖掘出其最新语义。例如对于多语义名词“苹果”，语义挖掘应能挖掘出其包括“公司”、“水果”、“电影”等在内的多个语义。

传统的语义挖掘方法大多仅涉及文本或html文件的语义信息处理，通过对网页正文或语料文本进行词法或语法分析，挖掘出多语义词的多个语义。由于涉及到分词、词法分析及语法分析等文本处理步骤，传统的语义挖掘效率较低。在线语义挖掘需要下载相关网页，而网页下载非常耗时，使得挖掘过程尤为缓慢，以往的语义挖掘方法并不高效。总之，以往的语义挖掘方法多基于文本处理，未能充分利用其它在线语义信息。

与在线获取网页html文件相比，获取网页URL速度较快。基于网页URL特征的分类方法已在网页主题分类及查询分类领域得到广泛应用。

发明内容

本发明的目的是针对现有技术中的缺陷而提供的一种基于URL的中文多语义名词的在线语义挖掘系统，该系统利用基于URL的分类方法得到多语义词搜索结果的初始语义分类，即根据其URL对搜索结果按语义分类；随后对初始语义分类的网页摘要进行聚类，最终得到中文多语义词的语义挖掘结果，最终语义挖掘结果由一组与该语义相关的标签表示。

实现本发明目的的具体技术方案是：

一种基于URL的中文多语义名词的在线语义挖掘系统，该系统包括基于URL的语义分类模块及语义生成模块，其中：

所述基于URL的语义分类模块利用互联网网页中URL中的语义特征，对中文多语义词的搜索结果进行语义分类；其该模块的生成：中文权威网站发布并更新URL网址分类目录，此目录会对其收录的网站URL及其对应的语义类别；根据多个权威网站的网页目录，对其收录的网页URL及对应的语义分类进行归纳、去重，以构建URL分类器； URL分类器为树状结构，树中叶子结点即为其收录的网站主页URL，非叶子结点则为其子结点的语义类别；

所述基于URL的语义生成模块根据中文多语义词搜索结果中的网页摘要部分，对基于URL语义分类模块中所得结果进行聚类，并采用top-N筛选出每类的特征词，作为多语义词的语义分类结果；其该模块的多语义词的语义生成过程：

ⅰ）对于构建的URL分类器所得的初始语义分类中的网页摘要进行分词处理，并按改进的基于词频的方法选取特征词；

ⅱ）根据所得特征词，对网页摘要进行聚类，聚类方法为Single-link聚类；

ⅲ）采用top-N，对每类选取一组特征词，表示最终的语义挖掘结果。

所述中文多语义词的搜索结果指多语义词通过中文在线搜索引擎所获得的网页搜索结果，包括网页URL及网页摘要。

所述构建URL分类器的过程：

ⅰ）将网页URL按标识符分段，提取分类特征；

ⅱ）将提取得来的URL分类特征同URL目录下的叶子结点进行相似度匹配，若相似度超过阈值，则将此叶子结点的语义分类作为该网页的候选语义分类；若未达到阈值，则不做任何处理；

ⅲ）按照top-N，为每个网页从候选语义分类中确定其语义分类。

所述选取特征词的方法是：

其对传统的基于词频的方法进行改进，得到最能代表初始分类结果的聚类特征，定义W为：

Figure 2013104317891100002DEST_PATH_IMAGE001

其中

为某一初始语义分类的词频数，

Figure 2013104317891100002DEST_PATH_IMAGE003

为某候选特征词在对应的初始语义分类下的词频数，选取较大W值对应的词为特征词。

本发明提供一种基于URL利用开放的互联网信息实时进行中文语义挖掘的多义词语义挖掘系统，包括URL语义分类模块及语义生成模块。其中，所述URL语义分类模块利用互联网网页中URL中的语义特征，对中文多语义词的搜索结果进行语义分类；所述语义生成模块根据中文多语义词搜索结果中的网页摘要部分，对URL分类模块中所得结果进行聚类，并采用top-N策略筛选出每类的特征词，作为多语义词的语义分类结果。

本发明通过搜索引擎得到多语义词的互联网搜索结果（包括网页URL及网页摘要），通过URL语义分类模块对所得搜索结果进行按语义分类，得到分类结果。再在语义生成模块中对上步所得分类结果进行聚类、特征选取等过程，最终得到多义词的若干语义挖掘结果。

利用本发明，能够有效获取中文多主义词的在线语义分类结果，是对中文在线百科多语义词语义分类的有效补充，且能为自然语言处理领域的相关度计算、搜索查询扩展等研究提供有力的支持。

附图说明

图1为本发明应用的总体流程图；

图2为本发明多语义词语义生成实例流程图；

图3为本发明实施例在Yahoo在线网址分类目录。

具体实施方式

本发明可利用搜索引擎返回的多语义词的搜索结果，实时进行中文语义挖掘的多义词语义挖掘，最后得到多语义词的语义搜索结果。

实施例

本发明以中文多语义词开始，在线获得其多语义词搜索结果。下面以中文多语义词“围脖”为例，结合附图对本发明作进一步说明。

参阅图1，为本发明应用的总体流程图。图1所示虚线框内为本发明所要引用的互联网资源，实线框部分则为本发明所对应的模块。其中，模块1为基于URL的语义分类模块，模块2为语义生成模块。具体地，在“搜索引擎搜索”模块中接收中文多语义词，然后将得到的搜索结果（包括网页URL及对应的摘要），利用本发明构建所得的“在线URL分类器”于模块1中对搜索结果基于URL分类，对所得的初始语义分类结果作为模块2的输入，经聚类、特征词选择后，最终生成中文多语义词语义。

互联网的搜索引擎搜索模块根据待挖掘的中文多语义词构造出搜索URL，利用搜索引擎在网络数据中搜索与所述中文多语义词相关的网页搜索结果。

在本实施例中，如图2所示，所述中文多义词 “围脖” 经搜索引擎搜索模块得到其对应的若干搜索URL，再返回这些URL对应的网页内容，即可得到该多语义词的搜索结果。如图2所示，其中的一个搜索URL即为：http://www.baidu.com/s?wd=围脖&tn=baidulocal&ie=utf-8&rsv_bp=0&tn=baidulocal&rsv_spt=3&ie=utf-8。

本发明系统包括以下两个模块：

模块1“基于URL分类”模块。在本实施例中，所述URL分类模块利用各大权威网站发布的URL分类目录，提取目录中的网站URL及其对应的URL分类，构造出URL分类器。对一个待分类的网页URL，首先对其进行URL特征提取，得到对应的URL特征后，将其投入URL分类器，分类器将产生对应的语义分类结果。

在本实施例中，URL分类器的构造方法如下：

一些中文权威网站发布或更新URL网址分类目录，此目录会对其收录的网站URL按语义类别归类。通常情况下，目录为树状结构，树中叶子结点即为其收录的网站主页URL，非叶子结点则为其子结点的语义类别。雅虎网页目录含3-4层，首层对应16个语义类别，如图3所示。一些中文权威网站会发布与雅虎目录类似的网页目录，本发明将以多个权威网站的网页目录为基础，构建URL分类器。

根据URL分类器，获取网页分类的过程如下：

（1）对每项网页项WI，将其对应的按标识符分段，提取分类特征。

（2）将提取得来的URL分类特征同URL目录下的叶子结点进行相似度匹配，若相似度超过阈值，则将此叶子结点的语义分类作为该网页的候选语义分类。若未达到阈值，则不做任何处理。

（3）按照top-N，为每个网页从候选语义分类中确定其语义分类。处于同一语义分类的网页，则视为其处在同一语义分类下。

通过构建好的URL分类器，可得到“围脖”的搜索结果的初始语义分类，如图2所示。

模块2“聚类、语义生成”模块。在本实施例中，所述聚类及语义生成模块对初始语义分类结果进行聚类，以初始语义分类中的网页摘要文本中的关键词作为聚类特征，得到聚类结果，并在各聚类结果中按top-N选择出若干个关键词，作为最终语义分类输出。

更为具体的，在本实施例中，先将初始语义分类的网页摘要进行分词，这里采用中科院的分词软件ICTCLAS进行分词，采用一种改进的词频方法进行特征选取，即对每个候选词，计算定义W为：

其中为某一初始语义分类的词频数，为某候选特征词在对应的初始语义分类下的词频数。得到特征词后，再通过一种层次聚类算法——MKCLS算法，得到最终语义分类结果，如图2中结果所示，“围脖”的最终语义分类结果为：1、围巾时尚价格品牌购物评论 2、时代科技女王周刊成为新浪网。

结合上述图1和图2所示出的实施例及具体实施样例，本发明首次将基于URL的网页分类方法引入到中文多语义词的语义挖掘中来。实验证明，该系统能高效地得到多语义词的语义挖掘结果，且保证较高准确率及召回率。

上述描述中一些部分对结构特征和方法进行了具体的描述，但是应该了解，在所述权利要求中定义的本发明不必限于所述的具体特征或动作。此具体特征或动作仅为了更好地说明本发明作为一个例子而存在的。本领域技术人员可以在权利要求的范围内做出各种变形或修改，这并不影响本发明的实质内容。

Claims

1.一种基于URL的中文多语义名词的在线语义挖掘系统，其特征在于该系统包括基于URL的语义分类模块及语义生成模块，其中：

2.根据权利要求1所述的系统，其特征在于所述中文多语义词的搜索结果指多语义词通过中文在线搜索引擎所获得的网页搜索结果，包括网页URL及网页摘要。

3.根据权利要求1所述的系统，其特征在于所述构建URL分类器的过程：

ⅰ）将网页URL按标识符分段，提取分类特征；

4.根据权利要求1所述的系统，其特征在于所述选取特征词是：定义W为：

Figure 2013104317891100001DEST_PATH_IMAGE002

其中

Figure 2013104317891100001DEST_PATH_IMAGE004

为某一初始语义分类的词频数，

Figure 2013104317891100001DEST_PATH_IMAGE006