CN103488741A - 一种基于url的中文多语义名词的在线语义挖掘系统 - Google Patents
一种基于url的中文多语义名词的在线语义挖掘系统 Download PDFInfo
- Publication number
- CN103488741A CN103488741A CN201310431789.1A CN201310431789A CN103488741A CN 103488741 A CN103488741 A CN 103488741A CN 201310431789 A CN201310431789 A CN 201310431789A CN 103488741 A CN103488741 A CN 103488741A
- Authority
- CN
- China
- Prior art keywords
- semantic
- url
- webpage
- word
- classification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/951—Indexing; Web crawling techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
- G06F16/955—Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
- G06F16/9566—URL specific, e.g. using aliases, detecting broken or misspelled links
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于URL的中文多语义名词的在线语义挖掘系统,该系统利用基于URL的网页分类方法,能在线对中文多语义词进行语义挖掘,其过程:首先,通过在线URL分类目录,构建得到URL分类器;然后,借助于URL分类器,对搜索引擎返回的多语义词的搜索结果(包括网页URL及摘要)进行分类,得到多语义词的初始语义分类结果;最后,对初始语义分类结果按其网页摘要聚类,得到多语义词的语义挖掘结果。本发明提出的语义挖掘具有较为理想的准确率及召回率,且高度适用于网络热词语义挖掘。
Description
技术领域
本发明涉及网页爬虫、网页信息清洗、命名实体识别、URL特征提取、基于URL的语义分类、文本特征词提取、聚类算法等技术领域,具体地说是一种基于URL利用开放的互联网信息实时进行中文语义挖掘的多语义词语义挖掘系统。
背景技术
语义知识学习在人工智能领域中的重要应用,因此,一直以来都是自然语言处理(NLP)研究中的热点问题。其中,语义挖掘研究多语义词的语义信息获取,在相关度计算、查询扩展等领域得到广泛应用。名词的多语义特征表现的尤为明显,所以它是语义挖掘的研究重点。对于中文多语义名词,语义挖掘应能较为全面地挖掘出其最新语义。例如对于多语义名词“苹果”,语义挖掘应能挖掘出其包括“公司”、“水果”、“电影”等在内的多个语义。
传统的语义挖掘方法大多仅涉及文本或html文件的语义信息处理,通过对网页正文或语料文本进行词法或语法分析,挖掘出多语义词的多个语义。由于涉及到分词、词法分析及语法分析等文本处理步骤,传统的语义挖掘效率较低。在线语义挖掘需要下载相关网页,而网页下载非常耗时,使得挖掘过程尤为缓慢,以往的语义挖掘方法并不高效。总之,以往的语义挖掘方法多基于文本处理,未能充分利用其它在线语义信息。
与在线获取网页html文件相比,获取网页URL速度较快。基于网页URL特征的分类方法已在网页主题分类及查询分类领域得到广泛应用。
发明内容
本发明的目的是针对现有技术中的缺陷而提供的一种基于URL的中文多语义名词的在线语义挖掘系统,该系统利用基于URL的分类方法得到多语义词搜索结果的初始语义分类,即根据其URL对搜索结果按语义分类;随后对初始语义分类的网页摘要进行聚类,最终得到中文多语义词的语义挖掘结果,最终语义挖掘结果由一组与该语义相关的标签表示。
实现本发明目的的具体技术方案是:
一种基于URL的中文多语义名词的在线语义挖掘系统,该系统包括基于URL的语义分类模块及语义生成模块,其中:
所述基于URL的语义分类模块利用互联网网页中URL中的语义特征,对中文多语义词的搜索结果进行语义分类;其该模块的生成:中文权威网站发布并更新URL网址分类目录,此目录会对其收录的网站URL及其对应的语义类别;根据多个权威网站的网页目录,对其收录的网页URL及对应的语义分类进行归纳、去重,以构建URL分类器; URL分类器为树状结构,树中叶子结点即为其收录的网站主页URL,非叶子结点则为其子结点的语义类别;
所述基于URL的语义生成模块根据中文多语义词搜索结果中的网页摘要部分,对基于URL语义分类模块中所得结果进行聚类,并采用top-N筛选出每类的特征词,作为多语义词的语义分类结果;其该模块的多语义词的语义生成过程:
ⅰ)对于构建的URL分类器所得的初始语义分类中的网页摘要进行分词处理,并按改进的基于词频的方法选取特征词;
ⅱ)根据所得特征词,对网页摘要进行聚类,聚类方法为Single-link聚类;
ⅲ)采用top-N,对每类选取一组特征词,表示最终的语义挖掘结果。
所述中文多语义词的搜索结果指多语义词通过中文在线搜索引擎所获得的网页搜索结果,包括网页URL及网页摘要。
所述构建URL分类器的过程:
ⅰ)将网页URL按标识符分段,提取分类特征;
ⅱ)将提取得来的URL分类特征同URL目录下的叶子结点进行相似度匹配,若相似度超过阈值,则将此叶子结点的语义分类作为该网页的候选语义分类;若未达到阈值,则不做任何处理;
ⅲ)按照top-N,为每个网页从候选语义分类中确定其语义分类。
所述选取特征词的方法是:
其对传统的基于词频的方法进行改进,得到最能代表初始分类结果的聚类特征,定义W为:
本发明提供一种基于URL利用开放的互联网信息实时进行中文语义挖掘的多义词语义挖掘系统,包括URL语义分类模块及语义生成模块。其中,所述URL语义分类模块利用互联网网页中URL中的语义特征,对中文多语义词的搜索结果进行语义分类;所述语义生成模块根据中文多语义词搜索结果中的网页摘要部分,对URL分类模块中所得结果进行聚类,并采用top-N策略筛选出每类的特征词,作为多语义词的语义分类结果。
本发明通过搜索引擎得到多语义词的互联网搜索结果(包括网页URL及网页摘要),通过URL语义分类模块对所得搜索结果进行按语义分类,得到分类结果。再在语义生成模块中对上步所得分类结果进行聚类、特征选取等过程,最终得到多义词的若干语义挖掘结果。
利用本发明,能够有效获取中文多主义词的在线语义分类结果,是对中文在线百科多语义词语义分类的有效补充,且能为自然语言处理领域的相关度计算、搜索查询扩展等研究提供有力的支持。
附图说明
图1为本发明应用的总体流程图;
图2为本发明多语义词语义生成实例流程图;
图3为本发明实施例在Yahoo在线网址分类目录。
具体实施方式
本发明可利用搜索引擎返回的多语义词的搜索结果,实时进行中文语义挖掘的多义词语义挖掘,最后得到多语义词的语义搜索结果。
实施例
本发明以中文多语义词开始,在线获得其多语义词搜索结果。下面以中文多语义词“围脖”为例,结合附图对本发明作进一步说明。
参阅图1,为本发明应用的总体流程图。图1所示虚线框内为本发明所要引用的互联网资源,实线框部分则为本发明所对应的模块。其中,模块1为基于URL的语义分类模块,模块2为语义生成模块。具体地,在“搜索引擎搜索”模块中接收中文多语义词,然后将得到的搜索结果(包括网页URL及对应的摘要),利用本发明构建所得的“在线URL分类器”于模块1中对搜索结果基于URL分类,对所得的初始语义分类结果作为模块2的输入,经聚类、特征词选择后,最终生成中文多语义词语义。
互联网的搜索引擎搜索模块根据待挖掘的中文多语义词构造出搜索URL,利用搜索引擎在网络数据中搜索与所述中文多语义词相关的网页搜索结果。
在本实施例中,如图2所示,所述中文多义词 “围脖” 经搜索引擎搜索模块得到其对应的若干搜索URL,再返回这些URL对应的网页内容,即可得到该多语义词的搜索结果。如图2所示,其中的一个搜索URL即为:http://www.baidu.com/s?wd=围脖&tn=baidulocal&ie=utf-8&rsv_bp=0&tn=baidulocal&rsv_spt=3&ie=utf-8。
本发明系统包括以下两个模块:
模块1“基于URL分类”模块。在本实施例中,所述URL分类模块利用各大权威网站发布的URL分类目录,提取目录中的网站URL及其对应的URL分类,构造出URL分类器。对一个待分类的网页URL,首先对其进行URL特征提取,得到对应的URL特征后,将其投入URL分类器,分类器将产生对应的语义分类结果。
在本实施例中,URL分类器的构造方法如下:
一些中文权威网站发布或更新URL网址分类目录,此目录会对其收录的网站URL按语义类别归类。通常情况下,目录为树状结构,树中叶子结点即为其收录的网站主页URL,非叶子结点则为其子结点的语义类别。雅虎网页目录含3-4层,首层对应16个语义类别,如图3所示。一些中文权威网站会发布与雅虎目录类似的网页目录,本发明将以多个权威网站的网页目录为基础,构建URL分类器。
根据URL分类器,获取网页分类的过程如下:
(1)对每项网页项WI,将其对应的按标识符分段,提取分类特征。
(2)将提取得来的URL分类特征同URL目录下的叶子结点进行相似度匹配,若相似度超过阈值,则将此叶子结点的语义分类作为该网页的候选语义分类。若未达到阈值,则不做任何处理。
(3)按照top-N,为每个网页从候选语义分类中确定其语义分类。处于同一语义分类的网页,则视为其处在同一语义分类下。
通过构建好的URL分类器,可得到“围脖”的搜索结果的初始语义分类,如图2所示。
模块2“聚类、语义生成”模块。在本实施例中,所述聚类及语义生成模块对初始语义分类结果进行聚类,以初始语义分类中的网页摘要文本中的关键词作为聚类特征,得到聚类结果,并在各聚类结果中按top-N选择出若干个关键词,作为最终语义分类输出。
更为具体的,在本实施例中,先将初始语义分类的网页摘要进行分词,这里采用中科院的分词软件ICTCLAS进行分词,采用一种改进的词频方法进行特征选取,即对每个候选词,计算定义W为:
其中为某一初始语义分类的词频数,为某候选特征词在对应的初始语义分类下的词频数。得到特征词后,再通过一种层次聚类算法——MKCLS算法,得到最终语义分类结果,如图2中结果所示,“围脖”的最终语义分类结果为:1、围巾 时尚 价格 品牌 购物 评论 2、 时代 科技 女王 周刊 成为 新浪网。
结合上述图1和图2所示出的实施例及具体实施样例,本发明首次将基于URL的网页分类方法引入到中文多语义词的语义挖掘中来。实验证明,该系统能高效地得到多语义词的语义挖掘结果,且保证较高准确率及召回率。
上述描述中一些部分对结构特征和方法进行了具体的描述,但是应该了解,在所述权利要求中定义的本发明不必限于所述的具体特征或动作。此具体特征或动作仅为了更好地说明本发明作为一个例子而存在的。本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。
Claims (4)
1.一种基于URL的中文多语义名词的在线语义挖掘系统,其特征在于该系统包括基于URL的语义分类模块及语义生成模块,其中:
所述基于URL的语义分类模块利用互联网网页中URL中的语义特征,对中文多语义词的搜索结果进行语义分类;其该模块的生成:中文权威网站发布并更新URL网址分类目录,此目录会对其收录的网站URL及其对应的语义类别;根据多个权威网站的网页目录,对其收录的网页URL及对应的语义分类进行归纳、去重,以构建URL分类器; URL分类器为树状结构,树中叶子结点即为其收录的网站主页URL,非叶子结点则为其子结点的语义类别;
所述基于URL的语义生成模块根据中文多语义词搜索结果中的网页摘要部分,对基于URL语义分类模块中所得结果进行聚类,并采用top-N筛选出每类的特征词,作为多语义词的语义分类结果;其该模块的多语义词的语义生成过程:
ⅰ)对于构建的URL分类器所得的初始语义分类中的网页摘要进行分词处理,并按改进的基于词频的方法选取特征词;
ⅱ)根据所得特征词,对网页摘要进行聚类,聚类方法为Single-link聚类;
ⅲ)采用top-N,对每类选取一组特征词,表示最终的语义挖掘结果。
2.根据权利要求1所述的系统,其特征在于所述中文多语义词的搜索结果指多语义词通过中文在线搜索引擎所获得的网页搜索结果,包括网页URL及网页摘要。
3.根据权利要求1所述的系统,其特征在于所述构建URL分类器的过程:
ⅰ)将网页URL按标识符分段,提取分类特征;
ⅱ)将提取得来的URL分类特征同URL目录下的叶子结点进行相似度匹配,若相似度超过阈值,则将此叶子结点的语义分类作为该网页的候选语义分类;若未达到阈值,则不做任何处理;
ⅲ)按照top-N,为每个网页从候选语义分类中确定其语义分类。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310431789.1A CN103488741A (zh) | 2013-09-22 | 2013-09-22 | 一种基于url的中文多语义名词的在线语义挖掘系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310431789.1A CN103488741A (zh) | 2013-09-22 | 2013-09-22 | 一种基于url的中文多语义名词的在线语义挖掘系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN103488741A true CN103488741A (zh) | 2014-01-01 |
Family
ID=49828967
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310431789.1A Pending CN103488741A (zh) | 2013-09-22 | 2013-09-22 | 一种基于url的中文多语义名词的在线语义挖掘系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103488741A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615729A (zh) * | 2014-10-30 | 2015-05-13 | 南京源成语义软件科技有限公司 | 基于语义网技术的网络搜索方法 |
CN106649413A (zh) * | 2015-11-04 | 2017-05-10 | 阿里巴巴集团控股有限公司 | 一种网页标签的分组方法和装置 |
CN110008309A (zh) * | 2019-03-21 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 一种短语挖掘方法及装置 |
CN111723378A (zh) * | 2020-06-17 | 2020-09-29 | 浙江网新恒天软件有限公司 | 一种基于网站地图的网站目录爆破方法 |
CN112417299A (zh) * | 2020-12-08 | 2021-02-26 | 西安联乘智能科技有限公司 | 一种网页推荐方法、计算机存储介质及计算设备 |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090112865A1 (en) * | 2007-10-26 | 2009-04-30 | Vee Erik N | Hierarchical structure entropy measurement methods and systems |
-
2013
- 2013-09-22 CN CN201310431789.1A patent/CN103488741A/zh active Pending
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20090112865A1 (en) * | 2007-10-26 | 2009-04-30 | Vee Erik N | Hierarchical structure entropy measurement methods and systems |
Non-Patent Citations (3)
Title |
---|
JUN GONG ET AL.: "Determine the Entity Number in Hierarchical Clustering for Web Personal Name Disambiguation", 《HTTP://CITESEERX.IST.PSU.EDU/VIEWDOC/DOWNLOAD?DOI=10.1.1.493.9734&REP=REP1&TYPE=PDF》 * |
李晓黎 等: "基于支持向量机与无监督聚类相结合的中文网页分类器", 《计算机学报》 * |
汤琛 等: "基于URL分类库正逆向分类模型的设计实现", 《电信快报》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN104615729A (zh) * | 2014-10-30 | 2015-05-13 | 南京源成语义软件科技有限公司 | 基于语义网技术的网络搜索方法 |
CN106649413A (zh) * | 2015-11-04 | 2017-05-10 | 阿里巴巴集团控股有限公司 | 一种网页标签的分组方法和装置 |
WO2017076200A1 (zh) * | 2015-11-04 | 2017-05-11 | 阿里巴巴集团控股有限公司 | 一种网页标签的分组方法和装置 |
US10803137B2 (en) | 2015-11-04 | 2020-10-13 | Alibaba Group Holdings Limited | Method and apparatus for grouping web page labels in a web browser |
CN110008309A (zh) * | 2019-03-21 | 2019-07-12 | 腾讯科技(深圳)有限公司 | 一种短语挖掘方法及装置 |
CN111723378A (zh) * | 2020-06-17 | 2020-09-29 | 浙江网新恒天软件有限公司 | 一种基于网站地图的网站目录爆破方法 |
CN111723378B (zh) * | 2020-06-17 | 2023-03-10 | 浙江网新恒天软件有限公司 | 一种基于网站地图的网站目录爆破方法 |
CN112417299A (zh) * | 2020-12-08 | 2021-02-26 | 西安联乘智能科技有限公司 | 一种网页推荐方法、计算机存储介质及计算设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN101593200B (zh) | 基于关键词频度分析的中文网页分类方法 | |
CN104298771B (zh) | 一种海量web日志数据查询与分析方法 | |
CN104537097A (zh) | 微博舆情监测系统 | |
Chawla et al. | Product opinion mining using sentiment analysis on smartphone reviews | |
CN104504150A (zh) | 新闻舆情监测系统 | |
CN107885793A (zh) | 一种微博热点话题分析预测方法及系统 | |
CN104281702A (zh) | 基于电力关键词分词的数据检索方法及装置 | |
CN107423288A (zh) | 一种基于无监督学习的中文分词系统及方法 | |
CN110457579B (zh) | 基于模板和分类器协同工作的网页去噪方法及系统 | |
CN102609427A (zh) | 舆情垂直搜索分析系统及方法 | |
CN103488741A (zh) | 一种基于url的中文多语义名词的在线语义挖掘系统 | |
US11263062B2 (en) | API mashup exploration and recommendation | |
CN104504151A (zh) | 微信舆情监测系统 | |
Mukherjee et al. | Bootstrapping semantic annotation for content-rich html documents | |
US11334592B2 (en) | Self-orchestrated system for extraction, analysis, and presentation of entity data | |
CN102567405A (zh) | 一种基于改进的文本空间向量表示的热点发现方法 | |
CN103095849A (zh) | 基于QoS属性预测和纠错的有监督Web服务发现方法及系统 | |
Wang et al. | Multi-modal transformer using two-level visual features for fake news detection | |
Sahni et al. | Topic modeling on online news extraction | |
CN102541935A (zh) | 一种新的基于特征向量的中文Web文档表示方法 | |
Li | Research on an Enhanced Web Information Processing Technology based on AIS Text Mining | |
CN106776654B (zh) | 一种数据搜索方法及装置 | |
Castellano et al. | A web text mining flexible architecture | |
CN113962210A (zh) | 基于nlp技术的报告智能编制方法 | |
CN112989163A (zh) | 一种垂直搜索方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C02 | Deemed withdrawal of patent application after publication (patent law 2001) | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20140101 |