CN103294820B - 基于语义扩展的web页面归类方法和系统 - Google Patents

基于语义扩展的web页面归类方法和系统 Download PDF

Info

Publication number
CN103294820B
CN103294820B CN201310236697.8A CN201310236697A CN103294820B CN 103294820 B CN103294820 B CN 103294820B CN 201310236697 A CN201310236697 A CN 201310236697A CN 103294820 B CN103294820 B CN 103294820B
Authority
CN
China
Prior art keywords
keyword
web page
semantic
extension
node
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201310236697.8A
Other languages
English (en)
Other versions
CN103294820A (zh
Inventor
徐立新
付丽萍
颜小林
李军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Electric Power Research Institute of Guangdong Power Grid Co Ltd
Original Assignee
Electric Power Research Institute of Guangdong Power Grid Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Electric Power Research Institute of Guangdong Power Grid Co Ltd filed Critical Electric Power Research Institute of Guangdong Power Grid Co Ltd
Priority to CN201310236697.8A priority Critical patent/CN103294820B/zh
Publication of CN103294820A publication Critical patent/CN103294820A/zh
Application granted granted Critical
Publication of CN103294820B publication Critical patent/CN103294820B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种基于语义扩展的WEB页面归类方法,包括:提取WEB页面的关键词;将WEB页面的关键词进行语义扩展,得到关键词组合;根据WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;将关键词组合与所述相似类别树中每个节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的节点中,更新所述相似类别树。对应地本发明还提供一种基于语义扩展的WEB页面归类系统。本发明能有效提高WEB页面信息归类的正确率和灵活性。

Description

基于语义扩展的WEB页面归类方法和系统
技术领域
本发明涉及WEB页面数据处理技术,特别是涉及一种基于语义扩展的WEB页面归类方法,以及一种基于语义扩展的WEB页面归类系统。
背景技术
随着互联网的普及和信息技术的发展,越来越希望通过互联网来对信息进行挖掘利用,但目前对于数据的归类多是基于关键字的对比,方法比较简单,在WEB信息自动归类或查找的过程中基于关键字匹配的方案不能很好的满足要求,在精确度和应用的灵活性方面效果较差。
发明内容
基于此,本发明提供一种基于语义扩展的WEB页面归类方法和系统,能有效提高WEB页面信息归类的正确率和灵活性。
一种基于语义扩展的WEB页面归类方法,包括如下步骤:
提取WEB页面的关键词;
将所述WEB页面的关键词进行语义扩展,得到关键词组合;
根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;
将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;
将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树。
一种基于语义扩展的WEB页面归类系统,包括:
提取模块,用于提取WEB页面的关键词;
扩展模块,用于将所述WEB页面的关键词进行语义扩展,得到关键词组合;
确定模块,用于根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;
匹配模块,用于将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;
归类模块,用于将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树。
上述基于语义扩展的WEB页面归类方法和系统,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;将WEB页面的关键词与语义词库的类别树进行比较,从而确定相似类别树,根据关键词组合确定权重最高的节点并存储,得到更新后的相似类别树,采用语义信息,对抽取的数据进行归类分析,实现了基于语义的数据归类,实现了WEB页面数据的高效归类,数据处理更加准确可靠。
附图说明
图1为本发明基于语义扩展的WEB页面归类方法在一实施例中的流程示意图。
图2为图1中关键词组合和相似类别树的示意图。
图3为本发明基于语义扩展的WEB页面归类系统在一实施例中的结构示意图。
具体实施方式
下面结合实施例及附图对本发明作进一步详细说明,但本发明的实施方式不限于此。
如图1所示,是本发明一种基于语义扩展的WEB页面归类方法在一较佳实施例中的流程示意图,包括如下步骤:
S11、提取WEB页面的关键词;
S12、将所述WEB页面的关键词进行语义扩展,得到关键词组合;
在本实施例中,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;
S13、根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;
语义词库能帮助机器理解用户的检索意图,为用户提供更精确、更相关的知识和信息;其中的类别树是一种分层的语法结构,其中用词和词的组合定义的概念彼此之间存在着语义关系;语义词库可根据现有领域知识建立;语义词库中包含了各个类别树,每个类别树侧重于一个较小的主题,对应于一个较小的领域应用;如“电力新技术”下包含了多个节点,比如节点“智能电网”,预设权重为5;节点“调度自动化”,预设权重为4;在所述WEB页面提取到关键词后,可根据预设的语义词库确定对应的类别树。
S14、将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;
S15、将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词存储在权重最高的所述节点中,更新所述相似类别树;
WEB页面对应有关键词组合,在确定对应的类别树后,将WEB页面对应的关键词组合与相似类别树下的每个节点中一匹配,若WEB页面对应的关键词组合与某个节点中包含的多个关键词中,有相同的关键词,则将相同的关键词对应地预设权重进行相加,最后判断该相似类别树下那个节点的权重最高,将所述WEB页面归类在权重最高的所述节点下,同时将关键词存储到权重最高的节点中;
如图2所示,图2a为关键词组合TreeA的示意图,图2b为相似类别树TreeB;
其中,ClassA1下有语义扩展词k1,k2,k3,k4。权值分别为2,5,3,1。
ClassA2下有语义扩展词k1,k4。
ClassB1下有语义扩展词k1。.
ClassB2下有语义扩展词K2,k4。
则:Sum(A1,B2)我们通过以下方式计算:
其中相同关键词为{k1,k2,k3,k4}∩{K2,k4}={K2,k4};则Sum(ClassA1,ClassB2)=k2+k4=5+1=6,权重6即为类别ClassA1与ClassB2的相似度。
最后将所述WEB页面归类在权重最高的所述节点下,同时将关键词组合存储到相似类别树TreeB下权重最高的节点。
在本实施例中,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;将WEB页面的关键词与语义词库的类别树进行比较,从而确定相似类别树,根据关键词组合确定权重最高的节点并存储,得到更新后的相似类别树,采用语义信息,对抽取的数据进行归类分析,实现了基于语义的数据归类,实现了WEB页面数据的高效归类,数据处理更加准确可靠。
在一较佳实施例中,所述提取WEB页面的关键词的步骤为:
读取所述WEB页面的源代码,从每个标题控制符中提取关键词,获得WEB页面的关键词;
在本实施例中需去掉web页面中与需要信息无关的其他内容,提取对分类和过滤有用的信息;可通过读取WEB页面的源代码,在页面中控制符主要包括标题,即网页源代码中用TITLE标记的文字,可提取为关键词。
在一较佳实施例中,还包括步骤:
接收输入的查询关键字;
通过语义计算查询与所述查询关键字语义相似的类别树;
根据所述相似的类别树中各个节点包含的关键词进行检索;
在本实施例中,基于语义检索网页,根据更新后的类别树,其节点中包含了更加准确和全面的关键词,根据各个节点包含的关键词进行检索,信息提供更加准确可靠。
在一较佳实施例中,所述语义扩展包括同义词扩展、特征扩展或关键词合成扩展;对关键词进行语义扩展,从而增强了信息归类的可靠性和灵活性。
本发明还提供一种基于语义扩展的WEB页面归类系统,包括:
提取模块31,用于提取WEB页面的关键词;
扩展模块32,用于将所述WEB页面的关键词进行语义扩展,得到关键词组合;
在本实施例中,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;
确定模块33,用于根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;
语义词库能帮助机器理解用户的检索意图,为用户提供更精确、更相关的知识和信息;其中的类别树是一种分层的语法结构,其中用词和词的组合定义的概念彼此之间存在着语义关系;语义词库的建立可根据现有领域知识建立;语义词库中包含了各个类别树,每个类别树侧重于一个较小的主题,对应于一个较小的领域应用;如“电力新技术”下包含了多个节点,比如节点“智能电网”,预设权重为5;节点“调度自动化”,预设权重为4。在所述WEB页面提取到关键词后,可根据预设的语义词库确定对应的类别树。
匹配模块34,用于将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;
归类模块35,用于将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树。
WEB页面对应有关键词组合,在确定对应的类别树后,将WEB页面对应的关键词组合与相似类别树下的每个节点中一匹配,若WEB页面对应的关键词组合与某个节点中包含的多个关键词中,有相同的关键词,则将相同的关键词对应地预设权重进行相加,最后判断该相似类别树下那个节点的权重最高,将关键词组合存储到权重最高的节点中。
在一较佳实施例中,所述提取模块31还用于:
读取所述WEB页面的源代码,从每个标题控制符中提取关键词,获得每个WEB页面的关键词组合;
在本实施例中需去掉web页面中与需要信息无关的其他内容,提取对分类和过滤有用的信息;可通过读取WEB页面的源代码,在页面中控制符主要包括标题,即网页源代码中用TITLE标记的文字,可提取为关键词。
在一较佳实施例中,本系统还可包括:
接收模块,用于接收输入的查询关键字;
查询模块,用于通过语义计算查询与所述查询关键字语义相似的类别树;
检索模块,用于根据所述类别树中各个节点包含的关键词进行检索;
在本实施例中,基于语义检索网页,根据更新后的类别树,其节点中包含了更加准确和全面的关键词,根据各个节点包含的关键词进行检索,信息提供更加准确可靠。
在一较佳实施例中,所述扩展模块32中的语义扩展包括同义词扩展、特征扩展或关键词合成扩展;对关键词进行语义扩展,从而增强了信息归类的可靠性和灵活性。
本发明基于语义扩展的WEB页面归类方法和系统,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;将WEB页面的关键词与语义词库的类别树进行比较,从而确定相似类别树,根据关键词组合确定权重最高的节点并存储,得到更新后的相似类别树,采用语义信息,对抽取的数据进行归类分析,实现了基于语义的数据归类,实现了WEB页面数据的高效归类,数据处理更加准确可靠。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (4)

1.一种基于语义扩展的WEB页面归类方法,其特征在于,包括如下步骤:
提取WEB页面的关键词;
将所述WEB页面的关键词进行语义扩展,得到关键词组合;其中,所述语义扩展包括同义词扩展、特征扩展或关键词合成扩展;
根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;
将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;
将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树;
所述提取WEB页面的关键词的步骤为:
读取所述WEB页面的源代码,从每个标题控制符中提取关键词,获得所述WEB页面的关键词。
2.根据权利要求1所述的基于语义扩展的WEB页面归类方法,其特征在于,还包括步骤:
接收输入的查询关键字;
通过语义计算查询与所述查询关键字语义相似的类别树;
根据所述相似的类别树中各个节点包含的关键词进行检索。
3.一种基于语义扩展的WEB页面归类系统,其特征在于,包括:
提取模块,用于提取WEB页面的关键词;
扩展模块,用于将所述WEB页面的关键词进行语义扩展,得到关键词组合;其中,所述语义扩展包括同义词扩展、特征扩展或关键词合成扩展;
确定模块,用于根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;
匹配模块,用于将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;
归类模块,用于将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树;
所述提取模块还用于:
读取所述WEB页面的源代码,从每个标题控制符中提取关键词,获得所述WEB页面的关键词。
4.根据权利要求3所述的基于语义扩展的WEB页面归类系统,其特征在于,还包括:
接收模块,用于接收输入的查询关键字;
查询模块,用于通过语义计算查询与所述查询关键字语义相似的类别树;
检索模块,用于根据所述类别树中各个节点包含的关键词进行检索。
CN201310236697.8A 2013-06-14 2013-06-14 基于语义扩展的web页面归类方法和系统 Active CN103294820B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310236697.8A CN103294820B (zh) 2013-06-14 2013-06-14 基于语义扩展的web页面归类方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310236697.8A CN103294820B (zh) 2013-06-14 2013-06-14 基于语义扩展的web页面归类方法和系统

Publications (2)

Publication Number Publication Date
CN103294820A CN103294820A (zh) 2013-09-11
CN103294820B true CN103294820B (zh) 2017-11-10

Family

ID=49095682

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310236697.8A Active CN103294820B (zh) 2013-06-14 2013-06-14 基于语义扩展的web页面归类方法和系统

Country Status (1)

Country Link
CN (1) CN103294820B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105512270B (zh) * 2015-12-04 2020-02-21 上海优扬新媒信息技术有限公司 一种确定相关对象的方法和装置
CN106991092B (zh) * 2016-01-20 2021-11-05 阿里巴巴集团控股有限公司 基于大数据挖掘相似裁判文书的方法和设备
CN105956206A (zh) * 2016-07-04 2016-09-21 Tcl集团股份有限公司 一种基于关键词树的视频检索方法及系统
CN106294784B (zh) * 2016-08-12 2019-12-17 合一智能科技(深圳)有限公司 资源搜索方法及装置
CN108664612A (zh) * 2018-05-11 2018-10-16 广东电网有限责任公司 一种基于关键词计分的长文本数据智能分类方法
CN110909118A (zh) * 2018-08-28 2020-03-24 中国移动通信集团重庆有限公司 筛选信息的方法、装置、设备和介质
CN110941718A (zh) * 2019-11-27 2020-03-31 广州快决测信息科技有限公司 一种通过文本内容自动识别文本类别的方法和系统

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN101079024A (zh) * 2006-06-19 2007-11-28 腾讯科技(深圳)有限公司 一种专业词表动态生成系统和方法
CN101079031A (zh) * 2006-06-15 2007-11-28 腾讯科技(深圳)有限公司 一种网页主题提取系统和方法
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN102999625A (zh) * 2012-12-05 2013-03-27 北京海量融通软件技术有限公司 一种检索请求语义扩展方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8768960B2 (en) * 2009-01-20 2014-07-01 Microsoft Corporation Enhancing keyword advertising using online encyclopedia semantics

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101079031A (zh) * 2006-06-15 2007-11-28 腾讯科技(深圳)有限公司 一种网页主题提取系统和方法
CN101079024A (zh) * 2006-06-19 2007-11-28 腾讯科技(深圳)有限公司 一种专业词表动态生成系统和方法
CN101059805A (zh) * 2007-03-29 2007-10-24 复旦大学 基于网络流和分层知识库的动态文本聚类方法
CN101593200A (zh) * 2009-06-19 2009-12-02 淮海工学院 基于关键词频度分析的中文网页分类方法
CN101794311A (zh) * 2010-03-05 2010-08-04 南京邮电大学 基于模糊数据挖掘的中文网页自动分类方法
CN102999625A (zh) * 2012-12-05 2013-03-27 北京海量融通软件技术有限公司 一种检索请求语义扩展方法

Also Published As

Publication number Publication date
CN103294820A (zh) 2013-09-11

Similar Documents

Publication Publication Date Title
CN103294820B (zh) 基于语义扩展的web页面归类方法和系统
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN104391942B (zh) 基于语义图谱的短文本特征扩展方法
CN101957816B (zh) 基于多页面比较的网页元数据自动抽取方法和系统
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN105045852A (zh) 一种教学资源的全文搜索引擎系统
CN104572849A (zh) 基于文本语义挖掘的标准化自动建档方法
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN103970730A (zh) 一种从单个中文文本中提取多主题词的方法
CN103324700A (zh) 一种基于Web信息的本体概念属性学习方法
CN105868177A (zh) 一种通用公式搜索方法
CN107844493B (zh) 一种文件关联方法及系统
CN102542061A (zh) 一种产品的智能分类方法
CN113190687B (zh) 知识图谱的确定方法、装置、计算机设备及存储介质
CN105095091B (zh) 一种基于倒排索引技术的软件缺陷代码文件定位方法
CN102929902A (zh) 一种基于中文检索的分词方法及装置
CN105912662A (zh) 基于Coreseek的垂直搜索引擎研究与优化的方法
CN102959538B (zh) 给文档编索引
KR20220134695A (ko) 인공지능 학습 모델을 이용한 저자 식별 시스템 및 그 방법
CN106649557A (zh) 一种缺陷报告与邮件列表语义关联挖掘方法
CN111090994A (zh) 一种面向中文网络论坛文本的事件地点归属省份识别方法
CN112035723A (zh) 资源库的确定方法和装置、存储介质及电子装置
CN109766442A (zh) 一种对用户笔记进行分类的方法及系统
CN110377790B (zh) 一种基于多模态私有特征的视频自动标注方法
CN114238735B (zh) 一种互联网数据智能采集方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 510080 Dongfeng East Road, Dongfeng, Guangdong, Guangzhou, Zhejiang Province, No. 8

Applicant after: ELECTRIC POWER RESEARCH INSTITUTE, GUANGDONG POWER GRID CO., LTD.

Address before: 510080 Dongfeng East Road, Dongfeng, Guangdong, Guangzhou, Zhejiang Province, No. 8

Applicant before: Electrical Power Research Institute of Guangdong Power Grid Corporation

CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Xu Lixin

Inventor after: Fu Liping

Inventor after: Yan Xiaolin

Inventor after: Li Jun

Inventor before: Xu Lixin

Inventor before: Yan Xiaolin

Inventor before: Li Jun

GR01 Patent grant
GR01 Patent grant