发明内容
基于此,本发明提供一种基于语义扩展的WEB页面归类方法和系统,能有效提高WEB页面信息归类的正确率和灵活性。
一种基于语义扩展的WEB页面归类方法,包括如下步骤:
提取WEB页面的关键词;
将所述WEB页面的关键词进行语义扩展,得到关键词组合;
根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;
将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;
将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树。
一种基于语义扩展的WEB页面归类系统,包括:
提取模块,用于提取WEB页面的关键词;
扩展模块,用于将所述WEB页面的关键词进行语义扩展,得到关键词组合;
确定模块,用于根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;
匹配模块,用于将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;
归类模块,用于将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树。
上述基于语义扩展的WEB页面归类方法和系统,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;将WEB页面的关键词与语义词库的类别树进行比较,从而确定相似类别树,根据关键词组合确定权重最高的节点并存储,得到更新后的相似类别树,采用语义信息,对抽取的数据进行归类分析,实现了基于语义的数据归类,实现了WEB页面数据的高效归类,数据处理更加准确可靠。
具体实施方式
下面结合实施例及附图对本发明作进一步详细说明,但本发明的实施方式不限于此。
如图1所示,是本发明一种基于语义扩展的WEB页面归类方法在一较佳实施例中的流程示意图,包括如下步骤:
S11、提取WEB页面的关键词;
S12、将所述WEB页面的关键词进行语义扩展,得到关键词组合;
在本实施例中,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;
S13、根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;
语义词库能帮助机器理解用户的检索意图,为用户提供更精确、更相关的知识和信息;其中的类别树是一种分层的语法结构,其中用词和词的组合定义的概念彼此之间存在着语义关系;语义词库可根据现有领域知识建立;语义词库中包含了各个类别树,每个类别树侧重于一个较小的主题,对应于一个较小的领域应用;如“电力新技术”下包含了多个节点,比如节点“智能电网”,预设权重为5;节点“调度自动化”,预设权重为4;在所述WEB页面提取到关键词后,可根据预设的语义词库确定对应的类别树。
S14、将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;
S15、将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词存储在权重最高的所述节点中,更新所述相似类别树;
WEB页面对应有关键词组合,在确定对应的类别树后,将WEB页面对应的关键词组合与相似类别树下的每个节点中一匹配,若WEB页面对应的关键词组合与某个节点中包含的多个关键词中,有相同的关键词,则将相同的关键词对应地预设权重进行相加,最后判断该相似类别树下那个节点的权重最高,将所述WEB页面归类在权重最高的所述节点下,同时将关键词存储到权重最高的节点中;
如图2所示,图2a为关键词组合TreeA的示意图,图2b为相似类别树TreeB;
其中,ClassA1下有语义扩展词k1,k2,k3,k4。权值分别为2,5,3,1。
ClassA2下有语义扩展词k1,k4。
ClassB1下有语义扩展词k1。.
ClassB2下有语义扩展词K2,k4。
则:Sum(A1,B2)我们通过以下方式计算:
其中相同关键词为{k1,k2,k3,k4}∩{K2,k4}={K2,k4};则Sum(ClassA1,ClassB2)=k2+k4=5+1=6,权重6即为类别ClassA1与ClassB2的相似度。
最后将所述WEB页面归类在权重最高的所述节点下,同时将关键词组合存储到相似类别树TreeB下权重最高的节点。
在本实施例中,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;将WEB页面的关键词与语义词库的类别树进行比较,从而确定相似类别树,根据关键词组合确定权重最高的节点并存储,得到更新后的相似类别树,采用语义信息,对抽取的数据进行归类分析,实现了基于语义的数据归类,实现了WEB页面数据的高效归类,数据处理更加准确可靠。
在一较佳实施例中,所述提取WEB页面的关键词的步骤为:
读取所述WEB页面的源代码,从每个标题控制符中提取关键词,获得WEB页面的关键词;
在本实施例中需去掉web页面中与需要信息无关的其他内容,提取对分类和过滤有用的信息;可通过读取WEB页面的源代码,在页面中控制符主要包括标题,即网页源代码中用TITLE标记的文字,可提取为关键词。
在一较佳实施例中,还包括步骤:
接收输入的查询关键字;
通过语义计算查询与所述查询关键字语义相似的类别树;
根据所述相似的类别树中各个节点包含的关键词进行检索;
在本实施例中,基于语义检索网页,根据更新后的类别树,其节点中包含了更加准确和全面的关键词,根据各个节点包含的关键词进行检索,信息提供更加准确可靠。
在一较佳实施例中,所述语义扩展包括同义词扩展、特征扩展或关键词合成扩展;对关键词进行语义扩展,从而增强了信息归类的可靠性和灵活性。
本发明还提供一种基于语义扩展的WEB页面归类系统,包括:
提取模块31,用于提取WEB页面的关键词;
扩展模块32,用于将所述WEB页面的关键词进行语义扩展,得到关键词组合;
在本实施例中,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;
确定模块33,用于根据所述WEB页面的关键词,从预设的语义词库中的类别树中确定所述WEB页面在所述语义词库中的相似类别树,其中,所述类别树中包含多个节点,每个节点包含多个预设的关键词及其预设权重;
语义词库能帮助机器理解用户的检索意图,为用户提供更精确、更相关的知识和信息;其中的类别树是一种分层的语法结构,其中用词和词的组合定义的概念彼此之间存在着语义关系;语义词库的建立可根据现有领域知识建立;语义词库中包含了各个类别树,每个类别树侧重于一个较小的主题,对应于一个较小的领域应用;如“电力新技术”下包含了多个节点,比如节点“智能电网”,预设权重为5;节点“调度自动化”,预设权重为4。在所述WEB页面提取到关键词后,可根据预设的语义词库确定对应的类别树。
匹配模块34,用于将所述关键词组合与所述相似类别树中每个所述节点包含的多个预设的关键词进行匹配,若有相同的关键词,则将对应的预设权重进行相加;
归类模块35,用于将所述WEB页面归类在权重最高的所述节点下,同时将所述关键词组合存储在权重最高的所述节点中,更新所述相似类别树。
WEB页面对应有关键词组合,在确定对应的类别树后,将WEB页面对应的关键词组合与相似类别树下的每个节点中一匹配,若WEB页面对应的关键词组合与某个节点中包含的多个关键词中,有相同的关键词,则将相同的关键词对应地预设权重进行相加,最后判断该相似类别树下那个节点的权重最高,将关键词组合存储到权重最高的节点中。
在一较佳实施例中,所述提取模块31还用于:
读取所述WEB页面的源代码,从每个标题控制符中提取关键词,获得每个WEB页面的关键词组合;
在本实施例中需去掉web页面中与需要信息无关的其他内容,提取对分类和过滤有用的信息;可通过读取WEB页面的源代码,在页面中控制符主要包括标题,即网页源代码中用TITLE标记的文字,可提取为关键词。
在一较佳实施例中,本系统还可包括:
接收模块,用于接收输入的查询关键字;
查询模块,用于通过语义计算查询与所述查询关键字语义相似的类别树;
检索模块,用于根据所述类别树中各个节点包含的关键词进行检索;
在本实施例中,基于语义检索网页,根据更新后的类别树,其节点中包含了更加准确和全面的关键词,根据各个节点包含的关键词进行检索,信息提供更加准确可靠。
在一较佳实施例中,所述扩展模块32中的语义扩展包括同义词扩展、特征扩展或关键词合成扩展;对关键词进行语义扩展,从而增强了信息归类的可靠性和灵活性。
本发明基于语义扩展的WEB页面归类方法和系统,首先提取WEB页面的关键词,根据关键词进行语义扩展,得到了该页面的语义扩展集合,即所述的关键词组合;将WEB页面的关键词与语义词库的类别树进行比较,从而确定相似类别树,根据关键词组合确定权重最高的节点并存储,得到更新后的相似类别树,采用语义信息,对抽取的数据进行归类分析,实现了基于语义的数据归类,实现了WEB页面数据的高效归类,数据处理更加准确可靠。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。