CN103793387B - 主题词的相关性处理方法及系统、主题词推荐方法及系统 - Google Patents
主题词的相关性处理方法及系统、主题词推荐方法及系统 Download PDFInfo
- Publication number
- CN103793387B CN103793387B CN201210420758.1A CN201210420758A CN103793387B CN 103793387 B CN103793387 B CN 103793387B CN 201210420758 A CN201210420758 A CN 201210420758A CN 103793387 B CN103793387 B CN 103793387B
- Authority
- CN
- China
- Prior art keywords
- descriptor
- webpage
- occurred
- occurrence
- webpage number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/95—Retrieval from the web
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Abstract
本发明提出一种主题词的相关性处理方法及系统、主题词推荐方法及系统,其网页主题词的相关性处理方法包括:从多个网页中提取多个主题词,并形成对象词库;从多个网页中获取网页内容数据,并形成源数据库;统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数;按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值。本发明可以大大提高主题词相关性计算的准确性。
Description
技术领域
本发明涉及网络与计算机的技术领域,特别涉及一种主题词的相关性处理方法及系统、主题词推荐方法及系统。
背景技术
网络信息的指数爆炸给用户浏览和筛选自己感兴趣的网页造成了巨大障碍,这称之为“信息过载”。如何更好地对这些网页进行挖掘、提取、组织成为重要话题。主题词提取作为一种凸显网页核心内容的有效组织手段被广泛利用。
主题词提取解决了单个网页的组织问题,另一方面,通过何种手段将这么多网页关联起来以便于用户浏览及推荐阅读也显得日益重要。主题词相关性计算能够找出彼此语义相近的主题词以及它们包含的网页集合,从而达到了聚合及关联网页的目的。
目前有采用互信息(Mutual information)来计算词之间的相关性,它主要利用了两个词之间的共现次数,互信息值越大表示两者越相关,其公式如下:
其中a和b为待计算相关性的两个主题词;X是a和b共同出现的网页数;Y是a出现但b未出现的网页数;Z是a未出现但b出现的网页数;N表示网页总数。
表1和表2是通过上述互信息计算公式(1)分别计算出的与“切尔西” 和“ios”这两个主题词最相关的十个主题词的结果示意表:
表1
表2
其中,表1和表2中的六列依次表示X(a和b共同出现的网页数)、Y(a出现但b未出现的网页数)、Z(a未出现但b出现的网页数)、I(a和b之间相关性数值)、a(主题词)、b(主题词)。
从表1和表2中可以看出,在计算结果中,两个主题词在网页中出现的次数差异非常明显(如表1的第一行中,主题词“摩西”和主题词“切尔西”在网页中的出现次数分别为10次和278次),可见现有的这种互信息的计算过程并没有将主题词在网页中出现次数的关联考虑在内,而如果两个主题词比较相关,则各自包含它们的网页数量也会比较相近(例如“切尔西”和“德罗巴”具有一定相关性,则往往在一篇网页的内容中会同时提到这两个主题词),从而导致该计算结果的准确性降低。从表1和表2中 的结果也可以看出这点,例如“摩西”、“卡希尔”、“被单”、“库尔”等主题词均与“切尔西”没什么关联。
另外,这种互信息的另一个缺点是无法避免极少出现的无意义主题词:比如,a和b均只在一个网页中同时出现了一次,也就是说X=1,Y=0,Z=0,则计算出现的互信息值是非常高的,这显然是不符合实际情况的。
综上所述,现有的主题词相关性计算方法存在准确性低的问题。
发明内容
本发明的目的是提供一种主题词的相关性处理方法及系统、主题词推荐方法及系统,以解决现有的主题词相关性计算方法存在的准确性低的问题。
本发明提出一种网页主题词的相关性处理方法,包括:
从多个网页中提取多个主题词,并形成对象词库;
从多个网页中获取网页内容数据,并形成源数据库;
统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;
统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数;
按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值。
本发明还提出一种主题词推荐方法,包括:
从多个网页中提取多个主题词,并形成对象词库;
从多个网页中获取网页内容数据,并形成源数据库;
统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;
统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数;
按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值;
将用户输入的主题词与所述对象词库中的其它主题词按照相关性数值进行排序;
将与所述用户输入的主题词最相关的预设数量个主题词作为推荐词返回给用户。
本发明还提出一种网页主题词的相关性处理系统,包括:
主题词提取单元,用于从多个网页中提取多个主题词;
对象词库,用于存放所述主题词提取单元提取出的并要作相关性计算的主题词;
网页数据获取单元,用于从多个网页中获取网页内容数据;
源数据库,用于存放所述网页数据获取单元获取的作为相关性计算参照基础的网页内容数据;
出现次数统计单元,用于统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;
共现次数统计单元,用于统计所述对象词库中任意两个主题词在 所述源数据库中同一网页上出现过的共现网页数;
计算单元,用于按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值。
本发明还提出一种主题词推荐系统,包括:
主题词提取单元,用于从多个网页中提取多个主题词;
对象词库,用于存放所述主题词提取单元提取出的并要作相关性计算的主题词;
网页数据获取单元,用于从多个网页中获取网页内容数据;
源数据库,用于存放所述网页数据获取单元获取的作为相关性计算参照基础的网页内容数据;
出现次数统计单元,用于统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;
共现次数统计单元,用于统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数;
计算单元,用于按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值;
接收单元,用于接收用户输入的需要进行推荐的主题词;
排序单元,用于将用户输入的主题词与所述对象词库中的其它主题词按照相关性数值进行排序;
反馈单元,用于将与所述用户输入的主题词最相关的预设数量个 主题词作为推荐词返回给用户。
相对于现有技术,本发明的有益效果是:本发明通过对主题词在热门网页中的相关信息的统计,在计算相关性数值的过程中,将主题词之间多维度的信息考虑在内,大大提高了计算的准确性。而利用本发明向用户推荐的相关主题词,可以进一步挖掘用户的潜在需求。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1为本发明实施例的一种主题词的相关性处理方法的流程图;
图2为本发明实施例的另一种主题词的相关性处理方法的流程图;
图3为本发明实施例的一种主题词推荐方法的流程图;
图4为本发明实施例的另一种主题词推荐方法的流程图;
图5为本发明实施例的一种网页主题词的相关性处理系统的结构图;
图6为本发明实施例的另一种网页主题词的相关性处理系统的结构图;
图7本发明实施例的一种主题词推荐系统的结构图;
图8本发明实施例的另一种主题词推荐系统的结构图。
具体实施方式
为更进一步阐述本发明达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的主题词的相关性处理方法 及系统、主题词推荐方法及系统其具体实施方式、方法、步骤及功效,详细说明如后。
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例详细说明中将可清楚的呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
本发明提出了一种全新的网页主题词相关性算法,通过统计并分析相关主题词的多维度信息,并结合全新的主题词相关性计算公式,其所实现的效果要远好于传统的互信息算法。请参见图1,其为本发明实施例的一种主题词的相关性处理方法的流程图,其包括以下步骤:
S11,从多个网页中提取多个主题词,并形成对象词库。
主题词是从网页正文中提取出来的,用于描述正文主旨信息的词。用来提取主题词的网页通常要选用热门网站,且近期关注度较高的网页,这样所得到的主题词才能具有较高的流行度,符合大多数人的搜索需求。当然,对象词库中的主题词也可以根据实际需要人工加入。
S12,从多个网页中获取网页内容数据,并形成源数据库。
网页内容的数据是主题词相关性计算的依据,同样的,也需要从热门网站且近期关注度较高的网页中获取网页内容数据,使计算出的主题词之间的相关性具备实时性,以符合大多数人当前的普遍认识。
S13,统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数。
这里所说的主题词在源数据库的网页中出现过的网页数,是指对于一个主题词,源数据库所存储的所有网页中,网页内容包含该主题词的网页数量。通常,网页内容为正文形式,所以需要对正文的内容进行分词,将正文的段落和句子划分成词语,以便于主题词与网页内容的比对。统计时,可以将对象词库中每个主题词,对源数据库中的数据进行遍历,然后针对每个主题词,统计在源数据库中出现过的网页数。
S14,统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数。
统计时,可以基于对象词库中任意两个主题词,对源数据库中的数据进行遍历,根据这两个主题词在各个网页上出现的情况(只要两个主题词同时在一个网页上出现,即使其中一个主题词在这个网页上仅出现一次,而另一个主题词在这个网页上出现多次,也视为共同出现过),获取两者共现的网页数。然后将对象词库中的所有主题词两两搭配,并统计出每对主题词共现网页数。
S15,按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值。
主题词出现过的网页数越多,说明此主题流行度和含义越好,从而通过相关性计算所获得的主题词,也越是热门或更容易被用户所接受,所以在主题词相关性计算中,相关性数值与两个主题词出现过的网页数成正比。
两个主题词的共现网页数越多,显然相关性越高,所以相关性数 值与两个主题词共现网页数成正比。
这里所说的共现频率是指主题词共现网页数与其出现过的网页数的比值。对于一个主题词,如果其与另一个主题词在相同网页共现的次数,相对于其自身出现过的所有网页数的比例越高,则说明这两个主题词的相关性就越高,所以相关性数值与共现频率成正比。
如果两个主题词比较相关,则各自包含它们的网页数量也比较相近,例如“切尔西”和“德罗巴”这两个主题词相关度较高,因而一个涉及“切尔西”的网页中出现“德罗巴”的概率也较高。反之,“切尔西”和“被单”这两个主题词相关度则很低,则一个一个涉及“切尔西”的网页中出现“被单”的概率就很低。可见,如果两个主题词很相关,则它们在网页里的分布基本上是一致的,因此其出现过的网页数也不会相差太多,因而相关性数值与两个主题词出现过的网页数的差异成反比。
以下为本申请较佳的一个计算公式:
其中,a为所述对象词库的一个主题词,b为所述对象词库的另一个主题词,I(a,b)为主题词a与主题词b之间的相关性数值,A为主题词a与主题词b在所述源数据库中同一网页上出现过的共现网页数,B为主题词a在所述源数据库中的网页中出现过的网页数,C为主题词b在所述源数据库中的网页中出现过的网页数,为B和C中较小的数与较大的数的比值,也即是主题词a和主题词b在所述源 数据库中出现过的网页数的差异越大,则越小。
根据上述公式(2)计算得到的两个主题词之间的相关性数值越大,则说明这两个主题词越相关。表3和表4是通过公式(2)分别计算出的与“切尔西”和“ios”这两个主题词最相关的十个主题词的结果示意表:
表3
表4
其中,表3和表4中的六列依次表示A(a和b共同出现的网页数)、B-A(a出现但b未出现的网页数)、C-A(a未出现但b出现的网页数)、I(a和b之间相关性数值)、a(主题词)、b(主题词)。
将表3、表4与表1、表2比对可以看出,通过公式(2)计算获得的 相关主题词在出现次数、含义、整体相关性上要远好于传统方法,具有更高的准确性。当然,式(2)仅为本发明一种较佳的计算公式,在不脱离本发明主要思想(与所述出现过的网页数成正比、与所述共现网页数成正比、与所述出现过的网页数的差异成反比的规则)的前提下,可以根据需要对公式进行调整(如调整系数、倍数等),均应落在本发明的保护范围内。
请参见图2,其为本发明实施例的另一种主题词的相关性处理方法的流程图,其包括以下步骤:
S21,从多个网页中提取多个主题词,并形成对象词库。
S22,从多个网页中获取网页内容数据,并形成源数据库。
S23,统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数。
S24,统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数。
S25,对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。
S26,按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值。
本实施例与图1的实施例的区别仅在于增加了步骤S25,其中所说的出现过的网页数以及共现网页数中没有意义的数值,是指会对相关性计算的准确性造成误差或者计算错误的数值,以公式(2)为例,如果B =0或C=0(即两个主题词没有在网页中出现过),则会造成公式(2)无法计算。为了排除这种特殊的情况,可以设置阈值,并将出现过的网页数小于该预设阈值的主题词进行去除,而这些热门度较低的主题词参考价值也较低,进而提高相关性计算的准确性。
本发明还提出一种主题词推荐方法,其特别适合可以与现有的搜索引擎进行配合使用,通过用户输入的关键词,根据相关性计算,向用户返回推荐词,从而发掘用户的潜在需求。请参见图3,此主题词推荐方法包括以下步骤:
S31,从多个网页中提取多个主题词,并形成对象词库。
主题词是从网页正文中提取出来的,用于描述正文主旨信息的词。主题词的相关词计算主要应用在主题词推荐、信息检索等领域,而利用本实施例的方法,就可以更准确地找出与主题词相关性较高的词。所以,用来提取主题词的网页通常要选用热门网站,且近期关注度较高的网页,这样所得到的主题词才能具有较高的流行度,符合大多数人的搜索需求。当然,对象词库中的主题词也可以根据实际需要人工加入的。
S32,从多个网页中获取网页内容数据,并形成源数据库。
网页内容的数据是主题词相关性计算的依据,同样的,也需要从热门网站且近期关注度较高的网页中获取网页内容数据,使计算出的主题词之间的相关性具备实时性,以符合大多数人当前的普遍认识。
S33,统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数。
这里所说的主题词在源数据库的网页中出现过的网页数,是指对于 一个主题词,源数据库所存储的所有网页中,网页内容包含该主题词的网页数量。通常,网页内容为正文形式,所以需要对正文的内容进行分词,将正文的段落和句子划分成词语,以便于主题词与网页内容的比对。统计时,可以将对象词库中每个主题词,对源数据库中的数据进行遍历,然后针对每个主题词,统计在源数据库中出现过的网页数。
S34,统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数。
统计时,可以基于对象词库中任意两个主题词,对源数据库中的数据进行遍历,根据这两个主题词在各个网页上出现的情况(只要两个主题词同时在一个网页上出现,即使其中一个主题词在这个网页上仅出现一次,而另一个主题词在这个网页上出现多次,也视为共同出现过),获取两者共现的网页数。然后将对象词库中的主题词两两搭配,并统计出每对主题词共现网页数。
S35,按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值。
主题词出现过的网页数越多,说明此主题流行度和含义越好,从而通过相关性计算所获得的主题词,也越是热门或更容易被用户所接受,所以在主题词相关性计算中,相关性数值与两个主题词出现过的网页数成正比。
两个主题词的共现网页数越多,显然相关性越高,所以相关性数值与两个主题词共现网页数成正比。
上述共现频率是指主题词共现网页数与其出现过的网页数的比值。对于一个主题词,如果其与另一个主题词在相同网页共现的次数,相对于其自身出现过的网页数的比例越高,则说明这两个主题词的相关性就越高,所以相关性数值与共现频率成正比。
如果两个主题词比较相关,则各自包含它们的网页数量也比较相近。而如果两个主题词很相关,则它们在网页里的分布基本上是一致的,因此其出现过的网页数也不会相差太多,因而相关性数值与两个主题词出现过的网页数的差异成反比。
公式(2)是本实施例较佳的一个计算公式,将表3、表4与表1、表2比对可以看出,通过公式(2)计算获得的相关主题词在出现次数、含义、整体相关性上要远好于传统方法,具有更高的准确性。
S36,将用户输入的主题词与所述对象词库中的其它主题词按照相关性数值进行排序。
在实际应用中,将用户输入的关键词作为一个主题词,然后根据步骤S35的计算结果,将该主题词与对象词库中的其它主题词按照相关性数值作一个排序。以表3为例,在用户输入“切尔西”这个关键词后,根据相关性数值的大小进行排序,便能得到表3所示的列表,从中可以获得与“切尔西”最相关的十个主题词。其中列表长度可以根据实际需要来设置。
S37,将与所述用户输入的主题词最相关的预设数量个主题词作为推荐词返回给用户。
请参见图4,其为本发明实施例的另一种主题词推荐方法的流程图, 其包括以下步骤:
S41,从多个网页中提取多个主题词,并形成对象词库。
S42,从多个网页中获取网页内容数据,并形成源数据库。
S43,统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数。
S44,统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数。
S45,对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。
S46,按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值。
S47,将用户输入的主题词与所述对象词库中的其它主题词按照相关性数值进行排序。
S48,将与所述用户输入的主题词最相关的预设数量个主题词作为推荐词返回给用户。
本实施例与图3的实施例的区别仅在于增加了步骤S45,其中所说的出现过的网页数以及共现网页数中没有意义的数值,是指会对相关性计算的准确性造成误差或者计算错误的数值,以公式(2)为例,如果B=0或C=0(即两个主题词没有在网页中出现过),则会造成公式(2)无法计算。为了排除这种特殊的情况,可以设置阈值,并将出现过的网页数小于该预设阈值的主题词进行去除。
本发明还提出一种网页主题词的相关性处理系统,请参见图5,其包括主题词提取单元501、对象词库502、网页数据获取单元503、源数据库504、出现次数统计单元505、共现次数统计单元506以及计算单元507。对象词库502与主题词提取单元501相连,源数据库504与网页数据获取单元503相连,出现次数统计单元505、共现次数统计单元506都分别与对象词库502、源数据库504相连,计算单元507分别与出现次数统计单元505、共现次数统计单元506相连。
工作时,首先由主题词提取单元501从多个网页中提取多个主题词,并存入对象词库502。用来提取主题词的网页通常要选用热门网站,且近期关注度较高的网页,这样所得到的主题词才能具有较高的流行度,符合大多数人的搜索需求。当然,对象词库中的主题词也可以根据实际需要人工加入。
同时,由网页数据获取单元503从多个网页中获取网页内容数据,并存入源数据库504,作为相关性计算的参照基础。网页内容的数据是主题词相关性计算的依据,同样的,也需要从热门网站且近期关注度较高的网页中获取网页内容数据,使计算出的主题词之间的相关性具备实时性,以符合大多数人当前的普遍认识。
然后,出现次数统计单元505会统计对象词库502中的每个主题词在源数据库504的网页中出现过的网页数。这里所说的主题词在源数据库504的网页中出现过的网页数,是指对于一个主题词,源数据库504所存储的所有网页中,网页内容包含该主题词的网页数量。通常,网页内容为正文形式,所以需要对正文的内容进行分词,将正文的段 落和句子划分成词语,以便于主题词与网页内容的比对。统计时,可以将对象词库502中每个主题词,对源数据库504中的数据进行遍历,然后针对每个主题词,统计在源数据库504中出现过的网页数。
接着,共现次数统计单元506会统计所述对象词库502中任意两个主题词在所述源数据库504中同一网页上出现过的共现网页数。统计时,可以基于对象词库502中任意两个主题词,对源数据库504中的数据进行遍历,根据这两个主题词在各个网页上出现的情况(只要两个主题词同时在一个网页上出现,即使其中一个主题词在这个网页上仅出现一次,而另一个主题词在这个网页上出现多次,也视为共同出现过),获取两者共现的网页数。然后将对象词库502中的所有主题词两两搭配,并统计出每对主题词共现网页数。
最后,计算单元507会按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值。
主题词出现过的网页数越多,说明此主题流行度和含义越好,从而通过相关性计算所获得的主题词,也越是热门或更容易被用户所接受,所以在主题词相关性计算中,相关性数值与两个主题词出现过的网页数成正比。
两个主题词的共现网页数越多,显然相关性越高,所以相关性数值与两个主题词共现网页数成正比。
上述共现频率是指主题词共现网页数与其出现过的网页数的比值。对于一个主题词,如果其与另一个主题词在相同网页共现的次数, 相对于其自身出现过的网页数的比例越高,则说明这两个主题词的相关性就越高,所以相关性数值与共现频率成正比。
如果两个主题词比较相关,则各自包含它们的网页数量也比较相近,如果两个主题词很相关,则它们在网页里的分布基本上是一致的,因此其出现过的网页数也不会相差太多,因而相关性数值与两个主题词出现过的网页数的差异成反比。
公式(2)是本实施例较佳的一个计算公式,将表3、表4与表1、表2比对可以看出,通过公式(2)计算获得的相关主题词在出现次数、含义、整体相关性上要远好于传统方法,具有更高的准确性。
请参见图6,其为本发明实施例的另一种网页主题词的相关性处理系统的结构图,其包括主题词提取单元501、对象词库502、网页数据获取单元503、源数据库504、出现次数统计单元505、共现次数统计单元506、计算单元507以及过滤单元508。对象词库502与主题词提取单元501相连,源数据库504与网页数据获取单元503相连,出现次数统计单元505、共现次数统计单元506都分别与对象词库502、源数据库504相连,过滤单元508分别与对象词库502、源数据库504、出现次数统计单元505和共现次数统计单元506相连,计算单元507与过滤单元508相连。
与图5的实施例相比,本实施例仅增加了过滤单元508,其作用是在所述计算单元507计算每两个主题词之间的相关性数值之前,对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。这里所说的出现过的网页数以及共现网页数中没有意义的数 值,是指会对相关性计算的准确性造成误差或者计算错误的数值,以公式(2)为例,如果B=0或C=0(即两个主题词没有在网页中出现过),则会造成公式(2)无法计算。为了排除这种特殊的情况,可以设置阈值,过滤单元508会将出现过的网页数小于该预设阈值的主题词进行去除。
本发明还提出一种主题词推荐系统,其包括主题词提取单元501、对象词库502、网页数据获取单元503、源数据库504、出现次数统计单元505、共现次数统计单元506、计算单元507、接收单元509、排序单元510以及反馈单元511。对象词库502与主题词提取单元501相连,源数据库504与网页数据获取单元503相连,出现次数统计单元505、共现次数统计单元506都分别与对象词库502、源数据库504相连,计算单元507分别与出现次数统计单元505、共现次数统计单元506相连,排序单元510与计算单元507相连,接收单元509和反馈单元511均与排序单元510相连。
在实际应用之前,需要先进行准备工作,即针对近期的热门网站进行统计。首先,由主题词提取单元501从多个网页中提取多个主题词,并存入对象词库502。用来提取主题词的网页通常要选用热门网站,且近期关注度较高的网页,这样所得到的主题词才能具有较高的流行度,符合大多数人的搜索需求。当然,对象词库中的主题词也可以根据实际需要人工加入。
同时,由网页数据获取单元503从多个网页中获取网页内容数据,并存入源数据库504,作为相关性计算的参照基础。网页内容的数据是 主题词相关性计算的依据,同样的,也需要从热门网站且近期关注度较高的网页中获取网页内容数据,使计算出的主题词之间的相关性具备实时性,以符合大多数人当前的普遍认识。
然后,出现次数统计单元505会统计对象词库502中的每个主题词在源数据库504的网页中出现过的网页数。这里所说的主题词在源数据库504的网页中出现过的网页数,是指对于一个主题词,源数据库504所存储的所有网页中,网页内容包含该主题词的网页数量。通常,网页内容为正文形式,所以需要对正文的内容进行分词,将正文的段落和句子划分成词语,以便于主题词与网页内容的比对。统计时,可以将对象词库502中每个主题词,对源数据库504中的数据进行遍历,然后针对每个主题词,统计在源数据库504中出现过的网页数。
接着,共现次数统计单元506会统计所述对象词库502中任意两个主题词在所述源数据库504中同一网页上出现过的共现网页数。统计时,可以基于对象词库502中任意两个主题词,对源数据库504中的数据进行遍历,根据这两个主题词在各个网页上出现的情况(只要两个主题词同时在一个网页上出现,即使其中一个主题词在这个网页上仅出现一次,而另一个主题词在这个网页上出现多次,也视为共同出现过),获取两者共现的网页数。然后将对象词库502中的所有主题词两两搭配,并统计出每对主题词共现网页数。
统计完成后,计算单元507会按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值。
主题词出现过的网页数越多,说明此主题流行度和含义越好,从而通过相关性计算所获得的主题词,也越是热门或更容易被用户所接受,所以在主题词相关性计算中,相关性数值与两个主题词出现过的网页数成正比。
两个主题词的共现网页数越多,显然相关性越高,所以相关性数值与两个主题词共现网页数成正比。
上述共现频率是指主题词共现网页数与其出现过的网页数的比值。对于一个主题词,如果其与另一个主题词在相同网页共现的次数,相对于其自身出现过的网页数的比例越高,则说明这两个主题词的相关性就越高,所以相关性数值与共现频率成正比。
如果两个主题词比较相关,则各自包含它们的网页数量也比较相近,如果两个主题词很相关,则它们在网页里的分布基本上是一致的,因此其出现过的网页数也不会相差太多,因而相关性数值与两个主题词出现过的网页数的差异成反比。
公式(2)是本实施例较佳的一个计算公式,将表3、表4与表1、表2比对可以看出,通过公式(2)计算获得的相关主题词在出现次数、含义、整体相关性上要远好于传统方法,具有更高的准确性。
计算完成后,就可以在实际应用中为用户进行主题词的推荐。本系统也适合与现有的搜索引擎配合使用。当用户输入一个关键词时,接收单元509会将用户输入的这个关键词传送给排序单元510。排序单元510通过计算单元507的计算结果,以这个关键词作为一个主题词,按照相关性数值的大小与对象词库502中的其它主题词进行排序,排序的列 表长度可以根据实际需要来设定。以表3为例,在用户输入“切尔西”这个关键词后,根据相关性数值的大小进行排序,便能得到表3所示的列表,从中可以获得与“切尔西”最相关的十个主题词。最后,反馈单元511将与用户输入的关键词最相关的预设数量个主题词作为推荐词返回给用户,其中向用户反馈的推荐词的数量也可以根据实际需要来设定。
请参见图8,其为本发明实施例的另一种主题词推荐系统的结构图,其包括主题词提取单元501、对象词库502、网页数据获取单元503、源数据库504、出现次数统计单元505、共现次数统计单元506、过滤单元508、计算单元507、接收单元509、排序单元510以及反馈单元511。对象词库502与主题词提取单元501相连,源数据库504与网页数据获取单元503相连,出现次数统计单元505、共现次数统计单元506都分别与对象词库502、源数据库504相连,过滤单元508分别与对象词库502、源数据库504、出现次数统计单元505和共现次数统计单元506相连,计算单元507与过滤单元508相连,排序单元510与计算单元507相连,接收单元509和反馈单元511均与排序单元510相连。
与图7的实施例相比,本实施例仅增加了过滤单元508,其作用是在所述计算单元507计算每两个主题词之间的相关性数值之前,对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。这里所说的出现过的网页数以及共现网页数中没有意义的数值,是指会对相关性计算的准确性造成误差或者计算错误的数值,以 公式(2)为例,如果B=0或C=0(即两个主题词没有在网页中出现过),则会造成公式(2)无法计算。为了排除这种特殊的情况,可以设置阈值,过滤单元508会将出现过的网页数小于该预设阈值的主题词进行去除。
本发明通过对主题词在热门网页中的相关信息的统计,在计算相关性数值的过程中,将主题词之间多维度的信息考虑在内,大大提高了计算的准确性。而利用本发明向用户推荐的相关主题词,可以进一步挖掘用户的潜在需求。
以上所述,仅是本发明的较佳实施例而已,并非对本发明作任何形式上的限制,虽然本发明已以较佳实施例揭露如上,然而并非用以限定本发明,任何熟悉本专业的技术人员,在不脱离本发明技术方案范围内,当可利用上述揭示的技术内容作出些许更动或修饰为等同变化的等效实施例,但凡是未脱离本发明技术方案内容,依据本发明的技术实质对以上实施例所作的任何简单修改、等同变化与修饰,均仍属于本发明技术方案的范围内。
Claims (12)
1.一种网页主题词的相关性处理方法,其特征在于,包括:
从多个网页中提取多个主题词,并形成对象词库;
从多个网页中获取网页内容数据,并形成源数据库;
统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;
统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数;
按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值;
其中,所述按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值包括:
根据公式计算主题词与主题词之间的相关性数值,其中,a为所述对象词库的一个主题词,b为所述对象词库的另一个主题词,I(a,b)为主题词a与主题词b之间的相关性数值,A为主题词a与主题词b在所述源数据库中同一网页上出现过的共现网页数,B为主题词a在所述源数据库中的网页中出现过的网页数,C为主题词b在所述源数据库中的网页中出现过的网页数,为B和C中较小的数与较大的数的比值,也即是主题词a和主题词b在所述源数据库中出现过的网页数的差异越大,则越小。
2.如权利要求1所述的网页主题词的相关性处理方法,其特征在于,所述计算每两个主题词之间的相关性数值的步骤之前包括:对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。
3.如权利要求2所述的网页主题词的相关性处理方法,其特征在于,所述对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤的步骤包括:将出现过的网页数少于预设阈值的主题词进行去除。
4.一种主题词推荐方法,其特征在于,包括:
从多个网页中提取多个主题词,并形成对象词库;
从多个网页中获取网页内容数据,并形成源数据库;
统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;
统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数;
按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值;
将用户输入的主题词与所述对象词库中的其它主题词按照相关性数值进行排序;
将与所述用户输入的主题词最相关的预设数量个主题词作为推荐词返回给用户;
其中,所述按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值包括:
根据公式计算主题词与主题词之间的相关性数值,其中,a为所述对象词库的一个主题词,b为所述对象词库的另一个主题词,I(a,b)为主题词a与主题词b之间的相关性数值,A为主题词a与主题词b在所述源数据库中同一网页上出现过的共现网页数,B为主题词a在所述源数据库中的网页中出现过的网页数,C为主题词b在所述源数据库中的网页中出现过的网页数,为B和C中较小的数与较大的数的比值,也即是主题词a和主题词b在所述源数据库中出现过的网页数的差异越大,则越小。
5.如权利要求4所述的主题词推荐方法,其特征在于,所述计算每两个主题词之间的相关性数值的步骤之前包括:对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。
6.如权利要求5所述的主题词推荐方法,其特征在于,所述对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤的步骤包括:将出现过的网页数少于预设阈值的主题词进行去除。
7.一种网页主题词的相关性处理系统,其特征在于,包括:
主题词提取单元,用于从多个网页中提取多个主题词;
对象词库,用于存放所述主题词提取单元提取出的并要作相关性计算的主题词;
网页数据获取单元,用于从多个网页中获取网页内容数据;
源数据库,用于存放所述网页数据获取单元获取的作为相关性计算参照基础的网页内容数据;
出现次数统计单元,用于统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;
共现次数统计单元,用于统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数;
计算单元,用于按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值;
其中,所述计算单元具体用于:
根据公式计算主题词与主题词之间的相关性数值,其中,a为所述对象词库的一个主题词,b为所述对象词库的另一个主题词,I(a,b)为主题词a与主题词b之间的相关性数值,A为主题词a与主题词b在所述源数据库中同一网页上出现过的共现网页数,B为主题词a在所述源数据库中的网页中出现过的网页数,C为主题词b在所述源数据库中的网页中出现过的网页数,为B和C中较小的数与较大的数的比值,也即是主题词a和主题词b在所述源数据库中出现过的网页数的差异越大,则越小。
8.如权利要求7所述的网页主题词的相关性处理系统,其特征在于,还包括:
过滤单元,用于在所述计算单元计算每两个主题词之间的相关性数值之前,对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。
9.如权利要求8所述的网页主题词的相关性处理系统,其特征在于,所述过滤单元通过将出现过的网页数少于预设阈值的主题词进行去除,来实现对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。
10.一种主题词推荐系统,其特征在于,包括:
主题词提取单元,用于从多个网页中提取多个主题词;
对象词库,用于存放所述主题词提取单元提取出的并要作相关性计算的主题词;
网页数据获取单元,用于从多个网页中获取网页内容数据;
源数据库,用于存放所述网页数据获取单元获取的作为相关性计算参照基础的网页内容数据;
出现次数统计单元,用于统计所述对象词库中的每个主题词在所述源数据库的网页中出现过的网页数;
共现次数统计单元,用于统计所述对象词库中任意两个主题词在所述源数据库中同一网页上出现过的共现网页数;
计算单元,用于按照与所述出现过的网页数成正比、与所述共现网页数成正比、与共现频率成正比、与所述出现过的网页数的差异成反比的规则,计算主题词与主题词之间的相关性数值;
接收单元,用于接收用户输入的需要进行推荐的主题词;
排序单元,用于将用户输入的主题词与所述对象词库中的其它主题词按照相关性数值进行排序;
反馈单元,用于将与所述用户输入的主题词最相关的预设数量个主题词作为推荐词返回给用户;
其中,所述计算单元具体用于:
根据公式计算主题词与主题词之间的相关性数值,其中,a为所述对象词库的一个主题词,b为所述对象词库的另一个主题词,I(a,b)为主题词a与主题词b之间的相关性数值,A为主题词a与主题词b在所述源数据库中同一网页上出现过的共现网页数,B为主题词a在所述源数据库中的网页中出现过的网页数,C为主题词b在所述源数据库中的网页中出现过的网页数,为B和C中较小的数与较大的数的比值,也即是主题词a和主题词b在所述源数据库中出现过的网页数的差异越大,则越小。
11.如权利要求10所述的主题词推荐系统,其特征在于,还包括:
过滤单元,用于在所述计算单元计算每两个主题词之间的相关性数值之前,对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。
12.如权利要求11所述的主题词推荐系统,其特征在于,所述过滤单元通过将出现过的网页数少于预设阈值的主题词进行去除,来实现对统计得到的所述出现过的网页数以及所述共现网页数中没有意义的数值进行过滤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210420758.1A CN103793387B (zh) | 2012-10-29 | 2012-10-29 | 主题词的相关性处理方法及系统、主题词推荐方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201210420758.1A CN103793387B (zh) | 2012-10-29 | 2012-10-29 | 主题词的相关性处理方法及系统、主题词推荐方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN103793387A CN103793387A (zh) | 2014-05-14 |
CN103793387B true CN103793387B (zh) | 2018-01-09 |
Family
ID=50669071
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201210420758.1A Active CN103793387B (zh) | 2012-10-29 | 2012-10-29 | 主题词的相关性处理方法及系统、主题词推荐方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN103793387B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106033445B (zh) * | 2015-03-16 | 2019-10-25 | 北京国双科技有限公司 | 获取文章关联度数据的方法和装置 |
CN106708880B (zh) * | 2015-11-16 | 2020-05-22 | 北京国双科技有限公司 | 话题关联词的获取方法和装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8812297B2 (en) * | 2010-04-09 | 2014-08-19 | International Business Machines Corporation | Method and system for interactively finding synonyms using positive and negative feedback |
-
2012
- 2012-10-29 CN CN201210420758.1A patent/CN103793387B/zh active Active
Non-Patent Citations (1)
Title |
---|
信息检索相关技术研究;王树梅;《中国博士学位论文全文数据库信息科技辑(月刊 )》;20080115;第I138-31页 * |
Also Published As
Publication number | Publication date |
---|---|
CN103793387A (zh) | 2014-05-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110175325A (zh) | 基于词向量和句法特征的评论分析方法及可视化交互界面 | |
CN103593792B (zh) | 一种基于中文知识图谱的个性化推荐方法与系统 | |
CN103646032B (zh) | 一种基于本体和受限自然语言处理的数据库查询方法 | |
TWI609278B (zh) | Method and system for recommending search words | |
CN105138558B (zh) | 基于用户访问内容的实时个性化信息采集方法 | |
CN104111941B (zh) | 信息展示的方法及设备 | |
CN103744956B (zh) | 一种关键词的多样化拓展方法 | |
CN104899273A (zh) | 一种基于话题和相对熵的网页个性化推荐方法 | |
CN103838833A (zh) | 基于相关词语语义分析的全文检索系统 | |
CN107180045A (zh) | 一种互联网文本蕴含地理实体关系的抽取方法 | |
CN104462399B (zh) | 搜索结果的处理方法及装置 | |
CN105528437A (zh) | 一种基于结构化文本知识提取的问答系统构建方法 | |
CN106250545A (zh) | 一种基于用户搜索内容的多媒体推荐方法及系统 | |
CN103455487A (zh) | 一种搜索词的提取方法及装置 | |
CN108875065A (zh) | 一种基于内容的印尼新闻网页推荐方法 | |
CN109033132A (zh) | 利用知识图谱计算文本和主体相关度的方法以及装置 | |
CN107341199A (zh) | 一种基于文献信息共性模式的推荐方法 | |
CN107977420A (zh) | 一种演进式文档的摘要提取方法、装置及可读存储介质 | |
CN108572992A (zh) | 一种商品排序的方法及装置 | |
Chen et al. | A study on mental models of taggers and experts for article indexing based on analysis of keyword usage | |
CN103793387B (zh) | 主题词的相关性处理方法及系统、主题词推荐方法及系统 | |
CN104820775A (zh) | 一种中药方剂核心药物的发现方法 | |
CN107844596A (zh) | 一种文章检索方法及系统 | |
CN105205075B (zh) | 基于协同自扩展的命名实体集合扩展方法及查询推荐方法 | |
CN103399879B (zh) | 基于用户搜索日志的兴趣实体获得方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |