【发明内容】
基于此,有必要提供一种搜索网页内容的方法,能够展示出网页内容的倾向性,让搜索用户获取到网页内容的倾向性。
此外,还有必要提供一种搜索网页内容的系统,能够展示出网页内容的倾向性,让搜索用户获取到网页内容的倾向性。
一种搜索网页内容的方法,包括以下步骤:
获取查询串;
根据查询串检索,返回相关的网页内容;
计算网页内容的倾向值;
根据所述倾向值显示所述网页内容。
优选地,还包括步骤:
对查询串预处理,分割出查询对象;
识别所述查询串中为实体名的查询对象;
判断所述查询串中是否有实体名,若是,则根据查询对象返回相关的网页内容,并从网页内容中获取包含实体名的基本单元集合,若否,则根据查询对象返回相关的网页内容,并显示返回的相关网页内容。
优选地,所述从网页内容中获取包含实体名的基本单元集合后还包括步骤:判断基本单元集合是否为空,若是,则根据查询对象返回相关的网页内容,并显示返回的相关网页内容,若否,则计算基本单元集合中每个基本单元的倾向值,再根据所得的基本单元集合中的每个基本单元的倾向值计算整个网页内容的倾向值,根据网页内容的倾向值显示网页内容。
优选地,还包括:
设定第一阈值和第二阈值,且所述第一阈值大于所述第二阈值,设置第一区域、第二区域和第三区域;
将网页内容的倾向值与所述第一阈值和第二阈值进行比较,当网页内容的倾向值大于所述第一阈值时,将所述网页内容显示到第一区域,当网页内容的倾向值小于等于第一阈值且大于等于第二阈值时,将所述网页内容显示到第二区域,当网页内容的倾向值小于第二阈值时,将所述网页内容显示在第三区域。
优选地,还包括:将所述第一区域中或第三区域中的所有网页内容的倾向值比较,按倾向值从大到小或从小到大的顺序在所述第一区域内或第三区域内显示预定个数的网页内容。
优选地,还包括:将网页内容的倾向值进行比较排序,并根据所述排序显示网页内容。
一种搜索网页内容的系统,包括:
数据获取模块,获取查询串;
检索模块,根据查询串检索,返回相关的网页内容;
处理模块,计算网页内容的倾向值;
显示模块,根据所述倾向值显示所述网页内容。
优选地,还包括分词模块、识别模块和判断模块,所述分词模块用于对查询串预处理,分割出查询对象,所述识别模块识别所述查询串中为实体名的查询对象;判断模块,判断所述查询串中是否有实体名,若是,则所述处理模块进一步用于从网页内容中获取包含实体名的基本单元集合,若否,则所述检索模块根据查询对象返回相关的网页内容,所述显示模块显示返回的相关网页内容。
优选地,所述处理模块从网页内容中获取包含实体名的基本单元集合后,所述判断模块还判断所述基本单元集合是否为空,若是,则显示模块显示返回的相关网页内容,若否,则所述处理模块进一步计算基本单元集合中每个基本单元的倾向值,再根据所得的基本单元集合中的每个基本单元的倾向值计算整个网页内容的倾向值,所述显示模块根据网页内容的倾向值显示网页内容。
优选地,所述处理模块进一步设定第一阈值和第二阈值,且所述第一阈值大于所述第二阈值,并设置第一区域、第二区域和第三区域,还用于将网页内容的倾向值与所述第一阈值和第二阈值进行比较,当网页内容的倾向值大于所述第一阈值时,将所述网页内容显示到第一区域,当网页内容的倾向值小于等于第一阈值且大于等于第二阈值时,将所述网页内容显示到第二区域,当网页内容的倾向值小于第二阈值时,将所述网页内容显示在第三区域。
优选地,所述处理模块进一步将所述第一区域中或第三区域的所有网页内容的倾向值比较,所述显示模块按倾向值从大到小或从小到大的顺序在第一区域内或第三区域显示预定个数的网页内容。
优选地,还包括排序模块,将网页内容的倾向值进行比较排序,并根据所述排序显示网页内容。
上述搜索网页内容的方法及系统,采用获取查询串,并根据查询串检索返回相关的网页内容,且计算出网页内容的倾向值,根据该倾向值显示网页内容,让搜索用户能够获取到网页内容的对查询串的评论倾向,掌握有价值的信息。
【具体实施方式】
如图1所示,一种搜索网页内容的方法,包括以下步骤:
步骤S10,获取查询串。获取到用户输入的查询串,如用户输入查询“体育明星刘翔”。
步骤S20,根据查询串检索,返回相关的网页内容。搜索引擎获取到查询串后,检索到与查询串相关的网页内容,将相关的网页内容返回到用户。如查询串“26届大运会”,返回的有“深圳举办26届大运会”、“26届大运会志愿者招募”等相关网页内容。
步骤S30,计算网页内容的倾向值。网页内容中有对查询串的相关的评论,通过情感分析算法,如支持向量机,计算出返回的网页内容的倾向值。
步骤S40,根据倾向值显示该网页内容。根据计算所得网页内容的倾向值,显示该网页内容。该网页内容可包括网页标题、摘要、网页地址(UniversalResource Locator,简称URL)以及计算得出的网页内容的倾向值。
上述搜索网页内容的方法,采用获取查询串,并根据查询串检索返回相关的网页内容,且计算出网页内容的倾向值,根据该倾向值显示网页内容,让搜索用户能够获取到网页内容的对查询串的评论倾向,掌握有价值的信息。如一个产品制造商如果能够从网络上快速获取自身的品牌以及竞争对手的品牌声誉,对其自身的产品发展、市场营销策略和客户关系经营是非常有价值的。
如图2所示,在一个实施例中,步骤S10之后,步骤S20之前还包括以下步骤:
步骤S11,对查询串预处理,分割出查询对象。如查询串“26届大运会”进行预处理,分割出语言学上有意义的词,分割成“26”、“届”和“大运会”词单元。
步骤S12,识别查询串中为实体名的查询对象。将查询串分割为有意义的词单元后,识别出这些查询对象中的实体名。该实体名是指对客观世界中的实体,如人、地点、机构、产品等的名称。
步骤S13,判断该查询串中是否有实体名,若是,则执行步骤S20,若否,则执行步骤S41。判断查询串中是否有实体名,如判断查询串“体育明星刘翔”中有实体名“刘翔”,则根据返回的相关的网页内容,但不直接显示,还需进行下一步处理。
步骤S41,根据查询对象返回相关的网页内容,并显示返回的相关网页内容。若该查询串中没有实体名,如“网络技术应用”,分割成查询对象“网络”、“技术”和“应用”,根据该查询对象返回相关的网页内容,然后直接显示给搜索用户。
步骤S21,根据查询对象返回相关的网页内容。将查询串分割成查询对象后,根据查询对象检索,返回相关的网页内容。
在步骤S21之后,还包括以下步骤:
步骤S22,从网页内容中获取包含实体名的基本单元集合。当查询串中有实体名时,即查询对象没有为实体名的,返回相关的网页内容,然后从返回的网页内容中找到包含实体名的基本单元,将这些基本单元集中在一起构成集合。其中,基本单元为短语、句子、句群和段落中的任意一种。本实施例中,以句子为基本单元介绍。从网页内容中找到包含实体名的句子集合S。
步骤S23,判断基本单元集合是否为空,若是,则执行步骤S41,若否,则执行步骤S31。从网页内容中查找包含实体名的基本单元集合,即包含实体名的句子集合,若该句子集合为空,表示网页内容中没有包含实体名的句子,则直接显示返回的相关网页内容,若该句子集合不为空,表示网页内容中有包含实体名的句子,则执行步骤S31。
步骤S30中计算网页内容的倾向值的具体步骤如下:
步骤S31,计算基本单元集合中每个基本单元的倾向值。计算每个句子的倾向值,可采用为每个句子打分,打分标准可预先设定。如“喜欢”80分,“非常喜欢”90分等。这些打分标准可存储于数据库中。
步骤S32,根据所得的基本单元集合中的每个基本单元的倾向值计算整个网页内容的倾向值。计算出每个句子的倾向值后,可采用平均法或采用加权求和法求得整个网页内容的倾向值。其中,采用平均法时,将所有句子的倾向值相加求和再除以句子个数得出平均值,该平均值即为整个网页内容的倾向值。采用加权求和法时,具体如标题中出现包含查询对象的评论性词,其加权值为0.5,网页内容首行和尾行出现的对查询对象评论性词,其加权值为0.2,中间出现的对查询对象评论性词,其加权值为0.1,每个句子的倾向值乘以相对应的加权值求和,得出整个网页内容的倾向值。
本实施例中,上述搜索网页内容的方法,步骤S40根据倾向值显示网页内容的步骤还包括:将网页内容的倾向值转换为相应的等级标记,并显示该等级标记。将网页内容的倾向值采用亮几颗星形式表示。如设定5颗星等级,每颗星可表示一个固定的倾向值,网页内容的倾向值与该固定的倾向值之比,可得出该网页内容的倾向的等级。且可以规定5颗星全亮表示这个网页内容对查询对象是完全正面的评价,5颗星全暗表示这个网页内容对查询对象是强烈的反面评价,2.5颗星亮表示这个网页内容对查询对象的评价为褒扬和贬低的比例大致相当,即星星亮的越多,越说明这个网页内容对查询对象的正面评价内容多与负面评价内容。另外,如果根本没有星星(无论亮或暗),表明当前网页内容对查询对象没有倾向。该每颗星代表的倾向值也可以不固定,如第一颗星代表的情感倾向值为100,第二颗星代表的情感倾向值为150,越往后每颗星的基值越大。再者,采用亮星的方式仅是本发明的一种实施方式,不限于此。如采用直接显示网页内容的倾向值或采用10分满分制形式的评分形式,如网页内容的倾向值560,每分对应的倾向值为100,则该网页内容的倾向值转换为5.6分,显示在网页内容侧或标题上等。采用上述显示方式,直观、清楚。
在一个实施例中,上述搜索网页内容的方法,还包括以下步骤:
设定第一阈值和第二阈值,且所述第一阈值大于所述第二阈值,设置第一区域、第二区域和第三区域;将网页内容的倾向值与所述第一阈值和第二阈值进行比较,当网页内容的倾向值大于所述第一阈值时,将所述网页内容显示到第一区域,当网页内容的倾向值小于等于第一阈值且大于等于第二阈值时,将所述网页内容显示到第二区域,当网页内容的倾向值小于第二阈值时,将所述网页内容显示在第三区域。将网页内容的倾向值按照大小分成三个等级,设置第一阈值和第二阈值,且将第一阈值大于第二阈值,并将网页内容的倾向值与第一阈值和第二阈值进行比较,根据比较的结果,将该网页内容分配到第一区域、第二区域和第三区域中与之相对应的区域。这样使得在不同区域显示的网页内容倾向比较集中,搜索用户能够比较直观的获取到相应等级网页内容。其中,第一区域内的网页内容表示比较正面的评价,该区域中网页内容的倾向值越大表示评价越正面;第二区域内的网页内容表示中立的评价;第三区域内的网页内容表示比较负面的评价,该区域中网页内容的倾向值越小表示评价越负面。
在一个实施例中,上述搜索网页内容的方法,还包括:将第一区域中的所有网页内容的倾向值比较,按倾向值从大到小或从小到大的顺序在所述第一区域内显示预定个数的网页内容。将第一区域中的网页内容的倾向比较,然后按照倾向值从大到小或从小到大进行排序。由于显示页面受限或显示内容过多易导致网页加载慢,可设定显示预定个数的网页内容,则按倾向值从大到小的顺序在第一区域显示预定个数的网页内容。可选择排在前面的多个网页内容进行显示,如排在前三的网页内容,包括网页标题、摘要、网页地址及网页内容的倾向值。
在一个实施例中,上述搜索网页内容的方法,还包括:将第三区域中的所有网页内容的倾向值比较,按倾向值从小到大或从大到小的顺序在所述第三区域内显示预定个数的网页内容。同样,如第一区域一样,在第三区域按倾向值从小到大或从小到大的顺序显示预定个数的网页内容。可选择排在前面的多个网页内容进行显示,如排在前三的网页内容,包括网页标题、摘要、网页地址及网页内容的倾向值。
在一个实施例中,上述搜索网页内容的方法,还包括:将网页内容的倾向值进行比较排序,并根据所述排序显示网页内容。将网页内容的倾向值进行比较,按照倾向值从大到小或从小到大对网页内容进行排序,然后将排序后的网页内容显示出来。根据倾向分析的结果可以干扰搜索引擎的自然排序,如分析出查询串中带有强烈的倾向检索需求,则可以按照网页内容的倾向适度重新排序。同时,排序后显示,更加方便用户了解网页内容的倾向性信息。
如图3所示,在一个实施方式中,搜索网页内容的系统包括:数据获取模块10、检索模块20、处理模块30和显示模块40。
数据获取模块10用于获取查询串。数据获取模块10获取到用户输入的查询串,如“体育明星孙悦”。
检索模块20用于根据查询串检索,并返回相关的网页内容。检索模块20根据用户输入的查询串进行检索,将检索到的相关的网页内容返回。其中,网页内容可包括网页标题、摘要和网页地址(Universal Resource Locator,简称URL)。
处理模块30计算网页内容的倾向值。处理模块30采用倾向分析算法,如支持向量机,计算网页内容的倾向值。
显示模块40根据倾向值显示网页内容。其中,网页内容可包括网页标题、摘要、网页地址(Universal Resource Locator,简称URL)以及计算得出的网页内容的倾向值。
如图4所示,在一个实施例中,上述搜索网页内容的系统还包括分词模块50和识别模块60。分词模块50对查询串预处理,分割出查询对象。分词模块50将查询串分割成语言学上有意义的词。如查询串“体育明星孙悦”分割成“体育”、“明星”和“孙悦”。识别模块60识别该查询串中为实体名的查询对象。该实体名是指对客观世界中的实体,如人、地点、机构、产品等的名称。
上述搜索网页内容的系统还包括判断模块70、等级标记模块80和排序模块90。判断模块70用于判断查询串中是否有实体名,若有,则处理模块30进一步用于从网页内容中获取包含实体名的基本单元集合,若否,则检索模块20根据查询串返回相关网页内容,显示模块40直接显示返回的相关网页内容。处理模块30从返回的网页内容中找到包含实体名的基本单元,将这些基本单元集中在一起构成集合。其中,基本单元为短语、句子、句群和段落中的任意一种。本实施例中,以句子为基本单元介绍。处理模块30从网页内容中找到包含实体名的句子集合S。
判断模块70还用于在处理模块30从网页内容中获取包含实体名的基本单元集合后,判断基本单元集合是否为空,若是,则显示模块40直接显示返回的相关网页内容,若否,则处理模块30进一步计算基本单元集合中每个基本单元的倾向值,再根据所得的基本单元集合中的每个基本单元的倾向值计算整个网页内容的倾向值,显示模块40再根据网页内容的倾向值显示网页内容。
等级标记模块80将网页内容的倾向值转换为相应的等级标记,并通过显示模块40显示该等级标记。等级标记模块80将网页内容的倾向值采用亮几颗星形式表示。如设定5颗星等级,每颗星可表示一个固定的倾向值,网页内容的倾向值与该固定的倾向值之比,可得出该网页内容的倾向的等级。且可以规定5颗星全亮表示这个网页内容对查询对象是完全正面的评价,5颗星全暗表示这个网页内容对查询对象是强烈的反面评价,2.5颗星亮表示这个网页内容对查询对象的评价为褒扬和贬低的比例大致相当,即星星亮的越多,越说明这个网页内容对查询对象的正面评价内容多与负面评价内容。另外,如果根本没有星星(无论亮或暗),表明当前网页内容对查询对象没有倾向。该每颗星代表的倾向值也可以不固定,如第一颗星代表的情感倾向值为100,第二颗星代表的情感倾向值为150,越往后每颗星的基值越大。再者,采用亮星的方式仅是本发明的一种实施方式,不限于此。如采用直接显示网页内容的倾向值或采用10分满分制形式的评分形式,如网页内容的倾向值560,每分对应的倾向值为100,则该网页内容的倾向值转换为5.6分,显示在网页内容侧或标题上等。
排序模块90将网页内容的倾向值进行比较排序,显示模块40根据排序显示网页内容。排序模块90将网页内容的倾向值进行比较,按照倾向值从大到小或从小到大进行排序。显示模块40根据排序结果显示网页内容。
在一个实施例中,处理模块30还进一步设定第一阈值和第二阈值,且所述第一阈值大于所述第二阈值,并设置第一区域、第二区域和第三区域,还用于将网页内容的倾向值与所述第一阈值和第二阈值进行比较,当网页内容的倾向值大于所述第一阈值时,通过显示模块40将所述网页内容显示到第一区域,当网页内容的倾向值小于等于第一阈值且大于等于第二阈值时,通过显示模块40将所述网页内容显示到第二区域,当网页内容的倾向值小于第二阈值时,通过显示模块40将所述网页内容显示在第三区域。其中,第一区域内的网页内容表示比较正面的评价,该区域中网页内容的倾向值越大表示评价越正面;第二区域内的网页内容表示中立的评价;第三区域内的网页内容表示比较负面的评价,该区域中网页内容的倾向值越小表示评价越负面。
在一个实施例中,处理模块30进一步将第一区域中的所有网页内容的倾向值比较,显示模块40按倾向值从大到小或从小到大的顺序在第一区域内显示预定个数的网页内容。可选择排在前面的多个网页内容进行显示,如排在前三的网页内容,包括网页标题、摘要、网页地址及网页内容的倾向值。
在一个实施例中,处理模块30进一步将第三区域中的所有网页内容的倾向值比较,显示模块40按倾向值从小到大或从大到小的顺序在第三区域内显示预定个数的网页内容。可选择排在前面的多个网页内容进行显示,如排在前三的网页内容,包括网页标题、摘要、网页地址及网页内容的倾向值。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。