CN102110160A - 根据倾向性值进行网页搜索的方法和装置 - Google Patents
根据倾向性值进行网页搜索的方法和装置 Download PDFInfo
- Publication number
- CN102110160A CN102110160A CN2011100448635A CN201110044863A CN102110160A CN 102110160 A CN102110160 A CN 102110160A CN 2011100448635 A CN2011100448635 A CN 2011100448635A CN 201110044863 A CN201110044863 A CN 201110044863A CN 102110160 A CN102110160 A CN 102110160A
- Authority
- CN
- China
- Prior art keywords
- webpage
- tendentiousness value
- tendentiousness
- value
- webpages
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种根据倾向性值进行网页搜索的方法和装置。该方法包括以下步骤:A)、获取若干网页,并下载至网页数据库;B)、对若干网页的文字进行命名体识别;C)、对若干网页中的若干命名体进行倾向性分析,获得若干网页的若干命名体的倾向性值;D)、制作前向索引表,前向索引表包括若干命名体的倾向性值;E)、制作倒排索引表,倒排索引表包括若干命名体的倾向性值;F)、输入搜索项,将搜索项分解为至少一个关键字;G)、根据倒排索引表,计算包括关键字的网页的排序权值,输出搜索结果。通过本发明的方法和装置,将含有搜索关键字的网页主要按照倾向性值排序,从而使倾向性为贬义或褒义的网页排名靠前,提升用户的搜索满意度。
Description
技术领域
本发明涉及信息检索领域和自然语言处理领域,尤其涉及一种根据倾向性值进行网页搜索的方法和装置。
背景技术
现有的主流搜索引擎(如Google、Yahoo、Baidu等)的搜索结果都没有在进行排序时考虑网页的倾向性值或者搜索项所分解的关键字的倾向性值。
在1998年的第七届万维网会议上,Sergey Brin和Lawrence Page发表的题为“The Anatomy of a Large-Scale Hypertextual Web Search Engine”的论文公开了Google搜索引擎的索引结构。Google搜索引擎的前向索引表和后向索引表都没有包含任何倾向性值的信息。
专利号为ZL01109132.0,发明名称为“判断一组查询关键字或词在网页中位置相关性的方法”的发明专利公开了另一种搜索引擎的索引结构。前向索引表和后向索引表也没有包含任何倾向性值的信息。
除此之外,现有的索引结构,也即前向索引表(Forward Index)和倒排索引表(Inverted Index)都没有包含搜索引擎所下载的网页的倾向性值和搜索项所分解的关键字的倾向性值。因此,现有的搜索引擎并不会将搜索结果的倾向性值作为搜索结果的排序因素。例如,搜索某个品牌的空调(假设为HHXX),使用现有的主流搜索引擎,输入搜索项“HHXX空调”,结果排名靠前的几个搜索网页都是该空调的厂家介绍和各个销售点、维修点的介绍。现有的搜索引擎返回的搜索结果中,并没有考虑包含“HHXX空调”的网页的倾向性值和“HHXX空调”关键字本身的倾向性值。显然,如果搜索用户想知道第三方的评价,还需要再输入更多的关键字,并点击、浏览排序靠后的网页。在当前的搜索引擎中,用户想要获得对某个产品、人、地名、机构等的评价,需要付出很多的时间和精力。
另外,如果现有的搜索引擎想获得网页中的命名体的倾向性值,也只能在搜索完毕后,再对搜索结果中的命名体做倾向性分析,也即在线处理。这样的滞后的在线处理的缺点是速度比较慢,并且所分析的网页数量也受限制。
发明内容
有鉴于现有技术的上述缺陷,本发明所要解决的技术问题是提供一种根据倾向性值进行网页搜索的方法和装置,将含有搜索关键字的网页主要按照倾向性值排序,从而使倾向性为贬义或褒义的网页排名靠前,提升用户的搜索满意度。
为实现上述目的,本发明提供了一种根据倾向性值进行网页搜索的方法,包括以下步骤:
A)、获取若干网页,并下载至网页数据库;
B)、对所述若干网页的文字进行命名体识别;
C)、对所述若干网页中的若干命名体进行倾向性分析,获得所述若干网页的所述若干命名体的倾向性值;
D)、制作前向索引表,所述前向索引表包括所述若干命名体的倾向性值;
E)、制作倒排索引表,所述倒排索引表包括所述若干命名体的倾向性值;
F)、输入搜索项,将所述搜索项分解为至少一个关键字;
G)、根据所述倒排索引表,计算包括所述关键字的网页的排序权值,输出搜索结果。
进一步地,所述步骤A)和步骤G)之间还包括步骤A’)、对所述若干网页以篇章级别整体进行倾向性分析,获得所述若干网页的篇章级倾向性值,制作网页篇章级倾向性值表;在所述步骤G)中,根据所述倒排索引表和所述网页篇章级倾向性值表,计算包括所述关键字的网页的排序权值,输出搜索结果。
进一步地,所述步骤B)还包括以下步骤:
B1)、扫描每个所述若干网页,为每个所述若干网页作词语切分,记录每个词语在每个所述若干网页中的位置;
B2)、为所述每个词语作词性标注;
B3)、判断所述每个词语是否为命名体。
进一步地,所述若干命名体的倾向性值根据褒贬极性词词典、程度词词典、否定词词典、词汇搭配词典,由褒义词、贬义词、否定词、程度词、词汇搭配、句式判断综合决定。
可替换地,所述若干命名体的倾向性值根据褒贬极性词词典、程度词词典、否定词词典、词汇搭配词典,由褒义词、贬义词、否定词、程度词、词汇搭配、句式判断综合决定;所述若干网页的篇章级倾向性值根据褒贬极性词词典、程度词词典、否定词词典、词汇搭配词典,由褒义词、贬义词、否定词、程度词、词汇搭配、句式判断、段落结构综合决定。
进一步地,根据所述倒排索引表,如果所述关键字是命名体,且所述命名体的倾向性值的绝对值大于零,则提高所述关键字所属网页的排序权值。
进一步地,所述排序权值由所述命名体的倾向性值、网页所在域名的权威性、网页的受欢迎程度、所述关键字是否出现在网址、标题、锚文本或元标签中,网页的访问流量和点进率、网页所在网站的受欢迎程度综合决定。
优选地,所述关键字所属网页的排序权值由所述倒排索引表中的命名体的倾向性值决定。
可替换地,根据所述倒排索引表,如果所述关键字是命名体,且所述命名体的倾向性值的绝对值大于零,则提高所述关键字所属网页的排序权值;如果所述关键字所属网页的篇章级倾向性值的绝对值大于零,则提高所述关键字所属网页的排序权值。
进一步地,所述排序权值由所述命名体的倾向性值、网页的篇章级倾向性值、网页所在域名的权威性、网页的受欢迎程度、所述关键字是否出现在网址、标题、锚文本或元标签中,网页的访问流量和点进率、网页所在网站的受欢迎程度综合决定。
优选地,所述关键字所属网页的排序权值由所述倒排索引表中的命名体的倾向性值和所述网页篇章级倾向性值表中的网页的篇章级倾向性值决定。
为实现上述目的,本发明还提供了另一种根据倾向性值进行网页搜索的方法,包括以下步骤:
A)、获取若干网页,并下载至网页数据库;
B)、对所述若干网页以篇章级别整体进行倾向性分析,获得所述若干网页的篇章级倾向性值,制作网页篇章级倾向性值表;
C)、输入搜索项,将所述搜索项分解为至少一个关键字;
D)、根据所述网页篇章级倾向性值表,计算包括所述关键字的网页的排序权值,输出搜索结果。
进一步地,所述排序权值由网页的篇章级倾向性值、网页所在域名的权威性、网页的受欢迎程度、所述关键字是否出现在网址、标题、锚文本或元标签中,网页的访问流量和点进率、网页所在网站的受欢迎程度综合决定。
优选地,所述关键字所属网页的排序权值由所述网页篇章级倾向性值表中的网页的篇章级倾向性值决定。
为实现上述目的,本发明还提供了一种根据倾向性值进行网页搜索的装置,包括:网页获取器,用于获取并下载若干网页;网页数据库,用于储存下载的所述若干网页;命名体识别器,用于对所述若干网页的文字进行命名体识别;倾向性分析器,用于对所述若干网页中的若干命名体进行文本倾向性分析,获得所述若干网页的所述若干命名体的倾向性值;索引器,用于制作包括所述若干命名体的倾向性值的前向索引表和倒排索引表;索引数据库,用于存储所述前向索引表和所述倒排索引表;搜索器,用于将搜索项分解为至少一个关键字,根据所述倒排索引表,计算包括所述关键字的网页的排序权值,输出搜索结果。
进一步地,所述倾向性分析器还用于对所述若干网页以篇章级别整体进行倾向性分析,获得所述若干网页的篇章级倾向性值,制作网页篇章级倾向性值表;所述搜索器根据所述倒排索引表和所述网页篇章级倾向性值表,计算包括所述关键字的网页的排序权值,输出搜索结果。
为实现上述目的,本发明还提供了一种根据倾向性值进行网页搜索的装置,包括:网页获取器,用于获取并下载若干网页;网页数据库,用于储存下载的所述若干网页;倾向性分析器,用于对所述若干网页以篇章级别整体进行倾向性分析,获得所述若干网页的篇章级倾向性值,制作网页篇章级倾向性值表;搜索器,用于将搜索项分解为至少一个关键字,根据所述网页篇章级倾向性值表,计算包括所述关键字的网页的排序权值,输出搜索结果。
本发明的有益效果在于:
本发明的根据倾向性值进行网页搜索的方法和装置中的前向索引表和倒排索引表都包括了命名体的倾向性值。通过查询命名体的倾向性值,搜索引擎可以提高倾向性值的绝对值较大的网页的排序权值,从而使具有明显倾向性的网页的排名靠前,以提升用户的搜索满意度。
进一步地,再通过查询网页篇章级倾向性值表,搜索引擎也可以提高倾向性值的绝对值较大的网页的排序权值,从而使具有明显倾向性的网页的排名靠前,以提升用户的搜索满意度。
网页的排序权值可以由多种因素综合决定,也可以仅由命名体的倾向性值和/或网页的篇章级倾向性值决定。搜索引擎可以根据搜索用户的需求而定义。
本发明的根据倾向性值进行网页搜索的方法和装置可以直接从倒排索引表中获得每个网页中的命名体的倾向性值,而不需要大量的实时运算来获得网页中的命名体的倾向性值。同样,网页的篇章级倾向性值也可以直接从网页篇章级倾向性值表获得,而不需要大量的实时运算获得网页的倾向性值。本发明的根据倾向性值进行网页搜索的方法和装置具有较低的时间复杂度,从而能提高搜索的响应速度,为用户带来更快捷的搜索体验。
附图说明
图1为本发明的根据倾向性值进行网页搜索的方法的第一实施例的流程图;
图2为本发明的根据倾向性值进行网页搜索的方法的前向索引表的结构示意图;
图3为本发明的根据倾向性值进行网页搜索的方法的倒排索引表的结构示意图;
图4为本发明的根据倾向性值进行网页搜索的方法的第二实施例的流程图;
图5为本发明的根据倾向性值进行网页搜索的方法的网页篇章级倾向性值表的结构示意图;
图6为本发明的根据倾向性值进行网页搜索的方法的第三实施例的流程图;
图7为本发明的根据倾向性值进行网页搜索的装置的第一实施例的结构示意图;
图8为本发明的根据倾向性值进行网页搜索的装置的第二实施例的结构示意图。
具体实施方式
以下将结合附图对本发明的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本发明的目的、特征和效果。
如图1所示,本发明公开了一种根据倾向性值进行网页搜索的方法,包括以下步骤:
步骤101、获取若干网页,并下载至网页数据库;
搜索引擎公司通过网页获取器从互联网上获取若干网页,并将若干网页下载至搜索引擎公司的计算机中,也即网页数据库中。
步骤102、对若干网页的文字进行命名体识别;
首先,命名体识别器扫描每个网页,为每个网页上的文字作词语切分,并作词性标注;
其次,命名体识别器判断切分出的这些词语是否为命名体。如果为命名体,则将命名体进一步区分为人名、地名、机构名、产品名等。
步骤103、对若干网页中的若干命名体进行倾向性分析,获得若干网页的若干命名体的倾向性值;
倾向性分析器会对网页中的命名体进行倾向性分析,获得每一命名体的倾向性值(褒贬值)。倾向性值的阈值范围可以任意设定,比如设定为-3至+3,负数表示贬义,正数表示褒义。倾向性值的数值越大,褒义的程度越高;倾向性值的数值越小,贬义的程度越高。倾向性值根据褒贬极性词词典、程度词词典、否定词词典、词汇搭配词典,由褒义词、贬义词、否定词、程度词、词汇搭配、句式判断综合决定。
步骤104、制作前向索引表,前向索引表包括若干命名体的倾向性值;
首先,索引器扫描每个网页,为每个网页作词语切分,记录每个词语在网页中的位置,也即偏移量等信息(由于步骤102已进行过上述操作,此步骤可省略);
其次,根据命名体识别器的识别结果,如果某个词语是命名体,则将其标记为命名体(由于步骤102已进行过上述操作,此步骤可省略));
再次,如果某个词语是命名体,根据倾向性分析器的分析结果,将命名体的倾向性值(褒贬值)写入前向索引表中。
请参阅图2,前向索引表包括每个词语的网页序列号docid,每个词语word1、word2、word3……,每个词语的序列号word id1、word id2、word id3……,每个词语是否为命名体的标识is_entity1、is_entity2、is_entity3……,每个命名体的倾向性值(褒贬值)sentiment_value1、sentiment_value2、sentiment_value3……。一个网页即对应一个前向索引表,也即每个网页都有自己的前向索引表。
在一个前向索引表中,每个词语的网页序列号、每个词语、每个词语的序列号是唯一的。但是,每个词语的倾向性值可以为零个、一个或多个。因为同一词语可以在一个网页中多处出现,且可以作为命名体不出现、或者一次或多次出现。
当然,前向索引表还可以包括每个词语在网页中的位置,也即偏移量等信息。但由于偏移量等信息在现有的搜索引擎中已广泛使用,故在此不再赘述。
步骤105、制作倒排索引表,倒排索引表包括若干命名体的倾向性值;
请参阅图3,倒排索引表包括每个词语word1、word2、word3……,每个词语的序列号word id1、word id2、word id3……,包含每个词语的网页数量ndocs1、ndocs2、ndocs3……,每个词语的网页序列号docid1、docid2、docid3、docid4、docid5、docid6……,每个词语是否为命名体的标识is_entity1、is_entity2、is_entity3、is_entity4、is_entity5、is_entity6……,每个命名体的倾向性值(褒贬值)sentiment_value1、sentiment_value2、sentiment_value3、sentiment_value4、sentiment_value5、sentiment_value6……。一个倒排索引表包含了所有下载到网页数据库中的网页的信息。每个词语、每个词语的序列号、包含每个词语的网页数量是唯一的。但是,每个词语的网页序列号、每个词语的倾向性值可以为零个、一个或多个。因为一个词语可以在一个网页中多处出现,且可以作为命名体不出现、或者一次或多次出现。
当然,倒排索引表还可以包括每个词语在网页中的位置,也即偏移量等信息。但由于偏移量等信息在现有的搜索引擎中已广泛使用,故在此不再赘述。
步骤106、输入搜索项,将搜索项分解为至少一个关键字;
用户输入搜索项,搜索器将搜索项分解为多个关键字。当然,用户输入的搜索项也可能本身即为一个关键字,搜索器则不需对此进行分解。
步骤107、根据倒排索引表,计算包括关键字的网页的排序权值,输出搜索结果。
在包含所述关键字的网页中,根据倒排索引表,判断该关键字是否是命名体(人名、地名、机构名、产品名等)。如果是命名体,且其倾向性值的绝对值较大(也即褒义或贬义的程度较深),提高该关键字所属网页的排序权值;如果该关键字不是命名体(人名、地名、机构名、产品名等),降低该关键字所属网页的排序权值。
图4为本发明的根据倾向性值进行网页搜索的方法的第二实施例的流程图。如图4所示,本实施例与第一实施例的区别在于,在步骤101和步骤107’之间,还包括步骤201、对若干网页以篇章级别整体进行倾向性分析,获得若干网页的篇章级倾向性值,制作网页篇章级倾向性值表。
所谓篇章级别,也即以一篇文章为单位。一般而言,一个网页往往即是一篇文章。如果一个网页有多篇文章,则仍以一个网页中的一篇文章为单位进行倾向性分析;如果一篇文章较长,分散于多个网页中,则仍以这多个网页所构成的一篇文章为单位进行倾向性分析。以一篇文章为单位进行倾向性分析,获得这篇文章的倾向性值,也即篇章级倾向性值。对网页上所涵盖的多篇文章进行倾向性分析,获得多个篇章级倾向性值,从而再制作网页篇章级倾向性值表。
请参阅图5,网页篇章级倾向性值表包括:网页序列号docid1、docid1、docid2、docid3、docid4、docid5、docid6……和对应于每个网页的篇章级倾向性值(褒贬值)doc_sentiment_value1、doc_sentiment_value2、doc_sentiment_value3、doc_sentiment_value4、doc_sentiment_value5、doc_sentiment_value6……。网页序列号、每个网页的篇章级倾向性值是唯一的。如果一个网页不只一篇文章,而有多篇文章,则可以再设置subdocid字段对一个网页的多篇文章进行细分。例如某个网页有三篇文章,则这三篇文章的docid相同,但分别有不同的subdocid(例如分别为0、1、2)。
在本实施例中,步骤201位于步骤105和步骤106之间,但本发明并不限于此,步骤201可以位于步骤101和步骤107’之间的任一位置。
在步骤107’中,计算网页的排序权值除了考虑倒排索引表,还需要考虑网页篇章级倾向性值表。本实施例兼顾了命名体的倾向性值和网页的篇章级倾向性值。
图6为本发明的根据倾向性值进行网页搜索的方法的第三实施例的流程图。如图6所示,该实施例的根据倾向性值进行网页搜索的方法包括如下步骤:
步骤301、同第一实施例和第二实施例的步骤101;
步骤302、同第二实施例的步骤201;
步骤303、同第一实施例和第二实施例的步骤106;
步骤304、根据网页篇章级倾向性值表,计算包括关键字的网页的排序权值,输出搜索结果。
在本实施例中,只考虑网页的篇章级倾向性值,而不考虑命名体的倾向性值。
另外,由于本实施例的前向索引表和倒排索引表与现有技术的前向索引表和倒排索引表并无区别,属于非常成熟的现有技术。因此,虽然本实施例并没有列出制作前向索引表和制作倒排索引表的步骤,但制作前向索引表和制作倒排索引表的步骤是默认涵盖在本实施的方法中的。制作前向索引表和制作倒排索引表的步骤位于步骤301和步骤303之间,制作前向索引表和制作倒排索引表的步骤可以同时位于步骤302之前;也可以同时位于步骤302之后;也可以制作前向索引表的步骤位于步骤302之前,而制作倒排索引表的步骤位于步骤302之后。
图7为本发明的根据倾向性值进行网页搜索的装置的第一实施例的结构示意图。如图7所示,本发明还提供了一种根据倾向性值进行网页搜索的装置,也即搜索引擎40,包括网页获取器401,用于获取并下载若干网页;网页数据库402,用于储存下载的若干网页;命名体识别器403对网页作词语切分,并作词性标注,然后将命名体从这些词语中识别出来;倾向性分析器404综合考虑网页的褒义词、贬义词、否定词、程度词、词汇搭配、句式等因素,计算出命名体的倾向性值;索引器405,为若干网页制作包括命名体的倾向性值的前向索引表和倒排索引表;索引数据库406,用于存储前向索引表和倒排索引表;搜索器407,用于将搜索项分解为至少一个关键字,根据倒排索引表,计算包含关键字的网页的排序权值,输出搜索结果。
网页获取器401、网页数据库402、命名体识别器403、倾向性分析器404、索引器405、索引数据库406、搜索器407依次连接。搜索引擎40将最终的搜索结果返回至搜索用户408。
作为本发明的另一实施例,倾向性分析器404除了用于计算出命名体的倾向性值外,还可用于计算出若干网页的篇章级倾向性值,制作网页篇章级倾向性值表。由此,搜索器407则会根据倒排索引表和网页篇章级倾向性值表,计算出包含关键字的网页的排序权值。
图8为本发明的根据倾向性值进行网页搜索的装置的第二实施例的结构示意图。如图8所示,本实施例的搜索引擎40’与实施例一的搜索引擎40的区别在于,倾向性分析器403’只用于计算出若干网页的篇章级倾向性值,制作网页篇章级倾向性值表。搜索器404’根据网页篇章级倾向性值表,计算包含关键字的网页的排序权值。
此外,由于本实施例的索引器和索引数据库与现有技术的索引器和索引数据库并无区别,属于非常成熟的现有技术。因此,虽然本实施例并没有列出索引器和索引数据库,但索引器和索引数据库是默认包括在本实施的装置中的。
以下,以一个具体的示例对本发明的方法和装置作进一步说明。
第一网页的全部内容如下:
通体有精美彩绘的铜车马精巧绝伦,青铜铸成的驭手专注的眼神栩栩如生,车伞盖非常华丽。
第一网页也通过网页获取器401,被下载至搜索引擎公司的计算机,也即网页数据库402。命名体识别器403对第一网页作词语切分,并作词性标注。其次,命名体识别器403将命名体从这些词语中识别出来。具体而言,从第一网页中识别出如下命名体:铜车马、驭手、车伞盖。
倾向性分析器404对第一网页作篇章级倾向性分析,第一网页含有如下褒义词汇或短语:精美、精巧绝伦、栩栩如生、华丽;含有程度词:非常华丽中的“非常”;不含贬义词汇或短语。综合考虑第一网页的褒义词、贬义词、否定词、程度词、词汇搭配、句式等因素,第一网页的倾向性值为+3(贬义到褒义的阈值范围在该示例中定义为[-3,+3],-3的倾向性值为最贬,+3的倾向性值为最褒)。然后,倾向性分析器404对命名体进行倾向性分析。命名体“铜车马”包括命名体“驭手”、“车伞盖”(铜车马由驭手、车伞盖组成),其倾向性值为+3。命名体“驭手”含有一个褒义词“栩栩如生”,其倾向性值为+2。命名体“车伞盖”含有一个褒义词“华丽”,其倾向性值也为+2。
需要说明的是,贬义到褒义的阈值范围可以任意设定,例如[-5,+5]、[-8,+8]、[-16,+16]等。另外,网页的篇章级倾向性分析、命名体的倾向性分析并无先后顺序之分,也可以先作命名体的倾向性分析,再作网页的篇章级倾向性分析。或者只作网页的篇章级倾向性分析,或只作命名体的倾向性分析。
索引器405制作前向索引表,并存入索引数据库406。第一网页的前向索引表如表一所示。
表一第一网页的前向索引表
docid | word | word id | is_entity | Sentiment_value |
0 | 通体 | 0 | 0 | |
0 | 有 | 1 | 0 | |
0 | 精美 | 2 | 0 | |
0 | 彩绘 | 3 | 0 | |
0 | 的 | 4 | 0 | |
0 | 铜车马 | 5 | 1 | 3 |
0 | 精巧绝伦 | 6 | 0 | |
0 | 青铜 | 7 | 0 | |
0 | 铸成 | 8 | 0 | |
0 | 驭手 | 9 | 1 | 2 |
0 | 专注 | 10 | 0 | |
0 | 眼神 | 11 | 0 | |
0 | 栩栩如生 | 12 | 0 | |
0 | 车伞盖 | 13 | 1 | 2 |
0 | 非常 | 14 | 0 | |
0 | 华丽 | 15 | 0 |
第二网页的全部内容如下:
摊贩的仿秦铜车马粗制滥造,驭手面容不清晰,车伞盖不精致,包装不上档次。
同样,第二网页也通过网页获取器401,被下载至搜索引擎公司的计算机,也即网页数据库402。命名体识别器403对第二网页作词语切分,并作词性标注。其次,命名体识别器403将命名体从这些词语中识别出来。具体而言,从第二网页中识别出如下命名体:铜车马、驭手、车伞盖、包装。
倾向性分析器404对第二网页进行篇章级倾向性分析,第二网页含有如下褒义词汇或短语:清晰、精致、上档次;含有否定词:不清晰、不精致、不上档次中的“不”;含贬义词汇或短语:粗制滥造。综合考虑第二网页的褒义词、贬义词、否定词、程度词、词汇搭配、句式等因素,第二网页的倾向性值为-3(贬义到褒义的阈值范围在该示例中定义为[-3,+3],-3的倾向性值为最贬,+3的倾向性值为最褒)。然后,倾向性分析器404对命名体进行倾向性分析。命名体“铜车马”包括了命名体“驭手”、“车伞盖”、“包装”(铜车马由驭手、车伞盖和包装组成),其倾向性值为-3。命名体“驭手”含有一个否定词“不”、一个褒义词“清晰”,其倾向性值也为-2。命名体“车伞盖”含有一个否定词“不”、一个褒义词“精致”,其倾向性值也为-2。命名体“包装”含有一个否定词“不”、一个褒义词“上档次”,其倾向性值也为-2。
索引器405制作前向索引表,并存入索引数据库406。第二网页的前向索引表如表二所示。
表二第二网页的前向索引表
docid | word | word id | is_entity | Sentiment_value |
1 | 摊贩 | 16 | 0 | |
1 | 的 | 4 | 0 | |
1 | 仿秦 | 17 | 0 | |
1 | 铜车马 | 5 | 1 | -3 |
1 | 粗制滥造 | 18 | 0 | |
1 | 驭手 | 9 | 1 | -2 |
1 | 面容 | 19 | 0 | |
1 | 不 | 20 | 0 | |
1 | 清晰 | 21 | 0 | |
1 | 车伞盖 | 13 | 1 | -2 |
1 | 精致 | 22 | 0 | |
1 | 包装 | 23 | 1 | -2 |
1 | 上档次 | 24 | 0 |
由表二可知,每个词语的网页序列号docid、每个词语的序列号word id是接续表一顺次编号的。需注意的是,“的”、“铜车马”、“驭手”、“车伞盖”的word id在表一中已分别被分配为4、5、9、13。因此,在表二中,仍保留表一的word id。由此可知,在整个搜索引擎40的所有的前向索引表中,每个词语的序列号word id是唯一的。是否为命名体,由命名体识别器403来判断。如果是命名体,标识is_entity为1;如果不是命名体,标识is_entity为0。命名体的倾向性值sentiment_value由倾向性分析器404分析后获得(贬义到褒义的阈值范围在该示例中定义为[-3,+3],-3的倾向性值为最贬,+3的倾向性值为最褒)。
表一和表二制作完成后,索引器405将表一和表二合并为一个总前向索引表。索引器405为每个网页制作单独的一个前向索引表,再将若干前向索引表合并为一个总前向索引表。若干前向索引表的合并为现有技术,在此不再赘述。
倾向性分析器404对第一网页进行篇章级倾向性分析,综合考虑第一网页的褒义词、贬义词、否定词、程度词、词汇搭配、句式等因素,第一网页的倾向性值为+3(贬义到褒义的阈值范围在该示例中定义为[-3,+3],-3的倾向性值为最贬,+3的倾向性值为最褒)。同理,倾向性分析器404对第二网页进行篇章级倾向性分析,第二网页的倾向性值为-3。由此得到网页篇章级倾向性值表,即表三,docid为每个词语的网页序列号,doc_sentiment_value为网页的篇章级倾向性值。
表三网页篇章级倾向性值表
docid | doc_sentiment_value |
1 | 3 |
2 | -3 |
根据表一和表二,索引器405制作倒排索引表,并存入索引数据库406。第一网页和第二网页的倒排索引表如表四所示。word为每个词语,word id为每个词语的序列号,ndocs为包含每个词语的网页数量,docid为每个词语的网页序列号,is_entity为是否是命名体的标识,Sentiment_value为命名体的倾向性值。
表四第一网页和第二网页的倒排索引表
需注意的是,第一网页和第二网页中都有“的”、“铜车马”、“驭手”、“车伞盖”。因此,对应的包含上述词语的网页数量ndocs为2。
搜索用户408输入搜索项后,搜索器407将搜索项分解为多个关键字。当然,搜索用户408输入的搜索项也可能本身即为一个关键字,搜索器407则不需对此进行分解。
搜索器407根据表四的is_entity字段,判断搜索项所分解的多个关键字在包含其的网页中是否为命名体。
例如,搜索用户408的搜索项为“铜车马”。搜索器407查询表四,关键字“铜车马”的网页序列号docid为0、1,is_entity都是1,即可以判断在第一和第二网页中它都是命名体,命名体的倾向性值分别为+3和-3。再查询表三,可以知道其所在网页的篇章级倾向性值分别为+3和-3。
显然,如果关键字是命名体,在同等的排序条件下,命名体倾向性值大(褒义)或小(贬义)的网页对搜索用户具有更大的参考价值(中性的网页的价值较小),所属网页的排序权值应该提高(即在同等排序条件下,所属网页应该排名靠前)。例如,在本示例中,如果用户想查看国宝级文物“秦陵一号铜车马”,那么搜索用户将期待命名体的倾向性值大的网页排名靠前。如果工商管理局的管理人员想查看劣质“铜车马”仿制厂商的网页,则可以将命名体倾向性值小的网页排列在搜索结果的靠前位置。
如果待搜索的关键字不是命名体,则关键字所在的网页的篇章级倾向性值也有一定的参考价值,可以从总体上标示该网页的整体倾向性(褒贬性)。此时,可以查阅表三《网页篇章级倾向性值表》,从表三中获得包括关键字的网页的篇章级倾向性值。搜索结果排序时,网页的篇章级倾向性值较大或较小(篇章级倾向性值的绝对值较大),网页的排序权值可以提高。
网页的排序权值一般由多个因素综合决定。除了命名体的倾向性值和网页的篇章级倾向性值,还有网页所在域名的权威性,网页的受欢迎程度,关键字是否出现在网址、标题、锚文本或元标签中,网页的访问流量和点进率,网页所在网站的注册数据和开站数据等若干因素。当然,搜索引擎40在计算网页的排序权值时,也可以只考虑命名体的倾向性值和/或网页的篇章级倾向性值,而不考虑其他因素。
以上的实施例和示例以中文网页为例,对本发明的根据倾向性值进行网页搜索的方法和装置进行阐述。但本发明并不限于此,本发明的根据倾向性值进行网页搜索的方法和装置还可应用于英文、德文、俄罗斯文、日文、西班牙文等各种自然语言的信息检索。本发明可应用于网页、论坛、微博客、电子书籍、结构化文本等的搜索。
本发明的根据倾向性值进行网页搜索的方法和装置中的前向索引表和倒排索引表都包括了命名体的倾向性值。通过查询命名体的倾向性值,搜索引擎可以提高倾向性值的绝对值较大的网页的排序权值,从而使具有明显倾向性的网页的排名靠前,以提升用户的搜索满意度。
通过查询网页篇章级倾向性值表,搜索引擎也可以提高倾向性值的绝对值较大的网页的排序权值,从而使具有明显倾向性的网页的排名靠前,进一步提升搜索用户的搜索满意度。
本发明的根据倾向性值进行网页搜索的方法和装置可以直接从倒排索引表中获得每个网页中的命名体的倾向性值,而不需要大量的实时运算来获得网页中的命名体的倾向性值。同样,网页的篇章级倾向性值也可以直接从网页篇章级倾向性值表获得,而不需要大量的实时运算获得网页的倾向性值。本发明的根据倾向性值进行网页搜索的方法和装置具有较低的时间复杂度,从而能提高搜索的响应速度,为用户带来更快捷的搜索体验。
以上详细描述了本发明的较佳具体实施例。应当理解,本领域的普通技术无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此,凡本技术领域中的技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案,皆应在本发明的权利要求保护范围内。
Claims (17)
1.一种根据倾向性值进行网页搜索的方法,其特征在于,包括以下步骤:
A)、获取若干网页,并下载至网页数据库;
B)、对所述若干网页的文字进行命名体识别;
C)、对所述若干网页中的若干命名体进行倾向性分析,获得所述若干网页的所述若干命名体的倾向性值;
D)、制作前向索引表,所述前向索引表包括所述若干命名体的倾向性值;
E)、制作倒排索引表,所述倒排索引表包括所述若干命名体的倾向性值;
F)、输入搜索项,将所述搜索项分解为至少一个关键字;
G)、至少根据所述倒排索引表,计算包括所述关键字的网页的排序权值,输出搜索结果。
2.如权利要求1所述的根据倾向性值进行网页搜索的方法,其特征在于,所述步骤A)和步骤G)之间还包括步骤A’)、对所述若干网页以篇章级别整体进行倾向性分析,获得所述若干网页的篇章级倾向性值,制作网页篇章级倾向性值表;在所述步骤G)中,根据所述倒排索引表和所述网页篇章级倾向性值表,计算包括所述关键字的网页的排序权值,输出搜索结果。
3.如权利要求1或2所述的根据倾向性值进行网页搜索的方法,其特征在于,所述步骤B)还包括以下步骤:
B1)、扫描每个所述若干网页,为每个所述若干网页作词语切分,记录每个词语在每个所述若干网页中的位置;
B2)、为所述每个词语作词性标注;
B3)、判断所述每个词语是否为命名体。
4.如权利要求1所述的根据倾向性值进行网页搜索的方法,其特征在于,所述若干命名体的倾向性值根据褒贬极性词词典、程度词词典、否定词词典、词汇搭配词典,由褒义词、贬义词、否定词、程度词、词汇搭配、句式判断综合决定。
5.如权利要求2所述的根据倾向性值进行网页搜索的方法,其特征在于,所述若干命名体的倾向性值根据褒贬极性词词典、程度词词典、否定词词典、词汇搭配词典,由褒义词、贬义词、否定词、程度词、词汇搭配、句式判断综合决定;所述若干网页的篇章级倾向性值根据褒贬极性词词典、程度词词典、否定词词典、词汇搭配词典,由褒义词、贬义词、否定词、程度词、词汇搭配、句式判断、段落结构综合决定。
6.如权利要求1所述的根据倾向性值进行网页搜索的方法,其特征在于,根据所述倒排索引表,如果所述关键字是命名体,且所述命名体的倾向性值的绝对值大于零,则提高所述关键字所属网页的排序权值。
7.如权利要求6所述的根据倾向性值进行网页搜索的方法,其特征在于,所述排序权值由所述命名体的倾向性值、网页所在域名的权威性、网页的受欢迎程度、所述关键字是否出现在网址、标题、锚文本或元标签中,网页的访问流量和点进率、网页所在网站的受欢迎程度综合决定。
8.如权利要求6所述的根据倾向性值进行网页搜索的方法,其特征在于,所述关键字所属网页的排序权值由所述倒排索引表中的命名体的倾向性值决定。
9.如权利要求2所述的根据倾向性值进行网页搜索的方法,其特征在于,根据所述倒排索引表,如果所述关键字是命名体,且所述命名体的倾向性值的绝对值大于零,则提高所述关键字所属网页的排序权值;如果所述关键字所属网页的篇章级倾向性值的绝对值大于零,则提高所述关键字所属网页的排序权值。
10.如权利要求9所述的根据倾向性值进行网页搜索的方法,其特征在于,所述排序权值由所述命名体的倾向性值、网页的篇章级倾向性值、网页所在域名的权威性、网页的受欢迎程度、所述关键字是否出现在网址、标题、锚文本或元标签中,网页的访问流量和点进率、网页所在网站的受欢迎程度综合决定。
11.如权利要求9所述的根据倾向性值进行网页搜索的方法,其特征在于,所述关键字所属网页的排序权值由所述倒排索引表中的命名体的倾向性值和所述网页篇章级倾向性值表中的网页的篇章级倾向性值决定。
12.一种根据倾向性值进行网页搜索的方法,其特征在于,包括以下步骤:
A)、获取若干网页,并下载至网页数据库;
B)、对所述若干网页以篇章级别整体进行倾向性分析,获得所述若干网页的篇章级倾向性值,制作网页篇章级倾向性值表;
C)、输入搜索项,将所述搜索项分解为至少一个关键字;
D)、根据所述网页篇章级倾向性值表,计算包括所述关键字的网页的排序权值,输出搜索结果。
13.如权利要求12所述的根据倾向性值进行网页搜索的方法,其特征在于,所述排序权值由网页的篇章级倾向性值、网页所在域名的权威性、网页的受欢迎程度、所述关键字是否出现在网址、标题、锚文本或元标签中,网页的访问流量和点进率、网页所在网站的受欢迎程度综合决定。
14.如权利要求12所述的根据倾向性值进行网页搜索的方法,其特征在于,所述关键字所属网页的排序权值由所述网页篇章级倾向性值表中的网页的篇章级倾向性值决定。
15.一种根据倾向性值进行网页搜索的装置,其特征在于,包括:
网页获取器,用于获取并下载若干网页;
网页数据库,用于储存下载的所述若干网页;
命名体识别器,用于对所述若干网页的文字进行命名体识别;
倾向性分析器,用于对所述若干网页中的若干命名体进行文本倾向性分析,获得所述若干网页的所述若干命名体的倾向性值;
索引器,用于制作包括所述若干命名体的倾向性值的前向索引表和倒排索引表;
索引数据库,用于存储所述前向索引表和所述倒排索引表;
搜索器,用于将搜索项分解为至少一个关键字,至少根据所述倒排索引表,计算包括所述关键字的网页的排序权值,输出搜索结果。
16.如权利要求15所述的根据倾向性值进行网页搜索的装置,其特征在于,所述倾向性分析器还用于对所述若干网页以篇章级别整体进行倾向性分析,获得所述若干网页的篇章级倾向性值,制作网页篇章级倾向性值表;所述搜索器根据所述倒排索引表和所述网页篇章级倾向性值表,计算包括所述关键字的网页的排序权值,输出搜索结果。
17.一种根据倾向性值进行网页搜索的装置,其特征在于,包括:
网页获取器,用于获取并下载若干网页;
网页数据库,用于储存下载的所述若干网页;
倾向性分析器,用于对所述若干网页以篇章级别整体进行倾向性分析,获得所述若干网页的篇章级倾向性值,制作网页篇章级倾向性值表;
搜索器,用于将搜索项分解为至少一个关键字,根据所述网页篇章级倾向性值表,计算包括所述关键字的网页的排序权值,输出搜索结果。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100448635A CN102110160A (zh) | 2011-02-24 | 2011-02-24 | 根据倾向性值进行网页搜索的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN2011100448635A CN102110160A (zh) | 2011-02-24 | 2011-02-24 | 根据倾向性值进行网页搜索的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN102110160A true CN102110160A (zh) | 2011-06-29 |
Family
ID=44174321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2011100448635A Pending CN102110160A (zh) | 2011-02-24 | 2011-02-24 | 根据倾向性值进行网页搜索的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN102110160A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014059836A1 (zh) * | 2012-10-19 | 2014-04-24 | 腾讯科技(深圳)有限公司 | 博客内容搜索方法及系统 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441636A (zh) * | 2007-11-21 | 2009-05-27 | 中国科学院自动化研究所 | 一种基于知识库的医院信息搜索引擎及系统 |
CN101923556A (zh) * | 2010-02-09 | 2010-12-22 | 上海莱希信息科技有限公司 | 根据句子序列号进行网页搜索的方法和装置 |
-
2011
- 2011-02-24 CN CN2011100448635A patent/CN102110160A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101441636A (zh) * | 2007-11-21 | 2009-05-27 | 中国科学院自动化研究所 | 一种基于知识库的医院信息搜索引擎及系统 |
CN101923556A (zh) * | 2010-02-09 | 2010-12-22 | 上海莱希信息科技有限公司 | 根据句子序列号进行网页搜索的方法和装置 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2014059836A1 (zh) * | 2012-10-19 | 2014-04-24 | 腾讯科技(深圳)有限公司 | 博客内容搜索方法及系统 |
CN103778137A (zh) * | 2012-10-19 | 2014-05-07 | 腾讯科技(深圳)有限公司 | 一种博客内容搜索方法及系统 |
CN103778137B (zh) * | 2012-10-19 | 2018-09-07 | 腾讯科技(深圳)有限公司 | 一种博客内容搜索方法及系统 |
US10678873B2 (en) | 2012-10-19 | 2020-06-09 | Tencent Technology (Shenzhen) Company Limited | Method and system for blog content search |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Taj et al. | Sentiment analysis of news articles: a lexicon based approach | |
CN107861939B (zh) | 一种融合词向量和主题模型的领域实体消歧方法 | |
CN106997382B (zh) | 基于大数据的创新创意标签自动标注方法及系统 | |
CN103678564B (zh) | 一种基于数据挖掘的互联网产品调研系统 | |
Ahmed et al. | Language identification from text using n-gram based cumulative frequency addition | |
CN103678576A (zh) | 基于动态语义分析的全文检索系统 | |
CN113822067A (zh) | 关键信息提取方法、装置、计算机设备及存储介质 | |
CN106970991B (zh) | 相似应用的识别方法、装置和应用搜索推荐方法、服务器 | |
CN103870973A (zh) | 基于电子信息的关键词提取的信息推送、搜索方法及装置 | |
CN101894102A (zh) | 一种主观性文本情感倾向性分析方法和装置 | |
CN101782898A (zh) | 一种情感词倾向性的分析方法 | |
CN105843796A (zh) | 一种微博情感倾向分析方法及装置 | |
CN103049470A (zh) | 基于情感相关度的观点检索方法 | |
CN101923556B (zh) | 根据句子序列号进行网页搜索的方法和装置 | |
CN111611356A (zh) | 信息查找方法、装置、电子设备及可读存储介质 | |
CN111475725A (zh) | 用于搜索内容的方法、装置、设备和计算机可读存储介质 | |
Samuels et al. | News sentiment analysis | |
CN112395410A (zh) | 一种基于实体抽取的产业舆情推荐方法、装置及电子设备 | |
CN110888991A (zh) | 一种弱标注环境下的分段式语义标注方法 | |
CN112182145A (zh) | 文本相似度确定方法、装置、设备和存储介质 | |
CN114090861A (zh) | 一种基于知识图谱的教育领域搜索引擎构建方法 | |
CN112214991A (zh) | 一种基于多特征融合加权的微博文本立场检测方法 | |
Mohasseb et al. | Domain specific syntax based approach for text classification in machine learning context | |
CN112711666B (zh) | 期货标签抽取方法及装置 | |
Jha et al. | Hsas: Hindi subjectivity analysis system |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C12 | Rejection of a patent application after its publication | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20110629 |