CN103678400B - 基于群体搜索行为的网页分类方法及装置 - Google Patents

基于群体搜索行为的网页分类方法及装置 Download PDF

Info

Publication number
CN103678400B
CN103678400B CN201210355241.9A CN201210355241A CN103678400B CN 103678400 B CN103678400 B CN 103678400B CN 201210355241 A CN201210355241 A CN 201210355241A CN 103678400 B CN103678400 B CN 103678400B
Authority
CN
China
Prior art keywords
search term
attribute
webpage
categorical attribute
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210355241.9A
Other languages
English (en)
Other versions
CN103678400A (zh
Inventor
程刚
潘璇
庄子明
李鹤
芦方
周霄骁
刘新鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201210355241.9A priority Critical patent/CN103678400B/zh
Publication of CN103678400A publication Critical patent/CN103678400A/zh
Application granted granted Critical
Publication of CN103678400B publication Critical patent/CN103678400B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于群体搜索行为的网页分类方法,包括:建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性;记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数;根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性;根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。本发明还提供一种基于群体搜索行为的网页分类装置。本发明可以有效的提高网页分类的准确性。

Description

基于群体搜索行为的网页分类方法及装置
技术领域
本发明涉及计算机技术领域,特别涉及一种基于群体搜索行为的网页分类方法及装置。
背景技术
随着计算机技术及网络技术的飞速发展,网络信息成爆炸性增长,一方面满足了用户对信息的需求,另一方面也产生了一些问题,如何将网页分类,提高用户的体验,是目前搜索引擎供应商面临解决的一个问题。
现有技术中网页分类的方法主要是基于网页本身的信息,利用机器学习的方法对网页进行分类。然而,由于网页是半结构化信息,网页除了含有文本还包括很多的其他信息,例如链接关系、垃圾广告等,单纯利用机器学习的方法很可能会把广告、导航信息等误认为网页正文,从而影响分类的准确率和召回率。
发明内容
本发明的目的在于,提供一种有效的基于群体搜索行为的网页分类方法及装置。
本发明的目的及解决其技术问题是采用以下技术方案来实现的。
一种基于群体搜索行为的网页分类方法,包括:建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性;记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数;根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性;根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。
一种基于群体搜索行为的网页分类装置,包括:词干分类库建立模块,用于建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性;记录模块,用于记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数;搜索词分类库建立模块,用于根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性;网页分类属性确定模块,用于根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。
与现有技术相比,本实施例所提供的网页分类方法借助群体用户的搜索行为来对网页进行分类,可以作为单纯依靠网页本身的信息对网页进行分类的一种有效补充,使得准确率能够得到有效的提高。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例1提供的一种基于群体搜索行为的网页分类方法的流程图。
图2是图1中步骤S13的具体流程图。
图3是图1中步骤S14的具体流程图。
图4是本发明实施例2提供的一种基于群体搜索行为的网页分类方法的流程图。
图5是本发明实施例3提供的一种基于群体搜索行为的网页分类装置的结构图。
图6是图5中搜索词分类库建立模块的具体结构图。
图7是图5中网页分类属性确定模块的具体结构图。
图8是本发明实施例4提供的一种基于群体搜索行为的网页分类装置的结构图。
具体实施方式
为更进一步阐述本发明为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本发明提出的基于群体搜索行为的网页分类方法及装置其具体实施方式、方法、步骤、结构、特征及其功效,详细说明如下。
有关本发明的前述及其他技术内容、特点及功效,在以下配合参考图式的较佳实施例的详细说明中将可清楚呈现。通过具体实施方式的说明,当可对本发明为达成预定目的所采取的技术手段及功效得以更加深入且具体的了解,然而所附图式仅是提供参考与说明之用,并非用来对本发明加以限制。
本发明技术方案的主要设计构思是针对现有技术中单纯采用机器学习依靠网页本身的信息对网页进行分类时,分类的准确率较低的问题,而提出一种实现网页分类的技术方案。与现有技术相比,本发明所提供的网页分类方法借助群体用户的搜索行为来对网页进行分类,可以作为单纯依靠网页本身的信息对网页进行分类的一种有效补充,使得准确率能够得到有效的提高。
实施例1
参考图1,图1是本发明实施例1提供的一种基于群体搜索行为的网页分类方法的流程图。于本实施例中,基于群体搜索行为的网页分类方法包括:
步骤S11,建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性。
词是由词根和词缀构成的,也就是一个词除去词尾的部分。词干可能是由词根构成的,也可以是词根加上词缀构成的。例如:workers,其中s是词尾,work是词根,er是词缀,这个词除去词尾,剩下的worker就是词干。词干与词根的区别在于,词根是语素的一种,它是用来组合成词的;而词干是一个词语去掉表示语法意义的词尾剩余的部分。例如,在“老师们”中,“老师”是词干,“们”是词尾。
于此步骤中,例如可以通过机器学习的方式确定一些常用搜索词中包含的词干的分类属性,然后可以利用人工的方式进行核对,保证搜索词的词干分类属性的准确性。搜索词是用户在产生搜索行为时输入的能够表达用户搜索意愿的语意单位,搜素词可以仅有一个词干也可以有多个词干。这里所说的常用搜索词可以是通过历史数据获得的、也可以是根据经验获得的一些在相关领域使用频率较高的搜索词,可以根据实际的使用环境确定相关的领域,然后根据历史数据选取该领域中使用频率较高的搜索词。搜索词词干分类库中带有分类属性的词干的数量也可以根据实际需要进行选择,优选的,控制在人工能够处理的范围内,例如一万以内。一个词干的分类属性,根据其相关的领域可以有很多种,例如,该词干经常会出现在数码领域,那么该词干就具有数码属性,如果该词干即经常出现在数码领域又会经常出现在食物领域,偶尔还会出现在汽车领域,那个该词干就同时具有数码属性、食物属性、以及汽车属性,以此类推。每个词干对应的分类属性包括每个词干具有的一个或多个属性以及每个属性所对应的分值,属性所对应的分值也可以理解为该属性的权重,在建立搜索词词干分类库时,词干分类属性中的分值可以是通过历史数据获得的、也可以是根据经验获得并由人工设定的。
步骤S12,记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数。
在此步骤中,通过记录群体搜索行为所使用的搜索词,使用这些搜索词时所点击的网页,以及使用不同搜索词时每个被点击的网页对应的被点击次数。由于大多数搜索用户都是理性的,因此群体搜索行为可以认为是一个理性的行为,虽然用户在搜索结果网页中的点击行为可能千差万别,但是能够体现出用户的搜索意愿的。也就是群体搜索行为最终点击的网页的分类属性与群体用户进行搜索词所使用的搜索词的属性是相关的,通过记录群体搜索行为可以根据搜索行为获得网页的分类属性,下面将具体介绍如何实现这个过程。
步骤S13,根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性。
请参照图2,步骤S13具体可以通过如下步骤来实现:
S131:将每个搜索词分成一个或多个词干。
将每个搜索词分成一个或多个词干的过程也就是将搜索词进行分词的过程。这里的分词指的是中文分词(Chinese word segmentation),是将一个汉字序列切分成一个一个单独的词。例如,搜索词为“小米手机”,分词之后,搜索词分为两个词干:“小米”和“手机”。英文也可以采用类似的分词方法,本发明并不以此为限。
S132:根据该搜索词词干分类库获得每个搜索词中的词干所对应的分类属性,并根据每个搜索词中的词干所对应的分类属性获得每个搜索词的分类属性,该搜索词的分类属性包括该搜索词具有的一个或多个属性以及每个属性所对应的分值。
每个搜索词的分类属性中的属性对应的分值向量可以表示为其中,X,Y,Z…表示该搜索词中包含的词干所具有的属性,也就是属性X、属性Y、属性Z等;Xi表示该属性下第i个词干的分值,n为该搜索词的词干所具有的属性个数。该属性通过查询该搜索词词干分类库获得,如果该搜索词词干分类库中没有对应的词干,则可以通过历史搜索该搜索词并且产生点击行为的网页的分类属性进行确定,如果历史搜索记录中也没有的话,就暂不对其进行分类。
仍然以搜索词为“小米手机”为例,分词之后,搜索词分为两个词干:“小米”和“手机”。这两个词干具有的属性如下:
表一
则“小米手机”的分类属性中的属性对应的分值向量queryA=((0.5+1)/2,0.5/2)=(0.75,0.25)。则“小米手机”的分类属性为:
表二
步骤S14,根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。
请参照图3,步骤S14具体可以通过以下步骤来实现:
步骤S141,根据搜索词分类库确定中的搜索词的分类属性确定被点击的网页的分类属性,该被点击的网页的分类属性包括该网页具有的一个或多个属性以及每个属性所对应的分值。
例如:已知“HTC”、“安卓”、“小米手机”这些搜索词具有“数码”这一属性。发现搜索了“HTC”、“安卓”、“小米手机”的大量用户在搜索结果页中点击了www.younet.com/test/*.html路径下的网页,通过计算会得到www.younet.com/test/路径下的网页属于数码属性的分值。计算网页具有的每个属性所对应的分值的公式:
其中,k表示某一属性,例如新闻、视频、美女等,Wi为搜索词具有的该属性对应的分值,Clicki为搜索第i个具有k属性的搜索词时该网页被点击的点击次数。
一个网页可具有多个属性,但是每个属性会有不同的分类分值。例如,用户搜索“HTC”、“安卓”、“小米手机”后点击了www.younet.com/test/*.html路径下的网页。“HTC”、“安卓”、“小米手机”的分类属性为:
表三
统计到的搜索具有这些属性的搜索词时该网页被点击的点击次数分别为:
表四
则,该网页的分类属性中属性对应的分值为:
HB_web(手机属性)=(0.75*1200+1*1200+1*3200)=5300
HB_web(食物属性)=(0.25*1200)=300
也就是说,该网页的分类属性中属性的分值向量为(5300,300)。该网页的分类属性为:
表五
到此,该网页的分类也就完成了。
当然,为了获得网页的单一属性,也就是最能反映该网页的属性的一个属性,可选的,步骤S14还可以包括以下步骤:
步骤S142,将所得的网页的分类属性中每个属性对应的分值进行归一化。
其中,HB_web_nor(k)为把HB_web(k)归一化后的取值。网页分类属性中各属性对应的分值向量可以表示为(HB_web_nor(X),HB_web_nor(Y),HB_web_nor(Z),….)。在上面的例子中,把该网页的分类属性中属性的分值向量为(5300,300)归一化后为(0.94,0.06)。群体用户搜索的属于K属性的词汇后,点击行为越多,该搜索词属于K属性的分值就愈高,该网页的K属性就越明显。
步骤S143,对同一个网页的分类属性中的所有分值进行排序。
步骤S144,将分值最高的属性设定为该网页的分类属性中的默认属性,对应的分值设定为该网页的分类属性中的默认分值。
为了减少计算量,当某个搜索词/网页计算出来的属性的分值中,某一属性的分值大于某分界值t(t∈(0,1))时,我们可以认为这个搜索词/网页具有该单一属性,则此时可以判定该网页的单一属性为手机属性。其中,t可根据实际情况取值,由实验数据获得或由经验获得,例如在上述例子中可以选取t为0.8。
与现有技术相比,本实施例所提供的网页分类方法借助群体用户的搜索行为来对网页进行分类,可以作为单纯依靠网页本身的信息对网页进行分类的一种有效补充,使得准确率能够得到有效的提高。
实施例2
参考图4,图4是本发明实施例2提供的一种基于群体搜索行为的网页分类方法的流程图。于本实施例中,基于群体搜索行为的网页分类方法包括:
步骤S21,建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性。此步骤与前述相同,这里不再赘述。
步骤S22,记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数。此步骤与前述相同,这里不再赘述。
步骤S23,根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性。此步骤与前述相同,这里不再赘述。
步骤S24,根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。此步骤与前述相同,这里不再赘述。
步骤S25,根据使用同一搜索词时所点击的所有网页的分类属性以及该些网页被点击的次数获得该搜索词的分类属性或重新确定该搜索词的分类属性。
为了实时更新搜索词的分类属性,不断优化搜索词分类库,可以根据群体用户的搜索行为,重新确定搜索词的分类属性。例如:使用了某个搜索词的用户中,有大量的用户点击了不同的网页,通过步骤S21至步骤S24我们已经计算出这些网页的分类属性,则可以根据这些网页的分类属性来获得该搜索词的分类属性或重新确定该搜索词的分类属性。也就是说如果在步骤S23中无法根据该搜索词词干分类库确定所记录的搜索词的分类属性,那么在此步骤中可以根据使用该搜索词时所点击的所有网页的分类属性以及该些网页被点击的次数获得该搜索词的分类属性,而该些网页的分类属性可以是通过其他搜索词的分类属性来确定的,另外,在步骤S23中已经确定的搜索词的分类属性,在此步骤中可以根据使用该搜索词时所点击的所有网页的分类属性以及该些网页被点击的次数重新确定该搜索词的分类属性。
计算搜索词分类属性中属性的分值的公式为:
其中,k表示某一属性,Wi为网页具有的该属性对应的分值,urli为搜索该搜索词时点击k属性的网页的次数。
步骤S26,根据所获得的该些搜索词的分类属性补充该搜索词分类库或根据重新确定的该些搜索词的分类属性更新该搜索词分类库。
步骤S27,根据该经补充或更新后的搜索词分类库获得新增的搜索词所包括的词干的分类属性或重新确定的搜索词所包括的词干的分类属性。
步骤S28,根据所获得的该些词干的分类属性补充该搜索词词干分类库或根据重新确定的该些词干的分类属性更新该搜索词词干分类库。
返回步骤S22开始下一次循环。
新获得的该些搜索词的分类属性被补充至该搜索词分类库中,重新确定的这些搜索词的分类属性也被存储在搜索词分类库中并替换了原有的这些搜索词的分类属性,在下一次循环操作中又可以用来计算网页的分类属性,同时重新确定的搜索词的分类属性也可以用于确定新出现的词干的分类属性,如此循环往复,就可以使网页的分类的准确率越来越高。通过搜索词的分类属性确定新出现的词干的分类属性的方法同通过网页分类属性确定搜索词的分类属性的方法相同,这里不再赘述,当然,需要将搜索词分成一个或若干个词干。
与现有技术相比,本实施例所提供的网页分类方法借助群体用户的搜索行为来对网页进行分类,可以作为单纯依靠网页本身的信息对网页进行分类的一种有效补充,使得准确率能够得到有效的提高。
实施例3
参考图5,图5是本发明实施例3提供的一种基于群体搜索行为的网页分类装置的结构图。于本实施例中,基于群体搜索行为的网页分类装置30包括:
词干分类库建立模块31,用于建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性;
记录模块32,用于记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数;
搜索词分类库建立模块33,用于根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性;
网页分类属性确定模块34,用于根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性。
于本实施例中,该每个词干对应的分类属性包括每个词干具有的一个或多个属性以及每个属性所对应的分值。请参见图6,搜索词分类库建立模块33包括:
分词模块331,用于将每个搜索词分成一个或多个词干;
搜索词分类属性确定模块332,用于根据该搜索词词干分类库获得每个搜索词中的词干所对应的分类属性,并根据每个搜索词中的词干所对应的分类属性获得每个搜索词的分类属性,该搜索词的分类属性包括该搜索词具有的一个或多个属性以及每个属性所对应的分值;
存储模块333,用于将该些搜索词以及其对应的分类属性存储在该搜索词分类库中。
该搜索词具有的每个属性所对应的分值等于A表示该属性,Ai表示该搜索词中与该属性对应的第i个词干的分值,n为第i个词干所具有的属性个数。
请参见图7,于本实施例中,该网页分类属性确定模块34包括:
属性确定模块341,用于根据搜索词分类库确定中的搜索词的分类属性确定被点击的网页的分类属性,该被点击的网页的分类属性包括该网页具有的一个或多个属性以及每个属性所对应的分值。
该网页具有的每个属性所对应的分值等于其中,k表示某一属性,Wi为搜索词具有的该属性对应的分值,Clicki为搜索第i个具有k属性的搜索词时该网页被点击的点击次数。
可选的,该网页分类属性确定模块34进一步包括:
归一化模块342,用于将所得的网页的分类属性中每个属性对应的分值进行归一化;
排序模块343,用于对同一个网页的分类属性中的所有分值进行排序;
设定模块344,用于将分值最高的属性设定为该网页的分类属性中的默认属性,对应的分值设定为该网页的分类属性中的默认分值。
与现有技术相比,本实施例所提供的网页分类装置借助群体用户的搜索行为来对网页进行分类,可以作为单纯依靠网页本身的信息对网页进行分类的一种有效补充,使得准确率能够得到有效的提高。
实施例4
参考图8,图8是本发明实施例4提供的一种基于群体搜索行为的网页分类装置的结构图。于本实施例中,基于群体搜索行为的网页分类装置40包括:
词干分类库建立模块41,用于建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性;
记录模块42,用于记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数;
搜索词分类库建立模块43,用于根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性;
网页分类属性确定模块44,用于根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性;
搜索词分类属性重新确定模块45,用于根据使用同一搜索词时所点击的所有网页的分类属性以及该些网页被点击的次数获得该搜索词的分类属性或重新确定该搜索词的分类属性;
搜索词补充更新模块46,用于根据所获得的该些搜索词的分类属性补充该搜索词分类库或根据重新确定的该些搜索词的分类属性更新该搜索词分类库。
重新确定的该搜索词的属性所对应的分值等于其中,k表示某一属性,Wi为网页具有的该属性对应的分值,urli为搜索该搜索词时点击k属性的网页的次数。
词干分类属性重新确定模块47,用于根据该经补充或更新后的搜索词分类库获得新增的搜索词所包括的词干的分类属性或重新确定的搜索词所包括的词干的分类属性。
词干补充更新模块48,用于根据所获得的该些词干的分类属性补充该搜索词词干分类库或根据重新确定的该些词干的分类属性更新该搜索词词干分类库。
新获得的该些搜索词的分类属性被补充至该搜索词分类库中,重新确定的这些搜索词的分类属性也被存储在搜索词分类库中并替换了原有的这些搜索词的分类属性,在下一次循环操作中又可以用来计算网页的分类属性,同时重新确定的搜索词的分类属性也可以用于确定新出现的词干的分类属性,具体的确定方法同通过网页分类属性确定搜索词的分类属性的方法相同,这里不再赘述,如此循环往复,就可以使网页的分类的准确率越来越高。与现有技术相比,本实施例所提供的网页分类方法借助群体用户的搜索行为来对网页进行装置,可以作为单纯依靠网页本身的信息对网页进行分类的一种有效补充,使得准确率能够得到有效的提高。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。对于装置类实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。
本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,该的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
以上该仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (14)

1.一种基于群体搜索行为的网页分类方法,其特征在于,包括:
建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性;
记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数;
根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性;
根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性;
其中,该每个词干对应的分类属性包括每个词干具有的一个或多个属性以及每个属性所对应的分值;
该根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性的步骤包括:
将每个搜索词分成一个或多个词干;
根据该搜索词词干分类库获得每个搜索词中的词干所对应的分类属性,并根据每个搜索词中的词干所对应的分类属性获得每个搜索词的分类属性,该搜索词的分类属性包括该搜索词具有的一个或多个属性以及每个属性所对应的分值;
将该些搜索词以及其对应的分类属性存储在该搜索词分类库中。
2.根据权利要求1所述的方法,其特征在于,该搜索词具有的每个属性所对应的分值等于A表示该属性,Ai表示该搜索词中与该属性对应的第i个词干的分值,n为第i个词干所具有的属性个数。
3.根据权利要求1所述的方法,其特征在于,该根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性的步骤包括:
根据搜索词分类库中确定的搜索词的分类属性确定被点击的网页的分类属性,该被点击的网页的分类属性包括该网页具有的一个或多个属性以及每个属性所对应的分值。
4.根据权利要求3所述的方法,其特征在于,该网页具有的每个属性所对应的分值等于其中,k表示某一属性,Wi为搜索词具有的该属性对应的分值,Clicki为搜索第i个具有k属性的搜索词时该网页被点击的点击次数。
5.根据权利要求3所述的方法,其特征在于,该根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性的步骤进一步包括:
将所得的网页的分类属性中每个属性对应的分值进行归一化;
对同一个网页的分类属性中的所有分值进行排序;
将分值最高的属性设定为该网页的分类属性中的默认属性,对应的分值设定为该网页的分类属性中的默认分值。
6.根据权利要求1所述的方法,其特征在于,该方法进一步包括:
根据使用同一搜索词时所点击的所有网页的分类属性以及该些网页被点击的次数获得该搜索词的分类属性或重新确定该搜索词的分类属性;
根据所获得的该些搜索词的分类属性补充该搜索词分类库或根据重新确定的该些搜索词的分类属性更新该搜索词分类库;
根据该经补充或更新后的搜索词分类库获得新增的搜索词所包括的词干的分类属性或重新确定的搜索词所包括的词干的分类属性;
根据所获得的该些词干的分类属性补充该搜索词词干分类库或根据重新确定的该些词干的分类属性更新该搜索词词干分类库;
返回所述记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数的步骤。
7.根据权利要求6所述的方法,其特征在于,重新确定的该搜索词的属性所对应的分值等于其中,k表示某一属性,Wi为网页具有的该属性对应的分值,urli为搜索该搜索词时点击k属性的网页的次数。
8.一种基于群体搜索行为的网页分类装置,其特征在于,包括:
词干分类库建立模块,用于建立搜索词词干分类库,该搜索词词干分类库中包括若干词干以及该若干词干分别对应的分类属性;
记录模块,用于记录群体搜索行为所使用的搜索词、使用该搜索词时被点击的网页、以及在使用每个搜索词时每个被点击的网页对应的被点击次数;
搜索词分类库建立模块,用于根据该搜索词词干分类库确定所记录的搜索词的分类属性并建立搜索词分类库,该搜索词分类库中包括所记录的搜索词以及该些搜索词分别对应的分类属性;
网页分类属性确定模块,用于根据该搜索词的分类属性以及使用该搜索词时每个被点击的网页对应的被点击次数确定被点击网页的分类属性;
其中,该每个词干对应的分类属性包括每个词干具有的一个或多个属性以及每个属性所对应的分值;
该搜索词分类库建立模块包括:
分词模块,用于将每个搜索词分成一个或多个词干;
搜索词分类属性确定模块,用于根据该搜索词词干分类库获得每个搜索词中的词干所对应的分类属性,并根据每个搜索词中的词干所对应的分类属性获得每个搜索词的分类属性,该搜索词的分类属性包括该搜索词具有的一个或多个属性以及每个属性所对应的分值;
存储模块,用于将该些搜索词以及其对应的分类属性存储在该搜索词分类库中。
9.根据权利要求8所述的装置,其特征在于,该搜索词具有的每个属性所对应的分值等于A表示该属性,Ai表示该搜索词中与该属性对应的第i个词干的分值,n为第i个词干所具有的属性个数。
10.根据权利要求8所述的装置,其特征在于,该网页分类属性确定模块包括:
属性确定模块,用于根据搜索词分类库中确定的搜索词的分类属性确定被点击的网页的分类属性,该被点击的网页的分类属性包括该网页具有的一个或多个属性以及每个属性所对应的分值。
11.根据权利要求10所述的装置,其特征在于,该网页具有的每个属性所对应的分值等于其中,k表示某一属性,Wi为搜索词具有的该属性对应的分值,Clicki为搜索第i个具有k属性的搜索词时该网页被点击的点击次数。
12.根据权利要求10所述的装置,其特征在于,该网页分类属性确定模块进一步包括:
归一化模块,用于将所得的网页的分类属性中每个属性对应的分值进行归一化;
排序模块,用于对同一个网页的分类属性中的所有分值进行排序;
设定模块,用于将分值最高的属性设定为该网页的分类属性中的默认属性,对应的分值设定为该网页的分类属性中的默认分值。
13.根据权利要求8所述的装置,其特征在于,该装置进一步包括:
搜索词分类属性重新确定模块,用于根据使用同一搜索词时所点击的所有网页的分类属性以及该些网页被点击的次数获得该搜索词的分类属性或重新确定该搜索词的分类属性;
搜索词补充更新模块,用于根据所获得的该些搜索词的分类属性补充该搜索词分类库或根据重新确定的该些搜索词的分类属性更新该搜索词分类库;
词干分类属性重新确定模块,用于根据该经补充或更新后的搜索词分类库获得新增的搜索词所包括的词干的分类属性或重新确定的搜索词所包括的词干的分类属性;
词干补充更新模块,用于根据所获得的该些词干的分类属性补充该搜索词词干分类库或根据重新确定的该些词干的分类属性更新该搜索词词干分类库。
14.根据权利要求13所述的装置,其特征在于,重新确定的该搜索词的属性所对应的分值等于其中,k表示某一属性,Wi为网页具有的该属性对应的分值,urli为搜索该搜索词时点击k属性的网页的次数。
CN201210355241.9A 2012-09-21 2012-09-21 基于群体搜索行为的网页分类方法及装置 Active CN103678400B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210355241.9A CN103678400B (zh) 2012-09-21 2012-09-21 基于群体搜索行为的网页分类方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210355241.9A CN103678400B (zh) 2012-09-21 2012-09-21 基于群体搜索行为的网页分类方法及装置

Publications (2)

Publication Number Publication Date
CN103678400A CN103678400A (zh) 2014-03-26
CN103678400B true CN103678400B (zh) 2017-12-01

Family

ID=50315981

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210355241.9A Active CN103678400B (zh) 2012-09-21 2012-09-21 基于群体搜索行为的网页分类方法及装置

Country Status (1)

Country Link
CN (1) CN103678400B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107733775A (zh) * 2016-08-12 2018-02-23 北京京东尚科信息技术有限公司 信息推送方法和装置
CN107357925A (zh) * 2017-07-26 2017-11-17 深圳中泓在线股份有限公司 微博微信中人名分类方法

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101038596A (zh) * 2007-04-29 2007-09-19 北京搜狗科技发展有限公司 一种网站分类方法及系统
CN101178714A (zh) * 2006-12-20 2008-05-14 腾讯科技(深圳)有限公司 一种网页分类方法及装置
CN101246502A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 一种在网络上搜索图片的方法及系统

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7788264B2 (en) * 2006-11-29 2010-08-31 Nec Laboratories America, Inc. Systems and methods for classifying content using matrix factorization

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101178714A (zh) * 2006-12-20 2008-05-14 腾讯科技(深圳)有限公司 一种网页分类方法及装置
CN101038596A (zh) * 2007-04-29 2007-09-19 北京搜狗科技发展有限公司 一种网站分类方法及系统
CN101246502A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 一种在网络上搜索图片的方法及系统

Also Published As

Publication number Publication date
CN103678400A (zh) 2014-03-26

Similar Documents

Publication Publication Date Title
US10140368B2 (en) Method and apparatus for generating a recommendation page
US9767182B1 (en) Classification of search queries
US9152674B2 (en) Performing application searches
US8996520B2 (en) Ranking of native application content
US8548981B1 (en) Providing relevance- and diversity-influenced advertisements including filtering
CN103020295B (zh) 一种问题标签标注方法及装置
US10296535B2 (en) Method and system to randomize image matching to find best images to be matched with content items
CN104424302B (zh) 一种同类数据对象的匹配方法和装置
US20170185653A1 (en) Predicting Knowledge Types In A Search Query Using Word Co-Occurrence And Semi/Unstructured Free Text
US11789946B2 (en) Answer facts from structured content
US20120158738A1 (en) Inference Indexing
US20110208715A1 (en) Automatically mining intents of a group of queries
CN102314456A (zh) 网页划词搜索方法及系统
US10127322B2 (en) Efficient retrieval of fresh internet content
CN102004772A (zh) 一种用于根据检索词进行搜索结果排序的方法及设备
US9251202B1 (en) Corpus specific queries for corpora from search query
CN103713894A (zh) 一种用于确定用户的访问需求信息的方法与设备
CN107491465A (zh) 用于搜索内容的方法和装置以及数据处理系统
CN104503988A (zh) 搜索方法及装置
Moya et al. Integrating web feed opinions into a corporate data warehouse
US9811592B1 (en) Query modification based on textual resource context
CN103020141A (zh) 一种用于提供搜索结果的方法和设备
US11308154B2 (en) Method and system for dynamically overlay content provider information on images matched with content items in response to search queries
CN103377225A (zh) 知识库系统的构建方法和设备
CN106462588B (zh) 来自所提取的内容的内容创建

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant