CN101620625B - 一种搜索关键词排序方法、装置和搜索引擎 - Google Patents

一种搜索关键词排序方法、装置和搜索引擎 Download PDF

Info

Publication number
CN101620625B
CN101620625B CN2009101091878A CN200910109187A CN101620625B CN 101620625 B CN101620625 B CN 101620625B CN 2009101091878 A CN2009101091878 A CN 2009101091878A CN 200910109187 A CN200910109187 A CN 200910109187A CN 101620625 B CN101620625 B CN 101620625B
Authority
CN
China
Prior art keywords
key word
searching key
attribute
user
property
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN2009101091878A
Other languages
English (en)
Other versions
CN101620625A (zh
Inventor
赵世勇
翟牮
陆伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN2009101091878A priority Critical patent/CN101620625B/zh
Publication of CN101620625A publication Critical patent/CN101620625A/zh
Application granted granted Critical
Publication of CN101620625B publication Critical patent/CN101620625B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Abstract

本发明适用于数据挖掘领域,提供了一种搜索关键词排序方法、装置和搜索引擎,所述方法包括下述步骤:采集用户的搜索日志信息和属性信息,所述搜索日志信息包括用户标识和搜索关键词,所述属性信息包括用户标识和用户属性;根据用户的搜索日志信息和属性信息建立用户属性与搜索关键词之间的对应关系;根据用户属性与搜索关键词的对应关系,采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值;根据搜索关键词的属性加权值对搜索关键词进行排序。本发明实施例可以准确、快速的挖掘出既具有较高搜索热度,又能代表各种用户群体搜索习惯的数据信息,从而获取能真实反映网络用户搜索习惯的信息,为进一步了解并满足用户需求提供数据支持。

Description

一种搜索关键词排序方法、装置和搜索引擎
技术领域
本发明属于数据挖掘领域,尤其涉及一种搜索关键词排序方法、装置和搜索引擎。
背景技术
现有的大部分搜索引擎均提供了根据用户的搜索操作对搜索关键词按搜索频率排序并输出的方法,现有的搜索关键词排序方法一般通过对搜索关键词进行领域分类,并按照领域分类,对搜索关键词按照搜索频率排序并输出,这种搜索关键词排序方法展现了在特定时间段内和指定分类下网络用户搜索热度比较高的搜索关键词,但是这种搜索关键词排序方法由于缺少了网络用户的个人属性信息,如用户的年龄、性别、地区、职业等,从而无法真正意义上从网络用户出发挖掘出反映用户搜索习惯的数据信息,难以达到通过对搜索关键词进行排序,来挖掘重要数据信息的要求。
发明内容
本发明实施例的目的在于提供一种搜索关键词排序方法,旨在解决现有的搜索关键词排序方法难以挖掘出真实反映用户搜索习惯的数据的问题。
本发明实施例是这样实现的,一种搜索关键词排序方法,所述方法包括下述步骤:
采集用户的搜索日志信息和属性信息,所述搜索日志信息包括用户标识和搜索关键词,所述属性信息包括用户标识和用户属性;
根据用户的搜索日志信息和属性信息建立用户属性与搜索关键词之间的对应关系;
根据建立的用户属性与搜索关键词的对应关系,获取搜索关键词的热度值和搜索关键词的属性特征值,根据搜索关键词的热度值和搜索关键词的属性特征值采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值;或者,根据用户属性与搜索关键词的对应关系,获取搜索关键词的热度值和搜索关键词的属性值特征值,根据搜索关键词的热度值和搜索关键词的属性值特征值采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值,所述热度值是指搜索关键词被搜索的频率,所述属性值特征值是指在某个维度的用户属性中,该搜索关键词被具有该维度用户属性中的某个属性值的用户搜索的次数相对于被具有该维度用户属性中的其他属性值的用户搜索的次数的区别度;
根据搜索关键词的属性加权值对搜索关键词进行排序。
本发明实施例的另一目的在于提供一种搜索关键词排序装置,所述装置包括:
信息采集单元,用于采集用户的搜索日志信息和属性信息,所述搜索日志信息包括用户标识和搜索关键词,所述属性信息包括用户标识和用户属性;
数据挖掘单元,用于根据所述信息采集单元采集的搜索日志信息和属性信息建立用户属性与搜索关键词之间的对应关系;
属性加权值计算单元,用于根据建立的所述数据挖掘单元得到的用户属性与搜索关键词的对应关系,获取搜索关键词的热度值和搜索关键词的属性特征值,根据搜索关键词的热度值和搜索关键词的属性特征值采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值;或者,根据用户属性与搜索关键词的对应关系,获取搜索关键词的热度值和搜索关键词的属性值特征值,根据搜索关键词的热度值和搜索关键词的属性值特征值采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值,所述热度值是指搜索关键词被搜索的频率,所述属性值特征值是指在某个维度的用户属性中,该搜索关键词被具有该维度用户属性中的某个属性值的用户搜索的次数相对于被具有该维度用户属性中的其他属性值的用户搜索的次数的区别度;
搜索关键词排序单元,用于根据所述属性加权值计算单元得到的搜索关键词的属性加权值对搜索关键词进行排序。
本发明实施例的另一目的在于提供一种搜索引擎装置,所述搜索引擎装置包括所述搜索关键词排序装置。
在本发明实施例中,根据用户的搜索日志信息和用户的属性信息建立用户属性与搜索关键词的对应关系,根据用户属性与搜索关键词的对应关系,采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值,根据搜索关键词的属性加权值对搜索关键词进行排序并输出,从而可以准确、快速地挖掘出既具有较高搜索热度,又能代表各种不同用户群体搜索习惯的数据信息,从而获取能真实反映网络用户搜索习惯的信息,为进一步了解并满足用户需求提供数据支持。
附图说明
图1是本发明实施例提供的搜索关键词排序方法的实现流程图;
图2是本发明实施例提供的对搜索关键词排序后的效果示意图;
图3是本发明实施例提供的搜索关键词装置的结构框图;
图4是本发明另一实施例提供的搜索关键词装置的结构框图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
在本发明实施例中,采集用户的搜索日志信息和用户的属性信息,其中搜索日志信息包括用户标识和搜索关键词,属性信息包括用户标识和用户属性,根据用户的搜索日志信息和用户的属性信息建立用户属性与搜索关键词的对应关系,根据用户属性与搜索关键词的对应关系,采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值,根据搜索关键词的属性加权值对搜索关键词进行排序并输出,从而可以准确、快速的挖掘出既具有较高搜索热度,又能代表各种用户群体搜索习惯的数据信息。
图1示出了本发明实施例提供的搜索关键词排序方法的实现流程,详述如下:
在步骤S101中,采集用户的搜索日志信息和属性信息。其中搜索日志信息包括用户标识和搜索关键词。属性信息包括用户标识和用户属性。
在本发明实施例中,用户属性包括但不限于性别、年龄、地区、职业、星座、生肖、血型中的一个或者多个维度。还可以根据用户的需要为用户属性设置其他维度。其中每个维度的用户属性包括一个或者多个属性值,如性别包括男性和女性两个属性值,年龄包括但不限于七十年代(70s)、八十年代(80s)和九十年代(90s)三个属性值,地区包括但不限于根据预设的划分标准得到的地区。其中根据预设的划分标准得到的地区可以为根据一个国家的省份划分得到的不同地区,如广东、广西等34个地区中的一个或者多个,也可以根据地球中的国家划分得到的不同地区,如中国、美国、印度等。当然,根据上述原理,用户可以根据需要自行设置其他维度的用户属性或者每个维度用户属性的属性值,在此不再赘述。
在本发明实施例的下文中,均以用户属性包括性别、年龄和地区三个维度,其中性别包括男性和女性两种属性值,年龄包括70s、80s和90s三种属性值,地区包括按照中国的省份划分得到的广东、广西、香港等34个地区为例,对本发明实施例进行说明。
在本发明实施例中,在采集用户的搜索日志信息时,可以采集用户在预设时间段内的搜索日志信息,如采集用户在最近一个月内的搜索日志信息。
在步骤S102中,根据用户的搜索日志信息和属性信息建立用户属性与搜索关键词之间的对应关系。
在本发明实施例中,根据用户的搜索日志信息和属性信息建立用户属性与搜索关键词的对应关系的具体步骤可以如下:
A、以用户标识为主键值创建用户属性表,用于存储用户的属性信息。该用户属性表包括用户标识和用户属性,其中用户属性包括但不限于性别属性、年龄属性和地区属性三个字段。如表1.1为本发明实施例提供的用户属性表的其中一个示例。
表1.1
Figure GSB00000820411700051
B、从采集的搜索日志信息中读取搜索关键词,并提取每条搜索关键词的用户标识,根据每条搜索关键词的用户标识,将每条搜索关键词增加至用户属性表中,生成标识-属性-词串表。该标识-属性-词串表包括用户标识、用户属性和搜索关键词三个字段,其中用户属性包括但不限于性别属性、年龄属性和地区属性三个字段。
举例说明如下:假设搜索日志信息如表1.2所示,则从采集的搜索日志信息中读取的搜索关键词的用户标识,根据每条搜索关键词的用户标识,将每条搜索关键词增加至用户属性表之后,生成的标识-属性-词串表如表1.3所示。
表1.2
  用户标识   搜索关键词
  1   租房网
  2   公务员
  3   公交查询
表1.3
  用户标识   用户属性   搜索关键词
  性别   年龄   地区
  1   女   70s   广东   租房网
  2   男   70s   广东   公务员
  3   女   80s   广西   公交查询
C、创建属性-词串表,该属性-词串表用于存储用户属性与搜索关键词之间的对应关系。该属性-词串表包括用户属性和搜索关键词,其中用户属性包括但不限于性别属性、年龄属性和地区属性,性别属性包括男性和女性两个属性值,年龄属性包括但不限于70s、80s和90s三个属性值,地区包括但不限于广东、广西等34个地区等属性值。表1.4是本发明实施例提供的未包括搜索关键词时的属性-词串表的一个示例,但不以该示例为限。
表1.4
D、从标识-属性-词串表中读取搜索关键词,并根据该搜索关键词对应的用户属性将该搜索关键词添加至属性-词串表中。
举例说明如下:假设标识-属性-词串表如表1.3所示,未添加搜索关键词的属性-词串表如表1.4所示,则根据该搜索关键词对应的用户属性将该搜索关键词添加至属性-词串表中后,属性-词串表如表1.5所示:
表1.5
在本发明另一实施例中,根据用户的搜索日志信息和属性信息建立用户属性与搜索关键词的对应关系的具体步骤还可以如下:
A、以用户标识为主键值创建搜索日志信息表,该搜索日志信息表用于存储搜索日志信息。该搜索日志信息包括但不限于用户标识和搜索关键词。如表1.6为本发明实施例提供的搜索日志信息表的一个示例。
表1.6
  用户标识   搜索关键词
  1   租房网
  2   公交查询
  3   公务员
B、从采集的属性信息中读取用户属性,并提取每条用户属性的用户标识。根据每条用户属性的用户标识,将每条用户属性增加至搜索日志信息表中,生成标识-词串-属性表。
举例说明如下:假设从采集的属性信息中读取的用户属性如表1.7所示,则根据每条用户属性的用户标识,将每条用户属性增加至搜索日志信息表的对应记录之后,生成的标识-词串-属性表如表1.8所示。
表1.7
Figure GSB00000820411700081
表1.8
C、创建属性-词串表,用于存储用户属性与搜索关键词之间的对应关系。表1.4是本发明实施例提供的未包括搜索关键词时的属性-词串表的一个示例,但不以该示例为限。
D、从标识-词串-属性表中读取搜索关键词,并根据该搜索关键词对应的用户属性将该搜索关键词添加至属性-词串表中。
举例说明如下:假设标识-词串-属性表如表1.8所示,未添加搜索关键词的属性-词串表如表1.4所示,则根据该搜索关键词对应的用户属性将该搜索关键词添加至属性-词串表中后,属性-词串表如表1.9所示:
表1.9
Figure GSB00000820411700083
在步骤S103中,根据用户属性与搜索关键词的对应关系,采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值。其具体过程如下:
A、根据用户属性与搜索关键词的对应关系获取搜索关键词的热度值和搜索关键词的属性特征值。
其中搜索关键词的属性特征值是指该搜索关键词被具有某用户属性(如男性)的用户搜索的次数相对于被具有其他用户属性(如女性以及其他用户属性)的用户搜索的次数的区别度。
搜索关键词的热度值是指搜索关键词被搜索的频率。
B、根据搜索关键词的热度值和搜索关键词的属性特征值,采用预设的搜索关键词加权公式计算搜索关键词的属性加权值。
其中预设的搜索关键词加权公式为:S*(T^3),其中S为搜索关键词的搜索热度值,T为搜索关键词的属性特征值。
在本发明另一实施例中,当用户属性包括多个维度的用户属性,如用户属性包括性别、年龄、地区、职业、星座、生肖、血型中的多个维度,每个维度用户属性包括一个或多个属性值时,则根据用户属性与搜索关键词的对应关系,采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值的具体过程如下:
A、根据用户属性与搜索关键词的对应关系获取搜索关键词的热度值和搜索关键词的属性值特征值。
其中搜索关键词的属性值特征值是指在某个维度(如性别)的用户属性中,该搜索关键词被具有该维度用户属性中的某个属性值(如男性)的用户搜索的次数相对于被具有该维度用户属性中的其他属性值(如女性)的用户搜索的次数的区别度。举例说明如下:假设搜索关键词“NBA”一共被100个用户搜索过,其中被男性用户搜索的次数为95,为被女性用户搜索的次数为5,则该搜索关键词“NBA”在男性属性值时的特征值为95,或者为95%,在女性属性值时的特征值为5,或者为5%。再举例说明如下:假设搜索关键词“NBA”一共被100个用户搜索过,其中被70s的用户搜索的次数为50,被80s的用户搜索的次数为5,被90s的用户搜索的次数为45,则该搜索关键词“NBA”在70s属性值时的特征值为50,或者为50%,在80s属性值时的特征值为5,或者为5%,在90s属性值时的特征值为45,或者为45%。
搜索关键词的热度值是指搜索关键词被搜索的频率。举例说明如下:假设搜索关键词“NBA”一共被100个用户搜索过,则该搜索关键词“NBA”的搜索频率为100。
B、根据搜索关键词的热度值和搜索关键词的属性值特征值,采用预设的搜索关键词加权公式计算搜索关键词的属性加权值。
其中预设的搜索关键词加权公式为:S*(R^3),其中S为搜索关键词的热度值,R为搜索关键词的属性值特征值。
在步骤S104中,根据搜索关键词的属性加权值对搜索关键词进行排序并输出。其具体过程如下:按照用户属性或者每个维度的用户属性的属性值,根据搜索关键词的属性加权值对搜索关键词进行排序并输出。
其中对搜索关键词进行排序时,可以按照升序、降序或者其他排列顺序对搜索关键词进行排序。请参阅图2,为本发明实施例提供的按照每个维度的用户属性的属性值,根据搜索关键词的属性加权值对搜索关键词进行排序后的结果示意图。其中在用户属性的维度为性别时,包括按照属性值为男性的搜索关键词的排序,属性值为女性的搜索关键词的排序;在用户属性的维度为年龄时,包括按照属性值为70s的搜索关键词的排序,属性值为80s年代的搜索关键词的排序,属性值为90s年代的搜索关键词的排序。
为了为用户提供数据支持,进一步了解并满足用户的需求,在本发明另一实施例中,在步骤S103之后,该方法还包括下述步骤:
在步骤S105中,根据搜索关键词的属性加权值为用户推送对应的业务。其具体过程属于现有技术,在此不再赘述。
图3示出了本发明实施例提供的搜索关键词排序装置的结构,为了便于说明,仅示出了与本发明实施例相关的部分。该搜索关键词排序装置可以是内置于搜索引擎中的软件单元、硬件单元或者软硬件相结合的单元,或者作为独立的挂件集成到搜索引擎或者搜索引擎的应用系统中。其中:
信息采集单元1采集用户的搜索日志信息和属性信息。其中搜索日志信息包括用户标识和搜索关键词。属性信息包括用户标识和用户属性。
在本发明实施例中,用户属性包括但不限于性别、年龄、地区、职业、星座、生肖、血型中的一个或者多个维度。还可以根据用户的需要为用户属性设置其他维度。其中每个维度的用户属性包括一个或者多个属性值,如性别属性包括男性和女性两个属性值,年龄属性包括但不限于七十年代(70s)、八十年代(80s)和九十年代(90s)三个属性值,地区属性包括但不限于根据预设的划分标准得到的地区。其中根据预设的划分标准得到的地区可以为根据一个国家的省份划分得到的不同地区,如广东、广西等34个地区中的一个或者多个,也可以根据地球中的国家划分得到的不同地区,如中国、美国、印度等。当然,根据上述原理,用户可以根据需要自行设置其他维度的用户属性或者每个维度用户属性的属性值,在此不再赘述。
在本发明实施例中,在采集用户的搜索日志信息时,可以采集用户在预设时间段内的搜索日志信息,如采集用户在最近一个月内的搜索日志信息。
在本发明另一实施例中,该装置还包括日志信息服务器和属性信息服务器,其中日志信息服务器为在线服务器,用于存储用户的搜索日志信息,或者用户在预设时间段内的搜索日志信息。属性信息服务器可以为在线或者离线服务器,用于存储用户的属性信息。在本发明实施例中,日志信息服务器和属性信息服务器可以是同一物理服务器,或者相互独立的物理服务器。
数据挖掘单元2根据信息采集单元1采集的搜索日志信息和属性信息建立用户属性与搜索关键词之间的对应关系。该数据挖掘单元2包括用户属性表创建模块21、标识-属性-词串表生成模块22、属性-词串表创建模块23和属性-词串表填充模块24。其中:
用户属性表创建模块21以用户标识为主键值创建用户属性表,用于存储用户的属性信息。该用户属性表包括用户标识和用户属性,其中用户属性包括但不限于性别属性、年龄属性和地区属性三个字段。如表1.1为本发明实施例提供的用户属性表的其中一个示例。
标识-属性-词串表生成模块22从采集的搜索日志信息中读取搜索关键词,并提取每条搜索关键词的用户标识,根据每条搜索关键词的用户标识,将每条搜索关键词增加至用户属性表中,生成标识-属性-词串表。该标识-属性-词串表包括用户标识、用户属性和搜索关键词三个字段,其中用户属性包括但不限于性别属性、年龄属性和地区属性三个字段。
属性-词串表创建模块23创建属性-词串表,该属性-词串表用于存储用户属性与搜索关键词之间的对应关系。该属性-词串表包括用户属性和搜索关键词,其中用户属性包括但不限于性别属性、年龄属性和地区属性,性别属性包括男性和女性两个属性值,年龄属性包括但不限于70s、80s和90s三个属性值,地区包括但不限于广东、广西等34个地区等属性值。表1.4是本发明实施例提供的未包括搜索关键词时的属性-词串表的一个示例,但不以该示例为限。
属性-词串表填充模块24从标识-属性-词串表中读取搜索关键词,并根据该搜索关键词对应的用户属性将该搜索关键词添加至属性-词串表中。
举例说明如下:假设标识-属性-词串表如表1.3所示,未添加搜索关键词的属性-词串表如表1.4所示,则根据该搜索关键词对应的用户属性将该搜索关键词添加至属性-词串表中后,属性-词串表如表1.5所示:
属性加权值计算单元3根据用户属性与搜索关键词的对应关系,采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值。该属性加权值计算单元3包括热度值获取模块31、特征值获取模块32和加权值计算模块33。其中:
热度值获取模块31根据用户属性与搜索关键词的对应关系获取搜索关键词的热度值。其中搜索关键词的热度值是指搜索关键词被搜索的频率。举例说明如下:假设搜索关键词“NBA”一共被100个用户搜索过,则该搜索关键词“NBA”的搜索频率为100。
特征值获取模块32根据用户属性与搜索关键词的对应关系获取搜索关键词的属性特征值或者属性值特征值。
其中搜索关键词的属性特征值是指该搜索关键词被具有某用户属性(如男性)的用户搜索的次数相对于被具有其他用户属性(如女性以及其他用户属性)的用户搜索的次数的区别度。搜索关键词的属性值特征值是指在某个维度(如性别)的用户属性中,该搜索关键词被具有该维度(性别)用户属性中的某个属性值(如男性)的用户搜索的次数相对于被具有该维度(性别)用户属性中的其他属性值(如女性)的用户搜索的次数的区别度。。
加权值计算模块33根据搜索关键词的热度值和搜索关键词的属性特征值或者搜索关键词的属性值特征值,采用预设的搜索关键词加权公式计算搜索关键词的属性加权值。
其中预设的搜索关键词加权公式为:S*(T^3),其中S为搜索关键词的热度值,T为搜索关键词的属性特征值。
搜索关键词排序单元4根据搜索关键词的属性加权值对搜索关键词进行排序并输出。其具体过程如下:按照用户属性或者每个维度的用户属性的属性值,根据搜索关键词的属性加权值对搜索关键词进行排序并输出。
其中对搜索关键词进行排序时,可以按照升序、降序或者其他排列顺序对搜索关键词进行排序。请参阅图2,为本发明实施例提供的按照不同维度用户属性的属性值,根据搜索关键词的属性加权值对搜索关键词进行排序后的结果示意图。
为了为用户提供数据支持,进一步了解并满足用户的需求,在本发明另一实施例中,该装置还包括业务推送单元5。该业务推送单元5根据排序后的搜索关键词为用户推送对应的业务。其具体过程属于现有技术,在此不再赘述。
图4示出了本发明另一实施例提供的搜索关键词排序装置的结构,其与图3所示的搜索关键词排序装置的区别仅在于数据挖掘单元2。在本发明实施例中,该数据挖掘单元2包括日志信息表创建模块25、标识-词串-属性表生成模块26、属性-词串表创建模块23和属性-词串表填充模块24。其中:
日志信息表创建模块25以用户标识为主键值创建搜索日志信息表,用于存储搜索日志信息。该搜索日志信息包括但不限于用户标识和搜索关键词。如表1.6为本发明实施例提供的搜索日志信息表的一个示例。
标识-词串-属性表生成模块26从采集的属性信息中读取用户属性,并提取每条用户属性的用户标识。根据每条用户属性的用户标识,将每条用户属性增加至搜索日志信息表中,生成标识-词串-属性表。
举例说明如下:假设从采集的属性信息中读取的用户属性如表1.7所示,则根据每条用户属性的用户标识,将每条用户属性增加至搜索日志信息表的对应记录之后,生成的标识-词串-属性表如表1.8所示。
属性-词串表创建模块23创建属性-词串表,该属性-词串表用于存储用户属性与搜索关键词之间的对应关系。表1.4是本发明实施例提供的未包括搜索关键词时的属性-词串表的一个示例,但不以该示例为限。
属性-词串表填充模块24从标识-词串-属性表中读取搜索关键词,并根据该搜索关键词对应的用户属性将该搜索关键词添加至属性-词串表中。
举例说明如下:假设标识-词串-属性表如表1.8所示,未添加搜索关键词的属性-词串表如表1.4所示,则根据该搜索关键词对应的用户属性将该搜索关键词添加至属性-词串表中后,属性-词串表如表1.9所示:
在本发明实施例中,根据用户的搜索日志信息和用户的属性信息建立用户属性与搜索关键词的对应关系,根据用户属性与搜索关键词的对应关系,采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值,根据搜索关键词的属性加权值对搜索关键词进行排序并输出,从而可以准确、快速的挖掘出既具有较高搜索热度,又能代表各种用户群体搜索习惯的数据信息,从而获取能真实反映网络用户搜索习惯的信息,为进一步了解并满足用户需求提供数据支持。通过采集用户的多个维度的用户属性,从而全面的挖掘出可以反映不同用户群体搜索习惯的数据信息。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。

Claims (8)

1.一种搜索关键词排序方法,其特征在于,所述方法包括下述步骤:
采集用户的搜索日志信息和属性信息,所述搜索日志信息包括用户标识和搜索关键词,所述属性信息包括用户标识和用户属性;
根据用户的搜索日志信息和属性信息建立用户属性与搜索关键词之间的对应关系;
根据建立的用户属性与搜索关键词的对应关系,获取搜索关键词的热度值和搜索关键词的属性特征值,根据搜索关键词的热度值和搜索关键词的属性特征值采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值;或者,根据用户属性与搜索关键词的对应关系,获取搜索关键词的热度值和搜索关键词的属性值特征值,根据搜索关键词的热度值和搜索关键词的属性值特征值采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值,所述热度值是指搜索关键词被搜索的频率,所述属性值特征值是指在某个维度的用户属性中,该搜索关键词被具有该维度用户属性中的某个属性值的用户搜索的次数相对于被具有该维度用户属性中的其他属性值的用户搜索的次数的区别度;
根据搜索关键词的属性加权值对搜索关键词进行排序。
2.如权利要求1所述的方法,其特征在于,所述根据用户的搜索日志信息和属性信息建立用户属性与搜索关键词之间的对应关系的步骤具体为:
以用户标识为主键值创建用户属性表,所述用户属性表用于存储用户的属性信息;
从采集的搜索日志信息中读取搜索关键词,并提取每条搜索关键词的用户标识,根据每条搜索关键词的用户标识,将每条搜索关键词增加至用户属性表中,生成标识-属性-词串表;
创建属性-词串表,所述属性-词串表用于存储用户属性与搜索关键词之间的对应关系;
从所述标识-属性-词串表中读取搜索关键词,并根据搜索关键词对应的用 户属性将搜索关键词添加至属性-词串表中。
3.如权利要求1所述的方法,其特征在于,所述根据用户的搜索日志信息和属性信息建立用户属性与搜索关键词之间的对应关系的步骤具体为:
以用户标识为主键值创建搜索日志信息表,所述搜索日志信息表用于存储搜索日志信息;
从采集的属性信息中读取用户属性,并提取每条用户属性的用户标识。根据每条用户属性的用户标识,将每条用户属性增加至搜索日志信息表中,生成标识-词串-属性表;
创建属性-词串表,所述属性-词串表用于存储用户属性与搜索关键词之间的对应关系;
从所述标识-词串-属性表中读取搜索关键词,并根据搜索关键词对应的用户属性将搜索关键词添加至属性-词串表中。
4.如权利要求1所述的方法,其特征在于,所述预设的搜索关键词加权公式为:S*(T^3),其中S为搜索关键词的热度值,T为搜索关键词的属性特征值或属性值特征值。
5.如权利要求1至4任一权利要求所述的方法,其特征在于,在所述根据用户属性与搜索关键词的对应关系,采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值的步骤之后,所述方法还包括下述步骤:
根据搜索关键词的属性加权值为用户推送对应的业务。
6.一种搜索关键词排序装置,其特征在于,所述装置包括:
信息采集单元,用于采集用户的搜索日志信息和属性信息,所述搜索日志信息包括用户标识和搜索关键词,所述属性信息包括用户标识和用户属性;
数据挖掘单元,用于根据所述信息采集单元采集的搜索日志信息和属性信息建立用户属性与搜索关键词之间的对应关系;
属性加权值计算单元,用于根据建立的所述数据挖掘单元得到的用户属性与搜索关键词的对应关系,获取搜索关键词的热度值和搜索关键词的属性特征 值,根据搜索关键词的热度值和搜索关键词的属性特征值采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值;或者,根据用户属性与搜索关键词的对应关系,获取搜索关键词的热度值和搜索关键词的属性值特征值,根据搜索关键词的热度值和搜索关键词的属性值特征值采用预设的搜索关键词加权公式计算每个搜索关键词的属性加权值,所述热度值是指搜索关键词被搜索的频率,所述属性值特征值是指在某个维度的用户属性中,该搜索关键词被具有该维度用户属性中的某个属性值的用户搜索的次数相对于被具有该维度用户属性中的其他属性值的用户搜索的次数的区别度;
搜索关键词排序单元,用于根据所述属性加权值计算单元得到的搜索关键词的属性加权值对搜索关键词进行排序。
7.如权利要求6所述的装置,其特征在于,所述预设的搜索关键词加权公式为S*(T^3),其中S为搜索关键词的热度值,T为搜索关键词的属性特征值或者属性值特征值。
8.一种搜索引擎装置,其特征在于,所述搜索引擎装置包括所述权利要求6或7所述的搜索关键词排序装置。 
CN2009101091878A 2009-07-30 2009-07-30 一种搜索关键词排序方法、装置和搜索引擎 Active CN101620625B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN2009101091878A CN101620625B (zh) 2009-07-30 2009-07-30 一种搜索关键词排序方法、装置和搜索引擎

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN2009101091878A CN101620625B (zh) 2009-07-30 2009-07-30 一种搜索关键词排序方法、装置和搜索引擎

Publications (2)

Publication Number Publication Date
CN101620625A CN101620625A (zh) 2010-01-06
CN101620625B true CN101620625B (zh) 2012-10-31

Family

ID=41513864

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2009101091878A Active CN101620625B (zh) 2009-07-30 2009-07-30 一种搜索关键词排序方法、装置和搜索引擎

Country Status (1)

Country Link
CN (1) CN101620625B (zh)

Families Citing this family (26)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8375022B2 (en) 2010-11-02 2013-02-12 Hewlett-Packard Development Company, L.P. Keyword determination based on a weight of meaningfulness
CN102591876A (zh) * 2011-01-14 2012-07-18 阿里巴巴集团控股有限公司 搜索结果排序方法及装置
CN102214207A (zh) * 2011-04-27 2011-10-12 百度在线网络技术(北京)有限公司 一种用于对信息实体中的属性集合进行排序的方法与设备
CN103198072B (zh) * 2012-01-06 2018-11-13 深圳市世纪光速信息技术有限公司 一种流行检索词的挖掘、推荐方法及装置
CN103309894B (zh) * 2012-03-15 2016-04-27 阿里巴巴集团控股有限公司 基于用户属性的搜索实现方法及系统
CN103324631B (zh) * 2012-03-22 2018-05-29 深圳市世纪光速信息技术有限公司 提供数据搜索的方法及装置
US10380554B2 (en) 2012-06-20 2019-08-13 Hewlett-Packard Development Company, L.P. Extracting data from email attachments
CN102882936B (zh) * 2012-09-06 2015-11-25 百度在线网络技术(北京)有限公司 云推送的方法、系统和装置
CN104239521B (zh) * 2014-09-17 2017-11-14 北京国双科技有限公司 下线关键词的推送方法和装置
CN104199982B (zh) * 2014-09-25 2017-09-26 北京金山安全软件有限公司 一种对搜索关键词进行显示的方法及装置
CN104361046A (zh) * 2014-10-29 2015-02-18 中英融贯资讯(武汉)有限公司 用于药品采购的搜索方法及系统
CN104572889B (zh) * 2014-12-24 2016-10-05 深圳市腾讯计算机系统有限公司 一种搜索词推荐方法、装置和系统
CN104598607B (zh) * 2015-01-29 2018-10-30 百度在线网络技术(北京)有限公司 推荐搜索短语的方法及系统
CN104750873A (zh) * 2015-04-22 2015-07-01 百度在线网络技术(北京)有限公司 流行搜索词推送方法和装置
JP6802623B2 (ja) * 2015-06-30 2020-12-16 株式会社インタラクティブソリューションズ 検索情報管理装置、検索情報管理方法及び検索情報管理プログラム
CN106708817B (zh) * 2015-07-17 2020-11-06 腾讯科技(深圳)有限公司 信息搜索方法及装置
CN105045883B (zh) * 2015-07-21 2020-12-25 惠州Tcl移动通信有限公司 一种移动终端及其搜索方法
CN106933829B (zh) * 2015-12-29 2020-08-04 阿里巴巴集团控股有限公司 一种信息关联方法和设备
CN105718571A (zh) * 2016-01-20 2016-06-29 百度在线网络技术(北京)有限公司 信息推送方法和装置
CN107341268B (zh) * 2017-07-25 2020-06-05 北京奇艺世纪科技有限公司 一种热搜榜排序方法及系统
CN107423444B (zh) * 2017-08-10 2020-05-19 世纪龙信息网络有限责任公司 热词词组提取方法和系统
CN108052568B (zh) * 2017-12-07 2020-11-10 百度在线网络技术(北京)有限公司 一种特征筛选方法、装置、终端和介质
CN109101606B (zh) * 2018-08-02 2022-01-11 深圳市赛亚创想科技有限公司 用于行业情报的数据处理方法以及装置、服务器
CN111078998B (zh) * 2019-11-19 2024-03-12 Oppo(重庆)智能科技有限公司 信息检索方法、装置、存储介质及服务器
JP7228167B2 (ja) * 2020-11-27 2023-02-24 株式会社インタラクティブソリューションズ 検索情報管理装置、検索情報管理方法及び検索情報管理プログラム
CN112446214B (zh) * 2020-12-09 2024-02-02 北京有竹居网络技术有限公司 广告关键词的生成方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030206A (zh) * 2006-03-02 2007-09-05 吴风勇 搜索引擎关键字关联的发现和生成方法
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101030206A (zh) * 2006-03-02 2007-09-05 吴风勇 搜索引擎关键字关联的发现和生成方法
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统

Also Published As

Publication number Publication date
CN101620625A (zh) 2010-01-06

Similar Documents

Publication Publication Date Title
CN101620625B (zh) 一种搜索关键词排序方法、装置和搜索引擎
CN101593200B (zh) 基于关键词频度分析的中文网页分类方法
CN105740401B (zh) 一种基于个体行为和群体兴趣的兴趣地点推荐方法及装置
CN105005594B (zh) 异常微博用户识别方法
CN106339383B (zh) 一种搜索排序方法及系统
CN101299217B (zh) 一种地图信息处理的方法、装置和系统
CN103186612B (zh) 一种词汇分类的方法、系统和实现方法
CN103886048B (zh) 一种基于聚类的增量数字图书推荐方法
CN110674318A (zh) 一种基于引文网络社区发现的数据推荐方法
CN103745000A (zh) 一种中文微博客的热点话题检测方法
CN102591942A (zh) 一种应用自动推荐的方法及装置
CN101576903B (zh) 一种文档相似度衡量方法
CN101814083A (zh) 网页自动分类方法和系统
CN102456058A (zh) 类目信息提供方法及装置
Hauff et al. Placing images on the world map: a microblog-based enrichment approach
CN102955849A (zh) 基于标签推荐文档的方法及文档推荐装置
CN108628811A (zh) 地址文本的匹配方法和装置
CN102163214A (zh) 一种数字地图生成装置及方法
CN105719191A (zh) 多尺度空间下不确定行为语义的社交群体发现系统及方法
CN103580939A (zh) 一种基于账号属性的异常消息检测方法及设备
CN102737123B (zh) 一种多维数据分布方法
CN102737027B (zh) 个性化搜索方法及系统
CN103294692A (zh) 一种信息推荐方法及系统
CN101685456A (zh) 一种搜索的方法、系统和装置
CN102880721A (zh) 垂直搜索引擎的实现方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131031

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TR01 Transfer of patent right

Effective date of registration: 20131031

Address after: A Tencent Building in Shenzhen Nanshan District City, Guangdong streets in Guangdong province science and technology 518057 16

Patentee after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Patentee before: Tencent Technology (Shenzhen) Co., Ltd.