CN103324631B - 提供数据搜索的方法及装置 - Google Patents

提供数据搜索的方法及装置 Download PDF

Info

Publication number
CN103324631B
CN103324631B CN201210077802.3A CN201210077802A CN103324631B CN 103324631 B CN103324631 B CN 103324631B CN 201210077802 A CN201210077802 A CN 201210077802A CN 103324631 B CN103324631 B CN 103324631B
Authority
CN
China
Prior art keywords
keyword
degree
data
association
search
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210077802.3A
Other languages
English (en)
Other versions
CN103324631A (zh
Inventor
王犇
何军
杨志峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Shiji Guangsu Information Technology Co Ltd
Original Assignee
Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Shiji Guangsu Information Technology Co Ltd filed Critical Shenzhen Shiji Guangsu Information Technology Co Ltd
Priority to CN201210077802.3A priority Critical patent/CN103324631B/zh
Publication of CN103324631A publication Critical patent/CN103324631A/zh
Application granted granted Critical
Publication of CN103324631B publication Critical patent/CN103324631B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了提供数据搜索的方法及装置,其中,该方法包括:从页面内容数据和页面推荐数据中提取关键词,组成关键词集合;对关键词集合中的关键词进行相关度排序;在排序中从相关度最高的关键词开始,提取出设定个数的关键词;在页面展示提取的关键词。本发明方案能够基于页面内容数据和页面推荐数据,提供用以进行数据搜索的关键词,提升了相关搜索的多样性。

Description

提供数据搜索的方法及装置
技术领域
本发明涉及数据处理技术,尤其涉及提供数据搜索的方法及装置。
背景技术
进行数据搜索时,网络侧接收来自用户终端的包含原始关键词的搜索指令,由原始关键词搜索出数据,返回给用户终端。搜索出的数据包括页面内容数据,页面内容数据为与关键词直接相关的数据,如包含原始关键词的数据;页面内容数据包含标题、正文等信息。同时,网络侧还基于页面内容数据提取出关键词,展示在页面中,以供用户进行数据搜索。之后,用户终端便可点击页面上的关键词,进一步搜索。页面上展示的这部分关键词为用户很可能会关注的,展示在页面上,便于操作,提升了用户进行数据搜索的体验,也为用户提供了较多的选择。
参见图1,为采用现有技术方案展示的页面实例,该实例为用户通过原始关键词“街拍”搜索到的页面;其中的关键词“欧美”、“美女”和“街拍”,从页面内容数据的标题中提取。
现有方案只基于页面内容数据提供用以进行数据搜索的关键词,这部分关键词比较局限,仅和页面内容数据相关,限制了进一步搜索的范围。
发明内容
本发明提供了一种提供数据搜索的方法,该方法能够基于页面内容数据和页面推荐数据,提供用以进行数据搜索的关键词,提升了相关搜索的多样性。
本发明提供了一种提供数据搜索的装置,该装置能够基于页面内容数据和页面推荐数据,提供用以进行数据搜索的关键词,提升了相关搜索的多样性。
一种提供数据搜索的方法,该方法包括:
接收用户输入的原始关键词,获取与原始关键词直接关联的页面内容数据,以及与原始关键词间接关联的页面推荐数据;
从页面内容数据和页面推荐数据中提取关键词,组成关键词集合;
对关键词集合中的关键词进行相关度排序;
在排序中从相关度最高的关键词开始,提取出设定个数的关键词;
在页面展示页面内容数据、页面推荐数据和提取的关键词。
一种提供数据搜索的装置,该装置包括关键词提取单元、排序单元和展示单元;
所述关键词提取单元,用于接收用户输入的原始关键词,获取与原始关键词直接关联的页面内容数据,以及与原始关键词间接关联的页面推荐数据;从页面内容数据和页面推荐数据中提取关键词,组成关键词集合;
所述排序单元,用于对所述关键词集合中的关键词进行相关度排序;
所述展示单元,用于在所述排序中从相关度最高的关键词开始,提取出设定个数的关键词;在页面展示页面内容数据、页面推荐数据和提取的关键词。
从上述方案可以看出,本发明获取页面内容数据和页面推荐数据后,从页面内容数据和页面推荐数据中提取关键词,组成关键词集合;对关键词集合中的关键词进行相关度排序,再从排序中提取出设定个数的关键词,展示在页面上。从而,实现了基于页面内容数据和页面推荐数据,提供用以进行数据搜索的关键词,提升了相关搜索的多样性。
附图说明
图1为采用现有技术方案展示的页面实例;
图2为本发明提供数据搜索的方法示意性流程图;
图3为采用本发明方案展示的网页实例;
图4为本发明提供数据搜索的装置结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明进一步详细说明。
本发明提供了一种基于页面内容数据和页面推荐数据,提供用以进行数据搜索的关键词的方法。参见图2,为本发明提供数据搜索的方法示意性流程图,其包括以下步骤:
步骤201,接收用户输入的原始关键词,获取与原始关键词直接关联的页面内容数据,以及与原始关键词间接关联的页面推荐数据。
与原始关键词直接相关的数据为页面内容数据,如包含关键词的数据;页面内容数据包含标题、正文等信息。
与原始关键词间接关联的数据为页面推荐数据,例如为搜索原始关键词的其它用户在后续搜索到的其它数据。举例说明,由当前用户输入的原始关键词“街拍”搜索到的包含“街拍”的数据,为页面内容数据;其它用户在搜索原始关键词“街拍”后,相继通过其它原始关键词搜索到的数据包括“非主流忧伤唯美欧美女生”、“帕丽斯希尔顿七月街拍记录”等,这部分数据为与原始关键词“街拍”间接关联的页面推荐数据。
步骤202,从页面内容数据和页面推荐数据中提取关键词,组成关键词集合。
从指定的数据中提取出关键词为已有技术,这里不赘述。
步骤203,对关键词集合中的关键词进行相关度排序。
相关度体现了关键词集合中各关键词对当前数据搜索的相关程度。根据实际需要,相关度可通过多种方法计算得到,下面进行举例说明。
方式一:计算关键词集合中各关键词的关联度,按照关联度对关键词进行排序,关联度体现了某关键词所在页面相对于当前页面的关联程度,本方式中,所述关联度为所述相关度。现有方案在搜索日志中记录了各页面之间的关联度,本发明从搜索日志便可获取某页面相对于另一页面的关联程度,进而确定出从所述某一页面提取的关键词的关联度。计算某页面相对于另一页面的关联度,为已有方技术,可采用多种方式实现,例如,假设所述某页面为A页面,所述另一页面为B页面,统计出搜索A页面且相继搜索B页面的用户总数,用用户总数除以设定基数,将得到的值作为A页面相对于B页面的关联度;除以设定基数,是为了使得到的关联度的取值范围在[0,1]内。
方式二:计算关键词集合中各关键词的关联度,将各关键词的关联度与搜索热度进行相乘,按照相乘结果进行排序,所述相乘结果为所述相关度。
关键词集合中的关键词可能各不相同,也可能部分相同。若各不相同,本步骤分别计算出各关键词的相关度,对各关键词按相关度进行排序。.
若存在相同的关键词,需要对相同的关键词计算得到一个相关度,将计算得到的相关度作为该关键词进行排序的相关度。根据实际需要,可采用多种方式对相同的关键词计算得到一个相关度,例如,将相同关键词的关联度进行直接相加或加权相加,将相加结果作为该关键词最终的关联度。确定关键词集合中各关键词的关联度时,将从页面内容数据中提取的关键词的关联度确定为1;所述加权相加包括:将相同关键词中最高数值的关联度作为加数,将其它关联度分别乘以0.5,将得到的相乘结果作为被加数,用所述加数与所述被加数进行相加,得到的结果为所述相加结果。
步骤204,在排序中从相关度最高的关键词开始,提取出设定个数的关键词。
所述设定个数例如为3,本步骤将从排序中提取出相关度最高的3个关键词。
步骤205,在页面展示页面内容数据、页面推荐数据和提取的关键词。
之后,便可点击页面展示的关键词,进行数据搜索,包括:接收来自用户终端的搜索指令,所述搜索指令包含从页面选择的关键词;由搜索指令包含的关键词搜索出数据,返回给用户终端。
下面举一实例对图2的流程进行说明,由用户输入的原始关键词获取页面内容数据和页面推荐数据,这里将页面内容数据用P1表示,页面推荐数据为三部分,分别用P2、P3、P4表示,Wn表示从页面提取出的关键词,n为自然数。而后,从页面内容数据和页面推荐数据中提取关键词,包括:
P1->[W1:1,w2:1]
P2->[W1:0.9,w3:0.9]
P3->[W4:0.7,w5:0.7]
P4->[W6:0.5,w3:0.5]
各关键词后面还附上了各关键词的关联度,其中,将从页面内容数据中提取的关键词的关联度确定为1;组成的关键词集合为[W1,W2,W1,W3,W4,W5,W6,W3]。关键词集合中,W1和W3出现了两次,进行加权相加,即:将相同关键词中最高数值的关联度作为加数,将其它关联度分别乘以0.5,将得到的相乘结果作为被加数,用所述加数与所述被加数进行相加,得到的结果为所述相加结果;W1的关联度为:1+(0.9*0.5)=1.45,W3的相关度为:0.9+(0.5*0.5)=1.15,最终得到的关联度为:
[W1:1.45,W2:1,W3:1.15,W4:0.7,W5:0.7,W6:0.5]
进一步地,可进行归一化,得到:
[W1:1,W2:0.67,W3:0.79,W4:0.48,W5:0.48,W6:0.35]
然后,获取各关键词的搜索热度,与相应的关联度进行相乘,得到的相乘结果为该关键词的相关度,而后,按照得到的各关键词的相乘结果进行排序。现有方案在搜索日志中记录了统计得到的各关键词的搜索热度,搜索热度为关键词在用户搜索查询串中的热度,体现了用户点击关键词的概率;从搜索日志中便可获取某关键词的搜索热度。本实例中,各关键词的搜索热度为:
[W1:0.8,W2:0.2,W3:0.7,W4:0.4,W5:0.7,W6:0.9]
将关联度与搜索热度进行相乘,并按照相乘结果进行排序,得到:
[W1:0.8,W3:0.55,W5:0.34,W6:0.32,W4:0.19,W2:0.13]
假设设定个数为5,则在页面展示的关键词包括[W1,W3,W5,W6,W4]。
图3为采用本发明方案展示的页面实例,该实例为用户通过原始关键词“街拍”搜索到的页面,页面底部“网友还喜欢”的内容为页面推荐数据,为搜索“街拍”的其它用户相继搜索到的其它数据;除“网友还喜欢”部分的其它内容为页面内容数据,其中的关键词“欧美”、“美女”、“街拍”、“非主流”和“女生”,从页面内容数据和页面推荐数据中提取。
本发明由用户输入的原始关键词获取页面内容数据和页面推荐数据后,从页面内容数据和页面推荐数据中提取关键词,组成关键词集合;对关键词集合中的关键词进行相关度排序,再从排序中提取出设定个数的关键词,展示在页面上。从而,实现了基于页面内容数据和页面推荐数据提供用以进行数据搜索的关键词,便于操作,提升了用户进行数据搜索的体验,也为用户提供了更多的选择。
参见图4,为本发明提供数据搜索的装置结构示意图,该装置包括关键词提取单元、排序单元和展示单元;
所述关键词提取单元,用于接收用户输入的原始关键词,获取与原始关键词直接关联的页面内容数据,以及与原始关键词间接关联的页面推荐数据;从页面内容数据和页面推荐数据中提取关键词,组成关键词集合;
所述排序单元,用于对所述关键词集合中的关键词进行相关度排序;
所述展示单元,用于在所述排序中从相关度最高的关键词开始,提取出设定个数的关键词;在页面展示页面内容数据、页面推荐数据和提取的关键词。
可选地,所述排序单元包括第一排序子单元,用于计算关键词集合中各关键词的关联度,按照关联度对关键词进行排序,所述关联度为所述相关度。
可选地,所述排序单元包括第二排序子单元,用于计算关键词集合中各关键词的关联度,将各关键词的关联度与搜索热度进行相乘,按照相乘结果进行排序,所述相乘结果为所述相关度。
可选地,该装置还包括搜索单元,用于接收来自用户终端的搜索指令,所述搜索指令包含从页面选择的关键词;由搜索指令包含的关键词搜索出数据,返回给用户终端。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。

Claims (10)

1.一种提供数据搜索的方法,其特征在于,该方法包括:
接收用户输入的原始关键词,获取与原始关键词直接关联的页面内容数据,以及与原始关键词间接关联的页面推荐数据,所述页面推荐数据为搜索所述原始关键词的其他用户在后续搜索得到的数据;
从页面内容数据和页面推荐数据中提取关键词,组成关键词集合;
对关键词集合中的关键词进行相关度排序;
在排序中从相关度最高的关键词开始,提取出设定个数的关键词;
在页面展示页面内容数据、页面推荐数据和提取的关键词。
2.如权利要求1所述的方法,其特征在于,所述对关键词集合中的关键词进行相关度排序包括:
计算关键词集合中各关键词的关联度,按照关联度对关键词进行排序,所述关联度为所述相关度。
3.如权利要求1所述的方法,其特征在于,所述对关键词集合中的关键词进行相关度排序包括:
计算关键词集合中各关键词的关联度,将各关键词的关联度与搜索热度进行相乘,按照相乘结果进行排序,所述相乘结果为所述相关度。
4.如权利要求2或3所述的方法,其特征在于,所述计算关键词集合中各关键词的关联度包括:
确定关键词集合中各关键词的关联度;将相同关键词的关联度进行直接相加或加权相加,将相加结果作为该关键词最终的关联度。
5.如权利要求4所述的方法,其特征在于,确定关键词集合中各关键词的关联度时,将从页面内容数据中提取的关键词的关联度确定为1;
所述加权相加包括:将相同关键词中最高数值的关联度作为加数,将其它关联度分别乘以0.5,将得到的相乘结果作为被加数,用所述加数与所述被加数进行相加,得到的结果为所述相加结果。
6.如权利要求1、2或3所述的方法,其特征在于,在页面展示页面内容数据、页面推荐数据和提取的关键词之后,该方法还包括:
接收来自用户终端的搜索指令,所述搜索指令包含从页面选择的关键词;
由搜索指令包含的关键词搜索出数据,返回给用户终端。
7.一种提供数据搜索的装置,其特征在于,该装置包括关键词提取单元、排序单元和展示单元;
所述关键词提取单元,用于接收用户输入的原始关键词,获取与原始关键词直接关联的页面内容数据,以及与原始关键词间接关联的页面推荐数据,所述页面推荐数据为搜索所述原始关键词的其他用户在后续搜索得到的数据;从页面内容数据和页面推荐数据中提取关键词,组成关键词集合;
所述排序单元,用于对所述关键词集合中的关键词进行相关度排序;
所述展示单元,用于在所述排序中从相关度最高的关键词开始,提取出设定个数的关键词;在页面展示页面内容数据、页面推荐数据和提取的关键词。
8.如权利要求7所述的装置,其特征在于,所述排序单元包括第一排序子单元,用于计算关键词集合中各关键词的关联度,按照关联度对关键词进行排序,所述关联度为所述相关度。
9.如权利要求7所述的装置,其特征在于,所述排序单元包括第二排序子单元,用于计算关键词集合中各关键词的关联度,将各关键词的关联度与搜索热度进行相乘,按照相乘结果进行排序,所述相乘结果为所述相关度。
10.如权利要求7、8或9所述的装置,其特征在于,该装置还包括搜索单元,用于接收来自用户终端的搜索指令,所述搜索指令包含从页面选择的关键词;由搜索指令包含的关键词搜索出数据,返回给用户终端。
CN201210077802.3A 2012-03-22 2012-03-22 提供数据搜索的方法及装置 Active CN103324631B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201210077802.3A CN103324631B (zh) 2012-03-22 2012-03-22 提供数据搜索的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210077802.3A CN103324631B (zh) 2012-03-22 2012-03-22 提供数据搜索的方法及装置

Publications (2)

Publication Number Publication Date
CN103324631A CN103324631A (zh) 2013-09-25
CN103324631B true CN103324631B (zh) 2018-05-29

Family

ID=49193379

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210077802.3A Active CN103324631B (zh) 2012-03-22 2012-03-22 提供数据搜索的方法及装置

Country Status (1)

Country Link
CN (1) CN103324631B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103955465A (zh) 2014-03-28 2014-07-30 百度在线网络技术(北京)有限公司 一种用于生成推荐页面的方法和装置
CN104408103B (zh) * 2014-11-19 2018-05-18 北京国双科技有限公司 文本内容的筛选方法及装置
CN105574091B (zh) * 2015-12-10 2019-08-02 百度在线网络技术(北京)有限公司 信息推送方法及装置
CN105574142A (zh) * 2015-12-15 2016-05-11 北京奇虎科技有限公司 一种向用户推荐内容的方法及系统
CN105760527B (zh) * 2016-03-02 2022-09-27 百度在线网络技术(北京)有限公司 第三方页面展示方法和装置
CN106294596A (zh) * 2016-07-29 2017-01-04 北京小米移动软件有限公司 信息搜索的方法及装置
CN107886373B (zh) * 2017-12-11 2021-09-21 Oppo广东移动通信有限公司 基于关键词的广告推送方法、广告推送装置及电子终端
CN109299221A (zh) * 2018-09-04 2019-02-01 广州神马移动信息科技有限公司 实体抽取和排序方法与装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统
CN101620625A (zh) * 2009-07-30 2010-01-06 腾讯科技(深圳)有限公司 一种搜索关键词排序方法、装置和搜索引擎
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2009117830A1 (en) * 2008-03-27 2009-10-01 Hotgrinds Canada System and method for query expansion using tooltips

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101246499A (zh) * 2008-03-27 2008-08-20 腾讯科技(深圳)有限公司 网络信息搜索方法及系统
CN101620625A (zh) * 2009-07-30 2010-01-06 腾讯科技(深圳)有限公司 一种搜索关键词排序方法、装置和搜索引擎
CN102033955A (zh) * 2010-12-24 2011-04-27 常华 扩展用户搜索结果的方法及服务器

Also Published As

Publication number Publication date
CN103324631A (zh) 2013-09-25

Similar Documents

Publication Publication Date Title
CN103324631B (zh) 提供数据搜索的方法及装置
CN104111941B (zh) 信息展示的方法及设备
KR101667344B1 (ko) 검색 결과들을 제공하는 방법 및 시스템
CN104199896B (zh) 基于特征分类的视频相似度确定及视频推荐方法
CN102298616B (zh) 一种用于在搜索结果中提供相关子链接的方法和设备
CN103699700B (zh) 一种搜索引导的生成方法、系统及相关服务器
CN103886090A (zh) 基于用户喜好的内容推荐方法及装置
CN104991962B (zh) 一种生成推荐信息的方法及装置
CN103186666B (zh) 基于收藏进行搜索的方法、装置与设备
CN106293119A (zh) 一种在输入法中进行信息推荐的方法与装置
US10019419B2 (en) Method, server, browser, and system for recommending text information
US10783192B1 (en) System, method, and user interface for a search engine based on multi-document summarization
CN101256596A (zh) 一种站内导航的方法及系统
JPWO2007091587A1 (ja) 代表画像又は代表画像群の表示システム、その方法、およびそのプログラム並びに、代表画像又は代表画像群の選択システム、その方法およびそのプログラム
CN104699838B (zh) 一种网页搜索推送方法,及多网站搜索的组合方法
CN104050243B (zh) 一种将搜索与社交相结合的网络搜索方法及其系统
US8838580B2 (en) Method and system for providing keyword ranking using common affix
CN103294692A (zh) 一种信息推荐方法及系统
CN104077707B (zh) 一种推广呈现方式的优化方法和装置
Baeza-Yates et al. The new frontier of web search technology: Seven challenges
JP5827874B2 (ja) キーワード取得装置、コンテンツ提供システム、キーワード取得方法、プログラム及びコンテンツ提供方法
KR101122737B1 (ko) 지식노드 연결구조를 생성하기 위한 검색 데이터베이스 구축 장치 및 방법
CN108205545B (zh) 一种为用户提供推荐信息的方法与设备
JP6388506B2 (ja) コンテンツ推奨装置およびプログラム
EP3062240A1 (en) Search system, search criteria setting device, control method for search criteria setting device, program, and information storage medium

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
ASS Succession or assignment of patent right

Owner name: SHENZHEN SHIJI LIGHT SPEED INFORMATION TECHNOLOGY

Free format text: FORMER OWNER: TENGXUN SCI-TECH (SHENZHEN) CO., LTD.

Effective date: 20131021

C41 Transfer of patent application or patent right or utility model
COR Change of bibliographic data

Free format text: CORRECT: ADDRESS; FROM: 518044 SHENZHEN, GUANGDONG PROVINCE TO: 518057 SHENZHEN, GUANGDONG PROVINCE

TA01 Transfer of patent application right

Effective date of registration: 20131021

Address after: 518057 Tencent Building, 16, Nanshan District hi tech park, Guangdong, Shenzhen

Applicant after: Shenzhen Shiji Guangsu Information Technology Co., Ltd.

Address before: Shenzhen Futian District City, Guangdong province 518044 Zhenxing Road, SEG Science Park 2 East Room 403

Applicant before: Tencent Technology (Shenzhen) Co., Ltd.

C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant