CN106126698B - 一种基于Lucence的检索推送方法及系统 - Google Patents

一种基于Lucence的检索推送方法及系统 Download PDF

Info

Publication number
CN106126698B
CN106126698B CN201610503300.0A CN201610503300A CN106126698B CN 106126698 B CN106126698 B CN 106126698B CN 201610503300 A CN201610503300 A CN 201610503300A CN 106126698 B CN106126698 B CN 106126698B
Authority
CN
China
Prior art keywords
user
retrieval
keywords
records
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610503300.0A
Other languages
English (en)
Other versions
CN106126698A (zh
Inventor
白凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Rongtong Scientific Research Institute Group Co ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201610503300.0A priority Critical patent/CN106126698B/zh
Publication of CN106126698A publication Critical patent/CN106126698A/zh
Application granted granted Critical
Publication of CN106126698B publication Critical patent/CN106126698B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及大数据处理领域,公开了一种基于Lucence的检索推送系统,该系统包括信号接收模块、获取模块、分析计算模块和显示模块,信号接收模块用于接收用户输入的查询词;获取模块用于获取用户的所有检索记录;分析计算模块用于分析和计算用户的检索记录,并根据检索记录给与查询词相关的所有关键词赋予权值,并按照权值大小的顺序将关键词排序,并形成检索结果;显示模块用于接收所述检索结果并展示。本发明还公开了一种基于Lucence的检索推送方法。本发明能够降低搜索引擎的负载压力,提高用户体验。

Description

一种基于Lucence的检索推送方法及系统
技术领域
本发明涉及大数据处理领域,具体涉及一种基于Lucence的检索推送方法及系统。
背景技术
Lucence是一个全文检索引擎工具包,使用户能够在目标系统中进行全文检索,当用户使用Lucence搜索引擎进行检索时,通常先输入关键词,搜索引擎将所有与关键词相关的信息全部提取出来并返回给用户,这种推送方式不仅会增加搜索引擎的负载量,造成搜索引擎负载压力过大,且搜索引擎推送给用户的信息量过大,造成信息冗余,用户需要自行筛选出有用的信息,会浪费大量的时间,不仅降低用户体验,而且容易造成客户流失。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种基于Lucence的检索推送方法及系统,能够降低搜索引擎的负载压力,提高用户体验。
为达到以上目的,本发明采取的技术方案是:提供一种基于Lucence的检索推送系统,该系统包括:
信号接收模块,其用于接收用户输入的查询词;
获取模块,其用于获取用户的所有检索记录;
分析计算模块,其用于分析和计算用户的检索记录,并根据检索记录给与查询词相关的所有关键词赋予权值,并按照权值大小的顺序将关键词排序,并形成检索结果;
显示模块,其用于接收所述检索结果并展示。
在上述技术方案的基础上,所述根据检索记录给与查询词相关的所有关键词赋予权值,每个关键词权值的计算公式为:
Figure BDA0001034895330000021
式中,A为关键词的权值,m为用户对当前关键词的检索量,n为用户对当前关键词的点击次数,t为用户对当前关键词的关注度,β为检索量协调因子,且β为正实数,
Figure BDA0001034895330000022
为点击次数协调因子,且
Figure BDA0001034895330000023
为正实数,ρ为关注度协调因子,且ρ为正实数,ρ>>β,
Figure BDA0001034895330000024
在上述技术方案的基础上,当所述查询词为直播平台的主播标签时,所述关键词为标签房间,m为用户对当前标签房间的检索量,n为用户对当前标签房间的观看次数,t为用户对当前标签房间的消费记录及留言记录总值,β为搜索量的协调因子,
Figure BDA0001034895330000025
为观看次数的协调因子,ρ为互动记录的协调因子。
在上述技术方案的基础上,所述与查询词相关的所有关键词包括用户检索过的关键词和用户未检索过的关键词。
在上述技术方案的基础上,所述关键词为用户未检索过的关键词时,所述关键词的权值为0。
本发明还提供一种基于Lucence的检索推送方法,该方法包括:接收用户输入的查询词,获取用户的所有检索记录,分析和计算用户的检索记录,并根据检索记录给与查询词相关的所有关键词赋予权值,并按照权值大小的顺序将关键词排序,得到搜索结果,并展示给用户。
在上述技术方案的基础上,搜索引擎提取搜索结果,通过Lucence的设置权值接口进行权值匹配,将权值高的结果数据,放在数据队列的前面,优先返回给用户。
与现有技术相比,本发明的优点在于:
本发明基于Lucence的检索推送系统及方法,根据用户的检索记录对关键词进行权重计算,再根据计算结果对关键词进行排序后推送给用户,能够避免推送给客户的信息过于杂乱,避免信息冗余,能够降低搜索引擎的负载压力,提高用户体验。
附图说明
图1为本发明实施例中推送个性化检索信息系统的结构示意图;
图2为本发明实施例中推送个性化检索信息的方法的流程图。
具体实施方式
以下结合附图及实施例对本发明作进一步详细说明。
参见图1所示,本发明实施例提供一种基于Lucence的检索推送系统,包括信号接收模块、获取模块、分析计算模块和显示模块,
信号接收模块用于接收用户输入的查询词并将查询词发送至获取模块;获取模块用于接收查询词并获取用户的所有检索记录;分析计算模块用于分析和计算用户的检索记录,并根据检索记录给与查询词相关的所有关键词赋予权值,并按照权值大小的顺序将关键词排序,形成检索结果并发送给显示模块,显示模块用于将接收到的检索结果展示给客户。
与查询词相关的所有关键词包括用户检索过的关键词和用户未检索过的关键词,当关键词为用户未检索过的关键词时,关键词的权值为0。
本发明实施例中,根据检索记录给与查询词相关的所有关键词赋予权值,每个关键词权值的计算公式为:
Figure BDA0001034895330000041
式中,A为关键词的权值,m为用户对当前关键词的检索量,n为用户对当前关键词的点击次数,t为用户对当前关键词的关注度,β为检索量协调因子,且β为正实数,
Figure BDA0001034895330000042
为点击次数协调因子,且
Figure BDA0001034895330000043
为正实数,ρ为关注度协调因子,且ρ为正实数,ρ>>β,
Figure BDA0001034895330000044
下面,以查询词为与直播平台相关的主播标签时,主播标签为游戏主播、娱乐主播或户外主播,关键词为与主播标签对应的主播直播时房间的标签,即标签房间,进行举例:
此时,权值的计算公式仍然为:
但式中,m为用户对当前标签房间的检索量,n为用户对当前标签房间的观看次数,t为用户对当前标签房间的消费记录及留言记录总值,β为搜索量的协调因子,
Figure BDA0001034895330000046
为观看次数的协调因子,ρ为互动记录的协调因子。其中,可以自定义一段时间内,例如1小时,若用户对当前关键词的检索量大于同期均值,且是同期搜索量的x倍,x可以根据实际需要进行取值,则β的值随之增大;同理,当用户的观看次数大于同期均值,且是同期均值的y倍,则的值随之增大;因为ρ的值远大于和β,故ρ的值也会随着β和
Figure BDA0001034895330000049
的增大而增大。
参见图2所示,本发明还提供一种基于上述系统的基于Lucence的检索推送方法,包括以下步骤:
S1、接收用户输入的查询词。
S2、获取用户的所有检索记录,分析和计算用户的检索记录,并根据检索记录给与查询词相关的所有关键词赋予权值。
S3、按照权值大小的顺序将关键词排序,得到搜索结果,并展示给用户。
其中,按照权值大小的顺序将关键词排序,得到搜索结果,并展示给用户的具体步骤为:搜索引擎提取搜索结果,通过Lucence的设置的权值接口进行权值匹配,将权值高的结果数据,放在数据队列的前面,优先返回给用户。
本发明在使用时,以某O2O(即Online To Offline,线下销售与服务通过线上推广)平台为例,A用户喜好生活类产品,当A以“保健”作为检索词时,传统的搜索引擎会为客户推送各种按摩工具、大豆卵磷脂、葡萄籽胶囊等产品,导致客户花费大量时间筛选产品,且最后因筛选太过复杂而放弃购买;而使用本发明的搜索引擎,在对客户的检索记录进行分析后,直接推送脑白金、羽毛球和冬虫夏草,客户在经过10分钟筛选后,直接对脑白金和羽毛球下当,完成购买,有效提高了用户体验。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (5)

1.一种基于Lucence的检索推送系统,其特征在于,包括:
信号接收模块,其用于接收用户输入的查询词;
获取模块,其用于获取用户的所有检索记录;
分析计算模块,其用于分析和计算用户的检索记录,并根据检索记录给与查询词相关的所有关键词赋予权值,并按照权值大小的顺序将关键词排序,并形成检索结果;
显示模块,其用于接收所述检索结果并展示;
所述根据检索记录给与查询词相关的所有关键词赋予权值,每个关键词权值的计算公式为:
Figure FDA0002171606340000011
式中,A为关键词的权值,m为用户对当前关键词的检索量,n为用户对当前关键词的点击次数,t为用户对当前关键词的关注度,β为检索量协调因子,且β为正实数,
Figure FDA0002171606340000012
为点击次数协调因子,且
Figure FDA0002171606340000013
为正实数,ρ为关注度协调因子,且ρ为正实数,ρ>>β,
Figure FDA0002171606340000014
当所述查询词为直播平台的主播标签时,所述关键词为标签房间,m为用户对当前标签房间的检索量,n为用户对当前标签房间的观看次数,t为用户对当前标签房间的消费记录及留言记录总值,β为搜索量的协调因子,
Figure FDA0002171606340000015
为观看次数的协调因子,ρ为互动记录的协调因子。
2.如权利要求1所述的一种基于Lucence的检索推送系统,其特征在于:所述与查询词相关的所有关键词包括用户检索过的关键词和用户未检索过的关键词。
3.如权利要求2所述的一种基于Lucence的检索推送系统,其特征在于:所述关键词为用户未检索过的关键词时,所述关键词的权值为0。
4.一种基于权利要求1所述系统的基于Lucence的检索推送方法,其特征在于:包括以下步骤:
接收用户输入的查询词,获取用户的所有检索记录,分析和计算用户的检索记录,并根据检索记录给与查询词相关的所有关键词赋予权值,并按照权值大小的顺序将关键词排序,得到搜索结果,并展示给用户;
所述根据检索记录给与查询词相关的所有关键词赋予权值,每个关键词权值的计算公式为:
Figure FDA0002171606340000021
式中,A为关键词的权值,m为用户对当前关键词的检索量,n为用户对当前关键词的点击次数,t为用户对当前关键词的关注度,β为检索量协调因子,且β为正实数,
Figure FDA0002171606340000022
为点击次数协调因子,且
Figure FDA0002171606340000023
为正实数,ρ为关注度协调因子,且ρ为正实数,ρ>>β,
Figure FDA0002171606340000024
5.如权利要求4所述的一种基于Lucence的检索推送方法,其特征在于:搜索引擎提取搜索结果,通过Lucence的设置权值接口进行权值匹配,将权值高的结果数据,放在数据队列的前面,优先返回给用户。
CN201610503300.0A 2016-06-29 2016-06-29 一种基于Lucence的检索推送方法及系统 Active CN106126698B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610503300.0A CN106126698B (zh) 2016-06-29 2016-06-29 一种基于Lucence的检索推送方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610503300.0A CN106126698B (zh) 2016-06-29 2016-06-29 一种基于Lucence的检索推送方法及系统

Publications (2)

Publication Number Publication Date
CN106126698A CN106126698A (zh) 2016-11-16
CN106126698B true CN106126698B (zh) 2020-01-03

Family

ID=57285711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610503300.0A Active CN106126698B (zh) 2016-06-29 2016-06-29 一种基于Lucence的检索推送方法及系统

Country Status (1)

Country Link
CN (1) CN106126698B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106708982B (zh) * 2016-12-08 2020-10-20 武汉斗鱼网络科技有限公司 一种直播间搜索方法及装置
CN107180098B (zh) * 2017-05-16 2019-11-12 武汉斗鱼网络科技有限公司 一种信息搜索中关键词淘汰方法及装置
CN108287873B (zh) * 2017-12-29 2020-08-11 深圳云天励飞技术有限公司 数据处理方法及相关产品
CN111192690B (zh) * 2019-12-24 2023-11-17 泰康保险集团股份有限公司 医疗数据的检索方法、装置、电子设备及介质
CN118395017B (zh) * 2024-06-24 2024-09-24 青岛益生康健科技股份有限公司 基于大数据的智慧健康管理信息推送方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102446180B (zh) * 2010-10-09 2016-03-02 北京京东尚科信息技术有限公司 一种商品搜索方法及其装置
CN103729351B (zh) * 2012-10-10 2017-10-03 阿里巴巴集团控股有限公司 查询词推荐方法及装置
CN103207904B (zh) * 2013-03-28 2017-03-15 百度在线网络技术(北京)有限公司 搜索结果的提供方法及搜索引擎
CN104142999B (zh) * 2014-08-01 2019-03-29 百度在线网络技术(北京)有限公司 搜索结果展示方法及装置
CN105630836B (zh) * 2014-11-05 2018-11-16 阿里巴巴集团控股有限公司 搜索结果的排序方法和装置

Also Published As

Publication number Publication date
CN106126698A (zh) 2016-11-16

Similar Documents

Publication Publication Date Title
CN106126698B (zh) 一种基于Lucence的检索推送方法及系统
US8725717B2 (en) System and method for identifying topics for short text communications
CN103544216B (zh) 一种结合图像内容和关键字的信息推荐方法及系统
TWI640878B (zh) Query word fusion method, product information publishing method, search method and system
US11010828B2 (en) Information processing apparatus, information processing method, information processing program, recording medium having stored therein information processing program
US10891700B2 (en) Methods and computer-program products for searching patent-related documents using search term variants
CN106331778A (zh) 视频推荐方法和装置
CN105468596B (zh) 图片检索方法和装置
CN103377287A (zh) 一种投放物品信息的方法和装置
CN102194006B (zh) 一种集合团队个性化特征的搜索系统和方法
CN103678668A (zh) 相关搜索结果的提示方法、服务器及系统
CN108197336B (zh) 一种视频查找的方法及装置
CN109388760A (zh) 推荐标签获取方法、媒体内容推荐方法、装置及存储介质
CN111597446B (zh) 基于人工智能的内容推送方法、装置、服务器和存储介质
CN101241504A (zh) 一种基于内容的遥感图像数据智能搜索方法
CN111091883B (zh) 一种医疗文本处理方法、装置、存储介质及设备
CN106649738A (zh) 在搜索结果页中聚合人物类资讯信息的方法及装置
CN116739836B (zh) 一种基于知识图谱的餐饮数据分析方法及系统
CN105786910B (zh) 词条权重计算方法和装置
Meng et al. Mining user reviews: from specification to summarization
CN112825089A (zh) 文章推荐方法、装置、设备及存储介质
CN112184300A (zh) 一种达人匹配方法、介质、系统和设备
US20130232139A1 (en) Electronic device and method for generating recommendation content
CN106919649B (zh) 一种词条权重计算的方法及装置
CN108153863B (zh) 一种视频信息的表示方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20240401

Address after: 830000, Room 17A, Building 17, Block A, Times Square Community, No. 59 Guangming Road, Tianshan District, Urumqi, Xinjiang Uygur Autonomous Region BD00244

Patentee after: Urumqi Bangbangjun Technology Co.,Ltd.

Country or region after: China

Address before: 430000 Wuhan Donghu Development Zone, Wuhan, Hubei Province, No. 1 Software Park East Road 4.1 Phase B1 Building 11 Building

Patentee before: WUHAN DOUYU NETWORK TECHNOLOGY Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240914

Address after: 100000, 3rd Floor, Building 1, No. 63 Fuxing Road, Haidian District, Beijing

Patentee after: China Rongtong Scientific Research Institute Group Co.,Ltd.

Country or region after: China

Address before: 830000, Room 17A, Building 17, Block A, Times Square Community, No. 59 Guangming Road, Tianshan District, Urumqi, Xinjiang Uygur Autonomous Region BD00244

Patentee before: Urumqi Bangbangjun Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right