CN106021430A - 基于Lucence自定义词库的全文检索匹配方法及系统 - Google Patents
基于Lucence自定义词库的全文检索匹配方法及系统 Download PDFInfo
- Publication number
- CN106021430A CN106021430A CN201610321306.6A CN201610321306A CN106021430A CN 106021430 A CN106021430 A CN 106021430A CN 201610321306 A CN201610321306 A CN 201610321306A CN 106021430 A CN106021430 A CN 106021430A
- Authority
- CN
- China
- Prior art keywords
- search
- lucence
- self
- result
- full
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 25
- 230000011218 segmentation Effects 0.000 claims abstract description 14
- 230000007704 transition Effects 0.000 claims description 8
- 238000006073 displacement reaction Methods 0.000 claims description 7
- 230000008569 process Effects 0.000 claims description 5
- 108010046685 Rho Factor Proteins 0.000 claims description 2
- 230000008859 change Effects 0.000 description 7
- 230000000694 effects Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000008878 coupling Effects 0.000 description 2
- 238000010168 coupling process Methods 0.000 description 2
- 238000005859 coupling reaction Methods 0.000 description 2
- 230000007812 deficiency Effects 0.000 description 1
- 238000000151 deposition Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3325—Reformulation based on results of preceding query
- G06F16/3326—Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3335—Syntactic pre-processing, e.g. stopword elimination, stemming
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
Abstract
本发明公开了一种基于Lucence自定义词库的全文检索匹配方法及系统,涉及大数据搜索领域。该方法包括以下步骤:在Lucence搜索环境中,实时获取用户输入的搜索词,检测是否搜索到结果,搜索不到,则将搜索词去掉特殊字符,存入Lucence自定义词库;搜索到,则对搜索词进行分词,对分词后的若干词组继续进行搜索,检测是否搜索到结果,搜索不到,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;搜索到,则记录搜索的时间、分词后的搜索词、搜索反馈信息,最终建立支持Lucence全文检索的Lucence自定义词库。本发明根据用户输入的搜索词,能够快速有效地建立自己专用的Lucence自定义词库。
Description
技术领域
本发明涉及大数据搜索领域,具体是涉及一种基于Lucence自定义词库的全文检索匹配方法及系统。
背景技术
Apache Lucence是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。
为了便于读者理解,下面先对相关术语进行简单说明:
Apache Lucence:Apache旗下一款开源全文检索项目;
全文检索:不同于传统的模糊匹配,先对搜索词按一定规则分词后,再将分词与源数据进行匹配,根据出现分词次数,分词邻近距离,权重等数据进行打分,获得检索结果;
分词:全文检索索引,例如:我是中国人,其分词可为:我、是、中国、人、中国人等;
公共词库:存放公共分词规则的词库,例如,常用的:你好、中国等;
自定义词库:根据自己需求,用于存放自己需要的分词规则的字典词库;
搜索反馈:搜索效果反馈,即用户输入搜索词进入搜索页面后,是否有点击页面链接亦或在多次翻页之后点击链接;
搜索量:某一搜索词某时段全站搜索量;
字段:需要搜索的字段,例如:游戏名、主播名、房间名等。
在Apache Lucence全文检索中,需要对源数据进行分词索引。若没有针对特定词组进行分词处理,则该词组无法被检索到。例如,针对游戏直播领域的搜索,“英雄联盟”、“Dota2”、“炉石传说”等在公共词库中基本不会出现的词汇,将很难被检索到。因此,如何获取用户最需要检索的词汇,并生成自定义词库是在全文检索领域一个重要的难点。
发明内容
本发明的目的是为了克服上述背景技术的不足,提供一种基于Lucence自定义词库的全文检索匹配方法及系统,根据用户输入的搜索词,能够快速有效地建立自己专用的Lucence自定义词库。
本发明提供一种基于Lucence自定义词库的全文检索匹配方法,包括以下步骤:
在基于Lucence全文检索引擎的搜索环境中,实时获取用户输入的搜索词,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的搜索词去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则对搜索到结果的搜索词进行分词处理,得到分词后的若干词组;对分词后的若干词组继续进行搜索,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则记录搜索的时间、分词后的搜索词、搜索反馈信息,最终建立支持Lucence全文检索的Lucence自定义词库。
在上述技术方案的基础上,所述建立支持Lucence全文检索的Lucence自定义词库之后,还包括以下步骤:在建立支持Lucence全文检索的Lucence自定义词库的基础上,根据字段的搜索量、搜索反馈信息及自定义权重变量线性叠加,按照字段权重动态分配公式定时计算字段权重值,再通过Lucence全文检索引擎的权重设置接口,将计算得到的字段权重值动态赋值给字段。
在上述技术方案的基础上,所述字段权重动态分配公式为:
boost=(α*n+β*m+δ*In(t)+r)*ρ,
其中,boost为某字段权重值,n为某时段该字段被检索量,m为某时段该字段被检索后具有完整搜索反馈的总量,t为某时段该字段被检索后不完整搜索反馈的总量,r为自定义权重变量,α为检索量的系数因子,β为完整搜索反馈的系数因子,δ为不完整搜索反馈的系数因子,ρ为全局协调系数因子。
在上述技术方案的基础上,所述自定义权重变量为主播名、主播房间名或房间类型。
在上述技术方案的基础上,当系统出现转型或用户搜索喜好发生变化之后,所述自定义权重变量随之改变。
本发明还提供一种基于Lucence自定义词库的全文检索匹配系统,该系统包括Lucence自定义词库建立单元,所述Lucence自定义词库建立单元用于建立支持Lucence全文检索的Lucence自定义词库:在基于Lucence全文检索引擎的搜索环境中,实时获取用户输入的搜索词,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的搜索词去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则对搜索到结果的搜索词进行分词处理,得到分词后的若干词组;对分词后的若干词组继续进行搜索,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则记录搜索的时间、分词后的搜索词、搜索反馈信息。
在上述技术方案的基础上,该系统还包括字段权重动态分配单元,所述字段权重动态分配单元用于动态分配字段权重:在Lucence自定义词库的基础上,根据字段的搜索量、搜索反馈信息及自定义权重变量线性叠加,按照字段权重动态分配公式定时计算字段权重值,再通过Lucence全文检索引擎的权重设置接口,将计算得到的字段权重值动态赋值给字段。
在上述技术方案的基础上,所述字段权重动态分配公式为:
boost=(α*n+β*m+δ*In(t)+r)*ρ,
其中,boost为某字段权重值,n为某时段该字段被检索量,m为某时段该字段被检索后具有完整搜索反馈的总量,t为某时段该字段被检索后不完整搜索反馈的总量,r为自定义权重变量,例如:主播名、主播房间名、房间类型;α为检索量的系数因子,β为完整搜索反馈的系数因子,δ为不完整搜索反馈的系数因子,ρ为全局协调系数因子。
在上述技术方案的基础上,所述自定义权重变量为主播名、主播房间名或房间类型。
在上述技术方案的基础上,当系统出现转型或用户搜索喜好发生变化之后,所述自定义权重变量随之改变。
与现有技术相比,本发明的优点如下:
(1)本发明在基于Lucence全文检索引擎的搜索环境中,建立用于进行Lucence全文检索的Lucence自定义词库,实时获取用户输入的搜索词,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的搜索词去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则对搜索到结果的搜索词进行分词处理,得到分词后的若干词组;对分词后的若干词组继续进行检索,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则记录搜索的时间、分词后的搜索词、搜索反馈信息。本发明根据用户输入的搜索词,能够快速有效地建立自己专用的Lucence自定义词库,形成符合当前搜索环境的Lucence自定义词库,用于Lucence全文检索,可达到更佳的搜索效果。例如,对于游戏直播,可能用户更期望搜索关于“YYF”、“55开”、“安德罗妮”等信息,采用常规词库可能无法满足这类需求。采用本发明实施例的方法,在首次搜索时,可能也不会得到最优结果,但是,随着Lucence自定义词库不断迭代更新,搜索结果会随着用户的搜索量上涨逐渐优化。
(2)本发明在Lucence自定义词库的基础上,动态分配字段权重:根据字段的搜索量、搜索反馈信息及自定义权重变量线性叠加,按照字段权重动态分配公式定时计算字段权重值,再通过Lucence全文检索引擎的权重设置接口(setboost),将计算得到的字段权重值动态赋值给字段,能够稳定有效地动态分配各字段权重。当系统出现转型或用户搜索喜好发生变化之后,自定义权重变量随之改变。例如,搜索系统有以下几个字段:主播名、主播房间名、房间类型。系统一开始需要搜索对主播名的搜索更侧重,则只需要增大自定义权重,即字段权重动态分配公式中的自定义权重变量。
附图说明
图1是本发明实施例中基于Lucence自定义词库的全文检索匹配方法的流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述。
参见图1所示,本发明实施例提供一种基于Lucence自定义词库的全文检索匹配方法,包括以下步骤:
S1、建立支持Lucence全文检索的Lucence自定义词库:在基于Lucence全文检索引擎的搜索环境中,实时获取用户输入的搜索词,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的搜索词去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则对搜索到结果的搜索词进行分词处理,得到分词后的若干词组;对分词后的若干词组继续进行搜索,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则记录搜索的时间、分词后的搜索词、搜索反馈信息,最终建立支持Lucence全文检索的Lucence自定义词库;
S2、动态分配字段权重:在建立支持Lucence全文检索的Lucence自定义词库的基础上,根据字段的搜索量、搜索反馈信息及自定义权重变量线性叠加,按照字段权重动态分配公式定时计算字段权重值,再通过Lucence全文检索引擎的权重设置接口(setboost),将计算得到的字段权重值动态赋值给字段;
字段权重动态分配公式为:
boost=(α*n+β*m+δ*In(t)+r)*ρ,
其中,boost为某字段权重值,n为某时段该字段被检索量,m为某时段该字段被检索后具有完整搜索反馈的总量,t为某时段该字段被检索后不完整搜索反馈的总量,r为自定义权重变量,例如:主播名、主播房间名、房间类型;α为检索量的系数因子,β为完整搜索反馈的系数因子,δ为不完整搜索反馈的系数因子,ρ为全局协调系数因子。
自定义权重变量可以为主播名、主播房间名或房间类型,当系统出现转型或用户搜索喜好发生变化之后,自定义权重变量随之改变。
本发明实施例还提供一种基于Lucence自定义词库的全文检索匹配系统,该系统包括Lucence自定义词库建立单元和字段权重动态分配单元,其中:
Lucence自定义词库建立单元用于建立支持Lucence全文检索的Lucence自定义词库:在基于Lucence全文检索引擎的搜索环境中,实时获取用户输入的搜索词,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的搜索词去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则对搜索到结果的搜索词进行分词处理,得到分词后的若干词组;对分词后的若干词组继续进行搜索,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则记录搜索的时间、分词后的搜索词、搜索反馈信息;
字段权重动态分配单元用于动态分配字段权重:在建立支持Lucence全文检索的Lucence自定义词库的基础上,根据字段的搜索量、搜索反馈信息及自定义权重变量线性叠加,按照字段权重动态分配公式定时计算字段权重值,再通过Lucence全文检索引擎的权重设置接口(setboost),将计算得到的字段权重值动态赋值给字段;
字段权重动态分配公式为:
boost=(α*n+β*m+δ*In(t)+r)*ρ,
其中,boost为某字段权重值,n为某时段该字段被检索量,m为某时段该字段被检索后具有完整搜索反馈的总量,t为某时段该字段被检索后不完整搜索反馈的总量,r为自定义权重变量,例如:主播名、主播房间名、房间类型;α为检索量的系数因子,β为完整搜索反馈的系数因子,δ为不完整搜索反馈的系数因子,ρ为全局协调系数因子。
自定义权重变量可以为主播名、主播房间名或房间类型,当系统出现转型或用户搜索喜好发生变化之后,自定义权重变量随之改变。
本发明实施例根据用户输入条件,能够快速有效地建立自己专用的Lucence自定义词库,并且形成符合当前搜索环境的Lucence自定义词库,用于Lucence全文检索,可达到更佳的搜索效果。
例如,对于游戏直播,可能用户更期望搜索关于“YYF”、“55开”、“安德罗妮”等信息,采用常规词库可能无法满足这类需求。采用本发明实施例的方法,在首次搜索时,可能也不会得到最优结果,但是,随着Lucence自定义词库不断迭代更新,搜索结果会随着用户的搜索量上涨逐渐优化。
此外,在搜索系统中,权重往往被赋予为某一常量,这种设定在某一时期可能会得到良好的搜素结果。然而,随着系统的转型,用户人群口味变更或者源数据的变化等因素,这一设定便将难以获得准确的结果。在多字段检索中,如何根据搜索反馈效果,搜索量等因素动态分配各字段权重以达到最优匹配结果,也是本领域技术人员需要重点考虑的。
例如,搜索系统中的用户一开始只是对某几个主播感兴趣,则他们对主播名的搜索结果更加看重,系统中主播名的搜索量变化加大,搜索反馈效果也会最为良好,权重也会动态偏向这一字段;然而,随着用户对系统的逐渐了解,他们更对房间内容关注更多,则相应的其搜索量便会增大,且反馈效果也更为良好,自然,权重也会偏向到相应的房间名及房间类型。
当系统出现转型或用户搜索喜好发生变化之后,自定义权重变量随之改变。例如,搜索系统有以下几个字段:主播名、主播房间名、房间类型。系统一开始需要搜索对主播名的搜索更侧重,则只需要增大自定义权重,即字段权重动态分配公式中的自定义权重变量。
本领域的技术人员可以对本发明实施例进行各种修改和变型,倘若这些修改和变型在本发明权利要求及其等同技术的范围之内,则这些修改和变型也在本发明的保护范围之内。
说明书中未详细描述的内容为本领域技术人员公知的现有技术。
Claims (10)
1.一种基于Lucence自定义词库的全文检索匹配方法,其特征在于,包括以下步骤:
在基于Lucence全文检索引擎的搜索环境中,实时获取用户输入的搜索词,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的搜索词去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则对搜索到结果的搜索词进行分词处理,得到分词后的若干词组;对分词后的若干词组继续进行搜索,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则记录搜索的时间、分词后的搜索词、搜索反馈信息,最终建立支持Lucence全文检索的Lucence自定义词库。
2.如权利要求1所述的基于Lucence自定义词库的全文检索匹配方法,其特征在于:所述建立支持Lucence全文检索的Lucence自定义词库之后,还包括以下步骤:在建立支持Lucence全文检索的Lucence自定义词库的基础上,根据字段的搜索量、搜索反馈信息及自定义权重变量线性叠加,按照字段权重动态分配公式定时计算字段权重值,再通过Lucence全文检索引擎的权重设置接口,将计算得到的字段权重值动态赋值给字段。
3.如权利要求2所述的基于Lucence自定义词库的全文检索匹配方法,其特征在于:所述字段权重动态分配公式为:
boost=(α*n+β*m+δ*In(t)+r)*ρ,
其中,boost为某字段权重值,n为某时段该字段被检索量,m为某时段该字段被检索后具有完整搜索反馈的总量,t为某时段该字段被检索后不完整搜索反馈的总量,r为自定义权重变量,α为检索量的系数因子,β为完整搜索反馈的系数因子,δ为不完整搜索反馈的系数因子,ρ为全局协调系数因子。
4.如权利要求3所述的基于Lucence自定义词库的全文检索匹配方法,其特征在于:所述自定义权重变量为主播名、主播房间名或房间类型。
5.如权利要求4所述的基于Lucence自定义词库的全文检索匹配方法,其特征在于:当系统出现转型或用户搜索喜好发生变化之后,所述自定义权重变量随之改变。
6.一种基于Lucence自定义词库的全文检索匹配系统,其特征在于:该系统包括Lucence自定义词库建立单元,所述Lucence自定义词库建立单元用于建立支持Lucence全文检索的Lucence自定义词库:在基于Lucence全文检索引擎的搜索环境中,实时获取用户输入的搜索词,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的搜索词去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则对搜索到结果的搜索词进行分词处理,得到分词后的若干词组;对分词后的若干词组继续进行搜索,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则记录搜索的时间、分词后的搜索词、搜索反馈信息。
7.如权利要求6所述的基于Lucence自定义词库的全文检索匹配系统,其特征在于:该系统还包括字段权重动态分配单元,所述字段权重动态分配单元用于动态分配字段权重:在Lucence自定义词库的基础上,根据字段的搜索量、搜索反馈信息及自定义权重变量线性叠加,按照字段权重动态分配公式定时计算字段权重值,再通过Lucence全文检索引擎的权重设置接口,将计算得到的字段权重值动态赋值给字段。
8.如权利要求7所述的基于Lucence自定义词库的全文检索匹配系统,其特征在于:所述字段权重动态分配公式为:
boost=(α*n+β*m+δ*In(t)+r)*ρ,
其中,boost为某字段权重值,n为某时段该字段被检索量,m为某时段该字段被检索后具有完整搜索反馈的总量,t为某时段该字段被检索后不完整搜索反馈的总量,r为自定义权重变量,例如:主播名、主播房间名、房间类型;α为检索量的系数因子,β为完整搜索反馈的系数因子,δ为不完整搜索反馈的系数因子,ρ为全局协调系数因子。
9.如权利要求8所述的基于Lucence自定义词库的全文检索匹配系统,其特征在于:所述自定义权重变量为主播名、主播房间名或房间类型。
10.如权利要求9所述的基于Lucence自定义词库的全文检索匹配系统,其特征在于:当系统出现转型或用户搜索喜好发生变化之后,所述自定义权重变量随之改变。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610321306.6A CN106021430B (zh) | 2016-05-16 | 2016-05-16 | 基于Lucence自定义词库的全文检索匹配方法及系统 |
PCT/CN2017/080784 WO2017198022A1 (zh) | 2016-05-16 | 2017-04-17 | 基于Lucence自定义词库的全文检索匹配方法及系统 |
US15/771,057 US20180260473A1 (en) | 2016-05-16 | 2017-04-17 | Full text retrieving and matching method and system based on lucene custom lexicon |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610321306.6A CN106021430B (zh) | 2016-05-16 | 2016-05-16 | 基于Lucence自定义词库的全文检索匹配方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106021430A true CN106021430A (zh) | 2016-10-12 |
CN106021430B CN106021430B (zh) | 2018-01-19 |
Family
ID=57097899
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610321306.6A Active CN106021430B (zh) | 2016-05-16 | 2016-05-16 | 基于Lucence自定义词库的全文检索匹配方法及系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20180260473A1 (zh) |
CN (1) | CN106021430B (zh) |
WO (1) | WO2017198022A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107169115A (zh) * | 2017-05-22 | 2017-09-15 | 深圳市连用科技有限公司 | 添加自定义分词的方法及装置 |
WO2017198022A1 (zh) * | 2016-05-16 | 2017-11-23 | 武汉斗鱼网络科技有限公司 | 基于Lucence自定义词库的全文检索匹配方法及系统 |
CN110069536A (zh) * | 2018-08-14 | 2019-07-30 | 深圳开黑科技有限公司 | 基于游戏陪玩平台的车队搜索方法、设备及系统 |
CN111061836A (zh) * | 2019-12-18 | 2020-04-24 | 焦点科技股份有限公司 | 一种适用于Lucene全文检索引擎的自定义打分方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1664818A (zh) * | 2004-03-03 | 2005-09-07 | 微软公司 | 用于单词拆分的新词收集方法和系统 |
CN101158971A (zh) * | 2007-11-15 | 2008-04-09 | 深圳市迅雷网络技术有限公司 | 一种基于搜索引擎的搜索结果排序方法及装置 |
CN103455619A (zh) * | 2013-09-12 | 2013-12-18 | 焦点科技股份有限公司 | 一种基于Lucene分片结构的打分处理方法及系统 |
CN104133854A (zh) * | 2014-07-09 | 2014-11-05 | 新乡学院 | 一种MySQL多语言混合文本全文检索的实现方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102929902A (zh) * | 2012-07-05 | 2013-02-13 | 江苏新瑞峰信息科技有限公司 | 一种基于中文检索的分词方法及装置 |
US9298814B2 (en) * | 2013-03-15 | 2016-03-29 | Maritz Holdings Inc. | Systems and methods for classifying electronic documents |
CN103729463A (zh) * | 2014-01-14 | 2014-04-16 | 赛特斯信息科技股份有限公司 | 基于Lucene和Solr实现全文检索的方法 |
CN104469832B (zh) * | 2014-12-19 | 2018-03-02 | 武汉虹信通信技术有限责任公司 | 移动通信网络故障分析定位辅助系统 |
CN105404661A (zh) * | 2015-11-05 | 2016-03-16 | 浪潮(北京)电子信息产业有限公司 | 一种更新索引文件的方法及系统 |
CN106021430B (zh) * | 2016-05-16 | 2018-01-19 | 武汉斗鱼网络科技有限公司 | 基于Lucence自定义词库的全文检索匹配方法及系统 |
-
2016
- 2016-05-16 CN CN201610321306.6A patent/CN106021430B/zh active Active
-
2017
- 2017-04-17 WO PCT/CN2017/080784 patent/WO2017198022A1/zh active Application Filing
- 2017-04-17 US US15/771,057 patent/US20180260473A1/en not_active Abandoned
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1664818A (zh) * | 2004-03-03 | 2005-09-07 | 微软公司 | 用于单词拆分的新词收集方法和系统 |
CN101158971A (zh) * | 2007-11-15 | 2008-04-09 | 深圳市迅雷网络技术有限公司 | 一种基于搜索引擎的搜索结果排序方法及装置 |
CN103455619A (zh) * | 2013-09-12 | 2013-12-18 | 焦点科技股份有限公司 | 一种基于Lucene分片结构的打分处理方法及系统 |
CN104133854A (zh) * | 2014-07-09 | 2014-11-05 | 新乡学院 | 一种MySQL多语言混合文本全文检索的实现方法 |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2017198022A1 (zh) * | 2016-05-16 | 2017-11-23 | 武汉斗鱼网络科技有限公司 | 基于Lucence自定义词库的全文检索匹配方法及系统 |
CN107169115A (zh) * | 2017-05-22 | 2017-09-15 | 深圳市连用科技有限公司 | 添加自定义分词的方法及装置 |
CN110069536A (zh) * | 2018-08-14 | 2019-07-30 | 深圳开黑科技有限公司 | 基于游戏陪玩平台的车队搜索方法、设备及系统 |
CN111061836A (zh) * | 2019-12-18 | 2020-04-24 | 焦点科技股份有限公司 | 一种适用于Lucene全文检索引擎的自定义打分方法 |
CN111061836B (zh) * | 2019-12-18 | 2022-07-22 | 焦点科技股份有限公司 | 一种适用于Lucene全文检索引擎的自定义打分方法 |
Also Published As
Publication number | Publication date |
---|---|
WO2017198022A1 (zh) | 2017-11-23 |
CN106021430B (zh) | 2018-01-19 |
US20180260473A1 (en) | 2018-09-13 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104111933B (zh) | 获取业务对象标签、建立训练模型的方法及装置 | |
CN108628833B (zh) | 原创内容摘要确定方法及装置,原创内容推荐方法及装置 | |
CN100504866C (zh) | 一种综合搜索结果的排序系统及方法 | |
CN104537116B (zh) | 一种基于标签的图书搜索方法 | |
CN107180093B (zh) | 信息搜索方法及装置和时效性查询词识别方法及装置 | |
CN102163228B (zh) | 用于确定资源候选项的排序结果的方法、装置及设备 | |
CN102682120B (zh) | 一种网络评论精华文本的获取方法和装置 | |
EP1891558A2 (en) | Relationship networks | |
CN105930539A (zh) | 话题订阅方法和装置 | |
CN106021430A (zh) | 基于Lucence自定义词库的全文检索匹配方法及系统 | |
CN102262670A (zh) | 一种基于移动可视设备的跨媒体信息检索系统及方法 | |
CN102253996A (zh) | 一种多视角阶段式的图像聚类方法 | |
CN101923556B (zh) | 根据句子序列号进行网页搜索的方法和装置 | |
CN104951435A (zh) | 聊天过程中智能显示关键词的方法及装置 | |
CN106294358A (zh) | 一种信息的检索方法及系统 | |
CN105989077B (zh) | 一种基于推荐的兴趣社区用户引导方法 | |
Chiny et al. | Netflix recommendation system based on TF-IDF and cosine similarity algorithms | |
CN111488429A (zh) | 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法 | |
CN105279289B (zh) | 基于指数衰减窗口的个性化音乐推荐排序方法 | |
CN107992563B (zh) | 一种用户浏览内容的推荐方法及系统 | |
CN102063497B (zh) | 一种开放式知识共享平台及其词条处理方法 | |
CN110347812B (zh) | 一种面向司法文本的搜索排序方法及系统 | |
CN109284362B (zh) | 一种内容检索方法及系统 | |
CN105005555A (zh) | 基于聊天时间的关键词提取方法及装置 | |
CN109992694A (zh) | 一种音乐智能推荐方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant | ||
TR01 | Transfer of patent right |
Effective date of registration: 20231112 Address after: Room 1006, Building 19, Donghai Taihe Plaza, No. 1466 Daxing Street, Fashi Community, Donghai Street, Fengze District, Quanzhou City, Fujian Province, 362000 Patentee after: Quanzhou Qitu Network Technology Co.,Ltd. Address before: 430000 East Lake Development Zone, Wuhan City, Hubei Province, No. 1 Software Park East Road 4.1 Phase B1 Building 11 Building Patentee before: WUHAN DOUYU NETWORK TECHNOLOGY Co.,Ltd. |
|
TR01 | Transfer of patent right |