CN106021430A - 基于Lucence自定义词库的全文检索匹配方法及系统 - Google Patents

基于Lucence自定义词库的全文检索匹配方法及系统 Download PDF

Info

Publication number
CN106021430A
CN106021430A CN201610321306.6A CN201610321306A CN106021430A CN 106021430 A CN106021430 A CN 106021430A CN 201610321306 A CN201610321306 A CN 201610321306A CN 106021430 A CN106021430 A CN 106021430A
Authority
CN
China
Prior art keywords
search
lucence
self
result
full
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201610321306.6A
Other languages
English (en)
Other versions
CN106021430B (zh
Inventor
白凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanzhou Qitu Network Technology Co ltd
Original Assignee
Wuhan Douyu Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan Douyu Network Technology Co Ltd filed Critical Wuhan Douyu Network Technology Co Ltd
Priority to CN201610321306.6A priority Critical patent/CN106021430B/zh
Publication of CN106021430A publication Critical patent/CN106021430A/zh
Priority to PCT/CN2017/080784 priority patent/WO2017198022A1/zh
Priority to US15/771,057 priority patent/US20180260473A1/en
Application granted granted Critical
Publication of CN106021430B publication Critical patent/CN106021430B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3325Reformulation based on results of preceding query
    • G06F16/3326Reformulation based on results of preceding query using relevance feedback from the user, e.g. relevance feedback on documents, documents sets, document terms or passages
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3335Syntactic pre-processing, e.g. stopword elimination, stemming
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/374Thesaurus

Abstract

本发明公开了一种基于Lucence自定义词库的全文检索匹配方法及系统,涉及大数据搜索领域。该方法包括以下步骤:在Lucence搜索环境中,实时获取用户输入的搜索词,检测是否搜索到结果,搜索不到,则将搜索词去掉特殊字符,存入Lucence自定义词库;搜索到,则对搜索词进行分词,对分词后的若干词组继续进行搜索,检测是否搜索到结果,搜索不到,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;搜索到,则记录搜索的时间、分词后的搜索词、搜索反馈信息,最终建立支持Lucence全文检索的Lucence自定义词库。本发明根据用户输入的搜索词,能够快速有效地建立自己专用的Lucence自定义词库。

Description

基于Lucence自定义词库的全文检索匹配方法及系统
技术领域
本发明涉及大数据搜索领域,具体是涉及一种基于Lucence自定义词库的全文检索匹配方法及系统。
背景技术
Apache Lucence是一个开放源代码的全文检索引擎工具包,但它不是一个完整的全文检索引擎,而是一个全文检索引擎的架构,提供了完整的查询引擎和索引引擎,部分文本分析引擎。
为了便于读者理解,下面先对相关术语进行简单说明:
Apache Lucence:Apache旗下一款开源全文检索项目;
全文检索:不同于传统的模糊匹配,先对搜索词按一定规则分词后,再将分词与源数据进行匹配,根据出现分词次数,分词邻近距离,权重等数据进行打分,获得检索结果;
分词:全文检索索引,例如:我是中国人,其分词可为:我、是、中国、人、中国人等;
公共词库:存放公共分词规则的词库,例如,常用的:你好、中国等;
自定义词库:根据自己需求,用于存放自己需要的分词规则的字典词库;
搜索反馈:搜索效果反馈,即用户输入搜索词进入搜索页面后,是否有点击页面链接亦或在多次翻页之后点击链接;
搜索量:某一搜索词某时段全站搜索量;
字段:需要搜索的字段,例如:游戏名、主播名、房间名等。
在Apache Lucence全文检索中,需要对源数据进行分词索引。若没有针对特定词组进行分词处理,则该词组无法被检索到。例如,针对游戏直播领域的搜索,“英雄联盟”、“Dota2”、“炉石传说”等在公共词库中基本不会出现的词汇,将很难被检索到。因此,如何获取用户最需要检索的词汇,并生成自定义词库是在全文检索领域一个重要的难点。
发明内容
本发明的目的是为了克服上述背景技术的不足,提供一种基于Lucence自定义词库的全文检索匹配方法及系统,根据用户输入的搜索词,能够快速有效地建立自己专用的Lucence自定义词库。
本发明提供一种基于Lucence自定义词库的全文检索匹配方法,包括以下步骤:
在基于Lucence全文检索引擎的搜索环境中,实时获取用户输入的搜索词,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的搜索词去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则对搜索到结果的搜索词进行分词处理,得到分词后的若干词组;对分词后的若干词组继续进行搜索,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则记录搜索的时间、分词后的搜索词、搜索反馈信息,最终建立支持Lucence全文检索的Lucence自定义词库。
在上述技术方案的基础上,所述建立支持Lucence全文检索的Lucence自定义词库之后,还包括以下步骤:在建立支持Lucence全文检索的Lucence自定义词库的基础上,根据字段的搜索量、搜索反馈信息及自定义权重变量线性叠加,按照字段权重动态分配公式定时计算字段权重值,再通过Lucence全文检索引擎的权重设置接口,将计算得到的字段权重值动态赋值给字段。
在上述技术方案的基础上,所述字段权重动态分配公式为:
boost=(α*n+β*m+δ*In(t)+r)*ρ,
其中,boost为某字段权重值,n为某时段该字段被检索量,m为某时段该字段被检索后具有完整搜索反馈的总量,t为某时段该字段被检索后不完整搜索反馈的总量,r为自定义权重变量,α为检索量的系数因子,β为完整搜索反馈的系数因子,δ为不完整搜索反馈的系数因子,ρ为全局协调系数因子。
在上述技术方案的基础上,所述自定义权重变量为主播名、主播房间名或房间类型。
在上述技术方案的基础上,当系统出现转型或用户搜索喜好发生变化之后,所述自定义权重变量随之改变。
本发明还提供一种基于Lucence自定义词库的全文检索匹配系统,该系统包括Lucence自定义词库建立单元,所述Lucence自定义词库建立单元用于建立支持Lucence全文检索的Lucence自定义词库:在基于Lucence全文检索引擎的搜索环境中,实时获取用户输入的搜索词,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的搜索词去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则对搜索到结果的搜索词进行分词处理,得到分词后的若干词组;对分词后的若干词组继续进行搜索,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则记录搜索的时间、分词后的搜索词、搜索反馈信息。
在上述技术方案的基础上,该系统还包括字段权重动态分配单元,所述字段权重动态分配单元用于动态分配字段权重:在Lucence自定义词库的基础上,根据字段的搜索量、搜索反馈信息及自定义权重变量线性叠加,按照字段权重动态分配公式定时计算字段权重值,再通过Lucence全文检索引擎的权重设置接口,将计算得到的字段权重值动态赋值给字段。
在上述技术方案的基础上,所述字段权重动态分配公式为:
boost=(α*n+β*m+δ*In(t)+r)*ρ,
其中,boost为某字段权重值,n为某时段该字段被检索量,m为某时段该字段被检索后具有完整搜索反馈的总量,t为某时段该字段被检索后不完整搜索反馈的总量,r为自定义权重变量,例如:主播名、主播房间名、房间类型;α为检索量的系数因子,β为完整搜索反馈的系数因子,δ为不完整搜索反馈的系数因子,ρ为全局协调系数因子。
在上述技术方案的基础上,所述自定义权重变量为主播名、主播房间名或房间类型。
在上述技术方案的基础上,当系统出现转型或用户搜索喜好发生变化之后,所述自定义权重变量随之改变。
与现有技术相比,本发明的优点如下:
(1)本发明在基于Lucence全文检索引擎的搜索环境中,建立用于进行Lucence全文检索的Lucence自定义词库,实时获取用户输入的搜索词,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的搜索词去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则对搜索到结果的搜索词进行分词处理,得到分词后的若干词组;对分词后的若干词组继续进行检索,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则记录搜索的时间、分词后的搜索词、搜索反馈信息。本发明根据用户输入的搜索词,能够快速有效地建立自己专用的Lucence自定义词库,形成符合当前搜索环境的Lucence自定义词库,用于Lucence全文检索,可达到更佳的搜索效果。例如,对于游戏直播,可能用户更期望搜索关于“YYF”、“55开”、“安德罗妮”等信息,采用常规词库可能无法满足这类需求。采用本发明实施例的方法,在首次搜索时,可能也不会得到最优结果,但是,随着Lucence自定义词库不断迭代更新,搜索结果会随着用户的搜索量上涨逐渐优化。
(2)本发明在Lucence自定义词库的基础上,动态分配字段权重:根据字段的搜索量、搜索反馈信息及自定义权重变量线性叠加,按照字段权重动态分配公式定时计算字段权重值,再通过Lucence全文检索引擎的权重设置接口(setboost),将计算得到的字段权重值动态赋值给字段,能够稳定有效地动态分配各字段权重。当系统出现转型或用户搜索喜好发生变化之后,自定义权重变量随之改变。例如,搜索系统有以下几个字段:主播名、主播房间名、房间类型。系统一开始需要搜索对主播名的搜索更侧重,则只需要增大自定义权重,即字段权重动态分配公式中的自定义权重变量。
附图说明
图1是本发明实施例中基于Lucence自定义词库的全文检索匹配方法的流程图。
具体实施方式
下面结合附图及具体实施例对本发明作进一步的详细描述。
参见图1所示,本发明实施例提供一种基于Lucence自定义词库的全文检索匹配方法,包括以下步骤:
S1、建立支持Lucence全文检索的Lucence自定义词库:在基于Lucence全文检索引擎的搜索环境中,实时获取用户输入的搜索词,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的搜索词去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则对搜索到结果的搜索词进行分词处理,得到分词后的若干词组;对分词后的若干词组继续进行搜索,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则记录搜索的时间、分词后的搜索词、搜索反馈信息,最终建立支持Lucence全文检索的Lucence自定义词库;
S2、动态分配字段权重:在建立支持Lucence全文检索的Lucence自定义词库的基础上,根据字段的搜索量、搜索反馈信息及自定义权重变量线性叠加,按照字段权重动态分配公式定时计算字段权重值,再通过Lucence全文检索引擎的权重设置接口(setboost),将计算得到的字段权重值动态赋值给字段;
字段权重动态分配公式为:
boost=(α*n+β*m+δ*In(t)+r)*ρ,
其中,boost为某字段权重值,n为某时段该字段被检索量,m为某时段该字段被检索后具有完整搜索反馈的总量,t为某时段该字段被检索后不完整搜索反馈的总量,r为自定义权重变量,例如:主播名、主播房间名、房间类型;α为检索量的系数因子,β为完整搜索反馈的系数因子,δ为不完整搜索反馈的系数因子,ρ为全局协调系数因子。
自定义权重变量可以为主播名、主播房间名或房间类型,当系统出现转型或用户搜索喜好发生变化之后,自定义权重变量随之改变。
本发明实施例还提供一种基于Lucence自定义词库的全文检索匹配系统,该系统包括Lucence自定义词库建立单元和字段权重动态分配单元,其中:
Lucence自定义词库建立单元用于建立支持Lucence全文检索的Lucence自定义词库:在基于Lucence全文检索引擎的搜索环境中,实时获取用户输入的搜索词,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的搜索词去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则对搜索到结果的搜索词进行分词处理,得到分词后的若干词组;对分词后的若干词组继续进行搜索,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则记录搜索的时间、分词后的搜索词、搜索反馈信息;
字段权重动态分配单元用于动态分配字段权重:在建立支持Lucence全文检索的Lucence自定义词库的基础上,根据字段的搜索量、搜索反馈信息及自定义权重变量线性叠加,按照字段权重动态分配公式定时计算字段权重值,再通过Lucence全文检索引擎的权重设置接口(setboost),将计算得到的字段权重值动态赋值给字段;
字段权重动态分配公式为:
boost=(α*n+β*m+δ*In(t)+r)*ρ,
其中,boost为某字段权重值,n为某时段该字段被检索量,m为某时段该字段被检索后具有完整搜索反馈的总量,t为某时段该字段被检索后不完整搜索反馈的总量,r为自定义权重变量,例如:主播名、主播房间名、房间类型;α为检索量的系数因子,β为完整搜索反馈的系数因子,δ为不完整搜索反馈的系数因子,ρ为全局协调系数因子。
自定义权重变量可以为主播名、主播房间名或房间类型,当系统出现转型或用户搜索喜好发生变化之后,自定义权重变量随之改变。
本发明实施例根据用户输入条件,能够快速有效地建立自己专用的Lucence自定义词库,并且形成符合当前搜索环境的Lucence自定义词库,用于Lucence全文检索,可达到更佳的搜索效果。
例如,对于游戏直播,可能用户更期望搜索关于“YYF”、“55开”、“安德罗妮”等信息,采用常规词库可能无法满足这类需求。采用本发明实施例的方法,在首次搜索时,可能也不会得到最优结果,但是,随着Lucence自定义词库不断迭代更新,搜索结果会随着用户的搜索量上涨逐渐优化。
此外,在搜索系统中,权重往往被赋予为某一常量,这种设定在某一时期可能会得到良好的搜素结果。然而,随着系统的转型,用户人群口味变更或者源数据的变化等因素,这一设定便将难以获得准确的结果。在多字段检索中,如何根据搜索反馈效果,搜索量等因素动态分配各字段权重以达到最优匹配结果,也是本领域技术人员需要重点考虑的。
例如,搜索系统中的用户一开始只是对某几个主播感兴趣,则他们对主播名的搜索结果更加看重,系统中主播名的搜索量变化加大,搜索反馈效果也会最为良好,权重也会动态偏向这一字段;然而,随着用户对系统的逐渐了解,他们更对房间内容关注更多,则相应的其搜索量便会增大,且反馈效果也更为良好,自然,权重也会偏向到相应的房间名及房间类型。
当系统出现转型或用户搜索喜好发生变化之后,自定义权重变量随之改变。例如,搜索系统有以下几个字段:主播名、主播房间名、房间类型。系统一开始需要搜索对主播名的搜索更侧重,则只需要增大自定义权重,即字段权重动态分配公式中的自定义权重变量。
本领域的技术人员可以对本发明实施例进行各种修改和变型,倘若这些修改和变型在本发明权利要求及其等同技术的范围之内,则这些修改和变型也在本发明的保护范围之内。
说明书中未详细描述的内容为本领域技术人员公知的现有技术。

Claims (10)

1.一种基于Lucence自定义词库的全文检索匹配方法,其特征在于,包括以下步骤:
在基于Lucence全文检索引擎的搜索环境中,实时获取用户输入的搜索词,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的搜索词去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则对搜索到结果的搜索词进行分词处理,得到分词后的若干词组;对分词后的若干词组继续进行搜索,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则记录搜索的时间、分词后的搜索词、搜索反馈信息,最终建立支持Lucence全文检索的Lucence自定义词库。
2.如权利要求1所述的基于Lucence自定义词库的全文检索匹配方法,其特征在于:所述建立支持Lucence全文检索的Lucence自定义词库之后,还包括以下步骤:在建立支持Lucence全文检索的Lucence自定义词库的基础上,根据字段的搜索量、搜索反馈信息及自定义权重变量线性叠加,按照字段权重动态分配公式定时计算字段权重值,再通过Lucence全文检索引擎的权重设置接口,将计算得到的字段权重值动态赋值给字段。
3.如权利要求2所述的基于Lucence自定义词库的全文检索匹配方法,其特征在于:所述字段权重动态分配公式为:
boost=(α*n+β*m+δ*In(t)+r)*ρ,
其中,boost为某字段权重值,n为某时段该字段被检索量,m为某时段该字段被检索后具有完整搜索反馈的总量,t为某时段该字段被检索后不完整搜索反馈的总量,r为自定义权重变量,α为检索量的系数因子,β为完整搜索反馈的系数因子,δ为不完整搜索反馈的系数因子,ρ为全局协调系数因子。
4.如权利要求3所述的基于Lucence自定义词库的全文检索匹配方法,其特征在于:所述自定义权重变量为主播名、主播房间名或房间类型。
5.如权利要求4所述的基于Lucence自定义词库的全文检索匹配方法,其特征在于:当系统出现转型或用户搜索喜好发生变化之后,所述自定义权重变量随之改变。
6.一种基于Lucence自定义词库的全文检索匹配系统,其特征在于:该系统包括Lucence自定义词库建立单元,所述Lucence自定义词库建立单元用于建立支持Lucence全文检索的Lucence自定义词库:在基于Lucence全文检索引擎的搜索环境中,实时获取用户输入的搜索词,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的搜索词去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则对搜索到结果的搜索词进行分词处理,得到分词后的若干词组;对分词后的若干词组继续进行搜索,检测是否搜索到结果,如果搜索不到结果,则将搜索不到结果的分词后的词组去掉特殊字符,存入Lucence自定义词库;如果搜索到结果,则记录搜索的时间、分词后的搜索词、搜索反馈信息。
7.如权利要求6所述的基于Lucence自定义词库的全文检索匹配系统,其特征在于:该系统还包括字段权重动态分配单元,所述字段权重动态分配单元用于动态分配字段权重:在Lucence自定义词库的基础上,根据字段的搜索量、搜索反馈信息及自定义权重变量线性叠加,按照字段权重动态分配公式定时计算字段权重值,再通过Lucence全文检索引擎的权重设置接口,将计算得到的字段权重值动态赋值给字段。
8.如权利要求7所述的基于Lucence自定义词库的全文检索匹配系统,其特征在于:所述字段权重动态分配公式为:
boost=(α*n+β*m+δ*In(t)+r)*ρ,
其中,boost为某字段权重值,n为某时段该字段被检索量,m为某时段该字段被检索后具有完整搜索反馈的总量,t为某时段该字段被检索后不完整搜索反馈的总量,r为自定义权重变量,例如:主播名、主播房间名、房间类型;α为检索量的系数因子,β为完整搜索反馈的系数因子,δ为不完整搜索反馈的系数因子,ρ为全局协调系数因子。
9.如权利要求8所述的基于Lucence自定义词库的全文检索匹配系统,其特征在于:所述自定义权重变量为主播名、主播房间名或房间类型。
10.如权利要求9所述的基于Lucence自定义词库的全文检索匹配系统,其特征在于:当系统出现转型或用户搜索喜好发生变化之后,所述自定义权重变量随之改变。
CN201610321306.6A 2016-05-16 2016-05-16 基于Lucence自定义词库的全文检索匹配方法及系统 Active CN106021430B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201610321306.6A CN106021430B (zh) 2016-05-16 2016-05-16 基于Lucence自定义词库的全文检索匹配方法及系统
PCT/CN2017/080784 WO2017198022A1 (zh) 2016-05-16 2017-04-17 基于Lucence自定义词库的全文检索匹配方法及系统
US15/771,057 US20180260473A1 (en) 2016-05-16 2017-04-17 Full text retrieving and matching method and system based on lucene custom lexicon

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610321306.6A CN106021430B (zh) 2016-05-16 2016-05-16 基于Lucence自定义词库的全文检索匹配方法及系统

Publications (2)

Publication Number Publication Date
CN106021430A true CN106021430A (zh) 2016-10-12
CN106021430B CN106021430B (zh) 2018-01-19

Family

ID=57097899

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610321306.6A Active CN106021430B (zh) 2016-05-16 2016-05-16 基于Lucence自定义词库的全文检索匹配方法及系统

Country Status (3)

Country Link
US (1) US20180260473A1 (zh)
CN (1) CN106021430B (zh)
WO (1) WO2017198022A1 (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107169115A (zh) * 2017-05-22 2017-09-15 深圳市连用科技有限公司 添加自定义分词的方法及装置
WO2017198022A1 (zh) * 2016-05-16 2017-11-23 武汉斗鱼网络科技有限公司 基于Lucence自定义词库的全文检索匹配方法及系统
CN110069536A (zh) * 2018-08-14 2019-07-30 深圳开黑科技有限公司 基于游戏陪玩平台的车队搜索方法、设备及系统
CN111061836A (zh) * 2019-12-18 2020-04-24 焦点科技股份有限公司 一种适用于Lucene全文检索引擎的自定义打分方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1664818A (zh) * 2004-03-03 2005-09-07 微软公司 用于单词拆分的新词收集方法和系统
CN101158971A (zh) * 2007-11-15 2008-04-09 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
CN103455619A (zh) * 2013-09-12 2013-12-18 焦点科技股份有限公司 一种基于Lucene分片结构的打分处理方法及系统
CN104133854A (zh) * 2014-07-09 2014-11-05 新乡学院 一种MySQL多语言混合文本全文检索的实现方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102929902A (zh) * 2012-07-05 2013-02-13 江苏新瑞峰信息科技有限公司 一种基于中文检索的分词方法及装置
US9298814B2 (en) * 2013-03-15 2016-03-29 Maritz Holdings Inc. Systems and methods for classifying electronic documents
CN103729463A (zh) * 2014-01-14 2014-04-16 赛特斯信息科技股份有限公司 基于Lucene和Solr实现全文检索的方法
CN104469832B (zh) * 2014-12-19 2018-03-02 武汉虹信通信技术有限责任公司 移动通信网络故障分析定位辅助系统
CN105404661A (zh) * 2015-11-05 2016-03-16 浪潮(北京)电子信息产业有限公司 一种更新索引文件的方法及系统
CN106021430B (zh) * 2016-05-16 2018-01-19 武汉斗鱼网络科技有限公司 基于Lucence自定义词库的全文检索匹配方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1664818A (zh) * 2004-03-03 2005-09-07 微软公司 用于单词拆分的新词收集方法和系统
CN101158971A (zh) * 2007-11-15 2008-04-09 深圳市迅雷网络技术有限公司 一种基于搜索引擎的搜索结果排序方法及装置
CN103455619A (zh) * 2013-09-12 2013-12-18 焦点科技股份有限公司 一种基于Lucene分片结构的打分处理方法及系统
CN104133854A (zh) * 2014-07-09 2014-11-05 新乡学院 一种MySQL多语言混合文本全文检索的实现方法

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017198022A1 (zh) * 2016-05-16 2017-11-23 武汉斗鱼网络科技有限公司 基于Lucence自定义词库的全文检索匹配方法及系统
CN107169115A (zh) * 2017-05-22 2017-09-15 深圳市连用科技有限公司 添加自定义分词的方法及装置
CN110069536A (zh) * 2018-08-14 2019-07-30 深圳开黑科技有限公司 基于游戏陪玩平台的车队搜索方法、设备及系统
CN111061836A (zh) * 2019-12-18 2020-04-24 焦点科技股份有限公司 一种适用于Lucene全文检索引擎的自定义打分方法
CN111061836B (zh) * 2019-12-18 2022-07-22 焦点科技股份有限公司 一种适用于Lucene全文检索引擎的自定义打分方法

Also Published As

Publication number Publication date
WO2017198022A1 (zh) 2017-11-23
CN106021430B (zh) 2018-01-19
US20180260473A1 (en) 2018-09-13

Similar Documents

Publication Publication Date Title
CN104111933B (zh) 获取业务对象标签、建立训练模型的方法及装置
CN108628833B (zh) 原创内容摘要确定方法及装置,原创内容推荐方法及装置
CN100504866C (zh) 一种综合搜索结果的排序系统及方法
CN104537116B (zh) 一种基于标签的图书搜索方法
CN107180093B (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN102163228B (zh) 用于确定资源候选项的排序结果的方法、装置及设备
CN102682120B (zh) 一种网络评论精华文本的获取方法和装置
EP1891558A2 (en) Relationship networks
CN105930539A (zh) 话题订阅方法和装置
CN106021430A (zh) 基于Lucence自定义词库的全文检索匹配方法及系统
CN102262670A (zh) 一种基于移动可视设备的跨媒体信息检索系统及方法
CN102253996A (zh) 一种多视角阶段式的图像聚类方法
CN101923556B (zh) 根据句子序列号进行网页搜索的方法和装置
CN104951435A (zh) 聊天过程中智能显示关键词的方法及装置
CN106294358A (zh) 一种信息的检索方法及系统
CN105989077B (zh) 一种基于推荐的兴趣社区用户引导方法
Chiny et al. Netflix recommendation system based on TF-IDF and cosine similarity algorithms
CN111488429A (zh) 一种基于搜索引擎的短文本聚类系统及其短文本聚类方法
CN105279289B (zh) 基于指数衰减窗口的个性化音乐推荐排序方法
CN107992563B (zh) 一种用户浏览内容的推荐方法及系统
CN102063497B (zh) 一种开放式知识共享平台及其词条处理方法
CN110347812B (zh) 一种面向司法文本的搜索排序方法及系统
CN109284362B (zh) 一种内容检索方法及系统
CN105005555A (zh) 基于聊天时间的关键词提取方法及装置
CN109992694A (zh) 一种音乐智能推荐方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231112

Address after: Room 1006, Building 19, Donghai Taihe Plaza, No. 1466 Daxing Street, Fashi Community, Donghai Street, Fengze District, Quanzhou City, Fujian Province, 362000

Patentee after: Quanzhou Qitu Network Technology Co.,Ltd.

Address before: 430000 East Lake Development Zone, Wuhan City, Hubei Province, No. 1 Software Park East Road 4.1 Phase B1 Building 11 Building

Patentee before: WUHAN DOUYU NETWORK TECHNOLOGY Co.,Ltd.

TR01 Transfer of patent right