CN110362813B - 基于bm25的搜索相关性度量方法、存储介质、设备及系统 - Google Patents

基于bm25的搜索相关性度量方法、存储介质、设备及系统 Download PDF

Info

Publication number
CN110362813B
CN110362813B CN201810311995.1A CN201810311995A CN110362813B CN 110362813 B CN110362813 B CN 110362813B CN 201810311995 A CN201810311995 A CN 201810311995A CN 110362813 B CN110362813 B CN 110362813B
Authority
CN
China
Prior art keywords
search
intention
user
word
intent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810311995.1A
Other languages
English (en)
Other versions
CN110362813A (zh
Inventor
王璐
陈少杰
张文明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Lewanjia Fortune Beijing Technology Co ltd
Original Assignee
Lewanjia Fortune Beijing Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Lewanjia Fortune Beijing Technology Co ltd filed Critical Lewanjia Fortune Beijing Technology Co ltd
Priority to CN201810311995.1A priority Critical patent/CN110362813B/zh
Publication of CN110362813A publication Critical patent/CN110362813A/zh
Application granted granted Critical
Publication of CN110362813B publication Critical patent/CN110362813B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于BM25的搜索相关性度量方法、存储介质、设备及系统,涉及大数据搜索领域,包括对用户的搜索查询文本进行分词处理,得到多个分词;基于得到的分词,对用户的搜索意图匹配的相关性进行计算;对计算得到的搜索意图匹配相关性得分进行判断,若搜索意图匹配相关性得分大于设定阈值,则用户此次搜索查询的意图识别有效,否则用户此次搜索查询的意图识别无效。本发明基于BM25算法进行搜索意图识别相关性度量计算,对意图匹配的相关性进行有效衡量。

Description

基于BM25的搜索相关性度量方法、存储介质、设备及系统
技术领域
本发明涉及大数据搜索领域,具体涉及一种基于BM25的搜索相关性度量方法、存储介质、设备及系统。
背景技术
在直播领域,直播服务器可以根据用户的搜索词或短句查询来猜测用户的真实意图,即根本用户的模糊或不太准确的搜索词来猜测用户真实要搜索的内容,通过其真实意图返回给用户更加准确的搜索结果。然而,返回的结果究竟能够在多大程度上反映用户的真实意图是需要进行度量的,如果相关性较差,那么这种识别出来的弱意图产生的实际效用会非常低。因此,我们需要解决的问题是如何对意图匹配的相关性进行衡量,从而判断意图识别的有效性。
不同于直接根据搜索词的文本匹配返回结果的场景,在使用意图识别算法后返回的搜索结果与搜索词之间可能并没有文本上的相关性,因此采用文本距离去衡量相关性就显得十分片面。而采用TF-IDF的搜索意图识别相关性度量方法,虽然可以解决传统相关性度量方法无法适用的问题,然而在该算法中,意图域中词的总数对相关性的影响非常大。TF-IDF(term frequency–inverse document frequency)是一种用于信息检索与数据挖掘的常用加权技术。
发明内容
针对现有技术中存在的缺陷,本发明的目的在于提供一种基于BM25的搜索相关性度量方法,基于BM25算法进行搜索意图识别相关性度量计算,对意图匹配的相关性进行有效衡量。
为达到以上目的,本发明采取的技术方案是,包括:
对用户的搜索查询文本进行分词处理,得到多个分词;
基于得到的分词,对用户的搜索意图匹配的相关性进行计算:
其中,RQ为搜索意图匹配相关性得分,ti表示得到的分词中的第i个分词,H为意图域集合,由多个不同的意图域f组成,表示分词ti在意图域f中可以匹配到的次数,wf为意图域f在意图域集合H中的权重,/>是分词ti的倒排文档频率,Kf=k1*(1-b+b*nf/avg(nf)),其中,nf是意图域f中词的个数,k1和b是调节因子,avg(nf)是意图域集合中所有意图域的平均含有词个数;
对计算得到的搜索意图匹配相关性得分进行判断,若搜索意图匹配相关性得分大于设定阈值,则用户此次搜索查询的意图识别有效,否则用户此次搜索查询的意图识别无效。
在上述技术方案的基础上,对于其计算公式为:
其中,N是在设定时间段内所有分词查询的次数,N(ti)为在设定时间段内分词ti的查询次数。
在上述技术方案的基础上,所述搜索意图为基于用户的搜索文本判断得到的用户实际要搜索的意图内容。
在上述技术方案的基础上,所述意图域为根据业务经验对用户的搜索意图进行划分的意图集合,且每个意图域由多个索引词组成。
在上述技术方案的基础上,在直播领域的搜索中,意图域集合包括主播意图域和分区意图域。
本发明还提供一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法。
本发明还提供一种存储介质,该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现上述所述的方法。
本发明还提供一种基于BM25的搜索相关性度量系统,包括:
分词处理模块,其用于对用户的搜索查询文本进行分词处理,得到多个分词;
计算模块,其用于基于得到的分词,对用户的搜索意图匹配的相关性进行计算:
其中,RQ为搜索意图匹配相关性得分,ti表示得到的分词中的第i个分词,H为意图域集合,由多个不同的意图域f组成,表示分词ti在意图域f中可以匹配到的次数,wf为意图域f在意图域集合H中的权重,/>是分词ti的倒排文档频率,Kf=k1*(1-b+b*nf/avg(nf)),其中,nf是意图域f中词的个数,k1和b是调节因子,avg(nf)是意图域集合中所有意图域的平均含有词个数;
判断模块,其用于对计算得到的搜索意图匹配相关性得分进行判断,若搜索意图匹配相关性得分大于设定阈值,则用户此次搜索查询的意图识别有效,否则用户此次搜索查询的意图识别无效。
在上述技术方案的基础上,对于其计算公式为:
其中,N是在设定时间段内所有分词查询的次数,N(ti)为在设定时间段内分词ti的查询次数。
在上述技术方案的基础上,所述搜索意图为基于用户的搜索文本判断得到的用户实际要搜索的意图内容。
与现有技术相比,本发明的优点在于:对用户的搜索查询文本进行分词处理,得到多个分词,然后基于得到的分词,对用户的搜索意图匹配的相关性进行计算,最后对计算得到的搜索意图匹配相关性得分进行判断,若搜索意图匹配相关性得分大于设定阈值,则用户此次搜索查询的意图识别有效,否则用户此次搜索查询的意图识别无效,基于BM25算法进行搜索意图识别相关性度量计算,对意图匹配的相关性进行有效衡量,判断意图识别的有效性,计算准确。
附图说明
图1为本发明实施例中一种基于BM25的搜索相关性度量方法的流程图;
图2为本发明实施例中一种基于BM25的搜索相关性度量设备的结构示意图。
具体实施方式
以下结合附图及实施例对本发明作进一步详细说明。
参见图1所示,本发明实施例提供一种基于BM25的搜索相关性度量方法,用于对搜索意图匹配的相关性进行度量,搜索意图为基于用户的搜索文本判断得到的用户实际要搜索的意图内容,例如某用户要搜索某位主播,而不记得该主播的名字,该用户的搜索文本为对该主播的外观描述和直播内容描述,则该用户的搜索意图为该主播的名字。BM25算法是一种常见的查询文本和文档之间相似度的计算方法。本发明实施例的基于BM25的搜索相关性度量方法具体包括以下步骤:
S1:对用户的搜索查询文本进行分词处理,得到多个分词,用户在进行搜索时,所输入的搜索查询文本通常是一段对搜索目标描述性的话,一般由形容词和名词组成,因此可以对用户的搜索查询文本进行拆分,拆分成单个的词语,拆分得到的词语变为分词,若搜索查询文本由2个词语组成,则拆分得到2个分词,如用户的搜索查询文本为户外生存,则分词处理后得到“户外”和“生存”两个分词,若搜索查询文本由2个以上的词语组成,则拆分对应得到2个以上的分词,在一种极端情况下,搜索查询文本为一个词语,则拆分得到的分词为一个,且就是搜索查询文本本身。
S2:基于得到的分词,对用户的搜索意图匹配的相关性进行计算:
其中,RQ为搜索意图匹配相关性得分,ti表示得到的分词中的第i个分词,H为意图域集合,由多个不同的意图域f组成,表示分词ti在意图域f中可以匹配到的次数,即意图域f中与分词ti相关的词的个数,wf为意图域f在意图域集合H中的权重,/>是分词ti的倒排文档频率,Kf=k1*(1-b+b*nf/avg(nf)),其中,nf是意图域f中词的个数,k1和b是调节因子,在对RQ的计算过程中,结合实际情景,人为对k1和b进行取值,以满足计算的需要,avg(nf)是意图域集合中所有意图域的平均含有词个数,意图域集合包括多个意图域。
意图域为根据业务经验对用户的搜索意图进行划分的意图集合,如在直播领域,则对用户的搜索意图划分为主播意图、分区意图等,且每个意图域由多个索引词组成。在直播领域的搜索中,意图域集合包括主播意图域和分区意图域,则与主播相关的分词搜索意图均属于直播意图域。直播中分区包括户外、游戏、颜值等,则与户外、游戏、颜值相关的分词搜索意图均属于分区意图域。
对于其计算公式为:
其中,N是在设定时间段内所有分词查询的次数,N(ti)为在设定时间段内分词ti的查询次数,设定的时间段一般为最近30天。
S3:对计算得到的搜索意图匹配相关性得分进行判断,若搜索意图匹配相关性得分大于设定阈值,则用户此次搜索查询的意图识别有效,否则用户此次搜索查询的意图识别无效,从而对用户搜索结果的相关性进行有效度量。
以下结合一实例对本发明实施例的基于BM25的搜索相关性度量方法进行具体说明。
假设意图域集合中有三个意图域,每个意图域的词个数以及意图域在意图域集合汇中的权重分别是:
意图域A:词个数为1000,权重为1.0
意图域B:词个数为400,权重为0.5
意图域C:词个数为100,权重为0.8
avg(nf)=(1000+400+100)/3=500
设置调节因子k1=0.3,b=0.5,于是:
KA=0.3*(1-0.5+0.5*1000/500)=0.45
KB=0.3*(1-0.5+0.5*400/500)=0.27
KC=0.3*(1-0.5+0.5*100/500)=0.18
假设用户的搜索查询文本根据分词可以分成两个分词t1、t2
其中t1匹配到了意图域A中的词语5次,t2匹配到了意图域B中的词语2次、意图域C中的词语1次;
总共有100000次查询,其中包含词语t1的查询有100次,包含词语t2的查询有200次;
于是该次查询的意图匹配相关性得分为:
1.3*(5/1000)/0.45*1.0*log(100000/100)+max(1.3*(2/400)/0.27*0.5,1.3*(1/100)/0.18*0.8)*log(100000/200)=0.4588
然后将0.4588与设定的阈值进行比较,即可判断用户此次搜索查询的意图识别是否有效,阈值的大小根据具体应用场景灵活设定。
本发明实施例的基于BM25的搜索相关性度量方法,对用户的搜索查询文本进行分词处理,得到多个分词,然后基于得到的分词,对用户的搜索意图匹配的相关性进行计算,最后对计算得到的搜索意图匹配相关性得分进行判断,若搜索意图匹配相关性得分大于设定阈值,则用户此次搜索查询的意图识别有效,否则用户此次搜索查询的意图识别无效,基于BM25算法进行搜索意图识别相关性度量计算,对意图匹配的相关性进行有效衡量,判断意图识别的有效性,计算准确。
另外,对应上述基于BM25的搜索相关性度量方法,本发明还提供一种存储介质,存储介质上存储有计算机程序,计算机程序被处理器执行时实现上述各实施例所述的基于BM25的搜索相关性度量方法的步骤。需要说明的是,所述存储介质包括U盘、移动硬盘、ROM(Read-Only Memory,只读存储器)、RAM(Random Access Memory,随机存取存储器)、磁碟或者光盘等各种可以存储程序代码的介质。
参见图2所示,对应上述基于BM25的搜索相关性度量方法,本发明还提供一种基于BM25的搜索相关性度量设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,处理器执行计算机程序时实现上述各实施例的基于BM25的搜索相关性度量方法。
本发明还提供一种基于上述基于BM25的搜索相关性度量方法的基于BM25的搜索相关性度量系统,包括分词处理模块、计算模块和判断模块。
分词处理模块用于对用户的搜索查询文本进行分词处理,得到多个分词;计算模块用于基于得到的分词,对用户的搜索意图匹配的相关性进行计算:
其中,RQ为搜索意图匹配相关性得分,ti表示得到的分词中的第i个分词,H为意图域集合,由多个不同的意图域f组成,表示分词ti在意图域f中可以匹配到的次数,wf为意图域f在意图域集合H中的权重,/>是分词ti的倒排文档频率,Kf=k1*(1-b+b*nf/avg(nf)),其中,nf是意图域f中词的个数,k1和b是调节因子,avg(nf)是意图域集合中所有意图域的平均含有词个数。搜索意图为基于用户的搜索文本判断得到的用户实际要搜索的意图内容。
判断模块,用于对计算得到的搜索意图匹配相关性得分进行判断,若搜索意图匹配相关性得分大于设定阈值,则用户此次搜索查询的意图识别有效,否则用户此次搜索查询的意图识别无效。
对于其计算公式为:
其中,N是在设定时间段内所有分词查询的次数,N(ti)为在设定时间段内分词ti的查询次数。
本发明实施例的基于BM25的搜索相关性度量系统,分词处理模块对用户的搜索查询文本进行分词处理,得到多个分词,然后计算模块基于得到的分词,对用户的搜索意图匹配的相关性进行计算,最后判断模块对计算得到的搜索意图匹配相关性得分进行判断,若搜索意图匹配相关性得分大于设定阈值,则用户此次搜索查询的意图识别有效,否则用户此次搜索查询的意图识别无效,基于BM25算法进行搜索意图识别相关性度量计算,对意图匹配的相关性进行有效衡量,判断意图识别的有效性,计算准确。
本发明不局限于上述实施方式,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims (10)

1.一种基于BM25的搜索相关性度量方法,用于对搜索意图匹配的相关性进行度量,其特征在于,包括以下步骤:
对用户的搜索查询文本进行分词处理,得到多个分词;
基于得到的分词,对用户的搜索意图匹配的相关性进行计算:
其中,RQ为搜索意图匹配相关性得分,ti表示得到的分词中的第i个分词,H为意图域集合,由多个不同的意图域f组成,表示分词ti在意图域f中可以匹配到的次数,wf为意图域f在意图域集合H中的权重,/>是分词ti的倒排文档频率,Kf=k1*(1-b+b*nf/avg(nf)),其中,nf是意图域f中词的个数,k1和b是调节因子,avg(nf)是意图域集合中所有意图域的平均含有词个数;
对计算得到的搜索意图匹配相关性得分进行判断,若搜索意图匹配相关性得分大于设定阈值,则用户此次搜索查询的意图识别有效,否则用户此次搜索查询的意图识别无效。
2.如权利要求1所述的一种基于BM25的搜索相关性度量方法,其特征在于:对于其计算公式为:
其中,N是在设定时间段内所有分词查询的次数,N(ti)为在设定时间段内分词ti的查询次数。
3.如权利要求1所述的一种基于BM25的搜索相关性度量方法,其特征在于:所述搜索意图为基于用户的搜索文本判断得到的用户实际要搜索的意图内容。
4.如权利要求3所述的一种基于BM25的搜索相关性度量方法,其特征在于:所述意图域为根据业务经验对用户的搜索意图进行划分的意图集合,且每个意图域由多个索引词组成。
5.如权利要求4所述的一种基于BM25的搜索相关性度量方法,其特征在于:在直播领域的搜索中,意图域集合包括主播意图域和分区意图域。
6.一种存储介质,该存储介质上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现权利要求1至5任一项所述的方法。
7.一种基于BM25的搜索相关性度量设备,包括存储器和处理器,存储器上储存有在处理器上运行的计算机程序,其特征在于:所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的方法。
8.一种基于BM25的搜索相关性度量系统,其特征在于,包括:
分词处理模块,其用于对用户的搜索查询文本进行分词处理,得到多个分词;
计算模块,其用于基于得到的分词,对用户的搜索意图匹配的相关性进行计算:
其中,RQ为搜索意图匹配相关性得分,ti表示得到的分词中的第i个分词,H为意图域集合,由多个不同的意图域f组成,表示分词ti在意图域f中可以匹配到的次数,wf为意图域f在意图域集合H中的权重,/>是分词ti的倒排文档频率,Kf=k1*(1-b+b*nf/avg(nf)),其中,nf是意图域f中词的个数,k1和b是调节因子,avg(nf)是意图域集合中所有意图域的平均含有词个数;
判断模块,其用于对计算得到的搜索意图匹配相关性得分进行判断,若搜索意图匹配相关性得分大于设定阈值,则用户此次搜索查询的意图识别有效,否则用户此次搜索查询的意图识别无效。
9.如权利要求8所述的一种基于BM25的搜索相关性度量系统,其特征在于:对于其计算公式为:
其中,N是在设定时间段内所有分词查询的次数,N(ti)为在设定时间段内分词ti的查询次数。
10.如权利要求8所述的一种基于BM25的搜索相关性度量系统,其特征在于:所述搜索意图为基于用户的搜索文本判断得到的用户实际要搜索的意图内容。
CN201810311995.1A 2018-04-09 2018-04-09 基于bm25的搜索相关性度量方法、存储介质、设备及系统 Active CN110362813B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810311995.1A CN110362813B (zh) 2018-04-09 2018-04-09 基于bm25的搜索相关性度量方法、存储介质、设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810311995.1A CN110362813B (zh) 2018-04-09 2018-04-09 基于bm25的搜索相关性度量方法、存储介质、设备及系统

Publications (2)

Publication Number Publication Date
CN110362813A CN110362813A (zh) 2019-10-22
CN110362813B true CN110362813B (zh) 2023-12-05

Family

ID=68212138

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810311995.1A Active CN110362813B (zh) 2018-04-09 2018-04-09 基于bm25的搜索相关性度量方法、存储介质、设备及系统

Country Status (1)

Country Link
CN (1) CN110362813B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579899A (zh) * 2020-12-21 2021-03-30 杭州米络星科技(集团)有限公司 一种主播的搜索方法和装置
CN112749255A (zh) * 2020-12-30 2021-05-04 科大国创云网科技有限公司 一种基于es的人机交互用语义识别意图匹配方法及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012154992A2 (en) * 2011-05-10 2012-11-15 Decarta Systems and methods for performing search and retrieval of electronic documents using a big index
WO2016041004A1 (en) * 2014-09-15 2016-03-24 Lumanetix Pty Ltd Method, system and computer-readable medium for obtaining a structured query from a search string
CN106933947A (zh) * 2017-01-20 2017-07-07 北京三快在线科技有限公司 一种搜索方法及装置、电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103246681B (zh) * 2012-02-13 2018-10-26 深圳市世纪光速信息技术有限公司 一种搜索方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012154992A2 (en) * 2011-05-10 2012-11-15 Decarta Systems and methods for performing search and retrieval of electronic documents using a big index
WO2016041004A1 (en) * 2014-09-15 2016-03-24 Lumanetix Pty Ltd Method, system and computer-readable medium for obtaining a structured query from a search string
CN106933947A (zh) * 2017-01-20 2017-07-07 北京三快在线科技有限公司 一种搜索方法及装置、电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于用户查询意图的搜索排序算法;张美珍等;《天津理工大学学报》;20120620(第03期);全文 *

Also Published As

Publication number Publication date
CN110362813A (zh) 2019-10-22

Similar Documents

Publication Publication Date Title
Bhatia et al. Automatic labelling of topics with neural embeddings
US9542476B1 (en) Refining search queries
US7961986B1 (en) Ranking of images and image labels
US8352474B2 (en) System and method for retrieving information using a query based index
CN110287309B (zh) 快速提取文本摘要的方法
US20170270159A1 (en) Determining query results in response to natural language queries
US20110258212A1 (en) Automatic query suggestion generation using sub-queries
US10810374B2 (en) Matching a query to a set of sentences using a multidimensional relevancy determination
US10152478B2 (en) Apparatus, system and method for string disambiguation and entity ranking
US10565253B2 (en) Model generation method, word weighting method, device, apparatus, and computer storage medium
US10528662B2 (en) Automated discovery using textual analysis
CN106528846B (zh) 一种检索方法及装置
CN105653562A (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN110321561B (zh) 一种关键词提取方法和装置
Dai et al. Query-biased partitioning for selective search
Srinivas et al. A weighted tag similarity measure based on a collaborative weight model
JP2018124617A (ja) 教師データ収集装置、教師データ収集方法、及びプログラム
CN110362813B (zh) 基于bm25的搜索相关性度量方法、存储介质、设备及系统
US9104946B2 (en) Systems and methods for comparing images
JP5367632B2 (ja) 知識量推定装置及びプログラム
JP2012079029A (ja) サジェスチョンクエリ抽出装置及び方法、並びにプログラム
US8892597B1 (en) Selecting data collections to search based on the query
CN111046169A (zh) 一种主题词的提取方法、装置、设备及存储介质
JP2013222418A (ja) パッセージ分割方法、装置、及びプログラム
CN115328945A (zh) 数据资产的检索方法、电子设备及计算机可读存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20231025

Address after: Room 101, 2nd Floor, Building 1, Yard 9, Yongfeng Road, Haidian District, Beijing, 100000

Applicant after: Lewanjia Fortune (Beijing) Technology Co.,Ltd.

Address before: 430000 East Lake Development Zone, Wuhan City, Hubei Province, No. 1 Software Park East Road 4.1 Phase B1 Building 11 Building

Applicant before: WUHAN DOUYU NETWORK TECHNOLOGY Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant