CN110019993B - 一种基于海量标准文献数据的排序优化算法技术实现方法 - Google Patents

一种基于海量标准文献数据的排序优化算法技术实现方法 Download PDF

Info

Publication number
CN110019993B
CN110019993B CN201711044274.0A CN201711044274A CN110019993B CN 110019993 B CN110019993 B CN 110019993B CN 201711044274 A CN201711044274 A CN 201711044274A CN 110019993 B CN110019993 B CN 110019993B
Authority
CN
China
Prior art keywords
search
standard
bibliographic
hierarchy
fuzzy
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711044274.0A
Other languages
English (en)
Other versions
CN110019993A (zh
Inventor
林雪
王文锋
孙良君
袁庆祝
陈斌
刘少华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhongbo Information Technology Research Institute Co ltd
Original Assignee
Zhongbo Information Technology Research Institute Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhongbo Information Technology Research Institute Co ltd filed Critical Zhongbo Information Technology Research Institute Co ltd
Priority to CN201711044274.0A priority Critical patent/CN110019993B/zh
Publication of CN110019993A publication Critical patent/CN110019993A/zh
Application granted granted Critical
Publication of CN110019993B publication Critical patent/CN110019993B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90348Query processing by searching ordered data, e.g. alpha-numerically ordered data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种基于海量标准文献数据的排序优化算法技术实现方法,属于标准文献关键词检索技术领域,基于solr搜索引擎,支持层面搜索、命中醒目显示,通过设置edismax query方式以及boost参数,在建索引schema时,设置排序字段BASE_ORDER作为基准boost打分,通过map函数为每个字段的模糊匹配与精确匹配规整为不同的层级,将这个层级和BASE_ORDER字段做算术加运算,即可进行倒序排序。本发明通过标准文献检索过程中对标准中的标题名称、题录、全文等多个字段进行权重打分,对字段赋予不同权重层级,针对标准号搜索进行特殊化搜索排序,提升标准文献检索的高效性、实用性。

Description

一种基于海量标准文献数据的排序优化算法技术实现方法
技术领域
本发明涉及一种标准文献检索排序处理算法,特别是涉及一种基于海量标准文献数据的排序优化算法技术实现方法,属于标准文献关键词检索技术领域。
背景技术
目前,标准电子文献检索与现有的普通文献检索既有共通性,也有其特性,现有的普通文献检索排序方法大多是基于统计词频率、词分组等方法来对检索关键词与目标文档关键词的匹配程度进行打分,从而实现对检索结果的排序。
在申请号为201010182289.5的中国专利中,公开了一种面向源文献元关键词的检索系统,其具有一定的通用性,但是直接将上述方法应用于标准文献检索中,在标准上查到结果的准确性和实用性方面表现效果不好,即搜索出来的结果不是用户真正需要的结果,由于标准文献检索需要对标准号、标准名称(中英文名)、标准题录(适用范围等)以及标准全文进行精确查询与模糊查询,需对不同类型字段设置不同的层级,这样则可给查询出来的每一条结果有个权重,然后这个权重值再与文档的基准boost打分BASE_ORDER字段做算术加运算,得出最终的一个boost分值,再进行排序。
发明内容
本发明的主要目的是为了提供一种基于海量标准文献数据的排序优化算法技术实现方法,解决现有的普通文献检索算法在标准行业检索中的命中准确率低、效率低的问题。
本发明的目的可以通过采用如下技术方案达到:
一种基于海量标准文献数据的排序优化算法技术实现方法,包括如下步骤:
步骤1:安装和配置Solr搜索服务器,Solr搜索引擎底层是基于lucene的分词组件,构建SolrInputDocument对象,增加索引,按需添加相应的core数据表来分片存储数据,并为每个core配置uniqueKey;
步骤2:数据库服务器中的数据是动态增量的,所以需要定期刷新搜索服务器中用于存放搜索数据的core数据表,此外,针对全量数据对文档的进行基准boost打分,设置字段为BASE_ORDER;
步骤3:用户在客户端选择搜索方式与输入搜索关键字后,客户端将搜索方式与搜索关键字发送请求给服务器,服务器通过搜索解析器判断检索类型,以及根据HMM算法来切分搜索关键字。
进一步的,所述步骤2中,基准boost打分的层级依据为:标准代号的指定顺序、标准专业类号正序、标准顺序号正序、标准年代号倒叙,年代号倒叙让所查标准的最新状态排在前面。
进一步的,所述步骤2中,针对数据库增量的数据更新进solr的相应的core中,同时要全量计算BASE_ORDER的值,以保证基准boost打分的准确性,这个定时刷新的周期根据数据的实际情况来设定。
进一步的,所述步骤3中,搜索方式包括标准号搜索、题录搜索、全文搜索、题录与全文混合搜索。
进一步的,所述步骤3中,切分搜索关键字包括如下步骤:
步骤31:判断搜索关键字是否包含恶意字符,如有,则通过正则表达式替换掉,再判断搜索方式;
步骤32:使用特殊搜索解析器判断是否为标准号特殊搜索,如果结果为true则执行步骤33,结果为false则执行步骤39;
步骤33:搜索关键字为标准号特殊搜索,先按空格和半角圆点符号切分搜索关键字,再根据字典表判定是否为标准代码开头,结果为true则执行步骤34,结果为false为执行步骤37;
步骤34:根据标准代码开头判断是否为国外标准,结果为false则执行步骤35,结果为true为执行步骤36;
步骤35:此搜索为国内标准特殊搜索,标准号切分后可分为标准代号、专业类号、顺序号、年代号4个部分,根据切分后的数组长度判断是何种类型的排列组合方式,分情况进行查询,得出结果集;
步骤36:此搜索为国外标准号搜索,国外标准的标准号组成方式比较复杂,不像国内标准一样可以拆分成标准代号、专业类号、顺序号、年代号4个部分,因此针对国外标准号查询直接与标准号字段进行匹配查询;
步骤37:此搜索为非标准代码开头的国内标准的标准号搜索,那么出现的会有专业类号、顺序号、年代号3个部分,和步骤35一致,根据切分后的数组长度判断是何种类型的排列组合方式,分情况进行查询;
步骤38:根据步骤31中所判断的4种搜索方式中,如果为标准号搜索,则直接根据基准boost打分字段BASE_ORDER的大小来排序;
如果为题录搜索,则最前端还需要加入一个层级,分别是标题精确、题录精确、标题模糊、题录模糊,再将这个层级和BASE_ORDER字段做算术加运算,再排序;
如果为全文搜索,最前端也需要加入一个层级,分别是全文精确、全文模糊,然后将这个层级和BASE_ORDER字段做算术加运算,再排序;
如果为题录与全文混合搜索,最前端还是需要加入一个层级,分别是标题精确、题录精确、全文精确、标题模糊、题录模糊、全文模糊,然后将这个层级和BASE_ORDER字段做算术加运算,再排序;
步骤39:此搜索普通搜索,主要是中文或汉语拼音的检索,在步骤1中添加的core中,有一个core的存储内容为关键词,每一个关键词的既有中文字段,也有汉语拼音字段,当用户在客户端上即使输入的是汉语拼音,也会实时地进行提示对应的中文词语以供选择,再根据中文来查询;
步骤310:用户在客户端输入的中文词汇串searchString是连续的,即词与词之间没有空格间隔开的,则执行步骤311,如果词与词之间是有空格相间隔开的,则执行步骤312;
步骤311:根据lucene分词组件对步骤310中的searchString从左往右进行分词与去黑词,当然如果分词后分为多个词,则是按照“或”逻辑进行查询的;
步骤312:当词与词之间有两个或两个以上空格间隔开,以空格切割开的词,每个词分别执行上述步骤311,但是以空格间隔开的词是以“与”逻辑进行查询的;
步骤313:步骤311与步骤312均需要加一个层级,分别是标题精确、题录精确、全文精确、标题模糊、题录模糊、全文模糊,再将这个层级和BASE_ORDER字段做算术加运算,再排序;
步骤314:步骤38与步骤313的排序均要按照标准类型进行一个总的分类排序,即根据标准专业领域所要求的,依次显示国标、行标、地标、国外标准。
进一步的,所述步骤312中,针对同时输入多个词并且以空格隔开,则词与词之间以“与”逻辑进行拼接查询条件语句。
本发明的有益技术效果:按照本发明的基于海量标准文献数据的排序优化算法技术实现方法,本发明提供的基于海量标准文献数据的排序优化算法技术实现方法,解决了现有的普通文献检索算法在标准行业检索中的准确率低的问题,本发明使用Solr搜索引擎,在基于lucene分词组件与Solr排序打分基础上,设计了一种适合标准文献检索的排序打分规则,通过标准文献检索过程中对标准中的标题名称、题录、全文等多个字段进行权重打分,且字段根据精确和模糊匹配赋予不同的权重层级,此外还针对标准号搜索进行特殊化搜索排序处理,与现有的普通文献检索算法不同,更符合标准文献检索的个性化的需求,提升了标准文献检索的高效性、实用性。
附图说明
图1为按照本发明的基于海量标准文献数据的排序优化算法技术实现方法的一优选实施例的流程图;
图2为按照本发明的基于海量标准文献数据的排序优化算法技术实现方法的一优选实施例的切分搜索关键字的流程图。
具体实施方式
为使本领域技术人员更加清楚和明确本发明的技术方案,下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
如图1所示,本实施例提供的一种基于海量标准文献数据的排序优化算法技术实现方法,包括如下步骤:
步骤1:安装和配置Solr搜索服务器,Solr搜索引擎底层是基于lucene的分词组件,构建SolrInputDocument对象,增加索引,按需添加相应的core数据表来分片存储数据,并为每个core配置uniqueKey;
步骤2:数据库服务器中的数据是动态增量的,所以需要定期刷新搜索服务器中用于存放搜索数据的core数据表,此外,针对全量数据对文档的进行基准boost打分,设置字段为BASE_ORDER;
步骤3:用户在客户端选择搜索方式与输入搜索关键字后,客户端将搜索方式与搜索关键字发送请求给服务器,服务器通过搜索解析器判断检索类型,以及根据HMM算法来切分搜索关键字。
进一步的,在本实施例中,所述步骤2中,基准boost打分的层级依据为:标准代号的指定顺序、标准专业类号正序、标准顺序号正序、标准年代号倒叙,年代号倒叙让所查标准的最新状态排在前面;针对数据库增量的数据更新进solr的相应的core中,同时要全量计算BASE_ORDER的值,以保证基准boost打分的准确性,这个定时刷新的周期根据数据的实际情况来设定。
进一步的,在本实施例中,如图2所示,所述步骤3中,搜索方式包括标准号搜索、题录搜索、全文搜索、题录与全文混合搜索,切分搜索关键字包括如下步骤:
步骤31:判断搜索关键字是否包含恶意字符,如有,则通过正则表达式替换掉,再判断搜索方式;
步骤32:使用特殊搜索解析器判断是否为标准号特殊搜索,如果结果为true则执行步骤33,结果为false则执行步骤39;
步骤33:搜索关键字为标准号特殊搜索,先按空格和半角圆点符号切分搜索关键字,再根据字典表判定是否为标准代码开头,结果为true则执行步骤34,结果为false为执行步骤37;
步骤34:根据标准代码开头判断是否为国外标准,结果为false则执行步骤35,结果为true为执行步骤36;
步骤35:此搜索为国内标准特殊搜索,标准号切分后可分为标准代号、专业类号、顺序号、年代号4个部分,根据切分后的数组长度判断是何种类型的排列组合方式,分情况进行查询,得出结果集;
步骤36:此搜索为国外标准号搜索,国外标准的标准号组成方式比较复杂,不像国内标准一样可以拆分成标准代号、专业类号、顺序号、年代号4个部分,因此针对国外标准号查询直接与标准号字段进行匹配查询;
步骤37:此搜索为非标准代码开头的国内标准的标准号搜索,那么出现的会有专业类号、顺序号、年代号3个部分,和步骤35一致,根据切分后的数组长度判断是何种类型的排列组合方式,分情况进行查询;
步骤38:根据步骤31中所判断的4种搜索方式中,如果为标准号搜索,则直接根据基准boost打分字段BASE_ORDER的大小来排序;
如果为题录搜索,则最前端还需要加入一个层级,分别是标题精确、题录精确、标题模糊、题录模糊,再将这个层级和BASE_ORDER字段做算术加运算,再排序;
如果为全文搜索,最前端也需要加入一个层级,分别是全文精确、全文模糊,然后将这个层级和BASE_ORDER字段做算术加运算,再排序;
如果为题录与全文混合搜索,最前端还是需要加入一个层级,分别是标题精确、题录精确、全文精确、标题模糊、题录模糊、全文模糊,然后将这个层级和BASE_ORDER字段做算术加运算,再排序;
其中六个层级需要每个都差一个数量级。格式规整概括如下:标题精确:规整为100000,题录(适用范围等)精确:规整为10000,正文精确:规整为1000,标题模糊:规整为100,题录模糊:规整为10,正文模糊:规整为1。标题精确的运算逻辑表达式为:
map(query({!v='
STAN_CNNAME:\%SEARCH_STRING%\^10
OR
STAN_ENNAME:\%SEARCH_STRING%\^10
'}),10,999999999,100000)
其它类型以此类推。将这六种类别的值加在一起,再进行第二次规整,遵循类型优先原则,则如果分值为110000,即标题和题录均精确命中,以标题精确为准,将大于100000的值都规整为一个能代表标题精确的数。因为这里需要加上上述的BASE_ORDER基准排序序号,所以可规整为6000000,其他层级依次为5000000、4000000等,此规则可支持基准排序序号在2000000左右。
步骤39:此搜索普通搜索,主要是中文或汉语拼音的检索,在步骤1中添加的core中,有一个core的存储内容为关键词,每一个关键词的既有中文字段,也有汉语拼音字段,当用户在客户端上即使输入的是汉语拼音,也会实时地进行提示对应的中文词语以供选择,再根据中文来查询;
步骤310:用户在客户端输入的中文词汇串searchString是连续的,即词与词之间没有空格间隔开的,则执行步骤311,如果词与词之间是有空格相间隔开的,则执行步骤312;
步骤311:根据lucene分词组件对步骤310中的searchString从左往右进行分词与去黑词,当然如果分词后分为多个词,则是按照“或”逻辑进行查询的;
步骤312:当词与词之间有两个或两个以上空格间隔开,以空格切割开的词,每个词分别执行上述步骤311,但是以空格间隔开的词是以“与”逻辑进行查询的,针对同时输入多个词并且以空格隔开,则词与词之间以“与”逻辑进行拼接查询条件语句;
步骤313:步骤311与步骤312均需要加一个层级,分别是标题精确、题录精确、全文精确、标题模糊、题录模糊、全文模糊,再将这个层级和BASE_ORDER字段做算术加运算,再排序;
步骤314:步骤38与步骤313的排序均要按照标准类型进行一个总的分类排序,即根据标准专业领域所要求的,依次显示国标、行标、地标、国外标准。
进一步的,在本实施例中,所述步骤38与所述步骤313中将层级与BASE_ORDER字段做算术加运算后即可做排序,完整的逻辑表达式如下:
sum(map(map(map(map(map(map(sum(map(query({!v='STAN_CN NAME:"移动电话"^10OR STAN_ENNAME:"移动电话"^10'}),10,999999999,100000),map(query({!v='APPLY_RANGE:"移动电话"^10OR ICS:"移动电话"^10OR CCS:"移动电话"^10'}),10,999999999,10000),map(query({!v='STAN_CNNAME:(移动电话)^10OR STAN_ENNAME:(移动电话)^10'}),10,999999999,100),map(query({!v='APPLY_RANGE:(移动电话)^10ORICS:(移动电话)^10OR CCS:(移动电话)^10'}),10,999999999,10),map(query({!v='STAN_CONTENT:"移动电话"^10'}),10,999999999,1000),map(query({!v='STAN_CONTENT:(移动话)^10'}),10,999999999,1),0),100000,999999,6000000),10000,99999,5000000),1000,9999,4000000),100,999,3000000),10,99,2000000),1,9,1000000),BASE_ORDER)
综上所述,在本实施例中,按照本实施例的基于海量标准文献数据的排序优化算法技术实现方法,本实施例提供的基于海量标准文献数据的排序优化算法技术实现方法,解决了现有的普通文献检索算法在标准行业检索中的准确率低的问题,本发明使用Solr搜索引擎,在基于lucene分词组件与Solr排序打分基础上,设计了一种适合标准文献检索的排序打分规则,通过标准文献检索过程中对标准中的标题名称、题录、全文等多个字段进行权重打分,且字段根据精确和模糊匹配赋予不同的权重层级,此外还针对标准号搜索进行特殊化搜索排序处理,与现有的普通文献检索算法不同,更符合标准文献检索的个性化的需求,提升了标准文献检索的高效性、实用性。
以上所述,仅为本发明进一步的实施例,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明所公开的范围内,根据本发明的技术方案及其构思加以等同替换或改变,都属于本发明的保护范围。

Claims (4)

1.一种基于海量标准文献数据的排序优化算法技术实现方法,其特征在于,包括如下步骤:
步骤1:安装和配置Solr搜索服务器,Solr搜索引擎底层是基于lucene的分词组件,构建SolrInputDocument对象,增加索引,按需添加相应的core数据表来分片存储数据,并为每个core配置uniqueKey;
步骤2:数据库服务器中的数据是动态增量的,所以需要定期刷新搜索服务器中用于存放搜索数据的core数据表,此外,针对全量数据对文档的进行基准boost打分,设置字段为BASE_ORDER;
步骤3:用户在客户端选择搜索方式与输入搜索关键字后,客户端将搜索方式与搜索关键字发送请求给服务器,服务器通过搜索解析器判断检索类型,以及根据HMM算法来切分搜索关键字;
所述搜索方式包括标准号搜索、题录搜索、全文搜索、题录与全文混合搜索;
所述切分搜索关键字包括如下步骤:
步骤31:判断搜索关键字是否包含恶意字符,如有,则通过正则表达式替换掉,再判断搜索方式;
步骤32:使用特殊搜索解析器判断是否为标准号特殊搜索,如果结果为true则执行步骤33,结果为false则执行步骤39;
步骤33:搜索关键字为标准号特殊搜索,先按空格和半角圆点符号切分搜索关键字,再根据字典表判定是否为标准代码开头,结果为true则执行步骤34,结果为false为执行步骤37;
步骤34:根据标准代码开头判断是否为国外标准,结果为false则执行步骤35,结果为true为执行步骤36;
步骤35:此搜索为国内标准特殊搜索,标准号切分后可分为标准代号、专业类号、顺序号、年代号4个部分,根据切分后的数组长度判断是何种类型的排列组合方式,分情况进行查询,得出结果集;
步骤36:此搜索为国外标准号搜索,国外标准的标准号组成方式比较复杂,不像国内标准一样可以拆分成标准代号、专业类号、顺序号、年代号4个部分,因此针对国外标准号查询直接与标准号字段进行匹配查询;
步骤37:此搜索为非标准代码开头的国内标准的标准号搜索,那么出现的会有专业类号、顺序号、年代号3个部分,和步骤35一致,根据切分后的数组长度判断是何种类型的排列组合方式,分情况进行查询;
步骤38:根据步骤31中所判断的4种搜索方式中,如果为标准号搜索,则直接根据基准boost打分字段BASE_ORDER的大小来排序;
如果为题录搜索,则最前端还需要加入一个层级,分别是标题精确、题录精确、标题模糊、题录模糊,再将这个层级和BASE_ORDER字段做算术加运算,再排序;
如果为全文搜索,最前端也需要加入一个层级,分别是全文精确、全文模糊,然后将这个层级和BASE_ORDER字段做算术加运算,再排序;
如果为题录与全文混合搜索,最前端还是需要加入一个层级,分别是标题精确、题录精确、全文精确、标题模糊、题录模糊、全文模糊,然后将这个层级和BASE_ORDER字段做算术加运算,再排序;
步骤39:此搜索普通搜索,主要是中文或汉语拼音的检索,在步骤1中添加的core中,有一个core的存储内容为关键词,每一个关键词既有中文字段,也有汉语拼音字段,当用户在客户端上即使输入的是汉语拼音,也会实时地进行提示对应的中文词语以供选择,再根据中文来查询;
步骤310:用户在客户端输入的中文词汇串searchString是连续的,即词与词之间没有空格间隔开的,则执行步骤311,如果词与词之间是有空格相间隔开的,则执行步骤312;
步骤311:根据lucene分词组件对步骤310中的searchString从左往右进行分词与去黑词,当然如果分词后分为多个词,则是按照“或”逻辑进行查询的;
步骤312:当词与词之间有两个或两个以上空格间隔开,以空格切割开的词,每个词分别执行上述步骤311,但是以空格间隔开的词是以“与”逻辑进行查询的;
步骤313:步骤311与步骤312均需要加一个层级,分别是标题精确、题录精确、全文精确、标题模糊、题录模糊、全文模糊,再将这个层级和BASE_ORDER字段做算术加运算,再排序;
步骤314:步骤38与步骤313的排序均要按照标准类型进行一个总的分类排序,即根据标准专业领域所要求的,依次显示国标、行标、地标、国外标准。
2.根据权利要求1所述的一种基于海量标准文献数据的排序优化算法技术实现方法,其特征在于,所述步骤2中,基准boost打分的层级依据为:标准代号的指定顺序、标准专业类号正序、标准顺序号正序、标准年代号倒叙,年代号倒叙让所查标准的最新状态排在前面。
3.根据权利要求1所述的一种基于海量标准文献数据的排序优化算法技术实现方法,其特征在于,所述步骤2中,针对数据库增量的数据更新进solr的相应的core中,同时要全量计算BASE_ORDER的值,以保证基准boost打分的准确性,这个定时刷新的周期根据数据的实际情况来设定。
4.根据权利要求1所述的一种基于海量标准文献数据的排序优化算法技术实现方法,其特征在于,所述步骤312中,针对同时输入多个词并且以空格隔开,则词与词之间以“与”逻辑进行拼接查询条件语句。
CN201711044274.0A 2017-10-31 2017-10-31 一种基于海量标准文献数据的排序优化算法技术实现方法 Active CN110019993B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201711044274.0A CN110019993B (zh) 2017-10-31 2017-10-31 一种基于海量标准文献数据的排序优化算法技术实现方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201711044274.0A CN110019993B (zh) 2017-10-31 2017-10-31 一种基于海量标准文献数据的排序优化算法技术实现方法

Publications (2)

Publication Number Publication Date
CN110019993A CN110019993A (zh) 2019-07-16
CN110019993B true CN110019993B (zh) 2022-11-15

Family

ID=67186711

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711044274.0A Active CN110019993B (zh) 2017-10-31 2017-10-31 一种基于海量标准文献数据的排序优化算法技术实现方法

Country Status (1)

Country Link
CN (1) CN110019993B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103701633A (zh) * 2013-12-09 2014-04-02 国家电网公司 对分布式搜索SolrCloud进行可视化集群应用搭建和维护的系统
CN104035836A (zh) * 2013-03-06 2014-09-10 阿里巴巴集团控股有限公司 集群检索平台中的自动容灾恢复方法及系统
CN105808761A (zh) * 2016-03-16 2016-07-27 山东大学 一种基于大数据Solr网页排序优化方法
CN106372079A (zh) * 2015-07-22 2017-02-01 中国化工信息中心 一种专利信息处理及检索方法

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9965547B2 (en) * 2014-05-09 2018-05-08 Camelot Uk Bidco Limited System and methods for automating trademark and service mark searches

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104035836A (zh) * 2013-03-06 2014-09-10 阿里巴巴集团控股有限公司 集群检索平台中的自动容灾恢复方法及系统
CN103701633A (zh) * 2013-12-09 2014-04-02 国家电网公司 对分布式搜索SolrCloud进行可视化集群应用搭建和维护的系统
CN106372079A (zh) * 2015-07-22 2017-02-01 中国化工信息中心 一种专利信息处理及检索方法
CN105808761A (zh) * 2016-03-16 2016-07-27 山东大学 一种基于大数据Solr网页排序优化方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
基于Solr的大规模标准文献可视化分析系统;张震等;《计算机系统应用》;20160315(第03期);全文 *

Also Published As

Publication number Publication date
CN110019993A (zh) 2019-07-16

Similar Documents

Publication Publication Date Title
US10565273B2 (en) Tenantization of search result ranking
US20200192948A1 (en) Efficient forward ranking in a search engine
US8713024B2 (en) Efficient forward ranking in a search engine
US10558754B2 (en) Method and system for automating training of named entity recognition in natural language processing
EP3577604A1 (en) Cooperatively training and/or using separate input and subsequent content neural networks for information retrieval
US20090327266A1 (en) Index Optimization for Ranking Using a Linear Model
CN103678576A (zh) 基于动态语义分析的全文检索系统
CN106708929B (zh) 视频节目的搜索方法和装置
CN107844493B (zh) 一种文件关联方法及系统
CN106777343A (zh) 增量分布式索引系统和方法
US20160125038A1 (en) Systems and methods for enterprise data search and analysis
CN106844482B (zh) 一种基于搜索引擎的检索信息匹配方法及装置
CN113342923A (zh) 数据查询方法、装置、电子设备及可读存储介质
CN107229714B (zh) 一种基于分布式数据库的全文搜索引擎
CN102915381B (zh) 基于多维语义的可视化网络检索呈现系统及呈现控制方法
CN106570196B (zh) 视频节目的搜索方法和装置
US11151317B1 (en) Contextual spelling correction system
CN113609847B (zh) 信息抽取方法、装置、电子设备及存储介质
CN110019637B (zh) 一种标准文献检索的排序算法
CN106372123B (zh) 一种基于标签的相关内容推荐方法和系统
CN110019993B (zh) 一种基于海量标准文献数据的排序优化算法技术实现方法
CN115098534A (zh) 基于索引权重提升的数据查询方法、装置、设备及介质
Omri Effects of terms recognition mistakes on requests processing for interactive information retrieval
CN108268517B (zh) 数据库中标签的管理方法及系统
CN113505117A (zh) 基于数据指标的数据质量评估方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant