CN110019993B

CN110019993B - 一种基于海量标准文献数据的排序优化算法技术实现方法

Info

Publication number: CN110019993B
Application number: CN201711044274.0A
Authority: CN
Inventors: 林雪; 王文锋; 孙良君; 袁庆祝; 陈斌; 刘少华
Original assignee: Zhongbo Information Technology Research Institute Co ltd
Current assignee: Zhongbo Information Technology Research Institute Co ltd
Priority date: 2017-10-31
Filing date: 2017-10-31
Publication date: 2022-11-15
Anticipated expiration: 2037-10-31
Also published as: CN110019993A

Abstract

本发明公开了一种基于海量标准文献数据的排序优化算法技术实现方法，属于标准文献关键词检索技术领域，基于solr搜索引擎，支持层面搜索、命中醒目显示，通过设置edismax query方式以及boost参数，在建索引schema时，设置排序字段BASE_ORDER作为基准boost打分，通过map函数为每个字段的模糊匹配与精确匹配规整为不同的层级，将这个层级和BASE_ORDER字段做算术加运算，即可进行倒序排序。本发明通过标准文献检索过程中对标准中的标题名称、题录、全文等多个字段进行权重打分，对字段赋予不同权重层级，针对标准号搜索进行特殊化搜索排序，提升标准文献检索的高效性、实用性。

Description

一种基于海量标准文献数据的排序优化算法技术实现方法

技术领域

本发明涉及一种标准文献检索排序处理算法，特别是涉及一种基于海量标准文献数据的排序优化算法技术实现方法，属于标准文献关键词检索技术领域。

背景技术

目前，标准电子文献检索与现有的普通文献检索既有共通性，也有其特性，现有的普通文献检索排序方法大多是基于统计词频率、词分组等方法来对检索关键词与目标文档关键词的匹配程度进行打分，从而实现对检索结果的排序。

在申请号为201010182289.5的中国专利中，公开了一种面向源文献元关键词的检索系统，其具有一定的通用性，但是直接将上述方法应用于标准文献检索中，在标准上查到结果的准确性和实用性方面表现效果不好，即搜索出来的结果不是用户真正需要的结果，由于标准文献检索需要对标准号、标准名称(中英文名)、标准题录(适用范围等)以及标准全文进行精确查询与模糊查询，需对不同类型字段设置不同的层级，这样则可给查询出来的每一条结果有个权重，然后这个权重值再与文档的基准boost打分BASE_ORDER字段做算术加运算，得出最终的一个boost分值，再进行排序。

发明内容

本发明的主要目的是为了提供一种基于海量标准文献数据的排序优化算法技术实现方法，解决现有的普通文献检索算法在标准行业检索中的命中准确率低、效率低的问题。

本发明的目的可以通过采用如下技术方案达到：

一种基于海量标准文献数据的排序优化算法技术实现方法，包括如下步骤：

步骤1：安装和配置Solr搜索服务器，Solr搜索引擎底层是基于lucene的分词组件，构建SolrInputDocument对象，增加索引，按需添加相应的core数据表来分片存储数据，并为每个core配置uniqueKey；

步骤2：数据库服务器中的数据是动态增量的，所以需要定期刷新搜索服务器中用于存放搜索数据的core数据表，此外，针对全量数据对文档的进行基准boost打分，设置字段为BASE_ORDER；

步骤3：用户在客户端选择搜索方式与输入搜索关键字后，客户端将搜索方式与搜索关键字发送请求给服务器，服务器通过搜索解析器判断检索类型，以及根据HMM算法来切分搜索关键字。

进一步的，所述步骤2中，基准boost打分的层级依据为：标准代号的指定顺序、标准专业类号正序、标准顺序号正序、标准年代号倒叙，年代号倒叙让所查标准的最新状态排在前面。

进一步的，所述步骤2中，针对数据库增量的数据更新进solr的相应的core中，同时要全量计算BASE_ORDER的值，以保证基准boost打分的准确性，这个定时刷新的周期根据数据的实际情况来设定。

进一步的，所述步骤3中，搜索方式包括标准号搜索、题录搜索、全文搜索、题录与全文混合搜索。

进一步的，所述步骤3中，切分搜索关键字包括如下步骤：

步骤31：判断搜索关键字是否包含恶意字符，如有，则通过正则表达式替换掉，再判断搜索方式；

步骤32：使用特殊搜索解析器判断是否为标准号特殊搜索，如果结果为true则执行步骤33，结果为false则执行步骤39；

步骤33：搜索关键字为标准号特殊搜索，先按空格和半角圆点符号切分搜索关键字，再根据字典表判定是否为标准代码开头，结果为true则执行步骤34，结果为false为执行步骤37；

步骤34：根据标准代码开头判断是否为国外标准，结果为false则执行步骤35，结果为true为执行步骤36；

步骤35：此搜索为国内标准特殊搜索，标准号切分后可分为标准代号、专业类号、顺序号、年代号4个部分，根据切分后的数组长度判断是何种类型的排列组合方式，分情况进行查询，得出结果集；

步骤36：此搜索为国外标准号搜索，国外标准的标准号组成方式比较复杂，不像国内标准一样可以拆分成标准代号、专业类号、顺序号、年代号4个部分，因此针对国外标准号查询直接与标准号字段进行匹配查询；

步骤37：此搜索为非标准代码开头的国内标准的标准号搜索，那么出现的会有专业类号、顺序号、年代号3个部分，和步骤35一致，根据切分后的数组长度判断是何种类型的排列组合方式，分情况进行查询；

步骤38：根据步骤31中所判断的4种搜索方式中，如果为标准号搜索，则直接根据基准boost打分字段BASE_ORDER的大小来排序；

如果为题录搜索，则最前端还需要加入一个层级，分别是标题精确、题录精确、标题模糊、题录模糊，再将这个层级和BASE_ORDER字段做算术加运算，再排序；

如果为全文搜索，最前端也需要加入一个层级，分别是全文精确、全文模糊，然后将这个层级和BASE_ORDER字段做算术加运算，再排序；

如果为题录与全文混合搜索，最前端还是需要加入一个层级，分别是标题精确、题录精确、全文精确、标题模糊、题录模糊、全文模糊，然后将这个层级和BASE_ORDER字段做算术加运算，再排序；

步骤39：此搜索普通搜索，主要是中文或汉语拼音的检索，在步骤1中添加的core中，有一个core的存储内容为关键词，每一个关键词的既有中文字段，也有汉语拼音字段，当用户在客户端上即使输入的是汉语拼音，也会实时地进行提示对应的中文词语以供选择，再根据中文来查询；

步骤310：用户在客户端输入的中文词汇串searchString是连续的，即词与词之间没有空格间隔开的，则执行步骤311，如果词与词之间是有空格相间隔开的，则执行步骤312；

步骤311：根据lucene分词组件对步骤310中的searchString从左往右进行分词与去黑词，当然如果分词后分为多个词，则是按照“或”逻辑进行查询的；

步骤312：当词与词之间有两个或两个以上空格间隔开，以空格切割开的词，每个词分别执行上述步骤311，但是以空格间隔开的词是以“与”逻辑进行查询的；

步骤313：步骤311与步骤312均需要加一个层级，分别是标题精确、题录精确、全文精确、标题模糊、题录模糊、全文模糊，再将这个层级和BASE_ORDER字段做算术加运算，再排序；

步骤314：步骤38与步骤313的排序均要按照标准类型进行一个总的分类排序，即根据标准专业领域所要求的，依次显示国标、行标、地标、国外标准。

进一步的，所述步骤312中，针对同时输入多个词并且以空格隔开，则词与词之间以“与”逻辑进行拼接查询条件语句。

本发明的有益技术效果：按照本发明的基于海量标准文献数据的排序优化算法技术实现方法，本发明提供的基于海量标准文献数据的排序优化算法技术实现方法，解决了现有的普通文献检索算法在标准行业检索中的准确率低的问题，本发明使用Solr搜索引擎，在基于lucene分词组件与Solr排序打分基础上，设计了一种适合标准文献检索的排序打分规则，通过标准文献检索过程中对标准中的标题名称、题录、全文等多个字段进行权重打分，且字段根据精确和模糊匹配赋予不同的权重层级，此外还针对标准号搜索进行特殊化搜索排序处理，与现有的普通文献检索算法不同，更符合标准文献检索的个性化的需求，提升了标准文献检索的高效性、实用性。

附图说明

图1为按照本发明的基于海量标准文献数据的排序优化算法技术实现方法的一优选实施例的流程图；

图2为按照本发明的基于海量标准文献数据的排序优化算法技术实现方法的一优选实施例的切分搜索关键字的流程图。

具体实施方式

为使本领域技术人员更加清楚和明确本发明的技术方案，下面结合实施例及附图对本发明作进一步详细的描述，但本发明的实施方式不限于此。

如图1所示，本实施例提供的一种基于海量标准文献数据的排序优化算法技术实现方法，包括如下步骤：

进一步的，在本实施例中，所述步骤2中，基准boost打分的层级依据为：标准代号的指定顺序、标准专业类号正序、标准顺序号正序、标准年代号倒叙，年代号倒叙让所查标准的最新状态排在前面；针对数据库增量的数据更新进solr的相应的core中，同时要全量计算BASE_ORDER的值，以保证基准boost打分的准确性，这个定时刷新的周期根据数据的实际情况来设定。

进一步的，在本实施例中，如图2所示，所述步骤3中，搜索方式包括标准号搜索、题录搜索、全文搜索、题录与全文混合搜索，切分搜索关键字包括如下步骤：

其中六个层级需要每个都差一个数量级。格式规整概括如下：标题精确：规整为100000，题录(适用范围等)精确：规整为10000，正文精确：规整为1000，标题模糊：规整为100，题录模糊：规整为10，正文模糊：规整为1。标题精确的运算逻辑表达式为：

map(query({！v＝'

STAN_CNNAME:\％SEARCH_STRING％\^10

OR

STAN_ENNAME:\％SEARCH_STRING％\^10

'}),10,999999999,100000)

其它类型以此类推。将这六种类别的值加在一起，再进行第二次规整，遵循类型优先原则，则如果分值为110000，即标题和题录均精确命中，以标题精确为准，将大于100000的值都规整为一个能代表标题精确的数。因为这里需要加上上述的BASE_ORDER基准排序序号，所以可规整为6000000，其他层级依次为5000000、4000000等，此规则可支持基准排序序号在2000000左右。

步骤312：当词与词之间有两个或两个以上空格间隔开，以空格切割开的词，每个词分别执行上述步骤311，但是以空格间隔开的词是以“与”逻辑进行查询的，针对同时输入多个词并且以空格隔开，则词与词之间以“与”逻辑进行拼接查询条件语句；

进一步的，在本实施例中，所述步骤38与所述步骤313中将层级与BASE_ORDER字段做算术加运算后即可做排序，完整的逻辑表达式如下：

sum(map(map(map(map(map(map(sum(map(query({！v＝'STAN_CN NAME:"移动电话"^10OR STAN_ENNAME:"移动电话"^10'}),10,999999999,100000),map(query({！v＝'APPLY_RANGE:"移动电话"^10OR ICS:"移动电话"^10OR CCS:"移动电话"^10'}),10,999999999,10000),map(query({！v＝'STAN_CNNAME:(移动电话)^10OR STAN_ENNAME:(移动电话)^10'}),10,999999999,100),map(query({！v＝'APPLY_RANGE:(移动电话)^10ORICS:(移动电话)^10OR CCS:(移动电话)^10'}),10,999999999,10),map(query({！v＝'STAN_CONTENT:"移动电话"^10'}),10,999999999,1000),map(query({！v＝'STAN_CONTENT:(移动话)^10'}),10,999999999,1),0),100000,999999,6000000),10000,99999,5000000),1000,9999,4000000),100,999,3000000),10,99,2000000),1,9,1000000),BASE_ORDER)

综上所述，在本实施例中，按照本实施例的基于海量标准文献数据的排序优化算法技术实现方法，本实施例提供的基于海量标准文献数据的排序优化算法技术实现方法，解决了现有的普通文献检索算法在标准行业检索中的准确率低的问题，本发明使用Solr搜索引擎，在基于lucene分词组件与Solr排序打分基础上，设计了一种适合标准文献检索的排序打分规则，通过标准文献检索过程中对标准中的标题名称、题录、全文等多个字段进行权重打分，且字段根据精确和模糊匹配赋予不同的权重层级，此外还针对标准号搜索进行特殊化搜索排序处理，与现有的普通文献检索算法不同，更符合标准文献检索的个性化的需求，提升了标准文献检索的高效性、实用性。

以上所述，仅为本发明进一步的实施例，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明所公开的范围内，根据本发明的技术方案及其构思加以等同替换或改变，都属于本发明的保护范围。

Claims

1.一种基于海量标准文献数据的排序优化算法技术实现方法，其特征在于，包括如下步骤：

步骤3：用户在客户端选择搜索方式与输入搜索关键字后，客户端将搜索方式与搜索关键字发送请求给服务器，服务器通过搜索解析器判断检索类型，以及根据HMM算法来切分搜索关键字；

所述搜索方式包括标准号搜索、题录搜索、全文搜索、题录与全文混合搜索；

所述切分搜索关键字包括如下步骤：

步骤39：此搜索普通搜索，主要是中文或汉语拼音的检索，在步骤1中添加的core中，有一个core的存储内容为关键词，每一个关键词既有中文字段，也有汉语拼音字段，当用户在客户端上即使输入的是汉语拼音，也会实时地进行提示对应的中文词语以供选择，再根据中文来查询；

2.根据权利要求1所述的一种基于海量标准文献数据的排序优化算法技术实现方法，其特征在于，所述步骤2中，基准boost打分的层级依据为：标准代号的指定顺序、标准专业类号正序、标准顺序号正序、标准年代号倒叙，年代号倒叙让所查标准的最新状态排在前面。

3.根据权利要求1所述的一种基于海量标准文献数据的排序优化算法技术实现方法，其特征在于，所述步骤2中，针对数据库增量的数据更新进solr的相应的core中，同时要全量计算BASE_ORDER的值，以保证基准boost打分的准确性，这个定时刷新的周期根据数据的实际情况来设定。

4.根据权利要求1所述的一种基于海量标准文献数据的排序优化算法技术实现方法，其特征在于，所述步骤312中，针对同时输入多个词并且以空格隔开，则词与词之间以“与”逻辑进行拼接查询条件语句。