CN110019637A

CN110019637A - 一种标准文献检索的排序算法

Info

Publication number: CN110019637A
Application number: CN201710578538.4A
Authority: CN
Inventors: 金志刚; 章学周; 陈银龙; 严菁; 伍薇; 王玮健; 赵华; 李天侠; 谢莉
Original assignee: Jiangsu Institute Of Quality And Standardization
Current assignee: Jiangsu Institute Of Quality And Standardization
Priority date: 2017-07-17
Filing date: 2017-07-17
Publication date: 2019-07-16
Anticipated expiration: 2037-07-17
Also published as: CN110019637B

Abstract

本发明公开了一种标准文献检索的排序算法，涉及关键词的检索技术领域，通过设置查询配置来影响boost打分，对edismax实现的方法和map函数进行封装，通过对查询标题名称、题录、正文等多个字段进行定量规整化处理，为每个字段的文本相关度设置打分权重，且字段根据精确和模糊匹配赋予不同的权重层级，经过两次数据规整化处理后，通过封装后的map函数进行倒序排序反馈结果，提高了标准文献检索过程中的准确性。

Description

一种标准文献检索的排序算法

技术领域

本发明涉及关键词的检索技术领域，尤其涉及一种标准文献检索的排序算法。

背景技术

标准电子文献检索与现有的电子文献检索既有类似的地方，也有其个性化的地方。现有的电子文献检索排序方法大多是基于统计词频、语义、词分组等方法来对检索词与目标文档关键词的匹配程度进行打分，从而实现对检索结果的排序。

专利201010182289.5《面向源文献元关键词的检索系统》所述的一类方法具有一定的通用性，但是直接将上述方法应用于标准文献检索中，在标准查全率和查准率方面表现效果不太良好。由于标准电子文献检索有对标准名称、标准题录和正文的精确和模糊查询要求，需对不同的检索命中提供不同的权重，再进行打分和排序。

发明内容

本发明的目的是提供一种标准文献检索的排序算法，解决了现有的电子文献检索算法在标准行业检索中的准确率低的问题。

为实现上述目的，本发明采用以下技术方案：

一种标准文献检索的排序算法，包括如下步骤：

步骤1：建立索引系统，所述索引系统包括数据库服务器、检索服务器和客户端服务器，数据库服务器和客户端服务器通过互联网连接检索服务器；

步骤2：在数据库服务器中为标准文档建立标准全文关键词库，检索服务器扫描标准文档中的每一个词，记录下每个词在标准文档中出现的频率和相应的位置，选取其中出现频率最高的50个词作为该标准的全文关键词，并且设定这50个词均为Token，检索服务器为这50个Token建立索引；

步骤3：用户通过客户端服务器输入检索字段，客户端服务器将检索字段发送给检索服务器，检索服务器采用基于词典的中文分词算法，通过逆向最大匹配的方法切分出检索字段中的所有词，其步骤如下：

步骤A：从右向左取待切分字段的Lmax个字符作为匹配字段；Lmax为所使用词典中最长词条的个数；

步骤B：对查找的字段与词典中的词进行匹配：如果匹配成功，则将这个匹配字段作为一个词切分出来，若匹配不成功，则将这个匹配字段的最前端一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配；

步骤C：重复执行步骤A到步骤B，直到切分出所有词为止；

步骤4：对切分出的分词在标准全文关键词库中进行检索，并根据以下步骤进行索引结果的输出：

步骤D：设定pf为对一条标准记录的标题名称、题录和正文的多个字段所做出的匹配项；

步骤E：针对每个字段设置不同的boost权重打分值，其设置的字段必须为在pf中配置的项；

步骤F：对查询标题名称、题录和正文的多个字段进行第一次定量规整化处理，每个字段的文本相关度打分权重分别为10ⁿ,10^n-1,10^n-2，……1，其中n根据数据量的大小进行赋值，且字段根据精确和模糊匹配赋予不同的权重层级；

步骤G：计算查询出每一条结果的权重，即使用map函数计算各层级分数并取其和值；

步骤H：根据遵循类型优先原则进行第二次定量规整化处理，即：假如标题和题录均精确命中，以标题精确为准，将大于10ⁿ的值都规整为一个能代表标题精确的数；

步骤J：在步骤H所得到的结果的后边加入封装好的BASE_ORDER基准排序序号，即为该结果的boost得分；

步骤K：根据boost值大小输出查询结果，同时根据标准领域专家总结，依次显示国标、行标、地标和外标。

所述步骤J中的BASE_ORDER基准排序序号的排序规则如下：首先为标准号码、其次为标准部分、再次为标准年代倒序。

所述步骤2中，检索服务器在扫描标准文档时，采用倒排序技术对标准文件进行拆分。

本发明所述的一种标准文献检索的排序算法，解决了现有的电子文献检索算法在标准行业检索中的准确率低的问题，本发明在Solr排序打分基础上，设计了一种适合标准行业的排序打分规则，通过标准文献检索过程中对标准中的标题名称、题录、正文等多个字段进行权重打分，且字段根据精确和模糊匹配赋予不同的权重层级，区别于现有的电子文献检索算法，更符合标准行业检索要求，提升标准文献检索的准确率。

附图说明

图1是本发明的流程图；

图2是本发明的步骤3的流程图。

具体实施方式

如图1和图2所示一种标准文献检索的排序算法，包括如下步骤：

步骤2：在数据库服务器中为标准文档建立标准全文关键词库，检索服务器扫描标准文档中的每一个词，记录下每个词在标准文档中出现的频率和相应的位置，选取其中出现频率最高的50个词作为该标准的全文关键词，并且设定这50个词均为Token，检索服务器为这50个Token建立索引；本发明在此过程中采用倒排序技术对标准文件进行拆分，减少原文件空间占有率，以提高拆分的速度。

设定待切分字段为S，输出结果为R，首先判断待切分字段S是否为空：是，则输出结果R，并执行步骤C；不是，则从字段S的右边开始，获取一个字段S1，字段S1的长度不大于Lmax；

步骤B：对查找的字段与词典中的词进行匹配，即查看字段S1是否在词典中：如果匹配成功，则将这个匹配字段作为一个词切分出来；若匹配不成功，则将这个匹配字段的最前端一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配，即，将字段S1最左边的一个字去掉，去掉后判断S1是否为单个字，如果是，则S＝S-S1；R＝R+S1+"/"，并执行步骤A；否，则执行步骤B；

步骤C：重复执行步骤A到步骤B，直到切分出所有词为止；

步骤F：对查询标题名称、题录和正文的多个字段进行第一次定量规整化处理，每个字段的文本相关度打分权重分别为10ⁿ,10^n-1,10^n-2，……1，其中N根据数据量的大小进行赋值，且字段根据精确和模糊匹配赋予不同的权重层级；比如：只有标准名称、题录、正文三个字段，又分为精确和模糊，则标准名称精确设置为10⁵，题录精确设置为10⁴，正文精确设置为10³，标题模糊设置为10²，题录模糊设置为10¹，正文模糊设置为1，根据层级之间的数量级查来判断其所属层级；

步骤H：根据遵循类型优先原则进行第二次定量规整化处理，即：假如标题和题录均精确命中，以标题精确为准，将大于10ⁿ的值都规整为一个能代表标题精确的数；比如：该序号现阶段不会超过2000000，所以只需要规整为6000000即可。其他层级依次为5000000、4000000等。

本发明方法封装的是map(x,min,max,target)，如果min<＝x<＝max，那么map(x,min,max,target)＝target，如果x不在[min,max]这个区间内，那么map(x,min,max,target)＝x；其完整的逻辑表达式如下：sum(map(map(map(map(map(map(sum(map(query({！v＝'STAN_CNNAME:"移动电话"^10OR STAN_ENNAME:"移动电话"^10'}),10,999999999,100000),map(query({！v＝'APPLY_RANGE:"移动电话"^10OR ICS:"移动电话"^10OR CCS:"移动电话"^10'}),10,999999999,10000),map(query({！v＝'STAN_CNNAME:(移动电话)^10OR STAN_ENNAME:(移动电话)^10'}),10,999999999,100),map(query({！v＝'APPLY_RANGE:(移动电话)^10OR ICS:(移动电话)^10OR CCS:(移动电话)^10'}),10,999999999,10),map(query({！v＝'STAN_CONTENT:"移动电话"^10'}),10,999999999,1000),

map(query({！v＝'STAN_CONTENT:(移动电话)^10'}),10,999999999,1),0),100000,999999,6000000),10000,99999,5000000),1000,9999,4000000),100,999,3000000),10,99,2000000),1,9,1000000),BASE_ORDER)。

本发明使用的是Solr的edismax实现的方法，通过设置查询配置来影响boost打分，对edismax实现的方法和map函数进行封装。通过对查询标题名称、题录、正文等多个字段进行定量规整化处理，为每个字段的文本相关度设置打分权重，且字段根据精确和模糊匹配赋予不同的权重层级，经过两次数据规整化处理后，通过封装后的map函数进行倒序排序反馈结果，提高了标准文献检索过程中的准确性。

本发明所述的一种标准文献检索的排序算法，解决了现有的电子文献检索算法在标准行业检索中的准确率低的问题，本发明在Solr排序打分基础上，设计了一种适合标准行业的排序打分规则，通过标准文献检索过程中对标准中的标题名称、题录、正文等多个字段进行权重打分，且字段根据精确和模糊匹配赋予不同的权重层级，区别于现有的电子文献检索算法，更符合标准行业检索要求，提升标准文献检索的准确率，与现有的技术相比，本发明所述的排序算法比较有行业针对性，该算法支持对标准的标题、题录、正文等精确和模糊的匹配，通过对字段的文本相关度设置打分权重，对查询配置进行设置来影响boost打分，以提升标准文献检索过程中的准确性和索引效率。在海量标准文献库中，分别对现有排序算法与传统的文本搜索相比较。从试验的结果看，本发明所提出的排序算法，不管从检索的准确率还是检索效率角度都要比传统的电子文本检索更能满足行业需求。

Claims

1.一种标准文献检索的排序算法，其特征在于：包括如下步骤：

步骤C：重复执行步骤A到步骤B，直到切分出所有词为止；

2.如权利要求1所述的一种标准文献检索的排序算法，其特征在于：所述步骤J中的BASE_ORDER基准排序序号的排序规则如下：首先为标准号码、其次为标准部分、再次为标准年代倒序。

3.如权利要求1所述的一种标准文献检索的排序算法，其特征在于：所述步骤2中，检索服务器在扫描标准文档时，采用倒排序技术对标准文件进行拆分。