CN110019637A - 一种标准文献检索的排序算法 - Google Patents

一种标准文献检索的排序算法 Download PDF

Info

Publication number
CN110019637A
CN110019637A CN201710578538.4A CN201710578538A CN110019637A CN 110019637 A CN110019637 A CN 110019637A CN 201710578538 A CN201710578538 A CN 201710578538A CN 110019637 A CN110019637 A CN 110019637A
Authority
CN
China
Prior art keywords
field
standard
server
retrieval
word
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201710578538.4A
Other languages
English (en)
Other versions
CN110019637B (zh
Inventor
金志刚
章学周
陈银龙
严菁
伍薇
王玮健
赵华
李天侠
谢莉
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Institute Of Quality And Standardization
Original Assignee
Jiangsu Institute Of Quality And Standardization
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Institute Of Quality And Standardization filed Critical Jiangsu Institute Of Quality And Standardization
Priority to CN201710578538.4A priority Critical patent/CN110019637B/zh
Publication of CN110019637A publication Critical patent/CN110019637A/zh
Application granted granted Critical
Publication of CN110019637B publication Critical patent/CN110019637B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/316Indexing structures
    • G06F16/319Inverted lists
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种标准文献检索的排序算法,涉及关键词的检索技术领域,通过设置查询配置来影响boost打分,对edismax实现的方法和map函数进行封装,通过对查询标题名称、题录、正文等多个字段进行定量规整化处理,为每个字段的文本相关度设置打分权重,且字段根据精确和模糊匹配赋予不同的权重层级,经过两次数据规整化处理后,通过封装后的map函数进行倒序排序反馈结果,提高了标准文献检索过程中的准确性。

Description

一种标准文献检索的排序算法
技术领域
本发明涉及关键词的检索技术领域,尤其涉及一种标准文献检索的排序算法。
背景技术
标准电子文献检索与现有的电子文献检索既有类似的地方,也有其个性化的地方。现有的电子文献检索排序方法大多是基于统计词频、语义、词分组等方法来对检索词与目标文档关键词的匹配程度进行打分,从而实现对检索结果的排序。
专利201010182289.5《面向源文献元关键词的检索系统》所述的一类方法具有一定的通用性,但是直接将上述方法应用于标准文献检索中,在标准查全率和查准率方面表现效果不太良好。由于标准电子文献检索有对标准名称、标准题录和正文的精确和模糊查询要求,需对不同的检索命中提供不同的权重,再进行打分和排序。
发明内容
本发明的目的是提供一种标准文献检索的排序算法,解决了现有的电子文献检索算法在标准行业检索中的准确率低的问题。
为实现上述目的,本发明采用以下技术方案:
一种标准文献检索的排序算法,包括如下步骤:
步骤1:建立索引系统,所述索引系统包括数据库服务器、检索服务器和客户端服务器,数据库服务器和客户端服务器通过互联网连接检索服务器;
步骤2:在数据库服务器中为标准文档建立标准全文关键词库,检索服务器扫描标准文档中的每一个词,记录下每个词在标准文档中出现的频率和相应的位置,选取其中出现频率最高的50个词作为该标准的全文关键词,并且设定这50个词均为Token,检索服务器为这50个Token建立索引;
步骤3:用户通过客户端服务器输入检索字段,客户端服务器将检索字段发送给检索服务器,检索服务器采用基于词典的中文分词算法,通过逆向最大匹配的方法切分出检索字段中的所有词,其步骤如下:
步骤A:从右向左取待切分字段的Lmax个字符作为匹配字段;Lmax为所使用词典中最长词条的个数;
步骤B:对查找的字段与词典中的词进行匹配:如果匹配成功,则将这个匹配字段作为一个词切分出来,若匹配不成功,则将这个匹配字段的最前端一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配;
步骤C:重复执行步骤A到步骤B,直到切分出所有词为止;
步骤4:对切分出的分词在标准全文关键词库中进行检索,并根据以下步骤进行索引结果的输出:
步骤D:设定pf为对一条标准记录的标题名称、题录和正文的多个字段所做出的匹配项;
步骤E:针对每个字段设置不同的boost权重打分值,其设置的字段必须为在pf中配置的项;
步骤F:对查询标题名称、题录和正文的多个字段进行第一次定量规整化处理,每个字段的文本相关度打分权重分别为10n,10n-1,10n-2,……1,其中n根据数据量的大小进行赋值,且字段根据精确和模糊匹配赋予不同的权重层级;
步骤G:计算查询出每一条结果的权重,即使用map函数计算各层级分数并取其和值;
步骤H:根据遵循类型优先原则进行第二次定量规整化处理,即:假如标题和题录均精确命中,以标题精确为准,将大于10n的值都规整为一个能代表标题精确的数;
步骤J:在步骤H所得到的结果的后边加入封装好的BASE_ORDER基准排序序号,即为该结果的boost得分;
步骤K:根据boost值大小输出查询结果,同时根据标准领域专家总结,依次显示国标、行标、地标和外标。
所述步骤J中的BASE_ORDER基准排序序号的排序规则如下:首先为标准号码、其次为标准部分、再次为标准年代倒序。
所述步骤2中,检索服务器在扫描标准文档时,采用倒排序技术对标准文件进行拆分。
本发明所述的一种标准文献检索的排序算法,解决了现有的电子文献检索算法在标准行业检索中的准确率低的问题,本发明在Solr排序打分基础上,设计了一种适合标准行业的排序打分规则,通过标准文献检索过程中对标准中的标题名称、题录、正文等多个字段进行权重打分,且字段根据精确和模糊匹配赋予不同的权重层级,区别于现有的电子文献检索算法,更符合标准行业检索要求,提升标准文献检索的准确率。
附图说明
图1是本发明的流程图;
图2是本发明的步骤3的流程图。
具体实施方式
如图1和图2所示一种标准文献检索的排序算法,包括如下步骤:
步骤1:建立索引系统,所述索引系统包括数据库服务器、检索服务器和客户端服务器,数据库服务器和客户端服务器通过互联网连接检索服务器;
步骤2:在数据库服务器中为标准文档建立标准全文关键词库,检索服务器扫描标准文档中的每一个词,记录下每个词在标准文档中出现的频率和相应的位置,选取其中出现频率最高的50个词作为该标准的全文关键词,并且设定这50个词均为Token,检索服务器为这50个Token建立索引;本发明在此过程中采用倒排序技术对标准文件进行拆分,减少原文件空间占有率,以提高拆分的速度。
步骤3:用户通过客户端服务器输入检索字段,客户端服务器将检索字段发送给检索服务器,检索服务器采用基于词典的中文分词算法,通过逆向最大匹配的方法切分出检索字段中的所有词,其步骤如下:
步骤A:从右向左取待切分字段的Lmax个字符作为匹配字段;Lmax为所使用词典中最长词条的个数;
设定待切分字段为S,输出结果为R,首先判断待切分字段S是否为空:是,则输出结果R,并执行步骤C;不是,则从字段S的右边开始,获取一个字段S1,字段S1的长度不大于Lmax;
步骤B:对查找的字段与词典中的词进行匹配,即查看字段S1是否在词典中:如果匹配成功,则将这个匹配字段作为一个词切分出来;若匹配不成功,则将这个匹配字段的最前端一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配,即,将字段S1最左边的一个字去掉,去掉后判断S1是否为单个字,如果是,则S=S-S1;R=R+S1+"/",并执行步骤A;否,则执行步骤B;
步骤C:重复执行步骤A到步骤B,直到切分出所有词为止;
步骤4:对切分出的分词在标准全文关键词库中进行检索,并根据以下步骤进行索引结果的输出:
步骤D:设定pf为对一条标准记录的标题名称、题录和正文的多个字段所做出的匹配项;
步骤E:针对每个字段设置不同的boost权重打分值,其设置的字段必须为在pf中配置的项;
步骤F:对查询标题名称、题录和正文的多个字段进行第一次定量规整化处理,每个字段的文本相关度打分权重分别为10n,10n-1,10n-2,……1,其中N根据数据量的大小进行赋值,且字段根据精确和模糊匹配赋予不同的权重层级;比如:只有标准名称、题录、正文三个字段,又分为精确和模糊,则标准名称精确设置为105,题录精确设置为104,正文精确设置为103,标题模糊设置为102,题录模糊设置为101,正文模糊设置为1,根据层级之间的数量级查来判断其所属层级;
步骤G:计算查询出每一条结果的权重,即使用map函数计算各层级分数并取其和值;
步骤H:根据遵循类型优先原则进行第二次定量规整化处理,即:假如标题和题录均精确命中,以标题精确为准,将大于10n的值都规整为一个能代表标题精确的数;比如:该序号现阶段不会超过2000000,所以只需要规整为6000000即可。其他层级依次为5000000、4000000等。
步骤J:在步骤H所得到的结果的后边加入封装好的BASE_ORDER基准排序序号,即为该结果的boost得分;
步骤K:根据boost值大小输出查询结果,同时根据标准领域专家总结,依次显示国标、行标、地标和外标。
所述步骤J中的BASE_ORDER基准排序序号的排序规则如下:首先为标准号码、其次为标准部分、再次为标准年代倒序。
所述步骤2中,检索服务器在扫描标准文档时,采用倒排序技术对标准文件进行拆分。
本发明方法封装的是map(x,min,max,target),如果min<=x<=max,那么map(x,min,max,target)=target,如果x不在[min,max]这个区间内,那么map(x,min,max,target)=x;其完整的逻辑表达式如下:sum(map(map(map(map(map(map(sum(map(query({!v='STAN_CNNAME:"移动电话"^10OR STAN_ENNAME:"移动电话"^10'}),10,999999999,100000),map(query({!v='APPLY_RANGE:"移动电话"^10OR ICS:"移动电话"^10OR CCS:"移动电话"^10'}),10,999999999,10000),map(query({!v='STAN_CNNAME:(移动电话)^10OR STAN_ENNAME:(移动电话)^10'}),10,999999999,100),map(query({!v='APPLY_RANGE:(移动电话)^10OR ICS:(移动电话)^10OR CCS:(移动电话)^10'}),10,999999999,10),map(query({!v='STAN_CONTENT:"移动电话"^10'}),10,999999999,1000),
map(query({!v='STAN_CONTENT:(移动电话)^10'}),10,999999999,1),0),100000,999999,6000000),10000,99999,5000000),1000,9999,4000000),100,999,3000000),10,99,2000000),1,9,1000000),BASE_ORDER)。
本发明使用的是Solr的edismax实现的方法,通过设置查询配置来影响boost打分,对edismax实现的方法和map函数进行封装。通过对查询标题名称、题录、正文等多个字段进行定量规整化处理,为每个字段的文本相关度设置打分权重,且字段根据精确和模糊匹配赋予不同的权重层级,经过两次数据规整化处理后,通过封装后的map函数进行倒序排序反馈结果,提高了标准文献检索过程中的准确性。
本发明所述的一种标准文献检索的排序算法,解决了现有的电子文献检索算法在标准行业检索中的准确率低的问题,本发明在Solr排序打分基础上,设计了一种适合标准行业的排序打分规则,通过标准文献检索过程中对标准中的标题名称、题录、正文等多个字段进行权重打分,且字段根据精确和模糊匹配赋予不同的权重层级,区别于现有的电子文献检索算法,更符合标准行业检索要求,提升标准文献检索的准确率,与现有的技术相比,本发明所述的排序算法比较有行业针对性,该算法支持对标准的标题、题录、正文等精确和模糊的匹配,通过对字段的文本相关度设置打分权重,对查询配置进行设置来影响boost打分,以提升标准文献检索过程中的准确性和索引效率。在海量标准文献库中,分别对现有排序算法与传统的文本搜索相比较。从试验的结果看,本发明所提出的排序算法,不管从检索的准确率还是检索效率角度都要比传统的电子文本检索更能满足行业需求。

Claims (3)

1.一种标准文献检索的排序算法,其特征在于:包括如下步骤:
步骤1:建立索引系统,所述索引系统包括数据库服务器、检索服务器和客户端服务器,数据库服务器和客户端服务器通过互联网连接检索服务器;
步骤2:在数据库服务器中为标准文档建立标准全文关键词库,检索服务器扫描标准文档中的每一个词,记录下每个词在标准文档中出现的频率和相应的位置,选取其中出现频率最高的50个词作为该标准的全文关键词,并且设定这50个词均为Token,检索服务器为这50个Token建立索引;
步骤3:用户通过客户端服务器输入检索字段,客户端服务器将检索字段发送给检索服务器,检索服务器采用基于词典的中文分词算法,通过逆向最大匹配的方法切分出检索字段中的所有词,其步骤如下:
步骤A:从右向左取待切分字段的Lmax个字符作为匹配字段;Lmax为所使用词典中最长词条的个数;
步骤B:对查找的字段与词典中的词进行匹配:如果匹配成功,则将这个匹配字段作为一个词切分出来,若匹配不成功,则将这个匹配字段的最前端一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配;
步骤C:重复执行步骤A到步骤B,直到切分出所有词为止;
步骤4:对切分出的分词在标准全文关键词库中进行检索,并根据以下步骤进行索引结果的输出:
步骤D:设定pf为对一条标准记录的标题名称、题录和正文的多个字段所做出的匹配项;
步骤E:针对每个字段设置不同的boost权重打分值,其设置的字段必须为在pf中配置的项;
步骤F:对查询标题名称、题录和正文的多个字段进行第一次定量规整化处理,每个字段的文本相关度打分权重分别为10n,10n-1,10n-2,……1,其中n根据数据量的大小进行赋值,且字段根据精确和模糊匹配赋予不同的权重层级;
步骤G:计算查询出每一条结果的权重,即使用map函数计算各层级分数并取其和值;
步骤H:根据遵循类型优先原则进行第二次定量规整化处理,即:假如标题和题录均精确命中,以标题精确为准,将大于10n的值都规整为一个能代表标题精确的数;
步骤J:在步骤H所得到的结果的后边加入封装好的BASE_ORDER基准排序序号,即为该结果的boost得分;
步骤K:根据boost值大小输出查询结果,同时根据标准领域专家总结,依次显示国标、行标、地标和外标。
2.如权利要求1所述的一种标准文献检索的排序算法,其特征在于:所述步骤J中的BASE_ORDER基准排序序号的排序规则如下:首先为标准号码、其次为标准部分、再次为标准年代倒序。
3.如权利要求1所述的一种标准文献检索的排序算法,其特征在于:所述步骤2中,检索服务器在扫描标准文档时,采用倒排序技术对标准文件进行拆分。
CN201710578538.4A 2017-07-17 2017-07-17 一种标准文献检索的排序算法 Active CN110019637B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710578538.4A CN110019637B (zh) 2017-07-17 2017-07-17 一种标准文献检索的排序算法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710578538.4A CN110019637B (zh) 2017-07-17 2017-07-17 一种标准文献检索的排序算法

Publications (2)

Publication Number Publication Date
CN110019637A true CN110019637A (zh) 2019-07-16
CN110019637B CN110019637B (zh) 2022-09-23

Family

ID=67185838

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710578538.4A Active CN110019637B (zh) 2017-07-17 2017-07-17 一种标准文献检索的排序算法

Country Status (1)

Country Link
CN (1) CN110019637B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160827A (zh) * 2019-12-09 2020-05-15 上海东普信息科技有限公司 快递揽收方法、手持终端的快件揽收方法及存储介质
CN111767378A (zh) * 2020-06-24 2020-10-13 北京墨丘科技有限公司 一种智能推荐科技文献的方法及装置
CN116431799A (zh) * 2023-06-14 2023-07-14 湖南科德信息咨询集团有限公司 基于技术创新研发的内容精准挖掘系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2264176A1 (en) * 1996-08-30 1998-03-05 Telexis Corporation Real time structured summary search engine
CN102004775A (zh) * 2010-11-19 2011-04-06 福建富士通信息软件有限公司 一种基于智能搜索的福富企业搜索引擎技术
CN104765848A (zh) * 2015-04-17 2015-07-08 中国人民解放军空军航空大学 混合云存储中支持结果高效排序的对称可搜索加密方法
WO2015153512A1 (en) * 2014-03-29 2015-10-08 Thomson Reuters Global Resources Improved method, system and software for searching, identifying, retrieving and presenting electronic documents

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2264176A1 (en) * 1996-08-30 1998-03-05 Telexis Corporation Real time structured summary search engine
CN102004775A (zh) * 2010-11-19 2011-04-06 福建富士通信息软件有限公司 一种基于智能搜索的福富企业搜索引擎技术
WO2015153512A1 (en) * 2014-03-29 2015-10-08 Thomson Reuters Global Resources Improved method, system and software for searching, identifying, retrieving and presenting electronic documents
CN104765848A (zh) * 2015-04-17 2015-07-08 中国人民解放军空军航空大学 混合云存储中支持结果高效排序的对称可搜索加密方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
姚天泓: "基于Xunsearch的特色文献库全文检索系统构建研究――以东北大学张学良文献库为例", 《现代情报》 *
王军辉等: "相关文献检索研究综述", 《现代图书情报技术》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160827A (zh) * 2019-12-09 2020-05-15 上海东普信息科技有限公司 快递揽收方法、手持终端的快件揽收方法及存储介质
CN111767378A (zh) * 2020-06-24 2020-10-13 北京墨丘科技有限公司 一种智能推荐科技文献的方法及装置
CN116431799A (zh) * 2023-06-14 2023-07-14 湖南科德信息咨询集团有限公司 基于技术创新研发的内容精准挖掘系统
CN116431799B (zh) * 2023-06-14 2023-08-18 湖南科德信息咨询集团有限公司 基于技术创新研发的内容精准挖掘系统

Also Published As

Publication number Publication date
CN110019637B (zh) 2022-09-23

Similar Documents

Publication Publication Date Title
CN108415902B (zh) 一种基于搜索引擎的命名实体链接方法
CN110162695B (zh) 一种信息推送的方法及设备
CN105389349B (zh) 词典更新方法及装置
US7409404B2 (en) Creating taxonomies and training data for document categorization
US8135709B2 (en) Relevance ranked faceted metadata search method
US8135708B2 (en) Relevance ranked faceted metadata search engine
CN106503223B (zh) 一种结合位置和关键词信息的在线房源搜索方法及装置
CN107180093A (zh) 信息搜索方法及装置和时效性查询词识别方法及装置
CN106528846A (zh) 一种检索方法及装置
CN110019637A (zh) 一种标准文献检索的排序算法
JP2008310626A (ja) 自動タグ付与装置、自動タグ付与方法、自動タグ付与プログラムおよびそのプログラムを記録した記録媒体
CN105159898A (zh) 一种搜索的方法和装置
CN115510331B (zh) 一种基于闲置量聚合的共享资源匹配方法
CN108256064B (zh) 一种数据搜索方法和装置
CN107818152B (zh) 一种植物检索方法和系统
CN107609006B (zh) 一种基于地方志研究的搜索优化方法
CN112487782B (zh) 一种基于文章相似数量的文章热度计算方法
CN107818144A (zh) 一种基于Solr对多数据源数据进行整合的方法
WO2008005493A2 (en) Relevance ranked faceted metadata search method and search engine
CN109241124A (zh) 一种快速检索相似字符串的方法及系统
KR101363335B1 (ko) 문서 분류모델 생성장치 및 방법
CN104794227B (zh) 一种信息匹配方法及装置
US11238052B2 (en) Refining a search request to a content provider
CN117573959B (zh) 一种基于网页xpath获取新闻正文的通用方法
JP2013536519A (ja) 多数のデータレコードをサーチする方法及びサーチエンジン

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant