CN105653703A - 一种文档检索匹配方法 - Google Patents

一种文档检索匹配方法 Download PDF

Info

Publication number
CN105653703A
CN105653703A CN201511026068.8A CN201511026068A CN105653703A CN 105653703 A CN105653703 A CN 105653703A CN 201511026068 A CN201511026068 A CN 201511026068A CN 105653703 A CN105653703 A CN 105653703A
Authority
CN
China
Prior art keywords
document
formula
index terms
matched
matching process
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201511026068.8A
Other languages
English (en)
Inventor
杜南山
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Original Assignee
WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd filed Critical WUHAN TRANSN INFORMATION TECHNOLOGY Co Ltd
Priority to CN201511026068.8A priority Critical patent/CN105653703A/zh
Publication of CN105653703A publication Critical patent/CN105653703A/zh
Priority to PCT/CN2016/108775 priority patent/WO2017114110A1/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems

Abstract

本发明提供一种文档检索匹配方法,包括计算查询文档与待匹配文档相关度的步骤,根据公式计算得出,其中,Q表示查询文档,D表示待匹配文档,所述t表示索引词,所述tf为索引词在待匹配文档中出现的次数,所述dl为待匹配文档长度;还包括在计算相关度之前进行数据预处理,通过预处理计算出ipp,pk1b,和pbavdl。本发明能提高算法实现程序的执行效率,减少全文检索过程所需要的时间。

Description

一种文档检索匹配方法
技术领域
本发明所属技术领域为自然语言处理、信息检索,尤其涉及一种文档检索匹配方法。
背景技术
信息检索中计算文档相关性的算法有很多,基于TF-IDF框架的算法是其中重要的一类,而OkapiBM25又是该类算法中的一个经典实现。本文的文档检索匹配方法主要是基于该经典算法的优化实现,方法和相关技术也可以推广到其它算法。算法中的符号及含义如表格1所示。
表格1基于TF-IDF框架的算法中使用的符号及含义
OkapiBM25算法的具体计算公式如下(公式十一):
Σ t ∈ Q , D ln N - d f + 0.5 d f + 0.5 · ( k 1 + 1 ) t f ( k 1 ( 1 - b ) + b d l a v d l ) + t f · ( k 3 + 1 ) q t f k 3 + q t f
其中,t表示词,Q表示查询文档,D表示待匹配文档。k1一般取值1.0~2.0,b一般取值0.75,k3一般取值取值0~1000,均为常数。
发明内容
本发明所要解决的技术问题是提供一种文档检索匹配方法,提高算法实现程序的执行效率,减少全文检索过程所需要的时间。
为解决上述技术问题,本发明提供一种文档检索匹配方法,包括计算查询文档与待匹配文档相关度的步骤,其特征是:所述计算查询文档与待匹配文档相关度的步骤根据公式一计算得出,所述公式一为:
Σ t ∈ Q , D i p p · t f ( pk 1 b + p b a v d l · d l ) + t f
其中,Q表示查询文档,D表示待匹配文档,t表示索引词,tf为索引词在待匹配文档中出现的次数,dl为待匹配文档的文档长度;
所述公式一的计算因子tf,dl,ipp,pk1b,pbavdl由数据预处理的步骤得出;
所述数据预处理的步骤是:
(a)记录文档库中的总文档数N,总文档长度adl,根据公式计算得出平均文档长度avdl;
将b取值0.75,根据公式四计算得出pbavdl,所述公式四为:
记录待匹配文档的长度dl,记录索引词在待匹配文档中出现的次数tf;
(b)获取索引词的查询词频qtf,记录索引词出现的文档数量df,将k1取值1.0~2.0,k3取值0~1000,根据公式二计算得出ipp,所述公式二为:
i p p = ln N - d f + 0.5 d f + 0.5 · ( k 1 + 1 ) · ( k 3 + 1 ) q t f k 3 + q t f ;
(c)根据公式三计算得出pk1b,所述公式三为:pk1b=k1(1-b);
所述数据预处理的步骤在计算查询文档与待匹配文档相关度的步骤之前。
优选地,所述公式一由公式十一转换而来,所述公式十一为:
Σ t ∈ Q , D ln N - d f + 0.5 d f + 0.5 · ( k 1 + 1 ) t f ( k 1 ( 1 - b ) + b d l a v d l ) + t f · ( k 3 + 1 ) q t f k 3 + q t f
所述由公式十一向公式一转换的步骤为:
(1)令 l n N - d f + 0.5 d f + 0.5 = i d f ;
(2)令k1+1=pk1
(3)令 ( k 3 + 1 ) q t f k 3 + q t f = p q t f ;
(4)令idf·pk1·pqtf=ipp;
(5)令k1(1-b)=pk1b;
(6)令 b a v d l = p b a v d l .
优选地,所述公式二由公式十一向公式一转换的步骤(1),(2),(3),(4)组合转换而来。
优选地,所述idf为索引词的逆文档频率,所述索引词的逆文档频率根据总文档数N和索引词出现的文档数量df得出。
优选地,所述总文档数N和总文档长度adl记录在文档库中。
优选地,所述文档库包括倒排索引表和文档信息表,所述文档信息表记录文档、文档的唯一编号ID和文档长度dl,所述倒排索引表记录了索引词和索引词的列表信息。
优选地,所述索引词的列表信息包括:索引词出现的文档数量df,索引词在对应文档中出现的次数tf。
优选地,所述公式一中的索引词为同时从查询文档和待匹配文档中获取的索引词。
优选地,所述公式一的计算因子tf,dl,ipp由数据预处理的步骤(a)得出;
所述公式一的计算因子pk1b,由数据预处理的步骤(b)得出;
所述公式一的计算因子pbavdl,由数据预处理的步骤(c)得出。
本发明的有益效果是:能提高算法对应软件程序的执行效率,减少全文检索过程所需要的时间。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定,在附图中:
图1为本发明的示意图。
具体实施方式
下面结合附图和具体实施方式对本发明的技术方案作进一步具体说明。
为解决上述技术问题,本发明提供一种文档检索匹配方法,将经典算法进行了优化,优化技术主要通过数据预处理和改变计算公式中计算项的先后顺序实现,包括三个步骤:
如图1所示,第一步:数据预处理,通过数据预处理计算出ipp,pk1b,和pbavdl这三个计算项,
所述数据预处理的步骤是:
(a)记录文档库中的总文档数N,总文档长度adl,根据公式计算得出平均文档长度avdl;
将b取值0.75,根据公式四计算得出pbavdl,所述公式四为:
记录待匹配文档的长度dl,记录索引词在待匹配文档中出现的次数tf;
(b)获取索引词的查询词频qtf,记录索引词出现的文档数量df,将k1取值1.0~2.0,k3取值0~1000,根据公式二计算得出ipp,所述公式二为:
i p p = l n N - d f + 0.5 d f + 0.5 · ( k 1 + 1 ) · ( k 3 + 1 ) q t f k 3 + q t f ;
(c)将b取值0.75,将k1取值1.0~2.0,根据公式三计算得出pk1b,所述公式三为:pk1b=k1(1-b);
所述总文档数N和总文档长度adl记录在文档库中,所述文档库包括倒排索引表和文档信息表,所述文档信息表记录文档、文档的唯一编号ID和文档长度dl,所述倒排索引表记录了索引词和索引词的列表信息;所述索引词的列表信息包括:索引词出现的文档数量df,索引词在对应文档中出现的次数tf。
一般的倒排索引表中:记录了所有的索引词以及这些索引词在每篇文档中出现的频率;倒排索引表一般形式如表格2所示。
修改后的倒排索引表如
表格3所示。在表格2中,索引词对应的是该词在文档中的信息列表,每项为文档编号及索引词在该文档中出现的次数tf。在
表格3中,索引词对应的信息增加了该词在多少篇文档中出现过即索引词出现的文档数量df,也就是文档频率。
表格2倒排索引表一般形式
表格3修改后的倒排索引表形式
根据
表格3中的文档频率和总文档数,即可计算得到公式中第一个计算项的值。
在数据预处理阶段完成计算项的准备。
第二步:计算公式转换,将公式十一转换成公式一:
背景技术中提到经典算法OkapiBM25算法的具体计算公式如下(公式十一):
Σ t ∈ Q , D ln N - d f + 0.5 d f + 0.5 · ( k 1 + 1 ) t f ( k 1 ( 1 - b ) + b d l a v d l ) + t f · ( k 3 + 1 ) q t f k 3 + q t f
其中,t表示词,Q表示查询文档,D表示待匹配文档。k1一般取值1.0~2.0,b一般取值0.75,k3一般取值取值0~1000,均为常数。
本发明对该经典公式进行了转换以便于优化,转换为公式一,所述公式一为:
Σ t ∈ Q , D i p p · t f ( pk 1 b + p b a v d l · d l ) + t f
其中,Q表示查询文档,D表示待匹配文档,所述t表示根据查询文档获取的索引词,所述tf为索引词在对应文档中出现的次数,所述dl为文档长度;
所述公式一的计算因子tf,dl,ipp由数据预处理的步骤(a)得出;
所述公式一的计算因子pk1b,由数据预处理的步骤(b)得出;
所述公式一的计算因子pbavdl,由数据预处理的步骤(c)得出。
所述ipp由公式二计算得出,所述pk1b由公式三计算得出,所述pbavdl由公式四计算得出;
公式十一转换成公式一的步骤为:
(1)令 l n N - d f + 0.5 d f + 0.5 = i d f ;
(2)令k1+1=pk1
(3)令 ( k 3 + 1 ) q t f k 3 + q t f = p q t f ;
(4)令idf·pk1·pqtf=ipp;
(5)令k1(1-b)=pk1b;
(6)令 b a v d l = p b a v d l .
其中,所述公式二 i p p = l n N - d f + 0.5 d f + 0.5 · ( k 1 + 1 ) . ( k 3 + 1 ) q t f k 3 + q t f 由上述步骤(1),(2),(3),(4)组合转换而来。
其中,所述idf为索引词的逆文档频率,所述索引词的逆文档频率根据总文档数N和索引词出现的文档数量df得出,在数据预处理的步骤(2)可以计算得出。
第三步:根据转换后的计算公式即公式一逐一计算查询文档与待匹配文档之间的相关度,转换后的计算公式即公式一为:
Σ t ∈ Q , D i p p · t f ( pk 1 b + p b a v d l · d l ) + t f
上述步骤为一种文档相关性计算方法优化算法,其先进性体现在以下:
OkapiBM25算法实现时,对每一篇候选文档计算相关性得分时,对该文档中出现的每一个索引词,简单按公式实现的计算量,以及算法优化实现后的计算量,进行比较的数据如表格4所示。其中加减法次数减少7/9,乘除法次数减少7/10,对数计算次数从1次减少到0。
表格4算法实现的单项计算量比较
算法优化实现的计算还需要基于对查询文档中的索引词的预处理计算,也就是计算ipp,pk1b,pbavdl这三项的值,对应的计算量如表格5所示,其中ipp的完整计算公式为:
i p p = l n N - d f + 0.5 d f + 0.5 · ( k 1 + 1 ) · ( k 3 + 1 ) q t f k 3 + q t f
表格5索引词的预处理计算量
计算相关性的词,也就是索引词数量为M,候选文档数量为N,则简单实现和优化实现对应的计算量如表格6所示。其中M-1为连加符号对应的计算量。
表格6算法实现计算量比较
优化实现相对简单实现所需要的计算量,根据各种运算类型计算可得:
7 * M + ( 2 * M + M - 1 ) * N ( 9 * M + M - 1 ) * N < 7 10 * N - N M + 3 10
7 * M + 3 * M * N 10 * M * N < 7 10 * N + 3 10
1 * M 1 * M * N = 1 N
一般来说,有N>>M>>1,因此,文档相关性的计算量约可以降为原来的3/10。虽然算法的理论复杂度没有变化,但是算法实现的计算量减少了约7/10,则相应的计算时间也可以缩短约7/10。
最后所应说明的是,以上具体实施方式仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种文档检索匹配方法,包括计算查询文档与待匹配文档相关度的步骤,其特征是:
所述计算查询文档与待匹配文档相关度的步骤根据公式一计算得出,所述公式一为:
&Sigma; t &Element; Q D i p p &CenterDot; t f ( pk 1 b + p b a v d l &CenterDot; d l ) + t f
其中,Q表示查询文档,D表示待匹配文档,t表示索引词,tf为索引词在待匹配文档中出现的次数,dl为待匹配文档的文档长度;
所述公式一的计算因子tf,dl,ipp,pk1b,pbavdl由数据预处理的步骤得出;
所述数据预处理的步骤是:
(a)记录文档库中的总文档数N,总文档长度adl,根据公式计算得出平均文档长度avdl;
将b取值0.75,根据公式四计算得出pbavdl,所述公式四为:
记录待匹配文档的长度dl,记录索引词在待匹配文档中出现的次数tf;
(b)获取索引词在查询文档中的词频qtf,记录索引词出现的文档数量df,将k1取值1.0~2.0,k3取值0~1000,根据公式二计算得出ipp,所述公式二为:
i p p = l n N - d f + 0.5 d f + 0.5 &CenterDot; ( k 1 + 1 ) &CenterDot; ( k 3 + 1 ) q t f k 3 + q t f ;
(c)根据公式三计算得出pk1b,所述公式三为:pk1b=k1(1-b);
所述数据预处理的步骤在计算查询文档与待匹配文档相关度的步骤之前。
2.根据权利要求1所述的一种文档检索匹配方法,其特征是所述公式一由公式十一转换而来,所述公式十一为:
&Sigma; t &Element; Q , D l n N - d f + 0.5 d f + 0.5 &CenterDot; ( k 1 + 1 ) t f ( k 1 ( 1 - b ) + b d l a v d l ) + t f &CenterDot; ( k 3 + 1 ) q t f k 3 + q t f
所述由公式十一向公式一转换的步骤为:
(1)令 l n N - d f + 0.5 d f + 0.5 = i d f ;
(2)令k1+1=pk1
(3)令 ( k 3 + 1 ) q t f k 3 + q t f = p q t f ;
(4)令idf·pk1·pqtf=ipp;
(5)令k1(1-b)=pk1b;
(6)令 b a v d l = p b a v d l .
3.根据权利要求1,2所述的一种文档检索匹配方法,其特征是所述公式二由公式十一向公式一转换的步骤(1),(2),(3),(4)组合转换而来。
4.根据权利要求2所述的一种文档检索匹配方法,其特征是所述idf为索引词的逆文档频率,所述索引词的逆文档频率根据总文档数N和索引词出现的文档数量df得出。
5.根据权利要求1所述的一种文档检索匹配方法,其特征是所述总文档数N和总文档长度adl记录在文档库中。
6.根据权利要求5所述的一种文档检索匹配方法,其特征是所述文档库包括倒排索引表和文档信息表,所述文档信息表记录文档、文档的唯一编号ID和文档长度dl,所述倒排索引表记录了索引词和索引词的列表信息。
7.根据权利要求6所述的一种文档检索匹配方法,其特征是所述索引词的列表信息包括:索引词出现的文档数量df,索引词在对应文档中出现的次数tf。
8.根据权利要求1所述的一种文档检索匹配方法,其特征是所述公式一中的索引词为同时从查询文档和待匹配文档中获取的索引词。
9.根据权利要求1所述的一种文档检索匹配方法,其特征是:
所述公式一的计算因子tf,dl,ipp由数据预处理的步骤(a)得出;
所述公式一的计算因子pk1b,由数据预处理的步骤(b)得出;
所述公式一的计算因子pbavdl,由数据预处理的步骤(c)得出。
CN201511026068.8A 2015-12-31 2015-12-31 一种文档检索匹配方法 Pending CN105653703A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201511026068.8A CN105653703A (zh) 2015-12-31 2015-12-31 一种文档检索匹配方法
PCT/CN2016/108775 WO2017114110A1 (zh) 2015-12-31 2016-12-07 一种文档检索匹配方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201511026068.8A CN105653703A (zh) 2015-12-31 2015-12-31 一种文档检索匹配方法

Publications (1)

Publication Number Publication Date
CN105653703A true CN105653703A (zh) 2016-06-08

Family

ID=56490410

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201511026068.8A Pending CN105653703A (zh) 2015-12-31 2015-12-31 一种文档检索匹配方法

Country Status (2)

Country Link
CN (1) CN105653703A (zh)
WO (1) WO2017114110A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017114110A1 (zh) * 2015-12-31 2017-07-06 语联网(武汉)信息技术有限公司 一种文档检索匹配方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008144457A2 (en) * 2007-05-18 2008-11-27 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
CN103049470A (zh) * 2012-09-12 2013-04-17 北京航空航天大学 基于情感相关度的观点检索方法
WO2013103588A1 (en) * 2012-01-06 2013-07-11 Microsoft Corporation Search ranking features
CN103246681A (zh) * 2012-02-13 2013-08-14 腾讯科技(深圳)有限公司 一种搜索方法及装置
CN103699574A (zh) * 2013-11-28 2014-04-02 安徽科大讯飞信息科技股份有限公司 一种对复杂检索式进行检索优化的方法及系统
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7925644B2 (en) * 2007-03-01 2011-04-12 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
CN101876979B (zh) * 2009-04-28 2012-08-29 株式会社理光 查询扩展方法及查询扩展系统
CN105653703A (zh) * 2015-12-31 2016-06-08 武汉传神信息技术有限公司 一种文档检索匹配方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008144457A2 (en) * 2007-05-18 2008-11-27 Microsoft Corporation Efficient retrieval algorithm by query term discrimination
WO2013103588A1 (en) * 2012-01-06 2013-07-11 Microsoft Corporation Search ranking features
CN103246681A (zh) * 2012-02-13 2013-08-14 腾讯科技(深圳)有限公司 一种搜索方法及装置
CN103049470A (zh) * 2012-09-12 2013-04-17 北京航空航天大学 基于情感相关度的观点检索方法
CN103699574A (zh) * 2013-11-28 2014-04-02 安徽科大讯飞信息科技股份有限公司 一种对复杂检索式进行检索优化的方法及系统
CN104765769A (zh) * 2015-03-06 2015-07-08 大连理工大学 一种基于词矢量的短文本查询扩展及检索方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
DEEPBLUE: "BM25算法浅析", 《HTTPS://WENKU.BAIDU.COM/VIEW/9107BD78A26925C52CC5BFBB.HTML》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2017114110A1 (zh) * 2015-12-31 2017-07-06 语联网(武汉)信息技术有限公司 一种文档检索匹配方法

Also Published As

Publication number Publication date
WO2017114110A1 (zh) 2017-07-06

Similar Documents

Publication Publication Date Title
CN108717470B (zh) 一种具有高准确度的代码片段推荐方法
Zanibbi et al. Multi-stage math formula search: Using appearance-based similarity metrics at scale
CN108280114B (zh) 一种基于深度学习的用户文献阅读兴趣分析方法
CN102081668B (zh) 基于领域本体的信息检索优化方法
US8805755B2 (en) Decomposable ranking for efficient precomputing
CN103425687A (zh) 一种基于关键词的检索方法和系统
CN104484380A (zh) 个性化搜索方法及装置
CN105354325A (zh) 一种文献检索及分析系统
Semerikov et al. Automation of the Export Data from Open Journal Systems to the Russian Science Citation Index
CN103886099A (zh) 一种模糊概念的语义检索系统及方法
CN106708929A (zh) 视频节目的搜索方法和装置
EP2996047A1 (en) A method and system for selecting public data sources
Khoo et al. Augmenting Dublin core digital library metadata with Dewey decimal classification
Singhal et al. Data extract: Mining context from the web for dataset extraction
Sarwar et al. Recommending research articles: a multi-level chronological learning-based approach using unsupervised keyphrase extraction and lexical similarity calculation
CN106649879A (zh) 一种图书馆专业书籍智能推荐方法
Toba et al. Enhanced unsupervised person name disambiguation to support alumni tracer study
Vowinckel et al. SEARCHFORMER: Semantic patent embeddings by siamese transformers for prior art search
Hu et al. Passage extraction and result combination for genomics information retrieval
CN105653703A (zh) 一种文档检索匹配方法
Yang et al. Multi-Label Learning Based on Transfer Learning and Label Correlation.
KR100818742B1 (ko) 색인 단어의 문서 내 위치 정보에 대한 관련성을 이용한문서 검색 방법
Kosa et al. Similar terms grouping yields faster terminological saturation
Parida et al. Ranking of Odia text document relevant to user query using vector space model
Kargar et al. eGraphSearch: Effective keyword search in graphs

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant after: Language network (Wuhan) Information Technology Co., Ltd.

Address before: 430073 East Lake Hubei Development Zone, Optics Valley Software Park, a phase of the west, South Lake Road South, Optics Valley Software Park, No. 2, No. 5, layer 205, six

Applicant before: Wuhan Transn Information Technology Co., Ltd.

RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160608