CN107688595B - 信息检索准确性评估方法、装置及计算机可读存储介质 - Google Patents
信息检索准确性评估方法、装置及计算机可读存储介质 Download PDFInfo
- Publication number
- CN107688595B CN107688595B CN201710327380.3A CN201710327380A CN107688595B CN 107688595 B CN107688595 B CN 107688595B CN 201710327380 A CN201710327380 A CN 201710327380A CN 107688595 B CN107688595 B CN 107688595B
- Authority
- CN
- China
- Prior art keywords
- search result
- retrieval
- accuracy
- searching system
- sequence number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 53
- 238000004458 analytical method Methods 0.000 claims abstract description 25
- 238000012216 screening Methods 0.000 claims description 15
- 238000000034 method Methods 0.000 claims description 12
- 238000007689 inspection Methods 0.000 claims description 11
- 235000013399 edible fruits Nutrition 0.000 claims description 6
- 238000013507 mapping Methods 0.000 claims description 4
- 230000000875 corresponding effect Effects 0.000 description 74
- 238000010586 diagram Methods 0.000 description 8
- 230000002596 correlated effect Effects 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005457 optimization Methods 0.000 description 3
- 238000001514 detection method Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000004891 communication Methods 0.000 description 1
- 230000001186 cumulative effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F11/00—Error detection; Error correction; Monitoring
- G06F11/30—Monitoring
- G06F11/34—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment
- G06F11/3409—Recording or statistical evaluation of computer activity, e.g. of down time, of input/output operation ; Recording or statistical evaluation of user activity, e.g. usability assessment for performance assessment
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/242—Query formulation
- G06F16/2425—Iterative querying; Query formulation based on the results of a preceding query
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2474—Sequence data queries, e.g. querying versioned data
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/248—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
- G06F16/90344—Query processing by using string matching techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/9038—Presentation of query results
Abstract
本发明涉及一种信息检索准确性评估方法及系统。其中,信息检索准确性评估方法包括:利用预先确定的第一检索系统检索出与预先确定的关键词对应的至少一个第一检索结果,且利用预先确定的第二检索系统检索出与所述关键词对应的至少一个第二检索结果;根据预先设定的序列号生成规则,生成所述第一检索结果对应的第一检索序列号及所述第二检索结果对应的第二检索序列号;根据预先确定的准确性分析规则对生成的所述第一检索序列号和所述第二检索序列号进行分析以分析出所述第一检索系统和所述第二减少系统的准确性。本发明在有效避免大规模的人工投入的同时,有效提高了信息检索系统检索结果准确性的评估。
Description
技术领域
本发明涉及信息检索领域,尤其涉及一种信息检索准确性评估方法、装置及计算机可读存储介质。
背景技术
目前,比较通用和流行的信息检索结果的准确性检测方法有以下四种:
1、Precision,即检查召回检索结果中相关结果的比例。
2、MRR(Mean Reciprocal Rank),即区分排序在返回结果中的作用,相关召回排名越靠前结果越好。
3、取平均值MAP(Mean Average Precision),即求每个相关文档检索出的准确率的平均值(即Average Precision)的算术平均值(Mean)。
4、DCG(Discounted Cumulative Gain),即对于某检索词得到的结果进行打分。
就目前常用的这四种方法而言,第一种方法最为简单和通用,但是计算量偏大,需要人工标注所有检索结果的相关性,同时没有考虑结果的排序而影响准确性。
第二种方法虽然也比较简单,但是该方法只考虑检索中的第一个相关结果,而在实际工程应用中,相比于只关注第一个相关结果,用户则可能需要查看多个结果进行综合评估,所以该方法在实际使用中不能很好的满足用户的使用,准确性较低。
第三种方法虽然综合考虑了相关结果的排序和所有的相关性,但是该方法需要考虑存储库中所有结果的排序,需要大规模人工筛选,浪费人力物力,效率低下,容易出错。
第四种方法也是在打分环节上需要的人工因素过多,很难量化。综上,目前常用的信息检索结果的准确性判断方法存在计算量大,需要大规模人工筛选,准确性较低等问题。
发明内容
本发明的目的在于提供一种信息检索准确性评估方法、装置及计算机可读存储介质,旨在解决目前的信息检索准确性评估方法存在的上述问题。
为实现上述目的,本发明提供一种信息检索准确性评估方法,该方法包括如下步骤:
A、利用预先确定的第一检索系统检索出与预先确定的关键词对应的至少一个第一检索结果,且利用预先确定的第二检索系统检索出与关键词对应的至少一个第二检索结果;
B、根据预先设定的序列号生成规则,生成所述第一检索结果对应的第一检索序列号、及所述第二检索结果对应的第二检索序列号;
C、根据预先确定的准确性分析规则对生成的第一检索序列号和第二检索序列号进行分析,以分析出第一检索系统相对于第二检索系统的准确性。
优选地,上述步骤B包括如下步骤:
E、根据预先确定的筛选规则从第一检索结果中筛选出与关键词匹配的第三检索结果,从第二检索结果中筛选出与关键词匹配的第四检索结果;
F、确定第三检索结果中各个检索内容在第一检索结果中的第一排序号,确定第四检索结果中各个检索内容在第二检索结果中的第二排序号;
G、根据第一排序号生成第一检索结果对应的第一检索序列号,并根据第二排序号生成第二检索结果对应的第二检索序列号。
优选地,预先确定的筛选规则包括:
人工方式从第一检索结果及第二检索结果中筛选出与关键词匹配的检索结果;
或者根据预先确定的关键词与关联词的映射关系,确定关键词对应的关联词,统计各个检索结果中包含关键词及其对应的关联词的总数量;若有检索结果对应的总数量大于或等于预设数量,则确定该检索结果为与关键词匹配的检索结果,若有检索结果对应的总数量小于预设数量,则确定该检索结果为与关键词不匹配的检索结果。
优选地,预先确定的准确性分析规则包括:
分别将生成的第一检索序列号中的各个号码代入预设的公式,计算出第一检索序列号中的各个号码对应的第一折扣值,其中,计算出的各个第一折扣值的集合为第一检索系统对应的第一折扣集;
分别将生成的第二检索序列号中的各个号码代入预设的公式,计算出与第二检索序列号中的各个号码对应的第二折扣值,其中,计算出的各个第二折扣值的集合为第二检索系统对应的第二折扣集;
对第一折扣集中的各个折扣值求和,得到第一检索系统对应的第一准确率,并对第二折扣集中的各个折扣值求和,得到第二检索系统对应的第二准确率;
对第一准确率和第二准确率进行分析,以确定第一检索系统和第二检索系统的准确性。
优选地,对第一准确率和第二准确率进行分析,以确定第一检索系统相对于第二检索系统的准确性的步骤包括:
分析第一准确率和第二准确率之间的大小关系;
若第一准确率大于第二准确率,则确定第一检索系统的检索结果比第二检索系统的检索结果更准确;
若第一准确率小于第二准确率,则确定第二检索系统的检索结果比第一检索系统的检索结果更准确;
若第一准确率等于第二准确率,则确定第一检索系统的检索结果与第二检索系统的检索结果的准确率相同。
为实现上述目的,本发明还提供一种信息检索准确性评估装置,该装置包括:存储器、处理器及存储在存储器上并可在处理器上运行的信息检索准确性评估系统,信息检索准确性评估系统被处理器执行时执行如下步骤:
A、利用预先确定的第一检索系统检索出与预先确定的关键词对应的至少一个第一检索结果,且利用预先确定的第二检索系统检索出与关键词对应的至少一个第二检索结果;
B、根据预先设定的序列号生成规则,生成第一检索结果对应的第一检索序列号、及第二检索结果对应的第二检索序列号;
C、根据预先确定的准确性分析规则对生成的第一检索序列号和第二检索序列号进行分析,以分析出第一检索系统相对于第二检索系统的准确性。
优选地,处理器执行步骤B时,执行如下步骤:
E、根据预先确定的筛选规则从第一检索结果中筛选出与关键词匹配的第三检索结果,从第二检索结果中筛选出与关键词匹配的第四检索结果;
F、确定第三检索结果中各个检索内容在第一检索结果中的第一排序号,确定第四检索结果中各个检索内容在第二检索结果中的第二排序号;
G、根据第一排序号生成第一检索结果对应的第一检索序列号,并根据第二排序号生成第二检索结果对应的第二检索序列号。
优选地,处理器执行信息检索准确性评估系统,执行预先确定的筛选规则包括:
根据预先确定的关键词与关联词的映射关系,确定关键词对应的关联词,统计各个检索结果中包含关键词及其对应的关联词的总数量,若有检索结果对应的总数量大于或等于预设数量,则确定该检索结果为与关键词匹配的检索结果,若有检索结果对应的总数量小于预设数量,则确定该检索结果为与关键词不匹配的检索结果。
优选地,处理器执行所述信息检索准确性评估系统,执行准确性分析规则包括:分别将生成的第一检索序列号中的各个号码代入预设的公式,计算出第一检索序列号中的各个号码对应的第一折扣值,其中,计算出的各个第一折扣值的集合为第一检索系统对应的第一折扣集;
分别将生成的第二检索序列号中的各个号码代入预设的公式,计算出与第二检索序列号中的各个号码对应的第二折扣值,其中,计算出的各个第二折扣值的集合为第二检索系统对应的第二折扣集;
对第一折扣集中的各个折扣值求和,得到第一检索系统对应的第一准确率,并对第二折扣集中的各个折扣值求和,得到第二检索系统对应的第二准确率;
对第一准确率和第二准确率进行分析,以确定第一检索系统相对于第二检索系统的准确性。
为了解决上述目的,本发明还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有信息检索准确性评估程序,该信息检索准确性评估程序被处理器执行时实现上述各个实施例中信息检索准确性评估方法。
与现有技术相比,本发明的信息检索准确性评估方法、装置及计算机可读存储介质,首先通过确定检索系统检索出的与预先确定的关键词对应的检索结果,并根据预先设定的序列号生成规则生成与检索结果对应的检索序列号,其次,通过预先确定的准确性分析规则分析检索序列号,以分析出检索系统的准确性。实施本发明的信息检索准确性评估方法、装置及计算机可读存储介质有效避免了人工标注所有检索结果、减少了计算量,同时考虑了检索结果中与预设的关键词相关的检索结果的排序,有效提高了检索系统评估的准确性。
附图说明
图1为本发明一实施例的流程示意图;
图2为图1所示步骤S3中准确性分析规则步骤;
图3为本发明信息检索准确性评估系统一实施例的运行环境示意图;
图4为本发明一实施例的功能模块示意图;
图5为图4所示序列号生成模块的结构示意图;
图6为图4所示准确性判断模块的结构示意图。
具体实施方式
以下结合附图对本发明的原理和特征进行描述,所举实例只用于解释本发明,并非用于限定本发明的范围。
如图1所示,图1为本发明一实施例的流程示意图,由图1可知,本实施例的信息检索准确性评估方法包括以下步骤:
步骤S1,利用预先确定的检索系统检索出与预先确定的关键词对应的检索结果。
优选地,在本实施例中,预先确定的检索系统包括第一检索系统和第二检索系统。其中,第一检索系统与第二检索系统可以是不相关的检索系统,或第二检索系统为第一检索系统优化之后的升级系统。
进一步地,第一检索系统检索出与预先确定的关键词对应的第一检索结果,并利用第二检索系统检索出与第一检索系统检索出的预先确定的关键词相同的关键词对应的第二检索结果。可以理解地,第一检索结果为多个内容不同的检索结果,第二检索结果也为多个内容不同的检索结果。第一检索结果和第二检索结果的个数可以相同也可以不同。
步骤S2,根据预先设定的序列号生成规则,生成检索序列号。结合步骤S1,可以理解地,在本实施例中,根据预先设定的序列号生成规则,生成与第一检索结果对应的第一检索序列号、及生成与第二检索结果对应的第二检索序列号。
优选地,在本实施中,该步骤包括:
根据预先确定的筛选规则从第一检索结果中筛选出与预先确定的关键词匹配的第三检索结果,从第二检索结果中筛选出与预先确定的关键词匹配的第四检索结果。
确定第三检索结果中各个检索内容在第一检索结果中的第一排序号,确定第四检索结果中各个检索内容在第二检索结果中的第二排序号。
根据第一排序号生成第一检索结果对应的第一检索序列号,并根据第二排序号生成第二检索结果对应的第二检索序列号。
其中,检索内容包括与检索关键词匹配的相关网页的名称和链接地址内容、与检索关键词匹配的相关文档的名称和链接地址内容等。
进一步地,预先确定的筛选规则包括,人工方式从第一检索结果及第二检索结果中筛选出与预先确定的关键词匹配的检索结果,或者根据预先确定的关键词与关联词的映射关系,确定预先确定的关键词对应的关联词,统计各个检索结果中包含预先确定的关键词及其对应的关联词的总数量,若有检索结果对应的总数量大于或等于预设数量,则确定该检索结果为与预先确定的关键词匹配的检索结果;若有检索结果对应的总数量小于预设数量,则确定该检索结果为与预先确定的关键词不匹配的检索结果。
步骤S3,根据预先确定的准确性分析规则分析生成的检索序列号,以分析出检索系统的准确性。
对应上述步骤S1和步骤S2,可以理解地,在本实施例中,根据预先确定的准确性分析规则对生成的第一检索序列号和第二检索序列号进行分析,以分析出第一检索系统和第二检索系统的准确性。
与现有技术相比,本实施例通过利用不同的检索系统检索出与预先确定的关键词对应的各个检索系统的检索结果,再从各个检索结果中筛选出与检索关键词相匹配的检索结果,对于检索关键词相匹配的检索结果根据检索结果的内容进行排序得到不同的检索系统对应的不同排序号,最后根据预订的公式分析计算各个不同的排序号,而分析出不同的检索系统对应的准确性,有效避免了大量人工操作的同时,并有效地提高了信息检索系统的检索准确性评估。
优选地,如图2所示,为图1所示步骤S3中准确性分析规则步骤。由图2可知,在本实施例中,准确性分析规则包括如下步骤:
S31,将生成的检索序列号中的各个号码带入预设的公式,计算出检索序列号中的各个号码对应的折扣值,且各个折扣值的集合为折扣集。
结合上述图1的各步骤可知,在本实施例中,该步骤包括,
分别将生成的第一检索序列号中的各个号码代入预设的公式,计算出第一检索序列号中的各个号码对应的第一折扣值;其中,计算出的各个第一折扣值的集合为第一检索系统对应的第一折扣集。
分别将生成的第二检索序列号中的各个号码代入预设的公式,计算出与第二检索序列号中的各个号码对应的第二折扣值;其中,计算出的各个第二折扣值的集合为第二检索系统对应的第二折扣集。
进一步地,预设的公式为1/Log(1+N),其中,N代表检索序列号中的号码。
S32,将折扣集中的折扣值求和,得到检索准确率。可以理解地,在本实施例中,该步骤包括对第一折扣集中的各个折扣值求和,得到第一检索系统对应的第一准确率,并对第二折扣集中的各个折扣值求和,得到第二检索系统对应的第二准确率。
S23,比较不同检索系统的检索准确率,确定不同检索系统的准确性。在本实施例中,该步骤包括对第一准确率和第二准确率进行分析,以确定第一检索系统相对于第二检索系统的准确性。具体为比较第一准确率和第二准确率之间的大小关系,确定第一检索系统和第二检索系统的准确性。
优选地,确定第一检索系统和第二检索系统的准确性包括:分析第一准确率和第二准确率之间的大小关系,若第一准确率大于第二准确率,则确定第一检索系统的检索结果比第二检索系统的检索结果更准确;若第一准确率小于第二准确率,则确定第二检索系统的检索结果比第一检索系统的检索结果更准确;若第一准确率等于第二准确率,则确定第一检索系统的检索结果与第二检索系统的检索结果的准确率相同。
例如,在一实施例中,分别在两个不同的第一检索系统和第二检索系统中以相同的关键词各进行了一次检索,在第一检索系统中,顺序选取第一检索系统返回的前10个检索结果,根据预设的判断标准得到了5个相匹配的检索结果,且得到的第一序列号为1、2、4、5、9,那么根据预设的公式1/Log(1+N)进行折扣分析,得到的第一折扣集为:1/Log(1+1)、1/Log(1+2)、1/Log(1+4)、1/Log(1+5)、1/Log(1+9)。在第二个检索系统中,顺序选取第二检索系统返回的前10个检索结果,根据预设的判断标准得到了6个相匹配的检索结果,且得到的第二序列号为1、6、7、8、9、10,那么根据预设的公式1/Log(1+N)进行折扣分析,得到的第二折扣集为:1/Log(1+1)、1/Log(1+6)、1/Log(1+7)、1/Log(1+8)、1/Log(1+9)、1/Log(1+10)。
进一步地,对第一折扣集中的各个折扣值求和,得到第一检索系统对应的第一准确率为L1。对第二折扣集中的各个折扣值求和,得到第二检索系统对应的第二准确率L2。其中,
L1=(1/Log(1+1))+(1/Log(1+2))+(1/Log(1+4))+(1/Log(1+5))+(1/Log(1+9)),
L2=(1/Log(1+1))+(1/Log(1+6))+(1/Log(1+7))+(1/Log(1+8))+(1/Log(1+9))+(1/L og(1+10))。比较L1和L2值的大小,可以看出L1的值大于L2的值,则确定第一检索系统的检索结果比第二检索系统的检索结果更准确。
可以理解地,若第二检索系统是第一检索系统优化后的检索系统,则可以确定对第一检索系统的优化不成功。在这个实施例中,虽然第二检索系统检索出与预设的检索关键词相匹配的检索结果的数量(6个)多于第一检索系统检索出与预设的检索关键词相匹配的检索结果(5个),但第一检索系统检索出与预设的检索关键词相匹配的检索结果在返回的检索结果中的排序整体比第一检索系统检索的相匹配的检索结果在返回的检索结果中的排序靠前,因此,判定第一检索系统的检索结果比第二检索系统的检索结果更准确,实现在计算量很小的情况下,给出了准确的信息检索结果的准确性分析结果。
与现有技术相比,本实施例通过利用不同的检索系统检索出与预先确定的关键词对应的各个检索系统的检索结果,再从各个检索结果中筛选出与检索关键词相匹配的检索结果,对于检索关键词相匹配的检索结果根据检索结果的内容进行排序得到不同的检索系统对应的不同排序号,最后根据预订的公式分析计算各个不同的排序号,而分析出不同的检索系统对应的准确性,有效避免了大量人工操作的同时,并有效地提高了信息检索系统的检索准确性评估。
请参阅图3,是本发明信息检索准确性评估系统10较佳实施例的运行环境示意图。
在本实施例中,信息检索准确性评估系统10安装并运行于信息检索准确性评估装置1中。信息检索准确性评估装置1可以是桌上型计算机、笔记本、掌上电脑及服务器等计算设备。信息检索准确性评估装置1可包括,但不仅限于,存储器11、处理器12及网络接口13。图3仅示出了具有组件11-13的信息检索准确性评估装置1,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。
存储器11在一些实施例中可以是信息检索准确性评估装置1的内部存储单元,例如该信息检索准确性评估装置1的硬盘或内存。存储器11在另一些实施例中也可以是信息检索准确性评估装置1的外部存储设备,例如信息检索准确性评估装置1上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,存储器11还可以既包括信息检索准确性评估装置1的内部存储单元也包括外部存储设备。存储器11用于存储安装于信息检索准确性评估装置1的应用软件及各类数据,例如基于数信息检索准确性评估系统10的程序代码等。存储器11还可以用于暂时地存储已经输出或者将要输出的数据。
处理器12在一些实施例中可以是一中央处理器(Central Processing Unit,CPU),微处理器或其他数据处理芯片。处理器12通常用于控制信息准确性评估装置1的总体操作,例如,在本实施例中,用于运行存储器11中存储的程序代码或处理数据,例如执行信息准确性评估系统10等。
网络接口13,可包括无线网络接口或有线网络接口,网络接口13通常用于在信息准确性评估装置1与其他电子设备之间建立通信连接。需要说明的是,在一些实施例中,信息准确性评估装置1还包括显示器(显示器图中未示出),在一些实施例中显示器可以是LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。例如,在本发明的另一些实施例中,显示器用于显示在信息准确性评估装置1中处理的信息以及用于显示可视化的用户界面,例如信息检索结果显示界面等。
在本实施例中,存储器11与处理器12分别是不同的部件,在本发明的其他实施例中,存储器11与处理器12可以为集成在一起形成一个控制器,在此不做赘述。
请参阅图4,是本发明信息检索准确性评估系统10较佳实施例的功能模块示意图。在本实施例中,信息检索准确性评估系统10可以被分割成一个或多个模块,一个或者多个模块被存储于存储器11中,并由一个或多个处理器(本实施例为处理器12)所执行,以完成本发明。例如,在图4中,信息检索准确性评估系统10可以被分割成检索模块101、序列号生成模块102及准确性判断模块103。本发明所称的模块是指能够完成特定功能的一系列计算机程序指令段,比程序更适合于描述信息检索准确性评估系统10在电子装置1中的执行过程,其中,
检索模块101,用于利用预先确定的第一检索系统检索出与预先确定的关键词对应的至少一个第一检索结果,且利用预先确定的第二检索系统检索出与预先确定的关键词对应的至少一个第二检索结果。
序列号生成模块102,用于根据预先设定的序列号生成规则,生成第一检索结果对应的第一检索序列号、及第二检索结果对应的第二检索序列号。
准确性判断模块103,用于根据预先确定的准确性分析规则对生成的第一检索序列号和第二检索序列号进行分析,以分析出第一检索系统和第二检索系统的准确性。
进一步地,如图5所示,在本实施例中,序列号生成模块102被分割成筛选单元1021、排序号生成单元1022及序列号生成单元1023。
其中,筛选单元1021,用于根据预先确定的筛选规则从第一检索结果中筛选出与预先确定的关键词匹配的第三检索结果,从第二检索结果中筛选出与预先确定的关键词匹配的第四检索结果。
排序号生成单元1022,用于确定第三检索结果中各个检索内容在第一检索结果中的第一排序号,确定第四检索结果中各个检索内容在第二检索结果中的第二排序号。
序列号生成单元1023,用于根据第一排序号生成第一检索结果对应的第一检索序列号,并根据第二排序号生成第二检索结果对应的第二检索序列号。
进一步地,如图6所示,在本实施例中,准确性判断模块103被分割成第一计算单元1031、第二计算单元1032、第三计算单元1033及判断单元1034。
其中,第一计算单元1031,用于分别将生成的第一检索序列号中的各个号码代入预设的公式,计算出第一检索序列号中的各个号码对应的第一折扣值,且计算出的各个第一折扣值的集合即为第一检索系统对应的第一折扣集。
第二计算单元1032,用于分别将生成的第二检索序列号中的各个号码代入预设的公式,计算出与第二检索序列号中的各个号码对应的第二折扣值,且计算出的各个第二折扣值的集合即为第二检索系统对应的第二折扣集;
第三计算单元1033,用于对第一折扣集中的各个折扣值求和,得到第一检索系统对应的第一准确率,并对第二折扣集中的各个折扣值求和,得到第二检索系统对应的第二准确率。
判断单元1034,用于对第一准确率和第二准确率进行分析,以确定出第一检索系统和第二检索系统的准确性。
与现有技术相比,本实施例通过利用不同的检索系统检索出与预先确定的关键词对应的各个检索系统的检索结果,再从各个检索结果中筛选出与检索关键词相匹配的检索结果,对于检索关键词相匹配的检索结果根据检索结果的内容进行排序得到不同的检索系统对应的不同排序号,最后根据预订的公式分析计算各个不同的排序号,而分析出不同的检索系统对应的准确性,有效避免了大量人工操作的同时,并有效地提高了信息检索系统的检索准确性评估。
通过上述各实施例可知,本发明的信息检索准确性评估方法及系统相比于目前比较通用和流行的准确性检测方法,省去了大规模人工标注数据的步骤,在减少人力工作量的情况下、进一步提高了检索系统检索检索结果的准确性。
以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
Claims (8)
1.一种信息检索准确性评估方法,其特征在于,所述方法包括如下步骤:
A、利用预先确定的第一检索系统检索出与预先确定的关键词对应的至少一个第一检索结果,且利用预先确定的第二检索系统检索出与所述关键词对应的至少一个第二检索结果;
B、根据预先设定的序列号生成规则,生成所述第一检索结果对应的第一检索序列号、及所述第二检索结果对应的第二检索序列号;
C、根据预先确定的准确性分析规则对生成的所述第一检索序列号和所述第二检索序列号进行分析,以分析出所述第一检索系统相对于所述第二检索系统的准确性;
所述步骤B包括如下步骤:
E、根据预先确定的筛选规则从所述第一检索结果中筛选出与所述关键词匹配的第三检索结果,从所述第二检索结果中筛选出与所述关键词匹配的第四检索结果;
F、确定所述第三检索结果中各个检索内容在所述第一检索结果中的第一排序号,确定所述第四检索结果中各个检索内容在所述第二检索结果中的第二排序号;
G、根据所述第一排序号生成所述第一检索结果对应的第一检索序列号,并根据所述第二排序号生成所述第二检索结果对应的第二检索序列号;
所述预先确定的筛选规则包括:
根据预先确定的关键词与关联词的映射关系,确定所述关键词对应的关联词,统计各个检索结果中包含所述关键词及其对应的关联词的总数量,若有检索结果对应的总数量大于或等于预设数量,则确定该检索结果为与所述关键词匹配的检索结果,若有检索结果对应的总数量小于预设数量,则确定该检索结果为与所述关键词不匹配的检索结果。
2.根据权利要求1所述的信息检索准确性评估方法,其特征在于,所述预先确定的准确性分析规则包括:
分别将生成的第一检索序列号中的各个号码代入预设的公式,计算出所述第一检索序列号中的各个号码对应的第一折扣值,其中,计算出的各个第一折扣值的集合为所述第一检索系统对应的第一折扣集;
分别将生成的第二检索序列号中的各个号码代入预设的公式,计算出与所述第二检索序列号中的各个号码对应的第二折扣值,其中,计算出的各个第二折扣值的集合为所述第二检索系统对应的第二折扣集;
对所述第一折扣集中的各个折扣值求和,得到所述第一检索系统对应的第一准确率,并对所述第二折扣集中的各个折扣值求和,得到所述第二检索系统对应的第二准确率;
对所述第一准确率和所述第二准确率进行分析,以确定所述第一检索系统相对于所述第二检索系统的准确性。
3.根据权利要求2所述的信息检索准确性评估方法,其特征在于,所述预设的公式为1/Log(1+N),其中,N代表检索序列号中的号码。
4.根据权利要求2所述的信息检索准确性评估方法,其特征在于,所述对所述第一准确率和所述第二准确率进行分析,以确定所述第一检索系统相对于所述第二检索系统的准确性的步骤包括:
分析所述第一准确率和所述第二准确率之间的大小关系;
若所述第一准确率大于所述第二准确率,则确定所述第一检索系统的检索结果比所述第二检索系统的检索结果更准确;
若所述第一准确率小于所述第二准确率,则确定所述第二检索系统的检索结果比所述第一检索系统的检索结果更准确;
若所述第一准确率等于所述第二准确率,则确定所述第一检索系统的检索结果与所述第二检索系统的检索结果的准确率相同。
5.一种信息检索准确性评估装置,其特征在于,所述装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的信息检索准确性评估系统,所述信息检索准确性评估系统被所述处理器执行时执行如下步骤:
A、利用预先确定的第一检索系统检索出与预先确定的关键词对应的至少一个第一检索结果,且利用预先确定的第二检索系统检索出与所述关键词对应的至少一个第二检索结果;
B、根据预先设定的序列号生成规则,生成所述第一检索结果对应的第一检索序列号、及所述第二检索结果对应的第二检索序列号;
C、根据预先确定的准确性分析规则对生成的所述第一检索序列号和所述第二检索序列号进行分析,以分析出所述第一检索系统相对于所述第二检索系统的准确性;
所述处理器执行所述步骤B时,执行如下步骤:
E、根据预先确定的筛选规则从所述第一检索结果中筛选出与所述关键词匹配的第三检索结果,从所述第二检索结果中筛选出与所述关键词匹配的第四检索结果;
F、确定所述第三检索结果中各个检索内容在所述第一检索结果中的第一排序号,确定所述第四检索结果中各个检索内容在所述第二检索结果中的第二排序号;
G、根据所述第一排序号生成所述第一检索结果对应的第一检索序列号,并根据所述第二排序号生成所述第二检索结果对应的第二检索序列号;
所述处理器执行信息检索准确性评估系统,执行所述预先确定的筛选规则包括:
根据预先确定的关键词与关联词的映射关系,确定所述关键词对应的关联词,统计各个检索结果中包含所述关键词及其对应的关联词的总数量,若有检索结果对应的总数量大于或等于预设数量,则确定该检索结果为与所述关键词匹配的检索结果,若有检索结果对应的总数量小于预设数量,则确定该检索结果为与所述关键词不匹配的检索结果。
6.根据权利要求5所述的信息检索准确性评估装置,其特征在于,所述处理器执行所述信息检索准确性评估系统,执行所述准确性分析规则包括:分别将生成的第一检索序列号中的各个号码代入预设的公式,计算出所述第一检索序列号中的各个号码对应的第一折扣值,其中,计算出的各个第一折扣值的集合为所述第一检索系统对应的第一折扣集;
分别将生成的第二检索序列号中的各个号码代入预设的公式,计算出与所述第二检索序列号中的各个号码对应的第二折扣值,其中,计算出的各个第二折扣值的集合为所述第二检索系统对应的第二折扣集;
对所述第一折扣集中的各个折扣值求和,得到所述第一检索系统对应的第一准确率,并对所述第二折扣集中的各个折扣值求和,得到所述第二检索系统对应的第二准确率;
对所述第一准确率和所述第二准确率进行分析,以确定所述第一检索系统相对于所述第二检索系统的准确性。
7.根据权利要求6所述的信息检索准确性评估装置,其特征在于,所述预设的公式为1/Log(1+N),其中,N代表检索序列号中的号码。
8.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有信息检索准确性评估程序,所述信息检索准确性评估程序被处理器执行时实现如权利要求1至4中任一项所述的信息检索准确性评估方法。
Priority Applications (5)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710327380.3A CN107688595B (zh) | 2017-05-10 | 2017-05-10 | 信息检索准确性评估方法、装置及计算机可读存储介质 |
PCT/CN2017/091355 WO2018205391A1 (zh) | 2017-05-10 | 2017-06-30 | 信息检索准确性评估方法、系统、装置及计算机可读存储介质 |
SG11201900254RA SG11201900254RA (en) | 2017-05-10 | 2017-06-30 | Information retrieval precision evaluation method, system and device and computer-readable storage medium |
US16/088,829 US20200380037A1 (en) | 2017-05-10 | 2017-06-30 | Information Retrieval Precision Evaluation Method, System and Device and Computer-Readable Storage Medium |
JP2018553419A JP6588661B2 (ja) | 2017-05-10 | 2017-06-30 | 情報検索精度の評価方法、システム、装置及びコンピュータ読み取り可能な記憶媒体 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710327380.3A CN107688595B (zh) | 2017-05-10 | 2017-05-10 | 信息检索准确性评估方法、装置及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN107688595A CN107688595A (zh) | 2018-02-13 |
CN107688595B true CN107688595B (zh) | 2019-03-15 |
Family
ID=61152458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710327380.3A Active CN107688595B (zh) | 2017-05-10 | 2017-05-10 | 信息检索准确性评估方法、装置及计算机可读存储介质 |
Country Status (5)
Country | Link |
---|---|
US (1) | US20200380037A1 (zh) |
JP (1) | JP6588661B2 (zh) |
CN (1) | CN107688595B (zh) |
SG (1) | SG11201900254RA (zh) |
WO (1) | WO2018205391A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109582751B (zh) * | 2018-11-29 | 2021-01-01 | 百度在线网络技术(北京)有限公司 | 一种检索效果的度量方法及服务器 |
CN111402973B (zh) * | 2020-03-02 | 2023-07-07 | 平安科技(深圳)有限公司 | 信息匹配分析方法、装置、计算机系统及可读存储介质 |
CN113254766A (zh) * | 2021-05-20 | 2021-08-13 | 北京百度网讯科技有限公司 | 信息的检索方法和装置 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1963816A (zh) * | 2006-12-01 | 2007-05-16 | 清华大学 | 一种搜索引擎性能评价的自动化处理方法 |
WO2008017103A1 (en) * | 2006-08-10 | 2008-02-14 | National Ict Australia Limited | Optimisation of a scoring function |
CN105095464A (zh) * | 2015-07-30 | 2015-11-25 | 北京奇虎科技有限公司 | 一种检索系统的检测方法和装置 |
CN105573887A (zh) * | 2015-12-14 | 2016-05-11 | 合一网络技术(北京)有限公司 | 搜索引擎的质量评估方法和装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7664770B2 (en) * | 2003-10-06 | 2010-02-16 | Lycos, Inc. | Smart browser panes |
US8935258B2 (en) * | 2009-06-15 | 2015-01-13 | Microsoft Corporation | Identification of sample data items for re-judging |
CN202033748U (zh) * | 2011-04-22 | 2011-11-09 | 阿里巴巴集团控股有限公司 | 搜索引擎性能测试系统 |
CN102622296B (zh) * | 2012-02-21 | 2015-11-25 | 百度在线网络技术(北京)有限公司 | 搜索引擎模块的测试方法、系统及其装置 |
RU2608886C2 (ru) * | 2014-06-30 | 2017-01-25 | Общество С Ограниченной Ответственностью "Яндекс" | Ранжиратор результатов поиска |
CN106156179B (zh) * | 2015-04-20 | 2020-01-07 | 阿里巴巴集团控股有限公司 | 一种信息检索方法及装置 |
-
2017
- 2017-05-10 CN CN201710327380.3A patent/CN107688595B/zh active Active
- 2017-06-30 JP JP2018553419A patent/JP6588661B2/ja active Active
- 2017-06-30 US US16/088,829 patent/US20200380037A1/en not_active Abandoned
- 2017-06-30 WO PCT/CN2017/091355 patent/WO2018205391A1/zh active Application Filing
- 2017-06-30 SG SG11201900254RA patent/SG11201900254RA/en unknown
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2008017103A1 (en) * | 2006-08-10 | 2008-02-14 | National Ict Australia Limited | Optimisation of a scoring function |
CN1963816A (zh) * | 2006-12-01 | 2007-05-16 | 清华大学 | 一种搜索引擎性能评价的自动化处理方法 |
CN105095464A (zh) * | 2015-07-30 | 2015-11-25 | 北京奇虎科技有限公司 | 一种检索系统的检测方法和装置 |
CN105573887A (zh) * | 2015-12-14 | 2016-05-11 | 合一网络技术(北京)有限公司 | 搜索引擎的质量评估方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
US20200380037A1 (en) | 2020-12-03 |
JP6588661B2 (ja) | 2019-10-09 |
CN107688595A (zh) | 2018-02-13 |
JP2019521406A (ja) | 2019-07-25 |
WO2018205391A1 (zh) | 2018-11-15 |
SG11201900254RA (en) | 2019-02-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2016216684B2 (en) | Flow analysis instrumentation | |
Rubin et al. | A survey of feature location techniques | |
US8041652B2 (en) | Measuring web site satisfaction of information needs using page traffic profile | |
US8626798B2 (en) | Processing of categorized product information | |
US10289541B2 (en) | Source code flow analysis using information retrieval | |
CN110163476A (zh) | 项目智能推荐方法、电子装置及存储介质 | |
US20090063461A1 (en) | User query mining for advertising matching | |
CN111444247A (zh) | 一种基于kpi指标的根因定位方法、装置及存储介质 | |
CN107688595B (zh) | 信息检索准确性评估方法、装置及计算机可读存储介质 | |
US10311067B2 (en) | Device and method for classifying and searching data | |
US20160063081A1 (en) | Multidimensional Graph Analytics | |
CN110046298A (zh) | 一种查询词推荐方法、装置、终端设备及计算机可读介质 | |
DE102012221251A1 (de) | Semantisches und kontextbezogenes Durchsuchen von Wissensspeichern | |
CN109933502B (zh) | 电子装置、用户操作记录的处理方法和存储介质 | |
US20160162546A1 (en) | Query routing method, query routing server performing the same and storage medium storing the same | |
CN110414926A (zh) | 台账管理方法、装置及计算机可读存储介质 | |
US20210182293A1 (en) | Candidate projection enumeration based query response generation | |
WO2020056976A1 (zh) | 搜索结果优化排序方法、装置、程序及计算机可读存储介质 | |
CN108664605A (zh) | 一种模型评估方法及系统 | |
US8892951B2 (en) | Fault localization for data-centric programs | |
WO2009006028A2 (en) | Explaining changes in measures thru data mining | |
US9705972B2 (en) | Managing a set of data | |
CN111783452B (zh) | 模型训练方法、信息处理方法、装置、设备及存储介质 | |
Bakogiannis et al. | Apollo: A dataset profiling and operator modeling system | |
Azevedo et al. | Experiencing provlake to manage the data lineage of ai workflows |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 1249617 Country of ref document: HK |
|
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |