CN104778201B

CN104778201B - 一种基于多查询结果合并的在先技术检索方法

Info

Publication number: CN104778201B
Application number: CN201510035224.0A
Authority: CN
Inventors: 周栋; 孙刚杰; 黄进; 陈聪阳
Original assignee: Hunan University of Science and Technology
Current assignee: Hunan University of Science and Technology
Priority date: 2015-01-23
Filing date: 2015-01-23
Publication date: 2018-01-02
Anticipated expiration: 2035-01-23
Also published as: CN104778201A

Abstract

本发明公开了一种基于多查询结果合并的在先技术检索方法。包括使用关键词提取方法提取查询词，确定主查询词Q0以及辅助查询词{Q1,…,Qn}；进行初步检索并得到n+1个查询结果列表并保存相关性排序值；构建查询词及检索结果共现矩阵；使用协同过滤算法确定Q0检索结果中未出现结果权重；融合Q0检索结果相关性排序值和未出现结果权重得到最终排序；生成发送给用户的最终文档列表。本方法在专利申请、审查、授权方面都起着至关重要的作用。通过构建共现矩阵和协同过滤算法合并多个查询结果，结合原有的排序结果对文档列表进行补缺和重排序，提高了检索的准确率，降低了漏检率。

Description

一种基于多查询结果合并的在先技术检索方法

技术领域

本发明涉及计算机智能信息处理领域技术，更进一步是关于智能信息检索的技术，特别涉及一种基于多查询结果合并的在先技术检索方法。

背景技术

专利信息已经逐渐成为世界科技信息的主要来源。专利文献是科学技术进步与创新的主要载体，长期以来一直受到研发者或企业经营者的重视。对专利文献的检索与分析能够帮助企业和团体及时、准确地了解相关专利信息，促进技术创新。专利在先技术检索是专利检索的一种重要方法。在先技术信息是指包括所有在某个特定日期之前已经为公众所知的，可能与一项专利的权利要求的原创性有关的信息。如果一项专利申请所提及的技术方案出现在申请日之前公开的在先技术中，则该项专利申请将很可能因不具备创造性甚至新颖性而被驳回。因此，专利在先技术搜索的研究在专利申请、审查、授权方面都起着至关重要的作用。

目前对在先技术的检索是通过从需要检索的技术方案中提取关键词来进行的。然而，各种提取关键词方法的侧重点不一样，同时由于各种方法在性能、查询词分布、关键词抽取参数调节方面的不同，导致检索结果排序相差甚远，给用户选择哪一种方法来使用带来了困难。如何尽可能综合使用各种关键词提取方法并进行有效检索已经成为专利检索领域的重要研究课题。

发明内容

针对现有技术和方法的不足，本发明的目的旨在于提供一种提高专利在先技术检索性能的方法，通过合并多个查询结果对文档结果列表进行补缺和重排序，提高检索的准确率，降低漏检率。

为实现上述目的本发明采用如下技术方案：

一种基于多查询结果合并的在先技术检索方法，其特征在于：包括以下步骤：

(1)以需要进行在先技术检索的技术方案全文文档作为查询条件并作规范化处理；

(2)对步骤(1)中经处理后的文档使用n+1种关键词提取方法提取查询词组，在所提取的查询词组中确定主查询词组Q₀以及辅助查询词组{Q₁,…,Q_n}，n≥1；

(3)对在先技术文献进行规范化处理形成在先技术文档集，分别在在先技术文档集中对Q₀以及{Q₁,…,Q_n}进行检索，产生按相关性排序的n+1个查询结果文档列表，并保存相关性排序值，这些排序值集合记为I；

(4)构建n+1个查询词组及针对每个查询词组的前K个检索结果文档共现矩阵即查询词组-查询结果文档矩阵，该矩阵中每列对应一个查询词组，列中元素即步骤(3)中获得的查询结果文档与该查询词组的相关性排序实数值，如果对某一查询词组，矩阵的行对应的文档不在该查询词组的前K个检索结果文档中，则置列中元素为零；

(5)使用协同过滤算法对步骤(4)中建立的共现矩阵中针对Q₀的检索结果文档中未出现的结果文档计算权重，这些权重值集记为C；这里采用的协同过滤算法为现有的协同过滤算法，如基于用户的协同过滤算法，基于物品的协同过滤算法，或者加权Slopeone算法。

(6)针对步骤(4)中建立的共现矩阵，若Q₀前K个检索结果文档含有针对Q₀的相关性排序值，则线性融合Q₀检索结果相关性排序值和未出现结果权重，并进行数据标准化处理；计算公式为：

R＝SUM[(RSV_i-MIN_RSV)/(MAX_RSV-MIN_RSV]

其中RSV是一个实数值，如果该结果在Q₀的前K个检索结果文档中，则取相关性排序值，如果只有一个结果，则取未出现结果权重，MAX_RSV和MIN_RSV分别为RSV的最大值和最小值，从而得到一组最终排序分数，分数集记为R；

(7)将所述I，C和R这三组排序分数混合在一起，按从大到小的方式排列，实现对主查询词组Q₀检索结果文档的补缺和重排序处理，生成发送给用户的最终文档列表。

所述的基于多查询结果合并的在先技术检索方法，对所述步骤(1)中的需要进行在先技术检索的技术方案全文文档和所述步骤(3)中的在先技术文献进行规范化处理的过程包括分词处理、去除重复内容、去除无关内容。

所述的基于多查询结果合并的在先技术检索方法，所述的步骤(2)中，关键词提取方法包括：单频词去除、TF方法、TFIDF方法、BM25方法、基于语言模型的方法、基于相关反馈的方法和基于IPC分类的方法。

所述的基于多查询结果合并的在先技术检索方法，所述的步骤(2)中，以移除单频词后的需要进行在先技术检索的技术方案全文文档中所有词作为主查询词组Q₀。

所述的基于多查询结果合并的在先技术检索方法，所述的步骤(3)中，在在先技术文档集中对Q₀以及{Q₁,…,Q_n}进行检索时，查询词组中所有的查询词之间的检索条件均为或。

所述的基于多查询结果合并的在先技术检索方法，所述的步骤(4)中，K的取值为针对每个查询词组的检索结果数量的5％-10％。

本发明的技术效果在于，通过构建共现矩阵和协同过滤算法合并多个查询结果，结合原有的排序结果对文档列表进行补缺和重排序，提高了检索的准确率，降低了漏检率。

下面结合附图对本发明作进一步说明。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图，对优选实例作详细说明。应该强调的是，下述说明仅仅是示例性的，而不是为了限制本发明的范围及其应用。

图1是基于多查询结果合并的专利在先技术检索方法流程图。图1中，基于多查询结果合并的专利在先技术检索方法包括下列步骤：

步骤a.接收专利全文作为查询条件并作规范化处理，包括分词处理、去除重复内容、去除无关内容。其处理方法应和目标专利文档集的处理方法保持一致。

步骤b.使用n+1种关键词提取方法提取查询词，确定主查询词Q0以及辅助查询词{Q1,…,Qn}，本例中我们选取n＝5，采用如下6种有代表性的关键词提取技术构建查询词。

第一种技术比较简单，在输入的专利全文中，单频词被移除，凡是出现频率大于一次的词项被保留。

第二至第四种技术主要考虑词项在当前专利文本中的重要程度，权重高的100个词项被挑选构造查询词。第二种关键词提取技术考虑词项在文档中出现的次数，或词项频率(TF)，频率高的被赋予更高的权重。

第三种技术综合考虑词频和逆文档频率(TFIDF)。如果包含某一词项的文档越少，则逆文档频率越大，词频-逆文档频率权值高的被赋予更大的权重。

第四种技术系著名的BM25模型，采用扩展的二元独立模型计算词项权重。BM25值越大则权重越高。

第五种技术使用语言模型。在该模型中，文档集中每篇文档对应一个文档模型，然后查询词模型被视为每个文档模型的随机抽样样本概率。这里采用unigram model来计算词项权重，该值越大则权重越高。

第6种技术采取传统信息检索中盲相关反馈方法进行关键词提取。具体做法是将首先将专利全文作为查询词进行搜索，获取前20个搜索结果；然后将文本分割成固定长度的20个段落，计算每个段落与前20个结果的相似度，最后选取最相似的300个段落构建新的查询词进行搜索。。

最后一种技术采取基于IPC分类的方法，基本思想同基于语言模型的方法，但是在计算词项频率中增加了针对国际专利分类号的权重。

本实施例选择第一种技术作为主查询词Q0。

步骤c.分别在索引中对Q0以及{Q1,…,Qn}进行检索，产生按相关性排序的n+1个查询结果文档列表，并保存相关性排序值，这些排序值集合记为I；

步骤d.构建n+1个查询词及针对每个查询词的前K个检索结果文档共现矩阵(查询词-查询结果文档矩阵)，该矩阵中每列对应一个查询词，列中元素即步骤c.中获得的查询结果文档与该查询词的相关性排序实数值，如果本次结果文档不在该查询词的前K个检索结果文档中，则留空。在该示例中，di表示目标文档集中的某一个文档，K设置为2，×代表该文档在相应查询词的前K个检索结果文档集中，而◇则表示不再该结果文档集中。

步骤e.使用协同过滤算法确定步骤d.中建立的共现矩阵中针对Q0的检索结果文档中未出现的结果文档计算权重，这些权重值集记为C。本例中采用协同过滤中的加权SlopeOne技术来生成结果文档权重。

步骤f.针对步骤d.中建立的共现矩阵，若Q0前K个检索结果文档含有针对Q0的相关性排序值，则线性融合Q0检索结果相关性排序值和未出现结果权重，并进行数据标准化处理。计算公式为：R＝SUM[(RSVi-MINRSV)/(MAXRSV-MINRSV]，其中RSV是一个实数值，可以是相关性排序值或未出现结果权重，MAXRSV和MINRSV分别为RSV的最大值和最小值。从而得到一组最终排序分数，分数集记为R；

步骤g.经过上述步骤e.和步骤f.，步骤d.中建立的共现矩阵会存在三组排序分数，I，C和R，将这三组排序分数混合在一起，按从大到小的方式排列，实现对主查询词Q0检索结果文档的补缺和重排序处理，生成发送给用户的最终文档列表。

这样，利用多语言结果合并方法对初始文档列表进行了补缺和重排序，有效地避免了单一关键词提取方法带来的不足，从而大大提高了专利在先技术检索的性能。

下面对本方法的性能进行实验评估：

测试数据来自CLEF提供的CLEF-IP 2011数据，包含约有1千5百万份专利。查询集中包含有1351个任务，包含有相关文档的评价结果。评估标准为前50个结果的准确率(P@50)、前50个结果的召回率(R@50)，和平均准确率均值(Mean Average Precision，MAP)。下表为本方法与上述步骤b.中提到的关键词提取技术以及保留专利全文作为查询词之间的比较：

方法	MAP	P@50	R@50
				关键词提取技术一	0.0833	0.0313	0.2114
关键词提取技术二	0.0645	0.0243	0.1676
				关键词提取技术三	0.0821	0.0311	0.2112
关键词提取技术四	0.0729	0.0266	0.1810
				关键词提取技术五	0.0823	0.0348	0.2078
关键词提取技术六	0.0913	0.0356	0.2426
				全文查询词	0.0925	0.0348	0.2374
本发明方法	0.0982	0.0361	0.2492

从上表可以看出，专利检索的性能，无论是从准确率还是召回率上来说都得到了显著提高，是一种针对专利在先技术检索非常有效的技术。

出于篇幅考虑，在此不再罗列此次实验其它部分和评价标准，但综合所有的评估结果发现，采用多查询结果合并的专利在先技术检索方法能显著提升性能。

以上所述，仅为本发明较佳的具体实施方式，并非对本发明的技术范围作任何限制，故凡是依据本发明的技术实质对以上实施例所做的任何细微修改、等同变化与修饰，包括对关键词提取方法的替换、对协同过滤技术的替换等，均仍属于本发明技术方案的范围内。

Claims

1.一种基于多查询结果合并的在先技术检索方法，其特征在于：包括以下步骤：

(5)使用协同过滤算法对步骤(4)中建立的共现矩阵中针对Q₀的检索结果文档中未出现的结果文档计算权重，这些权重值集记为C；

R＝SUM[(RSV_i-MIN_RSV)/(MAX_RSV-MIN_RSV]

2.根据权利要求1所述的基于多查询结果合并的在先技术检索方法，其特征在于：对所述步骤(1)中的需要进行在先技术检索的技术方案全文文档和所述步骤(3)中的在先技术文献进行规范化处理的过程包括分词处理、去除重复内容、去除无关内容。

3.根据权利要求1所述的基于多查询结果合并的在先技术检索方法，其特征在于：所述的步骤(2)中，关键词提取方法包括：单频词去除、TF方法、TFIDF方法、BM25方法、基于语言模型的方法、基于相关反馈的方法和基于IPC分类的方法。

4.根据权利要求1所述的基于多查询结果合并的在先技术检索方法，其特征在于：所述的步骤(2)中，以移除单频词后的需要进行在先技术检索的技术方案全文文档中所有词作为主查询词组Q₀。

5.根据权利要求1所述的基于多查询结果合并的在先技术检索方法，其特征在于：所述的步骤(3)中，在在先技术文档集中对Q₀以及{Q₁,…,Q_n}进行检索时，查询词组中所有的查询词之间的检索条件均为或。

6.根据权利要求1所述的基于多查询结果合并的在先技术检索方法，其特征在于：所述的步骤(4)中，K的取值为针对每个查询词组的检索结果数量的5％-10％。