CN104778201B - 一种基于多查询结果合并的在先技术检索方法 - Google Patents
一种基于多查询结果合并的在先技术检索方法 Download PDFInfo
- Publication number
- CN104778201B CN104778201B CN201510035224.0A CN201510035224A CN104778201B CN 104778201 B CN104778201 B CN 104778201B CN 201510035224 A CN201510035224 A CN 201510035224A CN 104778201 B CN104778201 B CN 104778201B
- Authority
- CN
- China
- Prior art keywords
- result
- retrieval
- document
- phrase
- technology
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于多查询结果合并的在先技术检索方法。包括使用关键词提取方法提取查询词,确定主查询词Q0以及辅助查询词{Q1,…,Qn};进行初步检索并得到n+1个查询结果列表并保存相关性排序值;构建查询词及检索结果共现矩阵;使用协同过滤算法确定Q0检索结果中未出现结果权重;融合Q0检索结果相关性排序值和未出现结果权重得到最终排序;生成发送给用户的最终文档列表。本方法在专利申请、审查、授权方面都起着至关重要的作用。通过构建共现矩阵和协同过滤算法合并多个查询结果,结合原有的排序结果对文档列表进行补缺和重排序,提高了检索的准确率,降低了漏检率。
Description
技术领域
本发明涉及计算机智能信息处理领域技术,更进一步是关于智能信息检索的技术,特别涉及一种基于多查询结果合并的在先技术检索方法。
背景技术
专利信息已经逐渐成为世界科技信息的主要来源。专利文献是科学技术进步与创新的主要载体,长期以来一直受到研发者或企业经营者的重视。对专利文献的检索与分析能够帮助企业和团体及时、准确地了解相关专利信息,促进技术创新。专利在先技术检索是专利检索的一种重要方法。在先技术信息是指包括所有在某个特定日期之前已经为公众所知的,可能与一项专利的权利要求的原创性有关的信息。如果一项专利申请所提及的技术方案出现在申请日之前公开的在先技术中,则该项专利申请将很可能因不具备创造性甚至新颖性而被驳回。因此,专利在先技术搜索的研究在专利申请、审查、授权方面都起着至关重要的作用。
目前对在先技术的检索是通过从需要检索的技术方案中提取关键词来进行的。然而,各种提取关键词方法的侧重点不一样,同时由于各种方法在性能、查询词分布、关键词抽取参数调节方面的不同,导致检索结果排序相差甚远,给用户选择哪一种方法来使用带来了困难。如何尽可能综合使用各种关键词提取方法并进行有效检索已经成为专利检索领域的重要研究课题。
发明内容
针对现有技术和方法的不足,本发明的目的旨在于提供一种提高专利在先 技术检索性能的方法,通过合并多个查询结果对文档结果列表进行补缺和重排序,提高检索的准确率,降低漏检率。
为实现上述目的本发明采用如下技术方案:
一种基于多查询结果合并的在先技术检索方法,其特征在于:包括以下步骤:
(1)以需要进行在先技术检索的技术方案全文文档作为查询条件并作规范化处理;
(2)对步骤(1)中经处理后的文档使用n+1种关键词提取方法提取查询词组,在所提取的查询词组中确定主查询词组Q0以及辅助查询词组{Q1,…,Qn},n≥1;
(3)对在先技术文献进行规范化处理形成在先技术文档集,分别在在先技术文档集中对Q0以及{Q1,…,Qn}进行检索,产生按相关性排序的n+1个查询结果文档列表,并保存相关性排序值,这些排序值集合记为I;
(4)构建n+1个查询词组及针对每个查询词组的前K个检索结果文档共现矩阵即查询词组-查询结果文档矩阵,该矩阵中每列对应一个查询词组,列中元素即步骤(3)中获得的查询结果文档与该查询词组的相关性排序实数值,如果对某一查询词组,矩阵的行对应的文档不在该查询词组的前K个检索结果文档中,则置列中元素为零;
(5)使用协同过滤算法对步骤(4)中建立的共现矩阵中针对Q0的检索结果文档中未出现的结果文档计算权重,这些权重值集记为C;这里采用的协同过滤算法为现有的协同过滤算法,如基于用户的协同过滤算法,基于物品的协同过滤算法,或者加权Slopeone算法。
(6)针对步骤(4)中建立的共现矩阵,若Q0前K个检索结果文档含有针对Q0的相关性排序值,则线性融合Q0检索结果相关性排序值和未出现结果权重,并进行数据标准化处理;计算公式为:
R=SUM[(RSVi-MINRSV)/(MAXRSV-MINRSV]
其中RSV是一个实数值,如果该结果在Q0的前K个检索结果文档中,则取相关性排序值,如果只有一个结果,则取未出现结果权重,MAXRSV和MINRSV分别为RSV的最大值和最小值,从而得到一组最终排序分数,分数集记为R;
(7)将所述I,C和R这三组排序分数混合在一起,按从大到小的方式排列,实现对主查询词组Q0检索结果文档的补缺和重排序处理,生成发送给用户的最终文档列表。
所述的基于多查询结果合并的在先技术检索方法,对所述步骤(1)中的需要进行在先技术检索的技术方案全文文档和所述步骤(3)中的在先技术文献进行规范化处理的过程包括分词处理、去除重复内容、去除无关内容。
所述的基于多查询结果合并的在先技术检索方法,所述的步骤(2)中,关键词提取方法包括:单频词去除、TF方法、TFIDF方法、BM25方法、基于语言模型的方法、基于相关反馈的方法和基于IPC分类的方法。
所述的基于多查询结果合并的在先技术检索方法,所述的步骤(2)中,以移除单频词后的需要进行在先技术检索的技术方案全文文档中所有词作为主查询词组Q0。
所述的基于多查询结果合并的在先技术检索方法,所述的步骤(3)中,在在先技术文档集中对Q0以及{Q1,…,Qn}进行检索时,查询词组中所有的查 询词之间的检索条件均为或。
所述的基于多查询结果合并的在先技术检索方法,所述的步骤(4)中,K的取值为针对每个查询词组的检索结果数量的5%-10%。
本发明的技术效果在于,通过构建共现矩阵和协同过滤算法合并多个查询结果,结合原有的排序结果对文档列表进行补缺和重排序,提高了检索的准确率,降低了漏检率。
下面结合附图对本发明作进一步说明。
附图说明
图1为本发明的流程图。
具体实施方式
下面结合附图,对优选实例作详细说明。应该强调的是,下述说明仅仅是示例性的,而不是为了限制本发明的范围及其应用。
图1是基于多查询结果合并的专利在先技术检索方法流程图。图1中,基于多查询结果合并的专利在先技术检索方法包括下列步骤:
步骤a.接收专利全文作为查询条件并作规范化处理,包括分词处理、去除重复内容、去除无关内容。其处理方法应和目标专利文档集的处理方法保持一致。
步骤b.使用n+1种关键词提取方法提取查询词,确定主查询词Q0以及辅助查询词{Q1,…,Qn},本例中我们选取n=5,采用如下6种有代表性的关键词提取技术构建查询词。
第一种技术比较简单,在输入的专利全文中,单频词被移除,凡是出现频率大于一次的词项被保留。
第二至第四种技术主要考虑词项在当前专利文本中的重要程度,权重高的100个词项被挑选构造查询词。第二种关键词提取技术考虑词项在文档中出现的次数,或词项频率(TF),频率高的被赋予更高的权重。
第三种技术综合考虑词频和逆文档频率(TFIDF)。如果包含某一词项的文档越少,则逆文档频率越大,词频-逆文档频率权值高的被赋予更大的权重。
第四种技术系著名的BM25模型,采用扩展的二元独立模型计算词项权重。BM25值越大则权重越高。
第五种技术使用语言模型。在该模型中,文档集中每篇文档对应一个文档模型,然后查询词模型被视为每个文档模型的随机抽样样本概率。这里采用unigram model来计算词项权重,该值越大则权重越高。
第6种技术采取传统信息检索中盲相关反馈方法进行关键词提取。具体做法是将首先将专利全文作为查询词进行搜索,获取前20个搜索结果;然后将文本分割成固定长度的20个段落,计算每个段落与前20个结果的相似度,最后选取最相似的300个段落构建新的查询词进行搜索。。
最后一种技术采取基于IPC分类的方法,基本思想同基于语言模型的方法,但是在计算词项频率中增加了针对国际专利分类号的权重。
本实施例选择第一种技术作为主查询词Q0。
步骤c.分别在索引中对Q0以及{Q1,…,Qn}进行检索,产生按相关性排序的n+1个查询结果文档列表,并保存相关性排序值,这些排序值集合记为I;
步骤d.构建n+1个查询词及针对每个查询词的前K个检索结果文档共现矩阵(查询词-查询结果文档矩阵),该矩阵中每列对应一个查询词,列中元素即步骤c.中获得的查询结果文档与该查询词的相关性排序实数值,如果本次 结果文档不在该查询词的前K个检索结果文档中,则留空。在该示例中,di表示目标文档集中的某一个文档,K设置为2,×代表该文档在相应查询词的前K个检索结果文档集中,而◇则表示不再该结果文档集中。
步骤e.使用协同过滤算法确定步骤d.中建立的共现矩阵中针对Q0的检索结果文档中未出现的结果文档计算权重,这些权重值集记为C。本例中采用协同过滤中的加权SlopeOne技术来生成结果文档权重。
步骤f.针对步骤d.中建立的共现矩阵,若Q0前K个检索结果文档含有针对Q0的相关性排序值,则线性融合Q0检索结果相关性排序值和未出现结果权重,并进行数据标准化处理。计算公式为:R=SUM[(RSVi-MINRSV)/(MAXRSV-MINRSV],其中RSV是一个实数值,可以是相关性排序值或未出现结果权重,MAXRSV和MINRSV分别为RSV的最大值和最小值。从而得到一组最终排序分数,分数集记为R;
步骤g.经过上述步骤e.和步骤f.,步骤d.中建立的共现矩阵会存在三组排序分数,I,C和R,将这三组排序分数混合在一起,按从大到小的方式排列,实现对主查询词Q0检索结果文档的补缺和重排序处理,生成发送给用户的最终文档列表。
这样,利用多语言结果合并方法对初始文档列表进行了补缺和重排序,有效地避免了单一关键词提取方法带来的不足,从而大大提高了专利在先技术检索的性能。
下面对本方法的性能进行实验评估:
测试数据来自CLEF提供的CLEF-IP 2011数据,包含约有1千5百万份专利。查询集中包含有1351个任务,包含有相关文档的评价结果。评估标准为 前50个结果的准确率(P@50)、前50个结果的召回率(R@50),和平均准确率均值(Mean Average Precision,MAP)。下表为本方法与上述步骤b.中提到的关键词提取技术以及保留专利全文作为查询词之间的比较:
方法 | MAP | P@50 | R@50 |
关键词提取技术一 | 0.0833 | 0.0313 | 0.2114 |
关键词提取技术二 | 0.0645 | 0.0243 | 0.1676 |
关键词提取技术三 | 0.0821 | 0.0311 | 0.2112 |
关键词提取技术四 | 0.0729 | 0.0266 | 0.1810 |
关键词提取技术五 | 0.0823 | 0.0348 | 0.2078 |
关键词提取技术六 | 0.0913 | 0.0356 | 0.2426 |
全文查询词 | 0.0925 | 0.0348 | 0.2374 |
本发明方法 | 0.0982 | 0.0361 | 0.2492 |
从上表可以看出,专利检索的性能,无论是从准确率还是召回率上来说都得到了显著提高,是一种针对专利在先技术检索非常有效的技术。
出于篇幅考虑,在此不再罗列此次实验其它部分和评价标准,但综合所有的评估结果发现,采用多查询结果合并的专利在先技术检索方法能显著提升性能。
以上所述,仅为本发明较佳的具体实施方式,并非对本发明的技术范围作任何限制,故凡是依据本发明的技术实质对以上实施例所做的任何细微修改、等同变化与修饰,包括对关键词提取方法的替换、对协同过滤技术的替换等,均仍属于本发明技术方案的范围内。
Claims (6)
1.一种基于多查询结果合并的在先技术检索方法,其特征在于:包括以下步骤:
(1)以需要进行在先技术检索的技术方案全文文档作为查询条件并作规范化处理;
(2)对步骤(1)中经处理后的文档使用n+1种关键词提取方法提取查询词组,在所提取的查询词组中确定主查询词组Q0以及辅助查询词组{Q1,…,Qn},n≥1;
(3)对在先技术文献进行规范化处理形成在先技术文档集,分别在在先技术文档集中对Q0以及{Q1,…,Qn}进行检索,产生按相关性排序的n+1个查询结果文档列表,并保存相关性排序值,这些排序值集合记为I;
(4)构建n+1个查询词组及针对每个查询词组的前K个检索结果文档共现矩阵即查询词组-查询结果文档矩阵,该矩阵中每列对应一个查询词组,列中元素即步骤(3)中获得的查询结果文档与该查询词组的相关性排序实数值,如果对某一查询词组,矩阵的行对应的文档不在该查询词组的前K个检索结果文档中,则置列中元素为零;
(5)使用协同过滤算法对步骤(4)中建立的共现矩阵中针对Q0的检索结果文档中未出现的结果文档计算权重,这些权重值集记为C;
(6)针对步骤(4)中建立的共现矩阵,若Q0前K个检索结果文档含有针对Q0的相关性排序值,则线性融合Q0检索结果相关性排序值和未出现结果权重,并进行数据标准化处理;计算公式为:
R=SUM[(RSVi-MINRSV)/(MAXRSV-MINRSV]
其中RSV是一个实数值,如果该结果在Q0的前K个检索结果文档中,则取相关性排序值,如果只有一个结果,则取未出现结果权重,MAXRSV和MINRSV分别为RSV的最大值和最小值,从而得到一组最终排序分数,分数集记为R;
(7)将所述I,C和R这三组排序分数混合在一起,按从大到小的方式排列,实现对主查询词组Q0检索结果文档的补缺和重排序处理,生成发送给用户的最终文档列表。
2.根据权利要求1所述的基于多查询结果合并的在先技术检索方法,其特征在于:对所述步骤(1)中的需要进行在先技术检索的技术方案全文文档和所述步骤(3)中的在先技术文献进行规范化处理的过程包括分词处理、去除重复内容、去除无关内容。
3.根据权利要求1所述的基于多查询结果合并的在先技术检索方法,其特征在于:所述的步骤(2)中,关键词提取方法包括:单频词去除、TF方法、TFIDF方法、BM25方法、基于语言模型的方法、基于相关反馈的方法和基于IPC分类的方法。
4.根据权利要求1所述的基于多查询结果合并的在先技术检索方法,其特征在于:所述的步骤(2)中,以移除单频词后的需要进行在先技术检索的技术方案全文文档中所有词作为主查询词组Q0。
5.根据权利要求1所述的基于多查询结果合并的在先技术检索方法,其特征在于:所述的步骤(3)中,在在先技术文档集中对Q0以及{Q1,…,Qn}进行检索时,查询词组中所有的查询词之间的检索条件均为或。
6.根据权利要求1所述的基于多查询结果合并的在先技术检索方法,其特征在于:所述的步骤(4)中,K的取值为针对每个查询词组的检索结果数量的5%-10%。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510035224.0A CN104778201B (zh) | 2015-01-23 | 2015-01-23 | 一种基于多查询结果合并的在先技术检索方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201510035224.0A CN104778201B (zh) | 2015-01-23 | 2015-01-23 | 一种基于多查询结果合并的在先技术检索方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN104778201A CN104778201A (zh) | 2015-07-15 |
CN104778201B true CN104778201B (zh) | 2018-01-02 |
Family
ID=53619665
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201510035224.0A Active CN104778201B (zh) | 2015-01-23 | 2015-01-23 | 一种基于多查询结果合并的在先技术检索方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104778201B (zh) |
Families Citing this family (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105279270A (zh) * | 2015-10-28 | 2016-01-27 | 丽水市睿鼎知识产权咨询有限公司 | 一种专利检索装置及其检索方法 |
CN106445916A (zh) * | 2016-09-19 | 2017-02-22 | 合肥清浊信息科技有限公司 | 专利检索用语义分析方法 |
CN106960003A (zh) * | 2017-02-15 | 2017-07-18 | 黑龙江工程学院 | 抄袭检测中的基于机器学习的源检索的查询生成方法 |
CN108804443A (zh) * | 2017-04-27 | 2018-11-13 | 安徽富驰信息技术有限公司 | 一种基于多特征融合的司法类案搜索方法 |
WO2019028631A1 (zh) * | 2017-08-07 | 2019-02-14 | 深圳益强信息科技有限公司 | 一种技术秘密的相对秘密性判断方法 |
CN107992586A (zh) * | 2017-12-08 | 2018-05-04 | 成都谷问信息技术有限公司 | 基于智能语意的检索方法 |
CN109241525B (zh) * | 2018-08-20 | 2022-05-06 | 深圳追一科技有限公司 | 关键词的提取方法、装置和系统 |
CN113536156B (zh) * | 2020-04-13 | 2024-05-28 | 百度在线网络技术(北京)有限公司 | 搜索结果排序方法、模型构建方法、装置、设备和介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605665A (zh) * | 2013-10-24 | 2014-02-26 | 杭州电子科技大学 | 一种基于关键词的评审专家智能检索与推荐方法 |
CN104239512A (zh) * | 2014-09-16 | 2014-12-24 | 电子科技大学 | 一种文本推荐方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7257530B2 (en) * | 2002-02-27 | 2007-08-14 | Hongfeng Yin | Method and system of knowledge based search engine using text mining |
-
2015
- 2015-01-23 CN CN201510035224.0A patent/CN104778201B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103605665A (zh) * | 2013-10-24 | 2014-02-26 | 杭州电子科技大学 | 一种基于关键词的评审专家智能检索与推荐方法 |
CN104239512A (zh) * | 2014-09-16 | 2014-12-24 | 电子科技大学 | 一种文本推荐方法 |
Non-Patent Citations (3)
Title |
---|
Survey of Cold﹣Start Problem in Collaborative Filtering Recommender System;Sun D T, He T, Zhang F H;《Computer and Modernization》;20121230(第5期);全文 * |
Utilizing Sub-topic Units for Patent Prior-Art Search;ZHOU Dong;《Chinese Journal of Electronics》;20140715;第23卷(第3期);480-483 * |
基于关键词提取的专利在先技术搜索方法研究;周栋等;《山西大学学报(自然科学版)》;20140215;第37卷(第1期);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN104778201A (zh) | 2015-07-15 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104778201B (zh) | 一种基于多查询结果合并的在先技术检索方法 | |
KR101508260B1 (ko) | 문서 특징을 반영하는 요약문 생성 장치 및 방법 | |
Zhai et al. | Online latent Dirichlet allocation with infinite vocabulary | |
CN107590133A (zh) | 基于语义的招聘职位与求职简历匹配的方法及系统 | |
CN109376352B (zh) | 一种基于word2vec和语义相似度的专利文本建模方法 | |
CN111611356B (zh) | 信息查找方法、装置、电子设备及可读存储介质 | |
CN105677795B (zh) | 抽象语义的推荐方法、推荐装置及推荐系统 | |
El-Shishtawy et al. | Arabic keyphrase extraction using linguistic knowledge and machine learning techniques | |
Parlar et al. | A new feature selection method for sentiment analysis of Turkish reviews | |
CN107665217A (zh) | 一种用于搜索业务的词汇处理方法及系统 | |
CN107291895B (zh) | 一种快速的层次化文档查询方法 | |
Sarkar | A hybrid approach to extract keyphrases from medical documents | |
CN103559193A (zh) | 一种基于选择单元的主题建模方法 | |
Yao et al. | Chinese text clustering algorithm based k-means | |
Ekbal et al. | A deep learning architecture for protein-protein interaction article identification | |
Najadat et al. | Automatic keyphrase extractor from arabic documents | |
CN107066585A (zh) | 一种概率主题计算与匹配的舆情监测方法及系统 | |
Miotto et al. | Supporting the Curation of Biological Databases Reusable Text Mining | |
Sunercan et al. | Wikipedia missing link discovery: A comparative study | |
CN116595182A (zh) | 一种基于知识图谱和语义理解的评审专家推荐系统 | |
CN111209737B (zh) | 噪声文档的筛除方法及计算机可读存储介质 | |
Tran et al. | A named entity recognition approach for tweet streams using active learning | |
CN107341169B (zh) | 一种基于信息检索的大规模软件信息站标签推荐方法 | |
Zhai et al. | Online topic models with infinite vocabulary | |
CN112507097A (zh) | 一种提高问答系统泛化能力的方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
EXSB | Decision made by sipo to initiate substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |