专利智能检索方法及系统
技术领域
本发明涉及信息检索及分析挖掘领域,具体地,涉及专利智能检索方法及系统。
背景技术
当前随着科技的迅速发展和经济的全球化,专利数据的作用越来越得到人们的重视。尤其是如今的专利信息增长极为迅速,全球每年公布的专利文献数据呈快速增长趋势。与此同时,例如科研人员等社会公众对于专利数据检索的需求也越来越多样化和依赖性。
在专利检索请求和专利数据存量庞大的情况下,通过数据库检索相关专利信息需要耗费大量的时间与精力,往往难以避免漏检或者检索精度不够检索结果数量过多等问题,因此,如何迅速准确地提供检索者所真正需信息是目前面临的一个重要技术问题。
经检索发现,专利文献(申请号:201210141567.1;公开号:CN102708179A)公开了一种专利数据的自动检索方法和装置,包括:S1、获取用户设定的检索条件;S2、判断本次检索是否为针对所述用户设定的检索条件进行的首次检索,如果否,执行高频关键词提取步骤;S3、将所述用户设定的检索条件附加一个专利日期检索区间作为新的检索条件,利用新的检索条件进行专利数据的检索,得到检索结果;其中附加的所述专利日期检索区间为:上一检索日向前推预设天数的日期至当前检索日,结束本次检索,待下一检索周期时转至所述检索结果A获取步骤,所述预设天数为自然数。
现有技术存在如下不足之处:
(1)检索结果完全依赖于用户输入的关键词,若关键词不当,则导致检索方向出现偏差;
(2)仅支持对关键词进行检索,缺少对专利文献整体相似度的判断,在专利预警检索中导致漏检;
(3)专利数据的分析功能简单,不能对专利价值进行检索;
(4)发明的新颖性检索时缺少对现有外观设计专利文献的检索。
发明内容
针对现有技术中的缺陷,本发明的目的是提供一种专利智能检索方法及系统。
根据本发明提供的一种专利智能检索方法,包括:
第一检索式获取步骤:获取用户输入的第一检索式,其中,第一检索式包括用户输入的初始关键词;
检索结果A获取步骤:利用第一检索式进行检索,得到检索结果A;
高频关键词提取步骤:从检索结果A中提取出专利文献的高频关键词;
第二检索式获取步骤:将第一检索式中的初始关键词替换为高频关键词,得到第二检索式;
检索结果B获取步骤:利用第二检索式进行检索,得到检索结果B;
特征向量提取步骤:从检索结果B中提取出专利文献的特征向量,该特征向量主要由专利文献的文本特征和/或附图特征构成;
检索结果C获取步骤:将特征向量与专利数据库中的各个专利文献进行相似度匹配,得到相似专利文献作为检索结果C。
优选地,还包括如下任一个或任多个步骤:
-新颖性检索步骤:对检索结果C以申请日为关键词进行二次筛选,得到新颖性检索结果;
-专利价值检索步骤:对检索结果C以公开日为关键词进行二次筛选,得到专利价值检索结果;
-竞争对手检索步骤:对检索结果C以申请人为关键词进行二次筛选,得到竞争对手检索结果。
优选地,所述高频关键词提取步骤包括:
精确关键词提取步骤:在检索结果A中,从排序在前N个的专利文献的著录项目中提取出高频关键词;N为正整数;
其中,在提取出高频关键词的过程中,将设定的专利术语排除在高频关键词之外。
优选地,所述特征向量提取步骤包括:
精确特征提取步骤:在检索结果B中,从排序在前M个的专利文献的全文内容中提取出特征向量,其中,M为正整数。
优选地,还包括:
关联建立步骤:在历史上检索的得到的检索结果C中的各个专利文献之间建立关联关系;
所述高频关键词提取步骤包括:
关联关键词提取步骤:在检索结果A中,从排序在前N个的专利文献及与该前N个的专利文献建立有关联关系的专利文献的著录项目中提取出高频关键词;N为正整数;
所述特征向量提取步骤包括:
关联特征提取步骤:在检索结果B中,从排序在前M个的专利文献及与该前M个的专利文献建立有关联关系的专利文献的全文内容中提取出特征向量,其中,M为正整数。
根据本发明提供的一种专利智能检索系统,包括:
第一检索式获取装置:获取用户输入的第一检索式,其中,第一检索式包括用户输入的初始关键词;
检索结果A获取装置:利用第一检索式进行检索,得到检索结果A;
高频关键词提取装置:从检索结果A中提取出专利文献的高频关键词;
第二检索式获取装置:将第一检索式中的初始关键词替换为高频关键词,得到第二检索式;
检索结果B获取装置:利用第二检索式进行检索,得到检索结果B;
特征向量提取装置:从检索结果B中提取出专利文献的特征向量,该特征向量主要由专利文献的文本特征和/或附图特征构成;
检索结果C获取装置:将特征向量与专利数据库中的各个专利文献进行相似度匹配,得到相似专利文献作为检索结果C。
优选地,还包括如下任一个或任多个装置:
-新颖性检索装置:对检索结果C以申请日为关键词进行二次筛选,得到新颖性检索结果;
-专利价值检索装置:对检索结果C以公开日为关键词进行二次筛选,得到专利价值检索结果;
-竞争对手检索装置:对检索结果C以申请人为关键词进行二次筛选,得到竞争对手检索结果。
优选地,所述高频关键词提取装置包括:
精确关键词提取装置:在检索结果A中,从排序在前N个的专利文献的著录项目中提取出高频关键词;N为正整数;
其中,在提取出高频关键词的过程中,将设定的专利术语排除在高频关键词之外。
优选地,所述特征向量提取装置包括:
精确特征提取装置:在检索结果B中,从排序在前M个的专利文献的全文内容中提取出特征向量,其中,M为正整数。
优选地,还包括:
关联建立装置:在历史上检索的得到的检索结果C中的各个专利文献之间建立关联关系;
所述高频关键词提取装置包括:
关联关键词提取装置:在检索结果A中,从排序在前N个的专利文献及与该前N个的专利文献建立有关联关系的专利文献的著录项目中提取出高频关键词;N为正整数;
所述特征向量提取装置包括:
关联特征提取装置:在检索结果B中,从排序在前M个的专利文献及与该前M个的专利文献建立有关联关系的专利文献的全文内容中提取出特征向量,其中,M为正整数。
优选地,N为大于等于2的正整数,M为大于N的正整数。
与现有技术相比,本发明具有如下的有益效果:
1、本发明在整个检索过程中,用户只需要输入一次初始的检索式,即可得到数据分析及检索结果,并可以继续开展二次筛选以得到更为个性化的检索结果;
2、本发明能够智能化的自动调整关键词,以修正检索方向;
3、本发明根据关键词得到初步的检索结果后,从初步的检索结果中提取出特征,从而用特征检索代替关键词检索,进而提高了检索精度;
4、本发明利用特征进行内容相似度检索,能够有效防止漏检;
5、本发明中结合公开日等关键词进行二次筛选,能够得到专利预警、专利价值等高级分析功能的检索结果。
6、通过多次不同范围的检索,逐步得到各个检索结果,从而减少了检索的计算量和检索量,缩短了检索时间。
附图说明
通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
图1为本发明提供的专利智能检索方法的步骤流程图。
图2为本发明提供的专利智能检索系统的装置结构图。
具体实施方式
下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
根据本发明提供的一种专利智能检索系统,包括:
第一检索式获取装置:获取用户输入的第一检索式,其中,第一检索式包括用户输入的初始关键词;
检索结果A获取装置:利用第一检索式进行检索,得到检索结果A;
高频关键词提取装置:从检索结果A中提取出专利文献的高频关键词;
第二检索式获取装置:将第一检索式中的初始关键词替换为高频关键词,得到第二检索式;
检索结果B获取装置:利用第二检索式进行检索,得到检索结果B;
特征向量提取装置:从检索结果B中提取出专利文献的特征向量,该特征向量主要由专利文献的文本特征和/或附图特征构成;
检索结果C获取装置:将特征向量与专利数据库中的各个专利文献进行相似度匹配,得到相似专利文献作为检索结果C;
新颖性检索装置:对检索结果C以申请日为关键词进行二次筛选,得到新颖性检索结果;
专利价值检索装置:对检索结果C以公开日为关键词进行二次筛选,得到专利价值检索结果;
竞争对手检索装置:对检索结果C以申请人为关键词进行二次筛选,得到竞争对手检索结果。
在一个优选例中,所述高频关键词提取装置包括:
精确关键词提取装置:在检索结果A中,从排序在前N个的专利文献的著录项目中提取出高频关键词;N为大于等于2的正整数;
其中,在提取出高频关键词的过程中,将设定的专利术语排除在高频关键词之外。
所述特征向量提取装置包括:
精确特征提取装置:在检索结果B中,从排序在前M个的专利文献的全文内容中提取出特征向量,其中,M为大于N的正整数。
在另一个优选例中,所述专利智能检索系统还包括:
关联建立装置:在历史上检索的得到的检索结果C中的各个专利文献之间建立关联关系;
所述高频关键词提取装置包括:
关联关键词提取装置:在检索结果A中,从排序在前N个的专利文献及与该前N个的专利文献建立有关联关系的专利文献的著录项目中提取出高频关键词;N为大于等于2的正整数;
所述特征向量提取装置包括:
关联特征提取装置:在检索结果B中,从排序在前M个的专利文献及与该前M个的专利文献建立有关联关系的专利文献的全文内容中提取出特征向量,其中,M为大于N的正整数。
所述专利智能检索系统可以通过本发明提供的一种专利智能检索方法的步骤流程实现,本领域技术人员可以将所述专利智能检索方法理解为所述专利智能检索系统的优选实施例。具体地,根据本发明提供的一种专利智能检索方法,包括:
第一检索式获取步骤:获取用户输入的第一检索式,其中,第一检索式包括用户输入的初始关键词;
检索结果A获取步骤:利用第一检索式进行检索,通过现有技术中的专利检索系统,得到检索结果A;
高频关键词提取步骤:从检索结果A中提取出专利文献的高频关键词;
第二检索式获取步骤:将第一检索式中的初始关键词替换为高频关键词,得到第二检索式;
检索结果B获取步骤:利用第二检索式进行检索,通过现有技术中的专利检索系统,得到检索结果B;
特征向量提取步骤:从检索结果B中提取出专利文献的特征向量,该特征向量主要由专利文献的文本特征和/或附图特征构成;例如,可以从发明专利文献的说明书附图中提取出附图特征构成特征向量,这样,可以在后续步骤中将该特征向量与专利数据库中的外观设计专利的视图进行相似度匹配,从而找到相似专利文献,以用于判断新颖性判断或者在专利无效中作为对比文件;
检索结果C获取步骤:将特征向量与专利数据库中的各个专利文献进行相似度匹配,得到相似专利文献作为检索结果C;
新颖性检索步骤:对检索结果C以申请日为关键词进行二次筛选,得到新颖性检索结果;具体地,针对检索结果B中某一项专利文献,仅将该项专利文献的申请日之前的专利文献二次筛选出;
专利价值检索步骤:对检索结果C以公开日为关键词进行二次筛选,得到专利价值检索结果;具体地,针对检索结果B中某一项专利文献,仅将该项专利文献的公开日之后的专利文献二次筛选出,若二次筛选出的专利文献越多,则说明该项专利文献越有可能是基础专利,其价值越高;
竞争对手检索步骤:对检索结果C以申请人为关键词进行二次筛选,得到竞争对手检索结果。
在一个优选例中,所述高频关键词提取步骤包括:
精确关键词提取步骤:在检索结果A中,从排序在前N个的专利文献的著录项目中提取出高频关键词;N为大于等于2的正整数;N也可以等于1;
其中,在提取出高频关键词的过程中,将设定的专利术语排除在高频关键词之外,例如,需剔除专利术语“发明”、“技术”、“提供”等等。
优选地,所述特征向量提取步骤包括:
精确特征提取步骤:在检索结果B中,从排序在前M个的专利文献的全文内容中提取出特征向量,其中,M为大于N的正整数;M也可以等于1。
在另一个优选例中,所述专利智能检索方法还包括:
关联建立步骤:在历史上检索的得到的检索结果C中的各个专利文献之间建立关联关系;
所述高频关键词提取步骤包括:
关联关键词提取步骤:在检索结果A中,从排序在前N个的专利文献及与该前N个的专利文献建立有关联关系的专利文献的著录项目中提取出高频关键词;N为大于等于2的正整数;
所述特征向量提取步骤包括:
关联特征提取步骤:在检索结果B中,从排序在前M个的专利文献及与该前M个的专利文献建立有关联关系的专利文献的全文内容中提取出特征向量,其中,M为大于N的正整数。
进一步地,在本次专利检索中,也将检索结果C中的各个专利文献之间建立关联关系为后续次专利检索提供建立有关联关系的专利文献。
本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本申请的实施例和实施例中的特征可以任意相互组合。