CN106372079A

CN106372079A - 一种专利信息处理及检索方法

Info

Publication number: CN106372079A
Application number: CN201510434166.9A
Authority: CN
Inventors: 武春亮; 蔡志勇; 胡静
Original assignee: China Chemical Information Center
Current assignee: China Chemical Information Center
Priority date: 2015-07-22
Filing date: 2015-07-22
Publication date: 2017-02-01

Abstract

本发明公开了一种对海量专利信息进行处理并实现优化检索的方法，包括以下步骤：对专利数据进行处理并设置必要的优化检索字段；将处理后的专利数据导入到基于MongoDB的数据库集群中并实现数据的存储和调用；将处理后的专利数据导入到基于SolrCloud的全文检索系统中并建立分布式索引；建立结合优化检索字段并用于优化检索结果排序的专利向量计算和调整体系。本发明在低服务器资源利用率的前提下实现了检索结果根据专利内容和用户反馈的优化排序。

Description

一种专利信息处理及检索方法

技术领域

本发明属于专利信息处理技术领域，涉及一种通过对专利信息的处理来优化专利检索效果的方法。

背景技术

在当前这个技术高速革新、新的发明创造不断涌现的时代，每天都有大量的发明创造以专利申请的形式提交，每周都有大量的新专利公开和授权。而对于从事发明创造工作，或对发明创造及其成果感兴趣的个人和组织机构而言，对这些包含发明创造的专利信息进行充分的挖掘，通过检索和分析来研究其内容并加以利用，就是一件非常有意义的事情。但因为专利申请中往往包含了很多相对不具价值的“垃圾”专利，导致从大量检索到的专利文献中找出真正具有价值的专利变得十分困难。传统的专利检索方法要么仅仅以特定的专利字段来排列检索结果，绝大多数情况下并不能满足找出有价值专利的要求；要么仅仅以搜索引擎提供的“相关度”排序，它过于依赖表象的检索词，也不能将有价值的专利排列在前。

在对专利信息进行存储时，传统的数据库有Microsoft SQL Server、Oracle和MySQL。它们都是关系型数据库，需要有严格的数据结构方可有效运行，虽然看起来更加规范严谨，但灵活度较差。而MongoDB是非关系型数据库的代表，它基于文档来组织数据，不需要严格的结构；同时具备高性能、高可用、易扩展、富查询等特性，非常适合在专利信息处理技术领域应用。

在对专利信息进行索引以备检索时，传统的全文检索系统有Lucene、TRS等。它们同样存在灵活性和性能相对较差的问题。而SolrCloud是Solr的一种部署方式，Solr是以Lucene为基础实现的文本检索应用服务。SolrCloud具有集中式配置、自动容错、近实时搜索、自动负载均衡、自动分发索引和索引分片、事务日志等特色，特别适合分布式部署的需要，能够降低对服务器硬件条件的要求和资源占用，以更低的成本提供更好的数据容量和性能。

发明内容

本发明通过对专利信息的处理、用数据库存储并建立分布式索引，配以对专利字段中的向量信息的数值计算和用户反馈调整，实现了对专利搜索结果的优化排序，从而帮助用户找出有价值的专利。

本发明的技术方案应按照如下步骤实施：

步骤1，对专利源数据设置若干个优化检索字段；

步骤2，将处理后的专利数据导入到基于MongoDB的数据库集群中；

步骤3，将处理后的专利数据导入到基于SolrCloud的全文检索系统中，并建立分布式索引；

步骤4，建立基于优化检索字段的专利向量计算公式；

步骤5，建立基于用户在Web页面中互动的对专利向量进行调整的体系；

步骤6，建立基于步骤4中所述专利向量的排序规则；

步骤7，将检索获得的专利按照步骤6中所述排序规则进行排序，并通过Web页面输出至用户屏幕。

步骤1具体还包括：

步骤1.1，将待处理的专利数据源首先处理成符合xml标准格式的数据源；

步骤1.2，设置如下这些可检索字段：IPC分类号、IPC分类号下级、CPC分类号、CPC分类号下级、本国分类、欧洲分类号、引用专利情况、引用专利类别、代理机构、代理人、发明人、公开/公告号、种类码、公开/公告日、最早公开日、权利要求、权利要求条目数、独立权利要求条目数、说明书全文、说明书发明优点、说明书附图说明、说明书背景技术、说明书发明内容、说明书实施方式、说明书示例、说明书技术领域、说明书参考引用、说明书工业实用性、说明书发明效果、申请号、申请日、国际申请、国际公布、进入国家阶段日、所有内容、同族专利号、INPADOC同族专利号、被专利引用情况、被专利引用类别、优先权号、优先权日、摘要、摘要(英文)、摘要(中文)、主题文本、专利名称、专利名称(英文)、专利名称(中文)、申请人、申请人地址、申请人所在国、发明人、发明人所在国、专利权人、专利权人地址、专利权人所在国、专利权人历史、专利权人地址历史、专利权人所在国历史、专利所属国、审查员、专利类型、专利权放弃原因、专利权放弃生效日、专利权放弃公告日、授权日、专利权转移原权利人、专利权转移新权利人、专利权转移生效日、专利权转移公告日、专利权转移次数、公知公用状态、失效日、法律状态、法律状态详情类型、法律状态详情描述、法律状态详情公告日、专利权许可许可人、专利权许可被许可人、专利权许可起始日、专利权许可终止日、专利权许可公告日、专利权许可备案号、专利权许可事件类别、专利权许可事件日期、专利权许可种类、专利权许可次数、专利寿命、专利权质押出质人、专利权质押质权人、专利权质押事件类别、专利权质押事件日期、专利权质押公告日、专利权质押登记号、专利权质押类型、专利权质押次数、全文页数。

步骤1.3，将可检索字段中的如下字段设置为优化检索字段，并将括号中内容设置为该字段的优化代码：权利要求条目数(CC)、独立权利要求条目数(ICC)、引用专利情况(CB)、被专利引用情况(CF)、同族专利情况(FM)、INPADOC同族情况(IFM)、国际申请(WA)、国际公布(WP)、优先权号(PRN)、优先权日(PRD)、专利类型(PT)、专利权转移次数(CPAC)、公知公用状态(FTO)、法律状态(LS)、专利权许可次数(LCPC)、专利寿命(PLS)、专利权质押次数 (PLPC)、全文页数(FP)。

步骤2具体还包括：将MongoDB数据库集群分为至少3个片，以利于优化性能。

步骤3具体还包括：将SolrCloud分布式索引设置为至少三个分片，以利于优化性能。

步骤4具体还包括：

步骤4.1，将专利向量计算公式使用到的优化检索字段进行分组。将引用专利情况(CB)、被专利引用情况(CF)、同族专利情况(FM)、INPADOC同族情况(IFM)、国际申请(WA)、国际公布(WP)、优先权号(PRN)和优先权日(PRD)设置为A组，将专利权转移次数(CPAC)、专利权许可次数(LCPC)、专利寿命(PLS)、专利权质押次数(PLPC)、全文页数(FP)、权利要求条目数(CC)和独立权利要求条目数(ICC)设置为B组，将专利类型(PT)、公知公用状态(FTO)和法律状态(LS)设置为C组。

步骤4.2，设置A组的计算公式。设置权重因子为w，数量数值为c,那么A组的计算数值为：

Ac＝CBwCBc+CFwCFc+FMwFMc+IFMwIFMc+WAwWAc+WPwWPc+PRw(PRNc+PRDc)。

步骤4.3，设置B组的计算公式。设置权重因子为w，数量数值为c,那么B组的计算数值为:

Bc＝CPACwCPACc+LCPCwLCPCc+PLSwPLSc+PLPCwPLPCc+FPwFPc+CCwCCc+ICCwICCc。

步骤4.4，设置C组的计算公式。设置权重因子为w，数量数值为c,那么C组的计算数值为:Cc＝PTw(PT＝1/2/3)+FTOw(FTO＝1/2/3)+LSw(LS＝1/2/3)。其中，PT为1代表发明专利，2代表实用新型专利，3代表外观设计专利；FTO为1代表在中国大陆广义公知公用，2代表在中国大陆狭义公知公用，3代表非公知公用；LS为1代表公开但尚未授权，2代表已授权且当前有效，3代表已经失效。

步骤4.5，设置专利向量计算公式。设置权重因子为w，数量数值为c，那么专利向量计算公式为：专利向量数值＝AwAc+BwBc+CwCc。

步骤5具体还包括：

步骤5.1，设置对用户查看专利全部内容的专利向量调整体系。设置权重因子为w，数量数值为c，以T1分钟为冷却时间，每用户每次在Web页面中点击并查看专利全部内容，会使该专利向量的数值增加T1wT1c。

步骤5.2，设置对用户查看专利题录内容的专利向量调整体系。设置权重因子为w，数量数值为c，以T2分钟为冷却时间，每用户每次在Web页面中点击并查看专利题录内容，会使该专利向量的数值增加T2wT2c。

步骤6具体还包括：在需要对Web页面中列出的专利进行排序时，以调整后的专利向量数值AwAc+BwBc+CwCc+ΣT1wT1c+ΣT2wT2c为序，从大到小进行排序。

步骤7具体还包括：在通过Web页面输出到用户屏幕时，对按此规则排序的专利进行分页，以满足页面显示效果的需要。

附图说明

图1是本发明一种专利信息处理及检索方法的流程图。

具体实施方式

下面结合附图和具体实施方式对本发明进行详细说明。

步骤1.1，设置数据源格式为标准xml格式，如如下格式：

<！--专利集合--><xs:complexType name＝"patents"><xs:sequence minOccurs＝"0"

maxOccurs＝"unbounded"><xs:element name＝"patent"type＝"patent"/>

</xs:sequence></xs:complexType><！--专利--><xs:complexType name＝"patent">

<xs:sequence><！--专利申请号主键--><xs:element name＝"application_number"

type＝"xs:string"/>

步骤1.2，设置如发明内容所述的97个检索字段，并将xml数据源文件处理为包含这些字段的格式；

步骤1.3，设置如发明内容所述的18个优化检索字段，病在xml数据源文件中包含这些字段的代码信息；

步骤2，以三台服务器，每台服务器一个分片为例，将专利导入到MongoDB数据库集群，并设置为3个分片；

步骤3，同样以三台服务器，每台服务器一个分片为例，将专利导入到SolrCloud，并按照3个分片建立索引；

步骤4.1，将引用专利情况(CB)、被专利引用情况(CF)、同族专利情况(FM)、INPADOC同族情况(IFM)、国际申请(WA)、国际公布(WP)、优先权号(PRN)和优先权日(PRD)设置为A组，将专利权转移次数(CPAC)、专利权许可次数(LCPC)、专利寿命(PLS)、专利权质押次数(PLPC)、全文页数(FP)、权利要求条目数(CC)和独立权利要求条目数(ICC)设置为B组，将专利类型(PT)、公知公用状态(FTO)和法律状态(LS)设置为C组。

步骤4.2，设置CBw为0.2，CBc为引用专利的数量；设置CFw为0.5，CFc为被专利引用的数量；设置FMw为0.1，FMc为同族专利的数量；设置IFMw为0.05，IFMc为INPADOC同族专利的数量；设置WAw为0.1，WAc为有无国际申请(0为无，1为有)；设置WPw为0.1，WPc为有无国际公布(0为无，1为有)；设置PRw为0.05，PRNc为有无优先权号(0为无，1为有)，PRDc为有无优先权日(0为无，1为有)，A组的计算数值为 Ac＝CBwCBc+CFwCFc+FMwFMc+IFMwIFMc+WAwWAc+WPwWPc+PRw(PRNc+PRDc)。

步骤4.3，设置CPACw为1，CPACc为专利权转移次数；设置LCPCw为3，LCPCc为专利权许可次数；设置PLSw为0.1，PLSc为专利寿命(专利维持有效的最长年限)；设置PLPCw为1，PLPCc为专利权质押次数；设置FPw为0.02，FPc为专利全文页数；设置CCw为0.1，CCc为权利要求条目数；设置ICCw为0.3，ICCc为独立权利要求条目数，B组的计算数值为Bc＝CPACwCPACc+LCPCwLCPCc+PLSwPLSc+PLPCwPLPCc+FPwFPc+CCwCCc+ICCwICCc。

步骤4.4，设置PT＝1时的PTw为1，PT＝2时的PTw为0.3，PT＝3时的PTw为0.1，FTO＝1时的FTOw为0.5,FTO＝2时的FTOw为0.3，FTO＝3时的FTOw为0，LS＝1时的LSw为0.5,LS＝2时的LSw为1,LS＝3时的LSw为0,C组的计算数值为Cc＝PTw(PT＝1/2/3)+FTOw(FTO＝1/2/3)+LSw(LS＝1/2/3)。

步骤4.5，设置Aw为0.5，Bw为0.3，Cw为0.2，专利向量数值＝AwAc+BwBc+CwCc。

步骤5.1，设置T1为60(分钟)，T1w为1，T1c为1，每用户每隔60分钟在Web页面中点击并查看某件专利的全部内容，会使该专利向量的数值增加T1wT1c＝1。

步骤5.2，设置T2为60(分钟)，T2w为0.2，T2c为1，每用户每隔60分钟在Web页面中点击并查看某件专利的全部内容，会使该专利向量的数值增加T1wT1c＝0.2。

步骤6，以调整后的专利向量数值AwAc+BwBc+CwCc+ΣT1wT1c+ΣT2wT2c为序从大到小进行排序，并将排序结果输出到Web页面。

步骤7，将输出到Web页面的排序结果按照20件专利每页的规则进行分页显示，第一页显示排序第1-20位，第二页显示排序第21-40位，以此类推。

Claims

1.一种专利信息处理及检索方法，其特征在于，具体按照如下步骤实施：

步骤1，对专利源数据设置若干个优化检索字段；

步骤4，建立基于优化检索字段的专利向量计算公式；

步骤6，建立基于步骤4中所述专利向量的排序规则；

2.根据权利要求1所述的专利信息处理及检索方法，其特征在于，步骤1中的数据源为标准xml格式。

3.根据权利要求1所述的专利信息处理及检索方法，其特征在于，步骤1中的优化检索字段不少于90个。

4.根据权利要求3所述的不少于90个检索字段，其特征在于，这些检索字段中包含权利要求条目数(CC)、独立权利要求条目数(ICC)、引用专利情况(CB)、被专利引用情况(CF)、同族专利情况(FM)、INPADOC同族情况(IFM)、国际申请(WA)、国际公布(WP)、优先权号(PRN)、优先权日(PRD)、专利类型(PT)、专利权转移次数(CPAC)、公知公用状态(FTO)、法律状态(LS)、专利权许可次数(LCPC)、专利寿命(PLS)、专利权质押次数(PLPC)和全文页数(FP)这些检索字段。

5.根据权利要求1所述的专利信息处理及检索方法，其特征在于，步骤3中的分布式索引分片数不少于3。

6.根据权利要求1所述的专利信息处理及检索方法，其特征在于，步骤4中的专利向量计算公式中包含对权利要求条目数(CC)、独立权利要求条目数(ICC)、引用专利情况(CB)、被专利引用情况(CF)、同族专利情况(FM)、INPADOC同族情况(IFM)、国际申请(WA)、国际公布(WP)、优先权号(PRN)、优先权日(PRD)、专利类型(PT)、专利权转移次数(CPAC)、公知公用状态(FTO)、法律状态(LS)、专利权许可次数(LCPC)、专利寿命(PLS)、专利权质押次数(PLPC)和全文页数(FP)这些检索字段数值的引用。

7.根据权利要求1所述的专利信息处理及检索方法，其特征在于，步骤5中的调整体系包含对用户在Web页面中点击专利检索字段内容的次数。

8.根据权利要求1所述的专利信息处理及检索方法，其特征在于，步骤6中的排序规则为根据专利向量计算公式计算得出的数值从高到低的排序。