CN110569273A - 一种基于相关性排序的专利检索系统及方法 - Google Patents
一种基于相关性排序的专利检索系统及方法 Download PDFInfo
- Publication number
- CN110569273A CN110569273A CN201910682137.2A CN201910682137A CN110569273A CN 110569273 A CN110569273 A CN 110569273A CN 201910682137 A CN201910682137 A CN 201910682137A CN 110569273 A CN110569273 A CN 110569273A
- Authority
- CN
- China
- Prior art keywords
- retrieval
- search
- relevance
- ranking
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 39
- 230000008520 organization Effects 0.000 claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 230000004931 aggregating effect Effects 0.000 claims abstract description 10
- 238000013500 data storage Methods 0.000 claims abstract description 7
- 238000013475 authorization Methods 0.000 claims abstract description 6
- 238000006116 polymerization reaction Methods 0.000 claims abstract description 4
- 230000002776 aggregation Effects 0.000 claims description 13
- 238000004220 aggregation Methods 0.000 claims description 13
- 239000012634 fragment Substances 0.000 claims description 12
- 230000011218 segmentation Effects 0.000 claims description 9
- 238000013507 mapping Methods 0.000 claims description 7
- 238000010606 normalization Methods 0.000 claims description 6
- 238000011084 recovery Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 claims description 5
- 238000013461 design Methods 0.000 claims description 2
- 238000011161 development Methods 0.000 description 11
- 230000018109 developmental process Effects 0.000 description 11
- 230000006870 function Effects 0.000 description 11
- 238000012545 processing Methods 0.000 description 5
- 230000007547 defect Effects 0.000 description 3
- 230000003321 amplification Effects 0.000 description 2
- 230000009193 crawling Effects 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003199 nucleic acid amplification method Methods 0.000 description 2
- 238000012216 screening Methods 0.000 description 2
- 238000007619 statistical method Methods 0.000 description 2
- 244000062793 Sorghum vulgare Species 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000004888 barrier function Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 235000019713 millet Nutrition 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012163 sequencing technique Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2462—Approximate or statistical queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2458—Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
- G06F16/2468—Fuzzy queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services; Handling legal documents
- G06Q50/184—Intellectual property management
Abstract
本发明提出了专利检索分析领域内的一种基于相关性排序的专利检索系统,包括:专利数据存储模块:用于基于抓取到的专利数据及专利检索规则搭建一套用于专利检索的搜索引擎和用于输出专利详细信息的关系型数据库;输入及检索式生成模块:用于检测和获取用户输入的检索关键词及检索方式;检索及相关性排序模块:用于首先根据检索式采用粗粒度的方法检索专利数据;聚合模块:用于聚合统计某机构或地区的近几年专利授权和公开情况,从而分析知识产权情况;输出模块:用于向用户输出推荐检索关键字及检索结果,提高专利信息检索的质量和效率,可用于专利检索分析中。
Description
技术领域
本发明涉及一种专利检索系统,具体的说是一种专利检索方法,属于知识产权技术领域。
背景技术
知识经济时代,专利分析和运营成为社会经济增长的主要方式,作为重要生产要素的专利权已成为当前企业乃至一个经济体的核心竞争力。知识产权分析报告认为我国的专利数量,质量都在不断提高。
企业通过构建知识产权壁垒增强自己在国际国内市场的竞争力,政府通过知识产权管理引导产业发展与创新。知识产权已成为重要的生产要素,是企业乃至一个经济体的核心竞争力。专利含有大量的技术、法律及经济信息,通过专利分析,企业可获知当前行业内的技术发展趋势,从而对企业的后期发展起到一定的帮助。并且形成自身的技术保护,避免侵权及被侵权。
随着社会制度的不断发展与完善,专利文献数量的迅速增加,使得各国企业对于专利权的保护越来越重视。对于企业而言,如何从大量的专利文献中精确地检索并分析出满足自身需求的信息,对整个企业的发展至关重要。因此,对于专利检索技术及其结果排序的研究迅速成为的热门课题,而各具优势的专利检索系统的出现也就成为了必然趋势。
现有技术一
申请号CN 106097190 A的专利中,公开了一种专利检索系统。包括:输入模块,用于检测和获取用户输入,所述用户输入包括用户输入的关键字以及用户选择的关键字或检索式;输出模块,用于向用户输出推荐检索式和推荐关键字,还用于向用户输出检索结果;检索式生成模块,用于根据用户输入的关键字生成推荐检索式;关键字生成模块,用于根据输入的关键字生成推荐关键字集合;检索模块,用于根据检索式检索专利数据,生成检索结果;数据库,存储专利数据和用于检索式生成模块和关键字生成模块的检索数据。本发明提供的专利检索系统,本提供的专利检索系统,能够解决非专业人员使用现有专利检索系统时由于关键字和检索式检索范围过大或漏检的问题。
现有技术一的缺点:
现有技术一中未对搜索结果进行相关性排序,无法为用户优先推荐相关程度较高的搜索结果,搜索结果的准确性没有得到保障。
现有技术二
申请号CN 104636380 A的专利中,公开了一种专利数据检索系统,包括用于储存专业词汇与专利分类号之间对应关系的数据库、用于根据所述数据库内的对应关系及检索人员输入的专业词汇确定与所述专业词汇对应的专利分类号的确定专利分类号模块、用于根据所确定的专利分类号在专利数据库内进行检索以检索出相关的专利文献的检索模块、用于将所述专利文献予以显示以供所述检索人员参考的显示模块,如此通过确定检索人员输入的专业词汇的专利分类号即可帮助检索人员实现采用专利分类号进行检索的功能。
现有技术二的缺点:
现有技术二中仅针对专利分类号进行分类搜索,搜索方式具有较大的局限性,在实际情况下,用户的搜索具有多种需求,如对申请人、发明人进行不同的搜索。
现有技术三
申请号CN 101025752 A的专利中,公开了一种专利检索系统,包括:用于储存与各检索关键词匹配的扩充关键词的扩充数据库、用于根据所述扩充数据库确定与检索人员输入的关键词匹配的扩充关键词的关键词匹配模块、用于根据检索人员输入的关键词及所述扩充关键词在指定专利数据库内进行检索以获得相应检索结果的检索模块、用于将所述检索结果予以显示的显示模块,如此通过对关键词的解释的自动扩充可减小漏检率,提高检索人员的工作效率。
现有技术三的缺点:
现有技术三未披露如何如专利数据库进行定期更新,专利信息很容易失去时效性,应定期根据专利的法律状态对专利信息进行更新。
发明内容
本发明的目的是提供一种基于相关性排序的专利检索系统及方法,提高专利信息检索的质量和效率。
本发明的目的是这样实现的:一种基于相关性排序的专利检索系统,包括:
专利数据存储模块:用于基于抓取到的专利数据及专利检索规则搭建一套用于专利检索的搜索引擎和用于输出专利详细信息的关系型数据库,定义不同的分词器将文本分析成索引词;
输入及检索式生成模块:用于检测和获取用户输入的检索关键词及检索方式,且根据检索关键字自动智能生成标准检索式;
检索及相关性排序模块:用于首先根据检索式采用粗粒度的方法检索专利数据,然后使用较精细的核心排序函数计算检索结果的相关性分数,进行二次排序,最终生成检索结果;
聚合模块:用于聚合统计某机构或地区的近几年专利授权和公开情况,从而分析知识产权情况;
输出模块:用于向用户输出推荐检索关键字及检索结果。
作为本发明的进一步限定,所述专利数据存储模块包括根据专利检索规则设计映射关系,将关系型数据库中数据映射到搜索引擎的索引中;定义不同的分词器,对专利中各个字段的检索要求将文本分析成不同的索引词;并且每日更新数据,来保证系统数据库中数据的最新程度。
作为本发明的进一步限定,所述输入及检索式生成模块包括提供两种不同的检索方式,根据检索人员输入的检索词进行专利文档字段的匹配,自动生成检索式;根据检索式以及不同专利字段的检索规则,为每个字段设置不同的检索权重,分情况采用不分词搜索及多字段查询的跨字段搜索模式进行检索。
作为本发明的进一步限定,所述检索及相关性排序模块中文档排序方法包括基于检索规则采用低成本的方式取出候选搜索结果后,结合专利领域特征,重建排名函数,对检索结果进行二次排序,将相关性分数较高专利置于检索结果前列。
作为本发明的进一步限定,所述聚合模块包括采用桶聚合方法统计某机构或地区专利文档数据,然后聚合分析该机构或地区的知识产权情况;通过聚合分析某机构的重要竞争对手,减少人为干预;通过聚合分析智能推荐检索关键词。
一种基于相关性排序的专利检索方法,包括以下步骤:
步骤1)基于抓取到的专利数据及专利检索规则搭建一套用于专利检索的搜索引擎和用于输出专利详细信息的关系型数据库,定义不同的分词器将文本分析成索引词;
步骤2)检测和获取用户输入的检索关键词及检索方式,且根据检索关键字自动智能生成标准检索式;
步骤3)首先根据检索式采用粗粒度的方法检索专利数据,然后使用较精细的核心排序函数计算检索结果的相关性分数,进行二次排序,最终生成检索结果;
步骤4)聚合统计某机构或地区的近几年专利授权和公开情况,从而分析知识产权情况;
步骤5)向用户输出推荐检索关键字及检索结果。
作为本发明的进一步限定,步骤3)的具体方法为:
3-1)首先将关系型数据库被分为多个同等大小的分片,每次检索都使用一个完整的分片处理;
3-2)一次评分:基于数据库中各个专利文档中token的协调因子、查询归一因子、词频、逆向文档频率、字段长度归一值,使用一个粗粒度的方式综合计算出每个文档的TF-IDF相关性评分,并将其作为一次评分,从而依据此次评分并行的从多个分片中取出候选结果。这样,从每个分片中选出一次评分排名前n的专利文档作为此次检索最佳候选项。其中为了保证结果的多样性,需限制来自同一站点及主域的结果数量;
3-3)从排名前几位的候选结果中结合专利领域的搜索特性,再使用成本较高的精细的排序函数(Core Ranking Function)再计算一次,得到最终的排序结果。
作为本发明的进一步限定,步骤3-2)中的评分标准规则如下:
3-2-1) 按照生成的标准检索式进行第一次搜索,统计出结果中排名前十的关键字相关的信息及其在结果中所占比例;
3-2-2) 添加统计信息、排序方式及高亮等信息进行第二次搜索,取出每个分片中的前m个文档参与二次评分;
3-2-3) 添加法律状态权重:有权为4分,实审为3分,公开为2分,无权及其他为1分;
3-2-4) 添加关键字相关的信息权重:将S3-2-1统计出的n个关键字信息添加到二次评分查询中;
3-2-5) 按照比例将两次评分的结果乘以各自权重并相加,最终评分为:
Original_query_score(一次评分) * query_weight + rescore_query_score(二次评分) * rescore_query_weight。
本发明采用以上技术方案与现有技术相比,具有以下技术效果:本发明从数据存储、数据处理、生成检索式、到聚合统计分析;检索人员不仅可以在分析前检索查看相关专利完整信息,并且可以对指定申请人通过聚合统计分析过程得出一套较为完善的专利发展分析报告;通过改善相关性排序,从海量专利文档数据中为用户推荐与搜索相关程度较高的专利数据,大大提高了专利检索的质量和效率。
附图说明
图1为本发明中检索方法流程图。
图2为本发明中搭建系统搜索引擎及关系型数据库流程图。
图3为本发明中输入检索词,自动生成检索式,根据检索式检索专利数据流程图。
具体实施方式
下面结合附图对本发明的技术方案做进一步的详细说明:
一种基于相关性排序的专利检索系统,所述专利检索系统包括:专利数据存储模块:基于抓取到的专利数据及专利检索规则搭建一套用于专利检索的搜索引擎和用于输出专利详细信息的关系型数据库,定义不同的分词器将文本分析成索引词;输入及检索式生成模块:用于检测和获取用户输入的检索关键词及检索方式,且根据检索关键字自动智能生成标准检索式;检索及相关性排序模块:首先根据检索式采用粗粒度的方法检索专利数据,然后使用较精细的核心排序函数计算检索结果的相关性分数,进行二次排序,最终生成检索结果;聚合模块:聚合统计某机构或地区的近几年专利授权和公开情况,从而分析知识产权情况;输出模块:向用户输出推荐检索关键字及检索结果。
第一步,搭建系统搜索引擎及关系型数据库;
实施例流程如图1所示
首先,为了提高专利内容抓取的速度和代码的可维护性,根据系统需求,本系统采用requests库和bs4库,针对专利信息分为两个方向进行数据的抓取。
首先需要爬取专利目录,包含的信息有专利名称、申请号、申请时间、公开号、公开时间、优先权号、优先权日、申请人、发明人、申请人地址、IPC分类号、专利摘要、最新法律状态。在爬取到一定的数量等级后,根据不同索引的要求,建立相对应的映射关系,然后将这些数据映射到搜索引擎ElasticSearch的索引中。
其中,为了保证检索结果的准确,建立三种不同的分词器,将部分数据作三种不同的分析映射到该字段对象的三个值中,分别是按分号分词、智能分词、不分词三种情况。例如:针对申请人、发明人字段,会出现多个申请人、发明人的情况。在检索或者数据统计时,索引词一般为对单个申请人或发明人,此时需要将该文本分割开。按照专利的要求,多个申请人、发明人中间采用分号(英文)隔开。因此,本发明在映射此类文本数据时,通过分词器识别分号(英文)字符将该文本分析成单个索引词。此外,针对专利名称及摘要等字段,通常将检索词与部分文本进行匹配,由于中文文本语义的复杂,因此需要事先将该字段的文本通过分词器智能分析为一个个的索引词。本发明采用基于词典的规则的IK分词器的细粒度模式,将此类字段的文本按照最大可能切分成单独的索引词。在实际开发中,本发明还按照特例情况扩展IK分词器的词典。最后,针对专利号、法律状态之类字段,通常情况下为完全匹配检索,因此本发明对该类文本采用不分析处理,即将该类文本数据完整映射到该字段,以保证检索的准确性。
第二步是根据爬取到的专利目录的申请号、公开号,再进行完整专利数据的爬取。爬取到一定数量级的数据后,将数据作去噪处理后,如特殊字符等,存储到供专利详情页展示的系统关系型数据库中,包括:专利名称、申请号、申请时间、公开号、公开时间、优先权号、优先权日、申请人、发明人、申请人地址、IPC分类号、专利摘要、洛迦诺分类、国际申请、国际公布、进入国家日期、关键词、CPC分类号、申请人邮编、代理机构、代理人、权利要求书、说明书、说明书附图、PDF文本、法律状态生效日、法律状态含义、相关专利申请号、相关专利公开号、相关专利名称、专利之间关系(引证、被引、同族)。为了保证数据的实时准确性,在关系型数据库中设定了定时更新(每日更新),搜索引擎Elasticsearch也随之更新,保证了系统数据库中数据与互联网上专利数据保持一致。
根据专利检索规则设计映射关系,将关系型数据库中数据映射到搜索引擎的索引中;定义不同的分词器,对专利中各个字段的检索要求将文本分析成不同的索引词;并且每日更新数据,来保证系统数据库中数据的最新程度。
第二步,输入检索词,自动生成检索式,根据检索式检索专利数据;
实施例流程如图2所示。
本发明为检索人员提供了两种检索方式:普通检索模式和高级检索模式。在输入模块中,若需要模糊检索某些领域专利,检索人员可以选择普通搜索模式。输入某些检索词,如“南京邮电大学 2018.01.01 网络”,系统在接受到检索词后,首先根据用户的默认分隔符,如空格、逗号(中英文)、分号(中英文)、句号(中英文)、加号等分隔符将检索人员输入的检索词分为多个检索词,然后对每个检索词进行处理:
1. 若检索词前两位为常见国家专利代码,如“CN”、“US”、“WO”等,则判定该检索词为专利号,从而放入专利公开号、申请号、优先权号的不分析字段进行查询;
2. 若检索词与日期格式的正则表达式相匹配,则判定该检索词为日期,从而将检索结果的日期范围缩小至该日期;
3. 若检索词与IPC分类号格式的正则表达式相匹配,则判定该检索词为IPC分类号,从而将该检索词放入IPC分类号的按照分号分析字段进行检索;
4. 将检索词分别完整放入申请人、发明人的按照分号分析字段进行不分词检索,若可以完全匹配,即检索结果个数不为0,则判定该检索词为申请人或发明人,从而分别放入申请人、发明人的按照分号分析字段进行查询;
5. 若检索词不满足以上四条规则,则判定该检索词为模糊检索词。为保证检索结果的准确性以及为了避免检索人员输入时未将检索词分隔的情况,从而采用多字段查询的跨字段查询模式,将该检索词放入专利名称、申请人、申请人地址、摘要、发明人的智能分析字段和申请人、发明人、IPC分类号的按照分号分析字段以及专利号的不分析字段进行查询。此外,为提高检索结果排序的相关性,基于专利的检索规则对不同字段的采用加权处理。
最终生成的标准检索式为“专利号:xxxxxxxxxxx;日期:xxxx.xx.xx;申请人:xxxxx;发明人:xx;IPC分类号:xxxxxx;模糊检索词:xx”。经过上述处理流程后自动生成标准的检索式,大大提高了普通检索模式下检索结果的准确性和有效性。
本发明还提供了可供检索人员精确查找专利的高级检索模式,在该模式下,检索人员可以自由指定字段输入检索词。系统接收到输入的检索词后,经过对每个检索词的去噪处理,根据要求生成检索式,根据检索式进行搜索。此种模式适用于检索人员需精确查找某个专利或某方面专利的情况。
此外,在一次检索后,本发明还提供了对检索结果的二次筛选功能。检索人员可以根据不同情况增加条件对检索结果进行筛选,如添加模糊检索词、法律状态、专利语言、日期筛选等条件。
本发明提供两种不同的检索方式,根据检索人员输入的检索词进行专利字段的匹配,自动生成检索式;根据检索式以及不同专利字段的检索规则,为每个字段设置不同的检索权重,分情况采用不分词搜索及多字段查询的跨字段搜索模式进行检索。
第三步,对检索结果进行相关性排序;
在已有的基础排序规则下,本系统结合专利领域的检索特性改善相关性排序,提高系统的准确性与实用性,从数以万计的搜索结果中为用户推荐相关程度最高的专利;
1. 首先将专利语料库被分为多个同等大小的分片,每次检索都使用一个完整的分片处理;
2. 一次评分:基于数据库中各个专利文档中token的协调因子、查询归一因子、词频、逆向文档频率、字段长度归一值,使用一个粗粒度的方式综合计算出每个文档的TF-IDF相关性评分,并将其作为一次评分,从而依据此次评分并行的从多个分片中取出候选结果。这样,从每个分片中选出一次评分排名前n的专利文档作为此次检索最佳候选项。其中为了保证结果的多样性,需限制来自同一站点及主域的结果数量;
3. 从排名前几位的候选结果中结合专利领域的搜索特性,再使用成本较高的精细的排序函数(Core Ranking Function)再计算一次,得到最终的排序结果。
具体的评分规则如下:
1)按照生成的标准检索式进行第一次搜索,统计出结果中排名前十的申请人、发明人及其在结果中所占比例;
2) 添加统计信息、排序方式及高亮等信息进行第二次搜索,取出每个分片中的前100个文档参与二次评分
3) 添加法律状态权重:有权为4分,实审为3分,公开为2分,无权及其他为1分
4) 添加申请人、发明人权重:将S1统计出的10个申请人、发明人添加到二次评分查询中:
a、申请人:按照排名第一位申请人所占比例,若比例为1,则放大倍数不变;若比例小于1大于0.5,则放大2倍;若大于0.1小于0.05,则放大10倍;若小于0.1大于0.05,则放大20倍;若小于0.05,则放大100倍。每个申请人的权重为其所占比例乘以放大倍数。
b、发明人:每个发明人权重为其所占比例
5) 增加第一发明人及第二发明人权重:若搜索的发明人为第一发明人,则增加4分;若为第二发明人,则增加2分;若为第三发明人及之后,则不加分
按照比例将两次评分的结果乘以各自权重并相加,最终评分为:
Original_query_score(一次评分) * query_weight + rescore_query_score(二次评分) * rescore_query_weight。
本发明基于检索规则采用低成本的方式取出候选搜索结果后,结合专利领域特征,重建排名函数,对检索结果进行二次排序,将相关性分数较高专利置于检索结果前列。
第四步,使用聚合来聚合索引数据,并从中计算有用的信息;
在检索机构信息或地区信息时,检索人员通常希望得到该机构或地区目前的知识产权的数量和质量情况。聚合是一种基于搜索的数据汇总,通过组合可以对文档中的数据进行复杂的汇总、分析。本发明采用桶聚合来实现对某机构或地区的知识产权情况分析。
对于机构数据,系统在检测到检索人员输入的某单个检索词为机构时,则自动进入聚合该机构的文档数据流程中。首先,将满足申请人为该机构条件的文档放入一个桶中。其次,限定桶内文档时间范围,按照年份限定将该桶进一步分为多个桶。每个桶内有多个指标,如发明人、IPC分类号、专利号等。然后基于这些指标,进而将该桶内的文档分为多个桶。如按照《国际专利分类表》(IPC分类号)规定,根据IPC分类号的首字母将专利分为8大类,即放入8个桶中,根据每个桶内的数量指标情况可得知该机构近一年的技术发展趋势。采用此类方法,可得到的该机构的信息有:重要技术专家(发明人)、公开及授权专利技术发展趋势、近年专利授权及公开数和授权总数、专利授权种类情况。
此外,《国际专利分类表》(IPC分类)是目前国际通用的专利文献分类和检索工具,本系统还采用桶聚合的方法设计了一种计算某机构重要竞争对手的方法:
1. 首先,聚合统计出该机构去年所有授权专利中的数量排名前五的IPC分类号;
2. 其次分别以每个分类号作为检索词进行检索,聚合统计出每个分类号下数量排名前十的申请人及其在该分类下的专利数量;
3. 然后将重合的申请人进行合并,统计每个申请人在五类专利下的前十申请人中出现的次数及专利总数;
4. 最后结合两种数据作该机构竞争对手排名,取前5名作为重要竞争对手,并将该机构的知识产权情况与竞争对手的专利知识产权情况做出对比。
此种计算重要竞争对手的方法完全以机构自身知识产权情况为依据,大大减少了人工干预,提高了计算的准确性,为机构未来的发展提供了一些建议。
地区文档数据的聚合统计与机构类似。根据对地区专利数据的指标分析,可以得到该地区的知识产权情况分析,进而对该地区的总体发展趋势有指向性意义。
另外,在日常检索中,检索人员在检索机构名称时,有时会采用该机构的简称,如“华为”、“小米”等。系统在接受到检索词后,会将该检索词放入申请人的智能分析字段进行检索,并聚合统计出检索结果的申请人。然后将专利数量排名前三的申请人作为智能推荐检索关键词反馈给检索人员以供参考。
本发明采用桶聚合方法统计某机构或地区专利文档数据,然后聚合分析该机构或地区的知识产权情况;通过聚合分析某机构的重要竞争对手,减少人为干预;通过聚合分析智能推荐检索关键词。
第五步,向用户输出推荐检索关键字及检索结果;
本系统的输出模块由检索结果输出模块、查看专利详细信息模块、收藏模块、批量导出模块;
1.检索结果输出模块:在该模块,可以得到基于检索规则及相关性排序之后的推荐检索结果及智能推荐的检索关键词。检索人员还可以自由选择将检索结果按照申请日、公开日升序或降序排序;
2. 收藏模块:在该模块,检索人员可以将需要的专利放入收藏夹中,或取消收藏。若需收藏专利,则根据专利id到数据库中找到该专利记录放入浏览器的session中;若需取消收藏某条专利,则判断session中是否含有该专利文档的id,若有,则删除。
批量导出模块:在该模块,系统在获取到需要导出的专利id列表后,首先使用XLWT类新建Excel文件及Excel表,然后根据专利id到数据库中逐条找出每个专利记录,并插入至事先建立好的Excel表中,自动返回给检索人员。
以上所述,仅为本发明中的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发明的保护范围应该以权利要求书的保护范围为准。
Claims (8)
1.一种基于相关性排序的专利检索系统,其特征在于,包括:
专利数据存储模块:用于基于抓取到的专利数据及专利检索规则搭建一套用于专利检索的搜索引擎和用于输出专利详细信息的关系型数据库,定义不同的分词器将文本分析成索引词;
输入及检索式生成模块:用于检测和获取用户输入的检索关键词及检索方式,且根据检索关键字自动智能生成标准检索式;
检索及相关性排序模块:用于首先根据检索式采用粗粒度的方法检索专利数据,然后使用较精细的核心排序函数计算检索结果的相关性分数,进行二次排序,最终生成检索结果;
聚合模块:用于聚合统计某机构或地区的近几年专利授权和公开情况,从而分析知识产权情况;
输出模块:用于向用户输出推荐检索关键字及检索结果。
2.根据权利要求1所述的一种基于相关性排序的专利检索系统,其特征在于,所述专利数据存储模块包括根据专利检索规则设计映射关系,将关系型数据库中数据映射到搜索引擎的索引中;定义不同的分词器,对专利中各个字段的检索要求将文本分析成不同的索引词;并且每日更新数据,来保证系统数据库中数据的最新程度。
3.根据权利要求1所述的一种基于相关性排序的专利检索系统,其特征在于,所述输入及检索式生成模块包括提供两种不同的检索方式,根据检索人员输入的检索词进行专利文档字段的匹配,自动生成检索式;根据检索式以及不同专利字段的检索规则,为每个字段设置不同的检索权重,分情况采用不分词搜索及多字段查询的跨字段搜索模式进行检索。
4.根据权利要求1所述的一种基于相关性排序的专利检索系统,其特征在于,所述检索及相关性排序模块中文档排序方法包括基于检索规则采用低成本的方式取出候选搜索结果后,结合专利领域特征,重建排名函数,对检索结果进行二次排序,将相关性分数较高专利置于检索结果前列。
5.根据权利要求1所述的一种基于相关性排序的专利检索系统,其特征在于,所述聚合模块包括采用桶聚合方法统计某机构或地区专利文档数据,然后聚合分析该机构或地区的知识产权情况;通过聚合分析某机构的重要竞争对手,减少人为干预;通过聚合分析智能推荐检索关键词。
6.一种基于相关性排序的专利检索方法,其特征在于,包括以下步骤:
步骤1)基于抓取到的专利数据及专利检索规则搭建一套用于专利检索的搜索引擎和用于输出专利详细信息的关系型数据库,定义不同的分词器将文本分析成索引词;
步骤2)检测和获取用户输入的检索关键词及检索方式,且根据检索关键字自动智能生成标准检索式;
步骤3)首先根据检索式采用粗粒度的方法检索专利数据,然后使用较精细的核心排序函数计算检索结果的相关性分数,进行二次排序,最终生成检索结果;
步骤4)聚合统计某机构或地区的近几年专利授权和公开情况,从而分析知识产权情况;
步骤5)向用户输出推荐检索关键字及检索结果。
7.根据权利要求6所述的一种基于相关性排序的专利检索方法,其特征在于,步骤3)的具体方法为:
3-1)首先将关系型数据库被分为多个同等大小的分片,每次检索都使用一个完整的分片处理;
3-2)一次评分:基于数据库中各个专利文档中token的协调因子、查询归一因子、词频、逆向文档频率、字段长度归一值,使用一个粗粒度的方式综合计算出每个文档的TF-IDF相关性评分,并将其作为一次评分,从而依据此次评分并行的从多个分片中取出候选结果;
3-3)从排名前几位的候选结果中结合专利领域的搜索特性,再使用成本较高的精细的排序函数(Core Ranking Function)再计算一次,得到最终的排序结果。
8.根据权利要求7所述的一种基于相关性排序的专利检索方法,其特征在于,步骤3-2)中的评分标准规则如下:
3-2-1) 按照生成的标准检索式进行第一次搜索,统计出结果中排名前十的关键字相关的信息及其在结果中所占比例;
3-2-2) 添加统计信息、排序方式及高亮等信息进行第二次搜索,取出每个分片中的前m个文档参与二次评分;
3-2-3)添加法律状态权重:有权为4分,实审为3分,公开为2分,无权及其他为1分;
3-2-4)添加关键字相关的信息权重:将S3-2-1统计出的n个关键字信息添加到二次评分查询中;
3-2-5) 按照比例将两次评分的结果乘以各自权重并相加,最终评分为:
Original_query_score(一次评分) * query_weight + rescore_query_score(二次评分) * rescore_query_weight。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910682137.2A CN110569273A (zh) | 2019-07-26 | 2019-07-26 | 一种基于相关性排序的专利检索系统及方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910682137.2A CN110569273A (zh) | 2019-07-26 | 2019-07-26 | 一种基于相关性排序的专利检索系统及方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110569273A true CN110569273A (zh) | 2019-12-13 |
Family
ID=68773215
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910682137.2A Pending CN110569273A (zh) | 2019-07-26 | 2019-07-26 | 一种基于相关性排序的专利检索系统及方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110569273A (zh) |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111651580A (zh) * | 2020-06-04 | 2020-09-11 | 天启黑马信息科技(北京)有限公司 | 一种用于文献检索的方法与设备 |
CN111858830A (zh) * | 2020-03-27 | 2020-10-30 | 北京梦天门科技股份有限公司 | 基于自然语言处理的卫生监督执法数据检索系统及其方法 |
CN112269816A (zh) * | 2020-11-10 | 2021-01-26 | 浪潮云信息技术股份公司 | 一种政务预约事项相关性检索方法 |
CN113127642A (zh) * | 2021-04-29 | 2021-07-16 | 广盟数据科技(上海)有限公司 | 文档可控式自动分类方法、装置、设备及存储介质 |
CN117251539A (zh) * | 2023-08-11 | 2023-12-19 | 北京中知智慧科技有限公司 | 使用生成式人工智能的专利智能检索系统 |
CN111651580B (zh) * | 2020-06-04 | 2024-05-03 | 天启黑马信息科技(北京)有限公司 | 一种用于文献检索的方法与设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425687A (zh) * | 2012-05-21 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种基于关键词的检索方法和系统 |
CN105069157A (zh) * | 2015-08-25 | 2015-11-18 | 长沙市麓智信息科技有限公司 | 基于检索式的专利检索系统 |
CN107748789A (zh) * | 2017-10-31 | 2018-03-02 | 清远恒成智道信息科技有限公司 | 专利检索系统 |
-
2019
- 2019-07-26 CN CN201910682137.2A patent/CN110569273A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103425687A (zh) * | 2012-05-21 | 2013-12-04 | 阿里巴巴集团控股有限公司 | 一种基于关键词的检索方法和系统 |
CN105069157A (zh) * | 2015-08-25 | 2015-11-18 | 长沙市麓智信息科技有限公司 | 基于检索式的专利检索系统 |
CN107748789A (zh) * | 2017-10-31 | 2018-03-02 | 清远恒成智道信息科技有限公司 | 专利检索系统 |
Non-Patent Citations (1)
Title |
---|
王丰: "智慧旅游中信息检索算法的研究和应用", 《中国优秀博硕士学位论文全文数据库(硕士)》 * |
Cited By (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111858830A (zh) * | 2020-03-27 | 2020-10-30 | 北京梦天门科技股份有限公司 | 基于自然语言处理的卫生监督执法数据检索系统及其方法 |
CN111858830B (zh) * | 2020-03-27 | 2023-11-14 | 北京梦天门科技股份有限公司 | 基于自然语言处理的卫生监督执法数据检索系统及其方法 |
CN111651580A (zh) * | 2020-06-04 | 2020-09-11 | 天启黑马信息科技(北京)有限公司 | 一种用于文献检索的方法与设备 |
CN111651580B (zh) * | 2020-06-04 | 2024-05-03 | 天启黑马信息科技(北京)有限公司 | 一种用于文献检索的方法与设备 |
CN112269816A (zh) * | 2020-11-10 | 2021-01-26 | 浪潮云信息技术股份公司 | 一种政务预约事项相关性检索方法 |
CN113127642A (zh) * | 2021-04-29 | 2021-07-16 | 广盟数据科技(上海)有限公司 | 文档可控式自动分类方法、装置、设备及存储介质 |
CN117251539A (zh) * | 2023-08-11 | 2023-12-19 | 北京中知智慧科技有限公司 | 使用生成式人工智能的专利智能检索系统 |
CN117251539B (zh) * | 2023-08-11 | 2024-04-02 | 北京中知智慧科技有限公司 | 使用生成式人工智能的专利智能检索系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US8095581B2 (en) | Computer-implemented patent portfolio analysis method and apparatus | |
CN110569273A (zh) | 一种基于相关性排序的专利检索系统及方法 | |
US7783620B1 (en) | Relevancy scoring using query structure and data structure for federated search | |
CN106372225B (zh) | 一种基于高价值对比库的信息处理装置及方法 | |
US10891700B2 (en) | Methods and computer-program products for searching patent-related documents using search term variants | |
CN106446071B (zh) | 信息处理装置及方法 | |
US20120290571A1 (en) | Evaluating Intellectual Property | |
US20080228752A1 (en) | Technical correlation analysis method for evaluating patents | |
CN104077407B (zh) | 一种智能数据搜索系统及方法 | |
CN109271477A (zh) | 一种借助互联网构建分类语料库的方法及系统 | |
CN105302793A (zh) | 一种利用计算机自动评价科技文献新颖性的方法 | |
US20110191335A1 (en) | Method and system for conducting legal research using clustering analytics | |
KR20180072167A (ko) | 유사특허 추출 시스템 및 그 방법 | |
CN111506727B (zh) | 文本内容类别获取方法、装置、计算机设备和存储介质 | |
KR102107474B1 (ko) | 크롤링을 통한 사회이슈 도출 시스템 및 그 도출 방법 | |
CN109471934B (zh) | 基于互联网的金融风险线索发掘方法 | |
Chopra et al. | A survey on improving the efficiency of different web structure mining algorithms | |
CN109918420B (zh) | 一种竞争对手推荐方法、服务器 | |
Yang et al. | Clustering of web search results based on combination of links and in-snippets | |
CN106919700A (zh) | 基于并行化cep处理的语义驱动犯罪线索实时推荐方法 | |
KR20040098889A (ko) | 웹사이트 검색 서비스 제공 방법 및 그 시스템 | |
CN112182184A (zh) | 一种基于审计数据库的精准匹配搜索方法 | |
Wang et al. | PRIS at TREC 2010: Related Entity Finding Task of Entity Track. | |
Kim et al. | A study on the construction of national R&D data-based customized information curation system | |
Gaur | Data mining and visualization on legal documents |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20191213 |
|
RJ01 | Rejection of invention patent application after publication |