CN111353023A - 一种基于关键词检索的目标数据库优化方法和装置 - Google Patents
一种基于关键词检索的目标数据库优化方法和装置 Download PDFInfo
- Publication number
- CN111353023A CN111353023A CN202010134837.0A CN202010134837A CN111353023A CN 111353023 A CN111353023 A CN 111353023A CN 202010134837 A CN202010134837 A CN 202010134837A CN 111353023 A CN111353023 A CN 111353023A
- Authority
- CN
- China
- Prior art keywords
- keyword
- database
- core
- number information
- classification number
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 61
- 238000005457 optimization Methods 0.000 title claims abstract description 51
- 238000012163 sequencing technique Methods 0.000 claims abstract description 8
- 238000004590 computer program Methods 0.000 claims description 13
- 238000003860 storage Methods 0.000 claims description 6
- 230000008569 process Effects 0.000 abstract description 23
- 238000012545 processing Methods 0.000 abstract description 18
- 230000000694 effects Effects 0.000 abstract description 6
- 238000010586 diagram Methods 0.000 description 10
- 238000010200 validation analysis Methods 0.000 description 10
- 230000006870 function Effects 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 6
- 239000002699 waste material Substances 0.000 description 4
- 238000011161 development Methods 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000001035 drying Methods 0.000 description 2
- 238000012827 research and development Methods 0.000 description 2
- 230000009471 action Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 239000000306 component Substances 0.000 description 1
- 239000008358 core component Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000013332 literature search Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000011144 upstream manufacturing Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/3332—Query translation
- G06F16/3334—Selection or weighting of terms from queries, including natural language queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/27—Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/338—Presentation of query results
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- Tourism & Hospitality (AREA)
- Computational Linguistics (AREA)
- Technology Law (AREA)
- Operations Research (AREA)
- Entrepreneurship & Innovation (AREA)
- Computing Systems (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Strategic Management (AREA)
- General Business, Economics & Management (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种基于关键词检索的目标数据库优化方法和装置,通过根据第一专利文献确定第一核心关键词获得第一专利数据库;根据第一核心关键词对第一专利数据库中各专利文献出现的频率排序;根据检索排序获得第一去噪指令,根据第一专利文献,获得第一分类号信息;根据第一分类号信息,获得第二分类号信息;利用第一、第二分类号信息对第二专利数据库进行检索,获得第四专利数据库;根据第四专利数据库,获得第一优化指令将所述第四专利数据库恢复至所述第三专利数据库中,解决需要依托专业人士进行专利检索处理分析,过程复杂存在检索结果不准确的技术问题。达到了自动检索去噪效验的全面优化过程,提高了检索结果的准确性的技术效果。
Description
技术领域
本发明涉及数据处理技术领域,尤其涉及一种基于关键词检索的目标数据库优化方法和装置。
背景技术
随着社会制度的不断发展与完善,专利文献数量的迅速增加,使得各国企业对于专利权的保护越来越重视。对于企业而言,如何从大量的专利文献中精确地检索并分析出满足自身需求的信息,对整个企业的发展至关重要。知识经济时代,知识产权作为一个企业乃至国家提供核心竞争力的战略资源,凸显出前所未有的重要性。专利含有大量的技术信息,用户通过对相关专利进行检索分析,可获知当前技术领域内的技术发展趋势,从而对后期研发提供方向,并可以规避侵权风险。专利文献检索是企业全面了解现有技术,提高研发起点,规避知识产权风险的基础工作。由于网上公开的原始专利数据信息不全、语言晦涩、冗长难懂,企业如果不掌握专业的检索方法和技能,检索存在困难。
但本发明申请人发现现有技术至少存在如下技术问题:
现有技术中需要依托专业人士进行专利检索处理分析,且过程复杂,存在检索结果不准确的技术问题。
发明内容
本发明实施例提供了一种基于关键词检索的目标数据库优化方法和装置,解决了现有技术中需要依托专业人士进行专利检索处理分析,且过程复杂,存在检索结果不准确的技术问题。
鉴于上述问题,提出了本申请实施例以便提供一种基于关键词检索的目标数据库优化方法和装置。
第一方面,本发明提供了一种基于关键词检索的目标数据库优化方法,所述方法包括:根据第一专利文献,确定第一核心关键词,并根据所述第一核心关键词从专利检索数据库中进行检索,获得第一专利数据库;根据所述第一核心关键词,对所述第一专利数据库中进行检索排序,获得所述第一核心关键词在所述第一专利数据库中的各专利文献出现的频率序列;根据所述检索排序,获得第一去噪指令,所述第一去噪指令用于根据预定条件对所述检索排序中不满足所述预定条件的第二专利数据库进行删除,获得第三专利数据库;根据所述第一专利文献,获得第一分类号信息;根据所述第一分类号信息,获得第二分类号信息;利用所述第一分类号信息、第二分类号信息对所述第二专利数据库进行检索,获得第四专利数据库;根据所述第四专利数据库,获得第一优化指令,所述第一优化指令用于将所述第四专利数据库恢复至所述第三专利数据库中,获得第五专利数据库为目标数据库。
优选的,所述根据第一专利文献,确定第一核心关键词,包括:根据所述第一专利文献,获得第一核心词、第二核心词,其中,所述第一核心词与第二核心词不同;根据所述第一核心词从所述专利检索数据库中检索,获得第六专利数据库;根据所述第二核心词从所述专利检索数据库中检索,获得第七专利数据库;根据所述第一分类号信息和第二分类号信息分别对所述第六专利数据库、第七专利数据库进行检索,获得第三数量占比、第四数量占比;根据所述第三数量占比、第四数量占比,分别判断是否满足第一预定条件,确定所述第一核心关键词。
优选的,所述根据所述第三数量占比、第四数量占比,分别判断是否满足第一预定条件,确定所述第一核心关键词,包括:判断所述第三数量占比是否满足所述第一预定条件,当所述第三数量占比满足所述第一预定条件时,将所述第一核心词确定为第一关键词;判断所述第四数量占比是否满足所述第一预定条件,当所述第四数量占比满足所述第一预定条件时,将所述第二核心词确定为第二关键词;根据所述第一关键词、第二关键词,判断所述第一关键词、第二关键词是否满足第一关联性;当所述第一关键词、第二关键词满足所述第一关联性时,将所述第一关键词、第二关键词确定为所述第一核心关键词。
优选的,所述判断所述第一关键词、第二关键词是否满足第一关联性之后,包括:当所述第一关键词、第二关键词不满足第一关联性时,根据所述第三数量占比、第四数量占比判断大小,当所述第三数量占比大于所述第四数量占比时,将所述第一关键词确定为所述第一核心关键词;当所述第四数量占比大于所述第三数量占比时,将所述第二关键词确定为所述第一核心关键词。
优选的,所述根据所述第一分类号信息,获得第二分类号信息,包括:根据所述第一分类号信息,获得第一属性;获得第二关联性;根据所述第一属性、第二关联性,获得所述第二分类号信息。
第二方面,本发明提供了一种基于关键词检索的目标数据库优化装置,所述装置包括:
第一获得单元,所述第一获得单元用于根据第一专利文献,确定第一核心关键词,并根据所述第一核心关键词从专利检索数据库中进行检索,获得第一专利数据库;
第二获得单元,所述第二获得单元用于根据所述第一核心关键词,对所述第一专利数据库中进行检索排序,获得所述第一核心关键词在所述第一专利数据库中的各专利文献出现的频率序列;
第三获得单元,所述第三获得单元用于根据所述检索排序,获得第一去噪指令,所述第一去噪指令用于根据预定条件对所述检索排序中不满足所述预定条件的第二专利数据库进行删除,获得第三专利数据库;
第四获得单元,所述第四获得单元用于根据所述第一专利文献,获得第一分类号信息;
第五获得单元,所述第五获得单元用于根据所述第一分类号信息,获得第二分类号信息;
第六获得单元,所述第六获得单元用于利用所述第一分类号信息、第二分类号信息对所述第二专利数据库进行检索,获得第四专利数据库;
第一执行单元,所述第一执行单元用于根据所述第四专利数据库,获得第一优化指令,所述第一优化指令用于将所述第四专利数据库恢复至所述第三专利数据库中,获得第五专利数据库为目标数据库。
优选的,所述装置还包括:
第七获得单元,所述第七获得单元用于根据所述第一专利文献,获得第一核心词、第二核心词,其中,所述第一核心词与第二核心词不同;
第八获得单元,所述第八获得单元用于根据所述第一核心词从所述专利检索数据库中检索,获得第六专利数据库;
第九获得单元,所述第九获得单元用于根据所述第二核心词从所述专利检索数据库中检索,获得第七专利数据库;
第十获得单元,所述第十获得单元用于根据所述第一分类号信息和第二分类号信息分别对所述第六专利数据库、第七专利数据库进行检索,获得第三数量占比、第四数量占比;
第一确定单元,所述第一确定单元用于根据所述第三数量占比、第四数量占比,分别判断是否满足第一预定条件,确定所述第一核心关键词。
优选的,所述装置还包括:
第二执行单元,所述第二执行单元用于判断所述第三数量占比是否满足所述第一预定条件,当所述第三数量占比满足所述第一预定条件时,将所述第一核心词确定为第一关键词;
第三执行单元,所述第三执行单元用于所述第四数量占比是否满足所述第一预定条件,当所述第四数量占比满足所述第一预定条件时,将所述第二核心词确定为第二关键词;
第一判断单元,所述第一判断单元用于根据所述第一关键词、第二关键词,判断所述第一关键词、第二关键词是否满足第一关联性;
第二确定单元,所述第二确定单元用于当所述第一关键词、第二关键词满足所述第一关联性时,将所述第一关键词、第二关键词确定为所述第一核心关键词。
优选的,所述装置还包括:
第四执行单元,所述第四执行单元用于当所述第一关键词、第二关键词不满足第一关联性时,根据所述第三数量占比、第四数量占比判断大小,当所述第三数量占比大于所述第四数量占比时,将所述第一关键词确定为所述第一核心关键词;
第五执行单元,所述第五执行单元用于当所述第四数量占比大于所述第三数量占比时,将所述第二关键词确定为所述第一核心关键词。
优选的,所述装置还包括:
第十一获得单元,所述第十一获得单元用于根据所述第一分类号信息,获得第一属性;
第十二获得单元,所述第十二获得单元用于获得第二关联性;
第十三获得单元,所述第十三获得单元用于根据所述第一属性、第二关联性,获得所述第二分类号信息。
第三方面,本发明提供了一种基于关键词检索的目标数据库优化装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述任一项所述方法的步骤。
第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述任一项所述方法的步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明实施例提供的一种基于关键词检索的目标数据库优化方法和装置,通过根据第一专利文献,确定第一核心关键词,并根据所述第一核心关键词从专利检索数据库中进行检索,获得第一专利数据库;根据所述第一核心关键词,对所述第一专利数据库中进行检索排序,获得所述第一核心关键词在所述第一专利数据库中的各专利文献出现的频率序列;根据所述检索排序,获得第一去噪指令,所述第一去噪指令用于根据预定条件对所述检索排序中不满足所述预定条件的第二专利数据库进行删除,获得第三专利数据库;根据所述第一专利文献,获得第一分类号信息;根据所述第一分类号信息,获得第二分类号信息;利用所述第一分类号信息、第二分类号信息对所述第二专利数据库进行检索,获得第四专利数据库;根据所述第四专利数据库,获得第一优化指令,所述第一优化指令用于将所述第四专利数据库恢复至所述第三专利数据库中,获得第五专利数据库为目标数据库。通过对检索过程中关键词的深度分析,对检索结果的自动去噪和利用分类号信息的效验过程,实现自动检索去噪效验的全面优化过程,提高了检索结果的准确性,为企业对专利文献的检索分析提高有力支撑,避免了人工检索的繁琐性及缺乏完整的优化过程,或人工操作费时费力的情况,解决了现有技术中需要依托专业人士进行专利检索处理分析,且过程复杂,存在检索结果不准确的技术问题。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1为本发明实施例中一种基于关键词检索的目标数据库优化方法的流程示意图;
图2为本发明实施例中一种基于关键词检索的目标数据库优化装置的结构示意图;
图3为本发明实施例中另一种基于关键词检索的目标数据库优化装置的结构示意图。
附图标记说明:第一获得单元11,第二获得单元12,第三获得单元13,第四获得单元14,第五获得单元15,第六获得单元16,第一执行单元17,总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本发明实施例提供了一种基于关键词检索的目标数据库优化方法和装置,用于解决现有技术中需要依托专业人士进行专利检索处理分析,且过程复杂,存在检索结果不准确的技术问题。
本发明提供的技术方案总体思路如下:
根据第一专利文献,确定第一核心关键词,并根据所述第一核心关键词从专利检索数据库中进行检索,获得第一专利数据库;根据所述第一核心关键词,对所述第一专利数据库中进行检索排序,获得所述第一核心关键词在所述第一专利数据库中的各专利文献出现的频率序列;根据所述检索排序,获得第一去噪指令,所述第一去噪指令用于根据预定条件对所述检索排序中不满足所述预定条件的第二专利数据库进行删除,获得第三专利数据库;根据所述第一专利文献,获得第一分类号信息;根据所述第一分类号信息,获得第二分类号信息;利用所述第一分类号信息、第二分类号信息对所述第二专利数据库进行检索,获得第四专利数据库;根据所述第四专利数据库,获得第一优化指令,所述第一优化指令用于将所述第四专利数据库恢复至所述第三专利数据库中,获得第五专利数据库为目标数据库。通过对检索过程中关键词的深度分析,对检索结果的自动去噪和利用分类号信息的效验过程,实现自动检索去噪效验的全面优化过程,提高了检索结果的准确性,为企业对专利文献的检索分析提高有力支撑,避免了人工检索的繁琐性及缺乏完整的优化过程,或人工操作费时费力的情况,解决了现有技术中需要依托专业人士进行专利检索处理分析,且过程复杂,存在检索结果不准确的技术问题。
应理解,本发明实施例中,所述专利分类号是惟一国际通用的专利文献分类和检索工具,为世界各国所必备。问世的30多年里,IPC对于海量专利文献的组织、管理和检索,做出了不可磨灭的贡献。我国使用专利文献分类号为国际专利分类方式,采用IPC分类号,为功能和应用相结合,以功能性为主、应用性为辅的分类原则。采用等级的形式,将技术内容注明:部——分部——大类——小类——大组——小组,逐级分类形成完整的分类体系。依据某一种产品的国际分类,就可以很容易的检索出本产品所属技术领域的专利信息了。发明和实用新型专利申请的专利分类号是采用IPC国际专利分类表对进行标识。同一专利可能具有若干个分类号时,其中第一个称为主分类号。如,一件发明专利申请或者实用新型专利申请涉及不同类型的技术主题,并且这些技术主题构成发明信息时,则应当根据所涉及的技术主题进行多重分类,给出多个分类号,将最能充分代表发明信息的分类号排在第一位。分类表是使各国专利文献获得统一分类的一种工具。它的基本目的是作为各专利局以及其它使用者在确定专利申请的新颖性、创造性(包括对技术先进性和实用价值作出评价)而进行的专利文献检索时的一种有效检索工具。
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
图1为本发明实施例中一种基于关键词检索的目标数据库优化方法的流程示意图。如图1所示,本发明实施例提供了一种基于关键词检索的目标数据库优化方法,所述方法包括:
步骤110:根据第一专利文献,确定第一核心关键词,并根据所述第一核心关键词从专利检索数据库中进行检索,获得第一专利数据库。
进一步的,所述根据第一专利文献,确定第一核心关键词,包括:根据所述第一专利文献,获得第一核心词、第二核心词,其中,所述第一核心词与第二核心词不同;根据所述第一核心词从所述专利检索数据库中检索,获得第六专利数据库;根据所述第二核心词从所述专利检索数据库中检索,获得第七专利数据库;根据所述第一分类号信息和第二分类号信息分别对所述第六专利数据库、第七专利数据库进行检索,获得第三数量占比、第四数量占比;根据所述第三数量占比、第四数量占比,分别判断是否满足第一预定条件,确定所述第一核心关键词。
进一步的,所述根据所述第三数量占比、第四数量占比,分别判断是否满足第一预定条件,确定所述第一核心关键词,包括:判断所述第三数量占比是否满足所述第一预定条件,当所述第三数量占比满足所述第一预定条件时,将所述第一核心词确定为第一关键词;判断所述第四数量占比是否满足所述第一预定条件,当所述第四数量占比满足所述第一预定条件时,将所述第二核心词确定为第二关键词;根据所述第一关键词、第二关键词,判断所述第一关键词、第二关键词是否满足第一关联性;当所述第一关键词、第二关键词满足所述第一关联性时,将所述第一关键词、第二关键词确定为所述第一核心关键词。
进一步的,所述判断所述第一关键词、第二关键词是否满足第一关联性之后,包括:当所述第一关键词、第二关键词不满足第一关联性时,根据所述第三数量占比、第四数量占比判断大小,当所述第三数量占比大于所述第四数量占比时,将所述第一关键词确定为所述第一核心关键词;当所述第四数量占比大于所述第三数量占比时,将所述第二关键词确定为所述第一核心关键词。
具体而言,根据第一专利文献的内容、主题等具体内容进行分析,从中确定其中的核心描述词,如主题内容、权利要求中保护的主要发明点、核心部件等等,根据对核心词语的分析判断,从中确定出能够提高检索结果的关键词,其中核心词可以为多个,通过利用核心词分别进行检索,得到各自核心词对应的检索数据库,再分别对各自的检索数据库结果进行分析,从中确定检索结果更为接近检索要求的数据库,则该数据库对应的核心词则可以作为检索关键词,准确进行关键词确定,提高检索结果的效果。也就是说,利用专利文献的内容分析确定出其中描述的或者需要保护的核心描述词,分别从检索平台等检索数据库中进行自动检索,获得了对应的数据库,利用第一专利文献即待检索到专利文献的分类号信息进行评价,当第一核心词检索出的数据库中满足分类号要求的专利文献数量达到了预定要求,则认为第一核心词为符合要求的关键词,同理对其他的核心词第二核心词分别进行检索,获得对应的专利数据库,再进行分类号的验证,若其检索数据库中的专利文献的分类号信息与第一专利文献的分类号信息相同或者相近的专利数量满足预定条件,该预定条件为数量占比达到要求,通常预定条件应至少一半以上,或者更多,如70%等等,以表示该核心词的检索结果满足要求,则对应的核心词也满足检索关键词的要求,在经过分类号信息对核心词检索结果的验证后,若有多个核心词均满足要求时,可以设定多个检索关键词进行检索,另外,为了检索结果的统一性和可靠性,还可以对多个核心词进行词义、功能、用途等属性的分析,若确定的核心词满足属性的第一关联性要求,该第一关联性要求为两个核心词接近,或者可以能够进行替换为宜。当确定的核心词均满足分类号数量的要求,也满足之间第一关联性的要求,则将第一核心词即第一关键词、第二核心词即第二关键词均设定为检索关键词即第一核心关键词,当第一关键词与第二关键词不满足第一关联性,即两个核心词的属性含义差距较大,不能进行替换时,对第一核心词、第二核心词的专利数据库中符合分类号信息要求的专利数量进行比较,哪个符合分类号要求的专利文献的专利文献数量多的,或者哪个符合分类号要求的专利文献的专利文献占检索数据库中比例较大的对应核心词作为最终的第一核心关键词进行检索,获得第一专利数据库,所述第一数据库为现有技术中与第一核心关键词相关的所有专利文献的集合,包括题目、内容中出现过第一核心关键词的所有专利文献。通过核心词与分类号信息的有效结合,对检索关键词实现有效评定,从中确定更为准确、核心的检索关键词进行目标检索处理,提高检索结果的准确性。
步骤120:根据所述第一核心关键词,对所述第一专利数据库中进行检索排序,获得所述第一核心关键词在所述第一专利数据库中的各专利文献出现的频率序列。
具体而言,根据第一核心关键词,检索获得的第一专利数据库中包含了现有技术中心有关第一核心关键词的所有专利文献,其中有出现在主题的,也有出现在权利要求书中的,也有出现在说明书的,可能是专利文献的核心点,也可能只是举例或者相关提了一下,为了对检索结果进行分析,本发明实施例利用在第一专利数据库中出现的第一核心关键词的频率作为评价标准,当在专利文献中出现的频率较多的,则与第一核心关键词的关联性较大,当然也可以根据出现的位置进行处理,或者利用出现位置与出现频率进行综合评定,以出现频率为例,以第一核心关键词出现频率为主要评价指标的,则按照出现的次数进行排序,当排序为从高至低的顺序时,选取前面一定数量的专利文献,若排序为从低至高的顺序时,则选取从后面数一定数量的专利文献。另外还可以结合出现的位置进行综合评定,由于出现的位置不同,该核心关键词的作用和对专利文献的贡献程度不同,如标题、权利要求书、说明书中等,这几部分的分量存在不同,可以按照出现的位置的重要程度进行占比设定,如标题和权利要求书中出现则占比较大,在说明书出现则占比较小,在结合在其中出现的次数进行加权处理,得到各专利文献关于第一核心关键词出现的分值,对分值进行排序。
步骤130:根据所述检索排序,获得第一去噪指令,所述第一去噪指令用于根据预定条件对所述检索排序中不满足所述预定条件的第二专利数据库进行删除,获得第三专利数据库。
具体而言,将第一专利数据库中的所有专利文献按照第一核心关键词出现的频率进行检索排序,并确定预定条件,该预定条件为出现频率次数的要求,如需要出现次数不少于5次,或者出现分值大于20%等等,根据用户的检索要求,或者根据第一专利文献的具体内容,再或者根据检索的目的等等设定对应的预定条件,按照预定条件对第一专利数据库进行去噪处理,将从中不满足预定条件的专利文献进行提取构成第二专利数据库,第二专利数据库为去燥过程中认定不符合检索要求的专利文献集合,将第二专利数据库从第一专利数据库中删除,获得第三专利数据库。
另外还可以利用第一分类号信息、第二分类号信息对第三专利数据库内的专利文献进行再次去噪,以提高检索数据库的准确性,提高目标数据库中专利的有效性,这个适合专利深度分析研究的需要,对检索结果准确性要求较高的情况。
步骤140:根据所述第一专利文献,获得第一分类号信息。
步骤150:根据所述第一分类号信息,获得第二分类号信息。
进一步的,所述根据所述第一分类号信息,获得第二分类号信息,包括:根据所述第一分类号信息,获得第一属性;获得第二关联性;根据所述第一属性、第二关联性,获得所述第二分类号信息。
具体而言,本发明实施例还具有优化检索结果的功能,主要针对去燥过程中存在错误操作,造成部分符合检索要求的专利文献由于去燥处理而被删除,针对这个问题,利用第一专利文献的分类号信息进行效验,由于第一专利数据库和第二专利数据库均为按照关键词进行检索和去噪处理,其中不乏有出现该关键词但是与第一专利文献的内容差距较大的,不是同一类的专利,使用领域、内容均差距较大的情况,因而利用第一专利文献的分类号信息进行效验,根据第一专利文献获得第一分类号信息,根据第一分类号信息确定其具体属性,还可以结合第一核心关键词进行属性评价,然后利用第一属性和第二关联性,获得与第一分类号信息满足第二关联性的其他的第二分类号信息,以提高检索结果的准确性,第二关联性要求即两个分类号信息为同领域的,或者技术效果、技术方案接近的满足检索要求的分类号信息,或者可以相互代替或者相关联的分类号,再或者是上下游等等,通过确定的第一分类号信息和关联性要求来确定第二分类号信息。
步骤160:利用所述第一分类号信息、第二分类号信息对所述第二专利数据库进行检索,获得第四专利数据库。
步骤170:根据所述第四专利数据库,获得第一优化指令,所述第一优化指令用于将所述第四专利数据库恢复至所述第三专利数据库中,获得第五专利数据库为目标数据库。
具体而言,通过确定的第一分类号信息和第二分类号信息对删除的第二专利数据库内的专利文献进行效验,将符合要求的专利文献进行恢复,根据第一分类号信息、第二分类号信息对第二专利数据库中的专利文献进行筛选,获得其中符合第一分类号信息、第二分类号信息的专利文献为第四专利数据库,将第四专利数据库恢复至第三专利数据库中形成第五专利数据库,将第五专利数据库作为目标数据库。通过对检索过程中关键词的深度分析,对检索结果的自动去噪和利用分类号信息的效验过程,实现自动检索去噪效验的全面优化过程,提高了检索结果的准确性,为企业对专利文献的检索分析提高有力支撑,避免了人工检索的繁琐性及缺乏完整的优化过程,或人工操作费时费力的情况,解决了现有技术中需要依托专业人士进行专利检索处理分析,且过程复杂,存在检索结果不准确的技术问题。
实施例二
基于与前述实施例中一种基于关键词检索的目标数据库优化方法同样的发明构思,本发明还提供一种基于关键词检索的目标数据库优化方法装置,如图2所示,所述装置包括:
第一获得单元11,所述第一获得单元11用于根据第一专利文献,确定第一核心关键词,并根据所述第一核心关键词从专利检索数据库中进行检索,获得第一专利数据库;
第二获得单元12,所述第二获得单元12用于根据所述第一核心关键词,对所述第一专利数据库中进行检索排序,获得所述第一核心关键词在所述第一专利数据库中的各专利文献出现的频率序列;
第三获得单元13,所述第三获得单元13用于根据所述检索排序,获得第一去噪指令,所述第一去噪指令用于根据预定条件对所述检索排序中不满足所述预定条件的第二专利数据库进行删除,获得第三专利数据库;
第四获得单元14,所述第四获得单元14用于根据所述第一专利文献,获得第一分类号信息;
第五获得单元15,所述第五获得单元15用于根据所述第一分类号信息,获得第二分类号信息;
第六获得单元16,所述第六获得单元16用于利用所述第一分类号信息、第二分类号信息对所述第二专利数据库进行检索,获得第四专利数据库;
第一执行单元17,所述第一执行单元17用于根据所述第四专利数据库,获得第一优化指令,所述第一优化指令用于将所述第四专利数据库恢复至所述第三专利数据库中,获得第五专利数据库为目标数据库。
进一步的,所述装置还包括:
第七获得单元,所述第七获得单元用于根据所述第一专利文献,获得第一核心词、第二核心词,其中,所述第一核心词与第二核心词不同;
第八获得单元,所述第八获得单元用于根据所述第一核心词从所述专利检索数据库中检索,获得第六专利数据库;
第九获得单元,所述第九获得单元用于根据所述第二核心词从所述专利检索数据库中检索,获得第七专利数据库;
第十获得单元,所述第十获得单元用于根据所述第一分类号信息和第二分类号信息分别对所述第六专利数据库、第七专利数据库进行检索,获得第三数量占比、第四数量占比;
第一确定单元,所述第一确定单元用于根据所述第三数量占比、第四数量占比,分别判断是否满足第一预定条件,确定所述第一核心关键词。
进一步的,所述装置还包括:
第二执行单元,所述第二执行单元用于判断所述第三数量占比是否满足所述第一预定条件,当所述第三数量占比满足所述第一预定条件时,将所述第一核心词确定为第一关键词;
第三执行单元,所述第三执行单元用于所述第四数量占比是否满足所述第一预定条件,当所述第四数量占比满足所述第一预定条件时,将所述第二核心词确定为第二关键词;
第一判断单元,所述第一判断单元用于根据所述第一关键词、第二关键词,判断所述第一关键词、第二关键词是否满足第一关联性;
第二确定单元,所述第二确定单元用于当所述第一关键词、第二关键词满足所述第一关联性时,将所述第一关键词、第二关键词确定为所述第一核心关键词。
进一步的,所述装置还包括:
第四执行单元,所述第四执行单元用于当所述第一关键词、第二关键词不满足第一关联性时,根据所述第三数量占比、第四数量占比判断大小,当所述第三数量占比大于所述第四数量占比时,将所述第一关键词确定为所述第一核心关键词;
第五执行单元,所述第五执行单元用于当所述第四数量占比大于所述第三数量占比时,将所述第二关键词确定为所述第一核心关键词。
进一步的,所述装置还包括:
第十一获得单元,所述第十一获得单元用于根据所述第一分类号信息,获得第一属性;
第十二获得单元,所述第十二获得单元用于获得第二关联性;
第十三获得单元,所述第十三获得单元用于根据所述第一属性、第二关联性,获得所述第二分类号信息。
前述图1实施例一中的一种基于关键词检索的目标数据库优化方法的各种变化方式和具体实例同样适用于本实施例的一种基于关键词检索的目标数据库优化装置,通过前述对一种基于关键词检索的目标数据库优化方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于关键词检索的目标数据库优化装置的实施方法,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例中一种基于关键词检索的目标数据库优化方法同样的发明构思,本发明还提供一种基于关键词检索的目标数据库优化装置,如图3所示,包括存储器304、处理器302及存储在存储器304上并可在处理器302上运行的计算机程序,所述处理器302执行所述程序时实现前文所述一种基于关键词检索的目标数据库优化方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
实施例四
基于与前述实施例中一种基于关键词检索的目标数据库优化方法同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以下步骤:根据第一专利文献,确定第一核心关键词,并根据所述第一核心关键词从专利检索数据库中进行检索,获得第一专利数据库;根据所述第一核心关键词,对所述第一专利数据库中进行检索排序,获得所述第一核心关键词在所述第一专利数据库中的各专利文献出现的频率序列;根据所述检索排序,获得第一去噪指令,所述第一去噪指令用于根据预定条件对所述检索排序中不满足所述预定条件的第二专利数据库进行删除,获得第三专利数据库;根据所述第一专利文献,获得第一分类号信息;根据所述第一分类号信息,获得第二分类号信息;利用所述第一分类号信息、第二分类号信息对所述第二专利数据库进行检索,获得第四专利数据库;根据所述第四专利数据库,获得第一优化指令,所述第一优化指令用于将所述第四专利数据库恢复至所述第三专利数据库中,获得第五专利数据库为目标数据库。通过对检索过程中关键词的深度分析,对检索结果的自动去噪和利用分类号信息的效验过程,实现自动检索去噪效验的全面优化过程,提高了检索结果的准确性,为企业对专利文献的检索分析提高有力支撑,避免了人工检索的繁琐性及缺乏完整的优化过程,或人工操作费时费力的情况,解决了现有技术中需要依托专业人士进行专利检索处理分析,且过程复杂,存在检索结果不准确的技术问题。
在具体实施过程中,该程序被处理器执行时,还可以实现实施例一中的任一方法步骤。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本发明实施例提供的一种基于关键词检索的目标数据库优化方法和装置,通过根据第一专利文献,确定第一核心关键词,并根据所述第一核心关键词从专利检索数据库中进行检索,获得第一专利数据库;根据所述第一核心关键词,对所述第一专利数据库中进行检索排序,获得所述第一核心关键词在所述第一专利数据库中的各专利文献出现的频率序列;根据所述检索排序,获得第一去噪指令,所述第一去噪指令用于根据预定条件对所述检索排序中不满足所述预定条件的第二专利数据库进行删除,获得第三专利数据库;根据所述第一专利文献,获得第一分类号信息;根据所述第一分类号信息,获得第二分类号信息;利用所述第一分类号信息、第二分类号信息对所述第二专利数据库进行检索,获得第四专利数据库;根据所述第四专利数据库,获得第一优化指令,所述第一优化指令用于将所述第四专利数据库恢复至所述第三专利数据库中,获得第五专利数据库为目标数据库。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (10)
1.一种基于关键词检索的目标数据库优化方法,其特征在于,所述方法包括:
根据第一专利文献,确定第一核心关键词,并根据所述第一核心关键词从专利检索数据库中进行检索,获得第一专利数据库;
根据所述第一核心关键词,对所述第一专利数据库中进行检索排序,获得所述第一核心关键词在所述第一专利数据库中的各专利文献出现的频率序列;
根据所述检索排序,获得第一去噪指令,所述第一去噪指令用于根据预定条件对所述检索排序中不满足所述预定条件的第二专利数据库进行删除,获得第三专利数据库;
根据所述第一专利文献,获得第一分类号信息;
根据所述第一分类号信息,获得第二分类号信息;
利用所述第一分类号信息、第二分类号信息对所述第二专利数据库进行检索,获得第四专利数据库;
根据所述第四专利数据库,获得第一优化指令,所述第一优化指令用于将所述第四专利数据库恢复至所述第三专利数据库中,获得第五专利数据库为目标数据库。
2.如权利要求1所述的方法,其特征在于,所述根据第一专利文献,确定第一核心关键词,包括:
根据所述第一专利文献,获得第一核心词、第二核心词,其中,所述第一核心词与第二核心词不同;
根据所述第一核心词从所述专利检索数据库中检索,获得第六专利数据库;
根据所述第二核心词从所述专利检索数据库中检索,获得第七专利数据库;
根据所述第一分类号信息和第二分类号信息分别对所述第六专利数据库、第七专利数据库进行检索,获得第三数量占比、第四数量占比;
根据所述第三数量占比、第四数量占比,分别判断是否满足第一预定条件,确定所述第一核心关键词。
3.如权利要求2所述的方法,其特征在于,所述根据所述第三数量占比、第四数量占比,分别判断是否满足第一预定条件,确定所述第一核心关键词,包括:
判断所述第三数量占比是否满足所述第一预定条件,当所述第三数量占比满足所述第一预定条件时,将所述第一核心词确定为第一关键词;
判断所述第四数量占比是否满足所述第一预定条件,当所述第四数量占比满足所述第一预定条件时,将所述第二核心词确定为第二关键词;
根据所述第一关键词、第二关键词,判断所述第一关键词、第二关键词是否满足第一关联性;
当所述第一关键词、第二关键词满足所述第一关联性时,将所述第一关键词、第二关键词确定为所述第一核心关键词。
4.如权利要求3所述的方法,其特征在于,所述判断所述第一关键词、第二关键词是否满足第一关联性之后,包括:
当所述第一关键词、第二关键词不满足第一关联性时,根据所述第三数量占比、第四数量占比判断大小,当所述第三数量占比大于所述第四数量占比时,将所述第一关键词确定为所述第一核心关键词;
当所述第四数量占比大于所述第三数量占比时,将所述第二关键词确定为所述第一核心关键词。
5.如权利要求1所述的方法,其特征在于,所述根据所述第一分类号信息,获得第二分类号信息,包括:
根据所述第一分类号信息,获得第一属性;
获得第二关联性;
根据所述第一属性、第二关联性,获得所述第二分类号信息。
6.一种基于关键词检索的目标数据库优化装置,其特征在于,所述装置包括:
第一获得单元,所述第一获得单元用于根据第一专利文献,确定第一核心关键词,并根据所述第一核心关键词从专利检索数据库中进行检索,获得第一专利数据库;
第二获得单元,所述第二获得单元用于根据所述第一核心关键词,对所述第一专利数据库中进行检索排序,获得所述第一核心关键词在所述第一专利数据库中的各专利文献出现的频率序列;
第三获得单元,所述第三获得单元用于根据所述检索排序,获得第一去噪指令,所述第一去噪指令用于根据预定条件对所述检索排序中不满足所述预定条件的第二专利数据库进行删除,获得第三专利数据库;
第四获得单元,所述第四获得单元用于根据所述第一专利文献,获得第一分类号信息;
第五获得单元,所述第五获得单元用于根据所述第一分类号信息,获得第二分类号信息;
第六获得单元,所述第六获得单元用于利用所述第一分类号信息、第二分类号信息对所述第二专利数据库进行检索,获得第四专利数据库;
第一执行单元,所述第一执行单元用于根据所述第四专利数据库,获得第一优化指令,所述第一优化指令用于将所述第四专利数据库恢复至所述第三专利数据库中,获得第五专利数据库为目标数据库。
7.如权利要求6所述的装置,其特征在于,所述装置还包括:
第七获得单元,所述第七获得单元用于根据所述第一专利文献,获得第一核心词、第二核心词,其中,所述第一核心词与第二核心词不同;
第八获得单元,所述第八获得单元用于根据所述第一核心词从所述专利检索数据库中检索,获得第六专利数据库;
第九获得单元,所述第九获得单元用于根据所述第二核心词从所述专利检索数据库中检索,获得第七专利数据库;
第十获得单元,所述第十获得单元用于根据所述第一分类号信息和第二分类号信息分别对所述第六专利数据库、第七专利数据库进行检索,获得第三数量占比、第四数量占比;
第一确定单元,所述第一确定单元用于根据所述第三数量占比、第四数量占比,分别判断是否满足第一预定条件,确定所述第一核心关键词。
8.如权利要求7所述的装置,其特征在于,所述装置还包括:
第二执行单元,所述第二执行单元用于判断所述第三数量占比是否满足所述第一预定条件,当所述第三数量占比满足所述第一预定条件时,将所述第一核心词确定为第一关键词;
第三执行单元,所述第三执行单元用于所述第四数量占比是否满足所述第一预定条件,当所述第四数量占比满足所述第一预定条件时,将所述第二核心词确定为第二关键词;
第一判断单元,所述第一判断单元用于根据所述第一关键词、第二关键词,判断所述第一关键词、第二关键词是否满足第一关联性;
第二确定单元,所述第二确定单元用于当所述第一关键词、第二关键词满足所述第一关联性时,将所述第一关键词、第二关键词确定为所述第一核心关键词。
9.一种基于关键词检索的目标数据库优化装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-5任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-5任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010134837.0A CN111353023A (zh) | 2020-03-02 | 2020-03-02 | 一种基于关键词检索的目标数据库优化方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010134837.0A CN111353023A (zh) | 2020-03-02 | 2020-03-02 | 一种基于关键词检索的目标数据库优化方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111353023A true CN111353023A (zh) | 2020-06-30 |
Family
ID=71195936
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010134837.0A Withdrawn CN111353023A (zh) | 2020-03-02 | 2020-03-02 | 一种基于关键词检索的目标数据库优化方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111353023A (zh) |
-
2020
- 2020-03-02 CN CN202010134837.0A patent/CN111353023A/zh not_active Withdrawn
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN109240901B (zh) | 性能分析方法、性能分析装置、存储介质和电子设备 | |
CN108829858B (zh) | 数据查询方法、装置及计算机可读存储介质 | |
CN106649260B (zh) | 基于评论文本挖掘的产品特征结构树构建方法 | |
US10152514B2 (en) | System for computerized evaluation of patent-related information | |
JP2016532173A (ja) | 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム | |
CN106649557B (zh) | 一种缺陷报告与邮件列表语义关联挖掘方法 | |
CN110442847B (zh) | 基于代码仓库过程管理的代码相似性检测方法及装置 | |
US20060080295A1 (en) | Document searching system | |
JPH11102377A (ja) | データベースからドキュメントを検索する方法および装置 | |
CN111737608A (zh) | 企业信息检索结果排序方法及装置 | |
Barbosa et al. | An approach to clustering and sequencing of textual requirements | |
CN109344400A (zh) | 一种文献入库的判断方法和装置 | |
Yuan et al. | A mathematical information retrieval system based on RankBoost | |
CN111444312A (zh) | 一种多平台联合检索专利的方法和装置 | |
Revindasari et al. | Traceability between business process and software component using Probabilistic Latent Semantic Analysis | |
CN111353023A (zh) | 一种基于关键词检索的目标数据库优化方法和装置 | |
CN111274364A (zh) | 一种基于关键字检索数据的自动去噪方法和装置 | |
CN113761213B (zh) | 一种基于知识图谱的数据查询系统、方法及终端设备 | |
CN111274229A (zh) | 一种检索数据去噪结果的校验方法和装置 | |
Mashina | Application of statistical methods to solve the problem of enriching ontologies of developing subject areas | |
CN111368055A (zh) | 一种专利数据库联合企业信息平台的检索方法和装置 | |
CN111339243A (zh) | 一种基于竞品信息的检索数据去噪校验方法和装置 | |
CN111309895A (zh) | 一种检索数据的自动去噪方法和装置 | |
CN111368062A (zh) | 一种专利检索数据库去噪的校验方法和装置 | |
CN111324726A (zh) | 一种专利数据库自动去燥的方法和装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20200630 |
|
WW01 | Invention patent application withdrawn after publication |