CN109325099A - 一种自动检索的方法和装置 - Google Patents
一种自动检索的方法和装置 Download PDFInfo
- Publication number
- CN109325099A CN109325099A CN201811084153.3A CN201811084153A CN109325099A CN 109325099 A CN109325099 A CN 109325099A CN 201811084153 A CN201811084153 A CN 201811084153A CN 109325099 A CN109325099 A CN 109325099A
- Authority
- CN
- China
- Prior art keywords
- document
- similarity
- retrieval
- target
- database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Withdrawn
Links
- 238000000034 method Methods 0.000 title claims abstract description 51
- 238000004458 analytical method Methods 0.000 claims abstract description 37
- 238000004590 computer program Methods 0.000 claims description 10
- 238000007689 inspection Methods 0.000 abstract description 19
- 230000000694 effects Effects 0.000 abstract description 11
- 238000001514 detection method Methods 0.000 abstract description 4
- 238000010586 diagram Methods 0.000 description 10
- 238000005516 engineering process Methods 0.000 description 7
- 230000008569 process Effects 0.000 description 6
- 238000012545 processing Methods 0.000 description 6
- 238000013132 cardiothoracic surgery Methods 0.000 description 5
- 239000000463 material Substances 0.000 description 5
- 235000013399 edible fruits Nutrition 0.000 description 4
- 230000006870 function Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 238000012546 transfer Methods 0.000 description 3
- 239000004698 Polyethylene Substances 0.000 description 1
- 230000001174 ascending effect Effects 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000010835 comparative analysis Methods 0.000 description 1
- 230000008676 import Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- -1 polyethylene Polymers 0.000 description 1
- 229920000573 polyethylene Polymers 0.000 description 1
- 230000002980 postoperative effect Effects 0.000 description 1
- 230000009885 systemic effect Effects 0.000 description 1
- 229920005992 thermoplastic resin Polymers 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
- G06Q50/184—Intellectual property management
Landscapes
- Business, Economics & Management (AREA)
- Engineering & Computer Science (AREA)
- Technology Law (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Primary Health Care (AREA)
- Health & Medical Sciences (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- Human Resources & Organizations (AREA)
- Marketing (AREA)
- Operations Research (AREA)
- Strategic Management (AREA)
- Physics & Mathematics (AREA)
- General Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明提供了一种自动检索的方法和装置,通过获得目标检索文档,所述目标检索文档包括第一检索词;根据所述第一检索词获得第一检索数据库;从所述第一检索数据库中获得第一文献;判断所述第一文献和目标检索文档之间的相似度;当所述相似度满足第一预定条件时,将所述第一检索数据库列为目标数据库。解决了现有技术中检索过程人工进行操作,根据名称或关键字进行手动搜索,再将检索结果进行整理分析,存在检索耗时长,且容易出现漏检的技术问题。达到了自动进行系统检索,检索对比更加细致,检索结果更准确,避免因人工引入的不稳定因素出现漏检现象,提高检索效率的技术效果。
Description
技术领域
本发明涉及信息处理技术领域,尤其涉及一种自动检索的方法和装置。
背景技术
在新项目立项及新申请专利前需要进行检索,主要针对相同领域内技术现状进行检索,得出新项目及新专利申请的可行性,是否与现有技术存在雷同,检索结果是否全面直接影响到整个新项目的成败,检索不全面、漏检,可能造成投入了大量人力物力后与其他企业的现有的技术雷同,不具有新颖性而白白浪费,因而检索是新项目立项的重要环节。检索(Retrieval)是指依据一定的方法,从已经组织好的大量有关文献集合中,查找并获取特定的相关文献的过程。这里的文献集合,不是通常所指的文献本身,而是关于文献的信息或文献的线索。
现有技术中检索过程人工进行操作,根据名称或关键字进行手动搜索,再将检索结果进行整理分析,存在检索耗时长,且容易出现漏检的技术问题。
发明内容
本发明实施例提供了一种自动检索的方法和装置,解决了现有技术中检索过程人工进行操作,根据名称或关键字进行手动搜索,再将检索结果进行整理分析,存在检索耗时长,且容易出现漏检的技术问题。
鉴于上述问题,提出了本申请实施例以便提供一种自动检索的方法和装置。
第一方面,本发明提供了一种自动检索的方法,所述方法包括:获得目标检索文档,所述目标检索文档包括第一检索词;根据所述第一检索词获得第一检索数据库;从所述第一检索数据库中获得第一文献;判断所述第一文献和目标检索文档之间的相似度;当所述相似度满足第一预定条件时,将所述第一检索数据库列为目标数据库。
优选的,所述判断所述第一文献和目标检索文档之间的相似度,包括:将所述第一文献进行语义分析,获得N个第一关键词,其中N为正整数;将目标检索文档进行语义分析,获得M个第二关键词,其中M为正整数;判断N个第一关键词与M个第二关键词的第一相似度。
优选的,所述判断所述第一文献和目标检索文档之间的相似度,还包括:根据所述第一文献与所述目标检索文档的权利要求进行语义分析,获得第一相似语段;确定所述第一相似语段与所述目标检索文档的权利要求的字数的第一比值;判断所述第一比值是否大于第一预定阈值;当所述第一比值大于第一预定阈值时,获得所述第一文献和目标检索文档之间的第二相似度。
优选的,所述方法还包括:判断所述第一相似度是否大于所述第二相似度;当所述第一相似度大于所述第二相似度,将所述第一相似度作为所述第一文献和目标检索文档之间的相似度。
优选的,所述方法还包括:根据所述第一检索数据库获得第一扩展词;根据所述第一扩展词获得第二检索数据库;根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
第二方面,本发明提供了一种自动检索的装置,所述装置包括:
第一获得单元,所述第一获得单元用于获得目标检索文档,所述目标检索文档包括第一检索词;
第二获得单元,所述第二获得单元用于根据所述第一检索词获得第一检索数据库;
第三获得单元,所述第三获得单元用于从所述第一检索数据库中获得第一文献;
第一判断单元,所述第一判断单元用于判断所述第一文献和目标检索文档之间的相似度;
第一执行单元,所述第一执行单元用于当所述相似度满足第一预定条件时,将所述第一检索数据库列为目标数据库。
优选的,所述装置还包括:
第四获得单元,所述第四获得单元用于将所述第一文献进行语义分析,获得N个第一关键词,其中N为正整数;
第五获得单元,所述第五获得单元用于将目标检索文档进行语义分析,获得M个第二关键词,其中M为正整数;
第二判断单元,所述第二判断单元用于判断N个第一关键词与M个第二关键词的第一相似度。
优选的,所述装置还包括:
第六获得单元,所述第六获得单元用于根据所述第一文献与所述目标检索文档的权利要求进行语义分析,获得第一相似语段;
第一确定单元,所述第一确定单元用于确定所述第一相似语段与所述目标检索文档的权利要求的字数的第一比值;
第三判断单元,所述第三判断单元用于判断所述第一比值是否大于第一预定阈值;
第七获得单元,所述第七获得单元用于当所述第一比值大于第一预定阈值时,获得所述第一文献和目标检索文档之间的第二相似度。
优选的,所述装置还包括:
第四判断单元,所述第四判断单元用于判断所述第一相似度是否大于所述第二相似度;
第二执行单元,所述第二执行单元用于当所述第一相似度大于所述第二相似度,将所述第一相似度作为所述第一文献和目标检索文档之间的相似度。
优选的,所述装置还包括:
第八获得单元,所述第八获得单元用于根据所述第一检索数据库获得第一扩展词;
第九获得单元,所述第九获得单元用于根据所述第一扩展词获得第二检索数据库;
第十获得单元,所述第十获得单元用于根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
第三方面,本发明提供了一种自动检索的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:获得目标检索文档,所述目标检索文档包括第一检索词;根据所述第一检索词获得第一检索数据库;从所述第一检索数据库中获得第一文献;判断所述第一文献和目标检索文档之间的相似度;当所述相似度满足第一预定条件时,将所述第一检索数据库列为目标数据库。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例提供的一种自动检索的方法和装置,通过获得目标检索文档,所述目标检索文档包括第一检索词;根据所述第一检索词获得第一检索数据库;从所述第一检索数据库中获得第一文献;判断所述第一文献和目标检索文档之间的相似度;当所述相似度满足第一预定条件时,将所述第一检索数据库列为目标数据库。解决了现有技术中检索过程人工进行操作,根据名称或关键字进行手动搜索,再将检索结果进行整理分析,存在检索耗时长,且容易出现漏检的技术问题。达到了自动进行系统检索,检索对比更加细致,检索结果更准确,避免因人工引入的不稳定因素出现漏检现象,提高检索效率的技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1为本发明实施例中一种自动检索的方法的流程示意图;
图2为本发明实施例中一种自动检索的装置的结构示意图;
图3为本发明实施例中另一种自动检索的装置的结构示意图。
附图标记说明:第一获得单元11,第二获得单元12,第三获得单元13,第一判断单元14,第一执行单元15,总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本发明实施例提供了一种自动检索的方法和装置,用于解决现有技术中检索过程人工进行操作,根据名称或关键字进行手动搜索,再将检索结果进行整理分析,存在检索耗时长,且容易出现漏检的技术问题。
本发明提供的技术方案总体思路如下:通过获得目标检索文档,所述目标检索文档包括第一检索词;根据所述第一检索词获得第一检索数据库;从所述第一检索数据库中获得第一文献;判断所述第一文献和目标检索文档之间的相似度;当所述相似度满足第一预定条件时,将所述第一检索数据库列为目标数据库。达到了自动进行系统检索,检索对比更加细致,检索结果更准确,避免因人工引入的不稳定因素出现漏检现象,提高检索效率的技术效果。
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
图1为本发明实施例中一种自动检索的方法的流程示意图。如图1所示,一种自动检索的方法,所述方法包括:
步骤110:获得目标检索文档,所述目标检索文档包括第一检索词;
具体而言,将计划进行申请的专利文件导入自动检索系统内,从所述申请的专利文件内确定进行检索的第一检索词,通常所述第一检索词为标题内容,举例而言,计划进行申请的专利名称为一种心胸外科用术后康复护理仪器,则将“心胸外科用术后康复护理仪器”作为所述第一检索词。
步骤120:根据所述第一检索词获得第一检索数据库;
具体而言,系统根据所述第一检索词在专利文献数据库内搜索查询,将包含所述第一检索词的所有专利文献进行整合,形成关于所述第一检索词的文献集合即称之为第一检索数据库,也就是说所述第一检索数据库内包括了所有包含我们要搜索的关键词的全部文献内容。举例而言,我们录入的所述第一检索词为“心胸外科用术后康复护理仪器”,则将获取关于“心胸外科术后康复护理仪”、“术后康复护理仪器”、“心胸外科用术后康复”“护理仪器”等包括了所有关键词内容的文献集合。同时,根据所述第一检索词获得第一权重值。
步骤130:从所述第一检索数据库中获得第一文献;
具体而言,在通过所述第一检索词在大数据库内检索得出的所述第一检索数据库中调出相关文献,所述文献均为与目标检索文档有一定关联性的文献资料,对所述文献的具体内容进行依次对比分析。
步骤140:判断所述第一文献和目标检索文档之间的相似度;
进一步的,所述判断所述第一文献和目标检索文档之间的相似度,包括:将所述第一文献进行语义分析,获得N个第一关键词,其中N为正整数;将目标检索文档进行语义分析,获得M个第二关键词,其中M为正整数;判断N个第一关键词与M个第二关键词的第一相似度。
进一步的,所述判断所述第一文献和目标检索文档之间的相似度,还包括:根据所述第一文献与所述目标检索文档的权利要求进行语义分析,获得第一相似语段;确定所述第一相似语段与所述目标检索文档的权利要求的字数的第一比值;判断所述第一比值是否大于第一预定阈值;当所述第一比值大于第一预定阈值时,获得所述第一文献和目标检索文档之间的第二相似度。
进一步的,所述方法还包括:判断所述第一相似度是否大于所述第二相似度;当所述第一相似度大于所述第二相似度,将所述第一相似度作为所述第一文献和目标检索文档之间的相似度。
具体而言,将从所述第一检索数据库中调出的文献内容与所述目标检索文档内容进行详细对比,具体为:通过语义分析在所述文献内容中找到其中出现频率多的关键词,再在所述目标检索文档中找到其中出现频率多的关键词,将二者的关键词进行对比,获得其中的相似度,该相似度为第一相似度,若所述关键词相同,或者为同义词则所述第一相似度值就大。除了对关键词进行对比外,还进一步对两者的权利要求内容进行对比,使检索结果更加准确,具体实现过程为:将所述文献和所述目标检索文档的权利要求分别进行语义分析,从中查找对比出内容相似度高的段落,再将该相似度较高的段落进行字数对比,得到所述相似度高段落的第二相似度,若字数也相近,所述第二相似度比值则大,最后判断所述第一相似度与所述第二相似度哪个数值更大,选其中较大的作为所述文献与所述目标检索文档的最终相似程度,举例而言,若对所述文献与所述目标检索文档的权利要求语义进行分析时,根据关键词位置及其表达语义、出现概率等计算得出所述第一相似度为80%,再通过相似语段的语义内容和字数对比,计算得出所述第二相似度为75%,所述第一相似度高于所述第二相似度,则选取第一相似度的80%作为所述第一文献与所述目标检索文档的最终相似度。
步骤150:当所述相似度满足第一预定条件时,将所述第一检索数据库列为目标数据库。
具体而言,将通过对比获得的相似度值与检索系统预先设定相似度进行对比,判断检索出的文献内容与所述目标检索文档是否相近,举例而言,系统预设相似度条件为大于65%,若所述目标检索文档与对比文献的相似度为80%,则所述对比文献为所述目标检索文档的检索目标,则将该对比文献列入目标数据库内;若相似度为20%,则检索的文献不是所述目标检索文档的检索目标,则放弃该文献。通过自动搜索最终将获取所述目标检索文档的目标检索内容,系统自动检索更加全面,避免人为因素加入造成的漏检、错检等问题,从而解决了现有技术中检索过程人工进行操作,根据名称或关键字进行手动搜索,再将检索结果进行整理分析,存在检索耗时长,且容易出现漏检的技术问题,达到了自动进行系统检索,检索对比更加细致,检索结果更准确,避免因人工引入的不稳定因素出现漏检现象,提高检索效率的技术效果。
进一步的,所述方法还包括:根据所述第一检索数据库获得第一扩展词;根据所述第一扩展词获得第二检索数据库;根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
具体而言,为了保证检索的全面性,得到有效的检索报告,在获得的所述第一检索数据库中得出其中与目标检索文档关键词意思接近、效果相同的扩展词,由于所述扩展词与所述第一检索词的意义相近,起到的效果相同,就很可能会影响所述目标检索文档的新颖性、创造性,从而影响专利申请结果,所以将该扩展词进行再次检索,获取该扩展词的有所专利文献数据,同样对该扩展词的检索数据库进行分析判断,最终获得所述扩展词的检索数据库,将所述扩展词的第二检索数据库与第一检索数据库进行结合获得最终的目标数据库,达到了检索范围更加全面,检索结果更准确,保证专利申请顺利进行的技术效果。同时,根据所述第一扩展词获得第二权重值。根据所述第一权重值与所述第二权重值计算所述目标数据库的加权值,通过所述加权值确定所述目标数据库的准确性,使得检索检索范围更加全面。
进一步的,所述方法还包括:根据所述目标检索文档,获得扩展词范围;从所述第一检索数据库中按照第一规则获得第一扩展词,其中,所述第一扩展词在所述扩展词范围内;根据所述第一扩展词获得第二检索数据库;根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
具体而言,根据目标检索文档,通过判断全文文字字义及说明书内容,确定所述目标检索文档所处的技术领域。通过所述技术领域判断所属领域运用的技术知识,从而确定技术工具词典。然后通过所述技术工具词典确定专利文献中的核心技术的关键词的范围,即扩展词范围。通过第一检索词从所述第一检索数据库中检索出多个专利文献,将所述多个专利文献进行语义分析,主要判断专利文献中的核心技术的关键词,从所述关键词中确定对检索专利的多个扩展词,如发明名称、技术领域、说明书摘要等。判断多个扩展词中词意相同或相近的词语,且多个扩展词中重复度最高的扩展词作为第一扩展词,所述第一扩展词在所述扩展词范围内。其中,所述第一扩展词与所述第一检索词为类似词,如,聚乙烯与热塑性树脂等。判断第一扩展词是否在所述扩展词范围内,当所述第一扩展词在所述扩展词范围内时,可根据第一扩展词检索专利文献的数据库为第二检索数据库。通过第一检索词确定的所述第一检索数据库与通过第一扩展词确定的所述第二检索数据库的合集可以得到目标检索文档的目标数据库,通过所述第二检索数据库和所述第一检索数据库检索的专利文献准确性高。根据所述第一权重值与所述第二权重值计算所述目标数据库的加权值,通过所述加权值确定所述目标数据库的准确性。
进一步的,所述方法还包括:根据目标检索文档,获得所述目标检索文档所处的技术领域;根据所述技术领域获得技术工具词典;根据所述技术工具词典和第一关键词获得第一扩展词;根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;根据所述第一检索数据库获得第一文献;判断所述第一文献和第一比对文档的相似度;当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库。
具体而言,通过所述目标检索文档的内容分析,获取所述目标检索文档中所描述的具体内容属于某一技术领域,通过确定的技术领域可以进一步查找相关度高的资料信息,排除无效信息。根据判断出的所述目标检索文档所属的具体技术领域相应的找出该技术领域的技术工具词典,所述技术工具词典为该技术领域中的所有相关常用名词,专有特征、技术术语等等,即全面包括了该技术领域中的所有核心内容和关键词。
在所述技术工具词典内查找与所述第一关键词的同义词或意思相近、起到相同作用等相关词语,该词语为所述第一关键词的类似词,所述类似词为多个,举例而言,若关键词为“钉子”,可以在相关技术工具词典中,查找相类似的词,如螺钉、螺栓等等多个相近或者作用相同的类似词。然后将查找出的多个类似词再进行语义分析,找出与所述第一关键词意思接近的多个扩展词,最后通过对经过语义分析确定的多个扩展词进行出现次数的数量统计,将出现次数最多重复度最高的扩展词作为第一扩展词,所述第一扩展词为与所述第一关键词相近程度高的类似词。
将通过已经获得的所述第一扩展词结合所述目标检索文档和所述第一关键词在大数据库内进行搜索,查找到满足条件的第一比对文档,所述第一比对文档为与所述目标检索文档匹配程度较高的文档资料,可以作为分类参考的目标文档。在通过所述第一关键词在大数据库内检索得出的所述第一检索数据库中调出相关文献,所述文献均为与目标检索文档有一定关联性,内容中包含所述第一关键词的文献资料。对所述第一检索数据库内的第一文献与所述第一比对文档进行比对分析,首先在所述第一文献内进行语义分析,得出其中多个第一关键词,然后对所述第一比对文档内容进行语义分析,得出所述第一比对文档中出现的多个第二关键词,最后对所述多个第一关键词和所述多个第二关键词依次进行语义分析,得出所述多个第一关键词和所述多个第二关键词的相似程度,对其相似程度经过计算量化得出所述多个第一关键词与所述多个第二关键词之间的第一相似度数值,此值作为所述第一文献与所述第一比对文档的相似度。
将得到的所述第一文献与所述第一比对文档的相似度与系统内预先设定的第一预定条件进行比较,所述第一预定条件可以为预先设定的相似度阈值。当所述第一文献与所述第一比对文档的相似度满足第一预定条件时,则所述第一文献为与所述第一比对文档属同一技术领域,内容相关性大的文献资料,则将所述第一文献作为目标文献录入目标数据库内;若所述第一文献与所述第一比对文档的相似度低于所述第一预定条件,即不满足条件时,所述第一文档为不符文献,则不进入所述目标数据库中,将其删除。
进一步的,所述方法还包括:从自动检索文档中获得第一关键词;根据所述第一关键词确定第一检索数据库;从所述第一检索数据库中确定第一文献;判断所述第一文献和目标检索文档的相似度;当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。
具体而言,将需要检索的文档录入自动检索关键词的检索系统中,通过系统对所述目标检索文档内容分析获取其中的关键词,作为第一关键词,所述第一关键词可以为标题的主语,或者文档中出现频率较多的词语,也可以为经过语义分析出的核心效果表述词等等。在获取了所述第一关键词后,要对所述第一关键词进行再次确认,先根据所述目标检索文档确定其内容描述的具体技术领域,根据判断出的所述具体技术领域相应的找出该技术领域的技术工具词典,所述技术工具词典为该技术领域中的所有相关常用名词,专有特征、技术术语等等,即全面包括了该技术领域中的所有关键词,接着在所述技术工具词典内查找所述目标检索文档所在的技术领域中的所有关键词,与已经查找出的所述第一关键词进行对比分析,判断所述第一关键词是否包括在所述该技术领域中查找出的关键词范围内,若所述第一关键词在所述关键词范围内则,所述第一关键词为有效关键词,若不在所述关键词范围中,则为无效关键词需要继续查找,知道查到到有效的第一关键词,然后使用所述第一关键词在互联网文献的大数据库内进行检索,得出关于所述第一关键词的所有文献集合,形成第一检索数据库,所述第一检索数据库为经过关键词确认后检索出的所有文献集合,保证了检索的全面性和正确性。
在通过所述第一关键词在大数据库内检索得出的所述第一检索数据库中调出相关文献,所述文献均为与目标检索文档有一定关联性的文献资料,从所述第一检索数据库中查找出相应的文献,分别对所述第一检索数据库内关联度高的文献具体内容进行依次对比分析,判断所述第一检索数据库内的文献与所述目标检索文档之间的相似程度,所述相似度系统进行量化为具体的数据。
在系统内预先设置相似度阈值,根据得到的相似度与设定的预定条件进行对比,当所述第一检索数据库内的文献与所述目标检索文档的相似度数值满足预定条件,则确定所述文献为有效文献。当确定了有效的对比文献后,再从所述文献中查找第二关键词,所述第二关键词与所述第一关键词为不同的关键词,但属于同一技术领域,都是从确定的技术领域检索出的所述第一检索数据库中分析得出的关键词。
进一步的,所述方法还包括:根据所述目标检索文档确定第一分类号;根据所述第一文献确定第二分类号;判断所述第一分类号和第二分类号是否为近似分类号;当所述第一分类号和第二分类号不为近似分类号,将所述第一文献从所述第一目标数据库中删除。
进一步的,所述判断所述第一分类号和第二分类号是否为近似分类号,包括:根据所述第一分类号确定所述目标检索文档所包含的部、大类、小类、大组、小组的第一含义;根据所述第二分类号确定所述第一文献所包含的部、大类、小类、大组、小组的第二含义;判断所述第一含义与所述第二含义是否语义相近;当所述第一含义与所述第二含义语义不相近时,所述第一分类号和第二分类号不为近似分类号。
具体而言,首先根据目标检索文档,获得所述目标检索文档所处的技术领域,再根据所述技术领域获得技术工具词典,进而获得关键词的范围,然后判断所述第一关键词是否在所述关键词的范围内,当所述第一关键词在所述关键词范围内时,在专利检索网站上输入所述第一关键词进行搜索,从而获得包含所述第一关键词的所述第一目标数据库,其中,所述第一目标数据库中收集了大量的包含所述第一关键词的专利文献。在获得所述第一目标数据库后,在所述第一目标数据库中的若干个包含所述第一关键词的专利文献中,任意挑选出一篇包含所述第一关键词的专利文献作为所述第一文献;与此同时,根据所述目标检索文档确定出的所述技术领域,进而确定出所述第一分类号,然后打开挑选出来的所述第一文献,进而确定出所述第一文献的第二分类号。再将所述第一分类号与所述第二分类号进行比对,分析判断出所述第一分类号和所述第二分类号是否为近似分类号。在确定出所述第一分类号和第二分类号不为近似分类号时,即可确定所述第一文献与所述目标检索文档的语义不相近,也可以说所述第一文献与所述目标检索文档的内容不相关,此时就将所述第一文献从所述第一目标数据库中删除。
进一步的,所述方法还包括:根据所述第一文献确定第一分类号;根据所述第一分类号确定所述第一文献所包含的部、大类、小类、大组、小组的第一含义;对所述第一含义与所述目标检索文档进行语义分析,其中,所述第一含义与所述目标检索文档语义不接近时,将所述第一文献从所述第一目标数据库中删除。
具体而言,通过确定的第一文献的分类号中部、大类、小类、大组、小组的第一含义,从而判断第一文献与所述目标检索文档的语义是否相同,进而达到将第一文献去噪的目的。
进一步的,所述方法包括:根据第一目标数据库按照分类号确定专利文献数量排名;获得所述分类号中专利文献数量最少的第一分类号;从所述第一分类号的专利文献中获得第一文献;判断所述第一文献与目标专利文献的第一相似度;当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
具体而言,所述目标专利文献为用户想要检索的专利文献,所述第一目标数据库为包含所述目标专利文献的数据库,然后确定所述第一目标数据库中包含的专利文献的Q个分类号,其中,Q为正整数,再按照所述Q个分类号将所述第一目标数据库中包含的所有专利文献进行归类,从而获得所述Q个分类号相对应的专利文献数量,并对所述Q个分类号对应的专利文献数量按升序进行排名,进而获得所述Q个分类号中专利文献数量最少的第一分类号,其中,所述第一分类号包含在所述Q个分类号中,为所述Q个分类号的其中一个分类号,且所述第一分类号相对应的专利文献数量最少。从所述第一分类号的专利文献中检索获得第一文献,分析判断所述第一文献与所述目标专利文献的第一相似度,即就是分别对所述第一文献和所述目标专利文献的名称、说明书内容进行语义分析,确定出所述第一文献与所述目标专利文献的所述第一相似度,当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
进一步的,所述方法包括:根据第一文献获得专利权人信息,其中,通过所述专利权人信息判断专利权人的性质;当所述专利权人信息满足第一预定条件时,向第一目标专利数据库发送提示信息,其中所述提示信息为所述第一文献。
具体而言,通过对所获得的专利数据库中每篇专利文献的检索,获得每篇专利文献的专利权人信息和转移历史,预设一个阈值,当专利转让次数高于该阈值时,对该专利进行评分,获得该专利的第一价值评分。通过检索平台获得该专利的专利权人或者申请人的性质以及被引用的次数,再通过被引用次数判断该专利的第二价值评分。当第一文献满足第二价值评估分数时,发送第一文献至所述第一目标专利数据库,对该文献进行保存,并提示用户该文献满足检索要求。同时,根据用户在专利检索平台的检索历史获得第二关键词,将与第二关键词相关的第二价值评估分数高的专利向用户推送信息,推送信息包括该专利的专利权人、说明书摘要、专利权人转移历史等信息。
进一步的,所述方法包括:根据所述第一文献,获得所述第一文献的权利要求数量、权利要求字数及说明书字数;根据所述第一文献的权利要求数量、权利要求字数及说明书字数,获得所述第一文献的第一权重值、第二权重值及第三权重值,并确定所述第一文献的第一价值评估分数;判断所述第一价值评估分数是否大于第一预定阈值;当所述第一价值评估分数大于第一预定阈值时,向第一目标专利数据库发送提示信息,其中所述提示信息为所述第一文献。
具体而言,通过检索自动获得该专利文献的权利要求的数量以及权利要求和说明书的字数,通过目标专利的权利要求数量确定第一权重值,所述第一权重值为:目标专利的权利要求数量×所占分值比例,通过目标专利权利要求书的字数确定目标专利的第二权重值,所述第二权重值为:目标专利权利要求书的字数×所占分值比例,通过目标专利说明书的字数确定目标专利的第三权重值,所述第三权重值为:目标专利说明书的字数×所占分值比例,根据所述第一权重值、第二权重值与第三权重值,获得目标专利的第一价值评估分数。设定一个预定阈值,当目标专利的第一价值评估分数大于该预定阈值时,将该专利文献发送至所述第一目标专利数据库,确定该篇专利文献为符合条件的文献。同时,根据用户在专利检索平台的检索历史获得第二关键词,将与第二关键词相关的第一价值评估分数高的专利向用户推送信息,推送信息包括该专利的专利权人、说明书摘要、专利许可信息和诉讼信息等信息。
实施例二
基于与前述实施例中一种自动检索的方法同样的发明构思,本发明还提供一种自动检索的装置,如图2所示,所述装置包括:
第一获得单元11,所述第一获得单元11用于获得目标检索文档,所述目标检索文档包括第一检索词;
第二获得单元12,所述第二获得单元12用于根据所述第一检索词获得第一检索数据库;
第三获得单元13,所述第三获得单元13用于从所述第一检索数据库中获得第一文献;
第一判断单元14,所述第一判断单元14用于判断所述第一文献和目标检索文档之间的相似度;
第一执行单元15,所述第一执行单元15用于当所述相似度满足第一预定条件时,将所述第一检索数据库列为目标数据库。
优选的,所述装置还包括:
第四获得单元,所述第四获得单元用于将所述第一文献进行语义分析,获得N个第一关键词,其中N为正整数;
第五获得单元,所述第五获得单元用于将目标检索文档进行语义分析,获得M个第二关键词,其中M为正整数;
第二判断单元,所述第二判断单元用于判断N个第一关键词与M个第二关键词的第一相似度。
优选的,所述装置还包括:
第六获得单元,所述第六获得单元用于根据所述第一文献与所述目标检索文档的权利要求进行语义分析,获得第一相似语段;
第一确定单元,所述第一确定单元用于确定所述第一相似语段与所述目标检索文档的权利要求的字数的第一比值;
第三判断单元,所述第三判断单元用于判断所述第一比值是否大于第一预定阈值;
第七获得单元,所述第七获得单元用于当所述第一比值大于第一预定阈值时,获得所述第一文献和目标检索文档之间的第二相似度。
优选的,所述装置还包括:
第四判断单元,所述第四判断单元用于判断所述第一相似度是否大于所述第二相似度;
第二执行单元,所述第二执行单元用于当所述第一相似度大于所述第二相似度,将所述第一相似度作为所述第一文献和目标检索文档之间的相似度。
优选的,所述装置还包括:
第八获得单元,所述第八获得单元用于根据所述第一检索数据库获得第一扩展词;
第九获得单元,所述第九获得单元用于根据所述第一扩展词获得第二检索数据库;
第十获得单元,所述第十获得单元用于根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
前述图1实施例一中的一种自动检索的方法的各种变化方式和具体实例同样适用于本实施例的一种自动检索的装置,通过前述对一种自动检索的方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种自动检索的装置的实施方法,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例中一种自动检索的方法同样的发明构思,本发明还提供一种自动检索的装置,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种网络权限的认证方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例提供的一种自动检索的方法和装置,通过获得目标检索文档,所述目标检索文档包括第一检索词;根据所述第一检索词获得第一检索数据库;从所述第一检索数据库中获得第一文献;判断所述第一文献和目标检索文档之间的相似度;当所述相似度满足第一预定条件时,将所述第一检索数据库列为目标数据库。解决了现有技术中检索过程人工进行操作,根据名称或关键字进行手动搜索,再将检索结果进行整理分析,存在检索耗时长,且容易出现漏检的技术问题。达到了自动进行系统检索,检索对比更加细致,检索结果更准确,避免因人工引入的不稳定因素出现漏检现象,提高检索效率的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (7)
1.一种自动检索的方法,其特征在于,所述方法包括:
获得目标检索文档,所述目标检索文档包括第一检索词;
根据所述第一检索词获得第一检索数据库;
从所述第一检索数据库中获得第一文献;
判断所述第一文献和目标检索文档之间的相似度;
当所述相似度满足第一预定条件时,将所述第一检索数据库列为目标数据库。
2.如权利要求1所述的方法,其特征在于,所述判断所述第一文献和目标检索文档之间的相似度,包括:
将所述第一文献进行语义分析,获得N个第一关键词,其中N为正整数;
将目标检索文档进行语义分析,获得M个第二关键词,其中M为正整数;
判断N个第一关键词与M个第二关键词的第一相似度。
3.如权利要求2所述的方法,其特征在于,所述判断所述第一文献和目标检索文档之间的相似度,还包括:
根据所述第一文献与所述目标检索文档的权利要求进行语义分析,获得第一相似语段;
确定所述第一相似语段与所述目标检索文档的权利要求的字数的第一比值;
判断所述第一比值是否大于第一预定阈值;
当所述第一比值大于第一预定阈值时,获得所述第一文献和目标检索文档之间的第二相似度。
4.如权利要求3所述的方法,其特征在于,所述方法还包括:
判断所述第一相似度是否大于所述第二相似度;
当所述第一相似度大于所述第二相似度,将所述第一相似度作为所述第一文献和目标检索文档之间的相似度。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第一检索数据库获得第一扩展词;
根据所述第一扩展词获得第二检索数据库;
根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
6.一种自动检索的装置,其特征在于,所述装置包括:
第一获得单元,所述第一获得单元用于获得目标检索文档,所述目标检索文档包括第一检索词;
第二获得单元,所述第二获得单元用于根据所述第一检索词获得第一检索数据库;
第三获得单元,所述第三获得单元用于从所述第一检索数据库中获得第一文献;
第一判断单元,所述第一判断单元用于判断所述第一文献和目标检索文档之间的相似度;
第一执行单元,所述第一执行单元用于当所述相似度满足第一预定条件时,将所述第一检索数据库列为目标数据库。
7.一种自动检索的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
获得目标检索文档,所述目标检索文档包括第一检索词;
根据所述第一检索词获得第一检索数据库;
从所述第一检索数据库中获得第一文献;
判断所述第一文献和目标检索文档之间的相似度;
当所述相似度满足第一预定条件时,将所述第一检索数据库列为目标数据库。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811084153.3A CN109325099A (zh) | 2018-09-18 | 2018-09-18 | 一种自动检索的方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201811084153.3A CN109325099A (zh) | 2018-09-18 | 2018-09-18 | 一种自动检索的方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN109325099A true CN109325099A (zh) | 2019-02-12 |
Family
ID=65266200
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201811084153.3A Withdrawn CN109325099A (zh) | 2018-09-18 | 2018-09-18 | 一种自动检索的方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN109325099A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046243A (zh) * | 2019-04-23 | 2019-07-23 | 北京恒冠网络数据处理有限公司 | 一种基于大数据的专利个性化检索分析系统 |
CN111026850A (zh) * | 2019-12-23 | 2020-04-17 | 园宝科技(武汉)有限公司 | 一种自注意力机制的双向编码表征的知识产权匹配技术 |
-
2018
- 2018-09-18 CN CN201811084153.3A patent/CN109325099A/zh not_active Withdrawn
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110046243A (zh) * | 2019-04-23 | 2019-07-23 | 北京恒冠网络数据处理有限公司 | 一种基于大数据的专利个性化检索分析系统 |
CN111026850A (zh) * | 2019-12-23 | 2020-04-17 | 园宝科技(武汉)有限公司 | 一种自注意力机制的双向编码表征的知识产权匹配技术 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108073568B (zh) | 关键词提取方法和装置 | |
CN108804641B (zh) | 一种文本相似度的计算方法、装置、设备和存储介质 | |
CN110704621B (zh) | 文本处理方法、装置及存储介质和电子设备 | |
KR101508260B1 (ko) | 문서 특징을 반영하는 요약문 생성 장치 및 방법 | |
CN111797214A (zh) | 基于faq数据库的问题筛选方法、装置、计算机设备及介质 | |
CN113761218B (zh) | 一种实体链接的方法、装置、设备及存储介质 | |
US20180341686A1 (en) | System and method for data search based on top-to-bottom similarity analysis | |
CN111444724B (zh) | 医疗问答对质检方法、装置、计算机设备和存储介质 | |
CN109344400A (zh) | 一种文献入库的判断方法和装置 | |
CN112100470A (zh) | 基于论文数据分析的专家推荐方法、装置、设备及存储介质 | |
CN110162752B (zh) | 文章判重处理方法、装置及电子设备 | |
Srinivasan | The importance of rough approximations for information retrieval | |
CN109325099A (zh) | 一种自动检索的方法和装置 | |
KR101745874B1 (ko) | 학습코스 자동 생성 방법 및 시스템 | |
CN110019556B (zh) | 一种话题新闻获取方法、装置及其设备 | |
CN109189955A (zh) | 一种自动检索关键词的确定方法和装置 | |
CN109189893A (zh) | 一种自动检索的方法和装置 | |
CN109284360A (zh) | 一种专利检索自动去噪方法和装置 | |
CN115827990B (zh) | 搜索方法及装置 | |
JP4604097B2 (ja) | 文書分類付与方法、システムまたはコンピュータプログラム | |
CN109325101A (zh) | 一种高价值专利的自动获得方法和装置 | |
CN115249012A (zh) | 一种基于关键短语的知识图谱可视化方法及系统 | |
JP2008282111A (ja) | 類似文書検索方法、プログラムおよび装置 | |
CN114328823A (zh) | 数据库自然语言查询方法及装置、电子设备、存储介质 | |
CN113902302A (zh) | 基于人工智能的数据分析方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WW01 | Invention patent application withdrawn after publication | ||
WW01 | Invention patent application withdrawn after publication |
Application publication date: 20190212 |