CN109344224A - 一种专利检索自动去噪方法和装置 - Google Patents

一种专利检索自动去噪方法和装置 Download PDF

Info

Publication number
CN109344224A
CN109344224A CN201811093185.XA CN201811093185A CN109344224A CN 109344224 A CN109344224 A CN 109344224A CN 201811093185 A CN201811093185 A CN 201811093185A CN 109344224 A CN109344224 A CN 109344224A
Authority
CN
China
Prior art keywords
document
classification number
patent document
similarity
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811093185.XA
Other languages
English (en)
Inventor
邓梅
宋国华
黄家旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU RAINPAT DATA SERVICE Co Ltd
Original Assignee
JIANGSU RAINPAT DATA SERVICE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU RAINPAT DATA SERVICE Co Ltd filed Critical JIANGSU RAINPAT DATA SERVICE Co Ltd
Priority to CN201811093185.XA priority Critical patent/CN109344224A/zh
Publication of CN109344224A publication Critical patent/CN109344224A/zh
Withdrawn legal-status Critical Current

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种专利检索自动去噪方法,涉及数据处理技术领域,所述方法包括:根据第一目标数据库按照分类号确定专利文献数量排名;获得所述分类号中专利文献数量最少的第一分类号;从所述第一分类号的专利文献中获得第一文献;判断所述第一文献与目标专利文献的第一相似度;当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。达到了在大量专利文献中自动去噪,高效准确地检索到目标文献,省去手动搜索的麻烦,大大提高了检索效率的技术效果。

Description

一种专利检索自动去噪方法和装置
技术领域
本发明涉及数据处理技术领域,具体涉及一种专利检索自动去噪方法和装置。
背景技术
专利检索通常称为专利查询,属于信息检索的一项基本技能。专利检索就是在科研立项和申请专利之前需要进行检索专利,以免重复研制,侵犯他人专利权,事先检索也可判断该项技术成果是否有可能获得专利权。
但本发明申请人在实现本申请实施例中技术方案的过程中,发现上述现有技术至少存在如下技术问题:
由于数据库中有着大量的专利文献,存在自主搜索起来耗费时间,且往往会遗漏相关的目标文献,造成文献搜索不全面,效率极其低下的技术问题。
发明内容
本发明实施例提供了一种专利检索自动去噪方法和装置,解决了现有技术中由于数据库中有着大量的专利文献,存在自主搜索起来耗费时间,且往往会遗漏相关的目标文献,造成文献搜索不全面,效率极其低下的技术问题。达到了在大量专利文献中自动去噪,高效准确地检索到目标文献,省去手动搜索的麻烦,大大提高了检索效率的技术效果。
第一方面,本申请为了解决上述问题,本申请实施例提供了一种专利检索自动去噪方法,所述方法包括:根据第一目标数据库按照分类号确定专利文献数量排名;获得所述分类号中专利文献数量最少的第一分类号;从所述第一分类号的专利文献中获得第一文献;判断所述第一文献与目标专利文献的第一相似度;当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
优选的,所述根据第一目标数据库按照分类号确定专利文献数量排名,包括:确定第一目标数据库中专利文献的N个分类号,N为正整数;按所述N个分类号将专利文献归类,获得所述N个分类号对应的专利文献数量,并对所述N个分类号对应的专利文献数量排名。
优选的,所述从所述第一分类号的专利文献中获得第一文献,包括:根据第一目标数据库,确定所述第一目标数据库的第一检索词;根据所述第一分类号的专利文献,获得第一分类号的专利文献的M个关键词,M为正整数;比对所述M个关键词与所述第一检索词的第二相似度;当所述关键词与所述第一检索词无第二相似度时,从所述第一分类号的专利文献中获得第一文献。
优选的,所述从所述第一分类号的专利文献中获得第一文献,还包括:根据第一目标数据库,确定所述第一目标数据库的P个扩展词,P为正整数;比对所述M个关键词与所述P个扩展词的第三相似度;当所述关键词与所述P个扩展词无第三相似度时,从所述第一分类号的专利文献中获得第一文献。
优选的,所述第一检索词与扩展词为类似词。
优选的,所述判断所述第一文献与目标专利文献的第一相似度,包括:对所述第一文献与目标专利文献进行语义分析,确定第一相似度。
第二方面,本申请还提供了专利检索自动去噪装置,所述装置包括:第一确定单元,所述第一确定单元用于根据第一目标数据库按照分类号确定专利文献数量排名;第一获得单元,所述第一获得单元用于获得所述分类号中专利文献数量最少的第一分类号;第二获得单元,所述第二获得单元用于从所述第一分类号的专利文献中获得第一文献;第一判断单元,所述第一判断单元用于判断所述第一文献与目标专利文献的第一相似度;第一删除单元,所述第一删除单元用于当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
优选的,所述第一确定单元包括:
第二确定单元,所述第二确定单元用于确定第一目标数据库中专利文献的N个分类号,N为正整数;
第三获得单元,所述第三获得单元用于按所述N个分类号将专利文献归类,获得所述N个分类号对应的专利文献数量,并对所述N个分类号对应的专利文献数量排名。
优选的,所述第二获得单元包括:
第三确定单元,所述第三确定单元用于根据第一目标数据库,确定所述第一目标数据库的第一检索词;
第四获得单元,所述第四获得单元用于根据所述第一分类号的专利文献,获得第一分类号的专利文献的M个关键词,M为正整数;
第一比对单元,所述第一比对单元用于比对所述M个关键词与所述第一检索词的第二相似度;
第五获得单元,所述第五获得单元用于当所述关键词与所述第一检索词无第二相似度时,从所述第一分类号的专利文献中获得第一文献。
优选的,所述第二获得单元还包括:
第四确定单元,所述第四确定单元用于根据第一目标数据库,确定所述第一目标数据库的P个扩展词,P为正整数;
第二比对单元,所述第二比对单元用于比对所述M个关键词与所述P个扩展词的第三相似度;
第六获得单元,所述第六获得单元用于当所述关键词与所述P个扩展词无第三相似度时,从所述第一分类号的专利文献中获得第一文献。
优选的,所述第一检索词与扩展词为类似词。
优选的,所述第一判断单元包括:
第五确定单元,所述第五确定单元用于对所述第一文献与目标专利文献进行语义分析,确定第一相似度。
第三方面,本发明还提供了一种专利检索自动去噪装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:
根据第一目标数据库按照分类号确定专利文献数量排名;
获得所述分类号中专利文献数量最少的第一分类号;
从所述第一分类号的专利文献中获得第一文献;
判断所述第一文献与目标专利文献的第一相似度;
当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例提供了一种专利检索自动去噪方法,所述方法包括:根据第一目标数据库按照分类号确定专利文献数量排名;获得所述分类号中专利文献数量最少的第一分类号;从所述第一分类号的专利文献中获得第一文献;判断所述第一文献与目标专利文献的第一相似度;当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。解决了现有技术中由于数据库中有着大量的专利文献,存在自主搜索起来耗费时间,且往往会遗漏相关的目标文献,造成文献搜索不全面,效率极其低下的技术问题。达到了在大量专利文献中自动去噪,高效准确地检索到目标文献,省去手动搜索的麻烦,大大提高了检索效率的技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1为本发明实施例中一种专利检索自动去噪方法的流程示意图。
图2为本发明实施例中一种专利检索自动去噪装置的结构示意图;
图3为本发明实施例中另一种专利检索自动去噪装置的结构示意图。
附图标记说明:第一确定单元11,第一获得单元12,第二获得单元13,第一判断单元14,第一删除单元15,总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本发明实施例提供了一种专利检索自动去噪方法和装置,解决了现有技术中由于数据库中有着大量的专利文献,存在自主搜索起来耗费时间,且往往会遗漏相关的目标文献,造成文献搜索不全面,效率极其低下的技术问题。本发明提供的技术方案总体思路如下:
在本发明实施例的技术方案中,通过根据第一目标数据库按照分类号确定专利文献数量排名;获得所述分类号中专利文献数量最少的第一分类号;从所述第一分类号的专利文献中获得第一文献;判断所述第一文献与目标专利文献的第一相似度;当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。达到了在大量专利文献中自动去噪,高效准确地检索到目标文献,省去手动搜索的麻烦,大大提高了检索效率的技术效果。
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
本申请实施例提供了一种专利检索自动去噪方法,图1为本发明实施例中一种专利检索自动去噪方法的流程示意图。如图1所示,所述方法包括:
步骤110:根据第一目标数据库按照分类号确定专利文献数量排名;
步骤120:获得所述分类号中专利文献数量最少的第一分类号;
进一步的,所述根据第一目标数据库按照分类号确定专利文献数量排名,包括:确定第一目标数据库中专利文献的N个分类号,N为正整数;按所述N个分类号将专利文献归类,获得所述N个分类号对应的专利文献数量,并对所述N个分类号对应的专利文献数量排名。
具体而言,专利检索就是根据一项数据特征,从大量的专利文献或专利数据库中挑选出符合某一特定要求的文献或信息的过程。通常,在科研立项或申请专利之前都需要进行专利的检索,以避免重复研发,侵犯他人专利权,造成不必要的经济损失,使自己研发出来的技术、产品、方法、工艺等能够为自己所用,为自己所有。因此,专利检索显得尤为重要,这一步骤已经成为申请专利的必要步骤之一,在专利申请前进行专利检索可以评价要申请的专利获得授权的可能性,帮助专利代理人更好地起草专利文件,此外,申请前的初步专利检索也可完善申请方案,能够为专利申请人节省时间和金钱。在需要进行专利检索时,首先需要明确检索目的,检索目的通常只有两个,一是为了分析检索信息的技术或产品,二是知道要研发的项目是否别人已经申请了专利。根据已明确的检索目的,提炼信息点,根据目标专利文献获得第一目标数据库,其中,所述目标专利文献为用户想要检索的专利文献,所述第一目标数据库为包含所述目标专利文献的数据库,然后确定所述第一目标数据库中包含的专利文献的N个分类号,其中,N为正整数,再按照所述N个分类号将所述第一目标数据库中包含的所有专利文献进行归类,从而获得所述N个分类号相对应的专利文献数量,并对所述N个分类号对应的专利文献数量按升序进行排名,进而获得所述N个分类号中专利文献数量最少的第一分类号,其中,所述第一分类号包含在所述N个分类号中,为所述N个分类号的其中一个分类号,且所述第一分类号相对应的专利文献数量最少。进一步达到了将所述第一目标数据库中的专利文献按照分类号进行分类的技术效果。
步骤130:从所述第一分类号的专利文献中获得第一文献;
进一步的,所述从所述第一分类号的专利文献中获得第一文献,包括:根据第一目标数据库,确定所述第一目标数据库的第一检索词;根据所述第一分类号的专利文献,获得第一分类号的专利文献的M个关键词,M为正整数;比对所述M个关键词与所述第一检索词的第二相似度;当所述关键词与所述第一检索词无第二相似度时,从所述第一分类号的专利文献中获得第一文献。
进一步的,所述从所述第一分类号的专利文献中获得第一文献,还包括:根据第一目标数据库,确定所述第一目标数据库的P个扩展词,P为正整数;比对所述M个关键词与所述P个扩展词的第三相似度;当所述关键词与所述P个扩展词无第三相似度时,从所述第一分类号的专利文献中获得第一文献。
进一步的,所述第一检索词与扩展词为类似词。
具体而言,在获得所述N个分类号中专利文献数量最少的所述第一分类号之后,再从所述第一分类号的专利文献获得第一文献,具体的步骤为:根据所述第一目标数据库,确定出所述第一目标数据库的第一检索词,同时再根据所述第一分类号的专利文献,对所述第一分类号的专利文献名称进行语义分析,获得所述第一分类号的专利文献的M个关键词,M为正整数,其中,所述M个关键词为语义相同或语义相近的词语,在获得所述第一检索词与所述M个关键词之后,将所述M个关键词与所述第一检索词进行比对,确定出所述M个关键词与所述第一检索词的第二相似度,其中,所述第二相似度为所述M个关键词与所述第一检索词的语义存在一定程度的相似或相关,如果所述M个关键词与所述第一检索词无所述第二相似度时,即所述M个关键词语义与所述第一检索词的语义不存在任何程度上的相似或相关,从而验证了所述第一分类号的专利文献与所述第一目标数据库的内容基本不相关;进一步的,再根据所述第一目标数据库,确定出所述第一目标数据库的P个扩展词,P为正整数,其中,所述第一检索词与所述P个扩展词的语义相同或相近,为类似词,然后将所述M个关键词与所述P个扩展词进行比对,确定出所述M个关键词与所述P个扩展词的第三相似度,如果所述M个关键词与所述P个扩展词无所述第三相似度时,即所述M个关键词语义与所述P个扩展词的语义不存在任何程度上的相似或相关,进一步验证了所述第一分类号的专利文献与所述第一目标数据库的内容不相关、不接近,此时基本判定所述第一文献与所述目标专利文献的语义不近似,为了避免专利检索出现遗留,检索专利不全面的问题,再从所述第一分类号的专利文献中,任意挑选出一篇专利文献作为第一文献,继续判断所述第一文献与所述目标专利文献的相似度。
步骤140:判断所述第一文献与目标专利文献的第一相似度;
步骤150:当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
进一步的,所述判断所述第一文献与目标专利文献的第一相似度,包括:对所述第一文献与目标专利文献进行语义分析,确定第一相似度。
具体而言,从所述第一分类号的专利文献中获得所述第一文献之后,分析判断所述第一文献与所述目标专利文献的第一相似度,即就是分别对所述第一文献和所述目标专利文献的名称、说明书内容进行语义分析,确定出所述第一文献与所述目标专利文献的所述第一相似度,其中,所述预定阈值为判断所述第一文献与所述目标专利文献具有相似度的标准,当所述第一相似度大于所述预定阈值时,即可判断所述第一文献与所述目标专利文献的语义相似,当所述第一相似度小于所述预定阈值时,所述第一文献与所述目标专利文献的语义相似,就将所述第一分类号包含的全部专利文献从所述第一目标数据库中删除。或者,将所述第一文献和所述目标专利文献的权利要求进行语义分析,获得所述第一文献和所述目标专利文献的第一相似度。进而,可对所述第一文献和所述目标专利文献的说明书进行语义分析,获得所述第一文献和所述目标专利文献的第四相似度。根据所述第一相似度与第四相似度可获得第一文献的权利要求与说明书的第一权重值与第二权重值,然后计算出第一文献的第一相似度分数。依次类推,获得所述N个分类号中专利文献数量按升序排第二的第二分类号,再从所述第二分类号的专利文献中获得第二文献,接着判断所述第二文献与所述目标专利文献的第二相似度,当所述第二相似度小于所述预定阈值时,就将所述第二分类号中包含的全部专利文献从所述第一目标数据库中删除,直到删除掉所述第一目标数据库中与所述目标专利文献语义不近似、不相关的全部专利文献,进一步达到了在大量专利文献中自动去噪,高效准确地检索到目标文献,省去手动搜索的麻烦,大大提高了检索效率的技术效果。
进一步的,所述方法还包括:从所述第一检索数据库中获得第一文献;判断所述第一文献和目标检索文档之间的相似度;当所述相似度满足第一预定条件时,将所述第一检索数据库列为目标数据库。进一步的,所述判断所述第一文献和目标检索文档之间的相似度,还包括:根据所述第一文献与所述目标检索文档的权利要求进行语义分析,获得第一相似语段;确定所述第一相似语段与所述目标检索文档的权利要求的字数的第一比值;判断所述第一比值是否大于第一预定阈值;当所述第一比值大于第一预定阈值时,获得所述第一文献和目标检索文档之间的第二相似度。
具体而言,通过语义分析在所述文献内容中找到其中出现频率多的关键词,再在所述目标检索文档中找到其中出现频率多的关键词,将二者的关键词进行对比,获得其中的相似度,该相似度为第一相似度,若所述关键词相同,或者为同义词则所述第一相似度值就大。除了对关键词进行对比外,还进一步对两者的权利要求内容进行对比,使检索结果更加准确,具体实现过程为:将所述文献和所述目标检索文档的权利要求分别进行语义分析,从中查找对比出内容相似度高的段落,再将该相似度较高的段落进行字数对比,得到所述相似度高段落的第二相似度,若字数也相近,所述第二相似度比值则大,最后判断所述第一相似度与所述第二相似度哪个数值更大,选其中较大的作为所述文献与所述目标检索文档的最终相似程度。将通过对比获得的相似度值与检索系统预先设定相似度进行对比,判断检索出的文献内容与所述目标检索文档是否相近,通过自动搜索最终将获取所述目标检索文档的目标检索内容,系统自动检索更加全面,避免人为因素加入造成的漏检、错检等问题,从而解决了现有技术中检索过程人工进行操作,根据名称或关键字进行手动搜索,再将检索结果进行整理分析,存在检索耗时长,且容易出现漏检的技术问题,达到了自动进行系统检索,检索对比更加细致,检索结果更准确,避免因人工引入的不稳定因素出现漏检现象,提高检索效率的技术效果。
进一步的,所述方法还包括:根据所述目标检索文档,获得扩展词范围;从所述第一检索数据库中按照第一规则获得第一扩展词,其中,所述第一扩展词在所述扩展词范围内;根据所述第一扩展词获得第二检索数据库;根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
具体而言,根据目标检索文档,通过判断全文文字字义及说明书内容,确定所述目标检索文档所处的技术领域。通过所述技术领域判断所属领域运用的技术知识,从而确定技术工具词典。然后通过所述技术工具词典确定专利文献中的核心技术的关键词的范围,即扩展词范围。通过第一检索词从所述第一检索数据库中检索出多个专利文献,将所述多个专利文献进行语义分析,主要判断专利文献中的核心技术的关键词,从所述关键词中确定对检索专利的多个扩展词,如发明名称、技术领域、说明书摘要等。判断多个扩展词中词意相同或相近的词语,且多个扩展词中重复度最高的扩展词作为第一扩展词,所述第一扩展词在所述扩展词范围内。其中,所述第一扩展词与所述第一检索词为类似词,如,聚乙烯与热塑性树脂等。判断第一扩展词是否在所述扩展词范围内,当所述第一扩展词在所述扩展词范围内时,可根据第一扩展词检索专利文献的数据库为第二检索数据库。通过第一检索词确定的所述第一检索数据库与通过第一扩展词确定的所述第二检索数据库的合集可以得到目标检索文档的目标数据库,通过所述第二检索数据库和所述第一检索数据库检索的专利文献准确性高。根据所述第一权重值与所述第二权重值计算所述目标数据库的加权值,通过所述加权值确定所述目标数据库的准确性。
进一步的,所述方法还包括:根据目标检索文档,获得所述目标检索文档所处的技术领域;根据所述技术领域获得技术工具词典;根据所述技术工具词典和第一关键词获得第一扩展词;根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;根据所述第一检索数据库获得第一文献;判断所述第一文献和第一比对文档的相似度;当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库。
具体而言,通过所述目标检索文档的内容分析,获取所述目标检索文档中所描述的具体内容属于某一技术领域,通过确定的技术领域可以进一步查找相关度高的资料信息,排除无效信息。根据判断出的所述目标检索文档所属的具体技术领域相应的找出该技术领域的技术工具词典,所述技术工具词典为该技术领域中的所有相关常用名词,专有特征、技术术语等等,即全面包括了该技术领域中的所有核心内容和关键词。
在所述技术工具词典内查找与所述第一关键词的同义词或意思相近、起到相同作用等相关词语,该词语为所述第一关键词的类似词,所述类似词为多个,举例而言,若关键词为“钉子”,可以在相关技术工具词典中,查找相类似的词,如螺钉、螺栓等等多个相近或者作用相同的类似词。然后将查找出的多个类似词再进行语义分析,找出与所述第一关键词意思接近的多个扩展词,最后通过对经过语义分析确定的多个扩展词进行出现次数的数量统计,将出现次数最多重复度最高的扩展词作为第一扩展词,所述第一扩展词为与所述第一关键词相近程度高的类似词。
将通过已经获得的所述第一扩展词结合所述目标检索文档和所述第一关键词在大数据库内进行搜索,查找到满足条件的第一比对文档,所述第一比对文档为与所述目标检索文档匹配程度较高的文档资料,可以作为分类参考的目标文档。在通过所述第一关键词在大数据库内检索得出的所述第一检索数据库中调出相关文献,所述文献均为与目标检索文档有一定关联性,内容中包含所述第一关键词的文献资料。对所述第一检索数据库内的第一文献与所述第一比对文档进行比对分析,首先在所述第一文献内进行语义分析,得出其中多个第一关键词,然后对所述第一比对文档内容进行语义分析,得出所述第一比对文档中出现的多个第二关键词,最后对所述多个第一关键词和所述多个第二关键词依次进行语义分析,得出所述多个第一关键词和所述多个第二关键词的相似程度,对其相似程度经过计算量化得出所述多个第一关键词与所述多个第二关键词之间的第一相似度数值,此值作为所述第一文献与所述第一比对文档的相似度。
将得到的所述第一文献与所述第一比对文档的相似度与系统内预先设定的第一预定条件进行比较,所述第一预定条件可以为预先设定的相似度阈值。当所述第一文献与所述第一比对文档的相似度满足第一预定条件时,则所述第一文献为与所述第一比对文档属同一技术领域,内容相关性大的文献资料,则将所述第一文献作为目标文献录入目标数据库内;若所述第一文献与所述第一比对文档的相似度低于所述第一预定条件,即不满足条件时,所述第一文档为不符文献,则不进入所述目标数据库中,将其删除。
进一步的,所述方法还包括:从自动检索文档中获得第一关键词;根据所述第一关键词确定第一检索数据库;从所述第一检索数据库中确定第一文献;判断所述第一文献和目标检索文档的相似度;当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。
具体而言,将需要检索的文档录入自动检索关键词的检索系统中,通过系统对所述目标检索文档内容分析获取其中的关键词,作为第一关键词,所述第一关键词可以为标题的主语,或者文档中出现频率较多的词语,也可以为经过语义分析出的核心效果表述词等等。在获取了所述第一关键词后,要对所述第一关键词进行再次确认,先根据所述目标检索文档确定其内容描述的具体技术领域,根据判断出的所述具体技术领域相应的找出该技术领域的技术工具词典,所述技术工具词典为该技术领域中的所有相关常用名词,专有特征、技术术语等等,即全面包括了该技术领域中的所有关键词,接着在所述技术工具词典内查找所述目标检索文档所在的技术领域中的所有关键词,与已经查找出的所述第一关键词进行对比分析,判断所述第一关键词是否包括在所述该技术领域中查找出的关键词范围内,若所述第一关键词在所述关键词范围内则,所述第一关键词为有效关键词,若不在所述关键词范围中,则为无效关键词需要继续查找,知道查到到有效的第一关键词,然后使用所述第一关键词在互联网文献的大数据库内进行检索,得出关于所述第一关键词的所有文献集合,形成第一检索数据库,所述第一检索数据库为经过关键词确认后检索出的所有文献集合,保证了检索的全面性和正确性。
在通过所述第一关键词在大数据库内检索得出的所述第一检索数据库中调出相关文献,所述文献均为与目标检索文档有一定关联性的文献资料,从所述第一检索数据库中查找出相应的文献,分别对所述第一检索数据库内关联度高的文献具体内容进行依次对比分析,判断所述第一检索数据库内的文献与所述目标检索文档之间的相似程度,所述相似度系统进行量化为具体的数据。
在系统内预先设置相似度阈值,根据得到的相似度与设定的预定条件进行对比,当所述第一检索数据库内的文献与所述目标检索文档的相似度数值满足预定条件,则确定所述文献为有效文献。当确定了有效的对比文献后,再从所述文献中查找第二关键词,所述第二关键词与所述第一关键词为不同的关键词,但属于同一技术领域,都是从确定的技术领域检索出的所述第一检索数据库中分析得出的关键词。
进一步的,所述方法还包括:根据所述目标检索文档确定第一分类号;根据所述第一文献确定第二分类号;判断所述第一分类号和第二分类号是否为近似分类号;当所述第一分类号和第二分类号不为近似分类号,将所述第一文献从所述第一目标数据库中删除。
进一步的,所述判断所述第一分类号和第二分类号是否为近似分类号,包括:根据所述第一分类号确定所述目标检索文档所包含的部、大类、小类、大组、小组的第一含义;根据所述第二分类号确定所述第一文献所包含的部、大类、小类、大组、小组的第二含义;判断所述第一含义与所述第二含义是否语义相近;当所述第一含义与所述第二含义语义不相近时,所述第一分类号和第二分类号不为近似分类号。
具体而言,首先根据目标检索文档,获得所述目标检索文档所处的技术领域,再根据所述技术领域获得技术工具词典,进而获得关键词的范围,然后判断所述第一关键词是否在所述关键词的范围内,当所述第一关键词在所述关键词范围内时,在专利检索网站上输入所述第一关键词进行搜索,从而获得包含所述第一关键词的所述第一目标数据库,其中,所述第一目标数据库中收集了大量的包含所述第一关键词的专利文献。在获得所述第一目标数据库后,在所述第一目标数据库中的若干个包含所述第一关键词的专利文献中,任意挑选出一篇包含所述第一关键词的专利文献作为所述第一文献;与此同时,根据所述目标检索文档确定出的所述技术领域,进而确定出所述第一分类号,然后打开挑选出来的所述第一文献,进而确定出所述第一文献的第二分类号。再将所述第一分类号与所述第二分类号进行比对,分析判断出所述第一分类号和所述第二分类号是否为近似分类号。在确定出所述第一分类号和第二分类号不为近似分类号时,即可确定所述第一文献与所述目标检索文档的语义不相近,也可以说所述第一文献与所述目标检索文档的内容不相关,此时就将所述第一文献从所述第一目标数据库中删除。
进一步的,所述方法还包括:根据所述第一文献确定第一分类号;根据所述第一分类号确定所述第一文献所包含的部、大类、小类、大组、小组的第一含义;对所述第一含义与所述目标检索文档进行语义分析,其中,所述第一含义与所述目标检索文档语义不接近时,将所述第一文献从所述第一目标数据库中删除。
具体而言,通过确定的第一文献的分类号中部、大类、小类、大组、小组的第一含义,从而判断第一文献与所述目标检索文档的语义是否相同,进而达到将第一文献去噪的目的。
进一步的,所述方法包括:根据第一文献获得专利权人信息,其中,通过所述专利权人信息判断专利权人的性质;当所述专利权人信息满足第一预定条件时,向第一目标专利数据库发送提示信息,其中所述提示信息为所述第一文献。
具体而言,通过对所获得的专利数据库中每篇专利文献的检索,获得每篇专利文献的专利权人信息和转移历史,预设一个阈值,当专利转让次数高于该阈值时,对该专利进行评分,获得该专利的第一价值评分。通过检索平台获得该专利的专利权人或者申请人的性质以及被引用的次数,再通过被引用次数判断该专利的第二价值评分。当第一文献满足第二价值评估分数时,发送第一文献至所述第一目标专利数据库,对该文献进行保存,并提示用户该文献满足检索要求。同时,根据用户在专利检索平台的检索历史获得第二关键词,将与第二关键词相关的第二价值评估分数高的专利向用户推送信息,推送信息包括该专利的专利权人、说明书摘要、专利权人转移历史等信息。
进一步的,所述方法包括:根据所述第一文献,获得所述第一文献的权利要求数量、权利要求字数及说明书字数;根据所述第一文献的权利要求数量、权利要求字数及说明书字数,获得所述第一文献的第一权重值、第二权重值及第三权重值,并确定所述第一文献的第一价值评估分数;判断所述第一价值评估分数是否大于第一预定阈值;当所述第一价值评估分数大于第一预定阈值时,向第一目标专利数据库发送提示信息,其中所述提示信息为所述第一文献。
具体而言,通过检索自动获得该专利文献的权利要求的数量以及权利要求和说明书的字数,通过目标专利的权利要求数量确定第一权重值,所述第一权重值为:目标专利的权利要求数量×所占分值比例,通过目标专利权利要求书的字数确定目标专利的第二权重值,所述第二权重值为:目标专利权利要求书的字数×所占分值比例,通过目标专利说明书的字数确定目标专利的第三权重值,所述第三权重值为:目标专利说明书的字数×所占分值比例,根据所述第一权重值、第二权重值与第三权重值,获得目标专利的第一价值评估分数。设定一个预定阈值,当目标专利的第一价值评估分数大于该预定阈值时,将该专利文献发送至所述第一目标专利数据库,确定该篇专利文献为符合条件的文献。同时,根据用户在专利检索平台的检索历史获得第二关键词,将与第二关键词相关的第一价值评估分数高的专利向用户推送信息,推送信息包括该专利的专利权人、说明书摘要、专利许可信息和诉讼信息等信息。
实施例二
本申请实施例还提供了一种专利检索自动去噪装置,所述装置包括:
第一确定单元,所述第一确定单元用于根据第一目标数据库按照分类号确定专利文献数量排名;
第一获得单元,所述第一获得单元用于获得所述分类号中专利文献数量最少的第一分类号;
第二获得单元,所述第二获得单元用于从所述第一分类号的专利文献中获得第一文献;
第一判断单元,所述第一判断单元用于判断所述第一文献与目标专利文献的第一相似度;
第一删除单元,所述第一删除单元用于当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
优选的,所述第一确定单元包括:
第二确定单元,所述第二确定单元用于确定第一目标数据库中专利文献的N个分类号,N为正整数;
第三获得单元,所述第三获得单元用于按所述N个分类号将专利文献归类,获得所述N个分类号对应的专利文献数量,并对所述N个分类号对应的专利文献数量排名。
优选的,所述第二获得单元包括:
第三确定单元,所述第三确定单元用于根据第一目标数据库,确定所述第一目标数据库的第一检索词;
第四获得单元,所述第四获得单元用于根据所述第一分类号的专利文献,获得第一分类号的专利文献的M个关键词,M为正整数;
第一比对单元,所述第一比对单元用于比对所述M个关键词与所述第一检索词的第二相似度;
第五获得单元,所述第五获得单元用于当所述关键词与所述第一检索词无第二相似度时,从所述第一分类号的专利文献中获得第一文献。
优选的,所述第二获得单元还包括:
第四确定单元,所述第四确定单元用于根据第一目标数据库,确定所述第一目标数据库的P个扩展词,P为正整数;
第二比对单元,所述第二比对单元用于比对所述M个关键词与所述P个扩展词的第三相似度;
第六获得单元,所述第六获得单元用于当所述关键词与所述P个扩展词无第三相似度时,从所述第一分类号的专利文献中获得第一文献。
优选的,所述第一检索词与扩展词为类似词。
优选的,所述第一判断单元包括:
第五确定单元,所述第五确定单元用于对所述第一文献与目标专利文献进行语义分析,确定第一相似度。前述图1实施例一中的一种专利检索自动去噪方法的各种变化方式和具体实例同样适用于本实施例的一种专利检索自动去噪装置,通过前述对一种专利检索自动去噪方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种专利检索自动去噪装置的实施方法,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例中一种专利检索自动去噪方法同样的发明构思,本发明还提供一种专利检索自动去噪装置,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种网络权限的认证方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例提供了一种专利检索自动去噪方法,所述方法包括:根据第一目标数据库按照分类号确定专利文献数量排名;获得所述分类号中专利文献数量最少的第一分类号;从所述第一分类号的专利文献中获得第一文献;判断所述第一文献与目标专利文献的第一相似度;当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。解决了现有技术中由于数据库中有着大量的专利文献,存在自主搜索起来耗费时间,且往往会遗漏相关的目标文献,造成文献搜索不全面,效率极其低下的技术问题。达到了在大量专利文献中自动去噪,高效准确地检索到目标文献,省去手动搜索的麻烦,大大提高了检索效率的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种专利检索自动去噪方法,其特征在于,所述方法包括:
根据第一目标数据库按照分类号确定专利文献数量排名;
获得所述分类号中专利文献数量最少的第一分类号;
从所述第一分类号的专利文献中获得第一文献;
判断所述第一文献与目标专利文献的第一相似度;
当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
2.如权利要求1所述的方法,其特征在于,所述根据第一目标数据库按照分类号确定专利文献数量排名,包括:
确定第一目标数据库中专利文献的N个分类号,N为正整数;
按所述N个分类号将专利文献归类,获得所述N个分类号对应的专利文献数量,并对所述N个分类号对应的专利文献数量排名。
3.如权利要求1所述的方法,其特征在于,所述从所述第一分类号的专利文献中获得第一文献,包括:
根据第一目标数据库,确定所述第一目标数据库的第一检索词;
根据所述第一分类号的专利文献,获得第一分类号的专利文献的M个关键词,M为正整数;
比对所述M个关键词与所述第一检索词的第二相似度;
当所述关键词与所述第一检索词无第二相似度时,从所述第一分类号的专利文献中获得第一文献。
4.如权利要求3所述的方法,其特征在于,所述从所述第一分类号的专利文献中获得第一文献,还包括:
根据第一目标数据库,确定所述第一目标数据库的P个扩展词,P为正整数;
比对所述M个关键词与所述P个扩展词的第三相似度;
当所述关键词与所述P个扩展词无第三相似度时,从所述第一分类号的专利文献中获得第一文献。
5.如权利要求4所述的方法,其特征在于,所述第一检索词与扩展词为类似词。
6.如权利要求1所述的方法,其特征在于,所述判断所述第一文献与目标专利文献的第一相似度,包括:
对所述第一文献与目标专利文献进行语义分析,确定第一相似度。
7.一种专利检索自动去噪装置,其特征在于,所述装置包括:
第一确定单元,所述第一确定单元用于根据第一目标数据库按照分类号确定专利文献数量排名;
第一获得单元,所述第一获得单元用于获得所述分类号中专利文献数量最少的第一分类号;
第二获得单元,所述第二获得单元用于从所述第一分类号的专利文献中获得第一文献;
第一判断单元,所述第一判断单元用于判断所述第一文献与目标专利文献的第一相似度;
第一删除单元,所述第一删除单元用于当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
8.一种专利检索自动去噪装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
根据第一目标数据库按照分类号确定专利文献数量排名;
获得所述分类号中专利文献数量最少的第一分类号;
从所述第一分类号的专利文献中获得第一文献;
判断所述第一文献与目标专利文献的第一相似度;
当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
CN201811093185.XA 2018-09-18 2018-09-18 一种专利检索自动去噪方法和装置 Withdrawn CN109344224A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811093185.XA CN109344224A (zh) 2018-09-18 2018-09-18 一种专利检索自动去噪方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811093185.XA CN109344224A (zh) 2018-09-18 2018-09-18 一种专利检索自动去噪方法和装置

Publications (1)

Publication Number Publication Date
CN109344224A true CN109344224A (zh) 2019-02-15

Family

ID=65306216

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811093185.XA Withdrawn CN109344224A (zh) 2018-09-18 2018-09-18 一种专利检索自动去噪方法和装置

Country Status (1)

Country Link
CN (1) CN109344224A (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276340A (zh) * 2007-03-29 2008-10-01 上海汉光知识产权数据科技有限公司 专利数据检索系统
CN101546306A (zh) * 2008-03-27 2009-09-30 上海市知识产权服务中心 利用ipc分类的专利文献检索方法及系统
CN106294639A (zh) * 2016-08-01 2017-01-04 金陵科技学院 基于语义的跨语言专利新创性预判分析方法
CN106372226A (zh) * 2016-09-07 2017-02-01 知识产权出版社有限责任公司 信息检索装置及方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276340A (zh) * 2007-03-29 2008-10-01 上海汉光知识产权数据科技有限公司 专利数据检索系统
CN101546306A (zh) * 2008-03-27 2009-09-30 上海市知识产权服务中心 利用ipc分类的专利文献检索方法及系统
CN106294639A (zh) * 2016-08-01 2017-01-04 金陵科技学院 基于语义的跨语言专利新创性预判分析方法
CN106372226A (zh) * 2016-09-07 2017-02-01 知识产权出版社有限责任公司 信息检索装置及方法

Similar Documents

Publication Publication Date Title
CN108073568B (zh) 关键词提取方法和装置
US20190347281A1 (en) Apparatus and method for semantic search
CN111105209B (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
KR100816923B1 (ko) 문서 분류 시스템 및 그 방법
CN113761218B (zh) 一种实体链接的方法、装置、设备及存储介质
CN107844533A (zh) 一种智能问答系统及分析方法
CN106446071B (zh) 信息处理装置及方法
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
US9996742B2 (en) System and method for global identification in a collection of documents
CN104392006B (zh) 一种事件查询处理方法及装置
CN102495892A (zh) 一种网页信息抽取方法
CN101097570A (zh) 一种自动识别分类广告类型的广告分类方法
Mishra et al. Do we need to create big datasets to learn a task?
CN109189990A (zh) 一种搜索词的生成方法、装置及电子设备
CN109376235B (zh) 基于文档层词频重排序的特征选择方法
CN109344400A (zh) 一种文献入库的判断方法和装置
CN112199602A (zh) 岗位推荐方法、推荐平台及服务器
CN109284360A (zh) 一种专利检索自动去噪方法和装置
CN109189955A (zh) 一种自动检索关键词的确定方法和装置
CN109189893A (zh) 一种自动检索的方法和装置
DE102018007024A1 (de) Dokumentdurchsuchen mittels grammatischer einheiten
CN109325099A (zh) 一种自动检索的方法和装置
Gao et al. Text categorization based on improved Rocchio algorithm
CN109344397B (zh) 文本特征词语的提取方法及装置、存储介质及程序产品
CN109325101A (zh) 一种高价值专利的自动获得方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190215