CN109344400A - 一种文献入库的判断方法和装置 - Google Patents

一种文献入库的判断方法和装置 Download PDF

Info

Publication number
CN109344400A
CN109344400A CN201811085453.3A CN201811085453A CN109344400A CN 109344400 A CN109344400 A CN 109344400A CN 201811085453 A CN201811085453 A CN 201811085453A CN 109344400 A CN109344400 A CN 109344400A
Authority
CN
China
Prior art keywords
document
keyword
similarity
technical
target
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811085453.3A
Other languages
English (en)
Inventor
邓梅
宋国华
黄家旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU RAINPAT DATA SERVICE Co Ltd
Original Assignee
JIANGSU RAINPAT DATA SERVICE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU RAINPAT DATA SERVICE Co Ltd filed Critical JIANGSU RAINPAT DATA SERVICE Co Ltd
Priority to CN201811085453.3A priority Critical patent/CN109344400A/zh
Publication of CN109344400A publication Critical patent/CN109344400A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries

Abstract

本发明提供了一种文献入库的判断方法和装置,通过根据目标检索文档获得第一检索数据库;根据目标检索文档,获得所述目标检索文档所处的技术领域;根据所述技术领域获得技术工具词典;根据所述技术工具词典和第一关键词获得第一扩展词;根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;根据所述第一检索数据库获得第一文献;判断所述第一文献和第一比对文档的相似度;当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库。解决了目前检索比对的过程为人工进行,很容易造成检索出的文献内容相似度不高,无法获得准确检索结果的技术问题。达到准确得出与对比文档相似度高的目标数据库,使检索结果更加准确的技术效果。

Description

一种文献入库的判断方法和装置
技术领域
本发明涉及数据分析技术领域,尤其涉及一种文献入库的判断方法和装置。
背景技术
检索是指依据一定的方法,从已经组织好的大量有关文献集合中,查找并获取特定的相关文献的过程。将大量无序的信息集中起来,根据信息源的外表特征和内容特征,经过整理、分类、浓缩、标引等处理,使其系统化、有序化,并按一定的技术要求建成一个检索数据库。通常在人们做新课题、新项目或申请新专利前,都需要对技术领域内进行检索,查找新技术、新项目等是否已存在,避免造成侵权也避免造成人力财力物力的浪费,因而检索出的文献结果的准确度其为重要。
现有技术中检索比对的过程为人工进行,很容易造成检索出的文献内容相似度不高,无法获得准确检索结果的技术问题。
发明内容
本发明实施例提供了一种文献入库的判断方法和装置,解决了现有技术中检索比对的过程为人工进行,很容易造成检索出的文献内容相似度不高,无法获得准确检索结果的技术问题。
鉴于上述问题,提出了本申请实施例以便提供一种文献入库的判断方法和装置。
第一方面,本发明提供了一种文献入库的判断方法,所述方法包括:根据目标检索文档的第一关键词,获得第一检索数据库;根据目标检索文档,获得所述目标检索文档所处的技术领域;根据所述技术领域获得技术工具词典;根据所述技术工具词典和第一关键词获得第一扩展词;根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;根据所述第一检索数据库获得第一文献;判断所述第一文献和第一比对文档的相似度;当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库。
优选的,所述根据所述技术工具词典和第一关键词获得第一扩展词,包括:从所述技术工具词典中获得N个类似词;将N个类似词进行语义分析,获得M个扩展词;按照重复度获得第一扩展词。
优选的,所述第一扩展词和所述第一关键词为类似词。
优选的,所述判断所述第一文献和第一比对文档的相似度,包括:将所述第一文献进行语义分析,获得N个第一关键词,其中N为正整数;将第一比对文档进行语义分析,获得M个第二关键词,其中M为正整数;判断N个第一关键词与M个第二关键词的第一相似度。
优选的,所述判断所述第一文献和第一比对文档的相似度之后,包括:当所述相似度不满足第一预定条件时,将所述第一文献从所述目标数据库中删除。
优选的,所述方法还包括:根据所述第一检索数据库中获得第二文献;判断所述第二文献与和第一比对文档的相似度;当所述相似度满足第一预定条件时,将所述第二文献存入目标数据库。
第二方面,本发明提供了一种文献入库的判断装置,所述装置包括:
第一获得单元,所述第一获得单元用于根据目标检索文档的第一关键词,获得第一检索数据库;
第二获得单元,所述第二获得单元用于根据目标检索文档,获得所述目标检索文档所处的技术领域;
第三获得单元,所述第三获得单元用于根据所述技术领域获得技术工具词典;
第四获得单元,所述第四获得单元用于根据所述技术工具词典和第一关键词获得第一扩展词;
第五获得单元,所述第五获得单元用于根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;
第六获得单元,所述第六获得单元用于根据所述第一检索数据库获得第一文献;
第一判断单元,所述第一判断单元用于判断所述第一文献和第一比对文档的相似度;
第一执行单元,所述第一执行单元用于当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库。
优选的,所述装置还包括:
第七获得单元,所述第七获得单元用于从所述技术工具词典中获得N个类似词;
第八获得单元,所述第八获得单元用于将N个类似词进行语义分析,获得M个扩展词;
第九获得单元,所述第九获得单元用于按照重复度获得第一扩展词。
优选的,所述第一扩展词和所述第一关键词为类似词。
优选的,所述装置还包括:
第十获得单元,所述第十获得单元用于将所述第一文献进行语义分析,获得N个第一关键词,其中N为正整数;
第十一获得单元,所述第十一获得单元用于将第一比对文档进行语义分析,获得M个第二关键词,其中M为正整数;
第二判断单元,所述第二判断单元用于判断N个第一关键词与M个第二关键词的第一相似度。
优选的,所述装置还包括:
第一删除单元,所述第一删除单元用于当所述相似度不满足第一预定条件时,将所述第一文献从所述目标数据库中删除。
优选的,所述装置还包括:
第十二获得单元,所述第十二获得单元用于根据所述第一检索数据库中获得第二文献;
第三判断单元,所述第三判断单元用于判断所述第二文献与和第一比对文档的相似度;
第二执行单元,所述第二执行单元用于当所述相似度满足第一预定条件时,将所述第二文献存入目标数据库。
第三方面,本发明提供了一种文献入库的判断装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:根据目标检索文档的第一关键词,获得第一检索数据库;根据目标检索文档,获得所述目标检索文档所处的技术领域;根据所述技术领域获得技术工具词典;根据所述技术工具词典和第一关键词获得第一扩展词;根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;根据所述第一检索数据库获得第一文献;判断所述第一文献和第一比对文档的相似度;当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例提供的一种文献入库的判断方法和装置,通过根据目标检索文档的第一关键词,获得第一检索数据库;根据目标检索文档,获得所述目标检索文档所处的技术领域;根据所述技术领域获得技术工具词典;根据所述技术工具词典和第一关键词获得第一扩展词;根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;根据所述第一检索数据库获得第一文献;判断所述第一文献和第一比对文档的相似度;当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库,进而得到了相似度高的文献集合可以供检索分析使用,从而解决了现有技术中检索比对的过程为人工进行,通过关键词搜索出相关联的所有文献数据库,再从中查找相似度高的文献进行对比,文献数据库的准确与否对检索结果非常重要,很容易造成检索出的文献数据库中的文献内容与要对比的文档相似度不高,无法获得准确检索结果的技术问题。达到了与对比文档进行全面系统的相似度比对,准确得出与对比文档相似度高的目标数据库,使检索结果更加准确、有效,且省时省力的技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1为本发明实施例中一种文献入库的判断方法的流程示意图;
图2为本发明实施例中一种文献入库的判断装置的结构示意图;
图3为本发明实施例中另一种文献入库的判断装置的结构示意图。
附图标记说明:第一获得单元11,第二获得单元12,第三获得单元13,第四获得单元14,第五获得单元15,第六获得单元16,第一判断单元17,第一执行单元18,总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本发明实施例提供了一种文献入库的判断方法和装置,用于解决现有技术中检索比对的过程为人工进行,很容易造成检索出的文献内容相似度不高,无法获得准确检索结果的技术问题。
本发明提供的技术方案总体思路如下:通过根据目标检索文档的第一关键词,获得第一检索数据库;根据目标检索文档,获得所述目标检索文档所处的技术领域;根据所述技术领域获得技术工具词典;根据所述技术工具词典和第一关键词获得第一扩展词;根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;根据所述第一检索数据库获得第一文献;判断所述第一文献和第一比对文档的相似度;当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库。达到了与对比文档进行全面系统的相似度比对,准确得出与对比文档相似度高的目标数据库,使检索结果更加准确、有效,且省时省力的技术效果。
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
图1为本发明实施例中一种文献入库的判断方法的流程示意图。如图1所示,一种文献入库的判断方法,所述方法包括:
步骤110:根据目标检索文档的第一关键词,获得第一检索数据库;
具体而言,在目标检索文档中分析得出其第一关键词,所述第一关键词为所述目标检索文档中的核心主体内容,通过所述第一关键词可以得出与所述目标检索文档相关的一系列资料,利用所述第一关键词在知识产权大数据内进行搜索,调取标题、内容中出现过所述第一关键词的所有文献数据从而形成第一检索数据库。
步骤120:根据目标检索文档,获得所述目标检索文档所处的技术领域;
具体而言,通过所述目标检索文档的内容分析,获取所述目标检索文档中所描述的具体内容属于某一技术领域,通过确定的技术领域可以进一步查找相关度高的资料信息,排除无效信息。
步骤130:根据所述技术领域获得技术工具词典;
具体而言,根据判断出的所述目标检索文档所属的具体技术领域相应的找出该技术领域的技术工具词典,所述技术工具词典为该技术领域中的所有相关常用名词,专有特征、技术术语等等,即全面包括了该技术领域中的所有核心内容和关键词。
步骤140:根据所述技术工具词典和第一关键词获得第一扩展词;
进一步的,所述根据所述技术工具词典和第一关键词获得第一扩展词,包括:从所述技术工具词典中获得N个类似词;将N个类似词进行语义分析,获得M个扩展词;按照重复度获得第一扩展词。
进一步的,所述第一扩展词和所述第一关键词为类似词。
具体而言,在所述技术工具词典内查找与所述第一关键词的同义词或意思相近、起到相同作用等相关词语,该词语为所述第一关键词的类似词,所述类似词为多个,举例而言,若关键词为“钉子”,可以在相关技术工具词典中,查找相类似的词,如螺钉、螺栓等等多个相近或者作用相同的类似词。然后将查找出的多个类似词再进行语义分析,找出与所述第一关键词意思接近的多个扩展词,最后通过对经过语义分析确定的多个扩展词进行出现次数的数量统计,将出现次数最多重复度最高的扩展词作为第一扩展词,所述第一扩展词为与所述第一关键词相近程度高的类似词。
步骤150:根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;
具体而言,将通过步骤140获得的所述第一扩展词结合所述目标检索文档和所述第一关键词在大数据库内进行搜索,查找到满足条件的第一比对文档,所述第一比对文档为与所述目标检索文档匹配程度较高的文档资料,可以作为分类参考的目标文档。
步骤160:根据所述第一检索数据库获得第一文献;
具体而言,在通过所述第一关键词在大数据库内检索得出的所述第一检索数据库中调出相关文献,所述文献均为与目标检索文档有一定关联性,内容中包含所述第一关键词的文献资料。
步骤170:判断所述第一文献和第一比对文档的相似度;
进一步的,所述判断所述第一文献和第一比对文档的相似度,包括:将所述第一文献进行语义分析,获得N个第一关键词,其中N为正整数;将第一比对文档进行语义分析,获得M个第二关键词,其中M为正整数;判断N个第一关键词与M个第二关键词的第一相似度。
具体而言,对所述第一检索数据库内的第一文献与所述第一比对文档进行比对分析,首先在所述第一文献内进行语义分析,得出其中多个第一关键词,然后对所述第一比对文档内容进行语义分析,得出所述第一比对文档中出现的多个第二关键词,最后对所述多个第一关键词和所述多个第二关键词依次进行语义分析,得出所述多个第一关键词和所述多个第二关键词的相似程度,对其相似程度经过计算量化得出所述多个第一关键词与所述多个第二关键词之间的第一相似度数值,此值作为所述第一文献与所述第一比对文档的相似度。
步骤180:当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库。
进一步的,所述判断所述第一文献和第一比对文档的相似度之后,包括:当所述相似度不满足第一预定条件时,将所述第一文献从所述目标数据库中删除。
具体而言,将得到的所述第一文献与所述第一比对文档的相似度与系统内预先设定的第一预定条件进行比较,所述第一预定条件可以为预先设定的相似度阈值。当所述第一文献与所述第一比对文档的相似度满足第一预定条件时,则所述第一文献为与所述第一比对文档属同一技术领域,内容相关性大的文献资料,则将所述第一文献作为目标文献录入目标数据库内;若所述第一文献与所述第一比对文档的相似度低于所述第一预定条件,即不满足条件时,所述第一文档为不符文献,则不进入所述目标数据库中,将其删除。举例而言,当预设的第一预定条件为相似度不小于0.8,所述第一文献与所述第一比对文档的经分析并量化得出相似度为0.85,因而大于所述第一预定条件设定的0.8这个条件,满足要求,所述第一文献则为目标文献存入所述目标数据库中,若相似度计算出为0.7,由于不满足预定条件的不小于0.8,则不符合目标文献的要求,将其删除。
进一步的,所述方法还包括:根据所述第一检索数据库中获得第二文献;判断所述第二文献与和第一比对文档的相似度;当所述相似度满足第一预定条件时,将所述第二文献存入目标数据库。
具体而言,将通过所述第一关键词搜索出的所述第一检索数据库内的文献依次进行比对,对所述第一文献进行对比分析后,再从所述第一检索数据库中获取另一个文献作为第二文献,将所述第二文献与所述第一比对文档进行相似度比较,经关键词分析处理并进行量化得出所述第二文献与所述第一比对文档的相似度数值,当所述第二文献与所述第一比对文档的相似度满足所述第一预定条件时,则存入所述目标数据库内,反之则删除,以此类推,将所述第一检索数据库内的所有与所述第一关键词相关的文献进行分析入档,从而完成了对相似度高的文献进行归档入库的工作,得到了与对比文档相似度高的文献集合,可以为后续检索分析的准确性提供保障,从而解决了现有技术中检索比对的过程为人工进行,通过关键词搜索出相关联的所有文献数据库,再从中查找相似度高的文献进行对比,文献数据库的准确与否对检索结果非常重要,很容易造成检索出的文献数据库中的文献内容与要对比的文档相似度不高,无法获得准确检索结果的技术问题。达到了与对比文档进行全面系统的相似度比对,准确得出与对比文档相似度高的目标数据库,使检索结果更加准确、有效,且省时省力的技术效果。
进一步的,所述方法还包括:从所述第一检索数据库中获得第一文献;判断所述第一文献和目标检索文档之间的相似度;当所述相似度满足第一预定条件时,将所述第一检索数据库列为目标数据库。进一步的,所述判断所述第一文献和目标检索文档之间的相似度,还包括:根据所述第一文献与所述目标检索文档的权利要求进行语义分析,获得第一相似语段;确定所述第一相似语段与所述目标检索文档的权利要求的字数的第一比值;判断所述第一比值是否大于第一预定阈值;当所述第一比值大于第一预定阈值时,获得所述第一文献和目标检索文档之间的第二相似度。
具体而言,通过语义分析在所述文献内容中找到其中出现频率多的关键词,再在所述目标检索文档中找到其中出现频率多的关键词,将二者的关键词进行对比,获得其中的相似度,该相似度为第一相似度,若所述关键词相同,或者为同义词则所述第一相似度值就大。除了对关键词进行对比外,还进一步对两者的权利要求内容进行对比,使检索结果更加准确,具体实现过程为:将所述文献和所述目标检索文档的权利要求分别进行语义分析,从中查找对比出内容相似度高的段落,再将该相似度较高的段落进行字数对比,得到所述相似度高段落的第二相似度,若字数也相近,所述第二相似度比值则大,最后判断所述第一相似度与所述第二相似度哪个数值更大,选其中较大的作为所述文献与所述目标检索文档的最终相似程度。将通过对比获得的相似度值与检索系统预先设定相似度进行对比,判断检索出的文献内容与所述目标检索文档是否相近,通过自动搜索最终将获取所述目标检索文档的目标检索内容,系统自动检索更加全面,避免人为因素加入造成的漏检、错检等问题,从而解决了现有技术中检索过程人工进行操作,根据名称或关键字进行手动搜索,再将检索结果进行整理分析,存在检索耗时长,且容易出现漏检的技术问题,达到了自动进行系统检索,检索对比更加细致,检索结果更准确,避免因人工引入的不稳定因素出现漏检现象,提高检索效率的技术效果。
进一步的,所述方法还包括:根据所述目标检索文档,获得扩展词范围;从所述第一检索数据库中按照第一规则获得第一扩展词,其中,所述第一扩展词在所述扩展词范围内;根据所述第一扩展词获得第二检索数据库;根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
具体而言,根据目标检索文档,通过判断全文文字字义及说明书内容,确定所述目标检索文档所处的技术领域。通过所述技术领域判断所属领域运用的技术知识,从而确定技术工具词典。然后通过所述技术工具词典确定专利文献中的核心技术的关键词的范围,即扩展词范围。通过第一检索词从所述第一检索数据库中检索出多个专利文献,将所述多个专利文献进行语义分析,主要判断专利文献中的核心技术的关键词,从所述关键词中确定对检索专利的多个扩展词,如发明名称、技术领域、说明书摘要等。判断多个扩展词中词意相同或相近的词语,且多个扩展词中重复度最高的扩展词作为第一扩展词,所述第一扩展词在所述扩展词范围内。其中,所述第一扩展词与所述第一检索词为类似词,如,聚乙烯与热塑性树脂等。判断第一扩展词是否在所述扩展词范围内,当所述第一扩展词在所述扩展词范围内时,可根据第一扩展词检索专利文献的数据库为第二检索数据库。通过第一检索词确定的所述第一检索数据库与通过第一扩展词确定的所述第二检索数据库的合集可以得到目标检索文档的目标数据库,通过所述第二检索数据库和所述第一检索数据库检索的专利文献准确性高。根据所述第一权重值与所述第二权重值计算所述目标数据库的加权值,通过所述加权值确定所述目标数据库的准确性。
进一步的,所述方法还包括:从自动检索文档中获得第一关键词;根据所述第一关键词确定第一检索数据库;从所述第一检索数据库中确定第一文献;判断所述第一文献和目标检索文档的相似度;当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。
具体而言,将需要检索的文档录入自动检索关键词的检索系统中,通过系统对所述目标检索文档内容分析获取其中的关键词,作为第一关键词,所述第一关键词可以为标题的主语,或者文档中出现频率较多的词语,也可以为经过语义分析出的核心效果表述词等等。在获取了所述第一关键词后,要对所述第一关键词进行再次确认,先根据所述目标检索文档确定其内容描述的具体技术领域,根据判断出的所述具体技术领域相应的找出该技术领域的技术工具词典,所述技术工具词典为该技术领域中的所有相关常用名词,专有特征、技术术语等等,即全面包括了该技术领域中的所有关键词,接着在所述技术工具词典内查找所述目标检索文档所在的技术领域中的所有关键词,与已经查找出的所述第一关键词进行对比分析,判断所述第一关键词是否包括在所述该技术领域中查找出的关键词范围内,若所述第一关键词在所述关键词范围内则,所述第一关键词为有效关键词,若不在所述关键词范围中,则为无效关键词需要继续查找,知道查到到有效的第一关键词,然后使用所述第一关键词在互联网文献的大数据库内进行检索,得出关于所述第一关键词的所有文献集合,形成第一检索数据库,所述第一检索数据库为经过关键词确认后检索出的所有文献集合,保证了检索的全面性和正确性。
在通过所述第一关键词在大数据库内检索得出的所述第一检索数据库中调出相关文献,所述文献均为与目标检索文档有一定关联性的文献资料,从所述第一检索数据库中查找出相应的文献,分别对所述第一检索数据库内关联度高的文献具体内容进行依次对比分析,判断所述第一检索数据库内的文献与所述目标检索文档之间的相似程度,所述相似度系统进行量化为具体的数据。
在系统内预先设置相似度阈值,根据得到的相似度与设定的预定条件进行对比,当所述第一检索数据库内的文献与所述目标检索文档的相似度数值满足预定条件,则确定所述文献为有效文献。当确定了有效的对比文献后,再从所述文献中查找第二关键词,所述第二关键词与所述第一关键词为不同的关键词,但属于同一技术领域,都是从确定的技术领域检索出的所述第一检索数据库中分析得出的关键词。
进一步的,所述方法还包括:根据所述目标检索文档确定第一分类号;根据所述第一文献确定第二分类号;判断所述第一分类号和第二分类号是否为近似分类号;当所述第一分类号和第二分类号不为近似分类号,将所述第一文献从所述第一目标数据库中删除。
进一步的,所述判断所述第一分类号和第二分类号是否为近似分类号,包括:根据所述第一分类号确定所述目标检索文档所包含的部、大类、小类、大组、小组的第一含义;根据所述第二分类号确定所述第一文献所包含的部、大类、小类、大组、小组的第二含义;判断所述第一含义与所述第二含义是否语义相近;当所述第一含义与所述第二含义语义不相近时,所述第一分类号和第二分类号不为近似分类号。
具体而言,首先根据目标检索文档,获得所述目标检索文档所处的技术领域,再根据所述技术领域获得技术工具词典,进而获得关键词的范围,然后判断所述第一关键词是否在所述关键词的范围内,当所述第一关键词在所述关键词范围内时,在专利检索网站上输入所述第一关键词进行搜索,从而获得包含所述第一关键词的所述第一目标数据库,其中,所述第一目标数据库中收集了大量的包含所述第一关键词的专利文献。在获得所述第一目标数据库后,在所述第一目标数据库中的若干个包含所述第一关键词的专利文献中,任意挑选出一篇包含所述第一关键词的专利文献作为所述第一文献;与此同时,根据所述目标检索文档确定出的所述技术领域,进而确定出所述第一分类号,然后打开挑选出来的所述第一文献,进而确定出所述第一文献的第二分类号。再将所述第一分类号与所述第二分类号进行比对,分析判断出所述第一分类号和所述第二分类号是否为近似分类号。在确定出所述第一分类号和第二分类号不为近似分类号时,即可确定所述第一文献与所述目标检索文档的语义不相近,也可以说所述第一文献与所述目标检索文档的内容不相关,此时就将所述第一文献从所述第一目标数据库中删除。
进一步的,所述方法还包括:根据所述第一文献确定第一分类号;根据所述第一分类号确定所述第一文献所包含的部、大类、小类、大组、小组的第一含义;对所述第一含义与所述目标检索文档进行语义分析,其中,所述第一含义与所述目标检索文档语义不接近时,将所述第一文献从所述第一目标数据库中删除。
具体而言,通过确定的第一文献的分类号中部、大类、小类、大组、小组的第一含义,从而判断第一文献与所述目标检索文档的语义是否相同,进而达到将第一文献去噪的目的。
进一步的,所述方法包括:根据第一目标数据库按照分类号确定专利文献数量排名;获得所述分类号中专利文献数量最少的第一分类号;从所述第一分类号的专利文献中获得第一文献;判断所述第一文献与目标专利文献的第一相似度;当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
具体而言,所述目标专利文献为用户想要检索的专利文献,所述第一目标数据库为包含所述目标专利文献的数据库,然后确定所述第一目标数据库中包含的专利文献的Q个分类号,其中,Q为正整数,再按照所述Q个分类号将所述第一目标数据库中包含的所有专利文献进行归类,从而获得所述Q个分类号相对应的专利文献数量,并对所述Q个分类号对应的专利文献数量按升序进行排名,进而获得所述Q个分类号中专利文献数量最少的第一分类号,其中,所述第一分类号包含在所述Q个分类号中,为所述Q个分类号的其中一个分类号,且所述第一分类号相对应的专利文献数量最少。从所述第一分类号的专利文献中检索获得第一文献,分析判断所述第一文献与所述目标专利文献的第一相似度,即就是分别对所述第一文献和所述目标专利文献的名称、说明书内容进行语义分析,确定出所述第一文献与所述目标专利文献的所述第一相似度,当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
进一步的,所述方法包括:根据第一文献获得专利权人信息,其中,通过所述专利权人信息判断专利权人的性质;当所述专利权人信息满足第一预定条件时,向第一目标专利数据库发送提示信息,其中所述提示信息为所述第一文献。
具体而言,通过对所获得的专利数据库中每篇专利文献的检索,获得每篇专利文献的专利权人信息和转移历史,预设一个阈值,当专利转让次数高于该阈值时,对该专利进行评分,获得该专利的第一价值评分。通过检索平台获得该专利的专利权人或者申请人的性质以及被引用的次数,再通过被引用次数判断该专利的第二价值评分。当第一文献满足第二价值评估分数时,发送第一文献至所述第一目标专利数据库,对该文献进行保存,并提示用户该文献满足检索要求。同时,根据用户在专利检索平台的检索历史获得第二关键词,将与第二关键词相关的第二价值评估分数高的专利向用户推送信息,推送信息包括该专利的专利权人、说明书摘要、专利权人转移历史等信息。
进一步的,所述方法包括:根据所述第一文献,获得所述第一文献的权利要求数量、权利要求字数及说明书字数;根据所述第一文献的权利要求数量、权利要求字数及说明书字数,获得所述第一文献的第一权重值、第二权重值及第三权重值,并确定所述第一文献的第一价值评估分数;判断所述第一价值评估分数是否大于第一预定阈值;当所述第一价值评估分数大于第一预定阈值时,向第一目标专利数据库发送提示信息,其中所述提示信息为所述第一文献。
具体而言,通过检索自动获得该专利文献的权利要求的数量以及权利要求和说明书的字数,通过目标专利的权利要求数量确定第一权重值,所述第一权重值为:目标专利的权利要求数量×所占分值比例,通过目标专利权利要求书的字数确定目标专利的第二权重值,所述第二权重值为:目标专利权利要求书的字数×所占分值比例,通过目标专利说明书的字数确定目标专利的第三权重值,所述第三权重值为:目标专利说明书的字数×所占分值比例,根据所述第一权重值、第二权重值与第三权重值,获得目标专利的第一价值评估分数。设定一个预定阈值,当目标专利的第一价值评估分数大于该预定阈值时,将该专利文献发送至所述第一目标专利数据库,确定该篇专利文献为符合条件的文献。同时,根据用户在专利检索平台的检索历史获得第二关键词,将与第二关键词相关的第一价值评估分数高的专利向用户推送信息,推送信息包括该专利的专利权人、说明书摘要、专利许可信息和诉讼信息等信息。
实施例二
基于与前述实施例中一种文献入库的判断方法同样的发明构思,本发明还提供一种文献入库的判断装置,如图2所示,所述装置包括:
第一获得单元11,所述第一获得单元11用于根据目标检索文档的第一关键词,获得第一检索数据库;
第二获得单元12,所述第二获得单元12用于根据目标检索文档,获得所述目标检索文档所处的技术领域;
第三获得单元13,所述第三获得单元13用于根据所述技术领域获得技术工具词典;
第四获得单元14,所述第四获得单元14用于根据所述技术工具词典和第一关键词获得第一扩展词;
第五获得单元15,所述第五获得单元15用于根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;
第六获得单元16,所述第六获得单元16用于根据所述第一检索数据库获得第一文献;
第一判断单元17,所述第一判断单元17用于判断所述第一文献和第一比对文档的相似度;
第一执行单元18,所述第一执行单元18用于当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库。
进一步的,所述装置还包括:
第七获得单元,所述第七获得单元用于从所述技术工具词典中获得N个类似词;
第八获得单元,所述第八获得单元用于将N个类似词进行语义分析,获得M个扩展词;
第九获得单元,所述第九获得单元用于按照重复度获得第一扩展词。
进一步的,所述第一扩展词和所述第一关键词为类似词。
进一步的,所述装置还包括:
第十获得单元,所述第十获得单元用于将所述第一文献进行语义分析,获得N个第一关键词,其中N为正整数;
第十一获得单元,所述第十一获得单元用于将第一比对文档进行语义分析,获得M个第二关键词,其中M为正整数;
第二判断单元,所述第二判断单元用于判断N个第一关键词与M个第二关键词的第一相似度。
进一步的,所述装置还包括:
第一删除单元,所述第一删除单元用于当所述相似度不满足第一预定条件时,将所述第一文献从所述目标数据库中删除。
进一步的,所述装置还包括:
第十二获得单元,所述第十二获得单元用于根据所述第一检索数据库中获得第二文献;
第三判断单元,所述第三判断单元用于判断所述第二文献与和第一比对文档的相似度;
第二执行单元,所述第二执行单元用于当所述相似度满足第一预定条件时,将所述第二文献存入目标数据库。
前述图1实施例一中的一种文献入库的判断方法的各种变化方式和具体实例同样适用于本实施例的一种文献入库的判断装置,通过前述对一种文献入库的判断方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种文献入库的判断装置的实施方法,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例中一种文献入库的判断方法同样的发明构思,本发明还提供一种文献入库的判断装置,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种网络权限的认证方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例提供的一种文献入库的判断方法和装置,通过根据目标检索文档的第一关键词,获得第一检索数据库;根据目标检索文档,获得所述目标检索文档所处的技术领域;根据所述技术领域获得技术工具词典;根据所述技术工具词典和第一关键词获得第一扩展词;根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;根据所述第一检索数据库获得第一文献;判断所述第一文献和第一比对文档的相似度;当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库,进而得到了相似度高的文献集合可以供检索分析使用,从而解决了现有技术中检索比对的过程为人工进行,通过关键词搜索出相关联的所有文献数据库,再从中查找相似度高的文献进行对比,文献数据库的准确与否对检索结果非常重要,很容易造成检索出的文献数据库中的文献内容与要对比的文档相似度不高,无法获得准确检索结果的技术问题。达到了与对比文档进行全面系统的相似度比对,准确得出与对比文档相似度高的目标数据库,使检索结果更加准确、有效,且省时省力的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种文献入库的判断方法,其特征在于,所述方法包括:
根据目标检索文档的第一关键词,获得第一检索数据库;
根据目标检索文档,获得所述目标检索文档所处的技术领域;
根据所述技术领域获得技术工具词典;
根据所述技术工具词典和第一关键词获得第一扩展词;
根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;
根据所述第一检索数据库获得第一文献;
判断所述第一文献和第一比对文档的相似度;
当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库。
2.如权利要求1所述的方法,其特征在于,所述根据所述技术工具词典和第一关键词获得第一扩展词,包括:
从所述技术工具词典中获得N个类似词;
将N个类似词进行语义分析,获得M个扩展词;
按照重复度获得第一扩展词。
3.如权利要求1所述的方法,其特征在于,所述第一扩展词和所述第一关键词为类似词。
4.如权利要求1所述的方法,其特征在于,所述判断所述第一文献和第一比对文档的相似度,包括:
将所述第一文献进行语义分析,获得N个第一关键词,其中N为正整数;
将第一比对文档进行语义分析,获得M个第二关键词,其中M为正整数;
判断N个第一关键词与M个第二关键词的第一相似度。
5.如权利要求1所述的方法,其特征在于,所述判断所述第一文献和第一比对文档的相似度之后,包括:
当所述相似度不满足第一预定条件时,将所述第一文献从所述目标数据库中删除。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第一检索数据库中获得第二文献;
判断所述第二文献与和第一比对文档的相似度;
当所述相似度满足第一预定条件时,将所述第二文献存入目标数据库。
7.一种文献入库的判断装置,其特征在于,所述装置包括:
第一获得单元,所述第一获得单元用于根据目标检索文档的第一关键词,获得第一检索数据库;
第二获得单元,所述第二获得单元用于根据目标检索文档,获得所述目标检索文档所处的技术领域;
第三获得单元,所述第三获得单元用于根据所述技术领域获得技术工具词典;
第四获得单元,所述第四获得单元用于根据所述技术工具词典和第一关键词获得第一扩展词;
第五获得单元,所述第五获得单元用于根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;
第六获得单元,所述第六获得单元用于根据所述第一检索数据库获得第一文献;
第一判断单元,所述第一判断单元用于判断所述第一文献和第一比对文档的相似度;
第一执行单元,所述第一执行单元用于当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库。
8.一种文献入库的判断装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
根据目标检索文档的第一关键词,获得第一检索数据库;
根据目标检索文档,获得所述目标检索文档所处的技术领域;
根据所述技术领域获得技术工具词典;
根据所述技术工具词典和第一关键词获得第一扩展词;
根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;
根据所述第一检索数据库获得第一文献;
判断所述第一文献和第一比对文档的相似度;
当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库。
CN201811085453.3A 2018-09-18 2018-09-18 一种文献入库的判断方法和装置 Withdrawn CN109344400A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811085453.3A CN109344400A (zh) 2018-09-18 2018-09-18 一种文献入库的判断方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811085453.3A CN109344400A (zh) 2018-09-18 2018-09-18 一种文献入库的判断方法和装置

Publications (1)

Publication Number Publication Date
CN109344400A true CN109344400A (zh) 2019-02-15

Family

ID=65305388

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811085453.3A Withdrawn CN109344400A (zh) 2018-09-18 2018-09-18 一种文献入库的判断方法和装置

Country Status (1)

Country Link
CN (1) CN109344400A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489526A (zh) * 2019-08-13 2019-11-22 上海市儿童医院 一种用于医学检索的检索词扩展方法、装置及存储介质
WO2021042554A1 (zh) * 2019-09-03 2021-03-11 平安科技(深圳)有限公司 一种法律文本归档方法、装置、可读存储介质及终端设备
CN117112735A (zh) * 2023-10-19 2023-11-24 中汽信息科技(天津)有限公司 一种专利数据库的构建方法和电子设备

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110489526A (zh) * 2019-08-13 2019-11-22 上海市儿童医院 一种用于医学检索的检索词扩展方法、装置及存储介质
WO2021042554A1 (zh) * 2019-09-03 2021-03-11 平安科技(深圳)有限公司 一种法律文本归档方法、装置、可读存储介质及终端设备
CN117112735A (zh) * 2023-10-19 2023-11-24 中汽信息科技(天津)有限公司 一种专利数据库的构建方法和电子设备
CN117112735B (zh) * 2023-10-19 2024-02-13 中汽信息科技(天津)有限公司 一种专利数据库的构建方法和电子设备

Similar Documents

Publication Publication Date Title
CN111105209B (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
JP7090936B2 (ja) Esg基盤の企業評価遂行装置及びその作動方法
CN109240901B (zh) 性能分析方法、性能分析装置、存储介质和电子设备
KR100816934B1 (ko) 문서검색 결과를 이용한 군집화 시스템 및 그 방법
CN109255031A (zh) 基于知识图谱的数据处理方法
WO2020253503A1 (zh) 人才画像的生成方法、装置、设备及存储介质
CN108073568A (zh) 关键词提取方法和装置
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
RU2591175C1 (ru) Способ и система для глобальной идентификации в коллекции документов
CN110334178A (zh) 数据检索方法、装置、设备及可读存储介质
JP2016532173A (ja) 意味情報、キーワード拡張及びそれに関するキーワード検索の方法及びシステム
KR20180072167A (ko) 유사특허 추출 시스템 및 그 방법
CN101097570A (zh) 一种自动识别分类广告类型的广告分类方法
CN109241278B (zh) 科研知识管理方法及系统
CN109344400A (zh) 一种文献入库的判断方法和装置
Mishra et al. Do we need to create big datasets to learn a task?
CN112199602A (zh) 岗位推荐方法、推荐平台及服务器
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
US20170154294A1 (en) Performance evaluation device, control method for performance evaluation device, and control program for performance evaluation device
CN107908649B (zh) 一种文本分类的控制方法
CN109189955A (zh) 一种自动检索关键词的确定方法和装置
CN109284360A (zh) 一种专利检索自动去噪方法和装置
CN109189893A (zh) 一种自动检索的方法和装置
CN109325099A (zh) 一种自动检索的方法和装置
Yuan et al. A mathematical information retrieval system based on RankBoost

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20190215

WW01 Invention patent application withdrawn after publication