CN109189893A - 一种自动检索的方法和装置 - Google Patents

一种自动检索的方法和装置 Download PDF

Info

Publication number
CN109189893A
CN109189893A CN201811085378.0A CN201811085378A CN109189893A CN 109189893 A CN109189893 A CN 109189893A CN 201811085378 A CN201811085378 A CN 201811085378A CN 109189893 A CN109189893 A CN 109189893A
Authority
CN
China
Prior art keywords
document
database
target
expansion word
searching database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811085378.0A
Other languages
English (en)
Inventor
邓梅
宋国华
黄家旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU RAINPAT DATA SERVICE Co Ltd
Original Assignee
JIANGSU RAINPAT DATA SERVICE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU RAINPAT DATA SERVICE Co Ltd filed Critical JIANGSU RAINPAT DATA SERVICE Co Ltd
Priority to CN201811085378.0A priority Critical patent/CN109189893A/zh
Publication of CN109189893A publication Critical patent/CN109189893A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/11Patent retrieval

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种自动检索的方法和装置,通过获得目标检索文档,所述目标检索文档包括第一检索词;根据所述第一检索词获得第一检索数据库;从所述第一检索数据库中按照第一规则获得第一扩展词;根据所述第一扩展词获得第二检索数据库;根据所述第二检索数据库和所述第一检索数据库获得目标数据库。解决现有技术中非知识产权从业人员在检索专利时,容易出现检索范围过大,出现大量的噪音,或者在检索过程中未对关键词扩展或上位,出现漏检的技术问题,达到了操作便捷,可自动检索专利,且检索准确的技术效果。

Description

一种自动检索的方法和装置
技术领域
本发明涉及知识产权技术领域,尤其涉及一种自动检索的方法和装置。
背景技术
目前,利用专利检索平台进行专利检索时,通常是要人工输入一些关键的词汇并使用与、或等逻辑关系字段以及其他字段构成一个检索式,这些字段包括:专利号、专利名称、摘要、国际分类号、发明人、申请人、公开日等,检索式准确与否,合适与否,都会对检索的结果产生很大的影响。
现有技术中非知识产权从业人员在检索专利时,容易出现检索范围过大,出现大量的噪音,或者在检索过程中未对关键词扩展或上位,出现漏检的情况。
发明内容
本发明实施例提供了一种自动检索的方法和装置,解决现有技术中非知识产权从业人员在检索专利时,容易出现检索范围过大,出现大量的噪音,或者在检索过程中未对关键词扩展或上位,出现漏检的技术问题。
鉴于上述问题,提出了本申请实施例以便提供一种自动检索的的方法和装置。
第一方面,本发明提供了一种自动检索的方法,所述方法包括:
获得目标检索文档,所述目标检索文档包括第一检索词;根据所述第一检索词获得第一检索数据库;从所述第一检索数据库中按照第一规则获得第一扩展词;根据所述第一扩展词获得第二检索数据库;根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
优选地,所述从所述第一检索数据库中按照第一规则获得第一扩展词,包括:
从所述第一检索数据库中获得N个专利文献;将N个专利文献进行语义分析,获得P个扩展词;根据所述P个扩展词,按照重复度获得第一扩展词。
优选地,所述第一扩展词与所述第一检索词为类似词。
优选地,所述根据所述第一扩展词获得第二检索数据库,包括:
根据目标检索文档,获得所述目标检索文档所处的技术领域;根据所述技术领域获得技术工具词典;根据所述技术工具词典,获得扩展词范围;判断所述第一扩展词是否在所述扩展词范围内;当所述第一扩展词在所述扩展词范围内时,根据所述第一扩展词获得第二检索数据库。
优选地,所述方法还包括:
根据所述第一检索数据库和所述第二检索数据获得第一文献,其中,所述第一文献在所述第一检索数据库中,所述第一文献在所述第二检索数据库中;判断所述第一文献和所述目标检索文档的对比度;当对比度低于第一预定阈值时,将所述第一文献从所述目标数据库中删除。
优选地,所述方法还包括:
从所述目标数据库中获得第二文献;判断所述第二文献与所述目标检索文档的对比度;当对比度低于第二预定阈值时,将所述第二文献从所述目标数据库中删除。
第二方面,本发明提供了一种自动检索的装置,所述装置包括:
第一获得单元,用于获得目标检索文档,所述目标检索文档包括第一检索词;
第二获得单元,用于根据所述第一检索词获得第一检索数据库;
第三获得单元,用于从所述第一检索数据库中按照第一规则获得第一扩展词;
第四获得单元,用于根据所述第一扩展词获得第二检索数据库;
第五获得单元,用于根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
优选地,所述第三获得单元包括:
第六获得单元,用于从所述第一检索数据库中获得N个专利文献;
第七获得单元,用于将N个专利文献进行语义分析,获得P个扩展词;
第八获得单元,用于根据所述P个扩展词,按照重复度获得第一扩展词。
优选地,所述第三获得单元包括:所述第一扩展词与所述第一检索词为类似词。
优选地,所述第四获得单元包括:
第九获得单元,用于根据目标检索文档,获得所述目标检索文档所处的技术领域;
第十获得单元,用于根据所述技术领域获得技术工具词典;
第十一获得单元,用于根据所述技术工具词典,获得扩展词范围;
第一判断单元,用于判断所述第一扩展词是否在所述扩展词范围内;
第十二获得单元,用于当所述第一扩展词在所述扩展词范围内时,根据所述第一扩展词获得第二检索数据库。
优选地,所述装置还包括:
第十三获得单元,用于根据所述第一检索数据库和所述第二检索数据获得第一文献,其中,所述第一文献在所述第一检索数据库中,所述第一文献在所述第二检索数据库中;
第二判断单元,用于判断所述第一文献和所述目标检索文档的对比度;
第一执行单元,用于当对比度低于第一预定阈值时,将所述第一文献从所述目标数据库中删除。
优选地,所述装置还包括:
第十四获得单元,用于从所述目标数据库中获得第二文献;
第三判断单元,用于判断所述第二文献与所述目标检索文档的对比度;
第二执行单元,用于当对比度低于第二预定阈值时,将所述第二文献从所述目标数据库中删除。
第三方面,本发明提供了一种自动检索的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:获得目标检索文档,所述目标检索文档包括第一检索词;根据所述第一检索词获得第一检索数据库;从所述第一检索数据库中按照第一规则获得第一扩展词;根据所述第一扩展词获得第二检索数据库;根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
1.本申请实施例提供的一种自动检索的方法和装置,通过获得目标检索文档,所述目标检索文档包括第一检索词;根据所述第一检索词获得第一检索数据库;从所述第一检索数据库中按照第一规则获得第一扩展词;根据所述第一扩展词获得第二检索数据库;根据所述第二检索数据库和所述第一检索数据库获得目标数据库。解决现有技术中非知识产权从业人员在检索专利时,容易出现检索范围过大,出现大量的噪音,或者在检索过程中未对关键词扩展或上位,出现漏检的技术问题,达到了操作便捷,可自动检索专利,且检索准确的技术效果。
2.本申请实施例通过所述从所述第一检索数据库中按照第一规则获得第一扩展词,包括:从所述第一检索数据库中获得N个专利文献;将N个专利文献进行语义分析,获得P个扩展词;根据所述P个扩展词,按照重复度获得第一扩展词。进一步通过限定扩展词的范围,达到检索结果更加准确的技术效果。
3.本申请实施例通过根据所述第一检索数据库和所述第二检索数据获得第一文献,其中,所述第一文献在所述第一检索数据库中,所述第一文献在所述第二检索数据库中;判断所述第一文献和所述目标检索文档的对比度;当对比度低于第一预定阈值时,将所述第一文献从所述目标数据库中删除。进一步通过判断第一文献和目标检索文档的对比度,提高检索结果准确性,避免出现大量噪音的技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1为本发明实施例中一种自动检索的方法的流程示意图;
图2为本发明实施例中一种自动检索的装置的结构示意图;
图3为本发明实施例中另一种自动检索的装置的结构示意图。
附图标记说明:总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本发明实施例提供了一种自动检索的方法和装置,本发明提供的技术方案总体思路如下:通过获得目标检索文档,所述目标检索文档包括第一检索词;根据所述第一检索词获得第一检索数据库;从所述第一检索数据库中按照第一规则获得第一扩展词;根据所述第一扩展词获得第二检索数据库;根据所述第二检索数据库和所述第一检索数据库获得目标数据库。解决现有技术中非知识产权从业人员在检索专利时,容易出现检索范围过大,出现大量的噪音,或者在检索过程中未对关键词扩展或上位,出现漏检的技术问题,达到了操作便捷,可自动检索专利,且检索准确的技术效果。
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
图1为本发明实施例中一种自动检索的方法的流程示意图。如图1所示,所述方法包括:
步骤110:获得目标检索文档,所述目标检索文档包括第一检索词。
具体而言,获得目标检索文档是需要检索相似技术的目标文档,该目标检索文档具有一些关键信息,如检索词、技术领域、分类号等。所述目标检索文档包括第一检索词,其中,所述第一检索词为所述目标检索文档的核心技术的关键词。
步骤120:根据所述第一检索词获得第一检索数据库。
步骤130:从所述第一检索数据库中按照第一规则获得第一扩展词。
进一步的,所述第一扩展词与所述第一检索词为类似词。进一步的,所述从所述第一检索数据库中按照第一规则获得第一扩展词,包括:从所述第一检索数据库中获得N个专利文献;将N个专利文献进行语义分析,获得P个扩展词;根据所述P个扩展词,按照重复度获得第一扩展词。
具体而言,根据所述目标检索文档的核心技术的关键词确定使用的检索数据库,可用作检索所述第一检索词的数据库为第一检索数据库。通过第一检索词从所述第一检索数据库中检索出多个专利文献,将所述多个专利文献进行语义分析,主要判断专利文献中的核心技术的关键词,从所述关键词中确定对检索专利的多个扩展词,如发明名称、技术领域、说明书摘要等。判断多个扩展词中词意相同或相近的词语,且多个扩展词中重复度最高的扩展词作为第一扩展词。其中,所述第一扩展词与所述第一检索词为类似词,如,聚乙烯与热塑性树脂等。同时,根据所述第一检索词获得第一权重值。
步骤140:根据所述第一扩展词获得第二检索数据库。
进一步的,所述根据所述第一扩展词获得第二检索数据库,包括:根据目标检索文档,获得所述目标检索文档所处的技术领域;根据所述技术领域获得技术工具词典;根据所述技术工具词典,获得扩展词范围;判断所述第一扩展词是否在所述扩展词范围内;当所述第一扩展词在所述扩展词范围内时,根据所述第一扩展词获得第二检索数据库。
具体而言,根据目标检索文档,通过判断全文文字字义及说明书内容,确定所述目标检索文档所处的技术领域。通过所述技术领域判断所属领域运用的技术知识,从而确定技术工具词典。然后通过所述技术工具词典确定专利文献中的核心技术的关键词的范围,即扩展词范围。判断第一扩展词是否在所述扩展词范围内,当所述第一扩展词在所述扩展词范围内时,可根据第一扩展词检索专利文献的数据库为第二检索数据库。根据所述第一扩展词获得第二权重值。
步骤150:根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
具体而言,通过第一检索词确定的所述第一检索数据库与通过第一扩展词确定的所述第二检索数据库的合集可以得到目标检索文档的目标数据库,通过所述第二检索数据库和所述第一检索数据库检索的专利文献准确性高。根据所述第一权重值与所述第二权重值计算所述目标数据库的加权值,通过所述加权值确定所述目标数据库的准确性。
进一步的,所述方法还包括:根据所述第一检索数据库和所述第二检索数据库获得第一文献,其中,所述第一文献在所述第一检索数据库中,所述第一文献在所述第二检索数据库中;判断所述第一文献和所述目标检索文档的对比度;当对比度低于第一预定阈值时,将所述第一文献从所述目标数据库中删除。
具体而言,在所述第一检索数据库和所述第二检索数据库中检索专利文献,得到一专利文献与第一检索词相似度最高的第一文献,其中,所述第一文献必须在所述第一检索数据库中,所述第一文献也必须在所述第二检索数据库中。判断所述第一文献和所述目标检索文档的对比度,如第一文献和目标检索文档的发明名称、技术特征、技术领域、技术问题及技术效果等的相似度。设定所述第一预定阈值的大小,如第一预定阈值为70%。当对比度低于第一预定阈值时,所述第一文献不符合目标检索文档,将所述第一文献从所述目标数据库中删除。
进一步的,所述方法还包括:从所述目标数据库中获得第二文献;判断所述第二文献与所述目标检索文档的对比度;当对比度低于第二预定阈值时,将所述第二文献从所述目标数据库中删除。
具体而言,通过所述第一检索词在所述目标数据库中检索获得第二文献,判断所述第二文献与所述目标检索文档的对比度,如第二文献和目标检索文档的发明名称、技术特征、技术领域、技术问题及技术效果等的相似度。设定所述第二预定阈值的大小,如第二预定阈值为80%。当对比度低于第二预定阈值时,所述第二文献不符合目标检索文档,将所述第二文献从所述目标数据库中删除。
进一步的,所述方法还包括:根据所述目标检索文档,获得扩展词范围;从所述第一检索数据库中按照第一规则获得第一扩展词,其中,所述第一扩展词在所述扩展词范围内;根据所述第一扩展词获得第二检索数据库;根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
具体而言,根据目标检索文档,通过判断全文文字字义及说明书内容,确定所述目标检索文档所处的技术领域。通过所述技术领域判断所属领域运用的技术知识,从而确定技术工具词典。然后通过所述技术工具词典确定专利文献中的核心技术的关键词的范围,即扩展词范围。通过第一检索词从所述第一检索数据库中检索出多个专利文献,将所述多个专利文献进行语义分析,主要判断专利文献中的核心技术的关键词,从所述关键词中确定对检索专利的多个扩展词,如发明名称、技术领域、说明书摘要等。判断多个扩展词中词意相同或相近的词语,且多个扩展词中重复度最高的扩展词作为第一扩展词,所述第一扩展词在所述扩展词范围内。其中,所述第一扩展词与所述第一检索词为类似词,如,聚乙烯与热塑性树脂等。判断第一扩展词是否在所述扩展词范围内,当所述第一扩展词在所述扩展词范围内时,可根据第一扩展词检索专利文献的数据库为第二检索数据库。通过第一检索词确定的所述第一检索数据库与通过第一扩展词确定的所述第二检索数据库的合集可以得到目标检索文档的目标数据库,通过所述第二检索数据库和所述第一检索数据库检索的专利文献准确性高。根据所述第一权重值与所述第二权重值计算所述目标数据库的加权值,通过所述加权值确定所述目标数据库的准确性。
进一步的,所述方法还包括:根据目标检索文档,获得所述目标检索文档所处的技术领域;根据所述技术领域获得技术工具词典;根据所述技术工具词典和第一关键词获得第一扩展词;根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;根据所述第一检索数据库获得第一文献;判断所述第一文献和第一比对文档的相似度;当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库。
具体而言,通过所述目标检索文档的内容分析,获取所述目标检索文档中所描述的具体内容属于某一技术领域,通过确定的技术领域可以进一步查找相关度高的资料信息,排除无效信息。根据判断出的所述目标检索文档所属的具体技术领域相应的找出该技术领域的技术工具词典,所述技术工具词典为该技术领域中的所有相关常用名词,专有特征、技术术语等等,即全面包括了该技术领域中的所有核心内容和关键词。
在所述技术工具词典内查找与所述第一关键词的同义词或意思相近、起到相同作用等相关词语,该词语为所述第一关键词的类似词,所述类似词为多个,举例而言,若关键词为“钉子”,可以在相关技术工具词典中,查找相类似的词,如螺钉、螺栓等等多个相近或者作用相同的类似词。然后将查找出的多个类似词再进行语义分析,找出与所述第一关键词意思接近的多个扩展词,最后通过对经过语义分析确定的多个扩展词进行出现次数的数量统计,将出现次数最多重复度最高的扩展词作为第一扩展词,所述第一扩展词为与所述第一关键词相近程度高的类似词。
将通过已经获得的所述第一扩展词结合所述目标检索文档和所述第一关键词在大数据库内进行搜索,查找到满足条件的第一比对文档,所述第一比对文档为与所述目标检索文档匹配程度较高的文档资料,可以作为分类参考的目标文档。在通过所述第一关键词在大数据库内检索得出的所述第一检索数据库中调出相关文献,所述文献均为与目标检索文档有一定关联性,内容中包含所述第一关键词的文献资料。对所述第一检索数据库内的第一文献与所述第一比对文档进行比对分析,首先在所述第一文献内进行语义分析,得出其中多个第一关键词,然后对所述第一比对文档内容进行语义分析,得出所述第一比对文档中出现的多个第二关键词,最后对所述多个第一关键词和所述多个第二关键词依次进行语义分析,得出所述多个第一关键词和所述多个第二关键词的相似程度,对其相似程度经过计算量化得出所述多个第一关键词与所述多个第二关键词之间的第一相似度数值,此值作为所述第一文献与所述第一比对文档的相似度。
将得到的所述第一文献与所述第一比对文档的相似度与系统内预先设定的第一预定条件进行比较,所述第一预定条件可以为预先设定的相似度阈值。当所述第一文献与所述第一比对文档的相似度满足第一预定条件时,则所述第一文献为与所述第一比对文档属同一技术领域,内容相关性大的文献资料,则将所述第一文献作为目标文献录入目标数据库内;若所述第一文献与所述第一比对文档的相似度低于所述第一预定条件,即不满足条件时,所述第一文档为不符文献,则不进入所述目标数据库中,将其删除。
进一步的,所述方法还包括:从自动检索文档中获得第一关键词;根据所述第一关键词确定第一检索数据库;从所述第一检索数据库中确定第一文献;判断所述第一文献和目标检索文档的相似度;当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。
具体而言,将需要检索的文档录入自动检索关键词的检索系统中,通过系统对所述目标检索文档内容分析获取其中的关键词,作为第一关键词,所述第一关键词可以为标题的主语,或者文档中出现频率较多的词语,也可以为经过语义分析出的核心效果表述词等等。在获取了所述第一关键词后,要对所述第一关键词进行再次确认,先根据所述目标检索文档确定其内容描述的具体技术领域,根据判断出的所述具体技术领域相应的找出该技术领域的技术工具词典,所述技术工具词典为该技术领域中的所有相关常用名词,专有特征、技术术语等等,即全面包括了该技术领域中的所有关键词,接着在所述技术工具词典内查找所述目标检索文档所在的技术领域中的所有关键词,与已经查找出的所述第一关键词进行对比分析,判断所述第一关键词是否包括在所述该技术领域中查找出的关键词范围内,若所述第一关键词在所述关键词范围内则,所述第一关键词为有效关键词,若不在所述关键词范围中,则为无效关键词需要继续查找,知道查到到有效的第一关键词,然后使用所述第一关键词在互联网文献的大数据库内进行检索,得出关于所述第一关键词的所有文献集合,形成第一检索数据库,所述第一检索数据库为经过关键词确认后检索出的所有文献集合,保证了检索的全面性和正确性。
在通过所述第一关键词在大数据库内检索得出的所述第一检索数据库中调出相关文献,所述文献均为与目标检索文档有一定关联性的文献资料,从所述第一检索数据库中查找出相应的文献,分别对所述第一检索数据库内关联度高的文献具体内容进行依次对比分析,判断所述第一检索数据库内的文献与所述目标检索文档之间的相似程度,所述相似度系统进行量化为具体的数据。
在系统内预先设置相似度阈值,根据得到的相似度与设定的预定条件进行对比,当所述第一检索数据库内的文献与所述目标检索文档的相似度数值满足预定条件,则确定所述文献为有效文献。当确定了有效的对比文献后,再从所述文献中查找第二关键词,所述第二关键词与所述第一关键词为不同的关键词,但属于同一技术领域,都是从确定的技术领域检索出的所述第一检索数据库中分析得出的关键词。
进一步的,所述方法还包括:根据所述目标检索文档确定第一分类号;根据所述第一文献确定第二分类号;判断所述第一分类号和第二分类号是否为近似分类号;当所述第一分类号和第二分类号不为近似分类号,将所述第一文献从所述第一目标数据库中删除。
进一步的,所述判断所述第一分类号和第二分类号是否为近似分类号,包括:根据所述第一分类号确定所述目标检索文档所包含的部、大类、小类、大组、小组的第一含义;根据所述第二分类号确定所述第一文献所包含的部、大类、小类、大组、小组的第二含义;判断所述第一含义与所述第二含义是否语义相近;当所述第一含义与所述第二含义语义不相近时,所述第一分类号和第二分类号不为近似分类号。
具体而言,首先根据目标检索文档,获得所述目标检索文档所处的技术领域,再根据所述技术领域获得技术工具词典,进而获得关键词的范围,然后判断所述第一关键词是否在所述关键词的范围内,当所述第一关键词在所述关键词范围内时,在专利检索网站上输入所述第一关键词进行搜索,从而获得包含所述第一关键词的所述第一目标数据库,其中,所述第一目标数据库中收集了大量的包含所述第一关键词的专利文献。在获得所述第一目标数据库后,在所述第一目标数据库中的若干个包含所述第一关键词的专利文献中,任意挑选出一篇包含所述第一关键词的专利文献作为所述第一文献;与此同时,根据所述目标检索文档确定出的所述技术领域,进而确定出所述第一分类号,然后打开挑选出来的所述第一文献,进而确定出所述第一文献的第二分类号。再将所述第一分类号与所述第二分类号进行比对,分析判断出所述第一分类号和所述第二分类号是否为近似分类号。在确定出所述第一分类号和第二分类号不为近似分类号时,即可确定所述第一文献与所述目标检索文档的语义不相近,也可以说所述第一文献与所述目标检索文档的内容不相关,此时就将所述第一文献从所述第一目标数据库中删除。
进一步的,所述方法还包括:根据所述第一文献确定第一分类号;根据所述第一分类号确定所述第一文献所包含的部、大类、小类、大组、小组的第一含义;对所述第一含义与所述目标检索文档进行语义分析,其中,所述第一含义与所述目标检索文档语义不接近时,将所述第一文献从所述第一目标数据库中删除。
具体而言,通过确定的第一文献的分类号中部、大类、小类、大组、小组的第一含义,从而判断第一文献与所述目标检索文档的语义是否相同,进而达到将第一文献去噪的目的。
进一步的,所述方法包括:根据第一目标数据库按照分类号确定专利文献数量排名;获得所述分类号中专利文献数量最少的第一分类号;从所述第一分类号的专利文献中获得第一文献;判断所述第一文献与目标专利文献的第一相似度;当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
具体而言,所述目标专利文献为用户想要检索的专利文献,所述第一目标数据库为包含所述目标专利文献的数据库,然后确定所述第一目标数据库中包含的专利文献的Q个分类号,其中,Q为正整数,再按照所述Q个分类号将所述第一目标数据库中包含的所有专利文献进行归类,从而获得所述Q个分类号相对应的专利文献数量,并对所述Q个分类号对应的专利文献数量按升序进行排名,进而获得所述Q个分类号中专利文献数量最少的第一分类号,其中,所述第一分类号包含在所述Q个分类号中,为所述Q个分类号的其中一个分类号,且所述第一分类号相对应的专利文献数量最少。从所述第一分类号的专利文献中检索获得第一文献,分析判断所述第一文献与所述目标专利文献的第一相似度,即就是分别对所述第一文献和所述目标专利文献的名称、说明书内容进行语义分析,确定出所述第一文献与所述目标专利文献的所述第一相似度,当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
进一步的,所述方法包括:根据第一文献获得专利权人信息,其中,通过所述专利权人信息判断专利权人的性质;当所述专利权人信息满足第一预定条件时,向第一目标专利数据库发送提示信息,其中所述提示信息为所述第一文献。
具体而言,通过对所获得的专利数据库中每篇专利文献的检索,获得每篇专利文献的专利权人信息和转移历史,预设一个阈值,当专利转让次数高于该阈值时,对该专利进行评分,获得该专利的第一价值评分。通过检索平台获得该专利的专利权人或者申请人的性质以及被引用的次数,再通过被引用次数判断该专利的第二价值评分。当第一文献满足第二价值评估分数时,发送第一文献至所述第一目标专利数据库,对该文献进行保存,并提示用户该文献满足检索要求。同时,根据用户在专利检索平台的检索历史获得第二关键词,将与第二关键词相关的第二价值评估分数高的专利向用户推送信息,推送信息包括该专利的专利权人、说明书摘要、专利权人转移历史等信息。
进一步的,所述方法包括:根据所述第一文献,获得所述第一文献的权利要求数量、权利要求字数及说明书字数;根据所述第一文献的权利要求数量、权利要求字数及说明书字数,获得所述第一文献的第一权重值、第二权重值及第三权重值,并确定所述第一文献的第一价值评估分数;判断所述第一价值评估分数是否大于第一预定阈值;当所述第一价值评估分数大于第一预定阈值时,向第一目标专利数据库发送提示信息,其中所述提示信息为所述第一文献。
具体而言,通过检索自动获得该专利文献的权利要求的数量以及权利要求和说明书的字数,通过目标专利的权利要求数量确定第一权重值,所述第一权重值为:目标专利的权利要求数量×所占分值比例,通过目标专利权利要求书的字数确定目标专利的第二权重值,所述第二权重值为:目标专利权利要求书的字数×所占分值比例,通过目标专利说明书的字数确定目标专利的第三权重值,所述第三权重值为:目标专利说明书的字数×所占分值比例,根据所述第一权重值、第二权重值与第三权重值,获得目标专利的第一价值评估分数。设定一个预定阈值,当目标专利的第一价值评估分数大于该预定阈值时,将该专利文献发送至所述第一目标专利数据库,确定该篇专利文献为符合条件的文献。同时,根据用户在专利检索平台的检索历史获得第二关键词,将与第二关键词相关的第一价值评估分数高的专利向用户推送信息,推送信息包括该专利的专利权人、说明书摘要、专利许可信息和诉讼信息等信息。
实施例2
基于与前述实施例中一种自动检索的方法同样的发明构思,本发明还提供一种自动检索的装置,如图2所示,所述装置包括:
第一获得单元,用于获得目标检索文档,所述目标检索文档包括第一检索词;
第二获得单元,用于根据所述第一检索词获得第一检索数据库;
第三获得单元,用于从所述第一检索数据库中按照第一规则获得第一扩展词;
第四获得单元,用于根据所述第一扩展词获得第二检索数据库;
第五获得单元,用于根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
进一步的,所述第三获得单元包括:
第六获得单元,用于从所述第一检索数据库中获得N个专利文献;
第七获得单元,用于将N个专利文献进行语义分析,获得P个扩展词;
第八获得单元,用于根据所述P个扩展词,按照重复度获得第一扩展词。
进一步的,所述第三获得单元包括:所述第一扩展词与所述第一检索词为类似词。
进一步的,所述第四获得单元包括:
第九获得单元,用于根据目标检索文档,获得所述目标检索文档所处的技术领域;
第十获得单元,用于根据所述技术领域获得技术工具词典;
第十一获得单元,用于根据所述技术工具词典,获得扩展词范围;
第一判断单元,用于判断所述第一扩展词是否在所述扩展词范围内;
第十二获得单元,用于当所述第一扩展词在所述扩展词范围内时,根据所述第一扩展词获得第二检索数据库。
进一步的,所述装置还包括:
第十三获得单元,用于根据所述第一检索数据库和所述第二检索数据获得第一文献,其中,所述第一文献在所述第一检索数据库中,所述第一文献在所述第二检索数据库中;
第二判断单元,用于判断所述第一文献和所述目标检索文档的对比度;
第一执行单元,用于当对比度低于第一预定阈值时,将所述第一文献从所述目标数据库中删除。
进一步的,所述装置还包括:
第十四获得单元,用于从所述目标数据库中获得第二文献;
第三判断单元,用于判断所述第二文献与所述目标检索文档的对比度;
第二执行单元,用于当对比度低于第二预定阈值时,将所述第二文献从所述目标数据库中删除。
前述图1实施例1中的一种自动检索的方法的各种变化方式和具体实例同样适用于本实施例的一种自动检索的装置,通过前述对一种自动检索的方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种自动检索的装置的实施方法,所以为了说明书的简洁,在此不再详述。
实施例3
基于与前述实施例中一种自动检索的方法同样的发明构思,本发明还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种自动检索的方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
1.本申请实施例提供的一种自动检索的方法和装置,通过获得目标检索文档,所述目标检索文档包括第一检索词;根据所述第一检索词获得第一检索数据库;从所述第一检索数据库中按照第一规则获得第一扩展词;根据所述第一扩展词获得第二检索数据库;根据所述第二检索数据库和所述第一检索数据库获得目标数据库。解决现有技术中非知识产权从业人员在检索专利时,容易出现检索范围过大,出现大量的噪音,或者在检索过程中未对关键词扩展或上位,出现漏检的技术问题,达到了操作便捷,可自动检索专利,且检索准确的技术效果。
2.本申请实施例通过所述从所述第一检索数据库中按照第一规则获得第一扩展词,包括:从所述第一检索数据库中获得N个专利文献;将N个专利文献进行语义分析,获得P个扩展词;根据所述P个扩展词,按照重复度获得第一扩展词。进一步通过限定扩展词的范围,达到检索结果更加准确的技术效果。
3.本申请实施例通过根据所述第一检索数据库和所述第二检索数据获得第一文献,其中,所述第一文献在所述第一检索数据库中,所述第一文献在所述第二检索数据库中;判断所述第一文献和所述目标检索文档的对比度;当对比度低于第一预定阈值时,将所述第一文献从所述目标数据库中删除。进一步通过判断第一文献和目标检索文档的对比度,提高检索结果准确性,避免出现大量噪音的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (8)

1.一种自动检索的方法,其特征在于,所述方法包括:
获得目标检索文档,所述目标检索文档包括第一检索词;
根据所述第一检索词获得第一检索数据库;
从所述第一检索数据库中按照第一规则获得第一扩展词;
根据所述第一扩展词获得第二检索数据库;
根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
2.如权利要求1所述的方法,其特征在于,所述从所述第一检索数据库中按照第一规则获得第一扩展词,包括:
从所述第一检索数据库中获得N个专利文献;
将N个专利文献进行语义分析,获得P个扩展词;
根据所述P个扩展词,按照重复度获得第一扩展词。
3.如权利要求1所述的方法,其特征在于,所述第一扩展词与所述第一检索词为类似词。
4.如权利要求1所述的方法,其特征在于,所述根据所述第一扩展词获得第二检索数据库,包括:
根据目标检索文档,获得所述目标检索文档所处的技术领域;
根据所述技术领域获得技术工具词典;
根据所述技术工具词典,获得扩展词范围;
判断所述第一扩展词是否在所述扩展词范围内;
当所述第一扩展词在所述扩展词范围内时,根据所述第一扩展词获得第二检索数据库。
5.如权利要求1所述的方法,其特征在于,所述方法还包括:
根据所述第一检索数据库和所述第二检索数据获得第一文献,其中,所述第一文献在所述第一检索数据库中,所述第一文献在所述第二检索数据库中;
判断所述第一文献和所述目标检索文档的对比度;
当对比度低于第一预定阈值时,将所述第一文献从所述目标数据库中删除。
6.如权利要求1所述的方法,其特征在于,所述方法还包括:
从所述目标数据库中获得第二文献;
判断所述第二文献与所述目标检索文档的对比度;
当对比度低于第二预定阈值时,将所述第二文献从所述目标数据库中删除。
7.一种自动检索的装置,其特征在于,所述装置包括:
第一获得单元,用于获得目标检索文档,所述目标检索文档包括第一检索词;
第二获得单元,用于根据所述第一检索词获得第一检索数据库;
第三获得单元,用于从所述第一检索数据库中按照第一规则获得第一扩展词;
第四获得单元,用于根据所述第一扩展词获得第二检索数据库;
第五获得单元,用于根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
8.一种自动检索的装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
获得目标检索文档,所述目标检索文档包括第一检索词;
根据所述第一检索词获得第一检索数据库;
从所述第一检索数据库中按照第一规则获得第一扩展词;
根据所述第一扩展词获得第二检索数据库;
根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
CN201811085378.0A 2018-09-18 2018-09-18 一种自动检索的方法和装置 Withdrawn CN109189893A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811085378.0A CN109189893A (zh) 2018-09-18 2018-09-18 一种自动检索的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811085378.0A CN109189893A (zh) 2018-09-18 2018-09-18 一种自动检索的方法和装置

Publications (1)

Publication Number Publication Date
CN109189893A true CN109189893A (zh) 2019-01-11

Family

ID=64911644

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811085378.0A Withdrawn CN109189893A (zh) 2018-09-18 2018-09-18 一种自动检索的方法和装置

Country Status (1)

Country Link
CN (1) CN109189893A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445942A (zh) * 2019-09-02 2021-03-05 智慧芽信息科技(苏州)有限公司 一种检索条件的推荐方法、装置、设备及存储介质
CN117112735A (zh) * 2023-10-19 2023-11-24 中汽信息科技(天津)有限公司 一种专利数据库的构建方法和电子设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516902A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 语义信息获取方法及其对应的关键词扩展方法和检索方法
CN107562831A (zh) * 2017-08-23 2018-01-09 中国软件与技术服务股份有限公司 一种基于全文检索的精确查找方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104516902A (zh) * 2013-09-29 2015-04-15 北大方正集团有限公司 语义信息获取方法及其对应的关键词扩展方法和检索方法
CN107562831A (zh) * 2017-08-23 2018-01-09 中国软件与技术服务股份有限公司 一种基于全文检索的精确查找方法

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112445942A (zh) * 2019-09-02 2021-03-05 智慧芽信息科技(苏州)有限公司 一种检索条件的推荐方法、装置、设备及存储介质
CN117112735A (zh) * 2023-10-19 2023-11-24 中汽信息科技(天津)有限公司 一种专利数据库的构建方法和电子设备
CN117112735B (zh) * 2023-10-19 2024-02-13 中汽信息科技(天津)有限公司 一种专利数据库的构建方法和电子设备

Similar Documents

Publication Publication Date Title
Lahitani et al. Cosine similarity to determine similarity measure: Study case in online essay assessment
CN108073568B (zh) 关键词提取方法和装置
CN110704621B (zh) 文本处理方法、装置及存储介质和电子设备
CN111105209B (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
WO2021218322A1 (zh) 段落搜索方法、装置、电子设备及存储介质
CN113761218B (zh) 一种实体链接的方法、装置、设备及存储介质
JP2021504789A (ja) Esg基盤の企業評価遂行装置及びその作動方法
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
KR20180072167A (ko) 유사특허 추출 시스템 및 그 방법
CN109344400A (zh) 一种文献入库的判断方法和装置
CN110310012B (zh) 数据分析方法、装置、设备及计算机可读存储介质
CN109189893A (zh) 一种自动检索的方法和装置
CN110019556B (zh) 一种话题新闻获取方法、装置及其设备
CN107908649B (zh) 一种文本分类的控制方法
CN109189955A (zh) 一种自动检索关键词的确定方法和装置
CN109284360A (zh) 一种专利检索自动去噪方法和装置
Asmawati et al. Sentiment analysis of text memes: A comparison among supervised machine learning methods
CN109325099A (zh) 一种自动检索的方法和装置
CN112579781A (zh) 文本归类方法、装置、电子设备及介质
Gao et al. Text categorization based on improved Rocchio algorithm
CN111930937A (zh) 基于bert的智慧政务文本多分类方法及系统
CN103279549A (zh) 一种目标对象的目标数据的获取方法及装置
CN109325101A (zh) 一种高价值专利的自动获得方法和装置
CN109189909A (zh) 一种自动检索的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190111