CN109189955A - 一种自动检索关键词的确定方法和装置 - Google Patents

一种自动检索关键词的确定方法和装置 Download PDF

Info

Publication number
CN109189955A
CN109189955A CN201811085451.4A CN201811085451A CN109189955A CN 109189955 A CN109189955 A CN 109189955A CN 201811085451 A CN201811085451 A CN 201811085451A CN 109189955 A CN109189955 A CN 109189955A
Authority
CN
China
Prior art keywords
keyword
document
retrieval
similarity
technical
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201811085451.4A
Other languages
English (en)
Inventor
邓梅
宋国华
黄家旺
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
JIANGSU RAINPAT DATA SERVICE Co Ltd
Original Assignee
JIANGSU RAINPAT DATA SERVICE Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by JIANGSU RAINPAT DATA SERVICE Co Ltd filed Critical JIANGSU RAINPAT DATA SERVICE Co Ltd
Priority to CN201811085451.4A priority Critical patent/CN109189955A/zh
Publication of CN109189955A publication Critical patent/CN109189955A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种自动检索关键词的确定方法和装置,通过从自动检索文档中获得第一关键词;根据所述第一关键词确定第一检索数据库;从所述第一检索数据库中确定第一文献;判断所述第一文献和目标检索文档的相似度;当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。解决了现有技术中检索过程通常为使用关键词进行录入检索,目前设定关键词为根据个人常识进行选定,存在不够精准,漏掉有效关键词的技术问题。达到了对目标检索文档所在的技术领域进行全面查找,不局限于查找人的认知范围内,有效查找出与所述目标文档有关联的、意思接近的所有关键词,保证检索的准确全面性的技术效果。

Description

一种自动检索关键词的确定方法和装置
技术领域
本发明涉及数据检索技术领域,尤其涉及一种自动检索关键词的确定方法和装置。
背景技术
专利检索就是科研立项和申请专利之前需要检索专利,以免重复研制,侵犯他人专利权,事先检索也可判断该项技术成果是否有可能获得专利权。可以去国家知识产权局专利文献馆手工检索专利,也可以用电脑上网检索,简单地说专利信息检索就是有关专利信息的查找。检索结果是否全面直接影响到整个新项目的成败,检索不全面、漏检,可能造成投入了大量人力物力后与其他企业的现有的技术雷同,不具有新颖性而白白浪费,因而检索是新项目立项的重要环节。检索(Retrieval)是指依据一定的方法,从已经组织好的大量有关文献集合中,查找并获取特定的相关文献的过程。这里的文献集合,不是通常所指的文献本身,而是关于文献的信息或文献的线索。
现有技术中检索过程通常为使用关键词进行录入检索,若关键词确定不准确,直接影响到检索的结果是否准确,目前设定关键词为根据个人的常识进行选定,存在不够精准,漏掉有效检索关键词的技术问题。
发明内容
本发明实施例提供了一种自动检索关键词的确定方法和装置,解决了现有技术中检索过程通常为使用关键词进行录入检索,若关键词确定不准确,直接影响到检索的结果是否准确,目前设定关键词为根据个人的常识进行选定,存在不够精准,漏掉有效检索关键词的技术问题。
鉴于上述问题,提出了本申请实施例以便提供一种自动检索关键词的确定方法和装置。
第一方面,本发明提供了一种自动检索关键词的确定方法,所述方法包括:从自动检索文档中获得第一关键词;根据所述第一关键词确定第一检索数据库;从所述第一检索数据库中确定第一文献;判断所述第一文献和目标检索文档的相似度;当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。
优选的,所述根据所述第一关键词确定第一检索数据库,包括:根据自动检索文档,获得所述自动检索文档所处的技术领域;根据所述技术领域获得技术工具词典;根据所述技术工具词典,获得关键词范围;判断所述第一关键词是否在所述关键词范围内;当所述第一关键词在所述关键词范围内时,根据所述第一关键词获得第一检索数据库。
优选的,所述从第一文献中获得第二关键词,包括:从所述第一文献中获得N个类似词;将N个类似词进行语义分析,获得M个关键词;按照重复度确定所述第二关键词。
优选的,所述第一关键词和所述第二关键词为不同关键词。
第二方面,本发明提供了一种自动检索关键词的确定装置,所述装置包括:
第一获得单元,所述第一获得单元用于从自动检索文档中获得第一关键词;
第一确定单元,所述第一确定单元用于根据所述第一关键词确定第一检索数据库;
第二确定单元,所述第二确定单元用于从所述第一检索数据库中确定第一文献;
第一判断单元,所述第一判断单元用于判断所述第一文献和目标检索文档的相似度;
第二获得单元,所述第二获得单元用于当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。
优选的,所述装置还包括:
第三获得单元,所述第三获得单元用于根据自动检索文档,获得所述自动检索文档所处的技术领域;
第四获得单元,所述第四获得单元用于根据所述技术领域获得技术工具词典;
第五获得单元,所述第五获得单元用于根据所述技术工具词典,获得关键词范围;
第二判断单元,所述第二判断单元用于判断所述第一关键词是否在所述关键词范围内;
第六获得单元,所述第六获得单元用于当所述第一关键词在所述关键词范围内时,根据所述第一关键词获得第一检索数据库。
优选的,所述装置还包括:
第七获得单元,所述第七获得单元用于从所述第一文献中获得N个类似词;
第八获得单元,所述第八获得单元用于将N个类似词进行语义分析,获得M个关键词;
第三确定单元,所述第三确定单元用于按照重复度确定所述第二关键词。
优选的,所述第一关键词和所述第二关键词为不同关键词。
第三方面,本发明提供了一种自动检索关键词的确定装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以下步骤:从自动检索文档中获得第一关键词;根据所述第一关键词确定第一检索数据库;从所述第一检索数据库中确定第一文献;判断所述第一文献和目标检索文档的相似度;当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例提供的一种自动检索关键词的确定方法和装置,通过从自动检索文档中获得第一关键词;根据所述第一关键词确定第一检索数据库;从所述第一检索数据库中确定第一文献;判断所述第一文献和目标检索文档的相似度;当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。解决了现有技术中检索过程通常为使用关键词进行录入检索,若关键词确定不准确,直接影响到检索的结果是否准确,目前设定关键词为根据个人的常识进行选定,存在不够精准,漏掉有效检索关键词的技术问题。达到了对目标检索文档所在的技术领域进行全面查找,不局限于查找人的认知范围内,有效查找出与所述目标文档有关联的、意思接近的所有关键词,保证检索的准确全面性,且自动进行检索,省时省力的技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
图1为本发明实施例中一种自动检索关键词的确定方法的流程示意图;
图2为本发明实施例中一种自动检索关键词的确定装置的结构示意图;
图3为本发明实施例中另一种自动检索关键词的确定装置的结构示意图。
附图标记说明:第一获得单元11,第二获得单元12,第三获得单元13,第一判断单元14,第一执行单元15,总线300,接收器301,处理器302,发送器303,存储器304,总线接口306。
具体实施方式
本发明实施例提供了一种自动检索关键词的确定方法和装置,用于解决现有技术中检索过程通常为使用关键词进行录入检索,若关键词确定不准确,直接影响到检索的结果是否准确,目前设定关键词为根据个人的常识进行选定,存在不够精准,漏掉有效检索关键词的技术问题。
本发明提供的技术方案总体思路如下:通过从自动检索文档中获得第一关键词;根据所述第一关键词确定第一检索数据库;从所述第一检索数据库中确定第一文献;判断所述第一文献和目标检索文档的相似度;当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。解决了现有技术中检索过程通常为使用关键词进行录入检索,若关键词确定不准确,直接影响到检索的结果是否准确,目前设定关键词为根据个人的常识进行选定,存在不够精准,漏掉有效检索关键词的技术问题。达到了对目标检索文档所在的技术领域进行全面查找,不局限于查找人的认知范围内,有效查找出与所述目标文档有关联的、意思接近的所有关键词,保证检索的准确全面性,且自动进行检索,省时省力的技术效果。
下面通过附图以及具体实施例对本发明技术方案做详细的说明,应当理解本申请实施例以及实施例中的具体特征是对本申请技术方案的详细的说明,而不是对本申请技术方案的限定,在不冲突的情况下,本申请实施例以及实施例中的技术特征可以相互组合。
本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
实施例一
图1为本发明实施例中一种自动检索关键词的确定方法的流程示意图。如图1所示,一种自动检索关键词的确定方法,所述方法包括:
步骤110:从自动检索文档中获得第一关键词;
具体而言,将需要检索的文档录入自动检索关键词的检索系统中,通过系统对所述目标检索文档内容分析获取其中的关键词,作为第一关键词,所述第一关键词可以为标题的主语,或者文档中出现频率较多的词语,也可以为经过语义分析出的核心效果表述词等等。
步骤120:根据所述第一关键词确定第一检索数据库;
进一步的,所述根据所述第一关键词确定第一检索数据库,包括:根据自动检索文档,获得所述自动检索文档所处的技术领域;根据所述技术领域获得技术工具词典;根据所述技术工具词典,获得关键词范围;判断所述第一关键词是否在所述关键词范围内;当所述第一关键词在所述关键词范围内时,根据所述第一关键词获得第一检索数据库。
具体而言,在获取了所述第一关键词后,要对所述第一关键词进行再次确认,先根据所述目标检索文档确定其内容描述的具体技术领域,根据判断出的所述具体技术领域相应的找出该技术领域的技术工具词典,所述技术工具词典为该技术领域中的所有相关常用名词,专有特征、技术术语等等,即全面包括了该技术领域中的所有关键词,接着在所述技术工具词典内查找所述目标检索文档所在的技术领域中的所有关键词,与已经查找出的所述第一关键词进行对比分析,判断所述第一关键词是否包括在所述该技术领域中查找出的关键词范围内,若所述第一关键词在所述关键词范围内则,所述第一关键词为有效关键词,若不在所述关键词范围中,则为无效关键词需要继续查找,知道查到到有效的第一关键词,然后使用所述第一关键词在互联网文献的大数据库内进行检索,得出关于所述第一关键词的所有文献集合,形成第一检索数据库,所述第一检索数据库为经过关键词确认后检索出的所有文献集合,保证了检索的全面性和正确性。
步骤130:从所述第一检索数据库中确定第一文献;
步骤140:判断所述第一文献和目标检索文档的相似度;
具体而言,在通过所述第一关键词在大数据库内检索得出的所述第一检索数据库中调出相关文献,所述文献均为与目标检索文档有一定关联性的文献资料,从所述第一检索数据库中查找出相应的文献,分别对所述第一检索数据库内关联度高的文献具体内容进行依次对比分析,判断所述第一检索数据库内的文献与所述目标检索文档之间的相似程度,所述相似度系统进行量化为具体的数据。或者,将所述第一文献和所述目标检索文档的权利要求进行语义分析,获得所述第一文献和所述目标检索文档的第一相似度。进而,可对所述第一文献和所述目标检索文档的说明书进行语义分析,获得所述第一文献和所述目标检索文档的第二相似度。根据所述第一相似度与第二相似度可获得第一文献的权利要求与说明书的第一权重值与第二权重值,然后计算出第一文献的第一相似度分数。
步骤150:当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。
进一步的,所述从第一文献中获得第二关键词,包括:从所述第一文献中获得N个类似词;将N个类似词进行语义分析,获得M个关键词;按照重复度确定所述第二关键词。
进一步的,所述第一关键词和所述第二关键词为不同关键词。
具体而言,在系统内预先设置相似度阈值,根据得到的相似度与设定的预定条件进行对比,当所述第一检索数据库内的文献与所述目标检索文档的相似度数值满足预定条件,则确定所述文献为有效文献,举例而言,预定条件设定的相似度要大于70%,则若将检索出的文献与所述目标检索文档之间的相似度经分析得出为50%,小于设定的70%,则对比的所述文献为无效文献,不进入下一步检索使用,若所述检索出的文献与所述目标检索文档之间的相似度经分析得出为80%,大于设定的70%,则对比的所述文献为有效对比文献,进入下步检索使用。当确定了有效的对比文献后,再从所述文献中查找第二关键词,所述第二关键词与所述第一关键词为不同的关键词,但属于同一技术领域,都是从确定的技术领域检索出的所述第一检索数据库中分析得出的关键词。所述第二关键词的具体查找过程为:所述第一检索数据库中确定的相似度满足条件的对比文献中,找到多个意思接近、作用类似等具有相似点的类似词,再对得出的所述类似词进行语义分析,得出其中意思相近的多个关键词,最后通过对查找出的多个关键词进行数量统计,将出现次数最多的,即重复度最高的那个关键词作为第二关键词,以此类推,通过这样可以查找出与所述目标检索文档所有有效关键词,不局限于查找人的认知范围内,对目标检索文档所在的技术领域进行全面查找,有效查找出与所述目标文档有关联的、意思接近的所有关键词,保证检索的准确全面性,且自动进行检索,省时省力。
进一步的,所述方法还包括:从所述第一检索数据库中获得第一文献;判断所述第一文献和目标检索文档之间的相似度;当所述相似度满足第一预定条件时,将所述第一检索数据库列为目标数据库。进一步的,所述判断所述第一文献和目标检索文档之间的相似度,还包括:根据所述第一文献与所述目标检索文档的权利要求进行语义分析,获得第一相似语段;确定所述第一相似语段与所述目标检索文档的权利要求的字数的第一比值;判断所述第一比值是否大于第一预定阈值;当所述第一比值大于第一预定阈值时,获得所述第一文献和目标检索文档之间的第二相似度。
具体而言,通过语义分析在所述文献内容中找到其中出现频率多的关键词,再在所述目标检索文档中找到其中出现频率多的关键词,将二者的关键词进行对比,获得其中的相似度,该相似度为第一相似度,若所述关键词相同,或者为同义词则所述第一相似度值就大。除了对关键词进行对比外,还进一步对两者的权利要求内容进行对比,使检索结果更加准确,具体实现过程为:将所述文献和所述目标检索文档的权利要求分别进行语义分析,从中查找对比出内容相似度高的段落,再将该相似度较高的段落进行字数对比,得到所述相似度高段落的第二相似度,若字数也相近,所述第二相似度比值则大,最后判断所述第一相似度与所述第二相似度哪个数值更大,选其中较大的作为所述文献与所述目标检索文档的最终相似程度。将通过对比获得的相似度值与检索系统预先设定相似度进行对比,判断检索出的文献内容与所述目标检索文档是否相近,通过自动搜索最终将获取所述目标检索文档的目标检索内容,系统自动检索更加全面,避免人为因素加入造成的漏检、错检等问题,从而解决了现有技术中检索过程人工进行操作,根据名称或关键字进行手动搜索,再将检索结果进行整理分析,存在检索耗时长,且容易出现漏检的技术问题,达到了自动进行系统检索,检索对比更加细致,检索结果更准确,避免因人工引入的不稳定因素出现漏检现象,提高检索效率的技术效果。
进一步的,所述方法还包括:根据所述目标检索文档,获得扩展词范围;从所述第一检索数据库中按照第一规则获得第一扩展词,其中,所述第一扩展词在所述扩展词范围内;根据所述第一扩展词获得第二检索数据库;根据所述第二检索数据库和所述第一检索数据库获得目标数据库。
具体而言,根据目标检索文档,通过判断全文文字字义及说明书内容,确定所述目标检索文档所处的技术领域。通过所述技术领域判断所属领域运用的技术知识,从而确定技术工具词典。然后通过所述技术工具词典确定专利文献中的核心技术的关键词的范围,即扩展词范围。通过第一检索词从所述第一检索数据库中检索出多个专利文献,将所述多个专利文献进行语义分析,主要判断专利文献中的核心技术的关键词,从所述关键词中确定对检索专利的多个扩展词,如发明名称、技术领域、说明书摘要等。判断多个扩展词中词意相同或相近的词语,且多个扩展词中重复度最高的扩展词作为第一扩展词,所述第一扩展词在所述扩展词范围内。其中,所述第一扩展词与所述第一检索词为类似词,如,聚乙烯与热塑性树脂等。判断第一扩展词是否在所述扩展词范围内,当所述第一扩展词在所述扩展词范围内时,可根据第一扩展词检索专利文献的数据库为第二检索数据库。通过第一检索词确定的所述第一检索数据库与通过第一扩展词确定的所述第二检索数据库的合集可以得到目标检索文档的目标数据库,通过所述第二检索数据库和所述第一检索数据库检索的专利文献准确性高。根据所述第一权重值与所述第二权重值计算所述目标数据库的加权值,通过所述加权值确定所述目标数据库的准确性。
进一步的,所述方法还包括:根据目标检索文档,获得所述目标检索文档所处的技术领域;根据所述技术领域获得技术工具词典;根据所述技术工具词典和第一关键词获得第一扩展词;根据所述目标检索文档、第一关键词和第一扩展词获得第一比对文档;根据所述第一检索数据库获得第一文献;判断所述第一文献和第一比对文档的相似度;当所述相似度满足第一预定条件时,将所述第一文献存入目标数据库。
具体而言,通过所述目标检索文档的内容分析,获取所述目标检索文档中所描述的具体内容属于某一技术领域,通过确定的技术领域可以进一步查找相关度高的资料信息,排除无效信息。根据判断出的所述目标检索文档所属的具体技术领域相应的找出该技术领域的技术工具词典,所述技术工具词典为该技术领域中的所有相关常用名词,专有特征、技术术语等等,即全面包括了该技术领域中的所有核心内容和关键词。
在所述技术工具词典内查找与所述第一关键词的同义词或意思相近、起到相同作用等相关词语,该词语为所述第一关键词的类似词,所述类似词为多个,举例而言,若关键词为“钉子”,可以在相关技术工具词典中,查找相类似的词,如螺钉、螺栓等等多个相近或者作用相同的类似词。然后将查找出的多个类似词再进行语义分析,找出与所述第一关键词意思接近的多个扩展词,最后通过对经过语义分析确定的多个扩展词进行出现次数的数量统计,将出现次数最多重复度最高的扩展词作为第一扩展词,所述第一扩展词为与所述第一关键词相近程度高的类似词。
将通过已经获得的所述第一扩展词结合所述目标检索文档和所述第一关键词在大数据库内进行搜索,查找到满足条件的第一比对文档,所述第一比对文档为与所述目标检索文档匹配程度较高的文档资料,可以作为分类参考的目标文档。在通过所述第一关键词在大数据库内检索得出的所述第一检索数据库中调出相关文献,所述文献均为与目标检索文档有一定关联性,内容中包含所述第一关键词的文献资料。对所述第一检索数据库内的第一文献与所述第一比对文档进行比对分析,首先在所述第一文献内进行语义分析,得出其中多个第一关键词,然后对所述第一比对文档内容进行语义分析,得出所述第一比对文档中出现的多个第二关键词,最后对所述多个第一关键词和所述多个第二关键词依次进行语义分析,得出所述多个第一关键词和所述多个第二关键词的相似程度,对其相似程度经过计算量化得出所述多个第一关键词与所述多个第二关键词之间的第一相似度数值,此值作为所述第一文献与所述第一比对文档的相似度。
将得到的所述第一文献与所述第一比对文档的相似度与系统内预先设定的第一预定条件进行比较,所述第一预定条件可以为预先设定的相似度阈值。当所述第一文献与所述第一比对文档的相似度满足第一预定条件时,则所述第一文献为与所述第一比对文档属同一技术领域,内容相关性大的文献资料,则将所述第一文献作为目标文献录入目标数据库内;若所述第一文献与所述第一比对文档的相似度低于所述第一预定条件,即不满足条件时,所述第一文档为不符文献,则不进入所述目标数据库中,将其删除。
进一步的,所述方法还包括:根据所述目标检索文档确定第一分类号;根据所述第一文献确定第二分类号;判断所述第一分类号和第二分类号是否为近似分类号;当所述第一分类号和第二分类号不为近似分类号,将所述第一文献从所述第一目标数据库中删除。
进一步的,所述判断所述第一分类号和第二分类号是否为近似分类号,包括:根据所述第一分类号确定所述目标检索文档所包含的部、大类、小类、大组、小组的第一含义;根据所述第二分类号确定所述第一文献所包含的部、大类、小类、大组、小组的第二含义;判断所述第一含义与所述第二含义是否语义相近;当所述第一含义与所述第二含义语义不相近时,所述第一分类号和第二分类号不为近似分类号。
具体而言,首先根据目标检索文档,获得所述目标检索文档所处的技术领域,再根据所述技术领域获得技术工具词典,进而获得关键词的范围,然后判断所述第一关键词是否在所述关键词的范围内,当所述第一关键词在所述关键词范围内时,在专利检索网站上输入所述第一关键词进行搜索,从而获得包含所述第一关键词的所述第一目标数据库,其中,所述第一目标数据库中收集了大量的包含所述第一关键词的专利文献。在获得所述第一目标数据库后,在所述第一目标数据库中的若干个包含所述第一关键词的专利文献中,任意挑选出一篇包含所述第一关键词的专利文献作为所述第一文献;与此同时,根据所述目标检索文档确定出的所述技术领域,进而确定出所述第一分类号,然后打开挑选出来的所述第一文献,进而确定出所述第一文献的第二分类号。再将所述第一分类号与所述第二分类号进行比对,分析判断出所述第一分类号和所述第二分类号是否为近似分类号。在确定出所述第一分类号和第二分类号不为近似分类号时,即可确定所述第一文献与所述目标检索文档的语义不相近,也可以说所述第一文献与所述目标检索文档的内容不相关,此时就将所述第一文献从所述第一目标数据库中删除。
进一步的,所述方法还包括:根据所述第一文献确定第一分类号;根据所述第一分类号确定所述第一文献所包含的部、大类、小类、大组、小组的第一含义;对所述第一含义与所述目标检索文档进行语义分析,其中,所述第一含义与所述目标检索文档语义不接近时,将所述第一文献从所述第一目标数据库中删除。
具体而言,通过确定的第一文献的分类号中部、大类、小类、大组、小组的第一含义,从而判断第一文献与所述目标检索文档的语义是否相同,进而达到将第一文献去噪的目的。
进一步的,所述方法包括:根据第一目标数据库按照分类号确定专利文献数量排名;获得所述分类号中专利文献数量最少的第一分类号;从所述第一分类号的专利文献中获得第一文献;判断所述第一文献与目标专利文献的第一相似度;当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
具体而言,所述目标专利文献为用户想要检索的专利文献,所述第一目标数据库为包含所述目标专利文献的数据库,然后确定所述第一目标数据库中包含的专利文献的Q个分类号,其中,Q为正整数,再按照所述Q个分类号将所述第一目标数据库中包含的所有专利文献进行归类,从而获得所述Q个分类号相对应的专利文献数量,并对所述Q个分类号对应的专利文献数量按升序进行排名,进而获得所述Q个分类号中专利文献数量最少的第一分类号,其中,所述第一分类号包含在所述Q个分类号中,为所述Q个分类号的其中一个分类号,且所述第一分类号相对应的专利文献数量最少。从所述第一分类号的专利文献中检索获得第一文献,分析判断所述第一文献与所述目标专利文献的第一相似度,即就是分别对所述第一文献和所述目标专利文献的名称、说明书内容进行语义分析,确定出所述第一文献与所述目标专利文献的所述第一相似度,当所述第一相似度小于预定阈值时,将所述第一分类号包含的专利文献从第一目标数据库中删除。
进一步的,所述方法包括:根据第一文献获得专利权人信息,其中,通过所述专利权人信息判断专利权人的性质;当所述专利权人信息满足第一预定条件时,向第一目标专利数据库发送提示信息,其中所述提示信息为所述第一文献。
具体而言,通过对所获得的专利数据库中每篇专利文献的检索,获得每篇专利文献的专利权人信息和转移历史,预设一个阈值,当专利转让次数高于该阈值时,对该专利进行评分,获得该专利的第一价值评分。通过检索平台获得该专利的专利权人或者申请人的性质以及被引用的次数,再通过被引用次数判断该专利的第二价值评分。当第一文献满足第二价值评估分数时,发送第一文献至所述第一目标专利数据库,对该文献进行保存,并提示用户该文献满足检索要求。同时,根据用户在专利检索平台的检索历史获得第二关键词,将与第二关键词相关的第二价值评估分数高的专利向用户推送信息,推送信息包括该专利的专利权人、说明书摘要、专利权人转移历史等信息。
进一步的,所述方法包括:根据所述第一文献,获得所述第一文献的权利要求数量、权利要求字数及说明书字数;根据所述第一文献的权利要求数量、权利要求字数及说明书字数,获得所述第一文献的第一权重值、第二权重值及第三权重值,并确定所述第一文献的第一价值评估分数;判断所述第一价值评估分数是否大于第一预定阈值;当所述第一价值评估分数大于第一预定阈值时,向第一目标专利数据库发送提示信息,其中所述提示信息为所述第一文献。
具体而言,通过检索自动获得该专利文献的权利要求的数量以及权利要求和说明书的字数,通过目标专利的权利要求数量确定第一权重值,所述第一权重值为:目标专利的权利要求数量×所占分值比例,通过目标专利权利要求书的字数确定目标专利的第二权重值,所述第二权重值为:目标专利权利要求书的字数×所占分值比例,通过目标专利说明书的字数确定目标专利的第三权重值,所述第三权重值为:目标专利说明书的字数×所占分值比例,根据所述第一权重值、第二权重值与第三权重值,获得目标专利的第一价值评估分数。设定一个预定阈值,当目标专利的第一价值评估分数大于该预定阈值时,将该专利文献发送至所述第一目标专利数据库,确定该篇专利文献为符合条件的文献。同时,根据用户在专利检索平台的检索历史获得第二关键词,将与第二关键词相关的第一价值评估分数高的专利向用户推送信息,推送信息包括该专利的专利权人、说明书摘要、专利许可信息和诉讼信息等信息。
实施例二
基于与前述实施例中一种自动检索关键词的确定方法同样的发明构思,本发明还提供一种自动检索关键词的确定装置,如图2所示,所述装置包括:
第一获得单元11,所述第一获得单元11用于从自动检索文档中获得第一关键词;
第一确定单元12,所述第一确定单元12用于根据所述第一关键词确定第一检索数据库;
第二确定单元13,所述第二确定单元13用于从所述第一检索数据库中确定第一文献;
第一判断单元14,所述第一判断单元14用于判断所述第一文献和目标检索文档的相似度;
第二获得单元15,所述第二获得单元15用于当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。
进一步的,所述装置还包括:
第三获得单元,所述第三获得单元用于根据自动检索文档,获得所述自动检索文档所处的技术领域;
第四获得单元,所述第四获得单元用于根据所述技术领域获得技术工具词典;
第五获得单元,所述第五获得单元用于根据所述技术工具词典,获得关键词范围;
第二判断单元,所述第二判断单元用于判断所述第一关键词是否在所述关键词范围内;
第六获得单元,所述第六获得单元用于当所述第一关键词在所述关键词范围内时,根据所述第一关键词获得第一检索数据库。
进一步的,所述装置还包括:
第七获得单元,所述第七获得单元用于从所述第一文献中获得N个类似词;
第八获得单元,所述第八获得单元用于将N个类似词进行语义分析,获得M个关键词;
第三确定单元,所述第三确定单元用于按照重复度确定所述第二关键词。
进一步的,所述第一关键词和所述第二关键词为不同关键词。
前述图1实施例一中的一种自动检索关键词的确定方法的各种变化方式和具体实例同样适用于本实施例的一种自动检索关键词的确定装置,通过前述对一种自动检索关键词的确定方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种自动检索关键词的确定装置的实施方法,所以为了说明书的简洁,在此不再详述。
实施例三
基于与前述实施例中一种自动检索关键词的确定方法同样的发明构思,本发明还提供一种自动检索关键词的确定装置,其上存储有计算机程序,该程序被处理器执行时实现前文所述一种网络权限的认证方法的任一方法的步骤。
其中,在图3中,总线架构(用总线300来代表),总线300可以包括任意数量的互联的总线和桥,总线300将包括由处理器302代表的一个或多个处理器和存储器304代表的存储器的各种电路链接在一起。总线300还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口306在总线300和接收器301和发送器303之间提供接口。接收器301和发送器303可以是同一个元件,即收发机,提供用于在传输介质上与各种其他装置通信的单元。
处理器302负责管理总线300和通常的处理,而存储器304可以被用于存储处理器302在执行操作时所使用的数据。
本申请实施例中的上述一个或多个技术方案,至少具有如下一种或多种技术效果:
本申请实施例提供的一种自动检索关键词的确定方法和装置,通过从自动检索文档中获得第一关键词;根据所述第一关键词确定第一检索数据库;从所述第一检索数据库中确定第一文献;判断所述第一文献和目标检索文档的相似度;当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。解决了现有技术中检索过程通常为使用关键词进行录入检索,若关键词确定不准确,直接影响到检索的结果是否准确,目前设定关键词为根据个人的常识进行选定,存在不够精准,漏掉有效检索关键词的技术问题。达到了对目标检索文档所在的技术领域进行全面查找,不局限于查找人的认知范围内,有效查找出与所述目标文档有关联的、意思接近的所有关键词,保证检索的准确全面性,且自动进行检索,省时省力的技术效果。
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种自动检索关键词的确定方法,其特征在于,所述方法包括:
从自动检索文档中获得第一关键词;
根据所述第一关键词确定第一检索数据库;
从所述第一检索数据库中确定第一文献;
判断所述第一文献和目标检索文档的相似度;
当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。
2.如权利要求1所述的方法,其特征在于,所述根据所述第一关键词确定第一检索数据库,包括:
根据自动检索文档,获得所述自动检索文档所处的技术领域;
根据所述技术领域获得技术工具词典;
根据所述技术工具词典,获得关键词范围;
判断所述第一关键词是否在所述关键词范围内;
当所述第一关键词在所述关键词范围内时,根据所述第一关键词获得第一检索数据库。
3.如权利要求1所述的方法,其特征在于,所述从第一文献中获得第二关键词,包括:
从所述第一文献中获得N个类似词;
将N个类似词进行语义分析,获得M个关键词;
按照重复度确定所述第二关键词。
4.如权利要求1所述的方法,其特征在于,所述第一关键词和所述第二关键词为不同关键词。
5.一种自动检索关键词的确定装置,其特征在于,所述装置包括:
第一获得单元,所述第一获得单元用于从自动检索文档中获得第一关键词;
第一确定单元,所述第一确定单元用于根据所述第一关键词确定第一检索数据库;
第二确定单元,所述第二确定单元用于从所述第一检索数据库中确定第一文献;
第一判断单元,所述第一判断单元用于判断所述第一文献和目标检索文档的相似度;
第二获得单元,所述第二获得单元用于当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。
6.一种自动检索关键词的确定装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现以下步骤:
从自动检索文档中获得第一关键词;
根据所述第一关键词确定第一检索数据库;
从所述第一检索数据库中确定第一文献;
判断所述第一文献和目标检索文档的相似度;
当所述相似度满足预定条件时,从第一文献中获得第二关键词,其中第一关键词和所述第二关键词属于同一技术领域。
CN201811085451.4A 2018-09-18 2018-09-18 一种自动检索关键词的确定方法和装置 Withdrawn CN109189955A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811085451.4A CN109189955A (zh) 2018-09-18 2018-09-18 一种自动检索关键词的确定方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811085451.4A CN109189955A (zh) 2018-09-18 2018-09-18 一种自动检索关键词的确定方法和装置

Publications (1)

Publication Number Publication Date
CN109189955A true CN109189955A (zh) 2019-01-11

Family

ID=64911646

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811085451.4A Withdrawn CN109189955A (zh) 2018-09-18 2018-09-18 一种自动检索关键词的确定方法和装置

Country Status (1)

Country Link
CN (1) CN109189955A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110580291A (zh) * 2019-07-29 2019-12-17 用友网络科技股份有限公司 基于erp客户服务知识图谱的智能搜索方法及计算机设备
CN111488512A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种待收集目标获取方法、装置、设备及存储介质

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111488512A (zh) * 2019-01-25 2020-08-04 深信服科技股份有限公司 一种待收集目标获取方法、装置、设备及存储介质
CN110580291A (zh) * 2019-07-29 2019-12-17 用友网络科技股份有限公司 基于erp客户服务知识图谱的智能搜索方法及计算机设备

Similar Documents

Publication Publication Date Title
CN111144723B (zh) 人岗匹配推荐方法及系统、存储介质
CN103699625B (zh) 基于关键词进行检索的方法及装置
CN109240901B (zh) 性能分析方法、性能分析装置、存储介质和电子设备
CN111105209B (zh) 适用于人岗匹配推荐系统的职位简历匹配方法及装置
CN113761218B (zh) 一种实体链接的方法、装置、设备及存储介质
WO2021218322A1 (zh) 段落搜索方法、装置、电子设备及存储介质
CN111797214A (zh) 基于faq数据库的问题筛选方法、装置、计算机设备及介质
CN105653562B (zh) 一种文本内容与查询请求之间相关性的计算方法及装置
CN106997341B (zh) 一种创新方案匹配方法、装置、服务器及系统
Joho et al. Overview of NTCIR-11 Temporal Information Access (Temporalia) Task.
KR101491627B1 (ko) 모바일 애플리케이션 평가를 위한 리뷰 정량화 방법, 장치 및 시스템
CN105302793A (zh) 一种利用计算机自动评价科技文献新颖性的方法
US20180341686A1 (en) System and method for data search based on top-to-bottom similarity analysis
CN107844533A (zh) 一种智能问答系统及分析方法
KR20180072167A (ko) 유사특허 추출 시스템 및 그 방법
CN107247743A (zh) 一种司法类案检索方法及系统
CN104778283B (zh) 一种基于微博的用户职业分类方法及系统
CN107656920B (zh) 一种基于专利的科技人才推荐方法
CN110162752B (zh) 文章判重处理方法、装置及电子设备
CN112925883B (zh) 搜索请求处理方法、装置、电子设备及可读存储介质
CN109325099A (zh) 一种自动检索的方法和装置
CN109344400A (zh) 一种文献入库的判断方法和装置
CN106547732A (zh) 近义词识别方法和近义词识别系统
CN112231453A (zh) 一种智能问答方法、装置、计算机设备及存储介质
CN109189955A (zh) 一种自动检索关键词的确定方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication
WW01 Invention patent application withdrawn after publication

Application publication date: 20190111