CN106156111B - 专利文件检索方法、装置和系统 - Google Patents

专利文件检索方法、装置和系统 Download PDF

Info

Publication number
CN106156111B
CN106156111B CN201510159155.4A CN201510159155A CN106156111B CN 106156111 B CN106156111 B CN 106156111B CN 201510159155 A CN201510159155 A CN 201510159155A CN 106156111 B CN106156111 B CN 106156111B
Authority
CN
China
Prior art keywords
retrieval
content
search
word
retrieval object
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510159155.4A
Other languages
English (en)
Other versions
CN106156111A (zh
Inventor
刘化冰
雷华平
关乐乐
王丽琴
沙建超
冯琳琳
张人元
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Zhongzhi Zhihui Technology Co ltd
Original Assignee
Beijing Zhongzhi Zhihui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Zhongzhi Zhihui Technology Co ltd filed Critical Beijing Zhongzhi Zhihui Technology Co ltd
Priority to CN201510159155.4A priority Critical patent/CN106156111B/zh
Publication of CN106156111A publication Critical patent/CN106156111A/zh
Application granted granted Critical
Publication of CN106156111B publication Critical patent/CN106156111B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种专利文件检索方法、装置和系统。其中,该方法包括:接收检索请求,检索请求用于请求对检索对象进行检索;获取检索对象,检索对象为用户输入的检索词或者检索语段的全部内容或者检索语段的部分内容;确定检索对象所在的当前位置,当前位置为多个预设模块位置中的一个或者多个位置,其中,多个预设模块位置与按照专利申请文件的文本内容的组成结构进行拆分得到的多个内容模块一一对应;以及根据检索对象和当前位置检索专利文件。通过本发明,解决了现有的专利检索系统无法针对专利文件的各部分内容进行检索的技术问题。

Description

专利文件检索方法、装置和系统
技术领域
本发明涉及检索领域,具体而言,涉及一种专利文件检索方法、装置和系统。
背景技术
专利申请文件中包含大量的信息,使得专利检索成为研发人员获取参考资料的重要途径,通过专利检索可以了解相关技术的发展状况,掌握技术发展的趋势,避免重复研发,同时,如果需要完成专利申请文件撰写,也可以检索之前的专利申请作为参考。
然而,现有的专利检索系统中,通常会给出申请日、题目、分类号、摘要、发明人等作为检索入口,仅仅依靠检索系统所给出的检索入口,很难满足用户的多种需求。发明人发现,由于申请文件具有相对固定的文本格式,现有的专利检索系统还无法对专利文件的各部分进行检索,导致检索结果不准确,进而导致对专利数据分析不准确。
针对现有的专利检索系统无法针对专利文件的各部分内容进行检索的问题,目前尚未提出有效的解决方案。
发明内容
本发明实施例提供了一种专利文件检索方法、装置和系统,以至少解决现有的专利检索系统无法针对专利文件的各部分内容进行检索的技术问题。
根据本发明实施例的一个方面,提供了一种专利文件检索方法,包括:实时获取检索对象,所述检索对象为用户输入的检索词或者检索语段的全部内容或者所述检索语段的部分内容;确定所述检索对象所在的当前位置,所述当前位置为多个预设模块位置中的一个或者多个位置,其中,所述多个预设模块位置与按照专利申请文件的文本内容的组成结构进行拆分得到的多个内容模块一一对应;基于所述检索对象检索所述当前位置对应的内容模块中包含所述检索对象的专利文件;以及实时显示检索到的专利文件。
进一步地,在实时显示检索到的专利文件之后,所述方法还包括:接收用户输入的删选命令,所述删选命令用于对显示的专利文件进行删选;以及基于所述删选命令显示删选后的专利文件。
进一步地,在实时获取检索对象之前,所述方法还包括:获取数据库中的专利申请文件;根据专利申请文件的文本内容的组成结构对获取的专利申请文件进行拆分,得到所述多个内容模块;对拆分得到的多个内容模块进行标识;以及将标识后的多个内容模块保存到所述数据库中。
进一步地,实时获取检索对象包括:获取用户输入的检索内容;将所述用户输入的检索内容的全部内容作为所述检索对象,或者,读取用户从所述检索内容中选定的部分内容,将选定的部分内容作为所述检索对象。
进一步地,在实时获取检索对象之后,所述方法还包括:对所述检索对象进行分词处理,得到分词列表;从所述分词列表中剔除停用词,其中,基于所述检索对象检索所述当前位置对应的内容模块中包含所述检索对象的专利文件包括:基于剔除停用词后的分词列表检索所述当前位置对应的内容模块中包含所述剔除停用词后的分词列表的词语的专利文件。
进一步地,在从所述分词列表中剔除停用词之后,所述方法还包括:根据剔除停用词后的分词列表中的词的数量和每个词出现的次数计算每个词的权重;根据计算得到的每个词的权重从所述剔除停用词后的分词列表中选择用于检索的词语,其中,基于所述检索对象检索所述当前位置对应的内容模块中包含所述检索对象的专利文件包括:基于选择的词语检索所述当前位置对应的内容模块中包含有所述选择的词语的专利文件。
根据本发明实施例的另一方面,还提供了一种专利文件检索装置,包括:第一获取单元,用于实时获取检索对象,所述检索对象为用户输入的检索词或者检索语段的全部内容或者所述检索语段的部分内容;确定单元,用于确定所述检索对象所在的当前位置,所述当前位置为多个预设模块位置中的一个或者多个位置,其中,所述多个预设模块位置与按照专利申请文件的文本内容的组成结构进行拆分得到的多个内容模块一一对应;检索单元,用于基于所述检索对象检索所述当前位置对应的内容模块中包含所述检索对象的专利文件;以及显示单元,用于实时显示检索到的专利文件。
进一步地,所述装置还包括:接收单元,用于在实时显示检索到的专利文件之后,接收用户输入的删选命令,所述删选命令用于对显示的专利文件进行删选;所述显示单元还用于基于所述删选命令显示删选后的专利文件。
进一步地,所述装置还包括:第二获取单元,用于在实时获取检索对象之前,获取数据库中的专利申请文件;拆分单元,用于根据专利申请文件的文本内容的组成结构对获取的专利申请文件进行拆分,得到所述多个内容模块;标识单元,用于对拆分得到的多个内容模块进行标识;以及存储单元,用于将标识后的多个内容模块保存到所述数据库中。
进一步地,所述第一获取单元包括:获取模块,用于获取用户输入的检索内容;确定模块,用于将所述用户输入的检索内容的全部内容作为所述检索对象,或者,读取用户从所述检索内容中选定的部分内容,将选定的部分内容作为所述检索对象。
进一步地,所述装置还包括:分词单元,用于在实时获取检索对象之后,对所述检索对象进行分词处理,得到分词列表;剔除单元,用于从所述分词列表中剔除停用词,其中,所述检索单元包括:第一检索模块,用于基于剔除停用词后的分词列表检索所述当前位置对应的内容模块中包含所述剔除停用词后的分词列表的词语的专利文件。
进一步地,所述装置还包括:计算单元,用于在从所述分词列表中剔除停用词之后,根据剔除停用词后的分词列表中的词的数量和每个词出现的次数计算每个词的权重;选择单元,用于根据计算得到的每个词的权重从所述剔除停用词后的分词列表中选择用于检索的词语,其中,所述检索单元包括:第二检索模块,用于基于选择的词语检索所述当前位置对应的内容模块中包含有所述选择的词语的专利文件。
根据本发明实施例的另一方面,还提供了一种专利文件检索系统,包括:模块化数据库,用于切分专利文本中的内容并进行模块化存储;词汇抽取模块,用于获取用户输入的检索内容,并实时获取所述检索内容中的检索对象;检索模块,用于确定所述检索对象所在的当前位置,并基于所述检索对象从所述模块化数据中检索所述当前位置对应的内容模块中包含所述检索对象的专利文件所述当前位置为多个预设模块位置中的一个或者多个位置,其中,所述多个预设模块位置与按照专利申请文件的文本内容的组成结构进行拆分得到的多个内容模块一一对应;以及显示模块,用于实时显示检索到的专利文件。
在本发明实施例中,通过接收检索请求,检索请求用于请求对检索对象进行检索;实时获取检索对象,检索对象为用户输入的检索词或者检索语段的全部内容或者检索语段的部分内容;确定检索对象所在的当前位置,当前位置为多个预设模块位置中的一个或者多个位置,其中,多个预设模块位置与按照专利申请文件的文本内容的组成结构进行拆分得到的多个内容模块一一对应;基于检索对象检索当前位置对应的内容模块中包含检索对象的专利文件;实时显示检索到的专利文件,解决了现有的专利检索系统无法针对专利文件的各部分内容进行检索的技术问题,达到了针对专利文件的各部分进行检索的效果。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1是根据本发明实施例的专利文件检索方法的流程图;
图2是根据本发明实施例的专利文件检索装置的示意图;以及
图3是根据本发明实施例的专利文件检索系统的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
根据本发明实施例,提供了一种专利文件检索的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。
图1是根据本发明实施例的专利文件检索方法的流程图。如图1所示,该方法包括如下步骤:
步骤S102,实时获取检索对象。检索对象为用户输入的检索词或者检索语段的全部内容或者检索语段的部分内容。
检索对象可以是用户通过检索系统提供的输入框输入的检索词,也可以是用户输入的一段检索语段,或者是用户输入的一段检索语段中的部分内容,即,用户输入检索内容可以是一个或多个关键词,也可以是一个句子或多个句子,也可以是一个或多个段落。用户通过终端输入相关检索内容并确定检索对象后,检索系统实时获取检索对象,用以启动相应的检索。具体地,实时获取检索对象可以是按照一定的周期从检索内容输入框中获取检索对象。当然,在获取到检索对象之后,还可以将该词获取到的对象与上一次获取到的检索对象进行对比,如果二者不相同,则重新检索,如果相同,则暂不进行检索,并重新获取检索对象。
步骤S104,确定检索对象所在的当前位置。当前位置为多个预设模块位置中的一个或者多个位置,其中,多个预设模块位置与按照专利申请文件的文本内容的组成结构进行拆分得到的多个内容模块一一对应。
检索系统在获取到检索对象之后,确定该检索对象输入的当前位置。在本发明实施例中,预先设置有多个预设模块位置,该多个预设模块位置分别对应于专利申请文件的文本内容的各个组成部分,由于专利申请文件的文本内容具有相对固定的格式,例如,独立权利要求、从属权利要求、说明书题目、背景技术、技术领域、发明内容、实施方式等等的内容模块,对于不同的内容模块,提供不同的检索入口,这样,当用户需要检索专利申请文件的文本内容的某个内容模块时,可以在相应的检索入口输入检索对象,从而检索出想要的内容。
步骤S106,基于检索对象检索当前位置对应的内容模块中包含检索对象的专利文件。
在获取到检索对象并确定出检索对象的当前位置后,则可以根据检索对象及其当前位置从数据库中检索出在当前位置对应的内容模块中包含上述检索对象的专利文件。例如,当用户在独立权利中检索时,可以将检索词或者检索语段输入在独立权利的位置上(也可以先输入内容,再选择希望检索的位置),当用户在背景技术中对检索词或者检索语段进行检索时,可以将检索词或者检索语段输入在背景技术中,以此类推,需要在其他模块检索时类似。
步骤S108,实时显示检索到的专利文件。
在检索到专利文件之后,将检索到的专利文件实时显示出来。具体地,可以将检索对象所在的内容模块显示在当前可见区域,并将检索到的专利文件中的检索对象高亮显示。本发明实施例中,通过实时获取检索对象,并实时将检索到的专利文件显示出来,从而可以方便用于对检索对象进行调整。
原有的检索系统中,检索入口有很多个,但一般都是将检索入口设定为申请日、公开日、题目,分类号、申请人、代理机构、全文等。检索入口没有按照固定的文本格式来划分,不能精确地对文本的特定位置进行检索,在用户需要对具体的位置进行检索时,无法满足用户需求,导致检索效率低。本发明实施例中,通过获取检索对象并确定检索对象所在的当前位置,从而可以利用检索对象及其当前位置由该当前位置所对应的内容模块来进行专利文件检索,精确地定位用户所要检索的专利文件的具体位置,解决了现有的专利检索系统无法针对专利文件的各部分内容进行检索的问题,达到了针对专利文件的各部分进行检索的效果。
优选地,在实时显示检索到的专利文件之后,方法还包括:接收用户输入的删选命令,删选命令用于对显示的专利文件进行删选;以及基于删选命令显示删选后的专利文件。
删选命令为用于对专利文件进行删选的命令,该删选命令可以由用户向检索系统发起,例如,在显示界面上显示有专利文件,并且每个专利文件都对应有一个删除功能的图标,用于可以通过点击该图标以发送删选命令,从而删除相应的专利文件,删除后的专利文件则不再显示。
具体地,本发明实施例中,通过实时获取检索对象,利用实时获取的检索对象进行检索,并实时显示检索到的专利文件,这样,用户可以根据实时显示的专利文件调检索对象,和/或,对检索到的专利文件进行删选,即,输入相应的删选命令,通过不断调整检索结果,从而使得检索结果更加准确。
优选地,在实时获取检索对象之前,方法还包括:获取数据库中的专利申请文件;根据专利申请文件的文本内容的组成结构对获取的专利申请文件进行拆分,得到多个内容模块;对拆分得到的多个内容模块进行标识;以及将标识后的多个内容模块保存到数据库中。
本发明实施例所提供的检索系统,在提供检索服务之间可以先建立模块化数据库,具体地,可以是对数据库中的专利申请文件进行拆分。根据文件的组成结构,例如专利申请文件中,按照说明书的题目、背景技术、技术领域、发明内容、实施方式等,将每件专利文本进行拆分和标识,并保存在数据库中。按照权利要求书的一般撰写模式,将权利要求拆分成独立权利要求及其从属权利要求,并进行标识。
通过对专利文件的拆分和标识,从而提供对专利文件各部分内容进行检索的基础,用户则可以针对专利文件的各部分进行检索。例如,用户可以限定在独立权利要求范围内进行检索,也可以限定在发明内容或者实施方式等部分检索,按照用户需求不同,可以选择不同的模块进行检索。当然,本发明实施例的检索系统还可以根据专利类型进行划分。
优选地,实时获取检索对象包括:获取用户输入的检索内容;将用户输入的检索内容的全部内容作为检索对象,或者,读取用户从检索内容中选定的部分内容,将选定的部分内容作为检索对象。
检索对象可以是用户输入的全部检索内容,也可以是输入内容中的一部分。用户可以输入一个检索词,也可以输入多个检索词或者检索语段,还可以根据需要对输入的检索内容进行选定。当用户不做选定时,默认为用户输入的全部检索内容为检索对象;用户可以针对已经输入的内容可以进行选择性检索,用户也可以选中检索内容中的部分内容进行检索,例如用户可以在独立权利要求的位置上输入一个段落,但是只想对其中的一个句子,甚至是一个句子中的一个词或短语进行检索,用户可以在输入段落之后,选定其中需要检索的词语或句子,当用户选定之后,提交检索请求,系统读取用户选定的内容,作为检索对象,对用户选中的内容进行检索,而不再是用户输入的全部内容,此时只在独立权利要求中对选定的内容进行检索。本发明实施例通过灵活地选择检索对象,便于用户快速检索,可以避免重复输入检索内容。
优选地,在实时获取检索对象之后,方法还包括:对检索对象进行分词处理,得到分词列表;从分词列表中剔除停用词,其中,基于检索对象检索当前位置对应的内容模块中包含检索对象的专利文件包括:基于剔除停用词后的分词列表检索当前位置对应的内容模块中包含剔除停用词后的分词列表的词语的专利文件。
本实施例中队检索对象进行分词处理,可以是对用户输入的全部检索内容进行分词,也可以是对用户输入的上述检索内容中用户选定的部分进行分词处理。尤其是当检索对象为一段检索语段时,获取到检索对象之后,按照预设分词规则对检索对象进行分词处理,得到分词列表,该分词列表中包含有从检索对象中分词得到的词语,然后,剔除上述分词列表中的停用词,停用词是指语言中没有什么实际含义的功能词,例如“的、包括、所述、一种”等。具体地,可以根据预先提供的停用词表来剔除分词列表中的停用词,将分词列表中的每一个词与提供的停用词列表进行匹配,如果匹配到停用词中的词,则确定为停用词;否则,确定其不是停用词。这样,通过分词并剔除检索对象中的停用词可以提高检索的准确性。
进一步地,在从分词列表中剔除停用词之后,方法还包括:根据剔除停用词后的分词列表中的词的数量和每个词出现的次数计算每个词的权重;根据计算得到的每个词的权重从剔除停用词后的分词列表中选择用于检索的词语,其中,基于检索对象检索当前位置对应的内容模块中包含检索对象的专利文件包括:基于选择的词语检索当前位置对应的内容模块中包含有选择的词语的专利文件。
本发明实施例中,剔除停用词之后,计算每个词的权重,每个词的权重根据分词列表中每个词出现的次数及分词列表中词的数量进行计算,如一个词出现了3次,返回的总的词汇数量是10个,则该词的权重是0.3,权重值的取值范围设为0~1,分词之后返回的带有权重的词汇列表,根据词汇列表,如果剔除停用词之后词汇列表中的词汇为空,则提示检索内容为空,如果剔除停用词汇之后的词汇不为空,继续进行检索;可以根据词的权重值,设置用于检索的词汇数量的上限,例如设置只用权重排名前5的词汇进行检索,当词汇不足5个时,按照实际数量进行检索,例如也可以是1个,最终获得用于检索的词汇,根据需要还可以返回词列表及其权重。本发明实施例中,还可以对抽取的关键词采取逻辑关系的组配,例如可以对抽取的5个关键词进行逻辑“或”的关系进行组配,默认是逻辑或关系,根据实际情况可以设置其他逻辑关系。然后,根据用户检索内容的分词结果和用户所在的模块位置,如权利要求、发明内容等,在特定模块的位置上检索出与分词结果最相关的若干篇文献,按相关性顺序显示,在显示结果中,可以将相关的词汇(抽取的关键词)在检索结果中用突出颜色标记,也可以按照用户的筛选条件进行排序。
本发明实施例中,在用户进行检索之前,可以先选择要检索的文件类型(例如专利申请的发明/实用新型),可以根据用户设置的文件类型,将检索范围限定在制定类型的文件中。例如,用户要申请实用新型专利,则系统会自动将检索范围限定在实用新型专利文本当中。另外,除了对文件的特定格式进行拆分,在指定的位置进行检索之外,还可以进行常规的检索,例如可以检索发明人、申请人、申请日、国别、代理机构等。
本发明实施例还提供了一种专利文件检索装置,该专利文件检索装置可以用于执行本发明实施例的专利文件检索方法。
图2是根据本发明实施例的专利文件检索装置的示意图。如图2所示,该专利文件检索装置包括:第一获取单元10、确定单元20、检索单元30和显示单元40。
第一获取单元10用于实时获取检索对象,检索对象为用户输入的检索词或者检索语段的全部内容或者检索语段的部分内容。
检索对象可以是用户通过检索系统提供的输入框输入的检索词,也可以是用户输入的一段检索语段,或者是用户输入的一段检索语段中的部分内容,即,用户输入检索内容可以是一个或多个关键词,也可以是一个句子或多个句子,也可以是一个或多个段落。用户通过终端输入相关检索内容并确定检索对象后,检索系统实时获取检索对象,用以启动相应的检索。具体地,实时获取检索对象可以是按照一定的周期从检索内容输入框中获取检索对象。当然,在获取到检索对象之后,还可以将该词获取到的对象与上一次获取到的检索对象进行对比,如果二者不相同,则重新检索,如果相同,则暂不进行检索,并重新获取检索对象。
确定单元20用于确定检索对象所在的当前位置,当前位置为多个预设模块位置中的一个或者多个位置,其中,多个预设模块位置与按照专利申请文件的文本内容的组成结构进行拆分得到的多个内容模块一一对应。
检索系统在获取到检索对象之后,并确定该检索对象输入的当前位置。在本发明实施例中,预先设置有多个预设模块位置,该多个预设模块位置分别对应于专利申请文件的文本内容的各个组成部分,由于专利申请文件的文本内容具有相对固定的格式,例如,独立权利要求、从属权利要求、说明书题目、背景技术、技术领域、发明内容、实施方式等等的内容模块,对于不同的内容模块,提供不同的检索入口,这样,当用户需要检索专利申请文件的文本内容的某个内容模块时,可以在相应的检索入口输入检索对象,从而检索出想要的内容。
检索单元30用于基于检索对象检索当前位置对应的内容模块中包含检索对象的专利文件。
在获取到检索对象并确定出检索对象的当前位置后,则可以根据检索对象及其当前位置从数据库中检索出在当前位置对应的内容模块中包含上述检索对象的专利文件。例如,当用户在独立权利中检索时,可以将检索词或者检索语段输入在独立权利的位置上(也可以先输入内容,再选择希望检索的位置),当用户在背景技术中对检索词或者检索语段进行检索时,可以将检索词或者检索语段输入在背景技术中,以此类推,需要在其他模块检索时类似。
显示单元40用于实时显示检索到的专利文件。
在检索到专利文件之后,将检索到的专利文件实时显示出来。具体地,可以将检索对象所在的内容模块显示在当前可见区域,并将检索到的专利文件中的检索对象高亮显示。本发明实施例中,通过实时获取检索对象,并实时将检索到的专利文件显示出来,从而可以方便用于对检索对象进行调整。
原有的检索系统中,检索入口有很多个,但一般都是将检索入口设定为申请日、公开日、题目,分类号、申请人、代理机构、全文等。检索入口没有按照固定的文本格式来划分,不能精确地对文本的特定位置进行检索,在用户需要对具体的位置进行检索时,无法满足用户需求,导致检索效率低。本发明实施例中,通过获取检索对象并确定检索对象所在的当前位置,从而可以利用检索对象及其当前位置由该当前位置所对应的内容模块来进行专利文件检索,精确地定位用户所要检索的专利文件的具体位置,解决了现有的专利检索系统无法针对专利文件的各部分内容进行检索的问题,达到了针对专利文件的各部分进行检索的效果。
优选地,装置还包括:接收单元,用于在实时显示检索到的专利文件之后,接收用户输入的删选命令,删选命令用于对显示的专利文件进行删选;显示单元还用于基于删选命令显示删选后的专利文件。
删选命令为用于对专利文件进行删选的命令,该删选命令可以由用户向向检索系统发起,例如,在显示界面上显示有专利文件,并且每个专利文件都对应有一个删除功能的图标,用于可以通过点击该图标以发送删选命令,从而删除相应的专利文件,删除后的专利文件则不再显示。
具体地,本发明实施例中,通过实时获取检索对象,利用实时获取的检索对象进行检索,并实时显示检索到的专利文件,这样,用户可以根据实时显示的专利文件调检索对象,和/或,对检索到的专利文件进行删选,即,输入相应的删选命令,通过不断调整检索结果,从而使得检索结果更加准确。
优选地,装置还包括:第二获取单元,用于在实时获取检索对象之前,获取数据库中的专利申请文件;拆分单元,用于根据专利申请文件的文本内容的组成结构对获取的专利申请文件进行拆分,得到多个内容模块;标识单元,用于对拆分得到的多个内容模块进行标识;以及存储单元,用于将标识后的多个内容模块保存到数据库中。
本发明实施例所提供的检索系统,在提供检索服务之间可以先建立模块化数据库,具体地,可以是对数据库中的专利申请文件进行拆分。根据文件的组成结构,例如专利申请文件中,按照说明书的题目、背景技术、技术领域、发明内容、实施方式等,将每件专利文本进行拆分和标识,并保存在数据库中。按照权利要求书的一般撰写模式,将权利要求拆分成独立权利要求及其从属权利要求,并进行标识。
通过对专利文件的拆分和标识,从而提供对专利文件各部分内容进行检索的基础,用户则可以针对专利文件的各部分进行检索。例如,用户可以限定在独立权利要求范围内进行检索,也可以限定在发明内容或者实施方式等部分检索,按照用户需求不同,可以选择不同的模块进行检索。当然,本发明实施例的检索系统还可以根据专利类型进行划分。
优选地,第一获取单元包括:获取模块,用于获取用户输入的检索内容;确定模块,用于将用户输入的检索内容的全部内容作为检索对象,或者,读取用户从检索内容中选定的部分内容,将选定的部分内容作为检索对象。
检索对象可以是用户输入的全部检索内容,也可以是输入内容中的一部分。用户可以输入一个检索词,也可以输入多个检索词或者检索语段,还可以根据需要对输入的检索内容进行选定。当用户不做选定时,默认为用户输入的全部检索内容为检索对象;用户可以针对已经输入的内容可以进行选择性检索,用户也可以选中检索内容中的部分内容进行检索,例如用户可以在独立权利要求的位置上输入一个段落,但是只想对其中的一个句子,甚至是一个句子中的一个词或短语进行检索,用户可以在输入段落之后,选定其中需要检索的词语或句子,当用户选定之后,提交检索请求,系统读取用户选定的内容,作为检索对象,对用户选中的内容进行检索,而不再是用户输入的全部内容,此时只在独立权利要求中对选定的内容进行检索。本发明实施例通过灵活地选择检索对象,便于用户快速检索,可以避免重复输入检索内容。
优选地,装置还包括:分词单元,用于在实时获取检索对象之后,对检索对象进行分词处理,得到分词列表;剔除单元,用于从分词列表中剔除停用词,其中,检索单元包括:第一检索模块,用于基于剔除停用词后的分词列表检索当前位置对应的内容模块中包含剔除停用词后的分词列表的词语的专利文件。
本实施例中队检索对象进行分词处理,可以是对用户输入的全部检索内容进行分词,也可以是对用户输入的上述检索内容中用户选定的部分进行分词处理。尤其是当检索对象为一段检索语段时,获取到检索对象之后,按照预设分词规则对检索对象进行分词处理,得到分词列表,该分词列表中包含有从检索对象中分词得到的词语,然后,剔除上述分词列表中的停用词,停用词是指语言中没有什么实际含义的功能词,例如“的、包括、所述、一种”等。具体地,可以根据预先提供的停用词表来剔除分词列表中的停用词,将分词列表中的每一个词与提供的停用词列表进行匹配,如果匹配到停用词中的词,则确定为停用词;否则,确定其不是停用词。这样,通过分词并剔除检索对象中的停用词可以提高检索的准确性。
进一步地,装置还包括:计算单元,用于在从分词列表中剔除停用词之后,根据剔除停用词后的分词列表中的词的数量和每个词出现的次数计算每个词的权重;选择单元,用于根据计算得到的每个词的权重从剔除停用词后的分词列表中选择用于检索的词语,其中,检索单元包括:第二检索模块,用于基于选择的词语检索当前位置对应的内容模块中包含有选择的词语的专利文件。
本发明实施例中,剔除停用词之后,计算每个词的权重,每个词的权重根据分词列表中每个词出现的次数及分词列表中词的数量进行计算,如一个词出现了3次,返回的总的词汇数量是10个,则该词的权重是0.3,权重值的取值范围设为0~1,分词之后返回的带有权重的词汇列表,根据词汇列表,如果剔除停用词之后词汇列表中的词汇为空,则提示检索内容为空,如果剔除停用词汇之后的词汇不为空,继续进行检索;可以根据词的权重值,设置用于检索的词汇数量的上限,例如设置只用权重排名前5的词汇进行检索,当词汇不足5个时,按照实际数量进行检索,例如也可以是1个,最终获得用于检索的词汇,根据需要还可以返回词列表及其权重。本发明实施例中,还可以对抽取的关键词采取逻辑关系的组配,例如可以对抽取的5个关键词进行逻辑“或”的关系进行组配,默认是逻辑或关系,根据实际情况可以设置其他逻辑关系。然后,根据用户检索内容的分词结果和用户所在的模块位置,如权利要求、发明内容等,在特定模块的位置上检索出与组配结果最相关的若干篇文献,按相关性顺序显示,在显示结果中,可以将相关的词汇(抽取的关键词)在检索结果中用突出颜色标记,也可以按照用户的筛选条件进行排序。
本发明实施例还提供了一种专利文件检索系统。图3是根据本发明实施例的专利文件检索系统的事宜图。如图3所示,该系统包括:模块化数据库301、词汇抽取模块302、检索模块303和显示模块304。
其中,模块化数据库301用于切分专利文本中的内容并进行模块化存储;词汇抽取模块302用于获取用户输入的检索内容,并实时获取检索内容中的检索对象;检索模块303用于确定检索对象所在的当前位置,并基于检索对象从模块化数据中检索当前位置对应的内容模块中包含检索对象的专利文件当前位置为多个预设模块位置中的一个或者多个位置,其中,多个预设模块位置与按照专利申请文件的文本内容的组成结构进行拆分得到的多个内容模块一一对应;显示模块304用于实时显示检索到的专利文件。
具体地,词汇抽取模块可以用于实现上述实施例的专利文件检索装置中的第一获取单元、分词单元、删除单元、计算单元和选择单元的功能,该检索模块可以用于实现上述实施例的专利文件检索装置中检索单元的功能。
模块化数据库301(对专利文本进行拆分和标识后形成的数据库):用于切分专利文本中的内容,例如可以将专利文本按照名称、摘要、权利要求、技术领域、背景技术、发明内容、实施方式等进行切分和标识,并保存到相应的数据库表中;也可以进一步的对权利要求切分为独立权利要求、从属权利要求,分别标识后保存到相应的数据库中。
词汇抽取模块302:用于获取用户输入的检索内容,确定检索对象,对检索对象进行词汇切分处理,剔除停用词处理,生成检索词列表,根据需要还可以设置用于检索的词汇的相关度;停用词就是可能是一些没有实际意义的词汇,比如“一种”,“所述”,“的”等。如果用户只选择了输入内容中的一部分内容,这时系统获取的用户检索内容为用户选取的这部分内容,不再是用户输入的全部内容。
检索模块303(完成逻辑组配和检索):用于获取用户的检索条件,包括获取特定的检索位置、检索词和逻辑关系,根据用户设置的检索位置、检索词和逻辑关系,从数据库中检索出相关专利文件,并采用相关度排序或者用户指定的其他筛选条件排序;如果没有设置逻辑关系,则默认逻辑或关系,使用逻辑关系组合词汇。
显示模块304(按照相关度或者其他排序显示,可以增加辅助显示标记):用于根据检索结果的相关度,按照相关度从高到低的顺序进行排序显示,可以对关键词进行高亮标记。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,可以为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (7)

1.一种专利文件检索方法,其特征在于,包括:
实时获取检索对象,所述检索对象为用户输入的检索内容的全部内容或者从所述检索内容中选定的部分内容,所述检索内容包括:检索词或者检索语段;
确定所述检索对象所在的当前位置,所述当前位置为多个预设模块位置中的一个或者多个位置,其中,所述多个预设模块位置与按照专利申请文件的文本内容的组成结构进行拆分得到的多个内容模块一一对应;
基于所述检索对象检索所述当前位置对应的内容模块中包含所述检索对象的专利文件;以及
实时显示检索到的专利文件;其中,在实时获取检索对象之前,所述方法还包括:获取数据库中的专利申请文件;根据专利申请文件的文本内容的组成结构对获取的专利申请文件进行拆分,得到所述多个内容模块;对拆分得到的多个内容模块进行标识;以及将标识后的多个内容模块保存到所述数据库中;对于不同的内容模块,提供不同的检索入口;
在实时获取检索对象之后,所述方法还包括:对所述检索对象进行分词处理,得到分词列表;从所述分词列表中剔除停用词,其中,基于所述检索对象检索所述当前位置对应的内容模块中包含所述检索对象的专利文件包括:基于剔除停用词后的分词列表检索所述当前位置对应的内容模块中包含所述剔除停用词后的分词列表的词语的专利文件;
其中,实时获取检索对象包括:按照一定的周期从检索内容输入框中获取检索对象,并在获取到检索对象之后,将该次获取到的检索对象与上一次获取到的检索对象比对,如果二者不相同,则重新检索;如果相同,则暂不重新检索,重新获取检索对象。
2.根据权利要求1所述的方法,其特征在于,在实时显示检索到的专利文件之后,所述方法还包括:
接收用户输入的删选命令,所述删选命令用于对显示的专利文件进行删选;以及
基于所述删选命令显示删选后的专利文件。
3.根据权利要求1所述的方法,其特征在于,在从所述分词列表中剔除停用词之后,所述方法还包括:
根据剔除停用词后的分词列表中的词的数量和每个词出现的次数计算每个词的权重;
根据计算得到的每个词的权重从所述剔除停用词后的分词列表中选择用于检索的词语,
其中,基于所述检索对象检索所述当前位置对应的内容模块中包含所述检索对象的专利文件包括:基于选择的词语检索所述当前位置对应的内容模块中包含有所述选择的词语的专利文件。
4.一种专利文件检索装置,其特征在于,包括:
第一获取单元,用于实时获取检索对象,所述检索对象为用户输入的检索内容的全部内容或者从所述检索内容中选定的部分内容,所述检索内容包括:检索词或者检索语段;
确定单元,用于确定所述检索对象所在的当前位置,所述当前位置为多个预设模块位置中的一个或者多个位置,其中,所述多个预设模块位置与按照专利申请文件的文本内容的组成结构进行拆分得到的多个内容模块一一对应;对于不同的内容模块,提供不同的检索入口;
检索单元,用于基于所述检索对象检索所述当前位置对应的内容模块中包含所述检索对象的专利文件;以及
显示单元,用于实时显示检索到的专利文件;其中,所述装置还包括:
第二获取单元,用于在实时获取检索对象之前,获取数据库中的专利申请文件;
拆分单元,用于根据专利申请文件的文本内容的组成结构对获取的专利申请文件进行拆分,得到所述多个内容模块;
标识单元,用于对拆分得到的多个内容模块进行标识;以及
存储单元,用于将标识后的多个内容模块保存到所述数据库中;
所述装置还包括:
分词单元,用于在实时获取检索对象之后,对所述检索对象进行分词处理,得到分词列表;
剔除单元,用于从所述分词列表中剔除停用词,
其中,所述检索单元包括:第一检索模块,用于基于剔除停用词后的分词列表检索所述当前位置对应的内容模块中包含所述剔除停用词后的分词列表的词语的专利文件;
其中,所述第一获取单元还用于按照一定的周期从检索内容输入框中获取检索对象,并在获取到检索对象之后,将该次获取到的检索对象与上一次获取到的检索对象比对,如果二者不相同,则重新检索;如果相同,则暂不重新检索,重新获取检索对象。
5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
接收单元,用于在实时显示检索到的专利文件之后,接收用户输入的删选命令,所述删选命令用于对显示的专利文件进行删选;
所述显示单元还用于基于所述删选命令显示删选后的专利文件。
6.根据权利要求4所述的装置,其特征在于,所述装置还包括:
计算单元,用于在从所述分词列表中剔除停用词之后,根据剔除停用词后的分词列表中的词的数量和每个词出现的次数计算每个词的权重;
选择单元,用于根据计算得到的每个词的权重从所述剔除停用词后的分词列表中选择用于检索的词语,
其中,所述检索单元包括:第二检索模块,用于基于选择的词语检索所述当前位置对应的内容模块中包含有所述选择的词语的专利文件。
7.一种专利文件检索系统,其特征在于,包括:
模块化数据库,用于切分专利文本中的内容并进行模块化存储;
词汇抽取模块,用于获取用户输入的检索内容,并实时获取所述检索内容中的检索对象,所述检索对象为用户输入的检索内容的全部内容或者从所述检索内容中选定的部分内容,所述检索内容包括:检索词或者检索语段;
检索模块,用于确定所述检索对象所在的当前位置,并基于所述检索对象从所述模块化数据中检索所述当前位置对应的内容模块中包含所述检索对象的专利文件所述当前位置为多个预设模块位置中的一个或者多个位置,其中,所述多个预设模块位置与按照专利申请文件的文本内容的组成结构进行拆分得到的多个内容模块一一对应;对于不同的内容模块,提供不同的检索入口;以及
显示模块,用于实时显示检索到的专利文件;其中,所述系统还用于:获取数据库中的专利申请文件;根据专利申请文件的文本内容的组成结构对获取的专利申请文件进行拆分,得到所述多个内容模块;对拆分得到的多个内容模块进行标识;以及将标识后的多个内容模块保存到所述数据库中;
所述词汇抽取模块还用于:对所述检索对象进行分词处理,得到分词列表;从所述分词列表中剔除停用词,其中,基于所述检索对象检索所述当前位置对应的内容模块中包含所述检索对象的专利文件包括:基于剔除停用词后的分词列表检索所述当前位置对应的内容模块中包含所述剔除停用词后的分词列表的词语的专利文件;
所述词汇抽取模块还用于按照一定的周期从检索内容输入框中获取检索对象,并在获取到检索对象之后,将该次获取到的检索对象与上一次获取到的检索对象比对,如果二者不相同,则重新检索;如果相同,则暂不重新检索,重新获取检索对象。
CN201510159155.4A 2015-04-03 2015-04-03 专利文件检索方法、装置和系统 Active CN106156111B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510159155.4A CN106156111B (zh) 2015-04-03 2015-04-03 专利文件检索方法、装置和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510159155.4A CN106156111B (zh) 2015-04-03 2015-04-03 专利文件检索方法、装置和系统

Publications (2)

Publication Number Publication Date
CN106156111A CN106156111A (zh) 2016-11-23
CN106156111B true CN106156111B (zh) 2021-10-19

Family

ID=57338677

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510159155.4A Active CN106156111B (zh) 2015-04-03 2015-04-03 专利文件检索方法、装置和系统

Country Status (1)

Country Link
CN (1) CN106156111B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108733732A (zh) * 2017-04-25 2018-11-02 北京国双科技有限公司 一种文本检索方法及装置
CN109117435B (zh) * 2017-06-22 2021-07-27 索意互动(北京)信息技术有限公司 一种客户端、服务器、检索方法及其系统
CN110895556B (zh) * 2018-09-13 2023-07-28 北京蓝灯鱼智能科技有限公司 文本检索方法和装置、存储介质及电子装置
CN110069597A (zh) * 2019-03-08 2019-07-30 北京合享智慧科技有限公司 基于执行对象的场景信息的构建方法及装置
CN113868294A (zh) * 2021-08-31 2021-12-31 北京中知智慧科技有限公司 基于爆炸图的知识产权检索方法及装置
CN115794999B (zh) * 2023-02-01 2023-04-11 北京知呱呱科技服务有限公司 一种基于扩散模型的专利文档查询方法及计算机设备
CN116795789B (zh) * 2023-08-24 2024-04-19 卓望信息技术(北京)有限公司 自动生成专利检索报告的方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276339A (zh) * 2007-03-29 2008-10-01 上海汉光知识产权数据科技有限公司 专利数据检索方法
CN102483744A (zh) * 2009-05-07 2012-05-30 Cpa软件有限公司 检索电子文献集合的方法、系统及装置
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN104199858A (zh) * 2014-08-14 2014-12-10 中国科学技术信息研究所 专利文件的检索方法和可视化专利检索系统

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234204A (ja) * 2007-03-19 2008-10-02 Ricoh Co Ltd 文書検索装置、文書検索方法および文書検索プログラム
JP2010250657A (ja) * 2009-04-17 2010-11-04 Seiko Epson Corp 印刷装置、画像処理装置、画像処理方法およびコンピュータープログラム
EP2315136A1 (en) * 2009-10-05 2011-04-27 Sven Weil Method for analysis of differences in documents
CN102567423B (zh) * 2010-12-31 2014-12-03 成都致远诺亚舟教育科技有限公司 一种诗词关联搜索方法和系统
CN103186622B (zh) * 2011-12-30 2016-03-30 北大方正集团有限公司 一种全文检索系统中索引信息的更新方法以及装置
US8805848B2 (en) * 2012-05-24 2014-08-12 International Business Machines Corporation Systems, methods and computer program products for fast and scalable proximal search for search queries

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101276339A (zh) * 2007-03-29 2008-10-01 上海汉光知识产权数据科技有限公司 专利数据检索方法
CN102483744A (zh) * 2009-05-07 2012-05-30 Cpa软件有限公司 检索电子文献集合的方法、系统及装置
CN103886063A (zh) * 2014-03-18 2014-06-25 国家电网公司 一种文本检索方法和装置
CN104199858A (zh) * 2014-08-14 2014-12-10 中国科学技术信息研究所 专利文件的检索方法和可视化专利检索系统

Also Published As

Publication number Publication date
CN106156111A (zh) 2016-11-23

Similar Documents

Publication Publication Date Title
CN106156111B (zh) 专利文件检索方法、装置和系统
US9519636B2 (en) Deduction of analytic context based on text and semantic layer
CN107085583B (zh) 一种基于内容的电子文档管理方法及装置
CN110297880B (zh) 语料产品的推荐方法、装置、设备及存储介质
CN105975558A (zh) 建立语句编辑模型的方法、语句自动编辑方法及对应装置
CN107844493B (zh) 一种文件关联方法及系统
WO2014100202A1 (en) Systems and methods for patent-related document analysis and searching
KR101782802B1 (ko) 전자 문서 간 메모 공유 방법 및 컴퓨터 프로그램
CN107870915B (zh) 对搜索结果的指示
JPH06119405A (ja) 画像検索装置
JP4896132B2 (ja) 情報価値を反映した情報検索方法及びその装置
US7853595B2 (en) Method and apparatus for creating a tool for generating an index for a document
CN113407678B (zh) 知识图谱构建方法、装置和设备
US20150206101A1 (en) System for determining infringement of copyright based on the text reference point and method thereof
CN108345694B (zh) 一种基于主题数据库的文献检索方法及系统
CN112015907A (zh) 一种学科知识图谱快速构建方法、装置及存储介质
EP2483814A1 (en) Method for setting metadata, system for setting metadata, and program
CN114443847A (zh) 文本分类、文本处理方法、装置、计算机设备及存储介质
CN107315735B (zh) 用于笔记整理的方法及设备
US11645312B2 (en) Attribute extraction apparatus and attribute extraction method
JP7293780B2 (ja) 情報処理装置、文書管理システム及びプログラム
KR102497151B1 (ko) 출원인 정보 채우기 시스템 및 방법
JP2005107931A (ja) 画像検索装置
CN112052656A (zh) 推荐文档的主题模式
CN115146030A (zh) 一种基于知识图谱的公务文书写作方法及系统

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant