CN109710574B - 一种从文献中提取关键信息的方法和装置 - Google Patents

一种从文献中提取关键信息的方法和装置 Download PDF

Info

Publication number
CN109710574B
CN109710574B CN201811592925.4A CN201811592925A CN109710574B CN 109710574 B CN109710574 B CN 109710574B CN 201811592925 A CN201811592925 A CN 201811592925A CN 109710574 B CN109710574 B CN 109710574B
Authority
CN
China
Prior art keywords
document
information
history
segment
documents
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811592925.4A
Other languages
English (en)
Other versions
CN109710574A (zh
Inventor
赵耕弘
汤一凡
崔朝辉
赵立军
张霞
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Neusoft Corp
Original Assignee
Neusoft Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Neusoft Corp filed Critical Neusoft Corp
Priority to CN201811592925.4A priority Critical patent/CN109710574B/zh
Publication of CN109710574A publication Critical patent/CN109710574A/zh
Application granted granted Critical
Publication of CN109710574B publication Critical patent/CN109710574B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种从文献中提取关键信息的方法及装置,基于第二历史文献与第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系,对机器学习模型进行训练。在完成对机器学习模型的训练后,可以对机器学习模型进行测试,确定机器学习模型的输出结果是否符合要求,若是,则认为目标位置片段中的信息在查重检索的过程中较为重要,则可以将目标位置片段作为信息提取片段,从目标文献的目标位置片段提取用于对目标文献进行查重检索的关键信息。由于用于提取关键信息的机器学习模型经过训练和测试,因此关键信息较为准确,同时,关键信息是自动提取的,相比于人工提取来说,提高了提取效率,从而提供文献查重的效率。

Description

一种从文献中提取关键信息的方法和装置
技术领域
本申请涉及信息处理技术领域,特别是涉及一种从文献中提取关键信息的方法和装置。
背景技术
对于一些文献来说,存在查重的需求。例如,对于专利文献来说,在许多情况下需要查找影响其新颖性或创造性的对比文件,该专利文献与其对比文件描述了相同或相似的技术方案。又如,对于论文来说,在许多情况下需要查找与该论文阐述了相同技术思想的其他文献。
在对文献进行查重时,需要从文献中提取出关键信息,以使用关键信息进行查重检索。目前,关键信息主要依靠人工提取,即人工阅读文献并从文献中提取出合适的关键信息。但人工提取关键信息的效率较低,不仅要耗费过多的人工成本,而且还会导致文献查重的效率低下。
发明内容
本申请所要解决的技术问题是,提供一种从文献中提取关键信息的方法和装置,以降低关键信息提取时人工需要花费的工作量,提高关键信息的提取效率,从而提高文献查重的效率。
本申请实施例提供了一种从文献中提取关键信息的方法,包括:
从第一历史文献的目标位置片段中提取第一信息,并将所述第一信息输入到机器学习模型中,得到所述机器学习模型输出的第二信息;其中,所述机器学习模型已基于第二历史文献与所述第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系进行了训练;
从所述第一历史文献的已知查重文献的目标位置片段中提取第三信息并根据所述第二信息与所述第三信息的相似程度,确定所述目标位置片段是否作为信息提取片段;
若所述目标位置片段作为信息提取片段,从目标文献的目标位置片段提取用于对所述目标文献进行查重检索的关键信息。
可选的,所述机器学习模型具体为机器翻译模型。
可选的,所述目标文献、所述第一历史文献和所述第二历史文献均为专利文献;
所述第一历史文献的已知查重文献为用于评价所述第一历史文献的新颖性或创造性的对比文件;
所述第二历史文献的已知查重文献为用于评价所述第二历史文献的新颖性或创造性的对比文件。
可选的,所述第一历史文献的已知查重文献具体为在所述第一历史文献的驳回决定中使用的对比文件;
所述第二历史文献的已知查重文献具体为在所述第二历史文献的驳回决定中使用的对比文件。
可选的,所述第一历史文献的已知查重文献具体为在所述第一历史文献的无效决定中使用的对比文件;
所述第二历史文献的已知查重文献具体为在所述第二历史文献的无效决定中使用的对比文件。
可选的,所述第一历史文献、所述第二历史文献和所述目标文献均属于相同的技术领域。
可选的,所述方法还包括:
根据所述关键信息针对所述目标位置片段检索技术文献;其中,检索到的技术文献在所述目标位置片段匹配所述关键信息;
按照所述检索到的技术文献与所述关键信息的相关程度,呈现所述检索到的技术文献,作为所述目标文献的查重结果。
本申请实施例还提供了一种从文献中提取关键信息的装置,包括:
第二信息获取单元,用于从第一历史文献的目标位置片段中提取第一信息,并将所述第一信息输入到机器学习模型中,得到所述机器学习模型输出的第二信息;其中,所述机器学习模型已基于第二历史文献与所述第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系进行了训练;
信息提取片段确定单元,用于从所述第一历史文献的已知查重文献的目标位置片段中提取第三信息并根据所述第二信息与所述第三信息的相似程度,确定所述目标位置片段是否作为信息提取片段;
关键信息提取单元,用于若所述目标位置片段作为信息提取片段,从目标文献的目标位置片段提取用于对所述目标文献进行查重检索的关键信息。
可选的,所述机器学习模型具体为机器翻译模型。
可选的,所述目标文献、所述第一历史文献和所述第二历史文献均为专利文献;
所述第一历史文献的已知查重文献为用于评价所述第一历史文献的新颖性或创造性的对比文件;
所述第二历史文献的已知查重文献为用于评价所述第二历史文献的新颖性或创造性的对比文件。
可选的,所述第一历史文献的已知查重文献具体为在所述第一历史文献的驳回决定中使用的对比文件;
所述第二历史文献的已知查重文献具体为在所述第二历史文献的驳回决定中使用的对比文件。
可选的,所述第一历史文献的已知查重文献具体为在所述第一历史文献的无效决定中使用的对比文件;
所述第二历史文献的已知查重文献具体为在所述第二历史文献的无效决定中使用的对比文件。
可选的,所述第一历史文献、所述第二历史文献和所述目标文献均属于相同的技术领域。
可选的,所述装置还包括:
检索单元,用于根据所述关键信息针对所述目标位置片段检索技术文献;其中,检索到的技术文献在所述目标位置片段匹配所述关键信息;
呈现单元,用于按照所述检索到的技术文献与所述关键信息的相关程度,呈现所述检索到的技术文献,作为所述目标文献的查重结果。
本申请实施例还提供了一种从文献中提取关键信息的设备,所述设备包括处理器以及存储器;
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器,用于根据所述程序代码中的指令执行本申请实施例提供的一种从文献中提取关键信息的方法。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行本申请实施例提供的一种从文献中提取关键信息的方法。
与现有技术相比,本申请实施例具有以下优点:
基于第二历史文献与第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系,对机器学习模型进行训练。在完成对机器学习模型的训练后,可以对机器学习模型进行测试,具体的,可以从第一历史文献的目标位置片段中提取第一信息,并将第一信息输入到训练完成的机器学习模型,得到机器学习模型输出的第二信息,从第一历史文献的已知查重文献的目标位置片段中提第三信息,根据第二信息和第三信息的相似程度,确定机器学习模型的输出结果是否符合要求,若是,则认为目标位置片段中的信息在查重检索的过程中较为重要,则可以将目标位置片段作为信息提取片段。若目标位置片段作为信息提取片段,则可以从目标文献的目标位置片段提取用于对目标文献进行查重检索的关键信息,由于用于提取关键信息的机器学习模型经过训练和测试,因此关键信息较为准确,同时,关键信息是自动提取的,相比于人工提取来说,提高了提取效率,从而提供文献查重的效率。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例中一种从文献中提取关键信息的方法的流程图;
图2为本申请实施例提供的一种训练模型的示意图;
图3为本申请实施例提供的一种从文献中提取关键信息的装置的结构框图;
图4为本申请实施例提供的一种从文献中提取关键信息的设备的结构框图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
对于一些文献来说,存在查重的需求,从而判断是否存在与该文献具有相同技术思想的方案。具体来说,文献可以包括专利文献,在许多情况下需要查找影响专利文献的新颖性或创造性的对比文件,而该专利文献与其对比文件描述了相同或相似的技术方案。举例来说,专利文献的对比文件可以分为X类和Y类,X类对比文件可以单独影响该专利文献中的权利要求的新颖性或创造性,Y类对比文件可以与其他Y类对比文件结合,从而影响该专利文献中的权利要求的创造性。文献还可以包括论文文献,在许多情况下需要查找与该论文文献阐述了相同技术思想的其他论文文献。
在对文献进行查重时,需要从文献中提取出关键信息,以使用关键信息进行查重检索,关键信息例如主题、权利要求中的重要信息或说明书中的重要信息等。目前,关键信息主要依靠人工提取,即人工阅读文献并从文献中提取出合适的关键信息。但人工提取关键信息的效率较低,且较为依赖主观意识,不仅要耗费过多的人工成本,而且还会导致文献查重的效率低下、准确率低下等问题。
以专利文献为例,需要国家知识产权局的专利审查员人工阅读专利文献,通过业务知识从专利文献中提取出合适的关键信息,以使用关键信息进行查重检索,从而判断是否能检索到影响其新颖性或创造性的对比文件。然而,随着各公司乃至个人对知识产权保护意识的逐渐增强,专利申请的数量也越来越多,2017年我国发明专利申请量为138.2万件,同比增长14.2%,国内发明专利授权32.7万件,同比增长8.2%,相应的,审查员需要人工阅读和信息提取的专利文献的数量逐渐增大,需要耗费的人工成本也逐渐增大。
因此,如何提高文献中的关键信息的提取效率,降低人工成本,提高文献查重的效率,是目前亟待解决的问题。
基于以上技术问题,本申请实施例提供了一种从文献中提取关键信息的方法及装置,基于第二历史文献与第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系,对机器学习模型进行训练。在完成对机器学习模型的训练后,可以对机器学习模型进行测试,具体的,可以从第一历史文献的目标位置片段中提取第一信息,并将第一信息输入到训练完成的机器学习模型,得到机器学习模型输出的第二信息,从第一历史文献的已知查重文献的目标位置片段中提第三信息,根据第二信息和第三信息的相似程度,确定机器学习模型的输出结果是否符合要求,若是,则认为目标位置片段中的信息在查重检索的过程中较为重要,则可以将目标位置片段作为信息提取片段。若目标位置片段作为信息提取片段,则可以从目标文献的目标位置片段提取用于对目标文献进行查重检索的关键信息,由于用于提取关键信息的机器学习模型经过训练和测试,因此关键信息较为准确,同时,关键信息是自动提取的,相比于人工提取来说,提高了提取效率,从而提供文献查重的效率。
下面结合附图对本申请实施例提供的一种从文献中提取关键信息的方法及装置进行示例性的介绍。参考图1所述为本申请实施例提供的一种从文献中提取关键信息的方法的流程图,该方法包括以下步骤:
S101,从第一历史文献的目标位置片段中提取第一信息。
第一历史文献可以是专利文献或论文文献等有查重需求的文献,且第一历史文献已经经过查重。对于专利文献来说,第一历史文献可以是历史提交的专利文献,例如实质审查过程中的专利文献、被驳回的专利文献或被无效的专利文献等。
第一历史文献的目标位置片段是第一历史文献的目标位置的片段,第一信息可以是目标位置片段中的内容。目标位置片段可以是章节片段,也可以是段落片段,还可以是语句片段,当然,目标位置片段也可以是多个不同位置的片段的组合。目标位置片段的位置是预先定义好的,可以通过章节位置表示,也可以通过段落位置表示,还可以通过语句位置表示。
以专利文献为例,目标位置片段可以是专利名称、摘要、说明书、权利要求的章节片段,也可以是说明书中的第3段等段落片段,还可以是摘要中的第一句话等语句片段。当然目标位置片段也可以是上述多种片段的组合,例如摘要和权利要求的组合,或者专利名称和第一条权利要求的组合等。
S102,将第一信息输入到机器学习模型中,得到机器学习模型输出的第二信息。
机器学习模型是预先经过训练的模型,可以将一种信息处理形成另一种信息。具体的,可以基于第二历史文献与第二历史文献的已知查重文献进行训练,得到机器学习模型,使机器学习模型具有将历史文献的内容处理形成历史文献的查重文献的内容的能力。机器学习模型具体可以是机器翻译模型,例如可以是深层神经网络中的端到端(ending toending)模型,具体的,可以是序列到序列(Sequence to Sequence,seq2seq)模型,也可以是注意力(Attention)模型,还可以是其他端到端模型。
第二历史文献可以是专利文献或论文文献等有查重需求的文献,且第二历史文献已经经过查重。例如可以是实质审查过程中的专利文献、被驳回的专利文献或被无效的专利文献等,也可以是历史提交的论文文献。
在本申请实施例中,第二历史文献是和第一历史文献不同的文献。具体的,第一历史文献和第二历史文献可以位于同一文献库,第一历史文献可以占该文献库中的历史文献的总数的20%,相应的,第二历史文献可以占该文献库中的历史文献的总数的80%。
为了提高本申请自动提取信息的准确性,第二历史文献和第一历史文献可以属于相同的技术领域。具体实施时,可以将相同的技术领域的历史文献置于同一文献库,通过该文献库中的第二历史文献训练机器学习模型,通过该文献库中的第一历史文献检测机器学习模型。
第二历史文献的已知查重文献是预先得到的,且与第二历史文献具有相同思想的方案的文献,对于专利文献来说,第二历史文献的已知查重文献是能够影响第二历史文献的新颖性或创造性的对比文件,二者描述了相同或相似的技术方案。因此,第二历史文献和第二历史文献的已知查重文献存在着一些相似的信息,且这些相似的信息在第二历史文献中是关键信息,能够体现第二历史文献的核心思想。
第二历史文献的已知查重文献可以与第二历史文献位于同一文献库中,且与第二历史文献对应存放,一个第二历史文献可以对应一个或多个第二历史文献的已知查重文献。可以理解的是,第二历史文献为专利文献时,第二历史文献的已知查重文献为第二历史文献的对比文件。通常来说,若一个第二历史文献可以对应一个第二历史文献的已知查重文献,该第二历史文献的已知查重文献为X类对比文件;若一个第二历史文献对应多个第二历史文献的已知查重文献,则这多个第二历史文献的已知查重文献为Y类对比文件。
在第二历史文献为专利文献时,第二历史文献的已知查重文献可以通过以下方式确定:第二历史文献为实质审查过程中的专利文献时,第二历史文献的已知查重文献可以具体为在实质审查过程中用于评价第二历史文献的新颖性或创造性的对比文件;第二历史文献为被驳回的专利文献时,第二历史文献的已知查重文献可以具体为第二历史文献的驳回决定中使用的对比文件;第二历史文献为被无效的专利文献时,第二历史文献的已知查重文献可以具体为第二历史文献的无效决定中使用的对比文件。
在第二历史文献为论文文献时,可以预先通过人工查重获取到第二历史文献的已知查重文献。
第二历史文献和第二历史文献的已知查重文献具有相同技术思想。具体的,第二历史文献和第二历史文献的已知查重文献中的相似信息,可以是在文献内容的字面上相似,也可以是在文献内容的语义上相似,还可以是文献中的技术方案的具体实施方式或逻辑上的相似。
举例来说,第二历史文献是通过抄袭第二历史文献的已知查重文献而形成的,则即使第二历史文献与第二历史文献的相同位置片段的内容形式不同,其内容具有的语义也是相似的。
因此,本申请实施例中,可以从第二历史文献中提取信息,同时从第二历史文献的已知查重文献的相同位置片段中提取相应的信息,基于第二历史文献和第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系,对机器学习模型进行训练,使训练而成的机器学习模型,具有将文献的信息处理成为该文献的查重文献的相同位置片段的信息的能力。
举例来说,可以从第二历史文献中提取第一条权利要求的内容,同时从第二历史文献的已知查重文献的第一条权利要求的内容,基于两个文献中提取的内容,对机器学习模型进行训练,训练得到的机器学习模型,具有将文献的第一条权利要求的内容处理成为该文献的查重文献的第一条权利要求1的内容的能力。
由于第二历史文献和第二历史文献的已知查重文献的关系具有类型,例如X类或Y类,则基于第二历史文献和第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系,对机器学习模型进行训练,还可以具体为,基于第二历史文献和第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系,以及第二历史文献的已知查重文件与第二历史文献的关系类型,对机器学习模型进行训练,训练得到的机器学习模型,将具有将文献的信息根据关系类型处理成为该文献的查重文献的相同位置片段的信息的能力。
可以理解的是,机器学习模型可以和提取的信息的位置相关,具体来说,基于第二历史文献和第二历史文献的已知查重文献的第一位置片段训练而成的机器学习模型,可以相应的具有将文献的第一位置片段的信息处理成为该文献的查重文献的第一位置片段的信息的能力,而基于第二历史文献和第二历史文献的已知查重文献的第二位置片段训练而成的机器学习模型,则可以相应的具有将文献的第二位置片段的信息处理成为该文献的查重文献的第二位置片段的信息的能力。
因此,在本申请实施例中,可以基于第二历史文献和第二历史文献的已知查重文献的不同位置片段,训练得到对应于多个不同位置片段的多个机器学习模型,这些机器学习模型分别具有将文献的相应位置片段的信息处理成为该文献的查重文献的相同位置片段的信息的能力。
在对机器学习模型训练结束后,将从第一历史文献中提取出的第一信息输入到训练完成的机器学习模型中,可以通过机器学习模型对第一信息进行处理,得到机器学习模型输出的第二信息。第二信息是与第一信息相对应的,是机器学习模型根据训练得到的逻辑对第一信息进行处理,形成的第一历史文献的查重文献的目标位置片段的信息。第二信息可以与第一信息具有相似的内容,或者相似的语义,或者相似的实施方式或逻辑。
机器学习模型可以参考图2所示,第一信息经过编码器编码后,输入长短期记忆网络(Long Short-Term Memory,LSTM)进行处理,处理后的信息经过语义编码后,再输入LSTM进行再次处理,再次处理后的信息经过解码器解码后形成第二信息,输出第二信息。
在本申请实施例中,若训练得到的是对应于不同的位置片段的多个机器学习模型,则将第一信息输入机器学习模型可以具体为,将第一信息输入目标位置片段对应的机器学习模型中。相应的,第二信息是机器学习模型根据训练得到的逻辑对第一信息进行处理形成的,也就是说,第二信息是从机器学习模型的角度,第一历史文献的查重文献的目标位置片段的信息。
S103,从第一历史文献的已知查重文献的目标位置片段中提取第三信息。
第一历史文献的已知查重文献是预先得到的,且与第一历史文献具有相同思想的方案的文献,对于专利文献来说,第一历史文献的已知查重文献是能够影响第一历史文献的新颖性或创造性的对比文件,二者描述了相同或相似的技术方案。因此,第一历史文献和第一历史文献的已知查重文献存在着一些相似的信息,且这些相似的信息在第一历史文献中是关键信息,能够体现第一历史文献的核心思想。
第一历史文献的已知查重文献可以与第一历史文献位于同一文献库中,且与第一历史文献对应存放,一个第一历史文献可以对应一个或多个第一历史文献的已知查重文献。可以理解的是,第一历史文献为专利文献时,第一历史文献的已知查重文献为第一历史文献的对比文件。通常来说,若一个第一历史文献可以对应一个第一历史文献的已知查重文献,该第一历史文献的已知查重文献为X类对比文件;若一个第一历史文献对应多个第一历史文献的已知查重文献,则这多个第一历史文献的已知查重文献为Y类对比文件。
在第一历史文献为专利文献时,第一历史文献的已知查重文献可以通过以下方式确定:第一历史文献为实质审查过程中的专利文献时,第一历史文献的已知查重文献可以具体为在实质审查过程中用于评价第一历史文献的新颖性或创造性的对比文件;第一历史文献为驳回的专利文献时,第一历史文献的已知查重文献可以具体为在第一历史文献的驳回决定中使用的对比文件;第一历史文献为被无效的专利文献时,第一历史文献的已知查重文献可以具体为第一历史文献的无效决定中使用的对比文件。
在第一历史文献为论文文献时,可以预先通过人工查重获取到第一历史文献的已知查重文献。
第一历史文献的已知查重文献与第一历史文献具有相同技术思想。具体的,第一历史文献和第一历史文献的已知查重文献中的相似信息,可以是在文献内容的字面上相似,也可以是在文献内容的语义上相似,还可以是文献中的技术方案的具体实施方式或逻辑上的相似。
举例来说,第一历史文献是对第一历史文献的已知查重文献进行推理分析得到的,则即使第一历史文献与第一历史文献的相同位置片段的内容形式不同,其内容所具有的语义也是相似的。
综上,第一信息是第一历史文献的目标位置片段中提取的内容,第三信息是第一历史文献的已知查重文献的目标位置片段中的内容,第三信息与第一信息位于相同位置片段中,则以专业人员的逻辑角度,可以认为,在第一历史文献的已知查重文献与第一历史文献具有相同技术思想的前提下,若第一信息是第一历史文献中的关键信息,则第一信息能够体现第一历史文献的核心技术思想,由此可知,第三信息也能体现第一历史文献的已知查重文献的核心技术思想,且第三信息与第一信息相似。
S104,根据第二信息与第三信息的相似程度,确定目标位置片段是否为信息提取片段,若是,执行S105。
由于第二信息是机器学习模型输出的结果,与第一信息在机器学习模型的角度上具有对应关系,也就是说,第二信息是机器学习模型得到的第一历史文献的查重文献的目标位置片段的信息。而第三信息是在第一信息为第一历史文献中的关键信息的前提下,第一历史文献的已知查重文献中的与第一信息相似的信息。
也就是说,若第一信息和第三信息的相似程度较高,同时,第一历史文献和第一历史文献的已知查重文献具有相同技术思想,则可以认为,第一历史文献和第一历史文献的已知查重文献中必然有相似信息,而相似信息在第一历史文献中是关键的信息,能够体现第一历史文献的技术思想,又因为第一信息和第三信息是相似的信息,则可以得出,第一信息在第一历史文献中是关键信息的可能性很高。换句话说,可以认为是第一历史文献中较重要的第一信息和第一历史文献的已知查重文献中较重要的第三信息的相似,导致第一历史文献和第一历史文献的已知查重文献具有相同技术思想。
反之,若第一信息和第三信息的相似程度较低,同时,第一历史文献和第一历史文献的已知查重文献具有相同技术思想,则可以认为,即使第一信息和第三信息不相似,第一历史文献和第一历史文献的已知查重文献也具有相同技术思想,那么第一信息是第一历史文献中不太重要的信息。
因此,根据第二信息与第三信息的相似程度,确定目标位置片段是否为信息提取片段,可以具体为:若第二信息与第三信息的相似度大于或等于预设相似度,则可以确定目标位置片段中的信息是关键信息,则确定目标位置片段为信息提取片段,执行S105;若第二信息与第三信息的相似度小于预设相似度,则可以确定目标位置片段中的信息不是关键信息,则确定目标位置片段不为信息提取片段。
在本申请实施例中,若训练得到的是对应于不同的位置片段的多个机器学习模型,则还可以计算各个位置片段对应机器学习模型输出的第二信息与相应的第三信息的相似程度,从而将相似程度最高的第二信息对应的机器学习模型对应的位置片段,作为信息提取片段,进而执行S105。
举例来说,若训练得到权利要求对应的第一机器学习模型、摘要对应的第二机器学习模型、说明书对应的第三机器学习模型,则可以将第一历史文献中的权利要求输入第一机器学习模型,得到第一机器学习模型对应的第二信息,将第一历史文献中的摘要输入第二机器学习模型,得到第二机器学习模型对应的第二信息,将第一历史文献中的说明书输入第三机器学习模型,得到第三机器学习模型对应的第二信息。
从第一历史文献的已知文献中提取权利要求、摘要、说明书,分别作为对应与第一机器学习模型、第二机器学习模型和第三机器学习模型的第三信息。计算第一机器学习模型对应的第二信息和第三信息的第一相似程度,第二机器学习模型对应的第二信息和第三信息的第二相似程度,第三机器学习模型对应的第二信息和第三信息的第三相似程度,若第一相似程度是最高的,则说明第一机器学习模型对应的权利要求是第一历史文献中最重要的信息,则可以将权利要求部分作为信息提取片段。
具体实施时,第二信息和第三信息的相似程度,可以通过双语评价研究算法(Bilingual Evalution Understudy,BLEU)对第二信息和第三信息进行计算而得出的,在此不做举例说明。
S105,从目标文献的目标位置片段提取用于对目标文献进行查重检索的关键信息。
目标文献可以是专利文献或论文文献等查重需求的文献,且目标文献是待查重的文献,例如可以是还未进入实质审查过程的专利文献,也可以是接收到的未经查重的论文文献。
基于以上说明,确定目标位置片段为信息提取片段,则说明目标位置片段中的信息对于文献来说是关键信息,则可以从目标文献的目标位置片段提取用于对目标文献进行查重检索的关键信息,提取出的关键信息即为目标文献中的重要信息。
在本申请实施例中,为了提高获取关键信息的准确性,目标文献可以和第一历史文献、第二历史文献属于相同的技术领域。这是因为,不同技术领域的文献的信息提取逻辑可能不同,针对每个技术领域针对性的得到对应的机器学习模型,可以使关键信息的提取更准确。
目标文献的目标位置片段中提取的关键信息,是可以作为对目标文献进行查重检索的。因此,在本申请实施例中,还可以根据关键信息针对目标位置片段检索技术文献,其中,检索到的技术文献在目标位置片段匹配关键信息。按照检索到的技术文献与关键信息的相关程度,可以为用户呈现检索到的技术文献,作为目标文献的查重结果,从而减少人工检索需要花费的时间和精力。
通过本申请实施例提供的从文献中提取关键信息的方法,可以对目标文献进行查重。以专利文献的检索为例,在实际操作中,计算得到的前100个查重结果中,有48.57%的结果对审查员在进行专利审查时是有用的结果。在计算得到的前50个查重结果中,有42.86%的结果对审查员在进行专利审查时是有用的结果。在实际数据的验证计算中,有17.14%的专利文档被直接找到了X类对比文件。充分证明了本申请实施例提供的从文献中提取关键信息的方法能够在一定程度上代替人工进行关键信息的提取,从而减少人工成本。
本申请实施例提供的一种从文献中提取关键信息的方法中,基于第二历史文献与第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系,对机器学习模型进行训练。在完成对机器学习模型的训练后,可以对机器学习模型进行测试,具体的,可以从第一历史文献的目标位置片段中提取第一信息,并将第一信息输入到训练完成的机器学习模型,得到机器学习模型输出的第二信息,从第一历史文献的已知查重文献的目标位置片段中提第三信息,根据第二信息和第三信息的相似程度,确定机器学习模型的输出结果是否符合要求,若是,则认为目标位置片段中的信息在查重检索的过程中较为重要,则可以将目标位置片段作为信息提取片段。若目标位置片段作为信息提取片段,则可以从目标文献的目标位置片段提取用于对目标文献进行查重检索的关键信息,由于用于提取关键信息的机器学习模型经过训练和测试,因此关键信息较为准确,同时,关键信息是自动提取的,相比于人工提取来说,提高了提取效率,从而提供文献查重的效率。
基于以上实施例提供的一种从文献中提取关键信息的方法,本申请实施例还提供了一种从文献中提取关键信息的装置,下面结合附图来详细说明其工作原理。
参见图3,该图为本申请实施例提供的一种从文献中提取关键信息的装置的结构框图,该装置可以包括:
第二信息获取单元110,用于从第一历史文献的目标位置片段中提取第一信息,并将所述第一信息输入到机器学习模型中,得到所述机器学习模型输出的第二信息;其中,所述机器学习模型已基于第二历史文献与所述第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系进行了训练;
信息提取片段确定单元120,用于从所述第一历史文献的已知查重文献的目标位置片段中提取第三信息并根据所述第二信息与所述第三信息的相似程度,确定所述目标位置片段是否作为信息提取片段;
关键信息提取单元130,用于若所述目标位置片段作为信息提取片段,从目标文献的目标位置片段提取用于对所述目标文献进行查重检索的关键信息。
可选的,所述机器学习模型具体为机器翻译模型。
可选的,所述目标文献、所述第一历史文献和所述第二历史文献均为专利文献;
所述第一历史文献的已知查重文献为用于评价所述第一历史文献的新颖性或创造性的对比文件;
所述第二历史文献的已知查重文献为用于评价所述第二历史文献的新颖性或创造性的对比文件。
可选的,所述第一历史文献的已知查重文献具体为在所述第一历史文献的驳回决定中使用的对比文件;
所述第二历史文献的已知查重文献具体为在所述第二历史文献的驳回决定中使用的对比文件。
可选的,所述第一历史文献的已知查重文献具体为在所述第一历史文献的无效决定中使用的对比文件;
所述第二历史文献的已知查重文献具体为在所述第二历史文献的无效决定中使用的对比文件。
可选的,所述第一历史文献、所述第二历史文献和所述目标文献均属于相同的技术领域。
可选的,所述装置还包括:
检索单元,用于根据所述关键信息针对所述目标位置片段检索技术文献;其中,检索到的技术文献在所述目标位置片段匹配所述关键信息;
呈现单元,用于按照所述检索到的技术文献与所述关键信息的相关程度,呈现所述检索到的技术文献,作为所述目标文献的查重结果。
本申请实施例提供的一种从文献中提取关键信息的装置中,基于第二历史文献与第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系,对机器学习模型进行训练。在完成对机器学习模型的训练后,可以对机器学习模型进行测试,具体的,可以从第一历史文献的目标位置片段中提取第一信息,并将第一信息输入到训练完成的机器学习模型,得到机器学习模型输出的第二信息,从第一历史文献的已知查重文献的目标位置片段中提第三信息,根据第二信息和第三信息的相似程度,确定机器学习模型的输出结果是否符合要求,若是,则认为目标位置片段中的信息在查重检索的过程中较为重要,则可以将目标位置片段作为信息提取片段。若目标位置片段作为信息提取片段,则可以从目标文献的目标位置片段提取用于对目标文献进行查重检索的关键信息,由于用于提取关键信息的机器学习模型经过训练和测试,因此关键信息较为准确,同时,关键信息是自动提取的,相比于人工提取来说,提高了提取效率,从而提供文献查重的效率。
基于以上从文献中提取关键信息的方法,本申请实施例还提供了一种从文献中提取关键信息的设备,参考图4所示,所述设备包括处理器已经存储器;
其中,所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器,用于根据所述程序代码中的指令执行本申请实施例提供的一种从文献中提取关键信息的方法。
本申请实施例还提供了一种计算机可读存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行本申请实施例提供的一种从文献中提取关键信息的方法。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述仅是本申请的具体实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

Claims (10)

1.一种从文献中提取关键信息的方法,其特征在于,包括:
从第一历史文献的目标位置片段中提取第一信息,并将所述第一信息输入到机器学习模型中,得到所述机器学习模型输出的第二信息;其中,所述机器学习模型已基于第二历史文献与所述第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系进行了训练;
从所述第一历史文献的已知查重文献的目标位置片段中提取第三信息并根据所述第二信息与所述第三信息的相似程度,确定所述目标位置片段是否作为信息提取片段;
若所述目标位置片段作为信息提取片段,从目标文献的目标位置片段提取用于对所述目标文献进行查重检索的关键信息。
2.根据权利要求1所述的方法,其特征在于,所述机器学习模型具体为机器翻译模型。
3.根据权利要求1所述的方法,其特征在于,所述目标文献、所述第一历史文献和所述第二历史文献均为专利文献;
所述第一历史文献的已知查重文献为用于评价所述第一历史文献的新颖性或创造性的对比文件;
所述第二历史文献的已知查重文献为用于评价所述第二历史文献的新颖性或创造性的对比文件。
4.根据权利要求3所述的方法,其特征在于,所述第一历史文献的已知查重文献具体为在所述第一历史文献的驳回决定中使用的对比文件;
所述第二历史文献的已知查重文献具体为在所述第二历史文献的驳回决定中使用的对比文件。
5.根据权利要求3所述的方法,其特征在于,所述第一历史文献的已知查重文献具体为在所述第一历史文献的无效决定中使用的对比文件;
所述第二历史文献的已知查重文献具体为在所述第二历史文献的无效决定中使用的对比文件。
6.根据权利要求1所述的方法,其特征在于,所述第一历史文献、所述第二历史文献和所述目标文献均属于相同的技术领域。
7.根据权利要求1至6任意一项所述的方法,其特征在于,还包括:
根据所述关键信息针对所述目标位置片段检索技术文献;其中,检索到的技术文献在所述目标位置片段匹配所述关键信息;
按照所述检索到的技术文献与所述关键信息的相关程度,呈现所述检索到的技术文献,作为所述目标文献的查重结果。
8.一种从文献中提取关键信息的装置,其特征在于,包括:
第二信息获取单元,用于从第一历史文献的目标位置片段中提取第一信息,并将所述第一信息输入到机器学习模型中,得到所述机器学习模型输出的第二信息;其中,所述机器学习模型已基于第二历史文献与所述第二历史文献的已知查重文献在相同位置片段内提取的信息之间的对应关系进行了训练;
信息提取片段确定单元,用于从所述第一历史文献的已知查重文献的目标位置片段中提取第三信息并根据所述第二信息与所述第三信息的相似程度,确定所述目标位置片段是否作为信息提取片段;
关键信息提取单元,用于若所述目标位置片段作为信息提取片段,从目标文献的目标位置片段提取用于对所述目标文献进行查重检索的关键信息。
9.一种从文献中提取关键信息的设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1至7任一项所述的从文献中提取关键信息的方法。
10.一种存储介质,所述存储介质用于存储程序代码,所述程序代码用于执行权利要求1至7任一项所述从文献中提取关键信息的方法。
CN201811592925.4A 2018-12-25 2018-12-25 一种从文献中提取关键信息的方法和装置 Active CN109710574B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811592925.4A CN109710574B (zh) 2018-12-25 2018-12-25 一种从文献中提取关键信息的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811592925.4A CN109710574B (zh) 2018-12-25 2018-12-25 一种从文献中提取关键信息的方法和装置

Publications (2)

Publication Number Publication Date
CN109710574A CN109710574A (zh) 2019-05-03
CN109710574B true CN109710574B (zh) 2020-08-11

Family

ID=66257612

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811592925.4A Active CN109710574B (zh) 2018-12-25 2018-12-25 一种从文献中提取关键信息的方法和装置

Country Status (1)

Country Link
CN (1) CN109710574B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116795789B (zh) * 2023-08-24 2024-04-19 卓望信息技术(北京)有限公司 自动生成专利检索报告的方法及装置
CN117874173A (zh) * 2024-03-11 2024-04-12 腾讯科技(深圳)有限公司 一种向量模型的训练方法和相关装置

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314418A (zh) * 2011-10-09 2012-01-11 北京航空航天大学 一种基于上下文关联的中文相似性比较方法
CN108536678A (zh) * 2018-04-12 2018-09-14 腾讯科技(深圳)有限公司 文本关键信息提取方法、装置、计算机设备和存储介质

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100223214A1 (en) * 2009-02-27 2010-09-02 Kirpal Alok S Automatic extraction using machine learning based robust structural extractors

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102314418A (zh) * 2011-10-09 2012-01-11 北京航空航天大学 一种基于上下文关联的中文相似性比较方法
CN108536678A (zh) * 2018-04-12 2018-09-14 腾讯科技(深圳)有限公司 文本关键信息提取方法、装置、计算机设备和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
科技文献的实验语料句抽取方法;朱丽萍;《计算机工程与设计》;20161130(第11期);第3086-3091页 *

Also Published As

Publication number Publication date
CN109710574A (zh) 2019-05-03

Similar Documents

Publication Publication Date Title
Ahasanuzzaman et al. Mining duplicate questions in stack overflow
CN109726274B (zh) 问题生成方法、装置及存储介质
CN106991085B (zh) 一种实体的简称生成方法及装置
CN111563384B (zh) 面向电商产品的评价对象识别方法、装置及存储介质
CN111899090B (zh) 企业关联风险预警方法及系统
RU2680746C2 (ru) Способ и устройство для создания модели качества веб-страницы
CN112329055A (zh) 用户数据脱敏的方法及装置、电子设备、存储介质
CN109710574B (zh) 一种从文献中提取关键信息的方法和装置
CN110109678B (zh) 一种代码审计规则库生成方法、装置、设备及介质
CN112181490B (zh) 功能点评估法中功能类别的识别方法、装置、设备及介质
CN107958068B (zh) 一种基于实体知识库的语言模型平滑方法
CN111460810A (zh) 众包任务的抽检方法、装置、计算机设备及存储介质
CN109460474B (zh) 用户偏好趋势挖掘方法
CN111104503A (zh) 一种建筑工程质量验收规范问答系统及其构建方法
TW201316186A (zh) 中文數位反抄襲偵測比對系統與方法
CN114238632A (zh) 一种多标签分类模型训练方法、装置及电子设备
CN116775639A (zh) 数据处理方法、存储介质及电子设备
CN116361185A (zh) 一种软件测试方法及装置
CN105824871B (zh) 一种图片检测方法与设备
CN113139379B (zh) 信息识别方法和系统
Chang et al. Validating halstead metrics for scratch program using process data
Rawat et al. Detection of fake news using machine learning
CN110909533B (zh) 资源主题判定方法和系统
CN113704103B (zh) 测试用例推荐方法、装置、介质及电子设备
Rezaei et al. Test Case Recommendations with Distributed Representation of Code Syntactic Features

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant