CN106934010A

CN106934010A - 自动查重方法及装置

Info

Publication number: CN106934010A
Application number: CN201710138286.3A
Authority: CN
Inventors: 唐婵娟; 周彪; 李富山; 韩荣华; 张小敏
Original assignee: Shenzhen China Times Technology Co Ltd
Current assignee: Shenzhen China Times Technology Co Ltd
Priority date: 2017-03-09
Filing date: 2017-03-09
Publication date: 2017-07-07

Abstract

本发明提供一种自动查重方法，方法：获取待查重的文档资料，自动筛选文档资料的关键词；制定文献标引表，其中，文献标引表包括文献标引、以及每个文献标引对应的一个或多个词语；从每篇文献资料中抽取出表现主题的词语，根据文献标引表为抽取出来的词语赋予文献标引；从文献标引表中查找出关键词对应的文献标引，将数据库中包含查找出的文献标引的文献资料检索出来；计算文档资料中的每个词语与检索出来的文献资料中的每个词语的相似度，得到词语相似度；根据词语相似度计算文档资料与检索出来的文献资料的相似度。本发明还公开了一种自动查重装置，本发明所提供的自动查重方法和装置能高效、准确地判断文档资料与检索出的文献资料的相似度。

Description

自动查重方法及装置

技术领域

本发明涉及通讯技术领域，尤其涉及一种自动查重方法及装置。

背景技术

随着知识产权意识的提高，越来越多的普通人开始申请专利。当人们构思出技术文档并准备提出相关专利申请进行知识产权保护时，为了确保提交的专利申请文件能被授予专利权，十分有必要在提交专利申请文件之前，针对技术文档进行查重检索，现有的查重方法包括基于字符串匹配的方法、基于文档指纹的方法、基于语义知识的方法。

具体来说，基于字符串匹配的方法是基于数理统计的方法，先通过字符串匹配算法，找出技术文档与数据库中的文档相匹配的字符串数，随后利用相似性计算公式求出结果。这种基于字符串匹配的方法对字符串的选取要求很高，同时字符串匹配算法的时间复杂度较高，需要较大的资源开销和较长的计算时间。基于文档指纹的方法通过代表文档语义的文本作为“指纹”，通过比较“指纹”从而达到查重的目的，在选取“指纹”的过程中可能受到文章层次结构的影响而造成漏判。基于语义知识的方法是通过分析比较技术文档与数据库文章的自然语义相似的程度从而达到查重的目的，该方法依赖于自然语言相似性的计算，由于中文语言的复杂性，基于语义知识的判断结果正确性很难得到保证。由此可见，传统上的查重存在资源开销大、计算时间长、查重结果不准确等问题。

发明内容

本发明的主要目的在于解决目前在海量数据下无法高效快速、准确进行文档查重的问题。

为实现上述目的，本发明提供一种自动查重方法，所述方法包括：

获取待查重的文档资料，自动筛选所述文档资料的关键词；

制定文献标引表，其中，所述文献标引表包括文献标引、以及每个所述文献标引对应的一个或多个词语；

将数据库中的每篇文献资料中具有实质意义且反映主题的词语抽取出来，根据所述文献标引表为所述抽取出来的词语赋予对应的文献标引；

从所述文献标引表中查找出所述关键词对应的文献标引，将所述数据库中包含所述查找出的文献标引的文献资料检索出来；

计算所述文档资料中的每个词语与所述检索出来的文献资料中的每个词语的相似度，得到词语相似度；

根据所述词语相似度计算所述文档资料与所述检索出来的文献资料的相似度。

优选地，所述自动筛选所述文档资料的关键词具体包括：

查找所述文档资料中出现次数最多的词语，将所述出现次数最多的词语中无实质意义的词语过滤，得到具有实质意义的词语；

根据逆文档频率规则对所述具有实质意义的词语赋予相应的权重，并将具有最大权重的词语选为关键词。

优选地，所述计算所述文档资料中的词语与所述检索出来的文献资料中的词语的相似度具体包括：

基于字面信息、或词林、或知网对所述文档资料中的每个词语与所述检索出来的文献资料中的每个词语进行相似度计算。

优选地，所述根据计算出的词语相似度计算所述文档资料与所述检索出来的文献资料的相似度具体包括：

将每个所述词语相似度与第一预设值进行比较，判断是否存在大于第一预设值的词语相似度；

当某一所述词语相似度大于第一预设值，则所述文档资料中的对应词语与所述检索出来的文献资料中的对应的词语为相似词语，累计所述相似词语的个数；

根据所述相似词语的个数计算出所述文档资料与所述检索出来的文献资料的相似度。

优选地，所述文献标引包括分类号、检索词，所述数据库为专利文献数据库、所述文献资料为专利文献资料。

此外，为实现上述目的，本发明还提供所述的自动查重装置，所述装置包括：

筛选模块，用于获取待查重的文档资料，自动筛选所述文档资料的关键词，并制定文献标引表，其中，所述文献标引表包括文献标引、以及每个所述文献标引对应的一个或多个词语；

检索模块，用于将数据库中的每篇文献资料中具有实质意义且反映主题的词语抽取出来，根据所述文献标引表为所述抽取出来的词语赋予对应的文献标引，从所述文献标引表中查找出所述关键词对应的文献标引，将所述数据库中包含所述查找出的文献标引的文献资料检索出来；

评估模块，用于计算所述文档资料中的每个词语与所述检索出来的文献资料中的每个词语的相似度，得到词语相似度，根据所述词语相似度计算所述文档资料与所述检索出来的文献资料的相似度。

优选地，所述筛选模块，具体用于查找所述文档资料中出现次数最多的词语，将所述出现次数最多的词语中无实质意义的词语过滤，得到具有实质意义的词语，根据逆文档频率规则对所述具有实质意义的词语赋予相应的权重，并将具有最大权重的词语选为关键词。

优选地，所述评估模块，具体用于基于字面信息、或词林、或知网对所述文档资料中的每个词语与所述检索出来的文献资料中的每个词语进行相似度计算。

优选地，所述评估模块，具体还用于将每个所述词语相似度与第一预设值进行比较，判断是否存在大于第一预设值的词语相似度，当某一所述词语相似度大于第一预设值，则所述文档资料中的对应词语与所述检索出来的文献资料中的对应的词语为相似词语，累计所述相似词语的个数，根据所述相似词语的个数计算出所述文档资料与所述检索出来的文献资料的相似度。

本发明提供的自动查重方法及装置，能获取文档资料，自动筛选文档资料的关键词，根据关键词检索出文献资料，计算文档资料与检索出的文献资料的词语相似度，根据词语相似度计算文档资料与检索出的文献资料的相似度，能在海量数据下高效快速、准确进行文档查重，提高文档查重效率。

附图说明

图1为本发明的自动查重方法一实施例的流程示意图；

图2为图1中步骤S10中自动筛选文档资料的关键词的一具体细化流程示意图；

图3为图1中步骤S60中根据词语相似度计算文档资料与检索出来的文献资料的相似度的一具体细化流程示意图；

图4为本发明的自动查重装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明提供一种自动查重方法。参照图1，图1为本发明的自动查重方法一实施例的流程示意图。在该实施例中，所述自动查重方法包括：

步骤S10、获取待查重的文档资料，自动筛选文档资料的关键词。

在上述实施例中，获取的文档资料为具有创意的技术想法，可以通过以下方式获取文档资料：实时接收通过输入设备输入的文档资料、从本地存储器中获取文档资料、通过网络从远端获取文档资料。

步骤S20、制定文献标引表，其中，文献标引表包括文献标引、以及每个文献标引对应的一个或多个词语。

在上述实施例中，文献标引表中包括一个或多个文献标引，每一个文献标引对应的一个或多个词语可以由用户设置、或系统默认设置，每个文献标引对应的多个词语为同义词或近义词。

步骤S30、将数据库中的每篇文献资料中具有实质意义且反映主题的词语抽取出来，根据文献标引表为抽取出来的词语赋予对应的文献标引。

在上述实施例中，文献标引包括分类号、检索词等形式，文献资料存储在数据库中，具体的，数据库包括专利文献数据库、文献资料包括专利文献，对数据库中的每一篇文献都进行文献标引，也就是说将每篇文献资料中具有实质意义且反映主题的词语抽取出来，根据文献标引表对抽取的词语赋予对应的文献标引。

步骤S40、从文献标引表中查找出关键词对应的文献标引，将数据库中包含查找出的文献标引的文献资料检索出来。

在上述实施例中，每一个文献标引对应一个或多个词语，根据文献标引与词语的对应关系，查找出关键词对应的文献标引。从数据库中检索出的与文献资料可以包括一篇或多篇专利文献资料。

步骤S50、计算文档资料中的每个词语与检索出来的文献资料中的每个词语的相似度，得到词语相似度。

在上述实施例中，计算文档资料中的词语与检索出来的文献资料中的词语的相似度具体包括：基于字面信息、或词林、或知网对文档资料中的每个词语与检索出来的文献资料中的每个词语进行相似度计算。需要补充说明的是，基于字面信息对词语的相似度进行计算的核心内容是：中文词语的构成句子中，一般较核心的内容都放在句子的后面，句子后面的词语在句子中所起的作用比靠前的词语大，因此对句子进行分析时需要给后面的字或词赋予较高的权重。基于词林对词语的相似度进行计算的核心内容是：使用两个词语的词义距离来表示语间相似度，当处理对象是一个词组或短语时，首先将其切分为义类词，并将义类词在词林的树状结构中提取出相关的语义编码，并对两个词语的语义编码进行相似度计算。基于知网对词语的相似度进行计算的核心内容是：知网以概念作为描述对象，从关系层次上揭示词语的的概念含义，并建立了概念关系网络，包含词语属性以及属性间关系，基于知网的词语相似度计算方法在计算概念词的相似度时较准确。

步骤S60、根据词语相似度计算文档资料与检索出来的文献资料的相似度。

在上述实施例中得到文档资料与检索出来的文献资料的相似度之后，可以将结果显示出来，以供用户进行查阅，方便用户了解待查重文档与文献资料的相似度。

参见图2，图2为图1中步骤S10中自动筛选文档资料的关键词的一具体细化流程示意图。其中，步骤S10中自动筛选文档资料的关键词具体包括：

步骤S11、查找文档资料中出现次数最多的词语，将出现次数最多的词语中无实质意义的词语过滤，得到具有实质意义的词语。

在上述实施例中，无实质意义的词语为"的"、"是"、"在"......这一类最常用的词，这些词语又称为停用词，表示对检索结果毫无帮助、必须过滤的词语。当过滤了无实质意义的词语后，只剩下具有实质意义的词语，当剩下的词语中某些词语出现的次数一样多时，需要对出现次数相同的词语的重要性进行判断。

步骤S12、根据逆文档频率规则对具有实质意义的词语赋予相应的权重，并将具有最大权重的词语选为关键词。

在上述实施例中，当出现次数相同的词语时，通过衡量一个词是不是常见词来判断是否为关键词，如果某个词比较少见，但是该词语在某篇文章中多次出现，那么该词语很可能就反映了这篇文章的特性，即该词语为这篇文章的关键词，因此可以根据逆文档频率规则对具有实质意义的词语赋予相应的权重，并将具有最大权重的词语选为关键词，其中，逆文档频率规则是指对每个词分配一个“重要性”权重，最常见的词给予最小的权重，较常见的词给予较小的权重，较少见的词给予最大的权重，即词语的权重大小与这个词语的常见程度成反比。

参见图3，图3为图1中步骤S60中根据词语相似度计算文档资料与检索出来的文献资料的相似度的一具体细化流程示意图。其中，步骤S60中根据词语相似度计算文档资料与检索出来的文献资料的相似度具体包括：

步骤S61、将每个词语相似度与第一预设值进行比较，判断是否存在大于第一预设值的词语相似度。

在上述实施例中，第一预设值可以为通过大量实验后获取的实验值，也可以根据日常经验设置的经验值，还可以为用户自行设置的任意数值。

步骤S62、当某一词语相似度大于第一预设值，则待查重文档资料中的对应词语与检索出来的文献资料中的对应的词语为相似词语，累计相似词语的个数。

在上述实施例中，相似词语是指词意相同或相似的词语，具体来说，文档资料中的某一词语与检索出来的文献资料中的某一词语为同一词语时，判断出该同一词语为相似词语，当文档资料中的某一词语与检索出来的文献资料中的某一词语的词意的相似度大于第一预设值时，判断出文档资料中的该词语与检索出来的文献资料中的该词语为相似词语。

步骤S63、根据相似词语的个数计算出文档资料与检索出来的文献资料的相似度。

在上述实施例中，当检索出来多篇文献资料时，逐一对多篇文献资料与文档资料进行相似度计算，并得出相似度百分比结果，根据相似度百分比结果对多篇文献资料进行排序。

以上实施例提供的自动查重方法，能获取待查重的文档资料，自动筛选文档资料的关键词，根据关键词检索出文献资料，计算文档资料与检索出的文献资料的词语相似度，根据词语相似度计算文档资料与检索出的文献资料的相似度，能在海量数据下高效快速、准确进行文档查重，提高文档查重效率。

本发明进一步提供一种自动查重装置。参照图4，图4为本发明的自动查重装置一实施例的功能模块示意图。在该实施例中，所述自动查重装置100包括：筛选模块110、检索模块120、评估模块130。其中，所述筛选模块110，用于获取待查重的文档资料，自动筛选文档资料的关键词，并制定文献标引表，其中，文献标引表包括文献标引、以及每个文献标引对应的一个或多个词语。所述检索模块120，用于将数据库中的每篇文献资料中具有实质意义且反映主题的词语抽取出来，根据文献标引表为抽取出来的词语赋予对应的文献标引，从文献标引表中查找出关键词对应的文献标引，将数据库中包含查找出的文献标引的文献资料检索出来。所述评估模块130，用于计算文档资料中的每个词语与检索出来的文献资料中的每个词语的相似度，得到词语相似度，根据词语相似度计算文档资料与检索出来的文献资料的相似度。

在上述实施例中，获取的文档资料为具有创意的技术想法，可以通过以下方式获取文档资料：实时接收通过输入设备输入的文档资料、从本地存储器中获取文档资料、通过网络从远端获取文档资料。补充说明的是，在上述实施例中，文献标引表中包括一个或多个文献标引，每一个文献标引对应的一个或多个词语可以由用户设置、或系统默认设置，每个文献标引对应的多个词语为同义词或近义词。文献标引包括分类号、检索词等形式，文献资料存储在数据库中，具体的，数据库包括专利文献数据库、文献资料包括专利文献，对数据库中的每一篇文献都进行文献标引，也就是说将每篇文献资料中具有实质意义且反映主题的词语抽取出来，根据文献标引表对抽取的词语赋予对应的文献标引。每一个文献标引对应一个或多个词语，根据文献标引与词语的对应关系，查找出关键词对应的文献标引，根据关键词对应的文献标引从数据库中检索出的文献资料可以包括一篇或多篇专利文献资料。在得到文档资料与检索出来的文献资料的相似度之后，可以将结果显示出来，以供用户进行查阅，方便用户了解待查重文档与文献资料的相似度。

在上述实施例中，所述筛选模块110，具体用于查找文档资料中出现次数最多的词语，将出现次数最多的词语中无实质意义的词语过滤，得到具有实质意义的词语，根据逆文档频率规则对具有实质意义的词语赋予相应的权重，并将具有最大权重的词语选为关键词。其中，无实质意义的词语为"的"、"是"、"在"......这一类最常用的词，这些词语又称为停用词，表示对检索结果毫无帮助、必须过滤的词语。当过滤了无实质意义的词语后，只剩下具有实质意义的词语，当剩下的词语中某些词语出现的次数一样多时，需要对出现次数相同的词语的重要性进行判断。补充说明的是，当出现次数相同的词语时，所述筛选模块110，具体还用于通过衡量一个词是不是常见词来判断是否为关键词，如果某个词比较少见，但是该词语在某篇文章中多次出现，那么该词语很可能就反映了这篇文章的特性，即该词语为这篇文章的关键词，因此可以根据逆文档频率规则对具有实质意义的词语赋予相应的权重，并将具有最大权重的词语选为关键词，其中，逆文档频率规则是指对每个词分配一个“重要性”权重，最常见的词给予最小的权重，较常见的词给予较小的权重，较少见的词给予最大的权重，即词语的权重大小与这个词语的常见程度成反比。

在上述实施例中，所述评估模块130，具体用于基于字面信息、或词林、或知网对关键词与文献资料中的具有实质意义的词语的相似度进行计算。需要补充说明的是，基于字面信息对词语的相似度进行计算的核心内容是：中文词语的构成句子中，一般较核心的内容都放在句子的后面，句子后面的词语在句子中所起的作用比靠前的词语大，因此对句子进行分析时需要给后面的字或词赋予较高的权重。基于词林对词语的相似度进行计算的核心内容是：使用两个词语的词义距离来表示语间相似度，当处理对象是一个词组或短语时，首先将其切分为义类词，并将义类词在词林的树状结构中提取出相关的语义编码，并对两个词语的语义编码进行相似度计算。基于知网对词语的相似度进行计算的核心内容是：知网以概念作为描述对象，从关系层次上揭示词语的的概念含义，并建立了概念关系网络，包含词语属性以及属性间关系，基于知网的词语相似度计算方法在计算概念词的相似度时较准确。

在上述实施例中，所述评估模块130，具体还用于将每个词语相似度与第一预设值进行比较，判断是否存在大于第一预设值的词语相似度，当某一词语相似度大于第一预设值，则文档资料中的对应词语与检索出来的文献资料中的对应的词语为相似词语，累计相似词语的个数，根据相似词语的个数计算出文档资料与检索出来的文献资料的相似度。

在上述实施例中，第一预设值可以为通过大量实验后获取的实验值，也可以根据日常经验设置的经验值，还可以为用户自行设置的任意数值。相似词语是指词意相同或相似的词语，具体来说，文档资料中的某一词语与检索出来的文献资料中的某一词语为同一词语时，判断出该同一词语为相似词语，当文档资料中的某一词语与检索出来的文献资料中的某一词语的词意的相似度大于第一预设值时，判断出文档资料中的该词语与文献资料中的该词语为相似词语。当检索出来多篇文献资料时，逐一对多篇文献资料与文档资料进行相似度计算，并得出相似度百分比结果，根据相似度百分比结果对多篇文献资料进行排序。

以上实施例提供的自动查重装置，能获取待查重的文档资料，自动筛选文档资料的关键词，根据关键词检索出文献资料，计算文档资料与检索出的文献资料的词语相似度，根据词语相似度计算文档资料与检索出的文献资料的相似度，能在海量数据下高效快速、准确进行文档查重，提高文档查重效率。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种自动查重方法，其特征在于，包括：

获取待查重的文档资料，自动筛选所述文档资料的关键词；

2.如权利要求1所述的自动查重方法，其特征在于，所述自动筛选所述文档资料的关键词具体包括：

3.如权利要求1所述的自动查重方法，其特征在于，所述计算所述文档资料中的词语与所述检索出来的文献资料中的词语的相似度具体包括：

4.如权利要求1所述的自动查重方法，其特征在于，所述根据计算出的词语相似度计算所述文档资料与所述检索出来的文献资料的相似度具体包括：

5.如权利要求1-4任意一项所述的自动查重方法，其特征在于，所述文献标引包括分类号、检索词，所述数据库为专利文献数据库、所述文献资料为专利文献资料。

6.一种自动查重装置，其特征在于，包括：

7.如权利要求6所述的自动查重装置，其特征在于，

所述筛选模块，具体用于查找所述文档资料中出现次数最多的词语，将所述出现次数最多的词语中无实质意义的词语过滤，得到具有实质意义的词语，根据逆文档频率规则对所述具有实质意义的词语赋予相应的权重，并将具有最大权重的词语选为关键词。

8.如权利要求6所述的自动查重装置，其特征在于，

所述评估模块，具体用于基于字面信息、或词林、或知网对所述文档资料中的每个词语与所述检索出来的文献资料中的每个词语进行相似度计算。

9.如权利要求6所述的自动查重装置，其特征在于，

所述评估模块，具体还用于将每个所述词语相似度与第一预设值进行比较，判断是否存在大于第一预设值的词语相似度，当某一所述词语相似度大于第一预设值，则所述文档资料中的对应词语与所述检索出来的文献资料中的对应的词语为相似词语，累计所述相似词语的个数，根据所述相似词语的个数计算出所述文档资料与所述检索出来的文献资料的相似度。

10.如权利要求6-9任意一项所述的自动查重装置，其特征在于，

所述文献标引包括分类号、检索词，所述数据库为专利文献数据库、所述文献资料为专利文献资料。