CN112836010A

CN112836010A - 用于专利的检索方法、存储介质及装置

Info

Publication number: CN112836010A
Application number: CN202011141538.6A
Authority: CN
Inventors: 林赞磊; 李东明; 金忠良; 商雷
Original assignee: Great Wall Computer Software & Systems Inc
Current assignee: Great Wall Computer Software & Systems Inc
Priority date: 2020-10-22
Filing date: 2020-10-22
Publication date: 2021-05-25
Anticipated expiration: 2040-10-22
Also published as: CN112836010B

Abstract

本发明公开了用于专利的检索方法、存储介质及装置，涉及计算机技术领域。该方法包括：根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息的特征抽取，将得到的语义特征向量和表面信息特征向量进行拼接，得到融合特征向量；根据融合特征向量从预设的特征数据库中匹配相似度满足预设相似度条件的专利，得到检索结果。本发明适用于专利文件的相似文本的检索，能够得到准确的检索结果，能够充分挖掘不同专利之间的关联性，从而提高检索结果的可信度。

Description

用于专利的检索方法、存储介质及装置

技术领域

本发明涉及计算机技术领域，尤其涉及用于专利的检索方法、存储介质及装置。

背景技术

目前，专利文本的检索主要是通过构建检索式进行的检索，检索式通常由核心关键词构成，目前的检索方式是基于检索式中的核心关键词，匹配包含这些核心关键词的专利，而不同的关键词可能存在一定的层级和等效关系，如检索“机器”，其等效替换词可以为“装置、器械、设备、机械”等，如果在检索时不能全面覆盖这些等效替换词和存在上下位关系的替换词的各种组合，就可能存在检索不够全面的问题，导致检索结果不够准确，仅靠专利中是否包含核心关键词的方式进行检索，找到的也仅仅是核心关键词存在重叠的专利，其实质内容可能关联度不大，导致检索结果可信度低。

发明内容

本发明所要解决的技术问题是针对现有技术的不足，提供用于专利的检索方法、存储介质及装置。

本发明解决上述技术问题的技术方案如下：

一种用于专利的检索方法，包括：

根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息的特征抽取，将得到的语义特征向量和表面信息特征向量进行拼接，得到融合特征向量；

根据所述融合特征向量从预设的特征数据库中匹配相似度满足预设相似度条件的专利，得到检索结果。

作为本发明的一个较佳实现方式，所述神经网络模型包括深度神经网络模型、浅层神经网络模型和特征融合层，所述深度神经网络模型用于提取所述待检索专利的语义特征向量；所述浅层神经网络模型用于提取所述待检索专利的文本表面信息特征向量，所述文本表面信息特征向量包括词频向量和词向量；所述特征融合层用于将所述语义特征向量、所述词频向量和所述词向量按照预设拼接规则进行拼接，得到融合特征向量。

其中，在神经网络模型中将浅层模型和深层模型进行组合，浅层模型负责挖掘待检索专利的文本的表面信息，深层模型负责挖掘待检索专利的深层语义信息，二者相结合可以达到最优的效果，从而提高检索准确率。

作为本发明的另一个较佳实现方式，根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息的特征抽取之前，还可以从专利库中选择 hard正样本和semi-hard负样本作为训练集，对所述神经网络模型进行训练，并通过对比损失函数计算损失值，根据所述损失值调整优化所述神经网络模型。

优选地，作为训练使用的正样本，可以更有针对性的选择神经网络模型当前判断效果不佳的作为训练样本。

例如，对于semi-hard负样本，可以利用专利的IPC分类号，在不同领域选择负例，保证训练样本覆盖到专利的不同领域。

还可以更有针对性的选择训练数据，例如，分别在不同的领域选择负例，以防止在同一个领域选择太多相似的负例，从而让模型更快的收敛。

本发明解决上述技术问题的另一种技术方案如下：

一种存储介质，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如上述技术方案所述的用于专利的检索方法。

一种用于专利的检索装置，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，实现如权上述技术方案所述的用于专利的检索方法。

本发明的有益效果是：本发明提供的检索方法，适用于专利文件的相似文本的检索，通过抽取专利文本的语义和表面信息的特征，将得到的特征进行拼接，以拼接得到的融合的特征向量作为检索依据，预设的特征数据库中匹配相似的专利，能够得到准确的检索结果，由于融合特征向量中既包含语义信息，又包含词的表面信息，因此能够充分挖掘不同专利之间的关联性，从而提高检索结果的可信度。

本发明附加的方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明实践了解到。

附图说明

图1为本发明用于专利的检索方法的实施例提供的检索流程示意图；

图2为本发明用于专利的检索方法的其他实施例提供的模型训练流程示意图；

图3为本发明用于专利的检索方法的其他实施例提供的整体流程示意图；

图4为本发明用于专利的检索装置的实施例提供的结构框架图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实施例只用于解释本发明，并非用于限定本发明的范围。

如图1所示，为本发明用于专利的检索方法的实施例提供的检索流程示意图，该检索方法用于专利的检索，包括：

S1，根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息的特征抽取，将得到的语义特征向量和表面信息特征向量进行拼接，得到融合特征向量。

需要说明的是，可以使用深层网络挖掘不同的专利在语义上的相似程度，使用浅层网络根据文本的表面信息判断文本的相似程度，文本的表面信息可以为每个独立的词在某篇专利中出现的频率，或者同一个独立的词在不同专利中出现的频率等表明文本表面的信息而非语义的信息。例如，如果两篇专利文本的词语分布越接近，相似度越高，但是难以发掘到语序以及深层的语义信息。

如表1所示，给出了不同的模型的召回率对比，可以看出，将浅层模型和深层模型进行组合，可以达到最优的效果。

表1

其中，BERT模型为深层模型，word2vec模型和tfidf模型为浅层模型。

基于此，本发明对于语义的挖掘可以使用预训练的BERT模型，BERT 模型是谷歌推出的基于transformer的深度模型，在大规模的语料上做了预训练，使用最后一层的向量作为输出，输出包含语义信息的特征向量。

对于表面信息的挖局可以使用word2vec模型和tfidf模型，可以使用 word2vec模型得到词向量，使用tfidf模型得到词频向量，词频向量和词向量就是表面信息。

对于word2vec模型，可以使用专利文本数据进行训练，利用word2vec 模型可以得到从词到词向量的映射关系，然后通过卷积层和池化层，可以将词向量转换为文档向量。

应理解，池化层可以为广义平均池化，本发明可以使用一维的池化层，在文档长度方向求平均，用到广义平均，可以将p值作为一个可调参数，应用在全局池化层，通过训练数据自动调整p的取值，从而实现自动权衡全局特征与局部特征的重要性，达到既考虑全局特征，也自适应强化感兴趣局部区域的目的。

下面对于p的取值进行说明。

假设p是一个为零实数，那么可以定义实数x₁，…，x_n的p次幂平均为：

其中，p的取值不同代表不同的效果：

最小值

最大值

几何平均

调和平均

算术平均

二次平均

从上式可以看出，当p取负无穷时，效果相当于取min最小值，p取1 时相当于average算术平均，p取正无穷时相当于max最大值。因此，通过引入p值，可以解决最大池化层过分关注局部、平均池化层过分关注全局的问题，能够针对训练数据分布情况，自动平衡对全局/局部的关注度。

通过引入p值，可以解决最大池化层过分关注局部、平均池化层过分关注全局的问题，能够针对我们的训练数据分布情况，自动平衡对全局/局部的关注度。

对于tfidf模型，可以分别计算词频、文档频、文档长度归一值，然后计算得到词频向量。

词频tf(t)：

tf(t)＝sqrt(frequency(t))

其中，frequency(t)为词语t在当前文本中出现的个数，sqrt为平方根计算。

文档频idf(t)：

其中，numDocs为文档总数，docFreq(t)为词语t一共在几个文档中出现过，文档总数可以为专利库中的所有专利总数，例如，以国内专利库为例，可以为发明和实用新型的总数。

文档长度归一值fieldNorm：

其中，numTerms为文档的长度。

然后可以将词频、文档频和文档长度归一值进行拼接，从而得到词频向量，例如，可以直接将词频、文档频和文档长度归一值相乘，得到词频向量，将三者相乘：tf*idf*fieldNorm，得到的向量再用全连接层降维，便得到词频向量。

如图2所示，在分别通过BERT模型、word2vec模型和tfidf模型得到对应的语义向量、词向量和词频向量后，可以将三个向量进行拼接，从而得到融合向量。

其中textcnn模型用于词向量的卷积。

例如，可以将语义向量、词向量和词频向量首尾相接，得到融合向量；也可以将语义向量、词向量和词频向量相乘，得到融合向量；也可以使用不同的权重将三者加权后相乘或相加，得到融合特征向量。

S2，根据融合特征向量从预设的特征数据库中匹配相似度满足预设相似度条件的专利，得到检索结果。

需要说明的是，预设的特征数据库中存储有一定数量专利的融合特征向量，融合特征向量与专利是一一对应的关系。通过特征匹配的方式，就能够确定两篇专利之间的相似度，可以通过预先开发的检索插件实现特征匹配。

如图3所示，提供了一种示例性的整体流程示意图，本发明分为离线阶段和在先阶段两部分，离线阶段构建特征数据库，在先阶段可以检索专利。

离线阶段：预处理->神经网络模型抽特征->构建特征数据库

在线阶段：待检索文本->预处理->神经网络模型抽特征->在数据库中做相似度计算->排序得到检索结果

本实施例提供的检索方法，适用于专利文件的相似文本的检索，通过抽取专利文本的语义和表面信息的特征，将得到的特征进行拼接，以拼接得到的融合的特征向量作为检索依据，预设的特征数据库中匹配相似的专利，能够得到准确的检索结果，由于融合特征向量中既包含语义信息，又包含词的表面信息，因此能够充分挖掘不同专利之间的关联性，从而提高检索结果的可信度。

可选地，在一些可能的实施方式中，神经网络模型包括深度神经网络模型、浅层神经网络模型和特征融合层，深度神经网络模型用于提取待检索专利的语义特征向量；浅层神经网络模型用于提取待检索专利的文本表面信息特征向量，文本表面信息特征向量包括词频向量和词向量；特征融合层用于将语义特征向量、词频向量和词向量按照预设拼接规则进行拼接，得到融合特征向量。

通过在神经网络模型中将浅层模型和深层模型进行组合，可以达到最优的效果，提高检索准确率。

可选地，深度神经网络模型可以为BERT模型，浅层神经网络模型可以为word2vec模型和tfidf模型，word2vec模型用于提取词向量，tfidf模型用于提取词频向量。

优选地，可以通过首尾相连的方式进行拼接，假设BERT模型输出的语义向量为001，word2vec模型输出的词向量为426，tfidf模型输出的词向量为789，那么拼接后的融合特征向量可以为001426789。

可选地，在一些可能的实施方式中，浅层神经网络模型用于根据以下步骤提取待检索专利的词频向量：

检测预设词在待检索专利中出现的次数，得到词频；

检测预设词在专利库中除待检索专利之外的其他专利中出现的次数，得到文档频；

检测待检索专利的文本长度，得到文本长度归一值；

根据词频、文档频和文本长度归一值计算得到待检索专利的词频向量。

优选地，可以将词频、文档频和文本长度归一值相乘，得到词频向量。通过这种方式计算词频向量，得到的词频向量能够充分反应出三者对词频的影响，提高检索结果的准确度。

词频、文档频和文本长度归一值的计算方式在先实施例已经说明，不再赘述。

可选地，在一些可能的实施方式中，如图2所示，根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息的特征抽取值之前，还包括：

去除待检索专利的高频词、低频词、停用词以及jieba分词中的至少一项。

可选地，在一些可能的实施方式中，根据融合特征向量从预设的特征数据库中匹配相似度满足预设相似度条件的专利，得到检索结果，具体包括：

根据融合特征向量计算预设的特征数据库中全部特征向量对应的专利与待检索专利的相似度；

将相似度满足预设相似度条件的专利作为待检索专利的相似专利；

将相似专利按照相似度的降序排序，作为检索结果。

需要说明的是，预设相似度条件在先实施例已说明，在此不再赘述。

可选地，在一些可能的实施方式中，如图2所示，根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息的特征抽取之前，还包括：

从专利库中选择hard正样本和semi-hard负样本作为训练集，对神经网络模型进行训练，并通过对比损失函数计算损失值，根据损失值调整优化神经网络模型。

通常，大多数训练任务都需要类别标签，每段文本给一个标签，通过将模型预测值与实际标签之间的差距作为损失值，来更新网络。

而本发明中使用的对比损失函数，通过正例对、负例对进行训练，每次训练使用多段文本之间的距离来计算得到损失值，再通过损失值来更新网络。

优选地，可以使用申请驳回文件中的引证专利号，作为正例；在库中随机选择非引证专利作为负例，便能完成训练。此损失函数可以使得模型对不同文本的区分度更高。

如图2所示，在通过对比损失函数更新网络后，还包括反向传播过程，每一批数据反向传播后，神经网络中各个参数的权重先缓存下来，并进行累加。当累加的批次数达到一定数目后，再更新权重，防止权重更新频繁导致神经网络动荡。

最后通过预先设置的验证集进行验证，根据验证结果决定继续下一轮训练或停止训练。

可选地，在一些可能的实施方式中，从专利库中选择hard正样本和 semi-hard负样本作为训练集，具体包括：

根据预设选取规则从专利库中选择一篇目标专利，确定用于评价目标专利的新颖性和/或创造性的被引证专利，分别计算每篇被引证专利与目标专利之间的相似度，将相似度距离最远的被引证专利作为hard正样本；

确定目标专利的IPC分类号，确定目标分类层级和目标专利的领域，在目标分类层级下，与目标专利的领域不同的其他领域分别选择目标专利的非被引证专利，作为semi-hard负样本。

应理解，被引证专利指的是可能破坏目标专利新颖性和/或创造性的专利，通常可以为对比文件，非被引证专利指的是不能破坏目标专利新颖性和 /或创造性的专利。

需要说明的是，预设选取规则可以根据实际需求选择设置，例如，可以随机选取，也可以按照申请人的先后顺序依次选取。

被引证专利与目标专利之间的相似度可以通过在先实施例说明的方法进行计算，在此不再赘述。

分类层级指的是部、分部、大类、小类、大组或小组。例如，假设目标分类层级为部，那么对应的领域为A～H部，假设目标专利的领域为B部，即作业、运输领域，那么可以在除B部外的其他部分别选择目标专利的非被引证专利，作为semi-hard负样本。

本发明利用了专利的分类号标签结合hard负例来进行采样，对检索效果提升贡献很大，通过在训练集中选择hard正样本和semi-hard负样本，使得训练更具有针对性，从而提高了检索结果的可信度。

可选地，在一些可能的实施方式中，在目标分类层级下，与目标专利的领域不同的其他领域分别选择目标专利的非被引证专利，作为semi-hard负样本，具体包括：

从专利库中随机选择预设数量的目标专利的非被引证专利，其中，预设数量大于目标分类层级下的领域数量；

通过神经网络模型计算每个非被引证专利的第一融合特征向量、目标专利的第二融合特征向量和被引证专利的第三融合特征；

根据第一融合特征向量和第二融合特征向量计算每个非被引证专利与目标专利之间的第一距离，并根据第二融合特征向量和第三融合特征向量计算被引证专利与目标专利之间的第二距离；

根据第一距离的升序对全部非被引证专利排序，并去除第一距离小于第二距离的非被引证专利，按照顺序从剩余的非被引证专利中挑选所属IPC分类号的领域互不相同的专利，作为semi-hard负样本。

应理解，为了防止选择到太难的负例，导致模型过拟合，需要保证选择的负例和待检索专利的距离要大于待检索专利和正例的距离。因此将所有小于正例距离的负例去掉。

应理解，只有非被引证专利的IPC分类号还未被选择过，才选择他作为新的负例。这样保证选择的负例足够难的同时，还能保证负例涉及的领域足够全面，从而提高训练精度。

应理解，对于一篇专利Q，会有对应的多篇被引证专利P(Q)。在被引证专利中，通过判断被引证专利与待检索专利的相似度，选择距离最远的作为正样本：

Mp(Q)＝argmax(||M(i)-M(Q)||)

其中i∈P(Q)，即所有的引证专利。

M(i)为所有的引证专利特征向量；M(Q)为待检索专利的特征向量； Mp(Q)为选择的hard正例的特征向量。

作为训练使用的正样本，可以更有针对性的选择神经网络模型当前判断效果不佳的作为训练样本。

对于semi-hard负样本，可以利用专利的IPC分类号，在不同领域选择负例，保证训练样本覆盖到专利的不同领域。可以更有针对性的选择训练数据，防止在同一个领域选择太多相似的负例，从而让模型更快的收敛。

同时为了防止选择到的负样本太难，保证选择的负样本比正样本要简单，因此可以选择semi-hard负样本。

需要说明的是，特征向量可以通过在先实施例公开的神经网络模型处理得到，在此不再赘述。

可以理解，在一些实施例中，可以包含如上述各实施方式中的部分或全部。

需要说明的是，上述各实施方式是与在先方法实施例对应的产品实施例，对于产品实施方式的说明可以参考上述各方法实施方式中的对应说明，在此不再赘述。

在本发明的其他实施方式中还提供一种存储介质，存储介质中存储有指令，当计算机读取指令时，使计算机执行如上述任意实施方式的用于专利的检索方法。

如图4所示，为本发明用于专利的检索装置的实施例提供的结构框架图，该检索装置用于专利的检索装置，可以为诸如手机、电脑、平板电脑等终端，包括：

存储器1，用于存储计算机程序；

处理器2，用于执行计算机程序，实现如权上述任意实施方式的用于专利的检索方法。

读者应理解，在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不必针对的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外，在不相互矛盾的情况下，本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的方法实施例仅仅是示意性的，例如，步骤的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个步骤可以结合或者可以集成到另一个步骤，或一些特征可以忽略，或不执行。

上述方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM， Read-OnlyMemory)、随机存取存储器(RAM，RandomAccessMemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种用于专利的检索方法，其特征在于，包括：

2.根据权利要求1所述的用于专利的检索方法，其特征在于，所述神经网络模型包括深度神经网络模型、浅层神经网络模型和特征融合层，所述深度神经网络模型用于提取所述待检索专利的语义特征向量；所述浅层神经网络模型用于提取所述待检索专利的文本表面信息特征向量，所述文本表面信息特征向量包括词频向量和词向量；所述特征融合层用于将所述语义特征向量、所述词频向量和所述词向量按照预设拼接规则进行拼接，得到融合特征向量。

3.根据权利要求2所述的用于专利的检索方法，其特征在于，所述浅层神经网络模型用于根据以下步骤提取所述待检索专利的词频向量：

检测预设词在所述待检索专利中出现的次数，得到词频；

检测所述预设词在专利库中除所述待检索专利之外的其他专利中出现的次数，得到文档频；

检测所述待检索专利的文本长度，得到文本长度归一值；

根据所述词频、所述文档频和所述文本长度归一值计算得到所述待检索专利的词频向量。

4.根据权利要求1所述的用于专利的检索方法，其特征在于，根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息的特征抽取值之前，还包括：

去除所述待检索专利的高频词、低频词、停用词以及jieba分词中的至少一项。

5.根据权利要求1所述的用于专利的检索方法，其特征在于，根据所述融合特征向量从预设的特征数据库中匹配相似度满足预设相似度条件的专利，得到检索结果，具体包括：

根据所述融合特征向量计算预设的特征数据库中全部特征向量对应的专利与所述待检索专利的相似度；

将相似度满足预设相似度条件的专利作为所述待检索专利的相似专利；

将所述相似专利按照相似度的降序排序，作为检索结果。

6.根据权利要求1至5中任一项所述的用于专利的检索方法，其特征在于，根据预先建立的神经网络模型分别对待检索专利进行语义和表面信息的特征抽取之前，还包括：

从专利库中选择hard正样本和semi-hard负样本作为训练集，对所述神经网络模型进行训练，并通过对比损失函数计算损失值，根据所述损失值调整优化所述神经网络模型。

7.根据权利要求6所述的用于专利的检索方法，其特征在于，从专利库中选择hard正样本和semi-hard负样本作为训练集，具体包括：

根据预设选取规则从专利库中选择一篇目标专利，确定用于评价所述目标专利的新颖性和/或创造性的被引证专利，分别计算每篇所述被引证专利与所述目标专利之间的相似度，将相似度距离最远的被引证专利作为hard正样本；

确定所述目标专利的IPC分类号，确定目标分类层级和所述目标专利的领域，在所述目标分类层级下，与所述目标专利的领域不同的其他领域分别选择所述目标专利的非被引证专利，作为semi-hard负样本。

8.根据权利要求7所述的用于专利的检索方法，其特征在于，在所述目标分类层级下，与所述目标专利的领域不同的其他领域分别选择所述目标专利的非被引证专利，作为semi-hard负样本，具体包括：

从专利库中随机选择预设数量的所述目标专利的非被引证专利，其中，所述预设数量大于所述目标分类层级下的领域数量；

通过所述神经网络模型计算每个所述非被引证专利的第一融合特征向量、所述目标专利的第二融合特征向量和所述被引证专利的第三融合特征；

根据所述第一融合特征向量和所述第二融合特征向量计算每个所述非被引证专利与所述目标专利之间的第一距离，并根据所述第二融合特征向量和所述第三融合特征向量计算所述被引证专利与所述目标专利之间的第二距离；

根据所述第一距离的升序对全部所述非被引证专利排序，并去除第一距离小于所述第二距离的非被引证专利，按照顺序从剩余的非被引证专利中挑选所属IPC分类号的领域互不相同的专利，作为semi-hard负样本。

9.一种存储介质，其特征在于，所述存储介质中存储有指令，当计算机读取所述指令时，使所述计算机执行如权利要求1至8中任一项所述的用于专利的检索方法。

10.一种用于专利的检索装置，其特征在于，包括：

存储器，用于存储计算机程序；

处理器，用于执行所述计算机程序，实现如权利要求1至8中任一项所述的用于专利的检索方法。