CN110175224A

CN110175224A - 基于语义链接异构信息网络嵌入的专利推荐方法及装置

Info

Publication number: CN110175224A
Application number: CN201910476853.5A
Authority: CN
Inventors: 张燕平; 李爽; 陈喜; 赵姝; 钱付兰
Original assignee: Anhui University
Current assignee: Anhui University
Priority date: 2019-06-03
Filing date: 2019-06-03
Publication date: 2019-08-27
Anticipated expiration: 2039-06-03
Also published as: CN110175224B

Abstract

本发明公开了基于语义链接异构信息网络嵌入的专利推荐方法及装置，方法包括：1)、针对专利数据库中的每个专利，将与所述专利的文本相似度最高的、前第一预设数量个顺序次序对应的专利作为语义链接，且所述专利数据库中包括被审查专利；2)、根据所述语义链接关系和著录项目信息来构建所述专利数据库对应的异构信息网络，并使用边将异构信息网络中的各个节点连接；3)、获取所述异构信息网络中各个专利节点的特征向量；4)、获取各个节点的特征向量与被审查专利对应专利节点的特征向量之间的余弦相似度，将余弦相似度最高的、前第二预设数量个顺序次序对应的专利作为被审查专利的待推荐专利。应用本发明实施例，可以使推荐的专利更准确。

Description

基于语义链接异构信息网络嵌入的专利推荐方法及装置

技术领域

本发明涉及一种专利推荐方法及装置，更具体涉及基于语义链接异构信息网络嵌入的专利推荐方法及装置。

背景技术

根据美国专利商标局的统计数据，技术创新的快速发展和知识产权保护的重要性推动了每年提交的专利申请数量的显着增加。随着授权专利和专利申请数量的不断增加，在专利申请前的预检索过程，以及专利的审查过程中，对被审查专利现有技术检索，即专利引用推荐已成为申请人和专利审查员所面对的一项非常具有挑战性的任务。

近年来，许多科研工作者对此展开了研究。专利的现有技术检索方法是基于信息网络的专利引文推荐。基于信息网络的推荐都是单纯的将专利书目信息构成同质信息网络或者异构信息网络，然后再进行随机游走寻找与被审查专利最相关专利，这类方法往往获得不了深层次的语义，从而导致针对被审查专利的推荐结果不佳。

发明内容

本发明所要解决的技术问题在于提供了基于语义链接异构信息网络嵌入的专利推荐方法及装置，以解决现有技术中针对被审查专利的推荐结果不佳的技术问题。

本发明是通过以下技术方案解决上述技术问题的：

本发明实施例提供了基于语义链接异构信息网络嵌入的专利推荐方法，所述方法包括：

1)、针对专利数据库中的每个专利，将与所述专利的文本相似度最高的、前第一预设数量个顺序次序对应的专利作为语义链接，且所述专利数据库中包括被审查专利；

2)、根据所述语义链接关系和著录项目信息来构建所述专利数据库对应的异构信息网络，并使用边将异构信息网络中的各个节点连接，其中，所述异构信息网络是由专利数据库中的所有专利文本的著录项目信息作为节点，节点之间通过边相互连接的网络，所述著录项目信息包括：专利、发明人、授权人以及分类号中的一种或组合；节点之间的边的类型包括：语义链接、引用、撰写、属于以及拥有；

3)、获取所述异构信息网络中各个专利节点的特征向量；

4)、获取各个节点的特征向量与被审查专利对应专利节点的特征向量之间的余弦相似度，将余弦相似度最高的、前第二预设数量个顺序次序对应的专利作为被审查专利的待推荐专利。

可选的，所述步骤1)，包括：

利用word2vec模型，获取专利数据库中各个专利文本中各个单词的词向量；

针对专利数据库中的各个专利文本中各个单词，统计每个单词的词频以及计算逆文档频率，并利用公式，计算各个单词的权重，其中，

TF-IDF(w,t_i)为单词w在专利文本t_i的权重；t_i为专利数据库中的第i个专利文本；tf(w,t_i)为单词w在专利文本t_i中的词频；idf(w)为单词w在专利数据库中的各个专利文本中的逆文档频率，且|T|为专利数据库中专利文本的总数量；n_w为所有的专利文本构成的文本集中出现单词w的专利文本的数量；∑为求和函数；

利用公式，获取专利数据库中的各个专利文本的文本向量，其中，

为专利数据库中的各个专利文本的文本向量；为单词w的词向量；

针对专利数据库中的每一个专利，利用公式，计算所述专利文本与专利数据库中除所述专利以外的其他专利文本之间的文本相似度，其中，

CCS₁(t_i,t_j)为所述专利文本t_i与除所述专利以外的其他专利文本t_j之间的文本相似度；为专利数据库中任意专利文本的文本向量；为专利数据库中除所述专利以外的其他专利文本t_j(t_i≠t_j)的文本向量；|| ||为向量的模；

根据文本相似度从高到低的顺序将所述其他专利文本进行排序得到专利文本序列；并将所述专利文本序列中前第一预设数量个顺序次序对应的专利文本作为所述专利的语义链接。

可选的，word2vec模型的训练过程包括：

依次对样本专利文本中的关键词进行标记、去除样本专利文本中的停用词，并进行词性还原处理；

将专利文本的集合和样本专利文本中每个单词作为样本集合，训练word2vec模型。

可选的，使用边将被审查专利与异构信息网络中的其他专利连接时，所述方法还包括：

当节点之间的关系为语义链接关系时，边的权重为文本内容相似度；当两个节点之间的边不是语义链接关系，边的权重赋值为预先设置的边权重的最大值。

可选的，所述步骤3)，包括：

利用node2vec模型获取异构信息网络中各个专利节点的特征向量。

本发明实施例提供了基于语义链接异构信息网络嵌入的专利推荐装置，所述装置包括：

第一获取模块，用于针对专利数据库中的每个专利，将与所述专利的文本相似度最高的、前第一预设数量个顺序次序对应的专利作为语义链接，且所述专利数据库中包括被审查专利；

添加模块，用于根据所述语义链接关系和著录项目信息来构建所述专利数据库对应的异构信息网络，并使用边将异构信息网络中的各个节点连接，其中，所述异构信息网络是由专利数据库中的所有专利文本的著录项目信息作为节点，节点之间通过边相互连接的网络，所述著录项目信息包括：专利、发明人、授权人以及分类号中的一种或组合；节点之间的边的类型包括：语义链接、引用、撰写、属于以及拥有；

第二获取模块，用于获取所述异构信息网络中各个专利节点的特征向量；

获取各个节点的特征向量与被审查专利对应专利节点的特征向量之间的余弦相似度，将余弦相似度最高的、前第二预设数量个顺序次序对应的专利作为被审查专利的待推荐专利。

可选的，所述第一获取模块，用于：

利用预先训练的word2vec模型，获取专利数据库中各个专利文本中各个单词的词向量；

可选的，word2vec模型的训练过程包括：

可选的，添加模块，用于：

可选的，所述第二获取模块，用于：

本发明相比现有技术具有以下优点：

应用本发明实施例，使用专利数据库中专利的著录项目信息和所获取的语义链接构建异构信息网络，再利用node2vec挖掘专利文本的深层次语义信息，并根据专利节点的特征向量的余弦相似度进行专利推荐，相对于现有技术，可以利用专利文本的深层次的语义，使专利推荐结果更准确。

附图说明

图1为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐方法的流程示意图；

图2为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐方法整体架构示意图；

图3为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐方法中异构信息网络模式的示意图；

图4为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐装置的结构示意图。

具体实施方式

下面对本发明的实施例作详细说明，本实施例在以本发明技术方案为前提下进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

本发明实施例提供了基于语义链接异构信息网络嵌入的专利推荐方法及装置，下面首先就本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐方法进行介绍。

图1为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐方法的流程示意图，如图1所示，所述方法包括：

S101：针对专利数据库中的每个专利，将与所述专利的文本相似度最高的、前第一预设数量个顺序次序对应的专利作为语义链接，且所述专利数据库中包括被审查专利。

具体的，本步骤可以包括以下步骤：

A：首先由word2vec模型得到各专利文本每个单词的词向量：依次对样本专利文本中的单词进行标记、去除样本专利文本中的停用词，并进行词性还原处理；将处理过的文本通过word2vec模型训练，得到每个单词的词向量。

通常情况下，去除停用词操作可以为：去掉文本中比较常用的单词比如：the，a，of，and等。

词性还原处理可以为：通过Python中的nltk工具包，去掉单词的词缀，提取单词的主干部分，比如将drove处理为drive，将driving处理为drive。

在实际应用中，本发明实施例使用的word2vec模型为Skip-Gram模型，该模型的参数设置：向量的维度200维，最小词频为5，迭代15次，其他参数设为默认值。

word2vec模型是简单化的神经网络，输入是One-Hot Vector，即一位有效编码；word2vec模型的隐藏层没有激活函数，是线性的单元；word2vec模型的输出层维度跟word2vec模型的输入层维度一样，word2vec模型的输出层用的是Softmax回归函数。当这个模型训练好以后，我们并不会用这个训练好的模型处理新的任务，我们真正需要的是这个模型通过训练数据所学得的参数，如隐藏层的权重矩阵。

在实际应用中，通常使用样本专利的主题名称、说明书摘要、权利要求中的关键词训练word2vec模型。

在实际应用中，例如被审查专利为P1，其中包括了若干个单词。word2vec模型为小型的神经网络，因此，可以将被审查专利文本中的各个单词识别出来，并进行向量化，得到各个单词的词向量。

B：针对专利数据库中的各个专利文本中各个单词，统计每个单词的词频以及计算逆文档频率，并利用公式，计算各个单词的权重，其中，

C：利用公式，获取专利数据库中的各个专利文本的文本向量，其中，

为专利数据库中的各个专利文本的文本向量；为单词w的词向量。

对于专利数据库中的其他专利，也是按照上述方法获取专利数据库中的各个专利文本的文本向量。专利数据库中专利的文本向量可以是预先获取的，在本发明实施例中直接调用，以提高效率。

D：针对专利数据库中的每一个专利，利用公式，计算所述专利文本与专利数据库中除所述专利以外的其他专利文本之间的文本相似度，其中，

CCS₁(t_i,t_j)为所述专利文本t_i与除所述专利以外的其他专利文本t_j之间的文本相似度；为专利数据库中任意专利文本的文本向量；为专利数据库中除所述专利以外的其他专利文本t_j(t_i≠t_j)的文本向量；|| ||为向量的模。

具体的，专利文本t_i为需要计算与其它专利文本之间的文本相似度的待计算专利。

利用上述公式，可以得到专利数据库中每一个专利与其他专利的文本内容相似度。

E：根据文本相似度从高到低的顺序将所述其他专利文本进行排序得到专利文本序列；并将所述专利文本序列中前第一预设数量个顺序次序对应的专利文本作为所述专利的语义链接。

将D步骤中得到数据库中任意一个专利的x个文本内容相似度值按照相似度从高到低的顺序进行排序，得到文本相似度序列，将该序列的前10个或者20个专利作为该专利的语义链接。

S102：根据所述语义链接关系和著录项目信息来构建所述专利数据库对应的异构信息网络，并使用边将异构信息网络中的各个节点连接，其中，所述异构信息网络是由专利数据库中的所有专利文本的著录项目信息作为节点，节点之间通过边相互连接的网络，所述著录项目信息包括：专利引文、发明人、授权人以及分类号中的一种或组合；节点之间的边的类型包括：语义链接、引用、撰写、属于以及拥有。

图2为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐方法整体架构示意图，如图2所示，

图3为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐方法中异构信息网络模式的示意图，包括所构异构信息网络所有的节点类型和边类型。如图3所示，构建的异构信息网络中的节点类型有：专利、发明者、授权人、分类号；异构信息网络中边类型有：语义链接、引用、写、属于、拥有五种，其中，

语义链接关系是指专利文本内容之间的相似关系，它由S101步骤获得；

如图2所示，专利P1为被审查专利，专利P2、专利P3、专利P4、专利P5、专利P6、专利P7为专利数据库中的其他专利，专利P1和专利P7具有共同的发明人I1；专利P1、专利P4、专利P7具有共同的分类号；专利P1、专利P6具有共同的授权人，即专利权人。

专利引文关系是指专利引用专利，这种引用可以是发明者在撰写专利说明书时的引用专利，也可以是审查员在审查专利申请时的引用专利；如P6，其在专利撰写时引用了其他专利，然后审查员在审查时候将P3或者P7作为对比文件进行审查。

写关系是指发明人提供了该专利文本的技术方案；

属于关系是指专利-分类号，即专利哪个分类号；

拥有关系是指专利权人拥有该专利。

示例性的，在构建所述异构信息网络的时候，各个节点之间的边的权重可以按照以下方式赋值：

1、当节点之间的关系为语义链接关系时，边的权重为文本内容相似度，即步骤D中公式Csim()的结果作为节点连接的边的权重。

2、如果两个节点之间的边不是语义链接关系，可以将该边的权重赋值为设定值，例如，可以为预先设置的边权重的最大值，可以为1.0。

S103：获取所述异构信息网络中各个专利节点的特征向量。

具体的，可以使用网络表示学习方法和获取异构信息网络中各个专利节点的特征向量，例如，可以使用DW(Deepwalk，深度游走)模型、LINE模型、Node2vec模型、SDNE(structural Deep Network Embedding,结构深层网络嵌入)模型中的一种。

在实际应用中，本发明利用node2vec模型获取异构信息网络中各个专利节点的特征向量。

node2vec模型通过引入两个参数p和q，将宽度优先搜索和深度优先搜索引入随机游走序列的生成过程。宽度优先搜索注重临近的节点，并刻画了相对局部的一种网络表示，宽度优先中的节点一般会出现很多次，从而降低刻画中心节点的邻居节点的方差；深度优先搜索反应了更高层面上的节点间的同质性，即深度优先搜索能够探究图中的结构性质，而宽度优先搜索则能够探究出内容上的相似性。

在本发明实施例中，node2vec模型的参数设置为：向量维度：128维，滑动窗口大小为3；随机游走的步长为10；每个节点游走的次数为10次。

S104：获取各个节点的特征向量与被审查专利对应专利节点的特征向量之间的余弦相似度，将余弦相似度最高的、前第二预设数量个顺序次序对应的专利作为被审查专利的待推荐专利。

在实际应用中，可以利用现有的余弦相似度公式计算异构信息网络中各个专利节点的特征向量与被审查专利的特征向量之间的余弦相似度。

然后，按照余弦相似度从高到低的顺序将x个余弦相似度进行排序，将排序后得到的序列中前20个专利，作为待推荐专利进行推荐。

应用本发明图1所示实施例，使用专利数据库中专利的著录项目信息和所获取得语义链接构建异构信息网络，再利用node2vec挖掘专利文本的深层次语义信息，并根据专利节点的特征向量的余弦相似度进行专利推荐，相对于现有技术，可以利用专利文本的深层次的语义，使专利推荐结果更准确。

与本发明图1所示实施例相对应，本发明实施例还提供了基于语义链接异构信息网络嵌入的专利推荐装置。

图4为本发明实施例提供的基于语义链接异构信息网络嵌入的专利推荐装置的结构示意图，如图4所示，所述装置包括：

第一获取模块401，用于针对专利数据库中的每个专利，将与所述专利的文本相似度最高的、前第一预设数量个顺序次序对应的专利作为语义链接，且所述专利数据库中包括被审查专利；

添加模块402，用于根据所述语义链接关系和著录项目信息来构建所述专利数据库对应的异构信息网络，并使用边将异构信息网络中的各个节点连接，其中，所述异构信息网络是由专利数据库中的所有专利文本的著录项目信息作为节点，节点之间通过边相互连接的网络，所述著录项目信息包括：专利、发明人、授权人以及分类号中的一种或组合；节点之间的边的类型包括：语义链接关系、引用、撰写、属于以及拥有；

第二获取模块403，用于获取所述异构信息网络中各个专利节点的特征向量；

应用本发明图4所示实施例，使用专利数据库中专利的著录项目信息和所获取的语义链接构建异构信息网络，再利用node2vec挖掘专利文本的深层次语义信息，并根据专利节点的特征向量的余弦相似度进行专利推荐，相对于现有技术，可以利用专利文本的深层次的语义，使专利推荐结果更准确。

在本发明实施例的一种具体实施方式中，所述第一获取模块401，用于：

在本发明实施例的一种具体实施方式中，word2vec模型的训练过程包括：

在本发明实施例的一种具体实施方式中，添加模块402，用于：

在本发明实施例的一种具体实施方式中，所述第二获取模块403，用于：

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

Claims

1.基于语义链接异构信息网络嵌入的专利推荐方法，其特征在于，所述方法包括：

2)、根据所述语义链接关系和著录项目信息来构建所述专利数据库对应的异构信息网络，并使用边将异构信息网络中的各个节点连接，其中，所述异构信息网络是由专利数据库中的所有专利文本的著录项目信息作为节点，节点之间通过边相互连接的网络，所述著录项目信息包括：专利、发明人、授权人以及分类号中的一种或组合；节点之间的边的类型包括：语义链接关系、引用、撰写、属于以及拥有；

3)、获取所述异构信息网络中各个专利节点的特征向量；

2.根据权利要求1所述的基于语义链接异构信息网络嵌入的专利推荐方法，其特征在于，所述步骤1)，包括：

TF-IDF(w,t_i)为单词w在专利文本t_i的权重；t_i为专利数据库中的第i个专利文本；tf(w,t_i)为单词w在专利文本t_i中的词频；idf(w)为单词w在专利数据库中的各个专利文本中的逆文档频率，且T为专利数据库中专利文本的总数量；n_w为所有的专利文本构成的文本集中出现单词w的专利文本的数量；∑为求和函数；

3.根据权利要求1所述的基于语义链接异构信息网络嵌入的专利推荐方法，其特征在于，word2vec模型的训练过程包括：

4.根据权利要求1所述的基于语义链接异构信息网络嵌入的专利推荐方法，其特征在于，使用边将被审查专利与异构信息网络中的其他专利连接时，所述方法还包括：

5.根据权利要求1所述的基于语义链接异构信息网络嵌入的专利推荐方法，其特征在于，所述步骤3)，包括：

6.基于语义链接异构信息网络嵌入的专利推荐装置，其特征在于，所述装置包括：

7.根据权利要求6所述的基于语义链接异构信息网络嵌入的专利推荐装置，其特征在于，所述第一获取模块，用于：

8.根据权利要求6所述的基于语义链接异构信息网络嵌入的专利推荐装置，其特征在于，word2vec模型的训练过程包括：

9.根据权利要求6所述的基于语义链接异构信息网络嵌入的专利推荐装置，其特征在于，添加模块，用于：

10.根据权利要求6所述的基于语义链接异构信息网络嵌入的专利推荐装置，其特征在于，所述第二获取模块，用于：