CN116805059A

CN116805059A - 一种基于大数据的专利分类方法

Info

Publication number: CN116805059A
Application number: CN202310763656.8A
Authority: CN
Inventors: 邓龙行; 王一雄; 王进
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Dragon Totem Technology Hefei Co ltd
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-09-26
Anticipated expiration: 2043-06-26
Also published as: CN116805059B

Abstract

本发明涉及自然语言处理和人工智能领域，具体涉及一种基于大数据的专利分类方法，包括获取专利文本数据并进行预处理得到预处理数据；通过Bert模型获取预处理数据中每个字的词向量，并根据词向量计算每两个字间的相似度；根据相似度构建一个图结构输入图卷积神经网络，得到一个文本融合向量表示；将文本融合向量表示输入概率化SVM分类器，得到预处理数据的分类结果。

Description

一种基于大数据的专利分类方法

技术领域

本发明涉及自然语言处理和人工智能领域，具体涉及一种基于大数据的专利分类方法。

背景技术

随着大数据和机器学习技术的快速发展，利用大数据进行自动化的专利分类成为可能。大数据技术可以处理海量的专利文献数据，并从中提取出有用的特征和模式，为专利分类提供有力支持。同时，机器学习算法能够通过训练和学习，自动发现和应用分类规则，以实现高效准确的专利分类。

然而，现有的基于大数据的专利分类方法仍然存在一些局限性和挑战。在现有的分类技术中，并没有关注专利文本的图像性质所带来的关键信息，某些方法在处理复杂的专利文献语义和结构时可能存在误差，导致分类结果不够精准。此外，随着技术和领域的不断演进，现有的分类模型可能难以适应新兴领域和交叉学科的专利分类需求。

发明内容

为解决上述问题，本发明提供了一种基于大数据的专利分类方法，包括以下步骤：

S1.获取专利文本数据并进行预处理得到预处理数据；

S2.通过Bert模型获取预处理数据中每个字的词向量，并根据词向量计算每两个字间的相似度；

S3.根据相似度构建一个图结构输入图卷积神经网络，得到一个文本融合向量表示；

S4.将文本融合向量表示输入概率化SVM分类器，得到预处理数据的分类结果。

进一步的，步骤S1获取专利文本数据并进行预处理得到预处理数据，包括：

S11.获取完整的专利文本数据，从中提取出专利名称、专利权人和专利摘要；

S12.将专利名称、专利权人和专利摘要拼接得到一个预处理数据。

进一步的，步骤S2根据词向量计算每两个字间的相似度，表示为：

其中，表示预处理数据中第i个字x_i的词向量，K(x_i,x_j)表示第i个字x_i的词向量/>与第j个字x_j的词向量/>间的相似度，/>表示第i个字x_i的词向量/>与第j个字x_j的词向量/>间的相似性特征权重，T表示转置操作，A表示词向量的维度。

进一步的，步骤S3根据相似度构建一个图结构，包括：

S301.将预处理数据中每个字看作一个节点，采用对应的词向量作为每个节点的特征向量，将每两个字间的相似度作为对应两个节点间的特征相似度；

S302.设置边连接阈值，若两个节点间的特征相似度大于边连接阈值，则将这两个节点连接起来，并采用特征相似度作为边权重；

S303.通过混合池函数获取每个节点的混合池特征向量，表示为：

其中，h_i′表示第i个节点v_i的混合池特征向量，K(i,j)表示第i个节点v_i与第j个节点v_j的特征相似度，h_j表示第j个节点v_j的的特征向量，N(i)表示第i个节点v_i的邻居节点集合，h_mean表示节点v_i的所有邻居节点的平均池特征向量；

S304.将每个节点的特征向量和混合池特征向量拼接，得到每个节点的融合向量，最终得到图结构。

进一步的，步骤S3将一个图结构输入图卷积神经网络得到一个文本融合向量表示，包括：

S311.获取图结构中每个节点在图卷积神经网络的第l层的向量表示；

S312.对于图结构中第i个节点v_i，根据向量表示计算节点v_i与其每一个邻居节点在第l层的上下文相似度；

S312.根据上下文相似度计算节点v_i在第l层的激活函数权重；

S313.采用激活函数权重计算更新节点v_i的向量表示；

S314.直至图结构中所有节点的向量表示更新完成，判断每个节点的向量表示的变化量绝对值是否都小于变化阈值，若不是，则执行步骤S315；若是，则执行步骤S316；

S315.判断当前层数l是否小于最大层数，若满足，则令l＝l+1并返回步骤S311；若不满足，则执行步骤S316；

S316.输出图结构中所有节点当前的向量表示并进行混合池化，得到一个文本融合向量表示。

进一步的，步骤S313采用激活函数权重计算更新节点v_i的向量表示，计算公式为：

其中，表示图结构中第i个节点v_i在第l层的向量表示，/>表示图结构中第i个节点v_i在第l层的激活函数权重，N(i)表示第i个节点v_i的邻居节点集合，|N(i)|表示第i个节点v_i的邻居节点数量，c_ij表示归一化因子，f表示激活函数。

进一步的，步骤S315输出图结构中所有节点当前的向量表示并进行混合池化，得到一个文本融合向量表示，如下：

其中，z_i表示第i条预处理数据的文本融合向量表示，M(i)表示第i条预处理数据的字集合，为第i条预处理数据中第i个字经过卷积神经网络后的向量表示，n_j表示第i条预处理数据中第j个字的出现次数。

进一步的，采用损失函数计算概率化SVM分类器的训练损失，表示为：

其中，N是样本数；M是标签数，y_ij是专利i的标签j的真实值；f_ij是模型预测的标签j在第i个预处理数据上的得分。

本发明的有益效果：

本发明采用了GCN(图卷积神经网络)作为核心模型，利用GCN在专利文献之间构建图结构，并通过图卷积操作从图中提取特征信息。这样可以更好地捕捉专利文献之间的关联和语义信息，提高分类准确度。

此外，本发明还设计了各种池化操作，用于对GCN提取的特征进行聚合和压缩。这些池化操作能够帮助提取关键信息，减少特征维度，并提高分类效果。通过不同的池化策略，可以适应不同类型和规模的专利文献数据，增强分类模型的鲁棒性和泛化能力。

在分类阶段，本发明采用了one-vs-all的方法，结合SVM(支持向量机)分类器来进行多类别分类。通过将每个类别与其他类别进行区分，可以实现高效的分类决策，并进一步提高分类的准确性和可靠性。

附图说明

图1为本发明实施例提供的一种基于大数据的专利说明书智能分类方法流程图；

图2为本发明实施例提供的基于Bert模型的输出以及字之间的相似度将其中出现的所有字作为节点构建的图结构的例图；

图3为本发明实施例提供的图卷积网络卷积过程的例图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提供了一种基于大数据的专利分类方法，如图1所示，包括以下步骤：

S1.获取专利文本数据并进行预处理得到预处理数据。

具体地，步骤S1获取专利文本数据并进行预处理得到预处理数据，包括：

S11.获取完整的专利文本数据，从专利文本数据中提取出专利名称、专利权人和专利摘要；在训练过程中，一条完整的专利文本数据包括专利序号ID、专利名称title、专利权人assignee、专利摘要abstract和专利分类标签label；

S2.通过Bert模型获取预处理数据中每个字的词向量，并根据词向量计算每两个字间的相似度。

具体地，通过Bert模型获取预处理数据中每个字的词向量，包括：

S21.通过Bert的tokenizer对输入的预处理数据X进行分词处理，得到对应的token序列，表示为：

X^*＝{x₁,x₂,…,x_m+

其中，X^*为预处理数据X转化得到的token序列，x_i，i＝1,2,…,m表示token序列中第i个字，m表示token序列的字数量。

S22.将token序列X^*输入Bert模型学习每个字的表示，得到词向量序列E，表示为：

其中，表示第i个字x_i的词向量；h_cls表示句子标识；h_sep表示句子间的分隔符(可能不止一个)。

具体地，通过携带特征权重的核函数方法，根据词向量计算每两个字间的相似度，计算公式为：

其中，表示预处理数据中第i个字x_i的词向量，所有词向量的维度相同；K(x_i,x_j)表示第i个字x_i的词向量/>与第j个字x_j的词向量/>间的相似度，/>表示第i个字x_i的词向量/>与第j个字x_j的词向量/>间的相似性特征权重，T表示转置操作，A表示词向量的维度。上述公式既考虑了向量之间的非线性相似度，又结合了向量之间的距离和角度信息，并且引入了可调节的相似性特征权重，可以更灵活的表示字之间的相似度。

S3.根据相似度构建一个图结构输入图卷积神经网络，得到一个文本融合向量表示。

具体地，步骤S3根据预处理数据X中的所有相似度构建一个图结构，包括：

S301.将预处理数据X中的每一个字看作一个节点，并采用每一个节点所对应的词向量作为每一个节点的特征向量；即将预处理数据X对应的token序列X^*＝{x₁,x₂,…,x_m+中的每个字看做一个节点得到节点集合V＝{v₁,v₂,…,v_m+，基于token序列X^*的词向量序列将每一个字的词向量作为对应节点的特征向量，得到特征向量集合H＝{h₁,h₂,…,h_m+；同时将每两个字间的相似度K(x_i,x_j)作为对应两个节点间的特征相似度K(i,j)。

S302.设置边连接阈值，若两个节点间的特征相似度K(i,j)大于边连接阈值，则将这两个节点(v_i,v_j)连接起来，并采用特征相似度K(i,j)作为边权重；本发明实施例中边连接阈值为0.6。

其中，h_i′表示第i个节点v_i的混合池特征向量，K(i,j)表示第i个节点与第j个节点的特征相似度，h_j表示第j个节点的的特征向量，N(i)表示第i个节点的邻居节点集合，h_mean表示节点v_i的所有邻居节点的平均池特征向量；

该混合池函数考虑了每个节点与其邻居节点之间的特征相似度，根据邻居节点的信息对当前节点进行池化。这种个体化的池化方式可以捕捉到节点之间的局部关系和交互，更加准确地表达节点的特征。引入h_mean这种局部平均化的方式可以降低噪音的影响。

S304.将每个节点的特征向量和混合池特征向量拼接，得到每个节点的融合向量，表示为：

其中，表示第i个节点v_i的融合向量，最终得到图结构G_X。

为了利用字之间的语义关联性，将专利说明书中的文本信息转化为图形结构，如图2所示，以便更好地表示和捕捉文本之间的关系。

具体地，步骤S3将图结构G_X输入图卷积神经网络得到一个文本融合向量表示，如图3所示，包括：

S311.获取图结构G_X中每个节点在图卷积神经网络的第l层的向量表示；

S312.对于图结构G_X中第i个节点v_i，根据向量表示计算节点v_i与其每一个邻居节点在第l层的上下文相似度；

具体地，步骤S312的计算公式为：

其中，表示节点v_i在图卷积神经网络的第l层的向量表示，K^(l)(i,j)表示节点v_i与节点v_j在第l层的上下文相似度，/>表示节点v_i与节点v_j在第l层的相似性特征权重，,A’为向量表示的长度。

S312.根据上下文相似度计算节点v_i在第l层的激活函数权重；

具体地，计算公式为：

其中，表示节点v_i在第l层的激活函数权重；N(i)表示第i个节点v_i的邻居节点集合。

S313.采用激活函数权重计算更新节点i的向量表示；

具体地，计算公式为：

其中，表示节点v_i更新后的向量表示，更新后的向量表示可以作为节点v_i在第l+1层的向量表示；/>表示节点v_i在第l层的激活函数权重；/>表示节点v_j在第l层的激活函数权重；c_ij表示归一化因子，f表示激活函数；N(i)表示第i个节点v_i的邻居节点集合。通过综合邻居节点和自身节点的特征，以及动态调整权重和非线性变换，可以有效地结合全局和局部信息。

具体地，文本融合向量表示的计算公式为：

其中，z_i表示第i条预处理数据的文本融合向量表示，M(i)表示第i条预处理数据的字集合，为第i条预处理数据中第i个字经过卷积神经网络后的向量表示，n_j表示第i条预处理数据中第j个字的出现次数。通过这个池化函数可以引入考虑字的频率权重对专利文本向量的影响，并且保留了GCN卷积的信息。

具体地，概率化SVM分类器的训练过程包括：

S41.定义一个能将输入的文本融合向量表示映射到高维空间的映射函数φ(z)，映射函数φ(z)的具体公式表示为：

其中，z表示一个输入的文本融合，D表示映射后的向量维度。

S42.采用一对多(one-vs-all)策略训练多标签SVM分类器：将标签j看做一个二分类问题，并训练一个关于标签j的SVM分类器S_j；通过这种方式为每种标签构建相应的分类器，得到M个SVM分类器，其中SVM分类器S_j的决策函数表示为：

其中，α_ij是第i个预处理数据在第j个SVM分类器中的权重向量；b_j是第j个SVM分类器的偏置项；h_j(z_i)表示第i个预处理数据在第j个SVM分类器中被划分为标签j的概率；y_ij表示第i个预处理数据是否属于标签j，如果属于则为1，反之为-1。

S43.采用损失函数计算上述多标签分类器的损失，表示为：

其中，N是样本数；M是标签数；f_ij是模型预测的标签j在第i个预处理数据上的得分，即第i个预处理数据在SVM分类器S_j中被划分为标签j的概率h_j(z_i)。该损失函数综合考虑了正类和负类样本的损失，通过ln²和cosπ/2函数的组合，使得正类样本和负类样本在损失计算中获得平衡。使用该损失函数通过梯度下降算法来更新权重向量α_ij和偏置项b_j来逐步减小损失函数，来得到最优的分类器。

S44.将每个样本的文本融合向量表示z_i送入M个SVM分类器中，得到M个分类结果h₁(z_i),h₂(z_i),…,h_M(z_i)。然后将这M个分类结果拼接成一个M维向量f_i，并预测最终的分类结果l_i：

f_i＝[h₁(z_i),h₂(z_i),…,h_M(z_i)]

l_i＝round(W^Tf_i-b_i)

b_i＝max(h₁(z_i),h₂(z_i),…,h_M(z_i))

W＝[1,2,…,M]

其中，h_j(z_i)表示第i个预处理数据在SVM分类器S_j中被划分为标签j的概率；W是权重向量；b_i表示f_i中的最大值；round为四舍五入函数。通过这个方法可以靠考虑到多个标签概率的综合信息，l_i表示第i个专利文本数据的最终预测结果。

在本发明中，除非另有明确的规定和限定，术语“安装”、“设置”、“连接”、“固定”、“旋转”等术语应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或成一体；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通或两个元件的相互作用关系，除非另有明确的限定，对于本领域的普通技术人员而言，可以根据具体情况理解上述术语在本发明中的具体含义。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于大数据的专利分类方法，其特征在于，包括以下步骤：

S1.获取专利文本数据并进行预处理得到预处理数据；

2.根据权利要求1所述的一种基于大数据的专利分类方法，其特征在于，步骤S1获取专利文本数据并进行预处理得到预处理数据，包括：

S11.获取专利文本数据，从中提取出专利名称、专利权人和专利摘要；

3.根据权利要求1所述的一种基于大数据的专利分类方法，其特征在于，步骤S2根据词向量计算每两个字间的相似度，表示为：

其中，表示预处理数据中第i个字x_i的词向量，K(x_i,x_j)表示第i个字x_i的词向量/>与第j个字x_j的词向量/>间的相似度；/>表示第i个字x_i的词向量/>与第j个字x_j的词向量/>间的相似性特征权重；T表示转置操作；A表示词向量的维度。

4.根据权利要求1所述的一种基于大数据的专利分类方法，其特征在于，步骤S3根据相似度构建一个图结构，包括：

5.根据权利要求1所述的一种基于大数据的专利分类方法，其特征在于，步骤S3将一个图结构输入图卷积神经网络得到一个文本融合向量表示，包括：

S312.根据上下文相似度计算节点v_i在第l层的激活函数权重；

S313.采用激活函数权重计算更新节点v_i的向量表示；

6.根据权利要求5所述的一种基于大数据的专利分类方法，其特征在于，步骤S313采用激活函数权重计算更新节点v_i的向量表示，计算公式为：

7.根据权利要求5所述的一种基于大数据的专利分类方法，其特征在于，步骤S315输出图结构中所有节点当前的向量表示并进行混合池化，得到一个文本融合向量表示，如下：

8.根据权利要求1所述的一种基于大数据的专利分类方法，其特征在于，采用损失函数计算概率化SVM分类器的训练损失，表示为：

其中，N是样本数；M是标签数，y_ij表示第i个预处理数据是否属于标签j，如果属于则为1，反之为-1；f_ij是模型预测的标签j在第i个预处理数据上的得分。