CN117688945B

CN117688945B - 一种科技文献类目自动映射模型训练与预测方法

Info

Publication number: CN117688945B
Application number: CN202410132324.4A
Authority: CN
Inventors: 李茂西; 黄敏
Original assignee: Jiangxi Normal University
Current assignee: Jiangxi Normal University
Priority date: 2024-01-31
Filing date: 2024-01-31
Publication date: 2024-04-30
Anticipated expiration: 2044-01-31
Also published as: CN117688945A

Abstract

本发明公开一种科技文献类目自动映射模型训练与预测方法，训练方法步骤为：构造IPC类目与高关联CLC类目数据集作为训练集；将训练集内样本输入预训练语言模型中，获取语义表示向量；使用点积注意力计算语义表示向量获得交互表示向量；将语义表示向量和交互表示向量进行融合输出增强表示向量；将增强表示向量进行池化后输入至前馈神经网络计算概率，将最大概率所在的类别作为预测类别；通过最小化在训练集上的交叉熵损失以得到训练后的IPC类目与高关联CLC类目自动映射模型。本发明的有益效果是：所构建的训练集和IPC类目与高关联CLC类目自动映射模型解决了实际应用场景中IPC类目与高关联CLC类目难以准确建立映射的问题。

Description

一种科技文献类目自动映射模型训练与预测方法

技术领域

本发明涉及自然语言处理技术领域，具体为一种科技文献类目自动映射模型训练与预测方法。

背景技术

在科技文献中，专利和图书期刊分别是产业界与学术界的科技创新信息来源，专利通常使用国际专利分类法(IPC)标识，而中文图书期刊则采用中国图书馆分类法（CLC）分类，建立IPC类目与CLC类目之间的映射有助于促进专利信息和图书期刊资源的整合和共享，对于知识的交叉应用和跨领域合作、推动科技创新和技术转化具有重要意义。

建立不同分类法的映射主要有人工标注和自动映射方法，人工标注尽管准确率高，但是人力成本高、时间周期长。随着计算机技术和人工智能的飞速发展，自动映射方法逐渐成为人工标注的有效替代。其中，基于深度神经网络的IPC类目与CLC类目自动映射方法是当前研究的主流方向。

目前行业中都将类目自动映射转换为二分类问题，即判断给定的类目描述文本和另一分类法类目描述文本是否对应表达同一科学概念。然而，在实际应用中，给定一个IPC类目，要找到对应的CLC类目，需要遍历整个CLC分类体系，准确定位到其所映射的CLC叶子类目。由于同一根节点下CLC叶子类目文本描述差异很小，概念非常相似。因此，IPC类目与高关联的CLC类目自动映射是其中一个重要的挑战，本技术能够解决这一问题。

发明内容

针对现有技术的不足，本发明的目的在于提供一种科技文献类目自动映射模型训练与预测方法，解决实际应用场景难以准确建立映射的问题。

本发明采用的技术方案如下：一种科技文献类目自动映射模型训练方法，基于IPC类目与高关联的CLC类目自动映射模型训练，其步骤如下：

步骤S1，构造IPC类目与高关联CLC类目数据集作为训练集，对训练集进行规范化处理，获得规范化处理后的训练集；其中训练集中每个样本由IPC类目描述文本、CLC类目描述文本和IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签组成，IPC类目描述文本和CLC类目描述文本均是类目层级文本之间用分号连接形成的一条句子；

步骤S2，将处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中，获取语义表示向量，分为IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量；

步骤S3，使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵，获得交互表示向量；

步骤S4，将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合，依次输入前馈神经网络和双向长短期记忆网络，输出增强表示向量；

步骤S5，将步骤S4的增强表示向量分别进行平均池化和最大池化提取类目描述文本的深层语义特征，将池化后的增强表示向量拼接后输入三层前馈神经网络，获得在存在映射关系类别上的概率与不存在映射关系类别上的概率，并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别；

步骤S6，根据步骤S5中在存在映射关系类别上的概率与不存在映射关系类别上的概率和步骤S1中训练集上IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签，通过最小化在训练集上的交叉熵损失来优化IPC类目与高关联CLC类目自动映射模型的参数，以得到训练后的IPC类目与高关联CLC类目自动映射模型。

进一步的，步骤S1中构造IPC类目与高关联CLC类目数据集，具体为：

步骤S11，获取公开的IPC类目与CLC类目完全映射的数据集，数据集中每个样本是由一个IPC类目描述文本和与IPC类目描述文本存在映射关系的CLC类目描述文本组成，即只存在正样本；

步骤S12，步骤S11中数据集拆分为IPC类目描述文本与CLC类目描述文本，通过回溯获取每个IPC类目的类目号和对应的一个或者多个CLC类目的类目号关系字典；

步骤S13，对具有相同前缀的IPC类目号进行分组，获得分组字典；

步骤S14，遍历所有的IPC类目，对步骤S13的分组字典中对应的CLC类目进行过滤，通过判断条件，确立与步骤S12中存在映射关系的IPC类目号高度相似的CLC类目号；高度相似的CLC类目号对应的类目描述文本与步骤S12中IPC类目描述文本不存在映射关系，即获得负样本；

步骤S15，组合负样本和公开的IPC类目与CLC类目完全映射的数据集，构成IPC类目与高关联的CLC类目数据集。

进一步的，步骤S2中处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中，获取语义表示向量，具体为：

给定训练集中一个样本d=(s _ipc,s _clc,y)，其中d表示一个训练样本， S _ipc表示IPC类目描述文本，S _clc表示CLC类目描述文本， y表示IPC类目与CLC类目是否存在映射关系，y值为0或1；

将IPC类目描述文本S _ipc和CLC类目描述文本S _clc使用BPE子词切分方法进行子词切分，分别得到包含n个子词和m个子词的子词序列：

；

其中，表示IPC类目描述文本切分后的第1个子词，/>表示IPC类目描述文本切分后的第2个子词，/>表示IPC类目描述文本切分后的第n个子词，/>表示CLC类目描述文本切分后的第1个子词，/>表示CLC类目描述文本切分后的第2个子词，/>表示CLC类目描述文本切分后的第m个子词；n和m分别指IPC类目描述文本和CLC类目描述文本子词切分后包含的子词个数；

将类目描述文本切分后的子词序列依次输入预训练语言模型BERT中，获得每个子词的语义表示向量，见公式（1）和公式（2）：

（1）；

（2）；

其中，v _ipc和v _clc分别表示IPC类目描述文本和CLC类目描述文本的语义表示向量，表示IPC类目描述文本第1个子词、第2个子词和第n个子词输入预训练语言模型BERT获得的输出向量；/>表示CLC类目描述文本第1个子词、第2个子词和第m个子词输入预训练语言模型BERT获得的输出向量；/>表示预训练语言模型BERT，/>表示查询嵌入表得到对应的词向量，/>表示片段的嵌入向量，/>表示位置的嵌入向量，/>表示IPC类目描述文本切分后的第i个子词，/>表示CLC类目描述文本切分后的第i个子词。

进一步的，步骤S3中使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵，以获得交互表示向量；见公式（3）、公式（4）和公式（5）所示；

（3）；

（4）；

（5）；

其中，e表示注意力矩阵，T表示矩阵转置操作，softmax表示激活函数，表示融合CLC类目语义信息的IPC类目交互表示向量，/>表示融合IPC类目语义信息的CLC类目交互表示向量。

进一步的，步骤S4中将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合，依次输入前馈神经网络和双向长短期记忆网络，输出增强表示向量；进行增强表示见公式（6）、公式（7）、公式（8）和公式（9）所示；

（6）；

（7）；

（8）；

（9）；

其中，m _ipc和m _clc分别表示IPC类目描述文本和CLC类目描述文本融合后的表示向量，符号是向量拼接操作，符号-为向量间的减法运算，/>为向量对应元素相乘，/>和分别表示IPC类目描述文本和CLC类目描述文本增强表示向量，FFN(·)表示前馈神经网络，Bi-LSTM(·)表示双向长短期记忆网络。

进一步的，步骤S5中获得在存在映射关系类别上的概率与不存在映射关系类别上的概率，并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别，见公式（10）、公式（11）、公式（12）和公式（13）所示；

（10）；

（11）；

（12）；

（13）；

其中，和/>分别表示IPC类目描述文本平均池化后的表示向量和最大池化后的表示向量，/>和/>分别表示CLC类目描述文本平均池化后的表示向量和最大池化后的表示向量，Bi-Pooling表示平均池化和最大池化即双池化，符号v表示所有池化后向量的拼接，描述IPC类目和CLC类目之间的映射关系，p表示在存在映射关系类别上的概率与不存在映射关系类别上的概率向量，Classifier表示三层前馈神经网络组成的分类器。

进一步的，步骤S6中交叉熵损失见公式（14）所示；

（14）；

其中，Loss表示交叉熵损失，N表示训练集中样本的数量，y _i表示训练集中第i条训练样本的真实类别标签，p _i表示科技文献类目自动映射模型在训练集中第i条训练样本的真实类别标签y _i类别上的预测概率。

进一步的，本发明采用的另外一种技术方案：一种科技文献类目自动映射模型预测方法，应用于科技文献类目自动映射模型训练方法，包括：

步骤S7，对待映射的IPC类目和CLC类目进行类目号与类目描述文本分离，分别抽取IPC类目描述文本和CLC类目描述文本并进行规范化处理；

步骤S8，将步骤S7中规范化处理后的IPC类目描述文本和CLC类目描述文本输入至步骤S6中训练后的IPC类目与高关联CLC类目自动映射模型，获取是否存在映射关系的类别值。

进一步的，本发明采用的另外一种技术方案：一种科技文献类目自动映射模型的训练装置，包括：

训练集模块，构造IPC类目与高关联CLC类目数据集作为训练集；训练集中每个样本由IPC类目描述文本、CLC类目描述文本和IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签组成；

预训练语言模型BERT，将训练集模块内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中，获取语义表示向量；

交互表示模块，使用点积注意力计算预训练语言模型BERT的语义表示向量的注意力矩阵，获得交互表示向量；

增强表示模块，语义表示向量和交互表示向量进行融合，依次输入前馈神经网络和双向长短期记忆网络获得增强表示向量；

类目映射类别预测模块，将增强表示模块的输出输入至池化层提取信息，再输入三层前馈神经网络，获得在存在映射关系类别上的概率与不存在映射关系类别上的概率，并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别；

模型参数调整模块，基于在存在映射关系类别上的概率与不存在映射关系类别上的概率和训练集上IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签，通过最小化在训练集上的交叉熵损失来优化IPC类目与高关联CLC类目自动映射模型的参数，以得到训练后的IPC类目与高关联CLC类目自动映射模型。

进一步的，本发明采用的另外一种技术方案：一种科技文献类目自动映射模型的预测装置，应用于科技文献类目自动映射模型的训练装置，包括：

测试集数据预处理模块，对待映射的IPC类目和CLC类目进行类目号与类目描述文本分离；

分别抽取IPC类目描述文本和CLC类目描述文本并进行规范化处理，将分离后的待判断映射关系的IPC类目描述文本与CLC类目描述文本分别输入至已训练的IPC类目与高关联的CLC类目映射模型，获得映射类别标签值。

本发明的有益效果是：本发明将两部分类法类目自动映射模型方法分解为，构造IPC类目与高关联CLC类目数据集作为训练集；由预训练语言模型BERT对两部分类法类目描述文本进行初步表征，利用点积注意力对其进行相互表示，将相互表示与初步表征进行拼接输入融合增强表示，再对其进行关键信息的抽取操作，最后进行映射关系的分类，从而建立准确的映射关系。

附图说明

图1是本发明的科技文献类目自动映射模型训练方法流程示意图；

图2是本发明的科技文献类目自动映射模型预测方法流程示意图；

图3是本发明的IPC类目与高关联CLC类目自动映射模型结构示意图。

具体实施方式

以下结合附图及实施方式对本发明进行详细描述。

如图1所示，本实施例是这样来工作的，一种科技文献类目自动映射模型训练方法，基于IPC类目与高关联的CLC类目自动映射模型训练，其步骤如下：

如图2所示，一种科技文献类目自动映射模型预测方法，应用于科技文献类目自动映射模型训练方法，包括：

图3是本发明的IPC类目与高关联CLC类目自动映射模型结构示意图；步骤S2中处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中，获取语义表示向量，具体为：

；

（1）；

（2）；

其中，v _ipc和v _clc分别表示IPC类目描述文本和CLC类目描述文本的语义表示向量，表示IPC类目描述文本第1个子词、第2个子词和第n个子词输入预训练语言模型BERT获得的输出向量；/>表示CLC类目描述文本第1个子词、第2个子词和第m个子词输入预训练语言模型BERT获得的输出向量；BERT(•)表示预训练语言模型BERT，TE(•)表示查询嵌入表得到对应的词向量，SE(•)表示片段的嵌入向量，PE(•)表示位置的嵌入向量，/>表示IPC类目描述文本切分后的第i个子词，/>表示CLC类目描述文本切分后的第i个子词。

可选的，预训练语言模型BERT使用bert-base-chinese预训练模型，拥有12个Transformer编码层和12个独立的自注意力头，隐藏层大小为768，参数量为12 ,270百万个，参数的初始值取预训练语言模型BERT中对应的数值。

（6）；

（7）；

（8）；

（9）；

（10）；

（11）；

（12）；

（13）；

进一步的，步骤S6中交叉熵损失见公式（14）所示；

（14）；

在公开的IPC类目与CLC类目完全映射数据集，构造IPC类目与高关联的CLC类目数据集分别进行实验，由于公开数据集中仅有1000个正样本类目对，随机生成了1000负样本个类目对用于实验。两个数据集均按照4：1的比例划分为训练集和测试集。

附表1给出IPC类目与高关联CLC类目数据集与公开数据集中IPC类目与CLC类目描述文本的平均长度对比情况。可以看出，两个数据集的类目描述文本的平均长度相当。

附表2给出IPC类目与高关联CLC类目数据集与公开数据集中IPC类目各子类别的数量。其中符号A，B，C，D，E，F，G，H指IPC的顶级目录“部”的8个索引号，即子类别。

附表 1：不同数据集的类目描述文本平均长度对比

附表2：不同数据集的IPC类目各子类别的数量对比

对比的基线系统包括基于双线性池化卷积神经网络的类目自动映射方法（Bi-TextCNN）、基于双向长短期记忆神经网络的类目自动映射方法（Bi-LSTM）、基于Transformers编码器的类目自动映射方法（T-Encoder）以及基于预训练语言模型BERT的孪生网络模型的类目自动映射方法（Sia-BERT）。实验使用准确率作为评价模型性能的指标。

附表3给出不用的类目自动映射模型在公开数据集上的表现，其中符号AVG指平均准确率,其值越大性能越好。附表3中的最后一行是本发明IPC类目与高关联CLC类目自动映射模型BERT-E，性能均超过所有的对比基线系统，比当前最优的类目自动映射方法提高了个4.15百分点，充分表明本发明的方法在IPC类目与CLC类目自动映射上的有效性与优越性。

附表3：不同模型在公开数据集上的类目映射准确率

附表4给出了不同模型在IPC与高关联的CLC类目映射数据集上的性能，本发明IPC类目与高关联CLC类目自动映射模型映射准确率不论是IPC 8个子类别上还是总体上，均显著超过当前最优的Sia-BERT方法，总体准确率提升6.34个百分点，突显了本发明所述方法在IPC与高关联的CLC类目上建立映射的优势。

由于公开数据集上的负例是随机产生的，而IPC与高关联的CLC类目映射数据集负例绝大部分来源于同级目录下高关联的类目，因此在高关联数据集上建立映射的难度更大，导致本发明的模型在IPC与高关联的CLC类目映射数据集上的准确率均低于在公开数据集上的准确率。需要说明的是尽管该任务难度更大，但是更贴近实际应用场景。

附表4：不同模型在IPC类目与高关联的CLC类目映射数据集上的类目映射准确率

本发明的方法具有普遍的适用性。本发明虽然只在国际专利分类法和中国图书馆分类法上进行了实验验证，但本发明同样也适用于其它分类法，如杜威十进分类法等。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下，本领域技术人员能够想到的变化和优点都被包括在本发明中，并且以所附的权利要求书为保护范围。

Claims

1.一种科技文献类目自动映射模型训练方法，基于IPC类目与高关联的CLC类目自动映射模型训练，其特征在于：步骤如下：

步骤S6，根据步骤S5中在存在映射关系类别上的概率与不存在映射关系类别上的概率和步骤S1中训练集上IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签，通过最小化在训练集上的交叉熵损失来优化IPC类目与高关联CLC类目自动映射模型的参数，以得到训练后的IPC类目与高关联CLC类目自动映射模型；

步骤S1中构造IPC类目与高关联CLC类目数据集，具体为：

步骤S15，组合负样本和公开的IPC类目与CLC类目完全映射的数据集，构成IPC类目与高关联的CLC类目数据集；

步骤S2中处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中，获取语义表示向量，具体为：

给定训练集中一个样本d=(s_ipc,s_clc,y)，其中d表示一个训练样本， S_ipc表示IPC类目描述文本，S_clc表示CLC类目描述文本， y表示IPC类目与CLC类目是否存在映射关系，y值为0或1；

将IPC类目描述文本S_ipc和CLC类目描述文本S_clc使用BPE子词切分方法进行子词切分，分别得到包含n个子词和m个子词的子词序列：

；

（1）；

（2）；

其中，v_ipc和v_clc分别表示IPC类目描述文本和CLC类目描述文本的语义表示向量，、、/>表示IPC类目描述文本第1个子词、第2个子词和第n个子词输入预训练语言模型BERT获得的输出向量；/>、/>、/>表示CLC类目描述文本第1个子词、第2个子词和第m个子词输入预训练语言模型BERT获得的输出向量；BERT(•)表示预训练语言模型BERT，TE(•)表示查询嵌入表得到对应的词向量，SE(•)表示片段的嵌入向量，PE(•)表示位置的嵌入向量，/>表示IPC类目描述文本切分后的第i个子词，/>表示CLC类目描述文本切分后的第i个子词；

步骤S3中使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵，以获得交互表示向量；见公式（3）、公式（4）和公式（5）所示；

（3）；

（4）；

（5）；

其中，e表示注意力矩阵，T表示矩阵转置操作，softmax表示激活函数，表示融合CLC类目语义信息的IPC类目交互表示向量，/>表示融合IPC类目语义信息的CLC类目交互表示向量；

步骤S4中将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合，依次输入前馈神经网络和双向长短期记忆网络，输出增强表示向量；进行增强表示见公式（6）、公式（7）、公式（8）和公式（9）所示；

（6）；

（7）；

（8）；

（9）；

其中，m_ipc和m_clc分别表示IPC类目描述文本和CLC类目描述文本融合后的表示向量，符号是向量拼接操作，符号-为向量间的减法运算，⊙为向量对应元素相乘，/>和/>分别表示IPC类目描述文本和CLC类目描述文本增强表示向量，FFN(·)表示前馈神经网络，Bi-LSTM(·)表示双向长短期记忆网络；

步骤S5中获得在存在映射关系类别上的概率与不存在映射关系类别上的概率，并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别，见公式（10）、公式（11）、公式（12）和公式（13）所示；

（10）；

（11）；

（12）；

（13）；

其中，和/>分别表示IPC类目描述文本平均池化后的表示向量和最大池化后的表示向量，/>和/>分别表示CLC类目描述文本平均池化后的表示向量和最大池化后的表示向量，Bi-Pooling表示平均池化和最大池化即双池化，符号v表示所有池化后向量的拼接，描述IPC类目和CLC类目之间的映射关系，p表示在存在映射关系类别上的概率与不存在映射关系类别上的概率向量，Classifier表示三层前馈神经网络组成的分类器。

2.根据权利要求1所述的一种科技文献类目自动映射模型训练方法，其特征在于：步骤S6中交叉熵损失见公式（14）所示；

（14）；

其中，Loss表示交叉熵损失，N表示训练集中样本的数量，y_i表示训练集中第i条训练样本的真实类别标签，p_i表示科技文献类目自动映射模型在训练集中第i条训练样本的真实类别标签y_i类别上的预测概率。

3.一种科技文献类目自动映射模型预测方法，应用于权利要求2所述的科技文献类目自动映射模型训练方法，其特征在于：包括：

4.一种科技文献类目自动映射模型的训练装置，应用于权利要求3所述的科技文献类目自动映射模型训练方法，其特征在于：包括：

5.一种科技文献类目自动映射模型的预测装置，应用于权利要求4所述的科技文献类目自动映射模型的训练装置，其特征在于：包括：