CN117688945B - 一种科技文献类目自动映射模型训练与预测方法 - Google Patents
一种科技文献类目自动映射模型训练与预测方法 Download PDFInfo
- Publication number
- CN117688945B CN117688945B CN202410132324.4A CN202410132324A CN117688945B CN 117688945 B CN117688945 B CN 117688945B CN 202410132324 A CN202410132324 A CN 202410132324A CN 117688945 B CN117688945 B CN 117688945B
- Authority
- CN
- China
- Prior art keywords
- category
- clc
- ipc
- description text
- training
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000013507 mapping Methods 0.000 title claims abstract description 154
- 238000012549 training Methods 0.000 title claims abstract description 108
- 238000000034 method Methods 0.000 title claims abstract description 50
- 239000013598 vector Substances 0.000 claims abstract description 116
- 239000013604 expression vector Substances 0.000 claims abstract description 23
- 238000013528 artificial neural network Methods 0.000 claims abstract description 22
- 230000002452 interceptive effect Effects 0.000 claims abstract description 22
- 230000011218 segmentation Effects 0.000 claims description 32
- 238000011176 pooling Methods 0.000 claims description 26
- 239000011159 matrix material Substances 0.000 claims description 11
- 230000015654 memory Effects 0.000 claims description 11
- 238000012545 processing Methods 0.000 claims description 11
- 238000010606 normalization Methods 0.000 claims description 6
- NAWXUBYGYWOOIX-SFHVURJKSA-N (2s)-2-[[4-[2-(2,4-diaminoquinazolin-6-yl)ethyl]benzoyl]amino]-4-methylidenepentanedioic acid Chemical compound C1=CC2=NC(N)=NC(N)=C2C=C1CCC1=CC=C(C(=O)N[C@@H](CC(=C)C(O)=O)C(O)=O)C=C1 NAWXUBYGYWOOIX-SFHVURJKSA-N 0.000 claims description 3
- 230000003993 interaction Effects 0.000 claims description 3
- 238000012360 testing method Methods 0.000 claims description 3
- 230000004913 activation Effects 0.000 claims description 2
- 238000001914 filtration Methods 0.000 claims description 2
- 230000006870 function Effects 0.000 claims description 2
- 230000004927 fusion Effects 0.000 claims description 2
- 238000007781 pre-processing Methods 0.000 claims description 2
- 230000009286 beneficial effect Effects 0.000 abstract description 2
- 230000000875 corresponding effect Effects 0.000 description 9
- 230000002596 correlated effect Effects 0.000 description 3
- 238000002474 experimental method Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000012512 characterization method Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000000052 comparative effect Effects 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 239000012634 fragment Substances 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 230000007787 long-term memory Effects 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000001737 promoting effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
- G06N3/0442—Recurrent networks, e.g. Hopfield networks characterised by memory or gating, e.g. long short-term memory [LSTM] or gated recurrent units [GRU]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/09—Supervised learning
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开一种科技文献类目自动映射模型训练与预测方法,训练方法步骤为:构造IPC类目与高关联CLC类目数据集作为训练集;将训练集内样本输入预训练语言模型中,获取语义表示向量;使用点积注意力计算语义表示向量获得交互表示向量;将语义表示向量和交互表示向量进行融合输出增强表示向量;将增强表示向量进行池化后输入至前馈神经网络计算概率,将最大概率所在的类别作为预测类别;通过最小化在训练集上的交叉熵损失以得到训练后的IPC类目与高关联CLC类目自动映射模型。本发明的有益效果是:所构建的训练集和IPC类目与高关联CLC类目自动映射模型解决了实际应用场景中IPC类目与高关联CLC类目难以准确建立映射的问题。
Description
技术领域
本发明涉及自然语言处理技术领域,具体为一种科技文献类目自动映射模型训练与预测方法。
背景技术
在科技文献中,专利和图书期刊分别是产业界与学术界的科技创新信息来源,专利通常使用国际专利分类法(IPC)标识,而中文图书期刊则采用中国图书馆分类法(CLC)分类,建立IPC类目与CLC类目之间的映射有助于促进专利信息和图书期刊资源的整合和共享,对于知识的交叉应用和跨领域合作、推动科技创新和技术转化具有重要意义。
建立不同分类法的映射主要有人工标注和自动映射方法,人工标注尽管准确率高,但是人力成本高、时间周期长。随着计算机技术和人工智能的飞速发展,自动映射方法逐渐成为人工标注的有效替代。其中,基于深度神经网络的IPC类目与CLC类目自动映射方法是当前研究的主流方向。
目前行业中都将类目自动映射转换为二分类问题,即判断给定的类目描述文本和另一分类法类目描述文本是否对应表达同一科学概念。然而,在实际应用中,给定一个IPC类目,要找到对应的CLC类目,需要遍历整个CLC分类体系,准确定位到其所映射的CLC叶子类目。由于同一根节点下CLC叶子类目文本描述差异很小,概念非常相似。因此,IPC类目与高关联的CLC类目自动映射是其中一个重要的挑战,本技术能够解决这一问题。
发明内容
针对现有技术的不足,本发明的目的在于提供一种科技文献类目自动映射模型训练与预测方法,解决实际应用场景难以准确建立映射的问题。
本发明采用的技术方案如下:一种科技文献类目自动映射模型训练方法,基于IPC类目与高关联的CLC类目自动映射模型训练,其步骤如下:
步骤S1,构造IPC类目与高关联CLC类目数据集作为训练集,对训练集进行规范化处理,获得规范化处理后的训练集;其中训练集中每个样本由IPC类目描述文本、CLC类目描述文本和IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签组成,IPC类目描述文本和CLC类目描述文本均是类目层级文本之间用分号连接形成的一条句子;
步骤S2,将处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中,获取语义表示向量,分为IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量;
步骤S3,使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵,获得交互表示向量;
步骤S4,将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络,输出增强表示向量;
步骤S5,将步骤S4的增强表示向量分别进行平均池化和最大池化提取类目描述文本的深层语义特征,将池化后的增强表示向量拼接后输入三层前馈神经网络,获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别;
步骤S6,根据步骤S5中在存在映射关系类别上的概率与不存在映射关系类别上的概率和步骤S1中训练集上IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签,通过最小化在训练集上的交叉熵损失来优化IPC类目与高关联CLC类目自动映射模型的参数,以得到训练后的IPC类目与高关联CLC类目自动映射模型。
进一步的,步骤S1中构造IPC类目与高关联CLC类目数据集,具体为:
步骤S11,获取公开的IPC类目与CLC类目完全映射的数据集,数据集中每个样本是由一个IPC类目描述文本和与IPC类目描述文本存在映射关系的CLC类目描述文本组成,即只存在正样本;
步骤S12,步骤S11中数据集拆分为IPC类目描述文本与CLC类目描述文本,通过回溯获取每个IPC类目的类目号和对应的一个或者多个CLC类目的类目号关系字典;
步骤S13,对具有相同前缀的IPC类目号进行分组,获得分组字典;
步骤S14,遍历所有的IPC类目,对步骤S13的分组字典中对应的CLC类目进行过滤,通过判断条件,确立与步骤S12中存在映射关系的IPC类目号高度相似的CLC类目号;高度相似的CLC类目号对应的类目描述文本与步骤S12中IPC类目描述文本不存在映射关系,即获得负样本;
步骤S15,组合负样本和公开的IPC类目与CLC类目完全映射的数据集,构成IPC类目与高关联的CLC类目数据集。
进一步的,步骤S2中处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中,获取语义表示向量,具体为:
给定训练集中一个样本d=(s ipc ,s clc ,y),其中d表示一个训练样本, S ipc 表示IPC类目描述文本,S clc 表示CLC类目描述文本, y表示IPC类目与CLC类目是否存在映射关系,y值为0或1;
将IPC类目描述文本S ipc 和CLC类目描述文本S clc 使用BPE子词切分方法进行子词切分,分别得到包含n个子词和m个子词的子词序列:
;
;
其中,表示IPC类目描述文本切分后的第1个子词,/>表示IPC类目描述文本切分后的第2个子词,/>表示IPC类目描述文本切分后的第n个子词,/>表示CLC类目描述文本切分后的第1个子词,/>表示CLC类目描述文本切分后的第2个子词,/>表示CLC类目描述文本切分后的第m个子词;n和m分别指IPC类目描述文本和CLC类目描述文本子词切分后包含的子词个数;
将类目描述文本切分后的子词序列依次输入预训练语言模型BERT中,获得每个子词的语义表示向量,见公式(1)和公式(2):
(1);
(2);
其中,v ipc 和v clc 分别表示IPC类目描述文本和CLC类目描述文本的语义表示向量,表示IPC类目描述文本第1个子词、第2个子词和第n个子词输入预训练语言模型BERT获得的输出向量;/>表示CLC类目描述文本第1个子词、第2个子词和第m个子词输入预训练语言模型BERT获得的输出向量;/>表示预训练语言模型BERT,/>表示查询嵌入表得到对应的词向量,/>表示片段的嵌入向量,/>表示位置的嵌入向量,/>表示IPC类目描述文本切分后的第i个子词,/>表示CLC类目描述文本切分后的第i个子词。
进一步的,步骤S3中使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵,以获得交互表示向量;见公式(3)、公式(4)和公式(5)所示;
(3);
(4);
(5);
其中,e表示注意力矩阵,T表示矩阵转置操作,softmax表示激活函数,表示融合CLC类目语义信息的IPC类目交互表示向量,/>表示融合IPC类目语义信息的CLC类目交互表示向量。
进一步的,步骤S4中将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络,输出增强表示向量;进行增强表示见公式(6)、公式(7)、公式(8)和公式(9)所示;
(6);
(7);
(8);
(9);
其中,m ipc 和m clc 分别表示IPC类目描述文本和CLC类目描述文本融合后的表示向量,符号是向量拼接操作,符号-为向量间的减法运算,/>为向量对应元素相乘,/>和分别表示IPC类目描述文本和CLC类目描述文本增强表示向量,FFN(·)表示前馈神经网络,Bi-LSTM(·)表示双向长短期记忆网络。
进一步的,步骤S5中获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别,见公式(10)、公式(11)、公式(12)和公式(13)所示;
(10);
(11);
(12);
(13);
其中,和/>分别表示IPC类目描述文本平均池化后的表示向量和最大池化后的表示向量,/>和/>分别表示CLC类目描述文本平均池化后的表示向量和最大池化后的表示向量,Bi-Pooling表示平均池化和最大池化即双池化,符号v表示所有池化后向量的拼接,描述IPC类目和CLC类目之间的映射关系,p表示在存在映射关系类别上的概率与不存在映射关系类别上的概率向量,Classifier表示三层前馈神经网络组成的分类器。
进一步的,步骤S6中交叉熵损失见公式(14)所示;
(14);
其中,Loss表示交叉熵损失,N表示训练集中样本的数量,y i 表示训练集中第i条训练样本的真实类别标签,p i 表示科技文献类目自动映射模型在训练集中第i条训练样本的真实类别标签y i 类别上的预测概率。
进一步的,本发明采用的另外一种技术方案:一种科技文献类目自动映射模型预测方法,应用于科技文献类目自动映射模型训练方法,包括:
步骤S7,对待映射的IPC类目和CLC类目进行类目号与类目描述文本分离,分别抽取IPC类目描述文本和CLC类目描述文本并进行规范化处理;
步骤S8,将步骤S7中规范化处理后的IPC类目描述文本和CLC类目描述文本输入至步骤S6中训练后的IPC类目与高关联CLC类目自动映射模型,获取是否存在映射关系的类别值。
进一步的,本发明采用的另外一种技术方案:一种科技文献类目自动映射模型的训练装置,包括:
训练集模块,构造IPC类目与高关联CLC类目数据集作为训练集;训练集中每个样本由IPC类目描述文本、CLC类目描述文本和IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签组成;
预训练语言模型BERT,将训练集模块内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中,获取语义表示向量;
交互表示模块,使用点积注意力计算预训练语言模型BERT的语义表示向量的注意力矩阵,获得交互表示向量;
增强表示模块,语义表示向量和交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络获得增强表示向量;
类目映射类别预测模块,将增强表示模块的输出输入至池化层提取信息,再输入三层前馈神经网络,获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别;
模型参数调整模块,基于在存在映射关系类别上的概率与不存在映射关系类别上的概率和训练集上IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签,通过最小化在训练集上的交叉熵损失来优化IPC类目与高关联CLC类目自动映射模型的参数,以得到训练后的IPC类目与高关联CLC类目自动映射模型。
进一步的,本发明采用的另外一种技术方案:一种科技文献类目自动映射模型的预测装置,应用于科技文献类目自动映射模型的训练装置,包括:
测试集数据预处理模块,对待映射的IPC类目和CLC类目进行类目号与类目描述文本分离;
分别抽取IPC类目描述文本和CLC类目描述文本并进行规范化处理,将分离后的待判断映射关系的IPC类目描述文本与CLC类目描述文本分别输入至已训练的IPC类目与高关联的CLC类目映射模型,获得映射类别标签值。
本发明的有益效果是:本发明将两部分类法类目自动映射模型方法分解为,构造IPC类目与高关联CLC类目数据集作为训练集;由预训练语言模型BERT对两部分类法类目描述文本进行初步表征,利用点积注意力对其进行相互表示,将相互表示与初步表征进行拼接输入融合增强表示,再对其进行关键信息的抽取操作,最后进行映射关系的分类,从而建立准确的映射关系。
附图说明
图1是本发明的科技文献类目自动映射模型训练方法流程示意图;
图2是本发明的科技文献类目自动映射模型预测方法流程示意图;
图3是本发明的IPC类目与高关联CLC类目自动映射模型结构示意图。
具体实施方式
以下结合附图及实施方式对本发明进行详细描述。
如图1所示,本实施例是这样来工作的,一种科技文献类目自动映射模型训练方法,基于IPC类目与高关联的CLC类目自动映射模型训练,其步骤如下:
步骤S1,构造IPC类目与高关联CLC类目数据集作为训练集,对训练集进行规范化处理,获得规范化处理后的训练集;其中训练集中每个样本由IPC类目描述文本、CLC类目描述文本和IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签组成,IPC类目描述文本和CLC类目描述文本均是类目层级文本之间用分号连接形成的一条句子;
步骤S2,将处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中,获取语义表示向量,分为IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量;
步骤S3,使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵,获得交互表示向量;
步骤S4,将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络,输出增强表示向量;
步骤S5,将步骤S4的增强表示向量分别进行平均池化和最大池化提取类目描述文本的深层语义特征,将池化后的增强表示向量拼接后输入三层前馈神经网络,获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别;
步骤S6,根据步骤S5中在存在映射关系类别上的概率与不存在映射关系类别上的概率和步骤S1中训练集上IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签,通过最小化在训练集上的交叉熵损失来优化IPC类目与高关联CLC类目自动映射模型的参数,以得到训练后的IPC类目与高关联CLC类目自动映射模型。
如图2所示,一种科技文献类目自动映射模型预测方法,应用于科技文献类目自动映射模型训练方法,包括:
步骤S7,对待映射的IPC类目和CLC类目进行类目号与类目描述文本分离,分别抽取IPC类目描述文本和CLC类目描述文本并进行规范化处理;
步骤S8,将步骤S7中规范化处理后的IPC类目描述文本和CLC类目描述文本输入至步骤S6中训练后的IPC类目与高关联CLC类目自动映射模型,获取是否存在映射关系的类别值。
图3是本发明的IPC类目与高关联CLC类目自动映射模型结构示意图;步骤S2中处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中,获取语义表示向量,具体为:
给定训练集中一个样本d=(s ipc ,s clc ,y),其中d表示一个训练样本, S ipc 表示IPC类目描述文本,S clc 表示CLC类目描述文本, y表示IPC类目与CLC类目是否存在映射关系,y值为0或1;
将IPC类目描述文本S ipc 和CLC类目描述文本S clc 使用BPE子词切分方法进行子词切分,分别得到包含n个子词和m个子词的子词序列:
;
;
其中,表示IPC类目描述文本切分后的第1个子词,/>表示IPC类目描述文本切分后的第2个子词,/>表示IPC类目描述文本切分后的第n个子词,/>表示CLC类目描述文本切分后的第1个子词,/>表示CLC类目描述文本切分后的第2个子词,/>表示CLC类目描述文本切分后的第m个子词;n和m分别指IPC类目描述文本和CLC类目描述文本子词切分后包含的子词个数;
将类目描述文本切分后的子词序列依次输入预训练语言模型BERT中,获得每个子词的语义表示向量,见公式(1)和公式(2):
(1);
(2);
其中,v ipc 和v clc 分别表示IPC类目描述文本和CLC类目描述文本的语义表示向量,表示IPC类目描述文本第1个子词、第2个子词和第n个子词输入预训练语言模型BERT获得的输出向量;/>表示CLC类目描述文本第1个子词、第2个子词和第m个子词输入预训练语言模型BERT获得的输出向量;BERT(•)表示预训练语言模型BERT,TE(•)表示查询嵌入表得到对应的词向量,SE(•)表示片段的嵌入向量,PE(•)表示位置的嵌入向量,/>表示IPC类目描述文本切分后的第i个子词,/>表示CLC类目描述文本切分后的第i个子词。
可选的,预训练语言模型BERT使用bert-base-chinese预训练模型,拥有12个Transformer编码层和12个独立的自注意力头,隐藏层大小为768,参数量为12 ,270百万个,参数的初始值取预训练语言模型BERT中对应的数值。
进一步的,步骤S4中将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络,输出增强表示向量;进行增强表示见公式(6)、公式(7)、公式(8)和公式(9)所示;
(6);
(7);
(8);
(9);
其中,m ipc 和m clc 分别表示IPC类目描述文本和CLC类目描述文本融合后的表示向量,符号是向量拼接操作,符号-为向量间的减法运算,/>为向量对应元素相乘,/>和分别表示IPC类目描述文本和CLC类目描述文本增强表示向量,FFN(·)表示前馈神经网络,Bi-LSTM(·)表示双向长短期记忆网络。
进一步的,步骤S5中获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别,见公式(10)、公式(11)、公式(12)和公式(13)所示;
(10);
(11);
(12);
(13);
其中,和/>分别表示IPC类目描述文本平均池化后的表示向量和最大池化后的表示向量,/>和/>分别表示CLC类目描述文本平均池化后的表示向量和最大池化后的表示向量,Bi-Pooling表示平均池化和最大池化即双池化,符号v表示所有池化后向量的拼接,描述IPC类目和CLC类目之间的映射关系,p表示在存在映射关系类别上的概率与不存在映射关系类别上的概率向量,Classifier表示三层前馈神经网络组成的分类器。
进一步的,步骤S6中交叉熵损失见公式(14)所示;
(14);
其中,Loss表示交叉熵损失,N表示训练集中样本的数量,y i 表示训练集中第i条训练样本的真实类别标签,p i 表示科技文献类目自动映射模型在训练集中第i条训练样本的真实类别标签y i 类别上的预测概率。
在公开的IPC类目与CLC类目完全映射数据集,构造IPC类目与高关联的CLC类目数据集分别进行实验,由于公开数据集中仅有1000个正样本类目对,随机生成了1000负样本个类目对用于实验。两个数据集均按照4:1的比例划分为训练集和测试集。
附表1给出IPC类目与高关联CLC类目数据集与公开数据集中IPC类目与CLC类目描述文本的平均长度对比情况。可以看出,两个数据集的类目描述文本的平均长度相当。
附表2给出IPC类目与高关联CLC类目数据集与公开数据集中IPC类目各子类别的数量。其中符号A,B,C,D,E,F,G,H指IPC的顶级目录“部”的8个索引号,即子类别。
附表 1:不同数据集的类目描述文本平均长度对比
附表2:不同数据集的IPC类目各子类别的数量对比
对比的基线系统包括基于双线性池化卷积神经网络的类目自动映射方法(Bi-TextCNN)、基于双向长短期记忆神经网络的类目自动映射方法(Bi-LSTM)、基于Transformers编码器的类目自动映射方法(T-Encoder)以及基于预训练语言模型BERT的孪生网络模型的类目自动映射方法(Sia-BERT)。实验使用准确率作为评价模型性能的指标。
附表3给出不用的类目自动映射模型在公开数据集上的表现,其中符号AVG指平均准确率,其值越大性能越好。附表3中的最后一行是本发明IPC类目与高关联CLC类目自动映射模型BERT-E,性能均超过所有的对比基线系统,比当前最优的类目自动映射方法提高了个4.15百分点,充分表明本发明的方法在IPC类目与CLC类目自动映射上的有效性与优越性。
附表3:不同模型在公开数据集上的类目映射准确率
附表4给出了不同模型在IPC与高关联的CLC类目映射数据集上的性能,本发明IPC类目与高关联CLC类目自动映射模型映射准确率不论是IPC 8个子类别上还是总体上,均显著超过当前最优的Sia-BERT方法,总体准确率提升6.34个百分点,突显了本发明所述方法在IPC与高关联的CLC类目上建立映射的优势。
由于公开数据集上的负例是随机产生的,而IPC与高关联的CLC类目映射数据集负例绝大部分来源于同级目录下高关联的类目,因此在高关联数据集上建立映射的难度更大,导致本发明的模型在IPC与高关联的CLC类目映射数据集上的准确率均低于在公开数据集上的准确率。需要说明的是尽管该任务难度更大,但是更贴近实际应用场景。
附表4:不同模型在IPC类目与高关联的CLC类目映射数据集上的类目映射准确率
本发明的方法具有普遍的适用性。本发明虽然只在国际专利分类法和中国图书馆分类法上进行了实验验证,但本发明同样也适用于其它分类法,如杜威十进分类法等。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (5)
1.一种科技文献类目自动映射模型训练方法,基于IPC类目与高关联的CLC类目自动映射模型训练,其特征在于:步骤如下:
步骤S1,构造IPC类目与高关联CLC类目数据集作为训练集,对训练集进行规范化处理,获得规范化处理后的训练集;其中训练集中每个样本由IPC类目描述文本、CLC类目描述文本和IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签组成,IPC类目描述文本和CLC类目描述文本均是类目层级文本之间用分号连接形成的一条句子;
步骤S2,将处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中,获取语义表示向量,分为IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量;
步骤S3,使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵,获得交互表示向量;
步骤S4,将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络,输出增强表示向量;
步骤S5,将步骤S4的增强表示向量分别进行平均池化和最大池化提取类目描述文本的深层语义特征,将池化后的增强表示向量拼接后输入三层前馈神经网络,获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别;
步骤S6,根据步骤S5中在存在映射关系类别上的概率与不存在映射关系类别上的概率和步骤S1中训练集上IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签,通过最小化在训练集上的交叉熵损失来优化IPC类目与高关联CLC类目自动映射模型的参数,以得到训练后的IPC类目与高关联CLC类目自动映射模型;
步骤S1中构造IPC类目与高关联CLC类目数据集,具体为:
步骤S11,获取公开的IPC类目与CLC类目完全映射的数据集,数据集中每个样本是由一个IPC类目描述文本和与IPC类目描述文本存在映射关系的CLC类目描述文本组成,即只存在正样本;
步骤S12,步骤S11中数据集拆分为IPC类目描述文本与CLC类目描述文本,通过回溯获取每个IPC类目的类目号和对应的一个或者多个CLC类目的类目号关系字典;
步骤S13,对具有相同前缀的IPC类目号进行分组,获得分组字典;
步骤S14,遍历所有的IPC类目,对步骤S13的分组字典中对应的CLC类目进行过滤,通过判断条件,确立与步骤S12中存在映射关系的IPC类目号高度相似的CLC类目号;高度相似的CLC类目号对应的类目描述文本与步骤S12中IPC类目描述文本不存在映射关系,即获得负样本;
步骤S15,组合负样本和公开的IPC类目与CLC类目完全映射的数据集,构成IPC类目与高关联的CLC类目数据集;
步骤S2中处理后的训练集内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中,获取语义表示向量,具体为:
给定训练集中一个样本d=(sipc,sclc,y),其中d表示一个训练样本, Sipc表示IPC类目描述文本,Sclc表示CLC类目描述文本, y表示IPC类目与CLC类目是否存在映射关系,y值为0或1;
将IPC类目描述文本Sipc和CLC类目描述文本Sclc使用BPE子词切分方法进行子词切分,分别得到包含n个子词和m个子词的子词序列:
;
;
其中,表示IPC类目描述文本切分后的第1个子词,/>表示IPC类目描述文本切分后的第2个子词,/>表示IPC类目描述文本切分后的第n个子词,/>表示CLC类目描述文本切分后的第1个子词,/>表示CLC类目描述文本切分后的第2个子词,/>表示CLC类目描述文本切分后的第m个子词;n和m分别指IPC类目描述文本和CLC类目描述文本子词切分后包含的子词个数;
将类目描述文本切分后的子词序列依次输入预训练语言模型BERT中,获得每个子词的语义表示向量,见公式(1)和公式(2):
(1);
(2);
其中,vipc和vclc分别表示IPC类目描述文本和CLC类目描述文本的语义表示向量,、、/>表示IPC类目描述文本第1个子词、第2个子词和第n个子词输入预训练语言模型BERT获得的输出向量;/>、/>、/>表示CLC类目描述文本第1个子词、第2个子词和第m个子词输入预训练语言模型BERT获得的输出向量;BERT(•)表示预训练语言模型BERT,TE(•)表示查询嵌入表得到对应的词向量,SE(•)表示片段的嵌入向量,PE(•)表示位置的嵌入向量,/>表示IPC类目描述文本切分后的第i个子词,/>表示CLC类目描述文本切分后的第i个子词;
步骤S3中使用点积注意力计算步骤S2中IPC类目描述文本语义表示向量和CLC类目描述文本语义表示向量的注意力矩阵,以获得交互表示向量;见公式(3)、公式(4)和公式(5)所示;
(3);
(4);
(5);
其中,e表示注意力矩阵,T表示矩阵转置操作,softmax表示激活函数,表示融合CLC类目语义信息的IPC类目交互表示向量,/>表示融合IPC类目语义信息的CLC类目交互表示向量;
步骤S4中将步骤S2中语义表示向量和步骤S3中交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络,输出增强表示向量;进行增强表示见公式(6)、公式(7)、公式(8)和公式(9)所示;
(6);
(7);
(8);
(9);
其中,mipc和mclc分别表示IPC类目描述文本和CLC类目描述文本融合后的表示向量,符号是向量拼接操作,符号-为向量间的减法运算,⊙为向量对应元素相乘,/>和/>分别表示IPC类目描述文本和CLC类目描述文本增强表示向量,FFN(·)表示前馈神经网络,Bi-LSTM(·)表示双向长短期记忆网络;
步骤S5中获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别,见公式(10)、公式(11)、公式(12)和公式(13)所示;
(10);
(11);
(12);
(13);
其中,和/>分别表示IPC类目描述文本平均池化后的表示向量和最大池化后的表示向量,/>和/>分别表示CLC类目描述文本平均池化后的表示向量和最大池化后的表示向量,Bi-Pooling表示平均池化和最大池化即双池化,符号v表示所有池化后向量的拼接,描述IPC类目和CLC类目之间的映射关系,p表示在存在映射关系类别上的概率与不存在映射关系类别上的概率向量,Classifier表示三层前馈神经网络组成的分类器。
2.根据权利要求1所述的一种科技文献类目自动映射模型训练方法,其特征在于:步骤S6中交叉熵损失见公式(14)所示;
(14);
其中,Loss表示交叉熵损失,N表示训练集中样本的数量,yi表示训练集中第i条训练样本的真实类别标签,pi表示科技文献类目自动映射模型在训练集中第i条训练样本的真实类别标签yi类别上的预测概率。
3.一种科技文献类目自动映射模型预测方法,应用于权利要求2所述的科技文献类目自动映射模型训练方法,其特征在于:包括:
步骤S7,对待映射的IPC类目和CLC类目进行类目号与类目描述文本分离,分别抽取IPC类目描述文本和CLC类目描述文本并进行规范化处理;
步骤S8,将步骤S7中规范化处理后的IPC类目描述文本和CLC类目描述文本输入至步骤S6中训练后的IPC类目与高关联CLC类目自动映射模型,获取是否存在映射关系的类别值。
4.一种科技文献类目自动映射模型的训练装置,应用于权利要求3所述的科技文献类目自动映射模型训练方法,其特征在于:包括:
训练集模块,构造IPC类目与高关联CLC类目数据集作为训练集;训练集中每个样本由IPC类目描述文本、CLC类目描述文本和IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签组成;
预训练语言模型BERT,将训练集模块内每个样本的IPC类目描述文本和CLC类目描述文本分别输入预训练语言模型BERT中,获取语义表示向量;
交互表示模块,使用点积注意力计算预训练语言模型BERT的语义表示向量的注意力矩阵,获得交互表示向量;
增强表示模块,语义表示向量和交互表示向量进行融合,依次输入前馈神经网络和双向长短期记忆网络获得增强表示向量;
类目映射类别预测模块,将增强表示模块的输出输入至池化层提取信息,再输入三层前馈神经网络,获得在存在映射关系类别上的概率与不存在映射关系类别上的概率,并将存在映射关系与不存在映射关系中最大概率所在的类别作为预测类别;
模型参数调整模块,基于在存在映射关系类别上的概率与不存在映射关系类别上的概率和训练集上IPC类目描述文本与CLC类目描述文本是否互为映射的真实类别标签,通过最小化在训练集上的交叉熵损失来优化IPC类目与高关联CLC类目自动映射模型的参数,以得到训练后的IPC类目与高关联CLC类目自动映射模型。
5.一种科技文献类目自动映射模型的预测装置,应用于权利要求4所述的科技文献类目自动映射模型的训练装置,其特征在于:包括:
测试集数据预处理模块,对待映射的IPC类目和CLC类目进行类目号与类目描述文本分离;
分别抽取IPC类目描述文本和CLC类目描述文本并进行规范化处理,将分离后的待判断映射关系的IPC类目描述文本与CLC类目描述文本分别输入至已训练的IPC类目与高关联的CLC类目映射模型,获得映射类别标签值。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410132324.4A CN117688945B (zh) | 2024-01-31 | 2024-01-31 | 一种科技文献类目自动映射模型训练与预测方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202410132324.4A CN117688945B (zh) | 2024-01-31 | 2024-01-31 | 一种科技文献类目自动映射模型训练与预测方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117688945A CN117688945A (zh) | 2024-03-12 |
CN117688945B true CN117688945B (zh) | 2024-04-30 |
Family
ID=90135598
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202410132324.4A Active CN117688945B (zh) | 2024-01-31 | 2024-01-31 | 一种科技文献类目自动映射模型训练与预测方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117688945B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1389811A (zh) * | 2002-02-06 | 2003-01-08 | 北京造极人工智能技术有限公司 | 搜索引擎的智能化搜索方法 |
CN103488671A (zh) * | 2012-06-11 | 2014-01-01 | 国际商业机器公司 | 用于查询和集成结构化和非结构化数据的方法和系统 |
CN104750843A (zh) * | 2015-04-08 | 2015-07-01 | 浙江大学 | 一种从ipc中快速提取设计知识的辅助系统 |
CN105512131A (zh) * | 2014-09-25 | 2016-04-20 | 中国科学技术信息研究所 | 基于类目相似度计算的分类法类目映射的方法和装置 |
-
2024
- 2024-01-31 CN CN202410132324.4A patent/CN117688945B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN1389811A (zh) * | 2002-02-06 | 2003-01-08 | 北京造极人工智能技术有限公司 | 搜索引擎的智能化搜索方法 |
CN103488671A (zh) * | 2012-06-11 | 2014-01-01 | 国际商业机器公司 | 用于查询和集成结构化和非结构化数据的方法和系统 |
CN105512131A (zh) * | 2014-09-25 | 2016-04-20 | 中国科学技术信息研究所 | 基于类目相似度计算的分类法类目映射的方法和装置 |
CN104750843A (zh) * | 2015-04-08 | 2015-07-01 | 浙江大学 | 一种从ipc中快速提取设计知识的辅助系统 |
Non-Patent Citations (5)
Title |
---|
Transformer-Based Unified Neural Network for Quality Estimation and Transformer-Based Redecoding Moder for Machine Translation;Cong chen 等;Springer link;20210214;第66-75页 * |
基于孪生BERT网络的科技文献类目映射;何贤敏 等;计算机研究与发展;20210831;第1751-1760页 * |
基于机器学习的类目映射方法――国际专利分类法与中国图书馆分类法;靳雪茹;齐建东;王立臣;周林志;;计算机应用;20110701(第07期);第1781-1784页 * |
基于词汇相似度的IPC与CLC映射;周林志;齐建东;王建新;朱礼军;;计算机工程;20101205(第23期);第274-276+279页 * |
引入源端信息的IPC 和 CLC 类目映射研究;钟易佳;万方学位论文;20231026;第1-33页 * |
Also Published As
Publication number | Publication date |
---|---|
CN117688945A (zh) | 2024-03-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112989841B (zh) | 一种用于突发事件新闻识别与分类的半监督学习方法 | |
CN113255320A (zh) | 基于句法树和图注意力机制的实体关系抽取方法及装置 | |
CN107688576B (zh) | 一种cnn-svm模型的构建及倾向性分类方法 | |
CN112883724A (zh) | 文本数据增强处理方法、装置、电子设备和可读存储介质 | |
CN111639185B (zh) | 关系信息抽取方法、装置、电子设备和可读存储介质 | |
CN111581967A (zh) | 一种联合LW2V与Triplet网络的新闻主题事件检测方法 | |
CN113315789A (zh) | 一种基于多级联合网络的Web攻击检测方法及系统 | |
CN110888983A (zh) | 一种正负面情感分析方法、终端设备及存储介质 | |
CN111694961A (zh) | 一种用于敏感数据泄露检测的关键词语义分类方法与系统 | |
CN115544260A (zh) | 用于文本情感分析的对比优化编解码模型及方法 | |
CN112199954A (zh) | 基于语音语义的疾病实体匹配方法、装置及计算机设备 | |
CN115098673A (zh) | 基于变体注意力及层次结构的业务文书信息抽取方法 | |
CN113590827B (zh) | 一种基于多角度的科研项目文本分类装置和方法 | |
CN113486143A (zh) | 一种基于多层级文本表示及模型融合的用户画像生成方法 | |
CN113779966A (zh) | 一种基于注意力的双向cnn-rnn深度模型的蒙文情感分析方法 | |
CN116186562B (zh) | 基于编码器的长文本匹配方法 | |
CN117688945B (zh) | 一种科技文献类目自动映射模型训练与预测方法 | |
CN115526176A (zh) | 文本识别方法及装置、电子设备、存储介质 | |
CN114818711B (zh) | 基于神经网络的多信息融合命名实体识别方法 | |
CN114974222A (zh) | 一种词汇拆分模型构建方法、语音识别模型构建方法 | |
CN115130475A (zh) | 一种可扩展的通用端到端命名实体识别方法 | |
CN114297408A (zh) | 一种基于级联二进制标注框架的关系三元组抽取方法 | |
CN115293133A (zh) | 一种基于抽取文本因子增强的车险欺诈行为识别方法 | |
CN114398489A (zh) | 一种基于Transformer的实体关系联合抽取方法、介质及系统 | |
CN112287072A (zh) | 一种多维互联网文本风险数据识别方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |