CN115081439B

CN115081439B - 一种基于多特征自适应增强的化学药品分类方法及系统

Info

Publication number: CN115081439B
Application number: CN202210778327.6A
Authority: CN
Inventors: 高尚兵; 苏睿; 张骏强; 王媛媛; 张海艳; 马甲林; 张正伟; 朱全银; 陈晓兵
Original assignee: Huaiyin Institute of Technology
Current assignee: Huaiyin Institute of Technology
Priority date: 2022-07-01
Filing date: 2022-07-01
Publication date: 2024-02-27
Anticipated expiration: 2042-07-01
Also published as: CN115081439A

Abstract

本发明公开了一种基于多特征自适应增强的化学药品分类方法及系统，该方法在模型方面，首先使用Pos‑Embed模块对样本进行字编码和位置编码；再通过特征提取模块提取全局特征，对特定的化学药品特征，使用特征增强模块进行特征提取；最后，将特征提取模块和特征增强模块的结果进行融合；特征提取模块使用过程特征增强和过程特征交互，特征增强模块使用自适应特征个数的长短文本模块，两个过程特征模块和长短文本模型可以根据需要替换，有较高的自由度和灵活度；使用多个卷积来达到加速文本分类和更好的特征融合效果，使用Transformer的Attention机制和CNN相结合，弥补单纯使用CNN无法处理全局和长序列信息的缺点，可有效的兼顾全局性和局部性。

Description

一种基于多特征自适应增强的化学药品分类方法及系统

技术领域

本发明涉及自然语言处理技术领域，具体涉及一种基于多特征自适应增强的化学药品分类方法及系统。

背景技术

化学药品领域中文文本种类繁多，并且专业性相对于一般文本更高，对其分类需要更加严谨。这也导致了对于使用的人员专业性要求很高，理解学习成本较大。如何获取并对这些化学药品文本进行分类打上标签，是自然语言处理领域的一项任务。通过机器对这些化学药品文本的初步分类，有利于研究人员对某一特定领域进行研究、分析。文本分类任务是自然语言处理的一项基础任务，通过机器模型的学习，来推断出给定的文本(句子、文档等)的标签或标签集合。文本分类的应用非常广泛，如：二分类、多分类、多标签分类等。

近年来，文本的数量呈指数型增长，为了能在许多应用中准确地对文本进行分类，需要对机器学习方法有更深入的了解。许多机器学习方法在自然语言处理方面都取得了突破性的结果，这些学习算法的成功取决于其拟合数据中存在的非线性关系的能力。然而，寻找一种普适、通用的文本分类技术对研究人员来说仍然是一个巨大的挑战。由于化学药品文本自身包含许多决定性的特征属性，如成分、性状、适应症、功能主治等，而且各个特征长短和决定的比例不一致，仅仅依靠单一的文本分类模型无法很好的学习到句子的特征。早期文本分类的方法只是基于传统的神经网络CNN和RNN等，但随着发展传统神经网络的已经逐渐过时了。

在2017年Google发布的Transformer编码器基于Encoder-Decoder结构模型在文本分类领域也做出来巨大的贡献。2018年Google又提出了一种12层Transformers结构的BERT模型，BERT模型的出现使得词向量模型的泛化能力进一步增强，并在文本分类领域做出来巨大的贡献。近年来，注意力机制的提出和广泛使用，提升了文本分类的效果，但是现有分类方法针对化学药品文本的分类仍然有以下不足：

(1)化学药品文本自身包含许多决定性的特征属性，如成分、性状、适应症、功能主治等，而且各个特征长短和决定的比例不一致，仅仅依靠单一的文本分类模型无法很好的学习到句子的特征。并且各属性字段长短不一，仅仅依靠单一的模型来提取特征效果不好。

(2)CNN模型在网络层次太深时，采用BP传播修改参数会使靠近输入层的参数改动较慢，池化层会丢失大量有价值信息，忽略局部与整体之间关联性,不适合短文本特征提取。

(3)RNN类序列模型无法解决一词多义。在不同中文句子中，相同的字或词在不同的语境中有不同的含义，而RNN类序列模型中一个字或者词的含义在词嵌入后就已经确定，无法解决一词多义的问题。

(4)基于Transformer的BERT等模型参数较多。Transformer的enconder部分，由于其Self-Attention结构限制了实际能够处理的长度，因为其隐藏层数和字向量数相等，使得时间空间复杂度呈平方级增长，且参数过多对训练的算力要求也更高，不适合用于长文本的特征提取。

发明内容

发明目的：为了克服现有技术的不足，本发明提供一种基于多特征自适应增强的化学药品分类方法，该方法解决了上述的技术问题，并提供一种基于多特征自适应增强的化学药品分类系统。

技术方案：本发明的一方面，提供基于多特征自适应增强的化学药品分类方法，包括训练阶段和测试阶段，所述训练阶段包括以下步骤：

S1对化学药品数据文本进行预处理，得到预处理后的数据文本，并划分出训练集、验证集和测试集；

S2制作所述训练集的特征属性表以及按照字频率构建字典；

S3将预处理后的数据文本和根据文本构建的字典输入到网络模型中，实现对训练样本进行特征处理，进而完成分类；

S4将融合后的训练集文本输入一层的全连接神经网络作为分类器，衡量预测概率与真实类别的差距，并反向传播更新参数，每次更新参数后计算验证集上损失函数的值；

S5训练所述网络模型，直至调整模型参数使的目标函数最优；

所述测试阶段包括以下步骤：

S6制作预处理后的测试集文本的特征属性以及构建字典；

S7将预处理后的测试集文本和测试集对应的字典输入到训练后的网络模型中；

S8得到测试集对应的化学药品样本文本的分类。

进一步的，包括：

所述步骤S2包括以下步骤：

S21使用步骤S1得到的样本文本来制作字典，用不同的特殊字符代替数据文本中的特殊文本，所述特殊文本包括：字典里查不到的字、空白、数字、句子标识以及Mask遮罩；

S22根据化学药品数据文本字编码的需要，向字典里添加其他关键字，完成字典的构建；

S23将训练集文本中的重要属性字段提取出来构建特征属性表。

进一步的，包括：

采用网络模型对训练样本进行特征处理具体包括以下步骤：

S31在构建的字典中查询所述训练集文本的每个字的字向量完成字编码，再经过位置编码得到向量化后的句子；

S32对数据文本进行特征提取和特征交互，得到交互后向量化的句子；

S33将步骤S31处理后的数据集文本进行特征增强；

S34将步骤S32得到的结果和步骤S33得到的结果进行末端特征融合，最后输出分类结果。

进一步的，包括：

所述步骤S31具体包括：

训练集文本对应句子维度为[batch_size,seq_len]，使用构建的字典中查询每个字的字向量完成字编码，进而维度扩展为[batch_size,seq_len,embed_dime]，将字编码后的结果用sin和cos函数按以下公式进行位置编码：

其中，pos指的是句中字的位置，i指的是字向量的维度，d_model是指总共词向量的维度，得到的位置编码维度为[batch_size,seq_len,embed_dime]，将其和字编码结果并相加得到X_embedding，将X_embedding输入给特征提取模块中，其维度为[batch_size,seq_len,embed_dime]，batch_size是一次训练所选取的样本数，seq_len是句子长度，embed_dime是字向量维度。

进一步的，包括：

所述步骤S32具体包括以下步骤：

S321将向量化句子输入到9层的Transformer模型中，每一层Transformer进行特征的提取，然后经过softmax归一化输出分类结果；

S322使用BiGRU模型和3×3的卷积将输入的结果融合到步骤S321中第二层的Transformer中，此时的输入为步骤S321中的第一层Transformer的结果；再将结果通过4×4的卷积后融合到步骤S321中第五层的Transformer中；将步骤S321中的第一层的Transformer结果分别使用大小为2×Embed、3×Embed、4×Embed的矩阵进行卷积，将结果进行最大池化和连接，改变维度后与经过池化层的上一步4×4的卷积后的结果进行残差连接，再依次使用2×2和5×5的卷积对提取到的特征进行进一步的融合，把结果融合到步骤S321主干网络中的第八层Transformer中；

S323将步骤S321中的9层的Transformer模型组成的主干网络中的第3、6、9层Transformer的结果输出，将第二维度的各个向量重新组合成新的向量，即每一句话的第一个字到最后一个字都各自提取出来合并到一起，卷积池化和拼接得到结果Y_extraction。

进一步的，包括：

所述步骤S33具体包括以下步骤：

S331将步骤S31得到的向量化句子的各个特征提取出来，并且判断是长文本还是短文本，并返回一个长短文本的比例α；

S332使用4层的BiGRU模型经过维度的增加，分别使用宽为2、3、4，长为句长的卷积核对其进行卷积，通过最大池化和全连接，得到维度[batch_size,embed_dime×3]，在经过自适应全局平均池化得到维度[batch_size,seq_len,embed_dime]，最后将多个结果进行残差连接和层归一化，得到向量X_{enhance_long}；

S333经过维度的增加，分别使用宽为2、3、4，长为句长的卷积核对其进行卷积，然后通过最大池化和全连接，得到维度[batch_size,embed_dime×3]，在经过Change模块的自适应全局平均池化得到维度[batch_size,seq_len,embed_dime]，最后将多个结果进行残差连接和层归一化，得到向量X_{enhance_short}；

S334将向量X_{enhance_long}和向量X_{enhance_short}按照得到的长短文本比例α进行相加融合，得到向量Y_enhance，其维度为[batch_size,seq_len,embed_dime]，其公式如下所示：

Y_enhance＝X_{enhance_long}·α+X_{enhance_short}·(1-α)

融合后的结果Y_enhance和步骤S323得到的结果Y_extraction按照比例β融合相加，然后进行softmax分类，得到结果向量Y，其公式如下所示：

Y＝softmax(Y_extraction·β+Y_enhance)。

本发明的另一方面，提供基于多特征自适应增强的化学药品分类系统，该系统包括训练模块和测试模块，所述训练模块包括：

预处理模块，用于对化学药品数据文本进行预处理，得到预处理后的数据文本，并划分出训练集、验证集和测试集；

字典构建模块，用于制作所述训练集的特征属性表以及按照字频率构建字典；

分类模块，用于将预处理后的数据文本和根据文本构建的字典输入到网络模型中，实现对训练样本进行特征处理，进而完成分类；

训练模块，用于将融合后的训练集文本输入一层的全连接神经网络作为分类器，衡量预测概率与真实类别的差距，并反向传播更新参数，每次更新参数后计算验证集上损失函数的值，训练所述网络模型，直至调整模型参数使的目标函数最优；

所述测试模块包括：

特征属性制作模块，用于制作预处理后的测试集文本的特征属性以及构建字典；

输入模块，用于将预处理后的测试集文本和测试集对应的字典输入到训练后的网络模型中；

结果模块，用于得到测试集对应的化学药品样本文本的分类。

进一步的，包括：

所述分类模块具体包括：

Pos-Embed模块，用于在构建的字典中查询所述训练集文本的每个字的字向量完成字编码，再经过位置编码得到向量化后的句子；

特征提取模块，用于对数据文本进行特征提取和特征交互，得到交互后向量化的句子；

特征增强模块，用于将特征提取模块处理后的数据集文本进行特征增强；

特征融合模块，用于将特征提取模块得到的结果和特征增强模块得到的结果进行末端特征融合，最后输出分类结果。

进一步的，包括：

所述特征提取模块包括：

主干网络单元，用于将向量化句子输入到9层的Transformer模型中，每一层Transformer进行特征的提取，然后经过softmax归一化输出分类结果；

过程增强单元，用于使用BiGRU模型和3×3的卷积将输入的结果融合到主干网络单元中第二层的Transformer中，此时的输入为主干网络单元中的第一层Transformer的结果；再将结果通过4×4的卷积后融合到主干网络单元中第五层的Transformer中；将主干网络单元中的第一层的Transformer结果分别使用大小为2×Embed、3×Embed、4×Embed的矩阵进行卷积，将结果进行最大池化和连接，改变维度后与经过池化层的上一步4×4的卷积后的结果进行残差连接，再依次使用2×2和5×5的卷积对提取到的特征进行进一步的融合，把结果融合到主干网络单元中的第八层Transformer中；

特征交互单元，用于将主干网络单元中的9层的Transformer模型组成的主干网络中的第3、6、9层Transformer的结果输出，将第二维度的各个向量重新组合成新的向量，即每一句话的第一个字到最后一个字都各自提取出来合并到一起，卷积池化和拼接得到结果Y_extraction。

进一步的，包括：

所述特征增强模块具体包括：

计数判断单元，用于将Pos-Embed模块得到的向量化句子的各个特征提取出来，并且判断是长文本还是短文本，并返回一个长短文本的比例α；

长文本特征提取单元，用于使用4层的BiGRU模型经过维度的增加，分别使用宽为2、3、4，长为句长的卷积核对其进行卷积，通过最大池化和全连接，得到维度[batch_size,embed_dime×3]，在经过Change模块的自适应全局平均池化得到维度[batch_size,seq_len,embed_dime]，最后将多个结果进行残差连接和层归一化，得到向量X_{enhance_long}；

短文本特征提取单元，用于分别使用宽为2、3、4，长为句长的卷积核对其进行卷积，然后通过最大池化和全连接，得到维度[batch_size,embed_dime×3]，在经过Change模块的自适应全局平均池化得到维度[batch_size,seq_len,embed_dime]，最后将多个结果进行残差连接和层归一化，得到向量X_{enhance_short}；

融合单元，用于将向量X_{enhance_long}和向量X_{enhance_short}按照得到的长短文本比例α进行相加融合，得到向量Y_enhance，其维度为[batch_size,seq_len,embed_dime]，其公式如下所示：

Y_enhance＝X_{enhance_long}·α+X_{enhance_short}·(1-α)

融合后的结果Y_enhance和特征交互单元得到的结果Y_extraction按照比例β融合相加，然后进行softmax分类，得到结果向量Y，其公式如下所示：

Y＝softmax(Y_extraction·β+Y_enhance)。

有益效果：与现有技术相比，本发明的显著优点在于：

(1)化学药品文本自身包含许多决定性的特征属性，如成分、性状、适应症、功能主治等，因此，构建了特征属性表来人为的自定义需要的属性；使用该模型可以在对整体文本样本实现分类的同时，根据特征属性表对各种特征属性字段分别进行特征的提取，以此来达到特征加强的目的；

(2)本发明使用多个卷积来达到加速文本分类和更好的特征融合效果，在过程增强模块使用了Transformer的Attention机制和CNN相结合，弥补单纯使用CNN无法处理全局和长序列信息的缺点，主干网络的9层的Transformer模型抽取一部分已经提取过的特征加入到特征增强模块中，可有效的兼顾全局性和局部性；

(3)特征增强模块加入了判断和计数，可以在区分长短文本的同时得到一个对应的比例，为后期的融合提供有利的支撑。在长短文本特征提取模块使用了自适应方式，长短模块根据特征属性的个数进行自增对各属性特征提取，模型可以更好的学习到单个特征；

(4)该模型使用树状结构，其特征增强模块、过程特征交互模块可以根据需要拆卸和替换，且特征增强模块的长短文本特征提取模型也可以根据需要加以替换，如可以将过程增强模块换为BiLSTM、ALBERT等模型，因此，有较高的自由度和灵活度。

附图说明

图1是本发明实施例所述的多特征自适应增强的化学药品文本分类方法的流程图；

图2是本发明实施例所述的总体模型结构图；

图3是本发明实施例所述的各模块的结构图；

图4是本发明实施例所述的特征提取模块中的过程特征交互模块的模型结构图；

图5是是本发明实施例所述的特征增强模块中使用的长短文本特征提取模块的模型结构图；

图6是本发明实施例所述的Transformer模型应用示意图；

图7是本发明实施例所述的BiGRU模型应用示意图；

图8是本发明另一实施例所述可替换拆卸模块的示意图。

具体实施方式

下面对本发明技术方案进行详细说明。

首先，本发明设计了一种多特征自适应增强的化学药品分类方法，实际应用当中，如图1所示，具体执行如下步骤1至步骤5，获得药品文本分类概率模型。

步骤1：通过scrapy框架爬取在各个化学药品网站的化学药品文本作为样本，对样本进行清洗和预处理，确定各化学药品样本文本分别对应预设各化学药品分类类别中的真实分类类别，按照比例并划分出训练集、验证集和测试集。

步骤2：根据步骤1中处理过后的化学药品样本文本制作字典和特征属性表以供后期模型使用。

步骤3：使用步骤1中处理过的数据集和步骤2中制作的字典，使用设计的模型对已有的化学药品文本样本进行特征提取完成分类。

步骤4：将提取到的化学药品样本文本的特征进行融合，增加文本特征向量对文本分类的区分性。输入一层的全连接神经网络作为分类器，使用交叉熵损失函数衡量预测概率与真实类别的差距，并通过Adam优化器反向传播更新参数，每次更新参数后计算验证集上损失函数的值。

步骤5，训练模型，调整模型学习率、隐藏层个数等参数来使F1最优。其中F1指F1-score，是分类问题的一个衡量指标。

步骤A：按步骤1获取化学药品样本文本。

步骤B：按照步骤2，将步骤A获得化学药品样本文本所对应的字向量序列与位置向量序列，然后进入步骤C；

步骤C：将处理过的样本矩阵输入到步骤3设计的模型中进行分类，最后输化学药品样本文本的分类。

在本实施例中，步骤1包括如下步骤1.1至步骤1.3：

步骤1.1：对化学药品文本进行预处理，确定各文本样本对象分别对应预设各化学药品分类类别中的真实分类类别，然后进入步骤1.2；

步骤1.2：对步骤1.1中获取的化学药品文本进行预处理，删除特殊符号、空格、乱码等会影响判断的字，对已有的化学药品样本文本进行去重和打乱排序，更新各个化学药品样本文本，然后进入步骤1.3；

步骤1.3：针对步骤1.2中各条化学药品样本文本打上标签存入文档，每一条数据的格式为[内容,标签]，可视化输出各条样本的长度进行获取模型处理的最大句长，按照6：2：2的比例划分训练集、测试集、验证集，然后进入步骤2.1。

在本实施例中，步骤2包括如下步骤2.1至步骤2.4：

步骤2.1：制作一个记录所有字出现频率的列表，舍去出现频率非常低的字。

步骤2.2：考虑到模型需要使用到一些特殊字符，如“#PAD#”、“#UNK#”来辅助分类，根据自己的需要加入“#PAD#”、“#UNK#”、“#CLS#”、“#SEP#”、“#MASK#”、“#NUM#”等。在实际应用中，因为计算机对数字的分类识别是没有效果的，所以定义一个符号“#NUM#”，在分类过程中如果遇到数字就用符号代替。预留字典的0-19来放自己定义的特殊符号，真正的字典编码从20开始。通过代码构建字典，定义的符号如下表1所示。

表1特殊符号说明

字典编号	符号	说明
			0	#PAD#	用来补长度和空白
1	#UNK#	用来表达未知的字,如果字典里查不到
			2	#CLS#	BERT模型中句子的标记
3	#SEP#	BERT模型中句子的标记
			4	#MASK#	用来做Masked LM所做的遮罩
5	#NUM#	用来替换语句里的所有数字,例如把"23.9"直接替换成#num#

步骤2.3：根据原来数据集的需要，向字典里添加一些关键字完成字典的构建；

步骤2.4：将化学药品文本的重要属性字段提取出来构建特征属性表，在本实施例中选择成分、性状、适应症、功能主治、注意事项、药物毒理等属性。

作为本发明的一种优选技术方案：

步骤3中设计的模型包括Pos-Embed模块、特征提取模块、特征增强模块、末端特征融合模块，该模型结构如图2和3所示，其包括如下步骤3.1至步骤3.4：

步骤3.1：将步骤1.3中处理过的文本样本输入到Pos-Embed模块，输入句子的维度是[batch_size,seq_len]，使用在步骤2.3构建的字典中查询每个字的字向量完成字编码，维度扩展为[batch_size,seq_len,embed_dime]。将字编码后的结果用sin和cos函数按以下公式进行位置编码：

上式中，pos指的是句中字的位置，i指的是字向量的维度，d_model是指总共词向量的维度，得到的位置编码维度为[batch_size,seq_len,embed_dime]，将其和字编码结果并相加得到X_embedding，将X_embedding输入给第一层的Transformer模型，其维度为[batch_size,seq_len,embed_dime]。然后进入步骤3.2；

步骤3.2：将步骤3.1处理过后的文本样本输入到特征提取模块，特征提取模块包括9层的Transformer模型组成的主干网络、过程增强模块和过程特征交互模块，其中，Transformer模型为2017年A Vaswani在《Attention Is All You Need》论文中提出的模型。

作为本发明的一种优选技术方案，步骤3.2包括如下步骤3.2.1至步骤3.2.4：

步骤3.2.1：将步骤3.1中的结果输入到9层的Transformer模型，Transformer模型如图6所示，将每一层Transformer进行串联，逐层进行特征的提取，得到结果的维度是[batch_size,seq_len,embed_dime]，然后经过softmax归一化，得到输出分类结果X，其维度是[batch_size,classes]；

步骤3.2.2：将步骤3.2.1中的第一层的Transformer结果输入到过程增强模块进行特征提取。首先，使用4层的BiGRU模型和3×3的卷积输出的结果维度为[batch_size,seq_len,embed_dime]，将其融合到步骤3.2.1中第二层的Transformer中，4层的BiGRU模型如图7所示。再将结果通过4×4的卷积后得到维度[batch_size,seq_len,embed_dime]，将其融合到步骤3.2.1中第五层的Transformer中。

将步骤3.2.1中的第一层的Transformer结果分别使用宽为2、3、4，长为句长的卷积核对其进行卷积，将结果进行最大池化和连接，改变维度后与经过池化层的上一步4×4的卷积后的结果进行残差连接，再依次使用2×2和5×5的卷积对提取到的特征进行进一步的融合，得到维度[batch_size,seq_len,embed_dime]，将其结果融合到步骤3.2.1主干网络中的第八层Transformer中；

步骤3.2.3：构建过程特征交互模块，如图4所示，将步骤3.2.1中的9层的Transformer模型组成的主干网络(如图3和4中的9层Trm)中的第3、6、9层Transformer的结果输出向量A、B、C、其中A、B、C分别为[A0,A1,A2…Aseq]、[B0,B1,B2…Bseq]、[C0,C1,C2…Cseq]，将每个向量同一位置的提取出来得到新的向量[A0,B0,C0]，[A1,B1,C1]，…[Aseq,Bseq,Cseq]，将其合并组合成新的向量得到维度[batch_size,embed_dime×3]，使用1×(embed_dime×3)的卷积Concatenate得到结果向量Y_extraction，其维度[batch_size,seq_len,embed_dime]，其中每个Trm的结构如图6所示。

步骤3.3：将步骤3.1处理过后的文本样本输入到特征增强模块，特征增强模块包括计数判断模块(Judgement and counting)、长文本特征提取模块、短文本特征提取模块。在实际应用中，所述步骤3.3包括如下步骤3.3.1至步骤3.3.4：

步骤3.3.1：将步骤3.1中Pos-Embed模块的输出结果输入到计数判断模块把各个特征提取出来，并且判断是长文本还是短文本，返回一个长短文本的比例α,然后进入步骤3.3.2。

步骤3.3.2：将长文本输入到长文本特征提取模块，根据特征属性表中的属性和步骤3.3.1的判断属性的个数，使用对应个数的长文本分类器对特征进行提取，长文本分类器如图3中的Long，在实际应用中，长文本特征提取模型如图5所示，首先使用4层的BiGRU模型，然后经过维度的增加，分别使用宽为2、3、4，长为句长embed的卷积核对其进行卷积，然后通过最大池化和全连接，得到维度[batch_size,embed_dime×3],在经过Change模块的自适应全局平均池化得到维度[batch_size,seq_len,embed_dime]。最后将多个结果进行残差连接和层归一化(Add&Layer)，得到向量X_{enhance_long}；

步骤3.3.3：将短文本输入到短文本特征提取模块，根据特征属性表中的属性和步骤3.3.1的判断属性的个数，使用对应个数的短文本分类器对特征进行提取，短文本分类器如图3中的Short在实际应用中，短文本特征提取模型如图5所示，首先经过维度的增加，分别使用宽为2、3、4，长为句长的卷积核对其进行卷积，然后通过最大池化和全连接，得到维度[batch_size,embed_dime×3]，在经过Change模块的自适应全局平均池化得到维度[batch_size,seq_len,embed_dime]。最后将多个结果进行残差连接和层归一化，得到向量X_{enhance_short}；

步骤3.3.4：将步骤3.3.2得到的结果X_{enhance_long}和步骤3.3.3得到的结果X_{enhance_short}按照步骤3.3.1得到的长短文本比例α进行相加融合，得到向量Y_enhance，其维度为[batch_size,seq_len,embed_dime]，其公式如下所示：

Y_enhance＝X_{enhance_long}·α+X_{enhance_short}·(1-α)

融合后的结果Y_enhance和步骤3.2.3得到的结果Y_extraction按照人为确定的比例β融合相加，然后进行softmax分类，得到结果向量Y，其维度为[batch_size,classes]，其公式如下所示：

Y＝softmax(Y_extraction·β+Y_enhance)。

在本发明的另一个实施例中，上述的特征增强模块、过程特征交互模块可以根据需要拆卸和替换，且特征增强模块的长短文本特征提取模型也可以根据文本长度不同选择合适的模型。如图8所示，可将过程增强模块替换为ALBERT模型，将过程特征交互模块拆卸，长短文本特征提取分别使用2层和3层的BiLSTM。

步骤3.4：实现末端特征融合将步骤3.2.1得到的结果X和步骤3.3.4得到的结果Y进行末端特征融合，在实际应用中，使用残差连接和层归一化，最后输出分类结果。

步骤4：将提取到的化学药品样本文本的特征进行融合，增加文本特征向量对文本分类的区分性。输入一层的全连接神经网络作为分类器，使用交叉熵损失函数衡量预测概率与真实类别的差距，并通过Adam优化器反向传播更新参数，每次更新参数后计算验证集上损失函数的值。交叉熵损失函数计算公式如下：

其中，y_i(i＝1,2,…,c)等于1时表示文本属于第i类，为分类器预测文本属于第i类的概率。

其次，本发明的另一方面，基于上述的网络结构提供基于多特征自适应增强的化学药品分类系统，该系统包括训练模块和测试模块，训练模块包括：

字典构建模块，用于制作训练集的特征属性表以及按照字频率构建字典；

测试模块包括：

分类模块具体包括：Pos-Embed模块，用于在构建的字典中查询所述训练集文本的每个字的字向量完成字编码，再经过位置编码得到向量化后的句子；

特征提取模块包括：主干网络单元，用于将向量化句子输入到9层的Transformer模型中，每一层Transformer进行特征的提取，然后经过softmax归一化输出分类结果；

过程增强单元，用于使用4层的BiGRU模型和3×3的卷积将输入的结果融合到主干网络单元中第二层的Transformer中，此时的输入为主干网络单元中的第一层Transformer的结果；再将结果通过4×4的卷积后融合到主干网络单元中第五层的Transformer中；将主干网络单元中的第一层的Transformer结果分别使用大小为2×Embed、3×Embed、4×Embed的矩阵进行卷积，将结果进行最大池化和连接，改变维度后与经过池化层的上一步4×4的卷积后的结果进行残差连接，再依次使用2×2和5×5的卷积对提取到的特征进行进一步的融合，把结果融合到主干网络单元中的第八层Transformer中；

特征交互单元，用于将主干网络单元中的9层的Transformer模型组成的主干网络中的第3、6、9层Transformer的结果输出，将第二维度seq_len维度的各个向量重新组合成新的向量，即每一句话的第一个字到最后一个字都各自提取出来合并到一起，卷积池化和拼接得到结果Y_extraction。

特征增强模块具体包括：计数判断单元，用于将Pos-Embed模块得到的向量化句子的各个特征提取出来，并且判断是长文本还是短文本，并返回一个长短文本的比例α；

长文本特征提取单元，用于使用4层的BiGRU模型经过维度的增加，分别使用宽为2、3、4，长为句长的卷积核对其进行卷积，通过最大池化和全连接，得到维度[batch_size,embed_dime×3]，在经过Change模块的自适应全局平均池化得到维度[batch_size,seq_len,embed_dime]，最后将多个结果进行残差连接和层归一化，得到向量X_{enhance_long}；其中，Change模块做的就是自适应全局平均池化。

Y_enhance＝X_{enhance_long}·α+X_{enhance_short}·(1-α)

Y＝softmax(Y_extraction·β+Y_enhance)。

本发明所述的系统的其他特征，与基于多特征自适应增强的化学药品分类方法相似，在此不再赘述。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明实施例进行各种改动和变型而不脱离本发明实施例的精神和范围。这样，倘若本发明实施例的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于多特征自适应增强的化学药品分类方法，其特征在于，包括训练阶段和测试阶段，所述训练阶段包括以下步骤：

S2制作所述训练集的特征属性表以及按照字频率构建字典；

S4将融合后的训练集文本输入单层全连接神经网络，将所述单层全连接神经网络作为分类器，衡量预测概率与真实类别的差距，并反向传播更新参数，每次更新参数后计算验证集上损失函数的值；

S5训练所述网络模型，直至调整模型参数使得目标函数最优；

所述测试阶段包括以下步骤：

S6制作预处理后的测试集文本的特征属性以及构建字典；

S8得到测试集对应的化学药品样本文本的分类；

采用网络模型对训练样本进行特征处理具体包括以下步骤：

S31在构建的字典中，查询所述训练集文本的每个字，对每个字的字向量进行字编码，再经过位置编码得到向量化后的句子；

S33将步骤S31处理后的数据集文本进行特征增强；

S34将步骤S32得到的结果和步骤S33得到的结果进行末端特征融合，最后输出分类结果；

所述步骤S32具体包括以下步骤：

S321将向量化后的句子输入到9层的Transformer模型中，每一层Transformer进行特征的提取，然后经过softmax归一化输出分类结果；

S322使用BiGRU模型和3×3的卷积将输入的结果融合到第二层的Transformer中，此时的输入为第一层Transformer的结果；再将第二层的Transformer结果通过4×4的卷积后融合到步骤S321中第五层的Transformer中；将步骤S321中的第一层的Transformer结果分别使用大小为2×Embed、3×Embed、4×Embed的矩阵进行卷积，将第一层的Transformer结果进行最大池化和连接，改变维度后与经过池化层的上一步4×4的卷积后的结果进行残差连接，再依次使用2×2和5×5的卷积对提取到的特征进行进一步的融合，把结果融合到步骤S321主干网络中的第八层Transformer中，其中，Embed是句子中每个字的维度；

S323将步骤S321中的9层的Transformer模型组成的主干网络中的第3、6、9层Transformer的结果输出，将第二维度的各个向量重新组合成新的向量，即每一句话的第一个字到最后一个字都各自提取出来合并到一起，卷积池化和拼接得到结果Y_extraction；

所述步骤S33具体包括以下步骤：

S331将步骤S31得到的向量化后的句子的各个特征提取出来，并且判断是长文本还是短文本，并返回一个长短文本的比例α；

S332对BiGRU的输出结果在第1维度增加一个维度，分别使用宽为2、3、4，长为句长的卷积核对其进行卷积，通过最大池化和全连接，得到维度[batch_size,embed_dime×3]，在经过自适应全局平均池化得到维度[batch_size,seq_len,embed_dime]，batch_size是一次训练所选取的样本数，seq_len是句子长度，embed_dime是字向量维度，最后将多个长文本分类器得到的结果进行残差连接和层归一化，得到向量X_{enhance_long}；

S333对BiGRU的输出结果在第1维度增加一个维度，分别使用宽为2、3、4，长为句长的卷积核对其进行卷积，然后通过最大池化和全连接，得到维度[batch_size,embed_dime×3]，在经过Change模块的自适应全局平均池化得到维度[batch_size,seq_len,embed_dime]，batch_size是一次训练所选取的样本数，seq_len是句子长度，embed_dime是字向量维度，最后将多个短文本分类器得到的结果进行残差连接和层归一化，得到向量X_{enhance_short}；

S334将向量X_{enhance_long}和向量X_{enhance_shor}按照得到的长短文本比例α进行相加融合，得到向量Y_enhance，其维度为[batch_size，seq_len，embed_dime]，其公式如下所示：

Y_enhance＝X_{enhance_long}·α+X_{enhance_short}·(1-α)

Y＝softmax(Y_extraction·β+Y_enhance)。

2.根据权利要求1所述的基于多特征自适应增强的化学药品分类方法，其特征在于，所述步骤S2包括以下步骤：

S21使用步骤S1得到的训练集文本来制作字典，用不同的特殊字符代替数据文本中的特殊文本，所述特殊文本包括：字典里查不到的字、空白、数字、句子标识以及Mask遮罩；

3.根据权利要求1所述的基于多特征自适应增强的化学药品分类方法，其特征在于，所述步骤S31具体包括：

其中，pos指的是句中字的位置，i指的是字向量的维度，d^model是指总共词向量的维度，得到的位置编码维度为[batch_size,seq_len,embed_dime]，将位置编码和字编码结果并相加得到X_embedding，将X_embedding输入给特征提取模块中，其维度为[batch_size，seq_len，embed_dime]，batch_size是一次训练所选取的样本数，seq_len是句子长度，embed_dime是字向量维度。

4.一种基于多特征自适应增强的化学药品分类系统，其特征在于，该系统包括训练模块和测试模块，所述训练模块包括：

训练模块，用于将融合后的训练集文本输入单层全连接神经网络，将所述单层全连接神经网络作为分类器，衡量预测概率与真实类别的差距，并反向传播更新参数，每次更新参数后计算验证集上损失函数的值，训练所述网络模型，直至调整模型参数使得目标函数最优；

所述测试模块包括：

结果模块，用于得到测试集对应的化学药品样本文本的分类；

所述分类模块具体包括：

Pos-Embed模块，用于在构建的字典中，查询所述训练集文本的每个字，对每个字的字向量进行字编码，再经过位置编码得到向量化后的句子；

特征融合模块，用于将特征提取模块得到的结果和特征增强模块得到的结果进行末端特征融合，最后输出分类结果；

所述特征提取模块包括：

主干网络单元，用于将向量化后的句子输入到9层的Transformer模型中，每一层Transformer进行特征的提取，然后经过softmax归一化输出分类结果；

过程增强单元，用于使用BiGRU模型和3×3的卷积将输入的结果融合到主干网络单元中第二层的Transformer中，此时的输入为主干网络单元中的第一层Transformer的结果；再将第二层的Transformer结果通过4×4的卷积后融合到主干网络单元中第五层的Transformer中；将主干网络单元中的第一层的Transformer结果分别使用大小为2×Embed、3×Embed、4×Embed的矩阵进行卷积，将第一层的Transformer结果进行最大池化和连接，改变维度后与经过池化层的上一步4×4的卷积后的结果进行残差连接，再依次使用2×2和5×5的卷积对提取到的特征进行进一步的融合，把结果融合到主干网络单元中的第八层Transformer中，其中，Embed为句子中每个字的维度；

特征交互单元，用于将主干网络单元中的9层的Transformer模型组成的主干网络中的第3、6、9层Transformer的结果输出，将第二维度的各个向量重新组合成新的向量，即每一句话的第一个字到最后一个字都各自提取出来合并到一起，卷积池化和拼接得到结果Y_extraction；

所述特征增强模块具体包括：

计数判断单元，用于将Pos-Embed模块得到的向量化后的句子的各个特征提取出来，并且判断是长文本还是短文本，并返回一个长短文本的比例α；

长文本特征提取单元，用于对BiGRU的输出结果在第1维度增加一个维度，分别使用宽为2、3、4，长为句长的卷积核对其进行卷积，通过最大池化和全连接，得到维度[batch_size,embed_dime×3]，在经过自适应全局平均池化得到维度[batch_size,seq_len,embed_dime]，batch_size是一次训练所选取的样本数，seq_len是句子长度，embed_dime是字向量维度，最后将多个长文本分类器得到的结果进行残差连接和层归一化，得到向量X_{enhance_long}；

短文本特征提取单元，用于对BiGRU的输出结果在第1维度增加一个维度，分别使用宽为2、3、4，长为句长的卷积核对其进行卷积，然后通过最大池化和全连接，得到维度[batch_size，embed_dime×3]，在经过自适应全局平均池化得到维度[batch_size,seq_len,embed_dime]，batch_size是一次训练所选取的样本数，seq_len是句子长度，embed_dime是字向量维度，最后，将多个短文本分类器得到的结果进行残差连接和层归一化，得到向量X_{enhance_short}；

融合单元，用于将向量X_{enhance_long}和向量X_{enhance_short}按照得到的长短文本比例α进行相加融合，得到向量Y_enhance，其维度为[batch_size，seq_len，embed_dime]，其公式如下所示：

Y_enhance＝X_{enhance_long}·α+X_{enhance_short}·(1-α)

Y＝softmax(Y_extraction·β+Y_enhance)。