CN112765353A

CN112765353A - 一种基于科研文本的生物医学学科分类方法及装置

Info

Publication number: CN112765353A
Application number: CN202110085738.2A
Authority: CN
Inventors: 王进; 马珍珍
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Yami Technology Guangzhou Co ltd
Priority date: 2021-01-22
Filing date: 2021-01-22
Publication date: 2021-05-07
Anticipated expiration: 2041-01-22
Also published as: CN112765353B

Abstract

本发明属于文本分类技术领域，特别涉及一种基于科研文本的生物医学学科分类方法及装置，方法包括获取文本数据，对文本数据进行分词、去除停用词处理后，进行缩写词的扩展、大小写转换、词形还原操作；获取每个词对应的词向量；构建改进的Inception网络，并利用该网络对词向量进行特征提取；将从训练数据中提取的特征输入支持向量机模型中，通过预测类标与训练数据的标准类标进行比较，通过反向传播更新支持向量机模型；将待预测的文本数据输入改进的Inception网络提取特征，并将提取的特征输入经过训练的支持向量机模型，得到该待预测文本数据的类标；本发明减少了计算资源消耗，提升了生物医学文本的学科分类的分类性能。

Description

一种基于科研文本的生物医学学科分类方法及装置

技术领域

本发明属于文本分类技术领域，特别涉及一种基于科研文本的生物医学学科分类方法及装置。

背景技术

文本分类技术的不断发展与深入，己逐渐在邮件过滤、信息检索、文本情感分析、文本索引等领域表现出广泛的应用前景，在文本分类过程中，分类主题的细化，复杂的分类问题，以及对句子、文章的泛化处理的能力，如何将浅层的字面上的文本信息结合上下文信息、词与词之间的联系等作为分类问题的难点，急需对算法进行创新改革，突破瓶颈。各医疗卫生机构更加重视自身学科建设，以学科评价排名为亮点的各种医院排行榜越来越受关注。在开展学科评价排名，尤其针对学科的科研能力水平展开评价时，需要将评价数据按照评价体系的学科分类划分到不同的学科类别中，其中就涉及包括SCI论文、临床试验项目、授权专利等在内的生物医学文本数据。

针对生物医学文本的学科分类，中国医院科技量值评价研究课题组先后采用词表匹配和基于支持向量机模型的文本分类算法。由于学科差异性，一些学科的研究内容与其他学科交叉较少，容易区分，利用词表和基于支持向量机模型的文本分类算法标引效果较好，如眼科学、骨外科学等。但也有部分学科由于其研究内容与其他学科交叉较多，利用基于字符串匹配的词表匹配法和基于支持向量机模型的文本分类算法分类效果不太理想，仍需采用人工标引方法，通过人工阅读理解文本语义并结合上下文内容确定相关学科，如神经病学、消化病学等。而随着深度学习在文本分类领域的应用研究越来越多，在针对公开的新闻语料或数据集的主题分类研究或者社交软件留言的情感分类研究中，基于深度学习的文本分类方法比传统的浅层机器学习模型具备更好的分类性能。

传统文本分类算法存在的特征维度过高、数据稀疏以及深度学习模型训练时间长的问题。SVM算法在进行多类与多标签的文本分类任务时，需要训练多个分类器，导致时间成本与计算开销大大增高。同时词袋模型带来了特征维数高、数据稀疏以及文本分类精度低等问题。卷积神经网络的优点是具有良好的提取有用特征的能力。但是卷积神经网络可以提取文本的短语级特征，但是不能很好地捕获文本的结构信息；同时卷积神经网络优势在于可以应用更深更广的卷积层来提取更丰富的语义特征，带来了昂贵的计算成本，并且在量级差异较大的数据集中不具备普适性；而注意力机制能够学习到不同词或短语对文本整体语义的分布。GoogLeNet网络的核心模块Inception，既能够保持网络结构的稀疏性，并且充分利用密集矩阵的高效计算，但也存在计算量比较大的问题。

发明内容

为了提高学科评估中生物医学文本的学科分类效率与质量，减少CNN的网络复杂性，防止过拟合，更好的提取文本的短语特征及上下文特征，本发明提出一种基于科研文本的生物医学学科分类方法及装置，所述方法具体包括以下步骤：

S1、获取文本数据，对文本数据进行分词、去除停用词处理后，进行缩写词的扩展、大小写转换、词形还原操作；

S2、利用Word2vec模型中的Skip-gram模型对预处理后的词进行训练，得到每个词对应的词向量；

S3、构建改进的Inception网络，并利用该网络对词向量进行特征提取；

S4、将从训练数据中提取的特征输入支持向量机模型中，通过预测类标与训练数据的标准类标进行比较，通过反向传播更新支持向量机模型；

S5、将待预测的文本数据输入改进的Inception网络提取特征，并将提取的特征输入经过训练的支持向量机模型，得到该待预测文本数据的类标。

进一步的，改进的Inception网络包括四个分支，第一个分支包括卷积核为1*1的卷积层；第二分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层；第三分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层；第四分支依次包括采用多头注意力池化以及卷积核为1*1的卷积层；四个分支得到的特征图通过FilterConcatenation层将相同尺寸的图按深度链接起来。

进一步的，深度可分离空洞卷积包括深度空洞卷积和逐点卷积，深度空洞卷积每一个通道只被一个卷积核卷积，卷积核的尺寸为3*3，空洞率为r；逐点卷积为卷积核大小为1*1的卷积运算。

进一步的，多头注意力池化为利用多头注意力机制对输入的词向量进行特征提取具体包括和以下步骤：

对输入的词向量表示进行多次不同映射，第i头对于新文本表示的映射表示为：

对于每一头的映射输出，进行一次注意力池化，第i头得到的注意力权重：

随后将每个表示的特征值与其权重进行加权求和：

使用tanh函数激活，得到每一头的输出：

将每一头的输出结果进行拼接后再进行融合，表示为：

y⁽⁶⁾＝tanh(W⁽⁶⁾y⁽⁵⁾+b⁽⁶⁾)；

其中，W_i ⁽²⁾表示第i头的权重矩阵，

表示第i头的偏置系数；X表示样本词向量；u_i表示第i头中随机初始化的参数向量；

表示拼接操作；y⁽⁵⁾表示对H个注意力池化输出进行拼接的结果，y⁽⁶⁾表示融合的结果；W⁽⁶⁾表示权重矩阵，b_i ⁽⁶⁾表示偏置系数。

进一步的，支持向量机模型在反向传播过程中的损失函数为改进的聚焦均分损失函数，表示为：

其中，α为平衡因子，y_i是标签数据，y_i'是预测数据，δ是极小值，γ是聚焦权重，n为样本数量。

本发明还提出一种基于科研文本的生物医学学科分类装置，包括数据采集模块、数据预处理模块、词向量获取模块、特征提取模块以及分类模块，其中：

数据采集模块包括历史数据获取以及待预测数据获取，历史数据用于对分类模块进行网络更新；

数据预处理模块，用于对获取的数据文本中的词，该模块包括分词单元、去除停用词单元、缩写词的扩展单元、大小写转换单元、词干提取单元及词形还原单元；

词向量获取模块，用于将预处理模块得到的词进行映射，得到每个词对应的词向量；

特征提取模块，用于从得到的词向量中提取特征；

分类模块，用于将词向量的特征输入利用历史数据进行训练的支持向量机模型得到分类结果。

本发明为了提高生物医学文本的学科分类的分类性能，采用了能够保持网络结构的稀疏性，并且充分利用密集矩阵的高效计算的Inception进行改进，采用深度可分离卷积代替传统卷积，减少计算成本的同时可很好的提取文本的短语特征和上下文特征；采用空洞卷积与可分离卷积结合，获得更大感受野的局部信息，提高网络对局部信息的感知能力；利用小卷积核堆叠代替大卷积核，在感受野不减小的情况下减少参数的计算；采用多头注意力池化，考虑了每个新的词表示所包含的信息对分类的贡献，提取到了更多有助于分类的重要特征，多头注意力池化在不同的特征表示子空间中进行多次注意力池化，更加充分地提取了文本重要特征，同时利用矩阵并行计算，多个注意力头之间也可以并行计算，耗费时间较少；模型采用聚焦损失函数作为训练过程中的损失函数，缓解训练过程中样本数量和难易程度不均衡带来的问题，提高综合检测率；模型采用聚焦均方损失函数作为训练过程中的损失函数，缓解训练过程中样本数量和难易程度不均衡带来的问题，提高综合检测率。总的来说，改进后的医学文本分类模型相比于传统其他分类模型减少了计算资源的消耗，减少CNN的网络复杂性，防止过拟合，考虑了局部和全局信息，更好的提取文本的短语特征及上下文特征，而注意力机制能够学习到不同词或短语对文本整体语义的分布，更好的提高模型的分类准确性。

附图说明

图1为本发明一种基于科研文本的生物医学学科分类方法流程图；

图2为本发明一种基于科研文本的生物医学学科分类方法中改进的Inception网络结构示意图；

图3为本发明一种基于科研文本的生物医学学科分类方法中深度可分离空洞卷结构示意图；

图4为本发明一种基于科研文本的生物医学学科分类方法中多头注意力池化结构示意图；

图5为本发明一种基于科研文本的生物医学学科分类装置结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

本发明提出一种基于科研文本的生物医学学科分类方法，如图1，具体包括以下步骤：

在本实施例中，对分词进行词还原操作是指把一个任何形式的语言词汇还原为一般形式，获得具有实际意义的词的原形。具体实施过程中，采用NLTK库中词形还原工具与WordNet词典结合，对词典中的查询进行词缀删除及转换，获得有效的原形。

在本实施例中改进的Inception网络，如图2，包括四个分支，第一个分支包括卷积核为1*1的卷积层；第二分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层；第三分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层；第四分支依次包括采用多头注意力池化以及卷积核为1*1的卷积层；四个分支得到的特征图通过Filter Concatenation层将相同尺寸的图按深度链接起来。

进一步的，如图3，深度可分离空洞卷积包括深度空洞卷积和逐点卷积，深度空洞卷积每一个通道只被一个卷积核卷积，卷积核的尺寸为3*3，空洞率为r；逐点卷积为卷积核大小为1*1的卷积运算。

作为一种可选的实施方式，本实施例中改进的Inception网络中，第二分支中的深度可分离卷积层选择空洞率r＝1，则第二分支的3*3空洞卷积核的感受野同3*3的卷积核感受野相同；第三分支中第一个深度可分离卷积层选择空洞率r＝1，第二个深度可分离卷积层选择空洞率r＝2。当空洞率r＝2时，3*3空洞卷积核的感受野同5*5尺寸的卷积核感受野相同，使用不同空洞率的空洞卷积串联或者并行操作来分割不同尺度的目标，可以捕获不同尺度的语义信息。

在本实施例中，多头注意力池化为利用多头注意力机制对输入的词向量进行特征提取，如图4，具体包括和以下步骤：

随后将每个表示的特征值与其权重进行加权求和：

使用tanh函数激活，得到每一头的输出：

将每一头的输出结果进行拼接后再进行融合，表示为：

y⁽⁶⁾＝tanh(W⁽⁶⁾y⁽⁵⁾+b⁽⁶⁾)；

其中，W_i ⁽²⁾表示第i头的权重矩阵，

表示拼接操作；y⁽⁵⁾表示对H个注意力池化输出进行拼接的结果，y⁽⁶⁾表示融合的结果；W⁽⁶⁾表示权重矩阵，b⁽⁶⁾表示偏置系数。

在本实施例中，支持向量机模型在反向传播过程中的损失函数为改进的聚焦均分损失函数，表示为：

本实施例改进的聚焦均分损失函数在均方损失函数的基础上增加前置权重和平衡因子，缓解训练过程中样本数量和难易程度不均衡带来的问题，提高综合检测率；优选的，当训练正常区域样本数量较多时，设置平衡因子为0.5。

本实施例还提出一种基于科研文本的生物医学学科分类装置，如图5，包括数据采集模块、数据预处理模块、词向量获取模块、特征提取模块以及分类模块，其中：

特征提取模块，用于从得到的词向量中提取特征；

特征提取模块，即改进的Inception网络，包括四个分支，第一个分支包括卷积核为1*1的卷积层；第二分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层；第三分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层；第四分支依次包括采用多头注意力池化以及卷积核为1*1的卷积层；四个分支得到的特征图通过Filter Concatenation层将相同尺寸的图按深度链接起来。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于科研文本的生物医学学科分类方法，其特征在于，具体包括以下步骤：

2.根据权利要求1所述的一种基于科研文本的生物医学学科分类方法，其特征在于，改进的Inception网络包括四个分支，第一个分支包括卷积核为1*1的卷积层；第二分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层；第三分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层；第四分支依次包括采用多头注意力池化以及卷积核为1*1的卷积层；四个分支得到的特征图通过Filter Concatenation层将相同尺寸的图按深度链接起来。

3.根据权利要求2所述的一种基于科研文本的生物医学学科分类方法，其特征在于，深度可分离空洞卷积包括深度空洞卷积和逐点卷积，深度空洞卷积的卷积核的尺寸为3*3，空洞率为r；逐点卷积为卷积核大小为1*1的卷积运算。

4.根据权利要求2所述的一种基于科研文本的生物医学学科分类方法，其特征在于，多头注意力池化为利用多头注意力机制对输入的词向量进行特征提取具体包括和以下步骤：

对输入的词向量表示进行多次不同映射，第i头对于文本表示的映射表示为：

随后将每个表示的特征值与其权重进行加权求和：

使用tanh函数激活，得到每一头的输出：

将每一头的输出结果进行拼接后再进行融合，表示为：

其中，W_i ⁽²⁾表示第i头的权重矩阵，

表示第i头的偏置系数；X表示样本词向量；u_i表示第i头中随机初始化的参数向量；⊕表示拼接操作；y⁽⁵⁾表示对H个注意力池化输出进行拼接的结果，y⁽⁶⁾表示融合的结果；W⁽⁶⁾表示权重矩阵，

表示偏置系数。

5.根据权利要求1所述的一种基于科研文本的生物医学学科分类方法，其特征在于，支持向量机模型在反向传播过程中的损失函数为改进的聚焦均分损失函数，表示为：

6.一种基于科研文本的生物医学学科分类装置，其特征在于，包括数据采集模块、数据预处理模块、词向量获取模块、特征提取模块以及分类模块，其中：

特征提取模块，用于从得到的词向量中提取特征；

7.根据权利要求1所述的一种基于科研文本的生物医学学科分类装置，其特征在于，特征提取模块为改进的Inception网络，改进的Inception网络包括四个分支，第一个分支包括卷积核为1*1的卷积层；第二分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层；第三分支依次包括卷积核为1*1的卷积层、卷积核为3*3的深度可分离卷积层、卷积核为3*3的深度可分离卷积层以及卷积核为1*1的卷积层；第四分支依次包括采用多头注意力池化以及卷积核为1*1的卷积层；四个分支得到的特征图通过Filter Concatenation层将相同尺寸的图按深度链接起来。

8.根据权利要求7所述的一种基于科研文本的生物医学学科分类方法，其特征在于，深度可分空洞卷积深度可分离空洞卷积包括深度空洞卷积和逐点卷积，深度空洞卷积每一个通道只被一个卷积核卷积，卷积核的尺寸为3*3，空洞率为r；逐点卷积为卷积核大小为1*1的卷积运算。

9.根据权利要求7所述的一种基于科研文本的生物医学学科分类方法，其特征在于，多头注意力池化为利用多头注意力机制对输入的词向量进行特征提取包括以下步骤：

随后将每个表示的特征值与其权重进行加权求和：

使用tanh函数激活，得到每一头的输出：

将每一头的输出结果进行拼接后再进行融合，表示为：

其中，W_i ⁽²⁾表示第i头的权重矩阵，

表示第i头的偏置系数；X表示样本词向量；u_i表示第i头中随机初始化的参数向量；⊕表示拼接操作；y⁽⁵⁾表示对H个注意力池化输出进行拼接的结果，y⁽⁶⁾表示融合的结果；W⁽⁶⁾表示权重系数，b⁽⁶⁾表示偏置系数。

10.根据权利要求1所述的一种基于科研文本的生物医学学科分类装置，其特征在于，分类模块利用历史数据进行训练支持向量机模型时，通过反向传播更新支持向量机模型的过程中，损失函数表示为：

其中，α为平衡因子，y是标签数据，y'是预测数据，δ是极小值，γ是聚焦权重，n为样本数量。