CN115114437A

CN115114437A - 基于bert和双分支网络的胃镜文本分类系统

Info

Publication number: CN115114437A
Application number: CN202210736345.8A
Authority: CN
Inventors: 郑向伟; 王智超; 张明哲; 穆怡君; 张劲松
Original assignee: Shandong Normal University
Current assignee: Shandong Normal University
Priority date: 2022-06-27
Filing date: 2022-06-27
Publication date: 2022-09-27

Abstract

本发明属于自然语言处理领域，提供一种基于BERT和双分支网络的胃镜文本分类系统，获取待分类的胃镜文本数据；从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本；对镜下所见文本和病理诊断文本分别进行切分，获得由若干文本单元组成的集合，即文本单元集合；在所述文本单元集合内的每个文本单元前插入[CLS]标记，每个文本单元后插入[SEP]标记，并将它们重新组合成一段连续的文本；使用预训练好的BERT模型提取每个[CLS]字符对应的文本特征向量，得到文本单元的特征向量集合；基于文本单元的特征向量集合，利用预先训练好的MLP双分支分类网络中进行文本分类。采用先对文本进行切分再进行分类的方法实现对胃镜文本分类，保留胃镜文本中胃的部位信息。

Description

基于BERT和双分支网络的胃镜文本分类系统

技术领域

本发明属于自然语言处理技术领域，具体涉及一种基于BERT和双分支网络的胃镜文本分类系统。

背景技术

本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。

我国是胃癌的高发国家，胃癌的发病率和死亡率分别位居恶性肿瘤的第二位和第三位。由于胃癌早期无明显症状，偶尔出现的上腹不适、嗳气等非特异性症状，这与胃炎、胃溃疡等胃部慢性疾病极其相似，使得早期胃癌易被患者和医生忽略，进而导致胃癌的早期诊断率较低。

胃镜文本是医生对患者进行胃镜诊断后给出的胃镜文本报告，医生在撰写胃镜文本时常常遵照相对固定的格式，规范的胃镜文本需要包括病变位置、形态、大小、颜色、表面状态、边界等要素。胃镜文本通常包含两类文本：镜下所见文本和病理诊断文本。

胃镜文本中含有的丰富信息可用于胃癌发病规律的研究，特别是早期胃癌。基于现有的胃镜诊断文本，提取胃癌相关信息，可以统计胃癌不同年龄、性别人群的易发病位置、病变表现，总结相关规律。医生知晓这些规律后便可以对疑似早期胃癌的病灶做出更准确的诊断，以提高早期胃癌的诊断率。尽管胃镜文本包含病变相关的各类要素，但对各个要素而言，其具体描述缺乏统一规范，文本内容往往具有个体差异性，这种差异性使得很难使用正则表达式等基于规则的方法提取相关信息。

近年来，基于深度学习的自然语言处理技术蓬勃发展，尤其是2019年Google创新性地采用12层或24层Transformer的编码层累加，形成了一个自编码语言模型BERT(Bidirectional Encoder Representation from Transformers)。BERT融合Transformer的自注意力机制，能够较好的提取句子级别的特征，但是尚未见到将BERT用于胃镜文本处理的研究和应用。

现有技术中存在以下问题：

用于医学领域的非深度自然语言处理模型通常结构比较简单，存在准确率不高、泛化能力差的劣势，如多层感知机(MLP)、支持向量机(SVM)等。

用于医学领域的深度自然语言处理模型难以基于胃镜文本提取患者的癌症发病部位和病情分级的需求转换为一个传统的文本分类任务。例如，基于BERT的文本分类算法只能实现标签之间没有关联的多分类任务。

发明内容

为了解决上述问题，本发明提出了一种基于BERT和双分支网络的胃镜文本分类系统，本发明将胃镜文本通过规则切分成文本单元，然后基于预训练并微调后的BERT对胃镜文本单元进行特征提取，最后，融合双分支MLP分类网络，实现基于胃镜文本中的患者癌症分期以及提取病变部位的需求。

根据一些实施例，本发明的第一方案提供了一种基于BERT和双分支网络的胃镜文本分类系统，采用如下技术方案：

基于BERT和双分支网络的胃镜文本分类系统，包括：

文本数据采集模块，被配置为获取待分类的胃镜文本数据；

文本数据切分模块，被配置为从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本；

文本单元切分模块，被配置为对镜下所见文本和病理诊断文本分别进行切分，获得由若干文本单元组成的集合，即文本单元集合；

文本单元拼接模块，被配置为在所述文本单元集合内的每个文本单元前插入[CLS]标记，每个文本单元后插入[SEP]标记，并将它们重新组合成一段连续的文本；

文本特征提取模块，被配置为使用预训练好的BERT模型提取每个[CLS]字符对应的文本特征向量，得到文本单元的特征向量集合；

文本单元分类模块，被配置为基于文本单元的特征向量集合，利用预先训练好的MLP双分支分类网络中进行文本分类。

进一步地，所述获取待分类的胃镜文本数据，具体为：

逐条获取胃镜文本数据，以列表形式存储为原始数据集；

对原始数据集中的原始待处理的每条数据执行去除特殊字符、首尾空格操作，并将英文标点符号转换为中文标点符号，得到待分类的胃镜文本数据。

进一步地，所述从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本，包括：

基于待分类的胃镜文本数据，查找胃镜文本的切分点；

基于胃镜文本的切分点，将待分类的胃镜文本数据进行切分；

得到镜下所见文本和病理诊断文本。

进一步地，所述查找胃镜文本的切分点，具体为：

对待分类的胃镜文本数据T进行切分，T由字符序列T_i组成，其中i＝1,2,…,n，n为T的中所包含的字符个数；

置状态符S＝0，由T₁开始迭代检索；

若T_i为换行符，则置状态符S＝1，否则置状态符S＝0并跳出本轮迭代；

查看T_i+1是否为换行符，若T_i+1为换行符，则置状态符S＝2，否则置状态符S＝0并跳出本轮迭代；

查看T_i+2是否为换行符，若T_i+2为换行符，则标记T_i的位置L，否则置状态符S＝0，本轮迭代完成；

所获取的三个换行符为胃镜文本的切分点。

进一步地，所述对镜下所见文本和病理诊断文本分别进行切分，获得由若干文本单元组成的集合，即文本单元集合，包括：

以句号为切分点分别将镜下所见文本与病理诊断文本进行切分，获得语句集S，S由S_k构成其中k＝1,2,…,m，m为镜下所见文本和病理诊断文本中的句子数量之和；

对S_k进行检索，若句子中有胃角、胃底的胃内部位关键字，将S_k的标记F_k置为1，否则置为0；

遍历所有F_k为0的句子S，将S_k拼接在S_t的末尾组成新的文本，其中t为[1,k-1]范围中且符合F_t＝1最大的值；

此时每一条F_k＝1的文本S_k均为一个文本单元，若此文本单元来自镜下所见文本，则这个文本单元为镜下所见文本单元，否则为病理诊断文本单元；

将得到所有的镜下所见文本单元和病理诊断文本单元构成文本单元集合。

进一步地，所述MLP双分支分类网络包括共用输入层、镜下所见文本处理隐藏层、病理诊断文本处理隐藏层、镜下所见文本处理输出层以及病理诊断文本处理输出层；

所述共用输入层的作用是接收输入文本单元的特征向量集合，所述文本单元的特征向量集合包括镜下所见特征向量集合和病理诊断特征向量集合；

镜下所见文本处理隐藏层的作用是对镜下所见特征向量进行维度变换，得到镜下所见降维特征向量；

病理诊断文本处理隐藏层的作用是对病理诊断特征向量进行维度变换，得到病理诊断降维特征向量；

镜下所见文本处理输出层的作用是对镜下所见降维特征向量进行归一化，判断并输出分类结果；

病理诊断文本处理输出层的作用是对病理诊断降维特征向量进行归一化，判断并输出分类结果。

进一步地，MLP双分支分类网络的损失函数定义如下：

Loss＝cross_entropy(p,l)

其中，p为网络输出的预测标签值，l为标注文本的真实标签值。

进一步地，该系统还包括逻辑判断模块，被配置为根据分类结果，确定最终分分类结果，具体为：

检查分类结果中病理诊断文本和镜下所见文本中癌症病变所涉及的部位字段；

若镜下所见涉及部位包含病理诊断的涉及部位，则认定为同一病变部位的报告；

检查同一部位的镜下所见癌症分期报告和病理诊断癌症分期报告，若有任一报告为进展期癌症，这认定此部位为进展期癌症，否则认定为早期癌症。

根据一些实施例，本发明的第二方案提供了一种计算机可读存储介质。

一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如下步骤：

获取待分类的胃镜文本数据；

从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本；

对镜下所见文本和病理诊断文本分别进行切分，获得由若干文本单元组成的集合，即文本单元集合；

在所述文本单元集合内的每个文本单元前插入[CLS]标记，每个文本单元后插入[SEP]标记，并将它们重新组合成一段连续的文本；

使用预训练好的BERT模型提取每个[CLS]字符对应的文本特征向量，得到文本单元的特征向量集合；

基于文本单元的特征向量集合，利用预先训练好的MLP双分支分类网络中进行文本分类。

根据一些实施例，本发明的第三方案提供了一种计算机设备。

一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如下步骤：

获取待分类的胃镜文本数据；

与现有技术相比，本发明的有益效果为：

1、本发明采用先对文本进行切分，再进行分类实现对胃镜文本的分类，与传统的文本分类系统相比，保留了胃镜文本中胃的部位信息。

2、本发明采用预训练并微调的BERT模型提取文本单元的特征，由于BERT的Transformer编码层具有自注意力机制，与MLP、word2vec相比，能更好的提取文本的语义特征信息，进而提高了胃镜文本分类的准确率。

3、本发明采用双分支的MLP分类网络实现文本单元的分类，对镜下所见文本单元向量与病理诊断文本单元向量分别使用相应分支网络的进行处理。由于不同分支的网络权重参数不同，每一个分支单独处理一类文本单元向量，不同分支的网络学习不同类型的文本特征，这保证了文本单元分类的准确性。

附图说明

构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。

图1是本发明实施例所述的基于BERT和双分支网络的胃镜文本分类系统的工作流程图；

图2是本发明实施例所述的双分支分类网络的网络结构示意图。

具体实施方式

下面结合附图与实施例对本发明作进一步说明。

应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。

需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。

在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

实施例一

如图1所示，本实施例提供了基于BERT和双分支网络的胃镜文本分类系统，包括：

文本数据采集模块，被配置为获取待分类的胃镜文本数据；

具体地，本实施例所述系统的工作流程，具体为：

步骤A、获取待分类的胃镜文本数据；

步骤B、从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本；

步骤C、使用基于规则的方法对镜下所见文本和病理诊断文本分别进行再次切分，获得由若干文本单元组成的集合，文本单元是对胃内某个部位的描述。

步骤D、使用预训练并微调完毕的BERT模型提取文本单元的特征，使其存储为768维的特征向量。

步骤E、将特征向量依次传入训练好的MLP双分支分类网络中进行文本分类。

步骤F、将分类结果传入逻辑判断模块，得到最终的胃镜文本分类结果。

上述技术方案中，所述内容C具体包括：

步骤C1、利用待分类文本的三个连续的换行符作为分隔符，对镜下所见文本和病理诊断文本进行切分。

步骤C2、以文本中句号和换行符为切分点，利用镜下所见文本和病理诊断文本中的胃内部位关键字，使用切分后重组的方法将胃镜文本切分为文本单元。

上述技术方案中，所述内容E具体包括：

E1、每个MLP分支网络中均包含输入层、256维的隐藏层和输出层。

E2、采用交叉熵函数定义损失函数，对MLP模型进行训练。

对本实施例公开的基于双分支分类网络的胃镜文本分类系统进行详细说明：首先根据文本的标点符号和关键字对文本进行分割，与传统的文本分类系统相比，保留了胃镜文本中的胃内部位信息；采用预训练后微调的BERT模型提取文本单元的特征，与MLP、word2vec相比，由于BERT的Transformer编码层具有自注意力机制，能更好的提取文本的语义特征信息；采用双分支的MLP分类网络对文本单元进行分类，镜下所见文本单元向量与病理诊断文本单元向量使用不同分支的网络处理；使用逻辑判断单元处理分类网络的输出结果。

如图1所示，如图1所示，本实施例所述系统的工作流程，具体包括以下步骤：

S1：获取待分类的文本数据，对文本数据进行预处理与格式化，获得规范的文本数据。

在具体实施时，对文本数据的预处理与格式化的具体过程为：

逐条读入文本数据，以列表形式存储为原始数据集O；

对原始数据集O中的原始待处理的每条数据O_i执行去除特殊字符、首尾空格操作，并将英文标点符号转换为中文标点符号，得到处理完毕的数据O_i′。

S2：从预处理完毕的文本数据中分离镜下所见文本和病理诊断文本。

在具体实施时，每个预处理完毕的文本数据中均包含镜下所见文本和病理诊断文本，两种文本中间使用三个换行符分隔。以三个连续的换行符为切分点对待分类胃镜文本进行切分，具体为：

读取胃镜文本T，查找文本T的切分点L；

将文本T从L处切分为文本T_a与T_b，其中T_a为镜下所见文本T_b为病理诊断文本；

文本切分点L的查找方式如下：

对待分类文本T进行切分，T由字符序列T_i组成，其中i＝1,2,…,n，n为T中所包含的字符个数。

置状态符S＝0，由T₁开始迭代检索。若T_i为换行符，则置状态符S＝1，否则置状态符S＝0并跳出本轮迭代；查看T_i+1是否为换行符，若T_i+1为换行符，则置状态符S＝2，否则置状态符S＝0并跳出本轮迭代；查看T_i+2是否为换行符，若T_i+2为换行符，则标记T_i的位置L，否则置状态符S＝0，本轮迭代完成。

S3：将镜下所见文本和病理诊断文本再次切分为若干文本单元。

在具体实施时，由于镜下所见文本和病理诊断中没有明确的分隔标志，本实施例采用先切分再拼接的方式，得到所有的文本单元。具体为：

以句号或换行符为切分点分别将镜下所见文本与病理诊断文本进行切分，获得语句集S，S由S_k构成其中k＝1,2,…,m，m为镜下所见文本和病理诊断文本中的句子数量之和；

对S_k进行检索，若句子中有胃角、胃底等胃内部位关键字，将S_k的标记F_k置为1，否则置为0；

遍历所有F_k为0的句子S，将S_k拼接在S_t的末尾组成新的文本，其中t为[1,k-1]范围中且符合F_t＝1最大的值。

此时每一条F_k＝1的文本S_k均为一个文本单元，若此文本单元来自镜下所见文本，则这个文本单元为镜下所见文本单元，否则为病理诊断文本单元。

S4：使用预训练并微调后的BERT进行文本单元的特征提取。

在具体实施时，文本单元将被连接为一个整体输入预训练并微调后的BERT模型进行特征提取。BERT模型的预训练权重参数为Google公司训练的12层，768维，预训练参数从中文的BERT模型权重文件中提取；微调训练使用齐鲁医院提供的2500条胃镜文本数据集进行训练。BERT模型的文本最大长度设定为512；

将文本单元首部添加[CLS]字符，尾部添加[SEP]字符，传入预训练并微调后BERT模型，得到512个文本特征向量，取所有[CLS]字符对应的文本特征向量，得到文本单元的特征向量集合。

S5：将文本单元特征向量传入双分支分类网络进行分类。

在具体实施时，由一条胃镜文本拆分、特征提取得到的文本单元特征向量集合V由镜下所见特征向量集合V_j和病理诊断特征向量集合V_b组成。将特征向量集合V传入双分支分类网络，双分支分类网络的网络结构如图2所示，该网络设计了1个共用的输入层、1个处理镜下所见文本的隐藏层、1个处理病理诊断文本的隐藏层、1个处理镜下所见文本的输出层和1个处理病理诊断文本的输出层。输入层的作用是接受输入特征集合；隐藏层的作用是对输入向量进行维度变换，使之符合分类输出结果的要求；输出层的作用是对隐藏层输入的向量进行归一化，判断并输出分类结果。

对双分支分类网络模型各层功能进行设计：

(1)输入层(L1)：接受输入的特征向量，并将输入的特征向量分别送入两个隐藏层。

(2)隐藏层(L2)：该层用于对镜下所见文本单元的特征向量做降维处理。

设O_e,l是第本层第e个特征向量中第l个神经元的输出，则X_e,b是输入层第e个特征向量中第b个神经元的输出，二者关系如下所示：

其中，σ(·)是激活函数。

(3)隐藏层(L3)：该层用于对病理诊断文本单元的特征向量做降维处理。

设O_c,z是第本层第c个特征向量中第z个神经元的输出，则X_c,v是输入层第c个特征向量中第v个神经元的输出，二者关系如下所示。

其中，σ(·)是激活函数。

(4)输出层(L4)：该层用于对隐藏层输入的镜下所见文本单元的特征向量进行归一化，判断并输出分类结果。

本层的所有神经元均与L2的神经元进行全连接。

(5)输出层(L5)：该层用于对隐藏层输入的病理诊断文本单元特征向量向量进行归一化、判断并输出分类结果。

本层的所有神经元均与L3的神经元进行全连接。

本实施例构建的双分支分类网络的损失函数定义如下：

Loss＝cross_entropy(p,l)

S6：将分类结果传入逻辑判断模块，得到最终的分类结果。

在具体实施时，逻辑判断模块获得的分支分类网络输出如下：

{“镜下所见”:[“早期癌症”,”胃底”,”胃体”],“病理诊断”:[“进展期癌症”,”胃底”]}

本实施例模拟医生在看到镜下所见文本和病理诊断文本时的判断逻辑，构建逻辑判断模块，具体判断逻辑如下：

癌症分期判断：检查病理诊断和镜下所见中癌症病变所涉及得的部位字段，若镜下所见涉及部位包含病理诊断的涉及部位，则认定为同一病变部位的报告。检查同一部位的镜下所见癌症分期报告和病理诊断癌症分期报告，若有任一报告为进展期癌症，这认定此部位为进展期癌症，否则认定为早期癌症。

实施例二

本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如下步骤：

获取待分类的胃镜文本数据；

实施例三

本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如下步骤：

获取待分类的胃镜文本数据；

本发明是参照根据本发明实施例设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

上述虽然结合附图对本发明的具体实施方式进行了描述，但并非对本发明保护范围的限制，所属领域技术人员应该明白，在本发明的技术方案的基础上，本领域技术人员不需要付出创造性劳动即可做出的各种修改或变形仍在本发明的保护范围以内。

Claims

1.基于BERT和双分支网络的胃镜文本分类系统，其特征在于，包括：

文本数据采集模块，被配置为获取待分类的胃镜文本数据；

2.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统，其特征在于，所述获取待分类的胃镜文本数据，具体为：

逐条获取胃镜文本数据，以列表形式存储为原始数据集；

3.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统，其特征在于，所述从待分类的胃镜文本数据中分离镜下所见文本和病理诊断文本，包括：

基于待分类的胃镜文本数据，查找胃镜文本的切分点；

得到镜下所见文本和病理诊断文本。

4.如权利要求3所述的基于BERT和双分支网络的胃镜文本分类系统，其特征在于，所述查找胃镜文本的切分点，具体为：

置状态符S＝0，由T₁开始迭代检索；

所获取的三个换行符为胃镜文本的切分点。

5.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统，其特征在于，所述对镜下所见文本和病理诊断文本分别进行切分，获得由若干文本单元组成的集合，即文本单元集合，包括：

6.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统，其特征在于，所述MLP双分支分类网络包括共用输入层、镜下所见文本处理隐藏层、病理诊断文本处理隐藏层、镜下所见文本处理输出层以及病理诊断文本处理输出层；

7.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统，其特征在于，MLP双分支分类网络的损失函数定义如下：

Loss＝cross_entropy(p,l)

8.如权利要求1所述的基于BERT和双分支网络的胃镜文本分类系统，其特征在于，还包括逻辑判断模块，被配置为根据分类结果，确定最终分分类结果，具体为：

检查分类结果中病理诊断和镜下所见中癌症病变所涉及的部位字段；

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如下步骤：

获取待分类的胃镜文本数据；

10.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如下步骤：

获取待分类的胃镜文本数据；