CN115658886A

CN115658886A - 基于语义文本的智能肝癌分期方法、系统及介质

Info

Publication number: CN115658886A
Application number: CN202211141634.XA
Authority: CN
Inventors: 李亚; 郑学聪; 戴青云; 李家平
Original assignee: Guangdong Polytechnic Normal University
Current assignee: Guangdong Polytechnic Normal University
Priority date: 2022-09-20
Filing date: 2022-09-20
Publication date: 2023-01-31

Abstract

本发明涉及一种基于语义文本的智能肝癌分期方法、系统及介质，属于医疗技术领域，本发明通过获取样本数据，并截取样本数据中描写肝部位的文本片段作为训练数据；通过对训练数据进行预处理，得到数据集，并按照预设比例将数据集分为训练集以及测试集；获取训练集中的肝癌文本数据，并对肝癌文本数据进行特征处理以获取文本特征向量，将文本特征向量输入至BERT模型中，得到高维词向量；构建分类模型，并将高维词向量输入到分类模型中，得到训练完成的分类模型，并通过测试集对分类模型进行测试，得到分类结果。本发明通过提取文本中不同层次的语义信息实现肝癌分期，并且将肝癌分期结果更加细化，为医生提供更精确的分期结果。

Description

基于语义文本的智能肝癌分期方法、系统及介质

技术领域

本发明涉及医疗技术领域，尤其涉及基于语义文本的智能肝癌分期方法、系统及介质。

背景技术

肝癌是一种恶性肿瘤，是高发的，危害极大的恶性肿瘤。因此，如何有效的提高肝癌的的诊疗水平是医学界研究的重要方向之一。

肝癌分期可以用于评定癌症发展和扩散的程度，是癌症诊断和治疗的重要环节。CNLC分期系统从大小、数目等多个维度将肝癌分为Ia、Ib、IIa、IIb、IIIa、IIIb期以及IV期。

随着信息化时代的来临，大量的数据以电子的形式被记录，而电子病历就是医院信息化建设的重要环节。电子病历存储着大量使用率低、完备详细的病患信息，医生们通过电子病历上的记录对患者有具体的了解并制定后续的诊疗方案。以肝癌分期为例，医生通过查阅病人的病理报告和影像学报告来评估病人的肝癌分期情况。由于肝癌分期需要对照多个指标遵循CNLC的分期标准，这是非常耗时且容易出错的。综上所述，利用深度学习模型对肝癌文本进行特征学习，从而实现肝癌的精准分期，这将会在很大程度上降低临床医生的工作量，并为其在肝癌分期评估中提供辅助诊断，帮助医生更加快速、准确的做出诊断和决策。目前的肝癌分期的模型都是基于图像为主，对电子病历的利用率较低，并且对于数据预处理过程要求较高。除此之外，现有的模型只能分为早期、中期、晚期，对分期结果还不够具体。

发明内容

本发明克服了现有技术的不足，提供了一种基于语义文本的智能肝癌分期方法、系统及介质。

为达上述目的，本发明采用的技术方案为：

本发明第一方面提供了一种基于语义文本的智能肝癌分期方法，包括以下步骤：

获取样本数据，并截取所述样本数据中描写肝部位的文本片段作为训练数据；

通过对所述训练数据进行预处理，得到数据集，并按照预设比例将所述数据集分为训练集以及测试集；

获取所述训练集中的肝癌文本数据，并对所述肝癌文本数据进行特征处理以获取文本特征向量，将所述文本特征向量输入至BERT 模型中，得到高维词向量；

构建分类模型，并将所述高维词向量输入到所述分类模型中，得到训练完成的分类模型，并通过测试集对所述分类模型进行测试，得到分类结果。

优选地，本发明的一个较佳实施例中，通过对所述训练数据进行预处理，得到数据集，并按照预设比例将所述数据集分为训练集以及测试集，具体包括以下步骤：

通过大数据网络获取CNLC分期标准，并通过所述CNLC分期标准对当前训练数据进行分期，将不存在分期结果的训练数据进行剔除，得到肝癌分期数据信息；

基于所述肝癌分期数据信息生成对应的类别标签，构建肝癌分期结果数据表，并将所述类别标签输入到所述肝癌分期数据表中；

将所述肝癌分期数据表中的数据进行随机打乱，并将所述肝癌分期数据表中的数据作为数据集；

按照预设比例将所述数据集分为训练集以及测试集。

优选地，本发明的一个较佳实施例中，获取所述训练集中的肝癌文本数据，并对所述肝癌文本数据进行特征处理以获取文本特征向量，将所述文本特征向量输入至BERT模型中，得到高维词向量，具体为：

获取所述训练集中的肝癌文本数据，并通过对所述肝癌文本数据进行分词处理，以得到文本特征向量；

构建BERT 模型，并将所述文本特征向量输入至所述BERT模型的嵌入层中进行嵌入操作，得到操作结果；

将所述操作结果输入到Encoder层中，进行自注意力处理以及前馈神经网络的计算，得到多个目标输出矩阵；

将所述多个目标输出矩阵拼接成词向量矩阵，并将所述词向量矩阵压缩成预设序列长度大小，以获取高维词向量。

优选地，本发明的一个较佳实施例中，构建分类模型，并将所述高维词向量输入到所述分类模型中，得到训练完成的分类模型，具体包括以下步骤：

基于神经网络构建分类模型，并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算，得到卷积特征值；

将所述卷积特征值输入到池化层中，并采用最大池化的方式，在每一个卷积核中选出最大数字作为当前所在区域的特征值；

通过在concatenate 层将所述当前所在区域的特征值进行融合，得到高维特征向量；

将所述高维特征向量经过两个全连接层实现线性变换，通过交叉熵损失函数进行参数反向传播训练，直到误差收敛至预设值，并保存模型参数，以结束分类模型的训练。

优选地，本发明的一个较佳实施例中，其中将所述高维特征向量经过两个全连接层实现线性变换，具体为：

通过sigmoid 激活函数将高维特征向量转换为预测概率，其中，转换方式如下：

其中，

为预测概率，

、

分别表示全连接层和输出层的可训练参数，

表示ReLU 激活函数，

为高维特征向量。

优选地，本发明的一个较佳实施例中，通过交叉熵损失函数进行参数反向传播训练，直到误差收敛至预设值，具体为：

通过交叉熵损失函数进行误差收敛，其计算方式如下：

其中，

为收敛后的值；N 表示训练文本数量；L 表示文本对应的标签数量；

在 [0,1]的取值范围之内，表示第 i 个样本中第 j 个类别的预测概率；

∈{0,1}表示第 i 个样本是否属于第 j 个类别；“0”表示否，“1”表示“是”。

本发明第二方面提供了基于语义文本的智能肝癌分期系统，所述系统包括存储器以及处理器，所述存储器中包括基于语义文本的智能肝癌分期方法程序，所述基于语义文本的智能肝癌分期方法程序被处理器执行时，实现如下步骤：

获取所述训练集中的肝癌文本数据，并对所述肝癌文本数据进行特征处理以获取文本特征向量，将所述文本特征向量输入至BERT模型中，得到高维词向量；

构建BERT 模型，并将所述文本特征向量输入至所述BERT 模型的嵌入层中进行嵌入操作，得到操作结果；

本发明第三方面提供了一种计算机可存储介质，所述计算机可存储介质包括基于语义文本的智能肝癌分期方法程序，所述基于语义文本的智能肝癌分期方法程序被处理器执行时，实现任一项所述的基于语义文本的智能肝癌分期方法的步骤。

本发明解决了背景技术中存在的缺陷，本发明具备以下有益效果：

针对现有技术的不足，本发明提出了一种结合BERT 模型和卷积神经网络的肝癌分期方法。由于肝癌文本存在复杂的专业术语况，其目的在于解决医疗文本中特征稀疏和一词多义的问题，通过提取文本中不同层次的语义信息实现肝癌分期，并且将肝癌分期结果更加细化，为医生提供更精确的分期结果。本发明通过利用结合 BERT 预训练模型和卷积神经网络的肝癌分期系统来对肝癌文本的处理实现特征提取和自动分类，采用深度学习技术学习医生的分期方法，有效地提高了肝癌分期系统的效率和实时性。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他实施例的附图。

图1示出了基于语义文本的智能肝癌分期方法的整体方法流程图；

图2示出了得到高维词向量的方法流程图；

图3示出了分类模型训练过程的方法流程图；

图4示出了基于语义文本的智能肝癌分期系统的系统框图；

图5为分类模型的结构示意图；

图6为多头注意力的结构示意图。

具体实施方式

为了能够更加清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述，这些附图均为简化的示意图，仅以示意方式说明本发明的基本结构，因此其仅显示与本发明有关的构成，需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

在本申请的描述中，需要理解的是，术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本申请和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本申请保护范围的限制。此外，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性或隐含指明所指示的技术特征的数量。因此，限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中，除非另有说明，“多个”的含义是两个或两个以上。

在本申请的描述中，需要说明的是，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以通过具体情况理解上述术语在本申请中的具体含义。

为了便于理解本发明，下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施方式。但是，本发明可以以许多不同的形式来实现，并不限于本文所描述的实施方式。相反地，提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。

S102:获取样本数据，并截取所述样本数据中描写肝部位的文本片段作为训练数据；

S104:通过对所述训练数据进行预处理，得到数据集，并按照预设比例将所述数据集分为训练集以及测试集；

S106:获取所述训练集中的肝癌文本数据，并对所述肝癌文本数据进行特征处理以获取文本特征向量，将所述文本特征向量输入至BERT 模型中，得到高维词向量；

S108:构建分类模型，并将所述高维词向量输入到所述分类模型中，得到训练完成的分类模型，并通过测试集对所述分类模型进行测试，得到分类结果。

按照预设比例将所述数据集分为训练集以及测试集。

需要说明的是，CNLC为中国肝癌的分期方案，其中根据CNLC的分期标准，肝癌的分期包括1a期、1b期、2a期、2b期、3a期、3b期、4期。其中，其对应的类别标签可以设置为0、1、2、3、4、5、6等。

S202:获取所述训练集中的肝癌文本数据，并通过对所述肝癌文本数据进行分词处理，以得到文本特征向量；

S204:构建BERT模型，并将所述文本特征向量输入至所述BERT模型的嵌入层中进行嵌入操作，得到操作结果；

S206:将所述操作结果输入到Encoder层中，进行自注意力处理以及前馈神经网络的计算，得到多个目标输出矩阵；

S208:将所述多个目标输出矩阵拼接成词向量矩阵，并将所述词向量矩阵压缩成预设序列长度大小，以获取高维词向量。

需要说明的是，BERT 模型是谷歌提出的一个预训练模型，它通过在大规模、无标注的语料库中进行训练，使得模型具备理解文本更深层语义信息的能力，基于 12 层双向Transformer 编码器和 12个多头注意力机制对肝癌文本进行动态字向量训练。其中，词向量维度为 512，此表大小为 30522，隐藏层神经元个数为 768，激活函数为 gelu。BERT模型主要使用的是 Transformer 中的 Encoder 部分，通过将多个 Transformer Encoder 堆叠且双向连接，生成融合词汇和上下文语义信息的动态词向量表征。Transformer 编码结构由多头注意力机制和前馈神经网络组成，每一部分由残差网络进行连接，“Add&Norm”将该网络的输入和输出进行相加并归一化，避免梯度消失。其中多头注意力机制作为最重要的一部分，网络输入层文本序列中每个词的query、key 和value 组成输入向量Q、K、V，利用多头注意力机制，其模型具体公式如下：

其中，

为第t个多头注意力机制矩阵，

，

，

分别表示Q、K、V向量的权值矩阵，

表示每个矩阵Q、K、V 向量的维度大小，h 表示表示多头个数，T表示矩阵转置，

为矩阵值，矩阵值的每一行代表输入句子中相应字的Attention向量，其中包含了句子中该词和其他位置的词的相互关系信息，是一个新的向量表示。例如“这个动物并没有走过马路是因为它太累了”以及“患者某某在一个月前为2a期肝癌患者，而此时为2b期肝癌患者”，对于机器来说很难判断本句中的它是指动物还是马路、患者某某现在是2a期肝癌患者还是2b期肝癌患者，基于自注意力机制和

值的计算，就可以得知此句中的它与动物的关联性较强、患者某某现在的肝癌情况与2b期肝癌关联性较强，从而使系统能够正确获知该句子表达的语义内容。

将多个目标输出矩阵拼接成词向量矩阵，并将所述词向量矩阵压缩成预设序列长度大小，以获取高维词向量，通过以下方式实现：

其中，

为词向量矩阵，即高维词向量；

均为多头注意力机制矩阵，h 表示表示多头个数，

为一个附加权值矩阵，

为连接函数。

需要说明的是，BERT 模型通过上述机制在句子层面计算每个字词与该句子所在字词的相互关系，并通过这种相互关系调整每个字词在句子中的权重，获得新的向量表达，从而实现文本序列的高效词向量表征。

S302:基于神经网络构建分类模型，并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算，得到卷积特征值；

S304:将所述卷积特征值输入到池化层中，并采用最大池化的方式，在每一个卷积核中选出最大数字作为当前所在区域的特征值；

S306:通过在concatenate 层将所述当前所在区域的特征值进行融合，得到高维特征向量；

S308:将所述高维特征向量经过两个全连接层实现线性变换，通过交叉熵损失函数进行参数反向传播训练，直到误差收敛至预设值，并保存模型参数，以结束分类模型的训练。

需要说明的是，输入数据经过一层由 6 个不同卷积核大小的滤波器组成的卷积层，并将最大池化应用于该层的所有滤波器，之后将数据传入两个全连接层，最后使用ReLU 函数对输出进行激活，输出该组肝癌数据的分类结果。其中，分类模型结构的每一个卷积层参数均一致，具体参数设置为：输入通道参数为 128，卷积核大小分别为 2、3、4、5、6、7，步长大小设置为1，卷积填充设置为valid padding;分类模型结构的第一个全连接层完成一次 dropout，保持向量维度不变，设置 dropout 比例为 0.1；第二个全连接层使用ReLU 激活函数，输出大小参数设置为需要识别的肝癌分期类型个数。遍历数据集的次数设置为 30，批次为 64，分类模型训练使用的优化器为Adam，其中学习率参数设置为0.00005；分类模型训练使用损失函数为交叉熵损失函数，将处理好的训练集数据输入到搭建好的分类模型中进行训练，将数据集遍历预设的次数后获取模型的最优参数。

其中训练过程如下：

对长度大小为 n 的中文文本，卷积层通过采用 h 个不同大小的卷积核进行卷积运算，在第 i 处得到的卷积特征值为：

S = f(w ∙ T_i:i+h−1 + b), w ∈ Rh×k

其中，S为卷积特征值，k 表示每个词的词向量维度，w 表示卷积核，R表示维度，维度大小为 h×k，T_i:i+h−1表示由输入矩阵的第 i 行到第 i+h-1 行组成的卷积核。b 表示偏置函数，f 表示非线性映射函数。

而池化层采用最大池化的方式，在每一个卷积核中选出最大数字作为该区域的特征值。

在 concatenate 层将池化运算后的特征进行融合，得到高维的特征向量，其中过程如下：

C = [C₁, C₂, …, C_n−h+1], C ∈ Rn−h+1

其中，n 表示文本中字的数量，C 表示经过池化操作后的高维特征向量，R表示维度，其维度大小为i+h-1。完成卷积池化操作后，在下游任务中连接全连接神经网络层从而完成肝癌文本的分期预测。

其中，

为预测概率，

、

分别表示全连接层和输出层的可训练参数，

表示ReLU 激活函数，

为高维特征向量。

通过交叉熵损失函数进行误差收敛，其计算方式如下：

其中，

通过该方式直至误差收敛得到的值为预设值时，保存模型参数，最终与softmax分类器相连，对分类模型训练完成，当测试集输入经过卷积层、池化层、全连接层后，最后通过softmax分类器对全连接层的输出结果进行分类，以得到肝癌文本数据的分类结果。

通过提取文本中不同层次的语义信息实现肝癌分期，并且将肝癌分期结果更加细化，为医生提供更精确的分期结果。本发明通过利用结合 BERT 预训练模型和卷积神经网络的肝癌分期系统来对肝癌文本的处理实现特征提取和自动分类，采用深度学习技术学习医生的分期方法，有效地提高了肝癌分期系统的效率和实时性。

本发明第二方面提供了基于语义文本的智能肝癌分期系统，所述系统包括存储器41以及处理器62，所述存储器41中包括基于语义文本的智能肝癌分期方法程序，所述基于语义文本的智能肝癌分期方法程序被处理器执行时，实现如下步骤：

需要说明的是，BERT 模型是谷歌提出的一个预训练模型，它通过在大规模、无标注的语料库中进行训练，使得模型具备理解文本更深层语义信息的能力，基于 12 层双向Transformer 编码器和 12 个多头注意力机制对肝癌文本进行动态字向量训练。其中，词向量维度为512，此表大小为 30522，隐藏层神经元个数为 768，激活函数为 gelu。BERT 模型主要使用的是 Transformer 中的 Encoder 部分，通过将多个 Transformer Encoder堆叠且双向连接，生成融合词汇和上下文语义信息的动态词向量表征。Transformer 编码结构由多头注意力机制和前馈神经网络组成，每一部分由残差网络进行连接，“Add&Norm”将该网络的输入和输出进行相加并归一化，避免梯度消失。其中多头注意力机制作为最重要的一部分，网络输入层文本序列中每个词的query、key 和value 组成输入向量Q、K、V，利用多头注意力机制，其模型具体公式如下：

其中，

为第t个多头注意力机制矩阵，

，

，

分别表示Q、K、V向量的权值矩阵，

为矩阵值，矩阵值的每一行代表输入句子中相应字的Attention向量，其中包含了句子中该词和其他位置的词的相互关系信息，是一个新的向量表示。例如“这个动物并没有走过马路是因为它太累了”，对于机器来说很难判断本句中的它是指动物还是马路，基于自注意力机制和

值的计算，就可以得知此句中的它与动物的关联性较强，从而使系统能够正确获知该句子表达的语义内容。

其中，

为词向量矩阵，即高维词向量；

均为多头注意力机制矩阵，h 表示表示多头个数，

为一个附加权值矩阵，

为连接函数。

其中训练过程如下：

S = f(w ∙ T_i:i+h−1 + b), w ∈ Rh×k

C = [C₁, C₂, …, C_n−h+1], C ∈ Rn−h+1

其中，

为预测概率，

、

分别表示全连接层和输出层的可训练参数，

表示ReLU 激活函数，

为高维特征向量。

通过交叉熵损失函数进行误差收敛，其计算方式如下：

其中，

本发明第三方面提供了一种计算机可存储介质，所述计算机可存储介质包括基于语义文本的智能肝癌分期方法程序，所述基于语义文本的智能肝癌分期方法程序被处理器62执行时，实现任一项所述的基于语义文本的智能肝癌分期方法的步骤。

此外，应当理解，虽然本说明书按照实施方式加以描述，但并非每个实施方式仅包含一个独立的技术方案，说明书的这种叙述方式仅仅是为清楚起见，本领域技术人员应当将说明书作为一个整体，各实施例中的技术方案也可以经适当组合，形成本领域技术人员可以理解的其他实施方式。

以上依据本发明的理想实施例为启示，通过上述的说明内容，相关人员完全可以在不偏离本项发明技术思想的范围内，进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容，必须要根据权利要求范围来确定技术。