CN115658886A - 基于语义文本的智能肝癌分期方法、系统及介质 - Google Patents

基于语义文本的智能肝癌分期方法、系统及介质 Download PDF

Info

Publication number
CN115658886A
CN115658886A CN202211141634.XA CN202211141634A CN115658886A CN 115658886 A CN115658886 A CN 115658886A CN 202211141634 A CN202211141634 A CN 202211141634A CN 115658886 A CN115658886 A CN 115658886A
Authority
CN
China
Prior art keywords
liver cancer
text
data
training
classification model
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202211141634.XA
Other languages
English (en)
Inventor
李亚
郑学聪
戴青云
李家平
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangdong Polytechnic Normal University
Original Assignee
Guangdong Polytechnic Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangdong Polytechnic Normal University filed Critical Guangdong Polytechnic Normal University
Priority to CN202211141634.XA priority Critical patent/CN115658886A/zh
Publication of CN115658886A publication Critical patent/CN115658886A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Apparatus For Radiation Diagnosis (AREA)

Abstract

本发明涉及一种基于语义文本的智能肝癌分期方法、系统及介质,属于医疗技术领域,本发明通过获取样本数据,并截取样本数据中描写肝部位的文本片段作为训练数据;通过对训练数据进行预处理,得到数据集,并按照预设比例将数据集分为训练集以及测试集;获取训练集中的肝癌文本数据,并对肝癌文本数据进行特征处理以获取文本特征向量,将文本特征向量输入至BERT模型中,得到高维词向量;构建分类模型,并将高维词向量输入到分类模型中,得到训练完成的分类模型,并通过测试集对分类模型进行测试,得到分类结果。本发明通过提取文本中不同层次的语义信息实现肝癌分期,并且将肝癌分期结果更加细化,为医生提供更精确的分期结果。

Description

基于语义文本的智能肝癌分期方法、系统及介质
技术领域
本发明涉及医疗技术领域,尤其涉及基于语义文本的智能肝癌分期方法、系统及介质。
背景技术
肝癌是一种恶性肿瘤,是高发的,危害极大的恶性肿瘤。因此,如何有效的提高肝癌的的诊疗水平是医学界研究的重要方向之一。
肝癌分期可以用于评定癌症发展和扩散的程度,是癌症诊断和治疗的重要环节。CNLC分期系统从大小、数目等多个维度将肝癌分为Ia、Ib、IIa、IIb、IIIa、IIIb期以及IV期。
随着信息化时代的来临,大量的数据以电子的形式被记录,而电子病历就是医院信息化建设的重要环节。电子病历存储着大量使用率低、完备详细的病患信息,医生们通过电子病历上的记录对患者有具体的了解并制定后续的诊疗方案。以肝癌分期为例,医生通过查阅病人的病理报告和影像学报告来评估病人的肝癌分期情况。由于肝癌分期需要对照多个指标遵循CNLC的分期标准,这是非常耗时且容易出错的。综上所述,利用深度学习模型对肝癌文本进行特征学习,从而实现肝癌的精准分期,这将会在很大程度上降低临床医生的工作量,并为其在肝癌分期评估中提供辅助诊断,帮助医生更加快速、准确的做出诊断和决策。目前的肝癌分期的模型都是基于图像为主,对电子病历的利用率较低,并且对于数据预处理过程要求较高。除此之外,现有的模型只能分为早期、中期、晚期,对分期结果还不够具体。
发明内容
本发明克服了现有技术的不足,提供了一种基于语义文本的智能肝癌分期方法、系统及介质。
为达上述目的,本发明采用的技术方案为:
本发明第一方面提供了一种基于语义文本的智能肝癌分期方法,包括以下步骤:
获取样本数据,并截取所述样本数据中描写肝部位的文本片段作为训练数据;
通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集;
获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量;
构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,并通过测试集对所述分类模型进行测试,得到分类结果。
优选地,本发明的一个较佳实施例中,通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集,具体包括以下步骤:
通过大数据网络获取CNLC分期标准,并通过所述CNLC分期标准对当前训练数据进行分期,将不存在分期结果的训练数据进行剔除,得到肝癌分期数据信息;
基于所述肝癌分期数据信息生成对应的类别标签,构建肝癌分期结果数据表,并将所述类别标签输入到所述肝癌分期数据表中;
将所述肝癌分期数据表中的数据进行随机打乱,并将所述肝癌分期数据表中的数据作为数据集;
按照预设比例将所述数据集分为训练集以及测试集。
优选地,本发明的一个较佳实施例中,获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT模型中,得到高维词向量,具体为:
获取所述训练集中的肝癌文本数据,并通过对所述肝癌文本数据进行分词处理,以得到文本特征向量;
构建BERT 模型,并将所述文本特征向量输入至所述BERT模型的嵌入层中进行嵌入操作,得到操作结果;
将所述操作结果输入到Encoder层中,进行自注意力处理以及前馈神经网络的计算,得到多个目标输出矩阵;
将所述多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量。
优选地,本发明的一个较佳实施例中,构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,具体包括以下步骤:
基于神经网络构建分类模型,并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算,得到卷积特征值;
将所述卷积特征值输入到池化层中,并采用最大池化的方式,在每一个卷积核中选出最大数字作为当前所在区域的特征值;
通过在concatenate 层将所述当前所在区域的特征值进行融合,得到高维特征向量;
将所述高维特征向量经过两个全连接层实现线性变换,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,并保存模型参数,以结束分类模型的训练。
优选地,本发明的一个较佳实施例中,其中将所述高维特征向量经过两个全连接层实现线性变换,具体为:
通过sigmoid 激活函数将高维特征向量转换为预测概率,其中,转换方式如下:
Figure 715948DEST_PATH_IMAGE002
其中,
Figure 100002_DEST_PATH_IMAGE003
为预测概率,
Figure 328195DEST_PATH_IMAGE004
Figure 100002_DEST_PATH_IMAGE005
分别表示全连接层和输出层的可训练参数,
Figure 350509DEST_PATH_IMAGE006
表示ReLU 激活函数,
Figure 100002_DEST_PATH_IMAGE007
为高维特征向量。
优选地,本发明的一个较佳实施例中,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,具体为:
通过交叉熵损失函数进行误差收敛,其计算方式如下:
Figure 100002_DEST_PATH_IMAGE009
其中,
Figure 925978DEST_PATH_IMAGE010
为收敛后的值;N 表示训练文本数量;L 表示文本对应的标签数量;
Figure 100002_DEST_PATH_IMAGE011
在 [0,1]的取值范围之内,表示第 i 个样本中第 j 个类别的预测概率;
Figure 717348DEST_PATH_IMAGE012
∈{0,1}表示第 i 个样本是否属于第 j 个类别;“0”表示否,“1”表示“是”。
本发明第二方面提供了基于语义文本的智能肝癌分期系统,所述系统包括存储器以及处理器,所述存储器中包括基于语义文本的智能肝癌分期方法程序,所述基于语义文本的智能肝癌分期方法程序被处理器执行时,实现如下步骤:
获取样本数据,并截取所述样本数据中描写肝部位的文本片段作为训练数据;
通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集;
获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT模型中,得到高维词向量;
构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,并通过测试集对所述分类模型进行测试,得到分类结果。
优选地,本发明的一个较佳实施例中,获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT模型中,得到高维词向量,具体为:
获取所述训练集中的肝癌文本数据,并通过对所述肝癌文本数据进行分词处理,以得到文本特征向量;
构建BERT 模型,并将所述文本特征向量输入至所述BERT 模型的嵌入层中进行嵌入操作,得到操作结果;
将所述操作结果输入到Encoder层中,进行自注意力处理以及前馈神经网络的计算,得到多个目标输出矩阵;
将所述多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量。
优选地,本发明的一个较佳实施例中,构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,具体包括以下步骤:
基于神经网络构建分类模型,并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算,得到卷积特征值;
将所述卷积特征值输入到池化层中,并采用最大池化的方式,在每一个卷积核中选出最大数字作为当前所在区域的特征值;
通过在concatenate 层将所述当前所在区域的特征值进行融合,得到高维特征向量;
将所述高维特征向量经过两个全连接层实现线性变换,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,并保存模型参数,以结束分类模型的训练。
本发明第三方面提供了一种计算机可存储介质,所述计算机可存储介质包括基于语义文本的智能肝癌分期方法程序,所述基于语义文本的智能肝癌分期方法程序被处理器执行时,实现任一项所述的基于语义文本的智能肝癌分期方法的步骤。
本发明解决了背景技术中存在的缺陷,本发明具备以下有益效果:
针对现有技术的不足,本发明提出了一种结合BERT 模型和卷积神经网络的肝癌分期方法。由于肝癌文本存在复杂的专业术语况,其目的在于解决医疗文本中特征稀疏和一词多义的问题,通过提取文本中不同层次的语义信息实现肝癌分期,并且将肝癌分期结果更加细化,为医生提供更精确的分期结果。本发明通过利用结合 BERT 预训练模型和卷积神经网络的肝癌分期系统来对肝癌文本的处理实现特征提取和自动分类,采用深度学习技术学习医生的分期方法,有效地提高了肝癌分期系统的效率和实时性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他实施例的附图。
图1示出了基于语义文本的智能肝癌分期方法的整体方法流程图;
图2示出了得到高维词向量的方法流程图;
图3示出了分类模型训练过程的方法流程图;
图4示出了基于语义文本的智能肝癌分期系统的系统框图;
图5为分类模型的结构示意图;
图6为多头注意力的结构示意图。
具体实施方式
为了能够更加清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述,这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成,需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请保护范围的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本申请中的具体含义。
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施方式。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。
本发明第一方面提供了一种基于语义文本的智能肝癌分期方法,包括以下步骤:
S102:获取样本数据,并截取所述样本数据中描写肝部位的文本片段作为训练数据;
S104:通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集;
S106:获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量;
S108:构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,并通过测试集对所述分类模型进行测试,得到分类结果。
优选地,本发明的一个较佳实施例中,通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集,具体包括以下步骤:
通过大数据网络获取CNLC分期标准,并通过所述CNLC分期标准对当前训练数据进行分期,将不存在分期结果的训练数据进行剔除,得到肝癌分期数据信息;
基于所述肝癌分期数据信息生成对应的类别标签,构建肝癌分期结果数据表,并将所述类别标签输入到所述肝癌分期数据表中;
将所述肝癌分期数据表中的数据进行随机打乱,并将所述肝癌分期数据表中的数据作为数据集;
按照预设比例将所述数据集分为训练集以及测试集。
需要说明的是,CNLC为中国肝癌的分期方案,其中根据CNLC的分期标准,肝癌的分期包括1a期、1b期、2a期、2b期、3a期、3b期、4期。其中,其对应的类别标签可以设置为0、1、2、3、4、5、6等。
优选地,本发明的一个较佳实施例中,获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT模型中,得到高维词向量,具体为:
S202:获取所述训练集中的肝癌文本数据,并通过对所述肝癌文本数据进行分词处理,以得到文本特征向量;
S204:构建BERT模型,并将所述文本特征向量输入至所述BERT模型的嵌入层中进行嵌入操作,得到操作结果;
S206:将所述操作结果输入到Encoder层中,进行自注意力处理以及前馈神经网络的计算,得到多个目标输出矩阵;
S208:将所述多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量。
需要说明的是,BERT 模型是谷歌提出的一个预训练模型,它通过在大规模、无标注的语料库中进行训练,使得模型具备理解文本更深层语义信息的能力,基于 12 层双向Transformer 编码器和 12个多头注意力机制对肝癌文本进行动态字向量训练。其中,词向量维度为 512,此表大小为 30522,隐藏层神经元个数为 768,激活函数为 gelu。BERT模型主要使用的是 Transformer 中的 Encoder 部分,通过将多个 Transformer Encoder 堆叠且双向连接,生成融合词汇和上下文语义信息的动态词向量表征。Transformer 编码结构由多头注意力机制和前馈神经网络组成,每一部分由残差网络进行连接,“Add&Norm”将该网络的输入和输出进行相加并归一化,避免梯度消失。其中多头注意力机制作为最重要的一部分,网络输入层文本序列中每个词的query、key 和value 组成输入向量Q、K、V,利用多头注意力机制,其模型具体公式如下:
Figure 500496DEST_PATH_IMAGE014
Figure 134739DEST_PATH_IMAGE016
其中,
Figure DEST_PATH_IMAGE017
为第t个多头注意力机制矩阵,
Figure 841795DEST_PATH_IMAGE018
Figure DEST_PATH_IMAGE019
Figure 690934DEST_PATH_IMAGE020
分别表示Q、K、V向量的权值矩 阵,
Figure DEST_PATH_IMAGE021
表示每个矩阵Q、K、V 向量的维度大小,h 表示表示多头个数,T表示矩阵转置,
Figure 661295DEST_PATH_IMAGE022
为矩阵值,矩阵值的每一行代表输入句子中相应字的Attention向量,其中包含 了句子中该词和其他位置的词的相互关系信息,是一个新的向量表示。例如“这个动物并没 有走过马路是因为它太累了”以及“患者某某在一个月前为2a期肝癌患者,而此时为2b期肝 癌患者”,对于机器来说很难判断本句中的它是指动物还是马路、患者某某现在是2a期肝癌 患者还是2b期肝癌患者,基于自注意力机制和
Figure DEST_PATH_IMAGE023
值的计算,就可以得知此句中的它与动 物的关联性较强、患者某某现在的肝癌情况与2b期肝癌关联性较强,从而使系统能够正确 获知该句子表达的语义内容。
将多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量,通过以下方式实现:
Figure DEST_PATH_IMAGE025
其中,
Figure 472517DEST_PATH_IMAGE026
为词向量矩阵,即高维词向量;
Figure DEST_PATH_IMAGE027
均为多头注意力 机制矩阵,h 表示表示多头个数,
Figure 373477DEST_PATH_IMAGE028
为一个附加权值矩阵,
Figure DEST_PATH_IMAGE029
为连接函数。
需要说明的是,BERT 模型通过上述机制在句子层面计算每个字词与该句子所在字词的相互关系,并通过这种相互关系调整每个字词在句子中的权重,获得新的向量表达,从而实现文本序列的高效词向量表征。
优选地,本发明的一个较佳实施例中,构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,具体包括以下步骤:
S302:基于神经网络构建分类模型,并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算,得到卷积特征值;
S304:将所述卷积特征值输入到池化层中,并采用最大池化的方式,在每一个卷积核中选出最大数字作为当前所在区域的特征值;
S306:通过在concatenate 层将所述当前所在区域的特征值进行融合,得到高维特征向量;
S308:将所述高维特征向量经过两个全连接层实现线性变换,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,并保存模型参数,以结束分类模型的训练。
需要说明的是,输入数据经过一层由 6 个不同卷积核大小的滤波器组成的卷积层,并将最大池化应用于该层的所有滤波器,之后将数据传入两个全连接层,最后使用ReLU 函数对输出进行激活,输出该组肝癌数据的分类结果。其中,分类模型结构的每一个卷积层参数均一致,具体参数设置为:输入通道参数为 128,卷积核大小分别为 2、3、4、5、6、7,步长大小设置为1,卷积填充设置为valid padding;分类模型结构的第一个全连接层完成一次 dropout,保持向量维度不变,设置 dropout 比例为 0.1;第二个全连接层使用ReLU 激活函数,输出大小参数设置为需要识别的肝癌分期类型个数。遍历数据集的次数设置为 30,批次为 64,分类模型训练使用的优化器为Adam,其中学习率参数设置为0.00005;分类模型训练使用损失函数为交叉熵损失函数,将处理好的训练集数据输入到搭建好的分类模型中进行训练,将数据集遍历预设的次数后获取模型的最优参数。
其中训练过程如下:
对长度大小为 n 的中文文本,卷积层通过采用 h 个不同大小的卷积核进行卷积运算,在第 i 处得到的卷积特征值为:
S = f(w ∙ Ti:i+h−1 + b), w ∈ Rh×k
其中,S为卷积特征值,k 表示每个词的词向量维度,w 表示卷积核,R表示维度,维度大小为 h×k,Ti:i+h−1表示由输入矩阵的第 i 行到第 i+h-1 行组成的卷积核。b 表示偏置函数,f 表示非线性映射函数。
而池化层采用最大池化的方式,在每一个卷积核中选出最大数字作为该区域的特征值。
在 concatenate 层将池化运算后的特征进行融合,得到高维的特征向量,其中过程如下:
C = [C1, C2, …, Cn−h+1], C ∈ Rn−h+1
其中,n 表示文本中字的数量,C 表示经过池化操作后的高维特征向量,R表示维度,其维度大小为i+h-1。完成卷积池化操作后,在下游任务中连接全连接神经网络层从而完成肝癌文本的分期预测。
优选地,本发明的一个较佳实施例中,其中将所述高维特征向量经过两个全连接层实现线性变换,具体为:
通过sigmoid 激活函数将高维特征向量转换为预测概率,其中,转换方式如下:
Figure 936176DEST_PATH_IMAGE002
其中,
Figure 280701DEST_PATH_IMAGE003
为预测概率,
Figure 623958DEST_PATH_IMAGE004
Figure 859767DEST_PATH_IMAGE005
分别表示全连接层和输出层的可训练参数,
Figure 214656DEST_PATH_IMAGE006
表示ReLU 激活函数,
Figure 979350DEST_PATH_IMAGE007
为高维特征向量。
优选地,本发明的一个较佳实施例中,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,具体为:
通过交叉熵损失函数进行误差收敛,其计算方式如下:
Figure 544323DEST_PATH_IMAGE009
其中,
Figure 600135DEST_PATH_IMAGE010
为收敛后的值;N 表示训练文本数量;L 表示文本对应的标签数量;
Figure 934164DEST_PATH_IMAGE011
在 [0,1]的取值范围之内,表示第 i 个样本中第 j 个类别的预测概率;
Figure 666497DEST_PATH_IMAGE012
∈{0,1}表示第 i 个样本是否属于第 j 个类别;“0”表示否,“1”表示“是”。
通过该方式直至误差收敛得到的值为预设值时,保存模型参数,最终与softmax分类器相连,对分类模型训练完成,当测试集输入经过卷积层、池化层、全连接层后,最后通过softmax分类器对全连接层的输出结果进行分类,以得到肝癌文本数据的分类结果。
通过提取文本中不同层次的语义信息实现肝癌分期,并且将肝癌分期结果更加细化,为医生提供更精确的分期结果。本发明通过利用结合 BERT 预训练模型和卷积神经网络的肝癌分期系统来对肝癌文本的处理实现特征提取和自动分类,采用深度学习技术学习医生的分期方法,有效地提高了肝癌分期系统的效率和实时性。
本发明第二方面提供了基于语义文本的智能肝癌分期系统,所述系统包括存储器41以及处理器62,所述存储器41中包括基于语义文本的智能肝癌分期方法程序,所述基于语义文本的智能肝癌分期方法程序被处理器执行时,实现如下步骤:
获取样本数据,并截取所述样本数据中描写肝部位的文本片段作为训练数据;
通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集;
获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量;
构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,并通过测试集对所述分类模型进行测试,得到分类结果。
优选地,本发明的一个较佳实施例中,获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT模型中,得到高维词向量,具体为:
获取所述训练集中的肝癌文本数据,并通过对所述肝癌文本数据进行分词处理,以得到文本特征向量;
构建BERT 模型,并将所述文本特征向量输入至所述BERT 模型的嵌入层中进行嵌入操作,得到操作结果;
将所述操作结果输入到Encoder层中,进行自注意力处理以及前馈神经网络的计算,得到多个目标输出矩阵;
将所述多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量。
需要说明的是,BERT 模型是谷歌提出的一个预训练模型,它通过在大规模、无标注的语料库中进行训练,使得模型具备理解文本更深层语义信息的能力,基于 12 层双向Transformer 编码器和 12 个多头注意力机制对肝癌文本进行动态字向量训练。其中,词向量维度为512,此表大小为 30522,隐藏层神经元个数为 768,激活函数为 gelu。BERT 模型主要使用的是 Transformer 中的 Encoder 部分,通过将多个 Transformer Encoder堆叠且双向连接,生成融合词汇和上下文语义信息的动态词向量表征。Transformer 编码结构由多头注意力机制和前馈神经网络组成,每一部分由残差网络进行连接,“Add&Norm”将该网络的输入和输出进行相加并归一化,避免梯度消失。其中多头注意力机制作为最重要的一部分,网络输入层文本序列中每个词的query、key 和value 组成输入向量Q、K、V,利用多头注意力机制,其模型具体公式如下:
Figure 718767DEST_PATH_IMAGE014
Figure 578269DEST_PATH_IMAGE016
其中,
Figure 32385DEST_PATH_IMAGE017
为第t个多头注意力机制矩阵,
Figure 935619DEST_PATH_IMAGE018
Figure 475184DEST_PATH_IMAGE019
Figure 872799DEST_PATH_IMAGE020
分别表示Q、K、V向量的权值矩 阵,
Figure 181420DEST_PATH_IMAGE021
表示每个矩阵Q、K、V 向量的维度大小,h 表示表示多头个数,T表示矩阵转置,
Figure 458818DEST_PATH_IMAGE022
为矩阵值,矩阵值的每一行代表输入句子中相应字的Attention向量,其中包含 了句子中该词和其他位置的词的相互关系信息,是一个新的向量表示。例如“这个动物并没 有走过马路是因为它太累了”,对于机器来说很难判断本句中的它是指动物还是马路,基于 自注意力机制和
Figure 95467DEST_PATH_IMAGE023
值的计算,就可以得知此句中的它与动物的关联性较强,从而使系统 能够正确获知该句子表达的语义内容。
将多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量,通过以下方式实现:
Figure 421406DEST_PATH_IMAGE025
其中,
Figure 709168DEST_PATH_IMAGE026
为词向量矩阵,即高维词向量;
Figure 829570DEST_PATH_IMAGE027
均为多头注意力 机制矩阵,h 表示表示多头个数,
Figure 213235DEST_PATH_IMAGE028
为一个附加权值矩阵,
Figure 342865DEST_PATH_IMAGE029
为连接函数。
需要说明的是,BERT 模型通过上述机制在句子层面计算每个字词与该句子所在字词的相互关系,并通过这种相互关系调整每个字词在句子中的权重,获得新的向量表达,从而实现文本序列的高效词向量表征。
优选地,本发明的一个较佳实施例中,构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,具体包括以下步骤:
基于神经网络构建分类模型,并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算,得到卷积特征值;
将所述卷积特征值输入到池化层中,并采用最大池化的方式,在每一个卷积核中选出最大数字作为当前所在区域的特征值;
通过在concatenate 层将所述当前所在区域的特征值进行融合,得到高维特征向量;
将所述高维特征向量经过两个全连接层实现线性变换,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,并保存模型参数,以结束分类模型的训练。
需要说明的是,输入数据经过一层由 6 个不同卷积核大小的滤波器组成的卷积层,并将最大池化应用于该层的所有滤波器,之后将数据传入两个全连接层,最后使用ReLU 函数对输出进行激活,输出该组肝癌数据的分类结果。其中,分类模型结构的每一个卷积层参数均一致,具体参数设置为:输入通道参数为 128,卷积核大小分别为 2、3、4、5、6、7,步长大小设置为1,卷积填充设置为valid padding;分类模型结构的第一个全连接层完成一次 dropout,保持向量维度不变,设置 dropout 比例为 0.1;第二个全连接层使用ReLU 激活函数,输出大小参数设置为需要识别的肝癌分期类型个数。遍历数据集的次数设置为 30,批次为 64,分类模型训练使用的优化器为Adam,其中学习率参数设置为0.00005;分类模型训练使用损失函数为交叉熵损失函数,将处理好的训练集数据输入到搭建好的分类模型中进行训练,将数据集遍历预设的次数后获取模型的最优参数。
其中训练过程如下:
对长度大小为 n 的中文文本,卷积层通过采用 h 个不同大小的卷积核进行卷积运算,在第 i 处得到的卷积特征值为:
S = f(w ∙ Ti:i+h−1 + b), w ∈ Rh×k
其中,S为卷积特征值,k 表示每个词的词向量维度,w 表示卷积核,R表示维度,维度大小为 h×k,Ti:i+h−1表示由输入矩阵的第 i 行到第 i+h-1 行组成的卷积核。b 表示偏置函数,f 表示非线性映射函数。
而池化层采用最大池化的方式,在每一个卷积核中选出最大数字作为该区域的特征值。
在 concatenate 层将池化运算后的特征进行融合,得到高维的特征向量,其中过程如下:
C = [C1, C2, …, Cn−h+1], C ∈ Rn−h+1
其中,n 表示文本中字的数量,C 表示经过池化操作后的高维特征向量,R表示维度,其维度大小为i+h-1。完成卷积池化操作后,在下游任务中连接全连接神经网络层从而完成肝癌文本的分期预测。
优选地,本发明的一个较佳实施例中,其中将所述高维特征向量经过两个全连接层实现线性变换,具体为:
通过sigmoid 激活函数将高维特征向量转换为预测概率,其中,转换方式如下:
Figure 485134DEST_PATH_IMAGE002
其中,
Figure 120645DEST_PATH_IMAGE003
为预测概率,
Figure 856520DEST_PATH_IMAGE004
Figure 648896DEST_PATH_IMAGE005
分别表示全连接层和输出层的可训练参数,
Figure 521037DEST_PATH_IMAGE006
表示ReLU 激活函数,
Figure 124188DEST_PATH_IMAGE007
为高维特征向量。
优选地,本发明的一个较佳实施例中,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,具体为:
通过交叉熵损失函数进行误差收敛,其计算方式如下:
Figure 347359DEST_PATH_IMAGE009
其中,
Figure 677846DEST_PATH_IMAGE010
为收敛后的值;N 表示训练文本数量;L 表示文本对应的标签数量;
Figure 935652DEST_PATH_IMAGE011
在 [0,1]的取值范围之内,表示第 i 个样本中第 j 个类别的预测概率;
Figure 709704DEST_PATH_IMAGE012
∈{0,1}表示第 i 个样本是否属于第 j 个类别;“0”表示否,“1”表示“是”。
通过该方式直至误差收敛得到的值为预设值时,保存模型参数,最终与softmax分类器相连,对分类模型训练完成,当测试集输入经过卷积层、池化层、全连接层后,最后通过softmax分类器对全连接层的输出结果进行分类,以得到肝癌文本数据的分类结果。
本发明第三方面提供了一种计算机可存储介质,所述计算机可存储介质包括基于语义文本的智能肝癌分期方法程序,所述基于语义文本的智能肝癌分期方法程序被处理器62执行时,实现任一项所述的基于语义文本的智能肝癌分期方法的步骤。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
以上依据本发明的理想实施例为启示,通过上述的说明内容,相关人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定技术。

Claims (10)

1.基于语义文本的智能肝癌分期方法,其特征在于,包括以下步骤:
获取样本数据,并截取所述样本数据中描写肝部位的文本片段作为训练数据;
通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集;
获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量;
构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,并通过测试集对所述分类模型进行测试,得到分类结果。
2.根据权利要求1所述的基于语义文本的智能肝癌分期方法,其特征在于,通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集,具体包括以下步骤:
通过大数据网络获取CNLC分期标准,并通过所述CNLC分期标准对当前训练数据进行分期,将不存在分期结果的训练数据进行剔除,得到肝癌分期数据信息;
基于所述肝癌分期数据信息生成对应的类别标签,构建肝癌分期结果数据表,并将所述类别标签输入到所述肝癌分期数据表中;
将所述肝癌分期数据表中的数据进行随机打乱,并将所述肝癌分期数据表中的数据作为数据集;
按照预设比例将所述数据集分为训练集以及测试集。
3.根据权利要求1所述的基于语义文本的智能肝癌分期方法,其特征在于,获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量,具体为:
获取所述训练集中的肝癌文本数据,并通过对所述肝癌文本数据进行分词处理,以得到文本特征向量;
构建BERT 模型,并将所述文本特征向量输入至所述BERT 模型的嵌入层中进行嵌入操作,得到操作结果;
将所述操作结果输入到Encoder层中,进行自注意力处理以及前馈神经网络的计算,得到多个目标输出矩阵;
将所述多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量。
4.根据权利要求1所述的基于语义文本的智能肝癌分期方法,其特征在于,构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,具体包括以下步骤:
基于神经网络构建分类模型,并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算,得到卷积特征值;
将所述卷积特征值输入到池化层中,并采用最大池化的方式,在每一个卷积核中选出最大数字作为当前所在区域的特征值;
通过在concatenate 层将所述当前所在区域的特征值进行融合,得到高维特征向量;
将所述高维特征向量经过两个全连接层实现线性变换,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,并保存模型参数,以结束分类模型的训练。
5.根据权利要求4所述的基于语义文本的智能肝癌分期方法,其特征在于,其中将所述高维特征向量经过两个全连接层实现线性变换,具体为:
通过sigmoid 激活函数将高维特征向量转换为预测概率,其中,转换方式如下:
Figure 118982DEST_PATH_IMAGE002
其中,
Figure DEST_PATH_IMAGE003
为预测概率,
Figure 607863DEST_PATH_IMAGE004
Figure DEST_PATH_IMAGE005
分别表示全连接层和输出层的可训练参数,
Figure 49209DEST_PATH_IMAGE006
表示ReLU 激活 函数,
Figure DEST_PATH_IMAGE007
为高维特征向量。
6.根据权利要求4所述的基于语义文本的智能肝癌分期方法,其特征在于,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,具体为:
通过交叉熵损失函数进行误差收敛,其计算方式如下:
Figure DEST_PATH_IMAGE009
其中,
Figure 584227DEST_PATH_IMAGE010
为收敛后的值;N 表示训练文本数量;L 表示文本对应的标签数量;
Figure DEST_PATH_IMAGE011
在[0, 1]的取值范围之内,表示第 i 个样本中第 j 个类别的预测概率;
Figure 621584DEST_PATH_IMAGE012
∈{0,1}表示第 i 个 样本是否属于第 j 个类别;“0”表示否,“1”表示“是”。
7.基于语义文本的智能肝癌分期系统,其特征在于,所述系统包括存储器以及处理器,所述存储器中包括基于语义文本的智能肝癌分期方法程序,所述基于语义文本的智能肝癌分期方法程序被处理器执行时,实现如下步骤:
获取样本数据,并截取所述样本数据中描写肝部位的文本片段作为训练数据;
通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集;
获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量;
构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,并通过测试集对所述分类模型进行测试,得到分类结果。
8.根据权利要求7所述的基于语义文本的智能肝癌分期系统,其特征在于,获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量,具体为:
获取所述训练集中的肝癌文本数据,并通过对所述肝癌文本数据进行分词处理,以得到文本特征向量;
构建BERT 模型,并将所述文本特征向量输入至所述BERT 模型的嵌入层中进行嵌入操作,得到操作结果;
将所述操作结果输入到Encoder层中,进行自注意力处理以及前馈神经网络的计算,得到多个目标输出矩阵;
将所述多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量。
9.根据权利要求7所述的基于语义文本的智能肝癌分期系统,其特征在于,构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,具体包括以下步骤:
基于神经网络构建分类模型,并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算,得到卷积特征值;
将所述卷积特征值输入到池化层中,并采用最大池化的方式,在每一个卷积核中选出最大数字作为当前所在区域的特征值;
通过在concatenate 层将所述当前所在区域的特征值进行融合,得到高维特征向量;
将所述高维特征向量经过两个全连接层实现线性变换,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,并保存模型参数,以结束分类模型的训练。
10.一种计算机可存储介质,其特征在于,所述计算机可存储介质包括基于语义文本的智能肝癌分期方法程序,所述基于语义文本的智能肝癌分期方法程序被处理器执行时,实现如权利要求1-6任一项所述的基于语义文本的智能肝癌分期方法的步骤。
CN202211141634.XA 2022-09-20 2022-09-20 基于语义文本的智能肝癌分期方法、系统及介质 Pending CN115658886A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211141634.XA CN115658886A (zh) 2022-09-20 2022-09-20 基于语义文本的智能肝癌分期方法、系统及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211141634.XA CN115658886A (zh) 2022-09-20 2022-09-20 基于语义文本的智能肝癌分期方法、系统及介质

Publications (1)

Publication Number Publication Date
CN115658886A true CN115658886A (zh) 2023-01-31

Family

ID=84984548

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211141634.XA Pending CN115658886A (zh) 2022-09-20 2022-09-20 基于语义文本的智能肝癌分期方法、系统及介质

Country Status (1)

Country Link
CN (1) CN115658886A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975241A (zh) * 2023-09-20 2023-10-31 广东技术师范大学 基于大语言模型的肝癌辅助诊断与问答方法、系统及介质
CN117473400A (zh) * 2023-12-28 2024-01-30 中南大学 基于多通道层级变换网络结构的设备故障诊断方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN112712118A (zh) * 2020-12-29 2021-04-27 银江股份有限公司 一种面向医疗文本数据的过滤方法及系统
CN112926303A (zh) * 2021-02-23 2021-06-08 南京邮电大学 一种基于BERT-BiGRU的恶意URL检测方法
CN113128214A (zh) * 2021-03-17 2021-07-16 重庆邮电大学 一种基于bert预训练模型的文本摘要生成方法
CN113449106A (zh) * 2021-06-28 2021-09-28 淮阴工学院 一种基于att-cn的医疗文本分类方法及装置
CN113468324A (zh) * 2021-06-03 2021-10-01 上海交通大学 基于bert预训练模型和卷积网络的文本分类方法和系统
CN114547303A (zh) * 2022-02-18 2022-05-27 哈尔滨工程大学 基于Bert-LSTM的文本多特征分类方法及装置
CN114860930A (zh) * 2022-04-25 2022-08-05 桂林电子科技大学 一种文本分类方法、装置以及存储介质
CN114936280A (zh) * 2022-03-16 2022-08-23 青岛海尔科技有限公司 文本分类方法、文本分类装置、存储介质及电子装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110377686A (zh) * 2019-07-04 2019-10-25 浙江大学 一种基于深度神经网络模型的地址信息特征抽取方法
CN112712118A (zh) * 2020-12-29 2021-04-27 银江股份有限公司 一种面向医疗文本数据的过滤方法及系统
CN112926303A (zh) * 2021-02-23 2021-06-08 南京邮电大学 一种基于BERT-BiGRU的恶意URL检测方法
CN113128214A (zh) * 2021-03-17 2021-07-16 重庆邮电大学 一种基于bert预训练模型的文本摘要生成方法
CN113468324A (zh) * 2021-06-03 2021-10-01 上海交通大学 基于bert预训练模型和卷积网络的文本分类方法和系统
CN113449106A (zh) * 2021-06-28 2021-09-28 淮阴工学院 一种基于att-cn的医疗文本分类方法及装置
CN114547303A (zh) * 2022-02-18 2022-05-27 哈尔滨工程大学 基于Bert-LSTM的文本多特征分类方法及装置
CN114936280A (zh) * 2022-03-16 2022-08-23 青岛海尔科技有限公司 文本分类方法、文本分类装置、存储介质及电子装置
CN114860930A (zh) * 2022-04-25 2022-08-05 桂林电子科技大学 一种文本分类方法、装置以及存储介质

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116975241A (zh) * 2023-09-20 2023-10-31 广东技术师范大学 基于大语言模型的肝癌辅助诊断与问答方法、系统及介质
CN116975241B (zh) * 2023-09-20 2024-01-09 广东技术师范大学 基于大语言模型的肝癌辅助诊断与问答方法、系统及介质
CN117473400A (zh) * 2023-12-28 2024-01-30 中南大学 基于多通道层级变换网络结构的设备故障诊断方法
CN117473400B (zh) * 2023-12-28 2024-03-26 中南大学 基于多通道层级变换网络结构的设备故障诊断方法

Similar Documents

Publication Publication Date Title
CN112035672B (zh) 一种知识图谱补全方法、装置、设备以及存储介质
CN111611377B (zh) 基于知识蒸馏的多层神经网络语言模型训练方法与装置
CN107516110B (zh) 一种基于集成卷积编码的医疗问答语义聚类方法
CN115658886A (zh) 基于语义文本的智能肝癌分期方法、系统及介质
CN112015868B (zh) 基于知识图谱补全的问答方法
CN109920501A (zh) 基于卷积神经网络和主动学习的电子病历分类方法及系统
CN110111864B (zh) 一种基于关系模型的医学报告生成系统及其生成方法
CN112784801A (zh) 基于文本和图片的双模态胃部疾病分类方法及装置
CN109949929A (zh) 一种基于深度学习大规模病历的辅助诊断系统
Chen et al. Recursive context routing for object detection
CN111914562B (zh) 电子信息分析方法、装置、设备及可读存储介质
CN114549850B (zh) 一种解决模态缺失问题的多模态图像美学质量评价方法
CN116779091B (zh) 一种多模态网络互联融合的胸部影像诊断报告自动生成方法
DE102021004562A1 (de) Abwandlung von Szenengraphen auf Grundlage von Befehlen in natürlicher Sprache
WO2024001104A1 (zh) 一种图文数据互检方法、装置、设备及可读存储介质
CN112256878A (zh) 一种基于深度卷积的水稻知识文本分类方法
CN115223021A (zh) 一种基于视觉问答的果树全生长期农事作业决策方法
CN115129884A (zh) 基于语义交互匹配网络的知识图谱补全方法及系统
CN113920379A (zh) 一种基于知识辅助的零样本图像分类方法
CN110083842A (zh) 译文质量检测方法、装置、机器翻译系统和存储介质
CN117316369B (zh) 平衡跨模态信息的胸部影像诊断报告自动生成方法
CN112016299B (zh) 计算机执行、利用神经网络生成依存句法树的方法及装置
CN117272149A (zh) 一种基于语言模型的跨表格多任务预训练方法和装置
CN115588486A (zh) 一种基于Transformer的中医诊断生成装置及其应用
CN115455162A (zh) 层次胶囊与多视图信息融合的答案句子选择方法与装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination