CN115658886A - 基于语义文本的智能肝癌分期方法、系统及介质 - Google Patents
基于语义文本的智能肝癌分期方法、系统及介质 Download PDFInfo
- Publication number
- CN115658886A CN115658886A CN202211141634.XA CN202211141634A CN115658886A CN 115658886 A CN115658886 A CN 115658886A CN 202211141634 A CN202211141634 A CN 202211141634A CN 115658886 A CN115658886 A CN 115658886A
- Authority
- CN
- China
- Prior art keywords
- liver cancer
- text
- data
- training
- classification model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 201000007270 liver cancer Diseases 0.000 title claims abstract description 135
- 208000014018 liver neoplasm Diseases 0.000 title claims abstract description 135
- 238000000034 method Methods 0.000 title claims abstract description 33
- 239000013598 vector Substances 0.000 claims abstract description 151
- 238000012549 training Methods 0.000 claims abstract description 94
- 238000013145 classification model Methods 0.000 claims abstract description 78
- 238000012360 testing method Methods 0.000 claims abstract description 29
- 238000012545 processing Methods 0.000 claims abstract description 27
- 238000007781 pre-processing Methods 0.000 claims abstract description 11
- 210000004185 liver Anatomy 0.000 claims abstract description 7
- 230000006870 function Effects 0.000 claims description 38
- 239000011159 matrix material Substances 0.000 claims description 34
- 238000011176 pooling Methods 0.000 claims description 26
- 238000013528 artificial neural network Methods 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 12
- 238000004364 calculation method Methods 0.000 claims description 12
- 239000000126 substance Substances 0.000 claims description 11
- 230000009466 transformation Effects 0.000 claims description 10
- 230000011218 segmentation Effects 0.000 claims description 6
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 230000007246 mechanism Effects 0.000 description 16
- 230000008569 process Effects 0.000 description 7
- 238000003745 diagnosis Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 5
- 201000011510 cancer Diseases 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000007547 defect Effects 0.000 description 3
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 description 2
- 206010028980 Neoplasm Diseases 0.000 description 2
- 230000002457 bidirectional effect Effects 0.000 description 2
- 238000013135 deep learning Methods 0.000 description 2
- 230000008034 disappearance Effects 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000013507 mapping Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000001575 pathological effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
Images
Landscapes
- Apparatus For Radiation Diagnosis (AREA)
Abstract
本发明涉及一种基于语义文本的智能肝癌分期方法、系统及介质,属于医疗技术领域,本发明通过获取样本数据,并截取样本数据中描写肝部位的文本片段作为训练数据;通过对训练数据进行预处理,得到数据集,并按照预设比例将数据集分为训练集以及测试集;获取训练集中的肝癌文本数据,并对肝癌文本数据进行特征处理以获取文本特征向量,将文本特征向量输入至BERT模型中,得到高维词向量;构建分类模型,并将高维词向量输入到分类模型中,得到训练完成的分类模型,并通过测试集对分类模型进行测试,得到分类结果。本发明通过提取文本中不同层次的语义信息实现肝癌分期,并且将肝癌分期结果更加细化,为医生提供更精确的分期结果。
Description
技术领域
本发明涉及医疗技术领域,尤其涉及基于语义文本的智能肝癌分期方法、系统及介质。
背景技术
肝癌是一种恶性肿瘤,是高发的,危害极大的恶性肿瘤。因此,如何有效的提高肝癌的的诊疗水平是医学界研究的重要方向之一。
肝癌分期可以用于评定癌症发展和扩散的程度,是癌症诊断和治疗的重要环节。CNLC分期系统从大小、数目等多个维度将肝癌分为Ia、Ib、IIa、IIb、IIIa、IIIb期以及IV期。
随着信息化时代的来临,大量的数据以电子的形式被记录,而电子病历就是医院信息化建设的重要环节。电子病历存储着大量使用率低、完备详细的病患信息,医生们通过电子病历上的记录对患者有具体的了解并制定后续的诊疗方案。以肝癌分期为例,医生通过查阅病人的病理报告和影像学报告来评估病人的肝癌分期情况。由于肝癌分期需要对照多个指标遵循CNLC的分期标准,这是非常耗时且容易出错的。综上所述,利用深度学习模型对肝癌文本进行特征学习,从而实现肝癌的精准分期,这将会在很大程度上降低临床医生的工作量,并为其在肝癌分期评估中提供辅助诊断,帮助医生更加快速、准确的做出诊断和决策。目前的肝癌分期的模型都是基于图像为主,对电子病历的利用率较低,并且对于数据预处理过程要求较高。除此之外,现有的模型只能分为早期、中期、晚期,对分期结果还不够具体。
发明内容
本发明克服了现有技术的不足,提供了一种基于语义文本的智能肝癌分期方法、系统及介质。
为达上述目的,本发明采用的技术方案为:
本发明第一方面提供了一种基于语义文本的智能肝癌分期方法,包括以下步骤:
获取样本数据,并截取所述样本数据中描写肝部位的文本片段作为训练数据;
通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集;
获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量;
构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,并通过测试集对所述分类模型进行测试,得到分类结果。
优选地,本发明的一个较佳实施例中,通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集,具体包括以下步骤:
通过大数据网络获取CNLC分期标准,并通过所述CNLC分期标准对当前训练数据进行分期,将不存在分期结果的训练数据进行剔除,得到肝癌分期数据信息;
基于所述肝癌分期数据信息生成对应的类别标签,构建肝癌分期结果数据表,并将所述类别标签输入到所述肝癌分期数据表中;
将所述肝癌分期数据表中的数据进行随机打乱,并将所述肝癌分期数据表中的数据作为数据集;
按照预设比例将所述数据集分为训练集以及测试集。
优选地,本发明的一个较佳实施例中,获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT模型中,得到高维词向量,具体为:
获取所述训练集中的肝癌文本数据,并通过对所述肝癌文本数据进行分词处理,以得到文本特征向量;
构建BERT 模型,并将所述文本特征向量输入至所述BERT模型的嵌入层中进行嵌入操作,得到操作结果;
将所述操作结果输入到Encoder层中,进行自注意力处理以及前馈神经网络的计算,得到多个目标输出矩阵;
将所述多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量。
优选地,本发明的一个较佳实施例中,构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,具体包括以下步骤:
基于神经网络构建分类模型,并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算,得到卷积特征值;
将所述卷积特征值输入到池化层中,并采用最大池化的方式,在每一个卷积核中选出最大数字作为当前所在区域的特征值;
通过在concatenate 层将所述当前所在区域的特征值进行融合,得到高维特征向量;
将所述高维特征向量经过两个全连接层实现线性变换,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,并保存模型参数,以结束分类模型的训练。
优选地,本发明的一个较佳实施例中,其中将所述高维特征向量经过两个全连接层实现线性变换,具体为:
通过sigmoid 激活函数将高维特征向量转换为预测概率,其中,转换方式如下:
优选地,本发明的一个较佳实施例中,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,具体为:
通过交叉熵损失函数进行误差收敛,其计算方式如下:
其中,为收敛后的值;N 表示训练文本数量;L 表示文本对应的标签数量;在
[0,1]的取值范围之内,表示第 i 个样本中第 j 个类别的预测概率;∈{0,1}表示第 i
个样本是否属于第 j 个类别;“0”表示否,“1”表示“是”。
本发明第二方面提供了基于语义文本的智能肝癌分期系统,所述系统包括存储器以及处理器,所述存储器中包括基于语义文本的智能肝癌分期方法程序,所述基于语义文本的智能肝癌分期方法程序被处理器执行时,实现如下步骤:
获取样本数据,并截取所述样本数据中描写肝部位的文本片段作为训练数据;
通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集;
获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT模型中,得到高维词向量;
构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,并通过测试集对所述分类模型进行测试,得到分类结果。
优选地,本发明的一个较佳实施例中,获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT模型中,得到高维词向量,具体为:
获取所述训练集中的肝癌文本数据,并通过对所述肝癌文本数据进行分词处理,以得到文本特征向量;
构建BERT 模型,并将所述文本特征向量输入至所述BERT 模型的嵌入层中进行嵌入操作,得到操作结果;
将所述操作结果输入到Encoder层中,进行自注意力处理以及前馈神经网络的计算,得到多个目标输出矩阵;
将所述多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量。
优选地,本发明的一个较佳实施例中,构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,具体包括以下步骤:
基于神经网络构建分类模型,并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算,得到卷积特征值;
将所述卷积特征值输入到池化层中,并采用最大池化的方式,在每一个卷积核中选出最大数字作为当前所在区域的特征值;
通过在concatenate 层将所述当前所在区域的特征值进行融合,得到高维特征向量;
将所述高维特征向量经过两个全连接层实现线性变换,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,并保存模型参数,以结束分类模型的训练。
本发明第三方面提供了一种计算机可存储介质,所述计算机可存储介质包括基于语义文本的智能肝癌分期方法程序,所述基于语义文本的智能肝癌分期方法程序被处理器执行时,实现任一项所述的基于语义文本的智能肝癌分期方法的步骤。
本发明解决了背景技术中存在的缺陷,本发明具备以下有益效果:
针对现有技术的不足,本发明提出了一种结合BERT 模型和卷积神经网络的肝癌分期方法。由于肝癌文本存在复杂的专业术语况,其目的在于解决医疗文本中特征稀疏和一词多义的问题,通过提取文本中不同层次的语义信息实现肝癌分期,并且将肝癌分期结果更加细化,为医生提供更精确的分期结果。本发明通过利用结合 BERT 预训练模型和卷积神经网络的肝癌分期系统来对肝癌文本的处理实现特征提取和自动分类,采用深度学习技术学习医生的分期方法,有效地提高了肝癌分期系统的效率和实时性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他实施例的附图。
图1示出了基于语义文本的智能肝癌分期方法的整体方法流程图;
图2示出了得到高维词向量的方法流程图;
图3示出了分类模型训练过程的方法流程图;
图4示出了基于语义文本的智能肝癌分期系统的系统框图;
图5为分类模型的结构示意图;
图6为多头注意力的结构示意图。
具体实施方式
为了能够更加清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述,这些附图均为简化的示意图,仅以示意方式说明本发明的基本结构,因此其仅显示与本发明有关的构成,需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
在本申请的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本申请和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本申请保护范围的限制。此外,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或隐含指明所指示的技术特征的数量。因此,限定有“第一”、“第二”等的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明创造的描述中,除非另有说明,“多个”的含义是两个或两个以上。
在本申请的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以通过具体情况理解上述术语在本申请中的具体含义。
为了便于理解本发明,下面将参照相关附图对本发明进行更全面的描述。附图中给出了本发明的较佳实施方式。但是,本发明可以以许多不同的形式来实现,并不限于本文所描述的实施方式。相反地,提供这些实施方式的目的是使对本发明的公开内容理解的更加透彻全面。
本发明第一方面提供了一种基于语义文本的智能肝癌分期方法,包括以下步骤:
S102:获取样本数据,并截取所述样本数据中描写肝部位的文本片段作为训练数据;
S104:通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集;
S106:获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量;
S108:构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,并通过测试集对所述分类模型进行测试,得到分类结果。
优选地,本发明的一个较佳实施例中,通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集,具体包括以下步骤:
通过大数据网络获取CNLC分期标准,并通过所述CNLC分期标准对当前训练数据进行分期,将不存在分期结果的训练数据进行剔除,得到肝癌分期数据信息;
基于所述肝癌分期数据信息生成对应的类别标签,构建肝癌分期结果数据表,并将所述类别标签输入到所述肝癌分期数据表中;
将所述肝癌分期数据表中的数据进行随机打乱,并将所述肝癌分期数据表中的数据作为数据集;
按照预设比例将所述数据集分为训练集以及测试集。
需要说明的是,CNLC为中国肝癌的分期方案,其中根据CNLC的分期标准,肝癌的分期包括1a期、1b期、2a期、2b期、3a期、3b期、4期。其中,其对应的类别标签可以设置为0、1、2、3、4、5、6等。
优选地,本发明的一个较佳实施例中,获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT模型中,得到高维词向量,具体为:
S202:获取所述训练集中的肝癌文本数据,并通过对所述肝癌文本数据进行分词处理,以得到文本特征向量;
S204:构建BERT模型,并将所述文本特征向量输入至所述BERT模型的嵌入层中进行嵌入操作,得到操作结果;
S206:将所述操作结果输入到Encoder层中,进行自注意力处理以及前馈神经网络的计算,得到多个目标输出矩阵;
S208:将所述多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量。
需要说明的是,BERT 模型是谷歌提出的一个预训练模型,它通过在大规模、无标注的语料库中进行训练,使得模型具备理解文本更深层语义信息的能力,基于 12 层双向Transformer 编码器和 12个多头注意力机制对肝癌文本进行动态字向量训练。其中,词向量维度为 512,此表大小为 30522,隐藏层神经元个数为 768,激活函数为 gelu。BERT模型主要使用的是 Transformer 中的 Encoder 部分,通过将多个 Transformer Encoder 堆叠且双向连接,生成融合词汇和上下文语义信息的动态词向量表征。Transformer 编码结构由多头注意力机制和前馈神经网络组成,每一部分由残差网络进行连接,“Add&Norm”将该网络的输入和输出进行相加并归一化,避免梯度消失。其中多头注意力机制作为最重要的一部分,网络输入层文本序列中每个词的query、key 和value 组成输入向量Q、K、V,利用多头注意力机制,其模型具体公式如下:
其中,为第t个多头注意力机制矩阵,,,分别表示Q、K、V向量的权值矩
阵,表示每个矩阵Q、K、V 向量的维度大小,h 表示表示多头个数,T表示矩阵转置,为矩阵值,矩阵值的每一行代表输入句子中相应字的Attention向量,其中包含
了句子中该词和其他位置的词的相互关系信息,是一个新的向量表示。例如“这个动物并没
有走过马路是因为它太累了”以及“患者某某在一个月前为2a期肝癌患者,而此时为2b期肝
癌患者”,对于机器来说很难判断本句中的它是指动物还是马路、患者某某现在是2a期肝癌
患者还是2b期肝癌患者,基于自注意力机制和值的计算,就可以得知此句中的它与动
物的关联性较强、患者某某现在的肝癌情况与2b期肝癌关联性较强,从而使系统能够正确
获知该句子表达的语义内容。
将多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量,通过以下方式实现:
需要说明的是,BERT 模型通过上述机制在句子层面计算每个字词与该句子所在字词的相互关系,并通过这种相互关系调整每个字词在句子中的权重,获得新的向量表达,从而实现文本序列的高效词向量表征。
优选地,本发明的一个较佳实施例中,构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,具体包括以下步骤:
S302:基于神经网络构建分类模型,并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算,得到卷积特征值;
S304:将所述卷积特征值输入到池化层中,并采用最大池化的方式,在每一个卷积核中选出最大数字作为当前所在区域的特征值;
S306:通过在concatenate 层将所述当前所在区域的特征值进行融合,得到高维特征向量;
S308:将所述高维特征向量经过两个全连接层实现线性变换,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,并保存模型参数,以结束分类模型的训练。
需要说明的是,输入数据经过一层由 6 个不同卷积核大小的滤波器组成的卷积层,并将最大池化应用于该层的所有滤波器,之后将数据传入两个全连接层,最后使用ReLU 函数对输出进行激活,输出该组肝癌数据的分类结果。其中,分类模型结构的每一个卷积层参数均一致,具体参数设置为:输入通道参数为 128,卷积核大小分别为 2、3、4、5、6、7,步长大小设置为1,卷积填充设置为valid padding;分类模型结构的第一个全连接层完成一次 dropout,保持向量维度不变,设置 dropout 比例为 0.1;第二个全连接层使用ReLU 激活函数,输出大小参数设置为需要识别的肝癌分期类型个数。遍历数据集的次数设置为 30,批次为 64,分类模型训练使用的优化器为Adam,其中学习率参数设置为0.00005;分类模型训练使用损失函数为交叉熵损失函数,将处理好的训练集数据输入到搭建好的分类模型中进行训练,将数据集遍历预设的次数后获取模型的最优参数。
其中训练过程如下:
对长度大小为 n 的中文文本,卷积层通过采用 h 个不同大小的卷积核进行卷积运算,在第 i 处得到的卷积特征值为:
S = f(w ∙ Ti:i+h−1 + b), w ∈ Rh×k
其中,S为卷积特征值,k 表示每个词的词向量维度,w 表示卷积核,R表示维度,维度大小为 h×k,Ti:i+h−1表示由输入矩阵的第 i 行到第 i+h-1 行组成的卷积核。b 表示偏置函数,f 表示非线性映射函数。
而池化层采用最大池化的方式,在每一个卷积核中选出最大数字作为该区域的特征值。
在 concatenate 层将池化运算后的特征进行融合,得到高维的特征向量,其中过程如下:
C = [C1, C2, …, Cn−h+1], C ∈ Rn−h+1
其中,n 表示文本中字的数量,C 表示经过池化操作后的高维特征向量,R表示维度,其维度大小为i+h-1。完成卷积池化操作后,在下游任务中连接全连接神经网络层从而完成肝癌文本的分期预测。
优选地,本发明的一个较佳实施例中,其中将所述高维特征向量经过两个全连接层实现线性变换,具体为:
通过sigmoid 激活函数将高维特征向量转换为预测概率,其中,转换方式如下:
优选地,本发明的一个较佳实施例中,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,具体为:
通过交叉熵损失函数进行误差收敛,其计算方式如下:
其中,为收敛后的值;N 表示训练文本数量;L 表示文本对应的标签数量;在
[0,1]的取值范围之内,表示第 i 个样本中第 j 个类别的预测概率;∈{0,1}表示第 i
个样本是否属于第 j 个类别;“0”表示否,“1”表示“是”。
通过该方式直至误差收敛得到的值为预设值时,保存模型参数,最终与softmax分类器相连,对分类模型训练完成,当测试集输入经过卷积层、池化层、全连接层后,最后通过softmax分类器对全连接层的输出结果进行分类,以得到肝癌文本数据的分类结果。
通过提取文本中不同层次的语义信息实现肝癌分期,并且将肝癌分期结果更加细化,为医生提供更精确的分期结果。本发明通过利用结合 BERT 预训练模型和卷积神经网络的肝癌分期系统来对肝癌文本的处理实现特征提取和自动分类,采用深度学习技术学习医生的分期方法,有效地提高了肝癌分期系统的效率和实时性。
本发明第二方面提供了基于语义文本的智能肝癌分期系统,所述系统包括存储器41以及处理器62,所述存储器41中包括基于语义文本的智能肝癌分期方法程序,所述基于语义文本的智能肝癌分期方法程序被处理器执行时,实现如下步骤:
获取样本数据,并截取所述样本数据中描写肝部位的文本片段作为训练数据;
通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集;
获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量;
构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,并通过测试集对所述分类模型进行测试,得到分类结果。
优选地,本发明的一个较佳实施例中,获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT模型中,得到高维词向量,具体为:
获取所述训练集中的肝癌文本数据,并通过对所述肝癌文本数据进行分词处理,以得到文本特征向量;
构建BERT 模型,并将所述文本特征向量输入至所述BERT 模型的嵌入层中进行嵌入操作,得到操作结果;
将所述操作结果输入到Encoder层中,进行自注意力处理以及前馈神经网络的计算,得到多个目标输出矩阵;
将所述多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量。
需要说明的是,BERT 模型是谷歌提出的一个预训练模型,它通过在大规模、无标注的语料库中进行训练,使得模型具备理解文本更深层语义信息的能力,基于 12 层双向Transformer 编码器和 12 个多头注意力机制对肝癌文本进行动态字向量训练。其中,词向量维度为512,此表大小为 30522,隐藏层神经元个数为 768,激活函数为 gelu。BERT 模型主要使用的是 Transformer 中的 Encoder 部分,通过将多个 Transformer Encoder堆叠且双向连接,生成融合词汇和上下文语义信息的动态词向量表征。Transformer 编码结构由多头注意力机制和前馈神经网络组成,每一部分由残差网络进行连接,“Add&Norm”将该网络的输入和输出进行相加并归一化,避免梯度消失。其中多头注意力机制作为最重要的一部分,网络输入层文本序列中每个词的query、key 和value 组成输入向量Q、K、V,利用多头注意力机制,其模型具体公式如下:
其中,为第t个多头注意力机制矩阵,,,分别表示Q、K、V向量的权值矩
阵,表示每个矩阵Q、K、V 向量的维度大小,h 表示表示多头个数,T表示矩阵转置,为矩阵值,矩阵值的每一行代表输入句子中相应字的Attention向量,其中包含
了句子中该词和其他位置的词的相互关系信息,是一个新的向量表示。例如“这个动物并没
有走过马路是因为它太累了”,对于机器来说很难判断本句中的它是指动物还是马路,基于
自注意力机制和值的计算,就可以得知此句中的它与动物的关联性较强,从而使系统
能够正确获知该句子表达的语义内容。
将多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量,通过以下方式实现:
需要说明的是,BERT 模型通过上述机制在句子层面计算每个字词与该句子所在字词的相互关系,并通过这种相互关系调整每个字词在句子中的权重,获得新的向量表达,从而实现文本序列的高效词向量表征。
优选地,本发明的一个较佳实施例中,构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,具体包括以下步骤:
基于神经网络构建分类模型,并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算,得到卷积特征值;
将所述卷积特征值输入到池化层中,并采用最大池化的方式,在每一个卷积核中选出最大数字作为当前所在区域的特征值;
通过在concatenate 层将所述当前所在区域的特征值进行融合,得到高维特征向量;
将所述高维特征向量经过两个全连接层实现线性变换,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,并保存模型参数,以结束分类模型的训练。
需要说明的是,输入数据经过一层由 6 个不同卷积核大小的滤波器组成的卷积层,并将最大池化应用于该层的所有滤波器,之后将数据传入两个全连接层,最后使用ReLU 函数对输出进行激活,输出该组肝癌数据的分类结果。其中,分类模型结构的每一个卷积层参数均一致,具体参数设置为:输入通道参数为 128,卷积核大小分别为 2、3、4、5、6、7,步长大小设置为1,卷积填充设置为valid padding;分类模型结构的第一个全连接层完成一次 dropout,保持向量维度不变,设置 dropout 比例为 0.1;第二个全连接层使用ReLU 激活函数,输出大小参数设置为需要识别的肝癌分期类型个数。遍历数据集的次数设置为 30,批次为 64,分类模型训练使用的优化器为Adam,其中学习率参数设置为0.00005;分类模型训练使用损失函数为交叉熵损失函数,将处理好的训练集数据输入到搭建好的分类模型中进行训练,将数据集遍历预设的次数后获取模型的最优参数。
其中训练过程如下:
对长度大小为 n 的中文文本,卷积层通过采用 h 个不同大小的卷积核进行卷积运算,在第 i 处得到的卷积特征值为:
S = f(w ∙ Ti:i+h−1 + b), w ∈ Rh×k
其中,S为卷积特征值,k 表示每个词的词向量维度,w 表示卷积核,R表示维度,维度大小为 h×k,Ti:i+h−1表示由输入矩阵的第 i 行到第 i+h-1 行组成的卷积核。b 表示偏置函数,f 表示非线性映射函数。
而池化层采用最大池化的方式,在每一个卷积核中选出最大数字作为该区域的特征值。
在 concatenate 层将池化运算后的特征进行融合,得到高维的特征向量,其中过程如下:
C = [C1, C2, …, Cn−h+1], C ∈ Rn−h+1
其中,n 表示文本中字的数量,C 表示经过池化操作后的高维特征向量,R表示维度,其维度大小为i+h-1。完成卷积池化操作后,在下游任务中连接全连接神经网络层从而完成肝癌文本的分期预测。
优选地,本发明的一个较佳实施例中,其中将所述高维特征向量经过两个全连接层实现线性变换,具体为:
通过sigmoid 激活函数将高维特征向量转换为预测概率,其中,转换方式如下:
优选地,本发明的一个较佳实施例中,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,具体为:
通过交叉熵损失函数进行误差收敛,其计算方式如下:
其中,为收敛后的值;N 表示训练文本数量;L 表示文本对应的标签数量;在
[0,1]的取值范围之内,表示第 i 个样本中第 j 个类别的预测概率;∈{0,1}表示第 i
个样本是否属于第 j 个类别;“0”表示否,“1”表示“是”。
通过该方式直至误差收敛得到的值为预设值时,保存模型参数,最终与softmax分类器相连,对分类模型训练完成,当测试集输入经过卷积层、池化层、全连接层后,最后通过softmax分类器对全连接层的输出结果进行分类,以得到肝癌文本数据的分类结果。
本发明第三方面提供了一种计算机可存储介质,所述计算机可存储介质包括基于语义文本的智能肝癌分期方法程序,所述基于语义文本的智能肝癌分期方法程序被处理器62执行时,实现任一项所述的基于语义文本的智能肝癌分期方法的步骤。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
以上依据本发明的理想实施例为启示,通过上述的说明内容,相关人员完全可以在不偏离本项发明技术思想的范围内,进行多样的变更以及修改。本项发明的技术性范围并不局限于说明书上的内容,必须要根据权利要求范围来确定技术。
Claims (10)
1.基于语义文本的智能肝癌分期方法,其特征在于,包括以下步骤:
获取样本数据,并截取所述样本数据中描写肝部位的文本片段作为训练数据;
通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集;
获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量;
构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,并通过测试集对所述分类模型进行测试,得到分类结果。
2.根据权利要求1所述的基于语义文本的智能肝癌分期方法,其特征在于,通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集,具体包括以下步骤:
通过大数据网络获取CNLC分期标准,并通过所述CNLC分期标准对当前训练数据进行分期,将不存在分期结果的训练数据进行剔除,得到肝癌分期数据信息;
基于所述肝癌分期数据信息生成对应的类别标签,构建肝癌分期结果数据表,并将所述类别标签输入到所述肝癌分期数据表中;
将所述肝癌分期数据表中的数据进行随机打乱,并将所述肝癌分期数据表中的数据作为数据集;
按照预设比例将所述数据集分为训练集以及测试集。
3.根据权利要求1所述的基于语义文本的智能肝癌分期方法,其特征在于,获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量,具体为:
获取所述训练集中的肝癌文本数据,并通过对所述肝癌文本数据进行分词处理,以得到文本特征向量;
构建BERT 模型,并将所述文本特征向量输入至所述BERT 模型的嵌入层中进行嵌入操作,得到操作结果;
将所述操作结果输入到Encoder层中,进行自注意力处理以及前馈神经网络的计算,得到多个目标输出矩阵;
将所述多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量。
4.根据权利要求1所述的基于语义文本的智能肝癌分期方法,其特征在于,构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,具体包括以下步骤:
基于神经网络构建分类模型,并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算,得到卷积特征值;
将所述卷积特征值输入到池化层中,并采用最大池化的方式,在每一个卷积核中选出最大数字作为当前所在区域的特征值;
通过在concatenate 层将所述当前所在区域的特征值进行融合,得到高维特征向量;
将所述高维特征向量经过两个全连接层实现线性变换,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,并保存模型参数,以结束分类模型的训练。
7.基于语义文本的智能肝癌分期系统,其特征在于,所述系统包括存储器以及处理器,所述存储器中包括基于语义文本的智能肝癌分期方法程序,所述基于语义文本的智能肝癌分期方法程序被处理器执行时,实现如下步骤:
获取样本数据,并截取所述样本数据中描写肝部位的文本片段作为训练数据;
通过对所述训练数据进行预处理,得到数据集,并按照预设比例将所述数据集分为训练集以及测试集;
获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量;
构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,并通过测试集对所述分类模型进行测试,得到分类结果。
8.根据权利要求7所述的基于语义文本的智能肝癌分期系统,其特征在于,获取所述训练集中的肝癌文本数据,并对所述肝癌文本数据进行特征处理以获取文本特征向量,将所述文本特征向量输入至BERT 模型中,得到高维词向量,具体为:
获取所述训练集中的肝癌文本数据,并通过对所述肝癌文本数据进行分词处理,以得到文本特征向量;
构建BERT 模型,并将所述文本特征向量输入至所述BERT 模型的嵌入层中进行嵌入操作,得到操作结果;
将所述操作结果输入到Encoder层中,进行自注意力处理以及前馈神经网络的计算,得到多个目标输出矩阵;
将所述多个目标输出矩阵拼接成词向量矩阵,并将所述词向量矩阵压缩成预设序列长度大小,以获取高维词向量。
9.根据权利要求7所述的基于语义文本的智能肝癌分期系统,其特征在于,构建分类模型,并将所述高维词向量输入到所述分类模型中,得到训练完成的分类模型,具体包括以下步骤:
基于神经网络构建分类模型,并将所述高维词向量输入到所述分类模型的卷积层中通过采用若干个不同大小的卷积核进行卷积运算,得到卷积特征值;
将所述卷积特征值输入到池化层中,并采用最大池化的方式,在每一个卷积核中选出最大数字作为当前所在区域的特征值;
通过在concatenate 层将所述当前所在区域的特征值进行融合,得到高维特征向量;
将所述高维特征向量经过两个全连接层实现线性变换,通过交叉熵损失函数进行参数反向传播训练,直到误差收敛至预设值,并保存模型参数,以结束分类模型的训练。
10.一种计算机可存储介质,其特征在于,所述计算机可存储介质包括基于语义文本的智能肝癌分期方法程序,所述基于语义文本的智能肝癌分期方法程序被处理器执行时,实现如权利要求1-6任一项所述的基于语义文本的智能肝癌分期方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211141634.XA CN115658886A (zh) | 2022-09-20 | 2022-09-20 | 基于语义文本的智能肝癌分期方法、系统及介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211141634.XA CN115658886A (zh) | 2022-09-20 | 2022-09-20 | 基于语义文本的智能肝癌分期方法、系统及介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115658886A true CN115658886A (zh) | 2023-01-31 |
Family
ID=84984548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211141634.XA Pending CN115658886A (zh) | 2022-09-20 | 2022-09-20 | 基于语义文本的智能肝癌分期方法、系统及介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115658886A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975241A (zh) * | 2023-09-20 | 2023-10-31 | 广东技术师范大学 | 基于大语言模型的肝癌辅助诊断与问答方法、系统及介质 |
CN117473400A (zh) * | 2023-12-28 | 2024-01-30 | 中南大学 | 基于多通道层级变换网络结构的设备故障诊断方法 |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN112712118A (zh) * | 2020-12-29 | 2021-04-27 | 银江股份有限公司 | 一种面向医疗文本数据的过滤方法及系统 |
CN112926303A (zh) * | 2021-02-23 | 2021-06-08 | 南京邮电大学 | 一种基于BERT-BiGRU的恶意URL检测方法 |
CN113128214A (zh) * | 2021-03-17 | 2021-07-16 | 重庆邮电大学 | 一种基于bert预训练模型的文本摘要生成方法 |
CN113449106A (zh) * | 2021-06-28 | 2021-09-28 | 淮阴工学院 | 一种基于att-cn的医疗文本分类方法及装置 |
CN113468324A (zh) * | 2021-06-03 | 2021-10-01 | 上海交通大学 | 基于bert预训练模型和卷积网络的文本分类方法和系统 |
CN114547303A (zh) * | 2022-02-18 | 2022-05-27 | 哈尔滨工程大学 | 基于Bert-LSTM的文本多特征分类方法及装置 |
CN114860930A (zh) * | 2022-04-25 | 2022-08-05 | 桂林电子科技大学 | 一种文本分类方法、装置以及存储介质 |
CN114936280A (zh) * | 2022-03-16 | 2022-08-23 | 青岛海尔科技有限公司 | 文本分类方法、文本分类装置、存储介质及电子装置 |
-
2022
- 2022-09-20 CN CN202211141634.XA patent/CN115658886A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110377686A (zh) * | 2019-07-04 | 2019-10-25 | 浙江大学 | 一种基于深度神经网络模型的地址信息特征抽取方法 |
CN112712118A (zh) * | 2020-12-29 | 2021-04-27 | 银江股份有限公司 | 一种面向医疗文本数据的过滤方法及系统 |
CN112926303A (zh) * | 2021-02-23 | 2021-06-08 | 南京邮电大学 | 一种基于BERT-BiGRU的恶意URL检测方法 |
CN113128214A (zh) * | 2021-03-17 | 2021-07-16 | 重庆邮电大学 | 一种基于bert预训练模型的文本摘要生成方法 |
CN113468324A (zh) * | 2021-06-03 | 2021-10-01 | 上海交通大学 | 基于bert预训练模型和卷积网络的文本分类方法和系统 |
CN113449106A (zh) * | 2021-06-28 | 2021-09-28 | 淮阴工学院 | 一种基于att-cn的医疗文本分类方法及装置 |
CN114547303A (zh) * | 2022-02-18 | 2022-05-27 | 哈尔滨工程大学 | 基于Bert-LSTM的文本多特征分类方法及装置 |
CN114936280A (zh) * | 2022-03-16 | 2022-08-23 | 青岛海尔科技有限公司 | 文本分类方法、文本分类装置、存储介质及电子装置 |
CN114860930A (zh) * | 2022-04-25 | 2022-08-05 | 桂林电子科技大学 | 一种文本分类方法、装置以及存储介质 |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116975241A (zh) * | 2023-09-20 | 2023-10-31 | 广东技术师范大学 | 基于大语言模型的肝癌辅助诊断与问答方法、系统及介质 |
CN116975241B (zh) * | 2023-09-20 | 2024-01-09 | 广东技术师范大学 | 基于大语言模型的肝癌辅助诊断与问答方法、系统及介质 |
CN117473400A (zh) * | 2023-12-28 | 2024-01-30 | 中南大学 | 基于多通道层级变换网络结构的设备故障诊断方法 |
CN117473400B (zh) * | 2023-12-28 | 2024-03-26 | 中南大学 | 基于多通道层级变换网络结构的设备故障诊断方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112035672B (zh) | 一种知识图谱补全方法、装置、设备以及存储介质 | |
CN111611377B (zh) | 基于知识蒸馏的多层神经网络语言模型训练方法与装置 | |
CN107516110B (zh) | 一种基于集成卷积编码的医疗问答语义聚类方法 | |
CN115658886A (zh) | 基于语义文本的智能肝癌分期方法、系统及介质 | |
CN112015868B (zh) | 基于知识图谱补全的问答方法 | |
CN109920501A (zh) | 基于卷积神经网络和主动学习的电子病历分类方法及系统 | |
CN110111864B (zh) | 一种基于关系模型的医学报告生成系统及其生成方法 | |
CN112784801A (zh) | 基于文本和图片的双模态胃部疾病分类方法及装置 | |
CN109949929A (zh) | 一种基于深度学习大规模病历的辅助诊断系统 | |
Chen et al. | Recursive context routing for object detection | |
CN111914562B (zh) | 电子信息分析方法、装置、设备及可读存储介质 | |
CN114549850B (zh) | 一种解决模态缺失问题的多模态图像美学质量评价方法 | |
CN116779091B (zh) | 一种多模态网络互联融合的胸部影像诊断报告自动生成方法 | |
DE102021004562A1 (de) | Abwandlung von Szenengraphen auf Grundlage von Befehlen in natürlicher Sprache | |
WO2024001104A1 (zh) | 一种图文数据互检方法、装置、设备及可读存储介质 | |
CN112256878A (zh) | 一种基于深度卷积的水稻知识文本分类方法 | |
CN115223021A (zh) | 一种基于视觉问答的果树全生长期农事作业决策方法 | |
CN115129884A (zh) | 基于语义交互匹配网络的知识图谱补全方法及系统 | |
CN113920379A (zh) | 一种基于知识辅助的零样本图像分类方法 | |
CN110083842A (zh) | 译文质量检测方法、装置、机器翻译系统和存储介质 | |
CN117316369B (zh) | 平衡跨模态信息的胸部影像诊断报告自动生成方法 | |
CN112016299B (zh) | 计算机执行、利用神经网络生成依存句法树的方法及装置 | |
CN117272149A (zh) | 一种基于语言模型的跨表格多任务预训练方法和装置 | |
CN115588486A (zh) | 一种基于Transformer的中医诊断生成装置及其应用 | |
CN115455162A (zh) | 层次胶囊与多视图信息融合的答案句子选择方法与装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |