CN113159134A

CN113159134A - 基于乳腺结构化报告的智能化诊断评估方法

Info

Publication number: CN113159134A
Application number: CN202110332787.1A
Authority: CN
Inventors: 李文杰; 陈�峰; 李明; 陈洋; 王振平; 简刚; 唐武斌
Original assignee: Ningbo Science And Technology Park Tomorrow Medical Network Technology Co ltd
Current assignee: Ningbo Science And Technology Park Tomorrow Medical Network Technology Co ltd
Priority date: 2021-03-29
Filing date: 2021-03-29
Publication date: 2021-07-23

Abstract

本发明公开了一种基于乳腺结构化报告的智能化诊断评估方法，它包括用选择性多模态长短期神经网络模型，在放射信息系统的服务器端和用户终端上实现接收乳腺结构化报告文本，对文本进行分词编码，计算医学影像的图像数据和分词编码得到的输入文本关键信息的相似度，通过阈值比对来评估诊断质量并在存在问题是向用户发出提醒。本发明得到的基于乳腺结构化报告的智能化诊断评估方法，能够对图像病灶位置信息提取，并和结构化报告中的书写内容进行匹配，筛查低于阈值的报告和书写信息，并提醒影像诊断医生复查，从而起到了对报告中诊断质量的监控、评估作用，最终达到减少影像科医生工作量、提高诊断质量、降低误诊率的效果。

Description

基于乳腺结构化报告的智能化诊断评估方法

技术领域

本发明涉及医疗服务领域，特别是一种基于乳腺结构化报告的智能化诊断评估方法。

背景技术

当前，医疗行业逐渐向智能化、自动化方向前进，医疗机构使用放射信息系统实现患者的预约、检查、报告、发片的业务流程。其中在报告环节，为了提高放射影像报告的内容完整度、用语准确度、报告实用性，经过专家共识开发了结构化报告这种统一术语和形式的报告格式。但是在编写结构化报告时，报告内容仍然需要依赖医生根据影像所见和发现进行内容输入，由于医生个人水平和经验等原因，难免发生漏诊或误诊的情况，存在耽误患者病情的可能。在目前的影像诊断流程中为了避免漏诊或误诊，规定采用人工复审的方式，对已完成编写的初步报告进行审核，尽量减少漏误诊的发生概率。

目前，随着人工智能迅猛发展，图像文字匹配技术得到长足进步，在CVPR论文“Instance-aware Image and Sentence Matching with Selective Multimodal LSTM”中，提出了以选择性多模态长短期神经网络模型匹配图文的技术方法，为实现智能化评估诊断报告提供了可能。

发明内容

本发明的目的是为了解决上述现有技术的不足而提供一种能够帮助医生在审核初步报告时提高工作效率和准确性，减轻医生的工作量的基于乳腺结构化报告的智能化诊断评估方法。

为了实现上述目的，本发明所设计的基于乳腺结构化报告的智能化诊断评估方法，它包括使用选择性多模态长短期神经网络模型(sm-LSTM)，在放射信息系统(RIS)的服务器端和用户终端上实现下述操作步骤：

a.用户在用户终端输入由文本组成的乳腺结构化报告，该乳腺结构化报告为用户依据患者检查生成的医学影像而编写的内容，医学影像存储在PACS系统的服务器上，其中乳腺结构化报告的文本具备统一的术语和形式；

b.乳腺结构化报告的文本被传输至放射信息系统的服务器，服务器采用基于病灶术语库的分词算法对文本信息进行分割编码，得到输入文本关键信息；

c.放射信息系统服务器端程序自动调取乳腺结构化报告编写时所依据的医学影像；

d.放射信息系统服务器端程序将医学影像的图像数据和依照分词前语句顺序排列的输入文本关键信息输入选择性多模态长短期神经网络模型中，计算各输入文本关键信息与医学影像的图像数据的相似度；

e.将计算得到的相似度与放射信息系统服务器端程序中预设的阈值相比较，当相似度低于阈值时，则通过用户终端提醒用户步骤a中输入的乳腺结构化报告存在问题。

为了适应不同医院的使用需求，方便接收并设定医院自身使用的词库，步骤b中基于病灶术语库的分词算法采用jieba作为中文分词词库，分词词库中设定有以用户编写的医学术语为内容的自定义医学词库。

为了实现对文字和图像的有效匹配和检查，所述选择性多模态长短期神经网络模型包括有数据对象信息提取模块、感知显著性预测模块以及相似度计算模块，所述数据对象信息提取模块包括双向长短期记忆网络(BLSTM)和卷积神经网络(CNN)，所述感知显著性模块内设有通过多层感知机(MLP)实现的注意力机制，所述相似度计算模块通过局部相似度计算多层感知机、长短期记忆网络(LSTM)以及相似度评分感知机实现。

为了得到符合需求的模型，选择性多模态长短期神经网络模型的采用过去检查生成的医学影像的图像数据和对应的乳腺图像结构化报告文本作为模型的训练集、测试集和验证集，将训练集、测试集和验证集的训练数据中的所述已有的乳腺图像结构化报告文本预先采用步骤b中基于病灶术语库的分词算法进行分词编码为训练用文本关键信息，同时将训练集中的图像数据与训练用文本关键信息数据中匹配和不匹配的数据比例设置为1:3，从而得到可以用于输入选择性多模态长短期神经网络模型的训练数据；将训练数据输入选择性多模态长短期神经网络模型后，计算得到图像数据与训练用文本关键信息的匹配度，通过反馈学习，在前述匹配度达到95％后停止对选择性多模态长短期神经网络模型的训练。

对选择性多模态长短期神经网络模型的训练采用的GPU为Titan RTX24G VRAM。

为了适应病灶术语和结构化报告的语言形式，同时方便双向长短期记忆网络进行结合上下文的语义理解，所述基于病灶术语库的分词算法，其分词的最大长度设置为100，分词时文本不足的部分用数字0补齐。

为了从经过训练的模型中挑选出最合适的模型，在停止对选择性多模态长短期神经网络模型的训练后，采用测试集的数据对模型进行测试。

经过测试验证后，优选的，所述步骤e中所述阈值为0.9。

为了不断优化，服务器收到用户发出的误报信息，即选择性多模态长短期神经网络模型对输入文本关键信息和图像顺序的相似度计算有误时，服务器将导致误报的图像数据和输入文本关键信息添加到所述训练数据中，对选择性多模态长短期神经网络模型进行调整训练。

本发明得到的基于乳腺结构化报告的智能化诊断评估方法，利用提取出来已有的审核准确报告中的图像病灶位置、特征和结构化报告文本信息，进行匹配性训练，实现成对图像文本实例提取、局部相似性度量和融合，能够对图像病灶位置和特征信息提取，并和结构化报告中的书写内容进行匹配，筛查低于阈值的报告和书写信息，并提醒影像诊断医生复查，从而起到了对报告中诊断质量的监控、评估作用，最终达到减少影像科医生工作量、提高诊断质量、降低漏误诊率的效果。

附图说明

图1是本发明基于乳腺结构化报告的智能化诊断评估方法实施例1的诊断评估流程图；

图2是实施例1中选择性多模态长短期神经网络模型的部分结构示意图。

具体实施方式

下面结合附图和实施例对本发明进一步说明。

实施例1：

本实施例描述的基于乳腺结构化报告的智能化诊断评估方法，如图1所示，它包括使用选择性多模态长短期神经网络模型，在放射信息系统的服务器端和用户终端上实现下述操作步骤：

a.用户在用户终端输入由文本组成的乳腺结构化报告，该乳腺结构化报告为用户依据患者检查生成的医学影像而编写的内容，医学影像存储在PACS系统的服务器上，其中乳腺结构化报告的文本具备统一的术语和形式；本实施例中，用户可以通过用户终端调取存储在PACS系统的服务器中的医学影像的图像数据，使之以图像形式展现在用户终端上，同时放射医生作为用户通过用户终端编写乳腺结构化报告；

e.将计算得到的相似度与服务器的程序中预设的阈值相比较，当相似度低于阈值时，则通过用户终端提醒用户步骤a中输入的乳腺结构化报告存在问题；对于该阈值可以在调试训练选择性多模态长短期神经网络模型的过程中得到，通过用户终端提醒用户的方式包括窗口提示、蜂鸣器或音箱发声等方式。

为了适应不同医院的使用需求，方便接收并设定医院自身使用的词库，步骤b中基于病灶术语库的分词算法采用jieba作为中文分词词库，分词词库中设定有以用户编写的医学术语为内容的自定义医学词库，本实施例中的医学词库，是指包含有乳腺结构化报告标准诊断意见医学术语的、由用户自定义的词库，词库中的词汇部分举例如下：

为了实现对文字和图像的有效匹配和检查，如图2所示，所述选择性多模态长短期神经网络模型包括有数据对象信息提取模块、感知显著性预测模块以及相似度计算模块，所述数据对象信息提取模块包括双向长短期记忆网络和卷积神经网络，所述感知显著性模块内设有通过多层感知机实现的注意力机制，所述相似度计算模块通过局部相似度计算多层感知机、长短期记忆网络以及相似度评分感知机实现。

为了得到符合需求的模型，选择性多模态长短期神经网络模型的采用过去检查生成的医学影像的图像数据和对应的乳腺图像结构化报告文本作为模型的训练集、测试集和验证集，将训练集、测试集和验证集的训练数据中的所述已有的乳腺图像结构化报告文本预先采用步骤b中基于病灶术语库的分词算法进行分词编码为训练用文本关键信息，同时将训练集中的图像数据与训练用文本关键信息数据中匹配和不匹配的数据比例设置为1:3，从而得到可以用于输入选择性多模态长短期神经网络模型的训练数据；将训练数据输入选择性多模态长短期神经网络模型后，计算得到图像数据与训练用文本关键信息的匹配度，通过反馈学习，在前述匹配度达到95％后停止对选择性多模态长短期神经网络模型的训练；实际操作中，所述过去检查生成的医学影像的图像数据和对应的乳腺图像结构化报告文本由使用该系统的医院提供。

经过测试验证后，优选的，所述步骤e中所述阈值为0.9。

为了不断优化，服务器收到用户发出的误报信息，即选择性多模态长短期神经网络模型对输入文本关键信息和图像顺序的相似度计算有误时，服务器将导致误报的图像数据和输入文本关键信息添加到所述训练数据中，对选择性多模态长短期神经网络模型进行调整训练

以实例说明上述内容，举例来说，在步骤a中，输入下表中列出的乳腺结构化报告内容：

经步骤b中的分词算法处理后，上表内容会被分割为：

表格中的“/”仅为方便阅读而使用，并不代表在执行分词算法后会出现该符号，对上述分割后的内容进行编码，即得到相应的输入文本关键信息，该输入文本关键信息内包含有多个词汇以及这些词汇间的语句顺序关系。

所述的双向长短期记忆网络经训练后能够实现对输入文本关键信息的语义识别，对步骤d中依照语句顺序输入模型的输入文本关键信息，依照前后文关系进行处理，得到两列处理方向相反的隐藏状态(hidden state)，并将相同时间步的用于表达两列隐藏状态的向量连接后作为输入文本关键信息各个词汇的语义表达向量。

同样的，对于输入的图像数据，先将图像数据分割成等大的若干区域，而后卷积神经网络对图像数据进行卷积操作，并用最终卷积层从图像数据中提取出的图像特征映射(feature maps)来表示图像中的区域，并将各个特征映射中代表相同位置的区域的特征映射数值连接起来，从而以特征向量的形式作为图像数据中各个区域的图像含义表达向量。

语义表达向量构成集合{w_j|w_j∈R^G}_j＝1,…,J，图像数据含义表达向量构成集合{a_i|a_i∈R^F}_i＝1,…,I，其中w_j为第j个词汇的语义表达向量，G为双向长短期记忆网络中隐藏状态维数的两倍，J是输入文本关键信息所代表的词汇的总数量；对应的，a_i为第i个图像区域的图像含义表达向量，F为卷积操作中特征映射的总数量，I为图像中区域的总数量。

在得到集合{w_j|w_j∈R^G}_j＝1,…,J和{a_i|a_i∈R^F}_i＝1,…,I后，感知显著性模块的注意力机制利用下列公式分别计算区域和词汇的显著性值：

上式中，p_t,i和q_t,j分别表示在第t个时间步中，第i个图像区域、第j个输入文本关键信息的词汇会被选中进行匹配的概率，在上式的计算过程中，m表示图像数据所表达的内容的全局语境(global context)，其内容为卷积神经网络最终全连接层的输出向量，n代表输入文本关键信息的全局语境，其内容为双向长短期记忆网络最后一个时间步中的隐藏状态，h_t-1为前次时间步中的隐藏状态，通过在式中引入h_t-1参数，能够避免注意力机制在选择待匹配图像区域和词汇的过程中发生重复选择，从而导致重复匹配的情况。

上式中，f_p函数及f_q函数为多层感知机，其公式为：

f_p(m,a_i,h_t-1)＝w_p(σ(mW_m+b_m)+σ(a_iW_a+b_a)+σ(h_t-1W_h+b_h))+b_p；

f_q(n,w_j,h_t-1)＝w_q(σ(nW_n+b_n)+σ(w_jW_w+b_w)+σ(h_t-1W_h+b_h))+b_q；

上式中，w_p和b_p分别为权重向量以及标量偏差，w_q及b_q的含义同前，W_m、W_a、W_h、W_n及W_w均为各对应值的权重参数，b_m、b_a、b_h、b_n及b_w均为偏差向量，权重向量、标量偏差、权重参数及偏差向量在对选择性多模态长短期神经网络模型进行训练前，可以选择任意值，其值会随着选择性多模态长短期神经网络模型的不断接受训练而调整。

注意力机制选择得到待匹配的区域和词汇后，以加权和a′_t和w′_t的形式分别表示被选中的区域和词汇：

将加权和输入相似度计算模块的局部相似度计算多层感知机后，可以得到不同时间步的局部相似度列成的矩阵{s_t}_t＝1,…,T，其中T为时间步的总数量，此时再使用长短期记忆网络对局部相似度列成的矩阵进行聚合，具体而言，是指以局部相似度作为长短期记忆网络的输入，所述的长短期记忆网络包含下列参数：

i_t＝σ(W_sis_t+W_hih_t-1+b_i)；

f_t＝σ(W_sfs_t+W_hfh_t-1+b_f)；

c_t＝f_t⊙c_t-1+i_t⊙tanh(W_scs_t+W_hch_t-1+b_c)；

o_t＝σ(W_sos_t+W_hoh_t-1+b_o)；

h_t＝o_t⊙tanh(c_t)。

其中i_t表示输入，f_t表示忘记门控，c_t表示当前第t个时间步的记忆门控，o_t表示第t个时间步的输出。

经过长短期记忆网络的聚合后，局部相似度被聚合为输入文本关键信息与图像数据的整体匹配度，该整体匹配度以h_T，即长短期记忆网络传递的最后一个时间步的隐藏状态表示，同时通过相似度评分感知机计算出最终的相似度s，所述相似度评分感知机为：

s＝w_hs(σ(W_hhh_t+b_h))+b_s；

长短期记忆网络及相似度评分感知机中，w_hs和b_s分别为权重向量以及标量偏差，W_si、W_hi、W_sf、W_hf、W_sc、W_hc、W_so、W_ho、W_hh均为权重参数，b_i、b_f、b_c、b_o、b_s均为偏差向量，上述权重向量、标量偏差、权重参数及偏差向量的设置方式与多层感知机f_p及f_q中的内容相同。

计算得到的相似度s在步骤e中与阈值相比较，对本实施例而言，s<0.9时，即认为乳腺结构化报告的诊断内容存在问题，需要通过用户终端提醒用户进行复查修改。

当用户对乳腺结构化报告的文本和DCM影像进行复查，并发现当前状态为误报后，则可以通过用户终端向服务器发出误报信息，从而执行前述的调整训练过程，在实际操作中，所述的调整训练可以等导致误报的图像数据和输入文本关键信息累积到一定数量后再进行，具体数量可以在开发时人为设置，所述的调整训练的流程与选择性多模态长短期神经网络模型初始训练的流程一致。

对于选择性多模态长短期神经网络模型的训练，本实施例在实际操作中设定有结构化目标函数：

∑_ikmax{0,m-s_ii+s_ik}+max{0,m-s_ii+s_ki}；

上式张总，m为可调节参数，可以采用人为设定的方式设定，并依照训练结果进行调整；s_ii、s_ik及s_ki分别为第i个图像数据与第i个训练用文本关键信息数据的相似度、第i个图像数据与第k个训练用文本关键信息数据的相似度以及第k个图像数据与第i个训练用文本关键信息数据的相似度。

同时，对目标函数添加一个配对双随机正则化：

λ(∑_i(1-∑_tp_t,i)+∑_j(1-∑_tq_t,j))；

上式对所有时间步中的任意区域、词汇的显著性之和进行了归一化，其中λ是一个人为添加的平衡参数，利用该式，可以增加被训练模型进行重复操作时，即对同一区域和词汇进行多余的重复选择比对操作时的损失，从而提升模型的训练效率和训练效果。

应当理解的是，上述对基于乳腺结构化报告的智能化诊断评估方法的具体实施过程中，选择性多模态长短期神经网络模型的训练流程及结构为现有技术。

本实施例提供的基于乳腺结构化报告的智能化诊断评估方法，利用提取出来已有的审核准确报告中的图像病灶位置和结构化报告关键信息，进行匹配性训练，实现成对图像文本实例提取、局部相似性度量和融合，能够对图像病灶位置信息提取，并和结构化报告中的书写内容进行匹配，筛查低于阈值的报告和书写信息，并提醒影像诊断医生复查，从而起到了对报告中诊断质量的监控、评估作用，最终达到减少影像科医生工作量、提高诊断质量、降低误诊率的效果。

Claims

1.一种基于乳腺结构化报告的智能化诊断评估方法，它的特征是包括使用选择性多模态长短期神经网络模型，在放射信息系统的服务器端和用户终端上实现下述操作步骤：

a.用户在用户终端输入由文本组成的乳腺结构化报告，该乳腺结构化报告为用户依据患者检查生成的医学影像而编写的内容，医学影像存储在PACS系统的服务器上；

2.根据权利要求1所述的基于乳腺结构化报告的智能化诊断评估方法，其特征是步骤b中基于病灶术语库的分词算法采用jieba作为中文分词词库，分词词库中设定有以用户编写的医学术语为内容的自定义医学词库。

3.根据权利要求1或2所述的基于乳腺结构化报告的智能化诊断评估方法，其特征是所述选择性多模态长短期神经网络模型包括有数据对象信息提取模块、感知显著性预测模块以及相似度计算模块，所述数据对象信息提取模块包括双向长短期记忆网络和卷积神经网络，所述感知显著性模块内设有通过多层感知机实现的注意力机制，所述相似度计算模块通过局部相似度计算多层感知机、长短期记忆网络以及相似度评分感知机实现。

4.根据权利要求1或2所述的基于乳腺结构化报告的智能化诊断评估方法，其特征是选择性多模态长短期神经网络模型的采用过去检查生成的医学影像的图像数据和对应的乳腺结构化报告文本作为模型的训练集、测试集和验证集，将训练集、测试集和验证集的训练数据中的所述已有的乳腺图像结构化报告文本预先采用步骤b中基于病灶术语库的分词算法进行分词编码为训练用文本关键信息，同时将训练集中的图像数据与训练用文本关键信息数据中匹配和不匹配的数据比例设置为1:3，从而得到可以用于输入选择性多模态长短期神经网络模型的训练数据；将训练数据输入选择性多模态长短期神经网络模型后，计算得到图像数据与训练用文本关键信息的匹配度，通过反馈学习，在前述匹配度达到95％后停止对选择性多模态长短期神经网络模型的训练。

5.根据权利要求4所述的基于乳腺结构化报告的智能化诊断评估方法，其特征是对选择性多模态长短期神经网络模型的训练采用的GPU为Titan RTX 24G VRAM。

6.根据权利要求4所述的基于乳腺结构化报告的智能化诊断评估方法，其特征是所述基于病灶术语库的分词算法，其分词的最大长度设置为100，分词时文本不足的部分用数字0补齐。

7.根据权利要求4所述的基于乳腺结构化报告的智能化诊断评估方法，其特征是在停止对选择性多模态长短期神经网络模型的训练后，采用测试集的数据对模型进行测试。

8.根据权利要求1或2所述的基于乳腺结构化报告的智能化诊断评估方法，其特征是步骤e中所述阈值为0.9。

9.根据权利要求4所述的基于乳腺结构化报告的智能化诊断评估方法，其特征是服务器收到用户发出的误报信息，即选择性多模态长短期神经网络模型对输入文本关键信息和图像顺序的相似度计算有误时，服务器将导致误报的图像数据和输入文本关键信息添加到所述训练数据中，对选择性多模态长短期神经网络模型进行调整训练。