CN112712879A

CN112712879A - 医学影像报告的信息提取方法、装置、设备及存储介质

Info

Publication number: CN112712879A
Application number: CN202110061491.0A
Authority: CN
Inventors: 王雅迪; 朱晓娟; 彭思翔; 管冲
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-01-18
Filing date: 2021-01-18
Publication date: 2021-04-27
Anticipated expiration: 2041-01-18
Also published as: CN112712879B

Abstract

本申请公开了一种医学影像报告的信息提取方法、装置、设备及存储介质，涉及计算机技术领域。该方法包括：获取医学影像报告的文本信息；对文本信息中的词语序列进行编码处理，得到词语序列对应的词向量，词向量融合有词语序列中上下文词语之间的语义联系；对词向量进行实体信息提取，得到医学影像报告对应的结构化报告文本，结构化报告文本包括文本信息含有的实体和实体所属的实体类型。通过利用对医学影像报告进行实体信息提取，可生成结构化报告文本，保留了医护人员的书写习惯，具有普适性。

Description

医学影像报告的信息提取方法、装置、设备及存储介质

技术领域

本申请涉及计算机技术领域，特别涉及一种医学影像报告的信息提取方法、装置、设备及存储介质。

背景技术

医学影像是指为了医疗或医学研究，对人体或人体某部分，以非侵入方式取得内部组织影像，医生通过对医学影像进行分析对比，为患者提供诊断意见或进一步检查的建议。

相关技术中，基于医学影像识别、影像特征以及疾病知识体系(针对不同类型的疾病对应有不同的知识体系)等医学知识构建结构化的报告模板，为医生提供书写报告时的话术模板，医生需要根据模板的固有的内容去选择相应的语句模板对病灶进行描述。比如，针对肺部图像的话术模板包括肺部纹理清晰和肺部纹理模糊，医生通过手动选择话术模板形成医学影像报告。

上述技术方案中，由于不同医生在书写习惯不同，需要按照模板规则进行填写，超出模板涵盖范围的部分无法填写，不具有普适性。

发明内容

本申请实施例提供了一种医学影像报告的信息提取方法、装置、设备及存储介质，通过对医学影像报告进行实体信息提取，可生成结构化报告文本，保留了医护人员的书写习惯，具有普适性。所述技术方案为如下方案：

根据本申请的一方面，提供了一种医学影像报告的信息提取方法，所述方法包括：

获取所述医学影像报告的文本信息；

对所述文本信息中的词语序列进行编码处理，得到所述词语序列对应的词向量，所述词向量融合有所述词语序列中上下文词语之间的语义联系；

对所述词向量进行实体信息提取，得到所述医学影像报告对应的结构化报告文本，所述结构化报告文本包括所述文本信息含有的实体和所述实体所属的实体类型。

根据本申请的另一方面，提供了一种实体信息提取模型的训练方法，所述方法包括：

获取医学影像报告的样本文本信息，所述样本文本信息标注有实体和所述实体所属的实体类型；

对所述样本文本信息中的词语序列进行编码处理，得到所述词语序列对应的样本词向量；

将所述样本词向量输入至所述实体信息提取模型，得到所述样本文本信息中的预测实体和预测实体类型；

根据所述实体、实体类型、所述预测实体和所述预测实体类型对所述实体信息提取模型进行训练，得到训练后的实体信息提取模型。

根据本申请的另一方面，提供了一种医学影像报告的信息提取方法，所述方法包括：

显示文本信息提取页面，所述文本信息提取页面包括输入文本框和信息提取控件；

接收所述输入文本框的输入操作，显示输入的医学影像报告的文本信息；

响应于接收到所述信息提取控件上的信息提取操作，显示所述医学影像报告对应的结构化报告文本，所述结构化报告文本包括所述文本信息含有的实体和所述实体所属的实体类型。

根据本申请的另一方面，提供了一种医学影像报告的信息提取装置，所述装置包括：

第一获取模块，用于获取所述医学影像报告的文本信息；

第一处理模块，用于对所述文本信息中的词语序列进行编码处理，得到所述词语序列对应的词向量，所述词向量融合有所述词语序列中上下文词语之间的语义联系；

第一信息提取模块，用于对所述词向量进行实体信息提取，得到所述医学影像报告对应的结构化报告文本，所述结构化报告文本包括所述文本信息含有的实体和所述实体所属的实体类型。

根据本申请的另一方面，提供了一种实体信息提取模型的训练装置，所述装置包括：

第二获取模块，用于获取医学影像报告的样本文本信息，所述样本文本信息标注有实体和所述实体所属的实体类型；

第二处理模块，用于对所述样本文本信息中的词语序列进行编码处理，得到所述词语序列对应的样本词向量；

第二信息提取模块，用于将所述样本词向量输入至所述实体信息提取模型，得到所述样本文本信息中的预测实体和预测实体类型；

训练模块，用于根据所述实体、实体类型、所述预测实体和所述预测实体类型对所述实体信息提取模型进行训练，得到训练后的实体信息提取模型。

显示模块，用于显示文本信息提取页面，所述文本信息提取页面包括输入文本框和信息提取控件；

接收模块，用于接收所述输入文本框的输入操作，显示输入的医学影像报告的文本信息；

所述显示模块，用于响应于接收到所述信息提取控件上的信息提取操作，显示所述医学影像报告对应的结构化报告文本，所述结构化报告文本包括所述文本信息含有的实体和所述实体所属的实体类型。

根据本申请的另一方面，提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的医学影像报告的信息提取方法和实体信息提取模型的训练方法。

根据本申请的另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的医学影像报告的信息提取方法和实体信息提取模型的训练方法。

根据本申请的另一方面，提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如上方面所述的医学影像报告的信息提取方法和实体信息提取模型的训练方法。

本申请实施例提供的技术方案带来的有益效果至少包括如下效果。

通过从医学影像报告的文本信息中提取实体信息，根据是实体信息来生成结构化报告文本，使得医护人员可最大程度上保留自己的书写习惯，自由度较高且保证结构化报告的书写规范；同时可以对已有的历史非结构化报告进行整理，提高了对医学影像报告的处理效率，并且适用于各类疾病以及各类医学影像对应的报告，具有普适性。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一个示例性实施例提供的计算机系统的框架图；

图2是本申请一个示例性实施例提供的医学影像报告的信息提取方法的流程图；

图3是本申请另一个示例性实施例提供的医学影像报告的信息提取方法的流程图；

图4是本申请一个示例性实施例提供的医学影像报告的信息提取方法的框架图；

图5是本申请一个示例性实施例提供的编码处理方式的示意图；

图6是本申请一个示例性实施例提供的实体信息提取模型的结构示意图；

图7是本申请另一个示例性实施例提供的医学影像报告的信息提取方法的框架图；

图8是本申请一个示例性实施例提供的实体信息提取模型的训练方法的流程图；

图9是本申请另一个示例性实施例提供的实体信息提取模型的训练方法的流程图；

图10是本申请一个示例性实施例提供的样本文本的预处理方法的流程图；

图11是本申请一个示例性实施例提供的实体信息提取模型的训练方法的框架图；

图12是本申请一个示例性实施例提供的诊断建议预测模型的训练方法的框架图；

图13是本申请另一个示例性实施例提供的医学影像报告的信息提取方法的流程图；

图14是本申请一个示例性实施例提供的医学影像报告的信息提取方法的界面示意图；

图15是本申请另一个示例性实施例提供的医学影像报告的信息提取方法的界面示意图；

图16是本申请另一个示例性实施例提供的医学影像报告的信息提取方法的界面示意图；

图17是本申请另一个示例性实施例提供的医学影像报告的信息提取方法的界面示意图；

图18是本申请一个示例性实施例提供的医学影像报告的信息提取装置的结构框图；

图19是本申请一个示例性实施例提供的实体信息提取模型的训练装置的结构框图；

图20是本申请另一个示例性实施例提供的医学影像报告的信息提取装置的结构框图；

图21是本申请一个示例性实施例提供的服务器的装置结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

首先，对本申请实施例涉及的名词进行介绍。

电子计算机断层扫描(Computed Tomography，CT)：是利用精确准直的X线束、γ射线、超声波等，与灵敏度极高的探测器一同围绕人体的某一部位作一个接一个的断面扫描，具有扫描时间快，图像清晰等特点，可用于多种疾病的检查；根据所采用的射线不同可分为：X射线CT(X-CT)以及γ射线CT(γ-CT)等。

自然语言处理(Natural Language Processing，NLP)：是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱、命名实体识别(Named Entity Recognition，NER)等技术。

模板(Schema)：是指文本标注的模板，本申请实施例中的模板是针对影像描述文本的结构化模板和诊断结果文本的结构化模板。其中，影像描述文本的结构化模板包括位置描述模板、状态描述模板和其他描述模板；诊断结果文本的结构化模板包括位置描述模板、病灶描述模板和诊断总结模板。

信息抽取(Information Extraction，IE)：又被命名为信息提取，是把文本里包含的信息进行结构化处理，形成类似于表格的组织形式。输入信息抽取系统的是原始文本，输出的是固定格式的信息。信息从各种类型的文档中被抽取出来，然后以统一的形式汇总在一起。这就是信息抽取的主要任务。

基于转换器模型的双向编码表示模型(Bidirectional Encoder Representationfrom Transformers，BERT)：是2018年10月由Google AI研究院提出的一种预训练模型。在一个大型文本语料库(比如百科全书)上训练一个通用的“语言理解”模型，然后将这个“语言理解”模型用于下游NLP任务。BERT模型优于以前的方法，因为它是第一个用于预训练的无监督、深度双向系统(Unsupervised，Deeply Bidirectional System)。

双向长短期记忆网络(Bi-directional Long Short-Term Memory，BiLSTM)：由前向长短期记忆网络(Long Short-Term Memory，LSTM)与后向LSTM网络组合而成。适合做上下有关系的序列标注任务，因此在NLP任务中常被用来识别上下文信息。双向LSTM网络是LSTM网络的改进版。

条件随机场算法(Conditional Random Field Algorithm，CRF)：是一种数学算法，是2001年提出的，基于遵循马尔可夫性的概率图模型。

梯度提升树模型(Gradient Boosting Decision Tree，GBDT)：是一种迭代的决策树算法，该算法由多棵树组成，所有树的结论累加起来得到最终的预测结果。GBDT模型通过多轮迭代，每轮迭代产生一个弱分类器，每个分类器在上一轮分类器的残差基础上进行训练，通过降低偏差来不断提高最终分类器的精度。

美国国立综合癌症网络指南(National Comprehensive Cancer Network)：又被命名为NCCN指南，是指美国国立综合癌症网络每年发布的各种恶性肿瘤临床实践指南。

医疗云(Medical Cloud)，是指在云计算、移动技术、多媒体、4G通信、大数据、以及物联网等新技术基础上，结合医疗技术，使用“云计算”来创建医疗健康服务云平台，实现了医疗资源的共享和医疗范围的扩大。因为云计算技术的运用于结合，医疗云提高医疗机构的效率，方便居民就医。像现在医院的预约挂号、电子病历、医保等都是云计算与医疗领域结合的产物，医疗云还具有数据安全、信息共享、动态扩展、布局全局的优势。本申请实施例中提供的医学影像报告的信息提取方法可与上述医疗健康服务云平台结合，医护人员将各种医学影像的结构化报告上传至该云平台，供其他医护人员在需要时查询、参考。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、自然语言处理技术、人工智能医疗技术等几大方向。

随着人工智能技术研究和进步，人工智能技术在多个领域展开研究和应用，例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等，相信随着技术的发展，人工智能技术将在更多的领域得到应用，并发挥越来越重要的价值。

本申请实施例提供的医学影像报告的信息提取方法可以应用于如下场景。

一、医疗人员诊疗场景。

在该应用场景下，采用本申请实施例提供的医学影像报告的信息提取方法可应用于医疗类应用程序的后台服务器中。后台服务器中构建有语言模型和实体信息提取模型，通过获取医疗人员在医疗类应用程序中输入医学影像的影像描述文本和诊断结果文本，将该影像描述文本和诊断结果文本分别输入至语言模型，输出影像描述文本对应的第一词向量和诊断结果文本对应的第二词向量，将第一词向量和第二词向量分别输入至实体信息提取模型中，输出影像描述文本中的实体和实体所属的实体类型，输出诊断结果文本中的实体和实体所属的是实体类型。由此生成医学影像的结构化报告文本，该结构化报告文本包括结构化描述文本和结构化诊断结果文本。

二、医疗文档整理场景。

在该应用场景下，采用本申请实施例提供的医学影像报告的信息提取方法可应用于医疗文档查询系统。比如，通过光学字符识别方式(Optical Character Recognition，OCR)对手写的纸质版医疗文档进行识别，该医疗文档为医学影像报告的文档，该医学影像报告的文档包括影像描述、诊断结果描述和诊断建议，将识别结果输入至语言模型和实体信息提取模型中，得到医学影像的结构化报告文本，该结构化报告文本包括结构化描述文本、结构化诊断结果文本和结构化诊断建议文本，将结构化报告文本存入医疗文档查询系统，方便医疗人员根据关键词或实体标签查询历史医疗文档。

上述仅以两种应用场景为例进行说明，本申请实施例提供的方法还可以应用于其他需要生成结构化报告文本的场景(比如，医学影像采集人员统计医学影像报告的场景等)，本申请实施例并不对具体应用场景进行限定。

本申请实施例提供的医学影像报告的信息提取方法可以应用于具有较强的数据处理能力的计算机设备中。在一种可能的实施方式中，本申请实施例提供的医学影像报告的信息提取方法可以应用于个人计算机、工作站或服务器中，即可以通过个人计算机、工作站或服务器识别视频中的语义信息，便于理解视频内容。示意性的，医学影像报告的信息提取方法应用于应用程序的后台服务器中，以便安装有该应用程序的终端借助后台服务器能够从医学影像报告中提取出结构化的信息。

图1示出了本申请一个示例性实施例提供的计算机系统的示意图。该计算机系统100包括终端110和服务器120，终端110与服务器120之间通过通信网络进行数据通信。示意性的，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端110中安装和运行有应用程序，该应用程序是支持实体信息提取功能的应用程序，该应用程序是医疗类应用程序，如用于查看医学影像的应用程序、医学文档搜索应用程序、浏览器应用程序、医学知识查询数据库等。示意性的，终端110上安装有医学文档搜索应用程序，医护人员在该应用程序中按照自己的书写习惯输入医学影像报告对应的文本。医学影像报告是通过医学术语对医学影像进行描述形成的文字报告，用于描述病变的部位、性质(如渗出、肿块、增生、破坏等)、数目、大小、形态、边缘、密度、信号强度(人体组织)和相邻结构关系等。

在一些实施例中，终端110可以是智能手机、智能手表、平板电脑、膝上便携式笔记本电脑、智能机器人等移动终端，也可以是台式电脑、投影式电脑等终端，本申请实施例对终端的类型不加以限定。

服务器120可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)以及大数据和人工智能平台等基础云计算服务的云服务器。在一种可能的实施方式中，服务器120是终端中用于从医学影像报告提取结构化信息的应用程序的后台服务器。

如图1所示，在本实施例中，医护人员在文本框中输入文本，该文本为医学影像报告的描述性文本，终端110将输入文本发送至服务器120。

服务器120用于执行如下步骤：步骤11，获取医学影像报告的文本信息；步骤12，将文本信息进行编码处理，得到文本信息对应的词向量；步骤13，对词向量进行实体信息提取，得到文本信息对应的结构化报告文本。服务器120将结构化报告文本发送至终端110，在终端110中显示医学影像对应的结构化报告文本，该结构化报告文本包括关于医学影像的结构化描述文本。将医学影像的描述性文本按照位置描述和状态描述的方式形成结构化描述文本，使得医护人员可以清晰地确定医学影像表示的信息。

可以理解的是，上述实施例仅以终端中的医学文档搜索应用程序对应的服务器为例，在实际应用中，上述医学影像报告的信息提取方法还可以应用于报告查看应用程序对应的服务器中，或支持医学文档搜索的小程序对应的服务器中，本申请实施例对此不加以限定。

为了方便表述，下述各个实施例以医学影像报告的信息提取方法由应用程序对应的服务器执行为例进行说明。

图2示出了本申请一个示例性实施例提供的医学影像报告的信息提取方法的流程图。本实施例以该方法用于如图1所示的计算机系统100中的服务器120为例进行说明，该方法包括如下步骤。

步骤201，获取医学影像报告的文本信息。

医学影像是指为了医学或医疗研究，对人体或人体某部分，以非侵入方式取得内部组织的图像。医学影像按照成像技术分类，包括CT影像、磁共振成像(MagneticResonance Imaging，MRI)、X射线(X-ray)成像、医学超声波检查成像(MedicalUltrasonography)等。

医学影像报告是指通过医学术语对医学影像进行描述形成的文字报告，通常由医护人员根据自己的书写习惯撰写，医学影像报告包括对影像内容进行描述的影像描述部分和根据影像内容得出的诊断结果部分。如医学影像报告的影像描述文本为：右中肺外侧段可见类结节状软组织密度影较前稍缩小，现大小约2.7×1.2cm，边缘可见浅分叶及长短毛刺，邻近胸膜牵拉；诊断结果文本为：周围性肺癌。

医学影像报告的文本信息包括影像描述文本和诊断结果文本中的至少一种。在一些实施例中，医学影像报告文本还包括诊断建议文本。诊断建议文本是指医护人员对医学影像呈现的信息进行分析，根据分析结果对该医学影像表现的病变部分提出的建议治疗方案，该治疗方案对应的文本诊断建议文本。

示意性的，在医护人员使用的终端中安装有医疗文档撰写应用程序，医护人员在该应用程序中输入关于医学影像报告的文字，该应用程序对应有服务器，该应用程序将医学影像报告的文本信息发送至服务器，服务器由此获得医学影像报告的文本信息。

在一些实施例中，医学影像报告是纸质版的历史影像报告，医护人员可通过医疗文档撰写应用程序对纸质版的历史影像报告进行文字识别，将纸质版的历史影像报告转换为电子版的文档；在另一些实施中，医护人员通过文字识别技术将历史影像报告转换为电子版的文档，并将该电子版文档导入至医疗文档撰写应用程序中。

示意性的，服务器包括医疗文档数据库，在医疗文档数据库中存储有医学影像报告的文本信息，该医学影像报告的文本信息为医护人员诊疗病例时产生的文本信息。

步骤202，对文本信息中的词语序列进行编码处理，得到词语序列对应的词向量，词向量融合有词语序列中上下文词语之间的语义联系。

词语序列是指文本信息中的词语形成的序列。示意性的，医学影像报告中的每句话形成一个词语序列，或者，医学影像报告中的所有文字形成一个词语序列。通过编码处理将词语序列转换为计算机可识别的词向量，示意性的，编码处理包括词嵌入(WordEmbedding)的处理方式，词嵌入是一种将文本中的词转换为数字向量的方法，使得计算机设备能够根据数字向量进行算法识别。词嵌入过程是将一个词语嵌入到一个维数较低的连续向量空间中，每个词或词组映射为实数域上的向量，词嵌入的结果就生成了词向量。

示意性的，服务器包括语言模型，通过调用语言模型对词语序列进行编码处理，使得输出的词语序列对应的词向量不仅是对文字的转换，还含有上下文词语之间的语义联系。在一个示例中，语言模型为BERT模型，通过BERT模型的内置函数get_sequence_output()输出词语序列对应的词向量。可以理解的是，医学影像报告的文本信息包括多个词向量。

步骤203，对词向量进行实体信息提取，得到医学影像报告对应的结构化报告文本，结构化报告文本包括文本信息含有的实体和实体所属的实体类型。

实体(Entity)：是指现实世界中客观存在可与其他事物相互区分的事物，实体可以是具体的对象，如人、地名、公司、电话、动物、天气、工具、终端等，也可以是抽象的对象，如时间，一场篮球赛对应的时间也是实体。具有共同要素的实体的集合是实体类型，如歌曲A、歌曲B和歌曲C对应的实体类型是音乐。

示意性的，服务器包括实体信息提取模型，将词向量输入至实体信息提取模型中，实体信息提取模型确定实体边界，即实体开始位置和结束位置，一些名称较长的实体还包括中间位置，如实体“肺结节”，“肺”为实体开始位置，“结”为实体中间位置，“节”为实体结束位置。实体“肺结节”所属的实体类型为病灶名称。

结构化报告文本是指将提取到的实体信息进行结构化处理，形成类似于表格的组织形式。如图1所示，生成的结构化报告文本为：【位置描述1】右中肺外侧段；【状态描述1】名称：软组织密度影；形状：类结节状；数值描述对象：大小；变化趋势：较前稍缩小；定性词：可见。

综上所述，本实施例提供的方法，通过从医学影像报告的文本信息中提取实体信息，根据是实体信息来生成结构化报告文本，使得医护人员可最大程度上保留自己的书写习惯，自由度较高且保证结构化报告的书写规范；同时可以对已有的历史非结构化报告进行整理，提高了对医学影像报告的处理效率，并且适用于各类疾病以及各类医学影像对应的报告，具有普适性。

图3示出了本申请另一个示例性实施例提供的医学影像报告的信息提取方法的流程图。本实施例以该方法用于如图1所示的计算机系统100中的服务器120为例进行说明，该方法包括如下步骤。

步骤301，获取医学影像报告的文本信息。

对疾病的诊断，是医护人员在掌握正常和基本病变影像表现的基础上，通过对病理影像解读并结合临床资料综合判断而完成的。医护人员在撰写医学影像报告时，需要详细观察每幅影像照片，需要对可能产生病变的某一部位或某一器官进行重点观察，还需要对“非重要部位和器官”进行观察。

示意性的，在医护人员使用的终端中安装有报告查看应用程序，医护人员在该应用程序中输入关于医学影像报告的文字，该应用程序对应有服务器，该应用程序将医学影像报告的文本信息发送至服务器，服务器由此获得医学影像报告的文本信息。

医学影像报告包括影像描述文本和诊断结果文本中的至少一种，影像描述文本是对医学影像进行描述的部分，诊断结果文本是医护人员根据医学影像反馈的信息作出结论，“描述部分”是对医学影像表现的观察和描述，是形成正确“诊断部分”的基础。通过方位词、结构形容词、形状、数量、变化趋势、检查方式、密度、定性词、治疗药物、对比目标(如患者的历史医学影像)等方式来描述医学影像所呈现的内容。通过病症结论、诊断建议、治疗方法、病变趋势等方式来形成诊断结果文本。

医学影像报告按照医学影像的类型分类，包括如下类型中的至少一种：CT影像报告、磁共振影像报告、X射线影像报告、医学超声波影像报告，如彩超影像报告、B超影像报告(B-scan Ultrasonography)。

本申请实施例以影像描述文本和诊断结果文本使用相同的编码处理方式进行说明，分别对两种文本的编码处理方式进行说明。

示意性的，词语序列包括影像描述文本对应的第一词语序列。

步骤302a，对第一词语序列进行编码处理，得到第一词语序列对应的第一词向量，该第一词向量融合有词语序列中上下文词语之间的语义联系。

步骤302a可替换为如下步骤：

步骤3021a，对第一词语序列进行词向量嵌入处理，得到第一词语序列对应的词向量表示。

以医学影像报告为CT影像报告，如图4所示，将CT影像报告21的文本信息分别输入至第一语言模型22和第二语言模型23中，示意性的，第一语言模型22用于对第一词语序列进行编码处理，得到第一词语序列对应的第一词向量，第二语言模型23用于对第二词语序列进行编码处理，得到第二词语序列对应的第二词向量。

示意性的，本申请实施例通过BERT模型对第一词语序列进行编码处理，该BERT模型是训练后的语言模型。

词向量嵌入是将文本的每一个字转换为768维的向量表示，用开头标记(CLS)和结尾标记(SEP)分别标识一个句子的开头和结尾。

步骤3022a，对第一词语序列进行段向量嵌入处理，得到第一词语序列对应的段向量表示。

如果输入的词语序列表示一对句子对，即包括两个句子，则为了区分两个句子，段向量嵌(SegmentEmbeddings)入包括两种向量表示，其中，0表示输入BERT模型的第一个句子，1表示输入BERT模型的第二个句子。示意性的，本申请实施例中输入BERT模型的词语序列表示一个句子。

步骤3023a，对第一词语序列进行位置向量嵌入处理，得到第一词语序列对应的位置向量表示。

位置向量嵌入(Position Embeddings)用于区别文本中每个字的位置信息，如图5所示，对原始输入文本的开头和结尾分别以开头标记和结尾标记进行标记，在原始输入文本的上方对应有三种嵌入方式对应的向量表示。

步骤3024a，将词向量表示、段向量表示和位置向量表示进行融合处理，得到合成向量。

将三种向量表示进行融合，得到合成向量，该合成向量是一个8×768维的矩阵。

步骤3025a，将合成向量输入至语言模型，得到第一词语序列对应的第一词向量。

对于不同的NLP任务，BERT模型的输入会有微调，通过细微调整模型输入来调整BERT模型的参数和权重。在微调BERT模型时，通过将多组医学影像报告对应的词语序列的合成向量输入至BERT模型中，使得BERT模型的输出不断接近正确的词向量，从而得到训练后的BERT模型。将合成向量输入至训练后的BERT模型中，输出第一词语序列对应的第一词向量。

示意性的，词语序列包括医学影像报告的诊断结果文本对应的第二词语序列。

步骤302b，对第二词语序列进行编码处理，得到第二词语序列对应的第二词向量。

本申请实施例以对第一词语序列和第二词语序列进行编码处理的方式相同为例进行说明。步骤302b可替换为如下步骤：

步骤3021b，对第二词语序列进行词向量嵌入处理，得到第二词语序列对应的词向量表示。

步骤3022b，对第二词语序列进行段向量嵌入处理，得到第二词语序列对应的段向量表示。

步骤3023b，对第二词语序列进行位置向量嵌入处理，得到第二词语序列对应的位置向量表示。

步骤3024b，将词向量表示、段向量表示和位置向量表示进行融合处理，得到合成向量。

步骤3025b，将合成向量输入至语言模型，得到第二词语序列对应的第二词向量。

步骤3021b至步骤3025b的实施方式参照步骤3021a至步骤3025a的实施方式，需要说明的是，通过BERT模型输出第二词语序列对应的第二词向量，该BERT模型与输出第一词向量的BERT模型的训练数据及训练过程不同，输出第一词向量的BERT模型是通过影像描述文本进行训练的，输出第二词向量的BERT模型是通过诊断结果文本进行训练的。

如图4所示，将第一词向量和第二词向量分别输入至第一类实体信息提取模型24和第二类实体信息提取模型25，分别得到第一词向量对应实体1和实体类型1(附图标记为26)以及第二词向量对应的实体2和实体类型2(附图标记为27)。

下面分别对两种实体信息提取过程进行说明。

一、结构化报告文本包括结构化描述文本，词向量包括影像描述文本经过编码处理后得到的第一词向量。

步骤303a，将第一词向量输入至第一实体信息提取模型，得到第一词向量代表的实体和第一预测分数，第一预测分数用于表征实体所属的实体类型对应的分数。

第一类实体信息提取模型用于从影像描述文本中提取实体信息，第一类实体信息提取模型包括第一实体信息提取模型和第二实体信息提取模型。第一类实体信息提取模型是基于样本影像描述文本训练得到的。

第一实体信息提取模型在训练时使用的样本文本标注有实体和实体类型，示意性的，本申请实施例采用“BMESO”的格式标记样本文本中的实体信息，得到最终的标签序列。B代表实体的开始位置；M代表实体中间信息；E代表实体结束位置；S代表单字成词；O代表非实体部分。例如，输入文本为“右中肺外侧段。”，其标签序列为：['B_loc','E_loc','S_pos','B_str','M_str'，'E_str','O']。'B_loc'中B表示实体的边界，用于标记该文字是否属于实体，loc用于表示实体的方位，即实体类型。可以理解的是，当文字表示的是实体时，才会出现实体类型对应的标签，当文字表示的不是实体时，不会出现实体类型对应的标签，如上述标签序列中的'O'。

第一实体信息提取模型根据第一词向量初步预测输出结果中的实体以及对该实体所属的实体类型进行预测后的第一预测分数。比如，第一实体信息提取模型预测输出结果中的第一个字是一个单独的文字，该单独的文字表示一个实体，该实体属于位置标签(实体类型)的预测分数为0.9；该单独的文字表示非实体部分的预测分数为0.05；该单独的文字表示一个实体，该实体属于名称标签(实体类型)的预测分数为0.6等，第一实体信息提取模型输出的第一预测分数有多种情况，此处不详细列举。

根据上述第一预测分数，第一实体信息提取模型初步输出第一词语序列含有的实体信息。

本申请实施例以第一实体信息提取模型为BiLSTM模型为例。

步骤304a，将实体和第一预测分数输入至第二实体信息提取模型，得到实体所属的实体类型。

第二实体信息提取模型对应设置有约束条件，约束条件是指用于约束第二实体信息提取模型的输出结果的条件，使得输出结果中的字或词语符合逻辑且具有语义联系，更贴近真实结果。

示意性的，句子的约束条件通常包括如下情况中的至少一种：

①句子的开头是“B_”、“S_”或者“O”的概率较大，开头是“M_”的概率较小；

②“B_label1，M_label2…”，在该模式里面，label1和label2应该是同一种实体类型，例如，“B_loc，M_loc”的概率较大，而“B_loc，M_pos”的概率较小；

③“O，M-label”是错误的，命名实体的开头应该是“B-”而不是“M-”。

服务器根据约束条件和第一预测分数，调用第二实体信息提取模型对实体分类，得到实体所属的实体类型。具体过程包括如下步骤：

S1、将实体和第一预测分数输入至第二实体信息提取模型，确定实体的开始标记和中间标记，开始标记对应有第一标签，中间标记对应有第二标签。

比如，输入文本为“外侧段。”，该输入文本的标签序列为：['B_str','M_str'，'E_str']。开始标记对应的标签是结构标签(实体类型)，中间标记对应的标签也是结构标签(实体类型)。可以理解的是，一些实体包括开头标记和结尾标记，则确定开头标记对应的标签和结尾标记对应的标签。

S2、确定第二预测分数，第二预测分数用于表征第一标签和第二标签形成的组合对应的分数。

第二实体信息提取模型输出第一标签和第二标签形成的所有组合对应的第二预测分数，如第一标签是位置标签，第二标签是名称标签，或，第一标签是名称标签，第二标签是位置标签，或，第一标签是形状标签，第二标签是位置标签等，此处不进行详细列举。确定每种组合对应的第二预测分数。如图6所示，第一标签是“loc”，第二标签是“loc”的组合对应的第二预测分数为0.9；第一标签是“loc”，第二标签是“pos”的组合对应的第二预测分数为0.2。

S3、响应于第一标签与第二标签属于同一实体类型，确定词向量满足约束条件。

根据上述约束条件中的第二条，可以确定当第一标签和第二标签属于同一实体类型这一情况是概率较大的一种情况。

S4、根据约束条件和第二预测分数输出实体所属的实体类型。

根据约束条件可知，第一标签和第二标签属于同一实体类型的概率较大，则第二预测分数较高，第二实体信息提取模型根据具有最高第二预测分数的组合输出实体所属的实体类型。

本申请实施例以第二实体信息提取模型为CRF模型为例。

步骤305a，根据实体和实体类型生成结构化描述文本。

服务器将实体信息提取模型输出的实体和实体类型按照一定的格式整合成结构化描述文本，如图4所示。

示意性的，可对实体信息提取模型抽取出来的实体特征进行标准化，构成医学影像报告标准语料库。通过构建医学影像报告书写规范平台，在医生书写影像报告时对不规范的用语进行校正。

同理，上述实施例中的实体信息的提取方式也可用于输出第二词语序列含有的实体信息。

二、结构化报告文本包括结构化诊断结果文本，词向量包括诊断结果文本经过编码处理后得到的第二词向量。

步骤303b，将第二词向量输入至第三实体信息提取模型，得到第二词向量代表的实体和第一预测分数，第一预测分数用于表征实体所属的实体类型对应的分数。

第二类实体信息提取模型用于从诊断结果文本中提取实体信息，第二类实体信息提取模型在训练时使用的样本文本标注也有实体和实体类型，第二类实体信息提取模型包括第三实体信息提取模型和第四实体信息提取模型。第三实体信息提取模型和第四实体信息提取模型分别与第一实体信息提取模型和第三实体信息提取模型相似，训练时所使用的样本文本不同。

第二类实体信息提取模型根据第二词向量初步预测输出结果中的实体以及对该实体所属的实体类型进行预测后的预测分数。如图6所示，第二类实体信息提取模型预测输出结果中的第一个词语表示一个实体，该实体属于位置标签(实体类型)的预测分数为0.5；该单独的文字表示非实体部分的预测分数为0.01；该单独的文字表示一个实体，该实体属于名称标签(实体类型)的预测分数为0.8，此处不详细列举。

本申请实施例以第三实体信息提取模型为BiLSTM模型为例。

步骤304b，将实体和第一预测分数输入至第四实体信息提取模型，得到实体所属的实体类型。

第四实体信息提取模型对应设置有约束条件，约束条件是指用于约束第四实体信息提取模型的输出结果的条件，使得输出结果中的字或词语符合逻辑且具有语义联系，更贴近真实结果。

服务器根据约束条件和第三实体信息提取模型输出的第一预测分数，调用第四实体信息提取模型对实体分类，得到实体所属的实体类型。具体过程包括如下步骤：

S1、将实体和第一预测分数输入至第四实体信息提取模型，确定实体的开始标记和中间标记，开始标记对应有第一标签，中间标记对应有第二标签。

本申请实施例以第四实体信息提取模型为CRF模型为例。

步骤305b，根据实体和实体类型生成结构化诊断结果文本。

服务器将实体信息提取模型输出的实体和实体类型按照一定的格式整合成结构化诊断结果文本，如图4所示。影像描述文本和诊断结果文本输入至不同的实体信息提取模型，从而得到不同的实体和实体类型，进一步分别整合为结构化描述文本和结构化诊断结果文本，将结构化描述文本和结构化诊断结果文本整合后得到结构化报告文本。

如图15所示，医护人员在文本输入框41中按照书写习惯输入医学影像报告，在结构化报告的标签43下生成结构化报告文本，可以看出，结构化报告文本将输入的医学影像报告含有的一些描述性词汇进行提取，然后进行汇总，形成统一格式的文本信息。

如图17的上图所示，医护人员使用的应用程序在生成结构化报告后，将结构化报告自动填写至对应的输入控件中，如在“病灶大小”对应的输入控件中自动填写2.7×1.2cm。

如图17的下图所示，在结果页面52中，显示有结构化诊断结果文本和结构化诊断建议文本。结构化诊断结果文本为：周围性肺癌；结构化诊断建议文本为：活检。该应用程序根据结构化报告生成诊断结果和诊断建议，并将诊断结果按照统一格式形成结构化诊断结果文本，将诊断建议按照统一格式形成结构化诊断建议文本。

本实施例提供的方法，还通过语言模型对词语序列进行编码处理，将词语序列编码为词向量，使得后续从词向量中提取准确的实体信息，通过对BERT模型进行微调，使得无需较多的样本文本即可完成对BERT模型的训练过程，提高了效率。

本实施例提供的方法，还通过第一实体信息提取模型和第二实体信息提取模型分别对影像描述文本和诊断结果描述文本进行实体信息的提取，从而根据实体信息分别生成对应的结构化描述文本和结构化诊断结果文本，进一步合成结构化报告。

本实施例提供的方法，还通过约束条件来约束第二实体信息提取模型，使得第二信息提取模型输出的结果更符合真实结果，提高了输出的准确率。

需要说明的是，上述对影像描述文本和诊断结果文本分别进行编码处理的过程可以按照一定顺序执行，也可以同时执行。对影像描述文本和诊断结果文本进行实体信息提取的过程可以按照一定顺序执行，也可以同时执行。

基于图3的可选实施例中，通过结构化报告文本还可以预测出诊断结果和诊断建议。

示意性的，医学影像报告包括病灶区域对应的文本信息，结构化报告文本包括结构化描述文本和结构化诊断结果文本。

步骤306，从结构化描述文本中提取病灶区域对应的病灶特征，从结构化诊断结果文本中提取诊断结果特征。

如图7所示，将影像描述文本31输入至第一类实体信息提取模型24，输出病灶描述实体33，从病灶描述实体(结构化描述文本)33中提取特征1(病灶特征)；将诊断描述文本32输入至第二类实体信息提取模型25，输出诊断建议实体34，从诊断建议实体34中提取特征2(诊断结果特征)。

步骤307，将病灶特征和诊断结果特征进行融合，得到融合后的特征。

将特征1和特征2进行融合，得到融合后的特征。在一些实施例中，将患者的个体特征也与特征1和特征2进行融合，个体特征包括：年龄、性别、家族病史等。将三类特征进行融合，得到融合后的特征。

步骤308，将融合后的特征输入至诊断建议预测模型中，得到病灶区域对应的诊断结果。

将融合后的特征输入至诊断建议预测模型中，本申请实施例以诊断建议预测模型为GDBT模型35，输出病灶区域对应的诊断结果。

步骤309，根据诊断结果和病灶区域对应的处理指南标准，得到病灶区域对应的诊断建议。

以肺结节专病为例，训练后的GBDT模型的预测结果结合肺小结节处理指南标准，输出最终的诊断建议。肺小结节处理指南标准包括NCCN指南、肺结节分级(LUNG-RADS)、弗莱施纳协会(Fleischner)指南、亚太肺结节评估指南、肺结节中国专家共识、肺结节亚洲共识中的至少一种。

综上所述，本实施例的方法，通过将医学影像报告的结构化报告文本输入至诊断建议预测模型可得到预测诊断结果，并给出诊断建议，为医护人员的诊断提供参考，提高了医护人员的诊疗效率。

下面对实体信息提取模型的训练方法进行说明。

图8示出了本申请一个示例性实施例提供的实体信息提取模型的训练方法的流程图。本实施例以该方法用于如图1所示的计算机系统100中的服务器120为例进行说明，该方法包括如下步骤。

步骤801，获取医学影像报告的样本文本信息，样本文本信息标注有实体和实体所属的实体类型。

示意性的，样本文本信息是从医疗机构提供的患者的医学影像报告中得到，或者，样本文本信息是从公开的样本数据训练集中得到的。本申请实施例对此不加以限定。该样本文本信息包括样本影像描述文本和样本诊断结果文本中的至少一种，在一些实施例中，样本文本信息还包括样本诊断建议文本。

步骤802，对样本文本信息中的词语序列进行编码处理，得到词语序列对应的样本词向量。

通过对样本文本信息以上述实施例中的编码处理方式进行编码处理来得到样本词向量，样本词向量包括对样本文本信息进行词向量嵌入、对样本文本信息进行段向量嵌入和对样本文本信息进行位置向量嵌入得到的三种向量，将三种向量融合后得到样本合成向量，该样本合成向量为样本词向量。

步骤803，将样本词向量输入至实体信息提取模型，得到样本文本信息中的预测实体和预测实体类型。

步骤804，根据实体、实体类型、预测实体和预测实体类型对实体信息提取模型进行训练，得到训练后的实体信息提取模型。

示意性的，以第一实体信息提取模型为BiLSTM模型，第二实体信息提取模型为CRF模型，则实体信息提取模型的训练过程包括如上述两种模型的训练过程。

可以理解的是，在编码处理的过程中，也需要对编码处理使用的BERT模型进行训练，以医学影像为CT影像进行说明，本申请实施例中涉及的模型的训练流程如图9所示，该训练流程包括如下步骤：

步骤901，获取CT影像报告训练数据。

步骤902，数据筛选及预处理。

CT影像报告原始数据包含多种类型的影像检查，例如“[头，平扫]”、“[胸部，平扫]”、“[腹部(肝胆脾胰)，平扫]”、“[盆腔，平扫]”等等。为了训练用于从医学影像报告中提取实体信息的实体信息提取模型，需要从多类型CT影像报告中筛选出相关的数据，本申请实施例分别从两个维度进行数据筛选，包括粗粒度层面的检查类型筛选以及细粒度层面的描述语句筛选。以“肺结节”病例为例，筛选流程图如图10所示，包括如下步骤：

步骤S11，输入文本。

步骤S12，检查类型是否含关键字“胸部”或“肺”。

在粗粒度筛选方面，根据检查类型字段中是否包含“胸部”或者“肺”关键字，初步区分影像报告的描述部位。若该字段中包含关键字“肺”，进入步骤S13；若该字段中不包含关键字“肺”，则进入步骤S14。

步骤S13，将文本按句拆分。

在细粒度筛选方面，将影像描述文本以单个句子为单位进行拆分，拆分规则是用分号或者句号标识句子的结束，然后判断每句中是否包含关键字“肺”，以此来决定是否要保留该句子。

步骤S14，将文本标记为0。

步骤S15，针对每一句文本，是否包含关键字“肺”。

若该字段中包含关键字“肺”，进入步骤S16；若该字段中不包含关键字“肺”，则进入步骤S17。

步骤S16，保留该句文本。

步骤S17，剔除该句文本。

步骤S18，将剩余文本合并，标记为1。

最后根据文本的标记，符合规则的文本标记为1，不符合规则的文本的标记为0，筛选得到肺结节专病影像报告的文本数据。

步骤903，训练数据标注。

首先要为影像描述文本和诊断文本分别制定结构化模板(Schema)。根据医学影像报告的书写习惯，结合医护人员的建议和疾病对应的身体部位相关的解剖学知识，可以将影像描述初步拆分为三个模块：病灶位置描述、病灶状态描述以及其他描述，如表一所示。病灶位置可以细分为具体的方位、所在的身体部位以及部位结构。以肺结节专病为例，在医学影像报告的描述文本“左下肺后基底段可见类结节状软组织密度影”中，“左下”即为方位，“肺”属于部位，“后基底段”为结构。对于病灶的状态，本申请实施例详细划分为名称、形状、数量等10个类别，例如，医学影像报告的描述文本“右上肺前段可见一磨玻璃密度结节影同前，直径约0.5cm”，标注后的结果为：“右上/方位词”、“肺/部位”、“前段/结构”、“可见/定性词”、“一/数量”“磨玻璃/形状”、“密度结节影/名称”、“同前/变化趋势”、“直径/数值描述目标”、“0.5cm/数值”。

表一

采用相同的方法，本申请实施例还制定了针对影像诊断结果的标注模板，如表二所示。与影像描述文本的模板相比，诊断结果的模板相对简洁，重点突出的是对影像报告的总结、医生的初步诊断结论以及诊断建议。以肺结节专病为例，医护人员给出的诊断结果的文本“左下肺后基底段小结节同前，拟炎性肉芽肿，建议随访”，标注之后的结果为：“左下/方位”、“肺/部位”、“后基底段/结构词”、“小结节/名称”、“同前/变化趋势”、“炎性肉芽肿/诊断结果”、“随访/建议”。

表二

本申请实施例通过人工标注数据的方式获取标注数据集，还可以通过少量数据训练出一个信息抽取初始模型，该信息抽取初始模型具有初步的实体识别能力，用该信息抽取初始模型对未标注数据进行信息抽取，然后人工校验得到准确的标注数据集。该方法可以节省大量的人工标注成本。

步骤904，训练BERT模型。

在训练实体信息提取模型时，实体信息提取模型的输入是与领域任务(专病)相关的标注文本，对预训练BERT模型进行微调，然后将输出的文本向量表示再次作为特征，输入至BiLSTM和CRF构成的分类模型，得到最后的分类结果，即标注文本中的实体和实体所属的类型。

1)将输入的文本进行格式转换，如图5所示。

本申请实施例采用“BMESO”的格式标记文本中的实体信息，得到最终的标签序列。B代表实体的开始位置；M代表实体中间信息；E代表实体结束位置；S代表单字成词；O代表非实体部分。例如，输入文本为“右中肺外侧段。”，其标签序列为：['B_loc','E_loc','S_pos','B_str','M_str'，'E_str','O']。BERT模型的输入为合成向量，该合成向量包括三种嵌入方式：分别是词向量嵌入(Token Embeddings)，段向量嵌入(Segment Embeddings)以及位置向量嵌入(Position Embeddings)。其中，词向量嵌入是将文本中的每一个字转换为768维的向量表示，[CLS]和[SEP]分别标识句子的开头和结尾；段向量嵌入包括两种向量表示，0表示第一个句子，1表示第二个句子，在本实施例中，由于输入文本为一个句子，因此段向量嵌入后的向量表示全部为0；位置嵌入则可以区别文本中每个字的位置信息。将三个向量的合成向量作为BERT模型的输入。

2)微调BERT模型。

加载预训练的BERT模型，将合成向量作为BERT模型的输入并再次训练BERT模型，不断调整BERT模型对应的参数的权重。通过BERT模型的内置函数get_sequence_output()可以得到BERT模型对文本中的每个字的结果表示向量(词向量)，该词向量融合有文字之间的语义联系。

步骤905，训练实体信息提取模型。

训练BiLSTM-CRF分类模型。

如图6所示，将BERT模型的词向量表示输入到BiLSTM模型中，输出结果是文本中的每个字所属的实体类型对应的预测分数。在此基础上，CRF层则设置有句子的约束条件：①句子的开头是“B_”、“S_”或者“O”的概率较大，开头是“M_”的概率较小；②“B_label1，M_label2…”，在该模式里面，label1和label2应该是同一种实体类型，例如，“B_loc，M_loc”的概率较大，而“B_loc，M_pos”的概率较小；③“O，M-label”是错误的，命名实体的开头应该是“B-”而不是“M-”。CRF层通过这样一些句子约束条件来确保最终的预测结果更准确、更贴近真实的文本。

训练得到的实体信息提取模型如图11所示，对CT影像报告91进行文本预处理得到影像描述文本和诊断结果文本92，对影像描述文本和诊断结果文本分别按照规则进行标注，得到影像描述文本中的实体和诊断结果文本(或诊断建议文本)中的实体93，对影像描述文本和诊断结果文本分分别进行嵌入处理94，输出影像描述文本对应的词向量和诊断结果文本对应的词向量，将两种词向量分别输入至BERT模型+BilSTM模型+CRF模型的组合模型95(实体信息提取模型)中，从而对实体信息提取模型进行训练。图11中的附图标记91至附图标记95与图9中步骤901至步骤905一一对应。

步骤906，病灶信息匹配。

根据上述实体信息提取模型得到的结构化描述文本和结构化的诊断结果描述文本，例如，病灶名称、位置、大小、形状及变化趋势，按照病灶在检测部位的具体位置将医学影像报告的结构化描述文本与结构化的诊断结果描述文本匹配起来，将匹配后的文本用作训练诊断建议预测模型的样本文本。

步骤907，训练诊断建议预测模型。

示意性的，医学影像报告包括病灶区域，从结构化描述文本中提取病灶特征，从结构化的诊断结果描述文本提取诊断建议特征，将病灶特征和诊断建议特征融合后的特征作为诊断建议预测模型的输入。在一些实施例中，融合后的特征还结合有患者的个体特征，个体特征包括年龄、性别、家族病史等，将个体特征与融合后的特征构成诊断建议预测模型的输入，并将其划分为训练集与验证集。由于医生给出的诊断建议有多个类别，例如“建议随访”、“建议复查”、“建议活检”等，因此诊断建议预测属于多分类问题。本申请实施例采用梯度提升决策树(GBDT)作为诊断建议预测模型，诊断建议预测模型在每一轮迭代中以上一轮学习器拟合的残差作为优化目标，更新权重系数，不断减少误差。训练后的GBDT模型输出病灶区域的预测结果，结合专病相关指南，可以辅助医生对疾病的诊断以及判断。以肺结节专病为例，训练后的GBDT模型的预测结果结合肺小结节处理指南标准，输出最终的诊断建议。肺小结节处理指南标准包括NCCN指南、肺结节分级(LUNG-RADS)、弗莱施纳协会(Fleischner)指南、亚太肺结节评估指南、肺结节中国专家共识、肺结节亚洲共识中的至少一种。

训练后的诊断建议预测模型如图12所示，实体信息提取模型输出的结构化描述文本和结构化诊断结果文本，将这两种文本含有的实体按照病灶位置进行匹配96，从匹配后的文本中提取出病灶特征、诊断建议，并结合个体特征，将融合后的特征输入至GBDT模型97中，从而对GBDT模型进行训练。图12中的附图标记96和附图标记97与图9中步骤906和步骤907一一对应。

综上所述，本实施例提供的方法，基于BERT、结合BiLSTM以及CRF模型，加入少量人工标注数据，训练出准确率较高的信息抽取模型，能够准确提取文本关键信息；同时对诊断建议进行信息抽取并与影像报告相匹配，从循证医学的角度出发，运用大量历史数据，训练诊断建议预测模型，为医生的诊断提供参考。

本实施例提供的方法，还通过分别对影像报告和诊断建议两类非结构化文本提供了标注模板，该模板泛化能力强，可迁移并应用在多种影像报告文本中，例如肺部CT影像、腹部CT影像报告、盆腔CT影像等。

下面结合用户界面对本申请实施例提供的医学影像报告的信息提取方法进行说明。

图13示出了本申请一个示例性实施例提供的医学影像报告的信息提取方法，该方法应用于如图1所示的计算机系统100中的终端110中，该方法包括如下步骤：

步骤1301，显示文本信息提取页面，文本信息提取页面包括输入文本框和信息提取控件。

如图14所示，医护人员使用的终端安装有用于提取结构化报告文本的应用程序，在该应用程序运行时，显示有文本信息提取页面40，在文本信息提取页面40中显示有输入文本框41和信息提取控件42。

步骤1302，接收所述输入文本框的输入操作，显示输入的医学影像报告的文本信息。

医护人员在输入文本框41中输入医学影像报告的文本，该文本是医护人员按照自己的书写习惯输入的。

步骤1303，响应于接收到信息提取控件上的信息提取操作，显示医学影像报告对应的结构化报告文本，结构化报告文本包括文本信息含有的实体和实体所属的实体类型。

医护人员通过点击信息提取控件42，将输入的文本转换为结构化报告文本，如图15所示，在结构化报告的标签43下方，显示有已生成的结构化报告文本。示意性的，在文本信息提取页面40还显示有导出控件44，通过点击导出控件44将结构化报告文本导出为其它格式的文档，如doc格式、docx格式、txt格式、xls格式等。

在一些实施例中，医护人员还通过点击专有名词标签45，如图16所示，显示从输入的文本中提取出的专有名词，方便医护人员对自己输入的内容进行检查，以及查看相关信息。

步骤1304，响应于接收到诊断结果预测控件上的触发操作，显示医学影像报告的诊断结果和诊断建议。

示意性的，在文本信息提取页面40包括用于输出诊断结果和诊断建议的诊断结果预测控件51，如图17的上图所示，当医护人员点击诊断结果预测控件51时，显示如图17的下图所示的结果页面52，该结果页面52包括诊断结果和诊断建议。

综上所述，本实施例提供的方法，通过用户界面直观地显示结构化报告文本，方便医护人员使用，提高了医护人员的诊疗效率。

图18示出了本申请一个示例性实施例提供的医学影像报告的信息提取装置的结构框图，该装置包括如下部分：

第一获取模块1810，用于获取医学影像报告的文本信息；

第一处理模块1820，用于对文本信息中的词语序列进行编码处理，得到词语序列对应的词向量，词向量融合有词语序列中上下文词语之间的语义联系；

第一信息提取模块1830，用于对词向量进行实体信息提取，得到医学影像报告对应的结构化报告文本，结构化报告文本包括文本信息含有的实体和实体所属的实体类型。

在一个可选的实施例中，结构化报告文本包括结构化描述文本，词向量包括影像描述文本经过编码处理后得到的第一词向量；

所述第一信息提取模块1830，用于将第一词向量输入至第一实体信息提取模型，得到第一词向量代表的实体和第一预测分数，第一预测分数用于表征实体所属的实体类型对应的分数；将实体和第一预测分数输入至第二实体信息提取模型，得到实体所属的实体类型；根据实体和实体类型生成结构化描述文本。

在一个可选的实施例中，第二实体信息提取模型对应设置有约束条件；

所述第一信息提取模块1830，用于根据所约束条件和第一预测分数，调用第二实体信息提取模型对实体进行分类，得到实体所属的实体类型。

在一个可选的实施例中，所述第一信息提取模块1830，用于将实体和第一预测分数输入至第二实体信息提取模型，确定实体的开始标记和中间标记，开始标记对应有第一标签，中间标记对应有第二标签；响应于第一标签与第二标签属于同一实体类型，确定第二预测分数，第二预测分数用于表征第一标签和第二标签形成的组合对应的分数；根据约束条件和第二预测分数输出实体所属的实体类型。

在一个可选的实施例中，词语序列包括影像描述文本对应的第一词语序列；

所述第一处理模块1820，用于对第一词语序列进行编码处理，得到第一词语序列对应的第一词向量。

在一个可选的实施例中，词语序列包括诊断结果文本对应的第二词语序列；

所述第一处理模块1820，用于对第二词语序列进行编码处理，得到第二词语序列对应的第二词向量。

在一个可选的实施例中，所述第一处理模块1820，用于对第一词语序列进行词向量嵌入处理，得到第一词语序列对应的词向量表示；对第一词语序列进行段向量嵌入处理，得到第一词语序列对应的段向量表示；对第一词语序列进行位置向量嵌入处理，得到第一词语序列对应的位置向量表示；将词向量表示、段向量表示和位置向量表示进行融合处理，得到合成向量；将合成向量输入至语言模型，得到第一词语序列对应的第一词向量。

在一个可选的实施例中，所述第一处理模块1820，用于对第二词语序列进行词向量嵌入处理，得到第二词语序列对应的词向量表示；对第二词语序列进行段向量嵌入处理，得到第二词语序列对应的段向量表示；对第二词语序列进行位置向量嵌入处理，得到第二词语序列对应的位置向量表示；将词向量表示、段向量表示和位置向量表示进行融合处理，得到合成向量；将合成向量输入至语言模型，得到第二词语序列对应的第二词向量。

在一个可选的实施例中，医学影像报告包括病灶区域对应的文本信息，结构化报告文本包括结构化描述文本和结构化诊断结果文本；

所述第一处理模块1820，用于从结构化描述文本中提取病灶区域对应的病灶特征，从结构化诊断结果文本中提取诊断结果特征；将病灶特征和诊断结果特征进行融合，得到融合后的特征；

所述第一信息提取模块1830，用于将融合后的特征输入至诊断建议预测模型中，得到病灶区域对应的诊断结果。

在一个可选的实施例中，所述第一信息提取模块1830，用于根据诊断结果和病灶区域对应的处理指南标准，得到病灶区域对应的诊断建议。

图19示出了本申请一个示例性实施例提供的实体信息提取模型的训练装置的结构框图，该装置包括如下部分：

第二获取模块1910，用于获取医学影像报告的样本文本信息，样本文本信息标注有实体和实体所属的实体类型；

第二处理模块1920，用于对样本文本信息中的词语序列进行编码处理，得到词语序列对应的样本词向量；

第二信息提取模块1930，用于将样本词向量输入至实体信息提取模型，得到样本文本信息中的预测实体和预测实体类型；

训练模块1940，用于根据实体、实体类型、预测实体和预测实体类型对实体信息提取模型进行训练，得到训练后的实体信息提取模型。

在一个可选的实施例中，实体信息提取模型包括第一实体信息提取模型和第二实体信息提取模型；

所述第二信息提取模块1930，用于将样本词向量输入至第一实体信息提取模型，得到词向量代表的预测实体和预测实体所属的预测实体类型对应的预测分数；将预测实体和预测分数输入至第二信息提取模型，得到预测实体和预测实体类型。

在一个可选的实施例中，第二信息提取模型对应设置有约束条件；

所述第二信息提取模块1930，用于根据约束条件和预测分数，调用第二信息提取模型对预测实体进行分类，得到预测实体所属的预测实体类型。

图20示出了本申请另一个示例性实施例提供的医学影像报告的信息提取装置的结构框图，该装置包括如下部分：

显示模块2010，用于显示文本信息提取页面，文本信息提取页面包括输入文本框和信息提取控件；

接收模块2020，用于接收输入文本框的输入操作，显示输入的医学影像报告的文本信息；

所述显示模块2010，用于响应于接收到信息提取控件上的信息提取操作，显示医学影像报告对应的结构化报告文本，结构化报告文本包括文本信息含有的实体和实体所属的实体类型。

在一个可选的实施中，文本信息提取页面包括诊断结果预测控件；

所述显示模块，用于响应于接收到诊断结果预测控件上的触发操作，显示医学影像报告对应的额诊断结果和诊断建议。

图21示出了本申请一个示例性实施例提供的服务器的结构示意图。该服务器可以如图1所示的计算机系统100中的服务器120。

服务器2100包括中央处理单元(CPU，Central Processing Unit)2101、包括随机存取存储器(RAM，Random Access Memory)2102和只读存储器(ROM，Read Only Memory)2103的系统存储器2104，以及连接系统存储器2104和中央处理单元2101的系统总线2105。服务器2100还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(I/O系统，Input Output System)2106，和用于存储操作系统2113、应用程序2114和其他程序模块2115的大容量存储设备2107。

基本输入/输出系统2106包括有用于显示信息的显示器2108和用于用户输入信息的诸如鼠标、键盘之类的输入设备2109。其中显示器2108和输入设备2109都通过连接到系统总线2105的输入输出控制器2110连接到中央处理单元2101。基本输入/输出系统2106还可以包括输入输出控制器2110以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器2110还提供输出到显示屏、打印机或其他类型的输出设备。

大容量存储设备2107通过连接到系统总线2105的大容量存储控制器(未示出)连接到中央处理单元2101。大容量存储设备2107及其相关联的计算机可读介质为服务器2100提供非易失性存储。也就是说，大容量存储设备2107可以包括诸如硬盘或者紧凑型光盘只读存储器(CD-ROM，Compact Disc Read Only Memory)驱动器之类的计算机可读介质(未示出)。

计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括RAM、ROM、可擦除可编程只读存储器(EPROM，Erasable Programmable Read Only Memory)、带电可擦可编程只读存储器(EEPROM，Electrically Erasable Programmable Read Only Memory)、闪存或其他固态存储其技术，CD-ROM、数字通用光盘(DVD，Digital Versatile Disc)或固态硬盘(SSD，Solid State Drives)、其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。当然，本领域技术人员可知计算机存储介质不局限于上述几种。上述的系统存储器2104和大容量存储设备2107可以统称为存储器。

根据本申请的各种实施例，服务器2100还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即服务器2100可以通过连接在系统总线2105上的网络接口单元2111连接到网络2112，或者说，也可以使用网络接口单元2111来连接到其他类型的网络或远程计算机系统(未示出)。

上述存储器还包括一个或者一个以上的程序，一个或者一个以上程序存储于存储器中，被配置由CPU执行。

在一个可选的实施例中，提供了一种计算机设备，该计算机设备包括处理器和存储器，存储器中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的医学影像报告的信息提取方法和实体信息提取模型的训练方法。

在一个可选的实施例中，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如上所述的医学影像报告的信息提取方法和实体信息提取模型的训练方法。

可选地，该计算机可读存储介质可以包括：只读存储器(ROM，Read Only Memory)、随机存取记忆体(RAM，Random Access Memory)、固态硬盘(SSD，Solid State Drives)或光盘等。其中，随机存取记忆体可以包括电阻式随机存取记忆体(ReRAM，Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机程序产品或计算机程序，所述计算机程序产品或计算机程序包括计算机指令，所述计算机指令存储在计算机可读存储介质中。计算机设备的处理器从所述计算机可读存储介质读取所述计算机指令，所述处理器执行所述计算机指令，使得所述计算机设备执行如上方面所述的医学影像报告的信息提取方法和实体信息提取模型的训练方法。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种医学影像报告的信息提取方法，其特征在于，所述方法包括：

获取所述医学影像报告的文本信息；

2.根据权利要求1所述的方法，其特征在于，所述结构化报告文本包括结构化描述文本，所述词向量包括所述影像描述文本经过所述编码处理后得到的第一词向量；

所述对所述词向量进行实体信息提取，得到所述医学影像报告对应的结构化报告文本，包括：

将所述第一词向量输入至第一实体信息提取模型，得到所述第一词向量代表的实体和第一预测分数，所述第一预测分数用于表征所述实体所属的实体类型对应的分数；

将所述实体和所述第一预测分数输入至第二实体信息提取模型，得到所述实体所属的实体类型；

根据所述实体和所述实体类型生成所述结构化描述文本。

3.根据权利要求2所述的方法，其特征在于，所述第二实体信息提取模型对应设置有约束条件；

所述将所述实体和所述第一预测分数输入至第二实体信息提取模型，得到所述实体所属的实体类型，包括：

根据所述约束条件和所述第一预测分数，调用所述第二实体信息提取模型对所述实体进行分类，得到所述实体所属的实体类型。

4.根据权利要求3所述的方法，其特征在于，所述根据所述约束条件和所述第一预测分数，调用所述第二实体信息提取模型对所述实体进行分类，得到所述实体所属的实体类型，包括：

将所述实体和所述第一预测分数输入至所述第二实体信息提取模型，确定所述实体的开始标记和中间标记，所述开始标记对应有第一标签，所述中间标记对应有第二标签；

确定第二预测分数，所述第二预测分数用于表征所述第一标签和第二标签形成的组合对应的分数；

响应于所述第一标签与所述第二标签属于同一实体类型，确定所述词向量满足所述约束条件；

根据所述约束条件和所述第二预测分数输出所述实体所属的实体类型。

5.根据权利要求1至4任一所述的方法，其特征在于，所述词语序列包括所述影像描述文本对应的第一词语序列；

所述对所述文本信息中的词语序列进行编码处理，得到所述词语序列对应的词向量，包括：

对所述第一词语序列进行所述编码处理，得到所述第一词语序列对应的第一词向量。

6.根据权利要求5所述的方法，其特征在于，所述对所述第一词语序列进行所述编码处理，得到所述第一词语序列对应的第一词向量，包括：

对所述第一词语序列进行词向量嵌入处理，得到所述第一词语序列对应的词向量表示；

对所述第一词语序列进行段向量嵌入处理，得到所述第一词语序列对应的段向量表示；

对所述第一词语序列进行位置向量嵌入处理，得到所述第一词语序列对应的位置向量表示；

将所述词向量表示、所述段向量表示和所述位置向量表示进行融合处理，得到合成向量；

将所述合成向量输入至语言模型，得到所述第一词语序列对应的第一词向量。

7.根据权利要求1至4任一所述的方法，其特征在于，所述词语序列包括所述医学影像报告的诊断结果文本对应的第二词语序列；

对所述第二词语序列进行所述编码处理，得到所述第二词语序列对应的第二词向量。

8.根据权利要求7所述的方法，其特征在于，所述对所述第二词语序列进行所述编码处理，得到所述第二词语序列对应的第二词向量，包括：

对所述第二词语序列进行词向量嵌入处理，得到所述第二词语序列对应的词向量表示；

对所述第二词语序列进行段向量嵌入处理，得到所述第二词语序列对应的段向量表示；

对所述第二词语序列进行位置向量嵌入处理，得到所述第二词语序列对应的位置向量表示；

将所述合成向量输入至语言模型，得到所述第二词语序列对应的第二词向量。

9.根据权利要求1至4任一所述的方法，其特征在于，所述医学影像报告包括病灶区域对应的文本信息，所述结构化报告文本包括结构化描述文本和结构化诊断结果文本；

所述方法还包括：

从所述结构化描述文本中提取所述病灶区域对应的病灶特征，从所述结构化诊断结果文本中提取诊断结果特征；

将所述病灶特征和所述诊断结果特征进行融合，得到融合后的特征；

将所述融合后的特征输入至诊断建议预测模型中，得到所述病灶区域对应的诊断结果。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

根据所述诊断结果和所述病灶区域对应的处理指南标准，得到所述病灶区域对应的诊断建议。

11.一种医学影像报告的信息提取方法，其特征在于，所述方法包括：

12.一种医学影像报告的信息提取装置，其特征在于，所述装置包括：

第一获取模块，用于获取所述医学影像报告的文本信息；

13.一种医学影像报告的信息提取装置，其特征在于，所述装置包括：

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至11任一所述的医学影像报告的信息提取方法。

15.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至11任一所述的医学影像报告的信息提取方法。