CN115910263A

CN115910263A - 基于知识图谱的pet/ct影像报告结论辅助生成方法及装置

Info

Publication number: CN115910263A
Application number: CN202211336452.8A
Authority: CN
Inventors: 王红熳; 魏浩彬; 杨放春
Original assignee: Beijing University of Posts and Telecommunications
Current assignee: Beijing University of Posts and Telecommunications
Priority date: 2022-10-28
Filing date: 2022-10-28
Publication date: 2023-04-04

Abstract

本发明提供一种基于知识图谱的PET/CT影像报告结论辅助生成方法及装置，包括：获取PET/CT影像数据，PET/CT影像数据包括第一影像表现文本信息；将第一影像表现文本信息输入至训练好的文本分类模型中，得到结构化文本分类结果；将分类结果输入至训练好的文本生成模型中，得到影像表现文本摘要，并将文本摘要输入至训练好的二分类模型中，得到影像异常表现摘要；基于历史影像报告构建知识图谱；将第一影像表现文本信息输入至训练好的实体抽取模型中，得到第一实体，基于第一实体和知识图谱确定诊断建议文本和疾病类型文本；将影像异常表现摘要、诊断建议文本和疾病类型文本作为待预测的PET/CT影像数据的第一影像结论文本。该方法提高了影像结论生成的效率和准确率。

Description

基于知识图谱的PET/CT影像报告结论辅助生成方法及装置

技术领域

本发明涉及计算机技术领域，尤其涉及一种基于知识图谱的PET/CT影像报告结论辅助生成方法及装置。

背景技术

PET/CT是一种将PET(功能代谢显像)和CT(解剖结构显像)两种影像技术有机地结合的新型影像设备，是将微量的正电子核素示踪剂注射到人体内，然后采用特殊的体外探测仪(PET)探测这些正电子核素人体各脏器的分布情况，通过计算机断层显像的方法显示人体的主要器官的生理代谢功能，同时应用CT技术为这些核素分布情况进行精确定位。PET/CT影像广泛应用于肿瘤、冠心病和脑部等疾病的辅助诊断和评价等。

目前主流的PET/CT设备厂商的放射信息系统所产生的PET/CT影像报告由影像表现和影像结论两部分组成。其中的影像表现部分一般由医师手动生成或通过一些图像到文本的文本自动生成方法而生成；而影像结论部分一般由影像表现的摘要、疑似疾病和诊断建议三部分组成。由于影像结论部分的内容是通过分析PET/CT影像的影像表现而得出的结论，目前其完全是医师分析判断后将得到的结论手动输入以生成，该影像结论生成时完全取决于医师的经验和水平，因而难以确保影像结论的精确度；并且当医师分析出PET/CT影像的影像结论后，则还需手动输入具体的文本内容，则降低了PET/CT影像结论生成的效率。因此，如何提高影像结论生成的精确度以及效率是亟待解决的技术问题。

发明内容

有鉴于此，本发明提供了一种基于知识图谱的PET/CT影像报告结论辅助生成方法及装置，以解决现有技术中存在的一个或多个问题。

根据本发明的一个方面，本发明公开了一种基于知识图谱的PET/CT影像报告结论辅助生成方法，所述方法包括：

获取待预测的PET/CT影像数据，所述PET/CT影像数据包括第一影像表现文本信息；

将所述第一影像表现文本信息输入至训练好的文本分类模型中，得到以不同身体部位为类别的结构化文本分类结果；

将所述结构化文本分类结果输入至训练好的文本生成模型中，得到各类别的身体部位对应的影像表现文本摘要，并将所述影像表现文本摘要输入至训练好的二分类模型中，得到影像异常表现摘要；

基于历史影像报告构建知识图谱；

将所述第一影像表现文本信息输入至训练好的实体抽取模型中，得到所述第一影像表现文本信息的第一实体，基于所述第一实体和知识图谱确定所述第一影像表现文本信息对应的诊断建议文本和疾病类型文本；

将所述影像异常表现摘要、诊断建议文本和疾病类型文本作为所述待预测的PET/CT影像数据的第一影像结论文本。

在本发明的一些实施例中，所述方法还包括：

基于所述历史影像报告构建第一样本数据集、第二样本数据集、第三样本数据集以及第四样本数据集；

基于所述第一样本数据集、第二样本数据集、第三样本数据集以及第四样本数据集分别对第一网络模型、第二网络模型、第三网络模型和第四网络模型进行预训练，得到训练好的文本分类模型、文本生成模型、二分类模型和实体抽取模型。

在本发明的一些实施例中，基于所述历史影像报告构建第一样本数据集、第二样本数据集、第三样本数据集以及第四样本数据集，包括：

获取历史影像报告中的第二影像表现文本和第二影像结论文本；

将获取到的所述第二影像表现文本和第二影像结论文本进行预处理；

基于预处理后的所述第二影像表现文本和第二影像结论文本构建第一样本数据集、第二样本数据集、第三样本数据集以及第四样本数据集；

其中，所述第一样本数据集中的样本数据包括身体部位的类别信息和结构化文本信息，所述第二样本数据集中的样本数据包括文本摘要对，所述第三样本数据集中的样本数据包括影像表现文本摘要和文本表征类型，所述第四样本数据集中的样本数据包括第二实体和所属类型。

在本发明的一些实施例中，所述文本分类模型、文本生成模型、二分类模型和实体抽取模型分别为fasttext模型、pointer-generator模型、bert模型和BiLSTM-CRF模型。

在本发明的一些实施例中，基于历史影像报告构建知识图谱，包括：

对所述第二影像表现文本和第二影像结论文本中的第二实体进行标注，所述第二实体的类型包括疾病、诊断建议、身体部位、异常症状、正常症状；

对不同历史影像报告中表征相同内容的第二实体进行对齐操作，并将对齐的第二实体所包含的信息进行融合；

基于对齐操作后且信息融合后的多个第二实体构建知识图谱。

在本发明的一些实施例中，所述方法还包括：

将所述知识图谱采用图数据库进行存储，所述图数据库为Neo4j、3store、DLDB、或Jena。

在本发明的一些实施例中，

将对齐的第二实体所包含的信息进行融合，包括：

基于字符串相似度模型计算对齐的第二实体所包含的信息的字符串相似度；

基于语义相似性模型计算对齐的第二实体所包含的信息的语义相似度；

将所述字符串相似度和所述语义相似度进行融合得到融合相似度；

其中，所述字符串相似度模型采用的计算公式为：

其中，sim_str(x，y)代表实体x和实体y的字符串相似度，x和y分别代表两个字符串相似的实体，P(x)代表对实体x拆解后的字符列表，P(y)代表对实体y拆解后的字符列表；

所述语义相似性模型采用的计算公式为：

其中，sim_emb(x，y)表示实体x和实体y的语义相似度，x_i表示实体x的词向量中的第i个值，yi表示实体y的词向量中的第i个值，n表示词向量中的元素的个数。

在本发明的一些实施例中，所述融合相似度的计算公式为：

其中，sim(x，y)表示第二实体x和第二实体y的融合相似度，

表示权重系数。

根据本发明的另一方面，本发明还公开了一种基于知识图谱的PET/CT影像报告结论辅助生成系统，该系统包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。

根据本发明的另又一方面，本发明还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一实施例所述方法的步骤。

本发明所公开的基于知识图谱的PET/CT影像报告结论辅助生成方法及装置，基于文本生成模型得到各类别的身体部位对应的影像表现文本摘要，进而再基于二分类模型得到影像异常表现摘要，该方法在对影像表现文本内容的分类方面按照人体的身体部位进行分类，并且将分类之后的影像表现文本摘要进行二分类，获取影像异常表现摘要，以便于生成影像结论所需的用于表征影像异常的摘要信息。并且该方法在生成诊断建议文本和疾病类型文本时，将知识图谱应用于PET/CT影像报告结论的文本生成，知识图谱的可解释性和实体强关联性能够使得本发明的影像报告结论生成方法及装置更加准确的得到第一影像表现文本信息的诊断建议和疾病类型，进而提高影像结论文本生成的准确性。并且，本发明基于第一影像表现文本可自动的生成第一影像结论文本，从而无需人工进行分析及手动输入，从而提高了影像结论文本的生成效率。

本发明的附加优点、目的，以及特征将在下面的描述中将部分地加以阐述，且将对于本领域普通技术人员在研究下文后部分地变得明显，或者可以根据本发明的实践而获知。本发明的目的和其它优点可以通过在书面说明及其权利要求书以及附图中具体指出的结构实现到并获得。

本领域技术人员将会理解的是，能够用本发明实现的目的和优点不限于以上具体所述，并且根据以下详细说明将更清楚地理解本发明能够实现的上述和其他目的。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，并不构成对本发明的限定。附图中的部件不是成比例绘制的，而只是为了示出本发明的原理。为了便于示出和描述本发明的一些部分，附图中对应部分可能被放大，即，相对于依据本发明实际制造的示例性装置中的其它部件可能变得更大。在附图中：

图1为本发明一实施例的基于知识图谱的PET/CT影像报告结论辅助生成方法的流程示意图。

图2为本发明另一实施例的基于知识图谱的PET/CT影像报告结论辅助生成方法的流程示意图。

图3为本发明一实施例的BiLSTM模型的结构示意图。

图4为本发明一实施例的BiLSTM-CRF模型的结构示意图。

图5为本发明一实施例的基于知识图谱的PET/CT影像报告结论辅助生成系统的架构示意图。

图6为本发明一实施例的影像报告结论辅助生成系统的影像表现分类模块的结构示意图。

图7为本发明一实施例的影像报告结论辅助生成系统的影像摘要生成模块的结构示意图。

图8为本发明一实施例的影像报告结论辅助生成系统的影像诊断建议生成模块的结构示意图。

图9为本发明一实施例的影像报告结论辅助生成系统的疾病类型生成模块的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚明白，下面结合附图对本发明实施例做进一步详细说明。在此，本发明的示意性实施例及其说明用于解释本发明，但并不作为对本发明的限定。

在此，需要说明的是，为了避免因不必要的细节而模糊了本发明，在附图中仅仅示出了与根据本发明的方案密切相关的结构和/或处理步骤，而省略了与本发明关系不大的其他细节。

应该强调，术语“包括/包含/具有”在本文使用时指特征、要素、步骤或组件的存在，但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

本申请的基于知识图谱的PET/CT影像报告结论辅助生成方法及装置，通过构建知识图谱对待预测的影像表现文本的影像结论进行预测，并自动生成规范化的影像结论文本；并且通过本申请可以便于梳理实体之间的联系及实体的特有属性，提升实体的检索和调用的效率，在保证生成影像结论的准确性的基础上，有效地提高影像结论生成的效率。

在下文中，将参考附图描述本发明的实施例。在附图中，相同的附图标记代表相同或类似的部件，或者相同或类似的步骤。

图1为本发明一实施例的基于知识图谱的PET/CT影像报告结论辅助生成方法的流程示意图，如图1所示，该影像报告结论辅助生成方法至少包括步骤S10至S60。

步骤S10：获取待预测的PET/CT影像数据，所述PET/CT影像数据包括第一影像表现文本信息。

在该步骤中，待预测的PET/CT影像数据为需要预测其影像结论的影像数据，该待预测的PET/CT影像数据中包含第一影像表现文本信息，即本申请实施例中的影像报告结论辅助生成方法基于待预测的PET/CT影像数据中的第一影像表现文本信息自动生成待预测的PET/CT影像数据的第一影像结论文本。

步骤S20：将所述第一影像表现文本信息输入至训练好的文本分类模型中，得到以不同身体部位为类别的结构化文本分类结果。

在该步骤中，是将步骤S10中获取到的第一影像表现文本信息通过文本分类模型基于身体部位为类别进行分类。参考图2，文本分类模型的输入为第一影像表现文本信息对应的多个文本语句，此时文本分类模型的输出为结构化的文本分类结果。

示例性的，训练好的文本分类模型可为fasttext文本分类模型，则在实际预测之前，相应的需要对模型进行预训练。则此时需要基于历史影像报告构建第一样本数据集，从而基于第一样本数据集对第一网络模型进行预训练，以得到训练好的fasttext文本分类模型，其中历史影像报告中不仅包含有第二影像表现文本，还包括第二影像结论文本。在对文本分类模型进行训练时，首先获取历史影像报告中的第二影像表现文本和第二影像结论文本；将获取到的所述第二影像表现文本和第二影像结论文本进行预处理；基于预处理后的所述第二影像表现文本和第二影像结论文本构建第一样本数据集。第一样本数据集中的样本数据包括影像表现文本中的身体部位的类别信息和结构化文本信息。

具体的，当获取到历史影像报告之后，首先，对历史PET/CT影像报告文本进行分析，从历史PET/CT影像报告中提取出影像表现文本和影像结论文本。可采用python版本的pdf文本提取工具pdfplumber，对历史PET/CT影像报告进行文本提取，并通过“影像表现”和“影像结论”的字符串匹配，以匹配出历史影像报告的影像表现文本和影像结论文本。进而利用历史PET/CT影像报告的影像表现文本对fasttext文本分类模型完成训练，以使训练好的fasttext文本分类模型可以身体部位为类别对文本句子进行预测和分类，从而输出按身体部位分类的句子集合的结构化文本，以确保在后续步骤中的影像表现文本摘要是通过以身体部位为类别分好类的句子集合按类生成的，进而确保获得的影像结论也是按照以身体部位为类别分类显示的。

例如，在一实施例中，获取到包含有第二影像表现文本和第二影像结论文本的历史PET/CT影像报告后，则首先剔除PET/CT影像报告文本中的一些停用词，并对报告中的文本进行结巴分词处理。进一步的，通过人工标注的方法对多个历史影像报告进行标注，以获得第一样本数据集。第一样本数据集中的样本数据如下所示：“__label__1,双侧大脑半球对称，灰白质对比正常”。第一样本数据集中包括多个样本数据，最终将第一样本数据集中的多个样本数据以3：7的比例分为测试数据集和训练数据集。

进一步的构建基于fasttext文本分类模型的第一网络模型，fasttext是开源的有监督文本分类模型。fastText使用词袋以及n-gram袋表征语句，还有使用子字(subword)信息，并通过隐藏表征在类别间共享信息，提供了简单而高效的文本分类和表征学习的方法，性能比肩深度学习，且速度更快。其中模型的参数可以设置如下：Epoch的数值为0.5，学习率为0.1，n-gram特征为2。

步骤S30：将所述结构化文本分类结果输入至训练好的文本生成模型中，得到各类别的身体部位对应的影像表现文本摘要，并将所述影像表现文本摘要输入至训练好的二分类模型中，得到影像异常表现摘要。

该步骤中的结构化文本分类结果为文本分类模型的输出结果，并且文本生成模型输出的影像表现文本摘要一般包括影像正常表现摘要和影像异常表现摘要。影像正常表现摘要代表影像表现表示不存在疾病的身体部位所对应的摘要，而影像异常表现摘要则代表影像表现表示存在疾病的身体部位所对应的摘要。对于二分类模型，是将文本生成模型输出的不同身体部位的影像表现文本摘要作为输入，以完成表征正常和表征异常的二分类，并根据分类标签剔除表征正常的摘要，输出影像表现表征异常的文本摘要。

示例性的，训练好的文本生成模型可为pointer-generator文本生成模型，而训练好的二分类模型可为bert文本二分类模型。即在该实施例中，首先通过pointer-generator文本生成模型生成不同类别的身体部位的影像表现文本摘要，并进一步的通过bert文本二分类模型过滤影像表现表征正常的文本摘要，保留影像表现文本中表征异常的文本摘要。

类似的，在对文本生成模型和二分类模型进行预训练时，首先需要基于历史影像报告构建第二样本数据集和第三样本数据集；从而基于第二样本数据集对第二网络模型进行预训练，以得到训练好的文本生成模型；并基于第三样本数据集对第三网络模型进行预训练，以得到训练好的二分类模型。其中，第二样本数据集中的样本数据包括文本摘要对，第三样本数据集中的样本数据则包括影像表现文本摘要和文本表征类型，其中文本表征类型为表征正常或表征异常。

具体的，在构建第二样本数据集时，首先也获取历史影像报告中的第二影像表现文本和第二影像结论文本；将获取到的所述第二影像表现文本和第二影像结论文本进行预处理；基于预处理后的所述第二影像表现文本和第二影像结论文本构建第二样本数据集。在对文本进行预处理时，具体的是将第二影像表现文本进行jieba分词，并将分词后的文本转为文本摘要对，第二样本数据集中的样本数据具体为“文本-摘要”的形式，且在第二样本数据集中，训练集与测试集中的样本数据的比例可为7:3。

pointer-generator文本生成模型是生成式文本生成模型，是在生成式网络seq2seq的基础上加入了pointer机制，能够生成新词，并对句子改写并解决了seq2seq网络输出重复冗余的问题。具体模型训练参数可设置如下：隐藏层的层数为256，词向量维度为128，训练最小批次设为16，编码器的最大时间步长为100，解码器的最大时间步长为50，用于波束搜索解码的波束大小为4，生成摘要的最小序列长度为15，学习率为0.15。应当理解的是，该实施例中所列举的文本生成模型的类型以及模型参数均是一种示例，在其他实施例中，其模型类型以及模型参数均可以根据实际应用场景进行改变。

由于基于训练好的文本生成模型生成了第一影像表现文本中人体各身体部位的影像表现文本摘要，则由于诊断结论通常只会保留影像表现为表征异常的诊断结论，则进而对影像表现文本摘要进行表征正常和表征异常二分类，从而过滤影像表现中表征正常的文本的摘要，保留表征异常的文本的摘要。

在基于对第三样本数据集对第三网络模型进行预训练，以得到训练好的bert文本二分类模型时，首先对历史PET/CT影像报告数据集进行数据预处理和标注，生成训练数据集和测试数据集；进而基于第三样本数据集对bert文本分类模型进行训练，从而采用训练好的bert文本分类模型增强词向量的语义表示，得到词向量，将bert最后一层输出的第一个token位置(CLS位置)当作句子的表示，后接全连接层进行分类，用最后一层cls向量做分类，用于判断文本对应的摘要属于表征正常文本摘要还是表征异常文本摘要。

具体的，首先获取历史PET/CT影像报告数据，并去除历史PET/CT影像报告中的除第二影像表现文本和第二影像结论文本外的文本内容；进一步的对数据进行情感标注，如表征影像表现正常的文本标注为0，而表征影像表现异常的文本标注为1，数据格式如：

0肝脏形态大小正常，肝内密度均匀，未见异常密度影；

0双侧大脑半球对称，灰白质对比正常；

1右侧锁骨下动脉起始处、胸主动脉壁钙化；

1腹主动脉壁钙化。

其中，在第三样本数据集中，测试数据集和训练数据集中的样本数据的比例也可为3：7。而在一实施例中，bert模型的层数可设为12，输出的维度可为768，而多头注意力机制的个数可为12。另外，bert模型的训练轮数可设为4，训练最小批次可设为16，而学习率可设为5。

步骤S40：基于历史影像报告构建知识图谱。

知识图谱(Knowledge Graph)，是结构化的语义知识库，用于以符号形式描述物理世界中的概念及其相互关系。其基本组成单位是“实体-关系-实体”三元组，以及实体及其相关属性-值对，实体间通过关系相互联结，构成基于图的一种数据结构。知识抽取包括实体抽取和关系抽取；在本申请中知识抽取主要指的是从历史影像报告文本中提取出影像表现、影像结论、疾病、身体部位、检查方式、检查设备、影像表现建议、医疗用语等实体以及它们之间的关系等。

示例性的，基于历史影像报告构建知识图谱，包括：获取历史影像报告中的第二影像表现文本和第二影像结论文本；对所述第二影像表现文本和第二影像结论文本中的第二实体进行标注，所述第二实体的类型包括疾病、诊断建议、身体部位、异常症状、正常症状，而实体的具体内容为上述各类型下的具体文本内容；对不同历史影像报告中表征相同内容的第二实体进行对齐操作，并将对齐的第二实体所包含的信息进行融合；基于对齐操作后且信息融合后的多个第二实体构建知识图谱。

知识图谱包含历史PET/CT影像报告中的五种重要实体类型：疾病、诊断建议、身体部位、异常症状、正常症状。知识存储是指将从PET/CT影像报告提取出来的实体和实体关系进行持久化存储，而知识在存储时包括五种属性：标识号、名称、类型、层级、关联实体集合。示例性的，知识图谱包含涉及五种重要实体类型的八种实体间关系，如：基于身体部位和异常症状之间建立的实体间关系，基于异常症状和疾病之间建立的实体间关系，基于身体部位和疾病之间建立的实体间关系，基于正常表现和疾病之间建立的实体间关系，基于身体部位和正常表现之间建立的实体间关系，基于正常表现和诊断建议之间建立的实体间关系，基于身体部位和诊断建议之间建立的实体间关系，基于异常表现和诊断建议之间建立的实体间关系。

具体的，在构建知识图谱时，首先提取历史PET/CT影像报告PDF文本，删除其中换行、空格符，并清除文本中如链接等无关的诊断信息，得到包含PET/CT诊断信息的文本数据集。进一步的，对“疾病”、“诊断建议”、“身体部位”、“异常征状”、“正常征状”五种实体进行标注，并对影像报告数据按照BIOES格式进行标注，B表示该字位于一个实体的开始，I表示处于实体内部，O表示实体外部即该字不属于某个实体，E表示字符处于一个实体的结束位置，S表示单个字符就是一个实体，例如“皮/B-dis肤/I-dis恶/I-dis性/I-dis黑/I-dis色/I-dis素/I-dis瘤/E-dis”。将报告数据标注完之后，进一步的将标注好的样本数据以3：7的比例分为测试数据集和训练数据集。下表为一实施例的实体类型以及实体信息的对应关系：

0	肺癌	疾病
			1	建议穿刺活检证实	诊断建议
2	肺部	身体部位
			3	左侧颈动脉鞘旁增大淋巴结FDG代谢异常增高	异常征状
4	双侧大脑半球对称，灰白质对比正常	正常征状

具体的，对历史PET/CT影像报告中的文本进行实体抽取时所采用的模型可为BiLSTM-CRF模型，BiLSTM由两个方向相反的LSTM神经网络构成，其中一层是特征从左向右传递，也称为前向传递，在文本处理上则是从句子起始位置开始输入；另一层则相反，进行特征的后向传递，最后对得到的两个结果进行拼接处理并通过全连接层输出；BiLSTM的结构如图3所示。CRF模型可以通过对最终的预测标签加以约束来提高标签预测效果，约束条件不需要手动添加，在训练过程中就可以自动学习到。因此，在BiLSTM的基础上添加一层CRF进行约束然后输出预测结果可以有效消除无效的预测标签序列。基于字符的BiLSTM-CRF模型结构图如图4所示。则在该实施例中，为了获得训练好的实体抽取模型，则基于所述历史影像报告构建第四样本数据集，进而基于第四样本数据集对第四网络模型进行预训练从而得到训练好的BiLSTM-CRF实体抽取模型。

其中对BiLSTM-CRF模型进行训练，初始字向量与词向量均利用word2vec进行预训练。并且BiLSTM-CRF模型参数可参考如下设置:Dropout为0.5，初始学习率为0.001，LSTM隐藏状态大小为128，字向量维度为128，汉字结构特征向量维度为96，词典词向量维度为136，batch size为64。例如，一实施例的实体数据具体信息如下表所示：

实体名称	标注	数量
			疾病	dis	156
诊断建议	dis	1099
			身体部位	drug	619
异常症状	nsym	3650
			正常症状	nsym	3260
总计		8784

另外，在完成命名实体识别入库后，对于自动化入库的不同的PET/CT报告的实体数据存在字符相似的问题，即同一个实体有多种表达，从而需要解决知识对齐的问题。知识对齐是指需要解决从PET/CT报告中获取的实体多词一意的问题；通过相似性计算模型将从不同数据源中获取的实体，映射到同一个向量空间中；通过计算向量之间的距离，即当两条实体之间的相似性达到一定的阈值后，就可以认为两条实体是属性同一个实体，则进一步对实体进行融合(对齐)；比如“肺”和“肺部”。另外，实体字符相似但语义相差较大的情况，比如“淋巴肿大”和“淋巴肿瘤”，也会导致知识图谱的数据冗余，且在利用知识图谱进行疾病类型及诊断建议推断环节无法正确链接到知识图谱的实体上。为了解决上述问题，则进一步将对齐的第二实体所包含的信息进行融合，具体步骤包括：基于字符串相似度模型计算对齐的第二实体所包含的信息的字符串相似度；基于语义相似性模型计算对齐的第二实体所包含的信息的语义相似度；将所述字符串相似度和所述语义相似度进行融合得到融合相似度。

其中，所述字符串相似度模型采用的计算公式为：

其中，sim_str(x，y)代表实体x和实体y的字符串相似度，x和y分别代表两个字符串相似的第二实体，P(x)和P(y)分别代表对实体x、y的分解处理，拆解后可以得到构成实体的字符列表，则P(x)代表对实体x拆解后的字符列表，P(y)代表对实体y拆解后的字符列表。

word2vec是基于上下文的语境训练词向量，向量接近的词其语义往往也接近，因此可以使用词向量维度的余弦相似度来衡量实体间的语义相似性。假设实体x对应的词向量为x＝[x1,x2.....xn]，实体y对应的词向量为y＝[y1,y2.....yn]，则语义相似性模型采用的计算公式为：

其中，sim_emb(x，y)表示实体x和实体y的语义相似度，x_i表示实体x的词向量中的第i个值，y_i表示实体y的词向量中的第i个值，n表示词向量中的元素的个数。

另外，融合相似度的计算公式为：

其中，

表示权重系数。示例性的，

在一实施例中，PET/CT影像报告结论辅助生成方法还包括：将所述知识图谱采用图数据库进行存储，所述图数据库为Neo4j、3store、DLDB、或Jena。其中，3store是关系型数据库，利用三元组表存储，结构简单但会大量自连接操作，开销巨大。DLDB是关系型数据库，利用邻接表的方式存储，存储方式简单但可能超出所允许的中列数目的上限，表中可能存在大量空值，无法表示一对多联系或多值属性，谓语的增加、修改或删除成本高。Jena是关系型数据库，利用属性表解决了三元组表的自连接问题；解决了水平表中列数目过多的问题真实知识图谱需建立的关系表数量可能超过上限，但表中可能存在大量空值，无法表示一对多联系或多值属性。Neo4j是图数据库，具备“无索引邻接”特性；基于图模型的数据库解决了空值、无法表示一对多联系或多值属性、谓语的增加、修改或删除成本高的问题，但成熟度不如关系数据库。对比以上4种知识存储的数据库开销和效率，优选的可采用neo4j图数据库来完成知识存储。

步骤S50：将所述第一影像表现文本信息输入至训练好的实体抽取模型中，得到所述第一影像表现文本信息的第一实体，基于所述第一实体和知识图谱确定所述第一影像表现文本信息对应的诊断建议文本和疾病类型文本。

在该步骤中，第一实体包括“疾病”、“诊断建议”、“身体部位”、“异常症状”、“正常症状”五种类型。例如，基于实体抽取模型抽取到的第一实体可为“肺癌(疾病)、建议穿刺活检证实(诊断建议)、肺部(身体部位)、左侧颈动脉鞘旁增大淋巴结FDG代谢异常增高(异常症状)、双侧大脑半球对称，灰白质对比正常(正常症状)”。

而基于第一实体和知识图谱确定所述第一影像表现文本信息对应的诊断建议文本的具体步骤如下所示：加载BiLSTM-CRF模型，对第一影像表现文本进行解析，识别出其中的若干个不同类型的中心实体并完成存储；经过BiLSTM-CRF模型解析处理的若干个中心实体，作为知识图谱检索的输入，构造知识图谱查询语句；从知识图谱中查询实体类型为诊断建议的实体信息，根据模板库和自然语言形式规则构建答案，然后输出诊断建议文本。而若从知识图谱中查询失败的话，则还可触发用户填写诊断建议机制，补充知识图谱，并输出文本。

类似的，基于第一实体和知识图谱确定所述第一影像表现文本信息对应的疾病类型文本的具体步骤包括：加载BiLSTM-CRF模型，对第一影像表现文本进行解析，识别出其中的若干个不同类型的中心实体并完成存储；经过BiLSTM-CRF模型解析处理的若干个中心实体，作为知识图谱检索的输入，构造知识图谱查询语句；从知识图谱中查询实体类型是疾病类型的实体信息，根据模板库和自然语言形式规则构建答案，然后输出疾病类型文本。类似的，若从知识图谱中查询失败的话，则也可触发用户填写疑似疾病机制，补充知识图谱，并输出文本。

步骤S60：将所述影像异常表现摘要、诊断建议文本和疾病类型文本作为所述待预测的PET/CT影像数据的第一影像结论文本。

本申请的基于知识图谱的PET/CT影像报告结论辅助生成方法通过构建知识图谱以完成对第一影像表现文本的影像结论的预测，从而生成规范化的影像报告。该方法结合知识图谱、命名实体识别模型、分类模型完成PET/CT影像报告的影像结论文本的自动生成。并且分类模型剔除与影像结论无关的影像表现文本内容，还通过分类模型以身体部位为类别对表现文本进行分类，实现了影像结论的分层展示。

通过上述实施例可以发现，采用本发明的基于知识图谱的PET/CT影像报告结论辅助生成方法生成影像结论文本时，首先对历史PET/CT影像报告文本进行分析，从历史PET/CT影像报告中提取出第二影像表现文本和第二影像结论文本，并基于第二影像表现文本对fasttext文本分类模型完成训练；其中训练好的fasttext文本分类模型对第一影像表现文本按照身体部位为类别进行句子预测和分类，输出按身体部位分类的句子集合的结构化文本，保证下一步骤中输出的影像表现文本摘要是按照以身体部位分好类的句子集合按类生成的。在影像表现文本摘要按类生成和文本二分类过滤过程中，通过pointer-generator文本生成模型生成不同类别的身体部位的影像表现文本摘要；通过训练好的bert文本二分类模型过滤影像表现文本中表征正常的文本摘要，保留影像表现文本中表征异常的文本摘要。而在基于知识图谱的诊断建议文本生成过程中，通过训练好的BiLSTM-CRF命名实体模型识别第一影像表现文本中的中心实体，根据识别出的中心实体构建出检索语句然后检索知识图谱中与中心实体最相关的诊断建议并输出。而在基于知识图谱的疾病类型文本生成过程中，通过训练好的BiLSTM-CRF命名实体模型识别第一影像表现文本中的中心实体，根据识别出的中心实体构建出检索语句，然后检索知识图谱中与中心实体最相关的疾病类型并输出。

对应的，本发明还公开了一种基于知识图谱的PET/CT影像报告结论辅助生成系统，该系统包括处理器和存储器，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如上任一实施例所述方法的步骤。

图5为本发明一实施例的基于知识图谱的PET/CT影像报告结论辅助生成系统的架构示意图，如图5所示，该系统至少包括：影像报告文本预处理模块、影像摘要生成模块、诊断建议生成模块、疾病类型生成模块和诊断结论生成模块。影像报告文本预处理模块用于将历史PET/CT影像报告数据集的影像表现和影像结论从影像报告中提取出来，还用于将用户输入的待预测的影像报告的影像表现文本按照身体部位进行分类，获得若干个不同身体部位的影像表现文本句子的集合。影像摘要生成模块用于生成不同身体部位的影像表现文本摘要，并剔除影像表现表征正常的文本摘要，保留影像表现表征异常的文本摘要。诊断建议生成模块用于加载命名实体识别模型并识别影像表现文本的中心实体，根据中心实体构建出检索语句，然后通过知识图谱检索出与中心实体最相关的诊断建议并输出。疾病类型生成模块用于加载命名实体识别模型并识别影像表现句子的中心实体，根据中心实体构建出检索语句并通过知识图谱检索出与中心实体最相关的疾病类型并输出。诊断结论生成模块用于将表征异常的文本摘要、诊断建议以及疾病类型输出。

示例性的，影像报告文本预处理模块包括影像报告文本提取模块、fasttext分类模型训练模块和fasttext分类模型调用模块。影像报告文本提取模块负责提取出PET/CT影像报告中的影像表现和影像结论两部分文本。fasttext分类模型训练模块用于基于历史PET/CT影像报告构建的第一样本数据集对fasttext分类模型进行训练，评估训练结果，得到训练好的模型。fasttext分类模型调用模块负责调用上述训练好的fasttext分类模型，fasttext分类模型调用模块的输入是待预测的影像报告中的影像表现文本的句子集合，输出是按照身体部位分类的结构化文本；即将输入的影像表现文本句子按照身体部位进行分类，获得按若干个不同身体部位对应的结构化文本。

参考图6，当用户输入了待预测的PET/CT影像数据之后，影像报告文本提取模块提取影像数据中的影像表现文本，并发起生成诊断结论的请求。进而对影像表现文本进行预处理(去除停用词并完成结巴分词)，然后加载fasttext分类模型。fasttext分类模型加载完毕后，将待预测影像数据的影像表现文本以身体部位为类别进行文本分类并输出分类后的结构化文本。

参考图7，影像摘要生成模块包括pointer-generator文本生成模型模块和bert文本分类模型模块。pointer-generator文本生成模型模块包括pointer-generator模型训练模块和pointer-generator模型调用模块；pointer-generator模型训练模块负责基于第二样本数据集对pointer-generator模型完成训练，并负责将训练好的pointer-generator模型以文件形式存储下来；pointer-generator模型调用模块负责调用上述训练好的pointer-generator文本生成模型。pointer-generator模型调用模块的输入是上述的影像报告文本预处理模块输出的已按照身体部位分类后的结构化文本，输出是不同身体部位的影像表现文本摘要。进一步的，bert文本分类模型模块也包括bert文本分类模型训练模块和bert文本分类模型调用模块；bert文本分类模型训练模块负责基于第三样本数据集训练bert文本分类模型，评估训练结果，得到训练好的模型；bert文本分类模型调用模块负责将pointer-generator模型输出的不同身体部位的影像表现文本摘要，进行表征正常和表征异常的二分类，并根据分类标签剔除表征正常的文本摘要，输出影像表现异常的文本摘要。

诊断建议生成模块包括命名实体识别模块和知识图谱检索模块。命名实体识别模块包括命名实体识别训练模块和命名实体识别调用模块。命名实体识别训练模块用于基于第四样本数据集训练BiLSTM-CRF模型，评估训练结果，得到训练好的实体抽取模型，并将模型以文件的形式保存下来。命名实体识别调用模块主要用于：1、调用BiLSTM-CRF模型识别历史PET/CT影像报告中的不同类型的实体并存储至知识图谱数据库；2、对待预测的影像表现文本进行预处理(去除停用词、结巴分词)，并加载BiLSTM-CRF模型从而识别待预测的影像表现文本中的若干个中心实体。知识图谱检索模块负责基于待预测的影像表现文本对应的若干个中心实体构建出查询语句，然后基于查询语句从知识图谱中查询到与若干个中心实体对应的诊断建议或疾病类型，并以自然语言形式输出。若检索失败，则还可触发用户补充填写作为补偿，以使用户手动补充知识图谱检索结果。

参考图8，首先将待预测的影像表现文本输入至诊断建议生成模块，进而诊断建议生成模块对影像表现文本进行预处理。诊断建议生成模块加载BiLSTM-CRF模型，对预处理后的影像表现文本进行解析，并识别出其中的若干个不同类型的中心实体，而被识别出的若干个不同类型的中心实体作为知识图谱检索的输入，构造知识图谱查询语句。进一步的诊断建议生成模块基于查询语句从知识图谱中查询实体类型为诊断建议的实体信息，并根据预设规则将查询到的实体类型为诊断建议的实体信息生成自然语言形式的答案，作为诊断建议文本并输出。而若诊断建议生成模块基于查询语句从知识图谱中没有查询到诊断建议的实体信息时，则还可触发用户填写诊断建议的机制，从而补充知识图谱，并进一步的将填写的诊断建议作为诊断建议文本并输出。

类似的，疾病类型生成模块复用诊断建议生成模块中的命名实体识别模块和知识图谱检索模块；结合自然语言模板库构建完整疾病类型结论的文本语句并输出。示例性的，参考图9，将待预测的影像表现文本输入至疾病类型生成模块，进而疾病类型生成模块对输入文本进行预处理；疾病类型生成模块加载BiLSTM-CRF模型，对预处理后的文本进行解析，并识别出其中的若干个不同类型的中心实体并完成存储；进而将识别出的若干个中心实体，作为知识图谱检索的输入，构造知识图谱查询语句。进一步的，疾病类型生成模块从知识图谱中查询实体类型为疾病的实体信息，并输出疾病推断文本。与诊断建议生成模块类似的，若疾病类型生成模块基于查询语句从知识图谱中若没有查询到疾病类型或显示查询失败时，则还可触发用户填写疑似疾病的机制，从而补充知识图谱，并进一步将填写的疑似疾病作为疾病推断文本输出。

另外，对于数据存储模块，其可由Neo4j、HDFS和MySQL数据库组成。其中，Neo4j图数据库用来存储知识图谱的实体信息和关系信息，HDFS主要存储fasttext分类模型文件、BiLSTM-CRF模型文件和bert二分类模型文件，MySQL用来存储自然语言模板库等结构化数据。

通过上述实施例可以发现，本申请的基于知识图谱的PET/CT影像报告结论辅助生成方法及装置将计算机领域的文本生成技术应用于PET/CT影像报告的影像结论生成过程中，辅助医师高效地进行影像结论的生成，有效的减轻了医师对影像结论文本编辑的工作量，从而提高了影像结论生成的效率。这对于减轻医师工作负担、提高医院的服务效率以及提高影像报告结论的准确率等方面具有重要作用。本申请的PET/CT影像报告结论辅助生成方法及装置不仅解决了业内PET/CT影像报告诊断结论无法自动生成的问题外，还针对PET/CT影像报告中诊断结论的医疗文本的结构和内容的特点，创新性地集成了知识图谱的构建和应用以实现PET/CT影像报告诊断结论的疾病推断文本和诊断建议文本的准确生成，并创新性地结合分类模型剔除与诊断结论无关的影像表现表征正常的文本内容。另外，该方法及装置还创新性地融入分类模型，通过分类模型按身体部位为类别对文本进行分类，实现了影像结论的分层表述。

综上所述，本申请的基于知识图谱的PET/CT影像报告结论辅助生成方法及装置基于知识图谱完成PET/CT影像报告的诊断结论文本的自动生成，从而相对于人工分析方法可更加准确的得到诊断建议和疾病类型结论，进而提高所生成的影像结论文本的准确度。并且该方法在诊断结论文本的分类表述方面，实现了影像结论的分层表述；该方法还创新性的结合了二分类模型实现对影像表现文本摘要中表征正常和表征异常两类文本摘要的二分类，过滤与诊断结论无关的文本内容，保留了诊断结论所需的表征异常部分的文本内容。

另外，该发明还公开了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上任一实施例所述方法的步骤。

本领域普通技术人员应该可以明白，结合本文中所公开的实施方式描述的各示例性的组成部分、系统和方法，能够以硬件、软件或者二者的结合来实现。具体究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。当以硬件方式实现时，其可以例如是电子电路、专用集成电路(ASIC)、适当的固件、插件、功能卡等等。当以软件方式实现时，本发明的元素是被用于执行所需任务的程序或者代码段。程序或者代码段可以存储在机器可读介质中，或者通过载波中携带的数据信号在传输介质或者通信链路上传送。“机器可读介质”可以包括能够存储或传输信息的任何介质。机器可读介质的例子包括电子电路、半导体存储器设备、ROM、闪存、可擦除ROM(EROM)、软盘、CD-ROM、光盘、硬盘、光纤介质、射频(RF)链路，等等。代码段可以经由诸如因特网、内联网等的计算机网络被下载。

还需要说明的是，本发明中提及的示例性实施例，基于一系列的步骤或者装置描述一些方法或系统。但是，本发明不局限于上述步骤的顺序，也就是说，可以按照实施例中提及的顺序执行步骤，也可以不同于实施例中的顺序，或者若干步骤同时执行。

本发明中，针对一个实施方式描述和/或例示的特征，可以在一个或更多个其它实施方式中以相同方式或以类似方式使用，和/或与其他实施方式的特征相结合或代替其他实施方式的特征。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于知识图谱的PET/CT影像报告结论辅助生成方法，其特征在于，所述方法包括：

基于历史影像报告构建知识图谱；

2.根据权利要求1所述的基于知识图谱的PET/CT影像报告结论辅助生成方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的基于知识图谱的PET/CT影像报告结论辅助生成方法，其特征在于，基于所述历史影像报告构建第一样本数据集、第二样本数据集、第三样本数据集以及第四样本数据集，包括：

4.根据权利要求2所述的基于知识图谱的PET/CT影像报告结论辅助生成方法，其特征在于，所述文本分类模型、文本生成模型、二分类模型和实体抽取模型分别为fasttext模型、pointer-generator模型、bert模型和BiLSTM-CRF模型。

5.根据权利要求1所述的基于知识图谱的PET/CT影像报告结论辅助生成方法，其特征在于，基于历史影像报告构建知识图谱，包括：

6.根据权利要求5所述的基于知识图谱的PET/CT影像报告结论辅助生成方法，其特征在于，所述方法还包括：

7.根据权利要求5所述的基于知识图谱的PET/CT影像报告结论辅助生成方法，其特征在于，将对齐的第二实体所包含的信息进行融合，包括：

其中，所述字符串相似度模型采用的计算公式为：

所述语义相似性模型采用的计算公式为：

8.根据权利要求7所述的基于知识图谱的PET/CT影像报告结论辅助生成方法，其特征在于，所述融合相似度的计算公式为：

其中，sim(x，y)表示实体x和实体y的融合相似度，

表示权重系数。

9.一种基于知识图谱的PET/CT影像报告结论辅助生成系统，该系统包括处理器和存储器，其特征在于，所述存储器中存储有计算机指令，所述处理器用于执行所述存储器中存储的计算机指令，当所述计算机指令被处理器执行时该系统实现如权利要求1至8中任意一项所述方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1至8中任意一项所述方法的步骤。