CN114780738A

CN114780738A - 基于不同应用场景的医学影像检查项目名称标准化方法及系统

Info

Publication number: CN114780738A
Application number: CN202210377803.3A
Authority: CN
Inventors: 徐辉; 吴鹏; 秦浩; 张城铭泽
Original assignee: Clp Tongshang Digital Technology Shanghai Co ltd
Current assignee: Clp Tongshang Digital Technology Shanghai Co ltd
Priority date: 2022-04-06
Filing date: 2022-04-06
Publication date: 2022-07-22

Abstract

本发明公开了基于不同应用场景的医学影像检查项目名称标准化方法及系统，该方法包括以下步骤：基于实际应用场景中的源数据情况、人力资源、时间资源、准确率要求、硬件资源及泛化能力需求，选择对应的医学影像检查项目名称标准化方法；采集各条历史检查数据中的检查部位及检查方法相关字段，利用医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称。本发明可以选择适合的标准化方法实现对医学影像数据中复杂多样的检查部位、检查方法相关字段进行识别、治理，并最终与标准检查项目名称对应起来，以便医学影像数据在医疗、科研、教学、医保、大数据应用等各个领域得以利用。

Description

基于不同应用场景的医学影像检查项目名称标准化方法及系统

技术领域

本发明涉及医学诊断技术领域，具体来说，涉及基于不同应用场景的医学影像检查项目名称标准化方法及系统。

背景技术

医学影像学作为医学诊断领域的一门新兴学科，不仅在临床上应用广泛，为疾病诊断提供了科学、直观的依据，可以更好地配合临床症状、化验结果等其他方面最终准确诊断病情，同时在治疗方面也具有不可替代的作用。海量的医学影像数据经过整合处理后，不仅可解决区域内数据的互联互通问题，还可用于提高医疗质量与安全、科研转化能力，进行流行病学统计、医保支付、国际医学信息交流，基于人工智能精细化对医学影像大数据进行开发利用等。

医学影像检查过程中产生的数据，如申请单、检查报告、影像文件等，都包含表明检查部位、检查方法的字段来说明此次检查项目的核心内容(本文中将检查部位、检查方法的组合称为检查项目名称)，因此，统一、规范、标准的检查项目名称是将一系列医学影像数据串联起来进一步进行应用的基础。然而，由于医生们的书写习惯各不相同且不同医院在管理规范及信息化程度上也存在差异，致使针对同一检查项目时，影像数据中的描述也并不统一。故而通过对医学影像数据中复杂多样的检查部位、检查方法相关字段进行识别、治理，并最终与标准检查项目名称对应起来，以便医学影像数据在医疗、科研、教学、医保、大数据应用等各个领域得以利用是上述问题的有效解决途径之一。

目前，常用的解决方法是采用文本相似度模型或文本分类模型对医学影像数据中复杂多样的检查部位、检查方法相关字段进行识别、治理并映射为标准检查项目名称。其中，文本相似度模型虽然运行时间较短且几乎不需要人工成本，但该模型仅适用于源数据为短文本的场景且映射准确率也不高；文本分类模型的映射准确率高于文本相似度模型，但其必须基于样本数据进行训练，因此人力成本较大，且虽然适用于源数据为长文本的场景，但其寻找数据趋势的能力较弱，在源数据为长文本的场景下得到的映射结果准确率会变低。

由于医学影像数据中表明检查部位、检查方法的字段众多且文本长度不一，但都可以作为数据源来进行标准检查项目名称的映射，因此考虑到实际应用场景下的数据源情况、人力成本、运行时间、准确率要求等因素的不同，现有技术并不能满足绝大多数实际应用场景的需要。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

针对相关技术中的问题，本发明提出基于不同应用场景的医学影像检查项目名称标准化方法及系统，以克服现有相关技术所存在的上述技术问题。

为此，本发明采用的具体技术方案如下：

根据本发明的一个方面，提供了基于不同应用场景的医学影像检查项目名称标准化方法，该方法包括以下步骤：

S1、基于实际应用场景中的源数据情况、人力资源、时间资源、准确率要求、硬件资源及泛化能力需求，选择对应的医学影像检查项目名称标准化方法；

S2、采集各条历史检查数据中的检查部位及检查方法相关字段，并利用医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称。

进一步的，所述医学影像检查项目名称标准化方法包括第一医学影像检查项目名称标准化方法、第二医学影像检查项目名称标准化方法、第三医学影像检查项目名称标准化方法及第四医学影像检查项目名称标准化方法中的一种。

进一步的，所述源数据为采集到的需要进行标准化处理的各条历史检查数据中的检查部位及检查方法相关字段，所述检查部位及检查方法相关字段包括申请单中的检查部位及检查项目字段、检查报告中的影像所见及检查结果字段、Dicom影像文件提取出的检查部位及检查描述字段。

进一步的，采集各条历史检查数据中的检查部位及检查方法相关字段，并利用所述第一医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称包括以下步骤：

S21、结合基于词典的分词算法及基于统计的机器学习算法对各条源数据中的字段进行分词处理，并对字段中的无用信息进行清洗；

S22、利用编码器分别对清洗后的各条源数据中的每个字段进行编码，并通过TF-IDF、word2vec、GCN或GCSTS模型将编码结果转化为对应的词向量；

S23、利用编码器分别对每个标准检查项目名称进行编码，并通过TF-IDF、word2vec、GCN或GCSTS模型将编码结果转化为对应的词向量；

S24、分别计算清洗后的各条源数据中字段对应的词向量与每个标准项目名称对应的词向量间的文本相似度，并将相似度最高的标准项目名称与该条源数据进行对应。

进一步的，所述基于词典的分词算法为按照预定的策略将预先建立的分词词典中所有词语与各条源数据中的字段逐一进行匹配，识别出字段中包含的属于分词词典的词语，并将识别到的词语作为有用信息返回；

所述基于统计的机器学习算法为利用机器学习模型通过序列标注的方式对各条源数据中的字段进行分词，并将识别到的词语作为清洗后的有用信息返回。

进一步的，所述标准检查项目名称由标准检查部位名称及标准检查方法名称组成，且所述标准检查项目名称为区域卫生医疗机构明确规定或结合影像设备特点及专家知识预先制定的标准的项目名称。

进一步的，采集各条历史检查数据中的检查部位及检查方法相关字段，并利用所述第二医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称包括以下步骤：

S21’、结合基于词典的分词算法及基于统计的机器学习算法对各条源数据中的字段进行分词处理，并对字段中的无用信息进行清洗；

S22’、医学影像专家利用专家知识对清洗后预设数量的源数据进行标准检查项目名称的对应标注；

S23’、将预设数量的源数据及其对应的标注结果作为构建模型的样本数据集，并将该样本数据集划分为训练集和验证集；

S24’、基于所述样本数据集构建文本分类机器学习模型，并进行初始化处理；

S25’、利用所述训练集结合预先设定的分批处理数量、损失函数阈值及最大迭代次数对文本分类机器学习模型进行训练；

S26’、将所述验证集中的源数据输入训练后的文本分类机器学习模型，得到与验证集中各条源数据相对应的检查项目名称；

S27’、结合得到的与验证集中各条源数据相对应的检查项目名称与验证集中各条源数据对应的标注结果计算评价指标；

S28’、判断评价指标值是否达到预设阈值，若是，则判断训练后的文本分类机器学习模型通过验证，并执行S29’，若否，则判断训练后的文本分类机器学习模型未通过验证，并调整模型对应的超参数、层结构或计算节点、训练集后重复执行S25’-S28’，直至评价指标值达到预设阈值为止；

S29’、利用训练后的文本分类机器学习模型对清洗后剩余的各条源数据进行映射，得到对应的标准检查项目名称。

进一步的，所述文本分类机器学习模型包括基于词嵌入向量化的word2vec或FastText、基于卷积神经网络特征提取的Text-CNN或Char-CNN、基于上下文机制的Text-RNN或BiRNN或RCNN、基于记忆存储机制的EntNet或DMN、基于注意力机制的HAN、基于集成学习的普通DT或优化DT。

进一步的，所述评价指标包括micro-F1、marco-F1；

所述超参数包括分批处理数量、损失函数阈值、最大迭代次数、输入词向量表征、卷积核大小、feature map特征图个数、激活函数、正则化项；

所述层结构或计算节点包括构建并初始化的文本分类深度神经网络模型对应的输入层、隐藏层、输出层或池化层的结构或计算节点；

所述训练集的调整指在训练集中增加医学专用同义词映射关系表后再对文本分类机器学习模型进行训练。

进一步的，采集各条历史检查数据中的检查部位及检查方法相关字段，并利用所述第三医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称包括以下步骤：

S21”、结合基于词典的分词算法及基于统计的机器学习算法对各条源数据中的字段进行分词处理，并对字段中的无用信息进行清洗；

S22”、对区域卫生医疗机构明确规定或结合影像设备特点及专家知识预先制定的标准检查项目名称进行实体及实体关系提取，得到各标准检查项目名称对应的实体及其实体关系；

S23”、医学影像专家利用专家知识对清洗后预设数量的源数据进行实体及其实体关系的对应标注；

S24”、将预设数量的源数据及其对应的标注结果作为构建模型的样本数据集，并将该样本数据集划分为训练集和验证集；

S25”、基于所述样本数据集构建实体关系抽取模型，并进行初始化处理；

S26”、利用所述训练集结合预先设定的分批处理数量、损失函数阈值及最大迭代次数对实体关系抽取模型进行训练；

S27”、将所述验证集中的源数据输入训练后的实体关系抽取模型，得到与验证集中各条源数据相对应的检查项目名称；

S28”、结合得到的与验证集中各条源数据相对应的检查项目名称与验证集中各条源数据对应的标注结果计算评价指标；

S29”、判断评价指标值是否达到预设阈值，若是，则判断训练后的实体关系抽取模型通过验证，并执行S210”，若否，则判断训练后的实体关系抽取模型未通过验证，并调整模型对应的超参数、模型结构或计算节点、训练集后重复执行S26”-S29”，直至评价指标值达到预设阈值为止；

S210”、利用训练后的实体关系抽取模型对清洗后剩余的各条源数据进行映射，得到对应的标准检查项目名称。

进一步的，所述实体关系抽取模型包括CR-CNN、Att-CNN、Att-BLSTM、LSTM-RNNs，且所述实体关系抽取模型由实体抽取模块、实体关系抽取模块、数据处理模块构成；

其中，所述实体抽取模块用于从源数据中抽取出与检查部位及检查方法相关的实体词语；

所述实体关系抽取模块用于抽取出各实体间的关系；

所述数据处理模块用于结合抽取出的实体及实体间的关系进行处理，组合得到标准检查项目名称。

进一步的，所述评价指标包括micro-F1、marco-F1；

所述超参数包括分批处理数量、损失函数阈值、最大迭代次数、过滤器大小及数量、分类个数、序列长度；

所述模型结构或计算节点为实体关系抽取模型的结构及相关计算节点；

所述训练集的调整指在训练集中增加医学专用同义词映射关系表后再对模型进行训练。

进一步的，采集各条历史检查数据中的检查部位及检查方法相关字段，并利用所述第四医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称包括以下步骤：

S21”’、结合基于词典的分词算法及基于统计的机器学习算法对各条源数据中的字段进行分词处理，并对字段中的无用信息进行清洗；

S22”’、利用第一医学影像检查项目名称标准化方法将清洗后预设数量的源数据映射为对应的标准检查项目名称并进行标注；

S23”’、将预设数量的源数据及其对应的标注结果作为构建模型的样本数据集，并将该样本数据集划分为训练集和验证集；

S24”’、基于所述样本数据集构建文本分类深度神经网络模型，并进行初始化处理；

S25”’、利用所述训练集结合预先设定的分批处理数量、损失函数阈值及最大迭代次数对文本分类深度神经网络模型进行训练；

S26”’、将所述验证集中的源数据输入训练后的文本分类深度神经网络模型，得到与验证集中各条源数据相对应的检查项目名称；

S27”’、结合得到的与验证集中各条源数据相对应的检查项目名称与验证集中各条源数据对应的标注结果计算评价指标；

S28”’、判断评价指标值是否达到预设阈值，若是，则判断训练后的文本分类深度神经网络模型通过验证，并执行S29”’，若否，则判断训练后的文本分类深度神经网络模型未通过验证，并调整模型对应的超参数、层结构或计算节点、训练集后重复执行S25”’-S28”’，直至评价指标值达到预设阈值为止；

S29”’、利用训练后的文本分类深度神经网络模型对清洗后剩余的各条源数据进行映射，得到对应的标准检查项目名称。

根据本发明的另一个方面，提供了基于不同应用场景的医学影像检查项目名称标准化系统，该系统包括医学影像检查项目名称标准化方法选择模块、第一医学影像检查项目名称标准化方法映射模块、第二医学影像检查项目名称标准化方法映射模块、第三医学影像检查项目名称标准化方法映射模块及第四医学影像检查项目名称标准化方法映射模块；

其中，所述医学影像检查项目名称标准化方法选择模块用于基于实际应用场景中的源数据情况、人力资源、时间资源、准确率要求、硬件资源及泛化能力需求，选择对应的医学影像检查项目名称标准化方法；

所述第一医学影像检查项目名称标准化方法映射模块用于采集各条历史检查数据中的检查部位及检查方法相关字段，并利用第一医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称；

所述第二医学影像检查项目名称标准化方法映射模块用于采集各条历史检查数据中的检查部位及检查方法相关字段，并利用第二医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称；

所述第三医学影像检查项目名称标准化方法映射模块用于采集各条历史检查数据中的检查部位及检查方法相关字段，并利用第三医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称；

所述第四医学影像检查项目名称标准化方法映射模块用于采集各条历史检查数据中的检查部位及检查方法相关字段，并利用第四医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称。

本发明的有益效果为：本发明可以根据实际应用场景下的数据源情况、人力成本、运行时间、准确率要求等条件限制，选择适合的标准化方法实现对医学影像数据中复杂多样的检查部位、检查方法相关字段进行识别、治理，并最终与标准检查项目名称对应起来，以便医学影像数据在医疗、科研、教学、医保、大数据应用等各个领域得以利用。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的基于不同应用场景的医学影像检查项目名称标准化方法的流程示意图。

具体实施方式

为进一步说明各实施例，本发明提供有附图，这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理，配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点，图中的组件并未按比例绘制，而类似的组件符号通常用来表示类似的组件。

本发明中技术术语的解释如下：

医学影像：为了医疗或医学研究，对人体或人体某部分，以非侵入方式取得内部组织影像的技术与处理过程。

国际疾病分类(international Classification of diseases，ICD)：为了对世界各国人口的健康状况和分析死因的差别面对各种疾病做出的国际通用的统一分类。

机器学习(Machine Learning，ML)：一门从数据中研究算法的科学学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。

深度学习(Deep Learning，DL)：机器学习领域中一个新的研究方向，它被引入机器学习使其更接近于最初的目标——人工智能(Artificial Intelligence，AI)。深度学习是学习样本数据的内在规律和表示层次，这些学习过程中获得的信息对诸如文字、图像和声音等数据的解释有很大的帮助。

自然语言处理(Natural Language Processing，NLP)：一门融语言学、计算机科学、数学于一体的学科。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别、中文OCR等方面。

语料库：指经科学取样和加工的大规模电子文本库，其中存放的是在语言的实际使用中真实出现过的语言材料。

分词：将连续的字序列按照一定的规范重新组合成词序列的过程。

结构化数据：也称作行数据，是由二维表结构来逻辑表达和实现的数据，严格地遵循数据格式与长度规范，主要通过关系型数据库进行存储和管理。

非结构化数据：数据结构不规则或不完整，没有预定义的数据模型，不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像、音频和视频信息等等。

余弦相似度：又称为余弦相似性，是通过计算两个向量的夹角余弦值来评估他们的相似度。

词嵌入：自然语言处理中语言模型与表征学习技术的统称。概念上而言，它是指把一个维数为所有词的数量的高维空间嵌入到一个维数低得多的连续向量空间中，每个单词或词组被映射为实数域上的向量。

卷积神经网络(Convolutional Neural Networks，CNN)：一类包含卷积计算且具有深度结构的前馈神经网络，是深度学习的代表算法之一。卷积神经网络具有表征学习能力，能够按其阶层结构对输入信息进行平移不变分类，因此也被称为“平移不变人工神经网络(Shift-Invariant Artificial Neural Networks，SIANN)”。

特征提取：对某一模式的组测量值进行变换，以突出该模式具有代表性特征的一种方法。

隐藏层：人工神经网络通常具有多层结构，隐藏层是除了输入层和输出层之外的中间部分。

池化层：输入层里用于采样的部分，旨在通过降低特征面的分辨率来获得具有空间不变性的特征。

超参数：在机器学习的上下文中，超参数是在开始学习过程之前设置值的参数，而不是通过训练得到的参数数据。通常情况下，需要对超参数进行优化，给学习机选择一组最优超参数，以提高学习的性能和效果。

根据本发明的实施例，提供了基于不同应用场景的医学影像检查项目名称标准化方法及系统。

本发明中将检查部位、检查方法的组合称为检查项目名称。本发明中提及的标准检查项目名称由标准检查部位名称及标准检查方法名称组成(可整体作为一个字段，也可拆分成两个字段)，为区域卫生医疗机构明确规定或结合影像设备特点及专家知识预先制定的标准的项目名称，其个数随实际情况而定。

现结合附图和具体实施方式对本发明进一步说明，如图1所示，根据本发明的一个实施例，提供了基于不同应用场景的医学影像检查项目名称标准化方法，该方法包括以下步骤：

其中，本实施例中将患者单次医学影像检查对应的申请单、检查报告及影像文件作为一条历史检查数据。所述源数据为采集到的需要利用本发明进行标准化处理的各条历史检查数据中的检查部位及检查方法相关字段，包括但不限于申请单中的检查部位、检查项目字段；检查报告中的影像所见、检查结果字段；Dicom影像文件提取出的检查部位、检查描述字段。这些字段的文本长度情况如下所示：

短文本：检查部位(申请单/Dicom影像文件提取)、检查项目(申请单)；长文本：影像所见(检查报告)、检查结果(检查报告)、检查描述(Dicom影像文件提取)；

需要注意的是，具体使用什么字段作为源数据可根据实际应用场景的需要灵活选择，如可将申请单中的“检查项目”字段、检查报告中的“影像所见”字段或“检查结果”字段、Dicom影像文件提取的“检查描述”字段单独作为源数据进行检查项目名称标准化映射，也可将申请单/Dicom影像文件提取中的“检查部位”字段与申请单中的“检查项目”字段结合，共同作为源数据进行检查项目名称标准化映射。

其中，所述根据实际应用场景下的源数据情况、人力资源、时间资源、准确率要求、泛化能力需求等条件，选择对应的医学影像检查项目名称标准化方法的依据如下表所示：

S2、采集各条历史检查数据中的检查部位及检查方法相关字段，并利用医学影像检查项目名称标准化方法将采集的字段(源数据)映射为对应的标准检查项目名称；

具体的，所述医学影像检查项目名称标准化方法包括第一医学影像检查项目名称标准化方法、第二医学影像检查项目名称标准化方法、第三医学影像检查项目名称标准化方法及第四医学影像检查项目名称标准化方法中的一种。

其中，采集各条历史检查数据中的检查部位及检查方法相关字段，并利用所述第一医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称包括以下步骤：

具体的，所述基于词典的分词算法为按照预定的策略将预先建立的分词词典(该分词词典为常用词典与医学专用词典的结合)中所有词语与各条源数据中的字段逐一进行匹配，识别出字段中包含的属于分词词典的词语，并将识别到的词语作为有用信息返回；常用的基于词典的分词算法包括正向最大匹配法、逆向最大匹配法、双向匹配分词法等。

所述基于统计的机器学习算法为利用机器学习模型通过序列标注(如标注词性)等方式对各条源数据中的字段进行分词，并将识别到的词语作为清洗后的有用信息返回。常用的基于统计的机器学习算法包括但不限于HMM、CRF、SVM、深度学习。

基于词典的分词算法适用范围广、分词速度快，但其分词效果依赖于分词词典的大小，单纯采用该方法通常难以100％识别所有有用信息。然而，基于统计的机器学习算法不仅考虑了词语出现的频率，还能联系上下文，同时对歧义词和生僻词的识别都具有良好的效果，因此将其与基于词典的分词算法结合使用，可以有效识别分词词典范围外的词语，在提高分词准确性的同时增强了召回率，进一步避免有用信息被清洗的情况发生。

例如，当源数据为申请单中的检查项目字段时，分词清洗前后示例如下表所示：

S22、利用编码器分别对清洗后的各条源数据中的每个字段进行编码，并通过TF-IDF、word2vec、GCN或GCSTS等模型将编码结果转化为对应的词向量；

具体的，所述编码器包括但不限于独热编码、n-gram、Label编码器。由于抽象的中英文字符是无法直接被机器读取的，因此需要所述编码器将清洗后的各条源数据中的每个字段分别编码为一个二进制矩阵，并通过包括但不限于TF-IDF、word2vec、GCN或GCSTS的模型将所述二进制矩阵转化为对应的词向量(数值向量)，使得机器可以读取并在后续步骤中对其进行文本相似度计算。

具体的，所述GCSTS模型是在普通GCN模型的基础上优化得到的，GCSTS模型主要通过迭代GCN块和动态图结构，如在每次迭代中都将该节点生成的向量进行串联的方式，解决了普通GCN模型由于梯度消失而不能深入训练的问题，使其可以由更多层的结构组成，且在维持普通GCN模型对句型结构信息具有的高度还原优势的同时，通过多个相同结构的GCN块的迭代来获得全量的信息。

S23、利用编码器分别对每个标准检查项目名称进行编码，并通过TF-IDF、word2vec、GCN或GCSTS等模型将编码结果转化为对应的词向量；

具体的，所述标准检查项目名称由标准检查部位名称及标准检查方法名称组成(可整体作为一个字段，也可拆分成两个字段)，且所述标准检查项目名称为区域卫生医疗机构明确规定或结合影像设备特点及专家知识预先制定的标准的项目名称，其个数随实际情况而定。

需要说明的是，在将申请单/Dicom影像文件提取中的“检查部位”字段与申请单中的“检查项目”字段结合，共同作为源数据进行检查项目名称标准化映射时，步骤S23中的标准检查项目名称将拆分为标准检查部位名称、标准检查方法名称两个字段进行编码，并分别转化为对应的词向量，以便后续步骤分别计算两者的文本相似度。

需要说明的是，在将申请单/Dicom影像文件提取中的“检查部位”字段与申请单中的“检查项目”字段结合，共同作为源数据进行检查项目名称标准化映射时，步骤S24中将分别计算“检查部位”字段对应的词向量与标准检查部位名称对应的词向量间的相似度，“检查项目”字段对应的词向量与标准检查方法名称对应的词向量间的相似度，结合两个字段的相似度结果识别出整体文本相似度最高的标准项目名称。

其中，所述文本相似度可以通过欧氏距离、曼哈顿距离、莱文斯坦距离、余弦相似度、杰卡德相似度等方法进行计算。

以余弦相似度方法进行说明：

假设某条源数据中的字段X和某个标准项目名称对应的词向量分别是x₁,x₂,...,x₆₄₀₀和y₁,y₂,...,y₆₄₀₀，则它们之间的余弦距离可以用它们之间夹角的余弦值来表示，公式如下：

夹角的余弦值越大，则表明两者间相似度越高。当计算完该条源数据的字段X对应的词向量与每个标准项目名称对应的词向量间的相似度后，将相似度最高的标准项目名称与该条源数据对应起来。

由于所述第一医学影像检查项目名称标准化方法不需要医学专家进行人工标注，并且算法模型结构相对简单，运算量是四个方法中最小的，运行时间也可以达到分钟级，因此对于没有足够的硬件资源、人力资源且对准确率要求及泛化能力需求并不高但需要快速完成标准化的应用场景，该方法最为简单高效。此外，源数据的文本长度越短，其文本上下文含义对最终映射结果的干扰就越小，得到的标准检查项目名称准确率越高，因此该方法更适合处理源数据为短文本的任务。

其中，采集各条历史检查数据中的检查部位及检查方法相关字段，并利用所述第二医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称包括以下步骤：

S21’、结合基于词典的分词算法及基于统计的机器学习算法对各条源数据中的字段进行分词处理，并对字段中的无用信息进行清洗(详细说明同步骤S21)；

S22’、医学影像专家利用专家知识对清洗后预设数量的源数据进行标准检查项目名称的对应标注；其中，医学影像专家利用专家知识得到的标注结果在本发明中视为绝对正确的映射关系。

具体的，所述文本分类机器学习模型包括但不限于基于词嵌入向量化的word2vec或FastText、基于卷积神经网络特征提取的Text-CNN或Char-CNN、基于上下文机制的Text-RNN或BiRNN或RCNN、基于记忆存储机制的EntNet或DMN、基于注意力机制的HAN、基于集成学习的普通DT或优化DT。

例如，基于所选择的文本分类深度神经网络模型，构建模型输入层、隐藏层、输出层或池化层，并对模型中各层的相关参数进行初始化。

普通DT模型是基于集成学习的Bagging方法，呈树形结构基于特征对实例进行分类。从根节点开始，测试待分类项中相应的特征属性，并按照其值选择输出分支，直到到达叶子节点，将叶子节点存放的类别作为决策结果。其主要优点是模型具有可读性，分类速度快。

PSO作为一种基于种群的随机优化算法，其算法具体内容如下：

假设在一个d维的搜索空间中，有m个粒子组成一个种群，其中第i个粒子表示为一个d维的向量x_i＝(x_il,x_i2,…,x_id)，i＝1,2,…,m，即第i个粒子在d维的搜索空间中的位置是x_i。第i个粒子的飞行速度也是一个d维的向量，记为v_i＝(v_i1,v_i2,…,v_id)，第i个粒子目前搜索到的最优位置为p_i＝(P_il,P_i2,…,P_id)整个种群目前搜索到的最优位置为p_g＝(P_gl,P_g2,…,P_gd)。标准粒子群优化算法采用下列公式对粒子速度和位置进行更新：

式中的t表示当前迭代次数，C₂，C₂是加速因子，r₁，r₂是[0，1]之间的随机数，w是惯性权重。

优化DT模型则主要是利用PSO算法来自动查找并调整普通DT模型的最优超参数，有效缩短了使用普通DT模型时所需的大量调参时间，提高了整体效率。

S25’、利用所述训练集结合预先设定的分批处理数量、损失函数阈值及最大迭代次数对文本分类机器学习模型进行训练，训练过程中模型会自动调整各层的参数值，直至损失函数下降至预设阈值或迭代次数达到预设的最大迭代次数时终止模型训练，得到训练后的模型；

具体的，预先设置的分批处理数量、损失函数阈值以及最大迭代次数，都需根据步骤S24’建立的模型灵活设置。

S27’、结合得到的与验证集中各条源数据相对应的检查项目名称与验证集中各条源数据对应的标注结果(标准检查项目名称)计算评价指标；具体的，所述评价指标需根据步骤S24’建立的模型灵活设置，包括micro-F1、marco-F1；

具体的，所述超参数包括但不限于分批处理数量、损失函数阈值、最大迭代次数、输入词向量表征、卷积核大小、feature map特征图个数、激活函数、正则化项(dropout/L2)等；所述层结构或计算节点包括构建并初始化的文本分类深度神经网络模型对应的输入层、隐藏层、输出层或池化层的结构或计算节点；

所述对训练集的调整指在训练集中增加医学专用同义词映射关系表(医学专家预先整理好的检查部位、检查方法相关的同义词映射关系表)后再对模型进行训练，能有效提高训练后的模型对复杂多样的医学同义词的识别能力(模型的泛化能力)。

具体的，除了可以对剩余的清洗后的各条源数据进行映射外，由于该方法的模型已训练完成，还可以采集全新的数据进行清洗处理后通过该模型进行映射，得到对应的标准检查项目名称。

由于所述第二医学影像检查项目名称标准化方法需要通过极大数量的经专家知识标注的样本数据对模型进行长达几周或几月的训练，才能有效提高模型的识别能力，因此人力成本和时间成本花费很大。同时，该方法的局限性还在于不能很好地应对单条源数据中包含多个检查项目个数的情况。然而，通常情况下相对于所述第一医学影像检查项目名称标准化方法，该方法能从源数据文本中获取更多的信息，从而能获得更好的准确率及泛化能力，且其对上下文信息的识别能力更强有助于处理长文本，因此当有足够的时间及人力、充足的硬件预算时，选择该方法能获得更好的映射效果。

其中，采集各条历史检查数据中的检查部位及检查方法相关字段，并利用所述第三医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称包括以下步骤：

S21”、结合基于词典的分词算法及基于统计的机器学习算法对各条源数据中的字段进行分词处理，并对字段中的无用信息进行清洗(详细说明同步骤S21)；

具体的，医学影像专家利用专家知识得到的标注结果在本发明中视为绝对正确的映射关系。此外，该方法适用于单条源数据中包含多个检查项目的情况，因此单条源数据的标注结果可能包含了多个标准检查项目名称对应的实体及其实体关系。

具体的，所述实体关系抽取模型包括但不限于CR-CNN、Att-CNN、Att-BLSTM、LSTM-RNNs，且所述实体关系抽取模型由实体抽取模块、实体关系抽取模块、数据处理模块构成；其中，所述实体抽取模块用于从源数据中抽取出与检查部位及检查方法相关的实体词语；所述实体关系抽取模块用于抽取出各实体间的关系；所述数据处理模块用于结合抽取出的实体及实体间的关系进行处理，组合得到标准检查项目名称。

S26”、利用所述训练集结合预先设定的分批处理数量、损失函数阈值及最大迭代次数对实体关系抽取模型进行训练，训练过程中模型会自动调整各模块的参数值，直至损失函数下降至预设阈值或迭代次数达到预设的最大迭代次数时终止模型训练，得到训练后的模型；

具体的，预先设置的分批处理数量、损失函数阈值以及最大迭代次数，都需根据步骤S25”建立的模型灵活设置。

具体的，所述检查项目名称个数根据源数据中包含的检查项目个数而定，可以为1个也可以为多个。

S28”、结合得到的与验证集中各条源数据相对应的检查项目名称与验证集中各条源数据对应的标注结果(标准检查项目名称)计算评价指标；

具体的，所述评价指标需根据步骤S25”建立的模型灵活设置，包括但不限于micro-F1、marco-F1。所述超参数包括分批处理数量、损失函数阈值、最大迭代次数、过滤器大小及数量、分类个数、序列长度；所述模型结构或计算节点为实体关系抽取模型的结构及相关计算节点；

具体的，除了可以对余下的清洗后的各条源数据进行映射外，由于该方法的模型已训练完成，还可以采集全新的数据进行清洗处理后通过该模型进行映射，得到对应的标准检查项目名称。

由于该方法中构建的实体关系抽取模型本质是两个子模型构成的管道，而每个子模型都需要医学专家单独对源数据进行标注(实体、实体关系)，因此在本实施例提到的方法中，该方法的模型训练时间和人工成本是最高的。但正因为采用了实体关系抽取模型，该方法不仅能适用于单条源数据中包含多个检查项目的情况，最终映射结果的准确率及泛化能力也是本实施例提到的所有方法中最好的。因此，在时间非常充裕，且硬件资源不受限制场景下，建议选择该方法。

其中，采集各条历史检查数据中的检查部位及检查方法相关字段，并利用所述第四医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称包括以下步骤：

S21”’、结合基于词典的分词算法及基于统计的机器学习算法对各条源数据中的字段进行分词处理，并对字段中的无用信息进行清洗(详细说明同步骤S21)；

S24”’、基于所述样本数据集构建文本分类深度神经网络模型，并进行初始化处理(详细说明同步骤S24’)；

S25”’、利用所述训练集结合预先设定的分批处理数量、损失函数阈值及最大迭代次数对文本分类深度神经网络模型进行训练，训练过程中模型会自动调整各层的参数值，直至损失函数下降至预设阈值或迭代次数达到预设的最大迭代次数时终止模型训练，得到训练后的模型(详细说明同步骤S25’)；

S27”’、结合得到的与验证集中各条源数据相对应的检查项目名称与验证集中各条源数据对应的标注结果(标准检查项目名称)计算评价指标(详细说明同步骤S27’)；

S28”’、判断评价指标值是否达到预设阈值，若是，则判断训练后的文本分类深度神经网络模型通过验证，并执行S29”’，若否，则判断训练后的文本分类深度神经网络模型未通过验证，并调整模型对应的超参数、层结构或计算节点、训练集后重复执行S25”’-S28”’，直至评价指标值达到预设阈值为止(详细说明同步骤S28’)；

S29”’、利用训练后的文本分类深度神经网络模型对清洗后剩余的各条源数据进行映射，得到对应的标准检查项目名称(详细说明同步骤S29’)。

由于所述第四医学影像检查项目名称标准化方法结合了前述两种方法，在所述第二医学影像检查项目名称标准化方法的基础上改变样本数据集的获取方式，利用所述第一医学影像检查项目名称标准化方法简单、快速且无需人工介入的获取所需样本数据集。该方法结合了前述两种方法的优势，避免了大量人工标注带来的人力成本和时间成本花费，有效加快了运行速度，同时由于仍然采用所述第二医学影像检查项目名称标准化方法进行后续的模型建立、迭代及映射，从而维持了所述第二医学影像检查项目名称标准化方法具有的准确率及泛化能力。此外，由于所述第一医学影像检查项目名称标准化方法更适用于源数据为短文本的任务，因此通过其得到的样本数据集及训练出的模型也对源数据为短文本的场景更具优势。

根据本发明的另一个实施例，提供了基于不同应用场景的医学影像检查项目名称标准化系统，该系统包括医学影像检查项目名称标准化方法选择模块、第一医学影像检查项目名称标准化方法映射模块、第二医学影像检查项目名称标准化方法映射模块、第三医学影像检查项目名称标准化方法映射模块及第四医学影像检查项目名称标准化方法映射模块；

综上所述，借助于本发明的上述技术方案，本发明可以根据实际应用场景下的数据源情况、人力成本、运行时间、准确率要求等条件限制，选择适合的标准化方法实现对医学影像数据中复杂多样的检查部位、检查方法相关字段进行识别、治理，并最终与标准检查项目名称对应起来，以便医学影像数据在医疗、科研、教学、医保、大数据应用等各个领域得以利用。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.基于不同应用场景的医学影像检查项目名称标准化方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的基于不同应用场景的医学影像检查项目名称标准化方法，其特征在于，所述医学影像检查项目名称标准化方法包括第一医学影像检查项目名称标准化方法、第二医学影像检查项目名称标准化方法、第三医学影像检查项目名称标准化方法及第四医学影像检查项目名称标准化方法中的一种。

3.根据权利要求1所述的基于不同应用场景的医学影像检查项目名称标准化方法，其特征在于，所述源数据为采集到的需要进行标准化处理的各条历史检查数据中的检查部位及检查方法相关字段，所述检查部位及检查方法相关字段包括申请单中的检查部位及检查项目字段、检查报告中的影像所见及检查结果字段、Dicom影像文件提取出的检查部位及检查描述字段。

4.根据权利要求2所述的基于不同应用场景的医学影像检查项目名称标准化方法，其特征在于，采集各条历史检查数据中的检查部位及检查方法相关字段，并利用所述第一医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称包括以下步骤：

5.根据权利要求4所述的基于不同应用场景的医学影像检查项目名称标准化方法，其特征在于，所述基于词典的分词算法为按照预定的策略将预先建立的分词词典中所有词语与各条源数据中的字段逐一进行匹配，识别出字段中包含的属于分词词典的词语，并将识别到的词语作为有用信息返回；

6.根据权利要求1所述的基于不同应用场景的医学影像检查项目名称标准化方法，其特征在于，所述标准检查项目名称由标准检查部位名称及标准检查方法名称组成，且所述标准检查项目名称为区域卫生医疗机构明确规定或结合影像设备特点及专家知识预先制定的标准的项目名称。

7.根据权利要求2所述的基于不同应用场景的医学影像检查项目名称标准化方法，其特征在于，采集各条历史检查数据中的检查部位及检查方法相关字段，并利用所述第二医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称包括以下步骤：

8.根据权利要求7所述的基于不同应用场景的医学影像检查项目名称标准化方法，其特征在于，所述文本分类机器学习模型包括基于词嵌入向量化的word2vec或FastText、基于卷积神经网络特征提取的Text-CNN或Char-CNN、基于上下文机制的Text-RNN或BiRNN或RCNN、基于记忆存储机制的EntNet或DMN、基于注意力机制的HAN、基于集成学习的普通DT或优化DT。

9.根据权利要求7所述的基于不同应用场景的医学影像检查项目名称标准化方法，其特征在于，所述评价指标包括micro-F1、marco-F1；

10.根据权利要求2所述的基于不同应用场景的医学影像检查项目名称标准化方法，其特征在于，采集各条历史检查数据中的检查部位及检查方法相关字段，并利用所述第三医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称包括以下步骤：

11.根据权利要求10所述的基于不同应用场景的医学影像检查项目名称标准化方法，其特征在于，所述实体关系抽取模型包括CR-CNN、Att-CNN、Att-BLSTM、LSTM-RNNs，且所述实体关系抽取模型由实体抽取模块、实体关系抽取模块、数据处理模块构成；

所述实体关系抽取模块用于抽取出各实体间的关系；

12.根据权利要求10所述的基于不同应用场景的医学影像检查项目名称标准化方法，其特征在于，所述评价指标包括micro-F1、marco-F1；

13.根据权利要求2所述的基于不同应用场景的医学影像检查项目名称标准化方法，其特征在于，采集各条历史检查数据中的检查部位及检查方法相关字段，并利用所述第四医学影像检查项目名称标准化方法将采集的字段映射为对应的标准检查项目名称包括以下步骤：

14.基于不同应用场景的医学影像检查项目名称标准化系统，用于实现权利要求1-13中任一所述的基于不同应用场景的医学影像检查项目名称标准化方法的步骤，其特征在于，该系统包括医学影像检查项目名称标准化方法选择模块、第一医学影像检查项目名称标准化方法映射模块、第二医学影像检查项目名称标准化方法映射模块、第三医学影像检查项目名称标准化方法映射模块及第四医学影像检查项目名称标准化方法映射模块；