CN110750540A

CN110750540A - 构建医疗业务知识库的方法、获得医疗业务语义模型的方法及系统、介质

Info

Publication number: CN110750540A
Application number: CN201910991946.1A
Authority: CN
Inventors: 毛华坚; 赵东升; 迟晨阳; 尉景辉; 秦栋梁
Original assignee: Institute of Pharmacology and Toxicology of AMMS
Current assignee: Institute of Pharmacology and Toxicology of AMMS; Academy of Military Medical Sciences AMMS of PLA
Priority date: 2019-10-18
Filing date: 2019-10-18
Publication date: 2020-02-04

Abstract

本发明提供构建医疗业务知识库的方法、获得医疗业务语义模型的方法及系统、介质。所述医疗业务知识库包括语义键值对学习网络、业务类型学习网络以及语义模型学习网络，构建医疗业务知识库的方法包括：利用第一训练数据对所述语义键值对学习网络进行训练，以基于短语集合而输出语义键‑值对标签的集合；利用第二训练数据对所述业务类型学习网络进行训练，以基于语义键标签的集合而输出医疗单据的业务类型标签；利用第三训练数据对所述语义模型学习网络进行训练，以基于语义键标签的集合及其所对应的业务类型标签而输出医疗业务语义模型。利用本发明，能够获得医疗单据的语义模型，从而实现细粒度查询、医疗档案管理等进一步应用。

Description

构建医疗业务知识库的方法、获得医疗业务语义模型的方法及系统、介质

技术领域

本发明涉及医疗信息化领域，具体涉及构建医疗业务知识库的方法、获得医疗业务语义模型的方法及系统、计算机可读介质。

背景技术

随着国家在医疗信息化方面的投入与推进，居民对自身及家人健康管理的意识与需求逐渐提高，对健康相关数据进行有效管理的需求也日益强烈。居民通过全面掌握门诊、住院、体检等健康相关卫生信息数据，为自身或家人进行系统、完整、个性化的健康监测、健康维护与健康促进也变得日益普及。

但基于健康数据的私密性、安全性考虑，无论政府还是其他组织，目前很难提供安全可靠在线的健康数据接口服务，以便用户获取自身完整的健康相关数据。一般情况下，用户所能够获取到的仅有纸质的化验单、处方等各类单据。虽然这些单据中的内容综合起来，已经较为完整的记录该次健康活动的相关信息，但这些信息仅留存于纸面，用户无法对其中的数据进行有效的管理和利用。用户无法对这些数据进行内容搜索，也无法对这些数据进行数据统计、趋势预测等操作，更无法和其他应用实现互通。

虽然，用户可以通过将所有产生的单据通过拍照等形式进行保存组织管理，但拍照留存的记录依然无法进行单据内容的搜索，这些数据依然无法进行有效的利用；此外，用户当然也可以通过手工录入的方式，将某一次产生的所有单据中的数据都输入某个系统中进行保存，但这种方法不仅效率较为低下，而且也容易在录入的过程中引入各种错误，因此，这种方法虽然做起来比较简单，但实际很少有人会使用这种方式来进行健康数据管理；另一方面，随着OCR技术的发展，用户也可以通过OCR等方法将纸质记录扫描识别以获得其中的内容，但OCR识别的内容并不具备语义信息，例如，它无法理解“中国人民解放军第307医院”等几个字所代表的是医院名称，也无法理解“血压”后出现的两个数值代表的是“舒张压”和“收缩压”这样的两个语义，再例如，其无法理解不同医院的医疗单据中，由于文字表述上的不一致，不同的项目名称可能代表着同一语义，具体地，例如“用药频次”和“用药频率”这两个表述不同的项目名称，实际上其语义是一致的。

公布号为CN107665730A的中国专利申请公开了一种医疗档案管理方法和医疗档案管理系统，其通过从用户提供的图片中利用OCR文字识别提取了用户的病历信息后，对用户信息和病历信息进行结构化，将用户信息和病历信息进行分类，例如分为用户基本信息、诊断信息、化验检查单据、用药历史等类别，结构化后的用户信息和病历信息存储在数据库中，与用户相对应，从而通过用户名称和/或编号进行检索时，该用户所有的信息和病历信息都可以被调取出来。

虽然上述现有技术对用户的病历信息的OCR识别结果进行了分类处理，将病历信息划分成若干个不同类别的内容块，例如诊断信息、化验检查单据、用药历史等类别。但是这种处理仅仅是对病历信息上的内容块进行了粗粒度的分类，并没有引入任何涉及语义的模型和对应于语义模型的结构化数据，因而无法进行例如下述细粒度的查询：用户可能期望具体地查询其在何年何月何日在何医院就诊医生为其开具了阿司匹林这一药物，或者用户可能期望具体地查询其曾在某一医院就诊医生为其开具的阿司匹林这一药物的用药频率，以指导其用药。不仅如此，利用上述现有技术的对病历信息的粗粒度分类方案，由于不具备语义上的理解，因此很难进行后续较为准确的数据统计、趋势预测等应用。然而，这些需求和应用都是用户所亟需的。

发明内容

针对现有技术中的上述缺陷，本发明的目的在于提供一种构建医疗业务知识库的方法，获得医疗业务语义模型的方法、系统以及计算机可读介质。

根据本发明的一个方案，所述医疗业务知识库包括语义键值对学习网络、业务类型学习网络以及语义模型学习网络，构建所述医疗业务知识库的方法包括：利用第一训练数据对所述语义键值对学习网络进行训练，以使得训练好的语义键值对学习网络能够基于输入到其的短语集合而输出语义键-值对标签的集合，其中所述第一训练数据包含：作为医疗单据内容中的项目名称的短语以及对其赋予了语义的语义键标签、项目名称所对应的项目内容以及指示项目内容的值标签，并且所述语义键-值对标签由语义键标签和对应的值标签构成；利用第二训练数据对所述业务类型学习网络进行训练，以使得训练好的业务类型学习网络能够基于输入到其的语义键标签的集合而输出医疗单据的业务类型标签，其中所述第二训练数据包含语义键标签的集合及该集合所对应的业务类型标签，并且所述业务类型标签指示医疗单据的业务类型；利用第三训练数据对所述语义模型学习网络进行训练，以使得训练好的语义模型学习网络能够基于输入到其的语义键标签的集合及其所对应的业务类型标签而输出医疗业务语义模型，其中所述第三训练数据包含：语义键标签的集合、该集合所对应的业务类型标签以及相应的医疗业务语义模型。

在该方案的一个实施例中，所述医疗业务知识库还包括从外部输入并存储在其中的医疗业务语义模型并且所存储的医疗业务语义模型中包括的语义键标签和业务类型标签作为索引而向用户提供。

在该方案的一个实施例中，所述项目名称包括以下项中的一项或多项：“ID号”、“姓名”、“性别”、“年龄”、“费别”、“临床诊断”、“类别”、“执行科室”、“标本”、“采样地点”、“检验项目”、“申请科室”、“申请医生”、“申请时间”、“药品名称”、“规格”、“数量”、“用法”、“价格”；所述医疗业务内容为与所述项目名称相对应的内容；所述医疗单据的业务类型包括检验申请单、检验结果以及处方。

在该方案的一个实施例中，所述医疗业务语义模型具有树形结构。

在该方案的一个实施例中，在所述树形结构中，包含如下的结构：以业务类型标签作为结点，以语义键标签所属的预设类型作为位于业务类型标签所处结点之后的子结点，以语义键标签作为位于其所属预设类型所处子结点之后的孙结点，并且其中所述预设类型包括三类，分别为与医院信息相关、与病人信息相关以及与业务信息相关的类型。

本发明的另一方案，提供了一种生成医疗业务语义模型的方法，包括：识别待处理医疗单据的内容中包含的作为项目名称或项目内容的短语的集合；基于所述短语的集合，利用根据权利要求1所述的方法构建的医疗业务知识库中的所述语义键值对学习网络，计算得到待处理医疗单据的语义键-值对标签的集合；基于所生成的所述语义键-值对标签的集合所包括的语义键标签的集合，利用所述业务类型学习网络，计算得到待处理医疗单据的业务类型标签；基于所生成的语义键-值对标签的集合包括的语义键标签的集合以及所生成的业务类型标签，利用所述语义模型学习网络，计算得到所述待处理医疗单据的医疗业务语义模型。

在该方案的一个实施例中，该方法还包括：基于待处理医疗单据的语义键-值对标签的集合和医疗业务语义模型，生成对应于待处理医疗单据的医疗业务语义模型的结构化数据。

在该方案的一个实施例中，所述识别待处理医疗单据的内容中包含的作为项目名称或项目内容的短语的集合，包括：

接收对待处理医疗单据进行成像所获得的图像，识别所述图像中的文字内容以进一步识别所述短语集合，并将所述短语集合在所述图像上转换成可编辑状态，并且，所述方法进一步包括：将待处理医疗单据及其医疗业务语义模型和对应的结构化数据这三者关联性地显示在用户界面上，当接收到用户对三者中的任何一者中的任意一处内容进行的编辑操作时，对其他两者所对应的内容进行关联性地编辑操作，其中所述编辑操作包括选取、修改和删除中的至少一项。

根据本发明的再一个方案，提供了一种非临时性计算机可读介质，其上存储有计算机可执行代码，所述计算机可执行代码在被处理器执行时实现上述方法。

根据本发明的还一个方案，提供了一种生成医疗业务语义模型的系统，包括：内容识别模块，其配置为识别待处理医疗单据的内容中包含的作为项目名称或项目内容的短语的集合；键值对计算模块，其配置为基于所述短语的集合，利用根据上述的方法构建的医疗业务知识库中的所述语义键值对学习网络，计算得到待处理医疗单据的语义键-值对标签的集合；业务类型计算模块，其配置为基于所述键值对计算模块生成的所述语义键-值对标签的集合包括的语义键标签的集合，利用所述业务类型学习网络，计算得到待处理医疗单据的业务类型标签；语义模型计算模块，其配置为基于所述键值对计算模块生成的所述语义键-值对标签的集合包括的语义键标签的集合以及所述业务类型生成模块生成的所述业务类型标签，利用所述语义模型学习网络，计算得到待处理医疗单据的医疗业务语义模型。

在该方案的一个实施例中，该系统还包括结构化数据生成模块，其配置为基于所述待处理医疗单据的语义键-值对标签的集合和所述医疗单据的医疗业务语义模型，生成对应于所述待处理医疗单据的医疗业务语义模型的结构化数据。

在该方案的一个实施例中，所述内容识别模块进一步配置为：接收对待处理医疗单据进行成像所获得的图像，识别所述图像中的文字内容以进一步识别所述短语集合，并将所述短语集合在所述图像上转换成可编辑状态，并且其中，所述系统还包括反馈式调整模块，其配置为：将待处理医疗单据及其医疗业务语义模型和对应的结构化数据三者关联性地显示在用户界面上，当接收到用户对三者中的任何一者中的任意一处内容进行的编辑操作时，对其他两者所对应的内容进行关联性地编辑操作，其中所述编辑操作包括选取、修改和删除中的至少一项。

根据本发明的方案，通过训练语义键值对学习网络、业务类型学习网络以及语义模型学习网络学习来构建医疗单据医疗业务知识库，从而通过应用该医疗业务知识库，能够对用户的医疗单据生成医疗业务语义模型，能够实现在语义上理解和结构化存储用户的医疗单据，并通过应用该医疗业务语义模型，便利用户对自身在各时期就医所得的医疗单据进行医疗档案管理、细粒度查询、数据统计或者趋势预测等应用。

附图说明

在不一定按比例绘制的附图中，相同的附图标记可以在不同的视图中描述相似的部件。附图大体上通过举例而不是限制的方式示出各种实施例，并且与说明书以及权利要求书一起用于对所公开的实施例进行说明。在适当的时候，在所有附图中使用相同的附图标记指代同一或相似的部分。这样的实施例是例证性的，而并非旨在作为本系统或方法的穷尽或排他实施例。

图1(a)为本发明实施例的一种构建医疗业务知识库的方法的流程示意图，图1(b)为医疗业务知识库的框图。

图2为本发明实施例的一种获得医疗业务语义模型的方法的流程示意图。

图3为本发明实施例的一种获得医疗业务语义模型的系统的示意性框图。

图4为本发明另一实施例的一种获得医疗业务语义模型的系统的总体流程图。

图5例示了待处理医疗单据的图片。

图6是为便于理解本发明而将利用语义键值对学习网络生成的各语义键-值对标签对应地显示在待处理医疗单据的图片的各原始位置处的示意图。

图7(a)是所生成的医疗业务语义模型的树形结构示意图，图7(b)是在图7(a)的树形结构中展示出结构化数据的示意图。

图8(a)是所生成的医疗业务语义模型的代码化示意图，图8(b)是展示相应的结构化数据的代码化示意图。

具体实施方式

此处参考附图描述本公开的各种方案以及特征。通过下面参照附图对给定为非限制性实例的实施例的优选形式的描述，本发明的这些和其它特性将会变得显而易见。

本说明书可使用词组“在一种实施例中”、“在另一个实施例中”、“在又一实施例中”或“在其他实施例中”，其均可指代根据本公开的相同或不同实施例中的一个或多个。注意的是，在说明书全文中，相同的附图标记指代相同或相似的元件，并省略不必要的重复描述。此外，具体实施例中，以单数形式出现的元件并不排除可以以多个(复数个)形式出现。

图1(a)为本发明实施例的一种构建医疗业务知识库108的方法100的流程图，图1(b)为医疗业务知识库的框图。所构建出的医疗业务知识库108包括语义键值对学习网络110、所述业务类型学习网络111以及所述语义模型学习网络112。具体地，方法100包括：

步骤102，利用第一训练数据对所述语义键值对学习网络110进行训练，以使得训练好的语义键值对学习网络110能够基于输入到其的短语集合而输出语义键-值对标签的集合，其中所述第一训练数据包含：作为医疗单据内容中的项目名称的短语以及对其赋予了语义的语义键标签、项目名称所对应的项目内容以及指示项目内容的值标签，并且所述语义键-值对标签由语义键标签和对应的值标签构成。

具体地，语义键标签为针对作为项目名称的短语赋予了语义的键标签。例如，作为医疗单据中的项目内容的短语“中国人民解放军第307医院”可作为标签中的值标签，而可以将与其对应的语义键标签设定为“医院名称”或者“hospital”(“医院”的英文名)或诸如此类。在另一个实施例中，医疗单据(诸如处方)中常见的项目名称“用药频率”、“用药频次”或“用法与用量”等，这些可作为对应于项目名称的键标签，当在本文中使用语义键标签时，可将它们统一赋予“用药频率”或“frequency of medication”(“用药频率”的英文名)或诸如此类的带有语义的语义键标签。在又一个实施例中，对于“血压”后出现的两个数值(即项目内容，作为值标签)，可为这两个值标签分别分配“舒张压”和“收缩压”这两个语义键标签，并生成<舒张压，舒张压的值>、<收缩压，收缩压的值>这两个语义键-值对标签。语义键值对学习网络例如可以是卷积神经网络(CNN)、全卷积神经网络(FCN)、递归神经网络(RNN)、或长短期记忆神经网络(LSTM)等。在一个实施例中，使用CNN进行深度学习，CNN具有强大的分层架构并能提高自动检测的准确性。经过训练，所得到的语义键值对学习网络110可以将输入的短语集合映射为语义键-值对标签集合。在一些实施例中，当仅输入对应于值标签的短语而未输入可对应于值标签的语义键标签时，训练好的语义键值对学习网络110可自动为该值标签对应地生成语义键标签。例如，在通常的医疗单据上，一般会注明医院的名称，以“中国人民解放军第307医院”为例，其作为值标签，但一般不会在医疗单据上注明“医院名称”这一项目，根据本发明实施例，训练后所得的语义键值对学习网络将为该值标签自动生成诸如“医院名称”的语义键标签，从而实现对该项目内容的语义上的理解。

在本发明的一个实施例中，所述项目名称可以包括但不限于以下项目中的一个或多个项目：“ID号”、“姓名”、“性别”、“年龄”、“费别”、“临床诊断”、“类别”、“执行科室”、“标本”、“采样地点”、“检验项目”、“申请科室”、“申请医生”、“申请时间”、“药品名称”、“规格”、“数量”、“用法”、“价格”；项目内容则为与项目名称相对应的内容，即具体的取值，例如，“男”(患者的具体性别)、“37”(年龄的具体值)等。

步骤104，利用第二训练数据对所述业务类型学习网络111进行训练，以使得训练好的业务类型学习网络111能够基于输入到其的语义键标签的集合而输出医疗单据的业务类型标签，其中所述第二训练数据包含语义键标签的集合及该集合所对应的业务类型标签，并且所述业务类型标签指示医疗单据的业务类型。在一些实施例中，医疗单据的业务类型例如可以包括检验申请单、检验结果以及处方等。

业务类型学习网络111例如可以是卷积神经网络(CNN)、全卷积神经网络(FCN)、递归神经网络(RNN)、或长短期记忆神经网络(LSTM)等。在一个实施例中，使用CNN算法进行深度学习以将语义键标签集合映射到业务类型标签。通过将语义键标签集合映射到业务类型标签的业务类型知识库，可以判断当前待处理医疗单据的业务类型是检验申请单、检验结果、处方或是其他类型。

步骤106，利用第三训练数据对所述语义模型学习网络112进行训练，以使得训练好的语义模型学习网络112能够基于输入到其的语义键标签的集合及其所对应的业务类型标签而输出医疗业务语义模型，其中所述第三训练数据包含：语义键标签的集合、该集合所对应的业务类型标签以及相应的医疗业务语义模型。

语义模型学习网络112例如可以是卷积神经网络(CNN)、全卷积神经网络(FCN)、递归神经网络(RNN)、或长短期记忆神经网络(LSTM)等。在一个实施例中，使用CNN算法进行深度学习以基于语义键标签集合输出业务类型标签。在一些实施例中，所述医疗业务知识库108还包括从医疗业务知识库外部输入并存储的医疗业务语义模型并且所存储的医疗业务语义模型中包括的语义键标签和业务类型标签作为索引而向用户提供。从医疗业务知识库的外部输入并存储在其中的医疗业务语义模型可以包括例如众包等方式创建的医疗业务语义模型、在测试过程中经过用户的后续调整或确认而得到的医疗业务语义模型等。从而，在这些实施例中，用户可通过业务类型标签和语义键标签集合作为索引，在存储的医疗业务语义模型中进行模型相似度查询，并且在相似度高于一定阈值(例如相似度在90％-100％之间)的情况下，直接调取相应的医疗业务语义模型返回给用户。如此，可以加快获得医疗业务语义模型的速度。

在一些实施例中，语义键值对学习网络110、所述业务类型学习网络111以及所述语义模型学习网络112这三者可以连接成一个整体的学习网络，即，形成一个端到端的模型，从而当短语集合被输入到整体的学习网络时，输出医疗业务语义模型。其中语义键值对学习网络110的输出结果中的语义键标签的集合可被馈送到业务类型学习网络以输出业务类型标签，并且语义键值对学习网络的输出结果中的语义键标签的集合和所述业务类型学习网络的输出结果(即，业务类型标签)均可被馈送到语义模型学习网络112以输出医疗业务语义模型。各学习网络可采用上述网络中的同一类型的网络，例如都采用CNN实现，也可采用不同类型的网络来实现。

在一些实施例中，所述医疗业务语义模型具有树形结构。在一个实施例中，在所述树形结构中，包含如下的结构：以业务类型标签作为结点，以语义键标签所属的预设类型作为位于该结点之后的子结点，以语义键标签作为位于其所属预设类型所处子结点之后的孙结点，并且其中所述预设类型包括三类，分别为与医院信息相关、与病人信息相关以及与业务信息相关的类型。在一些实施例中，第三训练数据不仅包含语义键标签的集合、该集合所对应的业务类型标签以及相应的医疗业务语义模型，还可以包含构成医疗业务语义模型的部分(例如，可用于作为模型的一部分的子结构)，从而使得第三训练数据的样本进一步丰富和具有差异性，由此进一步提高了所训练的语义模型学习网络结构的学习能力，使得预测生成的医疗业务语义模型能够具有灵活的内部结构(例如后文所述的嵌套结构)。所生成的医疗业务语义模型的详细结构的示例将在后文及图7(a)、图8(a)中详细描述。

图2为本发明实施例的一种生成医疗业务语义模型的方法200的流程示意图。方法200包括：

步骤202，识别待处理医疗单据的内容中包含的作为项目名称或项目内容的短语的集合。

在一些实施例中，例如利用光学字符识别(OCR)技术识别待处理医疗单据的图像中包含的文字，并且在识别了文字后，例如利用文字之间的间隔，提取其中的短语。在本公开中，“短语”被定义为具有相对完整含义的字段、或语句等，其可作为医疗单据内容中的项目名称或者项目内容。通常，在医疗单据内容中，两个短语之间一般具有间隔，例如以空格，或者以“：”、“/”或其他符号间隔开。具体地，例如医疗单据内容中包括“性别男”，则“性别”为项目名称，“男”为对应的项目内容。

步骤204，基于所述短语的集合，利用根据上述方法实施例所构建的医疗业务知识库中的所述语义键值对学习网络，计算得到待处理医疗单据的语义键-值对标签的集合；

步骤206，基于所生成的所述语义键-值对标签的集合包括的语义键标签的集合，利用根据上述医疗业务知识库中的业务类型学习网络，计算得到待处理医疗单据的业务类型标签；

步骤208，基于所生成的语义键-值对标签的集合包括的语义键标签的集合以及所生成的业务类型标签，利用根据上述医疗业务知识库中的语义模型学习网络，计算得到所述待处理医疗单据的医疗业务语义模型。

在一些实施例中，方法200还可以包括步骤210，基于待处理医疗单据的语义键-值对标签的集合和所述医疗单据的医疗业务语义模型，生成对应于待处理医疗单据的医疗业务语义模型的结构化数据。

在一些实施例中，尽管未在图中示出，所述识别待处理医疗单据的内容中包含的作为项目名称或项目内容的短语的集合，包括：接收对待处理医疗单据进行成像所获得的图像，识别所述图像中的文字内容以进一步识别所述短语集合，并将所述短语集合在所述图像上转换成可编辑状态，并且，在这些实施例中，获得医疗业务语义模型的方法可以进一步包括：将待处理医疗单据及其医疗业务语义模型和对应的结构化数据这三者关联性地显示在用户界面上，当接收到用户对三者中的任何一者中的任意一处内容进行的编辑操作时，对其他两者所对应的内容进行关联性地编辑操作，其中所述编辑操作包括选取、修改和删除中的至少一项。

图3为本发明实施例的一种获得医疗业务语义模型的系统300的示意性框图。系统300包括内容识别模块302、键值对计算模块304、业务类型计算模块306以及语义模型计算模块308。

内容识别模块302配置为识别待处理医疗单据的内容中包含的作为项目名称或项目内容的短语的集合。

键值对计算模块304配置为基于所述短语的集合，利用如上构建的医疗业务知识库108中的所述语义键值对学习网络110，计算得到待处理医疗单据的语义键-值对标签的集合。

业务类型计算模块306配置为基于所述键值对计算模块304生成的所述语义键-值对标签的集合包括的语义键标签的集合，利用如上构建的医疗业务知识库108中的业务类型学习网络111，计算得到待处理医疗单据的业务类型标签；

语义模型计算模块308配置为基于所述键值对计算模块304生成的所述语义键-值对标签的集合中包括的语义键标签所组成的集合以及所述业务类型计算模块306生成的所述业务类型标签，利用上述实施例中构建的医疗业务知识库108中的所述语义模型学习网络112，计算得到待处理医疗单据的医疗业务语义模型。

在另一些实施例中，语义模型计算模块308可以配置为利用医疗业务知识库108中存储的语义模型集，通过将语义键标签集合、业务类型标签作为索引，查询医疗业务知识库108存储的语义模型集中是否有匹配的医疗业务语义模型，如果查询到匹配的(相似度非常高，例如达95％以上)医疗业务语义模型，则直接将所匹配出的医疗业务语义模型输出并展示给用户。

通过本发明实施例的获得医疗业务语义模型的系统300，能够得到医疗单据的医疗业务语义模型，实现对医疗单据的语义上的理解和进一步应用。

如图3所示，在一些实施例中，系统300还可以包括结构化数据生成模块310。结构化数据生成模块310配置为基于所述待处理医疗单据的语义键-值对标签的集合和所述医疗单据的医疗业务语义模型，生成对应于所述待处理医疗单据的医疗业务语义模型的结构化数据。将在后面的实施例及图7(b)、图8(b)中对结构化数据进行详细说明。

在一些实施例中，内容识别模块302可以进一步配置为接收对待处理医疗单据进行成像所获得的图像，识别所述图像中的文字内容以进一步识别所述短语集合，并将所述短语集合在所述图像上转换成可编辑状态。并且，在这些实施例中，系统300还可以包括反馈式调整模块312，其配置为：将待处理医疗单据及其医疗业务语义模型和对应的结构化数据312三者关联性地显示在用户界面上，当接收到用户对三者中的任何一者中的任意一处内容进行的编辑操作时，对其他两者所对应的内容进行关联性地编辑操作，其中所述编辑操作包括选取、修改和删除中的至少一项。

图4为本发明另一实施例的一种获得医疗业务语义模型的系统的总体流程图500。利用该系统，用户可以通过对医疗单据(即，待处理医疗单据)进行拍照，得到拍摄的图片(步骤502)，然后将图片作为输入传入系统，系统将对图片进行OCR解析(步骤504)，并将解析结果提供给用户进行调整(步骤506)；在用户调整解析结果后，将调整后的解析结果(即，识别出的短语的集合)作为输入，利用医疗业务知识库进行语义模型计算(步骤508)；在计算出语义模型后，在拍摄的图片中根据识别的短语的位置对各识别出的短语进行标记，并将计算出的语义模型及相应的结构化数据与图片中的短语关联地展示(步骤510)，并允许用户进行手动调整(步骤512)，在用户确认调整完成，或者无需调整后，输出语义模型及其对应的结构化数据(步骤514)。各调整步骤能够进一步确保所生成的语义模型和结构化数据的准确度。该系统主要包括：医疗业务知识库(含单据模型预设置模块，其可用于预先设置(例如，从知识库之外的部分接收)单据的标准语义模型)；包括单据拍照、OCR解析、用户对OCR解析结果进一步调整或确认等功能在内的内容识别模块；包括键值对计算、业务类型计算以及语义模型计算功能在内的计算模块；包括对图片上各短语的位置进行标记，用户对语义模型调整等功能在内的反馈式调整模块；以及语义模型及结构化数据输出模块。

A.单据拍照与解析阶段

该阶段的主要功能在于识别医疗业务单据中的内容，包括单据拍照、内容识别和用户调整三个步骤，以实现医疗业务单据到文字的转换。单据拍照与解析阶段的功能可通过下面的模块实现。

拍摄模块

用户利用例如智能手机、照相机等设备尽可能清晰地对医疗单据进行拍照并作为输入传递给该系统，例如将图5中所示的医疗单据作为输入，以提高医疗单据内容识别的准确度。

内容识别模块

例如，可以利用OCR等文字识别技术(例如，Google的Tesseract等)对医疗单据中的文字进行识别，并利用各短语之间具有分隔符或空格间隔的特征，从识别出的文字中提取各短语。在一个实施例中，系统例如还可以利用Levenshtein Distance(编辑距离)进行相似度计算，进一步从医疗业务知识库中搜索相似案例，并以相似案例为用户后续对识别出的短语集合进行调整提供辅助的参考和提示。

单据内容调整模块

在OCR对内容进行识别后，系统例如在用户输入的原始图片对应的位置对识别的内容进行标注，以便用户可以进行可视化、交互式的修改与调整。通过用户的调整修改，可以确保从图片数据到文字数据的高精度转换。

B.医疗业务知识库

医疗业务知识库主要由三部分组成，包括语义键值对学习网络、业务类型学习网络、语义模型知识库。其中，语义键值对学习网络，其作用是以OCR识别的文字(短语集合)作为输入，识别哪些文字为医疗单据内容中的项目名称、哪些文字为对应于项目名称的项目内容，为项目名称赋予语义键标签，为项目内容赋予值标签，从而完成从短语集合(无语义文字)到语义键-值对标签的转换。例如，当识别的文字中含有“中国人民解放军第307医院”时，该学习网络可以为其赋予例如“中国人民解放军第307医院”这一值标签，并且为其添加例如“医院名称”这一语义键标签，从而得到语义键值对<医院名称，中国人民解放军第307医院>这一语义键-值对标签。又例如，当识别的文字中含有“性别男”时，该学习网络可以生成“<性别，男>”这一语义键-值对标签。业务类型学习网络，其以语义键标签的集合作为输入，判断该语义键标签的集合所属的业务类型，如检验申请单、检验结果、处方等。语义模型知识库，其包括语义模型学习网络，其以语义键标签以及识别的业务类别信息作为输入，生成该业务所对应的医疗业务语义模型。

医疗业务知识库的构建

键值对学习网络的学习与生成。训练过程中，以字符串+tag(标签)作为输入，利用CNN等深度网络进行监督式学习，训练生成从文字到语义键-值对标签的短语深度学习网络。当用户以短语集合作为输入时，该学习网络可以为每个短语打上语义键标签或值标签中的任一者，然后组成键值对。

业务类型学习网络的学习与生成。在该学习网络的训练过程中，以标题键集合+业务类型标签作为训练输入，例如同样利用CNN等深度网络进行学习，生成从语义键标签集合到业务类型的业务类型学习网络。当用户以短语集合作为输入时，该学习网络可以为该组集合打上相应的业务类型标签。

语义模型知识库的学习与生成。语义模型知识库，可通过两种方式构建，由系统预设(例如，从外部创建并存入)或者由系统自主学习(对语义模型学习网络进行训练)。其中由系统预设的标准语义模型集，可通过众包等方式创建，并存储到语义模型知识库中，并可通过语义键标签、业务类型等进行相似度查询(即，向用户提供相应的索引)，此类标准语义模型集包含了各主要医院的主要业务类型的语义模型，用户可以通过业务类型标签和语义键标签的集合作为输入进行模型相似度查询，并根据相似度获取相应的语义模型。对于系统自主学习的方式，在学习过程中，也可以例如使用CNN学习网络。由于作为训练数据的语义模型中含有明确的模型结构信息，例如医院信息模型里会含有医院名称、医院编码等属性信息，因此，在学习阶段，系统会以大量已有的有效的医疗业务语义模型和/或已有医疗业务语义模型的部分(子结构)作为输入，学习模型中的语义模型字段结构。当用户新请求进行语义模型推断时，系统可以根据语义键标签集合和业务类型标签作为输入，生成具有语义结构的医疗业务语义模型。

C.语义模型计算与调整阶段

该阶段的主要功能是以OCR技术识别的业务单据文字内容作为输入，利用医疗业务知识库，推断业务单据所对应的语义模型及其结构化数据。

计算模块

计算模块以OCR阶段识别的文字作为输入，首先利用语义键值对学习网络，计算得出输入文字的语义键-值对的集合，并在图片的对应位置进行区别显示，从而得到如图6中所示的相关语义，实线框中的文字代表语义键标签(对应于项目名称)，虚线框中的文字表示部分代表值标签(对应于项目内容)。在一些实施例中，还可以分别用不同的字体颜色来区分项目名称(或相应的语义键标签)和值标签，在该步骤，用户可以对语义键-值对标签(下文中，或简称“键值对”)计算结果进行相应的调整，以确保键值对的对应关系的正确性。此后，语义模型计算模块以前一步键值对学习网络计算得出的所有语义键标签的集合作为输入，利用业务类型学习网络，计算得出该医疗单据对应的业务类别。随后，计算模块进一步以键值对信息和业务类型信息作为输入，首先通过相似度计算，查询预置语义模型中是否有对应的语义模型，若存在，则直接返回系统预置的模型；若不存在，通过训练好的语义模型学习网络进行推断，计算生成含语义信息的数据模型(即，医疗业务语义模型)。

模型调整

在语义模型计算模块完成计算并返回推断的语义模型和对应结构化数据后，反馈式调整模块可将原始医疗单据(即，待处理医疗单据)、所生成的语义模型、对应的结构化数据三个内容在同一界面进行关联式展示，当用户在其中一个模块的某个内容位置进行选择时，其他两个模块对应的内容也会相应的高亮显示，以表示其关联性；同时，如果在语义模型模块中进行顺序调整、所属关系调整等操作时，结构化数据也会进行对应结构上的调整，同时图片中可进行对应的展示。

D.语义模型及结构化数据生成

语义模型生成

在用户调整完毕后，反馈式调整模块会将用户调整后的结构反向输出至语义模型计算模块进行可靠性确认，例如长短记忆神经网络、RNN、CNN等均可输出可靠性的概率预测值。当可靠性大于一定阈值后，语义模型计算模块对用户调整后的模型进行确认，并对语义模型输出模块进行输出；与此同时，对于可靠性较高的案例，可将其作为训练语料，补充至医疗业务知识库中。图7(a)中示出了医疗业务语义模型的树形结构的示例，其中“examination”(检验申请单)为结点，hospital"(医院信息)、"patient"(病人信息)、"business"(业务信息)为子结点，而各子结点之后还有孙结点的结构。说明的是，图中示出的结构仅为示例，不作为对本发明的限制，例如，基于医疗业务知识库中语义模型学习网络的学习结果，还可能在各孙结点之后还可以具有结点(进一步的分支)。

根据本发明的一个实施例，医疗业务语义模型的代码化示例如图8(a)所示。说明的是，为便于描述，在图8(a)中增加了行号，其并非语义模型的必须部分。图8(a)中，“schemas”为根结点的命名，其具有结点“examination”和“IssuedBy”。第1-3行展示了作为结点的“examination”及其相关描述，其中"name"表示名称，"comment"表示注释。第3-11行展示了“examination”之下的三个子结点及其相关描述，其中，结点"hospital"表示“医院信息”、结点"patient"表示“病人信息”、结点"business"表示“业务信息”，“type”为它们所属的类型。第12-22行表示对结点"patient"所属的类型"Patient"(可视为孙结点)的结构的相关描述，其中包括"id"(院内病人ID号)，"name"(姓名)、"sex"(性别)、"age"(年龄)、"type"(费别)，应注意到，类型“Patient”首次出现在第8行对“Examination”的相关描述中，因此，第12-22行对“Patient”的描述的结构实质上嵌套在“Examination”(前一结点)之中。第23-36行表示对结点"business"所属的类型"Business"(可视为孙结点)的相关描述，其中第34行“issuedBy”具有类型“IssuedBy”(申请单位信息)，其结构在第37-46行描述(即，孙结点内部还可以进一步嵌套其他结点)。可见，根据实施例的语义模型学习网络所生成的医疗业务语义模型可以具有灵活的树形结构。

结构化数据生成

在用户调整后，除了生成语义模型外，系统根据生成的语义模型及识别的语义键值对标签的集合生成对应的结构化数据。结构化的数据可作为后续其他应用所需的含语义的结构化数据来源进行应用。在图7(b)中，在树形结构中示出了结构化数据，即在所生成的医疗业务语义模型的树形结构的各分支的末端处(各语义键标签)处，对应地添加了值标签。结构化数据的代码化示例如图8(b)所示为便于描述，在图8(b)中增加了行号，其并非结构化数据的必须部分。具体地，该实施例中的结构化数据以"value"命名，并展示了与"hospital"相关的具体的医院信息、与"patient"相关的具体的病人信息)以及与"Business"相关的具体的业务信息，即，所生成的各语义键-值对。

此外还要说明的是，虽然图8(a)和图8(b)中，语义模型和结构化数据中的各结点以英文命名来描述，但是使用中文来对结点命名也同样可行。

本发明一个实施例中，还提供了一种非临时性计算机可读介质，其上存储有计算机可执行代码，计算机可执行代码在被处理器执行时能够实现上述的任一方法实施例。计算机可读介质可以包括磁性的、半导体的、磁带的、光学的、可移动的、不可移动的或其他类型的计算机可读介质或计算机可读存储设备。例如，如所公开的，计算机可读介质可以是其上存储有计算机指令的存储设备或存储器模块。在一些实施例中，计算机可读介质可以是其上存储有计算机指令的盘或闪存驱动器。

利用本发明各实施例的方案，当用户将其持有的医疗单据应用本发明各实施例的方案中时，能够获得相应单据的医疗业务语义模型，并通过所获得的语义模型，有望实现对用户持有的医疗单据进行细粒度的查询：例如，用户可以具体地查询其在何年何月何日在何医院就诊医生为其开具了阿司匹林这一药物，或者用户可以具体地查询其曾在某一医院就诊医生为其开具的阿司匹林这一药物的用药频率，以指导其用药。不仅如此，利用所获得的语义模型，可以实现对用户的医疗单据进行后续的数据统计、趋势预测等应用。

关于本发明实施例的系统的各功能模块的未详尽描述之处，可参照相应的方法实施例。本发明实施例的系统可以作为应用软件、程序和/或服务的形式安装在诸如电脑、智能手机等电子设备中，并可以作为应用或服务组件的一部分与其他进一步的应用相结合，进一步的应用包括例如用户医疗档案查询、用户医疗档案管理系统、用户健康监测系统等。

这里描述了各种操作或功能，其可以被实现为软件代码或指令或被定义为软件代码或指令。这样的内容可以是可直接执行的源代码或差异代码(“增量”或“块”代码)(“对象”或“可执行”形式)。软件代码或指令可以存储在计算机可读存储介质中，并且当被执行时，可以使机器执行所描述的功能或操作，并且包括用于以机器可访问的形式存储信息的任何机构(例如，计算设备，电子系统等)，诸如可记录或不可记录介质(例如，只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质，闪存设备等)。

与“包括”、“包含”或“特征在于”同义的术语“包括”是非排他性的或者开放性的，不排除另外的、未叙述的要素或方法步骤。“包括”是权利要求语言中使用的本领域的术语，其意味着所命名的要素是必要的，但是能够添加其他要素并且仍然形成权利要求书的范围内的结构。

如本文所使用的，当在实体列表的上下文中使用术语“和/或”时，是指单独或组合出现的实体。因此，例如，短语“A，B，C、和/或D”分别包括A，B，C和D，但也包括A，B，C和D的任何和所有组合和子组合。

以上实施例仅为本发明的示例性实施例，不用于限制本发明，本发明的保护范围由权利要求书限定。本领域技术人员可以在本发明的实质和保护范围内，对本发明做出各种修改或等同替换，这种修改或等同替换也应视为落在本发明的保护范围内。

Claims

1.一种构建医疗业务知识库的方法，其特征在于，所述医疗业务知识库包括语义键值对学习网络、业务类型学习网络以及语义模型学习网络，所述方法包括：

利用第一训练数据对所述语义键值对学习网络进行训练，以使得训练好的语义键值对学习网络能够基于输入到其的短语集合而输出语义键-值对标签的集合，其中所述第一训练数据包含：作为医疗单据内容中的项目名称的短语以及对其赋予了语义的语义键标签、项目名称所对应的项目内容以及指示项目内容的值标签，并且所述语义键-值对标签由语义键标签和对应的值标签构成；

利用第二训练数据对所述业务类型学习网络进行训练，以使得训练好的业务类型学习网络能够基于输入到其的语义键标签的集合而输出医疗单据的业务类型标签，其中所述第二训练数据包含语义键标签的集合及该集合所对应的业务类型标签，并且所述业务类型标签指示医疗单据的业务类型；

利用第三训练数据对所述语义模型学习网络进行训练，以使得训练好的语义模型学习网络能够基于输入到其的语义键标签的集合及其所对应的业务类型标签而输出医疗业务语义模型，其中所述第三训练数据包含：语义键标签的集合、该集合所对应的业务类型标签以及相应的医疗业务语义模型。

2.根据权利要求1所述的方法，其特征在于：

所述医疗业务知识库还包括从其外部输入并存储在其中的医疗业务语义模型，并且其中，所存储的医疗业务语义模型中包括的语义键标签和业务类型标签作为索引而向用户提供。

3.根据权利要求1或2所述的方法，其特征在于，所述医疗业务语义模型具有树形结构。

4.一种获得医疗业务语义模型的方法，其特征在于，包括：

识别待处理医疗单据的内容中包含的作为项目名称或项目内容的短语的集合；

基于所述短语的集合，利用根据权利要求1所述的方法构建的医疗业务知识库中的所述语义键值对学习网络，计算得到待处理医疗单据的语义键-值对标签的集合；

基于所生成的所述语义键-值对标签的集合所包括的语义键标签的集合，利用所述业务类型学习网络，计算得到待处理医疗单据的业务类型标签；

基于所生成的语义键-值对标签的集合包括的语义键标签的集合以及所生成的业务类型标签，利用所述语义模型学习网络，计算得到所述待处理医疗单据的医疗业务语义模型。

5.根据权利要求4所述的方法，其特征在于，还包括：

基于待处理医疗单据的语义键-值对标签的集合和医疗业务语义模型，生成对应于待处理医疗单据的医疗业务语义模型的结构化数据。

6.根据权利要求4所述的方法，其特征在于，所述识别待处理医疗单据的内容中包含的作为项目名称或项目内容的短语的集合，包括：

接收对待处理医疗单据进行成像所获得的图像，识别所述图像中的文字内容以进一步识别所述短语集合，并将所述短语集合在所述图像上转换成可编辑状态，并且，

所述方法进一步包括：

将待处理医疗单据及其医疗业务语义模型和对应的结构化数据这三者关联性地显示在用户界面上，当接收到用户对三者中的任何一者中的任意一处内容进行的编辑操作时，对其他两者所对应的内容进行关联性地编辑操作，其中所述编辑操作包括选取、修改和删除中的至少一项。

7.一种非临时性计算机可读介质，其上存储有计算机可执行代码，其特征在于，所述计算机可执行代码在被处理器执行时实现根据权利要求4-6中任一项所述的方法。

8.一种获得医疗业务语义模型的系统，其特征在于，包括：

内容识别模块，其配置为识别待处理医疗单据的内容中包含的作为项目名称或项目内容的短语的集合；

键值对计算模块，其配置为基于所述短语的集合，利用根据权利要求1所述的方法构建的医疗业务知识库中的所述语义键值对学习网络，计算得到待处理医疗单据的语义键-值对标签的集合；

业务类型计算模块，其配置为基于所述键值对计算模块生成的所述语义键-值对标签的集合包括的语义键标签的集合，利用所述业务类型学习网络，计算得到待处理医疗单据的业务类型标签；

语义模型计算模块，其配置为基于所述键值对计算模块生成的所述语义键-值对标签的集合包括的语义键标签的集合以及所述业务类型生成模块生成的所述业务类型标签，利用所述语义模型学习网络，计算得到待处理医疗单据的医疗业务语义模型。

9.根据权利要求8所述的系统，其特征在于，还包括

结构化数据生成模块，其配置为基于所述待处理医疗单据的语义键-值对标签的集合和所述医疗单据的医疗业务语义模型，生成对应于所述待处理医疗单据的医疗业务语义模型的结构化数据。

10.根据权利要求8所述的系统，其特征在于，所述内容识别模块进一步配置为：接收对待处理医疗单据进行成像所获得的图像，识别所述图像中的文字内容以进一步识别所述短语集合，并将所述短语集合在所述图像上转换成可编辑状态，并且其中，

所述系统还包括反馈式调整模块，其配置为：将待处理医疗单据及其医疗业务语义模型和对应的结构化数据三者关联性地显示在用户界面上，当接收到用户对三者中的任何一者中的任意一处内容进行的编辑操作时，对其他两者所对应的内容进行关联性地编辑操作，其中所述编辑操作包括选取、修改和删除中的至少一项。