CN109712680B

CN109712680B - 基于hl7 规范的医疗数据生成方法及系统

Info

Publication number: CN109712680B
Application number: CN201910066503.1A
Authority: CN
Inventors: 金以东; 李雪莉; 王语莫; 周大胜
Original assignee: Ebaonet Healthcare Information Technology Beijing Co ltd
Current assignee: Ebaonet Healthcare Information Technology Beijing Co ltd
Priority date: 2019-01-24
Filing date: 2019-01-24
Publication date: 2021-02-09
Anticipated expiration: 2039-01-24
Also published as: CN109712680A

Abstract

本申请提供一种基于HL7规范的医疗数据生成方法及系统，其包括以下步骤：对采用HL7标准传输的医疗数据进行标定，生成分类训练数据集，并对分类训练数据集中的样本数据进行处理；建立绝对规则语料库，并对绝对规则语料库中的字符进行处理；获取词条，并基于词条内容，利用分类训练数据集和绝对规则语料库对词条进行分类；根据词条的分类结果，按照HL7标准将词条进行规范化输出。本申请在数据标签不统一的条件下仍然能够实现数据分类，进而输出规范化医疗数据。另外，本申请不必依赖原始的数据标签，即便是多方参与的环境下也能够基于词条内容完成数据分类，从而帮助多个不同机构在相互传输数据时进行数据的规范化处理。

Description

基于HL7 规范的医疗数据生成方法及系统

技术领域

本申请属于医疗数据自动化处理技术领域，具体涉及一种基于HL7规范的医疗数据生成方法及系统。

背景技术

在互联网技术高速发展的今天，各类型的信息以数字化的方式在网络上流通。其中医疗数据由于专业术语繁多、传输格式不规范的问题使得不同机构间的数据难以交流、共享。针对这一问题，全球范围内医疗机构倡导施行 Health Level 7(简称“HL7”)这一标准，以统一医疗数据的传输格式。计算机能够简单地从采用HL7标准的数据中提取出有用的医疗信息。医疗信息的格式可以简略地用键值对的形式表示。键值对具体为标签名称：标签取值。例如：姓名：张三、病名：上呼吸道感染、地址：北京市海淀区xxx等。然而，在实际应用中，由于不同机构对相同内容会采用不同的标签名称，这就导致计算机进行信息提取时不能够便捷地自动化处理。例如，张三对应的标签名称，有的机构会使用姓名作为标签名称，而有的机构会用名字作为标签名称。

现有技术中通过人工对两个机构间对同一标签名称的区别进行分析，然后有针对性的编写程序，将两个机构的标签名称进行关联，进而实现两个机构间数据的自动化处理。然而，编写的程序需要进行定制化开发与调试，没有通用性，仅适用于两个特定的机构。

现有技术中还采用建立词表的方法将不同词语进行直接的关联匹配。例如，将“朝阳区麦子店东街”归类为地址、将“急性胃炎”归类为病名等。然而，词表只能对有限的词语进行分类，对词库中未涉及到的词语不能实现分类功能。另外，词库需要不断地人为补充，需要长期的人力投入。

发明内容

为至少在一定程度上克服相关技术中存在的问题，本申请提供了一种基于HL7规范的医疗数据生成方法及系统。

根据本申请实施例的第一方面，本申请提供了一种基于HL7规范的医疗数据生成方法，其包括以下步骤：

对采用HL7标准传输的医疗数据进行标定，生成分类训练数据集，并对分类训练数据集中的样本数据进行处理；

建立绝对规则语料库，并对绝对规则语料库中的字符进行处理；

获取词条，并基于词条内容，利用分类训练数据集和绝对规则语料库对词条进行分类；

根据词条的分类结果，按照HL7标准将词条进行规范化输出。

进一步地，所述步骤对分类训练数据集中的样本数据进行处理包括：

基于HL7标准，按照标签名称对分类训练数据集中各样本数据中的词条进行分类，得到数据分类表；

根据分类的类别数量确定数据分类表的概率向量的维度；

为分类训练数据集中的各个字符建立推算规则概率向量表，并计算各个字符的推算规则概率向量。

更进一步地，所述计算分类训练数据集中各个字符的推算规则概率向量的过程为：

分类训练数据集中的字符g的推算规则概率向量分量为：

式中，q_g,i分类训练数据集中的字符g的推算规则概率向量分量，R_g,i表示分类训练数据集中的字符g在第i类数据中出现的次数，M_i表示分类训练数据集中第i类数据中的字符总数。

进一步地，所述步骤建立绝对规则语料库，并对绝对规则语料库中的字符进行处理包括：

根据常用词语建立绝对规则语料库，所述常用词语包括用于姓名识别的百家姓库、用于地址识别的词语、用于病名识别的词语；

为绝对规则语料库中的各个字符建立绝对规则概率向量表，并计算各个字符的绝对规则概率向量。

更进一步地，所述计算绝对规则语料库中各个字符的绝对规则概率向量的过程为：

绝对规则语料库中的字符k的绝对规则概率向量分量为：

式中，p_k,i表示绝对规则语料库中的字符k的绝对规则概率向量分量，N_k,i表示绝对规则语料库中的字符k在第i类数据中出现的次数，M_i表示分类训练数据集中第i类数据中的字符总数。

进一步地，所述步骤根据利用分类训练数据集和绝对规则语料库对词条进行分类的过程为：

判断获取的词条是否为结构化数据，如果是，则将结构化数据拆分为单个字符；否则，先对词条进行中文分词处理，得到结构化数据，再将结构化数据拆分为单个字符；

在单个字符中提取分类训练数据集中出现的字符，并在推算规则概率向量表中查表得到该字符的推算规则概率向量分量；

对词条中各字符在某类数据中的推算规则概率向量分量求和，得到该词条对应该类数据的推算规则概率向量；

在单个字符中提取绝对规则语料库中出现的字符，并在绝对规则概率向量表中查表得到该字符的绝对规则概率向量；

对词条中各字符在某类数据中的绝对规则概率向量分量求和，得到该词条对应该类数据的绝对规则概率向量；

根据词条的推算规则概率向量和绝对规则概率向量计算词条的输出概率向量；

根据词条的输出概率向量中的最大值，确定该词条所属的分类。

更进一步地，所述步骤根据词条的推算规则概率向量和绝对规则概率向量计算词条的输出概率向量的过程为：

P_out＝ωP+(1-ω)Q，

式中，P_out表示词条的输出概率向量，ω表示权重系数，P表示词条的绝对规则概率向量，Q表示词条的推算规则概率向量。

根据本申请实施例的第二方面，本申请还提供了一种基于HL7规范的医疗数据生成系统，其包括分类训练数据集生成模块、推算规则概率向量表建立模块、绝对规则语料库建立模块、绝对规则概率向量表建立模块、词条分类模块和规范化输出模块；

所述分类训练数据集生成模块用于对采用HL7标准传输的医疗数据进行标定，生成分类训练数据集；

所述推算规则概率向量表建立模块用于为分类训练数据集中的各个字符建立推算规则概率向量表；

所述绝对规则语料库建立模块用于根据常用词语建立绝对规则语料库；所述常用词语包括用于姓名识别的百家姓库、用于地址识别的词语以及用于病名识别的词语；

所述绝对规则概率向量表建立模块用于为绝对规则语料库中的各个字符建立绝对规则概率向量表；

所述词条分类模块用于根据HL7标准中数据分类的类别对获取的词条进行分类；

所述规范化输出模块用于根据词条的分类结果，按照HL7标准将词条进行规范化输出。

进一步地，所述词条分类模块包括判断模块、中文分词处理模块、拆分模块、第一查表模块、推算规则概率向量计算模块、第二查表模块、绝对规则概率向量计算模块、输出概率向量计算模块，分类确定模块；

所述判断模块用于对获取的词条内容是否为结构化数据进行判断；

所述中文分词处理模块用于对非结构化数据进行中文分词处理；

所述拆分模块用于将结构化数据拆分为一个个的单个字符；

所述第一查表模块用于在推算规则概率向量表中查表获得对应在分类训练数据集中出现的单个字符的推算规则概率向量分量；

所述推算规则概率向量计算模块用于对词条中各字符在某类数据中的推算规则概率向量分量求和，得到该词条对应该类数据的推算规则概率向量；

所述第二查表模块用于在绝对规则概率向量表中查表获得对应在绝对规则语料库中出现的单个字符的绝对规则概率向量分量；

所述绝对规则概率向量计算模块用于对词条中各字符在某类数据中的绝对规则概率向量分量求和，得到该词条对应该类数据的绝对规则概率向量；

所述输出概率向量计算模块用于根据词条的推算规则概率向量和绝对规则概率向量计算词条的输出概率向量；

所述分类确定模块用于根据词条的输出概率向量中的最大值，确定该词条所属的分类。

根据本申请实施例的第三方面，本申请还提供了一种计算机存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法的步骤。

根据本申请的上述具体实施方式可知，至少具有以下有益效果：本申请通过生成分类训练数据集，为分类训练数据集中的各个字符建立推算规则概率向量表；并建立绝对规则语料库，为绝对规则语料库中的各个字符建立绝对规则概率向量表；再结合建立的推算规则概率向量表和绝对规则概率向量表，基于词条内容，利用词条的推算规则概率向量和绝对规则概率向量对词条进行分类，在数据标签不统一的条件下仍然能够实现数据分类，进而输出规范化医疗数据。另外，本申请不必依赖原始的数据标签，即便是多方参与的环境下也能够基于词条内容完成数据分类，从而帮助多个不同机构在相互传输数据时进行数据的规范化处理。本申请的通用性强。

应了解的是，上述一般描述及以下具体实施方式仅为示例性及阐释性的，其并不能限制本申请所欲主张的范围。

附图说明

下面的所附附图是本申请的说明书的一部分，其示出了本申请的实施例，所附附图与说明书的描述一起用来说明本申请的原理。

图1为本申请具体实施方式提供的一种基于HL7规范的医疗数据生成方法的流程图。

图2为本申请具体实施方式提供的一种基于HL7规范的医疗数据生成方法中对词条进行分类的流程图。

图3为本申请具体实施方式提供的一种基于HL7规范的医疗数据生成系统的结构示意图。

图4为本申请具体实施方式提供的一种基于HL7规范的医疗数据生成系统中词条分类模块的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚明白，下面将以附图及详细叙述清楚说明本申请所揭示内容的精神，任何所属技术领域技术人员在了解本申请内容的实施例后，当可由本申请内容所教示的技术，加以改变及修饰，其并不脱离本申请内容的精神与范围。

本申请的示意性实施例及其说明用于解释本申请，但并不作为对本申请的限定。另外，在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。

关于本文中所使用的“第一”、“第二”、…等，并非特别指称次序或顺位的意思，也非用以限定本申请，其仅为了区别以相同技术用语描述的元件或操作。

关于本文中所使用的方向用语，例如：上、下、左、右、前或后等，仅是参考附图的方向。因此，使用的方向用语是用来说明并非用来限制本创作。

关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等，均为开放性的用语，即意指包含但不限于。

关于本文中所使用的“及/或”，包括所述事物的任一或全部组合。

关于本文中的“多个”包括“两个”及“两个以上”；关于本文中的“多组”包括“两组”及“两组以上”。

关于本文中所使用的用语“大致”、“约”等，用以修饰任何可以细微变化的数量或误差，但这些微变化或误差并不会改变其本质。一般而言，此类用语所修饰的细微变化或误差的范围在部分实施例中可为20％，在部分实施例中可为10％，在部分实施例中可为5％或是其他数值。本领域技术人员应当了解，前述提及的数值可依实际需求而调整，并不以此为限。

某些用以描述本申请的用词将于下或在此说明书的别处讨论，以提供本领域技术人员在有关本申请的描述上额外的引导。

图1是本申请一实施例提供的一种基于HL7规范的医疗数据生成方法的流程图。如图1所示，基于HL7规范的医疗数据生成方法包括以下步骤：

S1、对采用HL7标准传输的医疗数据进行标定，生成分类训练数据集，并对分类训练数据集中的样本数据进行处理，其具体包括：

S11、基于HL7标准，按照标签名称对分类训练数据集中各样本数据中的词条进行分类，得到数据分类表。

具体地，各样本数据中的词条可以按照日期、姓名、病名、身份证号、机构名、地址和其他等进行标定和分类。如表1所示，得到的数据分类表可以为：

表1数据分类表

表1中，C_i表示第i类数据的分类名称，p_i表示分类名称为C_i的一类数据的概率向量分量。

S12、根据分类的类别数量确定数据分类表的概率向量的维度。

也就是说，数据分类表的概率向量的维度与数据所分类别的数量相等。如果数据所分类别为7类，则数据分类表的概率向量的维度就是7。

在本实施例中，HL7标准是标准化的卫生信息传输协议，是医疗领域不同应用之间电子传输的协议。HL7汇集了不同厂商用来设计应用软件之间接口的标准格式，它将允许各个医疗机构在异构系统之间进行数据交互。

S13、如表2所示，为分类训练数据集中的各个字符建立推算规则概率向量表，并计算各个字符的推算规则概率向量。

表2推算规则概率向量表

分类训练数据集中的字符g的推算规则概率向量分量为：

S2、建立绝对规则语料库，并对绝对规则语料库中的字符进行处理，其具体包括：

S21、根据常用词语建立绝对规则语料库。

在本实施例中，常用词语包括用于姓名识别的百家姓库，用于地址识别的“市、区、街”等词语，用于病名识别的“病、症、炎”等词语。

建立绝对规则语料库的目的是充分利用词语本身的词义特性，增强基础识别的正确率。

S22、如图3所示，为绝对规则语料库中的各个字符建立绝对规则概率向量表，并计算各个字符的绝对规则概率向量。

表3绝对规则概率向量表

绝对规则语料库中的字符k的绝对规则概率向量分量为：

S3、获取词条，并基于词条内容，利用分类训练数据集和绝对规则语料库对词条进行分类，如图2所示，其具体过程为：

S31、判断获取的词条是否为结构化数据，如果是，则进入步骤S32对结构化数据进行拆分；否则，先对词条进行中文分词处理，得到结构化数据，再进入步骤S32对结构化数据进行拆分。

S32、将结构化数据拆分为单个字符。

S33、在单个字符中提取分类训练数据集中出现的字符，并在推算规则概率向量表中查表得到该字符的推算规则概率向量分量。

S34、对词条中各字符在某类数据中的推算规则概率向量分量求和，得到该词条对应该类数据的推算规则概率向量，其用Q(q₁,q₂,…,q_i,…)表示。

S35、在单个字符中提取绝对规则语料库中出现的字符，并在绝对规则概率向量表中查表得到该字符的绝对规则概率向量；对于未在绝对规则语料库中出现的字符，其绝对规则概率取值为0，同时对其所属的词条生成人工处理标识，并将其补充至分类训练数据集进行重新标定。

S36、对词条中各字符在某类数据中的绝对规则概率向量分量求和，得到该词条对应该类数据的绝对规则概率向量，其用P(p₁,p₂,…,p_i,…)表示。

S37、根据词条的推算规则概率向量和绝对规则概率向量计算词条的输出概率向量：

P_out＝ωP+(1-ω)Q，

式中，P_out表示词条的输出概率向量，ω表示权重系数。

S38、根据词条的输出概率向量P_out中的最大值，确定该词条所属的分类。

为便于对词条以上确定所属分类的过程进行理解，假设词条“张三”中的字符“张”的绝对概率向量为P(0.2,0.02,0.03,0.06)，字符“三”的绝对概率向量为P(0.01,0.06,0.03,0.02)，则词条“张三”的绝对概率向量为字符“张”和字符“三”的绝对概率向量之和，即词条“张三”的绝对概率向量为P(0.21,0.08,0.06,0.08)。同理，得到词条“张三”的推算概率向量。

根据词条“张三”的绝对概率向量和推算概率向量，得到词条“张三”的输出概率向量为P_out(0.18,0.1,0.05,0.09)。输出概率向量中第一项的值最大，则词条“张三”属于数据分类表中的第一类数据。

S4、根据词条的分类结果，按照HL7标准将词条进行规范化输出。

具体地，该规范化输出可以为表格形式，标签名称和标签取值成对出现。

例如：规范化输出结果可以如表4所示。

表4规范化输出结果示例

科室	皮肤科	处方开立日期	20120909
				机构代码	2.16.156.10011.1.5	开立医生	李某某
保管机构	XX医院	处方审核药剂师	张某某
				……	……	……	……

本申请基于HL7规范的医疗数据生成方法通过生成分类训练数据集，为分类训练数据集中的各个字符建立推算规则概率向量表，并建立绝对规则语料库，为绝对规则语料库中的各个字符建立绝对规则概率向量表；再结合建立的推算规则概率向量表和绝对规则概率向量表，基于词条内容对词条进行分类，在数据标签不统一的条件下仍然能够实现数据分类，进而输出规范化医疗数据。另外，本申请不必依赖原始的数据标签，即便是多方参与的环境下也能够基于词条内容完成数据分类，从而帮助多个不同机构在相互传输数据时进行数据的规范化处理。本申请基于HL7规范的医疗数据生成方法具有通用性。

图3是本申请另一实施例提供的一种基于HL7规范的医疗数据生成系统的结构示意图。如图3所示，基于HL7规范的医疗数据生成系统包括分类训练数据集生成模块1、推算规则概率向量表建立模块2、绝对规则语料库建立模块3、绝对规则概率向量表建立模块4、词条分类模块5和规范化输出模块6。

在本实施例中，分类训练数据集生成模块1用于对采用HL7标准传输的医疗数据进行标定，生成分类训练数据集。

推算规则概率向量表建立模块2用于为分类训练数据集中的各个字符建立推算规则概率向量表。其中，推算规则概率向量表包括分类训练数据集中的各个字符在各类数据中的推算规则概率向量分量。

绝对规则语料库建立模块3用于根据常用词语建立绝对规则语料库。其中，常用词语包括但不限于用于姓名识别的百家姓库、用于地址识别的“市”“区”“街”等以及用于病名识别的“病”“症”“炎”等。

绝对规则概率向量表建立模块4用于为绝对规则语料库中的各个字符建立绝对规则概率向量表。其中，绝对规则概率向量表包括绝对规则语料库中的各个字符在各类数据中的绝对规则概率向量分量。

词条分类模块5用于根据HL7标准中数据分类的类别对获取的词条进行分类。

规范化输出模块6用于根据词条的分类结果，按照HL7标准将词条进行规范化输出。

在本实施例中，具体地，如图4所示，词条分类模块5包括判断模块51、中文分词处理模块52、拆分模块53、第一查表模块54、推算规则概率向量计算模块55、第二查表模块56、绝对规则概率向量计算模块57、输出概率向量计算模块58和分类确定模块59。

其中，判断模块51用于对获取的词条内容是否为结构化数据进行判断。

中文分词处理模块52用于对非结构化数据进行中文分词处理。中文分词技术是现有的成熟技术，有着多种可行方案。中文分词方法可以分为三大类：基于字典、词库匹配的分词方法；基于词频度统计的分词方法和基于知识理解的分词方法。

基于字典、词库匹配的分词方法应用词典匹配、汉语词法或其它汉语语言知识进行分词，如：最大匹配法、最小分词方法等。这类方法简单、分词效率较高，但汉语语言现象复杂丰富，词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。

基于词频度统计的分词方法则基于字和词的统计信息，如把相邻字间的信息、词频及相应的共现信息等应用于分词，由于这些信息是通过调查真实语料而取得的，因而基于统计的分词方法具有较好的实用性。

基于知识理解的分词方法主要基于句法、语法分析，并结合语义分析，通过对上下文内容所提供信息的分析对词进行定界，它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断。

拆分模块53用于将结构化数据拆分为一个个的单个字符。

第一查表模块54用于在推算规则概率向量表中查表获得对应在分类训练数据集中出现的单个字符的推算规则概率向量分量。

推算规则概率向量计算模块55用于对词条中各字符在某类数据中的推算规则概率向量分量求和，得到该词条对应该类数据的推算规则概率向量。

第二查表模块56用于在绝对规则概率向量表中查表获得对应在绝对规则语料库中出现的单个字符的绝对规则概率向量分量。

绝对规则概率向量计算模块57用于对词条中各字符在某类数据中的绝对规则概率向量分量求和，得到该词条对应该类数据的绝对规则概率向量。

输出概率向量计算模块58用于根据词条的推算规则概率向量和绝对规则概率向量计算词条的输出概率向量。

分类确定模块59用于根据词条的输出概率向量中的最大值，确定该词条所属的分类。

本申请不必依赖原始的数据标签，在数据标签不统一的条件下仍然能够实现数据分类，进而输出规范化医疗数据，从而帮助多个不同机构在相互传输数据时进行数据的规范化处理。

基于上述基于HL7规范的医疗数据生成系统中各模块的硬件实现，为了实现本申请实施例提供的基于HL7规范的医疗数据生成方法，本申请实施例还提供了一种基于HL7规范的医疗数据生成装置，其包括：处理器和用于存储能够在处理器上运行的计算机程序的存储器。其中，所述处理器用于运行所述计算机程序时，执行如下步骤：

采用HL7标准传输的医疗数据进行标定，生成分类训练数据集，并为分类训练数据集中的各个字符建立推算规则概率向量表。

建立绝对规则语料库，并为绝对规则语料库中的各个字符建立绝对规则概率向量表。

获取词条，并基于词条内容，利用推算规则概率向量表和绝对规则概率向量表对词条进行分类。

根据词条的分类结果，按照HL7标准将词条进行规范化输出。

基于词条内容，利用推算规则概率向量表和绝对规则概率向量表对词条进行分类，包括：

判断获取的词条是否为结构化数据，如果是，则将结构化数据拆分为单个字符；否则，先对词条进行中文分词处理，得到结构化数据，再将结构化数据拆分为单个字符。

在单个字符中提取分类训练数据集中出现的字符，并在推算规则概率向量表中查表得到该字符的推算规则概率向量分量；并对词条中各字符在某类数据中的推算规则概率向量分量求和，得到该词条对应该类数据的推算规则概率向量。

在单个字符中提取绝对规则语料库中出现的字符，并在绝对规则概率向量表中查表得到该字符的绝对规则概率向量；对词条中各字符在某类数据中的绝对规则概率向量分量求和，得到该词条对应该类数据的绝对规则概率向量。

根据词条的推算规则概率向量和绝对规则概率向量计算词条的输出概率向量：

P_out＝ωP+(1-ω)Q，

式中，P_out表示词条的输出概率向量，ω表示权重系数。

根据词条的输出概率向量P_out中的最大值，确定该词条所属的分类。

在示例性实施例中，本申请实施例还提供了一种计算机存储介质，是计算机可读存储介质，例如，包括计算机程序的存储器，上述计算机程序可由基于HL7规范的医疗数据生成系统中的处理器执行，以完成上述基于HL7 规范的医疗数据生成方法中的所述步骤。计算机可读存储介质可以是磁性随机存取存储器(FRAM，ferromagnetic random accessmemory)、只读存储器 (ROM，Read Only Memory)、可编程只读存储器(PROM，ProgrammableRead-Only Memory)、可擦除可编程只读存储器(EPROM，Erasable Programmable Read-Only Memory)、电可擦除可编程只读存储器(EEPROM， Electrically ErasableProgrammable Read-Only Memory)、快闪存储器(Flash Memory)、磁表面存储器、光盘、或只读光盘(CD-ROM，Compact Disc Read-OnlyMemory)等存储器。

以上所述仅为本申请示意性的具体实施方式，在不脱离本申请的构思和原则的前提下，任何本领域的技术人员所做出的等同变化与修改，均应属于本申请保护的范围。