CN112700886A

CN112700886A - 医学数据的处理方法、装置及存储介质

Info

Publication number: CN112700886A
Application number: CN202011605811.6A
Authority: CN
Inventors: 郑永升; 梁平
Original assignee: Hangzhou Yitu Medical Technology Co ltd
Current assignee: Hangzhou Yitu Medical Technology Co ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2021-04-23

Abstract

本公开涉及医学数据的处理方法、医学数据的处理装置及计算机可读存储介质，处理方法包括获取原始医学数据，所述原始医学数据包含多个用于表征医学信息的编码组合；基于编码映射表中的标准合并编码，将所述编码组合拆分成标准编码；依据编码映射表中所有标准合并编码的合并方式，得到待选合并编码；基于逻辑算法，从所述待选合并编码中确定目标编码组合。处理装置包括获取单元；编码处理模块；生成模块。通过本公开的各实施例能够准确地实现将编码组合，从而完整、高效地表达医学信息。

Description

医学数据的处理方法、装置及存储介质

技术领域

本公开涉及医学数据智能处理技术领域，具体涉及一种医学数据的处理方法、医学数据的处理装置及计算机可读存储介质。

背景技术

在处理包含多种医学信息的医学数据过程中，往往通过编码处理的方式来表征相应的医学信息。ICD-10诊断编码包含了详细的编码以及对应的疾病诊断信息。当需要对多个编码合并的时候，由于合并的方式多种多样，无法完整表达医学信息，而如果枚举所有的组合方式就会造成组合方式爆炸，造成数据量非常大，直接导致梳理合并映射表的工作量大，且很容易出现遗漏。

发明内容

本公开意图提供一种医学数据的处理方法、医学数据的处理装置及计算机可读存储介质，能够准确地实现将编码组合，从而完整、高效地表达医学信息。

根据本公开的方案之一，提供一种医学数据的处理方法，包括：

获取原始医学数据，所述原始医学数据包含多个用于表征医学信息的编码组合；

基于编码映射表中的标准合并编码，将所述编码组合拆分成标准编码；

依据编码映射表中所有标准合并编码的合并方式，得到待选合并编码；

基于逻辑算法，从所述待选合并编码中确定目标编码组合。

在一些实施例中，其中，所述编码映射表的构建方式，包括：

提取标准编码表中最小单元的标准编码，该标准编码单独表征一种医学信息；

将最小单元的标准编码进行组合，得到所述标准合并编码；

基于每条所述标准合并编码，以及与其对应的最小单元的标准编码，构建所述编码映射表。

在一些实施例中，其中，所述基于编码映射表中的标准合并编码，将所述编码组合拆分成标准编码，包括：

当拆分出有相同的标准编码的情况下，对相同的标准编码进行去重处理。

在一些实施例中，其中，所述依据编码映射表中所有标准合并编码的合并方式，得到待选合并编码，包括：

遍历所述编码映射表；

解析每一条所述标准合并编码的合并方式；

当所述编码映射表中标准合并编码对应的标准编码属于所述拆分得到的标准编码，则按照该标准合并编码的合并方式合并所述拆分得到的标准编码。

在一些实施例中，其中，所述基于逻辑算法，从所述待选合并编码中确定目标编码组合，包括：

基于贪心算法对所述待选合并编码进行逻辑运算处理。

在一些实施例中，其中，所述编码映射表基于ICD-10诊断编码构建，所述标准合并编码和标准编码均由ICD-10诊断编码定义。

根据本公开的方案之一，提供医学数据的处理装置，其中，

获取单元，其配置为用于获取包含多个用于表征医学信息的编码组合的原始医学数据；

编码处理模块，其配置为用于基于编码映射表中的标准合并编码，将所述编码组合拆分成标准编码；依据编码映射表中所有标准合并编码的合并方式，得到待选合并编码；

生成模块，其配置为用于基于逻辑算法，从所述待选合并编码中确定目标编码组合。

在一些实施例中，其中，还包括：编码库，其包含所述编码映射表；

其中，所述编码映射表的构建方式，包括：

将最小单元的标准编码进行组合，得到所述标准合并编码；

根据本公开的方案之一，提供计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，实现：

根据上述的医学数据的处理方法。

本公开的各种实施例的医学数据的处理方法、医学数据的处理装置及计算机可读存储介质，通过获取原始医学数据，所述原始医学数据包含多个用于表征医学信息的编码组合；基于编码映射表中的标准合并编码，将所述编码组合拆分成标准编码；依据编码映射表中所有标准合并编码的合并方式，得到待选合并编码；基于逻辑算法，从所述待选合并编码中确定目标编码组合，从而能够基于标准的编码处理机制，面对各种场景中输入的医学数据中包含种类繁杂、凌乱的医学信息的情况下，通过标准的拆分过程，标准的合并过程，将原始医学数据中包含的医学信息整理、归纳，并通过输出标准、统一的编码方式来完整、准确、高效地表达各种医学信息，从而提升医学研究、医疗诊治的精确性和效率。

应当理解，前面的大体描述以及后续的详细描述只是示例性的和说明性的，并非对所要求保护的本公开的限制。

附图说明

在未必按照比例绘制的附图中，不同视图中相似的附图标记可以表示相似的构件。具有字母后缀的相似附图标记或具有不同字母后缀的相似附图标记可以表示相似构件的不同实例。附图通常作为示例而非限制地图示各种实施例，并且与说明书和权利要求书一起用于解释所公开的实施例。

图1示出本公开实施例涉及的医学数据的处理方法的一种流程图；

图2示出本公开实施例涉及的医学数据的处理装置的一种架构图；

图3示出本公开实施例涉及的ICD-10诊断编码，其中通过表格形式部分示出以示例说明。

具体实施方式

为了使得本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例的附图，对本公开实施例的技术方案进行清楚、完整地描述。显然，所描述的实施例是本公开的一部分实施例，而不是全部的实施例。基于所描述的本公开的实施例，本领域普通技术人员在无需创造性劳动的前提下所获得的所有其他实施例，都属于本公开保护的范围。

除非另外定义，本公开使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。

为了保持本公开实施例的以下说明清楚且简明，本公开省略了已知功能和已知部件的详细说明。

针对医学数据的处理，以及针对医学信息的整理，涉及非常多的细节。例如涉及有ICD-10诊断编码的处理场景下，在病案首页中会出现多个编码合并的问题，合并的方式有多种多样，如果在合并过程中由于各种操作问题、判读问题出现编码合并问题，就无法完整、准确地记录相应的医学信息，无法表征相应的诊断、手术过程。

举例来说，将编码以字母来代替说明，编码为小写字母a，b，c......，表示单独的一个疾病诊断。单独的一个疾病意为临床上诊断出来相对独立的病症，例如“高血压”、“糖尿病”等。从医学数据处理和医学信息整理上，可以通过编码，以及编码组合的方式对单独疾病，以及合并症进行表征。例如，编码a为高血压，b为糖尿病，那么小写字母的组合“ab”则表示“高血压伴糖尿病”。通过ICD-10诊断编码可以得知，病症和编码数量庞大，对于abcd这样的一个组合诊断编码，有很多合并方式，即：包括“a+b+c+d”、“ab+cd”、“ac+bd”、“a+bcd”在内非常繁杂的合并方式。如果要枚举所有的组合方式就会造成组合方式爆炸，合并映射表非常大，梳理合并映射表的工作量大很容易出现遗漏。

作为方案之一，如图1所示，本公开的实施例提供了一种医学数据的处理方法，包括：

S101：获取原始医学数据，所述原始医学数据包含多个用于表征医学信息的编码组合；

S102：基于编码映射表中的标准合并编码，将所述编码组合拆分成标准编码；

S103：依据编码映射表中所有标准合并编码的合并方式，得到待选合并编码；

S104：基于逻辑算法，从所述待选合并编码中确定目标编码组合。

本公开的发明构思之一，旨在基于标准的编码处理机制，面对各种场景中输入的医学数据中包含种类繁杂、凌乱的医学信息的情况下，通过标准的拆分过程，标准的合并过程，将原始医学数据中包含的医学信息整理、归纳，并通过输出标准、统一的编码方式来完整、准确、高效地表达各种医学信息。

本公开各实施例中的原始医学数据，其所属的数据源并不需要特别加以限定，可以是历史数据，也可以是当前实时的数据。从数据格式上，可以是病历文本数据、视频数据、音频数据等等，只要能够通过识别手段，例如文本识别(例如，NLP识别，OCR识别等方式)识别其中能够包含的医学信息，语音识别、视频图像识别等方式识别其中记载的诊断内容、手术内容等一些医学信息，抑或是通过字符拆分、词句拆分等方式识别的医学信息内容等。可以参考于ICD-10诊断编码，本公开各实施例的原始医学数据包含多个用于表征医学信息的编码组合，可以是简单的两个编码的编码组合，也可以是更多个编码的编码组合。当然，本公开主要关注于对于编码组合的拆分以及重新组合方面，但并非排除针对原始医学数据包含若干个单独编码的情形。在一些实施例中，本公开的原始医学数据也可以是包含于病历、诊断书，其中包含有多个或者多种诊断信息，这些诊断信息以编码表征，通过多个编码组合初步记录原始的诊断信息。

在一些实施例中，本公开的编码映射表的构建方式，包括：

将最小单元的标准编码进行组合，得到所述标准合并编码；

具体的，本公开各实施例的标准编码表可以采用ICD-10诊断编码，各实施例中的编码映射表可以根据ICD-10诊断编码构建。结合图3所示，可以提取标准编码表中最小单元的标准编码，这些最小单元的标准编码分别单独表征一种医学信息，例如表征单独一种疾病名称。也就是说，在构建本实施例的编码映射表的过程中，只构建单疾病名称到编码映射表中。参照图3，以第一行为例，编码1至编码3均为单疾病对应的编码：

编码1为“I21.103”，编码1名称对应标准名称为“急性下壁心肌梗死”；

编码2为“I21.210”，编码2名称对应标准名称为“急性侧壁心肌梗死”；

编码3为“I21.205”，编码3名称对应标准名称为“急性正后壁心肌梗死”；

将这些单疾病名称对应的编码作为构建单元，构建为本实施例的编码映射表的合并编码为“I21.212”，合并编码名称为“急性下壁侧壁正后壁心肌梗死”。

按照上述将最小单元的编码组合方式，就可以构建出图3中所有“合并编码”和“合并编码名称”。

具体的，本公开各实施例中基于编码映射表中的标准合并编码，将所述编码组合拆分成标准编码，可以是对输入数据里的组合编码按照图3中合并编码进行拆分，以“ab->a+b”的格式进行拆分，从拆分成最小单元的标准编码。

在一些实施例中，本公开的所述基于编码映射表中的标准合并编码，将所述编码组合拆分成标准编码，包括：

具体的，拆分后由于会产生最小单元编码，大部分情况下或者说大概率的会出现相同的最小单元编码。例如针对“ab”、“abc”、“bd”、“ce”等这些组合编码，通过拆分后会产生重复的“a”、“b”、“c”这些重复编码，这种重复编码对后续重新组合编码会引发不必要的重复组合，而这种不必要的重复组合形成的组合编码之间也会造成对医学信息表征上的重复，例如编码以及其所表征的信息之间出现包含和被包含的关系，极端情况下也可能会造成错误表征，影响本公开处理方法的运行资源、处理效率以及处理结果的准确性。在这种情况下，本实施例可以优选地对拆分后的所有编码进行去重处理，去除重复的编码，从而保证后续重新组合的数据准确性。

在一些实施例中，本公开的所述依据编码映射表中所有标准合并编码的合并方式，得到待选合并编码，包括：

遍历所述编码映射表；

解析每一条所述标准合并编码的合并方式；

具体的，继续结合图3，本实施例可以遍历编码映射表中所有合并编码，以及编码1至编码n，通过表中记录方式、记录格式，可以解析到每一条标准合并编码的合并方式，例如关于合并编码“I25.200×024”(陈旧性下壁高侧壁正后壁心肌梗死)的合并方式为通过“I25.207”、“I25.201”、“I25.200×012”这些编码合并得到。本实施例中，当所述编码映射表中标准合并编码对应的标准编码属于所述拆分得到的标准编码，也就是在遍历编码映射表后，如果某一条合并记录(对应参照图3中每一行数据)中所有的编码都出现在原始输入数据中，则依照这条合并记录进行编码。通过这种重新组合编码的方式，就能够实现在标准合并方式的引导下，对所有符合临床诊断意义的编码合并可能都执行编码合并，从而避免不必要的繁杂编码合并，很大程度上避免产生大量无用的编码数据，提高了数据处理和信息整理的效率。

为了得到精确的目标医学数据来表征完整、全面、准确的医学信息，本公开的所述基于逻辑算法，从所述待选合并编码中确定目标编码组合，包括：

基于贪心算法对所述待选合并编码进行逻辑运算处理。

贪心算法可解决的问题通常大部分都有如下的特性：随着算法的进行，将积累起其它两个集合：一个包含已经被考虑过并被选出的候选对象，另一个包含已经被考虑过但被丢弃的候选对象。有一个函数来检查一个候选对象的集合是否提供了问题的解答。该函数不考虑此时的解决方法是否最优。还有一个函数检查是否一个候选对象的集合是可行的，也即是否可能往该集合上添加更多的候选对象以获得一个解。和上一个函数一样，此时不考虑解决方法的最优性。选择函数可以指出哪一个剩余的候选对象最有希望构成问题的解。最后，目标函数给出解的值。为了解决问题，需要寻找一个构成解的候选对象集合，可以优化目标函数，贪婪算法一步一步的进行。起初算法选出的候选对象的集合为空。接下来的每一步中，根据选择函数，算法从剩余候选对象中选出最有希望构成解的对象。如果集合中加上该对象后不可行，那么该对象就被丢弃并不再考虑；否则就加到集合里。每一次都扩充集合，并检查该集合是否构成解。如果贪婪算法正确工作，那么找到的第一个解通常是最优的。

具体的，按照贪心算法的思想，将所有输入数据的编码，以及合并后生成的待选合并编码按照数量级排序，例如，按照数量级从大到小，从左到右的方式排列。结合前述内容，具体可以为：编码组合和编码的排列呈现“abc,bcd,bc,ab,cd,a,b,c,d,e”，根据贪心删除策略，从左至右将该排列进行处理，所有被左侧编码组合包含的编码，例如“bc”被位于其左侧的“abc”和“bcd”包含，“ab”被位于其左侧的“ab”包含，“cd”被位于其左侧的“bcd”包含等，这些被包含的编码组合或者编码，从医学概念上都与位于前左侧的编码含义存在冲突，无法表征更多、更有临床意义的医学信息，因此都被认为是没有意义的编码。本实施例将这些没有意义的编码删除。

通过上述描述，本公开实现最终得到经过贪心算法处理后的编码，这些编码被输出形成精准的目标医学数据。

作为本公开的方案之一，如图2所示，本公开还提供了一种医学数据的处理装置，其中，

在一些实施例中，本公开的获取单元，可以为输入设备、屏幕截取装置、文本识别装置等，旨在实现能够获取包含多个用于表征医学信息的编码组合的原始医学数据。

在一些实施例中，本公开的医学数据的处理装置，还包括：

编码库，其包含所述编码映射表；

其中，所述编码映射表的构建方式，包括：

将最小单元的标准编码进行组合，得到所述标准合并编码；

在一些实施例中，本公开的编码处理模块，可以进一步配置为：所述基于编码映射表中的标准合并编码，将所述编码组合拆分成标准编码，包括：

在一些实施例中，本公开的编码处理模块，可以进一步配置为：所述依据编码映射表中所有标准合并编码的合并方式，得到待选合并编码，包括：

遍历所述编码映射表；

解析每一条所述标准合并编码的合并方式；

在一些实施例中，本公开的生成模块，可以进一步配置为：所述基于逻辑算法，从所述待选合并编码中确定目标编码组合，包括：

基于贪心算法对所述待选合并编码进行逻辑运算处理。按照贪心算法的思想，将所有输入数据的编码，以及合并后生成的待选合并编码按照数量级排序，例如，按照数量级从大到小，从左到右的方式排列。结合前述内容，具体可以为：编码组合和编码的排列呈现“abc,bcd,bc,ab,cd,a,b,c,d,e”，根据贪心删除策略，从左至右将该排列进行处理，所有被左侧编码组合包含的编码，例如“bc”被位于其左侧的“abc”和“bcd”包含，“ab”被位于其左侧的“ab”包含，“cd”被位于其左侧的“bcd”包含等，这些被包含的编码组合或者编码，从医学概念上都与位于前左侧的编码含义存在冲突，无法表征更多、更有临床意义的医学信息，因此都被认为是没有意义的编码。本实施例将这些没有意义的编码删除。

具体来说，本公开的发明构思之一，旨在通过获取原始医学数据，所述原始医学数据包含多个用于表征医学信息的编码组合；基于编码映射表中的标准合并编码，将所述编码组合拆分成标准编码；依据编码映射表中所有标准合并编码的合并方式，得到待选合并编码；基于逻辑算法，从所述待选合并编码中确定目标编码组合，从而能够基于标准的编码处理机制，面对各种场景中输入的医学数据中包含种类繁杂、凌乱的医学信息的情况下，通过标准的拆分过程，标准的合并过程，将原始医学数据中包含的医学信息整理、归纳，并通过输出标准、统一的编码方式来完整、准确、高效地表达各种医学信息，从而提升医学研究、医疗诊治的精确性和效率。

作为本公开的方案之一，本公开还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，主要实现根据上述的医学数据的处理方法，至少包括：

基于逻辑算法，从所述待选合并编码中确定目标编码组合。

作为本公开的方案之一，本公开还提供了一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，主要实现根据上述的编码映射表的构建方式，至少包括：

将最小单元的标准编码进行组合，得到所述标准合并编码；

在一些实施例中，执行算机可执行指令处理器可以是包括一个以上通用处理设备的处理设备，诸如微处理器、中央处理单元(CPU)、图形处理单元(GPU)等。更具体地，该处理器可以是复杂指令集计算(CISC)微处理器、精简指令集计算(RISC)微处理器、超长指令字(VLIW)微处理器、运行其他指令集的处理器或运行指令集的组合的处理器。该处理器还可以是一个以上专用处理设备，诸如专用集成电路(ASIC)、现场可编程门阵列(FPGA)、数字信号处理器(DSP)、片上系统(SoC)等。

在一些实施例中，计算机可读存储介质可以为存储器，诸如只读存储器(ROM)、随机存取存储器(RAM)、相变随机存取存储器(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、电可擦除可编程只读存储器(EEPROM)、其他类型的随机存取存储器(RAM)、闪存盘或其他形式的闪存、缓存、寄存器、静态存储器、光盘只读存储器(CD-ROM)、数字通用光盘(DVD)或其他光学存储器、盒式磁带或其他磁存储设备，或被用于储存能够被计算机设备访问的信息或指令的任何其他可能的非暂时性的介质等。

在一些实施例中，计算机可执行指令可以实现为多个程序模块，多个程序模块共同实现根据本公开中任何一项所述的医学影像的显示方法。

本公开描述了各种操作或功能，其可以实现为软件代码或指令或者定义为软件代码或指令。显示单元可以实现为在存储器上存储的软件代码或指令模块，其由处理器执行时可以实现相应的步骤和方法。

这样的内容可以是可以直接执行(“对象”或“可执行”形式)的源代码或差分代码(“delta”或“patch”代码)。这里描述的实施例的软件实现可以通过其上存储有代码或指令的制品提供，或者通过操作通信接口以通过通信接口发送数据的方法提供。机器或计算机可读存储介质可以使机器执行所描述的功能或操作，并且包括以可由机器(例如，计算显示设备、电子系统等)访问的形式存储信息的任何机制，例如可记录/不可记录介质(例如，只读存储器(ROM)、随机存取存储器(RAM)、磁盘存储介质、光存储介质、闪存显示设备等)。通信接口包括与硬连线、无线、光学等介质中的任何一种接口以与其他显示设备通信的任何机制，例如存储器总线接口、处理器总线接口、因特网连接、磁盘控制器等。通信接口可以通过提供配置参数和/或发送信号来配置以准备通信接口，以提供描述软件内容的数据信号。可以通过向通信接口发送一个或多个命令或信号来访问通信接口。

本公开的实施例的计算机可执行指令可以组织成一个或多个计算机可执行组件或模块。可以用这类组件或模块的任何数量和组合来实现本公开的各方面。例如，本公开的各方面不限于附图中示出的和本文描述的特定的计算机可执行指令或特定组件或模块。其他实施例可以包括具有比本文所示出和描述的更多或更少功能的不同的计算机可执行指令或组件。

以上描述旨在是说明性的而不是限制性的。例如，上述示例(或其一个或更多方案)可以彼此组合使用。例如本领域普通技术人员在阅读上述描述时可以使用其它实施例。另外，在上述具体实施方式中，各种特征可以被分组在一起以简单化本公开。这不应解释为一种不要求保护的公开的特征对于任一权利要求是必要的意图。相反，本公开的主题可以少于特定的公开的实施例的全部特征。从而，以下权利要求书作为示例或实施例在此并入具体实施方式中，其中每个权利要求独立地作为单独的实施例，并且考虑这些实施例可以以各种组合或排列彼此组合。本公开的范围应参照所附权利要求以及这些权利要求赋权的等同形式的全部范围来确定。

以上实施例仅为本公开的示例性实施例，不用于限制本公开，本公开的保护范围由权利要求书限定。本领域技术人员可以在本公开的实质和保护范围内，对本公开做出各种修改或等同替换，这种修改或等同替换也应视为落在本公开的保护范围内。

Claims

1.医学数据的处理方法，包括：

基于逻辑算法，从所述待选合并编码中确定目标编码组合。

2.根据权利要求1所述的方法，其中，所述编码映射表的构建方式，包括：

将最小单元的标准编码进行组合，得到所述标准合并编码；

3.根据权利要求1所述的方法，其中，所述基于编码映射表中的标准合并编码，将所述编码组合拆分成标准编码，包括：

4.根据权利要求1所述的方法，其中，所述依据编码映射表中所有标准合并编码的合并方式，得到待选合并编码，包括：

遍历所述编码映射表；

解析每一条所述标准合并编码的合并方式；

5.根据权利要求1所述的方法，其中，所述基于逻辑算法，从所述待选合并编码中确定目标编码组合，包括：

基于贪心算法对所述待选合并编码进行逻辑运算处理。

6.根据权利要求1至5中任一项所述的方法，其中，所述编码映射表基于ICD-10诊断编码构建，所述标准合并编码和标准编码均由ICD-10诊断编码定义。

7.医学数据的处理装置，其中，

8.根据权利要求1所述的装置，还包括：

编码库，其包含所述编码映射表；

其中，所述编码映射表的构建方式，包括：

将最小单元的标准编码进行组合，得到所述标准合并编码；

9.根据权利要求7或8所述的装置，其中，

所述编码映射表基于ICD-10诊断编码构建，所述标准合并编码和标准编码均由ICD-10诊断编码定义。

10.一种计算机可读存储介质，其上存储有计算机可执行指令，所述计算机可执行指令由处理器执行时，实现：

根据权利要求1至6任一项所述的医学数据的处理方法。