CN111737533B - 一种检验项目的处理方法、装置、存储介质及设备 - Google Patents
一种检验项目的处理方法、装置、存储介质及设备 Download PDFInfo
- Publication number
- CN111737533B CN111737533B CN202010565077.9A CN202010565077A CN111737533B CN 111737533 B CN111737533 B CN 111737533B CN 202010565077 A CN202010565077 A CN 202010565077A CN 111737533 B CN111737533 B CN 111737533B
- Authority
- CN
- China
- Prior art keywords
- loinc
- processed
- standard
- field
- fields
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012545 processing Methods 0.000 title claims abstract description 119
- 238000000034 method Methods 0.000 title claims abstract description 110
- 238000007689 inspection Methods 0.000 title claims abstract description 58
- 238000012360 testing method Methods 0.000 claims abstract description 166
- 238000004364 calculation method Methods 0.000 claims abstract description 43
- 238000012795 verification Methods 0.000 claims description 97
- 238000005070 sampling Methods 0.000 claims description 21
- 238000012549 training Methods 0.000 claims description 12
- 238000004590 computer program Methods 0.000 claims description 7
- 238000011160 research Methods 0.000 abstract description 11
- 210000002700 urine Anatomy 0.000 description 28
- 102000004169 proteins and genes Human genes 0.000 description 26
- 108090000623 proteins and genes Proteins 0.000 description 26
- 238000013507 mapping Methods 0.000 description 23
- 238000011002 quantification Methods 0.000 description 13
- 238000010606 normalization Methods 0.000 description 11
- 230000008569 process Effects 0.000 description 11
- 238000010339 medical test Methods 0.000 description 10
- 238000003672 processing method Methods 0.000 description 10
- 230000014509 gene expression Effects 0.000 description 7
- 238000010276 construction Methods 0.000 description 6
- 102000001554 Hemoglobins Human genes 0.000 description 5
- 108010054147 Hemoglobins Proteins 0.000 description 5
- 238000007405 data analysis Methods 0.000 description 5
- 238000001514 detection method Methods 0.000 description 5
- 102000006395 Globulins Human genes 0.000 description 4
- 108010044091 Globulins Proteins 0.000 description 4
- 239000012491 analyte Substances 0.000 description 3
- 210000004369 blood Anatomy 0.000 description 3
- 239000008280 blood Substances 0.000 description 3
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 238000010586 diagram Methods 0.000 description 3
- 238000013101 initial test Methods 0.000 description 3
- 238000002372 labelling Methods 0.000 description 3
- 210000000265 leukocyte Anatomy 0.000 description 3
- 238000010998 test method Methods 0.000 description 3
- 102000004506 Blood Proteins Human genes 0.000 description 2
- 108010017384 Blood Proteins Proteins 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 238000002558 medical inspection Methods 0.000 description 2
- 102000004190 Enzymes Human genes 0.000 description 1
- 108090000790 Enzymes Proteins 0.000 description 1
- 208000005176 Hepatitis C Diseases 0.000 description 1
- ZLMJMSJWJFRBEC-UHFFFAOYSA-N Potassium Chemical compound [K] ZLMJMSJWJFRBEC-UHFFFAOYSA-N 0.000 description 1
- 241000669244 Unaspis euonymi Species 0.000 description 1
- 239000000427 antigen Substances 0.000 description 1
- 102000036639 antigens Human genes 0.000 description 1
- 108091007433 antigens Proteins 0.000 description 1
- 239000004202 carbamide Substances 0.000 description 1
- 230000003197 catalytic effect Effects 0.000 description 1
- 239000000539 dimer Substances 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000013100 final test Methods 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 229910052700 potassium Inorganic materials 0.000 description 1
- 239000011591 potassium Substances 0.000 description 1
- 238000002360 preparation method Methods 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000126 substance Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
- XSQUKJJJFZCRTK-UHFFFAOYSA-N urea group Chemical group NC(=O)N XSQUKJJJFZCRTK-UHFFFAOYSA-N 0.000 description 1
- 239000002699 waste material Substances 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/903—Querying
- G06F16/90335—Query processing
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/40—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02P—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
- Y02P90/00—Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
- Y02P90/30—Computing systems specially adapted for manufacturing
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Software Systems (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- Computational Linguistics (AREA)
- Investigating Or Analysing Biological Materials (AREA)
Abstract
本申请公开了一种检验项目的处理方法、装置、存储介质及设备,该方法包括:首先根据检验项目的待处理数据的字段,确定LOINC中六个规范字段分别对应的待处理字段值。然后,将待处理字段值分别与LOINC中六个规范字段的标准值进行相似度计算,得到相似度六元组。进而再将相似度六元组输入预先构建的检验项目数据处理模型,获得检验项目对应的LOINC码。相比于人工处理的方式,可以快速且准确地对检验项目的检验结果进行归一化处理,且消除了人工处理的主观性带来的影响。既提高了处理效率,又降低了处理成本,并能够利用待处理数据对应的相似度六元组,快速且准确地确定出检验项目对应的LOINC码,以便于对该LOINC码对应的检验项目进行准确的临床或科研应用。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种检验项目的处理方法、装 置、存储介质及设备。
背景技术
在医疗领域中,通过对各个检验项目(如白细胞、D-二聚体等)的历史数 据进行分析和研究,能够对医疗技术的提高带来极大的帮助。
但目前在医疗机构中,对于同一医疗检验项目的检验,往往可能采用 不同厂商的不同检验设备来执行。这就导致了不同设备对于同一医疗检验 项目(如检验项目的名称、ID等)的描述方式不尽相同。所以,经常会出 现以下情况:两个同一检验项目可能采取不同的ID和名称,但两个相同的名称实质上却代表不同的检验项目。比如,检测ID和名称都为BXB和白 细胞的两个检验项目,其中一个的采样部位是血液,而另一个是尿液。二 者的名称是相同的,但所表述的检验含义是不同的。所以单纯用ID或名称来分辨检验项目会出现偏差。如果采用这种没有归一化的数据,就会导致 检验数据后续的应用出现混乱、不准确的问题,进而无法进行准确地科研, 也无法在不同医疗机构间进行有效的信息传递。
因此,需要对描述同一医疗检验项目的不同表述进行归一化处理,从 而解决医疗数据质量的问题,以便对高质量的检验数据进行临床或科研上 的应用。但目前通常是由人工对各个医疗检验项目的不同格式的检验结果 进行归一化处理,容易受到个人主观因素影响,人为归一化的映射标准不 一致,并且由于各个医疗机构中往往会存在数量庞大的检验项目数据,比如某大型医院所有设备中检验项目的枚举约有13000项,对于如此庞大的数据量,如果仍全部采用人工进行归一化处理,将会耗费大量的人力和时 间。
所以,这种由人工对检验项目进行处理的方式,主观性强、难以量化, 不仅处理效率低,而且还需要花费大量的人力资源。
发明内容
本申请实施例的主要目的在于提供一种检验项目的处理方法、装置、 存储介质及设备,能够更加快速且准确地对检验项目的数据进行归一化处 理。
本申请实施例提供了一种检验项目的处理方法,包括:
根据检验项目的待处理数据的字段,确定观测指标标识符逻辑命名与 编码系统LOINC中六个规范字段分别对应的待处理字段值;
将所述待处理字段值分别与所述LOINC中六个规范字段的标准值进 行相似度计算,得到相似度六元组;
将所述相似度六元组输入预先构建的检验项目数据处理模型,获得所 述检验项目对应的LOINC码;所述LOINC码与检验项目一一对应。
在一种可能的实现方式中,所述根据检验项目的待处理数据的字段, 确定观测指标标识符逻辑命名与编码系统LOINC中六个规范字段分别对 应的待处理字段值,具体包括:
确定检验项目的待处理数据的字段与LOINC中六个规范字段之间的 对应关系;
根据所述对应关系,确定LOINC中六个规范字段分别对应的待处理字 段值。
在一种可能的实现方式中,所述LOINC中的六个规范字段包括:成分 component、体系system、方法method、时间time、标尺scale和属性property; 所述待处理数据的字段至少包括:检验名称、采样类型和检验方法;
所述根据所述对应关系,确定LOINC中六个规范字段分别对应的待处 理字段值,具体包括:
根据所述检验名称,确定LOINC中规范字段成分对应的待处理字段 值;
根据所述采样类型,确定LOINC中规范字段体系对应的待处理字段 值;
根据所述检验方法,确定LOINC中规范字段方法对应的待处理字段 值。
在一种可能的实现方式中,所述待处理数据的字段包括:正常值范围 和单位;
所述根据所述对应关系,确定LOINC中六个规范字段分别对应的待处 理字段值,具体包括:
根据所述检验名称,确定LOINC中规范字段时间对应的待处理字段 值;
根据所述正常值范围,确定LOINC中规范字段标尺对应的待处理字段 值;
根据所述单位,确定LOINC中规范字段属性对应的待处理字段值。
在一种可能的实现方式中,所述预先构建的检验项目数据处理模型, 包括:
根据检验项目的样本数据的字段,确定LOINC中六个规范字段分别对 应的样本字段值;
将所述样本字段值分别与所述LOINC中六个规范字段的标准值进行 相似度计算,得到样本相似度六元组;
根据所述样本相似度六元组,对预先构建的梯度提升XGBoost模型进 行训练,得到所述检验项目数据处理模型。
在一种可能的实现方式中,所述方法还包括:
根据检验项目的验证数据的字段,确定LOINC中六个规范字段分别对 应的验证字段值;
将所述验证字段值分别与所述LOINC中六个规范字段的标准值进行 相似度计算,得到验证相似度六元组;
将所述验证相似度六元组输入所述检验项目数据处理模型,获得所述 验证数据的处理结果;
当所述验证数据的处理结果与所述验证数据对应的人工标记结果不一 致时,将所述验证数据重新作为所述样本数据,对所述检验项目数据处理 模型进行参数更新。
本申请实施例还提供了一种检验项目的处理装置,所述装置包括:
第一确定单元,用于根据检验项目的待处理数据的字段,确定观测指 标标识符逻辑命名与编码系统LOINC中六个规范字段分别对应的待处理 字段值;
第一计算单元,用于将所述待处理字段值分别与所述LOINC中六个规 范字段的标准值进行相似度计算,得到相似度六元组;
第一获得单元,用于将所述相似度六元组输入预先构建的检验项目数 据处理模型,获得所述检验项目对应的LOINC码;所述LOINC码与检验 项目一一对应。
在一种可能的实现方式中,所述第一确定单元包括:
第一确定子单元,用于确定检验项目的待处理数据的字段与LOINC中 六个规范字段之间的对应关系;
第二确定子单元,用于根据所述对应关系,确定LOINC中六个规范字 段分别对应的待处理字段值。
在一种可能的实现方式中,所述LOINC中的六个规范字段包括:成分 component、体系system、方法method、时间time、标尺scale和属性property; 所述待处理数据的字段至少包括:检验名称、采样类型和检验方法;所述 第二确定子单元具体用于:
根据所述检验名称,确定LOINC中规范字段成分对应的待处理字段 值;
根据所述采样类型,确定LOINC中规范字段体系对应的待处理字段 值;
根据所述检验方法,确定LOINC中规范字段方法对应的待处理字段 值。
在一种可能的实现方式中,所述待处理数据的字段包括:正常值范围 和单位;所述第二确定子单元具体用于:
根据所述检验名称,确定LOINC中规范字段时间对应的待处理字段 值;
根据所述正常值范围,确定LOINC中规范字段标尺对应的待处理字段 值;
根据所述单位,确定LOINC中规范字段属性对应的待处理字段值。
在一种可能的实现方式中,所述装置还包括:
第二确定单元,用于根据检验项目的样本数据的字段,确定LOINC中 六个规范字段分别对应的样本字段值;
第二计算单元,用于将所述样本字段值分别与所述LOINC中六个规范 字段的标准值进行相似度计算,得到样本相似度六元组;
训练单元,用于根据所述样本相似度六元组,对预先构建的梯度提升 XGBoost模型进行训练,得到所述检验项目数据处理模型。
在一种可能的实现方式中,所述装置还包括:
第三确定单元,用于根据检验项目的验证数据的字段,确定LOINC中 六个规范字段分别对应的验证字段值;
第三计算单元,用于将所述验证字段值分别与所述LOINC中六个规范 字段的标准值进行相似度计算,得到验证相似度六元组;
第二获得单元,用于将所述验证相似度六元组输入所述检验项目数据 处理模型,获得所述验证数据的处理结果;
更新单元,用于当所述验证数据的处理结果与所述验证数据对应的人 工标记结果不一致时,将所述验证数据重新作为所述样本数据,对所述检 验项目数据处理模型进行参数更新。
本申请实施例还提供了一种检验项目的处理设备,包括:存储器,处 理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所 述处理器执行所述计算机程序时,实现所述的检验项目的处理方法。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存 储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设 备执行所述的检验项目的处理方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例提供的一种检验项目的处理方法、装置及存储介质,在对检 验项目进行处理时,首先根据检验项目的待处理数据的字段,确定LOINC 中六个规范字段分别对应的待处理字段值,然后,将待处理字段值分别与 LOINC中六个规范字段的标准值进行相似度计算,得到相似度六元组,进 而再将相似度六元组输入预先构建的检验项目数据处理模型,获得检验项 目对应的LOINC码,其中,LOINC码与检验项目一一对应,可见,本申请 实施例是利用预先训练好的检验项目数据处理模型对检验项目的待处理数 据进行处理,以得到该检验项目对应的唯一的LOINC码,进而可以利用 LOINC码与检验项目之间一一对应的关系,确定待处理数据所属的医疗检验项目。相比于人工处理的方式,可以实现快速且准确地对检验项目的检验 结果进行归一化处理,且处理结果消除了人工处理的主观性带来的影响。不仅 提高了处理效率,也降低了处理成本,而且能够更准确地确定出待处理检测项 目对应的LOINC码,以便于对该LOINC码对应的检验项目进行准确的临床或科研应用。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对 实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地, 下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技 术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其 它的附图。
图1为本申请提供的一种检验项目的处理方法的流程示意图;
图2为本申请提供的待处理数据的字段与LOINC中六个规范字段之间 的对应关系的示意图;
图3为本申请提供的构建检验项目数据处理模型的流程示意图;
图4为本申请提供的验证检验项目数据处理模型的流程示意图;
图5为本申请提供的一种检验项目的处理装置的结构框图。
具体实施方式
在一些检验项目的处理方法中,通常需要医学领域的专业人员根据复 杂的映射规则,将描述同一医疗检验项目的不同表述进行归一化处理,用 以对该医疗检验项目进行准确的临床和科研应用。但这种通过专业的医学 工作者进行人工处理的方式,容易受到个人主观因素影响,造成处理结果 产生随机偏差。并且,由于各个医疗机构中往往会存在大量的检验项目,如果全部采用人工处理的方式来对各个检验项目进行数据处理,不仅处理的效率较低、准确率不高,而且还需要花费大量的人力资源。
为解决上述缺陷,本申请实施例提供了一种检验项目的处理方法,在 对检验项目进行处理时,首先根据检验项目的待处理数据的字段,确定 LOINC中六个规范字段分别对应的待处理字段值,然后,将待处理字段值 分别与LOINC中六个规范字段的标准值进行相似度计算,得到相似度六元 组,进而再将相似度六元组输入预先构建的检验项目数据处理模型,获得 检验项目对应的LOINC码,可见,本申请实施例是利用预先训练好的检验项目数据处理模型对检验项目的检验结果进行数据处理,从而能够消除人 工处理的主观性带来的影响,不仅提高了处理效率,降低了处理成本,而 且能够更准确地确定出待处理检测项目对应的LOINC码,以便于对该 LOINC码对应的检验项目进行准确的临床或科研应用,以及在不同医疗机 构间进行医疗检验项目检验结果的信息共享。
为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本 申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描 述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。 基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提 下所获得的所有其他实施例,都属于本申请保护的范围。
实施例一
参见图1,为本实施例提供的一种检验项目的处理方法的流程示意图,该方法包括以下步骤:
S101:根据检验项目的待处理数据的字段,确定观测指标标识符逻辑 命名与编码系统LOINC中六个规范字段分别对应的待处理字段值。
在本实施例中,为了能够更加快速且准确地对检验项目的检验结果进 行归一化处理,预先以观测指标标识符逻辑命名与编码系统(logical observation identifiersnames and codes,LOINC)作为数据归一化的标准。 然后,通过执行步骤S101-S103,匹配出每一待处理数据对应的最优的 LOINC码。进而再利用LOINC码与检验项目之间一一对应的关系,确定 出每一待处理数据归属的唯一的真正的检验项目。这样,可以实现将描述同一检验项目的不同格式的待处理数据均划归为该检验项目的检验结果, 以便于对该LOINC码对应的检验项目进行准确的临床或科研应用,以及在 不同医疗机构间进行医疗检验项目检验结果的信息共享。
其中,LOINC提供的是一套用于标识所有医疗检验项目或临床观测指 标的标识代码/标识符(即LOINC码)。也就是说,LOINC码的目的是对医 疗检验项目结果或临床观测指标的结果加以标识。且LOINC中每条LOINC 条目均包含有唯一一个LOINC码,每一LOINC码又均对应了唯一一个检 验项目。同时,每条LOINC条目中还包括有六个规范字段,通过这六个规 范字段的不同取值来定义一个唯一的LOINC码,用以表示这六个规范字段信息所描述的唯一一个检验项目。
具体来讲,LOINC中六个规范字段分别为成分(component)、体系 (system)、方法(method)、时间(time)、标尺(scale)和属性(property)。 其中,component指的是检验项目中的检验成分或分析物,如钾、血红蛋白、 丙型肝炎抗原等。system指的是检验项目中检验时的采样体系或样本类型, 如尿液、全血等。method指的是检验项目中检验时所采用的方法类型,通 常是在适用的情况下才会使用的字段。time指的是检验项目中的时间特征, 用以表征该检验项目的检验结果究竟是片刻、瞬间或短时间的观测结果, 还是在更长时间段内进行积分所获得的观测结果,如24小时尿液标本等。 scale指的是检验项目中检验时所采用的标尺或精度类型,如定量型、等级型(指的是具有秩次的结果选项)、名义型、叙述型(如X线检查的口述结 果)等;property指的是检验项目中受检物的检验属性,如质量浓度、酶活 性(催化速率)等。
通过这六个规范字段不同的取值来定义不同的LOINC码,即,当确定 了这六个规范字段的取值即可定位对应的唯一一个LOINC码,进而借助该 LOINC码与检验项目一一对应的关系,即可把同一检测项目的所有检验结 果数据归一到一个标准的LOINC码上去,实现对检验项目的检验结果的归 一化处理。
举例说明:如下表1所示,其示出了LOINC中一条标准的LOINC条 目。
component | system | method | time | scale | property | LOINC |
Protein | Urine | / | Pt | Qn | Mcnc | 2888-6 |
表1
其中,该条标准的LOINC条目包含的六个规范字段各自对应的标准值 分别为:component是Protein(表示蛋白)、system是Urine(表示尿)、method 是/(表示空)、time是Pt(表示一次性采集)、scale是Qn(表示定量型)、 property是Mcnc(表示质量浓度)。由这六个规范字段的标准值定义的唯一 一个LOINC码为2888-6,所描述的唯一一个真正的检验项目为:一次性采 集的定量尿液中包含的蛋白量。
由此,在获取到任一检验项目的待处理检验项目后,为了将该待处理 项目归属到检验项目,首先需要根据待处理数据包含的各个字段的字段值, 确定出LOINC中六个规范字段分别对应的待处理字段值,再通过执行后续 步骤S102-S103,以匹配出该待处理数据对应的唯一的LOINC码,进而再 利用LOINC码与检验项目之间一一对应的关系,判断出该待处理数据归属的唯一一个真正的检验项目。
在本实施例的一种可能的实现方式中,本步骤S101的具体实现过程可 以包括下述步骤A-B:
步骤A:确定检验项目的待处理数据的字段与LOINC中六个规范字段 之间的对应关系。
在本实现方式中,为了确定出LOINC中六个规范字段分别对应的待处 理字段值,首先需要确定检验项目的待处理数据的字段与LOINC中六个规 范字段之间的对应关系,用以执行后续步骤B。
需要说明的是,检验项目的待处理数据的字段通常包括五个字段,分 别为检验名称(itemname)、采样类型(sample)、检验方法(method_org)、 正常值范围(range)和单位(unit)。其中,检验名称指的是检验项目的名 称,包含检验的成分,如24h尿蛋白定量等。采样类型指的是检验成分的 来源,即检验的成分从哪里采样的,如全血等,若待处理数据中未包含具 体的采样类型,即采样类型为空,则可通过对检验名称的历史数据进行推 测来得到采用类型值。检验方法指的是检验时运用的方法,如化学发光法 等。正常值范围指的是检验结果为正常的范围,可以用数值表示,也可以用文字表示,如0.00--0.15或阴性等。单位指的是检验结果的单位,如g/d(克 /天)等。
举例说明:如下表2所示,其示出了一条检测项目的待处理数据。
检验名称 | 采样类型 | 检验方法 | 正常值范围 | 单位 |
24h尿蛋白定量 | 尿 | / | 0--5 | g/d |
表2
其中,该条待处理数据包含的五个字段的字段值分别为:检验名称是 24h尿蛋白定量、采样类型是尿、检验方法是/、正常值范围是0--5、单位 是g/d。
本申请通过对各个检验项目历史数据的观察和分析,确定出检验项目 的待处理数据的上述五个字段与LOINC中六个规范字段之间的对应关系 如图2所示,其中,实线箭头表示二者之间是主要对应关系,虚线箭头表 示二者之间存在的较弱的对应关系。进而可以利用该对应关系作为确定 LOINC中六个规范字段分别对应的待处理字段值的依据。
具体来讲,待处理数据中的检验名称是分辨检测项目的核心字段,其 必然会包含检验项目的检验成分或分析物(即component),并且,在一些 情况下,检验名称的部分内容也可能会包含时间特征(即time)和检验采 样的体系(即system);正常值范围的描述可以体现检验时所采用的标尺或 精度类型(即scale);通过待处理数据中的单位和/或正常值范围则可以分 析出受检物的检验属性(即property);而采样类型和检测方法则分别对应LOINC中的规范字段体系(即system)和方法(即method)。
步骤B:根据对应关系,确定LOINC中六个规范字段分别对应的待处 理字段值。
在本实现方式中,通过步骤A确定出检验项目的待处理数据的字段与 LOINC中六个规范字段之间如图2所示的对应关系后,进一步可以将该对 应关系作为确定LOINC中六个规范字段分别对应的待处理字段值的依据, 确定出LOINC中六个规范字段分别对应的待处理字段值,具体实现过程包 括下述步骤B1-B6:
步骤B1:根据检验名称,确定LOINC中规范字段成分对应的待处理 字段值。
由于已确定出待处理数据的字段检验名称(itemname)与LOINC中规 范字段成分(component)具有主要对应关系,即检验名称必然会包含检验 项目的检验成分或分析物(即component)。且检验名称对应的字段值与 LOINC中规范字段成分对应的标准值的数值格式一致,因此,在本实施例 中,可以将检验名称对应的字段值直接定义为LOINC中规范字段成分对应 的待处理字段值,例如:以上述表2所示的待处理数据为例,可将检验名 称“24h尿蛋白定量”确定为LOINC中规范字段成分对应的待处理字段值。
进而可以再通过查询预先建立的检验名称与成分之间的映射表(即 itemname与component之间的映射表),找出与该检验名称(即成分对应的 待处理字段值,如“24h尿蛋白定量”)相似的成分的标准值,并从中选择 出相似度大于预设阈值的成分的标准值(如蛋白“Protein”),具体实现过 程可参见后续步骤S102。
需要说明的是,对于检验名称与成分之间的映射表可通过领域专家预 先进行构建,也可以直接采用志愿者为LOINC贡献的数据。具体构建方式, 本申请实施例在此不进行限制,可根据实际情况进行选择,并在实际应用 中不断对其进行扩展和维护。并且,在该itemname与component之间的映 射表中,component与itemname之间可以是一对多的对应关系,即一个 component可以对应多个itemname,如itemname为“尿蛋白”和“血蛋白” 的检验项目,在itemname与component之间的映射表中,均可将其映射到 “Protein”这个component上。即,“Protein”既可以对应“尿蛋白”又可 以对应“血蛋白”。
步骤B2:根据采样类型,确定LOINC中规范字段体系对应的待处理 字段值。
由于已确定出待处理数据的字段采样类型(sample)与LOINC中规范 字段体系(system)具有主要对应关系,即采样类型对应了LOINC中的规 范字段体系,且采样类型对应的字段值与LOINC中规范字段体系对应的标 准值的数值格式一致,因此,在本实施例中,可以将采样类型对应的字段 值直接定义为LOINC中规范字段体系对应的待处理字段值,例如:以上述 表2所示的待处理数据为例,可将采样类型“尿”确定为LOINC中规范字 段体系对应的待处理字段值。
进而可以再通过查询预先建立的采样类型与体系之间的映射表(即 sample与system之间的映射表),找出与该采样类型(即体系对应的待处 理字段值,如“尿”)相似的体系的标准值,并从中选择出相似度大于0的 体系的标准值(如尿“Urine”),具体实现过程可参见后续步骤S102。
需要说明的是,对于采样类型与体系之间的映射表可通过领域专家预 先进行构建,也可以直接采用志愿者为LOINC贡献的数据,具体构建方式, 本申请实施例在此不进行限制,可根据实际情况进行选择,并在实际应用 中不断对其进行扩展和维护。并且,在该sample与system之间的映射表中 system与sample之间也可以是一对多的对应关系,即一个system可以对应多个sample。
此外,还需要说明的是,在一些特殊情况下,检验名称的部分内容也 可能会包含检验采样的体系(即system)的取值,在无法利用采样类型 (sample)确定体系(system)对应的待处理字段值时,可通过对检验名称 的分析,来辅助确定体系对应的待处理字段值。
步骤B3:根据检验方法,确定LOINC中规范字段方法对应的待处理 字段值。
由于已确定出待处理数据的字段检验方法(method_org)与LOINC中 规范字段方法(method)具有主要对应关系,即检验方法(method_org) 对应了LOINC中的规范字段方法(即method),且检验方法对应的字段值 与LOINC中规范字段体系对应的标准值的数值格式一致,因此,在本实施 例中,可以将检验方法对应的字段值直接定义为LOINC中规范字段方法对 应的待处理字段值,例如:以上述表2所示的待处理数据为例,可将检验方法“/”确定为LOINC中规范字段方法对应的待处理字段值。
进而可以再通过查询预先建立检验方法与方法之间的映射表(即 method_org与method之间的映射表)。找出与该检测方法(即方法对应的 待处理字段值,如“/”)相同的方法的标准值,则二者的语义相似度为1。 而对于找出的与该检测方法(即方法对应的待处理字段值,如“/”)不相 同的方法的标准值,二者的语义相似度为0,具体实现过程可参见后续步 骤S102。
需要说明的是,对于检测方法与方法之间的映射表可通过领域专家预 先进行构建,也可以直接采用志愿者为LOINC贡献的数据,具体构建方式, 本申请实施例在此不进行限制,可根据实际情况进行选择,并在实际应用 中不断对其进行扩展和维护。
步骤B4:根据检验名称,确定LOINC中规范字段时间对应的待处理 字段值。
在确定出待处理数据的字段检验名称(itemname)与LOINC中规范字 段时间(time)具有对应关系,即检验名称的部分内容包含时间特征后, 即可采用现有或未来出现的数据分析方法,对检验名称进行数据分析,从 中提取出时间相关的描述,如“6h”、“3小时”等类似的表达,用以确定 符合规范字段时间的数值格式的时间特征,作为LOINC中规范字段时间对应的待处理字段值,否则将时间对应的待处理字段值确定为一次性采集, 用以执行后续步骤S102。且该待处理字段值需符合规范字段的数值格式, 如表示一次性采集的时间字段值为“Pt”。
举例说明:以上述表2所示的待处理数据为例,由于检验名称“24h 尿蛋白定量”中包含有表示时间范围的描述“24h”,则可以确定LOINC中 规范字段时间对应的待处理字段值为“24H”。
步骤B5:根据正常值范围,确定LOINC中规范字段标尺对应的待处 理字段值。
在确定出待处理数据的字段正常值范围(range)与LOINC中规范字 段标尺(scale)具有对应关系,即正常值范围的描述可以体现检验时所采 用的标尺或精度类型后,即可采用现有或未来出现的数据分析方法,对正常 值范围进行数据分析,以确定出符合规范字段标尺的数值格式的数值,作为LOINC中规范字段标尺对应的待处理字段值,用以执行后续步骤S102。
具体来讲,通过对正常值范围进行数据分析,可以判断出其中是否包 含表示序数型的表达,如“阴性”、“阳性”等,若有,则确定标尺对应的 待处理字段值为序数型的“Ord”,若无,则继续判断出其中是否包含描述 型的表达,如“透明”、“无色”等,若有,则确定标尺对应的待处理字段值为描述型的“Nom”,若无,则继续判断出其中是否包含表示范围的符号, 如“<”、“>”、“--”、“~”等,若有,则确定标尺对应的待处理字段值为数 值型的“Qn”。
举例说明:以上述表2所示的待处理数据为例,由于正常值范围“0--5” 中包含有表示范围的符号“--”,则可以确定LOINC中规范字段标尺对应的 待处理字段值为“Qn”。
步骤B6:根据单位,确定LOINC中规范字段属性对应的待处理字段 值。
在确定出待处理数据的字段单位(unit)和/或正常值范围(range)与 LOINC中规范字段属性(property)具有对应关系,即通过待处理数据中的 单位和/或正常值范围可以分析出受检物的检验属性后,即可采用现有或未 来出现的数据分析方法,对单位和/或正常值范围进行数据分析,以确定出 符合规范字段属性的数值格式的数值,作为LOINC中规范字段属性对应的待处理字段值,用以执行后续步骤S102。
具体来讲,首先需要定义不同类型单位的字典,例如,长度,重量, 物质的量等分别都包含哪些单位(具体定义方式本申请实施例在此不进行 限制,可根据实际情况进行定义)。然后通过对单位进行数据分析,确定出 分子和分母的类型来组合出属性对应的待处理字段值。具体的,可以通过 “/”对单位进行分解,以匹配出分子和分母能匹配上哪个类型的单位,根据处于“/”前后不同位置的表述来组合成属性对应的待处理字段值。
举例说明:以上述表2所示的待处理数据为例,由于单位“g/d”中分 子是重量单位“克”,分母是时间单位“天”,重量单位在分子记为“M”, 时间单位在分母记为“Rat”,合并后对应属性的待处理字段值为“MRat”, 即可以确定LOINC中规范字段属性对应的待处理字段值为“MRat”。
此外,需要说明的是,如果单位是序数型的表达,则属性对应的待处 理字段值为“PrThr”。
综上所述,通过执行上述步骤B1-B6,可根据检验项目的待处理数据 的字段,确定出LOINC中六个规范字段分别对应的待处理字段值。
举例说明:如下表3所示,其示出了根据表2中待处理数据的字段, 确定出的LOINC中六个规范字段分别对应的待处理字段值。
component | system | method | time | scale | property |
24h尿蛋白定量 | 尿 | / | 24H | Qn | MRat |
表3
S102:将待处理字段值分别与LOINC中六个规范字段的标准值进行相 似度计算,得到相似度六元组。
在本实施例中,通过步骤S101确定出LOINC中六个规范字段分别对 应的待处理字段值后,可以将这六个待处理字段值与LOINC中每条LOINC 条目包含的六个规范字段的标准值分别进行相似度计算,比如,当待处理 字段和标准值为中文时,可以采用中文语义相似度计算方法(如二阶bigram 相似度计算方法)计算二者之间的相似度。当待处理字段和标准值为英文 时,可以采用三连词Trigram进行相似度计算,以生成每个规范字段中待 处理字段值与标准值之间的语义相似度,具体的,采用三连词Trigram计 算语义相似度的公式如下:
其中,s1和s2分别表示同一规范字段对应的待处理字段值和标准值; No.ofoverlapping trigrams between s1ands2表示s1和s2中相同的子字符串个 数;No.of alls1 trigrams表示s1中包含的子字符串个数;No.of all s2 trigrams 表示s2中包含的子字符串个数;simtrgram(s1,s2)表示s1和s2的语义相似度。
举例说明:假设s1和s2分别为规范字段property对应的待处理字段值 “MRat”和标准值“MCnc”,在计算二者的Trigram相似度时,可先将“MRat” 分为“M”、“MR”、“MRa”、“Rat”、“at”和“t”这6个子字符串,并将 “MCnc”分为“M”、“MC”、“MCn”、“Cnc”、“nc”和“c”这6个子字符串。其中相同的子字符串只有一个“M”,则利用上述公式,可以计算出 二者之间的语义相似度为1/6,即2*1/(6+6)=1/6。
需要说明的是,利用上述相似度计算公式以及二阶bigram相似度计算 方法(具体计算方式与现有方式一致,在此不再赘述),可以计算出待处理 数据对应的LOINC中六个规范字段各自的待处理字段值与每条标准的 LOINC条目包含的六个规范字段的标准值之间的相似度,进而可以将得到 的六个相似度值组成一个相似度六元组,用以表征待处理数据与该条标准 的LOINC条目之间的相似度,由此可见,通过上述相似度计算方法,可以 计算出多个相似度六元组,用以执行后续步骤S103。其中,每一个相似度 六元组表征了待处理数据与一条标准的LOINC条目之间的相似度。
具体来讲,为了提高处理效率,首先需要计算待处理数据对应的LOINC 中的规范字段成分的待处理字段值与每条标准的LOINC条目包含的规范 字段成分的标准值之间的相似度。然后,在进行后续其他规范字段中待处 理字段值与标准值的相似度计算时,只计算规范字段成分中待处理字段值 与标准值的相似度大于预设阈值的标准的LOINC条目,以便更加高效地从 中匹配出待处理数据对应的唯一的LOINC码。
对于LOINC中的规范字段成分(component)来说,可以通过查询预 先构建的检验名称与成分之间的映射表,找出与成分对应的待处理字段值 (即检验名称)相似的所有标准值,然后再利用二阶bigram相似度计算方 法,从中选择出与该检验名称相似度大于预设阈值的成分的至少一个标准 值。其中,预设阈值可根据实际情况和经验值选取,本申请实施例对此不进行 限定,比如可以将预设阈值设定为0.1,则以上述表2所示的待处理数据及其对应的表3中LOINC中六个规范字段分别对应的待处理字段值为例,其 中的检验名称(即成分对应的待处理字段值)为“24h尿蛋白定量”,若查 询出检验名称与成分之间的映射表中与该检验名称相似的成分标准值为“蛋白”(即“Protein”),且计算出二者之间的相似度为1/6,大于预设阈值 0.1,则可以将“蛋白”作为检验名称“24h尿蛋白定量”对应的标准值;同理,若查询出映射表中与该检验名称相似的成分标准值为“球蛋白”(即 “Globulin”),且计算出二者之间的相似度为2/13,也大于预设阈值0.1,则 可以将“球蛋白”也作为检验名称“24h尿蛋白定量”对应的标准值;同理, 若查询出映射表中与该检验名称相似的成分标准值为“血红蛋白”(即 “Hemoglobin”),且计算出二者之间的相似度为1/7,也大于预设阈值0.1, 则可以将“血红蛋白”也作为检验名称“24h尿蛋白定量”对应的标准值。
可见,成分中的一个待处理字段值可以对应成分中的多个标准值,则进 一步可以计算这多个成分标准值分别所在的标准的LOINC条目中其他规范 字段中待处理字段值与标准值的相似度。比如,待处理字段值“24h尿蛋 白定量”可以对应成分中三个标准值“蛋白”、“球蛋白”和“血红蛋白”, 则进一步可以计算这三个成分标准值所在的标准的LOINC条目中其他规范字段中待处理字段值与标准值的相似度。
在后续计算满足相似度要求的成分标准值分别所在的各个标准的 LOINC条目中其他规范字段中待处理字段值与标准值的相似度时,对于 LOINC中的规范字段体系(system)来说,可以参考预先构建的采样类型 与体系之间的映射表以及上述相似度计算方法,计算出待处理字段值与标 准值之间相似度,并选取相似度大于0的体系的标准值及其对应的相似度。 具体计算过程与上述成分的计算过程类似,在此不再赘述。
对于LOINC中的规范字段检验方法(method)来说,可以参考预先构 建的检验方法与方法之间的映射表,或者,直接比对方法中待处理字段值 与标准值是否相同,来判定出方法中待处理字段值与标准值的相似度,若 二者相同,则相似度为1;若二者不同,则相似度为0。
对于LOINC中的规范字段时间(time)来说,可以直接判定出时间中 待处理字段值与标准值的相似度,若二者相同,则相似度为1;若二者不同, 则相似度为0。
对于LOINC中的规范字段标尺(scale)来说,可以直接判定出标尺中 待处理字段值与标准值的相似度,若二者相同,则相似度为1;若二者不同, 则相似度为0。
对于LOINC中的规范字段属性(property)来说,可以利用上述Trigram 计算相似度的公式,计算出属性中待处理字段值与标准值之间相似度。
举例说明:以上述表1所示的LOINC中一条标准的LOINC条目,以 及表3所示的LOINC中六个规范字段分别对应的待处理字段值为例,利用 预先构建的检验名称与成分之间的映射表以及上述相似度计算方法,可以 计算出成分(component)中待处理字段值“24h尿蛋白定量”与标准值“Protein”的相似度为1/6;利用上述Trigram计算相似度的公式,可以计 算出属性(property)中待处理字段值“MRat”与标准值“MCnc”的相似 度为1/6;直接判定出时间(time)中待处理字段值“24H”与标准值“Pt” 的相似度为0;体系(system)中待处理字段值“尿”与标准值“Urine”的 相似度为1;标尺(scale)中待处理字段值“Qn”与标准值“Qn”的相似度 为1;方法(method)中待处理字段值“/”与标准值“/”相似度为1。进 而可以将得到的这六个相似度值组成一个相似度六元组[1/6,1/6,0,1,1, 1],其表征了表2所示的待处理数据与表1所示的这条标准的LOINC条目 之间的相似度,可用于执行后续步骤S103。
S103:将相似度六元组输入预先构建的检验项目数据处理模型,获得 检验项目对应的LOINC码;其中,LOINC码与检验项目一一对应。
在本实施例中,通过步骤S102得到表征待处理数据与多条标准的 LOINC条目之间的相似度的多个相似度六元组后,进一步可以对这些相似 度六元组进行处理,以获得待处理数据对应的LOINC码,进而可以利用 LOINC码与检验项目之间一一对应的关系,确定出该待处理数据归属的唯 一一个真正的检验项目,实现将描述同一检验项目的不同格式的待处理数 据,以便于对该LOINC码对应的检验项目进行准确的临床或科研应用,以及在不同医疗机构间进行医疗检验项目检验结果的信息共享。具体的,可 以将待处理数据对应的相似度六元组作为输入数据,输入至预先构建的检 验项目数据处理模型中,以获得检验项目最优匹配的LOINC码。需要说明 的是,为实现本步骤S103,需要预先构建一个检验项目数据处理模型,具 体构建过程可参见后续实施例二的相关介绍。
具体来讲,通过步骤S102得到表征待处理数据与多条标准的LOINC 条目之间的相似度的多个相似度六元组后,可以逐一将每个相似度六元组 分别输入检验项目数据处理模型中的入口,并利用该检验项目数据处理模 型的出口输出一个区间[0,1]中的匹配概率值,用以表征待处理数据所属的 检验项目与该相似度六元组对应的这条标准的LOINC条目中LOINC码匹 配程度的高低。例如,可以输出一个0.9的匹配概率值,表明待处理数据 所属的检验项目与该LOINC码的匹配程度较高。
综上,本实施例提供的一种检验项目的处理方法,在对检验项目进行 处理时,首先根据检验项目的待处理数据的字段,确定LOINC中六个规范 字段分别对应的待处理字段值。然后,将待处理字段值分别与LOINC中六 个规范字段的标准值进行相似度计算,得到相似度六元组,进而再将相似 度六元组输入预先构建的检验项目数据处理模型,获得检验项目对应的 LOINC码,其中,LOINC码与检验项目一一对应,可见,本申请实施例是利用预先训练好的检验项目数据处理模型对检验项目的待处理数据进行处 理,以得到该检验项目对应的唯一最优匹配的LOINC码。进而可以利用 LOINC码与检验项目之间一一对应的关系,确定待处理数据所属的医疗检 验项目。相比于人工处理的方式,可以实现快速且准确地对检验项目的检 验结果进行归一化处理,且处理结果消除了人工处理的主观性带来的影响,不仅提高了处理效率,也降低了处理成本,并能够利用检验项目的待处理 数据对应的相似度六元组,快速且准确地确定出检验项目对应的LOINC 码,以便于利用检验项目进行临床或科研应用,以及在不同医疗机构间进 行医疗检验项目检验结果的信息共享。
实施例二
本实施例将对实施例一中提及的检验项目数据处理模型的具体构建过 程进行介绍。利用该预先构建的检验项目数据处理模型,可以更加快速且 准确地对检验项目的数据进行归一化处理。
参见图3,其示出了本实施例提供的构建检验项目数据处理模型的流 程示意图,该流程包括以下步骤:
S301:根据检验项目的样本数据的字段,确定LOINC中六个规范字段 分别对应的样本字段值。
在本实施例中,为了构建检验项目数据处理模型,需要预先进行大量 的准备工作,首先,需要收集大量医疗检验项目的检验结果作为样本数据, 比如,可以预先收集1000条有关白细胞检验的检验结果,并将收集到的每 条检验结果分别作为样本数据,并预先通过医疗领域的专业人员人工标注出每一样本数据归属的唯一一个真正的检验项目。进一步的,可以利用获 取到的这些样本数据训练检验项目数据处理模型。
接下来,在获取到的各条样本数据后,可以采用与实施例一步骤S101 中确定LOINC中六个规范字段分别对应的待处理字段值类似的方法,将待 处理数据替换为样本数据,即可确定出LOINC中六个规范字段分别对应的 样本字段值,相关之处请参见实施例一的介绍,在此不再赘述。
S302:将样本字段值分别与LOINC中六个规范字段的标准值进行相似 度计算,得到样本相似度六元组。
在本实施例中,通过步骤S301确定出LOINC中六个规范字段分别对 应的样本字段值后,进一步可以采用与实施例一步骤S102中获得待处理数 据的相似度六元组类似的方法,将待处理数据对应的待处理字段值分别替 换为样本数据对应的样本字段值,即可确定出表征样本数据与至少一条标 准的LOINC条目之间的相似度的至少一个样本相似度六元组,相关之处请 参见实施例一的介绍,在此不再赘述。
S303:根据样本相似度六元组,对预先构建的梯度提升XGBoost模型 进行训练,得到检验项目数据处理模型。
在本实施例中,一种可选的实现方式是,为了提高模型的计算精度和 计算效率,防止模型过拟合,减少计算量,可以预先构建XGBoost模型作 为初始的检验项目数据处理模型。需要说明的是,XGBoost模型的具体构 建过程与现有方式一致,在此不再赘述。
接着,在构建了XGBoost模型作为初始的检验项目数据处理模型后, 可以依次从通过步骤S302得到的样本数据对应的样本相似度六元组中提 取一条样本数据对应的一个或多个样本相似度六元组,进行多轮模型训练,直到满足训练结束条件为止,此时,即生成检验项目数据处理模型。
具体地,在进行本轮训练时,可以将实施例一中的待处理数据替换为 本轮提取的样本数据,通过当前的初始的检验项目数据处理模型(即初始 的XGBoost模型),按照实施例一中的执行过程,便可以获得该样本数据 所属检验项目对应的LOINC码。具体地,按照上述实施例一中的步骤S101-S103,便可以在得到样本数据对应的至少一个样本相似度六元组后, 通过初始的XGBoost模型输出至少一个区间[0,1]中的匹配概率值。然后从 中选择出最大匹配概率值对应的LOINC码,并将该LOINC码对应的检验 项目与人工预先标注的该样本数据归属的唯一一个真正的检验项目进行比 较,并根据二者的差异对模型参数进行更新,直至满足预设的条件,比如当二者相同时,则停止模型参数的更新,完成XGBoost模型的训练,生成 一个训练好的XGBoost模型,作为最终的检验项目数据处理模型。
通过上述实施例,可以利用检验项目的样本数据训练生成检验项目数 据处理模型,则进一步的,可以利用检验项目的验证数据对生成的检验项 目数据处理模型进行验证。具体验证过程可以包括下述步骤S401-S404:
S401:根据检验项目的验证数据的字段,确定LOINC中六个规范字段 分别对应的验证字段值。
在本实施例中,为了实现对检验项目数据处理模型进行验证,首先需 要获取大量检验项目的验证数据,其中,验证数据指的是可以用来进行检 验项目数据处理模型验证的检验结果,在获取到验证数据后,可以采用与 实施例一步骤S101中确定LOINC中六个规范字段分别对应的待处理字段 值类似的方法,将待处理数据替换为验证数据,即可确定出LOINC中六个 规范字段分别对应的验证字段值,相关之处请参见实施例一的介绍,在此 不再赘述。
S402:将验证字段值分别与LOINC中六个规范字段的标准值进行相似 度计算,得到验证相似度六元组。
在本实施例中,通过步骤S401确定出LOINC中六个规范字段分别对 应的验证字段值后,进一步可以采用与实施例一步骤S102中获得待处理数 据的相似度六元组类似的方法,将待处理数据对应的待处理字段值分别替 换为验证数据对应的验证字段值,即可确定出表征验证数据与至少一条标 准的LOINC条目之间的相似度的至少一个验证相似度六元组,相关之处请 参见实施例一的介绍,在此不再赘述。
S403:将验证相似度六元组输入检验项目数据处理模型,获得验证数 据的处理结果。
通过步骤S402得到至少一个验证相似度六元组后,进一步的,可以将 验证相似度六元组输入检验项目数据处理模型,以获得验证数据的处理结 果,即预测出验证数据所属的检验项目,进而可继续执行后续步骤S404。
S404:当验证数据的处理结果与验证数据对应的人工标注结果不一致 时,将验证数据重新作为样本数据,对检验项目数据处理模型进行参数更 新。
通过步骤S403获得验证数据的处理结果后,若验证数据的处理结果与 该验证数据对应的人工标注结果不一致,则可以将该验证数据重新作为样 本数据,对检验项目数据处理模型进行参数更新。
这样,通过上述实施例,可以利用检验项目的验证数据对检验项目数 据处理模型进行有效验证,当验证数据的处理结果与验证数据对应的人工 标注结果不一致时,可以及时调整、更新检验项目数据处理模型,进而有 助于提高检验项目数据处理模型的处理精度和准确性。
综上,利用本实施例训练而成的检验项目数据处理模型,可以利用检 验项目的待处理数据对应的至少一个相似度六元组,快速且准确地确定出 检验项目对应的LOINC码,以便于对该LOINC码对应的唯一的检验项目进行准确的科研统计,有效提高了对检验项目的待处理数据处理的效率及 准确性,避免了人力资源的浪费。
实施例三
本实施例将对一种检验项目的处理装置进行介绍,相关内容请参见上 述方法实施例。
参见图5,为本实施例提供的一种检验项目的处理装置500的结构框 图,该装置500包括:
第一确定单元501,用于根据检验项目的待处理数据的字段,确定观 测指标标识符逻辑命名与编码系统LOINC中六个规范字段分别对应的待 处理字段值;
第一计算单元502,用于将所述待处理字段值分别与所述LOINC中六 个规范字段的标准值进行相似度计算,得到相似度六元组;
第一获得单元502,用于将所述相似度六元组输入预先构建的检验项 目数据处理模型,获得所述检验项目对应的LOINC码;所述LOINC码与检验项目一一对应。
在一种可能的实现方式中,所述第一确定单元501包括:
第一确定子单元,用于确定检验项目的待处理数据的字段与LOINC中 六个规范字段之间的对应关系;
第二确定子单元,用于根据所述对应关系,确定LOINC中六个规范字 段分别对应的待处理字段值。
在一种可能的实现方式中,所述LOINC中的六个规范字段包括:成分 component、体系system、方法method、时间time、标尺scale和属性property; 所述待处理数据的字段至少包括:检验名称、采样类型和检验方法;所述 第二确定子单元具体用于:
根据所述检验名称,确定LOINC中规范字段成分对应的待处理字段 值;
根据所述采样类型,确定LOINC中规范字段体系对应的待处理字段 值;
根据所述检验方法,确定LOINC中规范字段方法对应的待处理字段 值。
在一种可能的实现方式中,所述待处理数据的字段包括:正常值范围 和单位;所述第二确定子单元具体用于:
根据所述检验名称,确定LOINC中规范字段时间对应的待处理字段 值;
根据所述正常值范围,确定LOINC中规范字段标尺对应的待处理字段 值;
根据所述单位,确定LOINC中规范字段属性对应的待处理字段值。
在一种可能的实现方式中,所述装置还包括:
第二确定单元,用于根据检验项目的样本数据的字段,确定LOINC中 六个规范字段分别对应的样本字段值;
第二计算单元,用于将所述样本字段值分别与所述LOINC中六个规范 字段的标准值进行相似度计算,得到样本相似度六元组;
训练单元,用于根据所述样本相似度六元组,对预先构建的梯度提升 XGBoost模型进行训练,得到所述检验项目数据处理模型。
在一种可能的实现方式中,所述装置还包括:
第三确定单元,用于根据检验项目的验证数据的字段,确定LOINC中 六个规范字段分别对应的验证字段值;
第三计算单元,用于将所述验证字段值分别与所述LOINC中六个规范 字段的标准值进行相似度计算,得到验证相似度六元组;
第二获得单元,用于将所述验证相似度六元组输入所述检验项目数据 处理模型,获得所述验证数据的处理结果;
更新单元,用于当所述验证数据的处理结果与所述验证数据对应的人 工标记结果不一致时,将所述验证数据重新作为所述样本数据,对所述检 验项目数据处理模型进行参数更新。
综上,本实施例提供的一种检验项目的处理装置,在对检验项目进行 处理时,首先根据检验项目的待处理数据的字段,确定LOINC中六个规范 字段分别对应的待处理字段值。然后,将待处理字段值分别与LOINC中六 个规范字段的标准值进行相似度计算,得到相似度六元组,进而再将相似 度六元组输入预先构建的检验项目数据处理模型,获得检验项目对应的 LOINC码,其中,LOINC码与检验项目一一对应,可见,本申请实施例是利用预先训练好的检验项目数据处理模型对检验项目的待处理数据进行处 理,以得到该检验项目对应的唯一最优匹配的LOINC码。进而可以利用 LOINC码与检验项目之间一一对应的关系,确定待处理数据所属的医疗检 验项目。相比于人工处理的方式,可以实现快速且准确地对检验项目的检 验结果进行归一化处理,且处理结果消除了人工处理的主观性带来的影响,不仅提高了处理效率,也降低了处理成本,并能够利用检验项目的待处理 数据对应的相似度六元组,快速且准确地确定出检验项目对应的LOINC 码,以便于利用检验项目进行临床或科研应用,以及在不同医疗机构间进 行医疗检验项目检验结果的信息共享。
另外,本申请实施例还提供了一种计算机可读存储介质,所述机算机 可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述 终端设备执行上述的检验项目的处理方法。
本申请实施例还提供了一种检验项目的处理设备,包括:存储器,处 理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所 述处理器执行所述计算机程序时,实现如上述的检验项目的处理方法。
本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在 终端设备上运行时,使得所述终端设备执行所述的检验项目的处理方法。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置 和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅 是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实 现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成 到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单 元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的, 作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地 方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的 部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元 中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在 一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软 件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销 售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方 案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储 在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人 计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM, Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、 磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制; 尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员 应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者 对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技 术方案的本质脱离本申请各实施例技术方案的精神和范围。
Claims (6)
1.一种检验项目的处理方法,其特征在于,包括:
根据检验项目的待处理数据的字段,确定观测指标标识符逻辑命名与编码系统LOINC中六个规范字段分别对应的待处理字段值,所述LOINC中的六个规范字段包括:成分component、体系system、方法method、时间time、标尺scale和属性property;所述待处理数据的字段包括:检验名称、采样类型、检验方法、正常值范围和单位;
将所述待处理字段值分别与所述LOINC中六个规范字段的标准值进行相似度计算,得到相似度六元组;
将所述相似度六元组输入预先构建的检验项目数据处理模型,获得所述检验项目对应的LOINC码;所述LOINC码与检验项目一一对应;
其中,所述根据检验项目的待处理数据的字段,确定观测指标标识符逻辑命名与编码系统LOINC中六个规范字段分别对应的待处理字段值,具体包括:
确定检验项目的待处理数据的字段与LOINC中六个规范字段之间的对应关系;
根据所述对应关系,确定LOINC中六个规范字段分别对应的待处理字段值,其中,所述根据所述对应关系,确定LOINC中六个规范字段分别对应的待处理字段值,具体包括:根据所述检验名称,确定LOINC中规范字段成分对应的待处理字段值;根据所述采样类型,确定LOINC中规范字段体系对应的待处理字段值;根据所述检验方法,确定LOINC中规范字段方法对应的待处理字段值;根据所述检验名称,确定LOINC中规范字段时间对应的待处理字段值;根据所述正常值范围,确定LOINC中规范字段标尺对应的待处理字段值;根据所述单位,确定LOINC中规范字段属性对应的待处理字段值。
2.根据权利要求1所述的方法,其特征在于,所述预先构建的检验项目数据处理模型,包括:
根据检验项目的样本数据的字段,确定LOINC中六个规范字段分别对应的样本字段值;
将所述样本字段值分别与所述LOINC中六个规范字段的标准值进行相似度计算,得到样本相似度六元组;
根据所述样本相似度六元组,对预先构建的梯度提升XGBoost模型进行训练,得到所述检验项目数据处理模型。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
根据检验项目的验证数据的字段,确定LOINC中六个规范字段分别对应的验证字段值;
将所述验证字段值分别与所述LOINC中六个规范字段的标准值进行相似度计算,得到验证相似度六元组;
将所述验证相似度六元组输入所述检验项目数据处理模型,获得所述验证数据的处理结果;
当所述验证数据的处理结果与所述验证数据对应的人工标记结果不一致时,将所述验证数据重新作为所述样本数据,对所述检验项目数据处理模型进行参数更新。
4.一种检验项目的处理装置,其特征在于,所述装置包括:
第一确定单元,用于根据检验项目的待处理数据的字段,确定观测指标标识符逻辑命名与编码系统LOINC中六个规范字段分别对应的待处理字段值,所述LOINC中的六个规范字段包括:成分component、体系system、方法method、时间time、标尺scale和属性property;所述待处理数据的字段包括:检验名称、采样类型、检验方法、正常值范围和单位;
第一计算单元,用于将所述待处理字段值分别与所述LOINC中六个规范字段的标准值进行相似度计算,得到相似度六元组;
第一获得单元,用于将所述相似度六元组输入预先构建的检验项目数据处理模型,获得所述检验项目对应的LOINC码;所述LOINC码与检验项目一一对应;
其中,所述第一确定单元包括:
第一确定子单元,用于确定检验项目的待处理数据的字段与LOINC中六个规范字段之间的对应关系;
第二确定子单元,用于根据所述对应关系,确定LOINC中六个规范字段分别对应的待处理字段值,其中,所述第二确定子单元,具体用于:根据所述检验名称,确定LOINC中规范字段成分对应的待处理字段值;根据所述采样类型,确定LOINC中规范字段体系对应的待处理字段值;根据所述检验方法,确定LOINC中规范字段方法对应的待处理字段值;根据所述检验名称,确定LOINC中规范字段时间对应的待处理字段值;根据所述正常值范围,确定LOINC中规范字段标尺对应的待处理字段值;根据所述单位,确定LOINC中规范字段属性对应的待处理字段值。
5.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行权利要求1-3任一项所述的检验项目的处理方法。
6.一种检验项目的处理设备,其特征在于,包括:存储器,处理器,及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现如权利要求1-3任一项所述的检验项目的处理方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010565077.9A CN111737533B (zh) | 2020-06-19 | 2020-06-19 | 一种检验项目的处理方法、装置、存储介质及设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010565077.9A CN111737533B (zh) | 2020-06-19 | 2020-06-19 | 一种检验项目的处理方法、装置、存储介质及设备 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111737533A CN111737533A (zh) | 2020-10-02 |
CN111737533B true CN111737533B (zh) | 2024-02-09 |
Family
ID=72650381
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010565077.9A Active CN111737533B (zh) | 2020-06-19 | 2020-06-19 | 一种检验项目的处理方法、装置、存储介质及设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111737533B (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530334A (zh) * | 2013-09-29 | 2014-01-22 | 方正国际软件有限公司 | 基于比较模板的数据匹配系统和方法 |
CN108091372A (zh) * | 2016-11-21 | 2018-05-29 | 医渡云(北京)技术有限公司 | 医疗字段映射校验方法及装置 |
CN108629046A (zh) * | 2018-05-14 | 2018-10-09 | 平安科技(深圳)有限公司 | 一种字段匹配方法及终端设备 |
CN109408820A (zh) * | 2018-10-17 | 2019-03-01 | 长沙瀚云信息科技有限公司 | 一种医学术语映射系统和方法、设备及存储介质 |
CN109933612A (zh) * | 2019-03-13 | 2019-06-25 | 泰康保险集团股份有限公司 | 医疗数据匹配方法、装置、存储介质及电子设备 |
CN110335647A (zh) * | 2019-06-21 | 2019-10-15 | 上海市精神卫生中心(上海市心理咨询培训中心) | 一种临床数据标准化系统及标准化数据采集方法 |
CN111063445A (zh) * | 2019-12-09 | 2020-04-24 | 天津开心生活科技有限公司 | 基于医疗数据的特征提取方法及装置、设备和介质 |
CN111104400A (zh) * | 2019-12-24 | 2020-05-05 | 天津新开心生活科技有限公司 | 数据归一方法及装置、电子设备、存储介质 |
CN111125311A (zh) * | 2019-12-24 | 2020-05-08 | 医渡云(北京)技术有限公司 | 检验信息归一处理的方法、装置、存储介质及电子设备 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20020198739A1 (en) * | 2001-01-05 | 2002-12-26 | Lau Lee Min | Matching and mapping clinical data to a standard |
-
2020
- 2020-06-19 CN CN202010565077.9A patent/CN111737533B/zh active Active
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103530334A (zh) * | 2013-09-29 | 2014-01-22 | 方正国际软件有限公司 | 基于比较模板的数据匹配系统和方法 |
CN108091372A (zh) * | 2016-11-21 | 2018-05-29 | 医渡云(北京)技术有限公司 | 医疗字段映射校验方法及装置 |
CN108629046A (zh) * | 2018-05-14 | 2018-10-09 | 平安科技(深圳)有限公司 | 一种字段匹配方法及终端设备 |
CN109408820A (zh) * | 2018-10-17 | 2019-03-01 | 长沙瀚云信息科技有限公司 | 一种医学术语映射系统和方法、设备及存储介质 |
CN109933612A (zh) * | 2019-03-13 | 2019-06-25 | 泰康保险集团股份有限公司 | 医疗数据匹配方法、装置、存储介质及电子设备 |
CN110335647A (zh) * | 2019-06-21 | 2019-10-15 | 上海市精神卫生中心(上海市心理咨询培训中心) | 一种临床数据标准化系统及标准化数据采集方法 |
CN111063445A (zh) * | 2019-12-09 | 2020-04-24 | 天津开心生活科技有限公司 | 基于医疗数据的特征提取方法及装置、设备和介质 |
CN111104400A (zh) * | 2019-12-24 | 2020-05-05 | 天津新开心生活科技有限公司 | 数据归一方法及装置、电子设备、存储介质 |
CN111125311A (zh) * | 2019-12-24 | 2020-05-08 | 医渡云(北京)技术有限公司 | 检验信息归一处理的方法、装置、存储介质及电子设备 |
Non-Patent Citations (2)
Title |
---|
Proposed Algorithm with Standard Terminologies (SNOMED and CPT) for Automated Generation of Medical Bills for Laboratory Tests;Kim, SY 等;《Healthcare Informatics Research》;第16卷(第3期);第185-190页 * |
本地核医学实验室检验项目与LOINC术语的对照;张林;杨星;洪军;李丽琴;;医学信息(第01期);第11-14页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111737533A (zh) | 2020-10-02 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111767410A (zh) | 临床医疗知识图谱的构建方法、装置、设备及存储介质 | |
CN112541056B (zh) | 医学术语标准化方法、装置、电子设备及存储介质 | |
CN112562807B (zh) | 医疗数据分析方法、装置、设备、存储介质和程序产品 | |
CN113345577B (zh) | 诊疗辅助信息的生成方法、模型训练方法、装置、设备以及存储介质 | |
JP2013541754A (ja) | データ・セットを取り扱うための方法及び構成、データ処理プログラム及びコンピュータ・プログラム製品 | |
US9754083B2 (en) | Automatic creation of clinical study reports | |
CN112541066B (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
CN112216402A (zh) | 基于人工智能的疫情预测方法、装置、计算机设备及介质 | |
CN113345545B (zh) | 临床数据的稽查方法、装置、电子设备及可读存储介质 | |
CN111667891A (zh) | 应用于专病临床试验的队列识别方法及装置 | |
CN112397159A (zh) | 临床试验报告自动录入方法及装置、电子设备、存储介质 | |
CN111524570B (zh) | 一种基于机器学习的超声随访患者筛选方法 | |
CN116501723A (zh) | 数据质量检查方法、装置、设备及存储介质 | |
CN113808758B (zh) | 一种检验数据标准化的方法、装置、电子设备和存储介质 | |
CN113435200A (zh) | 实体识别模型训练、电子病历处理方法、系统及设备 | |
CN111737533B (zh) | 一种检验项目的处理方法、装置、存储介质及设备 | |
Nesca et al. | A scoping review of preprocessing methods for unstructured text data to assess data quality | |
CN117352169A (zh) | 基于神经网络模型的蛇伤康复评价方法、装置及电子设备 | |
US9767192B1 (en) | Automatic categorization of samples | |
Smischney et al. | Retrospective derivation and validation of a search algorithm to identify emergent endotracheal intubations in the intensive care unit | |
CN113962197A (zh) | 医疗化验单标准化方法、装置、电子设备及存储介质 | |
CN113077857A (zh) | 一种医疗数据的关联方法及装置 | |
JP6750440B2 (ja) | 検査結果変換プログラム、検査結果変換装置および検査結果変換方法 | |
Singh et al. | Automated mapping of fault logs to SRS requirements using key-phrase extraction | |
Zhang et al. | Clinical utility of the automatic phenotype annotation in unstructured clinical notes: ICU use cases |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |