CN115017868A - 一种临床诊断数据标准化方法和装置 - Google Patents
一种临床诊断数据标准化方法和装置 Download PDFInfo
- Publication number
- CN115017868A CN115017868A CN202210596655.4A CN202210596655A CN115017868A CN 115017868 A CN115017868 A CN 115017868A CN 202210596655 A CN202210596655 A CN 202210596655A CN 115017868 A CN115017868 A CN 115017868A
- Authority
- CN
- China
- Prior art keywords
- data
- diagnosis
- matching
- diagnostic
- code
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Artificial Intelligence (AREA)
- Biomedical Technology (AREA)
- Computational Linguistics (AREA)
- Public Health (AREA)
- Data Mining & Analysis (AREA)
- Pathology (AREA)
- Databases & Information Systems (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明涉及一种临床诊断数据标准化方法和装置。所述方法包括:接收临床诊断数据并进行数据校验和数据限制;对所述数据校验和限制后的数据进行数据预处理;将标准化疾病分类代码及名称创建为Trie多叉树;将所述数据预处理后的数据与所述Trie多叉树进行数据匹配,得到每条临床诊断数据的匹配等级;根据所述匹配等级对所述临床诊断数据进行分类;根据所述分类的结果对分类后的临床诊断数据进行标准化输出。本申请使用基于完整诊断编码的完全匹配和基于不完整诊断编码的部分匹配再使用基于词语相似度的匹配,相对于人工匹配诊断数据提高了效率,相对于单纯依靠诊断编码的匹配提高了匹配的完整性。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种临床诊断数据标准化方法和装置。
背景技术
如今健康医疗大数据的应用发展,将带来医疗模式的深刻变革,对疾病的预防、诊断、 治疗及居民健康管理产生深刻影响。大数据最大的价值不是数据本身,而是数据通过分析所 创造的价值,然而医疗大数据不规范严重影响数据价值的发挥。
临床诊断是医师给患者检查疾病,并对患者疾病的病因、发病机制做出的分类鉴别,是 制订治疗方案的依据。患者的诊断信息通过诊断名称和诊断编码进行记录,由于各医院的信 息系统不同,以及医生个体习惯,会导致同一个疾病不同医院或不同医生记录的诊断名称存 在差异。因此,对于一个区域医疗大数据库,数据源端诊断信息往往缺乏统一规范,甚至还 存在信息不完整和缺失等情况,这给数据价值的挖掘带来很大困扰。数据治理已经成为所有 医疗大数据平台的一项耗时耗力且必须要做的繁重工作。为了加快标准化进度,衍生了一些 辅助标准化映射工具,但都离不开人工干预,同时由于人工的参与,主观意识以及认知力的 差异,使得标准化质量和效率难以提升。
因此,对诊断名称按照特定的编码进行标准化有利于更规范的记录患者的诊断信息,从 而更有利于使用患者的诊断信息数据进行科研等活动。
发明内容
本本公开的实施例提供了一种临床诊断数据标准化方法和装置,采用一种编码匹配与 NLP结合的办法,准确快速的标准化患者诊断信息。先通过Trie多叉树分情况处理,将诊断 信息分为完全匹配、部分不匹配、缺失三个大类,在对应的类型下进行相似度匹配从而将诊 断信息标准化。
根据本公开实施例的一个方面,提供了一种临床诊断数据标准化方法,包括:
接收临床诊断数据并进行数据校验和数据限制;
对所述数据校验和限制后的数据进行数据预处理;
将标准化疾病分类代码及名称创建为Trie多叉树;
将所述数据预处理后的数据与所述Trie多叉树进行数据匹配,得到每条临床诊断数据的 匹配等级;
根据所述匹配等级对所述临床诊断数据进行分类;
根据所述分类的结果对分类后的临床诊断数据进行标准化输出。
根据本公开实施例的另一个方面,还提供了一种存储介质,存储介质包括存储的程序, 其中,在程序运行时由处理器执行以上任意一项所述的方法。
根据本公开实施例的另一个方面,还提供了一种临床诊断数据标准化装置,包括:
校验限制模块,用于接收临床诊断数据并进行数据校验和数据限制;
预处理模块,用于对所述数据校验和限制后的数据进行数据预处理;
多叉树模块,用于将标准化疾病分类代码及名称创建为Trie多叉树;
数据匹配模块,用于将所述数据预处理后的数据与所述Trie多叉树进行数据匹配,得到 每条临床诊断数据的匹配等级;
分类模块,用于根据所述匹配等级对所述临床诊断数据进行分类;
输出模块,用于根据所述分类的结果对分类后的临床诊断数据进行标准化输出。
根据本公开实施例的另一个方面,还提供了一种临床诊断数据标准化装置,包括:
第一处理器;以及
第一存储器,与所述第一处理器连接,用于为所述第一处理器提供处理以下处理步骤的 指令:
接收临床诊断数据并进行数据校验和数据限制;
对所述数据校验和限制后的数据进行数据预处理;
将标准化疾病分类代码及名称创建为Trie多叉树;
将所述数据预处理后的数据与所述Trie多叉树进行数据匹配,得到每条临床诊断数据的 匹配等级;
根据所述匹配等级对所述临床诊断数据进行分类;
根据所述分类的结果对分类后的临床诊断数据进行标准化输出。
在本公开实施例中,分类别下的相似度匹配提升了词语相似度算法的准确度。这种处理 方式极大的提升了诊断信息标准化速度,使人工干预的范围缩小到不足1%。使用基于完整诊 断编码的完全匹配和基于不完整诊断编码的部分匹配再使用基于词语相似度的匹配,相对于 人工匹配诊断数据提高了效率,相对于单纯依靠诊断编码的匹配提高了匹配的完整性。
附图说明
此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示 意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:
图1是用于实现根据本公开实施例1所述的方法的计算设备的硬件结构框图;
图2是根据本公开实施例1所述的临床诊断数据标准化系统的示意图;
图3是根据本公开实施例1的第一个方面所述的临床诊断数据标准化方法的流程示意图;
图4是根据本公开实施例1中标准化诊断疾病分类多叉树示意图;
图5是根据本公开实施例1的一条数据的处理流程举例示意图;
图6是根据本公开实施例3的第一个方面所述的临床诊断数据标准化装置的示意图;
图7是根据本公开实施例3的第二个方面所述的临床诊断数据标准化装置的示意图。
具体实施方式
为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的 附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是 本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人 员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等 是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据 在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那 些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不 排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清 楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或 设备固有的其它步骤或单元。
实施例1
根据本实施例,提供了一种临床诊断数据标准化方法的方法实施例,需要说明的是,在 附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽 然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或 描述的步骤。
本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设 备中执行。图1示出了一种用于实现临床诊断数据标准化方法的计算设备的硬件结构框图。 如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器MCU 或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器、用于通信功能的传输装置 以及输入/输出接口。其中存储器、传输装置以及输入/输出接口通过总线与处理器连接。除此 以外,还可以包括:与输入/输出接口连接的显示器、键盘以及光标控制设备。本领域普通技 术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如, 计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。
应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本申请中通常可以被 称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任 意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中 的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理 器控制(例如与接口连接的可变电阻终端路径的选择)。
存储器可用于存储应用软件的软件程序以及模块,如本公开实施例中的临床诊断数据标 准化方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模 块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的临床诊断数据标准化方 法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装 置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理 器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括 但不限于互联网、企业内部网、局域网、移动通信网及其组合。
传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的 通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(Network Interface Controller,NIC),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例 中,传输装置可以为射频(Radio Frequency,RF)模块,其用于通过无线方式与互联网进行 通讯。
显示器可以例如触摸屏式的液晶显示器(LCD),该液晶显示器可使得用户能够与计算设 备的用户界面进行交互。
此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备可以包括硬件元件 (包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件 元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在 于上述计算设备中的部件的类型。
图2是根据本实施例所述的临床诊断数据标准化系统的示意图。参照图2所示,该系统 包括:前端便携电子终端100(例如笔记本电脑)、一种临床诊断数据标准化方法的计算设备 200、云服务器300。需要说明的是,系统中的一种临床诊断数据标准化方法的计算设备200 均可适用上面所述的硬件结构。
在上述运行环境下,根据本实施例的第一个方面,提供了一种临床诊断数据标准化方法, 该方法由图2中所示的临床诊断数据标准化方法的计算设备200实现。图3示出了该方法的 流程示意图,参考图3所示,该方法包括:
S1:数据接入
对进入“诊断名称标准化”流程的外部数据进行校验和限制。数据校验主要对数据非法 性进行判断,如果是非法数据抛出异常提示;数据限制是对进入“诊断名称标准化”流程的 数据元个数以及内容进行限定,比如诊断编码、诊断名称必须其中一个有值或者全部有值等。 允许接入“诊断名称标准化”流程的数据元信息包含:诊断编码、诊断名称、诊断类型。
S2:数据预处理
对接入的数据进行数据净化,比如去掉数据两端空格,清除未被允许的特殊字符(★☆ ◆◇▲△▼▽●○〇□■☉⊙◎︻︼︽︾〒↑↓¤▓◣◥◢◤↑↓→←↘↙⌒∮※ㄨ╬▂▃ ▄▅▆▇█等)以及一些自定义预处理工作。
S3:Trie多叉树
将标准化疾病分类代码及名称创建成Trie多叉树,利用字符串的公共前缀来减少无谓的 字符串比较以达到高效匹配查询的目的。标准化诊断疾病分类多叉树示例见附图4。
S4:数据匹配
在数据匹配过程中预处理数据在标准化数据生成的Trie多叉树中进行精确匹配、前缀匹 配以及名称匹配。最后输出信息包含:“诊断类型”、“诊断编码”、“诊断名称”、“标准化诊断 编码”、“标准化诊断名称”、“匹配等级”。匹配程度分为5个等级:
等级1:诊断编码6位码、附加码和诊断名称完全匹配;
等级2:诊断编码6位码、附加码精确匹配;
等级3:诊断编码6位码精确匹配;
等级4:诊断编码前3位或4位码匹配;
等级5:诊断编码缺失或者全不匹配。
S5:数据分类
根据数据匹配结果中匹配等级对数据进行分类,具体分类如下:
A类数据:A类数据定义为正常数据,A类数据可直接标准化输出,对应的数据匹配等 级有“等级1”、“等级2”、“等级3”;
B类数据:B类数据定义为一种异常数据,属于未能匹配到标准化数据。需要将预处理 后的“诊断类型”、“诊断编码”、“诊断名称”继续传递给后续NLP语言处理功能智能匹配;
C类数据:C类数据定义为一种异常数据,属于未能匹配到标准化数据。需要将预处理 后的“诊断类型”、“诊断编码”、“诊断名称”继续传递给后续NLP语言处理功能智能匹配,并将匹配结果进行展示,提供给工作人员审核。
S6:NLP处理
NLP处理是基于词语相似度的匹配,具体实现是对待匹配的诊断名称分别计算其和标准 诊断数据中诊断名称的相似度,取相似度最高的一项作为匹配到的标准诊断名称。
相似度的计算方法可以是Levenshtein算法,原理是两个字符串之间的编辑距离,由一个 转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符, 插入一个字符,删除一个字符,编辑距离的数学公式为:
对于连个字符串a,b,其长度分别为i,j;在最坏的情况下,即连个字符串完全不一样,那 么编辑距离为max(i,j),也就是字符串长度i,j中的最大值;因此把编辑距离转换为一个标准 的度量方式,基于编辑距离的相似度计算公式为:
除此之外,相似度的计算方法也可以是基于词向量的余弦相似度,基于同义词词林的相 似度等计算两个字符串的方法。
S7:异常数据人工干预
通过以上处理,人工干预的范围已经非常小了,不足1%,在这种情况下,通过人工干预 通过结果审核等方式对NLP算法进行纠错,可以持续提高NLP的学习能力,降低误差。步 骤S7可以使用,也可以不使用,直接进入步骤S8。
S8:标准化输出
将输入数据通过以上规则匹配的结果输出,包含“诊断类型”、“诊断编码”、“诊断名称”、 “标准诊断编码”、“标准诊断名称”、“匹配等级”。
实施例2
接下来通过一个实施例对本发明的技术方案进行详细阐述:
(1)数据预处理
通过数据传输端获得诊断数据,去除其中包含的无意义的字符,获得的诊断数据如表1 所示。
表1诊断数据示例
(2)对预处理数据进行匹配后分类结果
预处理数据在标准化数据生成的Trie多叉树中进行精确匹配、前缀匹配以及名称匹配。 数据匹配结果如表2所示。
表2数据匹配后分类结果
(3)对A类数据处理进行处理,获得标准诊断名称
结果如下:
表3六位码完整的完全匹配示例
(4)对B类数据处理进行处理,获得标准诊断名称和编码
对于诊断编码不完整(3位码或4位码完整)的诊断数据,首先使用3位码或4位码与标准 诊断数据进行匹配,这个过程只能会形成一个笛卡尔集,之后就笛卡尔集中的诊断名称进行 相似度计算匹配,如表4所示,与诊断名称“慢性阻塞性肺病伴急性加重”相似度最高的为 “慢性阻塞性肺病伴有急性加重”,相似度为92.31%,因此匹配到的标准诊断数据为“诊断 名称:慢性阻塞性肺病伴有急性加重诊断编码:J44.100”。
这个步骤和直接使用带匹配的诊断名称和标准诊断名称进行相似度匹配提高了准确率和 效率,因为相对于诊断编码匹配的复杂度而言,通过优化数据结构,诊断编码匹配的复杂度 可以为常数,但是一个待匹配诊断名称和所有标准诊断名称计算相似度的复杂度是庞大的,可 以达到O(n2)。
表4三或四位码完整的部分匹配和相似度匹配示例
(5)对C类数据处理进行处理,获得标准诊断名称和编码
对于诊断编码缺失的诊断就,使用待匹配诊断名称和标准诊断名称进行相似度计算,取 相似度最高的作为匹配的标准诊断名称,匹配结果如表5所示,与诊断名称“慢性阻塞性肺 病伴急性下呼吸道感染”相似度最高的标准诊断名称为“慢性阻塞性肺病伴有急性下呼吸道 感染”,相似度为94.12%。
表5诊断编码缺失的相似度匹配示例
(6)人工审核
上面的匹配步骤完成以后,需要人工审核的工作量已经很少了,主要是对没有匹配上任 何标准诊断信息的诊断数据进行审核,如“诊断名称:新生儿肺炎诊断编码:P23.901”没有 匹配上任何标准诊断信息,查阅相关诊断编码发现,《GB/T14396—2016疾病分类与代码》 不存在诊断编码为P23.901的诊断信息,但数据中存在“诊断名称:新生儿肺炎诊断编码: P23.900”,而标准诊断信息中,P23.900对应的诊断信息为“先天性肺炎”,因此可将此条记 录匹配为“诊断名称:先天性肺炎诊断编码:P23.900”。
除此之外,还可以通过扩充标准诊断编码数据来减少或避免人工审核的情况。
如图5所示,为使用本公开的方法进行另一条数据处理的流程举例示意图。由图5可以 看出,这条数据直接跳过了人工审核和NLP处理的过程,直接进行了标准化输出。
需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动 作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据 本申请,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说 明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本申请所必须的。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方 法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前 者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡 献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如 ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机, 服务器,或者网络设备等)执行本申请各个实施例所述的方法。
实施例3
图6示出了根据本实施例的第一个方面所述的临床诊断数据标准化装置500,该装置500 与根据实施例1的第一个方面所述的方法相对应。参考图6所示,该装置500包括:
校验限制模块510,用于接收临床诊断数据并进行数据校验和数据限制;
预处理模块520,用于对所述数据校验和限制后的数据进行数据预处理;
多叉树模块530,用于将标准化疾病分类代码及名称创建为Trie多叉树;
数据匹配模块540,用于将所述数据预处理后的数据与所述Trie多叉树进行数据匹配, 得到每条临床诊断数据的匹配等级;
分类模块550,用于根据所述匹配等级对所述临床诊断数据进行分类;
输出模块560,用于根据所述分类的结果对分类后的临床诊断数据进行标准化输出。
根据本公开实施例的另一个方面,如图7所示,还提供了一种临床诊断数据标准化装置 700,包括:
第一处理器710;以及
第一存储器720,与所述第一处理器连接,用于为所述第一处理器提供处理以下处理步 骤的指令:
接收临床诊断数据并进行数据校验和数据限制;
对所述数据校验和限制后的数据进行数据预处理;
将标准化疾病分类代码及名称创建为Trie多叉树;
将所述数据预处理后的数据与所述Trie多叉树进行数据匹配,得到每条临床诊断数据的 匹配等级;
根据所述匹配等级对所述临床诊断数据进行分类;
根据所述分类的结果对分类后的临床诊断数据进行标准化输出。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的 部分,可以参见其他实施例的相关描述。
在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式 实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种 逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以 集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的 耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以 是电性或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部 件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元 上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个 单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以 采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以 存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对 现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该 计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人 计算机、服务器或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前 述的存储介质包括:U盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM, Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述仅是本申请的优选实施方式,应当指出,对于本技术领域的普通技术人员来说, 在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申 请的保护范围。
Claims (20)
1.一种临床诊断数据标准化方法,其特征在于,包括:
接收临床诊断数据并进行数据校验和数据限制;
对所述数据校验和限制后的数据进行数据预处理;
将标准化疾病分类代码及名称创建为Trie多叉树;
将所述数据预处理后的数据与所述Trie多叉树进行数据匹配,得到每条临床诊断数据的匹配等级;
根据所述匹配等级对所述临床诊断数据进行分类;
根据所述分类的结果对分类后的临床诊断数据进行标准化输出。
2.根据权利要求1所述的方法,其特征在于,
所述数据校验对数据非法性进行判断,如果是非法数据则进行异常提示;数据限制对所述临床诊断数据的数据元个数以及信息进行限定,所述数据元的信息包含:诊断编码、诊断名称、和诊断类型。
3.根据权利要求2所述的方法,其特征在于,
所述数据预处理包括:去掉数据两端空格,以及清除预设不允许字符。
4.根据权利要求2或3所述的方法,其特征在于,
所述数据匹配包括:精确匹配、前缀匹配以及名称匹配,所述数据匹配之后输出的信息包含:
诊断类型、诊断编码、诊断名称、标准化诊断编码、标准化诊断名称、匹配等级。
5.根据权利要求4所述的方法,其特征在于,
所述匹配等级包括:
等级1:诊断编码6位码、附加码和诊断名称完全匹配;
等级2:诊断编码6位码、附加码精确匹配;
等级3:诊断编码6位码精确匹配;
等级4:诊断编码前3位或4位码匹配;
等级5:诊断编码缺失或者全不匹配。
6.根据权利要求5所述的方法,其特征在于,
所述分类的结果如下:
第一类数据为正常数据,可直接标准化输出,对应的数据匹配等级为等级1、等级2、和等级3;
第二类数据为未能匹配到标准化数据的异常数据。
7.根据权利要求6所述的方法,其特征在于,
所述根据所述分类的结果对分类后的临床诊断数据进行标准化输出,包括:
对于第一类数据,直接标准化输出诊断类型、诊断编码、诊断名称、标准诊断编码、标准诊断名称、和匹配等级;
对于第二类数据,进一步执行NLP语言处理进行智能匹配,然后输出诊断类型、诊断编码、诊断名称、标准诊断编码、标准诊断名称、和匹配等级。
8.根据权利要求7所述的方法,其特征在于,
所述NLP语言处理包括:计算待匹配的诊断名称和标准诊断数据中诊断名称的相似度,取相似度最高的一项作为匹配到的标准诊断名称。
9.根据权利要求8所述的方法,其特征在于,
所述相似度的计算方法为以下中的一种:Levenshtein算法、基于词向量的余弦相似度、基于同义词词林的相似度。
10.一种存储介质,其特征在于,所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行权利要求1至9中任意一项所述的方法。
11.一种临床诊断数据标准化装置,其特征在于,包括:
校验限制模块,用于接收临床诊断数据并进行数据校验和数据限制;
预处理模块,用于对所述数据校验和限制后的数据进行数据预处理;
多叉树模块,用于将标准化疾病分类代码及名称创建为Trie多叉树;
数据匹配模块,用于将所述数据预处理后的数据与所述Trie多叉树进行数据匹配,得到每条临床诊断数据的匹配等级;
分类模块,用于根据所述匹配等级对所述临床诊断数据进行分类;
输出模块,用于根据所述分类的结果对分类后的临床诊断数据进行标准化输出。
12.根据权利要求11所述的装置,其特征在于,
所述数据校验对数据非法性进行判断,如果是非法数据则进行异常提示;数据限制对所述临床诊断数据的数据元个数以及信息进行限定,所述数据元的信息包含:诊断编码、诊断名称、和诊断类型。
13.根据权利要求12所述的装置,其特征在于,
所述数据预处理包括:去掉数据两端空格,以及清除预设不允许字符。
14.根据权利要求12或13所述的装置,其特征在于,
所述数据匹配包括:精确匹配、前缀匹配以及名称匹配,所述数据匹配之后输出的信息包含:诊断类型、诊断编码、诊断名称、标准化诊断编码、标准化诊断名称、匹配等级。
15.根据权利要求14所述的装置,其特征在于,
所述匹配等级包括:
等级1:诊断编码6位码、附加码和诊断名称完全匹配;
等级2:诊断编码6位码、附加码精确匹配;
等级3:诊断编码6位码精确匹配;
等级4:诊断编码前3位或4位码匹配;
等级5:诊断编码缺失或者全不匹配。
16.根据权利要求15所述的装置,其特征在于,
所述分类的结果如下:
第一类数据为正常数据,可直接标准化输出,对应的数据匹配等级为等级1、等级2、和等级3;
第二类数据为未能匹配到标准化数据的异常数据。
17.根据权利要求16所述的装置,其特征在于,
所述根据所述分类的结果对分类后的临床诊断数据进行标准化输出,包括:
对于第一类数据,直接标准化输出诊断类型、诊断编码、诊断名称、标准诊断编码、标准诊断名称、和匹配等级;
对于第二类数据,进一步执行NLP语言处理进行智能匹配,然后输出诊断类型、诊断编码、诊断名称、标准诊断编码、标准诊断名称、和匹配等级。
18.根据权利要求17所述的装置,其特征在于,
所述NLP语言处理包括:计算待匹配的诊断名称和标准诊断数据中诊断名称的相似度,取相似度最高的一项作为匹配到的标准诊断名称。
19.根据权利要求18所述的装置,其特征在于,
所述相似度的计算方法为以下中的一种:Levenshtein算法、基于词向量的余弦相似度、基于同义词词林的相似度。
20.一种临床诊断数据标准化装置,其特征在于,包括:
第一处理器;以及
第一存储器,与所述第一处理器连接,用于为所述第一处理器提供处理以下处理步骤的指令:
接收临床诊断数据并进行数据校验和数据限制;
对所述数据校验和限制后的数据进行数据预处理;
将标准化疾病分类代码及名称创建为Trie多叉树;
将所述数据预处理后的数据与所述Trie多叉树进行数据匹配,得到每条临床诊断数据的匹配等级;
根据所述匹配等级对所述临床诊断数据进行分类;
根据所述分类的结果对分类后的临床诊断数据进行标准化输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210596655.4A CN115017868A (zh) | 2022-05-30 | 2022-05-30 | 一种临床诊断数据标准化方法和装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210596655.4A CN115017868A (zh) | 2022-05-30 | 2022-05-30 | 一种临床诊断数据标准化方法和装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115017868A true CN115017868A (zh) | 2022-09-06 |
Family
ID=83071702
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210596655.4A Pending CN115017868A (zh) | 2022-05-30 | 2022-05-30 | 一种临床诊断数据标准化方法和装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115017868A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235077A (zh) * | 2023-11-15 | 2023-12-15 | 青岛民航凯亚系统集成有限公司 | 一种基于数据编织的机场智能化数据治理方法及系统 |
-
2022
- 2022-05-30 CN CN202210596655.4A patent/CN115017868A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117235077A (zh) * | 2023-11-15 | 2023-12-15 | 青岛民航凯亚系统集成有限公司 | 一种基于数据编织的机场智能化数据治理方法及系统 |
CN117235077B (zh) * | 2023-11-15 | 2024-03-08 | 青岛民航凯亚系统集成有限公司 | 一种基于数据编织的机场智能化数据治理方法及系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US5819291A (en) | Matching new customer records to existing customer records in a large business database using hash key | |
US20200081899A1 (en) | Automated database schema matching | |
CN112365987A (zh) | 诊断数据异常检测方法、装置、计算机设备及存储介质 | |
US20050102303A1 (en) | Computer-implemented method, system and program product for mapping a user data schema to a mining model schema | |
CN112650855A (zh) | 知识图谱工程化构建方法、装置、计算机设备和存储介质 | |
Granados et al. | Reducing the loss of information through annealing text distortion | |
CN107103048A (zh) | 药品信息匹配方法及系统 | |
WO2023029513A1 (zh) | 基于人工智能的搜索意图识别方法、装置、设备及介质 | |
CN112562807B (zh) | 医疗数据分析方法、装置、设备、存储介质和程序产品 | |
CN106484739A (zh) | 数据库的结构比较方法和装置 | |
CN111324740A (zh) | 纠纷事件的识别方法、识别装置和识别系统 | |
CN115017868A (zh) | 一种临床诊断数据标准化方法和装置 | |
CN110909168A (zh) | 知识图谱的更新方法和装置、存储介质及电子装置 | |
CN114334065B (zh) | 病历处理方法、计算机可读存储介质及计算机设备 | |
CN112115697A (zh) | 用于确定目标文本的方法、装置、服务器以及存储介质 | |
CN113658720A (zh) | 匹配诊断名称和icd编码的方法、装置、电子设备和存储介质 | |
CN111640517B (zh) | 病历编码方法、装置、存储介质及电子设备 | |
CN115185980B (zh) | 医院病案数据检索方法、装置、设备及存储介质 | |
CN109522331B (zh) | 以个人为中心的区域化多维度健康数据处理方法及介质 | |
CN116450916A (zh) | 基于定段分级的信息查询方法、装置、电子设备及介质 | |
CN115759040A (zh) | 一种电子病历解析方法、装置、设备和存储介质 | |
CN115862840A (zh) | 关节疼痛疾病的智能辅助诊断方法和装置 | |
CN112100202B (zh) | 一种产品识别及产品信息补全方法、存储介质及机器人 | |
Yang et al. | SYRIAC: The systematic review information automated collection system a data warehouse for facilitating automated biomedical text classification | |
CN114417165A (zh) | 一种心理矫治方法、装置及终端设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |