CN113641714A - 医疗数据矫正方法、装置、计算机设备及存储介质 - Google Patents
医疗数据矫正方法、装置、计算机设备及存储介质 Download PDFInfo
- Publication number
- CN113641714A CN113641714A CN202111016543.9A CN202111016543A CN113641714A CN 113641714 A CN113641714 A CN 113641714A CN 202111016543 A CN202111016543 A CN 202111016543A CN 113641714 A CN113641714 A CN 113641714A
- Authority
- CN
- China
- Prior art keywords
- disease
- name
- matching
- word
- standard
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 46
- 238000012937 correction Methods 0.000 title claims abstract description 30
- 201000010099 disease Diseases 0.000 claims abstract description 296
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 296
- 238000004140 cleaning Methods 0.000 claims abstract description 21
- 230000011218 segmentation Effects 0.000 claims description 24
- 230000006870 function Effects 0.000 claims description 8
- 230000014509 gene expression Effects 0.000 claims description 8
- 208000029078 coronary artery disease Diseases 0.000 description 13
- 238000003745 diagnosis Methods 0.000 description 9
- 206010008118 cerebral infarction Diseases 0.000 description 5
- 208000026106 cerebrovascular disease Diseases 0.000 description 5
- 230000008569 process Effects 0.000 description 5
- 230000003143 atherosclerotic effect Effects 0.000 description 4
- 238000004891 communication Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 208000019622 heart disease Diseases 0.000 description 4
- 238000012545 processing Methods 0.000 description 4
- 238000005406 washing Methods 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 208000004332 Evans syndrome Diseases 0.000 description 2
- 230000006835 compression Effects 0.000 description 2
- 238000007906 compression Methods 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 230000000877 morphologic effect Effects 0.000 description 2
- 206010002383 Angina Pectoris Diseases 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005067 remediation Methods 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/24—Querying
- G06F16/245—Query processing
- G06F16/2455—Query execution
- G06F16/24553—Query execution of query operations
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- General Health & Medical Sciences (AREA)
- Quality & Reliability (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请实施例属于大数据技术领域,应用于智慧医疗领域中,涉及一种医疗数据矫正方法、装置、计算机设备及存储介质,包括接收疾病数据,疾病数据包括疾病名称和疾病编码;对疾病名称进行清洗和合并操作,获得本地疾病名称;分别确定本地疾病名称所关联的每种疾病编码的数量,将数量最多的疾病编码作为本地疾病编码,基于本地疾病编码与对应的本地疾病名称生成匹配库;接收标准编码库和医疗数据,医疗数据包括待编码名称,基于标准编码库和/或匹配库对待编码名称进行匹配,获得目标编码,并将目标编码与所述待编码名称相关联。匹配库可存储于区块链中。本申请实现对待编码名称的准确编码,以矫正其原始的编码数据。
Description
技术领域
本申请涉及大数据技术领域,尤其涉及医疗数据矫正方法、装置、计算机设备及存储介质。
背景技术
伴随着医药卫生体制改革的深化以及医疗保险方式的不断创新,对于如何利用好疾病数据的要求日益强烈,其编码质量已经成为诊断病案信息能否得到正确和有效利用的关键性因素。实现对各个医疗机构的疾病数据的标准性编码,能够不断提高疾病分类水平。
但由于诊断病案信息存在的书写和命名不规范问题,如随意书写疾病名称和编码、疾病诊断存在错别字、诊断书写不完整、不规范、随意缩写、简写疾病名称和编码、多条疾病名称诊断合并写成一条等情形,都将直接影响到疾病名称匹配到正确的编码。且由于各地市采用的疾病分类标准也不尽相同,导致横向和纵向比较都存在困难,也增加了编码匹配标准化的难度,在需要对待矫正的疾病数据中的待编码名称进行编码,以实现对待矫正疾病数据的矫正时,难以实现准确的矫正。
发明内容
本申请实施例的目的在于提出一种医疗数据矫正方法、装置、计算机设备及存储介质,实现对待编码名称的准确编码,以矫正其原始的编码数据。
为了解决上述技术问题,本申请实施例提供一种医疗数据矫正方法,采用了如下所述的技术方案:
一种医疗数据矫正方法,包括下述步骤:
接收各医疗数据库传输的疾病数据,并将所述疾病数据存储至本地数据库中,其中,所述疾病数据包括相关联的疾病名称和疾病编码;
对所述本地数据库中的疾病名称进行清洗和合并操作,获得本地疾病名称;
分别确定所述本地疾病名称所关联的每种疾病编码的数量,将数量最多的所述疾病编码作为本地疾病编码,并基于所述本地疾病编码与对应的本地疾病名称生成匹配库;
接收标准编码库和医疗数据,其中,所述医疗数据包括待编码名称,基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配,获得目标编码,并将所述目标编码与所述待编码名称相关联,其中,所述标准编码库中包括一一对应的标准疾病编码和标准疾病名称。
进一步的,所述基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配操作,获得目标编码的步骤包括:
基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配操作,若匹配失败,则对所述待编码名称进行分词操作,获得疾病词语;
基于所述标准编码库和/或所述匹配库分别对每个所述疾病词语进行匹配操作,分别获得所述疾病词语的词语编码,并将所有词语编码作为所述目标编码。
进一步的,所述对所述待编码名称进行分词操作,获得疾病词语的步骤包括:
基于所述标准疾病名称和所述本地疾病名称生成用户词典;
接收同义词词典,基于所述用户词典和所述同义词词典对所述待编码名称进行分词操作,获得所述疾病词语。
进一步的,所述同义词词典包括标准词和同义词,所述标准词与所述同义词为一对一或一对多的关联关系,所述基于所述用户词典和所述同义词词典对所述待编码名称进行分词操作,获得所述疾病词语的步骤包括:
基于所述用户词典对所述待编码名称进行识别,将所述用户词典识别的词语作为所述疾病词语,并判断是否存在所述用户词典未识别出的字段,若存在,则将所述用户词典未识别出的字段作为待识别词语;
将所述待识别词语与所述同义词进行匹配,若匹配成功,则将所述同义词对应的标准词作为所述疾病词语。
进一步的,所述基于所述标准编码库和/或所述匹配库分别对每个所述疾病词语进行匹配操作,分别获得所述疾病词语的词语编码的步骤包括:
将所述疾病词语与所述标准疾病名称进行匹配操作,若所述疾病词语与所述标准疾病名称匹配成功,则将所述标准疾病名称对应的标准疾病编码作为所述词语编码;
若所述疾病词语与所述标准疾病名称匹配失败,则将所述疾病词语与所述本地疾病名称进行匹配操作;
若所述疾病词语与所述本地疾病名称匹配成功,则将所述本地疾病名称对应的本地疾病编码作为所述词语编码。
进一步的,所述本地数据库中的疾病名称进行清洗操作,获得本地疾病名称的步骤包括:
基于预设的正则表达式和patindex函数对所述疾病名称进行清洗操作,获得初始疾病名称;
合并相同的所述初始疾病名称,获得所述本地疾病名称。
进一步的,所述基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配,获得目标编码的步骤包括:
基于所述标准编码库和/或所述匹配库对所述待编码名称进行无间隔关键词匹配操作,获得所述目标编码。
为了解决上述技术问题,本申请实施例还提供一种医疗数据矫正装置,采用了如下所述的技术方案:
一种医疗数据矫正装置,包括:
接收模块,用于接收各医疗数据库传输的疾病数据,并将所述疾病数据存储至本地数据库中,其中,所述疾病数据包括相关联的疾病名称和疾病编码;
清洗模块,用于对所述本地数据库中的疾病名称进行清洗和合并操作,获得本地疾病名称;
生成模块,用于分别确定所述本地疾病名称所关联的每种疾病编码的数量,将数量最多的所述疾病编码作为本地疾病编码,并基于所述本地疾病编码与对应的本地疾病名称生成匹配库;
矫正模块,用于接收标准编码库和医疗数据,其中,所述医疗数据包括待编码名称,基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配,获得目标编码,并将所述目标编码与所述待编码名称相关联,其中,所述标准编码库中包括一一对应的标准疾病编码和标准疾病名称。
为了解决上述技术问题,本申请实施例还提供一种计算机设备,采用了如下所述的技术方案:
一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现上述的医疗数据矫正方法的步骤。
为了解决上述技术问题,本申请实施例还提供一种计算机可读存储介质,采用了如下所述的技术方案:
一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述的医疗数据矫正方法的步骤。
与现有技术相比,本申请实施例主要有以下有益效果:
本申请针对医疗数据的场景,通过各关联数据库的疾病名称和疾病编码,确定出本地疾病编码,并基于本地疾病编码建立匹配库,由于匹配库是基于各医疗数据库建立的,其中的本地疾病名称具有更加广泛的通用性,能够保证对待编码名称的进一步识别,以用于对待编码名称进行更加准确的编码。在接收到待编码名称时,基于标准编码库和/或匹配库联合对待编码名称进行匹配,从而获得目标编码,实现对待编码名称准确且正确的编码,以矫正待编码名称的原始编码数据。
附图说明
为了更清楚地说明本申请中的方案,下面将对本申请实施例描述中所需要使用的附图作一个简单介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本申请可以应用于其中的示例性系统架构图;
图2是根据本申请的医疗数据矫正方法的一个实施例的流程图;
图3是根据本申请的医疗数据矫正装置的一个实施例的结构示意图;
图4是根据本申请的计算机设备的一个实施例的结构示意图。
附图标记:200、计算机设备;201、存储器;202、处理器;203、网络接口;300、医疗数据矫正装置;301、接收模块;302、清洗模块;303、生成模块;304、矫正模块。
具体实施方式
除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
为了使本技术领域的人员更好地理解本申请方案,下面将结合附图,对本申请实施例中的技术方案进行清楚、完整地描述。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。
终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、MP3播放器(Moving Picture ExpertsGroup Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103上显示的页面提供支持的后台服务器。
需要说明的是,本申请实施例所提供的医疗数据矫正方法一般由服务器/终端设备执行,相应地,医疗数据矫正装置一般设置于服务器/终端设备中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的医疗数据矫正方法的一个实施例的流程图。所述的医疗数据矫正方法,包括以下步骤:
S1:接收各医疗数据库传输的疾病数据,并将所述疾病数据存储至本地数据库中,其中,所述疾病数据包括相关联的疾病名称和疾病编码。
在本实施例中,由于各医疗机构的疾病数据中存在随意书写疾病名称和编码、疾病诊断存在错别字、诊断书写不完整、不规范、随意缩写、简写疾病名称和编码的问题,不同医疗机构存在不同的疾病名称和疾病编码,比如:医保版icd-10编码:冠状动脉粥样硬化性心脏病对应的是I25.103,有的医疗机构会将编码填成I25.102或者I25.100等,有的医疗机构会将冠状动脉粥样硬化性心脏病缩写成冠心病等,有的医疗机构甚至没有填写编码等情况。收集各个医疗机构的医疗数据库中所有地市的诊断病案信息的疾病名称和疾病编码存在原始库(下称ORG库)中,便于后续统一处理。
在本实施例中,医疗数据矫正方法运行于其上的电子设备(例如图1所示的服务器/终端设备)可以通过有线连接方式或者无线连接方式接收各医疗数据库传输的疾病数据。需要指出的是,上述无线连接方式可以包括但不限于3G/4G连接、WiFi连接、蓝牙连接、WiMAX连接、Zigbee连接、UWB(ultra wideband)连接、以及其他现在已知或将来开发的无线连接方式。
S2:对所述本地数据库中的疾病名称进行清洗和合并操作,获得本地疾病名称。
在本实施例中,通过对疾病名称的清洗,去掉不合规的名称。并将重复的疾病名称进行合并,便于后续对本地疾病名称所关联的每种疾病编码数量的判断。
具体的,所述本地数据库中的疾病名称进行清洗操作,获得本地疾病名称的步骤包括:
基于预设的正则表达式和patindex函数对所述疾病名称进行清洗操作,获得初始疾病名称;
合并相同的所述初始疾病名称,获得所述本地疾病名称。
在本实施例中,由于诊断病案信息存在的书写和命名不规范,通过正则表达式和PATINDEX函数剔除不含有中文汉字且不含有英文字母的疾病名称。即获得的本地疾病名称具有中文汉字,或具有英文字母,或同时具有中文汉字和英文字母。正则表达式举例如下:
疾病名称!~'[\u2e80-\ua4cf]|[\uf900-\ufaff]|[\ufe30-\ufe4f]'。正则表达式的作用是剔除疾病名称中不含有中文汉字的数据。
patindex函数为patindex('%[A-Z]%',疾病名称)=0,patindex函数的作用是剔除疾病名称中不含有任一英文字母的数据。
需要说明的是:本申请通过在一个条件中,同时设置并运行上述正则表达式和patindex函数,实现去掉不含有中文汉字且不含有英文字母的疾病名称,进而实现对本地数据库中的疾病名称的清洗操作。
S3:分别确定所述本地疾病名称所关联的每种疾病编码的数量,将数量最多的所述疾病编码作为本地疾病编码,并基于所述本地疾病编码与对应的本地疾病名称生成匹配库。
在本实施例中,形成匹配库:本地数据库中经过初步清洗的疾病名称,查询出每一条疾病名称对应条数最多的符合ICD-10编码规则的疾病编码作为匹配的本地疾病编码。具体的:标准的医保版icd-10编码是一对一的,但是实际各省市的医保数据库(即本申请的关联数据库)中并不是,比如:本地疾病名称为“冠心病”的诊断,编码是I25.103的有1000条,I25.102有200条,A00.000有100条,但医保版icd-10编码中并没有“冠心病”的疾病名称,那就取对应条数最多的编码(大数法则)I25.103作为冠心病的本地疾病编码。本申请将生成的匹配原则,即数量最多的所述疾病编码与对应的本地疾病名称,作为具体的匹配数据生成匹配库。提高后续应用过程中的对待编码名称的匹配率。
S4:接收标准编码库和医疗数据,其中,所述医疗数据包括待编码名称,基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配,获得目标编码,并将所述目标编码与所述待编码名称相关联,其中,所述标准编码库中包括一一对应的标准疾病编码和标准疾病名称。
在本实施例中,标准编码库指医保局的ICD-10编码库。通过标准编码库和/或所述匹配库联合对待编码名称进行匹配,提高对待编码名称的成功匹配率。
具体的,所述基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配操作,获得目标编码的步骤包括:
基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配操作,若匹配失败,则对所述待编码名称进行分词操作,获得疾病词语;
基于所述标准编码库和/或所述匹配库分别对每个所述疾病词语进行匹配操作,分别获得所述疾病词语的词语编码,并将所有词语编码作为所述目标编码。
在本实施例中,若最初对待编码名称匹配失败,则进行分词,分词后再匹配一遍。由于医疗数据的特殊性,若直接先分词,则可能会对本身名称就较长的待编码名称,进行了错误的分词操作。
其中,所述对所述待编码名称进行分词操作,获得疾病词语的步骤包括:
基于所述标准疾病名称和所述本地疾病名称生成用户词典;
接收同义词词典,基于所述用户词典和所述同义词词典对所述待编码名称进行分词操作,获得所述疾病词语。
在本实施例中,针对数据库中存在多条疾病名称诊断合并写成一条的情况,引入PYTHON的JIEBA分词模块,清空自带词典,将“标准编码库(ICD-10编码库)”和“匹配库(MATCH匹配库)”中的标准疾病名称和本地疾病名称作为用户词典。同义词词典包括标准词和同义词,同义词包括意义同义词和形态同义词两种。例如:标准词为“脑梗死”,意义同义词为“脑梗”、“脑梗塞”等。形态同义词为“脑埂死”等。又如:标准词为“埃文斯综合征”,其形态同义词为“埃文斯综合症”。本申请引入同义词词典对疾病名称音同、形似等情况进行容错处理,不断提高鉴定诊断的正确匹配率。在分词过程中采用结巴(jieba)分词工具,将用户词典替换结巴分词工具自带的词典。
进一步的,所述同义词词典包括标准词和同义词,所述标准词与所述同义词为一对一或一对多的关联关系,所述基于所述用户词典和所述同义词词典对所述待编码名称进行分词操作,获得所述疾病词语的步骤包括:
基于所述用户词典对所述待编码名称进行识别,将所述用户词典识别的词语作为所述疾病词语,并判断是否存在所述用户词典未识别出的字段,若存在,则将所述用户词典未识别出的字段作为待识别词语;
将所述待识别词语与所述同义词进行匹配,若匹配成功,则将所述同义词对应的标准词作为所述疾病词语。
在本实施例中,若同义词与待识别词语匹配失败,则将待识别词语直接作为疾病词语。基于用户词典和同义词词典对待编码名称进行识别。比如:待编码名称为“冠心病、脑梗”,主要诊断编码填的“无”,此时就需要python jieba分词处理,基于用户词典和同义词词典对待编码名称进行分词,并将所述同义词对应的标准词作为所述疾病词语后,获得的疾病词语为:“冠状动脉粥样硬化性心脏病”和“脑梗死”,其中,“冠状动脉粥样硬化性心脏病”为“冠心病”的标准词,对应的通过后续的再匹配,则这两个词也将分为编码“I25.103”和“I63.900”。同时,可将这两个词输出至用户,以便于用户通过这两个词替换待编码名称。
此外,所述基于所述标准编码库和/或所述匹配库分别对每个所述疾病词语进行匹配操作,分别获得所述疾病词语的词语编码的步骤包括:
将所述疾病词语与所述标准疾病名称进行匹配操作,若所述疾病词语与所述标准疾病名称匹配成功,则将所述标准疾病名称对应的标准疾病编码作为所述词语编码;
若所述疾病词语与所述标准疾病名称匹配失败,则将所述疾病词语与所述本地疾病名称进行匹配操作;
若所述疾病词语与所述本地疾病名称匹配成功,则将所述本地疾病名称对应的本地疾病编码作为所述词语编码。
在本实施例中,若所述疾病词语与所述本地疾病名称匹配失败,则向前端页面发送请求信号,所述请求信号携带所述疾病词语;接收前端页面发送的响应信号,将所述响应信号携带的编码作为所述疾病词语的词语编码,其中,所述响应信号与所述请求信号相对应。将待编码名称用无间隔关键词匹配的方式首先在ICD-10编码库(即标准编码库)中进行匹配,匹配不成功的再进入匹配库,如果均无法匹配上编码,则自动将其划归至手工匹配编码类别中,将医疗数据发送至医学专家,由医学专家根据该医疗数据中的疾病主诉及医学鉴定资料对该待编码名称进行人工编码匹配,匹配完成后经相关人员审核通过,即可反向填入匹配库中对其进行扩充。
此外,所述基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配,获得目标编码的步骤包括:
基于所述标准编码库和/或所述匹配库对所述待编码名称进行无间隔关键词匹配操作,获得所述目标编码。
在本实施例中,无间隔关键词匹配指待编码名称中包含的部分与标准疾病名称字面完全一致时(即顺序不变,无间隔)匹配。例如,标准疾病名称是冠心病这个词,那么待编码名称为冠心病心绞痛,冠心病疾病,严重冠心病等等,都符合无间隔关键词匹配条件。则能够匹配到冠心病。如果待编码名称为冠状心病,冠心疾病等词,则不符合无间隔关键词匹配条件,则匹配失败。相比于广泛匹配,本申请的无间隔关键词匹配具有更强的针对性。
本申请针对医疗数据的场景,通过各关联数据库的疾病名称和疾病编码,确定出本地疾病编码,并基于本地疾病编码建立匹配库,由于匹配库是基于各医疗数据库建立的,其中的本地疾病名称具有更加广泛的通用性,能够保证对待编码名称的进一步识别,以用于对待编码名称进行更加准确的编码。在接收到待编码名称时,基于标准编码库和/或匹配库联合对待编码名称进行匹配,从而获得目标编码,实现对待编码名称准确且正确的编码,以矫正待编码名称的原始编码数据。
需要强调的是,为进一步保证上述匹配库的私密和安全性,上述匹配库还可以存储于一区块链的节点中。
本申请所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
本申请可应用于智慧医疗领域中,从而推动智慧城市的建设。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机可读指令来指令相关的硬件来完成,该计算机可读指令可存储于一计算机可读取存储介质中,该计算机可读指令在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
进一步参考图3,作为对上述图2所示方法的实现,本申请提供了一种医疗数据矫正装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图3所示,本实施例所述的医疗数据矫正装置300包括:接收模块301、清洗模块302、生成模块303以及矫正模块303。其中:接收模块301,用于接收各医疗数据库传输的疾病数据,并将所述疾病数据存储至本地数据库中,其中,所述疾病数据包括相关联的疾病名称和疾病编码;清洗模块302,用于对所述本地数据库中的疾病名称进行清洗和合并操作,获得本地疾病名称;生成模块303,用于分别确定所述本地疾病名称所关联的每种疾病编码的数量,将数量最多的所述疾病编码作为本地疾病编码,并基于所述本地疾病编码与对应的本地疾病名称生成匹配库;矫正模块304,用于接收标准编码库和医疗数据,其中,所述医疗数据包括待编码名称,基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配,获得目标编码,并将所述目标编码与所述待编码名称相关联,其中,所述标准编码库中包括一一对应的标准疾病编码和标准疾病名称。
在本实施例中,本申请针对医疗数据的场景,通过各关联数据库的疾病名称和疾病编码,确定出本地疾病编码,并基于本地疾病编码建立匹配库,由于匹配库是基于各医疗数据库建立的,其中的本地疾病名称具有更加广泛的通用性,能够保证对待编码名称的进一步识别,以用于对待编码名称进行更加准确的编码。在接收到待编码名称时,基于标准编码库和/或匹配库联合对待编码名称进行匹配,从而获得目标编码,实现对待编码名称准确且正确的编码,以矫正待编码名称的原始编码数据。
清洗模块302包括清洗子模块和合并子模块。其中,清洗子模块用于基于预设的正则表达式和patindex函数对所述疾病名称进行清洗操作,获得初始疾病名称;合并子模块用于合并相同的所述初始疾病名称,获得所述本地疾病名称。
矫正模块304包括分词子模块和匹配子模块。其中,分词子模块用于基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配操作,若匹配失败,则对所述待编码名称进行分词操作,获得疾病词语;匹配子模块用于基于所述标准编码库和/或所述匹配库分别对每个所述疾病词语进行匹配操作,分别获得所述疾病词语的词语编码,并将所有词语编码作为所述目标编码。
分词子模块包括生成单元和分词单元,其中,生成单元用于基于所述标准疾病名称和所述本地疾病名称生成用户词典;分词单元用于接收同义词词典,基于所述用户词典和所述同义词词典对所述待编码名称进行分词操作,获得所述疾病词语。
所述同义词词典包括标准词和同义词,所述标准词与所述同义词为一对一或一对多的关联关系,分词单元包括识别子单元和匹配子单元。其中,识别子单元用于基于所述用户词典对所述待编码名称进行识别,将所述用户词典识别的词语作为所述疾病词语,并判断是否存在所述用户词典未识别出的字段,若存在,则将所述用户词典未识别出的字段作为待识别词语;匹配子单元用于将所述待识别词语与所述同义词进行匹配,若匹配成功,则将所述同义词对应的标准词作为所述疾病词语。
匹配子模块包括第一匹配单元、第二匹配单元和第三匹配单元,其中,第一匹配单元用于将所述疾病词语与所述标准疾病名称进行匹配操作,若所述疾病词语与所述标准疾病名称匹配成功,则将所述标准疾病名称对应的标准疾病编码作为所述词语编码;第二匹配单元用于在所述疾病词语与所述标准疾病名称匹配失败时,将所述疾病词语与所述本地疾病名称进行匹配操作;第三匹配单元用于在所述疾病词语与所述本地疾病名称匹配成功时,将所述本地疾病名称对应的本地疾病编码作为所述词语编码。
在本实施例的一些可选的实现方式中,上述矫正模块304进一步用于:基于所述标准编码库和/或所述匹配库对所述待编码名称进行无间隔关键词匹配操作,获得所述目标编码。
本申请针对医疗数据的场景,通过各关联数据库的疾病名称和疾病编码,确定出本地疾病编码,并基于本地疾病编码建立匹配库,由于匹配库是基于各医疗数据库建立的,其中的疾病名称具有更加广泛的通用性,能够保证对待编码名称的进一步识别,以用于对待编码名称进行更加准确的编码。在接收到待编码名称时,基于标准编码库和/或匹配库联合对待编码名称进行匹配,从而获得目标编码,实现对待编码名称准确且正确的编码,以矫正待编码名称的原始编码数据。
为解决上述技术问题,本申请实施例还提供计算机设备。具体请参阅图4,图4为本实施例计算机设备基本结构框图。
所述计算机设备200包括通过系统总线相互通信连接存储器201、处理器202、网络接口203。需要指出的是,图中仅示出了具有组件201-203的计算机设备200,但是应理解的是,并不要求实施所有示出的组件,可以替代的实施更多或者更少的组件。其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(Application Specific Integrated Circuit,ASIC)、可编程门阵列(Field-Programmable Gate Array,FPGA)、数字处理器(Digital Signal Processor,DSP)、嵌入式设备等。
所述计算机设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述计算机设备可以与用户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互。
所述存储器201至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、硬盘、多媒体卡、卡型存储器(例如,SD或DX存储器等)、随机访问存储器(RAM)、静态随机访问存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁性存储器、磁盘、光盘等。在一些实施例中,所述存储器201可以是所述计算机设备200的内部存储单元,例如该计算机设备200的硬盘或内存。在另一些实施例中,所述存储器201也可以是所述计算机设备200的外部存储设备,例如该计算机设备200上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。当然,所述存储器201还可以既包括所述计算机设备200的内部存储单元也包括其外部存储设备。本实施例中,所述存储器201通常用于存储安装于所述计算机设备200的操作系统和各类应用软件,例如医疗数据矫正方法的计算机可读指令等。此外,所述存储器201还可以用于暂时地存储已经输出或者将要输出的各类数据。
所述处理器202在一些实施例中可以是中央处理器(Central Processing Unit,CPU)、控制器、微控制器、微处理器、或其他数据处理芯片。该处理器202通常用于控制所述计算机设备200的总体操作。本实施例中,所述处理器202用于运行所述存储器201中存储的计算机可读指令或者处理数据,例如运行所述医疗数据矫正方法的计算机可读指令。
所述网络接口203可包括无线网络接口或有线网络接口,该网络接口203通常用于在所述计算机设备200与其他电子设备之间建立通信连接。
在本实施例中,匹配库中的本地疾病名称具有更加广泛的通用性,能够保证对待编码名称的进一步识别,以用于对待编码名称进行更加准确的编码。基于标准编码库和/或匹配库联合对待编码名称进行匹配,实现对待编码名称准确且正确的编码,以矫正待编码名称的原始编码数据。
本申请还提供了另一种实施方式,即提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令可被至少一个处理器执行,以使所述至少一个处理器执行如上述的医疗数据矫正方法的步骤。
在本实施例中,匹配库中的本地疾病名称具有更加广泛的通用性,能够保证对待编码名称的进一步识别,以用于对待编码名称进行更加准确的编码。基于标准编码库和/或匹配库联合对待编码名称进行匹配,实现对待编码名称准确且正确的编码,以矫正待编码名称的原始编码数据。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本申请各个实施例所述的方法。
显然,以上所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例,附图中给出了本申请的较佳实施例,但并不限制本申请的专利范围。本申请可以以许多不同的形式来实现,相反地,提供这些实施例的目的是使对本申请的公开内容的理解更加透彻全面。尽管参照前述实施例对本申请进行了详细的说明,对于本领域的技术人员来而言,其依然可以对前述各具体实施方式所记载的技术方案进行修改,或者对其中部分技术特征进行等效替换。凡是利用本申请说明书及附图内容所做的等效结构,直接或间接运用在其他相关的技术领域,均同理在本申请专利保护范围之内。
Claims (10)
1.一种医疗数据矫正方法,其特征在于,包括下述步骤:
接收各医疗数据库传输的疾病数据,并将所述疾病数据存储至本地数据库中,其中,所述疾病数据包括相关联的疾病名称和疾病编码;
对所述本地数据库中的疾病名称进行清洗和合并操作,获得本地疾病名称;
分别确定所述本地疾病名称所关联的每种疾病编码的数量,将数量最多的所述疾病编码作为本地疾病编码,并基于所述本地疾病编码与对应的本地疾病名称生成匹配库;
接收标准编码库和医疗数据,其中,所述医疗数据包括待编码名称,基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配,获得目标编码,并将所述目标编码与所述待编码名称相关联,其中,所述标准编码库中包括一一对应的标准疾病编码和标准疾病名称。
2.根据权利要求1所述的医疗数据矫正方法,其特征在于,所述基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配操作,获得目标编码的步骤包括:
基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配操作,若匹配失败,则对所述待编码名称进行分词操作,获得疾病词语;
基于所述标准编码库和/或所述匹配库分别对每个所述疾病词语进行匹配操作,分别获得所述疾病词语的词语编码,并将所有词语编码作为所述目标编码。
3.根据权利要求2所述的医疗数据矫正方法,其特征在于,所述对所述待编码名称进行分词操作,获得疾病词语的步骤包括:
基于所述标准疾病名称和所述本地疾病名称生成用户词典;
接收同义词词典,基于所述用户词典和所述同义词词典对所述待编码名称进行分词操作,获得所述疾病词语。
4.根据权利要求3所述的医疗数据矫正方法,其特征在于,所述同义词词典包括标准词和同义词,所述标准词与所述同义词为一对一或一对多的关联关系,所述基于所述用户词典和所述同义词词典对所述待编码名称进行分词操作,获得所述疾病词语的步骤包括:
基于所述用户词典对所述待编码名称进行识别,将所述用户词典识别的词语作为所述疾病词语,并判断是否存在所述用户词典未识别出的字段,若存在,则将所述用户词典未识别出的字段作为待识别词语;
将所述待识别词语与所述同义词进行匹配,若匹配成功,则将所述同义词对应的标准词作为所述疾病词语。
5.根据权利要求2所述的医疗数据矫正方法,其特征在于,所述基于所述标准编码库和/或所述匹配库分别对每个所述疾病词语进行匹配操作,分别获得所述疾病词语的词语编码的步骤包括:
将所述疾病词语与所述标准疾病名称进行匹配操作,若所述疾病词语与所述标准疾病名称匹配成功,则将所述标准疾病名称对应的标准疾病编码作为所述词语编码;
若所述疾病词语与所述标准疾病名称匹配失败,则将所述疾病词语与所述本地疾病名称进行匹配操作;
若所述疾病词语与所述本地疾病名称匹配成功,则将所述本地疾病名称对应的本地疾病编码作为所述词语编码。
6.根据权利要求1所述的医疗数据矫正方法,其特征在于,所述本地数据库中的疾病名称进行清洗操作,获得本地疾病名称的步骤包括:
基于预设的正则表达式和patindex函数对所述疾病名称进行清洗操作,获得初始疾病名称;
合并相同的所述初始疾病名称,获得所述本地疾病名称。
7.根据权利要求1所述的医疗数据矫正方法,其特征在于,所述基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配,获得目标编码的步骤包括:
基于所述标准编码库和/或所述匹配库对所述待编码名称进行无间隔关键词匹配操作,获得所述目标编码。
8.一种医疗数据矫正装置,其特征在于,包括:
接收模块,用于接收各医疗数据库传输的疾病数据,并将所述疾病数据存储至本地数据库中,其中,所述疾病数据包括相关联的疾病名称和疾病编码;
清洗模块,用于对所述本地数据库中的疾病名称进行清洗和合并操作,获得本地疾病名称;
生成模块,用于分别确定所述本地疾病名称所关联的每种疾病编码的数量,将数量最多的所述疾病编码作为本地疾病编码,并基于所述本地疾病编码与对应的本地疾病名称生成匹配库;
矫正模块,用于接收标准编码库和医疗数据,其中,所述医疗数据包括待编码名称,基于所述标准编码库和/或所述匹配库对所述待编码名称进行匹配,获得目标编码,并将所述目标编码与所述待编码名称相关联,其中,所述标准编码库中包括一一对应的标准疾病编码和标准疾病名称。
9.一种计算机设备,其特征在于,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述处理器执行所述计算机可读指令时实现如权利要求1至7中任一项所述的医疗数据矫正方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机可读指令,所述计算机可读指令被处理器执行时实现如权利要求1至7中任一项所述的医疗数据矫正方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111016543.9A CN113641714A (zh) | 2021-08-31 | 2021-08-31 | 医疗数据矫正方法、装置、计算机设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202111016543.9A CN113641714A (zh) | 2021-08-31 | 2021-08-31 | 医疗数据矫正方法、装置、计算机设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113641714A true CN113641714A (zh) | 2021-11-12 |
Family
ID=78424676
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202111016543.9A Pending CN113641714A (zh) | 2021-08-31 | 2021-08-31 | 医疗数据矫正方法、装置、计算机设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113641714A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017326A (zh) * | 2022-05-12 | 2022-09-06 | 青岛普瑞盛医药科技有限公司 | 医学编码方法及装置 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069124A (zh) * | 2015-08-13 | 2015-11-18 | 易保互联医疗信息科技(北京)有限公司 | 一种自动化的国际疾病分类编码方法及系统 |
US20200118683A1 (en) * | 2018-10-12 | 2020-04-16 | Fujitsu Limited | Medical diagnostic aid and method |
CN112632910A (zh) * | 2020-12-21 | 2021-04-09 | 北京惠及智医科技有限公司 | 手术编码方法以及电子设备、存储装置 |
-
2021
- 2021-08-31 CN CN202111016543.9A patent/CN113641714A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105069124A (zh) * | 2015-08-13 | 2015-11-18 | 易保互联医疗信息科技(北京)有限公司 | 一种自动化的国际疾病分类编码方法及系统 |
US20200118683A1 (en) * | 2018-10-12 | 2020-04-16 | Fujitsu Limited | Medical diagnostic aid and method |
CN112632910A (zh) * | 2020-12-21 | 2021-04-09 | 北京惠及智医科技有限公司 | 手术编码方法以及电子设备、存储装置 |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115017326A (zh) * | 2022-05-12 | 2022-09-06 | 青岛普瑞盛医药科技有限公司 | 医学编码方法及装置 |
CN115017326B (zh) * | 2022-05-12 | 2023-08-18 | 青岛普瑞盛医药科技有限公司 | 医学编码方法及装置 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112541338A (zh) | 相似文本匹配方法、装置、电子设备及计算机存储介质 | |
CN112287069B (zh) | 基于语音语义的信息检索方法、装置及计算机设备 | |
CN112632278A (zh) | 一种基于多标签分类的标注方法、装置、设备及存储介质 | |
CN112650858B (zh) | 应急协助信息的获取方法、装置、计算机设备及介质 | |
CN114398477A (zh) | 基于知识图谱的政策推荐方法及其相关设备 | |
CN112836521A (zh) | 问答匹配方法、装置、计算机设备及存储介质 | |
CN112084342A (zh) | 试题生成方法、装置、计算机设备及存储介质 | |
CN112446209A (zh) | 一种意图标签的设置方法、设备、装置及存储介质 | |
CN113627797A (zh) | 入职员工画像生成方法、装置、计算机设备及存储介质 | |
CN112395391A (zh) | 概念图谱构建方法、装置、计算机设备及存储介质 | |
CN113641714A (zh) | 医疗数据矫正方法、装置、计算机设备及存储介质 | |
CN112100491A (zh) | 基于用户数据的信息推荐方法、装置、设备及存储介质 | |
CN116453125A (zh) | 基于人工智能的数据录入方法、装置、设备及存储介质 | |
CN115759040A (zh) | 一种电子病历解析方法、装置、设备和存储介质 | |
CN114637831A (zh) | 基于语义分析的数据查询方法及其相关设备 | |
CN115730603A (zh) | 基于人工智能的信息提取方法、装置、设备及存储介质 | |
CN114330240A (zh) | Pdf文档解析方法、装置、计算机设备及存储介质 | |
CN114265835A (zh) | 基于图挖掘的数据分析方法、装置及相关设备 | |
CN113065354A (zh) | 语料中地理位置的识别方法及其相关设备 | |
CN112949320A (zh) | 基于条件随机场的序列标注方法、装置、设备及介质 | |
CN112084408A (zh) | 名单数据筛选方法、装置、计算机设备及存储介质 | |
CN111783471B (zh) | 自然语言的语义识别方法、装置、设备及存储介质 | |
CN114637823A (zh) | 一种指标口径确定方法、装置、计算机设备及存储介质 | |
CN112182158A (zh) | 文档自动分类方法、装置、设备及存储介质 | |
CN116795707A (zh) | 软件隐私合规性前置检测方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
TA01 | Transfer of patent application right |
Effective date of registration: 20220601 Address after: 518000 China Aviation Center 2901, No. 1018, Huafu Road, Huahang community, Huaqiang North Street, Futian District, Shenzhen, Guangdong Province Applicant after: Shenzhen Ping An medical and Health Technology Service Co.,Ltd. Address before: Room 12G, Area H, 666 Beijing East Road, Huangpu District, Shanghai 200001 Applicant before: PING AN MEDICAL AND HEALTHCARE MANAGEMENT Co.,Ltd. |
|
TA01 | Transfer of patent application right |