CN110990591A - 医疗数据转码质量稽核方法及系统 - Google Patents
医疗数据转码质量稽核方法及系统 Download PDFInfo
- Publication number
- CN110990591A CN110990591A CN201911368380.3A CN201911368380A CN110990591A CN 110990591 A CN110990591 A CN 110990591A CN 201911368380 A CN201911368380 A CN 201911368380A CN 110990591 A CN110990591 A CN 110990591A
- Authority
- CN
- China
- Prior art keywords
- mapping
- auditing
- audited
- item
- transcoded
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 162
- 238000013507 mapping Methods 0.000 claims abstract description 357
- 238000005457 optimization Methods 0.000 claims abstract description 32
- 238000012550 audit Methods 0.000 claims description 112
- 239000013598 vector Substances 0.000 claims description 37
- 230000011218 segmentation Effects 0.000 claims description 36
- 238000004364 calculation method Methods 0.000 claims description 7
- 238000003058 natural language processing Methods 0.000 claims description 7
- 238000012549 training Methods 0.000 claims description 7
- 238000005516 engineering process Methods 0.000 claims description 6
- 238000012795 verification Methods 0.000 claims description 6
- 239000003814 drug Substances 0.000 claims description 5
- 229940079593 drug Drugs 0.000 claims description 5
- 239000002552 dosage form Substances 0.000 claims description 4
- 238000012544 monitoring process Methods 0.000 claims description 4
- 238000012545 processing Methods 0.000 description 9
- 230000006870 function Effects 0.000 description 4
- 238000004590 computer program Methods 0.000 description 3
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/374—Thesaurus
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Epidemiology (AREA)
- General Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Primary Health Care (AREA)
- Public Health (AREA)
- Measuring And Recording Apparatus For Diagnosis (AREA)
Abstract
本公开提供了一种医疗数据转码质量稽核方法,包括:获取医疗机构数据字典和标准字典;令每个待转码条目进入智能映射进程,计算待转码条目与标准条目的相似度,判断相似度是否高于或等于预设相似度,如果是,则将待转码条目与对应的标准条目之间的映射加入转码映射表,如果否,则将待转码条目与对应的标准条目之间的映射,加入待审核映射数据集;进入审核进程,审核员对待审核映射数据集中的至少一个待审核映射进行审核;进入映射优化进程,根据审核通过后的映射对待审核映射数据集进行更新;判断待审核映射数据集中是否存在待审核映射,如果是,则进入审核进程和映射优化进程以及判断待审核映射数据集中是否存在待审核映射。
Description
技术领域
本公开涉及数据质量控制技术领域,尤其涉及一种医疗数据转码质量稽核方法及系统。
背景技术
区域医疗大数据汇聚在当前还普遍存在数据质量不高的问题。这是因为在采集区域医疗机构的数据过程中,各机构所使用的数据字典(如诊断名称、药品名称和规格、治疗项目名称)并不统一,因此,区域医疗大数据平台需要对字典数据进行转码。如果转码错误,将直接导致信息错误。一个地市级的区域医疗大集中,转码映射关系大约在300万行(跟医院数量有关),并且医院字典数据还每周有新增,即这个映射关系需要动态维护。虽然当前存在自然语言处理(NLP,Natural Language Processing)技术可以实现自动转码,但自动匹配的正确率较低,无法满足区域医疗大数据系统建设的需求。
发明内容
为了解决上述技术问题中的至少一个,本公开的一些实施例提供了一种医疗数据转码质量稽核方法,包括:获取医疗机构数据字典和标准字典;医疗机构数据字典中包括多个待转码条目,标准字典中包括多个标准条目;令每个待转码条目进入智能映射进程;智能映射进程包括:计算待转码条目与标准条目的相似度;判断相似度是否高于或等于预设相似度;如果是,则将待转码条目与对应的标准条目之间的映射加入转码映射表;如果否,则将待转码条目与对应的标准条目之间的映射作为待审核映射加入待审核映射数据集;其中,转码映射表包括待转码条目数据集与标准条目数据集之间的映射关系;进入审核进程,包括:审核员对待审核映射数据集中的至少一个待审核映射进行审核;进入映射优化进程,包括:将审核通过后的映射更新至转码映射表;根据更新后的转码映射表,令待审核数据集中的每个待审核映射进入智能映射进程,将相似度高于或等于预设相似度的映射从待审核映射数据集中清除;判断待审核映射数据集中是否存在待审核映射,如果是,则进入审核进程和映射优化进程,以及,判断待审核映射数据集中是否存在待审核映射。
在本公开的至少一个实施例中,获取医疗机构数据字典和标准字典之前,医疗数据转码质量稽核方法还包括:采用自然语言处理技术,对医疗用语进行分词,并建立分词模型;医疗用语包括医学名词术语、药品名称、耗材名称、剂型规格、诊断名称以及治疗项目名称中的至少一种。
在本公开的至少一个实施例中,令每个待转码条目进入智能映射进程之前,医疗数据转码质量稽核方法还包括:根据分词模型,分别计算每个标准条目的词向量和每个待转码条目的词向量;对于每个待转码条目,智能映射进程中,计算待转码条目与标准条目的相似度,包括:通过余弦相似度计算待转码条目的词向量与所有标准条目的词向量的相似度,选择余弦相似度最高的结果作为待转码条目与标准条目的相似度计算结果;待转码条目与对应的标准条目之间的映射为,待转码条目与获得余弦相似度最高的结果对应的标准条目之间的映射。
在本公开的至少一个实施例中,将审核通过后的映射更新至转码映射表之后,映射优化进程还包括:根据更新后的转码映射表,对分词模型进行训练;根据训练后的分词模型,分别计算每个标准条目的词向量和待审核映射数据集中包含的每个所述待转码条目的词向量。
在本公开的至少一个实施例中,进入审核进程之前,医疗数据转码质量稽核方法还包括:监测并判断待审核映射数据集中是否有新增的待审核映射,如果是,则进入任务分配进程,将新增的待审核映射分配给一级审核员进行一级审核;对于一级审核员审核完的待审核映射,再次进入任务分配进程,将待审核映射分配给二级审核员进行二级审核;同一待审核映射对应的二级审核员与一级审核员不同;其中,任务分配进程包括:将待审核映射推送至管理员,由管理员将待审核映射分配给指定级别的审核员;或者,根据待审核映射的数量以及指定级别的审核员的数量,将待审核映射分配给该指定级别的审核员。
在本公开的至少一个实施例中,审核进程中,审核员对待审核映射数据集中的至少一个待审核映射进行审核,包括:一级审核员对待审核映射数据集中的至少一个待审核映射进行一级审核,一级审核完成的待审核映射被分配至二级审核员;二级审核员对完成一级审核的待审核映射进行二级审核。
在本公开的至少一个实施例中,医疗数据转码质量稽核方法还包括:记录一级审核的审核状态、审核结果以及审核时间中的至少一种;记录二级审核的审核状态、审核结果以及审核时间中的至少一种;统计当前一级审核员的审核完成数和审核正确率,统计当前二级审核员的审核完成数;其中,统计当前一级审核员的审核正确率包括:对于同一待审核映射,判断二级审核结果与一级审核结果是否一致;如果是,则一级审核正确;如果否,则一级审核不正确;统计一级审核正确的待审核映射数量占当前一级审核员的审核完成数的比例。
另一方面,本公开一些实施例还提供一种医疗数据转码质量稽核系统,包括:获取模块,被配置为获取医疗机构数据字典和标准字典;医疗机构数据字典中包括多个待转码条目,标准字典中包括多个标准条目;与获取模块连接的智能映射模块,被配置为执行智能映射进程;智能映射进程包括:计算待转码条目与标准条目的相似度;判断相似度是否高于或等于预设相似度;如果是,则将待转码条目与对应的标准条目之间的映射加入转码映射表;如果否,则将待转码条目与对应的标准条目之间的映射作为待审核映射加入待审核映射数据集;其中,转码映射表包括待转码条目数据集与标准条目数据集之间的映射关系;与智能映射模块连接的审核模块,被配置为记录审核进程中的审核状态、审核结果以及审核时间中的至少一种;其中,审核进程包括:审核员对待审核映射数据集中的至少一个待审核映射进行审核;与智能映射模块和审核模块连接的映射优化模块,被配置为执行映射优化进程;映射优化进程包括:将审核通过后的映射更新至转码映射表;根据更新后的转码映射表,令待审核数据集中的每个待审核映射进入智能映射进程,将相似度高于或等于预设相似度的映射从待审核映射数据集中清除;与审核模块和映射优化模块连接的待审核映射判断模块,被配置为判断待审核映射数据集中是否存在待审核映射,如果是,则进入审核进程和映射优化进程,以及,判断待审核映射数据集中是否存在待审核映射。
又一方面,本公开一些实施例还提供一种计算机产品,包括一个或多个处理器,一个或多个处理器被配置为运行计算机指令,以执行上述任一实施例所述的医疗数据转码质量稽核方法中的一个或多个步骤。
又一方面,本公开一些实施例还提供一种计算机非瞬时可读存储介质,计算机非瞬时可读存储介质存储有计算机指令,计算机指令被配置为执行上述任一实施例所述的医疗数据转码质量稽核方法。
附图说明
附图示出了本公开的示例性实施方式,并与其说明一起用于解释本公开的原理,其中包括了这些附图以提供对本公开的进一步理解,并且附图包括在本说明书中并构成本说明书的一部分。
图1为根据一些实施例的一种医疗数据转码质量稽核方法的流程图;
图2为根据一些实施例的审核进程和任务分配进程的流程图。
具体实施方式
下面结合附图和实施方式对本公开作进一步的详细说明。可以理解的是,此处所描述的具体实施方式仅用于解释相关内容,而非对本公开的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本公开相关的部分。
需要说明的是,在不冲突的情况下,本公开中的实施方式及实施方式中的特征可以相互组合。下面将参考附图并结合实施方式来详细说明本公开。
请参阅图1,本公开的一些实施例提供了一种医疗数据转码质量稽核方法,包括S1~S4。
S1,获取医疗机构数据字典和标准字典。
此处,医疗机构数据字典为,采集区域医疗机构的数据过程中,各医疗机构所使用的数据字典。医疗机构数据字典中包括多个待转码条目。标准字典为,应用上述医疗数据转码质量稽核方法的医疗数据转码质量稽核系统所使用的数据字典,标准字典中包括多个标准条目。对医疗机构数据字典中的数据进行转码,即,确定待转码条目与对应的标准条目之间的映射之后,将医疗机构数据字典中的待转码条目对应的编码,转换为标准字典中相应的标准条目对应的编码。
S2,令每个待转码条目进入智能映射进程。智能映射进程包括S21~S24。
S21,计算待转码条目与标准条目的相似度。该相似度的取值范围例如为0~1。
S22,判断相似度是否高于或等于预设相似度。该预设相似度例如为0.8~1。示例性地,预设相似度为0.8、0.85、0.9、0.95或1。
S23,如果是,则将待转码条目与对应的标准条目之间的映射加入转码映射表。
S24,如果否,则将待转码条目与对应的标准条目之间的映射作为待审核映射加入待审核映射数据集。
其中,转码映射表包括待转码条目数据集与标准条目数据集之间的映射关系。
S3,进入审核进程。审核进程包括:审核员对待审核映射数据集中的至少一个待审核映射进行审核。
此处,审核员可以对一个待审核映射进行审核,然后提交该待审核映射的审核结果,也可以对多个待审核映射进行审核后,一次性提交多个待审核映射的审核结果。
S4,进入映射优化进程。
示例性地,可以是审核员通过在人机交互界面点击“确认”或“提交”等命令按钮,提交某一个或某几个待审核映射的审核结果,此时医疗数据转码质量稽核系统中产生一个审核提交信号,当监测到该信号时,医疗数据转码质量稽核系统进入映射优化进程。
映射优化进程包括S41~S43。
S41,将审核通过后的映射更新至转码映射表。
S42,根据更新后的转码映射表,令待审核数据集中的每个待审核映射进入智能映射进程,将相似度高于或等于预设相似度的映射从待审核映射数据集中清除。
S43,判断待审核映射数据集中是否存在待审核映射,如果是,则进入审核进程和映射优化进程,以及,判断待审核映射数据集中是否存在待审核映射。
本公开一些实施例提供的医疗数据转码质量稽核方法,以机器学习自然语言处理为基础,在待转码条目与标准条目之间进行智能映射,在对待转码条目与标准条目进行初步匹配的过程中,利用智能映射进程能够大幅减少人工匹配的工作量。另外,利用审核进程的审核结果或匹配结果对待审核映射数据集进行更新,将相似度高于或等于预设相似度的映射从待审核映射数据集中清除,能够大大减少后续审核员对待审核映射的审核工作量。同时,利用审核进程中审核员的人工审核对智能映射进程中无法到达预设相似度的映射进行进一步审核,可以大大提高所获得的转码映射表中各映射的正确率,使正确率达到99%以上。进而,提高了医疗机构数据字典中的待转码条目对应的编码转换为标准字典中相应的标准条目对应的编码的正确率,改善了区域医疗大数据汇集过程中,数据转换质量较差的问题。
在本公开的至少一个实施例中,在步骤S1获取医疗机构数据字典和标准字典之前,医疗数据转码质量稽核方法还包括S5。
S5,采用自然语言处理技术,对医疗用语进行分词,并建立分词模型。其中,医疗用语包括医学名词术语、药品名称、耗材名称、剂型规格、诊断名称以及治疗项目名称中的至少一种。
示例性地,可通过现有的分词方法,如基于词典的分词方法、基于统计的分词方法或基于语义学理解的分词方法对医疗用语进行分词。另外,可以通过Word2Vec语言建模工具训练得到所需的分词模型。
需要说明的是,对医疗用语进行分词,并建立分词模型的步骤,可以通过本公开实施例提供的医疗数据转码质量稽核方法实现,也可以在所述医疗数据转码质量稽核方法中,直接应用已有的分词模型。本公开一些实施例对此不做限定。
在本公开的至少一个实施例中,令每个待转码条目进入智能映射进程之前,医疗数据转码质量稽核方法还包括S6。
S6,根据分词模型,分别计算每个标准条目的词向量和每个待转码条目的词向量。其中,词向量是一种把词处理成向量的技术,并且保证向量间的相似度和语义相似度是相关的,如果两个词的词向量间的相似度越大,则说明两个词间的语义相似度越大。
对于每个待转码条目,步骤S2智能映射进程中,步骤S21计算待转码条目与标准条目的相似度,包括S211。
S211,通过余弦相似度计算待转码条目的词向量与所有标准条目的词向量的相似度,选择余弦相似度最高的结果作为待转码条目与标准条目的相似度计算结果。
相应地,步骤S23和S24中,待转码条目与对应的标准条目之间的映射为,待转码条目与获得余弦相似度最高的结果对应的标准条目之间的映射。
在本公开的至少一个实施例中,步骤S41将审核通过后的映射更新至转码映射表之后,步骤S4映射优化进程还包括S44和S45。
S44,根据更新后的转码映射表,对分词模型进行训练。
S45,根据训练后的分词模型,分别计算每个标准条目的词向量和待审核映射数据集中包含的每个所述待转码条目的词向量。
智能映射进程结合审核进程中审核员的人工审核,利用审核进程的审核结果或匹配结果对分词模型进行训练,可以进一步提高智能映射进程中匹配结果的准确度,同时,采用训练后的分词模型对待审核映射进一步进行筛选,可以有效减少审核员的工作量,提高审核效率。
请参阅图2,在本公开的至少一个实施例中,在步骤S3进入审核进程之前,医疗数据转码质量稽核方法还包括S71~S73。
S71,监测并判断待审核映射数据集中是否有新增的待审核映射。
S72,如果是,则进入S8任务分配进程,将新增的待审核映射分配给一级审核员进行一级审核。
S73,对于一级审核员审核完的待审核映射,再次进入S8任务分配进程,将待审核映射分配给二级审核员进行二级审核。
其中,同一待审核映射对应的二级审核员与一级审核员不同。
其中,S8任务分配进程包括:将待审核映射推送至管理员,由管理员将待审核映射分配给指定级别的审核员;或者,根据待审核映射的数量以及指定级别的审核员的数量,将待审核映射分配给该指定级别的审核员。例如,根据待审核映射的数量以及一级审核员的数量,按平均算法,自动分配映射任务到各个一级审核员。又例如,根据一级审核后等待进行二级审核的待审核映射的数量以及二级审核员的数量,按平均算法,自动分配映射任务到各个二级审核员。
在本公开的至少一个实施例中,步骤S3审核进程中,审核员对待审核映射数据集中的至少一个待审核映射进行审核,包括S31和S32。
S31,一级审核员对待审核映射数据集中的至少一个待审核映射进行一级审核,一级审核完成的待审核映射被分配至二级审核员。
S32,二级审核员对完成一级审核的待审核映射进行二级审核。
示例性的,一级审核员收到审核任务后,对审核任务里50个待审核映射中的5个进行审核,逐项检查5个待审核映射是否可以通过审核,对有错误的待审核映射,可以重新在标准条目的列表中选择合适的条目。审核完成后提交审核结果。医疗数据转码质量稽核系统检测到一级审核员的提交信号,将上述5个待审核映射分配至一个或多个二级审核员。二级审核员逐项检查5个待审核映射是否可以通过审核,对一级审核员的审核结果有错误的待审核映射,可以重新在标准条目的列表中选择合适的条目。审核完成后提交审核结果。
通过两级审核员先后对同一待审核映射进行审核,可以进一步提高审核的准确性,从而能够提升依据审核结果进行训练的分词模型的训练效果,进而提高根据分词模型进行的智能映射进程的结果的准确性。
在本公开的至少一个实施例中,医疗数据转码质量稽核方法还包括状态汇总进程。该状态汇总进程包括,统计当前一级审核任务、二级审核任务中已审核的待审核映射的数量以及未审核的待审核映射的数量;统计当前一级审核员和二级审核员的数量;统计每个审核员的待审核映射的数量。如果某一个或几个审核员的剩余待审核映射的数量超过阈值,可以重新进入S8任务分配进程,对待审核映射进行重新分派和调配,以防止个别审核员的任务堆积,提高审核效率。
在本公开的至少一个实施例中,医疗数据转码质量稽核方法还包括S9~S11。
S9,记录一级审核的审核状态、审核结果以及审核时间中的至少一种。
S10,记录二级审核的审核状态、审核结果以及审核时间中的至少一种。
上述审核状态例如为一审待审核,一审已完成,二审待审核,二审已完成等;审核结果例如为通过、不通过、重新选择标准条目等。
S11,统计当前一级审核员的审核完成数和审核正确率,统计当前二级审核员的审核完成数;其中,统计当前一级审核员的审核正确率包括:对于同一待审核映射,判断二级审核结果与一级审核结果是否一致;如果是,则一级审核正确;如果否,则一级审核不正确;统计一级审核正确的待审核映射数量占当前一级审核员的审核完成数的比例。
通过当前一级审核员的审核完成数和审核正确率的统计结果,可以对以及审核员的进行考核。
值得一提的是,对于审核结果为不通过,且审核员没有找到相应的标准条目时,对应的待审核映射中,待转码条目可能为乱码或不合规数据,审核员提交审核结果之后,医疗数据转码质量稽核系统可以将该种映射归入无法匹配数据池,等待进一步处理。
需要注意的是,上述医疗数据转码质量稽核方法的步骤为可选地示例性方法,本公开一些实施例并不对上述步骤的顺序进行限制,一些步骤可以是先后实施,也可以与其他步骤同时实施,其实施时的顺序可以根据实际需要进行适当调整。
下面将结合具体实施例对上述医疗数据转码质量稽核方法进行详细地说明。
应用所述医疗数据转码质量稽核方法的执行主体例如为医疗数据转码质量稽核系统。待转码的医疗机构数据字典中,包括100个待转码条目。医疗数据转码质量稽核系统获取该医疗机构数据字典和标准字典,同时,获取已有的分词模型。
根据分词模型,分别计算每个标准条目的词向量和每个待转码条目的词向量。
令每个待转码条目进入智能映射进程。对于每个待转码条目,通过余弦相似度计算待转码条目的词向量与所有标准条目的词向量的相似度,选择余弦相似度最高的结果作为该待转码条目与标准条目的相似度计算结果。判断相似度是否高于或等于预设相似度0.9。如果是,则将待转码条目与对应的标准条目之间的映射加入转码映射表;如果否,则将待转码条目与对应的标准条目之间的映射作为待审核映射加入待审核映射数据集。对于本实施例,有70个待转码条目匹配到合适的标准条目,相似度达到0.9或更高,剩余30个待转码映射加入待审核映射数据集。示例性的,请参阅表1,表1中示出了相似度高于或等于0.9的映射结果中的一小部分,该部分映射结果将被加入转码映射表。
表1
医疗数据转码质量稽核系统实时监测到待审核映射数据集中有30个新增的待审核映射,通过任务分配进程将新增的30个待审核映射平均分配给两个一级审核员进行一级审核。
两个一级审核员分别对已分配的待审核任务进行一级审核。其中一位一级审核员尚未开始审核任务,另一位审核员审核了4个待审核映射之后,提交了审核结果。通过任务分配进程将该4个完成一级审核的待审核映射分配至一位二级审核员。二级审核员对该4个待审核映射中的2个待审核映射进行二级审核后,提交第一次审核结果。此时医疗数据转码质量稽核系统中产生一个审核提交信号。
医疗数据转码质量稽核系统识别出该审核提交信号后,进入映射优化进程。将审核通过后的2个映射更新至转码映射表。根据更新后的转码映射表,对分词模型进行训练。根据训练后的分词模型,分别计算每个标准条目的词向量和待审核映射数据集(即所有一级审核员和所有二级审核员尚未审核的映射,当前为28个映射)中包含的每个所述待转码条目的词向量,然后通过余弦相似度计算待转码条目的词向量与所有标准条目的词向量的相似度。计算后,28个待审核映射中有2个待转码条目匹配到了相似度高于0.9的标准条目,因此,此时待审核映射数据集中剩余26个待审核映射。其中,两位一级审核员被分配的待审核任务剩余25个(减少的一个映射为分词模型优化训练后从待审核映射数据集中清除的映射),二级审核员被分配的待审核任务剩余1个。
医疗数据转码质量稽核系统判断待审核映射数据集中仍存在待审核映射,因此继续进入审核进程。此时,二级审核员对上述剩余的1个待审核映射进行二级审核后,提交第二次审核结果。医疗数据转码质量稽核系统识别出此次二次审核的审核提交信号后,再次进入映射优化进程,以及,判断待审核映射数据集中是否存在待审核映射。如此循环,直到所有待审核映射均审核完成。
至此,全部100个待转码条目均匹配到相应的标准条目,形成了所需的转码映射表。后续可以利用该转码映射表,利用待转码条目与对应的标准条目之间的映射,将医疗机构数据字典中的待转码条目对应的编码,转换为标准字典中相应的标准条目对应的编码,从而完成医疗机构数据字典中的数据的转码。
本公开一些实施例提供的医疗数据转码质量稽核方法,在对待转码条目与标准条目进行初步匹配的过程中,利用智能映射进程能够大幅减少人工匹配的工作量。另外,审核员每次调整数据字典匹配关系以后,利用调整后的映射结果对分词模块进行优化训练,并将优化后的模型应用到所有的待审核映射,一方面,大幅减少了审核员人工审核的工作量,另一方面实时提升了智能映射进程中智能匹配的正确率。通过上述医疗数据转码质量稽核方法,可以大大提高所获得的转码映射表中各映射的正确率,使正确率达到99%以上。
本公开的实施例还提供能够执行以上医疗数据转码质量稽核方法实施例的医疗数据转码质量稽核系统。该医疗数据转码质量稽核系统例如集成在处理器中。上述处理器为控制器或处理元件或多个处理元件的组合,所述处理器包括云端服务器、中央处理器(central processing unit,CPU)、通用处理器、数字信号处理器(digital signalprocessor,DSP)、专用集成电路(application-specific integrated circuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)和晶体管逻辑器件中的至少一种或任意至少两种的组合。
本公开的实施例可以根据上述方法示例对该医疗数据转码质量稽核系统进行功能模块的划分,例如,可以对应各个功能划分各个功能模块,也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。需要说明的是,本公开的实施例中对模块的划分是示意性的,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
本公开一些实施例提供一种医疗数据转码质量稽核系统,包括获取模块、与获取模块连接的智能映射模块、与智能映射模块连接的审核模块,与智能映射模块和审核模块连接的映射优化模块,以及,与审核模块和映射优化模块连接的待审核映射判断模块。
获取模块,被配置为获取医疗机构数据字典和标准字典;医疗机构数据字典中包括多个待转码条目,标准字典中包括多个标准条目。
智能映射模块,被配置为执行智能映射进程。智能映射进程包括:计算待转码条目与标准条目的相似度;判断相似度是否高于或等于预设相似度;如果是,则将待转码条目与对应的标准条目之间的映射加入转码映射表;如果否,则将待转码条目与对应的标准条目之间的映射作为待审核映射加入待审核映射数据集。其中,转码映射表包括待转码条目数据集与标准条目数据集之间的映射关系。
审核模块,被配置为记录审核进程中的审核状态、审核结果以及审核时间中的至少一种。其中,审核进程包括:审核员对待审核映射数据集中的至少一个待审核映射进行审核。
映射优化模块,被配置为执行映射优化进程。映射优化进程包括:将审核通过后的映射更新至转码映射表;根据更新后的转码映射表,令待审核数据集中的每个待审核映射进入智能映射进程,将相似度高于或等于预设相似度的映射从待审核映射数据集中清除。
待审核映射判断模块,被配置为判断待审核映射数据集中是否存在待审核映射,如果是,则进入审核进程和映射优化进程,以及,判断待审核映射数据集中是否存在待审核映射。
在一些实施例中,医疗数据转码质量稽核系统还包括与智能映射模块连接的分词模块,被配置为采用自然语言处理技术,对医疗用语进行分词,并建立分词模型。其中,医疗用语包括医学名词术语、药品名称、耗材名称、剂型规格、诊断名称以及治疗项目名称中的至少一种。
在一些实施例中,医疗数据转码质量稽核系统还包括与所述分词模块和所述智能映射模块连接的词向量计算模块,被配置为根据分词模型,分别计算每个标准条目的词向量和每个待转码条目的词向量。
在一些实施例中,智能映射模块还被配置为,通过余弦相似度计算待转码条目的词向量与所有标准条目的词向量的相似度,选择余弦相似度最高的结果作为待转码条目与标准条目的相似度计算结果。
在一些实施例中,映射优化模块还被配置为,将审核通过后的映射更新至转码映射表之后,根据更新后的转码映射表,对分词模型进行训练;根据训练后的分词模型,分别计算每个标准条目的词向量和待审核映射数据集中包含的每个所述待转码条目的词向量。
在一些实施例中,医疗数据转码质量稽核系统还包括与智能映射模块连接的任务分配模块,被配置为,将待审核映射推送至管理员,由管理员将待审核映射分配给指定级别的审核员;或者,根据待审核映射的数量以及指定级别的审核员的数量,将待审核映射分配给该指定级别的审核员。
在一些实施例中,医疗数据转码质量稽核系统还包括与智能映射模块和任务分配模块连接的监测模块,被配置为,监测并判断待审核映射数据集中是否有新增的待审核映射;如果是,则调用任务分配模块,将新增的待审核映射分配给一级审核员进行一级审核;对于一级审核员审核完的待审核映射,再次调用任务分配模块,将待审核映射分配给二级审核员进行二级审核。其中,同一待审核映射对应的二级审核员与一级审核员不同。
在一些实施例中,审核模块还被配置为,记录一级审核的审核状态、审核结果以及审核时间中的至少一种;记录二级审核的审核状态、审核结果以及审核时间中的至少一种。上述审核状态例如为一审待审核,一审已完成,二审待审核,二审已完成等;审核结果例如为通过、不通过、重新选择标准条目等。
在一些实施例中,医疗数据转码质量稽核系统还包括与审核模块和任务分配模块连接的状态汇总模块,被配置为统计当前一级审核任务、二级审核任务中已审核的待审核映射的数量以及未审核的待审核映射的数量;统计当前一级审核员和二级审核员的数量;统计每个审核员的待审核映射的数量。如果某一个或几个审核员的剩余待审核映射的数量超过阈值,则调用任务分配模块,对待审核映射进行重新分派和调配,以防止个别审核员的任务堆积,提高审核效率。
在一些实施例中,医疗数据转码质量稽核系统还包括与审核模块和状态汇总模块连接的考核模块,被配置为统计当前一级审核员的审核完成数和审核正确率,统计当前二级审核员的审核完成数;其中,统计当前一级审核员的审核正确率包括:对于同一待审核映射,判断二级审核结果与一级审核结果是否一致;如果是,则一级审核正确;如果否,则一级审核不正确;统计一级审核正确的待审核映射数量占当前一级审核员的审核完成数的比例。
需要说明的是,上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述,在此不再赘述。
本公开实施例所提供的医疗数据转码质量稽核系统所能实现的有益效果,与上述所提供的医疗数据转码质量稽核方法所能达到的有益效果相同,在此不做赘述。
本公开一些实施例还提供一种计算机产品,包括一个或多个处理器,一个或多个处理器被配置为运行计算机指令,以执行上述任一实施例所述的医疗数据转码质量稽核方法中的一个或多个步骤。
上述处理器为控制器或处理元件或多个处理元件的组合,所述处理器包括云端服务器、中央处理器(central processing unit,CPU)、通用处理器、数字信号处理器(digital signal processor,DSP)、专用集成电路(application-specific integratedcircuit,ASIC)、现场可编程门阵列(field programmable gate array,FPGA)和晶体管逻辑器件中的至少一种或任意至少两种的组合。
在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。结合本公开实施例所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
本公开一些实施例还提供一种计算机非瞬时可读存储介质,计算机非瞬时可读存储介质存储有计算机指令,计算机指令被配置为执行上述任一实施例所述的医疗数据转码质量稽核方法。
本公开的一些实施例可以全部或部分的通过软件,硬件,固件或者其任意组合来实现。当使用软件程序实现时,可以全部或部分地以计算机程序产品的形式出现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本公开实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心传输。
所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质,(例如,软盘,硬盘、磁带)、光介质(例如,DVD)或者半导体介质(例如固态硬盘Solid StateDisk(SSD))等。
在本说明书的描述中,参考术语“一个实施例/方式”、“一些实施例/方式”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例/方式或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例/方式或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例/方式或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例/方式或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例/方式或示例以及不同实施例/方式或示例的特征进行结合和组合。
此外,在本公开的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。同时,在本公开的描述中,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电性连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本公开中的具体含义。
本领域的技术人员应当理解,上述实施方式仅仅是为了清楚地说明本公开,而并非是对本公开的范围进行限定。对于所属领域的技术人员而言,在上述公开的基础上还可以做出其它变化或变型,并且这些变化或变型仍处于本公开的范围内。
Claims (10)
1.一种医疗数据转码质量稽核方法,其特征在于,包括:
获取医疗机构数据字典和标准字典;所述医疗机构数据字典中包括多个待转码条目,所述标准字典中包括多个标准条目;
令每个待转码条目进入智能映射进程;所述智能映射进程包括:计算所述待转码条目与所述标准条目的相似度;判断所述相似度是否高于或等于预设相似度;如果是,则将所述待转码条目与对应的标准条目之间的映射加入转码映射表;如果否,则将所述待转码条目与对应的标准条目之间的映射作为待审核映射加入待审核映射数据集;其中,所述转码映射表包括所述待转码条目数据集与标准条目数据集之间的映射关系;
进入审核进程,包括:审核员对所述待审核映射数据集中的至少一个待审核映射进行审核;
进入映射优化进程,包括:将审核通过后的映射更新至所述转码映射表;根据更新后的转码映射表,令所述待审核数据集中的每个待审核映射进入所述智能映射进程,将相似度高于或等于预设相似度的映射从待审核映射数据集中清除;
判断所述待审核映射数据集中是否存在待审核映射,如果是,则进入所述审核进程和所述映射优化进程,以及,判断所述待审核映射数据集中是否存在待审核映射。
2.根据权利要求1所述的医疗数据转码质量稽核方法,其特征在于,所述获取医疗机构数据字典和标准字典之前,所述医疗数据转码质量稽核方法还包括:采用自然语言处理技术,对医疗用语进行分词,并建立分词模型;所述医疗用语包括医学名词术语、药品名称、耗材名称、剂型规格、诊断名称以及治疗项目名称中的至少一种。
3.根据权利要求2所述的医疗数据转码质量稽核方法,其特征在于,
所述令每个待转码条目进入智能映射进程之前,所述医疗数据转码质量稽核方法还包括:根据所述分词模型,分别计算每个所述标准条目的词向量和每个所述待转码条目的词向量;
对于每个待转码条目,所述智能映射进程中,计算所述待转码条目与所述标准条目的相似度,包括:通过余弦相似度计算所述待转码条目的词向量与所有所述标准条目的词向量的相似度,选择余弦相似度最高的结果作为所述待转码条目与所述标准条目的相似度计算结果;
所述待转码条目与对应的标准条目之间的映射为,所述待转码条目与获得余弦相似度最高的结果对应的标准条目之间的映射。
4.根据权利要求3所述的医疗数据转码质量稽核方法,其特征在于,所述将审核通过后的映射更新至所述转码映射表之后,所述映射优化进程还包括:
根据更新后的所述转码映射表,对所述分词模型进行训练;
根据训练后的分词模型,分别计算每个所述标准条目的词向量和所述待审核映射数据集中包含的每个所述待转码条目的词向量。
5.根据权利要求1所述的医疗数据转码质量稽核方法,其特征在于,进入所述审核进程之前,所述医疗数据转码质量稽核方法还包括:
监测并判断所述待审核映射数据集中是否有新增的待审核映射,如果是,则进入任务分配进程,将新增的待审核映射分配给一级审核员进行一级审核;
对于一级审核员审核完的待审核映射,再次进入所述任务分配进程,将所述待审核映射分配给二级审核员进行二级审核;同一待审核映射对应的所述二级审核员与所述一级审核员不同;
其中,所述任务分配进程包括:将待审核映射推送至管理员,由管理员将所述待审核映射分配给指定级别的审核员;或者,根据待审核映射的数量以及指定级别的审核员的数量,将所述待审核映射分配给该指定级别的审核员。
6.根据权利要求5所述的医疗数据转码质量稽核方法,其特征在于,所述审核进程中,审核员对所述待审核映射数据集中的至少一个待审核映射进行审核,包括:
一级审核员对所述待审核映射数据集中的至少一个待审核映射进行一级审核,一级审核完成的待审核映射被分配至二级审核员;
二级审核员对完成一级审核的待审核映射进行二级审核。
7.根据权利要求6所述的医疗数据转码质量稽核方法,其特征在于,所述医疗数据转码质量稽核方法还包括:
记录所述一级审核的审核状态、审核结果以及审核时间中的至少一种;记录所述二级审核的审核状态、审核结果以及审核时间中的至少一种;
统计当前一级审核员的审核完成数和审核正确率,统计当前二级审核员的审核完成数;其中,统计当前一级审核员的审核正确率包括:对于同一待审核映射,判断二级审核结果与一级审核结果是否一致;如果是,则一级审核正确;如果否,则一级审核不正确;统计一级审核正确的待审核映射数量占当前一级审核员的审核完成数的比例。
8.一种医疗数据转码质量稽核系统,其特征在于,包括:
获取模块,被配置为获取医疗机构数据字典和标准字典;所述医疗机构数据字典中包括多个待转码条目,所述标准字典中包括多个标准条目;
与所述获取模块连接的智能映射模块,被配置为执行智能映射进程;所述智能映射进程包括:计算所述待转码条目与所述标准条目的相似度;判断所述相似度是否高于或等于预设相似度;如果是,则将所述待转码条目与对应的标准条目之间的映射加入转码映射表;如果否,则将所述待转码条目与对应的标准条目之间的映射作为待审核映射加入待审核映射数据集;其中,所述转码映射表包括所述待转码条目数据集与标准条目数据集之间的映射关系;
与所述智能映射模块连接的审核模块,被配置为记录审核进程中的审核状态、审核结果以及审核时间中的至少一种;其中,所述审核进程包括:审核员对所述待审核映射数据集中的至少一个待审核映射进行审核;
与所述智能映射模块和所述审核模块连接的映射优化模块,被配置为执行映射优化进程;所述映射优化进程包括:将审核通过后的映射更新至所述转码映射表;根据更新后的转码映射表,令所述待审核数据集中的每个待审核映射进入所述智能映射进程,将相似度高于或等于预设相似度的映射从待审核映射数据集中清除;
与所述审核模块和所述映射优化模块连接的待审核映射判断模块,被配置为判断所述待审核映射数据集中是否存在待审核映射,如果是,则进入所述审核进程和所述映射优化进程,以及,判断所述待审核映射数据集中是否存在待审核映射。
9.一种计算机产品,包括一个或多个处理器,其特征在于,所述一个或多个处理器被配置为运行计算机指令,以执行如权利要求1~7任一项所述的医疗数据转码质量稽核方法中的一个或多个步骤。
10.一种计算机非瞬时可读存储介质,其特征在于,所述计算机非瞬时可读存储介质存储有计算机指令,计算机指令被配置为执行如权利要求1~7任一项所述的医疗数据转码质量稽核方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911368380.3A CN110990591A (zh) | 2019-12-26 | 2019-12-26 | 医疗数据转码质量稽核方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911368380.3A CN110990591A (zh) | 2019-12-26 | 2019-12-26 | 医疗数据转码质量稽核方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN110990591A true CN110990591A (zh) | 2020-04-10 |
Family
ID=70077455
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911368380.3A Pending CN110990591A (zh) | 2019-12-26 | 2019-12-26 | 医疗数据转码质量稽核方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110990591A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069774A (zh) * | 2020-09-03 | 2020-12-11 | 微医云(杭州)控股有限公司 | 一种数据映射方法、装置、电子终端及存储介质 |
CN112100987A (zh) * | 2020-09-27 | 2020-12-18 | 中国建设银行股份有限公司 | 一种多源数据字典的转码方法及装置 |
CN116955538A (zh) * | 2023-08-16 | 2023-10-27 | 成都医星科技有限公司 | 医疗字典数据匹配方法及装置、电子设备及存储介质 |
CN117995332A (zh) * | 2024-04-07 | 2024-05-07 | 北方健康医疗大数据科技有限公司 | 一种值域代码标准化转换系统及方法 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150379241A1 (en) * | 2014-06-27 | 2015-12-31 | Passport Health Communications, Inc. | Automatic medical coding system and method |
CN106934038A (zh) * | 2017-03-15 | 2017-07-07 | 江苏华生基因数据科技股份有限公司 | 一种医疗数据查重和关联的方法及系统 |
CN107833595A (zh) * | 2017-10-12 | 2018-03-23 | 山东大学 | 医疗大数据多中心整合平台及方法 |
CN110349639A (zh) * | 2019-07-12 | 2019-10-18 | 之江实验室 | 一种基于通用医疗术语库的多中心医疗术语标准化系统 |
-
2019
- 2019-12-26 CN CN201911368380.3A patent/CN110990591A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20150379241A1 (en) * | 2014-06-27 | 2015-12-31 | Passport Health Communications, Inc. | Automatic medical coding system and method |
CN106934038A (zh) * | 2017-03-15 | 2017-07-07 | 江苏华生基因数据科技股份有限公司 | 一种医疗数据查重和关联的方法及系统 |
CN107833595A (zh) * | 2017-10-12 | 2018-03-23 | 山东大学 | 医疗大数据多中心整合平台及方法 |
CN110349639A (zh) * | 2019-07-12 | 2019-10-18 | 之江实验室 | 一种基于通用医疗术语库的多中心医疗术语标准化系统 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112069774A (zh) * | 2020-09-03 | 2020-12-11 | 微医云(杭州)控股有限公司 | 一种数据映射方法、装置、电子终端及存储介质 |
CN112100987A (zh) * | 2020-09-27 | 2020-12-18 | 中国建设银行股份有限公司 | 一种多源数据字典的转码方法及装置 |
CN116955538A (zh) * | 2023-08-16 | 2023-10-27 | 成都医星科技有限公司 | 医疗字典数据匹配方法及装置、电子设备及存储介质 |
CN116955538B (zh) * | 2023-08-16 | 2024-03-19 | 成都医星科技有限公司 | 医疗字典数据匹配方法及装置、电子设备及存储介质 |
CN117995332A (zh) * | 2024-04-07 | 2024-05-07 | 北方健康医疗大数据科技有限公司 | 一种值域代码标准化转换系统及方法 |
CN117995332B (zh) * | 2024-04-07 | 2024-07-05 | 北方健康医疗大数据科技有限公司 | 一种值域代码标准化转换系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110990591A (zh) | 医疗数据转码质量稽核方法及系统 | |
US10062032B2 (en) | Question resolution processing in deep question answering systems | |
CN111564223B (zh) | 传染病生存概率的预测方法、预测模型的训练方法及装置 | |
WO2021208444A1 (zh) | 电子病例自动生成方法、装置、设备及存储介质 | |
CN112015917A (zh) | 基于知识图谱的数据处理方法、装置及计算机设备 | |
CN111128391B (zh) | 一种信息处理设备、方法和存储介质 | |
CN111382275A (zh) | 医疗知识图谱的构建方法、装置、介质及电子设备 | |
WO2021151327A1 (zh) | 分诊数据处理方法、装置、设备及介质 | |
CN109634941B (zh) | 医疗数据处理方法、装置、电子设备及存储介质 | |
CN109741826B (zh) | 麻醉评估决策树构建方法及设备 | |
CN108595657B (zh) | His系统的数据表分类映射方法和装置 | |
WO2023029507A1 (zh) | 基于数据分析的服务分发方法、装置、设备及存储介质 | |
CN111090641A (zh) | 数据处理方法及装置、电子设备、存储介质 | |
CN112115240B (zh) | 分类处理方法、装置、服务器和存储介质 | |
CN109388707B (zh) | 短文本分类方法及装置 | |
CN113488157B (zh) | 智能导诊处理方法、装置、电子设备及存储介质 | |
WO2023178970A1 (zh) | 医疗数据处理方法、装置、设备及存储介质 | |
CN115858886A (zh) | 数据处理方法、装置、设备及可读存储介质 | |
CN116992839A (zh) | 病案首页自动生成方法、装置及设备 | |
CN104063567A (zh) | 一种病人身份源交叉索引的建立方法 | |
CN112800187B (zh) | 数据映射方法、医学文本数据映射方法、装置及电子设备 | |
CN112071431B (zh) | 基于深度学习和知识图谱的临床路径自动生成方法及系统 | |
CN116719926A (zh) | 基于智慧医疗的先天性心脏病报告数据筛选方法及系统 | |
CN111523309A (zh) | 药品信息归一化的方法、装置、存储介质及电子设备 | |
CN114360732B (zh) | 医疗数据分析方法、装置、电子设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20200410 |
|
RJ01 | Rejection of invention patent application after publication |