CN116469500A - 一种基于医疗文档后结构化的数据质量控制方法及系统 - Google Patents
一种基于医疗文档后结构化的数据质量控制方法及系统 Download PDFInfo
- Publication number
- CN116469500A CN116469500A CN202310201233.7A CN202310201233A CN116469500A CN 116469500 A CN116469500 A CN 116469500A CN 202310201233 A CN202310201233 A CN 202310201233A CN 116469500 A CN116469500 A CN 116469500A
- Authority
- CN
- China
- Prior art keywords
- data
- medical
- medical record
- information
- document
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000003908 quality control method Methods 0.000 title claims abstract description 70
- 201000010099 disease Diseases 0.000 claims abstract description 131
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 claims abstract description 131
- 238000013507 mapping Methods 0.000 claims abstract description 110
- 238000003745 diagnosis Methods 0.000 claims abstract description 85
- 238000007689 inspection Methods 0.000 claims abstract description 40
- 238000000605 extraction Methods 0.000 claims abstract description 24
- 238000004140 cleaning Methods 0.000 claims abstract description 16
- 238000012549 training Methods 0.000 claims description 30
- 238000000034 method Methods 0.000 claims description 27
- 238000012512 characterization method Methods 0.000 claims description 22
- 238000004458 analytical method Methods 0.000 claims description 21
- 230000000875 corresponding effect Effects 0.000 claims description 20
- 238000013075 data extraction Methods 0.000 claims description 12
- 230000001276 controlling effect Effects 0.000 claims description 10
- 238000012545 processing Methods 0.000 claims description 8
- 230000002596 correlated effect Effects 0.000 claims description 7
- 230000009466 transformation Effects 0.000 claims description 6
- 230000004927 fusion Effects 0.000 claims description 4
- 230000011218 segmentation Effects 0.000 claims description 4
- 239000000284 extract Substances 0.000 abstract description 5
- 230000008569 process Effects 0.000 description 6
- 238000005516 engineering process Methods 0.000 description 3
- 238000007418 data mining Methods 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 238000003556 assay Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000010367 cloning Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000003032 molecular docking Methods 0.000 description 1
- 230000008520 organization Effects 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000024891 symptom Diseases 0.000 description 1
- 230000003442 weekly effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/21—Design, administration or maintenance of databases
- G06F16/215—Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/25—Integrating or interfacing systems involving database management systems
- G06F16/254—Extract, transform and load [ETL] procedures, e.g. ETL data flows in data warehouses
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Databases & Information Systems (AREA)
- Data Mining & Analysis (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- Public Health (AREA)
- Physics & Mathematics (AREA)
- Primary Health Care (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Epidemiology (AREA)
- Biomedical Technology (AREA)
- Pathology (AREA)
- Quality & Reliability (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种基于医疗文档后结构化的数据质量控制方法及系统,通过将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据,基于医疗专属语义模型,将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据,根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,提高了质控质检效率。另外,本发明能够对自由化输入的电子病历文档进行结构化处理,自动地、智能化地从电子病历中提取关键内容,兼容了自由化输入与结构化存储的长处。
Description
技术领域
本发明涉及结构化数据领域,更具体的,涉及一种基于医疗文档后结构化的数据质量控制方法及系统。
背景技术
现有的病历质控都是基于电子病历系统的质控,依托于电子病历系统结构化标准化要求,以接口对接的方式提取电子病历系统结构化数据,进行质控。以人工质控书写内容,机器识别完整性、时效性等非内涵内容,病案质量控制是由基本质量控制、环节质量控制和终末质量控制三个部分组成的手工作业。基本质控管理包括质控标准的制定、质控组织体系等;环节质控则指病案形成过程中的质量控制,包括每周质控查房和科室质控组的有效运作,是质控中的重要环节;终期质量控制一般指专家评审,其作用主要是为环节质控提供质控侧重点,并对医院医疗、病案质量状况进行评估。
但是,当前的电子病历依然存在诸多问题,例如,电子病历格式很难统一。在很多基层单位,电子病历还没有得到立法的支持,也没有统一的标准。各个厂商所使用的医疗记录文件种类繁多,电子医疗记录文件可能包含完全不同的格式。不同的电子病案格式,其数据组合可能有很大差异。例如,有些电子病历的主诉、病史、既往史等字段写在一起,而有些则是分开的;另外,大多数病历的诊断、检查、化验报告等文件结构化程度较高,而主诉、临床表现、诊断、病程录、治疗过程内容等结构化程度较低。因此,导致科室之间无法数据共享,降低了医院的信息化水平。另外,统一的结构化电子病历影响医生思维。电子病案是体现医生诊断和治疗思想的重要文书,每一位医生都有其独特的病案书写习惯,如果使用固定的模板,就会严重影响医生的书写思维方式。并且对于各医科、各种病症、各种病案千差万别,如果套用一个固定的病历格式,就会产生“克隆”病案、简化病案资料的现象。
发明内容
本发明克服了现有技术的缺陷,提出了一种基于医疗文档后结构化的数据质量控制方法及系统。
本发明第一方面提供了一种基于医疗文档后结构化的数据质量控制方法,包括:
获取待识别医疗文档数据;
将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据;
基于医疗专属语义模型,将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据;
根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制。
本方案中,所述将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据,之前包括:
构建医疗数据识别模型;
从历史医疗病历大数据中进行数据抽取,得到预设数据量的病历训练数据;
将所述病历训练数据导入医疗数据识别模型进行医疗数据识别训练,得到训练识别结果;
对训练识别结果进行基于医学自然语言的语义分析并计算出医学语义数据占比率,若占比率小于预设占比率,则进行重复训练,直至占比率大于等于预设占比率。
本方案中,所述将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据,具体为:
获取预设医疗文书数据;
根据所述预设医疗文书数据进行数据特征与结构分析,得到对应医疗文书特征信息;
将待识别医疗文档数据导入医疗数据识别模型进行内容识别得到初步识别结果数据;
基于医疗文书特征信息将初步识别结果数据进行数据结构化处理,得到医疗文书大数据。
本方案中,所述基于医疗专属语义模型,将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据,具体为:
获取医学知识标准语义库;
获取当前医疗文档数据库;
将当前医疗文档数据库中的医疗文档数据进行语义分割与专业术语词汇提取,得到当前医学语义库;
将当前医学语义库与医学知识标准语义库进行术语词汇融合得到第一医学语义库;
将医疗文书大数据进行数据清洗与去冗余;
根据第一医学语义库构造医疗专属语义模型,将医疗文书大数据导入医疗专属语义模型进行医疗语义关系分析与数据对象关系提取,得到关联结构信息;
根据关联结构信息对医疗文书大数据进行结构转化得到历史病历结构化数据。
本方案中,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,具体为:
将历史病历结构化数据进行病种数据与病案表征信息统计,得到表征病案数据与病种数据;
将所述表征病案数据与病种数据进行数据关联,得到病种关联信息;
基于病种关联信息,在标准诊断库中进行标准诊断信息检索,并将检索结果数据与病种数据进行映射得到病种诊断映射关系。
本方案中,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,还包括:
获取预设病历编码规则;
根据预设病历编码规则,结合病种关联信息与病种诊断映射关系,从历史病历结构化数据进行数据提取与数据编码,得到编码后的病历数据。
本方案中,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,还包括:
获取预设病历质控规则;
根据所述预设病历质控规则结合病种诊断映射关系进行质检流程点分析,得到多个病历质检点;
根据所述病历质检点,结合病种诊断映射关系,对编码后的病历数据进行相应质检点的审核。
本发明第二方面还提供了一种基于医疗文档后结构化的数据质量控制系统,该系统包括:存储器、处理器,所述存储器中包括基于医疗文档后结构化的数据质量控制程序,所述基于医疗文档后结构化的数据质量控制程序被所述处理器执行时实现如下步骤:
获取待识别医疗文档数据;
将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据;
基于医疗专属语义模型,将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据;
根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制。
本方案中,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,具体为:
将历史病历结构化数据进行病种数据与病案表征信息统计,得到表征病案数据与病种数据;
将所述表征病案数据与病种数据进行数据关联,得到病种关联信息;
基于病种关联信息,在标准诊断库中进行标准诊断信息检索,并将检索结果数据与病种数据进行映射得到病种诊断映射关系。
本方案中,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,还包括:
获取预设病历编码规则;
根据预设病历编码规则,结合病种关联信息与病种诊断映射关系,从历史病历结构化数据进行数据提取与数据编码,得到编码后的病历数据。
通过本发明方案,能够实现以下有益效果:
本发明能够在不影响医生用户自由输入的情况下爱,实现医疗数据的结构化,从容能够实现医院不同科室的病历互动、互通、互换的目的。通过本发明能够解读自然语言描述的病历,后台系统对自由化输入的电子病历文档进行结构化处理,自动的、智能化地从电子病历中提取关键内容,兼容了自由化输入与结构化存储的长处。
通过自然语义处理技术结合医学知识库,能够快速处理更复杂的文本分析任务,实现高效地将文本数据转化为病历数据。
对非结构化数据进行深度分析,细颗粒化的结构化处理,能更精准的对病历内容进行深度分析,全病历分析,实现深度内涵质控,实现了质控的深度、广度和准确度的提高。
附图说明
图1示出了本发明一种基于医疗文档后结构化的数据质量控制方法的流程图;
图2示出了本发明构建医疗数据识别模型流程图;
图3示出了本发明获取医疗文书大数据流程图;
图4示出了本发明一种基于医疗文档后结构化的数据质量控制系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种基于医疗文档后结构化的数据质量控制方法的流程图。
如图1所示,本发明第一方面提供了一种基于医疗文档后结构化的数据质量控制方法,包括:
S102,获取待识别医疗文档数据;
S104,将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据;
S106,基于医疗专属语义模型,将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据;
S108,根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制。
需要说明的是,所述待识别医疗文档数据可以为图片、文档、医疗扫描数据等,也可以是用户手写的医疗扫描文档。
图2示出了本发明构建医疗数据识别模型流程图。
根据本发明实施例,所述将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据,之前包括:
S202,构建医疗数据识别模型;
S204,从历史医疗病历大数据中进行数据抽取,得到预设数据量的病历训练数据;
S206,将所述病历训练数据导入医疗数据识别模型进行医疗数据识别训练,得到训练识别结果;
S208,对训练识别结果进行基于医学自然语言的语义分析并计算出医学语义数据占比率,若占比率小于预设占比率,则进行重复训练,直至占比率大于等于预设占比率。
需要说明的是,所述病历训练数据包括图片与文本格式数据。所述医疗数据识别模型具体为基于ORC、RPA等文字识别技术的模型,通过医疗数据识别模型能够识别复杂的文档扫描数据并转化为特定的病历数据。所述对训练识别结果进行基于医学自然语言的语义分析并计算出医学语义数据占比率中,若占比率低于预设占比率,则代表识别出来的医学语义数据量较低,需要进行重复训练。
图3示出了本发明获取医疗文书大数据流程图。
根据本发明实施例,所述将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据,具体为:
S302,获取预设医疗文书数据;
S304,根据所述预设医疗文书数据进行数据特征与结构分析,得到对应医疗文书特征信息;
S306,将待识别医疗文档数据导入医疗数据识别模型进行内容识别得到初步识别结果数据;
S308,基于医疗文书特征信息将初步识别结果数据进行数据结构化处理,得到医疗文书大数据。
需要说明的是,所述预设医疗文书数据具体为由用户设定的数据,且具有一定的规范与格式。本发明通过对预设医疗文书数据的特征提取并基于特征对当前初步识别结果数据进行一定的结构转化,能够得到具有预设结构要求的医疗文书大数据。
根据本发明实施例,所述基于医疗专属语义模型,将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据,具体为:
获取医学知识标准语义库;
获取当前医疗文档数据库;
将当前医疗文档数据库中的医疗文档数据进行语义分割与专业术语词汇提取,得到当前医学语义库;
将当前医学语义库与医学知识标准语义库进行术语词汇融合得到第一医学语义库;
将医疗文书大数据进行数据清洗与去冗余;
根据第一医学语义库构造医疗专属语义模型,将医疗文书大数据导入医疗专属语义模型进行医疗语义关系分析与数据对象关系提取,得到关联结构信息;
根据关联结构信息对医疗文书大数据进行结构转化得到历史病历结构化数据。
需要说明的是,所述关系提取具体为将医疗文书大数据中的各种医学数据之间的关联关系进行提取,所述各种医学数据包括不同格式的医学数据,本发明通过将医疗文书大数据进行结构转化得到历史病历结构化数据,能够进一步对医疗文书大数据进行数据挖掘并形成有医学分析价值的结构数据,并对后续的病历编码与质控提供数据基础。
根据本发明实施例,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,具体为:
将历史病历结构化数据进行病种数据与病案表征信息统计,得到表征病案数据与病种数据;
将所述表征病案数据与病种数据进行数据关联,得到病种关联信息;
基于病种关联信息,在标准诊断库中进行标准诊断信息检索,并将检索结果数据与病种数据进行映射得到病种诊断映射关系。
需要说明的是,所述病种关联信息具体为病种与表征信息的关联关系,通过获取关联信息,能够基于病种进行快速的相关表征信息提取。所述病种诊断映射关系具体为病种信息与诊断信息的一一映射关系数据,所述映射关系数据采用表格方式对映射内容进行存储,通过病种诊断映射关系能够对病种与诊断等数据进行快速的关系提取与相关数据的提取,有效提高病历数据的查询与检索。
根据本发明实施例,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,还包括:
获取预设病历编码规则;
根据预设病历编码规则,结合病种关联信息与病种诊断映射关系,从历史病历结构化数据进行数据提取与数据编码,得到编码后的病历数据。
需要说明的是,所述预设病历编码规则为用户设定的规则,用以对病历数据进行标准化编码与后续质控处理。
根据本发明实施例,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,还包括:
获取预设病历质控规则;
根据所述预设病历质控规则结合病种诊断映射关系进行质检流程点分析,得到多个病历质检点;
根据所述病历质检点,结合病种诊断映射关系,对编码后的病历数据进行相应质检点的审核。
需要说明的是,本发明通过病种诊断映射关系,能够对质检点进行快速定位与数据检索,进一步加快病历数据质检质控过程。
根据本发明实施例,所述根据所述病历质检点,结合病种诊断映射关系,对编码后的病历数据进行相应质检点的审核,具体为:
根据获取病历质检点;
根据所述病历质检点,基于病种诊断映射关系从历史病历结构化数据中进行快速定位,得到相应病历数据位置;
根据所述病历数据位置从编码后的病历数据中进行数据提取并将提取的数据与预设标准化数据进行对比;
若出现不符合预设标准化数据情况,将对应的质检点进行汇总,得到质检错误统计信息;
用户通过质检错误统计信息,对相应数据进行纠错与修正。
需要说明的是,本发明通过病种诊断映射关系,对相关质检点进行快速的数据检索,能够进一步提高病历质检的效率,从而实现高效病历质控。
根据本发明实施例,还包括:
获取需求指标信息;
根据需求指标信息进行信息提取得到检索指标信息;
根据检索指标信息,从病种诊断映射关系中进行检索,得到指标所在的病种信息与诊断信息;
根据所述病种信息与诊断信息,从历史病历结构化数据中进行二次检索得到检索指标相对应的病历数据;
将所述病历数据进行数据整合得到检索结果病历数据。
需要说明的是,在病历数据采集与使用过程中,常常会需要对相关指标进行抽取,此时,如果简单地从病历数据库中进行检索将花费大量的硬件资源,耗时耗力,且简单检索的结果数据存在大量冗余数据,还有与指标相关的数据吻合度低等问题,需要进一步对数据进行筛选。而本发明通过在病种诊断映射关系先进行映射关系的提取得到相应的病种信息与诊断信息,再进行二次的病历数据检索能够大大提高病历中相关指标与相关病历数据的提取,且得到的检索结果病历数据冗余量低,符合指标相关的数据吻合度高。
图4示出了本发明一种基于医疗文档后结构化的数据质量控制系统的框图。
本发明第二方面还提供了一种基于医疗文档后结构化的数据质量控制系统4,该系统包括:存储器41、处理器42,所述存储器中包括基于医疗文档后结构化的数据质量控制程序,所述基于医疗文档后结构化的数据质量控制程序被所述处理器执行时实现如下步骤:
获取待识别医疗文档数据;
将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据;
基于医疗专属语义模型,将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据;
根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制。
需要说明的是,所述待识别医疗文档数据可以为图片、文档、医疗扫描数据等,也可以是用户手写的医疗扫描文档。
根据本发明实施例,所述将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据,之前包括:
构建医疗数据识别模型;
从历史医疗病历大数据中进行数据抽取,得到预设数据量的病历训练数据;
将所述病历训练数据导入医疗数据识别模型进行医疗数据识别训练,得到训练识别结果;
对训练识别结果进行基于医学自然语言的语义分析并计算出医学语义数据占比率,若占比率小于预设占比率,则进行重复训练,直至占比率大于等于预设占比率。
需要说明的是,所述病历训练数据包括图片与文本格式数据。所述医疗数据识别模型具体为基于ORC、RPA等文字识别技术的模型,通过医疗数据识别模型能够识别复杂的文档扫描数据并转化为特定的病历数据。所述对训练识别结果进行基于医学自然语言的语义分析并计算出医学语义数据占比率中,若占比率低于预设占比率,则代表识别出来的医学语义数据量较低,需要进行重复训练。
根据本发明实施例,所述将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据,具体为:
获取预设医疗文书数据;
根据所述预设医疗文书数据进行数据特征与结构分析,得到对应医疗文书特征信息;
将待识别医疗文档数据导入医疗数据识别模型进行内容识别得到初步识别结果数据;
基于医疗文书特征信息将初步识别结果数据进行数据结构化处理,得到医疗文书大数据。
需要说明的是,所述预设医疗文书数据具体为由用户设定的数据,且具有一定的规范与格式。本发明通过对预设医疗文书数据的特征提取并基于特征对当前初步识别结果数据进行一定的结构转化,能够得到具有预设结构要求的医疗文书大数据。
根据本发明实施例,所述基于医疗专属语义模型,将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据,具体为:
获取医学知识标准语义库;
获取当前医疗文档数据库;
将当前医疗文档数据库中的医疗文档数据进行语义分割与专业术语词汇提取,得到当前医学语义库;
将当前医学语义库与医学知识标准语义库进行术语词汇融合得到第一医学语义库;
将医疗文书大数据进行数据清洗与去冗余;
根据第一医学语义库构造医疗专属语义模型,将医疗文书大数据导入医疗专属语义模型进行医疗语义关系分析与数据对象关系提取,得到关联结构信息;
根据关联结构信息对医疗文书大数据进行结构转化得到历史病历结构化数据。
需要说明的是,所述关系提取具体为将医疗文书大数据中的各种医学数据之间的关联关系进行提取,所述各种医学数据包括不同格式的医学数据,本发明通过将医疗文书大数据进行结构转化得到历史病历结构化数据,能够进一步对医疗文书大数据进行数据挖掘并形成有医学分析价值的结构数据,并对后续的病历编码与质控提供数据基础。
根据本发明实施例,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,具体为:
将历史病历结构化数据进行病种数据与病案表征信息统计,得到表征病案数据与病种数据;
将所述表征病案数据与病种数据进行数据关联,得到病种关联信息;
基于病种关联信息,在标准诊断库中进行标准诊断信息检索,并将检索结果数据与病种数据进行映射得到病种诊断映射关系。
需要说明的是,所述病种关联信息具体为病种与表征信息的关联关系,通过获取关联信息,能够基于病种进行快速的相关表征信息提取。所述病种诊断映射关系具体为病种信息与诊断信息的一一映射关系数据,所述映射关系数据采用表格方式对映射内容进行存储,通过病种诊断映射关系能够对病种与诊断等数据进行快速的关系提取与相关数据的提取,有效提高病历数据的查询与检索。
根据本发明实施例,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,还包括:
获取预设病历编码规则;
根据预设病历编码规则,结合病种关联信息与病种诊断映射关系,从历史病历结构化数据进行数据提取与数据编码,得到编码后的病历数据。
需要说明的是,所述预设病历编码规则为用户设定的规则,用以对病历数据进行标准化编码与后续质控处理。
根据本发明实施例,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,还包括:
获取预设病历质控规则;
根据所述预设病历质控规则结合病种诊断映射关系进行质检流程点分析,得到多个病历质检点;
根据所述病历质检点,结合病种诊断映射关系,对编码后的病历数据进行相应质检点的审核。
需要说明的是,本发明通过病种诊断映射关系,能够对质检点进行快速定位与数据检索,进一步加快病历数据质检质控过程。
根据本发明实施例,所述根据所述病历质检点,结合病种诊断映射关系,对编码后的病历数据进行相应质检点的审核,具体为:
根据获取病历质检点;
根据所述病历质检点,基于病种诊断映射关系从历史病历结构化数据中进行快速定位,得到相应病历数据位置;
根据所述病历数据位置从编码后的病历数据中进行数据提取并将提取的数据与预设标准化数据进行对比;
若出现不符合预设标准化数据情况,将对应的质检点进行汇总,得到质检错误统计信息;
用户通过质检错误统计信息,对相应数据进行纠错与修正。
需要说明的是,本发明通过病种诊断映射关系,对相关质检点进行快速的数据检索,能够进一步提高病历质检的效率,从而实现高效病历质控。
根据本发明实施例,还包括:
获取需求指标信息;
根据需求指标信息进行信息提取得到检索指标信息;
根据检索指标信息,从病种诊断映射关系中进行检索,得到指标所在的病种信息与诊断信息;
根据所述病种信息与诊断信息,从历史病历结构化数据中进行二次检索得到检索指标相对应的病历数据;
将所述病历数据进行数据整合得到检索结果病历数据。
需要说明的是,在病历数据采集与使用过程中,常常会需要对相关指标进行抽取,此时,如果简单地从病历数据库中进行检索将花费大量的硬件资源,耗时耗力,且简单检索的结果数据存在大量冗余数据,还有与指标相关的数据吻合度低等问题,需要进一步对数据进行筛选。而本发明通过在病种诊断映射关系先进行映射关系的提取得到相应的病种信息与诊断信息,再进行二次的病历数据检索能够大大提高病历中相关指标与相关病历数据的提取,且得到的检索结果病历数据冗余量低,符合指标相关的数据吻合度高。
本发明公开了一种基于医疗文档后结构化的数据质量控制方法及系统,通过将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据,基于医疗专属语义模型,将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据,根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,提高了质控质检效率。另外,本发明能够对自由化输入的电子病历文档进行结构化处理,自动地、智能化地从电子病历中提取关键内容,兼容了自由化输入与结构化存储的长处。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种基于医疗文档后结构化的数据质量控制方法,其特征在于,包括:
获取待识别医疗文档数据;
将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据;
基于医疗专属语义模型,将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据;
根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制。
2.根据权利要求1所述的一种基于医疗文档后结构化的数据质量控制方法,其特征在于,所述将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据,之前包括:
构建医疗数据识别模型;
从历史医疗病历大数据中进行数据抽取,得到预设数据量的病历训练数据;
将所述病历训练数据导入医疗数据识别模型进行医疗数据识别训练,得到训练识别结果;
对训练识别结果进行基于医学自然语言的语义分析并计算出医学语义数据占比率,若占比率小于预设占比率,则进行重复训练,直至占比率大于等于预设占比率。
3.根据权利要求1所述的一种基于医疗文档后结构化的数据质量控制方法,其特征在于,所述将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据,具体为:
获取预设医疗文书数据;
根据所述预设医疗文书数据进行数据特征与结构分析,得到对应医疗文书特征信息;
将待识别医疗文档数据导入医疗数据识别模型进行内容识别得到初步识别结果数据;
基于医疗文书特征信息将初步识别结果数据进行数据结构化处理,得到医疗文书大数据。
4.根据权利要求1所述的一种基于医疗文档后结构化的数据质量控制方法,其特征在于,所述基于医疗专属语义模型,将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据,具体为:
获取医学知识标准语义库;
获取当前医疗文档数据库;
将当前医疗文档数据库中的医疗文档数据进行语义分割与专业术语词汇提取,得到当前医学语义库;
将当前医学语义库与医学知识标准语义库进行术语词汇融合得到第一医学语义库;
将医疗文书大数据进行数据清洗与去冗余;
根据第一医学语义库构造医疗专属语义模型,将医疗文书大数据导入医疗专属语义模型进行医疗语义关系分析与数据对象关系提取,得到关联结构信息;
根据关联结构信息对医疗文书大数据进行结构转化得到历史病历结构化数据。
5.根据权利要求1所述的一种基于医疗文档后结构化的数据质量控制方法,其特征在于,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,具体为:
将历史病历结构化数据进行病种数据与病案表征信息统计,得到表征病案数据与病种数据;
将所述表征病案数据与病种数据进行数据关联,得到病种关联信息;
基于病种关联信息,在标准诊断库中进行标准诊断信息检索,并将检索结果数据与病种数据进行映射得到病种诊断映射关系。
6.根据权利要求5所述的一种基于医疗文档后结构化的数据质量控制方法,其特征在于,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,还包括:
获取预设病历编码规则;
根据预设病历编码规则,结合病种关联信息与病种诊断映射关系,从历史病历结构化数据进行数据提取与数据编码,得到编码后的病历数据。
7.根据权利要求6所述的一种基于医疗文档后结构化的数据质量控制方法,其特征在于,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,还包括:
获取预设病历质控规则;
根据所述预设病历质控规则结合病种诊断映射关系进行质检流程点分析,得到多个病历质检点;
根据所述病历质检点,结合病种诊断映射关系,对编码后的病历数据进行相应质检点的审核。
8.一种基于医疗文档后结构化的数据质量控制系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括基于医疗文档后结构化的数据质量控制程序,所述基于医疗文档后结构化的数据质量控制程序被所述处理器执行时实现如下步骤:
获取待识别医疗文档数据;
将待识别医疗文档数据导入医疗数据识别模型进行识别与数据结构化得到医疗文书大数据;
基于医疗专属语义模型,将医疗文书大数据进行数据清洗与抽取并构建关联结构形成历史病历结构化数据;
根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制。
9.根据权利要求8所述的一种基于医疗文档后结构化的数据质量控制系统,其特征在于,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,具体为:
将历史病历结构化数据进行病种数据与病案表征信息统计,得到表征病案数据与病种数据;
将所述表征病案数据与病种数据进行数据关联,得到病种关联信息;
基于病种关联信息,在标准诊断库中进行标准诊断信息检索,并将检索结果数据与病种数据进行映射得到病种诊断映射关系。
10.根据权利要求8所述的一种基于医疗文档后结构化的数据质量控制系统,其特征在于,所述根据历史病历结构化数据,将病种信息与标准诊断库进行关联映射,形成映射关系信息,并基于映射关系对历史病历结构化数据进行编码与质量控制,还包括:
获取预设病历编码规则;
根据预设病历编码规则,结合病种关联信息与病种诊断映射关系,从历史病历结构化数据进行数据提取与数据编码,得到编码后的病历数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310201233.7A CN116469500A (zh) | 2023-03-06 | 2023-03-06 | 一种基于医疗文档后结构化的数据质量控制方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310201233.7A CN116469500A (zh) | 2023-03-06 | 2023-03-06 | 一种基于医疗文档后结构化的数据质量控制方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116469500A true CN116469500A (zh) | 2023-07-21 |
Family
ID=87184805
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310201233.7A Pending CN116469500A (zh) | 2023-03-06 | 2023-03-06 | 一种基于医疗文档后结构化的数据质量控制方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116469500A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558392A (zh) * | 2024-01-12 | 2024-02-13 | 富纳德科技(北京)有限公司 | 一种电子病历共享协作方法与系统 |
CN117831698A (zh) * | 2024-03-04 | 2024-04-05 | 吉林大学 | 用于护理病历的智能质量控制系统及方法 |
-
2023
- 2023-03-06 CN CN202310201233.7A patent/CN116469500A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117558392A (zh) * | 2024-01-12 | 2024-02-13 | 富纳德科技(北京)有限公司 | 一种电子病历共享协作方法与系统 |
CN117558392B (zh) * | 2024-01-12 | 2024-04-05 | 富纳德科技(北京)有限公司 | 一种电子病历共享协作方法与系统 |
CN117831698A (zh) * | 2024-03-04 | 2024-04-05 | 吉林大学 | 用于护理病历的智能质量控制系统及方法 |
CN117831698B (zh) * | 2024-03-04 | 2024-05-24 | 吉林大学 | 用于护理病历的智能质量控制系统及方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110457302B (zh) | 一种结构化数据智能清洗方法 | |
CN116469500A (zh) | 一种基于医疗文档后结构化的数据质量控制方法及系统 | |
CN110990390B (zh) | 数据协同处理方法、装置、计算机设备和存储介质 | |
CN115061721A (zh) | 一种报表生成方法、装置、计算机设备及存储介质 | |
CN109857736A (zh) | 医院异构系统的数据编码统一化方法及系统、设备、介质 | |
CN111370132B (zh) | 电子文件的解析方法及装置、计算机设备、存储介质 | |
CN110597844A (zh) | 异构数据库数据统一访问方法及相关设备 | |
CN107193996B (zh) | 相似病历匹配检索系统 | |
CN117520503A (zh) | 基于llm模型的金融客服对话生成方法、装置、设备及介质 | |
CN116304186A (zh) | 一种医疗文档后结构化处理方法及系统 | |
CN111984625B (zh) | 数据库负载特征处理方法、装置、介质和电子设备 | |
CN116484084B (zh) | 基于应用信息挖掘的元数据血缘分析方法、介质及系统 | |
CN110874366A (zh) | 数据处理、查询方法和装置 | |
CN111104422B (zh) | 一种数据推荐模型的训练方法、装置、设备及存储介质 | |
CN117150138A (zh) | 一种基于高维空间映射的科技资源组织方法及系统 | |
CN111460114A (zh) | 检索方法、装置、设备及计算机可读存储介质 | |
CN116303922A (zh) | 咨询消息应答方法、装置、计算机设备、存储介质和产品 | |
CN114417010A (zh) | 面向实时工作流的知识图谱构建方法、装置和存储介质 | |
CN116168793A (zh) | 体检数据的处理分析方法及相关设备 | |
CN114495138A (zh) | 一种智能文档识别与特征提取方法、装置平台和存储介质 | |
CN114882965A (zh) | 一种单病种数据上报方法、终端设备及存储介质 | |
CN112668284B (zh) | 一种法律文书分段方法及系统 | |
CN114625889A (zh) | 一种语义消歧方法、装置、电子设备及存储介质 | |
CN115168399B (zh) | 基于图形化界面的数据处理方法、装置、设备及存储介质 | |
CN117112846B (zh) | 一种多信息源证照信息管理方法、系统及介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |