CN116304186A - 一种医疗文档后结构化处理方法及系统 - Google Patents
一种医疗文档后结构化处理方法及系统 Download PDFInfo
- Publication number
- CN116304186A CN116304186A CN202310053564.0A CN202310053564A CN116304186A CN 116304186 A CN116304186 A CN 116304186A CN 202310053564 A CN202310053564 A CN 202310053564A CN 116304186 A CN116304186 A CN 116304186A
- Authority
- CN
- China
- Prior art keywords
- data
- medical
- entity
- document
- document data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims description 51
- 238000003672 processing method Methods 0.000 title claims description 13
- 238000000586 desensitisation Methods 0.000 claims abstract description 45
- 238000004458 analytical method Methods 0.000 claims abstract description 36
- 238000011282 treatment Methods 0.000 claims abstract description 23
- 238000000605 extraction Methods 0.000 claims abstract description 21
- 238000000034 method Methods 0.000 claims abstract description 21
- 238000012549 training Methods 0.000 claims description 20
- 238000012795 verification Methods 0.000 claims description 14
- 230000010354 integration Effects 0.000 claims description 6
- 238000013075 data extraction Methods 0.000 claims description 5
- 238000006243 chemical reaction Methods 0.000 claims description 4
- 238000012217 deletion Methods 0.000 claims description 4
- 230000037430 deletion Effects 0.000 claims description 4
- 230000004927 fusion Effects 0.000 claims description 4
- 230000006798 recombination Effects 0.000 claims description 4
- 238000005215 recombination Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 claims description 2
- 229940079593 drug Drugs 0.000 description 10
- 239000003814 drug Substances 0.000 description 10
- 201000010099 disease Diseases 0.000 description 4
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 238000010276 construction Methods 0.000 description 3
- 230000003287 optical effect Effects 0.000 description 3
- 230000008901 benefit Effects 0.000 description 2
- 238000007405 data analysis Methods 0.000 description 2
- 230000007547 defect Effects 0.000 description 2
- 238000010586 diagram Methods 0.000 description 2
- 238000007689 inspection Methods 0.000 description 2
- 230000007721 medicinal effect Effects 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 238000012916 structural analysis Methods 0.000 description 2
- 238000000547 structure data Methods 0.000 description 2
- 230000033228 biological regulation Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 230000006698 induction Effects 0.000 description 1
- 210000001503 joint Anatomy 0.000 description 1
- 230000006855 networking Effects 0.000 description 1
- 238000003908 quality control method Methods 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000009897 systematic effect Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/80—Information retrieval; Database structures therefor; File system structures therefor of semi-structured data, e.g. markup language structured data such as SGML, XML or HTML
- G06F16/81—Indexing, e.g. XML tags; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
- G06F16/367—Ontology
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/602—Providing cryptographic facilities or services
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Animal Behavior & Ethology (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Bioethics (AREA)
- General Health & Medical Sciences (AREA)
- Computer Hardware Design (AREA)
- Computer Security & Cryptography (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本发明公开了一种医疗文档后结构化处理方法及系统,通过对非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据,进一步将数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据,并对结构化文档数据进行数据特征抽取与数据关系分析并生成特定知识图谱数据,通过特定知识图谱数据能够快速地检索出具有结构化特点的用户需求数据,对数据进行结构化存储,进而提升用户对数据的分析处理效率。
Description
技术领域
本发明涉及数字文档结构化领域,更具体的,涉及一种医疗文档后结构化处理方法及系统。
背景技术
病历(病案)是患者疾病发生、发展、诊断、治疗情况的系统记录;是临床医师根据问诊、查体、辅助检查以及对病情的详细观察所获得的资料,经过归纳、分析、整理、书写而成的疾病档案资料。病历不但真实反映患者病情,也直接反映医院医疗质量、学术水平及管理水平;不但为医疗、科研、教学提供极其宝贵的基础资料,也为医院管理提供不可缺少的医疗信息;在涉及医疗争议时,病历又是帮助判定法律责任的重要依据;在医疗保险中,病历是相关医疗付费的凭据。
所以,对患者病案的妥善保管室医疗机构的义务也是责任,根据《医疗机构病历管理规定(2013年版)》第二十九条门(急)诊病历由医疗机构保管的,保存时间自患者最后一次就诊之日起不少于15年;住院病历保存时间自患者最后一次住院出院之日起不少于30年。
纸质病历信息量大,医疗、科研、教学价值大,但是由于技术的限制无法充分利用,仅仅作为一种档案的形式存在,近年来医院通过各种对纸质病历进行电子化处理,如微缩、数字化翻拍、无纸化改造等,但均只是将病历从纸质转换为电子形式,对病历内容的利用没有起到作用。
在现有技术中,有电子病历系统、病案数字化管理、病案无纸化等相关技术内容。电子病历系统,是医学专用软件。医院通过电子病历以电子化方式记录患者就诊的信息,包括:首页、病程记录、检查检验结果、医嘱、手术记录、护理记录等等,其中既有结构化信息,也有非结构化的自由文本,还有图形图像信息。涉及病人信息的采集、存储、传输、质量控制、统计和利用。病案数字化管理,通过高拍仪将纸质病案进行数字化处理后存储到硬盘介质或光盘中,是病案应用子系统的前提条件。系统极大地提高病案室工作效率并充分节省资源,解决了传统方法对病案管理的诸多弊端,例如空间制约、物理损害、利用率低、管理不顺、统计不便等,同时也给医院带来了各类益处。病案无纸化,通过收集分散在院内各个信息系统的格式化数据,并对数据进行分析整理,使数据有序化,然后通过既定标准进行数据格式化(PDF),从而形成一份完整的电子病历,同时借助可靠电子签名进行可信归档,进而构建独立于医院信息系统的医院完整电子病案信息库,实现病案存储数字化、检索网络化、管理信息化、应用灵活化。但这些现有技术依然存在缺陷与不足,如电子病历系统实现了基本的结构化数据录入和展示,但是非结构化的自由文本占了很大的篇幅,最终形成的病历无法实现细颗粒的结构化数据。对于病案数字化管理,病案数字化只是对医疗文书进行电子化扫描和翻拍,以图片的形式进行存储,却不具备获取文书内容的能力。而病案无纸化,是通过接口对接的方式从业务系统获取病历文书,进而转换成PDF文件进行存储,部分无纸化系统实现了提取PDF文件的文本信息,但是提取的文本信息都是以非结构化的自由文本的形式存在,无法进行结构化的存储。
发明内容
本发明克服了原有技术的缺陷,提出了一种医疗文档后结构化处理方法及系统。
本发明第一方面提供了一种医疗文档后结构化处理方法,包括:
获取非结构化医疗文档数据;
对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据;
将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据;
对结构化文档数据进行数据特征抽取与数据关系分析并生成特定知识图谱数据;
获取用户业务数据需求信息,根据需求信息从特定知识图谱数据中进行实体数据关系分析与数据提取得到用户业务需求大数据。
本方案中,所述将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据,之前包括:
构建文字识别模型,从医疗文档大数据中进行图像与文字数据提取,得到图像文字关联数据;
将图像文字关联数据按照预设比例划分为训练数据与验证数据;
将所述训练数据与验证数据导入文字识别模型进行多次识别训练直至达到预设识别准确率。
本方案中,所述对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据,具体为:
将非结构化医疗文档数据根据数据格式进行分类,得到图像类数据与文字类数据;
将图像类数据进行统一格式转换并通过文字识别模型进行文字提取得到第一文档数据;
将文字类数据进行统一格式转换得到第二文档数据;
将所述第一文档数据与第二文档数据进行数据整合得到结果文档数据。
本方案中,所述对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据,还包括:
根据用户预设敏感数据类型进行脱敏等级分类并设置对应脱敏规则;
根据预设脱敏等级获取对应数据脱敏规则;
根据所述数据脱敏规则将结果文档数据进行敏感数据检索与删除,得到数字化文本数据。
本方案中,所述将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据,具体为:
构建医学自然语言模型;
将数字化文本数据导入医学自然语言模型进行医疗信息提取与医学术语标准化处理,得到第一处理文档数据;
将所述第一处理文档数据根据医学档案结构标准进行数据重组,得到符合预设数据标准的结构化文档数据。
本方案中,所述对结构化文档数据进行数据特征抽取与数据关系分析并生成特定知识图谱数据,具体为:
对结构化文档数据进行实体概念提取得到实体模型;
从实体模型抽取实体关系特征得到实体关系模型;
将实体模型与实体关系模型进行图结构关联并生成特定知识图谱数据。
本方案中,所述获取用户业务数据需求信息,根据需求信息从特定知识图谱数据中进行实体数据关系分析与数据提取得到用户业务需求大数据,具体为:
根据用户业务数据需求信息进行需求关键词分析,得到初始关键词;
根据将初始关键词导入医学自然语言模型进行语言转换,得到的对应的医学关键词;
根据医学关键词进行特征提取并根据关键词特征从实体模型中进行检索得到对应结果实体数据;
根据结果实体数据从知识图谱数据中进行实体关系分析,得到第一实体关系信息;
根据第一实体关系信息进行关联实体数据抽取,得到一级关联数据;
将结果实体数据、第一实体关系信息、一级关联数据进行大数据融合,形成用户业务需求大数据。
本发明第二方面还提供了一种医疗文档后结构化处理系统,该系统包括:存储器、处理器,所述存储器中包括医疗文档后结构化处理程序,所述医疗文档后结构化处理程序被所述处理器执行时实现如下步骤:
获取非结构化医疗文档数据;
对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据;
将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据;
对结构化文档数据进行数据特征抽取与数据关系分析并生成特定知识图谱数据;
获取用户业务数据需求信息,根据需求信息从特定知识图谱数据中进行实体数据关系分析与数据提取得到用户业务需求大数据。
本方案中,将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据,之前包括:
构建文字识别模型,从医疗文档大数据中进行图像与文字数据提取,得到图像文字关联数据;
将图像文字关联数据按照预设比例划分为训练数据与验证数据;
将所述训练数据与验证数据导入文字识别模型进行多次识别训练直至达到预设识别准确率。
本方案中,所述对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据,具体为:
将非结构化医疗文档数据根据数据格式进行分类,得到图像类数据与文字类数据;
将图像类数据进行统一格式转换并通过文字识别模型进行文字提取得到第一文档数据;
将文字类数据进行统一格式转换得到第二文档数据;
将所述第一文档数据与第二文档数据进行数据整合得到结果文档数据。
本发明公开了一种医疗文档后结构化处理方法及系统,通过对非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据,进一步将数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据,并对结构化文档数据进行数据特征抽取与数据关系分析并生成特定知识图谱数据,通过特定知识图谱数据能够快速地检索出具有结构化特点的用户需求数据,对数据进行结构化存储,进而提升用户对数据的分析处理效率。
附图说明
图1示出了本发明一种医疗文档后结构化处理方法的流程图;
图2示出了本发明构建文字识别模型流程图;
图3示出了本发明结果文档数据获取流程图;
图4示出了本发明一种医疗文档后结构化处理系统的框图。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
图1示出了本发明一种医疗文档后结构化处理方法的流程图。
如图1所示,本发明第一方面提供了一种医疗文档后结构化处理方法,包括:
S102,获取非结构化医疗文档数据;
S104,对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据;
S106,将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据;
S108,对结构化文档数据进行数据特征抽取与数据关系分析并生成特定知识图谱数据;
S110,获取用户业务数据需求信息,根据需求信息从特定知识图谱数据中进行实体数据关系分析与数据提取得到用户业务需求大数据。
图2示出了本发明构建文字识别模型流程图。
根据本发明实施例,所述将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据,之前包括:
S202,构建文字识别模型,从医疗文档大数据中进行图像与文字数据提取,得到图像文字关联数据;
S204,将图像文字关联数据按照预设比例划分为训练数据与验证数据;
S206,将所述训练数据与验证数据导入文字识别模型进行多次识别训练直至达到预设识别准确率。
需要说明的是,所述将图像文字关联数据按照预设比例划分为训练数据与验证数据中,一般预设比例为1:1,且具体可以根据数据量大小进行调整。所述文字识别模型包括基于OCR技术的CNN、RNN、STAR-Net等图片文字识别算法。
图3示出了本发明结果文档数据获取流程图。
根据本发明实施例,所述对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据,具体为:
S302,将非结构化医疗文档数据根据数据格式进行分类,得到图像类数据与文字类数据;
S304,将图像类数据进行统一格式转换并通过文字识别模型进行文字提取得到第一文档数据;
S306,将文字类数据进行统一格式转换得到第二文档数据;
S308,将所述第一文档数据与第二文档数据进行数据整合得到结果文档数据。
需要说明的是,所述图像类数据包括无纸化病历文书(PDF格式),数字化翻拍文书、检查结果图像数据等,所述文字类数据包括非结构化的医疗文档,格式为word、excel、txt等。
根据本发明实施例,所述对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据,还包括:
根据用户预设敏感数据类型进行脱敏等级分类并设置对应脱敏规则;
根据预设脱敏等级获取对应数据脱敏规则;
根据所述数据脱敏规则将结果文档数据进行敏感数据检索与删除,得到数字化文本数据。
需要说明的是,所述进行脱敏等级分类并设置对应脱敏规则中,一般设置4~5个等级,每个等级对应不同的脱敏规则,等级越大,所涉及的敏感数据越多,对应删除的敏感数据也越多。
根据本发明实施例,所述将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据,具体为:
构建医学自然语言模型;
将数字化文本数据导入医学自然语言模型进行医疗信息提取与医学术语标准化处理,得到第一处理文档数据;
将所述第一处理文档数据根据医学档案结构标准进行数据重组,得到符合预设数据标准的结构化文档数据。
需要说明的是,所述医学自然语言模型包括医学语言标准库,基于AI算法的文字提取模型等。通过医学自然语言模型能够准确地提取数字化文本数据中的关键医学数据,从而进一步进行标准化处理。所述医学档案结构标准一般为用户预设的档案标准,包括文档格式标准,文档结构标准等。通过生成结构化文档数据能够提高后续构建知识图谱与检索数据的综合效率。
根据本发明实施例,所述对结构化文档数据进行数据特征抽取与数据关系分析并生成特定知识图谱数据,具体为:
对结构化文档数据进行实体概念提取得到实体模型;
从实体模型抽取实体关系特征得到实体关系模型;
将实体模型与实体关系模型进行图结构关联并生成特定知识图谱数据。
需要说明的是,所述实体模型具体包括结构化文档数据中的所有实体数据,如“病人”、“医生”、“病种”等实体概念,而实体关系模型则包括所有实体间的关系数据,如“病人”与“医生”之间为医患关系。所述特定知识图谱数据为一种具有结构化性质的大数据,其包括实体数据、实体之间的关系数据、实体总体结构数据等。
根据本发明实施例,所述获取用户业务数据需求信息,根据需求信息从特定知识图谱数据中进行实体数据关系分析与数据提取得到用户业务需求大数据,具体为:
根据用户业务数据需求信息进行需求关键词分析,得到初始关键词;
根据将初始关键词导入医学自然语言模型进行语言转换,得到的对应的医学关键词;
根据医学关键词进行特征提取并根据关键词特征从实体模型中进行检索得到对应结果实体数据;
根据结果实体数据从知识图谱数据中进行实体关系分析,得到第一实体关系信息;
根据第一实体关系信息进行关联实体数据抽取,得到一级关联数据;
将结果实体数据、第一实体关系信息、一级关联数据进行大数据融合,形成用户业务需求大数据。
需要说明的是,本发明通过分析用户业务数据需求信息能够得到相应的需求关键词,通过关键词能够对用户的业务需求进行精简描述,进而根据关键词从知识图谱数据中进行数据快速提取,得到用户所需要的业务需求大数据,通过本发明方法能够从大量的结构数据中进行快速检索,并且能够得到用户业务需求大数据,且所述用户业务需求大数据仍然具有结构化性质,能有效提升用户对大数据的二次分析效率。例如,在医疗药品分析领域中,用户业务数据需求信息一般为医药效果、医药费用等信息,通过关键词特征提取得到实体对象,如“药品”、“患者”,通过实体关系得到具有关联关系的一级关联数据,如“用药价格”“用药时间”“患者用药次数”“患者性别年龄”等,值得一提的是,根据用户需求可进行第二实体关系信息的分析与二级关联数据的获取,关联级数越大,所对应得到的用户业务需求大数据的数据量也越大,具体根据用户需求而定。
根据本发明实施例,所述将实体模型与实体关系模型进行图结构关联并生成特定知识图谱数据,还包括:
获取用户数据业务类别与用户历史业务数据;
将用户历史业务数据进行实体数据与实体关系分析,得到实体数据与实体关系数据;
将所述实体数据与实体关系数据进行结构化分析,得到相应的业务数据结构化信息;
将用户数据业务类别与业务数据结构化信息进行关联得到关联数据,并将关联数据存储与用户业务数据结构化信息数据库中;
将实体模型与实体关系模型根据业务数据结构化信息进行图结构关联,得到特定知识图谱数据。
需要说明的是,本发明通过对用户历史业务数据进行数据分析,得到对应的结构化特点信息,即业务数据结构化信息,从而在构建知识图谱数据时,根据结构化特点信息进行图结构关联,进而能够得到针对当前用户数据业务类别的知识图谱数据,使后续得到的用户业务需求大数据中的结构化属性更加符合当前用户业务类别,提高检索出的数据对用户的符合度。
图4示出了本发明一种医疗文档后结构化处理系统的框图。
本发明第二方面还提供了一种医疗文档后结构化处理系统4,该系统包括:存储器41、处理器42,所述存储器中包括医疗文档后结构化处理程序,所述医疗文档后结构化处理程序被所述处理器执行时实现如下步骤:
获取非结构化医疗文档数据;
对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据;
将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据;
对结构化文档数据进行数据特征抽取与数据关系分析并生成特定知识图谱数据;
获取用户业务数据需求信息,根据需求信息从特定知识图谱数据中进行实体数据关系分析与数据提取得到用户业务需求大数据。
根据本发明实施例,所述将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据,之前包括:
构建文字识别模型,从医疗文档大数据中进行图像与文字数据提取,得到图像文字关联数据;
将图像文字关联数据按照预设比例划分为训练数据与验证数据;
将所述训练数据与验证数据导入文字识别模型进行多次识别训练直至达到预设识别准确率。
需要说明的是,所述将图像文字关联数据按照预设比例划分为训练数据与验证数据中,一般预设比例为1:1,且具体可以根据数据量大小进行调整。所述文字识别模型包括基于OCR技术的CNN、RNN、STAR-Net等图片文字识别算法。
根据本发明实施例,所述对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据,具体为:
将非结构化医疗文档数据根据数据格式进行分类,得到图像类数据与文字类数据;
将图像类数据进行统一格式转换并通过文字识别模型进行文字提取得到第一文档数据;
将文字类数据进行统一格式转换得到第二文档数据;
将所述第一文档数据与第二文档数据进行数据整合得到结果文档数据。
需要说明的是,所述图像类数据包括无纸化病历文书(PDF格式),数字化翻拍文书、检查结果图像数据等,所述文字类数据包括非结构化的医疗文档,格式为word、excel、txt等。
根据本发明实施例,所述对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据,还包括:
根据用户预设敏感数据类型进行脱敏等级分类并设置对应脱敏规则;
根据预设脱敏等级获取对应数据脱敏规则;
根据所述数据脱敏规则将结果文档数据进行敏感数据检索与删除,得到数字化文本数据。
需要说明的是,所述进行脱敏等级分类并设置对应脱敏规则中,一般设置4~5个等级,每个等级对应不同的脱敏规则,等级越大,所涉及的敏感数据越多,对应删除的敏感数据也越多。
根据本发明实施例,所述将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据,具体为:
构建医学自然语言模型;
将数字化文本数据导入医学自然语言模型进行医疗信息提取与医学术语标准化处理,得到第一处理文档数据;
将所述第一处理文档数据根据医学档案结构标准进行数据重组,得到符合预设数据标准的结构化文档数据。
需要说明的是,所述医学自然语言模型包括医学语言标准库,基于AI算法的文字提取模型等。通过医学自然语言模型能够准确地提取数字化文本数据中的关键医学数据,从而进一步进行标准化处理。所述医学档案结构标准一般为用户预设的档案标准,包括文档格式标准,文档结构标准等。通过生成结构化文档数据能够提高后续构建知识图谱与检索数据的综合效率。
根据本发明实施例,所述对结构化文档数据进行数据特征抽取与数据关系分析并生成特定知识图谱数据,具体为:
对结构化文档数据进行实体概念提取得到实体模型;
从实体模型抽取实体关系特征得到实体关系模型;
将实体模型与实体关系模型进行图结构关联并生成特定知识图谱数据。
需要说明的是,所述实体模型具体包括结构化文档数据中的所有实体数据,如“病人”、“医生”、“病种”等实体概念,而实体关系模型则包括所有实体间的关系数据,如“病人”与“医生”之间为医患关系。所述特定知识图谱数据为一种具有结构化性质的大数据,其包括实体数据、实体之间的关系数据、实体总体结构数据等。
根据本发明实施例,所述获取用户业务数据需求信息,根据需求信息从特定知识图谱数据中进行实体数据关系分析与数据提取得到用户业务需求大数据,具体为:
根据用户业务数据需求信息进行需求关键词分析,得到初始关键词;
根据将初始关键词导入医学自然语言模型进行语言转换,得到的对应的医学关键词;
根据医学关键词进行特征提取并根据关键词特征从实体模型中进行检索得到对应结果实体数据;
根据结果实体数据从知识图谱数据中进行实体关系分析,得到第一实体关系信息;
根据第一实体关系信息进行关联实体数据抽取,得到一级关联数据;
将结果实体数据、第一实体关系信息、一级关联数据进行大数据融合,形成用户业务需求大数据。
需要说明的是,本发明通过分析用户业务数据需求信息能够得到相应的需求关键词,通过关键词能够对用户的业务需求进行精简描述,进而根据关键词从知识图谱数据中进行数据快速提取,得到用户所需要的业务需求大数据,通过本发明方法能够从大量的结构数据中进行快速检索,并且能够得到用户业务需求大数据,且所述用户业务需求大数据仍然具有结构化性质,能有效提升用户对大数据的二次分析效率。例如,在医疗药品分析领域中,用户业务数据需求信息一般为医药效果、医药费用等信息,通过关键词特征提取得到实体对象,如“药品”、“患者”,通过实体关系得到具有关联关系的一级关联数据,如“用药价格”“用药时间”“患者用药次数”“患者性别年龄”等,值得一提的是,根据用户需求可进行第二实体关系信息的分析与二级关联数据的获取,关联级数越大,所对应得到的用户业务需求大数据的数据量也越大,具体根据用户需求而定。
根据本发明实施例,所述将实体模型与实体关系模型进行图结构关联并生成特定知识图谱数据,还包括:
获取用户数据业务类别与用户历史业务数据;
将用户历史业务数据进行实体数据与实体关系分析,得到实体数据与实体关系数据;
将所述实体数据与实体关系数据进行结构化分析,得到相应的业务数据结构化信息;
将用户数据业务类别与业务数据结构化信息进行关联得到关联数据,并将关联数据存储与用户业务数据结构化信息数据库中;
将实体模型与实体关系模型根据业务数据结构化信息进行图结构关联,得到特定知识图谱数据。
需要说明的是,本发明通过对用户历史业务数据进行数据分析,得到对应的结构化特点信息,即业务数据结构化信息,从而在构建知识图谱数据时,根据结构化特点信息进行图结构关联,进而能够得到针对当前用户数据业务类别的知识图谱数据,使后续得到的用户业务需求大数据中的结构化属性更加符合当前用户业务类别,提高检索出的数据对用户的符合度。
本发明公开了一种医疗文档后结构化处理方法及系统,通过对非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据,进一步将数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据,并对结构化文档数据进行数据特征抽取与数据关系分析并生成特定知识图谱数据,通过特定知识图谱数据能够快速地检索出具有结构化特点的用户需求数据,对数据进行结构化存储,进而提升用户对数据的分析处理效率。
在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。
上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。
另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、ROM、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以所述权利要求的保护范围为准。
Claims (10)
1.一种医疗文档后结构化处理方法,其特征在于,包括:
获取非结构化医疗文档数据;
对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据;
将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据;
对结构化文档数据进行数据特征抽取与数据关系分析并生成特定知识图谱数据;
获取用户业务数据需求信息,根据需求信息从特定知识图谱数据中进行实体数据关系分析与数据提取得到用户业务需求大数据。
2.根据权利要求1所述的一种医疗文档后结构化处理方法,其特征在于,所述将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据,之前包括:
构建文字识别模型,从医疗文档大数据中进行图像与文字数据提取,得到图像文字关联数据;
将图像文字关联数据按照预设比例划分为训练数据与验证数据;
将所述训练数据与验证数据导入文字识别模型进行多次识别训练直至达到预设识别准确率。
3.根据权利要求2所述的一种医疗文档后结构化处理方法,其特征在于,所述对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据,具体为:
将非结构化医疗文档数据根据数据格式进行分类,得到图像类数据与文字类数据;
将图像类数据进行统一格式转换并通过文字识别模型进行文字提取得到第一文档数据;
将文字类数据进行统一格式转换得到第二文档数据;
将所述第一文档数据与第二文档数据进行数据整合得到结果文档数据。
4.根据权利要求3所述的一种医疗文档后结构化处理方法,其特征在于,所述对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据,还包括:
根据用户预设敏感数据类型进行脱敏等级分类并设置对应脱敏规则;
根据预设脱敏等级获取对应数据脱敏规则;
根据所述数据脱敏规则将结果文档数据进行敏感数据检索与删除,得到数字化文本数据。
5.根据权利要求1所述的一种医疗文档后结构化处理方法,其特征在于,所述将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据,具体为:
构建医学自然语言模型;
将数字化文本数据导入医学自然语言模型进行医疗信息提取与医学术语标准化处理,得到第一处理文档数据;
将所述第一处理文档数据根据医学档案结构标准进行数据重组,得到符合预设数据标准的结构化文档数据。
6.根据权利要求1所述的一种医疗文档后结构化处理方法,其特征在于,所述对结构化文档数据进行数据特征抽取与数据关系分析并生成特定知识图谱数据,具体为:
对结构化文档数据进行实体概念提取得到实体模型;
从实体模型抽取实体关系特征得到实体关系模型;
将实体模型与实体关系模型进行图结构关联并生成特定知识图谱数据。
7.根据权利要求6所述的一种医疗文档后结构化处理方法,其特征在于,所述获取用户业务数据需求信息,根据需求信息从特定知识图谱数据中进行实体数据关系分析与数据提取得到用户业务需求大数据,具体为:
根据用户业务数据需求信息进行需求关键词分析,得到初始关键词;
根据将初始关键词导入医学自然语言模型进行语言转换,得到的对应的医学关键词;
根据医学关键词进行特征提取并根据关键词特征从实体模型中进行检索得到对应结果实体数据;
根据结果实体数据从知识图谱数据中进行实体关系分析,得到第一实体关系信息;
根据第一实体关系信息进行关联实体数据抽取,得到一级关联数据;
将结果实体数据、第一实体关系信息、一级关联数据进行大数据融合,形成用户业务需求大数据。
8.一种医疗文档后结构化处理系统,其特征在于,该系统包括:存储器、处理器,所述存储器中包括医疗文档后结构化处理程序,所述医疗文档后结构化处理程序被所述处理器执行时实现如下步骤:
获取非结构化医疗文档数据;
对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据;
将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据;
对结构化文档数据进行数据特征抽取与数据关系分析并生成特定知识图谱数据;
获取用户业务数据需求信息,根据需求信息从特定知识图谱数据中进行实体数据关系分析与数据提取得到用户业务需求大数据。
9.根据权利要求8所述的一种医疗文档后结构化处理系统,其特征在于,将所述数字化文本数据根据预设数据标准进行数据结构化处理,得到结构化文档数据,之前包括:
构建文字识别模型,从医疗文档大数据中进行图像与文字数据提取,得到图像文字关联数据;
将图像文字关联数据按照预设比例划分为训练数据与验证数据;
将所述训练数据与验证数据导入文字识别模型进行多次识别训练直至达到预设识别准确率。
10.根据权利要求8所述的一种医疗文档后结构化处理系统,其特征在于,对所述非结构化医疗文档数据进行内容识别与脱敏处理,得到数字化文本数据,具体为:
将非结构化医疗文档数据根据数据格式进行分类,得到图像类数据与文字类数据;
将图像类数据进行统一格式转换并通过文字识别模型进行文字提取得到第一文档数据;
将文字类数据进行统一格式转换得到第二文档数据;
将所述第一文档数据与第二文档数据进行数据整合得到结果文档数据。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310053564.0A CN116304186A (zh) | 2023-02-03 | 2023-02-03 | 一种医疗文档后结构化处理方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310053564.0A CN116304186A (zh) | 2023-02-03 | 2023-02-03 | 一种医疗文档后结构化处理方法及系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116304186A true CN116304186A (zh) | 2023-06-23 |
Family
ID=86819403
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310053564.0A Pending CN116304186A (zh) | 2023-02-03 | 2023-02-03 | 一种医疗文档后结构化处理方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116304186A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117150565A (zh) * | 2023-10-31 | 2023-12-01 | 山东网安安全技术有限公司 | 一种医疗数据脱敏存储方法、装置、电子设备与存储介质 |
CN117951330A (zh) * | 2024-03-27 | 2024-04-30 | 吉林大学 | 一种基于人工智能的医疗数据检索方法 |
-
2023
- 2023-02-03 CN CN202310053564.0A patent/CN116304186A/zh active Pending
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117150565A (zh) * | 2023-10-31 | 2023-12-01 | 山东网安安全技术有限公司 | 一种医疗数据脱敏存储方法、装置、电子设备与存储介质 |
CN117150565B (zh) * | 2023-10-31 | 2024-03-01 | 山东网安安全技术有限公司 | 一种医疗数据脱敏存储方法、装置、电子设备与存储介质 |
CN117951330A (zh) * | 2024-03-27 | 2024-04-30 | 吉林大学 | 一种基于人工智能的医疗数据检索方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11328365B2 (en) | Systems and methods for insurance fraud detection | |
US9639662B2 (en) | Systems and methods for event stream platforms which enable applications | |
US20200265931A1 (en) | Systems and methods for coding health records using weighted belief networks | |
US20180293354A1 (en) | Clinical content analytics engine | |
CA2928051C (en) | Systems and methods for data indexing and processing | |
CN116304186A (zh) | 一种医疗文档后结构化处理方法及系统 | |
WO2021121187A1 (zh) | 基于分词文本的电子病例查重方法、装置、计算机设备 | |
US20090313194A1 (en) | Methods and apparatus for automated image classification | |
US10789461B1 (en) | Automated systems and methods for textual extraction of relevant data elements from an electronic clinical document | |
CN109920506B (zh) | 医疗统计报告生成方法、装置、设备及存储介质 | |
US8606601B2 (en) | Apparatus and method of automated information extraction and implementation through large scale networks | |
CN101124571A (zh) | 生成与电子图像文件相关的任务的系统及方法 | |
US20210398627A1 (en) | Systems and methods for health information messages archiving | |
US20100306218A1 (en) | Systems and methods for interfacing with healthcare organization coding system | |
WO2022105172A1 (zh) | Pdf文档跨页表格合并方法、装置、电子设备及存储介质 | |
CN111370132B (zh) | 电子文件的解析方法及装置、计算机设备、存储介质 | |
US20200293528A1 (en) | Systems and methods for automatically generating structured output documents based on structural rules | |
US20090049104A1 (en) | Method and system for configuring a variety of medical information | |
US20080109400A1 (en) | Method and device for configuring a variety of medical information | |
CN113948168A (zh) | 医疗数据评价实际应用系统及医疗数据评价实际应用方法 | |
CN114358001A (zh) | 诊断结果的标准化方法及其相关装置、设备和存储介质 | |
CN111785383A (zh) | 数据处理方法及相关设备 | |
KR101484766B1 (ko) | 의료정보 시스템에서의 전자서식 작성기 및 전자서식 작성 방법 | |
Hosseini et al. | Consolidating CCDs from multiple data sources: a modular approach | |
US20230377697A1 (en) | System and a way to automatically monitor clinical trials - virtual monitor (vm) and a way to record medical history |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |