CN114912887B - 一种基于电子病历的临床数据录入方法及录入装置 - Google Patents
一种基于电子病历的临床数据录入方法及录入装置 Download PDFInfo
- Publication number
- CN114912887B CN114912887B CN202210417248.2A CN202210417248A CN114912887B CN 114912887 B CN114912887 B CN 114912887B CN 202210417248 A CN202210417248 A CN 202210417248A CN 114912887 B CN114912887 B CN 114912887B
- Authority
- CN
- China
- Prior art keywords
- column
- target
- text information
- data
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 50
- 238000003058 natural language processing Methods 0.000 claims abstract description 25
- 238000013479 data entry Methods 0.000 claims abstract description 18
- 238000000605 extraction Methods 0.000 claims abstract description 15
- 230000011218 segmentation Effects 0.000 claims description 46
- 238000012545 processing Methods 0.000 claims description 39
- 238000012549 training Methods 0.000 claims description 31
- 238000004590 computer program Methods 0.000 claims description 23
- 238000003745 diagnosis Methods 0.000 claims description 22
- 239000011159 matrix material Substances 0.000 claims description 21
- 102000013529 alpha-Fetoproteins Human genes 0.000 claims description 10
- 108010026331 alpha-Fetoproteins Proteins 0.000 claims description 10
- 238000004820 blood count Methods 0.000 claims description 10
- 210000000265 leukocyte Anatomy 0.000 claims description 10
- 238000012216 screening Methods 0.000 claims 2
- 230000006870 function Effects 0.000 description 7
- 230000008569 process Effects 0.000 description 7
- 238000010586 diagram Methods 0.000 description 5
- 239000003814 drug Substances 0.000 description 5
- 229940079593 drug Drugs 0.000 description 4
- 230000004044 response Effects 0.000 description 4
- 238000012360 testing method Methods 0.000 description 4
- 230000008878 coupling Effects 0.000 description 3
- 238000010168 coupling process Methods 0.000 description 3
- 238000005859 coupling reaction Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 206010008479 Chest Pain Diseases 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000012544 monitoring process Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 208000024891 symptom Diseases 0.000 description 2
- 206010067484 Adverse reaction Diseases 0.000 description 1
- 208000000059 Dyspnea Diseases 0.000 description 1
- 206010013975 Dyspnoeas Diseases 0.000 description 1
- 230000005856 abnormality Effects 0.000 description 1
- 238000010521 absorption reaction Methods 0.000 description 1
- 230000006838 adverse reaction Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000003759 clinical diagnosis Methods 0.000 description 1
- 238000013527 convolutional neural network Methods 0.000 description 1
- 238000013499 data model Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 235000019800 disodium phosphate Nutrition 0.000 description 1
- 230000029142 excretion Effects 0.000 description 1
- 230000036541 health Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000001788 irregular Effects 0.000 description 1
- 230000004060 metabolic process Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000007170 pathology Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 208000013220 shortness of breath Diseases 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 208000011580 syndromic disease Diseases 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/10—Office automation; Time management
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/31—Indexing; Data structures therefor; Storage structures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/34—Browsing; Visualisation therefor
- G06F16/345—Summarisation for human users
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/36—Creation of semantic tools, e.g. ontology or thesauri
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/284—Lexical analysis, e.g. tokenisation or collocates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/22—Social work or social welfare, e.g. community support activities or counselling services
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02A—TECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
- Y02A90/00—Technologies having an indirect contribution to adaptation to climate change
- Y02A90/10—Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Business, Economics & Management (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Human Resources & Organizations (AREA)
- Strategic Management (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Artificial Intelligence (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Entrepreneurship & Innovation (AREA)
- Child & Adolescent Psychology (AREA)
- Public Health (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Epidemiology (AREA)
- Operations Research (AREA)
- Quality & Reliability (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请适用于数据录入的技术领域,提供了一种基于电子病历的临床数据录入方法,包括:提取电子病历中的结构化数据和非结构化数据;将所述结构化数据的首列字段,分别与所述词库进行匹配;提取所述相同的首列字段对应的下一列文本信息;基于多个所述列名称,在所述非结构化数据中,匹配与所述词库相同的索引词汇;基于自然语言处理,提取位于所述索引词汇之后的与所述索引词汇对应的目标文本信息;将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表。上述方案,可针对不同的电子病历进行信息提取,并实现基于电子病历的临床数据录入,无需人工进行录入,解决了无法将电子病历自动录入临床数据的技术问题。
Description
技术领域
本申请属于数据录入的技术领域,尤其涉及一种基于电子病历的临床数据录入方法及录入装置、终端设备及计算机可读存储介质。
背景技术
医疗领域中源源不断地产生大量的临床数据,由于临床数据能够较为真实地反映患者对其所使用的药物的反映症状,因此临床数据可以用于药品研究以及病理研究等。例如:采用临床试验的方式获取详实准确的临床数据,进而证实或揭示试验药物的作用、不良反应和/或试验药物的吸收、分布、代谢和排泄状态,以确定试验药物的有效性与安全性。
而临床数据往往需要基于电子病历录入相应信息。其中,电子病历(EMR,Electronic Medical Record)也叫计算机化的病案系统或称基于计算机的病人记录(CPR,Computer-Based Patient Record)。它是用电子设备(计算机、健康卡等)保存、管理、传输和重现的数字化的医疗记录,用以取代手写纸张病历。
然而,在现有技术中,对于基于电子病历的临床数据录入工作,往往基于人工逐一录入,操作繁琐易错,无法实现将电子病历自动录入临床数据。
发明内容
有鉴于此,本申请实施例提供了一种基于电子病历的临床数据录入方法及录入装置、终端设备及计算机可读存储介质,以解决无法实现将电子病历自动录入临床数据的技术问题。
本申请实施例的第一方面提供了一种基于电子病历的临床数据录入方法,包括:
获取临床数据对应的待录入数据列表中的多个列名称以及多个所述列名称各自对应的词库;所述词库是指所述列名称对应的近义词;
提取电子病历中的结构化数据和非结构化数据;
将所述结构化数据的首列字段,分别与所述词库进行匹配;
若存在与所述词库相同的首列字段,则提取所述相同的首列字段对应的下一列文本信息,并将所述下一列文本信息录入至第一列名称对应的第一待录入列单元中;所述第一列名称是指与首列字段相同的列名称;
基于多个所述列名称,在所述非结构化数据中,匹配与所述词库相同的索引词汇;所述索引词汇包括姓名、白细胞计数、血小板计数、甲胎蛋白计数、诊断结果、科室以及诊疗方案;
基于自然语言处理,提取位于所述索引词汇之后的与所述索引词汇对应的目标文本信息;
将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表;所述第二列名称是指与索引词汇相同的列名称。
所述获取临床数据对应的待录入数据列表中的多个列名称以及多个所述列名称各自对应的词库,包括:
提取所述电子病历中的医院信息,获取所述医院信息对应的预设词库;
获取所述临床数据对应的待录入数据列表中的多个所述列名称;
在所述预设词库,获取多个所述列名称各自对应的词库;其中,不同医院信息对应不同的预设词库。
进一步地,在所述基于自然语言处理,提取位于所述索引词汇之后的与所述索引词汇对应的目标文本信息之后,还包括:
若所述目标文本信息的字符数量不大于阈值,则执行所述将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表的步骤;
若所述目标文本信息的字符数量大于所述阈值,则根据目标识别模型,识别所述目标文本信息是否正确;
若确定所述目标文本信息正确,则执行所述将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表的步骤。
进一步地,所述若所述目标文本信息的字符数量大于所述阈值,则根据目标识别模型,识别所述目标文本信息是否正确,包括:
将所述目标文本信息进行分词处理,得到所述目标文本信息对应的目标分词数据;
将所述目标分词数据进行编码处理,得到所述目标分词数据对应的目标编码数据;其中,不同的词语均预设有不同的编码值;
将所述目标编码数据按照预设方式排列,得到目标编码矩阵;
获取多个预先训练的识别模型,在多个所述识别模型中,选择索引词汇对应的目标识别模型;
将所述目标编码矩阵输入至所述目标识别模型中,通过所述目标识别模型进行卷积处理,得到由所述目标识别模型输出的目标识别结果;
根据所述目标识别结果,确定所述目标文本信息是否正确。
进一步地,在所述将所述目标文本信息进行分词处理,得到所述目标文本信息对应的目标分词数据之前,还包括:
基于自然语言处理,提取所述目标文本信息中的摘要文本信息;
将所述摘要文本信息作为所述目标文本信息,执行所述将所述目标文本信息进行分词处理,得到所述目标文本信息对应的目标分词数据的步骤以及后续步骤。
进一步地,在所述若所述目标文本信息的字符数量大于所述阈值,则根据目标识别模型,识别所述目标文本信息是否正确之前,还包括:
针对每个索引词汇,分别经过如下步骤,得到每个索引词汇对应的目标识别模型:
获取多个初始文件信息;
将所述初始文件信息进行分词处理,得到所述初始文本信息对应的训练分词数据;
将所述训练分词数据进行编码处理,得到所述训练分词数据对应的训练编码数据;
将所述训练编码矩阵输入至初始识别模型中,通过所述初始识别模型进行卷积处理,得到由所述初始识别模型输出的训练识别结果;
根据所述训练识别结果以及所述索引词汇,计算所述初始识别模型的损失值;
根据所述损失值,调整所述初始识别模型的参数,得到调整后的初始识别模型;
将所述初始识别模型替换成所述调整后的初始识别模型,返回执行所述将所述训练编码矩阵输入至初始识别模型中,通过所述初始识别模型进行卷积处理,得到由所述初始识别模型输出的训练识别结果的步骤以及后续步骤,得到所述目标识别模型。
进一步地,所述将所述目标编码数据按照预设方式排列,得到目标编码矩阵,包括:
根据所述目标分词数据在所述目标文本信息中的原始排列顺序,将所述目标编码数据按照从左至右,且从上至下的方式进行依次排列,得到所述目标编码矩阵。
本申请实施例的第二方面提供了一种基于电子病历的临床数据录入装置,包括:
第一获取单元,用于获取临床数据对应的待录入数据列表中的多个列名称以及多个所述列名称各自对应的词库;所述词库是指所述列名称对应的近义词;
第一提取单元,用于提取电子病历中的结构化数据和非结构化数据;
第一匹配单元,用于将所述结构化数据的首列字段,分别与所述词库进行匹配;
第二提取单元,用于若存在与所述词库相同的首列字段,则提取所述相同的首列字段对应的下一列文本信息,并将所述下一列文本信息录入至第一列名称对应的第一待录入列单元中;所述第一列名称是指与首列字段相同的列名称;
第二匹配单元,用于基于多个所述列名称,在所述非结构化数据中,匹配与所述词库相同的索引词汇;所述索引词汇包括姓名、白细胞计数、血小板计数、甲胎蛋白计数、诊断结果、科室以及诊疗方案;
第三提取单元,用于基于自然语言处理,提取位于所述索引词汇之后的与所述索引词汇对应的目标文本信息;
录入单元,用于将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表;所述第二列名称是指与索引词汇相同的列名称。
本申请提供的一种基于电子病历的临床数据录入装置,通过获取临床数据对应的待录入数据列表中的多个列名称以及多个所述列名称各自对应的词库;提取电子病历中的结构化数据和非结构化数据;将所述结构化数据的首列字段,分别与所述词库进行匹配;若存在与所述词库相同的首列字段,则提取所述相同的首列字段对应的下一列文本信息,并将所述下一列文本信息录入至第一列名称对应的第一待录入列单元中;基于多个所述列名称,在所述非结构化数据中,匹配与所述词库相同的索引词汇;若存在与所述词库相同的索引词汇,则基于自然语言处理,提取位于所述索引词汇之后的与所述索引词汇对应的目标文本信息;将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表。上述方案,基于临床数据的数据结构,分别在电子病历的结构化数据和非结构化数据中匹配对应的列名称,并提取对应列名称的文本信息,可针对不同的电子病历进行信息提取,并实现基于电子病历的临床数据录入,无需人工进行录入,解决了无法将电子病历自动录入临床数据的技术问题。
本申请实施例的第三方面提供了一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述方法的步骤。
本申请实施例的第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述方法的步骤。
本申请实施例与现有技术相比存在的有益效果是:在本申请中,通过获取临床数据对应的待录入数据列表中的多个列名称以及多个所述列名称各自对应的词库;提取电子病历中的结构化数据和非结构化数据;将所述结构化数据的首列字段,分别与所述词库进行匹配;若存在与所述词库相同的首列字段,则提取所述相同的首列字段对应的下一列文本信息,并将所述下一列文本信息录入至第一列名称对应的第一待录入列单元中;基于多个所述列名称,在所述非结构化数据中,匹配与所述词库相同的索引词汇;若存在与所述词库相同的索引词汇,则基于自然语言处理,提取位于所述索引词汇之后的与所述索引词汇对应的目标文本信息;将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表。上述方案,基于临床数据的数据结构,分别在电子病历的结构化数据和非结构化数据中匹配对应的列名称,并提取对应列名称的文本信息,可针对不同的电子病历进行信息提取,并实现基于电子病历的临床数据录入,无需人工进行录入,解决了无法将电子病历自动录入临床数据的技术问题。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或相关技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1示出了本申请提供的一种基于电子病历的临床数据录入方法的示意性流程图;
图2示出了本申请提供的一种基于电子病历的临床数据录入方法中步骤101的具体示意性流程图;
图3示出了本申请提供的电子病历示意图;
图4示出了本申请提供的另一种基于电子病历的临床数据录入方法的示意性流程图;
图5示出了本申请提供的一种基于电子病历的临床数据录入装置的示意图;
图6是本发明一实施例提供的一种终端设备的示意图。
具体实施方式
以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
本申请实施例提供了一种基于电子病历的临床数据录入方法及录入装置、终端设备及计算机可读存储介质,以解决无法实现将电子病历自动录入临床数据的技术问题。
请参见图1,图1示出了本申请提供的一种基于电子病历的临床数据录入方法的示意性流程图。如图1所示,该录入方法可以包括如下步骤:
步骤101,获取临床数据对应的待录入数据列表中的多个列名称以及多个所述列名称各自对应的词库;所述词库是指所述列名称对应的近义词;
现有的临床数据大部分采用结构化的数据结构,即Excel或Epidata等表格形式。而电子病历中的文本信息不仅包括结构化数据,还包括非结构化数据,故需要将电子病历中不同格式的文本信息进行转换,以适应临床数据所采用的数据结构。
其中,临床数据中的数据种类包括但不限于姓名、白细胞计数、血小板计数、甲胎蛋白计数、诊断结果、科室以及诊疗方案等一种种类或多种种类之间的组合。待录入数据列表包括列名称以及列名称对应的待录入列单元。其中,列名称指的是上述数据种类,而待录入列单元指的是位于列名称下方的空白列单元。为了更好地理解待录入数据列表,请参见如下表1:
表1:
如上述表1所示,“姓名”、“白细胞计数”和“甲胎蛋白计数”等信息为列名称,位于列名称之下的空白列单元为待录入列单元。可以理解的是,一个电子病历的信息占用一行列单元。其中,上述表1中的列名称、列名称的数量、空白格以及空白格的数量仅仅作为示例,不作为任何限定。
由于不同病历格式中的索引词汇(索引词汇指的是电子病历中用于指引医生或用户在指定区域填写信息的词汇,例如:“姓名”、“年龄”以及“科室”等等词汇)不同。例如:索引词汇“姓名”,在不同的病历格式中的索引词汇可能为“全名”、“名字”或“中文名”等等。又例如:索引词汇“年龄”,在不同的病历格式中的索引词汇可能为“年龄”、“年纪”或“周岁”等等。故为了适应不同的病历格式,本申请针对每个列名称都预设一个词库,用于存储列名称对应的近义词。在执行步骤101时,直接调用预存的词库即可。
具体地,步骤101具体包括步骤1011至步骤1013,请参见图2,图2示出了本申请提供的一种基于电子病历的临床数据录入方法中步骤101的具体示意性流程图。
步骤101具体包括如下步骤:
步骤1011,提取所述电子病历中的医院信息,获取所述医院信息对应的预设词库。
步骤1012,获取所述临床数据对应的待录入数据列表中的多个所述列名称。
步骤1013,在所述预设词库,获取多个所述列名称各自对应的词库;其中,不同医院信息对应不同的预设词库。
由于不同的医院收集的病历格式存在一定差异,例如:西医院、中医院或专科医院等病历信息存在一定差异,中医院的电子病历的病历格式繁复,其主要包括临床诊断(病名)、四诊(望闻问切)、方剂、治法、症状、证型、病位以及病性等信息。故本申请为了适应不同医院的病历信息,针对每一类型医院或者每一家医院预设各自对于的预设词库。其中,预设词库中包括了不同列名称各自对应的词库。可以理解的是,本申请中的词库采用分级思想,在总词库的下一级为各个医院对应的预设词库,在预设词库的下一级为各个列名称对应的词库。通过分级词库,更好地适应不同医院的不同病历格式,以更好地录入临床数据。
在执行步骤101之前,先将不同的医院对应的预设词库进行预存。在执行步骤101时,确定电子病历中的医院信息,并根据医院信息匹配对应的预设词库,在预设词库中匹配多个列名称各自对应的词库。
步骤102,提取电子病历中的结构化数据和非结构化数据。
其中,结构化数据也称作行数据,是由二维表结构来逻辑表达和实现的数据。而非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用二维表结构表来表现的数据,包括所有格式的办公文档、文本、图片、各类报表、图像和音频/视频信息等等。
而电子病历是以电子化方式记录患者就诊的信息,信息包括但不限于:姓名、白细胞计数、血小板计数、甲胎蛋白计数、诊断结果、科室以及诊疗方案等一种信息或多种信息的组合。其中,电子病历中的部分信息采用结构化数据(即表格形式)的形式进行呈现,部分信息采用非结构化数据(即文本形式)的形式进行呈现。
请参见图3,图3示出了本申请提供的电子病历示意图,通过图3可以看出,现有的电子病历中往往同时存在结构化数据和非结构化数据。图3中的表格部分为结构化数据,非表格的文本部分为非结构化数据。而由于结构化数据和非结构化数据的数据结构不同,故需要在电子病历中分别提取出结构化数据和非结构化数据,进行不同的处理。
作为本申请的一个可选实施例,由于在多个电子病历中,可能存在无效数据,例如:空白电子病历或者乱码电子病历等。故在步骤102之前,需要对所有的电子病历进行有效性筛选。其中,可以基于KNN(K近邻法)算法将无效数据剔除。
步骤103,将所述结构化数据的首列字段,分别与所述词库进行匹配。
将首列字段与词库进行逐一比对,确定首列字段与词库是否存在相同词汇。若首列字段与词库存在相同词汇,则匹配成功。若首列字段与词库不存在相同词汇,则匹配失败。例如:当前将列名称“姓名”对应的词库与首列字段“名字”进行匹配,词库中包括“姓名”、“全名”、“名字”或“中文名”四种近义词,首列字段“名字”与词库中的“名字”相同,则视为匹配成功。
其中,若匹配成功,则执行步骤104。若匹配失败,则针对下一个列名称对应的词库进行匹配,直至所有列名称对应的词库都匹配完成。
作为本申请的一个可选实施例,若电子病历的结构化数据中的列名称位于行方向上,则可将结构化数据的首行字段,分别与词库进行匹配。
步骤104,若存在与所述词库相同的首列字段,则提取所述相同的首列字段对应的下一列文本信息,并将所述下一列文本信息录入至第一列名称对应的第一待录入列单元中;所述第一列名称是指与首列字段相同的列名称。
由于电子病历中的结构化数据的数据格式与临床数据的数据格式相同,故可直接将首列字段对应的下一列文本信息录入至第一列名称对应的第一待录入列单元中。其中,第一列名称是指与首列字段相同的列名称。而待录入列单元指的是空白列单元,在向待录入列单元录入数据时,整列的待录入列单元按照由上至下的顺序进行逐一录入。例如:由上至下的空白列单元包括:第一列单元、第二列单元以及第三列单元等等,第一列单元用于录入第一电子病历对应的下一列文本信息,第二列单元用于录入第二电子病历对应的下一列文本信息,第三列单元用于录入第三电子病历对应的下一列文本信息,以此类推(可以理解的是,每个病历仅占用一行空白列单元,按电子病历顺序,逐行进行录入)。
值得注意的是,本申请通过步骤103至步骤104实现对于电子病历中结构化数据的录入,通过步骤105至步骤107实现对于电子病历中非结构化数据的录入,其中,步骤103至步骤104和步骤105至步骤107之间的执行顺序,可以发生调换,在本申请中不做限定。
步骤105,基于多个所述列名称,在所述非结构化数据中,匹配与所述词库相同的索引词汇;所述索引词汇包括姓名、白细胞计数、血小板计数、甲胎蛋白计数、诊断结果、科室以及诊疗方案。
索引词汇指的是电子病历中用于指引医生或用户在指定区域填写信息的词汇,例如:“姓名”、“年龄”以及“科室”等等词汇
由于索引词汇是用于指引医生或用户在指定的位置,填入索引词汇对应的文本信息。故可根据索引词汇定位到目标文本信息。将非结构化数据中的所有文本信息与词库进行匹配。若匹配到相同的索引词汇,则执行步骤106。若匹配失败,则继续匹配非结构化数据中的其他文本信息,直至非结构化数据中的所有文本信息都匹配完成。
步骤106,若存在与所述词库相同的索引词汇,则基于自然语言处理,提取位于所述索引词汇之后的与所述索引词汇对应的目标文本信息。
自然语言处理(Natural Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。自然语言处理可以处理涉及语音、语法、语义以及语用等多维度的操作。
而由于索引词汇与目标文本信息之间存在对应关系,即存在一定的规律性,故可通过自然语言处理提取位于索引词汇之后的目标文本信息。其中,本申请通过自然语言处理进行上下文语义分析或者模型识别,提取目标文本信息。
步骤107,将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表;所述第二列名称是指与索引词汇相同的列名称。
待录入列单元指的是空白列单元,在向待录入列单元录入数据时,整列的待录入列单元按照由上至下的顺序进行逐一录入,例如:由上至下的空白列单元包括:第一列单元、第二列单元以及第三列单元等等,第一列单元用于录入第一电子病历对应的目标文本信息,第二列单元用于录入第二电子病历对应的目标文本信息,第三列单元用于录入第三电子病历对应的目标文本信息,以此类推(可以理解的是,每个病历仅占用一行空白列单元,按电子病历顺序,逐行进行录入)。
通过步骤103至步骤104实现对于电子病历中结构化数据的录入,通过步骤105至步骤107实现对于电子病历中非结构化数据的录入,完成基于电子病历的临床数据录入。
在本实施例中,通过获取临床数据对应的待录入数据列表中的多个列名称以及多个所述列名称各自对应的词库;提取电子病历中的结构化数据和非结构化数据;将所述结构化数据的首列字段,分别与所述词库进行匹配;若存在与所述词库相同的首列字段,则提取所述相同的首列字段对应的下一列文本信息,并将所述下一列文本信息录入至第一列名称对应的第一待录入列单元中;基于多个所述列名称,在所述非结构化数据中,匹配与所述词库相同的索引词汇;若存在与所述词库相同的索引词汇,则基于自然语言处理,提取位于所述索引词汇之后的与所述索引词汇对应的目标文本信息;将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表。上述方案,基于临床数据的数据结构,分别在电子病历的结构化数据和非结构化数据中匹配对应的列名称,并提取对应列名称的文本信息,可针对不同的电子病历进行信息提取,并实现基于电子病历的临床数据录入,无需人工进行录入,解决了无法将电子病历自动录入临床数据的技术问题。
可选地,在步骤107之后还包括如下步骤108至步骤110。请参见图4,图4示出了本申请提供的另一种基于电子病历的临床数据录入方法的示意性流程图。
步骤101,获取临床数据对应的待录入数据列表中的多个列名称以及多个所述列名称各自对应的词库;所述词库是指所述列名称对应的近义词。
步骤102,提取电子病历中的结构化数据和非结构化数据。
步骤103,将所述结构化数据的首列字段,分别与所述词库进行匹配。
步骤104,若存在与所述词库相同的首列字段,则提取所述相同的首列字段对应的下一列文本信息,并将所述下一列文本信息录入至第一列名称对应的第一待录入列单元中;所述第一列名称是指与首列字段相同的列名称。
步骤105,基于多个所述列名称,在所述非结构化数据中,匹配与所述词库相同的索引词汇;所述索引词汇包括姓名、年龄、病史、诊断结果、科室、诊疗方案以及检查结果。
步骤106,若存在与所述词库相同的索引词汇,则基于自然语言处理,提取位于所述索引词汇之后的与所述索引词汇对应的目标文本信息。
步骤101至步骤107的具体执行原理,请参见上一实施例内容,在此不做赘述。
步骤108,若所述目标文本信息的字符数量不大于阈值,则执行所述将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表的步骤。
对于字符数量较少的目标文本信息,例如:姓名、血小板计数、以及科室等等文本信息,通过自然语言处理进行提取的精准度较高,不容易出错,故当字符数量的目标文本信息时,无需其他处理,可直接执行步骤107。
然而,对于字符数量较多的目标文本信息,例如:诊疗记录、住院记录以及护理记录等等文本信息,通过自然语言处理进行提取的文本内容,可能会存在错误,故需要进行校验处理后(即执行步骤109至步骤110),再执行步骤107,以保证录入数据的准确度。
步骤109,若所述目标文本信息的字符数量大于所述阈值,则根据目标识别模型,识别所述目标文本信息是否正确。
其中,目标识别模型可以采用现有的文本识别模型,而本申请为了适应医学领域的应用场景,故提供了另外一种目标识别模型以及文本处理方式,针对识别医学领域的文本内容具有较好的准确度。
具体地,步骤109具体包括如下步骤1091至步骤1096:
步骤1091,将所述目标文本信息进行分词处理,得到所述目标文本信息对应的目标分词数据;
由于直接将目标文件信息作为目标识别模型的输入数据,处理量较大,影响处理效果。故为了提高目标识别模型的处理效率,本申请将目标文本信息中的每一句话进行分词处理,得到多个词语(即目标分词数据)。例如:目标文本信息中的句子为“患者偶然感受到胸闷和气短”,经过分词处理,可得到如下目标分词数据:“患者”、“偶然”、“感受”、“到”、“胸闷”、“和”、“气短”。
值得注意的是,由于语言具有上下文语义,故为了保留语义特征,本申请的目标分词数据中的每个词语依然保持原有的排列顺序。
可选地,本申请为了进一步提升目标识别模型的处理效率,故在步骤1091之前还包括如下处理流程:基于自然语言处理,提取所述目标文本信息中的摘要文本信息;将所述摘要文本信息作为所述目标文本信息,执行所述将所述目标文本信息进行分词处理,得到所述目标文本信息对应的目标分词数据的步骤以及后续步骤(即执行步骤1092以及后续步骤)。
本申请通过在目标文本信息中提取摘要,减少了目标识别模型的数据处理量,提高了目标识别模型的识别效率。
步骤1092,将所述目标分词数据进行编码处理,得到所述目标分词数据对应的目标编码数据;其中,不同的词语均预设有不同的编码值;
为了使得文本信息可以实现卷积处理,故本申请预先对不同的词语设置不同的编码值,在执行步骤1092时,根据预设的编码值,为目标分词数据中的多个词语,匹配其对应的编码值,得到目标编码数据。可以理解的是,每个编码值用于表征一个词语。
步骤1093,将所述目标编码数据按照预设方式排列,得到目标编码矩阵;
在本申请中,可以将目标编码数据随机地排列,得到目标编码矩阵。或,还可以通过如下方式进行排列:
具体地,步骤1093具体包括:根据所述目标分词数据在所述目标文本信息中的原始排列顺序,将所述目标编码数据按照从左至右,且从上至下的方式进行依次排列,得到所述目标编码矩阵。
示例性地,假设目标编码数据为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15和16。将目标编码数据按照从左至右,且从上至下的方式进行依次排列,得到如表2所示目标编码矩阵:
表2:
1 | 2 | 3 | 4 |
5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 |
步骤1094,获取多个预先训练的识别模型,在多个所述识别模型中,选择索引词汇对应的目标识别模型;
由于对于不同的索引词汇而言,其对应的目标文本数据都不相同,故为了提高目标识别模型的准确度。本申请针对不同索引词汇分别预先训练了不同的识别模型。在执行步骤1094时,在多个预先训练的识别模型中,选择索引词汇对应的目标识别模型,以提高识别模型的精确度。其中,本申请中的的识别模型为卷积神经网络模型。
识别模型的训练过程如下:
可选地,在步骤109之前,还包括如下步骤:
针对每个索引词汇,分别经过如下步骤A至步骤G,得到每个索引词汇对应的目标识别模型:
步骤A,获取多个初始文件信息;
初始文件信息是在不同病历中获取索引词汇对应的文本内容,用于训练初始识别模型。
步骤B,将所述初始文件信息进行分词处理,得到所述初始文本信息对应的训练分词数据。
步骤C,将所述训练分词数据进行编码处理,得到所述训练分词数据对应的训练编码数据。
步骤B与步骤C的处理过程与步骤1091与步骤1092相似,具体可参见步骤1091与步骤1092,在此不再赘述。
步骤D,将所述训练编码矩阵输入至初始识别模型中,通过所述初始识别模型进行卷积处理,得到由所述初始识别模型输出的训练识别结果。
步骤B与步骤D的处理过程与步骤1091与步骤1093相似,具体可参见步骤1091与步骤1093,在此不再赘述。
步骤E,根据所述训练识别结果以及所述索引词汇,计算所述初始识别模型的损失值;
步骤F,根据所述损失值,调整所述初始识别模型的参数,得到调整后的初始识别模型;
损失值表示初始识别模型的识别误差,可根据损失值调整初始识别模型的参数,优化初始识别模型的识别精度,得到调整后的初始识别模型。
步骤G,将所述初始识别模型替换成所述调整后的初始识别模型,返回执行所述将所述训练编码矩阵输入至初始识别模型中,通过所述初始识别模型进行卷积处理,得到由所述初始识别模型输出的训练识别结果的步骤以及后续步骤,得到所述目标识别模型。
基于多个初始文本信息对应的训练编码数据,循环执行步骤B以及后续步骤,得到目标识别模型。
步骤1095,将所述目标编码矩阵输入至所述目标识别模型中,通过所述目标识别模型进行卷积处理,得到由所述目标识别模型输出的目标识别结果;
目标识别模型包括多个层级结构,包括但不限于输入层、卷积层、池化层、全连接层以及softmax层等。目标编码矩阵经过目标识别模型的卷积处理后,得到目标识别结果。
步骤1096,根据所述目标识别结果,确定所述目标文本信息是否正确。
目标识别结果为概率值,当概率值大于阈值,则确定目标文本信息正确,当概率值不大于阈值,则确定目标文本信息错误。
步骤110,若确定所述目标文本信息正确,则执行所述将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表的步骤。
若确定目标文本信息正确,则执行步骤107。若确定目标文本信息错误,则不执行步骤107。
步骤107,将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表;所述第二列名称是指与索引词汇相同的列名称。
在本实施例中,通过目标识别模型对目标文件信息进行正确性校验,仅当目标文件信息校验通过后,才将目标文本信息录入至第二列名称对应的第二待录入列单元中,以保证录入数据的准确性,避免出现录入异常等情况的发生。
如图5本申请提供了一种基于电子病历的临床数据录入装置5,请参见图5,图5示出了本申请提供的一种基于电子病历的临床数据录入装置的示意图,如图5所示一种基于电子病历的临床数据录入装置包括:
第一获取单元51,用于获取临床数据对应的待录入数据列表中的多个列名称以及多个所述列名称各自对应的词库;所述词库是指所述列名称对应的近义词;
第一提取单元52,用于提取电子病历中的结构化数据和非结构化数据;
第一匹配单元53,用于将所述结构化数据的首列字段,分别与所述词库进行匹配;
第二提取单元54,用于若存在与所述词库相同的首列字段,则提取所述相同的首列字段对应的下一列文本信息,并将所述下一列文本信息录入至第一列名称对应的第一待录入列单元中;所述第一列名称是指与首列字段相同的列名称;
第二匹配单元55,用于基于多个所述列名称,在所述非结构化数据中,匹配与所述词库相同的索引词汇;所述索引词汇包括姓名、白细胞计数、血小板计数、甲胎蛋白计数、诊断结果、科室以及诊疗方案;
第三提取单元56,用于基于自然语言处理,提取位于所述索引词汇之后的与所述索引词汇对应的目标文本信息;
录入单元57,用于将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表;所述第二列名称是指与索引词汇相同的列名称。
本申请提供的一种基于电子病历的临床数据录入装置,通过获取临床数据对应的待录入数据列表中的多个列名称以及多个所述列名称各自对应的词库;提取电子病历中的结构化数据和非结构化数据;将所述结构化数据的首列字段,分别与所述词库进行匹配;若存在与所述词库相同的首列字段,则提取所述相同的首列字段对应的下一列文本信息,并将所述下一列文本信息录入至第一列名称对应的第一待录入列单元中;基于多个所述列名称,在所述非结构化数据中,匹配与所述词库相同的索引词汇;若存在与所述词库相同的索引词汇,则基于自然语言处理,提取位于所述索引词汇之后的与所述索引词汇对应的目标文本信息;将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表。上述方案,基于临床数据的数据结构,分别在电子病历的结构化数据和非结构化数据中匹配对应的列名称,并提取对应列名称的文本信息,可针对不同的电子病历进行信息提取,并实现基于电子病历的临床数据录入,无需人工进行录入,解决了无法将电子病历自动录入临床数据的技术问题。
图6是本发明一实施例提供的一种终端设备的示意图。如图6所示,该实施例的一种终端设备6包括:处理器60、存储器61以及存储在所述存储器61中并可在所述处理器60上运行的计算机程序62,例如一种基于电子病历的临床数据录入程序。所述处理器60执行所述计算机程序62时实现上述各个一种基于电子病历的临床数据录入方法实施例中的步骤,例如图2所示的步骤101至步骤107。或者,所述处理器60执行所述计算机程序62时实现上述各装置实施例中各单元的功能,例如图5所示单元51至57的功能。
示例性的,所述计算机程序62可以被分割成一个或多个单元,所述一个或者多个单元被存储在所述存储器61中,并由所述处理器60执行,以完成本发明。所述一个或多个单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序62在所述一种终端设备6中的执行过程。例如,所述计算机程序62可以被分割成各单元的具体功能如下:
第一获取单元,用于获取临床数据对应的待录入数据列表中的多个列名称以及多个所述列名称各自对应的词库;所述词库是指所述列名称对应的近义词;
第一提取单元,用于提取电子病历中的结构化数据和非结构化数据;
第一匹配单元,用于将所述结构化数据的首列字段,分别与所述词库进行匹配;
第二提取单元,用于若存在与所述词库相同的首列字段,则提取所述相同的首列字段对应的下一列文本信息,并将所述下一列文本信息录入至第一列名称对应的第一待录入列单元中;所述第一列名称是指与首列字段相同的列名称;
第二匹配单元,用于基于多个所述列名称,在所述非结构化数据中,匹配与所述词库相同的索引词汇;所述索引词汇包括姓名、白细胞计数、血小板计数、甲胎蛋白计数、诊断结果、科室以及诊疗方案;
第三提取单元,用于基于自然语言处理,提取位于所述索引词汇之后的与所述索引词汇对应的目标文本信息;
录入单元,用于将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表;所述第二列名称是指与索引词汇相同的列名称。
所述终端设备中包括但不限于处理器60和存储器61。本领域技术人员可以理解,图6仅仅是一种终端设备6的示例,并不构成对一种终端设备6的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种终端设备还可以包括输入输出设备、网络接入设备、总线等。
所述处理器60可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
所述存储器61可以是所述一种终端设备6的内部存储单元,例如一种终端设备6的硬盘或内存。所述存储器61也可以是所述一种终端设备6的外部存储设备,例如所述一种终端设备6上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(SecureDigital,SD)卡,闪存卡(Flash Card)等。进一步地,所述存储器61还可以既包括所述一种终端设备6的内部存储单元也包括外部存储设备。所述存储器61用于存储所述计算机程序以及所述一种漫游控制设备所需的其他程序和数据。所述存储器61还可以用于暂时地存储已经输出或者将要输出的数据。
应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本申请实施例的实施过程构成任何限定。
需要说明的是,上述装置/单元之间的信息交互、执行过程等内容,由于与本申请方法实施例基于同一构思,其具体功能及带来的技术效果,具体可参见方法实施例部分,此处不再赘述。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,既将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。实施例中的各功能单元、模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中,上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。另外,各功能单元、模块的具体名称也只是为了便于相互区分,并不用于限制本申请的保护范围。上述系统中单元、模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现可实现上述各个方法实施例中的步骤。
本申请实施例提供了一种计算机程序产品,当计算机程序产品在移动终端上运行时,使得移动终端执行时实现可实现上述各个方法实施例中的步骤。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请实现上述实施例方法中的全部或部分流程,可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质至少可以包括:能够将计算机程序代码携带到拍照装置/终端设备的任何实体或装置、记录介质、计算机存储器、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random AccessMemory,RAM)、电载波信号、电信信号以及软件分发介质。例如U盘、移动硬盘、磁碟或者光盘等。在某些司法管辖区,根据立法和专利实践,计算机可读介质不可以是电载波信号和电信信号。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述或记载的部分,可以参见其它实施例的相关描述。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
在本申请所提供的实施例中,应该理解到,所揭露的装置/网络设备和方法,可以通过其它的方式实现。例如,以上所描述的装置/网络设备实施例仅仅是示意性的,例如,所述模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通讯连接可以是通过一些接口,装置或单元的间接耦合或通讯连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,既可以位于一个地方,或者也可以分布到多个网络单元上。
应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于监测到”。类似地,短语“如果确定”或“如果监测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦监测到[所描述条件或事件]”或“响应于监测到[所描述条件或事件]”。
另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
以上所述实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围,均应包含在本申请的保护范围之内。
Claims (7)
1.一种基于电子病历的临床数据录入方法,其特征在于,所述临床数据录入方法,包括:
步骤101:获取临床数据对应的待录入数据列表中的多个列名称以及多个所述列名称各自对应的词库;所述词库是指所述列名称对应的近义词;
步骤102:对电子病历进行有效性筛选,并提取电子病历中的结构化数据和非结构化数据;
步骤103:将所述结构化数据的首列字段,分别与所述词库进行匹配;
步骤104:若存在与所述词库相同的首列字段,则提取所述相同的首列字段对应的下一列文本信息,并将所述下一列文本信息录入至第一列名称对应的第一待录入列单元中;所述第一列名称是指与首列字段相同的列名称;
步骤105:基于多个所述列名称,在所述非结构化数据中,匹配与所述词库相同的索引词汇;所述索引词汇包括姓名、白细胞计数、血小板计数、甲胎蛋白计数、诊断结果、科室以及诊疗方案;
步骤106:基于自然语言处理,提取位于所述索引词汇之后的与所述索引词汇对应的目标文本信息;
步骤107:若所述目标文本信息的字符数量不大于阈值,则执行所述将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表的步骤;
步骤108:将所述目标文本信息进行分词处理,得到所述目标文本信息对应的目标分词数据;
步骤109:将所述目标分词数据进行编码处理,得到所述目标分词数据对应的目标编码数据;其中,不同的词语均预设有不同的编码值;
步骤110:根据所述目标分词数据在所述目标文本信息中的原始排列顺序,将所述目标编码数据按照从左至右,且从上至下的方式进行依次排列,得到目标编码矩阵;
步骤111:获取多个预先训练的识别模型,在多个所述识别模型中,选择索引词汇对应的目标识别模型;
步骤112:将所述目标编码矩阵输入至所述目标识别模型中,通过所述目标识别模型进行卷积处理,得到由所述目标识别模型输出的目标识别结果;
步骤113:根据所述目标识别结果,确定所述目标文本信息是否正确;
步骤114:若确定所述目标文本信息正确,则执行所述将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表的步骤;
步骤115:将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表;所述第二列名称是指与索引词汇相同的列名称。
2.如权利要求1所述的录入方法,其特征在于,所述获取临床数据对应的待录入数据列表中的多个列名称以及多个所述列名称各自对应的词库,包括:
提取所述电子病历中的医院信息,获取所述医院信息对应的预设词库;
获取所述临床数据对应的待录入数据列表中的多个所述列名称;
在所述预设词库,获取多个所述列名称各自对应的词库;其中,不同医院信息对应不同的预设词库。
3.如权利要求1所述的录入方法,其特征在于,在所述将所述目标文本信息进行分词处理,得到所述目标文本信息对应的目标分词数据之前,还包括:
基于自然语言处理,提取所述目标文本信息中的摘要文本信息;
将所述摘要文本信息作为所述目标文本信息,执行所述步骤108至所述步骤115。
4.如权利要求1所述的录入方法,其特征在于,在所述若所述目标文本信息的字符数量大于所述阈值,则根据目标识别模型,识别所述目标文本信息是否正确之前,还包括:
针对每个索引词汇,分别经过如下步骤,得到每个索引词汇对应的目标识别模型:
步骤A:获取多个初始文本信息;
步骤B:将所述初始文本信息进行分词处理,得到所述初始文本信息对应的训练分词数据;
步骤C:将所述训练分词数据进行编码处理,得到所述训练分词数据对应的训练编码矩阵;
步骤D:将所述训练编码矩阵输入至初始识别模型中,通过所述初始识别模型进行卷积处理,得到由所述初始识别模型输出的训练识别结果;
步骤E:根据所述训练识别结果以及所述索引词汇,计算所述初始识别模型的损失值;
步骤F:根据所述损失值,调整所述初始识别模型的参数,得到调整后的初始识别模型;
步骤G:将所述初始识别模型替换成所述调整后的初始识别模型,基于未训练的训练编码矩阵执行所述步骤D至所述步骤G,直至所有的训练编码矩阵完成训练,并将最终的初始识别模型作为所述目标识别模型。
5.一种基于电子病历的临床数据录入装置,其特征在于,所述临床数据录入装置,包括:
第一获取单元,用于获取临床数据对应的待录入数据列表中的多个列名称以及多个所述列名称各自对应的词库;所述词库是指所述列名称对应的近义词;
第一提取单元,用于对电子病历进行有效性筛选,并提取电子病历中的结构化数据和非结构化数据;
第一匹配单元,用于将所述结构化数据的首列字段,分别与所述词库进行匹配;
第二提取单元,用于若存在与所述词库相同的首列字段,则提取所述相同的首列字段对应的下一列文本信息,并将所述下一列文本信息录入至第一列名称对应的第一待录入列单元中;所述第一列名称是指与首列字段相同的列名称;
第二匹配单元,用于基于多个所述列名称,在所述非结构化数据中,匹配与所述词库相同的索引词汇;所述索引词汇包括姓名、白细胞计数、血小板计数、甲胎蛋白计数、诊断结果、科室以及诊疗方案;
第三提取单元,用于基于自然语言处理,提取位于所述索引词汇之后的与所述索引词汇对应的目标文本信息;
判断单元,用于若所述目标文本信息的字符数量不大于阈值,则执行所述将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表的步骤;
将所述目标文本信息进行分词处理,得到所述目标文本信息对应的目标分词数据;
将所述目标分词数据进行编码处理,得到所述目标分词数据对应的目标编码数据;其中,不同的词语均预设有不同的编码值;
根据所述目标分词数据在所述目标文本信息中的原始排列顺序,将所述目标编码数据按照从左至右,且从上至下的方式进行依次排列,得到目标编码矩阵;
获取多个预先训练的识别模型,在多个所述识别模型中,选择索引词汇对应的目标识别模型;
将所述目标编码矩阵输入至所述目标识别模型中,通过所述目标识别模型进行卷积处理,得到由所述目标识别模型输出的目标识别结果;
根据所述目标识别结果,确定所述目标文本信息是否正确;
若确定所述目标文本信息正确,则执行所述将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表的步骤;
录入单元,用于将所述目标文本信息录入至第二列名称对应的第二待录入列单元中,得到录入后的所述待录入数据列表;所述第二列名称是指与索引词汇相同的列名称。
6.一种终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至4任一项所述方法的步骤。
7.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至4任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210417248.2A CN114912887B (zh) | 2022-04-20 | 2022-04-20 | 一种基于电子病历的临床数据录入方法及录入装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210417248.2A CN114912887B (zh) | 2022-04-20 | 2022-04-20 | 一种基于电子病历的临床数据录入方法及录入装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN114912887A CN114912887A (zh) | 2022-08-16 |
CN114912887B true CN114912887B (zh) | 2023-05-23 |
Family
ID=82765743
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210417248.2A Active CN114912887B (zh) | 2022-04-20 | 2022-04-20 | 一种基于电子病历的临床数据录入方法及录入装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114912887B (zh) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116612848B (zh) * | 2023-07-19 | 2023-11-10 | 首都医科大学附属北京安贞医院 | 一种电子病历的生成方法、装置、设备及存储介质 |
CN117057329B (zh) * | 2023-10-13 | 2024-01-26 | 赞塔(杭州)科技有限公司 | 表格数据处理方法及装置、计算设备 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020453A (zh) * | 2012-12-15 | 2013-04-03 | 中国科学院深圳先进技术研究院 | 基于本体技术的结构化电子病历生成方法 |
CN105468900A (zh) * | 2015-11-20 | 2016-04-06 | 邹远强 | 一种基于知识库的智能病历录入平台 |
CN106095913A (zh) * | 2016-06-08 | 2016-11-09 | 广州同构医疗科技有限公司 | 一种电子病历文本结构化方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102346814A (zh) * | 2011-11-03 | 2012-02-08 | 厦门市智业软件工程有限公司 | 表格式片段结构化电子病历的录入方法 |
CN107145511A (zh) * | 2017-03-31 | 2017-09-08 | 上海森亿医疗科技有限公司 | 基于医学文本信息的结构化医学数据库生成方法及系统 |
CN110347982A (zh) * | 2018-04-03 | 2019-10-18 | 鼎复数据科技(北京)有限公司 | 基于领域知识模版的表格结构化提取方法 |
CN109243616A (zh) * | 2018-06-29 | 2019-01-18 | 东华大学 | 基于深度学习的乳腺电子病历联合关系抽取与结构化系统 |
CN109710932A (zh) * | 2018-12-22 | 2019-05-03 | 北京工业大学 | 一种基于特征融合的医疗实体关系抽取方法 |
US10789461B1 (en) * | 2019-10-24 | 2020-09-29 | Innovaccer Inc. | Automated systems and methods for textual extraction of relevant data elements from an electronic clinical document |
CN111352987A (zh) * | 2020-02-28 | 2020-06-30 | 汤学民 | 一种电子病历结构化方法、系统及相关设备 |
-
2022
- 2022-04-20 CN CN202210417248.2A patent/CN114912887B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103020453A (zh) * | 2012-12-15 | 2013-04-03 | 中国科学院深圳先进技术研究院 | 基于本体技术的结构化电子病历生成方法 |
CN105468900A (zh) * | 2015-11-20 | 2016-04-06 | 邹远强 | 一种基于知识库的智能病历录入平台 |
CN106095913A (zh) * | 2016-06-08 | 2016-11-09 | 广州同构医疗科技有限公司 | 一种电子病历文本结构化方法 |
Also Published As
Publication number | Publication date |
---|---|
CN114912887A (zh) | 2022-08-16 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111316281B (zh) | 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统 | |
US20220044812A1 (en) | Automated generation of structured patient data record | |
US7610192B1 (en) | Process and system for high precision coding of free text documents against a standard lexicon | |
CN114912887B (zh) | 一种基于电子病历的临床数据录入方法及录入装置 | |
CN110910976A (zh) | 病历检测方法、装置、设备和存储介质 | |
WO2021046536A1 (en) | Automated information extraction and enrichment in pathology report using natural language processing | |
CN112541066B (zh) | 基于文本结构化的医技报告检测方法及相关设备 | |
US11836173B2 (en) | Apparatus and method for generating a schema | |
CN111177375B (zh) | 一种电子文档分类方法及装置 | |
CN113707307A (zh) | 病情分析方法、装置、电子设备及存储介质 | |
CN110634546A (zh) | 电子病历文本规范化检测方法 | |
CN112560400A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN114358001A (zh) | 诊断结果的标准化方法及其相关装置、设备和存储介质 | |
US20220375576A1 (en) | Apparatus and method for diagnosing a medical condition from a medical image | |
CN116150382A (zh) | 一种确定标准化医疗专业名词的方法及装置 | |
CN113111660A (zh) | 数据处理方法、装置、设备和存储介质 | |
CN112749277A (zh) | 医学数据的处理方法、装置及存储介质 | |
CN116108906A (zh) | 疾病药品关系映射模型训练及相关推荐、检测方法和装置 | |
Butala et al. | Natural language parser for physician’s handwritten prescription | |
Bhatia et al. | An efficient modular framework for automatic LIONC classification of MedIMG using unified medical language | |
Ruis et al. | Human-in-the-loop Language-agnostic Extraction of Medication Data from Highly Unstructured Electronic Health Records | |
CN117493642B (zh) | 相似电子病历检索方法、装置、终端及存储介质 | |
US11997240B1 (en) | Method and an apparatus for inline image scan enrichment | |
CN116186271B (zh) | 一种医疗专业名词分类模型训练方法、分类方法及装置 | |
CN114334049B (zh) | 一种电子病历结构化处理方法和装置及设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |