CN112016279B - 电子病历结构化方法、装置、计算机设备和存储介质 - Google Patents
电子病历结构化方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN112016279B CN112016279B CN202010922768.XA CN202010922768A CN112016279B CN 112016279 B CN112016279 B CN 112016279B CN 202010922768 A CN202010922768 A CN 202010922768A CN 112016279 B CN112016279 B CN 112016279B
- Authority
- CN
- China
- Prior art keywords
- medical record
- text
- electronic medical
- sentence
- sub
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 47
- 239000013598 vector Substances 0.000 claims abstract description 80
- 238000013145 classification model Methods 0.000 claims abstract description 44
- 238000004364 calculation method Methods 0.000 claims abstract description 37
- 238000013507 mapping Methods 0.000 claims abstract description 29
- 238000005520 cutting process Methods 0.000 claims abstract description 22
- 238000013528 artificial neural network Methods 0.000 claims description 22
- 238000012549 training Methods 0.000 claims description 17
- 230000002457 bidirectional effect Effects 0.000 claims description 15
- 230000006870 function Effects 0.000 claims description 15
- 125000004122 cyclic group Chemical group 0.000 claims description 13
- 238000004590 computer program Methods 0.000 claims description 12
- 238000003062 neural network model Methods 0.000 claims description 11
- 238000001514 detection method Methods 0.000 claims description 4
- 230000008569 process Effects 0.000 description 9
- 238000007726 management method Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 238000012545 processing Methods 0.000 description 3
- 230000000306 recurrent effect Effects 0.000 description 3
- 230000006978 adaptation Effects 0.000 description 2
- 238000012550 audit Methods 0.000 description 2
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004422 calculation algorithm Methods 0.000 description 2
- 238000010276 construction Methods 0.000 description 2
- 238000013527 convolutional neural network Methods 0.000 description 2
- 201000010099 disease Diseases 0.000 description 2
- 208000037265 diseases, disorders, signs and symptoms Diseases 0.000 description 2
- 238000005516 engineering process Methods 0.000 description 2
- 230000003862 health status Effects 0.000 description 2
- 238000012423 maintenance Methods 0.000 description 2
- 238000007781 pre-processing Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 230000001360 synchronised effect Effects 0.000 description 2
- 208000025174 PANDAS Diseases 0.000 description 1
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 1
- 240000000220 Panda oleosa Species 0.000 description 1
- 235000016496 Panda oleosa Nutrition 0.000 description 1
- 108010001267 Protein Subunits Proteins 0.000 description 1
- 238000013475 authorization Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004140 cleaning Methods 0.000 description 1
- 238000004891 communication Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000003745 diagnosis Methods 0.000 description 1
- 239000003814 drug Substances 0.000 description 1
- 229940079593 drug Drugs 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 238000012954 risk control Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 238000001356 surgical procedure Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biophysics (AREA)
- Molecular Biology (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Biomedical Technology (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Epidemiology (AREA)
- Public Health (AREA)
- Primary Health Care (AREA)
- Medical Treatment And Welfare Office Work (AREA)
Abstract
本申请涉及智能决策领域,应用于智慧医疗领域,提供了一种电子病历结构化方法、装置、计算机设备和存储介质,所述方法包括:获取电子病历文本,以及电子病历文本的句子数;检测电子病历文本的句子数是否超过预设阀值;若超过,则将电子病历文本进行截断,得到多个电子病历子文本;将每个电子病历子文本通过预设规则引入上下文,得到目标病历文本;将目标病历文本中的每个句子映射为固定维度的句向量;将每个目标病历文本中的所述句向量按照顺序输入至分类模型中进行计算,得到第一输出;根据第一输出得到每个句子的分类标签。通过本申请提供的电子病历结构化方法、装置、计算机设备和存储介质,提高截断处句子结构化的准确性。
Description
技术领域
本申请涉及智能决策的技术领域,特别涉及一种电子病历结构化方法、 装置、计算机设备和存储介质。
背景技术
病历是病人在医院诊断治疗全过程的原始记录,它包含有首页、病程记 录、检查检验结果、医嘱、手术记录、护理记录等等。电子病历不仅指静态 病历信息,还包括提供的相关服务。电子病历是以电子化方式管理的有关个 人终生健康状态和医疗保健行为的信息,涉及病人信息的采集、存储、传输、 处理和利用的所有过程信息。而电子病历结构化通过对电子病历中的疾病实 体、药物实体、身体部位实体等通过神经网络进行结构化提取,能够高效地 提取出病历中的关键信息,有效地辅助医生进行核心数据分析以及数据检索。然而现有的电子病历长短不一,当电子病历过长时,需要进行截断,但由于 截断过程比较具有随机性,因此可能导致截断处的数据会丢失部分上下文信 息,影响截断处周围的句子的结构化的准确性。
发明内容
本申请的主要目的为提供一种电子病历结构化方法、装置、计算机设备 和存储介质,解决电子病历因截断影响截断处周围的句子的结构化的准确性 的问题。
为实现上述目的,本申请提供了一种电子病历结构化方法,包括以下步 骤:
获取电子病历文本,以及所述电子病历文本的句子数;
检测所述电子病历文本的句子数是否超过预设阀值;
若超过,则将所述电子病历文本进行截断,得到多个电子病历子文本;
将每个所述电子病历子文本通过预设规则引入上下文,得到目标病历文 本;
将所述目标病历文本中的每个句子映射为固定维度的句向量;
将每个所述目标病历文本中的所述句向量按照所述句向量所对应的句子 在所述目标病历文本中的顺序输入至分类模型中进行计算,得到第一输出; 其中,所述分类模型基于双向循环神经网络模型训练而成;
根据所述第一输出得到每个句子的分类标签。
进一步地,所述根据所述第一输出得到每个句子的分类标签的步骤,包 括:
将每个所述句向量的所述第一输出输入至CRF网络和/或自注意力网络中, 得到第二输出;
将每个所述句向量的所述第二输出经过SOFTMAX计算,得到每个句子的 分类标签。
进一步地,所述将所述目标病历文本中的每个句子映射为固定维度的句 向量的步骤,包括:
将所述目标病历文本中的每个句子输入至神经网络中;
通过所述神经网络的encoder将每个所述句子映射为固定维度的句向量。
进一步地,所述将每个所述电子病历子文本通过预设规则引入上下文, 得到目标病历文本的步骤,包括:
检测各个所述电子病历子文本在所述电子病历文本中的位置;
当所述电子病历子文本在所述电子病历文本的位置为开始时,在所述电 子病历子文本的截断处引入下一个电子病历子文本中开始部分的预设个数的 句子;
当所述电子病历文本在所述电子病历文本的位置为中间时,在所述电子 病历子文本的开始截断处引入上一个电子病历子文本的结尾部分预设个数的 句子,在所述电子病历子文本的结尾截断处引入下一个电子病历子文本的开 始部分的预设个数的句子;
当所述电子病历子文本在所述电子病历文本的位置为结尾时,在所述电 子病历子文本的截断处引入上一个电子病历子文本中结尾部分的预设个数的 句子。
进一步地,所述检测所述电子病历文本的句子数是否超过预设阀值的步 骤之后,包括:
若不超过,将所述电子病历文本中的每个句子映射为固定维度的句向量;
将每个所述电子病历文本中的所述句向量按照顺序输入至所述分类模型 中进行计算,得到第三输出;
将每个所述句向量的所述第三输出经过SOFTMAX计算,得到每个句子的 分类标签。
进一步地,所述将每个所述目标病历文本中的所述句向量按照所述句向 量所对应的句子在所述目标病历文本中的顺序输入至分类模型中进行计算, 得到第一输出的步骤之前,包括:
获取训练数据集中的病例样本,所述病历样本中各个句子具有正确分类 标签;
对所述病历样本进行截断,得到多个病历子样本;
将每个所述病历子样本通过预设规则引入上下文,得到目标病历样本;
将所述目标病历样本中的每个句子映射为固定维度的句向量;
将每个所述目标病历文本中的所述句向量按照顺序输入至双向循环神经 网模型中进行计算,得到训练输出;
将所述训练输出经过SOFTMAX计算得到预测输出;
通过损失函数计算所述病历子样本中的各个句子的损失值;
根据所述损失值确定分类模型参数,完成分类模型的训练。
进一步地,所述通过损失函数计算所述病历子样本中的各个句子的损失 值的步骤,包括:
通过交叉熵函数计算所述病历子样本中的各个句子的损失值;所述交叉 熵函数的公式为:所述y为预测输出,/>为所述正 确分类标签。
本申请还提供一种电子病历结构化装置,包括:
第一获取单元,用于获取电子病历文本,以及所述电子病历文本的句子 数;
检测单元,用于检测所述电子病历文本的句子数是否超过预设阀值;
第一截断单元,用于若超过,则将所述电子病历文本进行截断,得到多 个电子病历子文本;
第一引入单元,用于将每个所述电子病历子文本通过预设规则引入上下 文,得到目标病历文本;
第一映射单元,用于将所述目标病历文本中的每个句子映射为固定维度 的句向量;
第一计算单元,用于将每个所述目标病历文本中的所述句向量按照所述 句向量所对应的句子在所述目标病历文本中的顺序输入至分类模型中进行计 算,得到第一输出;其中,所述分类模型基于双向循环神经网络模型训练而 成;
第二计算单元,用于根据所述第一输出得到每个句子的分类标签。
本申请还提供一种计算机设备,包括存储器和处理器,所述存储器中存 储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的 电子病历结构化方法的步骤。
本申请还提供一种计算机可读存储介质,其上存储有计算机程序,所述 计算机程序被处理器执行时实现上述任一项所述的电子病历结构化方法的步 骤。
本申请提供的电子病历结构化方法、装置、计算机设备和存储介质,通 过在截断处按照预设规则引入一部分上下文,将引入的上下文和截断后的电 子病历文本一起输入分类模型中,该分类模型基于双向循环神经网络训练而 成,能提取上下文信息,再经过SOFTMAX计算各个句子的分类,能够有效的 提高截断处周围的句子的结构化的准确性。
附图说明
图1是本申请一实施例中电子病历结构化方法的步骤示意图;
图2是本申请一实施例中电子病历结构化装置的结构框图;
图3为本申请一实施例的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步 说明。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及 实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例 仅仅用以解释本申请,并不用于限定本申请。
参照图1,本申请一实施例提供一种电子病历结构化方法,包括:
步骤S1,获取电子病历文本,以及所述电子病历文本的句子数;
步骤S2,检测所述电子病历文本的句子数是否超过预设阀值;
步骤S3,若超过,则将所述电子病历文本进行截断,得到多个电子病历 子文本;
步骤S4,将每个所述电子病历子文本通过预设规则引入上下文,得到目 标病历文本;
步骤S5,将所述目标病历文本中的每个句子映射为固定维度的句向量;
步骤S6,将每个所述目标病历文本中的所述句向量按照所述句向量所对 应的句子在所述目标病历文本中的顺序输入至分类模型中进行计算,得到第 一输出;其中,所述分类模型基于双向循环神经网络模型训练而成;
步骤S7,根据所述第一输出得到每个句子的分类标签。
本实施例中,如上步骤S1所述,获取电子病历文本,对获取到的电子病 历文本可做一些预处理,如通过numpy、pandas、jieba等工具进行文本预处 理和数据清洗,包括中文分词、去停用词、去除无用符号等,还可对电子病 历文本中的隐私进行信息脱敏,然后去除病人隐私,隐私包括:姓名、床号、 住院号、地址等易被他人识别的关键隐私信息,获取经过上述处理后的电子 病历文本的句子数。
如上述步骤S2-S3所述,由于分类模型支持的长度有限,因此当电子病 历文本的句子数超过预设阀值后,需要对电子病历文本进行截断,使得截断 后的电子病历子文本中的句子能够输入到分类模型中。
如上述步骤S4所述,由于对电子病历文本进行了截断,因此对每个电子 病历子文本按照预设规则引入上下文,如将一个电子病历文本截断为3个电 子病历子文本,按照顺序依次为第一电子病历子文本、第二电子病历子文本 和第三电子病历子文本,在第一电子病历子文本的截断处引入一部分第二电 子病历子文本中句子,在第二电子病历子文本中的开头截断处引入一部分第 一电子病历子文本的句子,在第二电子病历子文本中的结尾截断处引入一部 分第三电子病历子文本的句子,在第三电子病历子文本的截断处引入第二电 子病历子文本中的一部分句子。
如上述步骤S5所述,将所述目标病历文本中的每个句子映射为固定维度 的句向量,具体的,可通过神经网络(可以为卷积神经网络,循环神经网络, transormer等)的encoder(编码器),将句子映射为固定维度的向量,我们 就可以得到单个句子经过神经网络的向量表示。如此将电子病历文本中的每 个句子输入到神经网络中,可以得到每个句子的向量表示,如此一个完整的 电子病历文本就可以用所有句子的句向量来表示。
如上述步骤S6所述,病历中的句子不是相互独立的而是上下文相关的, 如描述治疗过程的部分通常是由多个句子组成的,一个描述治疗的句子它的 上下文也是描述治疗过程的概率会比描述用户的既往病史的概率更大,因此 只对文本做单个句子的分类不会取得很好的效果,需要将上下文信息都囊括 进来,将句向量按照顺序输入到分类模型中,该分类模型基于双向循环神经 网络模型训练而成,经过分类模型的前向推算和后向推算,每个句子能更好 地获得上下文信息,有效地提高分类的准确性,具体的,该分类模型可将每 个句子分类为基本信息、个人史、家族史、既往史、现病史、主诉、检查、 诊断、治疗、总结、其他中的一个。
如上述步骤S7所述,根据第一输出得到每个句子的分类标签,具体的, 将每个所述句向量的第一输出经过SOFTMAX计算,SOFTMAX可将将一个 K维的任意实数向量映射成另一个K维的实数向量,其中向量中的每个元素 取值都介于(0,1)之间,SOFTMAX的函数表达式为:其 中,K表示分类的类别数,j表示K个分类中某个分类,j∈(0,K],zj表示该 分类的值。经过上述计算,得到每个句子在每个类别中的值,选择值最大的 一个类别作为该句子的分类标签。
本实施例中,通过在截断处按照预设规则引入一部分上下文,将引入的 上下文和截断后的电子病历文本一起输入分类模型中得到第一输出,该分类 模型基于双向循环神经网络训练而成,能提取上下文信息,根据第一输出得 到每个句子的分类标签,能够有效的提高电子病历截断处的句子的结构化的 准确性。
在一实施例中,所述根据所述第一输出得到每个句子的分类标签的步骤 的步骤S7,包括:
步骤S71,将每个所述句向量的所述第一输出输入至CRF(conditional randomfield,条件随机场)网络和/或自注意力网络中,得到第二输出;
步骤S72,将每个所述句向量的所述第二输出经过SOFTMAX计算,得 到每个句子的分类标签。
本实施例中,如上述步骤S71-S72所述,将第一输出输入到CRF网络和/ 或自注意力网络中,可进一步提高分类模型的上下文信息的影响,加强句子 间上下文的联系。在其他实施例中,可将第一输出之间经过SOFTMAX计算, 得到每个句子的分类标签。
在一实施例中,所述将所述目标病历文本中的每个句子映射为固定维度 的句向量的步骤S5,包括:
步骤S51,将所述目标病历文本中的每个句子输入至神经网络中;
步骤S52,通过所述神经网络的encoder将每个所述句子映射为固定维度 的句向量。
本实施例中,通过神经网络(可以为卷积神经网络,循环神经网络, transformer等)的encoder,将句子映射为固定维度的向量,我们就可以得到 单个句子经过神经网络的向量表示。以transformer模型为例,transformer模 型的encoder是有N=6个layers层组成的,每一层包含了两个sub-layers,第 一个sub-layer就是多头注意力层(multi-headattention layer),第二个就是一 个简单的全连接层。在每个sub-layer层之间都用了残差连接,根据resNet, 我们知道残差连接实际上是:H(x)=F(x)+x;因此每个sub-layer的输出都是: LayerNorm(x+Sublayer(x)),LayerNorm中每个样本都有不同的均值和方差。每个Layer的输入和输出的维度是一致的。如此将病历数据中的每个句子输入 到transformer模型中,可以得到每个句子的向量表示,如此一个完整的电子 病历文本就可以用所有句子的句向量来表示。
在一实施例中,所述将每个所述电子病历子文本通过预设规则引入上下 文,得到目标病历文本的步骤S4,包括:
步骤S41,检测各个所述电子病历子文本在所述电子病历文本中的位置;
步骤S42,当所述电子病历子文本在所述电子病历文本的位置为开始时, 在所述电子病历子文本的截断处引入下一个电子病历子文本中开始部分的预 设个数的句子;
步骤S43,当所述电子病历文本在所述电子病历文本的位置为中间时,在 所述电子病历子文本的开始截断处引入上一个电子病历子文本的结尾部分预 设个数的句子,在所述电子病历子文本的结尾截断处引入下一个电子病历子 文本的开始部分的预设个数的句子;
步骤S44,当所述电子病历子文本在所述电子病历文本的位置为结尾时, 在所述电子病历子文本的截断处引入上一个电子病历子文本中结尾部分的预 设个数的句子。
本实施例中,为每个电子病历子文本引入一部分的句子,如一份电子病 历文本中句子数为120,而分类模型一次仅能支持50句,可将电子自病历子文 本按照句子数进行均分,如分成4份,每份30句,可将第一份的结尾处引入第 二份开始的前10句,形成第一份目标病历文本;可在第二份的开始引入第一 份结尾处的10句,在第二份的结尾处引入第三份的开始的前10句,形成第二 份目标病历子文件,具体的每个电子病历子文本引入的句子数可根据需要预 先进行设定。本实施例通过为每个电子病历子文本引入上下文中的句子,再输入至分类模型进行分类,通过上下文之间的联系提高每个句子分类的准确 性。
在一实施例中,所述所述检测所述电子病历文本的句子数是否超过预设 阀值的步骤S2之后,包括:
步骤S2A,若不超过,将所述电子病历文本中的每个句子映射为固定维度 的句向量;
步骤S2B,将每个所述电子病历文本中的所述句向量按照顺序输入至所述 分类模型中进行计算,得到第三输出;
步骤S2C,将每个所述句向量的所述第三输出经过SOFTMAX计算,得到 每个句子的分类标签。
本实施例中,当电子病历文本的句子数未超过预设阀值时,直接将每个 句子的句向量按照顺序输入至分类模型中进行计算,再经过SOFTMAX函数的 计算得到各个句子的分类标签。
在一实施例中,所述将每个所述目标病历文本中的所述句向量按照所述 句向量所对应的句子在所述目标病历文本中的顺序输入至分类模型中进行计 算,得到第一输出的步骤S6之前,包括:
步骤S6a,获取训练数据集中的病例样本,所述病历样本中各个句子具有 正确分类标签;
步骤S6b,对所述病历样本进行截断,得到多个病历子样本;
步骤S6c,将每个所述病历子样本通过预设规则引入上下文,得到目标病 历样本;
步骤S6d,将所述目标病历样本中的每个句子映射为固定维度的句向量;
步骤S6e,将每个所述目标病历文本中的所述句向量按照顺序输入至双向 循环神经网模型中进行计算,得到训练输出;
步骤S6f,将所述训练输出经过SOFTMAX计算得到预测输出;
步骤S6g,通过损失函数计算所述病历子样本中的各个句子的损失值;
步骤S6h,根据所述损失值确定分类模型参数,完成分类模型的训练。
本实施例中,如上述步骤S6g所述,计算病历子样本中各个句子的损失值, 病历子样本中按照一定的规则引入上下文,上下文跟随病历子样本中的各个 句子输入至双向循环神经网络中,提取到上下文信息,且会得到各个句子的 输出,将各个句子的输出经过SOFTMAX计算得到各个句子的期望输出,再通 过损失函数仅计算病历子样本中各个句子的损失值,选择最小的损失值所对 应的模型参数作为最终的模型参数,完成分类模型的训练。本实施例中,每 个病历子样本均引入了上下文,但引入的上下文仅仅提供上下文信息,不参 与损失值的计算和最终的分类。具体的,通过交叉熵函数计算病历子样本中各个句子的损失值,其中,y为病 历子样本中各个句子的期望输出,/>为其正确的分类标签。
本申请提供的电子病历结构化方法可运用在区块链领域中,将训练好的 分类模型存储在区块链网络中,同时电子病历文本也可存储在区块链网络中, 区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术 的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是 一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网 络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可 以包括区块链底层平台、平台产品服务层以及应用服务层。区块链网络 (Blockchain Network),是指通过共识的方式将新区块纳入区块链的一系列的节点的集合。
区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控 等处理模块。其中,用户管理模块负责所有区块链参与者的身份信息管理, 包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对 应关系维护(权限管理)等,并且在授权的情况下,监管和审计某些真实身份的 交易情况,提供风险控制的规则配置(风控审计);基础服务模块部署在所有区 块链节点设备上,用来验证业务请求的有效性,并对有效请求完成共识后记 录到存储上,对于一个新的业务请求,基础服务先对接口适配解析和鉴权处 理(接口适配),然后通过共识算法将业务信息加密(共识管理),在加密之后完 整一致的传输至共享账本上(网络通信),并进行记录存储;智能合约模块负责 合约的注册发行以及合约触发和合约执行,开发人员可以通过某种编程语言 定义合约逻辑,发布到区块链上(合约注册),根据合约条款的逻辑,调用密钥 或者其它的事件触发执行,完成合约逻辑,同时还提供对合约升级注销的功 能;运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、 云适配以及产品运行中的实时状态的可视化输出,例如:告警、监控网络情 况、监控节点设备健康状态等。
本申请提供的电子病历结构化方法、装置、计算机设备和存储介质,可 应用在智能医疗领域,加快数字医疗的建设,从而推动智慧城市的建设。
参照图2,本申请一实施例还提供一种电子病历结构化装置,包括:
第一获取单元10,用于获取电子病历文本,以及所述电子病历文本的句 子数;
检测单元20,用于检测所述电子病历文本的句子数是否超过预设阀值;
第一截断单元30,用于若超过,则将所述电子病历文本进行截断,得到 多个电子病历子文本;
第一引入单元40,用于将每个所述电子病历子文本通过预设规则引入上 下文,得到目标病历文本;
第一映射单元50,用于将所述目标病历文本中的每个句子映射为固定维 度的句向量;
第一计算单元60,用于将每个所述目标病历文本中的所述句向量按照所 述句向量所对应的句子在所述目标病历文本中的顺序输入至分类模型中进行 计算,得到第一输出;其中,所述分类模型基于双向循环神经网络模型训练 而成;
第二计算单元70,用于根据所述第一输出得到每个句子的分类标签。
在一实施例中,所述第二计算单元70包括:
第一输入子单元,用于将每个所述句向量的所述第一输出输入至CRF网络 和/或自注意力网络中,得到第二输出;
计算子单元,用于将每个所述句向量的所述第二输出经过SOFTMAX计算, 得到每个句子的分类标签。
在一实施例中,所述第一映射单元50,包括:
第二输入子单元,用于将所述目标病历文本中的每个句子输入至神经网 络中;
映射子单元,用于通过所述神经网络的encoder将每个所述句子映射为固 定维度的句向量。
在一实施例中,所述第一引入单元40,包括:
检测子单元,用于检测各个所述电子病历子文本在所述电子病历文本中 的位置;
第一引入子单元,用于当所述电子病历子文本在所述电子病历文本的位 置为开始时,在所述电子病历子文本的截断处引入下一个电子病历子文本中 开始部分的预设个数的句子;
第二引入子单元,用于当所述电子病历文本在所述电子病历文本的位置 为中间时,在所述电子病历子文本的开始截断处引入上一个电子病历子文本 的结尾部分预设个数的句子,在所述电子病历子文本的结尾截断处引入下一 个电子病历子文本的开始部分的预设个数的句子;
第三引入子单元,用于当所述电子病历子文本在所述电子病历文本的位 置为结尾时,在所述电子病历子文本的截断处引入上一个电子病历子文本中 结尾部分的预设个数的句子。
在一实施例中,所述电子病历结构化装置,还包括:
第二映射单元,用于若不超过,将所述电子病历文本中的每个句子映射 为固定维度的句向量;
第三计算单元,用于将每个所述电子病历文本中的所述句向量按照顺序 输入至所述分类模型中进行计算,得到第三输出;
第四计算单元,用于将每个所述句向量的所述第三输出经过SOFTMAX 计算,得到每个句子的分类标签。
在一实施例中,所述电子病历结构化装置还包括:
第二获取单元,用于获取训练数据集中的病例样本,所述病历样本中各 个句子具有正确分类标签;
第二截断单元,用于对所述病历样本进行截断,得到多个病历子样本;
第二引入单元,用于将每个所述病历子样本通过预设规则引入上下文, 得到目标病历样本;
第三映射单元,用于将所述目标病历样本中的每个句子映射为固定维度 的句向量;
第五计算单元,用于将每个所述目标病历文本中的所述句向量按照顺序 输入至双向循环神经网模型中进行计算,得到训练输出;
第六计算单元,用于将所述训练输出经过SOFTMAX计算得到预测输出;
第七计算单元,用于通过损失函数计算所述病历子样本中的各个句子的 损失值;
确定单元,用于根据所述损失值确定分类模型参数,完成分类模型的训 练。
在一实施例中,所述第七计算单元,包括:
计算子单元,用于通过交叉熵函数计算所述病历子样本中的各个句子的 损失值;所述交叉熵函数的公式为:所述y为预测 输出,/>为所述正确分类标签。
在本实施例中,上述各个单元、子单元、模块的具体实现请参照上述方 法实施例中所述,在此不再进行赘述。
参照图3,本申请实施例中还提供一种计算机设备,该计算机设备可以是 服务器,其内部结构可以如图3所示。该计算机设备包括通过系统总线连接 的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于 提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存 储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存 储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计 算机设备的数据库用于存储电子病历数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种 电子病历结构化方法。
本领域技术人员可以理解,图3中示出的结构,仅仅是与本申请方案相 关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的 限定。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程 序,计算机程序被处理器执行时实现一种电子病历结构化方法。
综上所述,为本申请实施例中提供的电子病历结构化方法、装置、计算 机设备和存储介质,通过在截断处按照预设规则引入一部分上下文,将引入 的上下文和截断后的电子病历文本一起输入分类模型中,该分类模型基于双 向循环神经网络训练而成,能提取上下文信息,再经过SOFTMAX计算各个 句子的分类,能够有效的提高截断处周围的句子的结构化的准确性。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程, 是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储 与一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如 上述各方法的实施例的流程。其中,本申请所提供的和实施例中所使用的对 存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失 性存储器。非易失性存储器可以包括只读存储器(ROM)、可编程ROM (PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM) 或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存 储器。作为说明而非局限,RAM通过多种形式可得,诸如静态RAM(SRAM)、 动态RAM(DRAM)、同步DRAM(SDRAM)、双速据率SDRAM(SSRSDRAM)、 增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、 存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM (DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其它变体意在 涵盖非排他性的包含,从而使得包括一系列要素的过程、装置、物品或者方 法不仅包括那些要素,而且还包括没有明确列出的其它要素,或者是还包括 为这种过程、装置、物品或者方法所固有的要素。在没有更多限制的情况下, 由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、装置、物 品或者方法中还存在另外的相同要素。
以上所述仅为本申请的优选实施例,并非因此限制本申请的专利范围, 凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接 或间接运用在其它相关的技术领域,均同理包括在本申请的专利保护范围内。
Claims (8)
1.一种电子病历结构化方法,其特征在于,包括以下步骤:
获取电子病历文本,以及所述电子病历文本的句子数;
检测所述电子病历文本的句子数是否超过预设阈值;
若超过,则将所述电子病历文本进行截断,得到多个电子病历子文本;
将每个所述电子病历子文本通过预设规则引入上下文,得到目标病历文本;
将所述目标病历文本中的每个句子映射为固定维度的句向量;
将每个所述目标病历文本中的所述句向量按照所述句向量所对应的句子在所述目标病历文本中的顺序输入至分类模型中进行计算,得到第一输出;其中,所述分类模型基于双向循环神经网络模型训练而成;
根据所述第一输出得到每个句子的分类标签;
所述将所述目标病历文本中的每个句子映射为固定维度的句向量的步骤,包括:
将所述目标病历文本中的每个句子输入至神经网络中;
通过所述神经网络的encoder将每个所述句子映射为固定维度的句向量;
所述将每个所述电子病历子文本通过预设规则引入上下文,得到目标病历文本的步骤,包括:
检测各个所述电子病历子文本在所述电子病历文本中的位置;
当所述电子病历子文本在所述电子病历文本的位置为开始时,在所述电子病历子文本的截断处引入下一个电子病历子文本中开始部分的预设个数的句子;
当所述电子病历子文本在所述电子病历文本的位置为中间时,在所述电子病历子文本的开始截断处引入上一个电子病历子文本的结尾部分预设个数的句子,在所述电子病历子文本的结尾截断处引入下一个电子病历子文本的开始部分的预设个数的句子;
当所述电子病历子文本在所述电子病历文本的位置为结尾时,在所述电子病历子文本的截断处引入上一个电子病历子文本中结尾部分的预设个数的句子。
2.根据权利要求1所述的电子病历结构化方法,其特征在于,所述根据所述第一输出得到每个句子的分类标签的步骤,包括:
将每个所述句向量的所述第一输出输入至CRF网络和/或自注意力网络中,得到第二输出;
将每个所述句向量的所述第二输出经过SOFTMAX计算,得到每个句子的分类标签。
3.根据权利要求1所述的电子病历结构化方法,其特征在于,所述检测所述电子病历文本的句子数是否超过预设阈值的步骤之后,包括:
若不超过,将所述电子病历文本中的每个句子映射为固定维度的句向量;
将每个所述电子病历文本中的所述句向量按照顺序输入至所述分类模型中进行计算,得到第三输出;
将每个所述句向量的所述第三输出经过SOFTMAX计算,得到每个句子的分类标签。
4.根据权利要求1所述的电子病历结构化方法,其特征在于,所述将每个所述目标病历文本中的所述句向量按照所述句向量所对应的句子在所述目标病历文本中的顺序输入至分类模型中进行计算,得到第一输出的步骤之前,包括:
获取训练数据集中的病历样本,所述病历样本中各个句子具有正确分类标签;
对所述病历样本进行截断,得到多个病历子样本;
将每个所述病历子样本通过预设规则引入上下文,得到目标病历样本;将所述目标病历样本中的每个句子映射为固定维度的句向量;
将每个所述目标病历文本中的所述句向量按照顺序输入至双向循环神经网模型中进行计算,得到训练输出;
将所述训练输出经过SOFTMAX计算得到预测输出;
通过损失函数计算所述病历子样本中的各个句子的损失值;
根据所述损失值确定分类模型参数,完成分类模型的训练。
5.根据权利要求4所述的电子病历结构化方法,其特征在于,所述通过损失函数计算所述病历子样本中的各个句子的损失值的步骤,包括:
通过交叉熵函数计算所述病历子样本中的各个句子的损失值;所述交叉熵函数的公式为:,所述y为预测输出,/>为所述正确分类标签。
6.一种电子病历结构化装置,其特征在于,包括:
第一获取单元,用于获取电子病历文本,以及所述电子病历文本的句子数;
检测单元,用于检测所述电子病历文本的句子数是否超过预设阈值;
第一截断单元,用于若超过,则将所述电子病历文本进行截断,得到多个电子病历子文本;
第一引入单元,用于将每个所述电子病历子文本通过预设规则引入上下文,得到目标病历文本;
第一映射单元,用于将所述目标病历文本中的每个句子映射为固定维度的句向量;
第一计算单元,用于将每个所述目标病历文本中的所述句向量按照所述句向量所对应的句子在所述目标病历文本中的顺序输入至分类模型中进行计算,得到第一输出;其中,所述分类模型基于双向循环神经网络模型训练而成;
第二计算单元,用于根据所述第一输出得到每个句子的分类标签;
第二输入子单元,用于将所述目标病历文本中的每个句子输入至神经网络中;
映射子单元,用于通过所述神经网络的encoder将每个所述句子映射为固定维度的句向量;
检测子单元,用于检测各个所述电子病历子文本在所述电子病历文本中的位置;
第一引入子单元,用于当所述电子病历子文本在所述电子病历文本的位置为开始时,在所述电子病历子文本的截断处引入下一个电子病历子文本中开始部分的预设个数的句子;
第二引入子单元,用于当所述电子病历子文本在所述电子病历文本的位置为中间时,在所述电子病历子文本的开始截断处引入上一个电子病历子文本的结尾部分预设个数的句子,在所述电子病历子文本的结尾截断处引入下一个电子病历子文本的开始部分的预设个数的句子;
第三引入子单元,用于当所述电子病历子文本在所述电子病历文本的位置为结尾时,在所述电子病历子文本的截断处引入上一个电子病历子文本中结尾部分的预设个数的句子。
7.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至5中任一项所述的电子病历结构化方法的步骤。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至5中任一项所述的电子病历结构化方法的步骤。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010922768.XA CN112016279B (zh) | 2020-09-04 | 2020-09-04 | 电子病历结构化方法、装置、计算机设备和存储介质 |
PCT/CN2020/125146 WO2021159759A1 (zh) | 2020-09-04 | 2020-10-30 | 电子病历结构化方法、装置、计算机设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010922768.XA CN112016279B (zh) | 2020-09-04 | 2020-09-04 | 电子病历结构化方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN112016279A CN112016279A (zh) | 2020-12-01 |
CN112016279B true CN112016279B (zh) | 2023-11-14 |
Family
ID=73517190
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010922768.XA Active CN112016279B (zh) | 2020-09-04 | 2020-09-04 | 电子病历结构化方法、装置、计算机设备和存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN112016279B (zh) |
WO (1) | WO2021159759A1 (zh) |
Families Citing this family (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112562809A (zh) * | 2020-12-15 | 2021-03-26 | 贵州小宝健康科技有限公司 | 一种基于电子病历文本进行辅助诊断的方法及系统 |
CN112820367B (zh) * | 2021-01-11 | 2023-06-30 | 平安科技(深圳)有限公司 | 病历信息校验方法、装置、计算机设备及存储介质 |
CN112883712B (zh) * | 2021-02-05 | 2023-05-02 | 中国人民解放军南部战区总医院 | 一种电子病历的智能输入方法及装置 |
CN113627564B (zh) * | 2021-08-23 | 2024-07-02 | 李永鑫 | 基于深度学习的ct医学影像处理模型训练方法及诊疗系统 |
CN113836292B (zh) * | 2021-09-15 | 2024-01-09 | 灵犀量子(北京)医疗科技有限公司 | 生物医学文献摘要的结构化方法、系统、设备及介质 |
CN114861630B (zh) * | 2022-05-10 | 2024-07-19 | 马上消费金融股份有限公司 | 信息获取及相关模型的训练方法、装置、电子设备和介质 |
CN115359867B (zh) * | 2022-09-06 | 2024-02-02 | 中国电信股份有限公司 | 电子病历分类方法、装置、电子设备及存储介质 |
CN116013503B (zh) * | 2022-12-27 | 2024-02-20 | 北京大学长沙计算与数字经济研究院 | 一种牙科治疗计划确定方法、电子设备及存储介质 |
CN116386800B (zh) * | 2023-06-06 | 2023-08-18 | 神州医疗科技股份有限公司 | 基于预训练语言模型的医疗病历数据分割方法和系统 |
CN116525125B (zh) * | 2023-07-04 | 2023-09-19 | 之江实验室 | 一种虚拟电子病历的生成方法及装置 |
CN117854713B (zh) * | 2024-03-06 | 2024-06-04 | 之江实验室 | 一种中医证候诊断模型训练的方法、一种信息推荐的方法 |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578798A (zh) * | 2017-10-26 | 2018-01-12 | 北京康夫子科技有限公司 | 电子病历的处理方法及系统 |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110277149A (zh) * | 2019-06-28 | 2019-09-24 | 北京百度网讯科技有限公司 | 电子病历的处理方法、装置及设备 |
CN111540468A (zh) * | 2020-04-21 | 2020-08-14 | 重庆大学 | 一种诊断原因可视化的icd自动编码方法与系统 |
CN111563399A (zh) * | 2019-02-14 | 2020-08-21 | 阿里巴巴集团控股有限公司 | 获取电子病历的结构化信息的方法及装置 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7058887B2 (en) * | 2002-03-07 | 2006-06-06 | International Business Machines Corporation | Audio clutter reduction and content identification for web-based screen-readers |
US20140278547A1 (en) * | 2013-03-14 | 2014-09-18 | Opera Solutions, Llc | System and Method For Healthcare Outcome Predictions Using Medical History Categorical Data |
CN106980608A (zh) * | 2017-03-16 | 2017-07-25 | 四川大学 | 一种中文电子病历分词和命名实体识别方法及系统 |
CN111191668B (zh) * | 2018-11-15 | 2023-04-28 | 零氪科技(北京)有限公司 | 一种在病历文本中识别出疾病内容的方法 |
CN110046252B (zh) * | 2019-03-29 | 2021-07-30 | 北京工业大学 | 一种基于注意力机制神经网络与知识图谱的医疗文本分级方法 |
CN111177309B (zh) * | 2019-12-05 | 2024-04-12 | 宁波紫冬认知信息科技有限公司 | 病历数据的处理方法及装置 |
-
2020
- 2020-09-04 CN CN202010922768.XA patent/CN112016279B/zh active Active
- 2020-10-30 WO PCT/CN2020/125146 patent/WO2021159759A1/zh active Application Filing
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107578798A (zh) * | 2017-10-26 | 2018-01-12 | 北京康夫子科技有限公司 | 电子病历的处理方法及系统 |
CN108536754A (zh) * | 2018-03-14 | 2018-09-14 | 四川大学 | 基于blstm和注意力机制的电子病历实体关系抽取方法 |
CN111563399A (zh) * | 2019-02-14 | 2020-08-21 | 阿里巴巴集团控股有限公司 | 获取电子病历的结构化信息的方法及装置 |
CN110032648A (zh) * | 2019-03-19 | 2019-07-19 | 微医云(杭州)控股有限公司 | 一种基于医学领域实体的病历结构化解析方法 |
CN110277149A (zh) * | 2019-06-28 | 2019-09-24 | 北京百度网讯科技有限公司 | 电子病历的处理方法、装置及设备 |
CN111540468A (zh) * | 2020-04-21 | 2020-08-14 | 重庆大学 | 一种诊断原因可视化的icd自动编码方法与系统 |
Also Published As
Publication number | Publication date |
---|---|
CN112016279A (zh) | 2020-12-01 |
WO2021159759A1 (zh) | 2021-08-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN112016279B (zh) | 电子病历结构化方法、装置、计算机设备和存储介质 | |
CN110162779B (zh) | 病历质量的评估方法、装置及设备 | |
CN109599185B (zh) | 疾病数据处理方法、装置、电子设备及计算机可读介质 | |
CN111710383A (zh) | 病历质控方法、装置、计算机设备和存储介质 | |
CN112287068B (zh) | 基于人工智能的问诊对话数据处理方法及装置 | |
CN112132624A (zh) | 医疗理赔数据预测系统 | |
CN113724830B (zh) | 基于人工智能的用药风险检测方法及相关设备 | |
CN113241138B (zh) | 医疗事件信息的抽取方法、装置、计算机设备及存储介质 | |
CN113177109B (zh) | 文本的弱标注方法、装置、设备以及存储介质 | |
CN113724819B (zh) | 医疗命名实体识别模型的训练方法、装置、设备及介质 | |
CN112667878B (zh) | 网页的文本内容提取方法、装置、电子设备及存储介质 | |
CN112507059B (zh) | 金融领域舆情监控中的事件抽取方法、装置和计算机设备 | |
CN114628001B (zh) | 基于神经网络的处方推荐方法、系统、设备及存储介质 | |
CN112347254B (zh) | 新闻文本的分类方法、装置、计算机设备和存储介质 | |
CN112580329B (zh) | 文本噪声数据识别方法、装置、计算机设备和存储介质 | |
US20230282322A1 (en) | System and method for anonymizing medical records | |
CN111782821B (zh) | 基于fm模型的医学热点的预测方法、装置和计算机设备 | |
CN113643825B (zh) | 基于临床关键特征信息的医疗案例知识库构建方法和系统 | |
CN113268597B (zh) | 文本分类方法、装置、设备及存储介质 | |
CN117350291A (zh) | 一种电子病历命名实体识别方法、装置、设备及存储介质 | |
CN116884636A (zh) | 传染病数据分析方法、装置、计算机设备及存储介质 | |
CN111968753A (zh) | 疫情监控方法、装置、计算机设备和存储介质 | |
CN115910327B (zh) | 小样本癌症事件分析方法、装置、设备以及存储介质 | |
CN116543918A (zh) | 多模态疾病特征的提取方法及装置 | |
CN113724878B (zh) | 基于机器学习的医疗风险信息推送方法及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |