CN116110047A - 基于ocr-ner的结构化电子病历构建方法和系统 - Google Patents

基于ocr-ner的结构化电子病历构建方法和系统 Download PDF

Info

Publication number
CN116110047A
CN116110047A CN202310158087.4A CN202310158087A CN116110047A CN 116110047 A CN116110047 A CN 116110047A CN 202310158087 A CN202310158087 A CN 202310158087A CN 116110047 A CN116110047 A CN 116110047A
Authority
CN
China
Prior art keywords
medical record
electronic medical
text
adopting
ocr
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310158087.4A
Other languages
English (en)
Inventor
吕青
张思洲
刘德建
宿启晨
徐浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sichuan Ruying Technology Co ltd
West China Hospital of Sichuan University
Original Assignee
Sichuan Ruying Technology Co ltd
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sichuan Ruying Technology Co ltd, West China Hospital of Sichuan University filed Critical Sichuan Ruying Technology Co ltd
Priority to CN202310158087.4A priority Critical patent/CN116110047A/zh
Publication of CN116110047A publication Critical patent/CN116110047A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/162Quantising the image signal
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/16Image preprocessing
    • G06V30/164Noise filtering
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/26Techniques for post-processing, e.g. correcting the recognition result
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Medical Informatics (AREA)
  • Computational Linguistics (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Databases & Information Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • Mathematical Physics (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明属于医疗文本处理技术领域,具体涉及一种基于OCR‑NER的结构化电子病历构建方法和系统。本发明的方法包括如下步骤:步骤1,输入电子病历图像,进行预处理;步骤2,对预处理后的电子病历图像进行OCR检测和识别,提取病历文本数据;步骤3,采用BERT模型对提取到的文本数据执行文本纠错;步骤4,对纠错后的文本数据分别做词、段和位置的Embedding,得到词Embedding、段Embedding和位置Embedding;步骤5,采用BERT‑CRF模型进行特征提取,预测,生成每一个文字的标签值,计算损失并输出结果。本发明进一步提供了实现上述方法的系统。本发明可对图像格式的电子病历进行结构化处理,为后续的患者随访和医疗服务带来更多便利,具有很好的应用前景。

Description

基于OCR-NER的结构化电子病历构建方法和系统
技术领域
本发明属于医疗文本处理技术领域,具体涉及一种基于OCR-NER的结构化电子病历构建方法和系统。
背景技术
电子病历由于快捷、易于存储和管理的特点被广泛的应用于当前的医疗行业。现阶段大多数的医学病历报告是以非结构化的形式保存,其中包含大量未被利用的病历记录和专业知识。利用自然语言处理(NLP)可以充分的挖掘非结构化报告中包含的蕴藏的知识,提取关键信息并构建结构化病历报告,对提升医疗系统服务质量有非常重要的意义。
结构化电子病历是指从医生描述的自然语言文本抽取出多个关键字段,对医疗文本进行结构化提取,进而提高医护人员查阅病历的效率。命名实体识别(NER)作为NLP的一个基础任务,用于从电子病历中提取实体类别,并将结果进一步应用于后续智能化医疗服务。基于NER的结构化电子病历能够自动化地提取医疗文本数据中的关键信息,但这种方法处理的形式仅仅局限于文本格式。目前,医疗行业中,还有大量的电子病历是以图像格式进行保存的,现有的NER方法不能从电子病历图像中自动提取文本信息。
OCR文字识别是指通过检查待提取资料中包含的文字字符,对文本资料进行扫描后对图像文件进行分析处理。中国发明专利申请“CN202210645155.5一种基于OCR与NER技术的主数据智能识别方法”构建了一种利用OCR从图像中提取文字,并使用NER技术对提取到的文字进行结构化的技术方案。然而,电子病历的形式多种多样,并且很多医学专用名词在OCR过程中会被错误的识别为常用词,难以仅仅通过分词+匹配的方式有效提取。
发明内容
针对现有技术的上述问题,本发明提供一种基于OCR-NER的结构化电子病历构建方法和系统,目的在于实现将电子病历图像转化为格式化电子病历的目的。
一种基于OCR-NER的结构化电子病历构建方法,包括如下步骤:
步骤1,输入电子病历图像,进行预处理;
步骤2,对预处理后的电子病历图像进行OCR检测和识别,提取病历文本数据;
步骤3,采用BERT模型对提取到的文本数据执行文本纠错;
步骤4,对纠错后的文本数据分别做词、段和位置的Embedding,得到词Embedding、段Embedding和位置Embedding;
步骤5,采用BERT-CRF模型进行特征提取,预测,生成每一个文字的标签值,计算损失并输出结果。
优选的,步骤1中,所述预处理的过程包括如下方法中的至少一种:
(1)采用非局部均值滤波降噪算法去除图像中的椒盐噪声;
(2)采用自适应阈值算法进行图像二值化处理。
优选的,所述非局部均值滤波降噪算法的计算公式如下:
Figure BDA0004093208800000021
Figure BDA0004093208800000022
Figure BDA0004093208800000023
其中,v表示噪声图像,NLmeans[v]表示恢复图像,w(i,j)表示当前像素i和其余像素j的相似程度,a是高斯核的标准差,Z(i)为像素i归一化常数,v(Ni)和v(Nj)分别为像素i、j的强度灰度向量。
优选的,所述自适应阈值算法的计算公式如下:
I(x,y)=f(x,y)+I(x-1,y)+I(x,y-1)-I(x-1,y-1)
Figure BDA0004093208800000031
其中,I(x,y)表示坐标(x,y)处的积分值计算,
Figure BDA0004093208800000032
表示两个对角点像素之和的计算,(x1,y1)和(x2,y2)分别为两个对角点的坐标。
优选的,步骤2中,所述OCR检测和识别的具体步骤包括:
步骤2.1采用可微二值化算法,根据DB二值图拓展标签生成,形成文本框;
步骤2.2,对所述文本框内的文本信息,采用卷积循环神经网络生成对应的预测标签序列。
优选的,步骤2.2中,所述卷积循环神经网络选自CRNN识别算法。
优选的,在训练所述BERT-CRF模型的过程中,训练数据采用采用BIO标记方式进行标签类别标注。
本发明还提供一种用于实现上述基于OCR-NER的结构化电子病历构建方法的系统,包括:
数据预处理模块,用于进行电子病历图像的预处理;
OCR检测与识别模块,用于对预处理后的电子病历图像进行OCR检测和识别,提取病历文本数据;
文本纠错模块,用于采用BERT模型对提取到的文本数据执行文本纠错;
Embedding模块,用于对纠错后的文本数据分别做词、段和位置的Embedding,得到词Embedding、段Embedding和位置Embedding;
CRF预测模块,用于采用BERT-CRF模型进行特征提取,预测,生成每一个文字的标签值,计算损失并输出结果。
优选的,还包括:
数据标记模块,用于在模型训练过程中标记文本纠错后的数据类别标签;
模型训练模块,用于将标记后的数据送入BERT-CRF模型中进行训练。
本发明还提供一种计算机可读存储介质,其上存储有用于实现上述基于OCR-NER的结构化电子病历构建方法的计算机程序。
本发明通过结合OCR与NER,可以很方便的从原始电子病历图像中提取文本信息。为了解决医学专用名词在OCR过程中会被错误的识别为常用词,难以仅仅通过分词+匹配的方式有效提取的问题。本发明同时结合文本纠错方案进一步提升识别结果准确率,通过利用训练后的模型提取出病历报告中的实体关系并构建结构化电子病历,推动智能化医疗服务的发展。
显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
附图说明
图1为本发明实施例1的流程图;
图2为本发明实施例1中用于OCR检测的DB模型结构图;
图3为本发明实施例1中用于OCR识别的CRNN模型结构图;
图4为本发明实施例1中用于文本纠错的Bert模型结构图;
图5为本发明实施例1中用于命名实体识别的Bert-CRF模型结构图;
图6为本发明实施例1的预测结果的示例图。
具体实施方式
需要特别说明的是,实施例中未具体说明的数据采集、传输、储存和处理等步骤的算法,以及未具体说明的硬件结构、电路连接等均可通过现有技术已公开的内容实现。
实施例1基于OCR-NER的结构化电子病历构建方法和系统
本实施例的系统包括:
数据预处理模块,用于进行电子病历图像的预处理;
OCR检测与识别模块,用于对预处理后的电子病历图像进行OCR检测和识别,提取病历文本数据;
文本纠错模块,用于采用BERT模型对提取到的文本数据执行文本纠错;
Embedding模块,用于对纠错后的文本数据分别做词、段和位置的Embedding,得到词Embedding、段Embedding和位置Embedding;
CRF预测模块,用于采用BERT-CRF模型进行特征提取,预测,生成每一个文字的标签值,计算损失并输出结果。
为了训练模型,还包括:
数据标记模块,用于在模型训练过程中标记文本纠错后的数据类别标签;
模型训练模块,用于将标记后的数据送入BERT-CRF模型中进行训练。
在上述系统中进行结构化电子病历构建的方法如图1所示,具体包括如下步骤:
步骤一:对于800份人工采集的电子病历报告,由于受拍摄环境和图像噪声的影响,采集到的电子病历图像的质量较低,图像中可能包含部分椒盐噪声,这在一定程度上影响了后续的OCR检测与识别精度。因此采用非局部均值滤波降噪算法来去除图像中的椒盐噪声。其计算公式为:
Figure BDA0004093208800000051
Figure BDA0004093208800000052
Figure BDA0004093208800000053
其中,v表示噪声图像,NLmeans[v]表示恢复图像,w(i,j)表示当前像素i和其余像素j的相似程度,a是高斯核的标准差,Z(i)为像素i归一化常数,v(Ni)和v(Nj)分别为像素i、j的强度灰度向量。
对去噪后的图像,采用自适应阈值算法,通过计算图像的一个小区域的局部阈值进行二值化处理,以减少光、影对OCR的负面影响。其计算公式如下:
I(x,y)=f(x,y)+I(x-1,y)+I(x,y-1)-I(x-1,y-1)
Figure BDA0004093208800000054
其中,I(x,y)表示坐标(x,y)处的积分值计算,
Figure BDA0004093208800000055
表示两个对角点像素之和的计算,(x1,y1)和(x2,y2)分别为两个对角点的坐标。
步骤二:对预处理后的电子病历图像首先利用DB检测算法(算法的模型结构如图2所示)进行OCR文本检测。首先将待检测的电子病历图像送入DB检测网络,该检测算法首先利用特征金字塔结构进行多尺度的图像特征融合,融合后的特征分别产生预测图和阈值图,再将两个特征图做可微分二值化操作得到文字区域的二分图,最后利用OpenCV的轮廓检测功能提取二分图中的文字区域信息。对检测到的区域信息,利用CRNN识别算法(算法的模型结构如图3所示)进行OCR识别。该识别算法同时兼顾卷积神经网络(CNN)和循环神经网络(RNN)的优势,首先接收检测到的文本区域信息作为模型的输入,然后利用CNN提取电子病历图像中的特征信息并转换为特征序列的形式,再将特征序列通过RNN对每一帧进行预测,最后经过转换层得到最终的预测序列。
步骤三:由于电子病历图像成像条件的影响,采用OCR技术提取出的文本信息存在部分错误识别问题。为了缓解这个问题带来的影响,采用文本纠错方案对OCR的识别结果执行进一步的纠错操作。具体的,首先将提取到的病历文本信息做Embedding处理。由于提取到的文本信息是按规则排序的,不需要对下一个句子进行预测,因此在输入端去掉了Segment Embedding,仅保留了Token Embedding和Position Embedding。然后,将经过Embedding处理后的数据输入至预训练的Bert(模型结构如图4所示)进行模型微调,将识别错误的医学用语修正为正确的词汇。模型经过微调后,将提取到的病历文本信息传入模型并返回正确的预测token。最后通过简单的预测后处理得到纠错后的病历文本信息。
步骤四:采用BIO标注方式对纠错后的病历文本数据进行标注。该标注方式中B标签表示命名实体的开始,I标签表示命名实体的中间或结尾,O标签表示非实体类别,具体来说,对于“叶状肿瘤”一词,该词对应的标签为疾病诊断,对于第一个字符“叶”,将其标注为B-疾病诊断,而对于“状”、“肿”、“瘤”这三个中间字符,将它们都标注为I-疾病诊断。
步骤五:对于标注后的病历文本数据,首先将文本中的每一个字符传入TokenEmbedding层进行转换,将每个字符转换成固定维度的向量。另外,引入PositionEmbedding和Segment Embedding分别编码不同字符的位置信息和不同句子的向量表示。
步骤六:利用Bert-CRF对标注后的文本进行模型训练。其中Bert模型通过多层的双向Transformer作为编码器来提取文本特征,利用Transfomer的自注意力机制来建模全局上下文信息,以建立字符与字符之间的联系。具体如图5所示,将经过Embedding转换后的字符向量,段向量和位置向量结合后输入到预训练的Bert模型中,在模型编码器部分,利用多层双向Transformer提取向量序列中的特征信息。在Transformer中,编码器中的句子首先经过一个自注意力层来学习不同句子之间的关系,之后传入前馈神经网络层进行处理。这个特征提取过程中的某一个编码器的处理过程(实验中设置了12个编码器层)。实验中Bert模型使用Adam优化器,网络层数被设置为12,网络中的隐藏层维度为768,学习率被设置为5e-5,每次训练的批处理量batch_size为16。
步骤七:对于Bert模型预测的字符类别标签概率,利用CRF来建立标签之间的约束关系。CRF接收Bert模型输出的状态分数、类别真实标签作为输入,通过学习一个转移分数矩阵,利用viterbi算法代替softmax分类器,寻找隐含状态序列并预测出每个字符对应的标签概率。
步骤八:通过损失函数进行前向计算并输出最终预测结果。
所述结果值为每个字符对应的类别标签,对于“叶状肿瘤”一词,经过模型后输出的结果为:叶B-疾病诊断;状I-疾病诊断;肿I-疾病诊断;瘤I-疾病诊断。
由此观测出输出结果“叶状肿瘤”一词为疾病诊断类型。该方法最终预测效果如附图6所示,模型的最终预期训练效果可以准确地判断医疗电子病历报告的实体类型和标签类型。
由于目前没有标准术语来规范结构化电子病历的内容,难以通过标准化的方式编写报告,也无法满足前结构化病历报告的标准。因此,本发明提供的电子病历内容的结构化方法和系统将为后续的患者随访和医疗服务带来更多便利。

Claims (10)

1.一种基于OCR-NER的结构化电子病历构建方法,其特征在于,包括如下步骤:
步骤1,输入电子病历图像,进行预处理;
步骤2,对预处理后的电子病历图像进行OCR检测和识别,提取病历文本数据;
步骤3,采用BERT模型对提取到的文本数据执行文本纠错;
步骤4,对纠错后的文本数据分别做词、段和位置的Embedding,得到词Embedding、段Embedding和位置Embedding;
步骤5,采用BERT-CRF模型进行特征提取,预测,生成每一个文字的标签值,计算损失并输出结果。
2.按照权利要求1所述的结构化电子病历构建方法,其特征在于,步骤1中,所述预处理的过程包括如下方法中的至少一种:
(1)采用非局部均值滤波降噪算法去除图像中的椒盐噪声;
(2)采用自适应阈值算法进行图像二值化处理。
3.按照权利要求2所述的结构化电子病历构建方法,其特征在于,所述非局部均值滤波降噪算法的计算公式如下:
Figure FDA0004093208790000011
Figure FDA0004093208790000012
Figure FDA0004093208790000013
其中,v表示噪声图像,NLmeans[v]表示恢复图像,w(i,j)表示当前像素i和其余像素j的相似程度,a是高斯核的标准差,Z(i)为像素i归一化常数,v(Ni)和v(Nj)分别为像素i、j的强度灰度向量。
4.按照权利要求2所述的结构化电子病历构建方法,其特征在于,所述自适应阈值算法的计算公式如下:
I(x,y)=f(x,y)+I(x-1,y)+I(x,y-1)-I(x-1,y-1)
Figure FDA0004093208790000021
其中,I(x,y)表示坐标(x,y)处的积分值计算,
Figure FDA0004093208790000022
表示两个对角点像素之和的计算,(x1,y1)和(x2,y2)分别为两个对角点的坐标。
5.按照权利要求1所述的结构化电子病历构建方法,其特征在于,步骤2中,所述OCR检测和识别的具体步骤包括:
步骤2.1采用可微二值化算法,根据DB二值图拓展标签生成,形成文本框;
步骤2.2,对所述文本框内的文本信息,采用卷积循环神经网络生成对应的预测标签序列。
6.按照权利要求5所述的结构化电子病历构建方法,其特征在于,步骤2.2中,所述卷积循环神经网络选自CRNN识别算法。
7.按照权利要求1所述的结构化电子病历构建方法,其特征在于,在训练所述BERT-CRF模型的过程中,训练数据采用采用BIO标记方式进行标签类别标注。
8.一种用于实现权利要求1-7任一项所述基于OCR-NER的结构化电子病历构建方法的系统,其特征在于,包括:
数据预处理模块,用于进行电子病历图像的预处理;
OCR检测与识别模块,用于对预处理后的电子病历图像进行OCR检测和识别,提取病历文本数据;
文本纠错模块,用于采用BERT模型对提取到的文本数据执行文本纠错;
Embedding模块,用于对纠错后的文本数据分别做词、段和位置的Embedding,得到词Embedding、段Embedding和位置Embedding;
CRF预测模块,用于采用BERT-CRF模型进行特征提取,预测,生成每一个文字的标签值,计算损失并输出结果并生成结构化的电子病历。
9.按照权利要求8所述的系统,其特征在于,还包括:
数据标记模块,用于在模型训练过程中标记文本纠错后的数据类别标签;
模型训练模块,用于将标记后的数据送入BERT-CRF模型中进行训练。
10.一种计算机可读存储介质,其特征在于:其上存储有用于实现权利要求1-7任一项所述基于OCR-NER的结构化电子病历构建方法的计算机程序。
CN202310158087.4A 2023-02-23 2023-02-23 基于ocr-ner的结构化电子病历构建方法和系统 Pending CN116110047A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310158087.4A CN116110047A (zh) 2023-02-23 2023-02-23 基于ocr-ner的结构化电子病历构建方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310158087.4A CN116110047A (zh) 2023-02-23 2023-02-23 基于ocr-ner的结构化电子病历构建方法和系统

Publications (1)

Publication Number Publication Date
CN116110047A true CN116110047A (zh) 2023-05-12

Family

ID=86265489

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310158087.4A Pending CN116110047A (zh) 2023-02-23 2023-02-23 基于ocr-ner的结构化电子病历构建方法和系统

Country Status (1)

Country Link
CN (1) CN116110047A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116936080A (zh) * 2023-07-27 2023-10-24 中日友好医院(中日友好临床医学研究所) 一种基于对话及电子病历的初步导诊方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116936080A (zh) * 2023-07-27 2023-10-24 中日友好医院(中日友好临床医学研究所) 一种基于对话及电子病历的初步导诊方法和装置

Similar Documents

Publication Publication Date Title
US10956673B1 (en) Method and system for identifying citations within regulatory content
CN111783466A (zh) 一种面向中文病历的命名实体识别方法
JP2019091443A (ja) オープンセット認識方法と装置及びコンピュータ可読記憶媒体
CN111428718A (zh) 一种基于图像增强的自然场景文本识别方法
CN112818951A (zh) 一种票证识别的方法
CN113449801B (zh) 一种基于多级图像上下文编解码的图像人物行为描述生成方法
CN112733768A (zh) 基于双向特征语言模型的自然场景文本识别方法及装置
CN113393916B (zh) 一种冠脉医疗报告结构关系提取的方法和装置
CN114756687A (zh) 基于自学习实体关系联合抽取的钢铁产线设备诊断方法
CN111738169A (zh) 一种基于端对端网络模型的手写公式识别方法
CN111539417B (zh) 一种基于深度神经网络的文本识别训练优化方法
CN114863091A (zh) 一种基于伪标签的目标检测训练方法
CN113657115A (zh) 一种基于讽刺识别和细粒度特征融合的多模态蒙古文情感分析方法
CN113627190A (zh) 可视化数据转换方法、装置、计算机设备及存储介质
CN113221571A (zh) 基于实体相关注意力机制的实体关系联合抽取方法
CN112434686A (zh) 针对ocr图片的端到端含错文本分类识别仪
Wang et al. Recognizing handwritten mathematical expressions as LaTex sequences using a multiscale robust neural network
CN116110047A (zh) 基于ocr-ner的结构化电子病历构建方法和系统
CN117557886A (zh) 融合偏标签和消极学习的含噪声标签图像识别方法及系统
CN111723852A (zh) 针对目标检测网络的鲁棒训练方法
Nikitha et al. Handwritten text recognition using deep learning
Sarraf French word recognition through a quick survey on recurrent neural networks using long-short term memory RNN-LSTM
CN114048314A (zh) 一种自然语言隐写分析方法
CN114970537B (zh) 基于多层标注策略的跨境民族文化实体关系抽取方法及装置
Jiang et al. Multilingual interoperation in cross-country industry 4.0 system for one belt and one road

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination