CN114328938A - 一种影像报告结构化提取方法 - Google Patents

一种影像报告结构化提取方法 Download PDF

Info

Publication number
CN114328938A
CN114328938A CN202210256198.4A CN202210256198A CN114328938A CN 114328938 A CN114328938 A CN 114328938A CN 202210256198 A CN202210256198 A CN 202210256198A CN 114328938 A CN114328938 A CN 114328938A
Authority
CN
China
Prior art keywords
entity
text
report
loss
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202210256198.4A
Other languages
English (en)
Other versions
CN114328938B (zh
Inventor
金倍建
叶金德
陈集房
麻元兴
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Keyi Intelligent Medical Technology Co ltd
Original Assignee
Zhejiang Keyi Intelligent Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Keyi Intelligent Medical Technology Co ltd filed Critical Zhejiang Keyi Intelligent Medical Technology Co ltd
Priority to CN202210256198.4A priority Critical patent/CN114328938B/zh
Publication of CN114328938A publication Critical patent/CN114328938A/zh
Application granted granted Critical
Publication of CN114328938B publication Critical patent/CN114328938B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Medical Treatment And Welfare Office Work (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种影像报告结构化提取方法,包括以下步骤:获取非结构化的放射影像文本并进行预处理;将预处理后的文本进行分词后进行归一化处理;采用attention focal loss作为优化函数进行bert模型优化,基于优化后的bert模型将归一化后的文本进行实体识别;基于entity‑extent bert模型进行实体结构化关系提取,形成结构化报告;本发明提取出attention‑focal loss的损失函数,针对在同一实体出现的个别字标签预测错误的情况增大其惩罚,并且能够增大错误分类的标签的损失,减小易分类错误的损失,从而达到模型加速收敛,提升准确率的目的。

Description

一种影像报告结构化提取方法
技术领域
本发明涉及文本识别提取技术领域,尤其涉及一种影像报告结构化提取方法。
背景技术
如今医疗影像进入数据驱动时代,影像数据占据医疗信息化数据的90%以上,中国的数据量又几乎占据了全球的20%。一家普通的三甲医院一天的影像检查量大概有3000左右,则一年会有110万的影像报告生成,这个检查量在医院规模变大时还会增加,能否有效挖掘这世界上最大的数据资源宝藏,对影像学科、智能医疗甚至健康产业的发展都有极高价值。在2007 - 2008年,ACR和RSNA通过发布一系列报告质量相关指南,鼓励构建结构式报告,提高影像报告的质量,并为进一步的数据挖掘和研究提供结构式信息。
现有技术通过对文本进行分词,之后统计各个字或者各个词的词频,通过计算文本与模板之间的相似度来达到提取结构化报告的目的,该方法对于复杂的中文语境中准确率较低,并且搭建词库和模板的难度也较大。现有技术中,实体识别模型的收敛速度以及识别准确率较差。
例如,中国专利CN201911232525.7公开了非结构化医疗文本无监督症状自动识别方法、系统、装置。实现医学症状实体的无监督自动抽取,同时以症状为线索可以强有力地支持医学智能辅助诊断服务以及医学知识图谱的自动构建,不需要专家和手工的管理,可以自动地对训练数据进行标注;但是,该方法的模型收敛速度慢,且模型识别准确率低。
发明内容
本发明主要解决现有的技术中影像报告实体文本提取的模型收敛速度慢以及识别准确率低的问题;提供一种影像报告结构化提取方法,加快模型的收敛速度以及提升模型预测的准确率,获得准确的影像报告结构化关系路径图。
本发明的上述技术问题主要是通过下述技术方案得以解决的:一种影像报告结构化提取方法,包括以下步骤:获取非结构化的放射影像文本并进行预处理;将预处理后的文本进行分词后进行归一化处理;采用attention focal loss作为优化函数进行bert模型优化,基于优化后的bert模型将归一化后的文本进行实体识别;基于entity-extent bert模型进行实体结构化关系提取,形成结构化报告。通过基于深度学习的自然语言处理技术实现对医疗报告的实体识别与关系提取,保证了后结构化报告的信息准确性;提取出Attention-focal_loss的损失函数,针对在同一实体出现的个别字标签预测错误的情况增大其惩罚,并且能够增大错误分类的标签的损失,减小易分类错误的损失,从而达到模型加速收敛,提升准确率的目的。
作为优选,还包括设置随机森林分类器,对结构化报告的指标项的指标值进行异常判断,并将判断结果传递给前端界面。通过设置随机森林分类器进行异常判断,减少医生在输入时输入错误情况的影响,达到对影像报告的质量监控。
作为优选,对放射影像文本进行预处理的方法为:去除文本中的空格;去除括号以及括号内的内容;统一中英文标点符号和全角半角数字字母,并删除重复的标点符号;去除转义符;将文字向量化,映射进向量空间中。通过多余信息的处理,使得文本更好的识别。
作为优选,进行归一化处理的方法为:从分好词的列表中循环取出每个词记为A,在图数据库中查询以A为节点的关系节点B,从原始文本中将A替换为B,实现文本归一化。将文本归一化后,方便实体进行训练识别。
作为优选,采用attention focal loss作为优化函数进行模型优化的方法为:
C1:设置自适应权重,计算损失值;
C2:遍历标签,获取实体的起始位置和终止位置信息;
C3:根据实体的起始位置和终止位置信息比较每个实体的每个字符是否正确,计算预测错误的字符数FN和预测正确的字符数TP;
C4:根据预测错误的字符数FN和预测正确的字符数TP更新权重,重新计算损失值,重复步骤C2到步骤C4,直到bert模型输出全部的实体标签。对于错误分类的样本,且在实体中出现较多字符预测错误的实体增大其损失,对易分类的样本降低其损失,从而加快模型的收敛速度以及提升模型预测的准确率。
作为优选,基于entity-extent bert模型进行实体结构化关系提取的具体方法为:
通过entity-extent模块对实体标签进行随机实体标注,若被标注的实体与上一实体和下一实体均有对应关系,则保留实体,否则替换为其他实体,进行实体替换,形成替换后的句子级别特征向量;
输入句子级别特征向量,通过两个全连接层将输入的特征向量分别映射为头实体矩阵和尾实体矩阵;
通过矩阵变换将头实体矩阵和尾实体矩阵组合成为关系矩阵;
通过一个全连接层调整维度后结合实体识别结果输出不同实体的对应关系二元组;
根据实体的对应关系二元组建立由节点和边组成的关系路径图。引入entity-extent模块,与传统的bert预处理算法相比,结合放射影像报告的特殊性,本发明会针对输入的文本,对随机的个别实体进行mask,替换为其他实体,通过对整个实体的替换,让模型学习到更强的表达能力,使模型联系更多的上下文来进行判断,从而提升关系提取的准确率。
作为优选,将预处理后的文本进行分词的方法为:将预处理后的文本输入jieba分词库,得到实体分词列表。通过jieba分词库进行分词,提高分词准确率。
本发明的有益效果是:通过基于深度学习的自然语言处理技术实现对医疗报告的实体识别与关系提取,保证了后结构化报告的信息准确性;提取出attention-focal_loss的损失函数,针对在同一实体出现的个别字标签预测错误的情况增大其惩罚,并且能够增大错误分类的标签的损失,减小易分类错误的损失,从而达到模型加速收敛,提升准确率的目的;提出了entity-extent的模块,通过mask随机的实体文本token来提升基于放射影像文本的关系提取准确率;通过引入随机森林分类器,对指标值是否异常进行检测,减少医生在输入时输入错误情况的影响,达到对影像报告的质量监控。
附图说明
图1是本发明实施例的结构化提取方法的流程示意图。
图2是本发明实施例的bert识别示意图。
图3是本发明实施例的实体标签识别示意图。
图4是本发明实施例的实体标签标注示意图。
图5是本发明实施例的关系矩阵示意图。
具体实施方式
以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
为了使本发明的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本发明实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定发明。
实施例:一种影像报告结构化提取方法,如图1所示,包括以下步骤:
S1:获取非结构化的放射影像文本并进行预处理;通过院内RIS系统或者其他数据来源来获取非结构化的放射影像报告描述,将得到的长文本进行数据预处理:
1、去除文本中的空格;
2、去除括号以及括号内的内容,括号中的内容大多数是一些不需要进行结构化提取的内容;
3、统一中英文标点符号和全角半角数字字母,并删除重复的标点符号;
4、去除转义符(如换行符,缩进符等);
5、将文字向量化,映射进向量空间中。
S2:将预处理后的文本进行分词后进行归一化处理;对预处理后的文本进行分词,分词采用开源的jieba分词库,加载本项目构建的医学实体名词,提高jieba分词的准确率。
将进行纠正后的文本归一化,将不同描述的同一实体统一为一个描述,此处为了减少算法耗时,采用了图数据库作为数据结构的存储,通过对放射医疗影像报告的统计分析,找出各个医学实体可能存在的描述,构造出不同实体描述与实体的包含关系,具体操作为从分好词的列表中循环取出每个词记为
Figure DEST_PATH_IMAGE002
,在图数据库中查询以
Figure 727520DEST_PATH_IMAGE002
为节点的关系节点
Figure DEST_PATH_IMAGE004
,从原始文本中将
Figure 706977DEST_PATH_IMAGE002
替换为
Figure 17873DEST_PATH_IMAGE004
即可完成归一化的工作。通过对文本数据的归一化,能够减少输入变量的类型,降低模型所需词向量的维度,从而提高模型性能,减少误判。
S3:采用attention focal loss作为优化函数进行bert模型优化,基于优化后的bert模型将归一化后的文本进行实体识别,此处是本发明的第一bert模型,结果如图2所示;由于本发明的医学实体标签识别结构采用B-LABEL,I-LABEL的形式,当一个实体词跨度较长时,极容易出现一个医学实体的个别字的标签出现错误的情况(如图3所示)而导致在后续的实体标签生成时会产生错误,针对这一问题,本发明提出一种注意力损失函数attention-focal loss。focal loss 起初被运用于目标检测领域,主要用来解决样本类别不均衡的问题,本发明将其运用于nlp领域中用来提高模型准确率。attention-focal loss针对在同一实体出现的个别字标签预测错误的情况增大其惩罚,从而达到模型加速收敛,提升准确率的目的,算法具体实现如下:
对bert模型的输出结合真实标签计算其final loss的损失值,final loss的计算方式为
Figure DEST_PATH_IMAGE006
其中:
Figure DEST_PATH_IMAGE008
P为样本为1的概率;
Figure DEST_PATH_IMAGE010
为调制系数,通过调制系数可以减少易分类样本的权重。
Figure DEST_PATH_IMAGE012
为自适应权重,其计算方式如下:
Figure DEST_PATH_IMAGE014
Figure DEST_PATH_IMAGE016
为注意力因子,通过调整
Figure 233654DEST_PATH_IMAGE016
的大小可以放大对错误较多的实体预测的损失,从而使模型更加关注到这些难以识别的实体。
1)遍历标签,获取实体的起始位置和终止位置信息:
(…,未,见,明,显,骨,皮,质,连,续,性,中,段,征,象,…)
(…,B-SYMPTOMS,I-SYMPTOMS,I-SYMPTOMS,…,I-SYMPTOMS,… )
{…,text: 未见明显骨皮质连续性中段征象,label:(B-SYMPTOMS,I-SYMPTOMS,I-SYMPTOMS,…,I-SYMPTOMS),start:10,end:23}。
2)比较每个实体的每个字符是否正确,计算FN和TP:
FN、TP仅针对单个实体而言,如图3的例子,TP为预测正确的字符数,例中为13,FN为预测错误的字符数,例中为1,假设
Figure DEST_PATH_IMAGE018
,则
Figure DEST_PATH_IMAGE020
,当实体中被预测错误的字符数较多,如TP为7,FN为7,则
Figure DEST_PATH_IMAGE022
,因此其惩罚权重上升,反之若预测错误的字符数较少,则自适应系数
Figure 923393DEST_PATH_IMAGE012
的权重也会随之降低。
3)对预测标签的相对应的起始位置到终止位置的字符损失均乘上自适应系数
Figure 277014DEST_PATH_IMAGE012
,得到更新的自适应损失权重,对梯度进行回传,重新计算损失值,直到bert模型输出全部的实体标签。
本发明通过加入attention-focal_loss损失函数进行模型优化,更关注于难分类样本,更多的考虑到实体的完整性而非只关注单个字符,对于错误分类的样本,且在实体中出现较多字符预测错误的实体增大其损失,对易分类的样本降低其损失,从而加快模型的收敛速度以及提升模型预测的准确率。
如表1所示:
表1 Corss entity与Attention-focal_loss损失函数对比
Corss entity Attention-focal loss
收敛时的准确率(%) 95.3 98.2
收敛所需时间(h) 1.5 1
从表中可以看出,本发明采用attention-focal loss损失函数作为bert模型的优化函数后,bert模型的收敛时间大大降低,收敛时的准确率得到了有效提高。
将归一化后的文本向量化传入bert模型中,得到如图2所示的实体识别结果,其具体的bert模型本发明不多做阐述,本发明主要改进的部分在于:在传统的bert模型中加入了attention-focal loss损失函数。
S4:基于entity-extent bert模型进行实体结构化关系提取,进行错误预警并形成结构化报告;设置错误预警模块,内部设置有随机森林分类器,对结构化报告的指标项的指标值进行异常判断,并将判断结果传递给前端界面,通过随机森林判断指标项的数值是否异常,若存在异常数值的指标项,则将结果返回前端给予医生提示,实现错误预警。
基于entity-extent bert模型进行实体结构化关系提取的具体方法为:通过entity-extent模块对实体标签进行随机实体标注,若被标注的实体与上一实体和下一实体均有对应关系,则保留实体,否则替换为其他实体,进行实体替换,形成替换后的句子级别特征向量;设计第二bert模型,输入句子级别特征向量,通过两个全连接层将输入的特征向量分别映射为头实体矩阵和尾实体矩阵;通过矩阵变换将头实体矩阵和尾实体矩阵组合成为关系矩阵;通过一个全连接层调整维度后结合实体识别结果输出不同实体的对应关系二元组;根据实体的对应关系二元组建立由节点和边组成的关系路径图。
如图4所示,entity-extent模块会随机将个别实体进行mask,替换为其他部位的实体,并且将标签中关系矩阵的相应元素值进行修改。
例:如句子“实性结节大小约为4mm×3mm”,其句子中的实体关系有(实性,结节)(结节,大小)、(大小,4mm×3mm),生成如图5所示的关系矩阵,关系矩阵为512*512的矩阵,这里只截取部分,其中1代表两个实体之间有关系,0则表示没有关系。从上述关系中知道实性和结节两个实体有关系,则将两个实体的首字对应的关系设为1(矩阵的三行一列的元素)。
本发明提出了一种面向放射医疗影像报告信息结构化提取及错误预警的方法和装置,本发明针对非结构化的放射影像医疗报告构建了一种包含实体识别、关系提取的结构化方法以及对于异常指标值的监控预警,通过基于深度学习的自然语言处理技术实现对医疗报告的实体识别与关系提取,保证了后结构化报告的信息准确性。本发明提取出Attention-focal_loss的损失函数,针对在同一实体出现的个别字标签预测错误的情况增大其惩罚,并且能够增大错误分类的标签的损失,减小易分类错误的损失,从而达到模型加速收敛,提升准确率的目的;提出了entity-extent的模块,通过mask随机的实体文本token来提升基于放射影像文本的关系提取准确率;通过引入错误预警模块,对指标值是否异常进行检测,减少医生在输入时输入错误情况的影响,达到对影像报告的质量监控。
本发明可以从非结构化的放射影像医疗报告中有效提取实体,并建立各实体之间的联系,提取放射影像报告中的描述信息,生成结构化报告,并对可能存在的异常指标值进行预警,达到对影像报告的质量监控。
以上所述的实施例只是本发明的一种较佳的方案,并非对本发明作任何形式上的限制,在不超出权利要求所记载的技术方案的前提下还有其它的变体及改型。

Claims (7)

1.一种影像报告结构化提取方法,其特征在于,包括以下步骤:
获取非结构化的放射影像文本并进行预处理;
将预处理后的文本进行分词后进行归一化处理;
采用attention focal loss作为优化函数进行bert模型优化,基于优化后的bert模型将归一化后的文本进行实体识别;
基于entity-extent bert模型进行实体结构化关系提取,形成结构化报告。
2.根据权利要求1所述的一种影像报告结构化提取方法,其特征在于,
还包括设置随机森林分类器,对结构化报告的指标项的指标值进行异常判断,并将判断结果传递给前端界面。
3.根据权利要求1所述的一种影像报告结构化提取方法,其特征在于,
对放射影像文本进行预处理的方法为:
去除文本中的空格;
去除括号以及括号内的内容;
统一中英文标点符号和全角半角数字字母,并删除重复的标点符号;
去除转义符;
将文字向量化,映射进向量空间中。
4.根据权利要求1所述的一种影像报告结构化提取方法,其特征在于,
进行归一化处理的方法为:
从分好词的列表中循环取出每个词记为A,在图数据库中查询以A为节点的关系节点B,从原始文本中将A替换为B,实现文本归一化。
5.根据权利要求1或2或3或4所述的一种影像报告结构化提取方法,其特征在于,
采用attention focal loss作为优化函数进行模型优化的方法为:
C1:设置自适应权重,计算损失值;
C2:遍历标签,获取实体的起始位置和终止位置信息;
C3:根据实体的起始位置和终止位置信息比较每个实体的每个字符是否正确,计算预测错误的字符数FN和预测正确的字符数TP;
C4:根据预测错误的字符数FN和预测正确的字符数TP更新权重,重新计算损失值,重复步骤C2到步骤C4,直到bert模型输出全部的实体标签。
6.根据权利要求1所述的一种影像报告结构化提取方法,其特征在于,
基于entity-extent bert模型进行实体结构化关系提取的具体方法为:
通过entity-extent模块对实体标签进行随机实体标注,若被标注的实体与上一实体和下一实体均有对应关系,则保留实体,否则替换为其他实体,进行实体替换,形成替换后的句子级别特征向量;
输入句子级别特征向量,通过两个全连接层将输入的特征向量分别映射为头实体矩阵和尾实体矩阵;
通过矩阵变换将头实体矩阵和尾实体矩阵组合成为关系矩阵;
通过一个全连接层调整维度后结合实体识别结果输出不同实体的对应关系二元组;
根据实体的对应关系二元组建立由节点和边组成的关系路径图。
7.根据权利要求1所述的一种影像报告结构化提取方法,其特征在于,
将预处理后的文本进行分词的方法为:将预处理后的文本输入jieba分词库,得到实体分词列表。
CN202210256198.4A 2022-03-16 2022-03-16 一种影像报告结构化提取方法 Active CN114328938B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210256198.4A CN114328938B (zh) 2022-03-16 2022-03-16 一种影像报告结构化提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210256198.4A CN114328938B (zh) 2022-03-16 2022-03-16 一种影像报告结构化提取方法

Publications (2)

Publication Number Publication Date
CN114328938A true CN114328938A (zh) 2022-04-12
CN114328938B CN114328938B (zh) 2022-06-24

Family

ID=81034035

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210256198.4A Active CN114328938B (zh) 2022-03-16 2022-03-16 一种影像报告结构化提取方法

Country Status (1)

Country Link
CN (1) CN114328938B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019320A (zh) * 2022-06-30 2022-09-06 京东方科技集团股份有限公司 一种数据提取方法、装置、设备及存储介质

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111079377A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种面向中文医疗文本命名实体识别的方法
GB202009811D0 (en) * 2020-06-26 2020-08-12 Conversational Ai Group Ltd Forensic interaction understanding: A system and method for determining the nature of spoken interactions using acoustic and linguistic markers
CN112101027A (zh) * 2020-07-24 2020-12-18 昆明理工大学 基于阅读理解的中文命名实体识别方法
CN112149420A (zh) * 2020-09-01 2020-12-29 中国科学院信息工程研究所 实体识别模型训练方法、威胁情报实体提取方法及装置
WO2021046536A1 (en) * 2019-09-06 2021-03-11 F. Hoffmann-La Roche Ag Automated information extraction and enrichment in pathology report using natural language processing
US20210224651A1 (en) * 2020-01-21 2021-07-22 Ancestry.Com Operations Inc. Joint extraction of named entities and relations from text using machine learning models
CN113393916A (zh) * 2021-08-17 2021-09-14 浙江卡易智慧医疗科技有限公司 一种冠脉医疗报告结构关系提取的方法和装置
CN113821571A (zh) * 2021-06-24 2021-12-21 华中农业大学 基于bert和改进pcnn的食品安全关系抽取方法
WO2022012687A1 (zh) * 2020-07-17 2022-01-20 武汉联影医疗科技有限公司 医疗数据处理方法与系统
US20220067278A1 (en) * 2020-08-25 2022-03-03 Beijing Wodong Tianjun Information Technology Co., Ltd. System for entity and evidence-guided relation prediction and method of using the same

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021046536A1 (en) * 2019-09-06 2021-03-11 F. Hoffmann-La Roche Ag Automated information extraction and enrichment in pathology report using natural language processing
CN111079377A (zh) * 2019-12-03 2020-04-28 哈尔滨工程大学 一种面向中文医疗文本命名实体识别的方法
US20210224651A1 (en) * 2020-01-21 2021-07-22 Ancestry.Com Operations Inc. Joint extraction of named entities and relations from text using machine learning models
GB202009811D0 (en) * 2020-06-26 2020-08-12 Conversational Ai Group Ltd Forensic interaction understanding: A system and method for determining the nature of spoken interactions using acoustic and linguistic markers
WO2022012687A1 (zh) * 2020-07-17 2022-01-20 武汉联影医疗科技有限公司 医疗数据处理方法与系统
CN112101027A (zh) * 2020-07-24 2020-12-18 昆明理工大学 基于阅读理解的中文命名实体识别方法
US20220067278A1 (en) * 2020-08-25 2022-03-03 Beijing Wodong Tianjun Information Technology Co., Ltd. System for entity and evidence-guided relation prediction and method of using the same
CN112149420A (zh) * 2020-09-01 2020-12-29 中国科学院信息工程研究所 实体识别模型训练方法、威胁情报实体提取方法及装置
CN113821571A (zh) * 2021-06-24 2021-12-21 华中农业大学 基于bert和改进pcnn的食品安全关系抽取方法
CN113393916A (zh) * 2021-08-17 2021-09-14 浙江卡易智慧医疗科技有限公司 一种冠脉医疗报告结构关系提取的方法和装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
CHEN YUNA等: "Improving machine simultaneous interpretation by punctuation recovery", 《JOURNAL OF COMPUTER APPLICATIONS》 *
宋阳: "基于注意力模型的汉语意见解释分类方法研究与实现", 《中国优秀硕士学位论文全文数据库(电子期刊)》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115019320A (zh) * 2022-06-30 2022-09-06 京东方科技集团股份有限公司 一种数据提取方法、装置、设备及存储介质

Also Published As

Publication number Publication date
CN114328938B (zh) 2022-06-24

Similar Documents

Publication Publication Date Title
CN107562732B (zh) 电子病历的处理方法及系统
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
US10956673B1 (en) Method and system for identifying citations within regulatory content
CN109800414B (zh) 语病修正推荐方法及系统
Syeda-Mahmood et al. Chest x-ray report generation through fine-grained label learning
US20180246915A1 (en) Automatically converting spreadsheet tables to relational tables
US20220004878A1 (en) Systems and methods for synthetic document and data generation
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US20230386646A1 (en) Combined vision and language learning models for automated medical reports generation
Qiu et al. Fast and accurate recognition of Chinese clinical named entities with residual dilated convolutions
CN113393916B (zh) 一种冠脉医疗报告结构关系提取的方法和装置
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
US11003950B2 (en) System and method to identify entity of data
CN111275118A (zh) 基于自我修正式标签生成网络的胸片多标签分类方法
CN111177375A (zh) 一种电子文档分类方法及装置
CN115269838B (zh) 一种电子病历的分类方法
CN116108351A (zh) 面向跨语言知识图谱的弱监督实体对齐优化方法及系统
CN114328938B (zh) 一种影像报告结构化提取方法
CN115952794A (zh) 融合双语敏感词典和异构图的汉泰跨语言敏感信息识别方法
CN114387602B (zh) 医疗ocr数据优化模型训练方法、优化方法及设备
CN111832306A (zh) 基于多特征融合的影像诊断报告命名实体识别方法
CN117422074A (zh) 一种临床信息文本标准化的方法、装置、设备及介质
CN112749277A (zh) 医学数据的处理方法、装置及存储介质
Yasin et al. Transformer-Based Neural Machine Translation for Post-OCR Error Correction in Cursive Text
CN116110047A (zh) 基于ocr-ner的结构化电子病历构建方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant