CN112420151A - 一种超声报告后结构化解析方法、系统、设备和介质 - Google Patents

一种超声报告后结构化解析方法、系统、设备和介质 Download PDF

Info

Publication number
CN112420151A
CN112420151A CN202011418105.0A CN202011418105A CN112420151A CN 112420151 A CN112420151 A CN 112420151A CN 202011418105 A CN202011418105 A CN 202011418105A CN 112420151 A CN112420151 A CN 112420151A
Authority
CN
China
Prior art keywords
ultrasound
cardiac
report
index
structured
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011418105.0A
Other languages
English (en)
Inventor
何国平
岳云宇
王旭英
甄化春
郭亚强
尹伟东
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ewell Technology Co ltd
Original Assignee
Ewell Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ewell Technology Co ltd filed Critical Ewell Technology Co ltd
Priority to CN202011418105.0A priority Critical patent/CN112420151A/zh
Publication of CN112420151A publication Critical patent/CN112420151A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H15/00ICT specially adapted for medical reports, e.g. generation or transmission thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/242Dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • G06F40/247Thesauruses; Synonyms
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • G06F40/295Named entity recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Epidemiology (AREA)
  • Primary Health Care (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Animal Behavior & Ethology (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)

Abstract

本申请公开了一种超声报告后结构化解析方法、系统及一种电子设备和计算机可读存储介质,该方法包括:获取待解析心脏超声报告文件,利用基于深度学习的命名实体识别模型识别其中的各级指标及对应的指标值;结合预先构建的心脏超声后结构化知识图谱对各级指标的准确性进行校验;若校验通过,则对各级指标及指标值进行组合,得到心脏超声后结构化数据;将心脏超声后结构化数据存入心脏超声后结构化知识图谱,以便利用更新后的知识图谱进行后结构化结果的显示。本申请预先基于深度学习训练命名实体识别模型,利用命名实体识别模型进行超声报告的识别,基于深度学习的解析方法较模板识别方法具有更好的泛化能力,能够提高识别结果的准确度和全面性。

Description

一种超声报告后结构化解析方法、系统、设备和介质
技术领域
本申请涉及数据处理技术领域,更具体地说,涉及一种超声报告后结构化解析方法、系统及一种电子设备和一种计算机可读存储介质。
背景技术
随着现代生活水平的提高,人们越来越重视健康。而科技的进步,为各种检测技术手段提供了可能。心肌病是近年来发病率逐渐上升的疾病,心肌的增厚、心腔的扩大都要依赖彩超来判断;心脏彩超也是能直观显示瓣膜病变的仪器,通过彩超的测量,医生可了解瓣膜病变的程度以决定保守治疗还是手术治疗。因此,心脏超声报告作为重要的非结构化的临床文档具有关键作用。完整的心脏超声报告一般以非结构化数据形式进行存储,对其进行结构化处理是进一步分析和利用的基础。
目前已有的心脏超声报告的结构化处理分为两类:前结构化处理,即设计规范的病例系统,数据按照结构化直接输入,从而保证了数据的可靠性和完整性。后结构化处理,即利用自然语言处理技术对心脏超声报告数据进行结构化处理,从非结构化的病理报告中提取相关数据,得到理想的结构化输出结果。后结构化解析方法的流程通常包括:数据预处理,构建医学词库,特殊词库,自定义词库等相关词库,利用聚类、主体识别等方法提取生成模板,再利用模板进行数据抽取,实现后结构化结果的输出。
现有的心脏超声报告后结构化解析方法主要存在以下问题:医学词库,特殊词库,自定义词库的构建需要耗费大量的人力和财力,且通用性较差。而基于模板或模式识别的方法中识别结果的质量主要依赖于模板的全面性,由于不同医院病理报告的书写规范也不同,导致模板很难具备通用性和全面性,导致后结构化解析效果不佳。
因此,如何解决上述问题是本领域技术人员需要重点关注的。
发明内容
本申请的目的在于提供一种超声报告后结构化解析方法、系统及一种电子设备和一种计算机可读存储介质,能够提高识别结果的准确度和全面性。
为实现上述目的,本申请提供了一种超声报告后结构化解析方法,包括:
获取待解析心脏超声报告文件,利用基于深度学习的命名实体识别模型识别所述待解析心脏超声报告文件中的各级指标及对应的指标值;
结合预先构建的心脏超声后结构化知识图谱对识别出的所述各级指标的准确性进行校验;
若校验通过,则对所述各级指标及所述指标值对应进行组合,得到心脏超声后结构化数据;
将所述心脏超声后结构化数据存入所述心脏超声后结构化知识图谱,以便利用更新后的心脏超声后结构化知识图谱进行后结构化结果的显示。
可选的,所述心脏超声后结构化知识图谱的构建过程包括:
获取心脏超声报告文件样本,提取所述心脏超声报告文件样本中的指标信息;所述指标信息包括报告类型、各级指标以及各层级指标对应的指标值;
基于所述指标信息,创建心脏超声报告指标字典、指标同义词典、各指标之间的映射关系以及心脏超声报告后结构化知识图谱。
可选的,所述对所述各级指标及所述指标值对应进行组合,得到心脏超声后结构化数据,包括:
根据超声报告类型将所述待解析心脏超声报告文件划分为预设数量的报告类型语义块;
基于中英文标点符号对各个所述报告类型语义块进行切分,得到切分后的语义单元;
利用识别得到的所述各级指标将所述报告类型语义块划分为各级指标语义块,并将包含所述各级指标的语义单元融入到对应的所述各级指标语义块中;
确定所述指标值对应的层级指标,对所述指标值和所述各级指标进行关联映射,得到所述心脏超声后结构化数据。
可选的,所述对所述各级指标及所述指标值对应进行组合,得到心脏超声后结构化数据之后,还包括:
将所述心脏超声后结构化数据保存至数据库中。
可选的,所述将所述心脏超声后结构化数据存入所述心脏超声后结构化知识图谱,包括:
对所述心脏超声后结构化数据进行清洗和转换处理,并根据处理后数据创建知识图谱的结点,建立结点之间的关系映射并确定结点属性;
将所述结点、所述映射关系和所述结点属性写入所述心脏超声后结构化知识图谱中,完成对所述心脏超声后结构化知识图谱的更新。
可选的,所述利用基于深度学习的命名实体识别模型识别所述待解析心脏超声报告文件中的各级指标及对应的指标值,包括:
将所述待解析心脏超声报告文件输入基于深度学习的命名实体识别模型中,所述命名实体识别模型包括训练输入层Bert,训练中间层Flat-Lattice Transformer以及顶层输出层CRF;
获取所述命名实体识别模型输出的针对所述待解析心脏超声报告文件的识别结果,所述识别结果包括各级指标及对应的指标值。
为实现上述目的,本申请提供了一种超声报告后结构化解析系统,包括:
识别模块,用于获取待解析心脏超声报告文件,利用基于深度学习的命名实体识别模型识别所述待解析心脏超声报告文件中的各级指标及对应的指标值;
校验模块,用于结合预先构建的心脏超声后结构化知识图谱对识别出的所述各级指标的准确性进行校验;
组合模块,用于若校验通过,则对所述各级指标及所述指标值对应进行组合,得到心脏超声后结构化数据;
存储模块,用于将所述心脏超声后结构化数据存入所述心脏超声后结构化知识图谱,以便利用更新后的心脏超声后结构化知识图谱进行后结构化结果的显示。
可选的,所述组合模块,包括:
划分单元,用于根据超声报告类型将所述待解析心脏超声报告文件划分为预设数量的报告类型语义块;
切分单元,用于基于中英文标点符号对各个所述报告类型语义块进行切分,得到切分后的语义单元;
融入单元,用于利用识别得到的所述各级指标将所述报告类型语义块划分为各级指标语义块,并将包含所述各级指标的语义单元融入到对应的所述各级指标语义块中;
映射单元,用于确定所述指标值对应的层级指标,对所述指标值和所述各级指标进行关联映射,得到所述心脏超声后结构化数据。
为实现上述目的,本申请提供了一种电子设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现前述公开的任一种超声报告后结构化解析方法的步骤。
为实现上述目的,本申请提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述公开的任一种超声报告后结构化解析方法的步骤。
通过以上方案可知,本申请提供的一种超声报告后结构化解析方法,包括:获取待解析心脏超声报告文件,利用基于深度学习的命名实体识别模型识别所述待解析心脏超声报告文件中的各级指标及对应的指标值;结合预先构建的心脏超声后结构化知识图谱对识别出的所述各级指标的准确性进行校验;若校验通过,则对所述各级指标及所述指标值对应进行组合,得到心脏超声后结构化数据;将所述心脏超声后结构化数据存入所述心脏超声后结构化知识图谱,以便利用更新后的心脏超声后结构化知识图谱进行后结构化结果的显示。由上可知,本申请预先基于深度学习训练命名实体识别模型,在获取到待解析的心脏超声报告文件后,利用命名实体识别模型识别提取其中的指标数据,并结合预先构建的心脏超声后结构化知识图谱对命名实体识别模型的识别结果进行校验,得到心脏超声后结构化数据,基于深度学习的解析方法较模板识别方法具有更好的泛化能力,且具备良好的通用性,能够提高识别结果的准确度和全面性,还可以将心脏超声后结构化数据写入心脏超声后结构化知识图谱,从而实现对知识图谱的进一步更新完善。
本申请还公开了一种超声报告后结构化解析系统及一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例公开的一种超声报告后结构化解析方法的流程图;
图2为本申请实施例公开的一种具体的超声报告后结构化解析方案的整体实现框架图;
图3为本申请实施例公开的一种具体的Bert_Flat-Lattice Transformer模型的框架图;
图4为本申请实施例公开的一种具体的后结构化结果的框架示意图;
图5为本申请实施例公开的一种超声报告后结构化解析系统的结构图;
图6为本申请实施例公开的一种电子设备的结构图;
图7为本申请实施例公开的另一种电子设备的结构图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参见图1所示,本申请实施例公开的一种超声报告后结构化解析方法包括:
S101:获取待解析心脏超声报告文件,利用基于深度学习的命名实体识别模型识别所述待解析心脏超声报告文件中的各级指标及对应的指标值;
本申请实施例中,可首先获取待解析的心脏超声报告文件。具体地,可以实时获取超声设备采集到的心脏超声报告文件,也可以通过外部存储设备获取拷贝的心脏超声报告文件,本实施例不对具体的文件获取方式进行限定。
在获取到待解析心脏超声报告文件后,可将其输入基于深度学习的命名实体识别模型中,以便利用命名实体识别模型识别待解析心脏超声报告文件中的各级指标及对应的指标值,并输出相应的识别结果。
作为一种优选的实施方式,本申请实施例中的命名实体识别模型包括训练输入层Bert,训练中间层Flat-Lattice Transformer以及顶层输出层CRF。
S102:结合预先构建的心脏超声后结构化知识图谱对识别出的所述各级指标的准确性进行校验;
在本步骤中,可以利用预先构建的心脏超声后结构化知识图谱对命名实体识别模型识别出的各级指标的准确性进行校验。其中,上述心脏超声后结构化知识图谱的构建过程可具体包括:获取心脏超声报告文件样本,提取心脏超声报告文件样本中的指标信息;所述指标信息包括报告类型、各级指标以及各层级指标对应的指标值;基于指标信息,创建心脏超声报告指标字典、指标同义词典、各指标之间的映射关系以及心脏超声报告后结构化知识图谱。也即,可以预先收集常见的心脏超声报告,并提取心脏超声报告类型、各级指标以及各层级指标对应的指标值,进而根据上述信息构建心脏超声报告指标字典、指标同义词典、各指标之间的映射关系以及心脏超声报告后结构化知识图谱。
S103:若校验通过,则对所述各级指标及所述指标值对应进行组合,得到心脏超声后结构化数据;
可以理解的是,若心脏超声后结构化知识图谱对识别出的各级指标的准确性校验通过,则允许执行将各级指标及对应的指标值进行组合,从而得到心脏超声后结构化数据。
具体地,上述对各级指标及指标值对应进行组合,得到心脏超声后结构化数据的过程可以包括:根据超声报告类型将待解析心脏超声报告文件划分为预设数量的报告类型语义块;基于中英文标点符号对各个报告类型语义块进行切分,得到切分后的语义单元;利用识别得到的各级指标将报告类型语义块划分为各级指标语义块,并将包含各级指标的语义单元融入到对应的各级指标语义块中;确定指标值对应的层级指标,对指标值和各级指标进行关联映射,得到心脏超声后结构化数据。
在一种可行的实施方式中,本申请实施例在对各级指标及指标值对应进行组合,得到心脏超声后结构化数据之后,还可以将心脏超声后结构化数据保存至数据库中,以供后续的进一步分析和利用。
S104:将所述心脏超声后结构化数据存入所述心脏超声后结构化知识图谱,以便利用更新后的心脏超声后结构化知识图谱进行后结构化结果的显示。
在具体实施中,可将心脏超声后结构化数据存入心脏超声后结构化知识图谱中,首先可对心脏超声后结构化数据进行清洗和转换处理,并根据处理后数据创建知识图谱的结点,建立结点之间的关系映射并确定结点属性,再将结点、映射关系和结点属性写入心脏超声后结构化知识图谱中,完成对心脏超声后结构化知识图谱的更新,利用更新后的心脏超声后结构化知识图谱,可以对后结构化结果进行显示,还可辅助心脏超声的诊断、知识推理及其他上层应用。
通过以上方案可知,本申请提供的一种超声报告后结构化解析方法,包括:获取待解析心脏超声报告文件,利用基于深度学习的命名实体识别模型识别所述待解析心脏超声报告文件中的各级指标及对应的指标值;结合预先构建的心脏超声后结构化知识图谱对识别出的所述各级指标的准确性进行校验;若校验通过,则对所述各级指标及所述指标值对应进行组合,得到心脏超声后结构化数据;将所述心脏超声后结构化数据存入所述心脏超声后结构化知识图谱,以便利用更新后的心脏超声后结构化知识图谱进行后结构化结果的显示。由上可知,本申请预先基于深度学习训练命名实体识别模型,在获取到待解析的心脏超声报告文件后,利用命名实体识别模型识别提取其中的指标数据,并结合预先构建的心脏超声后结构化知识图谱对命名实体识别模型的识别结果进行校验,得到心脏超声后结构化数据,基于深度学习的解析方法较模板识别方法具有更好的泛化能力,且具备良好的通用性,能够提高识别结果的准确度和全面性,还可以将心脏超声后结构化数据写入心脏超声后结构化知识图谱,从而实现对知识图谱的进一步更新完善。
下面通过一种具体的实施场景对本申请实施例公开的超声报告后结构化解析方法进行介绍。参见图2所示,具体的:
第一步:对于常见的心脏超声报告,基于规则和人工的方式标注后结构化所需的指标,包括一级指标,二级指标,三级指标以及指标对应的指标值,表1为本申请定义的心脏超声报告后结构化实体的框架。
表1
Figure BDA0002820901480000081
具体地,首先可搜集常见的心脏超声报告,提取心脏超声报告类别,各级指标及指标值,报告类别如超声心动图临床常用的包括三种:M型超声心动图、二维超声心动图和多普勒超声心动图。一级指标及英文缩略语如RVOT:右室流出道;RA:右房;TV:三尖瓣;PV:肺动脉瓣;AV:主动脉瓣;LA:左房;LCC:左冠状动脉瓣;RCC:右冠状动脉瓣;NCC:无冠状动脉瓣;RV:右室;IVS:室间隔;IAS:房间隔;AML:二尖瓣前叶等。二级指标如:位置及连接,收缩活动,开放活动,左向右分流,内径,过瓣流速等。三级指标如:开放活动等。
进一步地,定义心脏超声报告后结构化实体及属性框架。心脏超声报告实体类为各心脏超声报告实例集,各级指标实体类为各级指标的实例集。心脏超声报告实体类属性CONTENT,为数据清洗后的报告原文,主要是去除空格,换行符等。一级指标实体类属性CONTENT,为一级指标对应的指标值,例如:“M型超声心动图;LVDd 35.2,RVDd/,AO 21.9,LA25.3;彩色多普勒超声MR轻微,心房水平无分流,TR轻微,2.0m/s;二维超声心动图心脏位置及连接正常。房室瓣膜开放活动正常”,其中,M型超声心动图,彩色多普勒超声,二维超声心动图为报告类别,由于报告类别的语义结构比较清晰,报告类别的描述也相对固定,故可以采用报告类别作为语义切割点,对报告进行初步的语义切分,从而得到报告类别对应的各类报告语义块。而一级指标,二级指标,三级指标的指标值则采用Bert Flat-LatticeTransformer进行识别,具体可参见第三步的内容。
第二步:基于从心脏超声报告提取的指标,构建心脏超声报告指标字典、指标同义词典、以及各指标之间的映射关系,并以各指标的映射关系,构建心脏超声报告后结构化知识图谱。心脏超声报告后结构化知识图谱用于指标实体的远程监督以及心脏超声报告后结构化的可视化展示,其中数据预处理可以包括但不限于语法正规化处理,例如表达方式的一致性,数据的正规化处理,可去除特殊符号、统一大写等。具体的指标字典可参见表2。
表2
源结点 目标结点 关系
心脏超声报告 一级指标 ID(关系标识),NAME(关系名称)
一级指标 二级指标 ID(关系标识),NAME(关系名称)
二级指标 三级指标 ID(关系标识),NAME(关系名称)
在具体实施中,可基于心脏超声报告提取的指标构建心脏超声报告指标字典,指标同义词典。其中,指标词典可用于BERT预训练模型的字典,通过更换BERT原有的字典进行重新预训练,从而使得BERT对心脏超声报告数据中专有名词、医学术语等有所熟悉,另外还可用于Flat-Lattice结构中句子中潜词的匹配。
进一步地,定义各指标之间的映射关系,各指标间的映射关系实例可参见表3。将各类超声报告按照多级指标进行划分,一级指标可包含一个或多个二级指标,二级指标可包含一个或多个三级指标,若一级指标没有与之匹配的三级指标,则该一级指标直接对应其指标值,如:LVDd:48.2,AO:24.6,MR:轻度,心房水平:无,二级指标同理。最终的后结构化结果可包括但不限于以下三种类型,第一种:{一级指标:一级指标值};第二种:{一级指标:{二级指标:二级指标值}},第三种:{一级指标:{二级指标:{三级指标:三级指标值}}}。
表3
Figure BDA0002820901480000101
本步骤中,可根据心脏超声报告实体及属性框架和关系映射框架,构建心脏超声报告知识图谱,首先,根据实体框架,经数据处理后的各级指标创建结点,根据实体识别的结果、指标名称、指标属性、指标值以及映射关系,更新知识图谱的结点及关系。构建好的知识图谱可用于远程监督和可视化展示。
对于一个已有的心脏超声后结构化知识图谱中的一个三元组,如心脏-[三级指标]-位置及连接,假设心脏超声报告中任何包含如心脏,位置及连接这对实体的句子,在一定程度上都反映了位置及连接是心脏的三级指标的这种关系。由于在医疗场景中的实体歧义性并不强,同时心脏超声报告的语义结构相对简单,所以这种假设比较可靠。基于这个假设,一方面,可以利用完善的心脏超声后结构化知识图谱,对基于规则获取的实体指标映射关系进验证,另一方面可以将构建好的的心脏超声后结构化知识图谱对应到非结构化心脏超声报告数据中,从而生成大量的训练数据,从而训练出较好一个关系抽取器,用于心脏超声报告实体指标的关系抽取。
第三步:基于Bert Flat-Lattice Transformer命名实体识别方法,识别心脏超声报告的各级指标以及指标对应的指标值,结合完善的心脏超声报告后结构化知识图谱可辅助验证识别出的各指标的准确性。心脏超声报告需要进行识别的有三个级别的指标以及指标值,指标可参见第二步中的内容,指标值主要包括:正常,明显增大,增宽,增强,完整等,还包括数值型的指标值如总干25.1mm,肺动脉过瓣流速2.27m/s等。
Bert Flat-Lattice Transformer,可以分为三部分,参见图3所示,其中,Bert作为预训练的输入层,Flat-Lattice Transformer作为训练中间层,CRF作为顶层输出层。具体地:Bert是通过深度双向Transformer编码器表征训练出来的,该方法将来自左右的上下文信息加入到每一层中,训练出来的Bert模型稍作添加就能迁移到其他任务中。而BertFlat-Lattice Transformer模型是在Transformer的基础上添加Flat-Lattice结构。Transformer采用全连通自注意对序列中的长距离依赖进行建模。Flat-Lattice为一个标记(字符或单词)分配了两个位置索引:头位置和尾位置,通过这两个索引,从一组标记重构出一个格子。因此,可以直接使用Transformer对格子输入进行完整的建模。最后经过CRF的模型预测每一个字的类别,将分类按照词的组合形式组合起来,即为实体识别的结果,也就是各指标及指标值的结果。
Transformer可以利用已经标注的数据进行训练,从而对心脏超声报告中的实体即指标和指标值进行检测以及类型识别。作为一种示例性的标注方法,其对应的具体标签可参见表4所示,以‘BIO’标注方式为例,B表示实体的开头,I表示实体的中间或结尾,O表示无关紧要的字。表5为一条标注的数据示例。其中,一级指标包含二级指标,二级指标包含三级指标,各级指标及指标值的映射关系可参见第四步的详细内容。
表4
实体类别 标签
一级指标 one_target
一级指标值 one_value
二级指标 two_target
二级指标值 two_value
三级指标 three_target
三级指标值 three_value
表5
Figure BDA0002820901480000121
Bert最核心的就是预训练过程,简单来讲,模型会从数据集抽取两句话,其中B句有50%的概率是A句的下一句,进而将这两句话转化为前面所示的输入表征。现在随机遮掩掉输入序列中15%的词,并要求Transformer预测这些被遮掩的词,以及B句是A句下一句的概率这两个任务。在实体识别领域中,保留Bert模型转化后的Tokens,将其作为序列识别模型的输入,即可在Bert模型的基础上完成迁移学习,实现实体识别的目的。
常用的Bert的中文预训练模型bert_base_chinese,模型有12层,768个隐状态节点,12个self-Attention的头(Head),也可用心脏超声报告数据作为Bert的训练语料,重新训练自己的中文预训练模型,具体的注意力机制(Attention)简单来说就是给定一个查找(query)和一个键值表(key-value pairs),将query映射到正确的输入的过程。此处的query、key、value和最终的输出都是向量。输出往往是一个加权求和的形式,而权重则由query、key和value决定,self-Attention中query、key、value均等于输入序列x,其中Head的个数h表示利用h个线性变换分别将d维的key、value和query映射成dk维、dk维和dv维,然后再代入注意力机制,产生总共h×dv维输出,拼起来再用一个线性变换得到最终的输出。
Flat-Lattice Transformer模型:汉字格(Lattice)结构被证明是一种有效的中文命名实体识别方法,格子结构被证明对利用词信息和避免分词的错误传播有很大的好处。本实施例中可以将一个句子与一个词典进行匹配,这个词典包含第二步构建的指标字典和同义词典,得到其中的潜词,获得一个类似Lattice的结构:不仅考虑句子中的单个字,还考虑每个字可能组成的词组。Lattice是一个有向无环图,词汇的开始和结束字符决定了其位置。Flat在Lattice的基础上设计了一种position encoding来融合Lattice结构。对于每一个字符和词汇都构建两个head position encoding和tail position encoding,这种方式则可以重构原有的Lattice结构。由此,FLAT可以直接建模字符与所有匹配的词汇信息间的交互。因此,可以将Lattice结构展平,将其从一个有向无环图展平为一个平面的Flat-Lattice Transformer结构,同时,Flat-Lattice Transformer采用了XLNet中的相对位置编码计算attention score,利用四种相对距离表示格子中的两个跨xi和xj之间的关系,同时也考虑字符和词汇之间的关系:
Figure BDA0002820901480000131
Figure BDA0002820901480000132
Figure BDA0002820901480000133
Figure BDA0002820901480000134
CRF模型:条件随机场(CRF)是一种无向图模型。它是在给定一组输入随机变量的条件下,得到另一组输出随机变量的条件概率分布模型,可广泛应用于序列标注。本实施例中,CRF采用BIO标记方法,一个字对应一个标签,其中B表示词的起始,I表示字为词的中间,O表示非目标指标值的其他字。CRF在计算中包括发射概率矩阵和转移概率矩阵两部分,在Flat-Lattice Transformer中Transformer层的输出是每个词的所有标签的各自得分,相当于每个词映射到标签的发射概率值,CRF中的转移概率矩阵A,Ai,j代表tagi转移到tagj的转移概率。对于输入序列X对应的输出tag序列y,定义分数为score,其中每一个score对应一个完整的路径。利用维特比算法进行预测,求解最优路径,最优的路径即输出序列的最后预测结果。
第四步:根据模型识别的各级指标及指标值进行组合,输出心脏超声报告最后的结构化结果,并将后结构化的结果进行校正,存入数据库,可进一步分析和利用。图4为一种具体的后结构化结果的框架示意图,具体地,输出心脏超声报告最后的结构化解析结果可形如:{“超声心动图”:{“LVDd”:40.0,“AO”:17.3},“频谱多普勒超声”:{“AAO”:1.0,“MV”:1.0},“彩色多普勒超声”:{“MR”:“轻微”},“二维超声心动图”:{“心脏”:{“位置及连接”:“正常”}},“房室”:{“瓣膜”:{“开放活动”:“正常”}}}}。其中,超声心动图,频谱多普勒超声,彩色多普勒超声,二维超声心动图为报告类型,AAO,MR,心脏为一级指标,位置及连接为二级指标,开放活动为三级指标。
具体地,首先基于心脏超声报告文本结构的特点,根据超声报告类型将心脏超声报告划分为若干个报告类型语义块;针对报告类型语义块,先通过常见的中文和英文标点符号进行切分,经过切分后的文本为最小的语义单元,由于书写的不规范性,并不能用句号来判断一段语义的结束;一级指标语义块的构建,利用识别的一级指标,将报告类型语义块划分为若干个一级指标语义块,遍历一级指标语义块,将包含一级指标的最小语义单元,以及一级指标之后的最小语义单元都融入到当前的一级指标语义块,直到出现下一个一级指标;一级指标语义块的融合,由于心脏超声报告描述没有一定的模式,同一个一级指标语义块可能多次出现在一个报告类型语义块语义块中,因此,需要将相同的一级指标语义块进行融合;一级指标特殊形式的处理,例如:右心房、右心室无明显增大,右心室肥厚。右心房、右心室无明显增大,是一个最小的语义单元,当最小的语义单元出现多个一级指标,同时多个一级指标是并列关系,则将二级指标值同时分配到每个报告类型语义块下;二级指标语义块的构建,二级指标语义块的融合,与一级指标的构建与融合过程类似,在每个一级指标下,可能包含多个相同的二级指标,需要将相同的二级指标进行融合;三级指标的构建,在每个二级指标下,一般不会有相同的三级指标,只要将包含三级指标的最小语义单元,以及三级指标之后的最小语义单元都融入到当前的三级指标语义块,直到出现下一个三级指标。
指标值的处理,指标值的识别,可分为一级指标值的识别,二级指标值的识别和三级指标值的识别,一级,二级指标值可分别从多个一级,二级指标语义块中获取,在进行一级,二级指标语义块融合的过程中,同时也是进行一级,二级指标值的融合过程。各级指标值选择与指标值最近的指标进行关联映射,各级指标选择与上级指标最近的指标进行关联映射;指标值中特殊的含有否定词,如:未见动脉导管开放,如果单独的否定副词作为指标值,这种情况未见作为指标值要合并到与之最近的且位置索引在否定副词之后指标下,即{“动脉导管”:“未见开放”}。
第五步:将心脏超声报告后结构化数据进行数据转换,其中数据预处理,包括语法正规化处理,如表达方式的一致性,数据正规化处理,如去除特殊符号,不用缩写,统一大写等。根据已定义的知识图谱模式层,将数据存入知识图谱,心脏超声报告后结构化知识图可用于指标实体的远程监督以及心脏超声报告后结构化的可视化展示。
具体地,首先基于第一步的心脏超声报告后结构化实体及属性框架,以及第二步的实体关系映射框架,设计知识图谱的模式层;基于第三步Flat-Lattice Transformer获取的各级指标,指标值,以及映射关系,作为知识图谱的数据层;将后结构化的数据进行清洗转换校验,去除特殊符号,不用缩写,统一大写等,将数据转换为增加ID、NAME、CONTENT、VALUE等属性,创建知识图谱的结点,更新结点的属性,建立结点之间的关系映射;知识图谱的补全,最初根据常见心脏超声报告标注并获取的知识并不健全,随着数据的增加,按照第3步,逐步更新知识图谱的各级指标以及映射关系。
本申请实施例在心脏超声报告后结构化解析中,提出来基于深度学习的心脏超声报告后结构化解析方法,该方法较基于模板的心脏超声报告的后结构化具有更好的泛化能力;在心脏超声报告后结构化中利用Bert Flat-Lattice Transformer模型,基于Bert预训练的Flat-Lattice Transformer获得了较BiLSTM_CRF更好的识别结果;构建的心脏超声后结构化知识图谱可对基于Bert Flat-Lattice Transformer模型的结果进行校验;利用心脏超声后结构化知识图谱对后结构化结果进行展示,同时可基于心脏超声后结构化知识图谱进行心脏超声的辅助诊断,知识推理及其他上层应用。按照该框架能够对心脏超声报告进行较为充分和相对准确的后结构化解析。
下面对本申请实施例提供的一种超声报告后结构化解析系统进行介绍,下文描述的一种超声报告后结构化解析系统与上文描述的一种超声报告后结构化解析方法可以相互参照。
参见图5所示,本申请实施例提供的一种超声报告后结构化解析系统包括:
识别模块201,用于获取待解析心脏超声报告文件,利用基于深度学习的命名实体识别模型识别所述待解析心脏超声报告文件中的各级指标及对应的指标值;
校验模块202,用于结合预先构建的心脏超声后结构化知识图谱对识别出的所述各级指标的准确性进行校验;
组合模块203,用于若校验通过,则对所述各级指标及所述指标值对应进行组合,得到心脏超声后结构化数据;
存储模块204,用于将所述心脏超声后结构化数据存入所述心脏超声后结构化知识图谱,以便利用更新后的心脏超声后结构化知识图谱进行后结构化结果的显示。
关于上述模块201至204的具体实施过程可参考前述实施例公开的相应内容,在此不再进行赘述。
在上述实施例的基础上,作为一种优选实施方式,所述组合模块202可以具体包括:
划分单元,用于根据超声报告类型将所述待解析心脏超声报告文件划分为预设数量的报告类型语义块;
切分单元,用于基于中英文标点符号对各个所述报告类型语义块进行切分,得到切分后的语义单元;
融入单元,用于利用识别得到的所述各级指标将所述报告类型语义块划分为各级指标语义块,并将包含所述各级指标的语义单元融入到对应的所述各级指标语义块中;
映射单元,用于确定所述指标值对应的层级指标,对所述指标值和所述各级指标进行关联映射,得到所述心脏超声后结构化数据。
本申请还提供了一种电子设备,参见图6所示,本申请实施例提供的一种电子设备包括:
存储器100,用于存储计算机程序;
处理器200,用于执行所述计算机程序时可以实现上述实施例所提供的步骤。
具体的,存储器100包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机可读指令,该内存储器为非易失性存储介质中的操作系统和计算机可读指令的运行提供环境。处理器200在一些实施例中可以是一中央处理器(CentralProcessing Unit,CPU)、控制器、微控制器、微处理器或其他数据处理芯片,为电子设备提供计算和控制能力,执行所述存储器100中保存的计算机程序时,可以实现前述任一实施例公开的超声报告后结构化解析方法。
在上述实施例的基础上,作为优选实施方式,参见图7所示,所述电子设备还包括:
输入接口300,与处理器200相连,用于获取外部导入的计算机程序、参数和指令,经处理器200控制保存至存储器100中。该输入接口300可以与输入装置相连,接收用户手动输入的参数或指令。该输入装置可以是显示屏上覆盖的触摸层,也可以是终端外壳上设置的按键、轨迹球或触控板,也可以是键盘、触控板或鼠标等。
显示单元400,与处理器200相连,用于显示处理器200处理的数据以及用于显示可视化的用户界面。该显示单元400可以为LED显示器、液晶显示器、触控式液晶显示器以及OLED(Organic Light-Emitting Diode,有机发光二极管)触摸器等。
网络端口500,与处理器200相连,用于与外部各终端设备进行通信连接。该通信连接所采用的通信技术可以为有线通信技术或无线通信技术,如移动高清链接技术(MHL)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术等。
图7仅示出了具有组件100-500的电子设备,本领域技术人员可以理解的是,图7示出的结构并不构成对电子设备的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
本申请还提供了一种计算机可读存储介质,该存储介质可以包括:U盘、移动硬盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、磁碟或者光盘等各种可以存储程序代码的介质。该存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现前述任一实施例公开的超声报告后结构化解析方法。
本申请预先基于深度学习训练命名实体识别模型,在获取到待解析的心脏超声报告文件后,利用命名实体识别模型识别提取其中的指标数据,并结合预先构建的心脏超声后结构化知识图谱对命名实体识别模型的识别结果进行校验,得到心脏超声后结构化数据,基于深度学习的解析方法较模板识别方法具有更好的泛化能力,且具备良好的通用性,能够提高识别结果的准确度和全面性,还可以将心脏超声后结构化数据写入心脏超声后结构化知识图谱,从而实现对知识图谱的进一步更新完善。
说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以对本申请进行若干改进和修饰,这些改进和修饰也落入本申请权利要求的保护范围内。
还需要说明的是,在本说明书中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims (10)

1.一种超声报告后结构化解析方法,其特征在于,包括:
获取待解析心脏超声报告文件,利用基于深度学习的命名实体识别模型识别所述待解析心脏超声报告文件中的各级指标及对应的指标值;
结合预先构建的心脏超声后结构化知识图谱对识别出的所述各级指标的准确性进行校验;
若校验通过,则对所述各级指标及所述指标值对应进行组合,得到心脏超声后结构化数据;
将所述心脏超声后结构化数据存入所述心脏超声后结构化知识图谱,以便利用更新后的心脏超声后结构化知识图谱进行后结构化结果的显示。
2.根据权利要求1所述的超声报告后结构化解析方法,其特征在于,所述心脏超声后结构化知识图谱的构建过程包括:
获取心脏超声报告文件样本,提取所述心脏超声报告文件样本中的指标信息;所述指标信息包括报告类型、各级指标以及各层级指标对应的指标值;
基于所述指标信息,创建心脏超声报告指标字典、指标同义词典、各指标之间的映射关系以及心脏超声报告后结构化知识图谱。
3.根据权利要求1所述的超声报告后结构化解析方法,其特征在于,所述对所述各级指标及所述指标值对应进行组合,得到心脏超声后结构化数据,包括:
根据超声报告类型将所述待解析心脏超声报告文件划分为预设数量的报告类型语义块;
基于中英文标点符号对各个所述报告类型语义块进行切分,得到切分后的语义单元;
利用识别得到的所述各级指标将所述报告类型语义块划分为各级指标语义块,并将包含所述各级指标的语义单元融入到对应的所述各级指标语义块中;
确定所述指标值对应的层级指标,对所述指标值和所述各级指标进行关联映射,得到所述心脏超声后结构化数据。
4.根据权利要求1所述的超声报告后结构化解析方法,其特征在于,所述对所述各级指标及所述指标值对应进行组合,得到心脏超声后结构化数据之后,还包括:
将所述心脏超声后结构化数据保存至数据库中。
5.根据权利要求1所述的超声报告后结构化解析方法,其特征在于,所述将所述心脏超声后结构化数据存入所述心脏超声后结构化知识图谱,包括:
对所述心脏超声后结构化数据进行清洗和转换处理,并根据处理后数据创建知识图谱的结点,建立结点之间的关系映射并确定结点属性;
将所述结点、所述映射关系和所述结点属性写入所述心脏超声后结构化知识图谱中,完成对所述心脏超声后结构化知识图谱的更新。
6.根据权利要求1至5任一项所述的超声报告后结构化解析方法,其特征在于,所述利用基于深度学习的命名实体识别模型识别所述待解析心脏超声报告文件中的各级指标及对应的指标值,包括:
将所述待解析心脏超声报告文件输入基于深度学习的命名实体识别模型中,所述命名实体识别模型包括训练输入层Bert,训练中间层Flat-Lattice Transformer以及顶层输出层CRF;
获取所述命名实体识别模型输出的针对所述待解析心脏超声报告文件的识别结果,所述识别结果包括各级指标及对应的指标值。
7.一种超声报告后结构化解析系统,其特征在于,包括:
识别模块,用于获取待解析心脏超声报告文件,利用基于深度学习的命名实体识别模型识别所述待解析心脏超声报告文件中的各级指标及对应的指标值;
校验模块,用于结合预先构建的心脏超声后结构化知识图谱对识别出的所述各级指标的准确性进行校验;
组合模块,用于若校验通过,则对所述各级指标及所述指标值对应进行组合,得到心脏超声后结构化数据;
存储模块,用于将所述心脏超声后结构化数据存入所述心脏超声后结构化知识图谱,以便利用更新后的心脏超声后结构化知识图谱进行后结构化结果的显示。
8.根据权利要求7所述的超声报告后结构化解析系统,其特征在于,所述组合模块,包括:
划分单元,用于根据超声报告类型将所述待解析心脏超声报告文件划分为预设数量的报告类型语义块;
切分单元,用于基于中英文标点符号对各个所述报告类型语义块进行切分,得到切分后的语义单元;
融入单元,用于利用识别得到的所述各级指标将所述报告类型语义块划分为各级指标语义块,并将包含所述各级指标的语义单元融入到对应的所述各级指标语义块中;
映射单元,用于确定所述指标值对应的层级指标,对所述指标值和所述各级指标进行关联映射,得到所述心脏超声后结构化数据。
9.一种电子设备,其特征在于,包括:
存储器,用于存储计算机程序;
处理器,用于执行所述计算机程序时实现如权利要求1至6任一项所述超声报告后结构化解析方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至6任一项所述超声报告后结构化解析方法的步骤。
CN202011418105.0A 2020-12-07 2020-12-07 一种超声报告后结构化解析方法、系统、设备和介质 Pending CN112420151A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011418105.0A CN112420151A (zh) 2020-12-07 2020-12-07 一种超声报告后结构化解析方法、系统、设备和介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011418105.0A CN112420151A (zh) 2020-12-07 2020-12-07 一种超声报告后结构化解析方法、系统、设备和介质

Publications (1)

Publication Number Publication Date
CN112420151A true CN112420151A (zh) 2021-02-26

Family

ID=74776740

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011418105.0A Pending CN112420151A (zh) 2020-12-07 2020-12-07 一种超声报告后结构化解析方法、系统、设备和介质

Country Status (1)

Country Link
CN (1) CN112420151A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435200A (zh) * 2021-06-22 2021-09-24 上海交通大学医学院附属仁济医院 实体识别模型训练、电子病历处理方法、系统及设备
CN113486195A (zh) * 2021-08-17 2021-10-08 深圳华声医疗技术股份有限公司 超声图像处理方法、装置、超声设备及存储介质
CN113743122A (zh) * 2021-09-14 2021-12-03 河南工业大学 一种基于新词发现和Flat-lattice的粮情命名实体识别方法
CN114724670A (zh) * 2022-06-02 2022-07-08 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种医学报告生成方法、装置、存储介质和电子设备
CN116130111A (zh) * 2023-04-19 2023-05-16 广州金域医学检验中心有限公司 数据自检测寻优方法、装置、电子设备及存储介质
CN116227472A (zh) * 2023-03-06 2023-06-06 成都工业学院 一种bert-flat实体识别的配件同义词库构建法
CN117275651A (zh) * 2023-09-01 2023-12-22 北京华益精点生物技术有限公司 医疗报告生成方法、装置及电子设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170154027A1 (en) * 2015-11-29 2017-06-01 Vatbox, Ltd. System and method for automatic generation of reports based on electronic documents
CN109284400A (zh) * 2018-11-28 2019-01-29 电子科技大学 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
CN111428044A (zh) * 2020-03-06 2020-07-17 中国平安人寿保险股份有限公司 多模态获取监管识别结果的方法、装置、设备及存储介质

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170154027A1 (en) * 2015-11-29 2017-06-01 Vatbox, Ltd. System and method for automatic generation of reports based on electronic documents
CN109284400A (zh) * 2018-11-28 2019-01-29 电子科技大学 一种基于Lattice LSTM和语言模型的命名实体识别方法
CN110032648A (zh) * 2019-03-19 2019-07-19 微医云(杭州)控股有限公司 一种基于医学领域实体的病历结构化解析方法
CN111428044A (zh) * 2020-03-06 2020-07-17 中国平安人寿保险股份有限公司 多模态获取监管识别结果的方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
顾亦然、霍建霖等: "基于BERT的电机领域中文命名实体识别方法", 《计算机工程》 *

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113435200A (zh) * 2021-06-22 2021-09-24 上海交通大学医学院附属仁济医院 实体识别模型训练、电子病历处理方法、系统及设备
CN113486195A (zh) * 2021-08-17 2021-10-08 深圳华声医疗技术股份有限公司 超声图像处理方法、装置、超声设备及存储介质
CN113743122A (zh) * 2021-09-14 2021-12-03 河南工业大学 一种基于新词发现和Flat-lattice的粮情命名实体识别方法
CN114724670A (zh) * 2022-06-02 2022-07-08 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种医学报告生成方法、装置、存储介质和电子设备
CN116227472A (zh) * 2023-03-06 2023-06-06 成都工业学院 一种bert-flat实体识别的配件同义词库构建法
CN116227472B (zh) * 2023-03-06 2024-05-07 成都工业学院 一种bert-flat实体识别的配件同义词库构建法
CN116130111A (zh) * 2023-04-19 2023-05-16 广州金域医学检验中心有限公司 数据自检测寻优方法、装置、电子设备及存储介质
CN117275651A (zh) * 2023-09-01 2023-12-22 北京华益精点生物技术有限公司 医疗报告生成方法、装置及电子设备

Similar Documents

Publication Publication Date Title
CN112420151A (zh) 一种超声报告后结构化解析方法、系统、设备和介质
CN111708874B (zh) 基于复杂意图智能识别的人机交互问答方法与系统
CN109460473B (zh) 基于症状提取和特征表示的电子病历多标签分类方法
Zhu et al. Knowledge-based question answering by tree-to-sequence learning
CN112002411A (zh) 一种基于电子病历的心脑血管病知识图谱问答方法
CN109871538A (zh) 一种中文电子病历命名实体识别方法
CN112015868B (zh) 基于知识图谱补全的问答方法
US20200279147A1 (en) Method and apparatus for intelligently recommending object
CN106844741A (zh) 一种面向特定领域的问题解答方法
CN113707339B (zh) 一种多源异质数据库间概念对齐与内容互译方法及系统
CN112599213B (zh) 一种分类编码确定方法、装置、设备及存储介质
CN111144410A (zh) 一种跨模态的图像语义提取方法、系统、设备及介质
CN114077673A (zh) 一种基于btbc模型的知识图谱构建方法
CN117577254A (zh) 医疗领域语言模型构建及电子病历文本结构化方法、系统
CN114781382A (zh) 基于rwlstm模型融合的医疗命名实体识别系统及方法
CN115545021A (zh) 一种基于深度学习的临床术语识别方法与装置
CN116168825A (zh) 基于知识图谱增强的自动可解释性疾病自动诊断装置
CN112488111B (zh) 一种基于多层级表达引导注意力网络的指示表达理解方法
CN113658690A (zh) 一种智能导医方法、装置、存储介质以及电子设备
Göker et al. Neural text normalization for turkish social media
CN117497178A (zh) 一种基于知识图谱的常见病辅助决策方法
Li et al. Approach of intelligence question-answering system based on physical fitness knowledge graph
CN117648984A (zh) 一种基于领域知识图谱的智能问答方法及系统
US11783244B2 (en) Methods and systems for holistic medical student and medical residency matching
Yuan et al. Application of Graph Convolutional Network in the Construction of Knowledge Graph for Higher Mathematics Teaching.

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20210226

RJ01 Rejection of invention patent application after publication