CN114242194A - 一种基于人工智能的医学影像诊断报告自然语言处理装置及方法 - Google Patents

一种基于人工智能的医学影像诊断报告自然语言处理装置及方法 Download PDF

Info

Publication number
CN114242194A
CN114242194A CN202111483817.5A CN202111483817A CN114242194A CN 114242194 A CN114242194 A CN 114242194A CN 202111483817 A CN202111483817 A CN 202111483817A CN 114242194 A CN114242194 A CN 114242194A
Authority
CN
China
Prior art keywords
module
data
content
control connection
medical image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202111483817.5A
Other languages
English (en)
Inventor
刘磊
俞峰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Yunying Medical Technology Co ltd
Original Assignee
Shenzhen Yunying Medical Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Yunying Medical Technology Co ltd filed Critical Shenzhen Yunying Medical Technology Co ltd
Priority to CN202111483817.5A priority Critical patent/CN114242194A/zh
Publication of CN114242194A publication Critical patent/CN114242194A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/194Calculation of difference between files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • G06F40/211Syntactic parsing, e.g. based on context-free grammar [CFG] or unification grammars
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Biomedical Technology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Epidemiology (AREA)
  • Molecular Biology (AREA)
  • Primary Health Care (AREA)
  • Evolutionary Computation (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Pathology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本发明公开了一种基于人工智能的医学影像诊断报告自然语言处理装置及方法,包括数据集选取模块、数据预处理模块、数据分析模块、数据修正模块、辅助诊断模块、存储压缩模块、数据调取模块、调取记录模块、数据解压模块和数据来源记录模块,处理方法,包括步骤一,数据集选取;步骤二,数据预处理;步骤三,数据分析;步骤四,数据修正;步骤五,辅助诊断;本发明的模块和方法通过对医学影像诊断报告内容挖掘结构化信息,根据信息提取的对象和目的不同,NLP可用于患者个体信息分析、患者群体信息分析和医学影像流程信息分析等;患者个体影像诊断信息提取和分析,对患者个体疾病处理提供帮助。

Description

一种基于人工智能的医学影像诊断报告自然语言处理装置及 方法
技术领域
本发明涉及医疗技术领域,具体为一种基于人工智能的医学影像诊断报告自然语言处理装置及方法。
背景技术
近年来人工智能、自然语言处理、数据挖掘等等计算机技术得到快速发展,然而目前医疗数据结构化仍然处于较低水平,更多的医疗数据仍然以自然语言文本形式出现,自然人的学习能力有限,因此不断的有学者们尝试通过计算机技术辅助完成汇总医学领域知识的过程,将知识提炼出来,提取其中有用的诊疗信息,最终形成知识本体或者知识网络,从而为后续的各种文本挖掘任务提供标准和便利,其中自然语言处理研究领域主要应用于机器翻译,工作基本采用基于规则的方法,或者基于知识库的方法,在一定程度上取得成功,但是随着医学技术的发展,人对医学的认知更加深刻,研究也更加深入,自然语言的复杂性,在进一步的开放领域遇到了困难,随着大规模医学词典和语料库的研制,给自然语言处理领域的研究带来了巨大的变化,基于语料库的统计自然语言学习也逐渐成为一种重要的方法,随着互联网技术的发展,为自然语言处理领域提供了海量的语言资源和信息检索技术,使得他们直接的结合自然而成,医学影像诊断报告是电子健康病历中包含大量数字信息的重要组成部分,是医疗数据中最常见的数据文本,而且也是在用户的诊断记录中占比超过40%的数据内容,医学影像中使用NLP的总体目标是挖掘诊断报告中结构化信息,并将其应用于临床诊治过程,由于不同的放射科医生出具的报告仅存于文本中,具有非结构化的特点,这样非结构化的文本中的知识很难利用,专业的放射科医生,也需要重复利用当前的知识,为了达到快速获取有效信息的目的,单纯的依靠人工进行的话,非常困难,同时这类数据具有海量的特点,因此,现阶段发明出一种基于人工智能的医学影像诊断报告自然语言处理装置及方法是非常有必要的。
发明内容
本发明的目的在于提供一种基于人工智能的医学影像诊断报告自然语言处理装置及方法,以解决上述背景技术中提出非结构化的文本中的知识很难利用、有效信息不便于快速获取以及数据太大,不便于人工处理的问题。
为实现上述目的,本发明提供如下技术方案:一种基于人工智能的医学影像诊断报告自然语言处理装置,包括数据集选取模块、数据预处理模块、数据分析模块、数据修正模块、辅助诊断模块、存储压缩模块、数据调取模块、调取记录模块、数据解压模块和数据来源记录模块,所述数据集选取模块与数据预处理模块控制连接,数据预处理模块与数据分析模块控制连接,数据分析模块与数据修正模块控制连接,数据修正模块控制连接与辅助诊断模块控制连接,数据来源记录模块与数据集选取模块控制连接。
优选的,所述数据集选取模块由数据收集模块、数据分类选取模块、数据清除模块和格式转换模块组成,数据收集模块与数据分类选取模块控制连接,数据分类选取模块和格式转换模块均与数据清除模块控制连接。
优选的,所述数据预处理模块由数据清理模块、数据集成模块、数据规约模块、数据变换模块和数据离散化模块组成,数据清理模块、数据集成模块、数据规约模块、数据变换模块和数据离散化模块均与数据集选取模块控制连接。
优选的,所述数据修正模块由评审模块和内容修正模块组成,数据集选取模块分别与评审模块和内容修正模块控制连接,内容修正模块与存储压缩模块控制连接,存储压缩模块与数据调取模块控制连接,数据调取模块分别与调取记录模块、数据解压模块控制连接,辅助诊断模块由内容更新模块、更新筛选模块、辅助校验模块和报告内容纠错模块组成,更新筛选模块与内容更新模块控制连接,且内容更新模块与数据集选取模块控制连接,数据解压模块控制连接与辅助校验模块控制连接,辅助校验模块与报告内容纠错模块控制连接。
一种基于人工智能的医学影像诊断报告自然语言处理方法,包括步骤一,数据集选取;步骤二,数据预处理;步骤三,数据分析;步骤四,数据修正;步骤五,辅助诊断;
其中上述步骤一中,通过开发数据采集工具配合数据收集模块和数据分类选取模块,对非结构化的医学影像诊断报告进行分类选取,通过数据清除模块,剔除多余的内容,通过格式转换模块,形成json数据格式;
其中上述步骤二中,通过数据清理模块,清洗json数据异常内容,通过数据集成模块,将清理后的数据进行数据库存储,通过数据规约模块,添加设定的分隔符内容进行简单的处理和变换,通过数据变换模块和数据离散化模块,将同类型的数据归并;
其中上述步骤三中,采用自然语言处理NLP的基础技术,通过数据分析模块,通过词法分析、词向量表示、词义相似度、短文本相似度、依存句法分析和DNN语言模型构建远程算法服务,并且对数据进行分词,分句,分段拆分和组合的形式形成常用标识库,根据部分NLP预处理后文档的特点,形成的常用标识库,构建知识存储典籍,构建新的学习方法,不断完善处理能力,重复进行自然语言处理的训练,提高准确度;
其中上述步骤四中,医学影像科专家通过评审模块和内容修正模块,对得到的医学影像典籍进行评审和内容修正;
其中上述步骤五中,通过内容更新模块,不断的学习和收集新的知识内容,通过更新筛选模块对更新的数据进行筛选,通过辅助校验模块,配合影像科医生进行常规校验,同通过报告内容纠错模块,协助报告内容纠错。
优选的,所述步骤一中,通过数据收集模块录入已被专家评判过的影像报告和报告内容句法结构严谨,用词规范的数据;开发数据采集工具,主要对报告进行数据采集,清洗,常规分句分段等预处理,开发数据采集工具所使用到的技术为网络爬虫,json数据提取,关键句段分隔,本地数据库存储。
优选的,所述步骤二中,数据清洗的方式为,利用数理统计、数据挖掘或预定义的清理规则将脏数据转化为满足数据质量要求的数据。
优选的,所述步骤二中,同类型的数据归并包括相同检查类型的数据归并和同类型病种归并;数据集成方式为,通过具有目标计划、源-目标映射、数据获得、分级抽取、错误恢复和安全性转换功能的数据高速缓存器,且该数据高速缓存器内设置有预先定制的数据抽取工作,通过预先定制的数据抽取工作对数据库中数据进行选取、集成。
优选的,所述步骤三中,词法分析、词向量标识、词义相似度、DNN语言模型、依存句法分析和短文本相似度处理技术使用到的模型为词包模型、GRNN循环神经网络模型和CNN卷积神经模型;经过校正后的数据,往复进行训练处理,外加入专业影像科医生的确认标准,形成一个通用的准确的常用词句典籍;通用词句,专业词句,特定语法结构,用于指导特定病种或者部位检查时,生成标准化模板。
与现有技术相比,本发明的有益效果是:本发明的模块和方法通过对医学影像诊断报告内容挖掘结构化信息,根据信息提取的对象和目的不同,NLP可用于患者个体信息分析、患者群体信息分析和医学影像流程信息分析;
(1)患者个体影像诊断信息提取和分析,对患者个体疾病处理提供帮助,比如NLP检出影像报告中描述的可能导致严重后果的影像征象,提醒处理该患者的医师注意目前NLP可提示的危急情况有阑尾炎、急性肺损伤、肺炎、血栓栓塞性疾病及各类潜在恶性病变;还有提示随访建议,NLP检出报告中应提示临床进行后续操作的内容,自动生成随访建议,提示后续检查或治疗;
(2)患者群体影像诊断信息提取和分析,构建患者队列,用于流行病学研究、行政管理等,比如流行病学研究队列的构建,使用NLP可高效率地分析大数量、患者群体的影像报告,得到群体的特征性数据,从而提高流行病学研究效率,为循证影像医学研究提供帮助;
(3)医学影像流程信息的提取和分析,用于医学影像报告质量评价和改进,比如报告质量评价和报告规范的建立,NLP可识别医学影像学的流程和质量指标,判断影像报告是否符合相关指南或诊断规则,同时可用于评价报告的完整性和规范,是否给出正确的建议,是否及时进行危急情况的预警,报告信息是否用于疾病的诊断等方面;影像检查全流程的改进,NLP可对各类影像的综合信息进行分析,将报告中的检查结果和建议等信息与全面的临床信息相互关联,如检查适应证、疾病种类、患者年龄、性别、申请科室、申请医师及患者类型等;这种大规模的数据分析在经过验证后,可得到预测模型,形成适合本地情况的临床决策支持系统,也可应用到计算机医嘱系统。
附图说明
图1为本发明的框架图;
图2为本发明的模块结构图;
图3为本发明的流程图;
图4为本发明的循环神经网络模型示意图;
图5为本发明的方法流程图;
图中:1、数据集选取模块;2、数据预处理模块;3、数据分析模块;4、数据修正模块;5、辅助诊断模块;6、存储压缩模块;7、数据调取模块;8、调取记录模块;9、数据解压模块;10、数据来源记录模块;11、数据收集模块;12、数据分类选取模块;13、数据清除模块;14、格式转换模块;21、数据清理模块;22、数据集成模块;23、数据规约模块;24、数据变换模块;25、数据离散化模块;41、评审模块;42、内容修正模块;51、内容更新模块;52、更新筛选模块;53、辅助校验模块;54、报告内容纠错模块。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1-4,本发明提供的一种实施例:一种基于人工智能的医学影像诊断报告自然语言处理装置,包括数据集选取模块1、数据预处理模块2、数据分析模块3、数据修正模块4、辅助诊断模块5、存储压缩模块6、数据调取模块7、调取记录模块8、数据解压模块9和数据来源记录模块10,数据集选取模块1与数据预处理模块2控制连接,数据预处理模块2与数据分析模块3控制连接,数据分析模块3与数据修正模块4控制连接,数据修正模块4控制连接与辅助诊断模块5控制连接,数据来源记录模块10与数据集选取模块1控制连接;数据集选取模块1由数据收集模块11、数据分类选取模块12、数据清除模块13和格式转换模块14组成,数据收集模块11与数据分类选取模块12控制连接,数据分类选取模块12和格式转换模块14均与数据清除模块13控制连接;数据预处理模块2由数据清理模块21、数据集成模块22、数据规约模块23、数据变换模块24和数据离散化模块25组成,数据清理模块21、数据集成模块22、数据规约模块23、数据变换模块24和数据离散化模块25均与数据集选取模块1控制连接;数据修正模块4由评审模块41和内容修正模块42组成,数据集选取模块1分别与评审模块41和内容修正模块42控制连接,内容修正模块42与存储压缩模块6控制连接,存储压缩模块6与数据调取模块7控制连接,数据调取模块7分别与调取记录模块8、数据解压模块9控制连接,辅助诊断模块5由内容更新模块51、更新筛选模块52、辅助校验模块53和报告内容纠错模块54组成,更新筛选模块52与内容更新模块51控制连接,且内容更新模块51与数据集选取模块1控制连接,数据解压模块9控制连接与辅助校验模块53控制连接,辅助校验模块53与报告内容纠错模块54控制连接。
请参阅图5,本发明提供的一种实施例:一种基于人工智能的医学影像诊断报告自然语言处理方法,包括步骤一,数据集选取;步骤二,数据预处理;步骤三,数据分析;步骤四,数据修正;步骤五,辅助诊断;
其中上述步骤一中,通过开发数据采集工具配合数据收集模块11和数据分类选取模块12,对非结构化的医学影像诊断报告进行分类选取,通过数据清除模块13,剔除多余的内容,通过格式转换模块14,形成json数据格式;通过数据收集模块11录入已被专家评判过的影像报告和报告内容句法结构严谨,用词规范的数据;开发数据采集工具,主要对报告进行数据采集,清洗,常规分句分段等预处理,开发数据采集工具所使用到的技术为网络爬虫,json数据提取,关键句段分隔,本地数据库存储;
其中上述步骤二中,通过数据清理模块21,清洗json数据异常内容,通过数据集成模块22,将清理后的数据进行数据库存储,通过数据规约模块23,添加设定的分隔符内容进行简单的处理和变换,通过数据变换模块24和数据离散化模块25,将同类型的数据归并;数据清洗的方式为,利用数据挖掘、数理统计和预定义的规则将错误数据转化为满足数据质量要求的数据;同类型的数据归并包括相同检查类型的数据归并和同类型病种归并;数据集成方式为,通过具有目标计划、源-目标映射、数据获得、分级抽取、错误恢复和安全性转换功能的数据高速缓存器,且该数据高速缓存器内设置有预先定制的数据抽取工作,通过预先定制的数据抽取工作对数据库中数据进行选取、集成;
其中上述步骤三中,采用自然语言处理NLP的基础技术,通过数据分析模块3,通过词法分析、词向量表示、词义相似度、短文本相似度、依存句法分析和DNN语言模型构建远程算法服务,并且对数据进行分词,分句,分段拆分和组合的形式形成常用标识库,根据部分NLP预处理后文档的特点,形成的常用标识库,构建知识存储典籍,构建新的学习方法,不断完善处理能力,重复进行自然语言处理的训练,提高准确度;
其中上述步骤四中,医学影像科专家通过评审模块41和内容修正模块42,对得到的医学影像典籍进行评审和内容修正;词法分析、词向量标识、词义相似度、DNN语言模型、依存句法分析和短文本相似度处理技术使用到的模型为词包模型、GRNN循环神经网络模型和CNN卷积神经模型;经过校正后的数据,往复进行训练处理,外加入专业影像科医生的确认标准,形成一个通用的准确的常用词句典籍;通用词句,专业词句,特定语法结构,用于指导特定病种或者部位检查时,生成标准化模板;
其中上述步骤五中,通过内容更新模块51,不断的学习和收集新的知识内容,通过更新筛选模块52对更新的数据进行筛选,通过辅助校验模块53,配合影像科医生进行常规校验,同通过报告内容纠错模块54,协助报告内容纠错。
基于上述,本发明的优点在于,该发明使用时,首先通过数据收集模块11和数据分类选取模块12,对非结构化的医学影像诊断报告进行分类选取,并通过数据来源记录模块10记录获取的数据来源,通过数据清除模块13,剔除多余的内容,通过格式转换模块14,形成json数据格式;然后通过数据清理模块21,清洗json数据异常内容,通过数据集成模块22,将清理后的数据进行数据库存储,通过数据规约模块23,添加设定的分隔符内容进行简单的处理和变换,通过数据变换模块24和数据离散化模块25,将同类型的数据归并;数据清洗的方式为,利用数据挖掘、数理统计和预定义的规则将错误数据转化为满足数据质量要求的数据;同类型的数据归并包括相同检查类型的数据归并和同类型病种归并;数据集成方式为,通过具有目标计划、源-目标映射、数据获得、分级抽取、错误恢复和安全性转换功能的数据高速缓存器,且该数据高速缓存器内设置有预先定制的数据抽取工作,通过预先定制的数据抽取工作对数据库中数据进行选取、集成;然后采用自然语言处理NLP的基础技术,通过数据分析模块3,对数据进行词法分析、词向量标识、词义相似度、DNN语言模型、依存句法分析和短文本相似度处理技术,处理完毕后得到常用词句为主的医学影像典籍;医学影像科专家通过评审模块41和内容修正模块42,对得到的医学影像典籍进行评审和内容修正;通过存储压缩模块6对存储的数据进行压缩,减小存储压力,通过内容更新模块51,自动不断的学习和收集新的知识内容,形成典籍收录系统,通过更新筛选模块52对更新的数据进行筛选,当医生诊断时,通过数据调取模块7调取相关数据,通过调取记录模块8记录调取行为,通过数据解压模块9解压数据,根据调取的相关数据,通过辅助校验模块53,配合影像科医生进行常规校验,同通过报告内容纠错模块54,协助报告内容纠错。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。

Claims (9)

1.一种基于人工智能的医学影像诊断报告自然语言处理装置,包括数据集选取模块(1)、数据预处理模块(2)、数据分析模块(3)、数据修正模块(4)、辅助诊断模块(5)、存储压缩模块(6)、数据调取模块(7)、调取记录模块(8)、数据解压模块(9)和数据来源记录模块(10),其特征在于:所述数据集选取模块(1)与数据预处理模块(2)控制连接,数据预处理模块(2)与数据分析模块(3)控制连接,数据分析模块(3)与数据修正模块(4)控制连接,数据修正模块(4)控制连接与辅助诊断模块(5)控制连接,数据来源记录模块(10)与数据集选取模块(1)控制连接。
2.根据权利要求1所述的一种基于人工智能的医学影像诊断报告自然语言处理装置,其特征在于:所述数据集选取模块(1)由数据收集模块(11)、数据分类选取模块(12)、数据清除模块(13)和格式转换模块(14)组成,数据收集模块(11)与数据分类选取模块(12)控制连接,数据分类选取模块(12)和格式转换模块(14)均与数据清除模块(13)控制连接。
3.根据权利要求1所述的一种基于人工智能的医学影像诊断报告自然语言处理装置,其特征在于:所述数据预处理模块(2)由数据清理模块(21)、数据集成模块(22)、数据规约模块(23)、数据变换模块(24)和数据离散化模块(25)组成,数据清理模块(21)、数据集成模块(22)、数据规约模块(23)、数据变换模块(24)和数据离散化模块(25)均与数据集选取模块(1)控制连接。
4.根据权利要求1所述的一种基于人工智能的医学影像诊断报告自然语言处理装置,其特征在于:所述数据修正模块(4)由评审模块(41)和内容修正模块(42)组成,数据集选取模块(1)分别与评审模块(41)和内容修正模块(42)控制连接,内容修正模块(42)与存储压缩模块(6)控制连接,存储压缩模块(6)与数据调取模块(7)控制连接,数据调取模块(7)分别与调取记录模块(8)、数据解压模块(9)控制连接,辅助诊断模块(5)由内容更新模块(51)、更新筛选模块(52)、辅助校验模块(53)和报告内容纠错模块(54)组成,更新筛选模块(52)与内容更新模块(51)控制连接,且内容更新模块(51)与数据集选取模块(1)控制连接,数据解压模块(9)控制连接与辅助校验模块(53)控制连接,辅助校验模块(53)与报告内容纠错模块(54)控制连接。
5.一种基于人工智能的医学影像诊断报告自然语言处理方法,包括步骤一,数据集选取;步骤二,数据预处理;步骤三,数据分析;步骤四,数据修正;步骤五,辅助诊断;其特征在于:
其中上述步骤一中,通过开发数据采集工具配合数据收集模块(11)和数据分类选取模块(12),对非结构化的医学影像诊断报告进行分类选取,通过数据清除模块(13),剔除多余的内容,通过格式转换模块(14),形成json数据格式;
其中上述步骤二中,通过数据清理模块(21),清洗json数据异常内容,通过数据集成模块(22),将清理后的数据进行数据库存储,通过数据规约模块(23),添加设定的分隔符内容进行简单的处理和变换,通过数据变换模块(24)和数据离散化模块(25),将同类型的数据归并;
其中上述步骤三中,采用自然语言处理NLP的基础技术,通过数据分析模块(3),通过词法分析、词向量表示、词义相似度、短文本相似度、依存句法分析和DNN语言模型构建远程算法服务,并且对数据进行分词,分句,分段拆分和组合的形式形成常用标识库,根据部分NLP预处理后文档的特点,形成的常用标识库,构建知识存储典籍,构建新的学习方法,不断完善处理能力,重复进行自然语言处理的训练,提高准确度;
其中上述步骤四中,医学影像科专家通过评审模块(41)和内容修正模块(42),对得到的医学影像典籍进行评审和内容修正;
其中上述步骤五中,通过内容更新模块(51),不断的学习和收集新的知识内容,通过更新筛选模块(52)对更新的数据进行筛选,通过辅助校验模块(53),配合影像科医生进行常规校验,同通过报告内容纠错模块(54),协助报告内容纠错。
6.根据权利要求5所述的一种基于人工智能的医学影像诊断报告自然语言处理方法,其特征在于:所述步骤一中,通过数据收集模块(11)录入已被专家评判过的影像报告和报告内容句法结构严谨,用词规范的数据;开发数据采集工具,主要对报告进行数据采集,清洗,常规分句分段等预处理,开发数据采集工具所使用到的技术为网络爬虫,json数据提取,关键句段分隔,本地数据库存储。
7.根据权利要求5所述的一种基于人工智能的医学影像诊断报告自然语言处理方法,其特征在于:所述步骤二中,数据清洗的方式为,利用数据挖掘、数理统计和预定义的规则将错误数据转化为满足数据质量要求的数据。
8.根据权利要求5所述的一种基于人工智能的医学影像诊断报告自然语言处理方法,其特征在于:所述步骤二中,同类型的数据归并包括相同检查类型的数据归并和同类型病种归并;数据集成方式为,通过具有目标计划、源-目标映射、数据获得、分级抽取、错误恢复和安全性转换功能的数据高速缓存器,且该数据高速缓存器内设置有预先定制的数据抽取工作,通过预先定制的数据抽取工作对数据库中数据进行选取、集成。
9.根据权利要求5所述的一种基于人工智能的医学影像诊断报告自然语言处理方法,其特征在于:所述步骤三中,词法分析、词向量标识、词义相似度、DNN语言模型、依存句法分析和短文本相似度处理技术使用到的模型为词包模型、GRNN循环神经网络模型和CNN卷积神经模型;经过校正后的数据,往复进行训练处理,外加入专业影像科医生的确认标准,形成一个通用的准确的常用词句典籍;通用词句,专业词句,特定语法结构,用于指导特定病种或者部位检查时,生成标准化模板。
CN202111483817.5A 2021-12-07 2021-12-07 一种基于人工智能的医学影像诊断报告自然语言处理装置及方法 Pending CN114242194A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111483817.5A CN114242194A (zh) 2021-12-07 2021-12-07 一种基于人工智能的医学影像诊断报告自然语言处理装置及方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111483817.5A CN114242194A (zh) 2021-12-07 2021-12-07 一种基于人工智能的医学影像诊断报告自然语言处理装置及方法

Publications (1)

Publication Number Publication Date
CN114242194A true CN114242194A (zh) 2022-03-25

Family

ID=80753628

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111483817.5A Pending CN114242194A (zh) 2021-12-07 2021-12-07 一种基于人工智能的医学影像诊断报告自然语言处理装置及方法

Country Status (1)

Country Link
CN (1) CN114242194A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115062120A (zh) * 2022-08-18 2022-09-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 读片知识图谱构建方法、装置、处理器及报告生成方法
CN115083616A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于自监督图聚类的慢性肾病亚型挖掘系统
CN117809798A (zh) * 2024-03-01 2024-04-02 金堂县第一人民医院 基于大模型的检验报告解读方法、系统、设备及介质

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115083616A (zh) * 2022-08-16 2022-09-20 之江实验室 一种基于自监督图聚类的慢性肾病亚型挖掘系统
CN115083616B (zh) * 2022-08-16 2022-11-08 之江实验室 一种基于自监督图聚类的慢性肾病亚型挖掘系统
JP7404581B1 (ja) 2022-08-16 2023-12-25 之江実験室 自己監督グラフクラスタリングに基づく慢性腎症亜型マイニングシステム
CN115062120A (zh) * 2022-08-18 2022-09-16 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 读片知识图谱构建方法、装置、处理器及报告生成方法
CN117809798A (zh) * 2024-03-01 2024-04-02 金堂县第一人民医院 基于大模型的检验报告解读方法、系统、设备及介质
CN117809798B (zh) * 2024-03-01 2024-04-26 金堂县第一人民医院 基于大模型的检验报告解读方法、系统、设备及介质

Similar Documents

Publication Publication Date Title
CN111540468B (zh) 一种诊断原因可视化的icd自动编码方法与系统
CN108831559B (zh) 一种中文电子病历文本分析方法与系统
CN107247881B (zh) 一种多模态智能分析方法及系统
CN111316281B (zh) 基于机器学习的自然语言情境中数值数据的语义分类方法以及系统
KR102153920B1 (ko) 정제된 인공지능 강화학습 데이터 생성을 통한 의료영상 판독 시스템 및 그 방법
CN110838368B (zh) 一种基于中医临床知识图谱的主动问诊机器人
CN114242194A (zh) 一种基于人工智能的医学影像诊断报告自然语言处理装置及方法
US11610678B2 (en) Medical diagnostic aid and method
US11244755B1 (en) Automatic generation of medical imaging reports based on fine grained finding labels
CN113241135A (zh) 一种基于多模态融合的疾病风险预测方法和系统
CN111949759A (zh) 病历文本相似度的检索方法、系统及计算机设备
CN108091397B (zh) 一种缺血性心脏病患者的出血事件预测方法
Carchiolo et al. Medical prescription classification: a NLP-based approach
CN112541066B (zh) 基于文本结构化的医技报告检测方法及相关设备
CN109994216A (zh) 一种基于机器学习的icd智能诊断编码方法
CN111524578B (zh) 一种基于电子心理沙盘的心理评估装置、方法及系统
CN112241457A (zh) 一种融合扩展特征的事理知识图谱事件检测方法
CN111477320B (zh) 治疗效果预测模型的构建系统、治疗效果预测系统及终端
CN115062165B (zh) 基于读片知识图谱的医学影像诊断方法及装置
CN111785387B (zh) 一种使用Bert做疾病标准化映射分类的方法及系统
US11763081B2 (en) Extracting fine grain labels from medical imaging reports
CN114188022A (zh) 一种基于TextCNN模型的临床儿童咳嗽智能预诊断系统
CN110634546A (zh) 电子病历文本规范化检测方法
CN111524570A (zh) 一种基于机器学习的超声随访患者筛选方法
CN113342973A (zh) 一种基于疾病二分类器的辅助诊断模型的诊断方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information

Inventor after: Yu Feng

Inventor after: Liu Lei

Inventor before: Liu Lei

Inventor before: Yu Feng

CB03 Change of inventor or designer information