CN114255835A - 一种基于人工智能的病例大数据管理方法和系统 - Google Patents

一种基于人工智能的病例大数据管理方法和系统 Download PDF

Info

Publication number
CN114255835A
CN114255835A CN202111348770.1A CN202111348770A CN114255835A CN 114255835 A CN114255835 A CN 114255835A CN 202111348770 A CN202111348770 A CN 202111348770A CN 114255835 A CN114255835 A CN 114255835A
Authority
CN
China
Prior art keywords
data
case
ultrasonic
information
label
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202111348770.1A
Other languages
English (en)
Other versions
CN114255835B (zh
Inventor
彭玉兰
刘晶焰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
West China Precision Medicine Industrial Technology Institute
West China Hospital of Sichuan University
Original Assignee
West China Precision Medicine Industrial Technology Institute
West China Hospital of Sichuan University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by West China Precision Medicine Industrial Technology Institute, West China Hospital of Sichuan University filed Critical West China Precision Medicine Industrial Technology Institute
Priority to CN202111348770.1A priority Critical patent/CN114255835B/zh
Publication of CN114255835A publication Critical patent/CN114255835A/zh
Application granted granted Critical
Publication of CN114255835B publication Critical patent/CN114255835B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H40/00ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices
    • G16H40/60ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices
    • G16H40/67ICT specially adapted for the management or administration of healthcare resources or facilities; ICT specially adapted for the management or operation of medical equipment or devices for the operation of medical equipment or devices for remote operation
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Biomedical Technology (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Pathology (AREA)
  • Business, Economics & Management (AREA)
  • General Business, Economics & Management (AREA)
  • Ultra Sonic Daignosis Equipment (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明公开了一种基于人工智能的病例大数据管理方法和系统,涉及计算机辅助领域,主要包括收集与乳腺相关的病例关联数据生成病例数据集合,利用人工智能方法从病例数据集合中提取病例数据特征,并根据病例文本数据特征和病例图像数据特征对病例图像标注标签。本发明提供的方案能够有效根据乳腺相关疾病的特点、提出有效的多维度、多层级的数据结构化方案,提出相关病例数据的结构化处理流程,在数据处理上采用基于规则的方法保证结构化解析的精准性,建立带有结构化标签的乳腺超声图像数据集,为乳腺相关病例大数据的进一步应用提供可靠数据素材,有效解决数据集病例质量不齐和数据标准化的问题,实现数据智能管理及应用。

Description

一种基于人工智能的病例大数据管理方法和系统
技术领域
本发明涉及计算机辅助领域,尤其是一种基于人工智能的病例大数据管理方法和系统。
背景技术
乳腺疾病是女性的常见疾病,乳腺癌是女性发病率最高的恶性肿瘤,我国乳腺癌以每年2-3%的速度攀升,发病有年轻化趋势,严重危害女性健康。在我国,乳腺超声是乳腺疾病最常用的筛查技术,也是乳腺疾病的常用检查技术,且超声设备覆盖广,普及程度高,适用性强。病理诊断作为超声检查的金标准,超声图文数据结合病理诊断和其它临床信息能发挥巨大的数据价值。将乳腺超声和病理数据整合进行数据处理和应用的研究将有助于对超声诊断技术的评估和提高,为未来一系列的超声-病理联合研究奠定基础,也为创建跨学科、多学科的乳腺疾病数据库做出实质性的进展,满足医生教学、临床、科研等多方面需求。
随着电子健康记录(Electronic Health Records,EHRs)进入临床应用,以及数据存储设备和技术的发展,积累的医学图像和文本数据呈爆炸式增长,而影像AI研究需要海量的乳腺超声检查大数据。但原始数据需要经过医生进行图像筛选、清洗,并根据研究目标进行图像病变标注或给予与图像匹配的临床和病理结果等标注信息才能成为AI可利用、有价值的研究数据。大量关于 AI的研究已经产生了海量的标注数据集,但由于缺乏规范化的数据标准,难以在不同的医学领域或机构共享应用。标注数据不足和数据标准化的问题已经成为影像AI发展的瓶颈。随着临床原始数据量呈指数级增长,对数据结构化的需求越来越强烈。
现有的数据管理模式已经不能满足大数据的应用需求,迫切需要建立数据的智能管理及应用模式。如何有效地利用人工智能技术对已经积累的乳腺超声大数据进行管理,解决数据集病例不足和数据标准化的问题,实现数据智能管理及应用,是医学影像AI的必经之路,具有重要的研究意义。
发明内容
本发明所要解决的技术问题是:针对现有技术中存在的问题,提供一种基于人工智能的病例大数据管理方法和系统,对乳腺相关病例大数据进行结构化处理,从而建立带有结构化标签的乳腺病例大数据集和进行可视化应用。
一方面本发明提供了一种基于人工智能的病例大数据管理方法,包括如下步骤:
S1,收集与乳腺相关的病例关联数据,在对病例关联数据完成预检查和预处理后生成病例数据集合,并将其导入并保存在系统数据库中;
S2,利用人工智能方法从病例数据集合中提取病例数据特征,得到病例文本数据特征和病例图像数据特征;
S3,根据病例文本数据特征和病例图像数据特征对病例图像标注标签,从而将抽取得到的特征对应的结构化元数据赋予病例数据,并存储为结构化病例大数据信息。
步骤S2中利用人工智能方法从病例数据集合中提取病例数据特征包括基于专家语言规则对病例文本数据进行自然语言处理和病例文本数据特征提取,以及基于深度学习算法提取病例图像数据特征。
另一方面,本发明还提供了一种基于人工智能的病例大数据管理系统,该病例管理大数据系统包括云服务器、数据导入模块、特征提取模块、数据标注模块以及大数据管理模块,
其中云服务器用于存储在该病例管理大数据系统中产生的所有数据,并将数据与其余模块之间进行通信传输;数据导入模块用于收集与乳腺相关的病例关联数据,在对病例关联数据完成预检查和预处理后生成病例数据集合,并将其导入并保存在系统数据库中;
特征提取模块用于从乳腺相关病例数据集合中提取病例数据特征,得到病例文本数据特征和病例图像数据特征;
数据标注模块,用于根据病例文本数据特征和病例图像数据特征对病例图像标注标签,从而将抽取得到的特征对应的结构化元数据作为标签赋予病例数据,并存储为结构化病例大数据信息;
大数据管理模块用于对结构化病例大数据进行质量管理和维护,并将病例大数据根据多应用需求进行整合。
综上所述,由于采用了上述技术方案,本发明的有益效果是:
本发明提供的基于人工智能的病例大数据管理方法和系统,能够有效根据乳腺相关疾病的特点、提出有效的多维度、多层级的数据结构化方案,提出相关病例数据的结构化处理流程,在数据处理上采用基于规则的方法保证结构化解析的精准性,建立带有结构化标签的乳腺超声图像数据集,为乳腺相关病例大数据的进一步应用提供可靠数据素材,有效解决数据集病例质量不齐和数据标准化的问题,实现数据智能管理及应用。
附图说明
本发明将通过例子并参照附图的方式说明,其中:
图1为本发明提供的基于人工智能的病例大数据管理方法流程图。
图2为本发明实施例中的病例数据特征提取流程示意图。
图3为本发明实施例中的标签标注流程示意图。
图4为本发明提供的基于人工智能的病例大数据管理系统结构图。
图5为本发明数据管理系统的应用展示界面示例图。
具体实施方式
为了使本领域的人员更好地理解本发明的技术方案,下面结合本发明的附图,对本发明的技术方案进行清楚、完整的描述,基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的其它类同实施例,都应当属于本申请保护的范围。
数据处理的基本目的是从大量的、结构性差的、具有歧义的数据中获取并分析出具有特定价值和意义的数据,本发明的数据处理主要针对大量的乳腺超声报告和乳腺病理报告诊断的非结构化文本数据,包括患者的基本信息和部分临床信息等。
如图1所示,实施例1为一种基于人工智能的病例大数据管理方法,该方法主要包括如下步骤:
S1,收集与乳腺相关的病例关联数据,在对病例关联数据完成预检查和预处理后生成病例数据集合,并将其导入并保存在系统数据库中。
所述病例关联数据为与病例对应的所有相关数据,至少包括检查号ID、基本信息、超声检查号、检查部位、检查类型、检查信息、检查所见描述、超声诊断结果、病理结论、诊断结果、影像资料、超声报告、病理报告等。
每一个病例关联数据中包含一个检查号ID的字段,该检查号ID作为每个病例的唯一标识。
为了实现数据关联,本实施例通过检查号ID将属于同一个病例的分散在不同位置的信息关联起来,形成了包含病例对象的基本信息、检查信息以及相关影像资料在内的综合病例关联信息数据结构。
例如,本实施例中可以从医院HIS系统的不同子数据系统中获取乳腺超声检查病例的相关影像资料、超声报告以及病理报告等内容。其中超声报告、病理报告相关的内容可以保存在excel文件中或特定格式的html文件中,一个文件中可以保存多个病例的数据;每个病例的影像资料包括一个或多个超声检查结果动静态影像数据,在一个实施例中所述动静态影像数据格式为jpeg、 DICOM或avi等,所有影像资料以病例-检查为单位保存在以检查号ID或超声检查号等具有唯一命名的特定文件夹中。
在完成病例关联数据导入后,还需要对病例关联数据进行预检查和预处理操作,生成病例数据集合,并将其保存在系统数据库和文件系统中,确保进入系统的都是合乎完整性要求的有效病例数据。
在一个实施例中对导入的关联数据依次做数据筛选、完整性检查、冗余数据去除、重复数据过滤、可疑数据修正等预检查和预处理;其中,对于超声文本数据和病理文本数据,可基于一定的文本处理规则清洗其中的重复数据、无效数据和可疑重复数据;对于人工数据,可基于相应的文本处理规则对可疑重复数据进行修正、采用、剔除。
在该步骤中,无论是由于传统数据存储结构的缺陷、数据检索模式的限制,还是原始数据自有的质量缺陷,都可能导致初步收集的数据并不能准确地符合本实施例中的数据需求,因此还可以在导入数据之前对收集的数据进行筛选,从而得到符合需要的与乳腺相关的病例大数据,主要筛选过程包括:
(a)确定超声数据均为乳腺相关病例;
(b)排除只有其他部位病变诊断的病理数据,例如“<甲状腺右叶及峡部> 乳头状癌”等;
(c)筛选相关研究数据,包括排除信息不全的病例、排除细胞学病理报告等。
在本实施例中对数据进行处理操作中所依据的文本处理规则还可以采用文本处理领域中通用的或常用的文本检查和文本处理规则,本实施例对此不做具体限定。
S2,利用人工智能方法从乳腺相关病例数据集合中提取病例数据特征,得到病例文本数据特征和病例图像数据特征。
病例数据分为病例文本数据及病例图像数据,病例文本数据包括病例的基本信息、检查日期、病理诊断结果、超声诊断结果等,病例图像数据包括病例的超声影像等有效图像。该步骤中对乳腺相关病例数据集合中的数据做进一步的特征提取处理包括:基于专家语言规则对病例文本数据进行自然语言处理和病例文本数据特征提取,以及基于深度学习算法提取病例图像数据特征。
由于病例文本是使用自然语言、并使用专业术语表述的内容,从病例文本数据中提取的病例文本数据特征据具有更标准、精确、更易于理解的特点,且提取病例文本数据特征更有利于对病例信息进行信息化管理。
本发明实施例中的病例文本数据特征采用多维度、多层级的数据结构化方案如下:
A.患者基本信息:检查号ID、姓名、性别、年龄、住院号等。
B.临床信息:临床诊断、就诊科室、就诊医师、就诊日期。
C.超声信息:超声检查号、超声检查日期、超声检查室、超声检查者、超声检查审核者、超声报告记录者、超声检查部位、超声报告类型、超声检查描述、超声检查诊断、超声图像。存在同一患者多次超声检查,多条超声图文数据;
该超声信息进一步包括:
(i)超声报告类型:普通超声;超声引导下穿刺(CNB、FNA);超声麦默通;术中超声;床旁超声;新辅助化疗评估;超声定位(体表定位、钩针定位)。
(ii)超声检查诊断:病变数量;病变位置(左乳、右乳、其他部位);诊断本体词汇;病变性质(诊断本体分类:阴性、良性、可疑恶性、恶性);疑似度(疑似词)。
D.病理信息:病理号、病理登记日期、病理送检科室、病理报告日期、病理报告医生、病理报告类型、病理检查所见、病理诊断。存在同一患者多种病理结果或同一患者多次活检或多次手术有多条病理数据。
该病理信息进一步包括:
(i)病理报告类型:冰冻切片报告;活体组织检查报告(穿刺活检病理报告;普通石蜡报告;冻后石蜡报告);细胞学报告。
(ii)病理诊断:病变数量;病变位置(左乳、右乳、其他部位);病理诊断本体词汇;病变性质(诊断本体分类:阴性、良性、交界性、原位癌、恶性)。
在确定病例文本数据特征方案后,本实施例中通过建立专家语言规则对病例文本数据进行自然语言处理和特征提取,具体特征提取流程如图2所示:
首先对病例文本数据进行分句,对得到的单句进行相关性判断。在分句时,通过构建标准切割符用来切分文本,例如,对于原始文本输入的:
<左乳1点距1cm、左乳7点>纤维囊性乳腺病伴纤维腺瘤形成(趋势)。灶性钙化。<右乳1点、5点、2点、7点及9点>纤维囊性乳腺病伴纤维腺瘤。
经过文本切割后输出单句:
<左乳1点距1cm、左乳7点>纤维囊性乳腺病伴纤维腺瘤形成(趋势)。/ 灶性钙化。/<右乳1点、5点、2点、7点及9点>纤维囊性乳腺病伴纤维腺瘤。
若该单句与乳腺不相关,将该单句直接存入第一数据库、并将双乳参数设置为“阴性”;
若该单句与乳腺相关,则将该单句存入第二数据库后按照单侧乳腺进行重组、并分别判断是否与乳腺相关。
所述按照单侧乳腺对单句进行重组是指将单句分别按照左和右单侧分别进行文本重构,例如,将“<左乳1点距1cm、左乳7点>纤维囊性乳腺病伴纤维腺瘤形成(趋势)。灶性钙化。”重组成“[‘左乳1点距1cm纤维囊性乳腺病伴纤维腺瘤形成(趋势)。灶性钙化。’,‘左乳7点纤维囊性乳腺病伴纤维腺瘤形成(趋势)。灶性钙化。’]”。
需要说明的是,所述第一/第二数据库是用于说明将不同类型单句数据进行分别集合的对象,以能够区分不同类型单句数据的存储管理即可。
单句重组后分别对单侧单句判断是否有“病史”描述;若没有“病史”描述则直接判断是否包含文本“未见异常”,若有“病史”描述则保存“病史”描述部分并剔除“病史”描述部分,以免影响后续对其他信息的判读;其次再对该单句剔除“病史”描述部分的剩余内容判断是否包含文本“未见异常”。对无法处理成单侧乳腺的单句则暂不做进一步处理。
对于包含文本“未见异常”的单句,将对应的的左和/或右乳参数设置为“阴性”;对于有异常的情况,说明存在对应侧乳腺占位,则进行进一步的判断如下:
对重组后的单侧乳腺单句的所有描述进行遍历,首先判断能否确认占位位置,若能,将位置信息保存后并剔除,并继续占位的判断;若不能确认位置,则直接进行占位判断。
若判断占位存在,则保存该占位信息后进行相关征象判断,此时不对占位信息做剔除处理;若没有占位相关信息,则直接进行征象判断。常见征象描述包括“实性占位”、“减弱回声区”等。
若判断征象存在,则保存该征象信息并剔除征象信息,若占位同时存在,剔除占位及其相关征象,之后进行诊断结果判断;若不能判断征象信息则直接进行诊断结果判断。
若判断诊断结果存在,由于诊断疑似词是依附于诊断结果信息存在的,例如“导管内待排”中待排与导管内是依附关系,则保存该诊断结果信息并进行诊断疑似词判断;若不能判断诊断结果信息则直接进行诊断建议判断。
常见的诊断疑似词包括:不排除、待排、倾向、多为、多系、形成、?等。
若判断诊断疑似词存在,则将诊断疑似词与诊断信息进行关联保存、并剔除诊断信息及其诊断疑似词;若没有疑似词则进行建议判断。
若判断建议存在,则保存并剔除建议信息后对下一条病例文本数据按重组后的单侧乳腺单句进行同样的重复处理。若不存在建议信息,则直接对下一条病例文本数据按重组后的单侧乳腺单句进行同样的重复处理。
通过如上步骤处理后得到从所有病例文本数据中提取的诊断病变、病变位置、征象描述、诊断结论、诊断疑似词、医生建议等乳腺疾病相关的文本特征。
另一方面针对病例图像数据,本实施例还提供了一种基于深度学习算法对病例图像数据的特征进行自动识别和提取,主要包括以下步骤:
S21,首先确认用于作为训练集的病例图像的超声检查技术类型和图像采集设备,并生成对应的超声检查技术类型标签和图像采集设备标签;所述超声检查技术类型包括灰阶、多普勒、弹性、造影等,所述图像采集设备包括飞利浦、GE、西门子、迈瑞、声科等。基于该训练集中的病例图像及对应标签进行训练,得到图像特征深度神经网络模型,该神经网络模型用于自动识别病例图像数据;
S22,用已训练的深度神经网络模型对样本集里的病例图像进行自动识别、并输出样本集中病例图像对应的病例图像特征信息(包括超声检查技术类型和图像采集设备)。
在完成该步骤中的样本集病例图像特征信息输出后,还可以进一步设置辅助操作,在该辅助操作中进一步由专业人员对自动提取的病例图像特征信息做核验校正和确认,从而使基于深度神经网络模型自动提取的病例图像特征信息更为准确。
S23,提取通过S22的所有特征信息和标注数据,并添加到已有的深度神经网络模型的训练集中并进行训练,从而训练出识别准确度更高的深度神经网络模型。
S24,重复S22-S23的操作步骤,使深度神经网络模型随着训练数据集的增加而不断被训练,并用于自动识别,并输出自动识别的超声检查技术类型标签和图像采集设备标签。
随着深度神经网络不断被训练,其识别精度也不断提高,进而使得其针对图像病例特征的提取自动化程度会不断提高,特征抽取的效率也大大提高。
S3,根据病例文本数据特征和病例图像数据特征对病例图像标注超声标签和病理标签,从而将抽取得到的特征对应的结构化元数据赋予病例数据,并存储为结构化病例大数据信息。
本实施例中采用基于从病例文本数据和病例图像数据提取的特征对病例有效图像进行标注的方法,同时对特征自动提取的结果做审查及修正,修正的结果将会被用于对相应自动提取方法的进一步优化,具体步骤如图3所示,包括:
首先筛选超声检查报告,筛选标准为超声检查时间在病理检查时间之前的 6个月内且时间最近的一份。判断该超声检查报告中是否有超声报告图像,若没有超声报告图像进一步判断是否可以改绑另一份超声检查数据,若可以,将改绑的超声检查数据与该病理检查数据进行关联并重新进行判断;若不能进行超声数据改绑,则认为该病例数据存在关联缺陷,记为非标注病例数据。
当超声检查数据中存在有效图像数据时,查看其超声诊断,判断该超声诊断是否与病理检查数据相对应。若无法对应,例如当超声诊断为左乳实性占位、而病理检查数据为右乳包块,二者不是相对应的,此时重新回到判断和改绑超声检查数据的步骤;若是相对应的,则进一步分别判断超声检查数据和病理检查数据中对应的超声文本数据及病理文本数据的特征信息是否解析正确。
对于超声文本数据的特征信息,若存在位置和/或占位词解析不正确,判定为超声解析错误;若位置以及占位词都解析正确时,进一步判断每个位置是否正确以及占位词的结论是否正确。
若有至少一个位置不正确以及占位词的结论不正确,判定为超声解析错误;若每个位置都正确以及占位词的结论都正确,则进一步判断每个结论的疑似词是否正确。
若结论的疑似词不正确,判定为超声解析错误;若结论的疑似词都正确,则将超声解析结论作为超声标签。
对于判定为超声解析错误的数据,进一步判断数据中的具体位置和占位信息是否唯一,若不唯一,将该数据标记为“不可用”的无效数据;若唯一,则将对应的超声解析结论作为超声标签。
对于病理文本数据的特征信息,首先判断位置是否解析正确,若位置解析不正确,判定为病理解析错误;若位置解析正确,进一步判断每个位置的结论是否正确,若位置结论不正确,判定为病理解析错误,若位置结论正确,则进一步判断每个结论疑似词是否正确;若结论疑似词不正确,则判定为病理解析错误,若结论疑似词正确,则将病理解析结论作为病理标签进行标注。
对于判定为病理解析错误的数据,进一步判断数据中的具体位置和占位信息是否唯一,若不唯一,将该数据标记为“不可用”的无效病理数据;若唯一,则将对应的病理解析结论作为病理标签进行标注。
在确定由超声解析结论作为超声标签、病理解析结论作为病理标签后,进一步判断对应的超声图像是否可用,其中超声图像不可用的情况包括判断图像质量差、图像所示病变位置与文本所述病变位置无法对应等。若超声图像不可用则回到判断是否可改绑超声检查数据的步骤;若超声图像可用,则进一步判断超声图像是否具有已标注的标签,若没有,将确定的超声标签和病理标签对该超声图像进行标注;若有已标注的标签,则将确定的超声标签进行标注,病理标签进行追加标注,尤其是针对当穿刺和手术的病理诊断结果共存的情况下。
最后在完成超声标签和病理标签的标注后,自动添加从步骤S2中提取的超声检查技术类型标签和图像采集设备标签,从而完成对目标病例数据的标签标注工作。
S4,对结构化的病例大数据进行质量管理和维护,并将病例大数据根据自定义检索、丰富的图表展现、可视化数据分析、多维分析、数据关联挖掘等多应用需求进行整合。
对于通过前述步骤获取的结构化病例大数据,一方面需要对大数据进行质量管理和维护,同时将大量数据根据前端入口需求进行应用整合。
例如,对已经结构化的病例大数据做增、删、改、查等操作,以及对各病例数据做进一步的定时基本维护,还可以由专业人员对已标注的数据进行进一步确认的功能,从而得到高质量、高正确性的数据集。
在实际应用中,所述结构化病例大数据可以提供全面的数据索引,还能够对病例进行检索和展示,不仅可以从多个维度搜索符合条件的病例,并进行数据导出,还可以直接生成训练神经网络模型所需的训练数据集。
比如,根据已保存在数据库中的病例大数据信息定时生成符合Lucene格式的数据索引,利用该索引系统可以从检查结果、病理结论、肿瘤良恶性、检查部位、检查时间、患者年龄在内的多个维度搜索符合条件的病例数据,从而可以实现在超大数据集上的高速检索。
如图4所示,实施例2为一种基于人工智能的病例大数据管理系统,主要针对乳腺相关大数据的处理和管理,该病例管理大数据系统包括云服务器、数据导入模块、特征提取模块、数据标注模块以及大数据管理模块,。
在本实施例中,各数据模块是基于前述实施例中与各模块相对应的处理方法实现的。
其中云服务器用于存储在该病例管理大数据系统中产生的所有数据,并将数据与其余模块之间进行通信传输;数据导入模块用于收集与乳腺相关的病例关联大数据,在对病例关联大数据完成预检查和预处理后生成病例数据集合,并将其导入并保存在系统数据库中。
特征提取模块用于从乳腺相关病例数据集合中提取病例数据特征,得到病例文本数据特征和病例图像数据特征。
数据标注模块,用于根据病例文本数据特征和病例图像数据特征对病例图像标注超声标签和病理标签,从而将抽取得到的特征对应的结构化元数据作为标签赋予病例数据,并存储为结构化病例大数据信息。
大数据管理模块用于对结构化的病例大数据进行质量管理和维护,并将病例大数据根据自定义检索、丰富的图表展现、可视化数据分析、多维分析、数据关联挖掘等多应用需求进行整合。
例如,大数据管理模块会根据已保存在数据库中的病例大数据信息定时维护生成符合Lucene格式的数据索引,利用该索引系统可以从检查结果、病理结论、肿瘤良恶性、检查部位、检查时间、患者年龄在内的多个维度搜索符合条件的病例数据,从而可以实现在超大数据集上的高速检索。
大数据管理模块还提供针对特定搜索结果集的导出入口,通过相应的检索和导出入口可以实现至少以下功能:
(1)通过检索符合特定条件的病例,可以对乳腺超声检查的研究和病例分析提供良好的数据支持;
(2)利用建立在检索基础上的数据导出功能,可以随时生成各种覆盖面广、可信度高的用于深度神经网络模型训练的训练数据集和验证数据集,为后续通过深度学习技术实现对乳腺病变的高效精准识别打下良好的数据基础;
(3)通过对系统中收集到的大量病例做基于大数据的统计分析,可以持续得出乳腺病变在发病时间、患者年龄、地理区域等多方面的分布情况,从而为乳腺病变的发病原因分析和整体防治提供精准坚实的统计数据支持;
(4)通过有针对性的检索,可以为医学院的教学提供有效的实际病例资源,让医学院的学生可以在学习期间就接触到大量典型的实际病例,从而有效提高教学质量。
如图5所示,为本发明提供的病例管理大数据系统的一个应用展示页面,可以看到利用本发明提供的结构化病例大数据以及对应各类标签,既可以在后续数据应用中进行全面直观的展示,也方便对数据的检索、分析、修改等操作。
本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。
本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。
本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。

Claims (10)

1.一种基于人工智能的病例大数据管理方法,其特征在于,包括如下步骤:
S1,收集与乳腺相关的病例关联数据,在对病例关联数据完成预检查和预处理后生成病例数据集合,并将其导入并保存在系统数据库中;
S2,利用人工智能方法从病例数据集合中提取病例数据特征,得到病例文本数据特征和病例图像数据特征;
S3,根据病例文本数据特征和病例图像数据特征对病例图像标注标签,从而将抽取得到的特征对应的结构化元数据赋予病例数据,并存储为结构化病例大数据信息。
2.如权利要求1所述的一种基于人工智能的病例大数据管理方法,其特征在于,还包括如下步骤:
S4,对结构化病例大数据进行质量管理和维护,并将病例大数据根据多应用需求进行整合。
3.如权利要求1所述的一种基于人工智能的病例大数据管理方法,其特征在于,所述病例关联数据为与病例对应的所有相关数据,至少包括检查号ID作为唯一标识,并通过检查号ID将属于同一个病例的不同信息关联起来,形成综合病例关联信息数据结构。
4.如权利要求1所述的一种基于人工智能的病例大数据管理方法,其特征在于,步骤S2中利用人工智能方法从病例数据集合中提取病例数据特征包括基于专家语言规则对病例文本数据进行自然语言处理和病例文本数据特征提取,以及基于深度学习算法提取病例图像数据特征。
5.如权利要求4所述的一种基于人工智能的病例大数据管理方法,其特征在于,基于专家语言规则对病例文本数据进行自然语言处理和病例文本数据特征提取具体包括:
首先对病例文本数据进行分句,对得到的单句进行相关性判断:
若该单句与乳腺不相关,将该单句直接存入第一数据库、并将双乳参数设置为“阴性”;
若该单句与乳腺相关,则将该单句存入第二数据库后按照单侧乳腺进行重组、并分别进行如下特征提取处理:
单句重组后分别对单侧单句判断是否有“病史”描述;若没有“病史”描述则直接判断是否包含文本“未见异常”,若有“病史”描述则保存“病史”描述部分并剔除“病史”描述部分,以免影响后续对其他信息的判读;其次再对该单句剔除“病史”描述部分的剩余内容判断是否包含文本“未见异常”;对无法处理成单侧乳腺的单句则暂不做进一步处理;
对于包含文本“未见异常”的单句,将对应的的左和/或右乳参数设置为“阴性”;对于有异常的情况,说明存在对应侧乳腺占位,则进行进一步的判断如下:
对重组后的单侧乳腺单句的所有描述进行遍历,首先判断能否确认占位位置,若能,将位置信息保存后并剔除,并继续占位的判断;若不能确认位置,则直接进行占位判断;
若判断占位存在,则保存该占位信息后进行相关征象判断,此时不对占位信息做剔除处理;若没有占位相关信息,则直接进行征象判断;
若判断征象存在,则保存该征象信息并剔除征象信息,若占位同时存在,剔除占位及其相关征象,之后进行诊断结果判断;若不能判断征象信息则直接进行诊断结果判断;
若判断诊断结果存在,由于诊断疑似词是依附于诊断结果信息存在的,例如“导管内待排”中待排与导管内是依附关系,则保存该诊断结果信息并进行诊断疑似词判断;若不能判断诊断结果信息则直接进行诊断建议判断;
若判断诊断疑似词存在,则将诊断疑似词与诊断信息进行关联保存、并剔除诊断信息及其诊断疑似词;若没有疑似词则进行建议判断;
若判断建议存在,则保存并剔除建议信息后对下一条病例文本数据按重组后的单侧乳腺单句进行同样的重复处理。若不存在建议信息,则直接对下一条病例文本数据按重组后的单侧乳腺单句进行同样的重复处理。
6.如权利要求5所述的一种基于人工智能的病例大数据管理方法,其特征在于,所述按照单侧乳腺对单句进行重组是指将单句分别按照左和右单侧分别进行文本重构。
7.如权利要求4所述的一种基于人工智能的病例大数据管理方法,其特征在于,基于深度学习算法提取病例图像数据特征包括以下步骤:
S21,确认用于作为训练集的病例图像的超声检查技术类型和图像采集设备,并生成对应的超声检查技术类型标签和图像采集设备标签;基于该训练集中的病例图像及对应标签进行训练,得到图像特征深度神经网络模型;
S22,用已训练的深度神经网络模型对样本集里的病例图像进行自动识别、并输出样本集中病例图像对应的超声检查技术类型标签和图像采集设备标签。
S23,提取通过S22的所有特征信息和标注数据,并添加到已有的深度神经网络模型的训练集中并进行训练;
S24,重复S22-S23的操作步骤,使深度神经网络模型随着训练数据集的增加而不断被训练加强,并输出自动识别的超声检查技术类型标签和图像采集设备标签。
8.如权利要求1所述的一种基于人工智能的病例大数据管理方法,其特征在于,步骤S3中根据病例文本数据特征和病例图像数据特征对病例图像标注标签包括以下步骤:
首先筛选超声检查报告,判断该超声检查报告中是否存在有效的超声报告图像;
当超声检查数据中存在有效的超声报告图像数据时,判断对应的超声诊断是否与病理检查数据相对应。若无法对应,重新回到判断和改绑超声检查数据的步骤;若是相对应的,则进一步分别判断超声检查数据和病理检查数据中对应的超声文本数据及病理文本数据的特征信息是否解析正确;
将解析正确的超声解析结论作为超声标签、病理解析结论作为病理标签后,进一步判断对应的超声图像是否可用;若超声图像不可用则回到判断是否可改绑超声检查数据的步骤;若超声图像可用,则进一步判断超声图像是否具有已标注的标签,若没有,将确定的超声标签和病理标签对该超声图像进行标注;若有已标注的标签,则将确定的超声标签进行标注,病理标签进行追加标注,并添加的超声检查技术类型标签和图像采集设备标签,从而完成对目标病例数据的标签标注。
9.如权利要求8所述的一种基于人工智能的病例大数据管理方法,其特征在于,分别判断超声检查数据和病理检查数据中对应的超声文本数据及病理文本数据的特征信息是否解析正确包括以下步骤:
对于超声文本数据的特征信息,若存在位置和/或占位词解析不正确,判定为超声解析错误;若位置以及占位词都解析正确时,进一步判断每个位置是否正确以及占位词的结论是否正确;
若有至少一个位置不正确以及占位词的结论不正确,判定为超声解析错误;若每个位置都正确以及占位词的结论都正确,则进一步判断每个结论的疑似词是否正确;
若结论的疑似词不正确,判定为超声解析错误;若结论的疑似词都正确,则将超声解析结论作为超声标签;
对于判定为超声解析错误的数据,进一步判断数据中的具体位置和占位信息是否唯一,若不唯一,将该数据标记为“不可用”的无效数据;若唯一,则将对应的超声解析结论作为超声标签;
对于病理文本数据的特征信息,首先判断位置是否解析正确,若位置解析不正确,判定为病理解析错误;若位置解析正确,进一步判断每个位置的结论是否正确,若位置结论不正确,判定为病理解析错误,若位置结论正确,则进一步判断每个结论疑似词是否正确;若结论疑似词不正确,则判定为病理解析错误,若结论疑似词正确,则将病理解析结论作为病理标签;
对于判定为病理解析错误的数据,进一步判断数据中的具体位置和占位信息是否唯一,若不唯一,将该数据标记为“不可用”的无效病理数据;若唯一,则将对应的病理解析结论作为病理标签。
10.一种基于人工智能的病例大数据管理系统,其特征在于,该病例管理大数据系统包括云服务器、数据导入模块、特征提取模块、数据标注模块以及大数据管理模块,
其中云服务器用于存储在该病例管理大数据系统中产生的所有数据,并将数据与其余模块之间进行通信传输;数据导入模块用于收集与乳腺相关的病例关联数据,在对病例关联数据完成预检查和预处理后生成病例数据集合,并将其导入并保存在系统数据库中;
特征提取模块用于从乳腺相关病例数据集合中提取病例数据特征,得到病例文本数据特征和病例图像数据特征;
数据标注模块,用于根据病例文本数据特征和病例图像数据特征对病例图像标注标签,从而将抽取得到的特征对应的结构化元数据作为标签赋予病例数据,并存储为结构化病例大数据信息;
大数据管理模块用于对结构化病例大数据进行质量管理和维护,并将病例大数据根据多应用需求进行整合。
CN202111348770.1A 2021-11-15 2021-11-15 一种基于人工智能的病例大数据管理方法和系统 Active CN114255835B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111348770.1A CN114255835B (zh) 2021-11-15 2021-11-15 一种基于人工智能的病例大数据管理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111348770.1A CN114255835B (zh) 2021-11-15 2021-11-15 一种基于人工智能的病例大数据管理方法和系统

Publications (2)

Publication Number Publication Date
CN114255835A true CN114255835A (zh) 2022-03-29
CN114255835B CN114255835B (zh) 2023-07-28

Family

ID=80790889

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111348770.1A Active CN114255835B (zh) 2021-11-15 2021-11-15 一种基于人工智能的病例大数据管理方法和系统

Country Status (1)

Country Link
CN (1) CN114255835B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708952A (zh) * 2022-06-02 2022-07-05 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种图像标注方法、装置、存储介质和电子设备
CN115641932A (zh) * 2022-12-05 2023-01-24 北京百奥知医药科技有限公司 一种多源病例数据处理方法及装置
CN116759040A (zh) * 2023-08-17 2023-09-15 北方健康医疗大数据科技有限公司 一种用于医疗大数据的数据治理系统及方法

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100056946A1 (en) * 2008-08-27 2010-03-04 Lifeline Biotechnologies, Inc. System for analyzing thermal data based on breast surface temperature to determine suspect conditions
US20100056945A1 (en) * 2008-08-27 2010-03-04 Lifeline Biotechnologies, Inc. Methods for collecting and analyzing thermal data based on breast surface temperature to determine suspect conditions
CN102365641A (zh) * 2009-03-26 2012-02-29 皇家飞利浦电子股份有限公司 基于诊断信息自动检索报告模板的系统
CN104598764A (zh) * 2015-02-16 2015-05-06 上海市疾病预防控制中心 基于电子病历实现异常病例和事件数据监测的系统及方法
CN106203488A (zh) * 2016-07-01 2016-12-07 福州大学 一种基于受限玻尔兹曼机的乳腺图像特征融合方法
CN107463786A (zh) * 2017-08-17 2017-12-12 王卫鹏 基于结构化报告模板的医学影像知识库建立方法
US20200125574A1 (en) * 2018-10-18 2020-04-23 Oracle International Corporation Smart content recommendations for content authors
US20200211692A1 (en) * 2018-12-31 2020-07-02 GE Precision Healthcare, LLC Facilitating artificial intelligence integration into systems using a distributed learning platform
CN112529900A (zh) * 2020-12-29 2021-03-19 广州华端科技有限公司 匹配乳腺图像中roi的方法、装置、终端与存储介质
CN112669928A (zh) * 2021-01-06 2021-04-16 腾讯科技(深圳)有限公司 结构化信息构建方法、装置、计算机设备及存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100056946A1 (en) * 2008-08-27 2010-03-04 Lifeline Biotechnologies, Inc. System for analyzing thermal data based on breast surface temperature to determine suspect conditions
US20100056945A1 (en) * 2008-08-27 2010-03-04 Lifeline Biotechnologies, Inc. Methods for collecting and analyzing thermal data based on breast surface temperature to determine suspect conditions
CN102365641A (zh) * 2009-03-26 2012-02-29 皇家飞利浦电子股份有限公司 基于诊断信息自动检索报告模板的系统
CN104598764A (zh) * 2015-02-16 2015-05-06 上海市疾病预防控制中心 基于电子病历实现异常病例和事件数据监测的系统及方法
CN106203488A (zh) * 2016-07-01 2016-12-07 福州大学 一种基于受限玻尔兹曼机的乳腺图像特征融合方法
CN107463786A (zh) * 2017-08-17 2017-12-12 王卫鹏 基于结构化报告模板的医学影像知识库建立方法
US20200125574A1 (en) * 2018-10-18 2020-04-23 Oracle International Corporation Smart content recommendations for content authors
US20200211692A1 (en) * 2018-12-31 2020-07-02 GE Precision Healthcare, LLC Facilitating artificial intelligence integration into systems using a distributed learning platform
CN112529900A (zh) * 2020-12-29 2021-03-19 广州华端科技有限公司 匹配乳腺图像中roi的方法、装置、终端与存储介质
CN112669928A (zh) * 2021-01-06 2021-04-16 腾讯科技(深圳)有限公司 结构化信息构建方法、装置、计算机设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
徐志鹏: "面向深度学习应用的医学影像快速标注系统的研究与实现", no. 3, pages 060 - 7 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114708952A (zh) * 2022-06-02 2022-07-05 合肥综合性国家科学中心人工智能研究院(安徽省人工智能实验室) 一种图像标注方法、装置、存储介质和电子设备
CN115641932A (zh) * 2022-12-05 2023-01-24 北京百奥知医药科技有限公司 一种多源病例数据处理方法及装置
CN116759040A (zh) * 2023-08-17 2023-09-15 北方健康医疗大数据科技有限公司 一种用于医疗大数据的数据治理系统及方法
CN116759040B (zh) * 2023-08-17 2024-01-09 北方健康医疗大数据科技有限公司 一种用于医疗大数据的数据治理系统及方法

Also Published As

Publication number Publication date
CN114255835B (zh) 2023-07-28

Similar Documents

Publication Publication Date Title
CN114255835B (zh) 一种基于人工智能的病例大数据管理方法和系统
CN110335665B (zh) 一种应用于医学图像辅助诊断分析的以图搜图方法及系统
US7607079B2 (en) Multi-input reporting and editing tool
CN105528529B (zh) 基于大数据分析的中医临床技能评价体系的数据处理方法
CN111986770A (zh) 药方用药审核方法、装置、设备及存储介质
CN110136837B (zh) 一种医疗数据处理平台
US20060142647A1 (en) Diagnosis aiding apparatus, method, and computer program
CN112309576A (zh) 基于深度学习ct影像组学的结直肠癌生存期预测方法
CN113243033A (zh) 综合诊断系统和方法
CN112349369A (zh) 医疗影像大数据智能分析方法、系统及存储介质
CN105956412A (zh) 基于智能图文识别实现冠心病临床数据收集的系统及方法
CN111524570B (zh) 一种基于机器学习的超声随访患者筛选方法
Halim et al. Artificial intelligent models for breast cancer early detection
CN116434899A (zh) 一种基于多源数据的健康档案信息平台建立方法
CN109359838A (zh) 一种利用HACs算法的监测医疗质量评价系统
CN113705318B (zh) 基于图像的识别方法、装置、设备及可读存储介质
CN111724873B (zh) 一种数据处理方法及装置
CN114998203A (zh) 一种基于人工智能的职业性尘肺病精准诊断系统及方法
Wah et al. Development of a data warehouse for lymphoma cancer diagnosis and treatment decision support
Nour Artificial Intelligence (AI) for Improving Performance at the Cutting Edge of Medical Imaging
CN110223760B (zh) 一种医疗影像信息采集与融合方法及系统
Bozhenko et al. Application of Data Preprocessing in Medical Research
EP4156021A1 (en) A method and system for annotation of medical images
Jadhav et al. Comparative Study of breast cancer detection methods
Ahatsham et al. An efficient system for early diagnosis of breast cancer using support vector machine

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant