CN112786129A - 病例数据的分析方法、装置、电子设备及存储介质 - Google Patents

病例数据的分析方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN112786129A
CN112786129A CN202010197867.6A CN202010197867A CN112786129A CN 112786129 A CN112786129 A CN 112786129A CN 202010197867 A CN202010197867 A CN 202010197867A CN 112786129 A CN112786129 A CN 112786129A
Authority
CN
China
Prior art keywords
data
case
machine learning
learning algorithm
text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202010197867.6A
Other languages
English (en)
Inventor
朱卫国
姜会珍
由丽孪
赵从朴
徐娜
李源杰
王玉
曾学军
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Original Assignee
Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Peking Union Medical College Hospital Chinese Academy of Medical Sciences filed Critical Peking Union Medical College Hospital Chinese Academy of Medical Sciences
Priority to CN202010197867.6A priority Critical patent/CN112786129A/zh
Publication of CN112786129A publication Critical patent/CN112786129A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Medical Informatics (AREA)
  • Public Health (AREA)
  • Health & Medical Sciences (AREA)
  • Primary Health Care (AREA)
  • Software Systems (AREA)
  • Epidemiology (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Pathology (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Biomedical Technology (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

本公开提供的病例数据的分析方法、装置、电子设备及存储介质,通过获得包括用户的病历文本以及检验数据的病例数据,对病例数据进行特征提取,获得特征数据;利用机器学习算法模型,对特征数据进行分析,获得病例数据对应病例分类结果;输出所述病例分类结果。针对在疫情爆发等特殊时期,通过线上对病例数据进行分析和分类,能够在一定程度上为线上医疗服务提供有效支撑。

Description

病例数据的分析方法、装置、电子设备及存储介质
技术领域
本公开实施例涉及计算机技术领域,尤其涉及一种的病例数据的分析方法、装置、电子设备及存储介质。
背景技术
随着计算机技术的不断发展,对于病例数据的线上处理能够在一定程度上为医疗服务提供有效支持。
在现有技术中,病例数据被上传至线上服务端,以便于医生用过线上服务端获取病例数据并进行基于人工数据分析,进而为用户提供远程医疗服务。
但是,这样的处理方式显然需要依赖人工,其处理效率并不高。
发明内容
针对上述问题,本公开提供了一种病例数据的分析方法、装置、电子设备及存储介质。
第一方面,本公开提供了一种病例数据的分析方法,包括:
获得用户的病例数据,所述病例数据包括用户的病历文本以及检验数据;
对所述病例数据进行特征提取,获得特征数据;
利用机器学习算法模型,对特征数据进行分析,获得病例数据对应病例分类结果;
输出所述病例分类结果。
在可选的实施方式中,所述对所述病例数据进行特征提取,获得特征数据,包括:
对所述病例数据中的病历文本进行提取,获得文本特征,所述文本特征用于表示用户的临床表现;
对所述病例数据中的检验数据进行特征提取,获得检验数据的数值特征或类别特征;其中,所述数值特征用于表示检验数据的数值指标表现,所述类别特征用于检验数据的分类指标表现。
在可选的实施方式中,所述对所述病例数据中的检验数据进行特征提取,获得检验数据的数值特征或类别特征,包括:
确定检验数据的检验类型;
根据所述检验数据的检验类型,确定对所述检验数据进行特征提取的特征提取方式,以获得其相应提取方式下的数值特征或类别特征。
在可选的实施方式中,对所述病例数据中的检验数据进行特征提取,获得检验数据的数值特征,包括:
对所述检验数据中的数值单位的一致性处理;
将一致性处理后的检验数据的数值,作为所述数值特征的特征值。
在可选的实施方式中,对所述病例数据中的检验数据进行特征提取,获得检验数据的类别特征,包括:
对所述检验数据中的分类指标进行提取,获得分类指标的离散型数据;
对所述离散型数据进行标准化处理,得到离散编码,将所述离散编码作为所述类别特征的特征值。
在可选的实施方式中,所述对所述病例数据中的病历文本进行提取,获得文本特征,包括:
对所述病历文本进行分词处理,获得多个分词;
将所述多个分词映射至预设的分词维度上,获得文本编码,将所述文本编码作为所述文本特征的特征值。
在可选的实施方式中,所述将所述多个分词映射至预设的分词维度上,获得文本编码,包括:
针对预设的分词维度中的每一分词维度,对所述多个分词进行遍历处理,确定所述病历文本是否与该分词维度的特征匹配;其中,所述每一分词维度用于表示出现在历史病历文本中的高频词的分词特征;
根据所述病历文本与各分词维度的特征匹配结果,获得文本编码。
在可选的实施方式中,所述获得用户的病例数据,包括:
对所述病例数据进行数据清洗处理,以获得病历文本,以及预设检验类型下的检验数据;其中,所述预设检验类型是根据历史检验数据中检验类型的出现频率确定。
在可选的实施方式中,还包括:
建立待训练的机器学习算法模型,并采集训练样本;其中,所述训练样本包括多个用户的病例样本数据以及对每个病例样本数据进行标注获得的病例样本分类结果,每个病例样本数据中包括病历文本以及检验数据;
对所述训练样本进行样本划分,获得训练集和验证集;
利用所述训练集对所述待训练的机器学习算法模型进行训练,并利用验证集对该训练后的机器学习算法模型进行优化;
对利用所述训练集对优化后的待训练的机器学习算法模型再次进行训练,并利用验证集对该训练后的机器学习算法模型进行优化,重复训练和优化直至利用验证集对训练后的机器学习算法模型进行验证后得到的验证结果符合预设结果,并得到训练完毕的机器学习算法模型。
在可选的实施方式中,所述机器学习算法模型包括梯度提升决策树模型。
第二方面,本公开提供了一种病例数据的分析装置,包括:
数据获取模块,用于获得用户的病例数据,所述病例数据包括用户的病历文本以及检验数据;
特征提取模块,用于对所述病例数据进行特征提取,获得特征数据;
模型处理模块,用于利用机器学习算法模型,对特征数据进行分析,获得病例数据对应病例分类结果;
输出模块,用于输出所述病例分类结果。
在可选的实施方式中,还包括:样本构造模块;
其中,所述样本构造模块用于采集训练样本;其中,所述训练样本包括多个用户的病例样本数据以及对每个病例样本数据进行标注获得的病例样本分类结果,每个病例样本数据中包括病历文本以及检验数据;对所述训练样本进行样本划分,获得训练集和验证集;
所述模型处理模块还用于建立待训练的机器学习算法模型,并利用所述训练集对所述待训练的机器学习算法模型进行训练,并利用验证集对该训练后的机器学习算法模型进行优化;对利用所述训练集对优化后的待训练的机器学习算法模型再次进行训练,并利用验证集对该训练后的机器学习算法模型进行优化,重复训练和优化直至利用验证集对训练后的机器学习算法模型进行验证后得到的验证结果符合预设结果,并得到训练完毕的机器学习算法模型。
第三方面,本公开提供了一种电子设备,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如前任一项所述的方法。
第四方面,本公开提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如前任一项所述的方法。
本公开提供的病例数据的分析方法、装置、电子设备及存储介质,通过获得包括用户的病历文本以及检验数据的病例数据,对病例数据进行特征提取,获得特征数据;利用机器学习算法模型,对特征数据进行分析,获得病例数据对应病例分类结果;输出所述病例分类结果。针对在疫情爆发等特殊时期,通过线上对病例数据进行分析和分类,能够在一定程度上为线上医疗服务提供有效支撑,以实现对用户的病例数据进行前期归类或辅助归类,从而便于用户在线上对自身状态的自检处理,以及用户的医疗接口分流处理。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本公开所基于的一种网络架构的示意图;
图2为本公开所基于的另一种网络架构的示意图;
图3是本公开提供的一种病例数据的分析方法的流程示意图;
图4是本公开提供的一种病例数据的分析方法的界面示意图;
图5是本公开提供的另一种病例数据的分析方法的流程示意图;
图6是本公开提供的又一种病例数据的分析方法的流程示意图;
图7为本公开提供的一种病例数据的分析方法中模型训练的示意图;
图8为本公开实施例提供的病例数据的分析装置的结构框图;
图9为本公开实施例提供的电子设备的硬件结构示意图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
随着计算机技术的不断发展,对于病例数据的线上处理能够在一定程度上为医疗服务提供有效支持。
在现有技术中,病例数据被上传至线上服务端,以便于医生用过线上服务端获取病例数据并进行基于人工数据分析,进而为用户提供远程医疗服务。
但是,这样的处理方式显然需要依赖人工,其处理效率并不高。
面对这样的技术问题,本公开提供的方案获得包括用户的病历文本以及检验数据的病例数据,对病例数据进行特征提取,获得特征数据;利用机器学习算法模型,对特征数据进行分析,获得病例数据对应病例分类结果,从而可输出该分析获得的病例分类结果。采用该方案能够针对获得的病例数据进行自动化分析,而不再依赖人工处理。同时,由于利用了机器学习算法模型进行特征分析,其获得的病例分类结果准确性较高,也有利于避免人工分析带来的分析误差。
同时,本公开提供的方案在很多场景下,该病理分类结果将起到很好的辅助作用:
参考图1,图1为本公开所基于的一种网络架构的示意图,该图1所示网络架构具体可包括客户端1以及病例数据的分析装置2。
其中,客户端1具体可为用户手机、台式电脑、智能家居设备、平板电脑等可用于将病例数据进行上传的硬件设备,而病例数据的分析装置2是可与用户端1通过网络进行交互的硬件或软件,其可用于执行下述各示例中所述分析方法,以将从用户端1获得的病例数据进行分析,以得到包括病例分析结果并向用户端1进行输出。
参考图2,图2为本公开所基于的另一种网络架构的示意图,该图2所示网络架构具体可包括输入端1、病例数据的分析装置2以及输出端3。
其中,输入端1和输出端3具体可为用户手机、台式电脑、智能家居设备、平板电脑等可用于将病例数据进行上传的硬件设备,而病例数据的分析装置2是可与输入端1以及输出端3通过网络进行交互的硬件或软件,其可用于执行下述各示例中所述分析方法,以将从输入端1获得的病例数据进行分析,以得到包括病例分析结果并向输出端3进行输出。
在上述图1或图2所示的网络架构中,当病例数据的分析装置2为硬件时,其可包括具备运算功能的云端服务器;当病例数据的分析装置2为软件时,其可以安装在具备运算功能的电子设备中,其中的电子设备包括但不限于膝上型便携计算机和台式计算机等等。
也就是说,本公开所基于的病例数据的分析方法具体可基于如图1或2所示的实施例中,适用于多种应用场景,该应用场景包括但不限于:线上病例数据分类处理、医疗接口分流或分诊、辅助诊疗等。
其中,在线上病例数据分类处理的场景中,病例数据的分析装置2可设置在云端,其网络架构可采用如图1所示的架构,其中的用户端1具体可为用户(患者或医生)的手机、电脑、平板电脑等设备,通过将用户端1用户(患者或医生)可将病例数据上传至病例数据的分析装置2,以使其进行分析处理得到病例分类结果,然后,病例数据的分析装置2会将该病例分类结果反馈给用户的用户端1,以使用户(患者或医生)获得病例分类结果,以做出反应。
在医疗接口分流或分诊的场景中,病例数据的分析装置2可设置医院分诊台或加载于医疗应用程序中,其网络架构可采用如与1所示的架构,当用户(患者)前往医院分诊台进行分诊时,或,基于医疗应用程序进行分类挂号时,均可将病例数据发送或上传至病例数据的分析装置2,分析装置将基于病例数据进行分析处理,并给出用户(患者)的病例分类结果,该病例分类结果可被展示在医院分诊台的病例数据的分析装置2上,也可通过网络将其发送至用户(患者)的医疗应用程序上以被查看。
在线上的辅助诊疗的场景中,病例数据的分析装置2可设置在云端,其网络架构可采用如与2所示的架构,用户1(患者)可通过输入端1上传自身病例数据至病例数据的分析装置,然后,由分析装置对其进行分析,并将病例分类结果发送至输出端,用户2(医生)可通过输出端3获取到病例分类结果,以便于进行对用户1(患者)进行辅助诊疗。
特别来说,考虑到一些特殊时期(如疫情爆发),线上或远程诊疗是不可或缺的,通过本公开提供的方案能够通过线上对病例数据进行分析和分类,实现对用户的病例数据进行前期归类或辅助归类,从而便于用户在线上对自身状态的自检处理,以及用户在线上医疗接口的分流处理,其能够在一定程度上为线上医疗服务提供有效支撑。
第一方面,图3是本公开提供的一种病例数据的分析方法的流程示意图,如图3所示的,该分析方法包括:
步骤101、获得用户的病例数据,所述病例数据包括用户的病历文本以及检验数据。
本公开提供的病例数据的分析方法的执行主体为前述的病例数据的分析装置。
首先,分析装置将获得用户的病例数据,该病例数据具体可为用户通过客户端或输入端上传获得的,也可为与医院的病例数据库进行交互后抓取获得的。
一般来说,获取的病例数据中可能包括有大量用户信息,如姓名、年龄、身高、病历文本以及检验数据等等。
在可选实施方式中,首先可对病例数据进行脱敏,即去掉如姓名、年龄、身高等与本公开提供的分析方法中不涉及的信息。随后,可对脱敏后的数据进行一定的数据清洗,以得到用户的病历文本以及检验数据。
进一步的,对病历文本和检验数据的数据清洗是不同的。
针对检验数据的数据清洗来说,由于临床的检验类型众多,每个用户(患者)所检验的检验类型是不同的,不同检验类型下的检验细项也很繁杂,这就使得在临床的检验数据中包括有海量维度的数据。在本公开中,为了保证数据处理效率,将对检验数据进行数据清洗,以使的各检验类型出现频率较高的检验类型被保留,而出现频率较低的检验数据将被过滤。其中,对于保留和过滤的划分是基于预设频率确定的。
针对于病历文本的数据清洗来说,为了便于后续处理,可首先提取主要文字内容,然后采用正则的方式过滤掉标点、特殊字符等无效内容,再后对文字内容中的同义词、别名词进行归一化处理,例如:将“3星期”、“三周”等描述词统一归一化为“3周”,最终得到病历文本。
步骤102、对所述病例数据进行特征提取,获得特征数据。
具体来说,为了便于理解,首先可病例数据中的病历文本和检验数据进行解释:
病历文本是指用户(患者)自述的自身身体情况,如“已经发烧1周、泻并且丧失食欲”等。而检验数据则可为用户(患者)在临床检验时获得的数据,其中的临床检查包括但不限于抽血、X光、核磁共振等,相应的检验数据则可包括血液检验数据、X光检验数据、核磁共振检验数据等。
在本步骤中,可对所述病例数据中的病历文本进行提取,获得文本特征,所述文本特征用于表示用户的临床表现;还可对所述病例数据中的检验数据进行特征提取,获得检验数据的数值特征或类别特征。
其中,所述数值特征用于表示检验数据的数值指标表现,白细胞计数值、血色素值等,所述类别特征用于检验数据的分类指标表现,如甲肝阴性等。
步骤103、利用机器学习算法模型,对特征数据进行分析,获得病例数据对应病例分类结果。
步骤104、输出所述病例分类结果。
具体来说,在步骤103和步骤104中,可基于机器学习算法模型,对前述获得的特征数据进行处理,即将特征数据输入至机器学习算法模型,从而输出病例分类结果。
下面将以具体场景示例对本公开提供的方案进行说明:
图4是本公开提供的一种病例数据的分析方法的界面示意图,如图4所示的,若将本公开提供的方案用于辅助诊疗的场景。在图4所示的场景中,用户(患者)可直接将自身的病例数据通过小程序或应用程序上传至承载有分析装置的服务器中,以供服务器进行处理生成病例分类结果,当小程序或应用程序获得到该病例分类结果之后,可展示该病例分类结果并为用户(患者)进行相应的指导或做出相应的医疗建议。
此外,针对本申请提供的方案,还可适用于,在临床医疗场景:
用户(患者)常常会出现发热的情况,由于长期发热症状是很多疾病的共用症状,在对于患者进行发热定因时,对于医生的职业素养和职业经验要求很高。在这种情况下,职业素养和经验较差的医生可能很久都无法确定患者发热的原因,导致误诊或延误病情。在此场景下,则可利用本公开提供的方法以对患者进行辅助诊疗。
具体来说,本公开提供的机器学习算法模型可用于对发热的定因进行分析,其病例分类结果可划分为“感染、免疫、肿瘤和其他”。在获取患者的病历文本以及检验数据之后,分析装置将对其进行特征提取,以得到特征数据,进而利用前述的可用于对发热进行定因的机器学习算法模型对特征数据进行处理,得到发热的定因分类的输出结果,该结果可供医生进行参考,实现辅助诊疗。
本公开提供的病例数据的分析方法,通过获得包括用户的病历文本以及检验数据的病例数据,对病例数据进行特征提取,获得特征数据;利用机器学习算法模型,对特征数据进行分析,获得病例数据对应病例分类结果;输出所述病例分类结果。针对在疫情爆发等特殊时期,通过线上对病例数据进行分析和分类,能够在一定程度上为线上医疗服务提供有效支撑。
在上述实施例的基础上,为了进一步获得准确的特征数据,使得利用机器学习算法模型得到的病例分类结果更为精准,图5是本公开提供的另一种病例数据的分析方法的流程示意图,如图5所示的,在该分析方法中,包括:
步骤201、获得用户的病例数据,所述病例数据包括用户的病历文本以及检验数据;
步骤202、确定检验数据的检验类型,根据所述检验数据的检验类型,确定对所述检验数据进行特征提取的特征提取方式,以获得其相应提取方式下的数值特征或类别特征;
步骤203、对所述病历文本进行分词处理,获得多个分词,将所述多个分词映射至预设的分词维度上,获得文本编码,将所述文本编码作为所述文本特征的特征值;
步骤204、利用机器学习算法模型,对特征数据进行分析,获得病例数据对应病例分类结果;
步骤205、输出所述病例分类结果。
本公开提供的病例数据的分析方法的执行主体为病例数据的分析装置。
与前述实施例类似的是,分析装置首先需要获得用户的病例数据,随后,需要对病例数据进行特征提取,得到特征数据,然后利用机器学习算法模型对特征数据进行分析,获得病例分类结果。其中的步骤201、204以及205与前述实施例中的步骤101、103以及104类似,在此不进行赘述。
与前述实施例不同的是,前述的对所述病例数据进行特征提取,获得特征数据的具体实现方式可为步骤202和步骤203。其中,步骤202和步骤203的执行顺序可为依次执行,也可为并行,本实施例对此不进行限制,同时,在其他实现方式中,可先执行步骤203,在执行步骤202。
在具体实现上,针对检验数据的特征提取是基于检验数据的检验类型实现的。如前所述的,检验类型可例如,血液检验、X光检验等等。针对于不同检验类型的检验数据,其提取方式是不同的:
针对于如临床检验中的客观数值指标,如白细胞数量,中性粒细胞百分比,血沉指标等,其采用数值特征的提取方式;针对于临床检验中的分类指标,例如阴性、阳性等离散型描述,其采用类别特征的提取方式。
进一步来说,在数值特征提取过程中,由于数据容易出现数值单位不一致的情况,为了保证后续处理的顺利进行,还需要在提取数值特征之前,对所述检验数据中的数值单位的一致性处理,以使得同一检验项目中相同量级的单位是一致的,如“毫克单位和微克单位统一为微克单位”。随后,将一致性处理后的检验数据的数值,作为所述数值特征的特征值。
进一步来说,在类别特征提取过程中,由于类别特征主要是临床检验中的分类指标,例如阴性、阳性等离散型描述。
因此,首先可对所述检验数据中的分类指标进行提取,获得分类指标的离散型数据。然后,对所述离散型数据进行标准化处理,得到离散编码,将所述离散编码作为所述类别特征的特征值。
一般的,可采用业界常用的LabelEncoder编码将这些离散型数据进行标准化(对不连续的数字或者文本进行从0开始的编号)。例如,阴性、阳性分别编码为0、1,把编码作为特征值,得到类别特征。
此外,针对病历文本的特征提取是基于分词处理技术实现的,具体的,对所述病历文本进行分词处理,获得多个分词;将所述多个分词映射至预设的分词维度上,获得文本编码,将所述文本编码作为所述文本特征的特征值。可选的,可采用BERT技术对患者的病历文本进行分词
例如,针对“我一直发烧39度,并且头疼,心悸”这一病历文本,可将其进行分词处理获得“我”“一直”“发烧39度”“并且”“头疼”“心悸”。
然后对这些分词进行映射处理,其中,该将所述多个分词映射至预设的分词维度上,获得文本编码,具体包括:针对预设的分词维度中的每一分词维度,对所述多个分词进行遍历处理,确定所述病历文本是否与该分词维度的特征匹配;其中,所述每一分词维度用于表示出现在历史病历文本中的高频词的分词特征;根据所述病历文本与各分词维度的特征匹配结果,获得文本编码。
例如,根据历史病历文本中的高频词一般是拥有医学意义的词汇,如“头疼”“胸闷”“心悸”“发烧”等。这些高频词构建的分词维度可标识为[头疼,胸闷,心悸,发烧]在处理时,可利用各高频词对分词进行遍历,与之匹配的病历文本的分词包括“头疼”“心悸”和“发烧”,因此,基于该匹配结果获得的文本编码可为[1,0,1,1]。
其中,预设的高频词是综合考虑每个历史病历文本中词的词频和医学意义,挑选出前100个比较重要且具有高泛化性的次。而对于文本编码来说,可采用的是业界常用的OneHotEncoder编码的一种变体。
最后,与前述实施例类似的是利用机器学习算法模型,对特征数据进行分析,获得病例数据对应病例分类结果,输出所述病例分类结果。
在前述实施例的基础上,本公开提供的实施例通过采用不同特征提取的方式,对病例数据中的文本特征、分类特征以及数值特征进行提取,从而提高基于这些特征获得的病例分类结果的准确性。
在上述实施例的基础上,为了进一步获得准确的特征数据,使得利用机器学习算法模型得到的病例分类结果更为精准,图6是本公开提供的又一种病例数据的分析方法的流程示意图,如图6所示的,在该分析方法中,包括:
步骤301、建立待训练的机器学习算法模型,并采集训练样本;其中,所述训练样本包括多个用户的病例样本数据以及对每个病例样本数据进行标注获得的病例样本分类结果,每个病例样本数据中包括病历文本以及检验数据;
步骤302、对所述训练样本进行样本划分,获得训练集和验证集;
步骤303、利用所述训练集对所述待训练的机器学习算法模型进行训练,并利用验证集对该训练后的机器学习算法模型进行优化;
步骤304、对利用所述训练集对优化后的待训练的机器学习算法模型再次进行训练,并利用验证集对该训练后的机器学习算法模型进行优化,重复训练和优化直至利用验证集对训练后的机器学习算法模型进行验证后得到的验证结果符合预设结果,并得到训练完毕的机器学习算法模型。
步骤305、获得用户的病例数据,所述病例数据包括用户的病历文本以及检验数据;
步骤306、对所述病例数据进行特征提取,获得特征数据;
步骤307、利用机器学习算法模型,对特征数据进行分析,获得病例数据对应病例分类结果;
步骤308、输出所述病例分类结果。
本公开实施例提供的分析方法的执行主体为前述的病例数据的分析装置。与前述实施例不同的是,本实施例中还包括有对于机器学习算法模型的建立过程。
具体来说,所述机器学习算法模型包括梯度提升决策树模型(也称LightGBM),此外,其还可为其他学习模型如XGBoost、深度学习等方法。建立待训练的机器学习算法模型,并采集训练样本;其中,所述训练样本包括多个用户的病例样本数据以及对每个病例样本数据进行标注获得的病例样本分类结果,每个病例样本数据中包括病历文本以及检验数据。
其中还需要对病历文本以及检验数据依次进行如前述实施例所述的脱敏、数据清洗和特征提取等操作,以获得病例样本数据的特征数据。
由于病例样本数据中包括大量的特征数据,因此,还需要对训练样本进行样本划分,获得训练集和验证集;然后利用所述训练集对所述待训练的机器学习算法模型进行训练,并利用验证集对该训练后的机器学习算法模型进行优化。对利用所述训练集对优化后的待训练的机器学习算法模型再次进行训练,并利用验证集对该训练后的机器学习算法模型进行优化,重复训练和优化直至利用验证集对训练后的机器学习算法模型进行验证后得到的验证结果符合预设结果,并得到训练完毕的机器学习算法模型。
图7为本公开提供的一种病例数据的分析方法中模型训练的示意图,如图7所示的,在训练时,可将训练集中的特征数据输入模型,以使模型内的参数被调整,输出分布式的决策树结构,然后基于验证集对于决策树结构进行准确率验证,并基于验证结果选择处理方式。其中,当验证结果为符合预期准确率时,可将此时的模型进行输出,作为本公开前述提及的机器学习算法模型;当验证结果为不符合预期准确率时,可对模型内的超参数进行调优,以形成优化后的模型,随后,利用训练集再次对其进行训练。重复该过程直至验证结果符合预期准确率。此外,前述病例样本数据是随机分组的,其中80%作为训练集,20%作为验证集。
再后,可利用如前实施例所述的方式执行305-308,本实施例对此不进行赘述。
本实施例通过数据验证,本公开提供的额方案最终可达到Top1分类预测准确率为80.5%,Top2分类预测准确率为95.4%。
对应于上文实施例的病例数据的分析方法,图8为本公开实施例提供的病例数据的分析装置的结构框图。为了便于说明,仅示出了与本公开实施例相关的部分。参照图8,所述病例数据的分析装置包括:数据获取模块10、特征提取模块20、模型处理模块30和输出模块40。
其中,数据获取模块10,用于获得用户的病例数据,所述病例数据包括用户的病历文本以及检验数据;
特征提取模块20,用于对所述病例数据进行特征提取,获得特征数据;
模型处理模块30,用于利用机器学习算法模型,对特征数据进行分析,获得病例数据对应病例分类结果;
输出模块40,用于输出所述病例分类结果。
可选的,所述数据获取模块10具体用于:对所述病例数据中的病历文本进行提取,获得文本特征,所述文本特征用于表示用户的临床表现;对所述病例数据中的检验数据进行特征提取,获得检验数据的数值特征或类别特征;其中,所述数值特征用于表示检验数据的数值指标表现,所述类别特征用于检验数据的分类指标表现。
可选的,特征提取模块20,用于确定检验数据的检验类型;根据所述检验数据的检验类型,确定对所述检验数据进行特征提取的特征提取方式,以获得其相应提取方式下的数值特征或类别特征。
可选的,特征提取模块20,用于对所述检验数据中的数值单位的一致性处理;将一致性处理后的检验数据的数值,作为所述数值特征的特征值。
可选的,特征提取模块20,用于对所述检验数据中的分类指标进行提取,获得分类指标的离散型数据;对所述离散型数据进行标准化处理,得到离散编码,将所述离散编码作为所述类别特征的特征值。
可选的,特征提取模块20,具体用于:对所述病历文本进行分词处理,获得多个分词;将所述多个分词映射至预设的分词维度上,获得文本编码,将所述文本编码作为所述文本特征的特征值。
可选的,特征提取模块20,具体用于针对预设的分词维度中的每一分词维度,对所述多个分词进行遍历处理,确定所述病历文本是否与该分词维度的特征匹配;其中,所述每一分词维度用于表示出现在历史病历文本中的高频词的分词特征;根据所述病历文本与各分词维度的特征匹配结果,获得文本编码。
可选的,数据获取模块10,用于对所述病例数据进行数据清洗处理,以获得病历文本,以及预设检验类型下的检验数据;其中,所述预设检验类型是根据历史检验数据中检验类型的出现频率确定。
可选的,分析装置还包括:样本构造模块;
其中,所述样本构造模块用于采集训练样本;其中,所述训练样本包括多个用户的病例样本数据以及对每个病例样本数据进行标注获得的病例样本分类结果,每个病例样本数据中包括病历文本以及检验数据;对所述训练样本进行样本划分,获得训练集和验证集;
所述模型处理模块还用于建立待训练的机器学习算法模型,并利用所述训练集对所述待训练的机器学习算法模型进行训练,并利用验证集对该训练后的机器学习算法模型进行优化;对利用所述训练集对优化后的待训练的机器学习算法模型再次进行训练,并利用验证集对该训练后的机器学习算法模型进行优化,重复训练和优化直至利用验证集对训练后的机器学习算法模型进行验证后得到的验证结果符合预设结果,并得到训练完毕的机器学习算法模型。
本公开提供的病例数据的分析装置,通过获得包括用户的病历文本以及检验数据的病例数据,对病例数据进行特征提取,获得特征数据;利用机器学习算法模型,对特征数据进行分析,获得病例数据对应病例分类结果;输出所述病例分类结果。针对在疫情爆发等特殊时期,通过线上对病例数据进行分析和分类,能够在一定程度上为线上医疗服务提供有效支撑。
本实施例提供的电子设备,可用于执行上述方法实施例的技术方案,其实现原理和技术效果类似,本实施例此处不再赘述。
参考图9,其示出了适于用来实现本公开实施例的电子设备900的结构示意图,该电子设备900可以为终端设备或服务器。其中,终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、个人数字助理(Personal Digital Assistant,简称PDA)、平板电脑(Portable Android Device,简称PAD)、便携式多媒体播放器(Portable MediaPlayer,简称PMP)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图9示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图9所示,电子设备900可以包括三维手部识别装置(例如中央处理器、图形处理器等)901,其可以根据存储在只读存储器(Read Only Memory,简称ROM)902中的程序或者从存储装置908加载到随机访问存储器(Random Access Memory,简称RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中,还存储有电子设备900操作所需的各种程序和数据。三维手部识别装置901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。
通常,以下装置可以连接至I/O接口905:包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置906;包括例如液晶显示器(Liquid CrystalDisplay,简称LCD)、扬声器、振动器等的输出装置907;包括例如磁带、硬盘等的存储装置908;以及通信装置909。通信装置909可以允许电子设备900与其他设备进行无线或有线通信以交换数据。虽然图9示出了具有各种装置的电子设备900,但是应理解的是,并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置909从网络上被下载和安装,或者从存储装置908被安装,或者从ROM902被安装。在该计算机程序被三维手部识别装置901执行时,执行本公开实施例的方法中限定的上述功能。
需要说明的是,本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中,计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(射频)等等,或者上述的任意合适的组合。
上述计算机可读介质可以是上述电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。
上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被该电子设备执行时,使得该电子设备执行上述实施例所示的方法。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LocalArea Network,简称LAN)或广域网(Wide Area Network,简称WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的单元可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,单元的名称在某种情况下并不构成对该单元本身的限定,例如,第一获取单元还可以被描述为“获取至少两个网际协议地址的单元”。
本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如,非限制性地,可以使用的示范类型的硬件逻辑部件包括:现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。
在本公开的上下文中,机器可读介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

Claims (14)

1.一种病例数据的分析方法,其特征在于,包括:
获得用户的病例数据,所述病例数据包括用户的病历文本以及检验数据;
对所述病例数据进行特征提取,获得特征数据;
利用机器学习算法模型,对特征数据进行分析,获得病例数据对应病例分类结果;
输出所述病例分类结果。
2.根据权利要求1所述的分析方法,其特征在于,所述对所述病例数据进行特征提取,获得特征数据,包括:
对所述病例数据中的病历文本进行提取,获得文本特征,所述文本特征用于表示用户的临床表现;
对所述病例数据中的检验数据进行特征提取,获得检验数据的数值特征或类别特征;其中,所述数值特征用于表示检验数据的数值指标表现,所述类别特征用于检验数据的分类指标表现。
3.根据权利要求2所述的分析方法,其特征在于,所述对所述病例数据中的检验数据进行特征提取,获得检验数据的数值特征或类别特征,包括:
确定检验数据的检验类型;
根据所述检验数据的检验类型,确定对所述检验数据进行特征提取的特征提取方式,以获得其相应提取方式下的数值特征或类别特征。
4.根据权利要求3所述的分析方法,其特征在于,对所述病例数据中的检验数据进行特征提取,获得检验数据的数值特征,包括:
对所述检验数据中的数值单位的一致性处理;
将一致性处理后的检验数据的数值,作为所述数值特征的特征值。
5.根据权利要求3所述的分析方法,其特征在于,对所述病例数据中的检验数据进行特征提取,获得检验数据的类别特征,包括:
对所述检验数据中的分类指标进行提取,获得分类指标的离散型数据;
对所述离散型数据进行标准化处理,得到离散编码,将所述离散编码作为所述类别特征的特征值。
6.根据权利要求2所述的分析方法,其特征在于,所述对所述病例数据中的病历文本进行提取,获得文本特征,包括:
对所述病历文本进行分词处理,获得多个分词;
将所述多个分词映射至预设的分词维度上,获得文本编码,将所述文本编码作为所述文本特征的特征值。
7.根据权利要求6所述的分析方法,其特征在于,所述将所述多个分词映射至预设的分词维度上,获得文本编码,包括:
针对预设的分词维度中的每一分词维度,对所述多个分词进行遍历处理,确定所述病历文本是否与该分词维度的特征匹配;其中,所述每一分词维度用于表示出现在历史病历文本中的高频词的分词特征;
根据所述病历文本与各分词维度的特征匹配结果,获得文本编码。
8.根据权利要求1所述的分析方法,其特征在于,所述获得用户的病例数据,包括:
对所述病例数据进行数据清洗处理,以获得病历文本,以及预设检验类型下的检验数据;其中,所述预设检验类型是根据历史检验数据中检验类型的出现频率确定。
9.根据权利要求1-8任一项所述的分析方法,其特征在于,还包括:
建立待训练的机器学习算法模型,并采集训练样本;其中,所述训练样本包括多个用户的病例样本数据以及对每个病例样本数据进行标注获得的病例样本分类结果,每个病例样本数据中包括病历文本以及检验数据;
对所述训练样本进行样本划分,获得训练集和验证集;
利用所述训练集对所述待训练的机器学习算法模型进行训练,并利用验证集对该训练后的机器学习算法模型进行优化;
对利用所述训练集对优化后的待训练的机器学习算法模型再次进行训练,并利用验证集对该训练后的机器学习算法模型进行优化,重复训练和优化直至利用验证集对训练后的机器学习算法模型进行验证后得到的验证结果符合预设结果,并得到训练完毕的机器学习算法模型。
10.根据权利要求9所述的分析方法,其特征在于,所述机器学习算法模型包括梯度提升决策树模型。
11.一种病例数据的分析装置,其特征在于,包括:
数据获取模块,用于获得用户的病例数据,所述病例数据包括用户的病历文本以及检验数据;
特征提取模块,用于对所述病例数据进行特征提取,获得特征数据;
模型处理模块,用于利用机器学习算法模型,对特征数据进行分析,获得病例数据对应病例分类结果;
输出模块,用于输出所述病例分类结果。
12.根据权利要求11所述的分析装置,其特征在于,还包括:样本构造模块;
其中,所述样本构造模块用于采集训练样本;其中,所述训练样本包括多个用户的病例样本数据以及对每个病例样本数据进行标注获得的病例样本分类结果,每个病例样本数据中包括病历文本以及检验数据;对所述训练样本进行样本划分,获得训练集和验证集;
所述模型处理模块还用于建立待训练的机器学习算法模型,并利用所述训练集对所述待训练的机器学习算法模型进行训练,并利用验证集对该训练后的机器学习算法模型进行优化;对利用所述训练集对优化后的待训练的机器学习算法模型再次进行训练,并利用验证集对该训练后的机器学习算法模型进行优化,重复训练和优化直至利用验证集对训练后的机器学习算法模型进行验证后得到的验证结果符合预设结果,并得到训练完毕的机器学习算法模型。
13.一种电子设备,其特征在于,包括:至少一个处理器和存储器;
所述存储器存储计算机执行指令;
所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如权利要求1-10任一项所述的方法。
14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1-10任一项所述的方法。
CN202010197867.6A 2020-03-19 2020-03-19 病例数据的分析方法、装置、电子设备及存储介质 Pending CN112786129A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010197867.6A CN112786129A (zh) 2020-03-19 2020-03-19 病例数据的分析方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010197867.6A CN112786129A (zh) 2020-03-19 2020-03-19 病例数据的分析方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN112786129A true CN112786129A (zh) 2021-05-11

Family

ID=75750032

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010197867.6A Pending CN112786129A (zh) 2020-03-19 2020-03-19 病例数据的分析方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN112786129A (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806518A (zh) * 2021-09-23 2021-12-17 湖北天天数链技术有限公司 匹配方法及装置、简历推荐方法及装置
CN114431836A (zh) * 2022-04-11 2022-05-06 中南大学湘雅医院 基于人工智能的甲黑线良恶性预测系统
CN116798646A (zh) * 2023-08-17 2023-09-22 四川互慧软件有限公司 基于聚类算法的蛇伤预后预测方法、装置及电子设备

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109978022A (zh) * 2019-03-08 2019-07-05 腾讯科技(深圳)有限公司 一种医疗文本信息处理方法及装置、存储介质
CN110335653A (zh) * 2019-06-30 2019-10-15 浙江大学 基于openEHR病历格式的非标准病历解析方法
US20190318263A1 (en) * 2018-04-13 2019-10-17 International Business Machines Corporation Classifying text to determine a goal type used to select machine learning algorithm outcomes

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190318263A1 (en) * 2018-04-13 2019-10-17 International Business Machines Corporation Classifying text to determine a goal type used to select machine learning algorithm outcomes
CN109978022A (zh) * 2019-03-08 2019-07-05 腾讯科技(深圳)有限公司 一种医疗文本信息处理方法及装置、存储介质
CN110490251A (zh) * 2019-03-08 2019-11-22 腾讯科技(深圳)有限公司 基于人工智能的预测分类模型获取方法及装置、存储介质
CN110335653A (zh) * 2019-06-30 2019-10-15 浙江大学 基于openEHR病历格式的非标准病历解析方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾红武;王佳;: "基于关联关系的电子病历聚类研究", 中华医学图书情报杂志, no. 05, pages 45 - 48 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113806518A (zh) * 2021-09-23 2021-12-17 湖北天天数链技术有限公司 匹配方法及装置、简历推荐方法及装置
CN114431836A (zh) * 2022-04-11 2022-05-06 中南大学湘雅医院 基于人工智能的甲黑线良恶性预测系统
CN116798646A (zh) * 2023-08-17 2023-09-22 四川互慧软件有限公司 基于聚类算法的蛇伤预后预测方法、装置及电子设备
CN116798646B (zh) * 2023-08-17 2023-11-24 四川互慧软件有限公司 基于聚类算法的蛇伤预后预测方法、装置及电子设备

Similar Documents

Publication Publication Date Title
US11062090B2 (en) Method and apparatus for mining general text content, server, and storage medium
CN108427939B (zh) 模型生成方法和装置
JP2023547917A (ja) 画像分割方法、装置、機器および記憶媒体
CN112786129A (zh) 病例数据的分析方法、装置、电子设备及存储介质
CN112541056B (zh) 医学术语标准化方法、装置、电子设备及存储介质
CN112257578B (zh) 人脸关键点检测方法、装置、电子设备及存储介质
CN109545387B (zh) 一种基于神经网络的异常病例识别方法及计算设备
CN110209658B (zh) 数据清洗方法和装置
CN113688256B (zh) 临床知识库的构建方法、装置
CN111415747A (zh) 电子病历的构建方法及装置
CN113808758A (zh) 一种检验数据标准化的方法、装置、电子设备和存储介质
CN118197534A (zh) 用于移动查房的辅助系统及其方法
CN111161884A (zh) 针对不平衡数据的疾病预测方法、装置、设备及介质
CN111259676A (zh) 翻译模型的训练方法、装置、电子设备、及存储介质
CN112131296B (zh) 一种数据探查方法、装置、电子设备和存储介质
CN112101257B (zh) 训练样本生成方法、图像处理方法、装置、设备和介质
CN112231444A (zh) 结合rpa和ai的语料数据的处理方法、装置和电子设备
CN116088717A (zh) 一种模型的训练方法、数据处理方法以及相关设备
CN111859985B (zh) Ai客服模型测试方法、装置、电子设备及存储介质
CN115203417A (zh) 一种旅游评论分析方法与系统
CN116821327A (zh) 文本数据处理方法、装置、设备、可读存储介质及产品
CN113220896A (zh) 多来源知识图谱生成方法、装置、终端设备
CN109299475B (zh) 一种医学文档的处理方法、装置、介质及电子设备
CN111785388A (zh) 医疗数据处理方法及装置、存储介质及电子设备
CN111291862A (zh) 用于模型压缩的方法和装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination