CN117476240A - 少样本的疾病预测方法及装置 - Google Patents

少样本的疾病预测方法及装置 Download PDF

Info

Publication number
CN117476240A
CN117476240A CN202311829581.5A CN202311829581A CN117476240A CN 117476240 A CN117476240 A CN 117476240A CN 202311829581 A CN202311829581 A CN 202311829581A CN 117476240 A CN117476240 A CN 117476240A
Authority
CN
China
Prior art keywords
sample
medical record
electronic medical
embedding
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311829581.5A
Other languages
English (en)
Other versions
CN117476240B (zh
Inventor
唐永强
王耘田
李明达
张文生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN202311829581.5A priority Critical patent/CN117476240B/zh
Publication of CN117476240A publication Critical patent/CN117476240A/zh
Application granted granted Critical
Publication of CN117476240B publication Critical patent/CN117476240B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0455Auto-encoder networks; Encoder-decoder networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/60ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02ATECHNOLOGIES FOR ADAPTATION TO CLIMATE CHANGE
    • Y02A90/00Technologies having an indirect contribution to adaptation to climate change
    • Y02A90/10Information and communication technologies [ICT] supporting adaptation to climate change, e.g. for weather forecasting or climate simulation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biomedical Technology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Molecular Biology (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Primary Health Care (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

本发明涉及数据处理技术领域,提供了一种少样本的疾病预测方法及装置,该方法包括:获取待处理电子病历信息;基于疾病预测模型对待处理电子病历信息进行预测,得到预测结果;其中,疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本,以通过共享权重的编码器从训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。本发明所述方法能够在抽象的潜层表征空间对增广前后的样本以及重采样后的样本间的互信息进行了进一步挖掘和学习,有效克服了数据中存在的少样本和不平衡问题,从而具有了较高的识别精度,尤其显著提高了模型对慢性化样本的识别效果。

Description

少样本的疾病预测方法及装置
技术领域
本发明涉及数据处理技术领域,尤其涉及一种少样本的疾病预测方法及装置。
背景技术
免疫性血小板减少症(Immune thrombocytopenia,ITP)是一种典型的免疫介导型出血性疾病,开发儿童ITP慢性化预测方法有助于医护人员制定个性化的治疗方案,有效防止过度医疗对患者生活造成的负面影响。
相关技术中,医护人员一般通过患者电子病历(Electronic Medical Records,以下简称EMR)中的人口学特征以及免疫学记录评估患者病情,这些数据以表格形式存储,包括数值型特征和类别特征以及标签,由于儿童ITP的罕见性,导致患儿临床数据较为稀缺,临床数据呈现出少样本的特点,即数据集规模很小,而利用深度学习模型预测疾病结果时需要大量的训练样本,否则容易出现模型过拟合,导致模型预测的准确率低。
发明内容
本发明提供一种少样本的疾病预测方法及装置,用以解决现有技术中用于训练疾病预测模型的ITP数据集规模很小,无法满足支持开发一个准确的疾病预测模型的缺陷,提高了疾病预测模型的准确率。
本发明提供一种少样本的疾病预测方法,包括:
获取待处理电子病历信息;
基于疾病预测模型对所述待处理电子病历信息进行预测,得到预测结果;其中,所述疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本,以通过共享权重的编码器从所述训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。
根据本发明提供的一种少样本的疾病预测方法,所述疾病预测模型通过如下步骤训练得到:
获取所述样本电子病历信息;
对所述样本电子病历进行归一化处理,并对归一化后的样本电子病历进行随机掩码处理,得到掩蔽样本,对所述归一化后的样本电子病历进行重采样处理,得到重采样样本,所述重采样样本包括真实样本和合成样本,所述真实样本的类别包括少数类样本和多数类样本;
根据所述共享权重的编码器分别对所述样本电子病历信息、所述掩蔽样本和所述重采样样本进行编码,得到所述样本电子病历信息对应的第一潜层表征、所述掩蔽样本对应的第二潜层表征和所述重采样样本对应的第三潜层表征;
根据所述第一潜层表征和所述第二潜层表征构造第一样本对,根据所述少数类样本、所述多数类样本和所述合成样本分别对应的第三潜层表征构造第二样本对;
根据所述第一样本对、所述第二样本对和联合对比损失函数对所述骨干模型进行训练,并在所述骨干模型收敛的情况下,得到所述疾病预测模型;其中,所述联合对比损失函数基于交叉熵损失函数和各个样本对分别对应的对比损失函数确定,所述对比损失函数基于所述各个样本对的余弦相似度确定。
根据本发明提供的一种少样本的疾病预测方法,所述根据所述共享权重的编码器分别对所述样本电子病历信息、所述掩蔽样本和所述重采样样本进行编码,得到所述样本电子病历信息对应的第一潜层表征、所述掩蔽样本对应的第二潜层表征和所述重采样样本对应的第三潜层表征包括:
基于共享权重的编码器对所述样本电子病历信息对应的第一特征嵌入进行特征提取,得到所述第一潜层表征;基于所述共享权重的编码器对所述掩蔽样本对应的第二特征嵌入进行特征提取,得到所述第二潜层表征;基于所述共享权重的编码器对所述重采样样本对应的第三特征嵌入进行特征提取,得到所述第三潜层表征;
其中,所述第一特征嵌入基于所述样本电子病历信息的每个数值型特征和类别特征确定,所述第二特征嵌入基于所述掩蔽样本的每个数值型特征和类别特征确定,所述第三特征嵌入基于所述重采样样本的每个数值型特征和类别特征确定。
根据本发明提供的一种少样本的疾病预测方法,所述第一特征嵌入通过如下步骤获取:
根据共享权重的变换器Tokenizer对所述样本电子病历信息的每个数值型特征和类别特征分别进行线性变换,得到多个第一嵌入量;
将所述多个第一嵌入量进行拼接,并将拼接后的嵌入量的头部添加第一分类标记,得到第一特征嵌入;
所述第二特征嵌入通过如下步骤获取:
根据所述Tokenizer对所述掩蔽样本的每个数值型特征和类别特征分别进行线性变换,得到多个第二嵌入量;
将所述多个第二嵌入量进行拼接,并将拼接后的嵌入量的头部添加第二分类标记,得到第二特征嵌入;
所述第三特征嵌入通过如下步骤获取:
根据所述Tokenizer对所述重采样样本的每个数值型特征和类别特征分别进行线性变换,得到多个第三嵌入量;
将所述多个第三嵌入量进行拼接,并将拼接后的嵌入量的头部添加第三分类标记,得到第三特征嵌入。
根据本发明提供的一种少样本的疾病预测方法,所述第一样本对对应的对比损失函数通过下式确定:
其中,为所述第一样本对对应的对比损失函数,fq,k)=simq,k)/τ,simq,k)为余弦相似度,τ为对比损失中常用的温度系数,k + 属于查询q的查询正键,k为含查询正键k + 以及查询负键k - 在内的所有键,X为一个簇的训练数据。
根据本发明提供的一种少样本的疾病预测方法,所述第二样本对对应的对比损失函数通过下式确定:
其中,为所述第二样本对对应的对比损失函数,k - 属于查询q的查询负键,n为重采样后的一个簇内的少数类样本的样本数量。
根据本发明提供的一种少样本的疾病预测方法,所述联合对比损失函数通过下式确定:
其中,为所述联合对比损失,/>为所述交叉熵损失函数;/>和/>为优化过程中控制对比损失权重的超参数。
本发明还提供一种少样本的疾病预测装置,包括:
信息获取模块,用于获取待处理电子病历信息;
预测模块,用于基于疾病预测模型对所述待处理电子病历信息进行预测,得到预测结果;其中,所述疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本,以通过共享权重的编码器从所述训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述少样本的疾病预测方法。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述少样本的疾病预测方法。
本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述少样本的疾病预测方法。
本发明提供的少样本的疾病预测方法及装置,通过基于疾病预测模型对待处理电子病历信息进行预测,得到预测结果,该疾病预测模型是以样本电子病历信息经过扩增和重采样得到的样本为训练样本,再通过共享权重的编码器从训练样本中提取的潜层表征进行对比学习并优化,能够在抽象的潜层表征空间对增广前后的样本以及重采样后的样本间的互信息进行了进一步挖掘和学习,有效克服了数据中存在的少样本和不平衡问题,从而具有了较高的识别精度,尤其显著提高了模型对慢性化样本的识别效果。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的少样本的疾病预测方法的流程示意图之一;
图2是本发明提供的少样本的疾病预测方法的流程示意图之二;
图3是本发明提供的少样本的疾病预测装置的结构示意图;
图4是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图3描述本发明的少样本的疾病预测方法及装置。
图1是本发明提供的少样本的疾病预测方法的流程示意图之一,如图1所示,该少样本的疾病预测方法包括如下步骤:
步骤110、获取待处理电子病历信息。
步骤120、基于疾病预测模型对待处理电子病历信息进行预测,得到预测结果;其中,疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本,以通过共享权重的编码器从训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。
在上述步骤中,电子病历信息包括人口学信息和免疫学记录等数据。
在该实施例中,通过从患儿EMR中抽取人口学信息和免疫学记录作为待处理的电子病历信息。
需要说明的是,人口学信息和免疫学记录等数据是以表格形式存储,包括数值型特征和类别特征以及标签,需要对数据进行归一化处理,以减少异常数据的干扰,提高待测试数据的质量;
同理,在骨干模型在训练过程中,对样本进行标准化处理,即对样本采用归一化处理,能够减少异常样本带来的干扰,提升样本质量。
在该实施例中,对样本进行数据增强可以扩充样本集规模;例如,可以采用使用随机掩码的方法对每次迭代时使用的训练样本进行扩增;具体的,对每个样本随机掩码某几维特征得到对应的掩蔽样本。
在该实施例中,骨干模型包括共享权重的变换器(例如Tokenizer)、共享权重的编码器和分类器。
在该实施例中,通过重采样算法对每次迭代时使用的训练数据进行重采样,针对增加样本数较少的类别进行样本扩充,以确保训练样本达到类别平衡;其中重采样后的数据包括真实的多数类样本和少数类样本,以及合成的少数类样本。
在该实施例中,通过共享权重的编码器从训练样本中提取潜层表征,该编码器可以是Transformer编码器。
在该实施例中,Transformer编码器能够通过多层自注意力机制和前馈神经网络层,将特征嵌入映射到表征空间获取对应的潜层表征。
在该实施例中,通过潜层特征构造正负样本对,再结合来对比损失函数训练骨干模型,在模型收敛的情况下,能够得到一个预测性能更好的疾病预测模型;利用疾病预测模型对待处理电子病历信息进行预测,输出更准确的预测结果。
本发明实施例提供的一种少样本的疾病预测方法,通过基于疾病预测模型对待处理电子病历信息进行预测,得到预测结果,该疾病预测模型是以样本电子病历信息经过扩增和重采样得到的样本为训练样本,再通过共享权重的编码器从训练样本中提取的潜层表征进行对比学习并优化,能够在抽象的潜层表征空间对增广前后的样本以及重采样后的样本间的互信息进行了进一步挖掘和学习,有效克服了数据中存在的少样本和不平衡问题,从而具有了较高的识别精度,尤其显著提高了模型对慢性化样本的识别效果。
在一些实施例中,疾病预测模型通过如下步骤训练得到:获取样本电子病历信息;对样本电子病历进行归一化处理,并对归一化后的样本电子病历进行随机掩码处理,得到掩蔽样本,对归一化后的样本电子病历进行重采样处理,得到重采样样本,重采样样本包括真实样本和合成样本,真实样本的类别包括少数类样本和多数类样本;根据共享权重的编码器分别对样本电子病历信息、掩蔽样本和重采样样本进行编码,得到样本电子病历信息对应的第一潜层表征、掩蔽样本对应的第二潜层表征和重采样样本对应的第三潜层表征;根据第一潜层表征和第二潜层表征构造第一样本对,根据少数类样本、多数类样本和合成样本分别对应的第三潜层表征构造第二样本对;根据第一样本对、第二样本对和联合对比损失函数对骨干模型进行训练,并在骨干模型收敛的情况下,得到疾病预测模型;其中,联合对比损失函数基于交叉熵损失函数和各个样本对分别对应的对比损失函数确定,对比损失函数基于各个样本对的余弦相似度确定。
在该实施例中,对样本电子病历进行归一化处理之前,可以将样本电子病历信息对应的数据集按照目标比例划分为训练集和测试集;其中,使用训练集数据训练骨干模型;使用验证集评估模型的性能和泛化能力。
在该实施例中,目标比例可以根据用户需求设置,例如,该训练集和测试集之间的目标比例是7:3。
在该实施例中,对样本电子病历进行归一化处理,将所有特征值放缩至同一量纲。在实际训练模型的过程中,训练样本会被分成多个簇(batch),每轮迭代使用一个batch的样本。
具体通过如下步骤训练样本数据进行预处理:
(1)样本集构建与划分,从患儿EMRs抽取人口学信息和免疫学记录等特征构建数据集,并将数据集按7:3比例划分为训练集和测试集,并对数据集进行归一化处理。
(2)样本扩充,采用随机掩码的方法对每次迭代时使用的训练数据进行样本扩增,对每个样本随机掩码某几维特征得到对应的掩蔽样本;
在该实施例中,针对数据集存在的少样本问题,使用随机掩码的方法对每个batch的样本进行样本扩增;对每个样本随机掩码某几维特征得到对应的掩蔽样本。具体做法如下:在每轮迭代中,采用如下公式为batch中的每个包含维特征的训练样本/>生成一个掩蔽索引向量/>,M从伯努利分布中独立采样:
其中,m i 是M中的一个元素,p为控制特征被屏蔽的概率;m i =1时表示对应的特征会被屏蔽;然后点乘/>,得到对应的掩蔽样本,计算公式如下式所示:
其中,I是长度维k的单位向量;直观上,pm i =1的概率,确定被屏蔽的特征的比例;例如一个包含10个特征的样本,当p设置维0.4时表示该样本有4个特征的值被置0,即被掩蔽;需要说明的是,在一轮迭代中,每个样本对应的M是不同的,即每个样本被掩蔽的特征是随机的,尽量确保每个特征都有可能被掩蔽。
(3)样本重采样,采用Borderline-SMOTE重采样算法对每次迭代时使用的训练数据进行重采样,合成更多的少数类样本达到类别平衡;具体做法如下:为少数类样本设定n个近邻样本,通过判断少数类样本n个近邻样本的类别将其分为安全样本,噪声样本和危险样本。
需要说明的是,安全样本为该少数类样本的n个近邻中有超过一半的样本和其属于一个类别,则被归类于安全样本;噪声样本为该少数类样本的n个近邻样本全部属于多数类,则被归类于噪声样本;危险样本为该少数类样本的n个近邻中有超过一半的样本属于多数类,则被归类于危险样本,易和多数类样本混淆;在过采样时,会基于危险样本和其近邻样本的特征与标签信息合成新的少数类样本,而安全样本和噪声样本会被忽略。
在该实施例中,提取潜层特征的具体步骤为:
(4)对样本分别进行扩增和重采样后,可以利用共享权重的变换器将样本电子病历信息,掩蔽样本和重采样样本分别对应的数值性特征和类别特征进行转换,得到特征嵌入,并将样本电子病历信息、掩蔽样本和重采样样本各自对应的特征嵌入输入共享权重的Transformer编码器,通过多层自注意力机制和前馈神经网络层,将特征嵌入映射到表征空间获取对应的潜层表征,并提取共享权重的变换器经过编码器转换的潜层表征。
(5)构造用于对比学习的样本对,针对原始数据和其对应的掩蔽后数据对应的潜层特征构造第一样本对,根据重采样数据中的真实样本与合成样本对应的潜层特征构造第二样本对;其中,样本对由查询,正键/>和负键/>组成;即第一样本对为正样本对,第二样本对为负样本对。
在该实施例中,上述正负样本对的具体构造过程如下:
1、针对原始训练样本和其对应的掩蔽后样本,对应的掩蔽后样本的作为/>,原始样本的/>作为相应的/>, 而训练数据中其他所有样本的/>均作为/>
2、针对重采样后的样本,根据标签将样本分为真实的多数类,真实的少数类以及合成的少数类三部分。合成的少数类样本的作为/>,真实的少数类样本的/>作为/>,真实的多数类样本的/>作为/>
(6)联合损失优化与模型训练,使用上述由潜层表征构造的正负样本对计算查询和正键之间的余弦相似度,在对比学习中,模型被训练最大化和/>之间的相似度,最小化和/>之间的相似度。
在该实施例中,可以在潜层表征空间引入对比损失来训练模型学习更具区分性的特征表示;同时还可以引入一个包含分类器的非线性预测层,将原始样本对应的潜层表征输入预测层,得到预测类别的概率分布并计算分类损失。在训练过程中将对比损失与分类损失联合优化,通过反向传播算法和梯度下降更新Tokenizer和Transformer编码器的参数,在增强模型表征学习能力的同时提高模型的预测性能。
在该实施例中,针对原始样本与对应的掩蔽后样本的,第一样本对对应的对比损失函数通过下式确定:
其中,为第一样本对对应的对比损失函数,fq,k)=simq,k)/τ,simq,k)为余弦相似度,τ为对比损失中常用的温度系数,k + 属于查询q的查询正键,k为含查询正键k + 以及查询负键k - 在内的所有键,X为一个簇的训练数据。
在实施例中,针对重采样后样本的,由于合成一个少数类样本用到了多个真实的少数类样本的特征信息,第二样本对对应的对比损失函数通过下式确定:
其中,为第二样本对对应的对比损失函数,k - 属于查询q的查询负键,n为重采样后的一个簇内的少数类样本的样本数量。
在该实施例中,通过引入包含分类器的非线性预测层,使用原始样本的输出预测的类别并计算分类损失,非线性预测层的定义如下:
其中,为非线性预测层的输出;ReLU为激活函数,Layer Norm为归一化层;本实施例中的分类损失采用常见的交叉熵损失,在二分类任务中的定义如下:
其中,为样本的标签。
在实施例中,联合对比损失函数通过下式确定:
其中,为联合对比损失,/>为交叉熵损失函数;/>和/>为优化过程中控制对比损失权重的超参数;本实施例通过反向传播算法和梯度下降更新模型的参数。
本发明实施例提供的一种少样本的疾病预测方法,通过对样本电子病历进行归一化处理,并对归一化后的样本电子病历进行随机掩码处理,得到掩蔽样本;对掩蔽样本进行重采样处理,得到重采样样本,再根据共享权重的编码器从样本电子病历信息、掩蔽样本和重采样样本中提取潜层表征以构建正负样本对,最后联合对比损失函数和交叉熵损失函数对骨干模型进行训练,并在骨干模型收敛的情况下,得到疾病预测模型,能够对样本间的互信息进行充分挖掘,提高了疾病预测模型的预测性能。
下面,对上述步骤(4)进行具体说明进行说明:
在一些实施例中,根据共享权重的编码器分别对样本电子病历信息、掩蔽样本和重采样样本进行编码,得到样本电子病历信息对应的第一潜层表征、掩蔽样本对应的第二潜层表征和重采样样本对应的第三潜层表征包括:基于共享权重的编码器对样本电子病历信息对应的第一特征嵌入进行特征提取,得到第一潜层表征;基于共享权重的编码器对掩蔽样本对应的第二特征嵌入进行特征提取,得到第二潜层表征;基于共享权重的编码器对重采样样本对应的第三特征嵌入进行特征提取,得到第三潜层表征;其中,第一特征嵌入基于样本电子病历信息的每个数值型特征和类别特征确定,第二特征嵌入基于掩蔽样本的每个数值型特征和类别特征确定,第三特征嵌入基于重采样样本的每个数值型特征和类别特征确定。
其中,第一特征嵌入通过如下步骤获取:根据共享权重的变换器Tokenizer对样本电子病历信息的每个数值型特征和类别特征分别进行线性变换,得到多个第一嵌入量;将多个第一嵌入量进行拼接,并将拼接后的嵌入量的头部添加第一分类标记,得到第一特征嵌入;第二特征嵌入通过如下步骤获取:根据Tokenizer对掩蔽样本的每个数值型特征和类别特征分别进行线性变换,得到多个第二嵌入量;将多个第二嵌入量进行拼接,并将拼接后的嵌入量的头部添加第二分类标记,得到第二特征嵌入;第三特征嵌入通过如下步骤获取:根据Tokenizer对重采样样本的每个数值型特征和类别特征分别进行线性变换,得到多个第三嵌入量;将多个第三嵌入量进行拼接,并将拼接后的嵌入量的头部添加第三分类标记,得到第三特征嵌入。
对上述步骤(4)通过如下两个子步骤进行展开说明:
(4.1)获取特征嵌入,使用Tokenizer将原始训练样本,掩蔽后和重采样后的训练样本的特征值转换为特征嵌入,并在特征嵌入的头部加入一个分类标记(CLS Token)用于学习全局潜层表征。转换方式如下:
转换方式为简单的线性转换,是可以被优化的权重矩阵,/>是样本的第/>个特征,/>是对应的偏置,/>是特征嵌入的维度;由于表格数据的结构化特点,需要对数值型特征和类别型特征分别转换,然后再将所有的特征嵌入拼接成为该样本对应的特征嵌入/>
其中,为第i个数值型特征对应的特征嵌入量,/>为第i个数值型特征对应的权重矩阵,/>为第i个数值型特征,/>为第i个数值型特征对应的偏置;/>为第i个类别型特征对应的特征嵌入量,/>为第i个类别型特征对应的权重矩阵,/>为第i个类别型特征对应的独热向量,/>为第i个类别型特征对应的偏置;/>为拼接函数,/>为样本中的特征数目,/>为实数域。
在该实施例中,得到特征嵌入E之后,然后随机初始化一个维的可训练向量作为CLS Token,并与特征嵌入拼接作为Transformer编码器的输入/>
(4.2)根据特征嵌入确定潜层表征,用一个共享权重的n层Transformer编码器作为潜层表征提取器。分别将原始训练样本,掩蔽后和重采样后的训练样本对应的特征嵌入输入编码器,通过多层自注意力机制和前馈神经网络层,将特征嵌入映射到表征空间获取对应的潜层表征并提取共享权重的变换器CLS Token经过编码器转换的潜层表征。
本发明实施例提供的一种少样本的疾病预测方法,通过共享权重的变换器对样本电子病历信息的每个数值型特征和类别特征分别进行线性变换,得到多个嵌入量,并在每个嵌入量的头部添加分类标志,得到多个特征嵌入,通过共享权重的编码器分别多个特征嵌入进行编码,得到对应多个潜层表征,提高了输入样本的特征表征能力,进而提高了模型的预测性能。
图2是本发明提供的少样本的疾病预测方法的流程示意图之二,在图2所示的实施例中,先从ITP患儿的EMRs中抽取患儿人口学信息、免疫记录和对应结构来构建数据集,并对数据集进行归一化处理和划分,得到训练集和测试集;对训练集进行随机掩蔽处理,得到原始样本对应的掩蔽后样本,对训练集进行重采样(对应过采样)处理,得到真实的多类样本、真实的少类样本和合成的少类样本;利用共享权重的变换器Tokenizer对上一步得到的各类样本中的数值型特征和类别特征分别进行线性变换,得到对应的特征嵌入,并通过共享权重的Transformer编码器对特征嵌入进行编码,得到对应的潜层表征,以各潜层表征构建正负样本对,结合对比损失函数、分类函数分别计算对比算损失以及分类损失,得到联合损失,该联合损失用于当前轮次的迭代训练过程;根据划分的到的验证集检验当前轮次迭代训练的模型性能,在确定模型训练完成的情况下,得到疾病预测模型。
下面对本发明提供的少样本的疾病预测装置进行描述,下文描述的少样本的疾病预测装置与上文描述的少样本的疾病预测方法可相互对应参照。
图3是本发明提供的少样本的疾病预测装置的结构示意图,如图3所示,该少样本的疾病预测装置包括信息获取模块310和预测模块320。
信息获取模块310,用于获取待处理电子病历信息;
预测模块320,用于基于疾病预测模型对待处理电子病历信息进行预测,得到预测结果;其中,疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本,以通过共享权重的编码器从训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。
本发明实施例提供的一种少样本的疾病预测装置,通过基于疾病预测模型对待处理电子病历信息进行预测,得到预测结果,该疾病预测模型是以样本电子病历信息经过扩增和重采样得到的样本为训练样本,再通过共享权重的编码器从训练样本中提取的潜层表征进行对比学习并优化,能够在抽象的潜层表征空间对增广前后的样本以及重采样后的样本间的互信息进行了进一步挖掘和学习,有效克服了数据中存在的少样本和不平衡问题,从而具有了较高的识别精度,尤其显著提高了模型对慢性化样本的识别效果。
图4是本发明提供的电子设备的结构示意图,如图4所示,该电子设备可以包括:处理器(processor)410、通信接口(Communications Interface)420、存储器(memory)430和通信总线440,其中,处理器410,通信接口420,存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令,以执行少样本的疾病预测方法,该方法包括:获取待处理电子病历信息;基于疾病预测模型对待处理电子病历信息进行预测,得到预测结果;其中,疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本,以通过共享权重的编码器从训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。
此外,上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的少样本的疾病预测方法,该方法包括:获取待处理电子病历信息;基于疾病预测模型对待处理电子病历信息进行预测,得到预测结果;其中,疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本,以通过共享权重的编码器从训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的少样本的疾病预测方法,该方法包括:获取待处理电子病历信息;基于疾病预测模型对待处理电子病历信息进行预测,得到预测结果;其中,疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本,以通过共享权重的编码器从训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种少样本的疾病预测方法,其特征在于,包括:
获取待处理电子病历信息;
基于疾病预测模型对所述待处理电子病历信息进行预测,得到预测结果;其中,所述疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本,以通过共享权重的编码器从所述训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。
2.根据权利要求1所述的少样本的疾病预测方法,其特征在于,所述疾病预测模型通过如下步骤训练得到:
获取所述样本电子病历信息;
对所述样本电子病历进行归一化处理,并对归一化后的样本电子病历进行随机掩码处理,得到掩蔽样本,对所述归一化后的样本电子病历进行重采样处理,得到重采样样本,所述重采样样本包括真实样本和合成样本,所述真实样本包括少数类样本和多数类样本;
根据所述共享权重的编码器分别对所述样本电子病历信息、所述掩蔽样本和所述重采样样本进行编码,得到所述样本电子病历信息对应的第一潜层表征、所述掩蔽样本对应的第二潜层表征和所述重采样样本对应的第三潜层表征;
根据所述第一潜层表征和所述第二潜层表征构造第一样本对,根据所述少数类样本、所述多数类样本和所述合成样本分别对应的第三潜层表征构造第二样本对;
根据所述第一样本对、所述第二样本对和联合对比损失函数对所述骨干模型进行训练,并在所述骨干模型收敛的情况下,得到所述疾病预测模型;其中,所述联合对比损失函数基于交叉熵损失函数和各个样本对分别对应的对比损失函数确定,所述对比损失函数基于所述各个样本对的余弦相似度确定。
3.根据权利要求2所述的少样本的疾病预测方法,其特征在于,所述根据所述共享权重的编码器分别对所述样本电子病历信息、所述掩蔽样本和所述重采样样本进行编码,得到所述样本电子病历信息对应的第一潜层表征、所述掩蔽样本对应的第二潜层表征和所述重采样样本对应的第三潜层表征包括:
基于共享权重的编码器对所述样本电子病历信息对应的第一特征嵌入进行特征提取,得到所述第一潜层表征;基于所述共享权重的编码器对所述掩蔽样本对应的第二特征嵌入进行特征提取,得到所述第二潜层表征;基于所述共享权重的编码器对所述重采样样本对应的第三特征嵌入进行特征提取,得到所述第三潜层表征;
其中,所述第一特征嵌入基于所述样本电子病历信息的每个数值型特征和类别特征确定,所述第二特征嵌入基于所述掩蔽样本的每个数值型特征和类别特征确定,所述第三特征嵌入基于所述重采样样本的每个数值型特征和类别特征确定。
4.根据权利要求3所述的少样本的疾病预测方法,其特征在于,所述第一特征嵌入通过如下步骤获取:
根据共享权重的变换器Tokenizer对所述样本电子病历信息的每个数值型特征和类别特征分别进行线性变换,得到多个第一嵌入量;
将所述多个第一嵌入量进行拼接,并将拼接后的嵌入量的头部添加第一分类标记,得到第一特征嵌入;
所述第二特征嵌入通过如下步骤获取:
根据所述Tokenizer对所述掩蔽样本的每个数值型特征和类别特征分别进行线性变换,得到多个第二嵌入量;
将所述多个第二嵌入量进行拼接,并将拼接后的嵌入量的头部添加第二分类标记,得到第二特征嵌入;
所述第三特征嵌入通过如下步骤获取:
根据所述Tokenizer对所述重采样样本的每个数值型特征和类别特征分别进行线性变换,得到多个第三嵌入量;
将所述多个第三嵌入量进行拼接,并将拼接后的嵌入量的头部添加第三分类标记,得到第三特征嵌入。
5.根据权利要求2所述的少样本的疾病预测方法,其特征在于,所述第一样本对对应的对比损失函数通过下式确定:
其中,为所述第一样本对对应的对比损失函数,fq,k)=simq,k)/τ,simq,k)为余弦相似度,τ为对比损失中常用的温度系数,k + 属于查询q的查询正键,k为包含查询正键k + 以及查询负键k - 在内的所有键,X为一个簇的训练数据。
6.根据权利要求2所述的少样本的疾病预测方法,其特征在于,所述第二样本对对应的对比损失函数通过下式确定:
其中,为所述第二样本对对应的对比损失函数,k - 属于查询q的查询负键,n为重采样后的一个簇内的少数类样本的样本数量。
7.根据权利要求2所述的少样本的疾病预测方法,其特征在于,所述联合对比损失函数通过下式确定:
其中,为所述联合对比损失,/>为所述交叉熵损失函数;/>和/>为优化过程中控制对比损失权重的超参数。
8.一种少样本的疾病预测装置,其特征在于,包括:
信息获取模块,用于获取待处理电子病历信息;
预测模块,用于基于疾病预测模型对所述待处理电子病历信息进行预测,得到预测结果;其中,所述疾病预测模型基于以样本电子病历信息经过扩增和重采样得到的样本为训练样本,以通过共享权重的编码器从所述训练样本中提取的潜层表征为训练特征对骨干模型进行训练得到。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述少样本的疾病预测方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述少样本的疾病预测方法。
CN202311829581.5A 2023-12-28 2023-12-28 少样本的疾病预测方法及装置 Active CN117476240B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311829581.5A CN117476240B (zh) 2023-12-28 2023-12-28 少样本的疾病预测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311829581.5A CN117476240B (zh) 2023-12-28 2023-12-28 少样本的疾病预测方法及装置

Publications (2)

Publication Number Publication Date
CN117476240A true CN117476240A (zh) 2024-01-30
CN117476240B CN117476240B (zh) 2024-04-05

Family

ID=89627872

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311829581.5A Active CN117476240B (zh) 2023-12-28 2023-12-28 少样本的疾病预测方法及装置

Country Status (1)

Country Link
CN (1) CN117476240B (zh)

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113674864A (zh) * 2021-08-30 2021-11-19 重庆大学 一种恶性肿瘤合并静脉血栓栓塞症风险预测方法
CN113779643A (zh) * 2021-09-24 2021-12-10 重庆傲雄在线信息技术有限公司 基于预训练技术的签名笔迹识别系统、方法及存储介质
CN114783608A (zh) * 2022-05-10 2022-07-22 电子科技大学 基于图自编码器的慢病人群疾病风险预测模型的构建方法
WO2022174491A1 (zh) * 2021-02-19 2022-08-25 平安科技(深圳)有限公司 基于人工智能的病历质控方法、装置、计算机设备及存储介质
WO2023035586A1 (zh) * 2021-09-10 2023-03-16 上海商汤智能科技有限公司 图像检测方法、模型训练方法、装置、设备、介质及程序
WO2023064498A1 (en) * 2021-10-13 2023-04-20 Emory University Systems and methods for training and/or using representation learning neural networks for electromyographic data
CN116630753A (zh) * 2023-07-26 2023-08-22 南京航空航天大学 一种基于对比学习的多尺度小样本目标检测方法
CN116959465A (zh) * 2023-06-09 2023-10-27 平安科技(深圳)有限公司 语音转换模型训练方法、语音转换方法、装置及介质
WO2023239151A1 (ko) * 2022-06-07 2023-12-14 서울대학교병원 흉부 방사선 데이터를 수치 벡터로 변환하는 방법 및 장치, 이를 이용하여 질병을 분석하는 방법 및 장치
CN117237733A (zh) * 2023-09-27 2023-12-15 大连民族大学 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法
CN117274599A (zh) * 2023-09-28 2023-12-22 西安交通大学 一种基于组合双任务自编码器的脑磁共振分割方法及系统

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2022174491A1 (zh) * 2021-02-19 2022-08-25 平安科技(深圳)有限公司 基于人工智能的病历质控方法、装置、计算机设备及存储介质
CN113674864A (zh) * 2021-08-30 2021-11-19 重庆大学 一种恶性肿瘤合并静脉血栓栓塞症风险预测方法
WO2023035586A1 (zh) * 2021-09-10 2023-03-16 上海商汤智能科技有限公司 图像检测方法、模型训练方法、装置、设备、介质及程序
CN113779643A (zh) * 2021-09-24 2021-12-10 重庆傲雄在线信息技术有限公司 基于预训练技术的签名笔迹识别系统、方法及存储介质
WO2023064498A1 (en) * 2021-10-13 2023-04-20 Emory University Systems and methods for training and/or using representation learning neural networks for electromyographic data
CN114783608A (zh) * 2022-05-10 2022-07-22 电子科技大学 基于图自编码器的慢病人群疾病风险预测模型的构建方法
WO2023239151A1 (ko) * 2022-06-07 2023-12-14 서울대학교병원 흉부 방사선 데이터를 수치 벡터로 변환하는 방법 및 장치, 이를 이용하여 질병을 분석하는 방법 및 장치
CN116959465A (zh) * 2023-06-09 2023-10-27 平安科技(深圳)有限公司 语音转换模型训练方法、语音转换方法、装置及介质
CN116630753A (zh) * 2023-07-26 2023-08-22 南京航空航天大学 一种基于对比学习的多尺度小样本目标检测方法
CN117237733A (zh) * 2023-09-27 2023-12-15 大连民族大学 一种结合自监督和弱监督学习的乳腺癌全切片图像分类方法
CN117274599A (zh) * 2023-09-28 2023-12-22 西安交通大学 一种基于组合双任务自编码器的脑磁共振分割方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JIE WANG等: "Adversarially learning disentagled speech representations for robust multi-factor voice conversion", 《ELECTRICAL ENGINEERING AND SYSTEMS SCIENCE》, 20 August 2021 (2021-08-20) *
杨阳等: "基于Dropout深度网络的两步图像标注算法", 《JOURNAL OF FRONTIERS OF COMPUTER SCIENCE AND TECHNOLOGY》, 10 June 2015 (2015-06-10) *
陈慢慢: "时间感知的Web服务QoS预测方法研究", 《中国优秀硕士论文 信息科技》, 15 December 2022 (2022-12-15) *

Also Published As

Publication number Publication date
CN117476240B (zh) 2024-04-05

Similar Documents

Publication Publication Date Title
CN109086805B (zh) 一种基于深度神经网络和成对约束的聚类方法
Zhou et al. Deep semantic dictionary learning for multi-label image classification
CN113535984B (zh) 一种基于注意力机制的知识图谱关系预测方法及装置
CN109887562B (zh) 电子病历的相似度确定方法、装置、设备和存储介质
Guo et al. Context-aware poly (a) signal prediction model via deep spatial–temporal neural networks
Vullo et al. A two-stage approach for improved prediction of residue contact maps
CN109685212B (zh) 一种机器阅读理解模型的分阶段训练方法及装置
CN110083125B (zh) 一种基于深度学习的机床热误差建模方法
Akbar et al. Development of hepatitis disease detection system by exploiting sparsity in linear support vector machine to improve strength of adaboost ensemble model
US11380301B2 (en) Learning apparatus, speech recognition rank estimating apparatus, methods thereof, and program
CN116049459B (zh) 跨模态互检索的方法、装置、服务器及存储介质
US20240203532A1 (en) Systems and methods for language modeling of protein engineering
JP2024516629A (ja) 生体信号分析方法
CN116596150A (zh) 基于多分支自注意力的Transformer霍克斯过程模型的事件预测方法
KR102461295B1 (ko) 생의학적 개체명 정규화 방법
Suquilanda-Pesántez et al. NIFtHool: an informatics program for identification of NifH proteins using deep neural networks
Rong et al. Diagnostic classification of lung cancer using deep transfer learning technology and multi‐omics data
CN117476240B (zh) 少样本的疾病预测方法及装置
CN116993513A (zh) 金融风控模型解释方法、装置及计算机设备
CN116313148A (zh) 一种药物敏感性的预测方法、装置、终端设备及介质
Yu et al. A Deep Domain‐Adversarial Transfer Fault Diagnosis Method for Rolling Bearing Based on Ensemble Empirical Mode Decomposition
US20220405606A1 (en) Integration device, training device, and integration method
CN116205227A (zh) 一种基于变分推断理论的关键词生成方法及系统
Wang et al. [Retracted] Evaluation Algorithm for the Effectiveness of Stroke Rehabilitation Treatment Using Cross‐Modal Deep Learning
Khatibi Bardsiri et al. Comparing ensemble learning methods based on decision tree classifiers for protein fold recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant