CN113299346B - 分类模型训练和分类方法、装置、计算机设备和存储介质 - Google Patents
分类模型训练和分类方法、装置、计算机设备和存储介质 Download PDFInfo
- Publication number
- CN113299346B CN113299346B CN202110355164.6A CN202110355164A CN113299346B CN 113299346 B CN113299346 B CN 113299346B CN 202110355164 A CN202110355164 A CN 202110355164A CN 113299346 B CN113299346 B CN 113299346B
- Authority
- CN
- China
- Prior art keywords
- drug resistance
- sample
- feature vector
- initial
- query
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000012549 training Methods 0.000 title claims abstract description 271
- 238000013145 classification model Methods 0.000 title claims abstract description 269
- 238000000034 method Methods 0.000 title claims abstract description 86
- 239000013598 vector Substances 0.000 claims abstract description 822
- 206010059866 Drug resistance Diseases 0.000 claims abstract description 537
- 238000012512 characterization method Methods 0.000 claims abstract description 128
- 238000012216 screening Methods 0.000 claims abstract description 120
- 102000004169 proteins and genes Human genes 0.000 claims description 68
- 108090000623 proteins and genes Proteins 0.000 claims description 68
- 150000001875 compounds Chemical class 0.000 claims description 65
- 238000013507 mapping Methods 0.000 claims description 59
- 239000003814 drug Substances 0.000 claims description 50
- 229940079593 drug Drugs 0.000 claims description 50
- 238000004364 calculation method Methods 0.000 claims description 41
- 102000008300 Mutant Proteins Human genes 0.000 claims description 28
- 108010021466 Mutant Proteins Proteins 0.000 claims description 28
- 238000000605 extraction Methods 0.000 claims description 28
- 230000035772 mutation Effects 0.000 claims description 22
- 238000004590 computer program Methods 0.000 claims description 21
- 238000012935 Averaging Methods 0.000 claims description 10
- 238000005070 sampling Methods 0.000 claims description 8
- 238000012163 sequencing technique Methods 0.000 claims description 8
- 230000002441 reversible effect Effects 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 21
- 230000006870 function Effects 0.000 description 16
- 238000012360 testing method Methods 0.000 description 16
- 230000008569 process Effects 0.000 description 14
- 230000003993 interaction Effects 0.000 description 12
- 238000004422 calculation algorithm Methods 0.000 description 11
- 239000000284 extract Substances 0.000 description 11
- BASFCYQUMIYNBI-UHFFFAOYSA-N platinum Chemical compound [Pt] BASFCYQUMIYNBI-UHFFFAOYSA-N 0.000 description 10
- 238000013473 artificial intelligence Methods 0.000 description 9
- 238000010801 machine learning Methods 0.000 description 8
- 238000011156 evaluation Methods 0.000 description 7
- 239000000126 substance Substances 0.000 description 6
- 238000004891 communication Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 229910052697 platinum Inorganic materials 0.000 description 5
- 238000005381 potential energy Methods 0.000 description 5
- 230000001667 episodic effect Effects 0.000 description 3
- 239000003446 ligand Substances 0.000 description 3
- 230000000704 physical effect Effects 0.000 description 3
- 101710151559 Crystal protein Proteins 0.000 description 2
- 238000003003 empirical scoring function Methods 0.000 description 2
- 238000001914 filtration Methods 0.000 description 2
- 238000003095 knowledge based scoring function Methods 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 1
- 102000004022 Protein-Tyrosine Kinases Human genes 0.000 description 1
- 108090000412 Protein-Tyrosine Kinases Proteins 0.000 description 1
- 230000003044 adaptive effect Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 238000013135 deep learning Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000001939 inductive effect Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000002844 melting Methods 0.000 description 1
- 230000008018 melting Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012900 molecular simulation Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 238000004902 predicting drug resistance Methods 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- -1 small molecule compounds Chemical class 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000013526 transfer learning Methods 0.000 description 1
- 238000010200 validation analysis Methods 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/30—Detection of binding sites or motifs
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/50—Mutagenesis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B50/00—ICT programming tools or database systems specially adapted for bioinformatics
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/30—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Health & Medical Sciences (AREA)
- Theoretical Computer Science (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Data Mining & Analysis (AREA)
- Medical Informatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- General Health & Medical Sciences (AREA)
- Biotechnology (AREA)
- Biophysics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Evolutionary Computation (AREA)
- Chemical & Material Sciences (AREA)
- Public Health (AREA)
- Databases & Information Systems (AREA)
- Bioethics (AREA)
- Epidemiology (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Crystallography & Structural Chemistry (AREA)
- Analytical Chemistry (AREA)
- Genetics & Genomics (AREA)
- Molecular Biology (AREA)
- Proteomics, Peptides & Aminoacids (AREA)
- Biomedical Technology (AREA)
- Primary Health Care (AREA)
- Medicinal Chemistry (AREA)
- Pharmacology & Pharmacy (AREA)
- Pathology (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本申请涉及一种分类模型训练方法、装置、计算机设备和存储介质。该方法包括:获取支持集和查询集;将支持集和查询集输入初始耐药性分类模型中,初始耐药性分类模型基于各个支持样本特征向量和各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,基于各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,并基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息;基于训练耐药性类别信息和对应的耐药性类别标签更新初始耐药性分类模型并迭代执行,得到目标耐药性分类模型。采用本方法能够提高目标耐药性分类模型的耐药性分类准确性。
Description
技术领域
本申请涉及计算机技术领域,特别是涉及一种分类模型训练和分类方法、装置、计算机设备和存储介质。
背景技术
随着人工智能技术的发展,出现了使用人工智能技术来预测靶向蛋白质突变所引发的耐药性分类问题。通过获取到大量的有标签的靶向蛋白质突变所引发的耐药性分类数据,然后训练得到人工智能模型,使用人工智能模型进行耐药性分类。然后,由于耐药性分类数据收集困难,导致训练人工智能模型时使用的样本量小,并且数据集之间的特征分布差异大,从而使得训练得到的人工智能模型在进行耐药性分类时的准确性低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提升耐药性分类准确性的分类模型训练和分类方法、装置、计算机设备和存储介质。
一种分类模型训练方法,所述方法包括:
获取支持集和查询集,支持集包括各个支持样本特征向量和对应的耐药性类别标签,查询集包括各个查询样本特征向量和对应的耐药性类别标签;
将支持集和查询集输入初始耐药性分类模型中,初始耐药性分类模型基于各个支持样本特征向量和各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,基于各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,并基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息;
基于训练耐药性类别信息和对应的耐药性类别标签更新初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤执行,当训练完成时,得到目标耐药性分类模型,目标耐药性分类模型用于识别蛋白质与化合物结合对应的耐药性类别。
在其中一个实施例中,基于各个支持样本特征向量和各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,包括:
获取初始特征筛选参数;
基于初始特征筛选参数分别对各个支持样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量;
基于初始特征筛选参数对各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标查询特征向量。
在其中一个实施例中,基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息,包括:
计算当前目标查询特征向量分别与第一初始类别表征向量和第二初始类别表征向量之间的距离,得到当前第一初始距离和当前第二初始距离;
比较当前第一初始距离和当前第二初始距离,当当前第一目标距离超过当前第二目标距离时,当前目标查询特征向量对应的训练耐药性类别信息为未耐药类别,当当前第一目标距离未超过当前第二目标距离时,当前目标查询特征向量对应的耐药性类别信息为已耐药类别。
一种分类模型训练装置,所述装置包括:
数据获取模块,用于获取支持集和查询集,支持集包括各个支持样本特征向量和对应的耐药性类别标签,查询集包括各个查询样本特征向量和对应的耐药性类别标签;
初始分类模块,用于将支持集和查询集输入初始耐药性分类模型中,初始耐药性分类模型基于各个支持样本特征向量和各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,基于各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,并基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息;
迭代训练模块,用于基于训练耐药性类别信息和对应的耐药性类别标签更新初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤执行,当训练完成时,得到目标耐药性分类模型,目标耐药性分类模型用于识别蛋白质与化合物结合对应的耐药性类别。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取支持集和查询集,支持集包括各个支持样本特征向量和对应的耐药性类别标签,查询集包括各个查询样本特征向量和对应的耐药性类别标签;
将支持集和查询集输入初始耐药性分类模型中,初始耐药性分类模型基于各个支持样本特征向量和各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,基于各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,并基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息;
基于训练耐药性类别信息和对应的耐药性类别标签更新初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤执行,当训练完成时,得到目标耐药性分类模型,目标耐药性分类模型用于识别蛋白质与化合物结合对应的耐药性类别。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取支持集和查询集,支持集包括各个支持样本特征向量和对应的耐药性类别标签,查询集包括各个查询样本特征向量和对应的耐药性类别标签;
将支持集和查询集输入初始耐药性分类模型中,初始耐药性分类模型基于各个支持样本特征向量和各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,基于各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,并基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息;
基于训练耐药性类别信息和对应的耐药性类别标签更新初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤执行,当训练完成时,得到目标耐药性分类模型,目标耐药性分类模型用于识别蛋白质与化合物结合对应的耐药性类别。
上述分类模型训练方法、装置、计算机设备和存储介质,通过获取支持集和查询集,将支持集和查询集输入初始耐药性分类模型中,初始耐药性分类模型基于各个支持样本特征向量和各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,从而使得训练时使用的特征更加的准确,然后使用各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,能够使计算得到的初始类别表征向量更加准确。此时,计算各个目标查询特征向量与初始类别表征向量之间的相似程度从而确定各个查询样本特征向量对应的训练耐药性类别信息,能够使得到的训练耐药性类别信息更加的准确。然后使用训练耐药性类别信息和对应的耐药性类别标签更新初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤执行,当训练完成时,得到目标耐药性分类模型,从而能够使训练得到的目标耐药性分类模型能够提高耐药性分类的准确性。
一种分类方法,所述方法包括:
获取待分类数据和样本数据,待分类数据中包括待分类特征向量,样本数据中包括各个样本特征向量和对应的样本类别标签;
将待分类数据和样本数据输入耐药性分类模型中,耐药性分类模型基于待分类特征向量和各个样本特征向量进行耐药性相关特征筛选,得到目标待分类特征向量和各个目标样本特征向量,基于各个目标样本特征向量计算样本类别对应的目标类别表征向量,并基于目标待分类特征向量与目标类别表征向量之间的相似程度确定待分类特征向量对应的耐药性类别信息;
耐药性分类模型输出待分类数据对应的耐药性类别信息。
一种分类装置,所述装置包括:
待分类数据获取模块,用于获取待分类数据和样本数据,待分类数据中包括待分类特征向量,样本数据中包括各个样本特征向量和对应的样本类别标签;
分类模块,用于将待分类数据和样本数据输入耐药性分类模型中,耐药性分类模型基于待分类特征向量和各个样本特征向量进行耐药性相关特征筛选,得到目标待分类特征向量和各个目标样本特征向量,基于各个目标样本特征向量计算样本类别对应的目标类别表征向量,并基于目标待分类特征向量与目标类别表征向量之间的相似程度确定待分类特征向量对应的耐药性类别信息;
类别输出模块,用于耐药性分类模型输出待分类数据对应的耐药性类别信息。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取待分类数据和样本数据,待分类数据中包括待分类特征向量,样本数据中包括各个样本特征向量和对应的样本类别标签;
将待分类数据和样本数据输入耐药性分类模型中,耐药性分类模型基于待分类特征向量和各个样本特征向量进行耐药性相关特征筛选,得到目标待分类特征向量和各个目标样本特征向量,基于各个目标样本特征向量计算样本类别对应的目标类别表征向量,并基于目标待分类特征向量与目标类别表征向量之间的相似程度确定待分类特征向量对应的耐药性类别信息;
耐药性分类模型输出待分类数据对应的耐药性类别信息。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
获取待分类数据和样本数据,待分类数据中包括待分类特征向量,样本数据中包括各个样本特征向量和对应的样本类别标签;
将待分类数据和样本数据输入耐药性分类模型中,耐药性分类模型基于待分类特征向量和各个样本特征向量进行耐药性相关特征筛选,得到目标待分类特征向量和各个目标样本特征向量,基于各个目标样本特征向量计算样本类别对应的目标类别表征向量,并基于目标待分类特征向量与目标类别表征向量之间的相似程度确定待分类特征向量对应的耐药性类别信息;
耐药性分类模型输出待分类数据对应的耐药性类别信息。
上述分类方法、装置、计算机设备和存储介质,通过获取待分类数据和样本数据,将待分类数据和样本数据输入耐药性分类模型中,耐药性分类模型基于待分类特征向量和各个样本特征向量进行耐药性相关特征筛选,得到目标待分类特征向量和各个目标样本特征向量,从而能够减少与耐药性无法的特征,使得到的目标待分类特征向量更加的准确。然后基于各个目标样本特征向量计算样本类别对应的目标类别表征向量,并计算目标待分类特征向量与目标类别表征向量之间的相似程度从而确定待分类特征向量对应的耐药性类别信息,由于耐药性分类模型是使用与耐药性相关的特征进行训练得到,然后使用耐药性分类模型进行耐药性分类识别,得到待分类特征向量对应的耐药性类别信息,从而能够使得到的耐药性类别信息更加的准确。
附图说明
图1为一个实施例中分类模型训练方法的应用环境图;
图2为一个实施例中分类模型训练方法的流程示意图;
图3为一个实施例中得到样本特征向量的流程示意图;
图4为一个实施例中抽取查询集和支持集的流程示意图;
图5为一个实施例中得到各个目标查询特征向量的流程示意图;
图6为一个实施例中计算初始类别表征向量的流程示意图;
图7为另一个实施例中计算初始类别表征向量的流程示意图;
图8为一个实施例中得到耐药性类别信息的流程示意图;
图9为一个实施例中确定训练耐药性类别信息的流程示意图;
图10为另一个实施例中确定训练耐药性类别信息的流程示意图;
图11为一个具体实施例中原型网络的示意图;
图12为一个实施例中得到目标耐药性分类模型的流程示意图;
图13为一个实施例中分类方法的流程示意图;
图14为一个具体实施例中分类方法的流程示意图;
图15为一个具体实施例中分类模型训练方法的流程示意图;
图16为一个具体实施例中分类模型的架构示意图;
图17为一个具体实施例中测试评价指标的示意图;
图18为一个实施例中分类模型训练装置的结构框图;
图19为一个实施例中分类装置的结构框图;
图20为一个实施例中计算机设备的内部结构图;
图21为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
本申请实施例提供的方案涉及人工智能的机器学习等技术,具体通过如下实施例进行说明:
本申请提供的分类模型训练方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104进行通信。服务器104从终端102中接收到训练指令,服务器104根据训练指令从数据库102中获取支持集和查询集,支持集包括各个支持样本特征向量和对应的耐药性类别标签,查询集包括各个查询样本特征向量和对应的耐药性类别标签;服务器104将支持集和查询集输入初始耐药性分类模型中,初始耐药性分类模型基于各个支持样本特征向量和各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,基于各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,并基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息;服务器104基于训练耐药性类别信息和对应的耐药性类别标签更新初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤执行,当训练完成时,得到目标耐药性分类模型,目标耐药性分类模型用于识别蛋白质与化合物结合对应的耐药性类别,然后可以将目标耐药性分类模型返回终端102进行展示。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种分类模型训练方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,包括以下步骤:
步骤202,获取支持集和查询集,支持集包括各个支持样本特征向量和对应的耐药性类别标签,查询集包括各个查询样本特征向量和对应的耐药性类别标签。
其中,支持集和查询集是从样本数据集中抽取得到的小样本数据集合,小样本通常指样本容量小于或等于30的样本。样本数据集中包括各个样本特征向量和每个样本特征向量对应的耐药性类别标签。耐药性类别标签用于表征耐药性类别,包括已耐药类别和未耐药类别。已耐药类别是指靶向蛋白质突变后与化合物之间产生了耐药性。未耐药类别是指靶向蛋白质突变后与化合物之间未产生耐药性。支持集是用于确定每个耐药性类别对应原型表示的数据集合。查询集是用于预测耐药性类别的数据集合。支持样本特征向量是指支持集中的数据样本对应的特征向量。查询样本特征向量是指查询集中的数据样本对应的特征向量。
具体地,服务器可以直接从数据库中获取到支持集和查询集。服务器也可以从提供数据服务的服务器中获取到支持集和查询集。服务器也可以从互联网中采集到支持集和查询集。
在一个实施例中,服务器也可以获取到小样本数据集,然后从小样本数据集中随机抽取支持集和查询集。在一个实施例中,服务器在获取到小样本数据集中,先随机抽取得到查询集,然后从小样本数据集中确定与查询集相似的各个样本数据,然后从相似的各个样本数据中抽取支持集。
在一个实施例中,服务器可以从互联网采集到靶向蛋白质突变前后的数据以及化合物数据,得到各个样本数据,然后从各个样本数据中提取得到各个样本特征向量,同时采集到耐药性类别信息,得到耐药性类别标签,从而得到小样本数据集,然后从小样本数据集中随机抽取支持集和查询集。
步骤204,将支持集和查询集输入初始耐药性分类模型中,初始耐药性分类模型基于各个支持样本特征向量和各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,基于各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,并基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息。
其中,初始耐药性分类模型是指模型参数初始化的耐药性分类模型,其中,可以随机初始化,也可以为零初始化等等。耐药性分类模型用于识别输入数据对应的耐药性类别,即预测蛋白质在突变后是否与化合物之间产生耐药性,从而为医生用药提供帮助。目标支持特征向量是指滤除掉支持特征向量中与耐药性分类识别无关的特征后得到的特征向量。目标查询特征向量是指滤除掉查询特征向量中与耐药性分类识别无关的特征后得到的特征向量。初始类别表征向量是指初始的耐药性类别对应的原型表示,即类别的中心。训练耐药性类别信息是指训练时识别得到的耐药性类别的信息,每个查询样本特征向量都会识别得到对应的耐药性类别。
具体地,服务器将支持集和查询集输入初始耐药性分类模型中,初始耐药性分类模型分别对每个支持样本特征向量和每个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,从而能够使得到的目标支持特征向量和目标查询特征向量中的特征都是对耐药性类别识别有关的特征,有利于提升模型的识别准确性。然后使用各个目标支持特征向量计算每个耐药性类别的中心,得到每个耐药性类别对应的初始类别表征向量,最后,计算每个目标查询特征向量与初始类别表征向量之间的相似程度根据该相似程度确定各个查询样本特征向量对应的训练耐药性类别信息,其中,目标查询特征向量与初始类别表征向量的相似程度越高,该目标查询特征向量所属于的类别就为该初始类别表征向量所对应的耐药性类别。
步骤206,判断训练是否完成,当训练完成时,执行步骤206a,当训练未完成时,执行步骤206b并返回步骤204继续迭代执行。
步骤206a,得到目标耐药性分类模型,目标耐药性分类模型用于识别蛋白质与化合物结合对应的耐药性类别。
步骤206b,基于训练耐药性类别信息和对应的耐药性类别标签更新初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤执行。
其中,判断训练是否完成是指判断训练是否达到训练完成条件,该训练完成条件包括但不限于训练迭代次数达到最大次数、模型参数不再发生变化和模型损失信息达到预设阈值。模型损失信息是指训练结果与真实结果之间的误差。
具体地,服务器判断训练是否完成,当训练未完成时,基于训练耐药性类别信息和对应的耐药性类别标签计算得到模型的损失信息,使用模型的损失信息反向更新初始耐药性分类模型中的参数,得到更新后的耐药性分类模型,然后将更新后的耐药性分类模型作为初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤迭代执行。直到训练完成时,将训练完成时对应的初始耐药性分类模型作为目标耐药性分类模型,该目标耐药性分类模型用于识别蛋白质突变后与化合物进行结合时对应的耐药性类别。
上述分类模型训练方法,通过获取支持集和查询集,将支持集和查询集输入初始耐药性分类模型中,初始耐药性分类模型基于各个支持样本特征向量和各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,从而使得训练时使用的特征更加的准确,然后使用各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,能够使计算得到的初始类别表征向量更加准确。此时,计算各个目标查询特征向量与初始类别表征向量之间的相似程度从而确定各个查询样本特征向量对应的训练耐药性类别信息,能够使得到的训练耐药性类别信息更加的准确。然后使用训练耐药性类别信息和对应的耐药性类别标签更新初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤执行,当训练完成时,得到目标耐药性分类模型,从而能够使训练得到的目标耐药性分类模型能够提高耐药性分类的准确性。
在一个实施例中,获取支持集和查询集,包括:
获取样本数据集,样本数据集中包括各个训练样本对应的样本特征向量和耐药性类别标签,样本特征向量是基于训练样本进行特征提取得到的,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息;从样本数据集中随机抽取支持集和查询集。
其中,样本数据集是训练样本数据的集合。野生型蛋白质信息是指野生型蛋白质的具体信息,包括但不限于野生型蛋白质的结构,野生型蛋白质的理化性质等等。突变型蛋白质信息是指突变型蛋白质的具体信息,包括但不限于突变型蛋白质的结构、突变型蛋白质的理化性质等等。化合物信息是指与野生型蛋白质以及突变型蛋白质能够产生相互作用的小分子化合物的具体信息,包括化合物的结构、化合物的理化性质等等。每个训练样本都包括野生型蛋白质信息、突变型蛋白质信息和化合物信息。
具体地,服务区获取到各个训练样本,即获取到每个训练样本中的野生型蛋白质信息、突变型蛋白质信息和化合物信息,然后对训练样本进行特征提取,得到样本特征向量,其中,提取的样本特征向量中的特征包括但不限于野生型蛋白质结构特征、突变型蛋白质结构特征、野生型蛋白质理化性质特征、突变型蛋白质理化性质特征、晶体蛋白与化合物相互作用的结构特征、化合物与残基相互作用的理化性质特征以及通过打分函数提取到的能量特征等等。此时,服务器得到样本数据集,然后从样本数据集中进行随机抽取支持集中的训练样本和查询集中的训练样本,其中,可以是有放回抽取,也可以是无放回抽取,得到支持集和查询集。
在上述实施例中,通过从样本数据集中抽取得到支持集和查询集,然后使用支持集合查询集进行模型训练,有助于提升训练得到的耐药性分类模型进行分类的准确性。
在一个实施例中,在得到目标耐药性分类模型之后,还包括:
将目标耐药性分类模型作为初始耐药性分类模型,并返回从样本数据集中随机抽取支持集和查询集的步骤执行,直到达到最终训练完成条件时,将达到最终训练完成条件时的初始耐药性分类模型作为最终耐药性分类模型。
其中,最终训练完成条件是指训练得到最终耐药性分类模型的条件,包括训练次数达到最终训练的最大上限或者模型的参数不再发生变化。
具体地,服务器在得到目标耐药性分类模型时,还可以继续进行训练,即将目标耐药性分类模型作为初始耐药性分类模型,并返回从样本数据集中随机抽取支持集和查询集的步骤执行,即每次训练得到目标耐药性分类模型时,再从样本数据集中随机抽取支持集和查询集,再重新进行训练。直到达到最终训练完成条件时,将达到最终训练完成条件时的初始耐药性分类模型作为最终耐药性分类模型。
在一个具体的实施例中,可以使用episodic(元学习策略)训练策略训练得到最终耐药性分类模型,即从样本数据集中随机采样的2-way k-shot(2个类别,每个类别中有k个样本)任务,每个任务中都包含随机抽取到的支持集和查询集,当所有任务都训练完成时,得到最终耐药性分类模型。
在上述实施例中,通过不断抽取支持集和查询集,使用支持集和查询集进行训练,并得到最终耐药性分类模型,从而提高了训练得到的最终耐药性分类模型泛化能力。
在一个实施例中,如图3所示,在获取样本数据集之前,还包括:
步骤302,获取训练样本,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息。
步骤304,基于野生型蛋白质信息和化合物信息进行野生特征提取,得到野生特征向量。
其中,野生特征向量是指使用野生型蛋白质信息和化合物信息提取得到的野生特征的向量。野生特征是指野生型蛋白质信息和化合物信息对应的特征,包括但不限于结构特征、理化性质特征以及能量特征。理化性质(physicochemical property)衡量化学物质特性的指标。是指物理性质和化学性质,物理性质包括熔沸点,常温下的状态,颜色,化学性质包括酸碱度。理化性质特征包括物理性质特征和化学性质特征。
具体地,服务器可以从数据库中获取训练样本,训练样本包括野生型蛋白质信息、野生型蛋白质信息对应的突变型蛋白质信息以及能够与野生型蛋白质和突变型化合物产生相互作用的化合物信息。然后服务器使用野生型蛋白质信息和化合物信息进行野生特征提取,得到野生特征向量。即可以通过野生型蛋白质信息和化合物信息中的结构信息提取到结构特征,比如,野生型蛋白质结构特征、化合物结构特征以及野生型蛋白质和化合物产生相互作用后的结构特征。可以通过野生型蛋白质信息和化合物信息中的理化性质信息提取到理化性质特征,比如,野生型蛋白质理化性质特征,化合物理化性质特征以及野生型蛋白质和化合物产生相互作用后的理化性质特征。还可以通过打分函数提取到野生型蛋白质和化合物产生相互作用时的能量特征,其中,可以通过基于经验的打分函数提取到非物理的能量特征,也可以通过基于物理和经验势能的能量函数提取到能量特征,还可以通过基于知识的打分函数提取到能量特征。
步骤306,基于突变型蛋白质信息和化合物信息进行突变特征提取,得到突变特征向量。
其中,突变特征向量是指使用突变型蛋白质信息和化合物信息提取得到的突变特征的向量。突变特征是指突变生型蛋白质信息和化合物信息对应的特征,包括但不限于结构特征、理化性质特征以及能量特征。
具体地,服务器使用突变型蛋白质信息和化合物信息进行突变特征提取,得到突变特征向量。即可以通过突变型蛋白质信息和化合物信息中的结构信息提取到结构特征,比如,突变型蛋白质结构特征、化合物结构特征以及突变型蛋白质和化合物产生相互作用后的结构特征。可以通过突变型蛋白质信息和化合物信息中的理化性质信息提取到理化性质特征,比如,突变型蛋白质理化性质特征,化合物理化性质特征以及突变型蛋白质和化合物产生相互作用后的理化性质特征。还可以通过打分函数提取到突变型蛋白质和化合物产生相互作用时的能量特征,其中,可以通过基于经验的打分函数提取到非物理的能量特征,也可以通过基于物理和经验势能的能量函数提取到能量特征,还可以通过基于知识的打分函数提取到能量特征。
步骤308,基于野生特征向量和突变特征向量得到训练样本对应的样本特征向量。
其中,样本特征向量是指训练样本对应的样本特征的向量。
具体地,服务器将提取得到的野生特征向量和突变特征向量作为训练样对应的样本特征向量。
在上述实施例中,通过提取得到野生特征向量和突变特征向量,然后基于野生特征向量和突变特征向量得到训练样本对应的样本特征向量,能够使得到的样本特征向量更加的准确。
在一个实施例中,如图4所示,从样本数据集中随机抽取支持集和查询集,包括:
步骤402,从样本数据集中进行随机抽样,得到查询集;
步骤404,计算查询集中各个查询样本特征向量分别与样本数据集中各个样本特征向量的相似程度;
其中,相似程度用于表征查询样本特征向量与样本特征向量的相似性,
具体地,服务器先从样本数据集中进行随机抽取训练样本,得到查询集。然后使用相似度算法计算查询集中每个查询样本特征向量分别与样本数据集中每个样本特征向量的相似程度。其中,相似度算法可以使用距离相似度算法,也可以使用余弦相似度算法等等。服务器就得到了每个查询样本特征向量分别与每个样本特征向量的相似程度。
步骤406,基于相似程度将样本数据集中的各个样本特征向量进行排序,得到样本特征向量序列;
其中,样本特征向量序列是指根据相似程度进行排序得到的样本特征向量的序列。
具体地,服务器按照相似程度由高到低的顺序将各个样本特征向量进行排序,得到样本特征向量序列,也可以由低到高的顺序将各个样本特征向量进行排序,得到样本特征向量序列。
步骤408,从样本特征向量序列中依次选取预设数量的样本特征向量,得到待抽取样本数据集;
其中,待抽取样本数据集是指抽取支持集时使用的部分样本数据集。预设数量是指预先设置好的要选取待抽取训练样本的数量。
具体地,服务器按照相似程度从高到低的顺序依次从样本特征向量序列中选取预设数量的样本特征向量,得到待抽取样本数据集。其中,也可以是预先设置好的待抽取样本数据集的训练样本数量是样本数据集中样本总数量的一定比例的训练样本。比如,预先设置好抽取5%的训练样本作为待抽取样本数据集。
步骤410,从待抽取样本数据集中进行随机抽取,得到支持集。
具体地,然后服务器从待抽取样本数据集中随机抽取训练样本,得到支持集。
在一个实施例中,服务器使用非线性降维算法t-SNE((t-distributedstochastic neighbor embedding,t分布随机邻域嵌入)对查询集中的查询特征向量和样本数据集中的样本特征向量进行非线性降维,得到降维后的查询特征向量和降维后的样本特征向量,使用降维后的查询特征向量和降维后的样本特征向量进行相似程度的计算,能够提高计算相似程度的效率。然后从降维后的样本特征向量按照相似程度得到待抽取样本数据集,从待抽取样本数据集抽取得到降维后的支持特征向量,使用降维后的支持特征向量和降维后的查询特征向量进行耐药性分类模型的训练,进一步避免了数据集之间特征分布差异大的问题,能够提高训练得到的耐药性分类模型的准确性,
在上述实施例中,通过先抽取查询集,然后计算查询集中查询特征向量与样本数据集中样本特征向量的相似程度,然后根据相似程度选取次选取预设数量的样本特征向量,得到待抽取样本数据集,再从待抽取样本数据集抽取训练样本得到支持集,从而使得抽取得到的支持集与查询集中的特征分布差异小,然后使用支持集与查询集训练得到耐药性分类模型,能够提高训练得到的耐药性分类模型在分类时的准确性。
在一个实施例中,如图5所示,步骤204,即基于各个支持样本特征向量和各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,包括:
步骤502,获取初始特征筛选参数。
步骤504,基于初始特征筛选参数分别对各个支持样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量。
其中,特征筛选参数是指用于进行特征筛选参数的参数,特征筛选参数是需要通过训练更新初始特征筛选参数后得到的。初始特征筛选参数是初始化的特征筛选参数。不同的样本特征有不同的特征筛选参数,即每个样本特征都有对应的特征筛选参数。
具体地,服务器获取到初始特征筛选参数,该初始特征筛选参数可以是随机初始化得到的,也可以是为零初始化得到的,还可以是从数据库中直接获取到的。然后服务器使用初始特征筛选参数与每个支持样本特征向量进行相乘,即进行耐药性相关特征筛选,得到各个目标支持特征向量。
步骤506,基于初始特征筛选参数对各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标查询特征向量。
具体地,服务器使用初始特征筛选参数与每个查询样本特征向量进行相乘滤除与耐药性分类识别无法的特征,得到各个目标查询特征向量。
在上述实施例中,通过使用特征筛选参数对支持样本特征向量和查询样本特征向量进行相乘,从而滤除掉与耐药性分类识别无法的特征,得到目标支持特征向量和目标查询特征向量,然后使用目标支持特征向量和目标查询特征向量进行耐药性分类模型的训练,能够提高训练得到的耐药性分类模型的分类准确性。
在一个实施例中,如图6所示,步骤204,即基于各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,包括:
步骤602,将各个目标支持特征向量进行映射,得到各个映射特征向量。
其中,映射特征向量是指使用嵌入函数将目标支持特征向量映射到嵌入空间得到的向量。
具体地,服务器将每个目标支持特征向量通过嵌入函数映射到嵌入空间中,得到各个映射特征向量,其中,嵌入函数是通过训练得到的,可以是embedding函数等。
步骤604,获取初始置信度计算参数,基于各个映射特征向量使用初始置信度计算参数计算得到各个映射特征向量对应的置信度。
其中,置信度计算参数是指计算映射特征向量对应的训练样本的置信度的参数,不同的映射特征向量有不同的置信度,即不同的训练样本有不同的置信度。置信度是用于表征训练样本的可信程度,置信度越高,使用对应训练样本进行训练的效率就越好。初始置信度计算参数是指初始化的置信度计算参数,可以是随机初始化得到的。
具体地,服务器可以直接从数据库中获取到初始置信度计算参数,也可以是通过随机初始化得到初始置信度计算参数,还可以获取到第三方服务器提供的初始置信度计算参数。然后服务器将每个映射特征向量与初始置信度计算参数进行相乘,得到每个映射特征向量对应的置信度。比如,服务器可以使用自适应样本加权策略Meta-Weight-Net(MW-Net)来计算映射特征向量对应的置信度。即将各个映射特征向量作为MW-Net的输入,输出训练样本对应的置信度,也即每个映射特征向量对应的置信度。
步骤606,基于置信度对各个映射特征向量进行加权,得到各个加权特征向量。
具体地,服务器使用置信度对每个映射特征向量进行加权,即通过对训练样本进行重赋权,可以使用置信度对训练样本进行筛选,得到各个加权特征向量,使得到的加权特征向量更能表征对应的训练样本。
步骤608,基于各个加权特征向量计算耐药性类别对应的初始类别表征向量。
具体地,服务器按照耐药性类别计算每个耐药性类别对应的各个加权特征向量的平均向量,就得到每个耐药性类别对应的初始类别表征向量。在一个实施例中,也可以计算各个加权特征向量的中位向量,将中位向量作为耐药性类别对应的初始类别表征向量。
在上述实施例中,通过计算每个映射特征向量对应的置信度,然后使用置信度对映射特征向量进行加权,得到各个加权特征向量,从而能够对训练样本按照置信度进行筛选,避免了训练样本中存在噪音样本的问题,然后使用加权特征向量得到初始类别表征向量,能够提高得到初始类别表征向量的准确性。
在一个实施例中,耐药性类别包括已耐药类别和未耐药类别;
如图7所示,步骤608,基于各个加权特征向量计算耐药性类别对应的初始类别表征向量,包括:
步骤702,按照各个支持样本特征向量对应的耐药性类别标签将各个加权特征向量进行划分,得到已耐药类别对应的加权特征向量和未耐药类别对应的加权特征向量。
具体地,由于加权特征向量时基于支持样本特征向量得到的,则每个加权特征向量都有对应的耐药性类别标签,该耐药性类别标签包括已耐药类别对应的标签和未耐药类别对应的标签。服务器按照各个支持样本特征向量对应的耐药性类别标签将各个加权特征向量进行划分,就得到已耐药类别对应的各个加权特征向量和未耐药类别对应的各个加权特征向量。
步骤704,基于已耐药类别对应的加权特征向量进行向量平均,得到已耐药类别对应的第一初始类别表征向量。
其中,第一初始类别表征向量是用于表征已耐药类别的向量。
具体地,服务器计算已耐药类别对应的各个加权特征向量的平均向量,将该平均向量作为已耐药类别对应的第一初始类别表征向量。
步骤706,基于未耐药类别对应的加权特征向量进行向量平均,得到未耐药类别对应的第二初始类别表征向量。
其中,第二初始类别表征向量是用于表征未耐药类别的向量。
具体地,服务器计算未耐药类别对应的各个加权特征向量的平均向量,将该平均向量作为未耐药类别对应的第二初始类别表征向量。在一个具体的实施例中,已耐药类别是指化合物(配体)与野生型以及突变型的蛋白靶点(受体)之间的相对结合自由能差大于1.36kcal/mol。未耐药类别是指化合物(配体)与野生型以及突变型的蛋白靶点(受体)之间的相对结合自由能差小于1.36kcal/mol。
在上述实施例中,通过已耐药类别标签对应的各个加权特征向量进行平均,得到第一初始类别表征向量,并通过未耐药类别标签对应的各个加权特征向量进行平均,得到第二初始类别表征向量,能够提高得到初始类别表征向量的准确性,方便后续使用。
在一个实施例中,如图8所示,步骤204,基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息,包括:
步骤802,计算当前目标查询特征向量分别与第一初始类别表征向量和第二初始类别表征向量之间的距离,得到当前第一初始距离和当前第二初始距离。
其中,当前目标查询特征向量是指当前需要计算相似程度的目标查询特征向量。当前第一初始距离是指当前目标查询特征向量与第一初始类别表征向量之间的相似度距离。当前第二初始距离是指当前目标查询特征向量与第二初始类别表征向量之间的相似度距离
具体地,服务器使用距离相似度算法计算当前目标查询特征向量与第一初始类别表征向量之间的距离,得到当前第一初始距离,并计算当前目标查询特征向量与第二初始类别表征向量之间的距离,得到当前第二初始距离。其中,距离相似度算法可以是欧式距离算法等等。
步骤804,比较当前第一初始距离和当前第二初始距离,当当前第一目标距离超过当前第二目标距离时,当前目标查询特征向量对应的训练耐药性类别信息为未耐药类别,当当前第一目标距离未超过当前第二目标距离时,当前目标查询特征向量对应的耐药性类别信息为已耐药类别。
具体地,服务器将当前第一初始距离和当前第二初始距离的大小进行比较,当当前第一目标距离超过当前第二目标距离时,说明当前目标查询特征向量与第二初始类别表征向量的距离较近,则说明当前目标查询特征向量对应的训练耐药性类别信息为未耐药类别。当当前第一目标距离未超过当前第二目标距离时,说明当前目标查询特征向量与第一初始类别表征向量的距离较近,则说明当前目标查询特征向量对应的训练耐药性类别信息为已耐药类别。
在上述实施例中,通过计算目标查询特征向量与初始类别表征向量之间的距离,然后根据距离确定目标查询特征向量所对应的耐药性类别,提高了得到的耐药性类别的准确性。
在一个实施例中,初始耐药性分类模型包括初始特征筛选网络和初始分类网络。如图9所示,步骤204,将支持集和查询集输入初始耐药性分类模型中,包括:
步骤902,将支持集和查询集输入初始耐药性分类模型中,初始耐药性分类模型将各个支持样本特征向量和各个查询样本特征向量输入初始特征筛选网络中。
其中,初始特征筛选网络是指网络参数初始化的特征筛选网络,特征筛选网络是用于滤除与耐药性分类识别无关特征的网络。初始分类网络是初始化的分类网络,分类网络是用于进行耐药性分类识别的网络。
具体地,服务器将支持集和查询集输入初始耐药性分类模型中,即在初始耐药性分类模型中将各个支持样本特征向量和各个查询样本特征向量输入初始特征筛选网络中。
步骤904,初始特征筛选网络基于各个支持样本特征向量和各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,并将各个目标支持特征向量和各个目标查询特征向量输入分类网络中。
具体地,初始特征筛选网络进行耐药性相关特征筛选,即通过对各个支持样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量,并通过对各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标查询特征向量。然后将各个目标支持特征向量和各个目标查询特征向量输入分类网络中。在一个具体的实施例中,该特征筛选网络可以是Softmax(逻辑回归)网络,使用该初始的softmax网络进行耐药性相关特征筛选。即可以使用如下所示的公式(1)进行特征筛选。
其中,f表示Softmax网络,θ表示特征筛选网络参数,x是指输入的特征向量,xnew是指输出的特征向量。xnew=β(θ)⊙x表示输入的特征向量与特征筛选网络参数对应位置元素相乘。exp是指按照元素计算的指数运算符,i是指第i个输入的特征向量,j是指输入特征向量的总数量。表示所有网络参数向量归一化后的总和为1。表示将网络参数向量归一化。
步骤906,分类网络基于各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,并基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息。
具体地,分类网络获取到输入的各个目标支持特征向量和各个目标查询特征向量,使用不同耐药性类别标签对应的目标支持特征向量进行平均计算,得到不同耐药性类别对应的初始类别表征向量,然后计算各个目标查询特征向量与初始类别表征向量之间的相似程度,根据该相似程度确定各个查询样本特征向量对应的训练耐药性类别信息。
在一个具体的实施例中,可以使用如下所示的公式(2)计算类别表征向量。
其中,Cn表示类别表征向量,n表示类别,本申请中n∈{0,1},是离散的。Sn表示耐药性类别n对应的各个支持特征向量。yi表示第i个支持特征向量对应的耐药性类别标签。xi表示第i个支持特征向量。fθ(xi)表示第i个支持特征向量x经过softmax网络层输出的目标支持特征向量。g表示嵌入函数,φ是指映射参数。
然后,可以使用如下所示的公式(3)计算各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息。
其中,pφ,θ(y|x,S)是指分类网络输出的查询集中查询样本特征向量x属于y类的概率。S是指支持集。d(gφ(fθ(xi)),Cn)表示查询样本特征向量x与类别表征向量之间的相似程度。
在上述实施例中,通过初始特征筛选网络进行特征滤除与耐药性分类识别无关的特征,得到目标支持特征向量,然后通过使用初始分类网络计算耐药性类别对应的初始类别表征向量,并基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息,从而使得到的训练耐药性类别信息更加的准确。
在一个实施例中,分类网络包括样本筛选网络和原型网络;如图10所示,步骤904,将各个目标支持特征向量和各个目标查询特征向量输入分类网络中,包括:
步骤1002,将各个目标支持特征向量输入样本筛选网络中,样本筛选网络将各个目标支持特征向量进行映射,得到各个映射特征向量;获取初始置信度计算参数,基于各个映射特征向量使用初始置信度计算参数计算得到各个映射特征向量对应的置信度;基于置信度对各个映射特征向量进行加权,得到各个加权特征向量,并将各个加权特征向量输入原型网络中。
其中,样本筛选网络是对输入的训练样本进行筛选的网络。
具体地,服务器将各个目标支持特征向量输入样本筛选网络中,样本筛选网络将各个目标支持特征向量进行嵌入空间的映射,得到各个映射特征向量。然后服务器获取到样本筛选网络中的初始置信度计算参数,计算各个映射特征向量分别与初始置信度计算参数的乘积,得到各个映射特征向量对应的置信度;然后使用置信度对各个映射特征向量进行加权,得到各个加权特征向量,最后将各个加权特征向量输入原型网络中。在一个具体的实施例中,服务器可以使用如下所示的公式(4)来加权特征向量。
vi·gφ(fθ(xi)) 公式(4)
其中,vi表示第i个支持集中支持特征向量对应的置信度,vi∈[0,1]表示置信度的范围在0到1之间。gφ(fθ(xi))vi表示第i个映射特征向量。同计算置信度与映射特征向量之间的乘积,得到加权特征向量。其中,置信度可以将映射特征向量输入到MW-Net中,得到输出的置信度,即可以使用如下所示的公式(5)来计算。
vi=V(gφ(fθ(xi));Θ) 公式(5)
其中,V表示样本筛选网络中的置信度计算网络,Θ表示样本筛选网络中的置信度计算参数。
步骤1004,原型网络基于各个加权特征向量计算耐药性类别对应的初始类别表征向量,并基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息。
具体地,原型网络使用各个加权特征向量计算耐药性类别对应的初始类别表征向量,并计算各个目标查询特征向量与初始类别表征向量之间的相似程度,根据该相似程度得到各个查询样本特征向量对应的训练耐药性类别信息。
在一个具体的实施例中,服务器可以使用如下所示的公式(6)计算得到类别表征向量。
其中,V(gφ(fθ(xi));Θ)·gφ(fθ(xi))表示第i个加权特征向量。然后,可以使用如下所示的公式(7)计算得到查询样本特征向量对应的训练耐药性类别信息。
其中,φ是指将特征向量映射到嵌入空间中的映射参数,θ表示特征筛选网络参数。Θ表示样本筛选网络中的置信度计算参数。如图11所示,为类别表征向量的示意图,其中,通过小样本的支持集计算得到的已耐药类别对应的类别表征向量C1和未耐药类别对应的类别表征向量C2,然后计算查询集中查询特征向量a对应的训练耐药性类别信息,该查询特征向量对应的目标查询特征向量与类别表征向量C1的相似程度较高,则该查询特征向量a对应的训练耐药性类别信息为已耐药类别。
在上述实施例中,通过样本筛选网络按照置信度进行样本筛选,得到各个加权特征向量,最后将各个加权特征向量输入原型网络中,然后在通过原型网络计算类别表征向量,通过类别表征向量与各个查询样本特征向量的相似程度确定对应的训练耐药性类别信息,能够减少噪音数据,提高得到的训练耐药性类别的准确性。
在一个实施例中,如图12所示,步骤206b,基于训练耐药性类别信息和对应的耐药性类别标签更新初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤执行,当训练完成时,得到目标耐药性分类模型,包括:
步骤1202,基于训练耐药性类别信息和对应的耐药性类别标签进行对数损失计算,得到初始训练损失信息。
其中,初始训练损失信息是指初始训练时计算得到的训练耐药性类别信息和对应的耐药性类别标签之间的误差。
具体地,服务器使用对数损失函数计算训练耐药性类别信息和对应的耐药性类别标签之间的误差,得到初始训练损失信息。
步骤1204,计算初始训练损失信息的梯度,基于梯度反向初始耐药性分类模型,得到更新耐药性分类模型。
步骤1206,将更新耐药性分类模型作为初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤执行,直到达到训练完成条件时,将达到训练完成条件时的初始耐药性分类模型作为目标耐药性分类模型。
具体地,服务器使用梯度下降算法来反向更新初始耐药性分类模型。其中,可以先判断是否达到训练完成条件,比如,可以比较初始训练损失信息是否达到预先设置好的损失阈值,当未达到时,说明训练未完成,此时,使用初始训练损失信息计算梯度,基于梯度反向更新初始耐药性分类模型中的参数,当更新完成时,得到更新耐药性分类模型,再将更新耐药性分类模型作为初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤执行,直到达到训练完成条件时将达到训练完成条件时的初始耐药性分类模型作为目标耐药性分类模型。
在一个具体的实施例中,使用如下所示的公式(8)来作为损失函数来更新初始耐药性分类模型。
其中,表示训练样本集,xi∈X表示训练样本,X表示训练样本空间。yi∈Y表示训练样本对应的耐药性类别标签,Y表示标记空间。N是指所有训练样本的数目。每个训练样本xi都是D维的样本特征向量,yi∈{0,1}是离散的。S是指支持集,Q是指查询集。是指每次从训练样本集中抽取支持集和查询集进行训练的任务,即每个n-wayk-shot任务被定义为一个episodic d=(S;Q)。即通过上述损失函数更新耐药性分类模型中的参数φ,θ,Θ。直到参数φ,θ,Θ最小化时,将得到的参数φ,θ,Θ作为最终耐药性分类模型中的参数。
在上述实施例中,通过将训练耐药性类别信息和对应的耐药性类别标签进行对数损失计算,得到初始训练损失信息,然后使用初始训练损失信息反向更新初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤执行,直到达到训练完成条件时,将达到训练完成条件时的初始耐药性分类模型作为目标耐药性分类模型,即保证了训练得到的目标耐药性分类模型的准确性。
在一个实施例中,如图13所示,提供了一种分类方法,以该方法应用于图1中的服务器为例进行说明,可以理解的是,该方法也可以应用于服务器,还可以应用于包括终端和服务器的系统,并通过终端和服务器的交互实现。本实施例中,包括以下步骤:
步骤1302,获取待分类数据和样本数据,待分类数据中包括待分类特征向量,样本数据中包括各个样本特征向量和对应的样本类别标签。
其中,待分类数据是指需要进行分类的数据,待分类特征向量是指需要进行耐药性类别识别的特征向量。样本类别标签是指耐药性类别对应的标签。样本特征向量是指训练样本对应的特征向量。
具体地,服务器可以直接从数据库获取待分类数据和样本数据。服务器也可以获取到需要进行耐药性分类的野生型蛋白质信息、突变型蛋白质信息以及化合物信息,然后提取到野生型蛋白质信息、突变型蛋白质信息和化合物信息对应的待分类特征,得到待分类特征向量。在一个具体的实施例中,从野生型蛋白质信息、突变型蛋白质信息和化合物信息中提取到野生型蛋白质结构特征、突变型蛋白质结构特征、野生型蛋白质理化性质特征、突变型蛋白质理化性质特征、晶体蛋白与化合物相互作用的结构特征、化合物与残基相互作用的理化性质特征以及通过打分函数提取到的能量特征,得到野生型特征向量和突变型特征向量,然后计算野生型特征向量与突变型特征向量之间的差异,得到待分类特征向量。然后从数据库中获取到各个样本特征向量和对应的样本类别标签。服务器也可以从终端中获取到待分类数据,然后从数据库中查找到各个样本特征向量和对应的样本类别标签。
步骤1304,将待分类数据和样本数据输入耐药性分类模型中,耐药性分类模型基于待分类特征向量和各个样本特征向量进行耐药性相关特征筛选,得到目标待分类特征向量和各个目标样本特征向量,基于各个目标样本特征向量计算样本类别对应的目标类别表征向量,并基于目标待分类特征向量与目标类别表征向量之间的相似程度确定待分类特征向量对应的耐药性类别信息。
其中,耐药性分类模型可以是上述耐药性分类模型训练方法中任意一实施例中训练得到的模型。
具体地,服务器将已训练的耐药性分类模型部署到服务器中,服务器在接收到待分类数据和样本数据时,将待分类数据和样本数据输入耐药性分类模型中进行耐药性分类识别。即耐药性分类模型基于待分类特征向量和各个样本特征向量进行耐药性相关特征筛选,得到目标待分类特征向量和各个目标样本特征向量。基于各个目标样本特征向量计算样本类别对应的目标类别表征向量,并基于目标待分类特征向量与目标类别表征向量之间的相似程度确定待分类特征向量对应的耐药性类别信息。
在一个实施例中,将待分类数据和样本数据输入耐药性分类模型中,耐药性分类模型通过特征筛选网络将待分类特征向量和各个样本特征向量进行耐药性相关特征筛选,得到目标待分类特征向量和各个目标样本特征向量,然后将各个目标样本特征向量通过样本筛选网络进行映射,得到各个映射特征向量;获取置信度计算参数,基于各个映射特征向量使用置信度计算参数计算得到各个映射特征向量对应的置信度;基于置信度对各个映射特征向量进行加权,得到各个加权特征向量,并将各个加权特征向量输入原型网络中,原型网络基于各个加权特征向量计算耐药性类别对应的类别表征向量,并计算目标待分类特征向量与类别表征向量之间的相似程度,根据该相似程度得到各个查询样本特征向量对应的训练耐药性类别信息。
步骤1306,耐药性分类模型输出待分类数据对应的耐药性类别信息。
具体地,服务器中的耐药性分类模型将得到的待分类数据对应的耐药性类别信息进行输出,从而得到待分类数据对应的耐药性类别信息,然后可以将耐药性类别信息返回到终端进行展示。
在一个实施例中,服务器耐药性分类模型按照各个样本特征向量对应的样本类别标签将各个目标加权特征向量进行划分,得到已耐药类别对应的目标加权特征向量和未耐药类别对应的目标加权特征向量;基于已耐药类别对应的目标加权特征向量进行向量平均,得到已耐药类别对应的第一目标类别表征向量。基于未耐药类别对应的目标加权特征向量进行向量平均,得到未耐药类别对应的第二目标类别表征向量。然后计算目标待分类特征向量分别与第一目标类别表征向量和第二目标类别表征向量之间的距离,得到第一目标距离和第二目标距离,比较第一目标距离和第二目标距离,当第一目标距离超过第二目标距离时,待分类特征向量对应的耐药性类别信息为未耐药类别,当第一目标距离未超过第二目标距离时,待分类特征向量对应的耐药性类别信息为已耐药类别。
上述分类方法,通过获取待分类数据和样本数据,将待分类数据和样本数据输入耐药性分类模型中,耐药性分类模型基于待分类特征向量和各个样本特征向量进行耐药性相关特征筛选,得到目标待分类特征向量和各个目标样本特征向量,从而能够减少与耐药性无法的特征,使得到的目标待分类特征向量更加的准确。然后基于各个目标样本特征向量计算样本类别对应的目标类别表征向量,并计算目标待分类特征向量与目标类别表征向量之间的相似程度从而确定待分类特征向量对应的耐药性类别信息,由于耐药性分类模型是使用与耐药性相关的特征进行训练得到,然后使用耐药性分类模型进行耐药性分类识别,得到待分类特征向量对应的耐药性类别信息,从而能够使得到的耐药性类别信息更加的准确。
在一个具体的实施例中,如图14所示,为耐药性分类方法的具体流程示意图,具体来说:服务器获取到终端上传的待分类数据,该待分类数据中包括野生型蛋白质信息、突变型蛋白质信息和化合物信息对应的待分类特征,得到待分类特征向量,然后对待分类数据进行非物理模型的特征提取,即提取到结构特征、理化性质特征以及基于经验的打分函数提取到能量特征。在对待分类数据进行物理和经验势能的特征提取,即通过基混合的物理和经验势能的建模程序Rosetta计算能量特征,从而得到野生型特征向量和突变型特征向量,计算野生型特征向量和突变型特征向量之间的差值,得到待分类特征向量,然后服务器从数据库中获取到样本数据,将待分类特征向量、各个样本特征向量和对应的样本类别标签输入到已训练的耐药性分类模型中进行耐药性预测,得到输出的耐药性类别信息,根据耐药性类别信息确定该野生型蛋白质信息进行蛋白质突变后得到的突变型蛋白质与化合物结合时是否产生耐药性。
在一个具体的实施例中,如图15所示,提供一种分类模型训练方法,该方法执行于服务器中,具体包括以下步骤:
步骤1502,获取样本数据集,样本数据集中包括各个训练样本对应的样本特征向量和耐药性类别标签,样本特征向量是基于训练样本进行特征提取得到的,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息;
步骤1504,从样本数据集中进行随机抽样,得到查询集。计算查询集中各个查询样本特征向量分别与样本数据集中各个样本特征向量的相似程度。基于相似程度将样本数据集中的各个样本特征向量进行排序,得到样本特征向量序列。从样本特征向量序列中依次选取预设数量的样本特征向量,得到待抽取样本数据集。从待抽取样本数据集中进行随机抽取,得到支持集。
步骤1506,将支持集和查询集输入初始耐药性分类模型中,初始耐药性分类模型将各个支持样本特征向量和各个查询样本特征向量输入初始特征筛选网络中。
步骤1507,初始特征筛选网络基于各个支持样本特征向量和各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,将各个目标支持特征向量输入样本筛选网络中。
步骤1508,样本筛选网络将各个目标支持特征向量进行映射,得到各个映射特征向量;获取初始置信度计算参数,基于各个映射特征向量使用初始置信度计算参数计算得到各个映射特征向量对应的置信度。基于置信度对各个映射特征向量进行加权,得到各个加权特征向量,并将各个加权特征向量输入原型网络中。
步骤1509,原型网络基于各个加权特征向量计算耐药性类别对应的初始类别表征向量,并基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息。
步骤1510,基于训练耐药性类别信息和对应的耐药性类别标签进行对数损失计算,得到初始训练损失信息。计算初始训练损失信息的梯度,基于梯度反向初始耐药性分类模型,得到更新耐药性分类模型。
步骤1511,将更新耐药性分类模型作为初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤执行,直到达到训练完成条件时,将达到训练完成条件时的初始耐药性分类模型作为目标耐药性分类模型。
步骤1512,将目标耐药性分类模型作为初始耐药性分类模型,并返回从样本数据集中进行随机抽样,得到查询集的步骤执行,直到达到最终训练完成条件时,将达到最终训练完成条件时的初始耐药性分类模型作为最终耐药性分类模型。
本申请还提供一种应用场景,该应用场景应用上述的分类模型训练方法。具体地,如图16所示,为耐药性分类模型训练的架构示意图,其中,服务器从样本数据集中抽取得到查询集和支持集,支持集中包括已耐药类别对应的训练样本xa和未耐药类别对应的训练样本xb,以及每个类别对应有K个训练样本和查询集中包括了每个耐药性类别对应的训练样本x。F是指特征筛选网络,I是指样本筛选网络,网络参数都是初始化的,需要进行训练的。即服务器将支持集中的训练样本的支持特征向量输入到初始耐药性分类模型的特征筛选网络中,得到输出的目标支持特征向量,将目标支持特征向量输入到样本筛选网络中进行样本筛选,即使用置信度计算参数V进行样本筛选,得到输出的加权特征向量,基于各个加权特征向量计算耐药性类别对应的初始类别表征向量e,包括已耐药类别对应的初始类别表征向量e1和未耐药类别对应的初始类别表征向量e2。然后通过欧式距离算法计算初始类别表征向量与查询集中经过特征筛选网络得到的目标查询特征向量之间的距离d,根据距离确定训练得到的耐药性类别,然后通过对数损失函数计算耐药性类别和对应的耐药性类别标签之间的误差,根据该误差反向更新初始耐药性分类模型,直达训练完成时,得到目标耐药性分类模型。此时,完成了一次episodic任务,然后进行下一次的episodic任务,即将目标耐药性分类模型作为初始耐药性分类模型,在从训练样本集中抽取支持集和查询集,并进行循环迭代,直到所有的episodic任务完成时,得到最终的耐药性分类模型。
然后可以基于python(计算机编程语言)语言和pytorch(一个开源的Python机器学习库,基于Torch,用于自然语言处理等应用程序)库将耐药性分类模型部署到搭载Linux操作系统或Windows操作系统和CPU(中央处理器,central processing unit)计算资源的服务器上。
进一步,可以对训练得到的最终耐药性分类模型进行对比测试,具体来说:
服务器使用耐药性标准数据集Platinum和TKI(一类能抑制酪氨酸激酶活性的化合物)进行测试。服务器对数据集Platinum和TKI中的耐药性数据进行特征提取,得到样本数据集。提取得到的样本数据集如下表1所示,其中,使用RDKit(开源化学信息学与机器学习工具包),Biopython(生物信息学的资源库),FoldX(分子模拟工具),PLIP(蛋白配体非共价相互作用的分析工具),AutoDock(分子模拟软件)等非物理模型工具生成对预测蛋白质突变后的结合自由能变化具有参考价值的特征。还使用了基于混合的物理和经验势能的建模程序Rosetta计算能量特征。
表1样本数据集
其中,样本数据集中的样本特征总共有148种,其中,包括非物理模型特征129种以及基于物理和经验势能特征19种。然后从样本数据集中抽取支持集和查询集,其中,训练过程和测试过程抽取的支持集和查询集如下表2所示。
表2样本抽取表
其中,在耐药性分类模型训练(Meta-training)过程中,按照2-way 5-shot的方法从Platinum数据集中抽取支持集和查询集,即已耐药类别抽取5个样本和未耐药类别抽取5个样本。在耐药性分类模型验证(Meta-validation)过程中按照2-way 5-shot的抽取方法从Platinum数据集中抽取支持集和查询集,同时从TKI数据集抽取10个样本也作为查询集对耐药性分类模型进行验证。在进行耐药性分类模型测试(Meta-testing)时,将TKI数据集中的每个样本作为待测试的样本数据,即作为测试过程中的查询集,从Platinum数据集中按照2-way 5-shot的抽取方法抽取得到测试过程中的支持集。然后使用抽取得到的测试数据对传统方法和本申请进行测试,其中,传统方法可以是基于分字动力学的方法、也可以是传统机器学习方法等等,得到的测试评价指标表如下表3所示。
表3测试评价指标表
其中,使用AUPRC(精确率-召回率曲线下面积)作为测试的评价指标,其中,明显可以看出,本申请测试评价指标AUPRC的均值和最小值均优于其他传统方法,且方差下,耐药性分类识别的性能更加的稳定,即本申请能够进一步提升耐药性分类识别的准确性。如图17所示,为测试评价指标AUPRC的具体示意图,其中,使用random classifier(随机分类)的方法进行分类时测试评价指标AUPRC的值为0.13。从该图17中明显可以看出,本申请中的分类识别的性能更加的稳定,能够进一步提升耐药性分类识别的准确性。
的应该理解的是,虽然图2-15的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-15中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图18所示,提供了一种分类模型训练装置1800,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:数据获取模块1802、初始分类模块1804和迭代训练模块1806,其中:
数据获取模块1802,用于获取支持集和查询集,支持集包括各个支持样本特征向量和对应的耐药性类别标签,查询集包括各个查询样本特征向量和对应的耐药性类别标签;
初始分类模块1804,用于将支持集和查询集输入初始耐药性分类模型中,初始耐药性分类模型基于各个支持样本特征向量和各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,基于各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,并基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息;
迭代训练模块1806,用于基于训练耐药性类别信息和对应的耐药性类别标签更新初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤执行,当训练完成时,得到目标耐药性分类模型,目标耐药性分类模型用于识别蛋白质与化合物结合对应的耐药性类别。
在一个实施例中,数据获取模块1802,包括:
样本获取模块,用于获取样本数据集,样本数据集中包括各个训练样本对应的样本特征向量和耐药性类别标签,样本特征向量是基于训练样本进行特征提取得到的,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息;
抽取模块,用于从样本数据集中随机抽取支持集和查询集。
在一个实施例中,分类模型训练装置1800,还包括:
最终模型训练模块,用于将目标耐药性分类模型作为初始耐药性分类模型,并返回从样本数据集中随机抽取支持集和查询集的步骤执行,直到达到最终训练完成条件时,将达到最终训练完成条件时的初始耐药性分类模型作为最终耐药性分类模型。
在一个实施例中,分类模型训练装置1800,还包括:
特征提取模块,用于获取训练样本,训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息。基于野生型蛋白质信息和化合物信息进行野生特征提取,得到野生特征向量;基于突变型蛋白质信息和化合物信息进行突变特征提取,得到突变特征向量;基于野生特征向量和突变特征向量得到训练样本对应的样本特征向量。
在一个实施例中,抽取模块还用于从样本数据集中进行随机抽样,得到查询集;计算查询集中各个查询样本特征向量分别与样本数据集中各个样本特征向量的相似程度;基于相似程度将样本数据集中的各个样本特征向量进行排序,得到样本特征向量序列;从样本特征向量序列中依次选取预设数量的样本特征向量,得到待抽取样本数据集;从待抽取样本数据集中进行随机抽取,得到支持集。
在一个实施例中,初始分类模块1804还用于获取初始特征筛选参数;基于初始特征筛选参数分别对各个支持样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量;基于初始特征筛选参数对各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标查询特征向量。
在一个实施例中,初始分类模块1804还用于将各个目标支持特征向量进行映射,得到各个映射特征向量;获取初始置信度计算参数,基于各个映射特征向量使用初始置信度计算参数计算得到各个映射特征向量对应的置信度;基于置信度对各个映射特征向量进行加权,得到各个加权特征向量;基于各个加权特征向量计算耐药性类别对应的初始类别表征向量。
在一个实施例中,耐药性类别包括已耐药类别和未耐药类别;
初始分类模块1804还用于,包括:按照各个支持样本特征向量对应的耐药性类别标签将各个加权特征向量进行划分,得到已耐药类别对应的加权特征向量和未耐药类别对应的加权特征向量;基于已耐药类别对应的加权特征向量进行向量平均,得到已耐药类别对应的第一初始类别表征向量;基于未耐药类别对应的加权特征向量进行向量平均,得到未耐药类别对应的第二初始类别表征向量。
在一个实施例中,初始分类模块1804还用于计算当前目标查询特征向量分别与第一初始类别表征向量和第二初始类别表征向量之间的距离,得到当前第一初始距离和当前第二初始距离;比较当前第一初始距离和当前第二初始距离,当当前第一目标距离超过当前第二目标距离时,当前目标查询特征向量对应的训练耐药性类别信息为未耐药类别,当当前第一目标距离未超过当前第二目标距离时,当前目标查询特征向量对应的耐药性类别信息为已耐药类别。
在一个实施例中,初始耐药性分类模型包括初始特征筛选网络和初始分类网络;初始分类模块1804,还用于将支持集和查询集输入初始耐药性分类模型中,初始耐药性分类模型将各个支持样本特征向量和各个查询样本特征向量输入初始特征筛选网络中;初始特征筛选网络基于各个支持样本特征向量和各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,并将各个目标支持特征向量和各个目标查询特征向量输入分类网络中;分类网络基于各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,并基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息。
在一个实施例中,分类网络包括样本筛选网络和原型网络;初始分类模块1804还用于将各个目标支持特征向量输入样本筛选网络中,样本筛选网络将各个目标支持特征向量进行映射,得到各个映射特征向量;获取初始置信度计算参数,基于各个映射特征向量使用初始置信度计算参数计算得到各个映射特征向量对应的置信度;基于置信度对各个映射特征向量进行加权,得到各个加权特征向量,并将各个加权特征向量输入原型网络中;原型网络基于各个加权特征向量计算耐药性类别对应的初始类别表征向量,并基于各个目标查询特征向量与初始类别表征向量之间的相似程度确定各个查询样本特征向量对应的训练耐药性类别信息。
在一个实施例中,迭代训练模块1806,还用于基于训练耐药性类别信息和对应的耐药性类别标签进行对数损失计算,得到初始训练损失信息;计算初始训练损失信息的梯度,基于梯度反向初始耐药性分类模型,得到更新耐药性分类模型;将更新耐药性分类模型作为初始耐药性分类模型,并返回将支持集和查询集输入初始耐药性分类模型中的步骤执行,直到达到训练完成条件时,将达到训练完成条件时的初始耐药性分类模型作为目标耐药性分类模型。
在一个实施例中,如图19所示,提供了一种分类装置1900,该装置可以采用软件模块或硬件模块,或者是二者的结合成为计算机设备的一部分,该装置具体包括:待分类数据获取模块1902、分类模块1904和类别输出模块1906,其中:
待分类数据获取模块1902,用于获取待分类数据和样本数据,待分类数据中包括待分类特征向量,样本数据中包括各个样本特征向量和对应的样本类别标签;
分类模块1904,用于将待分类数据和样本数据输入耐药性分类模型中,耐药性分类模型基于待分类特征向量和各个样本特征向量进行耐药性相关特征筛选,得到目标待分类特征向量和各个目标样本特征向量,基于各个目标样本特征向量计算样本类别对应的目标类别表征向量,并基于目标待分类特征向量与目标类别表征向量之间的相似程度确定待分类特征向量对应的耐药性类别信息;
类别输出模块1906,用于耐药性分类模型输出待分类数据对应的耐药性类别信息。
关于分类模型训练装置以及分类装置的具体限定可以参见上文中对于分类模型训练方法以及分类方法的限定,在此不再赘述。上述分类模型训练装置以及分类装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图20所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储训练样本数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种分类模型训练方法以及分类方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图21所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种分类模型训练方法以及分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图19以及图20中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory,ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic Random Access Memory,DRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (15)
1.一种分类模型训练方法,其特征在于,所述方法包括:
获取样本数据集,从所述样本数据集中进行有放回随机抽样,得到查询集;
计算所述查询集中各个查询样本特征向量分别与所述样本数据集中各个样本特征向量的相似程度;基于所述相似程度将所述样本数据集中的各个样本特征向量进行排序,得到样本特征向量序列;从所述样本特征向量序列中依次选取预设数量的样本特征向量,得到待抽取样本数据集;从所述待抽取样本数据集中进行有放回随机抽取,得到支持集,所述支持集包括各个支持样本特征向量和对应的耐药性类别标签,所述查询集包括各个查询样本特征向量和对应的耐药性类别标签;
将所述支持集和所述查询集输入初始耐药性分类模型中,所述初始耐药性分类模型基于所述各个支持样本特征向量和所述各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,基于所述各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,并基于所述各个目标查询特征向量与所述初始类别表征向量之间的相似程度确定所述各个查询样本特征向量对应的训练耐药性类别信息;
基于所述训练耐药性类别信息和对应的所述耐药性类别标签更新所述初始耐药性分类模型,并返回将所述支持集和所述查询集输入初始耐药性分类模型中的步骤执行,当训练完成时,得到目标耐药性分类模型,所述目标耐药性分类模型用于识别蛋白质与化合物结合对应的耐药性类别。
2.根据权利要求1所述的方法,其特征在于,获取支持集和查询集,包括:
获取样本数据集,所述样本数据集中包括各个训练样本对应的样本特征向量和耐药性类别标签,所述样本特征向量是基于训练样本进行特征提取得到的,所述训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息;
从所述样本数据集中随机抽取所述支持集和所述查询集。
3.根据权利要求2所述的方法,其特征在于,在所述得到目标耐药性分类模型之后,还包括:
将所述目标耐药性分类模型作为初始耐药性分类模型,并返回从所述样本数据集中随机抽取所述支持集和所述查询集的步骤执行,直到达到最终训练完成条件时,将达到最终训练完成条件时的初始耐药性分类模型作为最终耐药性分类模型。
4.根据权利要求2所述的方法,其特征在于,在获取样本数据集之前,还包括:
获取训练样本,所述训练样本包括野生型蛋白质信息、突变型蛋白质信息和化合物信息;
基于所述野生型蛋白质信息和所述化合物信息进行野生特征提取,得到野生特征向量;
基于所述突变型蛋白质信息和所述化合物信息进行突变特征提取,得到突变特征向量;
基于所述野生特征向量和所述突变特征向量得到所述训练样本对应的样本特征向量。
5.根据权利要求1所述的方法,其特征在于,所述基于所述各个支持样本特征向量和所述各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,包括:
获取初始特征筛选参数;
基于所述初始特征筛选参数分别对所述各个支持样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量;
基于所述初始特征筛选参数对所述各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标查询特征向量。
6.根据权利要求1所述的方法,其特征在于,所述基于所述各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,包括:
将所述各个目标支持特征向量进行映射,得到各个映射特征向量;
获取初始置信度计算参数,基于所述各个映射特征向量使用所述初始置信度计算参数计算得到所述各个映射特征向量对应的置信度;
基于所述置信度对所述各个映射特征向量进行加权,得到各个加权特征向量;
基于所述各个加权特征向量计算所述耐药性类别对应的初始类别表征向量。
7.根据权利要求6所述的方法,其特征在于,所述耐药性类别包括已耐药类别和未耐药类别;
所述基于所述各个加权特征向量计算所述耐药性类别对应的初始类别表征向量,包括:
按照所述各个支持样本特征向量对应的耐药性类别标签将所述各个加权特征向量进行划分,得到所述已耐药类别对应的加权特征向量和所述未耐药类别对应的加权特征向量;
基于所述已耐药类别对应的加权特征向量进行向量平均,得到所述已耐药类别对应的第一初始类别表征向量;
基于所述未耐药类别对应的加权特征向量进行向量平均,得到所述未耐药类别对应的第二初始类别表征向量。
8.根据权利要求1所述的方法,其特征在于,所述初始耐药性分类模型包括初始特征筛选网络和初始分类网络;
所述将所述支持集和所述查询集输入初始耐药性分类模型中,包括:
将所述支持集和所述查询集输入初始耐药性分类模型中,所述初始耐药性分类模型将所述各个支持样本特征向量和所述各个查询样本特征向量输入所述初始特征筛选网络中;
所述初始特征筛选网络基于所述各个支持样本特征向量和所述各个查询样本特征向量进行耐药性相关特征筛选,得到所述各个目标支持特征向量和所述各个目标查询特征向量,并将所述各个目标支持特征向量和所述各个目标查询特征向量输入所述分类网络中;
所述分类网络基于所述各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,并基于所述各个目标查询特征向量与所述初始类别表征向量之间的相似程度确定所述各个查询样本特征向量对应的训练耐药性类别信息。
9.根据权利要求8所述的方法,其特征在于,所述分类网络包括样本筛选网络和原型网络;
将所述各个目标支持特征向量和所述各个目标查询特征向量输入所述分类网络中,包括:
将所述各个目标支持特征向量输入所述样本筛选网络中,所述样本筛选网络将所述各个目标支持特征向量进行映射,得到各个映射特征向量;获取初始置信度计算参数,基于所述各个映射特征向量使用所述初始置信度计算参数计算得到所述各个映射特征向量对应的置信度;基于所述置信度对所述各个映射特征向量进行加权,得到各个加权特征向量,并将所述各个加权特征向量输入所述原型网络中;
所述原型网络基于所述各个加权特征向量计算所述耐药性类别对应的初始类别表征向量,并基于所述各个目标查询特征向量与所述初始类别表征向量之间的相似程度确定所述各个查询样本特征向量对应的训练耐药性类别信息。
10.根据权利要求1所述的方法,其特征在于,所述基于所述训练耐药性类别信息和对应的所述耐药性类别标签更新所述初始耐药性分类模型,并返回将所述支持集和所述查询集输入初始耐药性分类模型中的步骤执行,当训练完成时,得到目标耐药性分类模型,包括:
基于所述训练耐药性类别信息和对应的所述耐药性类别标签进行对数损失计算,得到初始训练损失信息;
计算所述初始训练损失信息的梯度,基于所述梯度反向初始耐药性分类模型,得到更新耐药性分类模型;
将所述更新耐药性分类模型作为初始耐药性分类模型,并返回将所述支持集和所述查询集输入初始耐药性分类模型中的步骤执行,直到达到训练完成条件时,将达到训练完成条件时的初始耐药性分类模型作为目标耐药性分类模型。
11.一种分类方法,其特征在于,所述方法包括:
获取待分类数据和样本数据,所述待分类数据中包括待分类特征向量,所述样本数据中包括各个样本特征向量和对应的样本类别标签;
将所述待分类数据和样本数据输入耐药性分类模型中,所述耐药性分类模型基于所述待分类特征向量和所述各个样本特征向量进行耐药性相关特征筛选,得到目标待分类特征向量和各个目标样本特征向量,基于所述各个目标样本特征向量计算样本类别对应的目标类别表征向量,并基于所述目标待分类特征向量与所述目标类别表征向量之间的相似程度确定所述待分类特征向量对应的耐药性类别信息,其中,通过获取样本数据集,从所述样本数据集中进行有放回随机抽样,得到查询集;计算所述查询集中各个查询样本特征向量分别与所述样本数据集中各个样本特征向量的相似程度;基于所述相似程度将所述样本数据集中的各个样本特征向量进行排序,得到样本特征向量序列;从所述样本特征向量序列中依次选取预设数量的样本特征向量,得到待抽取样本数据集;从所述待抽取样本数据集中进行有放回随机抽取,得到支持集,使用所述查询集和所述支持集训练得到所述耐药性分类模型;
所述耐药性分类模型输出所述待分类数据对应的耐药性类别信息。
12.一种分类模型训练装置,其特征在于,所述装置包括:
数据获取模块,用于获取样本数据集,从所述样本数据集中进行有放回随机抽样,得到查询集;计算所述查询集中各个查询样本特征向量分别与所述样本数据集中各个样本特征向量的相似程度;基于所述相似程度将所述样本数据集中的各个样本特征向量进行排序,得到样本特征向量序列;从所述样本特征向量序列中依次选取预设数量的样本特征向量,得到待抽取样本数据集;从所述待抽取样本数据集中进行有放回随机抽取,得到支持集,所述支持集包括各个支持样本特征向量和对应的耐药性类别标签,所述查询集包括各个查询样本特征向量和对应的耐药性类别标签;
初始分类模块,用于将所述支持集和所述查询集输入初始耐药性分类模型中,所述初始耐药性分类模型基于所述各个支持样本特征向量和所述各个查询样本特征向量进行耐药性相关特征筛选,得到各个目标支持特征向量和各个目标查询特征向量,基于所述各个目标支持特征向量计算耐药性类别对应的初始类别表征向量,并基于所述各个目标查询特征向量与所述初始类别表征向量之间的相似程度确定所述各个查询样本特征向量对应的训练耐药性类别信息;
迭代训练模块,用于基于所述训练耐药性类别信息和对应的所述耐药性类别标签更新所述初始耐药性分类模型,并返回将所述支持集和所述查询集输入初始耐药性分类模型中的步骤执行,当训练完成时,得到目标耐药性分类模型,所述目标耐药性分类模型用于识别蛋白质与化合物结合对应的耐药性类别。
13.一种分类装置,其特征在于,所述装置包括:
待分类数据获取模块,用于获取待分类数据和样本数据,所述待分类数据中包括待分类特征向量,所述样本数据中包括各个样本特征向量和对应的样本类别标签;
分类模块,用于将所述待分类数据和样本数据输入耐药性分类模型中,所述耐药性分类模型基于所述待分类特征向量和所述各个样本特征向量进行耐药性相关特征筛选,得到目标待分类特征向量和各个目标样本特征向量,基于所述各个目标样本特征向量计算样本类别对应的目标类别表征向量,并基于所述目标待分类特征向量与所述目标类别表征向量之间的相似程度确定所述待分类特征向量对应的耐药性类别信息,其中,通过获取样本数据集,从所述样本数据集中进行有放回随机抽样,得到查询集;计算所述查询集中各个查询样本特征向量分别与所述样本数据集中各个样本特征向量的相似程度;基于所述相似程度将所述样本数据集中的各个样本特征向量进行排序,得到样本特征向量序列;从所述样本特征向量序列中依次选取预设数量的样本特征向量,得到待抽取样本数据集;从所述待抽取样本数据集中进行有放回随机抽取,得到支持集,使用所述查询集和所述支持集训练得到所述耐药性分类模型;
类别输出模块,用于所述耐药性分类模型输出所述待分类数据对应的耐药性类别信息。
14.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110355164.6A CN113299346B (zh) | 2021-04-01 | 2021-04-01 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
PCT/CN2022/083074 WO2022206604A1 (zh) | 2021-04-01 | 2022-03-25 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
US17/984,623 US20230084638A1 (en) | 2021-04-01 | 2022-11-10 | Method and apparatus for classification model training and classification, computer device, and storage medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110355164.6A CN113299346B (zh) | 2021-04-01 | 2021-04-01 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN113299346A CN113299346A (zh) | 2021-08-24 |
CN113299346B true CN113299346B (zh) | 2022-03-29 |
Family
ID=77319321
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110355164.6A Active CN113299346B (zh) | 2021-04-01 | 2021-04-01 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
Country Status (3)
Country | Link |
---|---|
US (1) | US20230084638A1 (zh) |
CN (1) | CN113299346B (zh) |
WO (1) | WO2022206604A1 (zh) |
Families Citing this family (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN113299346B (zh) * | 2021-04-01 | 2022-03-29 | 腾讯科技(深圳)有限公司 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
JP7386466B1 (ja) * | 2022-12-20 | 2023-11-27 | 株式会社Fronteo | データ解析装置およびデータ解析プログラム |
CN116029571B (zh) * | 2023-03-29 | 2023-06-16 | 肯特智能技术(深圳)股份有限公司 | 基于元宇宙的数据处理方法及相关装置 |
CN116188995B (zh) * | 2023-04-13 | 2023-08-15 | 国家基础地理信息中心 | 一种遥感图像特征提取模型训练方法、检索方法及装置 |
CN116660389B (zh) * | 2023-07-21 | 2023-10-13 | 山东大禹水务建设集团有限公司 | 一种基于人工智能的河道底泥探测及修复系统 |
CN116681957B (zh) * | 2023-08-03 | 2023-10-17 | 富璟科技(深圳)有限公司 | 一种基于人工智能的图像识别方法及计算机设备 |
CN118520307A (zh) * | 2024-07-25 | 2024-08-20 | 比亚迪股份有限公司 | 车辆行驶工况预测方法、控制器、车辆和云服务器 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3216873A1 (en) * | 2016-03-08 | 2017-09-13 | Curetis GmbH | Combination of structural variations and single nucleotide changes in one statistical model for improved therapy selection |
CN111223577A (zh) * | 2020-01-17 | 2020-06-02 | 江苏大学 | 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 |
CN111882426A (zh) * | 2020-07-21 | 2020-11-03 | 中国工商银行股份有限公司 | 业务风险分类器训练方法、装置、设备及存储介质 |
Family Cites Families (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
TW201933375A (zh) * | 2017-08-09 | 2019-08-16 | 美商人類長壽公司 | 蛋白質之結構預測 |
US11741356B2 (en) * | 2019-02-08 | 2023-08-29 | Korea Advanced Institute Of Science & Technology | Data processing apparatus by learning of neural network, data processing method by learning of neural network, and recording medium recording the data processing method |
CN111767400B (zh) * | 2020-06-30 | 2024-04-26 | 平安国际智慧城市科技股份有限公司 | 文本分类模型的训练方法、装置、计算机设备和存储介质 |
CN113299346B (zh) * | 2021-04-01 | 2022-03-29 | 腾讯科技(深圳)有限公司 | 分类模型训练和分类方法、装置、计算机设备和存储介质 |
-
2021
- 2021-04-01 CN CN202110355164.6A patent/CN113299346B/zh active Active
-
2022
- 2022-03-25 WO PCT/CN2022/083074 patent/WO2022206604A1/zh active Application Filing
- 2022-11-10 US US17/984,623 patent/US20230084638A1/en active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
EP3216873A1 (en) * | 2016-03-08 | 2017-09-13 | Curetis GmbH | Combination of structural variations and single nucleotide changes in one statistical model for improved therapy selection |
CN111223577A (zh) * | 2020-01-17 | 2020-06-02 | 江苏大学 | 一种基于深度学习的协同抗肿瘤多药组合效果预测方法 |
CN111882426A (zh) * | 2020-07-21 | 2020-11-03 | 中国工商银行股份有限公司 | 业务风险分类器训练方法、装置、设备及存储介质 |
Non-Patent Citations (1)
Title |
---|
ZK DrugResist 2.0: A TextMiner to extract semantic relations of drug resistance from PubMed;Zoya Khalid 等;《Journal of Biomedical Informatics》;20170404;第93-98页 * |
Also Published As
Publication number | Publication date |
---|---|
CN113299346A (zh) | 2021-08-24 |
US20230084638A1 (en) | 2023-03-16 |
WO2022206604A1 (zh) | 2022-10-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN113299346B (zh) | 分类模型训练和分类方法、装置、计算机设备和存储介质 | |
CN112735535B (zh) | 预测模型训练、数据预测方法、装置和存储介质 | |
CN111933212B (zh) | 一种基于机器学习的临床组学数据处理方法及装置 | |
CN112635063B (zh) | 一种肺癌预后综合预测模型、构建方法及装置 | |
BinTayyash et al. | Non-parametric modelling of temporal and spatial counts data from RNA-seq experiments | |
CN111241992B (zh) | 人脸识别模型构建方法、识别方法、装置、设备及存储介质 | |
Cao et al. | ROC curves for the statistical analysis of microarray data | |
CN107016416B (zh) | 基于邻域粗糙集和pca融合的数据分类预测方法 | |
JP2011520183A (ja) | サンプルデータの分類 | |
CN116864011A (zh) | 基于多组学数据的结直肠癌分子标志物识别方法及系统 | |
CN115116539A (zh) | 对象确定方法、装置、计算机设备和存储介质 | |
Łysiak et al. | Empirical comparison of the feature evaluation methods based on statistical measures | |
CN111783088B (zh) | 一种恶意代码家族聚类方法、装置和计算机设备 | |
CN111639688B (zh) | 一种基于线性核svm的物联网智能模型的局部解释方法 | |
CN113838519B (zh) | 基于自适应基因交互正则化弹性网络模型的基因选择方法及系统 | |
CN114491296A (zh) | 提案联名人推荐方法、系统、计算机设备及可读存储介质 | |
CN112581250B (zh) | 模型生成方法、装置、计算机设备和存储介质 | |
CN113627522A (zh) | 基于关系网络的图像分类方法、装置、设备及存储介质 | |
US20220293212A1 (en) | Method for automatically predicting treatment management factor characteristics of disease and electronic apparatus | |
US20220292363A1 (en) | Method for automatically determining disease type and electronic apparatus | |
Widodo et al. | Finding the Best Performance of Bayesian and Naïve Bayes Models in Fraudulent Firms Classification through Varying Threshold | |
CN118296216B (zh) | 一种族谱信息与地理信息的关联匹配方法及系统 | |
CN117094817B (zh) | 一种信用风险控制智能预测方法及系统 | |
KR102429120B1 (ko) | 학습모델 기반 인간 ppar 감마의 길항제 예측 방법 및 분석장치 | |
Bonetta Valentino et al. | Machine learning using neural networks for metabolomic pathway analyses |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
REG | Reference to a national code |
Ref country code: HK Ref legal event code: DE Ref document number: 40050613 Country of ref document: HK |
|
GR01 | Patent grant | ||
GR01 | Patent grant |