CN111108516A - 使用深度学习算法来评价输入数据 - Google Patents
使用深度学习算法来评价输入数据 Download PDFInfo
- Publication number
- CN111108516A CN111108516A CN201880061512.5A CN201880061512A CN111108516A CN 111108516 A CN111108516 A CN 111108516A CN 201880061512 A CN201880061512 A CN 201880061512A CN 111108516 A CN111108516 A CN 111108516A
- Authority
- CN
- China
- Prior art keywords
- data
- deep learning
- learning algorithm
- input data
- input
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000004422 calculation algorithm Methods 0.000 title claims abstract description 96
- 238000013135 deep learning Methods 0.000 title claims abstract description 93
- 238000000034 method Methods 0.000 claims abstract description 44
- 230000006870 function Effects 0.000 claims description 14
- 230000004083 survival effect Effects 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 10
- 238000004891 communication Methods 0.000 claims description 9
- 208000024891 symptom Diseases 0.000 claims description 9
- 238000003064 k means clustering Methods 0.000 claims description 8
- 238000004590 computer program Methods 0.000 claims description 6
- 239000000090 biomarker Substances 0.000 claims description 5
- 238000007405 data analysis Methods 0.000 claims description 5
- 239000003550 marker Substances 0.000 claims description 5
- 206010028980 Neoplasm Diseases 0.000 description 6
- 201000011510 cancer Diseases 0.000 description 6
- 230000008569 process Effects 0.000 description 5
- 238000012549 training Methods 0.000 description 5
- 239000013598 vector Substances 0.000 description 5
- 238000010801 machine learning Methods 0.000 description 4
- 230000006399 behavior Effects 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 239000000203 mixture Substances 0.000 description 2
- 238000012545 processing Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 238000003491 array Methods 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 238000009534 blood test Methods 0.000 description 1
- 230000001419 dependent effect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 238000010191 image analysis Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000003058 natural language processing Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 238000013139 quantization Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/90—Details of database functions independent of the retrieved data types
- G06F16/901—Indexing; Data structures therefor; Storage structures
- G06F16/9024—Graphs; Linked lists
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F17/00—Digital computing or data processing equipment or methods, specially adapted for specific functions
- G06F17/10—Complex mathematical operations
- G06F17/18—Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/23—Clustering techniques
- G06F18/232—Non-hierarchical techniques
- G06F18/2321—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions
- G06F18/23213—Non-hierarchical techniques using statistics or function optimisation, e.g. modelling of probability density functions with fixed number of clusters, e.g. K-means clustering
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/20—Supervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B40/00—ICT specially adapted for biostatistics; ICT specially adapted for bioinformatics-related machine learning or data mining, e.g. knowledge discovery or pattern finding
- G16B40/30—Unsupervised data analysis
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H10/00—ICT specially adapted for the handling or processing of patient-related medical or healthcare data
- G16H10/60—ICT specially adapted for the handling or processing of patient-related medical or healthcare data for patient-specific data, e.g. for electronic patient records
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/20—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Theoretical Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Medical Informatics (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Public Health (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- General Engineering & Computer Science (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Biomedical Technology (AREA)
- Epidemiology (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Primary Health Care (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Pathology (AREA)
- Molecular Biology (AREA)
- Computational Linguistics (AREA)
- Pure & Applied Mathematics (AREA)
- Computational Mathematics (AREA)
- Mathematical Analysis (AREA)
- Mathematical Optimization (AREA)
- Probability & Statistics with Applications (AREA)
- Bioethics (AREA)
- Biotechnology (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Algebra (AREA)
- Operations Research (AREA)
- Image Analysis (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明提供了一种用于使用深度学习算法来评价输入数据的集合的方法,所述输入数据包括以下各项中的至少一项:对象的临床数据;对象的基因组数据;多个对象的临床数据;以及多个对象的基因组数据。所述方法包括:获得输入数据的集合,其中,输入数据的所述集合包括被布置到多个数据集群中的原始数据,并且基于所述多个数据集群来调谐所述深度学习算法。所述深度学习算法包括:输入层;输出层;以及多个隐层。所述方法还包括:使用所述深度学习算法对所述原始数据执行统计聚类,从而生成统计集群;并且从每个统计集群获得标记。最终,基于所述标记来评价输入数据的所述集合,以导出关于一个或多个对象的医学相关性的数据。
Description
技术领域
本发明涉及深度学习领域,并且更具体地涉及使用深度学习算法来评价对象数据的领域。
背景技术
深度学习是机器学习的一个分支,最近被证明在图像分析、语音识别和自然语言处理的领域非常成功。深度学习算法使用一系列连续的非线性变换层对输入数据中的非线性结构进行建模。虽然深度学习因其在图像和语音分析任务中的成功而仅在最近才开始流行,但是它们最初是在几十年前在机器学习文献中被引入的。这些算法在大量训练标签可用且特征工程设计通常要求领域专家付出大量努力的任务中最为成功。
在机器学习中,训练标签的质量和数量能够显著影响算法的性能。此外,在许多实际应用中,加标签的过程通常要求领域专家付出大量努力。因此,自然有动机来优化该过程并仅对优化机器学习算法的性能至关重要的数据实例加标签。主动学习专注于该问题并指导学习过程,使得对最富有信息量的数据实例加标签。在深度学习的背景下,由于这些算法采用的优化过程非常复杂,因此该问题非常具有挑战性。
深度学习方法主要依赖于优化某些监督(分类)损失函数,并且如上所述,在大量训练数据可用的情况下,深度学习方法是成功的。
因此,需要在没有大量加标签的训练数据的集合的情况下训练深度学习算法以始终产生准确结果的手段。另外,还需要无需用户付出大量努力即可获得关于深度学习算法的进度的用户输入的手段。
发明内容
本发明由权利要求来限定。
根据本发明的一个方面的示例,提供了一种用于使用深度学习算法来评价输入数据的集合的计算机实施的方法,所述输入数据包括以下各项中的至少一项:对象的临床数据;对象的基因组数据;多个对象的临床数据;以及多个对象的基因组数据,所述方法包括:
获得输入数据的集合,其中,输入数据的所述集合包括被布置到多个数据集群中的原始数据;
基于所述多个数据集群来调谐所述深度学习算法,其中,所述深度学习算法包括:
输入层;
输出层;以及
多个隐层;
使用所述深度学习算法对所述原始数据执行统计聚类,从而生成统计集群;
从每个统计集群获得标记,其中,每个标记是与集群内包含的单个临床参数有关的生物标记;并且
基于所述标记来评价输入数据的所述集合,以导出关于一个或多个对象的医学相关性的数据,其中,参考从具有相似状况和/或症状的对象收集的历史对象数据来评价所述标记,以确定针对所述对象的存活率和/或有效处置方法。
该方法使用经调谐的深度学习算法来评价输入的对象数据的集合,以便导出针对对象的医学相关性的数据。基于输入数据的现有数据集群来调谐深度学习算法,以便提高深度学习算法的准确性。通过基于输入数据(例如,对象的临床数据和基因组数据)调谐算法,深度学习算法可以更准确地执行对原始数据的统计聚类。
从每个统计集群获得标记并将该标记用于评价输入数据,以便导出针对对象的医学相关性的数据,例如,存活率。标记可以是统计集群的主要变量,用于表示所述统计集群所包含的数据。
可以参考从具有类似状况和/或症状的对象收集的历史对象数据来评价所述标记。
在一些实施例中,对所述深度学习算法的所述调谐包括:
确定所述输入数据的高斯平均宽度;
确定所述深度学习算法的损失函数的收敛速度;并且
基于所述高斯平均宽度和所述收敛速度来选择隐层的数量。
以这种方式,除了深度学习算法的损失函数之外,深度学习算法还被调谐为考虑输入数据的流形结构。因此,选择了最优的隐层数量并且提高了深度学习算法的准确性,从而提高了对输入数据的评价的准确性。
在另外的实施例中,对所述高斯平均宽度的所述计算基于以下各项中的至少一项:所述数据集群的大小,以及数据集群的数量。
以这种方式,可以基于输入数据的流形结构来选择深度学习算法的隐层的数量,从而进一步提高深度学习算法的准确性。
在一种布置中,所述深度学习算法是自动编码器。
以这种方式,深度学习算法可以对输入数据的集合执行无监督学习,以便学习针对输入数据的集合的表示。通过采用自动编码器,不要求用户监督和提供关于深度学习算法的学习过程的反馈。
在一些布置中,对所述统计聚类的所述执行包括:将所述深度学习算法的所述隐层视为低维表示。
以这种方式,可以使用主要变量的集合来表示隐层,从而降低了对输入数据的集合操作深度学习算法所要求的处理能力。
在一个实施例中,所述统计聚类是k均值聚类。
通过对原始数据执行k均值聚类,可以生成k个统计集群以根据原始数据点在数据空间中的位置对原始数据点进行分组。以这种方式,可以对相似的数据点进行快速有效的分组。
在一种布置中,对输入数据的所述集合的所述评价包括预测所述对象的存活率。
通过将所述标记与从具有相似状况和/或症状的先前对象收集的数据进行比较,可以使用从统计集群获得的标记来预测对象的存活率。
在一个实施例中,在所述深度学习算法的相邻隐层之间执行所述统计聚类。
通过使用相邻的层,能够识别与数据组的分层布置有关的不同群集结构。例如,在癌症类型的层次结构中,高层集群结构能够包含两组,一组具有癌症对象,而另一组具有健康对象;然而,更详细的集群结构可能将每种癌症类型包含在不同集群中。众所周知,深度学习算法的体系结构能够捕获这种层次关系,其中,更接近输入数据的层与更一般的结构有关,而更深的层能够捕获更详细的集群关系。
在一个实施例中,所述方法还包括:
识别所述统计集群中的实例对,其中,所述实例对包括属于以下各项的原始数据点对:
输入数据的所述集合中的不同数据集群;以及
在执行所述统计聚类之后的相同的统计集群;
根据所述输入数据中的所述数据点对之间的角度对所述实例对进行排名;
向用户呈现所述实例对;
从所述用户获得用户输入,所述用户输入指示所述实例对是否应当被聚类在一起;并且
基于所述用户输入来调谐所述深度学习算法。
一个实例对是一种临界情况,其中,例如通过k均值聚类的方式,当使用更接近输入的隐层时,两个原始数据点最初被聚类到不同的数据集群中,但是当使用更深层的隐层时,两个原始数据点已经被归入相同的统计集群中。
由于原始数据可以以向量形式被表示在数据空间中,因此实例对之间的角度可以用于确定配对可能性的度量。换句话说,两个数据点之间的角度越大,它们将被配对在一起的可能性就越小。此后,具有低角度的实例对可以被自动接受而被正确聚类在一起;然而,例如,对于具有大于预定阈值的角度的对,可能要求用户确认该配对是正确的。
通过从用户获得关于在临界配对情况下的输入并基于所述用户输入来调谐深度学习算法,可以训练该算法对输入数据进行更准确的聚类和解读。这继而引起对输入数据的更准确的评价,从而导出与对象有关的医学相关信息。
在另外的实施例中,所述角度的阈值用于限制被呈现给所述用户的实例对的数量。例如,考虑具有多个实例对的情况,这些实例对表现出先前描述的行为(当使用更接近输入的隐层时,这些实例对最初被聚类到不同的数据集群中,而当使用更深的隐层时,这些实例对被归入相同的统计集群中),它们的角度在[0,π]的范围内。阈值可以被设置在2π/3处,这意味着只有角度大于该阈值的实例对才被显示给用户。替代地,阈值可以被设置在[0,π]的范围内的任何角度处。
以这种方式,可以确保用户不会暴露于难以管理的数据量,并且用户仅被呈现有对深度学习算法的调谐有最大影响的实例对。
基于根据本发明的一个方面的示例,提供了一种包括计算机程序代码单元的计算机程序,当所述计算机程序在计算机上运行时,所述计算机程序代码单元适于实施上述方法。
基于根据本发明的一个方面的示例,提供了一种用于对使用深度学习算法对输入数据的集合的评价进行控制的控制器,其中,所述控制器适于:
获得输入数据的集合,其中,输入数据的所述集合包括被布置到多个数据集群中的原始数据,所述输入数据包括以下各项中的至少一项:对象的临床数据;对象的基因组数据;多个对象的临床数据;以及多个对象的基因组数据;
基于所述多个数据集群来调谐所述深度学习算法,其中,所述深度学习算法包括:
输入层;
输出层;以及
多个隐层;
使用所述深度学习算法对所述原始数据执行统计聚类,从而生成统计集群;
从每个统计集群获得标记,其中,每个标记是与集群内包含的单个临床参数有关的生物标记;并且
基于所述标记来评价输入数据的所述集合,其中,参考从具有相似状况和/或症状的对象收集的历史对象数据来评价所述标记,以确定针对所述对象的存活率和/或有效处置方法。
在一个实施例中,所述控制器还适于:
计算所述输入数据的高斯平均宽度;
计算所述深度学习算法的损失函数的收敛速度;并且
基于所述高斯平均宽度和所述收敛速度来选择隐层的数量。
在一种布置中,所述控制器还适于:
识别所述统计集群中的实例对,其中,所述实例对包括属于以下各项的原始数据点对:
输入数据的所述集合中的不同数据集群;以及
在执行所述统计聚类之后的相同的统计集群;
根据所述输入数据中的所述数据点对之间的角度对所述实例对进行排名;
对于角度大于预定值的实例对,向用户呈现所述实例对;
从所述用户获得用户输入,所述用户输入指示所述实例对是否应当被聚类在一起;并且
基于所述用户输入来调谐所述深度学习算法。
基于根据本发明的一个方面的示例,提供了一种数据分析系统,所述系统包括:
存储设备,其适于存储输入数据;
如上所述的控制器,其与所述存储设备通信;
用户接口,其与所述控制器通信,所述用户接口适于获得用户输入;以及
显示设备,其与所述控制器通信,所述显示设备适于向用户显示信息。
根据本发明的又另外的方面,提供了一种用于使用深度学习算法来评价输入数据的集合的方法,所述输入数据包括以下各项中的至少一项:对象的临床数据;对象的基因组数据;多个对象的临床数据;以及多个对象的基因组数据,所述方法包括:
获得输入数据的集合,其中,输入数据的所述集合包括被布置到多个数据集群中的原始数据;
基于所述多个数据集群来调谐所述深度学习算法,其中,所述深度学习算法包括:输入层;输出层;以及多个隐层;
使用所述深度学习算法对所述原始数据执行统计聚类,从而生成统计集群;
从每个统计集群获得标记;并且
基于所述标记来评价输入数据的所述集合,以导出关于所述对象的医学相关的数据。
根据本发明的又另外的方面,提供了一种用于对使用深度学习算法对输入数据的集合的评价进行控制的控制器,其中,所述控制器适于:
获得输入数据的集合,其中,输入数据的所述集合包括被布置到多个数据集群中的原始数据;
基于所述多个数据集群来调谐所述深度学习算法,其中,所述深度学习算法包括:输入层;输出层;以及多个隐层;
使用所述深度学习算法对所述原始数据执行统计聚类,从而生成统计集群;
从每个统计集群获得标记;并且
基于所述标记来评价输入数据的所述集合。
参考下文描述的(一个或多个)实施例,本发明的这些方面和其他方面将变得明显并且得到阐明。
附图说明
现在将参考附图来详细描述本发明的示例,在附图中:
图1示出了本发明的方法;
图2示出了对输入数据的集合进行操作的自动编码器的视觉表示;并且
图3示出了用于运行图1的方法的数据分析系统。
具体实施方式
本发明的实施例提供了用于使用深度学习算法来评价输入数据的集合的方法,该输入数据包括以下各项中的至少一项:对象的临床数据;对象的基因组数据;多个对象的临床数据;多个对象的基因组数据。该方法包括:获得输入数据的集合,其中,输入数据的集合包括被布置到多个数据集群中的原始数据;并且基于多个数据集群来调谐深度学习算法。深度学习算法包括:输入层;输出层;以及多个隐层。该方法还包括:使用深度学习算法对原始数据执行统计聚类,从而生成统计集群;并且从每个统计集群获得标记。最终,基于标记来评价输入数据的集合,以导出关于一个或多个对象的医学相关性的数据。
图1示出了使用深度学习算法来评价对象输入数据的集合的方法100。
在步骤110中,获得输入数据的集合。输入数据包括被布置到多个数据集群中的原始数据。原始数据可以包括一个或多个对象的临床数据和基因组数据,这些数据要被评价以导出关于一个或多个对象的在医学上重要的数据。
例如,可以通过针对具有相同症状或状况的多个对象评价对象的数据来评价数据,以确定对象的存活率。原始对象数据可以例如包括:对象年龄;验血结果;症状;先前诊断出的状况等。
在步骤120中,基于输入数据的集合的多个数据集群来调谐深度学习算法,其中,深度学习算法包括:输入层;输出层;以及多个隐层。
对深度学习算法的调谐可以包括:确定输入数据的高斯平均宽度;确定深度学习算法的损失函数的收敛速度;并且以及高斯平均宽度和收敛速度来选择隐层的数量。对高斯宽度的计算可以基于数据集群的大小和/或数据集群的数量。
高斯平均宽度在形式上被定义为E[supx,y∈K<g,x-y>],其中,g是标准的高斯随机变量。直观地,它提供了对集合K大小的度量,并且能够针对某些频繁使用的数据分布模型(例如:高斯混合;基于字典表示的稀疏信号等)而被计算。
在一些情况下,针对高斯混合或稀疏字典结构的公式可以用于确定针对给定的输入数据的集合的若干高斯平均宽度。可以基于针对每个宽度的相关联的收敛速度来最终选择用于调谐深度学习算法的高斯平均宽度。
能够利用若干不同的体系结构选择来训练深度学习算法,并且能够将损失函数的收敛速度用作用于选择最优高斯平均宽度的准则,其中,更快的收敛则意味着更好的体系结构。
在步骤130中,使用深度学习算法对原始数据执行统计聚类,从而生成统计集群。统计集群可以将深度学习算法的隐层视为低维表示。换句话说,可以识别隐层的主要变量以执行统计聚类,以便减少所要求的计算数量。
统计聚类方法可以是例如k均值聚类。K均值聚类是一种向量量化方法,该方法基于向量(例如,输入数据)的分布对概率密度函数进行建模。k均值聚类将输入数据分组到k个不同的集群中。
给定原始数据的集合(x1,x2,…,xn),其中,每个数据点均为d维实向量,k均值聚类旨在将n个数据点划分到k中,其中,k≤n,设S={S1,S2,…,Sk},以便使群集内平方和(WCSSS)(即,方差)最小化。在形式上,目标是找到:
其中,μi是集合Si中的数据点的平均值。
可以在深度学习算法的相邻隐层之间执行统计聚类。通过使用相邻的层,能够识别与数据组的分层布置有关的不同群集结构。例如,在癌症类型的层次结构中,高层集群结构能够包含两组,一组具有癌症对象,而另一组具有健康对象;然而,更详细的集群结构可能将每种癌症类型包含在不同集群中。众所周知,深度学习算法的体系结构能够捕获这种层次关系,其中,更接近输入数据的层与更一般的结构有关,而更深的层能够捕获更详细的集群关系。
在步骤130中执行统计聚类之后,该方法可以包括用于调谐深度学习算法的若干额外步骤。
在步骤131中,在统计集群内识别实例对。实例对被定义为如下的原始数据点对:在输入数据的初始集合中,该原始数据点对属于不同的数据集群;而在执行统计聚类之后,该原始数据点对属于相同的统计集群。
在步骤133中,可以根据输入数据中的数据点对之间的角度对实例对进行排名。能够使用由每个网络层产生的向量表示来测量角度。
在步骤135中,对于角度大于阈值角度的实例对,可以将该实例对呈现给用户。能够设置角度的阈值以限制用户暴露于其中的数据量。例如,考虑具有多个实例对的情况,这些实例对表现出先前描述的行为(当使用更接近输入的隐层时,这些实例对最初被聚类到不同的数据集群中,而当使用更深的隐层时,这些实例对被归入相同的统计集群中),它们的角度在[0,π]的范围内。阈值可以被设置在2π/3处,这意味着只有角度大于该阈值的实例对才被显示给用户。替代地,阈值可以被设置在[0,π]的范围内的任何角度处。
在步骤137中,可以从用户获得用户输入,该用户输入指示该实例对是否应当被聚类在一起。
例如对于被认为不太可能被配对在一起的对,基于这些对在输入数据的集合中的角度,用户可以提供指示配对是否正确的输入。以这种方式,深度学习算法还可以从经训练的用户接收监督输入,以便提高算法的准确性。
在步骤139中,可以基于用户输入来调谐深度学习算法。
通过基于用户输入调谐深度学习算法,深度学习算法可以在未来的方法周期中更准确地评估相似实例对,而不必要求用户额外提供输入。以这种方式,深度学习算法就变得更加准确和高效。
在步骤140中,从由深度学习算法产生的每个统计集群获得标记。由于输入数据包括一个或多个对象的临床数据和/或基因组数据,因此标记可以是与给定集群内包含的单个临床参数有关的生物标记。
可以将标记与历史对象记录进行比较,以便确定哪些标记先前曾充当重要的对象评价点。以这种方式,可以训练深度学习算法以优先识别和评价这些评价点。在只有少量数据可用于对象或者输入数据大部分未加标签的情况下,这尤其重要。
在步骤150中,基于标记来评价输入数据的集合,以导出关于一个或多个对象的医学相关性的数据。
可以评价标记以导出对象的医学相关数据,例如,对象的存活率。可以通过将标记与从具有类似状况和/或症状的其他对象收集的历史数据进行比较来评价对象的存活率。替代地,历史对象数据也可以包括各种处置方法及其在处置已知状况中的有效性。以这种方式,评价还可以指示针对对象状况的有效处置方法。
图2示出了对输入数据的集合220执行k均值聚类的自动编码器210的视觉表示200。能够看出,输入数据220包括在Voronoi图上表示的、被布置到多个数据集群240中的原始数据点230。
在该示例中,深度学习算法是自动编码器210。自动编码器是一种人工神经网络,其可以用于无监督特征学习。该自动编码器包括:输入层250;多个隐层260;以及输出层270。
如上所述,基于输入数据来调谐280自动编码器210的隐层260。例如,在这种情况下,由于初始输入数据中存在三个数据集群,因此自动编码器的隐层的数量被设置为三。替代地,可以基于数据集群中的每个的大小来调谐隐层。
在对自动编码器的调谐之后,原始数据230被传递到输入层250。原始数据然后被传递通过隐层260而到达输出层270。输出层具有与输入层相同数量的节点,因此仅用于将原始数据重建成新的统计群集290。
在该示例中,统计集群290在很大程度上类似于输入数据220的数据集群240;然而,能够看出,一个数据点300已经改变了集群。该数据点与新的群集中的其他数据点一起形成实例对310。然后可以根据输入数据的集合中的初始数据点中的数据点之间的角度对这些实例对进行排名。可以将给定阈值角度以上的那些实例对呈现给用户,以便获得关于这些数据点的新的集群是否正确的用户反馈。然后可以基于用户的反馈来调谐自动编码器。
图3示出了数据分析系统400的示例。该数据分析系统包括:存储设备410,其适于存储输入数据;以及控制器420,其与存储设备通信;用户接口430,其与控制器通信,用户接口430适于获得用户输入;以及显示设备440,其与控制器通信,显示设备440适于向用户显示信息。
如上所述,实施例利用控制器420来执行数据处理步骤。
能够利用软件和/或硬件,以多种方式来实施控制器,从而执行所要求的各种功能。处理器是控制器的一个示例,该控制器采用一个或多个微处理器,可以使用软件(例如,微代码)对该一个或多个微处理器进行编程以执行所要求的功能。然而,也可以在采用或不采用处理器的情况下实施控制器,并且还可以将控制器实施为执行某些功能的专用硬件与执行其他功能的处理器(例如,一个或多个编程的微处理器和相关联的电路)的组合。
可以在本公开内容的各种实施例中采用的控制器部件的示例包括但不限于常规的微处理器、专用集成电路(ASIC)和现场可编程门阵列(FPGA)。
在各种实施方式中,处理器或控制器可以与一个或多个存储介质410(例如,易失性和非易失性计算机存储器,例如,RAM、PROM、EPROM和EEPROM)相关联。可以利用一个或多个程序对存储介质进行编码,该一个或多个程序在一个或多个处理器和/或控制器上被运行时以所要求的功能来执行。各种存储介质可以被固定在处理器或控制器内,或者可以是可移动的,使得被存储在其上的一个或多个程序能够被加载到处理器或控制器中。
用户接口430可以包括:鼠标;键盘;或获得用户输入的任何其他合适单元。显示设备440可以包括屏幕。
本领域技术人员通过研究附图、公开内容以及权利要求,在实践请求保护的发明时能够理解并实现对所公开的实施例的其他变型。在权利要求中,“包括”一词不排除其他元件或步骤,并且词语“一”或“一个”不排除多个。虽然某些措施被记载在互不相同的从属权利要求中,但是这并不指示不能有利地使用这些措施的组合。权利要求中的任何附图标记都不应被解释为对范围的限制。
Claims (15)
1.一种用于使用深度学习算法来评价输入数据的集合的计算机实施的方法(100),所述输入数据包括以下各项中的至少一项:对象的临床数据;对象的基因组数据;多个对象的临床数据;以及多个对象的基因组数据,所述方法包括:
(110)获得输入数据的集合,其中,输入数据的所述集合包括被布置到多个数据集群中的原始数据;
(120)基于所述多个数据集群来调谐所述深度学习算法,其中,所述深度学习算法包括:
输入层(250);
输出层(270);以及
多个隐层(260);
(130)使用所述深度学习算法对所述原始数据执行统计聚类,从而生成统计集群;
(140)从每个统计集群获得标记,其中,每个标记是与集群内包含的单个临床参数有关的生物标记;并且
(150)基于所述标记来评价输入数据的所述集合,以导出关于一个或多个对象的医学相关性的数据,其中,参考从具有相似状况和/或症状的对象收集的历史对象数据来评价所述标记,以确定针对所述对象的存活率和/或有效处置方法。
2.根据权利要求1所述的方法,其中,对所述深度学习算法的所述调谐包括:
确定所述输入数据的高斯平均宽度;
确定所述深度学习算法的损失函数的收敛速度;并且
基于所述高斯平均宽度和所述收敛速度来选择隐层的数量。
3.根据权利要求2所述的方法,其中,对所述高斯平均宽度的所述确定基于以下各项中的至少一项:所述数据集群的大小,以及数据集群的数量。
4.根据任一前述权利要求所述的方法,其中,所述深度学习算法是自动编码器。
5.根据任一前述权利要求所述的方法,其中,对所述统计聚类的所述执行包括:将所述深度学习算法的所述隐层视为低维表示,其中,识别所述隐层的主要变量以执行所述统计聚类,以便减少所要求的计算的数量。
6.根据任一前述权利要求所述的方法,其中,所述统计聚类是k均值聚类。
7.根据任一前述权利要求所述的方法,其中,对输入数据的所述集合的所述评价包括预测所述对象的存活率。
8.根据任一前述权利要求所述的方法,其中,在所述深度学习算法的相邻隐层之间执行所述统计聚类。
9.根据任一前述权利要求所述的方法,其中,所述方法还包括:
(131)识别所述统计集群中的实例对(310),其中,所述实例对包括属于以下各项的原始数据点对:
输入数据的所述集合中的不同数据集群;以及
在执行所述统计聚类之后的相同的统计集群;
(133)根据所述输入数据中的所述数据点对之间的角度对所述实例对进行排名;
(135)向用户呈现所述实例对;
(137)从所述用户获得用户输入,所述用户输入指示所述实例对是否应当被聚类在一起;并且
(139)基于所述用户输入来调谐所述深度学习算法。
10.根据权利要求9所述的方法,其中,所述角度的阈值用于限制被呈现给所述用户的实例对的数量。
11.一种包括计算机程序代码单元的计算机程序,当所述计算机程序在计算机上运行时,所述计算机程序代码单元适于实施根据任一前述权利要求所述的方法。
12.一种用于对使用深度学习算法对输入数据的集合的评价进行控制的控制器(320),其中,所述控制器适于:
获得输入数据的集合,其中,输入数据的所述集合包括被布置到多个数据集群中的原始数据,所述输入数据包括以下各项中的至少一项:对象的临床数据;对象的基因组数据;多个对象的临床数据;以及多个对象的基因组数据;
基于所述多个数据集群来调谐所述深度学习算法,其中,所述深度学习算法包括:
输入层;
输出层;以及
多个隐层;
使用所述深度学习算法对所述原始数据执行统计聚类,从而生成统计集群;
从每个统计集群获得标记,其中,每个标记是与集群内包含的单个临床参数有关的生物标记;并且
基于所述标记来评价输入数据的所述集合,其中,参考从具有相似状况和/或症状的对象收集的历史对象数据来评价所述标记,以确定针对所述对象的存活率和/或有效处置方法。
13.根据权利要求12所述的控制器,其中,所述控制器还适于:
确定所述输入数据的高斯平均宽度;
计算所述深度学习算法的损失函数的收敛速度;并且
基于所述高斯平均宽度和所述收敛速度来选择隐层的数量。
14.根据权利要求12至13中的任一项所述的控制器,其中,所述控制器还适于:
识别所述统计集群中的实例对,其中,所述实例对包括属于以下各项的原始数据点对:
输入数据的所述集合中的不同数据集群;以及
在执行所述统计聚类之后的相同的统计集群;
根据所述输入数据中的所述数据点对之间的角度对所述实例对进行排名;
向用户呈现所述实例对;
从所述用户获得用户输入,所述用户输入指示所述实例对是否应当被聚类在一起;并且
基于所述用户输入来调谐所述深度学习算法。
15.一种数据分析系统,所述系统包括:
存储设备(410),其适于存储输入数据;
根据权利要求12至14中的任一项所述的控制器(420),其与所述存储设备通信;
用户接口(430),其与所述控制器通信,所述用户接口适于获得用户输入;以及
显示设备(440),其与所述控制器通信,所述显示设备适于向用户显示信息。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
EP17192217.2A EP3460723A1 (en) | 2017-09-20 | 2017-09-20 | Evaluating input data using a deep learning algorithm |
EP17192217.2 | 2017-09-20 | ||
PCT/EP2018/074256 WO2019057529A1 (en) | 2017-09-20 | 2018-09-10 | EVALUATION OF INPUT DATA USING A DEEP LEARNING ALGORITHM |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111108516A true CN111108516A (zh) | 2020-05-05 |
CN111108516B CN111108516B (zh) | 2024-03-29 |
Family
ID=59923348
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201880061512.5A Active CN111108516B (zh) | 2017-09-20 | 2018-09-10 | 使用深度学习算法来评价输入数据 |
Country Status (5)
Country | Link |
---|---|
US (2) | US11842268B2 (zh) |
EP (2) | EP3460723A1 (zh) |
JP (1) | JP7271515B2 (zh) |
CN (1) | CN111108516B (zh) |
WO (1) | WO2019057529A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20220076157A1 (en) * | 2020-09-04 | 2022-03-10 | Aperio Global, LLC | Data analysis system using artificial intelligence |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814160A (zh) * | 2010-03-08 | 2010-08-25 | 清华大学 | 一种基于特征聚类的rbf神经网络建模方法 |
US20140279721A1 (en) * | 2013-03-15 | 2014-09-18 | Northrop Grumman Systems Corporation | Learning health systems and methods |
US20140336950A1 (en) * | 2011-11-16 | 2014-11-13 | Univerisity of South Dakota | Clustering copy-number values for segments of genomic data |
US20160350919A1 (en) * | 2015-06-01 | 2016-12-01 | Virtual Radiologic Corporation | Medical evaluation machine learning workflows and processes |
CN106650948A (zh) * | 2016-12-09 | 2017-05-10 | 曙光信息产业(北京)有限公司 | 一种机器学习中避免大数据冗余的方法 |
Family Cites Families (25)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US4962475A (en) * | 1984-12-26 | 1990-10-09 | International Business Machines Corporation | Method for generating a document utilizing a plurality of windows associated with different data objects |
US4829294A (en) * | 1986-06-25 | 1989-05-09 | Hitachi, Ltd. | Document processing method and system using multiwindow |
US5367619A (en) * | 1990-04-27 | 1994-11-22 | Eaton Corporation | Electronic data entry system employing an expert system to facilitate generation of electronic data forms with complex interrelationships between fields and subforms |
US5640577A (en) * | 1991-12-30 | 1997-06-17 | Davox Corporation | Data processing system with automated at least partial forms completion |
US5845255A (en) * | 1994-10-28 | 1998-12-01 | Advanced Health Med-E-Systems Corporation | Prescription management system |
DK0842475T3 (da) * | 1995-07-25 | 2000-11-27 | Horus Therapeutics Inc | Computerunderstøttede fremgangsmåder og apparat til diagnosticering af sygdomme |
US5823948A (en) * | 1996-07-08 | 1998-10-20 | Rlis, Inc. | Medical records, documentation, tracking and order entry system |
CA2198189C (en) * | 1997-02-21 | 2001-05-29 | Ibm Canada Limited-Ibm Canada Limitee | Internet browser based data entry architecture |
US6006240A (en) * | 1997-03-31 | 1999-12-21 | Xerox Corporation | Cell identification in table analysis |
US6192380B1 (en) * | 1998-03-31 | 2001-02-20 | Intel Corporation | Automatic web based form fill-in |
US6112215A (en) * | 1998-09-24 | 2000-08-29 | International Business Machines Corporation | Database or repetitively used data entries displayable for selection and entry on a variety of user interactive interfaces from sources independent of said database |
US6910179B1 (en) * | 1998-11-10 | 2005-06-21 | Clarita Corporation | Method and apparatus for automatic form filling |
WO2002047007A2 (en) | 2000-12-07 | 2002-06-13 | Phase It Intelligent Solutions Ag | Expert system for classification and prediction of genetic diseases |
US6981001B1 (en) * | 2001-09-21 | 2005-12-27 | Bellsouth Intellectual Property Corporation | Method and systems for default mapping mechanization |
US7673245B2 (en) * | 2003-10-15 | 2010-03-02 | Sap Aktiengesellschaft | Converting user interface panels |
CA2572455C (en) * | 2004-06-04 | 2014-10-28 | Therasense, Inc. | Diabetes care host-client architecture and data management system |
US20060265249A1 (en) * | 2005-05-18 | 2006-11-23 | Howard Follis | Method, system, and computer-readable medium for providing a patient electronic medical record with an improved timeline |
US20080244453A1 (en) * | 2007-04-01 | 2008-10-02 | Jason Edward Cafer | Iconic event timeline with latitude snapping and method for providing the same |
GB2464677A (en) | 2008-10-20 | 2010-04-28 | Univ Nottingham Trent | A method of analysing data by using an artificial neural network to identify relationships between the data and one or more conditions. |
US8788287B2 (en) * | 2009-11-25 | 2014-07-22 | General Electric Company | Systems, apparatus, and methods for developing patient medical history using hierarchical relationships |
US9177245B2 (en) * | 2013-02-08 | 2015-11-03 | Qualcomm Technologies Inc. | Spiking network apparatus and method with bimodal spike-timing dependent plasticity |
WO2016094330A2 (en) | 2014-12-08 | 2016-06-16 | 20/20 Genesystems, Inc | Methods and machine learning systems for predicting the liklihood or risk of having cancer |
JP6620422B2 (ja) * | 2015-05-22 | 2019-12-18 | 富士通株式会社 | 設定方法、設定プログラム、及び設定装置 |
AU2016201298A1 (en) * | 2016-02-29 | 2017-09-14 | Biomediq A/S | Computer analysis of mammograms |
US10252145B2 (en) * | 2016-05-02 | 2019-04-09 | Bao Tran | Smart device |
-
2017
- 2017-09-20 EP EP17192217.2A patent/EP3460723A1/en not_active Withdrawn
-
2018
- 2018-09-10 CN CN201880061512.5A patent/CN111108516B/zh active Active
- 2018-09-10 EP EP18765447.0A patent/EP3685317A1/en not_active Withdrawn
- 2018-09-10 WO PCT/EP2018/074256 patent/WO2019057529A1/en unknown
- 2018-09-10 JP JP2020516541A patent/JP7271515B2/ja active Active
- 2018-09-10 US US16/648,719 patent/US11842268B2/en active Active
-
2023
- 2023-06-30 US US18/216,629 patent/US20230342601A1/en active Pending
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101814160A (zh) * | 2010-03-08 | 2010-08-25 | 清华大学 | 一种基于特征聚类的rbf神经网络建模方法 |
US20140336950A1 (en) * | 2011-11-16 | 2014-11-13 | Univerisity of South Dakota | Clustering copy-number values for segments of genomic data |
US20140279721A1 (en) * | 2013-03-15 | 2014-09-18 | Northrop Grumman Systems Corporation | Learning health systems and methods |
US20160350919A1 (en) * | 2015-06-01 | 2016-12-01 | Virtual Radiologic Corporation | Medical evaluation machine learning workflows and processes |
CN106650948A (zh) * | 2016-12-09 | 2017-05-10 | 曙光信息产业(北京)有限公司 | 一种机器学习中避免大数据冗余的方法 |
Non-Patent Citations (1)
Title |
---|
YANRONG GUO ET AL.: "Deformable MR Prostate Segmentation via Deep Feature Learning and Sparse Patch Matching" * |
Also Published As
Publication number | Publication date |
---|---|
US20230342601A1 (en) | 2023-10-26 |
JP7271515B2 (ja) | 2023-05-11 |
US11842268B2 (en) | 2023-12-12 |
EP3460723A1 (en) | 2019-03-27 |
JP2020534614A (ja) | 2020-11-26 |
CN111108516B (zh) | 2024-03-29 |
US20200251224A1 (en) | 2020-08-06 |
WO2019057529A1 (en) | 2019-03-28 |
EP3685317A1 (en) | 2020-07-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Arbin et al. | Comparative analysis between k-means and k-medoids for statistical clustering | |
CN111553127A (zh) | 一种多标记的文本类数据特征选择方法及装置 | |
Li et al. | Linear time complexity time series classification with bag-of-pattern-features | |
CN110909125B (zh) | 推文级社会媒体谣言检测方法 | |
CN108877947B (zh) | 基于迭代均值聚类的深度样本学习方法 | |
JP6172317B2 (ja) | 混合モデル選択の方法及び装置 | |
US20230342601A1 (en) | Evaluating input data using a deep learning algorithm | |
Siddalingappa et al. | Anomaly detection on medical images using autoencoder and convolutional neural network | |
CN113486670A (zh) | 基于目标语义的文本分类方法、装置、设备及存储介质 | |
CN110147851B (zh) | 图像筛选方法、装置、计算机设备及存储介质 | |
CN117093849A (zh) | 一种基于自动生成模型的数字矩阵特征分析方法 | |
García-García et al. | Music genre classification using the temporal structure of songs | |
Kang et al. | Semi-supervised rotation-invariant representation learning for wafer map pattern analysis | |
Purnomo et al. | Synthesis ensemble oversampling and ensemble tree-based machine learning for class imbalance problem in breast cancer diagnosis | |
To et al. | A parallel genetic programming for single class classification | |
CN112347162A (zh) | 一种基于在线学习的多元时序数据规则挖掘方法 | |
Xiaohui | An adaptive genetic algorithm-based background elimination model for English text | |
CN113435655B (zh) | 扇区动态管理决策方法、服务器及系统 | |
Tang et al. | A clustering ensemble method based on cluster selection and cluster splitting | |
JP5240777B2 (ja) | 文書分類装置及び文書分類方法 | |
CN116612330A (zh) | 基于重要样本挖掘的样本标注方法、重要样本挖掘方法 | |
Pouya | A new margin-based AdaBoost algorithm: Even more robust than RobustBoost to class-label noise | |
Zhang | P&A: Make Wordle Game Better | |
Fan et al. | 3d object modeling and recognition via online hierarchical pitman-yor process mixture learning | |
CN118152962A (zh) | 一种面向电力监控运行数据异常检测的方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |