CN101405718A - 具有局部线性嵌入的smote算法 - Google Patents

具有局部线性嵌入的smote算法 Download PDF

Info

Publication number
CN101405718A
CN101405718A CNA2006800539966A CN200680053996A CN101405718A CN 101405718 A CN101405718 A CN 101405718A CN A2006800539966 A CNA2006800539966 A CN A2006800539966A CN 200680053996 A CN200680053996 A CN 200680053996A CN 101405718 A CN101405718 A CN 101405718A
Authority
CN
China
Prior art keywords
data
space
smote
algorithm
lle
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CNA2006800539966A
Other languages
English (en)
Inventor
M·徐
J·王
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Eastman Kodak Co
Carestream Health Inc
Original Assignee
Eastman Kodak Co
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Eastman Kodak Co filed Critical Eastman Kodak Co
Publication of CN101405718A publication Critical patent/CN101405718A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/0002Inspection of images, e.g. flaw detection
    • G06T7/0012Biomedical image inspection
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • G06F18/2137Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps
    • G06F18/21375Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods based on criteria of topology preservation, e.g. multidimensional scaling or self-organising maps involving differential geometry, e.g. embedding of pattern manifold
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/255Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/7715Feature extraction, e.g. by transforming the feature space, e.g. multi-dimensional scaling [MDS]; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30004Biomedical image processing
    • G06T2207/30068Mammography; Breast

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Nuclear Medicine, Radiotherapy & Molecular Imaging (AREA)
  • Databases & Information Systems (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Software Systems (AREA)
  • Radiology & Medical Imaging (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

一种数据分类方法。该方法包括:提供在第一空间中被映射的数据;使用局部线性嵌入把数据映射到第二空间以产生映射过的数据;对映射过的数据应用合成少数类过采样算法(SMOTE)以产生新数据;以及把新数据映射到第一空间。

Description

具有局部线性嵌入的SMOTE算法
技术领域
本发明一般涉及数字医学图像处理领域,尤其涉及计算机辅助检测。更具体地,本发明涉及应用用于计算机辅助检测(CAD)的合成少数类过采样算法。
背景技术
计算机辅助检测(CAD)系统已经在医学领域中得到应用,例如,用于乳房X线照相术以辅助乳癌的检测。Kodak乳房X线照相术CAD系统是这种系统的一个例子。美国专利第2004/0024292号公开专利申请(Menhardt)涉及一种向数字图像分配计算机辅助检测应用的系统和方法。
医学CAD系统自动地标识给出异常形状(例如,息肉、块状物、针状物)已知特性的图像中感兴趣的目标的候选者;获取每个候选者的特征;对候选者进行分类;以及向放射学家显示候选者以便进行诊断。通过已经从训练数据集进行了离线训练的分类器来执行分类,然后在CAD系统中使用。训练数据集是图像数据库,其中已经由专家对候选者进行了标注。例如,参见美国专利第2005/0010445号公开专利申请(Krishnan)以及美国专利申请第2005/0281457号公开专利申请(Dundar)。
在医学图像智能情况中,不平衡数据分类是一种普通的实践。例如,在医学模式识别和数据挖掘情况中的实际应用中,经常出现不平衡数据分类。通过假设基础训练集是平均分布的来开发许多现有的分类方法。然而,困难在于高度偏差的种类分布会导致通过某些现有分类算法得到的作为结果的分类器的严重偏差。即,当训练集为高度不平衡分布(即,数据包括两类,少数类C+和多数类C-)时存在严重的偏差(biasity)问题。即,作为结果的判定边界对于少数类有严重的偏差,并且根据ROC曲线分析(接受器操作特性分析)可能导致的较差的性能。为了这个目的,已经研究了许多分类算法,诸如多数类欠采样技术(under-sampling technique)、少数类过采样技术(over-sampling technique)、代价敏感的学习算法以及特征选择。
因此,存在解决不平衡数据分类的需求。
发明内容
本发明的目标是提供一种对数据尤其是不平衡数据进行分类的方法。
给出所提供的任何目标只是作为示意性的例子,并且这些目标可以是本发明的一个或多个实施例的示范。通过所揭示的本发明固有地得到其它期望的目标和优点,并且这对于熟悉本领域的技术人员是显而易见的。本发明通过所附的权利要求来限定的。
根据本发明的一个方面,提供了一种数据分类方法。该方法的步骤包括:提供在第一空间中被映射的数据;使用局部线性嵌入把该数据映射到第二空间以产生映射过的数据;对映射过的数据应用合成少数类过采样算法(SMOTE)以产生新数据;以及把新数据映射到第一空间。
附图说明
如附图所示,本发明的上述的和其它目标、特征和优点将从下述本发明实施例的更特定的说明变得显而易见。附图中元件相互之间没有必要按一定的比例。
图1示出关于在SMOTE算法中创建合成数据点的示意性说明。
图2示出根据本发明的基于LLE的SMOTE算法的示范性伪代码。
图3示出了来自胸部x射线图像数据库的三个数据集。
图4示出在图3的三个数据集上使用三个分类器得到的分类结果。
图5示出图3的三个数据集的作为结果的ROC曲线的区域。
具体实施方式
下面是参考了附图的本发明的较佳实施例的详细说明,在附图中,相同的标号标识几个附图的每个附图中的相同结构元件。
合成少数类过采样算法(SMOTE)是解决运算问题的一种已知的方法。申请人通过结合局部线性嵌入算法(LLE)而增强了传统的SMOTE算法。即,首先应用LLE算法把高维数据映射到输入数据可进一步分割的低维空间,因此可以通过SMOTE过采样。然后通过LLE把通过SMOTE产生的合成数据点映射回原始输入空间。实验结果展示出基础方法获得比传统SMOTE更好的性能。
SMOTE(合成少数类过采样算法)是对正类或少数类进行过采样的一种方法。然而,这受到任何两个正实例之间的局部空间是正的或属于少数类这样的严格假设的限制,在训练数据不是线性可分割的情况中,这可能并非始终是真的。申请人注意到,把训练数据映射到可以进行SMOTE算法的、一个更可线性地分割的空间,就可以回避这种限制。然而,如果在可线性地分割的空间中对正类进行合成过采样,则新产生的数据应该变换回原始输入空间。实际上,从输入数据空间映射到可线性地分割的空间的变换应该是可逆的。为了这个目的,对于从原始输入空间到可线性分割的空间的映射,使用了局部线性嵌入(LLE)。
申请人提供了基于SMOTE和LLE的过采样技术。通常,首先通过LLE把训练数据映射到数据可进一步分割的较低维的空间。然后,应用SMOTE以产生对于正类的期望个数的合成数据点。之后,把这些新数据点映射回原始输入空间。
下面更具体地描述该方法。将先说明LLE算法,然后说明基于LLE的SMOTE算法。还说明了基于LLE的SMOTE算法和传统SMOTE算法的性能比较结果。
现在说明局部线性嵌入(LLE)算法。
通常从医学图像提取的特征具有较高的维度,因此可能会造成数据分类中较难处理的几何复杂度。此外,它们在欧几里德空间中是不可线性地分割的。初始解决方案是流形(manifold)学习算法的一个类。局部线性嵌入可以通过把输入数据映射到数据变得更可分割的低维流形而降低高维度。
对于d维空间Rd中的给定数据集X={x1,x2,...,xN},LLE算法是寻找Rl中的l维数据集Y,它同X一样,在其k最近邻图形(kNN)中具有相同的局部几何结构。换言之,把任何点x∈X映射到点y=F(x)∈Y,使得,如果x的k个最近邻XkNN={xj|1≤j≤k}线性地横跨x
x = Σ j = 1 k w j x j - - - ( 1 )
y = Σ j = 1 k w j y j - - - ( 2 )
其中w=(w1,...,wk)表示线性组合系数,而yj=F(xj)。
实际上,可以在三个步骤中执行LLE算法:构建X的k个最近邻居图形,估计X的权重矩阵W,以及获取低维数据Y,如下所述。
(1)构建X的k个最近邻图形GkNN(X):对于每个xi∈X,其k个最接近的邻居图形表示为XkNN(xi)={xΓij|1≤j≤k}。
(2)估计权重矩阵W,以致XkNN(xi)最佳地线性横跨xi
W = arg min w Σ i = 1 N | | x - Σ j = 1 k W iΓ ij x Γ ij | | 2 - - - ( 3 )
其中,对于任何i,j以及j≠Γij,Wij=0以及
Σ j = 1 k W i Γ ij = 1 - - - ( 4 )
(3)通过对下面公式进行最小化而获取嵌入数据Y:
ϵ ( Y ) = Σ j = 1 k | | y i - W ij y | | 2 = Σ i = 1 N Σ j = 1 N M ij y i T y i - - - ( 5 )
其中M=(I-W)T(I-W),以及可以通过稀疏矩阵来表示W。对应于最小非零特征值的M的特征向量是作为结果的嵌入数据Y。
现在对基于LLE的SMOTE算法进行说明。
不平衡数据源的分类的典型惯例是对少数类进行过采样。在合成少数类过采样算法(SMOTE)中,通过使用k个最近邻图形代替具有交换的随机采样来对少数类进行过采样。受到其手写字符识别应用的推动,SMOTE已经受到模式识别团体的关注。申请人把SMOTE创建的合成数据点的期望数量表示为m。SMOTE算法通过使用其kNN图形对少数类C+进行过采样。首先,对于C+中的每个矢量x,从其k个最接近的正邻居(即,C+中的k个最接近的邻居)随机地选择m/|C+|数量的端点。然后分别通过在x和XkNN(x)中选择的m/|C+|数量的端点之间的随机内插来创建合成数据点,如图1所示。尤其,图1示出如何在SMOTE算法中创建合成数据点的示意性说明。
然而,随机内插会在原始输入数据上产生附加的噪声或干扰少数类和多数类的固有几何结构,从而对作为结果的分类器的估计变得十分困难。作为上述使用随机内插方案的代替,对于每个x,申请人通过在XKNN(x)中从x到每个xj寻找每个线分段上的矢量r而产生新的合成数据点,以致其具有离开多数类C-的最大平均距离,如公式(6)。
r = arg max r ∈ xx j ‾ 1 k Σ x _ ∈ C _ | | r - x _ | | - - - ( 6 )
这提供了合成数据r离开多数类的间隔。
即使可以根据公式(6)确定性地内插合成数据,原始输入空间中的少数类的过采样也受到“任何正数据点对之间的局部空间是正的”的一个假设的限制。但是当原始数据不是可线性地分割时,这个严格的假设不是始终是真的。为了放宽这个假设,可以应用LLE技术以把原始数据映射到新的可线性地分割的特征空间。然后,用SMOTE算法在新的特征空间中对少数类进行过采样来代替。LLE优于其它现有的学习算法之处在于可以根据下述公式把新特征空间中产生的合成矢量z映射回原始输入空间:
w = arg min w Σ i = 1 N | | z - Σ j = 1 k w j y j ( z ) | | 2 - - - ( 7 )
z = Σ j = 1 k w j x j ( z ) - - - ( 8 )
其中yj(z)是在嵌入集Y中z的k个最近邻,而xj(z)是在原始输入空间中yj(z)的对应矢量。LLE的应用实现了过采样技术所要求的严格假设,从而可以设计原始输入空间中的任何分类器。图2中展示了基础的基于LLE的SMOTE算法。尤其,图2示出基于LLE的SMOTE算法的伪代码。
与上述LLE算法相反,申请人提供另外的方法,该方法用于选择参与公式(4)和(5)中的计算的k个最近邻矢量。即,对于X中的每个x,通过结合X的两类信息即当X=C+∪C-时的少数类C+和多数类C-来构建其每个x的最接近的邻居XkNN(x)。申请人首先根据欧几里德距离来寻找x的k个最近邻,X0 kNN(x),并把XkNN(x)设为空。如果对于每个x构建X0 kNN(x),则对于X0 kNN(x)中的任何负矢量v,如果在X0 kNN(x)中的正邻居的数量大于k+,则申请人把v添加到XkNN(x)中。最后,由于XkNN(x)的大小明显地小于k,所以把x的最接近的正邻居的k-|XkNN(x)|数添加到XkNN(x)中。图2中展示了这个另外的LLE方案的实施。
现在描述实验结果。
申请人通过在三个数据集上进行舍去一(leave-one-out)有效性测试以及应用三个分类器即朴素贝叶斯(
Figure A20068005399600081
Bayesian)分类器、k最近邻分类器以及支持矢量机器来估计所建议的基于LLE的SMOTE算法。作为比较基准,还在实验测试中估计传统的SMOTE算法。从肺部的自动计算化检测中的数个胸部x射线图像数据库收集三个数据集。每个数据矢量具有从感兴趣的区域(ROI)获取的33个特征,这些感兴趣的区域是通过一系列图像增强和分段算法进行定位和分段的。在图3中提供了数据集的说明。
ROC曲线(接收器操作特性)的作用是作为估计通过使用基于LLE的SMOTE和SMOTE得到的分类性能的工具,它标绘出作为假的正函数的真的正评估。在医学诊断中,一些个别人员认为作为结果的ROC曲线下的区域越大,得到的分类性能越佳。
在实验中,对于少数类进行的过采样只有它原始大小的两倍那么多。定义图2中的三个参数为:k=33、l=7以及k+=9。我们在图4中报告了在三个数据集上分别使用三个分类器得到的分类结果。尤其,图4示出通过三个分类器即朴素贝叶斯(
Figure A20068005399600091
Bayesian)分类器、k最近邻分类器(K-NN)以及支持矢量机器而得到的ROC曲线。
在图5中也报告了所得到的作为结果的ROC曲线的区域。尤其,图5示出结合基于LLE的SMOTE和SMOTE通过三个分类器得到的ROC曲线的区域。可以观察到,对于每个分类器,基于LLE的SMOTE算法胜过传统SMOTE算法。
因此,申请人描述的数据分类方法包括下列步骤:提供在第一空间中被映射的数据;使用局部线性嵌入把数据映射到第二空间以产生映射过的数据;对映射过的数据应用合成少数类过采样算法(SMOTE)以产生新数据;以及把新数据映射到第一空间。
因此,申请人已经描述了过采样技术,用于不平衡数据的分类的基于LLE的SMOTE。通过把局部线性嵌入技术结合到SMOTE算法中来执行基础过采样算法。实验结果展示出基于LLE的SMOTE算法获得比传统SMOTE的性能增强的性能。
申请人已知的参考资料包括:
Chawla,N.,Bowyer,K.,Hall,L.和Kegelmeyer,W.SMOTE:SyntheticMinority Over-sampling Technique(合成少数类过采样算法)。Journal ofArtificial Intelligence Research(人工智能研究杂志),2002,16:341-378;
Sam TR,Lawrence K S.,Nonlinear dimensionality reduction by locallylinear embedding(通过局部线性嵌入的非线性维度降低)。Science(科学),2000,290(5500):2323-2326;
Xu Zhi-jie,Yang Jie和Wang Meng,A new non-linear dimensionallyreduction for color image(彩色图像的新的非线性维度降低),Journal ofShanghai Jiaotong University(上海交通大学学报),2005,39(2):279-283;
Rehan Akbani,Stephen Kwek和Nathalie Japkowicz,Applying SupportVector Machines to Imbalanced Datasets(应用支持矢量机器于不平衡数据集),ECML 2004:39-50;
Zhan De-chuan,Zhou Zhi-hua,Neighbor Line-based Locally linearEmbedding(基于邻居线的局部线性嵌入),Proceedings of the 10thPacific-Asia Conference on Knowledge Discovery and Data Mining 2006(关于知识发现和数据采集的第十届亚太会议2006学报);
Dick de Ridder,Marco Loog和Marcel J.T.Reinders,Local Fisherembedding(局部Fisher嵌入),ICPR 2004,2:295-298;以及
Yi Sun,Mark Robinson,Rod Adams,Paul Kaye,Alistair G.Rust和NeilDavey,Using a Hybrid Adaboost algorithm to Integrate Binding SitePredictions(对组合捆绑现场预测使用混合Adaboost算法),ICMI 2005。
描述作为软件程序的本发明的较佳实施例。熟悉本领域的技术人员会理解,也可以在硬件中构建这种软件的等效物。因为图像操作算法和系统是众知的,本说明将特别直接针对形成根据本发明的方法的一部分的或更直接地与根据本发明的方法协作的算法和系统。可以从本领域中已知的这些系统、算法、组件和元件中选择这里没有特别地示出或描述的、包含在其中的这种算法和系统的其它方面以及用于产生和处理图像信号的硬件和/或软件。
例如,计算机程序产物可以包括一个或多个存储介质;磁性存储介质,诸如磁盘(诸如软盘)或磁带;光存储介质,诸如光盘、光带或机器可读出条形码;固态电子存储器件,诸如随机存取存储器(RAM)或只读存储器(ROM);或用于存储计算机程序的任何其它物理器件或介质,所述计算机程序具有用于控制一台或多台计算机来实现根据本发明的方法的指令。
这里结合本申请引用的所有文件、专利、学报论文和其它资料作为参考。
已经特别参考当前较佳实施例详细描述了本发明,但是要理解,在本发明的精神和范围内可以实现各种变化和修改。因此认为在所有各个方面,当前揭示的实施例是示意性的而非限制性的。

Claims (4)

1.一种数据分类方法,包括下列步骤:
提供数据,所述数据在第一空间中被映射;
使用局部线性嵌入把所述数据映射到第二空间以产生映射过的数据;
对所述映射过的数据应用合成少数类过采样算法(SMOTE)以产生新数据;以及
把所述新数据映射到所述第一空间。
2.如权利要求1所述的方法,其特征在于,所述第二空间与所述第一空间相比是较低维空间。
3.如权利要求1所述的方法,其特征在于,所述第二空间是线性可分的特征空间。
4.具有至少一个计算机存储介质的计算机存储装置,所述计算机存储介质具有存储在其中的使一台或多台计算机执行权利要求1所述方法的指令。
CNA2006800539966A 2006-03-30 2006-03-30 具有局部线性嵌入的smote算法 Pending CN101405718A (zh)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2006/000565 WO2007115426A2 (en) 2006-03-30 2006-03-30 Smote algorithm with locally linear embedding

Publications (1)

Publication Number Publication Date
CN101405718A true CN101405718A (zh) 2009-04-08

Family

ID=38581438

Family Applications (1)

Application Number Title Priority Date Filing Date
CNA2006800539966A Pending CN101405718A (zh) 2006-03-30 2006-03-30 具有局部线性嵌入的smote算法

Country Status (3)

Country Link
US (1) US20090097741A1 (zh)
CN (1) CN101405718A (zh)
WO (1) WO2007115426A2 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254177A (zh) * 2011-04-22 2011-11-23 哈尔滨工程大学 一种不均衡数据svm轴承故障检测方法
CN104091073A (zh) * 2014-07-11 2014-10-08 中国人民解放军国防科学技术大学 虚拟资产不平衡交易数据的采样方法
CN105975993A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于边界升采样的不平衡数据分类方法

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8165361B2 (en) * 2008-01-14 2012-04-24 General Electric Company System and method for image based multiple-modality cardiac image alignment
CN102402690B (zh) * 2011-09-28 2016-02-24 南京师范大学 基于直觉模糊集成的数据分类方法与系统
US9224104B2 (en) * 2013-09-24 2015-12-29 International Business Machines Corporation Generating data from imbalanced training data sets
CN104102700A (zh) * 2014-07-04 2014-10-15 华南理工大学 一种面向因特网不平衡应用流的分类方法
CN104462301B (zh) * 2014-11-28 2018-05-04 北京奇虎科技有限公司 一种网络数据的处理方法和装置
CN106156029A (zh) * 2015-03-24 2016-11-23 中国人民解放军国防科学技术大学 基于集成学习的多标签不平衡虚拟资产数据分类方法
CN105320753B (zh) * 2015-09-30 2018-07-06 重庆大学 一种基于层次引力模型的不平衡数据分类方法及其系统
CN105488529A (zh) * 2015-11-26 2016-04-13 国网北京市电力公司 图片的源相机型号的识别方法和装置
CN106973057B (zh) * 2017-03-31 2018-12-14 浙江大学 一种适用于入侵检测的分类方法
CN107316057B (zh) * 2017-06-07 2020-09-25 哈尔滨工程大学 核动力装置故障诊断方法
CN109522556B (zh) * 2018-11-16 2024-03-12 北京九狐时代智能科技有限公司 一种意图识别方法及装置
US10354205B1 (en) 2018-11-29 2019-07-16 Capital One Services, Llc Machine learning system and apparatus for sampling labelled data
US11321633B2 (en) * 2018-12-20 2022-05-03 Applied Materials Israel Ltd. Method of classifying defects in a specimen semiconductor examination and system thereof
US11544501B2 (en) 2019-03-06 2023-01-03 Paypal, Inc. Systems and methods for training a data classification model
US11593716B2 (en) * 2019-04-11 2023-02-28 International Business Machines Corporation Enhanced ensemble model diversity and learning
US11126642B2 (en) * 2019-07-29 2021-09-21 Hcl Technologies Limited System and method for generating synthetic data for minority classes in a large dataset
CN110579709B (zh) * 2019-08-30 2021-04-13 西南交通大学 一种有轨电车用质子交换膜燃料电池故障诊断方法
US11797516B2 (en) * 2021-05-12 2023-10-24 International Business Machines Corporation Dataset balancing via quality-controlled sample generation
US11836219B2 (en) 2021-11-03 2023-12-05 International Business Machines Corporation Training sample set generation from imbalanced data in view of user goals
US11983238B2 (en) 2021-12-03 2024-05-14 International Business Machines Corporation Generating task-specific training data
US11836360B2 (en) 2021-12-08 2023-12-05 International Business Machines Corporation Generating multi-dimensional host-specific storage tiering
US20230376977A1 (en) * 2022-05-19 2023-11-23 Valdimir Pte. Ltd. System for determining cross selling potential of existing customers

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040024292A1 (en) * 2002-07-25 2004-02-05 Meddetect Inc. System and method for assigning a computer aided detection application to a digital image
US7529394B2 (en) * 2003-06-27 2009-05-05 Siemens Medical Solutions Usa, Inc. CAD (computer-aided decision) support for medical imaging using machine learning to adapt CAD process with knowledge collected during routine use of CAD system
US20050281457A1 (en) * 2004-06-02 2005-12-22 Murat Dundar System and method for elimination of irrelevant and redundant features to improve cad performance

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102254177A (zh) * 2011-04-22 2011-11-23 哈尔滨工程大学 一种不均衡数据svm轴承故障检测方法
CN102254177B (zh) * 2011-04-22 2013-06-05 哈尔滨工程大学 一种不均衡数据svm轴承故障检测方法
CN104091073A (zh) * 2014-07-11 2014-10-08 中国人民解放军国防科学技术大学 虚拟资产不平衡交易数据的采样方法
CN105975993A (zh) * 2016-05-18 2016-09-28 天津大学 一种基于边界升采样的不平衡数据分类方法

Also Published As

Publication number Publication date
US20090097741A1 (en) 2009-04-16
WO2007115426A2 (en) 2007-10-18

Similar Documents

Publication Publication Date Title
CN101405718A (zh) 具有局部线性嵌入的smote算法
Dai et al. TIRNet: Object detection in thermal infrared images for autonomous driving
Hayat Multimedia super-resolution via deep learning: A survey
Dornaika et al. Building detection from orthophotos using a machine learning approach: An empirical study on image segmentation and descriptors
CN109035188B (zh) 一种基于目标特征驱动的智能图像融合方法
CN111104903B (zh) 一种深度感知交通场景多目标检测方法和系统
CN105122308A (zh) 用于使用连续染色组织上的单细胞划分的多路生物标志定量的系统和方法
Arandjelovic Crowd detection from still images
CN110264454B (zh) 基于多隐藏层条件随机场的宫颈癌组织病理图像诊断方法
Ortiz et al. Unsupervised neural techniques applied to MR brain image segmentation
CN104282008A (zh) 对图像进行纹理分割的方法和装置
WO2022258624A1 (en) Method for determining an image descriptor, encoding pipeline, and visual place recognition method
Florinabel Real-time image processing method to implement object detection and classification for remote sensing images
Bordt et al. The manifold hypothesis for gradient-based explanations
Yousefi et al. Hierarchical segmentation of urban satellite imagery
Ramadas et al. Segmentation of weather radar image based on hazard severity using RDE: reconstructed mutation strategy for differential evolution algorithm
Hafeezallah et al. Visual Motion Segmentation in Crowd Videos Based on Spatial-Angular Stacked Sparse Autoencoders.
Dhar et al. Interval type-2 fuzzy set and human vision based multi-scale geometric analysis for text-graphics segmentation
Kumar et al. A study on brain tumor detection and segmentation using deep learning techniques
CN113920127B (zh) 一种训练数据集独立的单样本图像分割方法和系统
Sharma et al. Lung cancer detection using convolutional neural network
CN115082718A (zh) 基于组织病理图像的胶质瘤分级方法、装置、设备及介质
Lin et al. Manifold learning via the principle bundle approach
Mercovich et al. Utilizing the graph modularity to blind cluster multispectral satellite imagery
Patel et al. A review paper on object detection for improve the classification accuracy and robustness using different techniques

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Open date: 20090408