CN107203891A - 一种自动多阀值特征过滤方法及装置 - Google Patents

一种自动多阀值特征过滤方法及装置 Download PDF

Info

Publication number
CN107203891A
CN107203891A CN201610154296.1A CN201610154296A CN107203891A CN 107203891 A CN107203891 A CN 107203891A CN 201610154296 A CN201610154296 A CN 201610154296A CN 107203891 A CN107203891 A CN 107203891A
Authority
CN
China
Prior art keywords
characteristic filter
iteration
threshold values
feature
gradient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610154296.1A
Other languages
English (en)
Inventor
瞿神全
周俊
崔卿
丁永明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201610154296.1A priority Critical patent/CN107203891A/zh
Priority to TW106104931A priority patent/TWI794157B/zh
Priority to JP2018548836A priority patent/JP6890607B2/ja
Priority to PCT/CN2017/075517 priority patent/WO2017157183A1/zh
Publication of CN107203891A publication Critical patent/CN107203891A/zh
Priority to US16/132,264 priority patent/US11544618B2/en
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • G06F18/2113Selection of the most significant subset of features by ranking or filtering the set of features, e.g. using a measure of variance or of feature cross-correlation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Accounting & Taxation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Finance (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Strategic Management (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Development Economics (AREA)
  • General Business, Economics & Management (AREA)
  • Marketing (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种自动多阀值特征过滤方法及装置,所述特征过滤方法在机器学习模型训练的迭代过程中,根据上一轮迭代的结果计算本轮迭代的特征过滤阈值及特征相关值,并根据计算得到的特征过滤阈值和特征相关值,对样本进行特征过滤。本发明的特征过滤装置包括计算模块和特征过滤模块。本发明的方法及装置在每一轮迭代时,都能自动生成不同的特征过滤阀值,极大的提高了过滤阀值的精准度,与现有固定单一阀值相比,能极大地提高机器自动学习的训练速度和机器学习模型的准确度。

Description

一种自动多阀值特征过滤方法及装置
技术领域
本发明属于人工智能技术领域,尤其涉及一种自动多阀值特征过滤方法及装置。
背景技术
超大规模机器学习算法是当前互联网公司实现搜索查询结果排序、互联网广告点击率预测、商品个性化推荐、语音识别、智能问答等系统的基础技术支撑。不断扩大的数据规模在提升算法应用效果的同时,也对大规模数据处理带来了极大的理论和工程实践的挑战。高效的数据处理成为互联网大数据应用的核心技术。
互联网数据通常都非常稀疏,所以在使用互联网数据对机器学习模型进行训练后,会得到稀疏模型,而且稀疏模型方便后续存储和预测。在极度稀疏的互联网数据训练中应用高效的特征过滤算法,可以有效地去除不相关的特征和冗余特征,提高学习算法的泛化性能和运行效率,对于训练机器学习模型具有较大的帮助。
互联网公司用于机器学习模型训练的大规模数据,一般由若干样本数据组成,每个样本由固定数目的特征集合组成。以下是一个例子:
一个样本特征:{feature_1,feature_2,…,feature_n};
由于互联网大数据样本特征非常稀疏,大部分特征(feature)都是0,所以可以应用某种机制把某些特征过滤掉,不参与后续的模型训练,这样将会极大的提升机器学习模型的训练效率。
现有的特征过滤方法通常通过人工设置一个固定的阈值进行过滤,例如:
设置一个固定的过滤阈值r;
根据样本数据算得梯度g;
根据某维梯度值gi和其他模型参数算得一个值x,比较x与r的大小,如果x小于r则过滤掉该维特征。
可见现有的特征过滤方法中用于过滤的阈值需要人工指定,所以过滤的效果强依赖人的经验,过滤效果不稳定,因为过滤的阈值不能根据样本数据自动调整,导致训练得到的模型预测精度降低;并且阈值只有一个而且是固定的,不能根据训练的情况动态调整阈值,所以不能很好地过滤所有特征。由于阈值的大小不好确定,如果阈值选择不好,会导致训练得到的机器学习模型不可靠,预测精度降低。
发明内容
本发明的目的是提供一种自动多阀值特征过滤方法及装置,以解决现有技术的特征过滤方法只能使用固定阀值进行特征过滤,造成训练效率不高及训练得到的机器学习模型不够精确的问题。
为了实现上述目的,本发明技术方案如下:
一种自动多阀值特征过滤方法,用于在机器学习模型训练时对样本数据进行特征过滤,所述特征过滤方法包括:
根据上一轮迭代的结果计算本轮迭代的特征过滤阈值及特征相关值;
根据计算得到的特征过滤阈值和特征相关值,对样本进行特征过滤。
进一步地,所述特征过滤阀值为样本数据中各维度特征在上一轮迭代时得到的梯度中最大梯度与样本数据数量的比值。
进一步地,所述根据上一轮迭代的结果计算本轮迭代的特征相关值,包括:
根据上一轮迭代的结果计算本轮迭代样本数据各维度特征的梯度;
根据各维度特征的梯度计算对应的特征相关值。
进一步地,所述各维度特征的特征相关值为各维度的梯度的线性函数。
进一步地,所述根据计算得到的特征过滤阈值和特征相关值,对样本进行特征过滤,包括:
如果各维度特征相关值小于本维度特征过滤阈值,则本维特征被过滤掉,不参与后续迭代计算,否则保留本维特征,继续参与后续迭代计算。
本发明同时提出了一种自动多阀值特征过滤装置,用于在机器学习模型训练时对样本数据进行特征过滤,所述特征过滤装置包括:
计算模块,用于根据上一轮迭代的结果计算本轮迭代的特征过滤阈值及特征相关值;
特征过滤模块,用于根据计算得到的特征过滤阈值和特征相关值,对样本进行特征过滤。
进一步地,所述特征过滤阀值为样本数据中各维度特征在上一轮迭代时得到的梯度中最大梯度与样本数据数量的比值。
进一步地,所述计算模块在根据上一轮迭代的结果计算本轮迭代的特征相关值时,执行如下步骤:
根据上一轮迭代的结果计算本轮迭代样本数据各维度特征的梯度;
根据各维度特征的梯度计算对应的特征相关值。
进一步地,所述各维度特征的特征相关值为各维度的梯度的线性函数。
进一步地,所述特征过滤模块根据计算得到的特征过滤阈值和特征相关值,对样本进行特征过滤,执行如下步骤:
如果各维度特征相关值小于本维度特征过滤阈值,则本维特征被过滤掉,不参与后续迭代计算,否则保留本维特征,继续参与后续迭代计算。
本发明提出了一种自动多阀值特征过滤方法及装置,突破了现有人工设置单阈值进行特征过滤的方式,可以根据每批样本数据的迭代结果自动计算出多个阈值来过滤特征,极大的提升了训练速度和训练得到的机器学习模型的精准度。
附图说明
图1为本发明自动多阀值特征过滤方法流程图;
图2为本发明自动多阀值特征过滤装置结构示意图。
具体实施方式
下面结合附图和实施例对本发明技术方案做进一步详细说明,以下实施例不构成对本发明的限定。
互联网业务中有大量原始用户数据,比如在广告点击和商品推荐业务中为了提升点击率和商品推荐的精度会使用大量原始样本数据训练一个机器学习模型。样本数据有多维特征,比如价格、商品类目等,这些特征对效果的提升不一样,有的特征可能对效果没有提升作用,可以把这个特征过滤掉,而有效果的特征会保留下来,这些保留下来的特征最后通过训练会得到不同的权重,这些权重就是得到的机器学习模型对应的模型参数。在机器学习模型的训练过程中,需要通过不断迭代计算来得到机器学习模型对应的模型参数。本发明的总体思路就是在机器学习模型训练的每一轮迭代的过程中,根据当前模型参数来计算特征过滤值,并使用计算得到的特征过滤值来进行特征过滤。
如图1所示,本实施例自动多阀值特征过滤方法,包括:
步骤S1、根据上一轮迭代的结果计算本轮迭代的特征过滤阈值及特征相关值。
本实施例以一个典型的机器学习过程为例,假设机器学习模型的估计函数为:
hθ(x)=θ0+θ1x1+…+θnxn 公式1
其中θ为模型参数,x为样本特征,两者都为矢量,xi为第i维特征。
在机器学习中还定义了损失函数J(θ)来评估θ是否比较好,调整θ以使得J(θ)取得最小值。为了达到这个目的,需要根据最小二乘法或梯度下降法进行迭代直到最终收敛取得一个θ值使得J(θ)最小。
本实施例以梯度下降法为例,计算第k轮梯度gk的公式如下:
关于机器学习模型的训练过程以及梯度下降方法这里不再赘述,本实施例利用上述过程中迭代结果来计算特征过滤阈值。具体计算方法如下:
假设第k轮迭代的特征过滤阈值为rk,则:
其中,l为样本数量,g(k-1)i为第k-1轮第i维特征对应的梯度值。
需要说明的是,本实施例根据原始样本数据样本数量l以及梯度gk计算出特征过滤阀值rk,该计算可以采用多种算法实现,并不依赖某种特定的算法。例如还可以根据梯度gk以及样本特征的维度来进行计算,或者是根据梯度gk以及样本特征的显著性参数来进行计算,这里不一一赘述。
同理,本实施例还需要计算出第k轮第i维特征对应的特征相关值ski,计算公式如下:
ski=gki+δ 公式4
其中,δ为固定常数。可见本实施例特征过滤阈值rk根据上一轮迭代的梯度g(k-1)i来计算,而特征相关值根据本轮的梯度gki来计算,各维度特征的特征相关值为各维度的梯度的线性函数。
为此需要根据公式2先计算出本轮迭代的梯度gk,关于梯度的计算,这里不再赘述。在第一轮迭代的时候,由于没有上一轮的梯度数据,不进行特征过滤。
需要说明的是,本实施例特征过滤阈值与特征相关值的计算参数需要统一,即特征过滤阈值根据梯度来计算,则特征相关值也根据梯度来计算,但是具体的计算公式根据训练模型的不同,可以设计的不一样,即使是训练相同模型也可以设计的不一样。比如在逻辑斯特回归(LR)模型训练中,固定阈值过滤特征的KKT方法,计算相关值的公式就是:si=gi+δ。本实施例特征相关值与此不同之处在于,对每轮迭代计算不同的特征相关值。本发明并不限于具体的特征过滤阈值与特征相关值的计算方法。
步骤S2、根据计算得到的特征过滤阈值和特征相关值,对样本进行特征过滤。
步骤S1已经计算得到特征过滤阈值和特征相关值,本步骤通过比较特征过滤阈值gki和过滤阈值ski之间的大小,对样本进行特征过滤。具体地:
如果ski小于gki,则第i维特征被过滤掉,不参与后续计算,否则保留第i维特征,继续参与后续计算。
通过特征过滤后,原始样本数据将有部分维度的特征被过滤掉,过滤完成后的数据将作为新的样本数据导入系统进行下一轮迭代,直到达到迭代终止条件。
需要说明的是,由于特征过滤阀值gki以及样本数据的每维特征的特征相关值ski都和梯度gki相关,而梯度gki是根据样本数据、损失函数和模型参数算得的,每轮迭代中的样本数据和模型参数都不同,因此每轮迭代中算出来的特征过滤阀值和样本数据的每维特征的相关值ski都不同。
容易理解的是,随着迭代次数的增加,被过滤掉的无效特征会越来越多,每轮迭代中计算出来的特征过滤阀值也会越来越精确,这会极大地加快训练的速度。
关于迭代计算的终止条件,根据具体的算法而定,例如完成上一轮迭代后不再有新的特征被过滤掉,或者迭代次数超过设定的最大值,这里不再赘述。迭代完成后保留下来的特征最后通过训练会得到不同的模型参数,根据这些模型参数就得到机器学习模型。
如图2所示,与上述方法对应地,本实施例同时提出了一种自动多阀值特征过滤装置,用于在机器学习模型训练时对样本数据进行特征过滤,该装置包括:
计算模块,用于根据上一轮迭代的结果计算本轮迭代的特征过滤阈值及特征相关值;
特征过滤模块,用于根据计算得到的特征过滤阈值和特征相关值,对样本进行特征过滤。
在本实施例中,特征过滤阀值为样本数据中各维度特征在上一轮迭代时得到的梯度中最大梯度与样本数据数量的比值。计算模块根据上一轮迭代的结果计算本轮迭代的特征过滤阈值及特征相关值,其中计算模块在根据上一轮迭代的结果计算本轮迭代的特征相关值时,执行如下步骤:
根据上一轮迭代的结果计算本轮迭代样本数据各维度特征的梯度;
根据各维度特征的梯度计算对应的特征相关值。
本实施例第k轮第i维特征对应的特征相关值ski根据公式4来进行计算,各维度特征的特征相关值为各维度的梯度的线性函数。
在本实施例中,特征过滤模块根据计算得到的特征过滤阈值和特征相关值,对样本进行特征过滤,执行如下步骤:
如果各维度特征相关值小于本维度特征过滤阈值,则本维特征被过滤掉,不参与后续迭代计算,否则保留本维特征,继续参与后续迭代计算。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,在不背离本发明精神及其实质的情况下,熟悉本领域的技术人员当可根据本发明作出各种相应的改变和变形,但这些相应的改变和变形都应属于本发明所附的权利要求的保护范围。

Claims (10)

1.一种自动多阀值特征过滤方法,用于在机器学习模型训练时对样本数据进行特征过滤,其特征在于,所述特征过滤方法包括:
根据上一轮迭代的结果计算本轮迭代的特征过滤阈值及特征相关值;
根据计算得到的特征过滤阈值和特征相关值,对样本进行特征过滤。
2.根据权利要求1所述的自动多阀值特征过滤方法,其特征在于,所述特征过滤阀值为样本数据中各维度特征在上一轮迭代时得到的梯度中最大梯度与样本数据数量的比值。
3.根据权利要求2所述的自动多阀值特征过滤方法,其特征在于,所述根据上一轮迭代的结果计算本轮迭代的特征相关值,包括:
根据上一轮迭代的结果计算本轮迭代样本数据各维度特征的梯度;
根据各维度特征的梯度计算对应的特征相关值。
4.根据权利要求3所述的自动多阀值特征过滤方法,其特征在于,所述各维度特征的特征相关值为各维度的梯度的线性函数。
5.根据权利要求1所述的自动多阀值特征过滤方法,其特征在于,所述根据计算得到的特征过滤阈值和特征相关值,对样本进行特征过滤,包括:
如果各维度特征相关值小于本维度特征过滤阈值,则本维特征被过滤掉,不参与后续迭代计算,否则保留本维特征,继续参与后续迭代计算。
6.一种自动多阀值特征过滤装置,用于在机器学习模型训练时对样本数据进行特征过滤,其特征在于,所述特征过滤装置包括:
计算模块,用于根据上一轮迭代的结果计算本轮迭代的特征过滤阈值及特征相关值;
特征过滤模块,用于根据计算得到的特征过滤阈值和特征相关值,对样本进行特征过滤。
7.根据权利要求6所述的自动多阀值特征过滤装置,其特征在于,所述特征过滤阀值为样本数据中各维度特征在上一轮迭代时得到的梯度中最大梯度与样本数据数量的比值。
8.根据权利要求7所述的自动多阀值特征过滤装置,其特征在于,所述计算模块在根据上一轮迭代的结果计算本轮迭代的特征相关值时,执行如下步骤:
根据上一轮迭代的结果计算本轮迭代样本数据各维度特征的梯度;
根据各维度特征的梯度计算对应的特征相关值。
9.根据权利要求8所述的自动多阀值特征过滤装置,其特征在于,所述各维度特征的特征相关值为各维度的梯度的线性函数。
10.根据权利要求6所述的自动多阀值特征过滤装置,其特征在于,所述特征过滤模块根据计算得到的特征过滤阈值和特征相关值,对样本进行特征过滤,执行如下步骤:
如果各维度特征相关值小于本维度特征过滤阈值,则本维特征被过滤掉,不参与后续迭代计算,否则保留本维特征,继续参与后续迭代计算。
CN201610154296.1A 2016-03-17 2016-03-17 一种自动多阀值特征过滤方法及装置 Pending CN107203891A (zh)

Priority Applications (5)

Application Number Priority Date Filing Date Title
CN201610154296.1A CN107203891A (zh) 2016-03-17 2016-03-17 一种自动多阀值特征过滤方法及装置
TW106104931A TWI794157B (zh) 2016-03-17 2017-02-15 自動多閾值特徵過濾方法及裝置
JP2018548836A JP6890607B2 (ja) 2016-03-17 2017-03-03 自動多閾値特徴フィルタリング方法及び装置
PCT/CN2017/075517 WO2017157183A1 (zh) 2016-03-17 2017-03-03 一种自动多阀值特征过滤方法及装置
US16/132,264 US11544618B2 (en) 2016-03-17 2018-09-14 Automatic multi-threshold feature filtering method and apparatus

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610154296.1A CN107203891A (zh) 2016-03-17 2016-03-17 一种自动多阀值特征过滤方法及装置

Publications (1)

Publication Number Publication Date
CN107203891A true CN107203891A (zh) 2017-09-26

Family

ID=59850590

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610154296.1A Pending CN107203891A (zh) 2016-03-17 2016-03-17 一种自动多阀值特征过滤方法及装置

Country Status (5)

Country Link
US (1) US11544618B2 (zh)
JP (1) JP6890607B2 (zh)
CN (1) CN107203891A (zh)
TW (1) TWI794157B (zh)
WO (1) WO2017157183A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825966A (zh) * 2019-10-31 2020-02-21 广州市百果园信息技术有限公司 一种信息推荐的方法、装置、推荐服务器和存储介质

Families Citing this family (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10609475B2 (en) 2014-12-05 2020-03-31 Stages Llc Active noise control and customized audio system
US10331802B2 (en) 2016-02-29 2019-06-25 Oracle International Corporation System for detecting and characterizing seasons
US10699211B2 (en) 2016-02-29 2020-06-30 Oracle International Corporation Supervised method for classifying seasonal patterns
US10885461B2 (en) 2016-02-29 2021-01-05 Oracle International Corporation Unsupervised method for classifying seasonal patterns
US11113852B2 (en) 2016-02-29 2021-09-07 Oracle International Corporation Systems and methods for trending patterns within time-series data
US10198339B2 (en) 2016-05-16 2019-02-05 Oracle International Corporation Correlation-based analytic for time-series data
US11082439B2 (en) 2016-08-04 2021-08-03 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US10635563B2 (en) 2016-08-04 2020-04-28 Oracle International Corporation Unsupervised method for baselining and anomaly detection in time-series data for enterprise systems
US10945080B2 (en) 2016-11-18 2021-03-09 Stages Llc Audio analysis and processing system
US10915830B2 (en) 2017-02-24 2021-02-09 Oracle International Corporation Multiscale method for predictive alerting
US10949436B2 (en) 2017-02-24 2021-03-16 Oracle International Corporation Optimization for scalable analytics using time series models
US10817803B2 (en) * 2017-06-02 2020-10-27 Oracle International Corporation Data driven methods and systems for what if analysis
US10963346B2 (en) 2018-06-05 2021-03-30 Oracle International Corporation Scalable methods and systems for approximating statistical distributions
US10997517B2 (en) 2018-06-05 2021-05-04 Oracle International Corporation Methods and systems for aggregating distribution approximations
US11138090B2 (en) 2018-10-23 2021-10-05 Oracle International Corporation Systems and methods for forecasting time series with variable seasonality
US11526778B2 (en) * 2018-12-19 2022-12-13 T-Mobile Usa, Inc. Future user device preference prediction based on telecom data
US10855548B2 (en) 2019-02-15 2020-12-01 Oracle International Corporation Systems and methods for automatically detecting, summarizing, and responding to anomalies
US11533326B2 (en) 2019-05-01 2022-12-20 Oracle International Corporation Systems and methods for multivariate anomaly detection in software monitoring
US11537940B2 (en) 2019-05-13 2022-12-27 Oracle International Corporation Systems and methods for unsupervised anomaly detection using non-parametric tolerance intervals over a sliding window of t-digests
US11887015B2 (en) 2019-09-13 2024-01-30 Oracle International Corporation Automatically-generated labels for time series data and numerical lists to use in analytic and machine learning systems
JP2021197108A (ja) 2020-06-18 2021-12-27 富士通株式会社 学習プログラム、学習方法および情報処理装置
JP2022007168A (ja) 2020-06-25 2022-01-13 富士通株式会社 学習プログラム、学習方法および情報処理装置
TWI790769B (zh) * 2021-10-07 2023-01-21 宏碁股份有限公司 電子郵件備份方法與電子郵件管理系統

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1851729A (zh) * 2006-06-01 2006-10-25 北京中星微电子有限公司 应用于模式识别的基于AdaBoost的特征抽取方法
CN102629305A (zh) * 2012-03-06 2012-08-08 上海大学 一种面向snp数据的特征选择方法
CN103955714A (zh) * 2014-04-09 2014-07-30 中国科学院信息工程研究所 基于水军检测模型构建方法和系统及水军检测方法
CN104504373A (zh) * 2014-12-18 2015-04-08 电子科技大学 一种用于fmri数据的特征选择方法
CN104616031A (zh) * 2015-01-22 2015-05-13 哈尔滨工业大学深圳研究生院 迁移学习方法及装置
US20150206069A1 (en) * 2014-01-17 2015-07-23 Matthew BEERS Machine learning-based patent quality metric
US20150379425A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Consistent filtering of machine learning data
US9275347B1 (en) * 2015-10-09 2016-03-01 AlpacaDB, Inc. Online content classifier which updates a classification score based on a count of labeled data classified by machine deep learning
CN105389480A (zh) * 2015-12-14 2016-03-09 深圳大学 多类不平衡基因组学数据迭代集成特征选择方法及系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20050281457A1 (en) * 2004-06-02 2005-12-22 Murat Dundar System and method for elimination of irrelevant and redundant features to improve cad performance
JP5207870B2 (ja) * 2008-08-05 2013-06-12 日立コンピュータ機器株式会社 次元削減方法、パターン認識用辞書生成装置、及びパターン認識装置
KR100974900B1 (ko) * 2008-11-04 2010-08-09 한국전자통신연구원 동적 임계값을 이용한 마커 인식 장치 및 방법
JP2014160457A (ja) * 2013-02-20 2014-09-04 Nec Corp 対話的変数選択装置、対話的変数選択方法および対話的変数選択プログラム
WO2017120579A1 (en) * 2016-01-10 2017-07-13 Presenso, Ltd. System and method for validating unsupervised machine learning models

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1851729A (zh) * 2006-06-01 2006-10-25 北京中星微电子有限公司 应用于模式识别的基于AdaBoost的特征抽取方法
CN102629305A (zh) * 2012-03-06 2012-08-08 上海大学 一种面向snp数据的特征选择方法
US20150206069A1 (en) * 2014-01-17 2015-07-23 Matthew BEERS Machine learning-based patent quality metric
CN103955714A (zh) * 2014-04-09 2014-07-30 中国科学院信息工程研究所 基于水军检测模型构建方法和系统及水军检测方法
US20150379425A1 (en) * 2014-06-30 2015-12-31 Amazon Technologies, Inc. Consistent filtering of machine learning data
CN104504373A (zh) * 2014-12-18 2015-04-08 电子科技大学 一种用于fmri数据的特征选择方法
CN104616031A (zh) * 2015-01-22 2015-05-13 哈尔滨工业大学深圳研究生院 迁移学习方法及装置
US9275347B1 (en) * 2015-10-09 2016-03-01 AlpacaDB, Inc. Online content classifier which updates a classification score based on a count of labeled data classified by machine deep learning
CN105389480A (zh) * 2015-12-14 2016-03-09 深圳大学 多类不平衡基因组学数据迭代集成特征选择方法及系统

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110825966A (zh) * 2019-10-31 2020-02-21 广州市百果园信息技术有限公司 一种信息推荐的方法、装置、推荐服务器和存储介质
WO2021082500A1 (zh) * 2019-10-31 2021-05-06 百果园技术(新加坡)有限公司 一种信息推荐的方法、装置、推荐服务器和存储介质
CN110825966B (zh) * 2019-10-31 2022-03-04 广州市百果园信息技术有限公司 一种信息推荐的方法、装置、推荐服务器和存储介质

Also Published As

Publication number Publication date
TW201734840A (zh) 2017-10-01
US11544618B2 (en) 2023-01-03
TWI794157B (zh) 2023-03-01
JP6890607B2 (ja) 2021-06-18
US20190042982A1 (en) 2019-02-07
WO2017157183A1 (zh) 2017-09-21
JP2019513265A (ja) 2019-05-23

Similar Documents

Publication Publication Date Title
CN107203891A (zh) 一种自动多阀值特征过滤方法及装置
WO2019091020A1 (zh) 权重数据存储方法和基于该方法的神经网络处理器
WO2020177432A1 (zh) 基于目标检测网络的多标签物体检测方法、系统、装置
CN115018021B (zh) 基于图结构与异常注意力机制的机房异常检测方法及装置
CN109858390A (zh) 基于端到端时空图学习神经网络的人体骨架的行为识别方法
US20120330870A1 (en) Method and apparatus for a local competitive learning rule that leads to sparse connectivity
Guo et al. Regularization parameter estimation for feedforward neural networks
CN108154430A (zh) 一种基于机器学习和大数据技术的信用评分构建方法
CN107358293A (zh) 一种神经网络训练方法及装置
CN106022363B (zh) 一种适用于自然场景下的中文文字识别方法
US10747961B2 (en) Method and device for identifying a sentence
CN109359515A (zh) 一种用于对目标对象的属性特征进行识别的方法及装置
Zhang et al. Easy domain adaptation method for filling the species gap in deep learning-based fruit detection
CN108205703B (zh) 多输入多输出矩阵平均值池化向量化实现方法
CN113822419B (zh) 一种基于结构信息的自监督图表示学习运行方法
CN111191814A (zh) 一种电价预测方法、系统和计算机可读存储介质
CN110909125A (zh) 推文级社会媒体谣言检测方法
CN110135371A (zh) 一种基于Mixup算法的柑橘黄龙病识别方法及装置
CN113837308A (zh) 基于知识蒸馏的模型训练方法、装置、电子设备
CN115482395A (zh) 模型训练方法、图像分类方法、装置、电子设备和介质
CN113269182A (zh) 一种基于变体transformer对小区域敏感的目标果实检测方法及系统
Huang et al. Transfer learning with efficient convolutional neural networks for fruit recognition
CN113722437B (zh) 基于人工智能的用户标签识别方法、装置、设备及介质
Huarui Method of tomato leaf diseases recognition method based on deep residual network
CN111210439A (zh) 通过抑制非感兴趣信息的语义分割方法、设备及存储设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20170926