CN103150454A - 基于样本推荐标注的动态机器学习建模方法 - Google Patents

基于样本推荐标注的动态机器学习建模方法 Download PDF

Info

Publication number
CN103150454A
CN103150454A CN2013101031337A CN201310103133A CN103150454A CN 103150454 A CN103150454 A CN 103150454A CN 2013101031337 A CN2013101031337 A CN 2013101031337A CN 201310103133 A CN201310103133 A CN 201310103133A CN 103150454 A CN103150454 A CN 103150454A
Authority
CN
China
Prior art keywords
data
model
sample
cluster
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN2013101031337A
Other languages
English (en)
Other versions
CN103150454B (zh
Inventor
江铭炎
王伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shandong University
Original Assignee
Shandong University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shandong University filed Critical Shandong University
Priority to CN201310103133.7A priority Critical patent/CN103150454B/zh
Publication of CN103150454A publication Critical patent/CN103150454A/zh
Application granted granted Critical
Publication of CN103150454B publication Critical patent/CN103150454B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

基于样本推荐标注的动态机器学习建模方法,属于机器学习技术领域。首先,根据CURE算法对样本全集进行聚类,对结果中的每个聚类中心样本和代表样本进行推荐标注,然后建立模型。本发明的有益效果是在处理监督学习问题时,对未知类别的数据集进行推荐标注,这样既有效又省时省力;而且运用机器学习针对错误样本反复训练,从而模型对于新数据集的类别判定会更加准确。

Description

基于样本推荐标注的动态机器学习建模方法
技术领域
本发明属于机器学习技术领域,特别是一种基于样本推荐标注的动态机器学习建模方法。
背景技术
随着科学技术的不断发展,学者们逐渐开始研究如何使得智能机器(计算机)代替人完成一些复杂的智力劳动,从而解放人类劳动力。机器学习技术作为人工智能的核心内容之一,从生理学和认知学等角度出发,理解人类的学习过程和理解过程,从而模拟建立学习模型或理解模型。并且从这个过程抽象成各种学习方法和理论。总之,机器学习技术旨在通过让智能机器(计算机)模拟人的学习过程获得类似的学习或理解能力,自主学习理解新的知识或模式,并重新组织知识结构和不断完善自身性能。
根据学习过程是否需要先验知识,机器学习可以分为监督学习和无监督学习。监督学习指的是通过模拟标注样本集的数据规律来建立一个较为符合的数学函数或公式,并以此函数或者公式作为判断依据。其中,有训练集的分类问题就是典型的监督学习。无监督学习指的是通过模拟数据集的内部结构来建立一个较为符合其数据分布的模式或者规则,并以此模式或者规则作为判断依据。其中,无指导的聚类问题就是典型的无监督学习。
传统监督学习问题的过程:首先,随机抽取一批样本进行人工标注,即组成了已知标注数据集;然后,对已知标注数据集进行拆分,分为训练集和测试集两部分。接着,运用训练集对学习模型进行构建,运用测试集进行模型的评测;最后,把达到评测要求的模型作为工作模型。
然而对于传统机器学习模型,参考相关文章如“基于用户行为的长查询用户满意度分析”一文,其中存在诸多缺陷,例如:标注样本的选取随机性较大,可能会对后续训练过程产生一定的影响;传统学习模型是根据一批数据一次性训练得到,必然存在时效性的特点;传统学习模型平等地看待每一个样本,没有对已经判错的样本加以重视,改善结果等。《模式识别与人工智能》2012年3期发表的“基于用户行为的长查询用户满意度分析”一文(作者:朱彤,刘奕群,茹立云,马少平)即属于此列。
发明内容
为克服现有模型的缺陷,本发明提供了一种基于样本推荐标注的动态机器学习建模方法。
本发明的技术方案如下:
一种基于样本推荐标注的动态机器学习建模方法,首先进行数据准备阶段:基于CURE的层次性聚类算法对数据全集进行聚类,根据聚类的结果选择每个聚类的中心点和代表点进行推荐性标注,这样标注数据更加有效而且典型;然后,采用某个一定比例拆分训练数据集和测试数据集;其中CURE是一种层次性聚类算法,一个聚类的表示方法是一个中心点和若干个代表点,这样不仅可以更加凸显聚类的形状,还可以有效减小孤立点的影响;
然后进行模型构建阶段:对训练数据集中的每条数据进行初始化权重,每条数据的初始化权重均相等;在模型中针对此训练数据集进行初步训练,生成一个分类模型;接着,对于所属类别判定错误的数据进行加权,更新数据的权重;重复训练过程生成分类模型,确定每个模型的适用数据范围;最后,每个模型相互配合组成一个递进关系的模型集合;
该方法步骤如下:
1)对外界输入数据进行基于CURE的层次聚类过程,生成并保留每个聚类的中心点和代表点;其中,聚类的代表点数目选取8-12个,设聚类中心点到本聚类所有样本点的距离中的最大值定义为R,聚类的终止条件以R作为判定依据;
R的计算方式如下所示:
R=Max{d(x,xi),xi∈X}
其中,x为聚类X的计算中心样本,xi属于聚类X的一个样本;
而基于R的聚类终止条件如下所示:
R n + 1 R n ≥ 90 %
其中,Rn代表的是第n次聚类的R的平均值,Rn+1代表的是第n+1次聚类的R的平均值;
2)对聚类结果中保留的点,进行推荐人工标注过程;
3)对标注样本集合随机抽取其中的2/3作为训练集,剩余1/3作为测试集;
4)初始化训练集的样本权重,即每个样本权重均相等为1;
w1=w2=…=wn=1
其中,w1为第一个样本的权重,w2为第二个样本的权重,wn为第n个样本的权重。
5)采用机器学习型算法SVM,对训练集进行初次建模;
6)采用测试集对建立的模型进行准确率和召回率的评测,计算公式如下:
P = N t N
其中,P指的是准确率,N指的是数据集合总共包含数据条数,Nt指的是模型对数据类别判定正确的条数;
C = N s N
其中,C指的是召回率,N指的是数据集合总共包含数据条数,Ns指的是数据集中被正确召回的数据条数;
若准确率P和召回率C均达到80%,则继续下步,否则返回5);
7)统计类别判错的样本集合,并且按照下面的公式提升这些样本的权重:
w i = e n
其中,wi代表的是第i个样本的权重,n是已经判错的次数;
重复5)过程再次进行建模,并且根据判错样本计算这个模型的数据适用范围,具体公式如下所示:
D=Min{d(x,y),y∈Y}
其中,x为测试样本,y为判错样本之一,Y为判错样本集合,D为测试样本与判错样本间的最短距离,若D小于预设阈值,则认为符合数据范围;
8)为了防止出现过拟合现象,设定停止条件即设定模型迭代生成次数;若次数没有达到停止条件,则重复7)过程,否则继续进行下面步骤;
9)至此,所有模型建立完成,在迭代建立模型的过程中,越靠后建立的模型,其适用的数据范围就越小,根据数据的适用范围大小,组成具有递进关系的模型集合,即数据范围小的模型,优先级较高;
10)新数据到来时,依次经过模型集合中的每一个模型,若样本数据在某个模型的适用数据范围内,则此模型给出判定结果并立即停止下面的模型,否则继续到下一个模型。
所述的数据全集是指模型的外界输入数据;其中,在实验过程中每条数据被称为一个“样本”。
本发明的有益效果是在处理监督学习问题时,对未知类别的数据集进行推荐标注,这样既有效又省时省力;而且运用机器学习针对错误样本反复训练,从而模型对于新数据集的类别判定会更加准确。
具体实施方式
下面结合实施例对本发明作进一步说明,但不限于此。
实施例:
一种基于样本推荐标注的动态机器学习建模方法,首先进行数据准备阶段:基于CURE的层次性聚类算法对数据全集进行聚类,根据聚类的结果选择每个聚类的中心点和代表点进行推荐性标注,这样标注数据更加有效而且典型;然后,采用某个一定比例拆分训练数据集和测试数据集;其中CURE是一种层次性聚类算法,一个聚类的表示方法是一个中心点和若干个代表点,这样不仅可以更加凸显聚类的形状,还可以有效减小孤立点的影响;
然后进行模型构建阶段:对训练数据集中的每条数据进行初始化权重,每条数据的初始化权重均相等;在模型中针对此训练数据集进行初步训练,生成一个分类模型;接着,对于所属类别判定错误的数据进行加权,更新数据的权重;重复训练过程生成分类模型,确定每个模型的适用数据范围;最后,每个模型相互配合组成一个递进关系的模型集合;
该方法步骤如下:
1)对外界输入数据进行基于CURE的层次聚类过程,生成并保留每个聚类的中心点和代表点;其中,聚类的代表点数目选取8-12个,设聚类中心点到本聚类所有样本点的距离中的最大值定义为R,聚类的终止条件以R作为判定依据;
R的计算方式如下所示:
R=Max{d(x,xi),xi∈X}
其中,x为聚类X的计算中心样本,xi属于聚类X的一个样本;
而基于R的聚类终止条件如下所示:
R n + 1 R n ≥ 90 %
其中,Rn代表的是第n次聚类的R的平均值,Rn+1代表的是第n+1次聚类的R的平均值;
2)对聚类结果中保留的点,进行推荐人工标注过程;
3)对标注样本集合随机抽取其中的2/3作为训练集,剩余1/3作为测试集;
4)初始化训练集的样本权重,即每个样本权重均相等为1;
w1=w2=…=wn=1
其中,w1为第一个样本的权重,w2为第二个样本的权重,wn为第n个样本的权重。
5)采用机器学习型算法SVM,对训练集进行初次建模;
6)采用测试集对建立的模型进行准确率和召回率的评测,计算公式如下:
P = N t N
其中,P指的是准确率,N指的是数据集合总共包含数据条数,Nt指的是模型对数据类别判定正确的条数;
C = N s N
其中,C指的是召回率,N指的是数据集合总共包含数据条数,Ns指的是数据集中被正确召回的数据条数;
若准确率P和召回率C均达到80%,则继续下步,否则返回5);
7)统计类别判错的样本集合,并且按照下面的公式提升这些样本的权重:
w i = e n
其中,wi代表的是第i个样本的权重,n是已经判错的次数;
重复5)过程再次进行建模,并且根据判错样本计算这个模型的数据适用范围,具体公式如下所示:
D=Min{d(x,y),y∈Y}
其中,x为测试样本,y为判错样本之一,Y为判错样本集合,D为测试样本与判错样本间的最短距离,若D小于预设阈值,则认为符合数据范围;
8)为了防止出现过拟合现象,设定停止条件即设定模型迭代生成次数;若次数没有达到停止条件,则重复7)过程,否则继续进行下面步骤;
9)至此,所有模型建立完成,在迭代建立模型的过程中,越靠后建立的模型,其适用的数据范围就越小,根据数据的适用范围大小,组成具有递进关系的模型集合,即数据范围小的模型,优先级较高;
10)新数据到来时,依次经过模型集合中的每一个模型,若样本数据在某个模型的适用数据范围内,则此模型给出判定结果并立即停止下面的模型,否则继续到下一个模型。

Claims (1)

1.一种基于样本推荐标注的动态机器学习建模方法,首先进行数据准备阶段:基于CURE的层次性聚类算法对数据全集进行聚类,根据聚类的结果选择每个聚类的中心点和代表点进行推荐性标注,这样标注数据更加有效而且典型;然后,采用某个一定比例拆分训练数据集和测试数据集;其中CURE是一种层次性聚类算法,一个聚类的表示方法是一个中心点和若干个代表点,这样不仅可以更加凸显聚类的形状,还可以有效减小孤立点的影响;
然后进行模型构建阶段:对训练数据集中的每条数据进行初始化权重,每条数据的初始化权重均相等;在模型中针对此训练数据集进行初步训练,生成一个分类模型;接着,对于所属类别判定错误的数据进行加权,更新数据的权重;重复训练过程生成分类模型,确定每个模型的适用数据范围;最后,每个模型相互配合组成一个递进关系的模型集合;
该方法步骤如下:
1)对外界输入数据进行基于CURE的层次聚类过程,生成并保留每个聚类的中心点和代表点;其中,聚类的代表点数目选取8-12个,设聚类中心点到本聚类所有样本点的距离中的最大值定义为R,聚类的终止条件以R作为判定依据;
R的计算方式如下所示:
R=Max{d(x,xi),xi∈X}
其中,x为聚类X的计算中心样本,xi属于聚类X的一个样本;
而基于R的聚类终止条件如下所示:
R n + 1 R n ≥ 90 %
其中,Rn代表的是第n次聚类的R的平均值,Rn+1代表的是第n+1次聚类的R的平均值;
2)对聚类结果中保留的点,进行推荐人工标注过程;
3)对标注样本集合随机抽取其中的2/3作为训练集,剩余1/3作为测试集;
4)初始化训练集的样本权重,即每个样本权重均相等为1;
w1=w2=…=wn=1
其中,w1为第一个样本的权重,w2为第二个样本的权重,wn为第n个样本的权重。
5)采用机器学习型算法SVM,对训练集进行初次建模;
6)采用测试集对建立的模型进行准确率和召回率的评测,计算公式如下:
P = N t N
其中,P指的是准确率,N指的是数据集合总共包含数据条数,Nt指的是模型对数据类别判定正确的条数;
C = N s N
其中,C指的是召回率,N指的是数据集合总共包含数据条数,Ns指的是数据集中被正确召回的数据条数;
若准确率P和召回率C均达到80%,则继续下步,否则返回5);
7)统计类别判错的样本集合,并且按照下面的公式提升这些样本的权重:
w i = e n
其中,wi代表的是第i个样本的权重,n是已经判错的次数;
重复5)过程再次进行建模,并且根据判错样本计算这个模型的数据适用范围,具体公式如下所示:
D=Min{d(x,y),y∈Y}
其中,x为测试样本,y为判错样本之一,Y为判错样本集合,D为测试样本与判错样本间的最短距离,若D小于预设阈值,则认为符合数据范围;
8)为了防止出现过拟合现象,设定停止条件即设定模型迭代生成次数;若次数没有达到停止条件,则重复7)过程,否则继续进行下面步骤;
9)至此,所有模型建立完成,在迭代建立模型的过程中,越靠后建立的模型,其适用的数据范围就越小,根据数据的适用范围大小,组成具有递进关系的模型集合,即数据范围小的模型,优先级较高;
10)新数据到来时,依次经过模型集合中的每一个模型,若样本数据在某个模型的适用数据范围内,则此模型给出判定结果并立即停止下面的模型,否则继续到下一个模型。
CN201310103133.7A 2013-03-27 2013-03-27 基于样本推荐标注的动态机器学习建模方法 Expired - Fee Related CN103150454B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201310103133.7A CN103150454B (zh) 2013-03-27 2013-03-27 基于样本推荐标注的动态机器学习建模方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201310103133.7A CN103150454B (zh) 2013-03-27 2013-03-27 基于样本推荐标注的动态机器学习建模方法

Publications (2)

Publication Number Publication Date
CN103150454A true CN103150454A (zh) 2013-06-12
CN103150454B CN103150454B (zh) 2015-06-17

Family

ID=48548530

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201310103133.7A Expired - Fee Related CN103150454B (zh) 2013-03-27 2013-03-27 基于样本推荐标注的动态机器学习建模方法

Country Status (1)

Country Link
CN (1) CN103150454B (zh)

Cited By (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699685A (zh) * 2013-12-04 2015-06-10 富士通株式会社 模型更新装置及方法、数据处理装置及方法、程序
CN104767692A (zh) * 2015-04-15 2015-07-08 中国电力科学研究院 一种网络流量分类方法
CN105320957A (zh) * 2014-07-10 2016-02-10 腾讯科技(深圳)有限公司 分类器训练方法和装置
WO2016074125A1 (en) * 2014-11-10 2016-05-19 Dalian University Of Technology Geographical map-based visualization of big data
CN107004141A (zh) * 2017-03-03 2017-08-01 香港应用科技研究院有限公司 对大样本组的高效标注
CN107729921A (zh) * 2017-09-20 2018-02-23 厦门快商通科技股份有限公司 一种机器主动学习方法及学习系统
CN108197668A (zh) * 2018-01-31 2018-06-22 达闼科技(北京)有限公司 模型数据集的建立方法及云系统
CN108733778A (zh) * 2018-05-04 2018-11-02 百度在线网络技术(北京)有限公司 对象的行业类型识别方法和装置
CN108898162A (zh) * 2018-06-08 2018-11-27 东软集团股份有限公司 一种数据标注方法、装置、设备及计算机可读存储介质
WO2018214895A1 (zh) * 2017-05-25 2018-11-29 腾讯科技(深圳)有限公司 数据处理方法、数据处理装置、存储设备及网络设备
US10223644B2 (en) 2014-09-29 2019-03-05 Cisco Technology, Inc. Behavioral modeling of a data center utilizing human knowledge to enhance a machine learning algorithm
CN109615009A (zh) * 2018-12-12 2019-04-12 广东小天才科技有限公司 一种学习内容推荐方法及电子设备
CN109697289A (zh) * 2018-12-28 2019-04-30 北京工业大学 一种改进的用于命名实体识别的主动学习方法
CN112216085A (zh) * 2020-09-15 2021-01-12 青岛科技大学 一种基于边缘计算和更新样本智能识别的装备关键承力结构件健康监测系统
US11429472B1 (en) 2021-03-26 2022-08-30 International Business Machines Corporation Automated cognitive software application error detection
CN115035406A (zh) * 2022-06-08 2022-09-09 中国科学院空间应用工程与技术中心 遥感场景数据集的标注方法、系统、存储介质及电子设备
US11552909B2 (en) 2020-07-06 2023-01-10 Kyndryl, Inc. Generation of a chatbot
WO2023088109A1 (en) * 2021-11-18 2023-05-25 International Business Machines Corporation Erroneous cell detection using an artificial intelligence model
US11663486B2 (en) 2020-06-23 2023-05-30 International Business Machines Corporation Intelligent learning system with noisy label data
CN117493514A (zh) * 2023-11-09 2024-02-02 广州方舟信息科技有限公司 文本标注方法、装置、电子设备和存储介质

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156603A1 (en) * 1998-11-17 2002-10-24 Bernard Alhadef Modeling tool with controlled capacity
US20030041041A1 (en) * 2001-03-01 2003-02-27 Nello Cristianini Spectral kernels for learning machines
US6697769B1 (en) * 2000-01-21 2004-02-24 Microsoft Corporation Method and apparatus for fast machine training
CN101071439A (zh) * 2007-05-24 2007-11-14 北京交通大学 一种基于多视角的交互式视频搜索方法
US20080262989A1 (en) * 2005-09-01 2008-10-23 Xing Su Multiplex data collection and analysis in bioanalyte detection
CN101388013A (zh) * 2007-09-12 2009-03-18 日电(中国)有限公司 用于网络文件聚类的方法和系统
US20090083005A1 (en) * 2007-09-20 2009-03-26 Harris Corporation Geospatial modeling system providing void inpainting based upon selectable inpainting functions and related methods
CN101576913A (zh) * 2009-06-12 2009-11-11 中国科学技术大学 基于自组织映射神经网络的舌象自动聚类、可视化和检索系统
WO2010018313A1 (fr) * 2008-08-13 2010-02-18 Inria Institut National De Recherche En Informatique Et En Automatique Outil de vérification informatique
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN102629279A (zh) * 2012-03-23 2012-08-08 天津大学 一种用于图像或视频搜索重排序的方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020156603A1 (en) * 1998-11-17 2002-10-24 Bernard Alhadef Modeling tool with controlled capacity
US6697769B1 (en) * 2000-01-21 2004-02-24 Microsoft Corporation Method and apparatus for fast machine training
US20030041041A1 (en) * 2001-03-01 2003-02-27 Nello Cristianini Spectral kernels for learning machines
US20080262989A1 (en) * 2005-09-01 2008-10-23 Xing Su Multiplex data collection and analysis in bioanalyte detection
CN101071439A (zh) * 2007-05-24 2007-11-14 北京交通大学 一种基于多视角的交互式视频搜索方法
CN101388013A (zh) * 2007-09-12 2009-03-18 日电(中国)有限公司 用于网络文件聚类的方法和系统
US20090083005A1 (en) * 2007-09-20 2009-03-26 Harris Corporation Geospatial modeling system providing void inpainting based upon selectable inpainting functions and related methods
WO2010018313A1 (fr) * 2008-08-13 2010-02-18 Inria Institut National De Recherche En Informatique Et En Automatique Outil de vérification informatique
CN101576913A (zh) * 2009-06-12 2009-11-11 中国科学技术大学 基于自组织映射神经网络的舌象自动聚类、可视化和检索系统
CN101853400A (zh) * 2010-05-20 2010-10-06 武汉大学 基于主动学习和半监督学习的多类图像分类方法
CN102629279A (zh) * 2012-03-23 2012-08-08 天津大学 一种用于图像或视频搜索重排序的方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
WEI WANG等: ""A Fast Hierarchical Topic Detection Method"", 《JOURNAL OF CONVERGENCE INFORMATION TECHNOLOGY(JCIT)》, vol. 7, no. 22, 31 December 2012 (2012-12-31) *
周世兵: ""聚类分析中的最佳聚类数确定方法研究及应用"", 《中国博士学位论文全文数据库》, vol. 2012, no. 5, 15 May 2012 (2012-05-15) *
李庆中等: ""基于小规模标注语料的机器学习方法研究"", 《计算机应用》, vol. 24, no. 2, 28 February 2004 (2004-02-28) *

Cited By (29)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104699685B (zh) * 2013-12-04 2018-02-09 富士通株式会社 模型更新装置及方法、数据处理装置及方法、程序
CN104699685A (zh) * 2013-12-04 2015-06-10 富士通株式会社 模型更新装置及方法、数据处理装置及方法、程序
CN105320957A (zh) * 2014-07-10 2016-02-10 腾讯科技(深圳)有限公司 分类器训练方法和装置
CN105320957B (zh) * 2014-07-10 2022-02-15 腾讯科技(深圳)有限公司 分类器训练方法和装置
US10223644B2 (en) 2014-09-29 2019-03-05 Cisco Technology, Inc. Behavioral modeling of a data center utilizing human knowledge to enhance a machine learning algorithm
US10157219B2 (en) 2014-11-10 2018-12-18 Dalian University Of Technology Geographical map-based visualization of big data
WO2016074125A1 (en) * 2014-11-10 2016-05-19 Dalian University Of Technology Geographical map-based visualization of big data
CN104767692A (zh) * 2015-04-15 2015-07-08 中国电力科学研究院 一种网络流量分类方法
CN104767692B (zh) * 2015-04-15 2018-05-29 中国电力科学研究院 一种网络流量分类方法
CN107004141A (zh) * 2017-03-03 2017-08-01 香港应用科技研究院有限公司 对大样本组的高效标注
WO2018214895A1 (zh) * 2017-05-25 2018-11-29 腾讯科技(深圳)有限公司 数据处理方法、数据处理装置、存储设备及网络设备
CN107729921A (zh) * 2017-09-20 2018-02-23 厦门快商通科技股份有限公司 一种机器主动学习方法及学习系统
CN107729921B (zh) * 2017-09-20 2020-08-21 厦门快商通科技股份有限公司 一种机器主动学习方法及学习系统
CN108197668A (zh) * 2018-01-31 2018-06-22 达闼科技(北京)有限公司 模型数据集的建立方法及云系统
CN108733778A (zh) * 2018-05-04 2018-11-02 百度在线网络技术(北京)有限公司 对象的行业类型识别方法和装置
CN108733778B (zh) * 2018-05-04 2022-05-17 百度在线网络技术(北京)有限公司 对象的行业类型识别方法和装置
CN108898162A (zh) * 2018-06-08 2018-11-27 东软集团股份有限公司 一种数据标注方法、装置、设备及计算机可读存储介质
CN109615009A (zh) * 2018-12-12 2019-04-12 广东小天才科技有限公司 一种学习内容推荐方法及电子设备
CN109697289A (zh) * 2018-12-28 2019-04-30 北京工业大学 一种改进的用于命名实体识别的主动学习方法
CN109697289B (zh) * 2018-12-28 2023-01-13 北京工业大学 一种改进的用于命名实体识别的主动学习方法
US11663486B2 (en) 2020-06-23 2023-05-30 International Business Machines Corporation Intelligent learning system with noisy label data
US11552909B2 (en) 2020-07-06 2023-01-10 Kyndryl, Inc. Generation of a chatbot
CN112216085A (zh) * 2020-09-15 2021-01-12 青岛科技大学 一种基于边缘计算和更新样本智能识别的装备关键承力结构件健康监测系统
US11429472B1 (en) 2021-03-26 2022-08-30 International Business Machines Corporation Automated cognitive software application error detection
WO2023088109A1 (en) * 2021-11-18 2023-05-25 International Business Machines Corporation Erroneous cell detection using an artificial intelligence model
CN115035406A (zh) * 2022-06-08 2022-09-09 中国科学院空间应用工程与技术中心 遥感场景数据集的标注方法、系统、存储介质及电子设备
CN115035406B (zh) * 2022-06-08 2023-08-04 中国科学院空间应用工程与技术中心 遥感场景数据集的标注方法、系统、存储介质及电子设备
CN117493514A (zh) * 2023-11-09 2024-02-02 广州方舟信息科技有限公司 文本标注方法、装置、电子设备和存储介质
CN117493514B (zh) * 2023-11-09 2024-05-14 广州方舟信息科技有限公司 文本标注方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
CN103150454B (zh) 2015-06-17

Similar Documents

Publication Publication Date Title
CN103150454A (zh) 基于样本推荐标注的动态机器学习建模方法
CN106529569B (zh) 基于深度学习的三维模型三角面特征学习分类方法及装置
CN103226741B (zh) 城市供水管网爆管预测方法
CN101587155A (zh) 一种油浸式变压器的故障诊断方法
CN104155574A (zh) 基于自适应神经模糊推理系统的配电网故障分类方法
CN106778853A (zh) 基于权重聚类和欠抽样的不平衡数据分类方法
Zhang et al. Active learning by sparse instance tracking and classifier confidence in acoustic emotion recognition
CN108090510A (zh) 一种基于间隔优化的集成学习方法及装置
CN104794368A (zh) 基于foa-mksvm的滚动轴承故障分类方法
CN107506350B (zh) 一种识别信息的方法和设备
CN103020167B (zh) 一种计算机中文文本分类方法
CN104536881A (zh) 基于自然语言分析的众测错误报告优先级排序方法
CN103942568A (zh) 一种基于无监督特征选择的分类方法
CN102915448B (zh) 一种基于AdaBoost的三维模型自动分类方法
CN106227718A (zh) 基于cnn的陆空通话语义一致性校验方法
CN101599138A (zh) 基于人工神经网络的土地评价方法
CN104182914A (zh) 一种基于波动特性的风电出力时间序列建模方法
CN103426027A (zh) 一种基于遗传神经网络模型的正常蓄水位智能优选方法
CN106600046A (zh) 基于多分类器融合的土地闲置预测方法及装置
Wang et al. An improved weighted naive bayesian classification algorithm based on multivariable linear regression model
CN105160598A (zh) 一种基于改进em算法的电网业务分类方法
CN104008301A (zh) 一种领域概念层次结构自动构建方法
CN103605493A (zh) 基于图形处理单元的并行排序学习方法及系统
CN108021985A (zh) 一种模型参数训练方法及装置
CN104573331A (zh) 一种基于MapReduce的K近邻数据预测方法

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20150617

Termination date: 20170327

CF01 Termination of patent right due to non-payment of annual fee