CN107169001A - 一种基于众包反馈和主动学习的文本分类模型优化方法 - Google Patents
一种基于众包反馈和主动学习的文本分类模型优化方法 Download PDFInfo
- Publication number
- CN107169001A CN107169001A CN201710205306.4A CN201710205306A CN107169001A CN 107169001 A CN107169001 A CN 107169001A CN 201710205306 A CN201710205306 A CN 201710205306A CN 107169001 A CN107169001 A CN 107169001A
- Authority
- CN
- China
- Prior art keywords
- mass
- rent
- active learning
- data set
- text data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种基于众包反馈和主动学习的文本分类模型优化方法,包括:选取文本数据集,将文本数据集分为初始训练集和剩余数据集;从文本数据集中获得词;构建文本数据集的特征集,向量化文本数据集;在分类模型上引入主动学习,预测已向量化的文本数据集的情感极性,结合众包反馈信息优化模型获得文本分类结果。本发明利用众包收集人工标注理由,获取更多用户信息,挖掘人的主观感受,并以更改权重的方式将众包反馈信息融入模型中,优化文本分类模型,从而提升模型分类性能。本发明还引入主动学习算法,挑选最有价值的标注样本交由众包平台进行标注,从而降低标注成本,在有限的预算下,提高标注准确率,解决缺少含标签数据的文本分类任务的难题。
Description
技术领域
本发明涉及众包和机器学习领域,具体地说是一种基于众包反馈和主动学习的文本分类模型优化方法。
背景技术
众包是近年来兴起的一个研究点,大量机器难以处理的问题都可以通过众包平台将其分配给互联网上的在线用户来完成。目前已有的利用众包来优化文本分类的方法,往往只是通过众包收集一部分未标注数据的标签,加入到训练集中,并没有深入学习到人的主观感受及其理解能力,限制了分类模型的最终性能。因此本发明提出一种关于文本分类模型的优化方法,通过收集人工标注理由从而优化模型,在有限的预算下能够尽可能的提高文本分类准确率。
主动学习作为一种新的机器学习算法,其主要目标是在大量未标注数据集中有效地发现最有价值信息量最大的一部分样本交由人工标注,从而扩充训练集提高分类模型性能。与传统的监督方法相比,主动学习能够很好地处理较大数据集、从中选择有辨别能力的样本并且减少人工标注成本。当面对一个仅有少量训练集却要对大量测试集进行预测的文本分类任务时,本发明引入主动学习算法,挑选最优的样本交由众包平台进行人工标注,从而降低标注成本,实现在有限的预算下,提高模型分类准确率。
发明内容
本发明的目的是解决一个现实情况下的常见分类问题,只包含少量含标签数据的文本分类任务,克服现有的基于众包的文本分类方法的不足之处,利用众包平台收集的标注理由,提出了一种模型优化方法,并且引入主动学习减少开销。
本发明提出了一种基于众包反馈和主动学习的文本分类模型优化方法,包括以下步骤:
步骤一:选取文本数据集,将文本数据集分为初始训练集和剩余数据集;
步骤二:对所述文本数据集进行预处理,从中获得词;
步骤三:以每个词为特征,构建所述文本数据集的特征集,并计算特征对应的权重值以向量化所述文本数据集;
步骤四:在分类模型上引入主动学习,对已向量化的所述文本数据集进行情感极性预测,并且结合众包反馈信息优化模型,获得优化的文本分类结果。
本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,步骤四包含如下步骤:
使用初始训练集训练原始的分类模型,使用所述分类模型对所述剩余数据集进行预测;
在所述分类模型中引入主动学习,在所述剩余数据集中挑选出若干最有价值的样本,交给众包平台,进行人工标注并收集标注理由;
获取人工标注理由中的关键词,提升关键词对应词的权重,同时将已标注的样本从剩余数据集中剔除,放入初始训练集中;
使用更新后的初始训练集和已向量化的所述文本数据集重新训练所述分类模型,所述分类模型继续用于预测所述剩余数据集;
返回进行步骤b到d并迭代,直至用完预算或满足预先设置的终止学习指标为止,得到优化的文本分类结果。
本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,所述最有价值的样本是对于所述分类模型最不确定的样本,所述分类模型所述最有价值的样本所预测出的分类结果的置信度低。
本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,所述挑选样本的方法包括随机选择策略、基于边缘的选择策略和基于后验概率的选择策略。
本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,所述众包反馈是通过众包平台获取的人工标注结果以及标注理由。
本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,所述标注理由是在由自动化的方式对原始文本进行处理后形成的若干个特征词中,通过众包平台人工地筛选出的少量特征词。
本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,计算特征对应的权重值的方法包括:基于词的方法、基于词频的方法和基于TFIDF的方法。
本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,所述分类模型包括:支持向量机SVM、K最邻近结点算法kNN以及朴素贝叶斯NB。
本发明提出的所述基于众包反馈和主动学习的文本分类模型优化方法中,所述的权重值根据众包反馈的内容进行改进,权重值以w=w0×k×ε表示,其中w0为上一次迭代中的权重值,k为所述众包反馈中特征词出现的次数,ε为经验系数。
本发明的有益效果在于:本发明引入众包,在让用户给出标签的同时,收集用户的标注理由,扩充众包平台收集的内容形式,挖掘更多用户信息,以合理的方式将用户信息融入分类模型,从而优化模型提升数据标注准确率。
附图说明
图1是本发明基于众包反馈和主动学习的文本分类模型优化方法流程图。
图2是本发明基于众包反馈和主动学习的文本分类模型优化方法较优化前方法的效果对比图表。
图3是本发明基于众包反馈和主动学习的文本分类模型优化方法在迭代过程中的分类准确率变化曲线。
具体实施方式
结合以下具体实施例和附图,对本发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。
在图1中,根据本发明实施例所述的一种基于众包反馈和主动学习的文本分类模型优化方法,包括以下步骤:
步骤一:选取文本数据集,将文本数据集分为初始训练集和剩余数据集。
步骤二:对所述文本数据集进行预处理,从中获得词;
步骤三:以每个词为特征,构建所述文本数据集的特征集,并计算特征对应的权重值以向量化所述文本数据集;
步骤四:在分类模型上引入主动学习,对已向量化的所述文本数据集进行情感极性预测,并且结合众包反馈信息优化模型获得优化的众包反馈信息。其中,步骤四包含如下步骤:
a.使用初始训练集训练原始的分类模型,使用所述分类模型对所述剩余数据集进行预测;
b.在所述分类模型中引入主动学习,在所述剩余数据集中挑选出若干最有价值的样本,交给众包平台,进行人工标注并收集标注理由;
c.获取人工标注理由中的关键词,提升关键词对应词的权重,同时将已标注的样本从剩余数据集中剔除,放入初始训练集中;
d.使用更新后的初始训练集和已向量化的所述文本数据集重新训练所述分类模型,所述分类模型继续用于预测所述剩余数据集;
e.返回进行步骤b到d并迭代,直至用完预算或满足预先设置的终止学习指标为止,得到优化的文本分类结果。
对于所述步骤一中挑选文本数据集,本发明选用了两种含标准类别标签的文本数据集,分别是10000条酒店评论数据和4688条微博评论数据。本发明旨在解决一个现实生活中的常见分类问题,只包含少量含标签数据的文本分类任务,因此挑选0.5%的数据模拟为含标签数据作为初始训练集Iu,剩余的数据模拟为需要预测的数据集。
对于所述步骤二中对文本进行预处理操作,具体步骤包括:先用现有的结巴中文分词工具在精确模式下对文本进行分词;再利用哈工大提供的停用词表对文本中的停用词进行过滤,并且去除掉文本中的数字和字母。
对于所述步骤三中确定特征集,计算特征权重,将文本向量化。预处理后的文本中的每个词作为一个特征,特征集就是样本中出现的所有词组成的词典,计算特征权重的方法包括:基于词的方法、基于词频的方法和基于TFIDF的方法。本实施例中特征权重计算方法为基于TFIDF(term frequency–inverse document frequency)的方法。
所述基于词的方法是根据词本身设置权重值,如果词存在则对应的权重值设为1,反之,则为0。
所述基于词频的方法是利用词在文本中出现的频率来计算权重值,具体公式如下:
其中,m表示文本D中关键词出现的次数,M表示文本D的总单词数。
使用TF-IDF方法计算特征对应的权重值。TF-IDF的概念最开始用于信息检索中,这里将其运用于文本分类,TF(term frequency)指的是词频,即关键词在某一篇文本中出现的频率;IDF(inversed document frequency)指的是逆文本频率指数,用这个来计算词的权重,如果一个词只在很少的文本中出现,那么它对所属类别的贡献就大一些,权重也要大一些,如果一个词在大多数文本中都出现过,那么它的出现对所述哪个类的影响并不大,权重就应该小一些。
计算TF(词频)具体公式如下:
其中m表示文本D中关键词出现的次数,M表示文本D的总单词数。
计算IDF(逆文本频率指数)具体公式如下:
其中N为总文本数,n为包含词关键词的文本数量。
最后计算TF和IDF的乘积作为词的权重:
w=TF×IDF
权重值w与一个词在该文本中出现次数成正比,与该词在所有文本中出现次数成反比。
对于所述步骤四中在分类模型上引入主动学习对向量化的文本进行情感极性的预测,并且结合众包反馈信息优化模型,具体实施步骤如下:
首先使用常用的机器学习分类模型对初始训练集Iu进行训练,得到一个原始分类模型,用该模型对剩余数据集T进行预测。这里选择的分类模型有:支持向量机SVM、K最邻近结点算法kNN以及朴素贝叶斯NB。
引入主动学习,从剩余数据集中挑选出少量的最有价值的样本进行标注,然后扩充训练集。主动学习是机器学习的一个分支,属于人工智能的范畴,主要思想是让分类模型在学习的过程中主动地提出标注请求,对于模型提出的数据进行标注后放回入训练集,让模型重新学习从而优化模型。在学习过程中,模型本身提出更有意义的标注请求,能够较少大量的训练数据的同时,也能使得模型达到很好的表现。最有价值的样本是对于分类模型最不确定的样本,分类模型最有价值的样本所预测出的分类结果的置信度低。本发明运用的挑选策略有:随机选择策略、基于边缘的选择策略和基于后验概率的选择策略。随机选择策略是指在T中随机抽取少量样本。基于边缘的选择策略是指挑选对分类模型最不确定的一批数据样本。基于后验概率的选择策略是指后验概率能够反映预测样本类别的确信度,其思想同样是挑选最不确定样本。
基于边缘抽样的方法主要用于支持向量机模型的主动学习中,数据点距分类超平面间的距离,即决策函数的绝对值,能够直观地估计出未标记样本的确定性程度。通过以下公式来得到未标注的样本:
其中min|f(xi,v)|表示样本点到分类超平面的距离。距离分类界面越近的样本,分类模型对其确信度越低,对分类模型而言,该样本所包含的信息量越大。
对于其他分类模型,类似基于概率的朴素贝叶斯分类器便可以选用基于后验概率的挑选策略。Breaking Ties算法专注于挑选后验概率最小差异的样本,具体公式如下:
其中m+指的是使式子前半部分取最大值的m,后半部分取最大值时去掉这个m。该式前半部分得到模型预测的最可能分类的概率,后半部分得到模型预测的第二可能分类的概率,若两个概率值差异值很近,意味着模型很难区分到底属于哪一类,这样的样本被认为是信息量大的数据,交由人工标注。
通过主动学习算法挑选样本交给众包平台进行人工的标注并且收集其标注理由。本发明设计一套众包任务,给用户提供自动化处理过后的文本,即样本中的一些词语,让用户提供标签的同时在其中挑选最能够影响其判断的词语,可以选择多个但不能不选。
发布众包任务。从众包平台获取到两部分信息,一是标签;二是标注理由,即一些关键词。发布的是二分类任务,每题两个选项,每题收集5个答案,用多数投票的策略得到每道题的正确标签,然后收集答对的用户反馈的标注理由,答错的则自动丢弃,提升收集到的关键词对应的权重值,与此同时将已标注的样本加入训练集Iu中并将其从剩余的测试集T中去除。这里的多数投票策略指的是将收集的5个答案中个数较多的那个选项作为问题的正确答案。这里提升权重的方式是将原本的关键词权重乘上一个经验系数。
进行上述操作后,得到了一个扩充后的训练集并更新了每个样本的向量,然后重新训练出一个分类模型,预测剩余数据集。
不断利用主动学习算法从剩余数据集中挑选出最有价值的样本交给众包平台标注,反复跌代,每次挑选出2-10个样本,直到预算用尽或整体标注准确率达到阈值。
图2中,表现了本发明相对于现有技术利用优化后的文本分类模型分类所取得的技术效果。图2中显示的是分别在所述两种主动学习的挑选策略,即随机选择策略和基于边缘的选择策略上,利用所述优化方法后分类准确率的提升效果。
图3中,表现了本发明相对于现有技术利用优化后的文本分类模型分类所取得的技术效果。图3中显示了迭代多次过程中优化前与优化后的分类准确率的对比,优化后的模型性能更稳定并且较优化前的模型性能有一定的提升。
本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。
Claims (9)
1.一种基于众包反馈和主动学习的文本分类模型优化方法,其特征在于,包括以下步骤:
步骤一:选取文本数据集,将文本数据集分为初始训练集和剩余数据集;
步骤二:对所述文本数据集进行预处理,从中获得词;
步骤三:以每个词为特征,构建所述文本数据集的特征集,并计算特征对应的权重值以向量化所述文本数据集;
步骤四:在分类模型上引入主动学习,对已向量化的所述文本数据集进行情感极性预测,并且结合众包反馈信息优化模型,获得优化的文本分类结果。
2.如权利要求1所述的基于众包反馈和主动学习的文本分类模型优化方法,其特征在于,步骤四包含如下步骤:
a.使用初始训练集训练原始的分类模型,使用所述分类模型对所述剩余数据集进行预测;
b.在所述分类模型中引入主动学习,在所述剩余数据集中挑选出若干最有价值的样本,交给众包平台,进行人工标注并收集标注理由;
c.获取人工标注理由中的关键词,提升关键词对应词的权重,同时将已标注的样本从剩余数据集中剔除,放入初始训练集中;
d.使用更新后的初始训练集和已向量化的所述文本数据集重新训练所述分类模型,所述分类模型继续用于预测所述剩余数据集;
e.返回进行步骤b到d并迭代,直至用完预算或满足预先设置的终止学习指标为止,得到优化的文本分类结果。
3.如权利要求2所述的基于众包反馈和主动学习的文本分类模型优化方法,其特征在于,所述最有价值的样本是对于所述分类模型最不确定的样本,所述分类模型所述最有价值的样本所预测出的分类结果的置信度低。
4.如权利要求3所述的基于众包反馈和主动学习的文本分类模型优化方法,其特征在于,所述挑选样本的方法包括随机选择策略、基于边缘的选择策略和基于后验概率的选择策略。
5.如权利要求1或2所述的基于众包反馈和主动学习的文本分类模型优化方法,其特征在于,所述众包反馈是通过众包平台获取的人工标注结果以及标注理由。
6.如权利要求5所述的基于众包反馈和主动学习的文本分类模型优化方法,其特征在于,所述标注理由是在由自动化的方式对原始文本进行处理后形成的若干个特征词中,通过众包平台人工地筛选出的少量特征词。
7.如权利要求1或2所述的基于众包反馈和主动学习的文本分类模型优化方法,其特征在于,计算特征对应的权重值的方法包括:基于词的方法、基于词频的方法和基于TFIDF的方法。
8.如权利要求1或2所述的基于众包反馈和主动学习的文本分类模型优化方法,其特征在于,所述分类模型包括:支持向量机SVM、K最邻近结点算法kNN以及朴素贝叶斯NB。
9.如权利要求1或2所述的基于众包反馈和主动学习的文本分类模型优化方法,其特征在于,所述的权重值根据众包反馈的内容进行改进,权重值以w=w0×k×ε表示,其中w0为上一次迭代中的权重值,k为所述众包反馈中特征词出现的次数,ε为经验系数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710205306.4A CN107169001A (zh) | 2017-03-31 | 2017-03-31 | 一种基于众包反馈和主动学习的文本分类模型优化方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201710205306.4A CN107169001A (zh) | 2017-03-31 | 2017-03-31 | 一种基于众包反馈和主动学习的文本分类模型优化方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN107169001A true CN107169001A (zh) | 2017-09-15 |
Family
ID=59849012
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201710205306.4A Pending CN107169001A (zh) | 2017-03-31 | 2017-03-31 | 一种基于众包反馈和主动学习的文本分类模型优化方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN107169001A (zh) |
Cited By (32)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182448A (zh) * | 2017-12-22 | 2018-06-19 | 北京中关村科金技术有限公司 | 一种标注策略的选择方法及相关装置 |
CN108197668A (zh) * | 2018-01-31 | 2018-06-22 | 达闼科技(北京)有限公司 | 模型数据集的建立方法及云系统 |
CN108509218A (zh) * | 2018-03-05 | 2018-09-07 | 中国人民解放军国防科技大学 | 基于Codepedia众包平台的第三方工具优化方法 |
CN108681532A (zh) * | 2018-04-08 | 2018-10-19 | 天津大学 | 一种面向中文微博的情感分析方法 |
CN108763246A (zh) * | 2018-03-29 | 2018-11-06 | 科大讯飞股份有限公司 | 人员分组方法及装置、存储介质、电子设备 |
CN109242013A (zh) * | 2018-08-28 | 2019-01-18 | 北京九狐时代智能科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
CN109710736A (zh) * | 2018-12-19 | 2019-05-03 | 浙江大学 | 一种面向搜索排序的主动众包任务生成方法 |
CN109902756A (zh) * | 2019-03-07 | 2019-06-18 | 重庆恢恢信息技术有限公司 | 一种基于主动学习的众包机制辅助排序方法和系统 |
CN109918642A (zh) * | 2019-01-23 | 2019-06-21 | 重庆恢恢信息技术有限公司 | 基于委员会查询的主动学习框架的情感分析方法及系统 |
CN109960800A (zh) * | 2019-03-13 | 2019-07-02 | 安徽省泰岳祥升软件有限公司 | 基于主动学习的弱监督文本分类方法及装置 |
CN110110123A (zh) * | 2019-04-04 | 2019-08-09 | 平安科技(深圳)有限公司 | 检测模型的训练集更新方法和装置 |
CN110110077A (zh) * | 2017-12-28 | 2019-08-09 | 重庆南华中天信息技术有限公司 | 基于机器学习知识的分类装置 |
CN110110076A (zh) * | 2017-12-28 | 2019-08-09 | 重庆南华中天信息技术有限公司 | 基于机器学习知识的分类方法 |
CN110287324A (zh) * | 2019-06-27 | 2019-09-27 | 成都冰鉴信息科技有限公司 | 一种针对粗粒度文本分类的数据动态标注方法及装置 |
CN110472056A (zh) * | 2019-08-21 | 2019-11-19 | 北京美住美宿科技有限公司 | 一种评论数据分类方法及系统 |
CN110580290A (zh) * | 2019-09-12 | 2019-12-17 | 北京小米智能科技有限公司 | 用于文本分类的训练集的优化方法及装置 |
CN110609895A (zh) * | 2019-07-15 | 2019-12-24 | 南京航空航天大学 | 一种主动选择示例以进行高效文本分类的样本自动生成方法 |
CN110647985A (zh) * | 2019-08-02 | 2020-01-03 | 杭州电子科技大学 | 一种基于人工智能模型库的众包数据标注方法 |
CN110688934A (zh) * | 2019-09-23 | 2020-01-14 | 云南电网有限责任公司电力科学研究院 | 一种空间采样主动学习分类方法、电子设备及存储介质 |
CN110941713A (zh) * | 2018-09-21 | 2020-03-31 | 上海仪电(集团)有限公司中央研究院 | 基于主题模型的自优化金融资讯版块分类方法 |
CN110941719A (zh) * | 2019-12-02 | 2020-03-31 | 中国银行股份有限公司 | 数据分类方法、测试方法、装置及存储介质 |
CN111291376A (zh) * | 2018-12-08 | 2020-06-16 | 南京慕测信息科技有限公司 | 一种基于众包和机器学习的web漏洞验证方法 |
CN111400617A (zh) * | 2020-06-02 | 2020-07-10 | 四川大学 | 基于主动学习的社交机器人检测数据集扩展方法及系统 |
CN111667152A (zh) * | 2020-05-19 | 2020-09-15 | 深圳莫比嗨客数据智能科技有限公司 | 一种基于众包的文本类数据标定任务的自动审核方法 |
CN111859872A (zh) * | 2020-07-07 | 2020-10-30 | 中国建设银行股份有限公司 | 一种文本标注方法和装置 |
CN112069310A (zh) * | 2020-06-18 | 2020-12-11 | 中国科学院计算技术研究所 | 基于主动学习策略的文本分类方法及系统 |
CN112101419A (zh) * | 2020-08-17 | 2020-12-18 | 清华大学 | 基于众包的高效分类系统及其创建、使用方法 |
CN112541083A (zh) * | 2020-12-23 | 2021-03-23 | 西安交通大学 | 一种基于主动学习混合神经网络的文本分类方法 |
CN112966071A (zh) * | 2021-02-03 | 2021-06-15 | 北京奥鹏远程教育中心有限公司 | 一种用户反馈信息分析方法、装置、设备及可读存储介质 |
WO2022110730A1 (zh) * | 2020-11-27 | 2022-06-02 | 平安科技(深圳)有限公司 | 基于标签的优化模型训练方法、装置、设备及存储介质 |
WO2023030322A1 (en) * | 2021-09-03 | 2023-03-09 | Huawei Technologies Co., Ltd. | Methods, systems, and media for robust classification using active learning and domain knowledge |
US11657227B2 (en) | 2021-01-13 | 2023-05-23 | International Business Machines Corporation | Corpus data augmentation and debiasing |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567529A (zh) * | 2011-12-30 | 2012-07-11 | 北京理工大学 | 一种基于双视图主动学习技术的跨语言文本分类方法 |
CN106202177A (zh) * | 2016-06-27 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 一种文本分类方法及装置 |
-
2017
- 2017-03-31 CN CN201710205306.4A patent/CN107169001A/zh active Pending
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102567529A (zh) * | 2011-12-30 | 2012-07-11 | 北京理工大学 | 一种基于双视图主动学习技术的跨语言文本分类方法 |
CN106202177A (zh) * | 2016-06-27 | 2016-12-07 | 腾讯科技(深圳)有限公司 | 一种文本分类方法及装置 |
Non-Patent Citations (1)
Title |
---|
朱红斌: "基于主动学习支持向量机的文本分类", 《计算机工程与应用》 * |
Cited By (44)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108182448A (zh) * | 2017-12-22 | 2018-06-19 | 北京中关村科金技术有限公司 | 一种标注策略的选择方法及相关装置 |
CN108182448B (zh) * | 2017-12-22 | 2020-08-21 | 北京中关村科金技术有限公司 | 一种标注策略的选择方法及相关装置 |
CN110110076A (zh) * | 2017-12-28 | 2019-08-09 | 重庆南华中天信息技术有限公司 | 基于机器学习知识的分类方法 |
CN110110077A (zh) * | 2017-12-28 | 2019-08-09 | 重庆南华中天信息技术有限公司 | 基于机器学习知识的分类装置 |
CN108197668A (zh) * | 2018-01-31 | 2018-06-22 | 达闼科技(北京)有限公司 | 模型数据集的建立方法及云系统 |
CN108509218B (zh) * | 2018-03-05 | 2021-03-26 | 中国人民解放军国防科技大学 | 基于Codepedia众包平台的第三方工具优化方法 |
CN108509218A (zh) * | 2018-03-05 | 2018-09-07 | 中国人民解放军国防科技大学 | 基于Codepedia众包平台的第三方工具优化方法 |
CN108763246A (zh) * | 2018-03-29 | 2018-11-06 | 科大讯飞股份有限公司 | 人员分组方法及装置、存储介质、电子设备 |
CN108681532A (zh) * | 2018-04-08 | 2018-10-19 | 天津大学 | 一种面向中文微博的情感分析方法 |
CN109242013B (zh) * | 2018-08-28 | 2021-06-08 | 北京九狐时代智能科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
CN109242013A (zh) * | 2018-08-28 | 2019-01-18 | 北京九狐时代智能科技有限公司 | 一种数据标注方法、装置、电子设备及存储介质 |
CN110941713B (zh) * | 2018-09-21 | 2023-12-22 | 上海仪电(集团)有限公司中央研究院 | 基于主题模型的自优化金融资讯版块分类方法 |
CN110941713A (zh) * | 2018-09-21 | 2020-03-31 | 上海仪电(集团)有限公司中央研究院 | 基于主题模型的自优化金融资讯版块分类方法 |
CN111291376A (zh) * | 2018-12-08 | 2020-06-16 | 南京慕测信息科技有限公司 | 一种基于众包和机器学习的web漏洞验证方法 |
CN109710736A (zh) * | 2018-12-19 | 2019-05-03 | 浙江大学 | 一种面向搜索排序的主动众包任务生成方法 |
CN109918642A (zh) * | 2019-01-23 | 2019-06-21 | 重庆恢恢信息技术有限公司 | 基于委员会查询的主动学习框架的情感分析方法及系统 |
CN109902756A (zh) * | 2019-03-07 | 2019-06-18 | 重庆恢恢信息技术有限公司 | 一种基于主动学习的众包机制辅助排序方法和系统 |
CN109960800B (zh) * | 2019-03-13 | 2023-06-27 | 安徽省泰岳祥升软件有限公司 | 基于主动学习的弱监督文本分类方法及装置 |
CN109960800A (zh) * | 2019-03-13 | 2019-07-02 | 安徽省泰岳祥升软件有限公司 | 基于主动学习的弱监督文本分类方法及装置 |
CN110110123B (zh) * | 2019-04-04 | 2023-07-25 | 平安科技(深圳)有限公司 | 检测模型的训练集更新方法和装置 |
CN110110123A (zh) * | 2019-04-04 | 2019-08-09 | 平安科技(深圳)有限公司 | 检测模型的训练集更新方法和装置 |
CN110287324B (zh) * | 2019-06-27 | 2023-08-08 | 成都冰鉴信息科技有限公司 | 一种针对粗粒度文本分类的数据动态标注方法及装置 |
CN110287324A (zh) * | 2019-06-27 | 2019-09-27 | 成都冰鉴信息科技有限公司 | 一种针对粗粒度文本分类的数据动态标注方法及装置 |
CN110609895A (zh) * | 2019-07-15 | 2019-12-24 | 南京航空航天大学 | 一种主动选择示例以进行高效文本分类的样本自动生成方法 |
CN110647985A (zh) * | 2019-08-02 | 2020-01-03 | 杭州电子科技大学 | 一种基于人工智能模型库的众包数据标注方法 |
CN110472056A (zh) * | 2019-08-21 | 2019-11-19 | 北京美住美宿科技有限公司 | 一种评论数据分类方法及系统 |
US11507882B2 (en) | 2019-09-12 | 2022-11-22 | Beijing Xiaomi Intelligent Technology Co., Ltd. | Method and device for optimizing training set for text classification and storage medium |
CN110580290A (zh) * | 2019-09-12 | 2019-12-17 | 北京小米智能科技有限公司 | 用于文本分类的训练集的优化方法及装置 |
CN110688934B (zh) * | 2019-09-23 | 2023-11-21 | 云南电网有限责任公司电力科学研究院 | 一种空间采样主动学习分类方法、电子设备及存储介质 |
CN110688934A (zh) * | 2019-09-23 | 2020-01-14 | 云南电网有限责任公司电力科学研究院 | 一种空间采样主动学习分类方法、电子设备及存储介质 |
CN110941719B (zh) * | 2019-12-02 | 2023-12-19 | 中国银行股份有限公司 | 数据分类方法、测试方法、装置及存储介质 |
CN110941719A (zh) * | 2019-12-02 | 2020-03-31 | 中国银行股份有限公司 | 数据分类方法、测试方法、装置及存储介质 |
CN111667152A (zh) * | 2020-05-19 | 2020-09-15 | 深圳莫比嗨客数据智能科技有限公司 | 一种基于众包的文本类数据标定任务的自动审核方法 |
CN111400617A (zh) * | 2020-06-02 | 2020-07-10 | 四川大学 | 基于主动学习的社交机器人检测数据集扩展方法及系统 |
CN112069310B (zh) * | 2020-06-18 | 2023-05-02 | 中国科学院计算技术研究所 | 基于主动学习策略的文本分类方法及系统 |
CN112069310A (zh) * | 2020-06-18 | 2020-12-11 | 中国科学院计算技术研究所 | 基于主动学习策略的文本分类方法及系统 |
CN111859872A (zh) * | 2020-07-07 | 2020-10-30 | 中国建设银行股份有限公司 | 一种文本标注方法和装置 |
CN112101419A (zh) * | 2020-08-17 | 2020-12-18 | 清华大学 | 基于众包的高效分类系统及其创建、使用方法 |
WO2022110730A1 (zh) * | 2020-11-27 | 2022-06-02 | 平安科技(深圳)有限公司 | 基于标签的优化模型训练方法、装置、设备及存储介质 |
CN112541083A (zh) * | 2020-12-23 | 2021-03-23 | 西安交通大学 | 一种基于主动学习混合神经网络的文本分类方法 |
US11657227B2 (en) | 2021-01-13 | 2023-05-23 | International Business Machines Corporation | Corpus data augmentation and debiasing |
CN112966071A (zh) * | 2021-02-03 | 2021-06-15 | 北京奥鹏远程教育中心有限公司 | 一种用户反馈信息分析方法、装置、设备及可读存储介质 |
CN112966071B (zh) * | 2021-02-03 | 2023-09-08 | 北京奥鹏远程教育中心有限公司 | 一种用户反馈信息分析方法、装置、设备及可读存储介质 |
WO2023030322A1 (en) * | 2021-09-03 | 2023-03-09 | Huawei Technologies Co., Ltd. | Methods, systems, and media for robust classification using active learning and domain knowledge |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN107169001A (zh) | 一种基于众包反馈和主动学习的文本分类模型优化方法 | |
CN104268197B (zh) | 一种行业评论数据细粒度情感分析方法 | |
CN102622373B (zh) | 一种基于tf*idf算法的统计学文本分类系统及方法 | |
CN104933113A (zh) | 一种基于语义理解的表情输入方法和装置 | |
CN107330011A (zh) | 多策略融合的命名实体的识别方法及装置 | |
CN109829166B (zh) | 基于字符级卷积神经网络的民宿顾客意见挖掘方法 | |
CN108573047A (zh) | 一种中文文本分类模型的训练方法及装置 | |
CN109241255A (zh) | 一种基于深度学习的意图识别方法 | |
CN106886576B (zh) | 一种基于预分类的短文本关键词提取方法及系统 | |
CN110532379B (zh) | 一种基于lstm的用户评论情感分析的电子资讯推荐方法 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
CN104881458B (zh) | 一种网页主题的标注方法和装置 | |
CN106095928A (zh) | 一种事件类型识别方法及装置 | |
CN108090048B (zh) | 一种基于多元数据分析的高校评价系统 | |
CN106469554A (zh) | 一种自适应的识别方法及系统 | |
CN104076944A (zh) | 一种聊天表情输入的方法和装置 | |
CN108228569A (zh) | 一种基于松散条件下协同学习的中文微博情感分析方法 | |
CN113505200B (zh) | 一种结合文档关键信息的句子级中文事件检测的方法 | |
CN106126502A (zh) | 一种基于支持向量机的情感分类系统及方法 | |
CN110287314B (zh) | 基于无监督聚类的长文本可信度评估方法及系统 | |
CN111046171B (zh) | 一种基于细粒度标注数据的情感判别方法 | |
CN105740227A (zh) | 一种求解中文分词中新词的遗传模拟退火方法 | |
CN101645083A (zh) | 一种基于概念符号的文本领域的获取系统及方法 | |
CN110909542B (zh) | 智能语义串并分析方法及系统 | |
CN114416942A (zh) | 一种基于深度学习的自动化问答方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
WD01 | Invention patent application deemed withdrawn after publication |
Application publication date: 20170915 |
|
WD01 | Invention patent application deemed withdrawn after publication |