CN108062331A - 基于终生学习的增量式朴素贝叶斯文本分类方法 - Google Patents
基于终生学习的增量式朴素贝叶斯文本分类方法 Download PDFInfo
- Publication number
- CN108062331A CN108062331A CN201610983203.6A CN201610983203A CN108062331A CN 108062331 A CN108062331 A CN 108062331A CN 201610983203 A CN201610983203 A CN 201610983203A CN 108062331 A CN108062331 A CN 108062331A
- Authority
- CN
- China
- Prior art keywords
- text
- feature
- naive bayes
- new
- incremental
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
- G06F18/24155—Bayesian classification
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Artificial Intelligence (AREA)
- Probability & Statistics with Applications (AREA)
- Databases & Information Systems (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及一种基于终生学习的增量式朴素贝叶斯文本分类方法,该方法包括:获取初始文本;提取文本的特征词,保存文本集的特征词表以及文本数量;计算文本中各特征词的词频,将文本集分为训练集和验证集两个部分;通过朴素贝叶斯分类器训练上一步生成的训练集向量模型,得出朴素贝叶斯模型的先验概率和特征类条件概率并保存;如果有新文本,增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率,若没有,从验证集中选取测试语料,并根据朴素贝叶斯模型得到测试语料的预测文本类别,计算预测的准确率。本发明不仅能够增量式地利用过去任务中学习到的知识指导新任务的学习,而且具有新特征处理和领域自适应能力。
Description
技术领域
本发明属于数据挖掘与机器学习领域,具体涉及一种基于终生学习的增量式朴素贝叶斯文本分类方法。
背景技术
随着信息时代的到来,我们能够获得的信息与日剧增,而如何处理和利用这些海量数据就显得尤为重要。尽管如今硬件的性能越来越高,但是信息量也呈爆炸式的增长,许多传统的分类方法在处理数据时都是一次性将所有数据读入内存,这种方式大大的限制了算法的泛化性和可扩展性。此外,在大多数自然语言处理任务中,训练集都是不完备的,为了改善模型性能,训练集需要不断加入和更新训练样本。传统分类方法每次更新样本都需要重新整合所有样本,重新训练,这必然导致重复训练,带来不必要的巨大时间开销。
在大数据时代,一个高效的分类算法,需要能在克服数据量过大问题的基础上充分利用数据,以提高分类的准确率。然而,目前已知的许多分类算法并不具备这种能力,缺乏增量式的参数学习方式。朴素贝叶斯分类算法作为分类中一种常用的算法,并不具备增量学习的能力。为了让朴素贝叶斯算法拥有更好的增量或者在线学习能力,国内外学者展开了广泛且深入的研究。相关主要有两类:一是通过不同的策略筛选样本,选择对分类有益的样本进行增量学习;二是更改朴素贝叶斯的参数更新方式,使其具备更好的增量学习能力。前者采用不同策略筛选样本来优化增量学习的方法,并没有从根本上改变模型,因此参数更新公式也仅仅是基于传统的朴素贝叶斯模型,基于这种方法的增量研究都是围绕着如何筛选样本进行的。后者,更改朴素贝叶斯模型参数方法的工作相对较少,然而此类方法仍然基于现有的朴素贝叶斯模型,其性能并不能得到提高。
发明内容
本发明的目的是提供一种基于终生学习的增量式朴素贝叶斯文本分类方法。
实现本发明目的的技术方案为:一种基于终生学习的增量式朴素贝叶斯文本分类方法,包括下列步骤:
步骤1,获取初始文本,构成文本集;
步骤2,提取文本的特征词,将文本进行分词,保存文本集的特征词表以及文本数量;
步骤3,计算文本中各特征词的词频,将文本用向量模型进行表示,并将文本集分为训练集和验证集两个部分;
步骤4,通过朴素贝叶斯分类器训练上一步生成的训练集向量模型,得出朴素贝叶斯模型的先验概率和特征类条件概率并保存;
步骤5,判断是否有新文本,若有,增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率,若没有则执行步骤6;
步骤6,从验证集中选取测试语料,并根据朴素贝叶斯模型得到测试语料的预测文本类别,计算预测的准确率。
与现有技术相比,本发明具有如下优点:
本发明提出的基于终生学习的增量式朴素贝叶斯文本分类方法,不仅能够增量式地利用过去任务中学习到的知识指导新任务的学习并提高文本分类的准确率,而且还具有较好的新特征处理和领域自适应能力。
附图说明
图1为本发明基于终生学习的增量式朴素贝叶斯文本分类方法流程图。
具体实施方式
下面结合附图对本发明做进一步的详细描述。
本发明的终生学习过程:首先传统分类器根据历史数据学习得到的部分模型参数被保存到过去任务知识存储中,然后新任务增量学习根据过去任务知识以及增量数据更新模型参数,同时依据该参数更新过去任务知识存储。当训练下一批数据时,重复以上流程以达到终生学习的目的。终生学习机制中,分类模型在根据增量数据被不断优化的同时,也能随时被用于分类任务。
如附图1所示,本发明基于终生学习的增量式朴素贝叶斯文本分类方法包括以下步骤:
步骤1,获取初始文本,构成文本集S;
步骤2,提取文本的特征词,将文本进行分词,然后保存文本集的特征词表以及文本数量N;
步骤3,计算文本中各特征词的词频,并将文本用向量模型进行表示,然后将文本集分为训练集和验证集两个部分;
采用五倍交叉验证方法,每次选取4份文本作为训练集,一份文本作为验证集。
步骤4,通过朴素贝叶斯分类器训练上一步生成的训练集向量模型,得出朴素贝叶斯的模型参数πj和θi|j并保存;其中πj表示文本中j类文本的先验概率,而θi|j代表特征i在j类文本中出现的条件概率;
步骤5,判断是否有新文本T,若有,增量式训练新数据并更新朴素贝叶斯模型的先验概率和特征类条件概率,若没有则执行步骤6;增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率的具体过程为:
步骤5-1,对新文本进行特征词提取,将特征词表中没有的特征词加入特征词表,并统计新文本总数M;
步骤5-2,计算文本中各特征词的词频,并将文本用向量模型进行表示;
步骤5-3,结合保存的朴素贝叶斯模型的先验概率πj和特征类条件概率θi|j以及新文本T的向量模型使用增量式朴素贝叶斯更新方式更新参数得到新的先验概率πj′和特征类条件概率θi|j′;
步骤5-4,更新参数πj=πj′和θi|j=θi|j′,并且更新文本集S中文本总数N=N+M。
所述的增量式朴素贝叶斯参数更新方式可以表示为:
公式(1)中Nj和Mj分别表示在文本集S和新文本T在j类中的文本总数,1≤j≤C,C为文本类别数,在不重新训练文本集S的情况下Nj是未知的,通过Nj=πj*N还原得到;1≤k≤M,M为新文本总数;
公式(2)中Tj s和Tj t分别表示文本集S和新文本T在j类中的特征规模,其中V为特征词表的长度,I(yk=cj)表示k文本的真实类别为cj,N(ti,xk)表示k文本中第i个特征出现的次数;ti为第i个特征,xk为第k个文本的特征向量,yk为第k个文本对应的类别标签;
通过特征规模缩放的方式得到:
所述的增量式参数更新中还加入了一个平衡系数,通过加权平衡原始数据与新的增量数据,进而更加侧重于有利于未来任务学习部分的知识。平衡系数的加入有两种方式,分别为通用平衡系数和每个类别的平衡系数两种方式:
λ为通用平衡系数,0<λ<1;
λj为第j个类别的平衡系数,0<λj<1。
在公式(3)中,每个类别下的参数调节遵循同一个标准。而考虑到每个类别下的情况不可能完全一样,我们又在公式(3)基础上在每个类别引入不同的参数得到公式(4)。
步骤6,从验证集中选取测试语料,并根据朴素贝叶斯模型得到测试语料的预测文本类别,计算预测的准确率。
下面结合具体实施例对本发明作进一步说明。
实验例
本实施例采用文本分类经典数据集3分类任务、Movie review dataset和Multi-domain sentiment datasets对基于终生学习的增量式朴素贝叶斯文本分类方法进行了性能分析;其中3分类任务包括movie3、network3和health3,Multi-domain sentimentdatasets包括book、dvd、electronics和kitchen。
实验又分为两种数据条件,领域特定和领域变化。领域特定指历史数据与增量数据来自同一个领域,即最普遍的文本分类任务。而领域变化中历史数据与增量数据来自不同的相关领域,也就是领域适应的分类任务。
(1)领域特定文本分类
领域特定的文本分类和情感分类分别在上述8个领域的语料上进行,验证集样本固定为200个,S和T的比例设为8:2,剩余部分作为测试样本。在语料的预处理阶段,选用unigrams+bigrams作为特征,并通过特征选择选取80%的特征。为了得到稳定的结果,实验中采用5倍交叉验证的方法,取平均准确率作为最终结果。
为了验证增量式贝叶斯分类的有效性及增量之后的分类性能,采用传统分类器在3组数据上的实验对分类器性能进行比较,其中3组数据分别为S、T以及二者的叠加数据。传统分类器在这三组数据上训练得到三个模型,并用这些模型对测试数据进行分类预测,预测准确率分别用acc_s、acc_t和acc_st表示。
分别使用公式(2)-(4)的参数更新方式进行增量学习生成的模型,并对测试文本进行分类,实验结果如表2所示,其中acc_in_n、acc_in_s和acc_in_m分别对应用公式(2)-(4)的参数更新方式生成的模型用于测试样本分类的结果,得到的分类结果如下表所示:
表1领域特定文本分类表
对比表中8个任务上的实验结果,发现acc_in_m明显优于其它所有结果,该增量式贝叶斯分类器性能有了显著的提高。在三个对比实验上的结果,代表了面对大量历史数据与少量增量标注数据时传统的处理方法,可以看到不仅性能低于增量学习方法,而且需要重复训练。
(2)领域适应增量学习实验
在领域适应中,使用Movie review dataset作为源领域的数据,Multi-domainsentiment datasets的每一个领域分别作为目标领域,共4个领域适应增量学习任务。源领域样本S固定为2000个,在目标领域中随机选取200个样本作为选取加权参数的验证集,并从中选取200个作为T,剩余部分作为测试样本。对比实验分别采用acc_s、acc_t和acc_st。在4个领域适应任务上的增量学习结果如下表所示:
表2领域适应文本分类表
表中A->B表示A作为源领域数据,B作为目标领域数据。acc_in_m表示采用公式(4)的参数学习方式生成的模型预测测试样本的分类准确率,其中参数在验证集上选取的。acc_in_a同样采用的公式(4),但参数直接在测试集上选取的。结果表明,acc_in_m明显优于三组对比实验结果,平均准确率提高了5个点左右,证明本文的方法在跨领域任务上效果尤为显著。而acc_in_m虽然低于acc_in_a,但都优于对比实验结果。通常在测试集上调参是不恰当的,这里提出来是为了证明在验证集上调参的有效性。显而易见,在验证集上加权调参的结果在测试集上同样适用,说明本发明的方法具有普遍适用性。
由实验一和实验二可知本发明的方法在领域特定和领域适应的增量实验中都能取得较好的效果,证明了该方法不仅能够增量式地利用过去任务中学习到的知识指导新任务的学习,而且还具有较好的领域自适应能力。
Claims (4)
1.一种基于终生学习的增量式朴素贝叶斯文本分类方法,其特征在于,包括以下步骤:
步骤1,获取初始文本,构成文本集;
步骤2,提取文本的特征词,将文本进行分词,保存文本集的特征词表以及文本数量;
步骤3,计算文本中各特征词的词频,将文本用向量模型进行表示,并将文本集分为训练集和验证集两个部分;
步骤4,通过朴素贝叶斯分类器训练上一步生成的训练集向量模型,得出朴素贝叶斯模型的先验概率和特征类条件概率并保存;
步骤5,判断是否有新文本,若有,增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率,若没有则执行步骤6;
步骤6,从验证集中选取测试语料,并根据朴素贝叶斯模型得到测试语料的预测文本类别,计算预测的准确率。
2.根据权利要求1所述的基于终生学习的增量式朴素贝叶斯文本分类方法,其特征在于,步骤3中将文本集分为训练集和验证集两个部分的具体过程为:采用五倍交叉验证方法,每次选取4份文本作为训练集,一份文本作为验证集。
3.根据权利要求1所述的基于终生学习的增量式朴素贝叶斯文本分类方法,其特征在于,步骤5中增量式训练新文本并更新朴素贝叶斯模型的先验概率和特征类条件概率的具体过程为:
步骤5-1,对新文本进行特征词提取,将特征词表中没有的特征词加入特征词表,并统计新文本总数M;
步骤5-2,计算文本中各特征词的词频,并将文本用向量模型进行表示;
步骤5-3,结合保存的朴素贝叶斯模型的先验概率πj和特征类条件概率θi|j以及新文本T的向量模型使用增量式朴素贝叶斯更新方式更新参数得到新的先验概率πj′和特征类条件概率θi|j′;
步骤5-4,更新参数πj=πj′和θi|j=θi|j′,并且更新文本集S中文本总数N=N+M。
4.根据权利要求3所述的基于终生学习的增量式朴素贝叶斯文本分类方法,其特征在于,所述增量式朴素贝叶斯更新方式为:
<mrow>
<msup>
<msub>
<mi>&pi;</mi>
<mi>j</mi>
</msub>
<mo>&prime;</mo>
</msup>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>N</mi>
<mi>j</mi>
</msub>
<mo>+</mo>
<msub>
<mi>M</mi>
<mi>j</mi>
</msub>
</mrow>
<mrow>
<mi>N</mi>
<mo>+</mo>
<mi>M</mi>
</mrow>
</mfrac>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>&pi;</mi>
<mi>j</mi>
</msub>
<mo>*</mo>
<mi>N</mi>
<mo>+</mo>
<msub>
<mi>M</mi>
<mi>j</mi>
</msub>
</mrow>
<mrow>
<mi>N</mi>
<mo>+</mo>
<mi>M</mi>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>1</mn>
<mo>)</mo>
</mrow>
</mrow>
公式(1)中Nj和Mj分别表示在文本集S和新文本T在j类中的文本总数,1≤j≤C,C为文本类别数,在不重新训练文本集S的情况下Nj是未知的,通过Nj=πj*N还原得到;1≤k≤M,M为新文本总数;
公式(2)中和分别表示文本集S和新文本T在j类中的特征规模,其中V为特征词表的长度,I(yk=cj)表示k文本的真实类别为cj,N(ti,xk)表示k文本中第i个特征出现的次数;ti为第i个特征,xk为第k个文本的特征向量,yk为第k个文本对应的类别标签;
通过特征规模缩放的方式得到:
<mrow>
<msubsup>
<mi>T</mi>
<mi>j</mi>
<mi>s</mi>
</msubsup>
<mo>=</mo>
<mfrac>
<mi>N</mi>
<mi>M</mi>
</mfrac>
<msubsup>
<mi>T</mi>
<mi>j</mi>
<mi>t</mi>
</msubsup>
</mrow>
加入平衡系数,包括通用平衡系数和每个类别的平衡系数两种方式:
<mrow>
<msubsup>
<mi>&theta;</mi>
<mrow>
<mi>i</mi>
<mo>|</mo>
<mi>j</mi>
</mrow>
<mo>&prime;</mo>
</msubsup>
<mo>=</mo>
<mfrac>
<mrow>
<msubsup>
<mi>&lambda;T</mi>
<mi>j</mi>
<mi>s</mi>
</msubsup>
<mo>*</mo>
<msub>
<mi>&theta;</mi>
<mrow>
<mi>i</mi>
<mo>|</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mi>&lambda;</mi>
</mrow>
<mo>)</mo>
</mrow>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</munderover>
<mi>I</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>y</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<msub>
<mi>c</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>t</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>x</mi>
<mi>k</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msubsup>
<mi>&lambda;T</mi>
<mi>j</mi>
<mi>s</mi>
</msubsup>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<mi>&lambda;</mi>
</mrow>
<mo>)</mo>
</mrow>
<msubsup>
<mi>T</mi>
<mi>j</mi>
<mi>t</mi>
</msubsup>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>3</mn>
<mo>)</mo>
</mrow>
</mrow>
λ为通用平衡系数,0<λ<1;
<mrow>
<msub>
<msup>
<mi>&theta;</mi>
<mo>&prime;</mo>
</msup>
<mrow>
<mi>i</mi>
<mo>|</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>=</mo>
<mfrac>
<mrow>
<msub>
<mi>&lambda;</mi>
<mi>j</mi>
</msub>
<msubsup>
<mi>T</mi>
<mi>j</mi>
<mi>s</mi>
</msubsup>
<mo>*</mo>
<msub>
<mi>&theta;</mi>
<mrow>
<mi>i</mi>
<mo>|</mo>
<mi>j</mi>
</mrow>
</msub>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>&lambda;</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<munderover>
<mi>&Sigma;</mi>
<mrow>
<mi>k</mi>
<mo>=</mo>
<mn>1</mn>
</mrow>
<mi>M</mi>
</munderover>
<mi>I</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>y</mi>
<mi>k</mi>
</msub>
<mo>=</mo>
<msub>
<mi>c</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<mi>N</mi>
<mrow>
<mo>(</mo>
<mrow>
<msub>
<mi>t</mi>
<mi>i</mi>
</msub>
<mo>,</mo>
<msub>
<mi>x</mi>
<mi>k</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
</mrow>
<mrow>
<msub>
<mi>&lambda;</mi>
<mi>j</mi>
</msub>
<msubsup>
<mi>T</mi>
<mi>j</mi>
<mi>s</mi>
</msubsup>
<mo>+</mo>
<mrow>
<mo>(</mo>
<mrow>
<mn>1</mn>
<mo>-</mo>
<msub>
<mi>&lambda;</mi>
<mi>j</mi>
</msub>
</mrow>
<mo>)</mo>
</mrow>
<msubsup>
<mi>T</mi>
<mi>j</mi>
<mi>t</mi>
</msubsup>
</mrow>
</mfrac>
<mo>-</mo>
<mo>-</mo>
<mo>-</mo>
<mrow>
<mo>(</mo>
<mn>4</mn>
<mo>)</mo>
</mrow>
</mrow>
λj为第j个类别的平衡系数,0<λj<1。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610983203.6A CN108062331B (zh) | 2016-11-08 | 2016-11-08 | 基于终生学习的增量式朴素贝叶斯文本分类方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610983203.6A CN108062331B (zh) | 2016-11-08 | 2016-11-08 | 基于终生学习的增量式朴素贝叶斯文本分类方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN108062331A true CN108062331A (zh) | 2018-05-22 |
CN108062331B CN108062331B (zh) | 2021-02-12 |
Family
ID=62137548
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610983203.6A Active CN108062331B (zh) | 2016-11-08 | 2016-11-08 | 基于终生学习的增量式朴素贝叶斯文本分类方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN108062331B (zh) |
Cited By (14)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932299A (zh) * | 2018-06-07 | 2018-12-04 | 北京迈格威科技有限公司 | 用于对线上系统的模型进行更新的方法以及装置 |
CN109191354A (zh) * | 2018-08-21 | 2019-01-11 | 安徽讯飞智能科技有限公司 | 一种基于自然语言处理的全民社管任务分发方法 |
CN109241288A (zh) * | 2018-10-12 | 2019-01-18 | 平安科技(深圳)有限公司 | 文本分类模型的更新训练方法、装置及设备 |
CN109388711A (zh) * | 2018-09-05 | 2019-02-26 | 广州视源电子科技股份有限公司 | 日志流聚类的方法和装置 |
CN109492911A (zh) * | 2018-11-13 | 2019-03-19 | 平安科技(深圳)有限公司 | 风险事件的风险预估方法、装置、计算机设备及存储介质 |
CN110442709A (zh) * | 2019-06-24 | 2019-11-12 | 厦门美域中央信息科技有限公司 | 一种基于朴素贝叶斯模型的文本分类方法 |
CN110473619A (zh) * | 2019-08-16 | 2019-11-19 | 电子科技大学 | 基于深度学习的纤支镜插管辅助决策方法 |
CN110955811A (zh) * | 2019-09-12 | 2020-04-03 | 国网浙江省电力有限公司杭州供电公司 | 基于朴素贝叶斯算法的电力数据分类方法及系统 |
CN111352812A (zh) * | 2020-02-22 | 2020-06-30 | 苏州浪潮智能科技有限公司 | 基于朴素贝叶斯机器学习模型预测存储设备性能方法系统 |
CN111563721A (zh) * | 2020-04-21 | 2020-08-21 | 上海爱数信息技术股份有限公司 | 一种适用于不同标签分布场合的邮件分类方法 |
CN111783873A (zh) * | 2020-06-30 | 2020-10-16 | 中国工商银行股份有限公司 | 基于增量朴素贝叶斯模型的用户画像方法及装置 |
CN111950580A (zh) * | 2019-05-14 | 2020-11-17 | 国际商业机器公司 | 使用平衡训练集的分类器的预测准确性 |
CN112949713A (zh) * | 2021-03-01 | 2021-06-11 | 武汉工程大学 | 一种基于复杂网络的集成学习的文本情感分类方法 |
CN115408527A (zh) * | 2022-11-02 | 2022-11-29 | 北京亿赛通科技发展有限责任公司 | 文本分类方法、装置、电子设备及存储介质 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060047615A1 (en) * | 2004-08-25 | 2006-03-02 | Yael Ravin | Knowledge management system automatically allocating expert resources |
CN101261634A (zh) * | 2008-04-11 | 2008-09-10 | 哈尔滨工业大学深圳研究生院 | 基于增量Q-Learning的学习方法及系统 |
-
2016
- 2016-11-08 CN CN201610983203.6A patent/CN108062331B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20060047615A1 (en) * | 2004-08-25 | 2006-03-02 | Yael Ravin | Knowledge management system automatically allocating expert resources |
CN101261634A (zh) * | 2008-04-11 | 2008-09-10 | 哈尔滨工业大学深圳研究生院 | 基于增量Q-Learning的学习方法及系统 |
Non-Patent Citations (2)
Title |
---|
CHENZ, ET AL.: "Miningtopicsindocuments:standingontheshouldersofbigdata", 《PROCEEDINGSOFTHE20THACMSIGKDDMTEMATIONALCONFERENCEONKNOWLEDGE DISCOVERYANDDATAMINING》 * |
许明英 等: "一种结合反馈信息的贝叶斯分类增量学习方法", 《计算机应用》 * |
Cited By (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108932299A (zh) * | 2018-06-07 | 2018-12-04 | 北京迈格威科技有限公司 | 用于对线上系统的模型进行更新的方法以及装置 |
CN109191354A (zh) * | 2018-08-21 | 2019-01-11 | 安徽讯飞智能科技有限公司 | 一种基于自然语言处理的全民社管任务分发方法 |
CN109388711A (zh) * | 2018-09-05 | 2019-02-26 | 广州视源电子科技股份有限公司 | 日志流聚类的方法和装置 |
CN109241288A (zh) * | 2018-10-12 | 2019-01-18 | 平安科技(深圳)有限公司 | 文本分类模型的更新训练方法、装置及设备 |
WO2020073531A1 (zh) * | 2018-10-12 | 2020-04-16 | 平安科技(深圳)有限公司 | 文本分类模型的更新训练方法、装置及设备 |
CN109492911A (zh) * | 2018-11-13 | 2019-03-19 | 平安科技(深圳)有限公司 | 风险事件的风险预估方法、装置、计算机设备及存储介质 |
CN111950580A (zh) * | 2019-05-14 | 2020-11-17 | 国际商业机器公司 | 使用平衡训练集的分类器的预测准确性 |
CN110442709A (zh) * | 2019-06-24 | 2019-11-12 | 厦门美域中央信息科技有限公司 | 一种基于朴素贝叶斯模型的文本分类方法 |
CN110473619A (zh) * | 2019-08-16 | 2019-11-19 | 电子科技大学 | 基于深度学习的纤支镜插管辅助决策方法 |
CN110955811A (zh) * | 2019-09-12 | 2020-04-03 | 国网浙江省电力有限公司杭州供电公司 | 基于朴素贝叶斯算法的电力数据分类方法及系统 |
CN110955811B (zh) * | 2019-09-12 | 2023-09-22 | 国网浙江省电力有限公司杭州供电公司 | 基于朴素贝叶斯算法的电力数据分类方法及系统 |
CN111352812A (zh) * | 2020-02-22 | 2020-06-30 | 苏州浪潮智能科技有限公司 | 基于朴素贝叶斯机器学习模型预测存储设备性能方法系统 |
CN111563721A (zh) * | 2020-04-21 | 2020-08-21 | 上海爱数信息技术股份有限公司 | 一种适用于不同标签分布场合的邮件分类方法 |
CN111563721B (zh) * | 2020-04-21 | 2023-07-11 | 上海爱数信息技术股份有限公司 | 一种适用于不同标签分布场合的邮件分类方法 |
CN111783873B (zh) * | 2020-06-30 | 2023-08-25 | 中国工商银行股份有限公司 | 基于增量朴素贝叶斯模型的用户画像方法及装置 |
CN111783873A (zh) * | 2020-06-30 | 2020-10-16 | 中国工商银行股份有限公司 | 基于增量朴素贝叶斯模型的用户画像方法及装置 |
CN112949713A (zh) * | 2021-03-01 | 2021-06-11 | 武汉工程大学 | 一种基于复杂网络的集成学习的文本情感分类方法 |
CN112949713B (zh) * | 2021-03-01 | 2023-11-21 | 武汉工程大学 | 一种基于复杂网络的集成学习的文本情感分类方法 |
CN115408527A (zh) * | 2022-11-02 | 2022-11-29 | 北京亿赛通科技发展有限责任公司 | 文本分类方法、装置、电子设备及存储介质 |
CN115408527B (zh) * | 2022-11-02 | 2023-03-10 | 北京亿赛通科技发展有限责任公司 | 文本分类方法、装置、电子设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
CN108062331B (zh) | 2021-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108062331B (zh) | 基于终生学习的增量式朴素贝叶斯文本分类方法 | |
Luan et al. | Scientific information extraction with semi-supervised neural tagging | |
CN110110062B (zh) | 机器智能问答方法、装置与电子设备 | |
US10185893B2 (en) | Method and apparatus for generating time series data sets for predictive analysis | |
Shang et al. | Particle swarm optimization-based feature selection in sentiment classification | |
Ramadhan et al. | Parameter tuning in random forest based on grid search method for gender classification based on voice frequency | |
Tur et al. | Combining active and semi-supervised learning for spoken language understanding | |
US11151443B2 (en) | Augmenting neural networks with sparsely-accessed external memory | |
JP2019028839A (ja) | 分類器、分類器の学習方法、分類器における分類方法 | |
CN110619044B (zh) | 一种情感分析方法、系统、存储介质及设备 | |
JP7342242B2 (ja) | 学習を転移させるための学習のためのフレームワーク | |
CN111402929B (zh) | 基于域不变的小样本语音情感识别方法 | |
WO2023197613A1 (zh) | 一种小样本微调方法、系统及相关装置 | |
CN110674849B (zh) | 基于多源域集成迁移的跨领域情感分类方法 | |
Bohdal et al. | Meta-calibration: Learning of model calibration using differentiable expected calibration error | |
CN110866113A (zh) | 基于稀疏自注意力机制微调伯特模型的文本分类方法 | |
CN112634992A (zh) | 分子性质预测方法及其模型的训练方法及相关装置、设备 | |
Rabaoui et al. | Improved one-class SVM classifier for sounds classification | |
CN113722439A (zh) | 基于对抗性类别对齐网络的跨领域情感分类方法及系统 | |
Yoshikawa et al. | Non-linear regression for bag-of-words data via Gaussian process latent variable set model | |
US20230267175A1 (en) | Systems and methods for sample efficient training of machine learning models | |
CN113268657B (zh) | 基于评论和物品描述的深度学习推荐方法及系统 | |
JP7487556B2 (ja) | モデル生成プログラム、モデル生成装置、及びモデル生成方法 | |
WO2021159046A1 (en) | Machine learning algorithm search | |
CN113282705B (zh) | 一种能够自动更新的案件预判智能体训练方法及系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |