CN104142912A - 一种精确的语料类别标注方法及装置 - Google Patents
一种精确的语料类别标注方法及装置 Download PDFInfo
- Publication number
- CN104142912A CN104142912A CN201310163422.6A CN201310163422A CN104142912A CN 104142912 A CN104142912 A CN 104142912A CN 201310163422 A CN201310163422 A CN 201310163422A CN 104142912 A CN104142912 A CN 104142912A
- Authority
- CN
- China
- Prior art keywords
- language material
- corpus
- language
- classification
- verification
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Abstract
本发明提供了一种精确的语料类别标注方法及装置,其中所述方法包括:A.将具有初始标注类别的全部语料分为n份,其中1份语料作为校验语料,其余n-1份语料作为训练语料,且n为大于1的正整数;B.提取训练语料的代表性特征;C.对训练语料的代表性特征进行机器学习,以得到分类模型;D.采用所述分类模型对校验语料进行分类,得到校验语料的二次标注类别;E.对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正;F.从所述n份语料中选取1份未曾校正的语料作为校验语料,其余n-1份语料作为训练语料,返回所述步骤B。通过上述方式,本发明能够降低语料标注中的错误,提高语料标注的准确性。
Description
【技术领域】
本发明涉及数据处理技术,特别涉及一种精确的语料类别标注方法及装置。
【背景技术】
语料标注类别的准确性是保证利用这些语料训练得到的分类模型的准确性的关键。现有技术中,主要是通过人工的方式进行语料标注的,而人工标注难以避免人的主观性,由于人受知识结构所限,对不熟悉领域的语料标注常出现错误。如“紫苏提取物的特性及应用”,有的人可能会标注为化学类别,有的人可能会标注为生物类别。
【发明内容】
本发明所要解决的技术问题是提供一种精确的语料类别标注方法及装置,以提高用于训练分类模型的语料标注的准确性。
本发明为解决技术问题而采用的技术方案是提供一种精确的语料类别标注方法,包括:A.将具有初始标注类别的全部语料分为n份,其中1份语料作为校验语料,其余n-1份语料作为训练语料,且n为大于1的正整数;B.提取训练语料的代表性特征;C.对训练语料的代表性特征进行机器学习,以得到分类模型;D.采用所述分类模型对校验语料进行分类,得到校验语料的二次标注类别;E.对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正;F.从所述n份语料中选取1份未曾校正的语料作为校验语料,其余n-1份语料作为训练语料,返回所述步骤B。
根据本发明之一优选实施例,所述方法在所述步骤F后进一步包括:将校正后的类别作为语料的初始标注类别,并在满足终止条件前重复执行所述步骤A至所述步骤F。
根据本发明之一优选实施例,所述终止条件至少包括以下一种:所述方法的执行时间达到预设值;或者所述步骤A至所述步骤F的重复执行次数达到预设值;或者当次重复执行时,需要校正的语料在全部语料中所占比例低于预设值。
根据本发明之一优选实施例,所述语料为文本语料。
根据本发明之一优选实施例,所述步骤B包括:B1.采用特征选择算法确定训练语料的代表性特征;B2.计算训练语料的代表性特征对应的权重。
本发明还提供了一种精确的语料类别标注装置,包括:分割单元,用于将具有初始标注类别的全部语料分为n份,其中1份语料作为校验语料,其余n-1份语料作为训练语料,且n为大于1的正整数;特征提取单元,用于提取训练语料的代表性特征;训练单元,用于对训练语料的代表性特征进行机器学习,以得到分类模型;分类单元,用于采用所述分类模型对校验语料进行分类,得到校验语料的二次标注类别;校正单元,用于对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正;语料选取单元,用于从所述n份语料中选取1份未曾校正的语料作为校验语料,其余n-1份语料作为训练语料,并触发所述特征提取单元执行。
根据本发明之一优选实施例,所述装置进一步还包括:迭代单元,用于将校正后的类别作为语料的初始标注类别,并在满足终止条件前触发所述分割单元至所述语料选取单元重复执行。
根据本发明之一优选实施例,所述终止条件至少包括以下一种:所述装置的执行时间达到预设值;或者所述分割单元至所述语料选取单元的重复执行次数达到预设值;或者当次重复执行时,需要校正的语料在全部语料中所占比例低于预设值。
根据本发明之一优选实施例,所述语料为文本语料。
根据本发明之一优选实施例,所述特征提取单元包括:特征选取单元,用于采用特征选择算法确定训练语料的代表性特征;权重计算单元,用于计算训练语料的代表性特征对应的权重。
由以上技术方案可以看出,本发明通过将具有初始标注的全部语料分为若干份,每次选取其中一份作为校验语料,其余作为训练语料获取分类模型,以对校验语料进行校正,能够极大地降低语料标注中的错误,提高语料标注的准确性。
【附图说明】
图1为本发明中精确的语料类别标注方法的实施例的流程示意图;
图2为本发明中精确的语料类别标注装置的实施例一的结构示意框图;
图3为本发明中精确的语料类别标注装置的实施例二的结构示意框图。
【具体实施方式】
为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。
请参考图1,图1为本发明中精确的语料类别标注方法的实施例的流程示意图。如图1所示,该实施例包括:
步骤S1:将具有初始标注类别的全部语料分为n份,其中1份语料作为校验语料,其余n-1份语料作为训练语料,且n为大于1的正整数。
步骤S2:提取训练语料的代表性特征。
步骤S3:对训练语料的代表性特征进行机器学习,以得到分类模型。
步骤S4:采用分类模型对校验语料进行分类,得到校验语料的二次标注类别。
步骤S5:对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正。
步骤S6:从n份语料中选取1份未曾校正的语料作为校验语料,其余n-1份语料作为训练语料,返回步骤S2。
下面对上述步骤进行具体说明。
在本发明中,语料可以是各种类型的语料,可以是文本类型的,如各种文章,或者网页,也可以是图像类型的,如照片或绘画等。
在步骤S1中处理的全部语料预先已经被标注,具有初始标注类别。初始标注类别可以是预先通过人工的方式标注的,也可以是由其他标注系统进行预标注的,本发明对此不进行限制。假设文本语料可供标注的类别有:体育和财经,则语料中的每一个样本所具有的初始标注类别,就是这两个类别中的一个。
在步骤S1中,将全部语料任意分为n份,优选的,可以分为n等份,其中n为大于1的正整数。为了便于说明,在后面的描述中,假设n为10。步骤S1中将全部语料分为10份,其中1份语料作为校验语料,其余的9份作为训练语料。训练语料是后续用来获取分类模型时使用的语料,而校验语料是使用训练语料得到的分类模型进行分类时的输入语料。
具体地步骤S2包括:
步骤S21:采用特征选择算法确定训练语料的代表性特征。
步骤S22:计算训练语料的代表性特征对应的权重。
其中,训练语料的代表性特征,指的是训练语料类别区分度最显著的那些特征。步骤S21中,对训练语料的每个样本进行分词处理后,所有的分词都是这个样本的候选特征,如果利用所有候选特征构造特征向量,则特征向量的维度太大,因此需要采用特征选取算法从所有候选特征中选取类别区分度最显著的代表性特征。
作为优选的,本发明中可采用卡方检验或信息增益的算法从候选特征中选取代表性特征。
下面以卡方检验算法为例说明步骤S21中从候选特征中确定代表性特征的过程。请参考下表:
根据卡方检验算法,分词“篮球”与类别“体育”之间的卡方值采用类似的方法,可以计算其他候选特征,如“银行”、“射击”等分词与类别“体育”之间的卡方值。卡方值最高的若干个候选特征可以作为训练语料的代表性特征。例如体育类别的卡方值最高的前两个候选特征为“篮球”、“足球”,财经类别的卡方值最高的前两个候选特征为“经济”、“发展”,则训练语料的代表性特征可以是(篮球,足球,经济,发展)。
步骤S21确定了训练语料的代表性特征后,步骤S22需要计算训练语料的代表性特征对应的权重。例如采用词频的方法计算训练语料中样本1的代表性特征对应的权重为(5,8,1,2),即样本1中“篮球”出现了5次,足球出现了8次,“经济”出现了1次,“发展”出现了2次。
通过步骤S2,训练语料的每个样本均可获得各自的代表性特征。在步骤S3中,对所有训练语料的代表性特征进行机器学习,就可以得到分类模型,其中机器学习的过程,就是训练过程。具体地,分类过程可用下面公式表示:
Ci=f(Ti)
其中Ti是以代表性特征表示的样本i,Ci表示i的类别,f表示分类模型。在训练阶段,已知若干对Ti和Ci,通过机器学习,就可以总结出f。本发明中可以采用SVM等机器学习方法对训练语料的代表性特征进行学习,还可以采用其他已知的机器学习方法,本发明对此不作限制。
得到由训练语料生成的分类模型以后,在步骤S4中,将利用分类模型对校验语料进行分类,以得到校验语料的二次标注类别。在这个过程中,与前面类似的,也需要先提取校验语料的代表性特征。根据上述公式可知,此时的f与Ti已知,因此可以计算得到Ci,即校验语料中样本的二次标注类别。二次标注类别是相对初始标注类别而言的,其具体值可能与初始标注类别相同,也可能不同。在步骤S5中,需要对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正。一种方式是接受人工对差异语料类别的修改进行校正,此外,也可以通过调用第三方系统的校正功能对本发明中的差异语料进行校正,本发明在此不再赘述。例如校验语料存在一样本的初始标注类别是体育,二次标注类别是财经,通过校正后,该样本的类别可能修改为财经类别。
通过步骤S1至步骤S5,全部语料(共10份)中的1份,即作为校验语料的那1份中初次标注类别不准确的语料得到了校正,为了对剩余的9份被作为训练语料的语料也进行校正,本发明中还需要执行步骤S6。步骤S6中将重复上述的训练和分类过程。步骤S6中,每次从全部语料中取1份未曾校正的语料作为校验语料,剩余的9份作为训练语料,并重复步骤S2至S5,直至10份语料均有一次作为校验语料得到校正为止。
通过前面的介绍可以看出,本发明能够有效地消除人工进行初始标注中存在的主观因素,保证全部语料的最终标注类别所依赖的标准是统一的。
在另一个实施例中,步骤S1至步骤S6还可以重复执行。即在对全部语料进行过一次完整的校正之后,执行步骤S7:将校正后的类别作为语料的初始标注类别,并在满足终止条件前重复执行步骤S1至步骤S6。其中,在每一次执行步骤S1的时候,n的取值可以是不同的。例如在第二次执行步骤S1时,将全部语料分为5份,其中1份作为校验语料,其余4份作为训练语料。可以理解,在每一次执行步骤S1时,n的取值相同还是不同,并不对本发明的效果产生影响。
上述的终止条件,可以是以下任意一种:
一、方法的执行时间达到了预设值,例如设定方法的执行时间不能超过1分钟。
二、步骤S1至步骤S6的重复执行次数达到了预设值,例如设定步骤S1至步骤S6的执行次数总共不超过5次。
三、当次重复执行时,需要校正的语料在全部语料中所占比例低于预设值。例如设定当次重复执行时,标注类别与上次执行时的标注类别之间存在差异的语料(即需要校正的语料)在全部语料中所占比例低于5%时,方法终止执行。
需要说明的是,在本实施例中,执行步骤S6会使得步骤S2至步骤S5重复执行,这种重复实际上是使得一次分割中的每份语料都作为校验语料得以校正,而执行步骤S7会使得步骤S1至步骤S6重复执行,这种重复实际上使得全部语料得以重新分割。通过上述实施例,可以看出,本发明的方法通过不断迭代,最终将趋于收敛,由于全部语料中初始标注类别不合理的语料是少数,因此通过上述方式,本发明实际上实现了从大多数标注合理的语料中自动提取标注逻辑,从而对不合理的语料的标注进行修正的目的,不仅节约了人力成本,提高了标注效率,也大大改善了语料标注的准确性。
请参考图2,图2为本发明中精确的语料类别标注装置的实施例一的结构示意框图。如图2所示,该实施例包括:分割单元201、特征提取单元202、训练单元203、分类单元204、校正单元205和语料选取单元206。
其中,分割单元201,用于将具有初始标注类别的全部语料分为n份,其中1份语料作为校验语料,其余n-1份语料作为训练语料,且n为大于1的正整数。
在本发明中,语料可以是各种类型的语料,可以是文本类型的,如各种文章,或者网页,也可以是图像类型的,如照片或绘画等。
分割单元201处理的全部语料预先已经被标注,具有初始标注类别。初始标注类别可以是预先通过人工的方式标注的,也可以是由其他标注系统进行预标注的,本发明对此不进行限制。假设文本语料可供标注的类别有:体育和财经,则语料中的每一个样本所具有的初始标注类别,就是这两个类别中的一个。
分割单元201将全部语料任意分为n份,优选的,可以分为n等份,其中n为大于1的正整数。为了便于说明,在后面的描述中,假设n为10。分割单元201将全部语料分为10份,其中1份语料作为校验语料,其余的9份作为训练语料。训练语料是后续用来获取分类模型使用的语料,而校验语料是使用训练语料得到的分类模型进行分类时的输入语料。
特征提取单元202,用于提取训练语料的代表性特征。
具体地,特征提取单元202包括特征选取单元和权重计算单元(图中未示出)。其中特征选取单元,用于采用特征选择算法确定训练语料的代表性特征。权重计算单元,用于计算训练语料的代表性特征对应的权重。
其中,训练语料的代表性特征,指的是训练语料类别区分度最显著的那些特征。特征选取单元对训练语料的每个样本进行分词处理后,所有的分词都是这个样本的候选特征,如果利用所有候选特征构造特征向量,则特征向量的维度太大,因此需要采用特征选取算法从所有候选特征中选取类别区分度最显著的代表性特征。
作为优选的,特征选取单元可采用卡方检验或信息增益的算法从候选特征中选取代表性特征。
下面以卡方检验算法为例说明特征选取单元从候选特征中确定代表性特征的过程。请参考下表:
根据卡方检验算法,分词“篮球”与类别“体育”之间的卡方值采用类似的方法,可以计算其他候选特征,如“银行”、“射击”等分词与类别“体育”之间的卡方值。卡方值最高的若干个候选特征可以作为训练语料的代表性特征。例如体育类别的卡方值最高的前两个候选特征为“篮球”、“足球”,财经类别的卡方值最高的前两个候选特征为“经济”、“发展”,则训练语料的代表性特征可以是(篮球,足球,经济,发展)。
特征选取单元确定了训练语料的代表性特征后,权重计算单元需要计算训练语料的代表性特征对应的权重。例如特征选取单元2021采用词频的方法计算训练语料中样本1的代表性特征对应的权重为(5,8,1,2),即样本1中“篮球”出现了5次,足球出现了8次,“经济”出现了1次,“发展”出现了2次。
训练单元203,用于对训练语料的代表性特征进行机器学习,以得到分类模型。其中机器学习的过程,就是训练过程。具体地,分类过程可表示用下面公式表示:
Ci=f(Ti)
其中Ti是以代表性特征表示的样本i,Ci表示i的类别,f表示分类模型。在训练阶段,已知若干对Ti和Ci,通过机器学习,就可以总结出f。本发明中可以采用SVM等机器学习方法对训练语料的代表性特征进行学习,还可以采用其他已知的机器学习方法,本发明对此不作限制。
分类单元204,用于采用分类模型对校验语料进行分类,得到校验语料的二次标注类别。在这个过程中,与前面类似的,也需要先提取校验语料的代表性特征。然后根据上述公式可知,此时的f与Ti已知,因此可以得到Ci,即校验语料中样本的二次标注类别。二次标注类别是相对初始标注类别而言的,其具体值可能与初始标注类别相同,也可能不同。
校正单元205,用于对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正。一种方式是接受人工对差异语料类别的修改进行校正,此外,也可以通过调用第三方系统的校正功能对本发明中的差异语料进行校正,本发明在此不再赘述。例如校验语料存在一样本的初始标注类别是体育,二次标注类别是财经,通过校正后,该样本的类别可能修改为财经类别。
语料选取单元206,用于从n份语料中选取1份未曾校正的语料作为校验语料,其余n-1份语料作为训练语料,并触发特征提取单元202执行。语料选取单元206使训练过程和分类过程得以重复,直到10份语料中的每一份都作为校验语料得到校正。
请参考图3,图3为本发明中精确的语料类别标注装置的实施例二的结构示意框图。在本实施例中,所述标注装置进一步包括迭代单元207,用于将校正后的类别作为语料的初始标注类别,并在满足终止条件前触发分割单元201至语料选取单元206重复执行。其中,分割单元201每次执行的时候,n的取值可以是不同的。例如在分割单元201第二次执行的时候,将全部语料分为5份,其中1份作为校验语料,其余4份作为训练语料。可以理解,分割单元201每一次执行时,n的取值相同还是不同,并不对本发明的效果产生影响。
上述的终止条件,可以是以下任意一种:
一、装置的执行时间达到了预设值,例如设定装置的执行时间不能超过1分钟。
二、分割单元201至语料选取单元206的重复执行次数达到了预设值,例如分割单元201至语料选取单元206的执行次数总共不超过5次。
三、当次重复执行时,需要校正的语料在全部语料中所占比例低于预设值。例如设定当次重复执行时,标注类别与上次执行时的标注类别之间存在差异的语料(即需要校正的语料)在全部语料中所占比例低于5%时,方法终止执行。
以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
Claims (10)
1.一种精确的语料类别标注方法,包括:
A.将具有初始标注类别的全部语料分为n份,其中1份语料作为校验语料,其余n-1份语料作为训练语料,且n为大于1的正整数;
B.提取训练语料的代表性特征;
C.对训练语料的代表性特征进行机器学习,以得到分类模型;
D.采用所述分类模型对校验语料进行分类,得到校验语料的二次标注类别;
E.对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正;
F.从所述n份语料中选取1份未曾校正的语料作为校验语料,其余n-1份语料作为训练语料,返回所述步骤B。
2.根据权利要求1所述的方法,其特征在于,所述方法在所述步骤F后进一步包括:
将校正后的类别作为语料的初始标注类别,并在满足终止条件前重复执行所述步骤A至所述步骤F。
3.根据权利要求2所述的方法,其特征在于,所述终止条件至少包括以下一种:
所述方法的执行时间达到预设值;或者所述步骤A至所述步骤F的重复执行次数达到预设值;或者当次重复执行时,需要校正的语料在全部语料中所占比例低于预设值。
4.根据权利要求1所述的方法,其特征在于,所述语料为文本语料。
5.根据权利要求1所述的方法,其特征在于,所述步骤B包括:
B1.采用特征选择算法确定训练语料的代表性特征;
B2.计算训练语料的代表性特征对应的权重。
6.一种精确的语料类别标注装置,包括:
分割单元,用于将具有初始标注类别的全部语料分为n份,其中1份语料作为校验语料,其余n-1份语料作为训练语料,且n为大于1的正整数;
特征提取单元,用于提取训练语料的代表性特征;
训练单元,用于对训练语料的代表性特征进行机器学习,以得到分类模型;
分类单元,用于采用所述分类模型对校验语料进行分类,得到校验语料的二次标注类别;
校正单元,用于对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正;
语料选取单元,用于从所述n份语料中选取1份未曾校正的语料作为校验语料,其余n-1份语料作为训练语料,并触发所述特征提取单元执行。
7.根据权利要求6所述的装置,其特征在于,所述装置进一步还包括:
迭代单元,用于将校正后的类别作为语料的初始标注类别,并在满足终止条件前触发所述分割单元至所述语料选取单元重复执行。
8.根据权利要求7所述的装置,其特征在于,所述终止条件至少包括以下一种:
所述装置的执行时间达到预设值;或者所述分割单元至所述语料选取单元的重复执行次数达到预设值;或者当次重复执行时,需要校正的语料在全部语料中所占比例低于预设值。
9.根据权利要求6所述的装置,其特征在于,所述语料为文本语料。
10.根据权利要求6所述的装置,其特征在于,所述特征提取单元包括:
特征选取单元,用于采用特征选择算法确定训练语料的代表性特征;
权重计算单元,用于计算训练语料的代表性特征对应的权重。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310163422.6A CN104142912A (zh) | 2013-05-07 | 2013-05-07 | 一种精确的语料类别标注方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201310163422.6A CN104142912A (zh) | 2013-05-07 | 2013-05-07 | 一种精确的语料类别标注方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN104142912A true CN104142912A (zh) | 2014-11-12 |
Family
ID=51852088
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201310163422.6A Pending CN104142912A (zh) | 2013-05-07 | 2013-05-07 | 一种精确的语料类别标注方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN104142912A (zh) |
Cited By (11)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105975980A (zh) * | 2016-04-27 | 2016-09-28 | 百度在线网络技术(北京)有限公司 | 监控图像标注质量的方法和装置 |
CN107004163A (zh) * | 2014-12-07 | 2017-08-01 | 微软技术许可有限责任公司 | 机器学习中的错误驱动的特征构思 |
CN107122346A (zh) * | 2016-12-28 | 2017-09-01 | 平安科技(深圳)有限公司 | 一种输入语句的纠错方法及装置 |
CN107832425A (zh) * | 2017-11-13 | 2018-03-23 | 北京神州泰岳软件股份有限公司 | 一种多轮迭代的语料标注方法、装置及系统 |
CN108171064A (zh) * | 2018-01-29 | 2018-06-15 | 中国人民解放军战略支援部队信息工程大学 | 一种用于灰盒模糊测试的样本格式保护方法及装置 |
CN108241650A (zh) * | 2016-12-23 | 2018-07-03 | 北京国双科技有限公司 | 训练分类标准的训练方法和装置 |
CN109614614A (zh) * | 2018-12-03 | 2019-04-12 | 焦点科技股份有限公司 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
WO2019095899A1 (zh) * | 2017-11-17 | 2019-05-23 | 中兴通讯股份有限公司 | 素材标注方法以及装置、终端和计算机可读存储介质 |
CN110032714A (zh) * | 2019-02-25 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种语料标注反馈方法及装置 |
CN110399933A (zh) * | 2019-07-31 | 2019-11-01 | 北京字节跳动网络技术有限公司 | 数据标注修正方法、装置、计算机可读介质及电子设备 |
US10867255B2 (en) | 2017-03-03 | 2020-12-15 | Hong Kong Applied Science and Technology Research Institute Company Limited | Efficient annotation of large sample group |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101021838A (zh) * | 2007-03-02 | 2007-08-22 | 华为技术有限公司 | 文本处理方法和系统 |
US7415445B2 (en) * | 2002-09-24 | 2008-08-19 | Hewlett-Packard Development Company, L.P. | Feature selection for two-class classification systems |
CN102081667A (zh) * | 2011-01-23 | 2011-06-01 | 浙江大学 | 基于Base64编码的中文文本分类方法 |
CN102999516A (zh) * | 2011-09-15 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种文本分类的方法及装置 |
-
2013
- 2013-05-07 CN CN201310163422.6A patent/CN104142912A/zh active Pending
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7415445B2 (en) * | 2002-09-24 | 2008-08-19 | Hewlett-Packard Development Company, L.P. | Feature selection for two-class classification systems |
CN101021838A (zh) * | 2007-03-02 | 2007-08-22 | 华为技术有限公司 | 文本处理方法和系统 |
CN102081667A (zh) * | 2011-01-23 | 2011-06-01 | 浙江大学 | 基于Base64编码的中文文本分类方法 |
CN102999516A (zh) * | 2011-09-15 | 2013-03-27 | 北京百度网讯科技有限公司 | 一种文本分类的方法及装置 |
Non-Patent Citations (2)
Title |
---|
尹继豪 等: "一种基于Bootstrapping构建训练语料的方法", 《计算机研究与发展》 * |
邓蕊 等: "基于改进交叉验证算法的支持向量机多类识别", 《天津科技大学学报》 * |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107004163A (zh) * | 2014-12-07 | 2017-08-01 | 微软技术许可有限责任公司 | 机器学习中的错误驱动的特征构思 |
CN105975980A (zh) * | 2016-04-27 | 2016-09-28 | 百度在线网络技术(北京)有限公司 | 监控图像标注质量的方法和装置 |
CN105975980B (zh) * | 2016-04-27 | 2019-04-05 | 百度在线网络技术(北京)有限公司 | 监控图像标注质量的方法和装置 |
CN108241650B (zh) * | 2016-12-23 | 2020-08-11 | 北京国双科技有限公司 | 训练分类标准的训练方法和装置 |
CN108241650A (zh) * | 2016-12-23 | 2018-07-03 | 北京国双科技有限公司 | 训练分类标准的训练方法和装置 |
CN107122346A (zh) * | 2016-12-28 | 2017-09-01 | 平安科技(深圳)有限公司 | 一种输入语句的纠错方法及装置 |
CN107122346B (zh) * | 2016-12-28 | 2018-02-27 | 平安科技(深圳)有限公司 | 一种输入语句的纠错方法及装置 |
US10867255B2 (en) | 2017-03-03 | 2020-12-15 | Hong Kong Applied Science and Technology Research Institute Company Limited | Efficient annotation of large sample group |
CN107832425B (zh) * | 2017-11-13 | 2020-03-06 | 中科鼎富(北京)科技发展有限公司 | 一种多轮迭代的语料标注方法、装置及系统 |
CN107832425A (zh) * | 2017-11-13 | 2018-03-23 | 北京神州泰岳软件股份有限公司 | 一种多轮迭代的语料标注方法、装置及系统 |
WO2019095899A1 (zh) * | 2017-11-17 | 2019-05-23 | 中兴通讯股份有限公司 | 素材标注方法以及装置、终端和计算机可读存储介质 |
CN108171064A (zh) * | 2018-01-29 | 2018-06-15 | 中国人民解放军战略支援部队信息工程大学 | 一种用于灰盒模糊测试的样本格式保护方法及装置 |
CN108171064B (zh) * | 2018-01-29 | 2021-03-19 | 中国人民解放军战略支援部队信息工程大学 | 一种用于灰盒模糊测试的样本格式保护方法及装置 |
CN109614614A (zh) * | 2018-12-03 | 2019-04-12 | 焦点科技股份有限公司 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
CN109614614B (zh) * | 2018-12-03 | 2021-04-02 | 焦点科技股份有限公司 | 一种基于自注意力的bilstm-crf产品名称识别方法 |
CN110032714A (zh) * | 2019-02-25 | 2019-07-19 | 阿里巴巴集团控股有限公司 | 一种语料标注反馈方法及装置 |
CN110399933A (zh) * | 2019-07-31 | 2019-11-01 | 北京字节跳动网络技术有限公司 | 数据标注修正方法、装置、计算机可读介质及电子设备 |
CN110399933B (zh) * | 2019-07-31 | 2021-05-07 | 北京字节跳动网络技术有限公司 | 数据标注修正方法、装置、计算机可读介质及电子设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN104142912A (zh) | 一种精确的语料类别标注方法及装置 | |
CN109902307B (zh) | 命名实体识别方法、命名实体识别模型的训练方法及装置 | |
CN108804512B (zh) | 文本分类模型的生成装置、方法及计算机可读存储介质 | |
CN106776538A (zh) | 企业非标准格式文档的信息提取方法 | |
TWI752455B (zh) | 圖像分類模型訓練方法、影像處理方法、資料分類模型訓練方法、資料處理方法、電腦設備、儲存媒介 | |
CN106445919A (zh) | 一种情感分类方法及装置 | |
CN116629275B (zh) | 一种基于大数据的智能决策支持系统及方法 | |
CN108959474B (zh) | 实体关系提取方法 | |
TW201329752A (zh) | 中文文本可讀性計量系統及其方法 | |
CN103593431A (zh) | 网络舆情分析方法和装置 | |
CN106778878B (zh) | 一种人物关系分类方法及装置 | |
CN112163424A (zh) | 数据的标注方法、装置、设备和介质 | |
CN111210402A (zh) | 人脸图像质量评分方法、装置、计算机设备及存储介质 | |
CN104850617A (zh) | 短文本处理方法及装置 | |
CN111984792A (zh) | 网站分类方法、装置、计算机设备及存储介质 | |
CN108090099B (zh) | 一种文本处理方法及装置 | |
CN109213998A (zh) | 中文错字检测方法及系统 | |
CN107818173B (zh) | 一种基于向量空间模型的中文虚假评论过滤方法 | |
CN105426379A (zh) | 基于词语位置的关键字权值计算方法 | |
CN110781673B (zh) | 文档验收方法、装置、计算机设备及存储介质 | |
CN105243053A (zh) | 提取文档关键句的方法及装置 | |
CN107977454A (zh) | 双语语料清洗的方法、装置及计算机可读存储介质 | |
JP2020098592A (ja) | ウェブページ内容を抽出する方法、装置及び記憶媒体 | |
CN106445914A (zh) | 微博情感分类器的构建方法及构建装置 | |
CN103886097A (zh) | 基于自适应提升算法的中文微博观点句识别特征的提取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20141112 |
|
RJ01 | Rejection of invention patent application after publication |