CN104142912A

CN104142912A - 一种精确的语料类别标注方法及装置

Info

Publication number: CN104142912A
Application number: CN201310163422.6A
Authority: CN
Inventors: 李成洲; 徐兴军
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2013-05-07
Filing date: 2013-05-07
Publication date: 2014-11-12

Abstract

本发明提供了一种精确的语料类别标注方法及装置，其中所述方法包括：A.将具有初始标注类别的全部语料分为n份，其中1份语料作为校验语料，其余n-1份语料作为训练语料，且n为大于1的正整数；B.提取训练语料的代表性特征；C.对训练语料的代表性特征进行机器学习，以得到分类模型；D.采用所述分类模型对校验语料进行分类，得到校验语料的二次标注类别；E.对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正；F.从所述n份语料中选取1份未曾校正的语料作为校验语料，其余n-1份语料作为训练语料，返回所述步骤B。通过上述方式，本发明能够降低语料标注中的错误，提高语料标注的准确性。

Description

一种精确的语料类别标注方法及装置

【技术领域】

本发明涉及数据处理技术，特别涉及一种精确的语料类别标注方法及装置。

【背景技术】

语料标注类别的准确性是保证利用这些语料训练得到的分类模型的准确性的关键。现有技术中，主要是通过人工的方式进行语料标注的，而人工标注难以避免人的主观性，由于人受知识结构所限，对不熟悉领域的语料标注常出现错误。如“紫苏提取物的特性及应用”，有的人可能会标注为化学类别，有的人可能会标注为生物类别。

【发明内容】

本发明所要解决的技术问题是提供一种精确的语料类别标注方法及装置，以提高用于训练分类模型的语料标注的准确性。

本发明为解决技术问题而采用的技术方案是提供一种精确的语料类别标注方法，包括：A.将具有初始标注类别的全部语料分为n份，其中1份语料作为校验语料，其余n-1份语料作为训练语料，且n为大于1的正整数；B.提取训练语料的代表性特征；C.对训练语料的代表性特征进行机器学习，以得到分类模型；D.采用所述分类模型对校验语料进行分类，得到校验语料的二次标注类别；E.对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正；F.从所述n份语料中选取1份未曾校正的语料作为校验语料，其余n-1份语料作为训练语料，返回所述步骤B。

根据本发明之一优选实施例，所述方法在所述步骤F后进一步包括：将校正后的类别作为语料的初始标注类别，并在满足终止条件前重复执行所述步骤A至所述步骤F。

根据本发明之一优选实施例，所述终止条件至少包括以下一种：所述方法的执行时间达到预设值；或者所述步骤A至所述步骤F的重复执行次数达到预设值；或者当次重复执行时，需要校正的语料在全部语料中所占比例低于预设值。

根据本发明之一优选实施例，所述语料为文本语料。

根据本发明之一优选实施例，所述步骤B包括：B1.采用特征选择算法确定训练语料的代表性特征；B2.计算训练语料的代表性特征对应的权重。

本发明还提供了一种精确的语料类别标注装置，包括：分割单元，用于将具有初始标注类别的全部语料分为n份，其中1份语料作为校验语料，其余n-1份语料作为训练语料，且n为大于1的正整数；特征提取单元，用于提取训练语料的代表性特征；训练单元，用于对训练语料的代表性特征进行机器学习，以得到分类模型；分类单元，用于采用所述分类模型对校验语料进行分类，得到校验语料的二次标注类别；校正单元，用于对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正；语料选取单元，用于从所述n份语料中选取1份未曾校正的语料作为校验语料，其余n-1份语料作为训练语料，并触发所述特征提取单元执行。

根据本发明之一优选实施例，所述装置进一步还包括：迭代单元，用于将校正后的类别作为语料的初始标注类别，并在满足终止条件前触发所述分割单元至所述语料选取单元重复执行。

根据本发明之一优选实施例，所述终止条件至少包括以下一种：所述装置的执行时间达到预设值；或者所述分割单元至所述语料选取单元的重复执行次数达到预设值；或者当次重复执行时，需要校正的语料在全部语料中所占比例低于预设值。

根据本发明之一优选实施例，所述语料为文本语料。

根据本发明之一优选实施例，所述特征提取单元包括：特征选取单元，用于采用特征选择算法确定训练语料的代表性特征；权重计算单元，用于计算训练语料的代表性特征对应的权重。

由以上技术方案可以看出，本发明通过将具有初始标注的全部语料分为若干份，每次选取其中一份作为校验语料，其余作为训练语料获取分类模型，以对校验语料进行校正，能够极大地降低语料标注中的错误，提高语料标注的准确性。

【附图说明】

图1为本发明中精确的语料类别标注方法的实施例的流程示意图；

图2为本发明中精确的语料类别标注装置的实施例一的结构示意框图；

图3为本发明中精确的语料类别标注装置的实施例二的结构示意框图。

【具体实施方式】

为了使本发明的目的、技术方案和优点更加清楚，下面结合附图和具体实施例对本发明进行详细描述。

请参考图1，图1为本发明中精确的语料类别标注方法的实施例的流程示意图。如图1所示，该实施例包括：

步骤S1：将具有初始标注类别的全部语料分为n份，其中1份语料作为校验语料，其余n-1份语料作为训练语料，且n为大于1的正整数。

步骤S2：提取训练语料的代表性特征。

步骤S3：对训练语料的代表性特征进行机器学习，以得到分类模型。

步骤S4：采用分类模型对校验语料进行分类，得到校验语料的二次标注类别。

步骤S5：对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正。

步骤S6：从n份语料中选取1份未曾校正的语料作为校验语料，其余n-1份语料作为训练语料，返回步骤S2。

下面对上述步骤进行具体说明。

在本发明中，语料可以是各种类型的语料，可以是文本类型的，如各种文章，或者网页，也可以是图像类型的，如照片或绘画等。

在步骤S1中处理的全部语料预先已经被标注，具有初始标注类别。初始标注类别可以是预先通过人工的方式标注的，也可以是由其他标注系统进行预标注的，本发明对此不进行限制。假设文本语料可供标注的类别有：体育和财经，则语料中的每一个样本所具有的初始标注类别，就是这两个类别中的一个。

在步骤S1中，将全部语料任意分为n份，优选的，可以分为n等份，其中n为大于1的正整数。为了便于说明，在后面的描述中，假设n为10。步骤S1中将全部语料分为10份，其中1份语料作为校验语料，其余的9份作为训练语料。训练语料是后续用来获取分类模型时使用的语料，而校验语料是使用训练语料得到的分类模型进行分类时的输入语料。

具体地步骤S2包括：

步骤S21：采用特征选择算法确定训练语料的代表性特征。

步骤S22：计算训练语料的代表性特征对应的权重。

其中，训练语料的代表性特征，指的是训练语料类别区分度最显著的那些特征。步骤S21中，对训练语料的每个样本进行分词处理后，所有的分词都是这个样本的候选特征，如果利用所有候选特征构造特征向量，则特征向量的维度太大，因此需要采用特征选取算法从所有候选特征中选取类别区分度最显著的代表性特征。

作为优选的，本发明中可采用卡方检验或信息增益的算法从候选特征中选取代表性特征。

下面以卡方检验算法为例说明步骤S21中从候选特征中确定代表性特征的过程。请参考下表：

根据卡方检验算法，分词“篮球”与类别“体育”之间的卡方值采用类似的方法，可以计算其他候选特征，如“银行”、“射击”等分词与类别“体育”之间的卡方值。卡方值最高的若干个候选特征可以作为训练语料的代表性特征。例如体育类别的卡方值最高的前两个候选特征为“篮球”、“足球”，财经类别的卡方值最高的前两个候选特征为“经济”、“发展”，则训练语料的代表性特征可以是（篮球，足球，经济，发展）。

步骤S21确定了训练语料的代表性特征后，步骤S22需要计算训练语料的代表性特征对应的权重。例如采用词频的方法计算训练语料中样本1的代表性特征对应的权重为（5，8，1，2），即样本1中“篮球”出现了5次，足球出现了8次，“经济”出现了1次，“发展”出现了2次。

通过步骤S2，训练语料的每个样本均可获得各自的代表性特征。在步骤S3中，对所有训练语料的代表性特征进行机器学习，就可以得到分类模型，其中机器学习的过程，就是训练过程。具体地，分类过程可用下面公式表示：

C_i=f(T_i)

其中T_i是以代表性特征表示的样本i，C_i表示i的类别，f表示分类模型。在训练阶段，已知若干对T_i和C_i，通过机器学习，就可以总结出f。本发明中可以采用SVM等机器学习方法对训练语料的代表性特征进行学习，还可以采用其他已知的机器学习方法，本发明对此不作限制。

得到由训练语料生成的分类模型以后，在步骤S4中，将利用分类模型对校验语料进行分类，以得到校验语料的二次标注类别。在这个过程中，与前面类似的，也需要先提取校验语料的代表性特征。根据上述公式可知，此时的f与T_i已知，因此可以计算得到C_i，即校验语料中样本的二次标注类别。二次标注类别是相对初始标注类别而言的，其具体值可能与初始标注类别相同，也可能不同。在步骤S5中，需要对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正。一种方式是接受人工对差异语料类别的修改进行校正，此外，也可以通过调用第三方系统的校正功能对本发明中的差异语料进行校正，本发明在此不再赘述。例如校验语料存在一样本的初始标注类别是体育，二次标注类别是财经，通过校正后，该样本的类别可能修改为财经类别。

通过步骤S1至步骤S5，全部语料（共10份）中的1份，即作为校验语料的那1份中初次标注类别不准确的语料得到了校正，为了对剩余的9份被作为训练语料的语料也进行校正，本发明中还需要执行步骤S6。步骤S6中将重复上述的训练和分类过程。步骤S6中，每次从全部语料中取1份未曾校正的语料作为校验语料，剩余的9份作为训练语料，并重复步骤S2至S5，直至10份语料均有一次作为校验语料得到校正为止。

通过前面的介绍可以看出，本发明能够有效地消除人工进行初始标注中存在的主观因素，保证全部语料的最终标注类别所依赖的标准是统一的。

在另一个实施例中，步骤S1至步骤S6还可以重复执行。即在对全部语料进行过一次完整的校正之后，执行步骤S7：将校正后的类别作为语料的初始标注类别，并在满足终止条件前重复执行步骤S1至步骤S6。其中，在每一次执行步骤S1的时候，n的取值可以是不同的。例如在第二次执行步骤S1时，将全部语料分为5份，其中1份作为校验语料，其余4份作为训练语料。可以理解，在每一次执行步骤S1时，n的取值相同还是不同，并不对本发明的效果产生影响。

上述的终止条件，可以是以下任意一种：

一、方法的执行时间达到了预设值，例如设定方法的执行时间不能超过1分钟。

二、步骤S1至步骤S6的重复执行次数达到了预设值，例如设定步骤S1至步骤S6的执行次数总共不超过5次。

三、当次重复执行时，需要校正的语料在全部语料中所占比例低于预设值。例如设定当次重复执行时，标注类别与上次执行时的标注类别之间存在差异的语料（即需要校正的语料）在全部语料中所占比例低于5%时，方法终止执行。

需要说明的是，在本实施例中，执行步骤S6会使得步骤S2至步骤S5重复执行，这种重复实际上是使得一次分割中的每份语料都作为校验语料得以校正，而执行步骤S7会使得步骤S1至步骤S6重复执行，这种重复实际上使得全部语料得以重新分割。通过上述实施例，可以看出，本发明的方法通过不断迭代，最终将趋于收敛，由于全部语料中初始标注类别不合理的语料是少数，因此通过上述方式，本发明实际上实现了从大多数标注合理的语料中自动提取标注逻辑，从而对不合理的语料的标注进行修正的目的，不仅节约了人力成本，提高了标注效率，也大大改善了语料标注的准确性。

请参考图2，图2为本发明中精确的语料类别标注装置的实施例一的结构示意框图。如图2所示，该实施例包括：分割单元201、特征提取单元202、训练单元203、分类单元204、校正单元205和语料选取单元206。

其中，分割单元201，用于将具有初始标注类别的全部语料分为n份，其中1份语料作为校验语料，其余n-1份语料作为训练语料，且n为大于1的正整数。

分割单元201处理的全部语料预先已经被标注，具有初始标注类别。初始标注类别可以是预先通过人工的方式标注的，也可以是由其他标注系统进行预标注的，本发明对此不进行限制。假设文本语料可供标注的类别有：体育和财经，则语料中的每一个样本所具有的初始标注类别，就是这两个类别中的一个。

分割单元201将全部语料任意分为n份，优选的，可以分为n等份，其中n为大于1的正整数。为了便于说明，在后面的描述中，假设n为10。分割单元201将全部语料分为10份，其中1份语料作为校验语料，其余的9份作为训练语料。训练语料是后续用来获取分类模型使用的语料，而校验语料是使用训练语料得到的分类模型进行分类时的输入语料。

特征提取单元202，用于提取训练语料的代表性特征。

具体地，特征提取单元202包括特征选取单元和权重计算单元（图中未示出）。其中特征选取单元，用于采用特征选择算法确定训练语料的代表性特征。权重计算单元，用于计算训练语料的代表性特征对应的权重。

其中，训练语料的代表性特征，指的是训练语料类别区分度最显著的那些特征。特征选取单元对训练语料的每个样本进行分词处理后，所有的分词都是这个样本的候选特征，如果利用所有候选特征构造特征向量，则特征向量的维度太大，因此需要采用特征选取算法从所有候选特征中选取类别区分度最显著的代表性特征。

作为优选的，特征选取单元可采用卡方检验或信息增益的算法从候选特征中选取代表性特征。

下面以卡方检验算法为例说明特征选取单元从候选特征中确定代表性特征的过程。请参考下表：

特征选取单元确定了训练语料的代表性特征后，权重计算单元需要计算训练语料的代表性特征对应的权重。例如特征选取单元2021采用词频的方法计算训练语料中样本1的代表性特征对应的权重为（5，8，1，2），即样本1中“篮球”出现了5次，足球出现了8次，“经济”出现了1次，“发展”出现了2次。

训练单元203，用于对训练语料的代表性特征进行机器学习，以得到分类模型。其中机器学习的过程，就是训练过程。具体地，分类过程可表示用下面公式表示：

C_i=f(T_i)

分类单元204，用于采用分类模型对校验语料进行分类，得到校验语料的二次标注类别。在这个过程中，与前面类似的，也需要先提取校验语料的代表性特征。然后根据上述公式可知，此时的f与T_i已知，因此可以得到C_i，即校验语料中样本的二次标注类别。二次标注类别是相对初始标注类别而言的，其具体值可能与初始标注类别相同，也可能不同。

校正单元205，用于对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正。一种方式是接受人工对差异语料类别的修改进行校正，此外，也可以通过调用第三方系统的校正功能对本发明中的差异语料进行校正，本发明在此不再赘述。例如校验语料存在一样本的初始标注类别是体育，二次标注类别是财经，通过校正后，该样本的类别可能修改为财经类别。

语料选取单元206，用于从n份语料中选取1份未曾校正的语料作为校验语料，其余n-1份语料作为训练语料，并触发特征提取单元202执行。语料选取单元206使训练过程和分类过程得以重复，直到10份语料中的每一份都作为校验语料得到校正。

请参考图3，图3为本发明中精确的语料类别标注装置的实施例二的结构示意框图。在本实施例中，所述标注装置进一步包括迭代单元207，用于将校正后的类别作为语料的初始标注类别，并在满足终止条件前触发分割单元201至语料选取单元206重复执行。其中，分割单元201每次执行的时候，n的取值可以是不同的。例如在分割单元201第二次执行的时候，将全部语料分为5份，其中1份作为校验语料，其余4份作为训练语料。可以理解，分割单元201每一次执行时，n的取值相同还是不同，并不对本发明的效果产生影响。

上述的终止条件，可以是以下任意一种：

一、装置的执行时间达到了预设值，例如设定装置的执行时间不能超过1分钟。

二、分割单元201至语料选取单元206的重复执行次数达到了预设值，例如分割单元201至语料选取单元206的执行次数总共不超过5次。

以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内，所做的任何修改、等同替换、改进等，均应包含在本发明保护的范围之内。

Claims

1.一种精确的语料类别标注方法，包括：

A.将具有初始标注类别的全部语料分为n份，其中1份语料作为校验语料，其余n-1份语料作为训练语料，且n为大于1的正整数；

B.提取训练语料的代表性特征；

C.对训练语料的代表性特征进行机器学习，以得到分类模型；

D.采用所述分类模型对校验语料进行分类，得到校验语料的二次标注类别；

E.对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正；

F.从所述n份语料中选取1份未曾校正的语料作为校验语料，其余n-1份语料作为训练语料，返回所述步骤B。

2.根据权利要求1所述的方法，其特征在于，所述方法在所述步骤F后进一步包括：

将校正后的类别作为语料的初始标注类别，并在满足终止条件前重复执行所述步骤A至所述步骤F。

3.根据权利要求2所述的方法，其特征在于，所述终止条件至少包括以下一种：

所述方法的执行时间达到预设值；或者所述步骤A至所述步骤F的重复执行次数达到预设值；或者当次重复执行时，需要校正的语料在全部语料中所占比例低于预设值。

4.根据权利要求1所述的方法，其特征在于，所述语料为文本语料。

5.根据权利要求1所述的方法，其特征在于，所述步骤B包括：

B1.采用特征选择算法确定训练语料的代表性特征；

B2.计算训练语料的代表性特征对应的权重。

6.一种精确的语料类别标注装置，包括：

分割单元，用于将具有初始标注类别的全部语料分为n份，其中1份语料作为校验语料，其余n-1份语料作为训练语料，且n为大于1的正整数；

特征提取单元，用于提取训练语料的代表性特征；

训练单元，用于对训练语料的代表性特征进行机器学习，以得到分类模型；

分类单元，用于采用所述分类模型对校验语料进行分类，得到校验语料的二次标注类别；

校正单元，用于对二次标注类别与初始标注类别之间存在差异的校验语料的类别进行校正；

语料选取单元，用于从所述n份语料中选取1份未曾校正的语料作为校验语料，其余n-1份语料作为训练语料，并触发所述特征提取单元执行。

7.根据权利要求6所述的装置，其特征在于，所述装置进一步还包括：

迭代单元，用于将校正后的类别作为语料的初始标注类别，并在满足终止条件前触发所述分割单元至所述语料选取单元重复执行。

8.根据权利要求7所述的装置，其特征在于，所述终止条件至少包括以下一种：

所述装置的执行时间达到预设值；或者所述分割单元至所述语料选取单元的重复执行次数达到预设值；或者当次重复执行时，需要校正的语料在全部语料中所占比例低于预设值。

9.根据权利要求6所述的装置，其特征在于，所述语料为文本语料。

10.根据权利要求6所述的装置，其特征在于，所述特征提取单元包括：

特征选取单元，用于采用特征选择算法确定训练语料的代表性特征；

权重计算单元，用于计算训练语料的代表性特征对应的权重。