CN104346406A

CN104346406A - 训练语料扩充装置和训练语料扩充方法

Info

Publication number: CN104346406A
Application number: CN201310344326.1A
Authority: CN
Inventors: 赫亮; 董宁; 叶茂
Original assignee: Peking University Founder Group Co Ltd; Beijing Founder Apabi Technology Co Ltd
Current assignee: New Founder Holdings Development Co ltd; Founder Apabi Technology Ltd
Priority date: 2013-08-08
Filing date: 2013-08-08
Publication date: 2015-02-11
Anticipated expiration: 2033-08-08
Also published as: CN104346406B

Abstract

本发明提供了一种训练语料扩充装置，包括：筛选单元，根据预设的语料筛选条件筛选出初始语料样本；扩充单元，按照所述初始语料样本和扩充策略对被收集的语料进行标识，得到扩充语料样本，以及基于所述扩充语料样本和所述扩充策略再次进行语料扩充。相应地，本发明还提供了一种训练语料扩充方法，通过本发明的技术方案，可以通过自动化的方式对大规模的训练语料进行机器标注，从而大大节省制作大规模训练语料的时间周期和成本，并且可提高标注准确率。

Description

训练语料扩充装置和训练语料扩充方法

技术领域

本发明涉及语料处理技术领域，具体而言，涉及一种训练语料扩充装置和一种训练语料扩充方法。

背景技术

在文本挖掘分类系统中，需要事先采集一定量的观测数据作为样本，用于训练机器学习的模型，在有些应用场景下，例如大规模文本分类系统，需要的样本数据量庞大。

由于大规模文本分类系统需要的训练样本数据量庞大，为了加大数据量，通常采用人工标注的办法进行加工，而人工标注的方法需要相当长的加工周期和巨大的加工成本。

因此需要一种新的语料标注方案，可以通过自动化的方式对大规模的训练语料进行机器标注，从而大大节省制作大规模训练语料的时间周期和成本。

发明内容

本发明正是基于上述问题，提出了一种新的语料标注技术，可以通过自动化的方式对大规模的训练语料进行机器标注，从而大大节省制作大规模训练语料的时间周期和成本。

有鉴于此，本发明提出了一种训练语料扩充装置，包括：筛选单元，根据预设的语料筛选条件筛选出初始语料样本；扩充单元，按照所述初始语料样本和扩充策略对被收集的语料进行标识，得到扩充语料样本，以及基于所述扩充语料样本和所述扩充策略再次进行语料扩充。

在该技术方案中，根据筛选出的初始语料样本，可以对语料进行扩充，从而不需要人工阅读后再一一标注语料，直接可以自动扩充语料，同时，扩充后得到的扩充语料样本可以再次使用扩充策略进行扩充，从而能够基于小量的语料获取大规模的语料，这样大大节省了制作大规模语料的时间周期和成本。

根据本发明的又一方面，还提供了一种训练语料扩充方法，包括：步骤202，根据预设的语料筛选条件筛选出初始语料样本；步骤204，按照所述初始语料样本和扩充策略对被收集的语料进行标识，得到扩充语料样本；步骤206，基于所述扩充语料样本和所述扩充策略再次进行语料扩充。

附图说明

图1示出了根据本发明的实施例的训练语料扩充装置的框图；

图2示出了根据本发明的实施例的训练语料扩充方法的流程图；

图3示出了根据本发明的实施例的训练语料扩充方法的具体流程图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

在详细说明根据本发明的实施例之前，对实施例中涉及的名词做一些简单地解释：

筛选条件，在获取初始语料样本时，可理解为设定的检索条件，例如两个检索关键词组成的检索条件“2008”、“北京奥运”。

初始语料样本，为获得大规模的语料样本首先需要获取初始语料样本并将其作为扩充的基础条件，该初始语料样本可以是根据检索条件检索出的文档集合、语句集合或词集合。

扩充策略，在获取初始语料样本后，需按照一定的扩充策略来获取大量的语料样本，该扩充策略可以是删除错误的语料样本或某特定算法。

图1示出了根据本发明的实施例的训练语料扩充装置的框图。

如图1所示，根据本发明的实施例的训练语料扩充装置100，包括：筛选单元102，根据预设的语料筛选条件筛选出初始语料样本；扩充单元104，按照所述初始语料样本和扩充策略对被收集的语料进行标识，得到扩充语料样本，以及基于所述扩充语料样本和所述扩充策略再次进行语料扩充。

在上述技术方案中，优选地，所述扩充单元104还用于将所述扩充语料样本作为逻辑回归的输入语料，其中所述扩充策略为逻辑回归算法。

在该技术方案中，扩充策略为逻辑回归算法，那么将初始语料样本作为逻辑回归算法的输入，最后可以标识得到扩充语料样本，而得到的扩充语料样本，可以继续作为逻辑回归算法的输入，再得到更多的扩充语料样本，这样不断重复上述步骤，即可得到需求数量的语料。

在上述技术方案中，优选地，所述扩充单元104还用于根据所述扩充语料样本建立语料扩充模型，基于所述语料扩充模型在被收集的语料中进行标识，得到新的扩充语料样本。

在该技术方案中，将扩充语料样本作为逻辑回归算法的输入，这样可以得到语料扩充模型，根据语料扩充模型即可以在被收集的语料中标识出更多的新的扩充语料，而扩充语料样本不同，即逻辑回归算法的输入不同，其输出也必然不同，这样，随着扩充语料样本的变化，得到的新的扩充语料也会有所变化，从而得到更多数量的扩充语料。

在上述技术方案中，优选地，还可以包括：计算单元106，采用贝叶斯算法计算出所述扩充语料样本中每个分类语料样本的准确率和整体样本的准确率；判断单元108，将所述整体样本的准确率与预设准确率进行比较，在所述整体样本的准确率小于所述第一预设准确率时，判定准确率小于第二预设准确率的分类语料样本；所述扩充单元104对准确率小于所述第二预设准确率的分类语料样本中每一子分类语料样本进行重新标识，得到校验后的扩充语料样本。

在该技术方案中，在获取扩充语料样本后，需对该扩充语料样本进行质量验证，若不达标，则对扩充语料样本进行校正，从而可以保证后续获得的大规模语料样本的准确性。扩充语料样本中可能包含不同分类的语料样本，而在每个分类语料样本中，又可能存在多个子分类语料样本（如在扩充语料样本中，可能包含体育、音乐、军事等分类语料样本，而在每个分类语料样本中，如在体育分类语料样本中，又可能包含球类、田径类等子分类语料样本）。因此，为了保证得到的扩充语料的准确率，需要对得到的扩充语料样本进行校验，根据贝叶斯算法计算出每个分类语料样本的准确率和整体样本的准确率，并将其与预设准确度进行比较，判断出哪些扩充语料可以保留，哪些扩充语料应该被删除，并删除需要删除的语料。

在上述技术方案中，优选地，还可以包括：统计单元110，统计所述扩充单元得到的所述扩充语料样本的数量，在所述数量达到预设数量时，停止扩充语料样本。

在该技术方案中，用户可以预设扩充语料样本的数量，例如用户预设数量是1000，那么在扩充语料样本的数量未达到1000时，系统会不断对语料进行扩充，但是当扩充语料样本的数量达到1000时，就会停止扩充，这样，可以自动得到用户需求的数量的扩充语料，而不需要人工进行语料的标注。

图2示出了根据本发明的实施例的训练语料扩充方法的流程图。

如图2所示，根据本发明的实施例的训练语料扩充方法，包括：步骤202，根据预设的语料筛选条件筛选出初始语料样本；步骤204，按照所述初始语料样本和扩充策略对被收集的语料进行标识，得到扩充语料样本；步骤206，基于所述扩充语料样本和所述扩充策略再次进行语料扩充。

在上述技术方案中，优选地，所述步骤206具体包括：所述扩充策略为逻辑回归算法；将所述扩充语料样本作为逻辑回归的输入语料。

在上述技术方案中，优选地，根据所述扩充语料样本建立语料扩充模型，基于所述语料扩充模型在被收集的语料中进行标识，得到新的扩充语料样本。

在上述技术方案中，优选地，所述步骤204还可以包括：采用贝叶斯算法计算出所述扩充语料样本中每个分类语料样本的准确率和整体样本的准确率；将所述整体样本的准确率与预设准确率进行比较，在所述整体样本的准确率小于所述第一预设准确率时，判定准确率小于第二预设准确率的分类语料样本；对准确率小于所述第二预设准确率的分类语料样本中每一子分类语料样本进行重新标识，得到校验后的扩充语料样本。

在该技术方案中，扩充语料样本中可能包含不同分类的语料样本，而在每个分类语料样本中，又可能存在多个子分类语料样本（如在扩充语料样本中，可能包含体育、音乐、军事等分类语料样本，而在每个分类语料样本中，如在体育分类语料样本中，又可能包含球类、田径类等子分类语料样本）。因此，为了保证得到的扩充语料的准确率，需要对得到的扩充语料样本进行校验，根据贝叶斯算法计算出每个分类语料样本的准确率和整体样本的准确率，并将其与预设准确度进行比较，判断出哪些扩充语料可以保留，哪些扩充语料应该被删除，并删除需要删除的语料。

在上述技术方案中，优选地，还包括：步骤208，统计得到的所述扩充语料样本的数量，在所述数量达到预设数量时，停止扩充语料样本。

在该技术方案中，用户可以预设扩充语料样本的数量，比如用户预设数量是1000，那么在扩充语料样本的数量未达到1000时，系统会不断对语料进行扩充，但是当扩充语料样本的数量达到1000时，就会停止扩充，这样，可以自动得到用户需求的数量的扩充语料，而不需要人工进行语料的标注。

图3示出了根据本发明的实施例的训练语料扩充方法的流程图。

如图3所示，根据本发明的实施例的训练语料扩充方法的流程如下：

步骤302，编写规则生成器，提取少量的训练语料。通过编写基本的规则使用文本匹配的办法制作出最初的原始文档集合。规则可以通过编写关键字检索的方式生成，例如同时出现“北京奥运”和“20080808”两个词，就是一个基本规则，这个规则用于判定属于2008年北京奥运会分类的文档。通过编写规则生成器降低人工标注的工作时间和人力成本。

步骤304，对提取的少量的训练语料进行再次判断，剔除错误的训练语料。

对于训练语料的判断，可以使用机器通过判断条件自动判断，当然，如果不放心机器的判断结果，也可以人工进行判断，例如，专业领域的研究人员根据自身的经验和知识判定在上述规则生成的文档是否属于某个分类，如果判定为否，则将文档剔除出此分类。这样可以保证所制作的小规模语料的精确度。

步骤306，使用逻辑回归算法将步骤304得到的训练语料进行处理并得到标识模型。使用逻辑回归算法分类器在小规模训练语料上进行建模，将上述挑选的少量训练语料作为逻辑回归算法分类器的输入，从而输出训练语料的标识模型。

步骤308，利用标识模型在大量的文档中进行标识，得到更多的文档语料集合。

步骤310，使用贝叶斯算法对得到的大规模训练语料进行验证。利用贝叶斯算法的偏歧性，通过计算标识模型测算结果的错误率，可以得到整体模型的错误率以及大规模训练预料中每个分类的准确率。如果某个分类的准确率低于阀值，则说明此分类的文档需要进一步的筛选。

为了保证训练语料的准确性，对训练语料进行验证后，根据验证结果来剔除错误的训练语料。

步骤312，对进行剔除处理后得到的训练语料的数量进行统计，如果训练语料的数量达到预设数量，则将这些训练语料作为规模语料。

如果训练语料的数量未达到预设数量，则继续回到步骤306，使用逻辑回归算法对进验证处理后得到的训练语料进行处理，得到新的标识模型，通过新的标识模型标记更大规模的训练语料。这样重复上述的步骤，直到训练语料的数量达到预设的数量为止。

以上结合附图详细说明了本发明的技术方案，通过本发明的技术方案，能够以较低的成本方便地从电子资源中自动扩充训练语料，提高训练语料的数据规模，并且采用贝叶斯算法对获取的扩充样本进行校验，基于校验后的扩充样本继续进行语料获取，从而提高了所扩充的训练语料的准确率。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质（包括但不限于磁盘存储器、CD-ROM、光学存储器等）上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备（系统）、和计算机程序产品的流程图和／或方框图来描述的。应理解可由计算机程序指令实现流程图和／或方框图中的每一流程和／或方框、以及流程图和／或方框图中的流程和／或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种训练语料扩充装置，其特征在于，包括：

筛选单元，根据预设的语料筛选条件筛选出初始语料样本；

扩充单元，按照所述初始语料样本和扩充策略对被收集的语料进行标识，得到扩充语料样本，以及基于所述扩充语料样本和所述扩充策略再次进行语料扩充。

2.根据权利要求1所述的训练语料扩充装置，其特征在于，所述扩充单元还用于将所述扩充语料样本作为逻辑回归的输入语料，其中所述扩充策略为逻辑回归算法。

3.根据权利要求2所述的训练语料扩充装置，其特征在于，所述扩充单元还用于根据所述扩充语料样本建立语料扩充模型，基于所述语料扩充模型在被收集的语料中进行标识，得到新的扩充语料样本。

4.根据权利要求1所述的训练语料扩充装置，其特征在于，还包括：

计算单元，采用贝叶斯算法计算出所述扩充语料样本中每个分类语料样本的准确率和整体样本的准确率；

判断单元，将所述整体样本的准确率与预设准确率进行比较，在所述整体样本的准确率小于所述第一预设准确率时，判定准确率小于第二预设准确率的分类语料样本；

所述扩充单元对准确率小于所述第二预设准确率的分类语料样本中每一子分类语料样本进行重新标识，得到校验后的扩充语料样本。

5.根据权利要求1至4中任一项所述的训练语料扩充装置，其特征在于，还包括：

统计单元，统计所述扩充单元得到的所述扩充语料样本的数量，在所述数量达到预设数量时，停止扩充语料样本。

6.一种训练语料扩充方法，其特征在于，包括：

步骤202，根据预设的语料筛选条件筛选出初始语料样本；

步骤204，按照所述初始语料样本和扩充策略对被收集的语料进行标识，得到扩充语料样本；

步骤206，基于所述扩充语料样本和所述扩充策略再次进行语料扩充。

7.根据权利要求6所述的训练语料扩充方法，其特征在于，所述步骤206具体包括：

所述扩充策略为逻辑回归算法；

将所述扩充语料样本作为逻辑回归的输入语料。

8.根据权利要求7所述的训练语料扩充方法，其特征在于，根据所述扩充语料样本建立语料扩充模型，基于所述语料扩充模型在被收集的语料中进行标识，得到新的扩充语料样本。

9.根据权利要求6所述的训练语料扩充方法，其特征在于，所述步骤204还包括：

采用贝叶斯算法计算出所述扩充语料样本中每个分类语料样本的准确率和整体样本的准确率；

将所述整体样本的准确率与预设准确率进行比较，在所述整体样本的准确率小于所述第一预设准确率时，判定准确率小于第二预设准确率的分类语料样本；

对准确率小于所述第二预设准确率的分类语料样本中每一子分类语料样本进行重新标识，得到校验后的扩充语料样本。

10.根据权利要求6至9中任一项所述的训练语料扩充方法，其特征在于，还包括：

步骤208，统计得到的所述扩充语料样本的数量，在所述数量达到预设数量时，停止扩充语料样本。