CN111783518A

CN111783518A - 训练样本生成方法、装置、电子设备及可读存储介质

Info

Publication number: CN111783518A
Application number: CN202010410306.XA
Authority: CN
Inventors: 陈凤娇
Original assignee: Beijing Sankuai Online Technology Co Ltd
Current assignee: Beijing Sankuai Online Technology Co Ltd
Priority date: 2020-05-14
Filing date: 2020-05-14
Publication date: 2020-10-16

Abstract

本申请实施例提供了一种训练样本生成方法、装置、电子设备及可读存储介质，其中，方法包括：根据预设词库对多个未标注语句进行标注，生成多个标注样本，从所述多个标注样本中筛选置信度大于第一预设阈值的多个目标标注样本，针对所述多个标注样本经筛选后剩余的置信度不大于所述第一预设阈值的多个剩余标注样本，输出标注提示，以得到经人工标注后的多个剩余标注样本，将所述经人工标注后的多个剩余标注样本，以及所述多个目标标注样本，确定为预设模型的训练样本，其中，所述预设模型基于所述训练样本经多次训练后成为文本识别模型，本申请实施例在预设词库中文本标注资源较少的情况下也可以引导预设模型向正确的方向学习。

Description

训练样本生成方法、装置、电子设备及可读存储介质

技术领域

本申请实施例涉及计算机技术领域，尤其涉及一种训练样本生成方法、装置、电子设备及可读存储介质。

背景技术

数据驱动的深度学习方法在工业界多项任务(包括文本识别)中取得了很好的效果。随着深度学习技术在工业界落地，缺乏高质量的标注数据逐渐成为提升模型效果的瓶颈。

以文本识别为例，文本识别方法需要针对特定文本类型收集大量的序列标注样本，有监督地训练模型，从而准确识别文本。通用领域(识别人名、地名、机构名)有大量标注数据可用，但是对于某些O2O(Online To Offline，在线离线/线上到线下)或者B2C(Business To Customer，商对客电子商务模式)平台的众多业务场景而言，如外卖、旅游、酒店场景，这些领域中标注数据资源量少，单独为每个领域标注大量训练语料的成本较高，导致基于少量的标注数据而得出的文本识别模型的识别能力不佳。

发明内容

本申请实施例提供一种训练样本生成方法、装置、电子设备及可读存储介质，以向文本识别模型的训练提供大量的训练样本。

本申请实施例第一方面提供了一种训练样本生成方法，所述方法包括：

根据预设词库对多个未标注语句进行标注，生成多个标注样本；

从所述多个标注样本中筛选置信度大于第一预设阈值的多个目标标注样本；

针对所述多个标注样本经筛选后剩余的置信度不大于所述第一预设阈值的多个剩余标注样本，输出标注提示，以得到经人工标注后的多个剩余标注样本；

将所述经人工标注后的多个剩余标注样本，以及所述多个目标标注样本，确定为预设模型的训练样本，其中，所述预设模型基于所述训练样本经多次训练后成为文本识别模型。

可选地，在生成多个标注样本之后，所述方法还包括：

将所述多个标注样本输入强化学习模型，得到所述强化学习模型输出的针对所述多个标注样本各自的奖励分值，一个标注样本的奖励分值表征该标注样本对所述文本识别模型的识别能力的提升程度；

从所述多个标注样本中筛选置信度大于第一预设阈值的多个目标标注样本，包括：

从所述多个标注样本中筛选使所述文本识别模型的识别能力最大化的多个目标标注样本；或

从所述多个标注样本中筛选奖励分值大于预设分值的多个目标标注样本。

可选地，针对所述多个标注样本经筛选后剩余的置信度不大于所述第一预设阈值的多个剩余标注样本，输出标注提示，以得到经人工标注后的多个剩余标注样本，包括：

按照预设采样概率，对所述多个标注样本经筛选后剩余的置信度不大于所述第一预设阈值的多个剩余标注样本进行采样，得到多个目标剩余标注样本；

针对所述多个目标剩余标注样本，输出标注提示，以得到经人工标注后的多个剩余标注样本。

可选地，根据预设词库对多个未标注语句进行标注，生成多个标注样本，包括：

根据文本词典对多个未标注语句进行标注，生成多个文本标注样本；和/或

根据短语词典对多个未标注语句进行标注，生成多个短语标注样本。

可选地，所述方法还包括：

获得预设数量的预先标注的文本标注和短语标注；

以所述预设数量的文本标注和短语标注为训练样本，对初始模型进行训练，得到所述预设模型；

在将所述多个预先标注的标注样本，以及所述多个目标标注样本，确定为预设模型的训练样本之后，所述方法还包括：

将多组所述预设模型的训练样本输入所述预设模型进行多次训练，直到满足预设条件，得到文本识别模型，其中，所述预设条件为训练次数达到预设次数，或识别准确率达到预设准确率。

可选地，在得到文本识别模型之后，所述方法还包括：

将待识别语句输入所述文本识别模型进行识别，得到所述待识别语句中的文本和对应的置信度；

将识别出的置信度大于第二预设阈值的文本和/或出现频率大于预设频率的文本添加到所述预设词库中。

可选地，在得到所述待识别语句中的文本和对应的置信度之后，所述方法还包括：

根据识别出的置信度大于第二预设阈值的文本，生成文本标注样本；

将生成的文本标注样本作为标注样本，返回步骤：从所述多个标注样本中筛选置信度大于第一预设阈值的多个目标标注样本，对所述文本识别模型进行更新。

本申请实施例第二方面提供一种训练样本生成装置，所述装置包括：

第一生成模块，用于根据预设词库对多个未标注语句进行标注，生成多个标注样本；

筛选模块，用于从所述多个标注样本中筛选置信度大于第一预设阈值的多个目标标注样本；

输出模块，用于针对所述多个标注样本经筛选后剩余的置信度不大于所述第一预设阈值的多个剩余标注样本，输出标注提示，以得到经人工标注后的多个剩余标注样本；

确定模块，用于将所述经人工标注后的多个剩余标注样本，以及所述多个目标标注样本，确定为预设模型的训练样本，其中，所述预设模型基于所述训练样本经多次训练后成为文本识别模型。

可选地，所述装置还包括：

第一获得模块，用于将所述多个标注样本输入强化学习模型，得到所述强化学习模型输出的针对所述多个标注样本各自的奖励分值，一个标注样本的奖励分值表征该标注样本对所述文本识别模型的识别能力的提升程度；

所述筛选模块，包括：

筛选子模块，用于从所述多个标注样本中筛选使所述文本识别模型的识别能力最大化的多个目标标注样本；或

用于从所述多个标注样本中筛选奖励分值大于预设分值的多个目标标注样本。

可选地，所述输出模块，包括：

采样子模块，用于按照预设采样概率，对所述多个标注样本经筛选后剩余的置信度不大于所述第一预设阈值的多个剩余标注样本进行采样，得到多个目标剩余标注样本；

输出子模块，用于针对所述多个目标剩余标注样本，输出标注提示，以得到经人工标注后的多个剩余标注样本。

可选地，所述第一生成模块，包括：

生成子模块，用于根据文本词典对多个未标注语句进行标注，生成多个文本标注样本；和/或根据短语词典对多个未标注语句进行标注，生成多个短语标注样本。

可选地，所述装置还包括：

第二获得模块，用于获得预设数量的预先标注的文本标注和短语标注；

第一训练模块，用于以所述预设数量的文本标注和短语标注为训练样本，对初始模型进行训练，得到所述预设模型；

第二训练模块，用于将多组所述预设模型的训练样本输入所述预设模型进行多次训练，直到满足预设条件，得到文本识别模型，其中，所述预设条件为训练次数达到预设次数，或识别准确率达到预设准确率。

可选地，所述装置包括：

识别模块，用于将待识别语句输入所述文本识别模型进行识别，得到所述待识别语句中的文本和对应的置信度；

添加模块，用于将识别出的置信度大于第二预设阈值的文本和/或出现频率大于预设频率的文本添加到所述预设词库中。

可选地，所述装置还包括：

第二生成模块，用于根据识别出的置信度大于第二预设阈值的文本，生成文本标注样本；

更新模块，用于将生成的文本标注样本作为标注样本，返回步骤：从所述多个标注样本中筛选置信度大于第一预设阈值的多个目标标注样本，对所述文本识别模型进行更新。

本申请实施例第三方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请第一方面所述的方法中的步骤。

本申请实施例第四方面提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请第一方面所述的方法的步骤。

采用本申请实施例提供的训练样本生成方法，利用预设词库对多个未标注语句进行标注，扩充标注样本，再结合置信度筛选标注样本中的优质样本以及通过主动学习标注筛选剩余的低质样本，从而获得准确标注的训练样本，降低预设模型训练过程中低质样本的影响，使得在预设词库中文本标注资源较少的情况下也可以引导预设模型向正确的方向学习，并且，本申请提出的是面向样本的通用文本识别框架，可以广泛应用于多种文本识别模型。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例的描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提出的训练样本生成方法的流程图；

图2是本申请另一实施例提出的训练样本生成方法的流程图；

图3是本申请一实施例提供的训练样本生成方法的流程框图；

图4是本申请一实施例提出的训练样本生成装置的示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

文本识别是信息提取任务，旨在语句中识别预先定义的文本词，例如商家、商品、规格、数量等。不同于短语抽取，该任务在抽取的基础上还需判断所属类型。文本识别是搜索业务的基础，广泛应用于各类搜索场景下的意图识别，查询改写，召回和排序等多项任务中。

在文本识别时，文本识别方法需要针对特定文本类型收集大量的序列标注样本，有监督地训练模型，从而准确识别文本。但是对于某些O2O或者B2C平台的众多业务场景而言，如外卖、旅游、酒店场景，这些领域中标注数据资源量少。导致基于少量的标注数据(即少资源)而得出的文本识别模型的识别能力不佳。

本申请发明人针对少资源的文本识别场景，提出将远程监督、强化学习以及主动学习融合到训练样本生成的过程中，以生成大量的训练样本，并用于文本识别模型的训练，从而提高文本识别模型的识别能力这一技术方案。

参考图1，图1是本申请一实施例提出的训练样本生成方法的流程图。如图1所示，该方法包括以下步骤：

步骤S11：根据预设词库对多个未标注语句进行标注，生成多个标注样本。

本实施例中，预设词库中包括一些经过标注的样本，这些经过标注的样本可以来自于人工标注或者在业务过程中收集的，数量不必太大，例如，“西瓜”可以人工标注为水果，“半个”可以人工标注为量词。未标注语句指的是需要进行标注处理的语句，例如来自餐饮场景下的“来半个西瓜带勺”。

因此，可以利用预设词库，通过将预设词库中的经过标注的样本与获取到的未标注语句进行匹配，便可以对多个未标注的样本进行标注，从而生成多个标注样本。沿用上述示例，对未标注语句“来半个西瓜带勺”进行标注，可以生成标注样本“半个”、“西瓜”。

考虑到在实际中，有的样本可能仅标注了边界，并未标注类型，有的样本既标注了边界，也标注了类型，因此，在一种实施方式中，预设词库中可以包括文本和短语，对于短语，仅标注了边界，边界用于与其他短语分隔，例如，对于木瓜，仅能将木瓜与其他短语分隔开，但是并未标注木瓜属于水果类；而对于文本，则标注了边界和类型，例如上述示例中的西瓜，既能将西瓜与木瓜分隔开，还能知道西瓜是属于水果类。

可选地，预设词库内可以设置文本词典和短语词典，分别用于存储标注的文本样本和标注的短语样本，短语词典可以来自于业务过程中收集的业务词典，如此，上述步骤S11具体可以包括：根据文本词典对多个未标注语句进行标注，生成多个文本标注样本；和/或根据短语词典对多个未标注语句进行标注，生成多个短语标注样本。

本实施例中，如果预设词库内的样本全部为文本标注，那么可以将文本词典中的文本与多个未标注语句进行匹配，生成多个文本标注样本，提高模型对专有名词的识别能力；如果预设词库内的样本全部为短语标注，那么可以将短语词典中的短语与多个未标注语句进行匹配，生成多个短语标注样本，同样可以提高模型对专有名词的识别能力；如果预设词库内的样本既有文本又有短语，可以将文本词典中的文本与多个未标注语句进行匹配，以及将短语词典中的短语与多个未标注语句进行匹配，同样可以提高模型对专有名词的识别能力，因此，本实施例的训练样本生成方法的适用范围广泛。

步骤S12：从所述多个标注样本中筛选置信度大于第一预设阈值的多个目标标注样本。

步骤S13：针对所述多个标注样本经筛选后剩余的置信度不大于所述第一预设阈值的多个剩余标注样本，输出标注提示，以得到经人工标注后的多个剩余标注样本。

本实施例中，第一预设阈值是判断优质标注样本和低质标注样本的标准，如果某个标注样本的置信度大于第一预设阈值，则判定其为优质样本，优质样本携带的标注可以认为是正确标注，因而可以筛选出来作为目标标注样本。

本实施例中，标注提示用于提示用户对剩余标注样本进行人工标注，经过人工标注的剩余标注样本，其标注的准确性高。在将目标标注样本筛选出来之后，剩余的一些标注样本的置信度均不大于第一预设阈值，则可以判断其为低质样本，低质样本可以由人工进行标注，因此，可以针对多个剩余标注样本，输出标注提示，这样，用户便可以对具有标注提示的剩余样本进行人工标注，以得到经人工标注后的多个剩余标注样本，对剩余的低质的标注样本进行人工标注可以对模型提供正确的引导，提高训练样本的准确性与稳定性。

其中，第一预设阈值可以是用户根据经验进行设定的，例如第一预设阈值可以设定为0.9，也可以是根据分数分布设定，分数可以来源于具有输出置信度功能的模型，或者具有打分功能的模型。

此外，第一预设阈值可以不由人工设定，而是通过强化学习模型最大化文本识别模型识别能力，自动筛选有效目标标注，此时，第一预设阈值即为0。

在上述步骤S13中，在得到经人工标注后的多个剩余标注样本时，考虑到低质样本的数量可能很大，如果用户对所有低质样本均输出标注提示，进行人工标注的话，人工标注工作量大。

基于上述情况，在执行步骤S13时，可以具体执行以下子步骤：

步骤S13-1：按照预设采样概率，对所述多个标注样本经筛选后剩余的置信度不大于所述第一预设阈值的多个剩余标注样本进行采样，得到多个目标剩余标注样本。

步骤S13-2：针对所述多个目标剩余标注样本，输出标注提示，以得到经人工标注后的多个剩余标注样本。

由于预设词库的标注的样本数量不大，且为了保证准确率，第一预设阈值可能是一个较大的数值，因此导致经筛选后剩余的置信度不大于所述第一预设阈值的多个剩余标注样本数量相对较大，如果全部都取出进行人工标注的话，人工标注量大，因此，可以对多个剩余标注样本按照预设采样概率进行随机采样，例如采样概率为10％，则表示从剩余标注样本中随机选取10％，输出标注提示，进行人工标注，另外的90％则不输出标注提示，不进行人工标注。

如此，只随机选择少部分进行人工标注，可以减少人工标注工作量。

此外，在采样时，还可以有选择地进行人工标注。本申请实施例中的进行人工标注时，人工针对性地选择某个领域预设数量的低质样本，如此，可以使得文本识别模型在某个领域或某些领域的识别能力较强。

步骤S14：将所述经人工标注后的多个剩余标注样本，以及所述多个目标标注样本，确定为预设模型的训练样本。

其中，所述预设模型基于所述训练样本经多次训练后成为文本识别模型。

本实施例中，多个目标标注样本以及经人工标注后的多个剩余标注样本，其标注准确性高，可以认为其携带的标注为正确标注，因此，在得到一组经人工标注后的多个剩余标注样本以及多个目标标注样本之后，便可以将其作为训练样本，用于训练预设模型。但是通常情况下，文本识别模型需要进行多次训练才能得到稳定的文本识别效果，为了提高文本识别模型对于文本的识别效果，可以利用多组训练样本对预设模型进行多次训练，从而得到稳定高质量的文本识别模型。

本申请实施例中，利用预设词库对多个未标注语句进行标注，扩充标注样本，再结合置信度筛选标注样本中的优质样本以及通过主动学习标注筛选剩余的低质样本，从而获得准确标注的训练样本，降低预设模型训练过程中低质样本的影响，使得在预设词库中文本标注资源较少的情况下也可以引导预设模型向正确的方向学习。

本申请中，在一种实施方式中，为了提高文本识别模型训练过程的稳定性，预设模型可以是经过少量现有训练样本预训练得到的模型。参考图2，图2是本申请实施例提出的另一种训练样本生成模型，如图2所示，本申请的训练样本生成方法还可以包括以下步骤：

步骤S10-1：获得预设数量的预先标注的文本标注和短语标注。

步骤S10-2：以所述预设数量的文本标注和短语标注为训练样本，对初始模型进行训练，得到所述预设模型。

本实施例中，预先标注的文本标注和短语标注同样也可以是人工对文本进行标注后获得的，也可以是在业务过程中收集的，预先标注的文本标注和短语标注与预设词库中的经过标注的样本不同。在对初始模型进行训练时，文本标注和短语标注属于不同类型的训练样本，因此，可以先对短语标注进行改造，即将短语作为任意类别的文本。

通过执行上述步骤S10-1和步骤S10-2，以初始模型为起点，可以有效提高文本识别模型训练过程的稳定性。

继续参考图2，本申请的训练样本生成方法还可以包括以下步骤：

步骤S14-1：将多组所述预设模型的训练样本输入所述预设模型进行多次训练，直到满足预设条件，得到文本识别模型。

其中，所述预设条件为训练次数达到预设次数，或识别准确率达到预设准确率。

本实施例中，可以将多组训练样本依次输入预设模型，对预设模型进行多次训练，直到满足预先设置的预设条件，例如，预设条件可以为训练次数达到预设次数，例如，可以设定预设次数为1000次，即进行1000次迭代训练之后，认为预设模型对于文本的识别能力较强，可以得到文本识别模型；另外，预设条件还可以为预设模型的识别准确率达到预设准确率，例如95％，模型识别准确率要达到100％是非常困难的，因此，可以认为预设模型的识别准确率达到95％，可以得到文本识别模型。

结合以上实施例，继续参考图2，在一种实施方式中，在步骤S11之后，还可以执行以下步骤：

步骤S15：将所述多个标注样本输入强化学习模型，得到所述强化学习模型输出的针对所述多个标注样本各自的奖励分值。

其中，一个标注样本的奖励分值表征该标注样本对文本识别模型的识别能力的提升程度，间接反映该标注样本携带的标注与该标注样本的标准标注的接近程度。

本实施例中，标注样本的奖励分值表征该标注样本携带的标注与该标注样本的标准标注的接近程度。可以利用强化学习模型生成的文本表达向量和序列预测分数作为t时刻的状态St，将状态St通过多层前向网络(MLP)计算挑选每个样本的策略分Pt，将序列预测分数作为奖励分Rt，结合策略分Pt和奖励分Rt选择是否挑选该样本。其中，可以采用任一现有的方法结合策略分Pt和奖励分Rt选择是否挑选该标注样本。

继续参考图2，基于上述步骤S15，在一种实施方式中，步骤S12具体可以包括以下子步骤：

步骤S12-1：从所述多个标注样本中筛选使所述文本识别模型的识别能力最大化的多个目标标注样本；或

本实施例中，只采用奖励分来从多个标注样本中挑选目标标注样本，如果某个标注样本的奖励分大于预设分值，认为该标注样本携带的标注与该标注样本的标准标注非常接近，可以认为是正确标注，选择该标注为目标标注样本。

在一种实施方式中，可以使用上述强化学习中的奖励分R作为质量分，根据1-R对生成的样本进行采样，从而多采样低质样本。

此外，在一种实施方式中，考虑到只采用奖励分来从多个标注样本中挑选目标标注样本之后，同样可能存在剩余标注样本的数量大，如果用户对所有剩余标注样本均输出标注提示，进行人工标注的话，人工标注工作量大，为了降低人工标注工作量，在得到目标标注样本之后，同样可以按照预设采样概率进行采样，具体地，在采样时，可以对不大于预设分值的标注样本划分数段进行采样，示例地，假设预设分值为0.9，可以划分三个分数段，0-0.3,0.3-0.6,0.6-0.9，在采样时，可以分别在每个分数段采样一定数量的目标剩余标注样本。在每个分数段采样一定数量的目标剩余标注样本时，具体又可以每个分数段采样数量相同，例如，每个分数段都采集30个，也可以根据预设比例对每个分数段进行采样，例如0-0.3分数段采集60个,0.3-0.6分数段采集20个,0.6-0.9分数段采集10个。

需要注意的是，不管是哪种采样方式，对于标注过的样本，均不会在下一轮迭代时再被采样。

如此，在采集目标剩余标注样本时，可以同时兼顾不同的分数段，经由人工标注后可以提高训练样本准确性。

结合以上实施例，在本申请一种实施方式中，在得到文本识别模型之后，便可以应用文本识别模型对待识别语句进行文本识别，具体可以包括以下步骤：

步骤S16：将待识别语句输入所述文本识别模型进行识别，得到所述待识别语句中的文本和对应的置信度。

步骤S17：将识别出的置信度大于第二预设阈值的文本和/或出现频率大于预设频率的文本添加到所述预设词库中。

本实施例中，待识别语句是一段需要进行文本识别的语句，可以是步骤S11中使用的未标注语句。由于文本识别模型经过多轮训练之后具有一定的文本识别功能，因此，将待识别语句输入文本识别模型之后，可以得到识别结果，即文本识别模型可以预测得到待识别语句中的文本和对应的置信度，根据文本识别模型的识别结果，选取置信度大于第二预设阈值的文本和/或出现频率大于预设频率的文本，添加到预设词库的文本词典中。

示例地，假设待识别语句为“来半个西瓜带勺”，将待识别语句输入训练之后的文本识别模型，文本识别模型可以给出“勺”标注为餐具的置信度，假设置信度为0.98，选取的第二预设阈值为0.95，此时“勺”标注为餐具的置信度大于第二预设阈值，可以将勺标注为餐具，作为文本加入预设词库。

如此，可以利用训练好的文本识别模型对待识别语句进行识别，进而扩充预设词库和文本词典。因此，本申请实施例不仅能够得到文本识别模型，还能够不断地扩充文本词典，方便用于其他信息检索业务。

此外，在执行上述步骤S17之后，还可以执行以下步骤：

步骤S18-1：根据识别出的置信度大于第二预设阈值的文本，生成文本标注样本；

步骤S18-2：将生成的文本标注样本作为标注样本，返回步骤：从所述多个标注样本中筛选置信度大于第一预设阈值的多个目标标注样本，对所述文本识别模型进行更新。

本实施例中，可以利用识别出的置信度大于第二预设阈值的文本以及预设词库继续匹配未标注语句，同样地，未标注语句也可以是步骤S11中使用的未标注语句，这样可以生成文本标注样本，接着再将生成的文本标注样本作为标注样本，对文本识别模型进行迭代更新，优化文本识别模型的识别能力，如此，可以生成新一轮的文本标注样本，进而扩大下一轮生成样本的覆盖能力，能够解决现有的方法面对的样本少、样本质量低、训练不稳定的问题。

由于文本识别是搜索业务的基础，因此，在得到文本识别模型之后，可以将文本识别模型应用于多种业务。

在一种实施方式中，在得到文本识别模型之后,具体还可以包括以下步骤：

步骤S14-2A，通过所述文本识别模型对目标语句进行识别，得到所述目标语句与多个携带标签的文本的比对结果；

步骤S14-2B，根据所述比对结果，对所述目标语句标记预设标签或，确定所述目标语句所述的类别。

本实施例中，可以将目标语句输入文本识别模型，通过文本识别模型对目标语句进行识别，识别出目标语句包含的文本，接着再将识别出的文本与携带标签的文本进行比对，若比对结果表明识别出的文本与携带标签的文本相似度较大，则将携带的标签作为目标语句的标签，或者将目标语句与携带标签的文本聚为一类。

可见，本实施例可以应用于对目标语句打标签或者对目标语句聚类。

在另一种实施方式中，在得到文本识别模型之后,具体还可以包括以下步骤：

步骤S14-3A，获得搜索请求，通过所述文本识别模型，提取所述搜索请求包括的待搜索文本；

步骤S14-3B，将所述待搜索文本与各个搜索资源进行匹配，得到搜索结果；

步骤S14-3C，按照与所述待搜索文本的关联度由高到低的顺序，输出所述搜索结果。

本实施例中，在获得用户输入的搜索请求后，可以将搜索请求输入文本识别模型，从而提取搜索请求包括的待搜索文本，接着将待搜索文本与各个搜索资源进行匹配，得到搜索结果，最后再按照与待搜索文本的关联度由高到低的顺序，输出所述搜索结果。

示例地，搜索请求为“北京大学”，提取到的待搜索文本为“北京”和“大学”，分别将“北京”和“大学”与搜索资源进行匹配，得到了三个网页“北京大学保安考上研究生”、“北京互联网工作招聘”和“大学生活是什么样的”，其中第一个搜索资源关联度最高，因此，最终可以依次输出“北京大学保安考上研究生”、“北京互联网工作招聘”和“大学生活是什么样的”三个搜索结果。

可见，本实施例可以应用于搜索场景下的召回任务。

在一种实施方式中，考虑到用户输入的搜索请求可能并不是用户真正想要搜索的内容，例如用户对一个新的领域不是特别理解的时候，用户不可能准确的确定自己的搜索请求，只能输入粗略的搜索请求，因此，为了尽可能使得用户获取到自己想要的内容，在上述步骤S14-3B之前，还可以执行步骤：通过所述文本识别模型，确定与所述待搜索文本的关联度大于预设阈值的关联文本。相应地，上述步骤S14-3B具体为：将所述待搜索文本和所述关联文本分别与各个搜索资源进行匹配，得到搜索结果。

本实施例中，在通过文本识别模型提取得到待搜索文本的同时，还可以得到与各个待搜索文本相关联的关联文本，例如，用户输入搜索请求“猪肉包”，文本识别模型提取得到待搜索文本“猪肉”，同时还得到了待搜索文本“猪肉”的关联文本“猪里脊”和“猪排”。

此外，由于得到的关联文本数量可能很大，并且对于一些关联度较小的关联文本没有搜索意义，因此，本实施例中可以对与待搜索文本相关联的关联文本进行筛选，即选择关联度大于预设阈值的关联文本，以降低关联文本的数量，同时也可以筛除掉关联度小于预设阈值的关联文本，提高用户获得搜索请求对应的搜索资源的准确性。

最后，便可以将待搜索文本和筛选后的关联文本分别与各个搜索资源进行匹配，得到搜索结果。

可见，本实施例可以应用于搜索场景下的意图识别。

步骤S14-4A，通过所述文本识别模型，从文本库中挖掘实体.

步骤S14-4A，以挖掘出的实体为节点，构建知识图谱。

本实施例中，可以将语句库中的内容输入文本识别模型，进而从语句库中挖掘出实体，再以挖掘出的实体为节点，构建知识图谱。

可见，本实施例可以应用于知识图谱的构建。

参考图3，示出了本申请一实施例提供的训练样本生成方法的流程框图，在训练样本生成方法实施之前，首先需要进行数据收集准备，即收集少量文本标注，少量文本词典和大量业务词典(即短语词典)，其中短语标注可由文本标注转换得到。如图3所示，在数据收集准备之后，可以执行以下流程：

1、使用少量文本和短语训练初始模型(种子模型)，同时识别文本和短语。

2、通过少量文本词典，匹配未标注语句，生成文本标注样本；通过业务词典，匹配未标注语句，生成短语标注样本，文本标注样本和短语标注样本统称为标注样本。

3、使用强化学习模型从生成的标注样本中挑选优质样本，结合第4步中人工标注样本作为训练样本，继续训练初始模型。

4、根据强化学习过程中对样本的打分，采样低质样本，进行人工标注。

5、根据模型预测结果，取置信度高的文本加入文本词典，重新生成标注样本，进行迭代更新，直到达到迭代次数，或者识别效果提升到瓶颈。

本实施中，针对少资源场景，融合远程监督、强化学习、主动学习等技术，优化现有技术中样本少、质量低、训练不稳定的问题；其次，提出面向样本的通用的文本识别框架，可以广泛应用于多种文本识别模型；最后，在文本识别模型更新过程中可以产生文本词典，可用于其他信息检索业务。

基于同一发明构思，本申请一实施例提供一种训练样本生成装置。参考图4，图4是本申请一实施例提供的训练样本生成装置40的示意图。如图4所示，该装置包括：

第一生成模块41，用于根据预设词库对多个未标注语句进行标注，生成多个标注样本；

筛选模块42，用于从所述多个标注样本中筛选置信度大于第一预设阈值的多个目标标注样本；

输出模块43，用于针对所述多个标注样本经筛选后剩余的置信度不大于所述第一预设阈值的多个剩余标注样本，输出标注提示，以得到经人工标注后的多个剩余标注样本；

确定模块44，用于将所述经人工标注后的多个剩余标注样本，以及所述多个目标标注样本，确定为预设模型的训练样本，其中，所述预设模型基于所述训练样本经多次训练后成为文本识别模型。

可选地，所述装置还包括：

所述筛选模块，包括：

可选地，所述输出模块，包括：

可选地，所述第一生成模块，包括：

可选地，所述装置还包括：

可选地，所述装置包括：

可选地，所述装置还包括：

基于同一发明构思，本申请另一实施例提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本申请上述任一实施例所述的方法中的步骤。

基于同一发明构思，本申请另一实施例提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行时实现本申请上述任一实施例所述的方法中的步骤。

对于装置实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本说明书中的各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似的部分互相参见即可。

本领域内的技术人员应明白，本申请实施例的实施例可提供为方法、装置、或计算机程序产品。因此，本申请实施例可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本申请实施例可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

本申请实施例是参照根据本申请实施例的方法、终端设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理终端设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理终端设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理终端设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理终端设备上，使得在计算机或其他可编程终端设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程终端设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本申请实施例的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个文本或者操作与另一个文本或操作区分开来，而不一定要求或者暗示这些文本或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。

以上对本申请所提供的一种训练样本生成方法、装置、存储介质和电子设备，进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种训练样本生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，在生成多个标注样本之后，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，针对所述多个标注样本经筛选后剩余的置信度不大于所述第一预设阈值的多个剩余标注样本，输出标注提示，以得到经人工标注后的多个剩余标注样本，包括：

4.根据权利要求1-3任一所述的方法，其特征在于，根据预设词库对多个未标注语句进行标注，生成多个标注样本，包括：

5.根据权利要求1-3任一所述的方法，其特征在于，所述方法还包括：

获得预设数量的预先标注的文本标注和短语标注；

6.根据权利要求5所述的方法，其特征在于，在得到文本识别模型之后，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，在得到所述待识别语句中的文本和对应的置信度之后，所述方法还包括：

8.根据权利要求5所述的方法，其特征在于，在得到文本识别模型之后，所述方法还包括：

通过所述文本识别模型对目标语句进行识别，得到所述目标语句与多个携带标签的文本的比对结果；

根据所述比对结果，对所述目标语句标记预设标签或，确定所述目标语句所述的类别。

9.根据权利要求5所述的方法，其特征在于，在得到文本识别模型之后，所述方法还包括：

获得搜索请求，通过所述文本识别模型，提取所述搜索请求包括的待搜索文本；

将所述待搜索文本与各个搜索资源进行匹配，得到搜索结果；

按照与所述待搜索文本的关联度由高到低的顺序，输出所述搜索结果。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括：

通过所述文本识别模型，确定与所述待搜索文本的关联度大于预设阈值的关联文本；

将所述待搜索文本与各个搜索资源进行匹配，得到搜索结果，包括：

将所述待搜索文本和所述关联文本分别与各个搜索资源进行匹配，得到搜索结果。

11.根据权利要求5所述的方法，其特征在于，在得到文本识别模型之后，所述方法还包括：

通过所述文本识别模型，从语句库中挖掘实体；

以挖掘出的实体为节点，构建知识图谱。

12.一种训练样本生成装置，其特征在于，所述装置包括：

确定模块，用于将所述经人工标注后的多个剩余标注样本，以及所述多个目标标注样本，确定为预设模型的训练样本，其中，所述预设模型基于所述训练样本经多次训练后成为文本文本识别模型。

13.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-11任一所述的方法中的步骤。

14.一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行时实现如权利要求1-11任一所述的方法的步骤。