CN113947086A

CN113947086A - 样本数据生成方法、训练方法、语料生成方法和装置

Info

Publication number: CN113947086A
Application number: CN202111247192.2A
Authority: CN
Inventors: 郑啸; 窦方正; 曹鲁光; 刘苗苗
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Wodong Tianjun Information Technology Co Ltd
Priority date: 2021-10-26
Filing date: 2021-10-26
Publication date: 2022-01-18

Abstract

本公开的实施例公开了样本数据生成方法、语料模型的训练方法、语料生成方法、装置、电子设备和计算机可读介质。该方法的一具体实施方式包括：对获取的中文样本语料库中的样本语料进行分词，根据分词结果得到候选样本词库；对于候选样本词库中的每个候选样本词，给候选样本词中的每个字符标注标签以生成样本标注词，得到样本标注词库，其中，标注的标签包括表征字符在词中位置的位置标签和表征词的属性的属性标签；根据样本标注词库，生成样本标注词组库。该实施方式可以充分利用样本数据中的标签信息，实现小样本数据的数据增强。

Description

样本数据生成方法、训练方法、语料生成方法和装置

技术领域

本公开的实施例涉及计算机技术领域，具体涉及样本数据生成方法、训练方法、语料生成方法和装置。

背景技术

命名实体识别通常是指识别文本中具有特定意义的实体，主要包括人名、地名、机构名、专有名词等。命名实体识别是信息提取、问答系统、句法分析、机器翻译等应用领域的重要基础工具。

众所周知，大量的训练数据一般是深度学习效果的必要保证。模型在大量数据上学习到分布情况，最后才能在测试数据集上实现泛化和推广。然而，现有的命名实体识别数据集的数量和种类往往非常稀缺。这样不仅会影响模型的训练效果，而且人工准备大量的标注数据会费时费力。

此外，目前的中文数据增强主要来源于回译、对抗生成网络和包括同义词替换、随机插入、随机交换、随机删除在内的加噪方法。但是这些方法更适用于翻译和文本分类这类严重依赖上下文语义的任务，不适用命名实体识别(字粒度标注，对噪声更加敏感)，影响识别效果(如准确度较差)。而且这些方法往往需要提供额外的知识库，并且对知识库的覆盖范围也有要求，不适用小样本中文数据的扩充。

发明内容

本公开的内容部分用于以简要的形式介绍构思，这些构思将在后面的具体实施方式部分被详细描述。本公开的内容部分并不旨在标识要求保护的技术方案的关键特征或必要特征，也不旨在用于限制所要求的保护的技术方案的范围。本公开的一些实施例提出了样本数据生成方法、语料模型的训练方法、语料生成方法、装置、电子设备和计算机可读介质，来解决以上背景技术部分提到的技术问题中的一项或多项。

第一方面，本公开的一些实施例提供了一种样本数据生成方法，其中，方法包括：对获取的中文样本语料库中的样本语料进行分词，根据分词结果得到候选样本词库；对于候选样本词库中的每个候选样本词，给候选样本词中的每个字符标注标签以生成样本标注词，得到样本标注词库，其中，标注的标签包括表征字符在词中位置的位置标签和表征词的属性的属性标签；根据样本标注词库，生成样本标注词组库。

在一些实施例中，给候选样本词中的每个字符标注标签之前，方法还包括：确定候选样本词中是否包含预设字符；响应于确定包含，将预设字符修改为目标字符。

在一些实施例中，根据样本标注词库，生成样本标注词组库，包括：将样本标注词库中的各样本标注词进行组合，得到至少一个词组；对于至少一个词组中的每个词组，在词组的起始位置和结束位置分别添加首标识和尾标识以生成样本标注词组，得到样本标注词组库。

在一些实施例中，在词组的起始位置和结束位置分别添加首标识和尾标识以生成样本标注词组之前，方法还包括：确定至少一个词组中是否包含目标词组，其中，目标词组中的各字符的位置标签为预设位置标签；响应于确定包含，去除至少一个词组中的目标词组。

在一些实施例中，根据分词结果得到候选样本词库，包括：从分词结果中筛选出表征预设词意的样本词作为候选样本词，得到候选样本词库。

第二方面，本公开的一些实施例提供了一种样本数据生成装置，其中，装置包括：分词单元，被配置成对获取的中文样本语料库中的样本语料进行分词，根据分词结果得到候选样本词库；标注单元，被配置成对于候选样本词库中的每个候选样本词，给候选样本词中的每个字符标注标签以生成样本标注词，得到样本标注词库，其中，标注的标签包括用于表征字符在词中位置的位置标签和用于表征词的属性的属性标签；样本生成单元，被配置成根据样本标注词库，生成样本标注词组库。

第三方面，本公开的一些实施例提供了一种语料模型的训练方法，其中，方法包括：基于样本标注词组和初始模型，得到预测标注词组，其中，样本标注词组采用上述第一方面中任一实现方式所描述的样本数据生成方法得到；将预测标注词组与样本标注词组进行分析，得到目标函数值；根据目标函数值与预设阈值的比较结果，确定初始模型是否训练完成；响应于确定未训练完成，调整初始模型中的相关参数。

在一些实施例中，初始模型包括基于长短期记忆网络的模型，目标函数值包括相对熵值和困惑度值；以及基于样本标注词组和初始模型，得到预测标注词组，包括：根据样本标注词组生成样本标注词向量；将样本标注词向量输入初始模型，得到预测标注词组。

在一些实施例中，方法还包括：响应于确定训练完成，将初始模型作为语料模型。

第四方面，本公开的一些实施例提供了一种语料模型的训练装置，其中，装置包括：输入单元，被配置成基于样本标注词组和初始模型，得到预测标注词组，其中，样本标注词组采用如权利要求1-5之一的样本数据生成方法得到；分析单元，被配置成将预测标注词组与样本标注词组进行分析，得到目标函数值；确定单元，被配置成根据目标函数值与预设阈值的比较结果，确定初始模型是否训练完成；调整单元，被配置成响应于确定未训练完成，调整初始模型中的相关参数。

第五方面，本公开的一些实施例提供了一种语料生成方法，其中，方法包括：设置语料模型的配置参数，其中，语料模型采用上述第三方面中任一实现方式所描述的训练方法得到，配置参数包括以下至少一项：最大词组长度、随机数种子、批大小；将首标识和样本标注词输入语料模型，生成新的标注词组，得到新的标注词组库，其中，首标识表示词组的起始位置，样本标注词采用上述第一方面中任一实现方式所描述的样本数据生成方法得到。

第六方面，本公开的一些实施例提供了一种语料生成装置，其中，装置包括：设置单元，被配置成设置语料模型的配置参数，其中，语料模型采用上述第三方面中任一实现方式所描述的训练方法得到，配置参数包括以下至少一项：最大词组长度、随机数种子、批大小；语料生成单元，被配置成将首标识和样本标注词输入语料模型，生成新的标注词组，得到新的标注词组库，其中，首标识表示词组的起始位置，样本标注词采用上述第一方面中任一实现方式所描述的样本数据生成方法得到。

第七方面，本公开的一些实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现上述第一方面、第三方面、第五方面中任一实现方式所描述的方法。

第八方面，本公开的一些实施例提供了一种计算机可读介质，其上存储有计算机程序，其中，程序被处理器执行时实现上述第一方面、第三方面、第五方面中任一实现方式所描述的方法。

本公开的上述各个实施例具有如下有益效果：本公开的一些实施例的样本数据生成方法可以对小样本语料数据进行有效地数据增强，尤其适用于中文的命名实体识别数据的增强。具体来说，造成中文的命名实体识别数据增强效果不好的原因在于：大部分数据增强多适用于英文等词粒度的语言。英文中有空格作为词的边界。中文字粒度需要分词。不同分词会出现明显的歧义现象。此外，现有的中文数据增强更适用于依赖上下文语义的任务。而命名实体识别往往需要对字粒度进行标注。基于此，本公开的一些实施例的样本数据生成方法可以对样本数据中每个字符的标签信息进行充分利用，生成细粒度合成数据。即根据样本标注词库生成样本标注词组库，实现中文字粒度上的数据扩展。同时对额外知识库的需求较低。

附图说明

结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，元件和元素不一定按照比例绘制。

图1是本公开的一些实施例可以应用于其中的示例性系统的架构图；

图2是根据本公开的样本数据生成方法的一些实施例的流程图；

图3是根据本公开的样本数据生成装置的一些实施例的结构示意图；

图4是根据本公开的语料模型的训练方法的一些实施例的流程图；

图5是根据本公开的语料模型的训练装置的一些实施例的结构示意图；

图6是根据本公开的语料生成方法的一些实施例的流程图；

图7是根据本公开的一些实施例的语料生成方法的一个应用场景的示意图；

图8是根据本公开的语料生成装置的一些实施例的结构示意图；

图9是适于用来实现本公开的一些实施例的电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例。相反，提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。在不冲突的情况下，本公开中的实施例及实施例中的特征可以相互组合。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面将参考附图并结合实施例来详细说明本公开。

图1示出了可以应用本公开的一些实施例的样本数据生成方法或装置、语料模型的训练方法或装置、语料生成方法或装置的示例性系统架构100。

如图1所示，系统架构100可以包括终端设备101、网络102、数据库服务器103和服务器104、105。网络102可以用以在终端设备101、数据库服务器103和服务器104、105之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备101通过网络102与数据库服务器103和服务器104、105进行交互，以接收或发送消息等。终端设备101上可以安装有各种客户端应用，例如数据采集类应用、模型训练类应用、语料生成类应用、购物类应用、网页浏览器和即时通讯工具等。

这里的终端设备101可以是硬件，也可以是软件。当终端设备101为硬件时，可以是具有显示屏的各种电子设备，包括但不限于智能手机、平板电脑、电子书阅读器、膝上型便携计算机和台式计算机等等。当终端设备101为软件时，可以安装在上述所列举的电子设备中。其可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

数据库服务器103可以是用于存储样本语料、初始模型等数据的服务器。服务器104、105可以是提供各种服务的服务器，例如可以是对终端设备101所安装的应用提供支持的后台服务器。后台服务器在接收到用户发送的生成指令时，可以对从数据库服务器103中获取的样本语料进行处理，并可以将处理结果(如样本标注词组)发送给终端设备101(进行展示)和数据库服务器103(进行存储)。

这里的数据库服务器103和服务器104、105同样可以是硬件，也可以是软件。当数据库服务器103和服务器104、105为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当数据库服务器103和服务器104、105为软件时，可以实现成例如用来提供分布式服务的多个软件或软件模块，也可以实现成单个软件或软件模块。在此不做具体限定。

需要说明的是，本公开的实施例所提供的方法可以由服务器104、105执行，也可以由终端设备101执行。相应地，装置可以设置于服务器104、105中，也可以设置于终端设备101中。在此不做具体限定。

需要说明的是，在服务器104具备数据库服务器103和服务器105的功能的情况下，系统架构100中也可以不设置数据库服务器103和服务器105。

应该理解，图1中的终端设备、网络、服务器和数据库服务器的数目仅仅是示意性的。根据实际需要，可以具有任意数目的终端设备、网络、服务器和数据库服务器。

继续参考图2，示出了根据本公开的样本数据生成方法的一些实施例的流程200。该方法包括以下步骤：

步骤201，对获取的中文样本语料库中的样本语料进行分词，根据分词结果得到候选样本词库。

在一些实施例中，样本数据生成方法的执行主体(例如图1中所示的服务器104或105)可以通过多种方式来获取中文样本语料库。例如，执行主体可以通过有线连接或无线连接的方式，从数据库服务器(例如图1中所示的数据库服务器103)或云端等获取。又例如，执行主体可以直接从本地获取预先存储在其上的中文样本语料库。

在这里，执行主体首先可以利用各种中文分词工具(如结巴分词、语言云等)，对中文样本语料库中的样本语料进行分词处理。接着，根据分词结果，执行主体可以得到候选样本词库。

需要说明的是，上述中文样本语料库可以是任意中文语料库。作为示例，上述语料库可以为中文命名实体(如生鲜商品名称)语料库。此时，执行主体可以将分词得到的样本词作为候选样本词，从而得到候选样本词库。

可选地，在上述语料库为其他(不太合适或不是所需要的)中文语料库时，执行主体还可以从分词结果中筛选出表征预设词意的样本词作为候选样本词，得到候选样本词库。其中，预设词意可以根据实际需求进行设置，如表征命名实体(如生鲜商品)。这样在语料缺乏或不足的情况下，也可以从其他中文样本语料库中选出所需要的样本词，从而扩大候选样本词库的数据量。

步骤202，对于候选样本词库中的每个候选样本词，给候选样本词中的每个字符标注标签以生成样本标注词，得到样本标注词库。

在一些实施例中，基于步骤201得到的候选样本词库，对于其中的每个候选样本词，执行主体可以给该候选样本词中的每个字符标注标签，从而生成样本标注词，得到样本标注词库。其中，标注的标签可以包括表征字符在词中位置的位置标签和表征词的属性的属性标签。

作为示例，执行主体可以以BIOES的形式标注位置标签。B即Begin(开始)，表示词开始的字符；I即Intermediate(中间)，表示词中间的字符；E即End(结尾)，表示词结尾的字符；S即Single(单个)，表示词为单个字符；O即Other(其他)，用于标记无关字符。

可以理解的是，与传统的中文语料数据相比，命名实体数据(尤其是物品/商品名称数据)的数据结构相对简单。因此，为了简化标注过程，提高处理效率，执行主体也可以以BIO的形式标注位置标签。在这里，上述属性标签可以采用数字和/或字母的方式进行标注。如0表示产品(商品)本体；1表示修饰；2表示品牌；LOC表示地点。作为示例，对“珍藏大白菜”采用上述标签标注后，可以得到“B-2珍I-2藏B-0大I-0白I-0菜”或“B2珍I2藏B0大I0白I0菜”标注词。执行主体可以将“B-2珍”或“B2珍”整合起来视为一个字符。

可选地，执行主体也可以利用上述各种中文分词工具，给候选样本词中的每个字符标注标签以生成样本标注词。为了实现标签的统一性，便于提高处理效率，在标注之前，也可以在这些中文分词工具中进行标签设置。或者，根据标签(所需标签与工具中标签)的对应关系，将中文分词工具得到的标注词中的标签修改为所需标签。

在一些应用场景中，在给候选样本词中的每个字符标注标签之前，执行主体可以确定候选样本词中是否包含预设字符。这里的预设字符可以是具体的某些字符，也可以是预设类型(如数字类、字母类)的字符，在这里不限制。若确定包含，则执行主体可以将预设字符修改为目标字符。例如可以将数字改为大写的汉字，或者用统一字符(如N)代替。又例如可以将(某些或所有)字母用符号代替等。这样可以有效地避免词中的字符与标注的标签相冲突，有助于提高执行主体的读取识别效率，也有利于提高处理效率。

进一步地，执行主体还可以确定样本标注词库中是否存在目标样本标注词。其中，目标样本标注词中的各字符的位置标签为预设位置标签。这里的预设位置标签如可以为上述用于标记无关字符的标签O。这样可以进一步提升样本标注词库中数据的质量，即真正所需词的占比。

步骤203，根据样本标注词库，生成样本标注词组库。

在一些实施例中，基于步骤202得到的样本标注词库，执行主体可以生成样本标注词组库。作为示例，执行主体可以将样本标注词库中的各样本标注词进行组合，得到至少一个词组。这里的组合方式并不限制，如可以随机组合。又例如可以依据实体名称库对各样本标注词进行组合。这里的实体名称库可以是网上或云端的，也可以是通过收集创建的。接着，执行主体可以将至少一个词组存储在列表中，或者存储时在词组之间设置空格以区分，从而生成样本标注词组库。这样，在不需要额外知识库的情况下，也可以在小样本中文语料的基础上实现数据扩充，提升数据量。即实现一种低代价细粒度的数据增强方式。

可选地，对于至少一个词组中的每个词组，执行主体可以在该词组的起始位置和结束位置分别添加首标识和尾标识以生成样本标注词组，得到样本标注词组库。这里的首标识和尾标识可以根据实际需求进行设置。例如可以采用通用标识<s>作为首标识，</s>作为尾标识。这样不仅便于大部分用户理解，也降低了标注的复杂程度，有利于提升处理效率。

进一步地，为了在不影响数据量的情况下，更好地提升样本标注词组库的数据质量，在添加首尾标识之前，执行主体还可以确定上述至少一个词组中是否包含目标词组。其中，目标词组中的各字符的位置标签为预设位置标签。若确定包含，则可以去除至少一个词组中的目标词组。进而添加首尾标识，生成样本标注词组库。这样得到的样本数据可以直接应用于电商平台，提高平台的识别准确度。

本公开的一些实施例提供的样本数据生成方法实现了一种低代价细粒度的样本数据增强。具体地，通过对中文样本语料库中的样本语料进行分词、筛选，从而可以得到所需的候选样本词库。接着，通过对候选样本词中的每个字符进行标签标注，可以生成样本标注词。之后，根据得到的样本标注词库，可以生成样本标注词组库。实现了小样本语料数据的有效扩充，尤其适用于中文的命名实体识别数据的扩充。

请参考图3，作为对上述图2所示方法的实现，本公开提供了一种样本数据生成装置的一些实施例，这些装置实施例与图2所示的那些方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图3所示，一些实施例的样本数据生成装置300可以包括：分词单元301，被配置成对获取的中文样本语料库中的样本语料进行分词，根据分词结果得到候选样本词库；标注单元302，被配置成对于候选样本词库中的每个候选样本词，给候选样本词中的每个字符标注标签以生成样本标注词，得到样本标注词库，其中，标注的标签包括用于表征字符在词中位置的位置标签和用于表征词的属性的属性标签；样本生成单元303，被配置成根据样本标注词库，生成样本标注词组库。

在一些实施例中，标注单元302还被配置成确定候选样本词中是否包含预设字符；响应于确定包含，将预设字符修改为目标字符。

在一些实施例中，样本生成单元303进一步被配置成将样本标注词库中的各样本标注词进行组合，得到至少一个词组；对于至少一个词组中的每个词组，在词组的起始位置和结束位置分别添加首标识和尾标识以生成样本标注词组，得到样本标注词组库。

在一些实施例中，样本生成单元303还被配置成确定至少一个词组中是否包含目标词组，其中，目标词组中的各字符的位置标签为预设位置标签；响应于确定包含，去除至少一个词组中的目标词组。

在一些实施例中，分词单元301进一步被配置成从分词结果中筛选出表征预设词意的样本词作为候选样本词，得到候选样本词库。

可以理解的是，该装置300中记载的诸单元与参考图2描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置300及其中包含的单元，在此不再赘述。

继续参考图4，示出了根据本公开的语料模型的训练方法的一些实施例的流程400。该方法包括以下步骤：

步骤401，基于样本标注词组和初始模型，得到预测标注词组。

在一些实施例中，训练方法的执行主体(例如图1中所示的服务器104或105)可以通过有线连接或无线连接的方式来获取样本标注词组。这里的样本标注词组可以是上述图2实施例中所得到的样本标注词组库中的样本标注词组，在此不再赘述。样本标注词组库可以存储在执行主体本地，也可以存储在数据库服务器或其他电子设备上。

在这里，执行主体可以将样本标注词组输入初始模型。初始模型可以输出与输入的样本标注词组相对应的预测标注词组。这里的初始模型可以是能够根据已输入的字符预测当前位置的字符，以及按照时间顺序预测出后续的字符的模型。

作为示例，初始模型可以由两部分组成。样本标注词组输入第一部分。第一部分输出对应的样本标注词向量，以及将输出的样本标注词向量传输给第二部分，即第二部分的输入。第二部分可以输出与样本标注词组相对应的预测标注词组。这里的第一部分可以采用Bert(Bidirectional Encoder Representations from Transformers)模型(一种自编码语言模型)。这样可以提高生成样本标注词向量的准确度。或者，第一部分可以仅采用Bert模型中的Transformer Encoder端(用于将输入文本转换为向量表示)。这样不仅可以提高词向量的准确度，还可以降低结构的复杂性，提高生成效率。

可以理解的是，为了让提高初始模型的训练效率，第一部分可以是预先训练好的。而第二部分可以采用以下至少一种：基于长短期记忆网络(LSTM，Long Short-TermMemory)的模型、时间递归神经网络模型、隐马尔科夫模型(HMM，Hidden Markov Model)。其中，LSTM模型更适合于处理和预测时间序列中间隔和延迟非常长的重要事件，处理效果更好。

可选地，为了简化初始模型结构，提高模型训练效率，初始模型可以不包含上述第一部分。在这种情况下，执行主体可以先根据样本标注词组生成样本标注词向量。如可以使用PyTorch(一个开源的Python机器学习库)自带的nn.embedding()函数(如随机初始化维度为300)或者上述Bert模型生成词向量。之后，可以将样本标注词向量输入初始模型。

需要说明的是，LSTM的内部机制通常是通过输入门、输出门、遗忘门三个门来调节信息流，了解序列中哪些数据需要保留或丢弃，具体如下：

C_t＝z^f*C_t-1+zⁱ*z；

其中，C_t为当前细胞状态；C_t-1为此前细胞状态；z^f为遗忘门；zⁱ和z为输入门中的操作，表示模型的遗忘阶段，对上一节点传进来的输入进行选择性忘记。

h_t＝z₀*tanh(c_t)；

其中，h_t表示当前隐藏状态；z₀表示输出门中前一操作，表示模型的选择记忆阶段，对输入的C_t进行选择记忆。哪些重要则着重记录下来，哪些不重要，则少记一些。

y_t＝σ(W′·h_t)；

其中，y_t表示模型的输出阶段，通过当前隐藏状态h_t的一些变化得到。故可以根据输入的词按时间序列预测出后来的词。σ(·)表示sigmoid函数(S型生长曲线)；W′为模型内部权重。

在训练之前，可以对模型中的一些关键参数进行设置，如'epochs(训练轮数)'：30，'emb_dim(输入词嵌入数据维度)'：300，'rnn_size(节点数)'：512，'dropout(丢弃节点比例)'：0.5，'batch_size(批大小)'：32。

可选地，为了进一步提升模型的生成效果，初始模型的最后也可以设置有线性输出层，以输出当前位置所预测的字符。

步骤402，将预测标注词组与样本标注词组进行分析，得到目标函数值。

在一些实施例中，执行主体可以将预测标注词组与对应的样本标注词组进行分析，得到目标函数值。并且可以将目标函数值与预设阈值进行比较。这里的目标函数可以根据初始模型的类型进行调整。相应的，预设阈值可以根据目标函数的不同而不同。

作为示例，若初始模型为隐马尔科夫模型，为了达到预期的训练学习效果，则目标函数可以采用Baum-Welch算法(一种期望最大化算法(EM，Expectation-Maximum))以及维特比(Reversed Viterbi)算法。

又例如，若初始模型为LSTM模型，则目标函数可以为相对熵(KL散度)和困惑度(Perplexity，PPL)。具体地：

其中，D_KL(p||q)为相对熵值；p(x_i)为真实分布，即样本标注词组；q(x_i)为预测分布，即预测标注词组。相对熵值越接近于1，说明模型拟合效果越好。

其中，PPL(W)为困惑度值；P(w₁w₂…w_N)表示句子(相当于本申请中的词组)概率，句子越好(概率大)，困惑度越小，也就是模型对句子越不困惑；N为句子中所包含词的数量。

步骤403，根据目标函数值与预设阈值的比较结果，确定初始模型是否训练完成。

在一些实施例中，执行主体可以根据两者的比较结果，确定初始模型是否训练完成。例如，若目标函数值大于(或未达到)预设阈值，则说明初始模型未训练完成。此时可以继续执行步骤405。反之，若目标函数值小于或等于(或达到)预设阈值，则说明初始模型训练完成。

可选地，若初始模型训练完成，则执行主体可以将训练完成的初始模型作为语料模型，并对其进行存储。

进一步地，为了避免出现模型无限循环训练的情况，如上述描述可以设置模型的训练轮数。执行主体可以统计初始模型的训练轮数，每训练一遍，训练轮数加1。同时，执行主体可以确定训练轮数是否达到预设置(如30)。在这种情况下，若目标函数值大于(或未达到)预设阈值，且训练轮数未达到预设值，则说明未训练完成。

步骤404，响应于确定未训练完成，调整初始模型中的相关参数。

在一些实施例中，若确定初始模型未训练完成，则执行主体可以调整初始模型中的相关参数。进而对调整后的初始模型继续训练。

本公开的一些实施例提供的训练方法，可以利用上述实施例得到的样本标注词组对初始模型进行训练，从而得到语料模型。由于上述样本标注词组库是经过样本数据生成方法得到的样本数据库，因此这些数据往往都是所需数据(即数据质量更好)，并且数据也进行了有效地扩充(即数据量也能达到一定的要求)。由此可见，通过这些数据训练得到的语料模型更具有针对性，能够达到预期的训练效果。也就是说，该语料模型可以更好地适用于中文的命名实体识别。

进一步参考图5，作为对上述图4所示方法的实现，本公开提供了一种语料模型的训练装置的一些实施例，这些装置实施例与图4所示的那些方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图5所示，一些实施例的训练装置500可以包括：输入单元501，被配置成基于样本标注词组和初始模型，得到预测标注词组，其中，样本标注词组采用上述样本数据生成方法得到；分析单元502，被配置成将预测标注词组与样本标注词组进行分析，得到目标函数值；确定单元503，被配置成根据目标函数值与预设阈值的比较结果，确定初始模型是否训练完成；调整单元504，被配置成响应于确定未训练完成，调整初始模型中的相关参数。

在一些实施例中，初始模型包括基于长短期记忆网络的模型，目标函数值包括相对熵值和困惑度值；以及输入单元501进一步被配置成根据样本标注词组生成样本标注词向量；将样本标注词向量输入初始模型，得到预测标注词组。

在一些实施例中，装置500还包括模型生成单元(图5中未示出)，被配置成响应于确定训练完成，将初始模型作为语料模型。

可以理解的是，该装置500中记载的诸单元与参考图4描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置500及其中包含的单元，在此不再赘述。

请参考图6，示出了根据本公开的语料生成方法的一些实施例的流程600。该方法包括以下步骤：

步骤601，设置语料模型的配置参数。

在一些实施例中，语料生成方法的执行主体(例如图1中所示的服务器104或105)可以对语料模型的配置参数进行初始设置。其中，配置参数可以包括以下至少一项：最大词组长度(max_sent_length)、随机数种子(random seed)、批大小(batch_size)。例如可以将最大词组(句子)长度设置为15，随机种子数设置为3435，批大小设置为100。通过初始参数设置，可以使语料模型后续生成的数据更加符合需求，提高数据质量。这里的语料模型可以是采用图4实施例中所描述的训练方法得到的。

步骤602，将首标识和样本标注词输入语料模型，生成新的标注词组，得到新的标注词组库。

在一些实施例中，执行主体可以将首标识和样本标注词输入语料模型中。进而通过语料模型可以生成新的标注词组。其中，首标识表示词组的起始位置。这里的样本标注词可以是上述图2实施例中所描述的样本标注词库中的样本标注词。也就是说，仅输入词组的首标识，模型便可以从样本标注词库中确定词组开始的字符，从而自动生成新的标注词组。

如图7所示，其示出了本公开的语料生成方法的一个应用场景的示意图。在本应用场景中，用户可以使用终端设备向服务器发送生成指令。其中，生成指令可以包括首标识<s>以及样本标注词库的存储位置。服务器上存储有语料模型。其在接收到生成指令后，可以根据存储位置，如从数据库服务器中获取样本标注词库。服务器可以将首标识<s>和样本标注词库中的样本标注词输入语料模型，从而能够生成新的标注词组库。从图7中可以看出，新的标注词组库中可以包括以下标注词组：<s>B-1现I-1摘B-0西I-0瓜</s><s>B-2袋I-2装B-2麻I-2辣B-0大I-0虾</s><s>B-1正I-1宗B-0黑I-0猪</s>···。这样便实现了原数据的有效扩充。

进一步地，还可以对语料模型的生成效果进行验证。在这里，执行主体可以将样本标注词库与语料模型生成的新的标注词组库进行混合。接着，可以利用Bert模型进行命名实体识别，从而对扩充效果进行评测。评测结果参见下表：

	未扩充	已扩充
			标签0	acc:0.8337-recall:0.8379-f1:0.8358	acc:0.8320-recall:0.8277-f1:0.8298
标签1	acc:0.6512-recall:0.6421-f1:0.6466	acc:0.6620-recall:0.6667-f1:0.6643
			标签2	acc:0.5794-recall:0.4856-f1:0.5284	acc:0.5837-recall:0.4892-f1:0.5323

从上表可以看出，由于标签0产品的数目较大，扩充后几乎无效果。但是对于标签1修饰和标签2品牌，扩充后均有提升。

本公开的一些实施例提供的语料生成方法，通过上述语料模型可以对样本标注词库(原数据)进行有效地扩充。实现了一种新的低代价细粒度的中文数据集扩充方法，能够方便快捷地实现新语料的生成。并且与未扩充的情况相比，在命名实体识别上实现了效果提升。本公开的语料生成方法弥补了传统数据增强方法引入大量噪声、丢失细粒度语义特性的缺点。而且在不需要额外知识库的情况下，提升了合成语料的质量。此外，这种方法也可以对不同类目的数据集进行有效地扩展。如应用于基于商品等实体的各个场景中，从而提升搜索和推荐的精准度。

继续参考图8，作为对上述图6所示方法的实现，本公开提供了一种语料生成装置的一些实施例，这些装置实施例与图6所示的那些方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图8所示，一些实施例的语料生成装置800可以包括：设置单元801，被配置成设置语料模型的配置参数，其中，语料模型采用上述训练方法得到，配置参数包括以下至少一项：最大词组长度、随机数种子、批大小；语料生成单元802，被配置成将首标识和样本标注词输入语料模型，生成新的标注词组，得到新的标注词组库，其中，首标识表示词组的起始位置，样本标注词采用上述样本数据生成方法得到。

可以理解的是，该装置800中记载的诸单元与参考图6描述的方法中的各个步骤相对应。由此，上文针对方法描述的操作、特征以及产生的有益效果同样适用于装置800及其中包含的单元，在此不再赘述。

下面参考图9，其示出了适于用来实现本公开的一些实施例的电子设备(例如图1中的服务器)900的结构示意图。图9示出的电子设备仅仅是一个示例，不应对本公开的实施例的功能和使用范围带来任何限制。

如图9所示，电子设备900可以包括处理装置(例如中央处理器、图形处理器等)901，其可以根据存储在只读存储器(ROM)902中的程序或者从存储装置908加载到随机访问存储器(RAM)903中的程序而执行各种适当的动作和处理。在RAM 903中，还存储有电子设备900操作所需的各种程序和数据。处理装置901、ROM 902以及RAM 903通过总线904彼此相连。输入/输出(I/O)接口905也连接至总线904。

通常，以下装置可以连接至I/O接口905：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置906；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置907；包括例如磁带、硬盘等的存储装置908；以及通信装置909。通信装置909可以允许电子设备900与其他设备进行无线或有线通信以交换数据。虽然图9示出了具有各种装置的电子设备900，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。图9中示出的每个方框可以代表一个装置，也可以根据需要代表多个装置。

特别地，根据本公开的一些实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的一些实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的一些实施例中，该计算机程序可以通过通信装置909从网络上被下载和安装，或者从存储装置908被安装，或者从ROM 902被安装。在该计算机程序被处理装置901执行时，执行本公开的一些实施例的方法中限定的上述功能。

需要说明的是，本公开的一些实施例中记载的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开的一些实施例中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开的一些实施例中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：对获取的中文样本语料库中的样本语料进行分词，根据分词结果得到候选样本词库；对于候选样本词库中的每个候选样本词，给候选样本词中的每个字符标注标签以生成样本标注词，得到样本标注词库，其中，标注的标签包括表征字符在词中位置的位置标签和表征词的属性的属性标签；根据样本标注词库，生成样本标注词组库。

或者，基于样本标注词组和初始模型，得到预测标注词组，其中，样本标注词组采用上述样本数据生成方法得到；将预测标注词组与样本标注词组进行分析，得到目标函数值；根据目标函数值与预设阈值的比较结果，确定初始模型是否训练完成；响应于确定未训练完成，调整初始模型中的相关参数。

再或者，设置语料模型的配置参数，其中，语料模型采用上述训练方法得到，配置参数包括以下至少一项：最大词组长度、随机数种子、批大小；将首标识和样本标注词输入语料模型，生成新的标注词组，得到新的标注词组库，其中，首标识表示词组的起始位置，样本标注词采用上述样本数据生成方法得到。

此外，可以以一种或多种程序设计语言或其组合来编写用于执行本公开的一些实施例的操作的计算机程序代码，程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开的一些实施例中的单元可以通过软件的方式实现，也可以通过硬件的方式来实现。所描述的单元也可以设置在处理器中，例如，可以描述为：一种处理器包括分词单元、标注单元和样本生成单元。或者一种处理器包括输入单元、分析单元、确定单元和调整单元。再或者一种处理器包括设置单元和语料生成单元。其中，这些单元的名称在某种情况下并不构成对该单元本身的限定，例如，分词单元还可以被描述为“对获取的中文样本语料库中的样本语料进行分词的单元”。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

以上描述仅为本公开的一些较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开的实施例中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开的实施例中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

1.一种样本数据生成方法，其中，所述方法包括：

对获取的中文样本语料库中的样本语料进行分词，根据分词结果得到候选样本词库；

对于所述候选样本词库中的每个候选样本词，给所述候选样本词中的每个字符标注标签以生成样本标注词，得到样本标注词库，其中，标注的标签包括表征字符在词中位置的位置标签和表征词的属性的属性标签；

根据所述样本标注词库，生成样本标注词组库。

2.根据权利要求1所述的方法，其中，所述给所述候选样本词中的每个字符标注标签之前，所述方法还包括：

确定所述候选样本词中是否包含预设字符；

响应于确定包含，将所述预设字符修改为目标字符。

3.根据权利要求1所述的方法，其中，所述根据所述样本标注词库，生成样本标注词组库，包括：

将所述样本标注词库中的各样本标注词进行组合，得到至少一个词组；

对于所述至少一个词组中的每个词组，在所述词组的起始位置和结束位置分别添加首标识和尾标识以生成样本标注词组，得到样本标注词组库。

4.根据权利要求3所述的方法，其中，所述在所述词组的起始位置和结束位置分别添加首标识和尾标识以生成样本标注词组之前，所述方法还包括：

确定所述至少一个词组中是否包含目标词组，其中，所述目标词组中的各字符的位置标签为预设位置标签；

响应于确定包含，去除所述至少一个词组中的目标词组。

5.根据权利要求1-4之一所述的方法，其中，所述根据分词结果得到候选样本词库，包括：

从分词结果中筛选出表征预设词意的样本词作为候选样本词，得到候选样本词库。

6.一种样本数据生成装置，其中，所述装置包括：

分词单元，被配置成对获取的中文样本语料库中的样本语料进行分词，根据分词结果得到候选样本词库；

标注单元，被配置成对于所述候选样本词库中的每个候选样本词，给所述候选样本词中的每个字符标注标签以生成样本标注词，得到样本标注词库，其中，标注的标签包括用于表征字符在词中位置的位置标签和用于表征词的属性的属性标签；

样本生成单元，被配置成根据所述样本标注词库，生成样本标注词组库。

7.一种语料模型的训练方法，其中，所述方法包括：

基于样本标注词组和初始模型，得到预测标注词组，其中，所述样本标注词组采用如权利要求1-5之一所述的样本数据生成方法得到；

将所述预测标注词组与所述样本标注词组进行分析，得到目标函数值；

根据所述目标函数值与预设阈值的比较结果，确定所述初始模型是否训练完成；

响应于确定未训练完成，调整所述初始模型中的相关参数。

8.根据权利要求7所述的方法，其中，所述初始模型包括基于长短期记忆网络的模型，所述目标函数值包括相对熵值和困惑度值；以及

所述基于样本标注词组和初始模型，得到预测标注词组，包括：

根据样本标注词组生成样本标注词向量；

将所述样本标注词向量输入初始模型，得到预测标注词组。

9.根据权利要求7或8所述的方法，所述方法还包括：

响应于确定训练完成，将所述初始模型作为语料模型。

10.一种语料模型的训练装置，其中，所述装置包括：

输入单元，被配置成基于样本标注词组和初始模型，得到预测标注词组，其中，所述样本标注词组采用如权利要求1-5之一所述的样本数据生成方法得到；

分析单元，被配置成将所述预测标注词组与所述样本标注词组进行分析，得到目标函数值；

确定单元，被配置成根据所述目标函数值与预设阈值的比较结果，确定所述初始模型是否训练完成；

调整单元，被配置成响应于确定未训练完成，调整所述初始模型中的相关参数。

11.一种语料生成方法，其中，所述方法包括：

设置语料模型的配置参数，其中，所述语料模型采用如权利要求7-9之一所述的训练方法得到，所述配置参数包括以下至少一项：最大词组长度、随机数种子、批大小；

将首标识和样本标注词输入所述语料模型，生成新的标注词组，得到新的标注词组库，其中，所述首标识表示词组的起始位置，所述样本标注词采用如权利要求1-5之一所述的样本数据生成方法得到。

12.一种语料生成装置，其中，所述装置包括：

设置单元，被配置成设置语料模型的配置参数，其中，所述语料模型采用如权利要求7-9之一所述的训练方法得到，所述配置参数包括以下至少一项：最大词组长度、随机数种子、批大小；

语料生成单元，被配置成将首标识和样本标注词输入所述语料模型，生成新的标注词组，得到新的标注词组库，其中，所述首标识表示词组的起始位置，所述样本标注词采用如权利要求1-5之一所述的样本数据生成方法得到。

13.一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-5、7-9、11中任一所述的方法。

14.一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1-5、7-9、11中任一所述的方法。