CN113010647A

CN113010647A - 语料处理模型训练方法、装置、存储介质及电子设备

Info

Publication number: CN113010647A
Application number: CN202110356549.4A
Authority: CN
Inventors: 铁瑞雪
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2021-04-01
Filing date: 2021-04-01
Publication date: 2021-06-22

Abstract

本申请实施例公开了语料处理模型训练方法、装置、存储介质及电子设备，上述方法包括为样本语料拼接标签得到拼接结果；对该拼接结果进行切分处理得到对象序列；通过特征提取网络对该对象序列进行特征提取，得到特征信息序列；通过实体识别网络对该特征信息序列进行实体识别，得到实体识别结果序列，该实体识别结果序列中每个实体识别结果表征对应的对象属于预设类目的概率分布，该预设类目包括命名实体类目和分类类目；确定标注路径；根据该实体识别结果序列和该标注路径，调整该特征提取网络和该实体识别网络的参数；根据调整结果得到语料处理模型。本申请实施例可以对模型联合进行命名实体识别训练和分类训练，并且取得较好的训练效果。

Description

语料处理模型训练方法、装置、存储介质及电子设备

技术领域

本申请实施例涉及人工智能领域，尤其涉及语料处理模型训练方法、装置、存储介质及电子设备。

背景技术

命名实体识别和语料分类是自然语言处理领域两大基础任务，为了完成这两种任务，在实际应用场景中往往需要分别训练命名实体识别模型和语料分类模型。命名实体识别模型和语料分类模型可以通过级联形式进行训练，这种级联训练会放大级联误差，并且可能在一定程度上依赖于命名实体识别规则和语料分类规则的堆砌。命名实体识别模型和语料分类模型也可以在共享嵌入层的前提下分别训练，但是这种分别训练无法共享涉及到命名实体识别和语料分类识别的高级语义信息，影响了训练效果。

发明内容

为了避免执行命名实体识别任务和语料分类任务的过程中规则的堆砌，共享涉及到命名实体识别和语料分类的高级语义信息，以及避免由于级联训练产生的级联误差放大的弊端，本申请实施例提供语料处理模型训练方法、装置、存储介质及电子设备。

一方面，本申请实施例提供了一种语料处理模型训练方法，所述方法包括：

为样本语料拼接标签，得到拼接结果；

对所述拼接结果进行切分处理，使得所述样本语料中的每个语料单元对应一个待识别命名实体的对象并且每个所述标签对应一个待分类的对象，根据切分处理结果得到对象序列；

通过特征提取网络对所述对象序列进行特征提取，得到特征信息序列；

通过实体识别网络对所述特征信息序列进行实体识别，得到实体识别结果序列，所述实体识别结果序列中每个实体识别结果表征对应的对象属于预设类目的概率分布，所述预设类目包括命名实体类目和分类类目；

确定所述对象序列中的对象对应的标注类目，得到标注路径；

根据所述实体识别结果序列和所述标注路径，调整所述特征提取网络和所述实体识别网络的参数；

根据调整后的所述特征提取网络和所述实体识别网络，得到所述语料处理模型。

另一方面，本申请实施例提供一种语料处理模型训练装置，所述装置包括：

拼接模块，用于为样本语料拼接标签，得到拼接结果；

切分模块，用于对所述拼接结果进行切分处理，使得所述样本语料中的每个语料单元对应一个待识别命名实体的对象并且每个所述标签对应一个待分类的对象，根据切分处理结果得到对象序列；

特征提取模块，用于通过特征提取网络对所述对象序列进行特征提取，得到特征信息序列；

实体识别模块，用于通过实体识别网络对所述特征信息序列进行实体识别，得到实体识别结果序列，所述实体识别结果序列中每个实体识别结果表征对应的对象属于预设类目的概率分布，所述预设类目包括命名实体类目和分类类目；

标注路径确定模块，用于确定所述对象序列中的对象对应的标注类目，得到标注路径；

训练模块，用于根据所述实体识别结果序列和所述标注路径，调整所述特征提取网络和所述实体识别网络的参数；

语料处理模型确定模块，用于根据调整后的所述特征提取网络和所述实体识别网络，得到所述语料处理模型。

另一方面，本申请实施例提供了一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现上述的一种语料处理模型训练方法。

另一方面，本申请实施例提供了一种电子设备，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现上述的一种语料处理模型训练方法。

本申请实施例提供了语料处理模型训练方法、装置、存储介质及设备。本申请实施例可以对模型进行命名实体识别和分类的联合训练。在训练过程中命名实体识别任务和分类任务可以共享高级语义特征，并且彼此辅助共同优化，使得训练后的语料处理模型不仅可以对语料进行命名实体识别和语料分类，还能够具备较好的命名实体识别准确度以及语料分类准确度。相较于相关技术中级联训练避免了级联误差和规则堆砌，相较于相关技术中的分别训练提升了命名实体识别准确度以及语料分类准确度。

附图说明

为了更清楚地说明本申请实施例或相关技术中的技术方案和优点，下面将对实施例或相关技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种语料处理模型训练方法的流程示意图；

图2是本申请实施例提供的一种神经网络的结构示意图；

图3是本申请实施例提供的BERT模型的基本结构示意图；

图4是本申请实施例提供的BERT模型中的转换模型基本结构示意图；

图5是本申请实施例提供的LSTM层的基本结构示意图；

图6是本申请实施例提供的实体识别结果序列中实体识别结果示意图；

图7是本申请实施例提供的增设标签后实体识别结果示意图；

图8是本申请实施例提供的调整上述特征提取网络和上述实体识别网络的参数的流程示意图；

图9是本申请实施例提供的神经网络参数调整流程示意图；

图10是本申请实施例提供的语料处理模型训练装置框图；

图11是本申请实施例提供的一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请实施例一部分实施例，而不是全部的实施例。基于本申请实施例中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请实施例保护的范围。

需要说明的是，本申请实施例的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请实施例的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

为了使本申请实施例公开的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请实施例进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请实施例，并不用于限定本申请实施例。

以下，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本实施例的描述中，除非另有说明，“多个”的含义是两个或两个以上。为了便于理解本申请实施例上述的技术方案及其产生的技术效果，本申请实施例首先对于相关专业名词进行解释：

人工智能(Artificial Intelligence,AI)：是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。

人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。

命名实体识别(Named Entities Recognition，NER)：是自然语言处理(NaturalLanguage Processing，NLP)的一个基础任务。命名实体识别的目的在于识别语料中人名、地名、组织机构名等命名实体，如从语句中识别出人名、地名、机构名、时间、日期等命名实体。

基于转换模型的双向编码表示模型(Bidirectional Encoder Representationfrom Transformers，BERT)：是一种用于预训练语言表征的模型，在文本语料的基础上训练一个通用的“语言理解”模型，基于通过BERT模型可以辅助执行自然语言处理(NaturalLanguage Processing，NLP)任务。

长短期记忆人工神经网络(LSTM，Long Short-Term Memory)：是一种循环神经网络，适合于捕捉序列前后位置信息以及对序列进行预测。

条件随机场(Conditional Random Fields，CRF)：是一种概率图模型，常用于标注或分析序列资料，如自然语言文字或是生物序列。条件随机场是条件概率分布模型P(Y|X)，表示的是给定一组输入随机变量X的条件下另一组输出随机变量Y的马尔可夫随机场，也就是说CRF的特点是假设输出随机变量构成马尔可夫随机场，条件随机场可被看作是最大熵马尔可夫模型在标注问题上的推广。

为了减少执行命名实体识别任务和语料分类任务的过程中规则的堆砌，共享涉及到命名实体识别和语料分类的高级语义信息，以及避免由于级联训练产生的级联误差放大的弊端，本申请实施例提供一种语料处理模型训练方法。

本申请实施例所提供的方法可能涉及到云技术领域，例如涉及大数据(Big data)领域，本申请实施例提供的方法可以基于大数据进行语料挖掘，根据挖掘到的语料训练语料处理模型。大数据是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。随着云时代的来临，大数据也吸引了越来越多的关注，大数据需要特殊的技术，以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术，包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。

本申请实施例所提供的方法还可以涉及区块链，即本申请实施例提供的方法可以基于区块链实现，或者本申请实施例提供的方法中涉及到的数据可以基于区块链存储，或本申请实施例中提供的方法的执行主体可以位于区块链中。区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层。

区块链底层平台可以包括用户管理、基础服务、智能合约以及运营监控等处理模块。其中，用户管理模块负责所有区块链参与者的身份信息管理，包括维护公私钥生成(账户管理)、密钥管理以及用户真实身份和区块链地址对应关系维护(权限管理)等，并且在授权的情况下，监管和审计某些真实身份的交易情况，提供风险控制的规则配置(风控审计)；基础服务模块部署在所有区块链节点设备上，用来验证业务请求的有效性，并对有效请求完成共识后记录到存储上，对于一个新的业务请求，基础服务先对接口适配解析和鉴权处理(接口适配)，然后通过共识算法将业务信息加密(共识管理)，在加密之后完整一致的传输至共享账本上(网络通信)，并进行记录存储；智能合约模块负责合约的注册发行以及合约触发和合约执行，开发人员可以通过某种编程语言定义合约逻辑，发布到区块链上(合约注册)，根据合约条款的逻辑，调用密钥或者其它的事件触发执行，完成合约逻辑，同时还提供对合约升级注销的功能；运营监控模块主要负责产品发布过程中的部署、配置的修改、合约设置、云适配以及产品运行中的实时状态的可视化输出，例如：告警、监控网络情况、监控节点设备健康状态等。

平台产品服务层提供典型应用的基本能力和实现框架，开发人员可以基于这些基本能力，叠加业务的特性，完成业务逻辑的区块链实现。应用服务层提供基于区块链方案的应用服务给业务参与方进行使用。

本申请实施例可以应用到数据处理设备，该数据处理设备可以是终端设备，终端设备例如可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等，但并不局限于此。该数据处理设备还可以是服务器，该服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云计算服务的云服务器。当然，该数据处理设备可以是终端设备和服务器，即二者配合执行，终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本申请在此不做限制。

以下介绍本申请实施例的一种语料处理模型训练方法，图1示出了本申请实施例提供的一种语料处理模型训练方法的流程示意图，本申请实施例提供了如实施例或流程图上述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或服务器产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)，上述方法可以包括：

S101.为样本语料拼接标签，得到拼接结果。

本申请实施例中样本语料可以为用于训练语料处理模型的语句，示例性的，可以为文本语句。以中文形式的文本语句为例，其由多个字组成，示例性的，样本语料“长江汽车进入破产清算程序”即为一个包括12个字的样本语料。以英文形式的文本语句为例，其可以由多个单词组成，示例性的，样本语料“david is a cute boy”即为一个包括五个单词的样本语料。为了便于后文的处理，在一个可行的实施方式中，可以对于获取到的文本内容进行切分，得到长度小于预设长度阈值的样本语料。

本申请实施例中训练得到的语料处理模型一方面可以为待处理语料的每个语料单元输出对应的命名实体识别结果。本申请实施例中的语料单元为语料模型处理的最小单元，对于中文形式的语料，语料单元可以为字，对于英文形式的语料，语料单元可以为单词。另一方面还可以为待处理语料进行分类输出分类结果，分类结果可以以上述标签为载体输出。

为了训练得到这种语料处理模型，首先需要为样本语料拼接标签，得到拼接结果，基于该拼接结果训练预设的神经网络，将训练后的神经网络作为上述语料处理模型。以“长江汽车进入破产清算程序”为例，通过拼接标签[RL]得到拼接结果“长江汽车进入破产清算程序[RL]”，将该拼接结果输入上述神经网络可以得到每个字对应的命名实体识别结果以及分类结果，该分类结果对应于标签[RL]。

在一个可行的实施例中，可以根据实际需要设置合理数量的标签，本申请实施例中并不限定标签的数量。示例性的，若需要对语料进行二分类，比如，仅仅需要分类出语料是否为负面语料，可以设置一个标签。若需要为语料进行多分类，则需要设置对应的多个标签。比如既需要输出语料的一级类别(比如体育、新闻、财经、娱乐)，又需要输出语料在一级类别下的二级类别，以体育为例，二级类别可以为篮球、棒球、潜水，可以设置两个标签。

S102.对上述拼接结果进行切分处理，使得上述样本语料中的每个语料单元对应一个待识别命名实体的对象并且每个上述标签对应一个待分类的对象，根据切分处理结果得到对象序列。

本申请实施例中对象序列中的各个对象无差别的被上述神经网络处理，得到每个对象对应的实体识别结果，对语料单元对应的对象而言其最终的训练目标是输出其所属的命名实体，对于标签对应的对象而言，其最终的训练目标是输出语料的某个分类结果。

本申请实施例可以基于语料单元以及标签对上述拼接结果进行切分，通过将该拼接结果中的每个语料单元切分出来，得到上述每个语料单元对应的待识别命名实体的对象，通过将该拼接结果中的每个标签切分出来，得到上述每个标签对应的待分类的对象，并根据上述待识别命名实体的对象和上述待分类的对象得到对象序列。示例性的，以前文所述的拼接结果“长江汽车进入破产清算程序[RL]”为例，其包括12个语料单元和1个标签。通过对这一拼接结果进行切分，可以对应得到12个待识别命名实体的对象和1个待分类的对象，最终得到包括13个对象的对象序列。命名实体识别和分类都属于实体识别的下位概念，神经网络无差别对该包括13个对象的对象序列进行实体识别即可得到前12个对象对应的命名实体识别结果和第13个对象对应的分类结果。

S103.通过特征提取网络对上述对象序列进行特征提取，得到特征信息序列。

本申请实施例中特征提取网络可以通过BERT、RoBERTa(A Robustly OptimizedBERT Pretraining Approach，棒优化的双向Transformer编码器)、ELECTRA(EfficientlyLearning anEncoder that Classifies Token Replacements Accurately，高效地学习对令牌替换进行准确分类的编码器)形成，本申请实施例并不限定特征提取网络的具体结构。

请参考图2，其示出了一种神经网络的结构示意图，通过训练该神经网络可以得到语料处理模型。图2中以BERT模型作为特征提取网络，其中Trm表征BERT模型依赖的转换模型(Transformer)。Ei表征各个对象，Ti表征对应的特征提取结果，其中i为小于等于N的整数，N为对象序列的长度。

请参考图3，其示出BERT模型的基本结构示意图，结合图3对于BERT模型进行简单介绍。BERT模型可以对输入的语料进行分字处理，也就是说BERT模型可以以分字结果为单位进行处理，得到每个分字结果对应的特征提取结果。在进行特征提取的过程中，BERT模型可以对分字结果添加额外标记，示例性的，[CLS]表征分类标记，[SEP]表征短句标记。在得到分字结果的基础上，可以进行字特征提取(Token Embeddings)、短句特征提取(SegmentEmbeddings)和位置特征提取(Position Embeddings。以“mydogiscute helikes playing”为输入语料为例，将其逐单词进行分字处理，得到多个“字”，对于每个“字”进行TokenEmbeddings、Segment Embeddings和Position Embeddings，最终得到特征提取结果。本申请实施例中通过切分得到对象序列，BERT模型可以对对象序列中的对象进行特征提取得到对应的特征提取结果。

BERT模型的核心结构为转换模型(Transformer)，请参考图4，其示出了BERT模型中的转换模型基本结构示意图。Transformer是2018年5月提出的一种新的架构，可以替代传统循环神经网络和卷积神经网络，用来进行机器学习。Transformer的结构，分成左侧编码器和右侧解码器，不仅加入了多头注意力(Multi-Head Attention)，其内部还加入自注意力Self-Attention和融合归一化(Add&Norm)，最终通过线性化(Linear)和激活层。其中激活层以Softmax为激活函数。Transformer从不同的维度学到不同的特征，通过基于位置的编码(Positional Encoding)加入位置信息。转换模型可以对于上述输入语料的高阶语义特征进行提取。

在一个实施例中，上述通过特征提取网络对上述对象序列进行特征提取，得到特征信息序列，包括：对上述对象序列中各个对象进行词法特征提取，得到词法特征序列；对上述词法特征序列进行句法特征提取，得到目标特征序列；对上述目标特征序列进项双向语义特征提取，得到上述特征信息序列。具体地，词法特征提取、句法特征提取、双向语义特征提取均可以基于BERT模型实施，从而获得较好的特征提取结果，本申请实施例实施例不做赘述。

S104.通过实体识别网络对上述特征信息序列进行实体识别，得到实体识别结果序列，上述实体识别结果序列中每个实体识别结果表征对应的对象属于预设类目的概率分布，上述预设类目包括命名实体类目和分类类目。

请参考图2，可以由LSTM层和CRF层形成实体识别网络，其中LSTM用于在对上述对象序列进行特征提取，得到特征信息序列的基础上，进一步补充前后序列位置信息，优化实体识别结果。也就是说由LSTM对上述特征信息序列进行序列位置信息提取，由CRF根据提取结果对上述特征信息序列进行条件随机场分析，得到上述实体识别结果序列。在其他可行的实施例中，也可以直接基于CRF对上述特征信息序列进行条件随机场分析，得到上述实体识别结果序列。在LSTM层已经可以输出各对象的初步的预设类目的概率分布，通过CRF层增加转移约束，可以最终得到实体识别网络输出的实体识别结果序列。CRF层可以自行从训练语料中学习转移约束，以确保最终预测的序列的有效性，这部分内容在此不做赘述。

请参考图5，其示出了LSTM层的基本结构示意图。方框表征神经元网络层、圆圈表征某种融合操作，两种名称不同的方框表征其使用了不同的激活函数，图5中的基本结构形成LSTM的遗忘门、输入门和输出门，对此，本申请实施例不做赘述。

请参考图6，其示出了实体识别结果序列中实体识别结果示意图。结合图2可知，对于对象序列中的每个对象(Xi)可以对应输出实体识别结果(Ci),每个实体识别结果表征对应的对象属于预设类目的概率分布，上述预设类目包括命名实体类目和分类类目。以C1为例，其示出了对象属于B-com、I-com……TRUE的概率，其中B-com、I-com属于命名实体类目，具体地B-com表征对象为公司名的首字，I-com表征对象为公司名的非首字。“TRUE”属于分类类目，即样本语料属于某种类型的概率。示例性，在二分类场景，“TRUE”的概率可以表征样本语料属于负面语料的概率。显然，对于每个对象而言，其对应的实体识别结果包括了该对象属于各个命名实体类目的概率以及该对象对应的样本预料属于各个分类类目的概率。仍然以C1为例，其对应的实体识别结果表征该对象为公司名的首字的概率为1.5，该对象为公司名的中间字的概率为0.9，该对象对应的样本预料为负面语料的概率为0.05。在这种场景下训练得到的语料处理模型可以被应用于风险预警领域，负面预料的判定结果可以提示某种风险，比如金融犯罪风险或投资风险。

S105.确定上述对象序列中的对象对应的标注类目，得到标注路径。

根据样本语料得到的拼接结果中每个对象有其对应的标注类目，标注类目作为一种真值用于训练神经网络。以“长江汽车进入破产清算程序[RL]”为例，其对应得到的对象序列为“长”“江”“汽”“车”“进”“入”“破”“产”“清”“算”“程”“序”“RL”，其中每个对象都有其作为真值的标注类目，比如“长”为公司名首字，其标注类目为B-com，“江”为公司中间字，其标注类目为I-com，这条样本语料为负面语料，“RL”对应的标注类目为TRUE。由预设数量个对象对应的标注类目形成的路径可以为一种标注路径。

S106.根据上述实体识别结果序列和上述标注路径，调整上述特征提取网络和上述实体识别网络的参数。

在一个实施例中，可以将实体识别结果序列作为一个整体确定训练目标，根据训练目标调整上述特征提取网络和上述实体识别网络的参数。

具体地，可以确定上述对象序列中每个对象对应的标注类目，得到上述标注路径，其中，对应于语料单元的对象的标注类目为命名实体类目，对应于标签的对象的标注类目为分类类目。示例性的，以对象序列“长”“江”“汽”“车”“进”“入”“破”“产”“清”“算”“程”“序”“RL”为例，该对象序列包括13个对象，则形成了包括13个标注类目的标注路径。

相应的，可以以上述标注路径的概率与第一路径总概率的比值最高为训练目标，调整上述特征提取网络和上述实体识别网络的参数，其中，上述第一路径总概率表征基于上述实体识别结果序列得到的所有可能的路径的概率总和。上述标注路径的概率可以根据所述实体识别结果序列计算得到。

示例性的，若预设类目中命名实体类目包括8种，分类类目包括1种，则预设类目一共有9种。仍然以对象序列“长”“江”“汽”“车”“进”“入”“破”“产”“清”“算”“程”“序”“RL”为例，该对象序列包括13个对象，每个对象的实体识别结果表征了上述9种预设类目的概率分布，也就是说每个对象对应被预测出9种概率，则这13个对象的实体识别结果形成的可能路径就有9的13次方条。在得到上述实体识别结果的基础上每个可能的路径对应的概率以及标注路径对应的概率都是可计算的，这个计算过程在此不做赘述。

对于序列预测类的任务而言，可以以标注路径概率最高为训练目标，示例性的可以以

为训练目标调整上述特征提取网络和上述实体识别网络的参数，其中P_RealPath表示标注路径，∑p_i表示基于上述实体识别结果序列得到的所有可能的路径的概率总和。

本申请实施例中标签对应于分类类目，每个语料单元对应命名实体类目。在一些可能的实施场景中，可能由于标签的数量小于样本预料中语料单元的数量使得神经网络在训练过程中过多的关注了命名实体识别而忽视了对样本语料的分类。示例性的，表1示出了在标签数量小于语料单元数量的场景中模型训练效果示意数据。其中，F1值为模型效果评价领域的一种参数，其含义为F1值＝正确率*召回率*2/(正确率+召回率)。

表1

预设类目	准确度	召回率	F1值
				第一分类类目	54.30％	86.90％	66.84
第二分类类目	57.72％	19.65％	29.32
				第一命名实体类目	98.93％	99.11％	99.02
第二命名实体类目	98.29％	96.02％	97.14
				第三命名实体类目	97.45％	92.85％	95.09
第四命名实体类目	98.75％	97.48％	98.11
				第五命名实体类目	100.00％	98.85％	99.42
第六命名实体类目	99.07％	92.41％	95.62
				第七命名实体类目	100.00％	91.34％	95.48

从表1的结果中可以明显看出，模型对于分类的效果较差而对于命名实体识别的效果较好，这是由于在对对象序列进行实体识别时，标签对应的对象占比过小，相应的，可以通过增加标签的形式进行改善。

在一个实施例中，可以将标签数量调整为与样本语料中语料单元的数量相等，则可以使得模型进行实体识别的时候，同等关注命名实体识别和分类这两个任务，从而使得命名实体识别和分类都可以取得较好的效果。具体地，在前文上述的为样本语料拼接标签，得到拼接结果的步骤中可以获取上述样本语料中的语料单元数量；为上述样本语料拼接上述语料单元数量个标签，得到拼接结果。基于这种拼接结果进行训练可以得到较好的效果。仍然以样本语料“长江汽车进入破产清算程序”为例，其包括12个语料单元，则为其添加12个标签，形成如下拼接结果“长江汽车进入破产清算程序

[RL][RL][RL][RL][RL][RL][RL][RL][RL][RL][RL][RL]”。请参考图7，其示出了增设标签后实体识别结果示意图，显然，“长江汽车进入破产清算程序

[RL][RL][RL][RL][RL][RL][RL][RL][RL][RL][RL][RL]”中的12个语料单元输出12个命名实体识别结果，12个标签可以对应输出12个分类结果。

在一个实施例中，可以确定上述对象序列中对应于上述语料单元的对象所对应的标注类目，得到第一标注路径；确定上述对象序列中对应于上述标签的对象所对应的标注类目，得到第二标注路径。上述第一标注路径和上述第二标注路径均为步骤S105中标准路径的获取结果，即步骤S105中的标准路径可以包括上述第一标准路径和上述第二标准路径。以对象序列为“长”“江”“汽”“车”“进”“入”“破”“产”“清”“算”“程”“序”“RL”为例，前12个对象对应的标注类目形成第一标注路径，最后一个对象的标注类目形成第二标注路径。以对象序列“长”“江”“汽”“车”“进”“入”“破”“产”“清”“算”“程”“序”“RL”“RL”“RL”“RL”“RL”“RL”“RL”“RL”“RL”“RL”“RL”“RL”为例，前12个对象对应的标注类目形成第一标注路径，后12个对象对应的标注类目形成第二标注路径。

相应的，上述根据上述实体识别结果序列和上述标注路径，调整上述特征提取网络和上述实体识别网络的参数，如图8所示，包括：

S1061.在上述实体识别结果序列中提取对应于上述语料单元的对象对应的实体识别结果，得到命名实体预测序列。

以对象序列为“长”“江”“汽”“车”“进”“入”“破”“产”“清”“算”“程”“序”“RL”为例，前12个对象均对应于语料单元，则前12个对象的实体识别结果形成命名实体预测序列。

S1063.根据上述第一标注路径的概率与第二路径总概率的比值确定命名实体识别损失，其中，上述第二路径总概率表征基于上述命名实体预测序列得到的所有可能的路径的概率总和。

请参考前文上述，以对象序列为“长”“江”“汽”“车”“进”“入”“破”“产”“清”“算”“程”“序”“RL”为例，可以知晓命名实体预测序列包括12个对象对应的实体识别结果。若预设类目中命名实体类目包括8种，分类类目包括1种，则预设类目一共有9种，则这12个对象的实体识别结果形成的可能路径就有9的12次方条。在得到上述命名实体预测序列的基础上每个可能的路径对应的概率以及标注路径对应的概率都是可计算的，这个计算过程在此不做赘述。

S1065.对于上述第二标注路径中的每个标注类目，基于上述标注类目对应的对象的实体识别结果和上述标注类目，确定上述标注类目对应的对象的分类损失。

以对象序列为“长”“江”“汽”“车”“进”“入”“破”“产”“清”“算”“程”“序”“RL”为例，第二标注路径的只包括最后一个对象“RL”对应的标注类目，可以根据该标注类目与“RL”实体识别结果之间的差异确定该对象对应的分类损失。同样道理，以对象序列“长”“江”“汽”“车”“进”“入”“破”“产”“清”“算”“程”“序”“RL”“RL”“RL”“RL”“RL”“RL”“RL”“RL”“RL”“RL”“RL”“RL”为例，第二标注路径包括12“RL”对象对应的标注类目，对于每个“RL”对象，可以根据标注类目与该“RL”对应的实体识别结果之间的差异确定该对象对应的分类损失。

S1067.根据上述命名实体识别损失和各上述分类损失，调整上述特征提取网络和上述实体识别网络的参数。

具体地，可以将上述命名实体识别损失和各上述分类损失的加权值确定为总损失值，根据上述总损失值调节上述特征提取网络和上述实体识别网络的参数。本公开实施例中可以根据实际情况对于权值进行设定，并不限定权值的设定方法和具体数值。示例性的，若标签对应的对象在对象序列中的占比较低，相应的可以增加分类损失的权值。

具体地，请参考图9，其示出了神经网络参数调整流程示意图，上述根据上述命名实体识别损失和各上述分类损失调整上述特征提取网络和上述实体识别网络的参数，包括：

S1.确定对应于语料单元的对象的第一数量。

S2.确定对应于标签的对象的第二数量。

S3.根据上述第一数量和上述第二数量，确定上述命名实体识别损失对应的第一权重和上述分类损失对应的第二权重。

通过设置权重可以使得在模型训练过程中较为均衡地关注命名实体识别和语料分类，而不过分厚此薄彼，从而能够使得训练后的模型的在命名实体识别和语料分类上均具有良好表现。示例性的，若第一数量高于第二数量，则可以适当增加分类损失对应的权重。

S4.根据上述述命名实体识别损失、第一权重、分类损失和第二权重确定总损失。

S5.根据上述总损失调节上述特征提取网络和上述实体识别网络的参数。

S107.根据调整后的上述特征提取网络和上述实体识别网络，得到上述语料处理模型。

本申请实施例可以将训练后的特征提取网络和实体识别网络作为语料处理模型，该语料处理模型可以对语料进行处理，从而输出语料中的实体识别结果，并且对于语料进行分类，可以广泛适用于需要进行语料处理的各种应用场景之中。命名实体识别和语料分类是语料处理领域的两大基础任务，本申请实施例中训练得到的语料处理模型可以一并输出命名实体识别结果和语料分类结果，这无疑提升了模型的语料处理能力，并且降低了应用难度。在需要进行语料处理的场景中，只需要部署本申请实施例中的语料处理模型即可一并完成命名实体识别和语料分类。以某条新闻消息为例，将该新闻消息输入该语料处理模型，不仅可以得到该新闻消息包括的命名实体，还可以得到该新闻消息的分类结果，从而便于对新闻消息进行进一步处理。本申请实施例中并不限定语料处理模型的应用场景，示例性的，其可以应用在推荐场景、人机交互场景、风险预警场景和大数据分析场景。

本申请实施例提供的语料处理模型训练方法可以同时对模型进行命名实体识别训练和分类训练。在训练过程中命名实体识别任务和分类任务可以共享高级语义特征，并且彼此辅助共同优化，使得训练后的语料处理模型不仅可以同时对语料进行命名实体识别和语料分类，还能够具备较好的命名实体识别准确度以及语料分类准确度。相较于相关技术中级联训练的方式避免了级联误差和规则堆砌，相较于相关技术中的分别训练提升了命名实体识别准确度以及语料分类准确度。根据上文所述可知，语料处理模型至少包括训练后的特征提取网络和实体识别网络，模型结构较为简单，部署难度也相应的较低，相较于相关技术中需要部署命名实体识别模型和语料分类模型，本申请实施例的部署成本较低，易于推广应用。

本申请实施例还公开了语料处理模型训练装置，如图10所示，上述装置包括：

拼接模块10，用于为样本语料拼接标签，得到拼接结果。

切分模块20，用于对上述拼接结果进行切分处理，使得上述样本语料中的每个语料单元对应一个待识别命名实体的对象并且每个上述标签对应一个待分类的对象，根据切分处理结果得到对象序列。

特征提取模块30，用于通过特征提取网络对上述对象序列进行特征提取，得到特征信息序列。

实体识别模块40，用于通过实体识别网络对上述特征信息序列进行实体识别，得到实体识别结果序列，上述实体识别结果序列中每个实体识别结果表征对应的对象属于预设类目的概率分布，上述预设类目包括命名实体类目和分类类目。

标注路径确定模块50，用于确定上述对象序列中的对象对应的标注类目，得到标注路径。

训练模块60，用于根据上述实体识别结果序列和上述标注路径，调整上述特征提取网络和上述实体识别网络的参数。

语料处理模型确定模块70，用于根据调整后的上述特征提取网络和上述实体识别网络，得到上述语料处理模型。

具体地，本申请实施例公开一种语料处理模型训练装置与上述对应的方法实施例均基于相同发明构思。详情请参见方法实施例，在此不再赘述。

本申请实施例还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述一种语料处理模型训练方法。

本申请实施例还提供了一种计算机可读存储介质，上述计算机可读存储介质可以存储有多条指令。上述指令可以适于由处理器加载并执行本申请实施例上述的一种语料处理模型训练方法。

进一步地，图11示出了一种用于实现本申请实施例所提供的方法的设备的硬件结构示意图，上述设备可以参与构成或包含本申请实施例所提供的装置或系统。如图11所示，设备10可以包括一个或多个(图中采用102a、102b，……，102n来示出)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图11所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，设备10还可包括比图11中所示更多或者更少的组件，或者具有与图11所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到设备10(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中上述的方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种语料处理模型训练方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至设备10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括设备10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与设备10(或移动设备)的用户界面进行交互。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请实施例特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请实施例中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和服务器实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，上述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上上述仅为本申请实施例的较佳实施例，并不用以限制本申请实施例，凡在本申请实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请实施例的保护范围之内。

Claims

1.一种语料处理模型训练方法，其特征在于，所述方法包括：

为样本语料拼接标签，得到拼接结果；

2.根据权利要求1所述的方法，其特征在于，所述确定所述对象序列中的对象对应的标注类目，得到标注路径，包括：

确定所述对象序列中每个对象对应的标注类目，得到所述标注路径，其中，对应于所述语料单元的对象的标注类目为命名实体类目，对应于所述标签的对象的标注类目为分类类目；

所述根据所述实体识别结果序列和所述标注路径，调整所述特征提取网络和所述实体识别网络的参数，包括：

以所述标注路径的概率与第一路径总概率的比值最高为训练目标，调整所述特征提取网络和所述实体识别网络的参数，其中，所述第一路径总概率表征基于所述实体识别结果序列得到的所有可能的路径的概率总和。

3.根据权利要求1所述的方法，其特征在于，所述标注路径包括第一标注路径和第二标注路径，所述确定所述对象序列中的对象对应的标注类目，得到标注路径，包括：

确定所述对象序列中对应于所述语料单元的对象所对应的标注类目，得到所述第一标注路径；

确定所述对象序列中对应于所述标签的对象所对应的标注类目，得到所述第二标注路径；

在所述实体识别结果序列中提取对应于所述语料单元的对象对应的实体识别结果，得到命名实体预测序列；

根据所述第一标注路径的概率与第二路径总概率的比值确定命名实体识别损失，其中，所述第二路径总概率表征基于所述命名实体预测序列得到的所有可能的路径的概率总和；

对于所述第二标注路径中的每个标注类目，基于所述标注类目对应的对象的实体识别结果和所述标注类目，确定所述标注类目对应的对象的分类损失；

根据所述命名实体识别损失和各所述分类损失，调整所述特征提取网络和所述实体识别网络的参数。

4.根据权利要求3所述的方法，其特征在于，所述根据所述命名实体识别损失和各所述分类损失，调整所述特征提取网络和所述实体识别网络的参数，包括：

确定对应于语料单元的对象的第一数量；

确定对应于标签的对象的第二数量；

根据所述第一数量和所述第二数量，确定所述命名实体识别损失对应的第一权重和所述分类损失对应的第二权重；

根据所述命名实体识别损失、第一权重、分类损失和第二权重确定总损失；

根据所述总损失调节所述特征提取网络和所述实体识别网络的参数。

5.根据权利要求1-4中任意一项所述的方法，其特征在于，所述为样本语料拼接标签，得到拼接结果，包括：

获取所述样本语料中的语料单元数量；

为所述样本语料拼接所述语料单元数量个标签，得到所述拼接结果。

6.根据权利要求1-5中任意一项所述的方法，其特征在于，所述通过特征提取网络对所述对象序列进行特征提取，得到特征信息序列，包括：

对所述对象序列中各个对象进行词法特征提取，得到词法特征序列；

对所述词法特征序列进行句法特征提取，得到目标特征序列；

对所述目标特征序列进项双向语义特征提取，得到所述特征信息序列。

7.根据权利要求1-6中任意一项所述的方法，其特征在于，所述通过实体识别网络对所述特征信息序列进行实体识别，得到实体识别结果序列，包括：

在所述实体识别网络中对所述特征信息序列进行条件随机场分析，得到所述实体识别结果序列；

或，

在所述实体识别网络中对所述特征信息序列进行序列位置信息提取；以及根据提取结果对所述特征信息序列进行条件随机场分析，得到所述实体识别结果序列。

8.一种语料处理模型训练装置，其特征在于，所述装置包括：

拼接模块，用于为样本语料拼接标签，得到拼接结果；

9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或至少一段程序由处理器加载并执行以实现如权利要求1至7中任一项所述的一种语料处理模型训练方法。

10.一种电子设备，其特征在于，包括至少一个处理器，以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述至少一个处理器通过执行所述存储器存储的指令实现如权利要求1至7中任一项所述的一种语料处理模型训练方法。