CN114386410B

CN114386410B - 预训练模型的训练方法和文本处理方法

Info

Publication number: CN114386410B
Application number: CN202210027151.0A
Authority: CN
Inventors: 胡飞雄; 朱磊; 文苗青; 姚燕妮; 皎玖圆
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2022-01-11
Filing date: 2022-01-11
Publication date: 2023-07-11
Anticipated expiration: 2042-01-11
Also published as: CN114386410A

Abstract

本申请公开了一种预训练模型的训练方法和文本处理方法。其中预训练模型的训练方法包括：按照预设字符组合规则，对文本样本中每个分词和分词的关联字符进行组合得到文本样本对应的分词组合序列；确定分词组合序列对应的至少一个附加信息；利用文本样本、分词组合序列和至少一个附加信息训练预设模型，得到用于构建命名实体识别模型的目标预训练模型。本申请实施例可应用于云技术、人工智能、智慧交通、辅助驾驶等各种场景。本申请实施例提高了目标预训练模型对于文本的表示完整度，进而提高了目标预训练模型对于文本的处理适应能力，也提高了命名实体识别模型进行命名实体识别的准确度和有效性。

Description

预训练模型的训练方法和文本处理方法

技术领域

本申请涉及互联网通信技术领域，尤其涉及一种预训练模型的训练方法和文本处理方法。

背景技术

预训练模型由于其强大的泛化能力而得到了广泛关注。相关技术中，以BERT(Bidirectional Encoder Representation from Transformers)模型作为预训练模型为例，它主要关注于英文单词的向量表示。由于中英文语法和句法的不同，其对中文的词向量和句子信息表示并不完全，因而对于文本处理的适应性低。因此，需要提供对于文本处理具有较强适应能力的预训练模型。

发明内容

为了解决现有技术应用在训练用于文本处理的预训练模型时，所得到的预训练模型对于文本处理的适应性低等问题，本申请提供了一种预训练模型的训练方法和文本处理方法：

根据本申请的第一方面，提供了一种预训练模型的训练方法，所述方法包括：

按照预设字符组合规则，对文本样本中每个分词和所述分词的关联字符进行组合得到所述文本样本对应的分词组合序列；

确定所述分词组合序列对应的至少一个附加信息；其中，所述至少一个附加信息包括以下至少之一：所述分词组合序列中分词组合的全局上下文信息、所述分词组合序列中分词组合的长度信息、所述分词组合序列中分词组合间的相对位置信息；

利用所述文本样本、所述分词组合序列和所述至少一个附加信息训练预设模型，得到用于构建命名实体识别模型的目标预训练模型。

根据本申请的第二方面，提供了一种文本处理方法，所述方法包括：

响应于文本处理指令，确定对应的待处理文本；

以所述待处理文本为输入，利用预设的命名实体识别模型得到对应的命名实体识别结果；其中，所述预设的命名实体识别模型是基于如第一方面所述的目标预训练模型构建的。

根据本申请的第三方面，提供了一种预训练模型的训练装置，所述装置包括：

处理模块：用于按照预设字符组合规则，对文本样本中每个分词和所述分词的关联字符进行组合得到所述文本样本对应的分词组合序列；

确定模块：用于确定所述分词组合序列对应的至少一个附加信息；其中，所述至少一个附加信息包括以下至少之一：所述分词组合序列中分词组合的全局上下文信息、所述分词组合序列中分词组合的长度信息、所述分词组合序列中分词组合间的相对位置信息；

训练模块：用于利用所述文本样本、所述分词组合序列和所述至少一个附加信息训练预设模型，得到用于构建命名实体识别模型的目标预训练模型。

根据本申请的第四方面，提供了一种文本处理装置，所述装置包括：

响应模块：用于响应于文本处理指令，确定对应的待处理文本；

输出模块：用于以所述待处理文本为输入，利用预设的命名实体识别模型得到对应的命名实体识别结果；其中，所述预设的命名实体识别模型是基于如第一方面所述的目标预训练模型构建的。

根据本申请的第五方面，提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如第一方面所述的预训练模型的训练方法或者第二方面所述的文本处理方法。

根据本申请的第六方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如第一方面所述的预训练模型的训练方法或者第二方面所述的文本处理方法。

根据本申请的第七方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行如第一方面所述的预训练模型的训练方法或者第二方面所述的文本处理方法。

本申请提供的一种预训练模型的训练方法和文本处理方法，具有如下技术效果：

本申请按照预设字符组合规则，对文本样本中每个分词和该分词的关联字符进行组合得到该文本样本对应的分词组合序列；然后确定该分词组合序列对应的至少一个附加信息，进而利用该文本样本、该分词组合序列和该至少一个附加信息训练预设模型，以得到用于构建命名实体识别模型的目标预训练模型。本申请利用文本样本中分词与关联字符的组合构建分词组合序列，实现了对于文本样本中潜在分词的捕捉、挖掘。同时，附加信息的确定进一步扩充了输入数据的信息维度，文本样本、分词组合序列和附加信息的组合为目标预训练模型的训练提供了可供学习的更具分词粒度、信息丰富度的数据，这样可以提高目标预训练模型对于文本的表示完整度，进而提高目标预训练模型对于文本的处理适应能力。后续可以利用目标预训练模型来构建命名实体识别模型，可以借助目标预训练模型对于文本的处理能力来提高命名实体识别模型进行命名实体识别的准确度和有效性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案和优点，下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它附图。

图1是本申请实施例提供的一种应用环境的示意图；

图2是本申请实施例提供的一种预训练模型的训练方法的流程示意图；

图3是本申请实施例提供的一种文本处理方法的流程示意图；

图4是本申请实施例提供的有关分词组合序列的示意图；

图5是本申请实施例提供的一种预训练模型的训练装置的组成框图；

图6是本申请实施例提供的一种文本处理装置的组成框图；

图7也是本申请实施例提供的一种预训练模型的训练方法的流程示意图；

图8是本申请实施例提供的有关文本分词的流程示意图；

图9是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或服务器不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

对本申请实施例进行进一步详细说明之前，对本申请实施例中涉及的名词和术语进行说明，本申请实施例中涉及的名词和术语适用于如下的解释。

Transformer：它是一种基于encoder-decoder(编码器-解码器)结构的模型，主要包含encoder和decoder两部分。它使用自注意力机制来做机器翻译，取得了很好的效果，并且训练速度很快。

NLP(Natural Language Processing)：自然语言处理。

NER(Named Entity Recognition)：命名实体识别。它是指识别文本中具有特定意义的实体，主要包括组织、人、地名以及货币、时间和百分比表达式等，其本质上是一个模式识别任务，识别句子中实体的边界和实体的类型。

BiLSTM(Bi-directional Long Short-Term Memory)模型：一种基于双向长短期记忆网络构建的模型。

CRF(Conditional Random Field)：条件随机场。

BERT(Bidirectional Encoder Representation from Transformers)模型：一种基于双向Transformer构建的语言模型。

Roberta模型：基于BERT模型的改进模型。

NEZHA(NEural contextualiZed representation for CHinese lAnguageunderstanding)模型：面向中文理解的神经语境表征模型。

安全事件：它是尝试改变信息系统安全状态(例如改变访问控制措施、改变安全级别、改变用户口令等)的任何事件。

请参阅图1，图1是本申请实施例提供的一种应用环境的示意图，该应用环境中可以包括客户端10和服务器端20。客户端10与服务器端20可以通过有线或无线通信方式进行直接或间接地连接。相关对象(比如用户、模拟器)可以通过客户端10向服务器端20发送文本处理指令。服务器端20根据接收到的文本处理指令确定对应的待处理文本；再以待处理文本为输入，利用预设的命名实体识别模型得到对应的命名实体识别结果。预设的命名实体识别模型可以是基于目标预训练模型构建的。目标预训练模型可以是由服务器端20通过下述步骤训练得到的：首先，按照预设字符组合规则，对文本样本中每个分词和该分词的关联字符进行组合得到该文本样本对应的分词组合序列；然后，确定该分词组合序列对应的至少一个附加信息；再者，利用该文本样本、该分词组合序列和该至少一个附加信息训练预设模型，以得到用于构建命名实体识别模型的目标预训练模型。需要说明的是，图1仅仅是一种示例。

客户端10可以是智能手机、电脑(如台式电脑、平板电脑、笔记本电脑)、增强现实(augmented reality，AR)/虚拟现实(virtual reality，VR)设备、数字助理、智能语音交互设备(如智能音箱)、智能可穿戴设备、智能家电、车载终端等类型的实体设备，也可以是运行于实体设备中的软体，比如计算机程序。客户端所对应的操作系统可以是安卓系统(Android系统)、iOS系统(是由苹果公司开发的移动操作系统)、linux系统(一种操作系统)、Microsoft Windows系统(微软视窗操作系统)等。

服务器端20可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network，内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。其中服务器可以包括有网络通信单元、处理器和存储器等等。服务器端可以为对应的客户端提供后台服务。

在实际应用中，目标预训练模型也可以不是服务器端20训练得到的。比如，目标预训练模型是服务器端A训练得到的，命名实体识别模型是服务器端B基于目标预训练模型构建的，利用命名实体识别模型处理待处理文本的可以是服务器端A、服务器端B或者其他服务器端。

本申请实施例所提供的预训练模型的训练方案或者文本处理方案可以用到自然语言处理技术。自然语言处理技术是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例所提供的预训练模型的训练方案涉及到的文本样本可以来自目标业务领域。本申请实施例所提供的文本处理方案涉及到的待处理样本可以来自目标业务领域。目标业务领域可以是安全领域，来自安全领域的文本可以包括与恶意软件、漏洞类安全、攻击类事件、敲诈勒索软件、钓鱼事件、IoT(Internet of Things，物联网)安全、数据泄露、分布式拒绝服务攻击(Distributed denial of service attack，DDoS攻击)、spamme样本(垃圾邮件)、banker样本(银行木马)等相关的内容。目标业务领域可以是游戏领域，来自游戏领域的文本中的实体可以包括ACT(动作)、冒险、RPG(Role-playing game，角色扮演游戏)、叙事、策略、FPS(First-person shooting，第一人称射击)、格斗、解谜、街机、科幻、开放世界、生存等游戏类型分类下的实体，还可以包括玩家、NPC(non-player character，非玩家角色)等游戏角色分类下的实体等。需要说明的是，对于与用户信息存在关联关系的文本样本和待处理样本，当本申请实施例运用到具体产品或技术中时，需要获得用户许可或者同意，且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。

以下介绍本申请一种预训练模型的训练方法的具体实施例，图2、7是本申请实施例提供的一种预训练模型的训练方法的流程示意图，本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图2、7所示，所述方法可以包括：

S201：按照预设字符组合规则，对文本样本中每个分词和所述分词的关联字符进行组合得到所述文本样本对应的分词组合序列；

在本申请实施例中，服务器端按照预设字符组合规则，对文本样本中每个分词和分词的关联字符进行组合得到文本样本对应的分词组合序列。分词的关联字符与分词在文本样本中一般是连续的。以文本样本为“分词1+分词2+分词3”为例，分词2的全部或者部分可以作为分词1的关联字符，分词2的全部以及分词3的全部或者部分可以作为分词1的关联字符，分词3的全部或者部分可以作为分词2的关联字符。相较于对文本样本中每个字符和字符的关联字符进行组合，以分词维度替换字符维度，可以避免所得到分词组合的数量过大，避免因此增加的学习数据中的干扰信息以影响模型训练效果。可以理解，分词组合序列是基于文本样本的分词结果得到的，分词组合序列是以分词结果作为基线将各分词组合串联起来的序列。分词组合中分词的关联字符与分词保留了它们原本在文本样本的位置顺序。以文本样本的分词结果为“分词1-分词2-分词3”为例，若分词2为“字符21+字符22”且包括了关联字符的分词组合有分词组合a(“分词1”+“字符21”)、分词组合b(“分词1”+“字符21”+“字符22”，即“分词1”+“分词2”)、分词组合c(“分词1”+“分词2”+“分词3”)和分词组合d(“分词2”+“分词3”)，那么可以由图4示出分词组合序列的表现形式。需要说明的是，分词结果中的分词可以包括至少一个字符。

在一示例性的实施方式中，所述按照预设字符组合规则，对文本样本中每个分词和所述分词的关联字符进行组合得到所述文本样本对应的分词组合序列，包括以下步骤：首先，根据所述预设字符组合规则和所述文本样本确定预设方位；然后，针对所述文本样本中的每个分词，确定所述分词的关联字符；其中，所述关联字符是所述文本样本中位于所述分词的所述预设方位的字符，所述关联字符包括所述分词的相邻字符；再者，组合所述分词和所述关联字符得到所述分词对应的分词组合；最后，基于所述文本样本中的每个分词以及每个所述分词对应的分词组合得到所述文本样本对应的分词组合序列。

在获取文本内容时需要按照一定的方向对文本中的字符进行顺序识别，比如从左向右、从右向左、从上到下、从下到上等。预设字符组合规则可以对确定关联字符的方位进行规范，要求其是与这里识别字符的方向相匹配的，可以从文本内容表现方面保证所确定关联字符对于捕捉、挖掘潜在分词的有效性，也可以规避掉逆序为文本样本的首个分词所带来的关联字符缺失问题。在处理文本样本时，可以基于确定预设字符组合规则确定与文本样本相匹配的预设方位。以文本样本对应从左向右的字符识别方向为例，这里相匹配的预设方位为右方。

针对文本样本中的每个分词，可以根据分词在文本样本中的位置，然后以此为基准，确定分词的关联字符。关联字符是位于分词在文本样本中的位置的预设方位(比如右方)的至少一个字符。在确定关联字符后，可以组合分词和关联组合得到分词组合。以分词1有3个关联字符为例，那么分词1对应的分词组合有3个。同时，分词1和分词1对应的分词组合有3个均参与分词组合序列的构建。在构建分词组合序列时可以对分词、分词组合进行去重处理。这里提供了通过限定确定关联字符的方位来构建分词组合序列的实施例。当然，还可以限定关联字符的字符数量，这样在一定程度上实现分词组合的数量过滤以保证学习数据的有效性。一般不对关联字符的数量进行限制，以文本样本的分词结果为“分词1-分词2”为例，若分词2为“字符21+字符22”，那么分词1有2个关联字符：字符21和由“字符21+字符22”构成的分词2。

在实际应用中，可以将构建分词组合序列的分词同样视作分词组合。可以理解，构建分词组合序列的分词与一个为空的关联字符进行组合得到了该分词组合。可以将一个分词组合视作一个span标签(它是字组合成的字组，它可能是词，也可能不是)。当然，还可以对分词组合(span标签)进行过滤处理。可以通过语义信息确定分词组合的主题相关度，从而过滤掉主题相关度低于相关度阈值的分词组合，这样可以减少分词组合序列中分词组合的数量，为预设模型的训练提供更有效的学习样本，提高训练效率。示例性的，一个文本样本(span)指示一个篇章(Discourse)，该篇章包括至少一个段落(Paragraph)，一个段落包括至少一个句子(Sentence)。可以将一个分词组合的语义信息与其所属句子的语义信息进行比较，得到所属句子对应的权值ɑ1；将该分词组合的语义信息与其所属段落的语义信息进行比较，得到所属段落对应的权值ɑ2；将该分词组合的语义信息与其所属篇章的语义信息进行比较，得到所属篇章对应的权值ɑ3，进而得到该分词组合对应的主题相关度β＝max[ɑ1*cosin(span，sentence)+ɑ2*cosin(span，paragraph)+ɑ3*cosin(span，discourse)]。若β大于或等于相关度阈值，那么该分词组合保留，否则将其去除。

下面将对文本样本和文本样本的分词结果进行分别介绍：

1)对于文本样本：

可以获取指示开放领域的第一类文本样本，以及获取指示目标业务领域的第二类文本样本。对于指示开放领域的第一类文本样本，可以理解为在各业务领域具有一定通用性的文本样本。目标业务领域可以是前述提及的安全领域或者游戏领域，指示目标业务领域的第二类文本样本可以参考前述示例，不再赘述。以安全领域为例，在大数据时代背景下，由于应用环境的多样性、复杂性和特殊性，城市突发公共安全事件的日益增多，消除与管控公共安全隐患与风险的难度也在增强，数据的安全也面临多种多样的威胁与挑战：不仅依然需要面临数据窃取、篡改与伪造等传统威胁；同时也需要面对近年来出现日益增多的数据滥用、个人信息与隐私泄露等新的安全问题。在训练得到目标预训练模型的过程中，用到指示安全领域的文本样本，可以提高后续目标预训练模型以及命名实体识别模型对于这类文本的处理能力，从而为数据安全提供保障，比如对于安全舆情的及时感知。

2)对于文本样本的分词结果：

可以通过下述步骤得到：首先，确定预设词典，以及基于所述预设词典构建首字词典；然后，分别基于所述预设词典和所述首字词典对所述文本样本进行双向最大匹配处理，得到所述文本样本的分词结果。

本申请实施例借鉴双层哈希结构，提出了双层词典机制(Double dictionarymachine，D-dict)，然后利用该机制对文本样本进正向+逆向的最大匹配处理，可以提高匹配效率，进而提高得到分词结果的效率。

预设词典是一个完整词典，可以抽取预设词典中词(比如“通信设备机房”)的首个字符(比如首个汉字“通”)来构建首字词典，进而构建双层词典。双向最大匹配方法(Bidirectionalmaximum matching method，BMM)的执行包括正向最大匹配方法(Forwardmaximum matching method，FMM)的执行和逆向最大匹配方法(RMM)的执行。以正向最大匹配方法的执行为例，判断从文本样本确定的候选字符是否存在于词典。先将文本样本对应的最长字符串作为候选字符，若其不存在于词典中，则从其最右侧删除一个字符继续进行是否存在于词典的判断，重复该“若其不存在于词典中，则从其最右侧删除一个字符继续进行是否存在于词典的判断”的步骤直至所确定的候选字符存在于词典或者剩余的最后一个字符仍不存在于词典。若所确定的候选字符存在于词典，那么所确定的候选字符则是一个分词。相应的，逆向最大匹配方法的原理相同，仅是“若其不存在于词典中，则从其最左侧删除一个字符继续进行是否存在于词典的判断”。可以理解，正向还是逆向表征相对的两个方向，具体是从左向右、从右向左、从上到下还是从下到上等可不受限制。

进一步的，所述分别基于所述预设词典和所述首字词典对所述文本样本进行双向最大匹配处理，得到所述文本样本的分词结果，可以包括以下步骤：首先，分别基于所述预设词典和所述首字词典对所述文本样本进行双向最大匹配处理，得到所述文本样本对应的分词集合；然后，从所述预设词典和所述首字词典提取与所述分词集合中各个分词相匹配的向量作为表征，以得到所述文本样本的分词结果。

相较于由取自文本样本的字符来直接构成分词，以字向量、词向量来表征分词，可以丰富分词所具有的信息维度，可以提高对分词进行相关处理的便捷性。这里预设词典记录着第一类预设词及其对应的向量间的关联关系，首字词典记录着第二类预设词及其对应的向量间的关联关系，第二类预设词为所述第一类预设词的首字部分。可以根据前述“所确定的候选字符存在于词典”的判定，在词典中确定对应的向量作为分词的表征以实现文本的向量化。

此外，1)由于分词结果的向量化，对于“按照预设字符组合规则，对文本样本中每个分词和所述分词的关联字符进行组合得到所述文本样本对应的分词组合序列”可以仍基于前述示例理解，只是分词、关联字符、分词组合序列的实质应该是向量。在实际应用中，可以将利用向量表征的分词结果输入span分类器以得到对应的分词组合序列的向量表达。2)参见图8，在分词处理前，可以去除文本样本中的停用词，比如标点、数字等无意义的词。相应的，前述“文本样本对应的最长字符串”是针对去除停用词之后的文本样本。3)在分词处理后，可以基于目标业务领域对分词进行特定信息处理，以提高分词与目标业务领域的关联度。所针对的分词结果可以是指示目标业务领域的文本样本的分词结果，特点信息处理可以是进行有关目标业务领域的特定信息识别，有关目标业务领域的特定信息可以包括有关目标业务领域的主题信息、属性值、题目信息。该步骤可以从分词结果中过滤掉为识别到有关目标业务领域的特定信息的分词。

S202：确定所述分词组合序列对应的至少一个附加信息；其中，所述至少一个附加信息包括以下至少之一：所述分词组合序列中分词组合的全局上下文信息、所述分词组合序列中分词组合的长度信息、所述分词组合序列中分词组合间的相对位置信息；

在本申请实施例中，服务器端确定分词组合序列对应的至少一个附加信息。附加信息可以是指示文本样本的全局上下文信息、分词组合序列中分词组合的长度信息、分词组合序列中分词组合间的相对位置信息这三类信息。这三类信息关注于局部性信息。分词组合序列中分词组合的全局上下文信息更关注分词组合与分词组合序列(或者说文本样本)的相关程度，全局上下文信息c可以使用上下文全局嵌入进行表征，它可以来自相关BERT模型输出的[cls]token(标记)。结合前述提及的“限定关联字符的字符数量”，分词组合序列中分词组合的长度信息可以作为参考信息以供优化分词组合序列，避免冗余信息干扰学习数据发挥作用，也可以作为确定实体边界的依据。考虑到分词组合间很可能存在重叠字符，这样容易造成(多)实体重叠问题，分词组合序列中分词组合间的相对位置信息可以提供间距信息以供优化分词组合序列，提高学习数据对于训练用于构建命名实体模型的预设模型的针对性，也提高了所构建命名实体识别模型进行命名实体识别的准确度。

S203：利用所述文本样本、所述分词组合序列和所述至少一个附加信息训练预设模型，得到用于构建命名实体识别模型的目标预训练模型。

在本申请实施例中，服务器端利用文本样本、分词组合序列和至少一个附加信息训练预设模型，得到用于构建命名实体识别模型的目标预训练模型。在训练过程中，可以将文本样本作为待处理文本、将分词组合序列和至少一个附加信息作为处理结果进行学习。预设模型可以是BERT模型、Roberta模型或者NEZHA模型。

不论是输入预设模型的分词组合序列和至少一个附加信息，还是需要目标预训练模型输出的分词组合序列和至少一个附加信息，在向量表达上可以是多个融合特征构成的表征特征，每个融合特征融合了一个分词组合和至少一个附加信息。下面将对融合特征进行介绍：

1)对于附加信息为所述分词组合序列中分词组合的全局上下文信息：

可以将一个分词组合视作一个span标签，即sp_n＝(e_i，e_i+1，...，e_j)。融合特征

e(sp_n)表示第n个span标签的encoding。其中，/>

表示i到j的span嵌入表示，。表示张量(向量)的拼接操作，c表示分词组合对应的序列的上下文全局嵌入，它可以来自相关BERT模型输出的[cls]token。

2)对于附加信息为分词组合序列中分词组合的长度信息：

长度(大小、尺寸)信息可以利用Size Embedding表征。Size-Embedding通过一个特殊构建的线性网络nn.Linear构建，其参数是可训练的，其输入为每个span标签的边界长度大小，输出为与e相同张量(向量)大小维度的映射，其最终被表示为w_n。那么，span嵌入表示与特殊构建的动态span标签的边界长度大小嵌入矩阵进行拼接，相应的，融合特征

3)对于附加信息为分词组合序列中分词组合间的相对位置信息：

相对位置信息可以利用Relative Position Encoding表征。通常情况下，不同的span标签之间，存在着三种不同的关系，即intersection(相交关系)、inclusion(包含关系)和separation(分开关系)。Relative Position Encoding可以通过这下公式进行计算：

以及/>

其中，head[i]和tail[i]分别表示第i个span标签中首字符(或者首字向量、首词向量、头实体)和尾字符(或者尾字向量、尾词向量、尾实体)的位置，head[j]和tail[j]分别表示第j个span标签中首字符(或者首字向量、首词向量、头实体)和尾字符(或者尾字向量、尾词向量、尾实体)的位置。通过这样的位置嵌入，两个span标签之间的关系将被明确的表示，两个span标签之间的距离信息也将有效编码。

Relative Position Encoding可以通过

得到。其中，ReLU表示激活函数，W^p表示可学习的参数。p_d的计算可以参考/>

和/>

所示的绝对位置嵌入，其中k表示在相关Embedding的第几个维度。

通过计算的span标签位置嵌入维度将变为[hiddenSize*hiddenSize]，其表示了span与span之间的位置关联信息(相对位置信息)。为了使模型充分学习这种关联信息，可以使用Transformer中的自注意力机制，其被定义为如下形式：

其中，所有的W表示权重矩阵，u、v表示可学习的参数，k表示被查询信息与其他信息的相关性的向量，q表示查询向量，R对应上述R_i，j，E表示单位矩阵。此时/>

表示融合了相对位置信息的i到j的span嵌入表示，可以视作融合特征。

结合前述步骤S201中提及的第一类文本样本和第二类文本样本，在训练预设模型时，可以先利用所述第一类文本样本以及与所述第一类文本样本相关的分词组合序列和至少一个附加信息训练预设模型，得到针对所述开放领域的预训练模型；再利用所述第二类文本样本以及与所述第二类文本样本相关的分词组合序列和至少一个附加信息训练所述针对所述开放领域的预训练模型，得到针对所述目标业务领域的预训练模型，以得到用于命名实体识别的目标预训练模型。可以理解，这里进行了一次针对开放领域的领域预训练，再进行了一次针对目标业务领域的领域预训练。所使用的训练数据是没有相关领域的命名实体标注的。通过领域预训练可以使得所得到的目标预训练模型具有更好的领域适应性。此外，在训练预设模型时，还可以设置掩盖语言模型(Masked LM)和下句预测(NextSentence Prediction)等训练任务。此外，领域预训练可以是先后两次利用第一类文本样本以及与第一类文本样本相关的分词组合序列和至少一个附加信息进行领域预训练，同时先后两次利用第二类文本样本以及与第二类文本样本相关的分词组合序列和至少一个附加信息进行领域预训练。在实际应用中，可以根据需要设置第一类文本样本和第二类文本样本的句子级别的数量差异，比如前者是后者的10倍，或者后者是前者的10倍。

由以上本申请实施例提供的技术方案可见，本申请实施例按照预设字符组合规则，对文本样本中每个分词和该分词的关联字符进行组合得到该文本样本对应的分词组合序列；然后确定该分词组合序列对应的至少一个附加信息，进而利用该文本样本、该分词组合序列和该至少一个附加信息训练预设模型，以得到用于构建命名实体识别模型的目标预训练模型。本申请利用文本样本中分词与关联字符的组合构建分词组合序列，实现了对于文本样本中潜在分词的捕捉、挖掘。同时，附加信息的确定进一步扩充了输入数据的信息维度，文本样本、分词组合序列和附加信息的组合为目标预训练模型的训练提供了可供学习的更具分词粒度、信息丰富度的数据，这样可以提高目标预训练模型对于文本的表示完整度，进而提高目标预训练模型对于文本的处理适应能力。

以下介绍本申请一种文本处理方法的具体实施例，图3是本申请实施例提供的一种文本处理方法的流程示意图，本申请提供了如实施例或流程图所述的方法操作步骤，但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式，不代表唯一的执行顺序。在实际中的系统或产品执行时，可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境)。具体的如图3所示，所述方法可以包括：

S301：响应于文本处理指令，确定对应的待处理文本；

在本申请实施例中，响应于文本处理指令，服务器端确定对应的待处理文本。需要说明的是，这里执行步骤S301-S302的服务器端和上述执行步骤S201-S203的服务器端可以是同一服务端，也可以是不同服务器端。

S302：以所述待处理文本为输入，利用预设的命名实体识别模型得到对应的命名实体识别结果；其中，所述预设的命名实体识别模型是基于如前述步骤S201-S203所述的目标预训练模型构建的。

在本申请实施例中，以待处理文本为输入，服务器端利用预设的命名实体识别模型得到对应的命名实体识别结果。预设的命名实体模型可以是基于前述目标预训练模型构建的BiLSTM模型。

在一示例性的实施方式中，所述利用预设的命名实体识别模型得到对应的命名实体识别结果，可以包括下述步骤：首先，利用所述目标预训练模型得到所述待处理文本对应的表征特征；其中，所述表征特征指示所述待处理文本对应的目标分词组合序列以及所述目标分词组合序列对应的至少一个附加信息，所述目标分词组合序列是按照预设字符组合规则对所述待处理文本中每个分词和所述分词的关联字符进行组合得到的，所述目标分词组合序列对应的至少一个附加信息包括以下至少之一：所述目标分词组合序列中分词组合的全局上下文信息、所述目标分词组合序列中分词组合的长度信息、所述目标分词组合序列中分词组合间的相对位置信息；然后，利用所述预设的命名实体识别模型中的分类模型处理所述表征特征，得到指示所述目标分词组合序列中各个分词组合的所属命名实体类别的命名实体识别结果。

预设的命名实体模型由输入端到输出端可以依次为目标预训练模型、Transformer和分类模型。这里的表征特征可以参考前述步骤S203的相关记载，步骤赘述。表征特征中的每个融合特征融合了一个分词组合和至少一个附加信息，可以将一个分词组合视作一个span标签，即sp_n＝(e_i，e_i+1，...，e_j)，相应的融合特征由e(sp_n)表示。分类模型可以是span分类器，它是基于全连接神经网络构建的，可以通过softmax函数(归一化函数)将一个span标签(对应e(sp_n))映射至一个命名实体类别。该命名实体类别取自预先定义的多个命名实体类别ε∪{none}。span标签(对应e(sp_n))的所属命名实体类别y^s＝softmax(W^se(sp_n)+b^s)，其中W^s为分类器权重矩阵，b^s为偏置值。

sp_n＝(e_i，e_i+1，...，e_j)中的每个e可以视作一个单字token，通过预设的命名实体识别模型中的最大池化层可以将sp_n＝(e_i，e_i+1，...，e_j)为与单字token相同的张量(向量)维度，再输入分类模型。

进一步的，在训练得到预设的命名实体模型的过程中，可以引入负采样机制。可以理解，样本数据经训练模型(对应分类模型)的输出结果包括存在属于命名实体类别的分词组合(即实体片段)，也存在不属于命名实体类别的分词组合(即非实体片段)。若非实体片段的占比高于甚至远高于实体片段的占比，那么可能影响训练效果，比如导致不均衡。因而，可以对非实体片段进行过滤，以过滤结果+实体片段去优化前述预设模型(对应目标预训练模型)的训练。所要过滤掉的非实体片段可以是交并比低于交并比阈值的非实体片段，比如不与其他非实体片段存在交集的非实体片段(此时交并比为0)。示例性的，若待过滤的非实体片段包括非实体片段1-10，若经识别非实体片段1不与其他非实体片段(即非实体片段2-9)存在交集、重叠或嵌套，那么可以直接将非实体片段1过滤掉。若经识别非实体片段2与非实体片段3、5存在交集、重叠或嵌套，可以分别计算非实体片段2与非实体片段3对应的交并比1，以及非实体片段2与非实体片段5对应的交并比2，再取交并比1、2中的最大值与交并比阈值进行比较。若最大值大于交并比阈值，那么保留非实体片段2。其中交并比可以通过下式进行计算：

其中，l表示长度start表示开始的位置，end表示结束的位置，V表示排序结果，a、b分别对应一个非实体片段。对于排序结果，可以理解，若将非实体片段抽象为一个边框，那么两个非实体片段对应的边框可以涉及多个交集框，这个排序结果即是按照面积大小针对多个交集框的降序排序结果。

在实际应用中，预设的命名实体模型可以包括基于前述目标预训练模型构建的BiLSTM模型和CRF，最终由CRF输出安全领域的命名实体识别结果，以实现公共安全事件文本中命名实体的自动识别。经过实验证明，领域预训练提升了对公共安全事件命名实体识别的准确率，对于信息化处理和个人隐私保护起到了重要的作用。

由以上本申请实施例提供的技术方案可见，本申请实施例响应于文本处理指令，确定对应的待处理文本；再以待处理文本为输入，利用预设的命名实体识别模型得到对应的命名实体识别结果。预设的命名实体识别模型是基于目标预训练模型构建的。本申请实施例借助目标预训练模型对于文本的处理能力，提高了命名实体识别模型进行命名实体识别的准确度和有效性。

本申请实施例还提供了一种预训练模型的训练装置，如图5所示，所述预训练模型的训练装置50包括：

处理模块501：用于按照预设字符组合规则，对文本样本中每个分词和所述分词的关联字符进行组合得到所述文本样本对应的分词组合序列；

确定模块502：用于确定所述分词组合序列对应的至少一个附加信息；其中，所述至少一个附加信息包括以下至少之一：所述分词组合序列中分词组合的全局上下文信息、所述分词组合序列中分词组合的长度信息、所述分词组合序列中分词组合间的相对位置信息；

训练模块503：用于利用所述分词组合序列和所述至少一个附加信息训练预设模型，得到用于构建命名实体识别模型的目标预训练模型。

需要说明的，所述装置实施例中的装置与方法实施例基于同样的发明构思。

本申请实施例还提供了一种文本处理装置，如图6所示，所述文本处理装置60包括：

响应模块601：用于响应于文本处理指令，确定对应的待处理文本；

输出模块602：用于以所述待处理文本为输入，利用预设的命名实体识别模型得到对应的命名实体识别结果；其中，所述预设的命名实体识别模型是基于如前述步骤S201-S203所述的目标预训练模型构建的。

本申请实施例提供了一种电子设备，该电子设备包括处理器和存储器，该存储器中存储有至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现如上述方法实施例所提供的预训练模型的训练方法或者文本处理方法。

进一步地，图9示出了一种用于实现本申请实施例所提供的预训练模型的训练方法或者文本处理方法的电子设备的硬件结构示意图，所述电子设备可以参与构成或包含本申请实施例所提供的预训练模型的训练装置或者文本处理装置。如图9所示，电子设备100可以包括一个或多个(图中采用1002a、1002b，……，1002n来示出)处理器1002(处理器1002可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器1004、以及用于通信功能的传输装置1006。除此以外，还可以包括：显示器、输入/输出接口(I/O接口)、通用串行总线(USB)端口(可以作为I/O接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解，图9所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，电子设备100还可包括比图9中所示更多或者更少的组件，或者具有与图9所示不同的配置。

应当注意到的是上述一个或多个处理器1002和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到电子设备100(或移动设备)中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器1004可用于存储应用软件的软件程序以及模块，如本申请实施例中所述的预训练模型的训练方法或者文本处理方法对应的程序指令/数据存储装置，处理器1002通过运行存储在存储器1004内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的一种预训练模型的训练方法或者文本处理方法。存储器1004可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器1004可进一步包括相对于处理器1002远程设置的存储器，这些远程存储器可以通过网络连接至电子设备100。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置1006用于经由一个网络接收或者发送数据。上述的网络具体实例可包括电子设备100的通信供应商提供的无线网络。在一个实例中，传输装置1006包括一个网络适配器(NetworkInterfaceController，NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实施例中，传输装置1006可以为射频(RadioFrequency，RF)模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(LCD)，该液晶显示器可使得用户能够与电子设备100(或移动设备)的用户界面进行交互。

本申请的实施例还提供了一种计算机可读存储介质，所述存储介质可设置于电子设备之中以保存用于实现方法实施例中一种预训练模型的训练方法或者文本处理方法相关的至少一条指令或至少一段程序，该至少一条指令或该至少一段程序由该处理器加载并执行以实现上述方法实施例提供的预训练模型的训练方法或者文本处理方法。

可选地，在本实施例中，上述存储介质可以位于计算机网络的多个网络服务器中的至少一个网络服务器。可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

需要说明的是：上述本申请实施例先后顺序仅仅为了描述，不代表实施例的优劣。且上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

本申请中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于装置和电子设备实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的较佳实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种预训练模型的训练方法，其特征在于，所述方法包括：

利用所述文本样本、所述分词组合序列和所述至少一个附加信息训练预设模型，得到用于构建命名实体识别模型的目标预训练模型；

其中，所述按照预设字符组合规则，对文本样本中每个分词和所述分词的关联字符进行组合得到所述文本样本对应的分词组合序列，包括：

根据所述预设字符组合规则和所述文本样本确定预设方位；

针对所述文本样本中的每个分词，确定所述分词的关联字符；其中，所述关联字符是所述文本样本中位于所述分词的所述预设方位的字符；

组合所述分词和所述关联字符得到所述分词对应的分词组合；

基于所述文本样本中的每个分词以及每个所述分词对应的分词组合得到所述文本样本对应的分词组合序列。

2.根据权利要求1所述的方法，其特征在于：

在所述按照预设字符组合规则，对文本样本中每个分词和所述分词的关联字符进行组合得到所述文本样本对应的分词组合序列之前，所述方法还包括：

获取指示开放领域的第一类文本样本；

获取指示目标业务领域的第二类文本样本；

所述利用所述文本样本、所述分词组合序列和所述至少一个附加信息训练预设模型，得到用于命名实体识别模型的目标预训练模型，包括：

利用所述第一类文本样本以及与所述第一类文本样本相关的分词组合序列和至少一个附加信息训练预设模型，得到针对所述开放领域的预训练模型；

利用所述第二类文本样本以及与所述第二类文本样本相关的分词组合序列和至少一个附加信息训练所述针对所述开放领域的预训练模型，得到针对所述目标业务领域的预训练模型，以得到用于命名实体识别的目标预训练模型。

3.根据权利要求1所述的方法，其特征在于，在所述按照预设字符组合规则，对文本样本中每个分词和所述分词的关联字符进行组合得到所述文本样本对应的分词组合序列之前，所述方法还包括：

确定预设词典，以及基于所述预设词典构建首字词典；

分别基于所述预设词典和所述首字词典对所述文本样本进行双向最大匹配处理，得到所述文本样本的分词结果。

4.根据权利要求3所述的方法，其特征在于，所述分别基于所述预设词典和所述首字词典对所述文本样本进行双向最大匹配处理，得到所述文本样本的分词结果，包括：

分别基于所述预设词典和所述首字词典对所述文本样本进行双向最大匹配处理，得到所述文本样本对应的分词集合；

从所述预设词典和所述首字词典提取与所述分词集合中各个分词相匹配的向量作为表征，以得到所述文本样本的分词结果；其中，所述预设词典记录着第一类预设词及其对应的向量间的关联关系，所述首字词典记录着第二类预设词及其对应的向量间的关联关系，所述第二类预设词为所述第一类预设词的首字部分。

5.一种文本处理方法，其特征在于，所述方法包括：

响应于文本处理指令，确定对应的待处理文本；

以所述待处理文本为输入，利用预设的命名实体识别模型得到对应的命名实体识别结果；其中，所述预设的命名实体识别模型是基于如权利要求1至4中任一项所述的目标预训练模型构建的。

6.根据权利要求5所述的方法，其特征在于，所述利用预设的命名实体识别模型得到对应的命名实体识别结果，包括：

利用所述目标预训练模型得到所述待处理文本对应的表征特征；其中，所述表征特征指示所述待处理文本对应的目标分词组合序列以及所述目标分词组合序列对应的至少一个附加信息，所述目标分词组合序列是按照预设字符组合规则对所述待处理文本中每个分词和所述分词的关联字符进行组合得到的，所述目标分词组合序列对应的至少一个附加信息包括以下至少之一：所述目标分词组合序列中分词组合的全局上下文信息、所述目标分词组合序列中分词组合的长度信息、所述目标分词组合序列中分词组合间的相对位置信息；

利用所述预设的命名实体识别模型中的分类模型处理所述表征特征，得到指示所述目标分词组合序列中各个分词组合的所属命名实体类别的命名实体识别结果。

7.一种预训练模型的训练装置，其特征在于，所述装置包括：

训练模块：用于利用所述文本样本、所述分词组合序列和所述至少一个附加信息训练预设模型，得到用于构建命名实体识别模型的目标预训练模型；

根据所述预设字符组合规则和所述文本样本确定预设方位；

8.一种文本处理装置，其特征在于，所述装置包括：

输出模块：用于以所述待处理文本为输入，利用预设的命名实体识别模型得到对应的命名实体识别结果；其中，所述预设的命名实体识别模型是基于如权利要求1至4中任一项所述的目标预训练模型构建的。

9.一种电子设备，其特征在于，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由所述处理器加载并执行以实现如权利要求1-4任一项所述的预训练模型的训练方法或者权利要求5或6所述的文本处理方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-4任一项所述的预训练模型的训练方法或者权利要求5或6所述的文本处理方法。

11.一种计算机程序产品，其特征在于，所述计算机程序产品包括至少一条指令或至少一段程序，所述至少一条指令或所述至少一段程序由处理器加载并执行以实现如权利要求1-4任一项所述的预训练模型的训练方法或者权利要求5或6所述的文本处理方法。