CN112084337A

CN112084337A - 文本分类模型的训练方法、文本分类方法及设备

Info

Publication number: CN112084337A
Application number: CN202010979853.XA
Authority: CN
Inventors: 毛冠文; 唐亚腾; 钟滨; 徐进
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2020-09-17
Filing date: 2020-09-17
Publication date: 2020-12-15
Anticipated expiration: 2040-09-17
Also published as: CN112084337B

Abstract

本申请公开了一种文本分类模型的训练方法、文本分类方法及设备，涉及人工智能领域。该方法包括：获取第一训练样本集，第一训练样本集中包含第一训练文本；基于第一训练文本中文字对应的第一字向量、第一拼音向量、第一位置向量以及第一句向量，预训练BERT模型；获取第二训练样本集，第二训练样本集中包含第二训练文本，且第二训练文本包含对应的分类标签；基于第二训练文本中文字对应的第二字向量、第二拼音向量、第二位置向量以及第二句向量，以分类标签为分类目标微调BERT模型，得到文本分类模型。拼音向量的引入，使得文本分类模型能够识别出同音字替换后的违规内容，提高了同音字替换场景下文本分类的分类准确性以及分类效率。

Description

文本分类模型的训练方法、文本分类方法及设备

技术领域

本申请实施例涉及人工智能领域，特别涉及一种文本分类模型的训练方法、文本分类方法及设备。

背景技术

自然语言处理(Nature Language Processing,NLP)是计算机科学领域与人工智能领域中的一个重要方向。文本分类作为自然语言处理中一种重要应用，被广泛应用于违规内容检测。

为了识别出搜索场景下的违规搜索意图以及违规搜索结果，相关技术中通过挖掘可疑搜索数据，采用人工标注的方式标注出违规搜索数据，并汇总得到违规关键词，构建得到违规关键词字典，以便后续基于违规关键词字典识别违规内容。

然而，在中文搜索场景下，由于存在大量同音字，因此存在大量通过同音字替换以规避违规内容检测的情况。比如，为了规避违规内容检测，将“黄色视频”替换为“煌瑟视频”。对于上述同音字替换场景，相关技术中基于关键词进行违规内容识别的准确率较低。

发明内容

本申请实施例提供了一种文本分类模型的训练方法、文本分类方法及设备，可以提高同音字替换场景下违规内容的识别准确率。所述技术方案如下：

一方面，本申请实施例提供了一种文本分类模型的训练方法，所述方法包括：

获取第一训练样本集，所述第一训练样本集中包含第一训练文本；

基于所述第一训练文本中文字对应的第一字向量、第一拼音向量、第一位置向量以及第一句向量，预训练基于转换器的双向编码器(Bidirectional EncoderRepresentation from Transformers，BERT)模型，其中，拼音向量为文字对应拼音的向量化表示；

获取第二训练样本集，所述第二训练样本集中包含第二训练文本，且所述第二训练文本包含对应的分类标签；

基于所述第二训练文本中文字对应的第二字向量、第二拼音向量、第二位置向量以及第二句向量，以所述分类标签为分类目标微调所述BERT模型，得到所述文本分类模型，所述文本分类模型用于对输入文本进行标签分类。

另一方面，本申请实施例提供了一种文本分类方法，所述方法包括：

获取目标分类文本；

获取所述目标分类文本中文字对应的目标字向量、目标拼音向量、目标位置向量以及目标句向量；

将所述目标字向量、所述目标拼音向量、所述目标位置向量以及所述目标句向量输入文本分类模型，得到所述文本分类模型输出的目标分类标签，所述文本分类模型为经过微调的BERT模型，且所述BERT模型基于训练文本的字向量、拼音向量、位置向量以及句向量预训练得到。

另一方面，本申请实施例提供了一种文本分类模型的训练装置，所述装置包括：

第一样本获取模块，用于获取第一训练样本集，所述第一训练样本集中包含第一训练文本；

预训练模块，用于基于所述第一训练文本中文字对应的第一字向量、第一拼音向量、第一位置向量以及第一句向量，预训练BERT模型，其中，拼音向量为文字对应拼音的向量化表示；

第二样本获取模块，用于获取第二训练样本集，所述第二训练样本集中包含第二训练文本，且所述第二训练文本包含对应的分类标签；

微调模块，用于基于所述第二训练文本中文字对应的第二字向量、第二拼音向量、第二位置向量以及第二句向量，以所述分类标签为分类目标微调所述BERT模型，得到所述文本分类模型，所述文本分类模型用于对输入文本进行标签分类。

另一方面，本申请实施例提供了一种文本分类装置，所述装置包括：

文本获取模块，用于获取目标分类文本；

向量获取模块，用于获取所述目标分类文本中文字对应的目标字向量、目标拼音向量、目标位置向量以及目标句向量；

分类模块，将所述目标字向量、所述目标拼音向量、所述目标位置向量以及所述目标句向量输入文本分类模型，得到所述文本分类模型输出的目标分类标签，所述文本分类模型为经过微调的BERT模型，且所述BERT模型基于训练文本的字向量、拼音向量、位置向量以及句向量预训练得到。

另一方面，本申请实施例提供了一种计算机设备，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如上述方面所述的文本分类模型的训练方法，或，实现上述方面所述的文本分类方法。

另一方面，提供了一种计算机可读存储介质，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如上述方面所述的文本分类模型的训练方法，或，实现上述方面所述的文本分类方法。

另一方面，本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述方面提供的文本分类模型的训练方法，或，执行上述方面提供的文本分类方法。

本申请实施例提供的技术方案带来的有益效果至少包括：

在训练文本分类模型的过程中，通过在预训练阶段融入训练样本对应的拼音向量，使预训练得到的BERT模型能够学习到文字与拼音之间的映射信息，并进一步在预训练得到的BERT模型的基础上，使用包含分类标签的训练文本对BERT模型进行微调，得到文本分类模型；训练过程中拼音向量的引入，使得文本分类模型能够识别出同音字替换后的违规内容，且无需通过人工方式构建违规关键词字典，提高了同音字替换场景下文本分类的分类准确性以及分类效率。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1示出了本申请实施例提供的文本分类模型的训练方法的原理示意图；

图2示出了本申请一个示例性实施例提供的实施环境的示意图；

图3示出了本申请一个示例性实施例提供的文本分类模型的训练方法的流程图；

图4示出了本申请一个示例性实施例提供的BERT模型预训练过程的方法流程图；

图5是一个示例性实施例示出的BERT模型预训练过程的实施示意图；

图6是一个示例性实施例示出的BERT模型预训练过程的流程图；

图7示出了本申请一个示例性实施例提供的BERT模型微调过程的方法流程图；

图8是一个示例性实施例示出的BERT模型微调过程的实施示意图；

图9是一个示例性实施例示出的BERT模型微调过程的流程图；

图10示出了本申请一个示例性实施例提供的文本分类方法的流程图；

图11是本申请一个示例性实施例提供的文本分类模型的训练装置的结构框图；

图12是本申请一个示例性实施例提供的文本分类装置的结构框图；

图13示出了本申请一个示例性实施例提供的计算机设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

为了方便理解，下面首先对本申请实施例中涉及的名词进行说明。

BERT模型：由谷歌在2018年发布的一种语言模型，该模型通过联合所有层中的双向转换器来训练深度双向表示。BERT模型融合了众多自然语言处理模型的优点，在多项自然语言处理任务中均取得较优效果。相关技术中，BERT模型的模型输入向量为字向量(Token Embedding)、位置向量(Position Embedding)和句向量(Segment Embedding)的向量之和。其中，字向量为文字的向量化表示，位置向量用于表征字在文本中所处的位置，句向量用于表征句子在文本中的先后顺序。

预训练(pre-training)：一种通过使用大型数据集对神经网络模型进行训练，使神经网络模型学习到数据集中的通用特征的过程。预训练的目的是为后续神经网络模型在特定数据集上训练提供优质的模型参数。本申请实施例中的预训练指利用无标签训练文本训练BERT模型的过程。

微调(fine-tuning)：一种使用特定数据集对预训练神经网络模型进行进一步训练的过程。通常情况下，微调阶段所使用数据集的数据量小于预训练阶段所使用数据集的数据量，且微调阶段采用监督式学习的方式，即微调阶段所使用数据集中的训练样本包含标注信息。本申请实施例中的微调阶段指利用包含分类标签的训练文本训练BERT模型(经过预训练)的过程。

掩码语言模型(Masked Language Model，MLM)：一种BERT模型的预训练方式，通过将输入文本中的部分文字进行随机掩盖，训练BERT模型预测被掩盖的文字。通过该训练方式，能够使BERT模型学习到文本的上下文信息。

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。

本申请实施例提供的文本分类模型的训练方法、以及文本分类方法即在语义理解方面的应用。图1示出了本申请实施例提供的文本分类模型的训练方法的原理示意图。

如图1所示，文本分类模型的训练分为预训练和微调两个阶段。其中，预训练阶段，计算机设备首先从第一训练样本集111中获取第一训练文本112，并获取第一训练文本112中文字的向量化表示。除了从字、所在位置、所属句子这三个维度对文字进行向量化表示外，为了使最终训练得到的文本分类模型具有识别同音字替换的功能，本申请实施例中，还从文字对应拼音这一维度对文字进行向量化表示。

在预训练阶段，计算机设备获取第一训练文本112对应的第一字向量113、第一拼音向量114、第一位置向量115以及第一句向量116，从而基于上述向量预训练BERT模型117。

由于预训练得到的BERT模型117无法直接用于执行文本分类任务，因此需要进一步采用特定的训练样本集，对BERT模型117进行微调，得到用于执行文本分类任务的文本分类模型。

在微调阶段，计算机设备从第二训练样本集121中获取第二训练文本122，该第二训练文本122包含对应的分类标签123。与预训练阶段类似的，计算机设备获取第二训练文本122对应的第二字向量124、第二拼音向量125、第二位置向量126以及第二句向量127，并将上述向量输入BERT模型117。

进一步的，计算机设备以分类标签123为模型输出结果的监督，对BERT模型117进行参数调整，最终训练得到用于文本分类的文本分类模型128。

利用上述训练得到的文本分类模型对文本进行分类时，将待分类文本中文字对应的字向量、拼音向量、位置向量以及句向量输入文本分类模型，即可得到文本分类模型输出的文本分类结果。

由于在模型训练过程中引入了拼音这一维度，因此BERT模型在预训练阶段能够学习到文字与拼音之间的映射关系，在微调阶段能够学习到拼音与文本分类之间的映射关系，相应的，训练得到的文本分类模型除了具备识别常规违规文本的能力外，还具备识别经过同音字替换的违规文本的能力，进而提高了最终输出的文本分类结果的准确性。

本申请实施例提供的文本分类模型的训练、以及文本分类方法，可以应用于网络信息的分类场景。下面结合几种应用场景进行说明。

1、搜索场景

搜索场景下，本申请实施例提供的方法可以应用于搜索引擎服务器中。为了能够识别出经过同音字替换的违规搜索内容，搜索引擎服务器首先基于大量的搜索语料，将搜索语料中文字对应的拼音作为新增输入维度，预训练BERT模型，使BERT模型除了能够学习到上下文信息以外，还能够学习到拼音与文字之间的映射信息。进一步的，搜索引擎服务器获取人工标注的搜索语料(标注搜索语料是否为违规搜索内容)，将搜索语料输入预训练的BERT模型，并以人工标注为BERT模型输出的监督，对BERT模型的网络参数进行微调，最终得到文本分类模型。

在应用阶段，搜索引擎服务器将文本分类模型加载至搜索引擎，并在接收到搜索请求时，通过文本分类模型对搜索请求中包含的搜索内容进行分类，确定该搜索请求是否合法，进而确定是否执行搜索任务；对搜索结果进行反馈时，通过过文本分类模型对搜索结果进行分类(也可以预先分类)，确定搜索结果是否包含违规内容，并在包含时进行相应提示。

2、内容审核场景

该内容审核场景包括但不限于评论内容审核、社交信息审核、短视频描述信息审核、直播信息审核等等。以评论内容审核为例，本申请实施例提供的方法可以应用于评论服务器中。评论服务器基于历史评论内容，将历史评论内容中的文字转换为拼音，并在预训练BERT模型过程中增加拼音维度。进一步的，评论服务器获取不同类型的违规评论内容(比如包含色情内容、包含诈骗内容等等)，并基于违规评论内容及其对应的违规类型标注信息，对BERT模型进行微调，得到能够对评论内容进行违规类型分类的评论内容分类模型。

应用过程中，评论服务器接收到终端发送的待发表评论时，即将待发表评论输入评论内容分类模型，由评论内容分类模型对待发表评论进行内容审核。若内容审核通过，则发布该待发表评论；若内容审核未通过，则向终端反馈未通过原因。

3、网页访问场景

该场景下，本申请实施例提供的方法可以应用于浏览器应用的后台服务器。后台服务器基于通用语料，预训练BERT模型，然后基于违规网页中包含的违规文字内容，对BERT模型进行微调，得到网页违规内容分类模型。终端通过浏览器应用进行网页访问时，浏览器应用的后台服务器提取网页中的文字内容，或者对网页进行光学字符识别(OpticalCharacter Recognition，OCR)得到网页图片中的文字内容，从而将文字内容输入网页违规内容分类模型，得到网页违规内容分类模型输出的识别结果。若识别出网页中包含违规内文字内容，则向浏览器应用发送提示信息，由浏览器应用进行显示，提示用户访问当前网页存在安全风险。

上述仅以几种常见的应用场景为例进行示意性说明，本申请实施例提供的方法还可以应用于其他需要对文本内容进行分类的场景，本申请实施例并不对实际应用场景构成限定。

图2示出了本申请一个示例性实施例提供的实施环境的示意图。本实施例以文本分类模型的训练方法以及文本分类方法应用于搜索场景为例进行说明，该实施环境中包括终端210和服务器220。其中，终端210与服务器220之间通过通信网络进行数据通信，可选地，通信网络可以是有线网络也可以是无线网络，且该通信网络可以是局域网、城域网以及广域网中的至少一种。

终端210是具有通过网络实现搜索功能的电子设备。该电子设备可以是智能手机、平板电脑、膝上便携式笔记本电脑等移动终端，也可以是台式电脑、投影式电脑等终端，本申请实施例对此不做限定。

并且，该搜索功能可以是终端210中浏览器应用的网页搜索功能、社交应用程序提供的社交内容搜索功能或视频应用程序提供的视频搜索功能等等，本申请实施例对此不作限定。

图2中，终端210中安装有社交应用程序，且该社交应用程序支持在朋友圈、公众号、文章以及小程序中进行搜索。

服务器220可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(Content Delivery Network，CDN)、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请实施例中，服务器220为终端210中社交应用程序的后台服务器，用于为社交应用程序提供搜索功能(搜索朋友圈、公众号、文章、小程序等等)。

本实施例中，服务器220中设置有文本分类模型，该文本分类模型是基于历史搜索记录预训练，并基于人工标注搜索记录微调得到的BERT模型，具有识别同音字替换的能力。

如图2所示，终端210向服务器220发送搜索请求后，服务器220将搜索请求中包含的搜索文本221转换为搜索文本拼音222，并将搜索文本221以及搜索文本拼音222共同作为文本分类模型223的输入，由文本分类模型223进行文本分类，并输出分类结果224。若分类结果224指示该搜索文本221合规，服务器220进一步基于搜索文本221获取搜索结果225，从而将搜索结果225反馈至终端210；若分类结果224指示该搜索文本221不合规，服务器220则向终端210反馈违规搜索提示信息。

在其他可能的实施方式中，上述文本分类模型的训练过程也可以由服务器220执行，并由服务器220将训练得到文本分类模型下发至终端210，由终端210利用文本分类模型对搜索文本进行分类，并基于分类结果进一步确定是否向服务器220发送搜索请求，本实施例对此不作限定。

为了方便表述，下述各个实施例以文本分类模型的训练方法、以及文本分类方法由计算机设备执行为例进行说明。

图3示出了本申请一个示例性实施例提供的文本分类模型的训练方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤301，获取第一训练样本集，第一训练样本集中包含第一训练文本。

其中，第一训练样本集为中文训练样本集，且其中包含的训练文本不包含分类标签。

针对第一训练样本集的获取方式，在一种可能的实施方式中，当最终训练得到的文本分类模型用于对搜索文本进行分类时，该第一训练样本集可以是由历史搜索文本构成的文本集合。

在另一种可能的实施方式中，该第一训练样本集也可以是通用中文语料数据集，例如中文自然语言语料库(ChineseNLPcorpus)。本申请实施例并不对第一训练样本集的获取方式进行限定。

步骤302，基于第一训练文本中文字对应的第一字向量、第一拼音向量、第一位置向量以及第一句向量，预训练BERT模型，其中，拼音向量为文字对应拼音的向量化表示。

相关技术中预训练BERT模型时，以文字对应字向量、位置向量以及句向量的向量之和作为输入向量，BERT模型在预训练过程中能够学习到文字的上下文信息，使得预训练得到的BERT模型具备上下文预测能力。

然而，上述预训练过程仅考虑到了文字之间的上下文关系，对于中文而言，由于同一拼音可能对应大量汉字，因此仅仅考虑字向量将无法识别出同音字替换。比如，对于违规文本“黄色视频”，若将“黄色”替换为同音的“煌瑟”(拼音均为huángsè)，将无法识别出该违规文本。

为了使BERT模型既能够学习到文字的上下文关系，又能够学习得到拼音与文字之间的映射关系，本申请实施例中，预训练BERT模型时，除了使用到三个常规维度的向量，即字向量、位置向量和句向量，还需要使用到文字对应拼音的拼音向量。

可选的，字向量采用词向量(wordtovector，word2vec)模型对文字进行转化得到，而拼音向量采用拼音向量转化模型对拼音进行转化得到。下述实施例将对拼音向量的具体获取方式进行说明。

在一种可能的实施方式中，计算机设备采用BERT模型的分词方法将第一训练文本划分为文字，并将文字转换为对应的拼音(包含音调)，进而对文字和拼音进行向量化处理，得到各个文字对应的第一字向量、第一位置向量、第一句向量以及第一拼音向量。

在一些实施例中，对于第一训练文本中的各个中文文字，计算机设备以第一字向量、第一位置向量、第一句向量以及第一拼音向量的向量之和作为BERT模型的输入向量，预训练BERT模型。

基于第一训练样本集完成BERT模型预训练后，BERT模型不仅学习到文字的上下文信息，还学习到文字与拼音的映射信息。预训练得到的BERT模型仅具备预测文字以及拼音的能力，为了使BERT模型具备文本分类能力，计算机设备进一步通过包含分类标签的训练数据集对BERT模型进行微调。

步骤303，获取第二训练样本集，第二训练样本集中包含第二训练文本，且第二训练文本包含对应的分类标签。

可选的，第二训练样本集是与文本分类相关的特定数据集，其中的训练文本包含对应的分类标签，该分类标签可以通过人工标注，且该分类标签属于文本分类模型的分类结果。

在一个示意性的例子中，当文本分类模型用于对合规文本和违规文本进行分类时，分类标签包括合规标签和违规标签；当文本分类模型用于对合规文本、不良信息文本或欺诈信息文本进行分类时，第二训练文本对应的分类标签为合规标签、不良信息标签和欺诈信息标签中的至少一种。本申请实施例并不对分类标签的具体内容进行限定。

在一种可能的实施方式中，由于预训练的BERT模型已经学习到了文字的上下文关系以及文字与拼音之间的映射关系，因此进行微调时所采用的第二训练样本集的数据量远小于第一训练样本集的数据量。

可选的，第二训练样本集中的训练文本属于第一训练样本集。

步骤304，基于第二训练文本中文字对应的第二字向量、第二拼音向量、第二位置向量以及第二句向量，以分类标签为分类目标微调BERT模型，得到文本分类模型，文本分类模型用于对输入文本进行标签分类。

与预训练过程类似的，为了使文本分类模型能够学习到文本分类与文字拼音之间的映射关系，除了将第二训练文本中文字的字向量、位置向量和句向量作为输入外，计算机设备将文字对应拼音的拼音向量作为输入，对BERT模型进行微调。

在一种可能的实施方式中，微调过程中，计算机设备将第二字向量、第二拼音向量、第二位置向量以及第二句向量的向量之和作为BERT模型的输入向量，得到BERT模型输出的文本分类预测结果，进而以第二训练文本对应的分类标签为监督，对BERT模型进行微调，最终训练得到文本分类模型。其中，文本分类预测结果中包含各个候选文本分类对应的分类概率，且各个候选文本分类对应分类概率之和为1。

在一些实施例中，计算机设备采用梯度下降或反向传播算法，根据预测结果与分类标签之间的误差对BERT模型的网络参数进行调整，直至误差满足收敛条件。

通过在训练文本分类模型的过程中增加拼音向量这一维度，使训练得到的文本分类模型能够对同音字替换后的文本进行分类。比如，采用相关技术中提供的方案，若构建的关键词字典中仅包含“黄色视频”而不包含“煌瑟视频”，利用该关键词字典将无法识别出“哪里能看煌瑟视频”是违规搜索文本；而采用本申请实施例提供的方法，在训练过程中融入了拼音向量，且第二训练文本中包含“黄色”及对应的分类标签“违规内容”，因此利用文本分类模型能够识别出“哪里能看煌瑟视频”是违规搜索文本，提高违规搜索文本的识别准确率。

此外，本申请实施例中，并非单纯依赖拼音进行文本分类，而是同样注重文字的上下文关系，因此在进行文本分类时能够综合考虑词汇在上下文中的含义，降低违规内容的误识别率。

综上所述，在训练文本分类模型的过程中，通过在预训练阶段融入训练样本对应的拼音向量，使预训练得到的BERT模型能够学习到文字与拼音之间的映射信息，并进一步在预训练得到的BERT模型的基础上，使用包含分类标签的训练文本对BERT模型进行微调，得到文本分类模型；训练过程中拼音向量的引入，使得文本分类模型能够识别出同音字替换后的违规内容，且无需通过人工方式构建违规关键词字典，提高了同音字替换场景下文本分类的分类准确性以及分类效率。

在一些实施例中，计算机设备采用无监督模型训练方法，以MLM任务为训练任务，对BERT模型进行预训练。由于增加了拼音向量这一维度，因此在预训练过程中需要相应调整损失函数。下面采用示例性的实施例进行说明。

图4示出了本申请一个示例性实施例提供的BERT模型预训练过程的方法流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤401，获取第一训练样本集。

本步骤的实施方式可以参考上述步骤301，本实施例在此不再赘述。

步骤402，过滤第一训练样本集中包含非中文文字的训练文本，得到第一训练文本。

由于第一训练样本集中的训练文本中可能包含非中文文字，比如第一训练样本集中包含纯中文的训练文本，以及中英文掺杂的训练文本，若利用中英文掺杂的训练文本训练BERT模型，则会对后续构建拼音向量造成影响(因为英文与拼音无法对应)。因此为了尽可能降低非中文文字对预训练BERT模型造成的影响，本申请实施例中，计算机设备首先对获取到的第一训练样本集进行筛选，过滤包含非中文文字的训练文本，保留纯中文的第一训练文本。

比如，当训练文本为“哪里能看yellow视频”时，计算机设备过滤该训练文本。

步骤403，将第一训练文本中的文字转换为拼音。

由于本申请实施例中需要使用拼音向量进行BERT模型训练，因此计算机设备需要将训练文本中的文字转换为拼音，并进一步得到拼音的向量化表示。在一种可能的实施方式中，计算机设备基于第一训练文本中文字的拼音，训练拼音向量转化模型，以便利用拼音向量转化模型得到各个拼音对应的向量化表示。

可选的，对于各条第一训练文本，计算机设备对第一训练文本进行划分，并将划分得到的各个文字转换为拼音。其中，转换得到的拼音包含声调。

在一个示意性的例子中，计算机设备获取到第一训练文本“黄色视频”，将其划分为“黄/色/视/频”，并将划分后的各个文字转化为拼音，得到“huang2/se4/shi4/pin2”。其中，“1”对应第一声，“2”对应第二声，“3”对应第三声，“4”对应第四声。

步骤404，基于不同拼音在第一训练文本中的共现情况，训练拼音向量转化模型，拼音向量转化模型用于将拼音转化为拼音向量。

word2vec作为一种用于生成词向量的模型，用于将单词转化为词向量，基于与word2vec类似的训练思想，本申请实施例中，计算机设备根据第一训练文本中不同拼音的共现情况，训练拼音向量转化模型。

在一种可能的实施方式中，计算机设备统计第一训练文本中相邻文字对应拼音的共现次数以及单独出现次数，确定拼音之间的共现概率，从而根据不同拼音之间的共现概率，训练拼音向量转化模型。训练得到拼音向量转化模型后，计算机设备将拼音输入模型后，即可得到相应的拼音向量。其中，拼音向量的相似度越高(可以通过余弦距离衡量)，表明拼音的共现概率越高。

示意性的，若两个拼音对应文字在同一训练文本中的间隔小于等于间隔阈值(比如1个文字，即相邻或相隔一个字)，计算机设备对这两个拼音的共现次数加一。

当然，除了通过上述方式得到拼音的向量化表示外，计算机设备还可以通过全局向量的单词表示(Global vectors for word representation，Glove)、快速文本(FastText)等方式生成拼音向量，本申请实施例对此不作限定。并且，本实施例仅以预先训练得到拼音向量转化模型为例进行说明，在其他可能的实施方式中，计算机设备还可以随机初始化拼音对应的拼音向量，并在预训练过程中对拼音向量进行调整，从而得到预训练完成时得到各个拼音对应的拼音向量，本实施例对此不作限定。

可选的，训练得到拼音向量转化模型后，由于拼音数量有限，因此计算机设备借助模型将各个拼音转化为对应的拼音向量，并将拼音与拼音向量的对应关系加入BERT模型中，使BERT模型具备对拼音进行向量化表示的功能。

步骤405，以文字为单位对第一训练文本进行划分，得到第一训练文本对应的第一文字序列，并生成第一文字序列对应的第一拼音序列。

在一种可能的实施方式中，计算机设备采用BERT模型的分词方法，以文字为单位对第一训练文本进行划分，得到第一训练文本对应的第一文字序列，并对第一文字序列中的文字进行拼音转换，得到第一拼音序列。本申请实施例并不对分词以及获取文字对应拼音的方式进行限定。

在一个示意性的例子中，第一训练文本为“哪里能看黄色视频”，计算机设备对第一训练文本进行划分，得到第一文字序列“哪/里/能/看/黄/色/视/频”；计算机设备根据划分后各个文字对应的拼音，生成第一拼音序列“na3/li3/neng2/kan4/huang2/se4/shi4/pin2”。

步骤406，对第一文字序列和第一拼音序列中的至少一种序列进行掩码处理，其中，经过掩码处理后，序列中的部分文字或拼音被替换为掩码。

采用无监督模型训练方法训练BERT模型时，计算机设备随机将输入序列中的部分内容进行掩码，由BERT模型对被掩码内容进行预测，从而根据预测结果和被掩码的内容训练BERT模型。

本申请实施例中，由于输入BERT模型的序列包含文字序列和拼音序列，因此计算机设备需要对文字序列和拼音序列中的至少一种序列进行掩码处理。

在一个示意性的例子中，计算机设备随机将序列中15％的内容进行掩码处理，即将文字序列中15％的文字替换为掩码，和/或，将拼音序列中15％的拼音替换为掩码。比如，序列中被掩码处理的内容被替换为[mask]。

在一种可能的实施方式中，为了使BERT同时具备预测文字和拼音的能力，计算机设备对第一文字序列和第一拼音序列进行掩码处理，其中，经过掩码处理后，第一文字序列和第一拼音序列中相同位置的文字和拼音被替换为掩码，即保证文字序列和拼音序列中掩码位置的一致性。

结合上述步骤的示例，计算机设备对第一文字序列“哪/里/能/看/黄/色/视/频”中的“里”以及“色”进行掩码处理，得到掩码处理后的第一文字序列“哪/[mask]/能/看/黄/[mask]/视/频”，相应的，对第一拼音序列“na3/li3/neng2/kan4/h uang2/se4/shi4/pin2”中的“li3”以及“se4”进行掩码处理，得到掩码处理后的第一拼音序列“na3/[mask]/neng2/kan4/huang2[mask]/shi4/pin2”。

步骤407，基于掩码处理后的第一文字序列生成第一字向量、第一位置向量和第一句向量，并基于掩码处理后的第一拼音序列生成第一拼音向量。

进一步的，计算机设备获取掩码处理后第一文字序列中各个文字对应的第一字向量、第一位置向量以及第一句向量，并获取掩码处理后第一拼音序列中各个拼音对应的第一拼音向量。其中，第一字向量通过word2vec模型获取得到，第一拼音向量通过拼音向量转化模型得到。

可选的，当掩码处理后的第一文字序列中包含掩码，或掩码处理后的第一拼音序列中包含掩码时，计算机设备确定掩码位置处的第一字向量为预设字向量，或，确定掩码位置处的第一字向量为预设拼音向量。

此外，对于文字序列，计算机设备在序列开头设置[CLS]标记，在序列结尾设置[SEP]标识；对于拼音序列，计算机设备在序列开头和结尾分别设置[NOS]。

示意性的，结合上述步骤中的示例，如图5所示，预训练过程中，计算机设备对第一训练样本进行掩码处理，并生成各个文字对应的第一字向量51、第一拼音向量52、第一位置向量53以及第一句向量54。其中，不同文字对应的第一位置向量53不同(依次为E0至E9)，且由于第一训练样本均包含单句，因此不同文字对应的第一句向量54相同(均为EA)。

步骤408，以MLM任务为训练任务，预训练BERT模型，其中，预训练得到的BERT模型用于预测掩码对应的文字或拼音。

完成掩码处理并得到字向量、拼音向量、位置向量以及句向量后，计算机设备进一步将上述向量作为BERT模型的输入向量，以MLM任务为训练任务训练出具有文字和/或拼音预测能力的BERT模型。

在一种可能的实施方式中，当对第一文字序列和第一拼音序列均进行掩码处理时，本步骤可以包括如下步骤。

一、将第一字向量、第一拼音向量、第一位置向量和第一句向量输入BERT模型，得到BERT模型输出的预测文字和预测拼音。

可选的，计算机设备将同一文字对应第一字向量、第一拼音向量、第一位置向量以及第一句向量的向量之和确定为输入向量，由BERT模型根据各个文字对应的输入向量，对掩码位置的文字和拼音进行预测。

其中，BERT模型中设置有若干层编码网络(即transformer)，且每层transformer中包含多头注意力层以及前馈神经网络层，多头注意力层和前馈神经网络层之后均连接求和与层归一化层。示意性的，如图5所示，BERT模型由12层transformer55构成，其中，每层transformer55中又包含多头注意力层551、求和与层归一化层552、前馈神经网络层553以及求和与层归一化层554。

计算机设备将各个文字对应的第一字向量51、第一拼音向量52、第一位置向量53和第一句向量54相加，并将得到各个向量输入transformer55。经过BERT模型中transformer编码后，最终输出预测文字56和预测拼音57。

需要说明的是，本实施例仅以BERT模型包括12层transformer为例进行说明，在其他可能的实施方式中，该BERT模型可以包括24层transformer，本实施例对此并不构成限定。

二、根据预测文字、预测拼音、原始文字和原始拼音，训练BERT模型，原始文字为被掩码替换的文字，原始拼音为被掩码替换的拼音。

在一些实施例中，计算机设备以被掩码替换的文字为预测文字的目标，以被掩码替换的拼音为预测拼音的目标，构建预测损失，从而根据预测损失，通过反向传播算法对BERT模型的网络参数进行调整，直至BERT模型输出的预测文字与被掩码替换的文字一致，输出的预测拼音与被掩码替换的拼音一致。

在一种可能的实施方式中，计算机设备根据预测文字和原始文字对应的字向量确定第一预测损失(即文字预测损失)，并根据预测拼音和原始拼音对应的拼音向量确定第二预测损失(即拼音预测损失)，从而根据第一预测损失和第二预测损失训练BERT模型。

由于BERT模型输出的预测结果采用文字或者拼音，因此本实施例中，计算机设备需要将预测文字和预测拼音转换为对应的字向量和拼音向量，从而利用向量的差异量化模型预测损失。其中，该第一预测损失和第二预测损失可以为表示为向量之间的余弦距离、欧式距离、曼哈顿距离等等，本实施例对此不作限定。

在一种可能的情况下，在预训练初期，BERT模型输出的预测文字和预测拼音可能并不匹配，仅基于第一预测损失和第二预测损失进行模型训练，模型收敛速度较慢。因此在另一种可能的实施方式中，除了构建第一预测损失和第二预测损失外，计算机设备还基于预测拼音与预测文字构建第三预测损失。

可选的，响应于预测拼音与预测文字不匹配，计算机设备根据预测拼音的拼音向量以及预测文字对应拼音的拼音向量，确定第三预测损失(若预测拼音与预测文字匹配，则第三预测损失为0)，从而根据第一预测损失、第二预测损失以及第三预测损失训练BERT模型。

在一个示意性的例子中，当被掩码的文字为“黄”，对应被掩码的拼音为“huang2”时，若预测文字为“绿”，预测拼音为“qing2”，计算机设备确定预测损失为(E_黄-E_绿)+(E_huang2-E_qing2)+(E_lv4-E_qing2)，其中，E_黄为原始文字的字向量，E_绿为预测文字的字向量，E_huang2为原始拼音的拼音向量，E_qing2为预测拼音的拼音向量，E_lv4为预测文字对应拼音的拼音向量，E_qing2为预测拼音的拼音向量。

需要说明的是，上述实施例以同时对拼音以及文字序列进行掩码处理进行说明，在其他可能的实施方式中，为了提高预训练速度，计算机设备可以仅对文字序列进行掩码处理，相应的，在计算机设备根据预测文字与原始文字的向量构建预测损失，并进行BERT模型训练，本实施例在此不再赘述。

本实施例中，计算机设备通过对拼音序列以及文字序列进行掩码，从而训练BERT模型对掩码处的文字和拼音预测，从而根据预测结果与实际结果确定预测损失，进而根据损失对BERT模型进行训练，无需预先为训练样本设置标签即能实现无监督的模型训练；并且，在预测文字与预测拼音不匹配时，额外增加一项损失，提高基于模型训练的收敛速度。

在一个示意性的实施例中，BERT模型的预训练过程如图6所示。

步骤601，获取大量搜索文本数据。

可选的，计算机设备可以从服务器处拉取用户的历史搜索记录，并从中获取搜索文本数据。

步骤602，保留纯中文文本数据。

本步骤中，保留纯中文文本数据能够降低非中文文本对BERT模型预训练造成的影响。

步骤603，将纯中文文本转换为对应的拼音。

步骤604，采用word2vec算法训练拼音向量。

步骤605，将拼音向量加入BERT模型中。

将拼音向量加入BERT模型后，BERT模型即具备将输入的拼音转换为拼音向量的能力。

步骤606，采用BERT分词方法对纯中文本文进行文本切分，同时将切分后的文本转化为对应的拼音。

步骤607，采用随机掩码的方式，将文字和对应的拼音转化为[MASK]标记。

步骤608，以MLN为训练目标对BERT模型进行预训练。

步骤609，保存预训练得到的BERT模型。

图7示出了本申请一个示例性实施例提供的BERT模型微调过程的方法流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤701，获取第二训练样本集，第二训练样本集中包含第二训练文本，且第二训练文本包含对应的分类标签。

本步骤的实施方式可以参考上述步骤303，本实施例在此不再赘述。

由于实际场景中，输入文本分类模型的待分类文本并不一定是纯中文文本，因此若利用纯中文文本作为第二训练文本对BERT模型进行微调，可能会造成文本分类模型的鲁棒性和宽容度较低，最终影响文本分类的准确性。在一种可能的实施方式中，计算机设备通过引入包含非中文文字的训练文本用于模型微调，以此提高微调后文本分类模型的鲁棒性以及宽容度，即第二训练样本集中包含纯中文训练文本以及混合训练文本(包含中文文字以外的文字，比如英文)。

步骤702，在BERT模型中设置分类器。

上述实施例中，预训练得到的BERT模型用于预测文本中的文字以及拼音，为了使BERT模型能够实现文本分类，需要在BERT模型中设置分类器。可选的，该分类器的分类类别及数量与文本分类模型所需实现的分类任务相关，该分类器可以为二分类分类器，也可以是多分类分类器(比如softmax分类器)。本申请实施例并不对分类器的具体类型进行限定。

示意性的，如图8所示，预训练得到的BERT模型中，最后一层transformer85(包含多头注意力层851、求和与层归一化层852、前馈神经网络层853以及求和与归一化层854)后设置有分类器86，该分类器86用于实现违规文本的二分类，即分类器86的输出结果包括合规文本以及违规文本各自对应的概率。

步骤703，以文字为单位对第二训练文本进行划分，得到第二训练文本对应的第二文字序列，并生成第二文字序列对应的第二拼音序列。

由于第二训练文本中可能包含非中文文字，因此在得到第二训练文本对应的字向量以及拼音向量前，计算机设备首先需要对第二训练文本中的非中文文字进行处理。

在一种可能的实施方式中，生成第二文字序列时，本步骤可以包括如下步骤。

一、以文字为单位对第二训练文本进行划分。

可选的，计算机设备通过BERT模型的分词方法，将第二训练文本划分为子词(英文)或字(中文)形式。

二、响应于划分结果中包含非中文文字，将非中文文字转化为干扰标识，干扰标识对应预设字向量和预设拼音向量。

对于划分后得到的子词或字，计算机设备将其中的非中文文字转化为统一的干扰标识。比如，对于第二训练文本“哪里能看yellow视频”，计算机设备通过BERT模型的分词方法，将其划分为“哪/里/能/看/yellow/视/频”，并将英文“yellow”转化为干扰标识“[NOS]”。

为了便于后续对包含干扰标识的序列进行向量化，干扰标识对应预设字向量和预设拼音向量，且预测字向量不同于中文文字的字向量，预测拼音向量不同于中文文字对应拼音的拼音向量。

三、根据划分结果和转化结果生成第二训练文本对应的第二文字序列。

基于划分结果以及非中文文字的转化结果，计算机设备第二训练文本对应的第二文字序列。

结合上述步骤中的示例，计算机设备生成第二训练文本对应的第二文字序列“哪/里/能/看/[NOS]/视/频”，相应的，生成第二拼音序列“na3/li3/neng2/kan4/[NOS]/shi4/pin2”。

除了将非中文文字转化为干扰标识外，在其他可能的实施方式中，计算机设备可以将非中文文字转化为中文文字，本实施例对此不作限定。

步骤704，基于第二文字序列生成第二字向量、第二位置向量和第二句向量，并基于第二拼音序列生成第二拼音向量。

由于微调阶段并需要利用BERT模型进行文字和拼音预测，因此计算机设备无需对第二文字序列以及第二拼音序列进行掩码处理，而是直接基于第二文字序列生成第二字向量、第二位置向量和第二句向量，并基于第二拼音序列生成第二拼音向量。其中，上述向量确定过程的实施方式可以参考预训练阶段，本实施例在此不再赘述。

步骤705，将第二字向量、第二拼音向量、第二位置向量以及第二句向量输入BERT模型，得到BERT模型中分类器输出的分类预测结果。

可选的，计算机设备将同一文字对应第二字向量、第二拼音向量、第二位置向量以及第二句向量的向量之和确定为输入向量，由BERT模型通过编码网络对输入向量进行编码，并通过分类器对编码结果进行分类，输出分类预测结果。

示意性的，如图8所示，计算机设备将各个文字对应的第二字向量81、第二拼音向量82、第二位置向量83和第二句向量84相加，并将得到的各个向量输入transformer85。经过BERT模型中transformer85编码后，分类器86对编码结果进行分类，输出分类预测结果87。

步骤706，根据分类预测结果和分类标签微调BERT模型，得到文本分类模型。

微调BERT模型时采用监督模型训练方式，计算机设备将第二训练文本对应分类标签作为分类预测结果的监督，对BERT模型的网络参数以及分类器进行微调，得到文本分类模型。

示意性的，如图8所示，计算机设备根据第二训练文本对应的分类标签88以及分类预测结果87，确定分类损失，从而根据分类损失对transformer85以及分类器86的参数进行调整。

本实施例中，计算机设备将第二训练文本中的非中文文字替换为统一的干扰标识，并进一步利用包含干扰标识的文字序列以及拼音训练对BERT模型进行微调，提高训练得到的文本分类模型对非纯中文文本的宽容度，提高了模型的鲁棒性以及分类准确性。

在一个示意性的实施例中，计算机设备微调BERT模型并得到文本分类模型的过程如图9所示。

步骤901，获取已标注的搜索文本数据。

不同于预训练阶段使用的搜索文本数据，微调阶段使用的搜索文本数据包含预先标注的文本分类标签，后续微调过程中，即以该文本分类标签为监督。

步骤902，采用BERT分词方式对搜索文本数据进行分词。

步骤903，将分词后的文本转换为拼音，其中，非中文字统一转换为[NOS]标记。

为了提高文本分类模型的鲁棒性，在微调阶段使用的搜索文本数据中包含非纯中文文本(比如中英文掺杂文本)，对于非纯中文文本中的非中文字，计算机统一将其转化为[NOS]标记。

步骤904，加载预训练得到的BERT模型。

步骤905，以搜索文本数据的标注为监督，对BERT模型进行微调，得到文本分类模型。

可选的，计算机设备通过预训练的BERT模型将拼音转换为拼音向量，并将拼音向量与字向量、位置向量以及句向量一同作为模型输入，得到BERT模型输出的预测分类标签，从而以搜索文本数据对应文本分类标签为监督对BERT模型进行微调，最终得到文本分类模型。

步骤906，保存文本分类模型。

图10示出了本申请一个示例性实施例提供的文本分类方法的流程图。本实施例以该方法用于计算机设备为例进行说明，该方法包括如下步骤。

步骤1001，获取目标分类文本。

在一种可能的实施方式中，该目标分类文本为终端发送的搜索文本，或者，目标分类文本为终端提高的待发布内容，或者，该目标分类文本为服务器提取到的网页文字内容。本申请实施例并不对目标分类文本的具体获取方式进行限定。

步骤1002，获取目标分类文本中文字对应的目标字向量、目标拼音向量、目标位置向量以及目标句向量。

由于文本分类模型在训练过程中融入拼音向量这一维度，因此在对目标分类文本进行分类时，计算机设备需要将目标分类文本中文字对应的拼音向量作为输入之一，以提高同音字替换情况下的文本分类准确性。

在一种可能的实施方式中，本步骤可以包括如下步骤：

一、以文字为单位对目标分类文本进行划分，得到目标分类文本对应的目标文字序列，并生成目标文字序列对应的目标拼音序列。

其中，生成文本对应文字序列以及拼音序列的过程可以参考模型训练阶段，本实施例在此不再赘述。

由于目标分类文本可能并非纯中文文本，因此以文字为单位对目标分类文本进行划分过程中，当划分结果中包含非中文文字时，计算机设备将非中文文字转化为干扰标识，从而根据划分结果和转化结果生成目标分类文本对应的目标文字序列，其中，干扰标识对应预设字向量和预设拼音向量。

其中，生成目标文字序列以及目标拼音序列的过程可以参考上述微调BERT模型实施例，本实施例在此不再赘述。

二、基于目标文字序列生成目标字向量、目标位置向量和目标向量，并基于目标拼音序列生成目标拼音向量。

其中，对于目标文字序列中的干扰标识，计算机设备将干扰标识转化为预设字向量，对于目标拼音序列中的干扰标识，计算机设备将干扰标识转化为预设拼音向量。

对目标文字序列以及目标拼音序列的向量化过程可以参考上述微调BERT模型实施例，本实施例在此不再赘述。

步骤1003，将目标字向量、目标拼音向量、目标位置向量以及目标句向量输入文本分类模型，得到文本分类模型输出的目标分类标签，文本分类模型为经过微调的BERT模型，且BERT模型基于训练文本的字向量、拼音向量、位置向量以及句向量预训练得到。

在一种可能的实施方式中，计算机设备将各个文字对应的目标字向量、目标拼音向量、目标位置向量以及目标句向量的向量和输入文本分类模型，得到模型输出的目标分类标签，其中，目标分类标签对应的分类类别的概率最高。

可选的，在应用过程中，计算机设备接收对目标分类标签的分类反馈，并根据分类反馈对文本分类模型进行更新，以提高文本分类模型的预测准确性。

图11是本申请一个示例性实施例提供的文本分类模型的训练装置的结构框图，如图11所示，该装置包括：

第一样本获取模块1101，用于获取第一训练样本集，所述第一训练样本集中包含第一训练文本；

预训练模块1102，用于基于所述第一训练文本中文字对应的第一字向量、第一拼音向量、第一位置向量以及第一句向量，预训练BERT模型，其中，拼音向量为文字对应拼音的向量化表示；

第二样本获取模块1103，用于获取第二训练样本集，所述第二训练样本集中包含第二训练文本，且所述第二训练文本包含对应的分类标签；

微调模块1104，用于基于所述第二训练文本中文字对应的第二字向量、第二拼音向量、第二位置向量以及第二句向量，以所述分类标签为分类目标微调所述BERT模型，得到所述文本分类模型，所述文本分类模型用于对输入文本进行标签分类。

可选的，所述预训练模块1102，包括：

第一序列生成单元，用于以文字为单位对所述第一训练文本进行划分，得到所述第一训练文本对应的第一文字序列，并生成所述第一文字序列对应的第一拼音序列；

掩码处理单元，用于对所述第一文字序列和所述第一拼音序列中的至少一种序列进行掩码处理，其中，经过掩码处理后，序列中的部分文字或拼音被替换为掩码；

第一向量化单元，用于基于掩码处理后的所述第一文字序列生成所述第一字向量、所述第一位置向量和所述第一句向量，并基于掩码处理后的所述第一拼音序列生成所述第一拼音向量；

预训练单元，用于以MLM任务为训练任务，预训练所述BERT模型，其中，预训练得到的所述BERT模型用于预测掩码对应的文字或拼音。

可选的，所述掩码处理单元，用于：

对所述第一文字序列和所述第一拼音序列进行掩码处理，其中，经过掩码处理后，所述第一文字序列和所述第一拼音序列中相同位置的文字和拼音被替换为掩码；

所述预训练单元，用于：

将所述第一字向量、所述第一拼音向量、所述第一位置向量和所述第一句向量输入所述BERT模型，得到所述BERT模型输出的预测文字和预测拼音；

根据所述预测文字、所述预测拼音、原始文字和原始拼音，训练所述BERT模型，所述原始文字为被掩码替换的文字，所述原始拼音为被掩码替换的拼音。

可选的，所述预训练单元，用于：

根据所述预测文字和所述原始文字对应的字向量确定第一预测损失；

根据所述预测拼音和所述原始拼音对应的拼音向量确定第二预测损失；

根据所述第一预测损失和所述第二预测损失训练所述BERT模型。

可选的，所述预训练单元，还用于：

响应于所述预测拼音与所述预测文字不匹配，根据所述预测拼音的拼音向量以及所述预测文字对应拼音的拼音向量，确定第三预测损失；

根据所述第一预测损失、所述第二预测损失以及所述第三预测损失训练所述BERT模型。

可选的，所述装置还包括：

过滤模块，用于过滤所述第一训练样本集中包含非中文文字的训练文本，得到所述第一训练文本；

拼音转化模块，用于将所述第一训练文本中的文字转换为拼音；

转化模型训练模块，用于基于不同拼音在所述第一训练文本中的共现情况，训练拼音向量转化模型，所述拼音向量转化模型用于将拼音转化为拼音向量。

可选的，所述微调模块1104，用于：

分类器设置单元，用于在所述BERT模型中设置分类器；

第二序列生成单元，用于以文字为单位对所述第二训练文本进行划分，得到所述第二训练文本对应的第二文字序列，并生成所述第二文字序列对应的第二拼音序列；

第二向量化单元，用于基于所述第二文字序列生成所述第二字向量、所述第二位置向量和所述第二句向量，并基于所述第二拼音序列生成所述第二拼音向量；

预测单元，用于将所述第二字向量、所述第二拼音向量、所述第二位置向量以及所述第二句向量输入所述BERT模型，得到所述BERT模型中所述分类器输出的分类预测结果；

微调单元，用于根据所述分类预测结果和所述分类标签微调所述BERT模型，得到所述文本分类模型。

可选的，所述第二序列生成单元，用于：

以文字为单位对所述第二训练文本进行划分；

响应于划分结果中包含非中文文字，将所述非中文文字转化为干扰标识，所述干扰标识对应预设字向量和预设拼音向量；

根据所述划分结果和转化结果生成所述第二训练文本对应的第二文字序列。

图12是本申请一个示例性实施例提供的文本分类装置的结构框图，如图12所示，该装置包括：

文本获取模块1201，用于获取目标分类文本；

向量获取模块1202，用于获取所述目标分类文本中文字对应的目标字向量、目标拼音向量、目标位置向量以及目标句向量；

分类模块1203，用于将所述目标字向量、所述目标拼音向量、所述目标位置向量以及所述目标句向量输入文本分类模型，得到所述文本分类模型输出的目标分类标签，所述文本分类模型为经过微调的BERT模型，且所述BERT模型基于训练文本的字向量、拼音向量、位置向量以及句向量预训练得到。

可选的，所述向量获取模块1202，包括：

目标序列生成单元，用于以文字为单位对所述目标分类文本进行划分，得到所述目标分类文本对应的目标文字序列，并生成所述目标文字序列对应的目标拼音序列；

目标向量化单元，用于基于所述目标文字序列生成所述目标字向量、所述目标位置向量和所述目标向量，并基于所述目标拼音序列生成所述目标拼音向量。

可选的，所述目标序列生成单元，用于：

以文字为单位对所述目标分类文本进行划分；

根据所述划分结果和转化结果生成所述目标分类文本对应的所述目标文字序列。

需要说明的是：上述实施例提供的文本分类模型的训练装置以及文本分类装置，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本分类模型的训练装置与文本分类模型的训练方法实施例属于同一构思，文本分类装置与文本分类方法实施例属于同一构思，其实现过程详见方法实施例，这里不再赘述。

请参考图13，其示出了本申请一个示例性实施例提供的计算机设备的结构示意图。具体来讲：所述计算机设备1300包括中央处理单元(Central Processing Unit，CPU)1301、包括随机存取存储器1302和只读存储器1303的系统存储器1304，以及连接系统存储器1304和中央处理单元1301的系统总线1305。所述计算机设备1300还包括帮助计算机内的各个器件之间传输信息的基本输入/输出系统(Input/Output，I/O系统)1306，和用于存储操作系统1313、应用程序1314和其他程序模块1315的大容量存储设备1307。

所述基本输入/输出系统1306包括有用于显示信息的显示器1308和用于用户输入信息的诸如鼠标、键盘之类的输入设备1309。其中所述显示器1308和输入设备1309都通过连接到系统总线1305的输入输出控制器1310连接到中央处理单元1301。所述基本输入/输出系统1306还可以包括输入输出控制器1310以用于接收和处理来自键盘、鼠标、或电子触控笔等多个其他设备的输入。类似地，输入输出控制器1310还提供输出到显示屏、打印机或其他类型的输出设备。

所述大容量存储设备1307通过连接到系统总线1305的大容量存储控制器(未示出)连接到中央处理单元1301。所述大容量存储设备1307及其相关联的计算机可读介质为计算机设备1300提供非易失性存储。也就是说，所述大容量存储设备1307可以包括诸如硬盘或者驱动器之类的计算机可读介质(未示出)。

不失一般性，所述计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质包括以用于存储诸如计算机可读指令、数据结构、程序模块或其他数据等信息的任何方法或技术实现的易失性和非易失性、可移动和不可移动介质。计算机存储介质包括随机存取记忆体(RAM，Random Access Memory)、只读存储器(ROM，Read Only Memory)、闪存或其他固态存储其技术，只读光盘(Compact Disc Read-Only Memory，CD-ROM)、数字通用光盘(Digital Versatile Disc，DVD)或其他光学存储、磁带盒、磁带、磁盘存储或其他磁性存储设备。当然，本领域技术人员可知所述计算机存储介质不局限于上述几种。上述的系统存储器1304和大容量存储设备1307可以统称为存储器。

存储器存储有一个或多个程序，一个或多个程序被配置成由一个或多个中央处理单元1301执行，一个或多个程序包含用于实现上述方法的指令，中央处理单元1301执行该一个或多个程序实现上述各个方法实施例提供的方法。

根据本申请的各种实施例，所述计算机设备1300还可以通过诸如因特网等网络连接到网络上的远程计算机运行。也即计算机设备1300可以通过连接在所述系统总线1305上的网络接口单元1311连接到网络1312，或者说，也可以使用网络接口单元1311来连接到其他类型的网络或远程计算机系统(未示出)。

所述存储器还包括一个或者一个以上的程序，所述一个或者一个以上程序存储于存储器中，所述一个或者一个以上程序包含用于进行本申请实施例提供的方法中由计算机设备所执行的步骤。

本申请实施例还提供一种计算机可读存储介质，该可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述任一实施例所述的文本分类模型的训练方法，或，实现上述任一实施例所述的文本分类方法。

本申请实施例提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述实施例所述的文本分类模型的训练方法，或，实现上述实施例所述的文本分类方法。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，该计算机可读存储介质可以是上述实施例中的存储器中所包含的计算机可读存储介质；也可以是单独存在，未装配入终端中的计算机可读存储介质。该计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现上述任一方法实施例所述的方法。

可选地，该计算机可读存储介质可以包括：ROM、RAM、固态硬盘(SSD，Solid StateDrives)或光盘等。其中，RAM可以包括电阻式随机存取记忆体(ReRAM,Resistance RandomAccess Memory)和动态随机存取存储器(DRAM，Dynamic Random Access Memory)。上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种文本分类模型的训练方法，其特征在于，所述方法包括：

基于所述第一训练文本中文字对应的第一字向量、第一拼音向量、第一位置向量以及第一句向量，预训练BERT模型，其中，拼音向量为文字对应拼音的向量化表示；

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一训练文本中文字对应的第一字向量、第一拼音向量、第一位置向量以及第一句向量，预训练BERT模型，包括：

以文字为单位对所述第一训练文本进行划分，得到所述第一训练文本对应的第一文字序列，并生成所述第一文字序列对应的第一拼音序列；

对所述第一文字序列和所述第一拼音序列中的至少一种序列进行掩码处理，其中，经过掩码处理后，序列中的部分文字或拼音被替换为掩码；

基于掩码处理后的所述第一文字序列生成所述第一字向量、所述第一位置向量和所述第一句向量，并基于掩码处理后的所述第一拼音序列生成所述第一拼音向量；

以掩码语言模型MLM任务为训练任务，预训练所述BERT模型，其中，预训练得到的所述BERT模型用于预测掩码对应的文字或拼音。

3.根据权利要求2所述的方法，其特征在于，所述对所述第一文字序列和所述第一拼音序列中的至少一种序列进行掩码处理，包括：

所述以掩码语言模型MLM任务为训练任务，预训练所述BERT模型，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述预测文字、所述预测拼音、原始文字和原始拼音，训练所述BERT模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述根据所述预测文字、所述预测拼音、原始文字和原始拼音，训练所述BERT模型，还包括：

6.根据权利要求1至5任一所述的方法，其特征在于，所述获取第一训练样本集之后，所述方法还包括：

过滤所述第一训练样本集中包含非中文文字的训练文本，得到所述第一训练文本；

将所述第一训练文本中的文字转换为拼音；

基于不同拼音在所述第一训练文本中的共现情况，训练拼音向量转化模型，所述拼音向量转化模型用于将拼音转化为拼音向量。

7.根据权利要求1至5任一所述的方法，其特征在于，所述基于所述第二训练文本中文字对应的第二字向量、第二拼音向量、第二位置向量以及第二句向量，以所述分类标签为分类目标微调所述BERT模型，得到所述文本分类模型，包括：

在所述BERT模型中设置分类器；

以文字为单位对所述第二训练文本进行划分，得到所述第二训练文本对应的第二文字序列，并生成所述第二文字序列对应的第二拼音序列；

基于所述第二文字序列生成所述第二字向量、所述第二位置向量和所述第二句向量，并基于所述第二拼音序列生成所述第二拼音向量；

将所述第二字向量、所述第二拼音向量、所述第二位置向量以及所述第二句向量输入所述BERT模型，得到所述BERT模型中所述分类器输出的分类预测结果；

根据所述分类预测结果和所述分类标签微调所述BERT模型，得到所述文本分类模型。

8.根据权利要求7所述的方法，其特征在于，所述以文字为单位对所述第二训练文本进行划分，得到所述第二训练文本对应的第二文字序列，包括：

以文字为单位对所述第二训练文本进行划分；

9.一种文本分类方法，其特征在于，所述方法包括：

获取目标分类文本；

10.根据权利要求9所述的方法，其特征在于，所述获取所述目标分类文本中文字对应的目标字向量、目标拼音向量、目标位置向量以及目标句向量，包括：

以文字为单位对所述目标分类文本进行划分，得到所述目标分类文本对应的目标文字序列，并生成所述目标文字序列对应的目标拼音序列；

基于所述目标文字序列生成所述目标字向量、所述目标位置向量和所述目标向量，并基于所述目标拼音序列生成所述目标拼音向量。

11.根据权利要求10所述的方法，其特征在于，所述以文字为单位对所述目标分类文本进行划分，得到所述目标分类文本对应的目标文字序列，包括：

以文字为单位对所述目标分类文本进行划分；

12.一种文本分类模型的训练装置，其特征在于，所述装置包括：

13.一种文本分类装置，其特征在于，所述装置包括：

文本获取模块，用于获取目标分类文本；

分类模块，用于将所述目标字向量、所述目标拼音向量、所述目标位置向量以及所述目标句向量输入文本分类模型，得到所述文本分类模型输出的目标分类标签，所述文本分类模型为经过微调的BERT模型，且所述BERT模型基于训练文本的字向量、拼音向量、位置向量以及句向量预训练得到。

14.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如权利要求1至8任一所述的文本分类模型的训练方法，或，实现如权利要求9至11任一所述的文本分类方法。

15.一种计算机可读存储介质，其特征在于，所述可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如权利要求1至8任一所述的文本分类模型的训练方法，或，实现如权利要求9至11任一所述的文本分类方法。