CN112100378A

CN112100378A - 文本分类模型训练方法、装置、计算机设备及存储介质

Info

Publication number: CN112100378A
Application number: CN202010966556.1A
Authority: CN
Inventors: 黄海龙; 刘广; 高维国
Original assignee: Ping An Life Insurance Company of China Ltd
Current assignee: Ping An Life Insurance Company of China Ltd
Priority date: 2020-09-15
Filing date: 2020-09-15
Publication date: 2020-12-18

Abstract

本发明实施例公开了一种文本分类模型训练方法、装置、计算机设备及存储介质，涉及人工智能技术领域。训练后的文本分类模型可储存到区块链中。该方法包括：获取预存的初始样本集作为目标样本集；根据预训练的BERT模型获取目标样本集的拓展样本集；将目标样本集与所述拓展样本集合并得到总样本集，并根据总样本集对预设的文本分类模型进行训练。通过BERT模型能够预测初始样本集中的样本文本的相似文本，从而可得到大量的训练数据，解决了文本分类模型冷启动过程中，训练数据不足的问题。通过大量的训练数据来对文本分类模型进行训练，可使得文本分类模型能够达到很好的训练效果，避免了由于训练数据过少而导致文本分类模型出现过拟合。

Description

文本分类模型训练方法、装置、计算机设备及存储介质

技术领域

本发明涉及人工智能技术领域，尤其涉及一种文本分类模型训练方法、装置、计算机设备及存储介质。

背景技术

深度学习技术广泛的应用于文本分类中，训练深度学习模型需要大规模的有标注的语料。而现实场景中文本分类任务却面临整体数据缺失的问题，冷启动问题就是缺失数据问题典型场景。当有新的场景在现实中应用，此时还没有产生线上数据，我们面临一条训练数据都没有却要训练复杂模型的尴尬境地。现有的解决方案一般是通过了解业务的人员来人工定义一些关键词，当文本匹配上关键词时则将其分为关键词所在类别。

用关键词匹配的方法有明显的两个缺点，一是关键词匹配的准确率非常低，待分类的文本如果含有否定词则会表示完全相反含义，此时关键匹配完全不能正确分类。二是关键词的覆盖度不高，由于是业务人员猜想线上待分类文本的可能形式，并不能真正覆盖所有线上待分类文本的所有情况。

发明内容

本发明实施例提供了一种文本分类模型训练方法、装置、计算机设备及存储介质，旨在解决文本分类模型冷启动时，训练数据少导致训练效果差的问题。

第一方面，本发明实施例提供了一种文本分类模型训练方法，其包括：

获取预存的初始样本集作为目标样本集，所述初始样本集包括样本文本以及所述样本文本的标签；

根据预训练的BERT模型获取所述目标样本集的拓展样本集，所述拓展样本集中的样本文本是所述BERT模型对所述初始样本集中的样本文本进行预测后得到的；

将所述目标样本集与所述拓展样本集合并得到总样本集，并根据所述总样本集对预设的文本分类模型进行训练。

第二方面，本发明实施例还提供了一种文本分类模型训练装置，其包括：

第一获取单元，获取预存的初始样本集作为目标样本集，所述初始样本集包括样本文本以及所述样本文本的标签；

第二获取单元，用于根据预训练的BERT模型获取所述目标样本集的拓展样本集，所述拓展样本集中的样本文本是所述BERT模型对所述初始样本集中的样本文本进行预测后得到的；

第一训练单元，用于将所述目标样本集与所述拓展样本集合并得到总样本集，并根据所述总样本集对预设的文本分类模型进行训练。

第三方面，本发明实施例还提供了一种计算机设备，其包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现上述方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现上述方法。

本发明实施例提供了一种文本分类模型训练方法、装置、计算机设备及存储介质。其中，所述方法包括：获取预存的初始样本集作为目标样本集，所述初始样本集包括样本文本以及所述样本文本的标签；根据预训练的BERT模型获取所述目标样本集的拓展样本集，所述拓展样本集中的样本文本是所述BERT模型对所述初始样本集中的样本文本进行预测后得到的；将所述目标样本集与所述拓展样本集合并得到总样本集，并根据所述总样本集对预设的文本分类模型进行训练。本发明实施例的技术方案，获取预存的初始样本集作为目标样本集；根据预训练的BERT模型获取所述目标样本集的拓展样本集；将所述目标样本集与所述拓展样本集合并得到总样本集，并根据所述总样本集对预设的文本分类模型进行训练。通过BERT模型能够预测初始样本集中的样本文本的相似文本，从而可得到大量的训练数据，解决了文本分类模型冷启动过程中，训练数据不足的问题。通过总样本集中大量的训练数据来对文本分类模型进行训练，可使得文本分类模型能够达到很好的训练效果，避免了由于训练数据过少而导致文本分类模型出现过拟合。

附图说明

为了更清楚地说明本发明实施例技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例提供的一种文本分类模型训练方法的流程示意图；

图2为本发明实施例提供的一种文本分类模型训练方法的子流程示意图；

图3为本发明实施例提供的一种文本分类模型训练方法的子流程示意图；

图4为本发明实施例提供的一种文本分类模型训练方法的子流程示意图；

图5为本发明实施例提供的一种文本分类模型训练方法的子流程示意图；

图6为本发明实施例提供的一种文本分类模型训练方法的子流程示意图；

图7为本发明另一实施例提供的一种文本分类模型训练方法的流程示意图；

图8为本发明实施例提供的一种文本分类模型训练装置的示意性框图；

图9为本发明实施例提供的一种文本分类模型训练装置的第二获取单元的示意性框图；

图10为本发明实施例提供的一种文本分类模型训练装置的第一训练单元的示意性框图；

图11为本发明实施例提供的一种文本分类模型训练装置的第一分词单元的示意性框图；

图12为本发明实施例提供的一种文本分类模型训练装置的第一词向量训练单元的示意性框图；

图13为本发明实施例提供的一种文本分类模型训练装置的第二训练单元的示意性框图；

图14为本发明另一实施例提供的一种文本分类模型训练装置的示意性框图；

图15为本发明实施例提供的一种计算机设备的示意性框图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

应当理解，当在本说明书和所附权利要求书中使用时，术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在，但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。

还应当理解，在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样，除非上下文清楚地指明其它情况，否则单数形式的“一”、“一个”及“该”意在包括复数形式。

还应当进一步理解，在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合，并且包括这些组合。

如在本说明书和所附权利要求书中所使用的那样，术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地，短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。

请参阅图1，图1是本发明实施例提供的文本分类模型训练方法的流程示意图。本发明可应用于智慧政务/智慧城管/智慧社区/智慧安防/智慧物流/智慧医疗/智慧教育/智慧环保/智慧交通场景中，从而推动智慧城市的建设。如图所示，该方法包括以下步骤S1-S3。

S1，获取预存的初始样本集作为目标样本集，所述初始样本集包括样本文本以及所述样本文本的标签。

具体实施中，在冷启动场景下，模型的训练数据十分有限。初始样本集中包括少量由用户收集并标注标签的样本文本。初始样本集预先储存在终端中。

本发明实施例将根据初始样本集中少量的样本文本制造大量的样本文本来对文本分类模型进行训练。

S2，根据预训练的BERT模型获取所述目标样本集的拓展样本集，所述拓展样本集中的样本文本是所述BERT模型对所述初始样本集中的样本文本进行预测后得到的。

具体实施中，BERT模型的全称是Bidirectional Encoder Representations fromTransformers，其是由谷歌公司开发的一款语言模型。BERT模型具有预测相似文本的功能。预训练的BERT模型可从谷歌公司的官方网站下载。

本发明实施例中，可从互联网中获取经过训练的BERT模型。并由BERT模型预测目标样本集中的样本文本的一个或多个相似文本，并将预测结果存入到预设的拓展样本集中。

参见图2，在一实施例中，以上步骤S2具体包括如下步骤：S21-S25。

S21，从所述目标样本集中获取一样本文本作为第一目标样本文本。

具体实施中，从所述目标样本集中按顺序或者随机获取一样本文本作为第一目标样本文本。

S22，将所述第一目标样本文本以及所述第一目标样本文本的标签输入到所述BERT模型中。

具体实施中，BERT模型在接收到所述第一目标样本文本时，首先，随机将所述第一目标样本文本中的一个或者多个词语隐藏，并预测隐藏掉的词语的替代词。其中，预测到的替代词的标签与被隐藏掉的词的标签相同。

例如，在一实施例中，第一目标样本文本为“the actor is good”，标签为positive(积极)，BERT模型将“good”隐藏，并且根据标签预测“good”的替换词为“funny”以及“excellent”(good、funny以及excellent的标签均为positive)。则预测文本为“theactor is funny”以及“the actor is excellent”。

S23，接收所述BERT模型输出的预测文本，并将所述预测文本作为所述拓展样本集的样本文本存入到所述拓展样本集中，所述预测文本的标签与所述第一目标样本文本的标签相同。

具体实施中，将BERT模型输出的预测文本作为拓展样本集的样本文本存入到所述拓展样本集中。拓展样本集即为BERT模型对所述初始样本集进行拓宽后得到的。

需要说明的是，经过BERT模型预测得到的预测文本的标签与原先输入到BERT模型的第一目标样本文本的标签相同。

S24，将所述第一目标样本文本从所述目标样本集中移除，并判断所述目标样本集中是否存在样本文本。

具体实施中，在完成对第一目标样本文本的预测后，将第一目标样本文本从所述目标样本集中移除，以避免重复预测，以及减少后续读取步骤的计算量。

同时，判断所述目标样本集中是否存在样本文本。

S25，若所述目标样本集中存在样本文本，返回所述从所述目标样本集中获取一样本文本作为第一目标样本文本的步骤。

具体实施中，若所述目标样本集中存在样本文本，返回所述从所述目标样本集中获取一样本文本作为第一目标样本文本的步骤，如此循环，直到所述目标样本集中没有样本文本为止。

进一步地，若所述目标样本集中不存在样本文本，结束流程。

具体实施中，若所述目标样本集中不存在样本文本，结束流程，即步骤S2结束。

S3，将所述目标样本集与所述拓展样本集合并得到总样本集，并根据所述总样本集对预设的文本分类模型进行训练。

具体实施中，文本分类模型可例如为KNN以及textCNN等神经网络模型。

本发明实施例中，通过BERT模型来对初始样本集进行拓宽得到拓展样本集。将所述目标样本集与所述拓展样本集合并得到总样本集，并根据所述总样本集对预设的文本分类模型进行训练。

总样本集的样本数量明显比初始样本集的样本数量要多，因此，通过总样本集来训练得到的文本分类模型要远比单纯通过初始样本集训练得到的文本分类模型要准确。

参加图3，在一实施例中，以上步骤S3具体包括如下步骤S31-S33。

S31，对所述总样本集进行分词处理以得到分词样本集。

具体实施中，分词处理是文本处理中的一个基础步骤，对总样本集中的样本文本进行分词处理可得到分词文本，同时，将分词文本存入到分词样本集。

参加图4，在一实施例中，以上步骤S31具体包括如下步骤：S311-S313。

S311，通过预设的分词工具对所述总样本集中的样本文本进行分词处理以得到初始分词文本。

具体实施中，通过预设的分词工具对所述总样本集中的样本文本进行分词处理以得到所述样本文本的初始分词文本。常用的分词工具为结巴分词工具。本实施例中，通过结巴分词工具对所述总样本集中的样本文本进行分词处理以得到所述样本文本的初始分词文本。

或者，在其他实施例中，还可以采用其他分词工具，本发明对此不做具体限定。

S312，将所述样本文本的初始分词文本中的停止词去除以得到所述样本文本的分词文本。

具体实施中，将所述样本文本的初始分词文本中的停止词去除以得到所述样本文本的分词文本。

要说明的是，停止词(stop word)，常为介词、副词或连词等。停止词没有实际意义，因此需要去除。常用的停止词包括如"在"、"里面"、"也"、"的"、"它"、"为"等。

S313，将所述样本文本的分词文本存入到所述分词样本集中。

具体实施中，将所述样本文本的分词文本存入到所述分词样本集中。

S32，对所述分词样本集进行词向量训练以得到词向量样本集。

具体实施中，文本分类模型并不能直接识别分词文本。因此，需要对所述分词样本集中的分词文本进行词向量训练以得到分词文本的词向量，并将分词文本的词向量存入到词向量样本集中。通过词向量训练，可得到分词文本的词向量，以便文本分类模型能够识别。

参见图5，在一实施例中，以上步骤S32具体包括：S321-S322。

S321，通过预设的词向量训练工具对所述分词样本集中的分词文本进行词向量训练以得到所述分词文本的词向量。

具体实施中，词向量训练工具可具体为word2vec。通过word2vec对所述分词样本集中的分词文本进行词向量训练以得到所述分词文本的词向量。

或者在其他实施例中，也可采用其他的词向量训练工具，对此本发明不作具体限定。

需要说明的是，word2vec是一种常用的自然语言处理工具，其作用就是将自然语言中的字词转为文本分类模型可以理解的词向量。

S322，将所述分词文本的词向量存入到所述词向量样本集中。

具体实施中，将所述分词文本的词向量存入到所述词向量样本集中。

S33，通过所述词向量样本集对所述文本分类模型进行训练。

参见图6，在一实施例中，以上步骤S33具体包括：S331-S334。

S331，从所述词向量样本集中获取一词向量作为目标词向量。

S332，通过所述目标词向量对所述文本分类模型进行训练。

具体实施中，将所述目标词向量以及目标词向量的标签(即目标词向量对应的样本文本的标签)输入到所述文本分类模型中，以对所述文本分类模型进行训练。

S333，将所述目标词向量从所述词向量样本集中删除，并判断所述词向量样本集中是否还存在词向量。

具体实施中，在通过目标词向量对文本分类模型训练结束后，将所述目标词向量从所述词向量样本集中删除，可避免重复训练，导致文本分类模型过拟合。

同时，判断所述词向量样本集中是否还存在词向量。

S334，若所述词向量样本集中还存在词向量，返回所述从所述词向量样本集中获取一词向量作为目标词向量的步骤。

具体实施中，若所述词向量样本集中还存在词向量，返回所述从所述词向量样本集中获取一词向量作为目标词向量的步骤，如此循环，直到所述词向量样本集中没有词向量为止。

进一步地，若所述词向量样本集中不存在词向量，结束流程。

具体实施中，若所述词向量样本集中不存在词向量，结束流程，即步骤S33结束。

本发明的技术方案能带来的有益效果包括：

本发明实施例的技术方案，获取预存的初始样本集作为目标样本集；根据预训练的BERT模型获取所述目标样本集的拓展样本集；将所述目标样本集与所述拓展样本集合并得到总样本集，并根据所述总样本集对预设的文本分类模型进行训练。通过BERT模型能够预测初始样本集中的样本文本的相似文本，从而可得到大量的训练数据，解决了文本分类模型冷启动过程中，训练数据不足的问题。通过总样本集中大量的训练数据来对文本分类模型进行训练，可使得文本分类模型能够达到很好的训练效果，避免了由于训练数据过少而导致文本分类模型出现过拟合。

图7是本发明另一实施例提供的一种文本分类模型训练方法的流程示意图。如图7所示，本实施例的文本分类模型训练方法包括步骤S71-S75。

S71，获取预存的初始样本集作为目标样本集，所述初始样本集包括样本文本以及所述样本文本的标签。

S72，根据预训练的BERT模型获取所述目标样本集的拓展样本集，所述拓展样本集中的样本文本是所述BERT模型对所述初始样本集中的样本文本进行预测后得到的。

S73，将所述目标样本集与所述拓展样本集合并得到总样本集，判断所述总样本集包含的样本数量是否大于预设的数量阈值。

具体实施中，将所述目标样本集与所述拓展样本集合并得到总样本集，并判断所述总样本集包含的样本数量是否大于预设的数量阈值。数量阈值可由本领域技术人员根据经验进行设定。

例如，在一实施例中，数量阈值设定为10万。在总样本集中的样本数量达到一定数量时，才能达到对文本分类模型较好的训练效果。

S74，若所述总样本集包含的样本数量未大于预设的数量阈值，将所述总样本集作为新的目标样本集，并返回所述根据预训练的BERT模型获取所述目标样本集的拓展样本集的步骤。

具体实施中，若所述总样本集包含的样本数量未大于预设的数量阈值，将所述总样本集作为新的目标样本集，并返回所述根据预训练的BERT模型获取所述目标样本集的拓展样本集的步骤，如此循环，直到所述总样本集包含的样本数量大于预设的数量阈值为止。

S75，若所述总样本集包含的样本数量大于预设的数量阈值，根据所述总样本集对预设的文本分类模型进行训练的步骤。

具体实施中，若所述总样本集包含的样本数量大于预设的数量阈值，根据所述总样本集对预设的文本分类模型进行训练。

文本分类模型可例如为KNN以及textCNN等神经网络模型。

需要说明的是，训练后的文本分类模型可储存到区块链中，确保了文本分类模型的安全性。

图8是本发明实施例提供的一种文本分类模型训练装置70的示意性框图。如图8所示，对应于以上文本分类模型训练方法，本发明还提供一种文本分类模型训练装置70。该文本分类模型训练装置70包括用于执行上述文本分类模型训练方法的单元，该文本分类模型训练装置70可以被配置于台式电脑、平板电脑、手提电脑、等终端中。具体地，请参阅图8，该文本分类模型训练装置70包括第一获取单元71、第二获取单元72以及第一训练单元73。

第一获取单元71，获取预存的初始样本集作为目标样本集，所述初始样本集包括样本文本以及所述样本文本的标签；

第二获取单元72，用于根据预训练的BERT模型获取所述目标样本集的拓展样本集，所述拓展样本集中的样本文本是所述BERT模型对所述初始样本集中的样本文本进行预测后得到的；

第一训练单元73，用于将所述目标样本集与所述拓展样本集合并得到总样本集，并根据所述总样本集对预设的文本分类模型进行训练。

在一实施例中，如图9所示，所述第二获取单元72包括第三获取单元721、第一输入单元722、接收单元723、第一判断单元724以及第一返回单元725。

第三获取单元721，用于从所述目标样本集中获取一样本文本作为第一目标样本文本；

第一输入单元722，用于将所述第一目标样本文本以及所述第一目标样本文本的标签输入到所述BERT模型中；

接收单元723，用于接收所述BERT模型输出的预测文本，并将所述预测文本作为所述拓展样本集的样本文本存入到所述拓展样本集中，所述预测文本的标签与所述第一目标样本文本的标签相同；

第一判断单元724，用于将所述第一目标样本文本从所述目标样本集中移除，并判断所述目标样本集中是否存在样本文本；

第一返回单元725，用于若所述目标样本集中存在样本文本，返回所述从所述目标样本集中获取一样本文本作为第一目标样本文本的步骤。

在一实施例中，如图10所示，所述第一训练单元73包括第一分词单元731、第一词向量训练单元732以及第二训练单元733。

第一分词单元731，用于对所述总样本集进行分词处理以得到分词样本集；

第一词向量训练单元732，用于对所述分词样本集进行词向量训练以得到词向量样本集；

第二训练单元733，用于通过所述词向量样本集对所述文本分类模型进行训练。

在一实施例中，如图11所示，所述第一分词单元731包括第二分词单元7311、删除单元7312以及第一储存单元7313。

第二分词单元7311，用于通过预设的分词工具对所述总样本集中的样本文本进行分词处理以得到初始分词文本；

删除单元7312，用于将所述样本文本的初始分词文本中的停止词去除以得到所述样本文本的分词文本；

第一储存单元7313，用于将所述样本文本的分词文本存入到所述分词样本集中。

在一实施例中，如图12所示，所述第一词向量训练单元732包括第二词向量训练单元7321以及第二储存单元7322。

第二词向量训练单元7321，用于通过预设的词向量训练工具对所述分词样本集中的分词文本进行词向量训练以得到所述分词文本的词向量；

第二储存单元7322，将所述分词文本的词向量存入到所述词向量样本集中。

在一实施例中，如图13所示，所述第二训练单元733包括第四获取单元7331、第三训练单元7332、第二判断单元7333以及第二返回单元7334。

第四获取单元7331，用于从所述词向量样本集中获取一词向量作为目标词向量；

第三训练单元7332，用于通过所述目标词向量对所述文本分类模型进行训练；

第二判断单元7333，用于将所述目标词向量从所述词向量样本集中删除，并判断所述词向量样本集中是否还存在词向量；

第二返回单元7334，用于若所述词向量样本集中还存在词向量，返回所述从所述词向量样本集中获取一词向量作为目标词向量的步骤。

图14是本发明另一实施例提供的一种文本分类模型训练装置70的示意性框图。如图14所示，本实施例的文本分类模型训练装置70是上述实施例的基础上增加了第三判断单元74以及第三返回单元75。

第三判断单元74，用于判断所述总样本集包含的样本数量是否大于预设的数量阈值；

第三返回单元75，用于若所述总样本集包含的样本数量未大于预设的数量阈值，将所述总样本集作为新的目标样本集，并返回所述根据预训练的BERT模型获取所述目标样本集的拓展样本集的步骤。

需要说明的是，所属领域的技术人员可以清楚地了解到，上述文本分类模型训练装置70和各单元的具体实现过程，可以参考前述方法实施例中的相应描述，为了描述的方便和简洁，在此不再赘述。

上述文本分类模型训练装置70可以实现为一种计算机程序的形式，该计算机程序可以在如图15所示的计算机设备上运行。

请参阅图15，图15是本申请实施例提供的一种计算机设备的示意性框图。该计算机设备500可以是终端。其中，终端可以是智能手机、平板电脑、笔记本电脑、台式电脑、个人数字助理和穿戴式设备等具有通信功能的电子设备。

参阅图15，该计算机设备500包括通过系统总线501连接的处理器502、存储器和网络接口505，其中，存储器可以包括非易失性存储介质503和内存储器504。

该非易失性存储介质503可存储操作系统5031和计算机程序5032。该计算机程序5032被执行时，可使得处理器502执行一种文本分类模型训练方法。

该处理器502用于提供计算和控制能力，以支撑整个计算机设备500的运行。

该内存储器504为非易失性存储介质503中的计算机程序5032的运行提供环境，该计算机程序5032被处理器502执行时，可使得处理器502执行一种文本分类模型训练方法。

该网络接口505用于与其它设备进行网络通信。本领域技术人员可以理解，图15中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备500的限定，具体的计算机设备500可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

其中，所述处理器502用于运行存储在存储器中的计算机程序5032，以实现如下步骤：

在一实施例中，处理器502在实现所述根据预训练的BERT模型获取所述目标样本集的拓展样本集步骤时，具体实现如下步骤：

从所述目标样本集中获取一样本文本作为第一目标样本文本；

将所述第一目标样本文本以及所述第一目标样本文本的标签输入到所述BERT模型中；

接收所述BERT模型输出的预测文本，并将所述预测文本作为所述拓展样本集的样本文本存入到所述拓展样本集中，所述预测文本的标签与所述第一目标样本文本的标签相同；

将所述第一目标样本文本从所述目标样本集中移除，并判断所述目标样本集中是否存在样本文本；

若所述目标样本集中存在样本文本，返回所述从所述目标样本集中获取一样本文本作为第一目标样本文本的步骤。

在一实施例中，处理器502在实现所述根据所述总样本集对预设的文本分类模型进行训练步骤时，具体实现如下步骤：

对所述总样本集进行分词处理以得到分词样本集；

对所述分词样本集进行词向量训练以得到词向量样本集；

通过所述词向量样本集对所述文本分类模型进行训练。

在一实施例中，处理器502在实现所述对所述总样本集进行分词处理以得到分词样本集步骤时，具体实现如下步骤：

通过预设的分词工具对所述总样本集中的样本文本进行分词处理以得到初始分词文本；

将所述样本文本的初始分词文本中的停止词去除以得到所述样本文本的分词文本；

将所述样本文本的分词文本存入到所述分词样本集中。

在一实施例中，处理器502在实现所述对所述分词样本集进行词向量训练以得到词向量样本集步骤时，具体实现如下步骤：

通过预设的词向量训练工具对所述分词样本集中的分词文本进行词向量训练以得到所述分词文本的词向量；

将所述分词文本的词向量存入到所述词向量样本集中。

在一实施例中，处理器502在实现所述通过所述词向量样本集对所述文本分类模型进行训练步骤时，具体实现如下步骤：

从所述词向量样本集中获取一词向量作为目标词向量；

通过所述目标词向量对所述文本分类模型进行训练；

将所述目标词向量从所述词向量样本集中删除，并判断所述词向量样本集中是否还存在词向量；

若所述词向量样本集中还存在词向量，返回所述从所述词向量样本集中获取一词向量作为目标词向量的步骤。

在一实施例中，处理器502在实现所述根据所述总样本集对预设的文本分类模型进行训练步骤之前，还实现如下步骤：

判断所述总样本集包含的样本数量是否大于预设的数量阈值；

若所述总样本集包含的样本数量未大于预设的数量阈值，将所述总样本集作为新的目标样本集，并返回所述根据预训练的BERT模型获取所述目标样本集的拓展样本集的步骤；

若所述总样本集包含的样本数量大于预设的数量阈值，转到所述根据所述总样本集对预设的文本分类模型进行训练的步骤。

应当理解，在本申请实施例中，处理器502可以是中央处理单元(CentralProcessing Unit，CPU)，该处理器502还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现成可编程门阵列(Field-Programmable GateArray，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中，通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

本领域普通技术人员可以理解的是实现上述实施例的方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成。该计算机程序可存储于一存储介质中，该存储介质为计算机可读存储介质。该计算机程序被该计算机系统中的至少一个处理器执行，以实现上述方法的实施例的流程步骤。

因此，本发明还提供一种存储介质。该存储介质可以为计算机可读存储介质。该存储介质存储有计算机程序。该计算机程序被处理器执行时使处理器执行如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据预训练的BERT模型获取所述目标样本集的拓展样本集步骤时，具体实现如下步骤：

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据所述总样本集对预设的文本分类模型进行训练步骤时，具体实现如下步骤：

对所述总样本集进行分词处理以得到分词样本集；

对所述分词样本集进行词向量训练以得到词向量样本集；

通过所述词向量样本集对所述文本分类模型进行训练。

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述总样本集进行分词处理以得到分词样本集步骤时，具体实现如下步骤：

将所述样本文本的分词文本存入到所述分词样本集中。

在一实施例中，所述处理器在执行所述计算机程序而实现所述对所述分词样本集进行词向量训练以得到词向量样本集步骤时，具体实现如下步骤：

将所述分词文本的词向量存入到所述词向量样本集中。

在一实施例中，所述处理器在执行所述计算机程序而实现所述通过所述词向量样本集对所述文本分类模型进行训练步骤时，具体实现如下步骤：

从所述词向量样本集中获取一词向量作为目标词向量；

通过所述目标词向量对所述文本分类模型进行训练；

在一实施例中，所述处理器在执行所述计算机程序而实现所述根据所述总样本集对预设的文本分类模型进行训练步骤之前，还实现如下步骤：

所述存储介质为实体的、非瞬时性的存储介质，例如可以是U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、磁碟或者光盘等各种可以存储程序代码的实体存储介质。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的。例如，各个单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。

本发明实施例方法中的步骤可以根据实际需要进行顺序调整、合并和删减。本发明实施例装置中的单元可以根据实际需要进行合并、划分和删减。另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，终端，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详细描述的部分，可以参见其他实施例的相关描述。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，尚且本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种文本分类模型训练方法，其特征在于，包括：

2.根据权利要求1所述的文本分类模型训练方法，其特征在于，所述根据所述总样本集对预设的文本分类模型进行训练之前，所述方法还包括：

3.根据权利要求1所述的文本分类模型训练方法，其特征在于，所述根据预训练的BERT模型获取所述目标样本集的拓展样本集，包括：

4.根据权利要求1所述的文本分类模型训练方法，其特征在于，所述根据所述总样本集对预设的文本分类模型进行训练，包括：

对所述总样本集进行分词处理以得到分词样本集；

对所述分词样本集进行词向量训练以得到词向量样本集；

通过所述词向量样本集对所述文本分类模型进行训练。

5.根据权利要求4所述的文本分类模型训练方法，其特征在于，所述对所述总样本集进行分词处理以得到分词样本集，包括：

将所述样本文本的分词文本存入到所述分词样本集中。

6.根据权利要求4所述的文本分类模型训练方法，其特征在于，所述对所述分词样本集进行词向量训练以得到词向量样本集，包括：

将所述分词文本的词向量存入到所述词向量样本集中。

7.根据权利要求4所述的文本分类模型训练方法，其特征在于，所述通过所述词向量样本集对所述文本分类模型进行训练，包括：

从所述词向量样本集中获取一词向量作为目标词向量；

通过所述目标词向量对所述文本分类模型进行训练；

8.一种文本分类模型训练装置，其特征在于，包括：

9.一种计算机设备，其特征在于，所述计算机设备包括存储器及处理器，所述存储器上存储有计算机程序，所述处理器执行所述计算机程序时实现如权利要求1-7中任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序当被处理器执行时可实现如权利要求1-7中任一项所述的方法。