CN111209394A

CN111209394A - 文本分类处理方法和装置

Info

Publication number: CN111209394A
Application number: CN201911360673.7A
Authority: CN
Inventors: 张禄; 及洪泉; 姚晓明; 胡彩娥; 丁屹峰; 王培祎; 马龙飞; 陆斯悦; 王健; 徐蕙
Original assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Current assignee: State Grid Corp of China SGCC; State Grid Beijing Electric Power Co Ltd
Priority date: 2019-12-25
Filing date: 2019-12-25
Publication date: 2020-05-29
Also published as: WO2021128721A1

Abstract

本发明公开了一种文本分类处理方法和装置。其中，该方法包括：获取待分类的文本；将待分类的文本输入到模型当中，其中，模型为使用训练数据通过机器学习训练所得到的；将从模型中获取的输出作为待分类的文本对应的类别；保存待分类的文本和其对应的类别。本发明解决了现有技术依靠人工方式对文本进行分类的技术问题。

Description

文本分类处理方法和装置

技术领域

本发明涉及文本分类领域，具体而言，涉及一种文本分类处理方法和装置。

背景技术

在泛在电力物联网的大背景下，95598客户服务系统作为泛在电力物联网应用的重要组成部分，登记了海量客户信息。当前主要依靠人工统计工单分析，产生效率不足等相关问题。由于在95598客户诉求数据量较大，人工分类效率低，无法做到精准高效分类。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本发明实施例提供了一种文本分类处理方法和装置，以至少解决现有技术依靠人工方式对文本进行分类的技术问题。

根据本发明实施例的一个方面，提供了一种文本分类处理方法，包括：获取待分类的文本；将所述待分类的文本输入到模型当中，其中，所述模型为使用训练数据通过机器学习训练所得到的；将从所述模型中获取的输出作为所述待分类的文本对应的类别；保存所述待分类的文本和其对应的类别。

可选地，在获取所述待分类的文本之前，所述方法还包括：使用多组训练数据通过机器学习进行训练得到所述模型。

可选地，通过机器学习进行训练得到所述模型包括：使用第一语料集进行预训练得到第一模型；使用第二语料集对所述第一模型进行迭代训练得到所述模型，其中，所述第二语料集包括多组数据，每一组数据均包括文本以及该文本所对应的类别。

可选地，使用所述第一语料集进行预训练得到第一模型包括：通过BERT使用所述第一语料集进行训练得到所述第一模型，其中，在所述训练中掩盖语料集中的每一条语料的部分内容，所述训练用于预测所掩盖的内容。

可选地，所述文本包括工单文本，所述类别包括：工单的类型，其中，所述类型包括至少一类。

根据本发明实施例的另一方面，还提供了一种文本分类处理装置，包括：获取模块，用于获取待分类的文本；输入模块，用于将所述待分类的文本输入到模型当中，其中，所述模型为使用训练数据通过机器学习训练所得到的；输出模块，用于将从所述模型中获取的输出作为所述待分类的文本对应的类别；保存模块，用于保存所述待分类的文本和其对应的类别。

可选地，还包括：训练模块，用于使用多组训练数据通过机器学习进行训练得到所述模型。

可选地，所述训练模块包括：第一训练单元，用于使用第一语料集进行预训练得到第一模型；第二训练单元，用于使用第二语料集对所述第一模型进行迭代训练得到所述模型，其中，所述第二语料集包括多组数据，每一组数据均包括文本以及该文本所对应的类别。

可选地，所述第一训练单元用于：通过BERT使用所述第一语料集进行训练得到所述第一模型，其中，在所述训练中掩盖语料集中的每一条语料的部分内容，所述训练用于预测所掩盖的内容。

根据本发明实施例的另一方面，还提供了一种存储介质，所述存储介质包括存储的程序，其中，在所述程序运行时控制所述存储介质所在设备执行上述中任意一项所述的文本分类处理方法。

根据本发明实施例的另一方面，还提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行上述中任意一项所述的文本分类处理方法。

在本发明实施例中，采用获取待分类的文本；将所述待分类的文本输入到模型当中，其中，所述模型为使用训练数据通过机器学习训练所得到的；将从所述模型中获取的输出作为所述待分类的文本对应的类别；保存所述待分类的文本和其对应的类别的方式，通过机器学习训练得到的模型识别待分类的文本对应的类别，并进行保存，达到了快速、准确进行分类的目的，从而实现了提高文本分类效率的技术效果，进而解决了现有技术依靠人工方式对文本进行分类技术问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的文本分类处理方法的流程图；

图2是根据本发明可选实施例的分类模型的训练的流程图；

图3是根据本发明实施例的文本分类处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本发明实施例，提供了一种文本分类处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的文本分类处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤S102，获取待分类的文本；

上述待分类的文本包括但不限于工单，其中，可以通过多种方式获取待分类的文本，例如，利用爬取软件、人工录入等。在具体实施过程中，利用多种方式获取待分类的文本，可以扩展待分类的文本来源，以适用于多种应用场景。

步骤S104，将待分类的文本输入到模型当中，其中，模型为使用训练数据通过机器学习训练所得到的；

在上述模型为分类模型时，可以通过该模型对待分类的文本进行处理。可选地，该模型为工单分类模型。需要说明的是，上述模型是使用训练数据通过机器学习训练所得到的，可以实现文本的自动分类。

步骤S106，将从模型中获取的输出作为待分类的文本对应的类别；

通过上述模型可以将输入的待分类的文本，对应输出其对应的类别，该模型可以有效提高分类精度，提高文本分类效率。

步骤S108，保存待分类的文本和其对应的类别。

作为一种可选的实施例，可以将待分类的文本和其对应的类别以预定格式进行保存，其中，该预定格式包括文本属性和类别属性，可以将待分类的文本保存在文本属性的位置，将待分类的文本对应的类别保存在类别属性的位置。需要说明的是，在具体实施过程中，并不仅限于上述方式。

通过上述步骤，可以通过机器学习训练得到的模型识别待分类的文本对应的类别，并进行保存，达到了快速、准确进行分类的目的，从而实现了提高文本分类效率的技术效果，进而解决了现有技术依靠人工方式对文本进行分类技术问题。

可选地，在获取待分类的文本之前，方法还包括：使用多组训练数据通过机器学习进行训练得到模型。

上述使用多组训练数据也就是使用大量的训练数据，因此，基于大量的训练数据通过机器学习训练得到的模型，该模型的识别或者预测效果更好、使得分类精度、准确度得到很大的提升。

作为一种可选的实施例，在训练模型过程中，可以利用Transformer中的attention机制代替原本的循环神经网络(Recurrent Neural Network，简称为RNN)，而RNN在训练的时候，当前步的计算要依赖于上一步的隐含状态，也就是说这是一个序列的过程，每次计算都要等之前的计算完成才能展开。而Transformer不用RNN，所有的计算都可以并行进行，从而提高的训练的速度。

另外，在RNN里，如果第一帧要和第十帧建立依赖，那么第一帧的数据要依次经过第二三四五...九帧传给第十帧，进而产生二者的计算。而在这个传递的过程中，可能第一帧的数据已经产生了偏差，因此这个交互的速度和准确性都没有保障，而在Transformer中，由于有self attention的存在，任意两帧之间都有直接的交互，从而建立了直接的依赖，无论二者距离多远，这样可以提高训练的准确性。

可选地，通过机器学习进行训练得到模型包括：使用第一语料集进行预训练得到第一模型；使用第二语料集对第一模型进行迭代训练得到模型，其中，第二语料集包括多组数据，每一组数据均包括文本以及该文本所对应的类别。

可以通过第一语料集以及第二语料集分别对第一模型进行预训练、迭代训练得到最终的模型。无论是第一语料集，还是第二语料集均包括多组数据，每一组数据均包括文本以及该文本所对应的类别。通过上述的不同的训练方式，能够不断对模型进行调优与更新，有效提高模型的稳定性。

可选地，使用第一语料集进行预训练得到第一模型包括：通过BERT使用第一语料集进行训练得到第一模型，其中，在训练中掩盖语料集中的每一条语料的部分内容，训练用于预测所掩盖的内容。

上述BERT包括Transformer编码器，其中，在用于预测所掩盖的内容时，掩盖与屏蔽词对应的所有标记。同时在保证整体掩蔽率保持不变的情况下，第一模型可以独立地预测每个掩蔽词的标记。

可选地，文本包括工单文本，类别包括：工单的类型，其中，类型包括至少一类。

上述单文本可以包括但不限于95598工单，其中，工单的类型可以根据应用需求进行划分，比如，可以根据距离、录入时间、工单级别等划分不同的工单类型。

下面对本发明一种可选的实施方式进行说明。

以95598工单为例，图2是根据本发明可选实施例的分类模型的训练的流程图，如图2所示，在客服接入时，客服将工单内容人工录入类别与文本两个部分，在对类别与文本分别做相应的清洗校对工作后，文本内容进入已经训练好的分类模型中。随后将分类模型的预测数据与人工录入的类别进行比对，得到当前模型的评价指标用以评估当前模型性能。

同时通过当前模型性能判断是否需要使用新的比对结果与文本内容继续对模型进行调优与更新。这样可以确保模型的实时效果，避免出现不确定的模型偏差，并且为模型提供了持续使用及优化的可能性。

需要说明的是，在上述实施过程中，可以为95598工单提供自动化的基于文本内容的分类功能；具有模型性能的实时监控与显示功能，为模型维护提供便利；模型具备持续更新优化的能力，能够在实际业务过程中不断调优；针对文本工单的趋势变化，具备一定的适应能力；模型在实际业务过程中的使用方式。

另外，通过上述工单分类模型，不仅提高了预测精度，还能够实现业务中要求的工单分类功能。

实施例2

根据本发明实施例的另外一个方面，还提供了一种用于执行上述实施例1中的文本分类处理方法的装置实施例，图3是根据本发明实施例的文本分类处理装置的示意图，如图3所示，该文本分类处理装置包括：获取模块302，输入模块304，输出模块306以及保存模块308。下面对该文本分类处理装置进行详细说明。

获取模块302，用于获取待分类的文本；

输入模块304，连接至上述获取模块302，用于将待分类的文本输入到模型当中，其中，模型为使用训练数据通过机器学习训练所得到的；

输出模块306，连接至上述输入模块304，用于将从模型中获取的输出作为待分类的文本对应的类别；

保存模块308，连接至上述输出模块306，用于保存待分类的文本和其对应的类别。

上述装置可以通过机器学习训练得到的模型识别待分类的文本对应的类别，并进行保存，达到了快速、准确进行分类的目的，从而实现了提高文本分类效率的技术效果，进而解决了现有技术依靠人工方式对文本进行分类技术问题。

此处需要说明的是，上述获取模块302，输入模块304，输出模块306以及保存模块308对应于实施例1中的步骤S102至S108，上述模块与对应的步骤所实现的示例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块作为装置的一部分可以在诸如一组计算机可执行指令的计算机系统中执行。

可选地，还包括：训练模块，用于使用多组训练数据通过机器学习进行训练得到模型。

作为一种可选的实施例，在训练模型过程中，可以利用Transformer中的attention机制代替原本的RNN，而RNN在训练的时候，当前步的计算要依赖于上一步的隐含状态，也就是说这是一个序列的过程，每次计算都要等之前的计算完成才能展开。而Transformer不用RNN，所有的计算都可以并行进行，从而提高的训练的速度。

可选地，训练模块包括：第一训练单元，用于使用第一语料集进行预训练得到第一模型；第二训练单元，用于使用第二语料集对第一模型进行迭代训练得到模型，其中，第二语料集包括多组数据，每一组数据均包括文本以及该文本所对应的类别。

可选地，第一训练单元用于：通过BERT使用第一语料集进行训练得到第一模型，其中，在训练中掩盖语料集中的每一条语料的部分内容，训练用于预测所掩盖的内容。

上述BERT的全称为Bidirection Encoder Representations fromTransformers，可以通过训练Masked Language Model和预测下一句任务得到相应的模型。

实施例3

根据本发明实施例的另一方面，还提供了一种存储介质，存储介质包括存储的程序，其中，在程序运行时控制存储介质所在设备执行上述中任意一项的文本分类处理方法。

实施例4

根据本发明实施例的另一方面，还提供了一种处理器，处理器用于运行程序，其中，程序运行时执行上述中任意一项的文本分类处理方法。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

Claims

1.一种文本分类处理方法，其特征在于，包括：

获取待分类的文本；

将所述待分类的文本输入到模型当中，其中，所述模型为使用训练数据通过机器学习训练所得到的；

将从所述模型中获取的输出作为所述待分类的文本对应的类别；

保存所述待分类的文本和其对应的类别。

2.根据权利要求1所述的方法，其特征在于，在获取所述待分类的文本之前，所述方法还包括：

使用多组训练数据通过机器学习进行训练得到所述模型。

3.根据权利要求2所述的方法，其特征在于，通过机器学习进行训练得到所述模型包括：

使用第一语料集进行预训练得到第一模型；

使用第二语料集对所述第一模型进行迭代训练得到所述模型，其中，所述第二语料集包括多组数据，每一组数据均包括文本以及该文本所对应的类别。

4.根据权利要求3所述的方法，其特征在于，使用所述第一语料集进行预训练得到第一模型包括：

通过BERT使用所述第一语料集进行训练得到所述第一模型，其中，在所述训练中掩盖语料集中的每一条语料的部分内容，所述训练用于预测所掩盖的内容。

5.根据权利要求1至4中任一项所述的方法，其特征在于，所述文本包括工单文本，所述类别包括：工单的类型，其中，所述类型包括至少一类。

6.一种文本分类处理装置，其特征在于，包括：

获取模块，用于获取待分类的文本；

输入模块，用于将所述待分类的文本输入到模型当中，其中，所述模型为使用训练数据通过机器学习训练所得到的；

输出模块，用于将从所述模型中获取的输出作为所述待分类的文本对应的类别；

保存模块，用于保存所述待分类的文本和其对应的类别。

7.根据权利要求6所述的装置，其特征在于，还包括：

训练模块，用于使用多组训练数据通过机器学习进行训练得到所述模型。

8.根据权利要求7所述的装置，其特征在于，所述训练模块包括：

第一训练单元，用于使用第一语料集进行预训练得到第一模型；

第二训练单元，用于使用第二语料集对所述第一模型进行迭代训练得到所述模型，其中，所述第二语料集包括多组数据，每一组数据均包括文本以及该文本所对应的类别。

9.根据权利要求8所述的装置，其特征在于，所述第一训练单元用于：

10.根据权利要求6至9中任一项所述的装置，其特征在于，所述文本包括工单文本，所述类别包括：工单的类型，其中，所述类型包括至少一类。