CN111339300A

CN111339300A - 文本分类方法及装置

Info

Publication number: CN111339300A
Application number: CN202010130101.6A
Authority: CN
Inventors: 卢健; 范奇峰; 崔月皎
Original assignee: Industrial and Commercial Bank of China Ltd ICBC
Current assignee: Industrial and Commercial Bank of China Ltd ICBC
Priority date: 2020-02-28
Filing date: 2020-02-28
Publication date: 2020-06-26
Anticipated expiration: 2040-02-28
Also published as: CN111339300B

Abstract

本发明公开了一种文本分类方法及装置，该方法包括：获取用于模型训练的文本；根据预设的文字与数字之间的对应关系确定所述用于模型训练的文本中的每个字对应的数字；根据所述用于模型训练的文本中的每个字对应的数字、所述用于模型训练的文本中每个字的位置以及所述用于模型训练的文本的分类生成第一格式数据；将所述第一格式数据作为训练数据采用预设的机器学习算法训练出文本分类模型，以根据训练好的文本分类模型进行文本分类。本发明的文本分类方法与现有技术方法相比提升了分类精度和分类速度。

Description

文本分类方法及装置

技术领域

本发明涉及机器学习领域，具体而言，涉及一种文本分类方法及装置。

背景技术

文本分类是NLP领域应用最广的技术之一，就是基于文本信息按一定的分类体系或标准进行自动分类标记。使用场景非常广泛，比如情感分析，信贷客户的舆情分析、行业分类、行外客户公私属性识别等。举个简单例子，如要根据户名识别公私属性，分别输入“茅台酒业、法提合·夏日夫、春城晚报、樊仲芳子、范江宗正、吉锅小米线”，则分类器将分别标记为“法人、个人、法人、个人、个人、法人”。常见的文本分类方法有基于传统机器学习的文本分类，如TF-IDF文本分类等；基于深度学习的文本分类，如FaceBook开源的Fasttext文本分类，Text-CNN文本分类等。现有技术的这些分类算法存在分类精度和速度不够理想的问题。

发明内容

本发明为了解决上述背景技术中的至少一个技术问题，提出了一种文本分类方法及装置。

为了实现上述目的，根据本发明的一个方面，提供了一种文本分类方法，该方法包括：

获取用于模型训练的文本；

根据预设的文字与数字之间的对应关系确定所述用于模型训练的文本中的每个字对应的数字；

根据所述用于模型训练的文本中的每个字对应的数字、所述用于模型训练的文本中每个字的位置以及所述用于模型训练的文本的分类生成第一格式数据；

将所述第一格式数据作为训练数据采用预设的机器学习算法训练出文本分类模型，以根据训练好的文本分类模型进行文本分类。

可选的，该文本分类方法还包括：

获取待分类的文本；

根据所述文字与数字之间的对应关系确定所述待分类的文本中的每个字对应的数字；

根据所述待分类的文本中的每个字对应的数字、所述待分类的文本中每个字的位置生成第二格式数据；

将所述第二格式数据输入到训练好的文本分类模型中，得到所述待分类的文本的分类。

可选的，所述将所述第一格式数据作为训练数据采用预设的机器学习算法训练出文本分类模型，包括：

将所述第一格式数据作为训练数据采用LightGBM算法训练出文本分类模型，其中，在训练文本分类模型时将所述第一格式数据中的所述待分类的文本中的每个字对应的数字设置为分类型变量。

可选的，所述第一格式数据中包括：所述用于模型训练的文本的分类编号、所述用于模型训练的文本中每个字的位置序号以及所述用于模型训练的文本中的每个字对应的数字。

可选的，所述第二格式数据中包括：所述待分类的文本中每个字的位置序号以及所述待分类的文本中的每个字对应的数字。

为了实现上述目的，根据本发明的另一方面，提供了一种文本分类装置，该装置包括：

训练文本获取单元，用于获取用于模型训练的文本；

数据字典单元，用于根据预设的文字与数字之间的对应关系确定所述用于模型训练的文本中的每个字对应的数字；

第一格式数据生成单元，用于根据所述用于模型训练的文本中的每个字对应的数字、所述用于模型训练的文本中每个字的位置以及所述用于模型训练的文本的分类生成第一格式数据；

模型训练单元，用于将所述第一格式数据作为训练数据采用预设的机器学习算法训练出文本分类模型，以根据训练好的文本分类模型进行文本分类。

可选的，该文本分类装置还包括：

待分类文本获取单元，用于获取待分类的文本；

所述数据字典单元，还用于根据所述文字与数字之间的对应关系确定所述待分类的文本中的每个字对应的数字；

第二格式数据生成单元，用于根据所述待分类的文本中的每个字对应的数字、所述待分类的文本中每个字的位置生成第二格式数据；

文本分类单元，用于将所述第二格式数据输入到训练好的文本分类模型中，得到所述待分类的文本的分类。

可选的，所述模型训练单元，具体用于将所述第一格式数据作为训练数据采用LightGBM算法训练出文本分类模型，其中，在训练文本分类模型时将所述第一格式数据中的所述待分类的文本中的每个字对应的数字设置为分类型变量。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述文本分类方法中的步骤。

为了实现上述目的，根据本发明的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述文本分类方法中的步骤。

本发明的有益效果为：本发明提出了一种新的文字编码方式，根据用于模型训练的文本中的每个字对应的数字、用于模型训练的文本中每个字的位置以及用于模型训练的文本的分类生成第一格式数据，进而将第一格式数据作为训练训练出文本分类模型，与现有技术方法相比提升了分类精度和分类速度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。在附图中：

图1是本发明实施例文本分类方法的第一流程图；

图2是本发明实施例文本分类方法的第二流程图；

图3是本发明实施例文本分类装置的第一结构框图；

图4是本发明实施例文本分类装置的第二结构框图；

图5是本发明实施例计算机设备示意图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

需要说明的是，在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

本发明提出了一种文本分类方法，该方法应用新的文字编码方式，并配合LightGBM算法(梯度提升树算法的一种)在户名属性识别场景取得了一种很好的分类效果。本发明的文本分类方法在根据户名识别公私属性场景中有较好的应用效果。

下面将从文本分类模型的训练以及根据训练好的文本分类模型进行文本分类两个方面对本发明的文本分类方法进行介绍。

图1是本发明实施例文本分类方法的第一流程图，为文本分类模型的训练流程，如图1所示，本发明实施例的文本分类模型的训练流程包括步骤S101至步骤S104。

步骤S101，获取用于模型训练的文本。

步骤S102，根据预设的文字与数字之间的对应关系确定所述用于模型训练的文本中的每个字对应的数字。

在本发明实施例中，本发明对所有文字建立映射字典，字典的键为单文字或符号，值为给它的整数编号，即将所有文字用一个整数数字代替，且每个数字只代表一个文字符号。如：{'啊':0，'阿':1...'工':35...'行':40...'商':278...'银':797...}。进而本步骤可以根据上述映射字典确定出用于模型训练的文本中的每个字对应的数字。

步骤S103，根据所述用于模型训练的文本中的每个字对应的数字、所述用于模型训练的文本中每个字的位置以及所述用于模型训练的文本的分类生成第一格式数据。

在本发明实施例中，针对用于模型训练的文本先标注出文本的分类。例如在根据户名识别公私属性场景中，文本为户名，文本的分类包括法人客户和个人客户。针对其他应用场景，文本及文本的分类可以不同。

本发明应用新的文字编码方式，根据用于模型训练的文本中每个字的位置、每个字对应的数字以及文本的分类生成用于模型训练的文本对应的第一格式数据。在本发明实施例中，所述第一格式数据中包括：所述用于模型训练的文本的分类编号、所述用于模型训练的文本中每个字的位置序号以及所述用于模型训练的文本中的每个字对应的数字。

在本发明的一个可选实施例中，第一格式数据的数据结构可以为：

“Label index0:value0 index1:value1....”

其中，Label为用于模型训练的文本的分类编号，在根据户名识别公私属性场景中，1表示法人客户，0表示个人客户。index表示文本的第i个字，对应“:”后面的value为该字对应的数字，之间由空格隔开。

本步骤根据上述方法将用于模型训练的文本转化为一种新的文字编码方式，例如：

法人客户：“工商银行”＝>“1 0:35 1:278 2:797 3:40”

个人客户：“李白”＝>“0 0:690 1:368”

步骤S104，将所述第一格式数据作为训练数据采用预设的机器学习算法训练出文本分类模型，以根据训练好的文本分类模型进行文本分类。

在本发明可选实施例中，本步骤具体可以将所述第一格式数据作为训练数据采用LightGBM算法训练出文本分类模型，通过模型调参，输出最佳拟合的模型用于预测。与数值型变量的拟合方式不同，决策树类模型(LightGBM算法)在处理分类型变量时，会按是否等于当前值来分裂子叶节点。等于当前节点的分到左边叶子，否则全部分到右边叶子。而数值型变量的分裂方式是小于等于当前数值的分到左边叶子，大于当前阈值的分到右边叶子。因此在采用LightGBM算法训练文本分类模型时将所述第一格式数据中的所述待分类的文本中的每个字对应的数字设置为分类型变量。

由以上实施例可以看出，本发明提出了一种新的文字编码方式，根据用于模型训练的文本中的每个字对应的数字、用于模型训练的文本中每个字的位置以及用于模型训练的文本的分类生成第一格式数据，进而将第一格式数据作为训练训练出文本分类模型，与现有技术方法相比提升了分类精度和分类速度。

图2是本发明实施例文本分类方法的第二流程图，为根据训练好的文本分类模型进行文本分类的流程，如图1所示，本发明实施例的根据训练好的文本分类模型进行文本分类的流程包括步骤S201至步骤S204。

步骤S201，获取待分类的文本。

步骤S202，根据所述文字与数字之间的对应关系确定所述待分类的文本中的每个字对应的数字。

本步骤采用的方法和上述步骤S102一致，具体不再赘述。

步骤S203，根据所述待分类的文本中的每个字对应的数字、所述待分类的文本中每个字的位置生成第二格式数据。

由于待分类的文本不存在事先标注的分类，因此不能采用和上述用于模型训练的第一格式数据相同的数据结构。在本发明实施例中，所述第二格式数据中包括：所述待分类的文本中每个字的位置序号以及所述待分类的文本中的每个字对应的数字。

在本发明的一个可选实施例中，第二格式数据的数据结构可以为：

“index0:value0 index1:value1....”

其中，index表示待分类的文本的第i个字，对应“:”后面的value为该字对应的数字，之间由空格隔开。

步骤S204，将所述第二格式数据输入到训练好的文本分类模型中，得到所述待分类的文本的分类。

由以上实施例可以看出，在数据预处理上本发明需要将每个字转化为数字，而fasttext需要将每个字按空格分开，时间复杂度基本一样都需要遍历每个字。本发明根据包含公司名称、个人名称共102万的标注数据对本发明的文本分类方法的效果做了测试，并与FastText进行了对比。测试结果如下：

从测试效果来看，对于户名识别这类规律性比较强的场景，例如文本首字、文本长度、文本末字等特征，个人和公司的户名有明显区别，使用本发明编码方式的梯度提升树算法效果明显更优。本发明的方法与现有技术相比在模型训练时间以及分类精度上都有一定的提升。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

基于同一发明构思，本发明实施例还提供了一种文本分类装置，可以用于实现上述实施例所描述的文本分类方法，如下面的实施例所述。由于文本分类装置解决问题的原理与文本分类方法相似，因此文本分类装置的实施例可以参见文本分类方法的实施例，重复之处不再赘述。以下所使用的，术语“单元”或者“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图3是本发明实施例文本分类装置的第一结构框图，如图3所示，本发明实施例文本分类装置包括：训练文本获取单元1、数据字典单元2、第一格式数据生成单元3和模型训练单元4。

训练文本获取单元1，用于获取用于模型训练的文本。

数据字典单元2，用于根据预设的文字与数字之间的对应关系确定所述用于模型训练的文本中的每个字对应的数字。

第一格式数据生成单元3，用于根据所述用于模型训练的文本中的每个字对应的数字、所述用于模型训练的文本中每个字的位置以及所述用于模型训练的文本的分类生成第一格式数据。

在本发明可选实施例中，所述第一格式数据中包括：所述用于模型训练的文本的分类编号、所述用于模型训练的文本中每个字的位置序号以及所述用于模型训练的文本中的每个字对应的数字。

模型训练单元4，用于将所述第一格式数据作为训练数据采用预设的机器学习算法训练出文本分类模型，以根据训练好的文本分类模型进行文本分类。

在本发明可选实施例中，所述模型训练单元4，具体用于将所述第一格式数据作为训练数据采用LightGBM算法训练出文本分类模型，其中，在训练文本分类模型时将所述第一格式数据中的所述待分类的文本中的每个字对应的数字设置为分类型变量。

图4是本发明实施例文本分类装置的第二结构框图，如图4所示，本发明实施例文本分类装置还包括：待分类文本获取单元5、第二格式数据生成单元6和文本分类单元7。

待分类文本获取单元5，用于获取待分类的文本。

所述数据字典单元2，还用于根据所述文字与数字之间的对应关系确定所述待分类的文本中的每个字对应的数字。

第二格式数据生成单元6，用于根据所述待分类的文本中的每个字对应的数字、所述待分类的文本中每个字的位置生成第二格式数据。

在本发明可选实施例中，述第二格式数据中包括：所述待分类的文本中每个字的位置序号以及所述待分类的文本中的每个字对应的数字。

文本分类单元7，用于将所述第二格式数据输入到训练好的文本分类模型中，得到所述待分类的文本的分类。

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机设备。如图5所示，该计算机设备包括存储器、处理器、通信接口以及通信总线，在存储器上存储有可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述实施例方法中的步骤。

处理器可以为中央处理器(Central Processing Unit，CPU)。处理器还可以为其他通用处理器、数字信号处理器(Digital Signal Processor，DSP)、专用集成电路(Application Specific Integrated Circuit，ASIC)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片，或者上述各类芯片的组合。

存储器作为一种非暂态计算机可读存储介质，可用于存储非暂态软件程序、非暂态计算机可执行程序以及单元，如本发明上述方法实施例中对应的程序单元。处理器通过运行存储在存储器中的非暂态软件程序、指令以及模块，从而执行处理器的各种功能应用以及作品数据处理，即实现上述方法实施例中的方法。

存储器可以包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需要的应用程序；存储数据区可存储处理器所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非暂态存储器，例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中，存储器可选包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至处理器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

所述一个或者多个单元存储在所述存储器中，当被所述处理器执行时，执行上述实施例中的方法。

上述计算机设备具体细节可以对应参阅上述实施例中对应的相关描述和效果进行理解，此处不再赘述。

为了实现上述目的，根据本申请的另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序在计算机处理器中执行时实现上述文本分类方法中的步骤。本领域技术人员可以理解，实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)、随机存储记忆体(RandomAccessMemory，RAM)、快闪存储器(Flash Memory)、硬盘(Hard Disk Drive，缩写：HDD)或固态硬盘(Solid-State Drive，SSD)等；所述存储介质还可以包括上述种类的存储器的组合。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本分类方法，其特征在于，包括：

获取用于模型训练的文本；

2.根据权利要求1所述的文本分类方法，其特征在于，还包括：

获取待分类的文本；

3.根据权利要求1所述的文本分类方法，其特征在于，所述将所述第一格式数据作为训练数据采用预设的机器学习算法训练出文本分类模型，包括：

4.根据权利要求1所述的文本分类方法，其特征在于，所述第一格式数据中包括：所述用于模型训练的文本的分类编号、所述用于模型训练的文本中每个字的位置序号以及所述用于模型训练的文本中的每个字对应的数字。

5.根据权利要求2所述的文本分类方法，其特征在于，所述第二格式数据中包括：所述待分类的文本中每个字的位置序号以及所述待分类的文本中的每个字对应的数字。

6.一种文本分类装置，其特征在于，包括：

训练文本获取单元，用于获取用于模型训练的文本；

7.根据权利要求6所述的文本分类装置，其特征在于，还包括：

待分类文本获取单元，用于获取待分类的文本；

8.根据权利要求6所述的文本分类装置，其特征在于，所述模型训练单元，具体用于将所述第一格式数据作为训练数据采用LightGBM算法训练出文本分类模型，其中，在训练文本分类模型时将所述第一格式数据中的所述待分类的文本中的每个字对应的数字设置为分类型变量。

9.根据权利要求6所述的文本分类装置，其特征在于，所述第一格式数据中包括：所述用于模型训练的文本的分类编号、所述用于模型训练的文本中每个字的位置序号以及所述用于模型训练的文本中的每个字对应的数字。

10.根据权利要求7所述的文本分类装置，其特征在于，所述第二格式数据中包括：所述待分类的文本中每个字的位置序号以及所述待分类的文本中的每个字对应的数字。

11.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至5任一项所述的方法。

12.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序在计算机处理器中执行时实现如权利要求1至5任意一项所述的方法。