CN111737465A

CN111737465A - 一种多层级多类别的中文文本分类的实现方法及装置

Info

Publication number: CN111737465A
Application number: CN202010542735.2A
Authority: CN
Inventors: 代晓菊; 丁富强; 陆晋军; 孙海; 蒋润青; 张亮; 李铮; 钱志骥
Original assignee: Shanghai Ideal Information Industry Group Co Ltd
Current assignee: Shanghai Ideal Information Industry Group Co Ltd
Priority date: 2020-06-15
Filing date: 2020-06-15
Publication date: 2020-10-02

Abstract

本发明公开了一种多层级多类别的中文文本分类的实现方法及装置，该方法包括如下步骤：步骤S1，结合训练数据集合中的实际分类体系的树形结构，构建与该树形结构对应的N层文本分类多叉树，根据所述N层文本分类多叉树的结构，将所述训练数据集合中的训练数据分别写入到各层级对应的分类文件中；步骤S2，对各分类文件的中文文本进行分词，并进行特征选择保存到对应的特征文件中；步骤S3，选择分类算法，并设定、调整算法参数集，将步骤S2保存的特征文件数据导入所述分类算法中，迭代生成训练数据的每个分类与子分类模型并保存。

Description

一种多层级多类别的中文文本分类的实现方法及装置

技术领域

本发明涉及自然语言处理和机器学习技术领域，特别是涉及一种多层级多类别的中文文本分类的实现方法及装置。

背景技术

文本分类是计算机对自然语言按照一定的类目体系进行自动化归类的过程，在很多领域有重大应用，例如以电信10000号客服中心平台为例，希望能够通过自动文本分类的手段，实现客户来访工单的准确分类及快速记录，从而达到加快现场话务员服务响应能效，提升整体服务质量，提高热线整体运营数据分析的智能化程度，优化管理的效果。

目前随着机器学习的研究逐渐深入，文本分类方法不断改进，目前在文本分类领域的研究取得较大进展，很多研究提出了多层级多类别的分类体系。

这种多层级多类别的分类体系是指，多个类别的层级之间是递进关系，一般是首先分为几大类，每一大类中包含若干中类，每个中类中又包含若干小类，每一小类下再分小小类，如此顺延，最后，每一个文本都可以分到某一个类目下，而其中的大类、中类、小类、小小类等之间存在着自上而下的逻辑关系。多层级多类别的文本分类不仅费时费力，覆盖的范围和准确率也非常有限，如何快速精确地对多层级多类别的中文文本分类是一个重要的研究范畴。

然而，现有技术中，在多层级多类别的中文文本方向，由于多层级多类别和大规模文本数据及不均衡性的限制，多层级多类别的文本分类不仅费时费力，覆盖的范围和准确率也非常有限，在分类准确率和分类效率上仍没有较好的分类方法。

发明内容

为克服上述现有技术存在的不足，本发明之目的在于提供一种多层级多类别的中文文本分类的实现方法及装置，以实现一种快捷高效、高准确率的文本分类技术。

为达上述目的，本发明提出一种多层级多类别的中文文本分类的实现方法，包括如下步骤：

步骤S1，结合训练数据集合中的实际分类体系的树形结构，构建与该树形结构对应的N层文本分类多叉树，根据所述N层文本分类多叉树的结构，将所述训练数据集合中的训练数据分别写入到各层级对应的分类文件中；

步骤S2，对各分类文件的中文文本进行分词，并进行特征选择保存到对应的特征文件中；

步骤S3，选择分类算法，并设定、调整算法参数集，将步骤S2保存的特征文件数据导入所述分类算法中，迭代生成训练数据的每个分类与子分类模型并保存。

优选地，于步骤S1之前，还包括如下步骤：

步骤S0，获取文本的训练数据集合、验证数据集合及待分类的测试数据集合。

优选地，于步骤S1中，以文件命名规则R对分类文件进行文件命名，将类别号的命名规则与其对应的中文类别名称保存为分类文件。

优选地，步骤S2进一步包括：

步骤S200，利用中文分词工具依次对分类文件的中文文本进行分词；

步骤S201，构建停用词库，将利用构建的停用词库对步骤S200的分词结果进行筛除；

步骤S302，利用特征选择工具选择前m维特征作为特征库。

优选地，于步骤S201中，所述停用词库包括但不限于数字、英文字符、副词、语气词以及与业务无关词汇，可根据实际工单文本数据内容的需要，增添、删改停用词库。

优选地，于步骤S3中，读取步骤S0中整理的验证数据集V对分类算法的结果进行准确率判定，若高于给定阈值Δ，则模型训练结束，否则返回执行S2。

优选地，于步骤S3后，还包括如下步骤：

步骤S4，依次逐条读取步骤S0整理的测试数据集，依次加载步骤S3生成各层级模型文件，进行预测分类。

优选地，于步骤S4中，首先加载所述分类算法对应的第一层级模型文件，进行第一层级的预测分类，并保存；然后加载相应的第二层级模型文件进行第二层级预测分类，并保存；然后加载相应的第三层级的模型文件预测分类并保存；一直到相应的第N层级的模型预测分类完毕，然后将内存中保存的测试数据以及分类结果保存到结果文件中。

优选地，步骤S4进一步包括：

步骤S400，每一层级的预测结果设置Top K，K值实际应该小于该层的总类别数；

步骤S401，加载第一层级模型0.model，将分类类别号x_1k保存在内存中，再加载0_x_1k.model(x₁＝1,2…,C₁；k＝1,2…,K)模型文件进行第二层级预测分类，将第二层级分类结果类别号x_2k保存在内存中，再加载0_x_1k_x_2k.model(x₁＝1,2…,C₁；x₂＝1,2…,C₂；k＝1,2…,K)模型文件进行第三层级预测分类，将第三层级分类结果类别号x_3k保存在内存中……一直到第N层级的数据预测分类完毕。

为达到上述目的，本发明还提供一种多层级多类别的中文文本分类的实现装置，包括：

多层文本分类多叉树构建单元，用于结合训练数据集合中的实际分类体系的树形结构，构建与该树形结构对应的N层文本分类多叉树，并根据N层文本分类多叉树的结构，将训练数据集合中的训练数据分别写入到各层级对应的分类文件中；

分词及特征处理单元，用于对各分类文件的中文文本进行分词，并将分词结果通过停用词库进行筛除，并进行特征选择保存到对应的特征文件中；

分类训练单元，用于选择分类算法，并设定、调整算法参数集，将所述分词及特征处理单元保存的特征文件数据导入所述分类算法中，迭代生成训练数据的每个分类与子分类模型并保存。

与现有技术相比，本发明一种多层级多类别的中文文本分类的实现方法及装置通过利用多叉树的树形结构对数据快速索引及命名规则制定，利用机器学习算法实现准确率较高的文本分类，并采用Top K思想大大提升了人工分类的效率，提高了服务响应能效，优化管理的效果。

附图说明

图1为本发明一种多层级多类别的中文文本分类的实现方法的步骤流程图；

图2为本发明一种多层级多类别的中文文本分类的实现装置的系统架构图；

图3为本发明实施例中工单文本的多叉树结构图。

具体实施方式

以下通过特定的具体实例并结合附图说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其它优点与功效。本发明亦可通过其它不同的具体实例加以施行或应用，本说明书中的各项细节亦可基于不同观点与应用，在不背离本发明的精神下进行各种修饰与变更。

图1为本发明一种多层级多类别的中文文本分类的实现方法的步骤流程图。如图1所示，本发明一种多层级多类别的中文文本分类的实现方法，包括如下步骤：

步骤S0，获取文本的训练数据集合T、验证数据集合V及待分类的测试数据集合U。

在本发明具体实施例中，以电信的客户来访工单的工单文本为例，获取工单文本的训练数据集合T、验证数据集合V及待分类的测试数据集合U。

步骤S1，结合训练数据集合T中的实际分类体系的树形结构，构建与该树形结构对应的N层文本分类多叉树，根据N层文本分类多叉树的结构，将训练数据集合T中的训练数据分别写入到各层级对应的分类文件中，以文件命名规则R进行文件命名，将类别号的命名规则与其对应的中文类别名称保存为分类文件，方便进行读取。在本发明具体实施例中，所述实际分类体系为如图3所示的树形结构，其第一层子节点为第一层分类，第二层子节点为第二层分类，第三层子节点为第三层分类，第四层子节点为第四层分类，在给定训练数据集合T时，已确定形成该树形结构的层数以及每个子节点。

具体地，于步骤S1中，构建好N层文本分类多叉树后，将每条训练数据写入N层级分类文件，分别对应于第1层级、第2层级、……第N层级文本分类文件，根据命名规则R，以每层级的类别号C_i(i＝1,2…,N)，分别对文件进行命名标记，并根据顺序创建各分类文件，例如：c₁_c₂_…_c_N(c₁＝1,2…,C₁；c₂＝1,2…,C₂；…；c_N＝1,2…,C_N)。

步骤S2，对各分类文件的中文文本进行分词，并将分词结果通过停用词库进行筛除，并进行特征选择保存到对应的特征文件中。在本发明具体实施例中，特征文件的命名规则同步骤S1中给定的规则R。

具体地，步骤S2进一步地包括：

步骤S200，利用中文分词工具依次对分类文件的中文文本进行分词。例如利用jieba中文分词工具依次对分类文件的中文文本进行分词。

步骤S201，构建停用词库，将利用构建的停用词库对步骤S200的分词结果进行筛除。在本发明具体实施例中，所述停用词库包括数字和英文字符和副词、语气词以及与业务无关词汇等，并可根据实际工单文本数据内容的需要，增添、删改停用词库。

步骤S202，对分词结果进行特征提取，利用特征选择工具选择前m维特征作为特征库，m值根据模型结果自行设置，以200-1000之间的数值为宜，即于分词后，通过特征选择工具对分词根据重要性进行排序，然后选择前m维的分词特征。由于这里提到的特征提取为现有技术的成熟技术，在此不予赘述。

步骤S3，选择分类算法，并设定、调整算法参数集，将步骤S2保存的特征文件数据导入所述分类算法中，迭代生成训练数据的每个分类与子分类模型(即通过第一层分类文件生成分类模型，其下层的分类文件生成相应的子分类模型)并保存，并读取步骤S0中整理的验证数据集V进行准确率判定，若高于给定阈值Δ，则模型训练结束，否则返回执行S2，在本发明具体实施例中，利用验证数据集V通过模型后，得到的最终准确率与给定阈值进行判定与比较，以确定模型是否结束训练；

优选地，于步骤S3中，迭代生成训练数据每个分类与子分类的模型，模型保存格式为：0_x₁_x₂_…_x_N-1.model(x₁＝1,2…,C₁；x₂＝1,2…,C₂；…；x_N-1＝1,2…,C_N-1)格式文件，其中第一级分类模型的保存格式为：0.model格式文件。

优选地，于步骤S3后，还包括如下步骤：

步骤S4，依次逐条读取步骤S0整理的测试数据集U，依次加载步骤S3生成各层级模型文件，进行预测分类，并保存结果。具体地说，首先加载分类算法对应的第一层级模型文件，进行第一层级的预测分类，并保存；然后加载相应的第二层级模型文件进行第二层级预测分类，并保存；然后加载相应的第三层级的模型文件预测分类并保存；一直到相应的第N层级的模型预测分类完毕，然后将内存中保存的将内存中保存测试数据以及分类结果保存到结果文件中；

优选地，步骤S4进一步地包括：

步骤S400，每一层级的预测结果可设置Top K，K值实际应该小于该层的总类别数，最大共需加载∑K^i-1(i＝1...N)次模型，即第一级加载K⁰次模型，第二级加载K¹次模型，第三级加载K²次模型...所有加载的模型次数加一起就是∑K^i-1，为避免过大的时间消耗，建议设置1≤K≤3。由于直接分类准确率较低，本发明通过增加预测结果的方式以提升准确率，在本发明具体实施例中，通过对每一层级的预测结果设置Top K以提升预测结果的准确率，即Top1为给出1个预测结果(即每一层都设置一个预测结果)，Top2是指给出2个预测结果，…，给出的结果越多，准确率肯定越高。步骤S401，加载第一层级模型0.model，将分类类别号x_1k保存在内存中，再加载0_x_1k.model(x₁＝1,2…,C₁；k＝1,2…,K)模型文件进行第二层级预测分类，将第二层级分类结果类别号x_2k保存在内存中，再加载0_x_1k_x_2k.model(x₁＝1,2…,C₁；x₂＝1,2…,C₂；k＝1,2…,K)模型文件进行第三层级预测分类，将第三层级分类结果类别号x_3k保存在内存中……一直到第N层级的数据预测分类完毕。

图2为本发明一种多层级多类别的中文文本分类的实现装置的系统架构图。如图2所示，本发明一种多层级多类别的中文文本分类的实现装置，包括：

数据集合生成单元201，用于获取文本的训练数据集合T、验证数据集合V及待分类的测试数据集合U。

在本发明具体实施例中，以电信的客户来访工单的工单文本为例，数据集合生成单元201获取工单文本的训练数据集合T、验证数据集合V及待分类的测试数据集合U。

多层文本分类多叉树构建单元202，用于结合训练数据集合T中的实际分类体系的树形结构，构建与该树形结构对应的N层文本分类多叉树，并根据N层文本分类多叉树的结构，将训练数据集合T中的训练数据分别写入到各层级对应的分类文件中，以文件命名规则R进行文件命名，将类别号的命名规则与其对应的中文类别名称保存为分类文件，方便进行读取。

具体地，于多层文本分类多叉树构建单元202中，构建好N层文本分类多叉树后，将每条训练数据写入N层级分类文件，分别对应于第1层级、第2层级、……第N层级文本分类文件，根据命名规则R，以每层级的类别号C_i(i＝1,2…,N)，分别对文件进行命名标记，并根据顺序创建各分类文件，例如：c₁_c₂_…_c_N(c₁＝1,2…,C₁；c₂＝1,2…,C₂；…；c_N＝1,2…,C_N)。

分词及特征处理单元203，用于对各分类文件的中文文本进行分词，并将分词结果通过停用词库进行筛除，并进行特征选择保存到对应的特征文件中。在本发明具体实施例中，特征文件的命名规则同多层文本分类多叉树构建单元202中给定的规则R。

具体地，分词及特征处理单元203进一步地包括：

分词模块，用于利用中文分词工具依次对分类文件的中文文本进行分词。例如利用jieba中文分词工具依次对分类文件的中文文本进行分词

停用词库构建模块，用于构建停用词库，将利用构建的停用词库对步骤分词模块的分词结果进行筛除。在本发明具体实施例中，所述停用词库包括数字和英文字符和副词、语气词以及与业务无关词汇等，并可根据实际工单文本数据内容的需要，增添、删改停用词库。

特征选取模块，用于对分词结果进行特征提取，并利用特征选择工具选择前m维特征作为特征库，m值根据模型结果自行设置。

分类训练单元204，用于选择分类算法，并设定、调整算法参数集，将分词及特征处理单元203保存的特征文件数据导入所述分类算法中，迭代生成训练数据的每个分类与子分类模型并保存。读取数据集合生成单元201中整理的验证数据集V进行准确率判定，若高于给定阈值Δ，则模型训练结束，否则返回执行分词及特征处理单元203；

优选地，于分类训练单元204中，迭代生成训练数据每个分类与子分类的模型，模型保存格式为：0_x₁_x₂_…_x_N-1.model(x₁＝1,2…,C₁；x₂＝1,2…,C₂；…；x_N-1＝1,2…,C_N-1)格式文件，其中第一级分类模型文件保存格式为:0.model格式文件。

优选地，本发明之一种多层级多类别的中文文本分类的实现装置，还包括：

预测分类单元205，用于依次逐条读取数据集合生成单元201整理的测试数据集U，依次加载分类训练单元204生成各层级模型文件，进行预测分类，并保存结果。具体地说，首先加载分类算法对应的第一层级模型文件，进行第一层级的预测分类，并保存；然后加载相应的第二层级模型文件进行第二层级预测分类，并保存；然后加载相应的第三层级的模型文件预测分类并保存；一直到相应的第N层级的模型预测分类完毕，然后将内存中保存的将内存中保存测试数据以及分类结果保存到结果文件中；

优选地，预测分类单元205具体用于：

每一层级的预测结果可设置Top K，K值实际应该小于该层的总类别数，最大共需加载∑K^i-1(i＝1...N)次模型，为避免过大的时间消耗，建议设置1≤K≤3。

加载第一层级模型0.model，将分类类别号x_1k保存在内存中，再加载0_x_1k.model(x₁＝1,2…,C₁；k＝1,2…,K)模型文件进行第二层级预测分类，将第二层级分类结果类别号x_2k保存在内存中，再加载0_x_1k_x_2k.model(x₁＝1,2…,C₁；x₂＝1,2…,C₂；k＝1,2…,K)模型文件进行第三层级预测分类，将第三层级分类结果类别号x_3k保存在内存中……一直到第N层级的数据预测分类完毕。

实施例

在本实施例中，以电信客服呼叫中心的用户投诉工单分类为例，该呼叫中心用户投诉分类的实现方法如下：

步骤0，获取工单文本的训练数据集合300000条，验证数据集合50000条，及待分类的测试数据集合10000条。

步骤1，整理呼叫中心工单文本数据的训练数据与其对应的四层级分类，其中第一层级共有9个类别，第二层级有63个类别，第三层级有226个类别，第四层级有676个类别(本实施例中，根据业务需要，引用的例子为4层级的类目结构，若例子本身的类目结构为3层，则这里可以改为3层；若例子本身的类目结构为5层，则这里可以改为5层)根据其业务分类构建相应的树形结构，构建一棵与该树形结构对应的4层文本分类多叉树，如图3所示，根目录0表示的不是分类层级，从根目录往下的四层，对应于类目结构的四层级分类，并根据4层文本分类多叉树的结构，将训练数据分别写入到对应的分类文件中，命名规则为：c₁_c₂_c₃_c₄(c₁＝1,2…,9；c₂＝1,2…,63；c₃＝1,2…,226；c₄＝1,2…,676)。并将类别号与之对应的中文类别名称保存为文件。

步骤2，根据分类文件名称顺序，选择相应的分词工具对中文文本进行分词，并将分词结果通过停用词库进行筛除，然后进行特征选择保存到对应的特征文件中，具体地如下：

1)利用jieba中文分词工具依次对该文件的中文文本进行分词。

2)停用词库构建，根据业务的需要，增添、删改停用词库，停用词库包括数字和英文字符和副词、语气词以及与业务无关词汇等。

3)再利用特征选择工具(CHI特征选择)选择前600维特征作为特征库，并保存对应的特征文件中。

步骤3，选择xgboost分类算法，并设定、调整算法参数集，将步骤2保存的特征文件数据导入模型中，迭代生成训练数据的每个分类与子分类模型并保存为0_x₁_x₂_x₃.model(x₁＝1,2…,9；x₂＝1,2…,63；x₃＝1,2…,226)格式文件，读取步骤1整理的验证数据集进行准确率判定，若高于给定阈值0.6，则模型训练结束，否则返回执行步骤2；

步骤4，依次逐条读取步骤1整理的测试数据，首先加载算法对应的第一层级模型文件，进行第一层级的预测分类，并选择top2的分类结果(即两个最优结果)，并保存。然后加载相应的第二层级模型进行第二层级预测分类，选择top2的分类结果，并保存。然后加载相应的第三层级的模型预测分类，选择top2的分类结果并保存。然后加载第4层级的模型预测分类，选择top2的分类结果并保存，然后将内存中保存的将内存中保存测试数据以及分类结果保存到结果文件中。

本发明具体实施实例中，加载第一层级模型0.model，将分类模型及其中类别号x_1k保存在内存中，通过加载0_x_1k.model(x₁＝1,2…9；k＝1,2)模型文件进行第二层级预测分类，将第二层级分类结果类别号x₂保存在内存中，再加载0_x_1k_x_2k.model(x₁＝1,2…,9；x₂＝1,2…,63；k＝1,2)模型文件进行第三层级预测分类，将第三层级分类结果类别号x_3k保存在内存中，最后加载0_x_1k_x_2k_x_3k.model(x₁＝1,2…,9；x₂＝1,2…,63；x₃＝1,2…,226；k＝1,2)模型文件进行第四层级的数据预测分类完毕，最终四级分类的完整预测时间为0.7s。

本发明通过利用树形结构对数据快速索引及命名规则制定，利用机器学习算法实现准确率较高的文本分类，并采用Top K方法提升分类的效率，提高了服务响应能效，优化管理的效果，提升整体服务质量。

综上所述，本发明一种多层级多类别的中文文本分类的实现方法及装置通过利用多叉树的树形结构对数据快速索引及命名规则制定，利用机器学习算法实现准确率较高的文本分类，并采用Top K思想大大提升了人工分类的效率，提高了服务响应能效，优化管理的效果，本发明能够实现客户来访需求的工单的高准确分类，达到加快现场话务员服务响应能效，提升整体服务质量，提高热线整体运营数据分析的智能化程度，优化管理的效果。

与现有技术相比，本发明有如下优点：

1、通过构建分类多叉树，避免了大量数据加载到机器学习模型中，能快速实现文本的多层级多类别的分类；

2、采用多叉树形式的文本分类，大大降低了一般情况下一次文本分类的类别数，提高了客户来访需求的工单的准确率。

3、文本分类结果以Top K的形式表述能够大大提高多层级文本分类的准确率，且帮助解决了小样本分类的问题。

上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何本领域技术人员均可在不违背本发明的精神及范畴下，对上述实施例进行修饰与改变。因此，本发明的权利保护范围，应如权利要求书所列。

Claims

1.一种多层级多类别的中文文本分类的实现方法，包括如下步骤：

2.如权利要求1所述的一种多层级多类别的中文文本分类的实现方法，其特征在于，于步骤S1之前，还包括如下步骤：

3.如权利要求2所述的一种多层级多类别的中文文本分类的实现方法，其特征在于：于步骤S1中，以文件命名规则R对分类文件进行文件命名，将类别号的命名规则与其对应的中文类别名称保存为分类文件。

4.如权利要求3所述的一种多层级多类别的中文文本分类的实现方法，其特征在于，步骤S2进一步包括：

步骤S302，对分词结果进行特征提取，并利用特征选择工具选择前m维特征作为特征库。

5.如权利要求4所述的一种多层级多类别的中文文本分类的实现方法，其特征在于:于步骤S201中，所述停用词库包括但不限于数字、英文字符、副词、语气词以及与业务无关词汇，可根据实际工单文本数据内容的需要，增添、删改停用词库。

6.如权利要求4所述的一种多层级多类别的中文文本分类的实现方法，其特征在于:于步骤S3中，读取步骤S0中整理的验证数据集V对分类算法的结果进行准确率判定，若高于给定阈值Δ，则模型训练结束，否则返回执行S2。

7.如权利要求6所述的一种多层级多类别的中文文本分类的实现方法，其特征在于，于步骤S3后，还包括如下步骤：

8.如权利要求7所述的一种多层级多类别的中文文本分类的实现方法，其特征在于：于步骤S4中，首先加载所述分类算法对应的第一层级模型文件，进行第一层级的预测分类，并保存；然后加载相应的第二层级模型文件进行第二层级预测分类，并保存；然后加载相应的第三层级的模型文件预测分类并保存；一直到相应的第N层级的模型预测分类完毕，然后将内存中保存的测试数据以及分类结果保存到结果文件中。

9.如权利要求8所述的一种多层级多类别的中文文本分类的实现方法，其特征在于：步骤S4进一步包括：

10.一种多层级多类别的中文文本分类的实现装置，包括：