CN109657064A

CN109657064A - 一种文本分类方法及装置

Info

Publication number: CN109657064A
Application number: CN201910151793.XA
Authority: CN
Inventors: 邓楚然; 张小陆; 万婵; 彭泽武; 杨秋勇; 苏华权; 魏理豪
Original assignee: Guangdong Power Grid Co Ltd; Information Center of Guangdong Power Grid Co Ltd
Current assignee: Guangdong Power Grid Co Ltd; Information Center of Guangdong Power Grid Co Ltd
Priority date: 2019-02-28
Filing date: 2019-02-28
Publication date: 2019-04-19

Abstract

本发明公开了一种文本分类方法，包括：获取训练样本；对所述训练样本进行分词，得到分词列表；根据所述分词列表确定词频文档矩阵，并计算分词列表中各词语的TF‑IDF值矩阵；将所述词语作为变量输入模型，根据CV图获取最佳λ值和最优变量个数范围；将所述最优λ值作为参数拟合lasso回归模型，并输出特征变量；以特征词的词频文档矩阵创建训练容器；构建所述训练样本的SLDA有监督模型；通过Lasso回归模型得到的特征变量集合，并根据所述特征变量集合更新所述词频文档矩阵；在所述词频文档矩阵上应用训练好的SLDA模型，输出预测结果和预测概率。本发明成本低且效率高，可推广性强，可以剔除人的主观因素对结果的影响。

Description

一种文本分类方法及装置

技术领域

本发明涉及互文字处理领域，尤其涉及一种文本分类方法及装置。

背景技术

当今世界普遍存在的短文本，它们具有长度较短、内容较少、语义特征稀疏的特点。传统的K近邻(KNN)、朴素贝叶斯、支持向量机(SVM)和决策树等算法不适用于语义特征稀疏、词语共现性低、用词不规范、存在干扰的短文本分类场景上。

目前主流的短文本分类方法有三种：一种是基于搜索引擎，将短文本作为查询利用搜索引擎返回结果进行文本扩充，再利用传统方法进行文本分类；一种是利用外部大规模语料库进行文本扩充和文本分类；另一种是基于LDA模型得到的主题进行特征加权用于文本分类。三者各有其优缺点，其中LDA模型是无监督模型，不能利用已有的短文本类标注信息，为了克服这个困难，人们提出了SLDA模型，一个伴随有类标注信息的监督LDA模型。

有监督的LDA主题模型仍然需要对文本进行大量的清洗。特别是对于短文本来说，语言稀疏，特征较少，本身就包含冗余的噪声数据，这必然会对模型性能造成影响。另一方面，用某些特征作为文本的特征，通常是文中的词。但是不是所有词都能很好的代表文本的特性，把所有词都用上理论上能反应最多的信息量，但是会导致非常高的维度，带来的是计算量的攀升和噪音的干扰。

发明内容

本发明提供了一种文本分类方法，成本低且效率高，可推广性强，可以剔除人的主观因素对结果的影响。

本发明的第一方面提供了一种文本分类方法，包括：

获取训练样本；

对所述训练样本进行分词，得到分词列表；

根据所述分词列表确定词频文档矩阵，并计算分词列表中各词语的TF-IDF值矩阵；

将所述词语作为变量输入模型，根据CV图获取最佳λ值和最优变量个数范围；

将所述最优λ值作为参数拟合lasso回归模型，并输出特征变量；

以特征词的词频文档矩阵创建训练容器；

构建所述训练样本的SLDA有监督模型；

通过Lasso回归模型得到的特征变量集合，并根据所述特征变量集合更新所述词频文档矩阵；

在所述词频文档矩阵上应用训练好的SLDA模型，输出预测结果和预测概率。

在第一方面的一种设计中，所述方法还包括：

去除所述训练样本的中的数字、字母和特殊字符；

根据正则表达式匹配训练样本中的固定模板语句，并去除所述训练样本的中的前缀和后缀。

在第一方面的一种设计中，所述对训练样本进行分词，得到分词列表之后，所述方法还包括：

在所述分词列表中进行人名识别以及外部词典的补充；

对所述分词列表进行词性标注，并统计词性信息。

在第一方面的一种设计中，所述对训练样本进行分词，包括：

调用Java中文分词工具Ansj，分别对训练样本进行全切分、原子切分、N最短路径的粗切分。

在第一方面的一种设计中，所述对分词列表进行词性标注，并统计词性信息包括：

对所述分词列表进行词性标注，并统计词性信息，得到如下分词列表：

n_word＝{D_d(w_n,w_v,w_nr,w_nz,w_userdefine),d＝1,...,d_tr}；

其中w_n表示名词，w_v表示动词，w_nr表示名词代词，w_nz表示其它专有名词，w_userdefine表示用户自定义词，d_tr表示文本的数目。

在第一方面的一种设计中，所述在词频文档矩阵上应用训练好的SLDA模型，输出预测结果和预测概率之后，所述方法还包括：

进行5折交叉验证评估模型在测试样本上的稳定性，构建准确率、召回率、F值等指标评估模型准确性和泛化能力。

本发明的第二方面提供了一种文本分类装置，包括：

获取模块，用于获取训练样本；

处理模块，用于对所述训练样本进行分词，得到分词列表；

以特征词的词频文档矩阵创建训练容器；

构建所述训练样本的SLDA有监督模型；

输出模块，用于在所述词频文档矩阵上应用训练好的SLDA模型，输出预测结果和预测概率。

在第二方面的一种设计中，所述处理模块还用于：

去除所述训练样本的中的数字、字母和特殊字符；

在第二方面的一种设计中，所述处理模块还用于：

在所述分词列表中进行人名识别以及外部词典的补充；

对所述分词列表进行词性标注，并统计词性信息。

在第二方面的一种设计中，所述处理模块还用于：

从以上技术方案可以看出，本发明实施例具有以下优点：

本发明实施例中，提供了一种文本分类方法，获取训练样本；对所述训练样本进行分词，得到分词列表；根据所述分词列表确定词频文档矩阵，并计算分词列表中各词语的TF-IDF值矩阵；将所述词语作为变量输入模型，根据CV图获取最佳λ值和最优变量个数范围；将所述最优λ值作为参数拟合lasso回归模型，并输出特征变量；以特征词的词频文档矩阵创建训练容器；构建所述训练样本的SLDA有监督模型；通过Lasso回归模型得到的特征变量集合，并根据所述特征变量集合更新所述词频文档矩阵；在所述词频文档矩阵上应用训练好的SLDA模型，输出预测结果和预测概率。通过上述方式，成本低且效率高，可推广性强，可以剔除人的主观因素对结果的影响。

附图说明

图1为本发明实施例中文本分类方法一个实施例示意图；

图2为本发明实施例中文本分类装置一个实施例示意图。

具体实施方式

本发明实施例提供了一种文本分类方法，成本低且效率高，可推广性强，可以剔除人的主观因素对结果的影响。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

请参阅图1，本发明实施例中文本分类方法一个实施例包括：

101、获取训练样本；

本实施例中，可以对训练样本进行预处理：去除训练样本中的数字、字母和特殊字符；并正则表达式匹配训练样本中的固定模板语句，对无意义的前缀和后缀进行丢弃处理。

102、对训练样本进行分词，得到分词列表；

本实施例中，可以调用Java中文分词工具Ansj，分别实现全切分、原子切分、N最短路径的粗切分，根据隐马尔科夫模型和viterbi算法，达到最优路径的规划。

进行人名识别、外部词典补充和自定义词典的补充；

完成词性标注，统计词性信息，加上自定义词语，得到重点词语列表：

n_word＝{D_d(w_n,w_v,w_nr,w_nz,w_userdefine),d＝1,...,d_tr}；

其中w_n表示名词，w_v表示动词，w_nr表示名词代词，w_nz表示其它专有名词，w_userdefine表示用户自定义词，d_tr表示文本的数。

103、根据分词列表确定词频文档矩阵，并计算分词列表中各词语的TF-IDF值矩阵；

计算n_word中的每个词语对每篇文档的TF-IDF值：

TFIDF_i,j＝TF_i,j×IDF_i；

TF(词频)指的是某一个给定的词语在该文档中出现的频率：

分子是该词在文档中的出现次数，而分母则是在文档中所有词语的出现次数之和。IDF(逆向文档频率)是一个词语普遍重要性的度量。某一特定词语的IDF，可以由总文档数目除以包含该词语的文档的数目，再将得到的商取对数得到：

其中|D|为语料库中的文档总数，|{d∈D:t∈d}|为包含该词的文档数，加1保证分母不为0。

104、将词语作为变量输入模型，根据CV图获取最佳λ值和最优变量个数范围；

将所有词语作为变量输入模型，由CV图判断最佳λ值以及最优变量个数范围；

以最优λ值作为参数拟合lasso回归模型，输出系数不为0的变量作为特征变量。

105、将最优λ值作为参数拟合lasso回归模型，并输出特征变量；

106、以特征词的词频文档矩阵创建训练容器；

107、构建训练样本的SLDA有监督模型；

108、通过Lasso回归模型得到的特征变量集合，并根据特征变量集合更新词频文档矩阵；

以特征词的词频文档矩阵创建训练容器：

DTM_train＝[n_i,fs,i＝1,...,d_tr,fs∈FS]；

针对训练样本构建SLDA有监督的主题模型；

去除测试样本中的数字、字母和特殊字符；

使用正则表达式匹配测试样本中的固定模板语句，对无意义的前缀和后缀进行丢弃处理；

基于中文分词技术拆分文本，生成测试样本的词频文档矩阵；

以Lasso回归模型得到的特征变量集合更新测试样本的词频文档矩阵：

DTM_test＝[n_i,fs,i＝1,...,d_tr,fs∈FS]。

109、在词频文档矩阵上应用训练好的SLDA模型，输出预测结果和预测概率。

具体的，以下举一个具体的实例对本申请实施例进行说明，从业务系统中抽取2017年6月1日至6月30日营销1000号需求单信息数据，基于人工判断工单分类后形成有12类问题标注的处理数据，共2127行66列。抽取其中70％样本量共1499条记录作为训练样本数据，30％样本量共628条记录作为测试样本数据。本次实验以问题分类1“营销数据治理工具是否有功能支持”为例。实验中，实验参数选取如表1所示：

表1

对于训练文本，执行以下步骤：

去除训练样本中的数字、字母和特殊字符等无意义信息；

使用正则表达式匹配训练样本中的固定模板语句，对无意义的前缀“涉及菜单XXX涉及账号XXX”和后缀“菜单路径XXX”进行丢弃处理,保留需求单标题、处理原因和具体内容部分。

基于中文分词技术拆分文本，摘取动词和名词，结合自定义词语作为语料库，初始化词频文档矩阵和降维用的TF-IDF矩阵：

对于train＝{doc_i,i＝1,...,1499},应用中文分词技术，形成维度为(k_i,1499)的分词列表，其中i为训练样本顺序标号，k_i为第i篇文档的词语个数；

由现有的工单相关知识库添加用户自定义词语

w_userdefine＝{业扩,退费,...,录错,回退}；

摘取动词、名词、名词代词和专有名词，形成维度为(nz_i,1499)的共计150576个词语的动词名词列表，结合w_userdefine初始化词频文档矩阵：

DTM_train＝[n_i,d,i＝1,...,1499]；

利用初始化的词频文档矩阵计算各词语的TF-IDF值矩阵，用于Lasso回归模型，进而达到降维的目的。

TF-IDF_lasso＝{tfidf_i,d,i＝1,...,1499}；

针对TF-IDF矩阵拟合Lasso回归模型，同时进行变量筛选和复杂度调整：

将所有词语作为变量拟合Lasso回归模型，由CV图判断最佳λ值以及最优变量个数范围，得到λ.min＝0.00224973，最佳变量个数在190～490个之间；

提取以λ.min作为最优参数时的模型回归系数，筛选系数不为0的变量作为特征变量FS＝{d,coef(d)≠0}，共计208个，在推荐变量个数范围内。

由Lasso回归结果更新文档词频矩阵，然后针对训练样本应用SLDA模型进行训练，在测试文本上进行模型效果评估：

更新DTM_train＝[n_i,d,i＝1,...,1499]为DTM_train＝[n_i,fs,i＝1,...,1499,fs∈FS]，应用SLDA模型进行训练；

去除测试样本中的数字、字母和特殊字符；

DTM_test＝[n_i,fs,i＝1,...,628,fs∈FS]；

在DTM_test上应用训练好的SLDA模型，输出预测结果和预测概率；

进行5折交叉验证评估模型在测试样本上的稳定性，结果如表2所示，在得到测试文本预测类别之后，将预测结果与测试文本真实结果用准确率、召回率、F值等指标评估模型准确性和泛化能力，结果如表3所示。结果表明本发明具有良好稳定性和预测能力，在总共12个问题分类的数据数据上，平均达到了80％的预测精确度，最高达到了90％以上的预测精确度。

表2

表3

可选地，方法还包括：

去除训练样本的中的数字、字母和特殊字符；

根据正则表达式匹配训练样本中的固定模板语句，并去除训练样本的中的前缀和后缀。

可选地，对训练样本进行分词，得到分词列表之后，方法还包括：

在分词列表中进行人名识别以及外部词典的补充；

对分词列表进行词性标注，并统计词性信息。

可选地，对训练样本进行分词，包括：

可选地，对分词列表进行词性标注，并统计词性信息包括：

对分词列表进行词性标注，并统计词性信息，得到如下分词列表：

n_word＝{D_d(w_n,w_v,w_nr,w_nz,w_userdefine),d＝1,...,d_tr}；

可选地，在词频文档矩阵上应用训练好的SLDA模型，输出预测结果和预测概率之后，方法还包括：

本发明实施例中，提供了一种文本分类方法，获取训练样本；对训练样本进行分词，得到分词列表；根据分词列表确定词频文档矩阵，并计算分词列表中各词语的TF-IDF值矩阵；将词语作为变量输入模型，根据CV图获取最佳值和最优变量个数范围；将最优值作为参数拟合lasso回归模型，并输出特征变量；以特征词的词频文档矩阵创建训练容器；构建训练样本的SLDA有监督模型；通过Lasso回归模型得到的特征变量集合，并根据特征变量集合更新词频文档矩阵；在词频文档矩阵上应用训练好的SLDA模型，输出预测结果和预测概率。通过上述方式，成本低且效率高，可推广性强，可以剔除人的主观因素对结果的影响。

请参阅图2，本发明实施例中文本分类装置一个实施例包括：

获取模块201，用于获取训练样本；

处理模块202，用于对训练样本进行分词，得到分词列表；

根据分词列表确定词频文档矩阵，并计算分词列表中各词语的TF-IDF值矩阵；

将词语作为变量输入模型，根据CV图获取最佳λ值和最优变量个数范围；

将最优λ值作为参数拟合lasso回归模型，并输出特征变量；

以特征词的词频文档矩阵创建训练容器；

构建训练样本的SLDA有监督模型；

通过Lasso回归模型得到的特征变量集合，并根据特征变量集合更新词频文档矩阵；

输出模块203，用于在词频文档矩阵上应用训练好的SLDA模型，输出预测结果和预测概率。

可选地，处理模块202还用于：

去除训练样本的中的数字、字母和特殊字符；

可选地，处理模块202还用于：

在分词列表中进行人名识别以及外部词典的补充；

对分词列表进行词性标注，并统计词性信息。

可选地，处理模块202还用于：

本实施例中，获取模块获取训练样本；处理模块对训练样本进行分词，得到分词列表；根据分词列表确定词频文档矩阵，并计算分词列表中各词语的TF-IDF值矩阵；将词语作为变量输入模型，根据CV图获取最佳λ值和最优变量个数范围；将最优λ值作为参数拟合lasso回归模型，并输出特征变量；以特征词的词频文档矩阵创建训练容器；构建训练样本的SLDA有监督模型；通过Lasso回归模型得到的特征变量集合，并根据特征变量集合更新词频文档矩阵；输出模块在词频文档矩阵上应用训练好的SLDA模型，输出预测结果和预测概率。通过上述方式，成本低且效率高，可推广性强，可以剔除人的主观因素对结果的影响。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上，以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种文本分类方法，其特征在于，包括：

获取训练样本；

对所述训练样本进行分词，得到分词列表；

以特征词的词频文档矩阵创建训练容器；

构建所述训练样本的SLDA有监督模型；

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

去除所述训练样本的中的数字、字母和特殊字符；

3.根据权利要求2所述的方法，其特征在于，所述对训练样本进行分词，得到分词列表之后，所述方法还包括：

在所述分词列表中进行人名识别以及外部词典的补充；

对所述分词列表进行词性标注，并统计词性信息。

4.根据权利要求3所述的方法，其特征在于，所述对训练样本进行分词，包括：

5.根据权利要求4中所述的方法，其特征在于，所述对分词列表进行词性标注，并统计词性信息包括：

n_word＝{D_d(w_n,w_v,w_nr,w_nz,w_userdefine),d＝1,...,d_tr}；

6.根据权利要求5所述的方法，其特征在于，所述在词频文档矩阵上应用训练好的SLDA模型，输出预测结果和预测概率之后，所述方法还包括：

7.一种文本分类装置，其特征在于，包括：

获取模块，用于获取训练样本；

处理模块，用于对所述训练样本进行分词，得到分词列表；

以特征词的词频文档矩阵创建训练容器；

构建所述训练样本的SLDA有监督模型；

8.根据权利要求7所述的装置，其特征在于，所述处理模块还用于：

去除所述训练样本的中的数字、字母和特殊字符；

9.根据权利要求8所述的装置，其特征在于，所述处理模块还用于：

在所述分词列表中进行人名识别以及外部词典的补充；

对所述分词列表进行词性标注，并统计词性信息。

10.根据权利要求9所述的装置，其特征在于，所述处理模块还用于：