CN109670182A

CN109670182A - 一种基于文本哈希向量化表示的海量极短文本分类方法

Info

Publication number: CN109670182A
Application number: CN201811573017.0A
Authority: CN
Inventors: 胡学钢; 周明; 朱毅; 李培培
Original assignee: Hefei University of Technology
Current assignee: Hefei University of Technology
Priority date: 2018-12-21
Filing date: 2018-12-21
Publication date: 2019-04-23
Anticipated expiration: 2038-12-21
Also published as: CN109670182B

Abstract

本发明公开了一种基于文本哈希向量化表示的海量极短文本分类方法，其步骤包括：1数据集向量化的前期分词预处理；2模型设计和实现；3应用Signed Hash Trick算法映射得到的包含文本词频特征的稀疏矩阵；4特征提取完后，用随机森林分类模型在训练集上训练分类器；5用训练集上的分类器在测试集上做分类预测；6完成在测试集上的分类，得到最终文本分类的准确度。本发明解决现有极短文本分类中存在的分类精度低、分类时间过长的问题，从而能提高极短文本的分类效果，并降低硬件的内存消耗，具有较高的鲁棒性和实用性。

Description

一种基于文本哈希向量化表示的海量极短文本分类方法

技术领域

本发明涉及极短文本的分词、文本向量化表示、特征提取和分类建模领域，具体是一种基于文本哈希向量化表示的海量极短文本分类方法。

背景技术

短文本通常是指长度在160字以下的文本形式，这一类文本分类问题的研究对象主要集中在微博、新闻标题、文献摘要和时事评论上。其主要目的是将输入的文本内容自动处理，得到有价值的分类输出。一般而言短文本数据可能会存在上下文语义，分类时可根据包含语义的向量化操作提取文本特征进行分类。但税务数据和常规短文本数据的区别在于税务数据库中物品名称均为孤立的极短文本，不存在上下文的语义信息，字数绝大多数在25个字以下，极端情况甚至有单字的名称表示由此带来的特征稀疏问题也给分类造成了极大的困难。同时文本间无规律可循，涉及各个行业和领域，涵盖了医疗、日用、生化、服务、食品、电气等各个行业的商品。而且因为一些不同领域的商品名称可能会包含相同的成分性词汇，因此实际上并不能用提取关键词的方式进行分类。，比如“乙醇”，对于"2-(2,4-二氨基苯氧基)乙醇-二盐酸"和“92号车用乙醇汽油(E10)”两种商品而言是两个完全不同的类别。再者，税务数据的分类详细，类别众多，仅现有的数据库中包含的税务类别就已经高达4200多类。因此常规针对短文本的分类方式难以适用于税务数据的极短文本。对于这样的极短文本，建立的分类框架首先必须要满足大数据规模下的分类需求，进而，针对税务数据所呈现出的数据特征，减小分类误差，如何提高分类准确度也是重要目标之一。

通常文本的向量化的表示方法诸如word2vec、sen2vec在提取文本特征时会包含词义、上下文等诸多信息，对于税务数据而言这些特征信息对分类操作来说则为冗余信息，增加了算法计算量的同时也不会提升最终的分类准确度。同时传统的哈希方法可能会造成在海量数据下特征维度过高以及大量特征映射到同一个位置造成的哈希碰撞问题。

在分类器的构建上，无论是朴素贝叶斯、最近邻分类器KNN、支持向量机SVM等机器学习分类器还是近年来使用广泛的神经网络和深度学习在文本分类的问题上均有应用。但神经网络并不适用于向量化表示后高维稀疏且特征弱化的文本表示，而深度学习更适用于图像、语音等有局部相关性的连续稠密型数据形式。常用的机器学习分类模型也均有不足。Bayes分类方法无法处理基于特征组合所产生的变化结果。SVM应用在数据量巨大的多类文本分类时计算复杂度过高的问题难以克服。KNN算法时间复杂度高、可解释性差，也无法解决当样本分布不平衡时分类结果偏差较大的问题。Ridge Classifier没有特征选择功能。随机梯度下降分类SGD Classifier虽然适用于大规模稀疏文本，但是对于特征归一化非常敏感，且迭代更新过于依赖批数据导致分类结果十分不稳定。感知器Perceptron仅对于线性可分的数据集效果良好。PA的容噪能力稍弱，并且在大数据条件下需要文本极高维度的向量化表示才能有良好的分类准确度，这无疑对实际应用中的内存大小有着较为严苛的要求。

有关短文本的分类研究中，已有的方法大多针对社交文本、新闻数据等，这些文本内容类别较少，文字含有语义信息，而针对税务数据这种词组型极短文本的分类的研究工作很少。随机森林是针对文本分类的同时避免过度拟合的有效手段之一，但是随机森林应用在短文本上还存在着一些问题，常见问题有：

(a)文本分词过程中区别于英文文本，没有空格作为词间隔，同时分词需要适应特定文本内容；

(b)不关心语义信息的短文本数据特征稀疏问题；

(c)数据量巨大时，高维度的特征表示可能使实际中内存难以承受。如果不能很好地解决这些问题，必然会对极短文本分类的准确性带来不利影响。

发明内容

本发明为克服现有技术的不足之处，提供一种基于文本哈希向量化表示的海量极短文本分类方法，以期能解决现有极短文本分类中存在的分类精度低、分类时间过长的问题，从而能提高极短文本的分类效果，并降低硬件的内存消耗，具有较高的鲁棒性和实用性。

为了达到上述目的，本发明所采用的技术方案为：

本发明一种基于文本哈希向量化表示的海量极短文本分类方法的特点包括以下步骤：

步骤1、对数据库中有类别的标记数据集S进行分词预处理，得到分词数组；

步骤1.1、将所述标记数据集S记为数组[X₁，Y₁],[X₂，Y₂],...,[X_n，Y_n],...,[X_N，Y_N]，其中，N表示所述标记数据集S中极短文本的总数，[X_n，Y_n]表示第n个极短文本及其分类所构成一个数组；X_n表示第n个极短文本，Y_n表示第n个极短所对应的分类，n＝1,2,…,N，N表示不同的分类种数；

步骤1.2、设置自定义词库、停用词和正则表达式并作为匹配条件；在jieba_fast分词方法中的精准模式下采用匹配条件对第n个极短文本X_n进行分词，得到第n个极短文本X_n的分词结果其中，x_n,d表示第n个分词结果F_n中第d个词，d＝1,2,…,D_n，D_n表示第n个分词结果F_n中的词总数；从而得到N个极短文本的分词结果并构成分词数组[F₁,F₂,…,F_n,…,F_N]；

步骤2、基于分词结果采用词袋模型的Signed Hash Trick方法训练所有词的哈希文本向量，并提取文本词频特：

步骤2.1、定义维度为β的哈希表；将所述第n个分词结果F_n中第d个词x_n,d用哈希函数h(x_n,d)＝j映射到所述哈希表中的第j个位置；从而将第n个分词结果F_n中所有的词分别映射到哈希表中，得到哈希向量化后的稀疏矩阵；

步骤2.2、设置用于扰乱原始映射位置的参数α；并利用带有参数α的叠加函数ξ(x_n,d)使得第j个位置的映射次数小于阈值；

步骤2.3、利用式(1)得到第j个位置上的词频从而得到哈希表中所有位置上的词频并存储在稀疏矩阵中，得到哈希向量化后的稀疏矩阵：

式(1)中，τ表示分词数组中所有词的总数；

步骤3、采用随机森林的分类模型对所述哈希向量化后的稀疏矩阵进行分类建模，得到CART决策树：

步骤3.1、定义抽样次数为t，并初始化t＝1；定义最大抽样次数为t_max；

步骤3.2、用Bootstrap抽样方法从N个极短文本中第t次随机且有放回地抽取m个样本其中表示第t次抽取的第m个极短文本，m＝1,2,…,M；

步骤3.2、在第t次抽取的m个样本的M个分词结果中随机选取K个词所对应的词频；且所述K个词属于s个样本；1≤s≤m；

步骤3.3、利用所述K个词所对应的词频第t次计算所述s个样本所对应的s个类别的基尼系数；并选取基尼指数最小值所对应的样本的分词结果中属于K个词的词频作为第t次划分CART决策树的结点，从而第t棵CART决策树；

步骤3.3、将t+1赋值给t，并判断t≥t_max并是否成立，若成立，则表示得到t_max棵CART决策树，并集成为随机森林；否则，返回步骤3.2执行；

步骤3.4、将新的极短文本输入所述随机森林中，得到t_max个分类结果，并将t_max个分类结果中出现次数最多的类别作为新的极短文本所属分类。

与已有技术相比，本发明的有益效果体现在：

1、本发明通过采用结合jieba_fast分词、Signed Hash Trick文本向量化以及随机森林建模的方法来对海量极短文本进行分类，从极短文本数据特征出发，将开源的jieba_fast分词算法结合自定义词库，对极短文本数据进行针对性的精准切分，通过Signed Hash Trick将高维稀疏的分词结果映射到固定维度的低维空间，提取了文本词频特征的同时提升了算法的时间空间性能，构建了随机森林分类器，基于基尼系数选择最优特征建立决策树，最后利用多棵决策树的决策结果投票决定最终分类，与传统的文本分类算法相比较，提高了表示分类的准确性，减少了分类时间，并平衡了实际中的硬件内存消耗和分类结果的准确度。

2、本发明方法的分词阶段在常规的正则匹配项基础上增加了领域性自定义词库和停用词，在该阶段可以根据当前的特定文本内容进行精准切分，减少了误切、漏切和重复切分。

3、本发明对分词结果使用Signed Hash Trick的向量化映射来提取词频特征，首先避免了大量特征映射到同一位置的哈希碰撞，其次将海量极短文本呈现的高维稀疏特征映射到自定义维度的低维特征空间，控制了对应的硬件内存消耗、提高了时间性能，与此同时可以保证对于原始特征的代表性，确保了在后面分词建模阶段中文本特征的可用性。

4、本发明针对哈希向量化后的文本特征，随机的样本和属性选择确保了分类的平衡性，基于基尼系数最小化原则选择最优特征作为节点建立决策树，多颗决策树集成的随机森林通过投票法保证了分类的准确度，极大的减少了分类的泛化误差。

5、本发明解决了极短文本分类这一重要实际问题，研究成果可以直接应用在海量的极短文本的分类中，并可以拓展应用到其他包含极短文本的分类建模工作中，有着重要的应用价值，一旦研究成功并投入应用，将产生巨大的社会和经济效益。

附图说明

图1为本发明方法流程图；

图2为本发明分词遍历过程示意图；

图3为本发明随机森林分类建模示意图；

图4为本发明税务字数分布统计图表。

具体实施方式

本实施例中，一种基于文本哈希向量化表示的海量极短文本分类方法是从税务领域的分类问题进行研究，并对海量极短文本进行分词预处理，针对性切割数据集中的文本内容；然后利用Signed Hash Trick方法将高维的文本特征映射到自定义维度的特征空间中，避免了哈希碰撞的基础上将词频特征映射存储在稀疏矩阵中；再利用两次随机过程抽取文本样本和特征，根据基尼指数最小化原则选择最优特征作为结点建立决策树，重复建立过程得到多颗决策树集成为随机森林，最终根据随机森林的投票结果产生文本的分类结果。具体流程如图1所示，该分类方法包括以下步骤：

步骤1、从税务数据所呈现极短文本数据特征出发，对税务数据库中有类别的标记数据集S进行分词预处理，得到分词数组，有标记的数据形式如表1所示，(HMWC列表示物品名称，U_CODE表示对应的税务编码)；

表1数据内容及格式示意表

步骤1.1、将标记数据集S记为数组[X₁，Y₁],[X₂，Y₂],...,[X_n，Y_n],...,[X_N，Y_N]，其中，N表示标记数据集S中极短文本的总数，[X_n，Y_n]表示第n个极短文本及其分类所构成一个数组；X_n表示第n个极短文本，Y_n表示第n个极短所对应的分类，n＝1,2,…,N，N表示不同的分类种数，当前数据库中文本的字数90％分布在1～25个字之间，具体分布如图4；

步骤1.2、设置自定义词库、停用词使得一些固定的商品名称不被切分以及去掉一些在文本分析中不需要的词，同时增强分词的歧义纠错能力。以及同时使用正则表达式“u4e00-”和“u9fa5_a-zA-Z”并作为匹配条件；在jieba_fast分词方法中的精准模式下采用匹配条件对第n个极短文本X_n进行分词，此时基于前缀词典实现高效的词图扫描，扫描过程如图2所示，生成句子中汉字所有可能成词情况所构成的有向无环图(DAG)，之后寻找最佳切分方案。假设有词形如“男女服饰上衣衬衫”在分词时构造的DAG结果为{0:[0],1:[1],2:[2,3],3:[3],4:[4,5],5:[5],6:[6,7],7:[7]}，紧接着用Route存储最佳分词位置及评估分数，分数越大越好。使用动态规划查找最大概率路径，以找出基于词频的最大切分组合，其实就是从末尾开始遍历，遍历到某个节点时，计算以该节点为起始位置，以最后一个节点为结束位置，这之间为字符串的最佳分词方案，从而第n个极短文本得到X_n的分词结果其中，x_n,d表示第n个分词结果F_n中第d个词，d＝1,2,…,D_n，D_n表示第n个分词结果F_n中的词总数；从而得到N个极短文本的分词结果并构成分词数组[F₁,F₂,…,F_n,…,F_N]，分词后的示例如表2；

表2分词后物品名称样例表

步骤2、传统的哈希方法可能会造成在海量数据下特征维度过高以及哈希碰撞的问题，因此基于分词结果采用词袋模型的Signed Hash Trick方法训练所有词的哈希文本向量，在此过程中提取文本词频特征，不考虑词义和上下文，具体操作依次包含以下步骤：

步骤2.1、为了方便接下来哈希向量化的矩阵计算，将文本中的空值统一替换为“NaN”，这是一种变量类型为float的空值数值，在计算时没有实际含义，起到占位作用。使用“shuffle()”函数打乱分词结果，打乱后按照词长进行索引排列。定义维度为β的哈希表，默认值是2²⁰，在默认值的条件下，该维度在实际情况的计算中同样存在时间复杂度过高和内存溢出的问题。因此在避免哈希碰撞的基础上将该值固定为2⁹；将第n个分词结果F_n中第d个词x_n,d用哈希函数h(x_n,d)＝j映射到哈希表中的第j个位置；从而将第n个分词结果F_n中所有的词分别映射到哈希表中，得到哈希向量化后的稀疏矩阵；

步骤2.3、利用式(1)得到第j个位置上的词频从而得到哈希表中所有位置上的词频并存储在稀疏矩阵中，得到哈希向量化后的稀疏矩阵，哈希后的特征仍然是一个无偏的估计，而且也不会导致某些哈希位置的值过大。在实际应用中，由于文本的高稀疏性，这种降维的哈希映射方式可以很好的代表哈希前的文本特征：

式(1)中，τ表示分词数组中所有词的总数，通过该映射方式后，数据被抽象化为如下形式：

Signed Hash Trick降维后的特征无法它代表的特征名字和意义，没有可解释性。

步骤3、采用随机森林的分类模型对哈希向量化后的稀疏矩阵进行分类建模，得到CART决策树。随机森林是基于集成学习学习的思想，该分类算法将集成学习的思想运用在决策树的基础上并加以改良，与此同时具有其算法基础原型决策树所不具备的优势，比如无需调整过度参数、极少出现过度拟合、适用于含有大量特征的数据等。目前根据个体学习器的生成方式，集成学习方法可分为两大类，即个体学习器之间存在强依赖关系，必须串行生成的序列化方法；以及个体学习器间不存在强依赖关系，可同时生成的并行化方法。前者的代表是Boosting，后者的代表是Bagging和随机森林。同一批数据，用同样的算法只能产生一棵树，这时Bagging策略可以产生不同的数据集。随机森林则在Bagging的基础上更进了一步，通过随机选择节点上的一部分样本特征，这个数字小于特征总数，然后在这些随机选择的个样本特征中，选择一个最优的特征来做决策树的左右子树划分。继而进一步增强了模型的泛化能力。具体步骤如下：

步骤3.1、在开始建模之前，首先将向量化后的名称列转换为float的数值类型，方便接下来的计算，采用StratifiedShuffleSplit函数划分训练集和测试集。其中参数n_splits是将训练数据分成train/test对的组数，可根据需要进行设置，默认为10，这里设置为1。再用参数test_size和train_size来设置train/test对中train和test所占的比例。假设有10个数据，设置train_size＝0.8,test_size＝0.2，则进行划分以后8个是训练数据，2个是测试数据。为了交叉验证的准确性，这里设置参数random_state将样本数据随机打乱。

定义抽样次数为t，并初始化t＝1；定义最大抽样次数为t_max；

步骤3.2、用Bootstrap抽样方法(基于Bagging策略)从N个极短文本中第t次随机且有放回地抽取m个样本其中表示第t次抽取的第m个极短文本，m＝1,2,…,M；

步骤3.2、在第t次抽取的m个样本的M个分词结果中随机选取K个词所对应的词频；且K个词属于s个样本；1≤s≤m；

步骤3.3、利用K个词所对应的词频第t次计算s个样本所对应的s个类别的基尼系数；并选取基尼指数最小值所对应的样本的分词结果中属于K个词的词频作为第t次划分CART决策树的结点，从而第t棵CART决策树；

步骤3.3、将t+1赋值给t，并判断t≥t_max并是否成立，若成立，则表示得到t_max棵CART决策树，这里决策树树量设置为15，并集成为随机森林；否则，返回步骤3.2执行。决策树的max_depth为None，即会扩展节点，直到所有的叶子是纯净的，或者直到所有叶子包含少于min_sample_split的样本，min_sample_split为分割内部节点所需要的最小样本数量，默认为2。为了提高算法时间性能，增加参数n_jobs＝-1，将处理器并行作业量最大化，随机森林的建模过程如图3所示；

步骤3.4、将新的极短文本输入随机森林中，得到t_max个分类结果，并将t_max个分类结果中出现次数最多的类别作为新的极短文本所属分类。

Claims

1.一种基于文本哈希向量化表示的海量极短文本分类方法，其特征包括以下步骤：

式(1)中，τ表示分词数组中所有词的总数；