CN110297888B

CN110297888B - 一种基于前缀树与循环神经网络的领域分类方法

Info

Publication number: CN110297888B
Application number: CN201910568154.3A
Authority: CN
Inventors: 代秀琼; 刘楚雄
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-06-27
Filing date: 2019-06-27
Publication date: 2022-05-03
Anticipated expiration: 2039-06-27
Also published as: CN110297888A

Abstract

本发明公开了一种基于前缀树与循环神经网络的领域分类方法包括如下步骤1：收集所有需要领域分类的文本，构成训练数据集并按领域分类；步骤2：步骤1所得的训练数据集进行中文分词处理，对分词文本进行训练得到词向量模型；步骤3：利用步骤2所得的词向量模型对文本进行训练得到向量化文本数据后，将向量化文本数据输入循环神经网络模型，将输出激活后，输出模型分类结果；步骤4：得到分类结果后计算循环神经网络模型的损失，然后不断对模型进行优化使损失最小，最终得到效果最优的文本分类器以及步骤5‑8，很好的解决了现有技术领域分类准确率不高，同时模型识别准确率低的问题。

Description

一种基于前缀树与循环神经网络的领域分类方法

技术领域

本发明涉及自然语言处理技术领域，具体的说，是一种基于前缀树与循环神经网络的领域分类方法。

背景技术

自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它的研究可以实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。自然语言处理的目的就是让计算机能‘懂得’人类对它‘说’的话，然后去执行一些指定的任务。这些任务包括拼写检查，关键词搜索，意图识别，机器翻译，对话系统等。

意图识别就是让语义云系统能够识别出与用户输入最相关的信息，例如用户输入“来集仙剑奇侠传”时，我们知道“仙剑奇侠传”既有游戏又有电视剧还有新闻、图片等，如果我们通过用户意图识别发现该用户是想看“仙剑奇侠传”电视剧的，那我们直接把电视剧作为结果返回给用户，就会节省用户的输入次数，缩短搜索时间，大大提升用户体验。意图识别，简单说就是一种文本分类。文本分类大致有两种方法：一种是基于训练集的文本分类方法；另一种是基于分类词表的文本分类方法。两种方法出自不同角度的研究者，训练集法更多的来自计算机或者人工智能领域，而分类表法更多的来自突出情报领域。基于训练集的文本分类方法有很多，比如决策树，KNN，SVM，朴素贝叶斯算法等。它们都存在一定的不足之处，决策树，如果我们视频领域数据比较多时，在决策树当中，信息增益的结果会偏向于视频领域；SVM对缺失数据敏感；KNN类别评分不规格化，计算量大；理论上讲，朴素贝叶斯模型相比其他分类算法具有较小的误差率，但是实际上并非总是如此，这是因为朴素贝叶斯模型假设属性之间相互独立，这个假设在实际应用中往往是不成立的。基于统计学习分类算法都是基于用一系列特征来描述文本的前提下进行的，但实际上文本是一种信息的载体，不仅仅由部分特征词组合而成，文本还包括了所有构成文本的词的信息，词组合后相互之间的顺序关系和上下文的信息。而所有的统计学习算法都忽视了除部分特征词之外的所有信息。

神经网络算法克服了以上基于统计学习的分类算法的缺点。人工神经网络是模拟人脑神经系统的基本组织特性构成的新型信息处理系统。神经网络是一种运算模型，由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。网络的输出则依网络的连接方式，权重值和激励函数的不同而不同。神经网络技术的这些特点可以很好的克服传统文本分类算法的缺点。但是一般的神经网络无法对时间序列上的问题进行建模，然而，样本出现的时间顺序对于自然语言处理、语音识别、手写体识别等应用非常重要。对了适应这种需求，就出现了另一种神经网络结构——循环神经网络RNN。

循环神经网络模型在训练过程中，需要的训练集应该在各个领域的数据量尽可能的平衡。但是，第一，实际真实用户数据需要分33个领域，其中VIDEO，TV,MUSIC这3个领域的数据偏多，所以如果完全用模型对分类领域进行预测，则预测结果会偏向这三个领域，导致领域分类正确率下降；第二，用户数据各种各样，尤其是各个领域的实体，比如用户说新出的电视剧：“扶摇”，模型不一定能识别正确。

发明内容

本发明的目的在于提供一种基于前缀树与循环神经网络的领域分类方法，用于解决现有技术领域分类准确率不高，同时模型识别准确率低的问题。

本发明通过下述技术方案解决上述问题：

一种基于前缀树与循环神经网络的领域分类方法，所述方法包括如下步骤：

步骤1：收集所有需要领域分类的文本，构成训练数据集并按领域分类；

步骤2：步骤1所得的训练数据集进行中文分词处理，对分词文本进行训练得到词向量模型；

步骤3：利用步骤2所得的词向量模型对文本进行训练得到向量化文本数据后，将向量化文本数据输入循环神经网络模型，将输出激活后，输出模型分类结果；

步骤4：得到分类结果后计算循环神经网络模型的损失，然后不断对模型进行优化使损失最小，最终得到效果最优的文本分类器；

步骤5：收集用户数据文本并按领域分类，然后提取每一个分类中的明显领域特征的名词并以类为名字存为特征文本一；从每一类的数据中选择属于各领域特征的动词和名词，以类为名字存为特征文本二；

步骤6：搭建前缀树模型，然后将特征文本一输入前缀树模型构造前缀树1；将特征文本二输入前缀树模型构造前缀树2；

步骤7：将待测文本全分词处理后得到全分词文本，将全分词文本输入前缀树1，若果有领域则输出，否则将待测文本jieba分词，然后通过训练好的词向量将文本向量化，再将向量化后的文本输入循环神经网络模型，若输出类别如果是VIDEO,TV,MUSIC则直接输出领域，如果类别是OTHER则进入步骤8；

步骤8：将全分词文本输入前缀树2，根据权重公式对其输出结果进行计算从而判定输出结果的所述领域，权重最大的即为所属领域，权重计算公式如下：

其中，t表示属于某个领域的特征词总的个数，l_i表示第i个特征的长度，h表示文本的总的长度。

进一步地，所述循环神经网络模型使用TensorFlow工具包进行搭建，并通过TensorFlow对函数自动求导以及分布式计算。

进一步地，所述步骤4中采用BPTT算法对循环神经网络模型的优化使损失最小。

进一步地，所述步骤3中对循环神经网络模型输出的激活采用的softmax函数。

进一步地，所述步骤2中构造词向量模型时采用Word2Vec()函数对文本进行向量化。

进一步地，所述步骤7中进行jieba分词时，通过RNN模型处理的时间序列进行排序。

本发明与现有技术相比，具有以下优点及有益效果：

(1)本发明使用jieba分词工具对中文文本进行分词处理，因为文本的信息是由组成文本的词以及词与词之间的顺序来表达的，其中顺序体现在RNN模型处理的时间序列问题中，而词的表达则借助我们的jieba分词工具将文本分成一个个词

(2)本发明使用工具包Word2Vec()函数构造词向量模型，向量化文本，用于神经网络模型训练。

(3)本发明使用工具包TensorFlow搭建循环神经网络模型，TensorFlow对函数自动求导以及分布式计算，可以帮我们节省很多时间来训练模型。

附图说明

图1为本发明的基于前缀树与循环神经网络的领域分类方法流程示意框图。

具体实施方式

下面结合实施例对本发明作进一步地详细说明，但本发明的实施方式不限于此。

实施例1：

结合附图1所示，一种基于前缀树与循环神经网络的领域分类方法，结合实际案例进行说明，实际项目中要分类50+个类别，这里以分8个类别为例。

第一步，构建循环神经网络模型：

搜集用户输入关于8个领域的数据，因为TV,MUSIC,VIDEO领域数据较多，所以利用循环神经网络分类的领域为TV,MUSIC,VIDEO和OTHER,另外5个领域的数据合成OTHER领域,OTHER包括FLIGHT,CATE,SMARTHOME,HOTEL,TAKEOUT这5个领域，使4个类别的文本数量尽量相等，组成训练数据集。

将训练数据集人工分类后打上标签，采用one-hot编码，例如：

	VIDEO	MUSIC	TV	OTHER
					我想看刘德华的电影	1	0	0	0
我想看四川卫视	0	0	1	0
					我想听周杰伦的歌	0	1	0	0
我想看今天的机票	0	0	0	1

其中，0代表不属于此类，1代表属于此类。

c)对中文文本进行jieba分词处理，四个文本分词后得到的四个列表为:

我想看刘德华的电影：['我','想','看','刘德华','的','电影']

我想看四川卫视：['我','想','看','四川卫视']

我想听周杰伦的歌：['我','想','听','周杰伦','的','歌']

我想看今天的机票：['我','想','看','今天',‘的'，’机票']

d)将分词后得到的四个列表存入同一个列表中，组成二维列表用于训练词向量模型。设置词向量长度为100，即每个词语对应的词向量大小为(1,100)，将构建好的二维列表输入Word2vec词向量模型，由此可以得到每个词的词向量。构造完成后要保存模型，便于后期使用。

e)选取数据集中词语数最多的句子，用它的词语数量*单个词向量长度，设置这个值为每条文本的标准向量化长度。再使用之前构造的词向量模型来向量化每条文本，长度不足的在末尾补0；

比如：单个词向量长度为100，以下词语数最多的是文本C，词语个数为3，所以设定每条文本的标准向量化长度为300，不足的补0：

文本A:[“a”，“d”] <＝>词向量(1,200)+补0(1,100)＝(1,300)

文本B:[“b”，“c”] <＝>词向量(1,200)+补0(1,100)＝(1,300)

文本C:[“a”,“b”，“c”] <＝>词向量(1,300)

文本D:[“b”] <＝>词向量(1,100)+补0(1,200)＝(1,300)

f)构建循环神经网络模型，模型输出再应用softmax函数激活后输出分类值。

g)模型训练：将步骤b生成的分类标签文本以及步骤e生成的词向量矩阵文本作为循环神经网络模型的输入，进行模型的训练；

步骤1)：设置batch_size(即一个batch的数量，一次训练的数据集数量)将训练集按照batch分块；

步骤2)：使用循环神经网络模型对步骤a)中的每一个batch数据(集每一块)进行训练；将步骤e中得到的词向量w(t)和前一步隐藏层的输出作为当前层的输入，通过激活函数变换得到隐藏层，如公式所示：h(t)＝f(w(t)u+h(t-1)w)式中，f为神经单元节点的激活函数，w(t)表示当前也就是t时刻词的词向量，h(t-1)表示t-1时刻隐藏层的输出，w表示t-1时刻隐藏层与当前t时刻隐藏层的权重矩阵，u表示输入层与当前隐藏层的权重矩阵，h(t)表示当前步隐藏层的输出；

步骤3)按照步骤2)得到的RNN的隐藏层最后的输出为是h(t),最后通过softmax激活函数得到整个模型的输出y(t),如公式所示：y(t)＝g(((h(t)*v)式中，g为softmax激活函数，v表示当前隐藏层与输出层的权重矩阵，y(t)为当前词t时刻输入的预测值；

步骤4)：对步骤3)中获得的预测值y(t)与真实值进行比较，若两者的差值高于某一设定阈值时，通过BPTT算法对各层之间的权重矩阵进行调整；

步骤5)：在训练过程中，循环神经网络模型经过每次迭代后，利用测试集进行结果测试，如果在设定的迭代次数内都未在测试集上获得更好的效果，可以修改学习率，进行下一次迭代操作；直到循环神经网络模型达到收敛状态。即损失函数值递减，正确率递增；由此得到最优的循环神经网络模型；

第二步、构建前缀树：

2a)搜集关于8个领域的真实用户数据，将训练数据集按领域打好标签，即分类；

2b)每一类的数据中选择具有明显领域特征的名词，领域之间无重复的特征，比如“机票”是FLIGHT领域特征，“外卖”是TAKEOUT领域特征，这里特别注明，将热门的VIDEO，MUSIC,TV领域的实体也作为特征，以类为名字存为特征文本一，然后从每一类的数据中选择属于该领域特征的动词和名词，领域之间可重复，比如“我想看”，可以是VIDEO,TV等多个领域特征，“声音小一点”，可以是TV,SMARTHOME等领域特征，以类为名字存为特征文本二，用于后面构建前缀树；

2c)构建前缀树模型，将特征文本一输入前缀树模型，得到前缀树1，命名trie_1,将特征文本二输入前缀树模型，得到前缀树2，命名trie_2；

第三步、预测文本类别

3a)将待测文本，全分词(即任何两个及两个以上相邻的字都分为一个词)，组成一个列表；

3b)将列表中的词分别输入前缀树1，即trie_1，如果有领域则输出，否则下一步；

3c)将待测文本分词(jieba分词)，然后通过训练好的词向量，向量化文本，将向量化后的文本输入循环神经网络模型，因为模型只对VIDEO,TV,MUSIC,OTHER这4个领域进行分类，所以输出类别如果是VIDEO,TV,MUSIC则直接输出领域，如果类别是OTHER,则下一步；

3d)将步骤a中获得的全分词文本，输入trie_2，输出可能存在的多个领域，接下来按照权重计算公式：

所属领域的权重大，则属于该领域,即待测文本的领域。

尽管这里参照本发明的解释性实施例对本发明进行了描述，上述实施例仅为本发明较佳的实施方式，本发明的实施方式并不受上述实施例的限制，应该理解，本领域技术人员可以设计出很多其他的修改和实施方式，这些修改和实施方式将落在本申请公开的原则范围和精神之内。

Claims

1.一种基于前缀树与循环神经网络的领域分类方法，其特征在于，所述方法包括如下步骤：

步骤7：将待测文本全分词处理后得到全分词文本，将全分词文本输入前缀树1，如果有领域则输出，否则将待测文本jieba分词，然后通过训练好的词向量将文本向量化，再将向量化后的文本输入循环神经网络模型，若输出类别如果是VIDEO、TV或MUSIC则直接输出领域，如果类别是OTHER则进入步骤8；

2.根据权利要求1所述的基于前缀树与循环神经网络的领域分类方法，其特征在于，所述循环神经网络模型使用TensorFlow工具包进行搭建，并通过TensorFlow对函数自动求导以及分布式计算。

3.根据权利要求1所述的基于前缀树与循环神经网络的领域分类方法，其特征在于，所述步骤4中采用BPTT算法对循环神经网络模型的优化使损失最小。

4.根据权利要求1所述的基于前缀树与循环神经网络的领域分类方法，其特征在于，所述步骤3中对循环神经网络模型输出的激活采用的softmax函数。

5.根据权利要求1所述的基于前缀树与循环神经网络的领域分类方法，其特征在于，所述步骤2中构造词向量模型时采用Word2Vec()函数对文本进行向量化。

6.根据权利要求1所述的基于前缀树与循环神经网络的领域分类方法，其特征在于，所述步骤7中jieba分词时，通过RNN模型处理的时间序列进行排序。