CN110705298A

CN110705298A - 一种改进的前缀树与循环神经网络结合的领域分类方法

Info

Publication number: CN110705298A
Application number: CN201910902410.8A
Authority: CN
Inventors: 刘楚雄; 代秀琼
Original assignee: Sichuan Changhong Electric Co Ltd
Current assignee: Sichuan Changhong Electric Co Ltd
Priority date: 2019-09-23
Filing date: 2019-09-23
Publication date: 2020-01-17
Anticipated expiration: 2039-09-23
Also published as: CN110705298B

Abstract

本发明公开了一种改进的前缀树与循环神经网络结合的领域分类方法，通过新增用户数据，重新训练RNN模型以及重构前缀树，然后根据真实用户请求，重新设计领域分类算法结构，最后优化了前缀树特征的权重计算方法。成功的解决了领域分类的性能问题，并提高了分类的正确率。

Description

一种改进的前缀树与循环神经网络结合的领域分类方法

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种改进的前缀树与循环神经网络结合的领域分类方法。

背景技术

自然语言处理(NLP)是计算机科学领域与人工智能领域中的一个重要方向。它的研究可以实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。自然语言处理的目的就是让计算机能‘懂得’人类对它‘说’的话，然后去执行一些指定的任务。这些任务包括拼写检查，关键词搜索，意图识别，机器翻译，对话系统等。对于我们语义云项目而言，自然语言处理就是实现人与电视机之间利用自然语言进行有效的沟通交流，即对用户的输入进行有效的意图识别，并做出相应的回复。

意图识别就是让语义云系统能够识别出与用户输入最相关的信息，例如用户输入“我想看刘德华”时，我们知道“刘德华”既是演员又是歌手，如果我们通过用户意图识别发现该用户是想看“刘德华”这个演员演的电影，而不是想听“刘德华”这个歌手唱的歌，那我们直接把“刘德华”演的电视剧作为结果返回给用户，就会节省用户的输入次数，缩短搜索时间，大大提升用户体验。意图识别，简单说就是一种文本分类。文本分类大致有两种方法：一种是基于训练集的文本分类方法；另一种是基于分类词表的文本分类方法。

人工神经网络是模拟人脑神经系统的基本组织特性构成的新型信息处理系统。神经网络是一种运算模型，由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数，称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值，称之为权重，这相当于人工神经网络的记忆。神经网络技术的这些特点可以很好的克服传统文本分类算法的缺点，但是一般的神经网络无法对时间序列上的问题进行建模，然而，样本出现的时间顺序对于自然语言处理、语音识别、手写体识别等应用非常重要。对了适应这种需求，就出现了另一种神经网络结构——循环神经网络RNN。

为了克服循环神经网络模型在训练过程中，受数据不均衡的影响，又引用了前缀树，来对一些具有明显特征的数据进行分类，Trie树，又称字典树、前缀树，是一种树形结构，是哈希树的变种，是一种用于快速检索的多叉树结构。典型应用是用于统计和排序大量的字符串(但不仅限于字符串)，所以经常被搜索引擎系统用于文本词频统计。它的优点是：最大限度地减少无谓的字符串比较，查询效率比哈希表高。Trie的核心思想是空间换时间。利用字符串的公共前缀来降低查询时间的开销以达到提高效率的目的。

这个基于前缀树与循环神经网络的领域分类方法在项目的实践中发现，性能不理想，80tps，压测2小时，500ms超时，也会出现1500+条超时的。

发明内容

语义云项目服务终端是电视，搜集的数据是电视用户请求，上亿的数据，句式，内容各不相同，但是总结在一起，都在我们支持的领域中。如果不分领域，数据就会依次走完整个系统，这样系统响应时间就会增加。因此我们想到一个方案就是对用户数据进行领域分类，根据领域调用不同的接口，这样可以大大减少系统响应时间，提高系统性能。

语义云项目中需要分类的领域高达50多个，传统的基于统计学习的分类算法，依靠特征词分类，而忽略了词与词之间的上下文关系，而循环神经网络(RNN)能利用数据上下文之间的关系，克服了传统方法的不足。但是RNN有一个缺点，受数据不均衡的影响。因为50多个领域，而其中VIDEO，TV，MUSIC领域的数据占绝大部分，其他领域数据占比很少，所以利用循环神经网络进行领域分类，分为VIDEO，TV，MUSIC和OTHER共4个领域。对于OTHER领域数据少，特征明显，再结合前缀树，前缀树不仅可以解决大部分领域的分类，而且不受数据不均衡的影响。因此完美的解决了语义云项目50多个领域，上亿数据的领域分类。

项目实践表明，采用前缀树与循环神经网络的结合的领域分类算法，来实现50+个领域的分类，正确率能达到96％左右，但是带来一个问题就是性能较差，所以有待优化改进。

针对上述问题，本专利提出了一种改进的前缀树与循环神经网络结合的领域分类方法。

本发明通过以下技术方案来实现上述目的：

一种改进的前缀树与循环神经网络结合的领域分类方法，包括以下步骤：

第一步、构建循环神经网络模型

1.新增各领域的数据，从2W条增加到8W条，构成训练数据集；

2.将训练数据集按领域打好标签，即分类；

3.构造词向量模型，把训练数据集进行中文分词处理，利用word2vec对分词文本进行训练，得到词向量模型；

4.向量化文本，利用训练好的词向量模型训练文本，得到向量化的文本数据；

5.搭建循环神经网络模型，将向量化的训练文本输入模型，将输出通过softmax函数激活后，输出模型最终的分类；

6.得到了分类结果以后，计算模型的损先即loss，然后采用BPTT算法不断的优化模型，即最小化loss，就这样不断的迭代、优化，最终得到效果最优的文本分类器。

第二步、构建前缀树

1.新增用户数据，用于提取更多特征构建前缀树；

2.将训练数据集按领域打好标签，即分类；

3.首先从每一类的数据中选择具有明显领域特征的名词，领域之间无重复的特征，比如“机票”是指FLIGHT领域，以类为名字存为特征文本一；然后再从每一类的数据中选择属于各领域特征的动词和名词，领域之间特征可重复，比如“我想听”，可以是MUSIC，CHRADIO等多个领域，“关闭音量”，可以是TV，SMARTHOME等领域，以类为名字存为特征文本二；

4.搭建前缀树模型，分别将特征文本一输入前缀树模型，构造前缀树1，命名trie_1，将特征文本二输入前缀树模型，构造前缀树2，命名trie_2；

第三步：文本类别预测(主要的优化部分，包括优化领域分类结构，分类算法)

1.Trie_1：文本输入Trie_1，如果有领域则输出，否则下一步；

2.Video_pro：文本，包括所有没有领域的输出的文本，合并之前的单独处理的VR，TVIMAGE，FIGURE领域数据，去掉动词，集数等，去redis查询，有领域则输出，否则下一步；

3.Special_pro：文本输入该方法，该方法包含一些正则表示式，因为项目实践表明正则表达式耗时长，严重影响性能，所以比优化前，减少了很多，如果有领域则输出，否则下一步；

4.Trie_2：将待测文本，全分词(即任何两个及两个以上相邻的字都分为一个词)，所有词组成一个列表。将列表中的词分别输入Trie_2，输出可能存在的多个领域，接下来按照权重计算，优化后的特征权重计算公式：

其中t表示属于某个领域的特征词总的个数，l_i表示第i个特征的长度，α_i表示第i个特征的加权系数(当特征的首或者尾是整个文本的首或者尾，α_i为0.8，否则α_i为0.5)，所属领域的权重大，则属于该领域，否则进入下一步；

5.RNN：将文本分词按字分词，然后通过训练好的词向量，向量化文本，将向量化后的文本输入循环神经网络模型，因为模型只对VIDEO，TV，MUSIC，OTHER这4个领域进行分类，所以输出类别如果是VIDEO，TV，MUSIC则直接输出领域，如果类别是OTHER，则为BAIKE领域输出。

本发明较现有技术相比，具有以下优点及有益效果：

本发明的一种改进的前缀树与循环神经网络结合的领域分类方法，通过新增用户数据，重新训练RNN模型以及重构前缀树，然后根据真实用户请求，重新设计领域分类算法结构，最后优化了前缀树特征的权重计算方法。成功的解决了领域分类的性能问题，并提高了分类的正确率。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例或现有技术描述中所需要实用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本实施例的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明流程图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

在任一实施例中，如图1所示，本发明的一种改进的前缀树与循环神经网络结合的领域分类方法，这里以分8个类别为例，包括

第一步：构建循环神经网络模型

a)搜集用户数据关于8个领域的数据，因为TV，MUSIC，VIDEO领域数据较多，所以利用循环神经网络分类的领域为TV，MUSIC，VIDEO和OTHER共4个类，另外5个领域的数据合成OTHER类，OTHER包括CHRADIO，TRAIN，SMARTHOME，APP，CONTROL这5个领域，使4个类别的文本数量尽量相等，组成训练数据集。

b)将训练数据集人工分类后打上标签，采用one-hot编码，例如

x_content	VIDEO	MUSIC	TV	OTHER
					我想看刘德华的电影	1	0	0	0
我想看四川卫视	0	0	1	0
					我想听周杰伦的歌	0	1	0	0
我想看成都的火车票	0	0	0	1

其中，0代表不属于此类，1代表属于此类。

c)对中文文本进行按字分词处理，四个文本分词后得到的四个列表为：

我想看刘德华的电影：[′我′，′想′，′看′，′刘’，’德’，’华′，，′电’，’影′]

我想看四川卫视：[′我′，′想′，′看′，′四’，’川’，’卫’，’视′]

我想听周杰伦的歌：[′我′，′想′，′听′，′周’，’杰’，’伦′，′的′，′歌′]

我想看今天的机票：[′我′，′想′，′看′，′成’，’都’，‘的′，‘火′，’车’，’票′]

d)将分词后得到的四个列表存入同一个列表中，组成二维列表用于训练词向量模型。设置词向量长度为100，即每个词语对应的词向量大小为(1，100)，将构建好的二维列表输入Word2vec词向量模型，由此可以得到每个词的词向量。构造完成后要保存模型，便于后期使用。

e)选取数据集中词语数最多的句子，用它的词语数量*单个词向量长度，设置这个值为每条文本的标准向量化长度。再使用之前构造的词向量模型来向量化每条文本，长度不足的在末尾补0；

比如：单个词向量长度为100，以下词语数最多的是文本C，词语个数为3，所以设定每条文本的标准向量化长度为300，不足的补0：

文本A：[“a”，“d”] <＝>词向量(1，200)+补0(1，100)＝(1，300)

文本B：[“b”，“c”] <＝>词向量(1，200)+补0(1，100)＝(1，300)

文本C：[“a”，“b”，“c”] <＝>词向量(1，300)

文本D：[“b”] <＝>词向量(1，100)+补0(1，200)＝(1，300)

f)构建循环神经网络模型，模型输出再应用softmax函数激活后输出分类值。

g)模型训练：将步骤b生成的分类标签文本以及步骤e生成的词向量矩阵文本作为循环神经网络模型的输入，进行模型的训练；包括

步骤1)：设置batch_size(即一个batch的数量，一次训练的数据集数量)将训练集按照batch分块；

步骤2)：使用循环神经网络模型对步骤a)中的每一个batch数据(集每一块)进行训练；将步骤e中得到的词向量w(t)和前一步隐藏层的输出作为当前层的输入，通过激活函数变换得到隐藏层，如公式所示：h(t)＝f(w(t)u+h(t-1)w)式中，f为神经单元节点的激活函数，w(t)表示当前也就是t时刻词的词向量，h(t-1)表示t-1时刻隐藏层的输出，w表示t-1时刻隐藏层与当前t时刻隐藏层的权重矩阵，u表示输入层与当前隐藏层的权重矩阵，h(t)表示当前步隐藏层的输出；

步骤3)：按照步骤2)得到的RNN的隐藏层最后的输出为是h(t)，最后通过softmax激活函数得到整个模型的输出y(t)，如公式所示：y(t)＝g(((h(t)*v)式中，g为softmax激活函数，v表示当前隐藏层与输出层的权重矩阵，y(t)为当前词t时刻输入的预测值；

步骤4)：对步骤3)中获得的预测值y(t)与真实值进行比较，若两者的差值高于某一设定阈值时，通过BPTT算法对各层之间的权重矩阵进行调整；

步骤5)：在训练过程中，循环神经网络模型经过每次迭代后，利用测试集进行结果测试，如果在设定的迭代次数内都未在测试集上获得更好的效果，可以修改学习率，进行下一次迭代操作；直到循环神经网络模型达到收敛状态。即损失函数值递减，正确率递增；由此得到最优的循环神经网络模型；

第二步、构建前缀树

a)搜集关于8个领域的真实用户数据，将训练数据集按领域打好标签，即分类；

b)每一类的数据中选择具有明显领域特征的名词，领域之间无重复的特征，比如“火车票”是TRAIN领域特征，“空调”是SmartHome领域特征，这里特别注明，将热门的VIDEO，MUSIC，TV领域的实体也作为特征，以类为名字存为特征文本一，然后从每一类的数据中选择属于该领域特征的动词和名词，领域之间可重复，比如“我想听”，可以是MUSIC，CHRADIO等多个领域特征，“关闭音量”，可以是TV，SMARTHOME等领域特征，以类为名字存为特征文本二，用于后面构建前缀树；

c)构建前缀树模型，将特征文本一输入前缀树模型，得到前缀树1，命名trie_1，将特征文本二输入前缀树模型，得到前缀树2，命名trie_2；

第三步、预测文本类别

以6条数据为例：

序号	用户数据	领域	领域出处
				txt_1	打开cibn酷	APP	Trie_1
txt_2	我想看芈月传第一集	VIDEO	Video_pro
				txt_3	调到15集	CONTROL	Special_pro
txt_4	我想买成都到北京的火车票	TRAIN	Trie_2
				txt_5	12台换12台	TV	RNN
txt_6	你被炒了	BAIKE	OTHER

假设待测文本同时输入领域分类算法(实际可以一条一条输入)：

a)将6条数据整句输入Trie_1，此时在Trie_1中找到特征“打开cibn酷”，则txt_1输出领域APP，其他5条数据继续进入下一步：

b)将剩下的5条数据分别去掉动词，集数等，留下实体去Reids查询，则此时redis中有实体“芈月传”，对应的属性”film”，则txt_2输出领域VIDEO，其他4句继续进入下一步：

c)将剩下的4条数据输入Special_pro方法，找到正则符合txt_3，于是txt_3输出领域CONTROL，剩下的3条数据继续进入下一步；

d)将待测文本，全分词(即任何两个及两个以上相邻的字都分为一个词)，组成一个列表.将列表中的词分别输入Trie_2，则Trie_2中有特征”火车票”，则txt_4输出领域TRAIN，剩下的2条数据继续进入下一步；

e)将待测文本分词(按字分词)，然后通过训练好的词向量，向量化文本，将向量化后的文本输入循环神经网络模型因为模型只对VIDEO，TV，MUSIC，OTHER这4个领域进行分类，所以输出类别如果是VIDEO，TV，MUSIC则直接输出领域，如果类别是OTHER，则为BAIKE。因此txt_5输出领域TV，txt_6输出领域BAIKE。

优化前后结果对比如下表：

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本发明对各种可能的组合方式不再另行说明。此外，本发明的各种不同的实施方式之间也可以进行任意组合，只要其不违背本发明的思想，其同样应当视为本发明所公开的内容。

Claims

1.一种改进的前缀树与循环神经网络结合的领域分类方法，其特征在于，包括以下步骤：

步骤1、构建循环神经网络模型；

步骤2、构建前缀树；

步骤3、文本类别预测：包括优化领域分类结构，分类算法。

2.如权利要求1所述的一种改进的前缀树与循环神经网络结合的领域分类方法，其特征在于，所述步骤1具体为：

1.1搜集用户数据，组成训练数据集；

1.2采用one-hot编码，将训练数据集人工分类后打上标签；

1.3构造词向量模型，把训练数据集进行中文分词处理，利用word2vec对分词文本进行训练，得到词向量模型；

1.4向量化文本，利用训练好的词向量模型训练文本，得到向量化的文本数据；

1.5搭建循环神经网络模型，将向量化的训练文本输入模型，将输出通过softmax函数激活后，输出模型最终的分类；

1.6模型训练：得到了分类结果以后，计算模型的损失，即loss，然后采用BPTT算法不断的优化模型，即最小化loss，就这样不断的迭代、优化，得到最优的循环神经网络模型。

3.如权利要求1所述的一种改进的前缀树与循环神经网络结合的领域分类方法，其特征在于，所述步骤2具体为：

2.1新增用户数据，用于提取更多特征构建前缀树；

2.2将训练数据集按领域打好标签，即分类；

2.3首先从每一类的数据中选择具有明显领域特征的名词，领域之间无重复的特征，以类为名字存为特征文本一；然后再从每一类的数据中选择属于各领域特征的动词和名词，领域之间特征可重复，以类为名字存为特征文本二；

2.4搭建前缀树模型，分别将特征文本一输入前缀树模型，构造前缀树1，命名trie 1，将特征文本二输入前缀树模型，构造前缀树2，命名trie_2。

4.如权利要求1所述的一种改进的前缀树与循环神经网络结合的领域分类方法，其特征在于，所述步骤3具体为：

3.1 Trie_1：文本输入Trie_1，如果有领域则输出，否则下一步；

3.2 Video_pro：文本，包括所有没有领域的输出的文本，合并之前的单独处理的VR，TVIMAGE，FIGURE领域数据，去掉动词，集数等，去redis查询，有领域则输出，否则下一步；

3.3 Special_pro：文本输入该方法，该方法包含一些正则表示式，因为项目实践表明正则表达式耗时长，严重影响性能，所以比优化前，减少了很多，如果有领域则输出，否则下一步；

3.4 Trie_2：将待测文本，全分词，所有词组成一个列表；将列表中的词分别输入Trie_2，输出可能存在的多个领域，接下来按照权重计算，优化后的特征权重计算公式：

其中t表示属于某个领域的特征词总的个数，l_i表示第i个特征的长度，α_i表示第i个特征的加权系数；当特征的首或者尾是整个文本的首或者尾，α_i为0.8，否则α_i为0.5，所属领域的权重大，则属于该领域，否则进入下一步；

3.5 RNN；将文本分词按字分词，然后通过训练好的词向量，向量化文本，将向量化后的文本输入循环神经网络模型因为模型只对VIDEO，TV，MUSIC，OTHER这4个领域进行分类所以输出类别如果是VIDEO，TV，MUSIC则直接输出领域，如果类别是OTHER，则为BAIKE领域输出。