CN118296143A

CN118296143A - 基于投影胶囊网络模型的文本分类方法、装置及存储介质

Info

Publication number: CN118296143A
Application number: CN202410370000.4A
Authority: CN
Inventors: 周晓辉; 王华超; 张晨昱; 张全震; 吴曾
Original assignee: Best Tone Information Service Corp Ltd
Current assignee: Best Tone Information Service Corp Ltd
Filing date: 2024-03-29
Publication date: 2024-07-05

Abstract

本发明涉及一种基于投影胶囊网络模型的文本分类方法、装置及存储介质，针对智能应答文本语料特征，提出了一种基于特征投影网络优化胶囊网络模型的智能应答文本分类方法，采用具备全局地兼顾文本的语义和语序信息的胶囊网络进行信息特征提取，采用动态路由算法解决采用自下而上和被动的方式进行信息聚合的缺点，引导任务型文本语序和语义信息主动聚类；并且借助具备文本增强能力的Fpnet改进表征学习，对长尾小样本给予一定关注。与现有技术相比，本发明解决现有模型对当前场景下短文本分类正确率低的问题，有效地提升模型分类性能。

Description

基于投影胶囊网络模型的文本分类方法、装置及存储介质

技术领域

本发明涉及AI自然语言处理技术领域，尤其是涉及一种基于投影胶囊网络模型智能应答文本分类方法。

背景技术

在云改数转的引领下，智能应答业务快速发展，用户数量屡创新高，智能应答每天产生大量数据，文本的分类与深度处理就很重要。智能应答进行文本分类任务时与普通文本分类任务有一定的区别，一是这些数据涉及类别广泛，且都为ASR转换成的自然语言文本，主要以短文本数据为主，语义稀疏、模糊、缺乏上下文的场景。二是智能应答产生的文本存在类别不均衡的特征，少数几个场景的文本数量极多，存在长尾现象。

例如中国专利申请CN202010318221.9所公开的一种对话情感检测方法，其利用动态路由算法对交互胶囊向量进行非线性压缩变换得到情感胶囊向量，以确定当前对话文本的情感，解决了对话情感检测准确度低和可解释性差的问题，没有考虑到短文本分类和长尾小样本现象对分类结果的影响。

发明内容

本发明的目的是针对智能应答场景语料数据的复杂性，克服上述针对智能应答场景语料数据的复杂性而提供一种基于特征投影网络优化胶囊网络模型的智能应答文本分类方法。

本发明的目的可以通过以下技术方案来实现：

本发明采用一种特征投影网络优化胶囊网络模型的文本分类方法，针对智能应答文本语料特征，发明了一种基于特征投影网络优化胶囊网络模型的智能应答文本分类方法。首先采用具备全局地兼顾文本的语义和语序信息的胶囊网络进行信息特征提取，采用动态路由算法解决采用自下而上和被动的方式进行信息聚合的缺点，引导任务型文本语序和语义信息主动聚类。最后借助具备文本增强能力的Fpnet改进表征学习，对长尾小样本给予一定关注，有效地提升文本分类效果。

作为优选技术方案，所述的基于胶囊网络的文本分类模型用于获取文本特征信息中部分与整体之间的空间信息，具体如下：

对语料数据进行文本向量嵌入操作，将文本转化成向量形式；

使用胶囊网络中卷积层进行特征提取形成一系列初级胶囊网络；

通过加权操作、胶囊挤压操作和动态路由操作形成次级胶囊网络层，并提取文本全局信息以及文本部分与整体之间的空间信息特征。

作为优选技术方案，所述基于胶囊网络的文本分类模型提取文本部分与整体之间的空间内在联系的具体步骤如下：

将输入的语料数据转换为向量形式的特征矩阵M，并将特征向量M构建为胶囊矩阵P；

对于每一个胶囊采用非线性激活函数得到：

p_i＝g(W₂ ¹M_i+b₂)

其中：g为非线性激活函数，b₂是偏置项，M_i表示特征矩阵M中的一行，同一列胶囊网络共享一个转换矩阵

使用大小为n₂×h₂的滑动窗口在胶囊矩阵P上进行运算：

其中：表示初级胶囊i对次级胶囊j的预测值，是转换矩阵，N为次级胶囊的数量，u_i为初级胶囊，为偏置项；Routing是动态路由算法，代表窗口内的所有初级胶囊，v,a对应生成的所有次级胶囊及其概率；

通过非线性压缩函数对胶囊进行压缩操作：

其中：为压缩因子；V_j为胶囊j的输出向量；S_j为胶囊j的输入，由第i层胶囊的预测向量和耦合系数c_it加权求和得到：

其中：耦合系数c_ij由动态路由算法更新所得，用于表示i层胶囊对于生成t层各层相似性来动态更新参数，预测向量由上一层胶囊的输出u_i乘以权重矩阵W_ij得到：

作为优选技术方案，所述的动态路由算法，通过胶囊的输入和输出的点积运算来计算输入和输出的相似性以更新路由系数，引导任务型文本语序和语义信息主动聚类，算法具体流程如下：

始化基于胶囊网络的文本分类模型的参数，对于每一个训练批次执行以下步骤：

对输入模型的句子矩阵进行卷积运算，得到向量形式的特征矩阵M；

将向量形式的特征矩阵M转化成第一胶囊矩阵P；

对第一胶囊矩阵P进行胶囊卷积运算及动态路由得到第二胶囊矩阵U；

对第二胶囊矩阵U进行胶囊运算及动态路由得到类别的胶囊Y；

计算损失，反向传播更新参数；

达到训练批次后，返回训练好的胶囊网络模型参数。

作为优选技术方案，所述的基于胶囊网络的文本分类模型的特征提取网络与共性特征提取网络的网络结构相同，网络参数不共享。

作为优选技术方案，所述基于特征投影网络优化胶囊网络模型设置融合的损失函数如下：

其中：λ,m⁺,m^-为超参数，V_j为胶囊j的输出向量，||V_j||为向量的模长；

在反向传播过程中特征投影网络参数和共性特征学习网络参数并不共享，表示第t个反向传播只更新共性特征学习网络参数，表示第t个反向传播只更新特征投影网络参数。

作为优选技术方案，所述特征投影网络损失函数Loss_P与共性特征学习网络损失函数Loss_C使用交叉熵损失函数计算：

Loss_P＝CrossEntropy(Y_truth,Y_P)

Loss_C＝CrossEntropy(Y_truth,Y_C)

其中，分别表示的原始特征与共享特征的预测值；Y_P,Y_C分别为基于预测原始特征与共享特征的预测分类值；Y_truth表示真实分类值。

作为优选技术方案，所述的基于特征投影网络优化胶囊网络模型根据正负样本的分布情况和数据量来调整权重向量，进而调整总损失函数：

其中：Loss⁺表示所有正样本损失函数值，Loss^-表示负样本损失函数值，N⁺表示正样本个数，N^-表示负样本个数，Loss_all为最终整个基于特征投影网络优化胶囊网络模型预测分类损失函数值。

作为本发明的第二方面，提供一种基于投影胶囊网络模型的文本分类装置，包括存储器、处理器，以及存储于所述存储器中的程序，所述处理器执行所述程序时实现如上所述的基于投影胶囊网络模型的文本分类方法。

作为本发明的第三方面，提供一种存储介质，其上存储有程序，所述程序被执行时实现如上所述的基于投影胶囊网络模型的文本分类方法。

与现有技术相比，本发明具有以下有益效果：

1)本发明提出一种创新的基于胶囊网络结构的Fp-CN模型框架，首先通过胶囊网络模型兼顾文本的语义和语序信息的胶囊网络进行信息特征提取，并且借助具备文本增强能力的Fpnet改进表征学习，具有更强的覆盖所有数据空间位置信息特征的能力。当应用于短文本分类时，它可以为长尾词提供一定程度的关注，可以使分类更加准确。

2)本发明采用的基于动态路由的胶囊网络模型，将初级的胶囊网络的数据向量通过转换矩阵转换来预测次级胶囊向量，借助压缩函数计算预测概率值，利用胶囊层进行分类、类别映射，由多个胶囊神经元共同决定部分与整体之间的关系，使用初级胶囊层对上层的卷积操作的标量输出替换为矢量输出，从而保留文本的词语顺序和语义，使得胶囊网络能够学习文本局部和整体之间的空间信息关联关系。

3)本发明借助具备文本增强能力的Fpnet改进表征学习，针对Fp-CN模型框架设计一个融合的损失函数，并根据正负样本的数据量自适应的调整损失函数对样本的全局关注度，有效提升模型的准确率。

附图说明

图1为本发明的智能应答业务建模方法流程图；

图2为本发明胶囊层网络数据传输流程图；

图3为本发明基于胶囊网络的文本分类模型图；

图4为本发明特征投影(Fpnet)网络结构图；

图5为本发明基于特征投影的胶囊网络模型框架图。

具体实施方式

ASR(Automatic Speech Recognition，自动语音识别)：自动语音识别技术是一种将人的语音转换为文本的技术。

Fpnet(Feature Projection Network，特征投影网络)：一种含有两个子网的特征净化网络结构，一个用于识别对分类没有区别的共同特征，另一个用于将传统特征投射到共同特征的正交方向的特征投影

CN(Capsule Networks，胶囊网络)：胶囊网络基于一种新的结构-胶囊(Capsule)，通过与现有的卷积神经网络CNN相结合，从而在一些图像分类和文本分类的数据上取得了非常优越的性能。

本发明针对智能应答文本语料特征，提出了一种基于特征投影网络优化胶囊网络模型的智能应答文本分类方法。首先，采用具备全局地兼顾文本的语义和语序信息的胶囊网络进行信息特征提取，采用动态路由算法解决采用自下而上和被动的方式进行信息聚合的缺点，引导任务型文本语序和语义信息主动聚类。最后借助具备文本增强能力的Fpnet改进表征学习，对长尾小样本给予一定关注，有效地提升文本分类效果。

下面结合附图和具体实施例对本发明进行详细说明。本实施例以本发明技术方案为前提进行实施，给出了详细的实施方式和具体的操作过程，但本发明的保护范围不限于下述的实施例。

实施例1

本实施例中采用智能应答业务中生成的场景语料数据进行建模。首先，对场景语料数据进行预处理操作，分别将每个句子都转换成小写、然后标记句子特定的整数索引、并使用零预填充，直到句子最大长度，形成满足模型需要的多维向量，实现文本的嵌入向量表示。然后借助胶囊网络获取文本特征信息中部分与整体之间的空间信息，最后结合具备文本增强能力的特征投影网络Fpnet改进表征学习，提升模型的准确率。如图1所示，基于特征投影网络优化胶囊网络模型的智能应答业务建模流程具体的技术方案如下：

1.数据处理：

基于智能应答全场景语料数据，对经过ASR转换后的数据进行数据清洗、转换等ETL工程，选取用户唯一ID、文本内容text_context、主被叫、意图类别Intend_class、开始时间start_time，结束时间end_time，标签，进而得到模型所需的文本语料数据集。

2.胶囊网络

胶囊网络CN是基于卷积神经网络的一种优化网络结构，在胶囊的输入层和输出层之间通过加权操作、胶囊挤压操作和动态路由操作等进行数据传输，胶囊层的结构图如图2所示。

2.1基于胶囊网络文本分类模型

胶囊网络采用转换矩阵编码方式提取文本部分与整体之间的空间内在联系，保证了实体与实体的空间位置信息不丢失，采用动态路由算法，通过胶囊的输入和输出的点积运算来计算输入和输出的相似性，然后更新路由系数，进而实现特征信息的有效性。引入非线性压缩函数“Squashing”作为激活函数，实现短向量长度接近于0，长向量长度接近于1长度，在一定程度上解决了传统神经网络中训练过程不可解释的问题。基于胶囊网络的文本分类模型如图3所示，

首先将文本句子嵌入向量形式输入模型，经过特征提取层(全连接层)，然后以向量形式输出产生特征矩阵：

其中：m_i表示特征序列。然后将特征向量构建成胶囊，产生胶囊形式的特征矩阵：

其中：p_i为一系列胶囊，共h₂列，每一个胶囊通过非线性激活函数及公式(3)得到：

其中：g为非线性激活函数，b₂是偏置项，M_i表示M中的一行，同一列胶囊网络共享一个转换矩阵

其次使用大小为n₂×h₂的滑动窗口在胶囊形式的特征矩阵P上进行公式(4)和公式(5)运算，

其中：表示初级胶囊i对次级胶囊j的预测值，是转换矩阵，N为次级胶囊的数量，u_i为初级胶囊，为偏置项。Routing是动态路由算法，代表窗口内的所有初级胶囊，v,a对应生成的所有次级胶囊及其概率。

最后通过一个非线性压缩函数对胶囊进行压缩操作，压缩函数如公式(6)所示

其中：为压缩因子，V_j为胶囊j的输出向量，S_j为胶囊j的输入，由第i层胶囊的预测向量和耦合系数c_it加权求和可得，

其中：耦合系数c_ij由动态路由算法更新所得，用于表示i层胶囊对于生成t层各层相似性来动态更新参数，预测向量由上一层胶囊的输出乘以权重矩阵得到，

动态路由算法流程如下

基于动态路由的胶囊网络模型，将初级的胶囊网络的数据向量通过转换矩阵转换来预测次级胶囊向量，借助压缩函数计算预测概率值，利用胶囊层进行分类、类别映射，由多个胶囊神经元共同决定部分与整体之间的关系，使得胶囊网络能够学习得到文本局部和整体之间的关联关系。

3.特征投影网络

特征投影网络Fpnet是一种文本增强的神经网络结构，包含两个部分：投影网络P-Net(projection network)和共性特征学习网络C-Net(common feature learningnetwork)。其通过正交投影层OPL(Orthogonal Projection Layer)得到纯化的特征以进行分类；嵌入逆向梯度层(Gradient Reversl Layer,GRL)实现分类文本多个类别的共性特征，借助特征投影改进表征学习，有效地提升文本分类效果，Fpnet网络结果如图4所示。

4.基于特征投影网络优化胶囊网络模型构建

基于Fpnet优化胶囊网络模型，主要在于使用胶囊网络实现语料文本数据的空间特征信息提取工作，形成基于胶囊网络的文本分类模型，然后将基于胶囊网络的文本分类模型分别替换Fpnet中的共性特征学习网络(C-net)和投影网络(P-net)，形成基于特征投影的胶囊网络模型框架(Fp-CN)，通过特征投影网络OPL让原始特征Fp和共性特征Fc进行正交投影计算得到更纯的分类特征Fp'，特征Fp'在向量空间中对类别指向更加明确，从而可以提升分类任务的准确性。

基于特征投影的胶囊网络模型(Fp-CN)框架图如图5所示。Fp-CN模型框架主要分为两个部分，左边为原始特征提取网络Fp-CN P-net，右边为共性特征提取网络Fp-CN C-net，两个网络在结构相同，但是参数上并不共享，共性特征提取网络Fp-CN C-net中加入GRL反转层后和原始特征提取网络Fp-CN P-net的输出结果一样，如公式(9)(10)所示，它们的输出层都使用Softmax归一化激活函数，如公式(11)(12)所示，双网络使用交叉熵损失函数计算。

Loss_P＝CrossEntropy(Y_truth,Y_P) (11)

Loss_C＝CrossEntropy(Y_truth,Y_C) (12)

针对Fp-CN网络结构，本发明基于FP网络和CN网络的损失函数的特性，设计一个融合的损失函数，定义如公式(13)所示：

其中：超参数设置为：λ＝0.5,m⁺＝0.9,m^-＝0.1，V_j为胶囊j的输出向量，||V_j||为向量的模长，在反向传播过程中原始特征提取网络Fp-CN P-net网络参数和共性特征提取网络Fp-CN C-net网络参数并不共享，表示第t个反向传播只更新右侧共性特征提取网络Fp-CN C-net网络参数，表示第t个反向传播只更新左侧原始特征提取网络Fp-CNP-net网络参数。共性特征提取网络Fp-CN C-net中虽然同样使用softmax和交叉熵损失函数，但是由于在反向传播时候共性特征提取网络Fp-CN C-net模块中GRL层进行梯度反转，因此的值会逐渐变大。进行计算和反向传播只是为让神经网络得到共性特征。

本专利提出的一种基于Fp-Cn框架的新型网络模型，能够快速的处理大模型数据，但是因数据集的分布不平衡因素，为了解决此问题，专利根据正负样本的分布情况和数据量来自适应地调整权重向量，进而自适应调整总损失函数，定义如公式(14)(15)(16)所示：

其中：Loss⁺表示所有正样本损失函数值，Loss^-表示负样本损失函数值，N⁺表示正样本个数，N^-表示负样本个数。原始特征提取网络Fp-CN P-net模块中Loss_all为最终整个Fp-CN模型预测分类损失函数值。

实施例2

上述实施例1中方案，可以在智能应答应用场景下有效的部署与应用，实现自主研发能力的替代，同时实现各项NLP算法功能的持续优化。同时也可以在智能客服，文本分类等业务场景下进行部署与应用。

本技术方案在智能应答中的应用过程如下：

步骤1、用户B办理XX通信助理业务；

步骤2、主叫用户A给用户B打电话时漏接/遇忙/挂断时，由智能应答机器人代接；

步骤3、主叫用户A和智能应答机器人沟通了关于取快递的业务场景；

步骤4、对话过程由智能应答的ASR、NLP、TTS、语音网关等关键组件提供；

步骤5、通话中，由本技术方案特征投影优化的胶囊网络模型进行场景识别，应答流程指向对应的对话流程；

步骤6、通过短信、微信消息把录音文件(TTS合成的语音文本)、应答文本、通话摘要文本推送给用户B；

步骤7、用户B通过推送通知进行后期的话务处理。

实施例3

作为本发明的第二方面，本申请还提供一种电子设备，包括：一个或多个处理器；存储器，用于存储一个或多个程序；当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如上述基于投影胶囊网络模型的文本分类方法。除了上述的处理器、存储器以及接口之外，实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能，还可以包括其他硬件，对此不再赘述。

实施例4

作为本发明的第三方面，本申请还提供一种计算机可读存储介质，其上存储有计算机指令，该指令被处理器执行时实现如上述基于投影胶囊网络模型的文本分类方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元，例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备，例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card，SMC)、SD卡、闪存卡(FlashCard)等。进一步的，所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据，还可以用于暂时地存储已经输出或者将要输出的数据。

以上详细描述了本发明的较佳具体实施例。应当理解，本领域的普通技术人员无需创造性劳动就可以根据本发明的构思做出诸多修改和变化。因此，凡本技术领域中技术人员依本发明的构思在现有技术的基础上通过逻辑分析、推理或者有限的实验可以得到的技术方案，皆应在由权利要求书所确定的保护范围内。

Claims

1.一种基于投影胶囊网络模型的文本分类方法，其特征在于，所述方法将语料数据输入基于特征投影网络优化胶囊网络模型，并得到文本分类；

所述的基于特征投影网络优化胶囊网络模型，采用基于胶囊网络的文本分类模型分别替换特征投影网络中的共性特征学习网络和投影网络，得到原始特征提取网络以及共性特征提取网络，形成基于特征投影的胶囊网络模型框架；对通过原始特征提取网络得到的原始特征和共性特征提取网络得到的共享特征进行正交投影计算得到最终的文本分类。

2.根据权利要求1所述的一种基于投影胶囊网络模型的文本分类方法，其特征在于，所述的基于胶囊网络的文本分类模型用于获取文本特征信息中部分与整体之间的空间信息，具体如下：

3.根据权利要求2所述的一种基于投影胶囊网络模型的文本分类方法，其特征在于，所述基于胶囊网络的文本分类模型提取文本部分与整体之间的空间内在联系的具体步骤如下：

对于每一个胶囊采用非线性激活函数得到：

使用大小为n₂×h₂的滑动窗口在胶囊矩阵P上进行运算：

通过非线性压缩函数对胶囊进行压缩操作：

4.根据权利要求3所述的一种基于投影胶囊网络模型的文本分类方法，其特征在于，所述的动态路由算法，通过胶囊的输入和输出的点积运算来计算输入和输出的相似性以更新路由系数，引导任务型文本语序和语义信息主动聚类，算法具体流程如下：

将向量形式的特征矩阵M转化成第一胶囊矩阵P；

计算损失，反向传播更新参数；

达到训练批次后，返回训练好的胶囊网络模型参数。

5.根据权利要求1所述的一种基于投影胶囊网络模型的文本分类方法，其特征在于，所述的基于胶囊网络的文本分类模型的特征提取网络与共性特征提取网络的网络结构相同，网络参数不共享。

6.根据权利要求1所述的一种基于投影胶囊网络模型的文本分类方法，其特征在于，所述基于特征投影网络优化胶囊网络模型设置融合的损失函数如下：

7.根据权利要求6所述的一种基于投影胶囊网络模型的文本分类方法，其特征在于，所述特征投影网络损失函数Loss_P与共性特征学习网络损失函数Loss_C使用交叉熵损失函数计算：

Loss_P＝CrossEntropy(Y_truth,Y_P)

Loss_C＝CrossEntropy(Y_truth,Y_C)

8.根据权利要求6-7任一所述的一种基于投影胶囊网络模型的文本分类方法，其特征在于，所述的基于特征投影网络优化胶囊网络模型根据正负样本的分布情况和数据量来调整权重向量，进而调整总损失函数：

9.一种基于投影胶囊网络模型的文本分类装置，包括存储器、处理器，以及存储于所述存储器中的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-8中任一所述的基于投影胶囊网络模型的文本分类方法。

10.一种存储介质，其上存储有程序，其特征在于，所述程序被执行时实现如权利要求1-8中任一所述的基于投影胶囊网络模型的文本分类方法。