CN115495579A - 5g通信助理文本分类的方法、装置、电子设备及存储介质 - Google Patents
5g通信助理文本分类的方法、装置、电子设备及存储介质 Download PDFInfo
- Publication number
- CN115495579A CN115495579A CN202211140540.0A CN202211140540A CN115495579A CN 115495579 A CN115495579 A CN 115495579A CN 202211140540 A CN202211140540 A CN 202211140540A CN 115495579 A CN115495579 A CN 115495579A
- Authority
- CN
- China
- Prior art keywords
- model
- classification
- text
- layer
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/049—Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Databases & Information Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明涉及一种5G通信助理文本分类的方法、装置、电子设备及存储介质。5G通信助理文本分类的方法包括步骤:S1、对语料数据进行ASR转换,再对数据进行ETL数据清洗得到模型所需的原始语料数据集;S2、数据输入,将字向量、词向量和位置向量进行合并,生成训练数据,传递给BERT的嵌入层进行输出;S3、由分类模型分别进行训练;S4、结果融合,将由基于Attention机制改进的BiLSTM模型、Text CNN模型、DPCNN模型、Text RCNN模型输出的语义特征,分别输入至分类器层,得到分类场景下各分类类别的预测概率;S5、采用算数平均进行融合,输出分类结果。依据本发明的5G通信助理多场景语料数据进行文本分类的方法,可以解决分类正确率低的问题,并能够提升服务质量、挖掘数据潜在价值。
Description
技术领域
本发明涉及文本分类技术领域,具体而言,涉及一种融合深度学习模型的5G通信助理文本分类的方法、装置、电子设备及存储介质。
背景技术
目前,通信运营商在云改数转的引领下,5G通信助理业务快速发展,用户数量屡创新高,5G通信助理每天产生大量数据,文本的分类与深度处理非常重要。
传统的文本分类方法主要分为两类:一是基于词典的数据分类,将数据与建立的词典库进行比对从而进行分类;二是基于机器学习的数据文本分类,该方法常常依赖于人工设计的特征,并且文本表示存在着稀疏、高维度的问题。在特征工程的基础上,使用朴素贝叶斯、余弦相似度等分类模型进行分类。
但是5G通信助理进行文本分类任务时与普通文本分类任务有一定的区别,一是这些数据涉及类别广泛,且都为自动语音识别技术(ASR)转换成的自然语言文本,存在词序不规范,并且可能出现实体识别不正确的问题。二是5G通信助理产生的文本存在类别不均衡的特征,少数几个场景的文本数量极多,存在长尾现象。三是存在很多无意义的对话,这些特点为意图识别与文本分类增添了难度。
因此,为了提升服务质量,挖掘数据潜在价值,亟需研发一种规避以上问题,通过融合深度学习模型的5G通信助理文本分类的方法。
发明内容
本发明要解决的技术问题是现有模型对当前场景下分类正确率低的问题,并能够提升服务质量、挖掘数据潜在价值,提供一种面向5G通信助理多场景语料数据进行文本分类的方法。
为解决上述技术问题,根据本发明的一个方面,提供一种5G通信助理文本分类的方法,方法基于5G通信助理全场景语料数据进行分类,语料数据包括通话ID、通话内容、通话角色、通话场景类别、通话开始时间、通话结束时间的数据,方法包括如下步骤:S1、对语料数据进行ASR(自动语音识别)转换,再对数据进行ETL数据清洗操作,ETL数据清洗包括:数据抽取、数据转换和数据加载,进而得到模型所需的原始语料数据集;S2、数据输入,采用参数级别上亿的预训练模型BERT将每个输入的原始语料数据通过token(输入文本中的字)向嵌入(Embendding)层传递,以便将每个token转换为字向量表示,同时BERT还具有额外的嵌入层,额外的嵌入层包括以句向量嵌入和位置向量嵌入的形式;将字向量、词向量和位置向量进行合并,生成训练数据,传递给BERT的嵌入层进行输出;S3、由BERT的嵌入层将训练数据输入到分类模型,由分类模型分别进行训练,分类模型包括基于Attention机制改进的BiLSTM(双向LSTM)模型、Text CNN模型、DPCNN模型、Text RCNN模型;S4、结果融合,将由基于Attention机制改进的BiLSTM模型、Text CNN模型、DPCNN模型、Text RCNN模型输出的语义特征,分别输入至分类器层,进而得到分类场景下各分类类别的预测概率;S5、将步骤S4得到的各分类类别的预测概率,采用算数平均进行融合,输出分类结果。
根据本发明的实施例,在步骤S1后,可再对原始语料数据集进行包括分词、去掉停用词的操作。
根据本发明的实施例,基于Attention机制改进的BiLSTM模型可采用双向LSTM(Bi-LSTM)来获取每个字词的上下文语义信息,Bi-LSTM通过前向和后向的LSTM捕获第T时刻前向隐藏层backwardT和后向隐藏层状态向量forwardT,然后融合forwardT和backwardT形成最后隐藏层状态向量lastT作为第T时刻节点对应的字词上下文语义向量表示,前向隐藏层状态向量forwardT的计算过程如下:
iT=f(Wi·[forwardT-1,eT]+bi) (1)
fT=f(Wf·[forwardT-1,eT]+bf) (2)
oT=f(Wo·[forwardT-1,eT]+bo) (3)
cT=fT*cT-1+iT*tanh(Wc·[forwardT-1,eT]+bc) (4)
forwardT=oT*tanh(cT) (5)
其中,forwardT-1是第T-1时刻前向隐藏层状态向量,eT是嵌入层第T个位置的输出向量,f是sigmoid激活函数,W权重矩阵,b是偏置项矩阵,tanh是双曲正切函数,*是元素方式的乘积运算,cT是状态变量,cT和输出门一起决定最后的输出;因BiLSTM网络结构中遗忘门策略,上下文语义信息的缺失不可避免,因此融合模型将BERT输出的词向量喂入BiLSTM模型,进而得到每个单词的最终上下文表示
在BiLSTM模型后融合注意力机制(Attention)模型能将每个字词的上下文表示向量分配一个重要度(权重)来衡量不同字词对文本全局语义特征的重要程度,进而得到文本全局语义特征表示Fglobal,Fglobal的计算公式如下:
根据本发明的实施例,Text CNN模型可包括输入层(Embedding layer)、卷积层(convolution)、池化层(pooling)、全连接层(fc);输入层是由BERT的Embendding层进行输入表示的词向量,pooling操作选择将卷积得到的列向量的最大值提取出来,相当于(pad_size-filter_size+1)维变成一维,即将每个卷积核的最大值连接起来,即通过pooling来消除句子之间长度不同的差异,池化层后面加上全连接层,并添加用于防止过拟合的L2正则化和Dropout正则化方法;最终的输出层需要进行Softmax概率归一化,然后使用Softmax后的预测输出结果和真实标签计算交叉熵损失。
根据本发明的实施例,DPCNN模型可通过包括不断加深网络、固定feature map的数量的操作,实现抽取长距离的文本依赖关系,其中,每当使用一个size=3和stride=2进行max pooling进行池化时,每个卷积层的计算时间减半(数据大小减半),从而形成一个金字塔(Pyramid)。
根据本发明的实施例,Text RCNN模型可将卷积层换成双向RNN(循环神经网络),从而形成双向RNN、池化层、输出层的网络结构,用双向循环结构获取上下文信息,这比传统的基于窗口的神经网络更能减少噪声,而且在学习文本表达时可以大范围的保留词序;其次使用最大池化层获取文本的重要部分,自动判断哪个特征在文本分类过程中起更重要的作用。Text RCNN模型训练包括如下步骤:S31、第一栏中间的word embedding层,输入的句子维度为[batch_size,seq_len],seq_len为输入的句子的长度,然后经过embedding层,加载预训练词向量或者随机初始化,词向量维度为embed_size,最终Embedding layer层的输出为[batch_size,seq_len,embed_size];S32、接着将Embedding layer层的输出输入到双向RNN中,前向和后向所有时刻的隐层状态输出分别都是[batch_size,seq_len,hidden_size];S33、拼接操作,需要同时把前向、后向、Embedding layer三层输出拼接到一起,最终的维度为[batch_size,seq_len,hidden_size*2+embed_size]。
根据本发明的实施例,步骤S4中,结果融合可将BiLSTM模型和Attention模型融合输出的全局语义特征表示为Fglobal,将TextCNN模型输出的局部语义特征表示为Flocal1,将DPCNN模型输出的深层局部语义特征表示为Flocal2,将TextRCNN模型输出的局部语义特征表示为Flocal3;然后分别将Fglobal输入至soft max 1分类器层,进而得到分类场景的各分类类别的预测概率矩阵P1,将Flocal1输入至soft max 2分类器层,进而得到分类场景下各分类类别的预测概率矩阵P2,将Flocal2输入至soft max 3分类器层,进而得到分类场景下各分类类别的预测概率矩阵P3,将Flocal3输入至soft max 4分类器层,进而得到分类场景下各分类类别的预测概率矩阵P4:
P1=soft max 1(Wg·Fglobal+bg) (11)
根据本发明的实施例,步骤S5中,结果输出可对结果融合层输出的概率矩阵P1,P2,P3,P4,采用取算术平均数的方式进行融合,得到分类类别的最终预测概率矩阵Pfinal:
采用最小化交叉熵损失函数作为模型训练的目标函数进行模型的迭代优化。
其中,N为训练样本数,C为类别数,q为样本的真实标签,采用One-hot进行编码,λ时L2正则化超参数。
根据本发明的实施例,5G通信助理文本分类的方法还可包括步骤:S6、模型评估,通过采用包括准确率Acc(Accuracy)、精确率Pre(Precision)、召回率Rec(Recall)及F1-score值的评价指标,对融合模型效果进行评价,计算公式如下:
其中,TP是将正类预测为正类的样本数,FN是将正类预测为负类的样本数,FP是将负类预测为正类的样本数,TN是将负类预测为负类的样本数。
根据本发明的第二个方面,提供一种5G通信助理文本分类的装置,其包括:输入模块,输入模块对语料数据进行ASR(自动语音识别)转换,再对数据进行ETL数据清洗操作,ETL数据清洗包括:数据抽取、数据转换和数据加载,进而得到模型所需的原始语料数据集;BERT嵌入模块,采用参数级别上亿的预训练模型BERT将每个输入的原始语料数据通过token(输入文本中的字)向嵌入(Embendding)层传递,以便将每个token转换为字向量表示,同时BERT还具有额外的嵌入层,额外的嵌入层包括以句向量嵌入和位置向量嵌入的形式;将字向量、词向量和位置向量进行合并,生成训练数据,传递给BERT的嵌入模块进行输出;由BERT的嵌入模块将训练数据输入到分类模型模块,由分类模型分别进行训练;分类模型模块,分类模型模块包括基于Attention机制改进的BiLSTM(双向LSTM)模型、Text CNN模型、DPCNN模型、Text RCNN模型;结果融合模块,结果融合模块将由基于Attention机制改进的BiLSTM模型、Text CNN模型、DPCNN模型、Text RCNN模型输出的语义特征,分别输入至分类器层,进而得到分类场景下各分类类别的预测概率;结果输出模块,将各分类类别的预测概率,采用算数平均进行融合,输出分类结果。
根据本发明的实施例,5G通信助理文本分类的的装置还可包括:模型评估模块,模型评估模块通过采用包括准确率Acc(Accuracy)、精确率Pre(Precision)、召回率Rec(Recall)及F1-score值的评价指标,对融合模型效果进行评价。
根据本发明的第三个方面,提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的5G通信助理文本分类程序,5G通信助理文本分类程序被处理器执行时实现上述的5G通信助理文本分类方法的步骤。
根据本发明的第四个方面,提供一种计算机存储介质,其中,计算机存储介质上存储有5G通信助理文本分类程序,5G通信助理文本分类程序被处理器执行时实现上述的5G通信助理文本分类方法的步骤。
与现有技术相比,本发明的实施例所提供的技术方案至少可实现如下有益效果:
为了提升服务质量,挖掘数据潜在价值,本发明采用一种融合深度学习模型进行文本分类,针对5G通信助理的特征,发明了一种融合深度学习模型的5G通信助理文本特征分类方法。该方法通过端到端的方式学习特征表示并解决了文本表示稀疏、高维度的问题。在基于深度神经网络模型的文本分类方法中,文本卷积神经网络(TextCNN)模型采用跨空间模式,借助滑动空间窗口大小来捕捉文本的局部语义特征,但TextCNN有个最大问题是固定filter_size的视野,一方面无法建模更长的序列信息,忽视了句子在时间维度上的先后顺序,另一方面filter_size的超参调节也很繁琐;循环神经网络(Recurrent NeuralNetwork,RNN),能够更好的表达上下文信息,Bi-directional RNN(双向LSTM)从某种意义上可以理解为可以捕获变长且双向的的"n-gram"信息。其采用递归计算获得全局语义特征,常用于识别跨时间维度的模式,但是缺乏捕捉局部语义特征的能力。循环卷积神经网络(TextRCNN)模型将用于捕获上下文信息的循环结构和具备捕获局部语义特征的卷积结构相结合,无需人工设计的特征,自动判断最大池化层哪些词在文本分类中起关键作用,以捕捉文本中的关键成分。深度金字塔卷积神经网络(DPCNN)是一种基于word-level级别的DPCNN网络,DPCNN通过不断加深网络,可以抽取长距离的文本依赖关系,但是DPCNN网络的加深会损失更多的语义信息。基于注意力机制(Attention Mechanism)模型能将有限的注意力集中在重要语义信息上,但它未考虑词与词之间的先后顺序关系;上述深度学习模型因其网络结构差异,在具备自身优势的同时也存在一些不足。本发明采用一种融合深度学习模型在尽可能减小网络深度的前提下融合了多个模型的优势,用Bert模型作为词嵌入层,以获得更好的通信语料文本表示,用BiLSTM与Attention相结合的方式提取全局语义特征,用TextCNN模型提取文本多个粒度下的局部语义特征,采用DPCNN模型抽取长距离的文本依赖关系,采用Text RCNN模型获取上下文信息,在学习文本表达时可以大范围的保留词序,最大池化层获取文本的重要部分。最后把四个模型的结果通过取平均值进一步融合,进而预测出场景文本分类类别。融合模型可以利用各模型的优势,并提取多方面的语义特征来保留更多的语义信息,具有更好的泛化能力,更高的预测准确度。
本发明在平衡网络深度的同时,用Bert模型作为词嵌入层,可以通过在海量的语料的基础上运行自监督学习方法为通信语料文本学习一个较好的特征表示。
本发明将BiLSTM模型与Attention机制模型相结合的方式提取全局语义特征和全局语义信息,同时融合TextCNN模型提取文本多维度的局部语义特征,融合DPCNN模型抽取长距离的文本依赖关系,融合Text RCNN模型获取上下文信息,在学习文本表达时可以大范围的保留词序,获取文本的重要部分,融合模型具备更高的预测准确度。
本发明采用面向5G通信助理多场景语料数据的建模方法,解决现有模型对当前场景下分类正确率低的问题,同时融合模型能够提取多方面的语义特征,提升模型性能,并且实现端到端的全流程训练方式,具备广泛的应用场景和商业价值。
依据本技术方案,可以在5G通信助理应用场景下有效的部署与应用,实现自主研发能力的替代,同时实现各项NLP算法功能的持续优化。同时可以在运维工单文本分类、客服文本分类等任务中广泛应用。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例的附图作简单地介绍,显而易见地,下面描述中的附图仅仅涉及本发明的一些实施例,而非对本发明的限制。
图1是示出依据本发明实施例的5G通信助理业务建模方法流程图;
图2是示出依据本发明实施例的5G通信助理文本分类方法的流程图;
图3是示出依据本发明实施例的基于BiLSTM模型和Attention模型融合的网络结构;
图4是示出依据本发明实施例的基于Text CNN模型的网络结构;
图5是示出依据本发明实施例的基于DPCNN模型的网络结构;
图6是示出依据本发明实施例的基于TextRCNN模型的网络结构。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例的附图,对本发明实施例的技术方案进行清楚、完整地描述。显然,所描述的实施例是本发明的一部分实施例,而不是全部的实施例。基于所描述的本发明的实施例,本领域普通技术人员在无需创造性劳动的前提下所获得的所有其它实施例,都属于本发明保护的范围。
除非另作定义,此处使用的技术术语或者科学术语应当为本发明所述领域内具有一般技能的人士所理解的通常意义。本发明专利申请说明书以及权利要求书中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。同样,“一个”或者“一”等类似词语也不表示数量限制,而是表示存在至少一个。
图1是示出依据本发明实施例的5G通信助理业务建模方法流程图;图2是示出依据本发明实施例的5G通信助理文本分类方法的流程图。
5G通信助理文本分类的方法基于5G通信助理全场景语料数据进行分类,语料数据包括通话ID、通话内容、通话角色、通话场景类别、通话开始时间、通话结束时间的数据。
如图1和图2所示,5G通信助理文本分类的方法包括如下步骤:
S1、对语料数据进行ASR(自动语音识别)转换,再对数据进行ETL数据清洗操作,ETL数据清洗包括:数据抽取、数据转换和数据加载,进而得到模型所需的原始语料数据集。
S2、数据输入,采用参数级别上亿的预训练模型BERT将每个输入的原始语料数据通过token(输入文本中的字)向嵌入(Embendding)层传递,以便将每个token转换为字向量表示,同时BERT还具有额外的嵌入层,额外的嵌入层包括以句向量嵌入和位置向量嵌入的形式;将字向量、词向量和位置向量进行合并,生成训练数据,传递给BERT的嵌入层进行输出。
S3、由BERT的嵌入层将训练数据输入到分类模型,由分类模型分别进行训练,分类模型包括基于Attention机制改进的BiLSTM(双向LSTM)模型、Text CNN模型、DPCNN模型、Text RCNN模型。
S4、结果融合,将由基于Attention机制改进的BiLSTM模型、Text CNN模型、DPCNN模型、Text RCNN模型输出的语义特征,分别输入至分类器层,进而得到分类场景下各分类类别的预测概率。
S5、将步骤S4得到的各分类类别的预测概率,采用算数平均进行融合,输出分类结果。
本发明在平衡网络深度的同时,用Bert模型作为词嵌入层,可以通过在海量的语料的基础上运行自监督学习方法为通信语料文本学习一个较好的特征表示。
根据本发明的一个或一些实施例,在步骤S1后,可再对原始语料数据集进行包括分词、去掉停用词的操作。
图3是示出依据本发明实施例的基于BiLSTM模型和Attention模型融合的网络结构。
如图3所示,因单方向的长短期记忆神经网络(LSTM)模型是基于历史时间节点(前一时间点)的语义信息训练模型,进而预测当前时间节点的语义信息,一般当前时间点的语义信息输出仅仅蕴含历史时间点的序列语义信息,缺失当前时间点未来的序列语义信息。因此融合模型采用双向LSTM(Bi-LSTM)来获取每个字词的上下文语义信息,Bi-LSTM通过前向和后向的LSTM捕获第T时刻前向隐藏层backwardT和后向隐藏层状态向量forwardT,然后融合forwardT和backwardT形成最后隐藏层状态向量lastT作为第T时刻节点对应的字词上下文语义向量表示,前向隐藏层状态向量forwardT的计算过程如下:
iT=f(Wi·[forwardT-1,eT]+bi) (1)
fT=f(Wf·[forwardT-1,eT]+bf) (2)
oT=f(Wo·[forwardT-1,eT]+bo) (3)
cT=fT*cT-1+iT*tanh(Wc·[forwardT-1,eT]+bc) (4)
forwardT=oT*tanh(cT) (5)
其中,forwardT-1是第T-1时刻前向隐藏层状态向量,eT是嵌入层第T个位置的输出向量,f是sigmoid激活函数,W权重矩阵,b是偏置项矩阵,tanh是双曲正切函数,*是元素方式的乘积运算,cT是状态变量,cT和输出门一起决定最后的输出;因BiLSTM网络结构中遗忘门策略,上下文语义信息的缺失不可避免,因此融合模型将BERT输出的词向量喂入BiLSTM模型,进而得到每个单词的最终上下文表示
在BiLSTM模型后融合注意力机制(Attention)模型能将每个字词的上下文表示向量分配一个重要度(权重)来衡量不同字词对文本全局语义特征的重要程度,进而得到文本全局语义特征表示Fglobal,Fglobal的计算公式如下:
图4是示出依据本发明实施例的基于Text CNN模型的网络结构。
如图4所示,Text CNN模型包括输入层(Embedding layer)、卷积层(convolution)、池化层(pooling)、全连接层(fc);输入层是由BERT的Embendding层进行输入表示的词向量,pooling操作选择将卷积得到的列向量的最大值提取出来,相当于(pad_size-filter_size+1)维变成一维,即将每个卷积核的最大值连接起来,即通过pooling来消除句子之间长度不同的差异,池化层后面加上全连接层,并添加用于防止过拟合的L2正则化和Dropout正则化方法;最终的输出层需要进行Softmax概率归一化,然后使用Softmax后的预测输出结果和真实标签计算交叉熵损失。
图5是示出依据本发明实施例的基于DPCNN模型的网络结构。
如图5所示,DPCNN模型通过包括不断加深网络、固定feature map的数量的操作,实现抽取长距离的文本依赖关系,其中,每当使用一个size=3和stride=2进行maxpooling进行池化时,每个卷积层的计算时间减半(数据大小减半),从而形成一个金字塔(Pyramid)。相当于在N-Gram上再做N-Gram,越往后的层,每个位置融合的信息越多,最后一层提取的就是整个序列的语义信息。
图6是示出依据本发明实施例的基于TextRCNN模型的网络结构。
如图6所示,Text RCNN模型将卷积层换成双向RNN(循环神经网络),从而形成双向RNN、池化层、输出层的网络结构,用双向循环结构获取上下文信息,这比传统的基于窗口的神经网络更能减少噪声,而且在学习文本表达时可以大范围的保留词序;其次使用最大池化层获取文本的重要部分,自动判断哪个特征在文本分类过程中起更重要的作用。TextRCNN模型训练包括如下步骤:S31、第一栏中间的word embedding层,输入的句子维度为[batch_size,seq_len],seq_len为输入的句子的长度,然后经过embedding层,加载预训练词向量或者随机初始化,词向量维度为embed_size,最终Embedding layer层的输出为[batch_size,seq_len,embed_size];S32、接着将Embedding layer层的输出输入到双向RNN中,前向和后向所有时刻的隐层状态输出分别都是[batch_size,seq_len,hidden_size];S33、拼接操作,需要同时把前向、后向、Embedding layer三层输出拼接到一起,最终的维度为[batch_size,seq_len,hidden_size*2+embed_size]。
根据本发明的一个或一些实施例,步骤S4中,结果融合将BiLSTM模型和Attention模型融合输出的全局语义特征表示为Fglobal,将TextCNN模型输出的局部语义特征表示为Flocal1,将DPCNN模型输出的深层局部语义特征表示为Flocal2,将TextRCNN模型输出的局部语义特征表示为Flocal3;然后分别将Fglobal输入至softmax1分类器层,进而得到分类场景的各分类类别的预测概率矩阵P1,将Flocal1输入至softmax2分类器层,进而得到分类场景下各分类类别的预测概率矩阵P2,将Flocal2输入至softmax3分类器层,进而得到分类场景下各分类类别的预测概率矩阵P3,将Flocal3输入至softmax4分类器层,进而得到分类场景下各分类类别的预测概率矩阵P:
P1=soft max1(Wg·Fglobal+bg) (11)
根据本发明的一个或一些实施例,步骤S5中,结果输出对结果融合层输出的概率矩阵P1,P2,P3,P4,采用取算术平均数的方式进行融合,得到分类类别的最终预测概率矩阵Pfinal:
采用最小化交叉熵损失函数作为模型训练的目标函数进行模型的迭代优化。
其中,N为训练样本数,C为类别数,q为样本的真实标签,采用One-hot进行编码,λ时L2正则化超参数。
本发明将BiLSTM模型与Attention机制模型相结合的方式提取全局语义特征和全局语义信息,同时融合TextCNN模型提取文本多维度的局部语义特征,融合DPCNN模型抽取长距离的文本依赖关系,融合Text RCNN模型获取上下文信息,在学习文本表达时可以大范围的保留词序,获取文本的重要部分,融合模型具备更高的预测准确度。
根据本发明的一个或一些实施例,5G通信助理文本分类的方法还包括步骤:S6、模型评估,通过采用包括准确率Acc(Accuracy)、精确率Pre(Precision)、召回率Rec(Recall)及F1-score值的评价指标,对融合模型效果进行评价,计算公式如下:
其中,TP是将正类预测为正类的样本数,FN是将正类预测为负类的样本数,FP是将负类预测为正类的样本数,TN是将负类预测为负类的样本数。
为了提升服务质量,挖掘数据潜在价值,本发明采用一种融合深度学习模型进行文本分类,针对5G通信助理的特征,发明了一种融合深度学习模型的5G通信助理文本特征分类方法。该方法通过端到端的方式学习特征表示并解决了文本表示稀疏、高维度的问题。在基于深度神经网络模型的文本分类方法中,文本卷积神经网络(TextCNN)模型采用跨空间模式,借助滑动空间窗口大小来捕捉文本的局部语义特征,但TextCNN有个最大问题是固定filter_size的视野,一方面无法建模更长的序列信息,忽视了句子在时间维度上的先后顺序,另一方面filter_size的超参调节也很繁琐;循环神经网络(Recurrent NeuralNetwork,RNN),能够更好的表达上下文信息,Bi-directional RNN(双向LSTM)从某种意义上可以理解为可以捕获变长且双向的的"n-gram"信息。其采用递归计算获得全局语义特征,常用于识别跨时间维度的模式,但是缺乏捕捉局部语义特征的能力。循环卷积神经网络(TextRCNN)模型将用于捕获上下文信息的循环结构和具备捕获局部语义特征的卷积结构相结合,无需人工设计的特征,自动判断最大池化层哪些词在文本分类中起关键作用,以捕捉文本中的关键成分。深度金字塔卷积神经网络(DPCNN)是一种基于word-level级别的DPCNN网络,DPCNN通过不断加深网络,可以抽取长距离的文本依赖关系,但是DPCNN网络的加深会损失更多的语义信息。基于注意力机制(Attention Mechanism)模型能将有限的注意力集中在重要语义信息上,但它未考虑词与词之间的先后顺序关系;上述深度学习模型因其网络结构差异,在具备自身优势的同时也存在一些不足。本发明采用一种融合深度学习模型在尽可能减小网络深度的前提下融合了多个模型的优势,用Bert模型作为词嵌入层,以获得更好的通信语料文本表示,用BiLSTM与Attention相结合的方式提取全局语义特征,用TextCNN模型提取文本多个粒度下的局部语义特征,采用DPCNN模型抽取长距离的文本依赖关系,采用Text RCNN模型获取上下文信息,在学习文本表达时可以大范围的保留词序,最大池化层获取文本的重要部分。最后把四个模型的结果通过取平均值进一步融合,进而预测出场景文本分类类别。融合模型可以利用各模型的优势,并提取多方面的语义特征来保留更多的语义信息,具有更好的泛化能力,更高的预测准确度。
根据本发明的第二个方面,提供一种5G通信助理文本分类的装置,其包括:输入模块、BERT嵌入模块、分类模型模块、结果融合模块和结果输出模块。
输入模块对语料数据进行ASR(自动语音识别)转换,再对数据进行ETL数据清洗操作,ETL数据清洗包括:数据抽取、数据转换和数据加载,进而得到模型所需的原始语料数据集。
BERT嵌入模块采用参数级别上亿的预训练模型BERT将每个输入的原始语料数据通过token(输入文本中的字)向嵌入(Embendding)层传递,以便将每个token转换为字向量表示,同时BERT还具有额外的嵌入层,额外的嵌入层包括以句向量嵌入和位置向量嵌入的形式;将字向量、词向量和位置向量进行合并,生成训练数据,传递给BERT的嵌入模块进行输出;由BERT的嵌入模块将训练数据输入到分类模型模块,由分类模型分别进行训练。
分类模型模块包括基于Attention机制改进的BiLSTM(双向LSTM)模型、Text CNN模型、DPCNN模型、Text RCNN模型。
结果融合模块将由基于Attention机制改进的BiLSTM模型、Text CNN模型、DPCNN模型、Text RCNN模型输出的语义特征,分别输入至分类器层,进而得到分类场景下各分类类别的预测概率。
结果输出模块将各分类类别的预测概率,采用算数平均进行融合,输出分类结果。
本发明采用面向5G通信助理多场景语料数据的建模方法,解决现有模型对当前场景下分类正确率低的问题,同时融合模型能够提取多方面的语义特征,提升模型性能,并且实现端到端的全流程训练方式,具备广泛的应用场景和商业价值。
根据本发明的一个或一些实施例,5G通信助理文本分类的的装置还包括:模型评估模块,模型评估模块通过采用包括准确率Acc(Accuracy)、精确率Pre(Precision)、召回率Rec(Recall)及F1-score值的评价指标,对融合模型效果进行评价。
依据本技术方案,可以在5G通信助理应用场景下有效的部署与应用,实现自主研发能力的替代,同时实现各项NLP算法功能的持续优化。同时可以在运维工单文本分类、客服文本分类等任务中广泛应用。
根据本发明的又一方面,提供一种5G通信助理文本分类的设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的5G通信助理文本分类程序,5G通信助理文本分类程序被处理器执行时实现上述的5G通信助理文本分类方法的步骤。
根据本发明还提供一种计算机存储介质。
计算机存储介质上存储有5G通信助理文本分类程序,5G通信助理文本分类程序被处理器执行时实现上述的5G通信助理文本分类方法的步骤。
其中,在所述处理器上运行的5G通信助理文本分类程序被执行时所实现的方法可参照本发明5G通信助理文本分类方法各个实施例,此处不再赘述。
本发明还提供一种计算机程序产品。
本发明计算机程序产品包括5G通信助理文本分类程序,所述5G通信助理文本分类程序被处理器执行时实现如上所述的5G通信助理文本分类方法的步骤。
其中,在所述处理器上运行的5G通信助理文本分类程序被执行时所实现的方法可参照本发明5G通信助理文本分类方法各个实施例,此处不再赘述。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上所述仅是本发明的示范性实施方式,而非用于限制本发明的保护范围,本发明的保护范围由所附的权利要求确定。
Claims (13)
1.一种5G通信助理文本分类的方法,所述方法基于5G通信助理全场景语料数据进行分类,所述语料数据包括通话ID、通话内容、通话角色、通话场景类别、通话开始时间、通话结束时间的数据,
所述方法包括如下步骤:
S1、对语料数据进行ASR转换,再对数据进行ETL数据清洗操作,所述ETL数据清洗包括:数据抽取、数据转换和数据加载,进而得到模型所需的原始语料数据集;
S2、数据输入,采用参数级别上亿的预训练模型BERT将每个输入的原始语料数据通过token向嵌入层传递,以便将每个token转换为字向量表示,同时BERT还具有额外的嵌入层,所述额外的嵌入层包括以句向量嵌入和位置向量嵌入的形式;将字向量、词向量和位置向量进行合并,生成训练数据,传递给BERT的嵌入层进行输出;
S3、由BERT的嵌入层将训练数据输入到分类模型,由所述分类模型分别进行训练,所述分类模型包括基于Attention机制改进的BiLSTM模型、Text CNN模型、DPCNN模型、TextRCNN模型;
S4、结果融合,将由基于Attention机制改进的BiLSTM模型、Text CNN模型、DPCNN模型、Text RCNN模型输出的语义特征,分别输入至分类器层,进而得到分类场景下各分类类别的预测概率;
S5、将步骤S4得到的所述各分类类别的预测概率,采用算数平均进行融合,输出分类结果。
2.如权利要求1所述的方法,在步骤S1后,再对原始语料数据集进行包括分词、去掉停用词的操作。
3.如权利要求1所述的方法,所述基于Attention机制改进的BiLSTM模型采用双向LSTM(Bi-LSTM)来获取每个字词的上下文语义信息,Bi-LSTM通过前向和后向的LSTM捕获第T时刻前向隐藏层backwardT和后向隐藏层状态向量forwardT,然后融合forwardT和backwardT形成最后隐藏层状态向量lastT作为第T时刻节点对应的字词上下文语义向量表示,前向隐藏层状态向量forwardT的计算过程如下:
iT=f(Wi·[forwardT-1,eT]+bi) (1)
fT=f(Wf·[forwardT-1,eT]+bf) (2)
oT=f(Wo·[forwardT-1,eT]+bo) (3)
cT=fT*cT-1+iT*tanh(Wc·[forwardT-1,eT]+bc) (4)
forwardT=oT*tanh(cT) (5)
其中,forwardT-1是第T-1时刻前向隐藏层状态向量,eT是嵌入层第T个位置的输出向量,f是sigmoid激活函数,W权重矩阵,b是偏置项矩阵,tanh是双曲正切函数,*是元素方式的乘积运算,cT是状态变量,cT和输出门一起决定最后的输出;因BiLSTM网络结构中遗忘门策略,上下文语义信息的缺失不可避免,因此融合模型将BERT输出的词向量喂入BiLSTM模型,进而得到每个单词的最终上下文表示
在BiLSTM模型后融合注意力机制模型能将每个字词的上下文表示向量分配一个重要度来衡量不同字词对文本全局语义特征的重要程度,进而得到文本全局语义特征表示Fglobal,Fglobal的计算公式如下:
4.如权利要求1所述的方法,其中,所述Text CNN模型包括输入层、卷积层、池化层、全连接层;所述输入层是由BERT的Embendding层进行输入表示的词向量,pooling操作选择将卷积得到的列向量的最大值提取出来,相当于pad_size-filter_size+1的维变成一维,即将每个卷积核的最大值连接起来,即通过pooling来消除句子之间长度不同的差异,池化层后面加上全连接层,并添加用于防止过拟合的L2正则化和Dropout正则化方法;最终的输出层需要进行Softmax概率归一化,然后使用Softmax后的预测输出结果和真实标签计算交叉熵损失。
5.如权利要求1所述的方法,其中,所述DPCNN模型通过包括不断加深网络、固定feature map的数量的操作,实现抽取长距离的文本依赖关系,其中,每当使用一个size=3和stride=2进行max pooling进行池化时,每个卷积层的计算时间减半,从而形成一个金字塔。
6.如权利要求1所述的方法,其中,所述Text RCNN模型将卷积层换成双向RNN,从而形成双向RNN、池化层、输出层的网络结构,用双向循环结构获取上下文信息;其次使用最大池化层获取文本的重要部分,自动判断哪个特征在文本分类过程中起更重要的作用;所述Text RCNN模型训练包括如下步骤:
S31、第一栏中间的word embedding层,输入的句子维度为[batch_size,seq_len],seq_len为输入的句子的长度,然后经过embedding层,加载预训练词向量或者随机初始化,词向量维度为embed_size,最终Embedding layer层的输出为[batch_size,seq_len,embed_size];
S32、接着将Embedding layer层的输出输入到双向RNN中,前向和后向所有时刻的隐层状态输出分别都是[batch_size,seq_len,hidden_size];
S33、拼接操作,需要同时把前向、后向、Embedding layer三层输出拼接到一起,最终的维度为[batch_size,seq_len,hidden_size*2+embed_size]。
7.如权利要求1所述的方法,步骤S4中,所述结果融合将BiLSTM模型和Attention模型融合输出的全局语义特征表示为Fglobal,将TextCNN模型输出的局部语义特征表示为Flocal1,将DPCNN模型输出的深层局部语义特征表示为Flocal2,将TextRCNN模型输出的局部语义特征表示为Flocal3;然后分别将Fglobal输入至softmax1分类器层,进而得到分类场景的各分类类别的预测概率矩阵P1,将Flocal1输入至softmax2分类器层,进而得到分类场景下各分类类别的预测概率矩阵P2,将Flocal2输入至softmax3分类器层,进而得到分类场景下各分类类别的预测概率矩阵P3,将Flocal3输入至softmax4分类器层,进而得到分类场景下各分类类别的预测概率矩阵P4:
P1=softmax1(Wg·Fglobal+bg) (11)
10.一种5G通信助理文本分类的装置,包括:
输入模块,所述输入模块对语料数据进行ASR转换,再对数据进行ETL数据清洗操作,所述ETL数据清洗包括:数据抽取、数据转换和数据加载,进而得到模型所需的原始语料数据集;
BERT嵌入模块,采用参数级别上亿的预训练模型BERT将每个输入的原始语料数据通过token向嵌入层传递,以便将每个token转换为字向量表示,同时BERT还具有额外的嵌入层,所述额外的嵌入层包括以句向量嵌入和位置向量嵌入的形式;将字向量、词向量和位置向量进行合并,生成训练数据,传递给BERT的嵌入模块进行输出;由BERT的嵌入模块将训练数据输入到分类模型模块,由所述分类模型分别进行训练;
分类模型模块,所述分类模型模块包括基于Attention机制改进的BiLSTM模型、TextCNN模型、DPCNN模型、Text RCNN模型;
结果融合模块,所述结果融合模块将由基于Attention机制改进的BiLSTM模型、TextCNN模型、DPCNN模型、Text RCNN模型输出的语义特征,分别输入至分类器层,进而得到分类场景下各分类类别的预测概率;
结果输出模块,将所述各分类类别的预测概率,采用算数平均进行融合,输出分类结果。
11.如权利要求10所述的装置,还包括:
模型评估模块,所述模型评估模块通过采用包括准确率Acc(Accuracy)、精确率Pre(Precision)、召回率Rec(Recall)及F1-score值的评价指标,对融合模型效果进行评价。
12.一种电子设备,包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的5G通信助理文本分类程序,所述5G通信助理文本分类程序被所述处理器执行时实现如权利要求1至9中任一项所述的5G通信助理文本分类方法的步骤。
13.一种计算机存储介质,其中,所述计算机存储介质上存储有5G通信助理文本分类程序,所述5G通信助理文本分类程序被处理器执行时实现如权利要求1至9中任一项所述的5G通信助理文本分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211140540.0A CN115495579A (zh) | 2022-09-20 | 2022-09-20 | 5g通信助理文本分类的方法、装置、电子设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211140540.0A CN115495579A (zh) | 2022-09-20 | 2022-09-20 | 5g通信助理文本分类的方法、装置、电子设备及存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115495579A true CN115495579A (zh) | 2022-12-20 |
Family
ID=84469502
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211140540.0A Pending CN115495579A (zh) | 2022-09-20 | 2022-09-20 | 5g通信助理文本分类的方法、装置、电子设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115495579A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236329A (zh) * | 2023-11-15 | 2023-12-15 | 阿里巴巴达摩院(北京)科技有限公司 | 文本分类方法、装置及相关设备 |
-
2022
- 2022-09-20 CN CN202211140540.0A patent/CN115495579A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117236329A (zh) * | 2023-11-15 | 2023-12-15 | 阿里巴巴达摩院(北京)科技有限公司 | 文本分类方法、装置及相关设备 |
CN117236329B (zh) * | 2023-11-15 | 2024-02-06 | 阿里巴巴达摩院(北京)科技有限公司 | 文本分类方法、装置及相关设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110609891A (zh) | 一种基于上下文感知图神经网络的视觉对话生成方法 | |
WO2021128044A1 (zh) | 一种基于上下文的多轮对话方法、装置、设备及存储介质 | |
CN110008323B (zh) | 一种半监督学习结合集成学习的问题等价性判别的方法 | |
CN112749274B (zh) | 基于注意力机制和干扰词删除的中文文本分类方法 | |
CN114090780B (zh) | 一种基于提示学习的快速图片分类方法 | |
CN111966812A (zh) | 一种基于动态词向量的自动问答方法和存储介质 | |
WO2021169453A1 (zh) | 用于文本处理的方法和装置 | |
CN114020906A (zh) | 基于孪生神经网络的中文医疗文本信息匹配方法及系统 | |
CN114462420A (zh) | 一种基于特征融合模型的虚假新闻检测方法 | |
CN110347853B (zh) | 一种基于循环神经网络的图像哈希码生成方法 | |
CN116781346A (zh) | 基于数据增强的卷积双向长短期记忆网络入侵检测方法 | |
CN114547299A (zh) | 一种基于复合网络模型的短文本情感分类方法及装置 | |
CN113177113B (zh) | 任务型对话模型预训练方法、装置、设备及存储介质 | |
CN114881173A (zh) | 基于自注意力机制的简历分类方法和装置 | |
CN115495579A (zh) | 5g通信助理文本分类的方法、装置、电子设备及存储介质 | |
CN110867225A (zh) | 字符级临床概念提取命名实体识别方法及系统 | |
CN113627550A (zh) | 一种基于多模态融合的图文情感分析方法 | |
Cui et al. | A chinese text classification method based on bert and convolutional neural network | |
CN117216265A (zh) | 一种基于改进的图注意力网络新闻主题分类方法 | |
CN113779244B (zh) | 文档情感分类方法、装置、存储介质以及电子设备 | |
CN113254656B (zh) | 专利文本分类方法、电子设备及计算机存储介质 | |
CN115761839A (zh) | 人脸活体检测模型的训练方法、人脸活体检测方法及装置 | |
CN116051388A (zh) | 经由语言请求的自动照片编辑 | |
CN114357166A (zh) | 一种基于深度学习的文本分类方法 | |
CN114386425A (zh) | 用于对自然语言文本内容进行处理的大数据体系建立方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |