CN111626063A - 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 - Google Patents
一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 Download PDFInfo
- Publication number
- CN111626063A CN111626063A CN202010737152.5A CN202010737152A CN111626063A CN 111626063 A CN111626063 A CN 111626063A CN 202010737152 A CN202010737152 A CN 202010737152A CN 111626063 A CN111626063 A CN 111626063A
- Authority
- CN
- China
- Prior art keywords
- text
- label
- intention
- layer
- embedding
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- General Engineering & Computer Science (AREA)
- Biomedical Technology (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Data Mining & Analysis (AREA)
- Biophysics (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种基于投影梯度下降和标签平滑的文本意图识别方法及系统,涉及自然语言处理问答系统领域。包括(1)通过嵌入层获取初始向量编码;(2)在嵌入层使用投影梯度下降算法添加满足L2约束的扰动,形成对抗样本;(3)使用Transformer网络编码上下文语义信息;(4)使用标签平滑将真实意图类别进行缩放;(5)将编码器输出特征输入分类器,计算与平滑后的标签之间的交叉熵;(6)优化目标函数;(7)模型训练完毕,预测意图类别并输出。本发明模型在分类任务中,能够对输入的意图进行充分的语义向量编码;同时在文本嵌入层添加扰动形成对抗样本、对最终分类目标进行标签滑动,能显著提升模型的鲁棒性和泛化能力。
Description
技术领域
本发明涉及自然语言处理问答系统领域,具体涉及一种基于投影梯度下降和标签平滑的文本意图分类方法及系统。
背景技术
伴随着大量公开可利用的网上在线问答语料库,问答系统受到了来自工业界和学术界研究者的关注。问答系统通常是基于满足B端企业需求的智能化产品,可以显著提高工作效率,为客服人员减压。其最大的隐性价值是在实际场景中自动积累标准化后的数据,在挖掘客户服务价值信息中降低成本、提高效率,也可以用于未来的精准营销和产品升级。问答系统的典型应用是对某一领域的知识进行问答,也称为单轮对话或常见问题解答(FAQ),即直接根据用户的问题给出准确的答案。本发明的主要研究领域,是问答系统中最核心的技术——意图识别。基于庞大的知识库和问答语境,模型被要求能根据用户询问的内容,精准识别意图,并与知识库中的标准问匹配,返回最合理的答案。一个智能问答模型,需要能够准确理解用户意图,具备一定的上下文解析能力,并快速完成检索。
目前,主流的意图识别技术,主要包含两种方法:基于词典模板和规则的匹配,以及基于分类算法和模型的文本分类。前者一般通过维护全局词典、关键词,对问句进行模糊匹配,或正则表达解析固定句式来识别意图,人力成本高且难以穷举所有情况。后者将知识库中的问题归为具体的类别,将提取的文本特征经过上下文编码、分类器来预测意图对应的类别,往往准确率更高。2014年提出了TextCNN模型,将计算机视觉领域中流行的卷积网络引入文本分类任务。通过使用不同大小的卷积核,对经过Embedding层编码的文本特征做进一步的关键信息挖掘,提升了文本分类任务的准确率与训练速度。2018年,提出了预训练语言模型BERT,从此揭开NLP领域中的预训练+下游任务微调的两段式任务结构,大幅刷新众多NLP任务的最优结果,例如基于文本分类的意图识别、搜索推荐、机器阅读理解等。
然而,目前主流的文本分类模型,缺乏一种模型复杂度和模型泛化性能的良好权衡。传统的分类模型,例如TextCNN、TextRNN,参数量相对较少,对文本语义编码能力处于浅层理解,在分类类别较多的场景中容易出现欠拟合。而以BERT为代表的预训练模型参数量巨大(base版本的模型参数量超过3亿),有很强的特征编码能力;但是由于模型本身的复杂度较高,特别是在各个类别的训练样本较少的情况下可能出现过拟合现象。两种现象都会影响模型在测试集上的最终表现。
发明内容
为了解决在意图识别领域,现有的文本分类模型缺乏模型复杂度和模型泛化性能的良好权衡问题,参数过少容易使得语义编码能力较弱,在分类类别较多的场合下准确率较低;参数过多使得模型复杂度过高,难以适应训练样本有限的情况。本发明提供了一种基于投影梯度下降和标签平滑的文本意图识别方法及系统,使意图识别模型在分类任务中,能够对输入的意图进行充分的语义向量编码;同时在文本嵌入层添加扰动形成对抗样本、对最终分类目标进行标签滑动,能显著提升模型的鲁棒性和泛化能力。
为了实现上述目的,本发明采用了一种基于投影梯度下降和标签平滑的文本意图识别方法。
步骤1:构建预训练语言模型,包括Embedding层、12层Transformer网络和分类层。
步骤7:采用训练好的语言模型读取待识别文本语句的独热编码,输出意图识别结果。
本发明的另一目的在于提供一种用于实现上述文本意图识别方法的识别系统。
采样模块:用于读取预设的带标签的训练文本语句、或接收用户输入的不带标签的待识别文本语句,并将文本语句处理为标准格式。
文本向量嵌入模块:用于将标准格式的文本语句进行处理得到文本嵌入向量;当系统处于训练模式时,文本向量嵌入模块将原始的文本意图编码为固定大小的对抗文本嵌入向量;当系统处于识别模式时,文本向量嵌入模块将原始的文本意图编码为固定大小的原始文本嵌入向量。
编码器模块:配置有12层Transformer网络,用于学习文本内部的关键信息以及和目标类别之间的语义关联,得到文本语义向量。
标签平滑模块:在系统处于训练模式时启用,用于对预设的意图标签进行平滑处理。
分类模块:用于预测所属标签的概率分布,输出预测概率结果。
语言模型训练模块:在系统处于训练模式时启用,用于根据预设的目标函数,对文本向量嵌入模块、编码器模块、分类模块进行拟合平滑标签的训练过程,训练结束后生成模型文件。
识别模块:在系统处于识别模式时启用,用于加载语言模型训练模块输出的模型文件,得到训练好的模型,读取采样模块输出的标准格式的不带标签的待识别文本语句作为模型的输入,输出识别出的意图类别结果。
与现有技术相比,本发明具备的有益效果。
1、本发明在文本向量嵌入过程中,使用投影梯度下降算法添加了满足L2约束的扰动(PGD扰动)。传统的对抗训练方法如Fast Gradient Method直接采取梯度上升方法,很难走到约束内的最优点,而本发明通过在设置的扰动半径ε内沿着梯度上升的方向“小步走,多走几步”,每次只增加少量噪声,而且一旦走出了规定半径的扰动空间就就重新将梯度映射回“球面”,保证了扰动范围不会太大,使得模型能够平稳收敛。
2、本发明通过采用对抗文本生成策略,在训练数据不足时可以作为一种数据增强方法来扩大训练样本规模,解决了各个类别的训练样本较少的情况下可能出现的过拟合问题,也使得在数据冷启动阶段能够取得良好的泛化效果。同时,本发明的模型对于噪声样本和对抗样本(例如标注错误的训练样本)具备更强的抵御能力,从而更加准确识别用户表达的真实意图。
3、本发明在训练网络时采用的标签是平滑处理后的标签。如对于二分类任务,将
网络的训练目标从“1”调整为“1-”,是平滑因子表示平滑程度,取值范围一般在0.05至
0.1之间,对于干净的数据集取值可以偏大,带有噪声的数据集取值尽量偏小,以免平滑
过度导致训练收敛减慢。标签平滑可以让同一类的训练实例聚合为紧密的分组,丢失不同
类实例中的相似性信息,即缩小类内距、增大类间距,能够有效提升模型的鲁棒性。
附图说明
图1为本发明方法的整体框架设计图。
图2为本发明系统的整体流程示意图。
具体实施方式
下面结合附图和具体实施方式对本发明的一种基于投影梯度下降和标签平滑的文本意图识别方法做进一步阐述和说明。
步骤1:构建预训练语言模型,包括Embedding层、12层Transformer网络和分类层。
步骤2:针对训练样本集中的样本语句,首先按字符分割进行独热编码,然后通过Embedding层转换为固定长度的文本嵌入向量e。
步骤7:采用训练好的语言模型读取待识别文本语句的独热编码,输出意图识别结果。
如图1所示,介绍了本发明的文本意图识别方法具体实施过程。
本发明在两个阶段对语言模型进行了优化:(a)在传统序列嵌入、位置嵌入和字嵌入的基础上增加了满足L2正则化约束的对抗扰动。(b)通过最小化模型输出与平滑后标签之间的分布差异,迭代优化神经网络的参数,具体步骤分别阐述如下。
(a)文本Embedding嵌入。
以“转账要手续费吗”为例,首先对该条案例文本进行按字符分割,s=[w0,w1,…,wn],wi表示文本语句中的第i个单词,n表示文本语句的长度;在文本描述的头尾分别加上CLS和SEP标签,并且从0开始对每个标签类进行编号,用编号代替标签的文字表达。将带有标签的案例文本首先进行独热编码,然后通过Embedding层处理,经过特征矩阵转换获取token级别的向量编码;同时针对案例文本中每一个字符的位置和序列号(图1中输入只有1个句子,序列号均为0)得到序列嵌入和位置嵌入编码;这三部分的向量对应位置求和作为文本最终的文本嵌入向量e,可以表示为:
对于当前的文本嵌入向量e=[x0,x1,…,xN],使用投影梯度下降算法增加L2约束下的
微小扰动 ,表示额外的干扰,基本思想是往
参数梯度上升的方向增加T次扰动,每次只增加少量噪声,而且一旦走出了规定半径的扰动
空间就将参数重新映射回“球面”,以确保扰动不会太大,模型可以正常收敛。
具体的,扰动的约束空间满足:
在扰动空间内共进行T次扰动,其中第t+1次扰动后得到的对抗样本的文本嵌入向量表示为e t+1,计算公式为:
其中,α为增加一小步扰动的步长,T是超参数,优选为2-4;表示连续乘积符号;e表
示训练样本集中样本语句的文本嵌入向量,e t 表示进行了t次扰动后得到的对抗样本的文
本嵌入向量;表示t次扰动时嵌入向量的偏导,表示损失函数,表示L对 e的
偏微分, y表示训练样本集中样本语句的意图标签。将完成T次扰动后得到的e T 表示为。
(b)深度编码器和输出预测。
本发明所采用的编码器为12层基于自注意力机制的12层Transformer网络进行编码,可以解析更丰富的文本语义信息,基本步骤如下。
b1.12层Transformer网络,可以避免传统CNN网络只能捕获局部特征、RNN网络训练缓慢难以获取远距离特征等问题。Transformer内部,使用自注意力机制可以让序列中的每个token捕获与序列中其他token之间的关联;此外Transformer模块自带的残差机制和前向传播层可以避免梯度消失问题,同时增加网络的非线性变换。
所述12层Transformer网络中每一层均包括一层自注意力层和一层前向传播层,所述自注意力层的计算公式为:
前向传播层的计算公式为:
其中,z为一层Transformer网络的输出序列,W 1和W 2分别是两个隐层的参数矩阵,b 1和b 2是偏差项。
将上一层Transformer网络的输出序列z作为下一层Transformer网络的输入序列,经过12层相同结构的Transformer网络得到对抗样本语句的语义向量。
b2.最后一层Transformer网络隐藏层的输出特征表示为Wout ,取文本序列第一个
token,“CLS”对应的向量编码包含了整个序列的上下文信息,即“CLS”对应的编码作为整个
序列的句向量特征,经过softmax激活函数归一化后送入分类器预测概率分布 。
b3.目标函数使用交叉熵。
本发明训练网络时采用的真实标签是平滑处理后的标签。对于二分类任务,它将
神经网络的训练目标从“1”调整为“1-”,是平滑因子表示平滑程度,取值范围一般在
0.05至0.1之间,对于干净的数据集取值可以偏大,带有噪声的数据集取值尽量偏小,以
免平滑过度导致训练收敛减慢。标签平滑可以让同一类的训练实例聚合为紧密的分组,丢
失不同类实例中的相似性信息,即缩小类内距增大类间距,因此可以有效提升模型的鲁棒
性。标签的缩放公式可以表示为:
其中,K为意图标签的类别数量,y i 为第i个样本的意图标签,表示为,y i,k =0或1,当y i,k =0时表示第i个样本不属于第k个意图,当y i,k =1时表示第i个样本属于
第k个意图;是平滑后的意图标签,,表示第i个样本属于第k个意图
的概率。
随后,使用mini-batch梯度下降法反向传播梯度来更新网络的参数值,优化目标函数。通过使用链式法则,模型参数可以计算成:
本发明的另一实施例中给出了基于投影梯度下降和标签平滑的文本意图识别系统的具体实施。
图2是本发明设计的基于投影梯度下降训练的文本意图识别系统流程示意图。具体包括以下模块。
采样模块:用于读取预设的带标签的训练文本语句、或接收用户输入的不带标签的待识别文本语句,并将文本语句处理为标准格式。
文本向量嵌入模块:用于将标准格式的文本语句进行处理得到文本嵌入向量;当系统处于训练模式时,文本向量嵌入模块将原始的文本意图编码为固定大小的对抗文本嵌入向量;当系统处于识别模式时,文本向量嵌入模块将原始的文本意图编码为固定大小的原始文本嵌入向量。
编码器模块:配置有12层Transformer网络,用于学习文本内部的关键信息以及和目标类别之间的语义关联,得到文本语义向量。12层Transformer网络中每一层均包括一层自注意力层和一层前向传播层,所述自注意力层的计算公式为:
前向传播层的计算公式为:
其中,z为一层Transformer网络的输出序列,W 1和W 2分别是两个隐层的参数矩阵,b 1和b 2是偏差项。
将上一层Transformer网络的输出序列 z作为下一层Transformer网络的输入序列,经过12层相同结构的Transformer网络得到对抗样本语句的语义向量。
标签平滑模块:在系统处于训练模式时启用,用于对预设的意图标签进行平滑处理;公式为:
其中,K为意图标签的类别数量,y i 为第i个样本的意图标签,表示为,y i,k =0或1,当y i,k =0时表示第i个样本不属于第k个意图,当y i,k =1时表示第i个样本属于
第k个意图;是平滑后的意图标签,,表示第i个样本属于第k个意图
的概率。
分类模块:用于预测所属标签的概率分布,输出预测概率结果。
语言模型训练模块:在系统处于训练模式时启用,用于根据预设的目标函数,对文本向量嵌入模块、编码器模块、分类模块进行拟合平滑标签的训练过程,训练结束后生成模型文件。
识别模块:在系统处于识别模式时启用,用于加载语言模型训练模块输出的模型文件,得到训练好的模型,读取采样模块输出的标准格式的不带标签的待识别文本语句作为模型的输入,输出识别出的意图类别结果。
其中,文本向量嵌入模块包括:
嵌入子模块,配置有传统的嵌入层网络,用于生成原始文本嵌入向量。
扰动子模块,在系统处于训练模式时启用,用于在原始文本嵌入向量中加入额外扰动,同时将扰动范围限制在一定的约束空间内;扰动的约束空间满足:
对抗文本生成子模块,在系统处于训练模式时启用,用于计算对抗扰动特征,并将对抗扰动特征和初始的文本嵌入向量相加,生成对抗文本嵌入向量;其中第t+1次扰动后得到的对抗样本的文本嵌入向量表示为e t+1,计算公式为:
其中,α为增加一小步扰动的步长,T是超参数,优选为2-4;表示连续乘积符号;e表
示训练样本集中样本语句的文本嵌入向量,e t 表示进行了t次扰动后得到的对抗样本的文
本嵌入向量;表示t次扰动时嵌入向量的偏导,表示损失函数,表示L对 e的
偏微分, y表示训练样本集中样本语句的意图标签。将完成T次扰动后得到的e T 表示为。
实施例:
为了验证本发明的实施效果,在两个大型公开数据集IFLYTEK和TNEW上进行了对比和消融实验。IFLYTEK是一个长文本分类数据集,一共包含1.7万条关于app应用描述的长文本标注数据,包含和日常生活相关的各类应用主题,共119个类别:"打车":0,"导航":1,"免费WIFI":2,….,"收款":117,"其他":118,每一个类别可以视作问答系统中的一类意图。数据集分三个部分:训练集、验证集、测试集,分别有12133、2599、2600条长文本。
TNEW是短文本分类数据集,来自今日头条的新闻版块,共提取了15个类别的新闻,包括旅游,教育,金融,军事等。数据集同样分成三个部分:训练集、验证集、测试集,分别有53360、10000、10000条短文本。
所有实验中,文本词汇表均按字分割,并限制在21128个常见字符。
本发明主要在两大评判指标上进行对比,分别是:ACCURACY、F1-SCORE。总共比较了5个目前主流的预训练语言模型:XLNet,ROBERTA-wwm,ALBERTA-base,BERT-wwm,BERT-base。另外还有2个模型拆解对比,分别是预训练模型BERT加标签平滑意图分类算法,BERT加标签平滑再加上投影梯度下降扰动的意图分类算法。整体对比结果如表1-2所示。
表1 在IFLYTEK数据集上的对比实验结果及参数设置
表2 在TNEW数据集上的对比实验结果及参数设置
从表1-2可以看出,本发明提出的投影梯度下降和标签平滑的意图分类方法,在各个任务的评判指标下均获得最优效果,充分展示了本发明算法的优越性。
作为对比例的ROBERTA-wwm,ALBERTA-base,BERT-wwm均是在BERT-base模型基础上得到的,相比于BERT-base,ROBERTA-wwm模型引入了动态掩码技术,采用更大规模的训练语料和batch_size;ALBERTA-base通过跨层参数共享和嵌入层参数分解技术减少了模型的参数量;BERT-wwm在BERT-base掩码技术的基础上改进为按实体掩码,缓解了mask-token间关系丢失的问题;XLNet基于乱序语言模型的训练方式,使用了更适合长文档的Transformer-XL结构;本质上都可以视为BERT-base的升级版。在IFLYTEK数据集上BERT-base效果最优,在TNEW数据集上,ROBERTA-wwm效果最优,其整体差别不会很大。相比之下,XLNet和BERT-wwm在IFLYTEK数据集表现效果在对比例中最差,但在TNEW数据集上表现良好;同样,ALBERT-base在TNEW数据集上表现最差,但在IFLYTEK数据集表现效果中等。因此,同一模型在不同的训练集上表现效果并不一致,有些模型针对不同的评判标准(ACCURACY、F1-SCORE)也存在较大的差异。但本发明提出的BERT-LS-PGD模型,无论在数据集上还是评判标准上都体现出了优越性,说明本发明的模型的泛化能力很强。
传统的BERT模型有很强的特征编码能力,但对训练样本要求很高,在训练样本充足的情况下能够表现出优异的效果,本实施例在BERT模型的基础上进一步优化,能够扩大BERT模型的应用场景,在较少量的训练样本数据下减少过拟合现象。从最后三行消融实验对照可以看出,每增加一个模块,模型的效果就会比之前更好。表1和表2中的BERT-LS模型在BERT-base的基础上增加了标签平滑处理,在两个数据集上分别设置平滑因子的取值为0.05和0.1,让同一类的训练实例聚合为紧密的分组,丢失不同类实例中的相似性信息,在识别准确率上均比BERT-base相比有了一定的提升。BERT-LS-PGD模型在BERT-LS模型的基础上增加了满足L2约束的扰动(PGD扰动),每次扰动只增加少量噪声,而且一旦走出了规定半径的扰动空间就就重新将梯度映射回“球面”,保证了模型能够平稳收敛,解决了传统的梯度上升扰动方法很难达到最优约束点位置的缺陷,增加扰动后的模型对于噪声样本和对抗样本(例如标注错误的训练样本)具备更强的抵御能力,从而更加准确识别用户表达的真实意图,在识别准确率上均比BERT-base相比有了一定的提升。证明了本发明所使用的标签平滑模块(LS)和投影梯度下降对抗扰动模块(PGD)的有效性。
以上列举的仅是本发明的具体实施例。显然,本发明不限于以上实施例,还可以有许多变形。本领域的普通技术人员能从本发明公开的内容直接导出或联想到的所有变形,均应认为是本发明的保护范围。
Claims (7)
1.一种基于投影梯度下降和标签平滑的文本意图识别方法,其特征在于,包括以下步骤:
步骤1:构建预训练语言模型,包括Embedding层、12层Transformer网络和分类层;
步骤7:采用训练好的语言模型读取待识别文本语句的独热编码,输出意图识别结果。
2.根据权利要求1所述的基于投影梯度下降和标签平滑的文本意图识别方法,其特征在于,所述的步骤3具体为:
在Embedding层使用投影梯度下降算法添加满足L2约束的扰动,扰动的约束空间满足:
5.根据权利要求1所述的基于投影梯度下降和标签平滑的文本意图识别方法,其特征在于,所述12层Transformer网络中每一层均包括一层自注意力层和一层前向传播层,所述自注意力层的计算公式为:
前向传播层的计算公式为:
6.一种基于权利要求1所述文本意图识别方法的识别系统,其特征在于,包括:
采样模块,用于读取预设的带标签的训练文本语句、或接收用户输入的不带标签的待识别文本语句,并将文本语句处理为标准格式;
文本向量嵌入模块,用于将标准格式的文本语句进行处理得到文本嵌入向量;当系统处于训练模式时,文本向量嵌入模块将原始的文本意图编码为固定大小的对抗文本嵌入向量;当系统处于识别模式时,文本向量嵌入模块将原始的文本意图编码为固定大小的原始文本嵌入向量;
编码器模块,配置有12层Transformer网络,用于学习文本内部的关键信息以及和目标类别之间的语义关联,得到文本语义向量;
标签平滑模块,在系统处于训练模式时启用,用于对预设的意图标签进行平滑处理;
分类模块,用于预测所属标签的概率分布,输出预测概率结果;
语言模型训练模块,在系统处于训练模式时启用,用于根据预设的目标函数,对文本向量嵌入模块、编码器模块、分类模块进行拟合平滑标签的训练过程,训练结束后生成模型文件;
识别模块,在系统处于识别模式时启用,用于加载语言模型训练模块输出的模型文件,得到训练好的模型,读取采样模块输出的标准格式的不带标签的待识别文本语句作为模型的输入,输出识别出的意图类别结果。
7.根据权利要求6所述的识别系统,其特征在于,所述的文本向量嵌入模块包括:
嵌入子模块,配置有传统的嵌入层网络,用于生成原始文本嵌入向量;
扰动子模块,在系统处于训练模式时启用,用于在原始文本嵌入向量中加入额外扰动,同时将扰动范围限制在一定的约束空间内;
对抗文本生成子模块,在系统处于训练模式时启用,用于计算对抗扰动特征,并将对抗扰动特征和初始的文本嵌入向量相加,生成对抗文本嵌入向量。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010737152.5A CN111626063B (zh) | 2020-07-28 | 2020-07-28 | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010737152.5A CN111626063B (zh) | 2020-07-28 | 2020-07-28 | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111626063A true CN111626063A (zh) | 2020-09-04 |
CN111626063B CN111626063B (zh) | 2020-12-08 |
Family
ID=72260413
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010737152.5A Active CN111626063B (zh) | 2020-07-28 | 2020-07-28 | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111626063B (zh) |
Cited By (18)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112183631A (zh) * | 2020-09-28 | 2021-01-05 | 云知声智能科技股份有限公司 | 一种意图分类模型建立的方法和终端 |
CN112199479A (zh) * | 2020-09-15 | 2021-01-08 | 北京捷通华声科技股份有限公司 | 优化语言语义理解模型方法、装置、设备及存储介质 |
CN112215292A (zh) * | 2020-10-19 | 2021-01-12 | 电子科技大学 | 一种基于迁移性的图像对抗样本生成装置及方法 |
CN112315578A (zh) * | 2020-11-20 | 2021-02-05 | 上海睿刀医疗科技有限公司 | 确定电极针布针组合的装置、方法及电极针布针优化系统 |
CN112347738A (zh) * | 2020-11-04 | 2021-02-09 | 平安直通咨询有限公司上海分公司 | 基于裁判文书的双向编码器表征量模型优化方法和装置 |
CN112528016A (zh) * | 2020-11-19 | 2021-03-19 | 重庆兆光科技股份有限公司 | 一种基于低维球面投影的文本分类方法 |
CN112580339A (zh) * | 2020-12-18 | 2021-03-30 | 北京百度网讯科技有限公司 | 模型的训练方法、装置、电子设备及存储介质 |
CN112651243A (zh) * | 2020-12-15 | 2021-04-13 | 中国科学院信息工程研究所 | 基于融入结构化实体信息的缩写项目名称识别方法及电子装置 |
CN113204974A (zh) * | 2021-05-14 | 2021-08-03 | 清华大学 | 对抗文本的生成方法、装置、设备及存储介质 |
CN113239162A (zh) * | 2021-05-11 | 2021-08-10 | 山东新一代信息产业技术研究院有限公司 | 一种用于智能问答的文本嵌入式表达方法 |
CN113256459A (zh) * | 2021-04-30 | 2021-08-13 | 深圳市鹰硕教育服务有限公司 | 微课视频管理方法、装置、系统及存储介质 |
CN113569581A (zh) * | 2021-08-26 | 2021-10-29 | 中国联合网络通信集团有限公司 | 意图识别方法、装置、设备及存储介质 |
CN113837216A (zh) * | 2021-06-01 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 数据分类方法、训练方法、装置、介质及电子设备 |
WO2022057669A1 (zh) * | 2020-09-16 | 2022-03-24 | 浙江大学 | 基于结构化上下文信息的知识图谱预训练方法 |
CN114330364A (zh) * | 2021-12-27 | 2022-04-12 | 北京百度网讯科技有限公司 | 模型训练方法、意图识别方法、装置和电子设备 |
CN115081437A (zh) * | 2022-07-20 | 2022-09-20 | 中国电子科技集团公司第三十研究所 | 基于语言学特征对比学习的机器生成文本检测方法及系统 |
CN115310622A (zh) * | 2022-10-12 | 2022-11-08 | 中国科学技术大学 | 一种基于自适应专家系统的智能问答方法 |
US11875128B2 (en) | 2021-06-28 | 2024-01-16 | Ada Support Inc. | Method and system for generating an intent classifier |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109840280A (zh) * | 2019-03-05 | 2019-06-04 | 百度在线网络技术(北京)有限公司 | 一种文本分类方法、装置及计算机可读存储介质 |
CN110209817A (zh) * | 2019-05-31 | 2019-09-06 | 安徽省泰岳祥升软件有限公司 | 文本处理模型的训练方法、装置和文本处理方法 |
CN110297909A (zh) * | 2019-07-05 | 2019-10-01 | 中国工商银行股份有限公司 | 一种无标签语料的分类方法及装置 |
CN110674639A (zh) * | 2019-09-24 | 2020-01-10 | 拾音智能科技有限公司 | 一种基于预训练模型的自然语言理解方法 |
CN110909543A (zh) * | 2019-11-15 | 2020-03-24 | 广州洪荒智能科技有限公司 | 意图识别方法、装置、设备及介质 |
CN111435362A (zh) * | 2019-01-15 | 2020-07-21 | 国际商业机器公司 | 用于生成相关响应的对抗性训练数据增强 |
-
2020
- 2020-07-28 CN CN202010737152.5A patent/CN111626063B/zh active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN111435362A (zh) * | 2019-01-15 | 2020-07-21 | 国际商业机器公司 | 用于生成相关响应的对抗性训练数据增强 |
CN109840280A (zh) * | 2019-03-05 | 2019-06-04 | 百度在线网络技术(北京)有限公司 | 一种文本分类方法、装置及计算机可读存储介质 |
CN110209817A (zh) * | 2019-05-31 | 2019-09-06 | 安徽省泰岳祥升软件有限公司 | 文本处理模型的训练方法、装置和文本处理方法 |
CN110297909A (zh) * | 2019-07-05 | 2019-10-01 | 中国工商银行股份有限公司 | 一种无标签语料的分类方法及装置 |
CN110674639A (zh) * | 2019-09-24 | 2020-01-10 | 拾音智能科技有限公司 | 一种基于预训练模型的自然语言理解方法 |
CN110909543A (zh) * | 2019-11-15 | 2020-03-24 | 广州洪荒智能科技有限公司 | 意图识别方法、装置、设备及介质 |
Non-Patent Citations (3)
Title |
---|
ALEKSANDER MADRY等: "Towards Deep Learning Models Resistant to Adversarial Attacks", 《IEEE EXPLORER》 * |
CELINE: "label smoothing(标签平滑)学习笔记", 《HTTPS://ZHUANLAN.ZHIHU.COM/P/116466239》 * |
瓦特兰蒂斯: "【炼丹技巧】功守道:NLP中的对抗训练+PyTorch实现", 《HTTPS://FYUBANG.COM/2019/10/15/ADVERSARIAL-TRAIN/》 * |
Cited By (29)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112199479A (zh) * | 2020-09-15 | 2021-01-08 | 北京捷通华声科技股份有限公司 | 优化语言语义理解模型方法、装置、设备及存储介质 |
WO2022057669A1 (zh) * | 2020-09-16 | 2022-03-24 | 浙江大学 | 基于结构化上下文信息的知识图谱预训练方法 |
CN112183631A (zh) * | 2020-09-28 | 2021-01-05 | 云知声智能科技股份有限公司 | 一种意图分类模型建立的方法和终端 |
CN112183631B (zh) * | 2020-09-28 | 2024-01-12 | 云知声智能科技股份有限公司 | 一种意图分类模型建立的方法和终端 |
CN112215292A (zh) * | 2020-10-19 | 2021-01-12 | 电子科技大学 | 一种基于迁移性的图像对抗样本生成装置及方法 |
CN112347738A (zh) * | 2020-11-04 | 2021-02-09 | 平安直通咨询有限公司上海分公司 | 基于裁判文书的双向编码器表征量模型优化方法和装置 |
CN112347738B (zh) * | 2020-11-04 | 2023-09-15 | 平安直通咨询有限公司上海分公司 | 基于裁判文书的双向编码器表征量模型优化方法和装置 |
CN112528016A (zh) * | 2020-11-19 | 2021-03-19 | 重庆兆光科技股份有限公司 | 一种基于低维球面投影的文本分类方法 |
CN112528016B (zh) * | 2020-11-19 | 2024-05-07 | 重庆兆光科技股份有限公司 | 一种基于低维球面投影的文本分类方法 |
CN112315578A (zh) * | 2020-11-20 | 2021-02-05 | 上海睿刀医疗科技有限公司 | 确定电极针布针组合的装置、方法及电极针布针优化系统 |
CN112315578B (zh) * | 2020-11-20 | 2021-06-15 | 上海睿刀医疗科技有限公司 | 确定电极针布针组合的装置、方法及电极针布针优化系统 |
CN112651243A (zh) * | 2020-12-15 | 2021-04-13 | 中国科学院信息工程研究所 | 基于融入结构化实体信息的缩写项目名称识别方法及电子装置 |
CN112651243B (zh) * | 2020-12-15 | 2023-11-03 | 中国科学院信息工程研究所 | 基于融入结构化实体信息的缩写项目名称识别方法及电子装置 |
CN112580339B (zh) * | 2020-12-18 | 2022-04-05 | 北京百度网讯科技有限公司 | 模型的训练方法、装置、电子设备及存储介质 |
CN112580339A (zh) * | 2020-12-18 | 2021-03-30 | 北京百度网讯科技有限公司 | 模型的训练方法、装置、电子设备及存储介质 |
CN113256459A (zh) * | 2021-04-30 | 2021-08-13 | 深圳市鹰硕教育服务有限公司 | 微课视频管理方法、装置、系统及存储介质 |
CN113239162A (zh) * | 2021-05-11 | 2021-08-10 | 山东新一代信息产业技术研究院有限公司 | 一种用于智能问答的文本嵌入式表达方法 |
CN113204974B (zh) * | 2021-05-14 | 2022-06-17 | 清华大学 | 对抗文本的生成方法、装置、设备及存储介质 |
CN113204974A (zh) * | 2021-05-14 | 2021-08-03 | 清华大学 | 对抗文本的生成方法、装置、设备及存储介质 |
CN113837216A (zh) * | 2021-06-01 | 2021-12-24 | 腾讯科技(深圳)有限公司 | 数据分类方法、训练方法、装置、介质及电子设备 |
CN113837216B (zh) * | 2021-06-01 | 2024-05-10 | 腾讯科技(深圳)有限公司 | 数据分类方法、训练方法、装置、介质及电子设备 |
US11875128B2 (en) | 2021-06-28 | 2024-01-16 | Ada Support Inc. | Method and system for generating an intent classifier |
CN113569581A (zh) * | 2021-08-26 | 2021-10-29 | 中国联合网络通信集团有限公司 | 意图识别方法、装置、设备及存储介质 |
CN113569581B (zh) * | 2021-08-26 | 2023-10-17 | 中国联合网络通信集团有限公司 | 意图识别方法、装置、设备及存储介质 |
CN114330364A (zh) * | 2021-12-27 | 2022-04-12 | 北京百度网讯科技有限公司 | 模型训练方法、意图识别方法、装置和电子设备 |
CN114330364B (zh) * | 2021-12-27 | 2022-11-11 | 北京百度网讯科技有限公司 | 模型训练方法、意图识别方法、装置和电子设备 |
CN115081437A (zh) * | 2022-07-20 | 2022-09-20 | 中国电子科技集团公司第三十研究所 | 基于语言学特征对比学习的机器生成文本检测方法及系统 |
CN115310622B (zh) * | 2022-10-12 | 2023-01-17 | 中国科学技术大学 | 一种基于自适应专家系统的智能问答方法 |
CN115310622A (zh) * | 2022-10-12 | 2022-11-08 | 中国科学技术大学 | 一种基于自适应专家系统的智能问答方法 |
Also Published As
Publication number | Publication date |
---|---|
CN111626063B (zh) | 2020-12-08 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111626063B (zh) | 一种基于投影梯度下降和标签平滑的文本意图识别方法及系统 | |
CN113158665B (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN110362819B (zh) | 基于卷积神经网络的文本情感分析方法 | |
CN111858932A (zh) | 基于Transformer的多重特征中英文情感分类方法及系统 | |
CN111143563A (zh) | 基于bert与lstm及cnn融合的文本分类方法 | |
CN111462750A (zh) | 语义与知识增强的端到端任务型对话系统及方法 | |
CN113204952B (zh) | 一种基于聚类预分析的多意图与语义槽联合识别方法 | |
CN114564565A (zh) | 面向公共安全事件分析的深度语义识别模型及其构建方法 | |
CN111984791B (zh) | 一种基于注意力机制的长文分类方法 | |
CN110807324A (zh) | 一种基于IDCNN-crf与知识图谱的影视实体识别方法 | |
CN114781392A (zh) | 一种基于bert改进模型的文本情感分析方法 | |
CN113255366B (zh) | 一种基于异构图神经网络的方面级文本情感分析方法 | |
CN111984780A (zh) | 多意图识别模型训练方法和多意图识别方法及相关装置 | |
CN114359946A (zh) | 一种基于残差注意力Transformer的光学乐谱图像识别方法 | |
CN113886562A (zh) | 一种ai简历筛选方法、系统、设备和存储介质 | |
CN113094502A (zh) | 一种多粒度外卖用户评论情感分析方法 | |
CN112988970A (zh) | 一种服务于智能问答系统的文本匹配算法 | |
CN115759119A (zh) | 一种金融文本情感分析方法、系统、介质和设备 | |
CN114416991A (zh) | 一种基于prompt的文本情感原因分析方法和系统 | |
CN116522165B (zh) | 一种基于孪生结构的舆情文本匹配系统及方法 | |
CN113254575A (zh) | 一种基于多步证据推理的机器阅读理解方法与系统 | |
CN115577111A (zh) | 基于自注意力机制的文本分类方法 | |
CN113342964B (zh) | 一种基于移动业务的推荐类型确定方法及系统 | |
CN112733526B (zh) | 一种自动识别财税文件中征税对象的抽取方法 | |
Liu et al. | Text sentiment analysis based on resgcnn |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |