CN113918700B - 一种带噪的半监督意图识别模型训练方法 - Google Patents

一种带噪的半监督意图识别模型训练方法 Download PDF

Info

Publication number
CN113918700B
CN113918700B CN202111205397.4A CN202111205397A CN113918700B CN 113918700 B CN113918700 B CN 113918700B CN 202111205397 A CN202111205397 A CN 202111205397A CN 113918700 B CN113918700 B CN 113918700B
Authority
CN
China
Prior art keywords
data set
recognition model
data
supervised
semi
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202111205397.4A
Other languages
English (en)
Other versions
CN113918700A (zh
Inventor
周韶宁
钟磊
方平
任子扬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Zhejiang Baishi Technology Co Ltd
Original Assignee
Zhejiang Baishi Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Zhejiang Baishi Technology Co Ltd filed Critical Zhejiang Baishi Technology Co Ltd
Priority to CN202111205397.4A priority Critical patent/CN113918700B/zh
Publication of CN113918700A publication Critical patent/CN113918700A/zh
Application granted granted Critical
Publication of CN113918700B publication Critical patent/CN113918700B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Databases & Information Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种带噪的半监督意图识别模型训练方法,通过融合并改进经典的“PI”和“虚拟对抗”半监督训练方法,在训练意图识别模型时,未经标注的大量无标签语料数据得到了更充分的利用,模型训练效果超越了传统全监督训练方法和“PI”、“虚拟对抗”半监督训练方法;考虑到语料数据的人工标注可能存在错误,本发明舍弃了“PI”和“虚拟对抗”半监督方法中使用的MSE误差、KL散度传统损失函数,而是将带噪学习领域的对称交叉熵引入半监督学习领域,使得本发明能够有效降低错误标签对模型训练的干扰。

Description

一种带噪的半监督意图识别模型训练方法
技术领域
本发明涉及客服机器人技术领域,具体涉及一种带噪的半监督意图识别模型训练方法。
背景技术
随着自然语言处理技术的发展,机器与人的沟通变得越来越流畅,客服行业将变成人工智能技术争相抢占的“新高地”,越来越多的人工客服可能会被智能机客服机器人所取代。在客服机器人接受客户咨询时,首先要解决的就是意图识别的问题,即客服机器人需要理解客户的咨询目的,然后进入下一步节点动作。因此,对于智能客服服务而言,意图识别模型的识别准确度至关重要,而如何基于神经网络训练形成具有高识别准确率的意图识别模型成为意图识别的技术关键。
不同于“小爱同学”“Siri”等现有的“闲聊型”机器人,客服机器人具有更强地服务目的,属于“任务型”智能机器人。在训练意图识别模型时,通常先列举出客户可能的咨询目的,在客户咨询时将客户话术分类为某个意图,也就是说将意图识别转化为一个文本分类的问题。
意图识别模型的训练优化依赖于企业客服部门接受客户咨询时记录的大量语料数据。目前,需要意图识别模型主要采用全监督训练和半监督训练方法,在全监督训练中,所有的语料数据需要经人工标注,赋予每条语料数据对应的“意图标签”后进行模型训练。但由于大量语料数据不容易得到,现在出现了一些半监督的模型训练方法,例如“PI”和“虚拟对抗”训练方法,二者都有带标签训练和无标签训练两个过程。带标签训练都是传统的全监督训练过程。在无标签训练时,两者都依靠一致性正则的思路,对同一批次输入样本,需要添加扰动后进行两次前向运算,对于同一输入计算得到两个预测结果,由于扰动以及模型结构中的随机因素,两个预测结果并不相同。之后用一种损失函数来衡量两个预测结果之间的“距离”,通过减小该距离来提升模型在扰动下的一致性。“PI”和“虚拟对抗”的半监督模型训练方法的区别在于扰动的产生方式和损失函数的选择不同,“PI”方法选择随机数作为扰动,选择最小均方误差(MSE)作为损失函数;“虚拟对抗”方法则是利用“梯度上升”方法改变输入,选择KL散度作为损失函数。
综上所述,现有的全监督以及例如“PI”“虚拟对抗”等半监督的意图识别模型训练方法存在以下几个缺陷:
1、全监督模型训练需要大量的标注数据,大量样本数据不易获得,且对大量样本数据进行人工标注工作量巨大;
2、现有的半监督模型训练方法同时需要带标签数据和无标签数据,训练效果十分依赖于带标签数据,但很少有人考虑其中带标签数据的标签正确率问题,实际上,人工标注结果可能并不十分理想,获取的标注数据可能含有一定比例的错误标签,即标签噪声。研究表明,神经网络模型在训练过程中,总是会学到错误标签中的信息,而半监督的训练过程甚至可能会加剧这种错误印象,当标签错误率超出一定范围,多用了很多无标签数据的半监督训练可能还不如使用少量标签数据的全监督训练得到的模型精度来得高。
发明内容
本发明的目的是提供一种带噪的半监督意图识别模型训练方法,通过融合并改进“PI”和“虚拟对抗”这两种经典的半监督训练方法,充分利用无标签语料数据,并减少带标签数据中错误标签对半监督训练效果的影响,大幅提高了意图识别模型训练效果。
为达此目的,本发明采用以下技术方案:
提供一种带噪的半监督意图识别模型训练方法,步骤包括:
S1,将无标签数据集合Xu和带标签数据集合Xl打乱混合得到混合数据集合Xm
S2,从所述混合数据集合Xm中取出一个批次数据集
Figure BDA0003306677100000021
xm是一个大小为[B,D,V]的三维张量,B为该批次数据数量,D为每条数据的截断长度,V为词向量长度,
Figure BDA0003306677100000022
表示数据集xm中的第i个数据;
S3,对所述数据集xm进行无标签训练,得到意图识别模型对所述数据集xm的预测输出f(xm,θ)、对所述数据集xm加高斯随机噪声张量r后的预测输出f(xm+r,θ)以及对所述数据集xm添加扰动n后的预测输出f(xm+n,θ),然后计算所述预测输出f(xm,θ)分别与所述预测输出f(xm+r,θ)、所述预测输出f(xm+n,θ)的对称交叉熵
Figure BDA0003306677100000023
θ表示所述意图识别模型的模型参数;
S4,取出所述数据集xm中的带标签数据集xl及所述带标签数据集xl对应的one-hot标签yl
S5,对所述带标签数据集xl做全监督训练,得到所述意图识别模型对所述带标签数据集xl的预测输出f(xl,θ),并计算所述预测输出f(xl,θ)与所述带标签数据集xl对应的数据标签yl的对称交叉熵lsce
S6,对所述对称交叉熵
Figure BDA0003306677100000024
lsce进行求和,得到所述意图识别模型的预测损失loss;
S7,根据所述预测损失loss更新模型参数并重复所述步骤S2-S6,经迭代更新训练形成最终的意图识别模型。
作为本发明的一种优选方案,步骤S3中,对所述数据集xm进行无标签训练包括第一无标签训练和第二无标签训练,所述第一无标签训练的方法步骤包括:
A1,将所述数据集xm输入到所述意图识别模型中,得到模型对所述数据集xm的所述预测输出f(xm,θ);
A2,对所述数据集xm加高斯随机噪声张量r后得到数据集xm+r,将所述数据集xm+r输入到所述意图识别模型,得到模型对所述数据集xm+r的所述预测输出f(xm+r,θ);
A3,通过以下公式(1)计算所述预测输出f(xm,θ)和所述预测输出f(xm+r,θ)的所述对称交叉熵
Figure BDA0003306677100000031
Figure BDA0003306677100000032
公式(1)中,
Figure BDA0003306677100000033
表示所述数据集xm中的第i个数据样本;
ri表示加在数据样本
Figure BDA0003306677100000034
上的第i个高斯随机噪声张量;
Figure BDA0003306677100000035
表示所述意图识别模型对输入为所述数据样本
Figure BDA0003306677100000036
预测输出的各意图概率分布向量;
Figure BDA0003306677100000037
表示对概率分布向量
Figure BDA0003306677100000038
中的各元素分别求对数;
Figure BDA0003306677100000039
表示所述意图识别模型对输入为数据样本
Figure BDA00033066771000000310
预测输出的各意图概率分布向量;
Figure BDA00033066771000000311
表示对概率分布向量
Figure BDA00033066771000000312
中的各元素分别求对数;
权重超参数α1>0、β1>0;
“·”表示对向量作点积运算。
作为本发明的一种优选方案,所述第二无标签训练的步骤包括:
B1,计算添加到所述数据集xm上的扰动n;
B2,对所述数据集xm添加所述扰动n,得到数据集xm+n;
B3,将所述数据集xm+n输入到所述意图识别模型中,得到模型对所述数据集xm+n的所述预测输出f(xm+n,θ);
B4,通过以下公式(2)计算所述预测输出f(xm,θ)与所述预测输出f(xm+n,θ)的所述对称交叉熵
Figure BDA00033066771000000313
Figure BDA0003306677100000041
公式(2)中,ni表示加在所述数据样本
Figure BDA0003306677100000042
上的扰动;
Figure BDA0003306677100000043
表示所述意图识别模型对输入为数据样本
Figure BDA0003306677100000044
预测输出的各意图概率分布向量;
Figure BDA0003306677100000045
表示对分布向量
Figure BDA0003306677100000046
中的各元素分别求对数。
作为本发明的一种优选方案,步骤B1中计算所述扰动n的方法包括步骤:
B11,计算所述对称交叉熵
Figure BDA0003306677100000047
对所述数据集xm+r的梯度
Figure BDA0003306677100000048
B12,根据以下公式(3)计算所述扰动n:
Figure BDA0003306677100000049
公式(3)中,超参数ε>0;
||g||2表示求张量g的二范数,
Figure BDA00033066771000000410
ghjk表示张量g中的每个元素,h,j,k分别对应表示所述数据集xm的三个维度B、D、V。
作为本发明的一种优选方案,步骤S5中,所述对称交叉熵lsce通过以下公式(4)计算而得:
Figure BDA00033066771000000411
Figure BDA00033066771000000412
公式(4)中,
Figure BDA00033066771000000413
为一标量,表示标签
Figure BDA00033066771000000414
中“1”对应意图的概率;
A为定义的超参数,A=log0;
权重超参数α2>0、β2>0。
作为本发明的一种优选方案,从THUCNews数据集中获取所述无标签数据集合Xu和所述带标签数据集合Xl
本发明具有以下有益效果:
1、本发明融合并改进了经典的“PI”和“虚拟对抗”半监督训练方法,在训练意图识别模型时,未经标注的大量无标签语料数据得到了更充分的利用,模型训练效果超越了传统全监督训练方法和“PI”、“虚拟对抗”半监督训练方法;
2、考虑到语料数据的人工标注可能存在错误,本发明舍弃了“PI”和“虚拟对抗”半监督方法中使用的MSE误差、KL散度传统损失函数,而是将带噪学习领域的对称交叉熵引入半监督学习领域,使得本发明能够有效降低错误标签对模型训练的干扰。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种带噪的半监督意图识别模型训练方法的实现步骤图;
图2是本发明一实施例提供的第一无标签训练方法的实现步骤图;
图3是本发明一实施例提供的第二无标签训练方法的实现步骤图;
图4是本发明一实施例计算扰动的方法步骤图;
图5是本发明实施例提供的带噪的半监督意图识别模型训练方法的实现原理框图;
图6是本发明与传统全监督训练方法、PI半监督训练方法、虚拟对抗半监督训练方法的效果对比图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
本发明实施例提供的一种带噪的半监督意图识别模型训练方法,如图1和图5所示,步骤包括:
S1,将无标签数据集合Xu和带标签数据集合Xl打乱混合得到混合数据集合Xm;无标签数据集合Xu和带标签数据集合Xl优选从THUCNews数据集中获取。
THUCNews数据集是根据新浪新闻RSS订阅频道2005-2011年间的历史数据筛选过滤生成,包含74万篇新闻文档,均为UTF-8纯文本格式,THUCNews数据集中的数据包含财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐等10余个类别,我们随机选取其中10个类别共1000条带标签数据形成带标签数据集合Xl和10000条无标签数据形成无标签数据集合Xu
S2,从混合数据集合Xm中取出一个批次数据集
Figure BDA0003306677100000061
xm(混合批次数据)是一个大小为[B,D,V]的三维张量,B为该批次数据数量,D为每条数据的截断长度,V为词向量长度,
Figure BDA0003306677100000062
表示数据集xm中的第i个数据;
本实施例中,一条数据或样本为一句话。一句话有长有短,一般采取“长截断短填充”的方式,即设定好每句话的“截断长度”D,长于这个长度的部分删去不要,短于这个长度的用固定的字符填充。
每句话中每一个字用一个向量替换,即“字向量”,“字向量”的维度为V(也有以词为单位的,但本实施例中以字为单位)。
这样处理之后,每一句话(或者说每一条数据)都用一个大小为[D,V]的矩阵(或者说向量组)表示,一批次数据用一个大小为[B,D,V]的三维张量表示。
S3,对数据集xm进行无标签训练,得到意图识别模型对数据集xm的预测输出f(xm,θ)、对数据集xm加高斯随机噪声张量r后的预测输出f(xm+r,θ)以及对数据集xm添加扰动n后的预测输出f(xm+n,θ),然后计算预测输出f(xm,θ)分别与预测输出f(xm+r,θ)、所述预测输出f(xm+n,θ)的对称交叉熵
Figure BDA0003306677100000063
θ表示意图识别模型的模型参数;
本实施例中,对数据集xm进行无标签训练包括第一无标签训练和第二无标签训练,第一无标签训练的方法步骤如图2所示,包括:
A1,将数据集xm输入到意图识别模型中,得到模型对数据集xm的预测输出f(xm,θ),f(xm,θ)表示数据集xm对应的各意图概率分布向量组,比如
Figure BDA0003306677100000064
为数据集xm中的第i个数据样本,则模型输出的
Figure BDA0003306677100000065
对应的各意图概率分布向量表示为
Figure BDA0003306677100000066
例如,数据样本
Figure BDA0003306677100000067
为“退货”,“退货”对应的意图包括:(1)怎么退货;(2)退货时限;(3)退款到账时间,根据大数据分析,当客户与服务机器人聊天时输入“退货”时,意图为“怎么退货”的概率为70%,意图为“退货时限”的概率为10%;意图为“退款到账时间”的概率为20%,则“退货”这一样本数据
Figure BDA0003306677100000071
对应的各意图概率分布向量
Figure BDA0003306677100000072
可以表示为[怎么退货:70%;退货到账时间:10%;退款到账时间:20%]。
A2,对数据集xm加高斯随机噪声张量r后得到数据集xm+r,将数据集xm+r输入到意图识别模型,得到模型对数据集xm+r的预测输出f(xm+r,θ);
A3,通过以下公式(1)计算预测输出f(xm,θ)和预测输出f(xm+r,θ)的对称交叉熵
Figure BDA0003306677100000073
Figure BDA0003306677100000074
例如:样本标签可表示为one-hot形式。如果是一个三分类问题,则样本
Figure BDA0003306677100000075
的预测
Figure BDA0003306677100000076
Figure BDA0003306677100000077
都可表示成三维向量,假设对于样本
Figure BDA0003306677100000078
Figure BDA0003306677100000079
Figure BDA00033066771000000710
Figure BDA00033066771000000711
所以
Figure BDA00033066771000000712
就是对向量
Figure BDA00033066771000000713
和向量
Figure BDA00033066771000000714
求点积,即
Figure BDA00033066771000000715
第二项
Figure BDA00033066771000000716
也同理。最终计算所得
Figure BDA00033066771000000717
是一个标量。
公式(1)中,
Figure BDA00033066771000000718
表示数据集xm中的第i个数据样本;
ri表示加在数据样本
Figure BDA00033066771000000719
上的第i个高斯随机噪声张量;
Figure BDA00033066771000000720
表示意图识别模型对输入为数据样本
Figure BDA00033066771000000721
预测输出的各意图概率分布向量;
Figure BDA00033066771000000722
表示对分布向量
Figure BDA00033066771000000723
中的各元素分别求对数;
Figure BDA00033066771000000724
表示意图识别模型对输入为数据样本
Figure BDA00033066771000000725
预测输出的各意图概率分布向量;
Figure BDA00033066771000000726
表示对分布向量
Figure BDA00033066771000000727
中的各元素分别求对数;
权重超参数α1>0、β1>0;
“·”表示对向量作点积运算。
因为模型输出的概率分布向量
Figure BDA0003306677100000081
Figure BDA0003306677100000082
没有0元素,故在无标签训练过程中,对称交叉熵
Figure BDA0003306677100000083
的计算不会像传统全监督训练过程中那样出现负无穷大项log0。
这里需要说明的是,模型最后的输出之所以是概率分布的形式,是因为模型在最终输出前做了一个softmax操作,对每一条输入,假设模型在softmax之前计算得到的中间向量为[a1,a2,a3],对该向量做softmax操作后得到
Figure BDA0003306677100000084
因为
Figure BDA0003306677100000085
ea>0恒成立,故模型预测输出向量不会含有0元素。
请参照图3,第二无标签训练的方法步骤包括:
B1,计算添加到数据集xm上的扰动n;如图4所示,扰动n的计算方法具体包括步骤:
B11,计算对称交叉熵
Figure BDA0003306677100000086
对数据集xm+r的梯度g,梯度
Figure BDA0003306677100000087
B12,通过以下公式(3)计算扰动n,
Figure BDA0003306677100000088
公式(3)中,超参数ε>0;
||g||2表示求张量g的二范数,
Figure BDA0003306677100000089
ghlk表示张量g中的每个元素,h,l,k分别对应表示数据集xm的三维张量[B,D,V]中的B、D、V,B为数据集xm的数据数量,D为数据集xm中的每条数据的截断长度,V为词向量长度。
在B11中,
Figure BDA00033066771000000810
其中
Figure BDA00033066771000000811
是标量,xm+r和xm形状一样,都是维度为[B,D,V]的三维张量。所以求梯度后,g也是维度为[B,D,V]的三维张量,这里用h,j,k三个字母分别对应g的三个维度,g张量里的每个元素记为为ghjk。||g||2表示求张量g的二范数,即
Figure BDA00033066771000000812
Figure BDA00033066771000000813
也就是求这个三维张量中所有元素的平方和后开根号。B为该批次数据数量,D为每条数据的截断长度,V为词向量长度。
请继续参照图3,第二无标签训练方法还包括步骤:
B2,对数据集xm添加扰动n,得到数据集xm+n;
B3,将数据集xm+n输入到意图识别模型中,得到模型对数据集xm+n的预测输出f(xm+n,θ);
B4,通过以下公式(2)计算预测输出f(xm,θ)与预测输出f(xm+n,θ)的对称交叉熵
Figure BDA0003306677100000091
Figure BDA0003306677100000092
公式(2)中,ni表示加在数据样本
Figure BDA0003306677100000093
上的扰动;
Figure BDA0003306677100000094
表示意图识别模型对输入为数据样本
Figure BDA0003306677100000095
预测输出的各意图概率分布向量;
Figure BDA0003306677100000096
表示对分布向量
Figure BDA0003306677100000097
中的各元素分别求对数。
对称交叉熵
Figure BDA0003306677100000098
的计算过程与对称交叉熵
Figure BDA0003306677100000099
的计算过程相同,在此不再赘述。
请继续参照图1和图5,本实施例提供的带噪的半监督意图识别模型训练方法步骤还包括:
S4,取出数据集xm中的带标签数据集xl及带标签数据集xl对应的one-hot标签yl,数据集xl中数据数量为Bl
S5,对带标签数据集xl做全监督训练,得到意图识别模型对带标签数据集xl的预测输出f(xl,θ),并通过以下公式(4)计算预测输出f(xl,θ)与带标签数据集xl对应的数据标签yl的对称交叉熵lsce
Figure BDA00033066771000000910
公式(4)中,
Figure BDA00033066771000000911
为一标量,表示标签
Figure BDA00033066771000000912
中“1”对应意图的概率;例如:标签可表示为one-hot形式。如果是一个三分类问题,则样本的标签
Figure BDA00033066771000000913
和预测
Figure BDA00033066771000000914
都可表示成三维向量。若样本
Figure BDA00033066771000000915
属于这三类中的第一类,则其标签
Figure BDA00033066771000000916
假设
Figure BDA00033066771000000917
Figure BDA00033066771000000918
即在神经网络模型看来样本
Figure BDA00033066771000000919
属于第一类的概率为0.7。
标签
Figure BDA00033066771000000920
中必定含有0元素,这里
Figure BDA00033066771000000921
在计算
Figure BDA00033066771000000922
时必定产生负无穷大项log0。
A=log0;
权重超参数α2>0、β2>0。
因为标签
Figure BDA0003306677100000101
含有0元素,故会出现无穷大项log0。
S6,对交叉熵
Figure BDA0003306677100000102
lsce进行求和,得到意图识别模型的预测损失loss,即
Figure BDA0003306677100000103
S7,根据预测损失loss更新模型参数并重复步骤S2-S6,经迭代更新训练形成最终的意图识别模型(TextCNN网络模型)。具体地,对损失函数loss求梯度,并更新意图识别模型的模型参数θ,即
Figure BDA0003306677100000104
η表示学习率。重复步骤S2-S6,每隔一段时间验证模型的意图识别准确率,若更新了当前最高正确率则保存模型参数。若模型在某次保存参数后,又经过10批次训练模型识别准确率仍未有所提升,则迭代训练过程结束,取最后保存的参数为模型最终的参数,训练得到最终的意图识别模型。
图6示出了本发明与传统全监督训练方法、PI半监督训练方法、虚拟对抗半监督训练方法的效果对比图。图6横轴表示带标签数据的标签错误率,从1000个带标签数据中随机选取一定比例,将其标签改错,然后投入训练;纵轴为训练20轮后模型在测试集上的识别正确率,以模型在测试集上的识别正确率作为训练效果的评判基准。根据图6可知:
1、当标签错误率为0时,使用了更多无标签数据的三种半监督训练方法都取得了优于全监督训练的效果,这说明在数据集质量较高时,半监督训练方法相比较全监督训练方法更有效。而本发明虽然基于经典的“PI”和“虚拟对抗”两种半监督方法,但相比两者取得了更好地训练效果。
2、随着标签错误率的提升,4种训练方法的训练效果都逐渐下降,这说明错误标签确实会对训练效果产生影响。当标签错误率超过20%(0.2)时,“PI”和“虚拟对抗”两种半监督方法的训练效果甚至不如传统的全监督方法。而本发明的训练效果在4种方式中始终最为优良,这说明本发明通过融合并改良“PI”和“虚拟对抗”两种半监督训练方法,有效降低了错误标签对于意图识别模型训练的影响,具有较强地抗噪性能。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。

Claims (6)

1.一种带噪的半监督意图识别模型训练方法,其特征在于,步骤包括:
S1,将无标签数据集合Xu和带标签数据集合Xl打乱混合得到混合数据集合Xm
S2,从所述混合数据集合Xm中取出一个批次数据集
Figure FDA0003563741660000011
xm是一个大小为[B,D,V]的三维张量,B为xm的数据数量,D为每条数据的截断长度,V为词向量长度,
Figure FDA0003563741660000012
表示所述数据集xm中的第i个数据;
S3,对所述数据集xm进行无标签训练,得到意图识别模型对所述数据集xm的预测输出f(xm,θ)、对所述数据集xm加高斯随机噪声张量r后的预测输出f(xm+r,θ)以及对所述数据集xm添加扰动n后的预测输出f(xm+n,θ),然后计算所述预测输出f(xm,θ)分别与所述预测输出f(xm+r,θ)、所述预测输出f(xm+n,θ)的对称交叉熵
Figure FDA0003563741660000013
θ表示所述意图识别模型的模型参数;
S4,取出所述数据集xm中的带标签数据集xl及所述带标签数据集xl对应的one-hot标签yl
S5,对所述带标签数据集xl做全监督训练,得到所述意图识别模型对所述带标签数据集xl的预测输出f(xl,θ),并计算所述预测输出f(xl,θ)与所述带标签数据集xl对应的数据标签yl的对称交叉熵lsce
S6,对所述对称交叉熵
Figure FDA0003563741660000014
lsce进行求和,得到所述意图识别模型的预测损失loss;
S7,根据所述预测损失loss更新模型参数并重复所述步骤S2-S6,经迭代更新训练形成最终的意图识别模型。
2.根据权利要求1所述的一种带噪的半监督意图识别模型训练方法,其特征在于,步骤S3中,对所述数据集xm进行无标签训练包括第一无标签训练和第二无标签训练,所述第一无标签训练的方法步骤包括:
A1,将所述数据集xm输入到所述意图识别模型中,得到模型对所述数据集xm的所述预测输出f(xm,θ);
A2,对所述数据集xm加高斯随机噪声张量r后得到数据集xm+r,将所述数据集xm+r输入到所述意图识别模型,得到模型对所述数据集xm+r的所述预测输出f(xm+r,θ);
A3,通过以下公式(1)计算所述预测输出f(xm,θ)和所述预测输出f(xm+r,θ)的所述对称交叉熵
Figure FDA0003563741660000015
Figure FDA0003563741660000016
公式(1)中,
Figure FDA0003563741660000017
表示所述数据集xm中的第i个数据样本;
ri表示加在数据样本
Figure FDA0003563741660000021
上的第i个高斯随机噪声张量;
Figure FDA0003563741660000022
表示所述意图识别模型对输入为所述数据样本
Figure FDA0003563741660000023
预测输出的各意图概率分布向量;
Figure FDA0003563741660000024
表示对概率分布向量
Figure FDA0003563741660000025
中的各元素分别求对数;
Figure FDA0003563741660000026
表示所述意图识别模型对输入为数据样本
Figure FDA0003563741660000027
预测输出的各意图概率分布向量;
Figure FDA0003563741660000028
表示对概率分布向量
Figure FDA0003563741660000029
中的各元素分别求对数;
权重超参数α1>0、β1>0;
“·”表示对向量作点积运算。
3.根据权利要求2所述的一种带噪的半监督意图识别模型训练方法,其特征在于,所述第二无标签训练的步骤包括:
B1,计算添加到所述数据集xm上的扰动n;
B2,对所述数据集xm添加所述扰动n,得到数据集xm+n;
B3,将所述数据集xm+n输入到所述意图识别模型中,得到模型对所述数据集xm+n的所述预测输出f(xm+n,θ);
B4,通过以下公式(2)计算所述预测输出f(xm,θ)与所述预测输出f(xm+n,θ)的所述对称交叉熵
Figure FDA00035637416600000210
Figure FDA00035637416600000211
公式(2)中,ni表示加在所述数据样本
Figure FDA00035637416600000212
上的扰动;
Figure FDA00035637416600000213
表示所述意图识别模型对输入为数据样本
Figure FDA00035637416600000214
预测输出的各意图概率分布向量;
Figure FDA00035637416600000215
表示对分布向量
Figure FDA00035637416600000216
中的各元素分别求对数。
4.根据权利要求3所述的一种带噪的半监督意图识别模型训练方法,其特征在于,步骤B1中计算所述扰动n的方法包括步骤:
B11,计算所述对称交叉熵
Figure FDA00035637416600000217
对所述数据集xm+r的梯度
Figure FDA00035637416600000218
B12,根据以下公式(3)计算所述扰动n:
Figure FDA00035637416600000219
公式(3)中,超参数ε>0;
||g||2表示求张量g的二范数,
Figure FDA0003563741660000031
ghjk表示张量g中的每个元素,h,j,k分别对应表示所述数据集xm的三个维度B、D、V。
5.根据权利要求1所述的一种带噪的半监督意图识别模型训练方法,其特征在于,步骤S5中,所述对称交叉熵lsce通过以下公式(4)计算而得:
Figure FDA0003563741660000032
Figure FDA0003563741660000033
公式(4)中,
Figure FDA0003563741660000034
为一标量,表示标签
Figure FDA0003563741660000035
中“1”对应意图的概率;
A为定义的超参数,A=log0;
权重超参数α2>0、β2>0。
6.根据权利要求1所述的一种带噪的半监督意图识别模型训练方法,其特征在于,从THUCNews数据集中获取所述无标签数据集合Xu和所述带标签数据集合Xl
CN202111205397.4A 2021-10-15 2021-10-15 一种带噪的半监督意图识别模型训练方法 Active CN113918700B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202111205397.4A CN113918700B (zh) 2021-10-15 2021-10-15 一种带噪的半监督意图识别模型训练方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202111205397.4A CN113918700B (zh) 2021-10-15 2021-10-15 一种带噪的半监督意图识别模型训练方法

Publications (2)

Publication Number Publication Date
CN113918700A CN113918700A (zh) 2022-01-11
CN113918700B true CN113918700B (zh) 2022-07-12

Family

ID=79240647

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202111205397.4A Active CN113918700B (zh) 2021-10-15 2021-10-15 一种带噪的半监督意图识别模型训练方法

Country Status (1)

Country Link
CN (1) CN113918700B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376361A (zh) * 2018-11-16 2019-02-22 北京九狐时代智能科技有限公司 一种意图识别方法及装置
CN110414432A (zh) * 2019-07-29 2019-11-05 腾讯科技(深圳)有限公司 对象识别模型的训练方法、对象识别方法及相应的装置
CN110532377A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于对抗训练和对抗学习网络的半监督文本分类方法
CN111797703A (zh) * 2020-06-11 2020-10-20 武汉大学 基于鲁棒深度语义分割网络的多源遥感影像分类方法
CN112417132A (zh) * 2020-12-17 2021-02-26 南京大学 一种利用谓宾信息筛选负样本的新意图识别方法
CN112597766A (zh) * 2020-12-29 2021-04-02 杭州电子科技大学 一种基于BERT-base网络的带噪半监督文本分类方法
CN113377899A (zh) * 2020-03-09 2021-09-10 华为技术有限公司 意图识别方法及电子设备

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8145662B2 (en) * 2008-12-31 2012-03-27 Ebay Inc. Methods and apparatus for generating a data dictionary
KR20190104268A (ko) * 2019-07-25 2019-09-09 엘지전자 주식회사 비식별화된 음성 신호를 학습하는 인공 지능 기기 및 그 방법
CN111832627B (zh) * 2020-06-19 2022-08-05 华中科技大学 抑制标签噪声的图像分类模型训练方法、分类方法及系统

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109376361A (zh) * 2018-11-16 2019-02-22 北京九狐时代智能科技有限公司 一种意图识别方法及装置
CN110532377A (zh) * 2019-05-13 2019-12-03 南京大学 一种基于对抗训练和对抗学习网络的半监督文本分类方法
CN110414432A (zh) * 2019-07-29 2019-11-05 腾讯科技(深圳)有限公司 对象识别模型的训练方法、对象识别方法及相应的装置
CN113377899A (zh) * 2020-03-09 2021-09-10 华为技术有限公司 意图识别方法及电子设备
CN111797703A (zh) * 2020-06-11 2020-10-20 武汉大学 基于鲁棒深度语义分割网络的多源遥感影像分类方法
CN112417132A (zh) * 2020-12-17 2021-02-26 南京大学 一种利用谓宾信息筛选负样本的新意图识别方法
CN112597766A (zh) * 2020-12-29 2021-04-02 杭州电子科技大学 一种基于BERT-base网络的带噪半监督文本分类方法

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Image registration: Maximum likelihood, minimum entropy and deep learning;Alireza Sedghi 等;《Medical Image Analysis》;20201231;第69卷;1-15 *
Symmetric Cross Entropy for Robust Learning With Noisy Labels;Yisen Wang 等;《2019 IEEE/CVF International Conference on Computer Vision (ICCV)》;20200227;322-330 *
基于犹豫模糊集的机器自主及人机联合多属性决策方法;杜傲 等;《计算机集成制造系统》;20190429;第26卷(第8期);2099-2108 *
知识驱动的特定领域文本分类方法;黄超;《中国优秀硕士学位论文全文数据库 信息科技辑》;20210215(第02(2021)期);I138-2940 *

Also Published As

Publication number Publication date
CN113918700A (zh) 2022-01-11

Similar Documents

Publication Publication Date Title
CN110609897B (zh) 一种融合全局和局部特征的多类别中文文本分类方法
Muangkammuen et al. Automated thai-faq chatbot using rnn-lstm
CN107423442B (zh) 基于用户画像行为分析的应用推荐方法及系统,储存介质及计算机设备
Setyawan et al. Comparison of multinomial naive bayes algorithm and logistic regression for intent classification in chatbot
CN109165294B (zh) 一种基于贝叶斯分类的短文本分类方法
CN110472042B (zh) 一种细粒度情感分类方法
CN108664632A (zh) 一种基于卷积神经网络和注意力机制的文本情感分类算法
CN111506732B (zh) 一种文本多层次标签分类方法
CN108647226B (zh) 一种基于变分自动编码器的混合推荐方法
CN111414476A (zh) 一种基于多任务学习的属性级情感分析方法
CN111680147A (zh) 一种数据处理方法、装置、设备以及可读存储介质
CN113822776B (zh) 课程推荐方法、装置、设备及存储介质
CN112215604A (zh) 交易双方关系信息识别方法及装置
CN115526236A (zh) 一种基于多模态对比学习的文本网络图分类方法
CN112699222A (zh) 基于量子启发式神经网络的文本分类方法及邮件分类方法
CN113255366A (zh) 一种基于异构图神经网络的方面级文本情感分析方法
CN116402352A (zh) 一种企业风险预测方法、装置、电子设备及介质
CN115114409A (zh) 一种基于软参数共享的民航不安全事件联合抽取方法
CN110019796A (zh) 一种用户文本信息分析方法及装置
CN115129807A (zh) 基于自注意的社交媒体主题评论的细粒度分类方法及系统
JP2017174004A (ja) 文意味分類算出装置、モデル学習装置、方法、及びプログラム
CN117408735A (zh) 一种基于物联网的客户管理方法及系统
CN115544260B (zh) 用于文本情感分析的对比优化编解码方法
CN113918700B (zh) 一种带噪的半监督意图识别模型训练方法
CN114862514A (zh) 一种基于元学习的用户偏好商品推荐方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant