CN111460156A - 样本扩充方法、装置、设备及计算机可读存储介质 - Google Patents

样本扩充方法、装置、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN111460156A
CN111460156A CN202010249085.2A CN202010249085A CN111460156A CN 111460156 A CN111460156 A CN 111460156A CN 202010249085 A CN202010249085 A CN 202010249085A CN 111460156 A CN111460156 A CN 111460156A
Authority
CN
China
Prior art keywords
sample
label
training
training sample
sentence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010249085.2A
Other languages
English (en)
Other versions
CN111460156B (zh
Inventor
李松
徐倩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
WeBank Co Ltd
Original Assignee
WeBank Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by WeBank Co Ltd filed Critical WeBank Co Ltd
Priority to CN202010249085.2A priority Critical patent/CN111460156B/zh
Priority claimed from CN202010249085.2A external-priority patent/CN111460156B/zh
Publication of CN111460156A publication Critical patent/CN111460156A/zh
Application granted granted Critical
Publication of CN111460156B publication Critical patent/CN111460156B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/355Class or cluster creation or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Abstract

本发明公开了一种样本扩充方法、装置、设备及计算机可读存储介质,涉及金融科技技术领域。该样本扩充方法包括:从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签;对所述语句文本进行处理,得到对应的样本句向量;获取权重系数,基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本。本发明能够实现训练样本的扩充,可有利于提升模型训练效果。

Description

样本扩充方法、装置、设备及计算机可读存储介质
技术领域
本发明涉及金融科技(Fintech)的数据处理技术领域,尤其涉及一种样本扩充方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
在人机对话领域,意图识别是最为核心的技术之一,对于自然语义的理解是人机对话能够实现的前提之一。意图识别,即从用户的提问中提取出意图,目前主要是利用意图识别模型对用户提问进行意图识别,如BERT (Bidirectional Encoder Representationfrom Transformers,转换器的双向编码器)神经网络模型等。意图识别模型的识别效果依赖于大量带标签的样本数据,当带标签的样本数据不足时难以产生好的识别效果。因此,如何对样本数据进行扩充是目前亟需解决的问题。
发明内容
本发明的主要目的在于提供一种样本扩充方法、装置、设备及计算机可读存储介质,旨在实现训练样本的扩充,以提升模型训练效果。
为实现上述目的,本发明提供一种样本扩充方法,所述样本扩充方法包括:
从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签;
对所述语句文本进行处理,得到对应的样本句向量;
获取权重系数,基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本。
可选地,所述初始训练样本集包括真实标签样本集和伪标签样本集,所述从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签的步骤包括:
从所述真实标签样本集中抽取第一训练样本,并从所述伪标签样本集中抽取第二训练样本;
根据所述第一训练样本和所述第二训练样本构建得到训练样本组,所述训练样本组包括所述第一训练样本和所述第二训练样本的语句文本和样本标签。
可选地,所述样本扩充方法还包括:
基于所述真实标签样本集训练得到标签预测模型;
获取无标签样本,将所述无标签样本输入至所述标签预测模型,得到预测标签;
根据所述预测标签和所述无标签样本构建得到所述伪标签样本集。
可选地,所述对所述语句文本进行处理,得到对应的样本句向量的步骤包括:
从预设词表中查询得到所述语句文本中各文字对应的位置数字;
基于所述位置数字生成所述语句文本对应的位置向量;
获取目标矩阵,并计算所述目标矩阵与所述位置向量的乘积,得到所述语句文本对应的样本句向量。
可选地,所述获取权重系数的步骤包括:
根据预设形状参数确定目标贝塔分布;
生成符合所述目标贝塔分布的一随机数,并将所述随机数作为权重系数。
可选地,所述基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本的步骤包括:
将所述权重系数和所述样本句向量代入第一预设公式,计算得到混合句向量;
根据预设标签排序表将所述样本标签转换成对应的样本标签向量,并将所述权重系数和所述样本标签向量代入第二预设公式,计算得到混合标签向量;
根据所述混合句向量和所述混合标签向量,构建得到扩充训练样本。
可选地,所述样本扩充方法还包括:
根据所述扩充训练样本和所述初始训练样本集,构建得到目标训练样本集;
通过所述目标训练样本集对预设意图识别模型进行训练,得到训练好的意图识别模型。
此外,为实现上述目的,本发明还提供一种样本扩充装置,所述样本扩充装置包括:
抽样模块,用于从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签;
处理模块,用于对所述语句文本进行处理,得到对应的样本句向量;
混合模块,用于获取权重系数,基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本。
此外,为实现上述目的,本发明还提供一种样本扩充设备,所述样本扩充设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本扩充程序,所述样本扩充程序被所述处理器执行时实现如上所述的样本扩充方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有样本扩充程序,所述样本扩充程序被处理器执行时实现如上所述的样本扩充方法的步骤。
本发明提供一种样本扩充方法、装置、设备及计算机可读存储介质,通过从初始训练样本集中抽取训练样本组,训练样本组包括语句文本和样本标签;对语句文本进行处理,得到对应的样本句向量;获取权重系数,基于权重系数对样本句向量和样本标签进行混合,并根据混合结果构建扩充训练样本。本发明中通过对语句文本对应的样本句向量和样本标签进行混合,进而构建得到扩充训练样本,可实现训练样本的扩充,有利于提升后续模型训练效果。同时,由于扩充训练样本是由多个语句文本的样本句向量和样本标签基于权重系数随机混合得到的,因此,扩充训练样本所对应的语句文本是不规整的,后续基于该扩充训练样本和语句规整的初始训练样本集对模型进行训练时,相比于仅基于语句规整的初始训练样本集训练模型,引入了“噪音”,从而能防止模型训练过拟合。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明样本扩充方法第一实施例的流程示意图;
图3为本发明样本扩充装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例样本扩充设备可以是PC(Personal Computer,个人计算机),也可以是服务器、平板电脑、便携计算机等终端设备。
如图1所示,该样本扩充设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线 1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏 (Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的样本扩充设备结构并不构成对样本扩充设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及样本扩充程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的样本扩充程序,并执行以下样本扩充方法的各个步骤。
基于上述硬件结构,提出本发明样本扩充方法的各实施例。
本发明提供一种样本扩充方法。
参照图2,图2为本发明样本扩充方法第一实施例的流程示意图。
在本实施例中,该样本扩充方法包括:
步骤S10,从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签;
本实施例的样本扩充方法是由样本扩充设备实现的,该设备以服务器为例进行说明。
在本实施例中,先从初始训练样本集中抽取训练样本组,训练样本组包括语句文本和样本标签。其中,训练样本组由至少2个训练样本构成,本实施例中以训练样本组包括2个训练样本为例进行说明,训练样本组可以包括一组或多组;语句文本即为原始语料对应的文本,样本标签为意图标签。
初始训练样本集可以仅包括真实标签样本集,即由语句文本和真实标注标签(人为标注得到的)构成。在具体实施时,由于模型训练时通常需要大量的样本数据,也就需要对大量的语句文本进行标签标注,而进行标签标注往往需要耗费大量的人力和物力,因此,为节省成本、提高标签标注效率,可以基于半监督机器学习技术Pseudo-Labelling(伪标签)对无标签样本自动进行标签标注,从而得到伪标签样本集。即用带标签的训练样本集训练得到的标签预测模型,去对不带标签的语句文本进行预测,得到预测标签,进而基于不带标签的语句文本和预测标签构建得到伪标签样本集。也就是说,初始训练样本集还可以包括真实标签样本集和伪标签样本集。
若初始训练样本集仅包括真实标签样本集,在抽样时,可以每次从真实标签样本集中随机抽取两个训练样本,组成训练样本组;或者将真实标签样本集中的训练样本进行两两组合,得到训练样本组。
若初始训练样本集包括真实标签样本集和伪标签样本集,可以先从真实标签样本集中随机抽取第一训练样本,并从伪标签样本集中随机抽取第二训练样本,根据第一训练样本和第二训练样本构建得到训练样本组,也就是说,每一个训练样本组合由一个真实标签样本和一个伪标签样本构成。对应的,训练样本组包括第一训练样本和第二训练样本的语句文本和样本标签,为便于后续说明,将第一训练样本的语句文本和样本标签分为记为第一语句文本和第一样本标签,将第二训练样本的语句文本和样本标签分为记为第二语句文本和第二样本标签。当然,可以理解的是,若初始训练样本集包括真实标签样本集和伪标签样本集,也可以直接将真实标签样本集和伪标签样本集混合作为一个初始训练样本集,然后直接从该从初始训练样本集中随机抽取两个训练样本,组成训练样本组;或者将初始训练样本集中的训练样本进行两两组合,得到训练样本组。但是相比而言,将真实标签样本集中的训练样本与伪标签样本集中的训练样本相组合,进而进行混合得到扩充训练样本,可以降低无标签样本预测错误对训练结果的影响。
步骤S20,对所述语句文本进行处理,得到对应的样本句向量;
然后,对语句文本进行向量化处理,得到对应的样本句向量。即,将语句文本处理成句向量的形式。具体的,步骤S20包括:
步骤a1,从预设词表中查询得到所述语句文本中各文字对应的位置数字;
步骤a2,基于所述位置数字生成所述语句文本对应的位置向量;
步骤a3,获取目标矩阵,并计算所述目标矩阵与所述位置向量的乘积,得到所述语句文本对应的样本句向量。
本实施例中,可根据word embedding(词嵌入)方法对语句文本进行向量化处理,其处理过程具体如下:
先从预设词表中查询得到语句文本中各文字对应的位置数字,其中,预设词表中包括不同文字及其对应的位置数字;然后,基于位置数字生成语句文本对应的位置向量。例如,某一语句文本为“年龄多大”,“年”、“龄”、“多”、“大”所对应的位置数字为1、2、3、4,则可以生成对应的位置向量为(1,2,3,4)。
在获取到语句文本对应的位置向量之后,获取目标矩阵,并计算目标矩阵与位置向量的乘积,得到语句文本对应的样本句向量。其中,目标矩阵可以是预先设定的,也可以是在训练意图识别模型的过程中的实时训练更新得到的。可以理解,当训练样本组包括第一训练样本和第二训练样本时,对应的,语句文本包括第一训练样本对应的第一语句文本和第二训练样本对应的第二语句文本,此时可处理得到第一样本句向量和第二样本句向量。
步骤S30,获取权重系数,基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本。
在处理得到语句文本对应的样本句向量之后,获取权重系数,进而基于权重系数对样本句向量和样本标签进行混合,并根据混合结果构建扩充训练样本。
作为权重系数的其中一种获取方式,可以直接生成一个在(0,1)范围内的随机数,作为权重系统,此种方式更适用于初始训练样本集仅包括真实标签样本集的情况。
作为权重系数的另一种获取方式,步骤“获取权重系数”包括:
步骤b1,根据预设形状参数确定目标贝塔分布;
步骤b2,生成符合所述目标贝塔分布的一随机数,并将所述随机数作为权重系数。
本实施例中,可以先根据预设形状参数确定目标贝塔分布,其中,预设形状参数可以两个数值,即为k1、k2,其中1<k1<k2,可确定得到目标贝塔 (Beta)分布Beta(k1,k2)。可选地,k1=2、k2=7。Beta分布是一个定义在(0,1) 区间上的连续概率分布。然后,生成符合所述目标贝塔分布的一随机数,记为α,α~Beta(2,7),并将随机数α作为权重系数。具体的,可以使用Matlab 中的随机数生成函数betarnd(k1,k2),即可生成服从目标Beta分布的随机数,即(0,1)区间上的随机数。
此种权重系数的获取方式更适用于初始训练样本集包括真实标签样本集和伪标签样本集的情况,通过生成符合目标贝塔分布的一随机数,并将随机数作为权重系数,可使得从真实标签样本集中抽取的第一语句文本所对应的第一样本句向量的权重更大,而从伪标签样本集中抽取的第二语句文本所对应的第二样本句向量的权重相对较小,通过此种方式计算得到混合句向量,进而构建扩充训练样本,可使得在基于扩充训练样本训练意图识别模型时,进一步降低伪标签样本对意图识别模型的训练结果的影响。
进一步地,步骤“基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本”包括:
步骤c1,将所述权重系数和所述样本句向量代入第一预设公式,计算得到混合句向量;
步骤c2,根据预设标签排序表将所述样本标签转换成对应的样本标签向量,并将所述权重系数和所述样本标签向量代入第二预设公式,计算得到混合标签向量;
步骤c3,根据所述混合句向量和所述混合标签向量,构建得到扩充训练样本。
在处理得到样本句向量之后,由于每个训练样本组包括第一训练样本和第二训练样本,对应的,语句文本包括第一训练样本对应的第一语句文本和第二训练样本对应的第二语句文本,样本标签包括第一训练样本对应的第一样本标签和第二训练样本对应的第二样本标签。
在分别对第一语句文本和第二语句文本进行处理后,得到第一样本句向量(记为E1)和第二样本句向量(记为E2),将权重系数α、第一样本句向量E1和第二样本句向量E2代入第一预设公式,计算得到混合句向量(记为
Figure 1
)。
其中,第一预设公式如下:
Figure BDA0002434321560000081
其中,
Figure BDA0002434321560000082
表示第i个训练样本组所对应的混合句向量,Ei1表示第i个训练样本组中的第一训练样本所对应的第一样本句向量,Ei2表示第i个训练样本组中的第二训练样本所对应的第二样本句向量。
然后,根据预设标签排序表将样本标签转换成对应的样本标签向量,其中,预设标签排序表即为不同样本标签的排序表,例如,若预设标签排序表为按标签1-n的顺序排序,当样本标签为标签2时,对应的样本标签向量为(0, 1,0,……,0);当样本标签为标签1时,对应的样本标签向量为(1,0,0,……, 0),即,将样本标签所对应的那一位设置为1,其他位设置为0,得到样本标签向量。可以理解,在具体实施例,训练样本的标签可以为标签向量的形式,此时则无需进行转换。
为便于说明,将第一样本标签对应的第一样本标签向量记为Y1,将第二样本标签对应的第二样本标签向量记为Y2,将权重系数α、第一样本标签向量Y1和第一样本标签向量Y2代入第二预设公式,计算得到混合句向量(记为
Figure 2
)。
其中,第二预设公式如下:
Figure BDA0002434321560000091
其中,
Figure BDA0002434321560000092
表示第i个训练样本组所对应的混合标签向量,Ei1表示第i个训练样本组中的第一训练样本所对应的第一样本标签向量,Ei2表示第i个训练样本组中的第二训练样本所对应的第二样本标签向量。
最后,根据混合句向量和混合标签向量,构建得到扩充训练样本。即,
Figure BDA0002434321560000093
其中,n表示训练样本组的数量。
本发明实施例提供一种样本扩充方法,通过从初始训练样本集中抽取训练样本组,训练样本组包括语句文本和样本标签;对语句文本进行处理,得到对应的样本句向量;获取权重系数,基于权重系数对样本句向量和样本标签进行混合,并根据混合结果构建扩充训练样本。本实施例中通过对语句文本对应的样本句向量和样本标签进行混合,进而构建得到扩充训练样本,可实现训练样本的扩充,有利于提升后续模型训练效果。同时,由于扩充训练样本是由多个语句文本的样本句向量和样本标签基于权重系数随机混合得到的,因此,扩充训练样本所对应的语句文本是不规整的,后续基于该扩充训练样本和语句规整的初始训练样本集对模型进行训练时,相比于仅基于语句规整的初始训练样本集训练模型,引入了“噪音”,从而能防止模型训练过拟合。
进一步的,基于上述第一实施例,提出本发明样本扩充方法的第二实施例。
在本实施例中,所述初始训练样本集包括真实标签样本集和伪标签样本集,上述步骤S10包括:
步骤d1,从所述真实标签样本集中抽取第一训练样本,并从所述伪标签样本集中抽取第二训练样本;
步骤d2,根据所述第一训练样本和所述第二训练样本构建得到训练样本组,所述训练样本组包括所述第一训练样本和所述第二训练样本的语句文本和样本标签。
在本实施例中,由于模型训练时通常需要大量的样本数据,也就需要对大量的语句文本进行标签标注,而进行标签标注往往需要耗费大量的人力和物力,因此,为节省成本、提高标签标注效率,可以基于半监督机器学习技术Pseudo-Labelling(伪标签)对无标签样本自动进行标签标注,从而得到伪标签样本集。即用带标签的训练样本集训练得到的标签预测模型,去对不带标签的语句文本进行预测,得到预测标签,进而基于不带标签的语句文本和预测标签构建得到伪标签样本集。因此,初始训练样本集可以包括真实标签样本集和伪标签样本集。
然而,由于通过标签预测模型自动标注标签时,其标签标注结果往往存在预测误差,基于该部分标注得到的伪标签样本进行样本扩充、加入到训练集中时,容易使得训练误差累积,使得训练效果变差。因此,本实施例中在抽取训练样本组时,将真实标签样本集中的训练样本与伪标签样本集中的训练样本相组合,进而进行混合,得到扩充训练样本,通过上述混合方式,可以降低无标签样本预测错误对训练结果的影响。
具体的,在抽取训练样本组时,可以先从真实标签样本集中随机抽取第一训练样本,并从伪标签样本集中随机抽取第二训练样本,根据第一训练样本和第二训练样本构建得到训练样本组,也就是说,每一个训练样本组合由一个真实标签样本和一个伪标签样本构成。对应的,训练样本组包括第一训练样本和第二训练样本的语句文本和样本标签,将第一训练样本的语句文本和样本标签分为记为第一语句文本和第一样本标签,将第二训练样本的语句文本和样本标签分为记为第二语句文本和第二样本标签。
然后,对第一语句文本进行处理,得到对应的第一样本句向量;同时,对对第二语句文本进行处理,得到对应的第二样本句向量。进而获取权重系数,将权重系数、第一样本句向量和第二样本句向量代入第一预设公式中,得到混合句向量,进而将权重系数、第一样本标签对应的第一样本标签向量和第二样本标签对应的第二样本标签向量代入第二预设公式中,得到混合标签向量,进而根据混合句向量和混合标签向量,构建得到扩充训练样本。具体的执行过程可参照上述第一实施例,此次不作赘述。
进一步地,在上述步骤S10之前,所述样本扩充方法还包括:
步骤A,基于所述真实标签样本集训练得到标签预测模型;
步骤B,获取无标签样本,将所述无标签样本输入至所述标签预测模型,得到预测标签;
步骤C,根据所述预测标签和所述无标签样本构建得到所述伪标签样本集。
本实施例中,伪标签样本集的构建过程如下:
先基于真实标签样本集训练得到标签预测模型,即,将真实标签样本集作为标签预测模型的输入数据,训练得到标签预测模型。其中,真实标签样本集包括原始语句文本和人工标注的真实标签,该标签预测模型用于对无标签的样本数据进行自动的标签标注,标签预测模型的类型可以为逻辑回归模型、神经网络模型、SVM(Support Vector Machine,支持向量机)模型和CNN (Convolutional Neural Networks,卷积神经网络)模型等多分类模型。具体的训练过程可参照现有技术。
然后,获取无标签样本,无标签样本即为未进行标签标注的无标签语句文本,进而将无标签样本输入至标签预测模型,得到预测标签。可以理解的是,在将无标签样本输入至标签预测模型时,可先对无标签样本进行处理,例如将无标签样本转换成对应的句向量,再将转换得到的句向量输入至标签预测模型,得到预测标签。最后,根据预测标签和无标签样本构建得到伪标签样本集。
本实施例中,通过训练标签预测模型,进而基于标签预测模型实现对无标签样本进行自动标签标注,从而可节省成本,提高标签标注效率。
进一步的,基于上述各实施例,提出本发明样本扩充方法的第三实施例。
在本实施例中,在步骤S30之后,所述样本扩充方法还包括:
步骤D,根据所述扩充训练样本和所述初始训练样本集,构建得到目标训练样本集;
在本实施例中,在构建得到扩充训练样本之后,可以根据扩充训练样本和初始训练样本集,构建得到目标训练样本集。具体的,可以基于上述处理过程,获取到初始训练样本集中的各语句文本对应的样本句向量,并获取各样本标签对应的样本标签向量,然后基于样本句向量和样本标签向量构建得到初始训练样本,初始训练样本和扩充训练样本即可构成得到目标训练样本集。
步骤E,通过所述目标训练样本集对预设意图识别模型进行训练,得到训练好的意图识别模型。
然后,通过目标训练样本集对预设意图识别模型进行训练,得到训练好的意图识别模型,该意图识别模型用于识别用户语句中的意图,该意图识别模型可以为BERT(Bidirectional Encoder Representation from Transformers,转换器的双向编码器)神经网络模型。
本实施例中基于扩充得到的扩充训练样本和初始训练样本集构建得到的目标训练样本集,作为意图识别模型的输入数据,训练得到意图识别模型,以用于识别用户语句中的意图。
本发明还提供一种样本扩充装置。
参照图3,图3为本发明样本扩充装置第一实施例的功能模块示意图。
如图3所示,所述样本扩充装置包括:
抽样模块10,用于从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签;
处理模块20,用于对所述语句文本进行处理,得到对应的样本句向量;
混合模块30,用于获取权重系数,基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本。
进一步地,所述初始训练样本集包括真实标签样本集和伪标签样本集,所述抽样模块10包括:
抽样单元,用于从所述真实标签样本集中抽取第一训练样本,并从所述伪标签样本集中抽取第二训练样本;
第一构建单元,用于根据所述第一训练样本和所述第二训练样本构建得到训练样本组,所述训练样本组包括所述第一训练样本和所述第二训练样本的语句文本和样本标签。
进一步地,所述样本扩充装置还包括:
第一训练模块,用于基于所述真实标签样本集训练得到标签预测模型;
样本输入模块,用于获取无标签样本,将所述无标签样本输入至所述标签预测模型,得到预测标签;
第一构建模块,用于根据所述预测标签和所述无标签样本构建得到所述伪标签样本集。
进一步地,所述处理模块20包括:
查询单元,用于从预设词表中查询得到所述语句文本中各文字对应的位置数字;
第一生成单元,用于基于所述位置数字生成所述语句文本对应的位置向量;
第一计算单元,用于获取目标矩阵,并计算所述目标矩阵与所述位置向量的乘积,得到所述语句文本对应的样本句向量。
进一步地,所述混合模块30包括:
确定单元,用于根据预设形状参数确定目标贝塔分布;
第二生成单元,用于生成符合所述目标贝塔分布的一随机数,并将所述随机数作为权重系数。
进一步地,所述混合模块30包括:
第二计算单元,用于将所述权重系数和所述样本句向量代入第一预设公式,计算得到混合句向量;
第三计算单元,用于根据预设标签排序表将所述样本标签转换成对应的样本标签向量,并将所述权重系数和所述样本标签向量代入第二预设公式,计算得到混合标签向量;
第二构建单元,用于根据所述混合句向量和所述混合标签向量,构建得到扩充训练样本。
进一步地,所述样本扩充装置还包括:
第二构建模块,用于根据所述扩充训练样本和所述初始训练样本集,构建得到目标训练样本集;
第二训练模块,用于通过所述目标训练样本集对预设意图识别模型进行训练,得到训练好的意图识别模型。
其中,上述样本扩充装置中各个模块的功能实现与上述样本扩充方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有样本扩充程序,所述样本扩充程序被处理器执行时实现如以上任一项实施例所述的样本扩充方法的步骤。
本发明计算机可读存储介质的具体实施例与上述样本扩充方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

Claims (10)

1.一种样本扩充方法,其特征在于,所述样本扩充方法包括:
从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签;
对所述语句文本进行处理,得到对应的样本句向量;
获取权重系数,基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本。
2.如权利要求1所述的样本扩充方法,其特征在于,所述初始训练样本集包括真实标签样本集和伪标签样本集,所述从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签的步骤包括:
从所述真实标签样本集中抽取第一训练样本,并从所述伪标签样本集中抽取第二训练样本;
根据所述第一训练样本和所述第二训练样本构建得到训练样本组,所述训练样本组包括所述第一训练样本和所述第二训练样本的语句文本和样本标签。
3.如权利要求2所述的样本扩充方法,其特征在于,所述样本扩充方法还包括:
基于所述真实标签样本集训练得到标签预测模型;
获取无标签样本,将所述无标签样本输入至所述标签预测模型,得到预测标签;
根据所述预测标签和所述无标签样本构建得到所述伪标签样本集。
4.如权利要求1所述的样本扩充方法,其特征在于,所述对所述语句文本进行处理,得到对应的样本句向量的步骤包括:
从预设词表中查询得到所述语句文本中各文字对应的位置数字;
基于所述位置数字生成所述语句文本对应的位置向量;
获取目标矩阵,并计算所述目标矩阵与所述位置向量的乘积,得到所述语句文本对应的样本句向量。
5.如权利要求1所述的样本扩充方法,其特征在于,所述获取权重系数的步骤包括:
根据预设形状参数确定目标贝塔分布;
生成符合所述目标贝塔分布的一随机数,并将所述随机数作为权重系数。
6.如权利要求1所述的样本扩充方法,其特征在于,所述基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本的步骤包括:
将所述权重系数和所述样本句向量代入第一预设公式,计算得到混合句向量;
根据预设标签排序表将所述样本标签转换成对应的样本标签向量,并将所述权重系数和所述样本标签向量代入第二预设公式,计算得到混合标签向量;
根据所述混合句向量和所述混合标签向量,构建得到扩充训练样本。
7.如权利要求1至6中任一项所述的样本扩充方法,其特征在于,所述样本扩充方法还包括:
根据所述扩充训练样本和所述初始训练样本集,构建得到目标训练样本集;
通过所述目标训练样本集对预设意图识别模型进行训练,得到训练好的意图识别模型。
8.一种样本扩充装置,其特征在于,所述样本扩充装置包括:
抽样模块,用于从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签;
处理模块,用于对所述语句文本进行处理,得到对应的样本句向量;
混合模块,用于获取权重系数,基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本。
9.一种样本扩充设备,其特征在于,所述样本扩充设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本扩充程序,所述样本扩充程序被所述处理器执行时实现如权利要求1至7中任一项所述的样本扩充方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有样本扩充程序,所述样本扩充程序被处理器执行时实现如权利要求1至7中任一项所述的样本扩充方法的步骤。
CN202010249085.2A 2020-03-31 样本扩充方法、装置、设备及计算机可读存储介质 Active CN111460156B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010249085.2A CN111460156B (zh) 2020-03-31 样本扩充方法、装置、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010249085.2A CN111460156B (zh) 2020-03-31 样本扩充方法、装置、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN111460156A true CN111460156A (zh) 2020-07-28
CN111460156B CN111460156B (zh) 2024-05-14

Family

ID=

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784911A (zh) * 2021-01-29 2021-05-11 北京百度网讯科技有限公司 训练样本的生成方法、装置、电子设备和存储介质
WO2023213270A1 (zh) * 2022-05-06 2023-11-09 维沃移动通信有限公司 模型训练处理方法、装置、终端及网络侧设备

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107943856A (zh) * 2017-11-07 2018-04-20 南京邮电大学 一种基于扩充标记样本的文本分类方法及系统
US20180336457A1 (en) * 2017-05-17 2018-11-22 Facebook, Inc. Semi-Supervised Learning via Deep Label Propagation
CN109657697A (zh) * 2018-11-16 2019-04-19 中山大学 基于半监督学习和细粒度特征学习的分类优化方法
WO2019075771A1 (en) * 2017-10-20 2019-04-25 Huawei Technologies Co., Ltd. SEMI-SUPERVISED APPRENTICESHIP SELF-LEARNING METHOD AND SYSTEM USING GENERATIVE ANTAGONIST NETWORKS
CN110728295A (zh) * 2019-09-02 2020-01-24 深圳中科保泰科技有限公司 半监督式的地貌分类模型训练和地貌图构建方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180336457A1 (en) * 2017-05-17 2018-11-22 Facebook, Inc. Semi-Supervised Learning via Deep Label Propagation
WO2019075771A1 (en) * 2017-10-20 2019-04-25 Huawei Technologies Co., Ltd. SEMI-SUPERVISED APPRENTICESHIP SELF-LEARNING METHOD AND SYSTEM USING GENERATIVE ANTAGONIST NETWORKS
CN107943856A (zh) * 2017-11-07 2018-04-20 南京邮电大学 一种基于扩充标记样本的文本分类方法及系统
CN109657697A (zh) * 2018-11-16 2019-04-19 中山大学 基于半监督学习和细粒度特征学习的分类优化方法
CN110728295A (zh) * 2019-09-02 2020-01-24 深圳中科保泰科技有限公司 半监督式的地貌分类模型训练和地貌图构建方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
WENRONG ZENG ET AL: "Pseudo labels for imbalanced multi-label learning", 《2014 INTERNATIONAL CONFERENCE ON DATA SCIENCE AND ADVANCED ANALYTICS(DSAA)》, pages 1 - 17 *
余游 等: "一种基于伪标签的半监督少样本学习模型", 《电子学报》, vol. 47, no. 11, pages 2284 - 2291 *

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112784911A (zh) * 2021-01-29 2021-05-11 北京百度网讯科技有限公司 训练样本的生成方法、装置、电子设备和存储介质
CN112784911B (zh) * 2021-01-29 2024-01-19 北京百度网讯科技有限公司 训练样本的生成方法、装置、电子设备和存储介质
WO2023213270A1 (zh) * 2022-05-06 2023-11-09 维沃移动通信有限公司 模型训练处理方法、装置、终端及网络侧设备

Similar Documents

Publication Publication Date Title
CN108628971B (zh) 不均衡数据集的文本分类方法、文本分类器及存储介质
CN109522557B (zh) 文本关系抽取模型的训练方法、装置及可读存储介质
CN109284399B (zh) 相似度预测模型训练方法、设备及计算机可读存储介质
KR102316063B1 (ko) 오디오 중의 키 프레이즈를 인식하기 위한 방법과 장치, 기기 및 매체
JP2022534377A (ja) テキスト分類方法、装置及びコンピュータ読み取り可能な記憶媒体
CN108717853B (zh) 一种人机语音交互方法、装置及存储介质
CN112036168B (zh) 事件主体识别模型优化方法、装置、设备及可读存储介质
CN105657129A (zh) 通话信息获取方法和装置
CN110807314A (zh) 文本情感分析模型训练方法、装置、设备及可读存储介质
CN108776677B (zh) 平行语句库的创建方法、设备及计算机可读存储介质
CN112084334A (zh) 语料的标签分类方法、装置、计算机设备及存储介质
CN114757176A (zh) 一种获取目标意图识别模型的方法以及意图识别方法
CN111753522A (zh) 事件抽取方法、装置、设备以及计算机可读存储介质
CN111930792A (zh) 数据资源的标注方法、装置、存储介质及电子设备
CN111737464A (zh) 文本分类方法、装置和电子设备
CN112084769A (zh) 依存句法模型优化方法、装置、设备及可读存储介质
CN115357699A (zh) 文本抽取方法、装置、设备及存储介质
CN114722198A (zh) 产品分类编码确定方法、系统及相关装置
CN116644183B (zh) 文本分类方法、装置及存储介质
CN111460156A (zh) 样本扩充方法、装置、设备及计算机可读存储介质
CN111460156B (zh) 样本扩充方法、装置、设备及计算机可读存储介质
CN112101003B (zh) 语句文本的切分方法、装置、设备和计算机可读存储介质
CN113268588A (zh) 文本摘要提取方法、装置、设备、存储介质及程序产品
CN114491010A (zh) 信息抽取模型的训练方法及装置
CN112364601B (zh) 基于TF-IDF算法和TextRank算法的智能阅卷方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant