CN111460156B - 样本扩充方法、装置、设备及计算机可读存储介质 - Google Patents
样本扩充方法、装置、设备及计算机可读存储介质 Download PDFInfo
- Publication number
- CN111460156B CN111460156B CN202010249085.2A CN202010249085A CN111460156B CN 111460156 B CN111460156 B CN 111460156B CN 202010249085 A CN202010249085 A CN 202010249085A CN 111460156 B CN111460156 B CN 111460156B
- Authority
- CN
- China
- Prior art keywords
- sample
- label
- sentence
- training
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 56
- 238000012549 training Methods 0.000 claims abstract description 251
- 239000013598 vector Substances 0.000 claims abstract description 129
- 238000012545 processing Methods 0.000 claims abstract description 23
- 239000011159 matrix material Substances 0.000 claims description 11
- 238000004364 calculation method Methods 0.000 claims description 6
- 238000005070 sampling Methods 0.000 claims description 6
- 238000010276 construction Methods 0.000 claims description 5
- 230000003416 augmentation Effects 0.000 claims 1
- 238000005516 engineering process Methods 0.000 abstract description 10
- 230000000694 effects Effects 0.000 abstract description 7
- 230000009286 beneficial effect Effects 0.000 abstract 1
- 238000002372 labelling Methods 0.000 description 10
- 238000004891 communication Methods 0.000 description 5
- 238000010586 diagram Methods 0.000 description 4
- 238000013527 convolutional neural network Methods 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 238000003062 neural network model Methods 0.000 description 3
- 230000002457 bidirectional effect Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 239000000463 material Substances 0.000 description 2
- 238000012706 support-vector machine Methods 0.000 description 2
- 238000006243 chemical reaction Methods 0.000 description 1
- 238000013145 classification model Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/355—Class or cluster creation or modification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Mathematical Physics (AREA)
- Databases & Information Systems (AREA)
- Artificial Intelligence (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- Machine Translation (AREA)
Abstract
本发明公开了一种样本扩充方法、装置、设备及计算机可读存储介质,涉及金融科技技术领域。该样本扩充方法包括:从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签;对所述语句文本进行处理,得到对应的样本句向量;获取权重系数,基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本。本发明能够实现训练样本的扩充,可有利于提升模型训练效果。
Description
技术领域
本发明涉及金融科技(Fintech)的数据处理技术领域,尤其涉及一种样本扩充方法、装置、设备及计算机可读存储介质。
背景技术
随着计算机技术的发展,越来越多的技术应用在金融领域,传统金融业正在逐步向金融科技(Fintech)转变,但由于金融行业的安全性、实时性要求,也对技术提出了更高的要求。
在人机对话领域,意图识别是最为核心的技术之一,对于自然语义的理解是人机对话能够实现的前提之一。意图识别,即从用户的提问中提取出意图,目前主要是利用意图识别模型对用户提问进行意图识别,如BERT (Bidirectional Encoder Representationfrom Transformers,转换器的双向编码器)神经网络模型等。意图识别模型的识别效果依赖于大量带标签的样本数据,当带标签的样本数据不足时难以产生好的识别效果。因此,如何对样本数据进行扩充是目前亟需解决的问题。
发明内容
本发明的主要目的在于提供一种样本扩充方法、装置、设备及计算机可读存储介质,旨在实现训练样本的扩充,以提升模型训练效果。
为实现上述目的,本发明提供一种样本扩充方法,所述样本扩充方法包括:
从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签;
对所述语句文本进行处理,得到对应的样本句向量;
获取权重系数,基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本。
可选地,所述初始训练样本集包括真实标签样本集和伪标签样本集,所述从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签的步骤包括:
从所述真实标签样本集中抽取第一训练样本,并从所述伪标签样本集中抽取第二训练样本;
根据所述第一训练样本和所述第二训练样本构建得到训练样本组,所述训练样本组包括所述第一训练样本和所述第二训练样本的语句文本和样本标签。
可选地,所述样本扩充方法还包括:
基于所述真实标签样本集训练得到标签预测模型;
获取无标签样本,将所述无标签样本输入至所述标签预测模型,得到预测标签;
根据所述预测标签和所述无标签样本构建得到所述伪标签样本集。
可选地,所述对所述语句文本进行处理,得到对应的样本句向量的步骤包括:
从预设词表中查询得到所述语句文本中各文字对应的位置数字;
基于所述位置数字生成所述语句文本对应的位置向量;
获取目标矩阵,并计算所述目标矩阵与所述位置向量的乘积,得到所述语句文本对应的样本句向量。
可选地,所述获取权重系数的步骤包括:
根据预设形状参数确定目标贝塔分布;
生成符合所述目标贝塔分布的一随机数,并将所述随机数作为权重系数。
可选地,所述基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本的步骤包括:
将所述权重系数和所述样本句向量代入第一预设公式,计算得到混合句向量;
根据预设标签排序表将所述样本标签转换成对应的样本标签向量,并将所述权重系数和所述样本标签向量代入第二预设公式,计算得到混合标签向量;
根据所述混合句向量和所述混合标签向量,构建得到扩充训练样本。
可选地,所述样本扩充方法还包括:
根据所述扩充训练样本和所述初始训练样本集,构建得到目标训练样本集;
通过所述目标训练样本集对预设意图识别模型进行训练,得到训练好的意图识别模型。
此外,为实现上述目的,本发明还提供一种样本扩充装置,所述样本扩充装置包括:
抽样模块,用于从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签;
处理模块,用于对所述语句文本进行处理,得到对应的样本句向量;
混合模块,用于获取权重系数,基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本。
此外,为实现上述目的,本发明还提供一种样本扩充设备,所述样本扩充设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本扩充程序,所述样本扩充程序被所述处理器执行时实现如上所述的样本扩充方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有样本扩充程序,所述样本扩充程序被处理器执行时实现如上所述的样本扩充方法的步骤。
本发明提供一种样本扩充方法、装置、设备及计算机可读存储介质,通过从初始训练样本集中抽取训练样本组,训练样本组包括语句文本和样本标签;对语句文本进行处理,得到对应的样本句向量;获取权重系数,基于权重系数对样本句向量和样本标签进行混合,并根据混合结果构建扩充训练样本。本发明中通过对语句文本对应的样本句向量和样本标签进行混合,进而构建得到扩充训练样本,可实现训练样本的扩充,有利于提升后续模型训练效果。同时,由于扩充训练样本是由多个语句文本的样本句向量和样本标签基于权重系数随机混合得到的,因此,扩充训练样本所对应的语句文本是不规整的,后续基于该扩充训练样本和语句规整的初始训练样本集对模型进行训练时,相比于仅基于语句规整的初始训练样本集训练模型,引入了“噪音”,从而能防止模型训练过拟合。
附图说明
图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图;
图2为本发明样本扩充方法第一实施例的流程示意图;
图3为本发明样本扩充装置第一实施例的功能模块示意图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
参照图1,图1为本发明实施例方案涉及的硬件运行环境的设备结构示意图。
本发明实施例样本扩充设备可以是PC(Personal Computer,个人计算机),也可以是服务器、平板电脑、便携计算机等终端设备。
如图1所示,该样本扩充设备可以包括:处理器1001,例如CPU,通信总线1002,用户接口1003,网络接口1004,存储器1005。其中,通信总线 1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏 (Display)、输入单元比如键盘(Keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如Wi-Fi接口)。存储器1005可以是高速RAM存储器,也可以是稳定的存储器(non-volatile memory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的样本扩充设备结构并不构成对样本扩充设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块以及样本扩充程序。
在图1所示的终端中,网络接口1004主要用于连接后台服务器,与后台服务器进行数据通信;用户接口1003主要用于连接客户端,与客户端进行数据通信;而处理器1001可以用于调用存储器1005中存储的样本扩充程序,并执行以下样本扩充方法的各个步骤。
基于上述硬件结构,提出本发明样本扩充方法的各实施例。
本发明提供一种样本扩充方法。
参照图2,图2为本发明样本扩充方法第一实施例的流程示意图。
在本实施例中,该样本扩充方法包括:
步骤S10,从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签;
本实施例的样本扩充方法是由样本扩充设备实现的,该设备以服务器为例进行说明。
在本实施例中,先从初始训练样本集中抽取训练样本组,训练样本组包括语句文本和样本标签。其中,训练样本组由至少2个训练样本构成,本实施例中以训练样本组包括2个训练样本为例进行说明,训练样本组可以包括一组或多组;语句文本即为原始语料对应的文本,样本标签为意图标签。
初始训练样本集可以仅包括真实标签样本集,即由语句文本和真实标注标签(人为标注得到的)构成。在具体实施时,由于模型训练时通常需要大量的样本数据,也就需要对大量的语句文本进行标签标注,而进行标签标注往往需要耗费大量的人力和物力,因此,为节省成本、提高标签标注效率,可以基于半监督机器学习技术Pseudo-Labelling(伪标签)对无标签样本自动进行标签标注,从而得到伪标签样本集。即用带标签的训练样本集训练得到的标签预测模型,去对不带标签的语句文本进行预测,得到预测标签,进而基于不带标签的语句文本和预测标签构建得到伪标签样本集。也就是说,初始训练样本集还可以包括真实标签样本集和伪标签样本集。
若初始训练样本集仅包括真实标签样本集,在抽样时,可以每次从真实标签样本集中随机抽取两个训练样本,组成训练样本组;或者将真实标签样本集中的训练样本进行两两组合,得到训练样本组。
若初始训练样本集包括真实标签样本集和伪标签样本集,可以先从真实标签样本集中随机抽取第一训练样本,并从伪标签样本集中随机抽取第二训练样本,根据第一训练样本和第二训练样本构建得到训练样本组,也就是说,每一个训练样本组合由一个真实标签样本和一个伪标签样本构成。对应的,训练样本组包括第一训练样本和第二训练样本的语句文本和样本标签,为便于后续说明,将第一训练样本的语句文本和样本标签分为记为第一语句文本和第一样本标签,将第二训练样本的语句文本和样本标签分为记为第二语句文本和第二样本标签。当然,可以理解的是,若初始训练样本集包括真实标签样本集和伪标签样本集,也可以直接将真实标签样本集和伪标签样本集混合作为一个初始训练样本集,然后直接从该从初始训练样本集中随机抽取两个训练样本,组成训练样本组;或者将初始训练样本集中的训练样本进行两两组合,得到训练样本组。但是相比而言,将真实标签样本集中的训练样本与伪标签样本集中的训练样本相组合,进而进行混合得到扩充训练样本,可以降低无标签样本预测错误对训练结果的影响。
步骤S20,对所述语句文本进行处理,得到对应的样本句向量;
然后,对语句文本进行向量化处理,得到对应的样本句向量。即,将语句文本处理成句向量的形式。具体的,步骤S20包括:
步骤a1,从预设词表中查询得到所述语句文本中各文字对应的位置数字;
步骤a2,基于所述位置数字生成所述语句文本对应的位置向量;
步骤a3,获取目标矩阵,并计算所述目标矩阵与所述位置向量的乘积,得到所述语句文本对应的样本句向量。
本实施例中,可根据word embedding(词嵌入)方法对语句文本进行向量化处理,其处理过程具体如下:
先从预设词表中查询得到语句文本中各文字对应的位置数字,其中,预设词表中包括不同文字及其对应的位置数字;然后,基于位置数字生成语句文本对应的位置向量。例如,某一语句文本为“年龄多大”,“年”、“龄”、“多”、“大”所对应的位置数字为1、2、3、4,则可以生成对应的位置向量为(1,2,3,4)。
在获取到语句文本对应的位置向量之后,获取目标矩阵,并计算目标矩阵与位置向量的乘积,得到语句文本对应的样本句向量。其中,目标矩阵可以是预先设定的,也可以是在训练意图识别模型的过程中的实时训练更新得到的。可以理解,当训练样本组包括第一训练样本和第二训练样本时,对应的,语句文本包括第一训练样本对应的第一语句文本和第二训练样本对应的第二语句文本,此时可处理得到第一样本句向量和第二样本句向量。
步骤S30,获取权重系数,基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本。
在处理得到语句文本对应的样本句向量之后,获取权重系数,进而基于权重系数对样本句向量和样本标签进行混合,并根据混合结果构建扩充训练样本。
作为权重系数的其中一种获取方式,可以直接生成一个在(0,1)范围内的随机数,作为权重系统,此种方式更适用于初始训练样本集仅包括真实标签样本集的情况。
作为权重系数的另一种获取方式,步骤“获取权重系数”包括:
步骤b1,根据预设形状参数确定目标贝塔分布;
步骤b2,生成符合所述目标贝塔分布的一随机数,并将所述随机数作为权重系数。
本实施例中,可以先根据预设形状参数确定目标贝塔分布,其中,预设形状参数可以两个数值,即为k1、k2,其中1<k1<k2,可确定得到目标贝塔 (Beta)分布Beta(k1,k2)。可选地,k1=2、k2=7。Beta分布是一个定义在(0,1) 区间上的连续概率分布。然后,生成符合所述目标贝塔分布的一随机数,记为α,α~Beta(2,7),并将随机数α作为权重系数。具体的,可以使用Matlab 中的随机数生成函数betarnd(k1,k2),即可生成服从目标Beta分布的随机数,即(0,1)区间上的随机数。
此种权重系数的获取方式更适用于初始训练样本集包括真实标签样本集和伪标签样本集的情况,通过生成符合目标贝塔分布的一随机数,并将随机数作为权重系数,可使得从真实标签样本集中抽取的第一语句文本所对应的第一样本句向量的权重更大,而从伪标签样本集中抽取的第二语句文本所对应的第二样本句向量的权重相对较小,通过此种方式计算得到混合句向量,进而构建扩充训练样本,可使得在基于扩充训练样本训练意图识别模型时,进一步降低伪标签样本对意图识别模型的训练结果的影响。
进一步地,步骤“基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本”包括:
步骤c1,将所述权重系数和所述样本句向量代入第一预设公式,计算得到混合句向量;
步骤c2,根据预设标签排序表将所述样本标签转换成对应的样本标签向量,并将所述权重系数和所述样本标签向量代入第二预设公式,计算得到混合标签向量;
步骤c3,根据所述混合句向量和所述混合标签向量,构建得到扩充训练样本。
在处理得到样本句向量之后,由于每个训练样本组包括第一训练样本和第二训练样本,对应的,语句文本包括第一训练样本对应的第一语句文本和第二训练样本对应的第二语句文本,样本标签包括第一训练样本对应的第一样本标签和第二训练样本对应的第二样本标签。
在分别对第一语句文本和第二语句文本进行处理后,得到第一样本句向量(记为E1)和第二样本句向量(记为E2),将权重系数α、第一样本句向量E1和第二样本句向量E2代入第一预设公式,计算得到混合句向量(记为)。
其中,第一预设公式如下:
其中,表示第i个训练样本组所对应的混合句向量,Ei1表示第i个训练样本组中的第一训练样本所对应的第一样本句向量,Ei2表示第i个训练样本组中的第二训练样本所对应的第二样本句向量。
然后,根据预设标签排序表将样本标签转换成对应的样本标签向量,其中,预设标签排序表即为不同样本标签的排序表,例如,若预设标签排序表为按标签1-n的顺序排序,当样本标签为标签2时,对应的样本标签向量为(0, 1,0,……,0);当样本标签为标签1时,对应的样本标签向量为(1,0,0,……, 0),即,将样本标签所对应的那一位设置为1,其他位设置为0,得到样本标签向量。可以理解,在具体实施例,训练样本的标签可以为标签向量的形式,此时则无需进行转换。
为便于说明,将第一样本标签对应的第一样本标签向量记为Y1,将第二样本标签对应的第二样本标签向量记为Y2,将权重系数α、第一样本标签向量Y1和第一样本标签向量Y2代入第二预设公式,计算得到混合句向量(记为)。
其中,第二预设公式如下:
其中,表示第i个训练样本组所对应的混合标签向量,Ei1表示第i个训练样本组中的第一训练样本所对应的第一样本标签向量,Ei2表示第i个训练样本组中的第二训练样本所对应的第二样本标签向量。
最后,根据混合句向量和混合标签向量,构建得到扩充训练样本。即,其中,n表示训练样本组的数量。
本发明实施例提供一种样本扩充方法,通过从初始训练样本集中抽取训练样本组,训练样本组包括语句文本和样本标签;对语句文本进行处理,得到对应的样本句向量;获取权重系数,基于权重系数对样本句向量和样本标签进行混合,并根据混合结果构建扩充训练样本。本实施例中通过对语句文本对应的样本句向量和样本标签进行混合,进而构建得到扩充训练样本,可实现训练样本的扩充,有利于提升后续模型训练效果。同时,由于扩充训练样本是由多个语句文本的样本句向量和样本标签基于权重系数随机混合得到的,因此,扩充训练样本所对应的语句文本是不规整的,后续基于该扩充训练样本和语句规整的初始训练样本集对模型进行训练时,相比于仅基于语句规整的初始训练样本集训练模型,引入了“噪音”,从而能防止模型训练过拟合。
进一步的,基于上述第一实施例,提出本发明样本扩充方法的第二实施例。
在本实施例中,所述初始训练样本集包括真实标签样本集和伪标签样本集,上述步骤S10包括:
步骤d1,从所述真实标签样本集中抽取第一训练样本,并从所述伪标签样本集中抽取第二训练样本;
步骤d2,根据所述第一训练样本和所述第二训练样本构建得到训练样本组,所述训练样本组包括所述第一训练样本和所述第二训练样本的语句文本和样本标签。
在本实施例中,由于模型训练时通常需要大量的样本数据,也就需要对大量的语句文本进行标签标注,而进行标签标注往往需要耗费大量的人力和物力,因此,为节省成本、提高标签标注效率,可以基于半监督机器学习技术Pseudo-Labelling(伪标签)对无标签样本自动进行标签标注,从而得到伪标签样本集。即用带标签的训练样本集训练得到的标签预测模型,去对不带标签的语句文本进行预测,得到预测标签,进而基于不带标签的语句文本和预测标签构建得到伪标签样本集。因此,初始训练样本集可以包括真实标签样本集和伪标签样本集。
然而,由于通过标签预测模型自动标注标签时,其标签标注结果往往存在预测误差,基于该部分标注得到的伪标签样本进行样本扩充、加入到训练集中时,容易使得训练误差累积,使得训练效果变差。因此,本实施例中在抽取训练样本组时,将真实标签样本集中的训练样本与伪标签样本集中的训练样本相组合,进而进行混合,得到扩充训练样本,通过上述混合方式,可以降低无标签样本预测错误对训练结果的影响。
具体的,在抽取训练样本组时,可以先从真实标签样本集中随机抽取第一训练样本,并从伪标签样本集中随机抽取第二训练样本,根据第一训练样本和第二训练样本构建得到训练样本组,也就是说,每一个训练样本组合由一个真实标签样本和一个伪标签样本构成。对应的,训练样本组包括第一训练样本和第二训练样本的语句文本和样本标签,将第一训练样本的语句文本和样本标签分为记为第一语句文本和第一样本标签,将第二训练样本的语句文本和样本标签分为记为第二语句文本和第二样本标签。
然后,对第一语句文本进行处理,得到对应的第一样本句向量;同时,对对第二语句文本进行处理,得到对应的第二样本句向量。进而获取权重系数,将权重系数、第一样本句向量和第二样本句向量代入第一预设公式中,得到混合句向量,进而将权重系数、第一样本标签对应的第一样本标签向量和第二样本标签对应的第二样本标签向量代入第二预设公式中,得到混合标签向量,进而根据混合句向量和混合标签向量,构建得到扩充训练样本。具体的执行过程可参照上述第一实施例,此次不作赘述。
进一步地,在上述步骤S10之前,所述样本扩充方法还包括:
步骤A,基于所述真实标签样本集训练得到标签预测模型;
步骤B,获取无标签样本,将所述无标签样本输入至所述标签预测模型,得到预测标签;
步骤C,根据所述预测标签和所述无标签样本构建得到所述伪标签样本集。
本实施例中,伪标签样本集的构建过程如下:
先基于真实标签样本集训练得到标签预测模型,即,将真实标签样本集作为标签预测模型的输入数据,训练得到标签预测模型。其中,真实标签样本集包括原始语句文本和人工标注的真实标签,该标签预测模型用于对无标签的样本数据进行自动的标签标注,标签预测模型的类型可以为逻辑回归模型、神经网络模型、SVM(Support Vector Machine,支持向量机)模型和CNN (Convolutional Neural Networks,卷积神经网络)模型等多分类模型。具体的训练过程可参照现有技术。
然后,获取无标签样本,无标签样本即为未进行标签标注的无标签语句文本,进而将无标签样本输入至标签预测模型,得到预测标签。可以理解的是,在将无标签样本输入至标签预测模型时,可先对无标签样本进行处理,例如将无标签样本转换成对应的句向量,再将转换得到的句向量输入至标签预测模型,得到预测标签。最后,根据预测标签和无标签样本构建得到伪标签样本集。
本实施例中,通过训练标签预测模型,进而基于标签预测模型实现对无标签样本进行自动标签标注,从而可节省成本,提高标签标注效率。
进一步的,基于上述各实施例,提出本发明样本扩充方法的第三实施例。
在本实施例中,在步骤S30之后,所述样本扩充方法还包括:
步骤D,根据所述扩充训练样本和所述初始训练样本集,构建得到目标训练样本集;
在本实施例中,在构建得到扩充训练样本之后,可以根据扩充训练样本和初始训练样本集,构建得到目标训练样本集。具体的,可以基于上述处理过程,获取到初始训练样本集中的各语句文本对应的样本句向量,并获取各样本标签对应的样本标签向量,然后基于样本句向量和样本标签向量构建得到初始训练样本,初始训练样本和扩充训练样本即可构成得到目标训练样本集。
步骤E,通过所述目标训练样本集对预设意图识别模型进行训练,得到训练好的意图识别模型。
然后,通过目标训练样本集对预设意图识别模型进行训练,得到训练好的意图识别模型,该意图识别模型用于识别用户语句中的意图,该意图识别模型可以为BERT(Bidirectional Encoder Representation from Transformers,转换器的双向编码器)神经网络模型。
本实施例中基于扩充得到的扩充训练样本和初始训练样本集构建得到的目标训练样本集,作为意图识别模型的输入数据,训练得到意图识别模型,以用于识别用户语句中的意图。
本发明还提供一种样本扩充装置。
参照图3,图3为本发明样本扩充装置第一实施例的功能模块示意图。
如图3所示,所述样本扩充装置包括:
抽样模块10,用于从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签;
处理模块20,用于对所述语句文本进行处理,得到对应的样本句向量;
混合模块30,用于获取权重系数,基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本。
进一步地,所述初始训练样本集包括真实标签样本集和伪标签样本集,所述抽样模块10包括:
抽样单元,用于从所述真实标签样本集中抽取第一训练样本,并从所述伪标签样本集中抽取第二训练样本;
第一构建单元,用于根据所述第一训练样本和所述第二训练样本构建得到训练样本组,所述训练样本组包括所述第一训练样本和所述第二训练样本的语句文本和样本标签。
进一步地,所述样本扩充装置还包括:
第一训练模块,用于基于所述真实标签样本集训练得到标签预测模型;
样本输入模块,用于获取无标签样本,将所述无标签样本输入至所述标签预测模型,得到预测标签;
第一构建模块,用于根据所述预测标签和所述无标签样本构建得到所述伪标签样本集。
进一步地,所述处理模块20包括:
查询单元,用于从预设词表中查询得到所述语句文本中各文字对应的位置数字;
第一生成单元,用于基于所述位置数字生成所述语句文本对应的位置向量;
第一计算单元,用于获取目标矩阵,并计算所述目标矩阵与所述位置向量的乘积,得到所述语句文本对应的样本句向量。
进一步地,所述混合模块30包括:
确定单元,用于根据预设形状参数确定目标贝塔分布;
第二生成单元,用于生成符合所述目标贝塔分布的一随机数,并将所述随机数作为权重系数。
进一步地,所述混合模块30包括:
第二计算单元,用于将所述权重系数和所述样本句向量代入第一预设公式,计算得到混合句向量;
第三计算单元,用于根据预设标签排序表将所述样本标签转换成对应的样本标签向量,并将所述权重系数和所述样本标签向量代入第二预设公式,计算得到混合标签向量;
第二构建单元,用于根据所述混合句向量和所述混合标签向量,构建得到扩充训练样本。
进一步地,所述样本扩充装置还包括:
第二构建模块,用于根据所述扩充训练样本和所述初始训练样本集,构建得到目标训练样本集;
第二训练模块,用于通过所述目标训练样本集对预设意图识别模型进行训练,得到训练好的意图识别模型。
其中,上述样本扩充装置中各个模块的功能实现与上述样本扩充方法实施例中各步骤相对应,其功能和实现过程在此处不再一一赘述。
本发明还提供一种计算机可读存储介质,该计算机可读存储介质上存储有样本扩充程序,所述样本扩充程序被处理器执行时实现如以上任一项实施例所述的样本扩充方法的步骤。
本发明计算机可读存储介质的具体实施例与上述样本扩充方法各实施例基本相同,在此不作赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。
Claims (9)
1.一种样本扩充方法,其特征在于,所述样本扩充方法包括:
从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签;
对所述语句文本进行处理,得到对应的样本句向量;
获取权重系数,基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本,其中,所述扩充训练样本是由多个所述语句文本的样本句向量和对应的样本标签基于权重系数随机混合得到的;
其中,所述基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本的步骤包括:
将所述权重系数和所述样本句向量代入第一预设公式,计算得到混合句向量;
根据预设标签排序表将所述样本标签转换成对应的样本标签向量,并将所述权重系数和所述样本标签向量代入第二预设公式,计算得到混合标签向量;
根据所述混合句向量和所述混合标签向量,构建得到扩充训练样本。
2.如权利要求1所述的样本扩充方法,其特征在于,所述初始训练样本集包括真实标签样本集和伪标签样本集,所述从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签的步骤包括:
从所述真实标签样本集中抽取第一训练样本,并从所述伪标签样本集中抽取第二训练样本;
根据所述第一训练样本和所述第二训练样本构建得到训练样本组,所述训练样本组包括所述第一训练样本和所述第二训练样本的语句文本和样本标签。
3.如权利要求2所述的样本扩充方法,其特征在于,所述样本扩充方法还包括:
基于所述真实标签样本集训练得到标签预测模型;
获取无标签样本,将所述无标签样本输入至所述标签预测模型,得到预测标签;
根据所述预测标签和所述无标签样本构建得到所述伪标签样本集。
4.如权利要求1所述的样本扩充方法,其特征在于,所述对所述语句文本进行处理,得到对应的样本句向量的步骤包括:
从预设词表中查询得到所述语句文本中各文字对应的位置数字;
基于所述位置数字生成所述语句文本对应的位置向量;
获取目标矩阵,并计算所述目标矩阵与所述位置向量的乘积,得到所述语句文本对应的样本句向量。
5.如权利要求1所述的样本扩充方法,其特征在于,所述获取权重系数的步骤包括:
根据预设形状参数确定目标贝塔分布;
生成符合所述目标贝塔分布的一随机数,并将所述随机数作为权重系数。
6.如权利要求1至5中任一项所述的样本扩充方法,其特征在于,所述样本扩充方法还包括:
根据所述扩充训练样本和所述初始训练样本集,构建得到目标训练样本集;
通过所述目标训练样本集对预设意图识别模型进行训练,得到训练好的意图识别模型。
7.一种样本扩充装置,其特征在于,所述样本扩充装置包括:
抽样模块,用于从初始训练样本集中抽取训练样本组,所述训练样本组包括语句文本和样本标签;
处理模块,用于对所述语句文本进行处理,得到对应的样本句向量;
混合模块,用于获取权重系数,基于所述权重系数对所述样本句向量和所述样本标签进行混合,并根据混合结果构建扩充训练样本,其中,所述扩充训练样本是由多个所述语句文本的样本句向量和对应的样本标签基于权重系数随机混合得到的;
其中,所述混合模包括:
第二计算单元,用于将所述权重系数和所述样本句向量代入第一预设公式,计算得到混合句向量;
第三计算单元,用于根据预设标签排序表将所述样本标签转换成对应的样本标签向量,并将所述权重系数和所述样本标签向量代入第二预设公式,计算得到混合标签向量;
第二构建单元,用于根据所述混合句向量和所述混合标签向量,构建得到扩充训练样本。
8.一种样本扩充设备,其特征在于,所述样本扩充设备包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的样本扩充程序,所述样本扩充程序被所述处理器执行时实现如权利要求1至6中任一项所述的样本扩充方法的步骤。
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有样本扩充程序,所述样本扩充程序被处理器执行时实现如权利要求1至6中任一项所述的样本扩充方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010249085.2A CN111460156B (zh) | 2020-03-31 | 2020-03-31 | 样本扩充方法、装置、设备及计算机可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010249085.2A CN111460156B (zh) | 2020-03-31 | 2020-03-31 | 样本扩充方法、装置、设备及计算机可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111460156A CN111460156A (zh) | 2020-07-28 |
CN111460156B true CN111460156B (zh) | 2024-05-14 |
Family
ID=71682498
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010249085.2A Active CN111460156B (zh) | 2020-03-31 | 2020-03-31 | 样本扩充方法、装置、设备及计算机可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111460156B (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112085160A (zh) * | 2020-08-06 | 2020-12-15 | 珠海格力电器股份有限公司 | 一种图像样本扩充方法、装置及存储介质 |
CN112784911B (zh) * | 2021-01-29 | 2024-01-19 | 北京百度网讯科技有限公司 | 训练样本的生成方法、装置、电子设备和存储介质 |
CN117093858A (zh) * | 2022-05-06 | 2023-11-21 | 维沃软件技术有限公司 | 模型训练处理方法、装置、终端及网络侧设备 |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107943856A (zh) * | 2017-11-07 | 2018-04-20 | 南京邮电大学 | 一种基于扩充标记样本的文本分类方法及系统 |
CN109657697A (zh) * | 2018-11-16 | 2019-04-19 | 中山大学 | 基于半监督学习和细粒度特征学习的分类优化方法 |
WO2019075771A1 (en) * | 2017-10-20 | 2019-04-25 | Huawei Technologies Co., Ltd. | SEMI-SUPERVISED APPRENTICESHIP SELF-LEARNING METHOD AND SYSTEM USING GENERATIVE ANTAGONIST NETWORKS |
CN110728295A (zh) * | 2019-09-02 | 2020-01-24 | 深圳中科保泰科技有限公司 | 半监督式的地貌分类模型训练和地貌图构建方法 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10922609B2 (en) * | 2017-05-17 | 2021-02-16 | Facebook, Inc. | Semi-supervised learning via deep label propagation |
-
2020
- 2020-03-31 CN CN202010249085.2A patent/CN111460156B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019075771A1 (en) * | 2017-10-20 | 2019-04-25 | Huawei Technologies Co., Ltd. | SEMI-SUPERVISED APPRENTICESHIP SELF-LEARNING METHOD AND SYSTEM USING GENERATIVE ANTAGONIST NETWORKS |
CN107943856A (zh) * | 2017-11-07 | 2018-04-20 | 南京邮电大学 | 一种基于扩充标记样本的文本分类方法及系统 |
CN109657697A (zh) * | 2018-11-16 | 2019-04-19 | 中山大学 | 基于半监督学习和细粒度特征学习的分类优化方法 |
CN110728295A (zh) * | 2019-09-02 | 2020-01-24 | 深圳中科保泰科技有限公司 | 半监督式的地貌分类模型训练和地貌图构建方法 |
Non-Patent Citations (2)
Title |
---|
Pseudo labels for imbalanced multi-label learning;Wenrong Zeng et al;《2014 International Conference on Data Science and Advanced Analytics(DSAA)》;第1-17页 * |
一种基于伪标签的半监督少样本学习模型;余游 等;《电子学报》;第47卷(第11期);第2284-2291页 * |
Also Published As
Publication number | Publication date |
---|---|
CN111460156A (zh) | 2020-07-28 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460156B (zh) | 样本扩充方法、装置、设备及计算机可读存储介质 | |
US20210232761A1 (en) | Methods and systems for improving machine learning performance | |
KR102288249B1 (ko) | 정보 처리 방법, 단말기, 및 컴퓨터 저장 매체 | |
CN108038208B (zh) | 上下文信息识别模型的训练方法、装置和存储介质 | |
CN110019742B (zh) | 用于处理信息的方法和装置 | |
CN110807314A (zh) | 文本情感分析模型训练方法、装置、设备及可读存储介质 | |
CN112036168B (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN112084769B (zh) | 依存句法模型优化方法、装置、设备及可读存储介质 | |
CN110827803A (zh) | 方言发音词典的构建方法、装置、设备及可读存储介质 | |
CN111753522A (zh) | 事件抽取方法、装置、设备以及计算机可读存储介质 | |
CN112084752A (zh) | 基于自然语言的语句标注方法、装置、设备及存储介质 | |
CN112528654A (zh) | 自然语言处理方法、装置及电子设备 | |
CN115687934A (zh) | 意图识别方法、装置、计算机设备及存储介质 | |
CN116644183B (zh) | 文本分类方法、装置及存储介质 | |
CN112860907B (zh) | 一种情感分类方法及设备 | |
CN113268588A (zh) | 文本摘要提取方法、装置、设备、存储介质及程序产品 | |
CN112035668B (zh) | 事件主体识别模型优化方法、装置、设备及可读存储介质 | |
CN112948582A (zh) | 一种数据处理方法、装置、设备以及可读介质 | |
CN112749551A (zh) | 文本纠错方法、装置、设备及可读存储介质 | |
CN109947932B (zh) | 一种推送信息分类方法及系统 | |
CN112668326B (zh) | 语句翻译方法、装置、设备及存储介质 | |
CN114281969A (zh) | 答复语句推荐方法、装置、电子设备及存储介质 | |
CN113656566A (zh) | 智能对话处理方法、装置、计算机设备及存储介质 | |
CN113255368A (zh) | 针对文本数据进行情感分析的方法、装置及相关设备 | |
CN113420869A (zh) | 基于全方向注意力的翻译方法及其相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |