CN110688471A - 训练样本获取方法、装置及设备 - Google Patents

训练样本获取方法、装置及设备 Download PDF

Info

Publication number
CN110688471A
CN110688471A CN201910942797.XA CN201910942797A CN110688471A CN 110688471 A CN110688471 A CN 110688471A CN 201910942797 A CN201910942797 A CN 201910942797A CN 110688471 A CN110688471 A CN 110688471A
Authority
CN
China
Prior art keywords
samples
batch
sample
user question
question
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910942797.XA
Other languages
English (en)
Other versions
CN110688471B (zh
Inventor
刘俊宏
张望舒
温祖杰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alipay Hangzhou Information Technology Co Ltd
Original Assignee
Alipay Hangzhou Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alipay Hangzhou Information Technology Co Ltd filed Critical Alipay Hangzhou Information Technology Co Ltd
Priority to CN201910942797.XA priority Critical patent/CN110688471B/zh
Publication of CN110688471A publication Critical patent/CN110688471A/zh
Application granted granted Critical
Publication of CN110688471B publication Critical patent/CN110688471B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Human Computer Interaction (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种训练样本获取方法、装置及设备,在获取方法中,收集两批已标注样本,包括第一批样本和第二批样本。第一批样本中的样本包括第一用户问句和第一标签,第一标签通过人工的方式标注。第二批样本中的样本包括第二用户问句和第二标签,第二标签通过自动的方式标注。基于第一批样本,训练样本分类模型。对于第二批样本,将第二用户问句输入样本分类模型,以得到第二用户问句对应于预定义的各个类别的预测概率。基于第二用户问句对应于预定义的各个类别的预测概率以及第二标签,确定预测结果与真实结果之间的差异度。当差异度大于第一阈值时,对第一样本进行编辑。基于编辑后的第二批样本和所述第一批样本,确定最终的训练样本。

Description

训练样本获取方法、装置及设备
技术领域
本说明书一个或多个实施例涉及计算机技术领域,尤其涉及一种训练样本获取方法、装置及设备。
背景技术
在客服场景下,客服系统在接收到用户问句时,通常会将该用户问句输入文本分类模型,以预测与该用户问句相对应的标准问句。这里的标准问句具有对应的答案。之后,基于相对应的标准问句对应的答案,对用户进行回复。
对于上述文本分类模型,其通常是基于人工标注的训练样本学习得到。然而,由于人工标注的方式需要花费极大的时间和精力,因此,上述训练样本的数量比较有限。
因此,需要提供一种训练样本的获取方法,以获取数量更多的训练样本。
发明内容
本说明书一个或多个实施例描述了一种训练样本获取方法、装置及设备,可以获取数量多且质量高的训练样本。
第一方面,提供了一种训练样本获取方法,包括:
收集两批已标注样本,该两批已标注样本包括第一批样本和第二批样本;其中,第一批样本中的样本包括第一用户问句和第一标签,所述第一标签通过人工的方式标注,其指示所述第一用户问句在标准问句集合中对应的标准问句;所述第二批样本中的样本包括第二用户问句和第二标签,所述第二标签通过自动的方式标注,其指示所述第二用户问句在所述标准问句集合中对应的标准问句;
基于所述第一批样本中的第一用户问句和第一标签,训练样本分类模型;
对于所述第二批样本中任意的第一样本,将该第一样本的第二用户问句输入所述样本分类模型,以得到所述第二用户问句对应于预定义的各个类别的预测概率,所述各个类别中的每个类别对应于所述标准问句集合中的一个标准问句;
基于所述第二用户问句对应于预定义的各个类别的预测概率以及所述第二标签,确定预测结果与真实结果之间的差异度;
当所述差异度大于第一阈值时,对所述第一样本进行编辑;
基于编辑后的第二批样本和所述第一批样本,确定最终的训练样本。
第二方面,提供了一种训练样本获取装置,包括:
收集单元,用于收集两批已标注样本,该两批已标注样本包括第一批样本和第二批样本;其中,第一批样本中的样本包括第一用户问句和第一标签,所述第一标签通过人工的方式标注,其指示所述第一用户问句在标准问句集合中对应的标准问句;所述第二批样本中的样本包括第二用户问句和第二标签,所述第二标签通过自动的方式标注,其指示所述第二用户问句在所述标准问句集合中对应的标准问句;
训练单元,用于基于所述收集单元收集的所述第一批样本中的第一用户问句和第一标签,训练样本分类模型;
输入单元,用于对于所述收集单元收集的所述第二批样本中任意的第一样本,将该第一样本的第二用户问句输入所述样本分类模型,以得到所述第二用户问句对应于预定义的各个类别的预测概率,所述各个类别中的每个类别对应于所述标准问句集合中的一个标准问句;
确定单元,用于基于所述第二用户问句对应于预定义的各个类别的预测概率以及所述第二标签,确定预测结果与真实结果之间的差异度;
编辑单元,用于当所述确定单元确定的所述差异度大于第一阈值时,对所述第一样本进行编辑;
所述确定单元,还用于基于所述编辑单元编辑后的第二批样本和所述第一批样本,确定最终的训练样本。
第三方面,提供了一种训练样本获取设备,包括:
存储器;
一个或多个处理器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序被所述处理器执行时实现以下步骤:
收集两批已标注样本,该两批已标注样本包括第一批样本和第二批样本;其中,第一批样本中的样本包括第一用户问句和第一标签,所述第一标签通过人工的方式标注,其指示所述第一用户问句在标准问句集合中对应的标准问句;所述第二批样本中的样本包括第二用户问句和第二标签,所述第二标签通过自动的方式标注,其指示所述第二用户问句在所述标准问句集合中对应的标准问句;
基于所述第一批样本中的第一用户问句和第一标签,训练样本分类模型;
对于所述第二批样本中任意的第一样本,将该第一样本的第二用户问句输入所述样本分类模型,以得到所述第二用户问句对应于预定义的各个类别的预测概率,所述各个类别中的每个类别对应于所述标准问句集合中的一个标准问句;
基于所述第二用户问句对应于预定义的各个类别的预测概率以及所述第二标签,确定预测结果与真实结果之间的差异度;
当所述差异度大于第一阈值时,对所述第一样本进行编辑;
基于编辑后的第二批样本和所述第一批样本,确定最终的训练样本。
本说明书一个或多个实施例提供的训练样本获取方法、装置及设备,先基于人工标注的第一批样本,对样本分类模型进行训练。之后,对于自动标注的第二批样本中的样本,通过该样本分类模型获得预测结果,并在预测结果与真实结果之间的差异比较大时,对样本进行编辑,由此来实现第二批样本的去噪。最后,通过将去噪后的第二批样本补充到第一批样本中,来增加训练样本的数量。
附图说明
为了更清楚地说明本说明书实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本说明书的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书提供的训练样本获取方法的应用场景示意图;
图2为本说明书一个实施例提供的训练样本获取方法流程图;
图3为用户问句和标准问句的空间分布示意图之一;
图4为用户问句和标准问句的空间分布示意图之二;
图5为用户问句和标准问句的空间分布示意图之三;
图6为本说明书一个实施例提供的训练样本获取装置示意图;
图7为本说明书一个实施例提供的训练样本获取设备示意图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
在描述本说明书提供的方案之前,先对本方案的发明构思作以下说明。
本领域技术人员公知,用于训练模型的训练样本越多,那么训练得到的模型的精度越高。然而,如前所述,由于人工标注的方式需要花费极大的时间和精力,因此,训练样本的数量比较有限。在客服场景下,训练样本的标注过程可以为:针对用户问句为其标注相对应的标准问句的标识(id),该标准问句的标识也可以称为是用户问句的标签。
为了增加训练样本的数量,在本方案中,在收集训练样本时,除了收集人工标注的训练样本外,还收集另一批自动标注的训练样本。该另一批训练样本的自动标注可以是基于用户的行为数据来实现的。然而,由于用户的行为存在很大的主观性和不确定性,因此,该另一批训练样本通常会存在很大的噪声。举例来说,用户在搜索场景输入用户问句“怎么邀请新人”,与这个搜索最相关的答案是与邀请方法有关的答案,但是用户可能由于兴趣或关切等等的原因点击了与其问句关联度并不是最紧密的标准问句,如,用户真实点击的标准问句可能是“邀好友了为何领不了新人红包”。所以,针对用户问句“怎么邀请新人”,最后标注的标签就是“邀好友了为何领不了新人红包”对应的标识,这就给训练样本引入了很大的噪声。
对于上述另一批训练样本,可以对其进行去噪(去噪方法后续说明)。去噪后的训练样本可以对有限的、人工标注的训练样本形成很好的补充,也即可以增加训练样本的数量,由此可以大大提升模型训练的精度。
以上就是本说明书提供的发明构思,基于该发明构思就可以得到本方案,以下对本方案进行详细阐述。
图1为本说明书提供的训练样本获取方法应用场景示意图。图1中,客服系统可以接收用户问句。之后,可以将该用户问句输入多类别文本分类模型,以预测相对应的标准问句。最后,基于预测的标准问句,对用户的用户问句进行回复。
对于上述多类别文本分类模型,其可以是基于两批已标注样本训练得到。该两批样本中的一批样本可以是通过人工的方式标注的,另一批样本可以为通过自动的方式标注的。具体地,可以先基于上述一批样本训练样本分类模型。之后,对于另一批样本中的样本,通过该样本分类模型获得预测结果,并在预测结果与真实结果之间的差异比较大时,对该样本进行编辑,由此来实现另一批样本的去噪。在完成上述去噪过程之后,先基于去噪后的另一批样本,训练多类别文本分类模型。之后,再基于上述一批样本,对训练后的多类别文本分类模型进行调整。由此,就获得了上述多类别文本分类模型。
图2为本说明书一个实施例提供的训练样本获取方法流程图。所述方法的执行主体可以为具有处理能力的设备:服务器或者系统或者装置,如,可以为图1中的客服系统。如图2所示,该方法具体可以包括:
步骤202,收集两批已标注样本。
该两批已标注样本可以包括第一批样本和第二批样本。其中,第一批样本中的样本包括第一用户问句和第一标签,第一标签通过人工的方式标注,其指示第一用户问句在标准问句集合中对应的标准问句。第二批样本中的样本包括第二用户问句和第二标签,第二标签通过自动的方式标注,其指示第二用户问句在标准问句集合中对应的标准问句。
需要说明的是,对于上述第一批样本,其样本数量比较有限,但样本质量较高。对于上述第二批样本,其样本的第二标签可以是基于用户的行为数据自动标注,因此,该第二批样本的数量通常比较多。然而,由于用户的行为存在很大的主观性和不确定性,因此,该第二批样本通常会存在很大的噪声。
此外,上述标准问句集合中的标准问句可以是由人工预先收集的用户高频提问的问句。
步骤204,基于第一批样本中的第一用户问句和第一标签,训练样本分类模型。
这里的样本分类模型可以为多类别分类模型,其具体可以为FastText模型、TextCNN模型、层次注意网络(Hierarchy Attent ion Network,HAN)模型以及DPCNN模型等人工神经网络(Art ificial Neural Network,ANN)模型。
步骤206,对于第二批样本中任意的第一样本,将该第一样本的第二用户问句输入样本分类模型,以得到第二用户问句对应于预定义的各个类别的预测概率。
其中,各个类别中的每个类别对应于标准问句集合中的一个标准问句。
除了上述预测概率,基于上述样本分类模型,还可以得到第二用户问句的向量表征,如,可以是从样本分类模型的输出层的前一层来获取。该向量表征即为第二用户问句在高维空间中的表示。需要说明的是,基于第二用户问句的向量表征,就可以确定第二用户问句在高维空间中的位置。
图3示出了在一个例子中用户问句和标准问句的空间分布示意图。图3中,点A-点D可以表示四个类别,也即其可以表示四个标准问句。该四个点在空间中的位置,可以是基于各自所表示的四个标准问句对应的向量表征确定的。以上述四个点中的点A为例来说,点A周围的点可以表示归属于点A所表示的类别的用户问句,或者可以表示对应于点A所表示的标准问句的用户问句。
步骤208,基于第二用户问句对应于预定义的各个类别的预测概率以及第二标签,确定预测结果与真实结果之间的差异度。
这里的预测结果即为样本分类模型预测的第二用户问句对应的标准问句,其也可以称为预测标签(其确定方法后续说明)。上述真实结果即为第二用户问句实际对应的标准问句,也即为第二标签。
在一个示例中,上述确定预测结果与真实结果之间的差异度的步骤可以为:基于第二标签,确定第二用户问句对应于预定义的各个类别的真实概率。计算预测概率与真实概率之间的交叉熵。基于计算得到的交叉熵,确定预测结果与真实结果之间的差异度。
其中,确定第二用户问句对应于预定义的各个类别的真实概率的一种实现方式可以为:基于第二标签,从标准问句集合中确定出第二用户问句对应的目标标准问句。从预定义的各个类别中选取出对应于目标标准问句的目标类别。将对应于目标类别的真实概率设定为第一数值(如,1),将对应于各个类别中的其它类别的真实概率设定为第二数值(如,0)。
举例来说,假设有四个类别:标问1、标问2、标问3以及标问4。且假设基于第二标签,确定的目标标准问句为:标问2,那么,上述第二个类别为目标类别,也即对应于上述第二个类别的真实概率可以为:1,而对应于其它类别的真实概率为:0。因此,在该例子中,第二用户问句对应于预定义的各个类别的真实概率分别为:0,1,0,0。
之后,可以基于公式1,计算预测概率与真实概率之间的交叉熵:
Figure BDA0002223374780000081
其中,H(p,q)为预测概率与真实概率之间的交叉熵,i为预定义的类别的数目,p(xi)为第二用户问句对应于第i类别的真实概率,q(xi)为第二用户问句对应于第i类别的预测概率。
在计算得到预测概率与真实概率之间的交叉熵之后,可以将该交叉熵作为预测结果与真实结果之间的差异度。可以理解的是,当预测结果与真实结果之间的差异度比较大时,基于上述公式1计算得到的交叉熵通常比较高。
步骤210,当差异度大于第一阈值时,对第一样本进行编辑。
应理解,当预测结果与真实结果之间的差异度比较大时,可能会存在如下两种情况:
第一种情况,第二用户问句对应于预定义的各个类别的预测概率分布平均。举例来说,假设有5个预定义的类别,且对应于该5个预定义的类别的预测概率分别为:0.2、0.2、0.2、0.2和0.2。也即第二用户问句不属于任一类别。具体地,可以参见图4所示,图4中,点A-点D以及其周围点的定义同图3所述,在此不复赘述。点E表示第二用户问句,其位置可以是基于对应的向量表征确定的。从图4可以看出,第二用户问句远离各个类别(即点A-点D)。
需要说明的是,在这种情况下,用户问句有较大可能是由于在搜索中用户的提问的语言较模糊产生的(搜索中的问句较客服机器人中的问句短,模糊性更大),这种用户问句对模型训练帮助不大,可以直接剔除。
第二种情况,第二用户问句对应于预定义的某个类别的预测概率比较大,但是对应于该类别的标准问句与第二标签指示的标准问句不一致。举例来说,假设有四个预定义的类别:标问1、标问2、标问3以及标问4,且假设第二用户问句对应于上述四个预定义的类别的预测概率分别为:0.2、0.6、0.1以及0.1,那么基于上述四个预测概率,可以确定的标准问句为:标问2,而第二标签指示的标准问句为:标问3。具体地,可以参见图5所示,图5中,点A-点D以及其周围点的定义同图3所述,在此不复赘述。点F表示第二用户问句,其位置可以是基于对应的向量表征确定的。从图5中可以看出,点F距离点A比较近,但实际当中却将其与点C划分到了一起。
需要说明的是,在这种情况下,可以将第一样本看作是噪声样本,可以通过修改标签的方式对其进行校正,当然也可以直接删除。
对于上述两种情况,可以通过进一步计算预测概率的自熵来进行判断。如,可以基于公式2,计算预测概率的自熵:
Figure BDA0002223374780000091
其中,H(X)为预测概率的求熵结果,i为预定义的类别的数目,q(xi)为第二用户问句对应于第i类别的预测概率。
在得到上述求熵结果之后,如果基于公式2计算得到的自熵大于第二阈值,则属于第一种情况,否则属于第二种情况。具体地,当求熵结果大于第二阈值时,删除第一样本。当求熵结果不大于第二阈值时,修改第一样本。
在一个示例中,上述修改第一样本的过程可以为:
基于第二用户问句对应于预定义的各个类别的预测概率,确定第二用户问句的预测标签。基于预测标签,修改第一样本的第二标签。
如前述第二种情况下的例子,与第二用户问句对应的预测标签为:标句2的标识。因此,可以将第二用户问句的第二标签修改为:标句2的标识。
步骤212,基于编辑后的第二批样本和第一批样本,确定最终的训练样本。
这里的最终的训练样本可以用于训练多类别文本分类模型。具体地,可以基于编辑后的第二批样本,先训练多类别文本分类模型。之后,基于第一批样本,对训练后的多类别文本分类模型进行调整。由此,可以大大提升模型预测的准确度。
上述多类别文本分类模型具体可以为FastText模型、TextCNN模型、HAN模型以及DPCNN模型等人工神经网络模型。
综上,本说明书实施例提供的训练样本获取方法,可以基于人工标注的第一批样本,对样本分类模型进行训练。之后,对于自动标注的第二批样本中的样本,通过该样本分类模型获得预测结果,并在预测结果与真实结果之间的差异比较大时,对样本进行编辑,由此来实现第二批样本的去噪。此外,去噪后的第二批样本可以对有限的第一批样本形成很好的补充,也即可以增加训练样本的数量,由此可以大大提升模型训练的精度。
与上述训练样本获取方法对应地,本说明书一个实施例还提供的一种训练样本获取装置,如图6所示,该装置可以包括:
收集单元602,用于收集两批已标注样本,该两批已标注样本包括第一批样本和第二批样本。其中,第一批样本中的样本包括第一用户问句和第一标签,第一标签通过人工的方式标注,其指示第一用户问句在标准问句集合中对应的标准问句。第二批样本中的样本包括第二用户问句和第二标签,第二标签通过自动的方式标注,其指示第二用户问句在标准问句集合中对应的标准问句。
训练单元604,用于基于收集单元602收集的第一批样本中的第一用户问句和第一标签,训练样本分类模型。
这里的样本分类模型可以为人工神经网络模型。
输入单元606,用于对于收集单元602收集的第二批样本中任意的第一样本,将该第一样本的第二用户问句输入样本分类模型,以得到第二用户问句对应于预定义的各个类别的预测概率,各个类别中的每个类别对应于标准问句集合中的一个标准问句。
确定单元608,用于基于第二用户问句对应于预定义的各个类别的预测概率以及第二标签,确定预测结果与真实结果之间的差异度。
确定单元608具体可以用于:
基于第二标签,确定第二用户问句对应于预定义的各个类别的真实概率。
计算预测概率与真实概率之间的交叉熵。
基于交叉熵,确定预测结果与真实结果之间的差异度。
确定单元608还具体可以用于:
基于第二标签,从标准问句集合中确定出第二用户问句对应的目标标准问句。
从预定义的各个类别中选取出对应于目标标准问句的目标类别。
将对应于目标类别的真实概率设定为第一数值,将对应于各个类别中的其它类别的真实概率设定为第二数值。
编辑单元610,用于当确定单元608确定的差异度大于第一阈值时,对第一样本进行编辑。
编辑单元610具体可以用于:
对第二用户问句对应于预定义的各个类别的预测概率求熵,以得到求熵结果。
当求熵结果大于第二阈值时,删除第一样本。
当求熵结果不大于第二阈值时,修改第一样本。
确定单元608,还用于基于编辑单元610编辑后的第二批样本和第一批样本,确定最终的训练样本。
可选地,确定单元608,还用于基于第二用户问句对应于预定义的各个类别的预测概率,确定第二用户问句的预测标签。
编辑单元610还具体用于:
基于预测标签,修改第一样本的第二标签。
可选地,该装置还可以包括:调整单元(图中未示出)。
训练单元604,还用于基于编辑后的第二批样本,训练多类别文本分类模型.
调整单元,用于基于第一批样本,对训练单元604训练后的多类别文本分类模型进行调整。
本说明书上述实施例装置的各功能模块的功能,可以通过上述方法实施例的各步骤来实现,因此,本说明书一个实施例提供的装置的具体工作过程,在此不复赘述。
本说明书一个实施例提供的训练样本获取装置,收集单元602收集两批已标注样本,该两批已标注样本包括第一批样本和第二批样本。训练单元604基于第一批样本中的第一用户问句和第一标签,训练样本分类模型。对于第二批样本中任意的第一样本,输入单元606将该第一样本的第二用户问句输入样本分类模型,以得到第二用户问句对应于预定义的各个类别的预测概率。确定单元608基于第二用户问句对应于预定义的各个类别的预测概率以及第二标签,确定预测结果与真实结果之间的差异度。当差异度大于第一阈值时,编辑单元610对第一样本进行编辑。确定单元608基于编辑后的第二批样本和第一批样本,确定最终的训练样本。由此,可以获取数量多且质量高的训练样本。
本说明书一个实施例提供的训练样本获取装置可以为图1中客服系统的一个模块或者单元。
与上述训练样本获取方法对应地,本说明书实施例还提供了一种训练样本获取设备,如图7所示,该设备可以包括:存储器702、一个或多个处理器704以及一个或多个程序。其中,该一个或多个程序存储在存储器702中,并且被配置成由一个或多个处理器704执行,该程序被处理器704执行时实现以下步骤:
收集两批已标注样本,该两批已标注样本包括第一批样本和第二批样本。其中,第一批样本中的样本包括第一用户问句和第一标签,第一标签通过人工的方式标注,其指示第一用户问句在标准问句集合中对应的标准问句。第二批样本中的样本包括第二用户问句和第二标签,第二标签通过自动的方式标注,其指示第二用户问句在标准问句集合中对应的标准问句。
基于第一批样本中的第一用户问句和第一标签,训练样本分类模型。
对于第二批样本中任意的第一样本,将该第一样本的第二用户问句输入所述样本分类模型,以得到第二用户问句对应于预定义的各个类别的预测概率,各个类别中的每个类别对应于标准问句集合中的一个标准问句。
基于第二用户问句对应于预定义的各个类别的预测概率以及第二标签,确定预测结果与真实结果之间的差异度。
当差异度大于第一阈值时,对第一样本进行编辑。
基于编辑后的第二批样本和第一批样本,确定最终的训练样本。
本说明书一个实施例提供的训练样本获取设备,可以获取数量多且质量高的训练样本。
本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
结合本说明书公开内容所描述的方法或者算法的步骤可以硬件的方式来实现,也可以是由处理器执行软件指令的方式来实现。软件指令可以由相应的软件模块组成,软件模块可以被存放于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、移动硬盘、CD-ROM或者本领域熟知的任何其它形式的存储介质中。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于ASIC中。另外,该ASIC可以位于服务器中。当然,处理器和存储介质也可以作为分立组件存在于服务器中。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。
上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。
以上所述的具体实施方式,对本说明书的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本说明书的具体实施方式而已,并不用于限定本说明书的保护范围,凡在本说明书的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本说明书的保护范围之内。

Claims (15)

1.一种训练样本获取方法,包括:
收集两批已标注样本,该两批已标注样本包括第一批样本和第二批样本;其中,第一批样本中的样本包括第一用户问句和第一标签,所述第一标签通过人工的方式标注,其指示所述第一用户问句在标准问句集合中对应的标准问句;所述第二批样本中的样本包括第二用户问句和第二标签,所述第二标签通过自动的方式标注,其指示所述第二用户问句在所述标准问句集合中对应的标准问句;
基于所述第一批样本中的第一用户问句和第一标签,训练样本分类模型;
对于所述第二批样本中任意的第一样本,将该第一样本的第二用户问句输入所述样本分类模型,以得到所述第二用户问句对应于预定义的各个类别的预测概率,所述各个类别中的每个类别对应于所述标准问句集合中的一个标准问句;
基于所述第二用户问句对应于预定义的各个类别的预测概率以及所述第二标签,确定预测结果与真实结果之间的差异度;
当所述差异度大于第一阈值时,对所述第一样本进行编辑;
基于编辑后的第二批样本和所述第一批样本,确定最终的训练样本。
2.根据权利要求1所述的方法,所述基于所述第二用户问句对应于预定义的各个类别的预测概率以及所述第二标签,确定预测结果与真实结果之间的差异度,包括:
基于所述第二标签,确定所述第二用户问句对应于预定义的各个类别的真实概率;
计算所述预测概率与所述真实概率之间的交叉熵;
基于所述交叉熵,确定所述预测结果与真实结果之间的差异度。
3.根据权利要求2所述的方法,所述基于所述第二标签,确定所述第二用户问句对应于预定义的各个类别的真实概率,包括:
基于所述第二标签,从所述标准问句集合中确定出所述第二用户问句对应的目标标准问句;
从所述预定义的各个类别中选取出对应于所述目标标准问句的目标类别;
将对应于所述目标类别的真实概率设定为第一数值,将对应于所述各个类别中的其它类别的真实概率设定为第二数值。
4.根据权利要求1所述的方法,所述对所述第一样本进行编辑,包括:
对所述第二用户问句对应于预定义的各个类别的预测概率求熵,以得到求熵结果;
当所述求熵结果大于第二阈值时,删除所述第一样本;
当所述求熵结果不大于第二阈值时,修改所述第一样本。
5.根据权利要求4所述的方法,在所述修改所述第一样本之前,还包括:
基于所述第二用户问句对应于预定义的各个类别的预测概率,确定所述第二用户问句的预测标签;
所述修改所述第一样本,包括:
基于所述预测标签,修改所述第一样本的第二标签。
6.根据权利要求1所述的方法,还包括:
基于编辑后的第二批样本,训练多类别文本分类模型;
基于所述第一批样本,对训练后的多类别文本分类模型进行调整。
7.根据权利要求1-6任一项所述的方法,所述样本分类模型为人工神经网络模型。
8.一种训练样本获取装置,包括:
收集单元,用于收集两批已标注样本,该两批已标注样本包括第一批样本和第二批样本;其中,第一批样本中的样本包括第一用户问句和第一标签,所述第一标签通过人工的方式标注,其指示所述第一用户问句在标准问句集合中对应的标准问句;所述第二批样本中的样本包括第二用户问句和第二标签,所述第二标签通过自动的方式标注,其指示所述第二用户问句在所述标准问句集合中对应的标准问句;
训练单元,用于基于所述收集单元收集的所述第一批样本中的第一用户问句和第一标签,训练样本分类模型;
输入单元,用于对于所述收集单元收集的所述第二批样本中任意的第一样本,将该第一样本的第二用户问句输入所述样本分类模型,以得到所述第二用户问句对应于预定义的各个类别的预测概率,所述各个类别中的每个类别对应于所述标准问句集合中的一个标准问句;
确定单元,用于基于所述第二用户问句对应于预定义的各个类别的预测概率以及所述第二标签,确定预测结果与真实结果之间的差异度;
编辑单元,用于当所述确定单元确定的所述差异度大于第一阈值时,对所述第一样本进行编辑;
所述确定单元,还用于基于所述编辑单元编辑后的第二批样本和所述第一批样本,确定最终的训练样本。
9.根据权利要求8所述的装置,所述确定单元具体用于:
基于所述第二标签,确定所述第二用户问句对应于预定义的各个类别的真实概率;
计算所述预测概率与所述真实概率之间的交叉熵;
基于所述交叉熵,确定所述预测结果与真实结果之间的差异度。
10.根据权利要求9所述的装置,所述确定单元还具体用于:
基于所述第二标签,从所述标准问句集合中确定出所述第二用户问句对应的目标标准问句;
从所述预定义的各个类别中选取出对应于所述目标标准问句的目标类别;
将对应于所述目标类别的真实概率设定为第一数值,将对应于所述各个类别中的其它类别的真实概率设定为第二数值。
11.根据权利要求8所述的装置,所述编辑单元具体用于:
对所述第二用户问句对应于预定义的各个类别的预测概率求熵,以得到求熵结果;
当所述求熵结果大于第二阈值时,删除所述第一样本;
当所述求熵结果不大于第二阈值时,修改所述第一样本。
12.根据权利要求11所述的装置,
所述确定单元,还用于基于所述第二用户问句对应于预定义的各个类别的预测概率,确定所述第二用户问句的预测标签;
所述编辑单元还具体用于:
基于所述预测标签,修改所述第一样本的第二标签。
13.根据权利要求8所述的装置,还包括:调整单元;
所述训练单元,还用于基于编辑后的第二批样本,训练多类别文本分类模型;
所述调整单元,用于基于所述第一批样本,对所述训练单元训练后的多类别文本分类模型进行调整。
14.根据权利要求8-13任一项所述的装置,所述样本分类模型为人工神经网络模型。
15.一种训练样本获取设备,包括:
存储器;
一个或多个处理器;以及
一个或多个程序,其中所述一个或多个程序存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序被所述处理器执行时实现以下步骤:
收集两批已标注样本,该两批已标注样本包括第一批样本和第二批样本;其中,第一批样本中的样本包括第一用户问句和第一标签,所述第一标签通过人工的方式标注,其指示所述第一用户问句在标准问句集合中对应的标准问句;所述第二批样本中的样本包括第二用户问句和第二标签,所述第二标签通过自动的方式标注,其指示所述第二用户问句在所述标准问句集合中对应的标准问句;
基于所述第一批样本中的第一用户问句和第一标签,训练样本分类模型;
对于所述第二批样本中任意的第一样本,将该第一样本的第二用户问句输入所述样本分类模型,以得到所述第二用户问句对应于预定义的各个类别的预测概率,所述各个类别中的每个类别对应于所述标准问句集合中的一个标准问句;
基于所述第二用户问句对应于预定义的各个类别的预测概率以及所述第二标签,确定预测结果与真实结果之间的差异度;
当所述差异度大于第一阈值时,对所述第一样本进行编辑;
基于编辑后的第二批样本和所述第一批样本,确定最终的训练样本。
CN201910942797.XA 2019-09-30 2019-09-30 训练样本获取方法、装置及设备 Active CN110688471B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910942797.XA CN110688471B (zh) 2019-09-30 2019-09-30 训练样本获取方法、装置及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910942797.XA CN110688471B (zh) 2019-09-30 2019-09-30 训练样本获取方法、装置及设备

Publications (2)

Publication Number Publication Date
CN110688471A true CN110688471A (zh) 2020-01-14
CN110688471B CN110688471B (zh) 2022-09-09

Family

ID=69111371

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910942797.XA Active CN110688471B (zh) 2019-09-30 2019-09-30 训练样本获取方法、装置及设备

Country Status (1)

Country Link
CN (1) CN110688471B (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111680148A (zh) * 2020-08-14 2020-09-18 支付宝(杭州)信息技术有限公司 针对用户问句进行智能应答的方法和装置
CN112528894A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 一种差异项判别方法及装置
CN112784905A (zh) * 2021-01-26 2021-05-11 北京嘀嘀无限科技发展有限公司 数据样本扩充的方法、装置和电子设备
CN113869342A (zh) * 2020-06-30 2021-12-31 微软技术许可有限责任公司 预估性建模中的标记偏移检测和调整

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110289025A1 (en) * 2010-05-19 2011-11-24 Microsoft Corporation Learning user intent from rule-based training data
CN107977412A (zh) * 2017-11-22 2018-05-01 上海大学 一种基于迭代式与交互式感知年龄数据库的清洗方法
CN109034188A (zh) * 2018-06-15 2018-12-18 北京金山云网络技术有限公司 机器学习模型的获取方法、获取装置、设备及存储介质
CN109783632A (zh) * 2019-02-15 2019-05-21 腾讯科技(深圳)有限公司 客服信息推送方法、装置、计算机设备及存储介质
CN109840588A (zh) * 2019-01-04 2019-06-04 平安科技(深圳)有限公司 神经网络模型训练方法、装置、计算机设备及存储介质
CN109886211A (zh) * 2019-02-25 2019-06-14 北京达佳互联信息技术有限公司 数据标注方法、装置、电子设备及存储介质
CN110070183A (zh) * 2019-03-11 2019-07-30 中国科学院信息工程研究所 一种弱标注数据的神经网络模型训练方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20110289025A1 (en) * 2010-05-19 2011-11-24 Microsoft Corporation Learning user intent from rule-based training data
CN107977412A (zh) * 2017-11-22 2018-05-01 上海大学 一种基于迭代式与交互式感知年龄数据库的清洗方法
CN109034188A (zh) * 2018-06-15 2018-12-18 北京金山云网络技术有限公司 机器学习模型的获取方法、获取装置、设备及存储介质
CN109840588A (zh) * 2019-01-04 2019-06-04 平安科技(深圳)有限公司 神经网络模型训练方法、装置、计算机设备及存储介质
CN109783632A (zh) * 2019-02-15 2019-05-21 腾讯科技(深圳)有限公司 客服信息推送方法、装置、计算机设备及存储介质
CN109886211A (zh) * 2019-02-25 2019-06-14 北京达佳互联信息技术有限公司 数据标注方法、装置、电子设备及存储介质
CN110070183A (zh) * 2019-03-11 2019-07-30 中国科学院信息工程研究所 一种弱标注数据的神经网络模型训练方法及装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
MENGYING HU ET AL.: "Multi-label Learning from Noisy Labels with Non-linear Feature Transformation", 《CONPUTER VISION-ACCV 2018》 *
罗俊杰等: "基于Bayes的有噪训练集去噪方法研究", 《计算机科学》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113869342A (zh) * 2020-06-30 2021-12-31 微软技术许可有限责任公司 预估性建模中的标记偏移检测和调整
CN111680148A (zh) * 2020-08-14 2020-09-18 支付宝(杭州)信息技术有限公司 针对用户问句进行智能应答的方法和装置
CN112528894A (zh) * 2020-12-17 2021-03-19 科大讯飞股份有限公司 一种差异项判别方法及装置
CN112528894B (zh) * 2020-12-17 2024-05-31 科大讯飞股份有限公司 一种差异项判别方法及装置
CN112784905A (zh) * 2021-01-26 2021-05-11 北京嘀嘀无限科技发展有限公司 数据样本扩充的方法、装置和电子设备

Also Published As

Publication number Publication date
CN110688471B (zh) 2022-09-09

Similar Documents

Publication Publication Date Title
CN110688471B (zh) 训练样本获取方法、装置及设备
CN109344908B (zh) 用于生成模型的方法和装置
CN110135231B (zh) 动物面部识别方法、装置、计算机设备和存储介质
CN109376267B (zh) 用于生成模型的方法和装置
CN110765246B (zh) 基于智能机器人的问答方法、装置、存储介质和智能设备
CN110443222B (zh) 用于训练脸部关键点检测模型的方法和装置
CN111428448B (zh) 文本生成方法、装置、计算机设备及可读存储介质
CN110807566A (zh) 人工智能模型评测方法、装置、设备及存储介质
CN112508334A (zh) 融合认知特性及试题文本信息的个性化组卷方法及系统
CN111340233B (zh) 机器学习模型的训练方法及装置、样本处理方法及装置
CN110175657B (zh) 一种图像多标签标记方法、装置、设备及可读存储介质
CN114549470B (zh) 基于卷积神经网络和多粒度注意力的手骨关键性区域获取方法
CN111401105B (zh) 一种视频表情识别方法、装置及设备
CN111126552A (zh) 一种智能学习内容推送方法及系统
CN110427454A (zh) 文本情绪分析方法及装置、电子设备和非暂态存储介质
CN117789971B (zh) 基于文本情感分析的心理健康智能评测系统及方法
CN112765354B (zh) 模型训练方法、模型训练装置、计算机设备和存储介质
CN114693334A (zh) 基于CEEMD和ConvLSTM的碳价预测方法和系统
CN111414732A (zh) 文本风格转换方法、装置、电子设备及存储介质
CN113763928A (zh) 音频类别预测方法、装置、存储介质及电子设备
CN115859128B (zh) 一种基于档案数据交互相似度的分析方法和系统
CN109272262B (zh) 一种自然语言特征的分析方法
CN111612021B (zh) 一种错误样本识别方法、装置及终端
Arsirii et al. Models and methods of intellectual analysis for medical-sociological monitoring’s data based on the neural network with a competitive layer
CN113780394B (zh) 一种强分类器模型的训练方法、装置及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant