CN105224603A

CN105224603A - 训练语料获取方法及装置

Info

Publication number: CN105224603A
Application number: CN201510552055.8A
Authority: CN
Inventors: 俞晓光
Original assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Current assignee: Beijing Jingdong Century Trading Co Ltd; Beijing Jingdong Shangke Information Technology Co Ltd
Priority date: 2015-09-01
Filing date: 2015-09-01
Publication date: 2016-01-06
Anticipated expiration: 2035-09-01
Also published as: CN105224603B

Abstract

本发明提供一种训练语料获取方法及装置，具有自动化程度高、获取速度快等优点。该方法包括：获取第一初始训练语料和第二初始训练语料；利用根据第一初始训练语料构建的概率分类模型对可选训练语句进行预测，得到第一预测结果；利用根据第一初始训练语料和第二初始训练语料构建的概率分类模型对可选训练语句进行预测，得到第二预测结果；比较第一预测结果和第二预测结果，若第一预测结果与第二预测结果中的分类信息不一致，或者第一预测结果与第二预测结果中的分类信息一致且第一预测结果中的预测概率小于第二预测结果中的预测概率，将可选训练语句和第二预测结果中的分类信息作为训练语料输出。

Description

训练语料获取方法及装置

技术领域

本发明涉及自然语言处理技术领域，特别地涉及一种训练语料获取方法及装置。

背景技术

意图识别，即识别一种行为的意图。例如在问答对话中，提问者每句话都带有一定的意图，应答方根据对方的意图进行回答。意图识别在搜索引擎、聊天机器人等场景下有广泛的应用。

现有的意图识别方法主要是获取一批语料，人工标注每条语料的意图从而得到训练数据。通过训练数据结合特定的算法训练出概率分类模型，并使用所得概率分类模型对新的语料进行意图识别。由于初始人工标注的语料较少，在线上使用过程中会出现一些错误用例，也就是说模型预测效果一般。为了扩展和优化模型，需要获得更多的训练语料。

目前主要是人工发现错误用例，进行人工标注后并加入训练语料库。该方法所有数据都需要人工提取，只能发现一个问题解决一个，很多错误问题因为人力原因被遗漏，解决一个错误用例的代价也较大。因此新的训练语料获取速度慢，导致模型优化速度也很慢。

发明内容

有鉴于此，本发明提供一种训练语料获取方法及装置，具有自动化程度高、获取速度快等优点。

为实现上述目的，根据本发明的一个方面，提供了一种训练语料获取方法，包括：获取第一初始训练语料和第二初始训练语料；利用根据所述第一初始训练语料构建的概率分类模型对可选训练语句进行预测，得到第一预测结果；利用根据所述第一初始训练语料和第二初始训练语料构建的概率分类模型对所述可选训练语句进行预测，得到第二预测结果；比较所述第一预测结果和第二预测结果，若所述第一预测结果与第二预测结果中的分类信息不一致，或者所述第一预测结果与第二预测结果中的分类信息一致且所述第一预测结果中的预测概率小于所述第二预测结果中的预测概率，将所述可选训练语句和第二预测结果中的分类信息作为训练语料输出。

可选地，所述可选训练语句来自线上对话日志。

可选地，所述第一初始训练语料和第二初始训练语料是经过人工标注的训练语料。

可选地，所述训练语料用于新建训练语料库，或者用于扩展和优化所述第一初始训练语料和第二初始训练语料所属的原有的训练语料库。

为实现上述目的，根据本发明的另一方面，提供了一种训练语料获取装置，包括：获取模块，用于获取第一初始训练语料和第二初始训练语料；第一预测模块，用于利用根据所述第一初始训练语料构建的概率分类模型对可选训练语句进行预测，得到第一预测结果；第二预测模块，用于利用根据所述第一初始训练语料和第二初始训练语料构建的概率分类模型对所述可选训练语句进行预测，得到第二预测结果；输出模块，用于比较所述第一预测结果和第二预测结果，若所述第一预测结果与第二预测结果的分类信息不一致，或者所述第一预测结果与第二预测结果的分类信息一致且所述第一预测结果的预测概率小于所述第二预测结果的预测概率，将所述可选训练语句和第二预测结果中的分类信息作为训练语料输出。

可选地，所述可选训练语句来自线上对话日志。

根据本发明的技术方案，对可选训练语句进行两次预测并比较预测结果。若两次预测结果中分类信息不一致，意味着第二次预测是对第一次预测的结果进行了修正，应以第二次预测结果的分类信息为准。若两次预测结果中的分类信息一致且概率变大，意味着第二次预测是对第一次预测的结果进行了确认，此时两次预测结果中的分类信息是可信度较高的。通过这样的方式，可以快速地获得训练语料，具有自动化程度高等优点。

附图说明

附图用于更好地理解本发明，不构成对本发明的不当限定。其中：

图1是根据本发明实施例的训练语料获取方法的基本步骤的示意图；

图2是根据本发明实施例的训练语料获取装置的主要模块的示意图。

具体实施方式

以下结合附图对本发明的示范性实施例做出说明，其中包括本发明实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本发明的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

图1是根据本发明实施例的训练语料获取方法的基本步骤的示意图。如图1所示，该训练语料获取方法可以包括如下的步骤S11至步骤S14。

步骤S11：获取第一初始训练语料和第二初始训练语料。

可选地，第一初始训练语料和第二初始训练语料是经过人工标注的训练语料。第一初始训练语料和第二初始训练语料可以包括多个句子以及对应的分类标识。

步骤S12：利用根据第一初始训练语料构建的概率分类模型对可选训练语句进行预测，得到第一预测结果。

步骤S13：利用根据第一初始训练语料和第二初始训练语料构建的概率分类模型对可选训练语句进行预测，得到第二预测结果。

需要说明的是，步骤S12和步骤S13中构建概率分类模型的具体方式不受限制，本领域技术人员可以采用任意的现有技术来获得模型。可选训练语句仅仅是一个句子，并不附带分类标识等信息。利用模型对可选训练语句进行预测，即找出该可选训练语句的可能所属的分类以及对应的概率。可选地，可选训练语句来自线上对话日志。

步骤S14：比较第一预测结果和第二预测结果。若第一预测结果与第二预测结果中的分类信息不一致，或者第一预测结果与第二预测结果中的分类信息一致且第一预测结果中的预测概率小于第二预测结果中的预测概率，将可选训练语句和第二预测结果中的分类信息作为训练语料输出。

需要说明的是，在第一预测结果与第二预测结果的分类一致且第一预测结果的预测概率大于第二预测结果的预测概率的情况下，仍不能够准确判断该可选训练语句所属的分类，该可选训练语句不能作为训练语料输出，而应当被舍弃。

可选地，步骤S14所得到的训练语料用于新建训练语料库，或者用于扩展和优化第一初始训练语料和第二初始训练语料所属的原有的训练语料库。

由上可知，根据本发明的实施例的训练语料获取方法，对可选训练语句进行两次预测并比较预测结果。若两次预测结果中分类信息不一致，意味着第二次预测是对第一次预测的结果进行了修正，应以第二次预测结果的分类信息为准。若两次预测结果中的分类信息一致且概率变大，意味着第二次预测是对第一次预测的结果进行了确认，此时两次预测结果中的分类信息是可信度较高的。因此，该方法可以快速地获得训练语料，具有自动化程度高等优点。

图2是根据本发明实施例的训练语料获取装置的主要模块的示意图。如图2所示，该训练语料获取装置20包括：获取模块21、第一预测模块22、第二预测模块23和输出模块24。

获取模块21用于获取第一初始训练语料和第二初始训练语料。可选地，第一初始训练语料和第二初始训练语料是经过人工标注的训练语料。第一初始训练语料和第二初始训练语料可以包括多个句子以及对应的分类标识。

第一预测模块22用于利用根据第一初始训练语料构建的概率分类模型对可选训练语句进行预测，得到第一预测结果。

第二预测模块23用于利用根据第一初始训练语料和第二初始训练语料构建的概率分类模型对可选训练语句进行预测，得到第二预测结果。

输出模块24用于比较第一预测结果和第二预测结果，若第一预测结果与第二预测结果的分类信息不一致，或者第一预测结果与第二预测结果的分类信息一致且第一预测结果的预测概率小于第二预测结果的预测概率，将可选训练语句和第二预测结果中的分类信息作为训练语料输出。

可选地，输出模块24输出的训练语料用于新建训练语料库，或者用于扩展和优化第一初始训练语料和第二初始训练语料所属的原有的训练语料库。

由上可知，根据本发明的实施例的训练语料获取装置，对可选训练语句进行两次预测并比较预测结果。若两次预测结果中分类信息不一致，意味着第二次预测是对第一次预测的结果进行了修正，应以第二次预测结果的分类信息为准。若两次预测结果中的分类信息一致且概率变大，意味着第二次预测是对第一次预测的结果进行了确认，此时两次预测结果中的分类信息是可信度较高的。因此，该装置可以快速地获得训练语料，具有自动化程度高等优点。

为使本领域技术人员更好地理解本发明的训练语料获取方法及装置，下面列举具体实施例进行说明。

首先，对一批句子进行人工标记分类，即获取第一初始训练语料。这批语料中有一个分类是“快递相关”，在此简单列举几条(实际上每个分类可能都有几百条语料)。需要说明的是，由于是人工进行分类标记，所以存在标记错误的情况。

语料1：包邮吗(快递相关)

语料2：可以寄顺丰吗(快递相关)

语料3：几天能寄到呢(快递相关)

语料4：我不高兴(快递相关)

可以看到语料1至语料3确实是“快递相关”的语料，但语料4应该属于“闲聊”不应该标注到“快递相关”，属于标注错误的语料。

其次，通过分析用户对话进一步获取了以下几条句子以及句子对应的分类，即获取第二初始训练语料。

语料5：多少钱包邮(快递相关)

语料6：退货的话运费谁出(快递相关)

语料7：你高兴吗(闲聊)

接着，根据语料1至语料4训练得到模型1。并且根据语料1至语料7训练得到模型2。将模型1和模型2上线，用于预估用户真实问题的意图。这些源自用户真实问题的句子即为可选的训练语料，举例如下：

句子a：100块的东西能包邮吗

句子b：我要退货，你们出运费

句子c：今天不高兴

然后，分别使用上面得到的模型1、模型2对这三个句子进行预测。

对于句子a，模型1中有类似的语料(指语料1)，因此句子a可以分类到“快递相关”分类中，但由于第一初始训练语料中只有一条类似语料导致概率较低。当使用模型2对其分类时，由于加入了新的相似语料(指语料5)。导致这次分类概率大于模型1分类概率。因此，第二次预测是对第一次预测的结果进行了进一步地确认，可以将句子a连同“快递相关”的分类标识作为训练语料输出。

对于句子b，模型1中没有类似的语料，因此句子b可能无法正确分类到“快递相关”。当使用模型2时，由于有了类似语料(指语料6)，使得句子能够正确分类。可以看到两次分类结果不一致，因此第二次预测是对第一次预测的结果进行了修正，可以将句子b和“快递相关”的分类标识作为训练语料输出。

对于句子c，模型1中有类似语料(指语料4)，因此句子可能会被分类到“快递相关”。当使用模型2时，类似的新增的语料(指语料7)却出现在“闲聊”中。因此第二次预测时句子c被分类到“快递相关”的概率就大大减小。该语料c就不适合加入模型训练。

上述具体实施方式，并不构成对本发明保护范围的限制。本领域技术人员应该明白的是，取决于设计要求和其他因素，可以发生各种各样的修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等，均应包含在本发明保护范围之内。

Claims

1.一种训练语料获取方法，其特征在于，包括：

获取第一初始训练语料和第二初始训练语料；

利用根据所述第一初始训练语料构建的概率分类模型对可选训练语句进行预测，得到第一预测结果；

利用根据所述第一初始训练语料和第二初始训练语料构建的概率分类模型对所述可选训练语句进行预测，得到第二预测结果；

比较所述第一预测结果和第二预测结果，若所述第一预测结果与第二预测结果中的分类信息不一致，或者所述第一预测结果与第二预测结果中的分类信息一致且所述第一预测结果中的预测概率小于所述第二预测结果中的预测概率，将所述可选训练语句和第二预测结果中的分类信息作为训练语料输出。

2.根据权利要求1所述的训练语料获取方法，其特征在于，所述可选训练语句来自线上对话日志。

3.根据权利要求1所述的训练语料获取方法，其特征在于，所述第一初始训练语料和第二初始训练语料是经过人工标注的训练语料。

4.根据权利要求1所述的训练语料获取方法，其特征在于，所述训练语料用于新建训练语料库，或者用于扩展和优化所述第一初始训练语料和第二初始训练语料所属的原有的训练语料库。

5.一种训练语料获取装置，其特征在于，包括：

获取模块，用于获取第一初始训练语料和第二初始训练语料；

第一预测模块，用于利用根据所述第一初始训练语料构建的概率分类模型对可选训练语句进行预测，得到第一预测结果；

第二预测模块，用于利用根据所述第一初始训练语料和第二初始训练语料构建的概率分类模型对所述可选训练语句进行预测，得到第二预测结果；

输出模块，用于比较所述第一预测结果和第二预测结果，若所述第一预测结果与第二预测结果的分类信息不一致，或者所述第一预测结果与第二预测结果的分类信息一致且所述第一预测结果的预测概率小于所述第二预测结果的预测概率，将所述可选训练语句和第二预测结果中的分类信息作为训练语料输出。

6.根据权利要求5所述的训练语料获取装置，其特征在于，所述可选训练语句来自线上对话日志。

7.根据权利要求5所述的训练语料获取装置，其特征在于，所述第一初始训练语料和第二初始训练语料是经过人工标注的训练语料。

8.根据权利要求5所述的训练语料获取装置，其特征在于，所述训练语料用于新建训练语料库，或者用于扩展和优化所述第一初始训练语料和第二初始训练语料所属的原有的训练语料库。