CN110990576B

CN110990576B - 基于主动学习的意图分类方法、计算机设备和存储介质

Info

Publication number: CN110990576B
Application number: CN201911344668.7A
Authority: CN
Inventors: 张雷瀚; 吴士中; 王立芹
Original assignee: Yonyou Network Technology Co Ltd
Current assignee: Yonyou Network Technology Co Ltd
Priority date: 2019-12-24
Filing date: 2019-12-24
Publication date: 2023-06-16
Anticipated expiration: 2039-12-24
Also published as: CN110990576A

Abstract

本发明提出了一种基于集成深度主动学习的意图分类方法、计算机设备以及计算机可读存储介质，其中，意图分类方法包括：获取意图分类数据集；在意图分类数据集中确定并标注第一数量的初始样本；基于集成深度主动学习方法和标注的初始样本构建意图分类模型；接收意图信息，根据意图分类模型确定与意图信息对应的意图类别。通过本发明的技术方案，可以减少标注样本数据的工作量；提高意图分类方法的准确性，增加意图分类方法的应用范围，在尽可能少的标注工作量下，快速构建意图分类模型。

Description

基于主动学习的意图分类方法、计算机设备和存储介质

技术领域

本发明涉及智能人机交互技术领域，具体而言，涉及一种基于集成深度主动学习的意图分类方法、一种计算机设备以及一种计算机可读存储介质。

背景技术

在智能人机交互领域，智能对话终端能够通过语言交互判断用户的意图，进而完成相应的应答或具体任务，在人机交互过程中，自然语言理解能力起着重要的作用，直接决定着系统的智能程度。大体上，智能对话系统的自然语言理解能力可分为意图分类和语义槽填充两个方面，现有的意图理解方法需要依赖大量的人工标注数据构建意图识别模型，开发成本较高，扩展能力有限，使当前的智能对话系统的应用范围较小。

发明内容

本发明旨在至少解决现有技术或相关技术中存在的技术问题之一。

有鉴于此，本发明的一个目的在于提供一种基于主动学习的意图分类方法。

本发明的另一个目的在于对应提供一种计算机设备。

本发明的再一个目的在于提供一种计算机可读存储介质。

为了实现上述至少一个目的，根据本发明的第一方面技术方案，提出了一种基于集成深度主动学习的意图分类方法，包括：待分类的意图数据集；在意图分类数据集中确定并标注第一数量的初始样本；基于集成深度主动学习方法和标注的初始样本构建意图分类模型；接收意图信息，根据意图分类模型确定与意图信息对应的意图类别。

根据本发明提出的基于集成深度主动学习的意图分类方法，通过获取意图分类数据集集，以扩大根据意图分类方法所能判断的意图信息的范围，具体地，意图分类数据集可以包括生活中的日常语音信息或图像信息，还可以是一些专业语音信息，可以理解获取的意图分类数据中的样本数量越大，则所确定的意图分类模型更加符合意图信息的判断需求，在最终判断意图信息时的准确度也越高；其中，通过在意图分类数据集集中标注第一数量的初始样本，即只对意图分类数据集中的部分数据进行标注，以减少标注初始样本的工作量；基于集成深度主动学习和标注的初始样本构建意图分类模型，从而可以根据意图分类模型判断待分类意图信息的意图类别，保证良好的意图分类准确率。

需要强调的是，通过在意图分类数据集中标注第一数量的初始样本，可以在尽可能少的标注工作量下，快速构建意图分类规则。

其中，根据不同的应用场景可以确定不同的意图分类规则，例如在智能客服、智能音箱、语音助手等不同的应用场景，可以设定不同的意图分类规则，以提高意图分类方法的应用范围。

在上述技术方案中，基于集成深度主动学习方法和标注的初始样本构建意图分类模型，具体包括：获取深度预训练模型以及意图分类标准；根据标注的初始样本以及深度预训练模型构建与分类标准匹配的意图分类模型。

在该技术方案中，通过获取深度预训练模型以利用深度预训练模型代替大量的人工标注，减少不必要的重复工作，以快速构建意图分类模型，提高意图分类方法的准确性。

在上述技术方案中，在获取意图分类数据集之前，还包括：确定至少一个目标系统获取的交互信息；将所有交互信息存储至意图分类数据集。

在该技术方案中，在获取意图分类数据集之前，通过确定至少一个目标系统获取的交互信息，将所有交互信息存储至意图分类数据集，从而以在数据库中作为样本数据进行存储，为后续的意图分类模型的制定提供数据基础；交互信息通过目标系统获取，可以从与用户的交互程度较高的目标系统中获取，从而使得进行意图分类时更具有针对性，进而在获取与目标系统的交互信息相关的意图信息时，根据意图分类模型确定对应的意图类别。

其中，目标系统的数量可以是一个，也可以是多个，通过获取多个目标系统的交互信息，可以扩大意图分类方法的应用范围。

具体地，目标系统可以是但不限于智能客服、智能音箱、语音助手中的一个或者多个系统，还可以是其它具有语音、图像或文字存储功能的系统。

在上述技术方案中，交互信息包括以下之一或其组合：声音信息、画面信息和指令信息。

在该技术方案中，通过交互信息包括声音信息、画面信息、指令信息中的一个或其组合，使意图分类方法可以对获取的声音信息、画面信息、指令信息中的一个或其组合，根据意图分类模型判断与声音信息、画面信息、指令信息中的一个或其组合相对应的意图类别，以提高意图分类方法的准确性，增大意图分类方法的适用范围。

在上述技术方案中，在意图分类数据集中确定并标注第一数量的初始样本，具体包括：根据预设分配比例，将意图分类数据集中的所有交互信息划分为开发集、测试集以及待训集；在待训集中确定第一数量的交互信息为初始样本，并标注初始样本。

在该技术方案中，通过根据预设分配比例，将意图分类数据集中的所有交互信息划分为开发集、测试集以及待训集，以通过开发集用来对不同的模型参数进行选择，最后测试集用来验证意图分类模型的最终效果；在待训集中确定第一数量的交互信息作为初始样本，并标注初始样本，根据标注的初始样本基于深度训练模型适用迁移学习以迅速建立意图分类模型，减少了标注的工作量。

在上述技术方案中，开发集、测试集和待训集内的交互信息的数量的比例为1:1:4。

在该技术方案中，通过将开发集、测试集和待训集内的交互信息的数量的比例限定为1:1:4，使开发集和测试集的交互信息的数量所占全部交互信息的数量比例较小，在根据初始样本建立意图分类模型后，简化在开发集上和由初始样本组成的训练集上的训练意图分类模型的过程，且提高在测试集上对意图分类模型的效果进行检验的准确性。

在上述技术方案中，第一数量与待训集中交互信息的总量之间的比例不小于1:5。

在该技术方案中，通过第一数量与待训集中交互信息的总量之间的比例不小于1:5，使初始样本具备较为合适的数量，根据初始样本可以建立较为完整的意图分类模型，减少标注的工作，同时也提高意图分类模型在应用时的准确度。

在上述技术方案中，还包括：根据集成学习方法在意图分类数据集中确定与初始样本相独立的筛选样本；根据预设筛选规则，在所有筛选样本中标注第二数量的新进样本；根据新进样本更新训练意图分类模型，并以更新后的意图分类模型确定与意图信息对应的意图类别。

在该技术方案中，根据集成学习方法在意图分类数据集中确定与初始样本相独立的筛选样本，从而避免筛选样本与初始样本重合，提高工作效率；根据预设筛选规则，在所有筛选样本中标注第二数量的新进样本，以通过预设筛选规则对筛选样本进行进一步的筛选，即根据具体地使用需求，通过筛选规则在筛选样本中筛选出与使用需求相匹配的筛选样本数据，并选择第二数量的筛选样本数据进行标注，一方面减少标注的工作量，另一方面还能使标注样本具备较高的判断价值，以根据第二数量的标注样本获取性能良好的意图分类模型；进一步地，根据新进样本更新训练意图分类模型，在获取与任一新进样本相同的意图信息或根据集成学习方法判断获取的意图信息与新进样本相似时，根据更新后的意图分类模型确定与意图信息对应的意图类别，从而增加意图分类方法的使用范围。

在上述技术方案中，根据预设筛选规则，在所有筛选样本中标注第二数量的新进样本，具体包括：确定每个筛选样本的数据价值；根据预设筛选规则将所有筛选样本以数据价值的高低进行排序；确定排序中前第二数量的筛选样本作为新进样本，并标注新进样本。

在该技术方案中，通过确定每个筛选样本的数据价值，从而赋予每个筛选样本具体的数据价值，使多个筛选样本的数据价值出现高低不同的情况，根据预设筛选规则将所有筛选样本以数据价值的高低进行排序，确定排序中前第二数量的筛选样本作为新进样本，并对新进样本进行标注，使第二数量筛选样本作为新进样本相对于其他筛选样本具有较高的数据价值，一方面减少了新进样本的数量，从而减少标注新进样本的工作量；另一方面，新进样本具有较高的数据价值，可以提高意图分类模型的性能，并加快意图分类模型的构建。

在上述技术方案中，还包括：确定意图分类模型的准确率；在准确率达到分类阈值时，确定当前意图分类模型为最终意图分类模型。

在该技术方案中，确定意图分类模型的准确率，以根据意图分类模型的准确度判断意图类分类方法的性能，若准确率较高说明意图分类方法的性能较好，否则意图分类方法的性能较差；在准确率达到分类阈值时，确定当前意图分类模型为最终意图分类模型，从而完成意图类别模型的构建。

在上述技术方案中，还包括：确定待训集中标注的交互信息的数据数量；在数据数量与待训集中交互信息的总量的比例大于0.5时，确定当前意图分类模型为最终意图分类模型。

在该技术方案中，通过确定待训集中标注的交互信息的数据数量，以及数据数量与待训集中交互信息的总量的比例，通过上述比例的获取可以知悉在数据库中已经被标注的数量的占比，当占比大于50％，即上述比例大于0.5时，可以已经完全满足对意图分类数据集中数据的分析，从而确定当前意图分类模型为最终意图分类模型，以减少对低价值样本的标注，控制构建意图分类模型的时间成本。

在上述技术方案中，还包括：确定初始样本和新进样本的数量和；在数量和大于数量阈值时，确定当前意图分类模型为最终意图分类模型。

在该技术方案中，通过确定初始样本和新进样本的数量和，从而得到标注初始样本和新进样本的具体工作总量；在数量和大于数量阈值时，说明进行标注的样本已经可以完全满足对意图分类数据集中数据的分析需求，从而确定当前意图分类模型为最终意图分类模型，以停止继续筛选和标注新进样本，以控制构建意图分类模型的成本。

本发明的第二方面技术方案，提出了一种计算机设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，处理器执行计算机程序时实现上述第一方面技术方案中任一项的意图分类方法的步骤。

根据本发明提出的计算机设备，通过计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，且处理器执行计算机程序时实现上述第一方面技术方案中任一项的意图分类方法的步骤，具有上述第一方面技术方案中任一项的语音交互匹配方法的技术效果，在此不再赘述。

本发明的第三方面技术方案，提出了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面技术方案中任一项的意图分类方法的步骤。

根据本发明提出的计算机可读存储介质，通过其上存储有计算机程序，计算机程序被处理器执行时实现上述第一方面技术方案中任一项的意图分类方法的步骤，从而具有上述第一方面技术方案中任一项的意图分类方法的技术效果，在此不再赘述。

本发明的附加方面和优点将在下面的描述部分中变得明显，或通过本发明的实践了解到。

附图说明

图1示出了根据本发明的一个实施例的意图分类方法的流程示意图；

图2示出了根据本发明的一个实施例的意图分类方法的流程示意图；

图3示出了根据本发明的一个实施例的意图分类方法的流程示意图；

图4示出了根据本发明的一个实施例的意图分类方法的流程示意图；

图5示出了根据本发明的一个实施例的意图分类方法的流程示意图；

图6示出了根据本发明的一个实施例的意图分类方法的流程示意图；

图7示出了根据本发明的一个实施例的意图分类方法的流程示意图；

图8示出了根据本发明的一个实施例的意图分类方法的流程示意图；

图9示出了根据本发明的一个实施例的意图分类方法的流程示意图；

图10示出了根据本发明的一个实施例的意图分类模型构建方法的流程示意图；

图11示出了根据本发明的一个实施例的计算机设备的结构示意图。

具体实施方式

为了可以更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

下面参照图1至图11描述根据本发明的一些实施例。

实施例1

如图1所示，根据本发明提出的一个实施例的意图分类方法，限定了：

意图分类方法包括步骤S102，获取意图分类数据集；步骤S104，在意图分类数据集中确定并标注第一数量的初始样本；步骤S106，基于集成深度学习方法和标注的初始样本构建意图分类模型；步骤S108，接收意图信息，根据意图分类模型确定与意图信息对应的意图类别。

具体地，通过获取意图分类数据集，以扩大根据意图分类方法所能判断的意图信息的范围，具体地，意图分类数据集可以包括生活中的日常语音信息或图像信息，还可以是一些专业语音信息，可以理解获取的意图分类数据中的样本数量越大，则所确定的意图分类模型更符合意图信息的判断需求，从而在最终判断意图信息时的准确度越高；其中，通过在意图分类数据集中标注第一数量的初始样本，即只对意图分类数据集中的部分数据进行标注，以减少标注初始样本的工作量，更便于后续根据标注的数据进行规则确立的计算量；基于集成深度学习方法和标注的初始样本构建意图分类模型，从而可以根据意图分类模型判断不同的意图信息的意图类别，将获取的意图信息，根据意图分类模型确定与意图信息对应的意图类别，使根据不同的意图信息，都可以确定与之对应的意图类别，提高意图分类方法的准确性。

需要说明的是，根据在同时接收多个不同的意图信息时，通过意图分类模型可以确定与每个意图分类模型相对应的意图类别，提高意图分类方法的准确性；或者，根据意图分类模型确定与多个不同的意图信息对应的一个意图类别，换言之，能够根据实际需求或是计算负荷，调整作为判断结果的意图类别的层级，可以为粗略的大范围类别，也可以为精确的小范围类别，增加意图分类方法的应用范围以及适用性。

需要强调的是，通过在意图分类数据集中标注第一数量的初始样本，可以在尽可能少的标注工作量下，快速构建意图分类模型。

其中，根据不同的应用场景可以确定不同的意图分类模型，例如在智能客服、智能音箱、语音助手等不同的应用场景，可以设定不同的意图分类模型，以提高意图分类方法的应用范围。

实施例2

如图2所示，本发明一个实施例的意图分类方法，具体包括以下流程步骤：

步骤S202，获取意图分类数据集；

步骤S204，在意图分类数据集中确定并标注第一数量的初始样本；

步骤S206，获取深度预训练模型以及多个意图分类标准；

步骤S208，根据标注的初始样本以及深度预训练模型构建与意图分类标准匹配的意图分类模型；

步骤S210，接收意图信息，根据意图分类模型确定与意图信息对应的意图类别。

具体地，在获取意图分类数据集之前，通过确定至少一个目标系统获取的交互信息，将所有交互信息存储至意图分类数据集，从而以在数据库中作为样本数据进行存储，为后续的意图分类模型的制定提供数据基础，可以理解地，交互信息通过目标系统获取，可以从与用户的交互程度较高的目标系统中获取，从而使得进行意图分类时更具有针对性，进而在获取与目标系统的交互信息相关的意图信息时，根据意图分类模型可以确定对应的意图类别。

详细地，目标系统可以是但不限于智能客服、智能音箱、语音助手中的一个或者多个系统，还可以是其它具有语音、图像或文字存储功能的系统。

实施例3

如图3所示，本发明一个实施例的意图分类方法，具体包括以下流程步骤：

步骤S302，确定至少一个目标系统获取的交互信息；

步骤S304，将所有交互信息存储至意图分类数据集；

步骤S306，获取意图分类数据集；

步骤S308，在意图分类数据集中确定并标注第一数量的初始样本；

步骤S310，基于集成深度学习方法和标注的初始样本构建意图分类模型；

步骤S312，接收意图信息，根据意图分类模型确定与意图信息对应的意图类别。

具体地，在获取意图分类数据集之前，通过确定至少一个目标系统获取的交互信息，以快速得到与该目标系统对应的意图分类数据，减少人为获取交互信息的工作量；其中，将所有交互信息存储至意图分类数据集，从而在获取与目标系统的交互信息相关的意图信息时，根据意图分类模型可以确定对应的意图类别。

可选地，目标系统可以是但不限于智能客服、智能音箱、语音助手中的一个或者多个。

实施例4

如图4所示，根据本发明一个实施例的意图分类方法，限定了：

交互信息包括声音信息、画面信息、指令信息中的一个或其组合，使意图分类方法可以对获取的声音信息、画面信息、指令信息中的一个或其组合，根据意图分类模型判断与声音信息、画面信息、指令信息中的一个或其组合相对应的意图类别，以提高意图分类方法的准确性，增大意图分类方法适用范围。

实施例5

如图4所示，本发明一个实施例的意图分类方法，具体包括以下流程步骤：

步骤S402，确定至少一个目标系统获取的交互信息；

步骤S404，将所有交互信息存储至意图分类数据集；

步骤S406，获取意图分类数据集；

步骤S408，根据预设分配比例，将意图分类数据集中的所有交互信息划分为开发集、测试集以及待训集；

步骤S410，在待训集中确定第一数量的交互信息为初始样本，并标注初始样本

步骤S412，基于集成深度学习方法和标注的初始样本构建意图分类模型；

步骤S414，接收意图信息，根据意图分类模型确定与意图信息对应的意图类别。

具体地，通过确定至少一个目标系统获取的交互信息，以快速得到与该目标系统对应的意图分类数据，减少人为获取交互信息的工作量；其中，将所有交互信息存储至意图分类数据集，从而在获取与目标系统的交互信息相关的意图信息时，根据意图分类模型可以确定对应的意图类别；根据预设分配比例，将意图分类数据集中的所有交互信息划分为开发集、测试集以及待训集，以通过开发集用来对不同的超级参数进行选择，在多次尝试最后测试集用来验证意图分类方法的最终结果；在待训集中确定第一数量的交互信息作为初始样本，并标注初始样本，根据标注的初始样本基于深度训练模型适用迁移学习以迅速建立意图分类模型，减少了标注的工作量。

实施例6

除上述任一实施例的特征外，进一步限定了：

开发集、测试集和待训集内的交互信息的数量的比例限定为1:1:4，使开发集和测试集的交互信息的数量所占全部交互信息的数量比例较小，在根据初始样本建立意图分类模型后，简化在开发集上和由初始样本组成的训练集上的训练意图分类模型的过程，且提高在测试集上对意图分类模型的效果进行检验的准确性。

实施例7

除上述任一实施例的特征外，进一步限定了：

第一数量与待训集中交互信息的总量之间的比例不小于1:5，使初始样本具备较为合适的数量，根据初始样本在可以建立较为完整的意图分类模型的基础上，减少标注的工作，进而更利于后续判断时的判断效率，同时也提高意图分类模型在应用时的准确度。

实施例8

如图5所示，根据本发明一个实施例的意图分类方法，具体包括以下流程步骤：

步骤S502，获取意图分类数据集；

步骤S504，在意图分类数据集中确定并标注第一数量的初始样本；

步骤S506，基于集成深度学习方法和标注的初始样本构建意图分类模型；

步骤S508，接收意图信息，根据意图分类模型确定与意图信息对应的意图类别。

步骤S510，根据集成学习方法在意图分类数据集中确定与初始样本相独立的筛选样本；

步骤S512，根据预设筛选规则，在所有筛选样本中标注第二数量的新进样本；

步骤S514，根据新进样本更新训练意图分类模型，并以更新后后的意图分类模型确定与意图信息对应的意图类别。

具体地，根据集成学习方法在意图分类数据集中确定与初始样本相独立的筛选样本，从而避免筛选样本与初始样本重合，而在进一步的工作中出现重复工作的情况，提高工作效率；根据预设筛选规则，在所有筛选样本中标注第二数量的新进样本，以通过预设筛选规则对筛选样本进行进一步的筛选，即根据具体地使用需求，通过筛选规则在筛选样本中筛选出与使用需求相匹配的筛选样本数据，并选择第二数量的筛选样本数据进行标注，一方面减少标注的工作量，另一方面还能使标注样本具备较高的判断价值，以根据第二数量的标注样本获取性能良好的意图分类模型；进一步地，根据新进样本更新训练意图分类模型，在获取与任一新进样本相同的意图信息或根据集成学习方法判断获取的意图信息与新进样本相似时，根据更新后的意图分类模型确定与意图信息对应的意图类别，从而增加意图分类方法的使用范围。

实施例9

如图6所示，本发明一个实施例的意图分类方法，具体包括以下流程步骤：

步骤S602，获取意图分类数据集；

步骤S604，在意图分类数据集中确定并标注第一数量的初始样本；

步骤S606，基于集成深度学习方法和标注的初始样本构建意图分类模型；

步骤S608，接收意图信息，根据意图分类模型确定与意图信息对应的意图类别；

步骤S610，根据集成学习方法在意图分类数据集中确定与初始样本相独立的筛选样本；

步骤S612，确定每个筛选样本的数据价值；

步骤S614，根据预设筛选规则将所有筛选样本以数据价值的高低进行排序；

步骤S616，确定排序中前第二数量的筛选样本作为新进样本，并标注新进样本；

步骤S618，根据新进样本更新训练意图分类模型，并以更新后的意图分类模型确定与意图信息对应的意图类别。

具体地，通过确定每个筛选样本的数据价值，从而赋予每个筛选样本具体地数据价值，使多个筛选样本的数据价值出现高低不同的情况，根据预设筛选规则将所有筛选样本以数据价值的高低进行排序，确定排序中前第二数量的筛选样本作为新进样本，并对新进样本进行标注，使第二数量筛选样本作为新进样本相对于其他筛选样本具有较高的数据价值，一方面减少了新进样本的数量，从而减少标注新进样本的工作量，且新进样本具有较高的数据价值，提高了意图分类模型的性能，且加快意图分类方法的构建。

实施例10

如图7所示，本发明一个实施例的意图分类方法，具体包括以下流程步骤：

步骤S702，获取意图分类数据集；

步骤S704，在意图分类数据集中确定并标注第一数量的初始样本；

步骤S706，基于集成深度学习方法和标注的初始样本构建意图分类模型；

步骤S708，接收意图信息，根据意图分类模型确定与意图信息对应的意图类别；

步骤S710，确定意图分类模型的准确率；

步骤S712，判断准确率是否达到分类阈值，若是则执行步骤S714，否则执行步骤S704；

步骤S714，确定当前意图分类模型为最终意图分类模型。

具体地，确定意图分类模型的准确率，以根据意图分类模型的准确度判断意图分类方法的性能，若准确率较高说明意图分类方法的性能较好，否则意图分类方法的性能较差；在准确率达到分类阈值时，确定当前意图分类模型为最终意图分类模型，从而完成意图分类方法的构建。

实施例11

如图8所示，本发明一个实施例的意图分类方法，具体包括以下流程步骤：

步骤S802，确定至少一个目标系统获取的交互信息；

步骤S804，将所有交互信息存储至意图分类数据集；

步骤S806，获取意图分类数据集；

步骤S808，根据预设分配比例，将意图分类数据集中的所有交互信息划分为开发集、测试集以及待训集；

步骤S810，在待训集中确定第一数量的交互信息为初始样本，并标注初始样本；

步骤S812，基于集成深度学习方法和标注的初始样本构建意图分类模型；

步骤S814，接收意图信息，根据意图分类模型确定与意图信息对应的意图类别；

步骤S816，确定待训集中标注的交互信息的数据数量；

步骤S818，判断数据数量与待训集中交互信息的总量的比例是否大于0.5，若是执行步骤S810，否则执行步骤S820；

步骤S820，确定当前意图分类模型为最终意图分类模型。

具体地，确定待训集中标注的交互信息的数据数量，以及数据数量与待训集中交互信息的总量的比例，通过上述比例的获取可以知悉在数据库中已经被标注的数量的占比，当占比大于50％，即上述比例大于0.5时，可以已经完全满足对意图分类数据集中数据的分析，从而确定当前意图分类模型为最终意图分类模型，以减少对低价值样本的标注，控制构建意图分类方法的时间成本。

实施例12

如图9所示，本发明一个实施例的意图分类方法，具体包括以下流程步骤：

步骤S902，获取意图分类数据集；

步骤S904，在意图分类数据集中确定并标注第一数量的初始样本；

步骤S906，基于集成深度学习方法和标注的初始样本构建意图分类模型；

步骤S908，接收意图信息，根据意图分类模型确定与意图信息对应的意图类别；

步骤S910，根据集成学习方法在意图分类数据集中确定与初始样本相独立的筛选样本；

步骤S912，确定每个筛选样本的数据价值；

步骤S914，根据预设筛选规则将所有筛选样本以数据价值的高低进行排序；

步骤S916，确定排序中前第二数量的筛选样本作为新进样本，并标注新进样本；

步骤S918，根据新进样本更新训练意图分类模型，并以训练后的意图分类模型确定与意图信息对应的意图类别；

步骤S920，确定初始样本和新进样本的数量和；

步骤S922，判断数量和是否大于数量阈值，若是执行步骤S924，否则执行步骤S910；

步骤S924，确定当前意图分类模型为最终意图分类模型。

具体地，确定初始样本和新进样本的数量和，从而得到标注初始样本和新进样本的具体工作总量；在数量和大于数量阈值时，说明进行标注的样本已经可以完全满足对意图分类数据集中数据的分析需求，从而确定当前意图分类模型为最终意图分类模型，以停止继续筛选和标注新进样本，以控制构建意图分类方法的成本。

实施例13

如图11所示，根据本发明的一个实施例的计算机设备1包括：存储器12、处理器14及存储在存储器12上并可在处理器14上运行的计算机程序，处理器14执行计算机程序时实现上述任一实施例的意图分类方法的步骤。

本发明提供的计算机设备1，是用于支持意图分类方法的服务器，处理器14通过运行存储在存储器12上的计算机程序，可接收意图信息，并根据所述意图分类模型确定与所述意图信息对应的意图类别，提高意图信息识别的准确度，提升用户体验。

具体地，计算机设备可以是电脑、手机、智能音箱、智能家电等智能设备。

实施例14

本发明再一个实施例提出了一种计算机可读存储介质，限定了：

计算机可读存储介质上存储有计算机程序，计算机程序被处理器执行时实现上述任一实施例中的意图分类方法的步骤，从而具有上述任一实施例的意图分类方法的技术效果，在此不再赘述。

实施例15

如图10所示，本发明一个具体的实施例提出了一种意图分类模型构建方法，具体包括以下流程步骤：

步骤S1002，获取待标注的意图分类数据，从中筛选初始样本进行人工标注；

步骤S1004，将标注的数据集作为训练数据，基于深度预训练模型构建意图分类模型；

步骤S1006，使用集成主动学习方法从未标注的意图分类数据中筛选高价值的数据进行人工标注；

步骤S1008，将新标注的数据添加到训练数据集，更新意图分类模型；

步骤S1010，判断是否满足终止条件，若是则执行步骤S1012，否则执行步骤S1006；

步骤S1012，确定每个筛选样本的数据价值。

具体地，在该实施例中，主动学习方法可以进行规范化表示。对于一个c分类的意图分类问题，意图分类数据集(即意图分类数据集)可表示为X＝{x₁，x₂，...，x_n}，意图类别为Y＝{y₁，y₂...，y_c}。使用L(x，y；w)表示参数为w的意图分类模型的损失函数。因此，在问题空间Z＝X×Y中，{x_i，y_j}～p_z表示分类问题的求解，这里i∈[n]，j∈[c]，[n]＝{1，...，n}，[c]＝{1，...，c}。

基于上述问题表示，首先将收集的待标注意图分类数据按4∶1∶1的比例分为候选训练集Train(即待训集)、开发集Dev、测试集Test三组，从候选训练集中随机选择m条数据作为初始数据集

这里[m]＝{1，...m}。针对初始数据集(即初始样本)，中的数据进行人工标注。

将已经完成人工标注的初始数据集作为训练集Train＝Q⁰，对深度预训练模型的微调环节添加全连接层，训练意图分类模型。以x_i＝(w₁，...，w_t，...，w_T)表示一条待分类数据，优选地，使用深度预训练模型BERT获取待分类数据x_i的嵌入向量表示h(x_i)＝(e₁，...，e_l)，l是嵌入向量的维度；然后使用全连接神经网络和softmax(逻辑回归模型)运算计算x_i在不同类别上的概率分布y(x_i)＝softmax(W·h(x_i)+b)。使用该模型在训练集和开发集上训练意图分类模型，并在测试集上对模型效果进行检验。

然后基于已训练的意图分类模型和集成主动学习方法从候选训练集中挑选价值较高的为标注数据(即新进样本)，每次迭代挑选b条数据进行人工标注，优选地，b的数值与初始数据集的数据量相同。对于第k次迭代，集成主动学习方法将根据未标注数据的价值排序选择b条数据Q^k，进行人工标注后并入训练数据集Train＝Q⁰∪...Q^k+1。

加载已训练的意图分类模型参数，使用更新后的训练数据集和开发集对模型进行更新训练。在测试集上对更新后的意图分类模型进行评测。

分别计算已标注数据在初始候选数据集中的占比(proportion)以及意图分类模型在测试集上的平均准确率(precision)，当已标注数据在初始候选数据集中的占比以及意图分类模型在测试集上的平均准确率分别超过指定的阈值(即分类阈值)时，终止意图分类模型的训练；否则，继续根据集成主动学习方法挑选高价值的待标注数据，对意图分类模型进行训练更新。优选的，已标注数据在初始候选数据集中的占比的阈值(即数量阈值)设置为0.5，意图分类模型在测试集上的平均准确率的阈值设置为0.98。

在该技术方案中，优选地，集成主动学习方法包含三类共七个采样方法：基于不确定性的方法包括最小置信度采样、最小间隔采样、熵采样；基于距离的方法包括K均值采样、K中心采样；基于贝叶斯的方法包括基于不一致性的贝叶斯主动学习采样方法。

最小置信度采样选择预测类别对应的概率值最小的数据：LC(x_i)＝arg max_j(p(y_j|x_i))，x_i代表待分类数据，y_j是x_i的候选类别。p(y_j|x_i)是x_i属于y_j的概率。

最小间隔采样根据预测可能性最高的两个类别概率差值的间隔进行选择：LM(x_i)＝p(y₁|x_i)-p(y₂|x_i)，y₁和y₂分别是分类器预测的最可能的前两个类别。直觉上，一条数据属于最大可能性类别的概率和次大可能性类别的概率非常接近时，表明分类器对该数据的类别判断确信度越低，也表明对该条数据进行人工标注的价值越大。

熵采样方法认为分类器预测数据的概率分别越均匀表示该数据的模型分类确信度越低，进行人工标注的价值也越大：Entropy(x_i)＝-∑_jp(y_j|x_i)log(p(y_j|x_i))。

K均值方法使用聚类方法选择更加有价值的待标注数据。对于候选待标注数据集，使用预训练模型得到待标注数据的向量表示。如果需要从候选待标注数据集中筛选b条数据，可以使用K均值方法将待标注数据聚类为b个簇，然后计算得到这些簇的中心向量C＝{c₁，c₂，...c_b}，离中心向量最近的数据即为价值较大的目标数据，然后根据所属类簇包含数据的数量从大到小进行排序。

K中心方法与K均值采样方法类似。对于候选待标注数据使用预训练模型获取对应的向量表示。如果需要选择b条价值较高的数据，可以寻找b个中心点使得所有数据向量到最临近的中心点的距离的和达到最小。寻找最优的中心点集合是NP难问题，可行的方法是使用贪心算法求解。在得到中心点集合后，距离每个中心点最近的数据将被选中，根据中心点到所有候选数据的距离对候选数据进行聚类，根据被选中数据所属类簇包含数据的数量从大到小对被选中数据进行排序。

基于不一致性的贝叶斯主动学习采样方法选择能使模型参数得到最多信息的数据，这个过程可以归结为选择最可能被模型在多次分类中判别为不同类别的数据。这个不确定性的表示方式可以表示为在多个分类器分类中与多数分类结果不一致的程度，

集成方法整合上述提出的6种采样方法选择价值最高的数据。使用A＝{A₁，..，A_K}表示上述采样方法，对于第k个采样方法A_k，可以得到候选数据的价值排名。以

表示由第k个采样方法计算的价值排序.，可以针对每条候选数据累加所有的排序名次，R＝{r₁，...r_n，...，r_N}，/>

最终选择排名靠前的前b条数据进行人工标注。

实施例16

本发明第二个具体的实施例提供了一个基于集成深度主动学习的中文意图分类模型构建方法。

通过使用2017年中国社会媒体处理大会的中文人际对话技术评测的意图识别数据集实现了中文意图分类模型的构建和评测。该数据集包含3069条数据，属于31个意图类别。本实施例将数据分为1880条作为候选训练接，419条作为开发集，770条作为测试集。

首先，从候选数据集中随机选择380条数据进行人工标注，并将标注的数据作为训练集，进行意图分类模型的训练，并计算模型在测试数据集上的预测准确率。然后，使用集成主动学习方法及其它6种主动学习方法迭代地挑选高价值的训练数据进行人工标注，此外还使用随机采样方法作为对比方法，每轮从候选训练集中挑选的价值最高的300条未标注数据。使用新标注的数据更新训练接，对原有的意图分类模型进行继续训练和更新，并计算模型在测试数据集上的预测准确率。

本实施例的主动学习过程经过5轮迭代挑选和训练，最终使用了所有数据完成了模型训练、结果评测和方法对比。如图2所示，本发明所公布的基于集成深度主动学习的意图分类模型相比所有对比方法表现出了明显的优势，仅使用候选训练集约一半的数据进行模型训练，即可达到接近最佳的模型性能；相比于传统的分类器构建方法，本发明所公布的方法将开发效率提高了近一倍。

实施例17

本发明第三个具体的实施例提供了一个基于集成深度主动学习的英文意图分类模型构建方法。

通过使用从一家航空公司信息系统收集的航班旅行相关的意图识别数据集实现了英文意图分类模型的构建和评测。该数据集包含5871条数据，属于26个意图类别。本实施例将数据分为3000条作为候选训练接，1000条作为开发集，1871条作为测试集。

首先，从候选数据集中随机选择500条数据进行人工标注，并将标注的数据作为训练集，进行意图分类模型的训练，并计算模型在测试数据集上的预测准确率。然后，使用第一个实施例介绍的集成主动学习方法及其它6种主动学习方法迭代地挑选高价值的训练数据进行人工标注，此外还使用随机采样方法作为对比方法，每轮从候选训练集中挑选的价值最高的500条未标注数据。使用新标注的数据更新训练集，对原有的意图分类模型进行继续训练和更新，并计算模型在测试数据集上的预测准确率。

根据本发明提出的意图分类方法，以减少标注初始样本的工作量；提高意图类别判断的准确性，增加意图分类方法的应用范围，可以在尽可能少的标注工作量下，快速构建意图分类模型。

进一步地，可以理解的是，流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤，例如，可以被认为是用于实现逻辑功能的可执行指令的定序列表，可以具体实现在任何计算机可读介质中，以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用，或结合这些指令执行系统、装置或设备而使用。就本说明书而言，“计算机可读介质”可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下：具有一个或多个布线的电连接部(电子装置)，便携式计算机盘盒(磁装置)，随机存取存储器(RAM)，只读存储器(ROM)，可擦除可编辑只读存储器(EPROM或闪速存储器)，光纤装置，以及便携式光盘只读存储器(CDROM)。另外，计算机可读介质甚至可以是可在其上打印程序的纸或其他合适的介质，因为可以例如通过对纸或其他介质进行光学扫描，接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得程序，然后将其存储在计算机存储器中。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于集成深度主动学习的意图分类方法，其特征在于，包括：

获取待分类的意图数据集；

在所述意图数据集中确定并标注第一数量的初始样本；

基于集成深度主动学习方法和标注的初始样本构建意图分类模型；接收意图信息，根据所述意图分类模型确定与所述意图信息对应的意图类别；

根据集成学习方法在所述意图分类数据集中确定与所述初始样本相独立的筛选样本；

根据预设筛选规则，在所有所述筛选样本中标注第二数量的新进样本；

根据所述新进样本更新训练所述意图分类模型，并以更新后的意图分类模型确定与所述意图信息对应的意图类别；确定所述意图分类模型的准确率；

在所述准确率达到分类阈值时，确定当前意图分类模型为最终意图分类模型；

在所述获取意图分类数据集之前，还包括：

确定至少一个目标系统获取的交互信息；

将所有所述交互信息存储至意图分类数据集；

所述根据预设筛选规则，在所有所述筛选样本中标注第二数量的新进样本，具体包括：

确定每个所述筛选样本的数据价值；

根据预设筛选规则将所有所述筛选样本以所述数据价值的高低进行排序；

确定所述排序中前第二数量的筛选样本作为所述新进样本，并标注所述新进样本。

2.根据权利要求1所述的基于集成深度主动学习的意图分类方法，其特征在于，所述基于集成深度主动学习方法和标注的初始样本构建意图分类模型，具体包括：

获取深度预训练模型以及意图分类标准；

根据标注的初始样本以及深度预训练模型构建与所述意图分类标准匹配的意图分类模型。

3.根据权利要求1所述的基于集成深度主动学习的意图分类方法，其特征在于，所述交互信息包括以下之一或其组合：声音信息、画面信息和指令信息。

4.根据权利要求1所述的基于集成深度主动学习的意图分类方法，其特征在于，所述在所述意图分类数据集中确定并标注第一数量的初始样本，具体包括：

根据预设分配比例，将所述意图分类数据集中的所有交互信息划分为开发集、测试集以及待训集；

在所述待训集中确定所述第一数量的交互信息为初始样本，并标注所述初始样本。

5.根据权利要求4所述的基于集成深度主动学习的意图分类方法，其特征在于，

所述开发集、所述测试集和所述待训集内的交互信息的数量的比例为1:1:4。

6.根据权利要求4所述的基于集成深度主动学习的意图分类方法，其特征在于，所述第一数量与所述待训集中所述交互信息的总量之间的比例不小于1:5。

7.根据权利要求4所述的基于集成深度主动学习的意图分类方法，其特征在于，还包括：

确定所述待训集中标注的交互信息的数据数量；

在所述数据数量与所述待训集中所述交互信息的总量的比例大于0.5时，确定当前意图分类模型为最终意图分类模型。

8.根据权利要求1至7中任一项所述的基于集成深度主动学习的意图分类方法，其特征在于，还包括：

确定所述初始样本和所述新进样本的数量和；

在所述数量和大于数量阈值时，确定当前意图分类模型为最终意图分类模型。

9.一种计算机设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求1至8中任一项所述的意图分类方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8中任一项所述的意图分类方法的步骤。