CN109256122A

CN109256122A - 机器学习方法、装置、设备及存储介质

Info

Publication number: CN109256122A
Application number: CN201811030112.6A
Authority: CN
Inventors: 叶俊鹏; 徐易楠; 刘云峰; 吴悦; 陈正钦; 杨振宇; 胡晓; 汶林丁
Original assignee: Shenzhen Chase Technology Co Ltd
Current assignee: Shenzhen Chase Technology Co Ltd; Shenzhen Zhuiyi Technology Co Ltd
Priority date: 2018-09-05
Filing date: 2018-09-05
Publication date: 2019-01-22
Also published as: WO2020048296A1

Abstract

本发明涉及一种机器学习方法、装置、设备及存储介质。其中，机器学习方法包括：获取用户请求数据；获取基于用户请求数据生成的指令；指令经由预先训练的任务处理模型基于作为输入数据的用户请求数据得到；获取用户对指令的执行结果的反馈数据；以用户请求数据、指令和反馈数据作为训练数据，训练任务处理模型。由于本申请提供的方法中，任务处理模型训练用的数据包括用户请求数据、指令和反馈数据作为训练数据，其中，反馈数据是用户对指令的执行结果的反馈的数据，由于任务处理模型训练用的训练数据包括：反馈数据。在对任务处理模型进行训练的过程中，可以使得任务处理模型基于用户的请求数据生成的指令与用户的行为习惯匹配。

Description

机器学习方法、装置、设备及存储介质

技术领域

本发明涉及智能设备技术领域，具体涉及一种机器学习方法、装置、设备及存储介质。

背景技术

随着科技水平的提高，越来越多的智能设备进入人们的生活。其中，机器客服就是一种可以为人们生活带来极大便利的智能设备。机器客服主要用于为用户解答常见的问题，查询资料或完成一些特定的任务。机器客服在用于上述用途时，需要调用后台的任务处理模型以完成与用户的交互。

但是，为了使任务处理模型更加智能，需要向任务处理模型输入预先采集的数据，以进行训练。但是，由于为预先采集的数据包括请求数据和指令，训练数据的来源与用户无关，所以训练后的任务处理模型基于用户的请求数据生成的指令与用户的行为习惯并不匹配。

发明内容

有鉴于此，本发明的目的在于克服训练后的任务处理模型局域用户的请求数据生成的指令与用户的行为习惯并不匹配的问题，提供一种机器学习方法、装置、设备及存储介质。

根据本申请实施例的第一方面，提供一种机器学习方法，包括：

获取用户请求数据；

获取基于所述用户请求数据生成的指令；所述指令经由预先训练的任务处理模型基于作为输入数据的所述用户请求数据得到；

获取用户对所述指令的执行结果的反馈数据；

以所述用户请求数据、所述指令和所述反馈数据作为训练数据，训练所述任务处理模型。

可选的，所述用户请求数据为音频请求数据。

所述任务处理模型包括：词向量模型、语音识别模型、实体识别模型、状态追踪模型、词槽预测模型、指令生成模型：

所述预先训练的任务处理模型基于所述用户请求数据得到所述指令的过程，包括：

通过所述语音识别模型，提取所述音频请求数据的特征，以及将所述音频进行识别,得到用户请求语句；

通过所述词向量模型，转化所述用户请求语句为词向量；

通过所述状态追踪模型，根据当前用户请求语句和所述词向量及历史请求语句及词向量,生成新的对话状态特征，并记录用户请求语句和词向量形成历史请求语句及词向量；其中，所述历史请求语句及词向量为本次用户请求语句之前的历史请求语句及词向量；

通过所述实体识别模型，对所述用户请求问句进行实体识别得到所述用户请求问句对应的实体识别标签；

通过词槽预测模型，根据所述对话状态特征和所述实体识别标签，生成任务词槽，并对任务词槽进行填充，

通过指令生成模型，根据所述对话状态特征和所述已填充任务词槽，生成指令。

可选的，所述词向量模型、所述特征提取模型、所述实体识别模型、所述状态追踪模型、所述词槽预测模型和所述指令生成模型为深度学习模型。

可选的，所述预先训练的任务处理模型基于预先采集的训练用的用户请求数据、训练用的指令和训练用的反馈数据作为训练数据训练得到。

可选的，预先采集所述训练用的用户请求数据、所述训练用的指令和所述训练用的反馈数据采集的方法包括：

获取并采集所述训练用的用户请求数据；

获取并采集基于所述训练用的用户请求数据生成的训练用的指令；所述训练用的指令经由规则模型基于作为输入数据的所述训练用的用户请求数据得到；

获取并采集用户对所述训练用指令的执行结果的反馈数据。

根据本申请实施例的第二方面，提供一种机器学习装置，包括：

第一获取模块，用于获取用户请求数据；

第二获取模块，用于获取基于所述用户请求数据生成的指令；所述指令经由预先训练的任务处理模型基于作为输入数据的所述用户请求数据得到；

第三获取模块，用于获取用户对所述指令的执行结果的反馈数据；

训练模块，用于以所述用户请求数据、所述指令和所述反馈数据作为训练数据，训练所述任务处理模型。

可选的，所述用户请求数据为音频请求数据。

可选的，

通过所述词向量模型，转化所述用户请求语句为词向量；

获取并采集所述训练用的用户请求数据；

获取并采集用户对所述训练用指令的执行结果的反馈数据。

根据本申请实施例的第三方面，提供一种机器学习设备，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行本申请第一方面所述的机器学习方法；

所述处理器用于调用并执行所述存储器中的所述计算机程序。

根据本申请实施例的第四方面，提供一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现本申请第一方面所述的机器学习方法中各个步骤。

本申请的实施例提供的技术方案可以包括以下有益效果：

由于本申请提供的方法中，任务处理模型训练用的数据包括用户请求数据、指令和反馈数据作为训练数据，其中，反馈数据是用户对所述指令的执行结果的反馈的数据，与背景技术中的方法相比较，由于任务处理模型训练用的训练数据包括：反馈数据。在对任务处理模型进行训练的过程中，使得任务处理模型基于用户的请求数据生成的指令与用户的行为习惯匹配。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本申请。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请一实施例提供的机器学习方法的流程示意图。

图2是本申请一实施例提供任务处理模型的结构示意图。

图3是本申请另一个实施例提供的任务处理模型工作时的流程示意图。

图4是本申请另一个实施例提供的预训练的方法的流程示意图。

图5是本申请另一个实施例提供的机器学习装置的结构示意图。

图6是本申请另一个实施例提供的机器学习设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将对本发明的技术方案进行详细的描述。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式，都属于本发明所保护的范围。

图1是本发明实施例一提供的机器学习方法的流程示意图。如图1所示，本实施例的方法包括以下步骤：

S110，获取用户请求数据；

其中，用户请求可以音频请求数据，非音频的请求数据。音频请求数据为用户发出请求的语音的音频数据。非音频的请求数据可以是用户通过终端或其他方式发送的包含请求信息的非音频数据。

S120，获取基于用户请求数据生成的指令；指令经由预先训练的任务处理模型基于作为输入数据的用户请求数据得到；

当用户请求为语音请求时，S120中的任务处理模型可以为如图2所示的任务处理模型。如图2所示，任务处理模型包括词向量模型21、语音识别模型22、实体识别模型23、状态追踪模型24、词槽预测模型25、指令生成模型26；

相应的，如图3所示，S120具体包括以下步骤：

S301，通过语音识别模型，提取音频请求数据的特征，以及将音频进行识别,得到用户请求语句；

S302，通过词向量模型，转化用户请求语句为词向量；

S303，通过状态追踪模型，根据当前用户请求语句和词向量及历史请求语句及词向量,生成新的对话状态特征，并记录用户请求语句和词向量形成历史请求语句及词向量；

需要说明的是，步骤303中，“根据当前用户请求语句和词向量及历史请求语句及词向量,生成新的对话状态特征，”这句话中的历史请求语句及词向量可以使最近几次记录的历史请求语句及词向量，也可以是最近一次的历史请求语句及词向量。其中：“并记录用户请求语句和词向量形成历史请求语句及词向量”中“记录用户请求语句和词向量”为记录S301中得到的用户请求语句和，S302中得到的词向量的到“历史请求语句及词向量”。

S304，通过实体识别模型，对用户请求问句进行实体识别得到用户请求问句对应的实体识别标签；

S305，通过词槽预测模型，根据对话状态特征和实体识别标签，生成任务词槽，并对任务词槽进行填充，

S306，通过指令生成模型，根据对话状态特征和已填充任务词槽，生成指令。

如此，任务处理模型可以通过如图3所示的各个步骤，生成指令。

其中，词向量模型、特征提取模型、实体识别模型、状态追踪模型、词槽预测模型和指令生成模型为深度学习模型，可以通过训练数据进行训练，以使得输出更加的符合人的预期目标，即通过进行数据训练，更加的智能。

其中，为了使得用户在刚刚开始使用该机器人时具有较好的体验，本申请提供的机器人学习方法中任务处理模型为经过预训练的模型。

具体的，预先训练的任务处理模型基于预先采集的训练用的用户请求数据、训练用的指令和训练用的反馈数据作为训练数据训练得到。如此可以通过少量的数据对任务处理模型进行的预训练，可以使任务处理模型处理一些常见的任务，以提高用户在刚刚开始使用该机器人时的体验。之后在用户的使用过程中，对任务处理模型作进一步的训练。

进一步的，预先采集训练用的用户请求数据、训练用的指令和训练用的反馈数据采集的方法包括以下步骤：

S401，获取并采集训练用的用户请求数据；

S402，获取并采集基于训练用的用户请求数据生成的训练用的指令；训练用的指令经由规则模型基于作为输入数据的训练用的用户请求数据得到；

S403，获取并采集用户对训练用指令的执行结果的反馈数据。

如此设置，在用户使用该产品的时候分为以下几个阶段：第一阶段为预训练阶段，即：在用户的使用过程中，通过规则模型代替任务处理模型的作用，基于用户的请求数据生成指令，同时执行该指令，之后获取用户对于执行结果的反馈，以用户请求数据、指令和反馈数据作为训练数据，训练任务处理模型，以完成任务处理模型的预训练过程；第二阶段为正常使用阶段，此时应拆除或卸载规则模块，即：在用户的使用过程中，通过任务处理模型基于用户的请求数据生成指令，同时执行该指令。

S130，获取用户对指令的执行结果的反馈数据；

S140，以用户请求数据、指令和反馈数据作为训练数据，训练任务处理模型。

由于本申请提供的方法中，任务处理模型训练用的数据包括用户请求数据、指令和反馈数据作为训练数据，其中，反馈数据是用户对指令的执行结果的反馈的数据，与背景技术中的方法相比较，由于任务处理模型训练用的训练数据包括：反馈数据。在对任务处理模型进行训练的过程中，使得任务处理模型基于用户的请求数据生成的指令与用户的行为习惯匹配。同时由于本申请提供的学习方法是一种在用户的使用过程中逐步学习的方案，相较于其他进行预先学习后，使用过程中不进行学习的方案，不需要在预先的学习中，通过大量的数据，进行一步到位的学习，而是在预先的学习中，通过少量数据进行学习，之后再使用过程中不断地学习。如此再预先学习的过程中需求的数据量更小。

具体的，在用户的使用过程中分为以下两个阶段：

第一阶段为预训练阶段，即：在用户的使用过程中，通过规则模型代替任务处理模型的作用，基于用户的请求数据生成指令，同时执行该指令，之后获取用户对于执行结果的反馈，以用户请求数据、指令和反馈数据作为训练数据，训练任务处理模型，以完成任务处理模型的预训练过程；在这个过程中，在用户在使用过程中，可能会出现执行的指令与用户的习惯不匹配的情况，可能会出现，用户反馈针对某条请求数据执行的指令为错误的情况，此时，任务处理模型会根据请求数据，指令和反馈数据进行训练。当下次出现相同的请求数据时，规则模块还是会生成相同的指令，此时用户反馈针对某条请求数据执行的指令为错误。任务处理模型会根据请求数据，指令和反馈数据进行训练。但是，由于此时，任务处理模型根据这条请求数据所发出的请求可能不同于规则模块的生成指令，所以根据这种请求数据，指令和反馈数据进行训练，训练效率低下。

当任务处理模型完成预训练后，需要拆除或卸载规则模块。此时，进入第二阶段。

第二阶段为正常使用阶段，即：在用户的使用过程中，通过任务处理模型基于用户的请求数据生成指令，同时执行该指令。用户对基于请求数据执行的指令进行反馈。具体的反馈可以为正确或不正确。任务处理模型基于请求数据，指令和反馈进行学习，若反馈为正确，则提高基于该请求生成该指令的概率，以保证下次获取类似的请求时可以生成合适的指令；若反馈为不正确，则降低基于该请求生成该指令的概率，以保证下次获取类似的请求时不会再次生成类似不合适的指令，从而提高生成正确指令的概率。

图5是本申请一实施例的提供的机器学习装置，参照图5，机器人学习装置包括：

第一获取模块501，用于获取用户请求数据；

第二获取模块502，用于获取基于用户请求数据生成的指令；指令经由预先训练的任务处理模型基于作为输入数据的用户请求数据得到；

第三获取模块503，用于获取用户对指令的执行结果的反馈数据；

训练模块504，用于以用户请求数据、指令和反馈数据作为训练数据，训练任务处理模型。

由于本申请提供的方案中，任务处理模型训练用的数据包括用户请求数据、指令和反馈数据作为训练数据，其中，反馈数据是用户对指令的执行结果的反馈的数据，与背景技术中的方法相比较，由于任务处理模型训练用的训练数据包括：反馈数据。在对任务处理模型进行训练的过程中，使得任务处理模型基于用户的请求数据生成的指令与用户的行为习惯匹配。同时由于本申请提供的学习方法是一种在用户的使用过程中逐步学习的方案，相较于其他进行预先学习后，使用过程中不进行学习的方案，不需要在预先的学习中，通过大量的数据，进行一步到位的学习，而是在预先的学习中，通过少量数据进行学习，之后再使用过程中不断地学习。如此再预先学习的过程中需求的数据量更小。

进一步的，用户请求数据为音频请求数据。

进一步的，

任务处理模型包括：词向量模型、语音识别模型、实体识别模型、状态追踪模型、词槽预测模型、指令生成模型：

预先训练的任务处理模型基于用户请求数据得到指令的过程，包括：

通过语音识别模型，提取音频请求数据的特征，以及将音频进行识别,得到用户请求语句；

通过词向量模型，转化用户请求语句为词向量；

通过状态追踪模型，根据当前用户请求语句和词向量及历史请求语句及词向量,生成新的对话状态特征，并记录用户请求语句和词向量形成历史请求语句及词向量；其中，历史请求语句及词向量为本次用户请求语句之前的历史请求语句及词向量；

通过实体识别模型，对用户请求问句进行实体识别得到用户请求问句对应的实体识别标签；

通过词槽预测模型，根据对话状态特征和实体识别标签，生成任务词槽，并对任务词槽进行填充，

通过指令生成模型，根据对话状态特征和已填充任务词槽，生成指令。

进一步的，词向量模型、特征提取模型、实体识别模型、状态追踪模型、词槽预测模型和指令生成模型为深度学习模型。

进一步的，预先训练的任务处理模型基于预先采集的训练用的用户请求数据、训练用的指令和训练用的反馈数据作为训练数据训练得到。

进一步的，预先采集训练用的用户请求数据、训练用的指令和训练用的反馈数据采集的方法包括：

获取并采集训练用的用户请求数据；

获取并采集基于训练用的用户请求数据生成的训练用的指令；训练用的指令经由规则模型基于作为输入数据的训练用的用户请求数据得到；

获取并采集用户对训练用指令的执行结果的反馈数据。

图6是本申请一实施例的提供的机器学习设备。参照图6，机器学习设备包括：

处理器601，以及与处理器相连接的存储器602；

存储器602用于存储计算机程序，计算机程序至少用于执行本申请实施例的第一方面的机器学习方法；

处理器用于调用并执行存储器中的计算机程序。

本申请实施例还提供一种存储介质，存储介质存储有计算机程序，计算机程序被处理器执行时，实现如本申请实施例的第一方面的机器人学习方法中各个步骤。

关于上述实施例中的装置和设备，其中各个模块和部件执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。可以理解的是，上述各实施例中相同或相似部分可以相互参考，在一些实施例中未详细说明的内容可以参见其他实施例中相同或相似的内容。

需要说明的是，在本发明的描述中，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。此外，在本发明的描述中，除非另有说明，“多个”的含义是指至少两个。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为，表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分，并且本发明的优选实施方式的范围包括另外的实现，其中可以不按所示出或讨论的顺序，包括根据所涉及的功能按基本同时的方式或按相反的顺序，来执行功能，这应被本发明的实施例所属技术领域的技术人员所理解。

应当理解，本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中，多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如，如果用硬件来实现，和在另一实施方式中一样，可用本领域公知的下列技术中的任一项或他们的组合来实现：具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路，具有合适的组合逻辑门电路的专用集成电路，可编程门阵列(PGA)，现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成，所述的程序可以存储于一种计算机可读存储介质中，该程序在执行时，包括方法实施例的步骤之一或其组合。

此外，在本发明各个实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器，磁盘或光盘等。

在本说明书的描述中，参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中，对上述术语的示意性表述不一定指的是相同的实施例或示例。而且，描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。

尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

Claims

1.一种机器学习方法，其特征在于，包括：

获取用户请求数据；

获取用户对所述指令的执行结果的反馈数据；

2.根据权利要求1所述的方法，其特征在于，所述用户请求数据为音频请求数据。

3.根据权利要求2所述的方法，其特征在于，

通过所述词向量模型，转化所述用户请求语句为词向量；

通过所述状态追踪模型，根据当前用户请求语句和所述词向量及历史请求语句及词向量,生成新的对话状态特征，并记录用户请求语句和词向量形成历史请求语句及词向量；

通过词槽预测模型，根据所述对话状态特征和所述实体识别标签，生成任务词槽，并对任务词槽进行填充；

4.根据权利要求3所述的方法，其特征在于，所述词向量模型、所述语音识别模型、所述实体识别模型、所述状态追踪模型、所述词槽预测模型和所述指令生成模型为深度学习模型。

5.根据权利要求1所述的方法，其特征在于，所述预先训练的任务处理模型基于预先采集的训练用的用户请求数据、训练用的指令和训练用的反馈数据作为训练数据训练得到。

6.根据权利要求5所述的方法，其特征在于，预先采集所述训练用的用户请求数据、所述训练用的指令和所述训练用的反馈数据采集的方法包括：

获取并采集所述训练用的用户请求数据；

获取并采集用户对所述训练用指令的执行结果的反馈数据。

7.一种机器学习装置，其特征在于，包括：

第一获取模块，用于获取用户请求数据；

8.根据权利要求7所述的装置，其特征在于，所述用户请求数据为音频请求数据。

9.根据权利要求8所述的装置，其特征在于，

通过所述特征提取模型，提取所述音频请求数据的特征，以及将所述音频进行识别,得到用户请求语句；

通过所述词向量模型，转化所述为用户请求语句词向量；

通过所述状态追踪模型，根据当前用户请求语句和所述词向量及历史请求语句及词向量,生成新的对话状态特征，并记录用户请求语句和词向量形成历史请求语句及词向量；其中，所述历史请求语句及词向量为本次用户请求语句之前的历史请求语句及词向量；，并记录用户请求语句和词向量形成历史请求语句及词向量；其中，所述历史请求语句及词向量为本次用户请求语句之前的历史请求语句及词向量；

10.根据权利要求9所述的装置，其特征在于，所述词向量模型、所述语音识别模型、所述实体识别模型、所述状态追踪模型、所述词槽预测模型和所述指令生成模型为深度学习模型。

11.根据权利要求7所述的装置，其特征在于，所述预先训练的任务处理模型基于预先采集的训练用的用户请求数据、训练用的指令和训练用的反馈数据作为训练数据训练得到。

12.根据权利要求7所述的装置，其特征在于，预先采集所述训练用的用户请求数据、所述训练用的指令和所述训练用的反馈数据采集的方法包括：

获取并采集所述训练用的用户请求数据；

获取并采集用户对所述训练用指令的执行结果的反馈数据。

13.一种机器学习设备，其特征在于，包括：

处理器，以及与所述处理器相连接的存储器；

所述存储器用于存储计算机程序，所述计算机程序至少用于执行权利要求1-6任一项所述的机器学习方法；

14.一种存储介质，其特征在于，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现如权利要求1-6任一项所述的机器学习方法中各个步骤。