CN107808004A

CN107808004A - 模型训练方法和系统、服务器、存储介质

Info

Publication number: CN107808004A
Application number: CN201711131972.4A
Authority: CN
Inventors: 王鸣; 王一鸣; 孙珂; 贺文嵩
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2017-11-15
Filing date: 2017-11-15
Publication date: 2018-03-16
Anticipated expiration: 2037-11-15
Also published as: CN107808004B

Abstract

本发明实施例公开了一种模型训练方法和系统、服务器、存储介质，其中，该方法包括：利用带标注的第一样本数据训练得到基础模型；利用基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈，训练得到回报模型，其中，回报模型用于对基础模型的解析结果进行评估；利用第三样本数据，结合基础模型和回报模型进行反馈训练，并将回报模型的目标置为正向反馈，以纠正基础模型向用户目标调整，得到调整后的基础模型。本发明实施例可以改善模型训练过程中的交互方式，降低数据标注的人力成本，提高不同场景中数据的复用性。

Description

模型训练方法和系统、服务器、存储介质

技术领域

本发明实施例涉及自然语言处理技术领域，尤其涉及一种模型训练方法和系统、服务器、存储介质。

背景技术

在数据库查询(query)理解任务中，现在常用的方法是将query拆解为包括类别、意图和槽位的三元组。类别即query属于哪个类别，比如天气、地图、星座。意图即query的目的，比如查看、购买、询问或查找路线等。槽位即query中的关键信息，比如在“北京今天的天气情况”中，“北京”是地点槽位，“今天”是时间槽位。数据查询解析的方法，也从传统的统计和规则变为现在较为常用的基于机器学习的方案。

但是，无论采用哪种方案，所需要的训练数据都要求是已经有标注结果的数据，即每条训练数据包括query和它对应的类别、意图和槽位，而现有技术中通常是人工进行标注，且数据的复用性比较差。对于同一类别或者同一槽位，不同的应用场景或者不同的人的意图，拆解方式都是不同的。例如，对于3C类的手机，可以按照【购买，查看】这种意图拆分，也可以按照【购买，功能，参数，图片，价格】这种意图拆分。对于槽位，存在相同问题，例如，对于“iPhone6s”一词，一种拆分方式为：把“iphone”作为品牌，“6s”作为型号；而另一种拆分方式可以为：把“iphone6”作为手机型号，“s”作为子型号。因此，拆分方式的多样性，造成在不同的应用场景下，标注数据很难复用，经常需要对同一类别的数据进行不同的标注，消耗巨大的人力成本。

发明内容

本发明实施例提供一种模型训练方法和系统、服务器、存储介质，以解决现有技术中对目标query进行人工标注成本高、不同场景中数据复用性差的问题。

第一方面，本发明实施例提供了一种模型训练方法，该方法包括：

利用带标注的第一样本数据训练得到基础模型；

利用所述基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈，训练得到回报模型，其中，所述回报模型用于对所述基础模型的解析结果进行评估；

利用第三样本数据，结合所述基础模型和回报模型进行反馈训练，并将所述回报模型的目标置为正向反馈，以纠正所述基础模型向用户目标调整，得到调整后的基础模型。

第二方面，本发明实施例还提供了一种模型训练系统，该系统包括：

基础模型训练模块，用于利用带标注的第一样本数据训练得到基础模型；

回报模型训练模块，用于利用所述基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈，训练得到回报模型，其中，所述回报模型用于对所述基础模型的解析结果进行评估；

模型调整训练模块，用于利用第三样本数据，结合所述基础模型和回报模型进行反馈训练，并将所述回报模型的目标置为正向反馈，以纠正所述基础模型向用户目标调整，得到调整后的基础模型。

第三方面，本发明实施例还提供了一种服务器，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如本发明任一实施例所述的模型训练方法。

第四方面，本发明实施例还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明任一实施例所述的模型训练方法。

本发明实施例通过利用带标注的第一样本数据训练得到基础模型，基于基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈，训练得到回报模型，利用此回报模型对基础模型的解析结果进行评估，然后利用第三样本数据，结合基础模型和回报模型进行反馈训练，调整得到趋向用户目标的基础模型。本发明实施例解决了在数据库查询理解任务中，现有技术对目标query进行人工标注成本高、标注方式不友好、不同场景中数据复用性差的问题，通过将增强学习和有监督学习相结合，直接基于自然语言交互训练，改善了模型训练过程中的交互方式，降低了数据标注的人力成本，提高了不同场景中数据的复用性。

附图说明

图1是本发明实施例一提供的模型训练方法的流程图；

图2是本发明实施例二提供的模型训练方法的流程图；

图3是本发明实施例三提供的模型训练方法的流程图；

图4是本发明实施例四提供的模型训练系统的结构示意图；

图5是本发明实施例五提供的一种服务器的结构示意图。

具体实施方式

下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释本发明，而非对本发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本发明相关的部分而非全部结构。

实施例一

图1是本发明实施例一提供的模型训练方法的流程图，本实施例可适用于进行模型训练的情况，该方法可以由模型训练系统来执行，该系统可以采用软件和/或硬件的方式实现，并可集成在服务器中。如图1所示，该方法具体包括：

S110、利用带标注的第一样本数据训练得到基础模型。

基础模型为目标模型，可以用来做query理解。进行基础模型训练的目的在于赋予模型初始的解析能力。

S120、利用训练得到的基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈，训练得到回报模型，其中，回报模型用于对基础模型的解析结果进行评估。

训练回报模型的目的在于通过用户的反馈，训练出一个可以用来评估基础模型效果的评估模型，从而指导基础模型进行反馈训练。回报模型训练过程中利用的训练数据是不带标注的第二样本数据，可以根据相关的具体应用场景确定第二样本数据。用户对解析结果的反馈用来实现在不同的应用场景中，对原有数据标注进行微调，提高基础模型的场景迁移能力。示例性的，对于查询“iphone6s”，基础模型会首先给出一个默认解析，比如“类别：3c，意图：查看，槽位【品牌：iphone，型号：6s】”，而用户可以直接通过键盘或语音输入“iphone6是手机型号，s是子型号”，基础模型即可自动触发进行训练，将意图和槽位更新为用户的目标。采用自然语言交互的方式，改善了模型训练过程中的交互方式，使得训练得到的模型更易于使用，且便于训练调整。

S130、利用第三样本数据，结合基础模型和回报模型进行反馈训练，并将回报模型的目标置为正向反馈，以纠正基础模型向用户目标调整，得到调整后的基础模型。

反馈训练的目的在于将用户的反馈输入到基础模型，并使基础模型的解析结果发生变化，更倾向于用户的目标。利用不带标注的第三样本数据，将基础模型和回报模型结合起来训练，并将回报模型的目标全部设置为正向反馈用来纠正基础模型，使得基础模型经调整后趋向用户目标。

基础模型和回报模型均采用机器学习模型。示例性的，具体的模型训练过程如下：首先利用历史数据，即带标注的第一样本数据，训练基础模型；用户对训练得到的基础模型输入query，即第二样本数据，基础模型将会给出query的解析结果，用户对该解析结果做出反馈，并利用query的解析结果以及用户的反馈训练得到回报模型；最后用回报模型对基础模型进行反馈，调整得到趋向用户目标的基础模型。不断重复上述过程，即可完成query理解模型的训练。当应用场景发生变化时，本实施例的技术方案训练得到的基础模型并不需要从零开始重新训练，原有数据的效果可以迁移到新的应用场景中，只需用自然语言交互的方式进行微调即可。

通过基础模型训练可以最大限度的将历史数据进行复用，不需要重新进行大规模数据标注，即带标注的第一样本数据在训练过程中只利用一次，之后不再需要重复利用带标注的第一样本数据进行模型训练。相比于现有技术的学习过程中，对于不同的应用场景，原有的标注数据不再适用，每次均需要对大量数据重新进行人工标注后，才可进行模型训练，而本实施例属于增强学习和有监督学习相结合的过程，将数据标注和模型训练结合在一起，面对不同的应用场景，只需要进行一次少量训练集数据富集，极大地降低了数据标注的人力成本。

本实施例的技术方案通过利用带标注的第一样本数据训练得到基础模型，基于基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈，训练得到回报模型，利用此回报模型对基础模型的解析结果进行评估，然后利用第三样本数据，结合基础模型和回报模型进行反馈训练，调整得到趋向用户目标的基础模型。该技术方案解决了在数据库查询理解任务中，现有技术对目标query进行人工标注成本高、标注方式不友好、不同场景中数据复用性差的问题，通过将增强学习和有监督学习相结合，直接基于自然语言交互训练，改善了模型训练过程中的交互方式，降低了数据标注的人力成本，提高了不同场景中数据的复用性。

实施例二

图2是本发明实施例二提供的模型训练方法的流程图，本实施例是在实施例一的基础上进行进一步地优化。如图2所示，该方法具体包括：

S210、利用带标注的第一样本数据训练得到基础模型。

可选的，样本数据包括query和query对应的特征信息，包括query的分词结果、词性和专有名词等，样本数据的标注包括query的类型、意图和槽位。

基础模型训练过程中的输入为训练数据的query和对应的特征，输出为query的标注结果，即类别，意图和槽位。

S220、将基础模型对第二样本数据的解析结果作为输入，用户对第二样本数据对应的解析结果的反馈作为目标，训练并得到回报模型，其中，用户对第二样本数据对应的解析结果的反馈是根据预设的模板句式划分的正向反馈和负向反馈。

用户的反馈结果包括的内容多种多样，模型训练系统会根据预设的模板句式将用户反馈分为正向反馈和负向反馈，其中，用户反馈结果若属于肯定结果，表示基础模型的解析结果正确，用户反馈结果若属于否定结果，表示基础模型的解析结果错误。

可选的，基础模型为循环神经网络模型，并结合条件随机场进行训练；

回报模型采用包括softmax层和全连接层的机器学习模型。

通过富集原有的query理解的数据构成有人工标注类别、意图和槽位的数据作为输入，采用循环神经网络和条件随机场结合的方式进行训练得到基础模型。回报模型采用包括softmax(用于多分类过程的函数)层和全连接层(Fully Connected Layers，FC层)的机器学习模型，提供一种迁移学习思想，保证本实施例中得到的基础模型对于不同的应用场景具有较强的迁移能力。

S230、利用第三样本数据，结合基础模型和回报模型进行反馈训练，并将回报模型的目标置为正向反馈，以纠正基础模型向用户目标调整，得到调整后的基础模型。

本实施例的技术方案通过将训练得到的基础模型对第二样本数据的解析结果作为输入，用户对第二样本数据对应的解析结果的反馈作为目标，训练并得到回报模型，然后利用第三样本数据，结合基础模型和回报模型进行反馈训练，调整得到趋向用户目标的基础模型。该技术方案解决了在数据库查询理解任务中，现有技术对目标query进行人工标注成本高、标注方式不友好、不同场景中数据复用性差的问题，通过将增强学习和有监督学习相结合，直接基于自然语言交互训练，改善了模型训练过程中的交互方式，降低了数据标注的人力成本，原有模型效果可以语言交互的方式进行微调后迁移到新的场景中，提高了不同场景中数据的复用性。

实施例三

图3是本发明实施例三提供的模型训练方法的流程图，本实施例是在上述实施例的基础上进行进一步地优化。如图3所示，该方法具体包括：

S310、利用带标注的第一样本数据训练得到基础模型。

S320、将基础模型对第二样本数据的解析结果作为输入，用户对第二样本数据对应的解析结果的反馈作为目标，训练并得到回报模型，其中，用户对第二样本数据对应的解析结果的反馈是根据预设的模板句式划分的正向反馈和负向反馈。

S330、利用第三样本数据，结合基础模型和回报模型进行反馈训练，并将回报模型的目标置为正向反馈，以纠正基础模型向用户目标调整，得到调整后的基础模型。

S340、利用带标注的第四样本数据，结合基础模型和回报模型进行双目标训练，其中，双目标包括基础模型对第四样本数据的解析结果和回报模型对第四样本数据的解析结果的反馈结果，且反馈结果为正向反馈。

结合基础模型和回报模型进行反馈训练后，可以继续利用一部分有标注训练数据继续进行训练，这部分数据的回报模型目标设置为正向反馈，即利用该部分数据进行训练的过程中，不只有基础模型对该数据的解析结果这一个目标，同时还有回报模型对该部分数据的正向反馈结果这个目标。基于上述两个目标，对基础模型进行双目标函数训练，可以稳定模型效果，同时取得解析和反馈的综合最优结果。

本实施例的技术方案通过利用带标注的第一样本数据和不带标注的第二样本数据训练得到基础模型和回报模型，基于不带标注的第三样本数据进行反馈训练，调整得到趋向用户目标的基础模型，再次利用带标注的第四样本数据，结合基础模型和回报模型进行双目标训练。该技术方案直接基于自然语言交互训练，不仅改善了模型训练过程中的交互方式，降低了数据标注的人力成本，提高了不同场景中数据的复用性，而且提高了训练得到的模型效果的稳定性。

实施例四

图4是本发明实施例四提供的模型训练系统的结构示意图，本实施例可适用于进行模型训练的情况。本发明实施例所提供的模型训练系统可执行本发明任意实施例所提供的模型训练方法，具备执行方法相应的功能模块和有益效果。如图4所示，该系统包括基础模型训练模块410、回报模型训练模块420和模型调整训练模块430，其中：

基础模型训练模块410，用于利用带标注的第一样本数据训练得到基础模型。

可选的，样本数据包括查询和查询对应的特征信息，样本数据的标注包括查询的类型、意图和槽位。

回报模型训练模块420，用于利用训练得到的基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈，训练得到回报模型，其中，回报模型用于对基础模型的解析结果进行评估。

进一步的，回报模型训练模块420具体用于：

将基础模型对第二样本数据的解析结果作为输入，用户对第二样本数据对应的解析结果的反馈作为目标，训练并得到回报模型；

其中，用户对第二样本数据对应的解析结果的反馈是根据预设的模板句式划分的正向反馈和负向反馈。

模型调整训练模块430，用于利用第三样本数据，结合基础模型和回报模型进行反馈训练，并将回报模型的目标置为正向反馈，以纠正基础模型向用户目标调整，得到调整后的基础模型。

回报模型采用包括softmax层和全连接层的机器学习模型。

在上述技术方案的基础上，该系统还包括双目标训练模块，用于利用带标注的第四样本数据，结合基础模型和回报模型进行双目标训练，其中，双目标包括基础模型对第四样本数据的解析结果和回报模型对第四样本数据的解析结果的反馈结果，且反馈结果为正向反馈。

实施例五

图5是本发明实施例五提供的一种服务器的结构示意图。图5示出了适于用来实现本发明实施方式的示例性服务器512的框图。图5显示的服务器512仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图5所示，服务器512以通用服务器的形式表现。服务器512的组件可以包括但不限于：一个或者多个处理器516，存储装置528，连接不同系统组件(包括存储装置528和处理器516)的总线518。

总线518表示几类总线结构中的一种或多种，包括存储装置总线或者存储装置控制器，外围总线，图形加速端口，处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说，这些体系结构包括但不限于工业标准体系结构(Industry SubversiveAlliance，ISA)总线，微通道体系结构(Micro Channel Architecture，MAC)总线，增强型ISA总线、视频电子标准协会(Video Electronics Standards Association，VESA)局域总线以及外围组件互连(Peripheral Component Interconnect，PCI)总线。

服务器512典型地包括多种计算机系统可读介质。这些介质可以是任何能够被服务器512访问的可用介质，包括易失性和非易失性介质，可移动的和不可移动的介质。

存储装置528可以包括易失性存储器形式的计算机系统可读介质，例如随机存取存储器(Random Access Memory，RAM)530和/或高速缓存存储器532。服务器512可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例，存储系统534可以用于读写不可移动的、非易失性磁介质(图5未显示，通常称为“硬盘驱动器”)。尽管图5中未示出，可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器，以及对可移动非易失性光盘，例如只读光盘(Compact Disc Read-Only Memory，CD-ROM),数字视盘(Digital Video Disc-Read Only Memory，DVD-ROM)或者其它光介质)读写的光盘驱动器。在这些情况下，每个驱动器可以通过一个或者多个数据介质接口与总线518相连。存储装置528可以包括至少一个程序产品，该程序产品具有一组(例如至少一个)程序模块，这些程序模块被配置以执行本发明各实施例的功能。

具有一组(至少一个)程序模块542的程序/实用工具540，可以存储在例如存储装置528中，这样的程序模块542包括但不限于操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块542通常执行本发明所描述的实施例中的功能和/或方法。

服务器512也可以与一个或多个外部设备514(例如键盘、指向设备、显示器524等)通信，还可与一个或者多个使得用户能与该服务器512交互的设备通信，和/或与使得该服务器512能与一个或多个其它计算设备进行通信的任何设备(例如网卡，调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口522进行。并且，服务器512还可以通过网络适配器520与一个或者多个网络(例如局域网(Local Area Network，LAN)，广域网(Wide AreaNetwork，WAN)和/或公共网络，例如因特网)通信。如图5所示，网络适配器520通过总线518与服务器512的其它模块通信。应当明白，尽管图中未示出，可以结合服务器512使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、磁盘阵列(Redundant Arrays of Independent Disks，RAID)系统、磁带驱动器以及数据备份存储系统等。

处理器516通过运行存储在存储装置528中的程序，从而执行各种功能应用以及数据处理，例如实现本发明实施例所提供的模型训练方法。

实施例六

本发明实施例六还提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如本发明实施例所提供的模型训练方法。

本发明实施例的计算机存储介质，可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(Erasable Programmable Read Only Memory，EPROM，或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于无线、电线、光缆、射频(Radio Frequency，RF)等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

注意，上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解，本发明不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此，虽然通过以上实施例对本发明进行了较为详细的说明，但是本发明不仅仅限于以上实施例，在不脱离本发明构思的情况下，还可以包括更多其他等效实施例，而本发明的范围由所附的权利要求范围决定。

Claims

1.一种模型训练方法，其特征在于，包括：

利用带标注的第一样本数据训练得到基础模型；

2.根据权利要求1所述的方法，其特征在于，所述利用所述基础模型对第二样本数据的解析结果和用户对第二样本数据对应的解析结果的反馈，训练得到回报模型，包括：

将所述基础模型对第二样本数据的解析结果作为输入，用户对第二样本数据对应的解析结果的反馈作为目标，训练并得到所述回报模型；

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：

利用带标注的第四样本数据，结合所述基础模型和回报模型进行双目标训练，其中，所述双目标包括所述基础模型对第四样本数据的解析结果和所述回报模型对第四样本数据的解析结果的反馈结果，且所述反馈结果为正向反馈。

4.根据权利要求1所述的方法，其特征在于，所述基础模型为循环神经网络模型，并结合条件随机场进行训练；

所述回报模型采用包括softmax层和全连接层的机器学习模型。

5.根据权利要求1所述的方法，其特征在于，所述样本数据包括查询和所述查询对应的特征信息，所述样本数据的标注包括查询的类型、意图和槽位。

6.一种模型训练系统，其特征在于，包括：

7.根据权利要求6所述的系统，其特征在于，所述回报模型训练模块具体用于：

8.根据权利要求6所述的系统，其特征在于，所述系统还包括：

双目标训练模块，用于利用带标注的第四样本数据，结合所述基础模型和回报模型进行双目标训练，其中，所述双目标包括所述基础模型对第四样本数据的解析结果和所述回报模型对第四样本数据的解析结果的反馈结果，且所述反馈结果为正向反馈。

9.根据权利要求6所述的系统，其特征在于，所述基础模型为循环神经网络模型，并结合条件随机场进行训练；

所述回报模型采用包括softmax层和全连接层的机器学习模型。

10.根据权利要求6所述的系统，其特征在于，所述样本数据包括查询和所述查询对应的特征信息，所述样本数据的标注包括查询的类型、意图和槽位。

11.一种服务器，其特征在于，包括：

一个或多个处理器；

存储装置，用于存储一个或多个程序，

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1～5中任一所述的模型训练方法。

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～5中任一所述的模型训练方法。