CN111651988A - 用于训练模型的方法、装置、设备以及存储介质 - Google Patents
用于训练模型的方法、装置、设备以及存储介质 Download PDFInfo
- Publication number
- CN111651988A CN111651988A CN202010495107.3A CN202010495107A CN111651988A CN 111651988 A CN111651988 A CN 111651988A CN 202010495107 A CN202010495107 A CN 202010495107A CN 111651988 A CN111651988 A CN 111651988A
- Authority
- CN
- China
- Prior art keywords
- model
- training
- intention
- word
- corpus
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000012549 training Methods 0.000 title claims abstract description 110
- 238000000034 method Methods 0.000 title claims abstract description 51
- 239000013598 vector Substances 0.000 claims description 29
- 230000002457 bidirectional effect Effects 0.000 claims description 19
- 230000015654 memory Effects 0.000 claims description 19
- 238000002372 labelling Methods 0.000 claims description 15
- 238000009826 distribution Methods 0.000 claims description 14
- 230000011218 segmentation Effects 0.000 claims description 10
- 230000000694 effects Effects 0.000 abstract description 11
- 238000003058 natural language processing Methods 0.000 abstract description 3
- 238000010586 diagram Methods 0.000 description 10
- 230000006854 communication Effects 0.000 description 8
- 238000004891 communication Methods 0.000 description 7
- 238000004590 computer program Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 238000012545 processing Methods 0.000 description 3
- 241001522296 Erithacus rubecula Species 0.000 description 2
- 241000282414 Homo sapiens Species 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 2
- 239000003795 chemical substances by application Substances 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 238000011176 pooling Methods 0.000 description 2
- 241000282412 Homo Species 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 235000013399 edible fruits Nutrition 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 238000010295 mobile communication Methods 0.000 description 1
- 230000003287 optical effect Effects 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2415—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on parametric or probabilistic models, e.g. based on likelihood ratio or false acceptance rate versus a false rejection rate
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Computational Linguistics (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Evolutionary Computation (AREA)
- Life Sciences & Earth Sciences (AREA)
- Computing Systems (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Biophysics (AREA)
- Software Systems (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Biology (AREA)
- Machine Translation (AREA)
Abstract
本申请公开了用于训练模型的方法、装置、设备以及存储介质,涉及自然语言处理领域。具体实现方案为:获取已训练的第一模型和待训练的第二模型;向第一模型输入语料,得到语料的意图识别结果和词槽预测结果;向第二模型输入语料,将意图识别结果和词槽预测结果作为第二模型的学习目标,训练第二模型。本实现方式把第一模型的效果蒸馏到第二模型,相比直接使用第一模型,节省了大量的计算资源。
Description
技术领域
本申请涉及计算机技术领域,具体涉及自然语言处理领域,尤其涉及用于训练模型的方法、装置、设备以及存储介质。
背景技术
在人机对话交互过程中,机器需要理解对话语句的语义。目前通常采用意图和槽位的结构化表示方法来表示用户对话的语义信息。基于深度神经网络进行分类和序列标注任务可以实现对话语句的意图和槽位识别,得到一条对话的意图和槽位。
人类在对话交流的过程中,本身是有很多先验知识的,利用这些先验,可以很自然的根据上下文判断出一句话中的“苹果”是指的水果还是手机。深度神经网络对话理解模型可以通过标注大量的训练语料,在某个封闭的特定领域,做到接近人类的水平。但是由于标注语料的成本昂贵,很难大范围使用。所以如果想要做到接近人类的水平,在模型中引入先验的语义知识是非常必要的。
发明内容
提供了一种用于训练模型的方法、装置、设备以及存储介质。
根据第一方面,提供了一种用于训练模型的方法,包括:获取已训练的第一模型和待训练的第二模型;向第一模型输入语料,得到语料的意图识别结果和词槽预测结果;向第二模型输入语料,将意图识别结果和词槽预测结果作为第二模型的学习目标,训练第二模型。
根据第二方面,提供了一种用于训练模型的装置,包括:获取单元,被配置成获取已训练的第一模型和待训练的第二模型;预测单元,被配置成向第一模型输入语料,得到语料的意图识别结果和词槽预测结果;第一训练单元,被配置成向第二模型输入语料,将意图识别结果和词槽预测结果作为第二模型的学习目标,训练第二模型。
根据第三方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,所述指令被至少一个处理器执行,以使至少一个处理器能够执行如第一方面所描述的方法。
根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,上述计算机指令用于使计算机执行如第一方面所描述的方法。
根据本申请的技术把第一模型的效果蒸馏到第二模型,相比直接使用第一模型,节省了大量的计算资源。
应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
附图用于更好地理解本方案,不构成对本申请的限定。其中:
图1是本申请的一个实施例可以应用于其中的示例性系统架构图;
图2是根据本申请的用于训练模型的方法的一个实施例的流程图;
图3是根据本申请的用于训练模型的方法的另一个实施例的流程图;
图4是根据本申请的用于训练模型的方法中第一模型的结构示意图;
图5是根据本申请的用于训练模型的方法中第二模型的结构示意图;
图6是图3所示实施例的应用场景示意图;
图7是根据本申请的用于训练模型的装置的一个实施例的结构示意图;
图8是用来实现本申请实施例的用于训练模型的方法的电子设备的框图。
具体实施方式
以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
图1示出了可以应用本申请的用于训练模型的方法或用于训练模型的装置的实施例的示例性系统架构100。
如图1所示,系统架构100可以包括终端设备101、102、103,网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。
用户可以使用终端设备101、102、103通过网络104与服务器105交互,以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如智能问答类应用、自然语言处理类应用等。
终端设备101、102、103可以是硬件,也可以是软件。当终端设备101、102、103为硬件时,可以是各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、车载电脑、膝上型便携计算机和台式计算机等等。当终端设备101、102、103为软件时,可以安装在上述所列举的电子设备中。其可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
服务器105可以是提供各种服务的服务器,例如对终端设备101、102、103提供语料进行处理的后台服务器。后台服务器可以利用处理后的语料训练模型,并将训练得到的模型反馈给终端设备101、102、103。
需要说明的是,服务器105可以是硬件,也可以是软件。当服务器105为硬件时,可以实现成多个服务器组成的分布式服务器集群,也可以实现成单个服务器。当服务器105为软件时,可以实现成多个软件或软件模块(例如用来提供分布式服务),也可以实现成单个软件或软件模块。在此不做具体限定。
需要说明的是,本申请实施例所提供的用于训练模型的方法一般由服务器105执行。相应地,用于训练模型的装置一般设置于服务器105中。
应该理解,图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。
继续参考图2,示出了根据本申请的用于训练模型的方法的一个实施例的流程200。本实施例的用于训练模型的方法,包括以下步骤:
步骤201,获取已训练的第一模型和待训练的第二模型。
本实施例中,用于训练模型的方法的执行主体(例如图1所示的服务器105)可以获取已训练的第一模型和待训练的第二模型。这里,第一模型可以是结构比较复杂,运行时耗费较多计算资源的模型,第二模型可以是结构比较简单,运行时耗费较少计算资源的模型。第一模型可以由执行主体或其它电子设备通过各种方式完成训练。已训练的第一模型的输出信息的准确率满足要求。第一模型和第二模型可用于相同的目的。本实施例中,第一模型和第二模型都用于意图识别或词槽预测。
步骤202,向第一模型输入语料,得到语料的意图识别结果和词槽预测结果。
本实施例中,可以向第一模型输入语料。上述语料可以是用户输入的文本。第一模型可以对所输入的语料进行意图识别和词槽预测,以识别用户的意图和指令。在人机对话中,初步明确用户意图之后,可以通过多轮对话,获取必要信息以最终得到明确用户指令。槽是多轮对话过程中将初步用户意图转化为明确用户指令所需要补全的信息。一个槽与一件事情的处理中所需要获取的一种信息相对应。词槽可以理解为利用用户输入的文本中的关键词填写的槽。
举例来说,如果输入语料为“我想听相声”,则意图识别结果可以为影音需求。如果输入语料为“我后天要坐火车去上海”。其中,分别将“后天”、“上海”填入名为“出发时间”、“目的地”的词槽中。
步骤203,向第二模型输入语料,将意图识别结果和词槽预测结果作为第二模型的学习目标,训练第二模型。
本实施例中,可以将输入第一模型的语料同样输入第二模型中,然后将意图识别结果和词槽预测结果作为第二模型的学习目标,以训练第二模型。这样,第二模型可以达到与第一模型相近的意图识别效果和词槽预测效果。
本申请的上述实施例提供的用于训练模型的方法,把第一模型的效果蒸馏到第二模型,相比直接使用第一模型,节省了大量的计算资源。
继续参见图3,其示出了根据本申请的用于训练模型的方法的另一个实施例的流程300。如图3所示,本实施例的用于训练模型的方法可以包括以下步骤:
步骤301,获取已训练的第一模型和待训练的第二模型。
本实施例中,上述第一模型和第二模型均用于意图识别和词槽预测。第一模型的结构可以如图4所示,第二模型的结构可以如图5所示。
如图4所示,第一模型可以包括预训练语言模型(ERNIE2.0)、双向循环网络(BiRNN)、全连接层(FC)、多分类层(softmax)和条件随机场(CRF)。ERNIE2.0的输入可以包括字粒度文本,ERNIE2.0的输出为输入文本的字向量。然后,上述字向量输入BiRNN,BiRNN的输出结果经FC和CRF,用于词槽预测训练。把BiRNN输出的两个单项的最后时刻的隐层向量拼接在一起,然后经FC和softmax,用于意图识别训练。
在本实施例的一些可选的实现方式中,上述第一模型可以通过图3中未示出的以下训练得到:获取预训练语言模型、意图识别任务数据和词槽预测任务数据;利用意图预测意图识别任务数据和词槽预测任务数据对预训练语言模型进行微调,得到第一模型。
本实现方式中,可以首先获取预训练语言模型、意图识别任务数据和词槽预测任务数据。然后,可以将意图识别任务数据输入和词槽预测任务数据输入上述预训练语言模型,对预训练语言模型进行微调训练,得到上述第一模型。
在本实施例的一些可选的实现方式中,意图识别任务数据可以包括输入语料和标注意图,词槽预测任务数据可以包括输入语料和标注词槽。执行主体还可以通过图3中未示出的以下步骤来得到第一模型:将输入语料输入预训练语言模型,得到输入语料的字向量;将字向量输入双向循环网络;根据双向循环网络的输出以及标注意图、标注词槽,对预训练语言模型进行微调,得到第一模型。
本实现方式中,执行主体可以将输入语料输入预训练语言模型,得到输入语料的字向量。然后,将字向量输入双向循环网络。并根据双向循环网络的输出以及标注意图、标注词槽,对预训练语言模型进行微调,得到第一模型。具体的,可以根据双向循环网络的输出结果以及标注词槽,对预训练语言模型进行微调,实现词槽预测的训练。可以将双向循环网络输出的两个单项的最后时刻的隐层向量拼接在一起,根据拼接得到的向量以及标注意图,对预训练语言模型进行微调,实现意图识别的训练。从而得到第一模型。
在本实施例的一些可选的实现方式中,意图识别任务数据和词槽预测任务数据还可以包括无标注的对话语料。上述对话语料可以包括多轮对话。由于意图标注和词槽标注一般由人工来完成,使得标注数据的获取周期长,获取成本高。对话语料的获取相比起标注数据的获取要简单的多,不需要耗费较长的周期。
预训练模型基于大规模的无监督数据训练而成,复杂多层的模型中蕴含着丰富的语义知识。通过不使用特征的方式,直接通过预训练模型微调进行对话理解。在训练的过程中,根据对话理解的语料和目标,模型能够实现自动调节和充分使用语料中的语义信息,从而使得语义知识的利用更加充分。
如图5所示,第二模型可以包括嵌入向量层(embedding)、双向循环网络(BiRNN)、最大池化层(max pooling)、全连接层(FC)、多分类层(softmax)和条件随机场(CRF)。其中,输入语料经过分词后,进行embedding,得到嵌入向量。然后,嵌入向量输入到BiRNN,输出结果经过max pooling、FC和softmax进行意图硬目标和软目标训练。BiRNN输出结果经过CRF、FC用于槽位训练。
在本实施例的一些可选的实现方式中,第二模型可以由图3中未示出的以下步骤训练得到:对输入语料进行分词以及确定分词结果的嵌入向量;将嵌入向量输入双向循环网络;根据双向循环网络的输出以及意图识别结果和词槽预测结果,训练第二模型。
本实现方式中,可以首先对输入语料进行分词。然后,确定分词结果的嵌入向量。并将嵌入向量输入双向循环网络。根据双向循环网络的输出结果以及意图识别结果,进行意图识别训练。根据双向循环网络的输出结果以及词槽预测结果,进行词槽预测训练。从而实现第二模型的训练。
步骤302,向第一模型输入语料,得到语料的意图识别结果和词槽预测结果。
本实施例中,意图识别结果可以包括预测意图和意图分布概率。这里预测意图可以是指概率值最大的意图。意图分布概率是指其它意图所占的概率。例如,对于输入语料A,第一模型得到的意图识别结果为意图2,意图分布概率可以包括:意图1的概率0.3、意图2的概率0.5、意图3的概率0.1、意图4的概率0.1。
步骤303,将预测意图作为第二模型的意图学习硬目标,将意图概率分布作为第二模型的意图学习软目标,将词槽预测结果作为第二模型的词槽学习目标,训练第二模型。
本实施例中,可以将第一模型得到的预测意图作为第二模型的意图学习硬目标,将意图概率分布作为第二模型的意图学习软目标。这里,硬目标(softmax)是指正确标签的交叉熵,软目标(soft_softmax)是指大模型产生的类概率的交叉熵。软目标的作用是让第二模型学习到第一模型的概率分布,让第二模型尽可能完整的学习到第一模型的效果。但是有些数据的已训练模型的概率分布过于平均,最高的几个概率值相差不大,这会让第二模型在学习的时候失去目标,导致对这些第二模型学习效果变差,所以再加入意图硬目标,最终使用意图硬目标和软目标结合的方式。
本实施例中,还可以将词槽预测结果作为第二模型的词槽学习目标。第二模型训练时以这三个目标做多任务学习,第二模型做意图识别时将硬目标作为意图识别结果。
继续参见图6,其示出了根据本申请的用于训练模型的方法的一个应用场景的示意图。在图6的音乐播放场景中,共有三个意图:MUSIC_PLAY(播放音乐)、MUSIC_STOP(停止播放)和ALBUM_PLAY(播放专辑)。还有三个槽位:music_name(音乐名)、singer_name(歌手名)和album_name(专辑名)。用户输入“播放七里香”到第一模型中,第一模型预测的意图是MUSIC_PLAY,槽位是music_name#七里香,第一模型的多分类层(softmax)给出的概率分布是(MUSIC_PLAY:0.7,MUSIC_STOP:0.1,ALBUM_PLAY:0.2)。之后把“播放七里香”输入到第二模型中,意图识别的硬目标为MUSIC_PLAY,软目标是(MUSIC_PLAY:0.7,MUSIC_STOP:0.1,ALBUM_PLAY:0.2),词槽预测的目标是music_name#七里香。
本申请的上述实施例提供的用于训练模型的方法,可以使用标注数据和大量的无监督数据,把第一模型的效果蒸馏到第二模型上。相比直接使用第一模型,在保证损失较小预测效果的情况下,可以节省大量的计算资源。
进一步参考图7,作为对上述各图所示方法的实现,本申请提供了一种用于训练模型的装置的一个实施例,该装置实施例与图2所示的方法实施例相对应,该装置具体可以应用于各种电子设备中。
如图7所示,本实施例的训练模型装置700包括:获取单元701、预测单元702和第一训练单元703。
获取单元701,被配置成获取已训练的第一模型和待训练的第二模型。
预测单元702,被配置成向第一模型输入语料,得到语料的意图识别结果和词槽预测结果;
第一训练单元703,被配置成向第二模型输入语料,将意图识别结果和词槽预测结果作为第二模型的学习目标,训练第二模型。
在本实施例的一些可选的实现方式中,意图识别结果包括预测意图和意图概率分布。第一训练单元703可以进一步被配置成:将预测意图作为第二模型的意图学习硬目标,将意图概率分布作为第二模型的意图学习软目标,将词槽预测结果作为第二模型的词槽学习目标,训练第二模型。
在本实施例的一些可选的实现方式中,装置700还可以进一步包括图7中未示出的第二训练单元,第二训练单元被配置成通过以下训练步骤得到第一模型:获取预训练语言模型、意图识别任务数据和词槽预测任务数据;利用意图识别任务数据和词槽预测任务数据对预训练语言模型进行微调,得到第一模型。
在本实施例的一些可选的实现方式中,意图识别任务数据包括输入语料和标注意图,词槽预测任务数据包括输入语料和标注词槽。第二训练单元进一步被配置成:将输入语料输入预训练语言模型,得到输入语料的字向量;将字向量输入双向循环网络;根据双向循环网络的输出以及标注意图、标注词槽,对预训练语言模型进行微调,得到第一模型。
在本实施例的一些可选的实现方式中,第一训练模型703可以进一步被配置成:对输入语料进行分词以及确定分词结果的嵌入向量;将嵌入向量输入双向循环网络;根据双向循环网络的输出以及意图识别结果和词槽预测结果,训练第二模型。
应当理解,用于训练模型的装置700中记载的单元701至单元703分别与参考图2中描述的方法中的各个步骤相对应。由此,上文针对用于训练模型的方法描述的操作和特征同样适用于装置500及其中包含的单元,在此不再赘述。
根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。
如图8所示,是根据本申请实施例的执行用于训练模型的方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。
如图8所示,该电子设备包括:一个或多个处理器801、存储器802,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示GUI的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图8中以一个处理器801为例。
存储器802即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的执行用于训练模型的方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的执行用于训练模型的方法。
存储器802作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的执行用于训练模型的方法对应的程序指令/模块(例如,附图7所示的获取单元701、预测单元702和第一训练单元703)。处理器801通过运行存储在存储器802中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的执行用于训练模型的方法。
存储器802可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据执行用于训练模型的电子设备的使用所创建的数据等。此外,存储器802可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器802可选包括相对于处理器801远程设置的存储器,这些远程存储器可以通过网络连接至执行用于训练模型的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
执行用于训练模型的方法的电子设备还可以包括:输入装置803和输出装置804。处理器801、存储器802、输入装置803和输出装置804可以通过总线或者其他方式连接,图8中以通过总线连接为例。
输入装置803可接收输入的数字或字符信息,以及产生与执行用于训练模型的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置804可以包括显示设备、辅助照明装置(例如,LED)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(LCD)、发光二极管(LED)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。
此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用ASIC(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(PLD)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。
为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)和互联网。
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。
根据本申请实施例的技术方案,把第一模型的效果蒸馏到第二模型,相比直接使用第一模型,节省了大量的计算资源。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。
Claims (12)
1.一种用于训练模型的方法,包括:
获取已训练的第一模型和待训练的第二模型;
向所述第一模型输入语料,得到所述语料的意图识别结果和词槽预测结果;
向所述第二模型输入所述语料,将所述意图识别结果和所述词槽预测结果作为所述第二模型的学习目标,训练所述第二模型。
2.根据权利要求1所述的方法,其中,所述意图识别结果包括预测意图和意图概率分布;以及
所述向所述第二模型输入所述语料,将所述意图识别结果和词槽预测结果作为所述第二模型的学习目标,训练所述第二模型,包括:
将所述预测意图作为所述第二模型的意图学习硬目标,将所述意图概率分布作为所述第二模型的意图学习软目标,将所述词槽预测结果作为所述第二模型的词槽学习目标,训练所述第二模型。
3.根据权利要求1所述的方法,其中,所述第一模型通过以下训练步骤得到:
获取预训练语言模型、意图识别任务数据和词槽预测任务数据;
利用所述意图识别任务数据和词槽预测任务数据对所述预训练语言模型进行微调,得到所述第一模型。
4.根据权利要求3所述的方法,其中,所述意图识别任务数据包括输入语料和标注意图,所述词槽预测任务数据包括输入语料和标注词槽;以及
所述利用所述意图识别任务数据和词槽预测任务数据对所述预训练语言模型进行微调,得到所述第一模型,包括:
将所述输入语料输入所述预训练语言模型,得到所述输入语料的字向量;
将所述字向量输入双向循环网络;
根据所述双向循环网络的输出以及所述标注意图、所述标注词槽,对所述预训练语言模型进行微调,得到所述第一模型。
5.根据权利要求1所述的方法,其中,所述向所述第二模型输入所述语料,将所述意图识别结果和词槽预测结果作为所述第二模型的学习目标,训练所述第二模型,包括:
对所述输入语料进行分词以及确定分词结果的嵌入向量;
将所述嵌入向量输入双向循环网络;
根据所述双向循环网络的输出以及所述意图识别结果和词槽预测结果,训练所述第二模型。
6.一种用于训练模型的装置,包括:
获取单元,被配置成获取已训练的第一模型和待训练的第二模型;
预测单元,被配置成向所述第一模型输入语料,得到所述语料的意图识别结果和词槽预测结果;
第一训练单元,被配置成向所述第二模型输入所述语料,将所述意图识别结果和所述词槽预测结果作为所述第二模型的学习目标,训练所述第二模型。
7.根据权利要求6所述的装置,其中,所述意图识别结果包括预测意图和意图概率分布;以及
所述第一训练单元进一步被配置成:
将所述预测意图作为所述第二模型的意图学习硬目标,将所述意图概率分布作为所述第二模型的意图学习软目标,将所述词槽预测结果作为所述第二模型的词槽学习目标,训练所述第二模型。
8.根据权利要求6所述的装置,其中,所述装置还包括第二训练单元,所述第二训练单元被配置成通过以下训练步骤得到所述第一模型:
获取预训练语言模型、意图识别任务数据和词槽预测任务数据;
利用所述意图识别任务数据和词槽预测任务数据对所述预训练语言模型进行微调,得到所述第一模型。
9.根据权利要求8所述的装置,其中,所述意图识别任务数据包括输入语料和标注意图,所述词槽预测任务数据包括输入语料和标注词槽;以及
所述第二训练单元进一步被配置成:
将所述输入语料输入所述预训练语言模型,得到所述输入语料的字向量;
将所述字向量输入双向循环网络;
根据所述双向循环网络的输出以及所述标注意图、所述标注词槽,对所述预训练语言模型进行微调,得到所述第一模型。
10.根据权利要求6所述的装置,其中,所述第一训练模型进一步被配置成:
对所述输入语料进行分词以及确定分词结果的嵌入向量;
将所述嵌入向量输入双向循环网络;
根据所述双向循环网络的输出以及所述意图识别结果和词槽预测结果,训练所述第二模型。
11.一种电子设备,包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-5中任一项所述的方法。
12.一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行权利要求1-5中任一项所述的方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010495107.3A CN111651988B (zh) | 2020-06-03 | 2020-06-03 | 用于训练模型的方法、装置、设备以及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010495107.3A CN111651988B (zh) | 2020-06-03 | 2020-06-03 | 用于训练模型的方法、装置、设备以及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111651988A true CN111651988A (zh) | 2020-09-11 |
CN111651988B CN111651988B (zh) | 2023-05-19 |
Family
ID=72347243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010495107.3A Active CN111651988B (zh) | 2020-06-03 | 2020-06-03 | 用于训练模型的方法、装置、设备以及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111651988B (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036509A (zh) * | 2020-09-30 | 2020-12-04 | 北京百度网讯科技有限公司 | 用于训练图像识别模型的方法和装置 |
Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140278355A1 (en) * | 2013-03-14 | 2014-09-18 | Microsoft Corporation | Using human perception in building language understanding models |
CN108304439A (zh) * | 2017-10-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种语义模型优化方法、装置及智能设备、存储介质 |
WO2019046463A1 (en) * | 2017-08-29 | 2019-03-07 | Zhoa Tiancheng | SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE |
CN110168535A (zh) * | 2017-10-31 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及终端、计算机存储介质 |
CN110309514A (zh) * | 2019-07-09 | 2019-10-08 | 北京金山数字娱乐科技有限公司 | 一种语义识别方法及装置 |
CN110442859A (zh) * | 2019-06-28 | 2019-11-12 | 中国人民解放军国防科技大学 | 标注语料生成方法、装置、设备及存储介质 |
CN110457689A (zh) * | 2019-07-26 | 2019-11-15 | 科大讯飞(苏州)科技有限公司 | 语义处理方法及相关装置 |
CN110502608A (zh) * | 2019-07-05 | 2019-11-26 | 平安科技(深圳)有限公司 | 基于知识图谱的人机对话方法及人机对话装置 |
CN110674292A (zh) * | 2019-08-27 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种人机交互方法、装置、设备及介质 |
WO2020052405A1 (zh) * | 2018-09-10 | 2020-03-19 | 腾讯科技(深圳)有限公司 | 语料标注集的生成方法及装置、电子设备、存储介质 |
CN111144115A (zh) * | 2019-12-23 | 2020-05-12 | 北京百度网讯科技有限公司 | 预训练语言模型获取方法、装置、电子设备和存储介质 |
CN111209383A (zh) * | 2020-01-06 | 2020-05-29 | 广州小鹏汽车科技有限公司 | 多轮对话的处理方法及处理装置、车辆、存储介质 |
CN111209396A (zh) * | 2019-12-27 | 2020-05-29 | 深圳市优必选科技股份有限公司 | 实体识别模型的训练方法及实体识别方法、相关装置 |
-
2020
- 2020-06-03 CN CN202010495107.3A patent/CN111651988B/zh active Active
Patent Citations (13)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20140278355A1 (en) * | 2013-03-14 | 2014-09-18 | Microsoft Corporation | Using human perception in building language understanding models |
WO2019046463A1 (en) * | 2017-08-29 | 2019-03-07 | Zhoa Tiancheng | SYSTEM AND METHOD FOR THE DEFINITION OF DIALOGUE INTENTIONS AND THE CONSTRUCTION OF INTENTION RECOGNITION MODELS WITHOUT PRIOR KNOWLEDGE |
CN108304439A (zh) * | 2017-10-30 | 2018-07-20 | 腾讯科技(深圳)有限公司 | 一种语义模型优化方法、装置及智能设备、存储介质 |
CN110168535A (zh) * | 2017-10-31 | 2019-08-23 | 腾讯科技(深圳)有限公司 | 一种信息处理方法及终端、计算机存储介质 |
WO2020052405A1 (zh) * | 2018-09-10 | 2020-03-19 | 腾讯科技(深圳)有限公司 | 语料标注集的生成方法及装置、电子设备、存储介质 |
CN110442859A (zh) * | 2019-06-28 | 2019-11-12 | 中国人民解放军国防科技大学 | 标注语料生成方法、装置、设备及存储介质 |
CN110502608A (zh) * | 2019-07-05 | 2019-11-26 | 平安科技(深圳)有限公司 | 基于知识图谱的人机对话方法及人机对话装置 |
CN110309514A (zh) * | 2019-07-09 | 2019-10-08 | 北京金山数字娱乐科技有限公司 | 一种语义识别方法及装置 |
CN110457689A (zh) * | 2019-07-26 | 2019-11-15 | 科大讯飞(苏州)科技有限公司 | 语义处理方法及相关装置 |
CN110674292A (zh) * | 2019-08-27 | 2020-01-10 | 腾讯科技(深圳)有限公司 | 一种人机交互方法、装置、设备及介质 |
CN111144115A (zh) * | 2019-12-23 | 2020-05-12 | 北京百度网讯科技有限公司 | 预训练语言模型获取方法、装置、电子设备和存储介质 |
CN111209396A (zh) * | 2019-12-27 | 2020-05-29 | 深圳市优必选科技股份有限公司 | 实体识别模型的训练方法及实体识别方法、相关装置 |
CN111209383A (zh) * | 2020-01-06 | 2020-05-29 | 广州小鹏汽车科技有限公司 | 多轮对话的处理方法及处理装置、车辆、存储介质 |
Non-Patent Citations (2)
Title |
---|
ZHANGZHICHANG等: ""A Joint Learning Framework With BERT for Spoken Language Understanding"" * |
华冰涛;袁志祥;肖维民;郑啸;: ""基于BLSTM-CNN-CRF模型的槽填充与意图识别"" * |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112036509A (zh) * | 2020-09-30 | 2020-12-04 | 北京百度网讯科技有限公司 | 用于训练图像识别模型的方法和装置 |
Also Published As
Publication number | Publication date |
---|---|
CN111651988B (zh) | 2023-05-19 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111428008B (zh) | 用于训练模型的方法、装置、设备以及存储介质 | |
CN111523326B (zh) | 实体链指方法、装置、设备以及存储介质 | |
CN111079442B (zh) | 文档的向量化表示方法、装置和计算机设备 | |
CN112560912B (zh) | 分类模型的训练方法、装置、电子设备和存储介质 | |
JP7247441B2 (ja) | セマンティック表現モデルの処理方法、装置、電子機器、及び記憶媒体 | |
CN110674314B (zh) | 语句识别方法及装置 | |
CN111104514B (zh) | 文档标签模型的训练方法及装置 | |
CN112530437B (zh) | 语义识别方法、装置、设备以及存储介质 | |
CN111191428B (zh) | 评论信息处理方法、装置、计算机设备和介质 | |
CN111708922A (zh) | 用于表示异构图节点的模型生成方法及装置 | |
CN111666380A (zh) | 一种智能呼叫方法、装置、设备和介质 | |
CN111460135B (zh) | 用于生成文本摘要的方法和装置 | |
CN111709252B (zh) | 基于预训练的语义模型的模型改进方法及装置 | |
CN111680517A (zh) | 用于训练模型的方法、装置、设备以及存储介质 | |
CN112507735A (zh) | 机器翻译模型的训练方法、装置和电子设备 | |
CN110767212B (zh) | 一种语音处理方法、装置和电子设备 | |
CN111241245A (zh) | 人机交互处理方法、装置及电子设备 | |
CN111539220B (zh) | 语义相似度模型的训练方法、装置、电子设备及存储介质 | |
CN111666751A (zh) | 训练文本扩充方法、装置、设备以及存储介质 | |
CN111539209A (zh) | 用于实体分类的方法和装置 | |
CN112417156B (zh) | 多任务学习方法、装置、设备以及存储介质 | |
CN111127191A (zh) | 风险评估方法及装置 | |
CN111522944A (zh) | 用于输出信息的方法、装置、设备以及存储介质 | |
CN112528669A (zh) | 多语言模型的训练方法、装置、电子设备和可读存储介质 | |
CN111325000B (zh) | 语言生成方法、装置及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |