CN110399492A - 针对用户问句的问题分类模型的训练方法和装置 - Google Patents

针对用户问句的问题分类模型的训练方法和装置 Download PDF

Info

Publication number
CN110399492A
CN110399492A CN201910663095.8A CN201910663095A CN110399492A CN 110399492 A CN110399492 A CN 110399492A CN 201910663095 A CN201910663095 A CN 201910663095A CN 110399492 A CN110399492 A CN 110399492A
Authority
CN
China
Prior art keywords
domain
sample
disaggregated model
encoder
classification
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910663095.8A
Other languages
English (en)
Inventor
王雅芳
龙翀
张晓彤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Advanced New Technologies Co Ltd
Advantageous New Technologies Co Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to CN201910663095.8A priority Critical patent/CN110399492A/zh
Publication of CN110399492A publication Critical patent/CN110399492A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Artificial Intelligence (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本说明书实施例提供一种针对用户问句的问题分类模型的训练方法和装置,获取源领域和目标领域的样本数据,源领域的样本数据有问题分类标签,目标领域的样本数据没有问题分类标签;将源领域的问题样本依次经过编码器和问题分类模型,将源领域的问题样本和目标领域的问题样本依次经过编码器和域分类模型,根据问题分类标签和领域标签,对编码器、问题分类模型和域分类模型进行联合训练,得到训练后的编码器和训练后的问题分类模型。能够在缺乏足够可用的训练样本时,保证训练后得到一个可靠的问题分类模型。

Description

针对用户问句的问题分类模型的训练方法和装置
技术领域
本说明书一个或多个实施例涉及计算机领域,尤其涉及针对用户问句的问题分类模型的训练方法和装置。
背景技术
在机器人客服回答用户问题时,常常会涉及到针对用户问句的分类。例如,确定用户问句对应的标准问句,以便由机器人客服提供该标准问句对应的答案。其中,标准问句也称为标准问题,是根据业务整理的一些用户可能问的问题。每个问题有一个问题标识。
在针对用户问句的问题分类模型的训练时,常常缺乏足够可用的训练样本,以致无法保证训练后得到一个可靠的问题分类模型。
因此,希望能有改进的方案,能够在缺乏足够可用的训练样本时,保证训练后得到一个可靠的问题分类模型。
发明内容
本说明书一个或多个实施例描述了一种针对用户问句的问题分类模型的训练方法和装置,能够在缺乏足够可用的训练样本时,保证训练后得到一个可靠的问题分类模型。
第一方面,提供了一种针对用户问句的问题分类模型的训练方法,方法包括:
获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
将所述源领域的问题样本输入编码器,得到第一特征向量;将所述目标领域的问题样本输入所述编码器,得到第二特征向量;
将所述第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;
将所述第一特征向量和所述第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果;
根据所述问题分类预测结果和所述问题分类标签,根据所述域分类预测结果和所述领域标签,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练,得到训练后的所述编码器和训练后的所述问题分类模型。
在一种可能的实施方式中,所述方法还包括:
将所述目标领域的待测用户问句作为训练后的所述编码器的输入,得到目标特征向量;
将所述目标特征向量作为训练后的所述问题分类模型的输入,通过所述问题分类模型的输出得到所述待测用户问句对应的类别。
在一种可能的实施方式中,所述将所述第一特征向量和所述第二特征向量作为样本特征输入域分类模型,包括:
将所述第一特征向量和所述第二特征向量经过梯度反转层,得到反转特征向量;
将所述反转特征向量作为样本特征输入域分类模型。
进一步地,所述对所述编码器、所述问题分类模型和所述域分类模型进行联合训练,包括:
对所述问题分类模型的损失函数和所述域分类模型的损失函数求和,得到总损失函数;
通过最小化所述总损失函数,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练。
进一步地,所述用户问句对应的类别包括:
所述用户问句对应的标准问句。
进一步地,所述用户问句对应的类别包括:
所述用户问句对应的人工客服技能组类别。
在一种可能的实施方式中,所述编码器包括嵌入层和特征提取层,所述嵌入层用于将输入的问题样本转换为多个嵌入向量,所述特征提取层用于基于所述多个嵌入向量,得到用于表示该问题样本的句子特征的特征向量。
进一步地,所述嵌入层包括:
词嵌入层、位置嵌入层、字符嵌入层,所述词嵌入层用于根据该问题样本包含的各个词确定多个第一嵌入子向量,所述位置嵌入层用于根据该问题样本包含的各个词的位置确定多个第二嵌入子向量,所述字符嵌入层用于根据该问题样本包含的各个字符确定多个第三嵌入子向量,所述第一嵌入子向量、所述第二嵌入子向量和所述第三嵌入子向量用于生成所述嵌入向量。
在一种可能的实施方式中,所述问题分类模型包括:
长短期记忆网络(long short term memory,LSTM)、深度神经网络(deep neuralnetwork,DNN)和卷积神经网络(convolutional neural networks,CNN);
其中,所述LSTM用于对所述编码器输出的特征向量进行特征提取,得到第一特征子向量;所述DNN用于对所述编码器输出的特征向量进行特征提取,得到第二特征子向量;所述CNN用于对所述编码器输出的特征向量进行特征提取,得到第三特征子向量;所述第一特征子向量、所述第二特征子向量和所述第三特征子向量拼接后得到特征向量,以使所述问题分类模型根据该特征向量得到所述问题分类预测结果。
第二方面,提供了一种针对用户问句的问题分类模型的训练方法,方法包括:
获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
将所述源领域的问题样本输入编码器,得到第一特征向量;
将所述第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;
根据所述问题分类预测结果和所述问题分类标签,对所述编码器和所述问题分类模型进行训练,得到初步训练后的所述编码器和所述问题分类模型;
将所述源领域的问题样本以及所述目标领域的问题样本输入初步训练后的所述编码器,得到第二特征向量;
将所述第二特征向量作为样本特征输入域分类模型,以得到域分类预测结果;
根据所述域分类预测结果和所述领域标签,对所述编码器和所述域分类模型进行训练,得到再次训练后的所述编码器。
第三方面,提供了一种针对用户问句的问题分类模型的训练装置,装置包括:
获取单元,用于获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
编码单元,用于将所述获取单元获取的源领域的问题样本输入编码器,得到第一特征向量;将所述获取单元获取的目标领域的问题样本输入所述编码器,得到第二特征向量;
第一预测单元,用于将所述编码单元得到的第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;
第二预测单元,用于将所述编码单元得到的所述第一特征向量和所述第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果;
训练单元,用于根据所述第一预测单元得到的问题分类预测结果和所述获取单元获取的问题分类标签,根据所述第二预测单元得到的域分类预测结果和所述获取单元获取的领域标签,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练,得到训练后的所述编码器和训练后的所述问题分类模型。
第四方面,提供了一种针对用户问句的问题分类模型的训练装置,装置包括:
获取单元,用于获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
编码单元,用于将所述获取单元获取的源领域的问题样本输入编码器,得到第一特征向量;
第一预测单元,用于将所述编码单元得到的第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;
第一训练单元,用于根据所述第一预测单元得到的问题分类预测结果和所述获取单元获取的问题分类标签,对所述编码器和所述问题分类模型进行训练,得到初步训练后的所述编码器和所述问题分类模型;
所述编码单元,还用于将所述获取单元获取的所述源领域的问题样本以及所述目标领域的问题样本输入初步训练后的所述编码器,得到第二特征向量;
第二预测单元,用于将所述编码单元得到的第二特征向量作为样本特征输入域分类模型,以得到域分类预测结果;
第二训练单元,用于根据所述第二预测单元得到的域分类预测结果和所述获取单元获取的领域标签,对所述编码器和所述域分类模型进行训练,得到再次训练后的所述编码器。
第五方面,提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行第一方面或第二方面的方法。
第六方面,提供了一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现第一方面或第二方面的方法。
通过本说明书实施例提供的方法和装置,首先获取源领域的样本数据和目标领域的样本数据,源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,目标领域的样本数据包括目标领域的问题样本和领域标签,源领域和目标领域具有相同的分类;然后将源领域的问题样本输入编码器,得到第一特征向量;将目标领域的问题样本输入编码器,得到第二特征向量;接着将第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;再将第一特征向量和第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果;最后根据所述问题分类预测结果和所述问题分类标签,根据所述域分类预测结果和所述领域标签,对编码器、问题分类模型和域分类模型进行联合训练,得到训练后的编码器和训练后的问题分类模型。由上可见,本说明书实施例,在对编码器的训练过程中,结合了对问题分类模型和域分类模型的训练,采用迁移学习的方式,实现了通过有问题分类标签的源领域数据,建立一个可靠的问题分类模型,以用于对目标领域的待测用户问句进行分类。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
图1为本说明书披露的一个实施例的实施场景示意图;
图2示出根据一个实施例的针对用户问句的处理方法流程图;
图3示出根据一个实施例的针对用户问句的问题分类模型的训练方法流程图;
图4示出根据一个实施例的模型结构示意图;
图5示出根据一个实施例的针对用户问句的问题分类模型的训练装置的示意性框图;
图6示出根据另一个实施例的针对用户问句的问题分类模型的训练装置的示意性框图。
具体实施方式
下面结合附图,对本说明书提供的方案进行描述。
图1为本说明书披露的一个实施例的实施场景示意图。该实施场景涉及针对用户问句的问题分类模型的训练,其中,训练后的问题分类模型用于确定用户问句归属的类别,上述类别可以但不限于包括用户问句对应的标准问句,或者,用户问句对应的人工客服技能组。参照图1,第一阶段,进行的是用户跟机器对话,也就是说,由机器人客服回答用户问题。第二阶段,进行的是用户跟小二对话,可以理解的是,小二即人工客服,也就是说,由人工客服回答用户问题。在第一阶段,机器无法回答用户问题时,会进入第二阶段,由人工客服回答用户问题。
图2示出根据一个实施例的针对用户问句的处理方法流程图,该方法涵盖了图1所示的第一阶段和第二阶段的处理过程。在第一阶段,引导用户说出需求,机器跟用户对话,详细分析用户需求,进行问题识别,也就是识别用户问句对应的标准问句。当问题识别不成功时,进入第二阶段,智能派单,小二跟用户对话并且标注用户问题,其中,智能派单即确定用户问句对应的人工客服技能组,标注用户问题即标注用户问句对应的标准问句。
在一个示例中,机器在接收到用户问句后,针对用户问句,确定该用户问句对应的标准问句,并将确定的标准问句展示给用户,由用户确认该标准问句是否满足其述求,如果用户确认该标准问句不满足其述求,则由用户补充部分描述,机器会针对该用户问句,再次确定该用户问句对应的标准问句。当确定标准问句的次数达到预定次数,并且仍然不满足用户述求时,确定用户问句对应的人工客服技能组,由人工客服跟用户对话并且标注用户问句对应的标准问句。
上述图1所示的场景中涉及两次分类过程,包括:确定用户问句对应的标准问句和确定用户问句对应的人工客服技能组。需要说明的是,该场景仅为示例,并不用于对本说明书实施例的实施场景的限定,本说明书实施例提供的针对用户问句的问题分类模型的训练方法,训练后的问题分类模型可以但不限于用于上述两种分类。
作为示例,本说明书实施例应用的场景为在线领域,也就是说,用户通过互联网发送问题的领域,该领域训练数据较少。而热线领域,也就是说,用户通过电话发送问题的领域,该领域训练数据较多。针对这一问题,采用了迁移学习的方式,对问题分类模型进行训练。具体地,采取了迁移学习中的域适应,即领域不同但任务相同,且源领域数据有标签,目标领域数据没有标签或者很少数据有标签。本说明书实施例,利用热线领域的训练数据,建立一个可靠的问题分类模型,以用于对在线领域的待测用户问句进行分类。
图3示出根据一个实施例的针对用户问句的问题分类模型的训练方法流程图,该方法可以基于图1所示的应用场景。如图3所示,该实施例中针对用户问句的问题分类模型的训练方法包括以下步骤:步骤31,获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;步骤32,将所述源领域的问题样本输入编码器,得到第一特征向量;将所述目标领域的问题样本输入所述编码器,得到第二特征向量;步骤33,将所述第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;步骤34,将所述第一特征向量和所述第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果;步骤35,根据所述问题分类预测结果和所述问题分类标签,根据所述域分类预测结果和所述领域标签,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练,得到训练后的所述编码器和训练后的所述问题分类模型。下面描述以上各个步骤的具体执行方式。
首先在步骤31,获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类。
在一个示例中,源领域为热线领域,目标领域为在线领域。问题分类标签用于指示问题样本对应的标准问句,或者,问题样本对应的人工客服技能组类别。领域标签用于指示问题样本属于源领域还是目标领域。
然后在步骤32,将所述源领域的问题样本输入编码器,得到第一特征向量;将所述目标领域的问题样本输入所述编码器,得到第二特征向量。
在一个示例中,所述编码器包括嵌入层和特征提取层,所述嵌入层用于将输入的问题样本转换为多个嵌入向量,所述特征提取层用于基于所述多个嵌入向量,得到用于表示该问题样本的句子特征的特征向量。
进一步地,所述嵌入层包括:
词嵌入层、位置嵌入层、字符嵌入层,所述词嵌入层用于根据该问题样本包含的各个词确定多个第一嵌入子向量,所述位置嵌入层用于根据该问题样本包含的各个词的位置确定多个第二嵌入子向量,所述字符嵌入层用于根据该问题样本包含的各个字符确定多个第三嵌入子向量,所述第一嵌入子向量、所述第二嵌入子向量和所述第三嵌入子向量用于生成所述嵌入向量。
接着在步骤33,将所述第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果。
在一个示例中,所述问题分类模型包括:
长短期记忆网络(long short term memory,LSTM)、深度神经网络(deep neuralnetwork,DNN)和卷积神经网络(convolutional neural networks,CNN);
其中,所述LSTM用于对所述编码器输出的特征向量进行特征提取,得到第一特征子向量;所述DNN用于对所述编码器输出的特征向量进行特征提取,得到第二特征子向量;所述CNN用于对所述编码器输出的特征向量进行特征提取,得到第三特征子向量;所述第一特征子向量、所述第二特征子向量和所述第三特征子向量拼接后得到特征向量,以使所述问题分类模型根据该特征向量得到所述问题分类预测结果。
再在步骤34,将所述第一特征向量和所述第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果。
在一个示例中,将所述第一特征向量和所述第二特征向量经过梯度反转层,得到反转特征向量;将所述反转特征向量作为样本特征输入域分类模型。
最后在步骤35,根据所述问题分类预测结果和所述问题分类标签,根据所述域分类预测结果和所述领域标签,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练,得到训练后的所述编码器和训练后的所述问题分类模型。
在一个示例中,步骤34,将所述第一特征向量和所述第二特征向量经过梯度反转层,得到反转特征向量;将所述反转特征向量作为样本特征输入域分类模型。步骤35,对所述问题分类模型的损失函数和所述域分类模型的损失函数求和,得到总损失函数;通过最小化所述总损失函数,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练。
可以理解的是,对模型训练的目标:一方面是让源领域和目标领域区分不出来,另一方面是让问题分类准确。因此应最小化所述问题分类模型的损失函数,以及最大化所述域分类模型的损失函数。增加梯度反转层,可以使所述问题分类模型的损失函数和所述域分类模型的损失函数均按照最小化进行优化。
在一个示例中,将所述目标领域的待测用户问句作为训练后的所述编码器的输入,得到目标特征向量;将所述目标特征向量作为训练后的所述问题分类模型的输入,通过所述问题分类模型的输出得到所述待测用户问句对应的类别。
其中,所述用户问句对应的类别包括:
所述用户问句对应的标准问句,或所述用户问句对应的人工客服技能组类别。
图4示出根据一个实施例的模型结构示意图。参照图4,模型训练包括两个分支的训练,第一分支包括编码器和问题分类模型,第二分支包括编码器、梯度反转层和域分类模型。编码器作为两个分支的公共部分,在对两个分支的优化过程中均对其进行调参。而在对第一分支的优化过程中,对问题分类模型进行调参,对域分类模型不进行调参。在对第二分支的优化过程中,对域分类模型进行调参,对问题分类模型不进行调参。
在一个示例中,先利用源领域的训练数据对包括编码器和问题分类模型的分支进行训练,然后再利用源领域和目标领域的训练数据对包括编码器、梯度反转层和域分类模型的分支进行训练,最后利用训练好的编码器和问题分类模型这一分支对目标领域的待测用户问句进行分类。
例如,获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;将所述源领域的问题样本输入编码器,得到第一特征向量;将所述第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;根据所述问题分类预测结果和所述问题分类标签,对所述编码器和所述问题分类模型进行训练,得到初步训练后的所述编码器和所述问题分类模型;将所述源领域的问题样本以及所述目标领域的问题样本输入初步训练后的所述编码器,得到第二特征向量;将所述第二特征向量作为样本特征输入域分类模型,以得到域分类预测结果;根据所述域分类预测结果和所述领域标签,对所述编码器和所述域分类模型进行训练,得到再次训练后的所述编码器。
通过本说明书实施例提供的方法,首先获取源领域的样本数据和目标领域的样本数据,源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,目标领域的样本数据包括目标领域的问题样本和领域标签,源领域和目标领域具有相同的分类;然后将源领域的问题样本输入编码器,得到第一特征向量;将目标领域的问题样本输入编码器,得到第二特征向量;接着将第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;再将第一特征向量和第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果;最后根据所述问题分类预测结果和所述问题分类标签,根据所述域分类预测结果和所述领域标签,对编码器、问题分类模型和域分类模型进行联合训练,得到训练后的编码器和训练后的问题分类模型。由上可见,本说明书实施例,在对编码器的训练过程中,结合了对问题分类模型和域分类模型的训练,采用迁移学习的方式,实现了通过有问题分类标签的源领域数据,建立一个可靠的问题分类模型,以用于对目标领域的待测用户问句进行分类。
根据另一方面的实施例,还提供一种针对用户问句的问题分类模型的训练装置,该装置用于执行本说明书实施例提供的针对用户问句的问题分类模型的训练方法。图5示出根据一个实施例的针对用户问句的问题分类模型的训练装置的示意性框图。如图5所示,该装置500包括:
获取单元51,用于获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
编码单元52,用于将所述获取单元51获取的源领域的问题样本输入编码器,得到第一特征向量;将所述获取单元51获取的目标领域的问题样本输入所述编码器,得到第二特征向量;
第一预测单元53,用于将所述编码单元52得到的第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;
第二预测单元54,用于将所述编码单元52得到的所述第一特征向量和所述第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果;
训练单元55,用于根据所述第一预测单元53得到的问题分类预测结果和所述获取单元51获取的问题分类标签,根据所述第二预测单元54得到的域分类预测结果和所述获取单元51获取的领域标签,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练,得到训练后的所述编码器和训练后的所述问题分类模型。
可选地,作为一个实施例,所述编码单元52,还用于将所述目标领域的待测用户问句作为训练后的所述编码器的输入,得到目标特征向量;
所述第一预测单元53,还用于将所述编码单元52得到的目标特征向量作为训练后的所述问题分类模型的输入,通过所述问题分类模型的输出得到所述待测用户问句对应的类别。
可选地,作为一个实施例,所述第二预测单元54,具体用于:
将所述第一特征向量和所述第二特征向量经过梯度反转层,得到反转特征向量;
将所述反转特征向量作为样本特征输入域分类模型。
进一步地,所述训练单元55,具体用于:
对所述问题分类模型的损失函数和所述域分类模型的损失函数求和,得到总损失函数;
通过最小化所述总损失函数,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练。
进一步地,所述用户问句对应的类别包括:
所述用户问句对应的标准问句。
进一步地,所述用户问句对应的类别包括:
所述用户问句对应的人工客服技能组类别。
可选地,作为一个实施例,所述编码器包括嵌入层和特征提取层,所述嵌入层用于将输入的问题样本转换为多个嵌入向量,所述特征提取层用于基于所述多个嵌入向量,得到用于表示该问题样本的句子特征的特征向量。
进一步地,所述嵌入层包括:
词嵌入层、位置嵌入层、字符嵌入层,所述词嵌入层用于根据该问题样本包含的各个词确定多个第一嵌入子向量,所述位置嵌入层用于根据该问题样本包含的各个词的位置确定多个第二嵌入子向量,所述字符嵌入层用于根据该问题样本包含的各个字符确定多个第三嵌入子向量,所述第一嵌入子向量、所述第二嵌入子向量和所述第三嵌入子向量用于生成所述嵌入向量。
可选地,作为一个实施例,所述问题分类模型包括:
长短期记忆网络LSTM、深度神经网络DNN和卷积神经网络CNN;
其中,所述LSTM用于对所述编码器输出的特征向量进行特征提取,得到第一特征子向量;所述DNN用于对所述编码器输出的特征向量进行特征提取,得到第二特征子向量;所述CNN用于对所述编码器输出的特征向量进行特征提取,得到第三特征子向量;所述第一特征子向量、所述第二特征子向量和所述第三特征子向量拼接后得到特征向量,以使所述问题分类模型根据该特征向量得到所述问题分类预测结果。
通过本说明书实施例提供的装置,首先获取单元51获取源领域的样本数据和目标领域的样本数据,源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,目标领域的样本数据包括目标领域的问题样本和领域标签,源领域和目标领域具有相同的分类;然后编码单元52将源领域的问题样本输入编码器,得到第一特征向量;将目标领域的问题样本输入编码器,得到第二特征向量;接着第一预测单元53将第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;再由第二预测单元54将第一特征向量和第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果;最后由训练单元55根据所述第一预测单元53得到的问题分类预测结果和所述获取单元51获取的问题分类标签,根据所述第二预测单元54得到的域分类预测结果和所述获取单元51获取的领域标签,对编码器、问题分类模型和域分类模型进行联合训练,得到训练后的编码器和训练后的问题分类模型。由上可见,本说明书实施例,在对编码器的训练过程中,结合了对问题分类模型和域分类模型的训练,采用迁移学习的方式,实现了通过有问题分类标签的源领域数据,建立一个可靠的问题分类模型,以用于对目标领域的待测用户问句进行分类。
图6示出根据另一个实施例的针对用户问句的问题分类模型的训练装置的示意性框图。如图6所示,该装置600包括:
获取单元61,用于获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
编码单元62,用于将所述获取单元61获取的源领域的问题样本输入编码器,得到第一特征向量;
第一预测单元63,用于将所述编码单元62得到的第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;
第一训练单元64,用于根据所述第一预测单元63得到的问题分类预测结果和所述获取单元61获取的问题分类标签,对所述编码器和所述问题分类模型进行训练,得到初步训练后的所述编码器和所述问题分类模型;
所述编码单元62,还用于将所述获取单元61获取的所述源领域的问题样本以及所述目标领域的问题样本输入初步训练后的所述编码器,得到第二特征向量;
第二预测单元65,用于将所述编码单元62得到的第二特征向量作为样本特征输入域分类模型,以得到域分类预测结果;
第二训练单元66,用于根据所述第二预测单元65得到的域分类预测结果和所述获取单元61获取的领域标签,对所述编码器和所述域分类模型进行训练,得到再次训练后的所述编码器。
本说明书实施例提供的装置,在对编码器的训练过程中,结合了对问题分类模型和域分类模型的训练,采用迁移学习的方式,实现了通过有问题分类标签的源领域数据,建立一个可靠的问题分类模型,以用于对目标领域的待测用户问句进行分类。
根据另一方面的实施例,还提供一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行结合图3所描述的方法。
根据再一方面的实施例,还提供一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现结合图3所描述的方法。
本领域技术人员应该可以意识到,在上述一个或多个示例中,本发明所描述的功能可以用硬件、软件、固件或它们的任意组合来实现。当使用软件实现时,可以将这些功能存储在计算机可读介质中或者作为计算机可读介质上的一个或多个指令或代码进行传输。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本发明的保护范围之内。

Claims (22)

1.一种针对用户问句的问题分类模型的训练方法,所述方法包括:
获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
将所述源领域的问题样本输入编码器,得到第一特征向量;将所述目标领域的问题样本输入所述编码器,得到第二特征向量;
将所述第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果,将所述第一特征向量和所述第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果,
根据所述问题分类预测结果和所述问题分类标签,根据所述域分类预测结果和所述领域标签,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练,得到训练后的所述编码器和训练后的所述问题分类模型。
2.如权利要求1所述的方法,其中,所述方法还包括:
将所述目标领域的待测用户问句作为训练后的所述编码器的输入,得到目标特征向量;
将所述目标特征向量作为训练后的所述问题分类模型的输入,通过所述问题分类模型的输出得到所述待测用户问句对应的类别。
3.如权利要求1所述的方法,其中,所述将所述第一特征向量和所述第二特征向量作为样本特征输入域分类模型,包括:
将所述第一特征向量和所述第二特征向量经过梯度反转层,得到反转特征向量;
将所述反转特征向量作为样本特征输入域分类模型。
4.如权利要求3所述的方法,其中,所述对所述编码器、所述问题分类模型和所述域分类模型进行联合训练,包括:
对所述问题分类模型的损失函数和所述域分类模型的损失函数求和,得到总损失函数;
通过最小化所述总损失函数,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练。
5.如权利要求2所述的方法,其中,所述用户问句对应的类别包括:
所述用户问句对应的标准问句。
6.如权利要求2所述的方法,其中,所述用户问句对应的类别包括:
所述用户问句对应的人工客服技能组类别。
7.如权利要求1所述的方法,其中,所述编码器包括嵌入层和特征提取层,所述嵌入层用于将输入的问题样本转换为多个嵌入向量,所述特征提取层用于基于所述多个嵌入向量,得到用于表示该问题样本的句子特征的特征向量。
8.如权利要求7所述的方法,其中,所述嵌入层包括:
词嵌入层、位置嵌入层、字符嵌入层,所述词嵌入层用于根据该问题样本包含的各个词确定多个第一嵌入子向量,所述位置嵌入层用于根据该问题样本包含的各个词的位置确定多个第二嵌入子向量,所述字符嵌入层用于根据该问题样本包含的各个字符确定多个第三嵌入子向量,所述第一嵌入子向量、所述第二嵌入子向量和所述第三嵌入子向量用于生成所述嵌入向量。
9.如权利要求1所述的方法,其中,所述问题分类模型包括:
长短期记忆网络LSTM、深度神经网络DNN和卷积神经网络CNN;
其中,所述LSTM用于对所述编码器输出的特征向量进行特征提取,得到第一特征子向量;所述DNN用于对所述编码器输出的特征向量进行特征提取,得到第二特征子向量;所述CNN用于对所述编码器输出的特征向量进行特征提取,得到第三特征子向量;所述第一特征子向量、所述第二特征子向量和所述第三特征子向量拼接后得到特征向量,以使所述问题分类模型根据该特征向量得到所述问题分类预测结果。
10.一种针对用户问句的问题分类模型的训练方法,所述方法包括:
获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
将所述源领域的问题样本输入编码器,得到第一特征向量;
将所述第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;
根据所述问题分类预测结果和所述问题分类标签,对所述编码器和所述问题分类模型进行训练,得到初步训练后的所述编码器和所述问题分类模型;
将所述源领域的问题样本以及所述目标领域的问题样本输入初步训练后的所述编码器,得到第二特征向量;
将所述第二特征向量作为样本特征输入域分类模型,以得到域分类预测结果;
根据所述域分类预测结果和所述领域标签,对所述编码器和所述域分类模型进行训练,得到再次训练后的所述编码器。
11.一种针对用户问句的问题分类模型的训练装置,所述装置包括:
获取单元,用于获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
编码单元,用于将所述获取单元获取的源领域的问题样本输入编码器,得到第一特征向量;将所述获取单元获取的目标领域的问题样本输入所述编码器,得到第二特征向量;
第一预测单元,用于将所述编码单元得到的第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;
第二预测单元,用于将所述编码单元得到的所述第一特征向量和所述第二特征向量作为样本特征输入域分类模型,以分别得到各自的域分类预测结果;
训练单元,用于根据所述第一预测单元得到的问题分类预测结果和所述获取单元获取的问题分类标签,根据所述第二预测单元得到的域分类预测结果和所述获取单元获取的领域标签,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练,得到训练后的所述编码器和训练后的所述问题分类模型。
12.如权利要求11所述的装置,其中:
所述编码单元,还用于将所述目标领域的待测用户问句作为训练后的所述编码器的输入,得到目标特征向量;
所述第一预测单元,还用于将所述编码单元得到的目标特征向量作为训练后的所述问题分类模型的输入,通过所述问题分类模型的输出得到所述待测用户问句对应的类别。
13.如权利要求11所述的装置,其中,所述第二预测单元,具体用于:
将所述第一特征向量和所述第二特征向量经过梯度反转层,得到反转特征向量;
将所述反转特征向量作为样本特征输入域分类模型。
14.如权利要求13所述的装置,其中,所述训练单元,具体用于:
对所述问题分类模型的损失函数和所述域分类模型的损失函数求和,得到总损失函数;
通过最小化所述总损失函数,对所述编码器、所述问题分类模型和所述域分类模型进行联合训练。
15.如权利要求12所述的装置,其中,所述用户问句对应的类别包括:
所述用户问句对应的标准问句。
16.如权利要求12所述的装置,其中,所述用户问句对应的类别包括:
所述用户问句对应的人工客服技能组类别。
17.如权利要求11所述的装置,其中,所述编码器包括嵌入层和特征提取层,所述嵌入层用于将输入的问题样本转换为多个嵌入向量,所述特征提取层用于基于所述多个嵌入向量,得到用于表示该问题样本的句子特征的特征向量。
18.如权利要求17所述的装置,其中,所述嵌入层包括:
词嵌入层、位置嵌入层、字符嵌入层,所述词嵌入层用于根据该问题样本包含的各个词确定多个第一嵌入子向量,所述位置嵌入层用于根据该问题样本包含的各个词的位置确定多个第二嵌入子向量,所述字符嵌入层用于根据该问题样本包含的各个字符确定多个第三嵌入子向量,所述第一嵌入子向量、所述第二嵌入子向量和所述第三嵌入子向量用于生成所述嵌入向量。
19.如权利要求11所述的装置,其中,所述问题分类模型包括:
长短期记忆网络LSTM、深度神经网络DNN和卷积神经网络CNN;
其中,所述LSTM用于对所述编码器输出的特征向量进行特征提取,得到第一特征子向量;所述DNN用于对所述编码器输出的特征向量进行特征提取,得到第二特征子向量;所述CNN用于对所述编码器输出的特征向量进行特征提取,得到第三特征子向量;所述第一特征子向量、所述第二特征子向量和所述第三特征子向量拼接后得到特征向量,以使所述问题分类模型根据该特征向量得到所述问题分类预测结果。
20.一种针对用户问句的问题分类模型的训练装置,所述装置包括:
获取单元,用于获取源领域的样本数据和目标领域的样本数据,所述源领域的样本数据包括源领域的问题样本、问题分类标签和领域标签,所述目标领域的样本数据包括目标领域的问题样本和领域标签,所述源领域和所述目标领域具有相同的分类;
编码单元,用于将所述获取单元获取的源领域的问题样本输入编码器,得到第一特征向量;
第一预测单元,用于将所述编码单元得到的第一特征向量作为样本特征输入问题分类模型,以得到问题分类预测结果;
第一训练单元,用于根据所述第一预测单元得到的问题分类预测结果和所述获取单元获取的问题分类标签,对所述编码器和所述问题分类模型进行训练,得到初步训练后的所述编码器和所述问题分类模型;
所述编码单元,还用于将所述获取单元获取的所述源领域的问题样本以及所述目标领域的问题样本输入初步训练后的所述编码器,得到第二特征向量;
第二预测单元,用于将所述编码单元得到的第二特征向量作为样本特征输入域分类模型,以得到域分类预测结果;
第二训练单元,用于根据所述第二预测单元得到的域分类预测结果和所述获取单元获取的领域标签,对所述编码器和所述域分类模型进行训练,得到再次训练后的所述编码器。
21.一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行权利要求1-10中任一项的所述的方法。
22.一种计算设备,包括存储器和处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现权利要求1-10中任一项的所述的方法。
CN201910663095.8A 2019-07-22 2019-07-22 针对用户问句的问题分类模型的训练方法和装置 Pending CN110399492A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910663095.8A CN110399492A (zh) 2019-07-22 2019-07-22 针对用户问句的问题分类模型的训练方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910663095.8A CN110399492A (zh) 2019-07-22 2019-07-22 针对用户问句的问题分类模型的训练方法和装置

Publications (1)

Publication Number Publication Date
CN110399492A true CN110399492A (zh) 2019-11-01

Family

ID=68324902

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910663095.8A Pending CN110399492A (zh) 2019-07-22 2019-07-22 针对用户问句的问题分类模型的训练方法和装置

Country Status (1)

Country Link
CN (1) CN110399492A (zh)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110888971A (zh) * 2019-11-29 2020-03-17 支付宝(杭州)信息技术有限公司 机器人客服与用户的多轮交互方法和装置
CN111178074A (zh) * 2019-12-12 2020-05-19 天津大学 一种基于深度学习的中文命名实体识别方法
CN111221963A (zh) * 2019-11-19 2020-06-02 成都晓多科技有限公司 一种智能客服数据训练模型领域迁移方法
CN111522958A (zh) * 2020-05-28 2020-08-11 泰康保险集团股份有限公司 文本分类方法和装置
CN112560848A (zh) * 2020-12-25 2021-03-26 北京百度网讯科技有限公司 兴趣点poi预训练模型的训练方法、装置及电子设备
CN113312482A (zh) * 2021-06-01 2021-08-27 平安证券股份有限公司 问题分类方法、装置、电子设备及可读存储介质
CN115659058A (zh) * 2022-12-30 2023-01-31 杭州远传新业科技股份有限公司 问题生成的方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100150393A1 (en) * 2008-12-16 2010-06-17 Microsoft Corporation Sentiment classification using out of domain data
US20160253596A1 (en) * 2015-02-26 2016-09-01 International Business Machines Corporation Geometry-directed active question selection for question answering systems
US20180165607A1 (en) * 2015-08-31 2018-06-14 Trend Micro Incorporated Domain classification
CN109308318A (zh) * 2018-08-14 2019-02-05 深圳大学 跨领域文本情感分类模型的训练方法、装置、设备及介质
CN109597993A (zh) * 2018-11-30 2019-04-09 深圳前海微众银行股份有限公司 语句分析处理方法、装置、设备以及计算机可读存储介质
CN110009038A (zh) * 2019-04-04 2019-07-12 北京百度网讯科技有限公司 筛查模型的训练方法、装置及存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100150393A1 (en) * 2008-12-16 2010-06-17 Microsoft Corporation Sentiment classification using out of domain data
US20160253596A1 (en) * 2015-02-26 2016-09-01 International Business Machines Corporation Geometry-directed active question selection for question answering systems
US20180165607A1 (en) * 2015-08-31 2018-06-14 Trend Micro Incorporated Domain classification
CN109308318A (zh) * 2018-08-14 2019-02-05 深圳大学 跨领域文本情感分类模型的训练方法、装置、设备及介质
CN109597993A (zh) * 2018-11-30 2019-04-09 深圳前海微众银行股份有限公司 语句分析处理方法、装置、设备以及计算机可读存储介质
CN110009038A (zh) * 2019-04-04 2019-07-12 北京百度网讯科技有限公司 筛查模型的训练方法、装置及存储介质

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111221963A (zh) * 2019-11-19 2020-06-02 成都晓多科技有限公司 一种智能客服数据训练模型领域迁移方法
CN111221963B (zh) * 2019-11-19 2023-05-12 成都晓多科技有限公司 一种智能客服数据训练模型领域迁移方法
CN110888971A (zh) * 2019-11-29 2020-03-17 支付宝(杭州)信息技术有限公司 机器人客服与用户的多轮交互方法和装置
CN110888971B (zh) * 2019-11-29 2022-05-24 支付宝(杭州)信息技术有限公司 机器人客服与用户的多轮交互方法和装置
CN111178074A (zh) * 2019-12-12 2020-05-19 天津大学 一种基于深度学习的中文命名实体识别方法
CN111178074B (zh) * 2019-12-12 2023-08-25 天津大学 一种基于深度学习的中文命名实体识别方法
CN111522958A (zh) * 2020-05-28 2020-08-11 泰康保险集团股份有限公司 文本分类方法和装置
CN112560848A (zh) * 2020-12-25 2021-03-26 北京百度网讯科技有限公司 兴趣点poi预训练模型的训练方法、装置及电子设备
CN112560848B (zh) * 2020-12-25 2024-03-29 北京百度网讯科技有限公司 兴趣点poi预训练模型的训练方法、装置及电子设备
CN113312482A (zh) * 2021-06-01 2021-08-27 平安证券股份有限公司 问题分类方法、装置、电子设备及可读存储介质
CN115659058A (zh) * 2022-12-30 2023-01-31 杭州远传新业科技股份有限公司 问题生成的方法和装置

Similar Documents

Publication Publication Date Title
CN110399492A (zh) 针对用户问句的问题分类模型的训练方法和装置
CN111275207B (zh) 基于半监督的横向联邦学习优化方法、设备及存储介质
CN111444709B (zh) 文本分类方法、装置、存储介质及设备
Gratch et al. The benefits of virtual humans for teaching negotiation
CN108595436B (zh) 情感对话内容的生成方法和系统、存储介质
KR102377419B1 (ko) 기계학습에 기초한 비언어적 평가 방법, 시스템 및 컴퓨터-판독가능 매체
CN107680600A (zh) 声纹模型训练方法、语音识别方法、装置、设备及介质
CN110032641A (zh) 计算机执行的、利用神经网络进行事件抽取的方法及装置
CN109857846B (zh) 用户问句与知识点的匹配方法和装置
CN108090520A (zh) 意图识别模型的训练方法、系统、装置及可读存储介质
CN110032623A (zh) 用户问句与知识点标题的匹配方法和装置
CN110704586A (zh) 一种信息处理方法及系统
US11934790B2 (en) Neural network training method and apparatus, semantic classification method and apparatus and medium
CN111582500A (zh) 一种提高模型训练效果的方法和系统
CN110399472B (zh) 面试提问提示方法、装置、计算机设备及存储介质
CN109657792A (zh) 构建神经网络的方法、装置和计算机可读介质
CN110728182A (zh) 基于ai面试系统的面试方法、装置和计算机设备
CN110135524A (zh) 自动化的模型训练方法、装置、设备及介质
Siiman et al. Opportunities and Challenges for AI-Assisted Qualitative Data Analysis: An Example from Collaborative Problem-Solving Discourse Data
CN110362668A (zh) 针对用户问句的分类方法和装置
CN116596073A (zh) 基于推理路径的自然语言推理方法、装置及设备
CN115132353A (zh) 心理问题自动答复模型的生成方法、装置及设备
CN113761149A (zh) 对话信息处理方法、装置、计算机设备及存储介质
Kottur et al. DialogStitch: Synthetic deeper and multi-context task-oriented dialogs
CN109885687A (zh) 一种文本的情感分析方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
TA01 Transfer of patent application right

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Innovative advanced technology Co.,Ltd.

Address before: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant before: Advanced innovation technology Co.,Ltd.

Effective date of registration: 20200925

Address after: Cayman Enterprise Centre, 27 Hospital Road, George Town, Grand Cayman Islands

Applicant after: Advanced innovation technology Co.,Ltd.

Address before: A four-storey 847 mailbox in Grand Cayman Capital Building, British Cayman Islands

Applicant before: Alibaba Group Holding Ltd.

TA01 Transfer of patent application right