CN108959651A - 一种基于迁移学习的用户意图识别的方法 - Google Patents

一种基于迁移学习的用户意图识别的方法 Download PDF

Info

Publication number
CN108959651A
CN108959651A CN201810877616.5A CN201810877616A CN108959651A CN 108959651 A CN108959651 A CN 108959651A CN 201810877616 A CN201810877616 A CN 201810877616A CN 108959651 A CN108959651 A CN 108959651A
Authority
CN
China
Prior art keywords
user
model
intention assessment
corpus
translation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201810877616.5A
Other languages
English (en)
Inventor
陈国锋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Jieyixun Information Technology Co Ltd
Original Assignee
Beijing Jieyixun Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Jieyixun Information Technology Co Ltd filed Critical Beijing Jieyixun Information Technology Co Ltd
Priority to CN201810877616.5A priority Critical patent/CN108959651A/zh
Publication of CN108959651A publication Critical patent/CN108959651A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本发明公开了一种基于迁移学习的用户意图识别的方法,包括如下步骤:步骤S01,建立源语言到其它语言的空间迁移模型,步骤S02,抽取训练好的翻译模型的编码器网络,并增加注意力和全连接网络,构成用户意图识别模型S02‑1,在翻译模型的编码器网络的基础上,增加注意力和全连接网络,并根据用户意图类别构建输出层;步骤S03,使用用户意图标注语料,固定编码器参数,训练S02‑2构建的用户意图识别模型,经过以上算法步骤后,即得到用户意图识别模型。

Description

一种基于迁移学习的用户意图识别的方法
技术领域
本发明涉及一种识别方法,具体是一种基于迁移学习的用户意图识别的方法。
背景技术
对用户的问题进行语义分析,识别出用户的意图,从而根据用户意图,给出相应的响应,是对话系统需要解决的核心问题。
用户意图识别面临的主要问题是目标领域或目标场景语料资源不足,缺少有标注的语料或者收集和标注语料成本太高。而机器学习的方法则需要大量的目标领域的语料支持,
意图识别技术一般基于深度学习的CNN(Convolutional Neural Networks,卷积神经网络)或RNN(Recurrent Neural Network,循环神经网络)分类算法,用户意图识别面临的主要问题是通过深度学习的CNN或RNN分类算法来训练意图识别模型需要大量的且成本较高的人工标注语料,而当目标领域或目标场景语料资源不足,缺少有标注的语料或者收集和标注语料成本太高时,只能使用少量的人工标注语料来训练意图识别模型,此时意图识别模型欠拟合,模型预测的准确率将非常低。
因此,如何提供一种解决上述技术问题的方案是本领域技术人员目前需要解决的问题。
专利CN106777011A《一种基于深度多任务学习的文本分类方法》,公开了一种多任务的迁移学习方法,其利用其它任务训练得到的循环神经网络,结合卷积神经网络的学习能力,得到额外的文档表示,用于扩展当前任务文档的语义表示,期望解决当前任务训练数据不足的问题。但是该方法需要其它任务的标注数据,迁移效果依赖于多个数据的多个任务标注以及任务的相关性,同时,对语料量依然有一定的要求,才能学习到文档表示,使用场景有一定的局限性,并且没有从根本上解决少语料的任务场景。
发明内容
本发明的目的在于提供一种基于迁移学习的用户意图识别的方法,以解决上述背景技术中提出的问题。
为实现上述目的,本发明提供如下技术方案:
一种基于迁移学习的用户意图识别的方法,包括如下步骤:
步骤S01,建立源语言到其它语言的空间迁移模型,具体如下:
S01-1,收集翻译语料;S01-2,构建基于encoder-decoder的翻译模型;S01-3,对翻译语料按字分词,训练翻译模型,直至该模型能够正确将源语言翻译至目标语言;
步骤S02,抽取训练好的翻译模型的编码器网络,并增加注意力和全连接网络,构成用户意图识别模型,具体如下:
S02-1,在翻译模型的编码器网络的基础上,增加注意力和全连接网络,并根据用户意图类别构建输出层;
S02-2,载入训练好的翻译模型的编码器参数;
步骤S03,使用用户意图标注语料,固定编码器参数,训练S02-2构建的用户意图识别模型,具体如下:
S03-1, 对标注语料按字分词;
S03-2,固定编码器网络参数;
S03-3,训练用户意图识别模型,直至模型收敛;
经过以上算法步骤后,即得到用户意图识别模型。
作为本发明再进一步的方案:所述语料为源语言到任何其它语言,所述源语言为用户意图识别任务中的语料语言。
与现有技术相比,本发明的有益效果是:本发明通过收集翻译语料,训练翻译模型,从而得到源语言的语义特征网络,此时只需要标注少量的目标任务语料就可以使目标任务模型获得较高的准确率,节约了目标任务模型的训练成本,同时还能有效的减少目标任务模型的训练时间。
附图说明
图1为现有技术的流程图。
图2为本发明的流程图。
图3为本发明实施例1中翻译模型训练构建过程流程图。
图4为本发明实施例1中用户意图识别训练构建过程流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
本发明实施例中,一种基于迁移学习的用户意图识别的方法,包括如下步骤:
步骤S01,建立源语言到其它语言的空间迁移模型,具体如下:
S01-1,收集翻译语料;S01-2,构建基于encoder-decoder的翻译模型;S01-3,对翻译语料按字分词,训练翻译模型,直至该模型能够正确将源语言翻译至目标语言;
步骤S02,抽取训练好的翻译模型的编码器网络,并增加注意力和全连接网络,构成用户意图识别模型,具体如下:
S02-1,在翻译模型的编码器网络的基础上,增加注意力和全连接网络,并根据用户意图类别构建输出层;
S02-2,载入训练好的翻译模型的编码器参数;
步骤S03,使用用户意图标注语料,固定编码器参数,训练S02-2构建的用户意图识别模型,具体如下:
S03-1, 对标注语料按字分词;
S03-2,固定编码器网络参数;
S03-3,训练用户意图识别模型,直至模型收敛;
经过以上算法步骤后,即得到用户意图识别模型。
所述语料为源语言到任何其它语言,所述源语言为用户意图识别任务中的语料语言。
下面,以智能客服系统中金融领域的中文用户意图识别为例,应用本发明阐述的方式,在只有较少标注语料的情况下,结合翻译模型,训练得到准确率较高的意图识别模型。
下面按照数据流的流向描述智能客服系统中金融领域的中文用户意图识别的具体实现方式:
程序分为两个大的过程,第一个是翻译模型构建过程;第二个是目标领域的用户意图识别模型的构建过程。
使用至少包含金融领域的大规模翻译语料,构建机器翻译模型并进行训练,具体如下:
1-1尽可能得收集金融领域的翻译语料,同时,可包含其他领域语料。
1-2 对翻译语料进行按字分词,按字分词可以很好的避免OOV问题。
1-3 搭建一种基于神经网络的翻译模型,该模型包含encoder和decoder模块,两者均包含Embedding层,NN层,decoder还包含全连接层和输出层,NN层为BILSTM,LSTM,GRU,CNN中的一种,保持encoder和decoder一致即可,同时使用注意力机制。使用翻译语料进行训练,得到翻译模型。
2-1 获取金融领域标注语料。
2-2 构建用于意图识别模型,该模型包含如下模块:和1-3中翻译模型中相同的编码器网络,注意力机制,全连接网络和输出层。
2-3 载入翻译模型的编码器参数。
2-4 将标注语料按字分词。
2-5 固定编码器网络参数,训练用户意图识别模型。
在智能客服系统中,对于新增加的领域,在训练数据不足的情况下,系统基本无法正确识别出用户意图。为了满足用户意图识别准确率的要求,实际生产环境中则所需大量的训练语料,这些语料都来源于人工标注。通过人工标记大量的语料,进行训练,可以获得准确度高的用户意图识别模型,但是该方法效率低下,成本高昂,越来越不能满足日新月异的智能客服系统的产业需求,并且在很多场景下,是无法获取大量语料的。
应用本发明,通过收集金融领域中英翻译语料,构建翻译模型,训练完成翻译模型后,抽取其中的编码器网络,在此基础上,结合注意力网络和全连接层,搭建意图识别模型,使用有限的语料进行训练,即得到准确率较高的用户意图识别模型。从而有效地解决了金融领域训练数据不足导致意图识别准确率低的问题。
上述实施方式,在智能客服系统中,可以自动的收集系统无法应答的用户语料,找出业务相关的有明确用户意图的语料,同时给出每条语料的意图分类标签,然后输出展示给企业用户,满足智能客服知识的自动发现需求。
整体而言,因为整个无法应答语料的意图类别生成过程可以通过一套软件程序实现,一旦运行不再需要投入人工成本,所以能节约大量人力资源,同时极大提高了语料的筛选标记效率。
算法的ecoder-decoder模型的选择是开放的,可使用通用的翻译模型,也可使用VAE等自编码器模型。Encoder-decoder选择的区别,不影响本专利的权利申明保护范围。
算法的编码器网络,可使用循环神经网络、卷积神经网络、递归卷积神经网络,以及这些网络与注意力机制、记忆模块等的结合。编码器网络选择的区别,不影响本专利的权力申明保护范围。
训练encoder-decoder模型时,使用预训练词向量,可以一定程度的提高模型训练的效率和模型的性能,但不产生决定性影响,预训练词向量是否使用,不影响本专利的权力要求。
本发明中构造用户意图识别模型时,可在编码器网络基础上,增加注意力机制和全连接层网络中的一种或者两种,也可以直接将编码器网络接到输出层。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。

Claims (5)

1.一种基于迁移学习的用户意图识别的方法,其特征在于,包括如下步骤:
步骤S01,建立源语言到其它语言的空间迁移模型;
步骤S02,抽取训练好的翻译模型的编码器网络,并增加注意力和全连接网络,构成用户意图识别模型;
步骤S03,使用用户意图标注语料,固定编码器参数,训练步骤S02构成的用户意图识别模型;
经过以上算法步骤后,即得到用户意图识别模型。
2.根据权利要求1所述的基于迁移学习的用户意图识别的方法,其特征在于,所述语料为源语言到任何其它语言,所述源语言为用户意图识别任务中的语料语言。
3.根据权利要求1所述的基于迁移学习的用户意图识别的方法,其特征在于,所述步骤S01具体如下:S01-1,收集翻译语料;S01-2,构建基于encoder-decoder的翻译模型;S01-3,对翻译语料按字分词,训练翻译模型,直至该模型能够正确将源语言翻译至目标语言。
4.根据权利要求1所述的基于迁移学习的用户意图识别的方法,其特征在于,所述步骤S02具体如下:S02-1,在翻译模型的编码器网络的基础上,增加注意力和全连接网络,并根据用户意图类别构建输出层;S02-2,载入训练好的翻译模型的编码器参数。
5.根据权利要求1所述的基于迁移学习的用户意图识别的方法,其特征在于,所述步骤S03,具体如下:S03-1, 对标注语料按字分词;S03-2,固定编码器网络参数;S03-3,训练用户意图识别模型,直至模型收敛。
CN201810877616.5A 2018-08-03 2018-08-03 一种基于迁移学习的用户意图识别的方法 Pending CN108959651A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810877616.5A CN108959651A (zh) 2018-08-03 2018-08-03 一种基于迁移学习的用户意图识别的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810877616.5A CN108959651A (zh) 2018-08-03 2018-08-03 一种基于迁移学习的用户意图识别的方法

Publications (1)

Publication Number Publication Date
CN108959651A true CN108959651A (zh) 2018-12-07

Family

ID=64467345

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810877616.5A Pending CN108959651A (zh) 2018-08-03 2018-08-03 一种基于迁移学习的用户意图识别的方法

Country Status (1)

Country Link
CN (1) CN108959651A (zh)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741751A (zh) * 2018-12-11 2019-05-10 上海交通大学 面向智能语音控制的意图识别方法及装置
CN109918646A (zh) * 2019-01-30 2019-06-21 中国科学院自动化研究所 篇章因果关系判断方法、系统、装置
CN111563208A (zh) * 2019-01-29 2020-08-21 株式会社理光 一种意图识别的方法、装置及计算机可读存储介质
CN112650859A (zh) * 2020-12-29 2021-04-13 北京欧拉认知智能科技有限公司 一种用户意图识别方法、设备及模型构建方法

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528531A (zh) * 2016-10-31 2017-03-22 北京百度网讯科技有限公司 基于人工智能的意图分析方法及装置
CN108090520A (zh) * 2018-01-08 2018-05-29 北京中关村科金技术有限公司 意图识别模型的训练方法、系统、装置及可读存储介质

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106528531A (zh) * 2016-10-31 2017-03-22 北京百度网讯科技有限公司 基于人工智能的意图分析方法及装置
CN108090520A (zh) * 2018-01-08 2018-05-29 北京中关村科金技术有限公司 意图识别模型的训练方法、系统、装置及可读存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
SINNO JIALIN PAN: ""A Survey on Transfer Learning"", 《IEEE TRANSACTIONS ON KNOWLEDGE AND DATA ENGINEERING》 *
曲昭伟等: ""基于迁移学习的分层注意力网络情感分析算法"", 《计算机应用》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109741751A (zh) * 2018-12-11 2019-05-10 上海交通大学 面向智能语音控制的意图识别方法及装置
CN111563208A (zh) * 2019-01-29 2020-08-21 株式会社理光 一种意图识别的方法、装置及计算机可读存储介质
CN109918646A (zh) * 2019-01-30 2019-06-21 中国科学院自动化研究所 篇章因果关系判断方法、系统、装置
CN112650859A (zh) * 2020-12-29 2021-04-13 北京欧拉认知智能科技有限公司 一种用户意图识别方法、设备及模型构建方法

Similar Documents

Publication Publication Date Title
CN108959651A (zh) 一种基于迁移学习的用户意图识别的方法
CN108536679B (zh) 命名实体识别方法、装置、设备及计算机可读存储介质
CN111104498B (zh) 一种任务型对话系统中的语义理解方法
CN110673840B (zh) 一种基于标签图嵌入技术的自动代码生成方法及系统
CN109740657A (zh) 一种用于图像数据分类的神经网络模型的训练方法与设备
CN107766371A (zh) 一种文本信息分类方法及其装置
CN110866093A (zh) 机器问答方法及装置
CN110428820A (zh) 一种中英文混合语音识别方法及装置
CN109857846A (zh) 用户问句与知识点的匹配方法和装置
CN115131627B (zh) 一种轻量化植物病虫害目标检测模型的构建和训练方法
CN110263164A (zh) 一种基于模型融合的情感倾向分析方法
CN113778871A (zh) Mock测试方法、装置、设备及存储介质
CN115238045B (zh) 一种生成式事件论元抽取方法、系统及存储介质
CN116168119A (zh) 图像编辑方法、装置、电子设备、存储介质及程序产品
CN116597461A (zh) 基于人工智能的题目知识点关联方法及系统
CN115935372A (zh) 一种基于图嵌入和双向门控图神经网络的漏洞检测方法
CN114842180A (zh) 一种点云补全方法、装置、设备及介质
CN110472655A (zh) 一种用于跨境旅游的标志物机器学习识别系统及方法
CN113806574A (zh) 一种软硬件一体化的人工智能图像识别数据处理方法
CN113239698A (zh) 基于rpa及ai的信息提取方法、装置、设备及介质
CN112612884A (zh) 一种基于公共文本的实体标签自动化标注方法
CN117236343A (zh) 基于语言特征解释器和对比学习的自动可读性评估方法
CN115438190B (zh) 一种配电网故障辅助决策知识抽取方法及系统
CN116821306A (zh) 对话回复生成方法、装置、电子设备和存储介质
CN106407271B (zh) 一种智能客服系统及其智能客服知识库的更新方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20181207

RJ01 Rejection of invention patent application after publication