CN113032545A - 基于无监督对话预训练的对话理解与答案配置方法及系统 - Google Patents

基于无监督对话预训练的对话理解与答案配置方法及系统 Download PDF

Info

Publication number
CN113032545A
CN113032545A CN202110595442.5A CN202110595442A CN113032545A CN 113032545 A CN113032545 A CN 113032545A CN 202110595442 A CN202110595442 A CN 202110595442A CN 113032545 A CN113032545 A CN 113032545A
Authority
CN
China
Prior art keywords
dialogue
information
model
dialog
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110595442.5A
Other languages
English (en)
Other versions
CN113032545B (zh
Inventor
张振羽
江岭
黄鹏
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Xiaoduo Technology Co ltd
Original Assignee
Chengdu Xiaoduo Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Xiaoduo Technology Co ltd filed Critical Chengdu Xiaoduo Technology Co ltd
Priority to CN202110595442.5A priority Critical patent/CN113032545B/zh
Publication of CN113032545A publication Critical patent/CN113032545A/zh
Application granted granted Critical
Publication of CN113032545B publication Critical patent/CN113032545B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Databases & Information Systems (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明提供了基于无监督对话预训练的对话理解与答案配置方法,包括进行对话相关的对话信息预处理,构建具有对话内容、角色信息及轮次信息的对话输入样本,将对话输入的信息进行词嵌入;将带有对话文本单词信息、位置信息、角色信息以及轮次信息的词嵌入输出结果相加作为对话预训练语言模型encoder的输入;对模型encoder输出的编码向量进行基于BiLSTM‑CNN的池化处理获得对话表征向量;利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模任意组合生成的预训练学习任务,对模型进行优化。本发明可有效解决多轮对话意图识别,且通过生成回复答案的方法能够提高答案的配置效率。

Description

基于无监督对话预训练的对话理解与答案配置方法及系统
技术领域
本发明涉及自然语言处理技术领域,具体而言,涉及基于无监督对话预训练的对话理解与答案配置方法及系统。
背景技术
在电商领域,在线服务是完成交易的重要一环,用户通常会在购物前对商家进行咨询然后下单。但是咨询量过大导致无法及时回复用户信息,电商夜间无人值守时期用户咨询无人响应等问题,都会影响在线交易成功率。对话机器人可以提供24小时无间断的服务,而且可以应对大量的咨询,其种种优势已经成为了目前电商平台必备的基础组件之一。例如,中国最大的通用电商平台淘宝,在线服务机器人就已经被大量使用。
在线机器人在对话中,首先识别用户消息的意图,进而根据意图进行回复相应答案。目前业界采用的单句意图识别方法,难以适应多轮对话;而针对多轮对话的意图识别与答复方法,过于依赖规则配置,人工成本较高。对话是一个多轮过程,因此理解对话意图需要对整个对话语句进行全局理解。此外,目前业界基于对话意图进行答案的人工配置,对人力消耗较大,导致机器人配置服务成本过高。理解对话意图的基础上,可以基于整个对话的信息进行生成答案,从而完成答案自动配置,提高机器人回复效率,降低机器人服务成本。
发明内容
本发明旨在解决背景技术中存在的问题,提供一种可以有效解决多轮对话意图识别以及提高答案的配置效率的基于无监督对话预训练的对话理解与答案配置方法及系统。
本发明的实施例通过以下技术方案实现:基于无监督对话预训练的对话理解与答案配置方法,包括如下步骤:
进行对话相关的对话信息预处理,构建具有对话内容、角色信息及轮次信息的对话输入样本,将对话输入的信息进行词嵌入;
将带有对话文本单词信息、位置信息、角色信息以及轮次信息的词嵌入输出结果相加作为对话预训练语言模型encoder的输入;
对模型encoder输出的编码向量进行基于BiLSTM-CNN的池化处理,获得对话表征向量;
利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模其中之一或其任意组合生成的预训练学习任务,对模型进行优化。
根据一种优选实施方式,所述进行对话相关的对话信息预处理包括:
利用sentencepiece构建分句模型;
基于unigram model算法对所述分句模型进行预训练;
利用训练完成后的分句模型对对话信息进行分句处理。
根据一种优选实施方式,所述将对话输入的信息进行词嵌入包括:
将对话信息输入嵌入层,所述嵌入层包括对话轮次嵌入层、角色信息嵌入层、位置嵌入层以及单词嵌入层;
经所述嵌入层分别对对话信息中句子的角色信息、句子的伦次信息、单词的信息和单词的位置信息进行词嵌入。
根据一种优选实施方式,所述对话预训练语言模型为采用adapter方法进行权重初始化后的Transformer模型,其中,采用adapter方法进行权重初始化具体包括:
将对话样本x输入一个公开的预训练语言模型LM,记录该预训练语言模型LM中每层被激活的神经元
Figure 13333DEST_PATH_IMAGE001
将对话样本x输入所述Transformer模型,记录每层被激活的神经元
Figure 242057DEST_PATH_IMAGE002
计算预训练语言模型LM中激活神经元在各层的占比receiver和Transformer模型中激活神经元在各层的占比demonstrator,得到最小损失函数minObj adapter 如下:
Figure 21795DEST_PATH_IMAGE003
其中,
Figure 417004DEST_PATH_IMAGE004
上式中,N min 为所述Transformer模型encoder与预训练语言模型LM中Transformerencoder的层数最小值,x为对话样本,D为对话文本语料库,l为网络层,
Figure 293693DEST_PATH_IMAGE005
为预训练语言模型LM中每层所有的神经元,
Figure 116156DEST_PATH_IMAGE006
为Transformer模型中每层所有的神经元;
采用梯度下降算法AsamW对Transformer模型encoder每层的参数进行优化。
根据一种优选实施方式,所述对模型encoder输出的编码向量进行基于BiLSTM-CNN的池化处理包括:
将编码向量输入双向长短记忆网络BiLSTM,对所述编码向量进行降维编码,获得双向降维隐向量:
Figure 383189DEST_PATH_IMAGE007
拼接所述双向降维隐向量:
Figure 395138DEST_PATH_IMAGE008
将拼接后的结果输入卷积神经网络CNN,经最大池化操作输出对话表征向量如下:
Figure 64017DEST_PATH_IMAGE009
上式中,
Figure 57381DEST_PATH_IMAGE010
pooler为对话表征向量,max pooling ()为最大池化操作,BiLSTM()为输入双向长短期记忆网络BiLSTM处理过程,CNN()为输入卷积神经网络CNN处理过程,U为所述Transformer模型输出的N个编码向量的集合,h i 表示拼接双向降维隐向量后的结果,
Figure 811710DEST_PATH_IMAGE011
为正向最后一个单元的输出,
Figure 548722DEST_PATH_IMAGE012
为反向最后一个单元的输出,R d/2 表示
Figure 72107DEST_PATH_IMAGE011
Figure 564268DEST_PATH_IMAGE013
的深度特征。
根据一种优选实施方式,所述利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模其中之一或其任意组合生成的预训练学习任务,对模型进行优化包括:
对话级别的句子掩码建模:随机将对话样本M条句子中的一条句子的全部单词替换为一个特殊遮掩符号,利用模型预测该条句子所有单词,采用交叉熵CE计算损失函数loss 1 如下:
Figure 805894DEST_PATH_IMAGE014
其中,
Figure 81017DEST_PATH_IMAGE015
上式中,f sample 函数实现随机地从前M-1条句子中选择一条句子的功能,x为对话样本,u为所述Transformer模型输出的编码向量,w为选中句子的全部单词,w pred w预测过程,u mark 为替换为特殊掩码符号的单词;
对话级别的单词整体掩码建模:将整个对话样本M单词中的部分单词利用mask符号进行遮掩处理和进行文字替换处理,形成遮掩处理对话样本,采用交叉熵CE计算损失函数loss 2 如下:
Figure 724488DEST_PATH_IMAGE016
其中,
Figure 59655DEST_PATH_IMAGE017
上式中,x mask 为遮掩处理对话样本,f mask 函数实现遮掩处理和进行文字替换处理操作;
基于回复生成的对话级别对比学习建模:构造对话批次B;
将对话批次中每个对话样本的最后一句话
Figure 788576DEST_PATH_IMAGE018
移除,然后将每条对话样本移除后的最后一句话
Figure 178975DEST_PATH_IMAGE019
与其余样本移除后的最后一句话
Figure 676953DEST_PATH_IMAGE020
之间做比对学习;
计算对话样本的表征向量pooler和最后一句话的匹配度;
计算损失函数loss 3 如下:
Figure 448600DEST_PATH_IMAGE022
Figure 399238DEST_PATH_IMAGE023
上式中,δ为一个正数,d为模型的维度,y为比对对话样本,pooler x 为对话样本x的表征向量,
Figure 281744DEST_PATH_IMAGE024
为逻辑运算符合取。
根据一种优选实施方式,所述对模型进行优化包括:
基于模型整体损失函数对模型进行优化,其中,所述模型整体损失函数如下:
Figure 696544DEST_PATH_IMAGE025
其中,
Figure 639093DEST_PATH_IMAGE026
上式中,
Figure 77027DEST_PATH_IMAGE027
为三类预训练学习任务的loss权重参数。
根据一种优选实施方式,所述Transformer模型共有8层。
根据一种优选实施方式,所述单词嵌入层的嵌入权重基于Glove算法获得,其余嵌入层权重在模型训练中获得。
本发明还提供基于无监督对话预训练的对话理解与答案配置系统,包括:
对话信息处理模块,用于进行对话相关的对话信息预处理,构建具有对话内容、角色信息及轮次信息的对话输入样本,将对话输入的信息进行词嵌入,将带有对话文本单词信息、位置信息、角色信息以及轮次信息的词嵌入输出结果相加作为对话预训练语言模型encoder的输入;
编码输出模块,用于接收所述对话信息处理模块的词嵌入输出结果,输出编码向量;
模型输出处理模块,用于对模型encoder输出的编码向量进行基于BiLSTM-CNN的池化处理,获得对话表征向量;
对话预训练学习模块,用于利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模其中之一或其任意组合生成的预训练学习任务,对模型进行优化。
本发明实施例的技术方案至少具有如下优点和有益效果:本发明可以有效解决多轮对话意图识别等问题,且可以通过生成回复答案的方法,提高答案的配置效率,从而一定程度上缓解电商机器人的痛点。
附图说明
图1为本发明实施例1提供的基于无监督对话预训练的对话理解与答案配置方法的逻辑流程图;
图2为本发明实施例2提供的对话预训练模型的示意图;
图3为本发明实施例2提供的基于无监督对话预训练的对话理解与答案配置系统的结构框图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。
实施例1
经申请人研究发现,目前业界采用的单句意图识别方法,难以适应多轮对话;而针对多轮对话的意图识别与答复方法,过于依赖规则配置,人工成本较高。对话是一个多轮过程,因此理解对话意图需要对整个对话语句进行全局理解。此外,目前业界基于对话意图进行答案的人工配置,对人力消耗较大,导致机器人配置服务成本过高。所以,本申请提供了一种基于无监督对话预训练的对话理解与答案配置方法,以提高在多轮对话意图识别、实体识别、情绪分析、答案生成等任务上的识别准确率。具体内容如下所述。
参阅图1所示,进行对话相关的对话信息预处理,构建具有对话内容、角色信息及轮次信息的对话输入样本,
在一种实施方式中,可以通过以下方式进行对话相关的对话信息预处理。
首先,基于Goole开源的sentencepiece构建分句模型;
然后,使用基于unigram model的算法对所述分句模型进行预训练;在一种实施方式中,训练分句模型时,采样对话文本个数不得少于100万个。
需要说明的是,本发明实施例需要使用大量在线对话日志进行训练,且对数据格式有一定要求,具体要求为:在一个对话样本中,最短句子个数不低于3,最长句子个数不超过20,对话角色包含两个,即“买家”和“卖家”。
最后,利用训练完成后的分句模型对对话信息进行分句处理。
参阅图2所示,在一种实施方式中,当对对话相关的对话信息进行预处理后就可以进一步将对话输入的信息进行词嵌入。
需要说明的是,现有可以处理多轮对话进行意图识别的方法主要分为两类:基于记忆网络的方法和基于专用对话预训练模型的方法。其中,记忆网络其具体细节如下:
记忆网络一般包括输入编码模块、记忆模块和输出预测模块。这类方法一般会维护一个记忆槽位空间(记忆模块),存储对话上文历史语句,然后应用注意力机制,动态地不断更新网络记忆模块的状态,并基于记忆状态生成一个特征向量,基于此预测对话的意图,生成对话答案等。但是记忆网络的方法生成答案效果不佳,难以在领域性强的任务上落地应用。此外,记忆网络类方法需要大量标注数据做训练,前期对人力成本要求很高。而能够自动配置答案的方法主要依赖预训练语言模型,其具体细节如下:
这类模型一般会利用现有的语言模型,例如全词遮掩的BERT-wwm等,作为基础的编码器,然后将整个对话拼接起来,并在每条对话语句前插入一个对话角色的特殊符号,进行MLM(masked language modeling)预训练任务。此外,这类方法还针对对话专门设计了对话补全任务、对话下文对比学习任务等,从而将BERT模型的CLS单词向量训练为一个对话整体信息的表征向量。基于预训练的方法,包含了通用预训练语言模型和对话预训练语言模型。通用类模型直接迁移到对话任务上时,由于数据形式变化较大,从而会导致编码效果不佳。且目前的对话预训练模型语言对对话结构信息考虑不全,只有简单的角色提示特殊符号,没有加入角色编码信息和轮次编码信息,此外目前多采用对比学习加入邻近样本做句子匹配建模任务,缺乏对话级别的句子掩码生成建模任务。
因此,在一种实施方式中,本发明对对话输入的信息进行词嵌入具体包括:将对话信息输入嵌入层,所述嵌入层包括对话轮次嵌入层、角色信息嵌入层、位置嵌入层以及单词嵌入层;经所述嵌入层分别对对话信息中句子的角色信息、句子的伦次信息、单词的信息和单词的位置信息进行词嵌入。
表1.对话样本内容
Figure 497644DEST_PATH_IMAGE028
参阅上述表1所示的例子中,一共进行了三轮对话,其中“买家”-“卖家”的一个闭环为一轮对话(如果对话以“卖家”开始,则将“卖家”到“买家”(不包含)这些对话语句的轮次列为1;如果以“买家”结束,则将对应的句子也视为一轮对话)。
此外,基于预训练的方法的方法,在对话预训练模型语言对对话结构信息考虑不全,只有简单的角色提示特殊符号,在一个实施方式中,本方案需要给每句对话插入角色提示符号,例如:构成类似“<cnick>...<snick>...<cnick>...<snick>...”这样的对话句子的拼接文本(<cnick>代表买家,<snick>代表卖家)。本实施例中,词嵌入后产生了一个d维度的向量,d等于768。
进一步的,所述单词嵌入层的嵌入权重基于Glove算法获得,其余嵌入层权重在模型训练中获得。
在一种实施方式中,当对对话输入的信息进行词嵌入后就可以进一步将带有对话文本单词信息、位置信息、角色信息以及轮次信息的词嵌入输出结果相加作为对话预训练语言模型的输入。
在本实施例中,对话预训练语言模型采用Transformer 的Encoder作为基础神经网络层,本实施例使用了8层Transformer Encoder,并采用adapter方法初始化其权重。其中,adapter方法初始化其权重具体方法如下所述:
首先,将对话样本x输入一个公开的预训练语言模型LM,记录该预训练语言模型LM中每层被激活的神经元
Figure 970214DEST_PATH_IMAGE001
将对话样本x输入所述Transformer模型,记录每层被激活的神经元
Figure 83663DEST_PATH_IMAGE002
然后,计算预训练语言模型LM中激活神经元在各层的占比receiver和Transformer模型中激活神经元在各层的占比demonstrator,得到最小损失函数minObj adapter 如下:
Figure 821943DEST_PATH_IMAGE003
其中,
Figure 46251DEST_PATH_IMAGE004
上式中,N min 为所述Transformer模型encoder与预训练语言模型LM中Transformerencoder的层数最小值,x为对话样本,D为对话文本语料库,l为网络层,
Figure 107748DEST_PATH_IMAGE005
为预训练语言模型LM中每层所有的神经元,
Figure 392099DEST_PATH_IMAGE006
为Transformer模型中每层所有的神经元;
最后,采用梯度下降算法AsamW对Transformer模型encoder每层的参数进行优化。需要说明的是,这个方法可以使得Transformer的encoder层权重得到良好的初始化效果,有利于模型后续的训练。
在一种实施方式中,当对话信息经过Transformer模型encoder编码层后,对话信息的N个单词会被编码为N个编码向量U=[u 1 ,u 2 ,...,u N ],其中每个编码向量的维度为d维。为了获得对话的整体表示,本实施例在Transformer模型输出后进一步对输出的编码向量进行基于BiLSTM-CNN的池化处理,获得对话表征向量;具体包括:
首先,将编码向量输入双向长短记忆网络BiLSTM,对所述编码向量进行降维编码,获得双向降维隐向量:
Figure 804626DEST_PATH_IMAGE007
然后,拼接所述双向降维隐向量:
Figure 832625DEST_PATH_IMAGE008
最后,将拼接后的结果输入卷积神经网络CNN,经最大池化操作输出对话表征向量如下:
Figure 76524DEST_PATH_IMAGE009
上式中,
Figure 266197DEST_PATH_IMAGE010
pooler为对话表征向量,max pooling ()为最大池化操作,BiLSTM()为输入双向长短期记忆网络BiLSTM处理过程,CNN()为输入卷积神经网络CNN处理过程,U为所述Transformer模型输出的N个编码向量的集合,h i 表示拼接双向降维隐向量后的结果,
Figure 166020DEST_PATH_IMAGE011
为正向最后一个单元的输出,
Figure 732131DEST_PATH_IMAGE012
为反向最后一个单元的输出,R d/2 表示
Figure 33799DEST_PATH_IMAGE011
Figure 705958DEST_PATH_IMAGE013
的深度特征。
在一种实施方式中,利用对话级别的句子掩码建模MUM(masked utterancemodeling)、单词整体掩码建模MLM(masked language modeling)和基于回复生成的对话级别对比学习建模ResGen其中之一生成的预训练学习任务,分别可以获得loss 1 loss 2 loss 3 ,进而基于上述loss 1 loss 2 loss 3 损失之一对模型进行优化。
其中,所述对话级别的句子掩码建模:随机将对话样本M条句子中的一条句子的全部单词替换为一个特殊遮掩符号,利用模型预测该条句子所有单词,采用交叉熵CE计算损失函数loss 1 如下:
Figure 93077DEST_PATH_IMAGE014
其中,
Figure 462878DEST_PATH_IMAGE015
上式中,f sample 函数实现随机地从前M-1条句子中选择一条句子的功能,x为对话样本,u为所述Transformer模型输出的编码向量,w为选中句子的全部单词,w pred w预测过程,u mark 为替换为特殊掩码符号的单词。
对话级别的单词整体掩码建模:将整个对话样本M单词中的部分单词利用mask符号进行遮掩处理和进行文字替换处理,形成遮掩处理对话样本,在一种实施方式中,对整个对话样本M单词中的20%进行处理;采用交叉熵CE计算损失函数loss 2 如下:
Figure 353474DEST_PATH_IMAGE016
其中,
Figure 150528DEST_PATH_IMAGE017
上式中,x mask 为遮掩处理对话样本,f mask 函数实现遮掩处理和进行文字替换处理操作。
基于回复生成的对话级别对比学习建模:使用margin loss的方法计算损失;在一种实施方式中,构造对话批次B,对话批次B的序列长度为128;
将对话批次中每个对话样本的最后一句话
Figure 821681DEST_PATH_IMAGE018
移除,然后将每条对话样本移除后的最后一句话
Figure 995173DEST_PATH_IMAGE019
与其余样本移除后的最后一句话
Figure 5855DEST_PATH_IMAGE020
之间做比对学习;
计算对话样本的表征向量pooler和最后一句话的匹配度,具体包括:通过sigmoid函数对二者向量的点击求0~1之间分布的数值获得;
进一步的,计算损失函数loss 3 如下:
Figure 973811DEST_PATH_IMAGE029
Figure 69943DEST_PATH_IMAGE030
上式中,δ为一个正数,d为模型的维度,也是模型输出的编码向量的维度,y为比对对话样本,pooler x 为对话样本x的表征向量,
Figure 781547DEST_PATH_IMAGE024
为逻辑运算符合取。
进一步的,基于损失函数loss 1 loss 2 loss 3 之一对模型进行优化。
需要说明的是,本发明优化后的模型,可以直接使用池化输出pooler用于下游的对话意图分类、情绪识别等任务;编码结果U=[u 1 ,u 2 ,...,u N ]可以直接应用于对话答案生成、实体识别等任务。
值得一提的是,通过与通过与BERT-wwm ,PT-CoDE,TOD-BERT,记忆网络等业界领先的方法对比,本发明所提方法在多轮对话意图识别、实体识别、情绪分析、答案生成等任务上,超出现有方法1~3%的准确率。而且本发明基于大量无标注在线对话日志训练模型,数据获取的标注成本极低。
实施例2
区别于上述实施例,本实施例利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模其任意组合生成的预训练学习任务,对模型进行优化:
例如,利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模生成的预训练学习任务两两组合,并赋予对应的loss权重生产对模型进行优化,具体包括:
基于算得的loss 1 loss 2 得到的整体损失函数如下:
Figure 459784DEST_PATH_IMAGE031
其中,
Figure 598641DEST_PATH_IMAGE032
上式中,
Figure 182069DEST_PATH_IMAGE033
为两类预训练学习任务的loss权重参数。
相较于单类预训练学习任务和两类组合的预训练学习任务,利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模生成的预训练学习任务的三类的组合能够实现更好的优化效果,具体如下:
基于算得的loss 1 loss 2 loss 3 ,得到的整体损失函数如下:
Figure 431785DEST_PATH_IMAGE025
其中,
Figure 479376DEST_PATH_IMAGE026
上式中,
Figure 789134DEST_PATH_IMAGE027
为三类预训练学习任务的loss权重参数。
综上所述,本发明所提方法可以有效解决多轮对话意图识别等问题,且可以通过生成回复答案的方法,提高答案的配置效率,从而一定程度上缓解电商机器人的痛点。
参阅图3所示,本实施例还提供一种基于无监督对话预训练的对话理解与答案配置系统,包括:
对话信息处理模块,用于进行对话相关的对话信息预处理,构建具有对话内容、角色信息及轮次信息的对话输入样本,将对话输入的信息进行词嵌入,将带有对话文本单词信息、位置信息、角色信息以及轮次信息的词嵌入输出结果相加作为对话预训练语言模型encoder的输入;
编码输出模块,用于接收所述对话信息处理模块的词嵌入输出结果,输出编码向量;
模型输出处理模块,用于对模型encoder输出的编码向量进行基于BiLSTM-CNN的池化处理,获得对话表征向量;
对话预训练学习模块,用于利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模其中之一或其任意组合生成的预训练学习任务,对模型进行优化。
以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.基于无监督对话预训练的对话理解与答案配置方法,其特征在于,包括如下步骤:
进行对话相关的对话信息预处理,构建具有对话内容、角色信息及轮次信息的对话输入样本,将对话输入的信息进行词嵌入;
将带有对话文本单词信息、位置信息、角色信息以及轮次信息的词嵌入输出结果相加作为对话预训练语言模型encoder的输入;
对模型encoder输出的编码向量进行基于BiLSTM-CNN的池化处理,获得对话表征向量;
利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模其中之一或其任意组合生成的预训练学习任务,对模型进行优化。
2.如权利要求1所述的基于无监督对话预训练的对话理解与答案配置方法,其特征在于,所述进行对话相关的对话信息预处理包括:
利用sentencepiece构建分句模型;
基于unigram model算法对所述分句模型进行预训练;
利用训练完成后的分句模型对对话信息进行分句处理。
3.如权利要求2所述的基于无监督对话预训练的对话理解与答案配置方法,其特征在于,所述将对话输入的信息进行词嵌入包括:
将对话信息输入嵌入层,所述嵌入层包括对话轮次嵌入层、角色信息嵌入层、位置嵌入层以及单词嵌入层;
经所述嵌入层分别对对话信息中句子的角色信息、句子的伦次信息、单词的信息和单词的位置信息进行词嵌入。
4.如权利要求3所述的基于无监督对话预训练的对话理解与答案配置方法,其特征在于,所述对话预训练语言模型为采用adapter方法进行权重初始化后的Transformer模型,其中,采用adapter方法进行权重初始化具体包括:
将对话样本x输入一个公开的预训练语言模型LM,记录该预训练语言模型LM中每层被激活的神经元
Figure 246119DEST_PATH_IMAGE001
将对话样本x输入所述Transformer模型,记录每层被激活的神经元
Figure 299526DEST_PATH_IMAGE002
计算预训练语言模型LM中激活神经元在各层的占比receiver和Transformer模型中激活神经元在各层的占比demonstrator,得到最小损失函数minObj adapter 如下:
Figure 139306DEST_PATH_IMAGE004
其中,
Figure 619966DEST_PATH_IMAGE005
上式中,N min 为所述Transformer模型encoder与预训练语言模型LM中Transformerencoder的层数最小值,x为对话样本,D为对话文本语料库,l为网络层,
Figure 912407DEST_PATH_IMAGE006
为预训练语言模型LM中每层所有的神经元,
Figure 831821DEST_PATH_IMAGE007
为Transformer模型中每层所有的神经元;
采用梯度下降算法AsamW对Transformer模型encoder每层的参数进行优化。
5.如权利要求4所述的基于无监督对话预训练的对话理解与答案配置方法,其特征在于,所述对模型encoder输出的编码向量进行基于BiLSTM-CNN的池化处理包括:
将编码向量输入双向长短记忆网络BiLSTM,对所述编码向量进行降维编码,获得双向降维隐向量:
Figure 526108DEST_PATH_IMAGE008
拼接所述双向降维隐向量:
Figure 177669DEST_PATH_IMAGE009
将拼接后的结果输入卷积神经网络CNN,经最大池化操作输出对话表征向量如下:
Figure 222986DEST_PATH_IMAGE010
上式中,
Figure 618195DEST_PATH_IMAGE011
pooler为对话表征向量,max pooling ()为最大池化操作,BiLSTM()为输入双向长短期记忆网络BiLSTM处理过程,CNN()为输入卷积神经网络CNN处理过程,U为所述Transformer模型输出的N个编码向量的集合,h i 表示拼接双向降维隐向量后的结果,
Figure 166988DEST_PATH_IMAGE012
为正向最后一个单元的输出,
Figure 566614DEST_PATH_IMAGE013
为反向最后一个单元的输出,R d/2 表示
Figure 833647DEST_PATH_IMAGE012
Figure 32547DEST_PATH_IMAGE014
的深度特征。
6.如权利要求5所述的基于无监督对话预训练的对话理解与答案配置方法,其特征在于,所述利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模其中之一或其任意组合生成的预训练学习任务,对模型进行优化包括:
对话级别的句子掩码建模:随机将对话样本M条句子中的一条句子的全部单词替换为一个特殊遮掩符号,利用模型预测该条句子所有单词,采用交叉熵CE计算损失函数loss 1 如下:
Figure 435847DEST_PATH_IMAGE015
其中,
Figure 694790DEST_PATH_IMAGE016
上式中,f sample 函数实现随机地从前M-1条句子中选择一条句子的功能,u为所述Transformer模型输出的编码向量,w为选中句子的全部单词,w pred w预测过程,u mark 为替换为特殊掩码符号的单词;
对话级别的单词整体掩码建模:将整个对话样本M个单词中的部分单词利用mask符号进行遮掩处理和进行文字替换处理,形成遮掩处理对话样本,采用交叉熵CE计算损失函数loss 2 如下:
Figure 449119DEST_PATH_IMAGE017
其中,
Figure 248448DEST_PATH_IMAGE018
上式中,x mask 为遮掩处理对话样本,f mask 函数实现遮掩处理和进行文字替换处理操作;
基于回复生成的对话级别对比学习建模:随机打乱对话样本,构造对话批次B;
将对话批次中每个对话样本的最后一句话
Figure 771833DEST_PATH_IMAGE019
移除,然后将每条对话样本移除后的最后一句话
Figure 201678DEST_PATH_IMAGE020
与其余样本移除后的最后一句话
Figure 177724DEST_PATH_IMAGE021
之间做比对学习;
计算对话样本的表征向量pooler和最后一句话的匹配度;
计算损失函数loss 3 如下:
Figure 718427DEST_PATH_IMAGE023
Figure 361898DEST_PATH_IMAGE024
上式中,δ为一个正数,d为模型的维度,y为比对对话样本,pooler x 为对话样本x的表征向量,
Figure 510113DEST_PATH_IMAGE025
为逻辑运算符合取。
7.如权利要求6所述的基于无监督对话预训练的对话理解与答案配置方法,其特征在于,所述对模型进行优化包括:
基于模型整体损失函数对模型进行优化,其中,所述模型整体损失函数如下:
Figure 239035DEST_PATH_IMAGE026
其中,
Figure 317849DEST_PATH_IMAGE027
上式中,
Figure DEST_PATH_IMAGE028
为三类预训练学习任务的loss权重参数。
8.如权利要求7所述的基于无监督对话预训练的对话理解与答案配置方法,其特征在于,所述Transformer模型共有8层。
9.如权利要求8所述的基于无监督对话预训练的对话理解与答案配置方法,其特征在于,所述单词嵌入层的嵌入权重基于Glove算法获得,其余嵌入层权重在模型训练中获得。
10.一种基于无监督对话预训练的对话理解与答案配置系统,其特征在于,包括:
对话信息处理模块,用于进行对话相关的对话信息预处理,构建具有对话内容、角色信息及轮次信息的对话输入样本,将对话输入的信息进行词嵌入,将带有对话文本单词信息、位置信息、角色信息以及轮次信息的词嵌入输出结果相加作为对话预训练语言模型encoder的输入;
编码输出模块,用于接收所述对话信息处理模块的词嵌入输出结果,输出编码向量;
模型输出处理模块,用于对模型encoder输出的编码向量进行基于BiLSTM-CNN的池化处理,获得对话表征向量;
对话预训练学习模块,用于利用对话级别的句子掩码建模、单词整体掩码建模和基于回复生成的对话级别对比学习建模其中之一或其任意组合生成的预训练学习任务,对模型进行优化。
CN202110595442.5A 2021-05-29 2021-05-29 基于无监督对话预训练的对话理解与答案配置方法及系统 Active CN113032545B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110595442.5A CN113032545B (zh) 2021-05-29 2021-05-29 基于无监督对话预训练的对话理解与答案配置方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110595442.5A CN113032545B (zh) 2021-05-29 2021-05-29 基于无监督对话预训练的对话理解与答案配置方法及系统

Publications (2)

Publication Number Publication Date
CN113032545A true CN113032545A (zh) 2021-06-25
CN113032545B CN113032545B (zh) 2021-09-03

Family

ID=76456195

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110595442.5A Active CN113032545B (zh) 2021-05-29 2021-05-29 基于无监督对话预训练的对话理解与答案配置方法及系统

Country Status (1)

Country Link
CN (1) CN113032545B (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343643A (zh) * 2021-08-09 2021-09-03 浙江浙能技术研究院有限公司 一种基于有监督的多模型编码映射推荐方法
CN113946688A (zh) * 2021-10-20 2022-01-18 中国人民解放军国防科技大学 一种寻找自然语言处理模型天然后门的方法
CN114579699A (zh) * 2022-02-18 2022-06-03 阿里巴巴(中国)有限公司 预训练语言模型的训练方法以及装置
CN114997182A (zh) * 2022-06-08 2022-09-02 阿里巴巴(中国)有限公司 对话语篇分析及模型训练方法、电子设备及存储介质
CN115292470A (zh) * 2022-09-30 2022-11-04 中邮消费金融有限公司 一种用于小额贷款智能客服的语义匹配方法及系统
CN116028630A (zh) * 2023-03-29 2023-04-28 华东交通大学 基于对比学习和Adapter网络的隐式篇章关系识别方法及系统
CN116051859A (zh) * 2023-02-21 2023-05-02 阿里巴巴(中国)有限公司 服务提供方法、设备和存储介质
CN116737894A (zh) * 2023-06-02 2023-09-12 深圳市客一客信息科技有限公司 基于模型训练的智能机器人服务系统
CN117407242A (zh) * 2023-10-10 2024-01-16 浙江大学 基于大语言模型的低成本、零样本的在线日志解析方法

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190251168A1 (en) * 2018-02-09 2019-08-15 Salesforce.Com, Inc. Multitask Learning As Question Answering
CN110309283A (zh) * 2019-06-28 2019-10-08 阿里巴巴集团控股有限公司 一种智能问答的答案确定方法及装置
CN111382257A (zh) * 2020-05-28 2020-07-07 支付宝(杭州)信息技术有限公司 一种生成对话下文的方法和系统
CN111400478A (zh) * 2020-03-27 2020-07-10 天津大学 一种基于词嵌入匹配技术的知识图谱问答方法及装置
CN111611347A (zh) * 2020-05-22 2020-09-01 上海乐言信息科技有限公司 任务型对话系统的对话状态跟踪、训练方法及系统
CN111651576A (zh) * 2020-05-29 2020-09-11 浙江大学 一种基于迁移学习的多轮阅读理解方法
CN111897929A (zh) * 2020-08-04 2020-11-06 腾讯科技(深圳)有限公司 多轮问句的处理方法和装置、存储介质及电子设备
US20200364580A1 (en) * 2019-05-16 2020-11-19 Salesforce.Com, Inc. Learning World Graphs to Accelerate Hierarchical Reinforcement Learning
CN112765333A (zh) * 2021-01-08 2021-05-07 山东师范大学 基于情感与提示词结合的自动对话生成方法及系统

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190251168A1 (en) * 2018-02-09 2019-08-15 Salesforce.Com, Inc. Multitask Learning As Question Answering
US20200380213A1 (en) * 2018-02-09 2020-12-03 Salesforce.Com, Inc. Multitask Learning As Question Answering
US20200364580A1 (en) * 2019-05-16 2020-11-19 Salesforce.Com, Inc. Learning World Graphs to Accelerate Hierarchical Reinforcement Learning
CN110309283A (zh) * 2019-06-28 2019-10-08 阿里巴巴集团控股有限公司 一种智能问答的答案确定方法及装置
CN111400478A (zh) * 2020-03-27 2020-07-10 天津大学 一种基于词嵌入匹配技术的知识图谱问答方法及装置
CN111611347A (zh) * 2020-05-22 2020-09-01 上海乐言信息科技有限公司 任务型对话系统的对话状态跟踪、训练方法及系统
CN111382257A (zh) * 2020-05-28 2020-07-07 支付宝(杭州)信息技术有限公司 一种生成对话下文的方法和系统
CN111651576A (zh) * 2020-05-29 2020-09-11 浙江大学 一种基于迁移学习的多轮阅读理解方法
CN111897929A (zh) * 2020-08-04 2020-11-06 腾讯科技(深圳)有限公司 多轮问句的处理方法和装置、存储介质及电子设备
CN112765333A (zh) * 2021-01-08 2021-05-07 山东师范大学 基于情感与提示词结合的自动对话生成方法及系统

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
HANG YAN 等: "TENER: Adapting Transformer Encoder for Named Entity Recognition", 《COMPUTATION AND LANGUAGE》 *
侯佳正 等: "基于问答交互的答案句选择算法", 《计算机与现代化》 *
王豪 等: "基于深度学习的个性化对话内容生成方法", 《图学学报》 *

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113343643A (zh) * 2021-08-09 2021-09-03 浙江浙能技术研究院有限公司 一种基于有监督的多模型编码映射推荐方法
CN113343643B (zh) * 2021-08-09 2021-11-02 浙江浙能技术研究院有限公司 一种基于有监督的多模型编码映射推荐方法
CN113946688A (zh) * 2021-10-20 2022-01-18 中国人民解放军国防科技大学 一种寻找自然语言处理模型天然后门的方法
CN114579699A (zh) * 2022-02-18 2022-06-03 阿里巴巴(中国)有限公司 预训练语言模型的训练方法以及装置
CN114997182A (zh) * 2022-06-08 2022-09-02 阿里巴巴(中国)有限公司 对话语篇分析及模型训练方法、电子设备及存储介质
CN115292470B (zh) * 2022-09-30 2023-02-03 中邮消费金融有限公司 一种用于小额贷款智能客服的语义匹配方法及系统
CN115292470A (zh) * 2022-09-30 2022-11-04 中邮消费金融有限公司 一种用于小额贷款智能客服的语义匹配方法及系统
CN116051859A (zh) * 2023-02-21 2023-05-02 阿里巴巴(中国)有限公司 服务提供方法、设备和存储介质
CN116051859B (zh) * 2023-02-21 2023-09-08 阿里巴巴(中国)有限公司 服务提供方法、设备和存储介质
CN116028630A (zh) * 2023-03-29 2023-04-28 华东交通大学 基于对比学习和Adapter网络的隐式篇章关系识别方法及系统
CN116028630B (zh) * 2023-03-29 2023-06-02 华东交通大学 基于对比学习和Adapter网络的隐式篇章关系识别方法及系统
CN116737894A (zh) * 2023-06-02 2023-09-12 深圳市客一客信息科技有限公司 基于模型训练的智能机器人服务系统
CN116737894B (zh) * 2023-06-02 2024-02-20 深圳市客一客信息科技有限公司 基于模型训练的智能机器人服务系统
CN117407242A (zh) * 2023-10-10 2024-01-16 浙江大学 基于大语言模型的低成本、零样本的在线日志解析方法
CN117407242B (zh) * 2023-10-10 2024-04-05 浙江大学 基于大语言模型的低成本、零样本的在线日志解析方法

Also Published As

Publication number Publication date
CN113032545B (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN113032545B (zh) 基于无监督对话预训练的对话理解与答案配置方法及系统
CN111883115B (zh) 语音流程质检的方法及装置
CN112667818B (zh) 融合gcn与多粒度注意力的用户评论情感分析方法及系统
CN108519890A (zh) 一种基于自注意力机制的鲁棒性代码摘要生成方法
CN108829662A (zh) 一种基于条件随机场结构化注意力网络的对话行为识别方法及系统
CN110705296A (zh) 一种基于机器学习和深度学习的中文自然语言处理工具系统
CN112417894B (zh) 一种基于多任务学习的对话意图识别方法及识别系统
Meng et al. Dialogue intent classification with long short-term memory networks
CN111625634A (zh) 词槽识别方法及装置、计算机可读存储介质、电子设备
CN110599324A (zh) 一种用于回款率预测的方法和装置
CN111177325A (zh) 一种自动生成答案的方法和系统
CN112818698A (zh) 一种基于双通道模型的细粒度的用户评论情感分析方法
CN116737922A (zh) 一种游客在线评论细粒度情感分析方法和系统
CN114386426A (zh) 一种基于多元语义融合的金牌话术推荐方法及装置
CN116361442B (zh) 基于人工智能的营业厅数据分析方法及系统
Dihingia et al. Chatbot implementation in customer service industry through deep neural networks
CN111666375A (zh) 文本相似度的匹配方法、电子设备和计算机可读介质
Sakarwala et al. Use advances in data science and computing power to invest in stock market
CN115357711A (zh) 一种方面级情感分析方法、装置、电子设备及存储介质
Gupta A review of generative AI from historical perspectives
Kreyssig Deep learning for user simulation in a dialogue system
Dasgupta et al. A Review of Generative AI from Historical Perspectives
Duan et al. Enhancing Text Generation via Parse Tree Embedding
Masumura et al. Large-context conversational representation learning: Self-supervised learning for conversational documents
Iosifova et al. Techniques and components for natural language processing

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant