CN113535902A - 一种融合对抗训练的生成式对话系统 - Google Patents
一种融合对抗训练的生成式对话系统 Download PDFInfo
- Publication number
- CN113535902A CN113535902A CN202110787242.XA CN202110787242A CN113535902A CN 113535902 A CN113535902 A CN 113535902A CN 202110787242 A CN202110787242 A CN 202110787242A CN 113535902 A CN113535902 A CN 113535902A
- Authority
- CN
- China
- Prior art keywords
- training
- word
- dialogue
- gpt
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 12
- 230000008569 process Effects 0.000 claims abstract description 6
- 239000013598 vector Substances 0.000 claims description 18
- 230000006870 function Effects 0.000 claims description 13
- 238000013135 deep learning Methods 0.000 claims description 2
- 230000009467 reduction Effects 0.000 claims description 2
- 239000013585 weight reducing agent Substances 0.000 claims description 2
- 238000013507 mapping Methods 0.000 claims 1
- 230000004044 response Effects 0.000 claims 1
- 238000003058 natural language processing Methods 0.000 abstract description 4
- 238000013528 artificial neural network Methods 0.000 abstract 1
- 238000011161 development Methods 0.000 abstract 1
- 238000011156 evaluation Methods 0.000 abstract 1
- 230000007246 mechanism Effects 0.000 description 3
- 238000011160 research Methods 0.000 description 3
- 238000011478 gradient descent method Methods 0.000 description 2
- 238000010606 normalization Methods 0.000 description 2
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 238000010586 diagram Methods 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 238000005457 optimization Methods 0.000 description 1
- 230000001902 propagating effect Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000000844 transformation Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
- G06N3/084—Backpropagation, e.g. using gradient descent
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- Artificial Intelligence (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
神经网络对话生成模型的发展促进了短文本对话建模的研究。对经过清洗的大规模高质量中文会话数据集(large‑scale cleaned Chinese conversation dataset,LCCC),预训练的中文对话模型在生成更符合汉语规范的高质量回复话语,但是泛化能力降低,导致在微调过程中评价指标偏低。针对此问题,利用生成对抗网络在自然语言处理处理任务中提高模型泛化能力的方法,提出一种融合对抗训练的中文GPT对话模型,首先在微调的过程中使用投影梯度下降的训练方法,提高了模型的泛化能力,然后使用Facal损失函数加快训练速度。
Description
技术领域
本发明涉及人工智能系统,特别是涉及当出现短文本多轮人机对话的生成式对话系统。
背景技术
随着人类社会信息化的不断演进以及人工服务成本的不断上升,人们越来越希望通过自然语言与计算机进行交流,智能对话机器人系统成为这样的历史背景下诞生的产物,尤其是能够像人一样理解话语,能够像人一样在即使有个别错字、语序颠倒等不影响句意理解的情况下,依旧能做出恰当回复,正成为各大公司及学术研究机构研发的方向和重点。
目前已有的智能对话系统的研究中,随着模型的性能、参数增强,语料库也越来越标准,模型在训练过程中拟合能力越来越强,但是泛化能力却没有得到提升。
对抗训练有两个作用,一是提高模型对恶意攻击的鲁棒性,二是提高模型的泛化能力。对抗训练最初用在图像领域中,其基本方法是通过选取训练数据潜在空间中的元素进行组合,并加入随机噪声作为虚假数据,在训练过程中,将真实数据和虚假数据送入到分类器中,最终使分类器无法区分输入数据是否为真实数据;在计算机视觉任务中,输入是连续的RGB的值,而在自然语言处理任务中,输入是离散的单词序列,一般以one-hot向量的形式呈现,如果直接在输入的文本上进行扰动,那么扰动的值和方向可能都没有意义,因此提出了可以在连续的embedding上做扰动的方法,但是与图像领域中直接在原始输入加扰动不同,在字或词嵌入向量上加扰动会带来这一问题:被构造出来的“对抗样本”并不能映射到某个单词上。因此,在词表中推理或查询字或词时,无法通过修改原始输入数据得到“对抗样本”;根据前人大量的实验工作显示,在自然语言处理任务中,对抗训练在非对抗样本上的表现更好,使模型的泛化能力变强,与视觉任务相反;在自然语言处理任务中,对抗训练的目的不再是为了防御基于梯度的恶意攻击,而是作为一种正则化方式来提高模型的泛化能力。
本发明针对此缺陷提出,利用对抗训练的方法解决人机对话系统泛化能力差的问题。
发明内容
一种融合对抗训练的生成式对话系统,其特征在于使用基于深度学习的GPT的端到端方式,研究针对提高泛化能力的人机智能对话系统,在即使有个别错字、语序颠倒等不影响句意理解的情况下,依旧能做出恰当回复。
本发明提供的技术方案包括如下步骤:在编码部分,直接用Hugging Face提供的transformers的BertTokenizer对历史对话和当前对话编码;解码部分使用的是中文GPT模型,首先将编码后的向量输入到解码部分,进行解码生成回复语句的第一个字,之后将编码后的向量和解码生成的字向量输入到解码部分中,直到生成最后一个字符;中文GPT模型在训练过程中,使用对抗训练中的投影梯度下降法进行训练,损失函数使用Facal损失函数。
附图说明
图1对话系统的模型架构图。
图2对话系统的模型内部结构图。
图3对话系统的模型详解图。
具体实施方式
第一步利用BertTokenizer将当前话语与历史对话进行编码;第二步将编码后的向量输入到中文GPT模型中,利用掩码多头注意力机制生成回复语句;第三步在训练过程中利用对抗训练中的投影梯度下降法进行训练,损失函数为Facal损失函数。
将多轮对话构建成长文本,并将生成回复话语任务构建为语言模型。首先将多轮对话中的所有对话连接成一个长文本x1,…,xN(N是序列长度),以[sep]标记文本结尾;将源语句(历史对话)表示为S=x1,…,xm,目标语句(语料库中真实回复语句即标写为一系列条件概率的乘积为公式1所示;对于多轮对话T1,…,TK,公式(1)的p(T|S)改成公式(2),因此只对p(TK,…,T2|T1)进行优化即可,
在模型训练完之后,得到模型的构造和参数以及训练过程在编码和解码部分。
编码部分:直接用Hugging Face提供的transformers的BertTokenizer对历史对话和当前对话编码。
解码部分:为中文GPT对话模型,将编码后的文本向量连续化并输入到模型中,GPT生成文本是根据用户特定的提示或无提示随机的方式生成的;在GPT体系结构的基础上训练了GPT对话模型,由12到48层的Transformer解码层构成,每层只有掩码多头自注意力机制(Masked self-attention)和归一化功能;自注意力机制为公式3,公式4,其中Q为查询向量,K为键向量,V为值向量,Wi Q,Wi K,Wi V是降维矩阵,比如Q,K,V的维度是768,注意力头数是12,那么是字嵌入向量的维度是(768,768/12)即(768,64),dk是Q和K的维度。考虑了修改模型初始化的深度以及对字而不是词编码。
对抗训练:对输入向量添加噪声,如公式5,公式6所示。θ为模型对应的参数,L为损失函数,S为扰动的范围,超参数α为步长。
xt+1=∏x+S(xt+αg(xt)/||g(xt)||2) (5)
g(xt)=▽xL(θ,xt,y) (6)
为实现上述目的,本文提出的方案是:一种基于投影梯度下降训的对抗训练算法,具体步骤如下:
S1:将离散向量变成连续向量;
S2:计算loss值;
S3:定义循环次数K;
S4:反向传播,得到正常的grad;
S5:在字嵌入向量上添加对抗扰动,第一次添加对抗扰动时备份模型参数;
S6:循环轮数不等于K-1时,清空梯度,否则保留梯度;
S7:计算加入扰动后的loss值;
S8:结束循环;
S9:在添加扰动前的梯度基础上反向传播,累加对抗训练的梯度;
S10:恢复字嵌入向量参数;
S11:梯度下降,更新参数;
为了提高生僻字的预测能力,进而加快训练速度,采用Facal损失函数,其公式为:
Facal_Loss=(1-p(T|S))^G×Loss (6)
其中,超参数G是调节简单样本权重降低速率的因子,Loss为交叉熵损失函数,其公式为:
例如某一个常用字和生僻字的概率分别为0.9和0.1,G=2,生僻字的Facal损失值是原有损失值的0.81倍,而常用字的Facal损失值是原有损失值的0.01倍,使生僻字的Facal损失值的占比相对提升,梯度更能沿着生僻字的方向下降。
Claims (4)
1.一种基于短文本多轮的生成式对话系统,其特征在于使用基于深度学习的GPT的端到端方式,研究针对提高泛化能力的人机智能对话系统,其包括如下:使用投影梯度下降的对抗训练算法来实现在有噪声但不改变语句意思输入的情况下,中文GPT对话模型依旧能给出合理答复,不会产生乱码;最后使用Facal损失函数提高生僻字预测能力,加快训练速度。
2.根据权利要求1所述一种基于投影梯度下降训的对抗训练算法,在微调过程中训练中文GPT对话模型,训练过程中,训练算法的输入是中文GPT对话模型。
3.根据权利要求1所述一种基于投影梯度下降训的对抗训练算法,包含三个部分,第一部分是对输入的字嵌入向量加入对抗扰动,第二部分是恢复字嵌入向量,第三部分恢复梯度;输入xt添加对抗扰动后为:
xt+1=∏x+λ(xt+αg(xt)/||g(xt)||2)
其中,扰动半径为ε,α为扰动空间上的步长,λ=r∈Rd:||r||2≤ε,g(xt)为损失函数L的梯度,即:
其中θ为y与xt之间映射关系的参数,例如:y=θ·xt,将中文GPT对话训练模型的输入(源语句和历史对话)表示为S=x1,···,xm,输出的目标语句T(语料库中真实回复语句即标签)为条件概率的乘积:
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110787242.XA CN113535902A (zh) | 2021-07-13 | 2021-07-13 | 一种融合对抗训练的生成式对话系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110787242.XA CN113535902A (zh) | 2021-07-13 | 2021-07-13 | 一种融合对抗训练的生成式对话系统 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113535902A true CN113535902A (zh) | 2021-10-22 |
Family
ID=78098738
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110787242.XA Pending CN113535902A (zh) | 2021-07-13 | 2021-07-13 | 一种融合对抗训练的生成式对话系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113535902A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792097A (zh) * | 2022-05-14 | 2022-07-26 | 北京百度网讯科技有限公司 | 预训练模型提示向量的确定方法、装置及电子设备 |
CN116414990A (zh) * | 2023-06-05 | 2023-07-11 | 深圳联友科技有限公司 | 一种车辆故障诊断与预防方法 |
-
2021
- 2021-07-13 CN CN202110787242.XA patent/CN113535902A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114792097A (zh) * | 2022-05-14 | 2022-07-26 | 北京百度网讯科技有限公司 | 预训练模型提示向量的确定方法、装置及电子设备 |
CN114792097B (zh) * | 2022-05-14 | 2022-12-06 | 北京百度网讯科技有限公司 | 预训练模型提示向量的确定方法、装置及电子设备 |
CN116414990A (zh) * | 2023-06-05 | 2023-07-11 | 深圳联友科技有限公司 | 一种车辆故障诊断与预防方法 |
CN116414990B (zh) * | 2023-06-05 | 2023-08-11 | 深圳联友科技有限公司 | 一种车辆故障诊断与预防方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110188167B (zh) | 一种融入外部知识的端到端对话方法及系统 | |
CN108681610B (zh) | 生成式多轮闲聊对话方法、系统及计算机可读存储介质 | |
CN111160467B (zh) | 一种基于条件随机场和内部语义注意力的图像描述方法 | |
CN110427605B (zh) | 面向短文本理解的省略恢复方法 | |
CN111382584A (zh) | 文本翻译方法、装置、可读存储介质和计算机设备 | |
CN109543820B (zh) | 基于架构短句约束向量和双重视觉关注机制的图像描述生成方法 | |
CN111881677A (zh) | 基于深度学习模型的地址匹配算法 | |
CN110032638B (zh) | 一种基于编码器-解码器的生成式摘要提取方法 | |
CN112182161B (zh) | 一种基于用户对话历史的个性化对话生成方法和系统 | |
CN109522403A (zh) | 一种基于融合编码的摘要文本生成方法 | |
CN113158665A (zh) | 一种基于文本摘要生成与双向语料改善对话文本生成的方法 | |
CN113535902A (zh) | 一种融合对抗训练的生成式对话系统 | |
CN112084841A (zh) | 跨模态的图像多风格字幕生成方法及系统 | |
CN114443827A (zh) | 基于预训练语言模型的局部信息感知对话方法及系统 | |
Zhou | A review of text classification based on deep learning | |
CN114860893A (zh) | 基于多模态数据融合与强化学习的智能决策方法及装置 | |
CN112348911A (zh) | 基于语义约束的堆叠文本生成细粒度图像方法及系统 | |
WO2023231513A1 (zh) | 对话内容的生成方法及装置、存储介质、终端 | |
CN111382257A (zh) | 一种生成对话下文的方法和系统 | |
CN114020936A (zh) | 多模态事理图谱的构建方法、系统和可读存储介质 | |
CN114691858B (zh) | 一种基于改进的unilm摘要生成方法 | |
CN116415170A (zh) | 基于预训练语言模型的提示学习小样本分类方法、系统、设备及介质 | |
Zhuang et al. | Improving remote sensing image captioning by combining grid features and transformer | |
CN113297374B (zh) | 一种基于bert和字词特征融合的文本分类方法 | |
CN114510576A (zh) | 一种基于BERT和BiGRU融合注意力机制的实体关系抽取方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |