CN112612881B - 基于Transformer的中文智能对话方法 - Google Patents

基于Transformer的中文智能对话方法 Download PDF

Info

Publication number
CN112612881B
CN112612881B CN202011579830.6A CN202011579830A CN112612881B CN 112612881 B CN112612881 B CN 112612881B CN 202011579830 A CN202011579830 A CN 202011579830A CN 112612881 B CN112612881 B CN 112612881B
Authority
CN
China
Prior art keywords
matrix
transformer
training
sequence
input sequence
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011579830.6A
Other languages
English (en)
Other versions
CN112612881A (zh
Inventor
杨波
巩固
郑文锋
刘珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
University of Electronic Science and Technology of China
Original Assignee
University of Electronic Science and Technology of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by University of Electronic Science and Technology of China filed Critical University of Electronic Science and Technology of China
Priority to CN202011579830.6A priority Critical patent/CN112612881B/zh
Publication of CN112612881A publication Critical patent/CN112612881A/zh
Application granted granted Critical
Publication of CN112612881B publication Critical patent/CN112612881B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/126Character encoding
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Databases & Information Systems (AREA)
  • Human Computer Interaction (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

本发明公开了一种基于Transformer的中文智能对话方法,先使用大规模的中文闲聊语料库LCCC(Large‑scale Cleaned Chinese Conversation)构建训练数据集,作为Transformer模型的输入,然后基于深度学习的方式对Transformer模型进行训练,直至Transformer模型收敛,最后,将待对话的输入序列输入至Transformer模型,通过Transformer模型实时输出期望输出序列,从而实现中文智能实时对话。

Description

基于Transformer的中文智能对话方法
技术领域
本发明属于自然语言处理技术领域,更为具体地讲,涉及一种基于Transformer的中文智能对话方法。
背景技术
随着深度学习技术的快速发展,NLP(Nature language model,自然语言处理)领域也越来越多引入了深度学习技术,其效果相比传统的基于规则或者传统统计方法的处理方式有了长足的进步。而利用Transformer模型的预训练语言表示模型,如BERT(Bidirectional Encoder Representations from Transformers),在各项NLP任务中取得了比传统的方法表现更出色的成绩,因为Transformer改进了RNN最为人诟病的训练慢的特点。利用Self-attention机制实现快速并行,并且Transformer可以增加到非常深的深度,充分发掘神经网络(Deep Neural Networks,DNN)模型的特征,提升模型准确率。智能化的问答系统系统层出不穷,并且给带来了许多便利。
原始的Transformer模型由编码器(encoder)和解码器(decoder)组成,这种架构在机器翻译任务中取得的成功证实了模型的有效性。2018年发布的预训练语言模型BERT,使用Transformer的encoder为重要结构,曾在11项自然语言处理任务上取得最好成绩,预训练语言模型开始引起极大关注,并已经成为自然语言处理的新范式。而GPT更好的实现生成语言这一特点,使用了Transformer的decoder,GPT单向的语言模型大大提高了推理、问答等应用问题的效果。
基于Transformer的预训练语言模型极大的促进了开发领域对话的研究进展,但是目前这一技术在中文对话领域并未广泛应用
GPT网络架构是一个多层Transformer的decoder网络,原始的Transformer模型和GPT分别采用函数式和参数式的绝对位置编码方式,本模型中使用了完全函数式的相对位置编码,实验表明该位置编码方式使得模型在各个下游任务中得到明显提升。
对Transformer模型中跨层参数进行共享,随着Transformer Block层数的增加,参数数量呈指数增长。为了解决这个问题,使用了跨层参数共享的概念,学习第一个快的参数,并在剩下的5个层中重用该块,只共享注意力参数。
在训练过程中,优化器方面使用Adam优化器,通常在深度神经网络训练的BatchSize很大的情况下会对模型的泛化能力带来负面影响,而Adam优化器通过一个自适应的方式为每个参数调整学习率,能够在Batch Size很大的情况下不损失模型效果。
大规模的、高质量的中文对话数据对模型起着重要的作用,目前已知的问答系统仅能机械地的回答问题,回复常常答非所问,并未达到智能理解语义和语境的程度。
发明内容
本发明的目的在于克服现有技术的不足,提供一种基于Transformer的中文智能对话方法,基于深度学习算法,在理解语义和语境的基础上模拟输出流畅的、符合语境的回答。
为实现上述发明目的,本发明一种基于Transformer的中文智能对话方法,其特征在于,包括以下步骤:
(1)、使用大规模的中文闲聊语料库LCCC(Large-scale Cleaned ChineseConversation)构建训练数据集;
(1.1)、构建长度为N的输入序列;
以[CLS]标签作为输入序列的开始符,然后从LCCC语料库中提取连续对话句,按照语句顺序将字填入输入序列,每个句子之间插入[SEP]标签,每次填入句子时,判定加入当前句总长度m是否大于N,若大于N,则停止填入;若小于N则继续填入,并将未填充部分设置为空值0,从而得到输入序列Sin
(1.2)、构建等长的期望输出序列Sout
从输入序列Sin的第2个字符开始依次填入至输出序列,输出序列的最后一个字符设置为空值0;
(1.3)、对输入序列和期望输出序列中的字符均用One-hot列向量进行编码,编码完成后将输入序列记为X,将期望输出序列记为Y,从而构建出训练数据集{X,Y},其中,X,Y∈RV×N,N表示输入序列的长度,V表示经过独热编码后字符向量的维度;
(2)、搭建Transformer模型
Transformer模型由若干层Decoder单元堆叠,在每个Decoder单元中又包括自注意力模块、残差连接模块和层归一化处理模块;
(3)、利用中文闲聊语料库提供字嵌入网络对输入序列X进行嵌入操作;
将输入序列X输入至字嵌入网络,经字嵌入网络编码后得到D×N的字嵌入矩阵XWE=WX,D表示字嵌入向量的维度,W为字嵌入矩阵;
(4)、用全0或全1填充的D维列向量,其中,0或1分别表示问或答者,从而构成D×N的段嵌入矩阵XSE
(5)、计算段嵌入后矩阵XE=XWE+XSE
(6)、将XE输入Transformer模块,用于提取语义信息;
(6.1)、将XE分别与三个D×D的权重矩阵WQ、WK、WI相乘,得到查询矩阵Q、键矩阵K和值矩阵V;
Q=WQXE=[q1,q2,…,qN]
K=WKXE=[k1,k2,…,kN]
V=WVXE=[v1,v2,…,vN]
然后,基于矩阵Q、K、V,引入相对位置编码,计算注意力矩阵Z,设矩阵Z的i列向量为zi,i=1,2,…,N,则有:
Figure BDA0002864569140000031
Figure BDA0002864569140000032
Figure BDA0002864569140000033
其中,qi、ki、vi分别为矩阵Q、K、V对应的列向量,pij是输出位置i和输入位置j的相对位置编码向量,pij的偶数和奇数元素计算公式为:
Figure BDA0002864569140000034
Figure BDA0002864569140000041
(6.2)、残差连接;
将注意力矩阵Z与段嵌入后矩阵XE相加,得到矩阵XA=Z+XE,再对XA进行标准归一化处理,得到X'A,设x′i和xi分别为X'A和XA的第i列向量,则有:
Figure BDA0002864569140000042
其中,μi和σi分别为xi各元素的均值和标准差,ε为一极小常数,α,β为弥补归一化引起的信息损失值;
(6.3)、将X'A输入至权重矩阵为WH的前馈线性映射层,并经过ReLU激活,得到输出矩阵XH=ReLU(WHX'A);
(6.4)、将矩阵XH再进行残差连接,得到矩阵X'H=X'A+XH,对矩阵X'H进行标准归一化处理,输出新的嵌入矩阵
Figure BDA0002864569140000043
(6.5)、重复步骤(6.1)~(6.4),经过多层Decoder单元处理后输出D×N的矩阵XTE
(7)、利用反转嵌入模型W对XTE进行解码操作,从而将XTE重新转换回原One-hot编码空间,再经过SoftMax激活函数激活,输出预测矩阵
Figure BDA0002864569140000044
(8)、根据
Figure BDA0002864569140000045
与期望输出矩阵Y计算损失函数值
Figure BDA0002864569140000046
||·||F表示求F范数,然后将损失值反向传播,更新Transformer模块;
(9)、重复步骤(3)~(8),利用训练数据集反复对Transformer模型进行训练,在训练过程中,使用的一定学习率和权重衰减率的Adam优化器进行训练,每一轮完整的训练称为一次epoch,epoch中包括多个训练样本,每次epoch完成后,判断样本的累加损失值小于等于预设阈值,则训练结束,得到训练完成的Transformer模型;否则,继续重复步骤(3)~(8)进行下一轮训练,直至样本的累加损失值小于等于预设阈值;
(10)、基于Transformer模型的中文智能实时对话;
将待对话的输入序列输入至Transformer模型,通过Transformer模型实时输出期望输出序列,从而实现中文智能实时对话。
本发明的发明目的是这样实现的:
本发明基于Transformer的中文智能对话方法,先使用大规模的中文闲聊语料库LCCC(Large-scale Cleaned Chinese Conversation)构建训练数据集,作为Transformer模型的输入,然后基于深度学习的方式对Transformer模型进行训练,直至Transformer模型收敛,最后,将待对话的输入序列输入至Transformer模型,通过Transformer模型实时输出期望输出序列,从而实现中文智能实时对话。
同时,本发明基于Transformer的中文智能对话方法还具有以下有益效果:
(1)、在Transformer模型中,5层Decoder单元中使用相对位置编码替代原来的绝对位置编码,并对多层的解码器进行跨层参数共享,随着Transformer Block层数的增加,参数数量呈指数增长。为了解决这个问题,使用了跨层参数共享的概念,学习第一个快的参数,并在剩下的5个层中重用该块,只共享注意力参数;
(2)、发明是基于预训练语言模型GPT做改进,GPT网络架构是一个多层Transformer的decoder网络,原始的Transformer模型和GPT分别采用函数式和参数式的绝对位置编码方式,本发明中使用了完全函数式的相对位置编码,实验表明该位置编码方式使得模型在各个下游任务中得到明显提升;
(3)、本发明使用了在各项自然语言处理任务中取得了比传统的方法表现更出色的Transformer方法来实现问答对话模型,并使用相对位置编码和参数共享来调优模型,达到了较高的问答准确率,通过网络对数据集的训练,可实现实时的问答情景,具有广阔的应用前景。
附图说明
图1是本发明基于Transformer的中文智能对话方法流程图;
图2是多轮对话示意图。
具体实施方式
下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许会淡化本发明的主要内容时,这些描述在这里将被忽略。
实施例
为了方便描述,先对具体实施方式中出现的相关专业术语进行说明:
图1是本发明基于Transformer的中文智能对话方法流程图;
在本实施例中,如图1所示,本发明一种基于Transformer的中文智能对话方法,包括以下步骤:
S1、使用LCCC(Large-scale Cleaned Chinese Conversation),以下称为大规模的中文闲聊语料库,简称语料库构建训练数据集;
S1.1、构建长度为N=20的输入序列;
以[CLS]标签作为输入序列的开始符,然后从语料库中提取连续对话句,按照语句顺序将字填入输入序列,每个句子之间插入[SEP]标签,每次填入句子时,判定加入当前句总长度m是否大于N,若大于N,则停止填入;若小于N则继续填入,并将未填充部分设置为空值0,从而得到输入序列Sin,[[CLS][最][近][怎][么][样][SEP][还][行][你][呢][SEP][我][也][不][错][SEP][0][0][0]];
S1.2、构建等长的期望输出序列Sout
从输入序列Sin的第2个字符开始依次填入至输出序列,输出序列的最后一个字符设置为空值0,[[最][近][怎][么][样][SEP][还][行][你][呢][SEP][我][也][不][错][SEP][0][0][0][0]];
S1.3、对输入序列和期望输出序列中的字符均用One-hot列向量进行编码,编码完成后将输入序列记为X,将期望输出序列记为Y,从而构建出训练数据集{X,Y},其中,X,Y∈RV×N,N表示输入序列的长度,V表示经过独热编码后字符向量的维度,设V=372063,表示词表大小;
S2、搭建Transformer模型
Transformer模型由6层Decoder单元堆叠,在每个Decoder单元中又包括自注意力模块、残差连接模块和层归一化处理模块;
S3、利用中文闲聊语料库提供的字嵌入网络对输入序列X进行嵌入操作;
将输入序列X输入至字嵌入网络,经字嵌入网络编码后得到D×N的字嵌入矩阵XWE=WX,D表示字嵌入向量的维度,W为字嵌入矩阵,其中D=256;
S4、如图2所示,用全0或全1填充的D维列向量,其中,0或1分别表示问或答者,从而构成D×N的段嵌入矩阵XSE,[[0][0][0][0][0][0][0][1][1][1][1][1][0][0][0][0][0][0][0][0]];
S5、计算段嵌入后矩阵XE=XWE+XSE
S6、将XE输入Transformer模块,用于提取语义信息;
S6.1、将XE分别与三个D×D的权重矩阵WQ、WK、WI相乘,得到查询矩阵Q、键矩阵K和值矩阵V;
Q=WQXE=[q1,q2,…,qN]
K=WKXE=[k1,k2,…,kN]
V=WVXE=[v1,v2,…,vN]
然后,基于矩阵Q、K、V,引入相对位置编码,计算注意力矩阵Z,设矩阵Z的i列向量为zi,i=1,2,…,N,则有:
Figure BDA0002864569140000071
Figure BDA0002864569140000072
Figure BDA0002864569140000073
其中,qi、ki、vi分别为矩阵Q、K、V对应的列向量,pij是输出位置i和输入位置j的相对位置编码向量,pij的偶数和奇数元素计算公式为:
Figure BDA0002864569140000074
Figure BDA0002864569140000075
在本实施例中,上述运算也可采用多头注意力机制,具体为:将Q、K、V通过线性映射分成若干组{Qκ,Kκ,Vκ}κ=1,2,...,然后对每组进行上述操作,计算出多个Zκ,最后将多个Zκ拼接再进行线性投影,得到多头注意力矩阵Z*
S6.2、残差连接;
将注意力矩阵Z与段嵌入后矩阵XE相加,得到矩阵XA=Z+XE,再对XA进行标准归一化处理,得到X'A,设x′i和xi分别为X'A和XA的第i列向量,则有:
Figure BDA0002864569140000081
其中,μi和σi分别为xi各元素的均值和标准差,ε为一极小常数,α,β为弥补归一化引起的信息损失值;
S6.3、将X'A输入至权重矩阵为WH的前馈线性映射层,并经过ReLU激活,得到输出矩阵XH=ReLU(WHX'A);
S6.4、将矩阵XH再进行残差连接,得到矩阵X'H=X'A+XH,对矩阵X'H进行标准归一化处理,输出新的嵌入矩阵
Figure BDA0002864569140000082
S6.5、重复步骤S6.1~S6.4,经过多层Decoder单元处理后输出D×N的矩阵XTE
S7、利用反转嵌入模型W对XTE进行解码操作,从而将XTE重新转换回原One-hot编码空间,再经过SoftMax激活函数激活,输出预测矩阵
Figure BDA0002864569140000083
S8、根据
Figure BDA0002864569140000084
与期望输出矩阵Y计算损失函数值
Figure BDA0002864569140000085
||·||F表示求F范数,然后将损失值反向传播,更新Transformer模块;
S9、重复步骤S3~S8,利用训练数据集反复对Transformer模型进行训练,在训练过程中,使用的学习率为2×10-5、权重衰减率为0.01的Adam优化器进行训练,训练样本进行完整的训练称为一次epoch,每次epoch完成后,判断样本的累加损失值小于等于预设阈值,则训练结束,得到训练完成的Transformer模型;否则,继续重复步骤S3~S8进行下一轮训练,直至样本的累加损失值小于等于预设阈值;
S10、基于Transformer模型的中文智能实时对话;
将待对话的输入序列输入至Transformer模型,通过Transformer模型实时输出期望输出序列,从而实现中文智能实时对话。
尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些变化是显而易见的,一切利用本发明构思的发明创造均在保护之列。

Claims (2)

1.一种基于Transformer的中文智能对话方法,其特征在于,包括以下步骤:
(1)、使用大规模的中文闲聊语料库LCCC(Large-scale Cleaned ChineseConversation)构建训练数据集;
(1.1)、构建长度为N的输入序列;
以[CLS]标签作为输入序列的开始符,然后从LCCC语料库中提取连续对话句,按照语句顺序将字填入输入序列,每个句子之间插入[SEP]标签,每次填入句子时,判定加入当前句总长度m是否大于N,若大于N,则停止填入;若小于N则继续填入,并将未填充部分设置为空值0,从而得到输入序列Sin
(1.2)、构建等长的期望输出序列Sout
从输入序列Sin的第2个字符开始依次填入至输出序列,输出序列的最后一个字符设置为空值0;
(1.3)、对输入序列和期望输出序列中的字符均用One-hot列向量进行编码,编码完成后将输入序列记为X,将期望输出序列记为Y,从而构建出训练数据集{X,Y},其中,X,Y∈RV ×N,N表示输入序列的长度,V表示经过独热编码后字符向量的维度;
(2)、搭建Transformer模型
Transformer模型由若干层Decoder单元堆叠,在每个Decoder单元中又包括自注意力模块、残差连接模块和层归一化处理模块;
(3)、利用中文闲聊语料库提供字嵌入网络对输入序列X进行嵌入操作;
将输入序列X输入至字嵌入网络,经字嵌入网络编码后得到D×N的字嵌入矩阵XWE=WX,D表示字嵌入向量的维度,W为字嵌入矩阵;
(4)、用全0或全1填充的D维列向量,其中,0或1分别表示问或答者,从而构成D×N的段嵌入矩阵XSE
(5)、计算段嵌入后矩阵XE=XWE+XSE
(6)、将XE输入Transformer模块,用于提取语义信息;
(6.1)、将XE分别与三个D×D的权重矩阵WQ、WK、WI相乘,得到查询矩阵Q、键矩阵K和值矩阵V;
Q=WQXE=[q1,q2,…,qN]
K=WKXE=[k1,k2,…,kN]
V=WVXE=[v1,v2,…,vN]
然后,基于矩阵Q、K、V,引入相对位置编码,计算注意力矩阵Z,设矩阵Z的i列向量为zi,i=1,2,…,N,则有:
Figure FDA0003417331060000021
Figure FDA0003417331060000022
Figure FDA0003417331060000023
其中,qi、ki、vi分别为矩阵Q、K、V对应的列向量,pij是输出位置i和输入位置j的相对位置编码向量,pij的偶数和奇数元素计算公式为:
Figure FDA0003417331060000024
Figure FDA0003417331060000025
(6.2)、残差连接;
将注意力矩阵Z与段嵌入后矩阵XE相加,得到矩阵XA=Z+XE,再对XA进行标准归一化处理,得到X'A,设x′i和xi分别为X'A和XA的第i列向量,则有:
Figure FDA0003417331060000026
其中,μi和σi分别为xi各元素的均值和标准差,ε为一极小常数,α,β为弥补归一化引起的信息损失值;
(6.3)、将X'A输入至权重矩阵为WH的前馈线性映射层,并经过ReLU激活,得到输出矩阵XH=ReLU(WHX'A);
(6.4)、将矩阵XH再进行残差连接,得到矩阵X'H=X'A+XH,对矩阵X'H进行标准归一化处理,输出新的嵌入矩阵
Figure FDA0003417331060000027
(6.5)、重复步骤(6.1)~(6.4),经过多层Decoder单元处理后输出D×N的矩阵XTE
(7)、利用反转嵌入模型W对XTE进行解码操作,从而将XTE重新转换回原One-hot编码空间,再经过SoftMax激活函数激活,输出预测矩阵
Figure FDA0003417331060000031
(8)、根据
Figure FDA0003417331060000032
与期望输出矩阵Y计算损失函数值
Figure FDA0003417331060000033
||·||F表示求F范数,然后将损失值反向传播,更新Transformer模块;
(9)、重复步骤(3)~(8),利用训练数据集反复对Transformer模型进行训练,在训练过程中,使用的一定学习率和权重衰减率的Adam优化器进行训练,每一轮完整的训练称为一次epoch,epoch中包括多个训练样本,每次epoch完成后,判断样本的累加损失值小于等于预设阈值,则训练结束,得到训练完成的Transformer模型;否则,继续重复步骤(3)~(8)进行下一轮训练,直至样本的累加损失值小于等于预设阈值;
(10)、基于Transformer模型的中文智能实时对话;
将待对话的输入序列输入至Transformer模型,通过Transformer模型实时输出期望输出序列,从而实现中文智能实时对话。
2.根据权利要求1所述的基于Transformer的中文智能对话方法,其特征在于,所述步骤(6.1)中注意力矩阵Z为多头注意力矩阵Z*
将Q、K、V通过线性映射分成若干组{Qκ,Kκ,Vκ}κ=1,2,…,然后对每组进行步骤(6.1)操作,计算出多个Zκ,最后将多个Zκ拼接再进行线性投影,得到多头注意力矩阵Z*
CN202011579830.6A 2020-12-28 2020-12-28 基于Transformer的中文智能对话方法 Active CN112612881B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011579830.6A CN112612881B (zh) 2020-12-28 2020-12-28 基于Transformer的中文智能对话方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011579830.6A CN112612881B (zh) 2020-12-28 2020-12-28 基于Transformer的中文智能对话方法

Publications (2)

Publication Number Publication Date
CN112612881A CN112612881A (zh) 2021-04-06
CN112612881B true CN112612881B (zh) 2022-03-25

Family

ID=75248251

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011579830.6A Active CN112612881B (zh) 2020-12-28 2020-12-28 基于Transformer的中文智能对话方法

Country Status (1)

Country Link
CN (1) CN112612881B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114271831B (zh) * 2022-03-07 2022-05-27 合肥心之声健康科技有限公司 心音图信号转换心电图信号的方法、系统以及设备
CN115129826B (zh) * 2022-09-01 2022-11-22 国网智能电网研究院有限公司 电力领域模型预训练方法、精调方法、装置及设备
CN117273067B (zh) * 2023-11-20 2024-02-02 上海芯联芯智能科技有限公司 一种基于大语言模型的对话响应方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110502643A (zh) * 2019-08-28 2019-11-26 南京璇玑信息技术有限公司 一种基于bert模型的预测下一句模型自动构建技术
US20200285704A1 (en) * 2019-03-04 2020-09-10 Salesforce.Com, Inc. Leveraging Language Models for Generating Commonsense Explanations
CN111881279A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 基于Transformer模型的问答方法、问答装置及存储装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20200285704A1 (en) * 2019-03-04 2020-09-10 Salesforce.Com, Inc. Leveraging Language Models for Generating Commonsense Explanations
CN110502643A (zh) * 2019-08-28 2019-11-26 南京璇玑信息技术有限公司 一种基于bert模型的预测下一句模型自动构建技术
CN111881279A (zh) * 2020-07-28 2020-11-03 平安科技(深圳)有限公司 基于Transformer模型的问答方法、问答装置及存储装置

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Dialogue Transformers;Vladimir Vlasov等;《arXiv:1910.00486v3 [cs.CL]》;20200501;全文 *
智能对话系统架构及算法;黄毅等;《北京邮电大学学报》;20191231;全文 *

Also Published As

Publication number Publication date
CN112612881A (zh) 2021-04-06

Similar Documents

Publication Publication Date Title
CN112612881B (zh) 基于Transformer的中文智能对话方法
US20180329884A1 (en) Neural contextual conversation learning
CN108153913B (zh) 回复信息生成模型的训练方法、回复信息生成方法及装置
CN112559702B (zh) 基于Transformer的土木建筑信息领域自然语言问题生成方法
CN110737769A (zh) 一种基于神经主题记忆的预训练文本摘要生成方法
CN109902164B (zh) 利用卷积双向自注意网络解决开放长格式视频问答的方法
CN113297364B (zh) 一种面向对话系统中的自然语言理解方法及装置
CN111274375A (zh) 一种基于双向gru网络的多轮对话方法及系统
CN111125333B (zh) 一种基于表示学习与多层覆盖机制的生成式知识问答方法
CN110795549B (zh) 短文本对话方法、装置、设备及存储介质
CN113033189B (zh) 一种基于注意力分散的长短期记忆网络的语义编码方法
CN112308370B (zh) 一种基于Transformer的面向思政课程的主观题自动评分方法
US20230169271A1 (en) System and methods for neural topic modeling using topic attention networks
CN114091478A (zh) 基于有监督对比学习与回复生成辅助的对话情感识别方法
CN113065344A (zh) 一种基于迁移学习和注意力机制的跨语料库情感识别方法
CN111949762B (zh) 基于上下文情感对话的方法和系统、存储介质
CN112380843B (zh) 一种基于随机扰动网络的开放性答案生成方法
CN114328866A (zh) 应答流畅准确的强拟人化智能对话机器人
CN111046157B (zh) 一种基于平衡分布的通用英文人机对话生成方法和系统
Hung et al. The evaluation study of the deep learning model transformer in speech translation
CN117291232A (zh) 一种基于扩散模型的图像生成方法与装置
CN115525743B (zh) 基于自学习白化网络的人机交互方法及电子设备
CN116521857A (zh) 基于图形增强的问题驱动抽象式多文本答案摘要方法与装置
CN116227503A (zh) 一种基于ctc的非自回归端到端语音翻译方法
CN112685543B (zh) 一种基于文本回答问题的方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant