CN115617971B - 基于ALBERT-Coref模型的对话文本生成方法 - Google Patents

基于ALBERT-Coref模型的对话文本生成方法 Download PDF

Info

Publication number
CN115617971B
CN115617971B CN202211419198.8A CN202211419198A CN115617971B CN 115617971 B CN115617971 B CN 115617971B CN 202211419198 A CN202211419198 A CN 202211419198A CN 115617971 B CN115617971 B CN 115617971B
Authority
CN
China
Prior art keywords
matrix
module
task
text
reply
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202211419198.8A
Other languages
English (en)
Other versions
CN115617971A (zh
Inventor
谭周兴
刘德培
唐铁军
何浩
刘治国
熊婕
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hunan Junan Technology Co ltd
Original Assignee
Hunan Junan Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hunan Junan Technology Co ltd filed Critical Hunan Junan Technology Co ltd
Priority to CN202211419198.8A priority Critical patent/CN115617971B/zh
Publication of CN115617971A publication Critical patent/CN115617971A/zh
Application granted granted Critical
Publication of CN115617971B publication Critical patent/CN115617971B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Artificial Intelligence (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Software Systems (AREA)
  • Machine Translation (AREA)

Abstract

本申请涉及一种基于ALBERT‑Coref模型的对话文本生成方法。所述方法包括:构建ALBERT‑Coref模型;ALBERT‑Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块;根据共指消解模块对自注意力机制进行改进,根据改进后的自注意力机制对语义编码模块进行优化,得到优化后的语义编码模块,利用优化后的语义编码模块对用户本轮对话内容进行编码;根据回复生成模块生成初始回复文本;根据迁移学习模块对ALBERT‑Coref模型的所有模块进行优化,得到优化后的回复生成模块;利用优化后的回复生成模块生成用户本轮的回复文本。采用本方法能够提高对话系统中的回复文本准确率。

Description

基于ALBERT-Coref模型的对话文本生成方法
技术领域
本申请涉及数据处理技术领域,特别是涉及一种基于ALBERT-Coref模型的对话文本生成方法、计算机设备和存储介质。
背景技术
循环神经网络(Recurrent neural network,RNN)具有记忆性、参数共享并且图灵完备,对序列的非线性特征进行学习时具有一定优势,因此传统的基于序列到序列模型的对话系统将注意力机制与RNN结合起来,利用强大的编码序列文本信息的能力实现对话上下文信息的编码和解码或者将对话历史和候选回复一起建模,从而实现基本的对话功能,然而,RNN容易出现梯度消失的问题,无法支持长时间序列,更无法提取深层的语义信息,导致序列到序列模型的表现变差。随后,有人提出了Transformer架构,基于Transformer的序列到序列模型开始被广泛用于对话生成领域,Transformer利用自注意机制和编码解码器来实现局部依赖和全局依赖并通过并行化来加速模型训练,显著的改善了基于RNN的序列到序列模型。
然而,目前的对话生成方法针对语言学中的共指消解问题依旧无法解决,模型对于文本的语义提取能力依然受限,还存在特定领域样本分布不均衡的问题,在对话系统中生成的回复文本准确率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高对话系统中的回复文本准确率的基于ALBERT-Coref模型的对话文本生成方法、计算机设备和存储介质。
一种基于ALBERT-Coref模型的对话文本生成方法,所述方法包括:
获取对话生成任务;对话生成任务包括用户本轮对话内容;
构建ALBERT-Coref模型;所述ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块;
根据共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制;
根据改进后的自注意力机制对语义编码模块进行优化,得到优化后的语义编码模块,利用优化后的语义编码模块对用户本轮对话内容进行编码,得到对话内容的特征向量、K矩阵和V矩阵;
根据所述回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵;利用所述解码矩阵和掩码矩阵以自回归方式生成回复文本;
根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,得到优化后的回复生成模块;
利用优化后的回复生成模块生成用户本轮的回复文本。
在其中一个实施例中,共指消解模块包括字节对编码算法和自然语言处理工具Spacy;根据共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制,包括:
根据字节对编码算法和自然语言处理工具Spacy对用户本轮对话内容进行处理,得到共指关系矩阵,利用共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制。
在其中一个实施例中,根据字节对编码算法和自然语言处理工具Spacy对用户本轮对话内容进行转换和识别,得到实体和指称,包括:
根据自下而上的字节对编码算法将用户本轮对话内容转换成词序列,再利用自然语言处理工具Spacy识别词序列当中的实体和指称;
根据实体和指称之间的共指关系构造共指关系矩阵为
Figure 287040DEST_PATH_IMAGE001
其中,a表示可训练的参数,
Figure 85363DEST_PATH_IMAGE002
表示第i个词和第j个词存在共指关系,
Figure 723018DEST_PATH_IMAGE003
表示第i个词和第j个词不存在共指关系。
在其中一个实施例中,利用共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制,包括:
利用共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制为
Figure 105326DEST_PATH_IMAGE004
Figure 221050DEST_PATH_IMAGE005
其中,
Figure 873879DEST_PATH_IMAGE006
表示自注意力机制中的
Figure 885698DEST_PATH_IMAGE007
矩阵,
Figure 709297DEST_PATH_IMAGE008
表示自注意力机制中的
Figure 615330DEST_PATH_IMAGE009
矩阵,
Figure 840775DEST_PATH_IMAGE010
表示自注意力机制中的
Figure 23494DEST_PATH_IMAGE010
矩阵,
Figure 599969DEST_PATH_IMAGE011
表示神经网络,T表示转置运算,
Figure 277069DEST_PATH_IMAGE012
表示隐藏层的维度,
Figure 91442DEST_PATH_IMAGE013
表示Q矩阵第i个头的隐藏层参数矩阵,
Figure 976221DEST_PATH_IMAGE014
表示K矩阵第i个头的隐藏层参数矩阵,
Figure 508833DEST_PATH_IMAGE015
表示V矩阵第i个头的隐藏层参数矩阵,
Figure 753739DEST_PATH_IMAGE016
表示第i个头的输出矩阵。
在其中一个实施例中,回复生成模块包括多头注意力模块、前馈神经网络和规范化层;所述Q矩阵从回复生成模块中获取得到;根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵,得到解码矩阵,包括:
对Q矩阵、K矩阵和V矩阵进行结合,共同输入到多头注意力模块,得到Z矩阵;
利用前馈神经网络以及规范化层对所述Z矩阵进行解码,得到解码矩阵。
在其中一个实施例中,根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,包括:
根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,分别构建意图识别任务的损失函数和文本生成任务的损失函数;利用损失函数进行损失计算,得到意图识别任务的损失值和文本生成任务的损失值;
根据意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数。
在其中一个实施例中,意图识别任务的损失函数为
Figure 688197DEST_PATH_IMAGE017
其中,y为意图识别任务的输出预测向量,
Figure 478298DEST_PATH_IMAGE018
为真实标签向量的第i维度的值,取值范围为{0,1},
Figure 763786DEST_PATH_IMAGE019
表示模型预测属于第i个意图的概率。
在其中一个实施例中,文本生成任务的损失函数为
Figure 782689DEST_PATH_IMAGE020
其中,N表示生成的文本序列长度,
Figure 837233DEST_PATH_IMAGE021
代表文本中的第i个词,
Figure 798235DEST_PATH_IMAGE022
表示模型中的神经网络参数集合,l是迭代的步数,
Figure 305440DEST_PATH_IMAGE023
表示预测第i个词的条件概率。
在其中一个实施例中,根据所述意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数,包括:
根据所述意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数为
Figure 629498DEST_PATH_IMAGE024
其中,
Figure 804128DEST_PATH_IMAGE025
表示意图识别任务的损失值,
Figure 670453DEST_PATH_IMAGE026
表示文本生成任务的损失值,
Figure 930533DEST_PATH_IMAGE027
表示第l次迭代的指数函数值。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取对话生成任务;对话生成任务包括用户本轮对话内容;
构建ALBERT-Coref模型;所述ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块;
根据共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制;
根据改进后的自注意力机制对语义编码模块进行优化,得到优化后的语义编码模块,利用优化后的语义编码模块对用户本轮对话内容进行编码,得到对话内容的特征向量、K矩阵和V矩阵;
根据所述回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵;利用所述解码矩阵和掩码矩阵以自回归方式生成回复文本;
根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,得到优化后的回复生成模块;
利用优化后的回复生成模块生成用户本轮的回复文本。
上述基于ALBERT-Coref模型的对话文本生成方法、计算机设备和存储介质,首先构建ALBERT-Coref模型;ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块;根据共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制;根据改进后的自注意力机制对语义编码模块进行优化,得到优化后的语义编码模块,利用优化后的语义编码模块对用户本轮对话内容进行编码,得到对话内容的特征向量、K矩阵和V矩阵;根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互,共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵;利用所述解码矩阵和掩码矩阵以自回归方式生成回复文本;根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,得到优化后的回复生成模块;利用优化后的回复生成模块生成最终的回复文本。本申请利用共指关系矩阵改进自注意力机制来解决对话上下文中存在共指消解的问题,提高了语义编码的准确率,将对话生成任务分解为意图识别和文本生成两个任务,分别构建意图识别任务的损失函数和文本生成任务的损失函数;利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,解决特定领域样本分布不均衡的问题,进一步提高了回复文本生成的准确率。
附图说明
图1为一个实施例中一种基于ALBERT-Coref模型的对话文本生成方法的流程示意图;
图2为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于ALBERT-Coref模型的对话文本生成方法,包括以下步骤:
步骤102,获取对话生成任务;对话生成任务包括用户本轮对话内容;构建ALBERT-Coref模型;ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块。
步骤104,根据共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制。
在共指消解模块中,通过首先使用自下而上的字节对编码算法将用户本轮对话内容转换成词序列,然后利用自然语言处理工具Spacy识别词序列当中的实体和指称,结合共指关系构造共指关系矩阵M,然后改进自注意力机制,将上下文的共指关系融入到模型的计算中从而解决对话上下文的共指消解的问题,进而提高了语义编码的准确率,最终提高了对话系统中的回复文本准确率。
步骤106,根据改进后的自注意力机制对语义编码模块进行优化,得到优化后的语义编码模块,利用优化后的语义编码模块对用户本轮对话内容进行编码,得到对话内容的特征向量、K矩阵和V矩阵。
语义编码模块负责提取文本语义特征,将文本编码为特征向量,语义编码模块使用ALBERT预训练语言模型对上下文信息进行编码,实现文本每个词的嵌入向量表示。对于一个包含n个词的文本
Figure 291238DEST_PATH_IMAGE028
,为了实现粒度抽取以及压缩词表大小,ALBERT使用BPE算法将文本的所有词转换为子词,这样得到一个包含m个子词的句子,其中
Figure 585953DEST_PATH_IMAGE029
,子词序列通过ALBERT编码得到一个向量序列
Figure 623179DEST_PATH_IMAGE030
,其中cls表示上下文的特征向量,
Figure 619823DEST_PATH_IMAGE031
为对应子词的特征向量。
利用ALBERT预训练模型编码对话信息解决语义特征表示和模型收敛速度慢的问题。利用改进后的自注意力机制替换掉语义编码模块中原始的自注意力机制,使得优化后的语义编码模块在进行文本语义特征提取时会更加准确。
步骤108,根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵;利用解码矩阵和掩码矩阵以自回归方式生成回复文本。
回复生成模块包括多头注意力机制、前馈神经网络和规范化层,通过增加前馈神经网络和规范化层增强了回复生成模块的解码能力。
步骤110,根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,得到优化后的回复生成模块;利用优化后的回复生成模块生成用户本轮的回复文本。
对话系统中对话通常以问答对的形式呈现,然而不同意图的样本分布并不均衡且部分数据存在稀疏性,会降低模型的效果。迁移学习模块将对话生成任务分解为意图识别和文本生成两个任务,意图识别任务确定问答对的问题意图,文本生成任务负责生成回复文本。在训练阶段,分别构建意图识别任务的损失函数和文本生成任务的损失函数;利用损失函数进行损失计算,得到意图识别任务的损失值和文本生成任务的损失值;根据意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数。
在预测阶段,为防止意图识别的错误传播,仅通过回复生成模块完成文本生成任务,意图识别任务仅用来优化模型参数。利用总的损失函数和迁移学习算法,即Adam算法(利用Adam算法进行模块优化的过程为现有技术,在本申请中不做过多的赘述)对回复生成模块进行联合优化,得到优化后的回复生成模块,意图识别任务仅用来优化模型参数,将对话生成任务分解为意图识别和文本生成两个任务,使用迁移学习的方法优化回复生成模块,解决特定领域样本分布不均衡的问题,提高了回复文本生成的准确率。
上述基于ALBERT-Coref模型的对话文本生成方法中,首先构建ALBERT-Coref模型;ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块;根据共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制;根据改进后的自注意力机制对语义编码模块进行优化,得到优化后的语义编码模块,利用优化后的语义编码模块对用户本轮对话内容进行编码,得到对话内容的特征向量、K矩阵和V矩阵;根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互,共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵;利用所述解码矩阵和掩码矩阵以自回归方式生成回复文本;根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,得到优化后的回复生成模块;利用优化后的回复生成模块生成最终的回复文本。本申请利用共指关系矩阵改进自注意力机制来解决对话上下文中存在共指消解的问题,提高了语义编码的准确率,将对话生成任务分解为意图识别和文本生成两个任务,分别构建意图识别任务的损失函数和文本生成任务的损失函数;利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,解决特定领域样本分布不均衡的问题,进一步提高了回复文本生成的准确率。
在其中一个实施例中,共指消解模块包括字节对编码算法和自然语言处理工具Spacy;根据共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制,包括:
根据字节对编码算法和自然语言处理工具Spacy对用户本轮对话内容进行处理,得到共指关系矩阵,利用共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制。
在具体实施例中,字节对编码算法是BPE压缩算法。
在其中一个实施例中,根据字节对编码算法和自然语言处理工具Spacy对用户本轮对话内容进行转换和识别,得到实体和指称,包括:
根据自下而上的字节对编码算法将用户本轮对话内容转换成词序列,再利用自然语言处理工具Spacy识别词序列当中的实体和指称;
根据实体和指称之间的共指关系构造共指关系矩阵为
Figure 33487DEST_PATH_IMAGE032
其中,a表示可训练的参数,
Figure 917129DEST_PATH_IMAGE033
表示第i个词和第j个词存在共指关系,
Figure 390836DEST_PATH_IMAGE034
表示第i个词和第j个词不存在共指关系。
在其中一个实施例中,利用共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制,包括:
利用共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制为
Figure 376241DEST_PATH_IMAGE035
Figure 328016DEST_PATH_IMAGE036
其中,
Figure 597323DEST_PATH_IMAGE037
表示自注意力机制中的
Figure 228549DEST_PATH_IMAGE038
矩阵,
Figure 684938DEST_PATH_IMAGE039
表示自注意力机制中的
Figure 705984DEST_PATH_IMAGE040
矩阵,
Figure 298639DEST_PATH_IMAGE041
表示自注意力机制中的
Figure 864881DEST_PATH_IMAGE041
矩阵,
Figure 808566DEST_PATH_IMAGE042
表示神经网络,T表示转置运算,
Figure 367724DEST_PATH_IMAGE043
表示隐藏层的维度,
Figure 80465DEST_PATH_IMAGE044
表示Q矩阵第i个头的隐藏层参数矩阵,
Figure 581722DEST_PATH_IMAGE045
表示K矩阵第i个头的隐藏层参数矩阵,
Figure 12703DEST_PATH_IMAGE046
表示V矩阵第i个头的隐藏层参数矩阵,
Figure 109972DEST_PATH_IMAGE047
表示第i个头的输出矩阵。
在其中一个实施例中,回复生成模块包括多头注意力模块、前馈神经网络和规范化层;Q矩阵从回复生成模块中获取得到;根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵,得到解码矩阵,包括:
对Q矩阵、K矩阵和V矩阵进行结合,共同输入到多头注意力模块,得到Z矩阵;
利用前馈神经网络以及规范化层对所述Z矩阵进行解码,得到解码矩阵。
在具体实施例中,
Figure 427952DEST_PATH_IMAGE048
Figure 585264DEST_PATH_IMAGE049
Figure 503542DEST_PATH_IMAGE050
,X是语义编码模块输入的向量序列。
在其中一个实施例中,根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,包括:
根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,分别构建意图识别任务的损失函数和文本生成任务的损失函数;利用损失函数进行损失计算,得到意图识别任务的损失值和文本生成任务的损失值;
根据意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数。
在其中一个实施例中,意图识别任务的损失函数为
Figure 138922DEST_PATH_IMAGE051
其中,y为意图识别任务的输出预测向量,
Figure 355751DEST_PATH_IMAGE052
为真实标签向量的第i维度的值,取值范围为{0,1},
Figure 949543DEST_PATH_IMAGE053
表示模型预测属于第i个意图的概率。
在其中一个实施例中,文本生成任务的损失函数为
Figure 89538DEST_PATH_IMAGE054
其中,N表示生成的文本序列长度,
Figure 544921DEST_PATH_IMAGE055
代表文本中的第i个词,
Figure 86761DEST_PATH_IMAGE056
表示模型中的神经网络参数集合,l是迭代的步数,
Figure 851454DEST_PATH_IMAGE057
表示预测第i个词的条件概率。
在其中一个实施例中,根据所述意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数,包括:
根据所述意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数为
Figure 478745DEST_PATH_IMAGE058
其中,
Figure 439616DEST_PATH_IMAGE059
表示意图识别任务的损失值,
Figure 101542DEST_PATH_IMAGE060
表示文本生成任务的损失值,
Figure 771558DEST_PATH_IMAGE061
表示表示第l次迭代的指数函数值。
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图2所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于ALBERT-Coref模型的对话文本生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

Claims (6)

1.一种基于ALBERT-Coref模型的对话文本生成方法,其特征在于,所述方法包括:
获取对话生成任务;所述对话生成任务包括用户本轮对话内容;
构建ALBERT-Coref模型;所述ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块;根据所述共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制;
根据所述改进后的自注意力机制对所述语义编码模块进行优化,得到优化后的语义编码模块,利用优化后的语义编码模块对所述用户本轮对话内容进行编码,得到对话内容的特征向量、K矩阵和V矩阵;
根据所述回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵;利用所述解码矩阵和掩码矩阵以自回归方式生成回复文本;
根据所述迁移学习模块将所述对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,利用所述总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,得到优化后的回复生成模块;
利用所述优化后的回复生成模块生成用户本轮的回复文本;
所述共指消解模块包括字节对编码算法和自然语言处理工具Spacy;根据所述共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制,包括:
根据字节对编码算法和自然语言处理工具Spacy对所述用户本轮对话内容进行处理,得到共指关系矩阵,利用所述共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制;
根据字节对编码算法和自然语言处理工具Spacy对所述用户本轮对话内容进行转换和识别,得到实体和指称,包括:
根据自下而上的字节对编码算法将用户本轮对话内容转换成词序列,再利用自然语言处理工具Spacy识别所述词序列当中的实体和指称;
根据实体和指称之间的共指关系构造共指关系矩阵为
Figure QLYQS_1
其中,a表示可训练的参数,
Figure QLYQS_2
表示第i个词和第j个词存在共指关系,
Figure QLYQS_3
表示第i个词和第j个词不存在共指关系;
利用所述共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制,包括:
利用所述共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制为
Figure QLYQS_4
Figure QLYQS_5
其中,
Figure QLYQS_7
表示自注意力机制中的
Figure QLYQS_12
矩阵,
Figure QLYQS_15
表示自注意力机制中的
Figure QLYQS_9
矩阵,
Figure QLYQS_11
表示自注意力机制中的
Figure QLYQS_14
矩阵,
Figure QLYQS_17
表示神经网络,T表示转置运算,
Figure QLYQS_6
表示隐藏层的维度,
Figure QLYQS_10
表示Q矩阵第i个头的隐藏层参数矩阵,
Figure QLYQS_13
表示K矩阵第i个头的隐藏层参数矩阵,
Figure QLYQS_16
表示V矩阵第i个头的隐藏层参数矩阵,
Figure QLYQS_8
表示第i个头的输出矩阵。
2.根据权利要求1所述的方法,其特征在于,所述回复生成模块包括多头注意力模块、前馈神经网络和规范化层;所述Q矩阵从回复生成模块中获取得到;根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵,包括:
对Q矩阵、K矩阵和V矩阵进行结合,共同输入到多头注意力模块,得到Z矩阵;
利用前馈神经网络以及规范化层对所述Z矩阵进行解码,得到解码矩阵。
3.根据权利要求1所述的方法,其特征在于,根据所述迁移学习模块将所述对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,包括:
根据所述迁移学习模块将所述对话生成任务分解为意图识别任务和文本生成任务,分别构建意图识别任务的损失函数和文本生成任务的损失函数;利用所述损失函数进行损失计算,得到意图识别任务的损失值和文本生成任务的损失值;
根据所述意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数。
4.根据权利要求3所述的方法,其特征在于,所述意图识别任务的损失函数为
Figure QLYQS_18
其中,y为意图识别任务的输出预测向量,
Figure QLYQS_19
为真实标签向量的第i维度的值,取值范围为{0,1},
Figure QLYQS_20
表示模型预测属于第i个意图的概率,
Figure QLYQS_21
表示模型中的神经网络参数集合。
5.根据权利要求3所述的方法,其特征在于,所述文本生成任务的损失函数为
Figure QLYQS_22
其中,N表示生成的文本序列长度,
Figure QLYQS_23
代表文本中的第i个词,
Figure QLYQS_24
表示模型中的神经网络参数集合,l是迭代的步数,
Figure QLYQS_25
表示预测第i个词的条件概率。
6.根据权利要求3所述的方法,其特征在于,根据所述意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数,包括:
根据所述意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数为
Figure QLYQS_26
其中,
Figure QLYQS_27
表示意图识别任务的损失值,
Figure QLYQS_28
表示文本生成任务的损失值,
Figure QLYQS_29
表示第l次迭代的指数函数值。
CN202211419198.8A 2022-11-14 2022-11-14 基于ALBERT-Coref模型的对话文本生成方法 Active CN115617971B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202211419198.8A CN115617971B (zh) 2022-11-14 2022-11-14 基于ALBERT-Coref模型的对话文本生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202211419198.8A CN115617971B (zh) 2022-11-14 2022-11-14 基于ALBERT-Coref模型的对话文本生成方法

Publications (2)

Publication Number Publication Date
CN115617971A CN115617971A (zh) 2023-01-17
CN115617971B true CN115617971B (zh) 2023-03-07

Family

ID=84879268

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202211419198.8A Active CN115617971B (zh) 2022-11-14 2022-11-14 基于ALBERT-Coref模型的对话文本生成方法

Country Status (1)

Country Link
CN (1) CN115617971B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117290461B (zh) * 2023-11-24 2024-02-06 湖南君安科技有限公司 融合aspp模块与跨模态交互的多模态对话生成方法

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10222875B2 (en) * 2015-12-11 2019-03-05 SomniQ, Inc. Apparatus, system, and methods for interfacing with a user and/or external apparatus by stationary state detection
CN110853626B (zh) * 2019-10-21 2021-04-20 成都信息工程大学 基于双向注意力神经网络的对话理解方法、装置及设备
CN112966083B (zh) * 2021-03-10 2022-08-12 中国人民解放军国防科技大学 一种基于对话历史建模的多轮对话生成方法及装置
CN113779987A (zh) * 2021-08-23 2021-12-10 科大国创云网科技有限公司 一种基于自注意力增强语义的事件共指消岐方法及系统
CN114443827A (zh) * 2022-01-28 2022-05-06 福州大学 基于预训练语言模型的局部信息感知对话方法及系统
CN114880479B (zh) * 2022-06-14 2024-06-18 昆明理工大学 基于多级交互和图重构的异构图卷积谣言检测方法

Also Published As

Publication number Publication date
CN115617971A (zh) 2023-01-17

Similar Documents

Publication Publication Date Title
CN111460807B (zh) 序列标注方法、装置、计算机设备和存储介质
WO2023160472A1 (zh) 一种模型训练方法及相关设备
CN112115687B (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
US20220300718A1 (en) Method, system, electronic device and storage medium for clarification question generation
CN108776832B (zh) 信息处理方法、装置、计算机设备和存储介质
CN112926322A (zh) 融合自注意力机制和深度学习的文本分类方法及系统
CN110083702B (zh) 一种基于多任务学习的方面级别文本情感转换方法
CN115599901B (zh) 基于语义提示的机器问答方法、装置、设备及存储介质
CN114139551A (zh) 意图识别模型的训练方法及装置、意图识别的方法及装置
CN112307168A (zh) 基于人工智能的问诊会话处理方法、装置和计算机设备
CN115617971B (zh) 基于ALBERT-Coref模型的对话文本生成方法
US20240046067A1 (en) Data processing method and related device
CN111832699A (zh) 用于神经网络的计算高效富于表达的输出层
CN117151121B (zh) 一种基于波动阈值与分割化的多意图口语理解方法
CN113011136B (zh) 基于相关性判断的sql解析方法、装置和计算机设备
CN113343711A (zh) 工单生成方法、装置、设备及存储介质
CN116822527A (zh) 基于对比预训练的机器阅读理解事件检测方法和装置
CN116089605A (zh) 基于迁移学习和改进词袋模型的文本情感分析方法
CN114239575B (zh) 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备
CN114925698A (zh) 缩略语消歧方法、装置、计算机设备和存储介质
Gan et al. A novel approach to attention mechanism using kernel functions: Kerformer
CN112000777A (zh) 一种文本生成方法、装置、计算机设备和存储介质
US20240184997A1 (en) Multi-model joint denoising training
CN113297828B (zh) 一种文本生成方法、装置、计算机设备及存储介质
CN117828072B (zh) 一种基于异构图神经网络的对话分类方法和系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant