CN115617971B - 基于ALBERT-Coref模型的对话文本生成方法 - Google Patents
基于ALBERT-Coref模型的对话文本生成方法 Download PDFInfo
- Publication number
- CN115617971B CN115617971B CN202211419198.8A CN202211419198A CN115617971B CN 115617971 B CN115617971 B CN 115617971B CN 202211419198 A CN202211419198 A CN 202211419198A CN 115617971 B CN115617971 B CN 115617971B
- Authority
- CN
- China
- Prior art keywords
- matrix
- module
- task
- text
- reply
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000000034 method Methods 0.000 title claims abstract description 31
- 230000007246 mechanism Effects 0.000 claims abstract description 61
- 230000005012 migration Effects 0.000 claims abstract description 12
- 238000013508 migration Methods 0.000 claims abstract description 12
- 238000013526 transfer learning Methods 0.000 claims abstract description 11
- 239000011159 matrix material Substances 0.000 claims description 168
- 230000006870 function Effects 0.000 claims description 64
- 238000004422 calculation algorithm Methods 0.000 claims description 27
- 238000013528 artificial neural network Methods 0.000 claims description 25
- 239000013598 vector Substances 0.000 claims description 18
- 238000003058 natural language processing Methods 0.000 claims description 13
- 238000010606 normalization Methods 0.000 claims description 12
- ORILYTVJVMAKLC-UHFFFAOYSA-N Adamantane Natural products C1C(C2)CC3CC1CC2C3 ORILYTVJVMAKLC-UHFFFAOYSA-N 0.000 claims description 10
- 230000003044 adaptive effect Effects 0.000 claims description 6
- 230000017105 transposition Effects 0.000 claims description 6
- 238000004364 calculation method Methods 0.000 claims description 5
- 238000012545 processing Methods 0.000 claims description 4
- 210000005036 nerve Anatomy 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 3
- 238000000605 extraction Methods 0.000 description 3
- 230000008569 process Effects 0.000 description 3
- 230000001360 synchronised effect Effects 0.000 description 2
- 230000006835 compression Effects 0.000 description 1
- 238000007906 compression Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3344—Query execution using natural language analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Databases & Information Systems (AREA)
- Mathematical Physics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Software Systems (AREA)
- Machine Translation (AREA)
Abstract
本申请涉及一种基于ALBERT‑Coref模型的对话文本生成方法。所述方法包括:构建ALBERT‑Coref模型;ALBERT‑Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块;根据共指消解模块对自注意力机制进行改进,根据改进后的自注意力机制对语义编码模块进行优化,得到优化后的语义编码模块,利用优化后的语义编码模块对用户本轮对话内容进行编码;根据回复生成模块生成初始回复文本;根据迁移学习模块对ALBERT‑Coref模型的所有模块进行优化,得到优化后的回复生成模块;利用优化后的回复生成模块生成用户本轮的回复文本。采用本方法能够提高对话系统中的回复文本准确率。
Description
技术领域
本申请涉及数据处理技术领域,特别是涉及一种基于ALBERT-Coref模型的对话文本生成方法、计算机设备和存储介质。
背景技术
循环神经网络(Recurrent neural network,RNN)具有记忆性、参数共享并且图灵完备,对序列的非线性特征进行学习时具有一定优势,因此传统的基于序列到序列模型的对话系统将注意力机制与RNN结合起来,利用强大的编码序列文本信息的能力实现对话上下文信息的编码和解码或者将对话历史和候选回复一起建模,从而实现基本的对话功能,然而,RNN容易出现梯度消失的问题,无法支持长时间序列,更无法提取深层的语义信息,导致序列到序列模型的表现变差。随后,有人提出了Transformer架构,基于Transformer的序列到序列模型开始被广泛用于对话生成领域,Transformer利用自注意机制和编码解码器来实现局部依赖和全局依赖并通过并行化来加速模型训练,显著的改善了基于RNN的序列到序列模型。
然而,目前的对话生成方法针对语言学中的共指消解问题依旧无法解决,模型对于文本的语义提取能力依然受限,还存在特定领域样本分布不均衡的问题,在对话系统中生成的回复文本准确率低。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高对话系统中的回复文本准确率的基于ALBERT-Coref模型的对话文本生成方法、计算机设备和存储介质。
一种基于ALBERT-Coref模型的对话文本生成方法,所述方法包括:
获取对话生成任务;对话生成任务包括用户本轮对话内容;
构建ALBERT-Coref模型;所述ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块;
根据共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制;
根据改进后的自注意力机制对语义编码模块进行优化,得到优化后的语义编码模块,利用优化后的语义编码模块对用户本轮对话内容进行编码,得到对话内容的特征向量、K矩阵和V矩阵;
根据所述回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵;利用所述解码矩阵和掩码矩阵以自回归方式生成回复文本;
根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,得到优化后的回复生成模块;
利用优化后的回复生成模块生成用户本轮的回复文本。
在其中一个实施例中,共指消解模块包括字节对编码算法和自然语言处理工具Spacy;根据共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制,包括:
根据字节对编码算法和自然语言处理工具Spacy对用户本轮对话内容进行处理,得到共指关系矩阵,利用共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制。
在其中一个实施例中,根据字节对编码算法和自然语言处理工具Spacy对用户本轮对话内容进行转换和识别,得到实体和指称,包括:
根据自下而上的字节对编码算法将用户本轮对话内容转换成词序列,再利用自然语言处理工具Spacy识别词序列当中的实体和指称;
根据实体和指称之间的共指关系构造共指关系矩阵为
在其中一个实施例中,利用共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制,包括:
利用共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制为
其中,表示自注意力机制中的矩阵,表示自注意力机制中的矩阵,表示自注意力机制中的矩阵,表示神经网络,T表示转置运算,表示隐藏层的维度,表示Q矩阵第i个头的隐藏层参数矩阵,表示K矩阵第i个头的隐藏层参数矩阵,表示V矩阵第i个头的隐藏层参数矩阵,表示第i个头的输出矩阵。
在其中一个实施例中,回复生成模块包括多头注意力模块、前馈神经网络和规范化层;所述Q矩阵从回复生成模块中获取得到;根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵,得到解码矩阵,包括:
对Q矩阵、K矩阵和V矩阵进行结合,共同输入到多头注意力模块,得到Z矩阵;
利用前馈神经网络以及规范化层对所述Z矩阵进行解码,得到解码矩阵。
在其中一个实施例中,根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,包括:
根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,分别构建意图识别任务的损失函数和文本生成任务的损失函数;利用损失函数进行损失计算,得到意图识别任务的损失值和文本生成任务的损失值;
根据意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数。
在其中一个实施例中,意图识别任务的损失函数为
在其中一个实施例中,文本生成任务的损失函数为
在其中一个实施例中,根据所述意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数,包括:
根据所述意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数为
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
获取对话生成任务;对话生成任务包括用户本轮对话内容;
构建ALBERT-Coref模型;所述ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块;
根据共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制;
根据改进后的自注意力机制对语义编码模块进行优化,得到优化后的语义编码模块,利用优化后的语义编码模块对用户本轮对话内容进行编码,得到对话内容的特征向量、K矩阵和V矩阵;
根据所述回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵;利用所述解码矩阵和掩码矩阵以自回归方式生成回复文本;
根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,得到优化后的回复生成模块;
利用优化后的回复生成模块生成用户本轮的回复文本。
上述基于ALBERT-Coref模型的对话文本生成方法、计算机设备和存储介质,首先构建ALBERT-Coref模型;ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块;根据共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制;根据改进后的自注意力机制对语义编码模块进行优化,得到优化后的语义编码模块,利用优化后的语义编码模块对用户本轮对话内容进行编码,得到对话内容的特征向量、K矩阵和V矩阵;根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互,共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵;利用所述解码矩阵和掩码矩阵以自回归方式生成回复文本;根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,得到优化后的回复生成模块;利用优化后的回复生成模块生成最终的回复文本。本申请利用共指关系矩阵改进自注意力机制来解决对话上下文中存在共指消解的问题,提高了语义编码的准确率,将对话生成任务分解为意图识别和文本生成两个任务,分别构建意图识别任务的损失函数和文本生成任务的损失函数;利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,解决特定领域样本分布不均衡的问题,进一步提高了回复文本生成的准确率。
附图说明
图1为一个实施例中一种基于ALBERT-Coref模型的对话文本生成方法的流程示意图;
图2为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种基于ALBERT-Coref模型的对话文本生成方法,包括以下步骤:
步骤102,获取对话生成任务;对话生成任务包括用户本轮对话内容;构建ALBERT-Coref模型;ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块。
步骤104,根据共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制。
在共指消解模块中,通过首先使用自下而上的字节对编码算法将用户本轮对话内容转换成词序列,然后利用自然语言处理工具Spacy识别词序列当中的实体和指称,结合共指关系构造共指关系矩阵M,然后改进自注意力机制,将上下文的共指关系融入到模型的计算中从而解决对话上下文的共指消解的问题,进而提高了语义编码的准确率,最终提高了对话系统中的回复文本准确率。
步骤106,根据改进后的自注意力机制对语义编码模块进行优化,得到优化后的语义编码模块,利用优化后的语义编码模块对用户本轮对话内容进行编码,得到对话内容的特征向量、K矩阵和V矩阵。
语义编码模块负责提取文本语义特征,将文本编码为特征向量,语义编码模块使用ALBERT预训练语言模型对上下文信息进行编码,实现文本每个词的嵌入向量表示。对于一个包含n个词的文本,为了实现粒度抽取以及压缩词表大小,ALBERT使用BPE算法将文本的所有词转换为子词,这样得到一个包含m个子词的句子,其中,子词序列通过ALBERT编码得到一个向量序列,其中cls表示上下文的特征向量,为对应子词的特征向量。
利用ALBERT预训练模型编码对话信息解决语义特征表示和模型收敛速度慢的问题。利用改进后的自注意力机制替换掉语义编码模块中原始的自注意力机制,使得优化后的语义编码模块在进行文本语义特征提取时会更加准确。
步骤108,根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵;利用解码矩阵和掩码矩阵以自回归方式生成回复文本。
回复生成模块包括多头注意力机制、前馈神经网络和规范化层,通过增加前馈神经网络和规范化层增强了回复生成模块的解码能力。
步骤110,根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,得到优化后的回复生成模块;利用优化后的回复生成模块生成用户本轮的回复文本。
对话系统中对话通常以问答对的形式呈现,然而不同意图的样本分布并不均衡且部分数据存在稀疏性,会降低模型的效果。迁移学习模块将对话生成任务分解为意图识别和文本生成两个任务,意图识别任务确定问答对的问题意图,文本生成任务负责生成回复文本。在训练阶段,分别构建意图识别任务的损失函数和文本生成任务的损失函数;利用损失函数进行损失计算,得到意图识别任务的损失值和文本生成任务的损失值;根据意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数。
在预测阶段,为防止意图识别的错误传播,仅通过回复生成模块完成文本生成任务,意图识别任务仅用来优化模型参数。利用总的损失函数和迁移学习算法,即Adam算法(利用Adam算法进行模块优化的过程为现有技术,在本申请中不做过多的赘述)对回复生成模块进行联合优化,得到优化后的回复生成模块,意图识别任务仅用来优化模型参数,将对话生成任务分解为意图识别和文本生成两个任务,使用迁移学习的方法优化回复生成模块,解决特定领域样本分布不均衡的问题,提高了回复文本生成的准确率。
上述基于ALBERT-Coref模型的对话文本生成方法中,首先构建ALBERT-Coref模型;ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块;根据共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制;根据改进后的自注意力机制对语义编码模块进行优化,得到优化后的语义编码模块,利用优化后的语义编码模块对用户本轮对话内容进行编码,得到对话内容的特征向量、K矩阵和V矩阵;根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互,共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵;利用所述解码矩阵和掩码矩阵以自回归方式生成回复文本;根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,得到优化后的回复生成模块;利用优化后的回复生成模块生成最终的回复文本。本申请利用共指关系矩阵改进自注意力机制来解决对话上下文中存在共指消解的问题,提高了语义编码的准确率,将对话生成任务分解为意图识别和文本生成两个任务,分别构建意图识别任务的损失函数和文本生成任务的损失函数;利用总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,解决特定领域样本分布不均衡的问题,进一步提高了回复文本生成的准确率。
在其中一个实施例中,共指消解模块包括字节对编码算法和自然语言处理工具Spacy;根据共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制,包括:
根据字节对编码算法和自然语言处理工具Spacy对用户本轮对话内容进行处理,得到共指关系矩阵,利用共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制。
在具体实施例中,字节对编码算法是BPE压缩算法。
在其中一个实施例中,根据字节对编码算法和自然语言处理工具Spacy对用户本轮对话内容进行转换和识别,得到实体和指称,包括:
根据自下而上的字节对编码算法将用户本轮对话内容转换成词序列,再利用自然语言处理工具Spacy识别词序列当中的实体和指称;
根据实体和指称之间的共指关系构造共指关系矩阵为
在其中一个实施例中,利用共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制,包括:
利用共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制为
其中,表示自注意力机制中的矩阵,表示自注意力机制中的矩阵,表示自注意力机制中的矩阵,表示神经网络,T表示转置运算,表示隐藏层的维度,表示Q矩阵第i个头的隐藏层参数矩阵,表示K矩阵第i个头的隐藏层参数矩阵,表示V矩阵第i个头的隐藏层参数矩阵,表示第i个头的输出矩阵。
在其中一个实施例中,回复生成模块包括多头注意力模块、前馈神经网络和规范化层;Q矩阵从回复生成模块中获取得到;根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵,得到解码矩阵,包括:
对Q矩阵、K矩阵和V矩阵进行结合,共同输入到多头注意力模块,得到Z矩阵;
利用前馈神经网络以及规范化层对所述Z矩阵进行解码,得到解码矩阵。
在其中一个实施例中,根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,包括:
根据迁移学习模块将对话生成任务分解为意图识别任务和文本生成任务,分别构建意图识别任务的损失函数和文本生成任务的损失函数;利用损失函数进行损失计算,得到意图识别任务的损失值和文本生成任务的损失值;
根据意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数。
在其中一个实施例中,意图识别任务的损失函数为
在其中一个实施例中,文本生成任务的损失函数为
在其中一个实施例中,根据所述意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数,包括:
根据所述意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数为
应该理解的是,虽然图1的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图2所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现基于ALBERT-Coref模型的对话文本生成方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图2中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink) DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。
Claims (6)
1.一种基于ALBERT-Coref模型的对话文本生成方法,其特征在于,所述方法包括:
获取对话生成任务;所述对话生成任务包括用户本轮对话内容;
构建ALBERT-Coref模型;所述ALBERT-Coref模型包括共指消解模块、语义编码模块、回复生成模块和迁移学习模块;根据所述共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制;
根据所述改进后的自注意力机制对所述语义编码模块进行优化,得到优化后的语义编码模块,利用优化后的语义编码模块对所述用户本轮对话内容进行编码,得到对话内容的特征向量、K矩阵和V矩阵;
根据所述回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵;利用所述解码矩阵和掩码矩阵以自回归方式生成回复文本;
根据所述迁移学习模块将所述对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,利用所述总的损失函数和自适应动量的Adam算法对ALBERT-Coref模型的所有模块进行优化,得到优化后的回复生成模块;
利用所述优化后的回复生成模块生成用户本轮的回复文本;
所述共指消解模块包括字节对编码算法和自然语言处理工具Spacy;根据所述共指消解模块对自注意力机制进行改进,得到改进后的自注意力机制,包括:
根据字节对编码算法和自然语言处理工具Spacy对所述用户本轮对话内容进行处理,得到共指关系矩阵,利用所述共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制;
根据字节对编码算法和自然语言处理工具Spacy对所述用户本轮对话内容进行转换和识别,得到实体和指称,包括:
根据自下而上的字节对编码算法将用户本轮对话内容转换成词序列,再利用自然语言处理工具Spacy识别所述词序列当中的实体和指称;
根据实体和指称之间的共指关系构造共指关系矩阵为
利用所述共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制,包括:
利用所述共指关系矩阵对自注意力机制进行改进,得到改进后的自注意力机制为
2.根据权利要求1所述的方法,其特征在于,所述回复生成模块包括多头注意力模块、前馈神经网络和规范化层;所述Q矩阵从回复生成模块中获取得到;根据回复生成模块对Q矩阵、K矩阵和V矩阵进行交互后共同输入到多头注意力模块、前馈神经网络以及规范化层得到解码矩阵,包括:
对Q矩阵、K矩阵和V矩阵进行结合,共同输入到多头注意力模块,得到Z矩阵;
利用前馈神经网络以及规范化层对所述Z矩阵进行解码,得到解码矩阵。
3.根据权利要求1所述的方法,其特征在于,根据所述迁移学习模块将所述对话生成任务分解为意图识别任务和文本生成任务,构建总的损失函数,包括:
根据所述迁移学习模块将所述对话生成任务分解为意图识别任务和文本生成任务,分别构建意图识别任务的损失函数和文本生成任务的损失函数;利用所述损失函数进行损失计算,得到意图识别任务的损失值和文本生成任务的损失值;
根据所述意图识别任务的损失值和文本生成任务的损失值按照指数函数加权求和,得到总的损失函数。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211419198.8A CN115617971B (zh) | 2022-11-14 | 2022-11-14 | 基于ALBERT-Coref模型的对话文本生成方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211419198.8A CN115617971B (zh) | 2022-11-14 | 2022-11-14 | 基于ALBERT-Coref模型的对话文本生成方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115617971A CN115617971A (zh) | 2023-01-17 |
CN115617971B true CN115617971B (zh) | 2023-03-07 |
Family
ID=84879268
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211419198.8A Active CN115617971B (zh) | 2022-11-14 | 2022-11-14 | 基于ALBERT-Coref模型的对话文本生成方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115617971B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN117290461B (zh) * | 2023-11-24 | 2024-02-06 | 湖南君安科技有限公司 | 融合aspp模块与跨模态交互的多模态对话生成方法 |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10222875B2 (en) * | 2015-12-11 | 2019-03-05 | SomniQ, Inc. | Apparatus, system, and methods for interfacing with a user and/or external apparatus by stationary state detection |
CN110853626B (zh) * | 2019-10-21 | 2021-04-20 | 成都信息工程大学 | 基于双向注意力神经网络的对话理解方法、装置及设备 |
CN112966083B (zh) * | 2021-03-10 | 2022-08-12 | 中国人民解放军国防科技大学 | 一种基于对话历史建模的多轮对话生成方法及装置 |
CN113779987A (zh) * | 2021-08-23 | 2021-12-10 | 科大国创云网科技有限公司 | 一种基于自注意力增强语义的事件共指消岐方法及系统 |
CN114443827A (zh) * | 2022-01-28 | 2022-05-06 | 福州大学 | 基于预训练语言模型的局部信息感知对话方法及系统 |
CN114880479B (zh) * | 2022-06-14 | 2024-06-18 | 昆明理工大学 | 基于多级交互和图重构的异构图卷积谣言检测方法 |
-
2022
- 2022-11-14 CN CN202211419198.8A patent/CN115617971B/zh active Active
Also Published As
Publication number | Publication date |
---|---|
CN115617971A (zh) | 2023-01-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111460807B (zh) | 序列标注方法、装置、计算机设备和存储介质 | |
WO2023160472A1 (zh) | 一种模型训练方法及相关设备 | |
CN112115687B (zh) | 一种结合知识库中的三元组和实体类型的生成问题方法 | |
US20220300718A1 (en) | Method, system, electronic device and storage medium for clarification question generation | |
CN108776832B (zh) | 信息处理方法、装置、计算机设备和存储介质 | |
CN112926322A (zh) | 融合自注意力机制和深度学习的文本分类方法及系统 | |
CN110083702B (zh) | 一种基于多任务学习的方面级别文本情感转换方法 | |
CN115599901B (zh) | 基于语义提示的机器问答方法、装置、设备及存储介质 | |
CN114139551A (zh) | 意图识别模型的训练方法及装置、意图识别的方法及装置 | |
CN112307168A (zh) | 基于人工智能的问诊会话处理方法、装置和计算机设备 | |
CN115617971B (zh) | 基于ALBERT-Coref模型的对话文本生成方法 | |
US20240046067A1 (en) | Data processing method and related device | |
CN111832699A (zh) | 用于神经网络的计算高效富于表达的输出层 | |
CN117151121B (zh) | 一种基于波动阈值与分割化的多意图口语理解方法 | |
CN113011136B (zh) | 基于相关性判断的sql解析方法、装置和计算机设备 | |
CN113343711A (zh) | 工单生成方法、装置、设备及存储介质 | |
CN116822527A (zh) | 基于对比预训练的机器阅读理解事件检测方法和装置 | |
CN116089605A (zh) | 基于迁移学习和改进词袋模型的文本情感分析方法 | |
CN114239575B (zh) | 语句分析模型的构建方法、语句分析方法、装置、介质和计算设备 | |
CN114925698A (zh) | 缩略语消歧方法、装置、计算机设备和存储介质 | |
Gan et al. | A novel approach to attention mechanism using kernel functions: Kerformer | |
CN112000777A (zh) | 一种文本生成方法、装置、计算机设备和存储介质 | |
US20240184997A1 (en) | Multi-model joint denoising training | |
CN113297828B (zh) | 一种文本生成方法、装置、计算机设备及存储介质 | |
CN117828072B (zh) | 一种基于异构图神经网络的对话分类方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |