CN111274362A - 一种基于transformer架构的对话生成方法 - Google Patents

一种基于transformer架构的对话生成方法 Download PDF

Info

Publication number
CN111274362A
CN111274362A CN202010077900.1A CN202010077900A CN111274362A CN 111274362 A CN111274362 A CN 111274362A CN 202010077900 A CN202010077900 A CN 202010077900A CN 111274362 A CN111274362 A CN 111274362A
Authority
CN
China
Prior art keywords
word
background knowledge
decoder
layer
knowledge
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202010077900.1A
Other languages
English (en)
Other versions
CN111274362B (zh
Inventor
蔡贤涛
袁一鸣
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University WHU
Original Assignee
Wuhan University WHU
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University WHU filed Critical Wuhan University WHU
Priority to CN202010077900.1A priority Critical patent/CN111274362B/zh
Publication of CN111274362A publication Critical patent/CN111274362A/zh
Application granted granted Critical
Publication of CN111274362B publication Critical patent/CN111274362B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)

Abstract

本发明提出了一种基于transformer架构的对话生成方法,用于解决基于背景知识的对话生成问题,属于自然语言处理领域。其主要步骤为将对话上文以及背景知识输入到微调后的文本预训练模型,分别得到对应的向量化表示。做阅读理解任务,通过训练好的阅读理解模型得到背景知识符合当前语境的概率分布。做文本生成任务,根据概率最高的知识片段与对话上文的向量化表示通过多头注意力机制得到综合语义向量。根据综合语义向量结合复制机制生成回复。使用该方法可以生成具有信息量的、自然的、符合当前语境的回复。

Description

一种基于transformer架构的对话生成方法
技术领域
本发明属于自然语言处理领域,尤其涉及一种基于transformer架构的对话生成方法。
背景技术
人工智能的目的是让机器人越来越像人,因此能够交流是机器人的必备技能之一。随着深度学习的发展,序列到序列(Seq2Seq)模型被广泛用于会话建模中,为了解决原始模型倾向于产生无意义或无聊的回答,信息量小,与事实不符等问题,在对话系统中引入了知识信息。知识主要有两种形式:结构化的知识如知识图谱,非结构化的知识如文档。非结构化的知识由于其天然属性显然更加适合于开放域的对话系统。当前解决利用非结构知识进行开放域的回复生成的策略有两种,一种是将其视作阅读理解任务,选择与当前语境最相关的知识片段作为回复,由于回复是背景知识中的一个连续的片段,无法包含背景知识文档中没有的词语,所以会存在不自然的问题。另一种思路是将其视作文本生成任务,但在文本生成任务中将背景知识与对话历史的价值等同,缺少了知识选择的过程,容易被无关的知识混淆。本专利综合了两种策略,先选择出符合当前语境的知识片段,再利用拷贝机制将相关知识融入到回复中。使用该方法可以生成具有信息量的、自然的、符合当前语境的回复。
发明内容
本发明的目的在于提供一种基于transformer架构的对话生成方法。解决对话生成倾向于产生无意义或无聊的回答,信息量小,与事实不符等问题。
基于上述目的,本文提供的解决技术方案为一种基于transformer架构的对话生成方法,具体包括如下步骤:
步骤1:将对话上文以及背景知识中的词映射为词嵌入,位置嵌入,分割嵌入,进一步得到词向量化表示;
步骤2:将对话上文以及背景知识的词向量化表示输入到BERT模型,分别得到对话上文以及背景知识对应的语义表示;
步骤3:基于对话上文以及背景知识对应的语义表示,进一步做阅读理解任务,计算背景知识中符合当前语境的概率分布;
步骤4:基于对话上文以及背景知识对应的语义表示以及背景知识中符合当前语境的概率分布,进一步做文本生成任务,通过多头注意力机制结合背景知识中符合当前语境的概率分布得到综合语义向量,根据综合语义向量结合复制机制生成回复;
作为优选,步骤1中所述的对话上文为:
X=(x1,x2,...,xI)#(1)
其中,xj是X的第j个词,I为词的数量,j∈[1,I];
步骤1中所述背景知识为:
K=(k1,k2,...,kN)#(2)其中,ki是K的第i个词,N为词的数量,i∈[1,N];
步骤1中生成回复为;
Y=(y1,y2,...,yo)#(3)
其中,yr是Y的第r个词,O为词的数量,r∈[1,O];
上述涉及的每个词ti的词嵌入为TE(ti),分割嵌入为SE(ti),位置嵌入为PE(ti),词的向量化模型为:
E(ti)=TE(ti)+SE(ti)+PE(ti)#(4)
其中,i为第i个词。
作为优选,步骤2中所述将对话上文以及背景知识的词向量化表示输入到BERT(Bidirectional Encoder Representations from Transformers,来自Transformer的双向编码器表示)模型,分别得到对话上文以及背景知识对应的语义表示;
其中,BERT由l个Transformer编码器组成,语义表示的计算方法如下:
Figure BDA0002379110820000021
其中,C0(wi)=E(wi),C为编码器隐状态,Wi为知识与对话上文级联后的i个词,j为第j个编码器;
作为优选,步骤3中所述基于对话上文以及背景知识对应的语义表示进一步做阅读理解任务,计算背景知识中符合当前语境的概率分布,具体为:
计算第p个词wp作为答案空间开始的概率为Pstart(p);
第q个词wq作为结束的概率为Pend(q),按照如下公式分别进行计算:
Figure BDA0002379110820000022
Figure BDA0002379110820000031
其中,S,E为可训练的参数矩阵,N为知识词的个数,C为编码器隐状态,p<q。
根据开始概率和结束概率乘积最大值对应的单词索引得到选取知识片段的起始位置和结束位置;
将该知识片段中的词标记为1,其他标记为0,记为Ti
作为优选,步骤4中所述基于对话上文以及背景知识对应的语义表示以及背景知识中符合当前语境的概率分布,进一步做文本生成任务,通过多头注意力机制结合背景知识中符合当前语境的概率分布得到综合语义向量,根据综合语义向量结合复制机制生成回复,具体为:
将步骤1中所述回复Y向量化表示为E(Y),并输入到l层transformer解码器中进行训练,transformer解码器由三个子层构成包括:
第一个子层为掩码多头自注意力层,按照如下公式得到第一个子层的输出:
Figure BDA0002379110820000032
其中S0,1=E(Y),Sj,1为解码器第一个子层的隐状态,j为第j个解码器;
第二个子层为编码器-解码器多头自注意力层,按照如下公式得到第二个子层的输出:
Figure BDA0002379110820000033
其中,α是注意力权重,Sj,2为解码器第二个子层的隐状态,j为第j个解码器,C为编码器隐状态;
第三个子层为位置全连接的前馈神经网络,按照如下公式得到transformer解码器的输出:
Figure BDA0002379110820000034
其中,GLUE为激活函数,Sj,3为解码器第三个子层的隐状态,j为第j个解码器,W,b分别为待训练的权重和偏置;
相邻的两个子层间还包括一个层归一化和残差连接操作;
将transformer解码器输出输入到生成器中,然后计算以下概率及概率分布:
计算回复中的下一个词从对话上文中拷贝的概率分布为:
Figure BDA0002379110820000035
回复中的下一个词从背景知识中拷贝的概率分布为:
Figure BDA0002379110820000041
Figure BDA0002379110820000042
其中,αt,i是注意力权重为第t个解码步骤时第i个词对应的注意力权重;
计算综合拷贝概率分布:
Figure BDA0002379110820000043
其中,
Figure BDA0002379110820000044
[CLS]X为对话上文整体标记,[CLS]K为知识整体标记,
Figure BDA0002379110820000045
为解码器在第t个解码步骤时第二个子层的隐状态,
Figure BDA0002379110820000046
为编码器在第t个解码步骤时的隐状态。
Figure BDA0002379110820000047
Figure BDA0002379110820000048
为Tiαt,i归一化后的结果;
计算下一个词是生成的概率:
Figure BDA0002379110820000049
其中,σ为sigmiod函数,W,b分别为待训练的权重和偏置,T为转置操作,
Figure BDA00023791108200000410
为解码器在第t个解码步骤时第二个子层的隐状态,
Figure BDA00023791108200000411
为解码器在第t个解码步骤时第三个子层的隐状态,E(yt)为第t个解码步骤时回复词的语义表示;
计算回复中的下一个词是从词典中生成的概率分布:
Figure BDA00023791108200000412
其中,V,b分别为待训练的权重和偏置,
Figure BDA00023791108200000413
为解码器在第t个解码步骤时第二个子层的隐状态,
Figure BDA00023791108200000414
为解码器在第t个解码步骤时第三个子层的隐状态;
计算综合概率分布:
P(w)=pgenPvocab(w)+(1-pgen)Pcopy(w)#(15)
其中,Pvocab(w)为下一个词是从词典中生成的概率分布,Pcopy(w)为综合拷贝概率分布,pgen为下一个词是生成的概率。
选取最高综合概率对应的词依次输出作为回复。
与现有技术相比,本发明具有如下优点:
结合了阅读理解任务与文本生成任务各自的优势,通过做阅读理解任务选择出符合当前语境的知识,通过做文本生成任务,利用拷贝与生成机制将相关的背景知识自然地融入到回复中。最终得到的回复既包含背景知识又与对话上文连贯,生成的回复更加自然流畅,包含一定的信息量。本发明还可扩展应用到智能音箱、智能客服等设备中。
附图说明
图1:本发明方法流程图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图论述本发明的具体实施方式为,一种基于transformer架构的对话生成方法,该方法包括如下步骤:
步骤1:将对话上文以及背景知识中的词映射为词嵌入,位置嵌入,分割嵌入,进一步得到词向量化表示;
作为优选,步骤1中所述的对话上文为:
X=(x1,x2,...,xI)#(1)
其中,xj是X的第j个词,I为词的数量,j∈[1,I];
步骤1中所述背景知识为:
K=(k1,k2,...,kN)#(2)其中,ki是K的第i个词,N为词的数量,i∈[1,N];
步骤1中生成回复为;
Y=(y1,y2,...,yo)#(3)
其中,yr是Y的第r个词,O为词的数量,r∈[1,O];
上述涉及的每个词ti的词嵌入为TE(ti),分割嵌入为SE(ti),位置嵌入为PE(ti),词的向量化模型为:
E(ti)=TE(ti)+SE(ti)+PE(ti)#(4)
其中,i为第i个词。
步骤2:将训练集中对话上文以及背景知识的词向量化表示输入到BERT(Bidirectional Encoder Representations from Transformers,来自Transformer的双向编码器表示)模型,分别得到对话上文以及背景知识对应的语义表示;
作为优选,步骤2中所述将训练集中对话上文以及背景知识的词向量化表示输入到BERT(Bidirectional Encoder Representations from Transformers,来自Transformer的双向编码器表示)模型,分别得到对话上文以及背景知识对应的语义表示;
其中,BERT由l个Transformer编码器组成,本发明使用了由谷歌公司提供的预训练版本对该部分进行参数初始化,语义表示的计算方法如下:
Figure BDA0002379110820000061
其中,C0(wi)=E(wi),C为编码器隐状态,Wi为知识与对话上文级联后的i个词,j为第j个编码器;
步骤3:基于对话上文以及背景知识对应的语义表示,进一步做阅读理解任务,计算背景知识中符合当前语境的概率分布;
基于对话上文以及背景知识对应的语义表示进一步做阅读理解任务,计算背景知识中符合当前语境的概率分布,具体为:
计算第p个词wp作为答案空间开始的概率为Pstart(p);
第q个词wq作为结束的概率为Pend(q),按照如下公式分别进行计算:
Figure BDA0002379110820000071
Figure BDA0002379110820000072
其中,S,E为可训练的参数矩阵,N为知识词的个数,C为编码器隐状态,p<q;
该步骤以如下函数作为训练目标,使用Adam优化器进行训练:
Figure BDA0002379110820000073
其中a,b分别为训练集中提供的标准的知识片段起始词索引和结束词索引,
Figure BDA0002379110820000074
Figure BDA0002379110820000075
分别为第i个样本中词wa作为答案空间开始的概率和词wb作为答案空间结束的概率,M为训练集中的样本个数;
以验证集上的最佳结果来选择参数;
根据开始概率和结束概率乘积最大值对应的单词索引得到选取知识片段的起始位置和结束位置;
将该知识片段中的词标记为1,其他标记为0,记为Ti
步骤4:基于对话上文以及背景知识对应的语义表示以及背景知识中符合当前语境的概率分布,进一步做文本生成任务,通过多头注意力机制结合背景知识中符合当前语境的概率分布得到综合语义向量,根据综合语义向量结合复制机制生成回复;
基于对话上文以及背景知识对应的语义表示以及背景知识中符合当前语境的概率分布,进一步做文本生成任务,通过多头注意力机制结合背景知识中符合当前语境的概率分布得到综合语义向量,根据综合语义向量结合复制机制生成回复,具体为:
将步骤1中所述回复Y向量化表示为E(Y),并输入到l层transformer解码器中进行训练,该部分参数随机初始化,transformer解码器由三个子层构成包括:
第一个子层为掩码多头自注意力层,按照如下公式得到第一个子层的输出:
Figure BDA00023791108200000811
其中S0,1=E(Y),Sj,1为解码器第一个子层的隐状态,j为第j个解码器;
第二个子层为编码器-解码器多头自注意力层,按照如下公式得到第二个子层的输出:
Figure BDA0002379110820000081
其中,α是注意力权重,Sj,2为解码器第二个子层的隐状态,j为第j个解码器,C为编码器隐状态;
第三个子层为位置全连接的前馈神经网络,按照如下公式得到transformer解码器的输出:
Figure BDA0002379110820000082
其中,GLUE为激活函数,Sj,3为解码器第三个子层的隐状态,j为第j个解码器,W,b分别为待训练的权重和偏置;
相邻的两个子层间还包括一个层归一化和残差连接操作;
将transformer解码器输出输入到生成器中,然后计算以下概率及概率分布:
计算回复中的下一个词从对话上文中拷贝的概率分布为:
Figure BDA0002379110820000083
回复中的下一个词从背景知识中拷贝的概率分布为:
Figure BDA0002379110820000084
Figure BDA0002379110820000085
其中,αt,i是注意力权重为第t个解码步骤时第i个词对应的注意力权重;
计算综合拷贝概率分布:
Figure BDA0002379110820000086
其中,
Figure BDA0002379110820000087
[CLS]X为对话上文整体标记,[CLS]K为知识整体标记,
Figure BDA0002379110820000088
为解码器在第t个解码步骤时第二个子层的隐状态,
Figure BDA0002379110820000089
为编码器在第t个解码步骤时的隐状态。
计算下一个词是生成的概率:
Figure BDA00023791108200000810
其中,σ为sigmiod函数,W,b分别为待训练的权重和偏置,T为转置操作,
Figure BDA0002379110820000091
为解码器在第t个解码步骤时第二个子层的隐状态,
Figure BDA0002379110820000092
为解码器在第t个解码步骤时第三个子层的隐状态,E(yt)为第t个解码步骤时回复词的语义表示;
计算回复中的下一个词是从词典中生成的概率分布:
Figure BDA0002379110820000093
其中,V,b分别为待训练的权重和偏置,
Figure BDA0002379110820000094
为解码器在第t个解码步骤时第二个子层的隐状态,
Figure BDA0002379110820000095
为解码器在第t个解码步骤时第三个子层的隐状态;
计算综合概率分布:
P(w)=pgenPvocab(w)+(1-pgen)Pcopy(w)#(16)
其中,Pvocab(w)为下一个词是从词典中生成的概率分布,Pcopy(w)为综合拷贝概率分布,pgen为下一个词是生成的概率;
该步骤以如下函数作为训练目标,使用Adam优化器进行训练。
Figure BDA0002379110820000096
其中,M为训练集中样本个数,O为每个样本中词的个数,
Figure BDA0002379110820000097
为第t个解码步骤时训练集中的标准回复词的综合概率分布;
以验证集上的最佳结果来选择参数;
将背景知识以及对话上文和阅读理解模型的输出输入到训练好的对话生成模型中,按照上述方式计算,不同的是综合拷贝概率分布中,
Figure BDA0002379110820000098
α′t,i为Tiαt,i归一化后的结果,从而将选择的背景知识融入到回复中,其他概率计算与上述过程一致,此处不再赘述;
选取最高概率对应的词依次输出作为回复。
表1:实施效果
Figure BDA0002379110820000099
Figure BDA0002379110820000101
本发明在Holl-E数据集上实施,其效果如表1所示,为本发明展示的技术效果,以第一个样本为例,“I liked the scene where Banks comes along and while thereAlyssa is asked to sing a song.”中“Banks comes along and while there Alyssais asked to sing a song.”是背景知识文档中关于“scene”的知识片段,“I liked thescene where”是与对话上文“What scene did you like?”相对应的过渡词,可以看出本发明生成的回复是对背景知识文档中与对话上文相关的知识片段的改写。由于包含了背景知识,回复具有信息量,又增加了过渡词,更加的自然流畅。
应当理解的是,本说明书未详细阐述的部分均属于现有技术。
应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本发明专利保护范围的限制,本领域的普通技术人员在本发明的启示下,在不脱离本发明权利要求所保护的范围情况下,还可以做出替换或变形,均落入本发明的保护范围之内,本发明的请求保护范围应以所附权利要求为准。

Claims (5)

1.一种基于transformer架构的对话生成方法,其特征在于,包括如下步骤:
步骤1:将对话上文以及背景知识中的词映射为词嵌入,位置嵌入,分割嵌入,进一步得到词向量化表示;
步骤2:将对话上文以及背景知识的词向量化表示输入到BERT模型,分别得到对话上文以及背景知识对应的语义表示;
步骤3:基于对话上文以及背景知识对应的语义表示,进一步做阅读理解任务,计算背景知识中符合当前语境的概率分布;
步骤4:基于对话上文以及背景知识对应的语义表示以及背景知识中符合当前语境的概率分布,进一步做文本生成任务,通过多头注意力机制结合背景知识中符合当前语境的概率分布得到综合语义向量,根据综合语义向量结合复制机制生成回复。
2.根据权利要求1所述的基于transformer架构的对话生成方法,其特征在于:步骤1中所述的对话上文为:
X=(x1,x2,...,xI)#(1)
其中,xj是X的第j个词,I为词的数量,j∈[1,I];
步骤1中所述背景知识为:
K=(k1,k2,...,kN)#(2)
其中,ki是K的第i个词,N为词的数量,i∈[1,N];
步骤1中生成回复为;
Y=(y1,y2,...,yO)#(3)
其中,yr是Y的第r个词,O为词的数量,r∈[1,O];
上述涉及的每个词ti的词嵌入为TE(ti),分割嵌入为SE(ti),位置嵌入为PE(ti),词的向量化模型为:
E(ti)=TE(ti)+SE(ti)+PE(ti)#(4)
其中,i为第i个词。
3.根据权利要求1所述的基于transformer架构的对话生成方法,其特征在于:步骤2中所述将对话上文以及背景知识的词向量化表示输入到BERT(Bidirectional EncoderRepresentations from Transformers,来自Transformer的双向编码器表示)模型,分别得到对话上文以及背景知识对应的语义表示;
其中,BERT由l个Transformer编码器组成,语义表示的计算方法如下:
Figure FDA0002379110810000021
其中,C0(wi)=E(wi),C为编码器隐状态,wi为知识与对话上文级联后的i个词,j为第j个编码器。
4.根据权利要求1所述的基于transformer架构的对话生成方法,其特征在于:步骤3中所述基于对话上文以及背景知识对应的语义表示进一步做阅读理解任务,计算背景知识中符合当前语境的概率分布,具体为:
计算第p个词wp作为答案空间开始的概率为Pstart(p);
第q个词wq作为结束的概率为Pend(q),按照如下公式分别进行计算:
Figure FDA0002379110810000022
Figure FDA0002379110810000023
其中,S,E为可训练的参数矩阵,N为知识词的个数,C为编码器隐状态,p<q;
根据开始概率和结束概率乘积最大值对应的单词索引得到选取知识片段的起始位置和结束位置;
将该知识片段中的词标记为1,其他标记为0,记为Ti;。
5.根据权利要求1所述的基于transformer架构的对话生成方法,其特征在于:步骤4中所述基于对话上文以及背景知识对应的语义表示以及背景知识中符合当前语境的概率分布,进一步做文本生成任务,通过多头注意力机制结合背景知识中符合当前语境的概率分布得到综合语义向量,根据综合语义向量结合复制机制生成回复,具体为:
将步骤1中所述回复Y向量化表示为E(Y),并输入到l层transformer解码器中进行训练,transformer解码器由三个子层构成包括:
第一个子层为掩码多头自注意力层,按照如下公式得到第一个子层的输出:
Figure FDA0002379110810000024
其中S0,1=E(Y),Sj,1为解码器第一个子层的隐状态,j为第j个解码器;
第二个子层为编码器-解码器多头自注意力层,按照如下公式得到第二个子层的输出:
Figure FDA0002379110810000031
其中,α是注意力权重,Sj,2为解码器第二个子层的隐状态,j为第j个解码器,C为编码器隐状态;
第三个子层为位置全连接的前馈神经网络,按照如下公式得到transformer解码器的输出:
Figure FDA0002379110810000032
其中,GLUE为激活函数,Sj,3为解码器第三个子层的隐状态,j为第j个解码器,W,b分别为待训练的权重和偏置;
相邻的两个子层间还包括一个层归一化和残差连接操作;
将transformer解码器输出输入到生成器中,然后计算以下概率及概率分布:
计算回复中的下一个词从对话上文中拷贝的概率分布为:
Figure FDA0002379110810000033
回复中的下一个词从背景知识中拷贝的概率分布为:
Figure FDA0002379110810000034
Figure FDA0002379110810000035
其中,αt,i是注意力权重为第t个解码步骤时第i个词对应的注意力权重;
计算综合拷贝概率分布:
Figure FDA0002379110810000036
其中,
Figure FDA0002379110810000037
[CLS]X为对话上文整体标记,[CLS]K为知识整体标记,
Figure FDA0002379110810000038
为解码器在第t个解码步骤时第二个子层的隐状态,
Figure FDA0002379110810000039
为编码器在第t个解码步骤时的隐状态,
Figure FDA00023791108100000310
Figure FDA00023791108100000311
为Tiαt,i归一化后的结果;
计算下一个词是生成的概率:
Figure FDA00023791108100000312
其中,σ为sigmiod函数,W,b分别为待训练的权重和偏置,T为转置操作,
Figure FDA00023791108100000313
为解码器在第t个解码步骤时第二个子层的隐状态,
Figure FDA00023791108100000314
为解码器在第t个解码步骤时第三个子层的隐状态,E(yt)为第t个解码步骤时回复词的语义表示;
计算回复中的下一个词是从词典中生成的概率分布:
Figure FDA00023791108100000315
其中,V,b分别为待训练的权重和偏置,
Figure FDA0002379110810000041
为解码器在第t个解码步骤时第二个子层的隐状态,
Figure FDA0002379110810000042
为解码器在第t个解码步骤时第三个子层的隐状态;
计算综合概率分布:
P(w)=pgenPvocab(w)+(1-pgen)Pcopy(w)#(15
其中,Pvocab(w)为下一个词是从词典中生成的概率分布,Pcopy(w)为综合拷贝概率分布,pgen为下一个词是生成的概率;
选取最高综合概率对应的词依次输出作为回复。
CN202010077900.1A 2020-02-01 2020-02-01 一种基于transformer架构的对话生成方法 Active CN111274362B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010077900.1A CN111274362B (zh) 2020-02-01 2020-02-01 一种基于transformer架构的对话生成方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010077900.1A CN111274362B (zh) 2020-02-01 2020-02-01 一种基于transformer架构的对话生成方法

Publications (2)

Publication Number Publication Date
CN111274362A true CN111274362A (zh) 2020-06-12
CN111274362B CN111274362B (zh) 2021-09-03

Family

ID=71003543

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010077900.1A Active CN111274362B (zh) 2020-02-01 2020-02-01 一种基于transformer架构的对话生成方法

Country Status (1)

Country Link
CN (1) CN111274362B (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111814468A (zh) * 2020-07-09 2020-10-23 前海企保科技(深圳)有限公司 一种自适应架构语义分布文本理解方法及系统
CN111814489A (zh) * 2020-07-23 2020-10-23 苏州思必驰信息科技有限公司 口语语义理解方法及系统
CN111984760A (zh) * 2020-07-15 2020-11-24 重庆邮电大学 一种基于多模态知识选择的对话生成方法
CN111986687A (zh) * 2020-06-23 2020-11-24 合肥工业大学 基于交互式解码的双语情感对话生成系统
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话系统
CN112463935A (zh) * 2020-09-11 2021-03-09 湖南大学 一种带有强泛化知识选择的开放域对话生成方法及模型
CN112559702A (zh) * 2020-11-10 2021-03-26 西安理工大学 基于Transformer的土木建筑信息领域自然语言问题生成方法
CN116383364A (zh) * 2023-05-26 2023-07-04 华南理工大学 一种基于医生反馈与强化学习的医疗问答回复方法及系统

Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150094914A1 (en) * 2004-02-26 2015-04-02 Geelux Holding, Ltd. Method and apparatus for biological evaluation
CN108763504A (zh) * 2018-05-30 2018-11-06 浙江大学 一种基于强化双通道序列学习的对话回复生成方法及系统
CN109960733A (zh) * 2019-04-01 2019-07-02 上海火商智能科技有限公司 一种端到端任务型对话系统
CN110096711A (zh) * 2019-05-09 2019-08-06 中国科学技术大学 序列全局关注和局部动态关注的自然语言语义匹配方法
CN110188167A (zh) * 2019-05-17 2019-08-30 北京邮电大学 一种融入外部知识的端到端对话方法及系统
CN110222827A (zh) * 2019-06-11 2019-09-10 苏州思必驰信息科技有限公司 基于文本的抑郁判定网络模型的训练方法
CN110399472A (zh) * 2019-06-17 2019-11-01 平安科技(深圳)有限公司 面试提问提示方法、装置、计算机设备及存储介质
CN110399460A (zh) * 2019-07-19 2019-11-01 腾讯科技(深圳)有限公司 对话处理方法、装置、设备及存储介质
CN110413729A (zh) * 2019-06-25 2019-11-05 江南大学 基于尾句-上下文双重注意力模型的多轮对话生成方法
CN110619123A (zh) * 2019-09-19 2019-12-27 电子科技大学 一种机器阅读理解方法
CN110674639A (zh) * 2019-09-24 2020-01-10 拾音智能科技有限公司 一种基于预训练模型的自然语言理解方法
US10534894B2 (en) * 2016-04-15 2020-01-14 BR Invention Holding, LLC Mobile medicine communication platform and methods and uses thereof
CN110704586A (zh) * 2019-09-30 2020-01-17 支付宝(杭州)信息技术有限公司 一种信息处理方法及系统
CN110737764A (zh) * 2019-10-24 2020-01-31 西北工业大学 一种个性化对话内容生成方法

Patent Citations (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150094914A1 (en) * 2004-02-26 2015-04-02 Geelux Holding, Ltd. Method and apparatus for biological evaluation
US10534894B2 (en) * 2016-04-15 2020-01-14 BR Invention Holding, LLC Mobile medicine communication platform and methods and uses thereof
CN108763504A (zh) * 2018-05-30 2018-11-06 浙江大学 一种基于强化双通道序列学习的对话回复生成方法及系统
CN109960733A (zh) * 2019-04-01 2019-07-02 上海火商智能科技有限公司 一种端到端任务型对话系统
CN110096711A (zh) * 2019-05-09 2019-08-06 中国科学技术大学 序列全局关注和局部动态关注的自然语言语义匹配方法
CN110188167A (zh) * 2019-05-17 2019-08-30 北京邮电大学 一种融入外部知识的端到端对话方法及系统
CN110222827A (zh) * 2019-06-11 2019-09-10 苏州思必驰信息科技有限公司 基于文本的抑郁判定网络模型的训练方法
CN110399472A (zh) * 2019-06-17 2019-11-01 平安科技(深圳)有限公司 面试提问提示方法、装置、计算机设备及存储介质
CN110413729A (zh) * 2019-06-25 2019-11-05 江南大学 基于尾句-上下文双重注意力模型的多轮对话生成方法
CN110399460A (zh) * 2019-07-19 2019-11-01 腾讯科技(深圳)有限公司 对话处理方法、装置、设备及存储介质
CN110619123A (zh) * 2019-09-19 2019-12-27 电子科技大学 一种机器阅读理解方法
CN110674639A (zh) * 2019-09-24 2020-01-10 拾音智能科技有限公司 一种基于预训练模型的自然语言理解方法
CN110704586A (zh) * 2019-09-30 2020-01-17 支付宝(杭州)信息技术有限公司 一种信息处理方法及系统
CN110737764A (zh) * 2019-10-24 2020-01-31 西北工业大学 一种个性化对话内容生成方法

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
KIMBERLY LU: ""Multiple Domain Question-Answer Generation"", 《ELECTRICAL ENGINEERING AND COMPUTER SCIENCES》 *
WEIJIE LIU ET AL.: ""K-BERT: Enabling Language Representation with Knowledge Graph"", 《ARXIV》 *
刘继明: ""基于小样本机器学习的跨任务对话系统"", 《重庆邮电大学学报( 自然科学版)》 *

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111986687B (zh) * 2020-06-23 2022-08-02 合肥工业大学 基于交互式解码的双语情感对话生成系统
CN111986687A (zh) * 2020-06-23 2020-11-24 合肥工业大学 基于交互式解码的双语情感对话生成系统
CN111814468B (zh) * 2020-07-09 2021-02-26 前海企保科技(深圳)有限公司 一种自适应架构语义分布文本理解方法及系统
CN111814468A (zh) * 2020-07-09 2020-10-23 前海企保科技(深圳)有限公司 一种自适应架构语义分布文本理解方法及系统
CN111984760A (zh) * 2020-07-15 2020-11-24 重庆邮电大学 一种基于多模态知识选择的对话生成方法
CN111814489A (zh) * 2020-07-23 2020-10-23 苏州思必驰信息科技有限公司 口语语义理解方法及系统
CN112084314A (zh) * 2020-08-20 2020-12-15 电子科技大学 一种引入知识的生成式会话系统
CN112084314B (zh) * 2020-08-20 2023-02-21 电子科技大学 一种引入知识的生成式会话系统
CN112463935A (zh) * 2020-09-11 2021-03-09 湖南大学 一种带有强泛化知识选择的开放域对话生成方法及模型
CN112463935B (zh) * 2020-09-11 2024-01-05 湖南大学 一种带有强泛化知识选择的开放域对话生成方法及系统
CN112559702B (zh) * 2020-11-10 2022-09-30 西安理工大学 基于Transformer的土木建筑信息领域自然语言问题生成方法
CN112559702A (zh) * 2020-11-10 2021-03-26 西安理工大学 基于Transformer的土木建筑信息领域自然语言问题生成方法
CN116383364A (zh) * 2023-05-26 2023-07-04 华南理工大学 一种基于医生反馈与强化学习的医疗问答回复方法及系统
CN116383364B (zh) * 2023-05-26 2023-09-12 华南理工大学 一种基于医生反馈与强化学习的医疗问答回复方法及系统

Also Published As

Publication number Publication date
CN111274362B (zh) 2021-09-03

Similar Documents

Publication Publication Date Title
CN111274362B (zh) 一种基于transformer架构的对话生成方法
CN108415977B (zh) 一个基于深度神经网络及强化学习的生成式机器阅读理解方法
CN110782870A (zh) 语音合成方法、装置、电子设备及存储介质
CN111930914B (zh) 问题生成方法和装置、电子设备以及计算机可读存储介质
CN112417894B (zh) 一种基于多任务学习的对话意图识别方法及识别系统
CN109887484A (zh) 一种基于对偶学习的语音识别与语音合成方法及装置
CN111400461B (zh) 智能客服问题匹配方法及装置
CN112115687A (zh) 一种结合知识库中的三元组和实体类型的生成问题方法
CN110399454B (zh) 一种基于变压器模型和多参照系的文本编码表示方法
CN114860915A (zh) 一种模型提示学习方法、装置、电子设备及存储介质
CN115563290B (zh) 一种基于语境建模的智能情感识别方法
CN113837299A (zh) 基于人工智能的网络训练方法及装置、电子设备
CN114023300A (zh) 一种基于扩散概率模型的中文语音合成方法
CN114003700A (zh) 一种对话信息的处理方法、系统、电子设备及存储介质
CN111813907A (zh) 一种自然语言问答技术中的问句意图识别方法
CN114743539A (zh) 语音合成方法、装置、设备及存储介质
CN114373443A (zh) 语音合成方法和装置、计算设备、存储介质及程序产品
Kreyssig Deep learning for user simulation in a dialogue system
CN112951270A (zh) 语音流利度检测的方法、装置和电子设备
CN117727288B (zh) 一种语音合成方法、装置、设备及存储介质
Campos-Soberanis et al. Improving a conversational speech recognition system using phonetic and neural transcript correction
CN116991982B (zh) 基于人工智能的交互式对话方法、装置、设备及存储介质
CN115376547B (zh) 发音评测方法、装置、计算机设备和存储介质
Basnet Attention And Wave Net Vocoder Based Nepali Text-To-Speech Synthesis
Casanueva et al. Using phone features to improve dialogue state tracking generalisation to unseen states

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant