CN111783955A - 神经网络的训练、对话生成方法及装置、存储介质 - Google Patents
神经网络的训练、对话生成方法及装置、存储介质 Download PDFInfo
- Publication number
- CN111783955A CN111783955A CN202010620299.6A CN202010620299A CN111783955A CN 111783955 A CN111783955 A CN 111783955A CN 202010620299 A CN202010620299 A CN 202010620299A CN 111783955 A CN111783955 A CN 111783955A
- Authority
- CN
- China
- Prior art keywords
- training
- reply
- statement
- discriminator
- module
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012549 training Methods 0.000 title claims abstract description 255
- 238000013528 artificial neural network Methods 0.000 title claims abstract description 141
- 238000000034 method Methods 0.000 title claims abstract description 93
- 238000005457 optimization Methods 0.000 claims abstract description 254
- 238000011084 recovery Methods 0.000 claims abstract description 6
- 238000005070 sampling Methods 0.000 claims description 72
- 238000005315 distribution function Methods 0.000 claims description 41
- 230000015654 memory Effects 0.000 claims description 33
- 239000013598 vector Substances 0.000 claims description 20
- 238000012545 processing Methods 0.000 claims description 17
- 230000004044 response Effects 0.000 claims description 11
- 238000004590 computer program Methods 0.000 claims description 9
- 238000013527 convolutional neural network Methods 0.000 claims description 9
- 230000007787 long-term memory Effects 0.000 claims description 9
- 230000006403 short-term memory Effects 0.000 claims description 9
- 238000012417 linear regression Methods 0.000 claims description 8
- 230000008569 process Effects 0.000 description 14
- 238000010586 diagram Methods 0.000 description 9
- 238000000605 extraction Methods 0.000 description 6
- 230000006870 function Effects 0.000 description 6
- 230000007246 mechanism Effects 0.000 description 4
- 230000003631 expected effect Effects 0.000 description 3
- 230000009471 action Effects 0.000 description 2
- 230000003247 decreasing effect Effects 0.000 description 2
- 230000000977 initiatory effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 230000003042 antagnostic effect Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000008859 change Effects 0.000 description 1
- 239000000470 constituent Substances 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000005284 excitation Effects 0.000 description 1
- 230000006872 improvement Effects 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 238000013507 mapping Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000036651 mood Effects 0.000 description 1
- 238000011176 pooling Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/332—Query formulation
- G06F16/3329—Natural language query formulation or dialogue systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
- G06F16/353—Clustering; Classification into predefined classes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- Mathematical Physics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Artificial Intelligence (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- General Health & Medical Sciences (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Evolutionary Computation (AREA)
- Biophysics (AREA)
- Life Sciences & Earth Sciences (AREA)
- Software Systems (AREA)
- Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Human Computer Interaction (AREA)
- Machine Translation (AREA)
Abstract
本公开提供了一种神经网络的训练、对话生成方法及装置、存储介质,其中,神经网络包括生成器模块以及多个判别器模块,其中,多个判别器模块对应不同优化目标,该方法包括:将样本查询语句输入所述生成器模块,得到第一回复语句;在所述多个判别器模块中,确定第一轮对抗训练采用的第一判别器模块;获取与所述样本查询语句对应的样本回复语句,并根据所述样本回复语句和所述第一回复语句,确定所述第一判别器模块在对应的第一优化目标上产生的第一奖励信号;在所述第一轮对抗训练中,根据所述样本回复语句、所述第一回复语句、所述第一奖励信号,对所述神经网络进行训练。
Description
技术领域
本公开涉及语言处理领域,尤其涉及一种神经网络的训练、对话生成方法及装置、存储介质。
背景技术
对话生成是对话系统领域中的重要问题。对话生成模型可以在很多领域有重要应用,如智能聊天机器人回复生成,人机交互等。
实现对话生成的过程是很复杂的,人类的对话语句往往会受到多个方面的影响,比如生成的对话语句是否流畅,是否符合语法规则,是否具有信息含量等多个语言学方面。目前的对话生成模型通过改进细粒度的优化目标,通常只能关注到其中一个方面。
发明内容
本公开提供了一种神经网络的训练、对话生成方法及装置、存储介质。
根据本公开实施例的第一方面,提供一种神经网络的训练方法,所述神经网络包括生成器模块以及多个判别器模块,其中,多个判别器模块对应不同优化目标,所述方法包括:将样本查询语句输入所述生成器模块,得到第一回复语句;在所述多个判别器模块中,确定第一轮对抗训练采用的第一判别器模块;获取与所述样本查询语句对应的样本回复语句,并根据所述样本回复语句和所述第一回复语句,确定所述第一判别器模块在对应的第一优化目标上产生的第一奖励信号;在所述第一轮对抗训练中,根据所述样本回复语句、所述第一回复语句、所述第一奖励信号,对所述神经网络进行训练。
在一些可选实施例中,所述在所述第一轮对抗训练中,根据所述样本回复语句、所述第一回复语句、所述第一奖励信号,对所述神经网络进行训练,包括如下至少一项:在所述第一轮对抗训练中,根据所述第一奖励信号,对所述生成器模块进行训练;在所述第一轮对抗训练中,根据所述样本回复语句和所述第一回复语句,对所述第一判别器模块进行训练。
在一些可选实施例中,所述将样本查询语句输入所述生成器模块,得到第一回复语句,包括:通过叠加的多层长短期记忆网络对输入的所述样本查询语句进行编码,得到与所述样本查询语句对应的至少一个隐状态向量;再通过叠加的多层长短期记忆网络对与所述样本查询语句对应的至少一个隐状态向量进行解码后,得到所述第一回复语句。
在一些可选实施例中,所述多个判别器模块对应的采样概率值满足采样分布函数;所述在所述多个判别器模块中,确定第一轮对抗训练采用的第一判别器模块,包括:根据所述采样分布函数,将所述多个判别器模块中所述采样概率值最大的判别器模块作为所述第一判别器模块。
在一些可选实施例中,所述根据所述样本回复语句和所述第一回复语句,确定所述第一判别器模块在对应的第一优化目标上产生的第一奖励信号,包括:通过第一判别器模块从所述样本回复语句和所述第一回复语句中提取与所述第一优化目标对应的特征信息;根据与所述第一优化目标对应的所述特征信息,确定所述第一回复语句在所述第一优化目标上取得的第一分值;在所述第一轮对抗训练中,将所述第一分值相对于第二分值的差值作为所述第一奖励信号对应的数值;其中,所述第二分值是上一轮对抗训练中生成器模块生成的回复语句在所述第一优化目标上取得的分值。
在一些可选实施例中,所述第一优化目标包括语言优化目标;所述通过第一判别器模块从所述样本回复语句和所述第一回复语句中提取与所述第一优化目标对应的特征信息,包括:通过叠加的多层长短期记忆网络从所述样本回复语句和所述第一回复语句中提取与所述语言优化目标对应的语言特征信息;所述根据与所述第一优化目标对应的所述特征信息,确定所述第一回复语句在所述第一优化目标上取得的第一分值,包括:通过二分类判别器对从所述样本回复语句和所述第一回复语句中提取的所述语言特征信息进行分类,得到分类结果;将所述分类结果为真值的所述语言特征信息的概率值作为所述第一回复语句在所述语言优化目标上取得的所述第一分值。
在一些可选实施例中,所述第一优化目标包括语法优化目标;所述通过第一判别器模块从所述样本回复语句和所述第一回复语句中提取与所述第一优化目标对应的特征信息,包括:通过预先训练好的语法图卷积神经网络,从所述样本回复语句和所述第一回复语句中提取与所述语法优化目标对应的语法特征信息;所述根据与所述第一优化目标对应的所述特征信息,确定所述第一回复语句在所述第一优化目标上取得的第一分值,包括:对从所述样本回复语句和所述第一回复语句中提取的所述语法特征信息依次进行批正则化处理和线性回归处理,确定所述第一回复语句在所述语法优化目标上取得的所述第一分值。
在一些可选实施例中,所述第一优化目标包括信息量优化目标;所述通过第一判别器模块从所述样本回复语句和所述第一回复语句中提取与所述第一优化目标对应的特征信息,包括:确定所述样本回复语句和所述第一回复语句中包括的多个单词所对应的信息熵;将所述多个单词所对应的信息熵作为与所述信息量优化目标对应的特征信息;所述根据与所述第一优化目标对应的所述特征信息,确定所述第一回复语句在所述第一优化目标上取得的第一分值,包括:将所述多个单词所对应的信息熵的平均值作为所述第一回复语句在所述信息量优化目标上取得的所述第一分值。
在一些可选实施例中,所述方法还包括:响应于确定需要进行第二轮对抗训练,将所述样本查询语句输入经过所述第一轮对抗训练后得到的所述生成器模块,得到第二回复语句;在所述多个判别器模块中,确定所述第二轮对抗训练采用的第二判别器模块;根据所述样本回复语句和所述第二回复语句,确定所述第二判别器模块在对应的第二优化目标上产生的第二奖励信号;在所述第二轮对抗训练中,根据所述样本回复语句、所述第二回复语句、所述第二奖励信号,对所述神经网络进行训练。
在一些可选实施例中,所述方法还包括:响应于所述第二回复语句在所述不同优化目标中的指定优化目标上取得的第二分值小于第一预设阈值,确定需要进行第二轮对抗训练;或响应于所述第二回复语句在所述不同优化目标上取得的平均分值小于第二预设阈值,确定需要进行第二轮对抗训练。
在一些可选实施例中,所述方法还包括:对所述多个判别器模块对应的采样概率值所满足的采样分布函数进行更新;所述在所述多个判别器模块中,确定所述下第二轮对抗训练中采用的第二判别器模块,包括:根据更新后的所述采样分布函数,将所述多个判别器模块中更新后的采样概率值最大的判别器模块作为所述第二判别器模块。
在一些可选实施例中,所述对所述多个判别器模块对应的采样概率值所满足的采样分布函数进行更新,包括:根据所述第一回复语句和所述第二回复语句在所述不同优化目标上分别取得的分值,确定所述不同优化目标上分别取得的分值的变化量;在所述采样分布函数中,根据所述不同优化目标上分别取得的分值的变化量,调整所述不同优化目标分别对应的判别器模块的分布概率值。
根据本公开实施例的第二方面,提供一种对话生成方法,包括:获取用户输入的查询语句;将所述查询语句输入预先训练好的神经网络包括的生成器模块,得到与所述查询语句对应的回复语句;其中,所述神经网络是采用第一方面任一项所述的方法训练得到。
根据本公开实施例的第三方面,提供一种神经网络的训练装置,所述神经网络包括生成器模块以及多个判别器模块,其中,多个判别器模块对应不同优化目标,所述装置包括:第一生成模块,用于将样本查询语句输入所述生成器模块,得到第一回复语句;第一确定模块,用于在所述多个判别器模块中,确定第一轮对抗训练采用的第一判别器模块;第二确定模块,用于获取与所述样本查询语句对应的样本回复语句,并根据所述样本回复语句和所述第一回复语句,确定所述第一判别器模块在对应的第一优化目标上产生的第一奖励信号;第一训练模块,用于在所述第一轮对抗训练中,根据所述样本回复语句、所述第一回复语句、所述第一奖励信号,对所述神经网络进行训练。
根据本公开实施例的第四方面,提供一种对话生成装置,所述装置包括:获取模块,用于获取用户输入的查询语句;第二生成模块,用于将所述查询语句输入预先训练好的神经网络包括的生成器模块,得到与所述查询语句对应的回复语句;其中,所述神经网络是采用第一方面任一项所述的方法训练得到。
根据本公开实施例的第五方面,提供一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述第一方面任一所述的神经网络的训练方法或第二方面所述的对话生成方法。
根据本公开实施例的第六方面,提供一种神经网络的训练装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现第一方面中任一项所述的神经网络的训练方法。
根据本公开实施例的第七方面,提供一种对话生成装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现第二方面所述的对话生成方法。
本公开的实施例提供的技术方案可以包括以下有益效果:
本公开实施例中,神经网络包括生成器模块以及多个判别器模块,其中,多个判别器模块对应不同优化目标。生成器模块可以根据输入的样本查询语句,生成第一回复语句,进一步地,在多个判别器模块中,自适应地确定第一轮对抗训练采用的第一优化目标,根据样本回复语句和第一回复语句,确定所述第一判别器模块在对应的第一优化目标上产生的第一奖励信号。在第一轮对抗训练中,根据样本回复语句、第一回复语句、第一奖励信号对该神经网络进行训练。在本公开中,将神经网络的训练看出是对多个优化目标的训练,自适应地根据与第一轮对抗训练对应的第一优化目标,从多个判别器模块中选取一个判别器模块与生成器模块一起进行对抗训练,提高了神经网络的训练效率,使得神经网络可以在多个优化目标上实现共同优化。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。
图1是本公开示出的一种神经网络的网络架构示意图;
图2是本公开示出的一种神经网络的训练方法流程图;
图3是本公开示出的一种生成器模块的结构示意图;
图4是本公开示出的另一种神经网络的训练方法流程图;
图5是本公开示出的另一种神经网络的训练方法流程图;
图6是本公开示出的另一种神经网络的训练方法流程图;
图7是本公开示出的另一种神经网络的训练方法流程图;
图8是本公开示出的另一种神经网络的训练方法流程图;
图9是本公开示出的另一种神经网络的训练方法流程图;
图10是本公开示出的另一种神经网络的训练方法流程图;
图11是本公开示出的另一种神经网络的网络结构示意图;
图12是本公开示出的另一种神经网络的训练方法流程图;
图13是本公开示出的一种对话生成方法流程图;
图14是本公开示出的一种神经网络的训练装置框图;
图15是本公开示出的一种对话生成装置框图;
图16是本公开示出的一种用于神经网络的训练装置的一结构示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
在本公开运行的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所运行的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中运行的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所运行的单词“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
本公开提供了一种神经网络的网络架构,如图1所示,包括生成器模块和多个判别器模块。其中,生成器模块是用来生成回复语句的模块,多个判别器模块包括判别器模块1、判别器模块2、……判别器模块N,分别对应不同优化目标。优化目标指的是希望神经网络的生成器模块生成的回复语句所能够达到的性能指标,包括但不限于以下至少之一:语言优化目标、语法优化目标、信息量优化目标。例如判别器模块1对应语言优化目标,判别器模块2对应语法优化目标,判别器模块3对应信息量优化目标等。
在本公开实施例中,所涉及的查询语句是用于进行发问和/或发起对话过程等的语句,回复语句是与查询语句相关联、且对查询语句进行应答回复的语句。样本查询语句是样本语句集合中的查询语句,该样本语句集合中提供的对应样本查询语句的答复语句就是样本回复语句。样本语句集合可以针对特定领域,包括但不限于音乐、美食、流行语、银行、各种店铺预约等,采集该领域内的真实对话语句,使得样本语句集合具有较强的针对性。例如,在样本语句集合中,样本查询语句包括“我想看音乐会”,样本回复语句包括“那很好啊,需要我帮你查一下音乐会的演出安排吗”。在本公开实施例中,生成器模块针对输入的样本查询语句会生成对应的回复语句,将生成器模块生成的回复语句作为假回复语句,样本回复语句作为真回复语句。
在对神经网络的训练过程中,采用对抗训练的方式。对抗训练是指不同的判别器模块用于给生成器模块在不同优化目标上提供奖励信号,让生成器模块通过训练使得生成的回复语句,在不同优化目标上进行提高、改进,使回复语句更满足实际对话语句的语言逻辑、在内容上与查询语句的吻合度更高等。判别器模块则用于逐步缩小上述真回复语句和假回复语句之间在对应的优化目标上的差别。两者互相博弈、进化,让神经网络最终生成的假回复语句更加接近真回复语句,最终达到以假乱真的效果。在实际应用中,可以实现但不限于让机器人客服取代人工客服等目的,神经网络输出的假回复语句越接近真回复语句,越能够给用户提供更自然、更好的服务感受,尽量避免回复生硬、答非所问等问题。例如,用户在希望与对方进行聊天、交流、询问业务等情况下,人工客服会根据用户的实际询问语句,提供对应的答复语句,而神经网络生成的假回复语句越接近人工客服提供的真回复语句,越能够避免出现例如“对不起,我不清楚你说了什么”或者“这个问题我没法回答”的情况。
在上述实施例中,多个判别器模块对应了不同优化目标,每轮对抗训练可以从多个判别器模块中选择一个判别器模块与生成器模块一起进行对抗训练,经过对神经网络的多轮对抗训练,实现在多个优化目标上对神经网络进行共同优化的目的。
基于神经网络的上述网络架构,本公开还提供了一种对该神经网络的训练方法。
需要说明的是,本公开实施例中的第一轮对抗训练以及后续的第二轮对抗训练是用于区分两轮对抗训练的先后顺序的,第一轮对抗训练在第二轮对抗训练之前,并不作为整个训练过程中的轮次示意,即第一轮对抗训练并不意味着是对神经网络的第一次的对抗训练。第一轮对抗训练和第二轮对抗训练对神经网络的生成器模块和每轮对抗训练采用的判别器模块进行至少一次网络参数的调整,以实现在不同优化目标上对神经网络进行共同优化的目的。
例如图2所示,图2是根据一示例性实施例示出的一种神经网络的训练方法,包括以下步骤:
在步骤101中,将样本查询语句输入所述生成器模块,得到第一回复语句。
在本公开实施例中,样本查询语句是样本语句集合中的查询语句,用于进行发问和/或发起对话过程等,第一回复语句是在第一轮对抗训练中,生成器模块针对输入的样本查询语句自动生成的假回复语句。
在步骤102中,在所述多个判别器模块中,确定第一轮对抗训练采用的第一判别器模块。
在本公开实施例中,神经网络包括多个判别器模块,多个判别器模块又分别对应了不同优化目标,这些优化目标是预先设置的期望生成器模块生成的假回复语句可以达到的性能指标,本公开不限定优化目标的数目、种类等,即不限定判别器模块的数目、种类等,使得本公开的最终训练得到的神经网络具备较强的扩展性。
在实际应用中,可以根据具体的业务需求,在已有的多个判别器模块中选择并组合,或者如果已有的多个判别器模块对应了部分优化目标,也可以新增对应其他优化目标的判别器模块,本公开对此不作限定。
在本公开实施例中,可以从多个判别器模块中,选择一个作为第一轮对抗训练采用的判别器模块,选择出来的判别器模块就是第一判别器模块。在本公开实施例中,每轮对抗训练一般选择其中一个判别器模块,从而在每轮对抗训练中,针对一个优化目标进行优化,尽量避免同时对多个优化目标进行优化所带来的神经网络参数调整困难、优化目标难以实现的问题。
在步骤103中,获取与所述样本查询语句对应的样本回复语句,并根据所述样本回复语句和所述第一回复语句,确定所述第一判别器模块在对应的第一优化目标上产生的第一奖励信号。
在本公开实施例中,获取样本语句集合中与样本查询语句对应的样本回复语句,该样本回复语句作为真回复语句,第一回复语句作为假回复语句,同时输入第一判别器模块,第一判别器模块通过比较真假回复语句,可以确定在第一优化目标上产生的第一奖励信号。其中,第一判别器模块对应了第一优化目标。
在步骤104中,在所述第一轮对抗训练中,根据所述样本回复语句、所述第一回复语句、所述第一奖励信号,对所述神经网络进行训练。
在本公开实施例中,第一轮对抗训练是针对生成器模块和第一判别器模块进行的对抗训练,执行顺序在本公开后续的第二轮对抗训练之前。
上述实施例中,将神经网络的训练看出是对多个优化目标的训练,自适应地从神经网络所包括的多个判别器模块中选取一个判别器模块与生成器模块一起进行对抗训练,提高了神经网络的训练效率,使得神经网络可以在多个优化目标上实现共同优化。
在一些可选实施例中,针对步骤104,在所述第一轮对抗训练中,可以根据第一奖励信号对生成器模块进行训练,在一个示例中,在调整生成器模块的网络参数时,可以保持第一判别器的网络参数不变,根据第一判别器模块提供的第一奖励信号作为策略梯度,调整生成器模块的网络参数。
在所述第一轮对抗训练中,还可以根据所述样本回复语句和所述第一回复语句,对所述第一判别器模块进行训练。在一个示例中,在调整第一判别器模块的网络参数时,可以保持生成器模块的网络参数不变,通过调整第一判别器模块的网络参数,减少样本回复语句和第一回复语句的差异。
上述实施例中,可以通过生成器模块和第一判别器模块进行第一轮对抗训练,从而实现对神经网络在第一判别器模块对应的第一优化目标上进行优化的目的。
在一些可选实施例中,例如图3所示,生成器模块可以包括编码器和解码器,其中,编码器和解码器分别可以由叠加的多层长短期记忆网络(Long Short-Term Memory,LSTM)构成,LSTM的数目可以由系统性能决定,本公开对此不作限定。系统性能包括但不限于部署该神经网络的硬件设备的中央处理器的处理速度、内存容量等,中央处理器的处理速度越快、内存容量越大,则LSTM的数目可以越多,得到的编码结果和解码结果也越准确。
相应地,例如图4所示,步骤101可以包括:
在步骤101-1中,通过叠加的多层长短期记忆网络对输入的所述样本查询语句进行编码,得到与所述样本查询语句对应的至少一个隐状态向量。
在本公开实施例中,可以通过编码器包括的叠加的多层长短期记忆网络对所述样本查询语句进行编码,得到与所述样本查询语句对应的至少一个隐状态向量。其中,隐状态向量是指样本查询语句中难以直接观测到的随机变量构成的向量,不同的隐状态向量可以对应该样本查询语句中不同的单词,例如单词1对应一个隐状态向量,单词2对应另一个隐状态向量。在步骤101-2中,再通过叠加的多层长短期记忆网络对与所述样本查询语句对应的至少一个隐状态向量进行解码后,生成所述第一回复语句。
在本公开实施例中,可以通过解码器所包括的叠加的多层长短期记忆网络,采用注意力机制,对与所述样本查询语句对应的至少一个隐状态向量进行解码,得到一个目标隐状态向量,根据目标隐状态向量对应了回复语句中关键信息的单词,再通过添加辅助性的单词,例如助词、语气词之类生成第一回复语句,例如图3所示。其中,注意力机制是指机器通过对人类阅读、听说中的注意力行为进行模拟,从而关注到关键信息的机制。
上述实施例中,可以通过生成器模块中的编码器和解码器分别所包括的叠加的多层长短期记忆网络得到第一回复语句,实现简便,可用性高。
在一些可选实施例中,神经网络包括的多个判别器模块D1、D2……DL分别对应的采样概率值为:PD1、PD2……PDL。可以按照采样分布函数π(Q)进行采样,得到的多个判别器模块分别对应的采样概率值PD1、PD2……PDL服从π(Q)函数分布。
步骤102可以包括:
根据所述采样分布函数,将所述多个判别器模块中所述采样概率值最大的判别器模块作为所述第一判别器模块。
在所述多个判别器模块中,根据所述采样分布函数,确定所述采样概率值最大的判别器模块,将该判别器模块作为第一判别器模块。
上述实施例中,可以根据采样分布函数采样得到多个判别器模块分别对应的采样概率值,将概率值最大的判别器模块作为第一轮对抗训练中采用的第一判别器模块,以实现自适应地根据采样分布函数采样判别器模块与生成器模块进行对抗训练的目的。
在一些可选实施例中,例如图5所示,步骤103可以包括:
在步骤103-1中,通过第一判别器模块从所述样本回复语句和所述第一回复语句中提取与所述第一优化目标对应的特征信息。
在本公开实施例中,第一判别器模块对应了第一优化目标,那么通过第一判别器模块可以从输入的样本回复语句和生成器模块生成的第一回复语句中,提取出与第一优化目标对应的特征信息。
其中,第一优化目标包括语言优化目标,那么对应的特征信息可以包括语言特征信息。第一优化目标包括语法优化目标,那么对应的特征信息可以包括语法特征信息。第一优化目标包括信息量优化目标,那么对应的特征信息可以包括用于衡量信息量的特征信息。
在本公开实施例中,语言优化目标是用于衡量生成器生成的回复语句中包括的单词是否准确、是否可以作为回复内容等的优化目标,相应的语言特征信息可以包括单词的构成信息(例如属于哪个词类,词类包括但不限于对单词种类的划分,例如名词、代词、形容词、数词、量词、助词、介词等)、单词的语义信息(例如该单词表示的具体内容,例如名词指代的是哪种物品、形容词具体形容了物品的大小、形状等)等特征信息。语法优化目标是用于衡量生成器生成的回复语句中单词的语法结构是否准确的优化目标,相应的语法特征信息可以包括不同单词之间的组合方式、助词的使用方式等。信息量优化目标是用于衡量生成器生成的回复语句中信息量是否达到要求的优化目标,例如让生成器生成的回复语句中尽量使用语料库中的高频单词,和/或尽量减少使用语料库中的低频单词,对应的特征信息可以通过单词的信息熵来衡量,其中,信息熵指单词的信息含量。
在步骤103-2中,根据与所述第一优化目标对应的所述特征信息,确定所述第一回复语句在所述第一优化目标上取得的第一分值。
在本公开实施例中,可以根据之前提取出的与第一优化目标对应的所述特征信息,确定生成器生成的第一回复语句在第一优化目标上取得的第一分值。其中,第一分值的范围为[0,1]。由于提取的特征信息是从样本回复语句和第一回复语句中提取的,因此,第一分值Q越接近0.5,说明生成器生成的回复语句越接近样本回复语句。
在步骤103-3中,在所述第一轮对抗训练中,将所述第一分值的变化量作为所述第一奖励信号对应的数值。
在本公开实施例中,在进行第一轮对抗训练时,可以先保持第一判别器模块的网络参数不变,调整生成器模块的网络参数,生成器模块的网络参数每发生一次改变,生成的第一回复语句在第一优化目标上取得的第一分值就会发生改变,从而可以得到每次对生成器模块的网络参数进行调整前后第一分值的变化量ΔQ。第一判别器模块在第一轮对抗训练中将ΔQ作为梯度对生成器模块的网络参数再次进行调整,从而实现在第一轮对抗训练中,对生成器模块进行训练的目的。
上述实施例中,可以通过第一判别器模块从样本回复语句和第一回复语句中提取与第一优化目标对应的特征信息,基于该特征信息,得到生成器生成的第一回复语句在第一优化目标上取得的第一分值,在进行第一轮对抗训练时,可以将第一分值的变化量作为第一奖励信号对应的数值,对生成器模块进行训练,以便让生成器模块在第一优化目标上不断提高、改进,最终可以实现在第一优化目标上让生成器生成的回复语句越来越接近样本回复语句的目的。
在一些可选实施例中,第一优化目标不同时,第一判别器模块对应的网络结构也不同,确定第一分值的过程也就不同。下边分别针对不同的第一优化目标进行介绍。
第一优化目标包括语言优化目标的情况下,步骤103-1可以包括:
通过叠加的多层长短期记忆网络从所述样本回复语句和所述第一回复语句中提取与所述语言优化目标对应的语言特征信息。
在本公开实施例中,可以通过第一判别器模块中所包括的叠加的多层长短期记忆网络提取生成器模块生成的第一回复语句中的语言特征信息。语言特征信息包括单词的构成信息、单词的语义信息等特征信息。
例如图6所示,步骤103-2可以包括:
在步骤201中,通过二分类判别器对从所述样本回复语句和所述第一回复语句中提取的所述语言特征信息进行分类,得到分类结果。
在本公开实施例中,第一判别器模块中除了包括叠加的多层长短期记忆网络之外,还可以包括二分类真假判别器,通过2类别的线性回归(softmax)层,可以对之前提取出的语言特征信息进行分类,得到的分类结果为真或假。
在步骤202中,将所述分类结果为真值的所述语言特征信息的概率值作为所述第一回复语句在所述语言优化目标上取得的所述第一分值。
在一个示例中,分类结果为真值通过Q+来表示,分类结果为假值通过Q-来表示。在本公开实施例中,目的是提高分类结果为真值的Q+对应的概率值,因此可以将Q+的概率值作为第一回复语句在所述语言优化目标上得到的第一分值。
上述实施例中,采用迭代的多层长短期记忆网络提取语言特征信息,再通过二分类判别器对提取的语音特征进行分类,根据分类结果得到第一回复语句在语言优化目标上取得的第一分值,该分值越接近0.5,说明在语言优化目标上生成器生成的假回复语句越接近真回复语句,实现了在语言优化目标上对神经网络进行优化的目的。
第一优化目标包括语法优化目标的情况下,步骤103-1可以包括:
通过预先训练好的语法图卷积神经网络,从所述样本回复语句和所述第一回复语句中提取与所述语法优化目标对应的语法特征信息。
在本公开实施例中,第一判别器模块中包括了预先训练好的语法图卷积神经网络,该语法图卷积神经网络可以提取第一回复语句中的语法特征信息。语法特征信息包括不同单词之间的组合方式、助词的使用方式等。
可以将输入语句中的单词作为图的节点,单词之间的关系作为图的边构建语法图,通过对语法图的卷积处理提取出其中的语法特征信息。语法图卷积神经网络可以采用但不限于视觉几何群网络(Visual Geometry Group Network,VGG Net)、谷歌网络(GoogleNetwork,GoogleNet)、残差网络(Resnet)等作为骨干网(backbone),以样本查询语句为输入值,样本查询语句中的语法特征标签为监督,对语法图卷积神经网络进行训练,得到训练好的语法图卷积神经网络。
相应地,步骤103-2可以包括:
对从所述样本回复语句和所述第一回复语句中提取的所述语法特征信息依次进行批正则化处理和线性回归处理,确定所述第一回复语句在所述语法优化目标上取得的所述第一分值。
在本公开实施例中,第一回复语句在所述语法优化目标上取得的第一分值ssyn可以根据以下公式1得到:
ssyn=σ(BN(Wsesyn+bs)), 公式1
在本公开实施例中,线性回归函数包括但不限于任意一个取值范围[0,1]的函数,例如可以采用sigmoid函数。
上述实施例中,可以通过预先训练好的语法图卷积神经网络提取语法特征信息,通过对提取的语法特征信息依次进行批正则化处理和线性回归处理,确定第一回复语句在语法优化目标上取得的第一分值,实现了在语法优化目标上对神经网络进行优化的目的。
第一优化目标包括信息量优化目标的情况下,步骤103-1可以包括:
在步骤103-11中,确定所述样本回复语句和所述第一回复语句中包括的多个单词所对应的信息熵。
在本公开实施例中,样本回复语句和第一回复语句中可以包括多个单词,每个单词对应的信息熵可以通过该单词在语料库中出现的频率来衡量。
在步骤103-12中,将所述多个单词所对应的信息熵作为与所述信息量优化目标对应的特征信息。
相应地,步骤103-2可以包括:
将所述多个单词所对应的信息熵的平均值作为所述第一回复语句在所述信息量优化目标上取得的所述第一分值。
在本公开实施例中,所述第一回复语句在所述信息量优化目标上取得的所述第一分值Sinfo可以用公式2表示:
其中,I(wi)是单词wi的信息熵,I(wi)=-log p(wi),p(wi)是单词wi出现的频率,wmin和wmax分别代表出现在语料库中频率最少和最多的单词,n是样本回复语句和第一回复语句中出现的单词的总数目。
上述实施例中,可以将样本回复语句和第一回复语句中包括的多个单词所对应的信息熵作为信息量优化目标对应的特征信息,进一步地,将多个单词所对应的信息熵的平均值作为所述第一回复语句在所述信息量优化目标上取得的所述第一分值,从而实现了在信息量优化目标上对神经网络进行优化的目的。
本公开实施例针对不同的第一优化目标,第一判别器模块对应的网络结构不同,且第一回复语句在相应的第一优化目标上取得的所述第一分值的确定方式也不同,从而可以针对不同优化目标,实现对神经网络在多个优化目标上的共同优化。
在一些可选实施例中,例如图7所示,上述方法还可以包括:
在步骤105中,响应于确定需要进行第二轮对抗训练,将所述样本查询语句输入经过所述第一轮对抗训练后得到的所述生成器模块,得到第二回复语句。
在本公开实施例中,第二轮对抗训练是在第一轮对抗训练结束后进行的下一轮的对抗训练。在第二轮对抗训练中,再次将样本查询语句输入生成器模块,得到第二回复语句。
在步骤106中,在所述多个判别器模块中,确定所述第二轮对抗训练采用的第二判别器模块。
在本公开实施例中,同样可以根据对应的采样分布函数,将多个判别器模块中采样概率值最大的判别器模块作为第二判别器模块。其中,第二判别器模块可以与第一轮对抗训练采用的第一判别器模块相同或不同。如果相同,说明经过第一轮对抗训练,生成器模块生成的回复语句在第一优化目标上未达到训练要求,还需要在第一优化目标继续进行第二轮对抗训练。如果第二判别器模块与第一判别器模块不同,说明经过第一轮对抗训练,生成器模块生成的回复语句在第一优化目标上达到训练要求,可以在其他优化目标上继续进行对抗训练。
在步骤107中,根据所述样本回复语句和所述第二回复语句,确定所述第二判别器模块在对应的第二优化目标上产生的第二奖励信号。
在本公开实施例中,确定第二奖励信号的方式与步骤103中确定第一奖励信号的方式相同,在此不再赘述。
在步骤108中,在所述第二轮对抗训练中,根据所述样本回复语句、所述第二回复语句、所述第二奖励信号,对所述神经网络进行训练。
在本公开实施例中,第二轮对抗训练是在第二判别器模块和生成器模块之间进行的对抗训练,训练方式与步骤104的训练方式相同,在此不再赘述。
经过不断重复上述过程,在不同判别器模块和生成器模块之间进行对抗训练,最终可以使得神经网络在多个优化目标上实现共同优化。
在一些可选实施例中,可以在以下任意一种情况下确定需要进行下一轮对抗训练。
第一种情况,例如图8所示,上述方法还可以包括:
在步骤109中,响应于经过所述第一轮对抗训练后,所述生成器模块生成的回复语句在所述不同优化目标中的指定优化目标上取得的第三分值小于第一预设阈值,确定需要进行第二轮对抗训练。
在本公开实施例中,指定优化目标是在所述多个判别器模块对应的不同优化目标中预先指定的任一个优化目标,是对神经网络训练时最希望达成的优化目标。如果经过第一轮对抗训练,生成器模块生成的回复语句在这个指定优化目标上取得的第三分值小于第一预设阈值,那么说明经过第一轮对抗训练后,生成器模块生成的回复语句仍然无法满足指定优化目标的要求,因此需要进行第二轮对抗训练。确定第三分值的方式与上述确定第一分值的方式相同,在此不再赘述。
第二种情况,上述方法还可以包括:
在步骤110中,响应于经过所述第一轮对抗训练后,所述生成器模块生成的回复语句在所述不同优化目标上取得的平均分值小于第二预设阈值,确定需要进行第二轮对抗训练。
在本公开实施例中,可以将图8所示的步骤109替换为110,分别确定经过第一轮对抗训练后,生成器模块生成的回复语句在每个判别器模块对应的优化目标上取得的分值,这些分值的平均值作为该回复语句在所述不同优化目标上取得的平均分值。如果该平均分值小于第二预设阈值,说明生成器生成的回复语句在多个优化方面的综合指标无法满足要求,需要进行第二轮对抗训练。
在一些可选实施例中,例如图9所示,上述方法还可以包括:
在步骤111中,对所述多个判别器模块对应的采样概率值所满足的采样分布函数进行更新。
在本公开实施例中,经过第一轮对抗训练,可以对采样分布函数π(Q)进行更新,这样在进行第二轮对抗训练时,可以根据更新后的采样分布函数,从中选择采样概率值最大的判别器模块作为第二判别器模块。
在一些可选实施例中,例如图10所示,步骤111可以包括:
在步骤111-1中,确定所述生成器模块生成的回复语句在经过所述第一轮对抗训练前后在不同优化目标上分别取得的分值的变化量。
在本公开实施例中,在进行第一轮对抗训练之前,生成器模块生成的回复语句在不同优化目标上都可以确定对应的分值,经过第一轮对抗训练之后,生成器模块生成的回复语句在每个优化目标上也可以取得对应的分值,分别计算同一优化目标上分值的变化量,从而可以得到生成器模块生成的回复语句在经过所述第一轮对抗训练前后在不同优化目标上取得的分值的变化量。
在步骤111-2中,在所述采样分布函数中,根据所述不同优化目标上分别取得的分值的变化量,调整所述不同优化目标分别对应的判别器模块的分布概率值。
在本公开实施例中,如果某个优化目标上取得的分值的变化量减小,可以在采样分布函数中,减小该优化目标对应的判别器模块的分布概率值,如果某个优化目标上取得的分值的变化量增加,可以在采样分布函数中,增加该优化目标对应的判别器模块的分布概率值。
通过不断调整采样分布函数,可以自适应地在每轮对抗训练中选择最合适的判别器模块与生成器模块进行对抗训练,每个判别器模块对应一个优化目标,通过对多个判别器模块与生成器模块之间的对抗训练,可以使得神经网络可以在多个优化目标上实现共同优化。
下面结合神经网络的网络结构对本公开提供的训练过程进一步说明如下。
神经网络的网络结构如图11所示。将样本查询语句输入生成器模块Gθ,生成器模块中的编码器对样本查询语句进行编码,得到至少一个隐状态向量,进一步地,通过生成器模块中的解码器对至少一个隐状态向量进行解码,可以得到蒙特卡洛输出,即第一回复语句。
将第一回复语句和样本回复语句同步输入判别器模块,根据采样分布函数在多个判别器模块中确定采样概率值最大的判别器模块作为第一判别器模块,假设为Dl。第一回复语句在不同判别器模块中会取得不同分值,分别用Q1、Q2、……QL来表示。在本公开实施例中,将第一轮对抗训练中第一判别器模块Dl上取得的分值Ql的变化量ΔQl来表示第一激励信号的数值,从而在第一轮对抗训练中对生成器模块进行训练,另外还可以根据样本回复语句和第一回复语句,在第一轮对抗训练中对第一判别器模块Dm进行训练。
在本轮对抗训练结束后,可以更新采样分布函数,从而在第二轮对抗训练中,根据更新后的采样分布函数,确定第二判别器模块,对第二判别器模块和生成器模块进行第二轮对抗训练。
在本公开实施例中,对抗训练的过程可以采用极大极小优化方式,用公式3描述如下:
其中,Gθ是生成器模块,Dl是第i个判别器模块,M是判别器模块的总数目,x是样本回复语句,pz(z)是假回复数据满足的分布函数,z是从pz(z)中采样得到的假回复数据,生成器模块Gθ将z映射为满足分布函数pg的假回复语句,判别器模块对应的采样概率值满足采样分布函数π(Q),E(*)表示随机变量的期望。
根据采样分布函数π(Q),将采样概率值中最大的判别器模块作为每轮对抗训练中选取的判别器模块,可以通过以下公式4描述:
max J(θ)=[JD1(θ),JD2(θ)...JDN(θ)]T 公式4
其中,m是生成器模块进行蒙特卡洛搜索的第m个单词,M是生成器模块进行蒙特卡洛搜索的单词总数目,s=Y1:t-1是当前状态,yt是下一个行为(action),在本公开实施例中,具体到单词(token)序列就是下一个token,Y是当前t-1时刻已经生产的token序列,该token序列的长度为t-1。
神经网络包括的多个判别器模块D1、D2……DL分别对应不同的优化目标,判别器模块对应的采样概率值分别为:PD1、PD2……PDL,这些采样概率值满足采样分布函数π(Q)。则公式4可以转换为公式5:
max J(θ)=ED~π(Q)JD(θ) 公式5
上述实施例中,可以通过自适应机制在每轮对抗训练结束后调整采样分布函数,以便确定下一轮对抗训练中采用的判别器模块,由于不同判别器模块对应不同优化目标,通过多轮对抗训练后,可以使得神经网络在多个优化目标上实现共同优化,提高了神经网络的训练效率。
在一些可选实施例中,例如图12所示,提供了另一种神经网络的训练方法,包括以下步骤:
在步骤301中,将样本查询语句输入所述生成器模块,得到回复语句。
在本公开实施例中,生成器模块生成的回复语句作为假回复语句。
在步骤302中,在多个判别器模块中,确定本轮对抗训练采用的目标判别器模块。
确定方式与上述步骤102的方式相同,可以根据上一轮对抗训练后更新的采样分布函数进行采样,将采样概率值最大的判别器模块作为目标判别器模块。
在步骤303中,获取与所述样本查询语句对应的样本回复语句,并根据所述样本回复语句和所述生成器模块生成的回复语句,确定目标判别器模块在对应的优化目标上产生的目标奖励信号。
在本公开实施例中,与样本查询语句对应的样本回复语句作为真回复语句,根据真假回复语句,可以在生成器模块的网络参数每发生一次改变后,确定假回复语句在目标判别器模块对应的优化目标上取得的分值的变化量,从而将其作为目标奖励信号对应的数值。
在步骤304中,在本轮对抗训练中,根据所述样本回复语句、所述生成器模块生成的回复语句、所述目标奖励信号,对所述神经网络进行训练。
在本公开实施例中,可以采用与步骤104相同的对抗训练方式进行本轮对抗训练,本轮对抗训练中包括但不限于对生成器模块和目标判别器模块进行至少一次网络参数的调整。
在步骤305中,对所述多个判别器模块对应的采样概率值所满足的采样分布函数进行更新。
响应于满足预设的停止迭代训练条件,终止对神经网络的迭代训练,否则返回执行上述步骤301。
在本公开实施例中,如果经过本轮对抗训练,生成器生成的假回复语句在指定优化目标上取得的分值达到第一预设阈值,那么确定满足停止迭代训练条件。或者如果经过本轮对抗训练,生成器生成的假回复语句在不同优化目标上取得的平均分达到第二预设阈值,那么确定满足停止迭代训练条件。
例如,在对神经网络的训练过程中,判别器模块包括3个,分别对应了语言优化目标、语法优化目标、信息量优化目标。该神经网络后续希望部署在移动终端上,指定优化目标包括语言优化目标,那么可以在每轮对抗训练时选择3个判别器中的任一个作为目标判别器模块,与生成器模块一起进行对抗训练,每经过一轮对抗训练都确定一下此轮对抗训练前后,生成器模块生成的假回复语句在语言优化目标上取得的分值,如果该分值达到了第一预设阈值,说明该神经网络已经在语言优化目标上达到预期效果,此时可以不再进行下一轮对抗训练,如果该分值未达到第一预设阈值,那么还需要继续进行下一轮对抗训练,直到在语言优化目标上达到预期效果。
可以看出,在对神经网络进行多轮对抗训练后,不仅在语言优化目标上实现了优化,也在另外两个优化目标上实现了共同优化,提高了神经网络的训练效率,使得训练完成后的神经网络还可以在预先指定的语言优化目标上达到了预期效果,终端持有者在输入查询语句后,可以得到更接近真实的回复语句,尤其在语言优化目标方面更加突出。
同样地,如果迭代训练条件为平均分值达到第二预设阈值,那么每经过一轮对抗训练,可以确定生成器模块生成的假回复语句在上述3个优化目标上取得的分值,计算平均分值,并在平均分值达到第二预设阈值的情况下停止对神经网络的训练。
上述实施例中,可以对神经网络所包括的生成器模块和每轮对抗训练采用的目标判别器模块进行对抗训练,多个判别器模块对应不同优化目标,提高了神经网络的训练效率的同时,使得神经网络可以在多个优化目标上实现共同优化。
在一些可选实施例中,例如图13所示,还提供了一种对话生成方法,包括:
在步骤401中,获取用户输入的查询语句。
在步骤402中,将所述查询语句输入预先训练好的神经网络包括的生成器模块,得到与所述查询语句对应的回复语句。
其中,神经网络是采用上述训练方法得到的。
神经网络在训练完成后,实现了在多个优化目标上的共同优化,在进行预测的阶段,可以将用户输入的查询语句直接输入神经网络所包括的生成器模块,由训练完成后的神经网络的生成器模块输出对应的回复语句。
上述实施例中,可以基于多个优化目标训练得到的神经网络生成对应的回复语句,使得对话生成过程更加符合业务逻辑,可用性高。
例如,用户希望通过电话修改银行业务,目前一般重要的业务都需要人工客服来进行服务,机器人客服只能提供较为简单的服务,且服务过程与用户的对话都较为生硬,例如“请输入银行卡号或密码”,让用户很明显感受到对面是冰冷的机器人客服。
采用本公开实施例提供的神经网络训练方法可以采集真实的人工客服与用户之间的对话,将这些对话作为样本语句集合,并根据其中的样本查询语句、与样本查询语句对应的样本回复语句和生成器模块生成的回复语句,每轮对抗训练在多个判别器模块中选择一个与生成器模块一起进行对抗训练,由于多个判别器模块对应了不同优化目标,经过多轮对抗训练后可以实现在多个优化目标上对神经网络的共同优化,这样训练完成的神经网络在获取到用户真实输入的查询语句后,可以尽可能地让神经网络生成的回复语句做到以假乱真,不仅可以通过机器人客服取代人工客服,还可以为用户提供更好的感受,让对话过程更加真实、自然。
再例如,可以将上述神经网络部署在移动终端上,从而实现类似终端助手的功能。通过本公开实施例的训练方法得到的神经网络,可以让终端持有者与终端助手之间的对话更加真实、自然,尽量避免出现类似“对不起,我不知道你说了什么”的情况。另外,在采集样本语句集合时,可以采集包括流行语的对话,这样可以在终端助手与终端持有者的对话过程中,加入流行元素,让终端持有者感受到对话的乐趣。
与前述方法实施例相对应,本公开还提供了装置的实施例。
如图14所示,图14是本公开根据一示例性实施例示出的一种神经网络的训练装置框图,所述神经网络包括生成器模块以及多个判别器模块,其中,多个判别器模块对应不同优化目标,所述装置包括:第一生成模块510,用于将样本查询语句输入所述生成器模块,得到第一回复语句;第一确定模块520,用于在所述多个判别器模块中,确定第一轮对抗训练采用的第一判别器模块;第二确定模块530,用于获取与所述样本查询语句对应的样本回复语句,并根据所述样本回复语句和所述第一回复语句,确定所述第一判别器模块在对应的第一优化目标上产生的第一奖励信号;第一训练模块540,用于在所述第一轮对抗训练中,根据所述样本回复语句、所述第一回复语句、所述第一奖励信号,对所述神经网络进行训练。
在一些可选实施例中,所述第一训练模块包括如下至少一项:第一训练子模块,用于在所述第一轮对抗训练中,根据所述第一奖励信号,对所述生成器模块进行训练;第二训练子模块,用于在所述第一轮对抗训练中,根据所述样本回复语句和所述第一回复语句,对所述第一判别器模块进行训练。
在一些可选实施例中,所述第一生成模块包括:编码子模块,用于通过叠加的多层长短期记忆网络对输入的所述样本查询语句进行编码,得到与所述样本查询语句对应的至少一个隐状态向量;解码子模块,用于再通过叠加的多层长短期记忆网络对与所述样本查询语句对应的至少一个隐状态向量进行解码后,得到所述第一回复语句。
在一些可选实施例中,所述多个判别器模块对应的采样概率值满足采样分布函数;所述第一确定模块包括:第一确定子模块,用于根据所述采样分布函数,将所述多个判别器模块中所述采样概率值最大的判别器模块作为所述第一判别器模块。
在一些可选实施例中,所述第二确定模块包括:提取子模块,用于通过第一判别器模块从所述样本回复语句和所述第一回复语句中提取与所述第一优化目标对应的特征信息;第二确定子模块,用于根据与所述第一优化目标对应的所述特征信息,确定所述第一回复语句在所述第一优化目标上取得的第一分值;第三确定子模块,用于在所述第一轮对抗训练中,将所述第一分值的变化量作为所述第一奖励信号对应的数值。
在一些可选实施例中,所述第一优化目标包括语言优化目标;所述提取子模块包括:第一提取单元,用于通过叠加的多层长短期记忆网络从所述样本回复语句和所述第一回复语句中提取与所述语言优化目标对应的语言特征信息;所述第二确定子模块包括:分类单元,用于通过二分类判别器对从所述样本回复语句和所述第一回复语句中提取的所述语言特征信息进行分类,得到分类结果;第一确定单元,用于将所述分类结果为真值的所述语言特征信息的概率值作为所述第一回复语句在所述语言优化目标上取得的所述第一分值。
在一些可选实施例中,所述第一优化目标包括语法优化目标;所述提取子模块包括:第二提取单元,用于通过预先训练好的语法图卷积神经网络,从所述样本回复语句和所述第一回复语句中提取与所述语法优化目标对应的语法特征信息;所述第二确定子模块包括:第二确定单元,用于对从所述样本回复语句和所述第一回复语句中提取的所述语法特征信息依次进行批正则化处理和线性回归处理,确定所述第一回复语句在所述语法优化目标上取得的所述第一分值。
在一些可选实施例中,所述第一优化目标包括信息量优化目标;所述通提取子模块包括:第三确定单元,用于确定所述样本回复语句和所述第一回复语句中包括的多个单词所对应的信息熵;第四确定单元,用于将所述多个单词所对应的信息熵作为与所述信息量优化目标对应的特征信息;所述第二确定子模块包括:第五确定单元,用于将所述多个单词所对应的信息熵的平均值作为所述第一回复语句在所述信息量优化目标上取得的所述第一分值。
在一些可选实施例中,所述装置还包括:第三生成模块,用于响应于确定需要进行第二轮对抗训练,将所述样本查询语句输入经过所述第一轮对抗训练后得到的所述生成器模块,得到第二回复语句;第三确定模块,用于在所述多个判别器模块中,确定所述第二轮对抗训练采用的第二判别器模块;第四确定模块,用于根据所述样本回复语句和所述第二回复语句,确定所述第二判别器模块在对应的第二优化目标上产生的第二奖励信号;第二训练模块,用于在所述第二轮对抗训练中,根据所述样本回复语句、所述第二回复语句、所述第二奖励信号,对所述神经网络进行训练。
在一些可选实施例中,所述装置还包括:第五确定模块,用于经过所述第一轮对抗训练后,所述生成器模块生成的回复语句在所述不同优化目标中的指定优化目标上取得的第三分值小于第一预设阈值,确定需要进行所述第二轮对抗训练;或响应于经过所述第一轮对抗训练后,所述生成器模块生成的回复语句在所述不同优化目标上取得的平均分值小于第二预设阈值,确定需要进行第二轮对抗训练。
在一些可选实施例中,所述装置还包括:更新模块,用于对所述多个判别器模块对应的采样概率值所满足的采样分布函数进行更新;所述第三确定模块包括:第四确定子模块,用于根据更新后的所述采样分布函数,将所述多个判别器模块中更新后的采样概率值最大的判别器模块作为所述第二判别器模块。
在一些可选实施例中,所述更新模块包括:第五确定子模块,用于确定所述生成器模块生成的回复语句在经过所述第一轮对抗训练前后在不同优化目标上分别取得的分值的变化量;更新子模块,用于在所述采样分布函数中,根据所述不同优化目标上分别取得的分值的变化量,调整所述不同优化目标分别对应的判别器模块的分布概率值。
如图15所示,图15是本公开根据一示例性实施例示出的一种对话生成装置框图,所述装置包括:获取模块610,用于获取用户输入的查询语句;第二生成模块620,用于将所述查询语句输入预先训练好的神经网络包括的生成器模块,得到与所述查询语句对应的回复语句;其中,所述神经网络是采用上述任一项所述的方法训练得到。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本公开实施例还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行上述任一所述的神经网络的训练方法或对话生成方法。
在一些可选实施例中,本公开实施例提供了一种计算机程序产品,包括计算机可读代码,当计算机可读代码在设备上运行时,设备中的处理器执行用于实现如上任一实施例提供的神经网络的训练方法或对话生成方法的指令。
在一些可选实施例中,本公开实施例还提供了另一种计算机程序产品,用于存储计算机可读指令,指令被执行时使得计算机执行上述任一实施例提供的神经网络的训练方法或对话生成方法的操作。
该计算机程序产品可以具体通过硬件、软件或其结合的方式实现。在一个可选实施例中,所述计算机程序产品具体体现为计算机存储介质,在另一个可选实施例中,计算机程序产品具体体现为软件产品,例如软件开发包(Software Development Kit,SDK)等等。
本公开实施例还提供了一种神经网络的训练装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为调用所述存储器中存储的可执行指令,实现上述任一项所述的神经网络的训练方法。
图16为本公开实施例提供的一种神经网络的训练装置的硬件结构示意图。该神经网络的训练装置710包括处理器711,还可以包括输入装置712、输出装置716和存储器714。该输入装置712、输出装置716、存储器714和处理器711之间通过总线相互连接。
存储器包括但不限于是随机存储记忆体(random access memory,RAM)、只读存储器(read-only memory,ROM)、可擦除可编程只读存储器(erasable programmable readonly memory,EPROM)、或便携式只读存储器(compact disc read-only memory,CD-ROM),该存储器用于相关指令及数据。
输入装置用于输入数据和/或信号,以及输出装置用于输出数据和/或信号。输出装置和输入装置可以是独立的器件,也可以是一个整体的器件。
处理器可以包括是一个或多个处理器,例如包括一个或多个中央处理器(centralprocessing unit,CPU),在处理器是一个CPU的情况下,该CPU可以是单核CPU,也可以是多核CPU。
存储器用于存储网络设备的程序代码和数据。
处理器用于调用该存储器中的程序代码和数据,执行上述方法实施例中的步骤。具体可参见方法实施例中的描述,在此不再赘述。
可以理解的是,图16仅仅示出了一种神经网络的训练装置的简化设计。在实际应用中,神经网络的训练装置还可以分别包含必要的其他元件,包含但不限于任意数量的输入/输出装置、处理器、控制器、存储器等,而所有可以实现本公开实施例的神经网络的训练装置都在本公开的保护范围之内。
本公开实施例还提供了一种对话生成装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,处理器被配置为调用所述存储器中存储的可执行指令,实现上述任一项所述的对话生成方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本公开的其它实施方案。本公开旨在涵盖本公开的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或者惯用技术手段。说明书和实施例仅被视为示例性的,本公开的真正范围和精神由下面的权利要求指出。
以上所述仅为本公开的较佳实施例而已,并不用以限制本公开,凡在本公开的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本公开保护的范围之内。
Claims (18)
1.一种神经网络的训练方法,其特征在于,所述神经网络包括生成器模块以及多个判别器模块,其中,多个判别器模块对应不同优化目标,所述方法包括:
将样本查询语句输入所述生成器模块,得到第一回复语句;
在所述多个判别器模块中,确定第一轮对抗训练采用的第一判别器模块;
获取与所述样本查询语句对应的样本回复语句,并根据所述样本回复语句和所述第一回复语句,确定所述第一判别器模块在对应的第一优化目标上产生的第一奖励信号;
在所述第一轮对抗训练中,根据所述样本回复语句、所述第一回复语句、所述第一奖励信号,对所述神经网络进行训练。
2.根据权利要求1所述的方法,其特征在于,所述在所述第一轮对抗训练中,根据所述样本回复语句、所述第一回复语句、所述第一奖励信号,对所述神经网络进行训练,包括如下至少一项:
在所述第一轮对抗训练中,根据所述第一奖励信号,对所述生成器模块进行训练;
在所述第一轮对抗训练中,根据所述样本回复语句和所述第一回复语句,对所述第一判别器模块进行训练。
3.根据权利要求1或2所述的方法,其特征在于,所述将样本查询语句输入所述生成器模块,得到第一回复语句,包括:
通过叠加的多层长短期记忆网络对输入的所述样本查询语句进行编码,得到与所述样本查询语句对应的至少一个隐状态向量;
再通过叠加的多层长短期记忆网络对与所述样本查询语句对应的至少一个隐状态向量进行解码后,得到所述第一回复语句。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述多个判别器模块对应的采样概率值满足采样分布函数;
所述在所述多个判别器模块中,确定第一轮对抗训练采用的第一判别器模块,包括:
根据所述采样分布函数,将所述多个判别器模块中所述采样概率值最大的判别器模块作为所述第一判别器模块。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述根据所述样本回复语句和所述第一回复语句,确定所述第一判别器模块在对应的第一优化目标上产生的第一奖励信号,包括:
通过第一判别器模块从所述样本回复语句和所述第一回复语句中提取与所述第一优化目标对应的特征信息;
根据与所述第一优化目标对应的所述特征信息,确定所述第一回复语句在所述第一优化目标上取得的第一分值;
在所述第一轮对抗训练中,将所述第一分值的变化量作为所述第一奖励信号对应的数值。
6.根据权利要求5所述的方法,其特征在于,所述第一优化目标包括语言优化目标;
所述通过第一判别器模块从所述样本回复语句和所述第一回复语句中提取与所述第一优化目标对应的特征信息,包括:
通过叠加的多层长短期记忆网络从所述样本回复语句和所述第一回复语句中提取与所述语言优化目标对应的语言特征信息;
所述根据与所述第一优化目标对应的所述特征信息,确定所述第一回复语句在所述第一优化目标上取得的第一分值,包括:
通过二分类判别器对从所述样本回复语句和所述第一回复语句中提取的所述语言特征信息进行分类,得到分类结果;
将所述分类结果为真值的所述语言特征信息的概率值作为所述第一回复语句在所述语言优化目标上取得的所述第一分值。
7.根据权利要求5所述的方法,其特征在于,所述第一优化目标包括语法优化目标;
所述通过第一判别器模块从所述样本回复语句和所述第一回复语句中提取与所述第一优化目标对应的特征信息,包括:
通过预先训练好的语法图卷积神经网络,从所述样本回复语句和所述第一回复语句中提取与所述语法优化目标对应的语法特征信息;
所述根据与所述第一优化目标对应的所述特征信息,确定所述第一回复语句在所述第一优化目标上取得的第一分值,包括:
对从所述样本回复语句和所述第一回复语句中提取的所述语法特征信息依次进行批正则化处理和线性回归处理,确定所述第一回复语句在所述语法优化目标上取得的所述第一分值。
8.根据权利要求5所述的方法,其特征在于,所述第一优化目标包括信息量优化目标;
所述通过第一判别器模块从所述样本回复语句和所述第一回复语句中提取与所述第一优化目标对应的特征信息,包括:
确定所述样本回复语句和所述第一回复语句中包括的多个单词所对应的信息熵;
将所述多个单词所对应的信息熵作为与所述信息量优化目标对应的特征信息;
所述根据与所述第一优化目标对应的所述特征信息,确定所述第一回复语句在所述第一优化目标上取得的第一分值,包括:
将所述多个单词所对应的信息熵的平均值作为所述第一回复语句在所述信息量优化目标上取得的所述第一分值。
9.根据权利要求1-8任一项所述的方法,其特征在于,所述方法还包括:
响应于确定需要进行第二轮对抗训练,将所述样本查询语句输入经过所述第一轮对抗训练后得到的所述生成器模块,得到第二回复语句;
在所述多个判别器模块中,确定所述第二轮对抗训练采用的第二判别器模块;
根据所述样本回复语句和所述第二回复语句,确定所述第二判别器模块在对应的第二优化目标上产生的第二奖励信号;
在所述第二轮对抗训练中,根据所述样本回复语句、所述第二回复语句、所述第二奖励信号,对所述神经网络进行训练。
10.根据权利要求9所述的方法,其特征在于,所述方法还包括:
响应于经过所述第一轮对抗训练后,所述生成器模块生成的回复语句在所述不同优化目标中的指定优化目标上取得的第三分值小于第一预设阈值,确定需要进行所述第二轮对抗训练;或
响应于经过所述第一轮对抗训练后,所述生成器模块生成的回复语句在所述不同优化目标上取得的平均分值小于第二预设阈值,确定需要进行第二轮对抗训练。
11.根据权利要求9或10所述的方法,其特征在于,所述方法还包括:
对所述多个判别器模块对应的采样概率值所满足的采样分布函数进行更新;
所述在所述多个判别器模块中,确定所述下第二轮对抗训练中采用的第二判别器模块,包括:
根据更新后的所述采样分布函数,将所述多个判别器模块中更新后的采样概率值最大的判别器模块作为所述第二判别器模块。
12.根据权利要求11所述的方法,其特征在于,所述对所述多个判别器模块对应的采样概率值所满足的采样分布函数进行更新,包括:
确定所述生成器模块生成的回复语句在经过所述第一轮对抗训练前后在不同优化目标上分别取得的分值的变化量;
在所述采样分布函数中,根据所述不同优化目标上分别取得的分值的变化量,调整所述不同优化目标分别对应的判别器模块的分布概率值。
13.一种对话生成方法,其特征在于,包括:
获取用户输入的查询语句;
将所述查询语句输入预先训练好的神经网络包括的生成器模块,得到与所述查询语句对应的回复语句;其中,所述神经网络是采用权利要求1-12任一项所述的方法训练得到。
14.一种神经网络的训练装置,其特征在于,所述神经网络包括生成器模块以及多个判别器模块,其中,多个判别器模块对应不同优化目标,所述装置包括:
第一生成模块,用于将样本查询语句输入所述生成器模块,得到第一回复语句;
第一确定模块,用于在所述多个判别器模块中,确定第一轮对抗训练采用的第一判别器模块;
第二确定模块,用于获取与所述样本查询语句对应的样本回复语句,并根据所述样本回复语句和所述第一回复语句,确定所述第一判别器模块在对应的第一优化目标上产生的第一奖励信号;
第一训练模块,用于在所述第一轮对抗训练中,根据所述样本回复语句、所述第一回复语句、所述第一奖励信号,对所述神经网络进行训练。
15.一种对话生成装置,其特征在于,所述装置包括:
获取模块,用于获取用户输入的查询语句;
第二生成模块,用于将所述查询语句输入预先训练好的神经网络包括的生成器模块,得到与所述查询语句对应的回复语句;其中,所述神经网络是采用权利要求1-12任一项所述的方法训练得到。
16.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-12任一所述的神经网络的训练方法或权利要求13所述的对话生成方法。
17.一种神经网络的训练装置,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现权利要求1-12中任一项所述的神经网络的训练方法。
18.一种对话生成装置,其特征在于,包括:
处理器;
用于存储所述处理器可执行指令的存储器;
其中,所述处理器被配置为调用所述存储器中存储的可执行指令,实现权利要求13所述的对话生成方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010620299.6A CN111783955A (zh) | 2020-06-30 | 2020-06-30 | 神经网络的训练、对话生成方法及装置、存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010620299.6A CN111783955A (zh) | 2020-06-30 | 2020-06-30 | 神经网络的训练、对话生成方法及装置、存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111783955A true CN111783955A (zh) | 2020-10-16 |
Family
ID=72760052
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010620299.6A Pending CN111783955A (zh) | 2020-06-30 | 2020-06-30 | 神经网络的训练、对话生成方法及装置、存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111783955A (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347699A (zh) * | 2020-11-24 | 2021-02-09 | 北京圣涛平试验工程技术研究院有限责任公司 | 多智能体对抗神经网络训练方法及装置 |
CN113276119A (zh) * | 2021-05-25 | 2021-08-20 | 清华大学深圳国际研究生院 | 一种基于图Wasserstein自编码网络的机器人运动规划方法及系统 |
CN113535911A (zh) * | 2020-12-03 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 奖励模型处理方法、电子设备、介质和计算机程序产品 |
CN115292467A (zh) * | 2022-08-10 | 2022-11-04 | 北京百度网讯科技有限公司 | 信息处理与模型训练方法、装置、设备、介质及程序产品 |
Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109684912A (zh) * | 2018-11-09 | 2019-04-26 | 中国科学院计算技术研究所 | 一种基于信息损失函数的视频描述方法和系统 |
CN110414003A (zh) * | 2019-07-29 | 2019-11-05 | 清华大学 | 建立文本生成模型的方法、装置、介质和计算设备 |
US20200019642A1 (en) * | 2018-07-12 | 2020-01-16 | International Business Machines Corporation | Question Answering Using Trained Generative Adversarial Network Based Modeling of Text |
CN110796253A (zh) * | 2019-11-01 | 2020-02-14 | 中国联合网络通信集团有限公司 | 生成对抗网络的训练方法及设备 |
CN111160512A (zh) * | 2019-12-04 | 2020-05-15 | 华东师范大学 | 基于生成式对抗网络构建双判别器对话生成模型的方法 |
CN111199149A (zh) * | 2019-12-17 | 2020-05-26 | 航天信息股份有限公司 | 一种对话系统的语句智能澄清方法及系统 |
CN111291558A (zh) * | 2020-01-17 | 2020-06-16 | 合肥工业大学 | 一种基于非成对学习的图像描述自动评价方法 |
-
2020
- 2020-06-30 CN CN202010620299.6A patent/CN111783955A/zh active Pending
Patent Citations (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20200019642A1 (en) * | 2018-07-12 | 2020-01-16 | International Business Machines Corporation | Question Answering Using Trained Generative Adversarial Network Based Modeling of Text |
CN109684912A (zh) * | 2018-11-09 | 2019-04-26 | 中国科学院计算技术研究所 | 一种基于信息损失函数的视频描述方法和系统 |
CN110414003A (zh) * | 2019-07-29 | 2019-11-05 | 清华大学 | 建立文本生成模型的方法、装置、介质和计算设备 |
CN110796253A (zh) * | 2019-11-01 | 2020-02-14 | 中国联合网络通信集团有限公司 | 生成对抗网络的训练方法及设备 |
CN111160512A (zh) * | 2019-12-04 | 2020-05-15 | 华东师范大学 | 基于生成式对抗网络构建双判别器对话生成模型的方法 |
CN111199149A (zh) * | 2019-12-17 | 2020-05-26 | 航天信息股份有限公司 | 一种对话系统的语句智能澄清方法及系统 |
CN111291558A (zh) * | 2020-01-17 | 2020-06-16 | 合肥工业大学 | 一种基于非成对学习的图像描述自动评价方法 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112347699A (zh) * | 2020-11-24 | 2021-02-09 | 北京圣涛平试验工程技术研究院有限责任公司 | 多智能体对抗神经网络训练方法及装置 |
CN113535911A (zh) * | 2020-12-03 | 2021-10-22 | 腾讯科技(深圳)有限公司 | 奖励模型处理方法、电子设备、介质和计算机程序产品 |
CN113535911B (zh) * | 2020-12-03 | 2024-04-12 | 腾讯科技(深圳)有限公司 | 奖励模型处理方法、电子设备、介质和计算机程序产品 |
CN113276119A (zh) * | 2021-05-25 | 2021-08-20 | 清华大学深圳国际研究生院 | 一种基于图Wasserstein自编码网络的机器人运动规划方法及系统 |
CN115292467A (zh) * | 2022-08-10 | 2022-11-04 | 北京百度网讯科技有限公司 | 信息处理与模型训练方法、装置、设备、介质及程序产品 |
CN115292467B (zh) * | 2022-08-10 | 2023-10-27 | 北京百度网讯科技有限公司 | 信息处理与模型训练方法、装置、设备、介质及程序产品 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN108681610B (zh) | 生成式多轮闲聊对话方法、系统及计算机可读存储介质 | |
CN111783955A (zh) | 神经网络的训练、对话生成方法及装置、存储介质 | |
CN111916111B (zh) | 带情感的智能语音外呼方法及装置、服务器、存储介质 | |
CN109508377A (zh) | 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质 | |
CN108228576B (zh) | 文本翻译方法及装置 | |
CN110069612B (zh) | 一种回复生成方法及装置 | |
CN111914067A (zh) | 中文文本匹配方法及系统 | |
CN110706692A (zh) | 儿童语音识别模型的训练方法及系统 | |
CN113314119B (zh) | 语音识别智能家居控制方法及装置 | |
CN110597968A (zh) | 一种回复选择方法及装置 | |
CN112837669B (zh) | 语音合成方法、装置及服务器 | |
CN115497465B (zh) | 语音交互方法、装置、电子设备和存储介质 | |
CN113919319B (zh) | 基于动作场景强化的脚本事件预测方法 | |
CN112669845A (zh) | 语音识别结果的校正方法及装置、电子设备、存储介质 | |
Rajapakshe et al. | A novel policy for pre-trained deep reinforcement learning for speech emotion recognition | |
CN113111190A (zh) | 一种知识驱动的对话生成方法及装置 | |
Park et al. | BERT-based response selection in dialogue systems using utterance attention mechanisms | |
Jbene et al. | User sentiment analysis in conversational systems based on augmentation and attention-based bilstm | |
CN115525740A (zh) | 对话应答语句的生成方法、装置、电子设备及存储介质 | |
CN111881293B (zh) | 一种风险内容识别方法及装置、服务器、存储介质 | |
CN112434512A (zh) | 一种结合上下文语境的新词确定方法及装置 | |
Tran et al. | Adaptive global-local context fusion for multi-turn spoken language understanding | |
CN116821339A (zh) | 滥用语言检测方法、装置及存储介质 | |
CN110717022A (zh) | 一种机器人对话生成方法、装置、可读存储介质及机器人 | |
CN110162608A (zh) | 计算机实现的对话管理的方法、用于对话管理的设备以及计算机可读存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
RJ01 | Rejection of invention patent application after publication |
Application publication date: 20201016 |
|
RJ01 | Rejection of invention patent application after publication |