CN110909179B - 文本生成模型的优化方法及系统 - Google Patents

文本生成模型的优化方法及系统 Download PDF

Info

Publication number
CN110909179B
CN110909179B CN201911199485.0A CN201911199485A CN110909179B CN 110909179 B CN110909179 B CN 110909179B CN 201911199485 A CN201911199485 A CN 201911199485A CN 110909179 B CN110909179 B CN 110909179B
Authority
CN
China
Prior art keywords
output
model
text generation
determining
proportion
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911199485.0A
Other languages
English (en)
Other versions
CN110909179A (zh
Inventor
朱钦佩
吴仁守
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sipic Technology Co Ltd
Original Assignee
Sipic Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sipic Technology Co Ltd filed Critical Sipic Technology Co Ltd
Priority to CN201911199485.0A priority Critical patent/CN110909179B/zh
Publication of CN110909179A publication Critical patent/CN110909179A/zh
Application granted granted Critical
Publication of CN110909179B publication Critical patent/CN110909179B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/332Query formulation
    • G06F16/3329Natural language query formulation or dialogue systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Abstract

本发明实施例提供一种文本生成模型的优化方法。该方法包括:基于文本生成模型的本文生成领域,获取与本文生成领域相关联的训练数据集,根据训练数据集训练本文生成领域的语言模型;将对话文本分别输入至文本生成模型和语言模型;确定文本生成模型解码端输出St为第一输出,语言模型的输出Lt为第二输出;基于第一输出和第二输出的加权和确定第三输出;基于输出St、输出Lt和激活函数,确定融合输出比例Ot;通过第三输出和融合输出比例Ot相结合,得到文本生成模型的优化输出文本。本发明实施例还提供一种文本生成模型的优化系统。本发明实施例构造文本生成模型和语言模型融合的方式,将语言模型与文本生成模型相融合,提高文本生成模型的生成效果。

Description

文本生成模型的优化方法及系统
技术领域
本发明涉及自然语言处理领域,尤其涉及一种文本生成模型的优化方法及系统。
背景技术
自然语言生成是自然语言处理的重要内容,广泛应用于自动翻译、摘要提取、新闻撰写、阅读理解、智能聊天机器人等等领域。比如在中英文本翻译中,给模型输入“这个多少钱”,模型输出“how much is it”。技术上,业界普遍使用的算法框架是一种“编码-解码”(encode-decode)框架,知名的算法有“seq2seq-attention”、“tansformer”等。这些性能强大的算法能够有效的学习到输入文本的特征,并巧妙的利用这些特征组织输出文本。
在实现本发明过程中,发明人发现相关技术中至少存在如下问题:
在实际实施过程中,这些算法总是会受限于训练数据的规模,生成的文本往往有重复、不通顺等情况。而生成模型,作为有监督的模型,恰好又无法利用超大规模数据进行训练,只“熟悉”部分文字之间的连接性。使得通过这些算法训练的生成模型的生成文本会出现语句不通顺或重复的情况。
发明内容
为了至少解决现有技术中生成模型无法利用大量数据进行训练,使得生成模型的生成文本会出现语句不通顺或重复情况的问题。
第一方面,本发明实施例提供一种文本生成模型的优化方法,包括:
基于文本生成模型的本文生成领域,获取与所述本文生成领域相关联的训练数据集,根据所述训练数据集训练所述本文生成领域的语言模型;
将对话文本分别输入至所述文本生成模型以及所述语言模型;
确定在t时刻,所述文本生成模型解码端的输出St为第一输出,以及所述语言模型的输出Lt为第二输出;
基于所述第一输出和所述第二输出的加权和确定第三输出;
基于所述输出St、输出Lt以及激活函数,建立输出门模型,确定融合输出比例Ot
通过所述第三输出以及融合输出比例Ot相结合,得到所述文本生成模型的优化输出文本。
第二方面,本发明实施例提供一种文本生成模型的优化系统,包括:
语言模型生成程序模块,用于基于文本生成模型的本文生成领域,获取与所述本文生成领域相关联的训练数据集,根据所述训练数据集训练所述本文生成领域的语言模型;
数据输入程序模块,用于将对话文本分别输入至所述文本生成模型以及所述语言模型;
输出确定程序模块,用于确定在t时刻,所述文本生成模型解码端的输出St为第一输出,以及所述语言模型的输出Lt为第二输出;
第三输出确定程序模块,用于基于所述第一输出和所述第二输出的加权和确定第三输出;
融合输出比例确定程序模块,用于基于所述输出St、输出Lt以及激活函数,建立输出门模型,确定融合输出比例Ot
优化程序模块,用于通过所述第三输出以及融合输出比例Ot相结合,得到所述文本生成模型的优化输出文本。
第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的文本生成模型的优化方法的步骤。
第四方面,本发明实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本发明任一实施例的文本生成模型的优化方法的步骤。
本发明实施例的有益效果在于:构造文本生成模型和语言模型融合的方式,是把两个模型的信息流视为同等地位,将语言模型与文本生成模型相融合,以使用充足数据训练的语言模型提高文本生成模型的文本生成效果。现有一些算法(比如, Cold Fusion),只把语言模型作为辅助地位(即只使用了本专利中的语言门),弱化了语言模型的范化作用。本专利增加了生成门和输出门,将两种信息作为同等地位一起调节和控制,大大提高了生成模型的语言表达能力。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例提供的一种文本生成模型的优化方法的流程图;
图2是本发明一实施例提供的一种文本生成模型的优化系统的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
如图1所示为本发明一实施例提供的一种文本生成模型的优化方法的流程图,包括如下步骤:
S11:基于文本生成模型的本文生成领域,获取与所述本文生成领域相关联的训练数据集,根据所述训练数据集训练所述本文生成领域的语言模型;
S12:将对话文本分别输入至所述文本生成模型以及所述语言模型;
S13:确定在t时刻,所述文本生成模型解码端的输出St为第一输出,以及所述语言模型的输出Lt为第二输出;
S14:基于所述第一输出和所述第二输出的加权和确定第三输出;
S15:基于所述输出St、输出Lt以及激活函数,建立输出门模型,确定融合输出比例Ot
S16:通过所述第三输出以及融合输出比例Ot相结合,得到所述文本生成模型的优化输出文本。
在本实施方式中,虽然生成模型无法利用大规模的数据进行训练,但是语言模型可以利用大规模的数据训练,语言模型几乎“见过”所有文字之间的相互组合和使用场景。将语言模型的“经验”传递给生成模型,可以提升生成模型的效果。
对于步骤S11,文本生成模型是基于encode-decode框架,例如,transformer算法。语言模型可以使用已经公开的模型或者根据需要训练与任务相匹配的语言模型。例如,可以使用已经公开的语言模型BERT或XLNET。亦或者,使用与任务相同领域的海量文本,训练与任务相关的语言模型。比如,如果目前的任务是做法律领域的问答机器人,生成模型的数据基本都是法律相关的数据,那么语言模型的预训练数据就使用与法律相关的文本,又比如说,任务是做诗歌的问答机器人,生成模型的数据基本都是诗歌的数据,那么语言模型的预训练数据就使用与诗歌相关的文本。
对于步骤S12,在使用阶段,以诗歌为例,接收用户的输入,可以是一个词语,也可以是一句话,例如“一片树叶”。将这句话分别输入至在步骤S11中确定的文本生成模型以及语言模型中。更具体的来说,在训练阶段,例如,训练数据中一组文本对——Q:你今天开心吗。A:我今天特别开心,将“你今天开心吗”做embedding嵌入后输入文本生成模型,将“我今天特别开心”做embedding嵌入后输入语言模型。
对于步骤S13,实时获取文本生成模型在decode解码端t时刻的第一输出St,以及语言模型在t时刻的第二输出Lt。由于用户的输入是实时的,例如,用户输入“一片树叶”使用了4个字符,那么t的范围就在[0, 3]。这里特别说明的是,如果是训练阶段,并且语言模型用的是self-attention的架构,需要使用t时刻的mask,即mask=(1,..,1, 0, ..., 0),前t个为1,用来保证训练时只考虑前t个字符。如果是使用预测阶段,那么不需要mask。
对于步骤S14,考虑到目的是将语言模型的“经验”传递给生成模型,将所述文本生成模型融合到语言模型的生成效果,进而对步骤S13中确定的第一输出和第二输出进行融合,从而确定出第三输出。
对于步骤S15,基于所述第一输出St、输出Lt以及激活函数,建立输出门模型,确定融合输出比例Ot,其中激活函数将非线性特性引入到本方法中。在神经元中,输入的数据通过加权,求和后,还被作用了一个函数,这个函数就是激活函数。引入激活函数是为了增加神经网络模型的非线性。没有激活函数的每层都相当于矩阵相乘。就算叠加了若干层之后,无非还是个矩阵相乘而已。输出门模型(output gate),为控制单元状态 Ct有多少输出到神经网络的当前输出值。通过Ot调整了模型的输出。
对于步骤S16,通过将所述第三输出与在步骤S15中确定的Ot相结合,也就得到了优化后的输出文本。整体上可以理解为从两个独立的模型中,按“比例”抽取各自的信息汇总到一起,对整体模型的优化过程就包含对这个“比例”的优化。使用这种汇总方法可以缓解传统模型过度依赖训练数据而导致语言表达过短或不丰富的问题。比如,在训练数据中,“翅膀”和“树叶”没有在同一句话中出现过,使得模型永远不会将二者联系起来,由于语言模型是通过超大规模数据训练而来,词语之间的关系以及表达方式不会局限于训练数据。因此,将的第三输出与Ot相结合,使得这些没有在同一句话中出现过的词语,联系了起来,使得输出的文本更加优美。例如,不使用本方法的文本生成模型,用户在输入“一片树叶”,仅仅会得到“一片树叶,一片树叶,一片树叶”这样重复的输出。而使用本方法优化后的文本生成模型,融入了语言模型,用户在输入“一片树叶”后,会得到“树叶是落在地上的翅膀,翅膀是飘在天上的叶子”。
通过该实施方式可以看出,构造文本生成模型和语言模型融合的方式,是把两个模型的信息流视为同等地位,将语言模型与文本生成模型相融合,以使用充足数据训练的语言模型提高文本生成模型的文本生成效果。现有一些算法(比如, Cold Fusion),只把语言模型作为辅助地位(即只使用了本专利中的语言门),弱化了语言模型的范化作用。本专利增加了生成门和输出门,将两种信息作为同等地位一起调节和控制,大大提高了生成模型的语言表达能力。
作为一种实施方式,在本实施例中,所述基于所述第一输出和所述第二输出的加权和确定第三输出包括:
通过所述激活函数,确定所述输出St以及所述输出Lt各自所占的第一比例以及第二比例;
基于所述输出St、所述Lt、第一比例以及第二比例确定所述文本生成模型以及所述语言模型结合后的第三输出Ct
进一步地所述通过所述激活函数,确定所述输出St以及所述输出Lt各自所占的第一比例以及第二比例包括:
基于所述激活函数,建立生成门模型GSt,用于确定所述输出St所占的第一比例;
基于所述激活函数,建立语言门模型GLt,用于确定所述输出Lt所占的第二比例;
所述基于所述输出St、所述Lt、第一比例以及第二比例确定所述文本生成模型以及所述语言模型结合后的第三输出Ct包括:
通过Ct = GLt • Lt + GSt • St得到所述文本生成模型以及所述语言模型结合后的整体输出。
在本实施方式中,激活函数已经说明,在此不再赘述。建立生成门模型,这个“门”代表汇总了生成模型和语言模型的初始信息,控制生成模型的权重,来决定要使用输出St的比例,即:
GSt = σ (WS * St + US * Lt + bS)
其中,WS 、US和bS是网络要训练的参数。
建立语言门模型,这个“门”代表汇总了生成模型和语言模型的初始信息,控制语言模型的权重,来决定要使用输出Lt的比例,即:
GLt = σ (WL * St + UL * Lt + bL)
其中,σ是激活函数,WL、UL和bL是网络要训练的参数。
从而,将文本生成模型以及所述语言模型结合确定第三输出Ct,即:
Ct = GLt • Lt + GSt • St
其中,’a’ • ‘b’表示’a’和’b’两个矩阵的对应项相乘。
进一步的,也可以得到融合输出比例Ot,即:
Ot = σ (Wo * St + Uo * Lt + bo)
其中,Wo、Uo和bo是网络要训练的参数。
通过该实施方式可以看出,应用具体的公式进行确定,提高模型优化的效果。
作为一种实施方式,在本实施例中,所述所述通过所述第三输出以及融合输出比例Ot相结合,包括:
通过Ot * tanh(Ct)将所述第三输出Ct以及融合输出比例Ot相结合。
在本实施方式中,通过Logits(t) = Ot * tanh(Ct)具体的公式进行融合,这里主要借鉴于BLSTM中输出门的公式,tanh函数也是如此,当然理论上也可以使用其他非线性函数。在求得Logits(t)之后,使用Logits(t)来代替原来文本生成模型中的St,求交叉熵损失函数即可。
通过具体的公式,提高模型优化的效果。
作为一种实施方式,在所述确定在t时刻,所述文本生成模型解码端的输出St为第一输出,以及所述语言模型的输出Lt为第二输出之后,所述方法还包括:
对所述输出St以及输出Lt进行归一化处理。
在本实施方式中,对对 St 和 Lt 分别做归一化,即:
St <= normalization(St)
Lt <= normalization(Lt)
通过归一化解决,当不同的特征成列在一起的时候,由于特征本身表达方式的原因而导致在绝对数值上的小数据被大数据“吃掉”的情况,这个时候我们需要做的就是对抽取出来的特征向量进行归一化处理,以保证每个特征被分类器平等对待。
如图2所示为本发明一实施例提供的一种文本生成模型的优化系统的结构示意图,该系统可执行上述任意实施例所述的文本生成模型的优化方法,并配置在终端中。
本实施例提供的一种文本生成模型的优化系统10包括:语言模型生成程序模块11,数据输入程序模块12,输出确定程序模块13,第三输出确定程序模块14;融合输出比例确定程序模块15和优化程序模块16。
其中,语言模型生成程序模块11用于基于文本生成模型的本文生成领域,获取与所述本文生成领域相关联的训练数据集,根据所述训练数据集训练所述本文生成领域的语言模型;数据输入程序模块12用于将对话文本分别输入至所述文本生成模型以及所述语言模型;输出确定程序模块13用于确定在t时刻,所述文本生成模型解码端的输出St为第一输出,以及所述语言模型的输出Lt为第二输出;第三输出确定程序模块14用于基于所述第一输出和所述第二输出的加权和确定第三输出;融合输出比例确定程序模块15用于基于所述输出St、输出Lt以及激活函数,建立输出门模型,确定融合输出比例Ot;优化程序模块16用于通过所述第三输出以及融合输出比例Ot相结合,得到所述文本生成模型的优化输出文本。
进一步地,所述第三输出确定程序模块用于:
通过所述激活函数,确定所述输出St以及所述输出Lt各自所占的第一比例以及第二比例;
基于所述输出St、所述Lt、第一比例以及第二比例确定所述文本生成模型以及所述语言模型结合后的第三输出Ct
进一步地,所述第三输出确定程序模块用于:
基于所述激活函数,建立生成门模型GSt,用于确定所述输出St所占的第一比例;
基于所述激活函数,建立语言门模型GLt,用于确定所述输出Lt所占的第二比例;
所述第三输出确定程序模块还用于:
通过Ct = GLt • Lt + GSt • St得到所述文本生成模型以及所述语言模型结合后的整体输出。
进一步地,所述优化程序模块用于:
通过Ot * tanh(Ct)将所述第三输出Ct以及融合输出比例Ot相结合。
进一步地,在所述输出确定程序模块之后,所述系统还包括,归一化处理程序模块:
对所述输出St以及输出Lt进行归一化处理。
本发明实施例还提供了一种非易失性计算机存储介质,计算机存储介质存储有计算机可执行指令,该计算机可执行指令可执行上述任意方法实施例中的文本生成模型的优化方法;
作为一种实施方式,本发明的非易失性计算机存储介质存储有计算机可执行指令,计算机可执行指令设置为:
基于文本生成模型的本文生成领域,获取与所述本文生成领域相关联的训练数据集,根据所述训练数据集训练所述本文生成领域的语言模型;
将对话文本分别输入至所述文本生成模型以及所述语言模型;
确定在t时刻,所述文本生成模型解码端的输出St为第一输出,以及所述语言模型的输出Lt为第二输出;
基于所述第一输出和所述第二输出的加权和确定第三输出;
基于所述输出St、输出Lt以及激活函数,建立输出门模型,确定融合输出比例Ot
通过所述第三输出以及融合输出比例Ot相结合,得到所述文本生成模型的优化输出文本。
作为一种非易失性计算机可读存储介质,可用于存储非易失性软件程序、非易失性计算机可执行程序以及模块,如本发明实施例中的方法对应的程序指令/模块。一个或者多个程序指令存储在非易失性计算机可读存储介质中,当被处理器执行时,执行上述任意方法实施例中的文本生成模型的优化方法。
非易失性计算机可读存储介质可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储根据装置的使用所创建的数据等。此外,非易失性计算机可读存储介质可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实施例中,非易失性计算机可读存储介质可选包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至装置。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
本发明实施例还提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例的文本生成模型的优化方法的步骤。
本申请实施例的客户端以多种形式存在,包括但不限于:
(1)移动通信设备:这类设备的特点是具备移动通信功能,并且以提供话音、数据通信为主要目标。这类终端包括:智能手机、多媒体手机、功能性手机,以及低端手机等。
(2)超移动个人计算机设备:这类设备属于个人计算机的范畴,有计算和处理功能,一般也具备移动上网特性。这类终端包括:PDA、MID和UMPC设备等,例如平板电脑。
(3)便携式娱乐设备:这类设备可以显示和播放多媒体内容。该类设备包括:音频、视频播放器,掌上游戏机,电子书,以及智能玩具和便携式车载导航设备。
(4)其他具有语言处理功能的电子装置。
在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (10)

1.一种文本生成模型的优化方法,包括:
基于文本生成模型的文本生成领域,获取与所述文本生成领域相关联的训练数据集,根据所述训练数据集训练所述文本生成领域的语言模型;
将对话文本分别输入至所述文本生成模型以及所述语言模型;
确定在t时刻,所述文本生成模型解码端的输出St为第一输出,以及所述语言模型的输出Lt为第二输出;
基于所述第一输出和所述第二输出的加权和确定第三输出;
基于所述输出St、输出Lt以及激活函数,建立输出门模型,确定融合输出比例Ot
通过所述第三输出以及融合输出比例Ot相结合,得到所述文本生成模型的优化输出文本。
2.根据权利要求1所述的方法,其中,所述基于所述第一输出和所述第二输出的加权和确定第三输出包括:
通过所述激活函数,确定所述输出St以及所述输出Lt各自所占的第一比例以及第二比例;
基于所述输出St、所述Lt、第一比例以及第二比例确定所述文本生成模型以及所述语言模型结合后的第三输出Ct
3.根据权利要求2所述的方法,其中,所述通过所述激活函数,确定所述输出St以及所述输出Lt各自所占的第一比例以及第二比例包括:
基于所述激活函数,建立生成门模型GSt,用于确定所述输出St所占的第一比例;
基于所述激活函数,建立语言门模型GLt,用于确定所述输出Lt所占的第二比例;
所述基于所述输出St、所述Lt、第一比例以及第二比例确定所述文本生成模型以及所述语言模型结合后的第三输出Ct包括:
通过Ct = GLt • Lt + GSt • St得到所述文本生成模型以及所述语言模型结合后的整体输出。
4.根据权利要求3所述的方法,其中,所述通过所述第三输出以及融合输出比例Ot相结合,包括:
通过Ot * tanh(Ct)将所述第三输出Ct以及融合输出比例Ot相结合。
5.根据权利要求1所述的方法,其中,在所述确定在t时刻,所述文本生成模型解码端的输出St为第一输出,以及所述语言模型的输出Lt为第二输出之后,所述方法还包括:
对所述输出St以及输出Lt进行归一化处理。
6.一种文本生成模型的优化系统,包括:
语言模型生成程序模块,用于基于文本生成模型的文本生成领域,获取与所述文本生成领域相关联的训练数据集,根据所述训练数据集训练所述文本生成领域的语言模型;
数据输入程序模块,用于将对话文本分别输入至所述文本生成模型以及所述语言模型;
输出确定程序模块,用于确定在t时刻,所述文本生成模型解码端的输出St为第一输出,以及所述语言模型的输出Lt为第二输出;
第三输出确定程序模块,用于基于所述第一输出和所述第二输出的加权和确定第三输出;
融合输出比例确定程序模块,用于基于所述输出St、输出Lt以及激活函数,建立输出门模型,确定融合输出比例Ot
优化程序模块,用于通过所述第三输出以及融合输出比例Ot相结合,得到所述文本生成模型的优化输出文本。
7.根据权利要求6所述的系统,其中,所述第三输出确定程序模块用于:
通过所述激活函数,确定所述输出St以及所述输出Lt各自所占的第一比例以及第二比例;
基于所述输出St、所述Lt、第一比例以及第二比例确定所述文本生成模型以及所述语言模型结合后的第三输出Ct
8.根据权利要求7所述的系统,其中,所述第三输出确定程序模块用于:
基于所述激活函数,建立生成门模型GSt,用于确定所述输出St所占的第一比例;
基于所述激活函数,建立语言门模型GLt,用于确定所述输出Lt所占的第二比例;
所述第三输出确定程序模块还用于:
通过Ct = GLt • Lt + GSt • St得到所述文本生成模型以及所述语言模型结合后的整体输出。
9.根据权利要求8所述的系统,其中,所述优化程序模块用于:
通过Ot * tanh(Ct)将所述第三输出Ct以及融合输出比例Ot相结合。
10.根据权利要求6所述的系统,其中,在所述输出确定程序模块之后,所述系统还包括,归一化处理程序模块:
对所述输出St以及输出Lt进行归一化处理。
CN201911199485.0A 2019-11-29 2019-11-29 文本生成模型的优化方法及系统 Active CN110909179B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911199485.0A CN110909179B (zh) 2019-11-29 2019-11-29 文本生成模型的优化方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911199485.0A CN110909179B (zh) 2019-11-29 2019-11-29 文本生成模型的优化方法及系统

Publications (2)

Publication Number Publication Date
CN110909179A CN110909179A (zh) 2020-03-24
CN110909179B true CN110909179B (zh) 2022-07-08

Family

ID=69820619

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911199485.0A Active CN110909179B (zh) 2019-11-29 2019-11-29 文本生成模型的优化方法及系统

Country Status (1)

Country Link
CN (1) CN110909179B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111581455B (zh) * 2020-04-28 2023-03-21 北京字节跳动网络技术有限公司 文本生成模型的生成方法、装置和电子设备
CN111666764B (zh) * 2020-06-02 2023-07-04 南京优慧信安科技有限公司 一种基于XLNet的自动摘要方法与装置

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP3128439A1 (en) * 2015-08-07 2017-02-08 Google, Inc. Text classification and transformation based on author
CN108962224B (zh) * 2018-07-19 2020-06-26 苏州思必驰信息科技有限公司 口语理解和语言模型联合建模方法、对话方法及系统
CN110705284B (zh) * 2019-09-19 2023-04-07 思必驰科技股份有限公司 基于神经网络生成模型的诗词生成质量的优化方法及系统

Also Published As

Publication number Publication date
CN110909179A (zh) 2020-03-24

Similar Documents

Publication Publication Date Title
CN109637546B (zh) 知识蒸馏方法和装置
CN110263323B (zh) 基于栅栏式长短时记忆神经网络的关键词抽取方法及系统
CN106202010B (zh) 基于深度神经网络构建法律文本语法树的方法和装置
CN105868317B (zh) 一种数字教育资源推荐方法及系统
CN109508377A (zh) 基于融合模型的文本特征提取方法、装置、聊天机器人和存储介质
Cuayáhuitl et al. Deep reinforcement learning for multi-domain dialogue systems
CN111914067A (zh) 中文文本匹配方法及系统
CN110909179B (zh) 文本生成模型的优化方法及系统
CN111753076B (zh) 对话方法、装置、电子设备及可读存储介质
US11392796B2 (en) Feature dictionary for bandwidth enhancement
CN110349569B (zh) 定制化产品语言模型的训练和识别方法及装置
CN112905755A (zh) 一种回复文本预测方法、装置、设备及存储介质
CN117576264B (zh) 图像生成方法、装置、设备及介质
CN107562729B (zh) 基于神经网络和主题强化的党建文本表示方法
CN109033285A (zh) 信息推送方法及装置
CN108268993A (zh) 基于自编码神经网络的电子业务风险识别方法和装置
JP6243072B1 (ja) 入出力システム、入出力プログラム、情報処理装置、チャットシステム
CN114036282A (zh) 用于端到端任务型对话的语言模型预训练方法及系统
CN117271745A (zh) 一种信息处理方法、装置及计算设备、存储介质
CN113761148A (zh) 对话信息获取方法、装置、设备及存储介质
CN111046138B (zh) 推荐理由生成方法、装置、电子设备及存储介质
CN109299231B (zh) 对话状态跟踪方法、系统、电子设备及存储介质
CN111046674A (zh) 语义理解方法、装置、电子设备和存储介质
CN111160010B (zh) 缩略句理解模型的训练方法及系统
CN116414951A (zh) 智能对话方法、模型训练方法、装置、存储介质及设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant after: Sipic Technology Co.,Ltd.

Address before: 215123 building 14, Tengfei Innovation Park, 388 Xinping street, Suzhou Industrial Park, Suzhou City, Jiangsu Province

Applicant before: AI SPEECH Co.,Ltd.

CB02 Change of applicant information
GR01 Patent grant
GR01 Patent grant