CN112597758A

CN112597758A - 文本数据的生成方法及装置、存储介质、电子装置

Info

Publication number: CN112597758A
Application number: CN202011407643.XA
Authority: CN
Inventors: 王义文; 王鹏; 王灵芝; 田江; 向小佳; 丁永建; 李璠
Original assignee: Everbright Technology Co ltd
Current assignee: Everbright Technology Co ltd
Priority date: 2020-12-04
Filing date: 2020-12-04
Publication date: 2021-04-02
Anticipated expiration: 2040-12-04
Also published as: CN112597758B

Abstract

本发明提供了一种文本数据的生成方法及装置、存储介质、电子装置，其中，上述方法包括：获取待生成的文本数据的目标要求，其中，目标要求至少包含以下之一：文本数据的体裁、文本数据的语料、文本数据的字数；将目标要求输入到全局联邦强化学习模型中，在全局联邦强化学习模型所包括的多个强化学习模型中，根据选择的目标强化学习模型对目标要求进行处理，以生成待生成的文本数据，采用上述技术方案，解决了相关技术中，对于文本数据的生成方式单一，并无法确定生成的文本数据的类型等问题，通过全局联邦强化学习模型，使得生成文本数据的方式更加多样，给予用户更多的个性化选择。

Description

文本数据的生成方法及装置、存储介质、电子装置

技术领域

本发明涉及通信领域，具体而言，涉及一种文本数据的生成方法及装置、存储介质、电子装置。

背景技术

传统诗歌生成模型如图1所示，采用两层LSTM(Long Short-Term Memory，长短期记忆网络，是一种特定形式的循环神经网络，简称为LSTM)结合Dropout和全连接层的结构。由于模型目的是基于前文预测之后的字符，属于分类问题，所以选用Cross Entropy Loss作为损失函数。经过多次对比与尝试，优化器的选择定为Adam效果最优。

传统的诗歌生成方法缺点在于无法保证句子之间的连贯性。传统方法落足于数学统计角度，将生成过程表示为概率函数，并针对诗歌的独特结构在目标函数上进行数学层面的约束。但这种方法并没有考虑到诗歌中任意连续两句之间内容上的关联，该方法本质上将各个句子独立看待和处理，并且现代的诗歌生成方法功能和类型较为单一。现有模型往往要求输入的字符数量固定，模型只服务于例如藏头诗这一特定业务场景，且生成的诗歌所属类型模糊不定。

针对相关技术中，对于文本数据的生成方式单一，并无法确定生成的文本数据的类型等问题，尚未提出有效的技术方案。

发明内容

本发明实施例提供了一种文本数据的生成方法及装置、存储介质、电子装置，以至少解决相关技术中，对于文本数据的生成方式单一，并无法确定生成的文本数据的类型等问题。

根据本发明的一个实施例，提供了一种文本数据的生成方法，包括：获取待生成的文本数据的目标要求，其中，所述目标要求至少包含以下之一：文本数据的体裁、文本数据的语料、文本数据的字数；将所述目标要求输入到全局联邦强化学习模型中，在所述全局联邦强化学习模型所包括的多个强化学习模型中，根据选择的目标强化学习模型对所述目标要求进行处理，以生成所述待生成的文本数据。

可选地，将所述目标要求输入到全局联邦强化学习模型中，包括：获取目标对象输出的待生成的文本数据所包含的目标字符；将所述目标字符与所述目标要求输入至所述全局联邦强化学习模型中。

可选地，根据选择的目标强化学习模型对所述目标要求进行处理之前，所述方法还包括：根据输入的所述目标要求确定所述目标要求对应的强化学习，并从所述多个强化学习模型中确定所述强化学习对应的强化学习模型；通过所述强化学习模型对所述目标要求进行强化学习，得到强化学习结果；根据强化学习结果确定所述目标要求的目标强化学习模型。

可选地，将所述目标要求输入到全局联邦强化学习模型中之后，所述方法还包括以下至少之一：对所述目标要求进行同态加密处理，将同态加密处理后的目标要求输入到所述目标强化学习模型中；对通过所述目标强化学习模型生成的所述待生成的文本数据进行同态加密处理。

可选地，根据强化学习结果确定所述目标要求的目标强化学习模型，包括：确定所述强化学习结果与所述目标要求的契合度；在所述相似度满足第一阈值的情况下,将所述强化学习结果对应的强化学习模型确定为所述目标要求的目标强化学习模型，其中，所述第一阈值用于指示所述强化学习结果与所述目标要求的契合度符合要求。

可选地，通过所述全局联邦强化学习模型对所述目标要求进行处理，生成所述目标要求对应的目标文本数据之后，所述方法还包括：在生成的所述目标文本数据符合第二阈值的情况下，将所述目标文本数据作为所述目标要求的所述全局联邦强化学习模型的最终输出结果，其中，所述第二阈值用于指示目标文本数据与目标要求的相似度。

根据本发明的一个实施例，提供了一种文本数据的生成装置，包括：获取模块，用于获取待生成的文本数据的目标要求，其中，所述目标要求至少包含以下之一：文本数据的体裁、文本数据的语料、文本数据的字数；处理模块，用于将所述目标要求输入到全局联邦强化学习模型中，在所述全局联邦强化学习模型所包括的多个强化学习模型中，根据选择的目标强化学习模型对所述目标要求进行处理，以生成所述待生成的文本数据。

可选地，上述处理模块，还用于获取目标对象输出的待生成的文本数据所包含的目标字符；将所述目标字符与所述目标要求输入至所述全局联邦强化学习模型中。

可选地，上述装置还包括：确定模块，用于根据输入的所述目标要求确定所述目标要求对应的强化学习，并从所述多个强化学习模型中确定所述强化学习对应的强化学习模型；通过所述强化学习模型对所述目标要求进行强化学习，得到强化学习结果；根据强化学习结果确定所述目标要求的目标强化学习模型。

可选地，上述装置还包括：加密模块，用于对所述目标要求进行同态加密处理，将同态加密处理后的目标要求输入到所述目标强化学习模型中；对通过所述目标强化学习模型生成的所述待生成的文本数据进行同态加密处理。

可选地，上述确定模块，还用于确定所述强化学习结果与所述目标要求的契合度；在所述契合度大于第一阈值的情况下,将所述强化学习结果对应的强化学习模型确定为所述目标要求的目标强化学习模型，其中，所述第一阈值用于指示所述强化学习结果与所述目标要求的契合度符合要求。

可选地，上述装置还包括：输出模块，用于在生成的所述目标文本数据符合第二阈值的情况下，将所述目标文本数据作为所述目标要求的所述全局联邦强化学习模型的最终输出结果，其中，所述第二阈值用于指示目标文本数据与目标要求的相似度。

根据本发明的另一个实施例，还提供了一种存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

根据本发明的又一个实施例，还提供了一种电子装置，包括存储器和处理器，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行上述任一项方法实施例中的步骤。

通过本发明，获取待生成的文本数据的目标要求，其中，所述目标要求至少包含以下之一：文本数据的体裁、文本数据的语料、文本数据的字数；将所述目标要求输入到全局联邦强化学习模型中，在所述全局联邦强化学习模型所包括的多个强化学习模型中，根据选择的目标强化学习模型对所述目标要求进行处理，以生成所述待生成的文本数据，即通过全局联邦强化学习模型可以快速的完成对待生成的文本数据的生成处理，并通过选择的目标强化学习模型对所述目标要求进行处理，使得生成的文本数据的类型稳定，采用上述技术方案，解决了相关技术中，对于文本数据的生成方式单一，并无法确定生成的文本数据的类型等问题，通过全局联邦强化学习模型，使得生成文本数据的方式更加多样，给予用户更多的个性化选择。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是本发明相关技术的传统诗歌生成模型的结构示意图；

图2是本发明实施例的一种文本数据的生成方法的计算机终端的硬件结构框图；

图3是根据本发明实施例的文本数据的生成方法的流程图；

图4是根据本发明可选实施例的一种联邦强化学习的系统的系统框架示意图；

图5是根据本发明可选实施例的选择Fate联邦学习模型框架的结构示意图；

图6是根据本发明实施例的文本数据的生成装置的结构框图。

具体实施方式

下文中将参考附图并结合实施例来详细说明本发明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。

本申请实施例所提供的方法实施例可以在计算机终端或者类似的运算装置中执行。以运行在计算机终端上为例，图2是本发明实施例的一种文本数据的生成方法的计算机终端的硬件结构框图。如图2所示，计算机终端10可以包括一个或多个(图中仅示出一个)处理器102(处理器102可以包括但不限于微处理器MCU或可编程逻辑器件FPGA等的处理装置)、用于存储数据的存储器104、以及用于通信功能的传输装置106。本领域普通技术人员可以理解，图2所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图2中所示更多或者更少的组件，或者具有与图2所示不同的配置。

存储器104可用于存储计算机程序，例如，应用软件的软件程序以及模块，如本发明实施例中的文本数据的生成方法对应的计算机程序，处理器102通过运行存储在存储器104内的计算机程序，从而执行各种功能应用以及数据处理，即实现上述的方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器(Network Interface Controller，简称为NIC)，其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频(Radio Frequency，简称为RF)模块，其用于通过无线方式与互联网进行通讯。

本发明实施例提供了一种文本数据的生成方法，应用于上述计算机终端中，图3是根据本发明实施例的文本数据的生成方法的流程图，如图3所示，该流程包括如下步骤：

步骤S202，获取待生成的文本数据的目标要求，其中，所述目标要求至少包含以下之一：文本数据的体裁、文本数据的语料、文本数据的字数；

步骤S204，将所述目标要求输入到全局联邦强化学习模型中，在所述全局联邦强化学习模型所包括的多个强化学习模型中，根据选择的目标强化学习模型对所述目标要求进行处理，以生成所述待生成的文本数据。

通过上述步骤，获取待生成的文本数据的目标要求，其中，所述目标要求至少包含以下之一：文本数据的体裁、文本数据的语料、文本数据的字数；将所述目标要求输入到全局联邦强化学习模型中，在所述全局联邦强化学习模型所包括的多个强化学习模型中，根据选择的目标强化学习模型对所述目标要求进行处理，以生成所述待生成的文本数据，即通过全局联邦强化学习模型可以快速的完成对待生成的文本数据的生成处理，并通过选择的目标强化学习模型对所述目标要求进行处理，使得生成的文本数据的类型稳定，采用上述技术方案，解决了相关技术中，对于文本数据的生成方式单一，并无法确定生成的文本数据的类型等问题，通过全局联邦强化学习模型，使得生成文本数据的方式更加多样，给予用户更多的个性化选择。

也就是说，为了使得生成的文本数据更加个性化，还可将目标对象输出的待生成文本所要包含的目标字符与目标要求一同输入到全局联邦强化学习模型中，例如，当文本数据的体裁为诗歌时，目标字符可以是每句诗歌的是首字符和末尾字符，还可以是用于代指特殊对象的词语，进而使生成的文本符合目标对象的个性化需求。

为了进一步的确定从全局联邦强化学习模型中确定的强化学习模型符合目标要求的强化学习效果，对强化学习模型进行运行测试，根据测试生成的强化学习结果，确定强化学习模型的学习效果可以达到目标要求，进而将强化学习模型确定为待生成的文本数据的目标强化学习模型。

例如，文学创作者之间的经验分享，能更好的对推动创作，但文学创造具有一定的隐私性，因此，为了保证全局联邦强化学习模型下的文学创作者的数据的安全，对输入与输出全局联邦强化学习模型的数据信息均进行同态加密处理，使得在通过全局联邦强化学习模型生成文本数据具有保密性，并使得目标对象无法访问生成文本数据的全局联邦强化学习模型下的数据样本的信息，保证了数据样本信息的安全性。

可选地，根据强化学习结果确定所述目标要求的目标强化学习模型，包括：确定所述强化学习结果与所述目标要求的契合度；在所述契合度大于第一阈值的情况下,将所述强化学习结果对应的强化学习模型确定为所述目标要求的目标强化学习模型，其中，所述第一阈值用于指示所述强化学习结果与所述目标要求的契合度符合要求。

也就是说，为了保证确定出的目标强化学习模型更好的符合目标要求，在全局联邦强化学习模型中设置用于判别强化学习结果的第一阈值，当目标强化结果与目标要求的契合度大于第一阈值时，说明该目标强化结果对应的目标强化学习模型可作为当前目标要求的目标强化学习模型，进而使用目标强化模型在全局联邦强化学习模型下对应的多个数据节点进行学习训练。

为了保证全局联邦强化学习模型的最终输出结果的一致性，使得目标对象生成的目标文本数据的不会发生较大的偏差，通过在全局联邦强化学习模型中设置用于指示目标文本数据与目标要求的相似度的第二阈值，使得针对同一目标要求在多次循环迭代生成时，生成的文本数据可以进行符组合，得到符合文学体裁的诗句，例如，宋词、唐诗、诗歌等。

为了更好的理解上述文本数据的生成流程，以下结合可选实施例进行说明，但不用于限定本发明实施例的技术方案。

为了更好的理解本发明实施例以及可选实施例的技术方案，以下对本发明实施例以及可选实施例中可能出现的应用技术进行说明，但不用于限定以下场景的应用。

联邦学习是一种新兴的人工智能基础技术，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在多参与方或多计算节点之间开展高效率的机器学习。其中，联邦学习可使用的机器学习算法不局限于线性模型，还包括神经网络、树模型等重要算法。联邦学习有望成为下一代人工智能协同算法和协作网络的基础。

同态加密算法：是一种特殊的加密方法，允许对密文进行处理得到的仍然是加密结果，即对密文直接进行处理，根对明文处理后在对处理结果加密，得到的结果相同，从抽象代数角度讲，保持了同态性，并可以保证实现处理者无法访问到数据自身的信息。

强化学习(Reinforcement Learning,简称RL)，又称再励学习、评价学习或增强学习，是机器学习的范式和方法论之一，用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。强化学习的常见模型是标准的马尔可夫决策过程(Markov Decision Process,简称MDP)。按给定条件，强化学习可分为基于模式的强化学习(model-based RL)和无模式强化学习(model-free RL)，以及主动强化学习(active RL)和被动强化学习(passive RL)。强化学习的变体包括逆向强化学习、阶层强化学习和部分可观测系统的强化学习。求解强化学习问题所使用的算法可分为策略搜索算法和值函数(value function)算法两类。深度学习模型可以在强化学习中得到使用，形成深度强化学习。

本发明可选实施例中提供了一种联邦强化学习的系统，如图4所示，该系统主要包含4大核心功能：联邦强化学习建模可视化42、联邦强化学习在线模型服务44、联邦强化学习建模46、联邦强化学习算法功能组件48。

图5为本发明可选实施例的选择Fate联邦学习模型框架的结构示意图；

FATE Flow(作业调度)：负责对建模的全部过程进行管理和调度，包括发起任务，检测运行状态等；

FATE Federated ML(联邦强化学习算法模块)：包含了强化学习的算法功能，传统的文本生成方案有以下几个经典模型：1)词袋模型bag-of-words；2)CNN(convolutionalNeural Network，卷积神经网络，简称CNN)；3)RNN(Recurrent Neural Network，循环神经网络，简称RNN)；4)加入注意力机制的方法，但以上几种方法在应用于文本数据时有一个共同的不足之处，完全没有考虑句子的结构信息，因此，本发明可选实施例采用基于树结构的长短期记忆网络的强化学习(Tree-structured LSTM based Q-learning)；

Roll Site(负责通信)：包括将FATE flow发起的任务通过roll site向所有的party(每个参与协同训练的组织被称为一个Party)同步任务信息，将Measure内容上链以及Node Manager之间的端得到端到端通信；

FATE-Board：可视化模块；

Cluster Manager：集群管理器，负责调度计算；

Roll/Egg：分布式计算和存储的抽象；

Measure：统计元数据信息，衡量所有party的贡献。

可选的，基于上述树结构的长短期记忆网络的，需要使用策略网络来对文本从前往后扫描，得到action(删除，切开)的序列，action的序列即为该文本的表示，利用该表示再输入分类的网络进行分类。在该应用中，强化学习的reward信号来自于文本分类的准确度。进一步的通过树结构的LSTM(Long-Short Term Memory，长短期记忆网络，简称LSTM)实现文本的分类，先把字符切开连接得到短语，层层往上，得到一种层次化的结构，其中action等同为(Inside，End)的组合，状态就是当前的词与上一个词的组合，奖励就是当前类别的似然概率和结构化参数，进而使得在生成文本数据时，考虑文本数据前后的一致性。

此外，可选的，针对不同场景下用户的需求，还开发了4中功能：生成藏头诗，基于首句生成诗，基于首字生成诗和随机生成诗，对于藏头诗和基于首字生成诗，根据用户给出的各句首个字符，从数据中随机选取一首诗的最后几个字符，与用户定义的字符一同构成输入序列，利用已经训练好的模型做出预测。在预测时将上一轮预测的字符加入输入序列，如此循环多次生成最终结果；基于首句生成诗由于用户已经给出了自定义的输入序列，那么模型只需要对该序列做出预测，同样在预测时将上一轮预测的字符加入输入序列，并删除输入序列的首个字符，以保证输入的定长特性；随机生成诗的本质是随机选取诗的开头，通过对数据的随机采样，选取某一首诗的开头，将该序列作为模型输入，通过多次循环迭代，将输出结果作为生成的新诗。

通过本发明可选实施例，提出一种联邦强化学习的系统，利用同态加密算法的联邦强化学习文本生成技术，以及分布式多节点参与共享知识，最终生成统一自然语言模型的架构，进而在保护数据隐私前提下得到一种自然语言强化学习方案，进而可以解决目前已知的开源模型虽然能够较好地生成出藏头诗的结构，但基于生成的诗歌无法推断其属于唐诗，宋诗等类型，在数据预处理阶段，便通过联邦强化学习的系统进行语料进行分类。并针对不同语料调整模型参数进行训练，使得在生成诗歌阶段，选用相应的类型参数便可以得到最终结果，加快诗歌的生成效率。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，或者网络设备等)执行本发明各个实施例的方法。

在本实施例中还提供了一种文本数据的生成装置，该装置用于实现上述实施例及优选实施方式，已经进行过说明的不再赘述。如以下所使用的，术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现，但是硬件，或者软件和硬件的组合的实现也是可能并被构想的。

图6是根据本发明实施例的文本数据的生成装置的结构框图，如图6所示，该装置包括：

获取模块62，用于获取待生成的文本数据的目标要求，其中，所述目标要求至少包含以下之一：文本数据的体裁、文本数据的语料、文本数据的字数；

处理模块64，用于将所述目标要求输入到全局联邦强化学习模型中，在所述全局联邦强化学习模型所包括的多个强化学习模型中，根据选择的目标强化学习模型对所述目标要求进行处理，以生成所述待生成的文本数据。

通过上述装置，获取待生成的文本数据的目标要求，其中，所述目标要求至少包含以下之一：文本数据的体裁、文本数据的语料、文本数据的字数；将所述目标要求输入到全局联邦强化学习模型中，在所述全局联邦强化学习模型所包括的多个强化学习模型中，根据选择的目标强化学习模型对所述目标要求进行处理，以生成所述待生成的文本数据，即通过全局联邦强化学习模型可以快速的完成对待生成的文本数据的生成处理，并通过选择的目标强化学习模型对所述目标要求进行处理，使得生成的文本数据的类型稳定，采用上述技术方案，解决了相关技术中，对于文本数据的生成方式单一，并无法确定生成的文本数据的类型等问题，通过全局联邦强化学习模型，使得生成文本数据的方式更加多样，给予用户更多的个性化选择。

需要说明的是，上述各个模块是可以通过软件或硬件来实现的，对于后者，可以通过以下方式实现，但不限于此：上述模块均位于同一处理器中；或者，上述各个模块以任意组合的形式分别位于不同的处理器中。

本发明的实施例还提供了一种存储介质，该存储介质中存储有计算机程序，其中，该计算机程序被设置为运行时执行上述任一项方法实施例中的步骤。

在一个示例性实施例中，在本实施例中，上述存储介质可以被设置为存储用于执行以下步骤的计算机程序：

S1、获取待生成的文本数据的目标要求，其中，所述目标要求至少包含以下之一：文本数据的体裁、文本数据的语料、文本数据的字数；

S2、将所述目标要求输入到全局联邦强化学习模型中，在所述全局联邦强化学习模型所包括的多个强化学习模型中，根据选择的目标强化学习模型对所述目标要求进行处理，以生成所述待生成的文本数据。

本发明的实施例还提供了一种存储介质，该存储介质包括存储的程序，其中，上述程序运行时执行上述任一项的方法。

本发明的实施例还提供了一种电子装置，包括存储器和处理器，该存储器中存储有计算机程序，该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。

可选地，上述电子装置还可以包括传输设备以及输入输出设备，其中，该传输设备和上述处理器连接，该输入输出设备和上述处理器连接。

可选地，在本实施例中，上述处理器可以被设置为通过计算机程序执行以下步骤：

可选地，在本实施例中，上述存储介质可以包括但不限于：U盘、只读存储器(Read-Only Memory，简称为ROM)、随机存取存储器(Random Access Memory，简称为RAM)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

可选地，本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例，本实施例在此不再赘述。

显然，本领域的技术人员应该明白，上述的本发明的各模块或各步骤可以用通用的计算装置来实现，它们可以集中在单个的计算装置上，或者分布在多个计算装置所组成的网络上，可选地，它们可以用计算装置可执行的程序代码来实现，从而，可以将它们存储在存储装置中由计算装置来执行，并且在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤，或者将它们分别制作成各个集成电路模块，或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样，本发明不限制于任何特定的硬件和软件结合。

以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的源则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种文本数据的生成方法，其特征在于，包括：

获取待生成的文本数据的目标要求，其中，所述目标要求至少包含以下之一：文本数据的体裁、文本数据的语料、文本数据的字数；

将所述目标要求输入到全局联邦强化学习模型中，在所述全局联邦强化学习模型所包括的多个强化学习模型中，根据选择的目标强化学习模型对所述目标要求进行处理，以生成所述待生成的文本数据。

2.根据权利要求1所述的方法，其特征在于，将所述目标要求输入到全局联邦强化学习模型中，包括：

获取目标对象输出的待生成的文本数据所包含的目标字符；

将所述目标字符与所述目标要求输入至所述全局联邦强化学习模型中。

3.根据权利要求1所述的方法，其特征在于，根据选择的目标强化学习模型对所述目标要求进行处理之前，所述方法还包括：

根据输入的所述目标要求确定所述目标要求对应的强化学习，并从所述多个强化学习模型中确定所述强化学习对应的强化学习模型；

通过所述强化学习模型对所述目标要求进行强化学习，得到强化学习结果；

根据强化学习结果确定所述目标要求的目标强化学习模型。

4.根据权利要求3所述的方法，其特征在于，将所述目标要求输入到全局联邦强化学习模型中之后，所述方法还包括以下至少之一：

对所述目标要求进行同态加密处理，将同态加密处理后的目标要求输入到所述目标强化学习模型中；

对通过所述目标强化学习模型生成的所述待生成的文本数据进行同态加密处理。

5.根据权利要求3所述的方法，其特征在于，根据强化学习结果确定所述目标要求的目标强化学习模型，包括：

确定所述强化学习结果与所述目标要求的契合度；

在所述契合度大于第一阈值的情况下,将所述强化学习结果对应的强化学习模型确定为所述目标要求的目标强化学习模型，其中，所述第一阈值用于指示所述强化学习结果与所述目标要求的契合度符合要求。

6.根据权利要求1所述的方法，其特征在于，通过所述全局联邦强化学习模型对所述目标要求进行处理，生成所述目标要求对应的目标文本数据之后，所述方法还包括：

在生成的所述目标文本数据符合第二阈值的情况下，将所述目标文本数据作为所述目标要求的所述全局联邦强化学习模型的最终输出结果，其中，所述第二阈值用于指示目标文本数据与目标要求的相似度。

7.一种文本数据的生成装置，其特征在于，包括：

获取模块，用于获取待生成的文本数据的目标要求，其中，所述目标要求至少包含以下之一：文本数据的体裁、文本数据的语料、文本数据的字数；

处理模块，用于将所述目标要求输入到全局联邦强化学习模型中，在所述全局联邦强化学习模型所包括的多个强化学习模型中，根据选择的目标强化学习模型对所述目标要求进行处理，以生成所述待生成的文本数据。

8.根据权利要求7所述的装置，其特征在于，所述处理模块，还用于获取目标对象输出的待生成的文本数据所包含的目标字符；将所述目标字符与所述目标要求输入至所述全局联邦强化学习模型中。

9.一种计算机可读的存储介质，其特征在于，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行所述权利要求1至6任一项中所述的方法。

10.一种电子装置，包括存储器和处理器，其特征在于，所述存储器中存储有计算机程序，所述处理器被设置为运行所述计算机程序以执行所述权利要求1至6任一项中所述的方法。