CN112734050A - 文本模型的训练方法、识别方法、装置、设备及存储介质 - Google Patents

文本模型的训练方法、识别方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN112734050A
CN112734050A CN202011446681.6A CN202011446681A CN112734050A CN 112734050 A CN112734050 A CN 112734050A CN 202011446681 A CN202011446681 A CN 202011446681A CN 112734050 A CN112734050 A CN 112734050A
Authority
CN
China
Prior art keywords
model
text
preset
parameter information
training
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011446681.6A
Other languages
English (en)
Inventor
李志韬
王健宗
程宁
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ping An Technology Shenzhen Co Ltd
Original Assignee
Ping An Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ping An Technology Shenzhen Co Ltd filed Critical Ping An Technology Shenzhen Co Ltd
Priority to CN202011446681.6A priority Critical patent/CN112734050A/zh
Priority to PCT/CN2021/084297 priority patent/WO2022121183A1/zh
Publication of CN112734050A publication Critical patent/CN112734050A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Data Mining & Analysis (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及人工智能技术领域,公开了一种基于联邦学习的文本模型的训练方法、文本模型的识别方法、装置、计算机设备及计算机可读存储介质,该方法包括:通过获取待训练集数据,基于所述待训练集数据训练预置语言模型,得到所述预置语言模型的模型参数信息;将所述模型参数信息加密并上传至预置聚合联邦模型,以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息;基于所述聚合模型参数信息更新所述预置语言模型,得到对应的文本模型,实现保护数据隐私的基础上联合训练多个模型,并提高预测违规文本的准确率以及减少模型的训练时间。

Description

文本模型的训练方法、识别方法、装置、设备及存储介质
技术领域
本申请涉及人工智能技术领域,尤其涉及一种基于联邦学习的文本模型的训练方法、文本模型的识别方法、装置、计算机设备及计算机可读存储介质。
背景技术
违规内容识别在互联网世界被广泛应用,违规内容在互联网上广泛传播会给国家和社会造成潜在或显在的负面影响和危害。所以,如何能快速分析识别互联网中的违规内容,成为行业部门面临的挑战。违规内容的载体有很多,如文字、图片、视频、音频等。
传统的违规内容检测的做法是雇佣职业人员去筛查,标注,过滤,虽然目前引入了AI过滤,用到了语义识别、分类的技术,但不同企业平台收到不同的违规内容,但这些违规内容数据考虑到隐私性、不安全性以及不能传播共享性,难以实现联合建模。
发明内容
本申请的主要目的在于提供一种基于联邦学习的文本模型的训练方法、文本模型的识别方法、装置、计算机设备及计算机可读存储介质,旨在解决现有将数据集上传至云端作为模型训练数据的过程中,容易出现数据集泄露,损害用户的安全,且得到的训练模型预测违规内容不准确的技术问题的技术问题。
第一方面,本申请提供一种基于联邦学习的文本模型的训练方法,所述基于联邦学习的文本模型的训练方法包括以下步骤:
获取待训练集数据,基于所述待训练集数据训练预置语言模型,得到所述预置语言模型的模型参数信息;
将所述模型参数信息加密并上传至预置聚合联邦模型,以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息;
基于所述聚合模型参数信息更新所述预置语言模型,得到对应的文本模型。
第二方面,本申请提供一种基于联邦学习的文本模型的识别方法,所述基于联邦学习的文本模型的识别方法包括以下步骤:
获取待预测文本;
基于文本编码模型和所述待预测文本,获取所述文本编码模型输出所述待预测文本的第二文本语义向量信息;
基于文本识别模型和所述第二文本语义向量信息,获取所述文本识别模型输出所述第二文本语义向量信息的标签信息;
根据所述标签信息,确定所述待预测文本是否违规,其中,所述文本编码模型和所述文本识别模型为上述的基于联邦学习的文本模型的训练方法得到的。
第三方面,本申请还提供一种基于联邦学习的文本模型的训练装置,所述基于联邦学习的文本模型的训练装置包括:
第一获取模块,用于获取待训练集数据,基于所述待训练集数据训练预置语言模型,得到所述预置语言模型的模型参数信息;
第二获取模块,用于将所述模型参数信息加密并上传至预置聚合联邦模型,以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息;
生成模块,用于基于所述聚合模型参数信息更新所述预置语言模型,得到对应的文本模型。
第四方面,本申请还提供一种基于联邦学习的文本模型的训练装置,所述基于联邦学习的文本模型的训练装置包括:
第一获取模块,用于获取待预测文本;
第二获取模块,用于基于文本编码模型和所述待预测文本,获取所述文本编码模型输出所述待预测文本的第二文本语义向量信息;
第三获取模块,用于基于文本识别模型和所述第二文本语义向量信息,获取所述文本识别模型输出所述第二文本语义向量信息的标签信息;
确定模块,用于根据所述标签信息,确定所述待预测文本是否违规,其中,所述文本编码模型和所述文本识别模型为上述的基于联邦学习的文本模型的训练方法得到的。
第五方面,本申请还提供一种计算机设备,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现上述的基于联邦学习的文本模型的训练方法的步骤,和实现上述的基于联邦学习的文本识别方法的步骤。
第六方面,本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现上述的基于联邦学习的文本模型的训练方法的步骤,和实现上述的基于联邦学习的文本识别方法的步骤。
本申请提供一种基于联邦学习的文本模型的训练方法、文本模型的识别方法、装置、计算机设备及计算机可读存储介质,通过获取待训练集数据,基于所述待训练集数据训练预置语言模型,得到所述预置语言模型的模型参数信息;将所述模型参数信息加密并上传至预置聚合联邦模型,以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息;基于所述聚合模型参数信息更新所述预置语言模型,得到对应的文本模型,实现保护数据隐私的基础上联合训练多个模型,并提高预测违规文本的准确率以及减少模型的训练时间。
附图说明
为了更清楚地说明本申请实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于联邦学习的文本模型的训练方法的流程示意图;
图2为图1中的基于联邦学习的文本模型的训练方法的子步骤流程示意图;
图3是本申请实施例提供的一种多个第一模型参数信息加密和多个第二模型参数信息加密并上传至预置聚合联邦模型的示意图;
图4为图1中的基于联邦学习的文本模型的训练方法的子步骤流程示意图;
图5为本申请实施例提供的一种基于联邦学习的文本模型的识别方法的流程示意图;
图6为本申请实施例提供的一种基于联邦学习的文本模型的训练装置的示意性框图;
图7为本申请实施例提供的一种基于联邦学习的文本模型的识别装置的示意性框图;
图8为本申请一实施例涉及的计算机设备的结构示意框图。
本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
附图中所示的流程图仅是示例说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解、组合或部分合并,因此实际执行的顺序有可能根据实际情况改变。
本申请实施例提供一种基于联邦学习的文本模型的训练方法、文本模型的识别方法、装置、计算机设备及计算机可读存储介质。其中,该基于联邦学习的文本模型的训练方法和基于联邦学习的文本模型的识别方法可应用于计算机设备中,该计算机设备可以是笔记本电脑、台式电脑、服务器等电子设备。
下面结合附图,对本申请的一些实施方式作详细说明。在不冲突的情况下,下述的实施例及实施例中的特征可以相互组合。
请参照图1,图1为本申请的实施例提供的一种基于联邦学习的文本模型的训练方法的流程示意图。
如图1所示,该基于联邦学习的文本模型的训练方法包括步骤S101至步骤S103。
步骤S101、获取待训练集数据,基于所述待训练集数据训练预置语言模型,得到所述预置语言模型的模型参数信息。
示范性的,获取待训练集数据,该待训练集数据包括多个待训练文本,其中,该待训练文本包括违规内容,例如,该包括淫秽、暴力、侮辱、特殊字词等违规字词的文本,该待训练集数据存储为预置存储路径或预置区块链中。在获取到该待训练集数据时,通过该待训练集数据训练预置语言模型,得到该预置语言模型的模型参数信息,其中,该预置语言模型包括预置神经网络模型,其中,该预置语言模型为多个,具体数量不做限定,且该预置语言模型位于用户端。
在一实施例中,具体地,参照图2,步骤S101包括:子步骤S1011至子步骤S1022。
子步骤S1011、基于所述待训练文本训练所述预置预训练语言模型,获取所述预置预训练语言模型输出所述待训练文本对应的第一语义向量信息,以及获取训练后所述预置预训练语言模型的第一模型参数信息。
示范性的,预置语言模型包括预置预训练语言模型和预置双重传播模型,该预置语言模型的模型参数包括第一模型参数和第二模型参数。获取待训练集数据中的待训练文本,通过该待训练文本训练如图3所示预置预训练语言模型,获取该预置预训练语言模型输出该待训练文额不能的第一语义向量信息,其中,待训练文本包括违规字词以及对该违规字词标注的标签值,该标签值可以是1-10,也可以是1-100之间的数字值。例如,对该违规字词标注的标签值为1、5、10等;或者标签值为1、20、50、100等。该预置预训练语言模型为预置BERT模型,BERT模型的全称是 BidirectionalEncoder Representations fromTransformer,BERT模型的作用获得文本的包含丰富语义信息,即用文本的语义表示。其中,预置预训练语言模型处于用户端,一个用户端可以设置至少一个预训练语言模型。通过预置预训练语言模型的隐藏层提取待训练文本中字词,通过隐藏层的权重矩阵,得到该字词的语义向量信息,将该违规字词的语义向量信息作为第一语义向量信息,并通过输出层输出。
在获取到预置预训练模型输出的待训练文本的第一语义向量信息后,获取当前预置预训练模型的第一模型参数信息。通过预置预训练模型中的网络层对待训练文本进行特征提取,得到该待训练文本的梯度值。例如,通过该预置预训练语言模型中隐藏层的全权重矩阵得到该字词的向量特征信息,以及通过预置预训练语言模型中隐藏层的全权重矩阵得到该字词的向量特征信息,根据向量特征信息得到对应的梯度值。通过该待训练文本的梯度值更新预置预训练语言模型的模型参数,得到该预置预训练语言模型更新后的第一模型参数信息。其中,当预置预训练语言模型为多个时,分别获取各个预置预训练语言模型的第一模型参数信息和第一语义向量信息。
子步骤S1021、基于所述第一语义向量信息对所述预置双重传播模型进行训练,获取训练后所述预置双重传播模型的第二模型参数信息。
示范性的,该预置双重传播模型为BiLSTM模型(Bi-directional Long Short-Term Memory),是由前向LSTM与后向LSTM组合而成。在得到预置预训练语言模型输出待训练文本对应的第一语义向量信息,通过该第一语义向量信息训练预置双重传播模型,得到训练后预置双重传播模型的第二模型参数信息,例如,通过预置双重传播模型中的网络层对第一语义向量信息进行特征提取,得到该第一语义向量信息对应标签值的梯度值。例如,通过该预置双重传播模型中隐藏层的全权重矩阵得到该标签值的向量特征信息,以及通过预置双重传播模型中隐藏层的全权重矩阵得到标签值的向量特征信息,根据向量特征信息得到对应的梯度值。通过该待训练文本的梯度值更新预置双重传播模型的模型参数,得到该预置双重传播模型更新后的第二模型参数信息。其中,当预置双重传播模型为多个时,分别获取各个预置双重传播模型的第二模型参数信息。
步骤S102、将所述模型参数信息加密并上传至预置聚合联邦模型,以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息。
示范性的,该预置聚合联邦模型位于服务器中,向服务器发送上传请求,接收服务器发送的的加密公钥,通过该加密公钥对各个预置语言模型的模型参数进行加密,将加密后的模型参数发送至服务器。服务器在接收到加密后的模型参数时,分别对各个加密后的模型参数进行解密,获取解密后各个预置语言模型的模型参数。通过服务器中预置聚合联邦模型对各个模型参数进行学习,得到对应的聚合模型参数,将得到的聚合模型参数返回至各个预置语言模型。其中,聚合联邦模型包括聚合横向联邦模型、聚合纵向联邦模型以及聚合联邦迁移模型等类型。
需要说明的是,联邦学习是指通过联合不同的客户端或参与者进行机器学习建模的方法。在联邦学习中,客户端不需要向其它客户端和协调者(也称为服务器)暴露自己所拥有的数据,因而联邦学习可以很好的保护用户隐私和保障数据安全,并可以解决数据孤岛问题。联邦学习具有以下优势:数据隔离,数据不会泄露到外部,满足用户隐私保护和数据安全的需求;能够保证联邦学习模型的质量无损,不会出现负迁移,保证联邦学习模型比割裂的独立模型效果好;能够保证各客户端在保持独立性的情况下,进行信息与模型参数的加密交换,并同时获得成长。
在一实时例中,所述模型参数信息包括第一模型参数信息和第二模型参数信息;所述将所述模型参数信息加密并上传至预置聚合联邦模型,以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息,包括:将所述第一模型参数信息加密并上传至预置聚合联邦模型,获取所述预置聚合联邦模型对所述第一模型参数信息进行横向联邦学习后返回的第一聚合模型参数信息;将所述第二模型参数信息加密并上传至预置聚合联邦模型,获取所述预置聚合联邦模型对所述第二模型参数信息进行横向联邦学习后返回的第二聚合模型参数信息。
示范性的,接收服务器发送的公钥,其中,该公钥的数量为多个。例如,该公钥的数量为两个时,即第一公钥和第二公钥。通过接收到的公钥分别对各个预置预训练语言模型的第一模型参数信息和各个预置双重传播模型的第二模型参数信息进行加密。例如,在接收到第一公钥和第二公钥时,第一公钥和第二公钥分别对各个预置预训练语言模型的第一模型参数信息,以及对各个预置双重传播模型的第二模型参数信息进行加密。
在通过公钥对各个预置预训练语言模型的第一模型参数信息和各个预置双重传播模型的第二模型参数信息进行加密后,如图3所示,各个预置预训练语言模型和预置双重传播模型采用不经意传输的一种构造方法,建立秘密通信通道,将加密处理后的各个预置预训练语言模型的第一模型参数信息和各个预置双重传播模型的第二模型参数通过该秘密通信通道发送至服务器。在第一公钥和第二公钥分别对各个预置预训练语言模型的第一模型参数信息进行加密,以及第一公钥和第二公钥分别对各个预置双重传播模型的第二模型参数信息进行加密时,通过秘密通信通道,将第一公钥加密的各个预置预训练语言模型第一模型参数信息和第二公钥加密的各个预置预训练语言模型的第二模型参数,以及第一公钥加密的各个预置双重传播模型的第二模型参数和第二公钥加密的各个预置双重传播模型的第二模型参数信息发送至服务器。
服务器对接收到加密后的各个预置预训练语言模型的第一模型参数信息和各个预置双重传播模型的第二模型参数信息进行解密。例如,接收第一公钥加密的各个预置预训练语言模型的第一模型参数信息和第二公钥加密的各个预置预训练语言模型的的第一模型参数信息,以及第一公钥加密的各个预置双重传播模型的第一模型参数信息和第二公钥加密的各个预置双重传播模型的第一模型参数信息时,通过私钥随机对第一公钥加密的各个预置预训练语言模型的第一模型参数信息和第二公钥加密的各个预置预训练语言模型的第一模型参数信息,以及对第一公钥加密的各个预置双重传播模型的第一模型参数信息和第二公钥加密的各个预置双重传播模型的第一模型参数信息进行解密。其中,私钥与第一公钥或第二公钥对应,即私钥解密第一公钥或解密第二公钥。在通过私钥解密第一公钥加密的预置预训练语言模型的第一模型参数信息和第二公钥加密的各个预置预训练语言模型的第一模型参数信息,得到各个预置预训练语言模型的第一模型参数信息,通过私钥解密各个预置双重传播模型的第一模型参数信息和第二公钥加密的各个预置双重传播模型的第一模型参数信息,得到各个预置双重传播模型的第一模型参数信息。
通过服务器中的横向联邦学习机制学习各个预置预训练语言模型的第一模型参数信息的交集特征对应的参数,通过平均计算交集特征对应的参数,得到对应的第一聚合模型参数,并将该第一聚合模型参数返回至各个预置预训练语言模型。通过服务器中的横向联邦学习机制学习各个预置双重传播模型的第二模型参数信息的交集特征对应的参数,通过平均计算交集特征对应的参数,得到对应的第二聚合模型参数,并将该第二聚合模型参数返回至各个预置双重传播模型。
步骤S103、基于所述聚合模型参数信息更新所述预置语言模型,得到对应的文本模型。
示范例的,在接收到聚合联邦模型返回的聚合模型参数信息,通过将该聚合模型参数信息更新各个预置语言模型的模型参数信息,将更新聚合模型参数信息后的各个预置语言模型生成对应的文本模型。
在一实施例中,具体地,参照图4,步骤S103包括:子步骤S1031至子步骤S1032。
子步骤S1031、基于所述第一聚合模型参数信息更新所述预置预训练语言模型的第一模型参数信息,生成对应的文本编码模型。
示范例的,通过将聚合联邦模型返回的第一聚合模型参数信息更新预置预训练语言模型的第一模型参数信息,将更新后的预置预训练语言模型生成对应的文本编码模型。其中,预置预训练语言模型为多个时,分别处于不同用户端时,通过将聚合联邦模型返回的第一聚合模型参数信息更新各个预置预训练语言模型的第二模型参数信息,将将更新后的各个预置预训练语言模型分别生成对应的文本编码模型。
子步骤S1032、基于所述第二聚合模型参数更新所述预置双重传播模型的第二模型参数,生成对应的文本识别模型。
示范例的,通过将聚合联邦模型返回的第二聚合模型参数信息更新预置双重传播模型的第二模型参数信息,将更新后的预置双重传播模型生成对应的文本识别模型,其中,预置双重传播模型为多个时,分别处于不同用户端时,通过将聚合联邦模型返回的第二聚合模型参数信息更新各个预置双重传播模型的第二模型参数信息,将将更新后的各个预置双重传播模型分别生成对应的文本识别模型。
在一实时例中,所述生成对应的文本编码模型和/或生成对应的文本识别模型之前,包括:确定所述预置预训练语言模型和/或所述预置双重传播模型是否处于收敛状态;若确定所述预置预训练语言模型和/或预置双重传播模型处于收敛状态,则将所述预置预训练语言模型作为文本编码模型和/或将所述预置双重传播模型作为文本识别模型;若所述预置预训练语言模型和/或所述预置双重传播模型未处于收敛状态,则根据预置待训练样本数据训练所述预置预训练语言模型和/或所述预置双重传播模型,得到训练后所述预置预训练语言模型的第三模型参数信息和/或所述预置双重传播模型的第四模型参数信息。
示范性的,确定预置预训练语言模型和/或预置双重传播模型是否处于收敛状态。例如,将该第一聚合模型参数信息与之前记录的第一聚合模型参数信息进行比对,若该第一聚合模型参数信息与之前记录的第一聚合模型参数信息相同,或者,该第一聚合模型参数信息与之前记录的第一聚合模型参数信息的差值小于预置差值,则确定该预置预训练语言模型处于收敛状态;和/ 或,将该第二聚合模型参数信息与之前记录的第二聚合模型参数信息进行比对,若该第二聚合模型参数信息与之前记录的第二聚合模型参数信息相同,或者,该第二聚合模型参数信息与之前记录的第二聚合模型参数信息的差值小于预置差值,则确定该预置双重传播模型处于收敛状态。
例如,将该第一聚合模型参数信息与之前记录的第一聚合模型参数信息进行比对,若该第一聚合模型参数信息与之前记录的第一聚合模型参数信息不相同,或者,该第一聚合模型参数信息与之前记录的第一聚合模型参数信息的差值大于或等于预置差值,则确定该预置预训练语言模型未处于收敛状态;和/或,将该第二聚合模型参数信息与之前记录的第二聚合模型参数信息进行比对,若该第二聚合模型参数信息与之前记录的第二聚合模型参数信息不相同,或者,该第二聚合模型参数信息与之前记录的第二聚合模型参数信息的差值大于或等于预置差值,则确定该预置双重传播模型未处于收敛状态。
若确定预置预训练语言模型处于收敛状态,则将所述预置预训练语言模型作为文本编码模型;和/或,若确定预置双重传播模型处于收敛状态,则将预置双重传播模型作为文本识别模型。
若确定预置预训练语言模型未处于收敛状态,则根据预置待训练样本数据训练继续训练预置预训练语言模型,得到训练后预置预训练语言模型的第三模型参数信息和第二语义向量信息;和/或,若确定预置双重传播模型未处于收敛状态,则根据第二语义向量信息继续训练预置双重传播模型,得到训练后的第四模型参数信息,并将该第三模型参数信息和/或第四模型参数信息上传至聚合联邦模型进行联邦学习。
在本发明实施例中,通过待训练集数据对预置语言模型进行训练,得到预置语言模型的模型参数信息,通过聚合联邦模型对模型参数信息进行联邦学习,得到聚合模型参数信息,并通该聚合模型参数信息更新预置语言模型的模型参数信息,生成对应的文本模型,实现保护数据隐私的基础上联合训练多个模型,并提高预测违规文本的准确率以及减少模型的训练时间。
请参照图5,图5为本申请的实施例提供的一种基于联邦学习的文本模型的识别方法的流程示意图。
如图5所示,该基于联邦学习的文本模型的识别方法包括步骤S201至步骤S204。
步骤S201、获取待预测文本。
示范性的,获取待预测文本,该待预测文本包含违规字词或不违规字词,且为通过网络检测到用户发送的语句或短句等。
步骤S202、基于文本编码模型和所述待预测文本,获取所述文本编码模型输出所述待预测文本的第二文本语义向量信息。
示范性的,通过文本编码模型对该待预测文本进行语义预测,得到该待预测文本的第二文本语义向量信息。例如,通过文本编码模型的隐藏层提取待预测文本中各个字词的语义向量,将得到的语义向量进行组合,得到该待预测文本的第二文本语义向量信息。
步骤S203、基于文本识别模型和所述第二文本语义向量信息,获取所述文本识别模型输出所述第二文本语义向量信息的标签信息。
示范性的,通过文本识别模型对该第二文本语义向量信息进行预测,得到该第二文本语义向量信息的标签信息。例如,通过文本识别模型的隐藏层提取第二文本语义向量信息中各个字词的语义向量,对各个字词的语义向量进行映射,得到该第二文本语义向量信息的标签信息。
步骤S204、根据所述标签信息,确定所述待预测文本是否违规,其中,所述文本编码模型和所述文本识别模型为上述的基于联邦学习的文本模型的训练方法得到的。
示范性的,在获取到该标签信息时,基于该标签信息确定该待预测文本是否违规。例如,该标签信息为标签值时,将该标签值与预置标签值进行比对,若该标签值大于或等于预置标签值时,确定该待预测文本是违规内容;若确定该标签值小于预置标签值,则确定该待预测文本不是违规内容,其中,该文本编码模型和文本识别模型为上述的基于联邦学习的文本模型的训练方法得到的。
在本发明实施例中,通过文本编码模型得到待预测文本的第二文本语义向量信息,通过文本识别模型得到该第二文本语义向量信息的标签信息,通过标签信息确定该待预测文本是否为违规内容,其中,该文本编码模型和文本识别模型都是通过联邦学习得到,从而提高了文本编码模型和文本识别模型的准确率。
请参照图6,图6为本申请实施例提供的一种基于联邦学习的文本模型的训练装置的示意性框图。
如图6所示,该基于联邦学习的文本模型的训练装置400,包括:第一获取模块401、第二获取模块402、生成模块403。
第一获取模块401,用于获取待训练集数据,基于所述待训练集数据训练预置语言模型,得到所述预置语言模型的模型参数信息;
第二获取模块402,用于将所述模型参数信息加密并上传至预置聚合联邦模型,以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息;
生成模块403,用于基于所述聚合模型参数信息更新所述预置语言模型,得到对应的文本模型。
其中,第一获取模块401具体还用于:
基于所述待训练文本训练所述预置预训练语言模型,获取所述预置预训练语言模型输出所述待训练文本对应的第一语义向量信息,以及获取训练后所述预置预训练语言模型的第一模型参数信息;
基于所述第一语义向量信息对所述预置双重传播模型进行训练,获取训练后所述预置双重传播模型的第二模型参数信息。
其中,第二获取模块402具体还用于:
将所述第一模型参数信息加密并上传至预置聚合联邦模型,获取所述预置聚合联邦模型对所述第一模型参数信息进行横向联邦学习后返回的第一聚合模型参数信息;
将所述第二模型参数信息加密并上传至预置聚合联邦模型,获取所述预置聚合联邦模型对所述第二模型参数信息进行横向联邦学习后返回的第二聚合模型参数信息。
其中,生成模块403具体还用于:
基于所述第一聚合模型参数信息更新所述预置预训练语言模型的第一模型参数信息,生成对应的文本编码模型;
基于所述第二聚合模型参数更新所述预置双重传播模型的第二模型参数,生成对应的文本识别模型。
其中,生成模块403具体还用于:
确定所述预置预训练语言模型和/或所述预置双重传播模型是否处于收敛状态;
若确定所述预置预训练语言模型和/或预置双重传播模型处于收敛状态,则将所述预置预训练语言模型作为文本编码模型和/或将所述预置双重传播模型作为文本识别模型;
若所述预置预训练语言模型和/或所述预置双重传播模型未处于收敛状态,则根据预置待训练样本数据训练所述预置预训练语言模型和/或所述预置双重传播模型,得到训练后所述预置预训练语言模型的第三模型参数信息和/ 或所述预置双重传播模型的第四模型参数信息。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述基于基于联邦学习的文本模型的训练方法实施例中的对应过程,在此不再赘述。
请参照图7,图7为本申请实施例提供的一种基于联邦学习的文本模型的识别装置的示意性框图。
如图7所示,该基于联邦学习的文本模型的识别装置500,包括:第一获取模块501、第二获取模块502、第三获取模块503、确定模块504。
第一获取模块501,用于获取待预测文本;
第二获取模块502,用于基于文本编码模型和所述待预测文本,获取所述文本编码模型输出所述待预测文本的第二文本语义向量信息;
第三获取模块503,用于基于文本识别模型和所述第二文本语义向量信息,获取所述文本识别模型输出所述第二文本语义向量信息的标签信息;
确定模块504,用于根据所述标签信息,确定所述待预测文本是否违规,其中,所述文本编码模型和所述文本识别模型为上述的基于联邦学习的文本模型的训练方法得到的。
需要说明的是,所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的装置和各模块及单元的具体工作过程,可以参考前述基于联邦学习的文本模型的识别方法实施例中的对应过程,在此不再赘述。
上述实施例提供的装置可以实现为一种计算机程序的形式,该计算机程序可以在如图8所示的计算机设备上运行。
请参阅图8,图8为本申请实施例提供的一种计算机设备的结构示意性框图。该计算机设备可以为终端。
如图8所示,该计算机设备包括通过系统总线连接的处理器、存储器和网络接口,其中,存储器可以包括非易失性存储介质和内存储器。
非易失性存储介质可存储操作系统和计算机程序。该计算机程序包括程序指令,该程序指令被执行时,可使得处理器执行任意一种基于联邦学习的文本模型的训练方法和基于联邦学习的文本模型的识别方法。
处理器用于提供计算和控制能力,支撑整个计算机设备的运行。
内存储器为非易失性存储介质中的计算机程序的运行提供环境,该计算机程序被处理器执行时,可使得处理器执行任意一种基于联邦学习的文本模型的训练方法和基于联邦学习的文本模型的识别方法。
该网络接口用于进行网络通信,如发送分配的任务等。本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
应当理解的是,处理器可以是中央处理单元(Central Processing Unit, CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit, ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
其中,在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待训练集数据,基于所述待训练集数据训练预置语言模型,得到所述预置语言模型的模型参数信息;
将所述模型参数信息加密并上传至预置聚合联邦模型,以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息;
基于所述聚合模型参数信息更新所述预置语言模型,得到对应的文本模型。
在一个实施例中,所述处理器所述待训练集数据包括待训练文本,所述预置语言模型包括预置预训练语言模型和预置双重传播模型,所述模型参数信息包括第一模型参数信息和第二模型参数信息;
所述基于所述待训练集数据训练预置语言模型,得到所述预置语言模型的模型参数信息实现时,用于实现:
基于所述待训练文本训练所述预置预训练语言模型,获取所述预置预训练语言模型输出所述待训练文本对应的第一语义向量信息,以及获取训练后所述预置预训练语言模型的第一模型参数信息;
基于所述第一语义向量信息对所述预置双重传播模型进行训练,获取训练后所述预置双重传播模型的第二模型参数信息。
在一个实施例中,所述处理器所述模型参数信息包括第一模型参数信息和第二模型参数信息;
所述将所述模型参数信息加密并上传至预置聚合联邦模型,以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息实现时,用于实现:
将所述第一模型参数信息加密并上传至预置聚合联邦模型,获取所述预置聚合联邦模型对所述第一模型参数信息进行横向联邦学习后返回的第一聚合模型参数信息;
将所述第二模型参数信息加密并上传至预置聚合联邦模型,获取所述预置聚合联邦模型对所述第二模型参数信息进行横向联邦学习后返回的第二聚合模型参数信息。
在一个实施例中,所述处理器所述预置语言模型包括预置预训练语言模型和预置双重传播模型,所述文本模型包括文本编码模型和文本识别模型;
所述基于所述聚合模型参数信息更新所述预置待训练语言模型,得到对应的文本模型实现时,用于实现:
基于所述第一聚合模型参数信息更新所述预置预训练语言模型的第一模型参数信息,生成对应的文本编码模型;
基于所述第二聚合模型参数更新所述预置双重传播模型的第二模型参数,生成对应的文本识别模型。
在一个实施例中,所述处理器所述生成对应的文本编码模型和/或生成对应的文本识别模型之前实现时,用于实现:
确定所述预置预训练语言模型和/或所述预置双重传播模型是否处于收敛状态;
若确定所述预置预训练语言模型和/或预置双重传播模型处于收敛状态,则将所述预置预训练语言模型作为文本编码模型和/或将所述预置双重传播模型作为文本识别模型;
若所述预置预训练语言模型和/或所述预置双重传播模型未处于收敛状态,则根据预置待训练样本数据训练所述预置预训练语言模型和/或所述预置双重传播模型,得到训练后所述预置预训练语言模型的第三模型参数信息和/ 或所述预置双重传播模型的第四模型参数信息。
在一个实施例中,所述处理器用于运行存储在存储器中的计算机程序,以实现如下步骤:
获取待预测文本;
基于文本编码模型和所述待预测文本,获取所述文本编码模型输出所述待预测文本的第二文本语义向量信息;
基于文本识别模型和所述第二文本语义向量信息,获取所述文本识别模型输出所述第二文本语义向量信息的标签信息;
根据所述标签信息,确定所述待预测文本是否违规,其中,所述文本编码模型和所述文本识别模型为上述的基于联邦学习的文本模型的训练方法得到的。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序中包括程序指令,所述程序指令被执行时所实现的方法可参照本申请基于联邦学习的文本模型的训练方法和基于联邦学习的文本模型的识别方法的各个实施例。
其中,所述计算机可读存储介质可以是前述实施例所述的计算机设备的内部存储单元,例如所述计算机设备的硬盘或内存。所述计算机可读存储介质也可以是所述计算机设备的外部存储设备,例如所述计算机设备上配备的插接式硬盘,智能存储卡(SmartMedia Card,SMC),安全数字(Secure Digital, SD)卡,闪存卡(Flash Card)等。
进一步地,所述计算机可读存储介质可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是预置预训练语言模型、预置双重传播模型、文本编码模型和文本识别模型的存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以权利要求的保护范围为准。

Claims (10)

1.一种基于联邦学习的文本模型的训练方法,其特征在于,包括:
获取待训练集数据,基于所述待训练集数据训练预置语言模型,得到所述预置语言模型的模型参数信息;
将所述模型参数信息加密并上传至预置聚合联邦模型,以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息;
基于所述聚合模型参数信息更新所述预置语言模型,得到对应的文本模型。
2.如权利要求1所述的基于联邦学习的文本模型的训练方法,其特征在于,所述待训练集数据包括待训练文本,所述预置语言模型包括预置预训练语言模型和预置双重传播模型,所述模型参数信息包括第一模型参数信息和第二模型参数信息;
所述基于所述待训练集数据训练预置语言模型,得到所述预置语言模型的模型参数信息,包括:
基于所述待训练文本训练所述预置预训练语言模型,获取所述预置预训练语言模型输出所述待训练文本对应的第一语义向量信息,以及获取训练后所述预置预训练语言模型的第一模型参数信息;
基于所述第一语义向量信息对所述预置双重传播模型进行训练,获取训练后所述预置双重传播模型的第二模型参数信息。
3.如权利要求1所述的基于联邦学习的文本模型的训练方法,其特征在于,所述模型参数信息包括第一模型参数信息和第二模型参数信息;
所述将所述模型参数信息加密并上传至预置聚合联邦模型,以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息,包括:
将所述第一模型参数信息加密并上传至预置聚合联邦模型,获取所述预置聚合联邦模型对所述第一模型参数信息进行横向联邦学习后返回的第一聚合模型参数信息;
将所述第二模型参数信息加密并上传至预置聚合联邦模型,获取所述预置聚合联邦模型对所述第二模型参数信息进行横向联邦学习后返回的第二聚合模型参数信息。
4.如权利要求3所述的基于联邦学习的文本模型的训练方法,其特征在于,所述预置语言模型包括预置预训练语言模型和预置双重传播模型,所述文本模型包括文本编码模型和文本识别模型;
所述基于所述聚合模型参数信息更新所述预置待训练语言模型,得到对应的文本模型,包括:
基于所述第一聚合模型参数信息更新所述预置预训练语言模型的第一模型参数信息,生成对应的文本编码模型;
基于所述第二聚合模型参数更新所述预置双重传播模型的第二模型参数,生成对应的文本识别模型。
5.如权利要求4所述的基于联邦学习的文本模型的训练方法,其特征在于,所述生成对应的文本编码模型和/或生成对应的文本识别模型之前,包括:
确定所述预置预训练语言模型和/或所述预置双重传播模型是否处于收敛状态;
若确定所述预置预训练语言模型和/或预置双重传播模型处于收敛状态,则将所述预置预训练语言模型作为文本编码模型和/或将所述预置双重传播模型作为文本识别模型;
若所述预置预训练语言模型和/或所述预置双重传播模型未处于收敛状态,则根据预置待训练样本数据训练所述预置预训练语言模型和/或所述预置双重传播模型,得到训练后所述预置预训练语言模型的第三模型参数信息和/或所述预置双重传播模型的第四模型参数信息。
6.一种基于联邦学习的文本模型的识别方法,其特征在于,包括:
获取待预测文本;
基于文本编码模型和所述待预测文本,获取所述文本编码模型输出所述待预测文本的第二文本语义向量信息;
基于文本识别模型和所述第二文本语义向量信息,获取所述文本识别模型输出所述第二文本语义向量信息的标签信息;
根据所述标签信息,确定所述待预测文本是否违规,其中,所述文本编码模型和所述文本识别模型为如权利要求1-5所述的基于联邦学习的文本模型的训练方法得到的。
7.一种基于联邦学习的文本模型的训练装置,其特征在于,包括:
第一获取模块,用于获取待训练集数据,基于所述待训练集数据训练预置语言模型,得到所述预置语言模型的模型参数信息;
第二获取模块,用于将所述模型参数信息加密并上传至预置聚合联邦模型,以获取所述预置聚合联邦模型对所述模型参数信息进行联邦学习后返回的聚合模型参数信息;
生成模块,用于基于所述聚合模型参数信息更新所述预置语言模型,得到对应的文本模型。
8.一种基于联邦学习的文本模型的识别装置,其特征在于,包括:
第一获取模块,用于获取待预测文本;
第二获取模块,用于基于文本编码模型和所述待预测文本,获取所述文本编码模型输出所述待预测文本的第二文本语义向量信息;
第三获取模块,用于基于文本识别模型和所述第二文本语义向量信息,获取所述文本识别模型输出所述第二文本语义向量信息的标签信息;
确定模块,用于根据所述标签信息,确定所述待预测文本是否违规,其中,所述文本编码模型和所述文本识别模型为如权利要求1-5所述的基于联邦学习的文本模型的训练方法得到的。
9.一种计算机设备,其特征在于,所述计算机设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至5中任一项所述的基于联邦学习的文本模型的训练方法的步骤,和实现如权利要求6所述的基于联邦学习的文本识别方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至5中任一项所述的基于联邦学习的文本模型的训练方法的步骤,和实现如权利要求6所述的基于联邦学习的文本识别方法的步骤。
CN202011446681.6A 2020-12-11 2020-12-11 文本模型的训练方法、识别方法、装置、设备及存储介质 Pending CN112734050A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011446681.6A CN112734050A (zh) 2020-12-11 2020-12-11 文本模型的训练方法、识别方法、装置、设备及存储介质
PCT/CN2021/084297 WO2022121183A1 (zh) 2020-12-11 2021-03-31 文本模型的训练方法、识别方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011446681.6A CN112734050A (zh) 2020-12-11 2020-12-11 文本模型的训练方法、识别方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN112734050A true CN112734050A (zh) 2021-04-30

Family

ID=75599292

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011446681.6A Pending CN112734050A (zh) 2020-12-11 2020-12-11 文本模型的训练方法、识别方法、装置、设备及存储介质

Country Status (2)

Country Link
CN (1) CN112734050A (zh)
WO (1) WO2022121183A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118530A (zh) * 2021-11-04 2022-03-01 杭州经纬信息技术股份有限公司 一种基于多户电力消耗预测模型的预测方法及装置

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117540829B (zh) * 2023-10-18 2024-05-17 广西壮族自治区通信产业服务有限公司技术服务分公司 一种知识共享的大语言模型协同优化方法和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20180089587A1 (en) * 2016-09-26 2018-03-29 Google Inc. Systems and Methods for Communication Efficient Distributed Mean Estimation
CN109543030B (zh) * 2018-10-12 2023-04-07 平安科技(深圳)有限公司 客服机器人会话文本分类方法及装置、设备、存储介质
CN110457585B (zh) * 2019-08-13 2023-11-07 腾讯科技(深圳)有限公司 负面文本的推送方法、装置、系统及计算机设备
CN111669757B (zh) * 2020-06-15 2023-03-14 国家计算机网络与信息安全管理中心 一种基于通话文本词向量的终端诈骗电话识别方法
CN111966875B (zh) * 2020-08-18 2023-08-22 中国银行股份有限公司 一种敏感信息识别方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114118530A (zh) * 2021-11-04 2022-03-01 杭州经纬信息技术股份有限公司 一种基于多户电力消耗预测模型的预测方法及装置

Also Published As

Publication number Publication date
WO2022121183A1 (zh) 2022-06-16

Similar Documents

Publication Publication Date Title
CN110189192B (zh) 一种信息推荐模型的生成方法及装置
US20210409191A1 (en) Secure Machine Learning Analytics Using Homomorphic Encryption
CN111784001B (zh) 一种模型训练方法、设备及计算机可读存储介质
US20220245472A1 (en) Data processing method and apparatus, and non-transitory computer readable storage medium
CN110598442A (zh) 一种敏感数据自适应的脱敏方法、系统
CN107113183A (zh) 大数据的受控共享的系统和方法
US11032251B2 (en) AI-powered cyber data concealment and targeted mission execution
CN112446791A (zh) 基于联邦学习的车险评分方法、装置、设备及存储介质
CN111612167A (zh) 机器学习模型的联合训练方法、装置、设备及存储介质
CN109977684A (zh) 一种数据传输方法、装置及终端设备
CN112734050A (zh) 文本模型的训练方法、识别方法、装置、设备及存储介质
CN113542228A (zh) 基于联邦学习的数据传输方法、装置以及可读存储介质
CN114611008A (zh) 基于联邦学习的用户服务策略确定方法、装置及电子设备
CN113779355A (zh) 基于区块链的网络谣言溯源取证方法及系统
Li Combination of blockchain and AI for music intellectual property protection
US20160182462A1 (en) Data view based on context
CN112818370A (zh) 信息验证方法、装置、电子设备、系统和介质
Althati et al. Scalable Machine Learning Solutions for Heterogeneous Data in Distributed Data Platform
CN105678185B (zh) 一种数据安全保护方法以及智能终端管理系统
CN108140336B (zh) 秘密认证码附加装置、秘密认证码附加方法以及记录介质
Agarwal et al. Object detection framework to generate secret shares
CN115643090A (zh) 基于隐私检索的纵向联邦分析方法、装置、设备及介质
Sharma et al. An efficient hybrid approach for secure speech cryptography
US11809588B1 (en) Protecting membership in multi-identification secure computation and communication
Jaber et al. Application of image encryption based improved chaotic sequence complexity algorithm in the area of ubiquitous wireless technologies

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination