CN116775639A

CN116775639A - 数据处理方法、存储介质及电子设备

Info

Publication number: CN116775639A
Application number: CN202310998061.0A
Authority: CN
Inventors: 陆承镪; 任宣丞; 周畅; 党凯; 崔泽宇; 周靖人
Original assignee: Alibaba China Co Ltd
Current assignee: Alibaba China Co Ltd
Priority date: 2023-08-08
Filing date: 2023-08-08
Publication date: 2023-09-19

Abstract

本申请公开了一种数据处理方法、存储介质及电子设备。其中，该方法包括：获取待处理的源数据；采用预设数据过滤方式对源数据进行过滤处理，得到第一过滤结果；采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果；基于清洗结果确定预训练数据。本申请解决了相关技术中从互联网获取大规模语言模型预训练语料时的数据处理效率低、预训练语料质量差的技术问题。

Description

数据处理方法、存储介质及电子设备

技术领域

本申请涉及计算机技术领域，具体而言，涉及一种数据处理方法、存储介质及电子设备。

背景技术

随着人工智能技术的发展，出现了越来越多的大型预训练语言模型，这种大型预训练语言模型能够利用人工智能技术来理解自然语言，从而用于回答问题和完成任务。对于大规模预训练语言模型而言，训练语料的质量和数量对语言模型的表现存在直接的影响。相关技术中，采用海量的公开数据源进行模型预训练时，由于难以区分数据源中的数据源中的高质量数据和低质量数据并且待处理的数据量非常庞大，从而无法兼顾数据处理效率和数据处理质量，难以满足大规模预训练语言模型的数据要求。

针对上述的问题，目前尚未提出有效的解决方案。

发明内容

本申请实施例提供了一种数据处理方法、存储介质及电子设备，以至少解决相关技术中从互联网获取大规模语言模型预训练语料时的数据处理效率低、预训练语料质量差的技术问题。

根据本申请实施例的一个方面，提供了一种数据处理方法，包括：获取待处理的源数据；采用预设数据过滤方式对源数据进行过滤处理，得到第一过滤结果，其中，预设数据过滤方式包括多个数据过滤环节，多个数据过滤环节用于从数据过滤关联的多个质量维度对源数据进行数据过滤；采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果，其中，预设数据清洗方式包括多个数据清洗环节，多个数据清洗环节用于从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗；基于清洗结果确定预训练数据，其中，预训练数据为目标语言模型在预训练阶段待使用的预训练语料。

根据本申请实施例的另一方面，还提供了一种模型训练方法，包括：获取待处理的源数据；采用预设数据过滤方式对源数据进行过滤处理，得到第一过滤结果，以及采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果，其中，预设数据过滤方式包括多个数据过滤环节，多个数据过滤环节用于从数据过滤关联的多个质量维度对源数据进行数据过滤，预设数据清洗方式包括多个数据清洗环节，多个数据清洗环节用于从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗；基于清洗结果对目标语言模型进行预训练。

根据本申请实施例的另一方面，还提供了一种计算机可读存储介质，计算机可读存储介质包括存储的程序，其中，在程序运行时控制计算机可读存储介质所在设备执行本申请实施例中任意一项的数据处理方法或本申请实施例中的模型训练方法。

根据本申请实施例的另一方面，还提供了一种电子设备，包括：处理器；以及存储器，与处理器连接，用于为处理器提供处理以下处理步骤的指令：获取待处理的源数据；采用预设数据过滤方式对源数据进行过滤处理，得到第一过滤结果，其中，预设数据过滤方式包括多个数据过滤环节，多个数据过滤环节用于从数据过滤关联的多个质量维度对源数据进行数据过滤；采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果，其中，预设数据清洗方式包括多个数据清洗环节，多个数据清洗环节用于从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗；基于清洗结果确定预训练数据，其中，预训练数据为目标语言模型在预训练阶段待使用的预训练预料。

在本申请实施例中，通过获取待处理的源数据，进而从数据过滤关联的多个质量维度对源数据进行数据过滤，得到第一过滤结果，随后从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗，得到清洗结果，最后基于清洗结果确定目标语言模型在预训练阶段待使用的预训练语料，达到了快速从源数据中确定目标语言模型在预训练阶段待使用的预训练语料的目的，从而实现了提高获取预训练语料时的数据处理效率和预训练语料质量的技术效果，进而解决了相关技术中从互联网获取大规模语言模型预训练语料时的数据处理效率低、预训练语料质量差的技术问题。

容易注意到的是，上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释，并不构成对本申请的限定。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1示出了一种用于实现数据处理方法的计算机终端（或移动设备）的硬件结构框图；

图2是根据本申请实施例1的一种数据处理方法的流程图；

图3是根据本申请实施例1的一种数据处理方法的示意图；

图4是根据本申请实施例2的一种模型训练方法的过程示意图；

图5是根据本申请实施例1的一种数据处理装置的结构框图；

图6是根据本申请实施例2的一种模型训练装置的结构框图；

图7是根据本申请实施例的一种计算机终端的结构框图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分的实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本申请保护的范围。

需要说明的是，本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

首先，在对本申请实施例进行描述的过程中出现的部分名词或术语适用于如下解释：

逻辑回归模型（Logistic Regression，LR）：是一种对数几率模型，在数据挖掘常用作二分类模型。

梯度提升决策树（Gradient-Boosted Decision Tree，GBDT）：是一种常用的决策树模型，通常被用于数据分类。

最小哈希局部敏感哈希（MinHash Locality Sensitive Hashing，MinHash LSH）：是一种信息检索领域常用的数据去重方法。

互联网网页数据作为一种海量的公开数据源，其数量之大可以很好满足大规模语言模型的预训练需求。但是，海量网页数据也存在着数据质量良莠不齐的问题，即高质量数据和低质量数据相互混杂难以高效区分，与此同时，海量数据也对数据处理速度提出了更高的要求。

相关技术中在处理互联网网页数据时，可以使用语言模型分数过滤、二分类过滤等技术获取训练语料，但是这种方法中缺乏针对不良语料的处理以及针对规则的处理，从而无法保证数据处理质量；相关技术中的数据处理流程中还可以使用LR模型进行质量分类，以及使用MinHash LSH进行去重处理，但是这种方式难以满足与海量互联网网页数据进行处理时的数据处理速度要求。

综上可知，相关技术中存在获取大规模语言模型预训练语料时的数据处理效率低、预训练语料质量差的技术问题，针对上述的问题，目前尚未提出有效的解决方案。

实施例1

根据本申请实施例，还提供了一种数据处理的方法实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

本申请实施例1所提供的方法实施例可以在移动终端、计算机终端或者类似的运算装置中执行。图1示出了一种用于实现数据处理方法的计算机终端（或移动设备）的硬件结构框图。如图1所示，计算机终端10（或移动设备）可以包括一个或多个（图中采用102a，102b，……，102n来示出）处理器102（处理器102可以包括但不限于微处理器（Microcontroller Unit，MCU）或可编程逻辑器件（Field Programmable Gate Array，FPGA）等的处理装置）、用于存储数据的存储器104、以及用于通信功能的传输装置106。除此以外，还可以包括：显示器、输入/输出接口（I/O接口）、通用串行总线（Universal SerialBus，USB）端口（可以作为计算机总线的端口中的一个端口被包括）、网络接口、电源和/或相机。本领域普通技术人员可以理解，图1所示的结构仅为示意，其并不对上述电子装置的结构造成限定。例如，计算机终端10还可包括比图1中所示更多或者更少的组件，或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器102和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外，数据处理电路可为单个独立的处理模块，或全部或部分的结合到计算机终端10（或移动设备）中的其他元件中的任意一个内。如本申请实施例中所涉及到的，该数据处理电路作为一种处理器控制（例如与接口连接的可变电阻终端路径的选择）。

存储器104可用于存储应用软件的软件程序以及模块，如本申请实施例中的数据处理方法对应的程序指令/数据存储装置，处理器102通过运行存储在存储器104内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器104可包括高速随机存储器，还可包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器104可进一步包括相对于处理器102远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端10。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置106用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算机终端10的通信供应商提供的无线网络。在一个实例中，传输装置106包括一个网络适配器（Network Interface Controller，NIC），其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中，传输装置106可以为射频（Radio Frequency，RF）模块，其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器（Liquid Crystal Display，LCD），该液晶显示器可使得用户能够与计算机终端10（或移动设备）的用户界面进行交互。

此处需要说明的是，在一些可选实施例中，上述图1所示的计算机设备（或移动设备）可以包括硬件元件（包括电路）、软件元件（包括存储在计算机可读介质上的计算机代码）、或硬件元件和软件元件两者的结合。应当指出的是，图1仅为特定具体实例的一个实例，并且旨在示出可存在于上述计算机设备（或移动设备）中的部件的类型。

在上述运行环境下，本申请提供了如图2所示的数据处理方法。图2是根据本申请实施例1的数据处理方法的流程图，该方法包括以下步骤：

步骤S21，获取待处理的源数据；

步骤S22，采用预设数据过滤方式对源数据进行过滤处理，得到第一过滤结果，其中，预设数据过滤方式包括多个数据过滤环节，多个数据过滤环节用于从数据过滤关联的多个质量维度对源数据进行数据过滤；

步骤S23，采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果，其中，预设数据清洗方式包括多个数据清洗环节，多个数据清洗环节用于从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗；

步骤S24，基于清洗结果确定预训练数据，其中，预训练数据为目标语言模型在预训练阶段待使用的预训练语料。

上述源数据可以但不限于从公共数据集中获取，如使用百科数据、新闻数据、图书、论文等公共数据集作为目标语言模型的训练数据；源数据还可以通过网络爬虫技术在互联网上抓取，由此可以获取更广泛和多样化的数据，但需要注意遵守网站的使用条款；源数据还可以从社交媒体平台、论坛和博客等网站中抓取，以获取用户生成内容；源数据还可以根据用户特定的需求，由用户自行收集和标注，例如，可以设计在线问卷、爬取特定领域的网站或者与用户进行交互来收集数据。需要注意的是，在获取源数据时，应该遵守相关的数据使用规定。

在获取源数据后需要对源数据进行数据处理，从而获得用于预训练目标语言模型的预训练语料。具体的，采用多个数据过滤环节从数据过滤关联的多个质量维度对源数据进行数据过滤，得到第一过滤结果，其中，多个数据过滤环节包括数据质量过滤环节和数据去重过滤环节。进一步的，采用多个数据清洗环节从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗，得到清洗结果，从清洗结果中选取部分或全部数据作为目标语言模型在预训练阶段待使用的预训练语料。

上述目标语言模型可以生成高质量的文本，进而用于各种自然语言处理任务，如机器翻译、文本摘要、对话系统、问答系统、辅助写作、生成代码、智能客服等。通过学习大量的预训练语料，能够理解语言的语义和语法规则，从而生成与人类语言相似的文本，使得用户可以更高效地处理和理解大量的文本数据。

采用预设数据过滤方式对源数据进行过滤处理时，预设数据过滤方式包括多个数据过滤环节，多个数据过滤环节用于从数据过滤关联的多个质量维度对源数据进行数据过滤。例如，多个数据过滤环节可以包括数据质量过滤环节和数据去重过滤环节，利用数据质量过滤环节对源数据过滤处理，以确保数据的准确性、完整性和一致性，利用数据去重过滤环节对源数据过滤处理，以避免重复计算和产生误导性结果。

示例性的，在利用数据质量过滤环节对源数据质量过滤处理的过程中，首先对源数据进行校验，检查源数据是否符合预设的规则和约束，例如检查源数据是否符合预设的数据类型、格式、范围等，具体可以使用编程语言、正则表达式等工具对源数据进行校验；进一步的，检查源数据中是否存在缺失值，即检查源数据中是否存在空值，然后根据具体情况进行处理，可以选择删除含有缺失值的数据，或者使用插值、填充等方法来填补缺失值；随后检查源数据中是否存在异常值，即与其他数据明显不符的值，可能是错误的测量、录入或传输等引起的，具体可以通过统计方法、可视化等手段识别和处理异常值，例如删除或替换为合理的值；最后检查源数据中是否存在重复的记录，该重复记录可能是由于系统故障、重复导入或人为错误等原因导致，具体可以根据唯一标识符或关键字段进行去重操作，删除重复的记录。在利用数据质量过滤环节对源数据进行数据质量过滤后，进一步利用数据去重过滤环节对数据质量过滤结果进行数据去重过滤处理。

示例性的，在利用数据去重过滤环节对数据质量过滤结果进行数据去重过滤处理的过程中，首先需要根据数据集的特点和需求，确定唯一标识符，即能够唯一标识每个记录的字段或字段组合，例如，可以使用身份证号、手机号、订单号等作为唯一标识符；随后根据唯一标识符对数据进行去重操作，删除重复的记录，具体可以使用编程语言、数据库查询等方式进行去重操作，确保每个记录只保留一次；最后根据具体需求，确定去重策略，可以选择保留第一个出现的记录，或者根据某个字段的数值大小、时间顺序等决定保留哪个记录。

通过数据质量过滤环节和数据去重过滤环节的过滤处理，可以提高数据的准确性和完整性，减少重复数据的影响，为后续的数据分析和应用提供高质量的数据基础。

采用预设数据清洗方式对第一过滤结果进行清洗处理时，预设数据清洗方式包括多个数据清洗环节，多个数据清洗环节用于从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗。例如，多个数据清洗环节可以包括但不限于以下至少两项：隐私信息清洗环节、机器生成信息清洗环节和段落去重清洗环节。清洗处理主要用于删除或修正第一过滤结果中的特定数据，该特定数据包括但不限于敏感数据、部分机器生成的数据、重复的段落等，该部分机器生成的数据包括页眉页脚、模板类数据等。

示例性的，在利用隐私信息清洗环节对第一过滤结果进行清洗处理的过程中，隐私信息可以包括个人身份信息、银行账号、手机号码等敏感信息，可以使用特定的算法或工具来检测和清除隐私信息。例如，可以使用正则表达式或机器学习算法来识别和删除包含隐私信息的数据字段或记录。同时，还需要遵守相关隐私保护政策，确保隐私信息的安全性和保密性。

示例性的，在利用机器生成信息清洗环节对第一过滤结果进行清洗处理的过程中，由于随着人工智能和自然语言处理技术的发展，越来越多的数据是由机器生成的，例如机器翻译、摘要生成等，因而需要对机器生成的信息进行清洗和校正，以提高数据的准确性和可靠性，具体可以包括检测和修复机器翻译的错误、纠正摘要中的错误或不完整信息等，通过使用自然语言处理和机器学习算法能够完成机器生成信息的清洗和校正。

示例性的，在利用段落去重清洗环节对第一过滤结果进行清洗处理的过程中，由于在某些场景下，可能会遇到大量重复的数据，例如新闻稿、网页内容等，因而需要对重复的段落进行去重，以避免冗余和重复的数据，具体可以使用文本相似度算法来判断段落之间的相似程度，并进行去重操作。

需要说明的是，在实际应用中，根据具体的业务需求，可能还会有其他的数据清洗环节，需要根据具体情况进行定制化的处理，本申请实施例不予限制。

上述多个质量维度可以包括但不限于数据的准确性维度、完整性维度、一致性维度、可靠性维度、可用性维度、及时性维度以及合规性维度等。具体的，数据的准确性是指数据与真实情况的一致性，例如，数据是否完整、是否存在错误或重复等。数据的完整性是指数据集是否包含了所有需要的信息，例如，数据是否缺失了某些必要的字段或记录等。数据的一致性是指数据在不同的数据源或时间点上的一致性，例如，数据在不同的数据库中是否存在差异或数据在不同时间点上是否发生了变化等。数据的可靠性是指数据的来源和处理过程是否可靠，例如，数据是否来自可信的数据源、数据是否经过了正确的加工处理等。数据的可用性是指数据是否可被正确地使用和访问。例如，数据是否以正确的格式和结构存储、是否有权限限制等。数据的及时性是指数据是否及时地更新和可用，例如，数据是否及时反映了最新的状态或事件等。数据的合规性是指数据是否符合相关法规和标准的要求，例如，数据是否包含了个人敏感信息或是否符合隐私保护的要求等。需要说明的是，上述多个质量维度可以根据具体的数据需求和业务场景而确定，本申请实施例不予限制。

基于上述步骤S21至步骤S24，通过获取待处理的源数据，进而从数据过滤关联的多个质量维度对源数据进行数据过滤，得到第一过滤结果，随后从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗，得到清洗结果，最后基于清洗结果确定目标语言模型在预训练阶段待使用的预训练语料，达到了快速从源数据中确定目标语言模型在预训练阶段待使用的预训练语料的目的，从而实现了提高获取预训练语料时的数据处理效率和预训练语料质量的技术效果，进而解决了相关技术中从互联网获取大规模语言模型预训练语料时的数据处理效率低、预训练语料质量差的技术问题。

可选地，本申请实施例提出的数据处理方法可以但不限于应用于电商、教育、医疗、会议、社交网络、金融产品、物流和导航等领域所涉及的大规模语言模型的预训练场景中。

下面对本申请实施例中的数据处理方法进行进一步介绍。

在一种可选的实施例中，多个数据过滤环节包括：数据质量过滤环节和数据去重过滤环节，在步骤S222，采用预设数据过滤方式，对源数据进行过滤处理，得到第一过滤结果包括：

步骤S2221，利用数据质量过滤环节对源数据进行数据质量过滤处理，得到第二过滤结果；

步骤S2222，利用数据去重过滤环节对第二过滤结果进行数据去重过滤处理，得到第一过滤结果。

具体的，上述数据质量过滤环节还可以包括质量分类过滤环节、异常信息排除环节、语言通顺过滤环节和多重规则过滤环节，其中，质量分类过滤环节在部分实施例中可以简化去除。利用数据质量过滤环节对源数据进行数据质量过滤处理，能够快速从过滤掉低质量数据，保留高质量数据。

在数据质量过滤中，质量分类过滤环节用于将源数据分为不同的质量类别，该环节的目的是对数据进行初步的评估和分类，以便后续的处理。常见的质量分类包括高质量等级、中等质量等级和低质量等级。源数据可以根据准确性、完整性、一致性等质量维度进行评估，并根据评估结果进行分类，从而帮助用户快速了解数据的整体质量状况，并决定是否需要进行进一步的数据清洗和处理。

在数据质量过滤中，异常信息排除环节用于检测和排除源数据中的异常或错误数据，异常数据可能包括错误的数值、异常的格式、超出范围的数值等。在这个环节中，可以使用数据分析和统计方法来进行异常检测，例如，使用异常值检测算法或基于规则的异常检测方法，在检测到异常数据后，可以选择删除、修复或标记这些异常数据。

在处理文本数据时，语言通顺过滤环节用于检测和清除语言表达不通顺的数据，这个环节主要针对机器生成的文本数据，例如自动摘要、机器翻译等。在这个环节中，可以使用自然语言处理技术和语言模型来评估文本的通顺程度。常见的方法包括语法分析、语言模型生成和文本生成质量评估等，如果文本不通顺或存在语法错误，还可以进行自动修复或人工校正。

在数据质量过滤中，多重规则过滤环节用于根据预定义的多个规则对数据进行过滤和筛选，这些规则可以基于业务需求和数据质量要求来定义，例如数据格式规则、数据逻辑规则、数据范围规则等。在这个环节中，可以使用规则引擎或编程语言来实现多重规则的过滤和验证，如果数据不满足规则要求，可以选择删除、修复或标记这些不符合规则的数据。

在训练目标语言模型时，低质量数据是指质量较差、不太可靠或不太准确的数据，这些数据可能包含有错误、噪音、拼写错误、语法错误、语义错误或其他问题。低质量数据可能会对目标语言模型的性能产生负面影响，因为目标语言模型可能会学习到错误的信息或不准确的规律。相反，高质量数据是指质量较高、可靠且准确的数据，这些数据通常由专业人士、领域专家或者经过仔细筛选和校对的数据集提供，高质量数据有助于提高模型的性能，因为目标语言模型可以从中学习到更准确和可靠的语言模式、规律和知识。在训练目标语言模型时，通常会尽量减少低质量数据的使用，以避免模型学习到错误的信息，并且尽量使用高质量数据来提高模型的性能和准确度。

进一步的，利用数据去重过滤环节对数据质量过滤环节过滤出来的高质量数据进行数据去重过滤处理，进而有效减少重复信息，进一步确保数据的准确性和一致性。同时，通过去除重复的数据，可以避免重复计算和错误分析，提高数据分析和处理的效率。此外，对第二过滤结果进行数据去重也可以减少存储空间的占用，提高系统性能。更为重要的是，数据去重可以保证数据分析的结果更加准确可靠，避免因为重复数据带来的误导和错误决策。

基于上述可选实施例，利用数据质量过滤环节对源数据进行数据质量过滤处理，得到第二过滤结果，进而利用数据去重过滤环节对第二过滤结果进行数据去重过滤处理，得到第一过滤结果，能够进一步提高获取预训练语料时数据处理效率，并且提高预训练语料的数据质量。

在一种可选的实施例中，数据质量过滤环节包括：异常信息排除环节、语言通顺过滤环节和多重规则过滤环节，在步骤S2221，利用数据质量过滤环节对源数据进行数据质量过滤处理，得到第二过滤结果包括：

步骤S31，利用异常信息排除环节对源数据进行异常数据排除处理，过滤掉源数据中的异常数据，得到排除结果；

步骤S32，利用语言通顺过滤环节对排除结果进行语言通顺过滤处理，得到排除结果中各条语句的通顺分数，并过滤掉排除结果中通顺分数低于预设分数的语句，得到第三过滤结果；

步骤S33，利用多重规则过滤环节对第三过滤结果进行多重规则过滤处理，得到第二过滤结果。

具体的，利用异常信息排除环节对源数据进行异常数据排除处理，能够有效对源数据中的异常数据进行过滤，其中，异常数据可以包括错误数据、噪声数据、不一致的数据、不当内容等，通过排除异常数据，可以进一步提高预训练语料的数据质量和准确性，进而减少异常数据对于目标语言模型的负面影响。

例如，预训练语料中可能包含错误的数据，例如拼写错误、语法错误或其他不正确的文本，这些错误数据可能会对目标语言模型的性能产生负面影响；预训练语料中可能包含噪声数据，即非自然语言文本，如代码片段、网页标签、特殊字符等，这些噪声数据可能会干扰目标语言模型的学习和生成；预训练语料中可能包含不一致的数据，即相同或相似的内容在不同的上下文中具有不同的表达方式，这可能导致目标语言模型在生成文本时产生不一致或矛盾的输出；预训练语料中可能包含不当的内容，例如不符合规定的言论等，这些内容可能会被目标模型学习到，并在生成文本时出现不恰当的生成结果。

利用语言通顺过滤环节对排除结果进行语言通顺过滤处理，能够提高目标语言模型的模型性能和可用性。通过过滤掉不通顺的语句，可以使得目标语言模型生成的文本更加流畅、自然，符合语法规则和语言习惯，这样可以提高目标语言模型在文本生成、机器翻译、对话系统等任务中的性能，使得生成的文本更符合人类的预期和需求。同时，语言通顺过滤还可以帮助排除一些语法错误、歧义和不合理的文本，提高模型的鲁棒性和可靠性。

利用多重规则过滤环节对第三过滤结果进行多重规则过滤处理，能够获得符合预设规则的第二过滤结果，从而能够使得目标语言模型对预设的多重规则进行学习，以获得更加规范的文本生成结果。

基于上述可选实施例，通过利用异常信息排除环节对源数据进行异常数据排除处理，得到排除结果，进而利用语言通顺过滤环节对排除结果进行语言通顺过滤处理，得到第三过滤结果，最后利用多重规则过滤环节对第三过滤结果进行多重规则过滤处理，得到第二过滤结果，能够快速对源数据进行数据质量过滤处理，进一步提高预训练语料的数据质量。

在一种可选的实施例中，数据质量过滤环节还包括：质量分类过滤环节，在步骤S31，利用异常信息排除环节对源数据进行异常数据排除处理，过滤掉源数据中的异常数据，得到排除结果包括：

步骤S311，利用质量分类过滤环节对源数据进行质量二分类过滤处理，以将源数据划分为高质量数据和低质量数据，过滤掉低质量数据；

步骤S312，利用异常信息排除环节对高质量数据进行异常数据排除处理，得到排除结果。

具体的，在利用质量分类过滤环节对源数据进行质量二分类过滤处理时，可以采用LR模型对源数据做质量二分类，将其分为高质量数据和低质量数据，然后过滤掉被判断为低质量的数据。

进一步的，在利用异常信息排除环节对高质量数据进行异常数据排除处理时，可以使用GBDT模型来对高质量数据中的每条数据进行异常数据识别，从而得到排除结果。

基于上述可选实施例，通过利用质量分类过滤环节对源数据进行质量二分类过滤处理，得到高质量数据，进而利用异常信息排除环节对高质量数据进行异常数据排除处理，得到排除结果，能够快速对源数据进行异常数据排除处理，进一步提高预训练语料的数据质量。

在一种可选的实施例中，在步骤S311，利用质量分类过滤环节对源数据进行质量二分类过滤处理，以将源数据划分为高质量数据和低质量数据，过滤掉低质量数据包括：

步骤S3111，对源数据进行向量转换处理，得到向量转换结果；

步骤S3112，在质量分类过滤环节中，采用质量二分类模型对向量转换结果进行质量二分类预测，得到第一预测结果；

步骤S3113，基于第一预测结果与预设质量分数阈值的比较结果，将源数据划分为高质量数据和低质量数据，过滤掉低质量数据。

具体的，由于文本数据无法直接当作特征输入LR模型，需要先采用哈希向量器（Hashing Vectorizer）来将每条文本数据转换为一个预设长度的向量。

在LR模型的训练中，可以选择已有的高质量数据作为正样本，例如在正样本中百科数据占50%，书籍数据占30%，新闻数据占20%；而负样本则是从互联网网页数据中随机挑选。在利用上述数据集中的正样本和负样本训练好LR模型后，可以利用其对源数据进行质量二分类预测，得到第一预测结果，即对源数据进行打分，最终分数超过预设质量分数阈值的数据则判断为高质量数据，最终分数未超过预设质量分数阈值的数据则判断为需要过滤掉的低质量数据，将过滤出来的高质量数据作为第二源数据。

基于上述可选实施例，通过对源数据进行向量转换处理，得到向量转换结果，进而在质量分类过滤环节中，采用质量二分类模型对向量转换结果进行质量二分类预测，得到第一预测结果，最后基于第一预测结果与预设质量分数阈值的比较结果，得到高质量数据，能够快速对源数据进行质量二分类过滤处理，进一步提高预训练语料的数据质量。

在一种可选的实施例中，在步骤S31，利用异常信息排除环节对高质量数据进行异常数据排除处理，得到排除结果包括：

步骤S313，在异常信息排除环节中，分别采用多个异常数据类型对应的多个决策树模型对高质量数据进行异常数据分类预测，得到多个第二预测结果；

步骤S314，基于多个第二预测结果进行异常数据排除处理，得到排除结果。

上述多个异常数据类型可以包括但不限于离群值、噪声值、缺失值、重复值、不一致值以及错误值，其中，离群值是指与其他观测值相比具有明显差异的异常值；噪声值是指数据中的随机误差，可能由于测量设备的不准确性或记录错误等原因引起；缺失值是指数据中由于某种原因而丢失的观测值；重复值是指数据集中存在重复的观测值；不一致值是指数据中存在逻辑上不符合规定的观测值；错误值是指由于数据采集或处理过程中的错误导致的异常观测值。

具体的，对于每个异常数据类型，都会分别训练一个GBDT模型用以进行异常数据分类预测，得到对应的第二预测结果，从而利用第二预测结果可以判断当前数据是否为该类异常数据。当基于第二预测结果确定该条数据为异常数据，则将其进行过滤；当基于多个异常数据类型对应GBDT模型所得到的多个第二预测结果，确定当前数据为非异常数据，则将其保留下来作为排除结果。

基于上述可选实施例，通过在异常信息排除环节中，分别采用多个异常数据类型对应的多个决策树模型对高质量数据进行异常数据分类预测，得到多个第二预测结果，进而基于多个第二预测结果进行异常数据排除处理，得到排除结果，能够快速对第二源数据进行异常数据排除处理，进一步提高预训练语料的数据质量。

在一种可选的实施例中，在步骤S32，利用语言通顺过滤环节对排除结果进行语言通顺过滤处理，得到排除结果中各条语句的通顺分数，并过滤掉排除结果中通顺分数低于预设分数的语句，得到第三过滤结果包括：

步骤S321，在语言通顺过滤环节中，利用语言模型对排除结果进行语言通顺预测，得到第三预测结果，其中，第三预测结果用于预测排除结果中各条语句的通顺分数；

步骤S322，基于第三预测结果进行语言通顺过滤处理以过滤掉排除结果中通顺分数低于预设分数的语句，得到第三过滤结果。

具体的，利用百科数据预先训练一个语言模型，该语言模型对输入其中的文本可以计算出一个语言通顺分数，根据这个语言通顺分数可以将排除结果中不通顺的那一半过滤掉，从而得到第三过滤结果。

基于上述可选实施例，通过在语言通顺过滤环节中，利用语言模型对排除结果进行语言通顺预测，得到第三预测结果，进而基于第三预测结果进行语言通顺过滤处理，得到第三过滤结果，能够对排除结果进行语言通顺过滤处理，进一步提高预训练语料的数据质量。

在一种可选的实施例中，在步骤S33，利用多重规则过滤环节对第三过滤结果进行多重规则过滤处理，得到第二过滤结果包括：

利用多重规则过滤环节中设定的多个过滤规则，对第三过滤结果进行多重规则过滤处理，得到第二过滤结果，其中，多个过滤规则包括下述至少两项：

过滤第三过滤结果中内容长度小于预设长度阈值的数据；

过滤第三过滤结果中与源数据对应语言的字符占比小于预设比例的数据；

过滤第三过滤结果中停用词出现次数小于第一预设次数的数据；

过滤第三过滤结果中包含禁用描述的数据；

过滤第三过滤结果中预设类型词汇出现次数大于第二预设次数的数据，其中，预设类型词汇基于第三预测结果确定；

过滤第三过滤结果中网络链接出现次数大于第三预设次数的数据。

具体的，多重规则过滤环节中的多个过滤规则为不同的启发式规则，利用这种启发式规则能够获得符合多重规则的过滤结果。例如，利用启发式规则过滤文本长度小于预设长度阈值的数据，或者过滤掉主语言字符占比过少的数据，例如，对中文数据来说，如果中文字符占比小于0.125，则过滤该数据；或者过滤掉文本中停用词出现次数小于第一预设次数的数据；或者过滤掉文本中出现禁用描述的数据；或者过滤掉文本中出现过多低质量词的数据，其中，可以将数据中按照语言模型打分得到的质量较低的10%文本的高频词集合，减去质量较高的10%文本的高频词集合，所得到的词称作低质量词；或者过滤掉文本中出现网址链接次数过多的数据。

基于上述可选实施例，利用多重规则过滤环节中设定的多个过滤规则，对第三过滤结果进行多重规则过滤处理，得到第二过滤结果，能够对对第三过滤结果进行多重规则过滤处理，进一步提高预训练语料的数据质量。

在一种可选的实施例中，在步骤S2222，利用数据去重过滤环节对第二过滤结果进行数据去重过滤处理，得到第一过滤结果包括：

在数据去重过滤环节中，对第二过滤结果中出现的重复数据进行数据去重过滤处理，得到第四过滤结果；

采用相似度匹配方式对第四过滤结果中出现的相似度高于预设相似阈值的数据进行数据去重过滤处理，得到第一过滤结果。

具体的，针对第二过滤结果中可能存在的重复数据，先使用完全匹配方式去除完全一样的数据，然后采用MinHash LSH方法对相似度高于预设相似阈值的数据进行近似去重，得到第一过滤结果。

基于上述可选实施例，通过在数据去重过滤环节中，采用完全匹配方式对第二过滤结果中出现的完全相同数据进行数据去重过滤处理，得到第四过滤结果，进而采用相似度匹配方式对第四过滤结果中出现的相似度高于预设相似阈值的数据进行数据去重过滤处理，得到第一过滤结果，能够快速对第二过滤结果进行数据去重过滤处理，进一步提高预训练语料的数据质量。

在一种可选的实施例中，多个数据清洗环节包括以下至少两项：隐私信息清洗环节、机器生成信息清洗环节和段落去重清洗环节，在步骤S23，采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果包括以下至少两项：

利用隐私信息清洗环节对第一过滤结果进行隐私信息清洗处理，得到清洗结果；

利用机器生成信息清洗环节对第一过滤结果进行机器生成信息清洗处理，得到清洗结果；

利用段落去重清洗环节对第一过滤结果进行段落去重清洗处理，得到清洗结果。

具体的，在利用隐私信息清洗环节对第一过滤结果进行隐私信息清洗处理时，可以对文本中出现的个人信息，包括身份证、电话号码、银行卡号等信息予以清除；在利用机器生成信息清洗环节对第一过滤结果进行机器生成信息清洗处理时，可以对于文本中出现的部分机器生成的数据，例如模板类文本、页眉页脚文本等予以清除；在利用段落去重清洗环节对第一过滤结果进行段落去重清洗处理时，可以对文本中出现的重复段落予以清除。

基于上述可选实施例，能够采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果，进一步提高预训练语料的数据质量。

在一种可选的实施例中，本申请实施例中的数据处理方法还包括：

对源数据进行语言分类处理，得到分类结果，以采用预设数据过滤方式，对分类结果进行过滤处理，得到第一过滤结果。

具体的，对源数据进行语言分类处理时可以使用文本分类算法，如朴素贝叶斯、支持向量机等，这些算法可以根据文本的特征和上下文信息将文本归类为不同的语言类别。在得到分类结果后，可以使用预设的数据过滤方式对分类结果进行过滤处理，预设数据过滤方式可以是特定的使用规则、过滤模型或者统计方法等，在实施时可以根据具体的应用场景和需求进行灵活设计，从而可以有效结合算法特点和应用需求，以达到准确和可靠的过滤结果。

通过对源数据进行语言分类处理，得到分类结果，该分类结果可以包括但不限于语种分类结果、语系分类结果、国家/地区分类结果、方言分类结果、口音分类结果、印证分类结果等，其中，语种分类是将将源数据分为不同的语种；语系分类是将源数据分为不同的语系；国家/地区分类是将源数据分为不同的国家或地区的语言；方言分类是将源数据分为不同的方言；口音分类是将源数据分为不同的口音；印证分类是将源数据分为不同的印证类型。需要说明的是，以上分类结果可以根据需求和任务进行定义和扩展，本申请实施例不予限制。

基于上述可选实施方式，通过对源数据进行语言分类处理，得到分类结果，进而采用预设数据过滤方式，对分类结果进行过滤处理，得到第一过滤结果，能够快速对海量源数据进行高效过滤，进一步提高数据处理效率。

图3是根据本申请实施例1的一种数据处理方法的示意图，如图3所示，在整个流程中，在从互联网网页数据获取待处理的源数据后，对源数据进行语言分类处理，得到分类结果，进而采用预设数据过滤方式，对分类结果进行过滤处理，得到第一过滤结果。在数据过滤处理过程中，首先利用数据质量过滤环节对源数据进行数据质量过滤处理，得到第二过滤结果，进而利用数据去重过滤环节对第二过滤结果进行数据去重过滤处理，得到第一过滤结果。

在数据质量过滤环节中，采用LR二分类模型对源数据进行质量二分类过滤处理，以将源数据划分为高质量数据和低质量数据，过滤掉低质量数据；接着利用GBDT模型来对高质量数据中的每条数据进行异常数据识别，并用于排除异常数据，得到排除结果；最后利用语言模型对所述排除结果进行语言通顺预测，得到用于预测排除结果中各条语句的通顺分数，基于第三预测结果进行语言通顺过滤处理以过滤掉排除结果中通顺分数低于预设分数的语句，得到第三过滤结果，利用多重规则过滤环节中的多个启发式国债对第三过滤结果进行多重规则过滤处理，得到第二过滤结果。

在数据去重过滤环节中，对第二过滤结果中出现的重复数据进行数据去重过滤处理，得到第四过滤结果，随后采用相似度匹配方式对第四过滤结果中出现的相似度高于预设相似阈值的数据进行数据去重过滤处理，得到第一过滤结果。

在获取第一过滤结果后，采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果。在数据清洗处理过程中，利用隐私信息清洗环节对第一过滤结果进行隐私信息清洗处理，得到清洗结果，利用机器生成信息清洗环节对第一过滤结果进行机器生成信息清洗处理，得到清洗结果，以及利用段落去重清洗环节对第一过滤结果进行段落去重清洗处理，得到清洗结果，由此可以去除源数据中出现的个人隐私信息、机器生成的文本以及重复段落。利用本申请实施例中的数据处理方法可以在较快的时间内处理完千亿级别的互联网数据，并保证处理完预训练语料的数据质量满足大规模预训练语言模型的数据要求。

需要说明的是，本申请所涉及的用户信息（包括但不限于用户设备信息、用户个人信息等）和数据（包括但不限于用于分析的数据、存储的数据、展示的数据等），均为经用户授权或者经过各方充分授权的信息和数据，并且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准，并提供有相应的操作入口，供用户选择授权或者拒绝。

需要说明的是，对于前述的各方法实施例，为了简单描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本申请并不受所描述的动作顺序的限制，因为依据本申请，某些步骤可以采用其他顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定是本申请所必须的。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质（如ROM/RAM、磁碟、光盘）中，包括若干指令用以使得一台终端设备（可以是手机，计算机，服务器，或者网络设备等）执行本申请各个实施例所述的方法。

实施例2

根据本申请实施例，还提供了一种模型训练方法，图4是根据本申请实施例2的一种模型训练方法的过程示意图，如图4所示，该方法包括以下步骤：

步骤S41，获取待处理的源数据；

步骤S42，采用预设数据过滤方式对源数据进行过滤处理，得到第一过滤结果，以及采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果，其中，预设数据过滤方式包括多个数据过滤环节，多个数据过滤环节用于从数据过滤关联的多个质量维度对源数据进行数据过滤，预设数据清洗方式包括多个数据清洗环节，多个数据清洗环节用于从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗；

步骤S43，基于清洗结果对目标语言模型进行预训练。

基于上述步骤S41至步骤S43，通过获取待处理的源数据，进而采用预设数据过滤方式对源数据进行过滤处理，得到第一过滤结果，以及采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果，其中，预设数据过滤方式包括多个数据过滤环节，多个数据过滤环节用于从数据过滤关联的多个质量维度对源数据进行数据过滤，预设数据清洗方式包括多个数据清洗环节，多个数据清洗环节用于从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗，最后基于清洗结果对目标语言模型进行预训练，达到了快速从源数据中确定目标语言模型在预训练阶段待使用的预训练语料的目的，从而实现了提高获取预训练语料时的数据处理效率和预训练语料质量的技术效果，进而解决了相关技术中从互联网获取大规模语言模型预训练语料时的数据处理效率低、预训练语料质量差的技术问题。

可选地，本申请实施例提出的模型训练方法可以但不限于应用于电商、教育、医疗、会议、社交网络、金融产品、物流和导航等领域所涉及的大规模语言模型的预训练场景中。

在本申请的上述实施例中没有详述的部分，可以参见实施例1的相关描述，不予赘述。

实施例3

根据本申请实施例，还提供了一种用于实施上述数据处理方法的数据处理装置，图5是根据实施例1的一种数据处理装置的结构框图，如图5所示，该装置包括：

获取模块501，用于获取待处理的源数据；

过滤模块502，用于采用预设数据过滤方式对源数据进行过滤处理，得到第一过滤结果，其中，预设数据过滤方式包括多个数据过滤环节，多个数据过滤环节用于从数据过滤关联的多个质量维度对源数据进行数据过滤；

清洗模块503，用于采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果，其中，预设数据清洗方式包括多个数据清洗环节，多个数据清洗环节用于从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗；

确定模块504，用于基于清洗结果确定预训练数据，其中，预训练数据为目标语言模型在预训练阶段待使用的预训练语料。

可选地，过滤模块502还用于：利用数据质量过滤环节对源数据进行数据质量过滤处理，得到第二过滤结果；利用数据去重过滤环节对第二过滤结果进行数据去重过滤处理，得到第一过滤结果。

可选地，过滤模块502还用于：利用异常信息排除环节对源数据进行异常数据排除处理，过滤掉源数据中的异常数据，得到排除结果；利用语言通顺过滤环节对排除结果进行语言通顺过滤处理，得到排除结果中各条语句的通顺分数，并过滤掉排除结果中通顺分数低于预设分数的语句，得到第三过滤结果；利用多重规则过滤环节对第三过滤结果进行多重规则过滤处理，得到第二过滤结果。

可选地，过滤模块502还用于：在异常信息排除环节中，分别采用多个异常数据类型对应的多个决策树模型对高质量数据进行异常数据分类预测，得到多个第二预测结果；基于多个第二预测结果进行异常数据排除处理，得到排除结果。

可选地，过滤模块502还用于：在语言通顺过滤环节中，利用语言模型对排除结果进行语言通顺预测，得到第三预测结果，其中，第三预测结果用于预测排除结果中各条语句的通顺分数；基于第三预测结果进行语言通顺过滤处理以过滤掉排除结果中通顺分数低于预设分数的语句，得到第三过滤结果。

可选地，过滤模块502还用于：利用多重规则过滤环节中设定的多个过滤规则，对第三过滤结果进行多重规则过滤处理，得到第二过滤结果，其中，多个过滤规则包括下述至少两项：过滤第三过滤结果中内容长度小于预设长度阈值的数据；过滤第三过滤结果中与源数据对应语言的字符占比小于预设比例的数据；过滤第三过滤结果中停用词出现次数小于第一预设次数的数据；过滤第三过滤结果中包含禁用描述的数据；过滤第三过滤结果中预设类型词汇出现次数大于第二预设次数的数据，其中，预设类型词汇基于第三预测结果确定；过滤第三过滤结果中网络链接出现次数大于第三预设次数的数据。

可选地，过滤模块502还用于：在数据去重过滤环节中，对第三过滤结果中出现的重复数据进行数据去重过滤处理，得到第四过滤结果；采用相似度匹配方式对第四过滤结果中出现的相似度高于预设相似阈值的数据进行数据去重过滤处理，得到第一过滤结果。

可选地，清洗模块503还用于执行以下至少两项：利用隐私信息清洗环节对第一过滤结果进行隐私信息清洗处理，得到清洗结果；利用机器生成信息清洗环节对第一过滤结果进行机器生成信息清洗处理，得到清洗结果；利用段落去重清洗环节对第一过滤结果进行段落去重清洗处理，得到清洗结果。

可选地，过滤模块502还用于：对源数据进行语言分类处理，得到分类结果，以采用预设数据过滤方式，对分类结果进行过滤处理，得到第一过滤结果。

采用本申请实施例，通过获取待处理的源数据，进而从数据过滤关联的多个质量维度对源数据进行数据过滤，得到第一过滤结果，随后从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗，得到清洗结果，最后基于清洗结果确定目标语言模型在预训练阶段待使用的预训练语料，达到了快速从源数据中确定目标语言模型在预训练阶段待使用的预训练语料的目的，从而实现了提高获取预训练语料时的数据处理效率和预训练语料质量的技术效果，进而解决了相关技术中从互联网获取大规模语言模型预训练语料时的数据处理效率低、预训练语料质量差的技术问题。

此处需要说明的是，上述获取模块501、过滤模块502、清洗模块503和确定模块504对应于实施例1中的步骤S21至步骤S24，四个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例1所公开的内容。需要说明的是，上述模块或单元可以是存储在存储器（例如，存储器104）中并由一个或多个处理器（例如，处理器102a，102b，……，102n）处理的硬件组件或软件组件，上述模块也可以作为装置的一部分可以运行在实施例1提供的计算机终端10中。

根据本申请实施例，还提供了一种用于实施上述模型训练方法的模型训练装置，图6是根据实施例2的一种模型训练装置的结构框图，如图6所示，该装置包括：

获取模块601，用于获取待处理的源数据；

处理模块602，用于采用预设数据过滤方式对源数据进行过滤处理，得到第一过滤结果，以及采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果，其中，预设数据过滤方式包括多个数据过滤环节，多个数据过滤环节用于从数据过滤关联的多个质量维度对源数据进行数据过滤，预设数据清洗方式包括多个数据清洗环节，多个数据清洗环节用于从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗；

预训练模块603，用于基于清洗结果对目标语言模型进行预训练。

在本申请实施例中，通过获取待处理的源数据，进而采用预设数据过滤方式对源数据进行过滤处理，得到第一过滤结果，以及采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果，其中，预设数据过滤方式包括多个数据过滤环节，多个数据过滤环节用于从数据过滤关联的多个质量维度对源数据进行数据过滤，预设数据清洗方式包括多个数据清洗环节，多个数据清洗环节用于从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗，最后基于清洗结果对目标语言模型进行预训练，达到了快速从源数据中确定目标语言模型在预训练阶段待使用的预训练语料的目的，从而实现了提高获取预训练语料时的数据处理效率和预训练语料质量的技术效果，进而解决了相关技术中从互联网获取大规模语言模型预训练语料时的数据处理效率低、预训练语料质量差的技术问题。

此处需要说明的是，上述获取模块601、处理模块602和预训练模块603对应于实施例2中的步骤S41至步骤S43，三个模块与对应的步骤所实现的实例和应用场景相同，但不限于上述实施例2所公开的内容。需要说明的是，上述模块或单元可以是存储在存储器（例如，存储器104）中并由一个或多个处理器（例如，处理器102a，102b，……，102n）处理的硬件组件或软件组件，上述模块也可以作为装置的一部分可以运行在实施例1提供的计算机终端10中。

实施例4

本申请的实施例可以提供一种计算机终端，该计算机终端可以是计算机终端群中的任意一个计算机终端设备。可选地，在本实施例中，上述计算机终端也可以替换为移动终端等终端设备。

可选地，在本实施例中，上述计算机终端可以位于计算机网络的多个网络设备中的至少一个网络设备。

在本实施例中，上述计算机终端可以执行数据处理方法中以下步骤的程序代码：获取待处理的源数据；采用预设数据过滤方式对所述源数据进行过滤处理，得到第一过滤结果，其中，所述预设数据过滤方式包括多个数据过滤环节，所述多个数据过滤环节用于从数据过滤关联的多个质量维度对所述源数据进行数据过滤；采用预设数据清洗方式对所述第一过滤结果进行清洗处理，得到清洗结果，其中，所述预设数据清洗方式包括多个数据清洗环节，所述多个数据清洗环节用于从数据清洗关联的多个质量维度对所述第一过滤结果进行数据清洗；基于所述清洗结果确定预训练数据，其中，所述预训练数据为目标语言模型在预训练阶段待使用的预训练语料。

可选地，图7是根据本申请实施例的一种计算机终端的结构框图。如图7所示，该计算机终端可以包括：一个或多个（图中仅示出一个）处理器72、存储器74、存储控制器、以及外设接口，其中，外设接口与射频模块、音频模块和显示器连接。

其中，存储器可用于存储软件程序以及模块，如本申请实施例中的数据处理方法和装置对应的程序指令/模块，处理器通过运行存储在存储器内的软件程序以及模块，从而执行各种功能应用以及数据处理，即实现上述的数据处理方法。存储器可包括高速随机存储器，还可以包括非易失性存储器，如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中，存储器可进一步包括相对于处理器远程设置的存储器，这些远程存储器可以通过网络连接至计算机终端。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器可以通过传输装置调用存储器存储的信息及应用程序，以执行下述步骤：获取待处理的源数据；采用预设数据过滤方式对源数据进行过滤处理，得到第一过滤结果，其中，预设数据过滤方式包括多个数据过滤环节，多个数据过滤环节用于从数据过滤关联的多个质量维度对源数据进行数据过滤；采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果，其中，预设数据清洗方式包括多个数据清洗环节，多个数据清洗环节用于从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗；基于清洗结果确定预训练数据，其中，预训练数据为目标语言模型在预训练阶段待使用的预训练语料。

可选地，上述处理器还可以执行如下步骤的程序代码：利用数据质量过滤环节对源数据进行数据质量过滤处理，得到第二过滤结果；利用数据去重过滤环节对第二过滤结果进行数据去重过滤处理，得到第一过滤结果。

可选地，上述处理器还可以执行如下步骤的程序代码：利用异常信息排除环节对源数据进行异常数据排除处理，得到排除结果；利用语言通顺过滤环节对排除结果进行语言通顺过滤处理，得到排除结果中各条语句的通顺分数，并过滤掉排除结果中通顺分数低于预设分数的语句，得到第三过滤结果；利用多重规则过滤环节对第三过滤结果进行多重规则过滤处理，得到第二过滤结果。

可选地，上述处理器还可以执行如下步骤的程序代码：在异常信息排除环节中，分别采用多个异常数据类型对应的多个决策树模型对高质量数据进行异常数据分类预测，得到多个第二预测结果；基于多个第二预测结果进行异常数据排除处理，得到排除结果。

可选地，上述处理器还可以执行如下步骤的程序代码：在语言通顺过滤环节中，利用语言模型对排除结果进行语言通顺预测，得到第三预测结果，其中，第三预测结果用于预测排除结果中各条语句的通顺分数；基于第三预测结果进行语言通顺过滤处理以过滤掉排除结果中通顺分数低于预设分数的语句，得到第三过滤结果。

可选地，上述处理器还可以执行如下步骤的程序代码：利用多重规则过滤环节中设定的多个过滤规则，对第三过滤结果进行多重规则过滤处理，得到第二过滤结果，其中，多个过滤规则包括下述至少两项：过滤第三过滤结果中内容长度小于预设长度阈值的数据；过滤第三过滤结果中与源数据对应语言的字符占比小于预设比例的数据；过滤第三过滤结果中停用词出现次数小于第一预设次数的数据；过滤第三过滤结果中包含禁用描述的数据；过滤第三过滤结果中预设类型词汇出现次数大于第二预设次数的数据，其中，预设类型词汇基于第三预测结果确定；过滤第三过滤结果中网络链接出现次数大于第三预设次数的数据。

可选地，上述处理器还可以执行如下步骤的程序代码：在数据去重过滤环节中，对第三过滤结果中出现的重复数据进行数据去重过滤处理，得到第四过滤结果；采用相似度匹配方式对第四过滤结果中出现的相似度高于预设相似阈值的数据进行数据去重过滤处理，得到第一过滤结果。

可选地，上述处理器还可以执行如下步骤的程序代码：利用隐私信息清洗环节对第一过滤结果进行隐私信息清洗处理，得到清洗结果；利用机器生成信息清洗环节对第一过滤结果进行机器生成信息清洗处理，得到清洗结果；利用段落去重清洗环节对第一过滤结果进行段落去重清洗处理，得到清洗结果。

可选地，上述处理器还可以执行如下步骤的程序代码：对源数据进行语言分类处理，得到分类结果，以采用预设数据过滤方式，对分类结果进行过滤处理，得到第一过滤结果。

可选地，上述处理器还可以执行如下步骤的程序代码：获取待处理的源数据；采用预设数据过滤方式对源数据进行过滤处理，得到第一过滤结果，以及采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果，其中，预设数据过滤方式包括多个数据过滤环节，多个数据过滤环节用于从数据过滤关联的多个质量维度对源数据进行数据过滤，预设数据清洗方式包括多个数据清洗环节，多个数据清洗环节用于从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗；基于清洗结果对目标语言模型进行预训练。

本领域普通技术人员可以理解，图7所示的结构仅为示意，计算机终端也可以是智能手机（如Android手机、iOS手机等）、平板电脑、掌上电脑以及移动互联网设备（MobileInternet Devices，MID）等终端设备。图7其并不对上述电子装置的结构造成限定。例如，计算机终端还可包括比图7中所示更多或者更少的组件（如网络接口、显示装置等），或者具有与图7所示不同的配置。

本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令终端设备相关的硬件来完成，该程序可以存储于一计算机可读存储介质中，存储介质可以包括：闪存盘、只读存储器（Read-Only Memory，ROM）、随机存取器（RandomAccess Memory，RAM）、磁盘或光盘等。

实施例5

本申请的实施例还提供了一种计算机可读存储介质。可选地，在本实施例中，上述计算机可读存储介质可以用于保存上述实施例1所提供的数据处理方法或者实施例2所提供的模型训练方法所执行的程序代码。

可选地，在本实施例中，上述存储介质可以位于计算机网络中计算机终端群中的任意一个计算机终端中，或者位于移动终端群中的任意一个移动终端中。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取待处理的源数据；采用预设数据过滤方式对源数据进行过滤处理，得到第一过滤结果，其中，预设数据过滤方式包括多个数据过滤环节，多个数据过滤环节用于从数据过滤关联的多个质量维度对源数据进行数据过滤；采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果，其中，预设数据清洗方式包括多个数据清洗环节，多个数据清洗环节用于从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗；基于清洗结果确定预训练数据，其中，预训练数据为目标语言模型在预训练阶段待使用的预训练语料。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：利用数据质量过滤环节对源数据进行数据质量过滤处理，得到第二过滤结果；利用数据去重过滤环节对第二过滤结果进行数据去重过滤处理，得到第一过滤结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：利用异常信息排除环节对源数据进行异常数据排除处理，过滤掉源数据中的异常数据，得到排除结果；利用语言通顺过滤环节对排除结果进行语言通顺过滤处理，得到排除结果中各条语句的通顺分数，并过滤掉排除结果中通顺分数低于预设分数的语句，得到第三过滤结果；利用多重规则过滤环节对第三过滤结果进行多重规则过滤处理，得到第二过滤结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在异常信息排除环节中，分别采用多个异常数据类型对应的多个决策树模型对高质量数据进行异常数据分类预测，得到多个第二预测结果；基于多个第二预测结果进行异常数据排除处理，得到排除结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在语言通顺过滤环节中，利用语言模型对排除结果进行语言通顺预测，得到第三预测结果，其中，第三预测结果用于预测排除结果中各条语句的通顺分数；基于第三预测结果进行语言通顺过滤处理以过滤掉排除结果中通顺分数低于预设分数的语句，得到第三过滤结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：利用多重规则过滤环节中设定的多个过滤规则，对第三过滤结果进行多重规则过滤处理，得到第二过滤结果，其中，多个过滤规则包括下述至少两项：过滤第三过滤结果中内容长度小于预设长度阈值的数据；过滤第三过滤结果中与源数据对应语言的字符占比小于预设比例的数据；过滤第三过滤结果中停用词出现次数小于第一预设次数的数据；过滤第三过滤结果中包含禁用描述的数据；过滤第三过滤结果中预设类型词汇出现次数大于第二预设次数的数据，其中，预设类型词汇基于第三预测结果确定；过滤第三过滤结果中网络链接出现次数大于第三预设次数的数据。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：在数据去重过滤环节中，对第三过滤结果中出现的重复数据进行数据去重过滤处理，得到第四过滤结果；采用相似度匹配方式对第四过滤结果中出现的相似度高于预设相似阈值的数据进行数据去重过滤处理，得到第一过滤结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：利用隐私信息清洗环节对第一过滤结果进行隐私信息清洗处理，得到清洗结果；利用机器生成信息清洗环节对第一过滤结果进行机器生成信息清洗处理，得到清洗结果；利用段落去重清洗环节对第一过滤结果进行段落去重清洗处理，得到清洗结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：对源数据进行语言分类处理，得到分类结果，以采用预设数据过滤方式，对分类结果进行过滤处理，得到第一过滤结果。

可选地，在本实施例中，存储介质被设置为存储用于执行以下步骤的程序代码：获取待处理的源数据；采用预设数据过滤方式对源数据进行过滤处理，得到第一过滤结果，以及采用预设数据清洗方式对第一过滤结果进行清洗处理，得到清洗结果，其中，预设数据过滤方式包括多个数据过滤环节，多个数据过滤环节用于从数据过滤关联的多个质量维度对源数据进行数据过滤，预设数据清洗方式包括多个数据清洗环节，多个数据清洗环节用于从数据清洗关联的多个质量维度对第一过滤结果进行数据清洗；基于清洗结果对目标语言模型进行预训练。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

在本申请的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可为个人计算机、服务器或者网络设备等）执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种数据处理方法，其特征在于，包括：

获取待处理的源数据；

采用预设数据过滤方式对所述源数据进行过滤处理，得到第一过滤结果，其中，所述预设数据过滤方式包括多个数据过滤环节，所述多个数据过滤环节用于从数据过滤关联的多个质量维度对所述源数据进行数据过滤；

采用预设数据清洗方式对所述第一过滤结果进行清洗处理，得到清洗结果，其中，所述预设数据清洗方式包括多个数据清洗环节，所述多个数据清洗环节用于从数据清洗关联的多个质量维度对所述第一过滤结果进行数据清洗；

基于所述清洗结果确定预训练数据，其中，所述预训练数据为目标语言模型在预训练阶段待使用的预训练语料。

2.根据权利要求1所述的数据处理方法，其特征在于，所述多个数据过滤环节包括：数据质量过滤环节和数据去重过滤环节，采用所述预设数据过滤方式对所述源数据进行过滤处理，得到所述第一过滤结果包括：

利用所述数据质量过滤环节对所述源数据进行数据质量过滤处理，得到第二过滤结果；

利用所述数据去重过滤环节对所述第二过滤结果进行数据去重过滤处理，得到所述第一过滤结果。

3.根据权利要求2所述的数据处理方法，其特征在于，所述数据质量过滤环节包括：异常信息排除环节、语言通顺过滤环节和多重规则过滤环节，利用所述数据质量过滤环节对所述源数据进行数据质量过滤处理，得到所述第二过滤结果包括：

利用所述异常信息排除环节对所述源数据进行异常数据排除处理，过滤掉所述源数据中的异常数据，得到排除结果；

利用所述语言通顺过滤环节对所述排除结果进行语言通顺过滤处理，得到所述排除结果中各条语句的通顺分数，并过滤掉所述排除结果中所述通顺分数低于预设分数的语句，得到第三过滤结果；

利用所述多重规则过滤环节对所述第三过滤结果进行多重规则过滤处理，得到所述第二过滤结果。

4.根据权利要求3所述的数据处理方法，其特征在于，利用所述异常信息排除环节对所述源数据进行异常数据排除处理，过滤掉所述源数据中的异常数据，得到所述排除结果包括：

在所述异常信息排除环节中，分别采用多个异常数据类型对应的多个决策树模型对高质量数据进行异常数据分类预测，得到多个第二预测结果；

基于所述多个第二预测结果进行所述异常数据排除处理，得到所述排除结果。

5.根据权利要求3所述的数据处理方法，其特征在于，利用所述语言通顺过滤环节对所述排除结果进行语言通顺过滤处理，得到所述排除结果中各条语句的通顺分数，并过滤掉所述排除结果中所述通顺分数低于预设分数的语句，得到所述第三过滤结果包括：

在所述语言通顺过滤环节中，利用语言模型对所述排除结果进行语言通顺预测，得到第三预测结果，其中，所述第三预测结果用于预测所述排除结果中各条语句的通顺分数；

基于所述第三预测结果进行语言通顺过滤处理以过滤掉所述排除结果中所述通顺分数低于预设分数的语句，得到所述第三过滤结果。

6.根据权利要求3所述的数据处理方法，其特征在于，利用所述多重规则过滤环节对所述第三过滤结果进行多重规则过滤处理，得到所述第二过滤结果包括：

利用所述多重规则过滤环节中设定的多个过滤规则，对所述第三过滤结果进行多重规则过滤处理，得到所述第二过滤结果，其中，所述多个过滤规则包括下述至少两项：

过滤所述第三过滤结果中内容长度小于预设长度阈值的数据；

过滤所述第三过滤结果中与所述源数据对应语言的字符占比小于预设比例的数据；

过滤所述第三过滤结果中停用词出现次数小于第一预设次数的数据；

过滤所述第三过滤结果中包含禁用描述的数据；

过滤所述第三过滤结果中预设类型词汇出现次数大于第二预设次数的数据，其中，所述预设类型词汇基于第三预测结果确定；

过滤所述第三过滤结果中网络链接出现次数大于第三预设次数的数据。

7.根据权利要求2-6任一项所述的数据处理方法，其特征在于，利用所述数据去重过滤环节对所述第二过滤结果进行数据去重过滤处理，得到所述第一过滤结果包括：

在所述数据去重过滤环节中，对所述第二过滤结果中出现的重复数据进行数据去重过滤处理，得到第四过滤结果；

采用相似度匹配方式对所述第四过滤结果中出现的相似度高于预设相似阈值的数据进行数据去重过滤处理，得到所述第一过滤结果。

8.根据权利要求1-6任一项所述的数据处理方法，其特征在于，所述多个数据清洗环节包括以下至少两项：隐私信息清洗环节、机器生成信息清洗环节和段落去重清洗环节，采用所述预设数据清洗方式对所述第一过滤结果进行清洗处理，得到所述清洗结果包括以下至少两项：

利用所述隐私信息清洗环节对所述第一过滤结果进行隐私信息清洗处理，得到所述清洗结果；

利用所述机器生成信息清洗环节对所述第一过滤结果进行机器生成信息清洗处理，得到所述清洗结果；

利用所述段落去重清洗环节对所述第一过滤结果进行段落去重清洗处理，得到所述清洗结果。

9.根据权利要求1所述的数据处理方法，其特征在于，所述数据处理方法还包括：

对所述源数据进行语言分类处理，得到分类结果，以采用所述预设数据过滤方式，对所述分类结果进行过滤处理，得到所述第一过滤结果。

10.一种模型训练方法，其特征在于，包括：

获取待处理的源数据；

采用预设数据过滤方式对所述源数据进行过滤处理，得到第一过滤结果，以及采用预设数据清洗方式对所述第一过滤结果进行清洗处理，得到清洗结果，其中，所述预设数据过滤方式包括多个数据过滤环节，所述多个数据过滤环节用于从数据过滤关联的多个质量维度对所述源数据进行数据过滤，所述预设数据清洗方式包括多个数据清洗环节，所述多个数据清洗环节用于从数据清洗关联的多个质量维度对所述第一过滤结果进行数据清洗；

基于所述清洗结果对目标语言模型进行预训练。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质包括存储的程序，其中，在所述程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至9中任意一项所述的数据处理方法或权利要求10所述的模型训练方法。

12.一种电子设备，其特征在于，包括：

处理器；以及

存储器，与所述处理器连接，用于为所述处理器提供处理以下处理步骤的指令：

获取待处理的源数据；

基于所述清洗结果确定预训练数据，其中，所述预训练数据为目标语言模型在预训练阶段待使用的预训练预料。