CN115617943B

CN115617943B - 文本清洗方法、装置、设备与计算机可读存储介质

Info

Publication number: CN115617943B
Application number: CN202211231064.3A
Authority: CN
Inventors: 李泽康; 吕志强
Original assignee: Mingzhimeng Shanghai Technology Co ltd
Current assignee: Mingzhimeng Shanghai Technology Co ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-06-30
Anticipated expiration: 2042-10-09
Also published as: CN115617943A

Abstract

本发明公开了一种文本清洗方法、装置、设备与计算机可读存储介质，该方法包括：当检测到针对第一数据源的清洗指令时，获取清洗指令指示的第一数据源中的源文本数据；从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型，其中，清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成，第一数据源与第二数据源不同；基于目标清洗模型对源文本数据进行清洗处理，以得到第一数据源的目标文本数据。采用本申请，避免了因为仅通过文本数据的同源清洗模型对文本数据进行清洗而导致的清洗效果差的问题，能够将噪音数据较好的清除，提高文本清洗效果。

Description

文本清洗方法、装置、设备与计算机可读存储介质

技术领域

本发明涉及数据处理技术领域，尤其涉及文本清洗方法、装置、设备与计算机可读存储介质。

背景技术

随着互联网的不断发展，网络上的信息量日益剧增，这便带来了庞杂、多样的文本数据；而互联网的开放性也导致在网络中存在很多不良信息，因此在互联网上，对文本数据进行监控和过滤已经成为普遍需求。

目前，一些现有技术中提及了使用N-gram语言模型来进行数据清洗，但目前的做法通常是利用N-gram语言模型进行分词，然后根据预设规则，对词语序列进行筛选或者清洗。然而该方法，对于从网络上不同源爬取的数据通过简单的规则过滤并不能把其中的噪音数据过滤干净，因此，存在过滤效果差的问题。

发明内容

本发明的主要目的在于提供一种文本清洗方法、装置、设备与计算机可读存储介质，旨在解决噪音数据的识别和清洗的准确性低的技术问题。所述技术方案如下：

第一方面，本申请实施例提供了一种文本清洗方法，包括：

当检测到针对第一数据源的清洗指令时，获取所述清洗指令指示的所述第一数据源中的源文本数据；

从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型，其中，所述清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成，所述第一数据源与所述第二数据源不同；

基于所述目标清洗模型对所述源文本数据进行清洗处理，以得到所述第一数据源的目标文本数据。

第二方面，本申请实施例提供一种文本清洗装置，包括：

获取模块，用于当检测到针对第一数据源的清洗指令时，获取所述清洗指令指示的所述第一数据源中的源文本数据；

模型匹配模块，用于从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型，其中，所述清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成，所述第一数据源与所述第二数据源不同；

清洗模块，用于基于所述目标清洗模型对所述源文本数据进行清洗处理，以得到所述第一数据源的目标文本数据。

第三方面，本申请实施例提供一种文本清洗设备，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本清洗程序，所述文本清洗程序被所述处理器执行时实现如上述方法的步骤。

第四方面，本申请实施例提供一种计算机存储介质，所述计算机可读存储介质上存储有文本清洗程序，所述文本清洗程序被处理器执行时实现如上述方法的步骤。

在本发明实施例中，通过当检测到针对第一数据源的清洗指令时，确定清洗指令指示的第一数据源中的源文本数据，再从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型，其中，清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成，并且第一数据源与所述第二数据源不同，基于目标清洗模型对源文本数据进行清洗处理，以得到第一数据源的目标文本数据。通过多源数据训练得到多个清洗模型，在对某一数据源的源文本数据进行清洗时，通过不同源的第二数据源对应的清洗模型对源文本数据进行清洗，解决了仅通过文本数据的同源清洗模型对文本数据进行清洗效果差的问题，能够通过不同源的目标清洗模型将噪音数据较好的清除，提高文本清洗效果。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种文本清洗方法的举例示意图；

图2是本申请实施例提供的一种文本清洗方法的流程示意图；

图3是本申请实施例提供的一种文本清洗方法中通过目标清洗模型清洗源文本数据的细化流程示意图；

图4是本申请实施例提供的一种文本清洗方法调整模型参数的细化流程示意图

图5是本申请实施例提供的一种文本清洗方法中确认目标清洗模型的细化流程示意图；

图6是本申请实施例提供的一种文本获取装置的结构示意图；

图7是本申请实施例提供的一种文本清洗设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

文本清洗装置可以为手机、电脑、平板电脑、智能手表或车载设备等终端设备，也可以为终端设备中用于实现文本清洗方法的模块，文本清洗装置可以获取至少两个数据源的文本数据，基于文本数据，训练得到每个文本数据对应的清洗模型，通过清洗模型对所述文本数据进行清洗，得到目标文本数据。文本清洗装置清洗后输出的目标文本数据可以在终端设备上显示输出文本。

请一并参见图1，为本申请实施例提供了一种文本清洗方法的举例示意图，图中示出的为对n个数据源分别进行清洗的过程，当从用户处接收到清洗指令后，文本清洗装置获取对应的数据源的源文本数据，依次将每个数据源对应的文本数据指定为源文本数据，通过不同数据源的训练得到的清洗模型对源文本数据进行清洗，也即n各数据源之间进行交叉清洗，得到每个数据源对应的目标文本数据，进而获得所有数据源对应的目标文本数据。

下面结合具体的实施例对本申请提供的文本清洗方法进行详细说明。

请参见图2，为本申请实施例提供了一种文本清洗方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤S10-S30。

S10，当检测到针对第一数据源的清洗指令时，获取所述清洗指令指示的所述第一数据源中的源文本数据；

S20，从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型，其中，所述清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成，所述第一数据源与所述第二数据源不同；

S30，基于所述目标清洗模型对所述源文本数据进行清洗处理，以得到所述第一数据源的目标文本数据。

本实施例中首先从多种数据源采集文本数据，并根据采集到的文本数据进行清洗模型训练，得到每种数据源对应的清洗模型，再通过训练得到的多个清洗模型对文本数据进行清洗，具体清洗方法为当检测到针对第一数据源的清洗指令时，确定清洗指令指示的第一数据源中的源文本数据，再从预训练的清洗模型库中选取与第一数据源不同源的第二数据源对应的目标清洗模型，通过目标清洗模型对源文本数据进行清洗处理，以得到第一数据源的目标文本数据。通过多个不同源的文本数据训练得到的清洗模型包含有不同的清洗规则，相比于使用同源文本数据训练得到的清洗模型来清洗文本数据，使用不同源文本数据训练的清洗模型进行文本清洗更容易找出文本中的噪声数据，以提高清洗的效果。

以下将对各个步骤进行详细说明：

具体的，清洗指令中包含了待清洗的第一数据源的标识信息，可以根据标识信息确认清洗指令对应的第一数据源。其中，数据源为包含文本信息的网站、数据库等信息源，例如微博、知乎、哔哩哔哩、豆瓣等。可以理解的，这些网站中通常存在大量的文本数据，同时也存在较多的噪音数据。例如，数据源1中存在以下数据：

“灆鷆灶

燣璳凿扄曍叆

兲綥蔋饵

弙 />

手倦抛机夜梦长

灏卞儚 tg 涓嶅湡锛屾垬鏂楀姏 5 涓镙枫备竴涓

顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾”

此类噪音数据无法通过人工预设规则等去除。第一数据源对应的源文本数据可以包含一个或者多个文本数据，源文本数据中包括文字内容、标点符号等类型的文本数据。可选的，可以提前从多个数据源采集其对应的文本数据，并将其存入源文本数据库中，也可以实时从网站上爬取数据源文本数据，以数据源作为文本数据的指引信息，再根据清洗指令确认需要清洗的数据源，对文本数据逐一进行清洗。如果有多个数据源的文本数据需要清洗的话，则通过清洗指令一一指定为第一数据源，并执行后续的清洗步骤。

在一实施例中，当确认源文本数据后，从预训练的清洗模型库中选取与源文本数据不同数据源的目标清洗模型。具体的，在实施清洗之前，首先会从一个或多个数据源得到文本数据，训练每个文本数据对应的清洗模型。例如，采用现有的开源模型进行训练，如N-gram语言模型，N-gram语言模型基于现有的数据来推断文本对应单词这种排列组合的概率，相比于神经网络模型，具有运算效率高等优点，常用于海量文本相似度对比。示例性的，具体的训练过程为针对每个数据源的文本数据使用kenlm工具训练3-gram语言模型，得到多个3-gram语言模型，也即得到每个数据源对应的清洗模型，并将其存入清洗模型库。可以理解的，若使用某个数据源自身训练N-gram语言模型再对自身进行噪音数据的清洗，则有大量噪音数据无法被清洗，故本实施例中采用不同源的清洗模型作为目标清洗模型进行交叉清洗，从而能够将噪音数据较好的清除。

具体的，采用获取到的所有目标清洗模型逐一对源文本数据进行清洗，训练得到的清洗模型进行清洗，其中，不同的模型是串行的操作，先使用某个源的清洗模型对源文本数据进行清洗，再将清洗后得到的数据输入下一个清洗模型进行清洗，最终输出目标文本数据。

在本申请实施例中，通过检测清洗指令，并确认该清洗指令指示的第一数据源中的源文本数据，再从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型，其中，清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成，并且第一数据源与所述第二数据源不同，再基于目标清洗模型对源文本数据进行清洗处理，以得到第一数据源的目标文本数据，通过与源文本数据对应第一数据源不同源的目标清洗模型对源文本数据进行清洗，能够更好地发现源文本数据中存在的噪音数据，提高文本清洗效果。

请参见图3，为本申请实施例提供了一种文本获取方法中通过目标清洗模型清洗源文本数据的细化流程示意图。如图3所示，本申请实施例的所述方法可以包括以下步骤S31-S33。

S31，通过所述目标清洗模型计算所述源文本数据中各文本数据的出现概率；

在本实施例中，目标清洗模型为一个清洗模型。具体的，将源文本数据输入目标清洗模型后，目标清洗模型可以预测输入源文本数据中每条数据的出现概率。以数据源为微博为例，将其中的微博内容和评论数据拼接起来后得到源文本数据，再使用jieba分词工具分词，得到多条句子，然后输入知乎清洗模型，知乎清洗模型返回每条句子的对数概率，该对数概率就为句子的出现概率。

S32，在所述源文本数据中获取出现概率低于所述目标清洗模型对应的预设阈值的第一文本数据。

S33，在所述源文本数据中将所述第一文本数据剔除，将剔除后所述源文本数据中剩余的第二文本数据确定为所述第一数据源的目标文本数据。

可以理解的，某条文本数据的出现概率越小说明该文本数据在其他源中非常少见，大概率属于噪音数据。可选的，对于每个数据源对应的清洗模型预先设定了出现概率的阈值，则通过目标清洗模型计算出每条文本数据的出现概率后，对各文本数据进行筛选，将出现概率高于对应目标清洗模型阈值的保留，低于阈值的剔除，得到目标文本数据。

进一步地，在一实施例中，本申请实施例的所述方法可以包括以下步骤S34-S39。

S34，所述基于所述目标清洗模型对所述源文本数据进行清洗处理，以得到所述第一数据源的目标文本数据，包括：

S35，在目标清洗模型中获取当前清洗模型，通过所述当前清洗模型计算所述源文本数据中各文本数据的出现概率，所述当前清洗模型为所述目标清洗模型中当前用于对所述源文本数据进行清洗处理的清洗模型；

S36，在所述源文本数据中获取出现概率低于所述当前清洗模型对应的预设阈值的第三文本数据；

S37，在所述源文本数据中将所述第三文本数据剔除，获取剔除后所述源文本数据中剩余的第四文本数据；

S38，若所述目标清洗模型中存在所述当前清洗模型的下一个清洗模型，则将所述下一个清洗模型确定为当前清洗模型，将所述第四文本数据确定为源文本数据，转入执行通过所述当前清洗模型计算所述源文本数据中各文本数据的出现概率的步骤；

S39，若所述目标清洗模型中不存在所述当前清洗模型的下一个清洗模型，则将所述第四文本数据确定为所述第一数据源的目标文本数据。

在本实施例中，目标清洗模型为多个清洗模型，并且多个清洗模型按照设定清洗顺序进行排列。其中，清洗模型为串行排列的方式，也即由一个清洗模型对源文本数据清洗后得到的文本数据，会输入另一个清洗模型中再次进行清洗，同一个清洗模型只对源文本数据清洗一次。具体的，根据设定清洗顺序从多个目标清洗模型中确认当前清洗模型，循环执行通过当前清洗模型计算源文本数据中各文本数据的出现概率，在源文本数据中获取出现概率低于当前清洗模型对应的预设阈值的第三文本数据，在源文本数据中将第三文本数据剔除，获取剔除后源文本数据中剩余的第四文本数据的步骤，直到源文本数据流过所有的清洗模型，也即当目标清洗模型中不存在当前清洗模型的下一个清洗模型，则将第四文本数据确定为第一数据源的目标文本数据。其中，出现概率的计算方式与上述目标清洗模型为一个时相同，在此不加赘述。

需要说明的是，多个清洗模型的数量可以根据实际情况确定。若清洗模型库中不包含第一数据源对应的清洗模型，则清洗模型库中所有的清洗模型均可作为目标清洗模型。若清洗模型库中，包含第一清洗数据对应的清洗模型，则数量上限为清洗模型库中包含的N-1个清洗模型，其中，N为清洗模型库中包含清洗模型的总数。

可选的，清洗顺序可以人为设置，也可以由文本清洗程序随机排列。

通过本实施例中采用多个清洗模型逐一对源文本数据进行清洗的方式，能够使源文本数据经由不同模型的清洗规则进行筛查，从而更全面地找出其中的噪音数据，以获得更优的清洗效果。

请参见图4，为本申请实施例提供了一种文本获取方法中调整模型参数的细化流程示意图。如图4所示，本申请实施例的所述方法可以包括以下步骤S41-S42。

S41，基于所述目标文本数据训练语言模型，并获取所述语言模型的性能参数；

S42，根据所述性能参数迭代调整所述清洗模型的模型参数。

具体的，为了评估通过目标清洗模型清洗后得到目标文本数据的清洗效果，将目标文本数据用于语言模型训练，可以理解的，语言模型的效果与数据源的质量是十分相关的，例如自回归语言模型(Autoregressive LM)，Autoregressive的作用是根据上文预测下文或者根据下文预测上文，典型的代表如GPT、ELMO等。语言模型要想要得到较好的预测效果，则训练语料数据中不能存在过多的噪声数据，因此，通过将目标文本数据用于语言模型训练来评估本方法的文本清洗效果，进而参考语言模型的性能调整根据数据源训练出的清洗模型的模型参数。其中，模型参数可以是阈值参数，每个清洗模型对应的出现概率的阈值，出现概率阈值为超参数，通过观察超参数的变化以及调整训练数据集，对出现概率的阈值进行调整，进行迭代交叉清洗，直到模型参数能够满足使用需求。

进一步地，在一实施例中，所述从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型，其中，所述清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成，所述第一数据源与所述第二数据源不同之前，包括：

S51，获取初始数据源，并获取所述初始数据源中样本文本数据的干净程度；

S52，从所述初始数据源中筛选出干净程度满足预设条件的数据源，并根据所述数据源的样本文本数据训练对应的清洗模型，组成所述清洗模型库。

具体的，在构建清洗模型库之前，首先获取初始数据源，并对初始数据源中样本文本数据的干净程度进行粗略判断，将干净程度满足预设条件的初始数据源用于训练清洗模型。可以理解的，在文本清洗中，用干净的数据去清洗不干净的数据效果是最好的。如果某个数据源的文本数据也比较脏，那可能用该数据源去清洗其他数据源的文本数据效果不佳。因此，本实施例中，为了进一步地提高文本清洗的效果，对较脏的初始数据源进行筛除，保留初始的干净程度满足预设条件的数据源进行清洗模型训练。其中，预设条件可以根据实际情况进行设置，如：脏数据量/总数据量＜5％。

在本申请实施例中，通过基于目标文本数据进行新的语言模型训练，进而根据语言模型的性能迭代调整清洗模型的模型参数，优化清洗模型，进一步地提高了清洗效果；同时，在清洗模型库中清洗模型训练前对数据源进行筛选，以提高数据源的质量，再将干净程度满足预设条件的数据源对应的样本文本数据用于模型训练，以提升训练出的清洗模型性能。

请参见图5，为本申请实施例提供了一种文本获取方法中确认目标清洗模型的细化流程示意图。如图5所示，本申请实施例的所述方法可以包括以下步骤S21-S22。

S21，确认与所述源文本数据所属的数据源不同的第三数据源，并从所述第三数据源中选取第二数据源；

S22，从预训练的清洗模型库中获取所述第二数据源对应的目标清洗模型。

在本实施例中，将预训练的清洗模型库中与源文本数据所属的数据源不同的数据源确认为第三数据源，再从第三数据源中选取第二数据源，获取第二数据源对应的清洗模型作为目标清洗模型。需要说明的是，第三数据源为清洗模型库中的除第一数据源外的所有数据源，第二数据源可以为全部的第三数据源，也可以从第三数据源中选取任意数量的数据源作为第二数据源。

示例性的，例如有N个数据源和N个模型，那么可以利用N-1个模型对N-1个数据源的数据都进行清洗，即1个数据源的数据会被N-1个模型进行清洗；1个数据源的数据仅被不同源的模型进行1次清洗；1个数据源的数据会被预设数量的模型(M个，M小于N-1)进行清洗，清洗的顺序不限。

进一步地，在一实施例中，所述从所述第三数据源中选取第二数据源，包括：

S221，获取所述源文本数据的数据类型；

S222，基于所述数据类型从所述第三数据源中选取第二数据源。

在本实施例中，根据源文本数据的数据类型确认目标清洗模型。具体的，首先获取源文本数据的数据类型，并根据该数据类型从第三数据源中匹配相似的数据类型的数据源，进而将相似的数据源作为第二数据源。获取第二数据眼训练得到的清洗模型作为目标清洗模型。可以理解的，例如从同为房产论坛的两个网站上爬取的数据其数据内容是更为接近的，并且其中可能存在的噪声数据也更为相似，例如可能同样存在由复杂同声字编辑的售楼广告，那么在对某一数据类型为房产论坛或者是房产相关的源文本数据进行清洗时，可以优先获取同样为房产相关的数据源对应的清洗模型进行清洗，使得清洗效率和效果都更优。

S223，基于所述源文本数据确认所需目标清洗模型的最低数量；

S224，从所述第三数据源中选取与所述最低数量对应的第二数据源。

具体的，为了提高清洗的效率，从第三数据源中中选取预设数量(最低数量)的第二数据源，并即获取预设数量的目标清洗模型进行清洗。其中，最低数量可以根据不同数据源实际清洗测试的效果确定。例如，在训练过程中对1个数据源采用5个不同的数据源的清洗模型进行清洗能够达到预设的清洗效果，则可以将该数据源所需的清洗模型最低数量设置为5，后续在对该源的文本数据进行清洗时，可以仅获取5个不同源的清洗模型进行清洗，以减少交叉清洗的次数。需要说明的是，可以计算多个数据源所需最低数量的平均数，也即将所有源文本数据对应的目标清洗模型的最低数量设置为一样的。可选的，可以为数据源分类统计，为每一类数据源设置其对应的所需目标清洗模型最低数量。

示例性的，对本发明文本清洗方法的实施以及效果进行说明。

例如：使用数据源2的N-gram语言模型评估数据源2的数据

得到概率最大的数据为：

“-0.249894638245902秘滵汸愙0沅炝嘌赽唻帮莪莇劦复浙适葮妏牸$104fc2a5201$菿E嘌APP咑EOS秘滵汸愙0沅炝嘌赽唻帮莪莇劦复浙适葮妏牸$644c7b24dec$菿E嘌APP咑

-0.251231336852459阳洸劫厞0沅炝嘌赽唻帮莪莇劦复浙适葮妏牸$8eab64a11ff$菿E嘌APP咑EOS阳洸劫厞0沅炝嘌赽唻帮莪莇劦复浙适葮妏牸$D44c1e5cb11$菿E嘌APP咑

-0.268580770048387秘滵汸愙0沅炝嘌赽唻帮莪莇劦复浙适葮妏牸$E89dd17e49a$菿E嘌APP咑互EOS秘滵汸愙0沅炝嘌赽唻帮莪莇劦复浙适葮妏牸$553cb1a1dbe$菿E嘌APP咑”

上面的例子表示了利用数据源2本身文本数据训练出的N-gram模型无法清洗掉其中的噪音。

而采用本实施例的方法，利用不同源数据训练的gram来进行数据清洗，可以有效的发现噪音。例如，使用其他源训练的N-gram语言模型评估数据源2文本数据，概率最小的数据如下：

“顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾 >魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏顾魏

秘滵汸愙0沅炝嘌赽唻帮莪莇劦复浙适葮妏牸$104fc2a5201$菿E嘌APP咑EOS秘滵汸愙0沅炝嘌赽唻帮莪莇劦>复浙适葮妏牸$644c7b24dec$菿E嘌APP咑

票求互秘滵汸愙0沅炝嘌赽唻帮莪莇劦复浙适葮妏牸$3a9a45f9b8e$菿E嘌APP咑EOS姐妹互秘滵汸愙0沅炝嘌赽唻帮莪莇劦复浙适葮妏牸$11775fb9553$菿E嘌APP咑”

这些概率小的数据就是数据源2数据中的噪音数据。因此，通过这种多源数据N-gram交叉清洗的方式，可以将单数据源的噪音数据清洗的较为干净。

在本实施例中，对源文本数据进行清洗时，将预训练的清洗模型库中与源文本数据所属的数据源不同的数据源确认为第三数据源，再从第三数据源中选取第二数据源，获取第二数据源对应的清洗模型作为目标清洗模型，也即可以选取任意数量的目标清洗模型，并且，为了进一步缩短清洗过程的时间，可以根据源文本数据的数据类型来选取目标清洗模型，还可以根据源文本数据确认所需目标清洗模型的最低数量，进而从第二数据源中选出部分第三数据源，并获取其对应的目标清洗模型对源文本数据进行清洗，提高清洗的效率。

下面将结合附图6，对本申请实施例提供的文本获取装置进行详细介绍。需要说明的是，附图6中的文本获取装置，用于执行本申请图2-图5所示实施例的方法，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请图2-图5所示的实施例。

请参见图6，其示出了本申请一个示例性实施例提供的文本获取装置的结构示意图。该文本获取装置可以通过软件、硬件或者两者的结合实现成为装置的全部或一部分。该装置包括获取模块10、模型匹配模块20和清洗模块30。

获取模块10，用于当检测到针对第一数据源的清洗指令时，获取所述清洗指令指示的所述第一数据源中的源文本数据；

模型匹配模块20，用于从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型，其中，所述清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成，所述第一数据源与所述第二数据源不同；

清洗模块30，用于基于所述目标清洗模型对所述源文本数据进行清洗处理，以得到所述第一数据源的目标文本数据。

可选的，所述清洗模块30具体用于通过所述目标清洗模型计算所述源文本数据中各文本数据的出现概率；

在所述源文本数据中获取出现概率低于所述目标清洗模型对应的预设阈值的第一文本数据。

可选的，所述模型匹配模块20具体用于将所述预训练的清洗模型库中与所述源文本数据所属的数据源不同的清洗模型确认为初始清洗模型；

从所述第三数据源中选取第二数据源。

可选的，所述模型匹配模块20具体用于获取所述源文本数据的数据类型；

基于所述数据类型从所述第三数据源中选取第二数据源。

可选的，所述模型匹配模块20具体用于基于所述源文本数据确认所需目标清洗模型的最低数量；

从所述第三数据源中选取与所述最低数量对应的第二数据源。

可选的，所述装置还包括调参模块，所述调参模块具体用于基于所述目标文本数据训练语言模型，并获取所述语言模型的性能参数；

根据所述性能参数迭代调整所述清洗模型的模型参数。

可选的，所述装置还包括模型训练模块，所述模型训练模块用于获取初始数据源，并获取所述初始数据源中样本文本数据的干净程度；

从所述初始数据源中筛选出干净程度满足预设条件的数据源，并根据所述数据源的样本文本数据训练对应的清洗模型，组成所述清洗模型库。

需要说明的是，上述实施例提供的文本清洗装置在执行文本清洗方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的文本清洗装置与文本清洗方法实施例属于同一构思，其体现实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有文本清洗程序，所述文本清洗程序被处理器执行时实现如上述图2-图5所示实施例的所述文本清洗方法，具体执行过程可以参见图2-图5所示实施例的具体说明，在此不进行赘述。

请参考图7，其示出了本申请一个示例性实施例提供的文本清洗设备的结构示意图。本申请中的文本清洗设备可以包括一个或多个如下部件：处理器110、存储器120、输入装置130、输出装置140和总线150。处理器110、存储器120、输入装置130和输出装置140之间可以通过总线150连接。

处理器110可以包括一个或者多个处理核心。处理器110利用各种接口和线路连接整个文本清洗设备内的各个部分，通过运行或执行存储在存储器120内的指令、程序、代码集或指令集，以及调用存储在存储器120内的数据，执行终端100的各种功能和处理数据。可选地，处理器110可以采用数字信号处理(Digital Signal Processing，DSP)、现场可编程门阵列(Field－Programmable Gate Array，FPGA)、可编程逻辑阵列(Programmable LogicArray，PLA)中的至少一种硬件形式来实现。处理器110可集成中央处理器(CentralProcessing Unit，CPU)、图像处理器(Graphics Processing Unit，GPU)和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户页面和应用程序等；GPU用于负责显示内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器110中，单独通过一块通信芯片进行实现。

存储器120可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory，ROM)。可选地，该存储器120包括非瞬时性计算机可读介质(Non-Transitory Computer-Readable Storage Medium)。存储器120可用于存储指令、程序、代码、代码集或指令集。存储器120可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于实现至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等，该操作系统可以是安卓(Android)系统，包括基于Android系统深度开发的系统、苹果公司开发的IOS系统，包括基于IOS系统深度开发的系统或其它系统。

存储器120可分为操作系统空间和用户空间，操作系统即运行于操作系统空间，原生及第三方应用程序即运行于用户空间。为了保证不同第三方应用程序均能够达到较好的运行效果，操作系统针对不同第三方应用程序为其分配相应的系统资源。然而，同一第三方应用程序中不同应用场景对系统资源的需求也存在差异，比如，在本地资源加载场景下，第三方应用程序对磁盘读取速度的要求较高；在动画渲染场景下，第三方应用程序则对GPU性能的要求较高。而操作系统与第三方应用程序之间相互独立，操作系统往往不能及时感知第三方应用程序当前的应用场景，导致操作系统无法根据第三方应用程序的具体应用场景进行针对性的系统资源适配。

为了使操作系统能够区分第三方应用程序的具体应用场景，需要打通第三方应用程序与操作系统之间的数据通信，使得操作系统能够随时获取第三方应用程序当前的场景信息，进而基于当前场景进行针对性的系统资源适配。

其中，输入装置130用于接收输入的指令或数据，输入装置130包括但不限于键盘、鼠标、摄像头、麦克风或触控设备。输出装置140用于输出指令或数据，输出装置140包括但不限于显示设备和扬声器等。在一个示例中，输入装置130和输出装置140可以合设，输入装置130和输出装置140为触摸显示屏。

所述触摸显示屏可被设计成为全面屏、曲面屏或异型屏。触摸显示屏还可被设计成为全面屏与曲面屏的结合，异型屏与曲面屏的结合，本申请实施例对此不加以限定。

除此之外，本领域技术人员可以理解，上述附图所示出的文本清洗设备的结构并不构成对文本清洗设备的限定，文本清洗设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。比如，文本清洗设备中还包括射频电路、输入单元、传感器、音频电路、无线保真(Wireless Fidelity，WiFi)模块、电源、蓝牙模块等部件，在此不再赘述。

在图7所示的文本清洗设备中，处理器110可以用于调用存储器120中存储的文本清洗应用程序，并具体执行以下操作：

在一个实施例中，所述处理器110在执行基于所述目标清洗模型对所述源文本数据进行清洗处理，以得到所述第一数据源的目标文本数据时，具体执行以下操作：

通过所述目标清洗模型计算所述源文本数据中各文本数据的出现概率；

在目标清洗模型中获取当前清洗模型，通过所述当前清洗模型计算所述源文本数据中各文本数据的出现概率，所述当前清洗模型为所述目标清洗模型中当前用于对所述源文本数据进行清洗处理的清洗模型；

在所述源文本数据中获取出现概率低于所述当前清洗模型对应的预设阈值的第三文本数据；

在所述源文本数据中将所述第三文本数据剔除，获取剔除后所述源文本数据中剩余的第四文本数据；

若所述目标清洗模型中存在所述当前清洗模型的下一个清洗模型，则将所述下一个清洗模型确定为当前清洗模型，将所述第四文本数据确定为源文本数据，转入执行通过所述当前清洗模型计算所述源文本数据中各文本数据的出现概率的步骤；

若所述目标清洗模型中不存在所述当前清洗模型的下一个清洗模型，则将所述第四文本数据确定为所述第一数据源的目标文本数据。

在一个实施例中，所述处理器110在执行从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型时，具体执行以下操作：

将所述预训练的清洗模型库中与所述源文本数据所属的数据源不同的清洗模型确认为初始清洗模型；

从所述第三数据源中选取第二数据源。

在一个实施例中，所述处理器110在执行从所述第三数据源中选取第二数据源时，具体执行以下操作：

获取所述源文本数据的数据类型；

基于所述数据类型从所述第三数据源中选取第二数据源。

基于所述源文本数据确认所需目标清洗模型的最低数量；

在一个实施例中，所述处理器110在执行通过所述清洗模型对所述文本数据进行清洗，得到目标文本数据时，具体执行以下操作：

当多个所述第一编辑距离均小于或等于距离阈值时，确定所述第一音频识别系统为候选音频识别系统。

在一个实施例中，所述处理器110在执行基于预设阈值和多个所述第一编辑距离，将所述第一音频识别系统确定为候选音频识别系统之后，还执行以下操作：

基于所述目标文本数据训练语言模型，并获取所述语言模型的性能参数；

根据所述性能参数迭代调整所述清洗模型的模型参数。

在一个实施例中，所述处理器110在执行从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型，其中，所述清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成，所述第一数据源与所述第二数据源不同之前，还执行以下操作：

获取初始数据源，并获取所述初始数据源中样本文本数据的干净程度；

在本申请实施例中，通过当检测到针对第一数据源的清洗指令时，确定清洗指令指示的第一数据源中的源文本数据，再从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型，其中，清洗模型库是由根据不同数据源的样本文本数据训练得到的清洗模型组成，并且第一数据源与所述第二数据源不同，基于目标清洗模型对源文本数据进行清洗处理，以得到第一数据源的目标文本数据。采用多个清洗模型逐一对源文本数据进行清洗的方式，能够使源文本数据经由不同模型的清洗规则进行筛查，从而更全面地找出其中的噪音数据，以获得更优的清洗效果。并且对源文本数据进行清洗时，将预训练的清洗模型库中与源文本数据所属的数据源不同的数据源确认为第三数据源，再从第三数据源中选取第二数据源，获取第二数据源对应的清洗模型作为目标清洗模型，也即可以选取任意数量的目标清洗模型，并且，为了进一步缩短清洗过程的时间，可以根据源文本数据的数据类型来选取目标清洗模型，还可以根据源文本数据确认所需目标清洗模型的最低数量，进而从第二数据源中选出部分第三数据源，并获取其对应的目标清洗模型对源文本数据进行清洗，从而提高清洗的效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random AccessMemory，RAM)等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种文本清洗方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述目标清洗模型为一个清洗模型；

所述基于所述目标清洗模型对所述源文本数据进行清洗处理，以得到所述第一数据源的目标文本数据，包括：

在所述源文本数据中获取出现概率低于所述目标清洗模型对应的预设阈值的第一文本数据；

在所述源文本数据中将所述第一文本数据剔除，将剔除后所述源文本数据中剩余的第二文本数据确定为所述第一数据源的目标文本数据。

3.如权利要求1所述的方法，其特征在于，所述目标清洗模型为多个清洗模型，所述多个清洗模型按照设定清洗顺序进行排列；

4.如权利要求1所述的方法，其特征在于，从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型，包括：

确认与所述源文本数据所属的数据源不同的第三数据源，并从所述第三数据源中选取第二数据源；

从预训练的清洗模型库中获取所述第二数据源对应的目标清洗模型。

5.如权利要求4所述的方法，其特征在于，所述从所述第三数据源中选取第二数据源，包括：

获取所述源文本数据的数据类型；

基于所述数据类型从所述第三数据源中选取第二数据源。

6.如权利要求4所述的方法，其特征在于，所述从所述第三数据源中选取第二数据源，包括：

基于所述源文本数据确认所需目标清洗模型的最低数量；

7.如权利要求1所述的方法，其特征在于，所述基于所述目标清洗模型对所述源文本数据进行清洗处理，以得到所述第一数据源的目标文本数据之后，包括：

根据所述性能参数迭代调整所述清洗模型的模型参数。

8.如权利要求1-7任一项所述的方法，其特征在于，所述从预训练的清洗模型库中选取与第二数据源对应的目标清洗模型之前，包括：

9.一种文本清洗装置，其特征在于，所述装置包括：

10.一种文本清洗设备，其特征在于，所述设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的文本清洗程序，所述文本清洗程序被所述处理器执行时实现如权利要求1至8中任一项所述的文本清洗方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有文本清洗程序，所述文本清洗程序被处理器执行时实现如权利要求1至8中任一项所述方法的步骤。