CN115438629A

CN115438629A - 数据处理方法、装置、存储介质及电子设备

Info

Publication number: CN115438629A
Application number: CN202110615209.9A
Authority: CN
Inventors: 吴珺
Original assignee: Beijing ByteDance Network Technology Co Ltd
Current assignee: Beijing ByteDance Network Technology Co Ltd
Priority date: 2021-06-02
Filing date: 2021-06-02
Publication date: 2022-12-06

Abstract

本申请实施例公开了一种数据处理方法、装置、存储介质及电子设备，所述方法包括：获取待识别的文本信息集合；调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换，将各文本信息转换成计算机可识别的字符格式数据，得到各文本信息对应的字符格式数据；对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析，根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息。因此，采用本申请实施例，通过文本编码函数进行文本格式转换就可对文本信息进行相似聚类而实现智能识别，识别过程快，可与黑产快速同步，进而降低了风险隐患。

Description

数据处理方法、装置、存储介质及电子设备

技术领域

本申请涉及计算机技术领域，尤其涉及一种数据处理方法、装置、存储介质及电子设备。

背景技术

在互联网高度普及的今天，人们对社交的需求促发了网络社交平台的高速发展和变迁。人们喜欢在社交媒体上塑造人设，分享作品或点赞作品，也离不开网络的高度匿名和自由化。但是这也给予网络黑灰产可乘之机，它们通过脚本软件短时间大批量地创造出大量虚拟设备或垃圾文本信息，潜伏在平台上积累粉丝和账号热度，最终达到诈骗、薅羊毛等盈利目的，不仅危害了网络平台的健康有序，更严重者甚至挑战相关法律。

现有对垃圾文本信息的检测通常依赖于黑名单、人工规则或有监督学习。但这些方式的共同局限是依赖于人力的判断和对样本的标注，往往滞后于黑产的快速变化，增加了风险隐患。

发明内容

本申请实施例提供了一种数据处理方法、装置、存储介质及电子设备，通过文本编码函数进行文本格式转换就可对文本信息进行相似聚类而实现智能识别，识别过程快，可与黑产快速同步，进而降低了风险隐患。本技术方案如下：

第一方面，本申请实施例提供了一种数据处理方法，所述方法包括：

获取待识别的文本信息集合；

调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换，将各文本信息转换成计算机可识别的字符格式数据，得到各文本信息对应的字符格式数据；

对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析，根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息。

第二方面，本申请实施例提供了一种数据处理装置，所述装置包括：

文本获取模块，用于获取待识别的文本信息集合；

格式转换模块，用于调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换，将各文本信息转换成计算机可识别的字符格式数据，得到各文本信息对应的字符格式数据；

文本识别模块，用于对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析，根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息。

第三方面，本申请实施例提供了一种非暂态计算机可读存储介质，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行上述的方法步骤。

第四方面，本申请实施例提供了一种电子设备，可包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

本申请一些实施例提供的技术方案带来的有益效果至少包括：

在本申请实施例中，通过获取待识别的文本信息集合，并调用预设的文本编码函数针对文本信息集合中各文本信息进行文本格式转换，将各文本信息转换成计算机可识别的字符格式数据，进而对转换结果进行聚类分析以识别文本信息集合中各文本信息是否为异常信息。整个识别过程中不需要依赖人工的判断或标注，通过文本编码函数进行文本格式转换就可对文本信息进行相似聚类而实现智能识别，识别过程快，可与黑产快速同步，进而降低了风险隐患。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种系统架构示意图；

图2是本申请实施例提供的一种数据处理方法的流程示意图；

图3是本申请实施例提供的另一种数据处理方法的流程示意图；

图4是本申请实施例提供的又一种数据处理方法的流程示意图；

图5是本申请实施例提供的一种垃圾账号识别过程的举例示意图；

图6是本申请实施例提供的一种数据处理装置的结构示意图；

图7是本申请实施例提供的一种数据处理装置的结构示意图；

图8是本申请实施例提供的一种计算机可读存储介质的示意图；

图9是本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施例方式作进一步地详细描述。

下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反，它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。

在本申请的描述中，需要理解的是，术语“第一”、“第二”等仅用于描述目的，而不能理解为指示或暗示相对重要性。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本申请中的具体含义。此外，在本申请的描述中，除非另有说明，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

请参见图1，为本申请实施例提供了一种发文关键字段推送的系统架构图。如图1所示，本申请实施例提供的数据处理方法可以应用于内容平台的场景中，所述内容平台中存在用户和文章内容这两个实体，其中，用户在内容平台中注册账号、发布或浏览文章内容，所对应的实体结构可以具体划分为用户终端以及内容服务设备，用户终端可以包括多个，用户终端与内容服务设备之间可以通过网络相互连接。

用户终端可以包括但不限于：个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端可以叫做不同的名称，例如：用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无绳电话、个人数字处理(personal digital assistant，PDA)、5G网络或未来演进网络中的终端设备等；所述内容服务设备具体可以为搭载了内容平台，且对用户注册账号或者对用户产生的文章内容或者相应的评论信息进行存储的后台服务设备，例如：服务器、服务集群等；文章内容具体可以为由多媒体数据所组成的内容，多媒体数据可以包括但不限于视频、图片、文字等。

本申请实施例以数据处理装置为执行主体，数据处理装置具体可以为系统架构中的内容服务设备，也可以为内容服务设备中数据处理推送应用程序。

在用户终端上可安装目标应用APP，点击该APP图标后进入注册界面，通过用户的操作可向内容服务设备请求注册登录账号，在注册通过后，用户可在用户终端上通过该登录账号登录并访问内容服务设备。

对于内容服务设备而言，可记录每个注册的用户终端的账号、登录状态、文章评论、发布的内容文章等信息，并可根据这些信息识别其中的异常信息。

下面将结合具体的实施例对本方案进行详细说明。

请参见图2，为本申请实施例提供的一种数据处理方法的流程示意图。如图2所示，本申请实施例的所述方法可以包括以下步骤：

S101，获取待识别的文本信息集合；

可以理解的是，所述待识别的文本信息集合，可以包括至少一个待识别的文本信息。所述文本信息可以包括用户账号、用户评论等。

每个用户可在内容平台上注册账号，并通过所注册的账号登录该内容平台。所述内容平台可以为即时通讯应用平台、短视频应用平台或其他社交应用平台。每个账号对应唯一标识，可通过文本信息的形式表示，具体可以为指定格式的字符串，如由汉字、数字、字母、符号中的一种或多种组成。

每个用户评论即为用户对内容平台中作者所发布的文章内容输入的评论信息。每个用户评论可通过文本信息的形式表示，具体可以为指定格式的字符串，如由汉字、数字、字母、符号、表情包或者图片等中的一种或多种组成。

在可行的实现方式中，若所述文本信息集合为账号集合，数据处理装置遍历当前登录内容平台的所有账号，将这些账号确定为待识别的账号集合；或者，数据处理装置遍历注册该内容平台的所有账号，将这些账号确定为待识别的账号集合；或者，数据处理装置遍历在预设时间内收集的用于身份认证的多个账号作为待识别的账号集合，其中，数据处理装置可按照预设周期进行遍历。若所述文本信息集合为评论集合，可以单个文章内容为单位，读取每个文章内容的评论，将所读取到的评论作为待识别的评论集合。

S102，调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换，将各文本信息转换成计算机可识别的字符格式数据，得到各文本信息对应的字符格式数据；

所述文本编码函数用于将所述文本信息中的各字符按照设置的文本格式转换成另一种格式的计算机可识别的字符格式数据，从而可以更容易地对转换后的字符格式数据进行相似聚类分析。

常用的文本编码函数包括多种。第一种是字符到字符集的映射函数ctype，例如数字字符映射成N、英文字符映射成E、中文字符映射成C，通过这个编码方式可以将文本映射成一个由字符集代号组成的新文本。第二种是文本缩码的映射函数shrink，例如将AAb映射成Ab，通过这个编码方式可以规避利用重复字符规避检测的行为。第三种是字符编号的变换函数number，是指按照字符出现的次序，以数字作为代替，重新编码原字符串，例如香气飘飘、细雨霖霖等相似文本都会被编码成1233的形式。其余还有N-gram，set和sort等其他规则的编码函数。

number是指按照字符出现的次序，以数字作为代替，重新编码原字符串。

这里借用N-gram中对长文本信息(句子)做切片采样的方法，把文本信息切分成长度为 N的多个文本片段。

sort是指对一个文本信息中所有字符，按照字典序(中文字符也有相应序列关系)重新排序，生成一个长度不变、字符顺序改变了的新文本信息。

例如，文本信息为香气飘飘，对应的各个字符为“香”“气”“飘”“飘”，编码函数为number，则将“香”“气”“飘”“飘”依次转换为“1”“2”“3”“3”，因此，转换后的字符格式数据为1233。

其中，调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换，可以是调用单个的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换，可以是调用包含至少两个文本编码函数的文本编码函数链针对所述文本信息集合中各文本信息进行文本格式转换，还可以是调用包含至少两个文本编码函数链的文本编码函数链集合针对所述文本信息集合中各文本信息进行文本格式转换。

S103，对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析，根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息。

可以理解的是，所述聚类分析即为对转换后得到的字符格式数据进行分组，将相似的字符格式数据分为一组，认为这些相似的字符格式数据对应的文本信息是一个黑产构建的异常信息团伙。若某个字符格式数据不存在与其相似的字符格式数据，那么这个字符格式数据对应的文本信息为正常文本信息。

例如，若待识别的文本信息集合包括待识别的账号集合，转换后的字符格式数据包括编号分别为1、2、3、4、5的字符格式数据，若字符格式数据1、2和3相似，则确定字符格式数据1、2和3对应的账号为垃圾账号，是一个黑产构建的垃圾账号团伙。

请参见图3，为本申请实施例提供的另一种数据处理方法的流程示意图。本实施例以应用单个编码函数链对各文本信息进行文本格式转换为例进行说明。该数据处理方法可以包括以下步骤：

S201，获取待识别的文本信息集合；

假设文本信息集合为S＝(T₁、T₂、T₃…T_n)，T₁、T₂、T₃…T_n分别为待识别的文本信息，例如T₁为“小圆圆2008”，由汉字+数字组成。

S202，针对所述文本信息集合中各文本信息，调用预设的文本编码函数链，所述文本编码函数链包括关联的至少两个文本编码函数；

可以理解的是，文本编码函数链是指由至少两个文本编码函数组成的函数序列，各文本编码函数之间包含一定的关联顺序关系。

例如，文本编码函数链L＝(F₁，F₂，F₃…F_n)，F₁～F_n分别为单个的文本编码函数，F₁是第一个文本编码函数，F₁的下一个文本编码函数为F₂，F₂的下一个文本编码函数为F₃，……，F_n为最后一个文本编码函数。每个文本编码函数，用于将文本信息转换成新的字符格式。当然，同一个文本编码函数链中的文本编码函数可以部分相同，也可以完全不同。

S203，按照所述文本编码函数链中文本编码函数的关联顺序关系，依次调用文本编码函数对文本信息进行转换处理，在调用过程中，将上一文本编码函数的输出作为当前文本编码函数的输入，获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式数据；

具体实现中，按照文本编码函数链中文本编码函数的关联顺序关系，通过文本编码函数逐层对文本信息进行文本格式转换。也就是说，确定当前文本编码函数，如F₂，那么上一个文本编码函数为F₁，采用F₁对文本信息T₁进行文本格式转换，输出为code₁₁，那么code₁₁为F₂的输入，从而输出code₁₂，然后再将code₁₂作为下一个文本编码函数的输入，依次进行文本格式转换，那么，最后一个文本编码函数F_n的输出code_1n即为T₁对应的字符格式数据。

对于文本信息集合中所有的文本信息都按照上述方式进行处理，从而可以得到每个文本信息T_i采用同一文本编码函数链进行文本格式转换后的字符格式数据code_in，即T₁对应的字符格式数据为code_1n，T₂对应的字符格式数据为code_2n，……，T_n对应的字符格式数据为 code_nn。

S204，对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析，根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息。

可以理解的是，聚类分析的过程即为对所转换的字符格式数据进行分组的过程，即将相似的字符格式数据分为一组。那么，如果所分组的结果中包括多个字符格式数据，可认为这些字符格式数据对应的文本信息为异常信息，且由同一个黑产生成。

例如，文本编码函数链S＝(shrink，ctype，shrink)，文本信息T₁为“小圆圆2008”，通过文本编码函数链逐层变换，依次变换成“小圆208”、“CCNNN”、“CN”，而其他文本信息，如“小方2009”和“小角角201”等，通过该文本编码函数链变换后，最终都将被变换成同一种编码“CN”，因此，认为“小圆圆2008”、“小方2009”和“小角角201”是一个黑产构建的垃圾文本信息团伙。

在本申请实施例中，通过包含至少两个文本编码函数的单个编码函数链对待识别的文本信息逐层进行文本格式转换，并根据转换后的字符格式数据识别文本信息是否为异常信息，整个识别过程中不需要依赖人工的判断或标注，通过文本编码函数进行文本格式转换就可智能识别，识别过程快，可与黑产快速同步，进而降低了风险隐患。此外，文本编码函数链由多个文本编码函数组成，文本编码函数也不需要依赖于人工预先标记，通过对文本编码函数排列组合就可以生成新的文本编码函数链，可以精确的识别文本信息，能够对抗变化多端的黑产。文本编码函数链具有可拓展性和轻量级配置，通过添加一行函数组合方式就召回大批异常文本信息，并能够发现传统识别方法无法检测到的隐蔽相似情形，从而提高了对异常文本信息的召回率。

请参见图4，为本申请实施例提供的又一种数据处理方法的流程示意图。本实施例以文本编码函数链集合中包括至少两个文本编码函数链为例进行说明。该数据处理方法可以包括以下步骤：

S301，确定宽度编码函数链的长度，枚举当前文本编码函数；

可以理解的是，宽度编码函数链是指采用宽度优先搜索的方法生成的编码函数链。

所谓宽度优先搜索，是指首先设置一个阈值C来表示文本编码函数链的长度，然后通过逐步枚举文本编码函数的方法来组合出不同的文本编码函数链。不同的宽度编码函数链， C可以取不同的值，当然也可以相同。

此外，对待生成的宽度编码函数链，还需要枚举第一个文本编码函数。

枚举的方式可以为在不同种类的文本编码函数集合中任意选择一个函数。而对于不同的宽度编码函数链，第一个文本编码函数可以不同，当然也可以相同。

例如，文本编码函数集合包括10种文本编码函数，分别为F₁、F₂、……、F₁₀，则可在其中选择任一文本编码函数(如F₂)作为第一个文本编码函数。

S302，枚举下一文本编码函数，所述下一文本编码函数与所述当前文本编码函数不同，在枚举过程中，当第一个文本编码函数到最后一个文本编码函数之间的编码函数数量等于所述宽度编码函数链的长度时，生成所述宽度编码函数链；

再枚举第一个文本编码函数的下一个文本编码函数。枚举原则为下一个文本编码函数与第一个文本编码函数不同即可，以避免重复进行相同的文本格式转换，如下一个文本编码函数可以为F₁－F₁₀中除F₂之外的任一文本编码函数(如F₅)。

若此时所有枚举的文本编码函数的数量未达到设定的长度C，则按照上述方式再不断枚举下一个文本编码函数,直到文本编码函数的数量达到C。当数量到达C时，输出长度为 C的文本编码函数链，即生成了一个宽度编码函数链。

并可按照上述相同的方式进行枚举，从而生成多个宽度编码函数链。

S303，将所述宽度编码函数链添加至文本编码函数链集合中；

将上述生成的宽度编码函数链依次添加至文本编码函数链集合中，以便通过文本编码函数链集合中的各宽度编码函数链对待识别的文本信息进行文本格式转换后识别。其中，所生成的宽度编码函数链数量越多，对待识别的文本信息的识别结果更准确。通过上述方式可以枚举出大量的宽度编码函数链，极少会出现不能覆盖相似文本的情况。为了进一步提高识别结果的准确率，可通过深度优先搜索的方法生成深度编码函数链，从而召回更多的有着相似的潜藏文本特征的文本信息。

深度优先搜索过程具体如下：

S304，采集所标注的相似文本，并获取当前的搜索状态State(Layer,Link,Code)，所述 Layer为当前编码函数的位置、所述Link为1至Layer－1之间的文本编码函数组成的文本编码函数链、所述Codes为采用所述上一文本编码函数对各所述相似文本信息进行文本格式转换得到的第一字符格式数据；

假设相似文本信息为T＝{T₁，T₂，T₃，T₄，T₅}；并定义搜索状态为State(Layer，Link，Code)，Layer表示文本编码函数链上当前文本编码函数的位置，Link表示从第1个到第Layer-1个文本编码函数构成的链条，Code表示按照Link中各个文本编码函数的关联顺序关系，将上一文本编码函数的输出作为当前文本编码函数的输入，逐层对T中各个文本信息进行文本格式转换，得到最后一个文本编码函数输出的字符格式数据，其中包括T₁， T₂，T₃，T₄，T₅分别对应的字符格式数据Code₁、Code₂、Code₃、Code₄、Code₅。

S305，搜索所述位置对应的当前编码函数，采用所述当前文本编码函数对各所述第一字符格式数据进行文本格式转换，得到各第二字符格式数据；

当搜索到Layer层对应的当前文本编码函数时，依次枚举文本编码函数，并采用当前枚举到的文本编码函数对Code中的所有字符格式数据(Code₁、Code₂、Code₃、Code₄、Code₅)进行相应变换，从而得到Layer层输出的字符格式数据Code'₁、Code'₂、Code'₃、Code'₄、Code'₅。

其中，枚举文本编码函数的方式为，依次遍历文本编码函数集合中的各文本编码函数，采用当前遍历到的文本编码函数对Code中的所有第一字符格式数据进行文本格式转换，得到第二字符格式数据。

S306，当各所述第二字符格式数据全部相同时，将1至Layer之间的文本编码函数作为深度编码函数链，将所述深度编码函数链添加至所述文本编码函数链集合中，所述深度编码函数链为由所述第一个文本编码函数至所述当前文本编码函数组成的文本编码函数链。

若转换后的第二字符格式数据全部相同(即Code'₁＝Code'₂＝Code'₃＝Code'₄＝Code'₅)，那么将当前遍历到的文本编码函数确定为当前文本编码函数，也就是待生成的文本编码函数链中的最后一个文本编码函数；若转换后的第二字符格式数据不全部相同，则继续遍历文本编码函数集合中的下一个文本编码函数，并按照上述相同的方式对Code中的所有字符格式数据进行文本格式转换，若所有的文本编码函数遍历完成后，转换后的字符格式数据仍不完全相同，则可任选一文本编码函数作为当前文本编码函数，然后继续枚举下一个的文本编码函数，直到Code中的字符格式数据全部相等，则生成对应的文本编码函数链。

同样的，采集多个相似文本进行深度优先搜索，可以生成多个深度编码函数链，然后将这些深度编码函数链添加至上述编码函数链集合中。

需要说明的是，可单独采用宽度优先搜索或深度优先搜索的方式也可以生成文本编码函数链集合。当然，也可以先采用深度优先搜索的方式生成文本编码函数链集合，在此基础上，再采用宽度优先搜索的方式生成文本编码函数链进行补充。

S307，获取待识别的文本信息集合；

假设待识别的文本信息集合为X，X＝{X₁，X₂，X₃…}，X₁，X₂，X₃…为各个待识别的文本信息。

S308，针对所述文本信息集合中各文本信息，调用预设的文本编码函数链集合，所述文本编码函数链集合包括关联的至少两个文本编码函数链，每个所述文本编码函数链包括关联的至少两个文本编码函数；

可以理解的是，所述预设的文本编码函数链集合为上述通过宽度优先搜索和/或深度优先搜索的方式生成的文本编码函数链集合。

假设该文本编码函数链集合为L＝(L₁，L₂，L₃…)，每个文本编码函数链L_j中包括至少两个文本编码函数，j表示文本编码函数链的序号，j＝1，2，3…。L_j可以为宽度编码函数链，也可以为深度编码函数链。

该文本编码函数链集合包括至少两个文本编码函数链，例如，L＝(L₁，L₂，L₃)，各个文本编码函数链之间存在第一关联顺序关系，如L₁为第一个文本编码函数链，L₁的下一个文本编码函数链为L₂，L₂的下一个文本编码函数链为L₃。

每个文本编码函数链包括至少两个文本编码函数，例如，L₁＝(F₁，F₂，F₃)，L₂＝(F₁，F₂，F₁，F₄)，L₃＝(F₃，F₂，F₁，F₄)。在同一个文本编码函数链中，各文本编码函数之间存在第二关联顺序关系，如L₁中的第一个文本编码函数为F₁，F₁的下一个文本编码函数为F₂，F₂的下一个文本编码函数为F₃。

S309，按照所述文本编码函数链集合中文本编码函数链的第一关联顺序关系，依次调用文本编码函数链；

对于一个文本信息需采用文本编码函数链集合中的全部文本编码函数链进行文本格式转换。采用每个文本编码函数链进行文本格式转换的过程是独立的，则按照各个文本编码函数链的第一关联顺序关系，依次调用每个文本编码函数链。

S310，按照所述文本编码函数链中文本编码函数的第二关联顺序关系，依次调用文本编码函数对文本信息进行转换处理，在调用过程中，将上一文本编码函数的输出作为当前文本编码函数的输入，获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式数据。

具体实现中，对于当前调用的文本编码函数链，依次调用该文本编码函数链中的各个文本编码函数对文本信息进行转换处理，具体的，在调用过程中，将上一文本编码函数的输出作为当前文本编码函数的输入，获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式数据。

例如，对X₁按照L₁，L₂，L₃…的第一关联顺序关系，依次调用L_j进行文本格式转换，得到X₁对应的字符格式数据为Code_1，j，j表示文本编码函数链的序号。

其中，对于当前调用的文本编码函数链L₁，L₁＝(F₁，F₂，F₃)，按照F₁，F₂，F₃的第二关联顺序关系，先调用F₁，采用F₁对X₁进行转换处理，输出Code₁，再调用F₂，将 Code₁输入至F₂中，输出Code₂，再调用F₃，将Code₂输入至F₃中，输出Code₃，那么 Code₃即为采用L₁对X₁进行文本格式转换后得到的字符格式数据。

需要说明的是，对于其余文本信息X₂，X₃…，同样的，采用文本编码函数链集合对X₂进行文本格式转换，得到字符格式数据为Code_2，j，采用文本编码函数链集合对X₃进行文本格式转换，得到字符格式数据为Code_3，j，…，最终可得到每个文本信息对应的编码结果为Code_i，j，i表示文本的序号，j表示文本编码函数链的序号，具体可用如下矩阵表示：

其中，每行表示采用不同的文本编码函数链对同一文本信息进行编码后的字符格式数据，每列表示采用同一文本编码函数链对不同文本信息进行编码后的字符格式数据。

S311，获取所述文本信息集合中的目标文本信息以及除所述目标文本信息之外的其余文本信息；

可以理解的是，目标文本信息为文本信息集合中的任一文本信息。为了找到和目标文本信息相似的文本信息，则需要将文本信息集合中的其余文本信息对应的字符格式数据与目标文本信息对应的字符格式数据进行逐一比对。

S312，对所述目标文本信息对应的字符格式数据集合与所述其余文本信息中采用同一文本编码函数链进行文本格式转换的字符格式数据集合进行分组，得到各所述文本编码函数链对应的分组结果；

每列可理解为不同层的编码结果，例如，Code_1，1、Code_2，1、…、Code_i，1表示第一层编码结果，Code_1，2、Code_2，2、…、Code_i，2表示第二层编码结果。然后分别对每层编码结果中的字符格式数据进行分组。

例如，按照文本编码函数链的序号顺序分为第一层和第二层，且包括5个文本信息，若第一层的分组结果是Code_1，1，Code_4，1，Code_5，1，(Code_2，1Code_3，1)，第二层的分组结果为 Code_1，2，Code_2，2，Code_4，2，(Code_3，2Code_5，2)。

S313，确定所述分组结果中各分组的字符格式数据的数量，确定所述数量大于或者等于数量阈值的目标分组；

完全相同的Code分为一组，而分到同个组的字符格式数据及其对应的文本信息是一个黑产构建的异常文本团伙，因此，当分组中只包括单个字符格式数据(Code)时，表明不存在相似的字符格式数据，该字符格式数据对应的文本信息大概率为正常文本信息。因此，剔除每组分组结果中字符格式数据数量小于数量阈值的分组，那么所保留的字符格式数据数量大于或者等于数量阈值的目标分组则为异常文本信息的分组。其中，数量阈值可为2、3等大于1的任一值。在本申请实施例中，所述数量阈值为2。

例如，在第一层的分组结果中保留(Code_2，1Code_3，1)的目标分组，在第二层的分组结果中保留(Code_3，2Code_5，2)的目标分组。

S314，将所述目标分组中的字符格式数据对应的文本信息确定为异常信息。

可见，上述保留的目标分组中，均有相同的Code，因此，每个Code对应的文本信息均为异常信息。

可选的，将所述目标分组中的字符格式数据对应的文本信息确定为异常信息之后，还包括：

在所述分组结果中，将包括至少两个字符格式数据的分组合并为一个分组，并将包括一个字符格式数据的分组保持为一个分组，生成最终分组结果；

将所述最终分组结果发送至服务器，以使所述服务器将所述最终分组结果作为训练样本训练其他有监督模型。

通过合并相似字符格式数据，来对异常文本信息进行团伙聚合。找到异常文本信息团伙的意义在于，它可以帮助其他业务人员总结发现黑产规律，也可以作为其他有监督模型的输入，在此不多赘述。

由于函数链是相互独立的，可以采取依次分层合并的方式来划分异常文本信息团伙。例如第一层的分组结果是(Code_1，1)(Code_4，1)(Code_5，1)(Code_2，1Code_3，1)，第二层的分组结果为(Code_1，2)(Code_2，2)(Code_4，2)(Code_3，2Code_5，2)，则合并结果是(Code₁)(Code₄) (Code₂Code₃ Code₅)，然后将该合并结果与下一层分组结果进行合并，以此类推，直到所有分组做完合并，并将最终的合并结果和/或单个的合并结果发送至服务器，以作为其他有监督模型的输入样本，或者给业务人员做规则分析等。

可选的，所述将所述目标分组中的字符格式数据对应的文本信息确定为异常信息之后，还包括：

确定所述目标分组中各文本被分配的分组数量，并获取所述文本编码函数链集合中文本编码函数链的总数量；

统计所有分组结果中，同一字符格式数据被分配的分组数量，即为该字符格式数据的命中次数。

例如，对于序列号为2的字符格式数据，仅分配至第一分组中，因此，对应的命中次数为1；对于序列号为3的字符格式数据，同时被分配到第一分组和第二分组，因此，对应的命中次数为2；对于序列号为5的字符格式数据，仅分配至第一分组中，因此，对应的命中次数为1。

另外，文本编码函数链的总数量为j，对应上述矩阵的列数。在上述举例中，j＝2。

计算所述分组数量与所述总数量的比值。

计算每个文本信息对应的命中次数与文本编码函数链的总数量的比值，从而得到每个文本信息的命中概率，所有的文本信息的命中概率都会被划归到0到1的得分区间。

例如，对于序列号为2的文本信息，对应的命中概率为1/2；对于序列号为3的文本信息，对应的命中概率为2/2；对于序列号为5的文本信息，对应的命中概率为1/2。

可选的，计算比值的方法还可以为：获取所述文本编码函数链集合中各所述文本编码函数链对应的权重系数，计算各所述权重系数的第一和值；确定所述目标分组中各字符格式数据所属的分组，确定各字符格式数据所属的分组对应的目标文本编码函数链；计算各所述目标文本编码函数链对应的权重系数的第二和值；计算所述第二和值与所述第一和值的比值。

同样的，所述比值也表示文本信息的命中概率。例如，每个文本编码函数链对应的权重系数为W，W＝{w₁,w₂,w₃,...}，那么，每个文本信息的命中概率为(w₁*L₁+w₂*L₂+.... +w_j*L_j)/(w₁+w₂+...+w_j)，L_j＝0或1，j＝1，2，…，n。其中，Lj＝0表示某个文本信息通过该文本编码函数链进行文本格式转换后，分组结果中仅包括该字符格式数据。

例如，通过序列号为1的文本编码函数链对各文本信息进行文本格式转换后，分组结果为(Code_1，1Code_4，1Code_5，1Code_2，1Code_3，1)，那么对于序列号为1、4、5的文本信息， L₁＝0，对于序列号为2、3的文本信息，L₁＝1。

因此，可以得到每个文本信息对应的命中概率，当文本编码函数链的总数量越多时，得到的命中概率更准确。

将所述比值发送至处罚平台，所述比值用于指示所述处罚平台基于各所述比值对所述目标分组中的字符格式数据对应的文本信息进行处罚处理。

比值充当衡量文本信息异常程度的得分，通过设置经验阈值选取出得分过高的文本信息作为垃圾文本信息，进行处罚。

比值越大，表明该比值对应的文本信息的异常程序越严重。因此，可以理解的是，在处罚平台侧预先保存了所设置的不同比值范围与不同处罚策略的对应关系，如表1所示，当接收到数据处理装置发送的各文本信息的比值时，查找各比值所属比值范围，从而确定对应的处罚策略，并根据该处罚策略对文本信息进行处罚、管理等。

其中，所述处罚策略可以包括：禁止转发、禁止发表评论、禁止登陆一个月、封号以及永久注销等。

需要说明的是，表格中所列的具体比值范围仅仅作为参考举例，并不代表实际应用中采取的数值。

表1

比值范围	处罚策略
		0.0-0.2	禁止转发
0.2-0.4	禁止发表评论
		0.4-0.6	禁止登陆一个月
0.6-0.8	封号
		0.8-1.0	永久注销

在本申请实施例中，通过包含至少两个文本编码函数链的多个文本编码函数对待识别的文本信息集合逐个进行文本格式转换，并根据转换后的字符格式数据识别相应的文本信息是否为异常信息，整个识别过程中不需要依赖人工的判断或标注，通过编码函数进行文本模式转换就可智能识别，识别过程快，可与黑产快速同步，进而降低了风险隐患并可以节省人工成本。同时，通过宽度优先搜索和/或深度优先搜索的方式生成大量的文本编码函数链样本，可以精确的识别异常信息，能够对抗变化多端的黑产。文本编码函数链具有可拓展性和轻量级配置，通过添加一行函数组合方式就召回大批垃圾账号，并能够发现传统文本方法无法检测到的隐蔽相似情形，从而提高了召回率。此外，由于按照文本编码函数链进行文本格式转换的过程只涉及对单个文本自身的计算，而不会涉及多个文本间的计算，所以很容易实现并行化和分布式计算，当待识别的文本信息数量很大时，例如在某个内容平台每日登录的全量账号上做昵称形似挖掘，就可以把大规模账号部署在分布式集群上进行快速计算，提高了识别效率。另外，对所识别的异常信息计算异常程度得分或分组合并处理，为后续工作提供了数据基础。

下面将结合图5对本申请的流程进行说明。如图5所示，待识别的文本信息集合包括待识别的账号集合，待识别的账号集合为X，X＝(X₁、X₂、…、X_i)，文本编码函数链集合为L，L＝(L₁、L₂、…、L_j)。

首先，从账号集合X中提取出编号为1的账号X₁，并从文本编码函数链集合L中提取出编号为1的文本编码函数链L₁，采用L₁对X₁进行文本格式转换，得到X₁对应的字符格式数据Code_1,1；然后从文本编码函数链集合L中提取出编号为2的文本编码函数链L₂，采用L₂对X₁进行文本格式转换，得到X₁对应的字符格式数据Code_1,2；按照编号顺序依次提取文本编码函数链中的各文本编码函数链，直到提取编号为j的最后一个文本编码函数链 L_j，采用L_j对X₁进行文本各式转换，得到X₁对应的字符格式数据Code_1,j，从而得到采用文本编码函数链L对X₁进行文本格式转换后的字符格式数据集合Code_1,1、Code_1,2、…、 Code_1,j。

再提取文本信息集合X中编号为2的文本信息X₂，按照上述相同的方式，得到X₂进行文本格式转换后的字符格式数据集合Code_2,1、Code_2,2、…、Code_2,j。

按照编号顺序依次提取文本信息集合X中的各文本信息，直到提取编号为i的最后一个文本信息X_i，按照上述相同的方式，得到X_i进行文本格式转换后的字符格式数据集合Code_i,1、Code_i,2、…、Code_i,j。

最后，对采用同一文本编码函数链得到的字符格式数据进行分组，如图4中虚线框所示，对Code_1,1、Code_2,1、…、Code_i,1分组，对Code_1,2、Code_2,2、…、Code_i,2分组，…，对Code_1,j、Code_2,j、…、Code_i,j分组。

确定每个分组中，分为同一组的字符格式数据，那么该字符格式数据对应的文本信息即为异常信息。

下述为本申请装置实施例，可以用于执行本申请方法实施例。对于本申请装置实施例中未披露的细节，请参照本申请方法实施例。

请参见图6，其示出了本申请一个示例性实施例提供的数据处理装置的结构示意图。该数据处理装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1 包括文本获取模块10、格式转换模块20和文本识别模块30。

文本获取模块10，用于获取待识别的文本信息集合；

格式转换模块20，用于调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换，将各文本信息转换成计算机可识别的字符格式数据，得到各文本信息对应的字符格式数据；

文本识别模块30，用于对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析，根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息。

可选的，所述格式转换模块20，具体用于：

针对所述文本信息集合中各文本信息，调用预设的文本编码函数链，所述文本编码函数链包括关联的至少两个文本编码函数；

按照所述文本编码函数链中文本编码函数的关联顺序关系，依次调用文本编码函数对文本信息进行转换处理，在调用过程中，将上一文本编码函数的输出作为当前文本编码函数的输入，获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式数据。

可选的，所述格式转换模块20，具体用于：

针对所述文本信息集合中各文本信息，调用预设的文本编码函数链集合，所述文本编码函数链集合包括关联的至少两个文本编码函数链，每个所述文本编码函数链包括关联的至少两个文本编码函数；

按照所述文本编码函数链集合中文本编码函数链的第一关联顺序关系，依次调用文本编码函数链；

按照所述文本编码函数链中文本编码函数的第二关联顺序关系，依次调用文本编码函数对文本信息进行转换处理，在调用过程中，将上一文本编码函数的输出作为当前文本编码函数的输入，获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式数据。

可选的，所述装置1还包括函数链集合生成模块40，用于：

确定宽度编码函数链的长度，枚举当前文本编码函数；

枚举下一文本编码函数，所述下一文本编码函数与所述当前文本编码函数不同，在枚举过程中，当第一个文本编码函数到最后一个文本编码函数之间的编码函数数量等于所述宽度编码函数链的长度时，生成所述宽度编码函数链；

将所述宽度编码函数链添加至文本编码函数链集合中。

可选的，所述函数链集合生成模块40，还用于：

采集所标注的相似文本信息，并获取当前的搜索状态State(Layer，Link，Codes)，所述Layer为当前文本编码函数的位置、所述Link为1至Layer－1之间的文本编码函数组成的文本编码函数链、所述Codes为采用所述上一文本编码函数对各所述相似文本信息进行文本格式转换得到的第一字符格式数据；

搜索所述位置对应的当前文本编码函数，采用所述当前文本编码函数对各所述第一字符格式数据进行文本格式转换，得到各第二字符格式数据；

当各所述第二字符格式数据全部相同时，将1至Layer之间的文本编码函数作为深度编码函数链，将所述深度编码函数链添加至所述文本编码函数链集合中，所述深度编码函数链为由所述第一个文本编码函数至所述当前文本编码函数组成的文本编码函数链。

可选的，所述待识别的文本信息集合包括待识别的账号集合，所述账号集合包括在预设时间内收集的用于身份认证的多个账号；所述文本识别模块30，具体用于：

根据聚类分析结果确定所述账号集合中各账号是否为垃圾账号。

可选的，所述文本识别模块30，具体用于：

获取所述文本信息集合中的目标文本信息以及除所述目标文本信息之外的其余文本信息；

对所述目标文本信息对应的字符格式数据集合与所述其余文本信息中采用同一文本编码函数链进行文本格式转换的字符格式数据集合进行分组，得到各所述文本编码函数链对应的分组结果；

确定所述分组结果中各分组的字符格式数据的数量，确定所述数量大于或者等于数量阈值的目标分组；

将所述目标分组中的字符格式数据对应的文本信息确定为异常信息。

可选的，所述装置还包括结果发送模块50，用于：

需要说明的是，上述实施例提供的数据处理装置在执行数据处理方法时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思，其实现过程详见方法实施例，这里不再赘述。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

本申请实施例还提供了一种非暂态计算机可读存储介质，所述计算机存储介质可以存储有多条指令，所述指令适于由处理器加载并执行如上述所示实施例的方法步骤，具体执行过程可以参见图1-图6所示实施例的具体说明，在此不进行赘述。

图8是根据本申请的实施例的计算机可读存储介质的示意图。如图8所示，根据本申请实施例的计算机可读存储介质，其上存储有非暂态计算机可读指令310。当该非暂态计算机可读指令310由处理器运行时，执行前述的全部或部分步骤。

请参见图9，为本申请实施例提供了一种电子设备的结构示意图。如图9所示，所述电子设备1000可以包括：至少一个处理器1001，至少一个网络接口1004，用户接口1003，存储器1005，至少一个通信总线1002。

其中，通信总线1002用于实现这些组件之间的连接通信。

其中，用户接口1003可以包括显示屏(Display)、摄像头(Camera)，可选用户接口1003还可以包括标准的有线接口、无线接口。

其中，网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。

其中，处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线路连接整个电子设备1000内的各个部分，通过运行或执行存储在存储器1005内的指令、程序、代码集或指令集，以及调用存储在存储器1005内的数据，执行电子设备1000的各种功能和处理数据。可选的，处理器1001可以采用数字信号处理(Digital SignalProcessing， DSP)、现场可编程门阵列(Field-Programmable Gate Array，FPGA)、可编程逻辑阵列 (Programmable Logic Array，PLA)中的至少一种硬件形式来实现。处理器1001可集成中央处理器(Central Processing Unit，CPU)、图像处理器(Graphics ProcessingUnit，GPU) 和调制解调器等中的一种或几种的组合。其中，CPU主要处理操作系统、用户界面和应用程序等；GPU用于负责显示屏所需要显示的内容的渲染和绘制；调制解调器用于处理无线通信。可以理解的是，上述调制解调器也可以不集成到处理器1001中，单独通过一块芯片进行实现。

其中，存储器1005可以包括随机存储器(Random Access Memory，RAM)，也可以包括只读存储器(Read-Only Memory)。可选的，该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代码、代码集或指令集。存储器1005可包括存储程序区和存储数据区，其中，存储程序区可存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、图像播放功能等)、用于实现上述各个方法实施例的指令等；存储数据区可存储上面各个方法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器 1001的存储装置。如图9所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及数据处理应用程序。

在图9所示的电子设备1000中，用户接口1003主要用于为用户提供输入的接口，获取用户输入的数据；而处理器1001可以用于调用存储器1005中存储的数据处理应用程序，并具体执行以下操作：

获取待识别的文本信息集合；

在一个实施例中，所述处理器1001在执行调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换，将各文本信息转换成计算机可识别的字符格式数据，得到各文本信息对应的字符格式数据时，具体执行以下操作：

在一个实施例中，所述处理器1001通过以下方式生成所述文本编码函数链集合：

确定宽度编码函数链的长度，枚举当前文本编码函数；

将所述宽度编码函数链添加至文本编码函数链集合中。

在一个实施例中，所述处理器1001还执行以下操作：

在一个实施例中，待识别的文本信息集合包括待识别的账号集合，所述账号集合包括在预设时间内收集的用于身份认证的多个账号；所述处理器1001在执行根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息，具体执行以下操作：

在一个实施例中，所述处理器1001在执行对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析，根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息时，具体执行以下操作：

在一个实施例中，所述处理器1001在执行将所述目标分组中的字符格式数据对应的文本信息确定为异常信息之后，还执行以下操作：

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体或随机存储记忆体等。

以上所揭露的仅为本申请较佳实施例而已，当然不能以此来限定本申请之权利范围，因此依本申请权利要求所作的等同变化，仍属本申请所涵盖的范围。

Claims

1.一种数据处理方法，其特征在于，所述方法包括：

获取待识别的文本信息集合；

2.根据权利要求1所述的方法，其特征在于，所述调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换，将各文本信息转换成计算机可识别的字符格式数据，得到各文本信息对应的字符格式数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换，将各文本信息转换成计算机可识别的字符格式数据，得到各文本信息对应的字符格式数据，包括：

4.根据权利要求3所述的方法，其特征在于，通过以下方式生成所述文本编码函数链集合：

确定宽度编码函数链的长度，枚举当前文本编码函数；

将所述宽度编码函数链添加至文本编码函数链集合中。

5.根据权利要求3或4所述的方法，其特征在于，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述待识别的文本信息集合包括待识别的账号集合，所述账号集合包括在预设时间内收集的用于身份认证的多个账号；

则所述根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息，包括：

7.根据权利要求1所述的方法，其特征在于，所述对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析，根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息，包括：

8.一种数据处理装置，其特征在于，所述装置包括：

文本获取模块，用于获取待识别的文本信息集合；

9.一种非暂态计算机可读存储介质，其特征在于，所述计算机存储介质存储有多条指令，所述指令适于由处理器加载并执行如权利要求1～7任意一项的方法步骤。

10.一种电子设备，其特征在于，包括：处理器和存储器；其中，所述存储器存储有计算机程序，所述计算机程序适于由所述处理器加载并执行如权利要求1～7任意一项的方法步骤。