CN115438629A - 数据处理方法、装置、存储介质及电子设备 - Google Patents
数据处理方法、装置、存储介质及电子设备 Download PDFInfo
- Publication number
- CN115438629A CN115438629A CN202110615209.9A CN202110615209A CN115438629A CN 115438629 A CN115438629 A CN 115438629A CN 202110615209 A CN202110615209 A CN 202110615209A CN 115438629 A CN115438629 A CN 115438629A
- Authority
- CN
- China
- Prior art keywords
- text
- coding function
- format data
- character format
- text message
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/151—Transformation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/12—Use of codes for handling textual entities
- G06F40/126—Character encoding
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Document Processing Apparatus (AREA)
Abstract
本申请实施例公开了一种数据处理方法、装置、存储介质及电子设备,所述方法包括:获取待识别的文本信息集合;调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应的字符格式数据;对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析,根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息。因此,采用本申请实施例,通过文本编码函数进行文本格式转换就可对文本信息进行相似聚类而实现智能识别,识别过程快,可与黑产快速同步,进而降低了风险隐患。
Description
技术领域
本申请涉及计算机技术领域,尤其涉及一种数据处理方法、装置、存储介质及电子设 备。
背景技术
在互联网高度普及的今天,人们对社交的需求促发了网络社交平台的高速发展和变 迁。人们喜欢在社交媒体上塑造人设,分享作品或点赞作品,也离不开网络的高度匿名和自 由化。但是这也给予网络黑灰产可乘之机,它们通过脚本软件短时间大批量地创造出大量虚 拟设备或垃圾文本信息,潜伏在平台上积累粉丝和账号热度,最终达到诈骗、薅羊毛等盈利 目的,不仅危害了网络平台的健康有序,更严重者甚至挑战相关法律。
现有对垃圾文本信息的检测通常依赖于黑名单、人工规则或有监督学习。但这些方式 的共同局限是依赖于人力的判断和对样本的标注,往往滞后于黑产的快速变化,增加了风险 隐患。
发明内容
本申请实施例提供了一种数据处理方法、装置、存储介质及电子设备,通过文本编码 函数进行文本格式转换就可对文本信息进行相似聚类而实现智能识别,识别过程快,可与黑 产快速同步,进而降低了风险隐患。本技术方案如下:
第一方面,本申请实施例提供了一种数据处理方法,所述方法包括:
获取待识别的文本信息集合;
调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换,将 各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应的字符格式数据;
对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析,根据聚类分析 结果确定所述文本信息集合中各文本信息是否为异常信息。
第二方面,本申请实施例提供了一种数据处理装置,所述装置包括:
文本获取模块,用于获取待识别的文本信息集合;
格式转换模块,用于调用预设的文本编码函数针对所述文本信息集合中各文本信息进 行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应 的字符格式数据;
文本识别模块,用于对所述文本信息集合中各文本信息对应的字符格式数据进行聚类 分析,根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息。
第三方面,本申请实施例提供了一种非暂态计算机可读存储介质,所述计算机存储介 质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。
第四方面,本申请实施例提供了一种电子设备,可包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。
本申请一些实施例提供的技术方案带来的有益效果至少包括:
在本申请实施例中,通过获取待识别的文本信息集合,并调用预设的文本编码函数针 对文本信息集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符 格式数据,进而对转换结果进行聚类分析以识别文本信息集合中各文本信息是否为异常信 息。整个识别过程中不需要依赖人工的判断或标注,通过文本编码函数进行文本格式转换就 可对文本信息进行相似聚类而实现智能识别,识别过程快,可与黑产快速同步,进而降低了 风险隐患。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技 术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的 一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这 些附图获得其他的附图。
图1是本申请实施例提供的一种系统架构示意图;
图2是本申请实施例提供的一种数据处理方法的流程示意图;
图3是本申请实施例提供的另一种数据处理方法的流程示意图;
图4是本申请实施例提供的又一种数据处理方法的流程示意图;
图5是本申请实施例提供的一种垃圾账号识别过程的举例示意图;
图6是本申请实施例提供的一种数据处理装置的结构示意图;
图7是本申请实施例提供的一种数据处理装置的结构示意图;
图8是本申请实施例提供的一种计算机可读存储介质的示意图;
图9是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施例方式 作进一步地详细描述。
下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要 素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相 反,它们仅是如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例 子。
在本申请的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理 解为指示或暗示相对重要性。对于本领域的普通技术人员而言,可以具体情况理解上述术语 在本申请中的具体含义。此外,在本申请的描述中,除非另有说明,“多个”是指两个或两个 以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可 以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关 联对象是一种“或”的关系。
请参见图1,为本申请实施例提供了一种发文关键字段推送的系统架构图。如图1所 示,本申请实施例提供的数据处理方法可以应用于内容平台的场景中,所述内容平台中存在 用户和文章内容这两个实体,其中,用户在内容平台中注册账号、发布或浏览文章内容,所 对应的实体结构可以具体划分为用户终端以及内容服务设备,用户终端可以包括多个,用户 终端与内容服务设备之间可以通过网络相互连接。
用户终端可以包括但不限于:个人电脑、平板电脑、手持设备、车载设备、可穿戴设备、计算设备或连接到无线调制解调器的其它处理设备等。在不同的网络中终端可以叫做不 同的名称,例如:用户设备、接入终端、用户单元、用户站、移动站、移动台、远方站、远 程终端、移动设备、用户终端、终端、无线通信设备、用户代理或用户装置、蜂窝电话、无 绳电话、个人数字处理(personal digital assistant,PDA)、5G网络或未来演进网络中的终端设备等;所述内容服务设备具体可以为搭载了内容平台,且对用户注册账号或者对用户产生 的文章内容或者相应的评论信息进行存储的后台服务设备,例如:服务器、服务集群等;文 章内容具体可以为由多媒体数据所组成的内容,多媒体数据可以包括但不限于视频、图片、 文字等。
本申请实施例以数据处理装置为执行主体,数据处理装置具体可以为系统架构中的内 容服务设备,也可以为内容服务设备中数据处理推送应用程序。
在用户终端上可安装目标应用APP,点击该APP图标后进入注册界面,通过用户的操 作可向内容服务设备请求注册登录账号,在注册通过后,用户可在用户终端上通过该登录账 号登录并访问内容服务设备。
对于内容服务设备而言,可记录每个注册的用户终端的账号、登录状态、文章评论、 发布的内容文章等信息,并可根据这些信息识别其中的异常信息。
下面将结合具体的实施例对本方案进行详细说明。
请参见图2,为本申请实施例提供的一种数据处理方法的流程示意图。如图2所示,本 申请实施例的所述方法可以包括以下步骤:
S101,获取待识别的文本信息集合;
可以理解的是,所述待识别的文本信息集合,可以包括至少一个待识别的文本信息。 所述文本信息可以包括用户账号、用户评论等。
每个用户可在内容平台上注册账号,并通过所注册的账号登录该内容平台。所述内容 平台可以为即时通讯应用平台、短视频应用平台或其他社交应用平台。每个账号对应唯一标 识,可通过文本信息的形式表示,具体可以为指定格式的字符串,如由汉字、数字、字母、 符号中的一种或多种组成。
每个用户评论即为用户对内容平台中作者所发布的文章内容输入的评论信息。每个用 户评论可通过文本信息的形式表示,具体可以为指定格式的字符串,如由汉字、数字、字 母、符号、表情包或者图片等中的一种或多种组成。
在可行的实现方式中,若所述文本信息集合为账号集合,数据处理装置遍历当前登录 内容平台的所有账号,将这些账号确定为待识别的账号集合;或者,数据处理装置遍历注册 该内容平台的所有账号,将这些账号确定为待识别的账号集合;或者,数据处理装置遍历在 预设时间内收集的用于身份认证的多个账号作为待识别的账号集合,其中,数据处理装置可 按照预设周期进行遍历。若所述文本信息集合为评论集合,可以单个文章内容为单位,读取 每个文章内容的评论,将所读取到的评论作为待识别的评论集合。
S102,调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转 换,将各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应的字符格式数 据;
所述文本编码函数用于将所述文本信息中的各字符按照设置的文本格式转换成另一种 格式的计算机可识别的字符格式数据,从而可以更容易地对转换后的字符格式数据进行相似 聚类分析。
常用的文本编码函数包括多种。第一种是字符到字符集的映射函数ctype,例如数字字 符映射成N、英文字符映射成E、中文字符映射成C,通过这个编码方式可以将文本映射成 一个由字符集代号组成的新文本。第二种是文本缩码的映射函数shrink,例如将AAb映射 成Ab,通过这个编码方式可以规避利用重复字符规避检测的行为。第三种是字符编号的变 换函数number,是指按照字符出现的次序,以数字作为代替,重新编码原字符串,例如香气飘飘、细雨霖霖等相似文本都会被编码成1233的形式。其余还有N-gram,set和sort等其他规则的编码函数。
number是指按照字符出现的次序,以数字作为代替,重新编码原字符串。
这里借用N-gram中对长文本信息(句子)做切片采样的方法,把文本信息切分成长度为 N的多个文本片段。
sort是指对一个文本信息中所有字符,按照字典序(中文字符也有相应序列关系)重新 排序,生成一个长度不变、字符顺序改变了的新文本信息。
例如,文本信息为香气飘飘,对应的各个字符为“香”“气”“飘”“飘”,编码函数为number,则 将“香”“气”“飘”“飘”依次转换为“1”“2”“3”“3”,因此,转换后的字符格式数据为1233。
其中,调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转 换,可以是调用单个的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转 换,可以是调用包含至少两个文本编码函数的文本编码函数链针对所述文本信息集合中各文 本信息进行文本格式转换,还可以是调用包含至少两个文本编码函数链的文本编码函数链集 合针对所述文本信息集合中各文本信息进行文本格式转换。
S103,对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析,根据聚类 分析结果确定所述文本信息集合中各文本信息是否为异常信息。
可以理解的是,所述聚类分析即为对转换后得到的字符格式数据进行分组,将相似的字 符格式数据分为一组,认为这些相似的字符格式数据对应的文本信息是一个黑产构建的异常 信息团伙。若某个字符格式数据不存在与其相似的字符格式数据,那么这个字符格式数据对 应的文本信息为正常文本信息。
例如,若待识别的文本信息集合包括待识别的账号集合,转换后的字符格式数据包括 编号分别为1、2、3、4、5的字符格式数据,若字符格式数据1、2和3相似,则确定字符 格式数据1、2和3对应的账号为垃圾账号,是一个黑产构建的垃圾账号团伙。
在本申请实施例中,通过获取待识别的文本信息集合,并调用预设的文本编码函数针对 文本信息集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格 式数据,进而对转换结果进行聚类分析以识别文本信息集合中各文本信息是否为异常信息。 整个识别过程中不需要依赖人工的判断或标注,通过文本编码函数进行文本格式转换就可对 文本信息进行相似聚类而实现智能识别,识别过程快,可与黑产快速同步,进而降低了风险 隐患。
请参见图3,为本申请实施例提供的另一种数据处理方法的流程示意图。本实施例以应 用单个编码函数链对各文本信息进行文本格式转换为例进行说明。该数据处理方法可以包括 以下步骤:
S201,获取待识别的文本信息集合;
可以理解的是,所述待识别的文本信息集合,可以包括至少一个待识别的文本信息。 所述文本信息可以包括用户账号、用户评论等。
假设文本信息集合为S=(T1、T2、T3…Tn),T1、T2、T3…Tn分别为待识别的文本信 息,例如T1为“小圆圆2008”,由汉字+数字组成。
S202,针对所述文本信息集合中各文本信息,调用预设的文本编码函数链,所述文本 编码函数链包括关联的至少两个文本编码函数;
可以理解的是,文本编码函数链是指由至少两个文本编码函数组成的函数序列,各文 本编码函数之间包含一定的关联顺序关系。
例如,文本编码函数链L=(F1,F2,F3…Fn),F1~Fn分别为单个的文本编码函数,F1是第一个文本编码函数,F1的下一个文本编码函数为F2,F2的下一个文本编码函数为F3,……,Fn为最后一个文本编码函数。每个文本编码函数,用于将文本信息转换成新的字符格式。当然,同一个文本编码函数链中的文本编码函数可以部分相同,也可以完全不同。
S203,按照所述文本编码函数链中文本编码函数的关联顺序关系,依次调用文本编码 函数对文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本编 码函数的输入,获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格 式数据;
具体实现中,按照文本编码函数链中文本编码函数的关联顺序关系,通过文本编码函 数逐层对文本信息进行文本格式转换。也就是说,确定当前文本编码函数,如F2,那么上 一个文本编码函数为F1,采用F1对文本信息T1进行文本格式转换,输出为code11,那么code11为F2的输入,从而输出code12,然后再将code12作为下一个文本编码函数的输入,依次进行文本格式转换,那么,最后一个文本编码函数Fn的输出code1n即为T1对应的字符格式数据。
对于文本信息集合中所有的文本信息都按照上述方式进行处理,从而可以得到每个文 本信息Ti采用同一文本编码函数链进行文本格式转换后的字符格式数据codein,即T1对应的 字符格式数据为code1n,T2对应的字符格式数据为code2n,……,Tn对应的字符格式数据为 codenn。
S204,对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析,根据聚 类分析结果确定所述文本信息集合中各文本信息是否为异常信息。
可以理解的是,聚类分析的过程即为对所转换的字符格式数据进行分组的过程,即将相 似的字符格式数据分为一组。那么,如果所分组的结果中包括多个字符格式数据,可认为这 些字符格式数据对应的文本信息为异常信息,且由同一个黑产生成。
例如,文本编码函数链S=(shrink,ctype,shrink),文本信息T1为“小圆圆2008”,通 过文本编码函数链逐层变换,依次变换成“小圆208”、“CCNNN”、“CN”,而其他文本信 息,如“小方2009”和“小角角201”等,通过该文本编码函数链变换后,最终都将被变换成同 一种编码“CN”,因此,认为“小圆圆2008”、“小方2009”和“小角角201”是一个黑产构建的 垃圾文本信息团伙。
在本申请实施例中,通过包含至少两个文本编码函数的单个编码函数链对待识别的文本 信息逐层进行文本格式转换,并根据转换后的字符格式数据识别文本信息是否为异常信息, 整个识别过程中不需要依赖人工的判断或标注,通过文本编码函数进行文本格式转换就可智 能识别,识别过程快,可与黑产快速同步,进而降低了风险隐患。此外,文本编码函数链由 多个文本编码函数组成,文本编码函数也不需要依赖于人工预先标记,通过对文本编码函数 排列组合就可以生成新的文本编码函数链,可以精确的识别文本信息,能够对抗变化多端的 黑产。文本编码函数链具有可拓展性和轻量级配置,通过添加一行函数组合方式就召回大批 异常文本信息,并能够发现传统识别方法无法检测到的隐蔽相似情形,从而提高了对异常文 本信息的召回率。
请参见图4,为本申请实施例提供的又一种数据处理方法的流程示意图。本实施例以文 本编码函数链集合中包括至少两个文本编码函数链为例进行说明。该数据处理方法可以包括 以下步骤:
S301,确定宽度编码函数链的长度,枚举当前文本编码函数;
可以理解的是,宽度编码函数链是指采用宽度优先搜索的方法生成的编码函数链。
所谓宽度优先搜索,是指首先设置一个阈值C来表示文本编码函数链的长度,然后通 过逐步枚举文本编码函数的方法来组合出不同的文本编码函数链。不同的宽度编码函数链, C可以取不同的值,当然也可以相同。
此外,对待生成的宽度编码函数链,还需要枚举第一个文本编码函数。
枚举的方式可以为在不同种类的文本编码函数集合中任意选择一个函数。而对于不同 的宽度编码函数链,第一个文本编码函数可以不同,当然也可以相同。
例如,文本编码函数集合包括10种文本编码函数,分别为F1、F2、……、F10,则可在其中选择任一文本编码函数(如F2)作为第一个文本编码函数。
S302,枚举下一文本编码函数,所述下一文本编码函数与所述当前文本编码函数不 同,在枚举过程中,当第一个文本编码函数到最后一个文本编码函数之间的编码函数数量等 于所述宽度编码函数链的长度时,生成所述宽度编码函数链;
再枚举第一个文本编码函数的下一个文本编码函数。枚举原则为下一个文本编码函数 与第一个文本编码函数不同即可,以避免重复进行相同的文本格式转换,如下一个文本编码 函数可以为F1-F10中除F2之外的任一文本编码函数(如F5)。
若此时所有枚举的文本编码函数的数量未达到设定的长度C,则按照上述方式再不断 枚举下一个文本编码函数,直到文本编码函数的数量达到C。当数量到达C时,输出长度为 C的文本编码函数链,即生成了一个宽度编码函数链。
并可按照上述相同的方式进行枚举,从而生成多个宽度编码函数链。
S303,将所述宽度编码函数链添加至文本编码函数链集合中;
将上述生成的宽度编码函数链依次添加至文本编码函数链集合中,以便通过文本编码 函数链集合中的各宽度编码函数链对待识别的文本信息进行文本格式转换后识别。其中,所 生成的宽度编码函数链数量越多,对待识别的文本信息的识别结果更准确。通过上述方式可 以枚举出大量的宽度编码函数链,极少会出现不能覆盖相似文本的情况。为了进一步提高识 别结果的准确率,可通过深度优先搜索的方法生成深度编码函数链,从而召回更多的有着相 似的潜藏文本特征的文本信息。
深度优先搜索过程具体如下:
S304,采集所标注的相似文本,并获取当前的搜索状态State(Layer,Link,Code),所述 Layer为当前编码函数的位置、所述Link为1至Layer-1之间的文本编码函数组成的文本编 码函数链、所述Codes为采用所述上一文本编码函数对各所述相似文本信息进行文本格式转 换得到的第一字符格式数据;
假设相似文本信息为T={T1,T2,T3,T4,T5};并定义搜索状态为State(Layer,Link,Code),Layer表示文本编码函数链上当前文本编码函数的位置,Link表示从第1个到第Layer-1个文本编码函数构成的链条,Code表示按照Link中各个文本编码函数的关联顺序关系,将上一文本编码函数的输出作为当前文本编码函数的输入,逐层对T中各个文本信息进行文本格式转换,得到最后一个文本编码函数输出的字符格式数据,其中包括T1, T2,T3,T4,T5分别对应的字符格式数据Code1、Code2、Code3、Code4、Code5。
S305,搜索所述位置对应的当前编码函数,采用所述当前文本编码函数对各所述第一 字符格式数据进行文本格式转换,得到各第二字符格式数据;
当搜索到Layer层对应的当前文本编码函数时,依次枚举文本编码函数,并采用当前枚 举到的文本编码函数对Code中的所有字符格式数据(Code1、Code2、Code3、Code4、Code5)进行相应变换,从而得到Layer层输出的字符格式数据Code'1、Code'2、Code'3、Code'4、Code'5。
其中,枚举文本编码函数的方式为,依次遍历文本编码函数集合中的各文本编码函 数,采用当前遍历到的文本编码函数对Code中的所有第一字符格式数据进行文本格式转 换,得到第二字符格式数据。
S306,当各所述第二字符格式数据全部相同时,将1至Layer之间的文本编码函数作 为深度编码函数链,将所述深度编码函数链添加至所述文本编码函数链集合中,所述深度编 码函数链为由所述第一个文本编码函数至所述当前文本编码函数组成的文本编码函数链。
若转换后的第二字符格式数据全部相同(即Code'1=Code'2=Code'3=Code'4=Code'5), 那么将当前遍历到的文本编码函数确定为当前文本编码函数,也就是待生成的文本编码函数 链中的最后一个文本编码函数;若转换后的第二字符格式数据不全部相同,则继续遍历文本 编码函数集合中的下一个文本编码函数,并按照上述相同的方式对Code中的所有字符格式 数据进行文本格式转换,若所有的文本编码函数遍历完成后,转换后的字符格式数据仍不完 全相同,则可任选一文本编码函数作为当前文本编码函数,然后继续枚举下一个的文本编码 函数,直到Code中的字符格式数据全部相等,则生成对应的文本编码函数链。
同样的,采集多个相似文本进行深度优先搜索,可以生成多个深度编码函数链,然后 将这些深度编码函数链添加至上述编码函数链集合中。
需要说明的是,可单独采用宽度优先搜索或深度优先搜索的方式也可以生成文本编码 函数链集合。当然,也可以先采用深度优先搜索的方式生成文本编码函数链集合,在此基础 上,再采用宽度优先搜索的方式生成文本编码函数链进行补充。
S307,获取待识别的文本信息集合;
可以理解的是,所述待识别的文本信息集合,可以包括至少一个待识别的文本信息。 所述文本信息可以包括用户账号、用户评论等。
假设待识别的文本信息集合为X,X={X1,X2,X3…},X1,X2,X3…为各个待识别 的文本信息。
S308,针对所述文本信息集合中各文本信息,调用预设的文本编码函数链集合,所述 文本编码函数链集合包括关联的至少两个文本编码函数链,每个所述文本编码函数链包括关 联的至少两个文本编码函数;
可以理解的是,所述预设的文本编码函数链集合为上述通过宽度优先搜索和/或深度优 先搜索的方式生成的文本编码函数链集合。
假设该文本编码函数链集合为L=(L1,L2,L3…),每个文本编码函数链Lj中包括至少两个文本编码函数,j表示文本编码函数链的序号,j=1,2,3…。Lj可以为宽度编码函数链,也可以为深度编码函数链。
该文本编码函数链集合包括至少两个文本编码函数链,例如,L=(L1,L2,L3),各个文本编码函数链之间存在第一关联顺序关系,如L1为第一个文本编码函数链,L1的下一个文本编码函数链为L2,L2的下一个文本编码函数链为L3。
每个文本编码函数链包括至少两个文本编码函数,例如,L1=(F1,F2,F3),L2=(F1,F2,F1,F4),L3=(F3,F2,F1,F4)。在同一个文本编码函数链中,各文本编码函数 之间存在第二关联顺序关系,如L1中的第一个文本编码函数为F1,F1的下一个文本编码函 数为F2,F2的下一个文本编码函数为F3。
S309,按照所述文本编码函数链集合中文本编码函数链的第一关联顺序关系,依次调 用文本编码函数链;
对于一个文本信息需采用文本编码函数链集合中的全部文本编码函数链进行文本格式 转换。采用每个文本编码函数链进行文本格式转换的过程是独立的,则按照各个文本编码函 数链的第一关联顺序关系,依次调用每个文本编码函数链。
S310,按照所述文本编码函数链中文本编码函数的第二关联顺序关系,依次调用文本编 码函数对文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本 编码函数的输入,获取最后一个文本编码函数输出 的字符格式数据作为文本信息对应的字符格式数据。
具体实现中,对于当前调用的文本编码函数链,依次调用该文本编码函数链中的各个 文本编码函数对文本信息进行转换处理,具体的,在调用过程中,将上一文本编码函数的输 出作为当前文本编码函数的输入,获取最后一个文本编码函数输出的字符格式数据作为文本 信息对应的字符格式数据。
例如,对X1按照L1,L2,L3…的第一关联顺序关系,依次调用Lj进行文本格式转换,得到X1对应的字符格式数据为Code1,j,j表示文本编码函数链的序号。
其中,对于当前调用的文本编码函数链L1,L1=(F1,F2,F3),按照F1,F2,F3的第 二关联顺序关系,先调用F1,采用F1对X1进行转换处理,输出Code1,再调用F2,将 Code1输入至F2中,输出Code2,再调用F3,将Code2输入至F3中,输出Code3,那么 Code3即为采用L1对X1进行文本格式转换后得到的字符格式数据。
需要说明的是,对于其余文本信息X2,X3…,同样的,采用文本编码函数链集合对X2进行文本格式转换,得到字符格式数据为Code2,j,采用文本编码函数链集合对X3进行文本格式转换,得到字符格式数据为Code3,j,…,最终可得到每个文本信息对应的编码结果为Codei,j,i表示文本的序号,j表示文本编码函数链的序号,具体可用如下矩阵表示:
其中,每行表示采用不同的文本编码函数链对同一文本信息进行编码后的字符格式数 据,每列表示采用同一文本编码函数链对不同文本信息进行编码后的字符格式数据。
S311,获取所述文本信息集合中的目标文本信息以及除所述目标文本信息之外的其余 文本信息;
可以理解的是,目标文本信息为文本信息集合中的任一文本信息。为了找到和目标文 本信息相似的文本信息,则需要将文本信息集合中的其余文本信息对应的字符格式数据与目 标文本信息对应的字符格式数据进行逐一比对。
S312,对所述目标文本信息对应的字符格式数据集合与所述其余文本信息中采用同一 文本编码函数链进行文本格式转换的字符格式数据集合进行分组,得到各所述文本编码函数 链对应的分组结果;
每列可理解为不同层的编码结果,例如,Code1,1、Code2,1、…、Codei,1表示第一层编码结果,Code1,2、Code2,2、…、Codei,2表示第二层编码结果。然后分别对每层编码结果中的字符格式数据进行分组。
例如,按照文本编码函数链的序号顺序分为第一层和第二层,且包括5个文本信息, 若第一层的分组结果是Code1,1,Code4,1,Code5,1,(Code2,1Code3,1),第二层的分组结果为 Code1,2,Code2,2,Code4,2,(Code3,2Code5,2)。
S313,确定所述分组结果中各分组的字符格式数据的数量,确定所述数量大于或者等 于数量阈值的目标分组;
完全相同的Code分为一组,而分到同个组的字符格式数据及其对应的文本信息是一个 黑产构建的异常文本团伙,因此,当分组中只包括单个字符格式数据(Code)时,表明不存 在相似的字符格式数据,该字符格式数据对应的文本信息大概率为正常文本信息。因此,剔 除每组分组结果中字符格式数据数量小于数量阈值的分组,那么所保留的字符格式数据数量 大于或者等于数量阈值的目标分组则为异常文本信息的分组。其中,数量阈值可为2、3等 大于1的任一值。在本申请实施例中,所述数量阈值为2。
例如,在第一层的分组结果中保留(Code2,1Code3,1)的目标分组,在第二层的分组结 果中保留(Code3,2Code5,2)的目标分组。
S314,将所述目标分组中的字符格式数据对应的文本信息确定为异常信息。
可见,上述保留的目标分组中,均有相同的Code,因此,每个Code对应的文本信息均为异常信息。
可选的,将所述目标分组中的字符格式数据对应的文本信息确定为异常信息之后,还 包括:
在所述分组结果中,将包括至少两个字符格式数据的分组合并为一个分组,并将包括 一个字符格式数据的分组保持为一个分组,生成最终分组结果;
将所述最终分组结果发送至服务器,以使所述服务器将所述最终分组结果作为训练样 本训练其他有监督模型。
通过合并相似字符格式数据,来对异常文本信息进行团伙聚合。找到异常文本信息团 伙的意义在于,它可以帮助其他业务人员总结发现黑产规律,也可以作为其他有监督模型的 输入,在此不多赘述。
由于函数链是相互独立的,可以采取依次分层合并的方式来划分异常文本信息团伙。 例如第一层的分组结果是(Code1,1)(Code4,1)(Code5,1)(Code2,1Code3,1),第二层的分组结果为(Code1,2)(Code2,2)(Code4,2)(Code3,2Code5,2),则合并结果是(Code1)(Code4) (Code2Code3 Code5),然后将该合并结果与下一层分组结果进行合并,以此类推,直到所 有分组做完合并,并将最终的合并结果和/或单个的合并结果发送至服务器,以作为其他有 监督模型的输入样本,或者给业务人员做规则分析等。
可选的,所述将所述目标分组中的字符格式数据对应的文本信息确定为异常信息之 后,还包括:
确定所述目标分组中各文本被分配的分组数量,并获取所述文本编码函数链集合中文 本编码函数链的总数量;
统计所有分组结果中,同一字符格式数据被分配的分组数量,即为该字符格式数据的 命中次数。
例如,对于序列号为2的字符格式数据,仅分配至第一分组中,因此,对应的命中次数为1;对于序列号为3的字符格式数据,同时被分配到第一分组和第二分组,因此,对应 的命中次数为2;对于序列号为5的字符格式数据,仅分配至第一分组中,因此,对应的命 中次数为1。
另外,文本编码函数链的总数量为j,对应上述矩阵的列数。在上述举例中,j=2。
计算所述分组数量与所述总数量的比值。
计算每个文本信息对应的命中次数与文本编码函数链的总数量的比值,从而得到每个 文本信息的命中概率,所有的文本信息的命中概率都会被划归到0到1的得分区间。
例如,对于序列号为2的文本信息,对应的命中概率为1/2;对于序列号为3的文本信 息,对应的命中概率为2/2;对于序列号为5的文本信息,对应的命中概率为1/2。
可选的,计算比值的方法还可以为:获取所述文本编码函数链集合中各所述文本编码 函数链对应的权重系数,计算各所述权重系数的第一和值;确定所述目标分组中各字符格式 数据所属的分组,确定各字符格式数据所属的分组对应的目标文本编码函数链;计算各所述 目标文本编码函数链对应的权重系数的第二和值;计算所述第二和值与所述第一和值的比 值。
同样的,所述比值也表示文本信息的命中概率。例如,每个文本编码函数链对应的权 重系数为W,W={w1,w2,w3,...},那么,每个文本信息的命中概率为(w1*L1+w2*L2+.... +wj*Lj)/(w1+w2+...+wj),Lj=0或1,j=1,2,…,n。其中,Lj=0表示某个文本信息通 过该文本编码函数链进行文本格式转换后,分组结果中仅包括该字符格式数据。
例如,通过序列号为1的文本编码函数链对各文本信息进行文本格式转换后,分组结 果为(Code1,1Code4,1Code5,1Code2,1Code3,1),那么对于序列号为1、4、5的文本信息, L1=0,对于序列号为2、3的文本信息,L1=1。
因此,可以得到每个文本信息对应的命中概率,当文本编码函数链的总数量越多时, 得到的命中概率更准确。
将所述比值发送至处罚平台,所述比值用于指示所述处罚平台基于各所述比值对所述 目标分组中的字符格式数据对应的文本信息进行处罚处理。
比值充当衡量文本信息异常程度的得分,通过设置经验阈值选取出得分过高的文本信息 作为垃圾文本信息,进行处罚。
比值越大,表明该比值对应的文本信息的异常程序越严重。因此,可以理解的是,在 处罚平台侧预先保存了所设置的不同比值范围与不同处罚策略的对应关系,如表1所示,当 接收到数据处理装置发送的各文本信息的比值时,查找各比值所属比值范围,从而确定对应 的处罚策略,并根据该处罚策略对文本信息进行处罚、管理等。
其中,所述处罚策略可以包括:禁止转发、禁止发表评论、禁止登陆一个月、封号以及永久注销等。
需要说明的是,表格中所列的具体比值范围仅仅作为参考举例,并不代表实际应用中 采取的数值。
表1
比值范围 | 处罚策略 |
0.0-0.2 | 禁止转发 |
0.2-0.4 | 禁止发表评论 |
0.4-0.6 | 禁止登陆一个月 |
0.6-0.8 | 封号 |
0.8-1.0 | 永久注销 |
在本申请实施例中,通过包含至少两个文本编码函数链的多个文本编码函数对待识别 的文本信息集合逐个进行文本格式转换,并根据转换后的字符格式数据识别相应的文本信息 是否为异常信息,整个识别过程中不需要依赖人工的判断或标注,通过编码函数进行文本模 式转换就可智能识别,识别过程快,可与黑产快速同步,进而降低了风险隐患并可以节省人 工成本。同时,通过宽度优先搜索和/或深度优先搜索的方式生成大量的文本编码函数链样 本,可以精确的识别异常信息,能够对抗变化多端的黑产。文本编码函数链具有可拓展性和 轻量级配置,通过添加一行函数组合方式就召回大批垃圾账号,并能够发现传统文本方法无 法检测到的隐蔽相似情形,从而提高了召回率。此外,由于按照文本编码函数链进行文本格 式转换的过程只涉及对单个文本自身的计算,而不会涉及多个文本间的计算,所以很容易实 现并行化和分布式计算,当待识别的文本信息数量很大时,例如在某个内容平台每日登录的 全量账号上做昵称形似挖掘,就可以把大规模账号部署在分布式集群上进行快速计算,提高 了识别效率。另外,对所识别的异常信息计算异常程度得分或分组合并处理,为后续工作提 供了数据基础。
下面将结合图5对本申请的流程进行说明。如图5所示,待识别的文本信息集合包括 待识别的账号集合,待识别的账号集合为X,X=(X1、X2、…、Xi),文本编码函数链集合 为L,L=(L1、L2、…、Lj)。
首先,从账号集合X中提取出编号为1的账号X1,并从文本编码函数链集合L中提取出编号为1的文本编码函数链L1,采用L1对X1进行文本格式转换,得到X1对应的字符格 式数据Code1,1;然后从文本编码函数链集合L中提取出编号为2的文本编码函数链L2,采 用L2对X1进行文本格式转换,得到X1对应的字符格式数据Code1,2;按照编号顺序依次提 取文本编码函数链中的各文本编码函数链,直到提取编号为j的最后一个文本编码函数链 Lj,采用Lj对X1进行文本各式转换,得到X1对应的字符格式数据Code1,j,从而得到采用文 本编码函数链L对X1进行文本格式转换后的字符格式数据集合Code1,1、Code1,2、…、 Code1,j。
再提取文本信息集合X中编号为2的文本信息X2,按照上述相同的方式,得到X2进行文本格式转换后的字符格式数据集合Code2,1、Code2,2、…、Code2,j。
按照编号顺序依次提取文本信息集合X中的各文本信息,直到提取编号为i的最后一 个文本信息Xi,按照上述相同的方式,得到Xi进行文本格式转换后的字符格式数据集合Codei,1、Codei,2、…、Codei,j。
最后,对采用同一文本编码函数链得到的字符格式数据进行分组,如图4中虚线框所 示,对Code1,1、Code2,1、…、Codei,1分组,对Code1,2、Code2,2、…、Codei,2分组,…,对Code1,j、Code2,j、…、Codei,j分组。
确定每个分组中,分为同一组的字符格式数据,那么该字符格式数据对应的文本信息 即为异常信息。
下述为本申请装置实施例,可以用于执行本申请方法实施例。对于本申请装置实施例 中未披露的细节,请参照本申请方法实施例。
请参见图6,其示出了本申请一个示例性实施例提供的数据处理装置的结构示意图。该 数据处理装置可以通过软件、硬件或者两者的结合实现成为终端的全部或一部分。该装置1 包括文本获取模块10、格式转换模块20和文本识别模块30。
文本获取模块10,用于获取待识别的文本信息集合;
格式转换模块20,用于调用预设的文本编码函数针对所述文本信息集合中各文本信息 进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对 应的字符格式数据;
文本识别模块30,用于对所述文本信息集合中各文本信息对应的字符格式数据进行聚 类分析,根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息。
可选的,所述格式转换模块20,具体用于:
针对所述文本信息集合中各文本信息,调用预设的文本编码函数链,所述文本编码函 数链包括关联的至少两个文本编码函数;
按照所述文本编码函数链中文本编码函数的关联顺序关系,依次调用文本编码函数对 文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本编码函数 的输入,获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式数 据。
可选的,所述格式转换模块20,具体用于:
针对所述文本信息集合中各文本信息,调用预设的文本编码函数链集合,所述文本编 码函数链集合包括关联的至少两个文本编码函数链,每个所述文本编码函数链包括关联的至 少两个文本编码函数;
按照所述文本编码函数链集合中文本编码函数链的第一关联顺序关系,依次调用文本 编码函数链;
按照所述文本编码函数链中文本编码函数的第二关联顺序关系,依次调用文本编码函 数对文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本编码 函数的输入,获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式 数据。
可选的,所述装置1还包括函数链集合生成模块40,用于:
确定宽度编码函数链的长度,枚举当前文本编码函数;
枚举下一文本编码函数,所述下一文本编码函数与所述当前文本编码函数不同,在枚 举过程中,当第一个文本编码函数到最后一个文本编码函数之间的编码函数数量等于所述宽 度编码函数链的长度时,生成所述宽度编码函数链;
将所述宽度编码函数链添加至文本编码函数链集合中。
可选的,所述函数链集合生成模块40,还用于:
采集所标注的相似文本信息,并获取当前的搜索状态State(Layer,Link,Codes),所 述Layer为当前文本编码函数的位置、所述Link为1至Layer-1之间的文本编码函数组成 的文本编码函数链、所述Codes为采用所述上一文本编码函数对各所述相似文本信息进行文 本格式转换得到的第一字符格式数据;
搜索所述位置对应的当前文本编码函数,采用所述当前文本编码函数对各所述第一字 符格式数据进行文本格式转换,得到各第二字符格式数据;
当各所述第二字符格式数据全部相同时,将1至Layer之间的文本编码函数作为深度 编码函数链,将所述深度编码函数链添加至所述文本编码函数链集合中,所述深度编码函数 链为由所述第一个文本编码函数至所述当前文本编码函数组成的文本编码函数链。
可选的,所述待识别的文本信息集合包括待识别的账号集合,所述账号集合包括在预 设时间内收集的用于身份认证的多个账号;所述文本识别模块30,具体用于:
根据聚类分析结果确定所述账号集合中各账号是否为垃圾账号。
可选的,所述文本识别模块30,具体用于:
获取所述文本信息集合中的目标文本信息以及除所述目标文本信息之外的其余文本信 息;
对所述目标文本信息对应的字符格式数据集合与所述其余文本信息中采用同一文本编 码函数链进行文本格式转换的字符格式数据集合进行分组,得到各所述文本编码函数链对应 的分组结果;
确定所述分组结果中各分组的字符格式数据的数量,确定所述数量大于或者等于数量 阈值的目标分组;
将所述目标分组中的字符格式数据对应的文本信息确定为异常信息。
可选的,所述装置还包括结果发送模块50,用于:
在所述分组结果中,将包括至少两个字符格式数据的分组合并为一个分组,并将包括 一个字符格式数据的分组保持为一个分组,生成最终分组结果;
将所述最终分组结果发送至服务器,以使所述服务器将所述最终分组结果作为训练样 本训练其他有监督模型。
需要说明的是,上述实施例提供的数据处理装置在执行数据处理方法时,仅以上述各 功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能 模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功 能。另外,上述实施例提供的数据处理装置与数据处理方法实施例属于同一构思,其实现过 程详见方法实施例,这里不再赘述。
上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
在本申请实施例中,通过包含至少两个文本编码函数链的多个文本编码函数对待识别 的文本信息集合逐个进行文本格式转换,并根据转换后的字符格式数据识别相应的文本信息 是否为异常信息,整个识别过程中不需要依赖人工的判断或标注,通过编码函数进行文本模 式转换就可智能识别,识别过程快,可与黑产快速同步,进而降低了风险隐患并可以节省人 工成本。同时,通过宽度优先搜索和/或深度优先搜索的方式生成大量的文本编码函数链样 本,可以精确的识别异常信息,能够对抗变化多端的黑产。文本编码函数链具有可拓展性和 轻量级配置,通过添加一行函数组合方式就召回大批垃圾账号,并能够发现传统文本方法无 法检测到的隐蔽相似情形,从而提高了召回率。此外,由于按照文本编码函数链进行文本格 式转换的过程只涉及对单个文本自身的计算,而不会涉及多个文本间的计算,所以很容易实 现并行化和分布式计算,当待识别的文本信息数量很大时,例如在某个内容平台每日登录的 全量账号上做昵称形似挖掘,就可以把大规模账号部署在分布式集群上进行快速计算,提高 了识别效率。另外,对所识别的异常信息计算异常程度得分或分组合并处理,为后续工作提 供了数据基础。
本申请实施例还提供了一种非暂态计算机可读存储介质,所述计算机存储介质可以存 储有多条指令,所述指令适于由处理器加载并执行如上述所示实施例的方法步骤,具体执行 过程可以参见图1-图6所示实施例的具体说明,在此不进行赘述。
图8是根据本申请的实施例的计算机可读存储介质的示意图。如图8所示,根据本申 请实施例的计算机可读存储介质,其上存储有非暂态计算机可读指令310。当该非暂态计算 机可读指令310由处理器运行时,执行前述的全部或部分步骤。
请参见图9,为本申请实施例提供了一种电子设备的结构示意图。如图9所示,所述电 子设备1000可以包括:至少一个处理器1001,至少一个网络接口1004,用户接口1003,存储器1005,至少一个通信总线1002。
其中,通信总线1002用于实现这些组件之间的连接通信。
其中,用户接口1003可以包括显示屏(Display)、摄像头(Camera),可选用户接口1003还可以包括标准的有线接口、无线接口。
其中,网络接口1004可选的可以包括标准的有线接口、无线接口(如WI-FI接口)。
其中,处理器1001可以包括一个或者多个处理核心。处理器1001利用各种借口和线 路连接整个电子设备1000内的各个部分,通过运行或执行存储在存储器1005内的指令、程 序、代码集或指令集,以及调用存储在存储器1005内的数据,执行电子设备1000的各种功 能和处理数据。可选的,处理器1001可以采用数字信号处理(Digital SignalProcessing, DSP)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)、可编程逻辑阵列 (Programmable Logic Array,PLA)中的至少一种硬件形式来实现。处理器1001可集成中 央处理器(Central Processing Unit,CPU)、图像处理器(Graphics ProcessingUnit,GPU) 和调制解调器等中的一种或几种的组合。其中,CPU主要处理操作系统、用户界面和应用 程序等;GPU用于负责显示屏所需要显示的内容的渲染和绘制;调制解调器用于处理无线 通信。可以理解的是,上述调制解调器也可以不集成到处理器1001中,单独通过一块芯片 进行实现。
其中,存储器1005可以包括随机存储器(Random Access Memory,RAM),也可以包括只读存储器(Read-Only Memory)。可选的,该存储器1005包括非瞬时性计算机可读介质(non-transitory computer-readable storage medium)。存储器1005可用于存储指令、程序、代 码、代码集或指令集。存储器1005可包括存储程序区和存储数据区,其中,存储程序区可 存储用于实现操作系统的指令、用于至少一个功能的指令(比如触控功能、声音播放功能、 图像播放功能等)、用于实现上述各个方法实施例的指令等;存储数据区可存储上面各个方 法实施例中涉及到的数据等。存储器1005可选的还可以是至少一个位于远离前述处理器 1001的存储装置。如图9所示,作为一种计算机存储介质的存储器1005中可以包括操作系 统、网络通信模块、用户接口模块以及数据处理应用程序。
在图9所示的电子设备1000中,用户接口1003主要用于为用户提供输入的接口,获取用户输入的数据;而处理器1001可以用于调用存储器1005中存储的数据处理应用程序,并具体执行以下操作:
获取待识别的文本信息集合;
调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换,将 各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应的字符格式数据;
对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析,根据聚类分析 结果确定所述文本信息集合中各文本信息是否为异常信息。
在一个实施例中,所述处理器1001在执行调用预设的文本编码函数针对所述文本信息 集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据, 得到各文本信息对应的字符格式数据时,具体执行以下操作:
针对所述文本信息集合中各文本信息,调用预设的文本编码函数链,所述文本编码函 数链包括关联的至少两个文本编码函数;
按照所述文本编码函数链中文本编码函数的关联顺序关系,依次调用文本编码函数对 文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本编码函数 的输入,获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式数 据。
在一个实施例中,所述处理器1001在执行调用预设的文本编码函数针对所述文本信息 集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据, 得到各文本信息对应的字符格式数据时,具体执行以下操作:
针对所述文本信息集合中各文本信息,调用预设的文本编码函数链集合,所述文本编 码函数链集合包括关联的至少两个文本编码函数链,每个所述文本编码函数链包括关联的至 少两个文本编码函数;
按照所述文本编码函数链集合中文本编码函数链的第一关联顺序关系,依次调用文本 编码函数链;
按照所述文本编码函数链中文本编码函数的第二关联顺序关系,依次调用文本编码函 数对文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本编码 函数的输入,获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式 数据。
在一个实施例中,所述处理器1001通过以下方式生成所述文本编码函数链集合:
确定宽度编码函数链的长度,枚举当前文本编码函数;
枚举下一文本编码函数,所述下一文本编码函数与所述当前文本编码函数不同,在枚 举过程中,当第一个文本编码函数到最后一个文本编码函数之间的编码函数数量等于所述宽 度编码函数链的长度时,生成所述宽度编码函数链;
将所述宽度编码函数链添加至文本编码函数链集合中。
在一个实施例中,所述处理器1001还执行以下操作:
采集所标注的相似文本信息,并获取当前的搜索状态State(Layer,Link,Codes),所 述Layer为当前文本编码函数的位置、所述Link为1至Layer-1之间的文本编码函数组成 的文本编码函数链、所述Codes为采用所述上一文本编码函数对各所述相似文本信息进行文 本格式转换得到的第一字符格式数据;
搜索所述位置对应的当前文本编码函数,采用所述当前文本编码函数对各所述第一字 符格式数据进行文本格式转换,得到各第二字符格式数据;
当各所述第二字符格式数据全部相同时,将1至Layer之间的文本编码函数作为深度 编码函数链,将所述深度编码函数链添加至所述文本编码函数链集合中,所述深度编码函数 链为由所述第一个文本编码函数至所述当前文本编码函数组成的文本编码函数链。
在一个实施例中,待识别的文本信息集合包括待识别的账号集合,所述账号集合包括 在预设时间内收集的用于身份认证的多个账号;所述处理器1001在执行根据聚类分析结果 确定所述文本信息集合中各文本信息是否为异常信息,具体执行以下操作:
根据聚类分析结果确定所述账号集合中各账号是否为垃圾账号。
在一个实施例中,所述处理器1001在执行对所述文本信息集合中各文本信息对应的字 符格式数据进行聚类分析,根据聚类分析结果确定所述文本信息集合中各文本信息是否为异 常信息时,具体执行以下操作:
获取所述文本信息集合中的目标文本信息以及除所述目标文本信息之外的其余文本信 息;
对所述目标文本信息对应的字符格式数据集合与所述其余文本信息中采用同一文本编 码函数链进行文本格式转换的字符格式数据集合进行分组,得到各所述文本编码函数链对应 的分组结果;
确定所述分组结果中各分组的字符格式数据的数量,确定所述数量大于或者等于数量 阈值的目标分组;
将所述目标分组中的字符格式数据对应的文本信息确定为异常信息。
在一个实施例中,所述处理器1001在执行将所述目标分组中的字符格式数据对应的文 本信息确定为异常信息之后,还执行以下操作:
在所述分组结果中,将包括至少两个字符格式数据的分组合并为一个分组,并将包括 一个字符格式数据的分组保持为一个分组,生成最终分组结果;
将所述最终分组结果发送至服务器,以使所述服务器将所述最终分组结果作为训练样 本训练其他有监督模型。
在本申请实施例中,通过包含至少两个文本编码函数链的多个文本编码函数对待识别 的文本信息集合逐个进行文本格式转换,并根据转换后的字符格式数据识别相应的文本信息 是否为异常信息,整个识别过程中不需要依赖人工的判断或标注,通过编码函数进行文本模 式转换就可智能识别,识别过程快,可与黑产快速同步,进而降低了风险隐患并可以节省人 工成本。同时,通过宽度优先搜索和/或深度优先搜索的方式生成大量的文本编码函数链样 本,可以精确的识别异常信息,能够对抗变化多端的黑产。文本编码函数链具有可拓展性和 轻量级配置,通过添加一行函数组合方式就召回大批垃圾账号,并能够发现传统文本方法无 法检测到的隐蔽相似情形,从而提高了召回率。此外,由于按照文本编码函数链进行文本格 式转换的过程只涉及对单个文本自身的计算,而不会涉及多个文本间的计算,所以很容易实 现并行化和分布式计算,当待识别的文本信息数量很大时,例如在某个内容平台每日登录的 全量账号上做昵称形似挖掘,就可以把大规模账号部署在分布式集群上进行快速计算,提高 了识别效率。另外,对所识别的异常信息计算异常程度得分或分组合并处理,为后续工作提 供了数据基础。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过 计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质中,该 程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁碟、光 盘、只读存储记忆体或随机存储记忆体等。
以上所揭露的仅为本申请较佳实施例而已,当然不能以此来限定本申请之权利范围, 因此依本申请权利要求所作的等同变化,仍属本申请所涵盖的范围。
Claims (10)
1.一种数据处理方法,其特征在于,所述方法包括:
获取待识别的文本信息集合;
调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应的字符格式数据;
对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析,根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息。
2.根据权利要求1所述的方法,其特征在于,所述调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应的字符格式数据,包括:
针对所述文本信息集合中各文本信息,调用预设的文本编码函数链,所述文本编码函数链包括关联的至少两个文本编码函数;
按照所述文本编码函数链中文本编码函数的关联顺序关系,依次调用文本编码函数对文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本编码函数的输入,获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式数据。
3.根据权利要求1所述的方法,其特征在于,所述调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应的字符格式数据,包括:
针对所述文本信息集合中各文本信息,调用预设的文本编码函数链集合,所述文本编码函数链集合包括关联的至少两个文本编码函数链,每个所述文本编码函数链包括关联的至少两个文本编码函数;
按照所述文本编码函数链集合中文本编码函数链的第一关联顺序关系,依次调用文本编码函数链;
按照所述文本编码函数链中文本编码函数的第二关联顺序关系,依次调用文本编码函数对文本信息进行转换处理,在调用过程中,将上一文本编码函数的输出作为当前文本编码函数的输入,获取最后一个文本编码函数输出的字符格式数据作为文本信息对应的字符格式数据。
4.根据权利要求3所述的方法,其特征在于,通过以下方式生成所述文本编码函数链集合:
确定宽度编码函数链的长度,枚举当前文本编码函数;
枚举下一文本编码函数,所述下一文本编码函数与所述当前文本编码函数不同,在枚举过程中,当第一个文本编码函数到最后一个文本编码函数之间的编码函数数量等于所述宽度编码函数链的长度时,生成所述宽度编码函数链;
将所述宽度编码函数链添加至文本编码函数链集合中。
5.根据权利要求3或4所述的方法,其特征在于,所述方法还包括:
采集所标注的相似文本信息,并获取当前的搜索状态State(Layer,Link,Codes),所述Layer为当前文本编码函数的位置、所述Link为1至Layer-1之间的文本编码函数组成的文本编码函数链、所述Codes为采用所述上一文本编码函数对各所述相似文本信息进行文本格式转换得到的第一字符格式数据;
搜索所述位置对应的当前文本编码函数,采用所述当前文本编码函数对各所述第一字符格式数据进行文本格式转换,得到各第二字符格式数据;
当各所述第二字符格式数据全部相同时,将1至Layer之间的文本编码函数作为深度编码函数链,将所述深度编码函数链添加至所述文本编码函数链集合中,所述深度编码函数链为由所述第一个文本编码函数至所述当前文本编码函数组成的文本编码函数链。
6.根据权利要求1所述的方法,其特征在于,所述待识别的文本信息集合包括待识别的账号集合,所述账号集合包括在预设时间内收集的用于身份认证的多个账号;
则所述根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息,包括:
根据聚类分析结果确定所述账号集合中各账号是否为垃圾账号。
7.根据权利要求1所述的方法,其特征在于,所述对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析,根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息,包括:
获取所述文本信息集合中的目标文本信息以及除所述目标文本信息之外的其余文本信息;
对所述目标文本信息对应的字符格式数据集合与所述其余文本信息中采用同一文本编码函数链进行文本格式转换的字符格式数据集合进行分组,得到各所述文本编码函数链对应的分组结果;
确定所述分组结果中各分组的字符格式数据的数量,确定所述数量大于或者等于数量阈值的目标分组;
将所述目标分组中的字符格式数据对应的文本信息确定为异常信息。
8.一种数据处理装置,其特征在于,所述装置包括:
文本获取模块,用于获取待识别的文本信息集合;
格式转换模块,用于调用预设的文本编码函数针对所述文本信息集合中各文本信息进行文本格式转换,将各文本信息转换成计算机可识别的字符格式数据,得到各文本信息对应的字符格式数据;
文本识别模块,用于对所述文本信息集合中各文本信息对应的字符格式数据进行聚类分析,根据聚类分析结果确定所述文本信息集合中各文本信息是否为异常信息。
9.一种非暂态计算机可读存储介质,其特征在于,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行如权利要求1~7任意一项的方法步骤。
10.一种电子设备,其特征在于,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行如权利要求1~7任意一项的方法步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110615209.9A CN115438629A (zh) | 2021-06-02 | 2021-06-02 | 数据处理方法、装置、存储介质及电子设备 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110615209.9A CN115438629A (zh) | 2021-06-02 | 2021-06-02 | 数据处理方法、装置、存储介质及电子设备 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115438629A true CN115438629A (zh) | 2022-12-06 |
Family
ID=84272243
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110615209.9A Pending CN115438629A (zh) | 2021-06-02 | 2021-06-02 | 数据处理方法、装置、存储介质及电子设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115438629A (zh) |
Cited By (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116720812A (zh) * | 2023-08-11 | 2023-09-08 | 合肥恒艺德机械有限公司 | 一种基于数据编码的大数据智慧仓储管理系统 |
-
2021
- 2021-06-02 CN CN202110615209.9A patent/CN115438629A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN116720812A (zh) * | 2023-08-11 | 2023-09-08 | 合肥恒艺德机械有限公司 | 一种基于数据编码的大数据智慧仓储管理系统 |
CN116720812B (zh) * | 2023-08-11 | 2023-10-20 | 合肥恒艺德机械有限公司 | 一种基于数据编码的大数据智慧仓储管理系统 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Dahal et al. | Topic modeling and sentiment analysis of global climate change tweets | |
CN107766371B (zh) | 一种文本信息分类方法及其装置 | |
US9705761B2 (en) | Opinion information display system and method | |
CN107169063B (zh) | 一种基于社交信息的用户属性预测方法与系统 | |
CN107992596A (zh) | 一种文本聚类方法、装置、服务器和存储介质 | |
CN110781668B (zh) | 文本信息的类型识别方法及装置 | |
CN106940732A (zh) | 一种面向微博的疑似水军发现方法 | |
CN104054103A (zh) | 基于电子邮件地址和其他帐户信息的用户帐户的基于机器学习的分类 | |
CN105550253B (zh) | 一种类型关系的获取方法及装置 | |
CN112199606B (zh) | 一种基于层次用户表示的面向社交媒体的谣言检测系统 | |
CN103778200A (zh) | 一种报文信息源抽取方法及其系统 | |
CN110889036A (zh) | 一种多维度信息的处理方法、装置及终端设备 | |
CN109949174A (zh) | 一种异构社交网络用户实体锚链接识别方法 | |
CN107634897A (zh) | 群推荐方法和装置 | |
CN111680506A (zh) | 数据库表的外键映射方法、装置、电子设备和存储介质 | |
CN102664744A (zh) | 网络消息通信中群发推荐的方法 | |
CN115438629A (zh) | 数据处理方法、装置、存储介质及电子设备 | |
CN111400617B (zh) | 基于主动学习的社交机器人检测数据集扩展方法及系统 | |
WO2024055603A1 (zh) | 一种未成年人文本识别方法及装置 | |
CN110059189B (zh) | 一种游戏平台消息的分类系统及方法 | |
Phuvipadawat et al. | Detecting a multi-level content similarity from microblogs based on community structures and named entities | |
CN115544979A (zh) | 一种行政地址提取方法、装置和设备及存储介质 | |
CN113011875B (zh) | 文本处理方法、装置、计算机设备以及存储介质 | |
CN111858953B (zh) | 用于智慧城市少样本数据建模的实体关系表示方法及系统 | |
KR102213763B1 (ko) | 자연어 처리와 딥러닝 네트워크를 이용하여 선별된 기사를 제공하는 방법 및 기사 분류 시스템 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |