CN110991169A

CN110991169A - 一种风险内容变种的识别方法、装置及电子设备

Info

Publication number: CN110991169A
Application number: CN201911060097.4A
Authority: CN
Inventors: 徐陈虹; 邓黄健
Original assignee: Alipay Hangzhou Information Technology Co Ltd
Current assignee: ANT Financial Hang Zhou Network Technology Co Ltd
Priority date: 2019-11-01
Filing date: 2019-11-01
Publication date: 2020-04-10
Anticipated expiration: 2039-11-01
Also published as: CN110991169B

Abstract

本说明书公开了一种风险内容变种的识别方法、装置及电子设备，该方法包括：分别对风险文本和检索文本进行分词，获得风险文本的第一分词集合和检索文本的第二分词集合；计算获得第一分词集合与第二分词集合之间的jaccard系数；根据所述jaccard系数和所述检索文本的文本长度，计算获得风险文本和检索文本之间的相似度；根据计算获得的相似度对检索文本进行风险内容变种识别获得识别结果，即通过jaccard系数和文本长度来优化挖掘相似文本，实现风险内容变种的识别。

Description

一种风险内容变种的识别方法、装置及电子设备

技术领域

本说明书涉及软件技术领域，特别涉及一种风险内容变种的识别方法、装置及电子设备。

背景技术

随着移动互联网的兴起，电商、社区平台、短视频、直播等产品蓬勃发展，庞大的用户群体贡献了大量优质的UGC(User Generated Content，用户生成内容)内容。与此同时，恶意用户伺机而动，不断制造出海量的垃圾广告、露骨评论、诈骗信息等，互联网产品和广大用户深受其害。为了保障产品的健康发展以及用户的良好体验，我们需要对垃圾广告、露骨评论、诈骗信息等风险内容进行识别并拦截。针对已知风险内容可以通过关键词、模型进行识别，针对风险内容的变种由于其文本结构、内容均发生了改变，模型和关键词识别并不奏效，亟需一种新的识别方法，来识别风险内容的变种。

发明内容

本说明书实施例提供一种风险内容变种的识别方法、装置及电子设备，用于提高风险内容变种识别的识别效率和准确性。

第一方面，本说明书实施例提供一种风险内容变种的识别方法，包括：

对风险文本进行分词获得第一分词集合，以及对检索文本进行分词获得第二分词集合；

计算获得所述第一分词集合与所述第二分词集合之间的jaccard系数；

根据所述jaccard系数和所述检索文本的文本长度，计算获得所述风险文本和所述检索文本之间的相似度；

根据所述相似度对所述检索文本进行风险内容变种识别，获得识别结果。

第二方面，本实施例提供一种风险内容变种的识别装置，包括：

分词单元，对风险文本进行分词获得第一分词集合，以及对检索文本进行分词获得第二分词集合；

计算单元，用于计算获得所述第一分词集合与所述第二分词集合之间的jaccard系数；根据所述jaccard系数和所述检索文本的文本长度，计算获得所述风险文本和所述检索文本之间的相似度；

识别单元，用于根据所述相似度对所述检索文本进行风险内容变种识别，获得识别结果。

第三方面，本说明书实施例提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如下步骤：

第四方面，本说明书实施例提供一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行如下操作指令：

本说明书实施例中的上述一个或多个技术方案，至少具有如下技术效果：

本说明书实施例提供一种风险内容变种的识别方法，针对待识别的检索文本，通过jaccard相似度算法对检索文本与风险文本进行文本相似性计算，并根据文本长度来对jaccard相似度算法计算获得的jaccard系数进行优化，最终获得检索文本与风险文本之间的相似度，以快速、准确地检索文本与风险文本之间的相似度，基于检索文本与风险文本之间的相似度来实现风险内容变种的识别，从而提高风险内容变种识别的识别效率和准确性。

附图说明

为了更清楚地说明本说明书实施例中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本说明书的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1为本说明书实施例提供的一种风险内容变种的识别方法的流程图；

图2为本说明书实施例提供的一种风险内容变种的识别装置示意图；

图3为本说明书实施例提供的一种电子设备的示意图。

具体实施方式

为使本说明书实施例的目的、技术方案和优点更加清楚，下面将结合本说明书实施例中的附图，对本说明书实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本说明书一部分实施例，而不是全部的实施例。基于本说明书中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本说明书保护的范围。

在本说明书实施例提供一种风险内容变种的识别方法、装置及电子设备，通过文本相似度的优化，基于优化后的文本相似度来进行风险内容变种识别，提高风险内容变种识别的识别效率和准确性。

下面结合附图对本说明书实施例技术方案的主要实现原理、具体实施方式及其对应能够达到的有益效果进行详细的阐述。

实施例

请参考图1，本实施例提供一种风险内容的识别方法，包括：

S11、对风险文本进行分词获得第一分词集合，以及对所述检索文本进行分词获得第二分词集合；

S13、计算获得所述第一分词集合与所述第二分词集合之间的jaccard系数；

S15、根据所述jaccard系数和所述检索文本的文本长度，计算获得所述风险文本和所述检索文本之间的相似度；

S17、根据所述相似度对所述检索文本进行风险内容变种识别，获得识别结果。

在对用户的UGC内容进行检索时，获得检索到检索文本，针对检索文本进行风险内容变种识别。由于UGC内容通常都比较短小，大多在几个至十几个分词之间，采用jaccard相似度算法来对检索文本和风险文本进行相似度计算能够大大提高相似度计算速率。具体的，采用jaccard相似度算法进行相似度计算时执行S11和S13，先对风险文本和检索文本进行分词，再基于分词结果进行jaccard相似度计算，获得jaccard系数(Jaccard index，杰卡德系数)。其中，风险文本为已知的广告、诈骗、露骨评论等垃圾信息。

执行S11时可以先对检索文本进行预处理，该预处理包括如下至少一种处理方式：拼音转换为字、拆字、同音字替换及简繁转换；再对预处理后的检索文本进行分词获得第二分词集合。其中，拆字包括两类，一类是将一个字按字形构造拆分为一个或多个字，如将“明”拆分为“日”和“月”，另一类是将多个字拆分组合成新的字，如将“小女且”拆分组合成“小姐”。实际应用环境中，恶意用户为了达到传播目的会进行文本内容变种，如将“放贷”写成“放代贝”、将“联系”写“lianxi”等，通过对检索文本进行预处理，如将“lianxi”拼音转换为“联系”，将“放代贝”拆分转换“放贷”，将“微型”同音字转换为“微信”，使得预处理后的检索文本能够更准确的识别出风险内容变种。

进一步的，S11可以对风险文本按单字分词获得第一分词集合，对检索文本按单字分词获得第二分词集合；或者，对风险文本按词典分词获得第一分词集合，对检索文本按词典分词获得第二分词集合，即S11在分词时可以按照单字进行分词，也可以按照词典进行分词。例如：对于风险文本“放款，需要联系”分词后获得第一分词集合“放\款\需\要\联\系”。

按照单字进行分词，与jaccard相似度算法相结合，由于jaccard相似度算法是采用交并集的方式来计算的相似度，按单字来计算交并集能够有效的识别文字中穿插符号、无意字等变种，例如，假设一风险文本为“方

贷”，通过单字拆词和jaccard相似度识别能够准确识别出其为“放贷”的变种。按照字典进行分词，可以选择一般字典做参照，较佳的，选择预设的风险内容字典做参照。风险内容字典通过搜集已知的风险文本中出现的高频风险词形成，例如：“放款”、“电话”、“联系”等。

在分词完成后，执行S13对风险文本的第一分词集合和检索文本的第二分词集合进行jaccard相似度计算，获得第一分词集合与第二分词集合之间的jaccard系数。具体的，假设第一分词集合为A，第二分词集合为B，第一分词集合中的分词数量为∣A∣,第一分词集合中的分词数量为∣B∣，第一分词集合与第二分词集合中均出现过的分词数量为∣A∩B∣，第一分词集合与第二分词集合中现过的分词总数量为∣A∪B∣，那么jaccard系数J(A,B)可以通过如下公式计算获得：

对于计算获得的jaccard的系数，执行S15通过检索文本的文本长度进行优化，通过检索文本的文本长度对jaccard系数做衰减获得风险文本和检索文本之间的相似度，其中，所述文本长度越大衰减量越小，所述相似度越大。通过文本长度对jaccard系数做衰减，用于弥补jaccard相似度算法对于较为短小的文本计算误差较大的缺陷，衰减方式可以基于文本长度进行线性衰减，如通过下述公式一计算文本长度对jaccard系数做衰减获得风险文本和检索文本之间的相似度，也可以基于文本长度进行非线性衰减，如通过如下公式二计算文本长度对jaccard系数做衰减获得风险文本和检索文本之间的相似度：

其中，所述score_i标识所述相似度，J(A,Bi)表示所述jaccard系数，A表示所述第一分词集合，Bi表示所述第二分词集合，ki表示所述文本长度，文本长度是指文本中的字符数量包含标点符号。当检索文本具有多个时，Bi表示第i个检索文本的第二分词集合。

通过上述公式计算获得的风险文本和检索文本之间的相似度取值区间为[0,1]，便于进行相似度阈值划分，从而根据相似度阈值进行风险文本变种识别。当然，通过文本长度对jaccard系数进行优化时，也可以采用其它公式进行，本实施例并不做具体限制。

在获得风险文本与检索文本之间的相似度之后，继续执行S17根据获得的相似度对检索文本进行风险内容变种识别，获得识别结果。具体的，针对检索文本，可以利用搜索引擎的检索和排序能力，获得检索文本集合中每个检索文本与风险文本之间的相似度；对所有相似度进行排序，并根据排序结果设定相似度阈值；将相似度大于相似度阈值的检索文本作为风险内容变种，相似度小于等于相似度阈值的检索文本则为非风险内容变种，即识别结果包含两种情况，一是检索文本为风险内容变种，二是检索文本不是风险内容变种。例如：假设检索文本集合中有1000个检索文本，取其中5％作为风险内容变种进行人工标记和内容处置，相似度有大到小排序后第50位的相似度大小为a，第51位的相似度大小为b，那么相似度阈值可以设定在(a,b)之间，将相似度大于相似度阈值的检索文本作为风险内容变种即风险内容识别结果，实现风险内容变种的挖掘。当然，相似度阈值也可以过往数据或者变种识别精度设置为某一固定值，如0.6或0.7。

例如：对风险文本“放款,需要联系”采用上述方法进行检索文本的风险内容变种挖掘时，获得挖掘结果如下，可以有效发现风险内容变种，自动进行风险对抗，提升恶意用户对抗成本。

针对风险文本变种识别获得的识别结果，可以对识别结果为风险内容变种的检索文本进行拦截，提高系统的风险文本拦截准确率，减少风险文本对用户的干扰提高用户的使用体验。当然，也可以将识别结果为风险内容变种的检索文本输出到人工标记平台，以通过人工标记后的风险内容变种更新风险文本数据库。输出到人工标记平台上的风险内容变种，可由工作人员进行风险内容标记，即进一步确认风险内容变种是否为风险文本，若是，则将标记为风险文本的变种更新至风险文本数据库，以进行风险文本拦截。

在上述实施例中，利用文本间jaccard相似度算法计算获得风险文本和检索文本之间的jaccard系数，并通过文本长度对其进行优化，进一步利用搜索引擎的检索和排序能力，构建违规文本风险发现能力，自动进行风险对抗，防范变种及风险影响扩大，提升了违规文本即风险内容变种的识别效率。

基于同一发明构思，本实施例还对应提供一种风险内容变种的识别装置，请参考图2，该装置包括：

分词单元21，对风险文本进行分词获得第一分词集合，以及对检索文本进行分词获得第二分词集合；

计算单元23，用于计算获得所述第一分词集合与所述第二分词集合之间的jaccard系数；根据所述jaccard系数和所述检索文本的文本长度，计算获得所述风险文本和所述检索文本之间的相似度；

识别单元25，用于根据所述相似度对所述检索文本进行风险内容变种识别，获得识别结果。

作为一种可选的实施方式，所述分词单元21可以先对所述检索文本进行预处理，所述预处理包括：将拼音转换为字、拆字或同音字替换；然后，对预处理后的所述检索文本进行分词获得所述第二分词集合。所述分词单元21可以采用如下方式进行分词：对所述风险文本按单字分词获得第一分词集合，以及对所述检索文本按单字分词获得第二分词集合；或者，对所述风险文本按词典分词获得第一分词集合，以及对所述检索文本按词典分词获得第二分词集合。

所述计算单元23在计算获得相似度时，可以通过所述文本长度对所述jaccard系数做衰减获得所述风险文本和所述检索文本之间的相似度，其中，所述文本长度越大衰减量越小，所述相似度越大。具体的，可以通过如下公式计算获得所述风险文本和所述检索文本之间的相似度：

其中，所述score_i标识所述相似度，J(A,Bi)表示所述jaccard系数，A表示所述第一分词集合，Bi表示所述第二分词集合，ki表示所述文本长度。

作为一种可选实施方式，所述识别单元25可以通过如下方式获得识别结果：获得检索文本集合中每个所述检索文本的所述相似度；对所有所述相似度进行排序，并根据排序结果设定相似度阈值；将所述相似度大于所述相似度阈值的所述检索文本作为风险内容变种。

作为一种可选的实施方式，所述装置还可以包括拦截单元或者更新单元。拦截单元用于对所述识别结果为风险内容变种的检索文本进行拦截。更新单元用于将所述识别结果为风险内容变种的检索文本输出到人工标记平台，以通过人工标记后的风险内容变种更新风险文本数据库。

关于上述实施例中的装置，其中各个单元执行操作的具体方式已经在有关方法的实施例中进行了详细描述，此处不再详细阐述。

请参考图3，是根据一示例性实施例示出的一种用于实现风险内容变种是识别方法的电子设备700的框图。例如，电子设备700可以是计算机，数据库控制台，平板设备，个人数字助理等。

参照图3，电子设备700可以包括以下一个或多个组件：处理组件702，存储器704，电源组件706，多媒体组件708，输入/输出(I/O)的接口710，以及通信组件712。

处理组件702通常控制电子设备700的整体操作，诸如与显示，数据通信，及记录操作相关联的操作。处理元件702可以包括一个或多个处理器720来执行指令，以完成上述的方法的全部或部分步骤。此外，处理组件702可以包括一个或多个模块，便于处理组件702和其他组件之间的交互。

存储器704被配置为存储各种类型的数据以支持在设备700的操作。这些数据的示例包括用于在电子设备700上操作的任何应用程序或方法的指令，联系人数据，电话簿数据，消息，图片，视频等。存储器704可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，如静态随机存取存储器(SRAM)，电可擦除可编程只读存储器(EEPROM)，可擦除可编程只读存储器(EPROM)，可编程只读存储器(PROM)，只读存储器(ROM)，磁存储器，快闪存储器，磁盘或光盘。

电源组件706为电子设备700的各种组件提供电力。电源组件706可以包括电源管理系统，一个或多个电源，及其他与为电子设备700生成、管理和分配电力相关联的组件。

I/O接口710为处理组件702和外围接口模块之间提供接口，上述外围接口模块可以是键盘，点击轮，按钮等。这些按钮可包括但不限于：主页按钮、音量按钮、启动按钮和锁定按钮。

通信组件712被配置为便于电子设备700和其他设备之间有线或无线方式的通信。电子设备700可以接入基于通信标准的无线网络，如WiFi，2G或3G，或它们的组合。在一个示例性实施例中，通信部件712经由广播信道接收来自外部广播管理系统的广播信号或广播相关信息。在一个示例性实施例中，所述通信部件712还包括近场通信(NFC)模块，以促进短程通信。例如，在NFC模块可基于射频识别(RFID)技术，红外数据协会(IrDA)技术，超宽带(UWB)技术，蓝牙(BT)技术和其他技术来实现。

在示例性实施例中，电子设备700可以被一个或多个应用专用集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理设备(DSPD)、可编程逻辑器件(PLD)、现场可编程门阵列(FPGA)、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述方法。

在示例性实施例中，还提供了一种包括指令的非临时性计算机可读存储介质，例如包括指令的存储器704，上述指令可由电子设备700的处理器720执行以完成上述方法。例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得电子设备能够执行一种风险内容变种的识别方法，所述方法包括：对风险文本进行分词获得第一分词集合，以及对检索文本进行分词获得第二分词集合；计算获得所述第一分词集合与所述第二分词集合之间的jaccard系数；根据所述jaccard系数和所述检索文本的文本长度，计算获得所述风险文本和所述检索文本之间的相似度；根据所述相似度对所述检索文本进行风险内容变种识别，获得识别结果。

其中，对检索文本进行分词获得第二分词集合时，可以先对所述检索文本进行预处理，所述预处理包括：将拼音转换为字、拆字或同音字替换；然后，对预处理后的所述检索文本进行分词获得所述第二分词集合。具体分词时，可以对所述风险文本按单字分词获得第一分词集合，以及对所述检索文本按单字分词获得第二分词集合；或者，对所述风险文本按词典分词获得第一分词集合，以及对所述检索文本按词典分词获得第二分词集合。

根据所述jaccard系数和所述检索文本的文本长度，计算获得所述风险文本和所述检索文本之间的相似度时，可以通过所述文本长度对所述jaccard系数做衰减获得所述风险文本和所述检索文本之间的相似度，其中，所述文本长度越大衰减量越小，所述相似度越大。具体的，可以通过所述文本长度对所述jaccard系数做衰减获得所述风险文本和所述检索文本之间的相似度时，可以采用如下公式进行计算：

对于风险内容变种的识别，可以通过如下方式获得识别结果：

获得检索文本集合中每个所述检索文本的所述相似度；对所有所述相似度进行排序，并根据排序结果设定相似度阈值；将所述相似度大于所述相似度阈值的所述检索文本作为风险内容变种。

进一步的，该识别方法还可以包括：对所述识别结果为风险内容变种的检索文本进行拦截；或者，将所述识别结果为风险内容变种的检索文本输出到人工标记平台，以通过人工标记后的风险内容变种更新风险文本数据库。

应当理解的是，本实施例并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本实施例的范围仅由所附的权利要求来限制

以上所述仅为本实施例的较佳实施例，并不用以限制本实施例，凡在本实施例的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本实施例的保护范围之内。

Claims

1.一种风险内容变种的识别方法，包括：

2.如权利要求1所述的方法，所述对检索文本进行分词获得第二分词集合，包括：

对所述检索文本进行预处理，所述预处理包括：将拼音转换为字、拆字或同音字替换；

对预处理后的所述检索文本进行分词获得所述第二分词集合。

3.如权利要求1所述的方法，所述对风险文本进行分词获得第一分词集合，以及对检索文本进行分词获得第二分词集合，包括：

对所述风险文本按单字分词获得第一分词集合，以及对所述检索文本按单字分词获得第二分词集合；或者，

对所述风险文本按词典分词获得第一分词集合，以及对所述检索文本按词典分词获得第二分词集合。

4.如权利要求1所述的方法，所述根据所述jaccard系数和所述检索文本的文本长度，计算获得所述风险文本和所述检索文本之间的相似度，包括：

通过所述文本长度对所述jaccard系数做衰减获得所述风险文本和所述检索文本之间的相似度，其中，所述文本长度越大衰减量越小，所述相似度越大。

5.如权利要求4所述的方法，所述通过所述文本长度对所述jaccard系数做衰减获得所述风险文本和所述检索文本之间的相似度，包括：

6.如权利要求4所述的方法，根据所述相似度对所述检索文本进行风险内容变种识别，获得识别结果，包括：

获得检索文本集合中每个所述检索文本的所述相似度；

对所有所述相似度进行排序，并根据排序结果设定相似度阈值；

将所述相似度大于所述相似度阈值的所述检索文本作为风险内容变种。

7.如权利要求1所述的方法，所述方法还包括：

对所述识别结果为风险内容变种的检索文本进行拦截；或者，

将所述识别结果为风险内容变种的检索文本输出到人工标记平台，以通过人工标记后的风险内容变种更新风险文本数据库。

8.一种风险内容变种的识别装置，包括：

9.如权利要求7所述的装置，所述分词单元用于：

10.如权利要求7所述的装置，所述分词单元用于：

11.如权利要求7所述的装置，所述计算单元用于：

12.如权利要求10所述的装置，所述计算单元用于通过如下公式计算获得所述风险文本和所述检索文本之间的相似度，包括：

13.如权利要求10所述的装置，所述识别单元用于：

获得检索文本集合中每个所述检索文本的所述相似度；

14.如权利要求8所述的装置，所述装置还包括：

拦截单元，用于对所述识别结果为风险内容变种的检索文本进行拦截；或者，

输出单元，用于将所述识别结果为风险内容变种的检索文本输出到人工标记平台，以通过人工标记后的风险内容变种更新风险文本数据库。

15.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1～7任一所述方法对应的指令。

16.一种电子设备，其特征在于，包括有存储器，以及一个或者一个以上的程序，其中一个或者一个以上程序存储于存储器中，且经配置以由一个或者一个以上处理器执行所述一个或者一个以上程序包含用于进行如权利要求1～7任一所述方法对应的操作指令。