CN107256257A

CN107256257A - 基于业务数据的异常用户生成内容识别方法及系统

Info

Publication number: CN107256257A
Application number: CN201710438294.XA
Authority: CN
Inventors: 闵杰; 王乐; 凌云
Original assignee: Shanghai Ctrip Business Co Ltd
Current assignee: Shanghai Ctrip Business Co Ltd
Priority date: 2017-06-12
Filing date: 2017-06-12
Publication date: 2017-10-17

Abstract

本发明提供了一种基于业务数据的异常用户生成内容识别方法及系统，该方法包括构建风险判断模型；采集用户的业务数据；计算预设统计时间段内各个用户的属性数据之间的相似程度，将相似程度符合预设归并条件的用户归并为同一用户；统计各个用户的所有操作数据，并根据操作数据判断所对应用户的异常等级；根据发起用户生成内容请求的用户的异常等级处理该用户生成内容请求。本发明以业务大数据为核心，实时监控业务上用户生成内容请求以及验证的情况,并根据业务数据,判断每个请求数据的风险等级，准实时地去进行设备信息、IP地址、文本信息等多维度识别，保证用户生成内容恶意破解方无法在短时间内破解那么多纬度，从而放弃破解。

Description

基于业务数据的异常用户生成内容识别方法及系统

技术领域

本发明涉及网络技术领域，尤其涉及一种基于大数据和多维度属性检测异常数据的基于业务数据的异常用户生成内容识别方法及系统。

背景技术

随着互联网行业的不断发展，违禁词检测随之兴起并发展，据权威统计，在各类互联网平台上，赌博、营销推广、暴力恐怖、色情以及各类虚假评论占比越来越大，其中有些影响社会安定，有些影响青少年成长，也有的影响商品本身的口碑。同时，目前这个市场已经形成一种成熟产业链，在淘宝和微信群，各类代刷层出不穷。这些网络不文明行为已经对网络环境的健康和安全造成了很大影响。

现在已经出现了一些检测异常数据的方法，然而现有的检测模式，主要是以用户评论是否命中某些特定关键词来完成的，检测方法比较单一，也很容易避开。因此，关键词是可以枚举并绕过的，用户只要对文本进行一定规避性的修改即可以避开现有的异常数据检测方法。另外，当选择对某些用户进行拦截处理后，被拦截用户只要通过更换登陆设备或登陆IP等简单的方式即可以重新发布违规信息。因此，现有的检测效果已经不能满足现有情况。

发明内容

针对现有技术中的问题，本发明的目的在于提供一种基于业务数据的异常用户生成内容识别方法及系统，基于业务数据多维度分析，准确判断用户生成内容请求所对应的用户异常等级，提高恶意破解方对拦截规则的破解难度。

本发明实施例提供一种基于业务数据的异常用户生成内容识别方法，包括如下步骤：

构建风险判断模型，所述风险判断模型中包括多种异常等级、各个异常等级所对应的业务数据条件以及各个异常等级所对应的请求处理方式；

采集所有用户的业务数据；

计算预设统计时间段内各个用户的业务数据之间的相似程度，将相似程度符合预设归并条件的多个用户归并为同一用户；

将归并为同一用户的业务数据组合作为该用户的业务数据，并根据所述风险判断模型判断所对应用户的异常等级；

接收到用户生成内容请求时，根据发起请求用户的异常等级所对应的请求处理方式处理该用户生成内容请求。

可选地，所述业务数据包括属性数据和操作数据，所述属性数据包括多个属性和与所述多个属性相对应的多个属性值。

可选地，计算各个用户的业务数据之间的相似程度时，统计每两个用户之间属性和所对应的属性值均相同的属性个数，如果相同的属性个数大于或等于第一预设阈值，则对应的两个用户归并为同一用户，否则对应的两个用户确定为两个不同的用户。

可选地，计算各个用户的业务数据之间的相似程度时，对每个属性设置一权值，统计每两个用户之间属性和所对应属性值均相同的属性，将相同的属性加权计算得到相似度值，如果该相似度值大于第二预设阈值，则对应的两个用户归并为同一用户，否则对应的两个用户确定为两个不同的用户。

可选地，所述属性数据包括所对应用户的账号信息、设备信息、用户身份证明信息、浏览器信息、生物识别信息、IP地址和联系方式中的至少一种。

可选地，所述操作数据包括用户的业务操作信息和用户生成文本信息；

所述业务操作信息包括用户的操作频率、操作时长、在线时长、上线时间、下线时间中的至少一种；

所述风险判断模型中各种异常等级所对应的业务数据条件为：由属性值、文本关键词、操作频率阈值范围、操作时长阈值范围、在线时长操作阈值范围、上线时间阈值范围、下线时间阈值范围和在线时间段中的至少一项组合成的业务数据条件。

可选地，所述异常等级包括高异常等级、普通异常等级和低异常等级；所述处理该用户生成内容请求，包括如下步骤：

发起用户生成内容请求用户的异常等级为高异常等级时，拒绝执行该用户生成内容请求；

发起用户生成内容请求用户的异常等级为普通异常等级时，将该用户生成内容请求转至人工审核；

发起用户生成内容请求用户的异常等级为低异常等级时，允许执行该用户生成内容请求。

可选地，所述风险判断模型中包括多种用户类型，针对各种用户类型，所述风险判断模型中设定有各种用户类型下各种异常等级所对应的业务数据条件；

所述判断所对应用户的异常等级，包括如下步骤：

根据所述用户生成文本信息中的关键字判断用户类型；

根据用户类型以及用户的业务数据与所述风险判断模型进行比较，确定用户的异常等级。

可选地，所述用户类型包括商户用户和消费用户，所述异常等级包括高异常等级、普通异常等级和低异常等级；

所述判断用户类型，包括如下步骤：

检测所述用户生成文本信息中是否存在预设商户关键字，如果是，则该用户为商户用户，否则，该用户为消费用户；

所述确定用户的异常等级，包括如下步骤：

判断该用户为商户用户时，该商户用户的异常等级为普通异常等级；

判断该用户为消费用户时，如果用户生成文本信息中存在预设评价关键字且该用户的业务操作频率超过第三预设阈值时，则该消费用户的异常等级为高异常等级，如果用户生成文本信息中存在预设评价关键字且该用户的业务操作频率小于第三预设阈值时，则该消费用户的异常等级为普通异常等级，如果用户生成文本信息中不存在预设评价关键字时，则该消费用户的异常等级为低异常等级。

可选地，所述处理该用户生成内容请求，还包括如下步骤：

发起用户生成内容请求用户的异常等级为低异常等级时，对该用户生成内容请求的文本信息进行检测，判断该文本信息中是否存在预设违禁关键字，如果是，则拒绝执行该用户生成内容请求或将该文本信息中的违禁关键字删除后再允许执行该用户生成内容请求，否则，允许执行该用户生成内容请求。

可选地，判断该文本信息中是否存在预设违禁关键字之前，还包括如下步骤：

检测该文本信息中是否存在无意义字符和错误字符，将所述无意义字符删除后并修正所述错误字符后，判断该文本信息中是否存在预设违禁关键字。

可选地，接收到用户生成内容请求时，还包括如下步骤：

判断发起用户生成内容请求的用户是否为预设白名单用户，如果是，则允许执行该用户生成内容请求，否则根据发起请求用户的异常等级处理该用户生成内容请求。

可选地，根据发起用户生成内容请求的用户的账号信息、设备信息、用户身份证明信息、浏览器信息、生物识别信息、IP地址和联系方式中的至少一种判断该用户是否为预设白名单用户。

可选地，还包括如下步骤：

每隔第一预设间隔时间重新采集所有用户的业务数据，并更新各个用户的操作数据；

每隔第二预设间隔时间，统计各个用户的所有业务数据，并根据所述业务数据重新判断所对应用户的异常等级。

可选地，所述重新判断所对应用户的异常等级，包括如下步骤：

对预设时间段内同一用户的各个属性的不同属性值进行计数，当有至少一属性下包含的不同属性值数量大于第四预设阈值时，提高该用户的异常等级。

本发明实施例还提供一种基于业务数据的异常用户生成内容识别系统，包括：

数据采集模块，采集所有用户的业务数据；

处理器；以及

计算机可读存储介质，其上储存有计算机程序和所述风险判断模型；其中：

所述风险判断模型中包括多种异常等级、各个异常等级所对应的业务数据条件以及各个异常等级所对应的请求处理方式；

所述计算机程序被所述处理器运行时执行如下步骤：

从所述数据采集模块中获取预设统计时间段内所有用户的业务数据；

可选地，所述业务数据包括属性数据和操作数据，所述属性数据包括多个属性和与所述多个属性相对应的多个属性值；

所述计算机程序被所述处理器运行时，根据如下步骤计算各个用户的属性数据之间的相似程度：

计算各个用户的属性数据之间的相似程度时，统计每两个用户之间属性和所对应的属性值均相同的属性个数，如果该属性个数大于预设阈值，则对应的两个用户归并为同一用户，否则对应的两个用户确定为两个不同的用户。

可选地，所述计算机程序被所述处理器运行时还执行如下步骤：

每隔第二预设间隔时间，统计各个用户的所有操作数据，并根据所述操作数据重新判断所对应用户的异常等级；

本发明所提供的基于业务数据的异常用户生成内容识别方法及系统具有下列优点：

本发明以业务大数据为核心，实时监控业务上用户生成内容请求以及验证的情况,并根据业务数据,判断每个请求数据的风险等级，准实时地去进行设备信息、IP地址、文本信息等多维度识别，保证用户生成内容恶意破解方无法在短时间内破解那么多纬度，从而放弃破解。

附图说明

通过阅读参照以下附图对非限制性实施例所作的详细描述，本发明的其它特征、目的和优点将会变得更明显。

图1是本发明一实施例的基于业务数据的异常用户生成内容识别方法的流程图；

图2是本发明一实施例的基于业务数据的异常用户生成内容识别系统的结构示意图；

图3是本发明一实施例的基于属性数据归并同一用户的流程图；

图4是本发明一实施例的根据用户的异常等级处理用户生成内容请求的流程图；

图5是本发明一实施例的基于业务数据的异常用户生成内容识别方法应用于具体实例的流程图。

具体实施方式

现在将参考附图更全面地描述示例实施方式。然而，示例实施方式能够以多种形式实施，且不应被理解为限于在此阐述的实施方式；相反，提供这些实施方式使得本发明将全面和完整，并将示例实施方式的构思全面地传达给本领域的技术人员。在图中相同的附图标记表示相同或类似的结构，因而将省略对它们的重复描述。

如图1所示，本发明实施例提供一种基于业务数据的异常用户生成内容(UGC，User-generated content)识别方法。所述方法包括如下步骤：

S100：构建风险判断模型，所述风险判断模型中包括多种异常等级、各个异常等级所对应的业务数据条件以及各个异常等级所对应的请求处理方式；

S200：采集所有用户的业务数据；

S300：计算预设统计时间段内各个用户的业务数据之间的相似程度，将相似程度符合预设归并条件的多个用户归并为同一用户；

S400：将归并为同一用户的业务数据组合作为该用户的业务数据，并根据所述风险判断模型判断所对应用户的异常等级；

S500：接收到用户生成内容请求时，根据发起请求用户的异常等级所对应的请求处理方式处理该用户生成内容请求。

本发明实施例通过根据多维度的业务数据判断多个用户之间的相似度，将相似度较高的用户归并为同一用户，从而可以有效检测出同一用户使用多个账号、IP地址等发起异常用户生成请求的情况，进行同一用户归并后的业务数据更具有真实性，可以更加有效地判断出用户的操作频率、在线时长等真实数据，并据此判断用户是否在执行刷单、发布违禁信息等异常业务，并对异常业务进行有效拦截。

该实施例中各个步骤之间的顺序仅为示例，在实际应用中，可以根据需要调整各个步骤之间的顺序，例如先执行S200采集所有用户的业务数据，再执行S100构建风险判断模型等等，均是可以实现的，均属于本发明的保护范围之内。另外，风险判断模型可以预先定义，并且可以在后续程序执行过程中进行修改完善，以更加符合异常用户生成内容的识别需求。

该实施例中预设统计时间段可以根据需要进行定义，例如定义为统计7天之内的所有业务数据，统计30天之内的业务数据等等。该实施例运用大数据来计算每天及7天内(不限于此)的全部数据来追溯一些低频恶意点评行为，运用业务数据来确定虚假评论/违法违禁词等行为，可以有效的给予甄别的异常数据区分等级，然后根据具体的等级，确认给他后续的业务请求处理方式，比如是否色情信息，是否虚假点评信息，是否反恐暴力信息，然后进行文本的二次判定或者直接拒绝(文本判定将在下文中进一步描述)，这样能大幅度提高审核精度以及覆盖面，相比于以往只能做一些公安违禁词，该实施例无疑大大增加了异常判定范围。另外，由于本发明实施例仅仅是识别了异常信息，针对异常信息去变动，对正常用户，完全没有感知，有效保护了正常用户的使用体验。

如图2所示，本发明实施例提供了一种基于业务数据的异常用户生成内容的系统，所述系统包括数据采集模块100，采集所有用户的业务数据；处理器200；以及计算机可读存储介质300，其上储存有计算机程序和所述风险判定模型，所述计算机程序被所述处理器200运行时执行所述基于业务数据的异常用户生成内容的方法。

数据采集模块100可以通过在业务前端设置数据埋点实现，收集全站前端的业务数据日志。在计算机程序被所述处理器运行后，可以将用户生成内容请求的判定结果和处理结果记录到业务日志中，例如进行业务拦截或关键词屏蔽，或允许业务执行等。

在一种优选的实施方式中，所述业务数据包括属性数据和操作数据。所述属性数据指的是可以表明用户身份的多个属性和多个属性值，例如用户的账号信息、设备信息、用户身份证明信息(UID，User Identification)、浏览器信息、生物识别信息、IP地址和联系方式中的至少一种。其中：账号信息可以包括用户名以及其他相关信息；设备信息可以是电脑的硬件编号、移动终端的编号等等；生物识别信息可以包括指纹码、声纹检测等生物识别手段得到的数据；联系方式可以是手机号码、电子邮箱地址、家庭住址等等。各个属性对应有一属性值。此处仅列举了部分属性的例子，在实际应用中，不限于此，还可以增加其他表征用户身份的属性类型。

而操作数据指的是用户的业务操作信息和用户生成内容信息，此处业务操作信息指的是在预设统计时间段内操作频率、操作时长、在线时长、上线时间、下线时间中的至少一种，即用户实际操作的一些数据，用户生成内容信息指的是用户在预设统计时间段内发出的用户生成内容请求。

如图3所示，为本发明一实施例的基于属性数据归并同一用户的流程图。计算各个用户的业务数据之间的相似程度时，统计每两个用户之间属性和所对应的属性值均相同的属性个数，如果相同的属性个数大于或等于第一预设阈值，则对应的两个用户归并为同一用户，否则对应的两个用户确定为两个不同的用户。

例如，分别检测用户的设备信息、IP信息、浏览器信息、账号信息和生物识别信息五个维度的属性数据。设置第一预设阈值为3，即两个用户之间只要有三个维护的属性数据相同即认定两个用户为同一用例。举例来说，用户A和用户B的IP信息不同，浏览器信息不同，但设备信息、账号信息和生物识别均相同，即用户A和用户B相同的属性为3，即等于第一预设阈值，则判断用户A和用户B为同一用户，将用户A的业务数据和用户B的业务数据都归并到同一用户的名下。而如果用户C和用户D仅有设备信息和账号信息相同，但IP信息、浏览器信息和生物识别信息均不相同，则判断用户C和用户D为不同用户。此处仅为举例，在实际应用中，判断的维度个数可以根据需要增加或减少，并且第一预设阈值也可以根据需要进行调整，而不以此处列举为限。在归并同一用户后，可以针对该用户任意维度的信息进行访问和业务请求控制，也控制可以自动调节。用户的访问信息只进行较少维度变更时，让人可以判定为同一用户操作。

进一步地，计算各个用户的业务数据之间的相似程度时，还可以对每个属性设置一权值，统计每两个用户之间属性和所对应属性值均相同的属性，将相同的属性加权计算得到相似度值，如果该相似度值大于第二预设阈值，则对应的两个用户归并为同一用户，否则对应的两个用户确定为两个不同的用户。即虽然选择多个维度来判断用户，但是不同属性可以设置不同的权值。

例如，分别检测用户的设备信息、IP信息、浏览器信息、账号信息和生物识别信息五个维度的属性数据，为设备信息、IP信息、浏览器信息、账号信息和生物识别信息五个维度分别设置权值为2、1、1、2、3，即设定不同属性的重要程度。例如生物识别信息对身份认证的准确度比较高，则可以将其设定为较高的权值。在两个用户之间某一属性值相同时，则计为1，某一属性值不同时，则计为0。此处设定第二预设阈值为6。

假设用户A和用户B的设备信息、IP信息和生物识别信息相同，其他信息不同。则计算两者相似度为1×2+1×1+1×3＝6，即相似度值6等于第二预设阈值，则判断用户A和用户B为相同用户。假设用户C和用户D的设备信息、IP信息和浏览器信息相同，其他信息不同。则计算两者相似度值为1×2+1×1+1×1＝4，即相似度值4小于第二预设阈值，则判断用户C和用户D为不同用户。

采用设置权值和加权计算的方式，可以更进一步准确的实现相同用户的判断。具体归并用户的方法还可以采用其他方式来计算相似度，而不限于此处列举出的两个实例。

如上所述，操作数据指的是用户的业务操作信息和用户生成内容信息，此处业务操作信息指的是在预设统计时间段内操作频率、操作时长、在线时长、上线时间、下线时间中的至少一种。

与之对应地，所述风险判断模型中各种异常等级所对应的业务数据条件为：由属性值、文本关键词、操作频率阈值范围、操作时长阈值范围、在线时长操作阈值范围、上线时间阈值范围、下线时间阈值范围和在线时间段中的至少一项组合成的业务数据条件。

如图4所示，所述异常等级可以包括高异常等级、普通异常等级和低异常等级。分别对三种不同等级进行不同的拦截处理。例如：

发起用户生成内容请求用户的异常等级为高异常等级时，拒绝执行该用户生成内容请求；发起用户生成内容请求用户的异常等级为普通异常等级时，将该用户生成内容请求转至人工审核；发起用户生成内容请求用户的异常等级为低异常等级时，允许执行该用户生成内容请求。

此处对异常等级的区分只是一种示例，在实际应用中，可以简单将异常等级区分为高异常等级和低异常等级，也可以进一步划分为多个层次，对每个层次的异常等级进行不同的处理。

风险判定模型可以选择多个维度的业务数据进行判断，并且可以根据实际需要进行调整，上面只是列举了一些业务数据的类型，本发明的保护范围不限于此。

例如，可以基于多种属性和业务操作频率来判断用户的异常等级。在此举几个判断例子以说明：

例1：当一IP地址访问次数大于预设阈值x时，可以依次执行如下判断步骤或分别执行如下判断步骤；

判断该IP地址下访问的账号数量去重后是否大于该IP地址下账号总登陆次数的50％；

判断去重后的账号数量大于所有设备信息下用户身份证明去重后数量的90％；

判断该IP地址下指纹码去重后指纹码数量是否小于等于2；

判断设备类型去重后是否唯一；

判断邮箱类型去重后是否唯一；

判断手机归属地去重后是否唯一。

上述判断步骤如果有一个或多个(具体数量可以进行调整)判断条件满足，则可以认为是同一用户的操作，并且该用户的异常等级较高，对该用户的用户生成内容请求需要进行拦截或转人工审核，如果上述判断条件均不满足，则可以认为是多个用户的不同操作，而不做对应拦截处理。

例2：当同一设备访问次数大于预设阈值x时；

判断该设备下账号数量去重后是否大于该设备下账号总登陆次数的50％；

判断IP地址去重后是否唯一。

上述判断步骤如果有一个或两个判断条件满足，则可以认为是同一用户的操作，并且该用户的异常等级较高，对该用户的用户生成内容请求需要进行拦截或转人工审核，如果上述判断条件均不满足，则可以认为是多个用户的不同操作，而不做对应拦截处理。

例3：设定在晚上十一点钟到凌晨三点钟之间业务操作频率大于每分钟十次时，对应的用户为高异常等级，而在早上九点钟到下午五点钟之间进行业务操作的用户判断为低异常等级。这样可以避免利用晚上网络空闲时段进行刷单或发布违禁信息的情况。

例4：在判定为同一用户时，如果该用户的设备信息有多个，且设备数量大于预设阈值y时，对应的用户为高异常等级；或如果该用户的IP地址有多个，且IP地址数量大于预设阈值y时，对应的用户为高异常等级。这样可以避免用户采用多个不同的设备或多个不同的IP地址来躲避违禁检查的情况。

例5：设定如果一用户在预设统计时间段内发布包含有预设违禁关键字(字或词)的用户生成内容信息次数大于预设阈值z1时，对应的用户为高异常等级；次数介于预设阈值z1和预设阈值z2之间时，对应的用户为普通异常等级；次数小于预设阈值z2时，对应的用户为低异常等级。

上面仅为几种用户的异常等级判断的实例，在实际应用中，风险判断模型可以有多种不同的组合，自由组合计算，具有更高的检测精度。业务操作检测除了判断业务操作频率外，还会判断业务操作时间段所占的比例，防止篡改IP地址、设备等信息后伪装访问，提高异常用户伪造成本。并且，对每个用户的异常等级进行存储，在接收到该用户新的用户生成内容请求时，可以根据存储的异常等级来处理。即如果一个用户之前被判断为高异常等级，在知道自己会被拦截的情况下，更换了一个IP地址重新登陆访问，则通过本实施例的方法，仍然会判断为同一用户执行的操作，仍然按照之前判断的高异常等级来处理其新的用户生成内容请求。

进一步地，还可以针对不同用户类型设置不同的异常等级判断条件。所述风险判断模型中可以包括多种用户类型，针对各种用户类型，所述风险判断模型中设定有各种用户类型下各种异常等级所对应的业务数据条件；

所述判断所对应用户的异常等级，包括如下步骤：

根据所述用户生成文本信息中的关键字判断用户类型；

例如，所述用户类型可以包括商户用户和消费用户，所述异常等级包括高异常等级、普通异常等级和低异常等级；

所述判断用户类型，包括如下步骤：

检测所述用户生成文本信息中是否存在预设商户关键字(例如：提供服务、请联系、如需咨询等等)，如果是，则该用户为商户用户，否则，该用户为消费用户；也可以设置预设消费关键字，例如很满意，不错，不是很好等等，来检测是否为消费用户；

所述确定用户的异常等级，包括如下步骤：

如下给出一个实例来进一步介绍：

a)帐号|设备信息|浏览器信息|指纹码|IP地址

M123456|09001017110453161531|Mozilla/5.0(Windows NT 6.1；WOW64)AppleWebKit/537.36(KHTML,like Gecko)Chrome/45.0.2454.101Safari/537.36|103oj1d-12vd2f-hlkblo| 61.150.15.14

b)该用户信息在2分钟内访问20次，并发布用户生成内容信息：“该产品很好，下次还会光顾。”则判断该用户为消费用户，并且其操作频率较高，此时根据用户时间段内访问次数(可自由调节)可判断为高危等级，处理方式：禁止用户发布或发布后仅本人可见；

c)该用户信息在一天内访问2次，并发布用户生成内容信息：“我们会提供更好的服务，请联系123456”此时根据用户发布内容，可判断为普通危险等级，处理：发布内容待审核，人工审核后可展示；

d)该用户信息在一天内访问2次，并发布UGC信息：“服务很好，很划算。”此时可判断为非危险等级，处理：展示用户发布内容。

此处仅给出了一个判断实例，在实际应用中，还可以有其他的用户类型，例如测试用户、新注册用户、注册五年以上用户等等，判断标准也可以根据需要调整。

进一步地，如图4所示，所述处理该用户生成内容请求，在判断发起请求的用户的异常等级之后，还包括如下步骤：

发起用户生成内容请求用户的异常等级为低异常等级时，对该用户生成内容请求的文本信息进行检测，判断该文本信息中是否存在预设违禁关键字(字或词)，如果是，则拒绝执行该用户生成内容请求或将该文本信息中的违禁关键字删除后再允许执行该用户生成内容请求，否则，允许执行该用户生成内容请求。

进一步可选地，判断该文本信息中是否存在预设违禁关键字之前，还包括如下步骤：

检测该文本信息中是否存在无意义字符(本发明中字符指的是包含字、词、字母、标点符号、数学运算符等等)和错误字符，将所述无意义字符删除后并修正所述错误字符后，判断该文本信息中是否存在预设违禁关键字。这样可以避免有些用户为了避开关键词的拦截，而在违禁关键词之间增加一些标点符号来将其间隔开，或者将违禁关键词替换为谐音或字形相似的字词，来规避异常检查。而该实施例通过智能识别无意义字符和错误字符，来准确和全面识别各种含有违禁词的用户生成内容，进行有效拦截或删减。违禁词可以是涉及到赌博、营销推广、暴力恐怖、色情、虚假评论等方面的违禁词。可以预先设置违禁词库，在其中不仅存储有各种违禁词，并且还存储有各种违禁词的谐音变形、相似字形变形等等。

该实施例运用业务数据来确定虚假评论/违法违禁词等行为，避免了单纯通过请求的关键字去甄别，相比较于传统方法只需要稍微变更一下关键字就完全无法识别的情况，大大的提高了识别率以及降低了人工成本。该实施例首先通过业务数据判断用户的异常等级，然后再进行文本的二次判断或直接拒绝。传统方案是通过每次的文本信息来单点判断，相比之下，这个方案极大的提高了恶意判断覆盖面，形成业务数据+文本数据的多点判断。

进一步地，在接收到用户生成内容请求时，还包括如下步骤：

判断发起用户生成内容请求的用户是否为预设白名单用户，如果是，则允许执行该用户生成内容请求，否则根据发起请求用户的异常等级处理该用户生成内容请求。白名单可以是各个商户自己定义的白名单，其中存储有允许用户生成内容请求的用户的信息。该信息可以对应于上面所述属性数据中的至少一种。即可以根据发起用户生成内容请求的用户的账号信息、设备信息、用户身份证明信息、浏览器信息、生物识别信息、IP地址和联系方式中的至少一种判断该用户是否为预设白名单用户。

在判断一用户为白名单用户后，可以直接允许执行该用户发起的用户生成内容请求，而不必再进行风险判断。如果该用户不在白名单上，则可以本发明的异常用户生成内容识别方法进一步判断和处理。这样可以大大减少异常识别的工作量，提高异常识别的效率，对于本身在白名单上的用户来说，发布用户生成内容请求的过程更加的方便快捷。

进一步地，该实施例的基于业务数据的异常用户生成内容识别方法，还可以包括如下步骤：

所述重新判断所对应用户的异常等级，可以采用上述风险判断模型重新判断该用户的异常等级，还可以包括如下步骤：

例如，将多个不同设备信息的用户计算相似度并据此归并为一个用户后，计算该用户更换的设备的数量，如果大于第四预设阈值，如在一天内更换超过十个设备信息，则可以判断该用户为高异常等级。即拦截用户在短时间内更换多个设备或多个IP以刻意规避异常识别的操作。另外，也可以对用户的点评行为、所使用的设备、IP地址、浏览器信息等分别进行计数，当信息所计数字大于设定值时，提高该用户的异常等级。如果该用户的异常等级本身已经是最高了，则维持其当前异常等级。

如图5所示，为本发明的基于业务数据的异常用户生成内容识别方法应用于一具体实例的示意图。该实例中，异常用户生成内容识别方法包括如下步骤：

(1)实时获取全站的相关业务日志(包含登录、注册、评论、点赞等)，即对应所有用户的业务数据，根据业务数据归并同一用户，并根据各个用户的业务数据判断用户的异常等级；

在该实例中，用户的异常等级示例性地分为三种：高异常等级、普通异常等级和低异常等级。

(2)建立IP地址和用户名、设备号白名单信息库，此信息库为允许做相关点评等业务请求的特殊白名单。该白名单可以由商户自己定义。

(3)接收到用户生成内容请求，对发起该请求的用户进行具体分析；

(4)获取发起用户生成内容请求的用户的业务数据，判断其IP地址、用户名、设备号等信息是否在白名单内，若是，则结束当前流程，若不是，则跳转下一步；

(5)通过上面计算出来的用户的异常等级，如果异常等级较高，则自动拒绝或者标记这个设备、IP地址、用户名的具体风险等级和属性，返回给业务方，不需要再进行内容关键字等审核。如果异常等级较低，则进行用户生成内容的文本检查，首先去除无意义字符和修正错误字符，然后检查是否存在违禁字，对违禁字进行处理；

(6)每个5分钟，重新获取一次业务数据，更新现有的业务数据，每隔30分钟，每个判定过异常的设备、IP地址、用户名数据会重新获取一次当前的风险程度，如果风险已经降低，则根据规则相应降低他的风险判断，进入文本解析流程，假设升高，则维持或者升高当前的风险策略；此处5分钟即对应第一预设时间，30分钟即对应第二预设时间，在具体应用中，可以根据需要调节，也可以将第一预设时间和第二预设时间设为相同；

(7)把异常情况记录抛送日志，以便事后分析观察，可以分析出具体高危词组，IP地址分布区域以及相关高风险产品，便于针对性的制定安全策略，进行默认对这部分高危情况的自动以及人工用户生成内容处理策略调整。

图5中示出的仅为一个具体应用实例。在实际应用中，还可以根据需要进行调整，而不以此处示出的内容为限。

以上内容是结合具体的优选实施方式对本发明所作的进一步详细说明，不能认定本发明的具体实施只局限于这些说明。对于本发明所属技术领域的普通技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单推演或替换，都应当视为属于本发明的保护范围。

Claims

1.一种基于业务数据的异常用户生成内容识别方法，其特征在于，包括如下步骤：

采集所有用户的业务数据；

接收到用户生成内容请求时，根据发起请求用户的异常等级所对应的请求处理方式，处理该用户生成内容请求。

2.根据权利要求1所述的基于业务数据的异常用户生成内容识别方法，其特征在于，所述业务数据包括属性数据和操作数据，所述属性数据包括多个属性和与所述多个属性相对应的多个属性值。

3.根据权利要求2所述的基于业务数据的异常用户生成内容识别方法，其特征在于，计算各个用户的业务数据之间的相似程度时，统计每两个用户之间属性和所对应的属性值均相同的属性个数，如果相同的属性个数大于或等于第一预设阈值，则对应的两个用户归并为同一用户，否则对应的两个用户确定为两个不同的用户。

4.根据权利要求2所述的基于业务数据的异常用户生成内容识别方法，其特征在于，计算各个用户的业务数据之间的相似程度时，对每个属性设置一权值，统计每两个用户之间属性和所对应属性值均相同的属性，将相同的属性加权计算得到相似度值，如果该相似度值大于第二预设阈值，则对应的两个用户归并为同一用户，否则对应的两个用户确定为两个不同的用户。

5.根据权利要求2至4中任一项所述的基于业务数据的异常用户生成内容识别方法，其特征在于，所述属性数据包括所对应用户的账号信息、设备信息、用户身份证明信息、浏览器信息、生物识别信息、IP地址和联系方式中的至少一种。

6.根据权利要求2所述的基于业务数据的异常用户生成内容识别方法，其特征在于，所述操作数据包括用户的业务操作信息和用户生成文本信息；

7.根据权利要求6所述的基于业务数据的异常用户生成内容识别方法，其特征在于，所述异常等级包括高异常等级、普通异常等级和低异常等级；所述处理该用户生成内容请求，包括如下步骤：

8.根据权利要求7所述的基于业务数据的异常用户生成内容识别方法，其特征在于，所述风险判断模型中包括多种用户类型，针对各种用户类型，所述风险判断模型中设定有各种用户类型下各种异常等级所对应的业务数据条件；

所述判断所对应用户的异常等级，包括如下步骤：

根据所述用户生成文本信息中的关键字判断用户类型；

9.根据权利要求8所述的基于业务数据的异常用户生成内容识别方法，其特征在于，所述用户类型包括商户用户和消费用户，所述异常等级包括高异常等级、普通异常等级和低异常等级；

所述判断用户类型，包括如下步骤：

所述确定用户的异常等级，包括如下步骤：

10.根据权利要求7所述的基于业务数据的异常用户生成内容识别方法，其特征在于，所述处理该用户生成内容请求，还包括如下步骤：

11.根据权利要求10所述的基于业务数据的异常用户生成内容识别方法，其特征在于，判断该文本信息中是否存在预设违禁关键字之前，还包括如下步骤：

12.根据权利要求1所述的基于业务数据的异常用户生成内容识别方法，其特征在于，接收到用户生成内容请求时，还包括如下步骤：

13.根据权利要求12所述的基于业务数据的异常用户生成内容识别方法，其特征在于，根据发起用户生成内容请求的用户的账号信息、设备信息、用户身份证明信息、浏览器信息、生物识别信息、IP地址和联系方式中的至少一种判断该用户是否为预设白名单用户。

14.根据权利要求1所述的基于业务数据的异常用户生成内容识别方法，其特征在于，还包括如下步骤：

15.根据权利要求14所述的基于业务数据的异常用户生成内容识别方法，其特征在于，所述重新判断所对应用户的异常等级，包括如下步骤：

16.一种基于业务数据的异常用户生成内容识别系统，其特征在于，包括：

数据采集模块，采集所有用户的业务数据；

处理器；以及

所述计算机程序被所述处理器运行时执行如下步骤：

17.根据权利要求16所述的基于业务数据的异常用户生成内容识别方法，其特征在于，所述业务数据包括属性数据和操作数据，所述属性数据包括多个属性和与所述多个属性相对应的多个属性值；

18.根据权利要求16所述的基于业务数据的异常用户生成内容识别方法，其特征在于，所述计算机程序被所述处理器运行时还执行如下步骤：