CN101616101B

CN101616101B - 一种用户信息过滤方法及装置

Info

Publication number: CN101616101B
Application number: CN200810126362XA
Authority: CN
Inventors: 杨俊杰; 张振宇; 张正华; 倪良
Original assignee: Alibaba Group Holding Ltd
Current assignee: Alibaba Group Holding Ltd
Priority date: 2008-06-26
Filing date: 2008-06-26
Publication date: 2012-01-18
Anticipated expiration: 2028-06-26
Also published as: EP2291734A1; JP5453410B2; WO2009158593A1; US20140188913A1; US8725746B2; US9201953B2; HK1138957A1; US20110010374A1; JP2011526393A; CN101616101A; EP2291734A4

Abstract

本发明公开了一种用户信息过滤方法，包括以下步骤：设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系；获取目标用户的关键词及特征数据；根据所述目标用户的关键字及特征数据查找所述对应关系中的过滤方式，根据所述过滤方式对所述目标用户信息进行过滤。本发明采用了根据具体关键词和用户特征数据等对目标用户进行判断的方法，可以从用户行为的多个角度对用户行为特征进行判断，并根据不同的目标用户采用不同的处理方式，提高了目标用户信息识别的准确率，增强了用户信息安全机制。

Description

一种用户信息过滤方法及装置

技术领域

本发明涉及网络信息安全技术领域，特别是涉及一种用户信息过滤方法及装置。

背景技术

随着科学技术飞速的发展，经济和社会都取得了极大的进步，与此同时，在各个领域产生了大量的数据，如人类对太空的探索，银行每天的巨额交易数据。如何处理这些数据得到有益的信息，人们进行了有益的探索。计算机技术的迅速发展使得处理数据成为可能，这就推动了数据库技术的极大发展，但是面对不断增加的数据，人们不再满足于数据库的查询功能，提出了深层次问题：能不能从数据中提取信息或者知识进行决策服务。就数据库技术而言已经显得无能为力了，同样，传统的统计技术也面临了极大的挑战。这就急需有新的方法来处理这些海量般的数据。

用户通过互联网传递信息的形式越来越广泛，如，通过即时通讯工具、邮件传送各类信息或者在网络论坛上发布信息。然而，该类信息中有些信息是用户不希望接收到或法律禁止发布的，因此需要对该类信息进行过滤。目前，用户信息过滤的方法是直接根据关键词来判断，当用户信息出现了相应的关键词，就判断用户为目标用户。

但现有技术方案只利用关键词对信息进行匹配，无法从其他角度上去分析信息或用户的特征，会导致很高的误抓率。例如，如果“领奖”是虚假中奖信息的关键词，那么到用户在聊天中出现类似于“今天我去领奖”时，系统就会错误地判断用户发送的是虚假中奖信息，将该用户信息过滤掉，导致用户无法正常进行聊天、发表评论等相关操作。

发明内容

本发明提供一种用户信息过滤方法及装置，不仅考虑用户信息中所含的具体关键词，而且考虑跟用户相关的特征数据(例如，用户行为数据等)，可以从用户行为的多个角度去判断，从而判断目标用户的特征，并根据不同的目标用户采用不同的处理方式，提高了目标用户信息识别的准确率，增强了用户信息安全机制。

本发明提出了一种用户信息过滤方法，包括以下步骤：

设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系；

获取目标用户的关键词及特征数据；

根据所述目标用户的关键词及特征数据查找所述对应关系中的过滤方式，根据所述过滤方式对所述目标用户信息进行过滤。

其中，所述设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系具体包括：

设定目标用户所发送信息的关键词和特征数据；

根据所述关键词和特征数据，生成所述目标用户的特征参数；

过滤所述特征参数中的不规则数值；

根据所述过滤后的特征参数，生成对所述目标用户信息的过滤方式。

其中，所述根据所述关键词和特征数据，生成所述目标用户的特征参数具体包括：

识别所述关键词和特征数据中的有效数据；

根据所述有效数据，选择所述目标用户中的样本用户；

根据所述样本用户的特征数据，获取所述目标用户的特征参数。

其中，所述特征参数包括：汇总变量、比例变量和均值变量；

所述根据样本用户的特征数据，获取所述目标用户的特征参数，具体包括：

获取所述特征数据的出现总量，生成所述目标用户的汇总变量；

获取包含所述特征数据的信息的接收或发送比例，生成所述目标用户的比例变量；

计算所述特征数据的平均出现数量，生成所述目标用户的均值变量。

其中，所述过滤特征参数中的不规则数值，具体包括：

替换所述特征参数中的缺失值为替换值；及

替换所述特征参数中的不符合格式规则的数值为规则数值。

其中，所述根据所述过滤后的特征参数，生成对所述目标用户信息的过滤方式具体为：

在所述过滤后的特征参数中选择一个或多个特征参数为规则生成参数；

通过调整过滤方式，根据所述规则生成参数，生成多个过滤方式；

在所述多个过滤方式中，选择准确率最高的过滤方式为所述目标用户的过滤方式。

其中，所述根据所述目标用户的关键词及特征数据查找所述对应关系中的过滤方式之后还包括：

根据所述目标用户的过滤方式，为所述目标用户计分，当所述用户的计分值超过预设的阈值时，则根据所述过滤方式对所述目标用户信息进行过滤。

其中，所述特征数据，包括用户行为数据、用户信息数据和网络特征数据，具体为：

所述用户行为数据，包括以下信息中的一种或几种：用户在限定时间内所发送的信息中特征词组的出现频率、所述用户发送或接收信息的次数、和所述用户发送或接收信息的信息量；

所述用户信息数据，包括以下信息中的一种或几种：用户初次登录时间、所述用户登陆后的活跃度、和所述用户所具有的联系人数量；

所述网络特征数据，包括以下信息中的一种或几种：同一IP中的用户ID数量和同一机器码中的用户ID数。

本发明还提供了一种用户信息过滤装置，包括：

设置模块，用于设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系；

获取模块，用于获取目标用户的关键词及特征数据；

过滤模块，用于根据所述目标用户的关键词及特征数据查找所述对应关系中的过滤方式，根据所述过滤方式对所述目标用户信息进行过滤。

其中，所述设置模块具体包括：

参数生成子模块，用于设定目标用户所发送信息的关键词和特征数据，并根据所述关键词和特征数据，生成所述目标用户的特征参数；

第一过滤子模块，用于过滤所述参数生成模块生成的特征参数中的不规则数值；

规则生成子模块，用于根据所述过滤模块过滤后的特征参数，生成对所述目标用户信息的过滤方式。

其中，所述参数生成子模块具体包括：

识别单元，用于识别所述特征数据中的有效数据；

选择单元，用于根据所述识别单元识别的有效数据，选择所述目标用户中的样本用户；

计算单元，用于根据所述选择单元所选择的样本用户的特征数据，计算所述目标用户的特征参数。

其中，所述过滤子模块具体包括：

第一过滤单元，用于替换所述特征参数中的缺失值为替换值；

第二过滤单元，用于替换所述特征参数中的不符合格式规则的数值为规则数值。

其中，所述规则生成子模块，具体包括：

参数选择单元，用于在所述过滤模块过滤后的特征参数中选择一个或多个特征参数为规则生成参数；

规则计算单元，通过调整过滤方式，根据所述参数选择子模块所选择的规则生成参数，生成多个过滤方式；

规则选择单元，用于在所述规则计算单元生成的多个过滤方式中，选择准确率最高的过滤方式为所述目标用户的过滤方式。

其中，过滤模块具体包括：

查找子模块，用于根据所述目标用户的关键词及特征数据查找所述对应关系中的过滤方式，

第二过滤子模块，用于根据所述过滤方式对所述目标用户信息进行过滤。

其中，过滤模块还包括：

判断模块，用于根据所述目标用户的过滤方式，为所述目标用户计分，当所述用户的计分值超过预设的阈值时，触发所述过滤模块。

与现有技术相比，本发明具有以下优点：

本发明采用了根据具体关键词和用户特征数据等对目标用户进行判断的方法，可以从用户行为的多个角度对用户行为特征进行判断，并根据不同的目标用户采用不同的处理方式，提高了目标用户信息识别的准确率，增强了用户信息安全机制。

附图说明

图1为本发明中一种用户信息过滤方法的流程图；

图2为本发明中设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系具体流程图；

图3为本发明中一种用户信息过滤方法的流程图；

图4为本发明中一种用户信息过滤装置结构图。

具体实施方式

本发明提供一种用户信息过滤方法及装置，不仅考虑用户信息中所含的具体关键词，而且考虑跟用户相关的其他信息，通过应用本发明所生成的过滤方式可以从用户行为的多个角度去判断，从而判断目标用户(指发送用户不愿接受信息的用户或者法律禁止发布信息的用户)的特征，并给于不同的处理，提高了目标用户识别的准确率，增强了信息安全机制。

本发明提供了一种用户信息过滤方法，如图1所示，包括以下步骤：

步骤101，设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系。其中，过滤方式可以为利用某个或某几个关键词出现的次数过滤，例如，当关键词A出现N(N＞＝1)次，则对来自该用户的信息进行过滤。该过滤方式中包括关键词与过滤条件(关键词出现的次数)的对应关系。

步骤102，获取目标用户的关键词及特征数据。

步骤103，根据所述目标用户的关键字及特征数据查找所述对应关系中的过滤方式，根据所述过滤方式对所述目标用户信息进行过滤。

其中，步骤101具体包括以下步骤，如图2所示：

步骤201、设定目标用户所发送信息的特征数据。其中，特征数据包括：

用户行为数据，包括以下信息中的一种或几种：用户在限定时间内所发送的信息中特征词组的出现频率，用户发送/接收信息的次数，和用户发送/接收信息的信息量；

用户信息数据，包括以下信息中的一种或几种：用户初次登录时间，用户登陆后的活跃度，和用户所具有的联系人数量；

网络特征数据，包括以下信息中的一种或几种：同一IP中的用户ID数量，和同一机器码中的用户ID数。

步骤202、根据特征数据，生成目标用户的特征参数，具体的生成流程包括：

识别特征数据中的有效数据，即在获得足够的数据之后，还需要对数据进行必要的清洗，剔除掉一部分字段或者记录。例如，根据用户需求，设置数据中某些内容为必要的，而另一些内容为非必要的，对这些非必要的数据内容进行删除，使数据中只保留必要的数据内容。

根据有效数据，选择目标用户中的样本用户。即将商业目标转换模型目标，抽样提取的信息记录，确定规则模型的建模目标用户，其中，信息记录指用户发送或发布的信息状态。

根据样本用户的特征数据，获取目标用户的特征参数，该特征参数为目标用户所具有的特定属性，例如文本中的繁简体、大小写、全角半角状态等。根据模型目标，利用现有数据获取衍生变量，从更全面的角度理解客户行为，该衍生变量是根据多个特征数据进行组合运算获得的变量。获取过程包括：计算特征数据的出现总量，生成目标用户的汇总变量，该汇总变量是对所有特征数据的统计结果；计算包含特征数据的信息的接收/发送比例，生成目标用户的比例变量，该比例变量体现了目标用户中特征数据各种状态比例关系；计算特征数据的平均出现数量，生成目标用户的均值变量，该均值变量体现了目标用户中特征数据单位时间内出现的平均数量。

步骤203、过滤特征参数中的不规则数值。

寻找需要清洗的变量和对缺失值进行替换，具体的过滤流程包括：

替换特征参数中的缺失值为替换值，其中包含设定数据的缺失值的替换原则，如将所有缺失值用数值0替换。

替换特征参数中的不符合格式规则的数值为规则数值，如将所有的文本消息进行繁简体、大小写、全角半角转换。

步骤204、根据过滤后的特征参数，生成对目标用户的过滤方式。

通过上述的步骤，具备了符合要求的数据之后就进入到了建立模型的阶段。建立模型包括选择合适的算法、选择合适的参数、制定模型验证方案、数据抽样计划、模型参数设定等工作。具体为：

在过滤后的特征参数中选择一个或多个特征参数为规则生成参数；

通过调整过滤方式，根据规则生成参数，生成多个过滤方式；

通过测试，在多个过滤方式中，选择准确率最高的过滤方式为目标用户的过滤方式。

建立模型和数据准备是一个交互的过程：建立模型的初步结果会对数据准备产生新的需求，而数据准备的结果直接影响模型的构建。

通过上述的流程，生成了对目标用户的规律规则，而进一步的，在实际应用中，系统根据该目标用户的过滤方式，为用户计分，当用户的计分值超过预设的阈值时，对该用户信息进行过滤，实现对网络安全的监控和保证。

这样的过滤方式，同样可以使用于邮件、论坛和即时通讯软件等可以实现信息通信的网络交互过程的信息过滤工作中，这同样属于本发明的保护范围。

下面结合附图和实施例，对本发明的具体实施方式作进一步详细描述：

如图3所示，以对发布黄色信息的用户进行过滤为例，对用户信息过滤方法的流程进行说明，系统通过分析用户的聊天信息，探寻发布黄色信息的用户所发送信息中蕴含的模型，通过数据挖掘模型获取这些模式，然后利用生成模式生成对发布黄色信息的用户的过滤方式，实现对该类型用户信息的监控。

具体过程如下：

步骤301、通过分析，设定目标用户的特征数据。

上述的特征数据包括用户行为数据、用户信息数据和网络特征数据，具体设定的范围和结果如下：

1、用户行为数据的设定，包括：

(1)目录、电影、视频、影视、动画、卡通、图片、表演、观看、下载、在线、黄色、情色、色情、激情、成人、伦理、女优、经典、三级、A片、无码、清晰、AV等关键词出现的频次。

(2)用户发送信息的次数和字节数。

(3)用户接收信息的次数和字节数。

(4)用户向陌生人发送信息的次数。

2、用户信息数据的设定范围包括：

(1)用户第一次登录的时间；

(2)用户的活跃度；

(3)用户的好友数。

3、网络特征数据的设定范围包括：

(1)同IP上的用户数；

(2)同MAC地址上的用户数。

完成设定后，根据所设定的特征数据，生成对目标用户(即发送黄色信息的用户)的特征参数，即用户反应用户是否发送黄色信息。通过分析和筛选找到建模需要的用户。具体过程如下：

步骤302、识别特征数据中的有效数据，剔除无效变量和观测。

如，根据现有技术，用户添加的好友数和用户向陌生人发送信息的次数数据目前尚无法提取，所以，在特征数据的设定结果中提出此内容对应的选项。

步骤303、选择样本用户，确定目标对象。

将发送黄色信息的用户确定为模型目标，抽样提取该类型用户的信息通信记录，如聊天记录、留言记录和邮件记录等数据，确定模型的建模目标用户。

步骤304、计算衍生变量。

根据模型目标，利用上述获得的数据计算衍生变量，从更全面的角度理解客户行为。在本实施例中，建模使用的衍生变量主要有三类：汇总变量、比例变量、均值变量，具体如下：

1、汇总变量

关键词出现的种类数。例如：如果信息中含AV、女优、三级关键词，则汇总数据为3，即出现了三类关键词。

关键词分组。例如：把观看、下载、在线等关键词分到一个同质组中，并计算它们的出现的总次数。

2、发送和接收的比例

例如：发送信息次数和接收信息次数的比例、发送信息字节数和接收字节数的比例。

3、均值变量

例如：每类关键词平均出现次数，即该关键词出现次数除以总的关键词出现次数。

步骤305、对特征参数进行内容过滤。

对于含有缺失值的变量，根据数据的缺失值的替换原则进行替换，如所有缺失值用数值0替换；

对与文本信息，数据的清洗是将所有的文本消息进行了繁简体、大小写、全角半角转换。具体如表1所示：

表1替换内容对照

電	电
		觀	观
畫	画
		黄	黄
級	级
		經	经
錄	录

倫	伦
			頻	频
視	视
			圖	图
無	无
			線	线
優	优
			載	载
V	V	全角半角转换

步骤306、根据过滤后的特征参数，生成对目标用户的过滤方式。

有了特征参数的准备之后就进入到了建立模型的阶段。

建立模型包括选择合适的算法、选择合适的参数、制定模型验证方案、数据抽样计划、模型参数设定等工作。

同时，由于特征参数和模型算法的变化，可以产生多个规律模型计算结果，为了在多个结果中选择最准确的一个模型作为最终的目标用户过滤方式，还可以进行模型过滤测试，如模型预测结果如表2所示：

表2模型测试结果统计

	预测不成立	预测成立
			实际不成立	896	87
实际成立	173	423

则根据表2的数据，计算模型的准确率为：

(预测成立且实际成立+预测不成立且实际不成立)／总样本数=(423+896)／(896+423+87+173)=83．5％。

根据上述计算结果，判断该模型准确率满足要求，从而在所有满足准确率要求的模型中选择准确率最高的一个或多个模型，确定为对目标用户的过滤方式，即用于对发布黄色信息的用户进行过滤。

通过应用本发明，实现了对信息通信记录的分时监测和收集，在后台通过数据挖掘模型，给每个用户评分，当用户的分值超过设定的阈值，系统就认为本用户发送了黄色信息，然后采取相应的处理控制措施，对用户进行相应的处罚，如将该用户列入监控系统，然后由网络安全监管人员从业务的角度判断该进入监控系统的用户是否满足处罚条件，并在满足处罚条件时进行相应处罚。

本发明提供了一种用户信息过滤装置，如图4所示，包括：设置模块100，用于设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系；获取模块200，用于获取目标用户的关键词及特征数据；过滤模块300，用于根据所述目标用户的关键字及特征数据查找所述对应关系中的过滤方式，根据所述过滤方式对所述目标用户信息进行过滤。

设置模块100具体包括：参数生成子模块110，用于设定目标用户所发送信息的关键词和特征数据，并根据所述关键词和特征数据，生成所述目标用户的特征参数；过滤子模块120，用于过滤所述参数生成模块生成的特征参数中的不规则数值；规则生成子模块130，用于根据所述过滤模块过滤后的特征参数，生成对所述目标用户信息的过滤方式。

其中，参数生成子模块110具体包括：识别单元，用于识别所述特征数据中的有效数据；选择单元，用于根据所述识别单元识别的有效数据，选择所述目标用户中的样本用户；计算单元，用于根据所述选择单元所选择的样本用户的特征数据，计算所述目标用户的特征参数。

过滤子模块120具体包括：第一过滤单元，用于替换所述特征参数中的缺失值为替换值；第二过滤单元，用于替换所述特征参数中的不符合格式规则的数值为规则数值。

规则生成子模块130具体包括：参数选择单元，用于在所述过滤模块过滤后的特征参数中选择一个或多个特征参数为规则生成参数；规则计算单元，通过调整过滤方式，根据所述参数选择子模块所选择的规则生成参数，生成多个过滤方式；规则选择单元，用于在所述规则计算单元生成的多个过滤方式中，选择准确率最高的过滤方式为所述目标用户的过滤方式。

过滤模块300具体包括：查找子模块310，用于根据所述目标用户的关键字及特征数据查找所述对应关系中的过滤方式，过滤子模块320，用于根据所述过滤方式对所述目标用户信息进行过滤。

过滤模块300还包括：判断模块330，用于根据所述目标用户的过滤方式，为所述目标用户计分，当所述用户的计分值超过预设的阈值时，触发过滤子模块320。

本发明实施例的技术方案具有以下优点，因为采用了根据具体关键词和其他用户相关信息对用户进行行为判断的目标用户的过滤规则建立方法，从而，可以从用户行为的多个角度对用户行为特征进行判断，并给于相应的处理，达到了提高目标用户识别的准确率，增强信息安全机制的效果。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台终端设备(可以是手机，个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述的方法。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视本发明的保护范围。

Claims

1.一种用户信息过滤方法，其特征在于，包括以下步骤：

获取目标用户的关键词及特征数据；

根据所述目标用户的关键词及特征数据查找所述对应关系中的过滤方式，根据所述过滤方式对所述目标用户信息进行过滤；

设定目标用户所发送信息的关键词和特征数据；

过滤所述特征参数中的不规则数值；

根据所述过滤后的特征参数，生成对所述目标用户信息的过滤方式；

并且，所述根据所述关键词和特征数据，生成所述目标用户的特征参数具体包括：

识别所述关键词和特征数据中的有效数据；

根据所述有效数据，选择所述目标用户中的样本用户；

2.如权利要求1所述用户信息过滤方法，其特征在于，所述特征参数包括：汇总变量、比例变量和均值变量；

3.如权利要求1所述用户信息过滤方法，其特征在于，所述过滤特征参数中的不规则数值，具体包括：

替换所述特征参数中的缺失值为替换值；及

替换所述特征参数中的不符合格式规则的数值为规则数值。

4.如权利要求1所述用户信息过滤方法，其特征在于，所述根据所述过滤后的特征参数，生成对所述目标用户信息的过滤方式具体为：

5.如权利要求1所述用户信息过滤方法，其特征在于，所述根据所述目标用户的关键词及特征数据查找所述对应关系中的过滤方式之后还包括：

6.如权利要求1至5中任一项所述用户信息过滤方法，其特征在于，所述特征数据，包括用户行为数据、用户信息数据和网络特征数据，具体为：

7.一种用户信息过滤装置，其特征在于，包括：

获取模块，用于获取目标用户的关键词及特征数据；

过滤模块，用于根据所述目标用户的关键词及特征数据查找所述对应关系中的过滤方式，根据所述过滤方式对所述目标用户信息进行过滤；

其中，所述设置模块具体包括：

规则生成子模块，用于根据所述过滤模块过滤后的特征参数，生成对所述目标用户信息的过滤方式；

所述参数生成子模块具体包括：

识别单元，用于识别所述特征数据中的有效数据；

8.如权利要求7所述用户信息过滤装置，其特征在于，所述过滤子模块具体包括：

9.如权利要求7所述用户信息过滤装置，其特征在于，所述规则生成子模块，具体包括：

10.如权利要求7所述用户信息过滤装置，其特征在于，过滤模块具体包括：

11.如权利要求10所述用户信息过滤装置，其特征在于，过滤模块还包括：