CN101616101B - 一种用户信息过滤方法及装置 - Google Patents

一种用户信息过滤方法及装置 Download PDF

Info

Publication number
CN101616101B
CN101616101B CN200810126362XA CN200810126362A CN101616101B CN 101616101 B CN101616101 B CN 101616101B CN 200810126362X A CN200810126362X A CN 200810126362XA CN 200810126362 A CN200810126362 A CN 200810126362A CN 101616101 B CN101616101 B CN 101616101B
Authority
CN
China
Prior art keywords
characteristic
targeted customer
user
information
filter type
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN200810126362XA
Other languages
English (en)
Other versions
CN101616101A (zh
Inventor
杨俊杰
张振宇
张正华
倪良
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Alibaba Group Holding Ltd
Original Assignee
Alibaba Group Holding Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority to CN200810126362XA priority Critical patent/CN101616101B/zh
Application filed by Alibaba Group Holding Ltd filed Critical Alibaba Group Holding Ltd
Priority to PCT/US2009/048817 priority patent/WO2009158593A1/en
Priority to EP09771124.6A priority patent/EP2291734A4/en
Priority to US12/667,145 priority patent/US8725746B2/en
Priority to JP2011516705A priority patent/JP5453410B2/ja
Publication of CN101616101A publication Critical patent/CN101616101A/zh
Priority to HK10105487.7A priority patent/HK1138957A1/xx
Application granted granted Critical
Publication of CN101616101B publication Critical patent/CN101616101B/zh
Priority to US14/197,118 priority patent/US9201953B2/en
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/335Filtering based on additional data, e.g. user or group profiles
    • G06F16/337Profile generation, learning or modification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/55Detecting local intrusion or implementing counter-measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/04Real-time or near real-time messaging, e.g. instant messaging [IM]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/02Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
    • H04L63/0227Filtering policies
    • H04L63/0245Filtering by information in the payload

Abstract

本发明公开了一种用户信息过滤方法,包括以下步骤:设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系;获取目标用户的关键词及特征数据;根据所述目标用户的关键字及特征数据查找所述对应关系中的过滤方式,根据所述过滤方式对所述目标用户信息进行过滤。本发明采用了根据具体关键词和用户特征数据等对目标用户进行判断的方法,可以从用户行为的多个角度对用户行为特征进行判断,并根据不同的目标用户采用不同的处理方式,提高了目标用户信息识别的准确率,增强了用户信息安全机制。

Description

一种用户信息过滤方法及装置
技术领域
本发明涉及网络信息安全技术领域,特别是涉及一种用户信息过滤方法及装置。 
背景技术
随着科学技术飞速的发展,经济和社会都取得了极大的进步,与此同时,在各个领域产生了大量的数据,如人类对太空的探索,银行每天的巨额交易数据。如何处理这些数据得到有益的信息,人们进行了有益的探索。计算机技术的迅速发展使得处理数据成为可能,这就推动了数据库技术的极大发展,但是面对不断增加的数据,人们不再满足于数据库的查询功能,提出了深层次问题:能不能从数据中提取信息或者知识进行决策服务。就数据库技术而言已经显得无能为力了,同样,传统的统计技术也面临了极大的挑战。这就急需有新的方法来处理这些海量般的数据。 
用户通过互联网传递信息的形式越来越广泛,如,通过即时通讯工具、邮件传送各类信息或者在网络论坛上发布信息。然而,该类信息中有些信息是用户不希望接收到或法律禁止发布的,因此需要对该类信息进行过滤。目前,用户信息过滤的方法是直接根据关键词来判断,当用户信息出现了相应的关键词,就判断用户为目标用户。 
但现有技术方案只利用关键词对信息进行匹配,无法从其他角度上去分析信息或用户的特征,会导致很高的误抓率。例如,如果“领奖”是虚假中奖信息的关键词,那么到用户在聊天中出现类似于“今天我去领奖”时,系统就会错误地判断用户发送的是虚假中奖信息,将该用户信息过滤掉,导致用户无法正常进行聊天、发表评论等相关操作。 
发明内容
本发明提供一种用户信息过滤方法及装置,不仅考虑用户信息中所含的具体关键词,而且考虑跟用户相关的特征数据(例如,用户行为数据等),可以从用户行为的多个角度去判断,从而判断目标用户的特征,并根据不同的目标用户采用不同的处理方式,提高了目标用户信息识别的准确率,增强了用户信息安全机制。 
本发明提出了一种用户信息过滤方法,包括以下步骤: 
设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系; 
获取目标用户的关键词及特征数据; 
根据所述目标用户的关键词及特征数据查找所述对应关系中的过滤方式,根据所述过滤方式对所述目标用户信息进行过滤。 
其中,所述设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系具体包括: 
设定目标用户所发送信息的关键词和特征数据; 
根据所述关键词和特征数据,生成所述目标用户的特征参数; 
过滤所述特征参数中的不规则数值; 
根据所述过滤后的特征参数,生成对所述目标用户信息的过滤方式。 
其中,所述根据所述关键词和特征数据,生成所述目标用户的特征参数具体包括: 
识别所述关键词和特征数据中的有效数据; 
根据所述有效数据,选择所述目标用户中的样本用户; 
根据所述样本用户的特征数据,获取所述目标用户的特征参数。 
其中,所述特征参数包括:汇总变量、比例变量和均值变量; 
所述根据样本用户的特征数据,获取所述目标用户的特征参数,具体包括: 
获取所述特征数据的出现总量,生成所述目标用户的汇总变量; 
获取包含所述特征数据的信息的接收或发送比例,生成所述目标用户的比例变量; 
计算所述特征数据的平均出现数量,生成所述目标用户的均值变量。 
其中,所述过滤特征参数中的不规则数值,具体包括: 
替换所述特征参数中的缺失值为替换值;及 
替换所述特征参数中的不符合格式规则的数值为规则数值。 
其中,所述根据所述过滤后的特征参数,生成对所述目标用户信息的过滤方式具体为: 
在所述过滤后的特征参数中选择一个或多个特征参数为规则生成参数; 
通过调整过滤方式,根据所述规则生成参数,生成多个过滤方式; 
在所述多个过滤方式中,选择准确率最高的过滤方式为所述目标用户的过滤方式。 
其中,所述根据所述目标用户的关键词及特征数据查找所述对应关系中的过滤方式之后还包括: 
根据所述目标用户的过滤方式,为所述目标用户计分,当所述用户的计分值超过预设的阈值时,则根据所述过滤方式对所述目标用户信息进行过滤。 
其中,所述特征数据,包括用户行为数据、用户信息数据和网络特征数据,具体为: 
所述用户行为数据,包括以下信息中的一种或几种:用户在限定时间内所发送的信息中特征词组的出现频率、所述用户发送或接收信息的次数、和所述用户发送或接收信息的信息量; 
所述用户信息数据,包括以下信息中的一种或几种:用户初次登录时间、所述用户登陆后的活跃度、和所述用户所具有的联系人数量; 
所述网络特征数据,包括以下信息中的一种或几种:同一IP中的用户ID数量和同一机器码中的用户ID数。 
本发明还提供了一种用户信息过滤装置,包括: 
设置模块,用于设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系; 
获取模块,用于获取目标用户的关键词及特征数据; 
过滤模块,用于根据所述目标用户的关键词及特征数据查找所述对应关系中的过滤方式,根据所述过滤方式对所述目标用户信息进行过滤。 
其中,所述设置模块具体包括: 
参数生成子模块,用于设定目标用户所发送信息的关键词和特征数据,并根据所述关键词和特征数据,生成所述目标用户的特征参数; 
第一过滤子模块,用于过滤所述参数生成模块生成的特征参数中的不规则数值; 
规则生成子模块,用于根据所述过滤模块过滤后的特征参数,生成对所述目标用户信息的过滤方式。 
其中,所述参数生成子模块具体包括: 
识别单元,用于识别所述特征数据中的有效数据; 
选择单元,用于根据所述识别单元识别的有效数据,选择所述目标用户中的样本用户; 
计算单元,用于根据所述选择单元所选择的样本用户的特征数据,计算所述目标用户的特征参数。 
其中,所述过滤子模块具体包括: 
第一过滤单元,用于替换所述特征参数中的缺失值为替换值; 
第二过滤单元,用于替换所述特征参数中的不符合格式规则的数值为规则数值。 
其中,所述规则生成子模块,具体包括: 
参数选择单元,用于在所述过滤模块过滤后的特征参数中选择一个或多个特征参数为规则生成参数; 
规则计算单元,通过调整过滤方式,根据所述参数选择子模块所选择的规则生成参数,生成多个过滤方式; 
规则选择单元,用于在所述规则计算单元生成的多个过滤方式中,选择准确率最高的过滤方式为所述目标用户的过滤方式。 
其中,过滤模块具体包括: 
查找子模块,用于根据所述目标用户的关键词及特征数据查找所述对应关系中的过滤方式, 
第二过滤子模块,用于根据所述过滤方式对所述目标用户信息进行过滤。 
其中,过滤模块还包括: 
判断模块,用于根据所述目标用户的过滤方式,为所述目标用户计分,当所述用户的计分值超过预设的阈值时,触发所述过滤模块。 
与现有技术相比,本发明具有以下优点: 
本发明采用了根据具体关键词和用户特征数据等对目标用户进行判断的方法,可以从用户行为的多个角度对用户行为特征进行判断,并根据不同的目标用户采用不同的处理方式,提高了目标用户信息识别的准确率,增强了用户信息安全机制。 
附图说明
图1为本发明中一种用户信息过滤方法的流程图; 
图2为本发明中设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系具体流程图; 
图3为本发明中一种用户信息过滤方法的流程图; 
图4为本发明中一种用户信息过滤装置结构图。 
具体实施方式
本发明提供一种用户信息过滤方法及装置,不仅考虑用户信息中所含的具体关键词,而且考虑跟用户相关的其他信息,通过应用本发明所生成的过滤方式可以从用户行为的多个角度去判断,从而判断目标用户(指发送用户不愿接受信息的用户或者法律禁止发布信息的用户)的特征,并给于不同的处理,提高了目标用户识别的准确率,增强了信息安全机制。 
本发明提供了一种用户信息过滤方法,如图1所示,包括以下步骤: 
步骤101,设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系。其中,过滤方式可以为利用某个或某几个关键词出现的次数过滤,例如,当关键词A出现N(N>=1)次,则对来自该用户的信息进行过滤。该过滤方式中包括关键词与过滤条件(关键词出现的次数)的对应关系。 
步骤102,获取目标用户的关键词及特征数据。 
步骤103,根据所述目标用户的关键字及特征数据查找所述对应关系中的过滤方式,根据所述过滤方式对所述目标用户信息进行过滤。 
其中,步骤101具体包括以下步骤,如图2所示: 
步骤201、设定目标用户所发送信息的特征数据。其中,特征数据包括: 
用户行为数据,包括以下信息中的一种或几种:用户在限定时间内所发送的信息中特征词组的出现频率,用户发送/接收信息的次数,和用户发送/接收信息的信息量; 
用户信息数据,包括以下信息中的一种或几种:用户初次登录时间,用户登陆后的活跃度,和用户所具有的联系人数量; 
网络特征数据,包括以下信息中的一种或几种:同一IP中的用户ID数量,和同一机器码中的用户ID数。 
步骤202、根据特征数据,生成目标用户的特征参数,具体的生成流程包括: 
识别特征数据中的有效数据,即在获得足够的数据之后,还需要对数据进行必要的清洗,剔除掉一部分字段或者记录。例如,根据用户需求,设置数据中某些内容为必要的,而另一些内容为非必要的,对这些非必要的数据内容进行删除,使数据中只保留必要的数据内容。 
根据有效数据,选择目标用户中的样本用户。即将商业目标转换模型目标,抽样提取的信息记录,确定规则模型的建模目标用户,其中,信息记录指用户发送或发布的信息状态。 
根据样本用户的特征数据,获取目标用户的特征参数,该特征参数为目标用户所具有的特定属性,例如文本中的繁简体、大小写、全角半角状态等。根据模型目标,利用现有数据获取衍生变量,从更全面的角度理解客户行为,该衍生变量是根据多个特征数据进行组合运算获得的变量。获取过程包括:计算特征数据的出现总量,生成目标用户的汇总变量,该汇总变量是对所有特征数据的统计结果;计算包含特征数据的信息的接收/发送比例,生成目标用户的比例变量,该比例变量体现了目标用户中特征数据各种状态比例关系;计算特征数据的平均出现数量,生成目标用户的均值变量,该均值变量体现 了目标用户中特征数据单位时间内出现的平均数量。 
步骤203、过滤特征参数中的不规则数值。 
寻找需要清洗的变量和对缺失值进行替换,具体的过滤流程包括: 
替换特征参数中的缺失值为替换值,其中包含设定数据的缺失值的替换原则,如将所有缺失值用数值0替换。 
替换特征参数中的不符合格式规则的数值为规则数值,如将所有的文本消息进行繁简体、大小写、全角半角转换。 
步骤204、根据过滤后的特征参数,生成对目标用户的过滤方式。 
通过上述的步骤,具备了符合要求的数据之后就进入到了建立模型的阶段。建立模型包括选择合适的算法、选择合适的参数、制定模型验证方案、数据抽样计划、模型参数设定等工作。具体为: 
在过滤后的特征参数中选择一个或多个特征参数为规则生成参数; 
通过调整过滤方式,根据规则生成参数,生成多个过滤方式; 
通过测试,在多个过滤方式中,选择准确率最高的过滤方式为目标用户的过滤方式。 
建立模型和数据准备是一个交互的过程:建立模型的初步结果会对数据准备产生新的需求,而数据准备的结果直接影响模型的构建。 
通过上述的流程,生成了对目标用户的规律规则,而进一步的,在实际应用中,系统根据该目标用户的过滤方式,为用户计分,当用户的计分值超过预设的阈值时,对该用户信息进行过滤,实现对网络安全的监控和保证。 
这样的过滤方式,同样可以使用于邮件、论坛和即时通讯软件等可以实现信息通信的网络交互过程的信息过滤工作中,这同样属于本发明的保护范围。 
下面结合附图和实施例,对本发明的具体实施方式作进一步详细描述: 
如图3所示,以对发布黄色信息的用户进行过滤为例,对用户信息过滤方法的流程进行说明,系统通过分析用户的聊天信息,探寻发布黄色信息的用户所发送信息中蕴含的模型,通过数据挖掘模型获取这些模式,然后利用生成模式生成对发布黄色信息的用户的过滤方式,实现对该类型用户信息 的监控。 
具体过程如下: 
步骤301、通过分析,设定目标用户的特征数据。 
上述的特征数据包括用户行为数据、用户信息数据和网络特征数据,具体设定的范围和结果如下: 
1、用户行为数据的设定,包括: 
(1)目录、电影、视频、影视、动画、卡通、图片、表演、观看、下载、在线、黄色、情色、色情、激情、成人、伦理、女优、经典、三级、A片、无码、清晰、AV等关键词出现的频次。 
(2)用户发送信息的次数和字节数。 
(3)用户接收信息的次数和字节数。 
(4)用户向陌生人发送信息的次数。 
2、用户信息数据的设定范围包括: 
(1)用户第一次登录的时间; 
(2)用户的活跃度; 
(3)用户的好友数。 
3、网络特征数据的设定范围包括: 
(1)同IP上的用户数; 
(2)同MAC地址上的用户数。 
完成设定后,根据所设定的特征数据,生成对目标用户(即发送黄色信息的用户)的特征参数,即用户反应用户是否发送黄色信息。通过分析和筛选找到建模需要的用户。具体过程如下: 
步骤302、识别特征数据中的有效数据,剔除无效变量和观测。 
如,根据现有技术,用户添加的好友数和用户向陌生人发送信息的次数数据目前尚无法提取,所以,在特征数据的设定结果中提出此内容对应的选项。 
步骤303、选择样本用户,确定目标对象。 
将发送黄色信息的用户确定为模型目标,抽样提取该类型用户的信息 通信记录,如聊天记录、留言记录和邮件记录等数据,确定模型的建模目标用户。 
步骤304、计算衍生变量。 
根据模型目标,利用上述获得的数据计算衍生变量,从更全面的角度理解客户行为。在本实施例中,建模使用的衍生变量主要有三类:汇总变量、比例变量、均值变量,具体如下: 
1、汇总变量 
关键词出现的种类数。例如:如果信息中含AV、女优、三级关键词,则汇总数据为3,即出现了三类关键词。 
关键词分组。例如:把观看、下载、在线等关键词分到一个同质组中,并计算它们的出现的总次数。 
2、发送和接收的比例 
例如:发送信息次数和接收信息次数的比例、发送信息字节数和接收字节数的比例。 
3、均值变量 
例如:每类关键词平均出现次数,即该关键词出现次数除以总的关键词出现次数。 
步骤305、对特征参数进行内容过滤。 
对于含有缺失值的变量,根据数据的缺失值的替换原则进行替换,如所有缺失值用数值0替换; 
对与文本信息,数据的清洗是将所有的文本消息进行了繁简体、大小写、全角半角转换。具体如表1所示: 
表1替换内容对照 
  電   电  
  觀   观  
  畫   画  
  黄   黄  
  級   级  
  經   经  
  錄   录  
  倫   伦  
  頻   频  
  視   视  
  圖   图  
  無   无  
  線   线  
  優   优  
  載   载  
  V   V 全角半角转换
步骤306、根据过滤后的特征参数,生成对目标用户的过滤方式。 
有了特征参数的准备之后就进入到了建立模型的阶段。 
建立模型包括选择合适的算法、选择合适的参数、制定模型验证方案、数据抽样计划、模型参数设定等工作。 
建立模型和数据准备是一个交互的过程:建立模型的初步结果会对数据准备产生新的需求,而数据准备的结果直接影响模型的构建。 
同时,由于特征参数和模型算法的变化,可以产生多个规律模型计算结果,为了在多个结果中选择最准确的一个模型作为最终的目标用户过滤方式,还可以进行模型过滤测试,如模型预测结果如表2所示: 
表2模型测试结果统计 
      预测不成立     预测成立
    实际不成立     896     87
    实际成立     173     423
则根据表2的数据,计算模型的准确率为: 
(预测成立且实际成立+预测不成立且实际不成立)/总样本数=(423+896)/(896+423+87+173)=83.5%。 
根据上述计算结果,判断该模型准确率满足要求,从而在所有满足准确率要求的模型中选择准确率最高的一个或多个模型,确定为对目标用户的过滤方式,即用于对发布黄色信息的用户进行过滤。 
通过应用本发明,实现了对信息通信记录的分时监测和收集,在后台通 过数据挖掘模型,给每个用户评分,当用户的分值超过设定的阈值,系统就认为本用户发送了黄色信息,然后采取相应的处理控制措施,对用户进行相应的处罚,如将该用户列入监控系统,然后由网络安全监管人员从业务的角度判断该进入监控系统的用户是否满足处罚条件,并在满足处罚条件时进行相应处罚。 
本发明提供了一种用户信息过滤装置,如图4所示,包括:设置模块100,用于设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系;获取模块200,用于获取目标用户的关键词及特征数据;过滤模块300,用于根据所述目标用户的关键字及特征数据查找所述对应关系中的过滤方式,根据所述过滤方式对所述目标用户信息进行过滤。 
设置模块100具体包括:参数生成子模块110,用于设定目标用户所发送信息的关键词和特征数据,并根据所述关键词和特征数据,生成所述目标用户的特征参数;过滤子模块120,用于过滤所述参数生成模块生成的特征参数中的不规则数值;规则生成子模块130,用于根据所述过滤模块过滤后的特征参数,生成对所述目标用户信息的过滤方式。 
其中,参数生成子模块110具体包括:识别单元,用于识别所述特征数据中的有效数据;选择单元,用于根据所述识别单元识别的有效数据,选择所述目标用户中的样本用户;计算单元,用于根据所述选择单元所选择的样本用户的特征数据,计算所述目标用户的特征参数。 
过滤子模块120具体包括:第一过滤单元,用于替换所述特征参数中的缺失值为替换值;第二过滤单元,用于替换所述特征参数中的不符合格式规则的数值为规则数值。 
规则生成子模块130具体包括:参数选择单元,用于在所述过滤模块过滤后的特征参数中选择一个或多个特征参数为规则生成参数;规则计算单元,通过调整过滤方式,根据所述参数选择子模块所选择的规则生成参数,生成多个过滤方式;规则选择单元,用于在所述规则计算单元生成的多个过滤方式中,选择准确率最高的过滤方式为所述目标用户的过滤方式。 
过滤模块300具体包括:查找子模块310,用于根据所述目标用户的关键字及特征数据查找所述对应关系中的过滤方式,过滤子模块320,用于根据所述过滤方式对所述目标用户信息进行过滤。 
过滤模块300还包括:判断模块330,用于根据所述目标用户的过滤方式,为所述目标用户计分,当所述用户的计分值超过预设的阈值时,触发过滤子模块320。 
本发明实施例的技术方案具有以下优点,因为采用了根据具体关键词和其他用户相关信息对用户进行行为判断的目标用户的过滤规则建立方法,从而,可以从用户行为的多个角度对用户行为特征进行判断,并给于相应的处理,达到了提高目标用户识别的准确率,增强信息安全机制的效果。 
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台终端设备(可以是手机,个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。 
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的保护范围。 

Claims (11)

1.一种用户信息过滤方法,其特征在于,包括以下步骤:
设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系;
获取目标用户的关键词及特征数据;
根据所述目标用户的关键词及特征数据查找所述对应关系中的过滤方式,根据所述过滤方式对所述目标用户信息进行过滤;
其中,所述设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系具体包括:
设定目标用户所发送信息的关键词和特征数据;
根据所述关键词和特征数据,生成所述目标用户的特征参数;
过滤所述特征参数中的不规则数值;
根据所述过滤后的特征参数,生成对所述目标用户信息的过滤方式;
并且,所述根据所述关键词和特征数据,生成所述目标用户的特征参数具体包括:
识别所述关键词和特征数据中的有效数据;
根据所述有效数据,选择所述目标用户中的样本用户;
根据所述样本用户的特征数据,获取所述目标用户的特征参数。
2.如权利要求1所述用户信息过滤方法,其特征在于,所述特征参数包括:汇总变量、比例变量和均值变量;
所述根据样本用户的特征数据,获取所述目标用户的特征参数,具体包括:
获取所述特征数据的出现总量,生成所述目标用户的汇总变量;
获取包含所述特征数据的信息的接收或发送比例,生成所述目标用户的比例变量;
计算所述特征数据的平均出现数量,生成所述目标用户的均值变量。
3.如权利要求1所述用户信息过滤方法,其特征在于,所述过滤特征参数中的不规则数值,具体包括:
替换所述特征参数中的缺失值为替换值;及
替换所述特征参数中的不符合格式规则的数值为规则数值。
4.如权利要求1所述用户信息过滤方法,其特征在于,所述根据所述过滤后的特征参数,生成对所述目标用户信息的过滤方式具体为:
在所述过滤后的特征参数中选择一个或多个特征参数为规则生成参数;
通过调整过滤方式,根据所述规则生成参数,生成多个过滤方式;
在所述多个过滤方式中,选择准确率最高的过滤方式为所述目标用户的过滤方式。
5.如权利要求1所述用户信息过滤方法,其特征在于,所述根据所述目标用户的关键词及特征数据查找所述对应关系中的过滤方式之后还包括:
根据所述目标用户的过滤方式,为所述目标用户计分,当所述用户的计分值超过预设的阈值时,则根据所述过滤方式对所述目标用户信息进行过滤。
6.如权利要求1至5中任一项所述用户信息过滤方法,其特征在于,所述特征数据,包括用户行为数据、用户信息数据和网络特征数据,具体为:
所述用户行为数据,包括以下信息中的一种或几种:用户在限定时间内所发送的信息中特征词组的出现频率、所述用户发送或接收信息的次数、和所述用户发送或接收信息的信息量;
所述用户信息数据,包括以下信息中的一种或几种:用户初次登录时间、所述用户登陆后的活跃度、和所述用户所具有的联系人数量;
所述网络特征数据,包括以下信息中的一种或几种:同一IP中的用户ID数量和同一机器码中的用户ID数。
7.一种用户信息过滤装置,其特征在于,包括:
设置模块,用于设置用户关键词、特征数据与对目标用户信息的过滤方式的对应关系;
获取模块,用于获取目标用户的关键词及特征数据;
过滤模块,用于根据所述目标用户的关键词及特征数据查找所述对应关系中的过滤方式,根据所述过滤方式对所述目标用户信息进行过滤;
其中,所述设置模块具体包括:
参数生成子模块,用于设定目标用户所发送信息的关键词和特征数据,并根据所述关键词和特征数据,生成所述目标用户的特征参数;
第一过滤子模块,用于过滤所述参数生成模块生成的特征参数中的不规则数值;
规则生成子模块,用于根据所述过滤模块过滤后的特征参数,生成对所述目标用户信息的过滤方式;
所述参数生成子模块具体包括:
识别单元,用于识别所述特征数据中的有效数据;
选择单元,用于根据所述识别单元识别的有效数据,选择所述目标用户中的样本用户;
计算单元,用于根据所述选择单元所选择的样本用户的特征数据,计算所述目标用户的特征参数。
8.如权利要求7所述用户信息过滤装置,其特征在于,所述过滤子模块具体包括:
第一过滤单元,用于替换所述特征参数中的缺失值为替换值;
第二过滤单元,用于替换所述特征参数中的不符合格式规则的数值为规则数值。
9.如权利要求7所述用户信息过滤装置,其特征在于,所述规则生成子模块,具体包括:
参数选择单元,用于在所述过滤模块过滤后的特征参数中选择一个或多个特征参数为规则生成参数;
规则计算单元,通过调整过滤方式,根据所述参数选择子模块所选择的规则生成参数,生成多个过滤方式;
规则选择单元,用于在所述规则计算单元生成的多个过滤方式中,选择准确率最高的过滤方式为所述目标用户的过滤方式。
10.如权利要求7所述用户信息过滤装置,其特征在于,过滤模块具体包括:
查找子模块,用于根据所述目标用户的关键词及特征数据查找所述对应关系中的过滤方式,
第二过滤子模块,用于根据所述过滤方式对所述目标用户信息进行过滤。
11.如权利要求10所述用户信息过滤装置,其特征在于,过滤模块还包括:
判断模块,用于根据所述目标用户的过滤方式,为所述目标用户计分,当所述用户的计分值超过预设的阈值时,触发所述过滤模块。
CN200810126362XA 2008-06-26 2008-06-26 一种用户信息过滤方法及装置 Active CN101616101B (zh)

Priority Applications (7)

Application Number Priority Date Filing Date Title
CN200810126362XA CN101616101B (zh) 2008-06-26 2008-06-26 一种用户信息过滤方法及装置
EP09771124.6A EP2291734A4 (en) 2008-06-26 2009-06-26 FILTERING INFORMATION WITH AID OF TARGETED FILTER SCHEMES
US12/667,145 US8725746B2 (en) 2008-06-26 2009-06-26 Filtering information using targeted filtering schemes
JP2011516705A JP5453410B2 (ja) 2008-06-26 2009-06-26 的を絞ったフィルタリング・スキームを用いる情報のフィルタリング
PCT/US2009/048817 WO2009158593A1 (en) 2008-06-26 2009-06-26 Filtering information using targeted filtering schemes
HK10105487.7A HK1138957A1 (en) 2008-06-26 2010-06-03 Method for filtering user information and device thereof
US14/197,118 US9201953B2 (en) 2008-06-26 2014-03-04 Filtering information using targeted filtering schemes

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN200810126362XA CN101616101B (zh) 2008-06-26 2008-06-26 一种用户信息过滤方法及装置

Publications (2)

Publication Number Publication Date
CN101616101A CN101616101A (zh) 2009-12-30
CN101616101B true CN101616101B (zh) 2012-01-18

Family

ID=41444970

Family Applications (1)

Application Number Title Priority Date Filing Date
CN200810126362XA Active CN101616101B (zh) 2008-06-26 2008-06-26 一种用户信息过滤方法及装置

Country Status (6)

Country Link
US (2) US8725746B2 (zh)
EP (1) EP2291734A4 (zh)
JP (1) JP5453410B2 (zh)
CN (1) CN101616101B (zh)
HK (1) HK1138957A1 (zh)
WO (1) WO2009158593A1 (zh)

Families Citing this family (28)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101616101B (zh) 2008-06-26 2012-01-18 阿里巴巴集团控股有限公司 一种用户信息过滤方法及装置
CN102202036A (zh) * 2010-03-24 2011-09-28 北京创世网赢高科技有限公司 一种信息发布方法
CN102202037A (zh) * 2010-03-24 2011-09-28 北京创世网赢高科技有限公司 一种信息发布系统
CN102279893B (zh) * 2011-09-19 2015-07-22 索意互动(北京)信息技术有限公司 文献群组多对多自动分析
CN102571484B (zh) * 2011-12-14 2014-08-27 上海交通大学 一种检测网络水军以及找到网络水军的方法
US9100366B2 (en) * 2012-09-13 2015-08-04 Cisco Technology, Inc. Early policy evaluation of multiphase attributes in high-performance firewalls
CN103136448B (zh) * 2013-02-02 2015-12-02 深圳先进技术研究院 测量数据处理准确性方法和系统以及数据处理方法和系统
CN103198161B (zh) * 2013-04-28 2018-09-07 中国科学院计算技术研究所 微博水军识别方法与设备
CN104143148A (zh) * 2013-05-07 2014-11-12 苏州精易会信息技术有限公司 一种应用于管理软件系统的广告设置方法
CN103581186B (zh) * 2013-11-05 2016-09-07 中国科学院计算技术研究所 一种网络安全态势感知方法及系统
CN103678700A (zh) * 2013-12-27 2014-03-26 纳容众慧(北京)科技有限公司 网页数据的处理方法和装置
US20150339314A1 (en) * 2014-05-25 2015-11-26 Brian James Collins Compaction mechanism for file system
CN104184653B (zh) * 2014-07-28 2018-03-23 小米科技有限责任公司 一种消息过滤的方法和装置
CN104539514B (zh) * 2014-12-17 2018-07-17 广州酷狗计算机科技有限公司 消息过滤方法和装置
CN104915423B (zh) * 2015-06-10 2018-06-26 深圳市腾讯计算机系统有限公司 获取目标用户的方法和装置
CN105930258B (zh) * 2015-11-13 2019-04-26 中国银联股份有限公司 一种参数过滤的方法及装置
CN106856598B (zh) * 2015-12-08 2020-04-14 中国移动通信集团公司 一种垃圾短信策略的优化方法及系统
CN105608352B (zh) * 2015-12-31 2019-06-25 联想(北京)有限公司 一种信息处理方法和服务器
CN107809368B (zh) * 2016-09-09 2019-01-29 腾讯科技(深圳)有限公司 信息过滤方法及装置
CN106789572B (zh) * 2016-12-19 2019-09-24 重庆博琨瀚威科技有限公司 一种实现自适应消息过滤的即时通讯系统和即时通讯方法
CN108322317B (zh) * 2017-01-16 2022-07-29 腾讯科技(深圳)有限公司 一种账号识别关联方法及服务器
US10681024B2 (en) * 2017-05-31 2020-06-09 Konica Minolta Laboratory U.S.A., Inc. Self-adaptive secure authentication system
US10412032B2 (en) 2017-07-06 2019-09-10 Facebook, Inc. Techniques for scam detection and prevention
CN109840274B (zh) * 2018-12-28 2021-11-30 北京百度网讯科技有限公司 数据处理方法及装置、存储介质
CN109697367B (zh) * 2019-01-09 2021-08-24 腾讯科技(深圳)有限公司 显示区块链数据的方法、区块链浏览器、用户节点和介质
CN111078520B (zh) * 2019-12-17 2023-04-11 四川新网银行股份有限公司 对银行用户界面操作慌忙程度的判断方法
CN112311933B (zh) * 2020-10-27 2021-10-15 杭州天宽科技有限公司 敏感信息屏蔽方法及系统
CN112257048B (zh) * 2020-12-21 2021-10-08 南京韦科韬信息技术有限公司 一种信息安全防护的方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1508721A (zh) * 2002-12-20 2004-06-30 中国科学院计算技术研究所 快速内容分析的多关键词匹配方法
US20070156677A1 (en) * 1999-07-21 2007-07-05 Alberti Anemometer Llc Database access system
US7260837B2 (en) * 2000-03-22 2007-08-21 Comscore Networks, Inc. Systems and methods for user identification, user demographic reporting and collecting usage data usage biometrics

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002024274A (ja) 2000-07-06 2002-01-25 Oki Electric Ind Co Ltd 情報フィルタリング装置及び方法
JP2003067304A (ja) 2001-08-27 2003-03-07 Kddi Corp 電子メールフィルタリングシステム、電子メールフィルタリング方法、電子メールフィルタリングプログラム及びそれを記録した記録媒体
US7113977B1 (en) * 2002-06-26 2006-09-26 Bellsouth Intellectual Property Corporation Blocking electronic mail content
US7219148B2 (en) * 2003-03-03 2007-05-15 Microsoft Corporation Feedback loop for spam prevention
US7320020B2 (en) * 2003-04-17 2008-01-15 The Go Daddy Group, Inc. Mail server probability spam filter
US7523106B2 (en) * 2003-11-24 2009-04-21 International Business Machines Coporation Computerized data mining system, method and program product
US7707122B2 (en) * 2004-01-29 2010-04-27 Yahoo ! Inc. System and method of information filtering using measures of affinity of a relationship
US20050198159A1 (en) * 2004-03-08 2005-09-08 Kirsch Steven T. Method and system for categorizing and processing e-mails based upon information in the message header and SMTP session
JP2005332048A (ja) 2004-05-18 2005-12-02 Nippon Telegr & Teleph Corp <Ntt> コンテンツ情報の配信方法、コンテンツ配信サーバ、コンテンツ情報の配信プログラム、および同プログラムを記録した記録媒体
US8725811B2 (en) * 2005-12-29 2014-05-13 Microsoft Corporation Message organization and spam filtering based on user interaction
US8131747B2 (en) * 2006-03-15 2012-03-06 The Invention Science Fund I, Llc Live search with use restriction
US7831464B1 (en) * 2006-04-06 2010-11-09 ClearPoint Metrics, Inc. Method and system for dynamically representing distributed information
US20070282770A1 (en) * 2006-05-15 2007-12-06 Nortel Networks Limited System and methods for filtering electronic communications
US8224905B2 (en) * 2006-12-06 2012-07-17 Microsoft Corporation Spam filtration utilizing sender activity data
KR100996311B1 (ko) * 2007-09-27 2010-11-23 야후! 인크. 스팸 ucc를 감지하기 위한 방법 및 시스템
US7860885B2 (en) * 2007-12-05 2010-12-28 Palo Alto Research Center Incorporated Inbound content filtering via automated inference detection
US8364181B2 (en) * 2007-12-10 2013-01-29 Seven Networks, Inc. Electronic-mail filtering for mobile devices
US8001582B2 (en) * 2008-01-18 2011-08-16 Microsoft Corporation Cross-network reputation for online services
JP5078674B2 (ja) * 2008-02-29 2012-11-21 インターナショナル・ビジネス・マシーンズ・コーポレーション 分析システム、情報処理装置、アクティビティ分析方法、およびプログラム
CN101616101B (zh) 2008-06-26 2012-01-18 阿里巴巴集团控股有限公司 一种用户信息过滤方法及装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20070156677A1 (en) * 1999-07-21 2007-07-05 Alberti Anemometer Llc Database access system
US7260837B2 (en) * 2000-03-22 2007-08-21 Comscore Networks, Inc. Systems and methods for user identification, user demographic reporting and collecting usage data usage biometrics
CN1508721A (zh) * 2002-12-20 2004-06-30 中国科学院计算技术研究所 快速内容分析的多关键词匹配方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Bracha Shapira等.Experimentation with an information filtering system that combines cognitive and sociological filtering integrated with user stereotypes.《Decision Support Systems》.1999,第27卷第5-24页. *

Also Published As

Publication number Publication date
EP2291734A1 (en) 2011-03-09
JP5453410B2 (ja) 2014-03-26
WO2009158593A1 (en) 2009-12-30
US20140188913A1 (en) 2014-07-03
US8725746B2 (en) 2014-05-13
US9201953B2 (en) 2015-12-01
HK1138957A1 (en) 2010-09-03
US20110010374A1 (en) 2011-01-13
JP2011526393A (ja) 2011-10-06
CN101616101A (zh) 2009-12-30
EP2291734A4 (en) 2013-09-25

Similar Documents

Publication Publication Date Title
CN101616101B (zh) 一种用户信息过滤方法及装置
CN101957845B (zh) 一种在线应用系统及其实现方法
CN107025228B (zh) 一种问题推荐方法及设备
CN105354305A (zh) 一种网络谣言的识别方法及装置
CN112668859A (zh) 基于大数据的客户风险评级方法、装置、设备及存储介质
CN115577152B (zh) 基于数据分析的在线图书借阅管理系统
CN111476296A (zh) 样本生成方法、分类模型训练方法、识别方法及对应装置
CN116797267B (zh) 用于股权投资的分布式市场数据采集管理系统
CN109858919A (zh) 异常账号的确定方法及装置、在线下单方法及装置
CN108268886A (zh) 用于识别外挂操作的方法及系统
CN111143689A (zh) 根据用户需求和用户画像构建推荐引擎的方法
CN110648172A (zh) 一种融合多种移动设备的身份识别方法和系统
CN113328867A (zh) 一种基于区块链的会议纪要存储系统
CN111159559A (zh) 根据用户需求和用户行为构建推荐引擎的方法
CN117172795A (zh) 一种智能化的技术服务费的在线咨询系统
CN113706263A (zh) 一种基于云平台的电子商务系统
CN116996325A (zh) 一种基于云计算的网络安全检测方法及系统
CN115577172A (zh) 物品推荐方法、装置、设备及介质
CN115174205A (zh) 一种网络空间安全实时监测方法、系统及计算机存储介质
CN102202037A (zh) 一种信息发布系统
CN109829713B (zh) 一种基于知识与数据共同驱动的移动支付方式识别方法
CN113393273A (zh) 一种精准的营销方法
CN114443930A (zh) 一种新闻舆情智能监测分析方法、系统及计算机存储介质
CN102202036A (zh) 一种信息发布方法
CN112540919A (zh) 测试设备确定方法及装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 1138957

Country of ref document: HK

C14 Grant of patent or utility model
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: GR

Ref document number: 1138957

Country of ref document: HK