CN103906066A - 一种用户生成内容提及的骚扰屏蔽方法和装置 - Google Patents

一种用户生成内容提及的骚扰屏蔽方法和装置 Download PDF

Info

Publication number
CN103906066A
CN103906066A CN201210580020.1A CN201210580020A CN103906066A CN 103906066 A CN103906066 A CN 103906066A CN 201210580020 A CN201210580020 A CN 201210580020A CN 103906066 A CN103906066 A CN 103906066A
Authority
CN
China
Prior art keywords
user
wrecking
harassing
request
generated content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210580020.1A
Other languages
English (en)
Other versions
CN103906066B (zh
Inventor
江兴才
黄利华
田明
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Beijing Co Ltd
Original Assignee
Tencent Technology Beijing Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Beijing Co Ltd filed Critical Tencent Technology Beijing Co Ltd
Priority to CN201210580020.1A priority Critical patent/CN103906066B/zh
Priority to PCT/CN2013/089931 priority patent/WO2014101706A1/zh
Publication of CN103906066A publication Critical patent/CN103906066A/zh
Priority to US14/750,663 priority patent/US10320729B2/en
Application granted granted Critical
Publication of CN103906066B publication Critical patent/CN103906066B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/958Organisation or management of web site content, e.g. publishing, maintaining pages or automatic linking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/205Parsing
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/21Monitoring or handling of messages
    • H04L51/212Monitoring or handling of messages using filtering or selective blocking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L51/00User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail
    • H04L51/52User-to-user messaging in packet-switching networks, transmitted according to store-and-forward or real-time protocols, e.g. e-mail for supporting social networking services
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L65/00Network arrangements, protocols or services for supporting real-time applications in data packet communication
    • H04L65/40Support for services or applications
    • H04L65/403Arrangements for multi-party communication, e.g. for conferences
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Information Transfer Between Computers (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施方式提出一种用户生成内容提及的骚扰屏蔽方法和装置。方法包括:接收用户生成内容发表请求;解析用户生成内容发表请求以判断是否包含提及对象,并当判定包含提及对象时,进一步判断该用户生成内容发表请求是否满足预先设置的骚扰判定条件,如果满足,则不将该用户生成内容发表请求的消息内容发送给提及对象。本发明实施方式克服了现有技术中针对提及骚扰采用事后处理的缺陷,实现了针对用户生成内容提及骚扰的事先处理,提高了用户生成内容提及骚扰的处理效率,而且本发明实施方式实现了针对用户生成内容提及骚扰的自动屏蔽,克服了现有技术中人工审核的缺陷。

Description

一种用户生成内容提及的骚扰屏蔽方法和装置
技术领域
本发明实施方式涉及互联网应用技术领域,更具体地,涉及一种用户生成内容提及的骚扰屏蔽方法和装置。
背景技术
随着计算机技术和网络技术的飞速发展,互联网(Internet)在人们的日常生活、学习和工作中发挥的作用也越来越大。互联网上的各种应用层出不穷。
用户生成内容(UGC)是一种用户使用互联网的新方式,即由原来的以下载为主变成下载和上传并重。社区网络、视频分享、微博和博客等都是UGC的主要应用形式。随着全球互联网业务的不断发展,UGC业务正在日渐崛起,引起了业界的广泛关注。
微博(MicroBlog)是一种典型的UGC应用,是一个基于用户关系的信息分享、传播以及获取的平台,用户可以通过各种终端在微博上以简短的文字(一般是140个字)发布个人所想、所做的信息,实现信息的即时分享。微博是用户在互联网进行消息分享、传播的一种新方式。由于微博弱关系链的特点,微博的消息传递非常快,这也吸引很多用户在微博上发表一些不利于微博生态发展的消息,例如在转播、点评名人的消息时带上自己的广告,这种与被提及用户无关的转播、点评都会进入被提及用户的收件箱,对用户造成极大骚扰,降低了微博的消息质量和用户的创作积极性,对整个微博的积极发展带来非常大的副作用。
在现有技术中,对于用户生成内容业务中提及骚扰行为采取的是事后处理策略,即只有当用户投诉某个账号恶意提及时,审核的人员才会判断该账号是否对其他用户造成了骚扰,如果确认骚扰,则根据严重程度对该骚扰账号进行禁言或者封号处理。
然而,对于海量的用户生成内容数据而言,人工审核并处理骚扰提及行为的处理效率偏低。而且,这种事后处理方式依赖于用户的反馈,实际上很多用户不知道或者不愿意反馈,因此骚扰行为经常得不到及时处理,进一步降低了用户生成内容提及骚扰的处理效率。
发明内容
本发明实施方式提出一种用户生成内容提及的骚扰屏蔽方法,以提高用户生成内容提及骚扰的处理效率。
本发明实施方式提出一种用户生成内容提及的骚扰屏蔽装置,以提高用户生成内容提及骚扰的处理效率。
本发明实施方式的技术方案如下:
一种用户生成内容提及的骚扰屏蔽方法,该方法包括:
接收用户生成内容发表请求;
解析所述用户生成内容发表请求以判断是否包含提及对象,并当判定包含提及对象时,进一步判断该用户生成内容发表请求是否满足预先设置的骚扰判定条件,如果满足,则不将该用户生成内容发表请求的消息内容发送给所述提及对象。
一种用户生成内容提及的骚扰屏蔽装置,该装置包括用户生成内容发表请求接收单元、用户生成内容解析单元和骚扰处理单元,其中:
用户生成内容发表请求接收单元,用于接收用户生成内容发表请求;
用户生成内容提及处理单元,用于解析所述用户生成内容发表请求以判断是否包含提及对象;
骚扰处理单元,用于当用户生成内容解析单元判定包含提及对象时,进一步判断该用户生成内容发表请求是否满足预先设置的骚扰判定条件,如果满足,则不将该用户生成内容发表请求的消息内容发送给所述提及对象。
从上述技术方案可以看出,在本发明实施方式中,接收用户生成内容发表请求;解析所述用户生成内容发表请求以判断是否包含提及对象,并当判定包含提及对象时,进一步判断该用户生成内容发表请求是否满足预先设置的骚扰判定条件,如果满足,则不将该用户生成内容发表请求的消息内容发送给所述提及对象。由此可见,应用本发明实施方式之后实现了一种用户生成内容提及骚扰的智能屏蔽策略,可以在微博发表之前对提及骚扰进行智能屏蔽。本发明实施方式克服了现有技术的事后处理的缺陷,实现了针对用户生成内容提及骚扰的事先处理,提高了针对用户生成内容提及骚扰的处理实时性,提高了用户生成内容提及骚扰的处理效率。
而且,本发明实施方式实现了针对用户生成内容提及骚扰的自动屏蔽,克服了现有技术中人工审核的缺陷,节省了运营成本,而且本发明实施方式综合了消息体内容、用户特征和关系链三个大维度的特征,增加了综合得分的准确性,而且每个得分项可以调整,能够适应不断变化的恶意提及骚扰模型,从而提高用户生成内容(比如微博)的整体消息质量,以及提高了用户生成内容提及骚扰的处理效率。
附图说明
图1为现有技术中骚扰提及的处理示意图;
图2为根据本发明实施方式的用户生成内容提及骚扰屏蔽方法流程图;
图3为根据本发明实施方式的消息内容评估示意图;
图4为根据本发明实施方式的发起用户特征评估示意图;
图5为根据本发明实施方式的发起用户与提及对象的关系链特征评估示意图;
图6为根据本发明实施方式的用户生成内容提及骚扰屏蔽装置结构图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面结合附图对本发明作进一步的详细描述。
图1为现有技术中骚扰提及的处理示意图。
如图1所示,当有用户A投诉用户B恶意提及时,由投诉审核模块判断该账号B是否对用户A造成了骚扰,如果确认骚扰,则根据严重程度对该账号进行禁言或者封号处理。然而,这种方案依赖于用户的反馈,很多用户不知道或者不愿意反馈。而且投诉审核模块是由人工审核的,工作效率低。另外,骚扰的主体(即用户B)被禁言后可能换一个账号继续进行恶意提及操作,被骚扰用户还是被迫收到很多骚扰的提及。不仅于此,现有技术的处理周期很长,等恶意用户B被禁言后,用户A可能已经被骚扰很久了,起到的效果不明显。
在本发明实施方式中,提出了一种用户生成内容提及骚扰的智能屏蔽策略。本发明实施方式综合多个多维度的消息特征和用户特征,能实时准确地判断出某条消息对提及用户是否为骚扰,进而在该消息进入提及用户的收件箱之前主动将其屏蔽。
图2为根据本发明实施方式的用户生成内容提及的骚扰屏蔽方法流程图。
如图2所示,该方法包括:
步骤201:接收用户生成内容发表请求。
在这里,由期待发表用户生成内容的用户发出用户生成内容发表请求,本发明实施方式首先接收该用户生成内容发表请求。
用户可以通过多种方式发出各种类型的用户生成内容发表请求。比如,用户可以在功能手机、智能手机、掌上电脑、个人电脑(PC)、平板电脑或个人数字助理(PDA)等终端上发出用户生成内容发表请求,而且用户生成内容发表请求具体可以包括转发用户生成内容发表请求、评论用户生成内容发表请求、原创用户生成内容发表请求,等等。
在本发明实施方式中,用户生成内容发表请求具体可以包括但是不局限于:社区网络发表请求、视频分享发表请求、微博发表请求或者博客发表请求,等等。
步骤202:解析所述用户生成内容发表请求以判断是否包含提及对象,并当判定包含提及对象时,进一步判断该用户生成内容发表请求是否满足预先设置的骚扰判定条件,如果满足,则不将该用户生成内容发表请求的消息内容发送给所述提及对象。
在这里,首先解析用户生成内容发表请求以判断是否包含提及对象。比如:在微博消息体内容中,有时会使用“”符号后面紧跟用户的账号名,该用户的账号名即为提及对象。因此,在本发明实施方式中可以通过判断是否存在“”符号来判断是否存在提及对象。如果针对用户生成内容发表请求不进行屏蔽的话,用户生成内容发表请求的具体内容都会自动进入提及对象的收件箱。
当判定包含提及对象时,进一步判断该用户生成内容发表请求是否满足预先设置的骚扰判定条件,如果满足,则不将该用户生成内容发表请求的消息内容发送给提及对象。
在本发明实施方式中,可以综合多个多维度的消息特征和用户特征,实时准确地判断出某条消息对提及对象是否构成骚扰,进而在该消息进入提及对象的收件箱之前主动将其屏蔽。
在一个实施方式中,预先设置的骚扰判定条件可以为:基于消息内容特征所确定的骚扰判定条件。此时,首先解析出该用户生成内容发表请求的消息内容特征,再判断该用户生成内容发表请求的消息内容特征是否满足该预先设置的骚扰判定条件。
比如:基于消息内容特征所确定的骚扰判定条件具体可以包括下列中的至少一个:判断该用户生成内容发表请求的消息内容是否包括统一资源定位符(URL);判断该用户生成内容发表请求的消息内容是否涉及话题;判断该用户生成内容发表请求的消息内容是否为转发或评论;判断该用户生成内容发表请求的消息内容是否为原创;判断该用户生成内容发表请求的消息内容是否包含预先设定的黑名单词汇;或判断该用户生成内容发表请求的消息内容是否发表于第三方应用,等等。
可以针对多个基于消息内容特征所确定的骚扰判定条件进行各种因素的综合判定,图3为根据本发明实施方式的消息内容评估示意图。比如:
(a)、当用户生成内容发表请求的消息内容中包含URL时,认为用户生成内容发表请求有可能是骚扰;
(b)、当用户生成内容发表请求为原创(或有话题)且该用户生成内容发表请求的消息内容包含预先设定的黑名单词汇时,认为用户生成内容发表请求有可能是骚扰;
(c)、当用户生成内容发表请求的消息内容中包含URL以及该用户生成内容发表请求的消息内容发表于第三方应用时,认为用户生成内容发表请求有较大可能是骚扰;
(d)、当该用户生成内容发表请求的消息内容为转发或评论而且该用户生成内容发表请求的消息内容包含预先设定的黑名单词汇时,认为用户生成内容发表请求有较大可能是骚扰。
(e)、当用户生成内容发表请求的消息内容中包含URL、消息内容发表于第三方应用、消息内容为转发或评论而且该用户生成内容发表请求的消息内容包含预先设定的黑名单词汇时,认为用户生成内容发表请求有较大可能是骚扰。
可以针对上述多个基于消息内容特征所确定的骚扰判定条件分别设置分值,然后整体求和所有基于消息内容特征所确定的骚扰判定条件的总分值,并基于该总分值与预先设定的基于消息内容特征的门限值进行比较,以判断是否构成骚扰,并当构成骚扰时,不将该用户生成内容发表请求的消息内容发送给所述提及对象。其中,可以增加和删除骚扰判定条件,而且每个骚扰判定条件的得分值优选是动态可调整的,从而能够适应不断变化的恶意提及骚扰模型。
以上详细罗列了基于消息内容特征所确定的骚扰判定条件的具体实例,以及基于多个基于消息内容特征所确定的骚扰判定条件来整体性综合判定是否构成骚扰的示范性说明,本领域技术人员可以意识到,这些实例和示范性说明仅仅是阐述性的,并不用于对本发明实施方式进行限定。
图4为根据本发明实施方式的发起用户特征评估示意图。
在一个实施方式中,预先设置的骚扰判定条件具体可以为:基于发起用户特征所确定的骚扰判定条件。此时,首先解析出该用户生成内容发表请求的发起用户特征,并判断该用户生成内容发表请求的发起用户特征是否满足该预先设置的骚扰判定条件。
具体地,骚扰判定条件包括:判断该用户生成内容发表请求的发起用户在预定时间内是否有消息被屏蔽;和/或判断该用户生成内容发表请求的发起用户在预定时间内的提及数是否超过预先设定的提及数门限值。
当该用户生成内容发表请求的发起用户在预定时间内有消息被屏蔽时,可以认为该用户生成内容发表请求的发起用户有较大可能性为骚扰用户,因此本次的用户生成内容发表请求有可能是骚扰;当判定该用户生成内容发表请求的发起用户在预定时间内的提及数超过预先设定的提及数门限值时,可以认为该用户生成内容发表请求的发起用户有较大可能性为骚扰用户,因此本次的用户生成内容发表请求有可能是骚扰。
可以针对上述多个基于发起用户特征所确定的骚扰判定条件分别设置分值,然后整体求和所有基于发起用户特征所确定的骚扰判定条件的总分值,并基于该总分值与预先设定的基于发起用户特征的门限值进行比较,以判断是否构成骚扰,并当构成骚扰时,不将该用户生成内容发表请求的消息内容发送给所述提及对象。其中,可以增加和删除骚扰判定条件,而且每个骚扰判定条件的得分值优选是动态可调整的,从而能够适应不断变化的恶意提及骚扰模型。
以上详细罗列了基于发起用户特征所确定的骚扰判定条件的具体实例,以及基于多个发起用户特征所确定的骚扰判定条件来整体性综合判定是否构成骚扰的示范性说明,本领域技术人员可以意识到,这些实例和示范性说明仅仅是阐述性的,并不用于对本发明实施方式进行限定。
图5为根据本发明实施方式的发起用户与提及对象的关系链特征评估示意图。
在一个实施方式中,预先设置的骚扰判定条件为:基于发起用户关系链特征和提及对象关系链特征所确定的骚扰判定条件。
此时,解析出该用户生成内容发表请求的发起用户关系链特征和提及对象关系链特征,并判断该用户生成内容发表请求的发起用户关系链特征和提及对象关系链特征是否满足该预先设置的骚扰判定条件。
具体地,骚扰判定条件包括:判断该提及对象是否收听该用户生成内容发表请求的发起用户;判断该用户生成内容发表请求的发起用户是否收听该提及对象;判断该提及对象是否是认证用户;判断该提及对象的听众是否超过预先设定的听众人数门限值;判断该用户生成内容发表请求的发起用户是否是认证用户;或判断该用户生成内容发表请求的发起用户的听众是否超过预先设定的听众人数门限值。
可以针对多个基于发起用户关系链特征和提及对象关系链特征所确定的骚扰判定条件进行各种因素的综合判定。比如:
(a)、当提及对象收听该用户生成内容发表请求的发起用户时,则认为用户生成内容发表请求有较大可能不是骚扰。
(b)、当该用户生成内容发表请求的发起用户收听该提及对象时,则认为用户生成内容发表请求较大可能不是骚扰。
(c)、当该提及对象是认证用户时,认为用户生成内容发表请求有可能是骚扰。
(d)、当该提及对象的听众超过预先设定的听众人数门限值,认为用户生成内容发表请求有可能是骚扰。
(e)、当该用户生成内容发表请求的发起用户是认证用户时,则认为用户生成内容发表请求较大可能不是骚扰。
(f)、当该用户生成内容发表请求的发起用户的听众超过预先设定的听众人数门限值时,则认为用户生成内容发表请求较大可能不是骚扰。
可以针对上述多个基于发起用户关系链特征和提及对象关系链特征所确定的骚扰判定条件分别设置分值,然后整体求和所有基于发起用户关系链特征和提及对象关系链特征所确定的骚扰判定条件的总分值,并基于该总分值与预先设定的基于发起用户关系链特征和提及对象关系链特征的门限值进行比较,以判断是否构成骚扰,并当构成骚扰时,不将该用户生成内容发表请求的消息内容发送给所述提及对象。其中,可以增加和删除骚扰判定条件,而且每个骚扰判定条件的得分值优选是动态可调整的,从而能够适应不断变化的恶意提及骚扰模型。
其中,例如用户生成内容发表请求的发起用户提及了提及对象,但是提及对象收听了用户生成内容发表请求的发起用户,这时该消息为骚扰的可能性很低,因此,可以给提及对象收听该用户生成内容发表请求的发起用户这个判断条件设定为足够大的负数分,以保证最后的总得分不会超过屏蔽阈值。
以上详细罗列了基于发起用户关系链特征和提及对象关系链特征所确定的骚扰判定条件的具体实例,以及基于多个发起用户关系链特征和提及对象关系链特征所确定的骚扰判定条件来整体性综合判定是否构成骚扰的示范性说明,本领域技术人员可以意识到,这些实例和示范性说明仅仅是阐述性的,并不用于对本发明实施方式进行限定。
在一个实施方式中,还可以综合考虑消息内容特征、发起用户特征与发起用户关系链特征及提及对象关系链特征,这三大骚扰判定条件来整体判断是否构成骚扰。此时,预先设置的骚扰判定条件具体可以包括:基于消息内容特征、发起用户特征和发起用户关系链特征及提及对象关系链特征中至少两项,所加权确定的骚扰判定条件。然后解析出该用户生成内容发表请求的消息内容特征、发起用户特征和发起用户关系链特征及提及对象关系链特征中的该至少两项,并基于预先设置的加权算法计算该至少两项的整体权值;判断该整体权值是否满足预先设置的整体权值门限值。比如:可以基于消息内容特征和发起用户特征这两项加权确定骚扰判定条件;也可以基于消息内容特征,发起用户关系链特征及提及对象关系链特征这两项加权确定骚扰判定条件;还可以基于消息内容特征和发起用户关系链特征及提及对象关系链特征这两项加权确定骚扰判定条件。
在这里,可以针对多个基于消息内容特征的骚扰判定条件、多个基于发起用户特征的骚扰判定条件、多个基于发起用户关系链特征和提及对象关系链特征所确定的骚扰判定条件中的每一个分别设置分值,然后整体求和所有这些特征所确定的骚扰判定条件的总分值,并基于该总分值与预先设定的整体门限值进行比较,以判断是否构成骚扰,并当构成骚扰时,不将该用户生成内容发表请求的消息内容发送给所述提及对象。其中,可以增加和删除骚扰判定条件,而且每个骚扰判定条件的得分值优选是动态可调整的,从而能够适应不断变化的恶意提及骚扰模型。
基于上述详细分析,本发明实施方式还提出了一种用户生成内容提及的骚扰屏蔽装置。
图6为根据本发明实施方式的用户生成内容提及的骚扰屏蔽装置结构图。
如图6所示,该装置包括用户生成内容发表请求接收单元601、用户生成内容解析单元602和骚扰处理单元603,其中:
用户生成内容发表请求接收单元601,用于接收用户生成内容发表请求;
用户生成内容解析单元602,用于解析所述用户生成内容发表请求以判断是否包含提及对象;
骚扰处理单元603,用于当用户生成内容解析单元判定包含提及对象时,进一步判断该用户生成内容发表请求是否满足预先设置的骚扰判定条件,如果满足,则不将该用户生成内容发表请求的消息内容发送给所述提及对象。
在一个实施方式中,所述预先设置的骚扰判定条件为:基于消息内容特征所确定的骚扰判定条件;
骚扰处理单元603,用于解析出该用户生成内容发表请求的消息内容特征,并判断该用户生成内容发表请求的消息内容特征是否满足该预先设置的骚扰判定条件。
具体地,骚扰判定条件包括下列中的至少一个:判断该用户生成内容发表请求的消息内容是否包括统一资源定位符;判断该用户生成内容发表请求的消息内容是否涉及话题;判断该用户生成内容发表请求的消息内容是否为转发或评论;判断该用户生成内容发表请求的消息内容是否为原创;判断该用户生成内容发表请求的消息内容是否包含预先设定的黑名单词汇;或判断该用户生成内容发表请求的消息内容是否发表于第三方应用。
在一个实施方式中,预先设置的骚扰判定条件为:基于发起用户特征所确定的骚扰判定条件;
骚扰处理单元603,用于解析出该用户生成内容发表请求的发起用户特征,并判断该用户生成内容发表请求的发起用户特征是否满足该预先设置的骚扰判定条件。
具体地,骚扰判定条件包括下列中的至少一个:判断该用户生成内容发表请求的发起用户在预定时间内是否有消息被屏蔽;或判断该用户生成内容发表请求的发起用户在预定时间内的提及数是否超过预先设定的提及数门限值。
在一个实施方式中,预先设置的骚扰判定条件为:基于发起用户关系链特征和提及对象关系链特征所确定的骚扰判定条件;
骚扰处理单元603,用于解析出该用户生成内容发表请求的发起用户关系链特征和提及对象关系链特征,并判断该用户生成内容发表请求的发起用户关系链特征和提及对象关系链特征是否满足该预先设置的骚扰判定条件。
具体地,骚扰判定条件包括下列中的至少一个:
判断该提及对象是否收听该用户生成内容发表请求的发起用户;判断该用户生成内容发表请求的发起用户是否收听该提及对象;判断该提及对象是否是认证用户;判断该提及对象的听众是否超过预先设定的听众人数门限值;判断该用户生成内容发表请求的发起用户是否是认证用户;或判断该用户生成内容发表请求的发起用户的听众是否超过预先设定的听众人数门限值。
更优选地,预先设置的骚扰判定条件包括:基于消息内容特征、发起用户特征和发起用户关系链特征及提及对象关系链特征中至少两项,所加权确定的骚扰判定条件;此时:
骚扰处理单元603包括消息内容特征评判子单元6031、发起用户特征评判子单元6032、关系链评判子单元6033和整体评判子单元6034;
消息内容特征评判子单元6031,用于计算该用户生成内容发表请求的消息内容特征值;
发起用户特征评判子单元6032,用于计算该用户生成内容发表请求的发起用户特征值;
关系链评判子单元6033,用于计算该发起用户关系链及提及对象关系链的特征值;
整体评判子单元6034,用于对该发起用户关系链及提及对象关系链的特征值、消息内容特征值和发起用户特征值中的该至少两项进行加权计算,得到整体评判值,并判断该整体权值是否满足预先设置的整体权值门限值,当超过整体权值门限值的时候,则判定该条消息对提及用户构成骚扰。
其中,消息内容特征、发起用户特征和发起用户关系链特征及提及对象关系链特征中,如果在骚扰判定条件中没有涉及到,可以将该项所对应的评判子单元的特征值设置为0。
其中,如果整体评判子单元6034判断该用户生成内容发表请求为骚扰,则不将该用户生成内容发表请求的消息内容发送给提及对象。
可以将图6所示装置集成到各种通信网络的硬件实体当中。比如,可以将用户生成内容提及的骚扰屏蔽装置集成到:功能手机、智能手机、掌上电脑、个人电脑(PC)、平板电脑或个人数字助理(PDA),等等设备之中。
实际上,可以通过多种形式来具体实施本发明实施方式所提出的用户生成内容提及的骚扰屏蔽装置。比如,可以遵循一定规范的应用程序接口,将用户生成内容提及的骚扰屏蔽装置编写为安装到微博服务器中的插件程序,也可以将其封装为应用程序以供用户自行下载使用。当编写为插件程序时,可以将其实施为ocx、dll、cab等多种插件形式。也可以通过Flash插件、RealPlayer插件、MMS插件、MI五线谱插件、ActiveX插件等具体技术来实施本发明实施方式所提出的用户生成内容提及的骚扰屏蔽装置。
可以通过指令或指令集存储的储存方式将本发明实施方式所提出的用户生成内容提及的骚扰屏蔽方法存储在各种存储介质上。这些存储介质包括但是不局限于:软盘、光盘、DVD、硬盘、闪存、U盘、CF卡、SD卡、MMC卡、SM卡、记忆棒(Memory Stick)、xD卡等。
另外,还可以将本发明实施方式所提出的用户生成内容提及的骚扰屏蔽方法应用到基于闪存(Nand flash)的存储介质中,比如U盘、CF卡、SD卡、SDHC卡、MMC卡、SM卡、记忆棒、xD卡等。
综上所述,在本发明实施方式中,接收用户生成内容发表请求;解析所述用户生成内容发表请求以判断是否包含提及对象,并当判定包含提及对象时,进一步判断该用户生成内容发表请求是否满足预先设置的骚扰判定条件,如果满足,则不将该用户生成内容发表请求的消息内容发送给所述提及对象。由此可见,应用本发明实施方式之后实现了一种用户生成内容提及骚扰的智能屏蔽策略,可以在微博发表之前对提及骚扰进行智能屏蔽。本发明实施方式克服了现有技术的事后处理的缺陷,实现了针对用户生成内容提及骚扰的事先处理,因此提高了处理的实时性,提高了用户生成内容提及骚扰的处理效率。
而且,本发明实施方式实现了针对用户生成内容提及骚扰的自动屏蔽,克服了现有技术中人工审核的缺陷,节省了运营成本,而且本发明实施方式综合了消息体内容、用户特征和关系链三个大维度的特征,增加了综合得分的准确性,而且每个得分项可以调整,能够适应不断变化的恶意提及骚扰模型,从而提高微博的整体消息质量以及提高了用户生成内容提及骚扰的处理效率。
以上所述,仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (16)

1.一种用户生成内容提及的骚扰屏蔽方法,其特征在于,该方法包括:
接收用户生成内容发表请求;
解析所述用户生成内容发表请求以判断是否包含提及对象,并当判定包含提及对象时,进一步判断该用户生成内容发表请求是否满足预先设置的骚扰判定条件,如果满足,则不将该用户生成内容发表请求的消息内容发送给所述提及对象。
2.根据权利要求1所述的用户生成内容提及的骚扰屏蔽方法,其特征在于,所述预先设置的骚扰判定条件为:基于消息内容特征所确定的骚扰判定条件;
所述判断该用户生成内容发表请求是否满足预先设置的骚扰判定条件为:
解析出该用户生成内容发表请求的消息内容特征,并判断该用户生成内容发表请求的消息内容特征是否满足该预先设置的骚扰判定条件。
3.根据权利要求2所述的用户生成内容提及的骚扰屏蔽方法,其特征在于,所述骚扰判定条件包括下列中的至少一个:
判断该用户生成内容发表请求的消息内容是否包括统一资源定位符;
判断该用户生成内容发表请求的消息内容是否涉及话题;
判断该用户生成内容发表请求的消息内容是否为转发或评论;
判断该用户生成内容发表请求的消息内容是否为原创;
判断该用户生成内容发表请求的消息内容是否包含预先设定的黑名单词汇;或
判断该用户生成内容发表请求的消息内容是否发表于第三方应用。
4.根据权利要求1所述的用户生成内容提及的骚扰屏蔽方法,其特征在于,所述预先设置的骚扰判定条件为:基于发起用户特征所确定的骚扰判定条件;
所述判断该用户生成内容发表请求是否满足预先设置的骚扰判定条件为:
解析出该用户生成内容发表请求的发起用户特征,并判断该用户生成内容发表请求的发起用户特征是否满足该预先设置的骚扰判定条件。
5.根据权利要求4所述的用户生成内容提及的骚扰屏蔽方法,其特征在于,所述骚扰判定条件包括下列中的至少一个:
判断该用户生成内容发表请求的发起用户在预定时间内是否有消息被屏蔽;或
判断该用户生成内容发表请求的发起用户在预定时间内的提及数是否超过预先设定的提及数门限值。
6.根据权利要求1所述的用户生成内容提及的骚扰屏蔽方法,其特征在于,所述预先设置的骚扰判定条件为:基于发起用户关系链特征和提及对象关系链特征所确定的骚扰判定条件;
所述判断该用户生成内容发表请求是否满足预先设置的骚扰判定条件为:
解析出该用户生成内容发表请求的发起用户关系链特征和提及对象关系链特征,并判断该用户生成内容发表请求的发起用户关系链特征和提及对象关系链特征是否满足该预先设置的骚扰判定条件。
7.根据权利要求6所述的用户生成内容提及的骚扰屏蔽方法,其特征在于,所述骚扰判定条件包括下列中的至少一个:
判断该提及对象是否收听该用户生成内容发表请求的发起用户;
判断该用户生成内容发表请求的发起用户是否收听该提及对象;
判断该提及对象是否是认证用户;
判断该提及对象的听众是否超过预先设定的听众人数门限值;
判断该用户生成内容发表请求的发起用户是否是认证用户;或
判断该用户生成内容发表请求的发起用户的听众是否超过预先设定的听众人数门限值。
8.根据权利要求1所述的用户生成内容提及的骚扰屏蔽方法,其特征在于,所述预先设置的骚扰判定条件包括:基于消息内容特征、发起用户特征和发起用户关系链特征及提及对象关系链特征中至少两项加权确定的骚扰判定条件;
所述判断该用户生成内容发表请求是否满足预先设置的骚扰判定条件为:
解析出该用户生成内容发表请求的消息内容特征、发起用户特征和发起用户关系链特征及提及对象关系链特征中的该至少两项,并基于预先设置的加权算法计算该至少两项的整体权值;
判断该整体权值是否满足预先设置的整体权值门限值。
9.一种用户生成内容提及的骚扰屏蔽装置,其特征在于,该装置包括用户生成内容发表请求接收单元、用户生成内容解析单元和骚扰处理单元,其中:
用户生成内容发表请求接收单元,用于接收用户生成内容发表请求;
用户生成内容解析单元,用于解析所述用户生成内容发表请求以判断是否包含提及对象;
骚扰处理单元,用于当用户生成内容解析单元判定包含提及对象时,判断该用户生成内容发表请求是否满足预先设置的骚扰判定条件,如果满足,则不将该用户生成内容发表请求的消息内容发送给所述提及对象。
10.根据权利要求9所述的用户生成内容提及的骚扰屏蔽装置,其特征在于,所述预先设置的骚扰判定条件为:基于消息内容特征所确定的骚扰判定条件;
骚扰处理单元,用于解析出该用户生成内容发表请求的消息内容特征,并判断该用户生成内容发表请求的消息内容特征是否满足该预先设置的骚扰判定条件。
11.根据权利要求10所述的用户生成内容提及的骚扰屏蔽装置,其特征在于,所述骚扰判定条件包括下列中的至少一个:
判断该用户生成内容发表请求的消息内容是否包括统一资源定位符;
判断该用户生成内容发表请求的消息内容是否涉及话题;
判断该用户生成内容发表请求的消息内容是否为转发或评论;
判断该用户生成内容发表请求的消息内容是否为原创;
判断该用户生成内容发表请求的消息内容是否包含预先设定的黑名单词汇;或
判断该用户生成内容发表请求的消息内容是否发表于第三方应用。
12.根据权利要求9所述的用户生成内容提及的骚扰屏蔽装置,其特征在于,所述预先设置的骚扰判定条件为:基于发起用户特征所确定的骚扰判定条件;
骚扰处理单元,用于解析出该用户生成内容发表请求的发起用户特征,并判断该用户生成内容发表请求的发起用户特征是否满足该预先设置的骚扰判定条件。
13.根据权利要求12所述的用户生成内容提及的骚扰屏蔽装置,其特征在于,所述骚扰判定条件包括下列中的至少一个:
判断该用户生成内容发表请求的发起用户在预定时间内是否有消息被屏蔽;或
判断该用户生成内容发表请求的发起用户在预定时间内的提及数是否超过预先设定的提及数门限值。
14.根据权利要求9所述的用户生成内容提及的骚扰屏蔽装置,其特征在于,所述预先设置的骚扰判定条件为:基于发起用户关系链特征和提及对象关系链特征所确定的骚扰判定条件;
骚扰处理单元,用于解析出该用户生成内容发表请求的发起用户关系链特征和提及对象关系链特征,并判断该用户生成内容发表请求的发起用户关系链特征和提及对象关系链特征是否满足该预先设置的骚扰判定条件。
15.根据权利要求14所述的用户生成内容提及的骚扰屏蔽装置,其特征在于,所述骚扰判定条件包括下列中的至少一个:
判断该提及对象是否收听该用户生成内容发表请求的发起用户;
判断该用户生成内容发表请求的发起用户是否收听该提及对象;
判断该提及对象是否是认证用户;
判断该提及对象的听众是否超过预先设定的听众人数门限值;
判断该用户生成内容发表请求的发起用户是否是认证用户;或
判断该用户生成内容发表请求的发起用户的听众是否超过预先设定的听众人数门限值。
16.根据权利要求9所述的用户生成内容提及的骚扰屏蔽装置,其特征在于,所述预先设置的骚扰判定条件包括:基于消息内容特征、发起用户特征和发起用户关系链特征及提及对象关系链特征中至少两项加权确定的骚扰判定条件;骚扰处理单元包括消息内容特征评判子单元、发起用户特征评判子单元、关系链评判子单元和整体评判子单元;其中:
消息内容特征评判子单元,用于计算该用户生成内容发表请求的消息内容特征值;
发起用户特征评判子单元,用于计算该用户生成内容发表请求的发起用户特征值;
关系链评判子单元,用于计算该发起用户关系链及提及对象关系链的特征值;
整体评判子单元,用于对该发起用户关系链及提及对象关系链的特征值、消息内容特征值和发起用户特征值中的该至少两项进行加权计算,得到整体评判值,并判断该整体权值是否满足预先设置的整体权值门限值。
CN201210580020.1A 2012-12-27 2012-12-27 一种用户生成内容提及的骚扰屏蔽方法和装置 Active CN103906066B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201210580020.1A CN103906066B (zh) 2012-12-27 2012-12-27 一种用户生成内容提及的骚扰屏蔽方法和装置
PCT/CN2013/089931 WO2014101706A1 (zh) 2012-12-27 2013-12-19 一种用户生成内容提及的骚扰屏蔽方法、装置和系统
US14/750,663 US10320729B2 (en) 2012-12-27 2015-06-25 Method, apparatus, and system for shielding harassment by mention in user generated content

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201210580020.1A CN103906066B (zh) 2012-12-27 2012-12-27 一种用户生成内容提及的骚扰屏蔽方法和装置

Publications (2)

Publication Number Publication Date
CN103906066A true CN103906066A (zh) 2014-07-02
CN103906066B CN103906066B (zh) 2016-03-23

Family

ID=50997172

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210580020.1A Active CN103906066B (zh) 2012-12-27 2012-12-27 一种用户生成内容提及的骚扰屏蔽方法和装置

Country Status (3)

Country Link
US (1) US10320729B2 (zh)
CN (1) CN103906066B (zh)
WO (1) WO2014101706A1 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104954360A (zh) * 2015-04-17 2015-09-30 腾讯科技(深圳)有限公司 分享内容屏蔽方法及装置
CN108494796A (zh) * 2018-04-11 2018-09-04 广州虎牙信息科技有限公司 黑名单管理方法、装置、设备及存储介质

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016070034A1 (en) * 2014-10-31 2016-05-06 Linkedin Corporation Transfer learning for bilingual content classification
CN107544852B (zh) * 2016-11-29 2020-08-11 腾讯科技(深圳)有限公司 页面信息显示方法和装置
CN112446716B (zh) * 2019-08-27 2024-03-05 百度在线网络技术(北京)有限公司 Ugc处理方法、装置、电子设备和存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111723A (zh) * 2009-12-24 2011-06-29 上海粱江通信系统股份有限公司 一种分析短信消息频次与内容识别垃圾短消息用户的方法
CN202003351U (zh) * 2011-01-18 2011-10-05 北京开心人信息技术有限公司 一种移动终端中快速搜索微博对象的系统
CN202503667U (zh) * 2012-03-28 2012-10-24 成都四方信息技术有限公司 一种垃圾短信拦截系统

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6829635B1 (en) * 1998-07-01 2004-12-07 Brent Townshend System and method of automatically generating the criteria to identify bulk electronic mail
US7124353B2 (en) * 2002-01-14 2006-10-17 International Business Machines Corporation System and method for calculating a user affinity
US7739289B2 (en) * 2006-05-15 2010-06-15 Microsoft Corporation Reviewing user-created content before website presentation
US8015581B2 (en) * 2007-01-05 2011-09-06 Verizon Patent And Licensing Inc. Resource data configuration for media content access systems and methods
US20110106784A1 (en) * 2008-04-04 2011-05-05 Merijn Camiel Terheggen System and method for publishing media objects
CN101996203A (zh) * 2009-08-13 2011-03-30 阿里巴巴集团控股有限公司 一种过滤网页信息的方法和系统
CN102694673A (zh) * 2011-03-25 2012-09-26 腾讯科技(深圳)有限公司 一种网络言论监控方法、设备及系统
CN102591983A (zh) * 2012-01-10 2012-07-18 凤凰在线(北京)信息技术有限公司 一种广告过滤系统及其过滤方法
CN102419777B (zh) * 2012-01-10 2013-10-02 凤凰在线(北京)信息技术有限公司 一种互联网图片广告过滤系统及其过滤方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102111723A (zh) * 2009-12-24 2011-06-29 上海粱江通信系统股份有限公司 一种分析短信消息频次与内容识别垃圾短消息用户的方法
CN202003351U (zh) * 2011-01-18 2011-10-05 北京开心人信息技术有限公司 一种移动终端中快速搜索微博对象的系统
CN202503667U (zh) * 2012-03-28 2012-10-24 成都四方信息技术有限公司 一种垃圾短信拦截系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104954360A (zh) * 2015-04-17 2015-09-30 腾讯科技(深圳)有限公司 分享内容屏蔽方法及装置
CN108494796A (zh) * 2018-04-11 2018-09-04 广州虎牙信息科技有限公司 黑名单管理方法、装置、设备及存储介质

Also Published As

Publication number Publication date
WO2014101706A1 (zh) 2014-07-03
US10320729B2 (en) 2019-06-11
CN103906066B (zh) 2016-03-23
US20150295870A1 (en) 2015-10-15

Similar Documents

Publication Publication Date Title
CN109831698B (zh) 信息审核方法、装置、电子设备及计算机可读取存储介质
US9160806B1 (en) Method and apparatus of organizing and delivering data to intended recipients
CN110442712B (zh) 风险的确定方法、装置、服务器和文本审理系统
US20130132851A1 (en) Sentiment estimation of web browsing user
US20140301218A1 (en) Statistical analysis and prompting method and system for mobile terminal internet traffic
CN103546446B (zh) 一种钓鱼网站的检测方法、装置和终端
CN104317804B (zh) 发布投票信息的方法和装置
US20130166374A1 (en) Managing reputations
CN103906066B (zh) 一种用户生成内容提及的骚扰屏蔽方法和装置
EP2756432A1 (en) System and method for automated classification of web pages and domains
US20160019565A1 (en) Predicting the business impact of tweet conversations
US10936695B2 (en) Collaboration system to share tailored information with social networks
CN103473036B (zh) 一种输入法皮肤推送方法及系统
CN108959319B (zh) 信息推送方法和装置
CN102752123B (zh) 网络设备接口流量预测和容量配置方法及装置
CN106533893B (zh) 一种消息处理方法及系统
CN103425703A (zh) 一种网络信息的处理方法和装置
US11062350B2 (en) Method, apparatus, and device for monitoring promotion status data, and non-volatile computer storage medium
WO2020258102A1 (zh) 内容推送方法、装置、移动终端及存储介质
CN103188347B (zh) 互联网事件分析方法与装置
US9330392B2 (en) Collecting interest data from conversations conducted on a mobile device to augment a user profile
CN103544150A (zh) 为移动终端浏览器提供推荐信息的方法及系统
CN104901816B (zh) 提供多人聊天的方法和系统
CN113362095A (zh) 一种信息投放的方法和装置
US20130145289A1 (en) Real-time duplication of a chat transcript between a person of interest and a correspondent of the person of interest for use by a law enforcement agent

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant