CN105302839B - 文件过滤的方法和系统 - Google Patents

文件过滤的方法和系统 Download PDF

Info

Publication number
CN105302839B
CN105302839B CN201410373661.9A CN201410373661A CN105302839B CN 105302839 B CN105302839 B CN 105302839B CN 201410373661 A CN201410373661 A CN 201410373661A CN 105302839 B CN105302839 B CN 105302839B
Authority
CN
China
Prior art keywords
file
filtering
attribute
content
files
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201410373661.9A
Other languages
English (en)
Other versions
CN105302839A (zh
Inventor
郭亮
贺彬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN201410373661.9A priority Critical patent/CN105302839B/zh
Publication of CN105302839A publication Critical patent/CN105302839A/zh
Application granted granted Critical
Publication of CN105302839B publication Critical patent/CN105302839B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Transfer Between Computers (AREA)

Abstract

一种文件过滤的方法,所述方法包括:获取多个终端上传的文件;获取所述文件所属的来源;根据所述文件所属的来源采用对应的过滤方式对所述文件进行过滤;所述过滤方式包含对所述文件进行内容过滤,具体为:获取所述文件的内容属性,筛选出内容属性符合预设条件的文件。采用该方法,从而在发布文件之前就将大量不合格的文件过滤掉。由此减少了人工逐条审核的成本,提高了工作效率。此外还提供一种文件过滤的系统。

Description

文件过滤的方法和系统
技术领域
本发明涉及互联网技术,特别是涉及一种文件过滤的方法和系统。
背景技术
随着互联网技术的发展,用户可通过网络浏览到越来越多的网络信息。由于网络信息的种类繁多,网站获取网络信息的途径也各不相同。外部投稿的方式便是其中一种。如果没有设立供外部投稿的系统,就需要网站运营人员跟多方沟通,如游戏玩家、外团、媒体、论坛等,获取所需的网络信息并进行逐条审核,然后在系统中填写、排版、发布。如果设立了供外部投稿的系统,也需要运营人员对外部提交的网络信息进行逐条审核。对于每天大量的外部投稿,运营人员进行逐条审核费时费力且效率很低。
发明内容
基于此,有必要针对上述问题,提供一种减少人工审核且提高工作效率的文件过滤的方法和系统。
一种文件过滤的方法,所述方法包括:
获取多个终端上传的文件;
获取所述文件所属的来源;
根据所述文件所属的来源采用对应的过滤方式对所述文件进行过滤;
所述过滤方式包含对所述文件进行内容过滤,具体为:获取所述文件的内容属性,筛选出内容属性符合预设条件的文件。
一种文件过滤的系统,所述系统包括:
第一获取模块,用于获取多个终端上传的文件;
第二获取模块,用于获取所述文件所属的来源;
过滤模块,用于根据所述文件所属的来源采用对应的过滤方式对所述文件进行过滤,所述过滤方式包含对所述文件进行内容过滤,具体为:获取所述文件的内容属性,筛选出内容属性符合预设条件的文件。
上述文件过滤的方法和系统,根据文件所属的来源采用对应的过滤方式对文件进行过滤,从而在发布文件之前就将大量不合格的文件过滤掉。由此减少了人工逐条审核的成本,提高了工作效率。
附图说明
图1为一个实施例中文件过滤的方法应用的硬件环境图;
图2为一个实施例中文件过滤的方法的流程图;
图3为一个实施例中的展示过滤后的文件的界面图;
图4为图2中对文件进行文件提供者属性判定的流程图;
图5为另一个实施例中的展示过滤后的文件的界面图;
图6为一个实施例中文件过滤的系统的结构示意图;
图7为一个实施例中过滤模块的结构示意图;
图8为另一个实施例中文件过滤的系统的结构示意图;
图9为再一个实施例中文件过滤的系统的结构示意图;
图10为一个实施例中第二类型过滤模块的结构示意图;
图11为又一个实施例中文件过滤的系统的结构示意图;
图12为另一个实施例中文件过滤的系统的结构示意图。
具体实施方式
为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
本发明实施例提供的文件过滤的方法可应用于如图1所示的硬件环境中,参考图1所示。多个用户终端102通过网络104与服务器106进行交互。终端包括但不限于可运行文件上传平台的台式机、笔记本电脑、平板电脑、个人数字助理、智能手机等。本发明实施例并不局限于某种特定形式的终端。用户可使用用户终端102将文件上传,用户终端102即可将文件通过网络104发送到服务器106。服务器106用于接收各终端提交的文件并对文件进行过滤。过滤后得到的文件存储在数据库108中。网站运营人员可使用后台管理终端110从数据库108获取存储的过滤后的文件,对过滤后的文件进行二次审核,经过二次审核的文件再进行发布。由于在网站运行人员进行二次审核之前,就根据文件所属的来源采用对应的过滤方式对文件进行过滤,从而过滤掉了大量不合格的文件,减少了人工审核的成本,提高了工作效率。
在一个实施例中,如图2所示,提供了一种文件过滤的方法,包括:
步骤202,获取多个终端上传的文件。
文件是指包括以文字、符号、图片或者文字、符号和图片的结合所描述的内容的组合。在一个优选的实施例中,文件可以是通过网络上传的投稿等。文件可以有多种来源,不同来源的文件可以通过不同的终端被上传至服务器。文件的来源包括但不限于提供文件的外团、媒体、与应用相关的用户和论坛等。其中,媒体包括传统媒体和新媒体,其中传统媒体包括报纸、杂志、广播、电视等,新媒体包括IPTV(Internet Protocol Television,网络协议电视)、电子杂志等。外团是指招募外部人员组成的团队。与应用相关的用户包括但不限于各种即时通讯应用、游戏应用、社交应用等平台上的用户,这些应用平台提供了文件投放平台,用户可在文件投放平台注册账号后提交文件。如游戏玩家等。论坛是指可供用户进行信息发布和交流的一种交互性电子信息服务系统。本实施例中,可通过调用不同的API获取到不同来源的文件,其中,文件内容可涉及各个方面,如游戏、时事、体育等。
步骤204,获取文件所属的来源。
在一个实施例中,可根据文件对应的用户标识类型判断文件的来源。在另一个实施例中,也可根据文件对应的API类型来获取文件的来源。比如,对于媒体、外团、应用和论坛等,所使用的用户标识可能不同,如对于媒体可能使用登录媒体平台的注册帐号,对于即时通信应用,使用的用户标识是即时通讯号码,对于游戏应用,使用的用户标识是在用户平台中的注册帐号等。在此不一一列举。另外,对于不同文件来源,所调用的API可能不同,比如对于论坛的文件,论坛推荐或者论坛精华可使用不同的API获取得到。
步骤206,根据文件所属的来源采用对应的过滤方式对文件进行过滤;过滤方式包含对文件进行内容过滤,具体为:获取文件的内容属性,筛选出内容属性符合预设条件的文件。
本实施例中,内容过滤的过滤方式是指基于文件内容属性进行过滤,比如基于文件内容中是否包含预设关键字、内容长度是否符合预设长度等,但并不限于此。结合内容过滤的方式,还可以对文件提供者进行属性判定,这种方式既基于文件内容的过滤,又基于与文件提供者有关的数据的过滤。其中,基于与文件者有关数据的过滤是指通过调用各类API获取文件提供者的各类数据,利用获取的各类数据对文件提供者的用户属性进行判定,从而根据用户属性进行文件的过滤。对于可信度较高的文件或者已经经过审核的文件则不需进行内容过滤,可直接推送。
内容属性是指与文件内容有关的属性特征,内容属性可用于对文件内容的质量进行评估。对文件可从多个层面来进行质量评估,因此可对文件设置不同的内容属性,通过各类API调用与对应的内容属性相关的数据。文件的来源不同,对文件设置的内容属性也可不同。
本实施例中,根据文件所属的来源采用对应的过滤方式对文件进行过滤,从而在发布文件之前就将大量不合格的文件过滤掉。由此减少了人工逐条审核的成本,提高了工作效率。
在一个实施例中,根据文件所属的来源采用对应的过滤方式对文件进行过滤的步骤,包括:若文件的来源为第一类型,则对文件进行内容过滤;若文件的来源为第二类型,则对文件进行文件者属性判定以及对文件进行内容过滤;若文件的来源为第三类型,则不过滤掉文件。
第一类型是指适用于仅进行内容过滤的文件的来源。包括但不限于来自媒体、外团的文件和具有较高关注度的论坛内容。对于来自媒体和外团的文件,由于具有专业性和内容可控性,直接进行内容过滤。对于具有较高关注度的论坛内容,由于可能存在负面影响,直接进行内容过滤。对于内容过滤,可通过与内容属性对应的API调用与内容属性相关的数据,根据调用的数据对来自第一类型的文件对应内容属性进行内容过滤,将不符合要求的文件过滤掉。
本实施例中,为每一种内容属性预设对应的条件。通过各类API调用与对应的内容属性相关的数据,根据调用的数据判断文件是否符合对应的内容属性的预设条件。
在一个实施例中,内容属性包括关键字、内容长度、图文属性和抄袭判定中的至少一种。对应的预设条件则可以为:对于关键字,预设条件为文件内容中包含预设的关键字或者不包含预设关键字(即非法关键字)。对于内容长度,预设条件为文件的内容长度应达到预设长度,比如,200个字以上。对于图文属性,预设条件文件内容应含有配图等。对于抄袭判定,预设条件为文件内容不能出现复制和抄袭的内容。
具体的,本实施例中,对于一些内容属性,则要求内容属性必须符合预设条件,否则文件将被过滤掉。比如,文件内容必须不包含预设关键字,文件的内容长度必须达到预设长度等。对于其它一些内容属性,可根据不同的应用场景要求内容属性是否必须符合预设条件。比如,对于图文属性,如果文件内容不包含图文,也可不过滤掉该文件,等等。
第二类型是指适用于进行文件提供者属性判定以及内容过滤的文件的来源,这类文件通常与一些应用有关,比如游戏应用、社交应用等等。其中,内容过滤与第一类型所使用的内容过滤方式相同。文件提供者属性判定可调用各类API获取到与文件提供者有关的各类数据,基于各类数据获取文件提供者的用户属性。用户属性包括但不限于用户在应用中的级别或者用户身份等,比如用户为高级用户或者用户为管理员等。
第三类型是指适用于直接推送的文件的来源,对于这类文件,通常可信度较高,比如,文件来自论坛推荐和论坛精华等,由于这类文件已经经过了一次人工审核,则对该类型的文件不必进行过滤,可将其直接推送给网站运营人员。
本实施例中,对于来自第一类型的文件直接进行内容过滤,筛选出内容属性符合预设条件的文件,对于来自第二类型的文件,进行文件提供者属性判定以及内容过滤,从而有针对性地过滤掉大量不合格的文件。对于来自第三类型的文件,由于已经过一次人工审核,直接推送给网站运营人员。根据文件的不同来源,采用不同的过滤方式,从而在发布文件之前就将大量不合格的文件过滤掉。由此减少了人工逐条审核的成本,提高了工作效率。
在一个实施例中,对文件进行内容过滤的步骤之后,还包括:根据内容属性符合预设条件的程度对文件进行排序。
本实施例中,内容属性符合预设条件的程度可以是过滤后的文件符合预设条件的内容属性的数量。例如,如果所有设置的内容属性都满足预设条件,则该文件排序靠前;符合预设条件的内容属性的数量越少,则排序越靠后。
在本实施例或另一个实施例中,在对文件进行内容过滤的步骤之后,还包括:当预设的内容属性符合预设条件时,对文件设置对应的第一属性标签。
预设的内容属性可以是上述关键字、内容长度、图文属性中的任意一种。本实施例中,预设的内容属性对应的预设条件是指预先设置的内容属性应满足的条件,该条件可不同于上述过滤文件时对应的预设条件。比如,对于关键字,预设条件为文件内容包含特定关键字,对于内容长度,过滤后的文件必须达到一定长度,比如1000字以上,通常比过滤所设置的长度要大。对于图文属性,则预设条件为文件内容中包含配图。如果过滤后的文件中,有上述预设的内容属性满足预设条件,则相应的对该文件设置对应的第一属性标签,该第一属性标签即为相应的属性标记。在将过滤后的文件进行展示时,以图标的形式展示相应的第一属性标签。
在一个实施例中,展示过滤后的文件的界面如图3所示。该界面上展示了过滤后的文件,网站运营人员可在该界面上对过滤后的文件进行人工审核。该界面图中设置有标题栏、时间栏、筛选栏、投放栏、分类栏、来源栏和操作栏。其中,标题栏为过滤后的文件对应的标题名称。时间栏为文件时间。筛选栏为文件是否已有网站运营人员进行过审核操作,包括已通过、待筛选和已打回。已通过表示文件已发布到外网,待筛选表示文件尚未进行审核,已打回表示文件不符合要求。投放栏为文件投放的渠道,包括官网、游戏等。分类栏为投投投放渠道下的频道,包括评测、技巧等。来源栏为文件的来源,包括论坛、外团等。操作栏为运营人员对文件进行审核后的操作,包括通过和打回,通过表示文件通过人工审核,打回表示文件不符合要求被打回。过滤后的文件中,有上述预设的内容属性满足预设条件,则相应的对该文件设置对应的第一属性标签。若过滤后的文件的内容长度比较长,达到预设长度以上,则在“这是一条系统推荐的游戏相关攻略标题名称”后展示图标“长”302,若过滤后的文件中还包含配图,则在“这是一条系统推荐的游戏相关攻略标题名称”后展示图标“图”304,等等。
根据内容属性是否满足预设条件来对文件进行过滤,能够有效过滤掉一些内容不合格的文件,减少了人工审核的成本。此外,对于过滤后的文件,根据其内容属性来进行排序,能够使得网站运营人员快速查看到一些内容质量较高的文件。而针对内容属性还可设置第一属性标签,进一步利于查看。
在一个实施例中,对文件进行文件提供者属性判定以及对文件进行内容过滤。其中,对文件进行文件提供者属性判定的步骤,如图4所示,包括:
步骤402,获取文件提供者的用户标识。
步骤404,根据用户标识调用各类接口拉取对应的各类数据。
步骤406,根据各类数据确定文件提供者针对各类数据对应的用户属性。
步骤408,根据用户属性对文件进行过滤。
本实施例中,文件提供者属性是指与文件提供者有关的用户属性。文件提供者的用户标识可以有多种,如对于媒体使用登录媒体平台的注册帐号,该账号即为对应的用户标识。对于即时通讯应用,该即时通讯号码即为对应的用户标识。对于游戏应用,用户平台中的注册帐号即为对应的用户标识,等等。根据文件提供者的用户标识调用各类API拉取与该用户标识对应的各类数据。根据调取的各类数据对应的用户属性对文件进行过滤。
在一个实施例中,各类数据包括游戏数据、论坛数据、即时通讯数据、历史记录中的至少一种。对应的用户属性可以包括积极的用户属性和消极的用户属性两种类型:如积极的用户属性可包括高级用户、积极拥护、活跃用户和优良记录用户等,而消极的用户属性可以是不良记录用户,等等。
游戏数据是指文件提供者在游戏方面的数据,其中包括角色等级、通关能力、装备道具、时长等。当文件提供者的游戏数据满足预设的要求时,则判定该文件提供者为高级用户。论坛数据是指与文件提供者在论坛的活跃程度相关的数据。当文件提供者在论坛有精华帖或者推荐贴或者较高关注度的帖子时,则判定该文件提供者为积极用户。即时通讯数据是指与文件提供者在即时通讯方面的活跃程度相关的数据。当存在文件提供者回复游戏缺陷或建议或技巧等方面的数据时,则判定该文件提供者为活跃用户。历史记录是指文件提供者是否有优良记录或不良记录等数据。当文件提供者在其他应用为高级用户或活跃用户时,则判定该文件提供者为优良记录用户。当文件提供者有抄袭、辱骂等记录数据时,则判定该文件提供者为不良记录用户。
具体的,本实施例中,若文件提供者对应的用户属性为积极的用户属性,则可对相应的文件进行权重加成。如高级用户、积极拥护、活跃用户以及优良记录用户的文件可分别加1分权重,权重可进行累加。若文件提供者对应的用户属性为消极的用户属性,则可减少相应的文件的权重,比如对不良记录用户的文件可减1分权重。
对第二类型的文件,除进行用户属性判定之外还需进行内容过滤。在一个实施例中,分别独立地进行文件提供者属性判定以及文件内容过滤。内容过滤与上述实施例中提及的内容过滤方式相同,根据文件提供者的用户属性结合内容过滤后的结果,过滤出质量合格的文件。
可以理解,当根据用户标识调用各类API获取不到与文件者账号相关的各类数据时,则不需再对该文件提供者进行文件提供者属性判定,可直接对其文件按照上述实施例中提到的内容过滤方式进行内容过滤。
在一个实施例中,对文件进行文件提供者属性判定的步骤之后,还包括:根据用户属性对文件进行排序。
本实施例中,根据用户属性得到的权重进行排序。权重高则排序靠前,权重低则排序靠后。
在本实施例或另一个实施例中,对文件进行文件提供者属性判定的步骤之后,还包括:当用户属性符合预设属性时,对文件设置对应的第二属性标签。
预设属性可以是上述高级用户、活跃用户、优良记录用户和不良记录用户中的任意一种。不同的预设属性具有对应的不同的第二属性标签。过滤后的文件中,若文件提供者的用户属性符合预设属性,则相应的对该文件设置与预设属性对应的第二属性标签,该第二属性标签即为相应的属性标记。在将过滤后的文件进行展示时,以图标的形式展示相应的第二属性标签。在一个实施例中,展示过滤后的文件的界面如图5所示。该界面上展示了过滤后的文件,网站运营人员可在该界面上对过滤后的文件进行人工审核。若过滤后的文件的文件提供者的用户属性为高级用户,则在“这是一条系统推荐的游戏相关攻略标题名称”后展示图标“高”502,若过滤后的文件的文件提供者的用户属性为优良记录用户,则在“这是一条系统推荐的游戏相关攻略标题名称”后展示图标“良”504,等等。
本实施例中,根据用户属性判定以及内容过滤,对文件进行过滤,能够有效过滤掉一些内容不合格的文件,减少了人工审核的成本。此外,对于过滤后的文件,根据其用户属性来进行排序,能够使得网站运营人员快速查看到一些内容质量较高的文件。而针对用户属性还可设置第二属性标签,进一步利于查看。
在一个实施例中,如图6所示,提供了一种文件过滤的系统,包括:第一获取模块602、第二获取模块604和过滤模块606,其中:
第一获取模块602,用于获取多个终端上传的文件。
第二获取模块604,用于获取文件所属的来源。
过滤模块606,用于根据文件所属的来源采用对应的过滤方式文件进行过滤;过滤方式包含对文件进行内容过滤,具体为:获取文件的内容属性,筛选出内容属性符合预设条件的文件。
在一个实施例中,如图7所示,过滤模块606包括:第一类型过滤模块616,第二类型过滤模块626和第三类型过滤模块636,其中:
第一类型过滤模块616,用于若文件的来源为第一类型,则对文件进行内容过滤。第一类型过滤模块616还用于获取文件的内容属性,过滤出内容属性符合预设条件的文件。
在一个实施例中,第一类型过滤模块616获取的内容属性包括关键字、内容长度、图文属性和抄袭判定中的至少一种。根据内容属性的预设条件,第一类型过滤模块616过滤出内容属性符合预设条件的文件。
第二类型过滤模块626,用于若文件的来源为第二类型,则对文件进行文件者属性判定以及对文件进行内容过滤。
第三类型过滤模块636,用于若文件的来源为第三类型,则不过滤掉所述文件。
本实施例中,第一类型过滤模块616用于对仅适合进行内容过滤的文件直接进行内容过滤,筛选出所述内容属性符合预设条件的文件。第二类型过滤模块626用于对文件进行文件者属性判定以及对文件进行内容过滤。第三类型过滤模块636用于将已经过一次人工审核的文件推送给网站运营人员。
在一个实施例中,如图8所示,该系统还包括:第一排序模块608,用于根据内容属性符合预设条件的程度对文件进行排序。
本实施例中,第一排序模块608用于根据过滤后的文件符合预设条件的内容属性的数量对文件进行排序。符合预设条件的内容属性的数量越多,则排序越靠前。
在本实施例或另一个实施例中,如图9所示,该系统还包括:第一标记模块610,用于当预设的内容属性符合预设条件时,对文件设置对应的第一属性标签。
本实施例中,第一标记模块610用于当预设的内容属性符合预先设置的内容属性应满足的条件时,对该文件设置对应的第一属性标签。在将过滤后的文件进行展示时,以小图标的形式展示相应的第一属性标签。
在一个实施例中,如图10所示,第二类型过滤模块626包括:用户标识获取模块626a,数据调用模块626b,用户属性确定模块626c,用户属性过滤模块626d,其中:
用户标识获取模块626a,用于获取文件提供者的用户标识。
数据调用模块626b,用于根据用户标识调用各类接口拉取对应的各类数据。
用户属性确定模块626c,用于根据各类数据确定文件提供者针对各类数据对应的用户属性。
用户属性过滤模块626d,用于根据用户属性对文件进行过滤。
在一个实施例中,数据调用模块626b拉取的各种数据包括游戏数据、论坛数据、即时通讯数据、历史记录中的至少一种。用户属性确定模块626c根据数据调用模块626b拉取的数据确定文件提供者针对各类数据对应的用户属性。用户属性过滤模块626d用于根据用户属性对文件进行过滤。本实施例中,对于第二类型的文件,第二类型过滤模块626用于对文件进行文件提供者属性判定以及对文件进行内容过滤,由此过滤出质量合格的文件。
在一个实施例中,如图11所示,该系统还包括:第二排序模块612,用于根据用户属性对文件进行排序。
本实施例中,第二排序模块612用于根据用户属性得到的权重进行排序。权重高则排序靠前,权重低则排序靠后。
在本实施例或另一个实施例中,如图12所示,该系统还包括:第二标记模块614,用于当用户属性符合预设属性时,对文件设置对应的第二属性标签。
本实施例中,第二标记模块614用于当用户属性符合预设属性时,对文件设置对应的第二属性标签。在将过滤后的文件进行展示时,以小图标的形式展示相应的第二属性标签。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述程序可存储于一计算机可读取存储介质中,如本发明实施例中,该程序可存储于计算机系统的存储介质中,并被该计算机系统中的至少一个处理器执行,以实现包括如上述各方法的实施例的流程。其中,所述存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random AccessMemory,RAM)等。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

Claims (15)

1.一种文件过滤的方法,所述方法包括:
通过调用不同的API获取多个终端上传的文件;
获取所述文件所属的来源;包括根据所述文件对应的API类型获取文件所属的来源;所述来源包括提供所述文件的外团、媒体、与应用相关的用户和论坛;
根据所述文件所属的来源采用对应的过滤方式对所述文件进行过滤;
所述过滤方式包含对所述文件进行内容过滤,具体为:根据所述文件所属的来源获取所述文件的内容属性,筛选出内容属性符合预设条件的文件,以及对所述文件进行文件提供者属性判定。
2.根据权利要求1所述的方法,其特征在于,所述根据所述文件所属的来源采用对应的过滤方式对所述文件进行过滤的步骤,包括:
若所述文件的来源为第一类型,则对所述文件进行内容过滤;
若所述文件的来源为第二类型,则对所述文件进行文件提供者属性判定以及对所述文件进行内容过滤;
若所述文件的来源为第三类型,则不过滤掉所述文件。
3.根据权利要求2所述的方法,其特征在于,在对所述文件进行内容过滤的步骤之后,还包括:
根据所述内容属性符合预设条件的程度对所述文件进行排序;和/或
当预设的内容属性符合预设条件时,对所述文件设置对应的第一属性标签。
4.根据权利要求1所述的方法,其特征在于,所述内容属性包括关键字、内容长度、图文属性和抄袭判定中的至少一种。
5.根据权利要求2所述的方法,其特征在于,所述对文件进行文件提供者属性判定的步骤,包括:
获取文件提供者的用户标识;
根据所述用户标识调用各类接口拉取对应的各类数据;
根据所述各类数据确定所述文件提供者针对所述各类数据对应的用户属性;
根据所述用户属性对所述文件进行过滤。
6.根据权利要求5所述的方法,其特征在于,在对文件进行文件提供者属性判定的步骤之后,还包括:
根据所述用户属性对所述文件进行排序;和/或
当所述用户属性符合预设属性时,对所述文件设置对应的第二属性标签。
7.根据权利要求5或6所述的方法,其特征在于,所述各类数据包括游戏数据、论坛数据、即时通讯数据、历史记录中的至少一种。
8.一种文件过滤的系统,其特征在于,所述系统包括:
第一获取模块,用于通过调用不同的API获取多个终端上传的文件;
第二获取模块,用于获取所述文件所属的来源;包括根据所述文件对应的API类型获取文件所属的来源;所述来源包括提供所述文件的外团、媒体、与应用相关的用户和论坛;
过滤模块,用于根据所述文件所属的来源采用对应的过滤方式对所述文件进行过滤;所述过滤方式包含对所述文件进行内容过滤,具体为:根据所述文件所属的来源获取所述文件的内容属性,筛选出内容属性符合预设条件的文件,以及对所述文件进行文件提供者属性判定。
9.根据权利要求8所述的系统,其特征在于,所述过滤模块包括:
第一类型过滤模块,用于若所述文件的来源为第一类型,则对所述文件进行内容过滤;
第二类型过滤模块,用于若所述文件的来源为第二类型,则对所述文件进行文件提供者属性判定以及对所述文件进行内容过滤;
第三类型过滤模块,用于若所述文件的来源为第三类型,则不过滤掉所述文件。
10.根据权利要求9所述的系统,其特征在于,所述系统还包括:
第一排序模块,用于根据所述内容属性符合预设条件的程度对所述文件进行排序;和/或
第一标记模块,用于当预设的内容属性符合预设条件时,对所述文件设置对应的第一属性标签。
11.根据权利要求8所述的系统,其特征在于,所述内容属性包括关键字、内容长度、图文属性和抄袭判定中的至少一种。
12.根据权利要求9所述的系统,其特征在于,所述第二类型过滤模块包括:
用户标识获取模块,用于获取文件提供者的用户标识;
数据调用模块,用于根据所述用户标识调用各类接口拉取对应的各类数据;
用户属性确定模块,用于根据所述各类数据确定所述文件提供者针对所述各类数据对应的用户属性;
用户属性过滤模块,用于根据所述用户属性对所述文件进行过滤。
13.根据权利要求12所述的系统,其特征在于,所述系统还包括:
第二排序模块,用于根据所述用户属性对所述文件进行排序;和/或
第二标记模块,用于当所述用户属性符合预设属性时,对所述文件设置对应的第二属性标签。
14.根据权利要求12或13所述的系统,其特征在于,所述各类数据包括游戏数据、论坛数据、即时通讯数据、历史记录中的至少一种。
15.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN201410373661.9A 2014-07-31 2014-07-31 文件过滤的方法和系统 Active CN105302839B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201410373661.9A CN105302839B (zh) 2014-07-31 2014-07-31 文件过滤的方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410373661.9A CN105302839B (zh) 2014-07-31 2014-07-31 文件过滤的方法和系统

Publications (2)

Publication Number Publication Date
CN105302839A CN105302839A (zh) 2016-02-03
CN105302839B true CN105302839B (zh) 2020-11-03

Family

ID=55200113

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410373661.9A Active CN105302839B (zh) 2014-07-31 2014-07-31 文件过滤的方法和系统

Country Status (1)

Country Link
CN (1) CN105302839B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105843912A (zh) * 2016-03-24 2016-08-10 新浪网技术(中国)有限公司 文件审核处理方法及装置
CN109460669A (zh) * 2017-09-06 2019-03-12 北京国双科技有限公司 一种基于Spark的文件过滤方法及装置
CN108491518B (zh) * 2018-03-26 2021-02-26 广州虎牙信息科技有限公司 审核文本的方法、装置、电子设备和存储介质

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7522910B2 (en) * 2002-05-31 2009-04-21 Oracle International Corporation Method and apparatus for controlling data provided to a mobile device
US20080027974A1 (en) * 2006-07-24 2008-01-31 Collins Donald W Intensity modulated radiation therapy filtration apparatus, system and method
CN100501738C (zh) * 2006-10-24 2009-06-17 北京搜狗科技发展有限公司 一种针对可播放媒体文件的搜索方法、系统及装置
CN101039326A (zh) * 2007-04-28 2007-09-19 华为技术有限公司 业务流识别方法、装置及分布式拒绝服务攻击防御方法、系统
CN102004725A (zh) * 2009-09-01 2011-04-06 刘旸 多媒体文件分类方法和服务器
CN103377213A (zh) * 2012-04-23 2013-10-30 富泰华工业(深圳)有限公司 文件上传系统及方法

Also Published As

Publication number Publication date
CN105302839A (zh) 2016-02-03

Similar Documents

Publication Publication Date Title
US10432562B2 (en) Reducing photo-tagging spam
US8788334B2 (en) Online marketing platform
US9848240B2 (en) Assessing digital content across a communications network
US9215243B2 (en) Identifying and ranking pirated media content
CA2823720C (en) Systems and method for displaying and categorizing news feed posts
CN112364202B (zh) 视频推荐方法、装置及电子设备
US9070110B2 (en) Identification of unknown social media assets
US7869098B2 (en) Scanning verification and tracking system and method
US20100100566A1 (en) Methods and Systems for Identifying the Fantasies of Users Based on Image Tagging
Liccardi et al. No technical understanding required: Helping users make informed choices about access to their personal data
Levi Social media and the press
US20140068437A1 (en) Computerized system and method of communicating about digital content
CN1993697A (zh) 网络内容组织工具
WO2009006606A1 (en) Online marketing platform
Dey et al. Profiling high-school students with facebook: how online privacy laws can actually increase minors' risk
CN105302839B (zh) 文件过滤的方法和系统
CN109033443B (zh) 推荐对象确定方法、装置、存储介质及计算机设备
CN106131684A (zh) 一种内容推荐方法及终端
Andrejevic et al. Unregulated and segmented dark ads on social media: Consumer education and regulatory options
CN106101765A (zh) 一种基于b2c的实时广告推送系统与方法
KR101174192B1 (ko) 서비스 모니터링 시스템 및 방법
CN114943005A (zh) 一种图片显示处理方法和装置
US11861036B1 (en) Systems and methods for managing private information
Smyth The new social media paradox: A symbol of self-determination or a boon for big brother?
KR100775648B1 (ko) 스팸 지수를 이용한 스팸 리스트 관리 방법 및 시스템

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant