CN105843912A - 文件审核处理方法及装置 - Google Patents

文件审核处理方法及装置 Download PDF

Info

Publication number
CN105843912A
CN105843912A CN201610171614.5A CN201610171614A CN105843912A CN 105843912 A CN105843912 A CN 105843912A CN 201610171614 A CN201610171614 A CN 201610171614A CN 105843912 A CN105843912 A CN 105843912A
Authority
CN
China
Prior art keywords
file
verification
need
manual examination
examination
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201610171614.5A
Other languages
English (en)
Inventor
王旋
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sina Technology China Co Ltd
Original Assignee
Sina Technology China Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sina Technology China Co Ltd filed Critical Sina Technology China Co Ltd
Priority to CN201610171614.5A priority Critical patent/CN105843912A/zh
Publication of CN105843912A publication Critical patent/CN105843912A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/11File system administration, e.g. details of archiving or snapshots
    • G06F16/122File system administration, e.g. details of archiving or snapshots using management policies

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Storage Device Security (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

本发明实施例提供一种文件审核处理方法及装置,该方法包括:获取待审核文件的概要信息,通过预设的概要过滤信息和所述概要信息,确定需屏蔽的文件和过滤通过的文件;获取过滤通过的文件的文件信息,通过预设的文件审核信息和所述文件信息,从所述过滤通过的文件中确定出需屏蔽的文件、允许公开的文件和需人工审核的文件;对所述需人工审核的文件提供给审核人员进行人工审核,获取人工审核结果确定出需屏蔽的文件和允许公开的文件。能够实现对各种格式文件的独立审核,其预览方便,审核的效率高,能够准确的发现和控制违规文件的公开发布,避免恶意内容造成的危害。

Description

文件审核处理方法及装置
技术领域
本发明涉及数据处理技术领域,尤指一种文件审核处理方法及装置。
背景技术
超文本预处理器(Hypertext Preprocessor,PHP)作为一种通用开源脚本语言,能够提供访问关系型数据库管理系统——MySQL的新界面。MySQL关联数据库将数据保存在不同的表中,而不是将所有数据放在一个大仓库内,这样就增加了速度并提高了灵活性,MySQL使用SQL语言访问数据库。
redis是一个关键字-值(key-value)存储系统,会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现主从(master-slave)同步。
数据库或存储系统中的文件在公开之前一般会进行文件审核,根据政策规定或自身策略要求对希望公开的文件在公开之前进行控制,净化网络环境,维护版权。例如:微盘的公开分享在生成外部链接之前就会进行文件审核。
由于文件种类的多样化,文档、视频、音频、图片、压缩包等多种多样的文件格式存在,在文件审核过程中,需要能够对着多种格式的文件均能进行有效的审核,以避免恶意分享、违规广告等不良内容被公开发布出去。
目前数据库和存储系统中,虽然也有一些文件审核的方法,但其并不能很好的实现对多种文件格式、多样化的文件内容的有效审核,其审核效率比较低、信息控制的准确性也比较差。
发明内容
本发明实施例提供一种文件审核处理方法及装置,用以解决现有技术中存在的文件审核效率低,不能实现对多种文件格式、多样化的文件内容的有效审核,违规内容控制准确性和有效性差的问题。
一方面,本发明实施例提供了一种文件审核处理方法,包括:
获取待审核文件的概要信息,通过预设的概要过滤信息和所述概要信息,确定需屏蔽的文件和过滤通过的文件;
获取过滤通过的文件的文件信息,通过预设的文件审核信息和所述文件信息,从所述过滤通过的文件中确定出需屏蔽的文件、允许公开的文件和需人工审核的文件;
对所述需人工审核的文件提供给审核人员进行人工审核,获取人工审核结果确定出需屏蔽的文件和允许公开的文件。
在一些可选的实施例中,通过预设的概要过滤信息和所述概要信息,确定需屏蔽的文件和过滤通过的文件,具体包括:
通过预设的文件的信息-摘要算法MD5黑名单和侵权词库,对待审核文件的MD5信息和文件名进行过滤,确定出需屏蔽的文件和过滤通过的文件。
在一些可选的实施例中,通过预设的文件审核信息和所述文件信息,从所述过滤通过的文件中确定出需屏蔽的文件、允许公开的文件和需人工审核的文件,具体包括:
将过滤通过的文件的文件信息与预设的分享白名单、违禁黄词和违禁红词分别进行匹配;
当与分享白名单匹配时,确定为允许公开的文件;
当与违禁黄词匹配时,确定为需屏蔽的文件;
当与违禁红词匹配时,确定为需人工审核的文件。
在一些可选的实施例中,对所述需人工审核的文件提供给审核人员进行人工审核,获取人工审核结果确定出需屏蔽的文件和允许公开的文件,具体包括:
对所述需人工审核的文件,根据不同的文件类型,生成可预览文件提供给审核人员审核;
当获取的人工审核结果为审核通过时,确定为允许公开的文件;当获取的人工审核结果为审核不通过时,确定为需屏蔽的文件。
在一些可选的实施例中,对所述需人工审核的文件,根据不同的文件类型,生成可预览文件,具体包括:
将所述需人工审核的文件推送到下载队列中,通过下载队列将需人工审核的文件下载到本地临时存放,并推送至处理队列中;
对处理队列中的文件,根据不同的文件类型,生成可预览文件。
在一些可选的实施例中,所述概要信息包括下列信息中的至少一个:文件的信息-摘要算法MD5信息、文件名;
所述文件信息包括下列信息中的至少一个:文件的唯一标识ID、分享用户标识UID、分享路径link、文件实际地址URL、文件名name、文件的MD5信息、文件类型type、分享时间time。
另一方面,本发明实施例提供了一种文件审核处理装置,包括:
筛选过滤模块,用于获取待审核文件的概要信息,通过预设的概要过滤信息和所述概要信息,确定需屏蔽的文件和过滤通过的文件;
信息审核模块,用于获取过滤通过的文件的文件信息,通过预设的文件审核信息和所述文件信息,从所述过滤通过的文件中确定出需屏蔽的文件、允许公开的文件和需人工审核的文件;
人工审核模块,用于对所述需人工审核的文件提供给审核人员进行人工审核,获取人工审核结果确定出需屏蔽的文件和允许公开的文件。
在一些可选的实施例中,所述筛选过滤模块,具体用于:
通过预设的文件的信息-摘要算法MD5黑名单和侵权词库,对待审核文件的MD5信息和文件名进行过滤,确定出需屏蔽的文件和过滤通过的文件。
在一些可选的实施例中,所述信息审核模块,具体用于:
将过滤通过的文件的文件信息与预设的分享白名单、违禁黄词和违禁红词分别进行匹配;
当与分享白名单匹配时,确定为允许公开的文件;
当与违禁黄词匹配时,确定为需屏蔽的文件;
当与违禁红词匹配时,确定为需人工审核的文件。
在一些可选的实施例中,所述人工审核模块,具体用于:
对所述需人工审核的文件,根据不同的文件类型,生成可预览文件提供给审核人员审核;
当获取的人工审核结果为审核通过时,确定为允许公开的文件;当获取的人工审核结果为审核不通过时,确定为需屏蔽的文件。
在一些可选的实施例中,所述人工审核模块,具体用于:
将所述需人工审核的文件推送到下载队列中,通过下载队列将需人工审核的文件下载到本地临时存放,并推送至处理队列中;
对处理队列中的文件,根据不同的文件类型,生成可预览文件。
上述技术方案具有如下有益效果:上述方法通过待审核文件的概要信息,进行初步过滤,确定出明显需要屏蔽的文件,对于其他待审核文件进一步通过文件信息匹配过滤,确定出需屏蔽的文件、允许公开的文件和需人工审核的文件;然后将需人工审核的文件提供给审核人员审核,进一步根据人工审核结果确定其中需屏蔽的文件和允许公开的文件;其审核的准确性和有效性比较高,能够高效率完成文件的审核,多个审核环节,可以避免错审漏审,对于多种文件格式、多样化的文件内容都能够进行有效的审核。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一中文件审核处理方法的流程图;
图2是本发明实施例二中文件审核处理方法的流程图;
图3是本发明实施例三中文件审核处理方法的原理示意图;
图4是本发明实施例中文件审核处理装置的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
为了解决现有技术中存在的文件审核效率低,不能实现对多种文件格式、多样化的文件内容的有效审核,违规内容控制准确性和有效性差等若干问题,本发明实施例提供一种文件审核处理方法,能够有效的实现对待审核文件的有效、准确审核。
实施例一
本发明实施例一提供的文件审核处理方法,其流程如图1所示,包括如下步骤:
步骤S101:获取待审核文件的概要信息。
当有文件需要审核时,获取待审核文件的概要信息,其中,概要信息包括下列信息中的至少一个:MD5信息和文件名。
步骤S102:通过预设的概要过滤信息和概要信息,确定需屏蔽的文件和过滤通过的文件。
该步骤中,初步区分过来,将明显需要屏蔽的文件先进行屏蔽,对于非明显需要屏蔽的文件则进一步审核。
具体实现中,可选的,通过预设的文件的信息-摘要算法(Message-DigestAlgorithm 5,MD5)黑名单和侵权词库,对待审核文件的MD5信息和文件名进行过滤,确定出需屏蔽的文件和过滤通过的文件。当然可选的,也可以仅通过MD5黑名单对待审核文件的MD5信息进行过滤,或仅通过侵权词库对待审核文件的文件名进行过滤。
步骤S103:获取过滤通过的文件的文件信息。
对于初步过滤通过的待审核文件,获取其文件信息,其中,文件信息包括下列信息中的至少一个:文件的唯一标识(ID)、分享用户标识(UID)、分享路径(1ink)、文件实际地址(URL)、文件名(name)、文件的MD5信息、文件类型(type)、分享时间(time)。
步骤S104:通过预设的文件审核信息和获取的文件信息,从过滤通过的文件中确定出需屏蔽的文件、允许公开的文件和需人工审核的文件。
该步骤中,从过滤通过的文件中确定出需屏蔽的文件、允许公开的文件和需人工审核的文件可以通过预设的过滤规则实现区分确定。
可选的,将过滤通过的文件的文件信息与预设的分享白名单、违禁黄词和违禁红词分别进行匹配;当与分享白名单匹配时,确定为允许公开的文件;当与违禁黄词匹配时,确定为需屏蔽的文件;当与违禁红词匹配时,确定为需人工审核的文件。
步骤S105:对需人工审核的文件提供给审核人员进行人工审核,获取人工审核结果确定出需屏蔽的文件和允许公开的文件。
该步骤中,通过人工审核的方式进一步识别上述步骤中不能肯定确定是否需要屏蔽的文件。
当文件类型多样化的情况下,可选的,对需人工审核的文件,根据不同的文件类型,生成可预览文件提供给审核人员审核,并获取人工审核的审核结果;当获取的人工审核结果为审核通过时,确定为允许公开的文件;当获取的人工审核结果为审核不通过时,确定为需屏蔽的文件。
具体实现中,可以将需人工审核的文件推送到下载队列中,通过下载队列将需人工审核的文件下载到本地临时存放,并推送至处理队列中;对处理队列中的文件,根据不同的文件类型,生成可预览文件提供给审核人员审核。
实施例二
本发明实施例二提供上述文件审核处理的一种具体实现方法,其流程如图2所示,包括如下步骤:
步骤S201:获取待审核文件的概要信息。
步骤S202:对概要信息进行MD5黑名单过滤。
过滤通过时执行步骤S203,否则执行步骤S210。其中,当概要信息与MD5黑名单中所列的名单不匹配时,过滤通过。
步骤S203:对概要信息进行侵权词库过滤。
过滤通过时执行步骤S204,否则执行步骤S210。其中,当概要信息与侵权词库中的侵权词不匹配时,过滤通过。
上述步骤S202和步骤S203的执行顺序不分先后,可以交换,实现通过预设的概要过滤信息和概要信息,确定需屏蔽的文件和过滤通过的文件。
上述步骤S202-步骤S203在待审核文件推送审核时,先推送一次前置审核,对文件的md5和文件名进行过滤,与MD5黑名单和侵权词库匹配的文件回调分享失败接口,通知推送平台屏蔽该文件;与MD5黑名单和侵权词库不匹配的文件,即为前置审核通过的文件,则金星进一步的审核。
步骤S204:获取过滤通过的文件的文件信息。
若通过前置审核,将文件信息推送至审核源文件的mysql数据库,文件信息包括:文件的唯一标识(id),分享用户(uid),分享的路径(link),文件实际地址(url),文件名(name),文件md5,文件类型(type),分享时间time等字段。
可选的,可以按照文件数目分为批量分享和单个文件分享分别进行处理。
步骤S205:对文件信息进行MD5分享白名单匹配。
若与分享白名单相匹配时,执行步骤S211;不匹配时执行步骤S206。其中,文件信息中有与白名单中包括的内容相匹配的内容时,认为文件信息与分享白名单相匹配,匹配通过,可以公开分享文件;否则匹配不通过。
步骤S206:对文件信息进行违禁黄词匹配。
若与违禁黄词相匹配通过时执行步骤S210;不匹配过时执行步骤S207。其中,文件信息中有与违禁黄词中包括的内容相匹配的内容时,认为文件信息与违禁黄词相匹配,匹配不通过,需要屏蔽文件;否则匹配通过。
步骤S207:对文件信息进行违禁红词匹配。
若与违禁红词相匹配通过时执行步骤S208,不匹配时执行步骤S211。其中,文件信息中有与违禁红词中包括的内容相匹配的内容时,认为文件信息与违禁红词相匹配,需要人工审核文件;否则不需要人工审核文件。
上述步骤S205-步骤S207,的执行顺序可以调整交换,实现将过滤通过的文件的文件信息与预设的分享白名单、违禁黄词和违禁红词分别进行匹配;当与分享白名单匹配时,确定为允许公开的文件;当与违禁黄词匹配时,确定为需屏蔽的文件;当与违禁红词匹配时,确定为需人工审核的文件。
步骤S208:将文件信息与违禁红词匹配的文件推送到下载队列中,下载到本地临时存放,并推送到处理队列中。
对于不与分享白名单相匹配也不与违禁黄词相匹配但其中包含违禁红词的文件,可以对其进行标记,例如将文件名标记为红色,在后台显示时,其文件名字符显示为红色,以表示是需要进行人工审核的文件。
将需要进行人工审核的文件,放入下载(download)队列中,通过下载队列将文件临时存放本地以便进行人工审核,暂时存放在本地的文件可以加入处理(deal)队列中,处理队列也可以设置一个或多个,例如:deal处理队列也可以设置16个,8个处理单个文件的分享的文件的人工审核,8个处理批量文件分享的文件的人工审核。
步骤S209:对处理队列中的文件,根据不同的文件类型,生成可预览文件提供给审核人员审核。
当文件类型多样化的情况下,对需人工审核的文件,根据不同的文件类型,生成可预览文件提供给审核人员审核,并获取人工审核结果;当获取的人工审核结果为审核通过时,确定为允许公开的文件,此时执行步骤S211;当获取的人工审核结果为审核不通过时,确定为需屏蔽的文件,此时执行步骤S210。
步骤S210:对文件进行屏蔽。
对于MD5信息过滤不通过的文件、文件名过滤不通过的文件、与违禁黄词相匹配的文件进行屏蔽。
步骤S211:将文件回调至分享接口。
对与分享白名单相匹配的文件、不与分享白名单相匹配但也不与违禁黄词相匹配也不包含违禁红词的文件,允许公开分享,将文件回调至分享接口进行分享。
上述方法中,可以通过多个审查(audit)实现待审核文件的审核,例如:audit队列可以设置16个,8个处理单个文件分享的文件审核,8个处理批量文件分享的文件审核。单个文件和批量文件处理的脚本处理的数据字段信息不同,单个文件处理队列不重复的从数据库中取信息后,对MD5信息和文件名进行过滤,以及进行分享白名单、违禁黄词和违禁红词匹配等步骤。批量文件审核时,将记录中的多个文件的信息分别进行上述过滤处理。
实施例三
本发明实施例三提供的文件审核实现方法,其原理如图3所示。
根据上述实施例二所述的方法,待审核文件经过MD5信息和文件名过滤等前置审核,以及分享白名单、违禁红词、违禁黄词匹配后,按照分享的策略可以分为先公开后审核的文件和先审核后公开的文件。对于文档类,容易出现违规色情等方便的信息,对这类文件先审核才能公开分享,其他格式的,为了用户体验,可以先公开后审核。因此,根据文件的格式按照当前的策略,对非文档格式的文件全部先回调分享接口进行分享,允许公开可见,再继续进行处理。
如图3所示的,待审核文件推送审核之后,经过MD5信息和文件名过滤等前置审核,以及分享白名单、违禁红词、违禁黄词匹配后,进入审核队列。在文件进行分享时,先过前置审核,对文件名称和md5进行控制,可以从一定程度上避免恶意广告违规公开分享。对文件进行分享(shal)白名单,违禁词匹配,可以进一步避免恶意内容,之后对于不十分确定能够公开或需要屏蔽的文件进一步人工审核,使审核结果更准确、有效。
由于文件格式的多样化,因此需要支持多种文件的预览审核,微盘推送审核的文件可以分为文档、视频、音频、图片、压缩包、其他格式。对文档类支持预览,视频类支持随机截图预览,图片缩略图预览,压缩包解压后的文件结构预览。各种格式文件审核可以分开进行,模块可以独立,单个文件可以进行下载。审核管理后台可以方便支持审核每一条记录或者批量审核。统计审核人员的工作量、历史记录,合理分配资源。
如图3所示的,加入审核队列——deal处理队列中的文件,按照文件的格式分别处理,以便方便的提供给人工审核:
例如:文档类文件,比如,文字文件(doc)、演示文稿(ppt)、电子表格文件(xls)、便携式文档格式文件(pdf)等文档类型推送给转码平台进行转码,将转码成功的png路径写到数据表里,留作预览使用;人工审核时,若发现其内容进行违禁词的黄词和红词匹配,黄词匹配成功屏蔽文件,也可以直接删除;红词匹配成功则将匹配部分写入数据表记录,留作预览使用。文本(txt)类型的只进行内容过滤,过滤方案同其他文档类型。
例如:视频类文件,视频文件将视频中不同时间点截取4张图片,合并之后拼成一张图片,在本地生成文件,将路径写入到数据表。
例如:图片类文件,图片类文件将图片的缩小成固定大小,生成本地文件,将路径写入导数据表。
例如:压缩包文件,压缩包文件将文件推送给解压队列,解压后的文件目录信息写入到数据表里。
其他格式,不作处理,也可以制定相应的处理策略。
各种格式的文件处理完毕后将数据表中该文件的状态置为正常(normal),供管理后台取数据。
管理后台是进行审核、控制词库、权限控制的平台,按照权限分配审核的项目。管理后台的显示文件状态为normal的待审核文件,即为已经处理好可供展示的文件,一次获取20条记录。每条记录主要显示的是文件名、内容以及分享时间等。若audit队列过滤文件名时有红词命中,则标题匹配到的进行标红。文件的内容预览按照前面不同格式的文件,显示方式不同。具体为:
例如:文档类文件,doc、ppt、xls、pdf显示转化后的预览图片。txt类型的若内容有匹配红词,则将红词匹配到的予以标注。
例如:视频类文件,将拼成的图片进行显示。
例如:图片类文件,将缩略图进行显示。
例如:压缩包文件,展示压缩包展开后的文件目录中的各文件名称。
例如:其他格式,仅展示文件名。
各种格式的文件点击文件名可下载,方便对其进行人工审核。审核时,对单个文件进行操作,操作结果会回调分享或屏蔽接口,完成审核。对批量文件操作,也是逐个回调分享或屏蔽接口。
本发明实施例的上述方法,一方面,设置侵权词、违禁词、分享白名单和MD5黑名单等,设置机器前置审核的操作行为,另一方面,也可以对每个文件根据文件类型分类处理,生成视频截图、文档预览图、内容标注、压缩包展开的目录等方式进行展示。该方法可以提供一种可视化的文件详情,可根据政策调整拦截策略,各种格式的文件审核独立,预览方便,准确审核效率高,有效控制违规文件公开分享后的危害。不同文件审核的策略不同,从而使审核结果更准确,可靠性更高。
基于同一发明构思,本发明实施例还提供一种文件审核处理装置,其结构如图4所示,包括:筛选过滤模块101、信息审核模块102和人工审核模块103。
筛选过滤模块101,用于获取待审核文件的概要信息,通过预设的概要过滤信息和概要信息,确定需屏蔽的文件和过滤通过的文件。
信息审核模块102,用于获取过滤通过的文件的文件信息,通过预设的文件审核信息和所述文件信息,从过滤通过的文件中确定出需屏蔽的文件、允许公开的文件和需人工审核的文件。
人工审核模块103,用于对需人工审核的文件提供给审核人员进行人工审核,获取人工审核结果确定出需屏蔽的文件和允许公开的文件。
优选的,上述筛选过滤模块101,具体用于通过预设的文件的信息-摘要算法MD5黑名单和侵权词库,对待审核文件的MD5信息和文件名进行过滤,确定出需屏蔽的文件和过滤通过的文件。
优选的,上述信息审核模块102,具体用于将过滤通过的文件的文件信息与预设的分享白名单、违禁黄词和违禁红词分别进行匹配;当与分享白名单匹配时,确定为允许公开的文件;当与违禁黄词匹配时,确定为需屏蔽的文件;当与违禁红词匹配时,确定为需人工审核的文件。
优选的,上述人工审核模块103,具体用于对需人工审核的文件,根据不同的文件类型,生成可预览文件提供给审核人员审核;当获取的人工审核结果为审核通过时,确定为允许公开的文件;当获取的人工审核结果为审核不通过时,确定为需屏蔽的文件。
优选的,上述人工审核模块103,具体用于将需人工审核的文件推送到下载队列中,通过下载队列将需人工审核的文件下载到本地临时存放,并推送至处理队列中;对处理队列中的文件,根据不同的文件类型,生成可预览文件。
本领域技术人员还可以了解到本发明实施例列出的各种说明性逻辑块(illustrativelogical block),单元,和步骤可以通过电子硬件、电脑软件,或两者的结合进行实现。为清楚展示硬件和软件的可替换性(interchangeability),上述的各种说明性部件(illustrativecomponents),单元和步骤已经通用地描述了它们的功能。这样的功能是通过硬件还是软件来实现取决于特定的应用和整个系统的设计要求。本领域技术人员可以对于每种特定的应用,可以使用各种方法实现所述的功能,但这种实现不应被理解为超出本发明实施例保护的范围。
本发明实施例中所描述的各种说明性的逻辑块,或单元都可以通过通用处理器,数字信号处理器,专用集成电路(ASIC),现场可编程门阵列或其它可编程逻辑装置,离散门或晶体管逻辑,离散硬件部件,或上述任何组合的设计来实现或操作所描述的功能。通用处理器可以为微处理器,可选地,该通用处理器也可以为任何传统的处理器、控制器、微控制器或状态机。处理器也可以通过计算装置的组合来实现,例如数字信号处理器和微处理器,多个微处理器,一个或多个微处理器联合一个数字信号处理器核,或任何其它类似的配置来实现。
本发明实施例中所描述的方法或算法的步骤可以直接嵌入硬件、处理器执行的软件模块、或者这两者的结合。软件模块可以存储于RAM存储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动磁盘、CD-ROM或本领域中其它任意形式的存储媒介中。示例性地,存储媒介可以与处理器连接,以使得处理器可以从存储媒介中读取信息,并可以向存储媒介存写信息。可选地,存储媒介还可以集成到处理器中。处理器和存储媒介可以设置于ASIC中,ASIC可以设置于用户终端中。可选地,处理器和存储媒介也可以设置于用户终端中的不同的部件中。
在一个或多个示例性的设计中,本发明实施例所描述的上述功能可以在硬件、软件、固件或这三者的任意组合来实现。如果在软件中实现,这些功能可以存储与电脑可读的媒介上,或以一个或多个指令或代码形式传输于电脑可读的媒介上。电脑可读媒介包括电脑存储媒介和便于使得让电脑程序从一个地方转移到其它地方的通信媒介。存储媒介可以是任何通用或特殊电脑可以接入访问的可用媒体。例如,这样的电脑可读媒体可以包括但不限于RAM、ROM、EEPROM、CD-ROM或其它光盘存储、磁盘存储或其它磁性存储装置,或其它任何可以用于承载或存储以指令或数据结构和其它可被通用或特殊电脑、或通用或特殊处理器读取形式的程序代码的媒介。此外,任何连接都可以被适当地定义为电脑可读媒介,例如,如果软件是从一个网站站点、服务器或其它远程资源通过一个同轴电缆、光纤电缆、双绞线、数字用户线(DSL)或以例如红外、无线和微波等无线方式传输的也被包含在所定义的电脑可读媒介中。所述的碟片(disk)和磁盘(disc)包括压缩磁盘、镭射盘、光盘、DVD、软盘和蓝光光盘,磁盘通常以磁性复制数据,而碟片通常以激光进行光学复制数据。上述的组合也可以包含在电脑可读媒介中。
以上所述的具体实施方式,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施方式而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (10)

1.一种文件审核处理方法,其特征在于,包括:
获取待审核文件的概要信息,通过预设的概要过滤信息和所述概要信息,确定需屏蔽的文件和过滤通过的文件;
获取过滤通过的文件的文件信息,通过预设的文件审核信息和所述文件信息,从所述过滤通过的文件中确定出需屏蔽的文件、允许公开的文件和需人工审核的文件;
对所述需人工审核的文件提供给审核人员进行人工审核,获取人工审核结果确定出需屏蔽的文件和允许公开的文件。
2.如权利要求1所述的方法,其特征在于,通过预设的概要过滤信息和所述概要信息,确定需屏蔽的文件和过滤通过的文件,具体包括:
通过预设的文件的信息-摘要算法MD5黑名单和侵权词库,对待审核文件的MD5信息和文件名进行过滤,确定出需屏蔽的文件和过滤通过的文件。
3.如权利要求1所述的方法,其特征在于,通过预设的文件审核信息和所述文件信息,从所述过滤通过的文件中确定出需屏蔽的文件、允许公开的文件和需人工审核的文件,具体包括:
将过滤通过的文件的文件信息与预设的分享白名单、违禁黄词和违禁红词分别进行匹配;
当与分享白名单匹配时,确定为允许公开的文件;
当与违禁黄词匹配时,确定为需屏蔽的文件;
当与违禁红词匹配时,确定为需人工审核的文件。
4.如权利要求1所述的方法,其特征在于,对所述需人工审核的文件提供给审核人员进行人工审核,获取人工审核结果确定出需屏蔽的文件和允许公开的文件,具体包括:
对所述需人工审核的文件,根据不同的文件类型,生成可预览文件提供给审核人员审核;
当获取的人工审核结果为审核通过时,确定为允许公开的文件;当获取的人工审核结果为审核不通过时,确定为需屏蔽的文件。
5.如权利要求4所述的方法,其特征在于,对所述需人工审核的文件,根据不同的文件类型,生成可预览文件,具体包括:
将所述需人工审核的文件推送到下载队列中,通过下载队列将需人工审核的文件下载到本地临时存放,并推送至处理队列中;
对处理队列中的文件,根据不同的文件类型,生成可预览文件。
6.一种文件审核处理装置,其特征在于,包括:
筛选过滤模块,用于获取待审核文件的概要信息,通过预设的概要过滤信息和所述概要信息,确定需屏蔽的文件和过滤通过的文件;
信息审核模块,用于获取过滤通过的文件的文件信息,通过预设的文件审核信息和所述文件信息,从所述过滤通过的文件中确定出需屏蔽的文件、允许公开的文件和需人工审核的文件;
人工审核模块,用于对所述需人工审核的文件提供给审核人员进行人工审核,获取人工审核结果确定出需屏蔽的文件和允许公开的文件。
7.如权利要求6所述的装置,其特征在于,所述筛选过滤模块,具体用于:
通过预设的文件的信息-摘要算法MD5黑名单和侵权词库,对待审核文件的MD5信息和文件名进行过滤,确定出需屏蔽的文件和过滤通过的文件。
8.如权利要求6所述的装置,其特征在于,所述信息审核模块,具体用于:
将过滤通过的文件的文件信息与预设的分享白名单、违禁黄词和违禁红词分别进行匹配;
当与分享白名单匹配时,确定为允许公开的文件;
当与违禁黄词匹配时,确定为需屏蔽的文件;
当与违禁红词匹配时,确定为需人工审核的文件。
9.如权利要求6所述的装置,其特征在于,所述人工审核模块,具体用于:
对所述需人工审核的文件,根据不同的文件类型,生成可预览文件提供给审核人员审核;
当获取的人工审核结果为审核通过时,确定为允许公开的文件;当获取的人工审核结果为审核不通过时,确定为需屏蔽的文件。
10.如权利要求9所述的装置,其特征在于,所述人工审核模块,具体用于:
将所述需人工审核的文件推送到下载队列中,通过下载队列将需人工审核的文件下载到本地临时存放,并推送至处理队列中;
对处理队列中的文件,根据不同的文件类型,生成可预览文件。
CN201610171614.5A 2016-03-24 2016-03-24 文件审核处理方法及装置 Pending CN105843912A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610171614.5A CN105843912A (zh) 2016-03-24 2016-03-24 文件审核处理方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610171614.5A CN105843912A (zh) 2016-03-24 2016-03-24 文件审核处理方法及装置

Publications (1)

Publication Number Publication Date
CN105843912A true CN105843912A (zh) 2016-08-10

Family

ID=56583250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610171614.5A Pending CN105843912A (zh) 2016-03-24 2016-03-24 文件审核处理方法及装置

Country Status (1)

Country Link
CN (1) CN105843912A (zh)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108549815A (zh) * 2018-04-02 2018-09-18 郑州云海信息技术有限公司 一种白名单库管理系统及方法
CN108829656A (zh) * 2017-05-03 2018-11-16 腾讯科技(深圳)有限公司 网络信息的数据处理方法及数据处理装置
CN108984665A (zh) * 2018-06-29 2018-12-11 杭州当虹科技股份有限公司 一种高效视频内容联合检测方法
CN109918202A (zh) * 2019-03-08 2019-06-21 上海七牛信息技术有限公司 信息处理方法、装置及存储介质
CN110134785A (zh) * 2019-04-15 2019-08-16 平安普惠企业管理有限公司 论坛文章的管理方法、装置、存储介质及设备
CN110263132A (zh) * 2019-04-17 2019-09-20 阿里巴巴集团控股有限公司 项目案件推送方法以及装置
CN111612370A (zh) * 2020-05-28 2020-09-01 上海卓越睿新数码科技有限公司 快速审核课程内容的技术方法
CN111695881A (zh) * 2020-06-18 2020-09-22 行吟信息科技(武汉)有限公司 一种企业数据仓库管理方法及平台
CN111698313A (zh) * 2020-06-08 2020-09-22 上海敬贤信息科技有限公司 一种在线技术资料下载方法
CN111967245A (zh) * 2020-07-09 2020-11-20 福建亿榕信息技术有限公司 一种自动审核校验文档的方法、装置、及计算机设备
CN112348615A (zh) * 2020-03-24 2021-02-09 北京沃东天骏信息技术有限公司 用于审核信息的方法和装置
CN112836160A (zh) * 2021-01-29 2021-05-25 世纪龙信息网络有限责任公司 一种内容审核方法、装置和设备
CN115134615A (zh) * 2021-03-29 2022-09-30 北京字节跳动网络技术有限公司 语音评论信息处理方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101303734A (zh) * 2008-06-25 2008-11-12 腾讯科技(深圳)有限公司 图片检测系统及方法
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
US20130262473A1 (en) * 2012-03-27 2013-10-03 The Travelers Indemnity Company Systems, methods, and apparatus for reviewing file management
CN105302839A (zh) * 2014-07-31 2016-02-03 腾讯科技(深圳)有限公司 文件过滤的方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101303734A (zh) * 2008-06-25 2008-11-12 腾讯科技(深圳)有限公司 图片检测系统及方法
CN102098332A (zh) * 2010-12-30 2011-06-15 北京新媒传信科技有限公司 一种内容审核方法和装置
US20130262473A1 (en) * 2012-03-27 2013-10-03 The Travelers Indemnity Company Systems, methods, and apparatus for reviewing file management
CN105302839A (zh) * 2014-07-31 2016-02-03 腾讯科技(深圳)有限公司 文件过滤的方法和系统

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108829656A (zh) * 2017-05-03 2018-11-16 腾讯科技(深圳)有限公司 网络信息的数据处理方法及数据处理装置
CN108549815A (zh) * 2018-04-02 2018-09-18 郑州云海信息技术有限公司 一种白名单库管理系统及方法
CN108549815B (zh) * 2018-04-02 2021-08-20 郑州云海信息技术有限公司 一种白名单库管理系统及方法
CN108984665A (zh) * 2018-06-29 2018-12-11 杭州当虹科技股份有限公司 一种高效视频内容联合检测方法
CN109918202A (zh) * 2019-03-08 2019-06-21 上海七牛信息技术有限公司 信息处理方法、装置及存储介质
CN110134785A (zh) * 2019-04-15 2019-08-16 平安普惠企业管理有限公司 论坛文章的管理方法、装置、存储介质及设备
CN110263132A (zh) * 2019-04-17 2019-09-20 阿里巴巴集团控股有限公司 项目案件推送方法以及装置
CN110263132B (zh) * 2019-04-17 2023-01-10 创新先进技术有限公司 项目案件推送方法以及装置
CN112348615A (zh) * 2020-03-24 2021-02-09 北京沃东天骏信息技术有限公司 用于审核信息的方法和装置
CN111612370A (zh) * 2020-05-28 2020-09-01 上海卓越睿新数码科技有限公司 快速审核课程内容的技术方法
CN111698313A (zh) * 2020-06-08 2020-09-22 上海敬贤信息科技有限公司 一种在线技术资料下载方法
CN111695881A (zh) * 2020-06-18 2020-09-22 行吟信息科技(武汉)有限公司 一种企业数据仓库管理方法及平台
CN111967245A (zh) * 2020-07-09 2020-11-20 福建亿榕信息技术有限公司 一种自动审核校验文档的方法、装置、及计算机设备
CN112836160A (zh) * 2021-01-29 2021-05-25 世纪龙信息网络有限责任公司 一种内容审核方法、装置和设备
CN115134615A (zh) * 2021-03-29 2022-09-30 北京字节跳动网络技术有限公司 语音评论信息处理方法、装置、电子设备及存储介质

Similar Documents

Publication Publication Date Title
CN105843912A (zh) 文件审核处理方法及装置
US10789597B2 (en) Systems and methods for using a distributed ledger for data handling
CN107409126A (zh) 用于保护企业计算环境安全的系统和方法
US9721099B2 (en) Systems and methods for identifying associations between malware samples
CN109492351A (zh) 基于区块链的版权保护方法、装置及可读存储介质
CN116194922A (zh) 保护文档中的敏感数据
Knuutila et al. COVID-related misinformation on Youtube
CN105915330A (zh) 一种资料安全共享方法及系统
Zharova Ensuring the information security of information communication technology users in Russia
CN109411073A (zh) 医疗数据集成系统
WO2018167328A1 (en) Data processing apparatus and methods
US11093634B1 (en) Data security
Guarda Telemedicine and Application Scenarios: Common Privacy and Security Requirements in the European Union Context
Thai et al. A framework for website security assessment
Mercuri Courtroom considerations in digital image forensics
CA3172971A1 (en) Computing system for configurable off-chain storage for blockchains
Rath et al. Sovereign Clouds—An overview of the current privacy challenges associated with the use of US cloud services, and how sovereign clouds can address these challenges
EP2667564A1 (en) Method and system for enabling multi-level policies enforcement
Gumilar et al. Personal Data Protection Framework for Web Developers and API Providers under UU PDP
CN103546473B (zh) 一种基于浏览器的业务系统动态隔离保护方法及系统
CN115935421B (zh) 一种数据产品发布方法、系统及存储介质
Sun Analysis on Legal Issues of Digital Property Inheritance Under The Background of Digital Survival Era
Biasiotti et al. The way forward: A roadmap for the European Union
Riswandi et al. Regulation of Copyright Translation of Literature on Digital Platforms: A Comparative Study
Gunadi et al. Juridical Analysis on the Copyright of Modification and Customization of Android Software

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160810