CN111385129A - 全球化内容审核方法、装置、计算机设备及存储介质 - Google Patents

全球化内容审核方法、装置、计算机设备及存储介质 Download PDF

Info

Publication number
CN111385129A
CN111385129A CN201811644086.6A CN201811644086A CN111385129A CN 111385129 A CN111385129 A CN 111385129A CN 201811644086 A CN201811644086 A CN 201811644086A CN 111385129 A CN111385129 A CN 111385129A
Authority
CN
China
Prior art keywords
auditing
content
target
node
audit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201811644086.6A
Other languages
English (en)
Inventor
黄振辉
管新蒙
侯俊丞
徐子为
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Baiguoyuan Information Technology Co Ltd
Original Assignee
Guangzhou Baiguoyuan Information Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Baiguoyuan Information Technology Co Ltd filed Critical Guangzhou Baiguoyuan Information Technology Co Ltd
Priority to CN201811644086.6A priority Critical patent/CN111385129A/zh
Publication of CN111385129A publication Critical patent/CN111385129A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/10Protocols in which an application is distributed across nodes in the network
    • H04L67/1097Protocols in which an application is distributed across nodes in the network for distributed storage of data in networks, e.g. transport arrangements for network file system [NFS], storage area networks [SAN] or network attached storage [NAS]
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L41/00Arrangements for maintenance, administration or management of data switching networks, e.g. of packet switching networks
    • H04L41/04Network management architectures or arrangements
    • H04L41/042Network management architectures or arrangements comprising distributed management centres cooperatively managing the network

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明实施例公开了一种全球化内容审核方法、装置、计算机设备及存储介质,包括:获取客户端发送的内容审核请求,其中,内容审核请求包括地址信息以及目标内容;根据地址信息分配目标内容至符合预设的第一匹配规则的目标审核节点以对目标内容进行内容审核,其中,目标审核节点为分布式审核系统中的一个审核中心;将目标审核节点回传的审核结果发送回客户端。本申请通过在全球部署多个机器审核节点区域中心集群,以及通过智能代理系统实现的机器内容审核本地化和服务高容灾性,采用就近内容审核处理方式,使机器内容审核响应速度快,网络带宽少,服务可用性高,在部分区域中心故障的时候,依然能保证服务可用。

Description

全球化内容审核方法、装置、计算机设备及存储介质
技术领域
本申请涉及互联网技术领域,具体而言,本申请涉及一种全球化内容审核方法、装置、计算机设备及存储介质。
背景技术
近年来,中国互联网企业出海,从工具类产品,逐步深入到社交、直播、短视频等涉及内容类的产品。产品全球化之后,如何对全球的海量内容进行审核,这是一个难题。
目前主流的方案有两种:一是将全球内容集中存储,在存储点进行机器审核。二是将全球内容分区部署,但是机器审核还是部署在一个点,审核时跨区访问存储拉取内容数据来进行审核。
现有的内容机器审核系统,无论产生的时候分开存储还是集中存储,最终在进行机器审核的时候,都需要将内容集中起来。在全球化的背景下,为了将数据集中起来,需要将全球海量内容进行跨区域传输。由于跨区域传输存在网络延迟高、易波动的问题,集中式内容机器审核系统的响应速度慢,甚至有时候某些区域还会出现无法提供服务的情况。
发明内容
基于以上问题,本申请公开一种全球化内容审核方法、装置、计算机设备及存储介质,采用就近内容审核处理方式,提高内容审核速度以及服务的容灾性。
本申请的实施例根据第一个方面,提供了一种全球化内容审核方法,包括:
获取客户端发送的内容审核请求,其中,所述内容审核请求包括地址信息以及目标内容;
根据所述地址信息分配所述目标内容至符合预设的第一匹配规则的目标审核节点以对所述目标内容进行内容审核,其中,所述目标审核节点为分布式审核系统中的一个审核中心;
将所述目标审核节点回传的审核结果发送回客户端。
可选的,所述第一匹配规则为根据网络传输速度确定目标审核节点,所述根据所述地址信息分配所述目标内容至符合预设的第一匹配规则的目标审核节点的方法包括:
根据所述地址信息获取与所述地址信息之间的距离小于预设的距离阈值的多个审核节点;
判断所述多个审核节点中各个审核节点的网络速度是否大于预设的速度阈值;
选取所述多个审核节点中网络速度大于预设的速度阈值作为预审核节点,并根据所述预审核节点确定目标审核节点。
可选的,所述根据所述预审核节点确定目标审核节点的方法包括:
判断所述预审核节点的系统负载是否小于预设的负载阈值;
选取所述系统负载小于负载阈值的预审核节点中距离所述地址信息表征的地理位置最近的审核节点为目标审核节点。
可选的,所述选取所述多个审核节点中网络速度大于预设的速度阈值作为预审核节点,并根据所述预审核节点确定目标审核节点之前,还包括:
当所述多个审核节点的网络速度均小于等于预设的速度阈值时,根据预设的增量阈值增大所述距离阈值的囊括范围,以使在更大的距离半径内搜索网络速度大于预设的所述速度阈值的审核节点。
可选的,所述目标审核节点对所述目标内容进行内容审核的方法包括:
将所述目标内容进行暂存;
调用处于暂存状态的所述目标内容,并对所述目标内容根据预设的审核规则进行审核;
获取审核结果并将审核结果回调至客户端。
可选的,所述目标内容通过kafka存储机制进行暂存。
可选的,所述调用处于暂存状态的所述目标内容,并对所述目标内容根据预设的审核规则进行审核的方法包括:
获取所述目标内容的数据大小;
判断所述数据大小是否大于预设参数值;
当所述数据大小大于所述预设参数值时,将所述目标内容放入慢队列中进行存储,并优先处理未存入慢队列中的目标内容。
另一方面,本申请还公开一种全球化内容审核装置,包括:
获取模块:被配置为执行获取客户端发送的内容审核请求,其中,所述内容审核请求包括地址信息以及目标内容;
处理模块:被配置为执行根据所述地址信息分配所述目标内容至符合预设的第一匹配规则的目标审核节点以对所述目标内容进行内容审核,其中,所述目标审核节点为分布式审核系统中的一个审核中心;
执行模块:被配置为执行将所述目标审核节点回传的审核结果发送回客户端。
可选的,所述第一匹配规则为根据网络传输速度确定目标审核节点,所述处理模块包括:
节点获取模块:被配置为执行根据所述地址信息获取与所述地址信息之间的距离小于预设的距离阈值的多个审核节点;
速度判断模块:被配置为执行判断所述多个审核节点中各个审核节点的网络速度是否大于预设的速度阈值;
目标审核节点确定模块:被配置为执行选取所述多个审核节点中网络速度大于预设的速度阈值作为预审核节点,并根据所述预审核节点确定目标审核节点。
可选的,目标审核节点确定模块还包括:
负载对比模块:被配置为执行判断所述预审核节点的系统负载是否小于预设的负载阈值;
选择模块:被配置为执行选取所述系统负载小于负载阈值的预审核节点中距离所述地址信息表征的地理位置最近的审核节点为目标审核节点。
可选的,所述处理模块还包括:
增量模块:被配置为执行当所述多个审核节点的网络速度均小于等于预设的速度阈值时,根据预设的增量阈值增大所述距离阈值的囊括范围,以使在更大的距离半径内搜索网络速度大于预设的所述速度阈值的审核节点。
可选的,所述处理模块还包括:
第一存储模块:被配置为执行将所述目标内容进行暂存;
内容识别模块:被配置为执行调用处于暂存状态的所述目标内容,并对所述目标内容根据预设的审核规则进行审核;
机审回调模块:被配置为执行获取审核结果并将审核结果回调至客户端。
可选的,所述第一存储模块通过kafka存储机制对所述目标内容进行暂存。
可选的,所述内容识别模块还包括:
参数获取模块:被配置为执行获取所述目标内容的数据大小值;
判断模块:被配置为执行判断所述数据大小是否大于预设参数值;
慢队列处理模块:被配置为执行当所述数据大小大于所述预设参数值时,将所述目标内容放入慢队列中进行存储,并优先处理未存入慢队列中的目标内容。
本申请的实施例根据第三个方面,还提供了一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述全球化内容审核方法的步骤。
本申请的实施例根据第四个方面,还提供了一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述全球化内容审核方法的步骤。
本申请实施例的有益效果是:本申请通过在全球部署多个机器审核节点,通过一定的规则对内容审核请求匹配对应的审核节点,以实现内容审核的本地化处理,将内容审核分散处理,也提高了内容审核服务的容灾性。本申请采用就近内容审核处理方式,使机器内容审核响应速度快,网络带宽少,服务可用性高,在部分区域中心故障的时候,依然能保证服务可用。
附图说明
本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
图1为本申请一个实施例的全球化内容审核方法流程示意图;
图2为本申请一个具体实施例的审核节点全球分布示意图;
图3为本申请一个具体实施例的获取预审核节点的方法示意图;
图4为本申请一个实施例的获取目标审核节点的方法示意图;
图5为本申请一个实施例的全球化内容审核方法信息传输示意图;
图6为本申请一个实施例的内容审核阶段各模块框图示意图;
图7为本申请基于图6的结构模块的内容审核方法的流程示意图;
图8为本申请一个实施例的将目标内容根据审核规则进行审核流程示意图;
图9为本申请另一个实施例的内容审核阶段各模块框图;
图10为申请一个实施例的全球化内容审核装置框图;
图11为本申请一个实施例的计算机设备基本结构框图。
具体实施方式
下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。
本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。
本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
本技术领域技术人员可以理解,这里所使用的“客户端”既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(PersonalCommunications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的“终端”可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的“终端”还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。
随着人们互联网的发展,很多资讯和娱乐信息都通过网络传播,且任何人都可以进行查看,有些还可以评论,当这些资讯信息的载体的用户量达到一定量级后用所产生的内容的质量参差不齐,甚至很多违规、低俗内容。这些违规、低俗内容不仅仅损害社区氛围还会给社区其他用户生成内容的导向,因此,当内容发布出去在被其他用户接收查看之前,需要进行内容审核。内容审核就是通过内部人员的审核以及产品方面其他手段去对用户产生的内容做限制,这样可以把以上危害降到最低。由于网络上内容过多,因此会通过机器来对相关内容进行协助审核,机器审核的方式主要通过内容识别、关键字过滤等手段进行。当某一应用软件的受众群体分布在全球时,对于机器审核中心较远的用户,其数据审核时需要跨区域,容易出现网络延迟高、易波动的问题,因此,本申请公开一种分布式的全球化内容审核方法。
请参阅图1,为本实施例一种全球化内容审核方法,包括:
S1000、获取客户端发送的内容审核请求,其中,所述内容审核请求包括地址信息以及目标内容;
客户端是指上传发布上述内容的终端,该内容可以通过电脑、手机、平板等设备上的网页或者专属应用软件来发布。发布的内容可以是文字、视频或者语音。用户通过客户端将内容发布出去的同时,系统会自动向内容审核中心发送相关的内容审核请求。其中,内容审核请求应当包括地址信息以及目标内容,地址信息为发送目标内容的客户端的位置信息,包括国家、具体的区域,该位置信息可以是读取的安装客户端的设备的GPS位置,也可以是通过该设备的IP号获取的位置。目标内容则为需要审核的文字、视频或者语音信息。
S2000、根据所述地址信息分配所述目标内容至符合预设的第一匹配规则的目标审核节点以对所述目标内容进行内容审核,其中,所述目标审核节点为分布式审核系统中的一个审核中心;
本申请中,按照区域位置,分别设置有多个审核节点,请参阅图2,每个审核节点负责其中一部分目标内容的审核。审核节点的数量以及具体的位置根据各个区域的用户量来确定,比如目标内容来自于全球不同的地方,而欧洲的用户较少,美国和中国的用户较多,因此可在欧洲的某个地区设置一个审核节点,在美国设置有两个,一个位于美国东部地区,一个位于美国西部地区。在中国地区设置有四个审核节点,分别位置于中国的东部、西部、南部和北部的相关地区,对每个审核节点设定审核范围。该范围可以是固定划分的,在另一实施例中,该范围还可以是根据距离来划分,客户端发送审核请求之前自动检测最近的审核节点,并将该审核请求发送至该审核节点进行目标内容的审核。
目标审核节点为多个审核节点中被匹配的需要对所述目标内容进行内容审核的节点,比如上述的,根据距离的远近来选择审核节点,选择距离客户端最近的审核节点作为目标审核节点,以进行目标内容的审核。
S3000、将所述目标审核节点回传的审核结果发送回客户端。
目标审核节点对目标内容进行审核后,会将审核结果按照所读取的客户端的通信地址回传至客户端中,客户端接收到审核通过的结果后,对目标内容进行显示,当审核未通过,则不能正常显示目标内容。
在一实施例中,审核结果不局限于只是允许用户查看得到全部内容或者查看不到该内容,还可以是只查看到部分内容。比如当审核过程中有部分内容通过,部分内容不通过时,只显示通过部分的内容,不通过的内容则不显示,其中,不通过的内容采用遮挡的方式遮挡。
本申请中,审核节点按照业务量的多少分布在不同的位置,不同区域的审核节点各自独立承担其所管辖区域的目标内容的审核任务,以分散全球目标内容的审核工作量,同时,目标内容无需远距离传输至统一的审核节点,减少了网络延迟高、易波动的问题,提高了内容审核的速度,以及整个系统运行的稳定性,使用户使用起来更流畅,用户体验度更好。
在一实施例中,在步骤S2000中提到的第一匹配规则为根据网络传输速度确定目标审核节点,请参阅图3,所述根据所述地址信息分配所述目标内容至符合预设的第一匹配规则的目标审核节点的方法包括:
S2100、根据所述地址信息获取与所述地址信息小于预设的距离阈值的多个审核节点;
本申请中,距离阈值为设置的审核节点与发送目标内容的客户端的最大距离,这个距离阈值可以为固定的某个数值,所有的客户端都可以通过自己的地址信息并按照这个距离阈值来查找对应的审核节点。
在另一实施例中,这个距离阈值还可根据审核节点的分布关系进行动态设置,由于审核节点有多个,多个审核节点其分布的密度不一样,因此可根据审核节点的分布位置和分布密度动态设置距离阈值。对于密度较高的审核节点对应的距离阈值较小,对于密度较低的审核节点对应的距离阈值较大。如上述实施例中的,当审核节点为分布在中国区域的节点时,由于该区域内有四个审核节点,密度比较高,因此,可将该区域内的审核节点的距离阈值设置成较短距离,当审核节点分布在欧洲时,由于审核节点的分布密度较低,因此可将距离阈值设置成较长的距离。但是需要说明的是,这个距离阈值的大小一般要大于客户端与最近一个审核节点的距离。
由于距离阈值为一个范围值,其辐射范围为以发送目标内容的客户端所在的位置为核心,以该距离阈值为半径作圆得到的范围区域,当审核节点的分布密度较大时,这一范围区域可能涵盖有多个审核节点。
S2200、判断所述多个审核节点中各个审核节点的网络速度是否大于预设的速度阈值;
当获取的距离阈值内的审核节点有多个时,为了选取其中最合适的一个审核节点作为最终执行审核任务的目标审核节点,还通过识别所选取的符合距离阈值的多个审核节点的网络速度进行进一步的筛选。网络速度为审核节点接收和发送信息的速度以及处理目标内容的速度,速度越快,用户体验会更好,因此,在本实施例中设置了速度阈值,该速度阈值为符合性能要求的最低的网络速度值,在多个审核节点中匹配各自的网络速度是否大于预设的速度阈值。
需要说明的时,这里的速度阈值可以是在整个全球化内容审核方案中统一的一个速度阈值,也可以是根据每个区域的网速的具体情况,针对该地区单独设置的。承接上述公开的在全球各个地方都分布有多个不同的审核节点的实施例,由于各个区域的通信基础建设水平不一样,因此,可根据当地通信的实际情况来设定这个速度阈值,比如在通信业较为发达的美国、中国地区,该速度阈值的数值可设置成较高数值。当在通讯基础设施欠发达的地方,该速度阈值的数值可适应性地设置成较低的数值,以此方式灵活设置。
S2300、选取所述多个审核节点中网络速度大于预设的速度阈值作为预审核节点,并根据所述预审核节点确定目标审核节点。
当对多个审核节点的网路速度与速度阈值进行对比后,选取大于预设的速度阈值的审核节点作为预审核节点,本申请中提到的预审核节点为备选的审核节点,当有多个预审核节点时,最终的目标审核节点在这些预审核节点中确定。
一种情况下,预审核节点只有一个,即在多个审核节点中,只剩下一个审核节点的网络速度大于预设的速度阈值,则该预审核节点为最终的目标审核节点。
另一种情况下,当多个预审核节点中没有一个网络速度大于速度阈值的,则表示当前识别的审核节点信息传输能力和处理能力较弱,可能引起用户等待时间过长,或使用不流畅。因此,在一实施例中,当所述多个审核节点的网络速度均小于或等于预设的速度阈值时,根据预设的增量阈值增大所述距离阈值的囊括范围,以使在更大的距离半径内搜索网络速度大于预设的速度阈值的审核节点。
由于上述实施例中提到,距离阈值所囊括的范围为一个区域值,是以发送目标内容的客户端位置为中心点,以距离阈值为半径作圆所涵盖的区域范围,因此,当在这个区域内的所有的审核节点的网络速度都不大于速度阈值的情况下,设定一个增量阈值,该增量阈值也是一种长度值,以扩大距离阈值的长度,从而使其涵盖的范围更大,以多囊括几个新的审核节点,并对比新的审核节点的网络速度是否超过速度阈值,当超过该速度阈值,则选取其作为预审核节点,当在增大的区域范围内依旧没有审核节点的网络速度大于速度阈值,则在当前距离范围内,继续将涵盖的半径增加一个增量阈值,以此类推,直到找到一个符合速度阈值的审核节点为止。
在另一实施例中,请参阅图4,当大于速度阈值的审核节点有多个,即预设审核节点有多个时,所述根据所述预审核节点确定目标审核节点的方法包括:
S2400、判断所述预审核节点的系统负载是否小于预设的负载阈值;
系统负载为审核节点当前的工作量状态,当负载较大,意味着当前节点需要处理的项目较多,工作负荷较大,只有负载在某一个阈值之下才能保证目标内容审核的速度和效率。
在一实施例中,为了进一步保证目标审核的速度和效率,在获取了预审核节点后,还进一步对预审核节点的负载进行检测,本实施例中,设置有负载阈值,负载阈值为用于计算系统负载的数值,通常为百分比,表示当前CPU被占用的容量,本申请中,将选取的预审核节点的系统负载的数值与该负载阈值对比,判断该数值是否超过负载阈值。
S2500、选取所述系统负载小于负载阈值的预审核节点中距离所述地址信息表征的地理位置最近的审核节点为目标审核节点。
由于负载阈值为判断当前的审核节点是否能对目标内容进行快速审核的最大负载量,当审核节点的负载小于该预设的负载阈值时,则将符合要求的预审核节点筛选出来。
需要说明的是,当符合条件的预审核节点只有一个时,则将该预审核节点作为目标审核节点,处理目标内容。
当符合条件的预审核节点有多个时,则根据这些预审核节点的位置信息选择距离发布该目标内容的客户端的地址信息最近的预审核节点作为目标审核节点。当有两个或多个预审核节点的距离是一样时,随机选择任意一个作为目标审核节点,或者根据多个预审核节点负载的大小,选择负载最小的预审核节点作为目标审核节点。
在一实施例中,请参阅图5-图6,选择目标审核节点的工作通过智能代理来实现,智能代理作为服务接入/接出点部署在全球各地,各客户端上的应用软件都可就近接入智能代理,智能代理能感知全球所有审核节点的地理位置、网络状态和系统负载等信息,然后根据所感知的上述信息,按照上述公开的几种规则选择目标审核节点来处理目标内容。
在一实施例中,目标审核节点与智能代理连接,目标审核节点包括机审前置模块、内容识别模块以及机审回调模块,智能代理与机审前置模块和机审回调模块连接,机审前置模块与机审回调模块分别与内容识别模块连接。
具体的,在一实施例中,请参阅图7,所述目标审核节点对所述目标内容进行内容审核的方法包括:
S3100、将所述目标内容进行暂存;
智能代理在接收到客户端发送的内容审核请求后,确定目标审核节点,将目标内容发送至目标审核节点的机审前置模块中,机审前置模块将目标内容存储在第一存储模块中,该第一存储模块采用了kafka存储机制,对目标内容进行暂存。
Kafka是最初由Linkedin公司开发,是一个分布式、分区的、多副本的、多订阅者,基于zookeeper协调的分布式日志系统(也可以当做MQ系统),常见可以用于web/nginx日志、访问日志,消息服务等等,Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。在Kafka文件存储中,同一个topic(主题)下有多个不同partition(分割状态),每个partition为一个目录,partiton命名规则为topic名称+有序序号,第一个partiton序号从0开始,序号最大值为partitions数量减1。Kafka把topic中一个parition大文件分成多个小文件段,通过多个小文件段,就容易定期清除或删除已经消费完文件,减少磁盘占用。通过索引信息可以快速定位消息和确定回复信息的最大大小。通过index元数据全部映射到存储器中,可以避免segment file(分段文件)的IO磁盘操作。通过索引文件稀疏存储,可以大幅降低index文件元数据占用空间大小。
S3200、调用处于暂存状态的所述目标内容,并对所述目标内容根据预设的审核规则进行审核;
一旦目标审核请求被存入第一存储模块中,内容识别模块就会开始工作,它从第一存储模块中取出目标审核请求,访问请求url存储获取目标内容,进行内容机器识别,同时将审核结果写入第二存储模块。第二存储模块也同样采用了kafka存储机制,对审核结果进行暂存。
进一步的,请参阅图8,所述调用处于暂存状态的所述目标内容,并对所述目标内容根据预设的审核规则进行审核的方法包括:
S3210、获取所述目标内容的数据大小值;
S3220、判断所述数据大小是否大于预设参数;
S3230、当所述数据大小大于所述预设参数值时,将所述目标内容放入慢队列中进行存储,并优先处理未存入慢队列中的目标内容。
内容识别模块在处理审核过程中,会读取目标内容的数据大小,一般目标内容的数据大小越大,表示内部数据越多,处理起来用时会更久。为了加快整个审核的速度,当有多个目标内容同时需要审核时,可将数据处理资源优先分配给审核时间较少的目标内容,将数据大小较大的数据放入慢队列中,等待后续分配处理资源。
慢队列为一个存储系统,本申请中可采用redis存储系统,redis存储系统是一个key-value(关键字取值)存储系统。它支持存储的value类型相对更多,包括string(字符串)、list(链表)、set(集合)、zset(sorted set--有序集合)和hash(哈希类型)。这些数据类型都支持push/pop、add/remove及取交集并集和差集一样,为了保证效率,数据都是缓存在内存中。区别的是redis会周期性的把更新的数据写入磁盘或者把修改操作写入追加的记录文件,并且在此基础上实现了master-slave(主从)同步。
存入慢队列的内容审核请求,稍后处理,对于没进入慢队列redis的请求,优先得到更多的资源进行处理;而对于慢队列redis的请求,会动态分配适量的资源将其从慢队列redis中取出并进行处理。
当内容识别模块识别了上述目标内容,并将审核结果存储在第二存储模块后,机审回调模块会将第二存储模块中存储的审核结果取出来,然后发送给智能代理,智能代理将审核结果发送回客户端。
在一实施例中,将审核结果发送回客户端的方式有两种,一种是同步发送模式,另一种是异步发送模式。
请参阅图6,在同步发送模式下,智能代理得到审核结果回调之后,将审核结果及相关处理信息一并回复给智能代理,反馈至客户端;在异步模式下,请参阅图9,智能代理获取目标内容并存入第一存储模块后,将请求存储结果回复给客户端,当机审回调模块接收到第二存储模块的审核结果后再次将审核结果回复给智能代理,反馈至客户端。
本申请,通过在全球部署多个机器审核节点,通过智能代理系统实现的机器内容审核本地化和服务高容灾性。采用就近内容审核处理方式,使机器内容审核响应速度快,网络带宽少,服务可用性高,在部分区域中心故障的时候,依然能保证服务可用。
在一些实施方式中,请参阅图10,本申请还公开一种全球化内容审核装置,包括:
获取模块1000:被配置为执行获取客户端发送的内容审核请求,其中,所述内容审核请求包括地址信息以及目标内容;
处理模块2000:被配置为执行根据所述地址信息分配所述目标内容至符合预设的第一匹配规则的目标审核节点以对所述目标内容进行内容审核,其中,所述目标审核节点为分布式审核系统中的一个审核中心;
执行模块3000:被配置为执行将所述目标审核节点回传的审核结果发送回客户端。
可选的,所述第一匹配规则为根据网络传输速度确定目标审核节点,所述处理模块包括:
节点获取模块:被配置为执行根据所述地址信息获取与所述地址信息之间的距离小于预设的距离阈值的多个审核节点;
速度判断模块:被配置为执行判断所述多个审核节点中各个审核节点的网络速度是否大于预设的速度阈值;
目标审核节点确定模块:被配置为执行选取所述多个审核节点中网络速度大于预设的速度阈值作为预审核节点,并根据所述预审核节点确定目标审核节点。
可选的,目标审核节点确定模块还包括:
负载对比模块:被配置为执行判断所述预审核节点的系统负载是否小于预设的负载阈值;
选择模块:被配置为执行选取所述系统负载小于负载阈值的预审核节点中距离所述地址信息表征的地理位置最近的审核节点为目标审核节点。
可选的,所述处理模块还包括:
增量模块:被配置为执行当所述多个审核节点的网络速度均小于等于预设的速度阈值时,根据预设的增量阈值增大所述距离阈值的囊括范围,以使在更大的距离半径内搜索网络速度大于预设的所述速度阈值的审核节点。
可选的,所述处理模块还包括:
第一存储模块:被配置为执行将所述目标内容进行暂存;
内容识别模块:被配置为执行调用处于暂存状态的所述目标内容,并对所述目标内容根据预设的审核规则进行审核;
机审回调模块:被配置为执行获取审核结果并将审核结果回调至客户端。
可选的,所述第一存储模块通过kafka存储机制对所述目标内容进行暂存。
可选的,所述内容识别模块还包括:
参数获取模块:被配置为执行获取所述目标内容的数据大小;
判断模块:被配置为执行判断所述数据大小是否大于预设参数值;
慢队列处理模块:被配置为执行当所述数据大小大于所述预设参数值时,将所述目标内容放入慢队列中进行存储,并优先处理未存入慢队列中的目标内容。
由于上述全球化内容审核装置是全球化内容审核方法一一对应的装置,其实现原理与全球化内容审核方法一样,此处不再赘述。
本发明实施例提供计算机设备基本结构框图请参阅图11。
该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种全球化内容审核方法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种全球化内容审核方法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
计算机设备通过接收关联的客户端发送的提示行为的状态信息,即关联终端是否开启提示以及贷款人是否关闭该提示任务。通过验证上述任务条件是否达成,进而向关联终端发送对应的预设指令,以使关联终端能够根据该预设指令执行相应的操作,从而实现了对关联终端的有效监管。同时,在提示信息状态与预设的状态指令不相同时,服务器端控制关联终端持续进行响铃,以防止关联终端的提示任务在执行一段时间后自动终止的问题。
本发明还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例所述全球化内容审核方法。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。
应该理解的是,虽然附图的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,其可以以其他的顺序执行。而且,附图的流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,其执行顺序也不必然是依次进行,而是可以与其他步骤或者其他步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
以上所述仅是本发明的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

Claims (10)

1.一种全球化内容审核方法,其特征在于,包括:
获取客户端发送的内容审核请求,其中,所述内容审核请求包括地址信息以及目标内容;
根据所述地址信息分配所述目标内容至符合预设的第一匹配规则的目标审核节点以对所述目标内容进行内容审核,其中,所述目标审核节点为分布式审核系统中的一个审核中心;
将所述目标审核节点回传的审核结果发送回客户端。
2.根据权利要求1所述的全球化内容审核方法,其特征在于,所述第一匹配规则为根据网络传输速度确定目标审核节点,所述根据所述地址信息分配所述目标内容至符合预设的第一匹配规则的目标审核节点的方法包括:
根据所述地址信息获取与所述地址信息之间的距离小于预设的距离阈值的多个审核节点;
判断所述多个审核节点中各个审核节点的网络速度是否大于预设的速度阈值;
选取所述多个审核节点中网络速度大于预设的速度阈值作为预审核节点,并根据所述预审核节点确定目标审核节点。
3.根据权利要求2所述的全球化内容审核方法,其特征在于,所述根据所述预审核节点确定目标审核节点的方法包括:
判断所述预审核节点的系统负载是否小于预设的负载阈值;
选取所述系统负载小于所述负载阈值的预审核节点中距离所述地址信息表征的地理位置最近的审核节点为目标审核节点。
4.根据权利要求2所述的全球化内容审核方法,其特征在于,所述选取所述多个审核节点中网络速度大于预设的速度阈值作为预审核节点,并根据所述预审核节点确定目标审核节点之前,还包括:
当所述多个审核节点的网络速度均小于等于预设的速度阈值时,根据预设的增量阈值增大所述距离阈值的囊括范围,以使在更大的距离半径内搜索网络速度大于所述速度阈值的审核节点。
5.根据权利要求1所述的全球化内容审核方法,其特征在于,所述目标审核节点对所述目标内容进行内容审核的方法包括:
将所述目标内容进行暂存;
调用处于暂存状态的所述目标内容,并对所述目标内容根据预设的审核规则进行审核。
6.根据权利要求5所述的全球化内容审核方法,其特征在于,所述目标内容通过kafka存储机制进行暂存。
7.根据权利要求5所述的全球化内容审核方法,其特征在于,所述调用处于暂存状态的所述目标内容,并对所述目标内容根据预设的审核规则进行审核的方法包括:
获取所述目标内容的数据大小;
判断所述数据大小是否大于预设参数值;
当所述数据大小大于所述预设参数值时,将所述目标内容放入慢队列中进行存储,并优先处理未存入慢队列中的目标内容。
8.一种全球化内容审核装置,其特征在于,包括:
获取模块:被配置为执行获取客户端发送的内容审核请求,其中,所述内容审核请求包括地址信息以及目标内容;
处理模块:被配置为执行根据所述地址信息分配所述目标内容至符合预设的第一匹配规则的目标审核节点以对所述目标内容进行内容审核,其中,所述目标审核节点为分布式审核系统中的一个审核中心;
执行模块:被配置为执行将所述目标审核节点回传的审核结果发送回客户端。
9.一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如权利要求1至7中任一项权利要求所述全球化内容审核方法的步骤。
10.一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行如权利要求1至7中任一项权利要求所述全球化内容审核方法的步骤。
CN201811644086.6A 2018-12-29 2018-12-29 全球化内容审核方法、装置、计算机设备及存储介质 Pending CN111385129A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811644086.6A CN111385129A (zh) 2018-12-29 2018-12-29 全球化内容审核方法、装置、计算机设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811644086.6A CN111385129A (zh) 2018-12-29 2018-12-29 全球化内容审核方法、装置、计算机设备及存储介质

Publications (1)

Publication Number Publication Date
CN111385129A true CN111385129A (zh) 2020-07-07

Family

ID=71218258

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811644086.6A Pending CN111385129A (zh) 2018-12-29 2018-12-29 全球化内容审核方法、装置、计算机设备及存储介质

Country Status (1)

Country Link
CN (1) CN111385129A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113254827A (zh) * 2021-05-21 2021-08-13 四川金熊猫新媒体有限公司 信息发布处理方法及装置
CN113342849A (zh) * 2021-05-28 2021-09-03 百果园技术(新加坡)有限公司 数据审核方法、装置、电子设备及存储介质
CN114125054A (zh) * 2021-11-29 2022-03-01 百果园技术(新加坡)有限公司 一种内容审核系统、方法、装置、设备及介质
CN114257828A (zh) * 2021-12-20 2022-03-29 上海哔哩哔哩科技有限公司 直播审核内容处理方法及系统
CN114726736A (zh) * 2020-12-18 2022-07-08 中国联合网络通信集团有限公司 数据监管方法、第一监管节点、被监管节点、区块链
CN114760490A (zh) * 2022-04-15 2022-07-15 上海哔哩哔哩科技有限公司 视频流处理方法及装置
CN114996165A (zh) * 2022-08-01 2022-09-02 飞狐信息技术(天津)有限公司 一种业务数据审核方法及装置、存储介质及电子设备
CN113342849B (zh) * 2021-05-28 2024-06-07 百果园技术(新加坡)有限公司 数据审核方法、装置、电子设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102158742A (zh) * 2010-05-21 2011-08-17 青岛海信传媒网络技术有限公司 媒体内容发布方法、装置及系统
CN103338260A (zh) * 2013-07-04 2013-10-02 武汉世纪金桥安全技术有限公司 网络审计中url日志的分布式分析系统及分析方法
CN104320677A (zh) * 2014-10-17 2015-01-28 深圳市同洲电子股份有限公司 一种审核服务器、主控服务器及视频检测系统
CN106485389A (zh) * 2015-09-01 2017-03-08 北京奇虎科技有限公司 审批流的动态更新方法和装置
WO2018054307A1 (zh) * 2016-09-20 2018-03-29 贵州白山云科技有限公司 Cdn业务的处理方法、设备及通信系统
CN107979638A (zh) * 2017-11-16 2018-05-01 北京小米移动软件有限公司 内容提供方法、装置、设备及存储介质
CN108133008A (zh) * 2017-12-22 2018-06-08 平安养老保险股份有限公司 数据库中业务数据的处理方法、装置、设备和存储介质

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102158742A (zh) * 2010-05-21 2011-08-17 青岛海信传媒网络技术有限公司 媒体内容发布方法、装置及系统
CN103338260A (zh) * 2013-07-04 2013-10-02 武汉世纪金桥安全技术有限公司 网络审计中url日志的分布式分析系统及分析方法
CN104320677A (zh) * 2014-10-17 2015-01-28 深圳市同洲电子股份有限公司 一种审核服务器、主控服务器及视频检测系统
CN106485389A (zh) * 2015-09-01 2017-03-08 北京奇虎科技有限公司 审批流的动态更新方法和装置
WO2018054307A1 (zh) * 2016-09-20 2018-03-29 贵州白山云科技有限公司 Cdn业务的处理方法、设备及通信系统
CN107979638A (zh) * 2017-11-16 2018-05-01 北京小米移动软件有限公司 内容提供方法、装置、设备及存储介质
CN108133008A (zh) * 2017-12-22 2018-06-08 平安养老保险股份有限公司 数据库中业务数据的处理方法、装置、设备和存储介质

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114726736A (zh) * 2020-12-18 2022-07-08 中国联合网络通信集团有限公司 数据监管方法、第一监管节点、被监管节点、区块链
CN114726736B (zh) * 2020-12-18 2023-12-05 中国联合网络通信集团有限公司 数据监管方法、第一监管节点、被监管节点、数据监管装置
CN113254827A (zh) * 2021-05-21 2021-08-13 四川金熊猫新媒体有限公司 信息发布处理方法及装置
CN113342849A (zh) * 2021-05-28 2021-09-03 百果园技术(新加坡)有限公司 数据审核方法、装置、电子设备及存储介质
CN113342849B (zh) * 2021-05-28 2024-06-07 百果园技术(新加坡)有限公司 数据审核方法、装置、电子设备及存储介质
CN114125054A (zh) * 2021-11-29 2022-03-01 百果园技术(新加坡)有限公司 一种内容审核系统、方法、装置、设备及介质
CN114125054B (zh) * 2021-11-29 2024-03-15 百果园技术(新加坡)有限公司 一种内容审核系统、方法、装置、设备及介质
CN114257828A (zh) * 2021-12-20 2022-03-29 上海哔哩哔哩科技有限公司 直播审核内容处理方法及系统
CN114760490A (zh) * 2022-04-15 2022-07-15 上海哔哩哔哩科技有限公司 视频流处理方法及装置
CN114760490B (zh) * 2022-04-15 2024-03-19 上海哔哩哔哩科技有限公司 视频流处理方法及装置
CN114996165A (zh) * 2022-08-01 2022-09-02 飞狐信息技术(天津)有限公司 一种业务数据审核方法及装置、存储介质及电子设备
CN114996165B (zh) * 2022-08-01 2022-12-13 飞狐信息技术(天津)有限公司 一种业务数据审核方法及装置、存储介质及电子设备

Similar Documents

Publication Publication Date Title
CN111385129A (zh) 全球化内容审核方法、装置、计算机设备及存储介质
CN107547629B (zh) 客户端静态资源下载的方法、装置、电子设备和可读介质
US20180027061A1 (en) Method and apparatus for elastically scaling virtual machine cluster
CN104731516A (zh) 一种存取文件的方法、装置及分布式存储系统
CN105025053A (zh) 基于云存储技术的分布式文件的上传方法及其系统
CN113485962B (zh) 日志文件的存储方法、装置、设备和存储介质
CN109618003B (zh) 一种服务器规划方法、服务器及存储介质
CN110321252B (zh) 一种技能服务资源调度的方法和装置
US11637914B2 (en) Multiple geography service routing
CN110134737A (zh) 数据变化监听方法及装置、电子设备和计算机可读存储介质
CN104144202A (zh) Hadoop分布式文件系统的访问方法、系统和装置
CN112653632A (zh) 一种流量控制实现方法和装置
CN116303608A (zh) 一种应用服务的数据处理方法和装置
Loechel et al. Comparison of different caching techniques for high-performance web map services
CN103685295A (zh) 一种下载多媒体文件的方法、终端及系统
CN104168174A (zh) 一种传输信息的方法及装置
CN110798495A (zh) 用于在集群架构模式下端到端的消息推送的方法和服务器
CN109716731A (zh) 用于提供可靠和高效数据传送的系统和方法
CN111475761A (zh) 客户端、服务器及内容分享控制方法
US20210037090A1 (en) Systems and Methods for Server Failover and Load Balancing
CN113867946A (zh) 访问资源的方法、装置、存储介质及电子设备
KR101630640B1 (ko) 클라우드 스트리밍 서비스 시스템, 클라우드 스트리밍 서비스 방법 및 이를 위한 서버
CN105229990B (zh) 加载网页的方法和装置
CN115373831A (zh) 数据处理方法、装置以及计算机可读存储介质
US8688857B1 (en) Filtering messages based on pruning profile generated from pruning profile schema

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20200707

RJ01 Rejection of invention patent application after publication