CN115210742A - 用于防止暴露于违反内容政策的内容的系统和方法 - Google Patents
用于防止暴露于违反内容政策的内容的系统和方法 Download PDFInfo
- Publication number
- CN115210742A CN115210742A CN202180018162.6A CN202180018162A CN115210742A CN 115210742 A CN115210742 A CN 115210742A CN 202180018162 A CN202180018162 A CN 202180018162A CN 115210742 A CN115210742 A CN 115210742A
- Authority
- CN
- China
- Prior art keywords
- content
- content items
- items
- category
- threshold
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 57
- 238000012552 review Methods 0.000 claims abstract description 48
- 238000010801 machine learning Methods 0.000 claims abstract description 40
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 38
- 230000008569 process Effects 0.000 claims abstract description 34
- 230000004044 response Effects 0.000 claims description 127
- 238000005259 measurement Methods 0.000 claims description 57
- 230000015654 memory Effects 0.000 claims description 29
- 238000012545 processing Methods 0.000 claims description 21
- 238000004891 communication Methods 0.000 description 16
- 238000004590 computer program Methods 0.000 description 12
- LFQSCWFLJHTTHZ-UHFFFAOYSA-N Ethanol Chemical compound CCO LFQSCWFLJHTTHZ-UHFFFAOYSA-N 0.000 description 10
- 239000003550 marker Substances 0.000 description 10
- 230000003287 optical effect Effects 0.000 description 9
- 230000009471 action Effects 0.000 description 6
- 239000008186 active pharmaceutical agent Substances 0.000 description 6
- 238000010586 diagram Methods 0.000 description 6
- 238000013515 script Methods 0.000 description 4
- 230000008901 benefit Effects 0.000 description 3
- 230000000694 effects Effects 0.000 description 3
- 230000006870 function Effects 0.000 description 3
- 230000001939 inductive effect Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 230000000644 propagated effect Effects 0.000 description 3
- 238000012549 training Methods 0.000 description 3
- 230000000007 visual effect Effects 0.000 description 3
- 238000013473 artificial intelligence Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 239000004973 liquid crystal related substance Substances 0.000 description 2
- 230000005055 memory storage Effects 0.000 description 2
- 238000000926 separation method Methods 0.000 description 2
- 230000003068 static effect Effects 0.000 description 2
- 238000012546 transfer Methods 0.000 description 2
- 241000208125 Nicotiana Species 0.000 description 1
- 235000002637 Nicotiana tabacum Nutrition 0.000 description 1
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000003796 beauty Effects 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 230000002068 genetic effect Effects 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 238000002372 labelling Methods 0.000 description 1
- 238000007726 management method Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000000611 regression analysis Methods 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000001953 sensory effect Effects 0.000 description 1
- 239000007787 solid Substances 0.000 description 1
- 239000000758 substrate Substances 0.000 description 1
- 238000012706 support-vector machine Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/10—Network architectures or network communication protocols for network security for controlling access to devices or network resources
- H04L63/104—Grouping of entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/45—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N20/00—Machine learning
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/02—Network architectures or network communication protocols for network security for separating internal from external traffic, e.g. firewalls
- H04L63/0227—Filtering policies
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04L—TRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
- H04L63/00—Network architectures or network communication protocols for network security
- H04L63/20—Network architectures or network communication protocols for network security for managing network security; network security policies in general
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computing Systems (AREA)
- General Physics & Mathematics (AREA)
- Software Systems (AREA)
- Data Mining & Analysis (AREA)
- Business, Economics & Management (AREA)
- Mathematical Physics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Signal Processing (AREA)
- Computer Networks & Wireless Communication (AREA)
- Computer Security & Cryptography (AREA)
- Computer Hardware Design (AREA)
- Multimedia (AREA)
- Medical Informatics (AREA)
- Databases & Information Systems (AREA)
- Evolutionary Computation (AREA)
- Artificial Intelligence (AREA)
- Tourism & Hospitality (AREA)
- General Health & Medical Sciences (AREA)
- Human Resources & Organizations (AREA)
- Economics (AREA)
- Health & Medical Sciences (AREA)
- Marketing (AREA)
- Primary Health Care (AREA)
- General Business, Economics & Management (AREA)
- Strategic Management (AREA)
- Image Analysis (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
一种用于防止暴露于违反内容政策的内容的方法,该方法包括接收包括与内容群组相关联的第一组内容项目的若干个内容项目,确定与属于特定内容类别的第一组内容项目的量相关联的测量,分配若干个内容项目中的一个或多个以由机器学习算法或手动审查过程中的至少一个进行归类,将特定内容类别自动应用于内容群组中的一个或多个其他内容项目,使得一个或多个其他内容项目不被手动审查过程审查;以及,传输若干个内容项目中的至少一个,其中,若干个内容项目中的每个的内容类别指示特定内容项目是否违反任何内容政策。
Description
相关申请的交叉引用
本申请要求于2020年10月8日提交的序列号为17/066,239的美国专利申请的优先权和权益。序列号为17/066,239的美国专利申请通过引用整体并入本文。
背景技术
内容提供者可能期望对供应给(served to)用户的内容进行过滤。例如,内容提供者可能希望阻止具有成人主题的内容(例如,酒精、枪支、烟草等)供应给易受影响的受众(例如,儿童等)。过滤内容可能要求开发对内容所包括、描绘和/或表示的东西的理解。然而,内容提供者可能接收如此大量的内容项目,以至于对每个内容项目提供人工审查是不可行的。此外,自动化系统(诸如机器学习算法)可能对内容项目的一些部分进行不正确地分类,从而导致不适当的内容(例如,违反内容政策的内容等)被供应给用户的风险。因此,需要改进的系统来防止供应不适合的内容。
发明内容
本公开的一个实施实施方式涉及一种用于防止暴露于违反内容政策的内容的方法,该方法包括:由一个或多个处理器接收包括与内容群组相关联的第一组(set)内容项目的若干个内容项目,其中,若干个内容项目中的至少一些包括由机器学习算法基于内容政策来确定的内容类别,由一个或多个处理器确定与属于特定内容类别的第一组内容项目的量(amount)相关联的测量,响应于从使用测量和阈值执行操作来确定第一结果,由一个或多个处理器分配若干个内容项目中的一个或多个以由机器学习算法或手动审查过程中的至少一个进行归类(category),响应于从使用测量和阈值执行操作来确定第二结果,由一个或多个处理器将特定内容类别自动应用于内容群组(group)中的一个或多个其他内容项目,使得一个或多个其他内容项目不被手动审查过程审查,以及,由一个或多个处理器传输若干个内容项目中的至少一个,其中,若干个内容项目中的每个的内容类别指示特定内容项目是否违反任何内容政策。
在一些实施方式中,传输若干个内容项目中的至少一个包括:将若干个内容项目中的至少一个传输给外部内容系统。在一些实施方式中,传输若干个内容项目中的至少一个包括基于若干个内容项目中的至少一个的每个的内容类别,确定是否向用户供应若干个内容项目中的至少一个的每个。在一些实施方式中,阈值取决于特定内容类别。在一些实施方式中,测量包括具有特定内容类别的第一组内容项目的数量(number),并且其中,第一结果指示该数量小于或等于阈值。在一些实施方式中,测量包括具有特定内容类别的第一组内容项目的比率,并且其中,第一结果指示该比率小于或等于阈值。在一些实施方式中,测量包括具有特定内容类别的第一组内容项目的数量,并且其中,第二结果指示该数量大于阈值。在一些实施方式中,测量包括具有特定内容类别的第一组内容项目的比率,并且其中,第二结果指示该比率大于阈值。在一些实施方式中,内容政策与一个或多个用户相关联,并且其中,包括违反内容政策的内容类别的内容项目不被供应给一个或多个用户。
本公开的另一实施方式涉及在其上存储有指令的一个或多个计算机可读存储介质,该指令在由一个或多个处理器执行时,使一个或多个处理器接收包括与内容群组相关联的第一组内容项目的若干个内容项目,其中,若干个内容项目中的至少一些包括由机器学习算法基于内容政策来确定的内容类别,确定与属于特定内容类别的第一组内容项目的量相关联的测量,响应于从使用测量和阈值执行操作来确定第一结果,分配若干个内容项目中的一个或多个以由机器学习算法或手动审查过程中的至少一个进行归类,响应于从使用测量和阈值执行操作来确定第二结果,将特定内容类别自动应用于内容群组中的一个或多个其他内容项目,使得一个或多个其他内容项目不被手动审查过程审查,以及,传输若干个内容项目中的至少一个,其中,若干个内容项目中的每个的内容类别指示特定内容项目是否违反任何内容政策。
在一些实施方式中,传输若干个内容项目中的至少一个包括:将若干个内容项目中的至少一个传输给外部内容系统。在一些实施方式中,传输若干个内容项目中的至少一个包括基于若干个内容项目中的至少一个的每个的内容类别,确定是否向用户供应若干个内容项目中的至少一个的每个。在一些实施方式中,阈值取决于特定内容类别。在一些实施方式中,测量包括具有特定内容类别的第一组内容项目的数量,并且其中,第一结果指示该数量小于或等于阈值。在一些实施方式中,测量包括具有特定内容类别的第一组内容项目的比率,并且其中,第一结果指示该比率小于或等于阈值。在一些实施方式中,测量包括具有特定内容类别的第一组内容项目的数量,并且其中,第二结果指示该数量大于阈值。在一些实施方式中,测量包括具有特定内容类别的第一组内容项目的比率,并且其中,第二结果指示该比率大于阈值。在一些实施方式中,内容政策与一个或多个用户相关联,并且其中,包括违反内容政策的内容类别的内容项目不被供应给一个或多个用户。
本公开的另一实施方式涉及一种用于防止暴露于违反内容政策的内容的系统,该系统包括具有一个或多个处理器和一个或多个存储器的一个或多个处理电路,一个或多个存储器中的每个存储指令,指令在由一个或多个处理器执行时,使一个或多个处理器接收包括与内容群组相关联的第一组内容项目的若干个内容项目,其中,若干个内容项目中的至少一些包括由机器学习算法基于内容政策来确定的内容类别,确定与属于特定内容类别的第一组内容项目的量相关联的测量,响应于确定测量小于或等于阈值,分配若干个内容项目中的一个或多个以由机器学习算法或手动审查过程中的至少一个进行归类,响应于确定测量大于阈值,将特定内容类别自动应用于内容群组中的一个或多个其他内容项目,使得一个或多个其他内容项目不被手动审查过程审查,以及,基于若干个内容项目中的至少一个的每个的内容类别,向用户供应若干个内容项目中的至少一个,其中,若干个内容项目中的每个的内容类别指示特定内容项目是否违反任何内容政策。
在一些实施方式中,阈值取决于特定内容类别。
在适当的时候,可以结合各个方面和实施方式。
附图说明
图1是示出根据说明性实施方式的用于防止暴露于违反内容政策的内容的系统的框图。
图2是示出根据说明性实施方式的各个实体在网络上交互的示图。
图3是示出根据实施方式的防止暴露于违反内容政策的内容的方法的流程图。
图4A是示出根据说明性实施方式的机器学习系统的固有限制的示图。
图4B是示出根据说明性实施方式的图1的系统解决机器学习系统的固有限制以防止暴露于违反内容政策的内容的示图。
图5是根据说明性实施方式的计算系统的框图。
具体实施方式
以下是对与用于防止暴露于违反内容政策的内容的方法、装置和系统相关的各种构思及其实施方式的更详细的描述。上面介绍并且下面更详细讨论的各种构思可以以许多方式中的任何方式来实现,因为所描述的构思不限于任何实施方式的特定方式。
内容提供者通常期望能够控制供应给用户的内容。例如,内容提供者可能希望确保不适当的内容不被供应给易受影响的受众(例如,幼儿等)。
控制供应给用户的内容要求知道内容包括、描绘和/或表示的东西。例如,在内容提供者能够确定一条内容是否适合于特定受众之前,内容提供者必须确定该条内容包括哪些种类的图像和/或文本。确定内容项目的内容通常包括对内容进行分类。例如,机器学习算法可以用于将内容项目分类成类别,类别指示内容项目所描绘的东西,诸如酒精、枪支、暴力或美容产品,这可以用于确定向谁供应内容项目和/或将内容项目供应到什么类型/类别的资源。然而,内容项目可能不总是被正确分类。例如,系统可能无法将与枪支相关的内容项目分类为描绘枪支,并且作为结果,内容项目可能被不适当地供应给不合适的受众(例如,幼儿等)。正确且可靠地对内容项目进行分类是困难的。例如,内容提供者每天可能接收数以百万计的内容项目,并且不可能对每个单个的内容项目进行人工审查。
在一些实施方式中,机器学习算法可以用于对内容项目进行分类。然而,机器学习算法可能难以对每个内容项目进行正确分类。例如,在给定的一天中,机器学习算法可能对99.9%的传入内容项目进行正确分类,在考虑到内容项目的量的情况下,这仍然可能导致对数以千计的内容项目进行不正确分类,从而导致向用户供应不适当的内容的风险。此外,机器学习算法可能具有其固有限制,这源于它们如何执行知识获取。例如,教导机器学习算法检测边缘案例分类(例如,诸如仅在图像的模糊背景中特写(feature)枪支的内容项目)可能要求用包括所有可能的边缘案例分类的数据来训练机器学习算法。内容项目可能具有大的(如果不是无限的)可变性,因此在所有可能的边缘案例分类上训练机器学习算法是困难的。因此,为了阻止不适当的内容项目被供应给用户,为了最小化人工干预,并且为了解决机器学习算法的固有限制,需要改进的架构来确定内容项目分类和防止暴露于违反内容政策的内容。
一个解决方案利用比例响应系统,比例响应系统被配置为基于每个内容项目集合(collection)的一个或多个特性来对内容项目集合进行分类。例如,比例响应系统可以将内容群组(group)内的若干个内容项目识别为具有特定分类,并且可以基于内容群组中的阈值数量的内容项目被确定为具有特定分类,而将该分类应用于整个内容群组。在一些实施方式中,如果内容群组内的具有特定分类的内容项目的数量低于阈值,则比例响应系统可以将一个或多个内容项目转发到审查系统(例如,手动审查系统、机器学习审查系统等)。在各种实施方式中,比例响应系统利用低水平的分类(例如,单独的内容项目的分类)来对高水平的群组(例如,具有多个内容项目的内容群组等)进行分类。例如,比例响应系统可以确定内容群组中的阈值数量的内容项目被分类为描绘酒精,并且基于该确定,可以将内容群组中的每个内容项目分类为描绘酒精。附加或可替换地,响应于确定内容群组中的具有分类(例如,标记(label)为描绘酒精等)的内容项目的数量低于阈值,则比例响应系统可以将内容项目中的至少一些提供给审查系统(例如,机器学习审查系统、手动审查系统等)进行审查。例如,比例响应系统可以接收若干个内容项目(其中一些属于内容群组)/并可以确定内容群组中的具有特定分类的内容项目的数量低于阈值,并且作为响应,可以将属于内容群组的内容项目发送到手动审查系统进行审查。在一些实施方式中,比例响应系统促进分析和/或归纳推理,以确定与内容群组中的内容项目的特性相关的模式,并且可以基于分析,实现另外的安全措施来防止不合适的内容。在各种实施方式中,比例响应系统的分类可以促进控制供应哪些内容项目。例如,比例响应系统可以将内容项目标记为描绘酒精,并且可以阻止内容项目被供应给儿童网站。在各种实施方式中,比例响应系统减少手动调查和/或防止无意中对内容项目进行错误标记。例如,内容群组可能包括三个内容项目,其中两个被标记为描绘特定内容类别。基于两个内容项目的标记,比例响应系统可以将第三内容项目标记为描绘特定内容类别,从而消除对第三内容项目进行手动审查的需要,不然的话,这可能是必要的。在各种实施方式中,比例响应系统促进政策的强制执行。例如,内容提供者可能具有反对供应描绘枪支的内容项目的政策,并且比例响应系统可以促进检测包括枪支的内容项目,并阻止这些内容项目被供应。
现在参考图1,根据说明性实施方式,示出了用于防止暴露于违反内容政策的内容的系统100。系统100可以解决机器学习算法的固有限制和/或减少向终端用户供应不适当内容的风险。系统100包括标记系统10和比例响应系统200。在各种实施方式中,系统100的组件在网络60上进行通信。网络60可以包括计算机网络,诸如互联网、本地网、广域网、城域网或其他区域网络、内联网、卫星网络、其他计算机网络(诸如语音或数据移动电话通信网络)、它们的组合、或任何其他类型的电子通信网络。网络60可以包括或构成显示网络(例如,与内容放置或搜索引擎结果系统相关联或有资格包括第三方内容项目作为内容项目放置活动的部分的互联网上可用的信息资源的子集)。在各种实施方式中,网络60促进系统100的组件之间的安全通信。作为非限制性示例,网络60可以实现传输层安全(TLS)、安全套接层(SSL)、超文本传输协议安全(HTTPS)和/或任何其他安全通信协议。
标记系统10可以确定内容项目包括哪些内容或描绘/表示哪些内容。例如,标记系统10可以确定内容项目描绘酒精的使用。作为附加示例,标记系统10可以确定内容项目与业余电影摄影的话题相关。在各种实施方式中,标记系统10对内容项目进行分类。例如,标记系统10可以确定内容项目包括枪支的图像,并且可以对内容项目标记上指示内容项目描绘枪支的标记。作为另一示例,标记系统10可以确定内容项目包括政治候选人的名字,并且可以将内容项目标记为政治广告。在各种实施方式中,标记系统10实现机器学习算法,以对内容项目进行分类。附加或可替换地,标记系统10可以实现人工审查过程,以对内容项目进行分类。例如,标记系统10可以首先使用机器学习算法审查内容项目,然后将内容项目提交给人类进行第二审查。
标记系统10被示为包括第一数据库12、第二数据库14和处理电路16。第一数据库12可以存储未标记的内容项目。例如,第一数据库12可以存储从外部方(例如,商家等)接收的内容项目,诸如网站横幅、弹出窗口、RSS订阅、音频、文本文章、视频、图像等。在各种实施方式中,第一数据库12中的内容项目还没有被标记系统10分析过。例如,第一数据库12中的内容项目可能不包括对内容项目包括/描绘什么内容的指示。在一些实施方式中,第一数据库12与标记系统10分开。例如,第一数据库12可以是独立的数据库,并且标记系统10可以查询第一数据库12以检索内容项目。第一数据库12可以包括一个或多个存储介质。存储介质可以包括但不限于磁存储装置、光存储装置、闪存存储装置和/或RAM。标记系统10可以实现或促进各种API,以执行数据库功能(即,管理存储在第一数据库12中的数据)。API可以是但不限于SQL、ODBC、JDBC和/或任何其他数据存储和操纵API。
第二数据库14可以存储标记的内容项目。例如,第二数据库14可以存储已经经由机器学习或手动审查过程分类(例如,标记)的内容项目。在各种实施方式中,标记系统10从第一数据库12检索未标记的内容项目、标记内容项目、并且将所标记的内容项目存储在第二数据库14中。在一些实施方式中,第二数据库14与标记系统10分开。例如,第二数据库14可以是独立的数据库,并且标记系统10可以与第二数据库14交互,以修改所存储的数据。第二数据库14可以包括一个或多个存储介质。存储介质可以包括但不限于磁存储装置、光存储装置、闪存存储装置和/或RAM。标记系统10可以实现或促进各种API以执行数据库功能(即,管理存储在第二数据库14中的数据)。API可以是但不限于SQL、ODBC、JDBC和/或任何其他数据存储和操纵API。
处理电路16可以包括处理器20和存储器22。存储器22可以具有存储在其上的指令,指令在由处理器20执行时,使处理电路16执行本文描述的各种操作。本文描述的操作可以使用软件、硬件或其组合来实现。处理器20可以包括微处理器、ASIC、FPGA等或其组合。在许多实施方式中,处理器20可以是多核心处理器或处理器阵列。存储器22可以包括但不限于电子、光学、磁性或能够向处理器20提供程序指令的任何其他存储设备。存储器22可以包括软盘、CD-ROM、DVD、磁盘、存储器片、ROM、RAM、EEPROM、EPROM、闪存存储器、光学介质、或处理器20可以从中读取指令的任何其他合适的存储器。指令可以包括来自任何合适的计算机编程语言(诸如但不限于C、C++、C#、Java、JavaScript、Perl、HTML、XML、Python和VisualBasic)的代码。
存储器22可以包括标记电路24。标记电路24可以接收内容项目,并且根据内容项目的内容,标记内容项目。例如,标记电路24可以确定内容项目包括对母婴产品的描述,并且可以将内容项目标记为对描绘母婴产品。在一些实施方式中,标记电路24实现机器学习算法,以标记内容项目。附加或可替换地,标记电路24可以实现手动审查过程(例如,人工审查等),以标记内容项目。然而,应当理解,标记电路24可以使用本领域内已知的任何方法对内容项目进行分类。作为非限制性示例,标记电路24可以实现关键词提取算法、本体论学习系统、自动分类法学习系统、贝叶斯网络、回归分析、遗传算法、支持向量机、人工神经网络和/或联合学习模型。在一些实施方式中,标记电路24自动对文本和/或图像进行分类。附加或可替换地,标记电路24可以使用在训练集上训练的模型来处理内容项目,其中,训练集包括与参考文本和/或图像相关联的预定分类。例如,标记电路24可以通过识别文本和/或图像并将识别的文本和/或图像与查找表进行比较来分析内容项目,以确定分类。标记系统10可能包括对内容项目进行分类所固有的限制。
比例响应系统200可以解决标记系统10固有的限制。在各种实施方式中,比例响应系统200限制与供应违反政策的内容相关联的风险和/或保护终端用户免受不适当的内容。在各种实施方式中,比例响应系统200监视内容项目集合,并且促进标记内容项目。例如。比例响应系统200可以监视属于内容群组的内容项目,并且可以基于检测到内容群组中的阈值数量的内容项目具有一特性,向内容群组中的一个或多个内容项目分配标记。作为非限制性示例,比例响应系统200可以识别内容群组中的11个内容项目中的10个包括“包含枪支”的标记,并且因此可以用“包含枪支”标记来标记第十一内容项目。在一些实施方式中,比例响应系统200可以响应于确定内容群组中的具有标记的内容项目的数量低于阈值,转发一个或多个内容项目,以进行手动审查。例如,比例响应系统200可以识别内容群组中的11个内容项目之一包括“包含枪支”标记,并且可以将该一个内容项目转发到手动审查过程,以进行审查标记。在各种实施方式中,内容群组中的不同内容项目共享一个或多个属性。例如,内容群组中的所有内容项目可能与特定主题相关,诸如户外用品。在一些实施方式中,内容群组由来自特定来源和/或与特定类别的内容相关联的项目组成。在各种实施方式中,内容群组基于各种标准来形成。例如,内容群组可以由共享特性(例如,来源、类别、目的、展示介质、意图展示时段、地理关联等)的项目组成。因此,比例响应系统200可以利用归纳和/或分析推理来(例如,基于了解到内容群组中的大多数内容项目与户外用品相关联等),有效且准确地标记内容群组中的内容项目。附加或可替换地,比例响应系统200可以识别低水平的数据(例如,特定内容项目等)中的模式,并且使用模式对内容项目集合进行分类。在各种实施方式中,比例响应系统200有效地促进标记内容项目。例如,比例响应系统200可以识别与标记的内容项目的子集相关联的趋势,并且可以使用趋势来标记若干个未标记的内容项目,从而消除(例如,经由机器学习算法和/或手动审查过程等)具体分析和标记每个单独的内容项目的需要。
在一些实施方式中,比例响应系统200是分布式系统(例如,云处理系统等)。例如,比例响应系统200可以是服务器、分布式处理集群、云处理系统或任何其他计算设备。比例响应系统200可以包括或执行至少一个计算机程序或至少一个脚本。在一些实施方式中,比例响应系统200包括软件和硬件的组合,诸如被配置为执行一个或多个脚本的一个或多个处理器。比例响应系统200被示为包括处理电路210。
处理电路210可以包括处理器220和存储器230。存储器230可以在其上存储有指令,指令在由处理器220执行时,使处理电路210执行本文描述的各种操作。本文描述的操作可以使用软件、硬件或其组合来实现。处理器220可以包括微处理器、ASIC、FPGA等或其组合。在许多实施方式中,处理器220可以是多核心处理器或处理器阵列。
存储器230可以包括但不限于电子存储设备、光学存储设备、磁性存储设备或能够向处理器220提供程序指令的任何其他存储设备。存储器230可以包括软盘、CD-ROM、DVD、磁盘、存储器片、ROM、RAM、EEPROM、EPROM、闪存存储器、光学介质或处理器220可从中读取指令的任何其他合适的存储器。指令可以包括来自任何合适的计算机编程语言(诸如但不限于C、C++、C#、Java、JavaScript、Perl、HTML、XML、Python和Visual Basic)的代码。
存储器340可以包括测量电路232和扇出电路234。测量电路232可以测量与内容项目集合相关联的一个或多个特性。例如,测量电路232可以测量内容群组中的具有第一标记的内容项目的数量。附加或可替换地,测量电路232可以确定属性在内容项目集合中的内容项目当中的频率、内容项目属于分类的可能性和/或与一个或多个内容项目相关联的任何其他测量。在各种实施方式中,测量电路232生成与内容项目集合相关联的一个或多个统计测量。在一些实施方式中,测量电路232持续监视内容项目的流。例如,测量电路232可以从标记系统10接收标记的内容项目,并且实时或接近实时地更新内容群组中的具有特性的内容项目的计数。作为另外的示例,测量电路232可以响应于标记电路10标记内容项目(例如,内容群组中的内容项目等),更新内容群组中的具有特性的内容项目的计数。在一些实施方式中,测量电路232从第一数据库12检索内容项目。在各种实施方式中,测量电路232促进将内容标记从特定内容项目扩展到更大的内容项目集合。例如,测量电路232可以确定具有特定标记的内容项目的百分比,并且比例响应系统200可以使用百分比来确定是否通过利用标记(例如,内容类别等)将内容群组中的其他内容项目进行标记,来扩展标记。在各种实施方式中,测量电路232将测量发送给扇出电路234。例如,测量电路232可以从第一数据库12检索一个或多个内容项目,确定与一个或多个内容项目相关联的一个或多个测量,并且将一个或多个测量发送给扇出电路234。
扇出电路234可以将一个或多个分类扩展到内容项目集合。例如,扇出电路234可以从测量电路232接收指示内容群组中的60%的内容项目包括标记(例如,内容类别等)“包含枪支”的测量,可以确定标记应被应用于内容群组中的所有内容项目,并且可以将标记应用于内容群组中的尚未具有标记的内容项目。在一些实施方式中,扇出电路234将从测量电路232接收的测量与阈值进行比较,以确定是否将分类扩展到内容项目集合。在各种实施方式中,扇出电路234基于分类的类型来确定是否扩展分类。例如,如果内容群组中的50%的内容项目包括与枪支相关联的第一标记,则扇出电路234可以扩展第一标记,并且如果内容群组中的30%的内容项目包括与酒精相关联的第二标记,则扇出电路234可以扩展第二标记。在各种实施方式中,扇出电路234动态地识别要标记的内容项目。例如,扇出电路234可以基于第一类型的标记,将第一类型的标记扩展到第一内容项目集合(例如,第一内容群组),并且可以基于第二类型的标记,将第二类型的标记扩展到第二内容项目集合(例如,第二内容群组)。在一些实施方式中,扇出电路234可以动态地确定用于扇出的阈值。例如,扇出电路234可以对与每个标记相关联的若干个潜在阈值的标记结果进行建模,以识别阈值。
现在参考图2,根据说明性实施方式,示出了用于限制与供应违反政策的内容相关联的风险和/或保护终端用户免受不适当内容的计算机架构300。计算机架构300被示为包括标记系统10和比例响应系统200。在一些实施方式中,标记系统10和比例响应系统200共同定位。例如,标记系统10和比例响应系统200可以是容纳在服务器上的内容供应系统的部分。附加或可替换地,标记系统10和比例响应系统200可以分开。例如,第一方可以操作标记系统10,并且将结果传递到操作比例响应系统200的第二方。
在步骤302,标记系统10接收一个或多个内容项目。例如,标记系统10可以从内容生产者接收内容项目。内容项目可以包括文本、图像、视频、声音等。在一些实施方式中,内容项目包括广告。在各种实施方式中,一个或多个内容项目可以形成内容项目集合。例如,与特定话题(例如,自行车等)相关的内容项目集合可以形成内容群组。在一些实施方式中,内容群组可以与特定受众相关联。例如,旨在供应给特定受众(例如,男性、女性等)的内容项目集合可以形成内容群组。附加或可替换地,一个或多个规则被用来形成内容群组。在各种实施方式中,标记系统10标记在步骤302中接收的一个或多个内容项目。例如,标记系统10可以使用机器学习和/或人工智能算法来标记一个或多个内容项目。附加或可替换地,标记系统10可以使用手动审查过程标记一个或多个内容项目。例如,标记系统10可以使用机器学习算法标记内容项目,并且然后将标记的内容项目传递给人类,以确认标记是正确的。
在步骤304,比例响应系统200可以与标记系统10交互,以测量一个或多个内容项目的一个或多个特性。在各种实施方式中,比例响应系统200持续监视与在步骤302中接收的一个或多个内容项目相关联的特性。例如,比例响应系统200可以监视所接收的内容项目有多少比例已经被标记系统10标记。在各种实施方式中,比例响应系统200测量内容群组中的具有标记的内容项目的数量。例如,比例响应系统200可以确定内容群组中的33个内容项目中的19个具有特定标记。在一些实施方式中,步骤304包括测量电路232查询第二数据库14和/或第一数据库12。
在步骤306,比例响应系统200可以扩展一个或多个标记。例如,比例响应系统200可以将与若干个内容项目相关联的标记扩展到与若干个内容项目相关联的内容群组。在各种实施方式中,比例响应系统200基于步骤304中的测量来确定要扩展哪些标记。例如,比例响应系统200可以确定内容群组中的60%的内容项目具有“包含暴力”的标记,并且作为响应,可以将“包含暴力”的标记扩展到内容群组中的其他内容项目中的至少一些。在各种实施方式中,步骤306包括将来自步骤304的一个或多个测量与阈值进行比较。例如,比例响应系统200可以将内容群组中的具有标记的内容项目的数量的测量与和特定标记相关联的阈值进行比较,以确定是否将标记扩展到内容群组。在一些实施方式中,步骤306包括标记尚未被标记的内容项目。附加或可替换地,步骤306可以包括覆写(overwrite)与内容项目相关联的先前标记。例如,内容项目可以包括标记“非暴力”,并且步骤306可以包括比例响应系统200用“包含暴力”来覆写标记。在各种实施方式中,计算机架构300促进减少标记系统10的计算开销。例如,比例响应系统200可以利用归纳推理技术来识别内容项目的标记,而无需在每个内容项目上执行计算花费大的机器学习算法。在一些实施方式中,比例响应系统200混淆(obfuscate)对标记进行手动审查的需要。例如,比例响应系统200可以很有可能地确定内容群组中的所有内容项目包括标记“包含暴力”,并且可以阻止对为每个内容项目确认标记“包含暴力”的手动审查过程的需要。在一些实施方式中,比例响应系统200可以防止不正确标记的内容。例如,比例响应系统200可以接收五个内容项目,其中一个内容项目被标记为“包含枪支”,并且可以响应于确定内容群组中具有标记的内容项目的比例(例如,五分之一)低于阈值,将该一个内容项目发送给手动审查过程,以审查标记“包含枪支”。在各种实施方式中,比例响应系统200阻止不适当的内容被供应给终端用户。例如,比例响应系统200可以促进识别典型标记过程可能错过的内容项目,并且防止这些内容项目被提供给不适当的受众(例如,儿童等)。
现在参考图3,根据说明性实施方式,示出了用于阻止不适当的内容被供应给终端用户的方法400。在各种实施方式中,方法400由比例响应系统200执行。在步骤402中,比例响应系统200可以接收包括与内容群组相关联的第一组内容项目的多个内容项目。在一些实施方式中,步骤402包括从数据库检索内容项目。例如,比例响应系统200可以查询数据库以检索内容项目。附加或可替换地,比例响应系统200可以针对与内容项目相关联的特性查询数据库。
在步骤404中,比例响应系统200可以确定与属于特定类别的第一组内容项目的量相关联的测量。例如,比例响应系统200可以分析接收的多个内容项目,以识别具有标记的第一组内容项目的比例。附加或可替换地,比例响应系统200可以查询外部系统(例如,数据库等)以确定测量。在一些实施方式中,比例响应系统200确定测量的数量。例如,比例响应系统200可以确定内容群组中具有第一标记的内容项目的百分比,并且还可以确定与第一标记应用于内容群组中的其他内容项目的可能性相关联的置信度得分。
在步骤406中,比例响应系统200可以使用测量和阈值执行操作。在各种实施方式中,阈值取决于特定内容类别。例如,与第一内容类别相关联的第一标记可以具有第一阈值,并且与第二内容类别相关联的第二标记可以具有第二阈值。在各种实施方式中,该操作包括比较。例如,比例响应系统200可以将内容群组中的具有标记的内容项目的百分比与阈值进行比较。作为另一示例,比例响应系统200可以将具有标记的内容项目的原始数量与阈值进行比较。
在步骤408中,比例响应系统200可以分配多个内容项目中的一个或多个以由机器学习算法或手动审查过程中的至少一个进行归类。在各种实施方式中,步骤408响应于确定测量小于阈值而执行。例如,比例响应系统200可以将内容群组中的具有第一标记的内容项目的百分比与阈值进行比较,确定百分比小于阈值,并且分配多个内容项目中的一个或多个以由人工智能算法进行归类。在一些实施方式中,步骤408包括标志(flag)多个内容项目中的一个或多个以进行归类(例如,在数据结构中设置标志等)。附加或可替换地,步骤408可以包括将多个内容项目中的一个或多个发送到分析系统(例如,标记系统10等)。在各种实施方式中,比例响应系统200可以在步骤408和步骤410之间动态地选择。例如,比例响应系统200可以(例如,当标记系统标记内容群组中的内容项目时等)实时监视内容群组的特性,并且可以基于监视的结果,对内容群组中的内容项目执行动作。作为非限制性示例,在第一时间点处,比例响应系统200可以确定内容群组中的阈值数量的内容项目具有特定分类,并且可以将特定分类应用于内容群组中的至少一些内容项目,以及,在第二时间点处,比例响应系统200可以确定内容群组中的内容项目的数量低于阈值,并且可以分配内容群组中的至少一个内容项目以由机器学习算法和/或手动审查过程进行分析。
在步骤410中,比例响应系统200可以将特定内容类别自动应用于内容群组中的一个或多个其他内容项目,使得一个或多个其他内容项目不被手动审查过程审查。在各种实施方式中,步骤410包括将标记扩展到内容群组。例如,比例响应系统200可以将“包含暴力”的标记从第一内容项目扩展到第一内容项目所属于的内容群组中的若干个其他内容项目,使得若干个其他内容项目也包括标记“包含暴力”。在一些实施方式中,步骤410包括扩展若干个标记。附加或可替换地,步骤410可以包括扩展其他特性。在各种实施方式中,将特定内容类别应用于一个或多个其他内容项目混淆对使用分析系统分析一个或多个其他内容项目以确定标记的需要。例如,由比例响应系统200标记的内容项目可能不需要由分析系统(诸如标记系统10)标记。在各种实施方式中,步骤410可以减少与向终端用户供应不适当的内容相关联的风险。例如,比例响应系统200可以确定:基于与内容群组中的被标记的内容项目相关联的标记,很可能内容群组中的每个内容项目(包括未标记的内容项目)与由标记指示的内容类别相关联,因此可以将标记应用于内容群组中的每个内容项目。在步骤412中,比例响应系统200可以传输多个内容项目。在一些实施方式中,步骤412包括向终端用户供应一个或多个内容项目。附加或可替换地,步骤412可以包括将一个或多个内容项目传输给外部系统(例如,内容供应系统等)。
比例响应系统200可以提供在现有系统之上的许多的好处。在各种实施方式中,比例响应系统200促进控制供应给用户的内容。例如,比例响应系统200可以促进确定与内容项目相关联的内容类别,其可以用于确定是否向特定的终端用户供应内容项目。附加或可替换地,比例响应系统200可以促进减少与标记内容项目相关联的计算开销。例如,比例响应系统200可以利用已经标记的内容项目来确定与未标记的内容项目相关联的标记。在各种实施方式中,比例响应系统200减少手动审查的开销。例如,比例响应系统200可以标记内容项目,不然的话,这要求手动审查。图4A至4B示出比例响应系统200的优点。
现在具体参考图4A,根据说明性实施方式,示出了系统500。系统500可以不包括比例响应系统200。在各种实施方式中,与本文描述的系统和方法相比,系统500具有许多缺点。在步骤510,标记系统10可以接收多个内容项目。在步骤520,标记系统10可以标记多个内容项目。在各种实施方式中,步骤520包括用机器学习算法来标记多个内容项目。附加或可替换地,标记系统10可以使用手动审查过程来标记多个内容项目。在各种实施方式中,步骤520可以包括错误地标记多个内容项目中的一个或多个。例如,步骤520可以包括将描绘酒精用途的内容项目标记为“不含酒精”。作为另一示例,步骤520可以包括不给内容项目分配任何标记,即使内容项目应该被包括在特定内容类别(例如,内容项目描绘枪支等)中。在一些实施方式中,步骤520计算开销花费大,和/或需要大量的时间来完成。在步骤580,标记系统10可以传输多个内容项目中的一个或多个。在各种实施方式中,步骤580包括将多个内容项目中的一个或多个供应给终端用户。附加或可替换地,步骤580可以包括将多个内容项目中的一个或多个传输给外部系统。在各种实施方式中,步骤580包括:基于在步骤520期间确定的标记,向终端用户供应多个内容项目中的一个或多个。在各种实施方式中,步骤580包括向终端用户供应违反政策的内容项目。例如,政策可能命令描绘枪支的内容不被供应给18岁以下的用户,而标记系统10可能意外地将描绘枪支的内容项目供应给18岁以下的人,因为内容项目被错误地标记为不描绘枪支。
现在参考图4B,根据说明性实施方式,示出了解决机器学习算法的固有限制并防止暴露于违反内容政策的内容的系统502。在各种实施方式中,系统502包括比例响应系统200。比例响应系统200可以提高标记内容项目的计算效率,减少手动审查的开销,并且防止向用户供应违反内容政策的内容。在各种实施方式中,比例响应系统200防止不适当地标记的内容项目。在步骤510,标记系统10可以接收多个内容项目。在步骤520,标记系统10可以标记多个内容项目(例如,如上面参考图4A描述的等)。在步骤530,比例响应系统200可以测量多个内容项目的一个或多个特性。在一些实施方式中,步骤530在多个内容项目的部分被标记时执行。附加或可替换地,步骤530可以在多个内容项目中的全部被标记时执行。
在步骤540,比例响应系统200可以将一个或多个测量与阈值进行比较。例如,比例响应系统200可以将内容群组中具有标记的内容项目的百分比与阈值进行比较。在步骤550,比例响应系统200可以标记多个内容项目中的一个或多个。例如,响应于确定内容群组中的具有标记的内容项目的数量超过阈值,比例响应系统200可以将标记扩展到多个内容项目中的一个或多个。在一些实施方式中,比例响应系统200基于不同的确定来扩展标记。例如,比例响应系统200可以基于确定内容群组中具有标记的内容项目的百分比小于阈值来扩展标记。在各种实施方式中,步骤550减少标记多个内容项目的计算开销。例如,标记系统10可以标记内容群组中的多个内容项目中的一半,比例响应系统200可以确定标记应被扩展到整个内容群组,并且比例响应系统200可以用标记来标记内容群组中的所有内容项目。在各种实施方式中,比例响应系统200可以防止不适当标记的内容项目。例如,比例响应系统200可以接收属于内容群组的若干个内容项目,可以确定内容群组中的具有特定分类的内容项目的数量低于阈值,并且可以将具有特定分类的若干个内容项目传输到手动审查过程进行审查(例如,以验证特定分类是否有效等)。在一些实施方式中,比例响应系统200防止暴露于违反内容政策的内容。例如,在步骤570,标记系统10可以基于来自比例响应系统200的扩展标记,向终端用户供应多个内容项目中的一个或多个。
图5示出可以用于例如实现本公开描述的任何说明性系统(例如,比例响应系统200等)的计算系统1000的描述。计算系统1000包括总线1005或用于通信信息的其他通信组件和耦接到总线1005的用于处理信息的处理器1010。计算系统1000还包括耦接到总线1005以用于存储信息的主存储器1015(诸如随机存取存储器(“RAM”)或其他动态存储设备)和要由处理器1010执行的指令。主存储器1015也可以用于由处理器1010在指令的执行期间存储定位信息、临时变量或其他中间信息。计算系统1000还可以包括耦接到总线1005以用于存储处理器1010的静态信息和指令的只读存储器(“ROM”)1020或其他静态存储设备。存储设备1025(诸如固态设备、磁盘或光盘)耦接到总线1005,以便持久地存储信息和指令。
计算系统1000可以经由总线1005耦接到用于向用户显示信息的显示器1035,诸如液晶显示器或有源矩阵显示器。输入设备1030(诸如包括字母数字和其他键的键盘)可以耦接到总线1005,以用于将信息和指令选择通信给处理器1010。在另一实施方式中,输入设备1030具有触摸屏显示器1035。输入设备1030可以包括用于将方向信息和命令选择通信给处理器1010并用于控制光标在显示器1035上的移动的光标控制,诸如鼠标、轨迹球或光标方向键。
在一些实施方式中,计算系统1000可以包括通信适配器1040,诸如网络适配器。通信适配器1040可以耦接到总线1005,并且可以被配置为启用与计算或通信网络1045和/或其他计算系统的通信。在各种说明性实施方式中,可以使用通信适配器1040(诸如有线(例如,经由以太网)、无线(例如,经由WiFi、蓝牙等)、预配置、自组织(ad-hoc)、LAN、WAN等)来实现任何类型的网络配置。
根据各种实施方式,实行本文描述的说明性实施方式的过程可以由计算系统1000响应于处理器1010执行包含在主存储器1015中的一系列(an arrangement of)指令而实现。这样的指令可以从另一计算机可读介质(诸如存储设备1025)被读取到主存储器1015中。执行包含在主存储器1015中的一系列指令使计算系统1000执行本文描述的说明性过程。此外,可以采用多处理布置中的一个或多个处理器来执行包含在主存储器1015中的指令。在替代实施方式中,可以使用硬接线电路代替软件指令或与软件指令结合来实现说明性实施方式。因此,实施方式不限于硬件电路和软件的任何特定组合。
尽管图5已经描述示例处理系统,但是本说明书描述的主题和功能操作的实施方式可以使用其他类型的数字电子电路,或在包括本说明书公开的结构及其结构等同物的计算机软件、固件或硬件中,或者在它们中的一个或多个的组合中实现。
除了上面描述之外,还可以向用户提供控制,其允许用户选择本文描述的系统、程序或特征是否以及何时可以启用用户信息(例如,关于用户的社交网络、社交行动或活动、职业、用户偏好或用户当前位置的信息)的收集,以及是否从服务器向用户发送内容或通信消息。此外,特定数据在被存储或使用之前,可能被以一种或多种方式处理,从而使个人可识别信息被移除。例如,用户身份可以被处理,以使得不能确定用户的个人可识别信息,或者获得位置信息的用户地理位置可以被概括化(诸如到城市、邮政编码或州的水平),如此就不能确定用户的特定位置。因此,用户可以控制关于用户的哪些信息被收集,信息被如何使用,以及哪些信息被提供给用户。在本文描述的系统收集关于用户或安装在用户设备上的应用的个人信息或者利用个人信息的情形下,用户有机会控制程序或功能是否收集用户信息(例如,关于用户的社交网络、社交动作或活动、职业、用户偏好或用户当前位置的信息)。附加或可替换地,特定数据在被存储或使用之前,可能被以一种或多种方式处理,从而使个人信息被移除。
本说明书描述的主题和操作的实施方式可以使用数字电子电路,或在具现在包括本说明书公开的结构及其结构等同物的有形介质、固件或硬件上的计算机软件,或者在它们中的一个或多个的组合中实现。本说明书描述的主题的实施方式可以被实现为编码在一个或多个计算机存储介质上以由数据处理装置执行或控制数据处理装置的操作的一个或多个计算机程序,即,一个或多个计算机程序指令模块。附加或可替换地,程序指令可以被编码在被生成以编码信息从而传输给合适的接收装置以供数据处理装置执行的人工生成的传播信号上,例如,机器生成的电信号、光信号或电磁信号。计算机可读存储介质可以是计算机可读存储设备、计算机可读存储基底、随机或串行存取存储器阵列或设备、或它们中的一个或多个的组合,或被包括在其中。此外,虽然计算机存储介质不是传播信号,但是计算机存储介质可以是编码在人工生成的传播信号中的计算机程序指令的来源或目的地。计算机存储介质还可以是一个或多个分开的组件或介质(例如,多个CD、磁盘或其他存储设备),或被包括在其中。计算机存储介质可以是有形的和/或可以是非暂时性的。
本说明书描述的操作可以被实现为由数据处理装置对存储在一个或多个计算机可读存储设备上或从其他来源接收的数据执行的操作。
术语“数据处理装置”或“计算设备”包含用于处理数据的所有种类的装置、设备和机器,举例来说,包括可编程处理器、计算机、片上系统、或上述中的的多个或组合。装置可以包括专用的逻辑电路,例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路)。除了硬件之外,装置还可以包括创建用于有关计算机程序的执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行环境、虚拟机或它们中的一个或多个的组合的代码。装置和执行环境可以实现各种不同的计算模型基础结构,诸如网络服务、分布式计算和网格计算基础结构。
计算机程序(也称为程序、软件、软件应用、脚本或代码)可以用任何形式的编程语言(包括编译或解释语言、声明性或程序性语言)来编写,并且它可以以任何形式部署,包括作为独立的程序或作为模块、组件、子程序、对象或适合在计算环境中使用的其他单元。计算机程序可以但不需要对应于文件系统中的文件。程序可以被存储在保持其他程序或数据的文件的部分(例如,存储在标记语言文档中的一个或多个脚本)中,被存储在专门用于有关程序的单个文件中,或被存储在多个协调文件(例如,存储一个或多个模块、子程序或代码的部分的文件)中。计算机程序可以被部署为在一个计算机上执行,或者部署在位于一个地点或跨多个地点分布并通过通信网络相互连接的多个计算机上执行。
本说明书描述的过程和逻辑流可以通过一个或多个可编程处理器执行一个或多个计算机程序来执行,从而通过对输入数据进行操作并生成输出来执行动作。过程和逻辑流也可以由专用的逻辑电路(例如,FPGA(现场可编程门阵列)或ASIC(专用集成电路))来执行,并且装置也可以被实现为专用的逻辑电路。本文所利用的电路可以使用硬件电路(例如,FPGA、ASIC等)、软件(存储在一个或多个计算机可读存储介质上并可由一个或多个处理器执行的指令)或其任何组合来实现。
举例来说,适合执行计算机程序的处理器包括通用和专用的微处理器二者,以及任何种类的数字计算机的任何一个或多个处理器。一般来说,处理器将从只读存储器或随机存取存储器或两者接收指令和数据。计算机的基本要素是用于根据指令来执行动作的处理器和用于存储指令和数据的一个或多个存储器设备。一般来说,计算机将还包括用于存储数据的一个或多个大容量存储设备(例如,磁盘、磁光盘或光盘),或者可操作地耦接到大容量存储设备以从大容量存储设备接收数据或将数据传送给大容量存储设备,或者两者。然而,计算机不需要具有这样的设备。此外,计算机可以嵌入另一设备,例如,移动电话、个人数字助理(“PDA”)、移动音频或视频播放器、游戏机、全球定位系统(“GPS”)接收器或便携式存储设备(例如,通用串行总线(“USB”)闪存驱动器),仅举几例。适合存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、介质和存储器设备,举例来说,包括:半导体存储器设备,例如,EPROM、EEPROM和闪存存储器设备;磁盘,例如,内部硬盘或可移动盘;磁光盘;以及,CD-ROM和DVD-ROM盘。处理器和存储器可以由专用的逻辑电路补充或并入其中。
为了提供与用户的交互,本说明书描述的主题的实施方式可以使用计算机来进行,该计算机具有用于向用户显示信息的显示设备(例如,CRT(阴极射线管)或LCD(液晶显示器)监视器)以及用户可通过其向计算机提供输入的键盘和指向设备(例如,鼠标或轨迹球)。其他种类的设备也可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的感官反馈,例如,视觉反馈、听觉反馈或触觉反馈;以及,可以以任何形式(包括声音、语言或触觉输入)接收来自用户的输入。此外,计算机可以通过向由用户使用的设备发送文档和从由用户使用的设备接收文档来与用户交互;例如,通过响应于从网络浏览器接收的请求而向用户的客户端设备上的网络浏览器发送网页。
本说明书描述的主题的实施方式可以使用计算系统来进行,计算系统包括后端组件(例如,作为数据服务器)或包括中间件组件(例如,应用服务器)或包括前端组件(例如,具有用户可通过其与本说明书描述的主题的实施方式进行交互的图形用户界面或网络浏览器的客户端计算机)或一个或多个这样的后端、中间件或前端组件的任何组合。系统的组件可以通过数字数据通信的任何形式或介质(例如,通信网络)来相互连接。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、跨网络(例如,互联网)和对等网络(例如,自组织对等网络)。
计算系统可以包括客户端和服务器。客户端和服务器一般是彼此远离的,并且典型地通过通信网络进行交互。客户端和服务器的关系是由于在相应的计算机上运行并且彼此之间具有客户端-服务器关系的计算机程序而产生的。在一些实施方式中,服务器将数据(例如,HTML页)传输给客户端设备(例如,目的是向与客户端设备交互的用户显示数据和从该用户接收输入)。在服务器处可以从客户端设备接收在客户端设备处生成的数据(例如,用户交互的结果)。
虽然本说明书包含许多具体的实施细节,但是这些不应被理解为对任何发明或可能要求保护的内容的范围的限制,而是应被理解为对特定发明的特定实施方式所特定的特征的描述。本说明书中的在分开的实施方式的上下文中描述的特定特征也可以在组合中或在单个实施方式中进行。反之,在单个实施方式的上下文中描述的各种特征也可以在多个实施方式中分开或以任何合适的子组合进行。此外,尽管上面可能将特征描述为在特定组合中动作,甚至最初也是如此要求保护的,但是在一些情况下,可以从所要求保护的组合中去除组合中的一个或多个特征,并且所要求保护的组合可以针对子组合或子组合的变体。此外,相对于特定标题描述的特征可以相对于在其他标题下所描述的说明性实施方式来使用和/或结合在其他标题下所描述的说明性实施方式使用;所提供的标题只是为了可读性的目的而被包括,并且不应被解释为限制相对于这样的标题提供的任何特征。
类似地,虽然附图按特定顺序描绘操作,但是这不应被理解为要求按所示的特定顺序或按依次顺序执行这样的操作,或要求执行所有示出的操作以实现期望的结果。在特定情况下,多任务和并行处理可能是有利的。此外,上述实施方式中的各系统组件的分开不应被理解为在所有实施方式中都要求这样的分开,应当理解,所描述的程序组件和系统通常可以一起集成在单个软件产品中,或打包成具现在有形介质上的多个软件产品。
因此,已经描述了本主题的特定实施方式。其他实施方式也落入所附的权利要求的范围。在一些情况下,权利要求叙述的动作可以按不同的顺序执行,并且仍然可以达到期望结果。此外,附图描绘的过程不一定要求所示的特定顺序或依次顺序来实现期望结果。在特定实施方式中,多任务和并行处理可能是有利的。
Claims (20)
1.一种用于防止暴露于违反内容政策的内容的方法,所述方法包括:
由一个或多个处理器接收包括与内容群组相关联的第一组内容项目的多个内容项目,其中,所述多个内容项目中的至少一些包括由机器学习算法基于内容政策来确定的内容类别;
由一个或多个处理器确定与属于特定内容类别的第一组内容项目的量相关联的测量;
响应于从使用测量和阈值执行操作来确定第一结果:
由一个或多个处理器分配多个内容项目中的一个或多个以由机器学习算法或手动审查过程中的至少一个进行归类;
响应于从使用测量和阈值执行操作来确定第二结果:
由一个或多个处理器将特定内容类别自动应用于内容群组中的一个或多个其他内容项目,使得一个或多个其他内容项目不被手动审查过程审查;以及
由一个或多个处理器传输多个内容项目中的至少一个,其中,所述多个内容项目中的每个的内容类别指示特定内容项目是否违反任何内容政策。
2.根据权利要求1所述的方法,其中,传输所述多个内容项目中的至少一个包括将多个内容项目中的至少一个传输给外部内容系统。
3.根据权利要求1所述的方法,其中,传输所述多个内容项目中的至少一个包括基于多个内容项目中的至少一个的每个的内容类别,确定是否向用户供应多个内容项目中的至少一个的每个。
4.根据权利要求1所述的方法,其中,所述阈值取决于特定内容类别。
5.根据权利要求1所述的方法,其中,所述测量包括具有特定内容类别的第一组内容项目的数量,并且其中,第一结果指示所述数量小于或等于阈值。
6.根据权利要求1所述的方法,其中,所述测量包括具有特定内容类别的第一组内容项目的比率,并且其中,第一结果指示所述比率小于或等于阈值。
7.根据权利要求1所述的方法,其中,所述测量包括具有特定内容类别的第一组内容项目的数量,并且其中,第二结果指示所述数量大于阈值。
8.根据权利要求1所述的方法,其中,所述测量包括具有特定内容类别的第一组内容项目的比率,并且其中,第二结果指示所述比率大于阈值。
9.根据权利要求1所述的方法,其中,所述内容政策与一个或多个用户相关联,并且其中,包括违反所述内容政策的内容类别的内容项目不被供应给一个或多个用户。
10.一个或多个计算机可读存储介质,其上存储有指令,所述指令在由一个或多个处理器执行时,使一个或多个处理器:
接收包括与内容群组相关联的第一组内容项目的多个内容项目,其中,所述多个内容项目中的至少一些包括由机器学习算法基于内容政策来确定的内容类别;
确定与属于特定内容类别的第一组内容项目的量相关联的测量;
响应于从使用测量和阈值执行操作来确定第一结果:
分配多个内容项目中的一个或多个以由机器学习算法或手动审查过程中的至少一个进行归类;
响应于从使用测量和阈值执行操作来确定第二结果:
将特定内容类别自动应用于内容群组中的一个或多个其他内容项目,使得一个或多个其他内容项目不被手动审查过程审查;以及
传输多个内容项目中的至少一个,其中,所述多个内容项目中的每个的内容类别指示特定内容项目是否违反任何内容政策。
11.根据权利要求10所述的一个或多个计算机可读存储介质,其中,传输多个内容项目中的至少一个包括将多个内容项目中的至少一个传输给外部内容系统。
12.根据权利要求10所述的一个或多个计算机可读存储介质,其中,传输所述多个内容项目中的至少一个包括基于多个内容项目中的至少一个的每个的内容类别,确定是否向用户供应多个内容项目中的至少一个的每个。
13.根据权利要求10所述的一个或多个计算机可读存储介质,其中,所述阈值取决于特定内容类别。
14.根据权利要求10所述的一个或多个计算机可读存储介质,其中,所述测量包括具有特定内容类别的第一组内容项目的数量,并且其中,第一结果指示所述数量小于或等于阈值。
15.根据权利要求10所述的一个或多个计算机可读存储介质,其中,所述测量包括具有特定内容类别的第一组内容项目的比率,并且其中,第一结果指示所述比率小于或等于阈值。
16.根据权利要求10所述的一个或多个计算机可读存储介质,其中,所述测量包括具有特定内容类别的第一组内容项目的数量,并且其中,第二结果指示所述数量大于阈值。
17.根据权利要求10所述的一个或多个计算机可读存储介质,其中,所述测量包括具有特定内容类别的第一组内容项目的比率,并且其中,第二结果指示所述比率大于阈值。
18.根据权利要求10所述的一个或多个计算机可读存储介质,其中,所述内容政策与一个或多个用户相关联,并且其中,包括违反所述内容政策的内容类别的内容项目不被供应给一个或多个用户。
19.一种用于防止暴露于违反内容政策的内容的系统,所述系统包括具有一个或多个处理器和一个或多个存储器的一个或多个处理电路,一个或多个存储器中的每个存储指令,所述指令在由一个或多个处理器执行时,使一个或多个处理器:
接收包括与内容群组相关联的第一组内容项目的多个内容项目,其中,所述多个内容项目中的至少一些包括由机器学习算法基于内容政策来确定的内容类别;
确定与属于特定内容类别的第一组内容项目的量相关联的测量;
响应于确定测量小于或等于阈值:
分配多个内容项目中的一个或多个以由机器学习算法或手动审查过程中的至少一个进行归类;
响应于确定测量大于阈值:
将特定内容类别自动应用于内容群组中的一个或多个其他内容项目,使得一个或多个其他内容项目不被手动审查过程审查;以及
基于多个内容项目中的至少一个的每个的内容类别,向用户供应多个内容项目中的至少一个,其中,所述多个内容项目中的每个的内容类别指示特定内容项目是否违反任何内容政策。
20.根据权利要求19所述的系统,其中,阈值取决于特定内容类别。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US17/066,239 | 2020-10-08 | ||
US17/066,239 US11582243B2 (en) | 2020-10-08 | 2020-10-08 | Systems and methods for protecting against exposure to content violating a content policy |
PCT/US2021/053387 WO2022076314A1 (en) | 2020-10-08 | 2021-10-04 | Systems and methods for protecting against exposure to content violating a content policy |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115210742A true CN115210742A (zh) | 2022-10-18 |
Family
ID=78621990
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180018162.6A Pending CN115210742A (zh) | 2020-10-08 | 2021-10-04 | 用于防止暴露于违反内容政策的内容的系统和方法 |
Country Status (4)
Country | Link |
---|---|
US (2) | US11582243B2 (zh) |
EP (1) | EP4091106B1 (zh) |
CN (1) | CN115210742A (zh) |
WO (1) | WO2022076314A1 (zh) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11574145B2 (en) * | 2020-06-30 | 2023-02-07 | Google Llc | Cross-modal weak supervision for media classification |
US12008057B2 (en) * | 2021-05-11 | 2024-06-11 | Google Llc | Determining a visual theme in a collection of media items |
US11681779B1 (en) * | 2022-04-29 | 2023-06-20 | Franklin Technology Inc. | Notification service server capable of providing access notification service to harmful sites and operating method thereof |
Family Cites Families (33)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080219495A1 (en) * | 2007-03-09 | 2008-09-11 | Microsoft Corporation | Image Comparison |
US20110047388A1 (en) * | 2009-08-24 | 2011-02-24 | Samsung Electronics Co., Ltd. | Method and apparatus for remotely controlling access to pornographic content of an image |
US8788442B1 (en) * | 2010-12-30 | 2014-07-22 | Google Inc. | Compliance model training to classify landing page content that violates content item distribution guidelines |
US8959574B2 (en) * | 2012-06-21 | 2015-02-17 | Google Technology Holdings LLC | Content rights protection with arbitrary correlation of second content |
US8972376B1 (en) * | 2013-01-02 | 2015-03-03 | Palo Alto Networks, Inc. | Optimized web domains classification based on progressive crawling with clustering |
US10394408B1 (en) * | 2013-06-27 | 2019-08-27 | Google Llc | Recommending media based on received signals indicating user interest in a plurality of recommended media items |
US9355406B2 (en) * | 2013-07-18 | 2016-05-31 | GumGum, Inc. | Systems and methods for determining image safety |
KR20150051711A (ko) * | 2013-11-05 | 2015-05-13 | 한국전자통신연구원 | 유해 콘텐츠 영상 차단을 위한 피부 영역 추출 장치 및 방법 |
US9348980B2 (en) * | 2014-07-10 | 2016-05-24 | Paul Fergus Walsh | Methods, systems and application programmable interface for verifying the security level of universal resource identifiers embedded within a mobile application |
US20160162576A1 (en) * | 2014-12-05 | 2016-06-09 | Lightning Source Inc. | Automated content classification/filtering |
US20160350675A1 (en) * | 2015-06-01 | 2016-12-01 | Facebook, Inc. | Systems and methods to identify objectionable content |
US9967266B2 (en) * | 2015-11-09 | 2018-05-08 | Flipboard, Inc. | Pre-filtering digital content in a digital content system |
US11533539B2 (en) * | 2016-03-17 | 2022-12-20 | Comcast Cable Communications, Llc | Methods and systems for dynamic content modification |
BR102016007265B1 (pt) * | 2016-04-01 | 2022-11-16 | Samsung Eletrônica da Amazônia Ltda. | Método multimodal e em tempo real para filtragem de conteúdo sensível |
US10122808B2 (en) * | 2016-04-08 | 2018-11-06 | Facebook, Inc. | Determining an audience of users to assign to a posted content item in an online system |
US10349126B2 (en) * | 2016-12-19 | 2019-07-09 | Samsung Electronics Co., Ltd. | Method and apparatus for filtering video |
US11023823B2 (en) * | 2017-03-03 | 2021-06-01 | Facebook, Inc. | Evaluating content for compliance with a content policy enforced by an online system using a machine learning model determining compliance with another content policy |
US10349134B2 (en) * | 2017-05-10 | 2019-07-09 | Accenture Global Solutions Limited | Analyzing multimedia content using knowledge graph embeddings |
US20180373980A1 (en) * | 2017-06-27 | 2018-12-27 | drive.ai Inc. | Method for training and refining an artificial intelligence |
US10796245B2 (en) * | 2017-07-31 | 2020-10-06 | Facebook, Inc. | Systems and methods for selecting content to send to labelers for prevalence estimation |
US10936952B2 (en) | 2017-09-01 | 2021-03-02 | Facebook, Inc. | Detecting content items in violation of an online system policy using templates based on semantic vectors representing content items |
US10599774B1 (en) * | 2018-02-26 | 2020-03-24 | Facebook, Inc. | Evaluating content items based upon semantic similarity of text |
US10643112B1 (en) * | 2018-03-27 | 2020-05-05 | Facebook, Inc. | Detecting content items violating policies of an online system using machine learning based model |
US10827023B1 (en) * | 2018-07-11 | 2020-11-03 | DLD Technologies Corporation | Web control with real-time content analysis |
US11443232B1 (en) * | 2018-11-23 | 2022-09-13 | Amazon Technologies, Inc. | Active learning-based data labeling service using an augmented manifest |
US11102534B2 (en) * | 2018-11-29 | 2021-08-24 | Microsoft Technology Licensing, Llc | Content item similarity detection |
US11032316B1 (en) * | 2018-12-11 | 2021-06-08 | Facebook, Inc. | Using machine learning techniques to detect imposter pages in an online system |
US11115712B2 (en) * | 2018-12-15 | 2021-09-07 | Activision Publishing, Inc. | Systems and methods for indexing, searching for, and retrieving digital media |
US11030492B2 (en) * | 2019-01-16 | 2021-06-08 | Clarifai, Inc. | Systems, techniques, and interfaces for obtaining and annotating training instances |
US11172257B2 (en) * | 2019-06-11 | 2021-11-09 | Sony Corporation | Managing audio and video content blocking |
US20210035183A1 (en) * | 2019-07-31 | 2021-02-04 | Synchronoss Technologies, Inc. | Method and system for a recommendation engine utilizing progressive labeling and user content enrichment |
US10944805B1 (en) * | 2020-08-05 | 2021-03-09 | Agora Lab, Inc. | Scalable multi-level collaborative content moderation |
US11153243B1 (en) * | 2021-01-26 | 2021-10-19 | Verizon Patent And Licensing Inc. | Systems and methods for filtering content provided via text messages |
-
2020
- 2020-10-08 US US17/066,239 patent/US11582243B2/en active Active
-
2021
- 2021-10-04 WO PCT/US2021/053387 patent/WO2022076314A1/en unknown
- 2021-10-04 CN CN202180018162.6A patent/CN115210742A/zh active Pending
- 2021-10-04 EP EP21807336.9A patent/EP4091106B1/en active Active
-
2023
- 2023-02-13 US US18/168,241 patent/US20230275900A1/en not_active Abandoned
Also Published As
Publication number | Publication date |
---|---|
US20230275900A1 (en) | 2023-08-31 |
WO2022076314A1 (en) | 2022-04-14 |
EP4091106B1 (en) | 2023-12-06 |
EP4091106A1 (en) | 2022-11-23 |
US11582243B2 (en) | 2023-02-14 |
US20220116402A1 (en) | 2022-04-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US12073347B2 (en) | User objective assistance technologies | |
US10599774B1 (en) | Evaluating content items based upon semantic similarity of text | |
US11238058B2 (en) | Search and retrieval of structured information cards | |
US10936952B2 (en) | Detecting content items in violation of an online system policy using templates based on semantic vectors representing content items | |
US11604980B2 (en) | Targeted crowd sourcing for metadata management across data sets | |
US10373273B2 (en) | Evaluating an impact of a user's content utilized in a social network | |
US11188950B2 (en) | Audience expansion for online social network content | |
US11625602B2 (en) | Detection of machine learning model degradation | |
US10127522B2 (en) | Automatic profiling of social media users | |
US11195099B2 (en) | Detecting content items in violation of an online system policy using semantic vectors | |
US10606910B2 (en) | Ranking search results using machine learning based models | |
US10489719B2 (en) | Shared per content provider prediction models | |
CN115210742A (zh) | 用于防止暴露于违反内容政策的内容的系统和方法 | |
US10956522B1 (en) | Regular expression generation and screening of textual items | |
CN107193974B (zh) | 基于人工智能的地域性信息确定方法和装置 | |
Pandey et al. | Modeling and mitigating human annotation errors to design efficient stream processing systems with human-in-the-loop machine learning | |
KR102144126B1 (ko) | 기업을 위한 정보 제공 장치 및 방법 | |
US11762934B2 (en) | Target web and social media messaging based on event signals | |
US20230214679A1 (en) | Extracting and classifying entities from digital content items | |
US20240211496A1 (en) | Systems and Methods for Determining Entity Attribute Representations | |
JP7549668B2 (ja) | パターンベースの分類 | |
US10643112B1 (en) | Detecting content items violating policies of an online system using machine learning based model | |
Wiedemann et al. | Where you go is who you are: a study on machine learning based semantic privacy attacks | |
CN113711616B (zh) | 用于跨平台内容静音的方法、系统和介质 | |
Komamizu et al. | Exploring Identical Users on GitHub and Stack Overflow. |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |