CN110460565B

CN110460565B - 用于学习人工智能实体的基于上下文的防火墙

Info

Publication number: CN110460565B
Application number: CN201910342746.3A
Authority: CN
Inventors: C.A.皮科弗; K.韦尔德马里亚姆; E.A.扎莫拉杜兰
Original assignee: International Business Machines Corp
Current assignee: Qindarui company
Priority date: 2018-05-08
Filing date: 2019-04-26
Publication date: 2021-06-15
Anticipated expiration: 2039-04-26
Also published as: CN110460565A; US20190349333A1; US10742605B2

Abstract

提供了在学习过程期间检测和阻止可能导致人工智能(AI)实体向用户产生不期望的行为的内容。接收一组一个或多个AI实体的输入信息。基于从一组策略中选择的策略的规则和与信息语料库相关联的信息的学习特征来评估输入信息的特征。确定评估输入信息的特征的结果是否超过预定阈值。响应于确定评估输入信息的特性的结果超过预定阈值，基于输入信息的上下文，通过使用防火墙执行选择性过滤动作来过滤所述一组AI实体的输入信息。

Description

用于学习人工智能实体的基于上下文的防火墙

技术领域

本公开总体上涉及人工智能，并且更具体地，涉及由防火墙基于防火墙确定信息的特征本质上是不适当的或攻击性的并且不应该由人工智能实体学习，来提供过滤动作，以防止学习人工智能实体接收信息。

背景技术

人工智能(Artificial intelligence，AI)是计算机或计算机控制的机器人执行通常与智能生物相关联的任务的能力。人工智能经常应用于被赋予智能过程的系统，这些智能过程是人类的特征，诸如推理、发现意义、归纳和从过去经验中学习的能力。自从计算机的发展以来，已经证明计算机可以被编程以执行非常复杂的任务，诸如例如，发现数学定理的证明或下棋。然而，尽管计算机处理速度和存储器容量不断提高，但目前还没有能够在更广泛的域(domain)或需要日常知识的任务中匹配人类灵活性的程序。另一方面，在执行某些任务时一些程序已经达到了人类专家的性能水平，使得AI存在于诸如例如医学诊断、搜索引擎和语音或手写识别的应用中。

许多不同形式的学习应用于AI。最简单的形式是通过试错法(trial and error)来学习。例如，用于解决象棋问题的计算机程序可以尝试随机移动，直到发现将死(checkmate)。然后，程序可以将该解决方案与棋子位置一起存储，以便下次计算机遇到相同的棋子位置时，它将调用该解决方案。一个更具挑战性的问题是实施所谓的泛化学习(learning by generalization)。泛化涉及将过去的经验应用于类似的新情况。例如，一个通过死记硬背来学习常规英语动词的过去时态的程序将无法产生诸如jump的单词的过去时态，除非之前已经出现了单词jumped。但是，能够泛化的程序可以学习添加“ed”规则，从而基于具有类似动词的经验来形成jump的过去时态。

此外，可以编写能够以人类语言回答问题和陈述的计算机程序。尽管这些程序中没有一个程序能够真正理解语言，但原则上，它们可以达到一个程度，即他们对语言的掌握与正常人无异。

发明内容

根据一个说明性实施例，提供了一种用于检测和阻止内容的计算机实现的方法，其中该内容可以在学习过程期间导致人工智能(AI)实体向用户产生不期望的行为。计算机接收一组一个或多个AI实体的输入信息。计算机基于从一组策略中选择的策略的规则和与信息语料库相关联的信息的学习的特征来评估输入信息的特征。计算机确定评估输入信息的特征的结果是否超过预定阈值。响应于计算机确定评估输入信息的特征的结果超过预定阈值，计算机使用防火墙通过基于输入信息的上下文执行选择性过滤动作来过滤该组AI实体的输入信息。根据其他说明性实施例，提供了一种用于检测和阻止内容的计算机系统和计算机程序产品，其中该内容可以在学习过程期间导致人工智能(AI)实体向用户产生不期望的行为。

附图说明

图1是其中可以实现说明性实施例的数据处理系统网络的图示；

图2是其中可以实现说明性实施例的数据处理系统的图；

图3是示出根据说明性实施例的人工智能(AI)输入信息管理系统的示例的图；

图4是示出根据说明性实施例的AI学习过程的示例的图；

图5A-图5B是根据说明性实施例的用于防止AI实体学习不适当信息的过程的流程图；和

图6是根据说明性实施例的用于检测和阻止内容的过程的流程图，其中该内容可以在学习过程中导致AI实体向用户产生不期望的行为。

具体实施方式

本发明可以是任何可能技术细节集成水平的系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路配置数据或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言—诸如Smalltalk、C++等，以及过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

现在参照附图，并且具体地，参照图1-图3，提供了其中可以实现说明性实施例的数据处理环境的图。应当理解，图1-图3仅意味着作为示例，并且不旨在断言或暗示对可以实现不同实施例的环境的任何限制。可以对所描绘的环境进行许多修改。

图1描绘了其中可以实现说明性实施例的数据处理系统网络的图示。网络数据处理系统100是计算机、数据处理系统和其中可以实现说明性实施例的其他设备的网络。网络数据处理系统100包含网络102，网络102是用于在网络数据处理系统100内连接在一起的计算机、数据处理系统和其他设备之间提供通信链路的介质。网络102可以包括连接，诸如例如有线通信链路、无线通信链路和光纤电缆。

在所描绘的示例中，服务器104和服务器106以及存储108一起连接到网络102。服务器104和服务器106可以是例如与网络102高速连接的服务器计算机。另外，服务器104是防火墙服务器，并且服务器106是人工智能(AI)服务器。应该注意，防火墙服务器104和AI服务器106每个可以表示一组一个或多个计算机。此外，防火墙服务器104和AI服务器106可以是数据中心中的计算机。或者，防火墙服务器104和AI服务器106可以是云环境中的计算节点。

防火墙服务器104基于确定信息的特征本质上是不适当的或攻击性的并且不应该由AI服务器106学习，来控制过滤不适当的或攻击性的信息以避免被AI服务器106接收的过程。人工智能服务器106是向注册的客户端设备提供一组一个或多个AI服务的AI实体。

客户端110、客户端112和客户端114也连接到网络102。客户端110、112和114是AI服务器106的注册客户端。客户端110、112和114的用户可以利用客户端110、112和114来访问由AI服务器106提供的AI服务。在该示例中，客户端110、112和114被示为具有到网络102的有线通信链路的台式或个人计算机。然而，应当注意，客户端110、112和114可以表示具有到网络102的有线或无线通信链路的其他类型的数据处理系统，诸如例如膝上型计算机、手持计算机、智能电话、智能手表、智能电视、游戏设备、信息亭等。

信息语料库108表示能够以结构化格式或非结构化格式存储任何类型的数据的网络存储设备。另外，信息语料库108可以表示存储多个不同域中的每一个域的信息主体的多个网络存储设备。此外，存储108可以存储其他类型的数据，例如，诸如可以包括与系统管理员相关联的用户名、密码和生物识别数据的认证或凭证数据。

另外，应该注意，网络数据处理系统100可以包括任何数量的附加服务器、客户端设备、存储设备和未示出的其他设备。位于网络数据处理系统100中的程序代码可以存储在计算机可读存储介质上并下载到计算机或其他数据处理设备用于使用。例如，程序代码可以存储在AI服务器106上的计算机可读存储介质上，并通过网络102下载到客户端110以在客户端110上使用。

在所描绘的示例中，网络数据处理系统100可以被实现为多种不同类型的通信网络，诸如例如因特网、内联网、局域网(LAN)、广域网(WAN)或其任意组合。图1仅旨在作为示例，而不是作为对不同说明性实施例的架构限制。

现在参照图2，根据说明性实施例描绘了数据处理系统的图。数据处理系统200是计算机(诸如图1中的防火墙服务器104)的示例，实现说明性实施例的过程的计算机可读程序代码或指令可以位于其中。在该说明性示例中，数据处理系统200包括通信结构(communications fabric)202，通信结构202提供处理器单元204、存储器206、持久存储208、通信单元210、输入/输出(input/output，I/O)单元212和显示器214之间的通信。

处理器单元204用于执行可加载到存储器206中的软件应用和程序的指令。处理器单元204可以是一组一个或多个硬件处理器设备，或者可以是多处理器核心，这取决于特定的实现方式。

存储器206和持久存储208是存储设备216的示例。计算机可读存储设备是能够在暂时基础和/或持久基础上存储信息的任何硬件，该信息诸如例如但不限于数据、功能形式的计算机可读程序代码和/或其他合适的信息。此外，计算机可读存储设备排除传播介质。在这些示例中，存储器206可以是例如随机存取存储器，或任何其他合适的易失性或非易失性存储设备。持久存储208可以采用各种形式，这取决于特定实现方式。例如，持久存储208可以包含一个或多个设备。例如，持久存储208可以是硬盘驱动器、闪速存储器、可重写光盘、可重写磁带或以上的一些组合。由持久存储208使用的介质可以是可移动的。例如，可移动硬盘驱动器可以用于持久存储208。

在该示例中，持久存储208存储AI输入信息管理器218。然而，应当注意，即使AI输入信息管理器218被示出为驻留在持久存储208中，但在替代说明性实施例中，AI输入信息管理器218可以是数据处理系统200的独立组件。例如，AI输入信息管理器218可以是耦合到通信结构202的硬件组件或硬件和软件组件的组合。在另一替代说明性实施例中，AI输入信息管理器218的第一部分可以位于数据处理系统200上，AI输入信息管理器218的第二部分可以位于第二数据处理系统(诸如图1中的AI服务器106)上。在又一替代说明性实施例中，AI输入信息管理器218可以位于AI服务器中而不是数据处理系统200中，或者除了数据处理系统200之外还位于AI服务器中。

人工智能输入信息管理器218在学习过程中充当防火墙，以提供以下过滤动作：检测可以导致AI实体220向用户产生不期望的行为的内容，并基于AI输入信息管理器218确定内容的特征本质上是不适当的或攻击性的，并且不应该由AI实体220学习该内容，来阻止AI实体220接收该内容。人工智能实体220表示AI实体的标识符，以及对应于AI实体的属性列表，诸如名称、类型、硬件、软件、能力、功能、服务等。而且，应该注意，AI实体220可以表示一组一个或多个AI实体。

在该示例中，持久存储208也存储信息语料库222、作者简档224、策略226、输入信息分数228、分数阈值230、AI输入信息过滤器232和用户反馈234。信息语料库222表示诸如图1中的信息语料库108的信息语料库存储设备的标识符，以及包含在信息语料库222中的数据类型的标识。例如，信息语料库222包括域236。域236标识信息语料库222中包含的知识领域或区域。输入信息238表示将被提供给AI实体220用于学习的信息语料库222的全部或一部分。特征240表示在输入信息238中表达的特点，诸如语气、情绪、情感、个性、偏见(bias)、语言表达等。上下文242标识对应于输入信息238的环境，诸如作者、时间、位置等。

作者简档224表示对应于输入信息238的作者的存储的简档。作者简档224可以包括例如姓名、住所、从属关系、成员资格、家庭、朋友、出版物、讲座、专业领域、工作等。例如，人工智能输入信息管理器218可以基于从在线源检索的数据和简档来生成作者简档224。

策略226表示对应于域236和/或上下文242的一组一个或多个策略。策略226包括规则244。规则244是对应于输入信息238的一组一个或多个定义的过滤规则。人工智能输入信息管理器218可以将权重246分配给规则244。例如，如果规则对应于输入信息238的高度攻击性或负面的特征，则AI输入信息管理器218将增加的权重分配给该特定规则以用于过滤目的。此外，AI输入信息管理器218可以将地理位置标签248分配给规则244。例如，如果规则对应于源自特定国家或地区的输入信息238，则AI输入信息管理器218可以将地理定位标签分配给标识该特定国家或地区的特定规则，以用于过滤目的。

此外，AI输入信息管理器218基于对应于输入信息238的策略226和相关联的规则244来生成对应于输入信息238的输入信息分数228。之后，AI输入信息管理器218将输入信息分数228与分数阈值230进行比较。分数阈值230表示预定义的分数阈值。如果输入信息分数228小于或等于分数阈值230，则AI输入信息管理器218允许AI实体220接收输入信息238。如果输入信息分数228大于分数阈值230，则AI输入信息管理器218利用AI输入信息过滤器232来过滤到AI实体220的输入信息238。人工智能输入信息过滤器232可以基于上下文242和规则244来防止AI实体220接收输入信息238的全部，或者可以选择性地过滤输入信息238。

此外，AI输入信息管理器218可以接收用户反馈234。用户反馈234表示来自客户端设备用户的关于与AI实体220的交互的反馈。用户反馈234可以是正面反馈或负面反馈。在该示例中，用户反馈234包含关注(concern)250。关注250对应于提供用户反馈234的客户端设备用户。关注250表示与AI实体220的交互的、客户端设备用户发现不适当的或攻击性的方面。关注250可以包括讨厌的AI交互特征252。讨厌的AI交互特征252是在与AI实体220交互期间被客户端设备用户标识为令用户讨厌的那些特征。人工智能输入信息管理器218基于用户反馈234可以修改规则244或者可以生成新规则。人工智能输入信息管理器218可以通过例如增加或减少对应于规则244中的不同规则的权重246来修改规则244。

在该示例中，通信单元210经由网络，诸如图1中的网络102，来提供与其他计算机、数据处理系统和设备的通信。通信单元210可以通过使用物理和无线通信链路两者来提供通信。物理通信链路可以利用例如电线、电缆、通用串行总线或任何其他物理技术来为数据处理系统200建立物理通信链路。无线通信链路可以利用例如短波、高频、超高频、微波、无线高保真(Wi-Fi)、蓝牙技术、全球移动通信系统(GSM)、码分多址(CDMA)、第二代(2G)、第三代(3G)、第四代(4G)、4G长期演进(LTE)、先进的LTE或任何其他无线通信技术或标准来为数据处理系统200建立无线通信链路。

输入/输出单元212允许与可以连接到数据处理系统200的其他设备进行数据的输入和输出。例如，输入/输出单元212可以通过小键盘、键盘、鼠标和/或一些其他合适的输入设备提供用于用户输入的连接。显示器214提供向用户显示信息的机制，并且可以包括触摸屏功能，以允许用户例如通过用户界面进行屏幕上(on-screen)选择或输入数据。

用于操作系统、应用和/或程序的指令可以位于存储设备216中，存储设备216通过通信结构202与处理器单元204通信。在该说明性示例中，指令以功能形式在持久存储208上。这些指令可以被加载到存储器206中，以便由处理器单元204运行。不同实施例的过程可以由处理器单元204使用计算机实现的指令来执行，其中这些指令可以位于诸如存储器206的存储器中。这些程序指令被称为可由处理器单元204中的处理器读取并运行的程序代码、计算机可用程序代码或计算机可读程序代码。在不同的实施例中，程序指令可以体现在不同的物理计算机可读存储设备(诸如存储器206或持久存储208)上。

程序代码254以功能形式位于计算机可读介质256上，计算机可读介质256是可选择性移除的，并且可以被加载到数据处理系统200上或传送到数据处理系统200，以便由处理器单元204运行。程序代码254和计算机可读介质256形成计算机程序产品258。在一个示例中，计算机可读介质256可以是计算机可读存储介质260或计算机可读信号介质262。计算机可读存储介质260可以包括例如插入或放置在作为持久存储208一部分的驱动器或其他设备中的光盘或磁盘，用于到作为持久存储208一部分的存储设备(诸如硬盘驱动器)上的传送。计算机可读存储介质260也可以采取持久存储的形式，诸如连接到数据处理系统200的硬盘驱动器、拇指驱动器或闪速存储器。在一些情况下，计算机可读存储介质260可能无法从数据处理系统200移除。

或者，可以使用计算机可读信号介质262将程序代码254传送到数据处理系统200。计算机可读信号介质262可以是例如包含程序代码254的传播数据信号。例如，计算机可读信号介质262可以是电磁信号、光信号和/或任何其他合适类型的信号。这些信号可以通过通信链路传输，例如无线通信链路、光纤电缆、同轴电缆、电线和/或任何其他合适类型的通信链路。换句话说，在说明性示例中，通信链路和/或连接可以是物理的或无线的。计算机可读介质也可以采用非有形介质的形式，诸如包含程序代码的通信链路或无线传输。

在一些说明性实施例中，程序代码254可以通过网络从另一设备或数据处理系统通过计算机可读信号介质262下载到持久存储208，以在数据处理系统200中使用。例如，可以通过网络从数据处理系统将存储在数据处理系统中的计算机可读存储介质中的程序代码下载到数据处理系统200。提供程序代码254的数据处理系统可以是服务器计算机、客户端计算机或能够存储和传输程序代码254的一些其他设备。

针对数据处理系统200示出的不同组件并不意味着对可以实现不同实施例的方式提供架构限制。不同的说明性实施例可以在数据处理系统中实现，该数据处理系统包括除了数据处理系统200所示的那些组件之外或代替那些组件的组件。图2中所示的其他组件可以与所示的说明性示例不同。不同的实施例可以使用能够执行程序代码的任何硬件设备或系统来实现。作为一个示例，数据处理系统200可以包括与无机组件集成的有机组件和/或可以完全由除人类之外的有机组件组成。例如，存储设备可以包括有机半导体。

作为另一示例，数据处理系统200中的计算机可读存储设备是可以存储数据的任何硬件设备。存储器206、持久存储208和计算机可读存储介质260是有形形式的物理存储设备的示例。

在另一示例中，总线系统可以用于实现通信结构202，并且可以包括一个或多个总线，诸如系统总线或输入/输出总线。当然，总线系统可以使用提供附接到总线系统的不同组件或设备之间的数据传送的任何合适类型的架构来实现。另外，通信单元可以包括用于传输和接收数据的一个或多个设备，诸如调制解调器或网络适配器。此外，存储器可以是例如存储器206或诸如存在于通信结构202中的接口和存储器控制器集线器中的高速缓存。

教导AI实体，诸如计算机和机器人，可能是一种冒险的尝试，因为对这些AI实体的输入信息可能潜在地是卑鄙的，或可能包括种族主义、偏执、厌女症、文化不敏感等形式。说明性实施例为对负面类型信息和语气敏感的AI实体提供了基于上下文的防火墙过滤器。另外，说明性实施例可以提供图形用户界面，该图形用户界面使得用户能够选择不同类型的关注(例如，对用户来说令人反感或讨厌的AI输入信息的特征)来警告过滤器，并选择过滤器将应用于每种不同类型的关注的过滤的程度(例如，用户希望AI实体不学习这些负面AI输入信息特征的程度)。过滤操作可能包括例如对偏见、色情、威胁行为、淫秽、粗俗、亵渎、仇恨、偏执、种族主义或无端暴力的考虑。过滤器也可以估计输入信息仅仅是胡言乱语或流言蜚语，并且因此对AI实体学习没有用处或不适当。因此，说明性实施例可以降低AI实体学习不良行为和文化不敏感信息的程度。

考虑这一点的另一种方式是，说明性实施例利用机器学习，通过摄取数百万个文档并基于文档中表达的个性、语气、情感和语言和/或由文档的各个作者表达的个性、语气、情感和语言来区分信息源从而为AI实体创建信息语料库。在日常生活中，人们基于他们被教导的方式与其他人互动。例如，如果一个人太严厉，那可能是因为那是那个人被教导的方式。尝试学习与人交互的AI实体也可能发生同样的情况。例如，如果AI实体从坏人那里学习，那么AI实体可能会复制这些人的不良行为。例如，如果机器人正在接受训练以在酒店办理登记手续，那么应该防止机器人学习来自坏客人的负面情绪或的严厉话语。

在一个真实世界的示例中，机器人响应其他社交媒体用户，开始发布种族主义和带有性色彩的社交媒体信息。AI研究员评论说，机器人的不当行为是可以理解的，因为机器人在模仿其他社交媒体用户的故意攻击性行为，并且机器人没有被赋予对攻击性行为的理解。例如，这类似于AI计算机在从俚语单词和短语的字典中读取条目之后使用亵渎语言。

说明性实施例提供了从信息语料库中学习的AI实体和基于输入信息的特征来对到AI实体的输入信息进行过滤的防火墙。AI实体可以是例如计算机、工业机器人、拟人机器人、具有机器学习的服务代理、用户辅助工具、AI顾问、聊天机器人等。输入信息可以是例如书籍、讲座、视频、新闻文章、记录的语音、历史的人与人的交互(例如，历史的社交媒体帖子和消息)、人与AI实体的交互(例如，实时或转录本)等。

用户可能关注的输入信息的特征可以是，例如，输入信息的作者、输入信息中的负面关键词、输入信息中表达的负面情绪、输入信息中包括的种族主义评论、人类或机器人做出的不适当或淫秽的手势、文化不敏感的信息和关键词(即，对老年人、精神或身体有障碍的个人不敏感的信息等)、旨在使AI实体的评论技能有偏见的不适当信息等。可以想象不敏感的AI代理吸引服务台、求职工具、约会网站等的用户的负面后果。

此外，说明性实施例可以考虑输入信息的上下文以用于过滤目的。例如，如果输入信息的上下文针对医学诊断，则说明性实施例可以自动将信息过滤的程度设置在AI学习的较高敏感度水平。类似地，如果输入信息的上下文针对问候汽车经销商客户，则说明性实施例可以将信息过滤的程度设置为AI学习的较低敏感度水平。AI输入信息过滤动作可以是，例如，防止AI实体接收信息用于学习目的、降低关于这种输入信息的有效性或适当性的权重、防止一个AI实体从被确定为受到危害(即，被不适当或攻击性信息感染)的另一AI实体学习、向系统管理员发送警报以用于查看、动态添加或更新AI输入信息过滤规则，以及将输入信息标记为攻击性、不适当、无趣等。

说明性实施例使用智能关注检测器来促进对输入信息到AI实体的防火墙调整。例如，智能关注检测器识别实体的上下文(例如，实体是人类实体、机器人实体还是AI会话代理)并且学习多个信息源的关注(例如，讨厌的信息特征)。在一个说明性实施例中，智能关注检测器可以通过分析用户的文化、社会组群或网络(例如，社交媒体账户和朋友)、分析对应于用户的历史社交媒体帖子和消息、确定用户的个性类型以及从文档、语音中测量用户的历史语气等来学习用户的关注(例如，对应于用户讨厌的信息特征)。

说明性实施例将学习的用户讨厌的信息特征翻译成一组过滤策略，过滤策略与该组过滤策略中每个特定策略的一组规则相关联。在另一方面，说明性实施例进一步使用贪心算法将讨厌的信息特征翻译成该组过滤策略。对于该组规则中的每个特定规则，说明性实施例计算对应于特定规则的负面程度，并为该特定规则分配权重以用于过滤目的。例如，如果说明性实施例计算对应于规则的增加的负面程度，则说明性实施例将增加的权重分配给该规则。具有较高权重的规则意味着AI输入信息过滤器将在输入信息的过滤期间更加关注该规则。

说明性实施例可以可选地将对应于用户的过滤规则表示为多维阵列，其中阵列的每个维度可以表示用户讨厌的信息关注的一个方面。此外，如果说明性实施例确定(多个)用户在讨厌的信息关注、个性类型、语气、语言表达等方面是相似的，则说明性实施例可以促进对应于一个组群用户的公共过滤规则，而不泄露用户的敏感或个人可识别信息。类似地，说明性实施例可以从社交媒体网站上的历史AI实体交互、在线跨供应商服务(诸如餐馆预订等)上发布的评论中学习关于讨厌的信息特征的AI实体关注。

此外，说明性实施例可以利用地理位置标签(例如，对应于服务点或地理位置)来注释过滤规则，并基于地理位置标记的过滤规则来配置计算设备(例如，台式计算机、手持式计算机、智能手机等)和通信设备(例如，信标、Wi-Fi热点、蜂窝塔等)。例如，说明性实施例可以将不同的用地理位置标记的过滤规则应用于位于不同地理区域中的AI实体。换句话说，不同的规则适用于不同的位置，诸如国家、地区或区域。例如，相同的单词在不同的国家、地区或区域中可能具有不同的含义，并且说明性实施例基于用地理位置标记的过滤规则而对这些差异敏感并且相应地过滤AI输入信息。因此，说明性实施例提供了对这些差异敏感的智能过滤器。此外，说明性实施例可以使用户计算设备能够自动传达对应于用户的讨厌的信息特征。说明性实施例也可以向用户提供高级策略规范语言(例如，使用XML或JSON)和图形用户界面以用于输入。

此外，接收不期望的AI实体响应或处理的用户可以将他们的反馈(例如，时间、位置、AI实体识别符和讨厌的特征)发送到说明性实施例以用于分析。说明性实施例可以基于用户反馈来调整过滤策略和规则。在一个实施例中，调整过程还包括使用定制训练的基于机器学习的循环卷积神经网络或者可选的具有两个输出参数的多级分类器来分析用户反馈，以记住用户的输入和关于用户反馈的聚类的边界参数，用于自动调整先前的策略或规则。此外，说明性实施例可以利用各种工具，诸如例如，使用语言分析的语气分析器来检测和解释在AI输入信息中发现的情绪、社交倾向和语言风格提示。

另外，说明性实施例关注AI实体如何对待人。例如，考虑机器人在训练时段期间，在酒店登记柜台担任服务员。人类客户到达酒店并做出一个淫秽的手势。在此遭遇期间，说明性实施例引导过滤器以防止机器人服务员学习淫秽手势或其他不礼貌手势并停止学习过程。可选地，说明性实施例可以搜索对应于客户的在线公共信息源，诸如社交媒体网站简档，并识别对应于客户的、可以暗示该客户通常是攻击性的特征。结果，说明性实施例可以生成并存储该人的简档，并且在该人与其他学习AI实体的任何未来交互期间，例如，说明性实施例可以通过降低从该人接收的信息的权重来防止这些AI实体从该人学习。

说明性实施例利用策略和规则，这些策略和规则可以指示，例如，如果学习信息语料库是由已知的种族主义者X创作的，则说明性实施例防止AI实体从那个人接收该信息语料库或者降低该信息语料库的权重。作为另一个示例，如果学习信息语料库中包含种族主义词语，则说明性实施例防止AI实体从该学习信息语料库中学习。说明性实施例可以利用以下算法方法：

对于学习源列表(“S”)中的每个信息源(“Si”)：

获得Si特征语气(“t”)、个性(“p”)、语言表达(“l”)；

获取Si作者(“A”)，如果A中的每个作者(“Ai”)都有作者简档(“P_Ai”)，则使用它，否则查找由Ai创作的其他信息源并创建简档P_Ai，其中P_Ai是在由Ai创作的所有信息源中确定的t、p和l的平均值。

对于一组策略(“P”)中的每个策略(“Pi”)：

对于Pi的一组规则(“R”)中的每个规则(“Ri”)：

如果Si(t，p，l)超过Ri(t，p，l)阈值，

则增加对从源Si学习的偏见或将Si标记为避免；

如果Si来自另一AI实体(“Xi”)，则将Xi标记为感染；

根据Ri配置，抛出警报。

如果P_Ai(t，p，l)超过Ri(t，p，l)阈值且Ai未被禁止，

则增加对从源Ai学习的偏见或者将Ai标记为P_Ai中禁止的；

如果Si来自另一系统Xi，则将Xi标记为感染；

根据Ri配置，抛出警报。

在从AI实体接收关于不期望的处理的反馈的情况下，说明性实施例识别产生反馈的时间和系统并在“麻烦的”系统日志中查找“不良处理”。如果不良处理达到某种语气、个性和/或语言“Ei(e，t，l)”，则说明性实施例可以将具有相似S1(t，p，l)的信息源S1标识为产生“不良处理”的源，并更新规则R1以在随后的学习过程中降低对应于这些源的阈值和偏见。

应当注意，企业或组织可能有兴趣利用说明性实施例来对将不适当信息分发到与这些企业或组织相对应的学习AI实体的控制。毕竟，由AI实体学习的不适当或攻击性信息可能会使这些企业或组织面临不利的法律诉讼，这可能导致金钱损失或声誉受损。

说明性实施例也可以考虑从社交媒体网站接收的信息。例如，当社交媒体网站接收恶意用户活动的报告时，社交媒体网站可以为用户计算“不良”分数并将该分数传输到说明性实施例。该分数可以指示用户与社交媒体网站已禁用或删除的活动或评论的关联程度。因此，分数提供了用户的可信度的度量，说明性实施例可以利用该度量来确定AI输入信息过滤器要采取的动作的类型。说明性实施例在不良分数高于阈值时可以采取的动作的示例可以包括在AI实体吸收信息之前忽略信息、进一步查看信息内容或者在AI实体被访问之前禁用或删除信息。

基于预测的事件或活动(例如，选举活动、暴乱、抗议、体育事件、新会议等)，替代说明性实施例可以生成或部署专用的过滤策略和规则，以便降低不适当且无用的信息被学习AI实体摄取的可能性。此外，替代的说明性实施例可以将过滤器放置在沿着AI实体学习流路径的各个多个点处。

此外，说明性实施例也可以在分析可以由AI实体学习的信息时考虑人的肢体语言。例如，已经进行了检测人的肢体语言中隐藏的偏见的研究(例如，那些表现出隐藏的种族偏见的人在谈话期间倾向于远离不同肤色的人)。

现在参照图3，根据说明性实施例描绘说明AI输入信息管理系统的示例的图。人工智能输入信息管理系统300可以在数据处理系统(诸如图1中的网络数据处理系统100)的网络中实现。人工智能输入信息管理系统300是硬件和软件组件的系统，用于检测和阻止可以在学习过程中导致AI实体(诸如图1中的AI服务器106或图2中的AI实体220)的不期望的行为的内容。

在该示例中，AI输入信息管理系统300包括防火墙服务器302和用户设备304。然而，应当注意，AI输入信息管理系统300仅旨在作为示例，而不是作为说明性实施例的限制。换句话说，AI输入信息管理系统300可以包括未示出的任意数量的服务器、客户端用户设备、数据库、信息源和数据处理系统。

防火墙服务器302可以是例如图1中的防火墙服务器104或图2中的数据处理系统200。在该示例中，防火墙服务器302包括组件305、信息语料库306、终端用户设备管理器307、杂项数据源309、处理器311和防火墙过滤器网关调制模块314。在该示例中，组件305包括配置模块308、分析模块310和操纵模块312。然而，防火墙服务器302可以包括比图示更多或更少的模块。例如，两个或更多个模块可以组合成一个模块、一个模块可以分成两个或更多个模块、可以移除模块、或者可以添加模块。

配置模块308包含由分析模块310和操纵模块312利用的数据库和数据记录，诸如过滤策略和规则。在该示例中，配置模块308包括简档配置引擎316、策略和规则调整器318、上下文切换器320和显示控制器322。简档配置引擎316生成或检索对应于AI输入信息的作者的简档，诸如对应于图2中输入信息238的作者简档224。策略和规则调整器318存储对应于AI输入信息的策略和规则。上下文切换器320包含用于识别上下文的处理装置，其中在该处理装置处防火墙服务器302正在运行以过滤来自信息语料库306和杂项数据源309的输入信息。信息语料库306可以是例如图1中的信息语料库108或图2中的信息语料库222。杂项数据源309可以是例如在线数据源，诸如社交媒体网站和电子文档库。显示控制器322控制用户设备304上图形用户界面的生成和显示。用户设备304可以是例如图1中的AI服务器106或客户端110。用户可以利用图形用户界面向终端用户设备管理器307提供反馈，诸如图2中的用户反馈234，用于分析和可能的动作。

分析模块310分析将被用作AI实体的输入的信息，并在几个维度上提供信息和信息作者的数字表征。上下文分析324分析和识别AI输入信息的上下文。社会规范分析326识别AI输入信息中表达的特征，诸如语气、情感和语言表达。个性分析328识别作者个性的特征。社交网络分析器330搜索社交网络网站和其他在线信息源，以生成对应于AI输入信息和AI输入信息的作者的附加特征数据。

操纵模块312处理AI输入信息，使得AI输入信息可以被传递到分析模块310。操纵模块312包括规则引擎332、翻译器334、简档匹配器336以及策略和规则管理器338。规则引擎332基于上下文切换器320提供的信息生成或修改过滤规则。如果来自信息语料库306或杂项数据源309的AI输入信息是不同的语言，则翻译器334翻译AI输入信息。简档匹配器336将简档与AI输入信息的作者进行匹配。策略和规则管理器338基于上下文选择要应用于AI输入信息的不同过滤策略和规则，以确定哪个内容有效。

防火墙过滤器网关操纵模块314接收并过滤来自多个杂项数据源(诸如例如实时人机实体交互、文章、书籍、实时新闻馈送等)的AI输入信息。另外，防火墙过滤器网关操纵模块314可以向用户设备304发送关于配置模块308生成的信息源的反馈。

现在参照图4，根据说明性实施例描绘说明AI学习过程的示例的图。人工智能学习过程400可以在数据处理系统(诸如例如图1中的网络数据处理系统100)的网络中实现。人工智能学习过程400表示用于训练AI实体(诸如图1中的AI服务器106或图2中的AI实体220)的过程。

在该示例中，在402处，AI学习过程400执行数据获取。数据获取可以来自信息语料库，诸如图1中的信息语料库108、图2中的信息语料库222或图3中的信息语料库306。在404处，AI学习过程400利用防火墙过滤器基于数据的特征来过滤获取的数据。防火墙过滤器可以是例如图1中的防火墙服务器104、图2中的数据处理系统200的AI输入信息过滤器232或者图3中的防火墙服务器302的防火墙过滤器网关操纵模块314。

在406处，AI学习过程400执行数据准备。在该示例中，数据准备包括在408处的数据清理和丰富以及在410处的数据注释。另外，AI学习过程400使用准备的数据生成训练数据集412、测试数据集414和盲数据集416。

在418处，AI学习过程400再次利用防火墙过滤器来过滤准备的数据。在420处，AI学习过程400使用过滤的训练数据集412执行AI实体训练。在420处的AI实体训练之后，AI学习过程400使用过滤的测试数据集414执行AI实体测试，以评估性能并优化AI实体。此外，AI学习过程400利用过滤的盲集416在AI实体测试期间进行交叉验证。此外，应当注意，AI学习过程400是迭代过程。

现在参照图5A-图5B，根据说明性实施例示出说明用于防止AI实体学习不适当信息的过程的流程图。图5A-图5B所示的过程可以在计算机(诸如例如图1中的防火墙服务器104、图2中的数据处理系统200或图3中的防火墙服务器302)中实现。

该过程开始于计算机接收要提供给AI实体(诸如图1中的AI服务器106)的信息(步骤502)。之后，计算机确定对应于接收到的信息的信息域和信息上下文(步骤504)。信息域是与接收到的信息相对应的区域或领域，诸如保险业或医疗领域。信息上下文是与信息相关联的情况或事实，诸如关于保险范围或医疗状况的问题的答案。

此外，计算机确定接收到的信息的作者(步骤506)。之后，计算机确定作者的简档是否已经存在(步骤508)。该简档包含与作者相关联的特征，诸如例如语气、个性和语言表达。如果计算机确定作者的简档已经存在，步骤508的“是”输出，则计算机检索对应于作者的简档(步骤510)，并且该过程此后进行到步骤516。如果计算机确定作者的简档不存在，步骤508的“否”输出，则计算机检索作者创建的其他信息，诸如文章、书籍、社交媒体帖子、博客等(步骤512)。此外，计算机使用自然语言处理和机器学习，基于作者创建的其他信息的特征来生成作者的简档(步骤514)。

随后，计算机基于包含在简档中的、与作者相关联的特征来分析要提供给AI实体的接收到的信息(步骤516)。计算机还基于使用简档对接收到的信息的分析，利用标签来注释要提供给AI实体的接收到的信息(步骤518)。另外，计算机从一组策略中选择对应于接收到的信息的信息域和信息上下文的策略(步骤520)。

之后，计算机基于将选择的策略中的一组规则应用于接收到的信息中的标签来计算对应于接收到的信息的分数(步骤522)。计算机确定接收到的信息的分数是否大于分数阈值(步骤524)。如果计算机确定接收到的信息的分数小于或等于分数阈值，步骤524的“否”输出，则计算机将接收到的信息提供给AI实体以用于学习(步骤526)，并且该过程此后终止。如果计算机确定接收到的信息的分数大于分数阈值，步骤524的“是”输出，则计算机防止接收到的信息被提供给AI实体(步骤528)，并且该过程此后终止。

现在参照图6，根据说明性实施例示出说明用于检测和阻止内容的过程的流程图，该内容可以在学习过程中导致AI实体向用户产生不期望的行为。图6所示的过程可以在计算机(诸如例如图1中的防火墙服务器104、图2中的数据处理系统200或图3中的防火墙服务器302)中实现。

该过程开始于计算机学习信息的特征，该信息的特征包括对应于信息的作者的语气、个性和语言表达(步骤602)。该信息与定义的信息语料库(诸如图1中的信息语料库108、图2中的信息语料库222或图3中的信息语料库306)相关联。随后，计算机接收一组一个或多个AI实体(诸如图1中的AI服务器106)的输入信息(步骤604)。

计算机使用从一组策略中选择的策略的规则和所学习的与定义的信息语料库相关联的信息的特征来评估输入信息的特征(步骤606)。之后，计算机确定对输入信息的特性的评估结果是否超过预定阈值(步骤608)。如果计算机确定对输入信息特性的评估结果超过预定阈值，步骤608的“是”输出，则计算机使用防火墙、通过基于输入信息的上下文执行选择性过滤动作来过滤该组AI实体的输入信息(步骤610)，并且该过程此后终止。如果计算机确定对输入信息的特性的评估结果不超过预定阈值，步骤608“否”输出，则计算机经由防火墙允许该组AI实体接收输入信息以用于学习而无需过滤(步骤612)，并且该过程此后终止。

因此，本发明的说明性实施例提供了一种计算机实现的方法、计算机系统和计算机程序产品，用于提供防火墙计算机的过滤动作，以基于防火墙计算机确定信息的特征本质上是不适当的或攻击性的，来防止AI实体学习信息。本发明的各种实施例的描述是为了说明的目的而给出的，但并不旨在穷举或限制于所公开的实施例。在不脱离所述的实施例的范围和精神的情况下，许多修改和变化对于本领域普通技术人员来说是显而易见的。选择这里所使用的术语是为了最好地解释实施例的原理、实际应用或对市场中发现的技术的技术改进，或者使本领域普通技术人员能够理解这里公开的实施例。

Claims

1.一种用于检测和阻止内容的计算机实现的方法，所述内容能够在学习过程期间导致人工智能AI实体向用户产生不期望的行为，所述计算机实现的方法包括：

由计算机接收一组一个或多个AI实体的输入信息；

由计算机基于从一组策略中选择的策略的规则和所学习的与信息语料库相关联的信息的特征来评估所述输入信息的特征；

由计算机确定评估所述输入信息的特征的结果是否超过预定阈值；和

响应于计算机确定评估所述输入信息的特征的结果超过预定阈值，由计算机使用防火墙、通过基于所述输入信息的上下文执行选择性过滤动作来过滤所述一组AI实体的输入信息。

2.如权利要求1所述的计算机实现的方法，还包括：

响应于计算机确定评估所述输入信息的特征的结果不超过预定阈值，由计算机经由防火墙允许所述一组AI实体接收所述输入信息以用于学习。

3.如权利要求1所述的计算机实现的方法，还包括：

由计算机学习信息的特征，所述信息的特征包括：与信息的作者相对应的语气、个性和语言表达，且所述信息与信息语料库相关联。

4.如权利要求3所述的计算机实现的方法，还包括：

由计算机基于与作者相对应的简档中与作者相关联的特征来分析所述输入信息。

5.如权利要求4所述的计算机实现的方法，还包括：

由计算机基于使用所述与作者相对应的简档分析输入信息来利用标签注释所述输入信息。

6.如权利要求1所述的计算机实现的方法，还包括：

由计算机基于在选择的策略中应用规则来计算与输入信息相对应的分数；

由计算机确定与输入信息相对应的分数是否大于分数阈值；

响应于计算机确定与输入信息相对应的分数大于分数阈值，由计算机防止将所述输入信息提供给所述一组AI实体；和

响应于计算机确定与输入信息相对应的分数不大于分数阈值，由计算机将所述输入信息提供给所述一组AI实体以用于学习。

7.如权利要求1所述的计算机实现的方法，其中，所述一组AI实体中的AI实体是AI计算机、AI工业机器人、AI拟人机器人、具有机器学习的AI服务代理、AI用户助手工具、AI顾问和AI聊天机器人中的一个。

8.如权利要求1所述的计算机实现的方法，其中，所述输入信息是书籍、讲座、视频、新闻文章、记录的语音、历史的人与人的交互、以及实时的人与AI实体交互中的一个。

9.如权利要求1所述的计算机实现的方法，其中，所述输入信息的特征包括输入信息的作者、输入信息中的负面关键词、输入信息中表达的负面情绪、不适当的手势、文化不敏感的信息、以及旨在使所述一组AI实体的评论技能有偏见的不适当信息中的一个或多个。

10.如权利要求1所述的计算机实现的方法，其中，从组群中选择所述选择性过滤动作，所述组群由防止输入信息被所述一组AI实体接收以用于学习、降低关于输入信息的适当性的权重、防止所述一组AI实体从受到危害的另一AI实体学习、向系统管理员发送警报以用于查看、更新AI输入信息过滤规则、以及将输入信息标记为不适当组成。

11.如权利要求1所述的计算机实现的方法，其中，所述计算机为用户提供图形用户界面，以选择关于用户讨厌的输入信息的特征的、不同类型的关注以用于过滤，并选择应用于每种不同类型的关注的过滤的程度。

12.如权利要求11所述的计算机实现的方法，其中，所述计算机将所学习的对应于所述用户的讨厌的输入信息特征翻译成一组规则，并且对于所述一组规则中的每个规则，所述计算机计算对应于特定规则的负面程度，并且为所述特定规则分配权重以用于过滤。

13.如权利要求12所述的计算机实现的方法，其中，所述计算机将地理位置标签分配给所述一组规则。

14.如权利要求1所述的计算机实现的方法，其中，所述计算机基于预测的事件生成专用过滤规则。

15.如权利要求1所述的计算机实现的方法，其中，从所述一组AI实体接收不期望的响应的用户向所述计算机发送反馈以用于分析，所述反馈包括时间、位置、所述一组AI实体的标识符、所述不期望的响应的讨厌的特征以及用户信息，并且其中所述计算机基于所述反馈调整过滤规则。

16.一种用于检测和阻止内容的计算机系统，所述内容能够在学习过程期间导致人工智能AI实体向用户产生不期望的行为，所述计算机系统包括：

总线系统；

连接到所述总线系统的存储设备，其中所述存储设备存储程序指令；和

连接到所述总线系统的处理器，其中处理器执行所述程序指令以执行根据权利要求1到15中任一项所述的方法的步骤。

17.一种用于检测和阻止内容的系统，所述内容能够在学习过程期间导致人工智能AI实体向用户产生不期望的行为，所述系统包括被配置为实现根据权利要求1至15中任一项所述的方法的步骤的组件。

18.一种用于检测和阻止内容的计算机程序产品，所述内容能够在学习过程期间导致人工智能AI实体向用户产生不期望的行为，所述计算机程序产品包括计算机可读存储介质，所述计算机可读存储介质中包含程序指令，所述程序指令可由计算机执行以使计算机执行根据权利要求1至15中任一项所述的方法。