CN110232281B

CN110232281B - 充分利用自然语言处理改进集合内的访问控制

Info

Publication number: CN110232281B
Application number: CN201910159818.0A
Authority: CN
Inventors: W·G·杜博亚克; V·格恩迪考塔; P·萨科斯
Original assignee: Hyundai Motor Co; Kia Corp
Current assignee: Hyundai Motor Co; Kia Corp
Priority date: 2018-03-05
Filing date: 2019-03-04
Publication date: 2023-07-04
Anticipated expiration: 2039-03-04
Also published as: CN110232281A

Abstract

本公开涉及充分利用自然语言处理改进集合内的访问控制。通过在语言上提取关于用户的智能，增强自然语言处理。通过自然语言分类器分析用户查询的历史，以确定各种用户意图，并组合这些意图，以形成用户意图简介。所述简介包括情感元素、情绪元素和语气元素。可以各种方式地使用所述简介，包括限制对集合中的文档的访问，或者改进查询的认知分析。对于访问限制，确定用户意图与文档不一致，从而拒绝用户访问该文档。所述确定涉及与文档的得分比较的用户意图得分。对于认知分析，通过根据用户意图排除文档，过滤参考文档的搜索。所述搜索包括文档的元数据标记与用户意图的比较。

Description

充分利用自然语言处理改进集合内的访问控制

相关申请的交叉引用

本申请涉及与本申请同时提交的美国专利申请No.15/912466，题为“FORMULATINGA RESPONSE TO A NATURAL LANGUAGE QUERY BASED ON USER INTENT”(代理人案号AUS820160875AUS01)，该申请的内容包含在本文中。

技术领域

本发明一般涉及自然语言处理和认知系统，更具体地涉及一种根据察觉的请求者的意图，对自然语言请求作出响应的方法。

背景技术

随着用户与计算机系统之间的交互变得越来越复杂，为用户提供一个更直观的界面来向计算机系统发出命令和查询变得越来越重要。作为这项工作的一部分，许多系统采用某种形式的自然语言处理。自然语言处理(NLP)是涉及计算机和人类(自然)语言之间的交互的计算机科学、人工智能和语言学的领域。NLP中的许多挑战涉及自然语言理解，即，使计算机能够从人类或自然语言输入中获得意义，而其他挑战涉及允许计算机以用户熟悉的方式进行响应的自然语言生成。例如，非技术人员可以向计算机系统输入自然语言问题，系统智能可以提供用户希望能够理解的自然语言答案。使用自然语言处理的高级计算机系统的例子包括虚拟助手、因特网搜索引擎、和诸如国际商业机器公司销售的Watson.TM.认知技术之类的认知系统。

文本分析在与NLP相关的领域中是已知的，通常使用文本注释器程序来搜索文本文档(语料库)，并相对于一组定义的标记，对它们进行分析。文本注释器可以在文档中生成语言注释，以标记可能隐藏在文本中的概念和实体。认知系统可以使用一组语言、统计和机器学习技术来分析注释的文本，并提取关键的商业信息，比如人员、位置、组织和特定对象(例如，车辆)，或者识别积极和消极的情绪。Watson系统依赖于假设生成和评估来快速解析相关证据，并根据不同数据评估可能的响应。最终用户可以用自然语言提出某些问题，系统会对这些问题答复以程序性回答(答复以相关的证据和置信度)。

在NLP系统中，通常使用自然语言分类器来识别连接的文本中的话语的类型，例如，是/否问题、内容问题、陈述、断言等。这种服务使没有机器学习或统计算法背景的开发人员能够为其应用创建自然语言接口。自然语言分类器(NLC)解释文本，并返回对应的分类及关联的置信度水平。返回值随后可被用于触发对应的动作，比如重定向请求或者回答问题。NLC通常是针对短文本(1000个字符或更少)进行调整和定制的，并可被训练成在任何领域或应用中起作用。例如，IBM Watson^TM自然语言分类器服务应用深度学习技术，对短句子或短语进行关于最佳预定义类的预测。典型应用包括对否则将由实时代理处理的用户的问题作出响应，把短消息(SMS)分类成个人、工作或促销，把推特归入诸如事件、新闻或者意见之类的集合中，以及分析来自社交媒体或其他来源的文本，以判定它是否正面或负面地与提供或服务相联系。

发明内容

在至少一个实施例中，本发明涉及一种通过接收来自用户的访问集合中的文档的请求，接收与用户关联的用户简介(其中所述用户简介具有包括情感、情绪和语气中的一个或多个的用户意图的指示)，确定用户意图与文档的访问限制不一致，和作为响应，拒绝用户对文档的访问，来控制对所述集合的访问的方法。可以监视用户以形成用户搜索历史，可以根据用户搜索历史更新用户简介。在优选实现中，用户简介包括多个意图元素，包括情感元素、情绪元素和语气元素。通过根据用户简介生成用户意图得分并比较用户意图得分和文档的文档得分，可以完成所述确定。可进一步解析所述请求，以确定用户的当前意图，如果检测到用户意图的变化(通过比较当前意图与用户简介)，那么可以生成警报。

在下面的详细说明中，本发明的各个实施例中的上述以及另外的目的、特征和优点将变得明显。。

附图说明

参考附图，可以更好地理解本发明，并且可以使其各个实施例的众多目的、特征和优点对本领域的技术人员来说是明显的。

图1是按照本发明的一种实现的被编程以进行带有访问控制的自然语言处理的计算机系统的方框图；

图2是图解说明按照本发明的一种实现的根据历史查询，构建提供用户意图的用户的简介的图形表示；

图3是按照本发明的一种实现的具有不同的用户意图(包括情感、情绪和语气)的通用用户简介的图形图像；

图4是按照本发明的一种实现的认知系统的高级方框图，所述认知系统利用图3的用户简介来生成用户意图评分，所述用户意图评分可以与参考文档的相应评分比较，从而改进对文档的访问控制，并根据用户意图，提供对自然语言查询的响应；

图5是图解说明按照本发明的一种实现的根据用户意图，响应自然语言查询的处理的逻辑流程的图；

图6是图解说明按照本发明的一种实现的根据用户意图，限制对文档的访问，并且可能生成警报的处理的逻辑流程的图。

在不同的附图中，利用相同的附图标记指示相似或相同的项目。

具体实施方式

各种组织具有由其支配的自然语言处理(NLP)方面的复杂方法，以使得能够访问非结构化文本文档和敏感的应用/系统。这些方法中的大多数是为可操作的信息的提取，比如回答问题或者聚合包含的关于特定实体的所有信息设计的。然而，目前没有根据客户意图，过滤用户与语料库/系统的交互的有效方法。用户带着一组潜在的偏好和意图，这些偏好和意图控制用户在进行搜索的过程中的兴趣和行为。常规的NLP方法忽略了这些偏好。于是，理想的是设计一种可以深入了解客户意图的改进的NLP方法。如果该方法还可用于检测危险的用户意图，那将更加有利。

本发明通过检查用户对语言的选择来构建该用户的潜在意图的简介，实现这些及其他目的。用户简介可由在其职责范围内或在以前搜索的历史记录中的材料的性质的指示符加以扩充。指示的用户意图的变化从而变得可以检测，可被充分利用，以阻止对敏感材料的访问。由该简介获得的了解可以应用于两个不同的用作：适当性和访问。

就适当性来说，在组织的选定类中，需要监视已被受托访问高度敏感的信息的用户。本发明提供系统的检测表明可能需要干预的用户情感的变化的能力。例如，本发明可以保护组织免受团队中的正处于走向不法或意想不到的鲁莽行为的道路上的受信任成员之害。如果系统检测到用户行为或情绪稳定性的变化，那么系统可以生成建议何时进行监控是适当的，或者在必要时，向组织内的负责敏感信息的保护的人员发出警报的提示机制。

就访问来说，用户对文档或系统的访问目前是通过组织、角色或特殊资格(比如忠诚调查)管制的。这种方法可行，但其布尔性质非常有限。本发明超越了这种是/否系统，来检查、分类和充分利用(leverage)组织系统的特定用户使用的语言，以帮助修正对特定文档/访问的合理责任范围和需求的认识。本发明旨在向用户简介增加安全访问的更微妙应用，以便更仔细地管制向系统的用户披露信息的方式。这种方法增强了安全性，因为可根据NLP得出的对用户角色和职责的限制的理解，限制用户对特定文档的访问。

现在参见附图，尤其是参见图1，图中描述了其中可以实现本发明，以进行包括检测和充分利用用户意图的自然语言处理的计算机系统的一个实施例10。计算机系统10是具有连接到系统总线14的多个处理器12a、12b的对称多处理器(SMP)系统。系统总线14进一步连接到并与提供与系统存储器18的接口的组合存储控制器/主桥(MC/HB)16通信。系统存储器18可以是本地存储设备，或者可包括多个分布式存储设备，优选动态随机存取存储器(DRAM)。可能存在存储器分级体系中的另外的结构(未图示)，比如板上(L1)和2级(L2)或3级(L3)高速缓冲存储器。系统存储器18中装载有认知系统和按照本发明的一个或多个应用，比如自然语言分类器(NLC)和用户意图简介生成器。

MC/HB 16还具有与外围组件互连(PCI)Express链路20a、20b、20c的接口。每个PCIExpress(PCIe)链路20a、20b连接到相应的PCIe适配器22a、22b，每个PCIe适配器22a、22b连接到相应的输入/输出(I/O)设备24a、24b。MC/HB 16另外具有与连接到交换机(I/O架构)28的I/O总线26的接口。交换机28为I/O总线提供到多个PCI链路20d、20e、20f的扇出。这些PCI链路连接到更多的PCIe适配器22c、22d、22e，PCIe适配器22c、22d、22e又支持更多的I/O设备24c、24d、24e。I/O设备可包括(但不限于)键盘、图形指示设备(鼠标)、麦克风、显示设备、扬声器、永久存储设备(硬盘驱动器)或这类存储设备的阵列、接受诸如CD或DVD之类的光盘25(计算机可读存储介质的一个例子)的光盘驱动器、和网卡。各个PCIe适配器提供PCI链路和相应的I/O设备之间的接口。MC/HB 16提供低延迟路径，通过该路径，处理器12a、12b可以访问映射到总线存储器或I/O地址空间内的任何位置的PCI设备。MC/HB 16还提供高带宽路径，以允许PCI设备访问存储器18。交换机28可提供不同端点之间的对等通信，该数据通信不需要被转发给MC/HB 16，如果它不涉及高速缓冲存储器相关的转储的话。交换机28被表示成独立的逻辑组件，不过，它可被集成到MC/HB 16中。

在本实施例中，PCI链路20c把MC/HB 16连接到服务处理器接口30，以允许I/O设备24a和服务处理器32之间的通信。服务处理器32通过JTAG接口34连接到处理器12a、12b，并使用中断处理器12a、12b的操作的注意线36。服务处理器32可具有它自己的本地存储器38，并连接到保存用于系统启动的各种程序指令的只读存储器(ROM)40。服务处理器32还可以访问硬件操作员面板42，以提供系统状态和诊断信息。

在备选实施例中，计算机系统10可包括这些硬件组件或它们的互连的变形例，或者另外的组件，从而描述的例子不应被解释成暗示关于本发明的任何体系结构限制。本发明还可以在等效的云计算网络中实现。

当计算机系统10最初被加电时，服务处理器32使用JTAG接口34询问系统(主机)处理器12a、12b和MC/HB 16。在完成所述询问之后，服务处理器32获取计算机系统10的清单(inventory)和拓扑结构。服务处理器32随后对计算机系统10的组件进行各种测试，比如内建自测试(BIST)、基本保证测试(BAT)和存储器测试。在测试过程中检测到的故障的任何错误信息由服务处理器32报告给操作员面板42。如果在取出在测试过程中发现有故障的任何组件之后，系统资源的有效配置仍然是可能的，那么允许计算机系统10继续下去。可执行代码被载入存储器18中，服务处理器32释放主机处理器12a、12b，以便执行程序代码，例如，用于启动应用，尤其是本发明的用户意图简介生成应用的操作系统(OS)，其结果可被存储在系统的硬盘驱动器(I/O设备24)中。在主机处理器12a、12b执行程序代码时，服务处理器32可进入监视模式，并报告任何何运行参数或错误，比如冷却风扇速度和运行、热传感器、电源调节器，以及由处理器12a、12b、存储器18和MC/HB 16任意之一报告的可恢复和不可恢复的错误。服务处理器32可基于错误的种类或者定义的阈值，采取进一步的行动。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质，其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。

计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是——但不限于——电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身，诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如，通过光纤电缆的光脉冲)、或者通过电线传输的电信号。

这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备，或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令，并转发该计算机可读程序指令，以供存储在各个计算/处理设备中的计算机可读存储介质中。

用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码，所述编程语言包括面向对象的编程语言-诸如Java、Smalltalk、C++等，以及常规的过程式编程语言-诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络-包括局域网(LAN)或广域网(WAN)-连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中，通过利用计算机可读程序指令的状态信息来个性化定制电子电路，例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)，该电子电路可以执行计算机可读程序指令，从而实现本发明的各个方面。

这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器，从而生产出一种机器，使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时，产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作，从而，存储有指令的计算机可读介质则包括一个制造品，其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。

也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上，使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤，以产生计算机实现的过程，从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。

附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分，所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

计算机系统10执行使用新的解释技术来管理对文档/系统的访问的NLP应用的程序指令。因而，具体体现本发明的程序可另外包括各种NLP工具的常规方面，参考本公开，这些细节对本领域的技术人员来说将变得明显。

现在参见图2，图中描述了按照本发明的一种实现的用于生成用户意图简介的系统50。实际上可以是任何人，包括但不限于组织的雇员、客户、或者只是个人(或者甚至自动化实体，比如虚拟助手)的用户52在一段时间内，利用自然语言对认知系统进行一系列的查询。这些历史查询可以在用户52发出它们时被处理，或者可以被收集，以便在以后批处理。本文中使用的术语“查询”不限于构成问题本身的单词，而是覆盖任何类型的句子、句子片段或片段集合。查询甚至可以简单到单个单词，例如，当有人需要该单词的定义时。历史查询由适合于区分各种潜在的用户意图，即，潜台词或潜在主题的自然语言分类器(NLC)54分析。在例证实现中，这些意图包括这里使用的被认为是独立和不同的情感、情绪和语气中的每一个(备选实现可以使用少于所有这三种变体，或者可以使用意图的另外指标，比如态度或个性)。组合从这些历史查询的编译破解的意图，从而形成用户简介56，用户简介56可被添加到具有认知系统的不同用户的多个简介的简介数据库58中。当用户向系统发出新的查询时，通过将新的查询提交给NLC 54，并添加任何新发现的意图，可以不断更新用户简介56。

用户简介可以开始为空，即，意图的空集合，不过，更优选的是新用户可以从具有适当安全限制的默认简介60开始，例如，基于一组预定意图或被认为中立(不结盟)的历史记录，或者甚至可能具有可疑意图，这取决于系统设计人员。当用户的历史变得更鲁棒，意图简介变得更完整时，可以解除这些限制。或者，精英用户可被默认赋予更多的有益意图。例如，通过包含被视为高度负责任的情感、情绪和/或语气的元素，处于安全岗位、并且已被授予更高访问级别的新雇员可被赋予表明她可信赖的默认简介。这些元素与察觉的风险或安全的精确映射通常与常识相符，不过可能受设计者的细微差别影响。在一种实现中，通过使这些元素成为下面进一步讨论的用户意图得分的组成部分，实现所述映射。

图3表示按照本发明的一种实现的具有不同的用户意图(包括情感、情绪和语气)的通用用户简介56。情感通常可以被认为是积极的或消极的，或介于两者之间(中性)。情感可能有更细微的等级或特定的上下文，比如满意或不满意。情绪在本质上更本能，可能包括愤怒、厌恶、喜悦、兴奋或沮丧等。语气是查询的一般特征。情绪是人的内在状态，而语气则更外在，人们如何选择表达自己的情绪，从而对目标受众产生预期的影响。不同的语气可能包括分析性的、自信的、强制性的、正式的和友好的。这些具体的情感、情绪和语气的例子仅仅是示范性的，不应限制性地加以解释，因为这些意图类(或其他类)每个都可包括各种各样的感觉和想法，包括积极的和消极的。

当用户进行更多的查询，从而建立简介时，意图的不同元素将被增强或消除，结果产生用户特有的复合意图。随着简介的增长，旧的意图可被删除，或者可对它们应用较小的权重。拥有用户的这样的“标准”简介，使得通过识别简介的组成元素的任何主要差异，易于检测意图的任何变化。

进一步参见图4，图中图解说明了认知系统70的一个实施例，认知系统70可以充分利用图3的用户简介56来生成用户意图得分72，所述用户意图得分72与参考文档74的相应得分相比较，以改进对文档的访问控制，并根据用户意图，提供对当前自然语言查询(NLQ)的增强响应76。认知系统70可以在计算机系统10上运行。认知系统70可以使用不同的评分算法从用户简介56中呈现反映感知的用户的总体意图的数值。如上所述，意图到得分的特定映射可能会随设计和/或特定情况而变化。对本发明来说，在任意时刻的用户意图可被视为度量该用户变坏的风险的方法。意图得分不一定是确定的；它是一种临时限制访问并标记用户以便审查的安全控制。预测算法的实现以两个前提为条件。首先，存在识别用户与系统的交互的分类结果的独特方法。正是对用户进行测量的处理使该系统的NLP驱动保护成为可能。其次，假设本发明的最终表现形式将允许系统所有者修改机器学习模型(例如，通过集成其他类型的数据)，从而他们可以改进预测能力。

在所有情况下，算法取决于如图3中所示的一系列度量或指示符。在例证实现中，在三个维度：情感、语气和情绪方面，评估用户。对于每次交互，用户可获得3个分数，图3中的圆的每个扇区中一个分数。评分可被归一化，从而最正面的排名接近原点；当用户分数变得越来越负面时，评价就会远离原点。另外，得分强度随着标记在区域内顺时针方向移动而增大(要认识到每个扇区都是120度，从而由最大-最小强度隔开的两个点的方位角相差最大120度)。因此，三个扇区每一个中的消极性是利用方位角(每个扇区内0-120度)和到原点的距离测量的。利用这两个测量，唯一地标识任意给定点。

计算静态(在特定时刻的)用户意图是基本分类任务；有两种好方法来解决到“可能有问题”类别的分配。一种方法基于监督机器学习方法。该方法非常精致、可靠，但是需要大量完整的案例(已知结果)来训练机器学习模型。备选方法充分利用异常检测中的方法来自动标记异常情况，以便检查。这种方法虽然简单，但需要假设，并且缺乏机器学习方法的灵活性。

更复杂的方法利用逻辑回归计算P(Y＝1)；即，用户被分配给“可能有问题”类别的概率。逻辑回归是一种在整个行业和学术界都在使用的鲁棒、强大的分类技术。它充分利用一系列的因素(输入)来计算易于并自动转换成概率的中间统计产物。将特定交互之后的用户概率与可配置的阈值进行比较。如果用户得分超过文档阈值，那么访问被拒绝。

这种算法的实现需要结果已知(人员被断言为可能有问题)的足够案例，以及特定用户交互的对应分数。例如，假设用户交互被手动评估为有问题，这里可能的选择是“有问题/没有问题”。另外，假设对于待包含在模型中的每个特征(来自NLP评估的测量，加上系统所有者选择包含的任何其他内容)，交互都具有值。完整的案例是模型的训练数据；当机器学习模型看到足够的完整案例时，它会识别出最能预测“肯定的”结果的特征的线性组合，这里“肯定的”意味预测的条件的存在。在我们的用例中，“肯定的”实际上是否定的结果；语言是统计的，而不是实质性的。相对于基于规则的专家系统，机器学习方法灵活。它们根据特征的组合来区别案例，它们的中间产物可被转换成人类读者更容易理解的东西。选择这种更复杂的方法的系统所有者应随着他们对其问题了解的加深进行试验，并注意到其他指示符，以帮助识别潜在的问题。

第二种不太复杂的机制是图3中的圆的每个扇区内的分数的简单组合。回想一下，对于用户响应，较大的分数离原点较远，指示更负面的系统评估。较大的方位角得分(在0-120的范围内)指示更大强度的系统评估。

在本发明中，特定阈值可由系统所有者基于风险容忍度和领域知识来配置；由于没有两种情况是相同的，因此设置通用并且任意的阈值是错误的。所有者将在三个扇区每一个中设定阈值，在所述阈值，用户会被拒绝访问，不过也具有根据强度调整阈值的选项。例如，显示负面情感(但是温和)的用户可被允许访问。在离原点距离较低的地方，有着强烈愤怒感情的用户可被拒绝。所有者还可以导出一些简单的公式(比如三个扇区得分的平均值)，如果这更适合于他们的用例的话。

该第二种机制相当容易实现，但代价是所有可用信息的整合不太精细。它还对原始量使用任意阈值，而不是输入的线性组合，并且缺乏到易于解释的量的简单转换。

各个文档可被类似地评分，以提供对于特定文档，需要什么访问意图或访问级别的相对指示。文档的评分可类似于用户意图的评分，或者可以手动完成，例如由主题专家完成。从而，用户可能具有允许访问参考集合中的某些文档，但禁止访问该集合中的其他文档的关联意图得分；在这种实现中，得分高于用户意图得分的文档决不会作为认知系统70的搜索的一部分被认知系统70发现。在备选实现中，认知系统可以检查集合中的所有文档，以产生查询的候选响应，但是随后编辑来自受限文档，即，用户意图得分未达到其得分的文档的任何候选响应。当前的自然语言查询也可被用于更新用户简介。在另外的备选实现中，低于预定阈值的用户意图得分将阻止对任何文档的访问。

如果用户意图的趋势指示向下的轨迹，即，从有益或善意的意图转移到可疑或恶意的意图，那么监视器78可触发警报，可以限制用户访问同时标记该案例以供审查。意图监视器78可以进行从当前自然语言查询最新察觉的意图与用户简介中的意图的一次性比较，或者可以监视意图随时间的变化。尽管在图4中，意图监视器78被表示成独立于认知系统的特征，不过在一些实施例中，它可被纳入认知系统中。

内部人员威胁通常是曾经受信任并且可靠的人的生活情况的变化的结果。检测重大变化是增强降低敏感信息的风险的能力的主要步骤。受信任内部人员的态度的持续下降的迹象远比静态测量重要。人人都有糟糕的一天；提高访问控制的重要性的是个人观点的系统性变化。

上述算法的一种应用遵循异常检测理论的形式，其中相对于适当的对等组来测量单个用户的变化。每个用户都具有简介。每次交互都有用户意图评分；利用用户的平均意图得分，以及用户意图得分的趋势的度量，更新该简介。检测可操作的变化的想法是自动检测随着时间的推移，不符合用户群体内的预期模式的行为模式。他们是异常值；在某个维度，它们不符合预期。这可以通过许多不同的方式来实现，比如：(i)关键维度的负面趋势相对于平均趋势超出可配置量(取决于群体大小，该阈值可以是标准化或者绝对的)；(ii)可视地检测趋势-如果用户偏离趋势，那么可以相对于群体平均值，可视地向系统所有者报告该情况；和(iii)使用行业标准，比如当用户趋势相对于群体趋势超过2个标准偏差时，拒绝对敏感数据的访问。这些情况下的访问拒绝可能是暂时的；该服务的核心价值是标记令人忧虑的趋势，供人类检查和干预。

参考图5，可进一步理解本发明，图5表示按照本发明的一种实现的根据用户意图，响应自然语言查询的处理90的逻辑流程图。可以利用计算机系统10执行的处理90是在从系统已知的用户接收自然语言查询时(92)开始的。该用户在简介数据库58中有对应的简介，系统可以搜索该数据库，找出该用户的简介(94)。在认知分析开始之前，可以过滤参考文档(语料库)，例如，封锁其得分高于用户的意图得分的任意文档(96)。系统对剩余文档进行认知分析，以找到与用户查询最匹配的候选答案(98)。该分析可包括尝试匹配文档的元数据标记与用户意图，以及考虑到先前输入系统中的用户的职责的范围。过滤后的认知分析的结果随后可作为响应呈现给用户(100)。

多数NLP系统集成搜索阶段和处理阶段；搜索阶段为处理阶段选择语料库文档的子集。如果某个文档在搜索中未被发现，那么它决不会遭受处理。这既是NLP系统的优点，又是NLP系统的缺点。如果搜索查询导致在搜索阶段遗漏关键文档，那么会产生负面影响。不过，这种明显的阶段分离也可被用于通过使搜索‘看不见’用户不被允许查看的文档，增强系统的安全性。这避免因疏忽而危及用户无权获取的信息的安全。

元数据标记可以通过多种方式匹配某些用户意图。通过利用除其他外还指示：安全分类级别、组织访问限制、文档级别访问限制和管理限制的元数据来标记各个文档，可以管制搜索访问。每个用户都具有附加于她的登录的简介；该简介包含她的访问限制。对于任意文档，只有满足100％限制的用户才能为处理阶段发现该文档。

用户意图得分对于系统所有者来说是一种更加灵活的控制工具。正如设想的那样，所有者可以对其文档的某些类设定阈值。例如，如果处理不当可能会造成相当大的损害的某些高度敏感的文档可被贴上标签，以把访问局限于其意图得分高于某个阈值的任何人。在更详细的方案中，可能存在几种不同的类别，相应地具有更严格的筛选标准。这些阈值可以作为额外的安全层，由各个系统所有者自行决定。预计它们会随着时间的推移而被调整。

图6是图解说明按照本发明的一种实现的根据用户意图，限制对文档的访问，并且可能生成警报的备选处理110的逻辑流程的图。和处理90一样，可以利用计算机系统10执行处理110。当系统收到访问该系统或连接的系统的资源，比如文档集合内的一个或多个文档的请求时(112)，处理110开始。该访问请求可以是直接的，例如，试图打开其在系统内的存在和位置已为请求者所知的特定文件，或者是间接的，例如，如果另外没有限制，那么可以把搜索中的特定文档用于对其的响应的查询。系统可以再次从简介数据库找出用户简介(114)，并根据该简介检查用户意图，以判定它们是否与文档的现有访问限制不一致(116)。如果用户意图与所请求的文档兼容，那么准许用户访问(118)。如果否，那么系统可以进一步检查用户意图是否存在任意最新变化(120)。如果未检测到变化，那么系统继续向用户发送请求的拒绝，而不进行进一步操作(122)。然而，如果系统检测到出现危险的变化，那么它可以向主管或者其他安全/执行实体生成警报(124)。

本发明从而提供一种增强敏感材料的保护的新机制。本发明的主要新颖之处在于它使用从语言中提取的关于用户的智能来管制对文档的访问。它不被视为独立的技术或者现有方法的替代，而是对更结构化的访问管理系统的增强。本发明不依赖于诸如关键字或短语匹配之类的基本文本分析。相反，它将用户在系统上的个人语言作为意图的指示符，以便在用户可能有偏离由其支配的资料的容许使用的风险时，通知系统。本发明的其他具体新颖之处包括：(i)一类用户意图的创建，该类意图与以该用户的观察到的搜索行为和语言的选择为基础的用户简介相关联；(ii)一种对用户意图评分，并将其添加到简介中，和利用特定于主题的实体和关系来扩充这些意图的机制；和(iii)利用所述得分来管制用户对系统的任何期望部分的访问。直接的新颖之处建立在可推广的基础之上。尽管记载在本文中的实现把本发明的应用局限于敏感信息的保护，不过毫无疑问，相同的机制可被扩展到诸如利用意图简介来增强排名算法，以向用户宣传可能更感兴趣的文档之类的改进。于是，通过向访问管理的功能增加细微差别，并充分利用由精致的NLP方法提取的信息，相对于传统的认知系统，本发明具有显著的优势。

尽管参考具体实施例，说明了本发明，不过，并不意味限制性地解释该描述。参考本发明的说明，对本领域的技术人员来说，本公开的实施例的各种修改，以及本发明的备选实施例将变得明显。于是，可以预见的是在不脱离在附加的权利要求中限定的本发明的精神或范围的情况下，可以作出这样的修改。

Claims

1.一种控制对集合的访问的方法，包括：

通过在计算机系统中执行第一指令，接收来自用户的访问集合中的文档的请求；

通过在计算机系统中执行第二指令，接收与用户关联的用户简介，所述用户简介具有包括情感、情绪和语气中的一个或多个的用户意图的指示；

通过在计算机系统中执行第三指令，确定用户意图与文档的访问限制不一致；和

通过在计算机系统中执行第四指令，作为响应，拒绝用户对文档的访问。

2.按照权利要求1所述的方法，还包括：

监视用户以形成用户搜索历史；和

基于用户搜索历史，更新用户简介。

3.按照权利要求1所述的方法，其中用户简介包括多个意图元素，所述多个意图元素包括至少一个情感元素、至少一个情绪元素和至少一个语气元素。

4.按照权利要求1所述的方法，其中所述确定包括：

基于用户简介，生成用户意图得分；和

比较用户意图得分和文档的文档得分。

5.按照权利要求4所述的方法，其中用户简介包括多个意图元素，以及用户意图得分基于多个意图元素中每一个的单独得分的组合。

6.按照权利要求1所述的方法，还包括

解析所述请求，以确定用户的当前意图；和

通过比较当前意图与用户简介，检测用户意图的变化。

7.按照权利要求6所述的方法，还包括响应于所述检测，生成警报。

8.一种计算机系统，包括：

处理器；和

保存应用程序的存储器，当在所述处理器上执行时，所述应用程序进行按照权利要求1-7任意之一所述的方法的步骤。

9.一种计算机可读存储介质，其中，其包括程序指令，当所述程序指令由计算设备执行时，使计算设备进行按照权利要求1-7任意之一所述的方法的步骤。

10.一种装置，所述装置包括被单独配置以进行按照权利要求1-7任意之一所述的方法的各个步骤的模块。

11.一种对自然语言查询进行响应的方法，包括：

通过在计算机系统中执行第一指令，以计算机可读形式从用户接收自然语言查询；

通过在计算机系统中执行第三指令，根据用户意图对自然语言查询进行认知分析，利用具有一个或多个文档的参考集合产生对所述查询的响应；和

通过在计算机系统中执行第四指令，向用户呈现所述响应。

12.按照权利要求11所述的方法，还包括：

利用自然语言分类器，从自然语言查询确定当前用户意图；和

利用当前用户意图，更新用户简介。

13.按照权利要求11所述的方法，其中用户简介是具有一组预定的意图的默认简介。

14.按照权利要求11所述的方法，其中认知分析包括搜索文档的子集，所述子集基于用户意图排除文档中的至少一个文档。

15.按照权利要求14所述的方法，其中所述搜索包括比较文档的一个或多个元数据标记和用户意图。

16.按照权利要求11所述的方法，其中用户意图还部分基于用户的职责的范围。

17.按照权利要求11所述的方法，其中用户简介包括多个意图元素，所述多个意图元素包括至少一个情感元素、至少一个情绪元素和至少一个语气元素。

18.一种计算机系统，包括：

处理器；和

保存应用程序的存储器，当在所述处理器上执行时，所述应用程序进行按照权利要求11-17任意之一所述的方法的步骤。

19.一种计算机可读存储介质，其中，其包括程序指令，当所述程序指令由计算设备执行时，使计算设备进行按照权利要求11-17任意之一所述的方法的步骤。

20.一种装置，所述装置包括被单独配置以进行按照权利要求11-17任意之一所述的方法的各个步骤的模块。