CN113811866A

CN113811866A - 敏感数据管理

Info

Publication number: CN113811866A
Application number: CN202080035242.8A
Authority: CN
Inventors: K.B.默雷; J.麦克沃伊; M.麦卡维尔; J.布朗
Original assignee: International Business Machines Corp
Current assignee: International Business Machines Corp
Priority date: 2019-05-23
Filing date: 2020-05-07
Publication date: 2021-12-17
Also published as: US11182500B2; WO2020234682A1; JP7471321B2; DE112020000927T5; JP2022533748A; GB202117271D0; GB2597894A; US20200372172A1

Abstract

提供了一种检测从用户设备向在线站点发送敏感数据字段的方法。该方法确定敏感数据字段的数据类型，并且从在线站点收集与当前日期一起存储在数据存储中的站点信息。随后，用户可以通过在用户设备的显示器上显示站点信息来管理数据。每个站点信息记录与包括所选择的在线站点的许多在线站点之一有关。用户在用户设备处作出与所选站点信息有关的数据管理请求。该方法随后响应地向所选择的在线站点发送请求，其中，该请求基于所接收的数据管理请求。请求的一个实例是请求在线站点从在线站点移除用户的敏感数据的删除请求。

Description

敏感数据管理

背景技术

在当今的互连世界中，用户通常使用许多站点和应用并从各种移动和固定设备在互联网上执行个人商务和购物。在执行这些功能时，经常要求这些用户允许访问他们的设备上的的个人联系方式和其他数据或由用户在这些设备之一上手动输入。该数据可能也包括对用户敏感的个人信息，诸如用户的姓名、电子邮件地址、电话号码、出生日期、性别、邮寄地址等。

随着包括在一些司法管辖区中制定的用户隐私立法的增加的规则的开始，遵守关于使用和保留用户信息的规则责任常常落在网站管理员头上。用户隐私顾虑还包括关于用户的个人信息是否在数据不再需要时或者数据到期时按请求被删除的顾虑。另一个问题是用户的信息是否已经被与第三方共享。鉴于常规网站安全漏洞和介质中经常报道的对用户的信息的非法共享，这个问题更加相关。

发明内容

前述内容是概述，并且因此必然包含细节的简化、概括和省略；因此，本领域的技术人员将认识到该概述仅是说明性的并且不旨在以任何方式进行限制。本发明的其他方面、创造性特征和优点将在以下阐述的非限制性详细说明中变得清楚。

附图说明

通过参照附图，本发明可以被更好地理解，并且其多个目的、特征、和优点对于本领域的技术人员来说变得清楚，在附图中：

图1描绘了包括使用知识库的知识管理器的网络环境；

图2是诸如图1中所示的信息处理系统的处理器和组件的框图；

图3是示出包括在跟踪由用户与网站和应用共享的信息的类型的系统中的不同组件的组件图；

图4是示出用于注册敏感信息类型和提供这些类型所在的位置的逻辑的流程图的描绘；

图5是示出在敏感信息类型和位置的数据处理和存储期间使用的逻辑的流程图的描绘；

图6是示出用于将字段元数据保存到数据库的逻辑的流程图的描绘；和

图7是示出用于提供用户界面(UI)的逻辑的流程图的描述，该用户界面向用户显示敏感信息类型和存储位置并且允许用户请求从所选择的在线位置删除用户的数据。

具体实施方式

图1-7描述了自动注册用户向在线站点或应用提供的个人信息(PI)的类型的方法。如本文所使用的，PI被包括在“敏感数据字段”的更大范围内。该方法提供了一种系统，其将在任何在线站点和应用上输入的个人信息的数据类型，诸如用户的姓名、出生日期、电话号码、电子邮件地址、邮寄地址、性别等连同关于站点的信息一起存储。关于站点的信息可以包括站点或公司名称、站点的网络地址以及当系统在站点中爬网时收集的其他信息。此外，系统还记录向站点提供用户的信息的日期和时间。该方法给予用户他们提供过的录入许多站点/应用/系统的敏感数据字段的历史，并允许他们酌情审阅、更新或从这些站点/应用收回该数据。以此方式，该方法赋予用户对其自己的个人数据和他人对该数据的使用的更多控制。

系统应用或工具监控用户访问和记录的站点/应用并记录用户何时向站点或应用提供敏感数据字段。在一个实施例中，如下地构造系统。首先，系统监听表单POST，当检测到POST时，将字段名称和网站URL保存到数据库。当检测到用户的敏感数据字段的传输时，新的数据库条目开始处理表单字段并将数据保存至数据库的作业。如果检测到敏感数据字段的发送，网络爬虫访问网站并检索在网站页面上发现的相关链接、cookie策略、条款和条件等。发送请求以检索这些网页的文本。来自这些网页的文本然后被处理成可以被呈现给终端用户的格式。

如果用户仅查看网页并且没有提交表单，则系统不采取动作。然而，如果用户加载网页并填写并提交可能包含敏感数据字段的表单，则系统从该表单检测POST请求。然后，将新条目输入到数据库中用于处理。该条目包括网站URL以及动作发生的日期。然后开始利用有关在网站上找到的有关规则、法律和法规的信息(例如，保留用户的敏感数据字段的时间长度、对什么实体能访问用户的敏感数据字段的限制等)来加强该数据的作业。

条目被放置在数据库队列中用于处理。在一个实施例中，系统使用自然语言处理(NLP)来处理数据,以确定表单是否包含敏感数据字段。如果没有提交敏感数据字段，则不采取进一步的动作。然而，如果敏感数据字段被提交了，则字段名称被解析并存储在数据库中。然后调用网络爬虫过程以获得用于网站或应用的数据策略以及网站在使用信息时所遵循的规则、法律和法规(例如，欧盟(EU)中的通用数据保护法规(GDPR)框架等)。

一旦检测到了敏感数据字段并且更新了数据库，该过程检索网站的cookie策略、网站的数据策略以及关于网站遵循的规则、法律和法规的信息。网络爬虫被启动并打开网站。网络爬虫读取网页的链接，搜索诸如“cookie策略”、“gdpr”等关键词。当检测到有用的链接时，将该链接保存到数据库中用于相关条目。对于存储在数据库中的每个链接，发送请求以获得每个链接的网页文本，并且存储来自该页的文本。

该过程然后从相关网页提取数据并且将页面上的文本转换成预定义字段，然后可以将其在用户界面(UI)上以可读格式呈现给用户。注意：敏感数据字段不被系统存储，仅对应于敏感数据字段的数据类型。例如，用户可以在多个在线表单上输入他或她的银行账号，每个表单具有不同的字段名称。系统记录这些站点已经接收银行账户信息(数据类型)，然而，系统不在数据库中存储实际银行账号。

为了查看所存储的数据，用户利用可能是浏览器扩展或应用的形式的用户界面(UI)。在一个实施例中，用户打开浏览器插件或者前往网站以查看记录到数据库的数据(网站信息以及提供给这些网站的敏感数据字段的类型)。在一个实施例中，提供网站列表，并且用户选择(“点击”)感兴趣的网站以查看网站的URL、提供给网站的敏感数据字段类型、提供数据的日期、以及其他相关信息。此外，还向用户提供能选择以执行数据管理请求的链接(例如，“删除账户”等)，该数据管理请求向网站发送将用户的敏感数据从网站移除(数据被存储在敏感数据字段中)的请求。该链接的URL是先前在上述网络爬行阶段期间从网站检索的。如本文所使用的，从用户的设备执行的数据管理请求，通常是由该设备的用户发起的请求，用于向在线站点发送管理用户的敏感数据的请求，诸如请求从在线站点删除用户的账户、请求用户的账户的当前状态(例如，账户当前是否是“活动的”等)等。

在一个实施例中，数据库被存储在允许用户从能够连接到互联网的任何设备访问其数据的在线存储器(即，“云”等)中。在一个实施例中，如果系统检测到用户的敏感数据字段已被保持在指定时间段(例如1年等)之后，则系统经由UI或经由电子邮件提醒用户。然后，如果用户希望审阅或删除他们的数据，可以联系站点。

除了敏感数据字段的数据类型之外，系统还记录当用户登录或最后登录到网站时应用于网站的规则、法律和法规细节。这些规则、法律和法规可包括与其数据共享的站点或应用的合作伙伴、站点可保持其数据多久以及何时将其删除等。还将示出对用户可能不明显的其他数据。例如，站点对其他站点的包括用户的个人信息(诸如用户的当前物理位置)的任何后续请求。

在一个实施例中，用户将能够通过添加他们自己的数据类型、通过指定可以包含敏感数据字段的表单字段标识符来配置系统。而且，用户可以指定敏感数据字段的数据类型，该信息被用于协助系统确定表单字段是否具有敏感数据字段。用户还可以通过通知系统忽略某些表单字段—因为它们不被视为引用敏感数据字段—来配置系统。

因为系统将具有网站中用户的敏感数据字段的预期到期，所以如果任何到期日期已经过去，则系统提供警报/通知(例如，电子邮件、UI)，从而提示用户采取行动以理解数据的继续使用或请求删除。系统可以执行检查针对任何安全漏洞的并将这些馈送与所存储的网站交叉引用的数据管理请求，从而再次通知用户他们的任何网站是否有漏洞。系统还可以通知用户是否有进行中的任何欺诈(例如，针对银行细节的网络钓鱼电子邮件)。用户可执行数据管理请求，以从在线站点删除用户的账户以及请求用户的账户状态。

在一个实施例中，则系统提醒用户他们将要提交敏感数据字段，所述提醒基于表单中的字段名—如果该字段名与系统先前记录的敏感数据字段的类型相关联的字段名的匹配的话。在一个实施例中，系统可以提供关于具有数据漏洞的历史的站点的警告。在一个实施例中，系统包括了其中用户可以指示‘近亲’的‘遗产’特征，以使另一用户能够查看和保存也可能与他们相关的并且由此配备了他们从公共论坛中删除该数据所需的信息的敏感数据字段提交的历史。如果某人去世或丧失行为能力，可能需要这样。

在一个实施例中，当网站通知用户(例如，经由电子邮件等)由于不再需要(例如，按照GDPR规则等)用户的敏感数据字段现在已经被移除时，系统记录信息。系统可以进一步检测并记录从站点/app的账户(例如，敏感数据字段等)删除，还记录数据和活动的日期/时间。在一个实施例中，如果用户取消订阅服务，则该动作将被记录在数据库中。如果用户继续接收不想要的通知等，则用户可以查看注册表并看到他们先前已经取消订阅，允许他们联系陈述不应将通知发送给用户的发送者，并提供有关用户的取消订阅请求的细节。然后，用户可以执行数据管理请求，以从在线站点删除用户的账户并且还请求用户的账户状态。

本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质。

计算机可读存储介质可以是可保留和存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以是，例如但不限于，电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项：便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡或具有记录在其上的指令的槽中的凸出结构之类的机械编码设备、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身，例如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如，穿过光纤电缆的光脉冲)或通过电线发射的电信号。

本文中所描述的计算机可读程序指令可以经由网络(例如，互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备，或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令，并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或以一种或多种编程语言的任何组合编写的源代码或目标代码，这些编程语言包括面向对象的编程语言(如Java、Smalltalk、C++等)和常规的过程编程语言(如“C”编程语言或类似的编程语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下，远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机，或者可连接至外部计算机(例如，使用互联网服务提供商通过互联网)。在一些实施例中，包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令，以便执行本发明的各方面。

下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解，流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合，都可以由计算机可读程序指令实现。

这些计算机可读程序指令可被提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器以产生机器，使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中，这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作，从而，其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。

也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上，使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤，以产生计算机实现的处理，使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。

附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此，流程图或框图中的每个框可表示指令的模块、段或部分，其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中，框中标注的功能可以不按照图中标注的顺序发生。例如，取决于所涉及的功能，连续示出的两个框实际上可以基本上同时执行，或者这些框有时可以以相反的顺序执行。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。

图1描绘了计算机网络102中的问题/答案创建(QA)系统100的一个说明性实施例的示意图。QA系统100可以包括将QA系统100连接到计算机网络102的知识管理器计算设备104(包括一个或多个处理器和一个或多个存储器，以及潜在地本领域已知的任何其他计算设备元件，包括总线、存储设备、通信接口等)。网络102可包括经由一个或多个有线和/或无线数据通信链路彼此通信和与其他设备或组件通信的多个计算设备104，其中每个通信链路可包括线、路由器、交换机、发射机、接收机等中的一个或多个。QA系统100和网络102可以实现针对一个或多个内容用户的问题/回答(QA)生成功能。QA系统100的其他实施例可以与除了本文中所描述的之外的组件、系统、子系统和/或设备一起使用。

QA系统100可以被配置为从不同源接收输入。例如，QA系统100可以从网络102、电子文档107或其他数据的语料库、内容创建者、内容用户和其他可能的输入源接收输入。在一个实施例中，可以通过网络102路由QA系统100的一些或全部输入。网络102上的不同计算设备可以包括用于内容创建者和内容用户的访问点。计算设备中有些可以包括用于存储数据语料库的数据库的设备。在不同实施例中，网络102可包括本地网络连接和远程连接，使得知识管理器100可在任何大小的、包括本地和全球(例如互联网)环境中操作。此外，知识管理器100充当可使从文档、网络可访问源和/或结构化数据源提取或表示的各种知识可用的前端系统。以此方式，一些过程用知识管理器来填充知识管理器，该知识管理器还也包括用于接收知识请求并相应地作出响应的输入接口。

在一个实施例中，内容创建者在电子文档107中创建内容以用作QA系统100的数据语料库的一部分。电子文档107可以包括在QA系统100中使用的任何文件、文本、文章或数据源。内容用户可以经由到网络102的网络连接或互联网连接访问QA系统100，并且可以向QA系统100输入可以由数据语料库中的内容回答的问题。如下文进一步描述的那样，当过程针对语义内容评估文档的给定部分时，该过程可以使用各种惯例来从知识管理器查询它。一个惯例是发送格式良好的问题。语义内容是基于诸如单词、短语、标志和符号以及它们代表什么、它们的外延或内涵的语言符号之间关系的内容。换言之，语义内容是诸如通过使用自然语言(NL)处理解释表达的内容。语义数据108作为知识库106的一部分被存储。在一个实施例中，该过程向知识管理器发送格式良好的问题(例如，自然语言问题等)。QA系统100可以解释问题并且向内容用户提供包含对问题的一个或多个回答的响应。在一些实施例中，QA系统100可以向用户提供排名的答案列表形式的响应。

在一些说明性实施例中，QA系统100可以是可从美国纽约阿芒克的国际商业机器公司获得的IBM Watson^TM QA系统，该系统用下文描述的说明性实施例的机制增强。IBMWatson^TM知识管理器系统可以接收输入问题，随后解析该输入问题以提取问题的主要特征，该主要特征继而被用于制定应用于数据语料库的查询。基于将查询应用于数据语料库的查询，通过跨数据语料库寻找数据语料库的可能包含对输入问题的有价值的响应的部分，生成对输入问题的一组假设或候选答案。

IBM Watson^TM QA系统然后使用各种推理算法对输入问题的语言和在应用查询期间发现的数据语料库的每个部分中使用的语言执行深度分析。可能有几百甚至几千个推理算法被应用，每个推理算法执行不同的分析(例如，比较)并且生成得分。例如，一些推理算法可以查看输入问题的语言内的术语和同义词与所找到的数据语料库的部分的匹配。其他推理算法可以查看语言中的时间或空间特征，而其他推理算法可以评估数据语料库的部分的源并且评估其真实性。

从各种推理算法获得的得分指示基于该推理算法的特定的专注领域由输入问题推断的潜在响应的程度。然后针对统计模型对每个所得得分加权。统计模型捕获了给该推理算法在IBM Watson^TM QA系统的训练期间建立特定领域的两个相似段落之间的推断时表现出的良好程度。然后，可以用统计模型来总结IBM Watson^TM QA系统具有的关于由问题推断潜在响应(即候选答案)的证据的置信度水平。可以针对每个候选答案重复该过程，直到IBM Watson^TM QA系统识别出显得明显强于其他答案的候选答案，并因此生成针对输入问题的最终答案或排名的答案集合。

可以利用QA系统100的信息处理系统的类型的范围，从诸如手持式计算机/移动电话110之类的小型手持式设备到诸如大型计算机170之类的大型机系统。手持式计算机110的实例包含个人数字助理(PDA)、个人娱乐设备，诸如MP3播放器、便携式电视和光盘播放器。信息处理系统的其他示例包括笔式或平板式电脑120、膝上型或笔记本电脑130、个人计算机系统150和服务器160。如图所示，不同信息处理系统可以使用计算机网络102联网在一起。可以用于互连不同信息处理系统的计算机网络102的类型包括局域网(LAN)、无线局域网(WLAN)、互联网、公共交换电话网(PSTN)、其他无线网络和可以用于互连信息处理系统的任何其他网络拓扑。许多信息处理系统包括非易失性数据存储，诸如硬盘驱动器和/或非易失性存储器。图1中示出的信息处理系统中的一些描绘了单独的非易失性数据存储器(服务器160利用非易失性数据存储165，而大型计算机170利用非易失性数据存储175)。非易失性数据存储可以是在各种信息处理系统外部的组件，或者可以是在信息处理系统之一内部的组件。图2中示出了信息处理系统的说明性示例，该信息处理系统示出了示例性处理器和处理器通常访问的各种组件。

图2示出了信息处理系统200，更具体地，处理器和公共组件，其是能够执行本文描述的计算操作的计算机系统的简化示例。信息处理系统200包括耦合到处理器接口总线212的一个或多个处理器210。处理器接口总线212将处理器210连接到北桥215—亦称存储器控制器中枢(MCH)。北桥215连接到系统存储器220，并为处理器210提供访问系统存储器的装置。图形控制器225也连接到北桥215。在一个实施例中，PCI Express总线218将北桥215连接到图形控制器225。图形控制器225连接到显示设备230，例如计算机监视器。

北桥215与南桥235用总线219彼此连接。在一个实施例中，总线是在北桥215和南桥235之间在每个方向上高速传输数据的直接介质接口(DMI)总线。在另一实施例中，外围组件互连(PCI)总线连接北桥和南桥。南桥235—亦称I/O控制器中枢(ICH)—是通常实现以比由北桥提供的能力更慢的速度操作的能力的芯片。南桥235通常提供用于连接各种组件的各种总线。这些总线包括例如PCI和PCI Express总线、ISA总线、系统管理总线(SMBus或SMB)和/或低引脚数(LPC)总线。LPC总线经常连接低带宽设备，诸如引导ROM 296和(使用“超级I/O”芯片的)“传统”I/O设备。“传统”I/O设备(298)可以包括例如串行和并行端口、键盘、鼠标和/或软盘控制器。LPC总线还将南桥235连接到可信平台模块(TPM)295。南桥235中通常包括的其他组件包括直接存储器存取(DMA)控制器、可编程中断控制器(PIC)和使用总线284将南桥235连接到非易失性存储设备285(例如硬盘驱动器)的存储设备控制器。

高速卡255是将热插拔设备连接到信息处理系统的插槽。高速卡255支持PCIExpress和USB连接二者，因为其使用通用串行总线(USB)和PCI Express总线二者连接到南桥235。南桥235包括USB控制器240，其向连接到USB的设备提供USB连接。这些设备包括网络摄像头(相机)250、红外(IR)接收器248、键盘和触控板244以及提供无线个人域网(PAN)的蓝牙设备246。USB控制器240还提供与诸如鼠标、可移动非易失性存储设备245、调制解调器、网卡、ISDN连接器、传真机、打印机、USB集线器之类的其他各种USB连接的设备242以及许多其他类型的USB连接的设备的USB连接。虽然可移除非易失性存储设备245被示为USB连接的设备，但是可移除非易失性存储设备245可以使用不同的接口(诸如火线接口等)来连接。

无线局域网(LAN)设备275经由PCI或PCI Express总线272连接到南桥235。LAN设备275通常实现空中调制技术的IEEE.802.11标准之一，其全部使用相同的协议来在信息处理系统200和另一计算机系统或设备之间进行无线通信。光存储设备290使用串行ATA(SATA)总线288连接到南桥235。串行ATA适配器和设备通过高速串行链路通信。串行ATA总线还将南桥235连接到其他形式的存储设备，例如硬盘驱动器。音频电路260(例如声卡)经由总线258连接到南桥235。音频电路260还提供诸如音频线路输入和光学数字音频输入端口262、光学数字输出和耳机插孔264、内部扬声器266和内部麦克风268的功能。以太网控制器270使用诸如PCI或PCI Express总线之类的总线连接到南桥235。以太网控制器270将信息处理系统200连接到计算机网络，例如局域网(LAN)、互联网和其他公共和专用计算机网络。

虽然图2示出一个信息处理系统，但是信息处理系统可以采取许多形式，其中一些在图1中示出。例如，信息处理系统可以采取台式机、服务器、便携式、膝上型、笔记本的形式，或其他形式因数计算机或数据处理系统。此外，信息处理系统可以采取其他形式因素，例如个人数字助理(PDA)、游戏设备、ATM机、便携式电话设备、通信设备或包括处理器和存储器的其他设备。

图3是示出在跟踪由用户与网站和应用共享的信息的类型的系统中包括的不同组件的组件图。系统310注册对应于用户在使用一个或多个用户设备310时已经提供给各个网站370的敏感数据字段的数据类型。

如图所示，系统310包括多个过程，这些过程一起工作以注册敏感数据类型和用户已经提供这些数据类型所在的网络位置。这些过程包括检测用户正在向网站提供敏感数据字段的后检测过程320。数据处理和存储过程330分析由用户输入的数据字段以确定所述数据字段是代表敏感数据字段还是非敏感数据字段。网络爬虫过程340爬过正在发送用户的敏感数据的网站，并从该网站收集一组网站信息。站点信息包括网站的数据策略，包括数据保留策略和数据共享策略。此外，网络爬虫过程试图在网站上定位和找到用户可以用来请求从网站删除用户的敏感数据的账户的链接。从网站可访问的不同页面识别从网站收集的策略数据和删除链接信息(例如，由网站建立用于请求删除用户账户信息的链接的URL等)。文本解析器过程350将从网站收集的文本解析为更有用的格式，诸如解析为可以存储在数据库中以供将来检索的预定义字段。最后，用户界面(UI)过程360提供可用于显示用户的敏感信息(敏感数据字段)已被提供的位置以及当用户最初将用户信息提供给网站时从网站收集的网站信息的界面。该用户界面还提供允许用户请求从网站移除用户的信息的界面，在这种情况下，利用在网络爬行过程中收集的删除链接(例如，URL等)来请求从网站删除用户的敏感信息。用户可利用UI过程360来发起数据管理请求。这些数据管理请求被执行，以向在线站点发送管理用户的敏感数据的请求，诸如请求从该在线站点删除用户的账户、请求用户账户的当前状态(例如，账户当前是否是“活动的”等)等。

在容器370中示出了用户访问的网站，这些网站中的一些是已经被提供以用户的敏感数据字段的网站，而其他访问的网站还没有接收到任何用户的敏感信息。数据存储390(诸如数据库)用于存储用户已经提供他或她的敏感信息的网站的位置信息以及提供给网站的个人数据字段的数据类型。重要的是，系统避免在数据存储390中存储任何用户的实际个人数据字段信息。在一个实施例中，数据存储390由在线存储管理器380维护为网络可访问存储，在线存储管理器380向用户提供对数据存储390的安全访问，并通过要求认证和凭证(例如，用户标识符、密码等)来访问数据存储390来防止其他实体访问存储在数据存储390中的数据。为了查看和管理存储在数据存储390中的、与用户已经向其提供敏感信息的网站370有关的数据，用户从用户设备300之一调用用户界面(UI)过程360，该UI过程通过提供用户提供的、访问安全存储380所需的认证和凭证(例如，用户标识符、密码等)，代表用户访问直接或间接地存储在数据存储380中的数据。

图4是示出用于注册敏感信息类型和提供这些类型所在的位置的逻辑的流程图的描绘。图4的处理始于400，示出了由注册向在线网站提供的用户的敏感数据字段的过程所采取的步骤。

在步骤410，用户访问网站。在步骤420，该过程监视用户对被访网站的使用。在监控时，该过程检测并确定用户是否正在向在线站点发送数据，诸如以该站点提供的形式发送数据(判定430)。如果检测到用户向在线站点的发送数据，那么判定430转到‘是’分支，以通过执行执行数据处理和存储例程(详见图5和相应的描述性文本)的预定过程440来进一步分析所发送的数据。另一方面，如果没有检测到数据发送，那么判定430绕过预定义的处理440而转到‘否’分支。

通过监测用户的在线活动，该过程确定用户依然在该网站上还是转移到其他地方(判定450)。如果用户依然在该网站上，那么判定450转到‘是’分支，其循环回到步骤420以继续监测用户在该网站上的活动。这个循环一直继续到用户对该网站的访问终止时为止，此时，判定450转到‘否’分支，退出循环。当用户停止访问一个网站时，该过程确定用户是正在访问另一个网站还是已经停止在线活动(判定460)。

如果用户访问另一个网站，那么判定460转到‘是’分支，其循环回到步骤410以开始监控用户对下一个网站的访问。这个循环一直继续到用户停止在线活动(例如，关闭网络浏览器应用等)为止，此时，判定460转到‘否’分支，退出循环。之后，图4的处理在495结束。

图5是示出在敏感信息类型和位置的数据处理和存储期间使用的逻辑的流程图的描绘。图5的处理始于500，示出了执行数据处理和存储例程的过程所采取的步骤。在步骤510，该过程选择正被提供(发送)到在线站点的数据的第一字段。

在步骤520，该过程将从在线站点检索的选定的字段信息(没有用户提供的数据)提交给经训练的人工智能(AI)系统，例如QA系统100，询问在线站点请求的数据字段的数据是否涉及敏感数据。QA系统100是用具有许多训练数据的语料库106进行训练的，用以标识敏感数据字段(例如，请求诸如用户姓名、电子邮件地址、出生日期、邮寄地址、电话号码、金融账户信息、政府身份信息、性别等个人信息的字段)。在步骤530，该过程从QA系统100接收响应，该响应指示该字段是否要被提供以用户敏感信息，使该字段变为敏感数据字段。

基于来自QA系统100的响应，该过程确定数据字段是否是敏感数据字段(判定540)。如果数据字段是敏感数据字段，那么判定540转到‘是’分支，在步骤550，该过程将敏感数据字段信息保持在存储器区域560中。另一方面，如果数据字段不是敏感数据字段，那么判定540转到‘否’分支，绕过步骤550。该过程确定是否有更多的在从用户的设备向在线站点发送的数据的数据字段(判定570)。如果更多的在发送的数据的数据字段，那么判定570转到‘是’分支，其循环回到步骤510，以如上所述地选择和处理下一个数据字段。该循环一直继续到不再有在发送的数据的数据字段为止，此时，判定570转到‘否’分支，退出循环。

该过程通过检查存储器区域560来确定是否在发送中发现了任何敏感数据字段(判定575)。如果发现了敏感数据字段，那么判定575转到‘是’分支，执行预定义过程580和590，以更新用于管理提供给在线站点的用户的敏感数据字段的数据库。另一方面，如果没有发现敏感数据字段，那么判定575绕过预定义过程580和590而转到‘否’分支。如果检测到敏感数据字段被发送，则执行预定义过程580和590。在预定义过程580，该过程执行保存字段元数据例程(处理细节详见图6和对应的文本)，并且，在预定义过程590，该过程执行用户界面例程(处理细节详见图7和对应的文本)。之后，图5的处理在595处返回到调用例程(见图4)。

图6是示出用于将字段元数据保存到数据库的逻辑的流程图的描绘。图6的处理始于600，示出了将敏感数据字段元数据保存到数据存储(诸如数据库)的过程所采取的步骤。在步骤610，该过程保存在从用户的设备向在线站点的发送中被检测到的所有敏感数据字段的元数据(字段类型等)。数据被保存到数据存储390，诸如网络可访问的数据库，其访问由在线安全存储过程380控制。

在步骤620，该过程导航至网页，开始在网站中“爬行”网站，以从网站收集信息。在步骤625，该过程从当前网页爬取网站所遵守或以其他方式遵循的规则、法律和法规(例如，GDPR等)信息、网站的cookie策略、网站的链接、在网站上找到的任何账户删除链接(例如，URL等)，并且将全部该数据保留在数据存储390中。

在步骤630，该过程从存储器区域560选择第一敏感数据字段。在步骤640，该过程标识和保留针对所选择的敏感数据字段的任何策略(例如，安全、保留、共享等)，并将这些策略与所选择的敏感数据字段相关联。该过程确定是否有更多的敏感数据字段待处理(判定650)。如果有更多的敏感数据字段待处理，那么判定650转到‘是’分支，其循环回到步骤630，选择和处理下一个敏感数据字段，以如上所述地收集关于该字段的任何字段特定的策略。该循环一直继续到没有有更多的敏感数据字段待处理为止，此时，判定650转到‘否’分支，退出循环。

该过程确定是否有更多的来自当前网页的链接(判定660)。如果有更多的来自当前网页的链接，则判定660转到‘是’分支，其执行步骤670、680和690，以选择并爬过下一个链接。该循环一直继续到所有链接均已被处理，此时，判定660转到‘否’分支，退出循环，然后处理在695返回到调用例程(见图5)。

为了处理链接，执行步骤670、680和690。在步骤670，该过程选择第一链接并将该链接保存到数据存储390。在步骤680，该过程从所选择的链接读取数据页。在步骤690，该过程将从所选择的链接读取的文本处理成定义的格式(例如，处理成预定义的字段等)，并将该数据(现在以定义的格式)保存到数据存储390。然后，处理然后循环回去，以确定是否已经处理了所有的链接。该循环一直继续到所有链接均已被处理为止，此时，处理在695返回到调用例程。

图7是示出用于提供用户界面(UI)的逻辑的流程图的描述，该用户界面向用户显示敏感信息类型和存储位置，并且允许用户请求从所选择的在线位置删除用户的数据。图7的处理始于700，示出了由用户界面(UI)的处理所采取的步骤。在步骤710，用户从数据存储390选择已向其提供用户的敏感信息(敏感数据字段)的显示的网站的列表中的网站。该选择可以在用户使用网站、用户最初向发送敏感数据字段时，应用户的请求而手动地执行，或者通过网站注册后的自动选择而执行，诸如在从用户向网站提供敏感数据字段已经过去特定时间段之后(例如，在一年之后等)执行。

在步骤720，该过程从数据存储390检索网站数据和对应于该网站的敏感数据字段元数据。在步骤725，该过程以易读的格式显示敏感数据字段元数据和网站策略数据，通知在网站处发现的任何字段特定的策略。该数据在设备显示器730上显示。在一个实施例中，在步骤740，该过程“乒”(ping)该网站以查询账户状态(例如，以确定在用户请求删除账户之后账户是否是活动的等)。网站以账户状态信息作出响应。在步骤750，该过程使用显示器730，向用户通知已经被网站保留了比所允许的更长的时间段的任何敏感数据字段(例如，通过突出显示这样的字段等)。

在步骤760，该过程接收用户的动作请求。该过程确定用户是否已经请求从网站删除用户的账户(判定770)。如果用户已经请求从网站删除用户的账户，则判定770转到‘是’分支，随后在步骤780，该过程激活保留的删除链接(例如，URL等)—其是先前从网站收集的并提供用户的网站账户信息(或者，如果用户当前处于在网站处创建新账户的过程中，则取消敏感数据字段的发送)。该删除链接的激活使删除请求从用户的设备发送到选择的网站，促使该网站删除用户的账户信息和用户打开和使用账户时由用户提供的敏感数据字段数据。另一方面，如果用户还未请求从网站删除用户的账户，那么判定770转到‘否’分支，绕过步骤780。

该过程确定用户是否已经从存储在数据存储390中的网站列表中选择了用户已经向其提供敏感数据字段的另一个网站(判定790)。如果用户选择另一个网站，则判定790转到‘是’分支，其循环回到步骤710，以如上所述地选择、显示和处理已经连同网站策略信息一起被提供给网站的敏感数据字段。该循环一直继续到不再选择网站为止，此时，判定790转到‘否’分支，退出循环，之后，图7的处理在795结束(或返回至调用例程)。

虽然已经示出和描述了本发明的特定实施例，但是对于本领域技术人员显而易见的是，基于本文的教导，在不背离本发明及其更广泛的方面的情况下可以做出改变和修改。因此，所附权利要求书将在其范围内涵盖在本发明的真实精神和范围内的所有此类改变和修改。本领域技术人员将理解，如果想要具体数目的所引入的权利要求元素，则这样的意图将在权利要求中明确叙述，而在没有这样的叙述的情况下，则不存在这样的限制。作为非限制性示例，为了帮助理解，以下所附权利要求包含使用介绍性短语“至少一个”和“一个或多个”来引入权利要求元素。然而，这种短语的使用不应解释为暗示通过不定冠词“一个(a)”或“一种(an)”对权利要求元素的引入元件将包含这种引入的权利要求元素的任何特定权利要求限制为仅包含一种这种元素的发明，即使当相同的权利要求包括引入性短语“一个或多个”或“至少一个”以及不定冠词“一个(a)”或“一种(an)”时；这同样适用于定冠词在权利要求中的使用。

Claims

1.一种由信息处理系统实施的方法，所述信息处理系统包括处理器和可由处理器访问的存储器，所述方法包括：

存储关于由用户设备向在线站点发送的敏感数据的集合的数据类型信息，其中，所述信息包括向在线站点发送敏感数据的集合的日期以及关于在线站点的站点信息的集合，所述信息存储在用户设备可访问的数据存储中，并且其中，所述存储禁止在数据存储中存储敏感数据；

在所述存储之后，通过以下方式来管理数据类型信息和站点信息的集合：

显示站点信息；

在用户设备处接收数据管理请求；和

响应地向在线站点发送请求，其中，所述请求基于所接收的数据管理请求。

2.根据权利要求1所述的方法，其中，数据存储被存储在用户的设备通过在线服务访问的网络可访问存储设备上，所述方法进一步包括：

从在线站点检索多个数据字段，其中，所述数据字段中的一个或多个与所述敏感数据的不同部分相关；

基于所检索的数据字段确定数据类型信息，其中，数据类型信息中的至少一个选自由用户的姓名、用户的电子邮件地址、用户的出生日期、用户的邮寄地址、用户的电话号码、用户的金融账户号码、用户的政府身份号码、以及用户的性别组成的组；和

基于所确定的数据类型标识敏感数据的集合。

3.根据权利要求2所述的方法，进一步包括：

检测敏感数据在计算机网络上从用户的设备向在线站点的发送；

将多个数据字段提交至经训练的人工智能(AI)系统；和

从经训练的AI系统接收响应，其指示多个数据字段中的哪些数据字段针对敏感数据和对应于针对敏感数据的数据字段中的每个的数据类型信息。

4.根据权利要求1所述的方法，进一步包括：

从在线站点检索站点信息的集合，其中，所述检索包括从在线站点中包括的一个或多个页面中检索一个或多个数据策略，其中，数据策略中的至少一个涉及数据保留，并且其中，数据策略中的至少一个涉及数据共享。

5.根据权利要求1所述的方法，进一步包括：

从在线站点检索账户删除网络地址(URL)；

在用户设备处接收从所选择的在线站点移除用户的敏感数据的请求；和

利用所检索的账户删除URL从用户的设备向所选择的在线站点发送删除请求。

6.根据权利要求5所述的方法，进一步包括：

自向所选择的在线站点发送删除请求起经过了某个时间量之后，向所选择的在线站点发送账户状态请求，其中，所述时间量基于在线站点删除用户的敏感数据所允许的时间；

从在线站点接收账户状态响应；和

响应于账户状态响应指示在线站点上的用户账户仍然是活动的，向一个或多个在线站点发送一个或多个请求从在线站点删除用户的敏感数据的消息，其中，在线站点之一是所选择的在线站点。

7.根据权利要求1所述的方法，其中，所述管理进一步包括：

在用户设备上显示多个在线站点的列表，其中，所述多个在线站点包括所选择的在线站点；

在用户设备处从用户接收对所选择的在线站点的选择，其中，所选择的在线站点来自在数据存储中存储的多个站点信息并且被显示在用户设备的显示器上，其中，多个站点信息中的每一个与包括所选择的在线站点的多个在线站点之一有关；

响应于所述选择，从数据存储中检索对应于向所选择的在线站点发送的敏感数据的数据类型和从所选择的在线站点检索的数据策略的集合；和

在显示器上显示所选择的、包括数据类型和数据策略的在线站点信息，其中，数据策略以易于读取的格式排列并通知用户任何字段专用的数据策略。

8.一种信息处理系统，包括：

一个或多个处理器；

存储器，耦接至所述处理器中的至少一个；和

计算机程序指令集，其被存储在所述存储器中并且由所述处理器中的至少一个处理器执行以便执行包括以下的操作：

显示站点信息；

在用户设备处接收数据管理请求；和

9.根据权利要求8所述的信息处理系统，其中，数据存储被存储在用户的设备通过在线服务访问的网络可访问存储设备上，所述操作进一步包括：

基于所确定的数据类型标识敏感数据的集合。

10.根据权利要求9所述的信息处理系统，其中，所述操作进一步包括：

将多个数据字段提交至经训练的人工智能(AI)系统；和

11.根据权利要求8所述的信息处理系统，其中，所述操作进一步包括：

12.根据权利要求8所述的信息处理系统，其中，所述操作进一步包括：

从在线站点检索账户删除网络地址(URL)；

13.根据权利要求12所述的信息处理系统，其中，所述操作进一步包括：

从在线站点接收账户状态响应；和

14.根据权利要求8所述的信息处理系统，其中所述管理还包括：

15.一种存储在计算机可读存储介质中的计算机程序产品，包括计算机程序代码，计算机程序代码被信息处理系统执行时执行包括以下的操作：

显示站点信息；

在用户设备处接收数据管理请求；和

16.根据权利要求15所述的计算机程序产品，其中，数据存储被存储在用户的设备通过在线服务访问的网络可访问存储设备上，所述操作进一步包括：

基于所确定的数据类型标识敏感数据的集合。

17.根据权利要求16所述的计算机程序产品，其中，所述操作进一步包括：

将多个数据字段提交至经训练的人工智能(AI)系统；和

18.根据权利要求15所述的计算机程序产品，其中，所述操作进一步包括：

19.根据权利要求15所述的计算机程序产品，其中，所述操作进一步包括：

从在线站点检索账户删除网络地址(URL)；

20.根据权利要求19所述的计算机程序产品，其中，这些动作进一步包括：

从在线站点接收账户状态响应；和