CN114462616A

CN114462616A - 用于防止敏感数据在线公开的机器学习模型

Info

Publication number: CN114462616A
Application number: CN202110864458.1A
Authority: CN
Inventors: I·梅加; R·奥里比奥; R·伯克; M·萨德
Original assignee: Adobe Systems Inc
Current assignee: Adobe Inc
Priority date: 2020-11-09
Filing date: 2021-07-29
Publication date: 2022-05-10
Also published as: GB2600802A; DE102021004157A1; US20220148113A1; US11830099B2; US20240046399A1; AU2021218244A1

Abstract

本公开的实施例涉及用于防止敏感数据在线公开的机器学习模型。系统和方法使用将机器学习模型与内容编辑工具一起使用来防止或减轻敏感数据的无意公开和传播。通过将经训练机器学习模型应用于经由界面的输入字段接收的一组非结构化文本数据，可以标识与私人信息相关联的实体。通过标识实体之间的连接来计算针对文本数据的隐私得分，实体之间的连接根据累积隐私风险对隐私得分做出贡献，隐私得分指示私人信息的潜在暴露。界面被更新为包括将输入字段内的一组非结构化文本数据的目标部分与输入字段内的一组非结构化文本数据的其他部分区分开的指示符，其中对目标部分的修改改变由隐私得分指示的私人信息的潜在暴露。

Description

用于防止敏感数据在线公开的机器学习模型

技术领域

本公开一般涉及使用人工智能来防止敏感数据的无意泄露。更具体地，但不作为限制，本公开涉及用于将机器学习模型与内容编辑工具一起使用以实时防止或减轻敏感数据的无意公开和传播的技术。

背景技术

用于处理文本的人工智能技术在各种内容编辑工具中有用。作为一个示例，当用户输入内容进行在线搜索时，机器学习模型用于预测下一个字词。作为另一个示例，机器学习被用在在线文字处理软件中来建议改变以改善文本内容的可读性。

然而，这些类型的内容编辑工具通常存在敏感信息(诸如个人标识信息)可能被无意公开的风险。例如，用户可以在在线论坛中输入看似无害的信息，诸如指出用户是“来自佛罗里达州的软件工程师”，其可以与其他在线内容结合使用来标识该用户。在一些情况下，某些内容编辑工具的在线性质展现了允许该敏感数据一旦被无意公开就会被迅速传播的独特风险，有时不可撤销。随着个人发布到因特网的信息量迅速增加，由于个人标识信息的暴露而引起的隐私问题也迅速增加。看似无害的数据元素在聚合时可以提供他们从未打算发布或意识到可以通过他们与因特网的互动获得的某人的完整视图。

发明内容

某些实施例涉及用于使用机器学习模型来实时标记潜在的隐私泄露的技术。

在一些方面，一种计算机实现的方法包括：由内容取回子系统检测被录入到图形界面的输入字段中的一组非结构化文本数据的录入；响应于检测到录入并且利用自然语言处理子系统，通过至少将经训练机器学习模型应用于输入字段中的一组非结构化文本数据，来标识与私人信息相关联的多个实体；由评分子系统通过标识实体之间的连接来计算针对文本数据的隐私得分，实体之间的连接根据累积隐私风险对隐私得分做出贡献，隐私得分指示由一组非结构化文本数据对私人信息的潜在暴露；以及由报告子系统将图形界面更新为包括指示符，指示符将输入字段内的一组非结构化文本数据的目标部分与输入字段内的一组非结构化文本数据的其他部分区分开，其中对目标部分的修改改变由隐私得分指示的私人信息的潜在暴露。

在一些方面，方法还包括：由内容取回子系统检测对被录入到图形界面的输入字段中的一组非结构化文本数据的修改；响应于检测到修改并且利用自然语言处理子系统，通过至少将经训练机器学习模型应用于输入字段中的经修改的文本数据，来标识与私人信息相关联的经修改的多个实体；由评分子系统基于经修改的实体，来计算针对文本数据的经修改的隐私得分；以及由报告子系统基于经修改的隐私得分来更新图形界面。

在一些方面，方法还包括：由内容取回子系统接收与非结构化文本数据相关联的图像或视频；以及由媒体处理子系统处理图像或视频，以标识元数据，其中标识的元数据的至少一个子集被进一步输入到机器学习模型，以标识实体。

在一些方面，一组非结构化文本数据是第一组非结构化文本数据并且多个实体是第一多个实体，并且方法还包括：在接收第一组非结构化文本数据之前：由内容取回子系统检测被录入到输入字段中的第二组非结构化文本数据的录入；以及响应于检测到录入并且利用自然语言处理子系统，通过至少将经训练机器学习模型应用于输入字段中的第二组非结构化文本数据，来标识与私人信息相关联的第二多个实体，其中评分子系统基于第一多个实体和第二多个实体之间的连接，来计算隐私得分。

在一些方面，经更新的图形界面还显示隐私得分的指示。在一些方面，机器学习模型包括神经网络，并且方法还包括通过以下来训练神经网络：由训练子系统从第一数据库取回针对与隐私风险相关联的第一实体类型的第一训练数据；由训练子系统从第二数据库取回针对与隐私风险相关联的第二实体类型的第二训练数据；以及由训练子系统使用第一训练数据和第二训练数据来训练神经网络，以标识第一实体类型和第二实体类型。

在一些方面，方法还包括：由自然语言处理子系统确定针对所标识的实体的实体类型；以及基于所确定的实体类型，由评分子系统向图模型中的实体之间的链接分配权重，其中隐私得分基于权重。

在一些方面，一种计算系统包括：内容取回子系统，被配置为：检测向图形界面的输入字段中的非结构化文本数据的录入；自然语言处理子系统，被配置为：通过至少将经训练机器学习模型应用于非结构化文本数据，来标识与私人信息相关联的多个实体；评分子系统，被配置为：通过将图模型应用于多个实体来标识实体之间的连接来计算针对文本数据的隐私得分，实体之间的连接根据累积隐私风险对隐私得分做出贡献，隐私得分指示由非结构化文本数据对私人信息的潜在暴露；以及报告子系统，被配置为：将图形界面更新为包括指示符，指示符将输入字段内的非结构化文本数据的目标部分与输入字段内的非结构化文本数据的其他部分区分开，目标部分引起由隐私得分指示的私人信息的潜在暴露。

在一些方面，一种非瞬态计算机可读介质，其上存储有指令，所述指令由处理设备可执行，以执行操作，操作包括：检测被录入到图形界面的输入字段中的一组非结构化文本数据的录入；用于计算针对文本数据的隐私得分的步骤，隐私得分指示由一组非结构化文本数据对私人信息的潜在暴露；以及基于隐私得分来更新指示符，指示符将输入字段内的一组非结构化文本数据的目标部分与输入字段内的一组非结构化文本数据的其他部分区分开。

提及这些说明性实施例不是为了限制或限定本公开，而是为了提供示例以帮助其理解。在详细描述中讨论了另外的实施例，并且在那里提供了进一步的描述。

附图说明

当参考附图阅读以下具体实施方式时，可以更好地理解本公开的特征、实施例和优点。

图1描绘了根据本公开的某些实施例的计算环境的一个示例，其中内容编辑工具使用机器学习模型来指示用于实时解决潜在隐私泄露的内容修改。

图2描绘了根据本公开的某些实施例的用于实时更新内容编辑工具的界面来指示将减少私人信息的暴露的潜在编辑的过程的一个示例。

图3A-图3D图示了根据本公开的某些实施例的使用图2中描绘的过程所生成的图形界面的序列的一个示例。

图4描绘了根据本公开的某些实施例的用于训练如在图2的过程中使用的机器学习模型的过程的一个示例。

图5描绘了根据本公开的某些实施例的执行本文描述的某些操作的计算系统的一个示例。

图6描绘了根据本公开的某些实施例的执行本文描述的某些操作的云计算环境的一个示例。

具体实施方式

本公开包括用于将机器学习模型与内容编辑工具一起使用以实时防止或减轻敏感数据的无意公开和传播的系统和方法。如上所述，在线服务和其他内容编辑工具展现无意中公开敏感数据的风险，这些敏感数据可以经由因特网或其他数据网络迅速传播。本文描述的某些实施例通过使用机器学习模型来在编辑阶段期间检测潜在有问题的内容并且指示对内容的潜在修改来解决该风险，该潜在修改将减少敏感数据的公开。例如，这样的实施例分析非结构化文本数据以标识与私人信息相关联的字词或短语。基于这些字词或短语之间的连接来生成隐私得分，并且基于隐私得分，来显示可以鼓励用户修改文本数据以减少私人信息暴露的信息。

以下非限制性示例被提供以介绍某些实施例。在该示例中，隐私监测系统与web服务器通信，web服务器提供用于在用户设备上呈现图形界面(例如，图形用户界面(GUI))的数据。图形界面包括被配置为接收文本数据的文本字段。隐私监测系统在用户录入文本数据时取回文本数据，标识文本数据的元素，以及造成隐私风险的文本数据的各种元素之间的关系。例如，隐私监测系统检测被录入到图形界面的输入字段中的一组非结构化文本数据的录入。图形界面用于编辑和公开发布信息，诸如产品评论、社交媒体帖子、分类广告等。内容取回子系统监测向输入字段中的信息的录入，并且在检测到信息的录入时，发起对文本的处理以标识隐私问题。隐私问题可能源于暴露敏感数据的信息，诸如个人标识信息(PII)，该信息可以被单独使用或与其他可公开访问的数据结合使用来标识个人。这样的敏感数据的示例包括个人地址、城市、公交车站、医疗问题等。

继续该示例，隐私监测系统处理文本数据以标识与私人信息相关联的实体。为此，隐私监测系统将机器学习模型应用于文本数据。机器学习模型是指名的实体识别器，其被训练以标识与潜在隐私问题(诸如位置信息、医疗信息等)相关联的实体的特定类别。隐私监测系统生成实体的图模型，标识实体之间的连接以及实体如何相互关联，这用于生成隐私得分，该隐私得分指示由一组非结构化文本数据对私人信息的潜在暴露。根据累积隐私风险，实体之间的连接对隐私得分做出贡献。这可以经由图模型、通过基于不同实体的累积风险对不同实体之间的链接进行加权来被实现——例如，泄露诸如城市和街道的两条位置信息将导致比泄露一条健康信息和一条位置信息(例如，该人患有哮喘并且居住在达拉斯)更多的隐私泄露。因此，图模型中针对相似实体类型之间的链接的权重可以比针对不同实体类型之间的链接的权重更重。

在该示例中，隐私监测系统基于图中的实体以及实体之间的加权链接来计算隐私得分，该隐私得分可用于建议或以其他方式指示将减小敏感数据公开风险的编辑。隐私监测系统将该隐私得分与一个或多个阈值进行比较，以标识文本是否应当被修改，并且标识建议的修改(例如，从评论中移除街道的名称)。由隐私监测系统生成的这样的信息被输出到隐私监测系统以供经由图形界面进行报告。为了便于文本的编辑，隐私监测系统将图形界面更新为包括指示符，该指示符将输入字段内的一组非结构化文本数据(例如，一个或多个实体)的目标部分与输入字段内的一组非结构化文本数据的其他部分区分开。在检测到对目标部分的修改时，隐私监测系统可以重复分析以标识经更新的隐私得分，并且修改或移除建议。因此，系统可以通过在用户录入文本时取回和处理文本来实时标识隐私问题，以即时生成和提供建议，该建议可以用于帮助产生文本内容(例如，在线帖子)具有经减少的私人信息或其他敏感数据的暴露。

如本文所述，某些实施例通过解决特定于在线内容编辑工具的问题来提供对计算环境的改进。这些改进包括在编辑工具中提供实时反馈，该实时反馈在敏感数据被公布到因特网之前向用户警报敏感数据的潜在公开。在线计算环境对这种类型的敏感数据暴露造成独特风险，因为因特网或其他数据网络允许向大量接收者近乎即时的传输和公布，而在线内容编辑工具提供的效用(例如，经由单个按钮的单击的公布)增加了该公布和传输可能意外发生的风险。此外，经由因特网可获得的各种信息限制了用户准确确定在线论坛上发布的任何给定数据片段是否可以与其他公开可用数据结合来标识用户的能力。因为这些问题是特定于计算环境的，所以本文描述的实施例利用机器学习模型和其他自动化模型，它们独特地适于减轻经由因特网或其他数据网络无意传播用户数据的风险。例如，计算系统有时以实时方式将特定类型的各种规则(例如，在一个或多个模型中捕获的各种函数)自动应用于被录入到用户界面中的文本。这些规则可以更有效地检测敏感数据的潜在公开，至少因为系统使用大型语料库的信息被训练，来标识和量化文本中不同级别的敏感私人信息(无论是单独还是与之前的帖子相关地进行)，而不是依赖于发布内容的用户的主观判断。

附加地或备选地，某些实施例提供了对现有软件工具的改进，以用于安全地创建在线内容。例如，现有的软件工具要求使用在计算机上执行的编辑工具的用户来主观确定与将某些数据录入到在线编辑工具中相关联的风险的级别。依赖于这些主观确定可能降低用于创建在线内容的编辑工具的效用。本文描述的实施例可以支持用于创建在线内容的自动化过程，该过程避免了这样的对用户进行的主观、手动确定的依赖。例如，机器学习模型与用户界面的结构特征(例如，用于减小暴露风险的建议或潜在编辑的其他指示符)的结合改进了在线编辑工具的功能性。这些特征可以减少在现有内容编辑工具中防止敏感数据的公开所涉及的手动、主观工作。

如本文所使用的，术语“私人信息”用于指代可以用于标识个人的信息或关于该个人的敏感信息。例如，私人信息可以包括直接标识个人的信息，诸如姓名、地址或社会保障信息，以及间接标识个人的信息，诸如种族、年龄和居住地区。关于个人的某些信息类别也是私人的，诸如医疗状况和就业信息。

如本文所使用的，术语“实体”用于指代与定义的信息类别或类型相对应的字词或短语。实体可以是专有名词(例如，“约翰·史密斯”、“124大街”)。实体也可以是表示所选择的信息类别的短语(例如，“背痛”、“菠萝”、“七个孙子”)。实体可能落入诸如地点、事物、人物、医疗状况等的类别或类型。某些实体与私人信息相关联，诸如位置信息、医疗信息和就业信息。

如本文所使用的，术语“隐私风险”用于指代私人信息的潜在暴露的级别。私人信息越多，私人信息越敏感，隐私风险就越高。隐私风险可以对单个暴露(例如，单个在线帖子)确定或累积(例如，对多个在线帖子)确定。

用于实时隐私泄露预测的操作环境的示例

图1描绘了计算环境100的示例，其中内容编辑工具使用机器学习模型来实时指示用于解决潜在隐私泄露的内容修改。在图1描绘的示例中，用户设备102经由web服务器109发布信息。隐私监测系统110使用内容取回子系统112、自然语言处理(NLP)子系统114、媒体处理子系统116和报告子系统120来评估信息以标识隐私问题。子系统包括使用训练数据126A-126N、使用训练子系统122训练的一个或多个经训练机器学习模型。

隐私监测系统110的各种子系统可以在相同的计算系统或在不同的、独立操作的计算系统中被实现。例如，训练子系统122可以是与NLP子系统114、媒体处理子系统116和评分子系统118分开的实体，或相同的实体。不同的、独立操作的web服务器109可以与隐私监测系统110通信，或者隐私监测系统110可以是与web服务相同的在线服务的一部分。虽然可以使用图1的系统，但其他实施例可以涉及将隐私监测系统110内置到在客户端设备102上执行的软件应用中，例如，作为某种文字处理软件的插件。

计算环境100的一些实施例包括用户设备102。用户设备的示例包括但不限于个人计算机、平板计算机、台式计算机、处理单元、这些设备的任意组合，或具有一个或多个处理器的任何其他适当设备。用户设备102的用户通过经由数据网络与web服务器109和隐私监测系统110交换数据来与图形界面104交互。

用户设备经由数据网络通信地耦合到web服务器109和隐私监测系统110。数据网络的示例包括但不限于因特网、局域网(“LAN”)、无线局域网、有线局域网、广域网等。

图形界面104是能够显示和接收信息的诸如GUI的界面。图形界面104包括用于接收和修改内容(例如，要被在线发布的内容)的内容编辑工具。图形界面104包括用于接收文本数据106的文本字段105。例如，文本字段105是被配置为从用户设备102的用户接收键入的文本数据106的界面元素。备选地或附加地，在一些实施例中，文本字段105被配置为接收系统通过处理语音用户输入(例如，使用语音到文本处理技术)而标识的文本数据。

在一些实施方式中，图形界面104还包括上传元素107，用户可以通过上传元素107上传附加信息，诸如图像或视频。响应于用户对上传元素的选择，图形界面104转换到示出要上传的可用文件的视图，提示用户拍照等。

图形界面104还被配置为：响应于来自隐私监测系统110的信号(直接地或通过web服务器109)显示隐私警报108。例如，隐私警报108包括表征与文本数据106的部分相关联的风险的信息(例如，隐私风险评分、不同颜色标记、警告等)。在一些实施方式中，隐私警报108指示文本数据106的与私人信息的潜在暴露相关联的部分(例如，高亮、以不同颜色打印、具有解释性文本的气泡等)。包括文本字段105、上传元素107和隐私警报108的图形界面104的示例在图3A-图3D中被图示。

在一些实施例中，web服务器109与诸如社交网络、在线商家或允许用户发布信息的各种不同网站的实体相关联。web服务器109包括用于为网站(其可以包括内容编辑工具)提供服务、并且从用户设备102和/或隐私监测系统110接受用于修改网站的输入的功能性。在一些实施方式中，web服务器109是与隐私监测系统110分开的实体或分开的计算设备。备选地，在一些实施方式中，web服务器109是隐私监测系统110的部件。

隐私监测系统110监测经由图形界面104从用户设备102接收的经更新信息，并且分析该信息的隐私风险。在一些实施例中，隐私风险的指示然后通过更新图形界面104来被呈现。隐私监测系统110包括内容取回子系统112、自然语言处理(NLP)子系统114、媒体处理子系统116、评分子系统118、报告子系统120和训练子系统122。在一些实施例中，隐私监测系统还包括或被通信耦合到一个或多个数据存储单元(124A、124B...124N)，用于存储训练数据(训练数据A 126A、训练数据B 126B...训练数据N 126N)。

内容取回子系统112包括被配置为取回用户正在录入到图形界面104中的内容的硬件和/或软件。内容取回子系统112被配置为在非结构化文本数据106被录入到图形界面104的文本字段105中时取回非结构化文本数据106。在一些实施方式中，内容取回子系统112还被配置为取回诸如经由上传元素107上传的图像和视频的媒体。

NLP子系统114包括被配置为执行自然语言处理以标识与隐私风险相关联的实体(例如，某些字词或短语)的硬件和/或软件。在一些实施例中，NLP子系统114应用机器学习模型，该机器学习模型被训练以识别与隐私风险相关联的实体，诸如与健康有关的字词或短语、街道名称、城市名称等。可能与隐私风险相关联的短语的示例包括：

-“对于我们楼上的浴室”-意味着超过1层的家

-“德州夏天”-有助于对用户的位置进行三角测量

-“在附近的咖啡店获取针对隐私的屏幕阅读器”-有助于对用户的位置进行三角测量

-“为我儿子的哮喘购买”-泄漏了健康状况

媒体处理子系统116包括被配置为分析媒体文件以标识实体的硬件和/或软件。媒体处理子系统116被配置为用于处理图像或视频以标识图像本身内的元数据和/或文本。在一些方面，通过分析媒体文件以标识元数据(例如，包括位置信息)来标识实体。备选地或附加地，媒体处理子系统116通过分析图像来标识实体(例如，标识照片中标志上的字词)。

评分子系统118包括被配置为基于由NLP子系统114标识和/或由媒体处理子系统116标识的实体，来生成隐私得分的硬件和/或软件。例如，评分子系统118生成所标识的实体的图。通过考虑分配给实体之间的链接的权重，评分子系统118生成表示作为整体的实体的整体信息暴露的隐私得分。在一些方面，评分子系统进一步标识建议的行动、应当被移除或修改的特定字词等，如本文所描述的。

报告子系统120包括被配置为生成警报并且将其传送给用户的硬件和/或软件，该警报可以包括由评分子系统118生成的隐私得分和其他信息。报告子系统120使得隐私警报108显示到图形界面104。隐私警报108包括图形显示，诸如文本、高亮的文本部分等。备选地或附加地，在一些实施方式中，隐私警报108包括诸如蜂鸣声或语音输出的音频警报。

训练子系统122包括被配置为训练如由NLP子系统114、媒体处理子系统116和/或评分子系统118使用的一个或多个机器学习模型的硬件和/或软件。示例训练过程在下面关于图4被描述。

数据存储单元124A、124B...124N可以被实现为一个或多个数据库或一个或多个数据服务器。数据存储单元124A、124B...124N包括训练数据126A、126B...126N，训练数据126A、126B...126N由训练子系统122和隐私监测系统110的其他引擎使用，如在本文中进一步被详细描述的。

用于实时隐私泄露预测的操作的示例

图2描绘了用于实时更新内容编辑工具的界面以指示将减少私人信息的暴露的潜在编辑的过程200的一个示例。在该示例中，隐私监测系统110经由内容取回子系统112检测向图形界面104的输入。输入在管道中被处理，管道包括NLP子系统114、评分子系统118并且在一些情况下包括媒体处理子系统116。如果输入的一部分造成高于可接受阈值的私人信息暴露的风险，则报告子系统120修改图形界面104以包括隐私警报108，这可以使得用户修改被录入的信息。备选地或附加地，在其他一些实施例中，隐私监测系统可以作为在客户端设备上执行的软件应用的一部分来被执行，其中该软件应用可以执行框202-206、212和214中的一个或多个框。在一些实施例中，一个或多个处理设备通过执行适当的程序代码来实现图2中描绘的操作。出于说明的目的，参考图中描绘的某些示例来描述过程200。然而，其他实施方式也是可能的。

在框202处，内容取回子系统接收被录入到图形界面的输入字段中的一组非结构化文本数据。当用户将文本数据录入到图形界面中时，内容取回子系统检测和标识所录入的文本数据。当用户经由图形界面键入文本时，内容取回子系统将非结构化文本数据例如作为流或以块来取回。内容取回子系统可以直接从用户设备或经由中间web服务器取回一组非结构化文本数据。

处理设备执行内容取回子系统112的程序代码来实现框202。例如，存储在非瞬态计算机可读介质中的针对内容取回子系统112的程序代码由一个或多个处理设备执行。

框204-框210中的一个或多个操作实现用于计算针对文本数据的隐私得分的步骤，隐私得分指示由一组非结构化文本数据对私人信息的潜在暴露。在一些实施方式中，在框204处，内容取回子系统接收与非结构化文本数据相关联的图像或视频。例如，内容取回子系统响应于检测到用户与“上传”按钮交互并且选择存储到用户设备的媒体文件来标识图像或视频。备选地或附加地，用户在经由图形界面提交时捕获图像或视频。

在框206处，媒体处理子系统处理图像或视频文件以标识元数据。在一些实施例中，媒体处理子系统从接收的媒体文件(例如，JPEG、MP4等)中提取元数据。备选地或附加地，媒体处理子系统分析图像或视频数据本身以标识字词。例如，图像包括街道、建筑物或公共汽车站的名称。媒体处理子系统对图片或视频静止图像执行光学字符识别以标识其中的任何字词。元数据和所标识的字词两者可以被隐私监测系统视为用于隐私分析的附加文本数据。

在框208处，NLP子系统使用经训练机器学习模型来处理文本数据以标识与私人信息相关联的多个实体。与隐私风险相关联的实体的类型的示例包括名称、街道和当地地标，诸如学校、博物馆、公交车站等。与隐私风险相关联的实体的其他一些示例包括关于健康状况的信息、关于家庭状况的信息以及关于就业状况的信息。在一些实施方式中，在框206处标识的元数据的至少一个子集被进一步输入到机器学习模型以标识实体。

在一些实施例中，NLP子系统响应于在框202处检测到文本数据的录入来处理数据。在一些实施方式中，在框206处，NLP子系统进一步处理从媒体文件标识的信息。NLP子系统通过至少将经训练机器学习模型应用于输入字段中的一组非结构化文本数据，来标识与私人信息相关联的多个实体。备选地或附加地，在框206处，NLP子系统将经训练机器学习模型应用于所标识的图像元数据和/或从图像标识的字词。

在一些方面，经训练机器学习模型是指名的实体识别器，其已经被训练来标识与隐私风险相关联的某些字词或字词的类别。指名的实体识别器处理文本数据以标识文本数据内的实体，然后利用与所标识的实体有关的信息来标记文本数据。机器学习模型使用诸如下面关于图4描述的那些技术而被训练。在一些实施方式中，机器学习模型是神经网络，诸如递归神经网络(RNN)、卷积神经网络(CNN)或深度神经网络。在一些实施方式中，机器学习模型是集成(ensemble)模型(例如，包括神经网络和另一种类型的模型，诸如基于规则的模型)。

在框210处，评分子系统通过标识实体之间的连接来计算针对文本数据的隐私得分。在一些实施例中，评分子系统生成实体的图模型(也被称为图)，图模型包括实体之间的连接。图的节点是实体，其可以包括在框202处从文本数据标识的实体，以及在框206处从图像元数据或图像本身标识的实体。实体之间的连接根据累积隐私风险来对隐私得分做出贡献。例如，不同实体之间的连接权重不同，以解决一起暴露某些实体的增加风险。作为一个具体示例，街道名称和城市名称一起造成相对较大的累积隐私风险，因为它们可以被一起使用来标识位置，而服用药物和街道名称的组合具有较小的累积隐私风险，因为实体较少相关。然后评分子系统可以根据链接的数目和这些链接的权重来生成隐私得分。因此，在一些实施例中，评分子系统确定实体类型(例如，医疗状况、街道、年龄等)。使用所确定的实体类型，评分子系统将权重分配给图模型中的实体之间的链接，其中隐私得分是根据权重而变化。隐私得分指示由一组非结构化文本数据对私人信息的潜在暴露。

在一些方面，评分子系统确定每个所标识实体的敏感度级别。在一些方面，实体被加权或标记有不同的敏感度类别。例如，根据实体类型，某些实体被分配比其他实体更高的权重。作为一个具体示例，更具体的实体比更一般的实体的权重更重(例如，用户居住的街道名称的权重比用户居住的大陆名称的权重更重)。在一些实施例中，机器学习模型被训练以识别这些敏感度级别(例如，使用所分配的标签)。例如，与医疗、健康和财务信息有关的实体以最高敏感度级别被标记。然后，另一组实体(示例：与人口统计和地理定位有关的实体)可以以中等敏感度级别被标记。

在一些方面，评分子系统基于一个或多个文本录入生成用于用户的个性化图。在一些实施例中，评分子系统生成包括从多个文本录入(例如，多个评论、多个社交媒体帖子等)得出的信息的图。作为示例，在框202处接收的文本是系统实时检测到的产品评论。隐私监测系统被耦合到其他站点(诸如社交媒体)，以标识用户在其他上下文中发布的其他帖子。该信息可以一起被用于生成图。备选地或附加地，评分子系统使用当前文本录入来生成图。该图包括所标识实体的形式的节点和根据实体之间的关系被加权的节点之间的连接。在一些实施例中，根据规则来分配权重。备选地，机器学习用于计算适当的权重。基于连接和它们的权重，评分子系统生成指示敏感信息的整体暴露的得分。

例如，当用户录入评论时，评分子系统创建按敏感度级别分级的经提取实体的个性化图，其产生针对用户评论的得分。当用户返回系统并且开始提交另一个评论时，他们的敏感实体图被增强(使得来自先前评论的实体被链接到新评论)。这样，评论根据它单独揭示的信息以及与先前评论暴露的信息相结合揭示的信息来被评分。

因此，在一些方面，在接收第一组非结构化文本数据之前(例如，在用户进行的先前发布中)，内容取回子系统检测被录入到输入字段中的第二组非结构化文本数据的录入。内容取回子系统响应于检测到录入并且利用自然语言处理子系统，通过至少将经训练机器学习模型应用于输入字段中的第二组非结构化文本数据，来标识与私人信息相关联的第二多个实体。该第二多个实体可以表示用户在先前帖子中录入的相同或不同的实体。例如，用户在9月6日的产品评论中录入了包括实体“大街”、“佐治亚州”和“神经外科医生”的文本。随后，在10月25日，用户录入了包括实体“佐治亚州”、“五楼”和“我公寓楼旁边的餐厅”的另一个评论。评分子系统更新针对该用户的图，并且根据第一多个实体和第二多个实体之间的连接来计算隐私得分。

在一些方面，分配给实体之间的链接的权重随时间降级。例如，相同帖子中实体之间的链接权重更重，并且权重随着时间的推移而降级。作为一个具体示例，当前帖子中的一个实体与当前帖子中另一个实体具有0.7的链接权重，与前一天帖子中另一个实体具有0.5的链接权重，并且与两个月前的帖子具有0.1的链接权重。

在一些方面，评分子系统根据实体之间的加权链接和实体本身的敏感度级别来生成隐私得分。例如，评分子系统使用所生成的图来标识节点以及节点之间的链接，并且使用对应权重来计算隐私得分。作为一个具体示例，可以使用以下函数计算隐私得分：

其中P是隐私得分，W_ei是第i个实体权重，Wlj是第j个链接权重。在一些实施方式中，评分子系统随着附加文本被检测到而持续更新得分。例如，当用户继续键入附加文本时，隐私得分被更新以反映附加的检测到的实体。

在一些方面，隐私得分被评分子系统进一步使用来标识隐私风险级别(例如，安全等级)。例如，评分子系统将所计算的隐私得分与一个或多个阈值进行比较。如果隐私得分低于阈值，则隐私风险级别为“低”；如果隐私得分低于第二阈值，则隐私风险级别为“中等”；并且如果隐私得分等于或大于第二阈值，则隐私风险级别为“高”。

处理设备执行评分子系统118的程序代码以实现框210。在一个示例中，用于评分子系统118的程序代码(其被存储在非瞬态计算机可读介质中)由一个或多个处理设备执行。执行评分子系统118使得处理设备计算隐私得分。

在框212处，报告子系统更新图形界面以包括指示符，该指示符将输入字段内的一组非结构化文本数据的目标部分与输入字段内的一组非结构化文本数据的其他部分区分开。例如，报告子系统通过向用户设备(和/或中间web服务器)传输指令来更新图形界面，从而使用户设备显示经更新的图形界面。例如，报告子系统传输指令，该指令使图形界面被修改以高亮实体、以粗体或其他字体显示实体、在实体周围放置框等。备选地或附加地，报告子系统引起隐私风险级别(例如，安全等级)的指示的显示，诸如颜色代码和/或文本。备选地或附加地，报告子系统传输信号，该信号使图形界面显示解释由经标记的文本数据造成的潜在隐私风险的文本。显示区分文本的目标部分和隐私风险级别的指示符的图形界面视图的示例在图3A-图3D中被图示。在一些实施方式中，报告子系统引起字词云的显示，该字词云描述用户跨可以用于标识用户的帖子而集体公开的所有内容。

在一些实施方式中，如图3A-图3C中所示，当用户输入附加文本数据时，附加字词被高亮并且隐私级别被修改为更高风险级别。因此，当用户修改文本时，隐私监测系统动态地重复步骤202-212以生成经更新的隐私得分，并且显示区分文本的目标部分的经更新的或附加的指示符。

在框214处，对目标部分的修改改变由隐私得分指示的私人信息的潜在暴露。例如，用户与图形界面交互以修改目标部分。内容取回子系统检测对被录入到图形界面的输入字段中的一组非结构化文本数据的修改。响应于检测到修改，自然语言处理子系统通过至少将经训练机器学习模型应用于输入字段中的经修改的一组非结构化文本数据，来标识与私人信息相关联的经修改的多个实体。评分子系统根据经修改的实体来计算针对文本数据的经修改的隐私得分。

例如，在框212处，响应于由隐私监测系统经由图形界面显示的(多个)指示，用户删除或修改文本数据的一部分。作为一个具体示例，用户删除一个已经被高亮显示为潜在隐私风险的短语。因此，评分子系统重新计算隐私得分，此时具有较少的实体和链接，导致隐私得分指示较低的风险级别(例如，较低的隐私得分)。这样的情况的一个示例在图3C和图3D中被图示。

在一些实施例中，隐私监测系统提供内容编辑工具，该内容编辑工具包括供用户提供反馈以控制隐私评分的敏感度的元素。例如，如图3A-图3D中所示，图形界面包括用户可以使用以控制模型的隐私敏感度的滑块(例如，312)。如果隐私敏感度较高，则系统更可能生成隐私警报。例如，如果隐私敏感度级别增加，则用于生成隐私得分的模型被修改，以标识更多实体和/或对实体以及对实体之间的链接进行更重的加权。对于较低的隐私敏感度级别，某些实体不被标识为有风险和/或权重不那么重。在一些方面，隐私监测系统响应于检测到对这样的隐私敏感度修改元素的改变而重新执行框202-210处的操作，这可以导致经修改的隐私得分。

基于经更新的隐私得分，报告子系统更新图形界面。例如，报告子系统将图形界面更新为包括更少的区分文本数据的目标部分的指示符。备选地或附加地，报告子系统将图形界面更新为指示新的隐私得分或隐私风险级别。

具有隐私警报的示例图形用户界面

图3A-图3D描绘了根据本公开的某些实施例的图形界面视图300-370的示例。在一些方面，图形界面104包括具有编辑模式的在线内容编辑工具，在编辑模式中用户可以创建帖子(例如，产品评论、注释等)。在线工具还包括“公布”模式，其中评论对其他用户可用(并且原始用户可能无法对其进行编辑)。当文本经由图形界面104被输入时，上面关于图2描述的文本的分析被触发。所得隐私得分被用来经由如图形界面视图300-370中所示的图形界面104显示对隐私风险的指示。

图3A图示了图形界面视图300的示例。图形界面视图300包括用户已经在其中录入文本304的文本录入字段302。图形界面视图300还包括照片上传元素308(被标记为“添加照片”)和视频上传元素306(被标记为“添加视频”)。当用户将文本304录入到文本录入字段302时，隐私监测系统实时生成隐私得分，如上文关于图2所描述的。在图3A所示的示例中，隐私得分被隐私监测系统使用来标识隐私风险级别。在该情况下，有一个短语被高亮为潜在隐私风险310-“我的背痛”。隐私监测系统使该文本被高亮以显示用户可能希望移除或修改的用户内容。由于文本304中只有一个风险短语，因此隐私风险级别314相对较低。这通过以绿色显示“智能计量表”来被指示，带有文本“大部分安全的评论内容”。在一些实施例中，图形界面视图300还包括用于接受用户反馈以控制隐私评分的敏感度的滑块312。经由滑块312，用户可以修改由隐私监测系统使用来生成隐私得分并且确定是否显示警报的隐私敏感度级别。滑块312可以以一些默认隐私敏感度级别(例如，中等)开始，其可以经由用户输入来被调整。

图3B图示了经更新的图形界面视图330的一个示例。图形界面视图330包括用户已经在其中录入文本334的文本录入字段332。图形界面视图330还包括照片上传元素338(被标记为“添加照片”)和视频上传元素336(被标记为“添加视频”)。当用户将文本334录入到文本录入字段332时，隐私监测系统更新隐私得分。当用户继续录入文本时，系统实时更新隐私得分，如上文关于图2所描述的。在图3B所示的示例中，文本334包括被高亮为潜在隐私风险340的四个短语-“我的背痛”、“妻子和孙子”、“佛罗里达”和“软件工程师”。随着更多潜在隐私风险的短语的添加，隐私风险级别344已经增加到中等级别。这通过以橙色显示“智能计量表”来被指示，带有文本“一些可能不宜泄露的内容”。图形界面视图330还包括用于接受用户反馈以控制隐私评分的敏感度的滑块342。在该情况下，所选择的隐私敏感度为高，与隐私敏感度为中或低的情况(在该情况下可以使用某些短语而不会触发隐私警告)相比，这将导致更多的字词被高亮和更高的隐私风险级别344。

图3C图示了另一个经更新的图形界面视图350的示例。图形界面视图350包括用户已经在其中录入文本354的文本录入字段352。图形界面视图350还包括照片上传元素358(被标记为“添加照片”)和视频上传元素356(被标记为“添加视频”)。当用户将文本354录入到文本录入字段352时，隐私监测系统实时更新隐私得分，如上文关于图2所描述的。在图3C所示的示例中，有五个短语被高亮为潜在隐私风险360-“我的背痛”、“妻子和孙子、“佛罗里达”、“软件工程师”，以及“街边的咖啡店”。随着另一个潜在隐私风险的短语的添加，隐私风险级别364已经增加到相对较高的级别。这通过以红色显示“智能计量表”来被指示，带有文本“几个不宜泄露的内容片段”来指示。图形界面视图350还包括用于接受用户反馈以控制隐私评分的敏感度的滑块362。经由滑块362，用户可以修改由隐私监测系统使用来生成隐私得分并且确定是否显示警报的隐私敏感度级别。

图3D图示了另一个经更新的图形界面视图370的示例。图形界面视图370包括用户已经在其中录入文本374的文本录入字段372。图形界面视图370还包括照片上传元素378(被标记为“添加照片)和视频上传元素376(被标记为“添加视频”)。

在图3D所示的示例中，响应于图3C中所示的高隐私风险级别364，用户已经移除文本(包括“软件工程师”)。因此，隐私监测系统已经基于经更新的文本374重新计算了隐私得分，产生降低的隐私风险级别384，其在图形界面视图370中被显示。在图3D所示的示例中，有四个短语被高亮为潜在隐私风险380-“我的背痛”、“妻子和孙子”、“佛罗里达”和“街边的咖啡店”。随着潜在隐私风险的短语的移除，隐私风险级别384已经降回至中等级别。这通过以橙色显示“智能计量表”来被指示，带有文本“一些可能不宜泄露的内容”。图形界面视图370还包括用于接受用户反馈以控制隐私评分的敏感度的滑块382。经由滑块382，用户可以修改由隐私监测系统使用来生成隐私得分并且确定是否显示警报的隐私敏感度级别。

用于训练机器学习模型的操作的示例

图4描绘了根据某些实施例的用于训练如在图2的过程中使用的机器学习模型的过程400的示例。在该示例中，隐私监测系统110的训练子系统122从多个数据库(例如，数据存储单元124A、数据存储单元124B等)中取回训练数据。训练子系统122训练机器学习模型，以识别与隐私风险相关联的不同类型的实体，并且该机器学习模型可以在图2的框208处被使用以标识与私人信息相关联的实体。在一些实施例中，一个或多个处理设备通过执行适当的程序代码来实现图4中描绘的操作。出于说明的目的，参考图中描绘的某些示例来描述过程400。然而，其他实施方式也是可能的。

在框402处，训练子系统从第一数据库取回针对与隐私风险相关联的第一实体类型的第一训练数据。例如，数据存储单元124A存储电子邮件地址的列表。可以从特定数据库取回的实体的类型的其他一些示例包括健康状况(例如，从健康建议网站取回)、人的名字、国家的名称、街道的名称、地址等。

在框404处，训练子系统从第二数据库接收针对与隐私风险相关联的第二实体类型的第二训练数据。训练子系统可以以与在框402处接收第一训练数据基本类似的方式接收第二训练数据。然而，在一些情况下，第二训练数据与不同的实体类型相关联并且来自不同的数据库(例如，第一训练数据是来自医疗网站的医疗状况的列表，第二训练数据是来自在线目录的电子邮件地址的列表)。

在框406处，训练子系统将第一训练数据和第二训练数据与针对第一实体类型和第二实体类型的标签相关联。在一些实施例中，训练子系统根据整体数据集的指名的实体类型(例如，“电子邮件地址”、“雇主”、“附近地标等”)来标注第一训练数据。在一些情况下，训练子系统根据针对相应数据集的另一个指名的实体类型来标注第二训练数据。

在一些方面，训练子系统标识已经按特定实体类型(诸如姓名、电子邮件地址、街道、医疗状况等)分组的数据集。在一些实施例中，训练子系统自动将该数据集中的每个元素与将数据元素标识为相应类型的标签相关联。以该方式，标签已经与数据集中的实体类型相关联，并且不需要单独分析和标注每个实体(这是耗时的过程，通常用于生成训练数据)。

在一些方面，所准备的(curated)一组实体以不同的敏感度级别被标注。与医疗、健康和财务信息有关的实体以最高的敏感度级别被标注。然后，另一组实体(示例：与人口统计和地理定位有关的实体)可以以中等敏感度级别被标注。该实体标注可以以粗的高、中、低或以更精细的等级级别来完成。

在框408处，训练子系统使用第一训练数据和第二训练数据来训练机器学习模型(例如，神经网络)，以标识第一实体类型和第二实体类型。在一些实施方式中，机器学习模型使用反向传播来被训练。例如，机器学习模型接收训练数据作为输入并且输出预测结果。该结果与分配给该训练数据的标签进行比较。在一些实施方式中，该比较通过基于输入和预测结果确定梯度来被执行(例如，通过计算和最小化表示预测结果和实际标签值之间的误差的损失值来使损失函数最小化)。然后，所计算的梯度被使用以更新机器学习模型的参数。

备选地或附加地，训练子系统训练模型来识别与私人信息相关联的格式。例如，模型被训练以将____@____.com和____@____.org识别为电子邮件地址，并且将____St.和____Ave.识别为街道名称。

在一些方面，机器学习模型在不同敏感度程度的文本的所准备的数据集上被训练。例如，与个人财务信息、医疗和健康有关信息有关的文本的所准备的数据集将被归类为最高敏感度级别。然后，这些敏感文本数据集将被使用，来训练模型以检测这些所准备的集中突出的实体。反映不同敏感度程度的所准备的一组指名的实体单独或与其他实体组合地被使用，来训练模型以检测其使用并且对由用户提供的评论的敏感度进行评分。

处理设备执行训练子系统122的程序代码来实现框402-408。例如，存储在非瞬态计算机可读介质中的针对训练子系统122的程序代码由一个或多个处理设备执行。执行训练子系统122的代码使得处理设备访问来自相同非瞬态计算机可读介质或不同非瞬态计算机可读介质的训练数据126A-126N。在一些实施例中，访问训练数据涉及经由数据总线在本地非瞬态计算机可读介质和处理设备之间传输适当的信号。在附加或备选实施例中，访问训练数据涉及经由数据网络在包括非瞬态计算机可读介质的计算系统和包括处理设备的计算系统之间传输适当的信号。

用于实时隐私泄露预测的计算系统的示例

任何适当的计算系统或计算系统组可以被用来执行本文描述的操作。例如，图5描绘了执行评分子系统118的计算系统500的示例。在一些实施例中，计算系统500还执行如图1中描绘的内容取回子系统112、NLP子系统114、媒体处理子系统116、报告子系统120和/或训练子系统122。在其他一些实施例中，具有类似于图5中描绘的那些设备(例如，处理器、存储器等)的分开的计算系统执行子系统112-122中的一个或多个子系统。

计算系统500的描绘示例包括通信地耦合到一个或多个存储器设备504的处理器502。处理器502执行存储在存储器设备504中的计算机可执行程序代码，访问存储在存储器设备504中的信息，或两者。处理器502的示例包括微处理器、专用集成电路(“ASIC”)、现场可编程门阵列(“FPGA”)或任何其他适当的处理设备。处理器502可以包括任何数目的处理设备，包括单个处理设备。

存储器设备504包括用于存储数据、程序代码或两者的任何适当的非瞬态计算机可读介质。计算机可读介质可以包括能够为处理器提供计算机可读指令或其他程序代码的任何电子、光学、磁性或其他存储设备。计算机可读介质的非限制性示例包括磁盘、存储器芯片、ROM、RAM、ASIC、光学存储、磁带或其他磁性存储，或者处理设备可以从中读取指令的任何其他介质。指令可以包括由编译器或解释器从以任何适当的计算机编程语言编写的代码生成的处理器特定指令，计算机编程语言包括例如C、C++、C#、Visual Basic、Java、Python、Perl、JavaScript和ActionScript。

计算系统500还可以包括多个外部或内部设备，诸如输入或输出设备。例如，计算系统500被示为具有一个或多个输入/输出(“I/O”)接口508。I/O接口508可以从输入设备接收输入或向输出设备提供输出。一个或多个总线506也被包括在计算系统500中。总线506将计算系统500中的相应一个计算系统的一个或多个组件通信耦合。

计算系统500执行程序代码，该程序代码将处理器502配置成执行本文描述的操作中的一个或多个操作。例如，程序代码包括内容取回子系统112、NLP子系统114或执行本文描述的一个或多个操作的其他适当应用。程序代码可以驻留在存储器设备504或任何适当的计算机可读介质中，并且可以由处理器502或任何其他适当的处理器执行。在一些实施例中，内容取回子系统112和NLP子系统114两者被存储在存储器设备504中，如图5中所描绘的。在附加或备选实施例中，内容取回子系统112和NLP子系统114中的一个或多个被存储在不同计算系统的不同存储器设备中。在附加或备选实施例中，上述程序代码被存储在经由数据网络可访问的一个或多个其他存储器设备中。

计算系统500可以以任何适当的方式访问训练数据A 126A、训练数据B 126B和训练数据N 126N中的一个或多个训练数据。在一些实施例中，这些数据集、模型和函数中的一个或多个中的一些或全部被存储在存储器设备504中，如在图5中描绘的示例中那样。例如，执行训练子系统122的计算系统500可以访问由外部系统存储的训练数据A 126A。

在附加或备选实施例中，这些数据集、模型和功能中的一个或多个被存储在相同存储器设备(例如，存储器设备504中的一个存储器设备)中。例如，常见计算系统(诸如图1中描绘的隐私监测系统110)可以托管内容取回子系统112和评分子系统118以及训练数据126A。在附加或备选实施例中，本文描述的程序、数据集、模型和函数中的一个或多个被存储在经由数据网络可访问的一个或多个其他存储器设备中。

计算系统500还包括网络接口设备510。网络接口设备510包括适于建立到一个或多个数据网络的有线或无线数据连接的任何设备或设备组。网络接口设备510的非限制性示例包括以太网网络适配器、调制解调器等。计算系统500能够使用网络接口设备510，经由数据网络与一个或多个其他计算设备(例如，执行图1中描绘的图形界面104的计算设备)通信。

在一些实施例中，由计算设备500提供的功能可以经由基于云的服务来被提供，基于云的服务通过由云服务提供商提供的云基础设施600来被提供。例如，图6描绘了提供一个或多个服务的云基础设施600的示例，一个或多个服务包括提供如本公开中描述的虚拟对象功能的服务。这样的服务可以由跨网络608使用用户设备610A、用户设备610B和用户设备610C的多个用户订阅者订阅和使用。该服务可以在软件即服务(SaaS)模型下被提供。一个或多个用户可以订阅这样的服务。

在图6描绘的实施例中，云基础设施600包括一个或多个服务器计算机602，其被配置为执行用于提供由云服务提供商提供的一个或多个服务的处理。服务器计算机602中的一个或多个服务器计算机可以实现如图1中描绘的内容取回子系统112、NLP子系统114、媒体处理子系统116、评分子系统118、报告子系统120和/或训练子系统122。子系统112-122可以仅使用软件(例如，云基础设施600提供的一个或多个处理器可执行的代码、程序或指令)、以硬件或以其组合来被实现。例如，服务器计算机602中的一个或多个服务器计算机可以执行软件，以实现由子系统112-122提供的服务和功能，其中软件在由服务器计算机602的一个或多个处理器执行时，使得服务和功能被提供。

代码、程序或指令可以被存储在任何适当的非瞬态计算机可读介质上，诸如任何电子、光学、磁性或能够为处理器提供计算机可读指令或其他程序代码的其他存储设备。计算机可读介质的非限制性示例包括磁盘、存储器芯片、ROM、RAM、ASIC、光学存储、磁带或其他磁性存储，或处理设备可以从中读取指令的任何其他介质。指令可以包括由编译器或解释器从以任何适当的计算机编程语言编写的代码生成的处理器特定指令，计算机编程语言包括例如C、C++、C#、Visual Basic、Java、Python、Perl、JavaScript和ActionScript。在各种示例中，服务器计算机602可以包括易失性存储器、非易失性存储器或其组合。

在图6描绘的实施例中，云基础设施600还包括网络接口设备606，网络接口设备606使能去往和来自云基础设施600的通信。在某些实施例中，网络接口设备606包括适于建立到网络608的有线或无线数据连接的任何设备或设备组。网络接口设备606的非限制性示例包括以太网网络适配器、调制解调器等。云基础设施600能够使用网络接口设备606，经由网络608与用户设备610A、用户设备610B和用户设备610C通信。

图形界面(例如，图1中描绘的图形界面104)可以在用户设备A 610A、用户设备B610B和用户设备C 610C中的每个用户设备上被显示。用户设备610A的用户可以与显示的图形界面交互，例如，以输入文本数据和上传媒体文件。作为响应，用于标识和显示隐私警报的处理可以由服务器计算机602执行。响应于这些警报，用户可以再次与图形界面交互以编辑文本数据来解决任何隐私担忧。

一般考虑

本文阐述了许多具体细节以提供对所要求保护的主题的透彻理解。然而，本领域技术人员应当理解，可以在没有这些具体细节的情况下实践所要求保护的主题。在其他情况下，没有详细描述本领域技术人员已知的方法、装置或系统，以免混淆所要求保护的主题。

除非另外特别说明，否则应当理解，贯穿本说明书中，利用诸如“处理”、“计算(compute)”、“计算(calculate)”、“确定”和“标识”等术语的讨论指代计算设备的行动或过程，计算设备诸如是一个或多个计算机或一个或多个类似的电子计算设备，其在计算平台的存储器、寄存器或其他信息存储设备、传输设备或显示设备内操纵或转换被表示为物理电子或磁量的数据。

本文讨论的一个或多个系统不限于任何特定的硬件架构或配置。计算设备可以包括提供以一个或多个输入为条件的结果的任何适当的组件布置。适当的计算设备包括访问存储软件的多用途基于微处理器的计算机系统，该存储软件将计算系统从通用计算装置编程或配置为实现本主题的一个或多个实施例的专用计算装置。可以使用任何适当的编程、脚本或其他类型的语言或语言的组合，来在要被用于编程或配置计算设备的软件中实现本文包含的教导。

本文公开的方法的实施例可以在这样的计算设备的操作中被执行。上述示例中呈现的框的顺序可以变化-例如，框可以被重新排序、组合和/或分解成子块。某些块或过程可以被并行执行。

本文对“适于”或“配置成”的使用意指开放和包容性语言，其不排除适于或被配置为执行附加任务或步骤的设备。此外，“基于”的使用意指是开放和包容性的，因为“基于”一个或多个陈述的条件或值的过程、步骤、计算或其他行动，实际上可能是基于那些陈述的条件或值之外的附加条件或值。本文包括的标题、列表和编号仅是为了便于解释，并不意味着限制。

虽然已经关于本主题的具体实施例详细描述了本主题，但是应当理解，本领域技术人员在获得对前述内容的理解之后，可以容易地产生这样的实施例的改变、变型和等价物。因此，应当理解，本公开是出于示例而不是限制的目的而被呈现，并且不排除对本主题的这样的修改、变型和/或添加的包括，如对于本领域技术人员而言将是明显的。

Claims

1.一种计算机实现的方法，包括：

由内容取回子系统检测被录入到图形界面的输入字段中的一组非结构化文本数据的录入；

响应于检测到所述录入并且利用自然语言处理子系统，通过至少将经训练机器学习模型应用于所述输入字段中的所述一组非结构化文本数据，来标识与私人信息相关联的多个实体；

由评分子系统通过标识所述实体之间的连接来计算针对所述文本数据的隐私得分，所述实体之间的所述连接根据累积隐私风险对所述隐私得分做出贡献，所述隐私得分指示由所述一组非结构化文本数据对所述私人信息的潜在暴露；以及

由报告子系统将所述图形界面更新为包括指示符，所述指示符将所述输入字段内的所述一组非结构化文本数据的目标部分与所述输入字段内的所述一组非结构化文本数据的其他部分区分开，其中对所述目标部分的修改改变由所述隐私得分指示的所述私人信息的所述潜在暴露。

2.根据权利要求1所述的方法，还包括：

由所述内容取回子系统检测对被录入到所述图形界面的所述输入字段中的所述一组非结构化文本数据的修改；

响应于检测到所述修改并且利用所述自然语言处理子系统，通过至少将所述经训练机器学习模型应用于所述输入字段中的经修改的所述文本数据，来标识与私人信息相关联的经修改的多个实体；

由所述评分子系统基于经修改的所述实体，来计算针对所述文本数据的经修改的隐私得分；以及

由报告子系统基于所述经修改的隐私得分来更新所述图形界面。

3.根据权利要求1所述的方法，还包括：

由所述内容取回子系统接收与所述非结构化文本数据相关联的图像或视频；以及

由媒体处理子系统处理所述图像或所述视频，以标识元数据，

其中所标识的所述元数据的至少一个子集被进一步输入到所述机器学习模型，以标识所述实体。

4.根据权利要求1所述的方法，其中所述一组非结构化文本数据是第一组非结构化文本数据并且所述多个实体是第一多个实体，所述方法还包括：

在接收所述第一组非结构化文本数据之前：

由所述内容取回子系统检测被录入到所述输入字段中的第二组非结构化文本数据的录入；以及

响应于检测到所述录入并且利用所述自然语言处理子系统，通过至少将所述经训练机器学习模型应用于所述输入字段中的所述第二组非结构化文本数据，来标识与所述私人信息相关联的第二多个实体，

其中所述评分子系统基于所述第一多个实体和所述第二多个实体之间的连接，来计算所述隐私得分。

5.根据权利要求1所述的方法，其中经更新的所述图形界面还显示所述隐私得分的指示。

6.根据权利要求1所述的方法，其中所述机器学习模型包括神经网络，所述方法还包括通过以下来训练所述神经网络：

由训练子系统从第一数据库取回针对与隐私风险相关联的第一实体类型的第一训练数据；

由所述训练子系统从第二数据库取回针对与隐私风险相关联的第二实体类型的第二训练数据；以及

由所述训练子系统使用所述第一训练数据和所述第二训练数据来训练所述神经网络，以标识所述第一实体类型和所述第二实体类型。

7.根据权利要求1所述的方法，还包括：

由所述自然语言处理子系统确定针对所标识的所述实体的实体类型；以及

基于所确定的所述实体类型，由所述评分子系统向图模型中的实体之间的链接分配权重，其中所述隐私得分基于所述权重。

8.一种计算系统，包括：

内容取回子系统，被配置为：检测向图形界面的输入字段中的非结构化文本数据的录入；

自然语言处理子系统，被配置为：通过至少将经训练机器学习模型应用于非结构化文本数据，来标识与私人信息相关联的多个实体；

评分子系统，被配置为：通过将图模型应用于所述多个实体来标识所述实体之间的连接，来计算针对所述文本数据的隐私得分，所述实体之间的所述连接根据累积隐私风险对所述隐私得分做出贡献，所述隐私得分指示由所述非结构化文本数据对所述私人信息的潜在暴露；以及

报告子系统，被配置为：将所述图形界面更新为包括指示符，所述指示符将所述输入字段内的所述非结构化文本数据的目标部分与所述输入字段内的所述非结构化文本数据的其他部分区分开，所述目标部分引起由所述隐私得分指示的所述私人信息的所述潜在暴露。

9.根据权利要求8所述的计算系统，其中：

所述内容取回子系统还被配置为：检测对被录入到所述图形界面的所述输入字段中的文本数据的修改；

所述自然语言处理子系统还被配置为：响应于检测到所述修改，通过至少将所述经训练机器学习模型应用于所述输入字段中的经修改的所述文本数据，来标识与私人信息相关联的经修改的多个实体；

所述评分子系统还被配置为：基于经修改的所述实体，来计算针对所述文本数据的经修改的隐私得分；并且

所述报告子系统还被配置为：基于经修改的所述隐私得分，来更新所述图形界面。

10.根据权利要求8所述的计算系统，

其中所述内容取回子系统还被配置为：接收与所述非结构化文本数据相关联的图像或视频；

还包括媒体处理子系统，其被配置为用于处理所述图像或所述视频以标识元数据，

其中所标识的所述元数据的至少一个子集进一步被用于标识所述实体。

11.根据权利要求8所述的计算系统，其中：

所述文本数据是第一组非结构化文本数据并且所述多个实体是第一多个实体，

所述内容取回子系统还被配置为：在接收所述第一组非结构化文本数据之前，接收第二组非结构化文本数据；

所述自然语言处理子系统还被配置为：使用所述经训练机器学习模型来处理所述第二组非结构化文本数据，以标识与所述私人信息相关联的第二多个实体；以及

所述隐私得分是基于所述第一多个实体和所述第二多个实体之间的连接而被计算的。

12.根据权利要求8所述的计算系统，其中经更新的所述图形界面还显示所述隐私得分的指示。

13.根据权利要求8所述的计算系统，其中：

所述机器学习模型包括神经网络；并且

所述计算系统还包括训练子系统，其被配置为通过以下来训练所述神经网络：

从第一数据库取回针对与隐私风险相关联的第一实体类型的第一训练数据；

从第二数据库取回针对与隐私风险相关联的第二实体类型的第二训练数据；以及

使用所述第一训练数据和所述第二训练数据来训练所述神经网络，以标识所述第一实体类型和所述第二实体类型。

14.根据权利要求8所述的计算系统，其中所述隐私得分通过以下来计算：

确定针对所标识的所述实体的实体类型；以及

基于所确定的所述实体类型，向图模型中的实体之间的链接分配权重，其中所述隐私得分基于所述权重。

15.一种非瞬态计算机可读介质，其上存储有指令，所述指令由处理设备可执行，以执行操作，所述操作包括：

检测被录入到图形界面的输入字段中的一组非结构化文本数据的录入；

用于计算针对所述文本数据的隐私得分的步骤，所述隐私得分指示由所述一组非结构化文本数据对私人信息的潜在暴露；以及

基于所述隐私得分来更新指示符，所述指示符将所述输入字段内的所述一组非结构化文本数据的目标部分与所述输入字段内的所述一组非结构化文本数据的其他部分区分开。

16.根据权利要求15所述的非瞬态计算机可读介质，所述操作还包括：

检测对被录入到所述图形界面的所述输入字段中的所述一组非结构化文本数据的修改；

用于计算针对所述文本数据的经修改的隐私得分的步骤；以及

基于所述经修改的隐私得分来更新所述图形界面。

17.根据权利要求15所述的非瞬态计算机可读介质，所述操作还包括：

接收与所述非结构化文本数据相关联的图像或视频；以及

处理所述图像或所述视频以标识元数据，

其中所标识的所述元数据的至少一个子集进一步被用于计算所述隐私得分。

18.根据权利要求15所述的非瞬态计算机可读介质，其中所述一组非结构化文本数据是第一组非结构化文本数据，所述操作还包括：

在接收所述第一组非结构化文本数据之前，检测被录入到所述输入字段中的第二组非结构化文本数据的录入；

其中所述隐私得分是基于所述第一组非结构化文本数据和所述第二组非结构化文本数据而被计算的。

19.根据权利要求15所述的非瞬态计算机可读介质，其中经更新的所述输入字段还显示所述隐私得分的指示。

20.根据权利要求15所述的非瞬态计算机可读介质，其中用于计算所述隐私得分的所述步骤包括使用神经网络来标识对所述隐私得分做出贡献的实体，所述操作还包括通过以下来训练所述神经网络：