CN115280298A - 防止敏感信息的公开 - Google Patents
防止敏感信息的公开 Download PDFInfo
- Publication number
- CN115280298A CN115280298A CN202180020253.3A CN202180020253A CN115280298A CN 115280298 A CN115280298 A CN 115280298A CN 202180020253 A CN202180020253 A CN 202180020253A CN 115280298 A CN115280298 A CN 115280298A
- Authority
- CN
- China
- Prior art keywords
- information
- portions
- computer
- processors
- sensitive information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 claims description 58
- 238000012545 processing Methods 0.000 claims description 25
- 238000004458 analytical method Methods 0.000 claims description 21
- 230000015654 memory Effects 0.000 claims description 19
- 238000000605 extraction Methods 0.000 claims description 18
- 238000004590 computer program Methods 0.000 claims description 14
- 238000003058 natural language processing Methods 0.000 claims description 9
- 238000012015 optical character recognition Methods 0.000 claims description 6
- 239000000284 extract Substances 0.000 abstract description 7
- 238000013459 approach Methods 0.000 abstract description 2
- 230000002265 prevention Effects 0.000 description 61
- 238000010586 diagram Methods 0.000 description 19
- 230000006870 function Effects 0.000 description 13
- 230000008901 benefit Effects 0.000 description 8
- 230000008569 process Effects 0.000 description 8
- 230000005540 biological transmission Effects 0.000 description 5
- 238000007726 management method Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 238000004891 communication Methods 0.000 description 4
- 238000012544 monitoring process Methods 0.000 description 4
- 230000006855 networking Effects 0.000 description 4
- 230000003287 optical effect Effects 0.000 description 4
- 238000012805 post-processing Methods 0.000 description 4
- 230000009471 action Effects 0.000 description 3
- 230000003993 interaction Effects 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- RYGMFSIKBFXOCR-UHFFFAOYSA-N Copper Chemical compound [Cu] RYGMFSIKBFXOCR-UHFFFAOYSA-N 0.000 description 2
- 229910052802 copper Inorganic materials 0.000 description 2
- 239000010949 copper Substances 0.000 description 2
- 239000004744 fabric Substances 0.000 description 2
- 239000000835 fiber Substances 0.000 description 2
- 230000006872 improvement Effects 0.000 description 2
- 238000010801 machine learning Methods 0.000 description 2
- 230000001902 propagating effect Effects 0.000 description 2
- 239000004065 semiconductor Substances 0.000 description 2
- 238000012384 transportation and delivery Methods 0.000 description 2
- 239000000872 buffer Substances 0.000 description 1
- 230000009172 bursting Effects 0.000 description 1
- 230000001413 cellular effect Effects 0.000 description 1
- 238000010168 coupling process Methods 0.000 description 1
- 238000005859 coupling reaction Methods 0.000 description 1
- 238000007405 data analysis Methods 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000013075 data extraction Methods 0.000 description 1
- 238000012217 deletion Methods 0.000 description 1
- 230000037430 deletion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000003384 imaging method Methods 0.000 description 1
- 230000010365 information processing Effects 0.000 description 1
- 230000010354 integration Effects 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000002093 peripheral effect Effects 0.000 description 1
- 238000013439 planning Methods 0.000 description 1
- 238000013468 resource allocation Methods 0.000 description 1
- 230000004044 response Effects 0.000 description 1
- 230000003068 static effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/26—Government or public services
- G06Q50/265—Personal security, identity or safety
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/20—Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
- G06F16/28—Databases characterised by their database models, e.g. relational or object models
- G06F16/284—Relational databases
- G06F16/285—Clustering or classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/40—Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
- G06F16/43—Querying
- G06F16/435—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6227—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database where protection concerns the structure of data, e.g. records, types, queries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F21/00—Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
- G06F21/60—Protecting data
- G06F21/62—Protecting access to data via a platform, e.g. using keys or access control rules
- G06F21/6218—Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
- G06F21/6245—Protecting personal data, e.g. for financial or medical purposes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/01—Social networking
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Databases & Information Systems (AREA)
- Tourism & Hospitality (AREA)
- Marketing (AREA)
- Economics (AREA)
- General Business, Economics & Management (AREA)
- Computer Security & Cryptography (AREA)
- Strategic Management (AREA)
- General Engineering & Computer Science (AREA)
- Primary Health Care (AREA)
- Human Resources & Organizations (AREA)
- Bioethics (AREA)
- Data Mining & Analysis (AREA)
- Educational Administration (AREA)
- Development Economics (AREA)
- Computer Hardware Design (AREA)
- Software Systems (AREA)
- Computing Systems (AREA)
- Medical Informatics (AREA)
- Multimedia (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
- Storage Device Security (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
在一种方法中,处理器提供多个定义的敏感信息类别。对于与实体相关联的每个帖子,处理器提取一个或多个信息部分。处理器确定与该一个或多个信息部分中的每一个相关的一个或多个类别。处理器分析与类别相应的信息部分以组合确定的与类别相关的相应信息部分,从而确定相应信息部分的组合是否公开敏感信息。
Description
技术领域
本发明涉及防止公开敏感信息,更具体地,涉及防止公开来自多个部分来源的敏感信息。
背景技术
许多人都有社交媒体或其他在线帐户,他(她)们可以在其中发布信息。这些帖子可包括:文本、位置、和图片,其可包含完整的或不完整的个人或敏感数据,例如,位置地址、电话号码、汽车登记等。
虽然通常能够调整关于谁能够查看发布或以其他方式包括在这样的账户中的信息的隐私限制,并且因此能够限制谁能够看到该数据,但是许多人使其账户向公众开放。此外,所述信息可用于社交媒体提供商,所述社交媒体提供者可将此信息用于营销或其他目的。
发布信息的人可能没有意识到他们在单个账户中或多个账户上提供的信息的组合。
现有系统将“确定帖子内的文本是否包括指示第一用户的个人信息的预先识别的文本模式,用多个引用标识符替换任何已识别的个人信息,并且使用包括多个引用标识符的帖子将文本发布到互联网”的现有系统。(Bastide等人,美国专利申请公开号2013/0326020A1)。然而,这样的系统没有考虑到可以通过查看一组多个帖子而完全展现的部分数据。
因此,在本领域中需要解决上述问题。
发明内容
从第一方面来看,本发明提供了一种用于防止敏感信息的公开的计算机实现的方法,包括:由一个或多个处理器提供多个定义的敏感信息类别;针对与实体相关联的每个帖子,由一个或多个处理器提取一个或多个信息部分;由一个或多个处理器确定与所述一个或多个信息部分中的每个相关的一个或多个类别;以及由一个或多个处理器分析类别的相应信息部分,用于组合被确定为与所述类别相关的所述相应信息部分,以确定所述相应信息部分的组合是否公开了敏感信息。
从另一方面来看,本发明提供了一种用于防止敏感信息公开的计算机实现的方法,包括:由一个或多个处理器访问具有敏感信息类别的存储系统、,存储与每个相应类别相关的信息部分;对于与实体相关联的每个附加帖子,由一个或多个处理器提取附加信息部分并确定与所述附加信息部分相关的一个或多个类别;以及由一个或多个处理器分析第一类别的信息部分以确定与第一类别相关联的附加信息部分是否与现有信息部分组合以提供公开敏感信息的组合。
从另一方面来看,本发明提供了一种用于防止敏感信息的公开的计算机系统,包括:一个或多个计算机处理器、一个或多个计算机可读存储介质、以及共同存储在一个或多个计算机可读存储介质上以供一个或多个计算机处理器中的至少一个执行的程序指令,程序指令包括:用于提供多个定义的敏感信息类别的程序指令;用于对于与实体相关联的每个帖子提取一个或多个信息部分的程序指令;用于确定所述一个或多个信息部分中的每个相关的一个或多个类别的程序指令;以及用于分析类别的相应信息部分以组合被确定为与类别相关的所述相应信息部分以确定所述相应信息部分的所述组合是否公开敏感信息的程序指令。
从另一方面来看,本发明提供了一种用于防止来自多个部分源的敏感信息的公开的计算机程序产品,该计算机程序产品包括计算机可读存储介质,该计算机可读存储介质可由处理电路读取并且存储用于由该处理电路执行以便执行用于执行本发明的步骤的方法的指令。
从另一方面来看,本发明提供一种存储在计算机可读介质上并且可加载到数字计算机的内部存储器中的计算机程序,该计算机程序包括当所述程序在计算机上运行时用于执行本发明的步骤的软件代码部分。
从另一方面来看,本发明提供了一种用于防止敏感信息的公开的计算机程序产品,包括:一个或多个计算机可读存储介质,以及共同存储在所述一个或多个计算机可读存储介质上的程序指令,所述程序指令包括:用于提供多个定义的敏感信息类别的程序指令;用于对于与实体相关联的每个帖子提取一个或多个信息部分的程序指令;用于确定所述一个或多个信息部分中的每个相关的一个或多个类别的程序指令;以及用于分析类别的相应信息部分以组合被确定为与类别相关的所述相应信息部分以确定所述相应信息部分的所述组合是否公开敏感信息的程序指令。
根据本发明的方面,提供了一种用于防止公开敏感信息的计算机实现的方法。处理器提供多个定义的敏感信息类别。对于与实体相关联的每个帖子,处理器提取一个或多个信息部分。处理器确定与该一个或多个信息部分中的每个相关的一个或多个类别。处理器分析类别的相应信息部分以组合被确定为与该类别相关的相应信息部分,从而确定相应信息部分的组合是否公开敏感信息。这提供了在一段时间内标识使用多个发布和平台发布的信息的部分的优点,所述多个发布和平台一起危害实体的敏感信息。
所述方法可包括提供具有多个数据存储区的存储系统的处理器,每个数据存储区对应于定义的类别,其中存储信息部分被存储用于分析、。这提供了将来自多个帖子的数据组织成多个不同类别的优点,使得可以组合部分信息并且可以识别实体的潜在暴露的敏感信息。
该方法可以包括:从在一段时间内经由一个或多个平台源发布的帖子集合中收集用于填充所述数据存储区的信息部分的处理器,所述帖子集合与实体相关联。
该方法可以包括确定相应信息部分的组合是否公开敏感信息可以包括:处理器将相应信息部分的组合与标准集合进行比较,以及处理器评估相应信息部分的组合是否提供用于敏感信息的完整数据集合。
可以发布与实体相关联的第一帖子并且第一帖子可以包括以下组中的一个或多个:文本、图像、视频和音频剪辑。这提供了能够比较不同类型的信息和数据格式而不是仅关注单个数据类型的优点。
提取所述一个或多个信息部分可以包括以下中的一个或多个:文本提取、图像识别、图像抓取、光学字符识别、声音到文本处理、自然语言处理和元数据提取。这提供了能够比较不同类型的信息和数据格式而不是仅关注单个数据类型的优点。
在一个实施例中,所述方法可以包括处理器访问存储系统,所述存储系统具有存储与相应类别相关的信息部分的敏感信息类别。对于与实体相关联的每个帖子,处理器提取一个或多个信息部分并确定与每个信息部分相关的一个或多个类别。处理器分析类别的相应信息部分以确定相应信息部分是否与现有信息部分组合以创建公开敏感信息的组合。
在进一步的实施例中,该方法可以包括:处理器访问存储系统,所述存储系统具有存储与相应类别相关的信息部分的敏感信息类别。处理器分析类别的相应信息部分以确定与现有信息部分组合所需的缺失信息部分以创建公开敏感信息的组合。对于与实体相关联的每个附加帖子,处理器提取一个或多个附加信息部分并且将一个或多个附加信息部分与缺失信息部分进行匹配。
所述方法可包含处理器监视缺失信息部分的帖子。
该方法可以包括提供敏感信息公开的公开通知的处理器。
该方法可以包括:处理器,其基于与实体相关的帖子的内容来定义新类别的敏感信息。
该方法可以进一步包括处理器基于对与潜在敏感信息相关的每个帖子的主题的分析来标记帖子以供分析。
根据本发明的另一方面,提供一种用于防止公开敏感信息的计算机实现的方法。处理器访问具有存储与每个相应类别相关的信息部分的敏感信息类别的存储系统。对于与实体相关联的每个附加帖子,处理器提取附加信息部分并确定与附加信息部分相关的一个或多个类别。处理器分析第一类别的信息部分以确定与第一类别关联的附加信息部分是否与现有信息部分组合以提供公开敏感信息的组合。
根据本发明的另一方面,提供一种用于防止公开敏感信息的系统。一个或多个计算机处理器、一个或多个计算机可读存储介质、以及共同存储在一个或多个计算机可读存储介质上以供一个或多个计算机处理器中的至少一个执行的程序指令包括提供多个定义的敏感信息类别的程序指令。对于与实体相关联的每个帖子,该系统可包括用于提取一个或多个信息部分的程序指令。进一步的程序指令可以确定一个或多个信息部分中的每一个与其相关的一个或多个类别。进一步的程序指令可以分析类别的相应信息部分以组合被确定为与类别相关的相应信息部分,从而确定相应信息部分的组合是否公开敏感信息。这提供了在一段时间内标识使用多个发布和平台发布的信息的部分的优点,所述多个发布和平台共同危及实体的敏感信息。
所述系统还可以包括用于提供具有多个数据存储区的存储系统的程序指令,每个数据存储区对应于定义的类别,其中存储信息部分用于分析。
所述系统还可以包括从在一段时间内经由一个或多个平台源发布的帖子集合中收集用于填充所述数据存储区的信息部分的程序指令,所述帖子集合与所述实体相关联。
该系统还可以包括用于将相应信息部分的组合与标准集合进行比较的程序指令,以及用于评估相应信息部分的组合是否提供用于敏感信息的完整数据集合的程序指令。
该系统还可以包括第一帖子包括文本帖子、图像、视频或音频剪辑。
该系统还可以包括该提取是文本提取、图像识别、图像抓取、光学字符识别、声音到文本处理、自然语言处理、或元数据提取。
所述系统还可以包括访问存储系统的程序指令,所述存储系统具有存储与相应类别相关的信息部分的敏感信息类别。另外,针对与实体相关联的每个帖子,提取一个或多个信息部分并确定与每个信息部分相关的一个或多个类别的程序指令。此外,程序指令用于分析类别的相应信息部分以确定相应信息部分是否与现有信息部分组合以创建公开敏感信息的组合。
所述系统还可以包括访问存储系统的程序指令,所述存储系统具有存储与相应类别相关的信息部分的敏感信息类别。另外,程序指令用于分析类别的相应信息部分以确定与现有信息部分组合以创建公开敏感信息的组合所需的缺失信息部分。此外,程序指令用于:针对与所述实体相关联的每个附加帖子,提取一个或多个附加信息部分并且将所述一个或多个附加信息部分与所述缺失信息部分进行匹配。
所述系统还可以包括用于监视所述缺失信息部分的帖子的程序指令。
该系统还可以包括用于向实体提供敏感信息的公开的通知的程序指令。
该系统还可以包括用于基于与实体相关联的帖子的内容来定义新类别的敏感信息的程序指令。
根据本发明的另一方面,提供一种用于防止公开敏感信息的计算机程序产品。一个或多个计算机可读存储介质,以及共同存储在所述一个或多个计算机可读存储介质上的程序指令包括用于提供多个定义的敏感信息类别的程序指令。对于与实体相关联的每个帖子,该系统可包括用于提取一个或多个信息部分的程序指令。进一步的程序指令可以确定与一个或多个信息部分中的每一个与相关的一个或多个类别。进一步的程序指令可以分析类别的相应信息部分以组合被确定为与类别相关的相应信息部分,从而确定相应信息部分的组合是否公开敏感信息。这提供了在一段时间内标识使用多个发布和平台发布的信息的部分的优点,所述多个发布和平台共同危及实体的敏感信息。
附图说明
在说明书的结论部分中特别指出并明确要求保护被视为本发明的主题。当结合附图阅读时,通过参考以下详细描述,可以最好地理解本发明,关于组织和操作方法,及其目标、特征和优点。
现在将参考以下附图仅通过示例的方式来描述本发明的实施例,其中:
图1是根据本发明的实施例的第一方面的示例实施例的流程图;
图2是根据本发明的实施例的第二方面的示例实施例的流程图;
图3是根据本发明的实施例的第三方面的示例实施例的流程图;
图4是根据本发明的实施例的示意图;
图5是根据本发明实施例的系统的示例实施例的框图;
图6是本发明可以在其中实现的计算机系统或云服务器的实施例的框图;
图7描绘了根据本发明的实施例的云计算环境;以及
图8描绘了根据本发明的实施例的抽象模型层。
应当理解,为了说明的简单和清晰,图中所示的元件不一定按比例绘制。例如,为了清楚起见,一些元件的尺寸可能相对于其他元件被放大。此外,在认为适当的情况下,可以在附图中重复参考标号以指示对应或类似的特征。
具体实施方式
本发明的实施例描述了防止公开由与目标实体(例如,用户)相关联地公开的多个信息部分的组合形成的敏感信息的方法。信息部分可由目标实体或由与目标实体相关联的其他方(诸如社交媒体平台上的连接)跨一个或多个平台(诸如社交媒体平台)公开。
该方法从与目标实体相关联的多个源收集个人或敏感信息的可以在简档信息、帖子、或以其他方式经由一个或多个平台可访问的部分,这样的信息被称为信息部分。可以从不同的平台并且在不同的时间收集信息部分。该方法通过按照敏感信息的类型对信息部分进行分类来分析信息部分,以确定敏感信息是否正在或将要由信息部分的组合公开。例如,用户的第一张照片可以包括门牌号码。该信息可以单独不包含敏感信息,但是当与包括街道标志的用户的第二照片组合时,本发明的实施例认识到可以能够结合该信息来确定用户的位置。
本发明的实施例认识到用户关注个人隐私。本发明的实施例可作为服务提供给用户以帮助保护他们的个人信息并防止他们的个人信息的意外传播。由于本发明的实施例利用从与用户相关联的一个或多个平台(例如,社交媒体平台)提取的信息,可以向用户呈现明确地描述可以收集什么信息(例如,信息类型、信息源),并且可以向用户提供选择加入或选择退出选项以以定制他们的信息将如何被收集和使用。例如,用户可能能够将所收集的信息仅限于来自特定社交网络平台的公共帖子。在另一示例中,用户可以禁用任何数据收集。
参见图1,流程图100示出了所描述的方法的方面的示例实施例。
在步骤101中,敏感信息公开阻止系统420创建具有用于与目标实体相关的敏感数据类型类别的存储区的存储系统。存储系统中的存储区可以是不同类型的敏感数据的数据缓冲器或数据结构。当这些类型变得明显时,敏感数据的类型可以被配置成包括附加类型的敏感数据。目标实体可以是个人或者可以是一组个人,诸如家庭或组织。个人形式的目标实体的敏感数据的类型可包括例如个人地址、当前位置、电话号码、身份号码、汽车拍照等。
在步骤102中,敏感信息公开阻止系统420识别与目标实体相关联的帖子集合,从该帖子集合中收集信息以供分析。该帖子集合可以是历史帖子或跨目标实体具有账户的一个或多个社交媒体平台在与目标实体有关的定义时间段中的帖子。例如,对于社交媒体账户,这可以包括由目标实体作出的或关于目标实体作出的所有帖子。术语“帖子”被定义为涉及与目标实体相关联的任何媒体交互,并且作为示例,包括通过标记或引用目标实体的文本帖子或评论、通过包括或引用目标实体拍摄的图像或视频等。在一些实施例中,目标实体选择关于什么信息应当包括该帖子集合以及从哪里收集该信息以供分析的标准和/或过滤器。
在步骤110中,敏感信息公开防止系统420通过从每个帖子提取信息部分(步骤111)并且为每个信息部分确定一个或多个存储区(步骤112)来处理每个帖子。当提取信息部分时,敏感信息公开防止系统420可以使用一系列技术来从帖子获得信息,包括:文本提取、图像识别、图像抓取、光学字符识别、声音至文本处理、自然语言处理、帖子的元数据提取、以及分析帖子的标题。
对于文本,敏感信息公开阻止系统420可使用自然语言处理来识别关键术语并确定数据是否敏感和敏感数据的类型。例如,敏感信息公开阻止系统420可以处理文本以确定意图是否暗示位置,或者文本的全部或部分是否与例如地址的模式匹配。
对于图像,敏感信息公开防止系统420可使用图像识别来识别帖子内链接到存储区的敏感数据的数据类型的对象。现有的图像识别技术足够复杂,以确定例如具有数字的门指示位置并且因此指示地址。一些社交媒体平台提供可以用于提取信息的自动图像加标签。
对于视频内容,敏感信息公开阻止系统420可使用语音到文本能力来将声音转换成文本,并且敏感信息公开阻止系统420使用自然语言处理来分析文本,类似于上文所描述的。与上述类似,防止敏感信息公开系统420还可以使用图像识别来分析视频的静止图像。
在一个示例中,帖子可以包括由目标实体发布到平台(诸如社交网络)的文本和照片。敏感信息公开防止系统420可使用自然语言处理来处理文本,以具有从文本提取的与敏感信息相关的信息部分,诸如地址部分、可以是身份号码或电话号码的号码等。敏感信息公开防止系统420可使用图像识别来分析图像,以确定图像是否包括可能与敏感信息相关的部分(例如,图像的部分),诸如位置或车辆的文本或图像。
在步骤112中,敏感信息公开防止系统420可以分析提取的信息部分以确定信息部分可以贡献的敏感信息的类型的一个或多个类别。例如,敏感信息公开防止系统420可将包括号码的信息部分添加到身份号码的存储区和电话号码的存储区。在另一示例中,敏感信息公开防止系统420可将含有汽车的图像添加到汽车注册存储区或将门号的图像添加到地址的存储区。
敏感信息公开防止系统420可以将所提取的数据以信息部分的形式添加到所提取的数据可以对应的存储区中。用于确定分类的特定数据可以存储在所有可能的存储区中。
在步骤103中,敏感信息公开防止系统420可分析存储系统中与敏感信息类别有关的每个存储区,以组合已被添加到每个相应存储区的信息部分,以便尝试组合信息并获得敏感信息。例如,地址存储区可以包含用于门牌号、道路和城镇中的每一个的信息部分,当由敏感信息公开防止系统420组合时,所述信息部分提供完整地址。
敏感信息公开防止系统420可使用各种方法来组合信息部分,包括:(i)组合类似形式的信息部分(诸如多张照片提取物),或(ii)组合不同形式的信息部分(诸如照片提取物和文本摘录)。
敏感信息公开防止系统420可使用重叠文本来组合其中执行图案匹配的信息部分,以确定同一组字母是否在多个字符串中重叠。例如,敏感信息公开防止系统420可在不重复重叠字母的情况下组合两个字符串以确定有效信息片段。
敏感信息公开防止系统420可以通过将来自一个或多个存储区的信息的组合与标准集合进行比较以评估组合是否提供敏感信息的完整数据集合来确定组合是否公开敏感信息。
在步骤104中,如果存储存储区包含足以公开敏感信息的组合数据,则敏感信息公开防止系统420提供通知以警告目标实体。响应于该通知,敏感信息公开防止系统420可以提示或以其他方式允许目标实体采取行动以删除一个或多个帖子或者使关键信息模糊。在一些实施例中,敏感信息公开防止系统420主动地防止帖子的上传、使关键信息模糊和/或删除一个或多个帖子(例如,当前帖子、还包括与潜在敏感信息相关的关键信息的先前帖子)。
参见图2,流程图200示出了所描述的方法的进一步方面的举例实施例。
在步骤201中,当实体(例如,用户)正准备发布新帖子时,敏感信息公开防止系统420访问与目标实体相关的敏感数据的类型的类别的信息部分存储区的存储系统,例如,如关于图1描述的方法中创建和填充的。
在步骤202中,敏感信息公开防止系统420通过目标实体或者发布实体(例如,用户的社交网络联系)接收与目标实体相关联的新帖子,以用于在发布帖子之前进行处理。在一个实施例中,敏感信息公开防止系统420或相应平台可以拦截帖子并且提供在用户发布某些内容时发生的检查,使得敏感信息公开防止系统420或相应平台可以建议帖子是否可以包括个人信息或敏感信息。
敏感信息公开防止系统420可以处理帖子以分析帖子的内容。如果从帖子的主题或者标题中指示帖子的内容潜在地与个人事物相关,例如,“我的新家”或者“我爱驾驶我的汽车”,则敏感信息公开防止系统420可另外突出或者标记帖子。
在步骤210中,敏感信息公开防止系统420处理新帖子以从帖子中提取新信息部分(步骤211)并且确定与每个信息部分相关的存储系统的一个或多个存储区(步骤212)。敏感信息公开防止系统420可以与图1的步骤110中描述的类似地执行处理。存储系统的存储区可以已经填充有来自与目标实体相关联的先前帖子的信息部分。
在步骤203中,敏感信息公开防止系统420分析添加了新信息部分的每个存储区以将新信息部分与存储区中的现有信息部分组合以尝试确定敏感信息。这可以类似于如参见图1所描述的步骤103的分析。
在步骤204中,如果存储区包含足以公开敏感信息的组合数据,那么敏感信息公开防止系统420提供通知,以提醒目标实体和/或发帖实体(例如,如果发帖实体创建包括目标实体的帖子)。敏感信息公开防止系统420或相应平台可以提示或以其他方式允许目标实体或发布实体可以采取动作以中止所提议的帖子的发布或者使所提议的帖子中的关键信息模糊。在一些实施例中,敏感信息公开防止系统420主动地防止帖子的上传、使关键信息模糊和/或删除一个或多个帖子(例如,当前帖子、还包括与潜在敏感信息相关的关键信息的先前帖子)。
以这种方式,敏感信息公开防止系统420在当与现有发布组合时可能有共享私有或敏感数据的风险,实体将要发布帖子时通知该实体。
本发明的实施例描述了可以寻找诸如地址、电话号码和牌照之类的预定义的个人信息集的方法。另外,该方法可以是增强开发或确定可以为其定义新存储区的新的相关个人信息集的能力。本发明的实施例可以使用机器学习来识别新形式的敏感信息。例如,敏感信息公开防止系统420可以注意到用户已经发布了他们正在度假,并且敏感信息公开防止系统420可以提示生成新的存储区和收集将给出关于度假的细节的不同信息部分。如果帖子的任何组合可以潜在地包括敏感或私人信息,则敏感信息公开防止系统420可以使用该信息来生成对用户的警报。
参见图3,流程图300示出了根据本发明的实施例的所描述的方法的进一步方面的示例实施例。
在步骤301中,敏感信息公开防止系统420访问与目标实体相关的敏感数据的类型的类别的信息部分的存储区的存储系统,例如,如参见图1描述的方法中创建和填充的。在步骤302中,敏感信息公开防止系统420进一步分析每个存储区以识别将与存储区中的现有信息部分组合以披露敏感信息的附加信息部分。敏感信息公开防止系统420针对每个存储区执行分析以确定所需的缺失信息部分,其将与现有信息部分组合以完成敏感信息的公开。
在步骤303中,敏感信息公开防止系统420可以监控所发布的或者打算发布的新帖子,以确定新帖子是否包括所识别的所需信息部分之一。在步骤304中,如果敏感信息公开防止系统420找到包括这种所需信息部分的帖子,则敏感信息公开防止系统420可以提供通知以警告发帖实体。敏感信息公开防止系统420或平台可以提示或以其他方式允许用户采取行动以删除或中止发布的帖子或者使帖子内的关键信息模糊。在一些实施例中,敏感信息公开防止系统420主动地防止帖子的上传、使关键信息模糊和/或删除一个或多个帖子(例如,当前帖子、还包括与潜在敏感信息相关的关键信息的先前帖子)。
如果存储系统中的存储区已经包含关于目标实体的某些信息,例如,实体的地址或电话号码的部分,则敏感信息公开防止系统420可以具体地监控在新的帖子中完成地址或电话号码所需的附加信息。
参见图4,示意图400示出了根据本发明的实施例的所描述的方法的示例。可以提供帖子401,并且帖子401跨一个或多个社交媒体平台与目标实体相关联。帖子401可以包含可以被提取的信息,诸如与目标实体有关的敏感信息的信息部分412-416。
作为示例,帖子可以包括图像402,图像402包括图像中示出的数据形式的信息部分412,诸如包括数字的前门的一部分。此外,图像402可以具有与图像402一起发布的元数据403,元数据403包括信息部分413,诸如可以指示邮政编码、邮政编码或城镇位置的地理位置数据。另一示例可以是由目标实体提供的关于另一实体的帖子的评论404,并且评论404包括信息部分414,诸如,“外出度假”的引用。作为另一示例,帖子可以是目标实体的状态405或标记目标实体,并且包括信息部分415和416,诸如电话号码的数字或对目标实体的地址的道路的文本参考。
提供敏感信息公开防止系统420,该敏感信息公开防止系统420从与目标实体相关联的帖子401收集信息部分412-416,并将相关信息部分412-416存储在存储系统的与不同类别的敏感信息相关的存储区421和423中。
在该示例中,存储区421可以涉及地址信息,并且另一存储区423可以涉及实体位置信息。地址信息存储区421可以包括:目标实体的前门的图像信息的信息部分412、来自图像元数据403的目标实体的邮政编码或邮政编码的信息部分413、以及来自状态405的对目标实体的地址的道路的参考的信息部分416。地址信息存储区421可被分析以获得完整地址信息422。此外,可以为目标实体的当前位置提供单独的存储区423,该存储区423还可以包括地址信息部分以及另外包括目标实体外出度假的评论404中的参考的信息部分414,从而提供地址当前可能是空的位置信息424的敏感信息。
在另一示例中,敏感信息公开防止系统420可以从多个照片的地理位置元数据中确定目标实体通常居住在哪里,并且可以将该信息与文本帖子相组合以确定目标实体的当前位置。
在进一步的示例用例下,用户的社交媒体账户可能已经包含来自几个月前的发布他们的汽车的图片的帖子,其示出了他们的牌照的前半部分,牌照的剩余部分被图片的边缘阻挡。其本身,这个帖子不包含完整的牌照并且因此不包含完整的个人信息项。用户然后将新照片发布到另一社交媒体平台,其汽车在背景中。例如,这个人可以站在汽车前方并且用他们的人覆盖他们的牌照的前半部分。本发明的实施方式认识到,这两张照片属于同一辆汽车,并且在组合时,提供该汽车的全牌照。敏感信息公开防止系统420在发布新照片之前提醒用户关于这一点,并且提示或以其他方式允许用户决定他们是否希望覆盖照片中的数字板或者根本不发布照片。在一些实施例中,敏感信息公开防止系统420主动地防止上传照片、模糊车牌和/或删除一个或多个帖子(例如,当前帖子、还包括与潜在敏感信息相关的关键信息的先前帖子)。
如上所述,本发明的实施例相对于现有技术具有至少一个优点,因为本发明的实施例查看多个帖子,并且机器学习可以用于从仅查看单个帖子、照片或类似信息项来识别系统不知道的个人信息的其他示例。
参见图5,框图示出其中可实现所描述的敏感信息公开防止系统420的计算系统500的示例实施例。计算系统500可以包括至少一个处理器501、硬件模块、或用于执行所描述组件的功能的电路,所述组件可以是在至少一个处理器上执行的软件单元。可以提供运行并行处理线程的多个处理器,从而能够并行处理组件的功能中的一些或全部。存储器502可以被配置成向至少一个处理器501提供计算机指令503,以执行组件的功能。
作为示例,敏感信息公开防止系统420可以在可访问目标实体发布或与目标实体相关联的另一发布实体发布的多个账户或应用的操作系统级提供。作为另一示例,敏感信息公开防止系统420可以被提供为具有对目标实体或另一发布实体可以发布帖子所经由的其他应用的访问的应用。
敏感信息公开防止系统420包括或具有对具有定义的敏感信息类别的存储系统560的访问,为所述存储系统560提供数据存储区561-563,在所述数据存储区中存储信息部分或对所述信息部分的引用以用于分析。
敏感信息公开防止系统420可包括用于从针对目标实体的多个平台收集发布信息的帖子收集组件511。帖子收集组件511可以从一个或多个平台源收集与实体相关联的时间段上的帖子集合,用于最初填充存储系统560的存储区561-563。
敏感信息公开防止系统420包括帖子处理组件520,其用于处理与目标实体相关联的每个帖子,并且包括提取组件521,其用于提取一个或多个信息部分。提取组件521可以包括以下中的一个或多个过程:文本提取、图像识别、图像抓取、光学字符识别、声音至文本处理、自然语言处理、帖子的元数据提取、帖子的标题提取、地理数据提取。
帖子处理组件520可以包括类别确定组件522,所述类别确定组件522用于确定信息部分相关的一个或多个类别并且用于将所提取的信息部分添加到相关存储区561-563中。
类别分析组件550可被提供对存储系统560的访问,用于分析存储区561-563的信息部分以组合被确定为与类别相关的信息部分以确定所述组合是否公开敏感信息。
类别分析组件550可包括公开确定组件551,其用于通过使用比较组件552来确定组合是否公开敏感信息,比较组件552用于将组合与标准集合进行比较以评估组合是否提供敏感信息的完整数据集合。
敏感信息公开防止系统420可包括通知组件512,用于提供现有或新的敏感信息公开的通知。
敏感信息公开防止系统420还可包括传入帖子组件530,用于分析刚刚已发布或将要发布的新帖子以标识敏感信息的潜在公开。
传入帖子组件530可以使用用于访问存储系统560的类别访问组件513,并且帖子处理组件520可以用于处理每个新的或提议的帖子,包括用于提取一个或多个新的信息部分的提取组件521和用于确定信息部分与之相关的一个或多个类别的类别确定组件522。类别分析组件550可以分析类别的信息部分以确定新信息部分是否与被确定为提供公开敏感信息的组合的现有信息部分组合,并且通知组件512可以提供潜在敏感信息公开的通知。
敏感信息公开防止系统420还可包括缺失信息组件540,缺失信息组件540包括用于监控新的或所提议的帖子以获得缺失信息部分的监控组件541,缺失信息部分可与现有的帖子相组合以公开敏感信息。
缺失信息组件540可以使用类别访问组件513来访问存储系统560,并且类别分析组件550包括缺失部分组件553,其用于分析类别的信息部分以确定与现有信息部分组合以提供公开敏感信息的组合所需的缺失信息部分。帖子处理组件520可以用于与实体相关联的每个新的或提议的发布,包括提取组件521提取一个或多个新信息部分以及匹配组件523,所述匹配组件523用于将所述一个或多个新信息部分与类别的缺失信息部分进行匹配。通知组件512可以提供潜在敏感信息公开的通知。
类别分析组件550可包括标记组件554,其用于基于对帖子的主题或字幕与潜在敏感信息相关的分析来对帖子进行标记以供分析。
防止敏感信息泄露系统420还可以包括新存储区组件514,用于确定需要为其定义新存储区的敏感信息的新相关类别。
图6描绘了根据本发明的实施例的图5的计算系统500的部件的框图。应当理解,图5仅提供一个实现方式的图示并且不暗示关于其中可以实现不同实施例的环境的任何限制。可以对所描绘的环境做出许多修改。
计算系统500可包括全部通过通信结构618互连的一个或多个处理器602、一个或多个计算机可读RAM604、一个或多个计算机可读ROM606、一个或多个计算机可读存储介质608、设备驱动器612、读/写驱动器或接口614、以及网络适配器或接口616。通信结构618可以利用被设计用于在处理器(诸如微处理器、通信和网络处理器等)、系统存储器、外围设备和系统内的任何其他硬件组件之间传递数据和/或控制信息的任何架构来实现。
一个或多个操作系统610和应用程序611(诸如敏感信息公开防止系统420)被存储在一个或多个计算机可读存储介质608上,以供一个或多个处理器602经由一个或多个相应的RAM604(其通常包括高速缓存存储器)来执行。在所示实施例中,根据本发明的实施例,计算机可读存储介质608中的每一个可以是内部硬盘的磁盘存储设备、CD-ROM、DVD、记忆棒、磁带、磁盘、光盘、诸如RAM、ROM、EPROM、闪存的半导体存储设备、或者能够存储计算机程序和数字信息的任何其他计算机可读存储介质。
计算系统500还可以包括用于从一个或多个便携式计算机可读存储介质626读取和写入一个或多个便携式计算机可读存储介质626的R/W驱动器或接口614。计算系统500上的应用程序611可存储在一个或多个便携式计算机可读存储介质626上,经由相应的R/W驱动器或接口614读取并加载到相应的计算机可读存储介质608中。
计算系统500还可包括网络适配器或接口616,诸如TCP/IP适配器卡或无线通信适配器。计算系统500上的应用程序611可以经由网络(例如,互联网、局域网或其他广域网或无线网络)和网络适配器或接口616从外部计算机或外部存储设备下载到计算设备。程序可以从网络适配器或接口616加载到计算机可读存储介质608中。网络可以包括铜线、光纤、无线传输、路由器、防火墙、交换机、网关计算机和边缘服务器。
计算系统500还可以包括显示屏620、键盘或小键盘622、以及计算机鼠标或触摸板624。设备驱动器612与用于成像的显示屏620、键盘或小键盘622、计算机鼠标或触摸板624连接,和/或与用于字母数字字符输入和用户选择的压力感测的显示屏620连接。设备驱动器612、R/W驱动器或接口614以及网络适配器或接口616可包括存储在计算机可读存储介质608和/或ROM 606中的硬件和软件。
本发明可以是任何可能的技术细节集成度的系统、方法和/或计算机程序产品。计算机程序产品可包括其上具有用于使处理器执行本发明的各方面的计算机可读程序指令的计算机可读存储介质(或多个介质)。
计算机可读存储媒体可为可保留和存储供指令执行装置使用的指令的有形装置。计算机可读存储介质可以是,例如但不限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或者上述的任意合适的组合。计算机可读存储介质的更具体示例的非穷尽列表包括以下各项:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式紧凑盘只读存储器(CD-ROM)、数字通用盘(DVD)、记忆棒、软盘、诸如穿孔卡之类的机械编码设备或具有记录在其上的指令的槽中的凸出结构、以及上述各项的任何合适的组合。如本文所使用的计算机可读存储介质不应被解释为暂时性信号本身,例如无线电波或其他自由传播的电磁波、通过波导或其他传输媒体传播的电磁波(例如,穿过光纤电缆的光脉冲)或通过电线发射的电信号。
本文中所描述的计算机可读程序指令可以经由网络(例如,互联网、局域网、广域网和/或无线网络)从计算机可读存储介质下载到相应的计算/处理设备,或者下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输纤维、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口接收来自网络的计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。
用于执行本发明的操作的计算机可读程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、集成电路的配置数据、或以一种或多种程序设计语言的任何组合编写的源代码或目标代码,这些程序设计语言包括面向对象的程序设计语言(诸如Smalltalk、C++等)和过程程序设计语言(诸如“C”程序设计语言或类似程序设计语言)。计算机可读程序指令可以完全地在用户计算机上执行、部分在用户计算机上执行、作为独立软件包执行、部分在用户计算机上部分在远程计算机上执行或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接至用户计算机,或者可连接至外部计算机(例如,使用互联网服务提供商通过互联网)。在一些实施例中,包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA)的电子电路可以通过利用计算机可读程序指令的状态信息来使电子电路个性化来执行计算机可读程序指令,以便执行本发明的各方面。
下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可被提供给计算机或其他可编程数据处理装置的处理器以产生机器,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现在流程图和/或框图的或多个框中指定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置、和/或其他设备以特定方式工作,从而,其中存储有指令的计算机可读存储介质包括包含实现流程图和/或框图中的或多个方框中规定的功能/动作的方面的指令的制造品。
也可以把计算机可读程序指令加载到计算机、其他可编程数据处理装置、或其他设备上,使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的处理,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图中的或多个方框中规定的功能/动作。
附图中的流程图和框图示出了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。对此,流程图或框图中的每个框可表示指令的模块、段或部分,其包括用于实现指定的逻辑功能的一个或多个可执行指令。在一些备选实现中,框中标注的功能可以不按照图中标注的顺序发生。例如,连续示出的两个方框实际上可以作为一个步骤完成,同时、基本上同时、以部分或完全时间上重叠的方式执行,或者方框有时可以以相反的顺序执行,这取决于所涉及的功能。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作或执行专用硬件与计算机指令的组合的专用的基于硬件的系统来实现。
应当理解,虽然本公开包括关于云计算的详细描述,但是本文所引用的教导的实现不限于云计算环境。相反,本发明的实施例能够结合现在已知的或以后开发的任何其他类型的计算环境来实现。
云计算是服务交付的模型,用于使得能够方便地、按需地网络访问可配置计算资源(例如,网络、网络带宽、服务器、处理、存储器、存储、应用、虚拟机和服务)的共享池,所述可配置计算资源可以以最小的管理努力或与所述服务的提供者的交互来快速供应和释放。该云模型可以包括至少五个特性、至少三个服务模型和至少四个部署模型。
特性如下:
按需自助服务:云消费者可以单方面地根据需要自动地提供计算能力,诸如服务器时间和网络存储,而不需要与服务的提供者的人类交互。
广泛的网络接入:能力可通过网络获得并且通过标准机制接入,该标准机制促进异构瘦客户机平台或厚客户机平台(例如,移动电话、膝上型计算机和PDA)的使用。
资源池:提供者的计算资源被池化以使用多租户模型来服务于多个消费者,其中不同的物理和虚拟资源根据需要动态地指派和重新指派。存在位置独立性的感觉,因为消费者通常不具有对所提供的资源的确切位置的控制或了解,但可能能够以较高抽象级别(例如,国家、州或数据中心)指定位置。
快速弹性:能够快速和弹性地提供能力,在一些情况下自动地快速缩小和快速释放以快速放大。对于消费者而言,可用于供应的能力通常显得不受限制并且可以在任何时间以任何数量购买。
测量的服务:云系统通过在适合于服务类型(例如,存储、处理、带宽和活动用户账户)的某个抽象级别处利用计量能力来自动控制和优化资源使用。可以监视、控制和报告资源使用,为所利用的服务的提供者和消费者提供透明度。
服务模型如下:
软件即服务(SaaS):提供给消费者的能力是使用在云基础设施上运行的提供者的应用。可通过诸如web浏览器(例如,基于web的电子邮件)之类的瘦客户端接口从不同客户端设备访问应用。消费者不管理或控制包括网络、服务器、操作系统、存储或甚至单独的应用能力的底层云基础设施,可能的例外是有限的用户特定应用配置设置。
平台即服务(PaaS):提供给消费者的能力是将消费者创建的或获取的使用由提供商支持的编程语言和工具创建的应用部署到云基础设施上。消费者不管理或控制包括网络、服务器、操作系统或存储的底层云基础设施,但是对所部署的应用和可能的应用托管环境配置具有控制。
基础设施即服务(IaaS):提供给消费者的能力是提供处理、存储、网络和消费者能够部署和运行任意软件的其他基本计算资源,所述软件可以包括操作系统和应用。消费者不管理或控制底层云基础设施,而是具有对操作系统、存储、所部署的应用的控制以及对所选联网组件(例如,主机防火墙)的可能受限的控制。
部署模型如下:
私有云:云基础架构仅为组织运作。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
社区云:云基础架构被若干组织共享并支持共享了关注(例如,任务、安全要求、策略、和合规性考虑)的特定社区。它可以由组织或第三方管理,并且可以存在于场所内或场所外。
公共云:使云基础架构对公众或大型行业组可用,并且由出售云服务的组织拥有。混合云:云基础架构是两个或更多个云(私有、社区或公共)的组合,这些云保持唯一实体但通过使数据和应用能够移植的标准化或专有技术(例如,云突发以用于云之间的负载平衡)绑定在一起。
云计算环境是面向服务的,集中于无状态、低耦合、模块化和语义互操作性。云计算的核心是包括互连节点网络的基础设施。
现在参见图7,描绘了说明性云计算环境50。如图所示,云计算环境50包括云消费者使用的本地计算设备可以与其通信的一个或多个云计算节点10,本地计算设备诸如例如个人数字助理(PDA)或蜂窝电话54A、台式计算机54B、膝上型计算机54C和/或汽车计算机系统54N。节点10可彼此通信。它们可以物理地或虚拟地分组(未示出)在一个或多个网络中,诸如如上所述的私有云、社区云、公共云或混合云、或其组合。这允许云计算环境50提供基础设施、平台和/或软件作为云消费者不需要为其维护本地计算设备上的资源的服务。应当理解,图7中所示的计算装置54A-N的类型仅旨在是说明性的,并且计算节点10和云计算环境50可通过任何类型的网络和/或网络可寻址连接(例如,使用网络浏览器)与任何类型的计算机化装置通信。
现在参见图8,示出了由云计算环境50(图7)提供的一组功能抽象层。应当事先理解,图8中所示的组件、层和功能仅旨在是说明性的,并且本发明的实施例不限于此。如所描述,提供以下层和对应功能:
硬件和软件层60包括硬件和软件组件。硬件组件的示例包括:大型机61;基于RISC(精简指令集计算机)架构的服务器62;服务器63;刀片服务器64;存储设备65;以及网络和联网组件66。在一些实施例中,软件组件包括网络应用服务器软件67和数据库软件68。
虚拟化层70提供抽象层,从该抽象层可以提供虚拟实体的以下示例:虚拟服务器71;虚拟存储器72;虚拟网络73,包括虚拟专用网络;虚拟应用和操作系统74;以及虚拟客户端75。
在一个示例中,管理层80可以提供以下描述的功能。资源供应81提供用于在云计算环境内执行任务的计算资源和其他资源的动态采购。计量和定价82在云计算环境内利用资源时提供成本跟踪,并为这些资源的消费开账单或发票。在一个示例中,这些资源可以包括应用软件许可证。安全性为云消费者和任务提供身份验证,以及为数据和其他资源提供保护。用户门户83为消费者和系统管理员提供对云计算环境的访问。服务水平管理84提供云计算资源分配和管理,使得满足所需的服务水平。服务水平协议(SLA)规划和履行85提供根据SLA预期未来需求的云计算资源的预安排和采购。
工作负载层90提供可以利用云计算环境的功能的示例。可以从该层提供的工作负荷和功能的示例包括:地图和导航91;软件开发和生命周期管理92;虚拟课堂教育交付93;数据分析处理94;事务处理95;以及敏感信息处理96。
本发明的计算机程序产品包括一个或多个计算机可读硬件存储设备,其中存储有计算机可读程序代码,所述程序代码可由一个或多个处理器执行以实现本发明的方法。
本发明的计算机系统包括一个或多个处理器、一个或多个存储器、以及一个或多个计算机可读硬件存储设备,所述一个或多个硬件存储设备包含可由所述一个或多个处理器经由所述一个或多个存储器执行的程序代码以实现本发明的方法。
已经出于说明的目的呈现了本发明的各种实施方式的描述,但并不旨在是详尽的或者限于所公开的实施方式。在不脱离所描述的实施例和范围的情况下,许多修改和变化对本领域普通技术人员将是显而易见的。这里使用的术语被选择来最好地解释实施例的原理、实际应用或对在市场中找到的技术的技术改进,或者使得本领域普通技术人员能够理解这里公开的实施例。
在不脱离本发明的范围的情况下,可以对前述内容进行改进和修改。
Claims (26)
1.一种用于防止敏感信息公开的计算机实现的方法,包括:
由一个或多个处理器提供多个定义的敏感信息类别;
对于与实体相关联的每个帖子,由一个或多个处理器提取一个或多个信息部分;
由一个或多个处理器确定与所述一个或多个信息部分中的每一个相关的一个或多个类别;以及
由一个或多个处理器分析类别的相应信息部分以组合被确定为与类别相关的相应信息部分,以确定所述相应信息部分的组合是否公开敏感信息。
2.根据权利要求1所述的方法,进一步包括:
由一个或多个处理器提供具有多个数据存储区的存储系统,每个数据存储区对应于其中存储了用于分析的信息部分的定义类别。
3.根据权利要求2所述的方法,进一步包括:
由一个或多个处理器从在一段时间内经由一个或多个平台源发布的帖子集合中收集用于填充所述数据存储区的信息部分,所述帖子集合与所述实体相关联。
4.根据前述权利要求中任一项所述的方法,其中,确定所述相应信息部分的组合是否公开敏感信息包括:
由一个或多个处理器将所述相应信息部分的组合与标准集合进行比较;以及
由一个或多个处理器评估所述相应信息部分的组合是否提供为所述敏感信息的完整数据集。
5.根据前述权利要求中任一项所述的方法,其中,发布与所述实体相关联的第一帖子,并且所述第一帖子包括从以下各项的组中选择:文本帖子、图像、视频和音频剪辑。
6.根据前述权利要求中任一项所述的方法,其中提取所述一个或多个信息部分包括从包括以下各项的组中选择:
文本提取、图像识别、图像抓取、光学字符识别、声音到文本处理、自然语言处理和元数据提取。
7.根据前述权利要求中任一项所述的方法,还包括:
由一个或多个处理器访问存储系统,所述存储系统具有存储与相应类别相关的信息部分的敏感信息类别;
对于与所述实体相关联的每个帖子,由一个或多个处理器提取一个或多个附加信息部分,并且由一个或多个处理器确定与每个附加信息部分相关的一个或多个类别;以及
由一个或多个处理器分析所述类别的相应信息部分以确定相应附加信息部分是否与现有信息部分组合以创建公开敏感信息的组合。
8.根据前述权利要求中任一项所述的方法,还包括:
由一个或多个处理器访问存储系统,所述存储系统具有存储与所述相应类别相关的信息部分的敏感信息类别;
由一个或多个处理器分析所述类别的相应信息部分以确定与现有信息部分组合以创建公开敏感信息的组合所需的缺失信息部分;以及
针对与所述实体相关联的每个附加帖子,由一个或多个处理器提取一个或多个附加信息部分并且将所述一个或多个附加信息部分与所述缺失信息部分进行匹配。
9.根据权利要求8所述的方法,进一步包括:
由一个或多个处理器监控所述缺失信息部分的发布。
10.根据前述权利要求中任一项所述的方法,还包括:
由一个或多个处理器向所述实体提供所述敏感信息的公开通知。
11.根据前述权利要求中任一项所述的方法,还包括:
由一个或多个处理器基于与所述实体相关联的帖子的内容来定义新类别的敏感信息。
12.根据前述权利要求中任一项所述的方法,还包括:
由一个或多个处理器基于与潜在敏感信息相关的每个帖子的主题的分析来标记帖子以用于分析。
13.一种用于防止公开敏感信息的计算机实施的方法,包括:
由一个或多个处理器访问存储系统,所述存储系统具有存储与每个相应类别相关的信息部分的敏感信息类别;
对于与实体相关联的每个附加帖子,由一个或多个处理器提取附加信息部分并确定与所述附加信息部分相关的一个或多个类别;以及
通过一个或多个处理器分析第一类别的信息部分以确定与第一类别关联的附加信息部分是否与现有信息部分组合以提供公开敏感信息的组合。
14.一种用于防止公开敏感信息的计算机系统,包括:
一个或多个计算机处理器、一个或多个计算机可读存储介质、以及共同存储在所述一个或多个计算机可读存储介质上以供所述一个或多个计算机处理器中的至少一个执行的程序指令,所述程序指令包括:
用于提供多个定义的敏感信息类别的程序指令;
对于与实体相关联的每个帖子提取一个或多个信息部分的程序指令;
用于确定与所述一个或多个信息部分中的每一个相关的一个或多个类别的程序指令;以及
用于分析类别的相应信息部分以组合被确定为与类别相关的相应信息部分以确定所述相应信息部分的组合是否公开敏感信息的程序指令。
15.根据权利要求14所述的计算机系统,进一步包括:
共同地存储在所述一个或多个计算机可读存储介质上用于由所述一个或多个计算机处理器中的至少一个执行的程序指令以提供具有多个数据存储区的存储系统,每个数据存储区对应于其中存储了用于分析的信息部分的定义类别。
16.根据权利要求15所述的计算机系统,进一步包括:
共同地存储在所述一个或多个计算机可读存储介质上用于由所述一个或多个计算机处理器中的至少一个执行的程序指令,用于从在一段时间内经由一个或多个平台源发布的帖子集合中收集用于填充所述数据存储区的信息部分,所述帖子集合与所述实体相关联。
17.根据权利要求14至16中任一项所述的计算机系统,其中,用于确定所述相应信息部分的组合是否公开敏感信息的程序指令包括:
将所述相应信息部分的组合与标准集合进行比较的程序指令;以及
用于评估所述相应信息部分的组合是否提供为所述敏感信息的完整数据集的程序指令。
18.根据权利要求14至17中任一项所述的计算机系统,其中,发布与所述实体相关联的第一帖子,并且所述第一帖子包括从以下各项的组中选择:
文本帖子、图像、视频和音频剪辑。
19.根据权利要求14至18中任一项所述的计算机系统,其中,提取所述一个或多个信息部分包括从包括以下各项的组中选择:
文本提取、图像识别、图像抓取、光学字符识别、声音到文本处理、自然语言处理和元数据提取。
20.根据权利要求14至19中任一项所述的计算机系统,进一步包括:
共同地存储在所述一个或多个计算机可读存储介质上用于由所述一个或多个计算机处理器中的至少一个执行的程序指令,以访问具有存储与相应类别相关的信息部分的敏感信息类别的存储系统;
共同地存储在所述一个或多个计算机可读存储介质上以用于由所述一个或多个计算机处理器中的至少一个执行的程序指令,用于对于与所述实体相关联的每个帖子,提取一个或多个信息部分并确定与每个信息部分相关的一个或多个类别;以及
共同地存储在所述一个或多个计算机可读存储介质上以用于由所述一个或多个计算机处理器中的至少一个执行的程序指令,用于分析类别的相应信息部分以确定所述相应信息部分是否与现有信息部分组合以创建公开敏感信息的组合。
21.根据权利要求14至20中任一项所述的计算机系统,进一步包括:
共同存储在所述一个或多个计算机可读存储介质上以供所述一个或多个计算机处理器中的至少一个执行的程序指令,用于访问具有存储与相应类别相关的信息部分的敏感信息类别的存储系统;
共同地存储在所述一个或多个计算机可读存储介质上用于由所述一个或多个计算机处理器中的至少一个执行的程序指令,所述程序指令用于分析类别的相应信息部分以确定与现有信息部分组合以创建公开敏感信息的组合所需的缺失信息部分;以及
共同地存储在所述一个或多个计算机可读存储介质上以用于由所述一个或多个计算机处理器中的至少一个执行的程序指令,用于:针对与所述实体相关联的每个附加帖子,提取一个或多个附加信息部分并且将所述一个或多个附加信息部分与所述缺失信息部分进行匹配。
22.根据权利要求21所述的计算机系统,进一步包括:
共同地存储在所述一个或多个计算机可读存储介质上以用于由所述一个或多个计算机处理器中的至少一个执行的程序指令,用于监控所述缺失信息部分的帖子。
23.根据权利要求14至22中任一项所述的计算机系统,进一步包括:
共同地存储在所述一个或多个计算机可读存储介质上用于由所述一个或多个计算机处理器中的至少一个执行的程序指令,以向所述实体提供所述敏感信息的公开通知。
24.根据权利要求14至23中任一项所述的计算机系统,进一步包括:
共同地存储在所述一个或多个计算机可读存储介质上用于由所述一个或多个计算机处理器中的至少一个执行的程序指令,以基于与所述实体相关联的帖子的内容来定义新类别的敏感信息。
25.一种用于防止公开来自多个部分源的敏感信息的计算机程序产品,所述计算机程序产品包括:
计算机可读存储介质,所述计算机可读存储介质可由处理电路读取并且存储用于由所述处理电路执行以执行根据权利要求1至13中任一项所述的方法的指令。
26.一种计算机程序,存储在计算机可读介质上并可加载到数字计算机的内部存储器中,所述计算机程序包括软件代码部分,当所述程序在计算机上运行时,所述软件代码部分用于执行根据权利要求1至13中任一项所述的方法。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/830,843 | 2020-03-26 | ||
US16/830,843 US20210304341A1 (en) | 2020-03-26 | 2020-03-26 | Preventing disclosure of sensitive information |
PCT/IB2021/051689 WO2021191705A1 (en) | 2020-03-26 | 2021-03-01 | Preventing disclosure of sensitive information |
Publications (1)
Publication Number | Publication Date |
---|---|
CN115280298A true CN115280298A (zh) | 2022-11-01 |
Family
ID=77856389
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202180020253.3A Pending CN115280298A (zh) | 2020-03-26 | 2021-03-01 | 防止敏感信息的公开 |
Country Status (4)
Country | Link |
---|---|
US (1) | US20210304341A1 (zh) |
JP (1) | JP2023519159A (zh) |
CN (1) | CN115280298A (zh) |
WO (1) | WO2021191705A1 (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US11455416B2 (en) * | 2020-05-01 | 2022-09-27 | Kyndryl, Inc. | Record-level sensitivity-based data storage in a hybrid multi cloud environment |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8271483B2 (en) * | 2008-09-10 | 2012-09-18 | Palo Alto Research Center Incorporated | Method and apparatus for detecting sensitive content in a document |
US20130246336A1 (en) * | 2011-12-27 | 2013-09-19 | Mcafee, Inc. | System and method for providing data protection workflows in a network environment |
US9374374B2 (en) * | 2012-06-19 | 2016-06-21 | SecureMySocial, Inc. | Systems and methods for securing social media for users and businesses and rewarding for enhancing security |
CN103514238B (zh) * | 2012-06-30 | 2017-12-19 | 重庆新媒农信科技有限公司 | 基于分类查找的敏感词识别处理方法 |
US9652597B2 (en) * | 2014-03-12 | 2017-05-16 | Symantec Corporation | Systems and methods for detecting information leakage by an organizational insider |
CN107045524B (zh) * | 2016-12-30 | 2019-12-27 | 中央民族大学 | 一种网络文本舆情分类的方法及系统 |
CN107480549B (zh) * | 2017-06-28 | 2019-08-02 | 银江股份有限公司 | 一种面向数据共享的敏感信息脱敏方法及系统 |
US11095621B2 (en) * | 2018-09-18 | 2021-08-17 | International Business Machines Corporation | Selective cognitive security for communication data |
US11210266B2 (en) * | 2019-01-25 | 2021-12-28 | International Business Machines Corporation | Methods and systems for natural language processing of metadata |
CN110704861B (zh) * | 2019-08-07 | 2023-03-24 | 荣邦科技有限公司 | 一种基于开放接口实时脱敏的方法、装置及系统 |
-
2020
- 2020-03-26 US US16/830,843 patent/US20210304341A1/en not_active Abandoned
-
2021
- 2021-03-01 JP JP2022553699A patent/JP2023519159A/ja active Pending
- 2021-03-01 CN CN202180020253.3A patent/CN115280298A/zh active Pending
- 2021-03-01 WO PCT/IB2021/051689 patent/WO2021191705A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2021191705A1 (en) | 2021-09-30 |
US20210304341A1 (en) | 2021-09-30 |
JP2023519159A (ja) | 2023-05-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10135836B2 (en) | Managing data privacy and information safety | |
US10783356B2 (en) | Automated relationship categorizer and visualizer | |
US20160378760A1 (en) | Identification of life events within social media conversations | |
US11275972B2 (en) | Image classification masking | |
US11741177B2 (en) | Entity validation of a content originator | |
US11381710B2 (en) | Contextual masking of objects in social photographs | |
US20190164246A1 (en) | Overlaying software maps with crime risk forecast data | |
US20190163831A1 (en) | Indirect crowdsourcing by associating data from multiple data sources | |
US10776519B2 (en) | Information presentation management | |
CN115280298A (zh) | 防止敏感信息的公开 | |
US11062007B2 (en) | Automated authentication and access | |
US11093566B2 (en) | Router based query results | |
US11481211B1 (en) | Dynamically creating source code comments | |
US11622159B2 (en) | Media data modification management system | |
US11893132B2 (en) | Discovery of personal data in machine learning models | |
US10754622B2 (en) | Extracting mobile application workflow from design files | |
US11210359B2 (en) | Distinguishing web content and web content-associated data | |
AU2021210221B2 (en) | Performing search based on position information | |
US20230222248A1 (en) | Secure datastore of searchable heterogenous geospatial data | |
US20180218237A1 (en) | System, method and computer program product for creating a contact group using image analytics |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |