CN110334280A - 一种发现保密信息泄露的方法及装置 - Google Patents

一种发现保密信息泄露的方法及装置 Download PDF

Info

Publication number
CN110334280A
CN110334280A CN201910620224.5A CN201910620224A CN110334280A CN 110334280 A CN110334280 A CN 110334280A CN 201910620224 A CN201910620224 A CN 201910620224A CN 110334280 A CN110334280 A CN 110334280A
Authority
CN
China
Prior art keywords
webpage
confidential information
information
search engine
confidential
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201910620224.5A
Other languages
English (en)
Inventor
张海洋
李鹏
王明
王步放
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Travelsky Technology Co Ltd
Original Assignee
China Travelsky Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Travelsky Technology Co Ltd filed Critical China Travelsky Technology Co Ltd
Priority to CN201910620224.5A priority Critical patent/CN110334280A/zh
Publication of CN110334280A publication Critical patent/CN110334280A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Systems or methods specially adapted for specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • G06Q50/18Legal services; Handling legal documents

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Tourism & Hospitality (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Technology Law (AREA)
  • Economics (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • General Business, Economics & Management (AREA)
  • Storage Device Security (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

本发明公开了一种发现保密信息泄露的方法及装置,获得保密信息检索任务,其中,所述保密信息检索任务携带有:第一保密信息关键词组和第二保密信息关键词组;通过搜索引擎对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得多个网页的网页信息;在所述多个网页中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在所述至少一个网页中泄露,利用使保密信息检索任务自动在搜索引擎中检索的方式,克服了人工检索效率较低的技术问题,进而达到了及时和高效的从互联网上的海量信息中发现泄漏的保密信息的技术效果。

Description

一种发现保密信息泄露的方法及装置
技术领域
本发明涉及信息技术领域,尤其涉及一种发现保密信息泄露的方法及装置。
背景技术
随着互联网信息技术的发展和普及,人们常在互联网上分享一些技术知识和专业资料。由于很多企业的员工或者合作伙伴的保密意识不强,部分员工或合作伙伴会将企业内部的保密信息发布到互联网上,导致企业保密信息被泄露。
为了及时发现和阻止泄露,企业常依靠人工在互联网搜索是否有保密信息泄露。但是人工搜索的效率较低,无法及时和高效的从互联网上的海量信息中发现泄漏的保密信息。
发明内容
鉴于上述问题,本发明提供一种克服上述问题或者至少部分地解决上述问题的一种发现保密信息泄露的方法及装置,技术方案如下:
一种发现保密信息泄露的方法,包括:
获得保密信息检索任务,其中,所述保密信息检索任务携带有:第一保密信息关键词组和第二保密信息关键词组;
通过搜索引擎对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得多个网页的网页信息;
根据获得的所述网页信息,在所述多个网页中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在所述至少一个网页中泄露。
一种发现保密信息泄露的装置,包括:任务获得单元、第一检索单元和第二检索单元,
所述任务获得单元,用于获得保密信息检索任务,其中,所述保密信息检索任务携带有:第一保密信息关键词组和第二保密信息关键词组;
所述第一检索单元,用于通过搜索引擎对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得多个网页的网页信息;
所述第二检索单元,用于根据获得的所述网页信息,在所述多个网页中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在所述至少一个网页中泄露。
借由上述技术方案,本发明提供的一种发现保密信息泄露的方法及装置,获得保密信息检索任务,其中,所述保密信息检索任务携带有:第一保密信息关键词组和第二保密信息关键词组;通过搜索引擎对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得多个网页的网页信息;在所述多个网页中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在所述至少一个网页中泄露,利用使保密信息检索任务自动在搜索引擎中检索的方式,克服了人工检索效率较低的技术问题,进而达到了及时和高效的从互联网上的海量信息中发现泄漏的保密信息的技术效果。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1为本发明实施例提供的一种发现保密信息泄露的方法的流程图;
图2为本发明实施例提供的另一种发现保密信息泄露的方法的流程图;
图3为本发明实施例提供的另一种发现保密信息泄露的方法的流程图;
图4为本发明实施例提供的另一种发现保密信息泄露的方法的流程图;
图5为本发明实施例提供的一种生成警告信息的示意图;
图6为本发明实施例提供的另一种发现保密信息泄露的方法的流程图;
图7为本发明实施例提供的另一种发现保密信息泄露的方法的流程图;
图8为本发明实施例提供的另一种发现保密信息泄露的方法的流程图;
图9为本发明实施例提供的另一种发现保密信息泄露的方法的流程图;
图10为本发明实施例提供的一种生成泄密信息删除告知函的示意图;
图11为本发明实施例提供的一种发现保密信息泄露的装置的结构示意图;
图12为本发明实施例提供的另一种发现保密信息泄露的装置的结构示意图;
图13为本发明实施例提供的另一种发现保密信息泄露的装置的结构示意图;
图14为本发明实施例提供的另一种发现保密信息泄露的装置的结构示意图;
图15为本发明实施例提供的另一种发现保密信息泄露的装置的结构示意图;
图16为本发明实施例提供的另一种发现保密信息泄露的装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供的一种发现保密信息泄露的方法,包括:
S100、获得保密信息检索任务,其中,所述保密信息检索任务携带有:第一保密信息关键词组和第二保密信息关键词组;
具体的,保密信息检索任务可以是技术人员根据实际需求制定的。具体的,第一保密信息关键词组和第二保密信息关键词组中都可以包括至少一个保密信息关键词。在实际应用中,技术人员可以根据希望检索的保密信息的具体内容来设置第一保密信息关键词组和第二保密信息关键词组中的保密信息关键词。其中,保密信息关键词可以包括:保密技术名称、保密技术关键手段名称、保密技术知情人姓名、保密技术所属机构名称和保密技术所属技术领域中的一个或多个。可选的,第一保密信息关键词组和第二保密信息关键词组可以均包括相同的保密信息关键词,例如保密技术名称,当然二者包括的保密信息关键词也可以不完全相同或者二者未包括相同的保密信息关键词,本发明在此不做限定。
在本发明其他实施例中,第一保密信息关键词组中的保密信息关键词和第二保密信息关键词组中的保密信息关键词可以相关联。例如:第一保密信息关键词组包括保密信息关键词“A项目”,第二保密信息关键词组包括保密信息关键词“a1技术”、“a2技术”等。其中,a1技术和a2技术为A项目中采用的保密技术,因此“A项目”与“a1技术”、“a2技术”相关联的。再如:第一保密信息关键词组包括保密信息关键词“B公司邮箱”,第二保密信息关键词组包括保密信息关键词“B公司张某邮箱账号”、“B公司张某邮箱密码”等。
其中,所述保密信息检索任务还可以携带有:检索逻辑,其中,所述检索逻辑为关键词之间的逻辑,该逻辑可以为和、或、非等。在实际应用中,本发明的第一保密信息关键词组、第二保密信息关键词组和检索逻辑可以为位于正则表达式中。具体的,技术人员可以根据第一保密信息关键词组和第一保密信息关键词组中各保密信息关键词之间的检索逻辑编写至少一条正则表达式并将编写的正则表达式放入保密信息检索任务中。相应的,技术人员也可以根据第二保密信息关键词组和第二保密信息关键词组中各保密信息关键词之间的检索逻辑编写至少一条正则表达式并将编写的正则表达式放入保密信息检索任务中。
在实际应用中,保密信息的形式可以包括:公司内部邮箱密码、数据库密码、公司内部或外部网站密码、公司内部资料、开发文档、系统使用手册、系统源代码等。
可选的,所述保密信息检索任务还可以携带有:保密信息检索任务执行时间信息,具体的,该时间信息可以为具体的执行时刻,也可以为执行的时间间隔。例如,可以制定保密信息检索任务在晚上7时执行,也可以制定每隔一小时执行一次保密信息检索任务。
可选的,所述保密信息检索任务还可以携带有:制定保密信息检索任务的检索环境,其中,检索环境为进行保密信息检索所使用到的搜索引擎或网站。本发明可以在检索环境中检索保密信息。具体的,本发明中作为检索环境的网站可以为具有信息共享功能的网站。
S200、通过搜索引擎对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得多个网页的网页信息;
具体的,搜索引擎可以包括网页搜索引擎、垂直搜索引擎和集合式搜索引擎中的一种或多种。网页信息可以包括该网页的统一资源定位符(Uniform Resource Locator,URL),也可以包括其他能够将该网页与其他网页进行区分的信息。网页信息还可以包括标题和摘要。
在实际应用中,本发明在保密信息检索任务为第一保密信息关键词组设置的检索环境可以为搜索引擎。
可选的,基于图1所示的方法,如图2所示,本发明实施例提供的另一种发现保密信息泄露的方法,步骤S200可以包括:
S210、在至少两个搜索引擎中分别对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得各搜索引擎输出的多个网页的网页信息;
具体的,获得网页信息的方式可以通过在至少两个搜索引擎中分别对第一保密信息关键词组中的保密信息关键词进行检索,获得各搜索引擎输出的多个网页的网页信息。例如,通过搜索引擎A和搜索引擎B分别对第一保密信息关键词组中的保密信息关键词“‘银行’和‘邮件’和‘密码’”进行检索,获得搜索引擎A输出的100个网页的网页信息,获得搜索引擎B输出的80个网页的网页信息。
S220、将各搜索引擎输出的网页的网页信息进行对比,根据对比结果从各搜索引擎输出的网页信息中筛选出至少部分网页信息。
具体的,将在不同的搜索引擎上对第一保密信息关键词组中的保密信息关键词进行检索后分别输出的网页信息进行对比,例如,通过搜索引擎A和搜索引擎B分别对第一保密信息关键词组中的保密信息关键词“‘银行’和‘邮件’和‘密码’”进行检索,从搜索引擎A中输出100个网页的网页信息,从搜索引擎B中输出80个网页的网页信息,将搜索引擎A输出的100个网页的网页信息与搜索引擎B输出的80个网页的网页信息进行对比。根据不同的搜索引擎分别输出的网页信息的对比结果,可以从各搜索引擎输出的网页信息中筛选出至少部分满足预设条件的网页信息。具体的,预设条件可以根据需要进行制定,其中一种预设条件可以为:均存在于各搜索引擎输出的网页的网页信息中。当某网页的网页信息在各搜索引擎输出的网页的网页信息中均存在时,则该网页的网页信息满足该预设条件。
此外,在获得各搜索引擎输出的多个网页的网页信息之后,本实施例还可以将获得的各网页的网页信息与历史记录中的网页的网页信息进行对比,根据对比结果在获得的多个网页的网页信息中去除在历史记录中存在的网页的网页信息。其中,本实施例在对某网页进行步骤S300的处理后,可以将该网页的网页信息放入历史记录中。这样,历史记录中的网页信息即为已经确定过是否泄露保密信息的网页的网页信息。当后续处理过程中步骤S200再次获得历史记录中存在的网页的网页信息后,可以不对已经确定是否泄露保密信息的网页进行步骤S300的处理。可以理解的是,通过对比两个网页的网页信息(如URL),本发明可以确定这两个网页是否为同一网页。当然,本发明除将网页信息放入历史记录中外,还可以将对网页进行步骤S300的处理后得到的是否泄露保密信息的确定结果放入历史记录中。具体的,历史记录中可以保存有:已经确定过是否泄露保密信息的网页的网页信息以及与网页信息对应的是否泄露保密信息的确定结果。
如图3所示,本发明实施例提供的另一种发现保密信息泄露的方法,步骤S220可以包括:
S221、将各搜索引擎输出的网页的网页信息进行对比,根据对比结果从各搜索引擎输出的网页信息中筛选出各搜索引擎均输出的网页的网页信息。
具体的,可以将一个搜索引擎输出的网页的网页信息与其他搜索引擎输出的网页的网页信息进行对比,根据对比结果,从该一个搜索引擎输出的网页的网页信息中筛选出分别与其他搜索引擎输出的网页的网页信息均相同的网页的网页信息。例如:从搜索引擎A中输出100个网页的网页信息,从搜索引擎B中输出80个网页的网页信息,将搜索引擎A输出的100个网页信息与搜索引擎B输出的80个网页信息进行对比,筛选出搜索引擎A与搜索引擎B均输出的网页的网页信息50个,也就是说该50个网页的网页信息中的任一个网页的网页信息既在搜索引擎A中输出,又在搜索引擎B中输出。
将一个搜索引擎输出的网页的网页信息与另一个搜索引擎输出的网页的网页信息进行对比的过程可以具体包括:
将一个搜索引擎输出的网页的统一资源定位符与另一个搜索引擎输出的网页的统一资源定位符进行对比,当统一资源定位符相同时,可以对比这两个网页的标题是否相同,如果相同,则确定该网页是这两个搜索引擎均输出的网页。可以理解的是,在这两个网页的统一资源定位符相同时,也可以对比这两个网页的摘要是否相同,如果相同,则确定该网页是这两个搜索引擎均输出的网页。可以理解的是,在这两个网页的统一资源定位符相同时,还可以同时对比这两个网页的标题和摘要,如果这两个网页既标题相同又摘要相同,则确定该网页是这两个搜索引擎均输出的网页。
S300、根据获得的所述网页信息,在所述多个网页中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在所述至少一个网页中泄露。
在实际应用中,本发明在保密信息检索任务中为第二保密信息关键词组设置的检索环境可以为:步骤S200获得的多个网页。这样,步骤S300就可以在步骤S200获得的多个网页中继续进行检索,本发明通过二次检索可以有效提高检索结果的准确度。
具体的,网页内容为网页所携带的各种信息,网页内容可以包括标题、作者、日期、概要、正文、程序代码、图片、音频和视频中的一种或多种。本发明可以在从各搜索引擎输出的网页信息中筛选出各搜索引擎均输出的网页的网页信息中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在该至少一个网页中泄露。例如,搜索引擎A与搜索引擎B均输出的网页的网页信息一共50个,在该50个网页中的至少一个网页的网页内容中对第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在该网页的网页内容中泄露。
为了提升在多个网页中的至少一个网页的网页内容中对第二保密信息关键词组中的至少一个保密信息关键词进行检索的效率,本实施例还可以通过预设的无用内容字符,将该多个网页中的至少一个网页的网页内容中的无用内容进行删除。例如,通过“html、table、tab、div”等一些无用内容字符,对该网页的网页内容中的无用内容进行删除,接着在该网页的已删除无用内容的网页内容中对第二保密信息关键词组中的至少一个保密信息关键词进行检索。通过排除在网页的无用内容中检索的方式,不仅提升了检索的效率,也提高了检索的正确性。
一般来说,当检索到第二保密信息关键词组中的至少一个保密信息关键词出现在该网页的网页内容中时,可以确定保密信息在该网页的网页内容中泄露,反之,则确定保密信息没有在该网页泄露。
可以理解的是,在确定保密信息在某网页泄露后,相关人员可以通过向该网页的管理人员投诉等形式进行维权以使该保密信息从该网页中删除。
其中,本实施例在对某网页进行步骤S300的处理后,可以将该网页的网页信息放入历史记录中。这样,历史记录中的网页信息即为已经确定过是否泄露保密信息的网页的网页信息。当然,本发明除将网页信息放入历史记录中外,还可以将对网页进行步骤S300的处理后得到的是否泄露保密信息的确定结果放入历史记录中。具体的,历史记录中可以保存有:已经确定过是否泄露保密信息的网页的网页信息以及与网页信息对应的是否泄露保密信息的确定结果。
具体的,在进行投诉等形式的维权后,相关人员还需要监控维权效果,即:保密信息是否在维权后及时的从网页中删除。
在本发明另一实施例中,在根据步骤S300确定保密信息在某网页中泄露后,可以将该泄露保密信息的网页的网页信息与历史记录中的网页的网页信息进行对比,以确定历史记录中是否存在该泄露保密信息的网页的网页信息。如果存在,则可以进一步获得与历史记录中的该网页信息对应的确定结果,如果确定结果为:已泄漏,则可以确定该确定结果的生成时刻与当前时刻的时间间隔是否超过预设的时长,如果超过,可以生成保密信息泄露跟进提醒。该保密信息泄露跟进提醒可以提醒相关人员及时跟进该泄露保密信息的网页的维权结果。可以理解的是,虽然曾发现某网页存在泄露的保密信息,但后续执行本发明的过程中又发现该网页仍旧存在泄露的保密信息,则说明之前的维权没有达到相应效果或忘记了维权,需要提醒相关人员及时跟进。
本发明实施例提供的一种发现保密信息泄露的方法,可以获得保密信息检索任务,其中,所述保密信息检索任务携带有:第一保密信息关键词组和第二保密信息关键词组;通过搜索引擎对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得多个网页的网页信息;在所述多个网页中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在所述至少一个网页中泄露,利用使保密信息检索任务自动在搜索引擎中检索的方式,克服了人工检索效率较低的技术问题,进而达到了及时和高效的从互联网上的海量信息中发现泄漏的保密信息的技术效果。
可选的,基于图1所示的方法,如图4所示,本发明实施例提供的另一种发现保密信息泄露的方法,还可以包括:
S400、如果确定保密信息在所述至少一个网页中泄露,则生成保密信息泄露提醒。
具体的,如果确定保密信息在至少一个网页中泄露,则生成保密信息泄露提醒,该保密信息泄露提醒可以在执行本实施例的设备中进行展示,也可以通过预先指定的通信方式发送至使用该通信方式的预先指定的设备。例如,该保密信息泄露提醒可以以弹窗的方式展示在执行本实施例的设备中,也可以通过预先指定的手机号码将该保密信息泄露提醒以短信或彩信的方式发送至该手机上。
保密信息泄露提醒可以是通过发送警告信息的方式进行提醒,其中警告信息可以根据保密信息所泄露到的网页和预设的警告信息模板生成。具体可以将保密信息所泄露到的网页的至少部分网页内容添加至预设的警告信息模板中,生成警告信息。为了便于理解,此处结合图5进行举例说明:通过将保密信息所泄露到的网页中的部分网页内容和该网页的统一资源定位符添加至预设的警告信息模板中,生成警告信息,其中,警告信息中的日期可以根据该警告信息的生成时间设置。警告信息还可以包括保密信息所泄露到的网页的标题、来源站点、摘要、作者中的一种或多种。可以理解的是,预设的警告信息模板还可以有多种样式,图5所示只是其中一种样式。
保密信息泄露提醒除了类似上述生成警告信息等文字方式进行提醒,还可以通过警报声和执行本实施例的设备界面闪动等方式进行提醒。可以理解的是,该保密信息泄露提醒的提醒方式可以具有多种方式,在此不做进一步的限定。
可选的,如果确定保密信息在所述至少一个网页中泄露,本发明实施例提供的另一种发现保密信息泄露的方法还可以将该网页进行截屏并将该截屏进行保存。通过将保密信息所泄露在的网页的网页内容进行截屏并将该截屏进行保存,可以留存保密信息在该网页泄露的证据。
可选的,基于图1所示的方法,如图6所示,本发明实施例提供的另一种发现保密信息泄露的方法,在步骤S300之前,所述方法还可以包括:
S500、确定所述多个网页对应的网站,获得与确定的网站对应的网站登录信息;
可以理解的是,搜索引擎输出的网页对应的网站中可能会存在需要登录才能获得该网页的全部内容的网站,此时需要获得该网站的登录信息访问该网页的全部内容。可选的,本发明可以从预先建立的各网站的登录信息数据库中获得与确定的网站对应的网站登录信息。例如,当搜索引擎输出的网页对应的网站A需要进行登录才能进行后续步骤,则从预先建立的各网站的登录信息数据库中确定是否存在该网站A的登录信息,如果有,则进行下一个步骤。本发明也可以生成该网站需要登录信息的提醒,通过对该提醒反馈的内容获得该网站的登录信息。例如,将该网站需要登录信息的提醒发送至预先指定的邮箱,让该邮箱的使用者提供该网站的登录信息。
优选的,若保密信息检索任务携带有与网站对应的网站登录信息,则还可以从保密信息检索任务中获得与网站对应的网站登录信息。
S600、通过获得的网站登录信息登录确定的网站,获得所述多个网页的网页内容。
具体的,通过获得的网站登录信息登录确定的网站之后,对该网站的首页中至少一个下一级链接地址进行访问,获得该链接地址指向的网页的网页内容。可以理解的是,在多数情况下,登录某一网站后,会出现针对不同版块有多个下一级链接地址,此时对该下一级链接地址进行访问,以获得该链接地址指向的网页的网页内容,若该下一级链接地址指向的网页的网页内容中存在下下一级链接地址,则继续对该下下一级链接地址进行访问,获得该下下一级链接地址指向的网页的网页内容,直到网页内容中不存在链接地址。例如,登录网站A后,出现“综艺节目、电视剧和电影”三个版块的链接地址,则对这三个版块的链接地址进行访问,获得这三个版块的链接地址指向的网页的网页内容。
当发现获得的网页的网页内容中存在保密信息时,可以基于图1所示的方法,如图7所示,本发明实施例提供的另一种发现保密信息泄露的方法,还可以包括:
S700、如果确定保密信息在所述至少一个网页中泄露,获得所述保密信息所泄露到的网页的管理方的联系方式。
具体的,当确定保密信息在网页中泄露之后,获得该网页的管理方的联系方式,联系方式可以通过网页中的“联系方式”、“手机”、“邮箱”等关键字获得,也可以通过网页中一些特定的字符段获得,例如:123456@xx.com、138xxxxxxx。联系方式还包括网页中类似“意见反馈”、“Email”、“Call”的链接地址。可以理解的是,该网页中的留言功能也可以是该网页的联系方式。
可选的,基于图7所示的方法,如图8所示,本发明实施例提供的另一种发现保密信息泄露的方法,在步骤S700之后,所述方法还可以包括:
S800、通过获得的所述联系方式,向所述管理方发送泄密信息删除告知函。
具体的,通过获得的联系方式,可以向管理方发送将预先编辑完成的泄密信息删除告知函。泄密信息删除告知函可以是根据实际情况人工编辑的,例如,在确定保密信息在网页中泄露之后,该保密信息的所属方可以在编辑泄密信息删除告知函完成之后,通过获得的该网页的联系方式发送至该网页的管理方。
当然,泄密信息删除告知函也可以根据模板自动编辑的,详细自动编辑泄密信息删除告知函的步骤可以如图9的步骤S810所示。
本发明实施例提供的另一种发现保密信息泄露的方法,图8所示的步骤S800可以包括:
S810、根据所述保密信息所泄露到的网页和预设的泄密信息删除告知函模板生成泄密信息删除告知函,将生成的泄密信息删除告知函发送至所述联系方式。
具体的,将泄露保密信息的网页中的至少部分网页内容添加到预设的泄密信息删除告知函模板中生成泄露信息删除告知函,将生成的泄密信息删除告知函发送至所述联系方式。为了便于理解,此处结合图10进行举例说明:通过将保密信息所泄露到的网页中的部分网页内容和该网页的统一资源定位符添加至预设的泄密信息删除告知函模板中,生成泄露信息删除告知函,其中,泄露信息删除告知函中的日期可以根据发送该告知函的日期设置。可以理解的是,预设的泄密信息删除告知函模板还可以有多种样式,图10所示只是其中一种样式。
与上述方法实施例相对应,本发明实施例还提供了一种发现保密信息泄露的装置。
如图11所示,本发明实施例提供的一种发现保密信息泄露的装置,可以包括:任务获得单元100、第一检索单元200和第二检索单元300,
所述任务获得单元100,用于获得保密信息检索任务,其中,所述保密信息检索任务携带有:第一保密信息关键词组和第二保密信息关键词组;
具体的,保密信息检索任务可以是技术人员根据实际需求制定的。具体的,第一保密信息关键词组和第二保密信息关键词组中都可以包括至少一个保密信息关键词。在实际应用中,技术人员可以根据希望检索的保密信息的具体内容来设置第一保密信息关键词组和第二保密信息关键词组中的保密信息关键词。其中,保密信息关键词可以包括:保密技术名称、保密技术关键手段名称、保密技术知情人姓名、保密技术所属机构名称和保密技术所属技术领域中的一个或多个。可选的,第一保密信息关键词组和第二保密信息关键词组可以均包括相同的保密信息关键词,例如保密技术名称,当然二者包括的保密信息关键词也可以不完全相同或者二者未包括相同的保密信息关键词,本发明在此不做限定。
在本发明其他实施例中,第一保密信息关键词组中的保密信息关键词和第二保密信息关键词组中的保密信息关键词可以相关联。例如:第一保密信息关键词组包括保密信息关键词“A项目”,第二保密信息关键词组包括保密信息关键词“a1技术”、“a2技术”等。其中,a1技术和a2技术为A项目中采用的保密技术,因此“A项目”与“a1技术”、“a2技术”相关联的。再如:第一保密信息关键词组包括保密信息关键词“B公司邮箱”,第二保密信息关键词组包括保密信息关键词“B公司张某邮箱账号”、“B公司张某邮箱密码”等。
其中,所述保密信息检索任务还可以携带有:检索逻辑,其中,所述检索逻辑为关键词之间的逻辑,该逻辑可以为和、或、非等。在实际应用中,本发明的第一保密信息关键词组、第二保密信息关键词组和检索逻辑可以为位于正则表达式中。具体的,技术人员可以根据第一保密信息关键词组和第一保密信息关键词组中各保密信息关键词之间的检索逻辑编写至少一条正则表达式并将编写的正则表达式放入保密信息检索任务中。相应的,技术人员也可以根据第二保密信息关键词组和第二保密信息关键词组中各保密信息关键词之间的检索逻辑编写至少一条正则表达式并将编写的正则表达式放入保密信息检索任务中。
在实际应用中,保密信息的形式可以包括:公司内部邮箱密码、数据库密码、公司内部或外部网站密码、公司内部资料、开发文档、系统使用手册、系统源代码等。
可选的,所述保密信息检索任务还可以携带有:保密信息检索任务执行时间信息,具体的,该时间信息可以为具体的执行时刻,也可以为执行的时间间隔。例如,可以制定保密信息检索任务在晚上7时执行,也可以制定每隔一小时执行一次保密信息检索任务。
可选的,所述保密信息检索任务还可以携带有:制定保密信息检索任务的检索环境,其中,检索环境为进行保密信息检索所使用到的搜索引擎或网站。本发明可以在检索环境中检索保密信息。具体的,本发明中作为检索环境的网站可以为具有信息共享功能的网站。
所述第一检索单元200,用于通过搜索引擎对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得多个网页的网页信息;
具体的,搜索引擎可以包括网页搜索引擎、垂直搜索引擎和集合式搜索引擎中的一种或多种。网页信息可以包括该网页的统一资源定位符(Uniform Resource Locator,URL),也可以包括其他能够将该网页与其他网页进行区分的信息。网页信息还可以包括标题和摘要。
在实际应用中,本发明在保密信息检索任务为第一保密信息关键词组设置的检索环境可以为搜索引擎。
可选的,基于图11所示的装置,如图12所示,本发明实施例提供的另一种发现保密信息泄露的装置,所述第一检索单元200包括:第一检索子单元210和对比筛选单元220,
所述第一检索子单元210,用于在至少两个搜索引擎中分别对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得各搜索引擎输出的多个网页的网页信息;
具体的,获得网页信息的方式可以通过在至少两个搜索引擎中分别对第一保密信息关键词组中的保密信息关键词进行检索,获得各搜索引擎输出的多个网页的网页信息。例如,通过搜索引擎A和搜索引擎B分别对第一保密信息关键词组中的保密信息关键词“‘银行’和‘邮件’和‘密码’”进行检索,获得搜索引擎A输出的100个网页的网页信息,获得搜索引擎B输出的80个网页的网页信息。
所述对比筛选单元220,用于将各搜索引擎输出的网页的网页信息进行对比,根据对比结果从各搜索引擎输出的网页信息中筛选出至少部分网页信息。
具体的,将在不同的搜索引擎上对第一保密信息关键词组中的保密信息关键词进行检索后分别输出的网页信息进行对比,例如,通过搜索引擎A和搜索引擎B分别对第一保密信息关键词组中的保密信息关键词“‘银行’和‘邮件’和‘密码’”进行检索,从搜索引擎A中输出100个网页的网页信息,从搜索引擎B中输出80个网页的网页信息,将搜索引擎A输出的100个网页的网页信息与搜索引擎B输出的80个网页的网页信息进行对比。根据不同的搜索引擎分别输出的网页信息的对比结果,可以从各搜索引擎输出的网页信息中筛选出至少部分满足预设条件的网页信息。具体的,预设条件可以根据需要进行制定,其中一种预设条件可以为:均存在于各搜索引擎输出的网页的网页信息中。当某网页的网页信息在各搜索引擎输出的网页的网页信息中均存在时,则该网页的网页信息满足该预设条件。
此外,在获得各搜索引擎输出的多个网页的网页信息之后,本实施例还可以将获得的各网页的网页信息与历史记录中的网页的网页信息进行对比,根据对比结果在获得的多个网页的网页信息中去除在历史记录中存在的网页的网页信息。其中,本实施例的第二检索单元300在对某网页进行处理后,可以将该网页的网页信息放入历史记录中。这样,历史记录中的网页信息即为已经确定过是否泄露保密信息的网页的网页信息。当后续处理过程中第一检索单元200再次获得历史记录中存在的网页的网页信息后,可以不使用第二检索单元300对已经确定是否泄露保密信息的网页进行处理。可以理解的是,通过对比两个网页的网页信息(如URL),本发明可以确定这两个网页是否为同一网页。当然,本发明除将网页信息放入历史记录中外,还可以将第二检索单元300对网页进行处理后得到的是否泄露保密信息的确定结果放入历史记录中。具体的,历史记录中可以保存有:已经确定过是否泄露保密信息的网页的网页信息以及与网页信息对应的是否泄露保密信息的确定结果。
可选的,所述对比筛选单元220具体用于将各搜索引擎输出的网页的网页信息进行对比,根据对比结果从各搜索引擎输出的网页信息中筛选出各搜索引擎均输出的网页的网页信息。
具体的,可以将一个搜索引擎输出的网页的网页信息与其他搜索引擎输出的网页的网页信息进行对比,根据对比结果,从该一个搜索引擎输出的网页的网页信息中筛选出分别与其他搜索引擎输出的网页的网页信息均相同的网页的网页信息。例如:从搜索引擎A中输出100个网页的网页信息,从搜索引擎B中输出80个网页的网页信息,将搜索引擎A输出的100个网页信息与搜索引擎B输出的80个网页信息进行对比,筛选出搜索引擎A与搜索引擎B均输出的网页的网页信息50个,也就是说该50个网页的网页信息中的任一个网页的网页信息既在搜索引擎A中输出,又在搜索引擎B中输出。
将一个搜索引擎输出的网页的网页信息与另一个搜索引擎输出的网页的网页信息进行对比的过程可以具体包括:
将一个搜索引擎输出的网页的统一资源定位符与另一个搜索引擎输出的网页的统一资源定位符进行对比,当统一资源定位符相同时,可以对比这两个网页的标题是否相同,如果相同,则确定该网页是这两个搜索引擎均输出的网页。可以理解的是,在这两个网页的统一资源定位符相同时,也可以对比这两个网页的摘要是否相同,如果相同,则确定该网页是这两个搜索引擎均输出的网页。可以理解的是,在这两个网页的统一资源定位符相同时,还可以同时对比这两个网页的标题和摘要,如果这两个网页既标题相同又摘要相同,则确定该网页是这两个搜索引擎均输出的网页。
所述第二检索单元300,用于根据获得的所述网页信息,在所述多个网页中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在所述至少一个网页中泄露。
在实际应用中,本发明在保密信息检索任务中为第二保密信息关键词组设置的检索环境可以为:第一检索单元200获得的多个网页。这样,第二检索单元300就可以在第一检索单元200获得的多个网页中继续进行检索,本发明通过二次检索可以有效提高检索结果的准确度。
具体的,网页内容为网页所携带的各种信息,网页内容可以包括标题、作者、日期、概要、正文、程序代码、图片、音频和视频中的一种或多种。本发明可以在从各搜索引擎输出的网页信息中筛选出各搜索引擎均输出的网页的网页信息中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在该至少一个网页中泄露。例如,搜索引擎A与搜索引擎B均输出的网页的网页信息一共50个,在该50个网页中的至少一个网页的网页内容中对第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在该网页的网页内容中泄露。
为了提升在多个网页中的至少一个网页的网页内容中对第二保密信息关键词组中的至少一个保密信息关键词进行检索的效率,本实施例还可以通过预设的无用内容字符,将该多个网页中的至少一个网页的网页内容中的无用内容进行删除。例如,通过“html、table、tab、div”等一些无用内容字符,对该网页的网页内容中的无用内容进行删除,接着在该网页的已删除无用内容的网页内容中对第二保密信息关键词组中的至少一个保密信息关键词进行检索。通过排除在网页的无用内容中检索的方式,不仅提升了检索的效率,也提高了检索的正确性。
一般来说,当检索到第二保密信息关键词组中的至少一个保密信息关键词出现在该网页的网页内容中时,可以确定保密信息在该网页的网页内容中泄露,反之,则确定保密信息没有在该网页泄露。
可以理解的是,在确定保密信息在某网页泄露后,相关人员可以通过向该网页的管理人员投诉等形式进行维权以使该保密信息从该网页中删除。
其中,本实施例在第二检索单元300对某网页进行处理后,可以将该网页的网页信息放入历史记录中。这样,历史记录中的网页信息即为已经确定过是否泄露保密信息的网页的网页信息。当然,本发明除将网页信息放入历史记录中外,还可以将第二检索单元300对网页进行处理后得到的是否泄露保密信息的确定结果放入历史记录中。具体的,历史记录中可以保存有:已经确定过是否泄露保密信息的网页的网页信息以及与网页信息对应的是否泄露保密信息的确定结果。
具体的,在进行投诉等形式的维权后,相关人员还需要监控维权效果,即:保密信息是否在维权后及时的从网页中删除。
在本发明另一实施例中,在根据第二检索单元300确定保密信息在某网页中泄露后,可以将该泄露保密信息的网页的网页信息与历史记录中的网页的网页信息进行对比,以确定历史记录中是否存在该泄露保密信息的网页的网页信息。如果存在,则可以进一步获得与历史记录中的该网页信息对应的确定结果,如果确定结果为:已泄漏,则可以确定该确定结果的生成时刻与当前时刻的时间间隔是否超过预设的时长,如果超过,可以生成保密信息泄露跟进提醒。该保密信息泄露跟进提醒可以提醒相关人员及时跟进该泄露保密信息的网页的维权结果。可以理解的是,虽然曾发现某网页存在泄露的保密信息,但后续执行本发明的过程中又发现该网页仍旧存在泄露的保密信息,则说明之前的维权没有达到相应效果或忘记了维权,需要提醒相关人员及时跟进。
本发明实施例提供的一种发现保密信息泄露的装置,可以获得保密信息检索任务,其中,所述保密信息检索任务携带有:第一保密信息关键词组和第二保密信息关键词组;通过搜索引擎对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得多个网页的网页信息;在所述多个网页中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在所述至少一个网页中泄露,利用使保密信息检索任务自动在搜索引擎中检索的方式,克服了人工检索效率较低的技术问题,进而达到了及时和高效的从互联网上的海量信息中发现泄漏的保密信息的技术效果。
可选的,基于图12所示的装置,如图13所示,本发明实施例提供的另一种发现保密信息泄露的装置,还可以包括:提醒生成单元400,
所述提醒生成单元400,用于第二检索单元300确定保密信息在所述至少一个网页中泄露以后,生成保密信息泄露提醒。
具体的,如果确定保密信息在至少一个网页中泄露,则生成保密信息泄露提醒,该保密信息泄露提醒可以在执行本实施例的设备中进行展示,也可以通过预先指定的通信方式发送至使用该通信方式的预先指定的设备。例如,该保密信息泄露提醒可以以弹窗的方式展示在执行本实施例的设备中,也可以通过预先指定的手机号码将该保密信息泄露提醒以短信或彩信的方式发送至该手机上。
保密信息泄露提醒可以是通过发送警告信息的方式进行提醒,其中警告信息可以根据保密信息所泄露到的网页和预设的警告信息模板生成。具体可以将保密信息所泄露到的网页的至少部分网页内容添加至预设的警告信息模板中,生成警告信息。为了便于理解,此处结合图5进行举例说明:通过将保密信息所泄露到的网页中的部分网页内容和该网页的统一资源定位符添加至预设的警告信息模板中,生成警告信息,其中,警告信息中的日期可以根据该警告信息的生成时间设置。警告信息还可以包括保密信息所泄露到的网页的标题、来源站点、摘要、作者中的一种或多种。可以理解的是,预设的警告信息模板还可以有多种样式,图5所示只是其中一种样式。
保密信息泄露提醒除了类似上述生成警告信息等文字方式进行提醒,还可以通过警报声和执行本实施例的设备界面闪动等方式进行提醒。可以理解的是,该保密信息泄露提醒的提醒方式可以具有多种方式,在此不做进一步的限定。
可选的,本发明实施例提供的另一种发现保密信息泄露的装置还可以包括网页截屏单元,该网页截屏单元用于在第二检索单元300确定保密信息在所述至少一个网页中泄露后,将该网页进行截屏并将该截屏进行保存。通过将保密信息所泄露在的网页的网页内容进行截屏并将该截屏进行保存,可以留存保密信息在该网页泄露的证据。
可选的,基于图13所示的装置,如图14所示,本发明实施例提供的另一种发现保密信息泄露的装置,还可以包括:网站登录信息获得单元500和网页内容获得单元600,
所述网站登录信息获得单元500,在第二检索单元300在所述多个网页中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索之前,用于确定所述多个网页对应的网站,获得与确定的网站对应的网站登录信息;
可以理解的是,搜索引擎输出的网页对应的网站中可能会存在需要登录才能获得该网页的全部内容的网站,此时需要获得该网站的登录信息访问该网页的全部内容。可选的,本发明可以从预先建立的各网站的登录信息数据库中获得与确定的网站对应的网站登录信息。例如,当搜索引擎输出的网页对应的网站A需要进行登录才能进行后续步骤,则从预先建立的各网站的登录信息数据库中确定是否存在该网站A的登录信息,如果有,则进行下一个步骤。本发明也可以生成该网站需要登录信息的提醒,通过对该提醒反馈的内容获得该网站的登录信息。例如,将该网站需要登录信息的提醒发送至预先指定的邮箱,让该邮箱的使用者提供该网站的登录信息。
优选的,若保密信息检索任务携带有与网站对应的网站登录信息,则还可以从保密信息检索任务中获得与网站对应的网站登录信息。
所述网页内容获得单元600,用于通过获得的网站登录信息登录确定的网站,获得所述多个网页的网页内容。
具体的,通过获得的网站登录信息登录确定的网站之后,对该网站的首页中至少一个下一级链接地址进行访问,获得该链接地址指向的网页的网页内容。可以理解的是,在多数情况下,登录某一网站后,会出现针对不同版块有多个下一级链接地址,此时对该下一级链接地址进行访问,以获得该链接地址指向的网页的网页内容,若该下一级链接地址指向的网页的网页内容中存在下下一级链接地址,则继续对该下下一级链接地址进行访问,获得该下下一级链接地址指向的网页的网页内容,直到网页内容中不存在链接地址。例如,登录网站A后,出现“综艺节目、电视剧和电影”三个版块的链接地址,则对这三个版块的链接地址进行访问,获得这三个版块的链接地址指向的网页的网页内容。
当第二检索单元300发现获得的网页的网页内容中存在保密信息时,可以基于图14所示的装置,如图15所示,本发明实施例提供的另一种发现保密信息泄露的装置,还可以包括:联系方式获得单元700,
所述联系方式获得单元700,用于在第二第二检索单元300确定保密信息在所述至少一个网页中泄露以后,获得所述保密信息所泄露到的网页的管理方的联系方式。
具体的,当确定保密信息在网页中泄露之后,联系方式获得单元700获得该网页的管理方的联系方式,联系方式可以通过网页中的“联系方式”、“手机”、“邮箱”等关键字获得,也可以通过网页中一些特定的字符段获得,例如:123456@xx.com、138xxxxxxx。联系方式还包括网页中类似“意见反馈”、“Email”、“Call”的链接地址。可以理解的是,该网页中的留言功能也可以是该网页的联系方式。
可选的,基于图15所示的装置,如图16所示,本发明实施例提供的另一种发现保密信息泄露的装置,还可以包括:告知函发送单元800;
所述告知函发送单元800,在联系方式获得单元700获得所述保密信息所泄露到的网页的管理方的联系方式之后,用于通过获得的所述联系方式,向所述管理方发送泄密信息删除告知函。
具体的,通过联系方式获得单元700获得的联系方式,告知函发送单元800可以向管理方发送将预先编辑完成的泄密信息删除告知函。泄密信息删除告知函可以是根据实际情况人工编辑的,例如,在确定保密信息在网页中泄露之后,该保密信息的所属方可以在编辑泄密信息删除告知函完成之后,通过获得的该网页的联系方式发送至该网页的管理方。
当然,泄密信息删除告知函也可以根据模板自动编辑的,具体的,所述告知函发送单元800可以根据所述保密信息所泄露到的网页和预设的泄密信息删除告知函模板生成泄密信息删除告知函,将生成的泄密信息删除告知函发送至所述联系方式。
可选的,所述告知函发送单元800具体用于根据所述保密信息所泄露到的网页和预设的泄密信息删除告知函模板生成泄密信息删除告知函,将生成的泄密信息删除告知函发送至所述联系方式。
具体的,将泄露保密信息的网页中的至少部分网页内容添加到预设的泄密信息删除告知函模板中生成泄露信息删除告知函,将生成的泄密信息删除告知函发送至所述联系方式。为了便于理解,此处结合图10进行举例说明:通过将保密信息所泄露到的网页中的部分网页内容和该网页的统一资源定位符添加至预设的泄密信息删除告知函模板中,生成泄露信息删除告知函,其中,泄露信息删除告知函中的日期可以根据发送该告知函的日期设置。可以理解的是,预设的泄密信息删除告知函模板还可以有多种样式,图10所示只是其中一种样式。
所述一种发现保密信息泄露的装置包括处理器和存储器,上述任务获得单元100、第一检索单元200和第二检索单元300等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来及时和高效的从互联网上的海量信息中发现泄漏的保密信息。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM),存储器包括至少一个存储芯片。
本发明实施例提供了一种存储介质,其上存储有程序,该程序被处理器执行时实现所述一种发现保密信息泄露的方法。
本发明实施例提供了一种处理器,所述处理器用于运行程序,其中,所述程序运行时执行所述一种发现保密信息泄露的方法。
本发明实施例提供了一种设备,设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序,处理器执行程序时实现以下步骤:
获得保密信息检索任务,其中,所述保密信息检索任务携带有:第一保密信息关键词组和第二保密信息关键词组;
通过搜索引擎对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得多个网页的网页信息;
根据获得的所述网页信息,在所述多个网页中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在所述至少一个网页中泄露。
本文中的设备可以是服务器、PC、PAD、手机等。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序:
获得保密信息检索任务,其中,所述保密信息检索任务携带有:第一保密信息关键词组和第二保密信息关键词组;
通过搜索引擎对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得多个网页的网页信息;
根据获得的所述网页信息,在所述多个网页中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在所述至少一个网页中泄露。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。

Claims (10)

1.一种发现保密信息泄露的方法,其特征在于,包括:
获得保密信息检索任务,其中,所述保密信息检索任务携带有:第一保密信息关键词组和第二保密信息关键词组;
通过搜索引擎对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得多个网页的网页信息;
根据获得的所述网页信息,在所述多个网页中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在所述至少一个网页中泄露。
2.根据权利要求1所述的方法,其特征在于,还包括:
如果确定保密信息在所述至少一个网页中泄露,则生成保密信息泄露提醒。
3.根据权利要求1所述的方法,其特征在于,所述通过搜索引擎对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得多个网页的网页信息,包括:
在至少两个搜索引擎中分别对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得各搜索引擎输出的多个网页的网页信息;
将各搜索引擎输出的网页的网页信息进行对比,根据对比结果从各搜索引擎输出的网页信息中筛选出至少部分网页信息。
4.根据权利要求3所述的方法,其特征在于,所述将各搜索引擎输出的网页的网页信息进行对比,根据对比结果从各搜索引擎输出的网页信息中筛选出至少部分网页信息,包括:
将各搜索引擎输出的网页的网页信息进行对比,根据对比结果从各搜索引擎输出的网页信息中筛选出各搜索引擎均输出的网页的网页信息。
5.根据权利要求1所述的方法,其特征在于,在所述根据获得的所述网页信息,在所述多个网页中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索之前,所述方法还包括:
确定所述多个网页对应的网站,获得与确定的网站对应的网站登录信息;
通过获得的网站登录信息登录确定的网站,获得所述多个网页的网页内容。
6.根据权利要求5所述的方法,其特征在于,所述保密信息检索任务携带有与网站对应的网站登录信息。
7.根据权利要求1所述的方法,其特征在于,还包括:
如果确定保密信息在所述至少一个网页中泄露,获得所述保密信息所泄露到的网页的管理方的联系方式。
8.根据权利要求7所述的方法,其特征在于,在所述获得所述保密信息所泄露到的网页的管理方的联系方式之后,所述方法还包括:
通过获得的所述联系方式,向所述管理方发送泄密信息删除告知函。
9.根据权利要求8所述的方法,其特征在于,所述通过获得的所述联系方式,向所述管理方发送泄密信息删除告知函,包括:
根据所述保密信息所泄露到的网页和预设的泄密信息删除告知函模板生成泄密信息删除告知函,将生成的泄密信息删除告知函发送至所述联系方式。
10.一种发现保密信息泄露的装置,其特征在于,包括:任务获得单元、第一检索单元和第二检索单元,
所述任务获得单元,用于获得保密信息检索任务,其中,所述保密信息检索任务携带有:第一保密信息关键词组和第二保密信息关键词组;
所述第一检索单元,用于通过搜索引擎对所述第一保密信息关键词组中的至少一个保密信息关键词进行检索,获得多个网页的网页信息;
所述第二检索单元,用于根据获得的所述网页信息,在所述多个网页中的至少一个网页的网页内容中对所述第二保密信息关键词组中的至少一个保密信息关键词进行检索,确定保密信息是否在所述至少一个网页中泄露。
CN201910620224.5A 2019-07-10 2019-07-10 一种发现保密信息泄露的方法及装置 Pending CN110334280A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910620224.5A CN110334280A (zh) 2019-07-10 2019-07-10 一种发现保密信息泄露的方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910620224.5A CN110334280A (zh) 2019-07-10 2019-07-10 一种发现保密信息泄露的方法及装置

Publications (1)

Publication Number Publication Date
CN110334280A true CN110334280A (zh) 2019-10-15

Family

ID=68146198

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910620224.5A Pending CN110334280A (zh) 2019-07-10 2019-07-10 一种发现保密信息泄露的方法及装置

Country Status (1)

Country Link
CN (1) CN110334280A (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106282A (zh) * 2013-02-27 2013-05-15 王义东 一种网页搜索与展示的方法
CN103390024A (zh) * 2013-06-19 2013-11-13 北京时间中国网科技有限公司 一种搜索引擎数据采集入口构建方法和装置
CN103744944A (zh) * 2013-12-31 2014-04-23 上海伯释信息科技有限公司 网络爬虫在抓取网页或数据时再过滤的方法
CN104516887A (zh) * 2013-09-27 2015-04-15 腾讯科技(深圳)有限公司 一种网页数据搜索方法、装置和系统
CN105893622A (zh) * 2016-04-29 2016-08-24 深圳市中润四方信息技术有限公司 一种聚合搜索方法及聚合搜索系统
CN108694324A (zh) * 2017-04-06 2018-10-23 腾讯科技(深圳)有限公司 一种信息泄露监控方法以及装置
CN109308330A (zh) * 2018-07-24 2019-02-05 国家计算机网络与信息安全管理中心 基于互联网的企业泄露信息提取、分析及分类的方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103106282A (zh) * 2013-02-27 2013-05-15 王义东 一种网页搜索与展示的方法
CN103390024A (zh) * 2013-06-19 2013-11-13 北京时间中国网科技有限公司 一种搜索引擎数据采集入口构建方法和装置
CN104516887A (zh) * 2013-09-27 2015-04-15 腾讯科技(深圳)有限公司 一种网页数据搜索方法、装置和系统
CN103744944A (zh) * 2013-12-31 2014-04-23 上海伯释信息科技有限公司 网络爬虫在抓取网页或数据时再过滤的方法
CN105893622A (zh) * 2016-04-29 2016-08-24 深圳市中润四方信息技术有限公司 一种聚合搜索方法及聚合搜索系统
CN108694324A (zh) * 2017-04-06 2018-10-23 腾讯科技(深圳)有限公司 一种信息泄露监控方法以及装置
CN109308330A (zh) * 2018-07-24 2019-02-05 国家计算机网络与信息安全管理中心 基于互联网的企业泄露信息提取、分析及分类的方法

Similar Documents

Publication Publication Date Title
US10803097B2 (en) Data processing systems for generating and populating a data inventory
US10438016B2 (en) Data processing systems for generating and populating a data inventory
US10282370B1 (en) Data processing systems for generating and populating a data inventory
US11240273B2 (en) Data processing and scanning systems for generating and populating a data inventory
US10949565B2 (en) Data processing systems for generating and populating a data inventory
US10997318B2 (en) Data processing systems for generating and populating a data inventory for processing data access requests
US10438020B2 (en) Data processing systems for generating and populating a data inventory for processing data access requests
US8984051B2 (en) Computer implemented methods and apparatus for communicating feed information to one or more recipients
US9444705B2 (en) Bringing attention to an activity
US20140373176A1 (en) Providing access control for public and private document fields
KR101709790B1 (ko) 네트워크상의 유저의 프레즌스에 관한 취합 리포트를 생성하는 방법
US10970675B2 (en) Data processing systems for generating and populating a data inventory
US11429674B2 (en) Processing event messages for data objects to determine data to redact from a database
US11222309B2 (en) Data processing systems for generating and populating a data inventory
CN110334280A (zh) 一种发现保密信息泄露的方法及装置
CN115730012A (zh) 一种数据库脱敏方法及系统
Hobart The ‘dark data’conundrum
Prakashbhai et al. Inference patterns from Big Data using aggregation, filtering and tagging-A survey
US20070061276A1 (en) Device and method for registering a plurality of types of information
US11544667B2 (en) Data processing systems for generating and populating a data inventory
Wu et al. Big data security framework based on encryption
Raicu Knowledge step in advanced materials: Polymeric Wikia
CN113128949A (zh) 一种用来对政策发布进行管理的政企服务平台
Nürnberger et al. On Privacy–Awareness in Social Networking Services

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication

Application publication date: 20191015

RJ01 Rejection of invention patent application after publication