CN109871713A

CN109871713A - 一种基于网页机器人的隐私保护方法

Info

Publication number: CN109871713A
Application number: CN201910110938.1A
Authority: CN
Inventors: 黄颖; 张宗宇
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2019-02-12
Filing date: 2019-02-12
Publication date: 2019-06-11

Abstract

本发明涉及基于网页机器人的隐私保护方法领域，特别涉及一种基于网页机器人的隐私保护方法，包括在用户添加一个网页机器人，该网页机器人包括一个词库；当用户进行搜索时，网页机器人通过分析用户信息得到用户的发送规律；网页机器人从用户信息中提取关键词，网页机器人将提取的关键字在网页机器人的词库中进行检索，将词库中该关键字所在的分类排除，在剩余关键词分类中获取多个词组作为干扰关键词；在用户进行搜索的同时，根据用户的发送规律将用户的搜索信息和网页机器人产生干扰关键词进行统一接收、统一发送；本发明有效隐藏用户真正发送的信息，防止服务器进行行为分析识别用户发送的真正信息，最终达到更有效的个人隐私保护。

Description

一种基于网页机器人的隐私保护方法

技术领域

本发明涉及基于网页机器人的隐私保护方法领域，特别涉及一种基于网页机器人的隐私保护方法。

背景技术

随着信息产业的迅猛发展，行业自律作为个人信息保护的方式之一愈来愈受到关注。早在20世纪90年代，美国政府就鼓励以自律规范保护个人隐私。然而，实践表明自律管理机制本身存在参与度低、执行力差、缺乏有效的监督与处罚机制等问题。面对大数据、云计算等新兴技术带来的冲击，自律机制仅仅是个人信息保护的必要条件而非充分条件，政府适度介入与行业自律的有机结合才是破解当前困局的有效路径。欧盟《一般数据保护条例》即采用了行业主导、政府适度干预的理念，政府在宏观层面调控和制定个人信息保护的基本框架及原则，而市场则从微观层面发挥自我管理之基础性功能。我国目前个人信息保护领域的行业自律管理尚处于初创阶段，理应在立法先行基础上进一步扩展行业协会发挥自律作用的空间。

资源共享是当今社会发展进步的一种必然趋势，作为新型的服务方式云计算技术已经在各个行业当中逐渐应用。虽然云计算给人们的生产生活提供了诸多便利，但是这种技术也存在一定的缺陷，其中最突出的缺陷是数据安全问题。云计算服务平台发展遇到的最大障碍是云计算的数据安全和用户的个人隐私被泄漏，因此如何将数据安全性和用户隐私权有效提高是该技术发展过程中必须解决的问题。

隐私保护数据挖掘的算法主要分为数据加密和数据扰乱技术，主要是对原始数据进行保护，转换，然后对加入干扰后的数据集进行数据挖掘，这样既可以挖掘有用信息又可以使敏感信息不被泄漏。在隐私保护数据挖掘中，准确性(Accuracy)和安全性(Security)是衡量算法优劣的两个重要标准。普遍的看法是：这两个指标相互制约，其中一个指标性能的提高将会导致另外一个指标的性能下降；两个指标的性能不可能同时都取得改善。所以，性能改善方面的工作，往往是围绕着如何根据实际需要，权衡这两个指标的取舍。隐私保护的数据挖掘是在用户隐私不被损坏的前提下，有用的数据模式仍然能够被发现。隐私保护程度越好，那么数据挖掘的效果就会越差，怎样才能做到既保证数据的挖掘精度又保证隐私的不被泄漏成为了科研者们研究的重点。目前，大多数隐私评估的方法是使用转换数据秩序的形式来保护隐私。通常这种方法是以距离来衡量隐私效果，用减少了多少距离来表示降低了多少隐私。这种距离的减少，会损失数据管理的有效性和挖掘算法的结果。大多数的研究者都是用这种方法来衡量信息损失和隐私之间的关系，也就是准确性和安全性之间的一种度量。

发明内容

为了解决在服务器端对用户行为进行分析而造成的个人隐私泄露问题，本发明提供一种基于网页机器人的隐私保护方法，包括以下步骤：

S1、在本地客户端添加一个网页机器人，该网页机器人包括一个词库，该词库中含有大量关键字，并对关键词进行了分类；

S2、用户登录网页机器人，当用户进行搜索时，网页机器人记录用户信息，网页机器人通过分析用户信息生成干扰关键词；

S3、根据用户的发送规律将用户的搜索信息和网页机器人生成的干扰关键词统一发送。

进一步的，网页机器人记录的用户信息的过程包括网页机器人创建一个脚本，利用该脚本记录用户输入的检索信息、用户的打字速度、用户的使用时间。

进一步的，网页机器人产生的干扰关键词的过程包括：网页机器人创建的脚本对浏览器检索框进行监听，记录下用户输入的检索信息；网页机器人创建的脚本从用户输入的检索信息中提取关键词，此处提取的关键词为真实关键词；对提取得到的真实关键字在网页机器人的词库中进行对比，并将在词库中与真实关键词距离最大的词组作为干扰关键词。

进一步的，通过分析用户信息得到用户的发送规律包括：在用户进行信息检索时，网页机器人记录下用户的输入速度和输入时间；根据用户的输入速度及输入时间，分析得到用户打字速度和打字误码率，并将用户打字速度和打字误码率作为用户的发送规律。

进一步的，根据用户的发送规律将用户的搜索信息和网页机器人产生干扰关键词进行统一接收、统一发送的过程包括：将干扰关键词通过网页机器人按照用户的打字速度和打字误码率模拟输入到虚拟的信息检索框，在用户确认进行信息检索时，将用户输入的真实关键词和网页机器人生成的干扰关键词一同发送到服务器端。

进一步的，所述网页机器人在使用时，需要进行登录密码管理操作。

进一步的，用户登录网页机器人的过程包括：当用户打开网页浏览器，开始加载网页机器人；加载完成后，输入本地安全密码登录网页机器人；网页机器人检查用户是否进行操作，当用户未进行操作时，进行分析用户行为规律和模拟用户检索；当用户进行操作时，立即暂停分析用户行为规律和模拟用户检索，开始监听用户输入。

本发明当用户输入完关键词后，脚本经过提取、分析得到多个干扰关键词，此时脚本将按照用户的行为规律模拟用户输入干扰信息，在用户进行信息确认并检索时，将用户输入的真实信息和脚本输入的干扰关键词一同发送给服务器。在用户再次进行信息检索时，使这些干扰关键词随着用户的检索一同发送出去，防止服务器方进行行为分析。当用户多次使用浏览器进行信息检索时，网页机器人会进一步对用户的搜索关键词进行提取分析，从而得到的干扰关键词更具有针对性。

附图说明

图1是本发明一种基于网页机器人的隐私保护方法整体流程图；

图2是本发明实施例获取干扰关键词的流程图；

图3是本发明实施例分析用户行为规范的流程图；

图4是本发明实施例统一发送用户真实信息和脚本干扰信息的流程图；

图5是本发明实施例用户登录操作的流程图；

图6是本发明实施例退出网页机器人的流程图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例1

本发明实施例中提供的实现基于网页机器人的隐私保护方法，主要针对大数据时代个人搜索造成的隐私泄露问题，其目的是采用脚本模拟用户在输入框输入一些关键词，使得个人真正输入的关键词在整个输入框输入的关键词中占比很小，达到隐藏用户真正信息的目的，达到个人隐私保护；为了防止服务器方对用户行为进行分析，以分辨出用户真正信息的目的；本发明提出的一种基于网页机器人的隐私保护方法，如图1，包括：

本发明实施例将从对用户在搜索框中输入的信息进行提取及分析的过程进行方法步骤的描述，即本发明实施例其主要分成用户输入的真实关键字的提取和对关键词的分析，如图2，实施例中获取干扰关键词的过程，可以包括以下步骤：

步骤101：对浏览器检索框进行监听，记录下用户输入的检索信息；

步骤102：对用户在搜索框中输入的信息进行关键词的提取；

步骤103：对提取得到的真实关键字在类库中进行对比，从而得到距离最大的非相关干扰关键词组；

在上述步骤中，用过网页机器人创建一个脚本文件，利用该脚本文件监听用户行为，即用户输入的检索信息、用户的打字速度、用户的使用时间；网页机器人创建的脚本从用户输入的检索信息中提取关键词，此处提取的关键词为真实关键词；对提取得到的真实关键字在网页机器人的词库中进行对比，并将在词库中与真实关键词距离最大的词组作为干扰关键词；网页机器人的词库是在创建网页机器人时，为网页机器人添加的，可以为现有的词库导入，也可以是用户自行建立的词库，并对该词库中的词组进行分类。

如图3，本实施例中分析用户行为规律的过程，可以包括以下步骤：

步骤201：在用户进行信息检索时，脚本自动记录下用户的输入速度和输入时间等行为；

步骤202：根据用户的输入速度及输入时间，分析得到用户的行为规律，即用户的检索习惯。

在用户进行信息检索时，网页机器人记录下用户的输入速度和输入时间；根据用户的输入速度及输入时间，分析得到用户打字速度和打字误码率，并将用户打字速度和打字误码率作为用户的发送规律。

如图4，在本实施例中，统一发送用户真实信息和脚本干扰信息的过程，可以包括以下步骤：

步骤301：根据监听用户操作记录得到的用户使用时间，在用户进行信息检索时，对非相关性关键词进行检索；

步骤302：将获取得到的干扰关键词通过脚本按照用户的输入速度模拟输入到虚拟的信息检索框，在用户确认进行信息检索时，将用户输入的真实关键词和用脚本获取的干扰关键词一同发送到服务器端。

将干扰关键词通过网页机器人按照用户的打字速度和打字误码率模拟输入到虚拟的信息检索框，在用户确认进行信息检索时，将用户输入的真实关键词和网页机器人生成的干扰关键词一同发送到服务器端；本实施例中，用尽可能少的非相关关键词掩盖用户真实搜索的关键词，增强真实搜索关键词的抗分析性，通过模拟用户行为规律发送信息，迷惑服务器，最终达到个人搜索隐私保护的效果。

实施例2

在实施例1的基础上，本实施例为了更好的达到迷惑服务器的效果，除了在用户使用期间网页机器人会从词库中挑选干扰关键词发送到浏览器中，通过网页机器人记录用户使用浏览器的时间，并将一段时间内的使用时间作为用户的作息规律，在作息规律内且用户对浏览器进行操作时，网页机器人从词库中选择N个与上一次用户发送的关键词距离最远的关键词根据用户的发送规律发动到浏览器中；避免在用户操作的过程中过多发送干扰关键词的过程中增加网络流量，增加网络拥塞。

其中，用户的作息规律包括，若将最近第i个T天内的用户使用浏览器的时间作为第i+1个T天内用户的作息规律；例如，以将3天内用户使用浏览器的时间作为用户的作息规律，在某个月1号到3号的使用时间作为该月4号带6号的作息时间，以此类推；其中，第i个T天内的用户使用浏览器的时间为T天内使用浏览器的时间段的并集作为第i+1个T天内用户的作息规律。

实施例3

在本实施例中，介绍一种用户使用本实施例1、2中提到的网页机器人具体实施例，为保证网页机器人和个人用户的信息安全、网页机器人记录的用户相关数据不会被相关工作者分析使用，还将对其设置身份确认机制，即需要输入正确的密码才可正常使用，大大增加其安全性，即网页机器人在使用时，需要进行登录密码管理操作，具体使用流程参见图5，包括：

步骤401：当用户打开网页浏览器，驻留程序开始加载网页机器人；

步骤402：加载完成后，输入本地安全密码登录网页机器人；

步骤403：网页机器人检查用户是否进行操作，当用户未进行操作时，进行分析用户行为规律和模拟用户检索；当用户进行操作时，立即暂停分析用户行为规律和模拟用户检索，开始监听用户输入；其中，模拟用户检索即根据用户的发送规律发送关键词。

在本实施例中，当用户登入网页机器人之后，若用户进行操作，网页机器人不再主动进行模拟用户检索，当用户输入真实的检索数据时，网页机器人才将最新生成的干扰关键词和用户生成的检索数据模拟用户检索输入服务器端，在此情况中，可以根据用户的信息来设置一个停顿阈值，即根据用户之前一个连续的操作过程中两次搜索之间的最大停顿时间作为停顿阈值，若停顿时间超过此停顿阈值，则判定用户为操作，用户登入网页机器人之后，开始计时，若成功登入之后，超过停顿阈值未进行操作，网页机根据上一次用户登入时的用户信息分析用户行为规律和模拟用户检索；优选的，此处的停顿阈值可以为固定阈值，节约计算量。

当用户需要退出网页机器人时，包括以下步骤：

步骤501：用户关闭网页浏览器，网页机器人自动保存并终止运行操作；

步骤502：退出本地机器人脚本，只保留驻留进程。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

Claims

1.一种基于网页机器人的隐私保护方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种基于网页机器人的隐私保护方法，其特征在于，网页机器人记录的用户信息的过程包括网页机器人创建一个脚本，利用该脚本记录用户信息，用户信息包括用户输入的检索信息、用户的打字速度、用户使用浏览器的时间及浏览所获取信息的速度。

3.根据权利要求2所述的一种基于网页机器人的隐私保护方法，其特征在于，网页机器人产生的干扰关键词的过程包括：网页机器人创建的脚本对浏览器检索框进行监听，记录下用户输入的检索信息；网页机器人创建的脚本从用户输入的检索信息中提取关键词，此处提取的关键词为真实关键词；对提取得到的真实关键字在网页机器人的词库中进行对比，并将在词库中与真实关键词距离最大的词组作为干扰关键词。

4.根据权利要求2所述的一种基于网页机器人的隐私保护方法，其特征在于，用户的发送规律包括：在用户进行信息检索时，网页机器人记录下用户的输入速度和输入时间，根据用户的输入速度及输入时间，分析得到用户打字速度和打字误码率，并将用户打字速度和打字误码率作为用户的发送规律。

5.根据权利要求4所述的一种基于网页机器人的隐私保护方法，其特征在于，根据用户的发送规律将用户的搜索信息和网页机器人产生干扰关键词进行统一接收、统一发送的过程包括：将干扰关键词通过网页机器人按照用户的打字速度和打字误码率模拟输入到虚拟的信息检索框，在用户确认进行信息检索时，将用户输入的真实关键词和网页机器人生成的干扰关键词一同发送到服务器端。

6.根据权利要求1-5任一所述的一种基于网页机器人的隐私保护方法，其特征在于，还包括步骤S4，具体为：通过网页机器人记录用户使用浏览器的时间，并将一段时间内的使用时间作为用户的作息规律，在作息规律内且用户未对浏览器进行搜索时，网页机器人从词库中选择N个与上一次用户搜索的关键词距离最远的关键词，网页机器人根据用户的发送规律将这N个词发送到服务器端。

7.根据权利要求6所述的一种基于网页机器人的隐私保护方法，其特征在于，用户的作息规律包括以T天为一个周期，若将最近第i个周期内的用户使用浏览器的时间作为第i+1个周期内用户的作息规律。

8.根据权利要求1所述的一种基于网页机器人的隐私保护方法，其特征在于，用户登录网页机器人的过程包括：当用户打开网页浏览器，开始加载网页机器人；加载完成后，登入网页机器人，网页机器人进入工作状态；进入工作状态的网页机器人开始检测用户是否进行搜索。

9.根据权利要求8所述的一种基于网页机器人的隐私保护方法，其特征在于，用户通过输入登入密码登入网页机器人时，当登入密码正确时，网页机器人进入工作状态。