CN105574106B - 一种大数据平台的网络信息分析处理方法 - Google Patents

一种大数据平台的网络信息分析处理方法 Download PDF

Info

Publication number
CN105574106B
CN105574106B CN201510925208.9A CN201510925208A CN105574106B CN 105574106 B CN105574106 B CN 105574106B CN 201510925208 A CN201510925208 A CN 201510925208A CN 105574106 B CN105574106 B CN 105574106B
Authority
CN
China
Prior art keywords
big data
resource
query result
client
address
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201510925208.9A
Other languages
English (en)
Other versions
CN105574106A (zh
Inventor
许驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yuan Li cloud Network Co., Ltd.
Original Assignee
Yuan Li Cloud Network Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yuan Li Cloud Network Co Ltd filed Critical Yuan Li Cloud Network Co Ltd
Priority to CN201510925208.9A priority Critical patent/CN105574106B/zh
Publication of CN105574106A publication Critical patent/CN105574106A/zh
Application granted granted Critical
Publication of CN105574106B publication Critical patent/CN105574106B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Transfer Between Computers (AREA)
  • Computer And Data Communications (AREA)

Abstract

本发明提供一种大数据平台的网络信息分析处理方法,该方法步骤如下:查询服务器接收客户端的用户发送的查询请求,提取查询请求中的查询关键词,对查询关键词进行扩展,使用扩展后的关键词执行查询以获得查询结果;并将查询结果发送至客户端;所述查询结果中包含用户所请求的大数据资源的多个资源下载地址;客户端的用户获得查询结果,对查询结果中的多个资源下载地址的有效性进行判断,在经判断有效的资源下载地址中选择一个最优的资源下载地址下载大数据资源;客户端的用户在完成大数据资源的下载之后,将大数据资源分享至云端服务器;云端服务器向具有大数据资源访问权限的用户提供大数据资源共享。

Description

一种大数据平台的网络信息分析处理方法
技术领域
本发明涉及大数据技术领域,尤其涉及一种大数据平台的网络信息分析处理方法。
背景技术
大数据是一种战略资源,基于大数据平台的数据分析可以为企业等带来巨大的经济效益。云计算为大数据提供了技术支撑。当前基于大数据平台的数据分析所面临一个重要困难,是如何提高大数据的网络数据分析效率;同时,如何安全有效地将大数据分析的结果共享至云端也是当前急需解决的课题。
发明内容
本发明的目的在于提供一种大数据平台的网络信息分析处理方法。
本发明的技术方案如下:
一种大数据平台的网络信息分析处理方法,其特征在于,
步骤1、查询服务器接收客户端的用户发送的查询请求,提取所述查询请求中的查询关键词,对所述查询关键词进行扩展,使用扩展后的关键词执行查询以获得查询结果;并将所述查询结果发送至客户端;其中,所述查询结果中包含用户所请求的大数据资源的多个资源下载地址;
步骤2、客户端的用户获得查询结果,对所述查询结果中的多个资源下载地址的有效性进行判断,在经判断有效的资源下载地址中选择一个最优的资源下载地址下载所述大数据资源;
步骤3、客户端的用户在完成所述大数据资源的下载之后,将所述大数据资源分享至云端服务器;
步骤4、所述云端服务器向具有大数据资源访问权限的用户提供所述大数据资源共享。
可选地,步骤1中,所述查询服务器在获得查询结果之后,将所述查询结果发送至客户端之前,执行以下步骤:
步骤1.1、对所述查询结果进行哈希计算,获得查询结果的原始哈希校验值;
步骤1.2、利用所述客户端的用户提供的加密密钥对所述查询结果及其原始哈希校验值进行加密处理;
其中,所述哈希校验值可以是MD5值。
可选地,步骤2中,在获得查询结果之后,对所述查询结果中的多个资源下载地址的有效性进行判断之前执行以下步骤:
步骤2.1、客户端的用户使用解密密钥对查询结果解密,获得所述查询结果的实际哈希值;
步骤2.2、将查询结果的原始哈希值和实际哈希值进行比对,如果两者相等,则保留该查询结果,执行步骤2.3;否则,丢弃该查询结果,返回步骤1;
步骤2.3、从所述查询结果中获得该用户所请求的大数据资源的多个资源下载地址。
可选地,步骤2中,所述对所述查询结果中的多个资源下载地址的有效性进行判断,在经判断有效的资源下载地址中选择一个最优的资源下载地址下载所述大数据资源具体包括以下步骤:
步骤2.4、对所述大数据资源的N个资源下载地址进行筛选,获得M个经筛选后的资源下载地址;其中,N、M都是自然数,且N>M;
步骤2.5、设预设的统计时间段的长度为T,客户端从第i个经筛选后的资源下载地址下载所述大数据资源时的平均通讯故障间隔时间为Δti,客户端从第i个经筛选后的资源下载地址下载所述大数据资源时的数据传输可靠率θi,则:
θi=(Δti/T)×100%,其中,i=1,2…,M;M为自然数;且T>Δti>0;
步骤2.6、客户端从第i个经筛选后的资源下载地址下载所述大数据资源的平均传输速率为vi,所述第i个经筛选后的资源下载地址的综合评价值为μi,通过以下公式计算μi:
μi=(θi)1/3*ln(e+vi),其中,i=1,2…,M;且M为自然数,e为自然底数;
步骤2.7、在M个经筛选后的资源下载地址中选择综合评价值最高的一个地址作为最优的资源下载地址,下载所述大数据资源。
可选地,所述步骤2.4具体包括以下步骤:
步骤2.4.1、对所述大数据资源的N个资源下载地址中的每一个执行以下操作:
确定客户端在预设的第二统计时间段内从第j个下载地址下载大数据资源时,所述第j个下载地址的热度值ψj,该热度值ψj根据客户端在所述预设的第二统计时间段内请求从所述第j个下载地址下载所述大数据资源的次数wj、以及下载的所述大数据资源的数据总量aj来确定,通过以下公式计算ψj:
ψj=(aj)1/2*ln(e+wj),其中,j=1,2…,N;且N为自然数,e为自然底数;
步骤2.4.2、将所述大数据资源的N个资源下载地址按照所述热度值从高至低进行排序,保留排序结果中的前M个下载地址,其中,通过以下公式计算M:
M=[N*λ],其中,符号[]表示对其中的内容取整运算,λ为预先设定的值,且0<λ<1。
具体实施方式
下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
本发明的具体实施方案如下:
一种大数据平台的网络信息分析处理方法,其特征在于,
步骤1、查询服务器接收客户端的用户发送的查询请求,提取所述查询请求中的查询关键词,对所述查询关键词进行扩展,使用扩展后的关键词执行查询以获得查询结果;并将所述查询结果发送至客户端;其中,所述查询结果中包含用户所请求的大数据资源的多个资源下载地址;
步骤2、客户端的用户获得查询结果,对所述查询结果中的多个资源下载地址的有效性进行判断,在经判断有效的资源下载地址中选择一个最优的资源下载地址下载所述大数据资源;
步骤3、客户端的用户在完成所述大数据资源的下载之后,将所述大数据资源分享至云端服务器;
步骤4、所述云端服务器向具有大数据资源访问权限的用户提供所述大数据资源共享。
可选地,步骤1中,所述查询服务器在获得查询结果之后,将所述查询结果发送至客户端之前,执行以下步骤:
步骤1.1、对所述查询结果进行哈希计算,获得查询结果的原始哈希校验值;
步骤1.2、利用所述客户端的用户提供的加密密钥对所述查询结果及其原始哈希校验值进行加密处理;
其中,所述哈希校验值可以是MD5值。
可选地,步骤2中,在获得查询结果之后,对所述查询结果中的多个资源下载地址的有效性进行判断之前执行以下步骤:
步骤2.1、客户端的用户使用解密密钥对查询结果解密,获得所述查询结果的实际哈希值;
步骤2.2、将查询结果的原始哈希值和实际哈希值进行比对,如果两者相等,则保留该查询结果,执行步骤2.3;否则,丢弃该查询结果,返回步骤1;
步骤2.3、从所述查询结果中获得该用户所请求的大数据资源的多个资源下载地址。
可选地,步骤2中,所述对所述查询结果中的多个资源下载地址的有效性进行判断,在经判断有效的资源下载地址中选择一个最优的资源下载地址下载所述大数据资源具体包括以下步骤:
步骤2.4、对所述大数据资源的N个资源下载地址进行筛选,获得M个经筛选后的资源下载地址;其中,N、M都是自然数,且N>M;
步骤2.5、设预设的统计时间段的长度为T,客户端从第i个经筛选后的资源下载地址下载所述大数据资源时的平均通讯故障间隔时间为Δti,客户端从第i个经筛选后的资源下载地址下载所述大数据资源时的数据传输可靠率θi,则:
θi=(Δti/T)×100%,其中,i=1,2…,M;M为自然数;且T>Δti>0;
具体地,对于上述第i个经筛选后的资源下载地址,平均通讯故障间隔时间Δti是指客户端从所述第i个经筛选后的资源下载地址下载所述大数据资源时,发生通讯故障的各时刻之间时间间隔的平均值(这里假设通讯故障的持续时间长度较短,故而忽略掉发生通讯故障的时长),因此可以等同视为正常无通讯故障工作时间的平均值;其值越大,说明数据通讯越稳定,即发生网络通讯故障的概率越低。
步骤2.6、客户端从第i个经筛选后的资源下载地址下载所述大数据资源的平均传输速率为vi,所述第i个经筛选后的资源下载地址的综合评价值为μi,通过以下公式计算μi:
μi=(θi)1/3*ln(e+vi),其中,i=1,2…,M;且M为自然数,e为自然底数;
步骤2.7、在M个经筛选后的资源下载地址中选择综合评价值最高的一个地址作为最优的资源下载地址,下载所述大数据资源。
可选地,所述步骤2.4具体包括以下步骤:
步骤2.4.1、对所述大数据资源的N个资源下载地址中的每一个执行以下操作:
确定客户端在预设的第二统计时间段内从第j个下载地址下载大数据资源时,所述第j个下载地址的热度值ψj,该热度值ψj根据客户端在所述预设的第二统计时间段内请求从所述第j个下载地址下载所述大数据资源的次数wj、以及下载的所述大数据资源的数据总量aj来确定,通过以下公式计算ψj:
ψj=(aj)1/2*ln(e+wj),其中,j=1,2…,N;且N为自然数,e为自然底数;
步骤2.4.2、将所述大数据资源的N个资源下载地址按照所述热度值从高至低进行排序,保留排序结果中的前M个下载地址,其中,通过以下公式计算M:
M=[N*λ],其中,符号[]表示对其中的内容取整运算,λ为预先设定的值,且0<λ<1。
本发明附加的方面和优点已在上面的描述中部分给出,部分将从上面的描述中变得明显,或通过本发明的实践了解到。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。

Claims (1)

1.一种大数据平台的网络信息分析处理方法,其特征在于,
步骤1、查询服务器接收客户端的用户发送的查询请求,提取所述查询请求中的查询关键词,对所述查询关键词进行扩展,使用扩展后的关键词执行查询以获得查询结果;并将所述查询结果发送至客户端;其中,所述查询结果中包含用户所请求的大数据资源的多个资源下载地址;
步骤2、客户端的用户获得查询结果,对所述查询结果中的多个资源下载地址的有效性进行判断,在经判断有效的资源下载地址中选择一个最优的资源下载地址下载所述大数据资源;
步骤3、客户端的用户在完成所述大数据资源的下载之后,将所述大数据资源分享至云端服务器;
步骤4、所述云端服务器向具有大数据资源访问权限的用户提供所述大数据资源共享;
步骤1中,所述查询服务器在获得查询结果之后,将所述查询结果发送至客户端之前,执行以下步骤:
步骤1.1、对所述查询结果进行哈希计算,获得查询结果的原始哈希校验值;
步骤1.2、利用所述客户端的用户提供的加密密钥对所述查询结果及其原始哈希校验值进行加密处理;
其中,所述哈希校验值可以是MD5值;
步骤2中,在获得查询结果之后,对所述查询结果中的多个资源下载地址的有效性进行判断之前执行以下步骤:
步骤2.1、客户端的用户使用解密密钥对查询结果解密,获得所述查询结果的实际哈希值;
步骤2.2、将查询结果的原始哈希值和实际哈希值进行比对,如果两者相等,则保留该查询结果,执行步骤2.3;否则,丢弃该查询结果,返回步骤1;
步骤2.3、从所述查询结果中获得该用户所请求的大数据资源的多个资源下载地址;
步骤2中,所述对所述查询结果中的多个资源下载地址的有效性进行判断,在经判断有效的资源下载地址中选择一个最优的资源下载地址下载所述大数据资源具体包括以下步骤:
步骤2.4、对所述大数据资源的N个资源下载地址进行筛选,获得M个经筛选后的资源下载地址;其中,N、M都是自然数,且N>M;
步骤2.5、设预设的统计时间段的长度为T,客户端从第i个经筛选后的资源下载地址下载所述大数据资源时的平均通讯故障间隔时间为Δti,客户端从第i个经筛选后的资源下载地址下载所述大数据资源时的数据传输可靠率θi,则:
θi=(Δti/T)×100%,其中,i=1,2…,M;M为自然数;且T>Δti>0;
步骤2.6、客户端从第i个经筛选后的资源下载地址下载所述大数据资源的平均传输速率为vi,所述第i个经筛选后的资源下载地址的综合评价值为μi,通过以下公式计算μi:
μi=(θi)1/3*ln(e+vi),其中,i=1,2…,M;且M为自然数,e为自然底数;
步骤2.7、在M个经筛选后的资源下载地址中选择综合评价值最高的一个地址作为最优的资源下载地址,下载所述大数据资源;
所述步骤2.4具体包括以下步骤:
步骤2.4.1、对所述大数据资源的N个资源下载地址中的每一个执行以下操作:
确定客户端在预设的第二统计时间段内从第j个下载地址下载大数据资源时,所述第j个下载地址的热度值ψj,该热度值ψj根据客户端在所述预设的第二统计时间段内请求从所述第j个下载地址下载所述大数据资源的次数wj、以及下载的所述大数据资源的数据总量aj来确定,通过以下公式计算ψj:
ψj=(aj)1/2*ln(e+wj),其中,j=1,2…,N;且N为自然数,e为自然底数;
步骤2.4.2、将所述大数据资源的N个资源下载地址按照所述热度值从高至低进行排序,保留排序结果中的前M个下载地址,其中,通过以下公式计算M:
M=[N*λ],其中,符号[]表示对其中的内容取整运算,λ为预先设定的值,且0<λ<1。
CN201510925208.9A 2015-12-14 2015-12-14 一种大数据平台的网络信息分析处理方法 Active CN105574106B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510925208.9A CN105574106B (zh) 2015-12-14 2015-12-14 一种大数据平台的网络信息分析处理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510925208.9A CN105574106B (zh) 2015-12-14 2015-12-14 一种大数据平台的网络信息分析处理方法

Publications (2)

Publication Number Publication Date
CN105574106A CN105574106A (zh) 2016-05-11
CN105574106B true CN105574106B (zh) 2018-10-12

Family

ID=55884237

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510925208.9A Active CN105574106B (zh) 2015-12-14 2015-12-14 一种大数据平台的网络信息分析处理方法

Country Status (1)

Country Link
CN (1) CN105574106B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106506528A (zh) * 2016-12-05 2017-03-15 深圳万智联合科技有限公司 一种大数据环境下的网络安全分析系统
CN113254982B (zh) * 2021-07-13 2021-10-01 深圳市洞见智慧科技有限公司 一种支持关键词查询的匿踪查询方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012009740A1 (en) * 2010-07-21 2012-01-26 New Planet Media Pty Ltd A piracy impeding process and system, link sorting processes and systems, notice processes and systems, process and system for determining the number of active leech peers, process and system for obtaining information indicative of the damage resulting from copyright infringement
CN102457574A (zh) * 2011-10-21 2012-05-16 北京安天电子设备有限公司 一种安装包多地址智能下载的方法及系统
CN102760162A (zh) * 2012-06-11 2012-10-31 北京搜狗信息服务有限公司 展现和获取下载链接的方法及装置
CN102855238A (zh) * 2011-06-28 2013-01-02 腾讯科技(深圳)有限公司 资源数据下载方法及系统
CN104283865A (zh) * 2013-07-12 2015-01-14 贝壳网际(北京)安全技术有限公司 一种下载处理方法、装置、服务器及客户端设备

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012009740A1 (en) * 2010-07-21 2012-01-26 New Planet Media Pty Ltd A piracy impeding process and system, link sorting processes and systems, notice processes and systems, process and system for determining the number of active leech peers, process and system for obtaining information indicative of the damage resulting from copyright infringement
CN102855238A (zh) * 2011-06-28 2013-01-02 腾讯科技(深圳)有限公司 资源数据下载方法及系统
CN102457574A (zh) * 2011-10-21 2012-05-16 北京安天电子设备有限公司 一种安装包多地址智能下载的方法及系统
CN102760162A (zh) * 2012-06-11 2012-10-31 北京搜狗信息服务有限公司 展现和获取下载链接的方法及装置
CN104283865A (zh) * 2013-07-12 2015-01-14 贝壳网际(北京)安全技术有限公司 一种下载处理方法、装置、服务器及客户端设备

Also Published As

Publication number Publication date
CN105574106A (zh) 2016-05-11

Similar Documents

Publication Publication Date Title
US10560471B2 (en) Detecting web exploit kits by tree-based structural similarity search
CN111651591B (zh) 一种网络安全分析方法和装置
US10270792B1 (en) Methods for detecting malicious smart bots to improve network security and devices thereof
CN106453438B (zh) 一种网络攻击的识别方法及装置
CN105577701B (zh) 网络爬虫的识别方法及系统
US20200067932A1 (en) Data Processing Method, Device, Access Control System, and Storage Media
Gulmezoglu et al. Cache-based application detection in the cloud using machine learning
CN106576051B (zh) 一种检测零日威胁的方法、网络设备、非暂态机器可读介质
CN107395553B (zh) 一种网络攻击的检测方法、装置及存储介质
EP3322157A1 (en) Profiling domain name system (dns) traffic
CN105574106B (zh) 一种大数据平台的网络信息分析处理方法
Su et al. Suspicious URL filtering based on logistic regression with multi-view analysis
Draghicescu et al. Crypto-mining application fingerprinting method
CN104820674B (zh) 一种网页分类方法及装置
Bains et al. Intrusion detection system with multi layer using Bayesian networks
US10805318B2 (en) Identification of a DNS packet as malicious based on a value
Hansraj et al. Secure VM placement analysis against co-location based attack in cloud
Popescu et al. A study on techniques for proactively identifying malicious urls
DE102023201178A1 (de) Erkennung von ransom ware im speicher einer datenverarbeitungseinheit mit hilfe von erkennungsmodellen des maschinellen lernens
CN106027554A (zh) 一种黑客工具挖掘方法、装置及系统
Park et al. A Dom-based fuzzing method for analyzing Seogwang document processing system in North Korea
Xiao et al. Defend against application-layer distributed denial-of-service attacks based on session suspicion probability model
Pelchen et al. The (persistent) threat of weak passwords: Implementation of a semi-automatic password-cracking algorithm
US11386207B2 (en) Metadata-based floating code signature generation for endpoint devices of a computer network
Shindo et al. Lightweight approach to detect drive-by download attacks based on file type transition

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Xu Chi

Inventor before: Mao Li

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20170801

Address after: 1, No. 772, No. 7, 610041 floor, No. 1388, Tianfu Road, Chengdu hi tech Zone, Sichuan

Applicant after: CHENGDU DINGZHIHUI SCIENCE AND TECHNOLOGY CO., LTD.

Address before: 610041 A, building, No. two, Science Park, high tech Zone, Sichuan, Chengdu, China 103B

Applicant before: Sichuan Jiucheng Information Technology Co., Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20180815

Address after: 511363 Whampoa 360, Guangzhou, Guangdong, Guangzhou, China, Guangzhou nine knowledge city nine Buddha Jianshe Road No. 360

Applicant after: Yuan Li cloud Network Co., Ltd.

Address before: 610041 No. 1, 7 floor, No. 1, Tianfu Avenue, 1388 middle and high tech Zone, Chengdu, Sichuan.

Applicant before: CHENGDU DINGZHIHUI SCIENCE AND TECHNOLOGY CO., LTD.

GR01 Patent grant
GR01 Patent grant