CN114547171A - 一种基于大数据分析的业务数据的处理方法及系统 - Google Patents

一种基于大数据分析的业务数据的处理方法及系统 Download PDF

Info

Publication number
CN114547171A
CN114547171A CN202210159730.0A CN202210159730A CN114547171A CN 114547171 A CN114547171 A CN 114547171A CN 202210159730 A CN202210159730 A CN 202210159730A CN 114547171 A CN114547171 A CN 114547171A
Authority
CN
China
Prior art keywords
data
platform
format
service
correlation
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210159730.0A
Other languages
English (en)
Inventor
郑光鸿
廖伟波
丁延松
冯雄伟
郭昭提
覃朋星
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Pintui Technology Co ltd
Original Assignee
Guangzhou Pintui Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Pintui Technology Co ltd filed Critical Guangzhou Pintui Technology Co ltd
Priority to CN202210159730.0A priority Critical patent/CN114547171A/zh
Publication of CN114547171A publication Critical patent/CN114547171A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/252Integrating or interfacing systems involving database management systems between a Database Management System and a front-end application
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/25Integrating or interfacing systems involving database management systems
    • G06F16/258Data format conversion from or to a database
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Abstract

本发明公开了一种基于大数据分析的业务数据的处理方法,对需要采集的数据平台的数据相关性进行分级,采用分布式信息获取方式对不同级别的数据平台采用不同程度等级的数据抓取,其中,对于相关度高的数据平台采用深层抓取,而对于相关度低的数据平台采用简单数据抓取;对应不同的数据平台设置不同的数据采集格式(例如JSON格式、Unicode格式),将抓取的数据进行数据清洗后,转换为对应的数据格式的数据,其中,所述数据格式包括预先设定的业务关键词及与业务关键词对应的业务关联级别;对转换数据格式后的数据进行池化处理,将处理后的数据存储于业务处理中心的数据池;所述数据池与数据处理单元连接,为数据应用及分析提供数据基础。

Description

一种基于大数据分析的业务数据的处理方法及系统
技术领域
本发明涉及大数据处理技术领域,尤其涉及一种基于大数据分析的业务数据的处理方法及系统。
背景技术
在互联网快速发展的带动下,社会生活的基本方式正在悄然发生改变。以往的物质交换方式、信息传播方式已经演变为新时代的“非主流”,互联网取而代之成为生活的必需品,信息网络连通社会每一根神经。
互联网时代的到来,使人类的社会生活更加方便快捷。但是,信息过载的问题也随之而来,如何快速的从大量信息中筛选出所需信息成为亟待解决的问题。1994年1月,分类目录EINetGalaxy(TradewaveGalaxy)上线,同时支持Gopher和Telnet搜索。同年4月,Yahoo目录诞生,开始提供有限的数据库的查询服务。但是伴随网
络技术的飞速进步,网络信息的过载问题愈加突出,Yahoo的技术手段已经无法有效应对。1998年10月,Google诞生,Google以Pagerank为基础,自动判断网页的重要性,使得搜索结果的相关性得到增强。Google抓取海量网页信息内容,并以此为基础向用户提供信息的索引服务,用户通过关键字、词搜索查阅所需的相关资料,Google的使用极大提高了使用者的工作效率和获取信息的质量。
而在现代的平台类企业中,需要对例如用户数据的全方位获取,以形成比用户更了解用户的贴心服务,需要对用户的多个平台数据进行抓取,而不同平台的数据的侧重点不相同,有的对应于用户的人际关系,有的是对应于用的习惯数据等,而如果采用统一的数据抓取方式抓取信息,会导致在构建人物画像是引入不重要的干扰数据。
发明内容
本发明旨在至少解决现有技术中存在的技术问题之一。为此,本发明公开一种基于大数据分析的业务数据的处理方法,所述方法包括:
步骤1,对需要采集的数据平台的数据相关性进行分级,采用分布式信息获取方式对不同级别的数据平台采用不同程度等级的数据抓取,其中,对于相关度高的数据平台采用深层抓取,而对于相关度低的数据平台采用简单数据抓取;
步骤2,对应不同的数据平台设置不同的数据采集格式(例如JSON格式、Unicode格式),将抓取的数据进行数据清洗后,转换为对应的数据格式的数据,其中,所述数据格式包括预先设定的业务关键词及与业务关键词对应的业务关联级别;
步骤3,对转换数据格式后的数据进行池化处理,将处理后的数据存储于业务处理中心的数据池;
步骤4,所述数据池与数据处理单元连接,为数据应用及分析提供数据基础。
更进一步地,所述步骤1进一步包括:通过Selenium函数将抓取业务关键词请求发送到数据平台对应的程序接口,所述程序接口接受请求打开Selenium函数要抓取的数据内容,在第三方服务器完成数据内容的加载,然后通过桥接方式与业务数据处理中心连接,将所述第三方服务器缓存的抓取的数据内容传回业务数据处理中心的数据预处理单元,在对抓取回的数据进行预处理及解析提取。
更进一步地,所述步骤1进一步包括:对需要采集的数据平台的数据相关性进行分级进一步需要对数据抓取的难易程度进行分级,若所述数据平台需要进行动态网页数据的抓取,则设置该数据平台为高相关性,若所述数据平台设置有反抓取屏蔽单元,则设置该数据平台为高相关性。
更进一步地,若所述数据平台设置有反抓取屏蔽单元,则通过机器学习方式模拟正常访问行为,并设置伪随机数列,基于该伪随机数列设置更换网关和代理服务器的频率。
更进一步地,所述第三方服务器为代理服务器。
更进一步地,所述步骤2进一步包括:转换为对应的数据格式的数据包括该数据所属数据平台的数据倾向,如所述数据平台为交友平台,则对应的数据格式为用户之间的关联对应的数据格式,如所述数据平台为购物平台,则对应的数据格式为消费记录对应的数据格式。
更进一步地,所述步骤2进一步包括:所述的数据清洗包括:去除无用和重复的数据和规范数据格式,所述根据不同的数据来源对抓取的数据进行数据分类并添加对应标识。
本发明还公开了一种基于大数据分析的业务数据的处理系统,所述系统包括:
数据抓取单元,对需要采集的数据平台的数据相关性进行分级,采用分布式信息获取方式对不同级别的数据平台采用不同程度等级的数据抓取,通过Selenium函数将抓取业务关键词请求发送到数据平台对应的程序接口,所述程序接口接受请求打开Selenium函数要抓取的数据内容,在第三方服务器完成数据内容的加载,然后通过桥接方式与业务数据处理中心连接,将所述第三方服务器缓存的抓取的数据内容传回业务数据处理中心的数据预处理单元,在对抓取回的数据进行预处理及解析提取,其中,对于相关度高的数据平台采用深层抓取,而对于相关度低的数据平台采用简单数据抓取,对需要采集的数据平台的数据相关性进行分级进一步需要对数据抓取的难易程度进行分级,若所述数据平台需要进行动态网页数据的抓取,则设置该数据平台为高相关性,若所述数据平台设置有反抓取屏蔽单元,则设置该数据平台为高相关性,若所述数据平台设置有反抓取屏蔽单元,则通过机器学习方式模拟正常访问行为,并设置伪随机数列,基于该伪随机数列设置更换网关和代理服务器的频率;
数据前处理单元,对应不同的数据平台设置不同的数据采集格式(例如JSON格式、Unicode格式),将抓取的数据进行数据清洗后,转换为对应的数据格式的数据,其中,所述数据格式包括预先设定的业务关键词及与业务关键词对应的业务关联级别,其中,转换为对应的数据格式的数据包括该数据所属数据平台的数据倾向,如所述数据平台为交友平台,则对应的数据格式为用户之间的关联对应的数据格式,如所述数据平台为购物平台,则对应的数据格式为消费记录对应的数据格式,所述的数据清洗包括:去除无用和重复的数据和规范数据格式,所述根据不同的数据来源对抓取的数据进行数据分类并添加对应标识;
数据存储单元,对转换数据格式后的数据进行池化处理,将处理后的数据存储于业务处理中心的数据池;
数据后处理单元,所述数据池与数据处理单元连接,为数据应用及分析提供数据基础。
更进一步地,本发明还公开了一种电子设备,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如上所述的方法中的步骤的指令。
更进一步地,本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行,以实现如上任一项所述的方法。
附图说明
从以下结合附图的描述可以进一步理解本发明。图中的部件不一定按比例绘制,而是将重点放在示出实施例的原理上。在图中,在不同的视图中,相同的附图标记指定对应的部分。
图1是本发明的基于大数据分析的业务数据的处理方法的控制流程图。
具体实施方式
实施例一
如图1所示的一种基于大数据分析的业务数据的处理方法,所述方法包括:
步骤1,对需要采集的数据平台的数据相关性进行分级,采用分布式信息获取方式对不同级别的数据平台采用不同程度等级的数据抓取,其中,对于相关度高的数据平台采用深层抓取,而对于相关度低的数据平台采用简单数据抓取;
步骤2,对应不同的数据平台设置不同的数据采集格式(例如JSON格式、Unicode格式),将抓取的数据进行数据清洗后,转换为对应的数据格式的数据,其中,所述数据格式包括预先设定的业务关键词及与业务关键词对应的业务关联级别;
步骤3,对转换数据格式后的数据进行池化处理,将处理后的数据存储于业务处理中心的数据池;
步骤4,所述数据池与数据处理单元连接,为数据应用及分析提供数据基础。
更进一步地,所述步骤1进一步包括:通过Selenium函数将抓取业务关键词请求发送到数据平台对应的程序接口,所述程序接口接受请求打开Selenium函数要抓取的数据内容,在第三方服务器完成数据内容的加载,然后通过桥接方式与业务数据处理中心连接,将所述第三方服务器缓存的抓取的数据内容传回业务数据处理中心的数据预处理单元,在对抓取回的数据进行预处理及解析提取。
更进一步地,所述步骤1进一步包括:对需要采集的数据平台的数据相关性进行分级进一步需要对数据抓取的难易程度进行分级,若所述数据平台需要进行动态网页数据的抓取,则设置该数据平台为高相关性,若所述数据平台设置有反抓取屏蔽单元,则设置该数据平台为高相关性。
更进一步地,若所述数据平台设置有反抓取屏蔽单元,则通过机器学习方式模拟正常访问行为,并设置伪随机数列,基于该伪随机数列设置更换网关和代理服务器的频率。
更进一步地,所述第三方服务器为代理服务器。
更进一步地,所述步骤2进一步包括:转换为对应的数据格式的数据包括该数据所属数据平台的数据倾向,如所述数据平台为交友平台,则对应的数据格式为用户之间的关联对应的数据格式,如所述数据平台为购物平台,则对应的数据格式为消费记录对应的数据格式。
更进一步地,所述步骤2进一步包括:所述的数据清洗包括:去除无用和重复的数据和规范数据格式,所述根据不同的数据来源对抓取的数据进行数据分类并添加对应标识。
本发明还公开了一种基于大数据分析的业务数据的处理系统,所述系统包括:
数据抓取单元,对需要采集的数据平台的数据相关性进行分级,采用分布式信息获取方式对不同级别的数据平台采用不同程度等级的数据抓取,通过Selenium函数将抓取业务关键词请求发送到数据平台对应的程序接口,所述程序接口接受请求打开Selenium函数要抓取的数据内容,在第三方服务器完成数据内容的加载,然后通过桥接方式与业务数据处理中心连接,将所述第三方服务器缓存的抓取的数据内容传回业务数据处理中心的数据预处理单元,在对抓取回的数据进行预处理及解析提取,其中,对于相关度高的数据平台采用深层抓取,而对于相关度低的数据平台采用简单数据抓取,对需要采集的数据平台的数据相关性进行分级进一步需要对数据抓取的难易程度进行分级,若所述数据平台需要进行动态网页数据的抓取,则设置该数据平台为高相关性,若所述数据平台设置有反抓取屏蔽单元,则设置该数据平台为高相关性,若所述数据平台设置有反抓取屏蔽单元,则通过机器学习方式模拟正常访问行为,并设置伪随机数列,基于该伪随机数列设置更换网关和代理服务器的频率;
数据前处理单元,对应不同的数据平台设置不同的数据采集格式(例如JSON格式、Unicode格式),将抓取的数据进行数据清洗后,转换为对应的数据格式的数据,其中,所述数据格式包括预先设定的业务关键词及与业务关键词对应的业务关联级别,其中,转换为对应的数据格式的数据包括该数据所属数据平台的数据倾向,如所述数据平台为交友平台,则对应的数据格式为用户之间的关联对应的数据格式,如所述数据平台为购物平台,则对应的数据格式为消费记录对应的数据格式,所述的数据清洗包括:去除无用和重复的数据和规范数据格式,所述根据不同的数据来源对抓取的数据进行数据分类并添加对应标识;
数据存储单元,对转换数据格式后的数据进行池化处理,将处理后的数据存储于业务处理中心的数据池;
数据后处理单元,所述数据池与数据处理单元连接,为数据应用及分析提供数据基础。
更进一步地,本发明还公开了一种电子设备,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如上所述的方法中的步骤的指令。
更进一步地,本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行,以实现如上任一项所述的方法。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
本领域技术人员应明白,本申请的实施例可提供为方法、系统或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、CD-ROM、光学存储器等)上实施的计算机程序产品的形式。
虽然上面已经参考各种实施例描述了本发明,但是应当理解,在不脱离本发明的范围的情况下,可以进行许多改变和修改。因此,其旨在上述详细描述被认为是例示性的而非限制性的,并且应当理解,以下权利要求(包括所有等同物)旨在限定本发明的精神和范围。以上这些实施例应理解为仅用于说明本发明而不用于限制本发明的保护范围。在阅读了本发明的记载的内容之后,技术人员可以对本发明作各种改动或修改,这些等效变化和修饰同样落入本发明权利要求所限定的范围。

Claims (10)

1.一种基于大数据分析的业务数据的处理方法,其特征在于,所述方法包括:
步骤1,对需要采集的数据平台的数据相关性进行分级,采用分布式信息获取方式对不同级别的数据平台采用不同程度等级的数据抓取,其中,对于相关度高的数据平台采用深层抓取,而对于相关度低的数据平台采用简单数据抓取;
步骤2,对应不同的数据平台设置不同的数据采集格式(例如JSON格式、Unicode格式),将抓取的数据进行数据清洗后,转换为对应的数据格式的数据,其中,所述数据格式包括预先设定的业务关键词及与业务关键词对应的业务关联级别;
步骤3,对转换数据格式后的数据进行池化处理,将处理后的数据存储于业务处理中心的数据池;
步骤4,所述数据池与数据处理单元连接,为数据应用及分析提供数据基础。
2.如权利要求1所述的一种基于大数据分析的业务数据处理方法,其特征在于,所述步骤1进一步包括:通过Selenium函数将抓取业务关键词请求发送到数据平台对应的程序接口,所述程序接口接受请求打开Selenium函数要抓取的数据内容,在第三方服务器完成数据内容的加载,然后通过桥接方式与业务数据处理中心连接,将所述第三方服务器缓存的抓取的数据内容传回业务数据处理中心的数据预处理单元,在对抓取回的数据进行预处理及解析提取。
3.如权利要求1所述的一种基于大数据分析的业务数据处理方法,其特征在于,所述步骤1进一步包括:对需要采集的数据平台的数据相关性进行分级进一步需要对数据抓取的难易程度进行分级,若所述数据平台需要进行动态网页数据的抓取,则设置该数据平台为高相关性,若所述数据平台设置有反抓取屏蔽单元,则设置该数据平台为高相关性。
4.如权利要求3所述的一种基于大数据分析的业务数据处理方法,其特征在于,若所述数据平台设置有反抓取屏蔽单元,则通过机器学习方式模拟正常访问行为,并设置伪随机数列,基于该伪随机数列设置更换网关和代理服务器的频率。
5.如权利要求2所述的一种基于大数据分析的业务数据处理方法,其特征在于,所述第三方服务器为代理服务器。
6.如权利要求1所述的一种基于大数据分析的业务数据处理方法,其特征在于,所述步骤2进一步包括:转换为对应的数据格式的数据包括该数据所属数据平台的数据倾向,如所述数据平台为交友平台,则对应的数据格式为用户之间的关联对应的数据格式,如所述数据平台为购物平台,则对应的数据格式为消费记录对应的数据格式。
7.如权利要求1所述的一种基于大数据分析的业务数据处理方法,其特征在于,所述步骤2进一步包括:所述的数据清洗包括:去除无用和重复的数据和规范数据格式,所述根据不同的数据来源对抓取的数据进行数据分类并添加对应标识。
8.一种基于大数据分析的业务数据的处理系统,其特征在于,所述系统包括:
数据抓取单元,对需要采集的数据平台的数据相关性进行分级,采用分布式信息获取方式对不同级别的数据平台采用不同程度等级的数据抓取,通过Selenium函数将抓取业务关键词请求发送到数据平台对应的程序接口,所述程序接口接受请求打开Selenium函数要抓取的数据内容,在第三方服务器完成数据内容的加载,然后通过桥接方式与业务数据处理中心连接,将所述第三方服务器缓存的抓取的数据内容传回业务数据处理中心的数据预处理单元,在对抓取回的数据进行预处理及解析提取,其中,对于相关度高的数据平台采用深层抓取,而对于相关度低的数据平台采用简单数据抓取,对需要采集的数据平台的数据相关性进行分级进一步需要对数据抓取的难易程度进行分级,若所述数据平台需要进行动态网页数据的抓取,则设置该数据平台为高相关性,若所述数据平台设置有反抓取屏蔽单元,则设置该数据平台为高相关性,若所述数据平台设置有反抓取屏蔽单元,则通过机器学习方式模拟正常访问行为,并设置伪随机数列,基于该伪随机数列设置更换网关和代理服务器的频率;
数据前处理单元,对应不同的数据平台设置不同的数据采集格式(例如JSON格式、Unicode格式),将抓取的数据进行数据清洗后,转换为对应的数据格式的数据,其中,所述数据格式包括预先设定的业务关键词及与业务关键词对应的业务关联级别,其中,转换为对应的数据格式的数据包括该数据所属数据平台的数据倾向,如所述数据平台为交友平台,则对应的数据格式为用户之间的关联对应的数据格式,如所述数据平台为购物平台,则对应的数据格式为消费记录对应的数据格式,所述的数据清洗包括:去除无用和重复的数据和规范数据格式,所述根据不同的数据来源对抓取的数据进行数据分类并添加对应标识;
数据存储单元,对转换数据格式后的数据进行池化处理,将处理后的数据存储于业务处理中心的数据池;
数据后处理单元,所述数据池与数据处理单元连接,为数据应用及分析提供数据基础。
9.一种电子设备,其特征在于,包括处理器、存储器、通信接口,以及一个或多个程序,所述一个或多个程序被存储在所述存储器中,并且被配置由所述处理器执行,所述程序包括用于执行如权利要求17任一项所述的方法中的步骤的指令。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序被处理器执行,以实现如权利要求1-7任一项所述的方法。
CN202210159730.0A 2022-02-22 2022-02-22 一种基于大数据分析的业务数据的处理方法及系统 Pending CN114547171A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210159730.0A CN114547171A (zh) 2022-02-22 2022-02-22 一种基于大数据分析的业务数据的处理方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210159730.0A CN114547171A (zh) 2022-02-22 2022-02-22 一种基于大数据分析的业务数据的处理方法及系统

Publications (1)

Publication Number Publication Date
CN114547171A true CN114547171A (zh) 2022-05-27

Family

ID=81678271

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210159730.0A Pending CN114547171A (zh) 2022-02-22 2022-02-22 一种基于大数据分析的业务数据的处理方法及系统

Country Status (1)

Country Link
CN (1) CN114547171A (zh)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033203A (zh) * 2018-06-29 2018-12-18 大连交通大学 一种面向大数据的特征提取并行处理方法
CN113626512A (zh) * 2021-08-17 2021-11-09 未鲲(上海)科技服务有限公司 数据处理方法、装置、设备及可读存储介质
CN113918793A (zh) * 2021-12-10 2022-01-11 江苏宝和数据股份有限公司 一种多源科创资源数据采集方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109033203A (zh) * 2018-06-29 2018-12-18 大连交通大学 一种面向大数据的特征提取并行处理方法
CN113626512A (zh) * 2021-08-17 2021-11-09 未鲲(上海)科技服务有限公司 数据处理方法、装置、设备及可读存储介质
CN113918793A (zh) * 2021-12-10 2022-01-11 江苏宝和数据股份有限公司 一种多源科创资源数据采集方法

Similar Documents

Publication Publication Date Title
Schneider et al. Web sphere analysis: An approach to studying online action
Das et al. Creating meaningful data from web logs for improving the impressiveness of a website by using path analysis method
KR101063364B1 (ko) 웹 크롤링 프로세스 동안 웹 사이트에 우선순위를 부여하기위한 시스템 및 방법
US8719308B2 (en) Method and system to process unstructured data
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN107807937B (zh) 一种网站seo处理方法、装置及系统
CN102222098A (zh) 一种网页预取方法和系统
CN110417873B (zh) 一种实现记录网页交互操作的网络信息提取系统
CN102158365A (zh) 一种网络日志挖掘中的用户聚类方法及系统
CN111259220B (zh) 一种基于大数据的数据采集方法和系统
US20090187516A1 (en) Search summary result evaluation model methods and systems
CN111506795B (zh) 一种招标信息获取方法及装置
Agarwal et al. “Way back then”: A Data-driven View of 25+ years of Web Evolution
JP2008097259A (ja) アクセス解析を利用した営業支援システム及び営業支援方法
KR100557874B1 (ko) 과학기술 정보분석 방법 및 그 방법에 대한 컴퓨터프로그램을 저장한 기록매체
Bakariya et al. An inclusive survey on data preprocessing methods used in web usage mining
Chatterjee et al. Auto-explore the web–web crawler
CN114547171A (zh) 一种基于大数据分析的业务数据的处理方法及系统
JP6748474B2 (ja) 意思決定支援システムおよび意思決定支援方法
CN110825976B (zh) 网站页面的检测方法、装置、电子设备及介质
Haruechaiyasak et al. A data mining framework for building a web-page recommender system
Vadivazhagan et al. Mining frequent link sets from web log using apriori algorithm
Jyoti et al. A Novel Approach for clustering web user sessions using RST
Pandian et al. A Unified Model for Preprocessing and Clustering Technique for Web Usage Mining.
Strzelecki et al. Device-dependent click-through rate estimation in Google organic search results based on clicks and impressions data

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination