CN104615792A - 一种企业互联网数据一户式查询展示方法 - Google Patents

一种企业互联网数据一户式查询展示方法 Download PDF

Info

Publication number
CN104615792A
CN104615792A CN201510108174.4A CN201510108174A CN104615792A CN 104615792 A CN104615792 A CN 104615792A CN 201510108174 A CN201510108174 A CN 201510108174A CN 104615792 A CN104615792 A CN 104615792A
Authority
CN
China
Prior art keywords
data
internet
enterprise
information
exhibiting
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510108174.4A
Other languages
English (en)
Inventor
邱继钊
王传超
徐宏伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Inspur Group Co Ltd
Original Assignee
Inspur Group Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Inspur Group Co Ltd filed Critical Inspur Group Co Ltd
Priority to CN201510108174.4A priority Critical patent/CN104615792A/zh
Publication of CN104615792A publication Critical patent/CN104615792A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种企业互联网数据一户式查询展示方法,该查询展示方法主要分两大部分,一是互联网相关数据的抓取,二是数据的关联与展示;利用网络爬虫抓取企业在互联网上存在的信息,基于数据挖掘技术提取有用信息,最终通过关联分析对数据进行整合。本发明的一种企业互联网数据一户式查询展示方法和现有技术相比,将企业在互联网上的相关信息聚集在一起,方便用户查看,省去了在海量互联网数据中进行繁杂的查询,且多种信息间的组合查询可提供更加有用的信息。

Description

一种企业互联网数据一户式查询展示方法
技术领域
本发明涉及网络数据查询技术领域,具体地说是一种企业互联网数据一户式查询展示方法。
背景技术
近年来,随着信息技术和互联网的不断迅速发展,互联网信息在社会和生活中的地位越来越显著。在互联网上发布信息也成为个人与企业的首要选择,若企业急需人才,企业会在招聘网站发布相应岗位的招聘信息;对于某些生产类的企业,则会在较为流行的主流电商交易平台开设网店对其产品进行展示与销售。与此同时,各大政府网站也会发布企业的信用数据以及招中标数据。随着大数据时代的到来,大量分布的、异构的信息应运而生,这些信息种类繁多,信息的表示和存储形式也各不相同,且这些信息来自互联网不同的网站,数据难以共享,这给信息的综合利用带来了很大的困难。互联网犹如一把双刃剑,虽然提供了很多企业信息的展示与披露,使我们方便产看与企业相关的一些信息,消费者足不出户便可对企业信息完全掌握。但是,在提供方便的同时也带来了较大不便,企业的不同信息往往来自于互联网上不同的展示平台,且平台直接通常是独立且数据互不共享的,如果想看企业的所有相关信息,需要去不同平台上进行查询,且查询方式较为繁琐。
互联网作为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎作为一个辅助人们检索信息的工具成为用户访问互联网的入口和指南。但是,这些通用性搜索引擎也存在着一定的局限性,如:不同领域、不同背景的用户往往具有不同的检索目的和需求,通用搜索引擎所返回的结果包含大量用户不关心的网页。
发明内容
本发明的技术任务是提供一种企业互联网数据一户式查询展示方法。
本发明的技术任务是按以下方式实现的,该查询展示方法主要分两大部分,一是互联网相关数据的抓取,二是数据的关联与展示;
利用网络爬虫抓取企业在互联网上存在的信息,基于数据挖掘技术提取有用信息,最终通过关联分析对数据进行整合。
该查询展示方法的步骤如下:
步骤1:确定数据种类,根据实际需求确定数据种类;
步骤2:获取数据来源,针对数据种类的不同,在互联网上搜索相关数据来源网站;
步骤3:数据采集,针对不同种类的数据,通过抓包工具获取来源网站的统一资源定位符,配置采集规则,利用网络爬虫工具进行数据抓取;
步骤4:数据验证,对抓取到的互联网数据进行数据验证;
步骤5:对验证通过的数据进行数据挖掘,根据数据类别不同将抓取到的数据进行汇总,并根据企业名称信息进行数据关联,对关联数据进行分析,寻找可进行数据应用的方向;
步骤6:对关联数据进行一户式查询展示,通过输入企业名称或代码,可查询该企业所有类别数据信息,不同类别数据可进行详细查询。
所述的步骤4中,数据验证是对互联网数据进行采集质量与准确性的验证,若质量较差或准确性较低,则对采集规则进行调整,再次采集。
本发明的一种企业互联网数据一户式查询展示方法和现有技术相比,将企业在互联网上的相关信息聚集在一起,方便用户查看,省去了在海量互联网数据中进行繁杂的查询,且多种信息间的组合查询可提供更加有用的信息。
附图说明
    附图1为一种企业互联网数据一户式查询展示方法的流程框图。
具体实施方式
  实施例1:
该查询展示方法主要分两大部分,一是互联网相关数据的抓取,二是数据的关联与展示;利用网络爬虫抓取企业在互联网上存在的信息,基于数据挖掘技术提取有用信息,最终通过关联分析对数据进行整合。
该查询展示方法的步骤如下:
步骤1:确定数据种类,根据实际需求确定数据种类;
步骤2:获取数据来源,针对数据种类的不同,在互联网上搜索相关数据来源网站;
步骤3:数据采集,针对不同种类的数据,通过抓包工具获取来源网站的统一资源定位符,配置采集规则,利用网络爬虫工具进行数据抓取;
步骤4:数据验证,对抓取到的互联网数据进行采集质量与准确性的验证,删减冗余字段,若质量较差或准确性较低,则对采集规则进行调整,再次采集;
步骤5:对验证通过的数据进行数据挖掘,根据数据类别不同将抓取到的数据进行汇总,并根据企业名称信息进行数据关联,对关联数据进行分析,寻找可进行数据应用的方向;
步骤6:对关联数据进行一户式查询展示,通过输入企业名称或代码,可查询该企业所有类别数据信息,不同类别数据可进行详细查询。
通过上述查询方法将企业在互联网上的相关信息聚集在一起,方便用户查看,不需要查询者到互联网上大海捞针似的进行搜索查询,省去了在海量互联网数据中进行繁杂的查询,且多种信息间的组合查询可提供更加有用的信息,这是直接从互联网进行数据查询所无法达到的效果。
通过上面具体实施方式,所述技术领域的技术人员可容易的实现本发明。但是应当理解,本发明并不限于上述的几种具体实施方式。在公开的实施方式的基础上,所述技术领域的技术人员可任意组合不同的技术特征,从而实现不同的技术方案。

Claims (3)

1.一种企业互联网数据一户式查询展示方法,其特征在于,该查询展示方法主要分两大部分,一是互联网相关数据的抓取,二是数据的关联与展示;
利用网络爬虫抓取企业在互联网上存在的信息,基于数据挖掘技术提取有用信息,最终通过关联分析对数据进行整合。
2.根据权利要求1所述的一种企业互联网数据一户式查询展示方法,其特征在于,该查询展示方法的步骤如下:
步骤1:确定数据种类,根据实际需求确定数据种类;
步骤2:获取数据来源,针对数据种类的不同,在互联网上搜索相关数据来源网站;
步骤3:数据采集,针对不同种类的数据,通过抓包工具获取来源网站的统一资源定位符,配置采集规则,利用网络爬虫工具进行数据抓取;
步骤4:数据验证,对抓取到的互联网数据进行数据验证;
步骤5:对验证通过的数据进行数据挖掘,根据数据类别不同将抓取到的数据进行汇总,并根据企业名称信息进行数据关联,对关联数据进行分析,寻找可进行数据应用的方向;
步骤6:对关联数据进行一户式查询展示,通过输入企业名称或代码,可查询该企业所有类别数据信息,不同类别数据可进行详细查询。
3.根据权利要求2所述的一种企业互联网数据一户式查询展示方法,其特征在于,所述的步骤4中,数据验证是对互联网数据进行采集质量与准确性的验证,若质量较差或准确性较低,则对采集规则进行调整,再次采集。
CN201510108174.4A 2015-03-12 2015-03-12 一种企业互联网数据一户式查询展示方法 Pending CN104615792A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510108174.4A CN104615792A (zh) 2015-03-12 2015-03-12 一种企业互联网数据一户式查询展示方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510108174.4A CN104615792A (zh) 2015-03-12 2015-03-12 一种企业互联网数据一户式查询展示方法

Publications (1)

Publication Number Publication Date
CN104615792A true CN104615792A (zh) 2015-05-13

Family

ID=53150234

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510108174.4A Pending CN104615792A (zh) 2015-03-12 2015-03-12 一种企业互联网数据一户式查询展示方法

Country Status (1)

Country Link
CN (1) CN104615792A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108876149A (zh) * 2018-06-20 2018-11-23 前海梧桐(深圳)数据有限公司 企业基本要素连接组之间的自动交互方法和装置
CN109254963A (zh) * 2017-07-12 2019-01-22 金脑数位股份有限公司 讯息处理装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120203760A1 (en) * 2011-02-04 2012-08-09 Ebay Inc. Automatically obtaining real-time, geographically-relevant product information from heterogeneus sources
CN103455636A (zh) * 2013-09-27 2013-12-18 浪潮齐鲁软件产业有限公司 一种基于互联网税务数据自动抓取与智能分析的方法
CN104112207A (zh) * 2014-07-29 2014-10-22 浪潮软件集团有限公司 一种基于互联网数据的电子商务交易监测方法

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120203760A1 (en) * 2011-02-04 2012-08-09 Ebay Inc. Automatically obtaining real-time, geographically-relevant product information from heterogeneus sources
CN103455636A (zh) * 2013-09-27 2013-12-18 浪潮齐鲁软件产业有限公司 一种基于互联网税务数据自动抓取与智能分析的方法
CN104112207A (zh) * 2014-07-29 2014-10-22 浪潮软件集团有限公司 一种基于互联网数据的电子商务交易监测方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109254963A (zh) * 2017-07-12 2019-01-22 金脑数位股份有限公司 讯息处理装置
CN108876149A (zh) * 2018-06-20 2018-11-23 前海梧桐(深圳)数据有限公司 企业基本要素连接组之间的自动交互方法和装置

Similar Documents

Publication Publication Date Title
US10621631B2 (en) Individual online price adjustments in real time
JP5596152B2 (ja) 電子商取引ウェブサイトでの情報マッチングの方法及びシステム
JP5802745B2 (ja) インテリジェントナビゲーションの方法、装置、およびシステム
CN105589905B (zh) 用户兴趣数据分析和收集系统及其方法
CN104035927B (zh) 一种基于用户行为的搜索方法及系统
US11843651B2 (en) Personalized recommendation method and system, and terminal device
CN105765573B (zh) 网站通信量优化方面的改进
US20110282860A1 (en) Data collection, tracking, and analysis for multiple media including impact analysis and influence tracking
US9400844B2 (en) System for finding website invitation cueing keywords and for attribute-based generation of invitation-cueing instructions
TW201327233A (zh) 個性化的資訊推送方法及裝置
CN103309894B (zh) 基于用户属性的搜索实现方法及系统
CN107730337A (zh) 信息推送方法和装置
CN103338260A (zh) 网络审计中url日志的分布式分析系统及分析方法
CN109977312A (zh) 一种基于内容标签的知识库推荐系统
CN101957968A (zh) 基于Hadoop的网上交易服务聚合方法
CN102831543A (zh) 一种电子商务推荐方法
CN102214183A (zh) 按页面反馈内容与固定排名相结合的搜索引擎查询方法
US20140149259A1 (en) Consumer centric online product research
CN103365876A (zh) 基于关系图谱生成网络操作辅助信息的方法与设备
CN102982035B (zh) 一种社区用户的搜索排序方法及系统
CN104615792A (zh) 一种企业互联网数据一户式查询展示方法
CN104156375A (zh) 一种基于众包的信息投放方法和系统
Aly et al. Towards a robust modeling of temporal interest change patterns for behavioral targeting
CN104050174B (zh) 一种个性化页面生成方法及装置
CN107845005A (zh) 网页生成方法和装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20150513