CN110765121B - 一种大数据智能采集处理方法和系统 - Google Patents

一种大数据智能采集处理方法和系统 Download PDF

Info

Publication number
CN110765121B
CN110765121B CN201911055837.5A CN201911055837A CN110765121B CN 110765121 B CN110765121 B CN 110765121B CN 201911055837 A CN201911055837 A CN 201911055837A CN 110765121 B CN110765121 B CN 110765121B
Authority
CN
China
Prior art keywords
data
database
acquired
processing method
intelligent
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911055837.5A
Other languages
English (en)
Other versions
CN110765121A (zh
Inventor
张乔木
李雷
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Yichen Information Technology Co ltd
Original Assignee
Shanghai Yichen Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Yichen Information Technology Co ltd filed Critical Shanghai Yichen Information Technology Co ltd
Priority to CN201911055837.5A priority Critical patent/CN110765121B/zh
Publication of CN110765121A publication Critical patent/CN110765121A/zh
Application granted granted Critical
Publication of CN110765121B publication Critical patent/CN110765121B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Quality & Reliability (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

大数据智能采集处理方法,包括以下步骤:S1.设置第一数据库和第二数据库;S2.设置网络智能机器人,获得采集数据;S3.将采集数据逐条同第一数据库中数据进行对比,将数据A存入第一数据库;否则将数据A存入第二数据库;S4.将数据A存入所述第二数据库时,进行相似度γ计算;S41.当相似度γ大于阈值β时,则将数据A,替换相似度γ最高的一条数据;S42.否则将数据A直接存入第二数据库;S5.超过时间阈值δ时,将第二数据库中的数据存入第一数据库,同时清除第二数据库中数据;S6.将第二数据库中的数据分别同第一数据库中相似度γ最高的一条或多条数据标注为同一类数据。

Description

一种大数据智能采集处理方法和系统
技术领域
本发明涉及信息技术领域,特别是涉及一种大数据智能采集处理方法和系统。
背景技术
随着大数据时代的到来,人们对数据的需求越来越旺盛。由于数据源在实际生活中千奇百怪,因此不经多重处理就进入数据库的数据很可能让数据的整体可靠性和有效性会大大降低,用这样的数据在进行后续的数据使用,其使用效率是很低的。为了获得更有效的文本数据,特别是适用于供应、需求、销售、交易、电商的数据处理,用户需要提取最及时有用的含有信息量大的数据,同时在适当时候,更新信息量相对较小的数据。
数据清洗方法及装置201010578479.9,获取经过粗分类的样本数据,将获取的样本数据作为第一数据集;对所述样本数据进行分类,获得所述样本数据的粗分类类别的权重,根据所述权重确定所述样本数据的粗分类类别在所有类别中的排序位置;根据所述样本数据的粗分类类别在所有类别中的排序位置和第一数据集中样本数据的总数量,获得综合评估结果;当根据所述综合评估结果确定需要对所述第一数据集进行清洗时,根据所述样本数据的粗分类类别在所有类别中的排序位置删除规定数量的排在末位的样本数据。
发明内容
本发明的目的是提供一种大数据智能采集处理方法和系统。通过该方法可以有效的及时对采集数据进行处理,提取最及时有用的含有信息量大的数据,同时保留信息量相对较小的数据,方便用户高效的使用数据。
一种大数据智能采集处理方法,包括以下步骤:
S1.设置第一数据库和第二数据库;
S2.设置一个或多个网络智能机器人,实时智能抓取公开信息,获得采集数据;
S3.将所述采集数据逐条同所述第一数据库中数据进行对比,当所述采集数据中数据A,同所述第一数据库中数据相似度γ均小于阈值α时,则将所述采集数据中数据A存入所述第一数据库;否则将所述采集数据中数据A存入所述第二数据库;
S4. 将所述采集数据中数据A存入所述第二数据库时,将所述采集数据中数据A同所述第二数据库中数据进行相似度γ计算;
S41.当所述采集数据中数据A同所述第二数据库中某一条或多条数据相似度γ大于阈值β时,则将所述采集数据中数据A,替换所述第二数据库中同所述采集数据中数据A相似度γ最高的一条数据;
S42.否则将所述采集数据中数据A直接存入所述第二数据库;
S5.超过时间阈值δ时,将所述第二数据库中的数据存入所述第一数据库,同时清除所述第二数据库中数据;
S6.将所述第二数据库中的数据存入所述第一数据库时,将所述第二数据库中的数据分别同所述第一数据库中相似度γ最高的一条或多条数据标注为同一类数据。
作为优化,大数据智能采集处理方法采集的数据,至少包括发布内容一个数据标签。实际应用时采集到的数据至少含有发布人、发布内容、发布类型三个数据标签。
作为优化,大数据智能采集处理方法,进行数据检索时,只检索所述第一数据库中数据,而对于所述第一数据库中所述同一类数据只显示所述同一类数据中最后添加的一条数据。
作为优化,大数据智能采集处理方法,相似度γ的计算方法为:γ=∑ρi*σi ,(i=1..n)
n为数据标签的个数;
ρi为第i个数据标签的权重值;
σi为两条数据第i个数据标签的标签相似度。
标签相似度可以采用但不限于余弦相似性算法,简单共有词算法,编辑距离算法、Jaccard距离算法等算法计算。
作为优化,大数据智能采集处理方法,如果所述第一数据库中有被标注为同一类数据的数据Φ={ψ1…ψn},n≥2;
ψn+1同Φ中任何一条数据或多条数据,被标注为同一类数据,则同一类数据的数据Φ={ψ1…ψn+1}。
作为优化,大数据智能采集处理方法,所述实时智能抓取公开信息的抓取数据源包括网站、即时聊天工具的公开信息。
作为优化,大数据智能采集处理方法,实时智能抓取公开信息时,通过关键词或算法,对原始数据进行智能提取分类,获得具有多个数据标签的所述采集数据。
一种大数据智能采集处理系统,包括:
数据采集模块,用于实时智能抓取公开信息,获得采集数据;
第一数据库,用于最终储存数据,并对外提供检索查询数据;
第二数据库,用于临时储存数据;
数据处理模块,用于判断和操作所述采集数据存入所述第一数据库或所述第二数据库;
数据同步模块,用于定期将所述第二数据库中的数据存入所述第一数据库,同时清除所述第二数据库中数据。
本发明大数据智能采集处理方法和系统,采集到的海量数据中包括最新的含有高信息量数据,同时具有大量接近于重复的低信息量数据;通过本发明的方法,可以及时提取含有高信息量数据,同时保留低信息量数据的数据,通过数据的错位更新,方便用户在数据查看时及时的查看到需要的有用信息,提高使用效率,适用于供应、需求、交易、电商等大数据信息服务平台。
附图说明
下面结合附图和具体实施方式来详细说明本发明;
图1为本发明实施例1涉及的流程示意图;
图2为本发明实施例2涉及的结构示意图;
图3为本发明实施例3涉及的采集处理示意图。
具体实施方式
下面给出的实施例拟对本发明作进一步说明,但不能理解为是对本发明保护范围的限制,本领域技术人员根据本发明内容对本发明的一些非本质的改进和调整,仍属于本发明的保护范围。
实施例1:如图1所示,大数据智能采集处理方法,包括以下步骤:
S1.设置第一数据库和第二数据库;
S2.设置一个或多个网络智能机器人,实时智能抓取网站、即时聊天工具的公开信息,获得采集数据,采集到的数据至少含有发布人、发布内容、发布类型三个数据标签;
S3.将采集数据逐条同第一数据库中数据进行对比,当采集数据中的某一条数据A,同第一数据库中数据相似度γ均小于阈值α时,则将采集数据中某一条数据A存入第一数据库;否则将采集数据中某一条数据A存入第二数据库;
S4. 将采集数据中某一条数据A存入所述第二数据库时,将采集数据中某一条数据A同第二数据库中数据进行相似度γ计算;
S41.当采集数据中某一条数据A同第二数据库中某一条或多条数据相似度γ大于阈值β时,则将采集数据中某一条数据A,替换第二数据库中同采集数据中某一条数据A相似度γ最高的一条数据;
S42.否则将采集数据中某一条数据A直接存入第二数据库;
S5.设定一个时间阈值δ,超过时间阈值δ时,将第二数据库中的数据存入第一数据库,同时清除第二数据库中数据;
S6.将第二数据库中的数据存入第一数据库时,将第二数据库中的数据分别同第一数据库中相似度γ最高的一条或多条数据标注为同一类数据。
S7.进行数据检索时,只检索所述第一数据库中数据,而对于所述第一数据库中所述同一类数据只显示所述同一类数据中最后添加的一条数据。
相似度γ的计算方法为:γ=∑ρi*σi ,(i=1..n)
n为数据标签的个数;
ρi为第i个数据标签的权重值;
σi为两条数据第i个数据标签的标签相似度。
标签相似度可以采用但不限于余弦相似性算法,简单共有词算法,Jaccard距离算法、编辑距离算法等算法计算。
第一数据库中有被标注为同一类数据的数据Φ={ψ1…ψn},n≥2;
ψn+1同Φ中任何一条数据或多条数据,被标注为同一类数据,则同一类数据的数据Φ={ψ1…ψn+1}。
实施例2:如图2所示,大数据智能采集处理系统,包括:
数据采集模块,用于实时智能抓取网站、即时聊天工具的公开信息,获得采集数据;
第一数据库,用于最终储存数据,并对外提供检索查询数据;
第二数据库,用于临时储存数据;
数据处理模块,用于判断和操作所述采集数据存入第一数据库或第二数据库;
数据同步模块,用于定期将所述第二数据库中的数据存入所述第一数据库,同时清除所述第二数据库中数据。
实施例3:大数据智能采集处理方法,包括以下步骤:
S1.设置第一数据库和第二数据库;
S2.设置多个网络智能机器人,例如QQ网络智能机器人;实时智能采集即时聊天工具的公开信息,例如QQ群,获得采集数据,采集到的数据含有发布人、发布内容、发布类型三个数据标签;
S3.将采集数据逐条同第一数据库中数据进行对比,当采集数据中的某一条数据A,同第一数据库中数据相似度γ均小于阈值α=0.85时,则将采集数据中某一条数据A存入第一数据库;否则将采集数据中某一条数据A存入第二数据库;
S4. 将采集数据中某一条数据A存入所述第二数据库时,将采集数据中某一条数据A同第二数据库中数据进行相似度γ计算;
S41.当采集数据中某一条数据A同第二数据库中某一条或多条数据相似度γ大于阈值β=0.85时,则将采集数据中某一条数据A,替换第二数据库中同采集数据中某一条数据A相似度γ最高的一条数据;
S42.否则将采集数据中某一条数据A直接存入第二数据库;
S5.设定每日凌晨时,将第二数据库中的数据存入第一数据库,同时清除第二数据库中数据;
S6.将第二数据库中的数据存入第一数据库时,将第二数据库中的数据分别同第一数据库中相似度γ最高的一条或多条数据标注为同一类数据。
S7.进行数据检索时,只检索所述第一数据库中数据,而对于第一数据库中同一类数据只显示同一类数据中最后添加的一条数据。
相似度γ的计算方法为:γ=∑ρi*σi ,(i=1、2、3)
1发布人、2发布内容、3发布类型
ρ1=0.10、ρ2=0.65、ρ3=0.25、
ρi为第i个数据标签的权重值;
σi为两条数据第i个数据标签的标签相似度,采用编辑距离算法计算。
当第二数据库为空,当日采集的数据如图3所示,采集处理后第二日凌晨前的第一数据库数据,第二日凌晨后的第一数据库数据如图3所示。
以上的所述乃是本发明的具体实施例及所运用的技术原理,若依本发明的构想所作的改变,其所产生的功能作用仍未超出说明书及附图所涵盖的精神时,仍应属本发明的保护范围。

Claims (7)

1.一种大数据智能采集处理方法,其特征在于包括以下步骤:
S1.设置第一数据库和第二数据库;
S2.设置一个或多个网络智能机器人,实时智能抓取公开信息,获得采集数据;
S3.将所述采集数据逐条同所述第一数据库中数据进行对比,当所述采集数据中数据A,同所述第一数据库中数据相似度γ均小于阈值α时,则将所述采集数据中数据A存入所述第一数据库;否则将所述采集数据中数据A存入所述第二数据库;
S4. 将所述采集数据中数据A存入所述第二数据库时,将所述采集数据中数据A同所述第二数据库中数据进行相似度γ计算;
S41.当所述采集数据中数据A同所述第二数据库中某一条或多条数据相似度γ大于阈值β时,则将所述采集数据中数据A,替换所述第二数据库中同所述采集数据中数据A相似度γ最高的一条数据;
S42.否则将所述采集数据中数据A直接存入所述第二数据库;
S5.超过时间阈值δ时,将所述第二数据库中的数据存入所述第一数据库,同时清除所述第二数据库中数据;
S6.将所述第二数据库中的数据存入所述第一数据库时,将所述第二数据库中的数据分别同所述第一数据库中相似度γ最高的一条或多条数据标注为同一类数据。
2.根据权利要求1所述的大数据智能采集处理方法,其特征在于所述采集数据,至少包括发布人、发布内容、发布类型三个数据标签。
3.根据权利要求1所述的大数据智能采集处理方法,其特征在于,进行数据检索时,只检索所述第一数据库中数据,而对于所述第一数据库中所述同一类数据只显示所述同一类数据中最后添加的一条数据。
4.根据权利要求2所述的大数据智能采集处理方法,其特征在于所述相似度γ的计算方法为:γ=∑ρi*σi ,(i=1..n)
n为数据标签的个数;
ρi为第i个数据标签的权重值;
σi为两条数据第i个数据标签的标签相似度。
5.根据权利要求1所述的大数据智能采集处理方法,其特征在于:
如果所述第一数据库中有被标注为同一类数据的数据Φ={ψ1…ψn},n≥2;
ψn+1同Φ中任何一条数据或多条数据,被标注为同一类数据,则同一类数据的数据Φ={ψ1…ψn+1}。
6.根据权利要求1所述的大数据智能采集处理方法,其特征在于: 所述实时智能抓取公开信息的抓取数据源包括网站、即时聊天工具的公开信息。
7.根据权利要求1所述的大数据智能采集处理方法,其特征在于: 所述实时智能抓取公开信息时,通过关键词或算法,对原始数据进行智能提取分类,获得具有多个数据标签的所述采集数据。
CN201911055837.5A 2019-10-31 2019-10-31 一种大数据智能采集处理方法和系统 Active CN110765121B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911055837.5A CN110765121B (zh) 2019-10-31 2019-10-31 一种大数据智能采集处理方法和系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911055837.5A CN110765121B (zh) 2019-10-31 2019-10-31 一种大数据智能采集处理方法和系统

Publications (2)

Publication Number Publication Date
CN110765121A CN110765121A (zh) 2020-02-07
CN110765121B true CN110765121B (zh) 2022-09-20

Family

ID=69335443

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911055837.5A Active CN110765121B (zh) 2019-10-31 2019-10-31 一种大数据智能采集处理方法和系统

Country Status (1)

Country Link
CN (1) CN110765121B (zh)

Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1173675A (zh) * 1996-04-16 1998-02-18 日本电气株式会社 多媒体数据库检索系统
CN101046807A (zh) * 2006-03-31 2007-10-03 华为技术有限公司 存储数据已读的方法及装置
CN101427273A (zh) * 2004-05-05 2009-05-06 伊普拉斯系统公司 电子编目供应商网口的系统和方法
CN102930038A (zh) * 2012-11-12 2013-02-13 江苏外博资讯有限公司 一种检索结果相似条目的合并方法及其系统
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN109063066A (zh) * 2018-07-20 2018-12-21 中国邮政储蓄银行股份有限公司 数据查询方法及装置、数据管理系统
CN109271891A (zh) * 2018-08-30 2019-01-25 成都考拉悠然科技有限公司 一种动态的人脸布控方法和系统
CN109710729A (zh) * 2018-12-14 2019-05-03 麒麟合盛网络技术股份有限公司 一种文本数据的采集方法及装置
CN110096553A (zh) * 2019-03-28 2019-08-06 北京华成智云软件股份有限公司 一种跨数据库的大数据分析系统和分析方法
CN110334231A (zh) * 2019-06-28 2019-10-15 深圳市商汤科技有限公司 一种信息处理方法及装置、存储介质

Patent Citations (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1173675A (zh) * 1996-04-16 1998-02-18 日本电气株式会社 多媒体数据库检索系统
CN101427273A (zh) * 2004-05-05 2009-05-06 伊普拉斯系统公司 电子编目供应商网口的系统和方法
CN101046807A (zh) * 2006-03-31 2007-10-03 华为技术有限公司 存储数据已读的方法及装置
CN102930038A (zh) * 2012-11-12 2013-02-13 江苏外博资讯有限公司 一种检索结果相似条目的合并方法及其系统
CN104951512A (zh) * 2015-05-27 2015-09-30 中国科学院信息工程研究所 一种基于互联网的舆情数据采集方法及系统
CN109063066A (zh) * 2018-07-20 2018-12-21 中国邮政储蓄银行股份有限公司 数据查询方法及装置、数据管理系统
CN109271891A (zh) * 2018-08-30 2019-01-25 成都考拉悠然科技有限公司 一种动态的人脸布控方法和系统
CN109710729A (zh) * 2018-12-14 2019-05-03 麒麟合盛网络技术股份有限公司 一种文本数据的采集方法及装置
CN110096553A (zh) * 2019-03-28 2019-08-06 北京华成智云软件股份有限公司 一种跨数据库的大数据分析系统和分析方法
CN110334231A (zh) * 2019-06-28 2019-10-15 深圳市商汤科技有限公司 一种信息处理方法及装置、存储介质

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
基于以太网通信的盾构机数据采集系统;赵炯等;《制造业自动化》;20120425(第08期);第7-10、28页 *
移动综合网管监控数据采集;袁俊佳等;《应用科技》;20061005(第10期);第39-41、48页 *

Also Published As

Publication number Publication date
CN110765121A (zh) 2020-02-07

Similar Documents

Publication Publication Date Title
CN108932294B (zh) 基于索引的简历数据处理方法、装置、设备及存储介质
US9256686B2 (en) Using a bloom filter in a web analytics application
WO2019218475A1 (zh) 异常行为对象的识别方法、装置、终端设备及介质
WO2022134794A1 (zh) 新闻事件的舆情处理方法及装置、存储介质、计算机设备
CN110851598B (zh) 文本分类方法、装置、终端设备及存储介质
CN104050240A (zh) 一种确定搜索查询词类别属性的方法和装置
CN113868235A (zh) 一种基于大数据的信息检索分析系统
CN108681866B (zh) 运单的处理方法、系统、设备和存储介质
CN113190426B (zh) 一种大数据评分系统稳定性监控方法
CN114138784B (zh) 基于存储库的信息溯源方法、装置、电子设备及介质
US20080147631A1 (en) Method and system for collecting and retrieving information from web sites
CN112560465B (zh) 批量异常事件的监控方法、装置、电子设备及存储介质
CN108241867A (zh) 一种分类方法及装置
CN113886708A (zh) 基于用户信息的产品推荐方法、装置、设备及存储介质
CN112561603A (zh) 一种基于用户实时行为的事件标签实现方法及其系统
CN103853771B (zh) 一种搜索结果的推送方法及系统
CN110688846B (zh) 周期词挖掘方法、系统、电子设备及可读存储介质
CN117251414B (zh) 一种基于异构技术的数据存储及处理方法
CN110765121B (zh) 一种大数据智能采集处理方法和系统
CN111461630B (zh) 派送快递包裹的监控方法、装置、设备及存储介质
CN115017024A (zh) 界面定位方法、装置、电子设备及计算机可读存储介质
CN115936748A (zh) 一种商业大数据分析方法及系统
CN115774717A (zh) 数据搜索方法、装置、电子设备及计算机可读存储介质
CN113706207A (zh) 基于语义解析的订单成交率分析方法、装置、设备及介质
CN113342844A (zh) 工业智能搜索系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: Room 44, floor 19, building 1, No. 18, Jialingjiang East Street, Jianye District, Nanjing, Jiangsu 210000

Applicant after: Lanzhi Technology (Nanjing) Co.,Ltd.

Address before: 030000 Shanxi Taiyuan Shanxi comprehensive reform demonstration zone Taiyuan Education Park Industrial Road 38 high tech real estate 608 room

Applicant before: TAIYUAN LANZHI TECHNOLOGY CO.,LTD.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20220617

Address after: 030000 room 801, 8 / F, building a, smart port, No. 163, Jinyang street, Taiyuan City, Shanxi Province

Applicant after: Youyou (Shanxi) Technology Co.,Ltd.

Address before: Room 44, floor 19, building 1, No. 18, Jialingjiang East Street, Jianye District, Nanjing, Jiangsu 210000

Applicant before: Lanzhi Technology (Nanjing) Co.,Ltd.

TA01 Transfer of patent application right
TA01 Transfer of patent application right

Effective date of registration: 20220830

Address after: Room EE1004, 1st Floor, Building 1, No. 1755, Hongmei South Road, Minhang District, Shanghai, 201100

Applicant after: Shanghai Yichen Information Technology Co.,Ltd.

Address before: 030000 room 801, 8 / F, building a, smart port, No. 163, Jinyang street, Taiyuan City, Shanxi Province

Applicant before: Youyou (Shanxi) Technology Co.,Ltd.

TA01 Transfer of patent application right
GR01 Patent grant
GR01 Patent grant