CN111191052B - 一种数据采集方法、设备及介质 - Google Patents

一种数据采集方法、设备及介质 Download PDF

Info

Publication number
CN111191052B
CN111191052B CN201911346604.0A CN201911346604A CN111191052B CN 111191052 B CN111191052 B CN 111191052B CN 201911346604 A CN201911346604 A CN 201911346604A CN 111191052 B CN111191052 B CN 111191052B
Authority
CN
China
Prior art keywords
data
target
atomized
field group
acquisition
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201911346604.0A
Other languages
English (en)
Other versions
CN111191052A (zh
Inventor
石忠民
林剑周
钟力
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Original Assignee
GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD filed Critical GUANGZHOU SUMMBA INFORMATION TECHNOLOGY CO LTD
Priority to CN201911346604.0A priority Critical patent/CN111191052B/zh
Publication of CN111191052A publication Critical patent/CN111191052A/zh
Application granted granted Critical
Publication of CN111191052B publication Critical patent/CN111191052B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/41Indexing; Data structures therefor; Storage structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种数据采集方法,包括根据预设业务逻辑对若干需要的目标字段进行分组,得到若干含有不同目标字段的原子化字段组;预设服务端采集例程采集目标平台上的目标数据,目标数据中含有若干文本数据;根据原子化字段组中的目标字段组织每个目标数据中的文本数据,得到若干原子化字段组数据,预设服务端采集例程根据若干原子化字段组提供若干原子化字段组API,预设客户端采集例程通过访问原子化字段组API获取对应的原子化字段组数据。本发明提供一种数据采集方法,预设服务端采集例程和预设客户端采集例程的相互配合,保证了整体数据采集的稳定性,同时便于对数据采集系统的维护。

Description

一种数据采集方法、设备及介质
技术领域
本发明涉及数据处理领域,尤其涉及一种数据采集方法、设备及介质。
背景技术
当今对于数据分析以及自然语言处理等数据处理领域都离不开对数据的有效采集和整理。传统的数据采集都是在一个数据处理例程中包含了数据采集和数据整理的业务逻辑,即对数据采集和数据的整理均在同一例程同时处理,但是目前的数据来源具有多样性和多变性,传统的单一例程的数据采集方式对数据同时进行采集和整理处理无法保证数据采集的有效性和稳定性。
发明内容
为了克服现有技术的不足,本发明的目的之一在于提供一种数据采集方法,其能解决传统的单一例程的数据采集方式对数据同时进行采集和整理处理无法保证数据采集的有效性和稳定性的问题。
本发明的目的之二在于提供一种电子设备,其能解决传统的单一例程的数据采集方式对数据同时进行采集和整理处理无法保证数据采集的有效性和稳定性的问题。
本发明的目的之三在于提供一种计算机可读存储介质,其能解决传统的单一例程的数据采集方式对数据同时进行采集和整理处理无法保证数据采集的有效性和稳定性的问题。
本发明的目的之一采用以下技术方案实现:
一种数据采集方法,包括以下步骤:
目标字段分组,根据预设业务逻辑对若干需要的目标字段进行分组,得到若干含有不同目标字段的原子化字段组;
数据采集,预设服务端采集例程采集目标平台上的目标数据,所述目标数据中含有若干文本数据;
组织数据,根据所述原子化字段组中的目标字段组织每个所述目标数据中的所述文本数据,得到若干原子化字段组数据,每个原子化字段组数据含有至少一所述文本数据;
提供API,预设服务端采集例程根据若干所述原子化字段组提供若干原子化字段组API,每个所述原子化字段组API与唯一的所述原子化字段组数据对应;
数据获取,预设客户端采集例程通过访问所述原子化字段组API获取对应的所述原子化字段组数据。
进一步地,所述数据采集还包括:预设服务端采集例程采集目标平台上的目标数据对应的目标ID,每个所述目标数据对应一个所述目标ID。
进一步地,在所述数据获取之前还包括数据缓存,根据所述目标ID将对应的所述原子化字段组数据分类缓存在预设数据库中。
进一步地,根据所述原子化字段组的预设属性设置缓存时间,单个所述缓存时间、单个所述原子化字段组、单个所述原子化字段组数据相互关联,根据所述缓存时间、所述目标ID将对应的所述原子化字段组数据缓存在预设数据库中。
进一步地,所述组织数据具体为:根据所述原子化字段组中目标字段将每个所述目标数据中的文本数据分类为若干不同的原子化字段组数据,每个所述原子化字段组数据包含至少一所述文本数据。
进一步地,所述目标平台包括网页终端和APP终端。
本发明的目的之二采用以下技术方案实现:
一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行本申请的一种数据采集方法。
本发明的目的之三采用以下技术方案实现:
一种电子设备,包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行本申请的一种数据采集方法。
相比现有技术,本发明的有益效果在于:本申请的一种数据采集方法,包括根据预设业务逻辑对若干需要的目标字段进行分组,得到若干含有不同目标字段的原子化字段组;预设服务端采集例程采集目标平台上的目标数据,目标数据中含有若干文本数据;根据原子化字段组中的目标字段组织每个目标数据中的文本数据,得到若干原子化字段组数据,每个原子化字段组数据含有至少一文本数据;预设服务端采集例程根据若干原子化字段组提供若干原子化字段组API,每个原子化字段组API与唯一的原子化字段组数据对应;预设客户端采集例程通过访问原子化字段组API获取对应的原子化字段组数据;通过将采集到的目标数据进行组织,并提供与其对应的API,再使用预设客户端采集例程通过与原子化字段组数据对应的API进行获取数据,实现了数据的采集与获取业务的分离,预设服务端采集例程和预设客户端采集例程的相互配合,保证了整体数据采集的稳定性,同时便于对数据采集系统的维护。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,并可依照说明书的内容予以实施,以下以本发明的较佳实施例并配合附图详细说明如后。本发明的具体实施方式由以下实施例及其附图详细给出。
附图说明
此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
图1为本发明的一种数据采集方法的流程示意图。
具体实施方式
下面,结合附图以及具体实施方式,对本发明做进一步描述,需要说明的是,在不相冲突的前提下,以下描述的各实施例之间或各技术特征之间可以任意组合形成新的实施例。
如图1所示,本发明提供了一种数据采集方法,包括以下步骤:
目标字段分组,根据预设业务逻辑对若干需要的目标字段进行分组,得到若干含有不同目标字段的原子化字段组。在本实施例中,按照数据获取的需求,设定了多个目标字段,根据预设业务逻辑将目标字段进行分组,预设业务逻辑即为根据需要获取的数据类型的不同对与之对应的目标字段进行分组,以下举例说明:假如需要获取与电影相关的数据,则对应的相关字段有:名称,导演,演员,风格流派,语言,首播时间,播放量,评分,电影简介;根据对应的预设分组规则将上述相关字段分为(名称,导演,演员,电影简介,首播时间)、(风格流派,语言)、(播放量)、(评分);则将(名称,导演,演员,电影简介,首播时间)、(风格流派,语言)、(播放量)、(评分)作为不同的原子化字段组。
数据采集,预设服务端采集例程采集目标平台上的目标数据,所述目标数据中含有若干文本数据;本实施例中预设服务端采集例程采集多个目标平台上的不同的目标数据,目标平台包括网站、APP终端等,在本实施例中,预设服务端采集例程采集目标平台上的目标数据对应的目标ID,每个所述目标数据对应一个所述目标ID,ID是根据目标数据来决定,例如当数据类型为电影资讯时,目标数据可为不同的电影数据,例如含有电影“功夫”的目标数据对应一个ID,含有电影“甲方乙方”的电影数据也对应一个特定的ID,两者的ID不同。
组织数据,根据所述原子化字段组中的目标字段组织每个所述目标数据中的所述文本数据,得到若干原子化字段组数据,每个原子化字段组数据含有至少一所述文本数据。具体为:根据所述原子化字段组中目标字段将每个所述目标数据中的文本数据分类为若干不同的原子化字段组数据,因为每个文本数据中可能含有目标字段或与含有目标字段有关联的词汇,因此根据目标字段来对文本数据进行分类,每个所述原子化字段组数据包含至少一所述文本数据。
提供API,预设服务端采集例程根据若干所述原子化字段组提供若干原子化字段组API,每个所述原子化字段组API与唯一的所述原子化字段组数据对应。本实施例中的API(Application Programming Interface)为应用程序编程接口,为了更好地让预设客户端采集例程及时有效的获取数据,设置了与每个原子化字段组数据对应原子化字段API。例如:当目标数据为原子化字段组分别为(名称,导演,演员,电影简介,首播时间)、(风格流派,语言)、(播放量)、(评分)时,设置以下API与之对应:
SERVE_URL/movie/websiteA/basicInfo/id={id}与(名称,导演,演员,电影简介,首播时间)对应;
SERVE_URL/movie/websiteA/typeInfo/id={id}与(风格流派,语言)对应;
SERVE_URL/movie/websiteA/playCountInfo/id={id}与(播放量)对应;
SERVE_URL/movie/websiteA/scoreInfo/id={id}与(评分)对应。
数据缓存,根据所述目标ID将对应的所述原子化字段组数据分类缓存在预设数据库中。具体为根据所述原子化字段组的预设属性设置缓存时间,单个所述缓存时间、单个所述原子化字段组、单个所述原子化字段组数据相互关联,根据所述缓存时间、所述目标ID将对应的所述原子化字段组数据缓存在预设数据库中。举例说明:以原子化字段组为(名称,导演,演员,电影简介,首播时间)、(风格流派,语言)、(播放量)、(评分)为例,当每个原子化字段组的字段属性基本不会变化时,缓存时间可设置为无限期,即缓存数据一直有效;当原子化字段组为(播放量)时,根据业务需求,缓存时间设置为3天(此处数值具体根据实际需求设定),即3天后缓存数据失效,需要重新对原子化字段组为(播放量)的数据重新采集数据。
数据获取,预设客户端采集例程通过访问所述原子化字段组API获取对应的所述原子化字段组数据;预设客户端采集例程将获取的原子化字段组数据根据用户所提供的业务需求再次进行整理,并发送给下游任务使用,本实施例中的下游任务使用为存入数据库或添加到数据索引服务等。
以上,仅为本发明的较佳实施例而已,并非对本发明作任何形式上的限制;凡本行业的普通技术人员均可按说明书附图所示和以上而顺畅地实施本发明;但是,凡熟悉本专业的技术人员在不脱离本发明技术方案范围内,利用以上所揭示的技术内容而做出的些许更动、修饰与演变的等同变化,均为本发明的等效实施例;同时,凡依据本发明的实质技术对以上实施例所作的任何等同变化的更动、修饰与演变等,均仍属于本发明的技术方案的保护范围之内。

Claims (8)

1.一种数据采集方法,其特征在于,包括以下步骤:
目标字段分组,根据预设业务逻辑对若干需要的目标字段进行分组,得到若干含有不同目标字段的原子化字段组;
数据采集,预设服务端采集例程采集目标平台上的目标数据,所述目标数据中含有若干文本数据;
组织数据,根据所述原子化字段组中的目标字段组织每个所述目标数据中的所述文本数据,得到若干原子化字段组数据,每个原子化字段组数据含有至少一所述文本数据;
提供API,预设服务端采集例程根据若干所述原子化字段组提供若干原子化字段组API,每个所述原子化字段组API与唯一的所述原子化字段组数据对应;
数据获取,预设客户端采集例程通过访问所述原子化字段组API获取对应的所述原子化字段组数据。
2.如权利要求1所述的一种数据采集方法,其特征在于:所述数据采集还包括:预设服务端采集例程采集目标平台上的目标数据对应的目标ID,每个所述目标数据对应一个所述目标ID。
3.如权利要求2所述的一种数据采集方法,其特征在于:在所述数据获取之前还包括数据缓存,根据所述目标ID将对应的所述原子化字段组数据分类缓存在预设数据库中。
4.如权利要求3所述的一种数据采集方法,其特征在于:所述数据缓存具体为根据所述原子化字段组的预设属性设置缓存时间,单个所述缓存时间、单个所述原子化字段组、单个所述原子化字段组数据相互关联,根据所述缓存时间、所述目标ID将对应的所述原子化字段组数据缓存在预设数据库中。
5.如权利要求1所述的一种数据采集方法,其特征在于:所述组织数据具体为:根据所述原子化字段组中目标字段将每个所述目标数据中的文本数据分类为若干不同的原子化字段组数据,每个所述原子化字段组数据包含至少一所述文本数据。
6.如权利要求1所述的一种数据采集方法,其特征在于:所述目标平台包括网页终端和APP终端。
7.一种电子设备,其特征在于包括:处理器;
存储器;以及程序,其中所述程序被存储在所述存储器中,并且被配置成由处理器执行,所述程序包括用于执行权利要求1-6任意一项所述的方法。
8.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行如权利要求1-6任意一项所述的方法。
CN201911346604.0A 2019-12-24 2019-12-24 一种数据采集方法、设备及介质 Active CN111191052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201911346604.0A CN111191052B (zh) 2019-12-24 2019-12-24 一种数据采集方法、设备及介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201911346604.0A CN111191052B (zh) 2019-12-24 2019-12-24 一种数据采集方法、设备及介质

Publications (2)

Publication Number Publication Date
CN111191052A CN111191052A (zh) 2020-05-22
CN111191052B true CN111191052B (zh) 2023-12-22

Family

ID=70707492

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201911346604.0A Active CN111191052B (zh) 2019-12-24 2019-12-24 一种数据采集方法、设备及介质

Country Status (1)

Country Link
CN (1) CN111191052B (zh)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108446395A (zh) * 2018-03-26 2018-08-24 北京神州泰岳软件股份有限公司 一种基于大数据的警务信息处理方法及系统
CN108959306A (zh) * 2017-05-22 2018-12-07 杭州海康威视数字技术股份有限公司 存储多媒体数据的方法及装置
CN109791554A (zh) * 2016-08-12 2019-05-21 艾奎菲股份有限公司 用于自动地生成用于媒体文档的元数据的系统和方法
CN110019486A (zh) * 2018-07-19 2019-07-16 平安科技(深圳)有限公司 数据采集方法、装置、设备及存储介质

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10885096B2 (en) * 2018-03-23 2021-01-05 Acknowlogy, Llc. Multi-user integrated communication platform
US10789284B2 (en) * 2018-04-13 2020-09-29 Fuji Xerox Co., Ltd. System and method for associating textual summaries with content media

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109791554A (zh) * 2016-08-12 2019-05-21 艾奎菲股份有限公司 用于自动地生成用于媒体文档的元数据的系统和方法
CN108959306A (zh) * 2017-05-22 2018-12-07 杭州海康威视数字技术股份有限公司 存储多媒体数据的方法及装置
CN108446395A (zh) * 2018-03-26 2018-08-24 北京神州泰岳软件股份有限公司 一种基于大数据的警务信息处理方法及系统
CN110019486A (zh) * 2018-07-19 2019-07-16 平安科技(深圳)有限公司 数据采集方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"标准化数据采集平台构建及在临床试验数据质量控制的应用";齐潇 等;《中国临床药理学与治疗学》;第21卷(第12期);第1384-1388页 *

Also Published As

Publication number Publication date
CN111191052A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN110704411B (zh) 适用于艺术领域的知识图谱搭建方法及装置、电子设备
US8620849B2 (en) Systems and methods for facilitating open source intelligence gathering
US8370348B1 (en) Magazine edition recommendations
CN102314497B (zh) 一种用于识别标记语言文件主体内容的方法和设备
CN106383887A (zh) 一种环保新闻数据采集和推荐展示的方法及系统
CN110633406B (zh) 事件专题的生成方法、装置、存储介质和终端设备
CN105323601A (zh) 基于多屏用户行为数据的人员属性标识方法
CN103686244A (zh) 视频数据的管理方法及其系统
US20180173801A1 (en) Method and apparatus for processing online user distribution
EP3087505A1 (en) System and methods for vocal commenting on selected web pages
CN111104583B (zh) 一种直播间推荐方法、存储介质、电子设备及系统
CN105893421A (zh) Uv计算方法、装置
CN106897433A (zh) 一种数据获取方法及装置
WO2023040530A1 (zh) 网页内容溯源方法、知识图谱构建方法以及相关设备
CN111414410A (zh) 数据处理方法、装置、设备和存储介质
CN105849765A (zh) 生成新闻时间线和推荐的新闻版本
CN106599291B (zh) 数据分组方法及装置
CN106649636A (zh) 一种基于移动终端的人员流动性分析方法及装置
CN111191052B (zh) 一种数据采集方法、设备及介质
KR20090014504A (ko) 매체 편향의 효과를 완화하는 뉴스 서비스 시스템 및 방법
US20150193444A1 (en) System and method to determine social relevance of Internet content
KR20130082879A (ko) 소셜네트워크서비스 게시글의 메타정보에 기반한 음악매칭을 통한 통합적 음악 서비스 제공 방법
CN113672818B (zh) 一种获取社交媒体用户画像的方法及系统
CN112836087A (zh) 一种视频属性信息采集方法及装置
CN112818223A (zh) 用户画像的查询处理方法、装置、设备、程序产品及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant