CN114528297A - 一种数据收集方法、装置、电子设备及存储介质 - Google Patents

一种数据收集方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114528297A
CN114528297A CN202210144383.4A CN202210144383A CN114528297A CN 114528297 A CN114528297 A CN 114528297A CN 202210144383 A CN202210144383 A CN 202210144383A CN 114528297 A CN114528297 A CN 114528297A
Authority
CN
China
Prior art keywords
data
collection
external
external data
information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210144383.4A
Other languages
English (en)
Inventor
王岳
林龙
史存存
杨訸
梁东
王艺霏
李信
尚芳剑
娄竞
彭柏
李坚
吴佳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
State Grid Corp of China SGCC
Global Energy Interconnection Research Institute
State Grid Jibei Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Original Assignee
State Grid Corp of China SGCC
Global Energy Interconnection Research Institute
State Grid Jibei Electric Power Co Ltd
Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by State Grid Corp of China SGCC, Global Energy Interconnection Research Institute, State Grid Jibei Electric Power Co Ltd, Information and Telecommunication Branch of State Grid Jibei Electric Power Co Ltd filed Critical State Grid Corp of China SGCC
Priority to CN202210144383.4A priority Critical patent/CN114528297A/zh
Publication of CN114528297A publication Critical patent/CN114528297A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2291User-Defined Types; Storage management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/27Replication, distribution or synchronisation of data between databases or within a distributed database system; Distributed database system architectures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供了一种数据收集方法、装置、电子设备及存储介质,该方法包括:获取外部数据的数据信息、数据同步记录和数据使用记录;根据数据信息、数据同步记录和数据使用记录,按照预设评价函数计算任一外部数据的收集权重;基于收集权重和收集方式的对应关系,根据收集权重确定相应的收集方式;根据确定的收集方式,收集外部数据和/或外部数据的数据信息。本发明提供的数据收集方法,通过计算收集权重并判断外部数据的收集方式,使得部分数据可以仅下载对应的数据信息,在满足用户直接访问外部数据的前提下,有选择地收集外部数据,能够合理控制本地的数据存储量,节省本地存储空间。解决了现有技术中本地样本库的数据存储成本高的缺陷。

Description

一种数据收集方法、装置、电子设备及存储介质
技术领域
本发明涉及数据同步技术领域,具体涉及一种数据收集方法、装置、电子设备及存储介质。
背景技术
当前人工智能和大数据等技术普遍应用,这些技术的发展经常依赖海量数据样本。以人工智能为例,为了研发更高精度的模型,需要尽可能的使用更多数据样本进行模型训练,因此需要构建大规模的样本库。目前常用的样本库构建方法是从数据拥有者处拷贝样本,自行制造生产如拍摄图像,或者从互联网等其他来源获取,并且在获取原始样本后,根据需要进行必要的样本标注。
由于其他从事类似工作的组织或个人也普遍建有样本库,若将其他外部样本库的数据也用于本地人工智能模型训练,则利于获得更高精度的模型。人工智能模型训练前需先制作训练数据集,比如图片读取、缩放和保存等操作,此类操作需要在本地进行,因此需将其他外部样本库的数据引入本地样本库。现有方法是将外部样本库的数据拷贝至本地,进行一定必要的的数据格式转换或类别转换后,按本地数据组织形式并入本地样本库。
现有的方法若想使用外部样本库的样本进行模型训练,必须事先将样本数据从其他外部样本库复制到本地,以进行训练数据集的定制生成。为了提高训练出的模型精度,需尽可能多的将外部样本库数据复制到本地用于训练,导致本地不得不被占用大量存储空间,存在本地样本库的数据存储成本高的缺陷。
发明内容
因此,本发明要解决的技术问题在于克服现有技术中本地样本库的数据存储成本高的缺陷,从而提供一种数据收集方法、装置、电子设备及存储介质。
根据第一方面,本发明公开了一种数据收集方法,包括:获取外部数据的数据信息、数据同步记录和数据使用记录;根据所述数据信息、所述数据同步记录和所述数据使用记录,按照预设评价函数计算任一外部数据的收集权重;基于收集权重和收集方式的对应关系,根据所述收集权重确定相应的收集方式;根据确定的收集方式,收集外部数据和/或外部数据的数据信息。
可选地,所述数据信息包括:数据类别和数据描述信息;所述获取外部数据的数据信息,包括:获取外部数据类别列表和本地数据类别列表;根据外部数据类别列表、本地数据类别列表和预设的类别映射表,将外部数据类别映射为本地数据类别。
可选地,所述根据所述数据信息、所述数据同步记录和所述数据使用记录,按照预设评价函数计算任一外部数据的收集权重,包括:根据所述数据信息、所述数据同步记录和预设的成本权重系数,计算任一外部数据的收集成本;根据所述数据信息、所述数据使用记录和预设的价值权重系数,计算任一外部数据的使用价值;根据所述收集成本、所述使用价值和所述评价函数,计算任一外部数据的收集权重。
可选地,所述根据所述数据信息、所述数据同步记录和预设的成本权重系数,计算任一外部数据的收集成本,包括:根据所述数据信息和所述数据同步记录,计算任一外部数据的预计时间成本和预计带宽成本;根据所述预计时间成本和所述预计带宽成本,按照预设的成本权重系数进行加权计算,得到外部数据的收集成本。
可选地,所述根据所述数据信息、所述数据使用记录和预设的价值权重系数,计算任一外部数据的使用价值,包括:根据所述数据信息和所述数据使用记录,计算任一外部数据的预计使用次数和预计数据质量;根据所述预计使用次数和所述预计数据质量,按照预设的价值权重系数进行加权计算,得到外部数据的使用价值。
可选地,所述基于收集权重和收集方式的对应关系,根据所述收集权重确定相应的收集方式,包括:当任一外部数据的收集权重大于预设的收集权重阈值时,将所述任一外部数据判断为物理收集方式;当任一外部数据的收集权重小于预设的收集权重阈值时,将所述任一外部数据判断为逻辑收集方式。
可选地,所述根据所述数据收集方式,收集外部数据和/或外部数据的数据信息,包括:当任一外部数据的收集方式为物理收集方式时,收集并存储所述任一外部数据和所述任一外部数据的数据信息;当任一外部数据的收集方式为逻辑收集方式时,收集并存储所述任一外部数据的数据信息。
根据第二方面,本发明还公开了一种数据收集装置,包括:第一数据同步模块,用于获取外部数据的数据信息、数据同步记录和数据使用记录;数据分析模块,用于根据所述数据信息、所述数据同步记录和所述数据使用记录,按照预设评价函数计算任一外部数据的收集权重;基于收集权重和收集方式的对应关系,根据所述收集权重确定相应的收集方式;第二数据同步模块,用于根据所述数据收集方式,收集外部数据和/或外部数据的数据信息。
根据第三方面,本发明公开了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如第一方面及第一方面任一可选实施方式所述的数据收集方法的步骤。
根据第四方面,本发明公开了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如第一方面及第一方面任一可选实施方式所述的数据收集方法的步骤。
本发明技术方案,具有如下优点:
1.本发明提供的数据收集方法,通过获取外部数据的数据信息,使用户能够直接访问外部来源的数据。通过计算外部数据的收集权重,能够判断外部数据的收集方式。由此,根据对应的收集方式进行外部数据的收集,对于部分数据,可以仅下载对应的数据信息,从而有选择地收集外部数据,合理控制本地的数据存储量,节省本地存储空间。解决了现有技术中本地样本库的数据存储成本高的缺陷。
2.本发明公开的数据收集方法,通过将外部数据类别与本地数据类别进行映射,使得一个外部数据类别仅与一个本地数据类别对应,避免了由于本地与外部的数据类别不一致导致的误差。通过计算外部数据的收集成本和使用价值,可以将外部数据信息进行量化,进而计算外部数据的收集权重,能够直观地展现完整收集外部数据的必要性。通过将数据收集方式分为物理收集方式和逻辑收集方式,使得部分数据可以仅下载对应的数据信息,在满足用户直接访问外部数据的前提下,有选择地收集外部数据,能够合理控制本地的数据存储量,节省本地存储空间。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例中数据收集方法的一个具体示例的流程图;
图2为本发明实施例中数据收集方法的另一个具体示例的流程图;
图3为本发明实施例中数据收集方法的另一个具体示例的流程图;
图4为本发明实施例中数据收集方法的另一个具体示例的流程图;
图5为本发明实施例中数据收集方法的另一个具体示例的流程图;
图6为本发明实施例中数据收集装置的一个具体示例的原理框图;
图7为本发明实施例中电子设备的一个具体示例图。
具体实施方式
下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,还可以是两个元件内部的连通,可以是无线连接,也可以是有线连接。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
此外,下面所描述的本发明不同实施方式中所涉及的技术特征只要彼此之间未构成冲突就可以相互结合。
本发明公开了一种数据收集方法,如图1所示,包括如下步骤:
步骤S1,获取外部数据的数据信息、数据同步记录和数据使用记录。
具体地,外部数据的数据信息包括数据名称、数据来源、数据所属业务、数据类别和数据大小等描述信息;数据同步记录包括此前收集数据时的带宽占用历史数据、收集时长历史数据等;数据使用记录包括任一类别数据的历史使用频度等。
其中,数据名称可以为该数据的识别文件名,数据来源可以为该数据所属的外部数据库,数据所属业务可以为该数据的预设业务标记,数据类别可以为该数据的预设类别标记,数据大小可以为该数据的磁盘空间占用信息。示例性地,当外部数据用于机器学习领域时,外部数据的数据信息还可以包括:类别加工度。类别加工度可以表示该数据是否经过人工标注流程。一般地,数据标注的过程是通过人工贴标的方式,为机器提供可供学习的样本。数据标注是把需要机器识别和分辨的数据贴上标签,然后让计算机不断地学习这些数据的特征,最终实现计算机自主识别。特别地,当外部数据应用于不同领域时,外部数据的数据信息还可以包括其他能够表征外部数据特征的信息,本发明对此不作限定。
其中,收集数据时的带宽占用历史数据表征了在收集数据的过程中,占用网络带宽的数据。带宽指的是在单位时间内从网络中的某一点到另一点所能通过的“最高数据率”,即单位时间内能够在网络上传送的数据量。当收集数据时占用了过多的带宽,会影响同一网络下其他数据传输过程。收集时长历史数据表征了在收集数据的过程中耗费的时间,收集时长历史数据由网络带宽、数据大小等参数决定。特别地,当外部数据应用于不同领域时,数据同步记录还可以包括其他能够表征历史同步过程的特征的数据,本发明对此不作限定。
其中,任一类别的数据的历史使用频度表征了在使用数据的过程中,某一类别的数据的使用次数占全部数据总使用次数的比例。特别地,当外部数据应用于不同领域时,数据使用记录还可以包括其他能够表征历史使用数据过程的特征的数据,本发明对此不作限定。
步骤S2,根据所述数据信息、所述数据同步记录和所述数据使用记录,按照预设评价函数计算任一外部数据的收集权重。
具体地,任一外部数据的收集权重表征了该数据是否有必要完整收集。按照预设的评价函数,可以根据数据信息、数据同步记录和数据使用记录,预测出当前外部数据的收集权重。特别地,当外部数据应用于不同领域时,评价函数可以根据实际情况进行预设,本发明对此不作限定。
步骤S3,基于收集权重和收集方式的对应关系,根据所述收集权重确定相应的收集方式。
具体地,收集方式包括物理收集方式和逻辑收集方式。收集权重和收集方式的对应关系为预先设定,可以是收集权重与收集方式一一对应,也可以按照范围限定收集权重与收集方式的对应关系,本发明对此不作限定。
步骤S4,根据所述数据收集方式,收集外部数据和/或外部数据的数据信息。
具体地,当判断某一外部数据的收集方式为物理收集方式时,先将外部数据的数据信息下载至本地,随后根据该数据的数据信息,从该数据对应的来源下载完整数据,存储至本地。类似地,当判断某一外部数据的收集方式为逻辑收集方式时,仅将外部数据的数据信息下载至本地,当用户需要使用该数据时,再从该数据对应的来源下载完整数据。
本发明提供的数据收集方法,通过获取外部数据的数据信息,使用户能够直接访问外部来源的数据。通过计算外部数据的收集权重,能够判断外部数据的收集方式。由此,根据对应的收集方式进行外部数据的收集,对于部分数据,可以仅下载对应的数据信息,从而有选择地收集外部数据,合理控制本地的数据存储量,节省本地存储空间。解决了现有技术中本地样本库的数据存储成本高的缺陷。
作为本发明的一种可选地实施方式,所述获取外部数据的数据信息,如图2所示,包括如下步骤:
步骤S11,获取外部数据类别列表和本地数据类别列表。其中,外部数据类别列表通过发送数据共享请求获取。
具体地,数据共享请求为本地发送至外部数据来源,外部数据来源可以是外部数据库、外部主机、外部服务器等,本发明对此不作限定。本地与外部数据来源可以通过有线方式连接,也可以通过无线方式连接,本发明对此不作限定。数据共享请求可以通过现有技术中的传输控制协议/网际协议(Transmission Control Protocol/Internet Protocol,TCP/IP)等通讯协议发送,也可以根据本地与外部数据来源之间的联系方式选择其他方式发送,本发明对此不作限定。当外部数据来源接收到数据共享请求时,向本地返回外部数据类别列表。
其中,外部数据类别是依照外部规则针对所有外部数据预先一一设定的,外部数据类别列表包括所有外部数据的数据类别。
其中,本地数据类别是在本地为所有本地数据预先一一设定的,本地数据类别列表包括所有本地数据的数据类别。
步骤S12,根据外部数据类别列表、本地数据类别列表和预设的类别映射表,将外部数据类别映射为本地数据类别。
具体地,将外部数据类别映射为本地数据类别的过程中,需要根据类别映射表将任一外部数据类别与某一本地数据类别对应,且一个外部数据类别仅与一个本地数据类别对应,但一个本地数据类别可以对应多个外部数据类别。其中,类别映射表可以通过人工预先设定,也可以通过现有技术中的自然语言处理等语义对比技术进行设定,本发明对此不作限定。
作为本发明的一种可选地实施方式,所述根据所述数据信息、所述数据同步记录和所述数据使用记录,按照预设评价函数计算任一外部数据的收集权重,如图3所示,包括如下步骤:
步骤S21,根据所述数据信息、所述数据同步记录和预设的成本权重系数,计算任一外部数据的收集成本。
具体地,计算任一外部数据的收集成本的过程,可以首先根据所述数据信息和所述数据同步记录,计算任一外部数据的预计时间成本和预计带宽成本;随后根据所述预计时间成本和预计带宽成本,按照预设的成本权重系数进行加权计算,得到外部数据的收集成本。
其中,计算预计时间成本时,可以首先根据数据同步记录获取此前每条数据收集时的耗时,计算出任一外部数据的预计时间成本。特别地,当外部数据应用于不同领域时,时间成本可以根据实际情况选择其他参数进行计算,本发明对此不作限定。
示例性地,当一数据的收集耗时为T1,所有数据平均收集时间为T0时,预计时间成本Cost1可以通过如下公式表示:
Figure BDA0003508170520000111
其中,计算预计带宽成本时,可以首先根据数据同步记录获取此前每条数据收集时的传输平均带宽占用,计算出任一外部数据的预计带宽成本。特别地,当外部数据应用于不同领域时,带宽成本可以根据实际情况选择其他参数进行计算,本发明对此不作限定。
示例性地,当一数据的带宽占用为B1,本地与外部数据来源之间网络总带宽为B0时,预计带宽成本Cost2可以通过如下公式表示:
Figure BDA0003508170520000112
其中,成本权重系数包括时间成本系数和带宽成本系数。得到外部数据的收集成本的过程可以首先将预计时间成本与时间成本系数相乘得到加权时间成本,随后将预计带宽成本与带宽成本系数相乘得到加权存储成本,最后将加权时间成本与加权带宽成本相加,即可得到外部数据的收集成本。特别地,当外部数据应用于不同领域时,收集成本可以根据实际情况选择其他方式进行计算,本发明对此不作限定。
示例性地,时间系数为WT,带宽系数为WB时,收集成本Cost可以通过如下公式表示:
Cost=WT·Cost1+WB·Cost2
步骤S22,根据所述数据信息、所述数据使用记录和预设的价值权重系数,计算任一外部数据的使用价值。
具体地,计算任一外部数据的使用价值的过程,可以首先根据所述数据信息和所述数据使用记录,计算任一外部数据的预计使用次数和预计数据质量;随后根据所述预计使用次数和所述预计数据质量,按照预设的价值权重系数进行加权计算,得到外部数据的使用价值。
其中,计算预计使用次数时,可以首先根据数据使用记录,得到此前任一数据类别的使用次数占全部数据使用次数的比例,随后结合当前外部数据的数据类别,计算出预计使用次数。特别地,当外部数据应用于不同领域时,预计使用次数可以根据实际情况选择其他参数进行计算,本发明对此不作限定。
示例性地,当此前一数据类别的使用次数为n1,此前全部数据使用次数为N1时,预计使用次数Value1可以通过如下公式计算:
Figure BDA0003508170520000131
其中,计算预计数据质量时,可以首先根据数据信息中的数据类别,计算出不同数据类别的数据数量占所有数据数量中的比例,该比例能够表征不同数据的类别稀缺度,随后可以根据该比例计算出预计数据质量。示例性地,当外部数据用于机器学习领域时,计算预计数据质量时,还可以根据数据信息中的类别加工度,将已标注和未标注分别设置不同的系数,随后结合不同数据类别的数据占所有数据中的比例,按照预设的稀缺度系数和加工度系数,加权计算出预计数据质量。特别地,当外部数据应用于不同领域时,预计数据质量可以根据实际情况选择其他参数进行计算,本发明对此不作限定。
示例性地,当一种数据类别的数据数量n2,所有数据数量为N2时,预计数据质量Value2可以通过如下公式计算:
Figure BDA0003508170520000132
示例性地,当外部数据用于机器学习领域时,已标注数据的类别加工度A=1,未标注数据的类别加工度A=0,稀缺度系数为w1,加工度系数为w2时,预计数据质量Value2可以通过如下公式计算:
Figure BDA0003508170520000133
其中,价值权重系数包括使用次数系数和数据质量系数。得到外部数据的收集成本的过程可以首先将预计使用次数与使用次数系数乘得到加权使用次数,随后将预计数据质量与数据质量系数相乘得到加权数据质量,最后将加权使用次数与加权数据质量相加,即可得到外部数据的收集成本。特别地,当外部数据应用于不同领域时,使用价值可以根据实际情况选择其他方式进行计算,本发明对此不作限定。
示例性地,当使用次数系数为W1,数据质量系数为W2时,价值权重系数Value可以通过如下公式表示:
Value=W1·Value1+W2·Value2
步骤S23,根据所述收集成本、所述使用价值和预设评价函数,计算任一外部数据的收集权重。
其中,评价函数可以根据实际情况确定,本发明对此不作限定。
示例性地,任一外部数据的收集权重C可以通过如下公式表示:
C=Cost×Value
作为本发明的一种可选地实施方式,所述基于收集权重和收集方式的对应关系,根据所述收集权重确定相应的收集方式,如图4所示,包括如下步骤:
步骤S31,当任一外部数据的收集权重大于预设的收集权重阈值时,将所述任一外部数据判断为物理收集方式。
具体地,当任一外部数据的收集权重大于预设的收集权重阈值时,表示该数据使用价值高和/或收集成本高。使用价值高的数据表示该数据的预计使用次数高和/或预计数据质量高,这类数据有很大可能会被用户使用,将数据完整下载至本地可以便于用户使用;收集成本高的数据表示该数据的时间成本高和/或带宽成本高,将数据完整下载至本地会在用户使用时提升效率。
步骤S32,当任一外部数据的收集权重小于预设的收集权重阈值时,将所述任一外部数据判断为逻辑收集方式。
具体地,当任一外部数据的收集权重小于预设的收集权重阈值时,表示该数据使用价值低和/或收集成本低。使用价值低的数据表示该数据的预计使用次数低和/或预计数据质量低,这类数据不太可能会被用户使用,故仅下载数据信息可以节省存储空间;收集成本低的数据表示该数据的时间成本低和/或带宽成本低,这类数据在需要使用时再下载不会对用户的使用效率造成影响,故仅下载数据信息可以节省存储空间。
作为本发明的一种可选地实施方式,所述根据所述数据收集方式,收集外部数据和/或外部数据的数据信息,如图5所示,包括如下步骤:
步骤S41,当任一外部数据的收集方式为物理收集方式时,收集并存储所述任一外部数据和所述任一外部数据的数据信息。其中,可以通过发送数据同步请求的方式收集。
具体地,数据同步请求为本地发送至外部数据来源,包含待收集数据的数据信息。外部数据来源接收到数据同步请求后,会根据请求内包含的数据信息将对应的数据返回本地。
具体地,将外部数据来源返回的数据与对应的数据信息进行对应后存储。
步骤S42,当任一外部数据的收集方式为逻辑收集方式时,收集并存储该数据的数据信息。
本发明公开的数据收集方法,通过将外部数据类别与本地数据类别进行映射,使得一个外部数据类别仅与一个本地数据类别对应,避免了由于本地与外部的数据类别不一致导致的误差。通过计算外部数据的收集成本和使用价值,可以将外部数据信息进行量化,进而计算外部数据的收集权重,能够直观地展现完整收集外部数据的必要性。通过将数据收集方式分为物理收集方式和逻辑收集方式,使得部分数据可以仅下载对应的数据信息,在满足用户直接访问外部数据的前提下,有选择地收集外部数据,能够合理控制本地的数据存储量,节省本地存储空间。
作为本发明的一种可选地实施方式,以收集图像样本数据为例,所述数据收集方法,包括如下步骤:
获取外部图像样本类别列表、本地图像样本类别列表、图像样本数据同步记录、图像样本数据使用记录和外部图像样本数据描述信息。
根据外部图像样本类别列表、本地图像样本类别列表和预设的类别映射表,将外部图像样本类别映射为本地图像样本类别。
根据图像样本数据同步记录,解析出此前每条图像样本收集时的耗时和传输平均带宽占用等成本。
根据图像样本信息和解析出的历史收集成本,计算每一外部图像样本的预计时间成本和预计带宽成本。
根据每一外部图像样本的预计时间成本和每一外部图像样本的预计带宽成本,按照预设的成本权重系数进行加权计算,得到每一外部图像样本的收集成本。
根据图像样本数据使用记录,解析出此前不同类别样本参与制作训练集次数。
根据已映射的外部图像样本类别和解析出的制作训练集次数,计算每一外部图像样本的预计使用次数。
根据外部图像样本类别列表,解析出不同类别的图像样本在总体图像样本中所占的比例,随后根据外部图像样本数据描述信息,获取每一外部图像样本是否已标注的数据,基于不同的权重系数,计算每一外部图像样本的预计数据质量。
根据每一外部图像样本的预计使用次数和每一外部图像样本的预计数据质量,按照预设的价值权重系数进行加权计算,得到每一外部图像样本的使用价值。
根据事先定义的评价函数,判断出每一外部图像样本对应物理收集方式还是逻辑收集方式,并将判断结果输出。
根据收集方式的判断结果,收集对应的外部图像样本和/或外部图像样本的数据信息。
本发明还公开了一种数据收集装置,如图6所示,包括:
第一数据同步模块101,用于获取外部数据的数据信息、数据同步记录和数据使用记录;具体内容参见本发明方法实施例中步骤S1的相关描述,此处不再赘述。
数据分析模块102,用于根据所述数据信息、所述数据同步记录和所述数据使用记录,按照预设评价函数计算任一外部数据的收集权重;基于收集权重和收集方式的对应关系,根据所述收集权重确定相应的收集方式。具体内容参见本发明方法实施例中步骤S2和步骤S3的相关描述,此处不再赘述。
第二数据同步模块103,用于根据所述数据收集方式,收集外部数据和/或外部数据的数据信息;具体内容参见本发明方法实施例中步骤S4的相关描述,此处不再赘述。
本发明公开的数据收集装置,通过获取外部数据的数据信息,使用户能够直接访问外部来源的数据。通过计算外部数据的收集权重,能够判断外部数据的收集方式。由此,根据对应的收集方式进行外部数据的收集,对于部分数据,可以仅下载对应的数据信息,从而有选择地收集外部数据,合理控制本地的数据存储量,节省本地存储空间。解决了现有技术中本地样本库的数据存储成本高的缺陷。
本发明实施例还提供了一种电子设备,如图7所示,该电子设备可以包括处理器201和存储器202,其中处理器201和存储器202可以通过总线或者其他方式连接,图7中以通过总线连接为例。
处理器201可以为中央处理器(Central Processing Unit,CPU)。处理器201还可以为其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等芯片,或者上述各类芯片的组合。
存储器202作为一种非暂态计算机可读存储介质,可用于存储非暂态软件程序、非暂态计算机可执行程序以及模块,如本发明实施例中的数据收集方法对应的程序指令/模块。处理器201通过运行存储在存储器202中的非暂态软件程序、指令以及模块,从而执行处理器的各种功能应用以及数据处理,即实现上述方法实施例中的数据收集方法。
存储器202可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储处理器201所创建的数据等。此外,存储器202可以包括高速随机存取存储器,还可以包括非暂态存储器,例如至少一个磁盘存储器件、闪存器件、或其他非暂态固态存储器件。在一些实施例中,存储器202可选包括相对于处理器201远程设置的存储器,这些远程存储器可以通过网络连接至处理器201。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
一个或者多个模块存储在存储器202中,当被处理器201执行时,执行如图1所示实施例中的数据收集方法。
虽然关于示例实施例及其优点已经详细说明,但是本领域技术人员可以在不脱离本发明的精神和所附权利要求限定的保护范围的情况下对这些实施例进行各种变化、替换和修改,这样的修改和变型均落入由所附权利要求所限定的范围之内。对于其他例子,本领域的普通技术人员应当容易理解在保持本发明保护范围内的同时,工艺步骤的次序可以变化。
此外,本发明的应用范围不局限于说明书中描述的特定实施例的工艺、机构、制造、物质组成、手段、方法及步骤。从本发明的公开内容,作为本领域的普通技术人员将容易地理解,对于目前已存在或者以后即将开发出的工艺、机构、制造、物质组成、手段、方法或步骤,其中它们执行与本发明描述的对应实施例大体相同的功能或者获得大体相同的结果,依照本发明可以对它们进行应用。因此,本发明所附权利要求旨在将这些工艺、机构、制造、物质组成、手段、方法或步骤包含在其保护范围内。

Claims (10)

1.一种数据收集方法,其特征在于,包括:
获取外部数据的数据信息、数据同步记录和数据使用记录;
根据所述数据信息、所述数据同步记录和所述数据使用记录,按照预设评价函数计算任一外部数据的收集权重;
基于收集权重和收集方式的对应关系,根据所述收集权重确定相应的收集方式;
根据确定的收集方式,收集外部数据和/或外部数据的数据信息。
2.根据权利要求1所述的数据收集方法,其特征在于,
所述数据信息包括:数据类别和数据描述信息;
所述获取外部数据的数据信息,包括:
获取外部数据类别列表和本地数据类别列表;
根据外部数据类别列表、本地数据类别列表和预设的类别映射表,将外部数据类别映射为本地数据类别。
3.根据权利要求1所述的数据收集方法,其特征在于,所述根据所述数据信息、所述数据同步记录和所述数据使用记录,按照预设评价函数计算任一外部数据的收集权重,包括:
根据所述数据信息、所述数据同步记录和预设的成本权重系数,计算任一外部数据的收集成本;
根据所述数据信息、所述数据使用记录和预设的价值权重系数,计算任一外部数据的使用价值;
根据所述收集成本、所述使用价值和所述预设评价函数,计算任一外部数据的收集权重。
4.根据权利要求3所述的数据收集方法,其特征在于,所述根据所述数据信息、所述数据同步记录和预设的成本权重系数,计算任一外部数据的收集成本,包括:
根据所述数据信息和所述数据同步记录,计算任一外部数据的预计时间成本和预计带宽成本;
根据所述预计时间成本和所述预计带宽成本,按照预设的成本权重系数进行加权计算,得到外部数据的收集成本。
5.根据权利要求3所述的数据收集方法,其特征在于,所述根据所述数据信息、所述数据使用记录和预设的价值权重系数,计算任一外部数据的使用价值,包括:
根据所述数据信息和所述数据使用记录,计算任一外部数据的预计使用次数和预计数据质量;
根据所述预计使用次数和所述预计数据质量,按照预设的价值权重系数进行加权计算,得到外部数据的使用价值。
6.根据权利要求1所述的数据收集方法,其特征在于,所述基于收集权重和收集方式的对应关系,根据所述收集权重确定相应的收集方式,包括:
当任一外部数据的收集权重大于预设的收集权重阈值时,将所述任一外部数据判断为物理收集方式;
当任一外部数据的收集权重小于预设的收集权重阈值时,将所述任一外部数据判断为逻辑收集方式。
7.根据权利要求6所述的数据收集方法,其特征在于,所述根据所述数据收集方式,收集外部数据和/或外部数据的数据信息,包括:
当任一外部数据的收集方式为物理收集方式时,收集并存储所述任一外部数据和所述任一外部数据的数据信息;
当任一外部数据的收集方式为逻辑收集方式时,收集并存储所述任一外部数据的数据信息。
8.一种数据收集装置,其特征在于,包括:
第一数据同步模块,用于获取外部数据的数据信息、数据同步记录和数据使用记录;
数据分析模块,用于根据所述数据信息、所述数据同步记录和所述数据使用记录,按照预设评价函数计算任一外部数据的收集权重;基于收集权重和收集方式的对应关系,根据所述收集权重确定相应的收集方式;
第二数据同步模块,用于根据所述数据收集方式,收集外部数据和/或外部数据的数据信息。
9.一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器执行如权利要求1-7任一所述的数据收集方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的数据收集方法的步骤。
CN202210144383.4A 2022-02-17 2022-02-17 一种数据收集方法、装置、电子设备及存储介质 Pending CN114528297A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210144383.4A CN114528297A (zh) 2022-02-17 2022-02-17 一种数据收集方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210144383.4A CN114528297A (zh) 2022-02-17 2022-02-17 一种数据收集方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114528297A true CN114528297A (zh) 2022-05-24

Family

ID=81622295

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210144383.4A Pending CN114528297A (zh) 2022-02-17 2022-02-17 一种数据收集方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114528297A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252310A (zh) * 2023-11-16 2023-12-19 一夫科技股份有限公司 一种钛石膏生产工艺参数调节优化方法及系统

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117252310A (zh) * 2023-11-16 2023-12-19 一夫科技股份有限公司 一种钛石膏生产工艺参数调节优化方法及系统
CN117252310B (zh) * 2023-11-16 2024-01-26 一夫科技股份有限公司 一种钛石膏生产工艺参数调节优化方法及系统

Similar Documents

Publication Publication Date Title
CN107957940B (zh) 一种测试日志处理方法、系统及终端
CN111507076B (zh) 一种用于教学系统的共案课件制作方法、装置和终端
US11483408B2 (en) Feature-based network embedding
CN110263222B (zh) 一种数据获取方法、装置、设备及介质
CN110363427A (zh) 模型质量评估方法和装置
WO2021121296A1 (zh) 习题测试数据生成方法以及装置
CN109086814A (zh) 一种数据处理方法、装置及网络设备
CN110472109B (zh) 动态化数据质量分析方法及平台系统
CN109033188A (zh) 一种元数据采集方法、装置、服务器和计算机可读介质
CN108388640A (zh) 一种数据转换方法、装置以及数据处理系统
CN111813622B (zh) 一种设备监控方法及装置
CN111666344B (zh) 异构数据同步方法及装置
CN112527676A (zh) 模型自动化测试方法、装置及存储介质
CN114528297A (zh) 一种数据收集方法、装置、电子设备及存储介质
CN115794934A (zh) 一种生产设施监测数据与数字孪生模型集成系统及方法
CN109286527B (zh) 关联交换机逻辑和实物图端口的方法及网管系统
CN113515703A (zh) 信息推荐方法、装置、电子设备及可读存储介质
Santhanavanich et al. Integration and visualization of heterogeneous sensor data and geospatial information
CN111177496B (zh) 一种数据对象管理方法、装置及系统
CN114816408A (zh) 信息处理方法及装置
CN114491342A (zh) 个性化模型的训练方法、信息显示方法及设备
CN114253973A (zh) 数据表的确定方法和装置、存储介质及电子装置
CN109255081B (zh) 一种基于云平台的门户业务导航方法及系统
CN113434612B (zh) 数据统计方法及装置、存储介质及电子装置
CN115604783B (zh) 基于物联网的体温传感器控制方法、装置、设备及介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing

Applicant after: State Grid Smart Grid Research Institute Co.,Ltd.

Applicant after: INFORMATION COMMUNICATION BRANCH, STATE GRID JIBEI ELECTRIC POWER Co.

Applicant after: STATE GRID JIBEI ELECTRIC POWER Co.,Ltd.

Applicant after: STATE GRID CORPORATION OF CHINA

Address before: 102209 18 Riverside Avenue, Changping District science and Technology City, Beijing

Applicant before: GLOBAL ENERGY INTERCONNECTION RESEARCH INSTITUTE Co.,Ltd.

Applicant before: INFORMATION COMMUNICATION BRANCH, STATE GRID JIBEI ELECTRIC POWER Co.

Applicant before: STATE GRID JIBEI ELECTRIC POWER Co.,Ltd.

Applicant before: STATE GRID CORPORATION OF CHINA

CB02 Change of applicant information