CN110471888A

CN110471888A - 一种自动收集数据的方法、装置、介质、设备及系统

Info

Publication number: CN110471888A
Application number: CN201810436293.6A
Authority: CN
Inventors: 俞松; 宫崎那彦
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2018-05-09
Filing date: 2018-05-09
Publication date: 2019-11-19

Abstract

本发明公开了一种自动收集数据的方法，包括：基于数据源文件生成字典，数据源文件包括多个字段名以及各字段名对应的数据，字典的每个元素包括字段名、字段名的拼音首字母以及字段名在数据源文件中的地址；接收目标字段名；在字典中查找目标字段名以及目标字段名在数据源文件中的地址；根据目标字段名的地址从数据源文件收集目标字段名及目标字段名对应的数据。本发明通过查找字典可以快速地从数据源文件中收集数据，此外，字典的建立以及字段对象的查找和收集都是自动进行的，不需要人工的参与，因此本发明能够极大地提高数据收集的效率。本发明还公开了一种自动收集数据的装置、介质、设备及系统。

Description

一种自动收集数据的方法、装置、介质、设备及系统

技术领域

本发明涉及机器学习领域，具体涉及一种自动收集数据的方法、装置、介质、设备及系统。

背景技术

机器学习意味着从数据中进行学习，是一种寻找数据中的模式并使用这些模式来做出预测的研究和算法的门类。机器学习算法需要作用于数据，因此数据收集工作对于机器学习来说是非常关键的步骤。然而，现有技术中通常采用手工/半手工作业的方法来收集数据，耗时长、效率低。

中国专利CN 201710231941.X提供了一种数据获取方法，包括接收上传的数据图片，数据图片包括业务主体在业务过程中形成的业务数据，业务数据包括业务主体的主体标识以及业务内容；识别数据图片上的主体标识和业务内容；将业务内容存储至主体标识对应的主体数据库中。该专利中描述的方法是对图片中的数据进行收集，用于商业综合体获取各个店铺的销售数据，但由于在机器学习领域数据源文件通常不为图片格式，因此该专利不能用于机器学习领域以解决上述数据收集效率低下的问题。

发明内容

为了解决上述问题，本发明提供一种自动收集数据的方法、装置、介质、设备及系统。

本发明的实施方式公开了一种自动收集数据的方法，所述方法包括：

基于数据源文件生成字典，所述数据源文件包括多个字段名以及各所述字段名对应的数据，所述字典的每个元素包括所述字段名、所述字段名的拼音首字母以及所述字段名在所述数据源文件中的地址；

接收目标字段名；

在所述字典中查找所述目标字段名以及所述目标字段名在所述数据源文件中的地址；

根据所述目标字段名的地址从所述数据源文件收集所述目标字段名及所述目标字段名对应的数据。

在一示范例中，基于所述数据源文件生成所述字典包括：

获取所述数据源文件中的各所述字段名；

去除所述字段名中的特殊符号；

提炼所述字段名的拼音首字母；

生成所述字段名在所述数据源文件中的地址；

将各所述字段名、各所述字段名的拼音首字母以及各所述字段名在所述数据源文件中的地址分别添加到所述字典的各所述元素中。

在一示范例中，基于所述数据源文件生成所述字典还包括：

对所述字典的各所述元素按照所述元素中包含的所述字段名的拼音首字母的前后顺序进行排列；

合并包含相同的所述字段名的所述元素，合并后所述元素中包含的所述字段名在所述数据源文件中的地址包括各个被合并所述元素中包含的所述字段名在所述数据源文件中的地址，或者合并后所述元素中包含的所述字段名在所述数据源文件中的地址为任意一个被合并所述元素中包含的所述字段名在所述数据源文件中的地址。

在一示范例中，所述字典的每个元素还包括所述字段名的词频，所述字段名的词频表示所述字段名在所述数据源文件中出现的次数；

基于所述数据源文件生成所述字典还包括在合并包含相同的所述字段名的所述元素时，计算所述字段名的词频并添加到所述字典的所述元素中。

在一示范例中，在所述字典中查找所述目标字段名以及所述目标字段名在所述数据源文件中的地址包括：

提炼所述目标字段名的拼音首字母；

在字典中查找拼音首字母匹配元素，所述拼音首字母匹配元素包含的所述字段名的拼音首字母与所述目标字段名的拼音首字母相同；

在所述拼音首字母匹配元素中查找字段名匹配元素，所述字段名匹配元素包含的所述字段名与所述目标字段名相同；

获取所述字段名匹配元素包含的所述字段名在所述数据源文件中的地址。

在一示范例中，当所述字段名匹配元素包含多个所述字段名在所述数据源文件中的地址时，获取任意一个所述字段名在所述数据源文件中的地址。

在一示范例中，所述数据源文件为一个或多个数据库或者文本文件，每个所述数据库或所述文本文件中包含一个或多个表，所述字段名以及所述字段名对应的数据存放在所述表的一行或一列中；

所述字段名在所述数据源文件中的地址包括所述数据源文件中所述数据库或所述文本文件的标识号、所述数据库或所述文本文件中所述表的标识号以及所述表中所述字段名所在行的标识号或者所述字段名所在列的标识号。

本发明的实施方式还公开了一种自动收集数据的装置，所述装置包括：

字典生成模块，所述字典生成模块基于数据源文件生成字典，所述数据源文件包括多个字段名以及各所述字段名对应的数据，所述字典的每个元素包括所述字段名、所述字段名的拼音首字母以及所述字段名在所述数据源文件中的地址；

目标字段名接收模块，所述目标字段名接收模块接收目标字段名；

目标字段名查找模块，所述目标字段名查找模块在所述字典中查找所述目标字段名以及所述目标字段名在所述数据源文件中的地址；

数据收集模块，所述数据收集模块根据所述目标字段名的地址从所述数据源文件收集所述目标字段名及所述目标字段名对应的数据。

本发明的实施方式还公开了一种非易失性存储介质，在所述存储介质上存储有自动收集数据的程序，所述自动收集数据的程序被计算机执行以实施自动收集数据的方法，所述程序包括：

字典生成指令，基于数据源文件生成字典，所述数据源文件包括多个字段名以及各所述字段名对应的数据，所述字典的每个元素包括所述字段名、所述字段名的拼音首字母以及所述字段名在所述数据源文件中的地址；

目标字段名接收指令，接收目标字段名；

目标字段名查找指令，在所述字典中查找所述目标字段名以及所述目标字段名在所述数据源文件中的地址；

数据收集指令，根据所述目标字段名的地址从所述数据源文件收集所述目标字段名及所述目标字段名对应的数据。

本发明的实施方式还公开了一种自动收集数据的设备，包括：

存储器，存储有计算机可以执行的自动收集数据的程序；以及

处理器，连接至所述存储器，并且被配置为执行所述自动收集数据的程序以：

接收目标字段名；

本发明的实施方式还公开了一种自动收集数据的系统，包括上述自动收集数据的装置。

本发明为数据源文件中的字段对象建立字典，在收集数据时，通过查找字典可以获取要收集字段对象的地址，进而快速定位其在数据源文件中的位置并进行收集，此外，字典的建立以及字段对象的查找和收集都是自动进行的，不需要人工的参与，因此本发明能够极大地提高数据收集的效率。

进一步地，在建立字典时，通过对字典元素进行排序并合并具有相同字段名的元素，可以提高查找效率。

进一步地，在字典中查找目标字段名时，先通过字段名的拼音首字母进行匹配查找，再进一步通过字段名进行匹配查找，可以提高查找效率。

附图说明

图1为根据本发明实施例的自动收集数据的装置的结构示意图；

图2为根据本发明实施例的自动收集数据的方法的流程示意图；

图3为根据本发明实施例的基于数据源文件生成字典的流程示意图；

图4为根据本发明实施例的基于一个或多个数据库或文本文件生成字典的流程示意图；

图5为根据本发明实施例的字段处理的流程示意图；

图6为根据本发明实施例的字典的示意图；

图7为根据本发明实施例的经排序的字典的示意图；

图8为根据本发明实施例的经合并字段的字典的示意图；

图9为根据本发明实施例的在字典中查询目标字段名及其地址的流程示意图；

图10为根据本发明实施例的查询目标字段名并收集其对应数据的流程示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。

为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。

本发明中，待收集的数据包括字段名和字段名对应的值(或数据)，其存放于数据源文件中。例如，数据源文件可以是一个或多个数据库(DataBase)或文本文件(Excel、Word、Text等)，每个数据库或文本文件中包括一个或多个表，表的一行或一列存放字段名及该字段名对应的数据，具体可以为，表的每一行的第一列存放字段名，其余列存放该字段名对应的数据，或者表的每一列的第一行存放字段名，其余行存放该字段名对应的数据。进行数据收集之前，需要通过输入设备(例如键盘、鼠标等)接收操作人员给定的目标字段名，以从数据源文件中收集目标字段名对应的数据。

图1为根据本发明实施例的自动收集数据的装置的结构示意图，自动收集数据的装置100包括字典生成模块101、目标字段名接收模块102、目标字段名查找模块103、数据收集模块104。图2为根据本发明实施例的自动收集数据的方法的流程示意图，如图2所示，自动收集数据的方法具体包括：

步骤201，字典生成模块101基于数据源文件生成字典，该数据源文件包括多个字段名以及各字段名对应的数据，字典的每个元素包括字段名、字段名的拼音首字母以及字段名在数据源文件中的地址；

步骤202，目标字段名接收模块102接收目标字段名；

步骤203，目标字段名查找模块在字典中查找目标字段名以及目标字段名在数据源文件中的地址；

步骤204，数据收集模块104根据目标字段名的地址从数据源文件收集目标字段名及目标字段名对应的数据。

以下分别对上述各步骤进行说明。

一、基于数据源文件生成字典

图3为基于数据源文件生成字典的流程示意图，如图3中各步骤所示，字典生成模块101首先从数据源文件中依次读取字段名，对于读取的每个字段名，进行如下处理：去除字段名中的特殊符号、提炼字段名的拼音首字母、生成字段名在数据源文件中的地址；字段名全部读取并处理完毕后，将各字段名、各字段名的拼音首字母以及各字段名在数据源文件中的地址分别添加到所字典的各元素中，即使每个元素包含一个字段名、该字段名的拼音首字母以及该字段名在数据源文件中的地址。

现参考图4-5，以数据源文件为一个或多个数据库或文本文件为例对字典生成模块101生成字典的过程进行更加详细的说明。图4为基于一个或多个数据库或文本文件生成字典的流程示意图，具体地：

步骤401，新建字段集合A，在字段处理步骤，字段集合A存入格式为“字段名，字段名拼音首字母，字段名的地址”的数据；

步骤402，对j进行初始化，使j＝1；

步骤403，将当前数据库(DB)或文本文件的标识号(ID)标注为j；

步骤404，判断当前DB或文本文件内是否有表，如果有表则转至步骤405进行下一步的处理，否则转至步骤416进行下一个DB或文本文件的处理；

步骤405，对m进行初始化，使m＝1；

步骤406，将当前DB或文本文件内当前表的ID标注为m；

步骤407，判断当前表内是否有列，如果有列则转至步骤408进行下一步的处理，否则转至步骤414进行下一个表的处理；

步骤408，对n进行初始化，使n＝1；

步骤409，读取一个列；

步骤410，将当前表内当前列的ID标注为n；

步骤411，使n＝n+1；

步骤412，字段处理步骤；

步骤413，判断当前表内是否有未读取的列，如果有未读取的列，则转至步骤409进行下一列的处理，否则转至步骤414；

步骤414，使m＝m+1；

步骤415，判断当前DB或文本文件内是否有未处理的表，如果有未处理的表，则转至步骤406进行下一个表的处理，否则进入步骤416；

步骤416，使j＝j+1；

步骤417，判断是否有未处理的DB或文本文件，如果有未处理的DB或文本文件，则转至步骤403进行下一个DB或文本文件的处理，否则结束流程。

图5为图4中字段处理步骤的流程示意图，具体地：

步骤501，读取一个字段名；

步骤502，去除当前字段名中的特殊符号；

步骤503，提炼当前字段名的拼音首字母，例如字段名为“收缩压”时，对应的拼音首字母为“SSY”；

步骤504，将当前字段名的地址ID标为(j,m,n),即表示当前字段名位于第j个DB或文本文件中第m个表的第n列；

步骤505，将当前字段名、当前字段名的拼音首字母以及当前字段名的地址ID添加至集合A，流程结束。

通过图4、图5所示的流程，字典生成模块101将数据源文件(即一个或多个数据库或文本文件)中的所有字段名、各字段名的拼音首字母以及地址ID均添加至集合A中，集合A即可以作为查询目标字段名的字典，该字典中包括多个元素，每个元素都包括格式为“字段名，字段名拼音首字母，字段名地址ID”的数据。当需要收集数据源文件中目标字段名对应的数据时，可以先在字典中查找目标字段名及其地址ID，根据该地址ID能够快速定位目标字段名及其对应的数据在数据源文件中的具体位置，极大地提高了数据收集的效率。需要说明的是，在图4和5示出的流程中，表的每一列的第一行存放字段名，其余行存放该字段名对应的数据，n表示列标识号，但不限于此，例如可以表的每一行的第一列存放字段名，其余列存放该字段名对应的数据，n表示行标识号。

由于在生成的字典中，同一字段名有可能出现多次，为了进一步提高查询效率，字典生成模块101可以对字典中的各个元素按照字段名拼音首字母的先后顺序进行排序，然后合并具有相同字段名的元素。图6为生成的字典的示意图，如图6所示，集合A即字典中的字段对象被字典生成模块101整理成表以便于排序和查询，表的每一行都为“字段名，字段名拼音首字母，字段名地址ID”的格式，即表的每一行代表字典的一个元素，其中具体的字段名拼音首字母仅用于说明用途。字典生成模块101对图6中的表按照各行中字段名拼音首字母的先后顺序进行重新排序，得到如图7所示的表，此处“按照各行中字段名拼音首字母的先后顺序”指的是按照各字段名拼音首字母中的第一个字母的先后顺序。在经排序的表中，字典生成模块101将包含相同字段名的若干字典元素(或若干行)合并为一个元素(或一行)，合并后元素的字段名及其拼音首字母取合并前各元素的字段名及其拼音首字母，合并后元素的字段名地址ID可以包括合并前各元素的字段名地址ID，也可以仅包括任意一个合并前元素的字段名地址ID。此外，在进行元素的合并时，也可以计算被合并元素的个数作为元素中包含的字段名的词频数，并将该词频数加入元素中。图8为合并字段后字典的一个示意图，表中每一行为“字段名，字段名拼音首字母，词频总数，合并前各元素的字段名地址ID，各字段名地址ID对应的词频数”的格式。

二、接收目标字段名

目标字段名及其对应的数据为需要收集的对象，由操作人员指定，因此，在进行数据收集之前，目标字段名接收模块102需要通过输入设备(例如键盘、鼠标等)接收目标字段名，以从数据源文件中收集目标字段名对应的数据。

三、查询目标字段名并收集目标字段名对应的数据

图9为在字典中查询目标字段名及其地址的流程示意图，如图9中各步骤所示，目标字段名查找模块103首先提炼目标字段名的拼音首字母；其次在字典中查找拼音首字母匹配元素，拼音首字母匹配元素包含的字段名的拼音首字母与目标字段名的拼音首字母相同；然后在拼音首字母匹配元素中查找字段名匹配元素，字段名匹配元素包含的字段名与目标字段名相同；最后获取字段名匹配元素包含的字段名在数据源文件中的地址。在目标字段名查找模块103获取字段名在数据源文件中的地址之后，数据收集模块104从数据源文件中相应地址收集目标字段名及目标字段名对应的数据。

现参考图10，对查询目标字段名并收集目标字段名对应的数据进行更加详细的说明，具体地：

步骤1001，新建字段收集集合B，集合B初始是个空集，用于存放需要收集的字段名及其对应的数据。

步骤1002，生成所有需查找的目标字段名的集合C，集合C是需要查找的目标字段名所组成的集合。

步骤1003，读取集合C中的一个目标字段名，每次从集合C内读取一个需要查找的目标字段名；

步骤1004，提炼当前目标字段名的拼音首字母；

步骤1005，选取字典中的一个元素；

步骤1006，比较当前元素包含的字段名的拼音首字母是否与目标字段名的拼音首字母相同，若相同，转至步骤1007，若不同，转至步骤1012；

步骤1007，比较当前元素包含的字段名是否与目标字段名相同，若相同，转至步骤1008，若不同，转至步骤1012；

步骤1008，获取当前元素包含的字段名地址ID，若当前元素由合并具有相同字段名的元素得到，其可能会包含合并前各元素的字段名地址ID，在这种情况下，可以任选一个字段名地址ID作为当前元素包含的字段名地址ID；

步骤1009，根据获取的字段名地址ID从数据源文件中收集目标字段名及其对应的数据，按照“目标字段名：目标字段名对应的数据”的格式加入集合B；

步骤1010，判断当前目标字段名是否是集合C中最后一个需要查找的目标字段名，如果是，那么结束流程，否则进入步骤1003；

步骤1011，判断当前元素是否是字典中最后一个元素，如果是，则说明需要查询的目标字段名不在字典内，那么进入步骤1010，否则进入步骤1005。

根据本发明实施例的自动收集数据的装置及方法为数据源文件中的字段对象建立字典，在收集数据时，通过查找字典可以获取要收集字段对象的地址，进而快速定位其在数据源文件中的位置并进行收集，此外，字典的建立以及字段对象的查找和收集都是自动进行的，不需要人工的参与，因此本发明能够极大地提高数据收集的效率。

本发明的实施方式还提供一种非易失性存储介质，在存储介质上存储有自动收集数据的程序，自动收集数据的程序被计算机执行以实施自动收集数据的方法，该程序包括：

字典生成指令，基于数据源文件生成字典，数据源文件包括多个字段名以及各字段名对应的数据，字典的每个元素包括字段名、字段名的拼音首字母以及字段名在数据源文件中的地址；

目标字段名接收指令，接收目标字段名；

目标字段名查找指令，在字典中查找目标字段名以及目标字段名在数据源文件中的地址；

数据收集指令，根据目标字段名的地址从数据源文件收集目标字段名及目标字段名对应的数据。

本发明的实施方式还提供一种自动收集数据的设备，包括：

处理器，连接至存储器，并且被配置为执行自动收集数据的程序以：

基于数据源文件生成字典，数据源文件包括多个字段名以及各字段名对应的数据，字典的每个元素包括字段名、字段名的拼音首字母以及字段名在数据源文件中的地址；

接收目标字段名；

在字典中查找目标字段名以及目标字段名在数据源文件中的地址；

根据目标字段名的地址从数据源文件收集目标字段名及目标字段名对应的数据。

本发明的实施方式还提供一种自动收集数据的系统，包括如上所述的自动收集数据的装置。

需要说明的是，在本专利的权利要求和说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

虽然通过参照本发明的某些优选实施方式，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。

Claims

1.一种自动收集数据的方法，其特征在于，所述方法包括：

接收目标字段名；

2.根据权利要求1所述的方法，其特征在于，基于所述数据源文件生成所述字典包括：

获取所述数据源文件中的各所述字段名；

去除所述字段名中的特殊符号；

提炼所述字段名的拼音首字母；

生成所述字段名在所述数据源文件中的地址；

3.根据权利要求2所述的方法，其特征在于，基于所述数据源文件生成所述字典还包括：

4.根据权利要求3所述的方法，其特征在于，所述字典的每个元素还包括所述字段名的词频，所述字段名的词频表示所述字段名在所述数据源文件中出现的次数；

5.根据权利要求1所述的方法，其特征在于，在所述字典中查找所述目标字段名以及所述目标字段名在所述数据源文件中的地址包括：

提炼所述目标字段名的拼音首字母；

6.根据权利要求5所述的方法，其特征在于，当所述字段名匹配元素包含多个所述字段名在所述数据源文件中的地址时，获取任意一个所述字段名在所述数据源文件中的地址。

7.根据权利要求1至6中任意一项所述的方法，其特征在于，所述数据源文件为一个或多个数据库或者文本文件，每个所述数据库或所述文本文件中包含一个或多个表，所述字段名以及所述字段名对应的数据存放在所述表的一行或一列中；

8.一种自动收集数据的装置，其特征在于，所述装置包括：

9.一种非易失性存储介质，其特征在于，在所述存储介质上存储有自动收集数据的程序，所述自动收集数据的程序被计算机执行以实施自动收集数据的方法，所述程序包括：

目标字段名接收指令，接收目标字段名；

10.一种自动收集数据的设备，其特征在于，包括：

接收目标字段名；

11.一种自动收集数据的系统，其特征在于，包括权利要求8所述的自动收集数据的装置。