CN113487026A

CN113487026A - 一种图计算中io节点高效读取数据的方法及系统

Info

Publication number: CN113487026A
Application number: CN202110757955.1A
Authority: CN
Inventors: 陈琰; 姜承祥; 张继东
Original assignee: Jiangsu Best Tone Information Service Co ltd
Current assignee: Jiangsu Best Tone Information Service Co ltd
Priority date: 2021-07-05
Filing date: 2021-07-05
Publication date: 2021-10-08
Anticipated expiration: 2041-07-05
Also published as: CN113487026B

Abstract

本发明公开了一种图计算中IO节点高效读取数据的方法及系统，系统主要包括任务接收系统，任务分解系统，缓存系统，数据读取系统；其中任务接收系统负责与IO节点交互，接收IO节点的数据读取任务，并返回数据；任务分解系统将IO节点的数据解读任务，分解成独立子任务读取逐个表字段；缓存系统管理表字段读取任务对应的缓存，在表字段中根据数据偏移获取数据块地址；数据读取系统对接不同存储系统，提供统一高效的读取能力，对不同存储介质采用不同读取逻辑。本发明解决了现有机器学习模型训练动辄十几小时到数日的问题，提高了系统在识别相同数据块时候的速度和效率。

Description

一种图计算中IO节点高效读取数据的方法及系统

技术领域

本发明涉及一种图计算中IO节点高效读取数据的方法及系统，属于AI/大数据领域。

背景技术

使用机器学习算法进行模型训练，都需要多次使用训练数据迭代进行训练，其目的是通过最小化或者最大化误差函数，让模型在训练数据得到较好的预测或分类效果。现有的图计算框架，如tensorflow或者spark能够很好将数据流图调度到分布式的节点上，进行高效计算。现有的工作包括优化计算图计算中节点之间中间数据的存储方式和优化数据之间数据传输模式。优化节点间数据存储方式通过使用内存来代替磁盘文件来保存节点间的中间结果数据，后续计算节点从内存中读取数据，无需从磁盘中读取，提高了图模型计算效率。另一种优化数据之间的数据传输方式主要通过计算节点之间的做异步传输中间结果，无需等待计算全部完成再开始传输数据，来提高效率。

因为训练数据一般存储在数据仓库或者数据库中，而图计算引擎是另一个分布式系统，图计算引擎向数据仓库系统读取数据是一种一次性的操作，已有工作的这两类方法没有从优化图模型的IO节点读取数据的性能上来考虑。在缓存的使用上，分布式系统一般通过缓存系统存储结构化对象或者存储小文件，提高后续数据读取速度，但是在机器学习模型训练中，数据的使用以列(指标/标签)为单位，这种存储方式不完全适应机器学习中数据的使用。

发明内容

本发明的目的在于解决现有技术的不足，即现有机器学习模型训练动辄十几小时到数日的问题，提供一种相同数据块的自适应识别方法及系统,提高系统在识别相同数据块时候的速度和效率。

为实现上述目的，本发明采取的技术方案如下：

一种图计算中IO节点高效读取数据的方法，其包括以下步骤：

步骤1，对IO节点读取数据请求进行代理，将请求转发到数据读取子系统；

步骤2，在数据读取子系统中，根据要读取的表和字段，将任务拆分成多个子任务，每个任务负责读取一张表的一个字段；

步骤3，获取一个任务，初始化读取偏移量offset＝0，初始化数据块大小BSize，每次读取的连续块数量BNumber，获取数据最大偏移量MaxOffset；

步骤4，根据表和字段名，判断当前表内该字段是否被缓存，如果被缓存，则进行步骤6，否则，进行步骤5；

步骤5，初始话表内该字段的缓存对象CObject；

步骤6，在缓存对象中，查找偏移量offset的数据块是否已经在缓存中，如果在缓存中，进行步骤7，否则进行步骤8；

步骤7，读取缓存中对应偏移量offset的数据块，将数据拷贝到发送队列中，offset＝offset+BSize，如果数据读取完毕，进行步骤12，否则进行步骤6；

步骤8，准备从外部存储介质中读取数据，如果数据在列式存储介质中，进行步骤9，否则进行步骤11；

步骤9，从列式存储中，读取当前表内该字段偏移量是offset，长度Bsize的数据，将数据写入内存中，并在CObject中记录索引，内容为数据存储位置；

步骤10，offset＝offset+Bsize，进行步骤6；

步骤11，从行式存储介质中，按照行读取长度为Bsize的所有数据记录，为数据记录的所有字段，在表内各个字段缓存对象CObject中，存储offset对应数据块，进行步骤10；

步骤12，将数据返回给计算图模型的IO节点。

进一步的，计算图模型中，模型会被不断迭代训练，同一个IO读取节点会被执行多次。

进一步的，按照表和列来组织缓存数据，通过缓存对象来存储数据索引表，通过索引获取数据在系统中保存的真实地址。

进一步的，数据按照以块为单位进行存储。

一种图计算中IO节点高效读取数据的系统，其特征在于，该系统包括：

任务接收系统：负责与IO节点交互，接收IO节点的数据读取任务，并返回数据；

任务分解系统：将IO节点的数据解读任务，分解成独立子任务读取逐个表字段；

缓存系统：管理表字段读取任务对应的缓存，包括表字段到数据缓存对象的映射(map)，在表字段中根据数据偏移获取数据块地址；

数据读取系统：对接不同存储系统，提供统一高效的读取能力，对不同存储介质(行存储和列存储)，采用不同读取逻辑。

本发明的有益效果是：本发明适用于需要多次迭代计算的机器学习任务，其主要优点体现在：

1)通过对数据的缓存，机器学习任务通过图计算引擎训练模型时，降低每个迭代的IO等待耗时；可以极大的提高实际神经网络模型的训练时间。在计算资源充足的环境下，可以提速10倍。

2)重组缓存中的数据组织方式，以(表，字段)二元组的维度来管理缓存数据。本质是列式存储的数据，更加有利机器学习的任务读取。

3)将数据读取与图模型解耦，能够将原本独立的数据读取任务，交给专用系统来处理，方便合并读请求，减少重复读取。

本发明的附加方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

附图说明

图1是本发明的流程图。

具体实施方式

下面结合附图和具体实施例对本发明进行详细说明。

实施例一。

本实施案例公开了一种图计算中IO节点高效读取数据的方法，在tensorflow的应用。实施场景如下所述：

tensorflow通过定义数据流图，用点描述操作，用边描述数据流向，通过丰富的操作来支持复杂的机器学习任务执行。

在此场景下，本实施例的方法具体实施步骤为：

步骤1，对IO节点读取数据请求进行代理，将请求转发到数据读取子系统。

在具体实施时，这里代理的具体实现方式，可以通过重新实现IO节点逻辑，将请求发送给数据读取子系统。将数据读取子系统作为透明代理。

步骤2，在数据读取子系统中，根据要读取的表和字段，将任务拆分成多个子任务，每个任务负责读取一张表table的一个字段field1，任务为Task(table，field1)。

任务由表名table和字段名field唯一确定，用于表示任务的目标是缓存指定表的指定字段。

初始化的目的是，设置缓存的基本配置信息，设置缓存读取的游标变量，设置每个数据块的大小BSize，查询数据的长度，了解需要缓存的数据长度MaxOffset。

步骤4，根据表和字段名，在Htable中查询Htable(table,field1)是否存在，如果对象存在，表示(table,field1)曾经被缓存，则进行步骤6，否则，进行步骤5；

考虑到需要存储多个字段数据库，通过一个哈希表来存储字段到缓存对象的映射。

步骤5，初始化表内该字段的缓存对象CObject；

缓存对象中应当包含缓存块大小BSize，缓存索引在内存中的地址。

步骤6，在缓存对象中，查找偏移量offset的数据块是否已经在缓存中，如果在缓存中，进行步骤7，否则进行步骤8。

迭代去读取数据，每次读取一个块大小的数据。

步骤8，准备从外部存储介质中读取数据，如果数据在列式存储介质中，进行步骤9，否则进行步骤11。

步骤9，从列式存储中，读取当前表内该字段偏移量是offset，长度Bsize的数据，将数据写入内存中，并在CObject中记录索引，内容为数据存储位置。

步骤10，offset＝offset+Bsize，进行步骤6。

行式存储介质，按行来读取数据，所以每次读取可以缓存全部列的数据。

步骤12，将数据返回给计算图模型的IO节点。

实施例二。

本实施例公开一种为上述方法服务的系统，该系统包括：

综上，本发明优势在于：(1)通过一个系统来代理所有数据读取任务；缓存已经读取过的字段，减少数据重复读取的时间；(2)以列为维度组织缓存数据。数据使用了利用了顺序读取，加速数据读取过程；(3)数据读取系统作为独立应用，能够实现多个任务共享读缓存，提高整体集群性能。本发明特点在于：(1)数据存储结构层面：设计了以列为维度的数据缓存方式，更适合图计算和深度学习使用；(2)系统架构层面：通过代理读取任务，将数据读取任务，交给独立的系统解决，实现IO优化与图计算逻辑分离；(3)针对图计算中数据读取过程进行优化，实际效果降低耗时80％

以上显示和描述了本发明的基本原理、主要特征和优点。本领域的普通技术人员应该了解，上述实施例不以任何形式限制本发明的保护范围，凡采用等同替换等方式所获得的技术方案，均落于本发明的保护范围内。

本发明未涉及部分均与现有技术相同或可采用现有技术加以实现。

Claims

1.一种图计算中IO节点高效读取数据的方法，其特征在于，包括以下步骤：

步骤5，初始话表内该字段的缓存对象CObject；

步骤10，offset＝offset+Bsize，进行步骤6；

步骤12，将数据返回给计算图模型的IO节点。

2.根据权利要求1所述的一种图计算中IO节点高效读取数据的方法，其特征在于，计算图模型中，模型会被不断迭代训练，同一个IO读取节点会被执行多次。

3.根据权利要求2所述的一种图计算中IO节点高效读取数据的方法，其特征在于，按照表和列来组织缓存数据，通过缓存对象来存储数据索引表，通过索引获取数据在系统中保存的真实地址。

4.根据权利要求3所述的一种图计算中IO节点高效读取数据的方法，其特征在于，数据按照以块为单位进行存储。

5.一种图计算中IO节点高效读取数据的系统，其特征在于，该系统包括：

缓存系统：管理表字段读取任务对应的缓存，包括表字段到数据缓存对象的映射，在表字段中根据数据偏移获取数据块地址；

数据读取系统：对接不同存储系统，提供统一高效的读取能力，对不同存储介质，采用不同读取逻辑。