CN110928847B

CN110928847B - 一种文件的批量抽样方法及装置

Info

Publication number: CN110928847B
Application number: CN201910973760.3A
Authority: CN
Inventors: 庞浩; 梁伟标; 文雪芹
Original assignee: Foshan University
Current assignee: Foshan University
Priority date: 2019-10-14
Filing date: 2019-10-14
Publication date: 2022-10-04
Anticipated expiration: 2039-10-14
Also published as: CN110928847A

Abstract

本发明涉及信息处理技术领域，具体涉及一种文件的批量抽样方法及装置，首先获取所述第一文件夹中第一子文件夹的数量m，每个第一子文件夹的文件名；接着在所述第二文件夹中生成m个第二子文件夹，m个所述第二子文件夹的文件名分别与第一子文件夹的文件名对应；进而确定抽取比例，根据抽取比例从所述第一子文件夹中随机抽取得到样本文件，对所述样本文件标记所属第一子文件夹的文件名；根据所述样本文件所属第一子文件夹的文件名匹配目标数据库中对应的第二子文件夹，将所述样本文件移动到所述对应的第二子文件夹，本发明可以快速的对文件进行批量抽样。

Description

一种文件的批量抽样方法及装置

技术领域

本发明涉及信息处理技术领域，具体涉及一种文件的批量抽样方法及装置。

背景技术

随着人工智能技术席卷而来，各个行业在新技术的注入下焕发生机，例如在智能设计领域，需要对包括图片、视频、文本文档、PDF等不同类型的文档进行批量处理，例如文件汇总，筛选等，传统的人工复制粘贴耗费大量的时间和人力。

现有技术中，也没有一套针对多文件夹分类抽样的便捷方式。

发明内容

为解决上述问题，本发明提供一种文件的批量抽样方法及装置，可以快速的对文件进行批量抽样。

为了实现上述目的，本发明提供以下技术方案：

根据本发明第一方面实施例的一种文件的批量抽样方法，包括：

根据源数据库的存放路径读取源数据库中待抽样的第一文件夹；

遍历所述第一文件夹下所有的第一子文件夹，获取所述第一文件夹中第一子文件夹的数量m，每个第一子文件夹的文件名；

根据目标数据库的存放路径读取目标数据库中存放抽样样本的第二文件夹；

在所述第二文件夹中生成m个第二子文件夹，m个所述第二子文件夹的文件名分别与第一子文件夹的文件名对应；

确定抽取比例，根据抽取比例从所述第一子文件夹中随机抽取得到样本文件，对所述样本文件标记所属第一子文件夹的文件名；

根据所述样本文件所属第一子文件夹的文件名匹配目标数据库中对应的第二子文件夹，将所述样本文件移动到所述对应的第二子文件夹。

进一步地，在根据目标数据库的存放路径读取目标数据库中存放抽样样本的第二文件夹之前，包括：

在目标数据库中新建第二文件夹，所述第二文件夹为空白文件夹。

进一步地，所述确定抽取比例具体为：

对所述第一文件夹下所有的第一子文件夹设置一个共同的抽取比例，或

分别设置每个所述第一子文件夹的抽取比例。

进一步地，在遍历所述第一文件夹下所有的第一子文件夹之后，还包括：

获取所述第一子文件夹包含的源文件数量，当所述第一文件夹包含的源文件数量为0时，将所述第一文件夹标记为空白文件夹。

根据本发明第二方面实施例的一种文件的批量抽样装置，其特征在于，所述装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如本发明第一方面中所述的文件的批量抽样方法。

本发明的有益效果是：本发明公开一种文件的批量抽样方法及装置，首先根据源数据库的存放路径读取源数据库中待抽样的第一文件夹；遍历所述第一文件夹下所有的第一子文件夹，获取所述第一文件夹中第一子文件夹的数量m，每个第一子文件夹的文件名；接着根据目标数据库的存放路径读取目标数据库中存放抽样样本的第二文件夹；在所述第二文件夹中生成m个第二子文件夹，m个所述第二子文件夹的文件名分别与第一子文件夹的文件名对应；进而确定抽取比例，根据抽取比例从所述第一子文件夹中随机抽取得到样本文件，对所述样本文件标记所属第一子文件夹的文件名；根据所述样本文件所属第一子文件夹的文件名匹配目标数据库中对应的第二子文件夹，将所述样本文件移动到所述对应的第二子文件夹。本发明可以快速的对文件进行批量抽样。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本发明实施例一种文件的批量抽样方法的流程示意图；

图2是本发明实施例一种文件的批量抽样方法的效果示意图。

具体实施方式

以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述，以充分地理解本公开的目的、方案和效果。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。

参考图1和图2，如图1所示为一种文件的批量抽样方法，包括以下步骤：

步骤S100、根据源数据库的存放路径读取源数据库中待抽样的第一文件夹；

步骤S200、遍历所述第一文件夹下所有的第一子文件夹，获取所述第一文件夹中第一子文件夹的数量m，每个第一子文件夹的文件名；

步骤S300、根据目标数据库的存放路径读取目标数据库中存放抽样样本的第二文件夹；

步骤S400、在所述第二文件夹中生成m个第二子文件夹，m个所述第二子文件夹的文件名分别与第一子文件夹的文件名对应；

也即，在所述第二文件夹中生成与所述第一子文件夹相同数量的第二子文件夹，每个所述第二子文件夹分别与所述第一子文件夹的文件名对应，这样，第一文件夹和第二文件夹的总数量相等，第一文件夹和第二文件夹在文件名上就形成了一一对应的关系。从而批量实现对第一子文件夹的文件名的复制。

步骤S500、确定抽取比例，根据抽取比例从所述第一子文件夹中随机抽取得到样本文件，对所述样本文件标记所属第一子文件夹的文件名。

本领域技术人员清楚，抽取比例的取值范围为(0,1]。从而批量实现对第一子文件夹下的文件进行一定比例的随机抽取。

步骤S600、根据所述样本文件所属第一子文件夹的文件名匹配目标数据库中对应的第二子文件夹，将所述样本文件移动到所述对应的第二子文件夹。从而将抽取的样本文件放到相应的同名文件夹下。这样，目标数据库下的样本文件与源数据库中的剩余的文件不存在重复。

本实施例中，根据业务需要，对抽取比例进行赋值，比如为0.5，则第二子文件夹需要随机抽取的样本文件数量为第一子文件夹中源文件数量的0.5。

本发明提供的技术方案可以对大批量的文件进行自动化处理，无需人工复制粘贴，可以快速的对文件进行批量抽样。

在一个实施例中，可采用Python语言实现上述实施例，利用Python标准库中的shutil模块，实现文件抽样和样本文件的移动。

图2是本发明实施例提供的一种文件的批量抽样方法的效果示意图，下面给出本实施例的部分伪代码：

在一个可选的实施例中，在步骤S300之前，包括：

在一个实施例中，所述步骤S500中的确定抽取比例具体为：

分别设置每个所述第一子文件夹的抽取比例。

在一个可选的实施例中，在遍历所述第一文件夹下所有的第一子文件夹之后，还包括：

本发明还提供一种文件的批量抽样装置，所述装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述任一项所述的文件的批量抽样方法。

所述一种文件的批量抽样装置可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种文件的批量抽样装置，可运行的装置可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，所述例子仅仅是一种文件的批量抽样装置的示例，并不构成对一种文件的批量抽样装置的限定，可以包括比例子更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述一种文件的批量抽样装置还可以包括输入输出设备、网络接入设备、总线等。

所称处理器可以是中央处理单元(Central-Processing-Unit，CPU)，还可以是其他通用处理器、数字信号处理器(Digital-Signal-Processor，DSP)、专用集成电路(Application-Specific-Integrated-Circuit，ASIC)、现场可编程门阵列(Field-Programmable-Gate-Arr ay，FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述一种文件的批量抽样装置的控制中心，利用各种接口和线路连接整个一种文件的批量抽样装置可运行装置的各个部分。

所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述一种文件的批量抽样装置的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(Smart-Media-Card，SMC)，安全数字(Secure-Digital，SD)卡，闪存卡(Flash-Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述，但其并非旨在局限于任何这些细节或实施例或任何特殊实施例，而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释，从而有效地涵盖本公开的预定范围。此外，上文以发明人可预见的实施例对本公开进行描述，其目的是为了提供有用的描述，而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。

Claims

1.一种文件的批量抽样方法，其特征在于，包括：

遍历所述第一文件夹下所有的多个第一子文件夹，获取所述第一文件夹中第一子文件夹的数量m，每个第一子文件夹的文件名，其中，m为正整数；

确定抽取比例，根据抽取比例从所述第一子文件夹中随机抽取得到样本文件，对样本文件标记所属第一子文件夹的文件名；

根据样本文件所属第一子文件夹的文件名匹配目标数据库中对应的第二子文件夹，将所述样本文件移动到所述对应的第二子文件夹；

其中，所述确定抽取比例具体为：

分别设置每个所述第一子文件夹的抽取比例；

在根据目标数据库的存放路径读取目标数据库中存放抽样样本的第二文件夹之前，包括：

在目标数据库中新建第二文件夹，所述第二文件夹为空白文件夹；

在遍历所述第一文件夹下所有的多个第一子文件夹之后，还包括：

2.一种文件的批量抽样装置，其特征在于，所述装置包括：存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现如权利要求1所述的文件的批量抽样方法。