CN110928847B - 一种文件的批量抽样方法及装置 - Google Patents
一种文件的批量抽样方法及装置 Download PDFInfo
- Publication number
- CN110928847B CN110928847B CN201910973760.3A CN201910973760A CN110928847B CN 110928847 B CN110928847 B CN 110928847B CN 201910973760 A CN201910973760 A CN 201910973760A CN 110928847 B CN110928847 B CN 110928847B
- Authority
- CN
- China
- Prior art keywords
- folder
- subfolder
- file
- subfolders
- target database
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Human Computer Interaction (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明涉及信息处理技术领域,具体涉及一种文件的批量抽样方法及装置,首先获取所述第一文件夹中第一子文件夹的数量m,每个第一子文件夹的文件名;接着在所述第二文件夹中生成m个第二子文件夹,m个所述第二子文件夹的文件名分别与第一子文件夹的文件名对应;进而确定抽取比例,根据抽取比例从所述第一子文件夹中随机抽取得到样本文件,对所述样本文件标记所属第一子文件夹的文件名;根据所述样本文件所属第一子文件夹的文件名匹配目标数据库中对应的第二子文件夹,将所述样本文件移动到所述对应的第二子文件夹,本发明可以快速的对文件进行批量抽样。
Description
技术领域
本发明涉及信息处理技术领域,具体涉及一种文件的批量抽样方法及装置。
背景技术
随着人工智能技术席卷而来,各个行业在新技术的注入下焕发生机,例如在智能设计领域,需要对包括图片、视频、文本文档、PDF等不同类型的文档进行批量处理,例如文件汇总,筛选等,传统的人工复制粘贴耗费大量的时间和人力。
现有技术中,也没有一套针对多文件夹分类抽样的便捷方式。
发明内容
为解决上述问题,本发明提供一种文件的批量抽样方法及装置,可以快速的对文件进行批量抽样。
为了实现上述目的,本发明提供以下技术方案:
根据本发明第一方面实施例的一种文件的批量抽样方法,包括:
根据源数据库的存放路径读取源数据库中待抽样的第一文件夹;
遍历所述第一文件夹下所有的第一子文件夹,获取所述第一文件夹中第一子文件夹的数量m,每个第一子文件夹的文件名;
根据目标数据库的存放路径读取目标数据库中存放抽样样本的第二文件夹;
在所述第二文件夹中生成m个第二子文件夹,m个所述第二子文件夹的文件名分别与第一子文件夹的文件名对应;
确定抽取比例,根据抽取比例从所述第一子文件夹中随机抽取得到样本文件,对所述样本文件标记所属第一子文件夹的文件名;
根据所述样本文件所属第一子文件夹的文件名匹配目标数据库中对应的第二子文件夹,将所述样本文件移动到所述对应的第二子文件夹。
进一步地,在根据目标数据库的存放路径读取目标数据库中存放抽样样本的第二文件夹之前,包括:
在目标数据库中新建第二文件夹,所述第二文件夹为空白文件夹。
进一步地,所述确定抽取比例具体为:
对所述第一文件夹下所有的第一子文件夹设置一个共同的抽取比例,或
分别设置每个所述第一子文件夹的抽取比例。
进一步地,在遍历所述第一文件夹下所有的第一子文件夹之后,还包括:
获取所述第一子文件夹包含的源文件数量,当所述第一文件夹包含的源文件数量为0时,将所述第一文件夹标记为空白文件夹。
根据本发明第二方面实施例的一种文件的批量抽样装置,其特征在于,所述装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如本发明第一方面中所述的文件的批量抽样方法。
本发明的有益效果是:本发明公开一种文件的批量抽样方法及装置,首先根据源数据库的存放路径读取源数据库中待抽样的第一文件夹;遍历所述第一文件夹下所有的第一子文件夹,获取所述第一文件夹中第一子文件夹的数量m,每个第一子文件夹的文件名;接着根据目标数据库的存放路径读取目标数据库中存放抽样样本的第二文件夹;在所述第二文件夹中生成m个第二子文件夹,m个所述第二子文件夹的文件名分别与第一子文件夹的文件名对应;进而确定抽取比例,根据抽取比例从所述第一子文件夹中随机抽取得到样本文件,对所述样本文件标记所属第一子文件夹的文件名;根据所述样本文件所属第一子文件夹的文件名匹配目标数据库中对应的第二子文件夹,将所述样本文件移动到所述对应的第二子文件夹。本发明可以快速的对文件进行批量抽样。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例一种文件的批量抽样方法的流程示意图;
图2是本发明实施例一种文件的批量抽样方法的效果示意图。
具体实施方式
以下将结合实施例和附图对本公开的构思、具体结构及产生的技术效果进行清楚、完整的描述,以充分地理解本公开的目的、方案和效果。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
参考图1和图2,如图1所示为一种文件的批量抽样方法,包括以下步骤:
步骤S100、根据源数据库的存放路径读取源数据库中待抽样的第一文件夹;
步骤S200、遍历所述第一文件夹下所有的第一子文件夹,获取所述第一文件夹中第一子文件夹的数量m,每个第一子文件夹的文件名;
步骤S300、根据目标数据库的存放路径读取目标数据库中存放抽样样本的第二文件夹;
步骤S400、在所述第二文件夹中生成m个第二子文件夹,m个所述第二子文件夹的文件名分别与第一子文件夹的文件名对应;
也即,在所述第二文件夹中生成与所述第一子文件夹相同数量的第二子文件夹,每个所述第二子文件夹分别与所述第一子文件夹的文件名对应,这样,第一文件夹和第二文件夹的总数量相等,第一文件夹和第二文件夹在文件名上就形成了一一对应的关系。从而批量实现对第一子文件夹的文件名的复制。
步骤S500、确定抽取比例,根据抽取比例从所述第一子文件夹中随机抽取得到样本文件,对所述样本文件标记所属第一子文件夹的文件名。
本领域技术人员清楚,抽取比例的取值范围为(0,1]。从而批量实现对第一子文件夹下的文件进行一定比例的随机抽取。
步骤S600、根据所述样本文件所属第一子文件夹的文件名匹配目标数据库中对应的第二子文件夹,将所述样本文件移动到所述对应的第二子文件夹。从而将抽取的样本文件放到相应的同名文件夹下。这样,目标数据库下的样本文件与源数据库中的剩余的文件不存在重复。
本实施例中,根据业务需要,对抽取比例进行赋值,比如为0.5,则第二子文件夹需要随机抽取的样本文件数量为第一子文件夹中源文件数量的0.5。
本发明提供的技术方案可以对大批量的文件进行自动化处理,无需人工复制粘贴,可以快速的对文件进行批量抽样。
在一个实施例中,可采用Python语言实现上述实施例,利用Python标准库中的shutil模块,实现文件抽样和样本文件的移动。
图2是本发明实施例提供的一种文件的批量抽样方法的效果示意图,下面给出本实施例的部分伪代码:
在一个可选的实施例中,在步骤S300之前,包括:
在目标数据库中新建第二文件夹,所述第二文件夹为空白文件夹。
在一个实施例中,所述步骤S500中的确定抽取比例具体为:
对所述第一文件夹下所有的第一子文件夹设置一个共同的抽取比例,或
分别设置每个所述第一子文件夹的抽取比例。
在一个可选的实施例中,在遍历所述第一文件夹下所有的第一子文件夹之后,还包括:
获取所述第一子文件夹包含的源文件数量,当所述第一文件夹包含的源文件数量为0时,将所述第一文件夹标记为空白文件夹。
本发明还提供一种文件的批量抽样装置,所述装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现上述任一项所述的文件的批量抽样方法。
所述一种文件的批量抽样装置可以运行于桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备中。所述一种文件的批量抽样装置,可运行的装置可包括,但不仅限于,处理器、存储器。本领域技术人员可以理解,所述例子仅仅是一种文件的批量抽样装置的示例,并不构成对一种文件的批量抽样装置的限定,可以包括比例子更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述一种文件的批量抽样装置还可以包括输入输出设备、网络接入设备、总线等。
所称处理器可以是中央处理单元(Central-Processing-Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital-Signal-Processor,DSP)、专用集成电路(Application-Specific-Integrated-Circuit,ASIC)、现场可编程门阵列(Field-Programmable-Gate-Arr ay,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器是所述一种文件的批量抽样装置的控制中心,利用各种接口和线路连接整个一种文件的批量抽样装置可运行装置的各个部分。
所述存储器可用于存储所述计算机程序和/或模块,所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块,以及调用存储在存储器内的数据,实现所述一种文件的批量抽样装置的各种功能。所述存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(Smart-Media-Card,SMC),安全数字(Secure-Digital,SD)卡,闪存卡(Flash-Card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
尽管本公开的描述已经相当详尽且特别对几个所述实施例进行了描述,但其并非旨在局限于任何这些细节或实施例或任何特殊实施例,而是应当将其视作是通过参考所附权利要求考虑到现有技术为这些权利要求提供广义的可能性解释,从而有效地涵盖本公开的预定范围。此外,上文以发明人可预见的实施例对本公开进行描述,其目的是为了提供有用的描述,而那些目前尚未预见的对本公开的非实质性改动仍可代表本公开的等效改动。
Claims (2)
1.一种文件的批量抽样方法,其特征在于,包括:
根据源数据库的存放路径读取源数据库中待抽样的第一文件夹;
遍历所述第一文件夹下所有的多个第一子文件夹,获取所述第一文件夹中第一子文件夹的数量m,每个第一子文件夹的文件名,其中,m为正整数;
根据目标数据库的存放路径读取目标数据库中存放抽样样本的第二文件夹;
在所述第二文件夹中生成m个第二子文件夹,m个所述第二子文件夹的文件名分别与第一子文件夹的文件名对应;
确定抽取比例,根据抽取比例从所述第一子文件夹中随机抽取得到样本文件,对样本文件标记所属第一子文件夹的文件名;
根据样本文件所属第一子文件夹的文件名匹配目标数据库中对应的第二子文件夹,将所述样本文件移动到所述对应的第二子文件夹;
其中,所述确定抽取比例具体为:
对所述第一文件夹下所有的第一子文件夹设置一个共同的抽取比例,或
分别设置每个所述第一子文件夹的抽取比例;
在根据目标数据库的存放路径读取目标数据库中存放抽样样本的第二文件夹之前,包括:
在目标数据库中新建第二文件夹,所述第二文件夹为空白文件夹;
在遍历所述第一文件夹下所有的多个第一子文件夹之后,还包括:
获取所述第一子文件夹包含的源文件数量,当所述第一文件夹包含的源文件数量为0时,将所述第一文件夹标记为空白文件夹。
2.一种文件的批量抽样装置,其特征在于,所述装置包括:存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1所述的文件的批量抽样方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910973760.3A CN110928847B (zh) | 2019-10-14 | 2019-10-14 | 一种文件的批量抽样方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910973760.3A CN110928847B (zh) | 2019-10-14 | 2019-10-14 | 一种文件的批量抽样方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110928847A CN110928847A (zh) | 2020-03-27 |
CN110928847B true CN110928847B (zh) | 2022-10-04 |
Family
ID=69848942
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910973760.3A Active CN110928847B (zh) | 2019-10-14 | 2019-10-14 | 一种文件的批量抽样方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN110928847B (zh) |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550377A (zh) * | 2016-02-03 | 2016-05-04 | 广东欧珀移动通信有限公司 | 多媒体文件的处理方法及装置 |
CN108920704A (zh) * | 2018-07-19 | 2018-11-30 | Oppo(重庆)智能科技有限公司 | 文件恢复方法、文件恢复装置及移动终端 |
Family Cites Families (10)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US8417745B2 (en) * | 2004-04-27 | 2013-04-09 | American Express Travel Related Services Company, Inc. | System and method for file services |
US8332357B1 (en) * | 2011-06-10 | 2012-12-11 | Microsoft Corporation | Identification of moved or renamed files in file synchronization |
CN102831181B (zh) * | 2012-07-31 | 2014-10-01 | 北京光泽时代通信技术有限公司 | 缓存文件的目录刷新方法 |
CN103677673B (zh) * | 2013-12-23 | 2017-12-19 | Tcl集团股份有限公司 | 一种文件分类批量上传的方法及系统 |
CN104166607B (zh) * | 2014-09-04 | 2017-12-19 | 北京国双科技有限公司 | 用于备份数据库的数据处理方法及装置 |
CN105653114A (zh) * | 2015-04-15 | 2016-06-08 | 宇龙计算机通信科技(深圳)有限公司 | 文件夹的处理方法及装置 |
CN106778132B (zh) * | 2016-11-30 | 2019-08-13 | Oppo广东移动通信有限公司 | 文件处理的控制方法、装置及移动终端 |
CN106855776A (zh) * | 2016-12-07 | 2017-06-16 | 北京奇虎科技有限公司 | 移动终端及其文件夹中应用程序的批处理方法和装置 |
CN106844459A (zh) * | 2016-12-20 | 2017-06-13 | 北京奇虎科技有限公司 | 移动终端及其入口信息加入文件夹的方法和装置 |
CN109144946A (zh) * | 2018-07-24 | 2019-01-04 | 中国建设银行股份有限公司 | 一种文件处理方法及装置 |
-
2019
- 2019-10-14 CN CN201910973760.3A patent/CN110928847B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105550377A (zh) * | 2016-02-03 | 2016-05-04 | 广东欧珀移动通信有限公司 | 多媒体文件的处理方法及装置 |
CN108920704A (zh) * | 2018-07-19 | 2018-11-30 | Oppo(重庆)智能科技有限公司 | 文件恢复方法、文件恢复装置及移动终端 |
Non-Patent Citations (2)
Title |
---|
Computer-Aided Endoscopic Diagnosis Without Human-Specific Labeling;Shuai Wang et al.;《IEEE Transactions on Biomedical Engineering 》;20160215;第2347-2358页 * |
电子文件管理系统实施过程中元数据方案的设计;刘越男 等;《档案学研究》;20120430;第56-64页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110928847A (zh) | 2020-03-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110135411B (zh) | 名片识别方法和装置 | |
US9626555B2 (en) | Content-based document image classification | |
US8838657B1 (en) | Document fingerprints using block encoding of text | |
CN108108342B (zh) | 结构化文本的生成方法、检索方法及装置 | |
US11580061B2 (en) | System and method for file archiving using machine learning | |
CN111443912B (zh) | 基于组件的页面渲染方法、装置、计算机设备和存储介质 | |
CN112052749A (zh) | 档案的归档方法、装置、电子设备及计算机可读存储介质 | |
US9898516B2 (en) | Verification of transformed content | |
CN106681716B (zh) | 智能终端及其应用程序的自动分类方法 | |
CN107748780B (zh) | 一种回收站文件的恢复方法和装置 | |
CN110532449B (zh) | 一种业务文档的处理方法、装置、设备和存储介质 | |
CN110096479B (zh) | 语音信息的批量重命名方法、装置、计算机设备及存储介质 | |
CN110928847B (zh) | 一种文件的批量抽样方法及装置 | |
US20120109638A1 (en) | Electronic device and method for extracting component names using the same | |
US11120074B2 (en) | Streamlining citations and references | |
CN111027533B (zh) | 一种点读坐标的变换方法、系统、终端设备及存储介质 | |
CN106201198B (zh) | 终端应用的查找方法、装置及移动终端 | |
CN117194322A (zh) | 文件分类管理方法、系统及计算设备 | |
CN108536769B (zh) | 图像分析方法、搜索方法及装置、计算机装置及存储介质 | |
CN111177506A (zh) | 一种基于大数据的分类存储方法及系统 | |
CN115495420A (zh) | 一种项目文件的完整性检查方法、装置、设备及存储介质 | |
CN108920550A (zh) | 文件查找方法及装置 | |
CN112542163B (zh) | 智能语音交互方法、设备及存储介质 | |
CN110119743B (zh) | 一种图片识别方法、服务器及计算机可读存储介质 | |
CN114281766A (zh) | 一种TrueCrypt隐藏分区识别方法、终端设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |