CN111752900A - 基于rpa及ai的文件存储方法、装置、设备和介质 - Google Patents
基于rpa及ai的文件存储方法、装置、设备和介质 Download PDFInfo
- Publication number
- CN111752900A CN111752900A CN202010612419.8A CN202010612419A CN111752900A CN 111752900 A CN111752900 A CN 111752900A CN 202010612419 A CN202010612419 A CN 202010612419A CN 111752900 A CN111752900 A CN 111752900A
- Authority
- CN
- China
- Prior art keywords
- file
- file data
- classification
- storage
- data
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 75
- 238000012015 optical character recognition Methods 0.000 claims description 22
- 238000013145 classification model Methods 0.000 claims description 20
- 238000012546 transfer Methods 0.000 claims description 11
- 238000012549 training Methods 0.000 claims description 9
- 238000004590 computer program Methods 0.000 claims description 5
- 238000007726 management method Methods 0.000 abstract description 15
- 238000013473 artificial intelligence Methods 0.000 description 24
- 238000003058 natural language processing Methods 0.000 description 8
- 238000013527 convolutional neural network Methods 0.000 description 7
- 238000010586 diagram Methods 0.000 description 6
- 238000012545 processing Methods 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 4
- 230000009286 beneficial effect Effects 0.000 description 3
- 238000010276 construction Methods 0.000 description 2
- 238000013500 data storage Methods 0.000 description 2
- 230000006870 function Effects 0.000 description 2
- 238000013528 artificial neural network Methods 0.000 description 1
- 230000005540 biological transmission Effects 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000009977 dual effect Effects 0.000 description 1
- 230000000694 effects Effects 0.000 description 1
- 230000004927 fusion Effects 0.000 description 1
- 238000004806 packaging method and process Methods 0.000 description 1
- 238000004801 process automation Methods 0.000 description 1
- 230000000306 recurrent effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/16—File or folder operations, e.g. details of user interfaces specifically adapted to file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/11—File system administration, e.g. details of archiving or snapshots
- G06F16/119—Details of migration of file systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/13—File access structures, e.g. distributed indices
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/10—File systems; File servers
- G06F16/17—Details of further file system functions
- G06F16/174—Redundancy elimination performed by the file system
- G06F16/1744—Redundancy elimination performed by the file system using compression, e.g. sparse files
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/148—Segmentation of character regions
- G06V30/153—Segmentation of character regions using recognition of characters or words
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Human Computer Interaction (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例公开了一种基于RPA及AI的文件存储方法、装置、设备和介质,该方法包括:S1、遍历设定文件夹中未进行分类的文件数据;S2、将所述文件数据进行分类;S3、将所述文件数据依据分类结果进行存储。本发明通过遍历设定文件夹中未进行分类的文件数据,将该文件数据进行分类,并按照分类结果进行存储,实现了采用自动化的方式对文件的扫描、分类和上传操作,解决了现有技术中由于工作人员人工操作费时费力的问题,提升了文件的管理效率。
Description
技术领域
本发明涉及文件管理技术领域,具体涉及一种基于RPA及AI的文件存储方法、装置、设备和介质。
背景技术
RPA(Robotic process automation,机器人流程自动化),即通过特定的“机器人软件”,模拟人在计算机上的操作,按规则自动执行流程任务。RPA的具有独特的优势:低代码、非侵入。低代码是说,RPA不需要很高的IT水平就能操作,不懂编程的业务人员也能开发流程;非侵入是说,RPA可以模拟人的操作,不用软件系统开放接口。但是传统的RPA具有一定的局限性:只能基于固定的规则,并且应用场景受限。随着AI(ArtificialIntelligence,人工智能)技术的不断发展,RPA与AI深度融合克服了传统RPA的局限,RPA及AI=Hand work+Head work,正在极大的改变劳动力的价值。
RPA在处理任务的过程中,可能会应用到自然语言处理(Natural LanguageProcessing,NLP)和光学字符识别(Optical Character Recognition,OCR)技术。其中,NLP是人工智能的一个子领域,可用于文本内容的理解和分类。OCR是指电子设备,例如扫描仪或数码相机,检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
目前,NLP和OCR技术的应用一般是针对电子文件。在公司或者行政机构运营过程中,一般都会涉及到大批量的纸质文件。而将纸质存档扫描成电子文件并进行归档,是办公过程中必不可少的环节。但是,实际情况是,由于纸质文件数量较多,人工对纸质文件进行整理顺序、扫描、分类和上传,然后将纸质文件装订归档这一工作流程相当繁琐,费时费力。
发明内容
本发明实施例公开一种基于RPA及AI的文件存储方法、装置、设备和介质,实现了文件的自动分类和归档,提升了文件的管理效率。
第一方面,本发明实施例公开了一种基于RPA及AI的文件存储方法,该方法包括:
S1、遍历设定文件夹中未进行分类的文件数据;
S2、将所述文件数据进行分类;
S3、将所述文件数据依据分类结果进行存储。
可选的,所述步骤S2具体包括:
S21、将所述文件数据依据文件内容进行分类。
可选的,所述步骤S21具体包括:
S211、根据所述文件数据的文件类型生成目录树;
S212、将所述目录树中的各文件数据依据文件内容进行分类。
可选的,所述步骤S212具体包括:
S2121、基于光学字符识别OCR方法,对所述目录树中各文件数据的文件内容进行识别;
S2122、将各文件数据依据识别结果进行分类。
可选的,所述步骤S2121具体包括:
分别调用本地和云端的OCR软件,识别所述目录树中各文件数据的文件内容,得到本地识别结果和云端识别结果;
从所述本地识别结果和所述云端识别结果中,选择置信度高的识别结果作为所述文件内容的识别结果。
可选的,所述步骤S2122具体包括:
提取所述文件内容中的文本关键词;
如果所述文本关键词与预设关键词相匹配,则将该预设关键词对应的预设类别作为所述文本内容的分类结果。
可选的,所述步骤S2122具体包括:
对所述文件内容进行分解,得到多个字段;
将所述多个字段输入预设分类模型,并将所述预设分类模型输出的类别作为所述文本内容的分类结果;
其中,所述预设分类模型采用已标注类别的文本作为训练样本,该预设分类模型建立了文本内容与其类别之间的对应关系。
可选的,所述步骤S3具体包括:
S31、检测第一文件存储空间的存储容量,如果所述存储容量小于预设阈值,则将所述分类结果转移到存储容量大于所述预设阈值的第二文件存储空间,并对所述转移路径进行记录;
S32、将所述文件数据按照其分类结果在所述第二文件存储空间中进行存储。
可选的,所述方法还包括:
S4、在将文件数据存入设定文件夹之前,判断磁盘存储空间的剩余存储容量是否大于所述文件数据的大小;
S5、如果所述剩余存储容量大于所述文件数据的大小,则将所述文件数据存入所述设定文件夹;
S6、如果所述剩余存储容量小于所述文件数据的大小,则向用户发送提示邮件。
可选的,如果所述文件数据为图片,则在将所述图片存入设定文件夹时,每张图片压缩后的大小不低于400KB。
第二方面,本发明实施例还提供了一种基于RPA及AI的文件存储装置,该装置包括:
文件遍历模块,被配置为遍历设定文件夹中未进行分类的文件数据;
文件分类模块,被配置为将所述文件数据进行分类;
文件存储模块,被配置为将所述文件数据依据分类结果进行存储。
可选的,所述文件分类模块,具体包括:
文件分类子模块,被配置为将所述文件数据依据文件内容进行分类。
可选的,所述文件分类子模块,具体包括:
目录树生成单元,被配置为根据所述文件数据的文件类型生成目录树;
文件分类单元,被配置为将所述目录树中的各文件数据依据文件内容进行分类。
可选的,所述目录树生成单元,具体包括:
OCR识别子单元,被配置为基于光学字符识别OCR方法,对所述目录树中各文件数据的文件内容进行识别;
文件分类子单元,被配置为将各文件数据依据识别结果进行分类。
可选的,所述OCR识别子单元,具体被配置为:
分别调用本地和云端的OCR软件,识别所述目录树中各文件数据的文件内容,得到本地识别结果和云端识别结果;
从所述本地识别结果和所述云端识别结果中,选择置信度高的识别结果作为所述文件内容的识别结果。
可选的,所述文件分类子单元,具体被配置为:
提取所述文件内容中的文本关键词;
如果所述文本关键词与预设关键词相匹配,则将该预设关键词对应的预设类别作为所述文本内容的分类结果。
可选的,所述文件分类子单元,具体被配置为:
对所述文件内容进行分解,得到多个字段;
将所述多个字段输入预设分类模型,并将所述预设分类模型输出的类别作为所述文本内容的分类结果;
其中,所述预设分类模型采用已标注类别的文本作为训练样本,该预设分类模型建立了文本内容与其类别之间的对应关系。
可选的,所述文件存储模块,具体包括:
路径转移子模块,被配置为检测第一文件存储空间的存储容量,如果所述存储容量小于预设阈值,则将所述分类结果转移到存储容量大于所述预设阈值的第二文件存储空间,并对所述转移路径进行记录;
存储子模块,被配置为将所述文件数据按照其分类结果在所述第二文件存储空间中进行存储。
可选的,所述装置还包括:
存储容量判断模块,被配置为在将文件数据存入设定文件夹之前,判断磁盘存储空间的剩余存储容量是否大于所述文件数据的大小;
文件数据存储模块,被配置为如果所述剩余存储容量大于所述文件数据的大小,则将所述文件数据存入所述设定文件夹;
邮件发送模块,被配置为如果所述剩余存储容量小于所述文件数据的大小,则向用户发送提示邮件。
可选的,如果所述文件数据为图片,则在将所述图片存入设定文件夹时,每张图片压缩后的大小不低于400KB。
第三方面,本发明实施例还提供了一种计算设备,包括:
存储有可执行程序代码的存储器;
与所述存储器耦合的处理器;
所述处理器调用所述存储器中存储的所述可执行程序代码,执行本发明任意实施例所提供的基于RPA及AI的文件存储方法的部分或全部步骤。
第四方面,本发明实施例还提供了一种计算机可读存储介质,其存储计算机程序,所述计算机程序包括用于执行本发明任意实施例所提供的基于RPA及AI的文件存储方法的部分或全部步骤的指令。
本发明实施例提供的技术方案,可以基于RPA及AI技术,代替人工对数字版的文件资料进行分类管理,利用自动化的方式实现文件的扫描、分类和上传操作,节省了工作人员的工作时间,提升了文件管理效率。
与现有技术相比,本发明的发明点包括:
1、通过遍历设定文件夹中未进行分类的文件数据,将该文件数据进行分类,并按照分类结果进行存储,实现了采用自动化的方式对文件的扫描、分类和上传操作,解决了现有技术中由于工作人员人工操作费时费力的问题,提升了文件的管理效率,是本发明的发明点之一。
2、在将扫描完成的文件数据存入设定文件夹之前,先判断磁盘存储空间的容量。如果判断出磁盘存储空间的剩余容量小于要存储的扫描件的大小时,则停止存储流程,并发邮件提示用户,等待用户处理,解决了现有技术在进行文件存储时,由于文件数据的大小超出磁盘内存容量而报错的问题,是本发明的发明点之一。
3、在将扫描完成的扫描件存入设定文件夹时,将属于同一文件的几页内容扫描成为一个PDF,或者也可采用相同的命名方式进行存储,以便在后续文件识别过程中将其作为同一文件进行分类和存储,有助于提升文件管理效率,是本发明的发明点之一。
4、如果扫描件为图片,则在将扫描件存入设定文件夹时,对每张图片进行压缩处理,从而节省存储空间,并利于文件的有效快速传输,是本发明的发明点之一。
5、在依据文件内容进行分类前,先根据文件类型进行分类,生成目录树,实现了文件数据的分级管理,便于文件数据的分类存储,是本发明的发明点之一。
6、分别调用本地和云端的OCR软件对文件数据进行识别,得到本地识别结果和云端识别结果;从本地识别结果和云端识别结果中,选择置信度高的识别结果作为文件内容的识别结果,本发明实施例采用这种交叉识别的方式,提升了文件内容的识别率,可得到更加精确的识别结果,是本发明的发明点之一。
7、在一台物理主机上对文件数据进行OCR识别和NLP处理,即将OCR和NLP封装到一台物理主机,提升了文件数据处理过程中的安全性,是本发明的发明点之一。
8、在将文本内容分解为多个字段后,采用基于RNN和CNN训练后得到的预设分类模型对多个字段进行识别,得到文本内容的分类结果,提高了文本分类的准确度,是本发明的发明点之一。
9、在将文件数据依据分类结果进行存储时,RPA会自动检查文件存储空间的大小,如果检测到第一文件存储空间的存储容量小于预设阈值,则停止存储流程,并发邮件提示用户,等待用户处理。用户可根据邮件提示将文件数据及其分类结果存储到另一文件夹,避免了由于存储空间容量过小而造成的文件存储失败的问题,是本发明的发明点之一。
10、在将文件数据依据分类结果进行存储时,RPA会自动检查文件存储空间的大小,如果检测到第一文件存储空间的存储容量小于预设阈值,则将分类结果转移到存储容量大于预设阈值的第二文件存储空间,并对转移路径进行记录,避免了人为进行文件转移时费时费力的问题,提升了文件管理效率,是本发明的发明点之一。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明实施例提供的一种基于RPA及AI的文件存储方法的流程示意图;
图2是本发明实施例提供的一种文件分类存储示意图;
图3是本发明实施例提供的一种基于RPA及AI的文件存储装置的结构示意图;
图4是本发明实施例提供的一种计算设备的结构示意图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
需要说明的是,本发明实施例及附图中的术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
本发明的描述中,“设定文件夹”配置于文件服务器中,用于存储经过扫描处理后存入的扫描件。其中,扫描件可以为PDF文件和图片等。其中,文件服务器是指在计算机网络环境中,所有用户都可访问的文件存储设备。
本发明的描述中,术语“目录树”可作为总纲性质的一种分级方式,用于分级管理文件,便于用户浏览和操作。
本发明的描述中,术语“云端”指云端服务器,该云端服务器配置有基于海量数据的OCR识别功能。
本发明的描述中,术语CNN(Convolutional Neural Networks,卷积神经网络)模型,可通过标注有文件类型的训练样本集进行训练后得到,从而建立文件类型与文件数据之间的关联关系。该模型在应用过程中,可将文件数据作为输入,输出的结果即为文件数据的类型。
本发明的描述中,术语RNN(Recurrent Neural Network,循环神经网络)模型可采用已标注类别的文本作为样本进行训练,该预设分类模型建立了文本内容与其类别之间的对应关系。在该模型的应用过程中,可将文本内容作为输入,输出的结果即为文本类别。
下面将结合附图,对本发明实施例提供的内容进行详细介绍。
实施例一
请参阅图1,图1是本发明实施例提供的一种基于RPA及AI的文件存储方法的流程示意图。该方法可应用于法院文书、项目文件的分类、归档等应用场景下,可由文件分类存储装置来执行,该装置可通过软件和/或硬件的方式实现。如图1所示,本实施例提供的方法具体包括:
110、遍历设定文件夹中未进行分类的文件数据。
本实施例中,设定文件夹配置于文件服务器中,用于存储经过扫描后存入的扫描件。其中,扫描件可以为PDF文件和图片等。该扫描件可通过手工拍照的方式得到。为了节省工作量,可优选采用机器自动扫描的方式进行扫描。
在将扫描完成的扫描件存入设定文件夹之前,可先判断磁盘存储空间的剩余存储容量是否大于扫描件的大小,如果大于扫描件的大小,则可将该扫描件存入设定文件夹。如果判断出磁盘存储空间的剩余容量小于要存储的扫描件的大小,则停止存储流程,并发邮件提示用户,等待用户处理,这样设置,解决了现有技术在进行文件存储时,由于文件数据的大小超出磁盘内存容量而报错的问题。
示例性的,在将扫描完成的扫描件存入设定文件夹时,可将属于同一文件的几页内容扫描成为一个PDF,或者也可采用相同的命名方式进行存储,以便在后续文件识别过程中将其作为同一文件进行分类和存储,有助于提升文件管理效率。
需要说明的是,为了节省存储空间,并利于文件的有效快速上传,如果扫描件为图片,则在将扫描件存入设定文件夹时,可对每张图片进行压缩处理,压缩后图片的大小不小于400KB。
本实施例中,可为已经过分类的文件数据和未经过分类的文件数据,添加不同的识别标识。如果根据文件数据的识别标识,确定出设定文件夹中存在未进行分类的文件数据,则将其作为待分类文件数据。
示例性的,可设置定时器,对设定文件夹进行定时扫描,以对其中未进行分类的文件数据进行分类和存储。在扫描过程中,可依据文件存储的时间顺序进行依次扫描。
120、将文件数据进行分类。
示例性的,对文件数据进行分类过程具体可以为:将文件数据依据文件内容进行分类。
示例性的,在文件分类过程中,为了便于进行文件管理,在将文件数据依据文件内容进行分类之前,可先将文件数据按照文件类型进行分类。其中,在按照文件类型对文件进行分类时,可根据其类型的不同生成目录树,即对文件数据进行一级分类,实现文件数据的分级管理。
可选的,可基于NLP的CNN模型确定文件数据的文件类型。其中,该CNN模型可预先利用大量已标注有文件类型,例如合同、发票等类型的文件样本进行训练。在训练完成后,该模型即建立了文件与其类型之间的对应关系。在模型的应用过程中,可将该待分类文件输入到CNN模型,该模型的输出即为待分类文件的类型。
示例性的,在对文件数据进行层级分类的过程中,可为每一类别添加不同的编码。请参阅图2,图2是本发明实施例提供的一种文件分类存储示意图,如图2所示,当从“扫描文件”这一文件夹中遍历出未进行分类的文件数据时,需对该文件数据进行分类。首先,可按照文件类型对文件数据进行分级管理,生成目录树,并为目录树中的各类文件数据添加对应的编码,以供后续识别。如图2所示,将文件数据按照文件类型分为“合同”、“发票”、“身份信息”、“公司员工名单”和“其他”这五类,“合同”对应的编码是“1001”,“发票”对应的编码是“1002”,“身份信息”对应的编码是“1003”、“公司员工名单”对应的编码是“1004”,以及“其他”对应的编码是“1005”。
在生成目录树后,可按照文件内容对目录树中的各文件进行分类,即在一级分类的基础上,进行二级分类,并将二级分类结果作为文件数据的分类结果,这样设置实现了文件数据的层级分类。其中,由于设定文件夹中的文件数据一般为PDF文档或图片,因此,在按照文件内容进行分类时,需先对文件内容进行识别。
示例性的,可利用OCR方法,识别目录树中的各文件数据。为了提高文件安全性,可将OCR和NLP封到一台物理主机。
可选的,对于行业内的专业文件,可采用本地OCR软件对其进行识别。而对于非该行业内的普通文件,可基于云端的海量数据,通过调用云端的OCR软件对其进行识别。
优选的,为了得到更加精确的识别结果,本实施例采用了交叉识别、双引擎的方式,具体可通过如下方式来实现:分别调用本地和云端的OCR软件,识别目录树中各文件数据的文件内容,得到本地识别结果和云端识别结果;从本地识别结果和云端识别结果中,选择置信度高的识别结果作为文件内容的识别结果。这样设置,提高了OCR识别结果的准确性。
在完成文件内容的识别后,可根据识别结果对文件数据进行分类,得到分类结果。
作为一种可选的实施方式,可提取文件内容中的文本关键词;如果文本关键词与预设关键词相匹配,则将该预设关键词对应的预设类别作为文本内容的分类结果。
例如,对于属于“发票”一类的各文件数据,如果从某一合同中提取出与“餐饮”这一预设关键词相匹配的“餐馆”、“酒店”等关键词,则将该预设关键词“餐饮”对应的预设类别“餐饮类”作为这一合同的分类结果,即该合同属于餐饮类的合同。再比如,如果从某一发票中提取出与“建筑”这一预设关键词相匹配的“施工”、“工地”等关键词,则将该预设关键词“建筑”对应的预设类别“建筑类”作为这一发票的分类结果,即该发票属于建筑类的发票。
作为另一种可选的实施方式,可对文件内容进行分解,得到多个字段;将多个字段输入预设分类模型,并将预设分类模型输出的类别作为文本内容的分类结果;
其中,所述预设分类模型采用已标注类别,例如建筑类、餐饮类或教育类等的文本作为样本进行训练,该预设分类模型建立了文本内容与其类别之间的对应关系。在该模型的应用过程中,在将文本字段输入到模型后,模型的输出即为该字段对应的类别。具体的,该预设分类模型可以为基于RNN和CNN训练后得到的分类模型。
具体的,如果对文本内容分解后,如果得到“老师”、“学生”和“课堂”等字段,在将这些字段输入到预设分类模型后,模型的输出结果即为“教育类”对应的标签。
可选的,对于文本内容的分类结果,也可为其设置对应的编码,例如“餐饮类”为“01”,“建筑类”为“02”,以及“教育类”为“03”等。例如,如图2所示,在将目录树中各文件数据按照文件内容进行分类后,属于合同(1001)的文件数据分别被划分为餐饮类(01)合同、建筑类(02)合同和教育类(03)合同,实现了合同数据的自动且有效地分类。
进一步的,对于每种类型的合同数据,例如教育类合同,可依据其文件数据的内容继续进行分类,例如将其分类为“学费”类、“活动”类和“兴趣班”类等,本实施例对文件数据的分类等级不作具体限定,具体分类方法可参照上述“将文件数据依据文件内容进行分类”的相关内容,此处不再赘述。
本实施例通过采用上述自动化的方式实现了文件数据的有效分类,节省了工作人员人工进行人工分类的时间,提升了文件的管理效率。
130、将文件数据依据分类结果进行存储。
本实施例中,RPA对待处理文件的分类处理过程是在应用服务器中进行的,即待处理文件的分类结果也是存储于应用服务器中。其中,应用服务器是指通过各种协议把商业逻辑曝露给客户端的程序。它提供了访问商业逻辑的途径以供客户端应用程序使用。为了将待处理文件与其分类结果对应存储,RPA可先从文件服务器中获取到待处理文件,然后将其作为其分类结果的附件存储到应用服务器中。
具体的,如图2所示,以合同这一分支为例,RPA可先从“扫描文件”这一文件夹中获取到分类结果为餐饮类(01)、建筑类(02)和教育类(03)对应的合同数据,并将其作为附件存入餐饮类(01)合同、建筑类(02)合同和教育类(03)合同对应的文件夹中。
示例性的,在将扫描完成的文件数据存入设定文件夹之前,先判断磁盘存储空间的容量。如果判断出磁盘存储空间的剩余容量小于要存储的扫描件的大小时,则停止存储流程,并发邮件提示用户,等待用户处理,用户可根据邮件提示将文件数据及其分类结果存储到另一文件夹,避免了由于存储空间容量过小而造成的文件存储失败的问题。
示例性的,RPA也可自动检测第一文件存储空间的存储容量,如果存储容量小于预设阈值,则将分类结果转移到存储容量大于预设阈值的第二文件存储空间,并对转移路径进行记录,并将文件数据按照其分类结果存储到第二文件存储空间。这样设置,避免了人为进行文件转移时费时费力的问题。
本发明实施例提供的技术方案,可以基于RPA及AI技术,代替人工对数字版的文件资料进行分类管理,利用自动化的方式实现文件的扫描、分类和上传操作,节省了工作人员的工作时间,提升了文件管理效率。
实施例二
请参阅图3,图3是本发明实施例提供的一种基于RPA及AI的文件存储装置的结构示意图。如图3所示,该装置包括:文件遍历模块310、文件分类模块320和文件存储模块330,其中,
文件遍历模块310,被配置为遍历设定文件夹中未进行分类的文件数据;
文件分类模块320,被配置为将所述文件数据进行分类;
文件存储模块330,被配置为将所述文件数据依据分类结果进行存储。
可选的,所述文件分类模块320,具体包括:
文件分类子模块,被配置为将所述文件数据依据文件内容进行分类。
可选的,所述文件分类子模块,具体包括:
目录树生成单元,被配置为根据所述文件数据的文件类型生成目录树;
文件分类单元,被配置为将所述目录树中的各文件数据依据文件内容进行分类。
可选的,所述目录树生成单元,具体包括:
OCR识别子单元,被配置为基于光学字符识别OCR方法,对所述目录树中各文件数据的文件内容进行识别;
文件分类子单元,被配置为将各文件数据依据识别结果进行分类。
可选的,所述OCR识别子单元,具体被配置为:
分别调用本地和云端的OCR软件,识别所述目录树中各文件数据的文件内容,得到本地识别结果和云端识别结果;
从所述本地识别结果和所述云端识别结果中,选择置信度高的识别结果作为所述文件内容的识别结果。
可选的,所述文件分类子单元,具体被配置为:
提取所述文件内容中的文本关键词;
如果所述文本关键词与预设关键词相匹配,则将该预设关键词对应的预设类别作为所述文本内容的分类结果。
可选的,所述文件分类子单元,具体被配置为:
对所述文件内容进行分解,得到多个字段;
将所述多个字段输入预设分类模型,并将所述预设分类模型输出的类别作为所述文本内容的分类结果;
其中,所述预设分类模型采用已标注类别的文本作为训练样本,该预设分类模型建立了文本内容与其类别之间的对应关系。
可选的,所述文件存储模块330,具体包括:
路径转移子模块,被配置为检测第一文件存储空间的存储容量,如果所述存储容量小于预设阈值,则将所述分类结果转移到存储容量大于所述预设阈值的第二文件存储空间,并对所述转移路径进行记录;
存储子模块,被配置为将所述文件数据按照其分类结果在所述第二文件存储空间中进行存储。
可选的,所述装置还包括:
存储容量判断模块,被配置为在将文件数据存入设定文件夹之前,判断磁盘存储空间的剩余存储容量是否大于所述文件数据的大小;
文件数据存储模块,被配置为如果所述剩余存储容量大于所述文件数据的大小,则将所述文件数据存入所述设定文件夹;
邮件发送模块,被配置为如果所述剩余存储容量小于所述文件数据的大小,则向用户发送提示邮件。
可选的,如果所述文件数据为图片,则在将所述图片存入设定文件夹时,每张图片压缩后的大小不低于400KB。
本发明实施例所提供的基于RPA及AI的文件存储装置可执行本发明任意实施例所提供的基于RPA及AI的文件存储方法,具备执行方法相应的功能模块和有益效果。未在上述实施例中详尽描述的技术细节,可参见本发明任意实施例所提供的基于RPA及AI的文件存储方法。
实施例三
请参阅图4,图4是本发明实施例提供的一种计算设备的结构示意图。如图4所示,该计算设备可以包括:
存储有可执行程序代码的存储器701;
与存储器701耦合的处理器702;
其中,处理器702调用存储器701中存储的可执行程序代码,执行本发明任意实施例所提供的基于RPA及AI的文件存储方法。
本发明实施例公开一种计算机可读存储介质,其存储计算机程序,其中,该计算机程序使得计算机执行本发明任意实施例所提供的基于RPA及AI的文件存储方法。
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
在本发明所提供的实施例中,应理解,“与A相应的B”表示B与A相关联,根据A可以确定B。但还应理解,根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。
另外,在本发明各实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元若以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可获取的存储器中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或者部分,可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储器中,包括若干请求用以使得一台计算机设备(可以为个人计算机、服务器或者网络设备等,具体可以是计算机设备中的处理器)执行本发明的各个实施例上述方法的部分或全部步骤。
本领域普通技术人员可以理解上述实施例的各种方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成,该程序可以存储于一计算机可读存储介质中,存储介质包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-only Memory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子抹除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(CompactDisc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。
以上对本发明实施例公开的一种基于RPA及AI的文件存储方法、装置、设备和介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。
Claims (13)
1.一种基于RPA及AI的文件存储方法,其特征在于,包括:
S1、遍历设定文件夹中未进行分类的文件数据;
S2、将所述文件数据进行分类;
S3、将所述文件数据依据分类结果进行存储。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2具体包括:
S21、将所述文件数据依据文件内容进行分类。
3.根据权利要求2所述的方法,其特征在于,所述步骤S21具体包括:
S211、根据所述文件数据的文件类型生成目录树;
S212、将所述目录树中的各文件数据依据文件内容进行分类。
4.根据权利要求3所述的方法,其特征在于,所述步骤S212具体包括:
S2121、基于光学字符识别OCR方法,对所述目录树中各文件数据的文件内容进行识别;
S2122、将各文件数据依据识别结果进行分类。
5.根据权利要求4所述的方法,其特征在于,所述步骤S2121具体包括:
分别调用本地和云端的OCR软件,识别所述目录树中各文件数据的文件内容,得到本地识别结果和云端识别结果;
从所述本地识别结果和所述云端识别结果中,选择置信度高的识别结果作为所述文件内容的识别结果。
6.根据权利要求4所述的方法,其特征在于,所述步骤S2122具体包括:
提取所述文件内容中的文本关键词;
如果所述文本关键词与预设关键词相匹配,则将该预设关键词对应的预设类别作为所述文件内容的分类结果。
7.根据权利要求4所述的方法,其特征在于,所述步骤S2122具体包括:
对所述文件内容进行分解,得到多个字段;
将所述多个字段输入预设分类模型,并将所述预设分类模型输出的类别作为所述文件内容的分类结果;
其中,所述预设分类模型采用已标注类别的文本作为训练样本,该预设分类模型建立了文本内容与其类别之间的对应关系。
8.根据权利要求1所述的方法,其特征在于,所述步骤S3具体包括:
S31、检测第一文件存储空间的存储容量,如果所述存储容量小于预设阈值,则将所述分类结果转移到存储容量大于所述预设阈值的第二文件存储空间,并对所述转移路径进行记录;
S32、将所述文件数据按照其分类结果在所述第二文件存储空间中进行存储。
9.根据权利要求1所述的方法,其特征在于,所述方法还包括:
S4、在将文件数据存入设定文件夹之前,判断磁盘存储空间的剩余存储容量是否大于所述文件数据的大小;
S5、如果所述剩余存储容量大于所述文件数据的大小,则将所述文件数据存入所述设定文件夹;
S6、如果所述剩余存储容量小于所述文件数据的大小,则向用户发送提示邮件。
10.根据权利要求1所述的方法,其特征在于:
如果所述文件数据为图片,则在将所述图片存入设定文件夹时,每张图片压缩后的大小不低于400KB。
11.一种基于RPA及AI的文件存储装置,其特征在于,包括:
文件遍历模块,被配置为遍历设定文件夹中未进行分类的文件数据;
文件分类模块,被配置为将所述文件数据进行分类;
文件存储模块,被配置为将所述文件数据依据分类结果进行存储。
12.一种计算设备,其特征在于,所述设备包括:
存储有可执行程序代码的存储器;
与存储器耦合的处理器;
其中,处理器调用存储器中存储的可执行程序代码,执行如权利要求1-10任一所述的基于RPA及AI的文件存储方法。
13.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-10任一所述的基于RPA及AI的文件存储方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010612419.8A CN111752900A (zh) | 2020-06-30 | 2020-06-30 | 基于rpa及ai的文件存储方法、装置、设备和介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202010612419.8A CN111752900A (zh) | 2020-06-30 | 2020-06-30 | 基于rpa及ai的文件存储方法、装置、设备和介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN111752900A true CN111752900A (zh) | 2020-10-09 |
Family
ID=72678231
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010612419.8A Pending CN111752900A (zh) | 2020-06-30 | 2020-06-30 | 基于rpa及ai的文件存储方法、装置、设备和介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111752900A (zh) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380811A (zh) * | 2020-11-20 | 2021-02-19 | 广州欢网科技有限责任公司 | word文本素材分级目录生成方法、装置及设备 |
CN113157729A (zh) * | 2021-04-23 | 2021-07-23 | 中国工商银行股份有限公司 | 批量邮件自动处理方法和装置 |
CN113836091A (zh) * | 2021-09-01 | 2021-12-24 | 北京来也网络科技有限公司 | 结合rpa和ai的数据识别方法、装置、电子设备和存储介质 |
CN114024955A (zh) * | 2021-11-01 | 2022-02-08 | 北京来也网络科技有限公司 | 基于rpa及ai的文件处理方法、装置、设备及介质 |
WO2023045056A1 (zh) * | 2021-09-27 | 2023-03-30 | 北京来也网络科技有限公司 | 基于rpa和ai的文件比对方法、装置、设备、介质及系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080162511A1 (en) * | 2006-12-30 | 2008-07-03 | Theobald Dietmar C | Computer file system traversal |
CN106909694A (zh) * | 2017-03-13 | 2017-06-30 | 杭州普玄科技有限公司 | 分类标签数据获取方法以及装置 |
CN109726180A (zh) * | 2018-12-03 | 2019-05-07 | 北京春鸿科技有限公司 | 在无线存储物联网设备进行文件检索和监听的方法及装置 |
-
2020
- 2020-06-30 CN CN202010612419.8A patent/CN111752900A/zh active Pending
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20080162511A1 (en) * | 2006-12-30 | 2008-07-03 | Theobald Dietmar C | Computer file system traversal |
CN106909694A (zh) * | 2017-03-13 | 2017-06-30 | 杭州普玄科技有限公司 | 分类标签数据获取方法以及装置 |
CN109726180A (zh) * | 2018-12-03 | 2019-05-07 | 北京春鸿科技有限公司 | 在无线存储物联网设备进行文件检索和监听的方法及装置 |
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112380811A (zh) * | 2020-11-20 | 2021-02-19 | 广州欢网科技有限责任公司 | word文本素材分级目录生成方法、装置及设备 |
CN113157729A (zh) * | 2021-04-23 | 2021-07-23 | 中国工商银行股份有限公司 | 批量邮件自动处理方法和装置 |
CN113836091A (zh) * | 2021-09-01 | 2021-12-24 | 北京来也网络科技有限公司 | 结合rpa和ai的数据识别方法、装置、电子设备和存储介质 |
WO2023045056A1 (zh) * | 2021-09-27 | 2023-03-30 | 北京来也网络科技有限公司 | 基于rpa和ai的文件比对方法、装置、设备、介质及系统 |
CN114024955A (zh) * | 2021-11-01 | 2022-02-08 | 北京来也网络科技有限公司 | 基于rpa及ai的文件处理方法、装置、设备及介质 |
CN114024955B (zh) * | 2021-11-01 | 2024-03-12 | 北京来也网络科技有限公司 | 基于rpa及ai的文件处理方法、装置、设备及介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111752900A (zh) | 基于rpa及ai的文件存储方法、装置、设备和介质 | |
CN112149399B (zh) | 基于rpa及ai的表格信息抽取方法、装置、设备及介质 | |
CN112487149B (zh) | 一种文本审核方法、模型、设备及存储介质 | |
CN107733782A (zh) | 根据任务生成群的方法、装置及系统 | |
US20070011212A1 (en) | Document management system for automating operations performed on documents in data storage areas | |
CN111666259A (zh) | 文档管理方法、管理系统、可读存储介质及电子装置 | |
CN108959349A (zh) | 一种财务审计询证系统 | |
TW201539210A (zh) | 個人資訊管理服務系統 | |
CN112182248A (zh) | 一种电价的关键政策的统计方法 | |
CN113742496B (zh) | 一种基于异构资源融合的电力知识学习系统及方法 | |
CN111753517A (zh) | 基于rpa及ai的文档对比方法、装置、设备及介质 | |
CN110851630A (zh) | 一种深度学习标注样本的管理系统及方法 | |
CN112883202A (zh) | 一种基于知识图谱的多组件建模方法和系统 | |
CN113239698A (zh) | 基于rpa及ai的信息提取方法、装置、设备及介质 | |
CN108055192A (zh) | 群组生成方法、装置及系统 | |
CN114238735B (zh) | 一种互联网数据智能采集方法 | |
CN114528851B (zh) | 回复语句确定方法、装置、电子设备和存储介质 | |
CN115496830A (zh) | 产品需求流程图的生成方法及装置 | |
JP6958884B1 (ja) | プログラムコード自動生成システム | |
TWI793432B (zh) | 工程專案文件管理方法與系統 | |
CN1452098A (zh) | 文档分类系统及其实现程序 | |
JP7180341B2 (ja) | ワークフロー生成システム、ワークフロー生成プログラム、ワークフロー生成方法 | |
CN113420622A (zh) | 基于机器深度学习的智能扫描识别归档系统 | |
JP2001325104A (ja) | 言語事例推論方法、言語事例推論装置及び言語事例推論プログラムが記録された記録媒体 | |
CN113434760B (zh) | 工法推荐方法、装置、设备及存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |