CN113139071B

CN113139071B - 运用机器学习进行文件分类的文件处理系统及方法

Info

Publication number: CN113139071B
Application number: CN202110087670.1A
Authority: CN
Inventors: 廖俊杰
Original assignee: Avision Inc
Current assignee: Avision Inc
Priority date: 2020-01-30
Filing date: 2021-01-22
Publication date: 2023-10-24
Anticipated expiration: 2041-01-22
Also published as: CN113139071A; US11663526B2; TW202129513A; US20210240974A1; TWI750572B

Abstract

本发明涉及一种运用机器学习进行文件分类的文件处理系统及方法，其包括输入模块、处理模块、一个以上的储存模块，且在首次建模程序时储存模块默认分类文件夹，并且分类文件夹对应代码，当首次建模程序完成后，输入模块可接收一个以上的文件影像，处理模块根据一组机器学习模型信息与文件影像进行计算，以产生计算结果，处理模块根据计算结果将文件影像储存在分类文件夹；通过对文件影像进行实时判断，并根据所对应的分类文件夹的代码自动化完成文件影像的分类，以提升分类文件的准确性及效率性。

Description

运用机器学习进行文件分类的文件处理系统及方法

技术领域

本发明涉及文件处理系统及方法，特别涉及一种运用机器学习进行文件分类的文件处理系统及方法。

背景技术

随着科技的日新月异，许多协助人们方便办公的电子设备如雨后春笋般的蓬勃发展，如复印机、扫描机或者多功能事务机，通过将纸本文件放入复印机、扫描机或者多功能事务机的纸张馈入组件或者纸张放置组件上，通过复印机、扫描机或者多功能事务机的扫描组件将纸本文件扫描成电子文件影像储存，以提升文件保管的便利性，所以例如机关单位、医院诊所、便利商店、卖场、银行等场所都会设置有复印机、扫描机或者多功能事务机，用以协助文件处理。

当民众前往机关单位、银行等场所办公时，会需要填写许多不同格式、不同业务的纸本申请文件，并且提交给承办人员，承办人员通过复印机、扫描机或者多功能事务机将这些纸本申请文件扫描成电子文件影像后，再通过人工的方式持条形码扫描仪扫描纸本申请文件上的条形码(Barcode、Patch code)、或者人工确认特定文字、表格方式，以分类归档电子文件影像并完成业务承办。然而，当该条形码扫描仪故障、条形码污损无法被读取时都会导致承办人员作业时间拉长而没有效率，造成民众因为等待时间过久而心生不耐，进而投诉承办人员；又或者当承办人员依据特定文字、表格分类归档电子文件影像的过程中，受民众或其他承办人员咨询等外在环境影响时，可能会因为分心而分类归档错误或没有分类，造成民众权益受损。

此外，当民众前往医院诊所看诊时，需要填写病人数据，再由柜台人员通过复印机、扫描机或者多功能事务机将病人数据扫描成电子文件影像后进行分类归档，然而当该条形码扫描仪故障、条形码污损无法被读取时都会导致作业时间拉长，导致病患等待时间过长而无法实时就医，可能造成危险发生，又或者柜台人员依据特定文字、表格分类归档电子文件影像的过程中，受病患或护士咨询等外在环境影响时，可能会因为分心而分类归档错误或没有分类，造成病人数据异常，也可能发生后续医疗纠纷。

传统上通过复印机、扫描机或者多功能事务机扫描纸本文件后取得的电子文件影像确实可以协助文件处理，然而在后续电子文件影像分类归档上，因为无法顺利读取文件上的条形码而容易造成作业时间拉长，导致作业缓慢，又或者容易受到外在环境影响造成电子文件影像分类归档上的错误或没有分类，导致分类归档上的不准确，因此，现有技术在分类归档电子文件影像通过人工的方式存在费时、没有效率、容易错误的不足。

发明内容

鉴于上述现有技术的不足，本发明的主要目的是提供一种运用机器学习进行文件分类的文件处理系统及方法，通过预先设定好分类文件夹的代码，利用机器学习对文件影像进行计算，并且根据分类文件夹的代码对计算后的结果进行分类、储存，通过自动化的分类方式提升分类准确性及效率。

为了达成上述目的所采取的主要技术手段，是使前述运用机器学习进行文件分类的文件处理方法，其在文件处理系统上执行，文件处理系统默认一个以上的分类文件夹，并且分类文件夹对应有代码，且方法包括以下步骤：

接收一个以上的文件影像；

根据一组已完成首次建模程序而产生的机器学习模型信息与文件影像进行计算，以产生计算结果；

根据计算结果与一个以上分类文件夹的代码，将文件影像储存于对应的分类文件夹。

根据上述方法可知，通过将文件影像与机器学习模型信息进行计算，以得到计算结果，并且将计算结果与一个以上分类文件夹的代码进行处理后，将文件影像储存在对应的分类文件夹中，以此不仅简化分类流程，并且通过自动化的分类方式有效提升分类文件的效率性以及准确性。

为了达成上述目的所采取的另一个主要技术手段，是使前述运用机器学习进行文件分类的文件处理系统，其包括：

输入模块，取得一个以上的文件影像；

一个以上的储存模块，储存模块默认分类文件夹，并且分类文件夹对应有代码；

处理模块，分别连接输入模块及储存模块；

其中，处理模块接收文件影像，并且与一组已完成首次建模程序而产生的机器学习模型信息进行计算，以产生计算结果，处理模块根据计算结果与分类文件夹的代码进行比对，以将文件影像储存在分类文件夹。

根据上述系统可知，由输入模块取得文件影像后，处理模块将文件影像与已完成首次建模程序而产生的机器学习模型信息进行计算，以产生计算结果，处理模块再将计算结果与分类文件夹的代码进行比对，以确认文件影像是否储存在分类文件夹中，并且处理模块将文件影像储存在储存模块的分类文件夹中，以此不仅简化分类流程，通过自动化的分类方式还可有效提升分类文件夹的效率性以及准确性。

如上，本发明所提供的一种运用机器学习进行文件分类的文件处理系统及方法。

为让本发明的上述内容能更明显易懂，下文特举优选实施例，并结合附图，作详细说明如下。

附图说明

下面将结合附图对本发明的具体实施方式作进一步详细说明。

图1是本发明较佳实施例的系统架构方块图；

图2是本发明较佳实施例的另一种系统架构图；

图3是本发明较佳实施例的第一方法流程图；

图4是本发明较佳实施例的第二方法流程图；

图5是本发明较佳实施例的第三方法流程图；

图6是本发明较佳实施例的第四方法流程图；

图7是本发明较佳实施例的第五方法流程图；

图8是本发明较佳实施例的第六方法流程图。

附图标号说明：

11：输入模块；

12：处理模块；

13：储存模块；

131：分类文件夹；

132：代码；

14：扩充储存模块；

141：扩充分类文件夹；

142：代码。

具体实施方式

以下由特定的具体实施例说明本发明的实施方式，本领域技术人员可由本说明书所揭示的内容轻易地了解本发明的其他优点及功效。虽然本发明的描述将结合优选实施例一起介绍，但这并不代表此发明的特征仅限于该实施方式。恰恰相反，结合实施方式作发明介绍的目的是为了覆盖基于本发明的权利要求而有可能延伸出的其它选择或改造。为了提供对本发明的深度了解，以下描述中将包含许多具体的细节。本发明也可以不使用这些细节实施。此外，为了避免混乱或模糊本发明的重点，有些具体细节将在描述中被省略。

关于本发明运用机器学习进行文件分类的文件处理系统的较佳实施例，请参考图1所示，其包括输入模块11、处理模块12以及一个以上的储存模块13；处理模块12分别与输入模块11及储存模块13进行电连接；在本实施例中，本发明运用机器学习进行文件分类的文件处理系统包括：具有扫描文件功能的复印机、扫描机或者多功能事务机(MultiFunction Product/Printer/Peripheral,MFP)。在本实施例中，进一步可以包括两个或多个的储存模块13，以供分别储存不同的数据。

在本实施例中，输入模块11是根据用户所要扫描的一个以上的纸本文件，对应取得一个以上的文件影像，并且由处理模块12进行处理后，储存到储存模块13内，具体而言，储存模块13默认有分类文件夹131，并且分类文件夹131对应有代码132，通过分类文件夹131的代码132与文件影像进行比对，以确认文件影像是否储存在分类文件夹131中。进一步地，当包括两个或多个的储存模块13时，可在每一个储存模块13中分别设有一个以上分类文件夹131，并且每个分类文件夹131对应有一个代码132，因此，通过将文件影像与这些分类文件夹131的代码132比对，以确认文件影像所要储存的分类文件夹131为哪一个。在本较佳实施例中，这些分类文件夹131对应有代码132的具体应用方式，是可以在这些储存模块13分别默认这些分类文件夹131时，分别自动化的标示对应的代码132，无须人为或是先标记，以简化判断分类；另外，也可以基于特殊的识别需求，在这些储存模块13分别默认这些分类文件夹131时，对这些分类文件夹131分别设置对应的代码132，前述的应用方式在此仅为举例，而不是加以限制。

在使用上，由使用者将一个以上的纸张文件放入具有扫描文件功能的复印机、扫描机或者多功能事务机后，由输入模块11对应取得一个以上的文件影像，并且输出至处理模块12，处理模块12根据一组已完成首次建模程序而产生的机器学习模型信息与接收到的文件影像进行计算，以产生计算结果，处理模块12根据计算结果与分类文件夹131的代码132进行比对，以将文件影像储存在分类文件夹131。

具体而言，对应文件影像的计算结果包括代码，处理模块12根据计算结果的代码比对分类文件夹131的代码132，以判断是否比对到相同代码，若是，则将文件影像储存至分类文件夹131。

此外，当使用者通过本发明运用机器学习进行文件分类的文件处理系统对文件影像进行分类的过程中，若处理模块12根据计算结果判断无法比对出当下欲分类的文件影像是否应该储存在分类文件夹131时，处理模块12进一步执行辅助判断程序，以经过辅助判断流程来辅助判断当下欲分类的文件影像是否应该储存在分类文件夹131，其中，辅助判断流程是为处理模块12根据所接收到的文件影像取得对应文件影像的一个以上的影像特征信息，并且根据影像特征信息进行处理以产生辅助判断结果，并且根据辅助判断结果与分类文件夹131的代码132进行比对，以确认文件影像是否储存在分类文件夹131中，具体而言，辅助判断结果包括代码，处理模块12是将辅助判断结果的代码与分类文件夹131的代码132进行比对，以确认是否将文件影像储存在分类文件夹131中，通过辅助判断程序，以提升分类文件影像的准确性以及适用性。在本实施例中，影像特征信息包括光学字符识别信息(Optical Character Recognition,OCR)、文件影像尺寸信息、文件影像色彩信息等。

对于上述内容提到，处理模块12用来与文件影像进行计算的机器学习模型信息是通过首次建模程序而产生，对于首次建模程序的具体流程是由处理模块12先设定分类文件夹131后，并且分类文件夹131有对应的代码132，其中对应的代码132可由处理模块12自动预先设定，或后续自动设定或者人为设定，输入模块11接收用来进行机器学习的多个文件影像，处理模块12通过机器学习程序对这些文件影像进行处理，以产生这组机器学习模型信息，其中，这组机器学习模型信息包括多组系数，并且多组系数中的一个系数与分类文件夹131的代码132相对应，当处理模块12完成这组机器学习模型信息的产生后，则完成首次建模程序；通过首次建模程序以建立用以自动化的分类文件影像所需的机器学习模型信息，并且以此提升分类文件影像的效率及准确性。

进一步地，在另一个实施例中，请参考图2所示，当使用者有不同类型的文件影像需要加入分类时，本发明运用机器学习进行文件分类的文件处理系统进一步包括一个以上的扩充储存模块14，扩充储存模块14内默认扩充分类文件夹141，处理模块12进一步执行扩充建模程序，以经过扩充建模流程提供扩充分类不同类型的文件影像的功能，其中扩充建模流程由处理模块12设定对应的扩充分类文件夹141，且扩充分类文件夹141对应有代码142，处理模块12接收用来进行机器学习的多个文件影像，并且通过机器学习程序对多个文件影像进行处理，以产生一组新的机器学习模型信息，这组新的机器学习模型信息包括多组新的系数，并且这些新的系数与分类文件夹131的代码132以及扩充分类文件夹141的代码142相对应，当处理模块12完成这组新的机器学习模型信息的产生后，则完成扩充建模程序，通过这组新的机器学习模型信息与不同类型的文件影像以及已可分类的文件影像进行计算，以分类不同类型的文件影像以及已可分类的文件影像，并且储存在对应的分类文件夹131或者对应的扩充分类文件夹141，以此提升本发明运用机器学习进行文件分类的文件处理系统的扩充性及使用弹性。

进一步地，为了能配合前述实施例的内容，以一种具体应用方式举例说明一种使用情境，并不是加以限制；例如，当使用者欲将手上两份不同类型的账单进行分类时，通过输入模块11取得两份不同类型的账单的文件影像后，处理模块12依序将取得的两个文件影像与机器学习模型信息进行计算，以依序取得对应的计算结果，处理模块12依序将两个计算结果分别与分类文件夹131的代码132比对，以此确认哪一份类型的账单的文件影像需要分类并储存在分类文件夹131中；进一步地，若其中一份账单的文件影像无法比对出对应的分类文件夹131的代码132时，则处理模块12进一步通过辅助判断程序进行辅助，以进一步地确认所对应储存的分类文件夹131。此外，若有其它不同类型的账单的文件影像需要加入分类时，则提供对应数量的扩充储存模块14，且每一个扩充储存模块14分别默认对应的扩充分类文件夹141，以及处理模块12完成扩充建模程序，以取得新的机器学习模型信息便于计算出用以比对应储存在那一个分类文件夹131或者那一个扩充分类文件夹141的计算结果。

因此，根据上述各实施例以及具体应用方式的内容可知，通过输入模块11将接收到的多个文件影像输出至处理模块12，处理模块12根据机器学习模型信息与接收到的文件影像进行计算，以产生计算结果，处理模块12再将计算结果与分类文件夹131的代码132进行比对，以确认文件影像是否应分类并储存在分类文件夹131中，处理模块12再将文件影像储存在对应的分类文件夹131，以此不仅简化分类流程，通过自动化的分类方式还可有效提升分类文件的效率性以及准确性。

此外，通过辅助判断流程可对当下无法判断的文件影像，提供更进一步地辅助判断，以此提升本发明分类文件影像的准确性以及适用性。

另外，通过扩充建模流程，可进一步地扩充分类不同类型的文件影像的功能，以此提升本发明的使用扩充性及使用弹性。

根据上述各实施例内容以及具体应用方式，本发明进一步归纳出运用机器学习进行文件分类的文件处理方法，请参考图3所示，是在本发明运用机器学习进行文件分类的文件处理系统上执行，文件处理系统默认一个以上的分类文件夹131，并且分类文件夹131对应有代码132，且方法包括以下步骤：

接收一个以上的文件影像(S20)；

根据一组已完成首次建模程序而产生的机器学习模型信息与文件影像进行计算，以产生计算结果(S30)；

根据计算结果与分类文件夹131的代码132，将文件影像储存于对应的分类文件夹131(S40)。

其中，请参考图4所示，当上述步骤执行至「根据计算结果与分类文件夹131的代码132，将文件影像储存于对应的分类文件夹131(S40)」步骤，方法还包括以下步骤：

根据计算结果与分类文件夹131的代码132进行比对，以将文件影像储存于对应的分类文件夹131(S41)。

请参考图5所示，当上述步骤执行至「根据计算结果与分类文件夹131的代码132进行比对，以将文件影像储存于对应的分类文件夹131(S41)」的步骤，方法还包括以下步骤：

根据计算结果的代码判断是否比对到相同的分类文件夹131的代码132(S411)；

若是，将文件影像储存在对应的分类文件夹131(S412)。

请参考图5所示，当上述执行至「根据计算结果的代码判断是否比对到相同的分类文件夹131的代码132(S41)」步骤，若否，文件处理系统进一步提供辅助判断程序(S413)。

请参考图5、6所示，其中，辅助判断程序以下步骤：

取得文件影像的一个以上的影像特征信息(S4131)；

根据影像特征信息进行处理，以产生辅助判断结果(S4132)；

根据辅助判断结果的代码与一个以上分类文件夹131的代码132进行比对，以将文件影像储存于对应的分类文件夹131(S4133)；其中，影像特征信息包括光学字符识别信息(Optical Character Recognition,OCR)、文件影像尺寸信息、文件影像色彩信息等。

在本实施例中，请参考图7所示，其中，前述的首次建模程序还包括以下步骤：

设定分类文件夹131所对应的代码132(S51)；

接收多个文件影像(S52)；其中，所接收到的文件影像是用以进行机器学习；

执行机器学习程序对这些文件影像进行处理，以产生机器学习模型信息(S53)；其中，机器学习模型信息包括多组系数，多组系数中的一个与分类文件夹131的代码132对应。

在本实施例中，若要分类新的文件影像时，文件处理系统进一步包括一个以上的扩充分类文件夹141，方法进一步提供扩充建模程序，并且请参考图8所示，扩充建模程序还包括以下步骤：

设定扩充分类文件夹141的代码142(S61)；

接收多个文件影像(S62)；其中，所接收到的文件影像是用以进行机器学习；

通过机器学习程序对这些文件影像进行处理以产生一组新的机器学习模型信息(S63)；其中，这组新的机器学习模型信息包括多组新的系数，这些新的系数与分类文件夹131的代码132以及扩充分类文件夹141的代码142对应。

综上所述，本发明提供的上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

Claims

1.一种运用机器学习进行文件分类的文件处理方法，其特征在于，其在文件处理系统上执行，所述文件处理系统默认一个以上的分类文件夹，并且所述分类文件夹对应有代码，且所述方法包括以下步骤：

接收一个以上的文件影像；

根据一组已完成首次建模程序而产生的机器学习模型信息与所述文件影像进行计算，以产生计算结果；

根据所述计算结果与所述分类文件夹的代码，将所述文件影像储存于对应的分类文件夹；

当上述步骤执行至「根据所述计算结果与所述分类文件夹的代码，将所述文件影像储存于对应的分类文件夹」的步骤，所述方法还包括以下步骤：

根据所述计算结果与所述分类文件夹的代码进行比对，以将所述文件影像储存于对应的分类文件夹；

当上述步骤执行至「根据所述计算结果与所述分类文件夹的代码进行比对，以将所述文件影像储存于对应的分类文件夹」的步骤，所述方法还包括以下步骤：

根据所述计算结果的代码判断是否比对到相同的分类文件夹的代码；

若是，将所述文件影像储存在对应的分类文件夹；

当上述步骤执行至「根据所述计算结果的代码判断是否比对到相同的分类文件夹的代码」的步骤，若否，则所述方法进一步提供辅助判断程序；

所述辅助判断程序包括以下步骤：

取得所述文件影像的一个以上的影像特征信息；

根据所述影像特征信息进行处理，以产生辅助判断结果；

根据所述辅助判断结果的代码与所述分类文件夹的代码进行比对，以将所述文件影像储存于对应的分类文件夹。

2.根据权利要求1所述的运用机器学习进行文件分类的文件处理方法，其特征在于，其中前述的首次建模程序还包括以下步骤：

设定所述分类文件夹所对应的代码；

接收多个文件影像；

执行机器学习程序对所述多个文件影像进行处理，以产生所述机器学习模型信息。

3.根据权利要求2所述的运用机器学习进行文件分类的文件处理方法，其特征在于，其中，所述机器学习模型信息包括多组系数，所述多组系数中的一个系数与所述分类文件夹的代码对应。

4.根据权利要求1所述的运用机器学习进行文件分类的文件处理方法，其特征在于，所述文件处理系统进一步包括一个以上的扩充分类文件夹，所述方法进一步提供扩充建模程序。

5.根据权利要求4所述的运用机器学习进行文件分类的文件处理方法，其特征在于，其中所述扩充建模程序还包括以下步骤：

设定所述扩充分类文件夹的代码；

接收多个文件影像；

通过所述机器学习程序对所述多个文件影像进行处理以产生一组新的机器学习模型信息。

6.根据权利要求5所述的运用机器学习进行文件分类的文件处理方法，其特征在于，其中，所述新的机器学习模型信息包括多组新的系数，所述多组新的系数与所述分类文件夹的代码以及所述扩充分类文件夹的代码对应。

7.根据权利要求1所述的运用机器学习进行文件分类的文件处理方法，其特征在于，其中所述文件处理系统包括复印机、扫描机或者多功能事务机。

8.一种运用机器学习进行文件分类的文件处理系统，其特征在于，其包括：

输入模块，取得一个以上的文件影像；

一个以上的储存模块，所述储存模块默认分类文件夹，所述分类文件夹对应有代码；

处理模块，分别连接所述输入模块及所述储存模块；

其中，所述处理模块接收所述文件影像，并且与一组已完成首次建模程序而产生的机器学习模型信息进行计算，以产生计算结果，所述处理模块根据所述计算结果与所述分类文件夹的代码进行比对，以将所述文件影像储存在对应的分类文件夹；

其中，所述处理模块根据所述计算结果的代码与所述分类文件夹的代码进行比对，当所述处理模块比对到与所述计算结果的代码相同的分类文件夹的代码时，则将所述文件影像储存到对应的分类文件夹；

其中，当所述处理模块比对不到与所述计算结果的代码相同的分类文件夹的代码时，所述处理模块进一步执行辅助判断程序，并且根据所述文件影像取得一个以上的影像特征信息，所述处理模块根据所述影像特征信息进行处理，以产生辅助判断结果，所述处理模块将所述辅助判断结果的代码与所述分类文件夹的代码进行比对，以将所述文件影像储存于对应的分类文件夹。

9.根据权利要求8所述的运用机器学习进行文件分类的文件处理系统，其特征在于，所述影像特征信息包括光学字符识别信息、文件影像尺寸信息或文件影像色彩信息。

10.根据权利要求8所述的运用机器学习进行文件分类的文件处理系统，其特征在于，其中，当所述处理模块执行所述首次建模程序时，由所述输入模块接收多个文件影像，所述处理模块通过机器学习程序对所述多个文件影像进行处理以产生所述机器学习模型信息，所述机器学习模型信息包括多组系数，并且所述多组系数中的一个系数与所述分类文件夹的代码相对应。

11.根据权利要求8所述的运用机器学习进行文件分类的文件处理系统，其特征在于，其中，进一步包括一个以上的扩充储存模块，所述扩充储存模块默认扩充分类文件夹；所述处理模块执行扩充建模程序，以设定对应所述扩充分类文件夹的代码，所述处理模块接收多个文件影像，并且通过所述机器学习程序对所述多个文件影像进行处理以产生一组新的机器学习模型信息，所述新的机器学习模型信息包括多组新的系数，并且所述多组新的系数与所述分类文件夹的代码以及所述扩充分类文件夹的代码相对应。