CN116933062B

CN116933062B - 一种文件智能判定系统及方法

Info

Publication number: CN116933062B
Application number: CN202311198302.XA
Authority: CN
Inventors: 王延国; 路冰; 于通
Original assignee: Zhongfu Safety Technology Co Ltd
Current assignee: Zhongfu Safety Technology Co Ltd
Priority date: 2023-09-18
Filing date: 2023-09-18
Publication date: 2023-12-15
Anticipated expiration: 2043-09-18
Also published as: CN116933062A

Abstract

本发明提出的一种文件智能判定系统及方法，属于文件识别技术领域。系统包括：智能判定服务模块，用于提供系统与应用程序端的交互接口，为应用程序端提供文件智能判定服务，智能判定服务模块内置支持文档识别的默认判定模型；AI模型训练工具，用于汇总应用程序端的样本数据，利用样本数据训练判定模型，以生成最优的判定模型；AI模型管理工具，用于判定模型的管理和运行情况的可视化展示，实时获取应用程序端反馈的判定模型运行结果，根据判定模型运行结果进行模型的优化调整；AI模型部署工具，用于判定模型的部署，并提供判定模型的二次开发接口。本发明实现了文件的智能判定，有效降低了人工成本。

Description

一种文件智能判定系统及方法

技术领域

本发明涉及文件识别技术领域，更具体的说是涉及一种文件智能判定系统及方法。

背景技术

随着信息化水平的不断提高、无纸化办公的不断普及，各类信息越来越多的采用电子文档进行记录保存，同时电子文档具有容易修改、容易复制、容易传播的特点，因此电子文档很容易泄露传播，加之数量庞大不便管理，一旦出现电子文档的泄露情况，将可能对机构的安全和利益、正常工作秩序、竞争优势造成不可估量的影响，因此需要通过监控、检查等手段对信息的泄露进行防护，不管采用什么防护手段，信息的判定都是重要环节。

其次依据相关标准工作秘密没有法定的专属标志，一般以“内部文件”、“内部事项”等方式作出提示，商业秘密在有些企业规定以“核心商密”、“普通商密”标识，其他企业更多依据单位内部规定进行标志，甚至没有标志，即使有专属标志，但由于电子文档容易修改的特点很容易去除，而且也存在还未进行标识的预定密事项等情况，因此需要加密的电子文档很难通过标志进行判定，一般需要人工通过内容进行判定。

目前，对保密信息的判定一般采用自动数据采集加人工判定的方式，首先通过检查、监控等手段采集文件的特征信息，该步骤一般会自动完成，然后人工通过标识和文件内容等特征信息进行判定。可见，现有的人工判定方式存在效率低的缺陷，很难满足当前无纸化办公的发展趋势，判定结果数据的价值无法充分利用，也很难避免工作状态带来的失误。

发明内容

针对以上问题，本发明的目的在于提供一种文件智能判定系统及方法，通过工具链完成模型的训练、评估、部署，并对模型运行进行跟踪优化，利用智能模型为其他应用系统提供文件智能判定服务，以实现文件的智能判定。

本发明为实现上述目的，通过以下技术方案实现：一种文件智能判定系统，包括：

智能判定服务模块，用于提供系统与应用程序端的交互接口，为应用程序端提供文件智能判定服务，还用于根据文档的标识方式制作样本训练默认的判定模型；

AI模型训练工具，用于汇总应用程序端的样本数据，利用样本数据训练判定模型，以生成最优的判定模型；

AI模型管理工具，用于判定模型的管理和运行情况的可视化展示，实时获取应用程序端反馈的判定模型运行结果，根据判定模型运行结果进行模型的优化调整；

AI模型部署工具，用于判定模型的部署，并提供判定模型的二次开发接口。

进一步，系统还包括：模型现场训练管理模块，用于通过控制系统内置的工具链执行模型训练使用流程，以在判定模型的使用过程中对判定模型进行优化调整。

进一步，AI模型训练工具具体用于：

利用Cli接口汇总应用程序端的样本数据，并根据应用程序端的特点在应用程序端利用样本数据训练判定模型，以生成定制化的判定模型。

进一步，AI模型管理工具包括：

运行管理单元，用于配置判定模型的使用方式、管理判定模型和应用程序端，并对判定模型的运行情况进行可视化展示；

访问管控单元，用于采用Api Key方式对应用程序端的接口访问进行认证、授权和访问控制；

优化单元，用户获取应用程序端反馈的判定模型运行结果，并根据判定为运行识别的样本数据对判定模型进行优化训练。

进一步，AI模型部署工具具体用于：

根据用户需求将判定模型部署到智能判定服务模块，或将判定模型分发部署到应用程序端；所述二次开发接口采用WebApi接口。

进一步，模型训练使用流程包括如下步骤：

S101：通过AI模型训练工具从应用系统端获取样本数据，经过数据预处理后生成训练样本；

S102：对训练样本进行特征采集，在智能判定服务模块中选择多个判定模型进行训练，训练完成后选择出最优的判定模型，经过模型测试后存储判定模型；

S103：根据在AI模型管理工具中配置的判定模型使用方式，将存储的判定模型部署到智能判定服务模块，或者直接将判定模型分发到指定的应用系统端；

S104：应用系统端采集到文档数据后调用智能判定服务模块或者直接加载判定模型对文件进行判定，并获取判定结果；

S105：应用系统端对判定结果进行分析，若判定结果为正确结果，进行批量确认后进行利用，若判定结果为不正确结果，执行下一步；

S106：应用系统端对不正确结果改判后反馈给AI模型管理工具，通过AI模型管理工具分析误判数据并优化判定模型；

S107：AI模型管理工具对判定模型进行管理，收集模型运行情况并进行可视化展示，依据应用系统端的反馈对判定模型进行强化训练，定期或依据运行情况对判定模型进行评估优化。

进一步，步骤S101具体为：

通过模型训练工具从应用系统端的生产库中获取样本数据，对样本数据进行清洗、标准化处理，保存到样本库，并拆分成训练样本、测试样本。

进一步，步骤S102具体为：

对训练样本进行特征采集，在智能判定服务模块中选择多个判定模型进行训练，训练完成后选择出最优的判定模型；使用测试样本对判定模型进行测试，达到要求后保存到模型库。

进一步，步骤S106具体为：

应用系统端对不正确结果改判后反馈给AI模型管理工具，AI模型管理工具提供分析工具提取误判数据的特征数据，通过与判定模型的特征重要性分析结果进行对比，分析误判原因，根据误判原因调整判定模型参数、去除冗余信息，以优化判定模型。

相应的，本发明还公开了一种文件智能判定方法，包括如下步骤：

S201：通过智能判定服务模块获取应用程序端采集的文档数据；

S202：根据用户需求将判定模型部署到智能判定服务模块，或将判定模型分发部署到应用程序端；

S203：加载判定模型对文档数据进行判定，并获取判定结果。

对比现有技术，本发明有益效果在于：

1、本发明实现了文件的智能判定，用户只需关注少量预判疑似度低的文件，无需人工逐个审阅，有效降低了人工成本。

2.本发明能够通过WebApi接口和二次开发接口提供智能判定服务，通过工具链完成模型的训练、评估、部署、管理和优化，降低业务系统智能化升级的开发成本。

3、本发明采用现场训练的方式进行判定模型的优化和训练，无需提取用户的关键数据，降低泄密风险。

4、本发明采用真实样本进行训练并评估选择最优的判定模型，判定模型更适合行业用户，而且与通用模型相比性能更高。另外，使用真实样本训练模型，并通过误判反馈、定期评估、模型优化，有效提高了数据价值和利用率，能够不断适应自动解密、条件解密、技术更新带来的特征变化。

由此可见，本发明与现有技术相比，具有突出的实质性特点和显著的进步，其实施的有益效果也是显而易见的。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1是本发明具体实施方式的系统结构图。

图2是本发明具体实施方式的模型训练使用流程示意图。

图3是本发明具体实施方式的方法流程图。

图中，1、智能判定服务模块；2、AI模型训练工具；3、AI模型管理工具；4、AI模型部署工具；5、模型现场训练管理模块；31、运行管理单元；32、访问管控单元；33、优化单元。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面结合附图和具体实施方式对本发明作进一步的详细说明。显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

如图1所示，本实施例提供了一种文件智能判定系统，包括：智能判定服务模块1、AI模型训练工具2、AI模型管理工具3、AI模型部署工具4和模型现场训练管理模块5。

智能判定服务模块1，用于提供系统与应用程序端的交互接口，为应用程序端提供文件智能判定服务，还用于根据文档的标识方式制作样本训练默认的判定模型。

在具体实施方式中，智能判定服务模块1支持利用GPU、NPU资源提高智能预判性能、模型训练性能，为应用系统提供高性能的文件智能预判服务。智能判定服务模块1能够根据相关法规、工作秘密标识要求以及商密领域的常见标识方式制作样本训练默认的判定模型，提供通用的文件智能判定服务。

AI模型训练工具2，用于汇总应用程序端的样本数据，利用样本数据训练判定模型，以生成最优的判定模型。

在具体实施方式中，AI模型训练工具2具体用于：

针对工作秘密、商业秘密标识方式的多样性，不同用户规章制度、信息内容的差异提供定制化的判定模型，支持根据应用特点为不同应用提供多种判定模型；

支持Cli接口，在应用程序端进行模型训练，样本存储在本地，规避信息泄露的风险。

支持通过AI模型训练工具汇总多个应用系统的样本数据，在服务器训练模型，利用服务器的运算资源和更加多样的样本获取高质量的模型。

AI模型管理工具3，用于判定模型的管理和运行情况的可视化展示，实时获取应用程序端反馈的判定模型运行结果，根据判定模型运行结果进行模型的优化调整。

在具体实施方式中，AI模型管理工具3包括：运行管理单元31、访问管控单元32和优化单元33。

运行管理单元31，用于配置判定模型的使用方式、管理判定模型和应用程序端，并对判定模型的运行情况进行可视化展示。

访问管控单元32，用于采用Api Key方式对应用程序端的接口访问进行认证、授权和访问控制。

优化单元33，用户获取应用程序端反馈的判定模型运行结果，并根据判定为运行识别的样本数据对判定模型进行优化训练。

可见，AI模型管理工具3能够提供模型管理、应用管理、运行情况可视化展示，并采用Api Key方式对接口访问进行认证、授权和访问控制。还能够支持根据应用系统反馈的判定失败的样本，对模型进行强化训练，具备自学习、自适应能力，不断提高智能化水平。

AI模型部署工具4，用于判定模型的部署，并提供判定模型的二次开发接口。

在具体实施方式中，AI模型部署工具4具体用于：根据用户需求将判定模型部署到智能判定服务模块，或将判定模型分发部署到应用程序端；所述二次开发接口采用WebApi接口。

模型现场训练管理模块5，用于通过控制系统内置的工具链执行模型训练使用流程，以在判定模型的使用过程中对判定模型进行优化调整。

参见图2所示，模型训练使用流程包括如下步骤：

S101：通过AI模型训练工具从应用系统端获取样本数据，经过数据预处理后生成训练样本。

在具体实施方式中，通过AI模型训练工具从应用系统端的生产库中获取训练样本，对数据进行清洗、标准化处理，保存到样本库中并拆分成训练样本、测试样本，支持从多个应用中提取数据并进行集中处理形成统一的样本。

S102：对训练样本进行特征采集，在智能判定服务模块中选择多个判定模型进行训练，训练完成后选择出最优的判定模型，经过模型测试后存储判定模型。

在具体实施方式中，采用自动化方式对训练样本进行特征采集，选择多个模型进行训练，评估选择最优的判定模型，并使用相应的测试样本对判定模型进行测试，达到要求后保存到模型库，依据应用特点和用户习惯分别训练模型。

S103：根据在AI模型管理工具中配置的判定模型使用方式，将存储的判定模型部署到智能判定服务模块，或者直接将判定模型分发到指定的应用系统端。

在具体实施方式中，依据在AI模型管理工具中配置的模型使用方式，将步骤S102中生成的判定模型部署到智能判定服务模块，或者将判定模型分发到指定的应用系统端。另外，判定模型支持热部署，判定模型的更新升级不影响应用系统运行。

S104：应用系统端采集到文档数据后调用智能判定服务模块或者直接加载判定模型对文件进行判定，并获取判定结果。

S105：应用系统端对判定结果进行分析，若判定结果为正确结果，进行批量确认后进行利用，若判定结果为不正确结果，执行下一步。

在具体实施方式中，应用系统端依据自身业务对判定结果进行分析，根据分析结果获取判定为正确的结果并进行利用。利用方式包括但不限于违规情况确认处置、预定密建议等。

S106：应用系统端对不正确结果改判后反馈给AI模型管理工具，通过AI模型管理工具分析误判数据并优化判定模型。

在具体实施方式中，针对不正确的结果，可在应用系统端通过人工方式改判后反馈给AI模型管理工具。AI模型管理工具提供分析工具提取误判数据的特征数据，通过与模型的特征重要性分析结果进行对比，分析误判原因，通过调整模型参数、去除冗余无关优化模型。

由此可见，本发明公开了一种文件智能判定系统，通过工具链完成模型的训练、评估、部署，并对模型运行进行跟踪优化，利用智能模型为其他应用系统提供文件智能判定服务，以实现文件的智能判定。

实施例二：

基于实施例一，如图3所示，本发明还公开了一种文件智能判定方法，包括如下步骤：

S201：通过智能判定服务模块获取应用程序端采集的文档数据。

S202：根据用户需求将判定模型部署到智能判定服务模块，或将判定模型分发部署到应用程序端。

S203：加载判定模型对文档数据进行判定，并获取判定结果。

综上所述，本发明实现了文件的智能判定，使用时，用户只需关注少量预判疑似度低的文件，无需人工逐个审阅，有效降低了人工成本。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的方法而言，由于其与实施例公开的系统相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

在本发明所提供的几个实施例中，应该理解到，所揭露的系统、系统和方法，可以通过其它的方式实现。例如，以上所描述的系统实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，系统或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个单元中。

同理，在本发明各个实施例中的各处理单元可以集成在一个功能模块中，也可以是各个处理单元物理存在，也可以两个或两个以上处理单元集成在一个功能模块中。

结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块，或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。

最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

以上对本发明所提供的文件智能判定系统及方法进行了详细介绍。本文中应用了具体个例对本发明的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本发明的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以对本发明进行若干改进和修饰，这些改进和修饰也落入本发明权利要求的保护范围内。

Claims

1.一种文件智能判定系统，其特征在于，包括：

智能判定服务模块，用于提供系统与应用程序端的交互接口，为应用程序端提供文件智能判定服务，智能判定服务模块内置支持涉密文档识别的默认判定模型；

AI模型部署工具，用于判定模型的部署，并提供判定模型的二次开发接口，直接加载调用判定模型；

模型现场训练管理模块，用于通过控制系统内置的工具链执行模型训练使用流程，以在判定模型的使用过程中对判定模型进行优化调整；

所述AI模型训练工具具体用于：

利用Cli接口汇总应用程序端的样本数据，并根据应用程序端的特点在应用程序端利用样本数据训练判定模型，以生成定制化的判定模型；

所述AI模型管理工具包括：

优化单元，用户获取应用程序端反馈的判定模型运行结果，并根据判定为运行识别的样本数据对判定模型进行优化训练；

所述模型训练使用流程包括如下步骤：

2.根据权利要求1所述的文件智能判定系统，其特征在于，所述AI模型部署工具具体用于：

3.根据权利要求1所述的文件智能判定系统，其特征在于，所述步骤S101具体为：

4.根据权利要求1所述的文件智能判定系统，其特征在于，所述步骤S102具体为：

5.根据权利要求1所述的文件智能判定系统，其特征在于，所述步骤S106具体为：

6.一种文件智能判定方法，其特征在于，包括如下步骤：

S203：加载判定模型对文档数据进行判定，并获取判定结果；

所述方法还包括：

汇总应用程序端的样本数据，利用样本数据训练判定模型，以生成最优的判定模型；

进行判定模型的管理和运行情况的可视化展示，实时获取应用程序端反馈的判定模型运行结果，根据判定模型运行结果进行模型的优化调整；

通过控制系统内置的工具链执行模型训练使用流程，以在判定模型的使用过程中对判定模型进行优化调整；

所述汇总应用程序端的样本数据，利用样本数据训练判定模型，以生成最优的判定模型，包括：

所述进行判定模型的管理和运行情况的可视化展示，实时获取应用程序端反馈的判定模型运行结果，根据判定模型运行结果进行模型的优化调整，包括：

配置判定模型的使用方式、管理判定模型和应用程序端，并对判定模型的运行情况进行可视化展示；

采用Api Key方式对应用程序端的接口访问进行认证、授权和访问控制；

用户获取应用程序端反馈的判定模型运行结果，并根据判定为运行识别的样本数据对判定模型进行优化训练；

所述模型训练使用流程包括如下步骤：