CN116108492B

CN116108492B - 可横向扩展的数据防泄漏系统

Info

Publication number: CN116108492B
Application number: CN202310362630.2A
Authority: CN
Inventors: 杨大志; 刘维炜
Original assignee: Anling Technology Hangzhou Co ltd
Current assignee: Anling Technology Hangzhou Co ltd
Priority date: 2023-04-07
Filing date: 2023-04-07
Publication date: 2023-06-30
Anticipated expiration: 2043-04-07
Also published as: CN116108492A

Abstract

本发明提供一种可横向扩展的数据防泄漏系统，属于数据处理技术领域，所述系统包括文件识别模块、文件处理模块以及文件调度模块，文件调度模块包括文件加工单元和文件调度单元，文件处理模块包括视频转文本处理单元、图像文本处理单元以及音频转文本处理单元，本发明的可横向扩展的数据防泄漏系统，通过文件调度单元可以对各处理单元的状态进行监控并识别个待处理文件的优先等级，可以根据待处理文件的优先级来设置处理顺序，并可以在各处理单元为非占用状态的情况下，通过文件加工单元来对文件的形式或者格式进行转换，以便于尽可能调用处于非占用状态的处理单元来进行文件的文本转换处理，提高了在文件数据量大时的处理效率。

Description

可横向扩展的数据防泄漏系统

技术领域

本发明涉及数据处理技术领域，尤其涉及一种可横向扩展的数据防泄漏系统。

背景技术

随着信息技术的飞速发展，计算机和网络已成为日常办公、通讯交流和协作互动的必备工具和途径。数据泄密防护（Data leakage prevention, DLP）是通过一定的技术手段，防止企业的指定数据或信息资产以违反安全策略规定的形式流出企业的一种策略。但是，信息系统在提高信息安全的同时，也对信息的处理效率提出了新的需求。

文本识别服务是DLP系统的核心服务之一，主要完成对各种文件内容的深度识别，内容包含文字、代码、数字、报表、图纸图片、音频和视频等。

相关技术中，大部分视频转文本服务基于开源框架或单应用框架实现，只能满足一般场景要求，但对于视频这一类大数据量、计算资源消耗大的场景，难以有效应对。

发明内容

本发明提供一种可横向扩展的数据防泄漏系统，用以解决现有技术中数据系统对视频文件的转文本处理效率低的缺陷，实现对视频文件转文本的高效处理。

本发明提供一种可横向扩展的数据防泄漏系统，基于面向服务的架构SOA搭建，包括：

文件识别模块，所述文件识别模块用于接收待处理文件并识别所述待处理文件的类型；

文件处理模块，所述文件处理模块至少包括图像文本处理单元、音频转文本处理单元以及视频转文本处理单元；所述图像文本处理单元用于识别图像中的文字并生成图像识别文本，所述音频转文本处理单元用于根据音频中的语音信息生成音频识别文本，所述视频转文本处理单元用于根据视频文件生成视频文本；所述图像文本处理单元以及所述音频转文本处理单元的数量大于或者等于2；

文件调度模块，所述文件调度模块包括文件加工单元和文件调度单元；所述文件加工单元用于将所述待处理文件进行格式类型转换、文件拆分以及合并；所述文件调度单元用于确定所述待处理文件的优先级等级以及识别所述文件处理模块中各处理单元的工作状态，并根据所述待处理文件的类型、优先级等级以及所述文件处理模块中各处理单元的工作状态，将所述文件加工单元处理后的待处理文件发送至所述文件处理模块中的至少一个处理单元。

根据本发明提供的一种可横向扩展的数据防泄漏系统，所述文件识别模块识别待处理文件的类型为视频，所述文件调度单元确定所述待处理文件的优先级等级大于目标阈值，所述文件调度单元还用于在确定所述视频转文本处理单元的工作状态为非占用状态的情况下，将所述待处理文件直接发送至所述视频转文本处理单元，所述视频转文本处理单元对所述待处理文件进行视频文本生成；

所述文件调度单元还用于在确定所述视频转文本处理单元的工作状态为占用状态的情况下，确定各图像文本处理单元和各音频转文本处理单元的工作状态，并基于各图像文本处理单元和各音频转文本处理单元的工作状态确定所述待处理文件的处理单元。

根据本发明提供的一种可横向扩展的数据防泄漏系统，视频转文本处理单元用于将接收到的视频文件转换成视频文本，所述视频文本包括语句、各语句对应的时间戳以及各语句的来源，所述语句为基于对所述视频文件的视频图像帧进行文本识别以及对所述视频文件的音频数据进行音频转文字确定的。

根据本发明提供的一种可横向扩展的数据防泄漏系统，所述待处理文件为视频文件，所述视频文件的优先级等级大于目标阈值，所述文件调度单元还用于在确定所述视频转文本处理单元的工作状态为占用状态的情况下，确定工作状态为非占用的图像文本处理单元的第一数量，以及工作状态为非占用状态的音频转文本处理单元的第二数量；

所述文件加工单元用于将所述视频文件进行格式类型转换得到第一图像帧集合和第一音频文件，所述文件加工单元还用于将所述第一图像帧集合分割为所述第一数量的第一图像帧子集合，并将所述第一音频文件分割为所述第二数量的第一音频子段；

所述文件调度单元用于将所述第一数量的第一图像帧子集合分别发送至各图像文本处理单元进行图像文本识别以得到所述第一数量的第一子文本，并将所述第二数量的第一音频子段发送至所述音频转文本处理单元以得到所述第二数量的第二子文本。

根据本发明提供的一种可横向扩展的数据防泄漏系统，所述文件加工单元用于将所述第一数量的第一子文本按照时间顺序拼接为第一文本，并将所述第二数量的第二子文本按照时间顺序拼接为第二文本。

根据本发明提供的一种可横向扩展的数据防泄漏系统，所述系统还包括文本相似度计算模块，所述文本相似度计算模块用于计算所述第一文本与所述第二文本之间的目标相似度；

所述文件加工单元还用于在所述目标相似度大于第一相似度的情况下，将所述第二文本确定为所述视频文件的视频文本。

根据本发明提供的一种可横向扩展的数据防泄漏系统，所述文件加工单元还用于在所述目标相似度小于第二相似度的情况下，将所述第一文本和所述第二文本均确定为所述视频文件的视频文本。

根据本发明提供的一种可横向扩展的数据防泄漏系统，所述文件调度单元还用于获取所述待处理文件对应的数据包，并从所述数据包中提取所述待处理文件的优先级标签数据，确定所述待处理文件的优先级等级。

根据本发明提供的一种可横向扩展的数据防泄漏系统，所述文件调度单元还用于获取所述待处理文件对应的数据包，并从所述数据包中提取所述待处理文件的源IP地址和/或用户账户信息，所述文件调度单元还用于根据所述待处理文件的源IP地址和/或用户账户信息确定所述待处理文件的优先级等级。

根据本发明提供的一种可横向扩展的数据防泄漏系统，所述文件识别模块用于统计在目标时长内所接收到的待处理文件的类型、大小以及数量，以调整各处理单元的设置数量。

本发明还提供一种可横向扩展的数据防泄漏系统的数据处理方法，应用于如上所述的任一种可横向扩展的数据防泄漏系统，包括：

通过文件识别模块接收待处理文件并识别待处理文件的类型；

在所述待处理文件为视频文件的情况下，通过文件调度单元确定视频转文本处理单元的工作状态；

在所述视频转文本处理单元的工作状态为被占用状态的情况下，通过所述文件调度单元确定所述待处理文件的优先级等级；

在所述待处理文件的优先级等级大于目标阈值的情况下，通过所述文件调度单元确定工作状态为非占用的图像文本处理单元的第一数量，以及工作状态为非占用的音频转文本处理单元的第二数量；

通过文件加工单元将所述视频文件进行格式类型转换得到第一图像帧集合和第一音频文件，并通过所述文件加工单元将所述第一图像帧集合分割为所述第一数量的第一图像帧子集合，将所述第一音频文件分割为所述第二数量的第一音频子段；

通过所述文件调度单元将所述第一数量的第一图像帧子集合分别发送至各图像文本处理单元进行图像文本识别以得到所述第一数量的第一子文本，并将所述第二数量的第一音频子段发送至所述音频转文本处理单元以得到所述第二数量的第二子文本。

根据本发明提供的一种可横向扩展的数据防泄漏系统的数据处理方法，在所述通过所述文件调度单元将所述第一数量的第一图像帧子集合分别发送至各图像文本处理单元进行图像文本识别以得到所述第一数量的第一子文本，并将所述第二数量的第一音频子段发送至所述音频转文本处理单元以得到所述第二数量的第二子文本之后，所述方法还包括：

通过文本相似度计算模块计算所述第一文本与所述第二文本之间的目标相似度；

在所述目标相似度大于第一相似度的情况下，将所述第二文本确定为所述视频文件的视频文本；在所述目标相似度小于第二相似度的情况下，将所述第一文本和所述第二文本均确定为所述视频文件的视频文本。

本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述可横向扩展的数据防泄漏系统的数据处理方法。

本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述可横向扩展的数据防泄漏系统的数据处理方法。

本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述可横向扩展的数据防泄漏系统的数据处理方法。

本发明提供的可横向扩展的数据防泄漏系统，通过文件调度单元可以对各处理单元的状态进行监控并识别个待处理文件的优先等级，可以根据待处理文件的优先级来设置处理顺序，并可以在各处理单元为非占用状态的情况下，通过文件加工单元来对文件的形式或者格式进行转换，以便于尽可能调用处于非占用状态的处理单元来进行文件的文本转换处理，提高了在文件数据量大时的处理效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本发明提供的可横向扩展的数据防泄漏系统的结构示意图之一；

图2是本发明提供的可横向扩展的数据防泄漏系统的结构示意图之二；

图3是本发明提供的可横向扩展的数据防泄漏系统的数据处理方法的流程示意图；

图4是本发明提供的电子设备的结构示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚，下面将结合本发明中的附图，对本发明中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

下面结合图1-图4描述本发明的可横向扩展的数据防泄漏系统。

面向服务的架构（Service-Oriented Architecture，SOA）是一项在云中部署应用和服务的新技术。SOA可以使用一套微小服务来开发单个应用的方式途径，每个服务运行在自己的进程中，并使用轻量级机制通信，并能够通过自动化部署机制来独立部署，这些微服务使用不同的编程语言实现，以及不同数据存储技术，并保持最低限度的集中式管理。

本发明实施例的可横向扩展的数据防泄漏系统基于架构搭建，可以在一定的计算资源下设置多个微服务模块来实现不同的业务功能，进而实现计算能力的横向扩展。

如图1所示，本发明实施例的可横向扩展的数据防泄漏系统包括多种类型的处理模块，以实现不同的功能，例如可以包括文件识别模块、文件处理模块以及文件调度模块。

文件识别模块用于接收待处理文件并识别待处理文件的类型。可以理解的是，文件识别模块可以对接收的待处理文件进行文件类型的识别，文件的类型可以包括文件的格式类型，例如文件的格式类型可以包括doc、docx、xls、xlsx、ppt、pptx、pdf、dwg、zip、rar、7z、txt、jpg、png、mp4以及wmv等。

可以理解的是，文件识别模块、文件处理模块以及文件调度模块等系统中的功能服务模块可以采用API接口协议来进行开发与集成。可以理解的是，各个处理模块可以集成于同一个计算机系统，或者还可以采用分布式集成的方式部署于云计算系统中，不同的处理模块之间可以采用一定的通信协议来进行处理模块之间的通信，如grpc协议，并通过API协议互相调用。各个处理模块可以支持多种处理语言开发，处理语言包括Hive SQL、标准SQL、JAVA、Spark Scala和Python等，此处不作限制。

可以理解的是，文件处理模块至少包括图像文本处理单元、音频转文本处理单元以及视频转文本处理单元；图像文本处理单元用于识别图像中的文字并生成图像识别文本，音频转文本处理单元用于根据音频中的语音信息生成音频识别文本，视频转文本处理单元用于根据视频文件生成视频文本。

需要说明的是，视频转文本处理单元可以至少设置有一个，考虑到视频转文本处理的场景较少，且占用较多的计算资源，因此，视频转文本处理单元的数量不会设置太多。为针对大规模的文本识别场景，如即时通信以及办公场景下的文本生成需求，图像文本处理单元以及音频转文本处理单元的数量大于或者等于2。

在本实施方式中，文件调度模块包括文件加工单元和文件调度单元。文件加工单元用于将待处理文件进行格式类型转换、文件拆分以及合并。例如，文件加工单元可以将不同格式类型的文件进行转换，如将docx格式文件转换为pdf格式文件，将视频格式文件转化成图片格式文件以及音频格式文件等。文件加工单元可以将不同格式类型的文件进行拆分以及合并，例如可以将docx格式文件按照页码设置拆分成多个docx格式文件，或者将音频格式文件按照语音停顿位置转化成多个音频格式文件。文件加工单元可以将不同格式类型的文件进行合并，此处不同格式类型的文件指文件加工单元可以针对不同格式类型文件中的一种格式类型的多个文件进行合并，例如，文件加工单元可以将多个图片格式的文件合并成pdf格式的文件等。

需要说明的是，文件调度单元用于对处理待处理文件的各处理模块以及处理单元进行状态监管以及处理资源的调度。

可以理解的是，文件调度单元用于确定待处理文件的优先级等级以及识别文件处理模块的工作状态，并根据待处理文件的类型、优先级等级以及文件处理模块中各处理单元的工作状态，将文件加工单元处理后的待处理文件发送至文件处理模块中的至少一个处理单元。

在一些实施例中，在同时接收到多个相同格式类型的文件后，可以根据文件的优先级等级来确定各个文件的处理顺序。

各个文件处理模块以及文件处理单元的状态可以包括占用状态和非占用状态，在占用状态下，待处理文件需要在该处理模块进行排队来等待处理。

在一些实施例中，在存在多个非占用状态的处理单元的情况下，可以通过文件加工单元将待处理文件拆分成一定数量的文件，并将拆分后的文件分别发送至所有该文件类型对应的处理单元来进行处理。

例如，文件调度单元确定视频格式的待处理文件的优先级等级较高，可以在文件调度单元检测到有多个视频转文本处理单元均处于非占用的情况下，可以通过文件加工单元将视频格式的待处理文件拆分为多个视频段，并将多个视频段分别发送至多个视频转文本处理单元来进行同时处理，提高了对视频这类大文件的处理效率。

根据本发明实施例提供的可横向扩展的数据防泄漏系统，文件调度单元可以对各处理单元的状态进行监控并识别个待处理文件的优先等级，可以根据待处理文件的优先级来设置处理顺序，并可以在各处理单元为非占用状态的情况下，通过文件加工单元来对文件的形式或者格式进行转换，以便于尽可能调用处于非占用状态的处理单元来进行文件的文本转换处理，提高了在文件数据量大时的处理效率。

可以理解的是，由于视频转文本处理单元这种需要较多计算资源的处理单元部署数量并不多，部署的单个视频转文本处理单元内部所需的计算资源较多，单个视频转文本处理单元同时占用了较多计算资源，导致计算资源的利用不够灵活，单个视频转文本单元的数量较少，在存在较多视频需要转文本处理任务的需求场景下，多个待处理视频文件只能排队等待有限的视频转文本处理单元来进行处理。

在一些实施例中，视频转文本处理单元用于将接收到的视频文件转换成视频文本，视频文本包括语句、各语句对应的时间戳以及各语句的来源，语句为基于对视频文件的视频图像帧进行文本识别以及对视频文件的音频数据进行音频转文字确定的。

可以理解的是，视频转文本处理单元既需要将视频转化成图像数据和音频数据，还需要对图像数据以及音频数据进行文字转化，所需的计算资源较多。

而在本实施方式中，将集成于视频处理单元这类复杂计算组件的计算资源单独设置为各种功能模块，能够降低计算资源的集中度，提高有限计算资源的利用效率。

在一些场景下，文件识别模块识别待处理文件的类型为视频，文件调度单元确定待处理文件的优先级等级大于目标阈值，目标阈值为预设的值，用于确定待处理文件优先级等级大小的程度。在此种情况下，该视频格式的文件亟需被处理。

文件调度单元可以对视频转文本处理单元的状态进行监控，可以在视频转文本处理单元为非占用状态的情况下，将待处理的视频文件发送至视频转文本处理单元来进行处理。

在一些实施方式中，文件调度单元可以对视频转文本处理单元的状态进行监控，可以在视频转文本处理单元为占用状态的情况下，继续监控图像文本处理单元以及音频转文本处理单元的工作状态，并在图像文本处理单元以及音频转文本处理单元未被占用的情况下，通过文件加工单元将视频格式的文件转化为图像和音频格式的文件，从而利用图像文本处理单元以及音频转文本处理单元来间接对视频格式的文件进行处理，得到视频文件的文本内容，保证了视频格式文件处理任务挤兑情况下的处理效率。

换言之，在本实施方式中，文件调度单元还用于在确定视频转文本处理单元的工作状态为非占用状态的情况下，将待处理文件直接发送至视频转文本处理单元，视频转文本处理单元对待处理文件进行视频文本生成；文件调度单元还用于在确定视频转文本处理单元的工作状态为占用状态的情况下，确定各图像文本处理单元和各音频转文本处理单元的工作状态，并基于各图像文本处理单元和各音频转文本处理单元的工作状态确定待处理文件的处理单元。

根据本发明实施例提供的可横向扩展的数据防泄漏系统，通过设置文件调度模块来对视频转文本处理单元、图像文本处理单元以及音频转文本处理单元的工作状态进行监控，并根据各处理单元的工作状态，在视频格式文件的处理存在挤兑时通过文件加工单元将视频格式文件转化为图像格式以及音频格式的文件来进行文本识别，满足了多个视频处理场景下的处理需求，保证了视频格式文件处理任务挤兑情况下的处理效率。

在一些实施例中，文件调度单元还用于获取待处理文件对应的数据包，并从数据包中提取待处理文件的优先级标签数据，确定待处理文件的优先级等级。

可以理解的是，待处理文件在各个处理模块之间传输时基于一定的传输协议和一定格式的数据包进行传输。

在此种情况下，可以根据数据包中携带的待处理文件的优先级标签数据来确定待处理文件的优先级等级。例如，待处理文件在用户端进行处理任务的发起或者文件传输的发起时，用户可以选择文件处理以及文件传输的优先级，如用户可以选择“优先”、“加急”以及“常规”等模式来进行输入，进而数据包中会携带此类优先级标签数据，以便于确定待处理文件的优先级等级。

当然，在另一些实施例中，数据包中不直接携带优先级标签数据。在此种情况下，文件调度单元还用于获取待处理文件对应的数据包，并从数据包中提取待处理文件的源IP地址和/或用户账户信息，文件调度单元还用于根据待处理文件的源IP地址和/或用户账户信息确定待处理文件的优先级等级。

可以理解的是，在用户数据以源IP地址为单位划分时，文件调度单元可以直接从用户数据库中读取不同源IP地址所对应的优先级等级。

在一些实施例中，在用户数据以用户账户信息为单位划分时，文件调度单元可以直接从用户数据库中读取不同用户账户信息所对应的优先级等级。

在一些实施例中，在用户数据以源IP地址以及用户账户信息两者对应的关联关系划分时，文件调度单元可以直接从数据库中读取不同源IP地址-用户账户信息关联关系所对应的优先级等级。

在本实施方式中，通过在待处理文件的数据包中附带优先级标签数据、源IP地址以及用户账户信息，可以便于文件调度单元获取待处理文件的优先级等级，进而便于合理规划待处理文件的处理方式和处理时间，进而提高处理效率。

在一些实施例中，待处理文件为视频文件，视频文件的优先级等级大于目标阈值，文件调度单元还用于在确定视频转文本处理单元的工作状态为占用状态的情况下，确定工作状态为非占用的图像文本处理单元的第一数量，以及工作状态为非占用的音频转文本处理单元的第二数量。

在此种情况下，文件加工单元用于将视频文件进行格式类型转换得到第一图像帧集合和第一音频文件，文件加工单元还用于将第一图像帧集合分割为第一数量的第一图像帧子集合，并将第一音频文件分割为第二数量的第一音频子段。

需要说明的是，在对第一图像帧集合进行分割时，可以考虑第一图像帧集合中图形帧的总数，并对每个第一图像帧子集合平均分配一定数量的连续的图像帧。或者，还可以根据各个图像帧的大小，来按照图像帧的大小来对每个第一图像帧子集合平均分配一定数量的连续的图像帧。

在对第一音频文件分割时，考虑到提高音频文本识别的准确性，根据音频中语音停顿的位置来进行分割，将第一音频文件分割为第二数量的第一音频子段。

在此基础上，文件调度单元用于将第一数量的第一图像帧子集合分别发送至各图像文本处理单元进行图像文本识别以得到第一数量的第一子文本，并将第二数量的第一音频子段发送至音频转文本处理单元以得到第二数量的第二子文本。

在本实施方式中，通过对视频文件进行格式类型转换得到第一图像帧集合和第一音频文件进行分割并发送至非占用的状态的处理单元来进行单独处理，提高了处理效率。

在一些实施例中，文件加工单元用于将第一数量的第一子文本按照时间顺序拼接为第一文本，并将第二数量的第二子文本按照时间顺序拼接为第二文本，进而可以直接得到完整的文本，以便于用户使用。

在一些实施例中，如图2所示，本发明实施例的可横向扩展的数据防泄漏系统还包括文本相似度计算模块，文本相似度计算模块用于计算第一文本与第二文本之间的目标相似度。

可以理解的是，可以分别对第一文本和第二文本采用相同尺度的文本切分粒度，得到第一文本和第二文本的特征向量。

例如，可以针对第一文本和第二文本分别采用句法分析的方式得到特征向量矩阵，并根据相似度计算方式来确定第一文本以及第二文本的特征向量之间的相似度分数。例如，相似度计算方式可以采用最小编辑距离算法、欧氏距离以及余弦距离等方式来进行确定。

在得到第一文本以及第二文本的相似度之后，文件加工单元还用于在目标相似度大于第一相似度的情况下，将第二文本确定为视频文件的视频文本。

可以理解的是，第一相似度为预设值，可以根据实际需要来进行设置值的大小。第一相似度值可以是一个较高的数值，在此种情况下，第一文本与第二文本非常接近，说明视频文件的图像帧中主要是字幕内容，与语音内容贴近。考虑到图像帧中画面中非字幕文本的干扰，因此将语音文本转化得到的第二文本作为最终的视频文本，进而保证视频文本的准确性更高。

在一些实施例中，文件加工单元还用于在目标相似度小于第二相似度的情况下，将第一文本和第二文本均确定为视频文件的视频文本。

可以理解的是，第一文本与第二文本之间的相似度差异较大，说明视频文件中可能存在较多的非字幕文字，或者图像文本识别以及语音文本识别存在较大的误差，在此种情况下，直接将第一文本和第二文本均作为视频文本，以供用户自行选择合适的文本来进行使用。

在一些实施例中，文件识别模块用于统计在目标时长内所接收到的待处理文件的类型、大小以及数量。

可以理解的是，文件识别模块可以对接收到的待处理文件进行监控，从而实现对硬件资源使用情况的监控，可以对CPU以及内存的使用情况进行监控与分析，进而调整各处理单元的设置数量，例如可以实时调度和销毁不同处理单元，满足使用场景下对硬件等计算资源的要求。

当然，在一些实施例中，在监控到CPU存在较多可用算力以及内存存在较多空间的情况下，可以直接临时调度硬件资源来设置多个视频转文本处理单元，以缓解视频文本处理挤兑的压力。

下面对本发明提供的可横向扩展的数据防泄漏系统的数据处理方法进行描述，下文描述的可横向扩展的数据防泄漏系统的数据处理方法应用于上文描述的可横向扩展的数据防泄漏系统。

如图3所示，本发明实施例还提供一种可横向扩展的数据防泄漏系统的数据处理方法，主要包括步骤310、步骤320、步骤330、步骤340、步骤350以及步骤360。

步骤310，通过文件识别模块接收待处理文件并识别待处理文件的类型；

步骤320，在待处理文件为视频文件的情况下，通过文件调度单元确定视频转文本处理单元的工作状态；

步骤330，在视频转文本处理单元的工作状态为被占用状态的情况下，通过文件调度单元确定待处理文件的优先级等级；

步骤340，在待处理文件的优先级等级大于目标阈值的情况下，通过文件调度单元确定工作状态为非占用的图像文本处理单元的第一数量，以及工作状态为非占用的音频转文本处理单元的第二数量；

步骤350，通过文件加工单元将视频文件进行格式类型转换得到第一图像帧集合和第一音频文件，并通过文件加工单元将第一图像帧集合分割为第一数量的第一图像帧子集合，将第一音频文件分割为第二数量的第一音频子段；

步骤360，通过文件调度单元将第一数量的第一图像帧子集合分别发送至各图像文本处理单元进行图像文本识别以得到第一数量的第一子文本，并将第二数量的第一音频子段发送至音频转文本处理单元以得到第二数量的第二子文本。

根据本发明提供的一种可横向扩展的数据防泄漏系统的数据处理方法，通过文件调度单元可以对各处理单元的状态进行监控并识别个待处理文件的优先等级，可以根据待处理文件的优先级来设置处理顺序，并可以在各处理单元为非占用状态的情况下，通过文件加工单元来对文件的形式或者格式进行转换，以便于尽可能调用处于非占用状态的处理单元来进行文件的文本转换处理，提高了在文件数据量大时的处理效率。

在一些实施例中，在通过文件调度单元将第一数量的第一图像帧子集合分别发送至各图像文本处理单元进行图像文本识别以得到第一数量的第一子文本，并将第二数量的第一音频子段发送至音频转文本处理单元以得到第二数量的第二子文本之后，本发明实施例的可横向扩展的数据防泄漏系统的数据处理方法还包括：通过文本相似度计算模块计算第一文本与第二文本之间的目标相似度；在目标相似度大于第一相似度的情况下，将第二文本确定为视频文件的视频文本；在目标相似度小于第二相似度的情况下，将第一文本和第二文本均确定为视频文件的视频文本。

图4示例了一种电子设备的实体结构示意图，如图4所示，该电子设备可以包括：处理器（processor）410、通信接口（Communications Interface）420、存储器（memory）430和通信总线440，其中，处理器410，通信接口420，存储器430通过通信总线440完成相互间的通信。处理器410可以调用存储器430中的逻辑指令，以执行可横向扩展的数据防泄漏系统的数据处理方法，该方法包括：通过文件识别模块接收待处理文件并识别待处理文件的类型；在待处理文件为视频文件的情况下，通过文件调度单元确定视频转文本处理单元的工作状态；在视频转文本处理单元的工作状态为被占用状态的情况下，通过文件调度单元确定待处理文件的优先级等级；在待处理文件的优先级等级大于目标阈值的情况下，通过文件调度单元确定工作状态为非占用的图像文本处理单元的第一数量，以及工作状态为非占用的音频转文本处理单元的第二数量；通过文件加工单元将视频文件进行格式类型转换得到第一图像帧集合和第一音频文件，并通过文件加工单元将第一图像帧集合分割为第一数量的第一图像帧子集合，将第一音频文件分割为第二数量的第一音频子段；通过文件调度单元将第一数量的第一图像帧子集合分别发送至各图像文本处理单元进行图像文本识别以得到第一数量的第一子文本，并将第二数量的第一音频子段发送至音频转文本处理单元以得到第二数量的第二子文本。

此外，上述的存储器430中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器（ROM，Read-Only Memory）、随机存取存储器（RAM，Random Access Memory）、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本发明还提供一种计算机程序产品，所述计算机程序产品包括计算机程序，计算机程序可存储在非暂态计算机可读存储介质上，所述计算机程序被处理器执行时，计算机能够执行上述各方法所提供的可横向扩展的数据防泄漏系统的数据处理方法，该方法包括：通过文件识别模块接收待处理文件并识别待处理文件的类型；在待处理文件为视频文件的情况下，通过文件调度单元确定视频转文本处理单元的工作状态；在视频转文本处理单元的工作状态为被占用状态的情况下，通过文件调度单元确定待处理文件的优先级等级；在待处理文件的优先级等级大于目标阈值的情况下，通过文件调度单元确定工作状态为非占用的图像文本处理单元的第一数量，以及工作状态为非占用的音频转文本处理单元的第二数量；通过文件加工单元将视频文件进行格式类型转换得到第一图像帧集合和第一音频文件，并通过文件加工单元将第一图像帧集合分割为第一数量的第一图像帧子集合，将第一音频文件分割为第二数量的第一音频子段；通过文件调度单元将第一数量的第一图像帧子集合分别发送至各图像文本处理单元进行图像文本识别以得到第一数量的第一子文本，并将第二数量的第一音频子段发送至音频转文本处理单元以得到第二数量的第二子文本。

又一方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各方法提供的可横向扩展的数据防泄漏系统的数据处理方法，该方法包括：通过文件识别模块接收待处理文件并识别待处理文件的类型；在待处理文件为视频文件的情况下，通过文件调度单元确定视频转文本处理单元的工作状态；在视频转文本处理单元的工作状态为被占用状态的情况下，通过文件调度单元确定待处理文件的优先级等级；在待处理文件的优先级等级大于目标阈值的情况下，通过文件调度单元确定工作状态为非占用的图像文本处理单元的第一数量，以及工作状态为非占用的音频转文本处理单元的第二数量；通过文件加工单元将视频文件进行格式类型转换得到第一图像帧集合和第一音频文件，并通过文件加工单元将第一图像帧集合分割为第一数量的第一图像帧子集合，将第一音频文件分割为第二数量的第一音频子段；通过文件调度单元将第一数量的第一图像帧子集合分别发送至各图像文本处理单元进行图像文本识别以得到第一数量的第一子文本，并将第二数量的第一音频子段发送至音频转文本处理单元以得到第二数量的第二子文本。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims

1.一种可横向扩展的数据防泄漏系统，其特征在于，基于面向服务的架构SOA搭建，包括：

文件调度模块，所述文件调度模块包括文件加工单元和文件调度单元；所述文件加工单元用于将所述待处理文件进行格式类型转换、文件拆分以及合并；所述文件调度单元用于确定所述待处理文件的优先级等级以及识别所述文件处理模块中各处理单元的工作状态，并根据所述待处理文件的类型、优先级等级以及所述文件处理模块中各处理单元的工作状态，将所述文件加工单元处理后的待处理文件发送至所述文件处理模块中的至少一个处理单元；

所述文件识别模块识别待处理文件的类型为视频，所述文件调度单元确定所述待处理文件的优先级等级大于目标阈值，所述文件调度单元还用于在确定所述视频转文本处理单元的工作状态为非占用状态的情况下，将所述待处理文件直接发送至所述视频转文本处理单元，所述视频转文本处理单元对所述待处理文件进行视频文本生成；

所述文件调度单元还用于在确定所述视频转文本处理单元的工作状态为占用状态的情况下，确定各图像文本处理单元和各音频转文本处理单元的工作状态，并基于各图像文本处理单元和各音频转文本处理单元的工作状态确定所述待处理文件的处理单元；

所述待处理文件为视频文件，所述视频文件的优先级等级大于目标阈值，所述文件调度单元还用于在确定所述视频转文本处理单元的工作状态为占用状态的情况下，确定工作状态为非占用的图像文本处理单元的第一数量，以及工作状态为非占用状态的音频转文本处理单元的第二数量；

所述文件调度单元用于将所述第一数量的第一图像帧子集合分别发送至各图像文本处理单元进行图像文本识别以得到所述第一数量的第一子文本，并将所述第二数量的第一音频子段发送至所述音频转文本处理单元以得到所述第二数量的第二子文本；

所述文件加工单元用于将所述第一数量的第一子文本按照时间顺序拼接为第一文本，并将所述第二数量的第二子文本按照时间顺序拼接为第二文本；

所述系统还包括文本相似度计算模块，所述文本相似度计算模块用于计算所述第一文本与所述第二文本之间的目标相似度；

所述文件加工单元还用于在所述目标相似度大于第一相似度的情况下，将所述第二文本确定为所述视频文件的视频文本；

所述文件加工单元还用于在所述目标相似度小于第二相似度的情况下，将所述第一文本和所述第二文本均确定为所述视频文件的视频文本；

所述文本相似度计算模块还用于分别对所述第一文本和所述第二文本采用相同尺度的文本切分粒度，以得到所述第一文本和所述第二文本的特征向量，并根据相似度计算方法计算所述第一文本和所述第二文本的特征向量之间的相似度分数以得到所述目标相似度。

2.根据权利要求1所述的可横向扩展的数据防泄漏系统，其特征在于，视频转文本处理单元用于将接收到的视频文件转换成视频文本，所述视频文本包括语句、各语句对应的时间戳以及各语句的来源，所述语句为基于对所述视频文件的视频图像帧进行文本识别以及对所述视频文件的音频数据进行音频转文字确定的。

3.根据权利要求1或2所述的可横向扩展的数据防泄漏系统，其特征在于，所述文件调度单元还用于获取所述待处理文件对应的数据包，并从所述数据包中提取所述待处理文件的优先级标签数据，确定所述待处理文件的优先级等级。

4.根据权利要求1或2所述的可横向扩展的数据防泄漏系统，其特征在于，所述文件调度单元还用于获取所述待处理文件对应的数据包，并从所述数据包中提取所述待处理文件的源IP地址和/或用户账户信息，所述文件调度单元还用于根据所述待处理文件的源IP地址和/或用户账户信息确定所述待处理文件的优先级等级。

5.根据权利要求1或2所述的可横向扩展的数据防泄漏系统，其特征在于，所述文件识别模块用于统计在目标时长内所接收到的待处理文件的类型、大小以及数量，以调整各处理单元的设置数量。