CN115658610A - 一种文件内容检查方法、计算设备及可读存储介质 - Google Patents
一种文件内容检查方法、计算设备及可读存储介质 Download PDFInfo
- Publication number
- CN115658610A CN115658610A CN202211652961.1A CN202211652961A CN115658610A CN 115658610 A CN115658610 A CN 115658610A CN 202211652961 A CN202211652961 A CN 202211652961A CN 115658610 A CN115658610 A CN 115658610A
- Authority
- CN
- China
- Prior art keywords
- file
- processed
- files
- search
- threads
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Landscapes
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明公开了一种文件内容检查方法、计算设备及可读存储介质,涉及计算机领域。本发明的文件内容检查方法包括:响应于启动文件内容检查的操作,基于计算设备的处理器配置,创建第一预定数量个线程作为文件搜索线程,以及创建第二预定数量个线程作为文件检测线程。第一预定数量个文件搜索线程从计算设备中搜索待处理文件,并将搜索到的各待处理文件的文件信息存储至文件缓冲池。第二预定数量个文件检测线程从文件缓冲池中取出各文件信息,并对所取出的各文件信息对应的待处理文件进行内容检测。本发明的文件内容检查方法可提高文件内容的检查效率。
Description
技术领域
本发明涉及计算机领域,尤其涉及一种文件内容检查方法、计算设备及可读存储介质。
背景技术
对文件进行内容检查,主要包括两个步骤:首先,从磁盘中搜索文件,然后,对搜索到的文件进行内容检测。现有文件内容检查方法中,这两个步骤由同一线程完成,即当一线程从磁盘中搜索到文件后,其接着对搜索到的文件进行内容检测。显然这样,当某一线程搜索到的文件数量非常多(例如搜索到的是一包含非常多文件的压缩包)时,即使其他线程已完成检查工作,也只能等待该线程自己来完成检测,从而导致文件内容检查时间过长,影响用户的体验。
为此,亟需一种新的文件内容检查方法来解决上述技术问题。
发明内容
为此,本发明提供了一种文件内容检查方法、计算设备及可读存储介质,以力图解决或者至少缓解上面存在的问题。
根据本发明的一个方面,提供一种文件内容检查方法,适于在计算设备中执行,计算设备包括文件缓冲池,该方法包括:响应于启动文件内容检查的操作,基于计算设备的处理器配置,创建第一预定数量个线程作为文件搜索线程,以及创建第二预定数量个线程作为文件检测线程;第一预定数量个文件搜索线程从计算设备中搜索待处理文件,并将搜索到的各待处理文件的文件信息存储至文件缓冲池;第二预定数量个文件检测线程从文件缓冲池中取出各文件信息,并对所取出的各文件信息对应的待处理文件进行内容检测。
可选地,在根据本发明的文件内容检查方法中,第一预定数量个文件搜索线程从计算设备中搜索待处理文件,并将搜索到的各待处理文件的文件信息存储至文件缓冲池,包括:各文件搜索线程执行判断文件缓冲池中当前存储的文件信息的数量是否达到第三预定数量的第一判断步骤,第三预定数量为文件缓冲池最多能存储的文件信息的数量;若未达到第三预定数量,则从计算设备中搜索待处理文件,并将搜索到的待处理文件的文件信息存储至文件缓冲池,以及继续执行第一判断步骤;若达到第三预定数量,则继续执行第一判断步骤;直至计算设备中的待处理文件全部被搜索到,停止执行第一判断步骤。
可选地,在根据本发明的文件内容检查方法中,第二预定数量个文件检测线程从文件缓冲池中取出各文件信息,并对所取出的各文件信息对应的待处理文件进行内容检测,包括:各文件检测线程执行判断文件缓冲池中当前是否存储有文件信息的第二判断步骤;若存储有文件信息,则从文件缓冲池中取出目标文件信息,并对目标文件信息对应的待处理文件的内容进行检测,以及继续执行第二判断步骤;若未存储有文件信息,则继续执行第二判断步骤;直至计算设备中的待处理文件全部被检测完,停止执行第二判断步骤。
可选地,在根据本发明的文件内容检查方法中,在响应于启动文件内容检查的操作之前,还包括:显示检查条件的配置界面,以便通过配置界面配置检查条件,检查条件包括文件检测线程进行内容检测时所依据的检测条件以及文件搜索线程搜索待处理文件时所依据的搜索条件。
可选地,在根据本发明的文件内容检查方法中,当计算设备中的待处理文件全部被搜索到后,由一文件搜索线程广播搜索结束消息,以及文件检测线程通过如下方式判断计算设备中的待处理文件是否全部被检测完:在判定文件缓冲池中当前未存储有文件信息后,检测是否有搜索线程已广播搜索结束消息;若有,则判定计算设备中的待处理文件已全部被检测完;否则,判定计算设备中当前还存在未被检测的待处理文件。
可选地,在根据本发明的文件内容检查方法中,文件信息为文件路径。
可选地,在根据本发明的文件内容检查方法中,检测条件包括关键字,搜索条件包括以下一种或多种:搜索路径、文件类型、文件大小、文件创建时间以及修改时间。
可选地,在根据本发明的文件内容检查方法中,搜索路径包括桌面、回收站以及即时通软件的缓存目录,文件类型包括Office类型、WPS类型、永中类型、图片类型、网络类型以及邮件类型。
根据本发明的又一个方面,提供一种计算设备,包括:至少一个处理器;以及存储器,存储有程序指令,其中,程序指令被配置为适于由至少一个处理器执行,程序指令包括用于执行根据本发明的文件内容检查方法的指令。
根据本发明的又一个方面,提供一种存储有程序指令的可读存储介质,当程序指令被计算设备读取并执行时,使得计算设备执行根据本发明的文件内容检查方法。
综上,在本发明中,文件搜索工作和文件检测工作分别由文件搜索线程和文件检测线程执行,并且,各文件搜索线程将搜索到的待处理文件的文件信息存储至文件缓冲池后,可由任一文件检测线程从中获取并对其所对应的待处理文件进行内容检测。也就是说,本发明在进行文件内容检查时,由不同线程执行文件搜索工作和文件检测工作,并且,由文件搜索线程搜索到的各文件可由任一文件检测线程对其进行内容检测,显然这样,可有效避免现有技术中多个线程等待某一线程情况的发生,从而可提高文件内容的检查效率。
另外,本发明是根据计算设备的处理器配置确定创建文件搜索线程的数量和文件检测线程的数量,这样可在保证检查效率的同时还能保证处理器的占用率不会过高。
附图说明
为了实现上述以及相关目的,本文结合下面的描述和附图来描述某些说明性方面,这些方面指示了可以实践本文所公开的原理的各种方式,并且所有方面及其等效方面旨在落入所要求保护的主题的范围内。通过结合附图阅读下面的详细描述,本公开的上述以及其它目的、特征和优势将变得更加明显。遍及本公开,相同的附图标记通常指代相同的部件或元素。
图1示出了根据本发明一个实施例的计算设备100的结构框图;
图2示出了根据本发明一个实施例的文件内容检查方法200的流程图;
图3示出了根据本发明又一个实施例的文件内容检查方法的示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
目前的文件内容检查方法,检查效率较低。基于此,本发明提供了一种文件内容检查方法。本发明的文件内容检查方法可以在计算设备中执行。图1示出了计算设备100的物理组件(即,硬件)的框图。在基本配置中,计算设备100包括至少一个处理单元102和系统存储器104。根据一个方面,取决于计算设备的配置和类型,处理单元102可以实现为处理器。系统存储器104包括但不限于易失性存储(例如,随机存取存储器)、非易失性存储(例如,只读存储器)、闪速存储器、或者这样的存储器的任何组合。根据一个方面,系统存储器104中包括操作系统105和程序模块106,程序模块106中包括文件内容检查模块120,文件内容检查模块120被配置为执行本发明的文件内容检查方法200。
根据一个方面,操作系统105例如适合于控制计算设备100的操作。此外,示例结合图形库、其他操作系统、或任何其他应用程序而被实践,并且不限于任何特定的应用或系统。在图1中通过在虚线108内的那些组件示出了该基本配置。根据一个方面,计算设备100具有额外的特征或功能。例如,根据一个方面,计算设备100包括额外的数据存储设备(可移动的和/或不可移动的),例如磁盘、光盘、或者磁带。这样额外的存储在图1中是由可移动存储109和不可移动存储110示出的。
如在上文中所陈述的,根据一个方面,在系统存储器104中存储有程序模块。根据一个方面,程序模块可以包括一个或多个应用程序,本发明不限制应用程序的类型,例如应用程序可以包括:电子邮件和联系人应用程序、文字处理应用程序、电子表格应用程序、数据库应用程序、幻灯片展示应用程序、绘画或计算机辅助应用程序、网络浏览器应用程序等。
根据一个方面,可以在包括分立电子元件的电路、包含逻辑门的封装或集成的电子芯片、利用微处理器的电路、或者在包含电子元件或微处理器的单个芯片上实践示例。例如,可以经由其中在图1中所示出的每个或许多组件可以集成在单个集成电路上的片上系统(SOC)来实践示例。根据一个方面,这样的SOC设备可以包括一个或多个处理单元、图形单元、通信单元、系统虚拟化单元、以及各种应用功能,其全部作为单个集成电路而被集成(或“烧”)到芯片基底上。当经由SOC进行操作时,可以经由在单个集成电路(芯片)上与计算设备100的其他组件集成的专用逻辑来对在本文中所描述的功能进行操作。还可以使用能够执行逻辑操作(例如AND、OR和NOT)的其他技术来实践本发明的实施例,所述其他技术包括但不限于机械、光学、流体、和量子技术。另外,可以在通用计算机内或在任何其他任何电路或系统中实践本发明的实施例。
根据一个方面,计算设备100还可以具有一个或多个输入设备112,例如键盘、鼠标、笔、语音输入设备、触摸输入设备等。还可以包括输出设备114,例如显示器、扬声器、打印机等。前述设备是示例并且也可以使用其他设备。计算设备100可以包括允许与其他计算设备118进行通信的一个或多个通信连接116。合适的通信连接116的示例包括但不限于:RF发射机、接收机和/或收发机电路;通用串行总线(USB)、并行和/或串行端口。
如在本文中所使用的术语计算机可读介质包括计算机存储介质。计算机存储介质可以包括以任何用于存储信息(例如,计算机可读指示、数据结构、或程序模块)的方法或技术来实现的易失性的和非易失性的、可移动的和不可移动的介质。系统存储器104、可移动存储109、和不可移动存储110都是计算机存储介质的示例(即,存储器存储)。计算机存储介质可以包括随机存取存储器(RAM) 、只读存储器(ROM) 、电可擦只读存储器(EEPROM)、闪速存储器或其他存储器技术、CD-ROM、数字通用盘(DVD)或其他光存储、盒式磁带、磁带、磁盘存储器或其他磁存储设备、或者可用于存储信息并且可以由计算设备100访问的任何其他制品。根据一个方面,任何这样的计算机存储介质都可以是计算设备100的一部分。计算机存储介质不包括载波或其他经传播的数据信号。
根据一个方面,通信介质是由计算机可读指令、数据结构、程序模块、或者经调制的数据信号(例如,载波或其他传输机制)中的其他数据实施的,并且包括任何信息传递介质。根据一个方面,术语“经调制的数据信号”描述了具有一个或多个特征集或者以将信息编码在信号中的方式改变的信号。作为示例而非限制,通信介质包括诸如有线网络或直接有线连接之类的有线介质,以及诸如声学、射频(RF)、红外线的、以及其他无线介质之类的无线介质。
图2示出了根据本发明一个实施例的文件内容检查方法,方法200适于在计算设备(例如图1所示的计算设备100)中执行。其中,计算设备的CPU可以为ARM、AMD或MIPS架构,但不限于此。计算设备的操作系统可以为Windows操作系统,例如Win-xp sp3、Win7-32、Win7-64、Win10或Win11,也可以为以linux为内核的操作系统,例如UOS、麒麟或方德,当然还可以为其他的操作系统,对此本发明不作限定。
需说明的是,在本实施例中,计算设备包括用于存储已搜索到的各文件的文件信息的文件缓冲池。其中,关于文件缓冲池的大小,可以设定为一默认值(例如10000),也可以由用户自行来配置,对此本发明不作限定。
如图2所示,本发明的文件内容检查方法200始于210。其中,在210之前,还包括显示检查条件的配置界面,以便通过该配置界面配置检查条件。
根据本发明的一个实施例,可以设定一操作来调出检查条件的配置界面。设定的操作具体可以为条件配置接口的触发操作或者预定快捷键的输入操作。如此该步骤则为,响应于对条件配置接口的触发操作或者预定快捷键的输入操作,显示检查条件的配置界面。
条件配置接口具体可实现为一条件配置控件。这样,当用户点击该控件后,则在当前桌面显示检测条件的配置界面。进一步地,为了便于用户操作,可以将条件配置控件显示在桌面的任务栏上。而,关于预定快捷键,则可以将其设定为WIN+Shift的组合键。如此,当用户按下WIN+Shift的组合键后,则在当前桌面显示检测条件的配置界面。
需说明的是,上述关于配置界面调出操作的设定仅是一个示例,对此本发明不作限定。在具体的实施例中,本领域的技术人员可以根据实际需要进行设定。
接下来,对检查条件的配置界面进行说明。根据本发明的一个实施例,检查条件可以包括文件检测线程检测文件内容时所依据的检测条件以及文件搜索线程搜索文件时所依据的搜索条件。基于此,检查条件的配置界面中则可包括检测条件配置项和搜索条件配置项。
在一些实施例中,检测条件可以为关键字,搜索条件可以为搜索路径、文件类型、文件大小、文件创建时间以及修改时间中的一种或多种。如此,检测条件配置项则可具体为关键字输入框,搜索条件配置项则可具体包括搜索路径、文件类型、文件大小、文件创建时间和文件修改时间五个下拉选项框以及一个默认勾选框(默认勾选框被选中时,其余下拉选项框中被选中的选项自动失效,搜索范围为整个磁盘)。进一步地,搜索路径下拉选项框中可以包括桌面、回收站、即时通软件的缓存目录(例如微信、钉钉、QQ等缓存目录)以及自定义等选项,文件类型下拉选项框中可以包括Office类型(.doc)、WPS类型(.wps)、永中类型(.eio)、图片类型(.jpg)、网络类型(.html)、邮件类型(.emal)、版式类型(.pdf)以及自定义等选项。
即,检查条件的配置界面中包括搜索路径下拉选项框、文件类型下拉选项框、文件大小下拉选项框、文件创建时间下拉选项框、文件修改时间下拉选项框、默认勾选框以及关键字输入框。其中,搜索路径下拉选项框中包括桌面、回收站、即时通软件的缓存目录和自定义选项,文件类型下拉选项框中包括Office类型、WPS类型、永中类型、图片类型、网络类型、邮件类型、版式类型和自定义选项。如此,用户则可通过配置界面中的输入框配置检测条件,通过下拉选项框或默认勾选框配置搜索条件。可见,本发明支持对搜索条件进行配置,这样可大大减少搜索范围,减少检查文件的数量,从而可提高检查效率。
在此说明一下,在配置搜索条件时,本发明支持配置多个搜索条件。即,可以对搜索路径、文件类型、文件大小、文件创建时间以及文件修改时间中的多个进行设定。例如,用户在搜索路径下拉框中设定搜索路径后、还可在文件类型下拉框中设定文件类型。
另外,根据本发明的一个实施例,启动文件内容检查的操作可以为对启动检查控件的点击操作。基于此,检查条件的配置界面中还可以包括一启动检查控件。这样当用户在检查条件的配置界面中配置完搜索条件和检测条件后,则可通过点击启动检查控件来触发文件内容检查的启动。需说明的是,上述对检查条件配置界面以及启动文件内容检查操作的设定,只是一个示例,对此本发明不作限定。在具体的实施例中,本领域的技术人员可以根据实际需要进行设定。
其中,当监听到用户执行文件内容检查的操作后,则响应于启动文件内容检查的操作,进入210,基于计算设备的处理器配置,创建第一预定数量个线程作为文件搜索线程,以及创建第二预定数量个线程作为文件检测线程。进一步地,处理器可以为CPU,即基于计算设备的CPU配置,创建第一预定数量个线程作为文件搜索线程,以及创建第二预定数量个线程作为文件检测线程。
在一些实施例中,可以将创建的文件搜索线程和文件检测线程分别存储至文件搜索线程池和文件检测线程池。如此该步骤则为,创建第一预定数量个线程,并将其作为文件搜索线程存储至文件搜索线程池,以及创建第二预定数量个线程,并将其作为文件检测线程存储至文件检测线程池。
根据本发明的一个实施例,第一预定数量与第二预定数量可以相同。进一步地,在一些实施例中,为了保证检查效率的同时还能保证CPU的占用率不会过高,可以将第一预定数量与第二预定数量设定为CPU核心数目的75%或50%。下面作一示例,当CPU核心数目为8时,则创建6个或4个线程作为文件搜索线程存储至文件搜索线程池,同时创建6个或4个线程作为文件检测线程存储至文件检测线程池。
需要说明的是,上述关于第一预定数量和第二预定数量的设定,仅是一个示例,对此本发明不作限定,例如也可以设定为CPU核心数目的100%、25%等。在具体的实施例中,本领域的技术人员可以根据实际需要进行设定。
接下来,对文件内容检查过程中文件搜索线程以及文件检测线程具体如何工作进行说明。首先,对文件搜索线程进行说明。
在220中,第一预定数量个文件搜索线程从计算设备中搜索待处理文件,并将搜索到的各待处理文件的文件信息存储至文件缓冲池。其中,文件缓冲池的大小可以为第三预定数量,即,文件缓冲池最多能存储的文件信息的数量为第三预定数量。基于此,第一预定数量个文件搜索线程则可通过如下方式来从计算设备中搜索待处理文件。在此先说明一下,待处理文件是指满足搜索条件的文件。
具体地,各文件搜索线程判断文件缓冲池中当前存储的文件信息的数量是否达到第三预定数量(为了便于描述,后续将该步骤称为第一判断步骤)。在一些实施例中,文件信息可以为文件路径,如此该步骤则为,当文件内容检查任务启动后,每一个文件搜索线程则判断文件缓冲池中当前存储的文件路径的条数是否已达到第三预定数量。
若未达到第三预定数量,表明文件缓冲池中当前存储的文件信息的数量还未达到上限,则从计算设备(进一步讲,计算设备的磁盘)中搜索待处理文件,并将搜索到的待处理文件的文件信息存储至文件缓冲池,然后继续执行第一判断步骤,以便从计算设备中继续搜索待处理文件,直至计算设备中的待处理文件全部被搜索到,则停止第一判断步骤的执行,即停止工作。
若达到第三预定数量,表明文件缓冲池中当前存储的文件信息的数量已达到上限,此时接着执行第一判断步骤,以待文件缓冲池中存储的文件信息的数量减少至小于第三预定数量时(即有文件检测线程从文件缓冲池中取出文件信息后),从计算设备中继续搜索待处理文件,直至计算设备中的待处理文件全部被搜索到,则停止第一判断步骤的执行,即停止工作。
另外,在一些实施例中,当计算设备中的待处理文件全部被搜索到后,可由一搜索线程来广播一搜索结束消息,以便后续文件检测线程判断计算设备中的待处理文件是否已全部被检测完(对此暂且不表,后续将予以说明)。进一步地,关于搜索结束消息,可以由从计算设备中搜索到最后一个待处理文件的搜索线程来广播,即,当某一搜索线程从计算设备中搜索到最后一个待处理文件后,则广播搜索结束消息。
可见,在本发明中,文件内容检查任务启动后,各文件搜索线程则检测文件缓冲池当前是否已满,若已满,则等待,若未满,则从计算设备的磁盘中搜索满足搜索条件的文件,并将搜索到的文件的文件信息存储至文件缓冲池,直至磁盘中所有满足搜索条件的文件全部被搜索到,所有文件搜索线程则停止工作。下面对文件检测线程进行说明。
在230中,第二预定数量个文件检测线程从文件缓冲池中取出各文件信息,并对所取出的各文件信息对应的待处理文件进行内容检测。具体如下。
各文件检测线程判断文件缓冲池中当前是否存储有文件信息(为了便于描述,后续将该步骤称为第二判断步骤)。上述已指出各文件搜索线程每搜索到一个待处理文件,则将其文件信息存储至文件缓冲池,因此一个文件信息对应一个待处理文件,进一步地,文件缓冲池中的一个文件信息对应一个未检测的待处理文件。
基于此,若文件缓冲池中当前存储有文件信息,表明当前存在未检测的待处理文件,则从文件缓冲池中取出目标文件信息,并对目标文件信息对应的待处理文件的内容进行检测,然后继续执行第二判断步骤,以便对搜索到的其他待处理文件继续进行内容检测,直至计算设备中的待处理文件全部被检测完,则停止第二判断步骤的执行,即停止工作。
在此说明一下,目标文件信息为文件缓冲池中的任一文件信息。本实施例为了便于描述,将任一文件检测线程在确定当前文件缓冲池中存储有文件信息时,其从文件缓冲池中取出的文件信息称为目标文件信息。
另外,在一些实施例中,可以通过如下方式对目标文件信息对应的待处理文件内容进行检测。具体地,首先依据目标文件信息,从计算设备中获取目标文件信息对应的待处理文件。例如,当文件信息为文件路径时,则从计算设备中获取目标文件路径对应的文件(即目标文件路径所指向的那个文件),并将该文件作为目标文件路径对应的待处理文件。然后,对获取到的待处理文件进行内容提取,并将提取的内容与关键字进行匹配。匹配成功,则将获取到的此待处理文件判定为目标文件。其中,关于内容提取和关键字匹配的过程,在此不再详细说明,具体可参考已有技术。
若文件缓冲池中当前未存储有文件信息,表明当前不存在未检测的待处理文件,则接着执行第二判断步骤,以待文件搜索线程从计算设备中搜索到待处理文件后,对其进行内容检测,直至计算设备中的待处理文件全部被检测完,则停止第二判断步骤的执行,即停止工作。
关于文件检测线程如何判断计算设备中的待处理文件是否全部被检测完,在此说明一下。上述已指出,当计算设备中的待处理文件全部被搜索到后,会有一搜索线程广播搜索结束消息,因此,在一些实施例中,文件检测线程可以通过如下方式来判断计算设备中的待处理文件是否全部被检测完。具体地,当判定文件缓冲池中当前未存储有文件信息后,检测是否有搜索线程已广播搜索结束消息,若有,则判定计算设备中的待处理文件已全部被检测完,若没有,则判定计算设备中当前还存在未被检测的待处理文件,即计算设备中的待处理文件还未全部被检测完。如此,也就是说,文件检测线程每在判定文件缓冲池中当前未存储有文件信息后,其会先检测是否有搜索线程已广播搜索结束消息,若没有,则再继续执行第二判断步骤,若有,则停止第二判断步骤的执行。需说明的是,上述示出的文件检测线程判断计算设备中的待处理文件是否全部被检测完的方法,只是一个示例,对此本发明不作限定。
可见,在本发明中,文件内容检查任务启动后,各文件检测线程则检测文件缓冲池当前是否为空,若为空,则等待,若不为空,则从文件缓冲池取出一文件信息,并依据该文件信息获取其所对应的文件,然后对该文件的内容进行检测,直至磁盘中所有满足搜索条件的文件全部被检测完,所有文件检测线程则停止工作。
为了更好的理解本发明,下面结合图3给出一个具体的示例。其中,在该示例中,检查用户是否通过邮箱发送过敏感信息,CPU核心的数目为8,文件缓冲池用于存储已搜索到的文件的存储路径(存储路径即上文中的文件路径),并且最多能存储10000条。具体如下。
首先,响应于用户对任务栏中条件配置控件的点击操作,在当前桌面显示包括搜索条件和检测条件的配置界面。
然后,响应于用户在配置界面中将搜索条件的文件类型下的邮件类型选中,并在关键字输入框中输入表征敏感信息的关键字后,对启动检查控件的点击操作,创建6个文件搜索线程存储至文件搜索线程池,以及创建6个文件检测线程存储至文件检测线程池。
随后:
文件搜索线程池中的各文件搜索线程检测当前文件缓冲池中存储路径的条数是否达到10000条,若未达到,则从磁盘中搜索.emal文件,并将搜索到的.emal文件的存储路径存储至文件缓冲池,若已达到,则等待文件缓冲池中的存储路径条数小于10000条后,再从磁盘中搜索.emal文件,直至磁盘中的所有.emal文件全部被搜索到,文件搜索线程池中的所有文件搜索线程停止工作。
即,当文件缓冲池中存储路径的条数小于或等于9994条时,所有文件搜索线程则全部工作。当文件缓冲池中存储路径的条数大于9994且小于10000条时,则10000与当前文件缓冲池中存储路径条数之差个文件搜索线程工作,其他文件搜索线程等待,即处于等待状态,例如,当文件缓冲池中存储路径条数为9997时,则3个文件搜索线程工作,3个文件搜索线程等待。当文件缓冲池中存储路径的条数为10000时,所有文件搜索线程则等待。当磁盘中所有的.emal文件全部被搜索到后,所有的文件搜索线程则停止工作。
文件检测线程池中的各文件检测线程检测当前文件缓冲池中是否存在存储路径,若存在,则从中取出一存储路径,并对该存储路径对应的.emal文件进行内容检测,若不存在,则等待文件缓冲池中存在存储路径后,再进行内容检测,直至磁盘中所有.emal的文件全部被检测完,文件检测线程池中的所有文件检测线程停止工作。
即,当文件缓冲池中存储路径的条数为0时,所有文件检测线程则等待。当文件缓冲池中存储路径的条数大于0且小于6时,则当前文件缓冲池中存储路径条数个文件检测线程工作,其他文件检测线程等待,例如,文件缓冲池中存储路径的条数为2时,则2个文件检测线程工作,4个文件检测线程等待。当文件缓冲池中存储路径的条数大于或等于6时,所有文件检测线程则全部工作。当磁盘中所有的.emal文件全部被检测完后,所有的文件检测线程则停止工作。
关于文件检测线程对所搜索到的任一.emal文件进行内容检测的过程,在此说明一下。具体地,依据文件缓冲池中的存储路径,从磁盘中获取该.emal文件,其中可包括主题、正文以及附件。然后,提取文件内容,并与关键字进行匹配。
可见,在本发明中,当文件搜索线程搜索到一定数量的文件后,文件检测线程池中的文件检测线程则全力检测。并且,当搜索到的文件数量达到上限后,文件搜索线程池中的文件搜索线程则停止搜索,待文件检测线程检测一定数量的文件后,再全力搜索。即,在本发明中,实际工作的文件检测线程数量和实际工作的文件搜索线程的数量会根据搜索到的文件数量动态调整,这样既可保证存放临时数据的内存不会过高还可提高检查效率。
最后,检查结束后,如果存在与关键字匹配成功的.emal文件,则判定用户通过邮箱发送过敏感信息,否则,判定用户未通过邮箱发送过敏感信息。
综上,在本发明中,文件搜索工作和文件检测工作分别由文件搜索线程和文件检测线程执行,并且,各文件搜索线程将搜索到的待处理文件的文件信息存储至文件缓冲池后,可由任一文件检测线程从中获取并对其所对应的待处理文件进行内容检测。即,本发明在进行文件内容检查时,由不同线程执行文件搜索工作和文件检测工作,并且,由文件搜索线程搜索到的各文件可由任一文件检测线程对其进行内容检测,显然这样,可有效避免现有技术中多个线程等待某一线程情况的发生,从而可提高文件内容的检查效率。
进一步地,本发明支持对搜索条件进行配置,这样可大大减少搜索范围,减少检查文件的数量,从而可进一步地提高检查效率。
另外,本发明是根据计算设备的处理器配置确定创建文件搜索线程的数量和文件检测线程的数量,这样可在保证检查效率的同时还能保证处理器的占用率不会过高。
这里描述的各种技术可结合硬件或软件,或者它们的组合一起实现。从而,本发明的方法和设备,或者本发明的方法和设备的某些方面或部分可采取嵌入有形媒介,例如可移动硬盘、U盘、软盘、CD-ROM或者其它任意机器可读的存储介质中的程序代码(即指令)的形式,其中当程序被载入诸如计算机之类的机器,并被所述机器执行时,所述机器变成实践本发明的设备。
在程序代码在可编程计算机上执行的情况下,计算设备一般包括处理器、处理器可读的存储介质(包括易失性和非易失性存储器和/或存储元件),至少一个输入装置,和至少一个输出装置。其中,存储器被配置用于存储程序代码;处理器被配置用于根据该存储器中存储的所述程序代码中的指令,执行本发明的文件内容检查方法。
以示例而非限制的方式,可读介质包括可读存储介质和通信介质。可读存储介质存储诸如计算机可读指令、数据结构、程序模块或其它数据等信息。通信介质一般以诸如载波或其它传输机制等已调制数据信号来体现计算机可读指令、数据结构、程序模块或其它数据,并且包括任何信息传递介质。以上的任一种的组合也包括在可读介质的范围之内。
在此处所提供的说明书中,算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与本发明的示例一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本发明也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本发明的内容,并且上面对特定语言所做的描述是为了披露本发明的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本发明的实施例可以在没有这些具体细节的情况下被实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
应当理解,为了精简本公开并帮助理解各个发明方面中的一个或多个,在上面对本发明的示例性实施例的描述中,本发明的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本发明要求比在每个权利要求中所明确记载的特征更多特征。
本领域那些技术人员应当理解在本文所公开的示例中的设备的模块或单元或组件可以布置在如该实施例中所描述的设备中,或者可替换地可以定位在与该示例中的设备不同的一个或多个设备中。前述示例中的模块可以组合为一个模块或者此外可以分成多个子模块。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。
此外,所述实施例中的一些在此被描述成可以由计算机系统的处理器或者由执行所述功能的其它装置实施的方法或方法元素的组合。因此,具有用于实施所述方法或方法元素的必要指令的处理器形成用于实施该方法或方法元素的装置。此外,装置实施例的在此所述的元素是如下装置的例子:该装置用于实施由为了实施该发明的目的的元素所执行的功能。
如在此所使用的那样,除非另行规定,使用序数词“第一”、“第二”、“第三”等等来描述普通对象仅仅表示涉及类似对象的不同实例,并且并不意图暗示这样被描述的对象必须具有时间上、空间上、排序方面或者以任意其它方式的给定顺序。
尽管根据有限数量的实施例描述了本发明,但是受益于上面的描述,本技术领域内的技术人员明白,在由此描述的本发明的范围内,可以设想其它实施例。此外,应当注意,本说明书中使用的语言主要是为了可读性和教导的目的而选择的,而不是为了解释或者限定本发明的主题而选择的。因此,在不偏离所附权利要求书的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。对于本发明的范围,对本发明所做的公开是说明性的,而非限制性的,本发明的范围由所附权利要求书限定。
Claims (10)
1.一种文件内容检查方法,适于在计算设备中执行,所述计算设备包括文件缓冲池,所述方法包括:
响应于启动文件内容检查的操作,基于所述计算设备的处理器配置,创建第一预定数量个线程作为文件搜索线程,以及创建第二预定数量个线程作为文件检测线程;
所述第一预定数量个文件搜索线程从所述计算设备中搜索待处理文件,并将搜索到的各待处理文件的文件信息存储至所述文件缓冲池;
所述第二预定数量个文件检测线程从所述文件缓冲池中取出各文件信息,并对所取出的各文件信息对应的待处理文件进行内容检测。
2.如权利要求1所述的方法,其中,所述第一预定数量个文件搜索线程从所述计算设备中搜索待处理文件,并将搜索到的各待处理文件的文件信息存储至所述文件缓冲池,包括:
各所述文件搜索线程执行判断所述文件缓冲池中当前存储的文件信息的数量是否达到第三预定数量的第一判断步骤,所述第三预定数量为所述文件缓冲池最多能存储的文件信息的数量;
若未达到第三预定数量,则从所述计算设备中搜索待处理文件,并将搜索到的待处理文件的文件信息存储至所述文件缓冲池,以及继续执行所述第一判断步骤;
若达到第三预定数量,则继续执行所述第一判断步骤;
直至所述计算设备中的待处理文件全部被搜索到,停止执行所述第一判断步骤。
3.如权利要求1所述的方法,其中,所述第二预定数量个文件检测线程从所述文件缓冲池中取出各文件信息,并对所取出的各文件信息对应的待处理文件进行内容检测,包括:
各所述文件检测线程执行判断所述文件缓冲池中当前是否存储有文件信息的第二判断步骤;
若存储有文件信息,则从所述文件缓冲池中取出目标文件信息,并对所述目标文件信息对应的待处理文件的内容进行检测,以及继续执行所述第二判断步骤;
若未存储有文件信息,则继续执行所述第二判断步骤;
直至所述计算设备中的待处理文件全部被检测完,停止执行所述第二判断步骤。
4.如权利要求1-3中任一项所述的方法,其中,在响应于启动文件内容检查的操作之前,还包括:
显示检查条件的配置界面,以便通过所述配置界面配置检查条件,所述检查条件包括所述文件检测线程进行内容检测时所依据的检测条件以及所述文件搜索线程搜索待处理文件时所依据的搜索条件。
5.如权利要求3所述的方法,其中,当所述计算设备中的待处理文件全部被搜索到后,由一文件搜索线程广播搜索结束消息,以及所述文件检测线程通过如下方式判断所述计算设备中的待处理文件是否全部被检测完:
在判定所述文件缓冲池中当前未存储有文件信息后,检测是否有搜索线程已广播所述搜索结束消息;
若有,则判定所述计算设备中的待处理文件已全部被检测完;
否则,判定所述计算设备中当前还存在未被检测的待处理文件。
6.如权利要求1-3中任一项所述的方法,其中,所述文件信息为文件路径。
7.如权利要求4所述的方法,其中,所述检测条件包括关键字,所述搜索条件包括以下一种或多种:搜索路径、文件类型、文件大小、文件创建时间以及修改时间。
8.如权利要求7所述的方法,其中,所述搜索路径包括桌面、回收站以及即时通软件的缓存目录,所述文件类型包括Office类型、WPS类型、永中类型、图片类型、网络类型以及邮件类型。
9.一种计算设备,包括:
至少一个处理器;以及
存储器,存储有程序指令,其中,所述程序指令被配置为适于由所述至少一个处理器执行,所述程序指令包括用于执行如权利要求1-8中任一项所述的方法的指令。
10.一种存储有程序指令的可读存储介质,当所述程序指令被计算设备读取并执行时,使得所述计算设备执行如权利要求1-8中任一项所述方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211652961.1A CN115658610B (zh) | 2022-12-22 | 2022-12-22 | 一种文件内容检查方法、计算设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211652961.1A CN115658610B (zh) | 2022-12-22 | 2022-12-22 | 一种文件内容检查方法、计算设备及可读存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN115658610A true CN115658610A (zh) | 2023-01-31 |
CN115658610B CN115658610B (zh) | 2023-03-31 |
Family
ID=85022428
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211652961.1A Active CN115658610B (zh) | 2022-12-22 | 2022-12-22 | 一种文件内容检查方法、计算设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN115658610B (zh) |
Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN109669776A (zh) * | 2018-12-12 | 2019-04-23 | 北京文章无忧信息科技有限公司 | 检测任务的处理方法、装置和系统 |
US10387919B1 (en) * | 2006-06-30 | 2019-08-20 | Google Llc | Accelerated content delivery in bandwidth-constrained networks |
CN112597275A (zh) * | 2020-12-25 | 2021-04-02 | 上海幻电信息科技有限公司 | 内容搜索方法及装置 |
CN114968953A (zh) * | 2022-05-19 | 2022-08-30 | 招商银行股份有限公司 | 日志的存储检索方法、系统、终端设备及介质 |
-
2022
- 2022-12-22 CN CN202211652961.1A patent/CN115658610B/zh active Active
Patent Citations (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10387919B1 (en) * | 2006-06-30 | 2019-08-20 | Google Llc | Accelerated content delivery in bandwidth-constrained networks |
CN109669776A (zh) * | 2018-12-12 | 2019-04-23 | 北京文章无忧信息科技有限公司 | 检测任务的处理方法、装置和系统 |
CN112597275A (zh) * | 2020-12-25 | 2021-04-02 | 上海幻电信息科技有限公司 | 内容搜索方法及装置 |
CN114968953A (zh) * | 2022-05-19 | 2022-08-30 | 招商银行股份有限公司 | 日志的存储检索方法、系统、终端设备及介质 |
Also Published As
Publication number | Publication date |
---|---|
CN115658610B (zh) | 2023-03-31 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10067790B2 (en) | Method and apparatus for displaying information to a user and the user optimizing running of the processes | |
US10860337B2 (en) | Method, device and user terminal for loading application | |
WO2019041753A1 (zh) | 信息修改方法、装置、计算机设备及计算机可读存储介质 | |
EP2678775A2 (en) | Multi-phase resume from hibernate | |
CN101310255A (zh) | 硬件辅助的装置配置检测 | |
CN113704301A (zh) | 异构计算平台的数据处理方法、装置、系统、设备及介质 | |
CN114416252A (zh) | 一种窗口显示方法、装置、计算设备和存储介质 | |
CN115658610B (zh) | 一种文件内容检查方法、计算设备及可读存储介质 | |
US11500647B2 (en) | Systems and methods for achieving faster boot times using BIOS attribute mitigation | |
CN113342452A (zh) | 一种窗口显示方法、计算设备及可读存储介质 | |
US8762953B2 (en) | Exception-based error handling in an array-based language | |
CN106570061B (zh) | 一种网页标签的管理方法及移动终端 | |
CN114816772B (zh) | 基于兼容层运行的应用的排错方法、排错系统及计算设备 | |
CN111858366A (zh) | 一种测试用例生成方法、装置、设备及存储介质 | |
CN108062224B (zh) | 基于文件句柄的数据读写方法、装置及计算设备 | |
US20110225408A1 (en) | Cache boot mechanism | |
CN113641632B (zh) | 一种命令行提取日志数据转图形展示的方法 | |
EP3210101B1 (en) | Hit-test to determine enablement of direct manipulations in response to user actions | |
KR102382303B1 (ko) | 블루투스 검색 방법 및 장치 | |
US20090307479A1 (en) | Computer execution system for starting program quickly and method thereof | |
CN113467695B (zh) | 一种任务执行方法、装置、计算设备及存储介质 | |
US9524307B2 (en) | Asynchronous error checking in structured documents | |
CN116166696A (zh) | 一种数据缓存方法、装置及计算机可读存储介质 | |
CN114880034A (zh) | 一种强制关闭应用程序的方法和装置 | |
CN114265533A (zh) | 一种资源访问方法、计算设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |