CN114936379A - 文件扫描方法、装置、电子设备及存储介质 - Google Patents

文件扫描方法、装置、电子设备及存储介质 Download PDF

Info

Publication number
CN114936379A
CN114936379A CN202210459816.5A CN202210459816A CN114936379A CN 114936379 A CN114936379 A CN 114936379A CN 202210459816 A CN202210459816 A CN 202210459816A CN 114936379 A CN114936379 A CN 114936379A
Authority
CN
China
Prior art keywords
file
text
target
scanning
scanned
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210459816.5A
Other languages
English (en)
Inventor
钟丹晔
徐世伟
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Jiangsu Baowangda Software Technology Co ltd
Original Assignee
Jiangsu Baowangda Software Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Jiangsu Baowangda Software Technology Co ltd filed Critical Jiangsu Baowangda Software Technology Co ltd
Priority to CN202210459816.5A priority Critical patent/CN114936379A/zh
Publication of CN114936379A publication Critical patent/CN114936379A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/16File or folder operations, e.g. details of user interfaces specifically adapted to file systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/903Querying
    • G06F16/90335Query processing
    • G06F16/90344Query processing by using string matching techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/12Use of codes for handling textual entities
    • G06F40/151Transformation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Bioethics (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computer Security & Cryptography (AREA)
  • Human Computer Interaction (AREA)
  • Computer Hardware Design (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种文件扫描方法、装置、电子设备及存储介质。该方法包括:在接收到待扫描文件时,将待扫描文件转换为目标扫描文本并存储;确定与目标扫描文本相对应的至少一个正则表达式;基于目标服务和至少一个正则表达式,对获取到的目标扫描文本进行扫描处理,确定待扫描文件的敏感等级或脱敏文本。本发明实施例的技术方案通过将待扫描文件转换为文本格式的文件,并基于目标服务和正则表达式对目标扫描文本进行处理,从而确定出待扫描文件的敏感等级或脱敏文本,解决了现有技术中对大文件扫描效率低,容易出现扫描中段的问题,实现了对待扫描文件的快速扫描,提高用户的文件扫描体验。

Description

文件扫描方法、装置、电子设备及存储介质
技术领域
本发明涉及数据处理术领域,尤其涉及文件扫描方法、装置、电子设备及存储介质。
背景技术
现有文件扫描技术中,一般是采用java正则匹配的方式进行扫描,但是随着文件大小的增加,当文件大小达到几百兆时,扫描速度急剧下降,扫描时间几十分钟到几小时不等,甚至会出现扫描中途中断扫描失败等情况,严重影响用户使用。
为了解决上述现有技术存在的问题,需要对现有的文件扫描技术进行改进。
发明内容
本发明提供了一种文件扫描方法、装置、电子设备及存储介质,以解决本现有技术中对大文件扫描效率低,容易出现扫描中段的问题,实现了对待扫描文件的快速扫描,提高用户的文件扫描体验。
根据本发明的一方面,提供了一种文件扫描方法,所述方法包括:
在接收到待扫描文件时,将所述待扫描文件转换为目标扫描文本并存储;
确定与所述目标扫描文本相对应的至少一个正则表达式;
基于目标服务和所述至少一个正则表达式,对获取到的目标扫描文本进行扫描处理,确定所述待扫描文件的敏感等级或脱敏文本。
根据本发明的另一方面,提供了一种文件扫描装置,所述装置包括:
待扫描文件转换模块,用于在接收到待扫描文件时,将所述待扫描文件转换为目标扫描文本并存储;
正则表达式确定模块,用于确定与所述目标扫描文本相对应的至少一个正则表达式;
敏感等级确定模块,用于基于目标服务和所述至少一个正则表达式,对获取到的目标扫描文本进行扫描处理,确定所述待扫描文件的敏感等级或脱敏文本。
根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的文件扫描方法。
根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的文件扫描方法。
本发明实施例的技术方案,通过在接收到待扫描文件时,将待扫描文件转换为目标扫描文本并存储;确定与目标扫描文本相对应的至少一个正则表达式;基于目标服务和至少一个正则表达式,对获取到的目标扫描文本进行扫描处理,确定待扫描文件的敏感等级或脱敏文本,解决了现有技术中对大文件扫描效率低,容易出现扫描中段的问题,实现了对待扫描文件的快速扫描,提高用户的文件扫描体验。
应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例一提供的一种文件扫描方法的流程图;
图2是根据本发明实施例二提供的一种文件扫描方法的流程图;
图3是根据本发明实施例三提供的一种文件扫描装置的结构示意图;
图4是实现本发明实施例的文件扫描方法的电子设备的结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分的实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明保护的范围。
需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
实施例一
图1为本发明实施例一提供了一种文件扫描方法的流程图,本实施例可适用于需要对文件扫描的情况,该方法可以由文件扫描装置来执行,该装置可以采用硬件和/或软件的形式实现。如图1所示,该方法包括:
S110、在接收到待扫描文件时,将待扫描文件转换为目标扫描文本并存储。
可以理解为,可以按照本实施例的方案,开发相应的应用软件或者PC端上使用的交互界面、应用软件中的某个嵌入功能。可以基于该软件或交互界面实现对文件的扫描。
其中,待扫描文件可以是应用软件的显示界面上传的文件,待扫描文件可以但不限于以下类型的文件,如excel、word、ppt、pdf等类型的文件。目标扫描文本是待扫描文件经过转换得到的文本,例如,目标扫描文本为txt格式的文本、csv格式的文本。
具体的,可以将待扫描的文件通过应用软件的显示界面进行上传,在上传后,应用软件可以对需要扫描的文件进行格式转换,将待扫描文件转换为文本文件,并进行存储。
示例性的,待扫描文件A为excel格式的文件,可以通过应用软件中的扫描服务将文件A转换为与其对应的csv格式的文本文件,并进行存储。
可选的,在接收到待扫描文件时,将待扫描文件转换为目标扫描文本并存储,包括:获取在文件上传页面中上传的待扫描文件,并暂存至文件管理服务器中;从文件管理服务器中获取待扫描文件,并将待扫描文件转换为目标格式的目标扫描文本;存储目标扫描文本,并确定目标扫描文本的存储路径,以使目标服务基于存储路径获取目标扫描文本。
其中,文件上传页面文件为应用软件的某个显示页面,该显示页面上有对应的上传控件,通过该控件将待扫描文件上传。管理服务器是用于存储待扫描文件的服务器,可以但不限于ftp文件缓存服务器。目标格式可以为txt格式、csv格式。目标服务器是用于目标扫描文本进行正则匹配的服务器,目标服务器通过本实施例的应用软件实现服务。
具体的,应用软件在监测到上传控件被触发时,可以确定基于该控件所上传的待扫描文件,并将待扫描文件存储在文件管理服务器中。从文件管理服务器中获取到待扫描文件,并将该待扫描文件进行转换为txt格式或者csv格式的文本文件,作为目标扫描文本,并将该文本文件保存以及确定出保存的路径,以使目标服务器可以通过该存储获取到目标扫描文本。
S120、确定与目标扫描文本相对应的至少一个正则表达式。
需要说明的是,为了确定目标扫描文本中是否有敏感数据或者特定的数据,可以通过正则匹配的方式,对目标扫描文本进行正则匹配,如果目标扫描文本中有与正则表达式匹配的文本,可以确定该目标扫描文本含有敏感数据。
具体的,确定与目标扫描文件相对应的至少一个正则表达式可以在上传待扫描文件时选择或者填写的正则表达式。
可选的,确定与目标扫描文本相对应的至少一个正则表达式,包括:从敏感表达式库中选择至少一个正则表达式。
其中,敏感表达式库中存储有不同正则表达式,不同正则表达式用于匹配不同的敏感数据。如正则表达式A用于匹配身份ID,正则表达式B用于匹配电话号码,正则表达式C用于匹配车牌号信息等。
具体的,在应用软件的显示界面显示有敏感表达式库中的正则表达式,在上传待扫描文件的同时,可以点击显示界面中的一个或多个正则表达式,确定为与目标扫描文本相对应的正则表达式。
S130、基于目标服务和至少一个正则表达式,对获取到的目标扫描文本进行扫描处理,确定待扫描文件的敏感等级或脱敏文本。
其中,敏感等级可以为低敏感等级、中敏感等级、高敏感等级,可以是目标扫描文本中与正则匹配表达式相匹配的次数越多,敏感等级越高,敏感等级可以是用户自定义设置的,脱敏文本可以是对目标扫描文本中敏感文本进行脱敏处理后得到的文本。可选的,目标服务为Hyperscan服务。Hyperscan是Intel的高性能的正则表达式匹配库Hyperscan,大量高效算法及IntelSIMD*指令的使用实现了Hyperscan的高性能匹配,在正则匹配环节使用Hyperscan服务可以大幅提升文件扫描速度。
具体的,可以调用目标服务,使目标服务按照正则表达式对目标扫描文本中进行正则匹配,输出匹配结果,可以是将匹配次数作为结果,匹配次数越高,敏感等级越高,还可以将与正则表达式匹配的所有文本提取出来,进行脱敏处理,作为脱敏文本。
示例性的,目标扫描文件A中包含文本x、y1、y2、z,正则表达式为Y,通过目标服务对目标扫描文本按正则表达式Y进行正则匹配,其中文本y1、y2与正则表达式Y相匹配,且匹配次数较多,将该待扫描文件的敏感等级确定为高敏感等级,脱敏文本为y1、y2。
可选的,若确定目标扫描文本的敏感等级,则确定各正则表达式的敏感权重值,以在扫描目标扫描文本时,基于敏感权重值确定相应目标扫描文本的敏感等级。
在实际应用中,与目标扫描文本所对应的正则表达式可以为多个,每个正则表达式对应有敏感权重值,可以将各个正则表达式对应的匹配次数与敏感权重的积相加,得到结果,基于该结果确定敏感等级。
示例性的,与当前目标扫描文本对应有两个正则表达式,分别是正则表达式A和正则表达式B。其中,正则表达式A的敏感权重值30%、正则表达式A与目标扫描文本中敏感文本的匹配次数50,正则表达式B的敏感权重值70%、正则表达式B与目标扫描文本中敏感文本的匹配次数30。敏感权重值可以是用户根据实际需求所设置的,如果对于正则匹配A更敏感,则可以调高其敏感权重值。假设,低敏感等级对应的敏感数值为0-30,中敏感等级对应的敏感数值为30-50,高敏感等级对应的敏感数值为>50。基于匹配次数以及敏感权重值计算敏感数值,将各个正则表达式对应的敏感权重值与目标扫描文本匹配次数相乘以后,再相加,得到敏感数值为36,该数值处于30-50之间,可以确定目标扫描文本的等级为中敏感等级。
可选的,基于目标服务和至少一个正则表达式,对获取到的目标扫描文本进行扫描处理,包括:基于目标服务和预先编辑的存储路径,获取目标扫描文本;基于至少一个正则表达式,对目标扫描文本扫描处理。
其中,预先编辑的存储路径可以是在应用软件的显示界面中输入的存储路径,对待扫描文件转换为目标扫描文本后,目标扫描文本均存储在该路径下,以便于目标服务可以直接根据该存储路径对获取到目标扫描文本。
具体的,目标服务根据预先编辑的存储的路径获取目标扫描文本,并基于与该目标扫描文本相对应的正则表达式,对目标扫描文本进行正则匹配。
可选的,若确定与目标扫描文本相对应的脱敏文本,则确定至少一个正则表达将目标扫描文本中的敏感信息脱敏处理,以得到脱敏文本。
具体的,可以基于应用软件实现目标服务,将目标扫描文本中的敏感信息进行脱敏处理。例如,可以是将目标扫描文本中的电话号码信息进行处理,将电话号码的第4位至第7位替换为“*”,处理后的电话号码即为脱敏文本。
示例性的,目标扫描文本中的敏感信息为电话号码“12345678900”,则可以进行脱敏处理得到脱敏文本“123****8900”。
本发明实施例的技术方案,通过在接收到待扫描文件时,将待扫描文件转换为目标扫描文本并存储;确定与目标扫描文本相对应的至少一个正则表达式;基于目标服务和至少一个正则表达式,对获取到的目标扫描文本进行扫描处理,确定待扫描文件的敏感等级或脱敏文本,解决了现有技术中对大文件扫描效率低,容易出现扫描中段的问题,实现了对待扫描文件的快速扫描,提高用户的文件扫描体验。
实施例二
图2为本发明实施例二提供的一种文件扫描方法的流程图,本实施例与上述实施例的一优选实施例。其具体的实施方式可以参见本实施例技术方案。其中,与上述实施例相同或者相应的技术术语在此不再赘述。
如图2所示,该方法包括:
1.页面文件上传,将目标文件上传至ftp
2.扫描服务将ftp文件(excel、word、ppt、pdf等)转换为文本文件
3.查询数据库中配置的正则表达式
4.调用Hyperscan服务将正则表达式和ftp处理完文本文件的路径传给Hyperscan
5.Hyperscan服务处理文件根据正则匹配,输出匹配结果返回给扫描服务
6.扫描服务根据Hyperscan正则匹配结果给目标扫描文件定敏感等级
本发明实施例的技术方案中,对于大文件的扫描,先将文件转为文本文件,匹配环节替换原来的java正则匹配,引入Intel的高性能的正则表达式匹配库Hyperscan,大量高效算法及IntelSIMD*指令的使用实现了Hyperscan的高性能匹配,大幅提升文件扫描速度,实现了跨平台,跨语言交互(Hyperscan为C语言),解决单一语言能力短板(java语言)缺陷,提升性能。
本发明实施例的技术方案,通过在接收到待扫描文件时,将待扫描文件转换为目标扫描文本并存储;确定与目标扫描文本相对应的至少一个正则表达式;基于目标服务和至少一个正则表达式,对获取到的目标扫描文本进行扫描处理,确定待扫描文件的敏感等级或脱敏文本,解决了现有技术中对大文件扫描效率低,容易出现扫描中段的问题,实现了对待扫描文件的快速扫描,提高用户的文件扫描体验。
实施例三
图3为本发明实施例三提供的一种文件扫描装置的结构示意图。如图3所示,该装置包括:
待扫描文件转换模块310,用于在接收到待扫描文件时,将所述待扫描文件转换为目标扫描文本并存储;
正则表达式确定模块320,用于确定与所述目标扫描文本相对应的至少一个正则表达式;
敏感等级确定模块330,用于基于目标服务和所述至少一个正则表达式,对获取到的目标扫描文本进行扫描处理,确定所述待扫描文件的敏感等级或脱敏文本。
可选的,所述待扫描文件转换模块310包括:
文件上传模块,用于获取在文件上传页面中上传的待扫描文件,并暂存至文件管理服务器中;
文件转换模块,用于从所述文件管理服务器中获取所述待扫描文件,并将所述待扫描文件转换为目标格式的目标扫描文本;
文本存储模块,存储所述目标扫描文本,并确定所述目标扫描文本的存储路径,以使所述目标服务基于所述存储路径获取所述目标扫描文本。
可选的,所述待扫描文件转换模块320包括:
正则表达式选择模块,用于从敏感表达式库中选择至少一个正则表达式。
可选的,所述装置还包括:
敏感权重确定模块,用于若确定所述目标扫描文本的敏感等级,则确定各正则表达式的敏感权重值,以在扫描所述目标扫描文本时,基于所述敏感权重值确定相应目标扫描文本的敏感等级。
可选的,所述敏感等级确定模块330包括:
目标扫描文本获取模块,用于基于目标服务和预先编辑的存储路径,获取所述目标扫描文本;
目标扫描文本扫描模块,用于基于所述至少一个正则表达式,对所述目标扫描文本扫描处理。
可选的,所述装置还包括:
文本脱敏模块,用于若确定与所述目标扫描文本相对应的脱敏文本,则确定所述至少一个正则表达将所述目标扫描文本中的敏感信息脱敏处理,以得到所述脱敏文本。
可选的,所述目标服务为Hyperscan服务。
本发明实施例的技术方案,通过在接收到待扫描文件时,将待扫描文件转换为目标扫描文本并存储;确定与目标扫描文本相对应的至少一个正则表达式;基于目标服务和至少一个正则表达式,对获取到的目标扫描文本进行扫描处理,确定待扫描文件的敏感等级或脱敏文本,解决了现有技术中对大文件扫描效率低,容易出现扫描中段的问题,实现了对待扫描文件的快速扫描,提高用户的文件扫描体验。
本发明实施例所提供的文件扫描装置可执行本发明任意实施例所提供的文件扫描方法,具备执行方法相应的功能模块和有益效果。
实施例四
图4示出了可以用来实施本发明的实施例的电子设备40的结构示意图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备(如头盔、眼镜、手表等)和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本发明的实现。
如图4所示,电子设备40包括至少一个处理器41,以及与至少一个处理器41通信连接的存储器,如只读存储器(ROM)42、随机访问存储器(RAM)43等,其中,存储器存储有可被至少一个处理器执行的计算机程序,处理器41可以根据存储在只读存储器(ROM)42中的计算机程序或者从存储单元48加载到随机访问存储器(RAM)43中的计算机程序,来执行各种适当的动作和处理。在RAM 43中,还可存储电子设备40操作所需的各种程序和数据。处理器41、ROM 42以及RAM 43通过总线44彼此相连。输入/输出(I/O)接口45也连接至总线44。
电子设备40中的多个部件连接至I/O接口45,包括:输入单元46,例如键盘、鼠标等;输出单元47,例如各种类型的显示器、扬声器等;存储单元48,例如磁盘、光盘等;以及通信单元49,例如网卡、调制解调器、无线通信收发机等。通信单元49允许电子设备40通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
处理器41可以是各种具有处理和计算能力的通用和/或专用处理组件。处理器41的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的处理器、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。处理器41执行上文所描述的各个方法和处理,例如文件扫描方法。
在一些实施例中,文件扫描方法可被实现为计算机程序,其被有形地包含于计算机可读存储介质,例如存储单元48。在一些实施例中,计算机程序的部分或者全部可以经由ROM 12和/或通信单元49而被载入和/或安装到电子设备40上。当计算机程序加载到RAM 43并由处理器41执行时,可以执行上文描述的文件扫描方法的一个或多个步骤。备选地,在其他实施例中,处理器41可以通过其他任何适当的方式(例如,借助于固件)而被配置为执行文件扫描方法。
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
用于实施本发明的方法的计算机程序可以采用一个或多个编程语言的任何组合来编写。这些计算机程序可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器,使得计算机程序当由处理器执行时使流程图和/或框图中所规定的功能/操作被实施。计算机程序可以完全在机器上执行、部分地在机器上执行,作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
在本发明的上下文中,计算机可读存储介质可以是有形的介质,其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的计算机程序。计算机可读存储介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备,或者上述内容的任何合适组合。备选地,计算机可读存储介质可以是机器可读信号介质。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
为了提供与用户的交互,可以在电子设备上实施此处描述的系统和技术,该电子设备具有:用于向用户显示信息的显示装置(例如,CRT(阴极射线管)或者LCD(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给电子设备。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(LAN)、广域网(WAN)、区块链网络和互联网。
计算系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器,又称为云计算服务器或云主机,是云计算服务体系中的一项主机产品,以解决了传统物理主机与VPS服务中,存在的管理难度大,业务扩展性弱的缺陷。
应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本发明中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本发明的技术方案所期望的结果,本文在此不进行限制。
上述具体实施方式,并不构成对本发明保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本发明的精神和原则之内所作的修改、等同替换和改进等,均应包含在本发明保护范围之内。

Claims (10)

1.一种文件扫描方法,其特征在于,包括:
在接收到待扫描文件时,将所述待扫描文件转换为目标扫描文本并存储;
确定与所述目标扫描文本相对应的至少一个正则表达式;
基于目标服务和所述至少一个正则表达式,对获取到的目标扫描文本进行扫描处理,确定所述待扫描文件的敏感等级或脱敏文本。
2.根据权利要求1所述的方法,其特征在于,所述在接收到待扫描文件时,将所述待扫描文件转换为目标扫描文本并存储,包括:
获取在文件上传页面中上传的待扫描文件,并暂存至文件管理服务器中;
从所述文件管理服务器中获取所述待扫描文件,并将所述待扫描文件转换为目标格式的目标扫描文本;
存储所述目标扫描文本,并确定所述目标扫描文本的存储路径,以使所述目标服务基于所述存储路径获取所述目标扫描文本。
3.根据权利要求1所述的方法,其特征在于,所述确定与所述目标扫描文本相对应的至少一个正则表达式,包括:
从敏感表达式库中选择至少一个正则表达式。
4.根据权利要求3所述的方法,其特征在于,还包括:
若确定所述目标扫描文本的敏感等级,则确定各正则表达式的敏感权重值,以在扫描所述目标扫描文本时,基于所述敏感权重值确定相应目标扫描文本的敏感等级。
5.根据权利要求1所述的方法,其特征在于,所述基于目标服务和所述至少一个正则表达式,对获取到的目标扫描文本进行扫描处理,包括:
基于目标服务和预先编辑的存储路径,获取所述目标扫描文本;
基于所述至少一个正则表达式,对所述目标扫描文本扫描处理。
6.根据权利要求1所述的方法,其特征在于,还包括:
若确定与所述目标扫描文本相对应的脱敏文本,则确定所述至少一个正则表达将所述目标扫描文本中的敏感信息脱敏处理,以得到所述脱敏文本。
7.根据权利要求1所述的方法,其特征在于,所述目标服务为Hyperscan服务。
8.一种文件扫描装置,其特征在于,包括:
待扫描文件转换模块,用于在接收到待扫描文件时,将所述待扫描文件转换为目标扫描文本并存储;
正则表达式确定模块,用于确定与所述目标扫描文本相对应的至少一个正则表达式;
敏感等级确定模块,用于基于目标服务和所述至少一个正则表达式,对获取到的目标扫描文本进行扫描处理,确定所述待扫描文件的敏感等级或脱敏文本。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任一项所述的文件扫描方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的文件扫描方法。
CN202210459816.5A 2022-04-24 2022-04-24 文件扫描方法、装置、电子设备及存储介质 Pending CN114936379A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210459816.5A CN114936379A (zh) 2022-04-24 2022-04-24 文件扫描方法、装置、电子设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210459816.5A CN114936379A (zh) 2022-04-24 2022-04-24 文件扫描方法、装置、电子设备及存储介质

Publications (1)

Publication Number Publication Date
CN114936379A true CN114936379A (zh) 2022-08-23

Family

ID=82862881

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210459816.5A Pending CN114936379A (zh) 2022-04-24 2022-04-24 文件扫描方法、装置、电子设备及存储介质

Country Status (1)

Country Link
CN (1) CN114936379A (zh)

Similar Documents

Publication Publication Date Title
CN115454706A (zh) 一种系统异常确定方法、装置、电子设备及存储介质
CN114911598A (zh) 任务调度方法、装置、设备以及存储介质
CN115690443A (zh) 特征提取模型训练方法、图像分类方法及相关装置
CN112989797B (zh) 模型训练、文本扩展方法,装置,设备以及存储介质
CN113904943A (zh) 账号检测方法、装置、电子设备和存储介质
CN115048352B (zh) 一种日志字段提取方法、装置、设备和存储介质
CN114936379A (zh) 文件扫描方法、装置、电子设备及存储介质
CN115454443A (zh) 多系统的数据交互方法、装置和电子设备
CN115422275A (zh) 一种数据处理方法、装置、设备及存储介质
CN114722048A (zh) 一种数据处理方法、装置、电子设备及存储介质
CN113612777A (zh) 训练方法、流量分级方法、装置、电子设备以及存储介质
CN113239054A (zh) 信息生成方法、相关装置及计算机程序产品
CN115965018B (zh) 信息生成模型的训练方法、信息生成方法和装置
CN113010812B (zh) 信息采集方法、装置、电子设备和存储介质
CN115495312B (zh) 业务请求处理方法和装置
CN114491040B (zh) 信息挖掘方法及装置
CN113361249B (zh) 文档判重方法、装置、电子设备和存储介质
CN114816758B (zh) 资源分配方法和装置
EP4131022A1 (en) Method and apparatus of determining location information, electronic device, storage medium, and program product
CN115860121A (zh) 文本推理方法、装置、设备以及存储介质
CN116841549A (zh) 图层处理方法、装置、电子设备及存储介质
CN114048096A (zh) 一种数据处理方法及其相关设备
CN115567624A (zh) 一种报文处理方法、装置、电子设备及介质
CN115965817A (zh) 图像分类模型的训练方法、装置及电子设备
CN115269055A (zh) Nginx请求数据采集方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination