CN111859896A - 配方文档检测方法、装置、计算机可读介质及电子设备 - Google Patents

配方文档检测方法、装置、计算机可读介质及电子设备 Download PDF

Info

Publication number
CN111859896A
CN111859896A CN201910258688.6A CN201910258688A CN111859896A CN 111859896 A CN111859896 A CN 111859896A CN 201910258688 A CN201910258688 A CN 201910258688A CN 111859896 A CN111859896 A CN 111859896A
Authority
CN
China
Prior art keywords
document
abnormal
transaction
formula
recipe
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201910258688.6A
Other languages
English (en)
Other versions
CN111859896B (zh
Inventor
陈予郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Changxin Memory Technologies Inc
Original Assignee
Changxin Memory Technologies Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Changxin Memory Technologies Inc filed Critical Changxin Memory Technologies Inc
Priority to CN201910258688.6A priority Critical patent/CN111859896B/zh
Publication of CN111859896A publication Critical patent/CN111859896A/zh
Application granted granted Critical
Publication of CN111859896B publication Critical patent/CN111859896B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明的实施例提供了一种配方文档检测方法、装置、计算机可读介质及电子设备。该配方文档检测方法包括:获取包括待检测存储空间的待检测文档信息的第一文档数据;获取包括所述待检测存储空间的已检测文档信息的第二文档数据;比对所述第一文档数据和所述第二文档数据,获得异动文档;对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果。本发明实施例的技术方案通过将待检测存储空间的已检测文档与待检测文档的相关信息进行比对,获得异动文档,后续进行配方文档检测时,只需要检测异动文档是否配方文档即可,可以提高配方文档的检测效率,减少数据计算量。

Description

配方文档检测方法、装置、计算机可读介质及电子设备
技术领域
本发明涉及计算机技术领域,具体而言,涉及一种配方文档检测方法、装置、计算机可读介质及电子设备。
背景技术
在很多企业中,配方文档都具有很高的机密性,例如半导体晶圆厂的工艺配方文档、制药公司的合成配方文档、食品厂的食材配方文档等,一旦发生外泄,将造成企业的重大损失。为了防止该情况的发生,需要将配方文档从海量的企业内部文档中识别出来,以进行严格的区分性管理。
以半导体晶圆厂为例,配方文档可视同机密文档,为防止配方文档被工作人员放置在非适当的存储空间而衍生的外泄可能性,信息安全人员需主动时刻观察除了配方文档适当放置空间以外的任何存储空间。目前大多指派人力进行人为的文档名称猜测,并在人为发现可疑的文档时,打开文档后进行人为文档判别,但目前的检测方式的速度与准确率皆无法满足当前企业管理的需求。
因此,如何能够在实现配方文档检测的同时,提高从海量文档中将配方文档检测的速度和效率是目前亟待解决的技术问题。
发明内容
本发明实施例的目的在于提供一种配方文档检测方法、装置、计算机可读介质及电子设备,进而至少在一定程度上在实现配方文档检测功能的同时,降低配方文档检测的计算量,提高检测效率。
本发明的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本发明的实践而习得。
根据本发明实施例的一个方面,提供了一种配方文档检测方法,包括:获取包括待检测存储空间的待检测文档信息的第一文档数据;获取包括所述待检测存储空间的已检测文档信息的第二文档数据;比对所述第一文档数据和所述第二文档数据,获得异动文档;对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果。
根据本发明实施例的一个方面,提供了一种配方文档检测装置,包括:第一文档数据获取模块,配置为获取包括待检测存储空间的待检测文档信息的第一文档数据;第二文档数据获取模块,配置为获取包括所述待检测存储空间的已检测文档信息的第二文档数据;异动文档获得模块,配置为比对所述第一文档数据和所述第二文档数据,获得异动文档;配方文档检测模块,配置为对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果。
根据本发明实施例的一个方面,提供了一种计算机可读介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上述实施例中所述的配方文档检测方法。
根据本发明实施例的一个方面,提供了一种电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如上述实施例中所述的配方文档检测方法。
在本发明的一些实施例所提供的技术方案中,一方面,通过获取包括待检测存储空间的待检测文档信息的第一文档数据,还获取包括所述待检测存储空间的已检测文档信息的第二文档数据,并比对所述第一文档数据和所述第二文档数据来获得异动文档,从而可以实现从海量文档中检测出配方文档时,仅需要对异动文档进行检测,而不需要对海量文档全部进行配方文档检测,因此,可以有效地提高公司内部海量文档的检测速度,降低计算处理量,提高检测效率,可以快速且准确地从海量文档中检测出配方文档。另一方面,本发明实施例提供的技术方案可以实时地获取异动文档,解决了现有技术中批次处理(包括全量处理)的系统架构带来的文档堆积问题,可以实现实时处理的系统架构,满足配方文档检测的实时性要求。此外,本发明实施例提供的技术方案可以广泛地应用于半导体企业、食品加工厂、药品生产厂等多种对配方文档存在保密需求的应用场合,以半导体企业为例,可以有效处理半导体企业海量文档的配方文档检测,可以侦测任意文档是否包含有半导体生产相关的材料参数设定、生产机台参数设定等配方文档的信息安全问题,保证了配方文档的安全性和机密性,防止配方文档放置于非适当的空间而导致的信息外泄问题。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本发明的实施例,并与说明书一起用于解释本发明的原理。显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1示意性示出了根据本发明的一个实施例的配方文档检测方法的流程图。
图2示意性示出了图1的步骤S130在一个实施例中的流程图。
图3示意性示出了图1的步骤S140在一个实施例中的流程图。
图4示意性示出了图1的步骤S140在另一个实施例中的流程图。
图5示意性示出了图1的步骤S140在又一个实施例中的流程图。
图6示意性示出了图1的步骤S140在再一个实施例中的流程图。
图7示意性示出了图1的步骤S140在再一个实施例中的流程图。
图8和9示意性示出了根据本发明的一个实施例的配方文档检测方法的整体架构图。
图10示意性示出了根据本发明的一个实施例的配方文档检测装置的框图。
图11示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。
具体实施方式
现在将参考附图更全面地描述示例实施方式。然而,示例实施方式能够以多种形式实施,且不应被理解为限于在此阐述的范例;相反,提供这些实施方式使得本发明将更加全面和完整,并将示例实施方式的构思全面地传达给本领域的技术人员。
此外,所描述的特征、结构或特性可以以任何合适的方式结合在一个或更多实施例中。在下面的描述中,提供许多具体细节从而给出对本发明的实施例的充分理解。然而,本领域技术人员将意识到,可以实践本发明的技术方案而没有特定细节中的一个或更多,或者可以采用其它的方法、组元、装置、步骤等。在其它情况下,不详细示出或描述公知方法、装置、实现或者操作以避免模糊本发明的各方面。
附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。
附图中所示的流程图仅是示例性说明,不是必须包括所有的内容和操作/步骤,也不是必须按所描述的顺序执行。例如,有的操作/步骤还可以分解,而有的操作/步骤可以合并或部分合并,因此实际执行的顺序有可能根据实际情况改变。
图1示意性示出了根据本发明的一个实施例的配方文档检测方法的流程图。本发明实施提供的方法可以由任意具备计算处理能力的电子设备执行,例如用户终端和/或服务器端,本发明对此不作限定。
本发明实施例的配方文档(recipe file)是指文档中包括至少部分涉密信息,具体哪些内容算是涉密信息,可以根据不同的应用场景而定。在下面的实施例中,均以从半导体企业(semiconductor enterprise)的海量文档(huge amounts of files)中检测配方文档为例进行举例说明,对于半导体晶圆厂而言,这里的配方文档是指文档中只要包含晶圆厂相关工艺制程的任意信息即认为是配方文档,涵盖范围可以为工艺制程中的材料调配参数设定、生产机台参数设定、作业流程规划及其参数设定等。需要说明的是,本发明实施例提供的方法也可以应用于其他场景的配方文档检测,并不限于晶圆厂这一种应用场景。
如图1所示,本发明实施例提供的配方文档检测方法可以包括以下步骤。
在步骤S110中,获取包括待检测存储空间的待检测文档信息的第一文档数据。
本发明实施例中,配方文档通常只能存放于适当的空间,即指定允许存放的空间,非适当的空间是指非指定允许存放的任意空间。这里假设半导体企业内部所有的存储空间将以远端磁盘(Remote disk,RD)的方式,提供给本发明实施例提供的系统以进行远程扫描,进行配方文档检测。因此,在下面的实施例中,均以所述待检测存储空间为RD为例进行说明。
本发明实施例中,所述第一文档数据可以为包括RD中全部文档的存储路径与文档名以及修改时间的文档清单或者列表。
在步骤S120中,获取包括所述待检测存储空间的已检测文档信息的第二文档数据。
本发明实施例中,将经由系统检测过是否配方文档的所有文档的存储路径与文档名以及修改时间存储至所述第二文档数据(下文称之为Action File Record,AFR)。
在步骤S130中,比对所述第一文档数据和所述第二文档数据,获得异动文档。
本发明实施例中,通过将所述第一文档数据中的待检测文档信息与所述第二文档数据中的已检测文档信息进行比对,可以实时地获取包括异动文档的文档异动清单或者列表(Action File List,AFL)。
在步骤S140中,对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果。
本发明实施方式提供的配方文档检测方法,一方面,通过获取包括待检测存储空间的待检测文档信息的第一文档数据,还获取包括所述待检测存储空间的已检测文档信息的第二文档数据,并比对所述第一文档数据和所述第二文档数据来获得异动文档,从而可以实现从海量文档中检测出配方文档时,仅需要对异动文档进行检测,而不需要对海量文档全部进行配方文档检测,因此,可以有效地提高公司内部海量文档的检测速度,降低计算处理量,提高检测效率,可以快速且准确地从海量文档中检测出配方文档。另一方面,本发明实施例提供的技术方案可以实时地获取异动文档,解决了现有技术中批次处理(包括全量处理)的系统架构带来的文档堆积问题,可以实现实时处理的系统架构,满足配方文档检测的实时性要求。此外,本发明实施例提供的技术方案可以广泛地应用于半导体企业、食品加工厂、药品生产厂等多种对配方文档存在保密需求的应用场合,以半导体企业为例,可以有效处理半导体企业海量文档的配方文档检测,可以侦测任意文档是否包含有半导体生产相关的材料参数设定、生产机台参数设定等配方文档的信息安全问题,保证了配方文档的安全性和机密性,防止配方文档放置于非适当的空间而导致的信息外泄问题。
图2示意性示出了图1的步骤S130在一个实施例中的流程图。本发明实施例中,所述待检测文档信息可以包括所述待检测存储空间的待检测文档的存储路径、文档名和修改时间。所述已检测文档信息可以包括所述待检测存储空间的已检测文档的存储路径、文档名和修改时间。
如图2所示,本发明实施例中上述步骤S130可以进一步包括以下步骤。
在步骤S131中,判断所述待检测文档与所述已检测文档的存储路径和文档名是否相同;若两者相同,则进入步骤S132;若两者存在任意一者不同,则跳转到步骤S133。
在步骤S132中,若所述待检测文档与所述已检测文档的存储路径和文档名相同,则继续判断所述待检测文档与所述已检测文档的修改时间是否相同;若两者的修改时间相同,则进入步骤S134;反之,进入步骤S133。
在步骤S133中,若所述待检测文档与所述已检测文档的存储路径或者文档名不同,或者,虽然所述待检测文档与所述已检测文档的存储路径和文档名相同但是两者的修改时间不同,则判定所述待检测文档为异动文档。
在步骤S134中,若所述待检测文档与所述已检测文档的存储路径和文档名相同,且两者的修改时间相同,则判定所述待检测文档不为异动文档。
本发明实施例中,可以将RD中的文档清单与AFR数据库中所有数据进行比对,若所述待检测文档与所述已检测文档的存储路径和文档名不同;或者若所述待检测文档与所述已检测文档的存储路径和文档名相同且修改时间不同,则可以判定所述待检测文档为异动文档,即过滤出AFR数据库中存储路径与文档名不存在或者相同存储路径与文档名但不同修改时间的异动文档清单。
图3示意性示出了图1的步骤S140在一个实施例中的流程图。如图3所示,本发明实施例中上述步骤S140可以进一步包括以下步骤。
在步骤S141中,获取所述异动文档的开始位元组。
在作业系统中,许多特殊软件所产生或者公用规定格式的文档都有着固定数据的开始位元组,此外,由公司或者企业内部机台软件所产生的配方文档也有很多可能是特殊的格式的,这类特殊的格式难以采用常用方法(例如,如txt,docx,pptx,pdf,eml等可以提取文字内容,具体的提取方式可以根据文本格式的不同进行选择)提取文档的内容文字,因此,本发明实施例中可以先获取例如半导体企业的所有种类的异动文档,再读取所有异动文档的开始位元组,通过开始位元组来判别当前的异动文档是否为配方文档。
需要说明的是,开始位元组不一定是第一个字节,而是首段位元组,此位元组长短不一定。可以直接读取异动文档前几个位元组即可。
在步骤S142中,根据所述异动文档的开始位元组判断所述异动文档是否为指定配方文档。
例如,一些配方文档的开始位元组如下所示:
[extension]→[header]
wac→0E3331202D34206E616D
rcp→0E3332202D34206E616D
sqb→03000000
cab,msu→4D53434600000000
再例如,另一些非配方文档的开始位元组如下所示:
png→89504E47
jpg→FFD8FF
wav→57415645
mov→6D6F6F76
tiff→49492A00
需要说明的是,这里的指定配方文档是指预先已经获知的一些特殊格式的文档为配方文档,如上面例举的,但异动文档不为上述指定配方文档并不意味着该异动文档一定不是配方文档。
在步骤S143中,若所述异动文档为所述指定配方文档,则所述检测结果为所述异动文档为非安全文档。
本发明实施例中,可以预先将一些通用格式对应的开始位元组和特殊格式(包括指定配方文档)对应的开始位元组之间建立对应关系,当系统实时收集到异动文档时,读取该异动文档的开始位元组,并将该异动文档的开始位元组与上述对应关系进行匹配,一方面,可以快速检测出异动文档中的指定配方文档,不需要再进行后续的内容检测,节省了大量的检测时间,另一方面,若该异动文档不为该指定配方文档,也可以快速地检测出是否为视频、影像、声音等不为配方文档的文档,即对这些非文本格式的异动文档不需要再进行后续的内容检测,提高了检测速度和准确性。此外,对于不属于上述两种情况的异动文档,即既不属于指定配方文档,也不属于非文本文档,则继续进行后续检测分析。
图4示意性示出了图1的步骤S140在另一个实施例中的流程图。如图4所示,本发明实施例中上述步骤S140还可以进一步包括以下步骤。
在步骤S144中,若所述异动文档不为所述指定配方文档,则根据所述异动文档的开始位元组判断所述异动文档为已知文档类型文档或者未知文档类型文档。
如上面图3实施例所示,根据异动文档的开始位元组,不仅可以判断其是否为指定配方文档,还可以判断其是否为已知文档类型文档还是未知文档类型文档,例如若该异动文档的开始位元组能够与上述的对应关系之一匹配上,则说明其的文档格式是已知的,若没有一个能够匹配上,则说明该异动文档的文档格式是未知的。
在步骤S145中,若所述异动文档为已知文档类型文档,则根据所述异动文档的开始位元组获得所述异动文档的真实扩展名。
本发明实施例中,可以应用MIME(Multipurpose Internet Mail Extensions,多用途互联网邮件扩展类型)获取多种文档类型所对应的真实扩展名,其中,MIME是以开始位元组进行判断的。
在步骤S146中,获取所述异动文档的当前扩展名。
本发明实施例中,还可以在作业系统中直接获取当前被检测的异动文档呈现出来的当前扩展名,由于文档呈现出来的当前扩展名是可以以重新命名方式被轻易修改的,因此,该当前扩展名可能不是其真实扩展名。
在步骤S147中,比较所述异动文档的真实扩展名和当前扩展名,判断所述异动文档是否为伪造文档。
本发明实施例中,比对上述步骤S145获得的异动文档的真实扩展名与上述步骤S146获得的当前扩展名,若两者一致,则可以判定该异动文档不为伪造文档。
例如,有一个真实文档名为test.doc的异动文档,于作业系统中将其重新命名为abc.ppt,则直接获取其当前扩展名为ppt,而在步骤S145中获取的真实扩展名则为doc,两者不一致,则可以判定该异动文档为伪造文档。
继续参考图4,在步骤S148中,若所述异动文档为伪造文档,则所述检测结果为所述异动文档为非安全文档。
本发明实施例中,比对上述步骤S145获得的异动文档的真实扩展名与上述步骤S146获得的当前扩展名,若两者不一致,则可以判定该异动文档为伪造文档。
图5示意性示出了图1的步骤S140在又一个实施例中的流程图。如图5所示,本发明实施例中上述步骤S140还可以进一步包括以下步骤。
在步骤S149中,若所述异动文档不为伪造文档,则根据所述异动文档的真实扩展名判断所述异动文档是否为压缩文档。
在步骤S1410中,若所述异动文档为压缩文档,则对所述异动文档执行解压(Decompression)操作。
在步骤S1411中,若在解压过程中需要输入密码,则所述检测结果为所述异动文档为非安全文档。
本发明实施例中,若在解压所述压缩文档的过程中,被需要输入密码才可以继续解压,则判定所述异动文档为设置密码文档,这里将设置密码文档判定是非安全文档。
图6示意性示出了图1的步骤S140在再一个实施例中的流程图。如图6所示,本发明实施例中上述步骤S140还可以进一步包括以下步骤。
在步骤S1412中,若在解压过程中不需要输入密码,则获得解压后的异动文档。
在步骤S1413中,获得解压后的所述异动文档是否为配方文档的检测结果。
本发明实施例中,若在解压所述压缩文档的过程中,不需要输入密码即可解压,则对解压后的异地文档进行配方文档检测的,具体的检测方法可以参照非压缩文档的异动文档的检测。
图7示意性示出了图1的步骤S140在再一个实施例中的流程图。如图7所示,本发明实施例中上述步骤S140还可以进一步包括以下步骤。
在步骤S1414中,若所述异动文档为未知文档类型文档;或者,若所述异动文档不为压缩文档,则判断所述异动文档是否为文本文档。
本发明实施例中,若不知道该异动文档的文档类型或者格式,或者,该异动文档不为指定配方文档且为已知文档类型文档,但同时也不为伪造文档和压缩文档,则可以继续判断该异动文档是否为文本文档(text file)。
例如,将未知文档类型的异动文档进行是否文本文档识别,可以采用以下两种方法:第一种为检测文档的编码,判别是否为UTF-8(8-bit Unicode TransformationFormat,一种针对Unicode的可变长度字符编码,又称万国码)、UTF-16、ASCII(AmericanStandard Code for Information Interchange,美国信息交换标准代码)、CharMap(字符映射表)等主要文字文档的四种编码。第二种为判别是否为OFFICE与PDF(PortableDocument Format,便携式文档格式)等特殊软件的文字文档。但本发明并不限定于此。
在步骤S1415中,若所述异动文档不为文本文档,则所述检测结果为所述异动文档为安全文档。
例如,若所述异动文档为音频文档、视频文档等,则判定所述异动文档为安全文档。
在步骤S1416中,若所述异动文档为文本文档,则提取所述异动文档的文本内容。
在步骤S1417中,若所述文本内容中包括配方内容,则所述检测结果为所述异动文档为非安全文档。
本发明实施例中,针对包括文本内容的异动文档,需要检测文本内容是否为配方内容,如果是,则识别该异动文档为配方文档。
相关技术中的配方内容识别方法较多的依赖于关键词匹配,基于事先配置的关键词库,对文档的文档名或内容关键词进行查找匹配,根据匹配的结果判断文档是否为配方文档。然而,配方文档的关键词与企业内部其他文档的关键词之间难免有一定的重合,通过上述相关技术中的方法难以精准的区分出两类文档,导致配方文档识别的准确率较低、误判率较高,且对于人为恶意篡改、隐藏文档名或文档内容的情况,也无法有效地识别出,从而给企业的信息安全管理带来风险。
本发明实施例中,可以从待识别的异动文档中提取出配方关键词,配方关键词为待识别的异动文档中与数值成组出现的词。
还是以半导体企业为例,通常配方的核心内容为各个组分、各个工艺步骤、各个设备的参数,与数值密不可分,基于此,在本示例实施方式中,可以认为与数值成组出现的词为配方关键词,例如在半导体工艺配方文档中,可能经常出现“Pressure:500Torr”、“Temperature:350℃”等信息,则“Pressure”、“Torr”、“Temperature”等词可以是配方关键词。与数值成组出现可以是指与数值相邻,位于数值前或数值后,与数值之间的间隔不超过一定的字符数,或者与数值之间具有特定的符号等,本示例实施方式对此不做特别限定。
需要说明的是,对于待识别的异动文档是否为配方文档尚不确定,可以将待识别的异动文档的文本中与数值成组出现的词提取出来,作为待识别的异动文档的配方关键词,此时的配方关键词并不意味着待识别的异动文档就是配方文档,可视为待定的配方关键词,其体现了待识别的异动文档中可能与配方相关的特征信息。
在提取配方关键词时,可以将待识别的异动文档的全部文本中,与数值成组出现的词都提取出来,也可以对于待识别的异动文档的部分文本(例如摘要、结论等)进行提取,还可以设置其他的提取条件,例如在数值中筛选出具有单位符号的数值,仅提取与这些数值成组出现的词,等等,本示例实施方式对此不做特别限定。
具体的,可以对待识别的异动文档的文本进行分词,并根据分词的结果提取出待识别的异动文档的配方关键词。其中,分词可以通过分词工具实现,例如jieba(结巴)分词工具、CoreNLP(斯坦福大学团队开发的分词工具包,支持中文)、LTP(哈尔滨工业大学团队开发的语言分析工具)等,也可以通过自定义的词库对待识别的异动文档的文本逐词匹配,匹配到的词作为分词结果。在分词后,可以保留文本中的数值,并将词与数值按照其在原文本中的顺序排列,从而可以提取出与数值成组出现的词,作为配方关键词。
进一步的,在对待识别的异动文档的文本进行分词之前,还可以对待识别的异动文档的文本进行预处理,预处理可以包括以下处理中的任意一种或多种:删除无用字符、大小写转换、词干提取与词形还原。其中,删除无用字符是指删除待识别文档的文本中无实际语义的字符,例如回车符([\r])、换行符([\n])、制表符([\t])、两个以上连续空白字符等格式性字符,或者“的”、“啊”、“谢谢”等结构词或语气词;在删除无用字符时,可以将无用字符直接从文本中删除,也可以将无用字符统一转换为一个空白字符(一个空格符)。大小写转换是指将文本中的英文单词统一大小写格式,例如将段首大写的字母全部转换为小写。词干提取是指将文本中的英文单词去除词缀得到词根,词形还原是指将英文单词还原到一般性词形(例如由不同时态的词还原为一般现在时态的词),词干提取与词形还原是对英文单词进行规范化处理的两种手段,其目的是将表达同一语义但具有不同变形的词统一转换为一个基本词,以减少文本中不同的词的数量。基于对待识别的异动文档的文本进行预处理,可以去除待识别的异动文档中的无用信息,以更加方便的进行分词、配方关键词的提取以及其他后续步骤,降低各步骤所需的资源量。
然后,可以根据待识别的异动文档的配方关键词得到待识别的异动文档的特征张量。
在从待识别的异动文档中提取出配方关键词后,可以利用配方关键词组合的形式表征待识别的异动文档的特征信息。具体而言,可以将待识别的异动文档的配方关键词分别转换为词向量,例如可以利用配方词库对其中的配方关键词进行one-hot编码,以得到每个配方关键词的one-hot向量,也可以通过word2vec(word to vector)等工具构建关于配方关键词的编码矩阵,以得到每个配方关键词的特征向量等;基于配方关键词的词向量,可以通过相加、加权、拼接、组合等形式生成待识别的异动文档的特征张量,特征张量可以是向量的形式,也可以是矩阵的形式。例如可以对待识别的异动文档中每个配方关键词的特征向量进行相同维度的相加或加权求和计算,得到待识别的异动文档的特征向量;或者可以根据每个配方关键词在待识别的异动文档中的顺序,将配方关键词的特征向量组合为待识别的异动文档的特征矩阵等等。本示例实施方式对此不做特别限定。
接着,利用配方文档识别模型对上述特征张量进行处理,得到待识别的异动文档是否为配方文档的识别结果。
配方文档识别模型为已经完成训练的机器学习模型,可以对文档类型进行分类,在本示例性实施例中,配方文档识别模型以特征张量为输入,以文档是否为配方文档的识别结果为输出。在获得待识别的异动文档的特征张量后,可以将其输入到配方文档识别模型中,即可以输出待识别的异动文档是否为配方文档的识别结果,从而完成识别过程。
基于上述说明,在本示例性实施例中,基于待识别的异动文档中与数值成组出现的配方关键词,利用配方关键词编码的方式生成待识别的异动文档的特征张量,并利用配方文档识别模型输出对特征张量进行处理,得到识别结果。一方面,通过提取配方关键词以及转换特征张量的方式,从待识别的异动文档中充分提取出了与文档类型识别相关的特征信息,该特征信息可以更加全面的反映待识别的异动文档的内容,基于该特征信息进行模型的识别处理,可以提高识别结果的准确度。另一方面,基于对配方文档中关键词的特点挖掘,定义与数值成组出现的词为配方关键词,从而可以大大减少从待识别的异动文档中提取的关键词数量,并降低后续转换特征向量以及模型处理过程中的运算量,提高配方文档识别的效率。
在一示例性实施例中,所述方法还可以包括以下用于获取配方文档识别模型的步骤:获取多个样本文档与样本文档的文档类型,文档类型包括配方文档(Recipe Files)与非配方文档(Non-Recipe Files);根据样本文档的配方关键词得到样本文档的样本特征张量;利用样本特征张量与文档类型训练机器学习模型,得到配方文档识别模型。
其中,样本文档为已经完成分类的文档,具有确定的文档类型,文档类型即样本文档是配方文档或非配方文档。为了得到充分的样本,可以收集大量的样本文档,以覆盖各种类型的文档,以半导体晶圆厂的内部文档为例,样本文档可以包括足够的配方文档与非配方文档,并覆盖各个部门的文档、各个工艺流程的文档等,可以在后续实现较好的模型训练效果。基于样本特征张量与样本文档的文档类型,可以构建训练数据库,其中样本特征张量为训练数据,文档类型为监督数据,例如可以用1/0表示配方文档/非配方文档,配方文档的监督数据为1,非配方文档的监督数据为0。可以将训练数据输入到机器学习模型中,并根据输出数据与监督数据的差别,迭代调整机器学习模型的参数,最终模型的准确率达到一定的标准,表示训练完成,得到可以实际应用的配方文档识别模型。
上述机器学习模型可以采用神经网络模型、支持向量机模型、逻辑回归模型等各种不同类型的模型,一般而言,以多维度张量作为输入的机器学习模型,都适合于作为本示例实施方式中的初始模型,通过训练后得到配方文档识别模型。
在一示例性实施例中,所述方法还可以包括:对样本文档的文本进行预处理;对预处理后的样本文档的文本提取配方关键词。其中,预处理可以包括删除无用字符、大小写转换、词干提取与词形还原中的一种或多种具体处理手段。
在一示例性实施例中,在获取多个样本文档后,所述方法还可以包括以下步骤:对样本文档的文本进行分词,根据分词的结果构建样本词库;将样本文档的文本中的词组添加到样本词库中,得到完整的样本词库。可以从待识别的异动文档中提取出与数值相邻的词或词组,将这些词或词组与样本词库进行匹配,并将匹配成功的词或词组确定为待识别的异动文档的配方关键词。
具体而言,可以对全部的样本文档的文本进行分词,统计其中出现过的词,形成样本词库,也可以筛选出其中较常出现的词(或筛除生僻词),以构建常用词的样本词库;在样本文档足够且全面的基础上,样本词库也可以覆盖到特定应用场景的全方面。除了统计样本文档的文本中的词以外,还可以统计出现过的词组(或组合词,例如退火+时间、沉积+速率等),并基于一定的出现率标准,筛选出较常出现的词组,也添加到样本词库中,则样本词库中即包含词,又包含词组。
在一示例性实施例中,样本词库的形式可以如表1所示,在样本词库中可以对各个词或词组进行编号,也可以记录其他相关信息,例如词的类型(英文词、英文词组、中文词、中文词组)、词的长度(字符数)、统计出的词频、配方关联度(通常为与配方文档的关联度)等。
编号 类型 长度 词频% 配方关联度%
1 Temperature Word-eng 11 0.52 29.3
2 Dep rate Phrase-eng 8 0.27 45.6
3 退火时间 Phrase-chn 8 0.08 52.2
4 上班时间 Phrase-chn 8 0.11 3.2
表1
基于上述样本词库,可以对待识别的异动文档进行配方关键词的提取。在提取前,也可以对待识别的异动文档的文本进行预处理。可以提取出与数值相邻的词或词组,通常与一个数值相邻的词或词组可以有多种组合结果,例如待识别的异动文档中包含文本“condition:implant angle 7deg,implant current 0.005ampere”,其中与数值“7”相邻的词组有很多组合情况:condition+implant+angle、implant+angle、deg+implant、deg+implant+current等。通过样本词库的匹配,发现implant+angle的词组在样本词库中有记录,从而可以提取implant+angle作为一个配方关键词。当然,在一个数值的相邻位置,可能存在多个词或词组匹配成功的情况,可以将其全部提取出来,也可以提取出其中匹配度最高的一个,还可以通过其他标准进行选择性提取等,本示例实施方式对此不做特别限定。
进一步的,在得到完整的样本词库后,所述方法还可以包括以下步骤:通过样本词库提取样本文档的配方关键词,得到配方词库;对配方词库中的配方关键词进行one-hot编码,得到配方关键词的one-hot向量。根据待识别文档的配方关键词的one-hot向量,得到待识别文档的特征张量。
其中,配方词库为样本词库的一个子集,样本词库中的词或词组在样本文档中与数值成组出现的为样本文档的配方关键词,可以生成配方词库。换而言之,样本词库中的词需要满足至少一个条件:在样本文档中出现过(一些实施例中可以增加关于词频的条件);配方词库中的词需要满足至少两个条件:在样本文档中出现过,并且在样本文档中与数值成组出现(一些实施例中也可以增加关于词频的条件)。
配方词库中的词为配方关键词,配方词库可视为全部配方关键词的集合。配方词库中的每个配方关键词都有特定的编号,在一示例性实施例中,配方词库的形式可以如表2所示,除了记录配方关键词的编号外,还可以记录词的类型、词的长度、统计出的词频(该词频基于统计出与数值成组出现的情况,与样本词库中的词频不同)、数值关联度(通常为与数值成组出现的概率)等相关信息。
编号 类型 长度 词频% 数值关联度%
1 Temperature Word-eng 11 2.96 35.5
2 Dep rate Phrase-eng 8 2.25 42.2
3 退火时间 Phrase-chn 8 1.58 26.6
表2
基于配方词库中配方关键词的编号,可以建立每个配方关键词的one-hot编码,具体而言,如果配方词库的总词数为E,则可以将每个配方关键词转换为E维的向量,其中配方关键词的编号所对应的维度值为1,其余维度值为0,从而可以获得每个配方关键词的one-hot向量。
基于配方关键词的one-hot向量,可以对文档进行编码。可以获取待识别的异动文档的每个配方关键词的one-hot向量,将其相加、加权或组合以得到待识别的异动文档的特征向量或特征矩阵。
在一示例性实施例中,可以将待识别的异动文档的全部配方关键词的one-hot向量相加,得到待识别的异动文档的特征向量。
其中,在对多个配方关键词的one-hot向量相加时,可以使每个配方关键词参与一次计算,得到的特征向量中,维度值是1或0,1表示该维度对应的配方关键词在待识别的异动文档中出现过,0表示该维度对应的配方关键词在待识别的异动文档中未出现过;或者可以根据每个配方关键词在待识别的异动文档中出现过的次数参与多次计算,得到的特征向量中,维度值表示该维度对应的配方关键词在待识别的异动文档中的出现次数;本示例实施方式对此不做特别限定。
利用配方关键词的one-hot向量对待识别的异动文档进行特征张量的编码,可以有效提取出待识别的异动文档中与配方相关的特征信息。后续可以利用配方文档识别模型对特征张量进行处理,得到识别结果。
在一示例性实施例中,在获取待识别的异动文档后,所述方法还可以包括以下步骤:提取待识别的异动文档的路径名。可以根据待识别的异动文档的配方关键词与待识别的异动文档的路径名得到特征张量。
其中,路径名是指待识别的异动文档的来源路径,例如待识别的异动文档位于哪台设备、哪个分区、哪个文档夹、哪个数据库等,通常路径名可以在一定程度上反映文档的类型,可视为文档特征信息的一部分,将其与配方关键词共同编码为待识别的异动文档的特征张量,可以包含更多信息。
进一步的,在获取多个样本文档后,所述方法还可以包括以下步骤:提取样本文档的路径名,并对样本文档的路径名进行分词,根据分词的结果构建路径词库;对路径词库中的路径词进行one-hot编码,得到路径词的one-hot向量。相应的,根据待识别的异动文档的配方关键词与待识别的异动文档的路径名得到特征张量包括以下步骤:根据待识别的异动文档的配方关键词得到待识别的异动文档的第一特征向量;根据路径词库将待识别的异动文档的路径名拆分为路径词,并根据待识别的异动文档的路径词的one-hot向量得到待识别的异动文档的第二特征向量;根据第一特征向量与第二特征向量生成待识别的异动文档的特征张量。
其中,路径词库的建立方法可类似于上述样本词库或配方词库的建立方法,对路径词库中的路径词进行one-hot编码的方法也与上述配方关键词的one-hot编码方法类似,因此不进行赘述。待识别的异动文档可以分别提取两部分特征:配方关键词与路径名,分别编码为第一特征向量与第二特征向量,然后组合生成待识别的异动文档的特征张量。可以将第一特征向量与第二特征向量进行拼接,得到更高维度的特征向量,也可以将第一特征向量与第二特征向量转换为同维度向量后(例如对维度较少的向量进行预设填充,不足的维度填充为0或者1等),组合为特征矩阵等。本示例实施方式对此不做特别限定。
在一示例性实施例中,在获取待识别的异动文档后,所述方法还可以包括以下步骤:提取待识别的异动文档的文档名。相应的,可以根据待识别的异动文档的配方关键词与待识别的异动文档的文档名得到特征向量。
其中,文档名也可以在一定程度上反映文档的类型,可视为文档特征信息的一部分,将其与配方关键词共同编码为待识别的异动文档的特征张量,可以包含更多信息。
进一步的,在获取多个样本文档后,所述方法还可以包括以下步骤:提取样本文档的文档名,并对样本文档的文档名进行分词,根据分词的结果构建文档名词库;对文档名词库中的文档名词进行one-hot编码,得到文档名词的one-hot向量。其中,根据待识别的异动文档的配方关键词与待识别的异动文档的文档名得到特征向量包括:根据待识别的异动文档的配方关键词得到待识别的异动文档的第一特征向量;根据文档名词库将待识别的异动文档的文档名拆分为文档名词,并根据待识别的异动文档的文档名词的one-hot向量得到待识别的异动文档的第三特征向量;根据第一特征向量与第三特征向量生成待识别的异动文档的特征张量。
其中,文档名词是指文档名中所包含的词。文档名词库的建立方法可类似于上述样本词库或配方词库的建立方法,对文档名词库中的文档名词进行one-hot编码的方法也与上述配方关键词的one-hot编码方法类似,因此不进行赘述。待识别的异动文档可以分别提取两部分特征:配方关键词与文档名,分别编码为第一特征向量与第三特征向量,然后组合生成待识别的异动文档的特征张量。可以将第一特征向量与第三特征向量进行拼接,得到更高维度的特征向量,也可以将第一特征向量与第三特征向量转换为同维度向量后,组合为特征矩阵等。本示例实施方式对此不做特别限定。
在一示例性实施例中,也可以根据第一特征向量、第二特征向量与第三特征向量生成待识别的异动文档的特征张量,例如按照上述拼接或组合的方法对第一特征向量、第二特征向量与第三特征向量进行拼接或组合等。特征张量中包含了待识别的异动文档的配方关键词信息、路径信息、文档名信息,基于该特征张量,可以将特征张量输入到配方文档识别模型中,得到识别结果,从而进一步提高识别结果的准确度。
在一示例性实施例中,可以根据样本文档生成配方词库,则可以根据配方词库中配方关键词的one-hot向量,生成待识别的异动文档的第一特征向量。
在一示例性实施例中,机器学习模型可以是神经网络模型。在文档类型复杂的应用场景中,配方关键词的数量较多,样本文档或待识别的异动文档转换得到的样本特征张量或特征张量具有较高的维度,神经网络模型在处理高维张量方面具有优势。
进一步的,该神经网络模型可以包括1个输入层、5个中间层与1个输出层。其中输入层包括N个神经元,N为配方关键词的词库大小,即配方关键词的one-hot向量为N维向量;Dense_1~Dense_5为5个中间层,采用Sigmoid激活函数,可以进行批量规范化处理(BatchNormalization),并设置一定的丢弃率(Dropout),随机丢弃一定的神经元数量,以减少模型的运算量;其中Dense_1、Dense_2、Dense_4、Dense_5分别包括100个神经元,Dense_3包括20个神经元;Output为输出层,可以采用RMSE(Root Mean Square Error,均方根误差)损失函数与SGD(Stochastic gradient descent,随机梯度下降法)优化算法。
特别的,还可以对配方关键词进行特征编码,具体而言,基于训练完成的完整神经网络模型,将Input层到Dense_3层部分截取出来,输入配方关键词的one-hot向量,可以在Dense_3层输出该配方关键词的20维的词向量。通常词向量基于配方词库的空间特征,有别于one-hot形式的稀疏向量,特征的表征更加充分。可以基于配方关键词的词向量获取待识别的异动文档的配方关键词的词向量,并将词向量进行组合或拼接,得到特征稠密的特征张量。
应当理解,上述神经网络模型仅是示例性的,根据实际需要,可以设置任意数量的中间层,也可以增设其他类型的隐藏层,如全连接层、softmax(归一化指数)层等;此外,每一层的配置可以调整,例如神经元的数量可调,激活函数可以采用ReLU(Rectified LinearUnit,修正线性单元)函数、tanh(双曲正切)函数等其他函数,优化算法可以采用Adam(适应性矩估计)优化器等;本示例实施方式对此不做特别限定。
在一示例性实施例中,可以对上述神经网络模型进行简化,Dense_3层之后连接Dense_6层,可作为输出层,可以采用Sigmoid激活函数、Binary_Crossentropy(交叉熵)损失函数以及Adam优化器。
在步骤S1418中,若所述文本内容中不包括配方内容,则所述检测结果为所述异动文档为安全文档。
在示例性实施例中,所述方法还可以包括:将非安全文档存储至非安全数据库;以及更新所述第二文档数据,即将当前已经经过系统检测的文档的存储路径、文档名与修改时间等信息存储至所述第二文档数据中。
本发明实施例中,基于待识别的异动文档中与数值成组出现的配方关键词,利用配方关键词编码的方式生成待识别文档的特征张量,并利用配方文档识别模型输出对特征张量进行处理,得到识别结果。一方面,通过提取配方关键词以及转换特征张量的方式,从待识别文档中充分提取出了与文档类型识别相关的特征信息,该特征信息可以更加全面的反映待识别文档的内容,基于该特征信息进行模型的识别处理,可以提高识别结果的准确度。另一方面,基于对配方文档中关键词的特点挖掘,定义与数值成组出现的词为配方关键词,从而可以大大减少从待识别文档中提取的关键词数量,并降低后续转换特征向量以及模型处理过程中的运算量,提高配方文档识别的效率。
图8和9示意性示出了根据本发明的一个实施例的配方文档检测方法的整体架构图。
如图8和9所示,RD-1至RD-n(n为大于等于1的正整数)指的是公司内所有存储设备,RD-n如同存储设备的编号,即文档的存储路径与文档名的一部分记录至AFR(Actionfile record),例如RD-5/document/tmp/test.doc,因此不同设备之间若有相同存储路径与文档名,文档也不会重叠的,因为开始的路径不一样。
将RD中的所有文档的存储路径、文档名和修改时间与AFR中已经检测过的所有文档的存储路径、文档名和修改时间分别进行比较,可以实现实时异动文档收集,例如形成异动文档清单(RD-1)至异动文档清单(RD-n)。
对异动文档清单中的异动文档进行文档评估(evaluation),可以基于异动文档的开始位元组获取文档类型,例如是否为指定配方文档、已知文档类型文档、未知文档类型文档以及异动文档的真实扩展名,此外还可以获取异动文档的当前扩展名,基于上述真实扩展名和当前扩展名的比对,可以进行伪造文档识别。
如图8所示,若该异动文档是压缩文档,则对该压缩文档进行解压,判断是否需要密码,若需要密码,则进行安全评估;若不需要密码,则将解压后的异动文档加入至临时目录,重新进行文档评估和配方文档检测。
继续参考图8,在安全评估阶段,判断该异动文档是否安全,若安全,则跳转到节点2;若不安全,则跳转到节点1,在节点1,一方面将非安全文档加入至非安全数据库,记录所有不安全文档的信息,同时回到节点2。节点2可以继续回到实时异动文档收集阶段。此外,安全评估后还可以更新AFR,将该已经经过安全评估的异动文档的存储路径、文档名和修改时间存储至AFR。
参考图9所示,文档评估后,首先判断是否是配方文档类型,即是否是指定配方文档,此时不去理会受检测的异动文档是否为伪造文档。若所述异动文档是配方文档类型,则进行安全评估;若所述异动文档不是配方文档类型,则继续判断是否已知文档类型。若是已知文档类型,则继续判断是否伪造文档。若是伪造文档,则进行安全评估。若不是伪造文档,则继续判断是否压缩文档。若是压缩文档,则进行解压操作。若不是压缩文档,则进行文本文档识别,判断是否文本文档,或者若是未知文档类型,则判断是否文本文档。若是文本文档,则进行文本提取,检索配方内容,判断是否存在配方内容,若存在配方内容,则进行安全评估。若不存在配方内容,则进入节点2;若不是文本文档,进入节点2。
本发明实施例中,检测异动文档是否为安全文档,若异动文档被识别为配方文档、伪造文档与设置密码文档等型态,则属于不安全文档并将其记录于非安全数据库中。即只要通过前述步骤识别出异动文档清单中存在配方文档、伪造文档、设置密码文档,就认为该异动文档是不安全文档,将不安全文档记录至非安全数据库,同时将刚才检测过的安全文档和不安全文档都更新至AFR。
例如,评估文档是否安全并获取最终的值(是true/否false),在判断是否指定配方文档时的值=true或判断是否伪造文档时的值=true或判断是否需要密码时的值=true或判断是否包括配方内容时的值=true等情况下,则评估结果判定为不安全,即issafe=false。反之,则判断为安全issafe=true。
其中,上述节点2是batch end阶段。batch是指每一次获取的action file list,它指定了需受检测的一个或者多个异动文档,batch指的是这一次所有需受检测的异动文档。因每一个检测循环的时间是短暂的,所以每当有异动文档出现,则很快速的就会被下一次实时异动文档收集所侦测到。
需要说明的是,虽然图9流程图中仅检测解压后是否需要密码,未示出有可能有些文档仅加密并未压缩的情况。这是因为若异动文档为压缩格式,则依照其压缩格式进行解压缩指令而不管它有没有真正压缩,只要解压缩过程中出现要求输入密码,则为设置密码文档。如果如PDF这种非压缩格式的文档,则不同于上述情况,因为就算它有设密码,在文本提取时很容易就被破解(几乎可以当作没密码),因此在图9中就被省略了。当然也可以在文本提取后再加一个判断是否需要密码的分支。
本发明实施方式提供的配方文档检测方法,在对异动文档进行文档评估时,可以将异动文档归类为配方文档、伪造文档、非文本文档、压缩文档、设置密码文档、未知文档类型等多种型态,从而可以直接判别配方文档并排除大部分非文本文档型态(如media,audio,video等)的异动文档,避免了众多非配方文档的耗时处理,只对包含文本的异动文档进行分析,进一步有效地降低了运算成本,可以进一步提高配方文档检测的速度和准确性,并提供了其他文档型态的识别,可以检测出配方文档、伪造文档与设置密码文档等多种非安全文档。
图10示意性示出了根据本发明的一个实施例的配方文档检测装置的框图。
如图10所示,本发明实施例提供的配方文档检测装置1000可以包括第一文档数据获取模块1010、第二文档数据获取模块1020、异动文档获得模块1030以及配方文档检测模块1040。
其中,第一文档数据获取模块1010可以配置为获取包括待检测存储空间的待检测文档信息的第一文档数据。第二文档数据获取模块1020可以配置为获取包括所述待检测存储空间的已检测文档信息的第二文档数据。异动文档获得模块1030可以配置为比对所述第一文档数据和所述第二文档数据,获得异动文档。配方文档检测模块1040可以配置为对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果。
在示例性实施例中,所述待检测文档信息可以包括待检测文档的存储路径、文档名和修改时间;所述已检测文档信息可以包括已检测文档的存储路径、文档名和修改时间。其中,异动文档获得模块1030可以包括:异动文档判定单元,可以配置为若所述待检测文档与所述已检测文档的存储路径和文档名不同;或者若所述待检测文档与所述已检测文档的存储路径和文档名相同且修改时间不同,则判定所述待检测文档为异动文档。
在示例性实施例中,配方文档检测模块1040可以包括:开始位元组获取单元,可以配置为获取所述异动文档的开始位元组;指定配方文档判断单元,可以配置为根据所述异动文档的开始位元组判断所述异动文档是否为指定配方文档;非安全文档判定单元,可以配置为若所述异动文档为所述指定配方文档,则所述检测结果为所述异动文档为非安全文档。
在示例性实施例中,配方文档检测模块1040还可以包括:文档类型判断单元,可以配置为若所述异动文档不为所述指定配方文档,则根据所述异动文档的开始位元组判断所述异动文档为已知文档类型文档或者未知文档类型文档;真实扩展名获得单元,可以配置为若所述异动文档为已知文档类型文档,则根据所述异动文档的开始位元组获得所述异动文档的真实扩展名;当前扩展名获取单元,可以配置为获取所述异动文档的当前扩展名;伪造文档判断单元,可以配置为比较所述异动文档的真实扩展名和当前扩展名,判断所述异动文档是否为伪造文档。
在示例性实施例中,配方文档检测模块1040还可以包括:压缩文档判断单元,可以配置为若所述异动文档不为伪造文档,则根据所述异动文档的真实扩展名判断所述异动文档是否为压缩文档;文档解压单元,可以配置为若所述异动文档为压缩文档,则对所述异动文档执行解压操作。其中,所述非安全文档判定单元还可以配置为若在解压过程中需要输入密码,则所述检测结果为所述异动文档为非安全文档。
在示例性实施例中,所述非安全文档判定单元还可以配置为若所述异动文档为伪造文档,则所述检测结果为所述异动文档为非安全文档。
在示例性实施例中,配方文档检测模块1040还可以包括:解压文档获得单元,可以配置为若在解压过程中不需要输入密码,则获得解压后的异动文档;解压文档检测单元,可以配置为获得解压后的所述异动文档是否为配方文档的检测结果。
在示例性实施例中,配方文档检测模块1040还可以包括:文本文档判断单元,可以配置为若所述异动文档为未知文档类型文档;或者,若所述异动文档不为压缩文档,则判断所述异动文档是否为文本文档;文本提取单元,可以配置为若所述异动文档为文本文档,则提取所述异动文档的文本内容。其中,所述非安全文档判定单元还可以配置为若所述文本内容中包括配方内容,则所述检测结果为所述异动文档为非安全文档。
在示例性实施例中,配方文档检测模块1040还可以包括:安全文档判定单元,可以配置为若所述文本内容中不包括配方内容,则所述检测结果为所述异动文档为安全文档。
在示例性实施例中,所述安全文档判定单元还可以配置为若所述异动文档不为文本文档,则所述检测结果为所述异动文档为安全文档。
在示例性实施例中,配方文档检测装置1000还可以包括:非安全数据存储模块,可以配置为将非安全文档存储至非安全数据库;以及文档更新模块,可以配置为更新所述第二文档数据。
由于本发明的示例实施例的配方文档检测装置1000的各个功能模块与上述安全检测方法的示例实施例的步骤对应,因此在此不再赘述。
本发明实施例中的其他内容可以参照上述图1-9实施例中的内容,在此不再赘述。
在本发明的示例性实施例中,还提供了一种能够实现上述方法的电子设备。下面参考图11,其示出了适于用来实现本发明实施例的电子设备的计算机系统的结构示意图。图11示出的电子设备的计算机系统仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图11所示,计算机系统包括中央处理单元(CPU)1101,其可以根据存储在只读存储器(ROM)1102中的程序或者从存储部分1108加载到随机访问存储器(RAM)1103中的程序而执行各种适当的动作和处理。在RAM 1103中,还存储有系统操作所需的各种程序和数据。CPU 1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。
以下部件连接至I/O接口1105:包括键盘、鼠标等的输入部分1106;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1107;包括硬盘等的存储部分1108;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1109。通信部分1109经由诸如因特网的网络执行通信处理。驱动器1110也根据需要连接至I/O接口1105。可拆卸介质1111,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1110上,以便于从其上读出的计算机程序根据需要被安装入存储部分1108。
特别地,根据本发明的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本发明的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1109从网络上被下载和安装,和/或从可拆卸介质1111被安装。在该计算机程序被中央处理单元(CPU)1101执行时,执行本申请的系统中限定的上述功能。
需要说明的是,本发明所示的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本发明中,计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:无线、电线、光缆、RF等等,或者上述的任意合适的组合。
附图中的流程图和框图,图示了按照本发明各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本发明实施例中所涉及到的模块或者单元可以通过软件的方式实现,也可以通过硬件的方式来实现,所描述的模块或者单元也可以设置在处理器中。其中,这些模块或者单元的名称在某种情况下并不构成对该模块或者单元本身的限定。
作为另一方面,本申请还提供了一种计算机可读介质,该计算机可读介质可以是上述实施例中描述的电子设备中所包含的;也可以是单独存在,而未装配入该电子设备中。上述计算机可读介质承载有一个或者多个程序,当上述一个或者多个程序被一个该电子设备执行时,使得该电子设备实现如上述实施例中所述的安全检测方法。
例如,所述电子设备可以实现如图1中所示的:步骤S110,获取包括待检测存储空间的待检测文档信息的第一文档数据;步骤S120,获取包括所述待检测存储空间的已检测文档信息的第二文档数据;步骤S130,比对所述第一文档数据和所述第二文档数据,获得异动文档;步骤S140,对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果。
应当注意,尽管在上文详细描述中提及了用于动作执行的设备或装置的若干模块或者单元,但是这种划分并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多模块或者单元的特征和功能可以在一个模块或者单元中具体化。反之,上文描述的一个模块或者单元的特征和功能可以进一步划分为由多个模块或者单元来具体化。
通过以上的实施方式的描述,本领域的技术人员易于理解,这里描述的示例实施方式可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。因此,根据本发明实施方式的技术方案可以以软件产品的形式体现出来,该软件产品可以存储在一个非易失性存储介质(可以是CD-ROM,U盘,移动硬盘等)中或网络上,包括若干指令以使得一台计算设备(可以是个人计算机、服务器、触控终端、或者网络设备等)执行根据本发明实施方式的方法。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本发明的其它实施方案。本申请旨在涵盖本发明的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本发明未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本发明的真正范围和精神由下面的权利要求指出。
应当理解的是,本发明并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本发明的范围仅由所附的权利要求来限制。

Claims (14)

1.一种配方文档检测方法,其特征在于,包括:
获取包括待检测存储空间的待检测文档信息的第一文档数据;
获取包括所述待检测存储空间的已检测文档信息的第二文档数据;
比对所述第一文档数据和所述第二文档数据,获得异动文档;
对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果。
2.根据权利要求1所述的配方文档检测方法,其特征在于,所述待检测文档信息包括待检测文档的存储路径、文档名和修改时间;所述已检测文档信息包括已检测文档的存储路径、文档名和修改时间;其中,比对所述第一文档数据和所述第二文档数据,获得异动文档,包括:
若所述待检测文档与所述已检测文档的存储路径和文档名不同;或者
若所述待检测文档与所述已检测文档的存储路径和文档名相同且修改时间不同,则判定所述待检测文档为异动文档。
3.根据权利要求1所述的配方文档检测方法,其特征在于,对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果,包括:
获取所述异动文档的开始位元组;
根据所述异动文档的开始位元组判断所述异动文档是否为指定配方文档;
若所述异动文档为所述指定配方文档,则所述检测结果为所述异动文档为非安全文档。
4.根据权利要求3所述的配方文档检测方法,其特征在于,对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果,还包括:
若所述异动文档不为所述指定配方文档,则根据所述异动文档的开始位元组判断所述异动文档为已知文档类型文档或者未知文档类型文档;
若所述异动文档为已知文档类型文档,则根据所述异动文档的开始位元组获得所述异动文档的真实扩展名;
获取所述异动文档的当前扩展名;
比较所述异动文档的真实扩展名和当前扩展名,判断所述异动文档是否为伪造文档。
5.根据权利要求4所述的配方文档检测方法,其特征在于,对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果,还包括:
若所述异动文档不为伪造文档,则根据所述异动文档的真实扩展名判断所述异动文档是否为压缩文档;
若所述异动文档为压缩文档,则对所述异动文档执行解压操作;
若在解压过程中需要输入密码,则所述检测结果为所述异动文档为非安全文档。
6.根据权利要求4所述的配方文档检测方法,其特征在于,对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果,还包括:
若所述异动文档为伪造文档,则所述检测结果为所述异动文档为非安全文档。
7.根据权利要求5所述的配方文档检测方法,其特征在于,对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果,还包括:
若在解压过程中不需要输入密码,则获得解压后的异动文档;
获得解压后的所述异动文档是否为配方文档的检测结果。
8.根据权利要求5所述的配方文档检测方法,其特征在于,对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果,还包括:
若所述异动文档为未知文档类型文档;或者,若所述异动文档不为压缩文档,则判断所述异动文档是否为文本文档;
若所述异动文档为文本文档,则提取所述异动文档的文本内容;
若所述文本内容中包括配方内容,则所述检测结果为所述异动文档为非安全文档。
9.根据权利要求8所述的配方文档检测方法,其特征在于,对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果,还包括:
若所述文本内容中不包括配方内容,则所述检测结果为所述异动文档为安全文档。
10.根据权利要求8所述的配方文档检测方法,其特征在于,对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果,还包括:
若所述异动文档不为文本文档,则所述检测结果为所述异动文档为安全文档。
11.根据权利要求3至10任一项所述的配方文档检测方法,其特征在于,还包括:
将非安全文档存储至非安全数据库;以及
更新所述第二文档数据。
12.一种配方文档检测装置,其特征在于,包括:
第一文档数据获取模块,配置为获取包括待检测存储空间的待检测文档信息的第一文档数据;
第二文档数据获取模块,配置为获取包括所述待检测存储空间的已检测文档信息的第二文档数据;
异动文档获得模块,配置为比对所述第一文档数据和所述第二文档数据,获得异动文档;
配方文档检测模块,配置为对所述异动文档进行检测,获得所述异动文档是否为配方文档的检测结果。
13.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至11中任一项所述的配方文档检测方法。
14.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现如权利要求1至11中任一项所述的配方文档检测方法。
CN201910258688.6A 2019-04-01 2019-04-01 配方文档检测方法、装置、计算机可读介质及电子设备 Active CN111859896B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910258688.6A CN111859896B (zh) 2019-04-01 2019-04-01 配方文档检测方法、装置、计算机可读介质及电子设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910258688.6A CN111859896B (zh) 2019-04-01 2019-04-01 配方文档检测方法、装置、计算机可读介质及电子设备

Publications (2)

Publication Number Publication Date
CN111859896A true CN111859896A (zh) 2020-10-30
CN111859896B CN111859896B (zh) 2022-11-25

Family

ID=72951185

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910258688.6A Active CN111859896B (zh) 2019-04-01 2019-04-01 配方文档检测方法、装置、计算机可读介质及电子设备

Country Status (1)

Country Link
CN (1) CN111859896B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380536A (zh) * 2020-11-13 2021-02-19 深信服科技股份有限公司 一种病毒扫描方法、系统、装置及电子设备和存储介质

Citations (19)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007052959A1 (en) * 2005-11-03 2007-05-10 Ktfreetel Co., Ltd. Open mobile business supporting system and method
EP2009586A2 (en) * 2005-11-03 2008-12-31 KTFreetel Co., Ltd. Open interface device and method
CN101620616A (zh) * 2009-05-07 2010-01-06 北京理工大学 一种基于小世界特性的中文近似网页去重方法
CN103136474A (zh) * 2011-11-29 2013-06-05 姚纪卫 检测文件的方法和装置
CN103336925A (zh) * 2013-07-29 2013-10-02 腾讯科技(深圳)有限公司 一种扫描加速的方法和装置
CN103679002A (zh) * 2013-12-12 2014-03-26 小米科技有限责任公司 监控文件变化的方法、装置及服务器
US20140189879A1 (en) * 2011-12-24 2014-07-03 Huawei Technologies Co., Ltd. Method for identifying file type and apparatus for identifying file type
JP2015005112A (ja) * 2013-06-20 2015-01-08 コニカミノルタ株式会社 情報処理装置、文書データ整理装置、文書提示方法、およびコンピュータプログラム
CN105718800A (zh) * 2016-01-18 2016-06-29 北京金山安全管理系统技术有限公司 一种快速病毒扫描查杀方法和装置
US20160239487A1 (en) * 2015-02-12 2016-08-18 Microsoft Technology Licensing, Llc Finding documents describing solutions to computing issues
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN106446685A (zh) * 2016-09-30 2017-02-22 北京奇虎科技有限公司 恶意文档的检测方法及装置
US20170124067A1 (en) * 2015-11-04 2017-05-04 Kabushiki Kaisha Toshiba Document processing apparatus, method, and program
CN106919702A (zh) * 2017-02-14 2017-07-04 北京时间股份有限公司 基于文档的关键词推送方法及装置
CN108415911A (zh) * 2017-02-09 2018-08-17 上海宝信软件股份有限公司 基于企业云盘的数据文档按需同步方法
CN108427702A (zh) * 2017-10-23 2018-08-21 平安科技(深圳)有限公司 目标文档获取方法及应用服务器
CN108985064A (zh) * 2018-07-16 2018-12-11 中国人民解放军战略支援部队信息工程大学 一种识别恶意文档的方法及装置
TW201901514A (zh) * 2017-05-19 2019-01-01 關貿網路股份有限公司 程式異動監控與應變系統及方法
KR20190020491A (ko) * 2017-08-21 2019-03-04 한국전자통신연구원 지상국 시스템의 통합 상태 모니터링 방법

Patent Citations (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007052959A1 (en) * 2005-11-03 2007-05-10 Ktfreetel Co., Ltd. Open mobile business supporting system and method
EP2009586A2 (en) * 2005-11-03 2008-12-31 KTFreetel Co., Ltd. Open interface device and method
US20090248475A1 (en) * 2005-11-03 2009-10-01 Ktfreetel Co., Ltd. Open mobile business supporting system and method
CN101620616A (zh) * 2009-05-07 2010-01-06 北京理工大学 一种基于小世界特性的中文近似网页去重方法
CN103136474A (zh) * 2011-11-29 2013-06-05 姚纪卫 检测文件的方法和装置
US20140189879A1 (en) * 2011-12-24 2014-07-03 Huawei Technologies Co., Ltd. Method for identifying file type and apparatus for identifying file type
JP2015005112A (ja) * 2013-06-20 2015-01-08 コニカミノルタ株式会社 情報処理装置、文書データ整理装置、文書提示方法、およびコンピュータプログラム
CN103336925A (zh) * 2013-07-29 2013-10-02 腾讯科技(深圳)有限公司 一种扫描加速的方法和装置
CN103679002A (zh) * 2013-12-12 2014-03-26 小米科技有限责任公司 监控文件变化的方法、装置及服务器
US20160239487A1 (en) * 2015-02-12 2016-08-18 Microsoft Technology Licensing, Llc Finding documents describing solutions to computing issues
US20170124067A1 (en) * 2015-11-04 2017-05-04 Kabushiki Kaisha Toshiba Document processing apparatus, method, and program
CN105718800A (zh) * 2016-01-18 2016-06-29 北京金山安全管理系统技术有限公司 一种快速病毒扫描查杀方法和装置
CN106095737A (zh) * 2016-06-07 2016-11-09 杭州凡闻科技有限公司 文档相似度计算方法及相似文档全网检索跟踪方法
CN106446685A (zh) * 2016-09-30 2017-02-22 北京奇虎科技有限公司 恶意文档的检测方法及装置
CN108415911A (zh) * 2017-02-09 2018-08-17 上海宝信软件股份有限公司 基于企业云盘的数据文档按需同步方法
CN106919702A (zh) * 2017-02-14 2017-07-04 北京时间股份有限公司 基于文档的关键词推送方法及装置
TW201901514A (zh) * 2017-05-19 2019-01-01 關貿網路股份有限公司 程式異動監控與應變系統及方法
KR20190020491A (ko) * 2017-08-21 2019-03-04 한국전자통신연구원 지상국 시스템의 통합 상태 모니터링 방법
CN108427702A (zh) * 2017-10-23 2018-08-21 平安科技(深圳)有限公司 目标文档获取方法及应用服务器
CN108985064A (zh) * 2018-07-16 2018-12-11 中国人民解放军战略支援部队信息工程大学 一种识别恶意文档的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
AINI FUDDOLY等: "Keywords Similarity Based Topic Identification for Indonesian News Documents", 《IEEE》 *
姚原岗等: "异质工程文档多维关联的语义检索方法", 《浙江大学学报(工学版)》 *
王文奇等: "文本信息深度提取及多关键词并行匹配技术研究", 《计算机工程》 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112380536A (zh) * 2020-11-13 2021-02-19 深信服科技股份有限公司 一种病毒扫描方法、系统、装置及电子设备和存储介质

Also Published As

Publication number Publication date
CN111859896B (zh) 2022-11-25

Similar Documents

Publication Publication Date Title
US20160306876A1 (en) Systems and methods of detecting information via natural language processing
CN107729403A (zh) 互联网信息风险提示方法及系统
EP3311311A1 (en) Automatic entity resolution with rules detection and generation system
CN115357904B (zh) 一种基于程序切片和图神经网络的多类漏洞检测方法
CN115186650B (zh) 数据检测方法及相关装置
CN110489997A (zh) 一种基于模式匹配算法的敏感信息脱敏方法
CN115953123A (zh) 机器人自动化流程的生成方法、装置、设备及存储介质
CN113486664A (zh) 文本数据可视化分析方法、装置、设备及存储介质
CN111831624A (zh) 数据表创建方法、装置、计算机设备及存储介质
CN115146062A (zh) 融合专家推荐与文本聚类的智能事件分析方法和系统
Wang et al. File fragment type identification with convolutional neural networks
CN111859896B (zh) 配方文档检测方法、装置、计算机可读介质及电子设备
CN112182337B (zh) 从海量短新闻中识别相似新闻的方法及相关设备
CN113868422A (zh) 一种多标签稽查工单问题溯源识别方法及装置
CN109918638B (zh) 一种网络数据监测方法
CN116578700A (zh) 日志分类方法、日志分类装置、设备及介质
CN111199170B (zh) 配方文件识别方法及装置、电子设备、存储介质
CN108733733B (zh) 基于机器学习的生物医学文本分类方法、系统和存储介质
CN107491423B (zh) 一种基于数值-字符串混合编码的中文文档基因量化与表征方法
CN113688240A (zh) 威胁要素提取方法、装置、设备及存储介质
CN113537349A (zh) 大型主机硬件故障识别方法、装置、设备及存储介质
CN112597498A (zh) 一种webshell的检测方法、系统、装置及可读存储介质
Rahim et al. Hyper-Tuned Convolutional Neural Networks for Authorship Verification in Digital Forensic Investigations.
KR20220041336A (ko) 중요 키워드 추천 및 핵심 문서를 추출하기 위한 그래프 생성 시스템 및 이를 이용한 그래프 생성 방법
CN117235137B (zh) 一种基于向量数据库的职业信息查询方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant