CN105787041B - 基于数据特征码的大文件比对方法以及比对系统 - Google Patents

基于数据特征码的大文件比对方法以及比对系统 Download PDF

Info

Publication number
CN105787041B
CN105787041B CN201610106195.7A CN201610106195A CN105787041B CN 105787041 B CN105787041 B CN 105787041B CN 201610106195 A CN201610106195 A CN 201610106195A CN 105787041 B CN105787041 B CN 105787041B
Authority
CN
China
Prior art keywords
file
code
data characteristics
subfile
document information
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610106195.7A
Other languages
English (en)
Other versions
CN105787041A (zh
Inventor
张工厂
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
China Unionpay Co Ltd
Original Assignee
China Unionpay Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by China Unionpay Co Ltd filed Critical China Unionpay Co Ltd
Priority to CN201610106195.7A priority Critical patent/CN105787041B/zh
Publication of CN105787041A publication Critical patent/CN105787041A/zh
Application granted granted Critical
Publication of CN105787041B publication Critical patent/CN105787041B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Landscapes

  • Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Databases & Information Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Development Economics (AREA)
  • Technology Law (AREA)
  • General Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Marketing (AREA)
  • Quality & Reliability (AREA)
  • Economics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明涉及基于数据特征码的大文件比对方法及其比对系统。本发明的方法包括下述步骤:特征码提取比对步骤,对大文件提取数据特征码,按照所述数据特征码生成特征码文件,比对所述特征码文件是否一致;文件拆分步骤,在所述特征码文件的比对结果为一致的情况下,基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件;子文件比对步骤,并发对所述N个子文件进行比对;以及结果合并步骤,将所述子文件比对步骤的比对结果进行合并。根据本发明,能够提高数据处理效率,对资源要求不高,即使在配置较低的机器上也能正常运行。

Description

基于数据特征码的大文件比对方法以及比对系统
技术领域
本发明涉及大数据处理技术,具体地涉及基于数据特征码的大文件比对方法以及比对系统。
背景技术
批量处理系统(比如跨行清算系统),往往生成很大量的流水文件。版本上线前,往往会进行新旧系统版本的结果输出进行内容比对。其中,如果相同交易的记录只要一样,即使记录顺序不一样,也认为是相同,面对如此大的文件(单个文件大小就将达到数GB),现有工具往往无法处理,会产生比如内存耗光导致系统宕机的情况。
发明内容
鉴于上述问题,本发明旨在提供一种处理效率高、对配置资源要求不高,即使在配置较低的机器上也能够轻松完成大文件的比对的基于数据特征码的大文件比对系统以及比对方法。
本发明的基于数据特征码的大文件比对方法,其特征在于,包括下述步骤:
特征码提取比对步骤,对大文件提取数据特征码,按照所述数据特征码生成特征码文件,比对所述特征码文件是否一致;
文件拆分步骤,在所述特征码文件的比对结果为一致的情况下,基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件;
子文件比对步骤,并发对所述N个子文件进行比对;以及
结果合并步骤,将所述子文件比对步骤的比对结果进行合并。
优选地,所述特征码提取比对步骤包括下述子步骤:
对大文件提取数据特征码;
对生成的数据特征码进行去重;
按照所述去重后的数据特征码生成特征码文件;
比对所述特征码文件是否一致,在所述特征码文件一致的情况下进行所述文件拆分步骤,否则结束处理。
优选地,所述特征码提取比对步骤包括下述子步骤:
对大文件的记录进行规定算法变换;
对规定算法变换后的记录提取数据特征码;
对生成的数据特征码进行去重;
按照所述去重后的数据特征码生成特征码文件;
比对所述特征码文件是否一致,在所述特征码文件一致的情况下进行所述文件拆分步骤,否则结束处理。
优选地,所述文件拆分步骤包括下述子步骤:
将所述特征码文件拆分成N个具有相同记录数的N个子特征码文件;以及
将所述大文件中匹配所述N个子特征码文件的记录进行均匀拆分以生成N个拆分后的子文件。
优选地,在所述子文件比对步骤中,并发对所述N个子文件进行比对。
优选地,在所述结果合并步骤中,将所述子文件比对步骤的N个子文件的比对结果进行合并。
本发明的基于数据特征码的大文件比对系统,其特征在于,具备:
特征码提取比对模块,用于对大文件提取数据特征码,按照所述数据特征码生成特征码文件,比对所述特征码文件是否一致;
文件拆分模块,在所述特征码提取比对模块的比对结果为一致的情况下,用于基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件;
子文件比对模块,用于对所述文件拆分模块输出的N个子文件进行比对;以及
结果合并模块,用于对所述子文件比对模块输出的比对结果进行合并。
优选地,所述特征码提取比对模块用于对大文件提取数据特征码并对生成的数据特征码进行去重,按照所述去重后的数据特征码生成特征码文件,比对所述特征码文件是否一致,在所述特征码文件一致的情况下将结果输出到所述文件拆分模块,否则结束处理。
优选地,所述特征码提取比对模块用于对大文件的记录进行规定算法变换,对规定算法变换后的记录提取数据特征码,对生成的数据特征码进行去重,按照所述去重后的数据特征码生成特征码文件,比对所述特征码文件是否一致,在所述特征码文件一致的情况下将结果输出到所述文件拆分模块,否则结束处理。
优选地,所述文件拆分模块用于将所述特征码文件拆分成N个具有相同记录数的N个子特征码文件并且将所述大文件中匹配所述N个子特征码文件的记录进行均匀拆分以生成N个拆分后的子文件。
优选地,所述子文件比对模块并发对所述N个子文件进行比对。
优选地,所述结果合并模块将所述子文件比对模块输出的N个子文件的比对结果进行合并。
如上所述,根据本发明的基于数据特征码的大文件比对系统以及比对方法具有以下技术效果:能够根据需要指定特征码,灵活性高;对机器环境配置要求不高,适用范围广泛;特征码文件较之原文件所占空间大大减小,可用于快速确定原大文件是否不一致,能够提高数据处理效率;在拆分和比对环节,能够充分利用机器资源进行并发处理,性能好,处理效率高。
附图说明
图1是表示本发明一实施方式的基于数据特征码的大文件比对方法的流程图。
图2(a)~(c)表示本发明的基于数据特征码的大文件比对方法中特征码提取、去重的一个具体示例。
图3表示该具体示例中的特征码文件的内容。
图4是本发明的基于数据特征码的大文件比对系统的构造示意图。
具体实施方式
下面介绍的是本发明的多个实施例中的一些,旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。
本发明的基于数据特征码的大文件比对方法以及比对系统是可对指定数据特征(例如,在流水文件中,流水号基本能确定交易,根据流水文件的这种特征,可以指定流水号作为特征码字段。当然本发明并不仅限于将流水号作为数据特征的情况,可以按照实际进行数据处理的需要进行指定)进行提取,生成特征码文件。由于该特征码文件体积很小,可快速确定原文件是否不一致,如果该特征码文件不一致,则原大文件肯定不一致,并根据特征码进行大文件切分,将大文件切分为若干小文件(切分过程并发处理),再并发对小文件进行比对处理,最终汇总各小文件比对结果。本发明的基于数据特征码的大文件比对方法以及比对系统处理效率较高,而且对资源要求不高,在配置较低的机器上也能正常运行。
图1是表示本发明一实施方式的基于数据特征码的大文件比对方法的流程图。
本发明一实施方式的基于数据特征码的大文件比对方法主要包括:特征码提取及比对步骤、文件拆分步骤、并发比对步骤以及结果合并步骤。
下面,参照图1对于本发明一实施方式的基于数据特征码的大文件比对方法进行具体说明。
如图1所示,本发明一实施方式的基于数据特征码的大文件比对方法包括下述步骤:
在步骤S100,对大文件提取数据特征码,按照所述数据特征码生成特征码文件。
在步骤S200中,比对所述特征码文件是否一致。
在比对一致的情况下(即图1中“Y”的情况下),进入步骤S300,否则(即图1中“N”的情况下)跳至步骤S600结束处理。
在步骤S300中,在所述特征码文件的比对结果为一致的情况下,基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件。
在步骤S400中,并发对所述N个子文件进行比对。
在步骤S500中,将所述子文件比对步骤的比对结果进行合并。在步骤S500完成后继续步骤S600结束处理。
接着,对于步骤S100~S400进行具体说明。
首先,对于步骤S100和步骤S200进行说明。
在步骤S100中,针对不同的文件,可根据其数据特征对大文件生成特征码文件,在步骤S200中,比对所述特征码文件是否一致。该过程,是将大文件中的特征码提取、去重的过程,以保证切分后同一特征码的记录被切在同一子文件中,方便比对。在此过程中,提取、去重后的特征码集合,可以作为大文件拆分的依据。这一过程也可以称之为特征码文件生成。
图2(a)~(c)表示本发明的基于数据特征码的大文件比对方法中特征码提取、去重的一个具体示例。
作为具体示例,例如有类似图2(a)所示的文件,该文件第一个字段为交易流水号,一般情况下不同交易该字段也不同,根据该特点,对此文件可考虑采用该交易流水号字段作为其特征码。当然,也可以采用对记录进行算法变换后再取特征码,例如hash算法,这里为方便理解,采用最简单的方式进行示例介绍。
在提取特征码(即交易流水号)之后,生成如图2(b)所示内容的特征码文件。
接着,对于提取特征码之后生成的特征码文件进行去重,去除重复特征码的目的,是为了保证后续切分文件时,同一特征码的记录能分到同一个子文件中,经过去重之后,特征码文件内容为图2(c)所示。
像上述具体示例那样的跨行清算系统中的流水,一条记录近1000字节,假如指定流水号作为数据特征码(例如,6字节),对一个近8GB的流水文件,提取特征码后生成的特征码文件只有60MB,针对这60MB的文件进行处理,较之针对8GB的文件相比,效率要高很多。
同时,该特征码文件可用于快速判断和确定文件是否不一致,即针对新旧版本流水文件各生成一次特征码文件,并进行特征码文件的比对,如果特征码文件不一致,则两个版本的流水肯定不一致,并且能快速确定差异内容。因此,在步骤S200中,比对所述特征码文件是否一致。如果特征码文件比对不通过,则不进行后序步骤,直接进至步骤S600,如果特征码文件比对通过,则进行后续步骤,即进行步骤S300。
接着,对于文件拆分步骤S300进行说明。在步骤S200中对特征码文件进行比对后,如果特征码文件一致,则在步骤S300中对大文件进行拆分。拆分过程是先将特征码文件拆成若干个记录数一致的子文件,例如N个,这里N为正整数。将特征码文件拆分成N个记录数一致的子文件,并且每个子文件的记录数可自行指定,这样能够保证后续切分出的子文件数据量基本一致,以保证后序的并发比对的性能,并且将大文件中匹配该子特征码文件的记录进行均匀拆分,这样可以生成N个拆分后的子文件。
例如,接着图2(a)~图2(c)所示的具体示例,图3表示该具体示例中的特征码文件的内容。如图3所示,特征码文件共有3行。假如要拆成三个子文件,则能够以每行作为一个特征码子文件。然后,分别根据特征码子文件,对原大文件进行特征码匹配,符合同一特征码子文件特征的记录拆分到同一子文件中,这样拆分下来的子文件,同一特征的必定在同一子文件中。
对于拆分后的子文件,在步骤S400中进行子文件的比对。大文件拆分成N个子文件之后,可以并发对子文件进行比对,(所谓并发比对即指并行地进行子文件比对。通过进行并发比对,总体处理时间就与一个子文件的比对时间一致,能够提高处理效率,例如,对拆分后大小为550MB的子文件比对几十秒内即可完成。
接着,对于完成比对的子文件,在步骤S500中,将子文件比对步骤的比对结果进行合并。各子文件并发比对,每个子文件的比对结果会记录在对应的比对结果文件中,结果合并就是将各子文件比对结果汇总,方便查看,汇总后的结果中可以体现子文件名是否一致、或者差异情况等。
如上所述,本发明的基于数据特征码的大文件比对方法具有下述优点:特征数据可以自行指定,使得本发明能够适用于多种类型的文件;特征码文件体积较原文件小很多,可用于快速判断文件是否不一致;拆分后的小文件数据均匀,适合并发处理,且并行处理性能较优。
接着,对于本发明的基于数据特征码的大文件比对系统进行说明。图4是本发明的基于数据特征码的大文件比对系统的构造示意图。
如图4所示,本发明的基于数据特征码的大文件比对系统具备:特征码提取比对模块100,用于对大文件提取数据特征码,按照所述数据特征码生成特征码文件,比对所述特征码文件是否一致;文件拆分模块200,在所述特征码提取比对模块的比对结果为一致的情况下,用于基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件,其中N为正整数;子文件比对模块300,用于对所述文件拆分模块输出的N个子文件进行比对;以及结果合并模块400,用于对所述子文件比对模块输出的比对结果进行合并。
其中,所述特征码提取比对模块100用于对大文件提取数据特征码并对生成的数据特征码进行去重,按照所述去重后的数据特征码生成特征码文件,比对所述特征码文件是否一致,在所述特征码文件一致的情况下将结果输出到所述文件拆分模块,否则结束处理。或者,所述特征码提取比对模块100用于对大文件的记录进行规定算法变换,对规定算法变换后的记录提取数据特征码,对生成的数据特征码进行去重,按照所述去重后的数据特征码生成特征码文件,比对所述特征码文件是否一致,在所述特征码文件一致的情况下将结果输出到所述文件拆分模块,否则结束处理。
所述文件拆分模块200用于将所述特征码文件拆分成N个具有相同记录数的N个子特征码文件并且将所述大文件中匹配所述N个子特征码文件的记录进行均匀拆分以生成N个拆分后的子文件。
所述子文件比对模块300并发对所述N个子文件进行比对。
所述结果合并模块400将所述子文件比对模块输出的N个子文件的比对结果进行合并。
如上所述,根据本发明的基于数据特征码的大文件比对系统以及比对方法具有以下技术效果:能够根据需要指定特征码,灵活性高;对机器环境配置要求不高,适用范围广泛;特征码文件较之原文件所占空间大大减小,可用于快速确定原大文件是否不一致,能够提高数据处理效率;在拆分和比对环节,能够充分利用机器资源进行并发处理,性能好,处理效率高。
以上例子主要说明了本发明的基于数据特征码的大文件比对系统以及比对方法。尽管只对其中一些本发明的具体实施方式进行了描述,但是本领域普通技术人员应当了解,本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此,所展示的例子与实施方式被视为示意性的而非限制性的,在不脱离如所附各权利要求所定义的本发明精神及范围的情况下,本发明可能涵盖各种的修改与替换。

Claims (9)

1.一种基于数据特征码的大文件比对方法,其特征在于,包括下述步骤:
特征码提取比对步骤,对大文件提取数据特征码,按照所述数据特征码生成特征码文件,比对所述特征码文件是否一致;
文件拆分步骤,在所述特征码文件的比对结果为一致的情况下,基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件,其中N为正整数;
子文件比对步骤,并发对所述N个子文件进行比对;以及
结果合并步骤,将所述子文件比对步骤的比对结果进行合并,
其中,所述文件拆分步骤包括下述子步骤:
将所述特征码文件拆分成N个具有相同记录数的N个子特征码文件;以及
将所述大文件中匹配所述N个子特征码文件的记录进行均匀拆分以生成N个拆分后的子文件。
2.如权利要求1所述的基于数据特征码的大文件比对方法,其特征在于,
所述特征码提取比对步骤包括下述子步骤:
对大文件提取数据特征码;
对生成的数据特征码进行去重;
按照所述去重后的数据特征码生成特征码文件;以及
比对所述特征码文件是否一致,在所述特征码文件一致的情况下进行所述文件拆分步骤,否则结束处理。
3.如权利要求1所述的基于数据特征码的大文件比对方法,其特征在于,
所述特征码提取比对步骤包括下述子步骤:
对大文件的记录进行规定算法变换;
对规定算法变换后的记录提取数据特征码;
对生成的数据特征码进行去重;
按照所述去重后的数据特征码生成特征码文件;以及
比对所述特征码文件是否一致,在所述特征码文件一致的情况下进行所述文件拆分步骤,否则结束处理。
4.如权利要求2或3所述的基于数据特征码的大文件比对方法,其特征在于,
在所述结果合并步骤中,将所述子文件比对步骤的N个子文件的比对结果进行合并。
5.一种基于数据特征码的大文件比对系统,其特征在于,具备:
特征码提取比对模块,用于对大文件提取数据特征码,按照所述数据特征码生成特征码文件,比对所述特征码文件是否一致;
文件拆分模块,在所述特征码提取比对模块的比对结果为一致的情况下,用于基于上述特征码文件将所述大文件进行拆分以生成拆分后的N个子文件,其中N为正整数;
子文件比对模块,用于对所述文件拆分模块输出的N个子文件进行比对;以及
结果合并模块,用于对所述子文件比对模块输出的比对结果进行合并,
其中,所述文件拆分模块用于将所述特征码文件拆分成N个具有相同记录数的N个子特征码文件并且将所述大文件中匹配所述N个子特征码文件的记录进行均匀拆分以生成N个拆分后的子文件。
6.如权利要求5所 述的基于数据特征码的大文件比对系统,其特征在于,
所述特征码提取比对模块用于对大文件提取数据特征码并对生成的数据特征码进行去重,按照所述去重后的数据特征码生成特征码文件,比对所述特征码文件是否一致,在所述特征码文件一致的情况下将结果输出到所述文件拆分模块,否则结束处理。
7.如权利要求5所 述的基于数据特征码的大文件比对系统, 其 特征在于,
所述特征码提取比对模块用于对大文件的记录进行规定算法变换,对规定算法变换后的记录提取数据特征码,对生成的数据特征码进行去重,按照所述去重后的数据特征码生成特征码文件,比对所述特征码文件是否一致,在所述特征码文件一致的情况下将结果输出到所述文件拆分模块,否则结束处理。
8.如权利要求6或7所述的基于数据特征码的大文件比对系统,其特征在于,
所述子文件比对模块并发对所述N个子文件进行比对。
9.如权利要求6或7所述的基于数据特征码的大文件比对系统,其特征在于,
所述结果合并模块将所述子文件比对模块输出的N个子文件的比对结果进行合并。
CN201610106195.7A 2016-02-26 2016-02-26 基于数据特征码的大文件比对方法以及比对系统 Active CN105787041B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201610106195.7A CN105787041B (zh) 2016-02-26 2016-02-26 基于数据特征码的大文件比对方法以及比对系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201610106195.7A CN105787041B (zh) 2016-02-26 2016-02-26 基于数据特征码的大文件比对方法以及比对系统

Publications (2)

Publication Number Publication Date
CN105787041A CN105787041A (zh) 2016-07-20
CN105787041B true CN105787041B (zh) 2019-08-13

Family

ID=56403003

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610106195.7A Active CN105787041B (zh) 2016-02-26 2016-02-26 基于数据特征码的大文件比对方法以及比对系统

Country Status (1)

Country Link
CN (1) CN105787041B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106254343B (zh) * 2016-08-03 2019-11-22 北京新能源汽车股份有限公司 文件比对方法和装置

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101236554A (zh) * 2007-11-29 2008-08-06 中兴通讯股份有限公司 一种数据库海量数据比对的方法
CN103218398A (zh) * 2013-03-13 2013-07-24 江苏省电力公司电力科学研究院 智能变电站scl文件差异性比较方法
CN103729342A (zh) * 2012-10-12 2014-04-16 中国银联股份有限公司 文件比对方法及装置
CN103970728A (zh) * 2013-02-01 2014-08-06 中国银联股份有限公司 一种文件的比对方法和系统
CN104410692A (zh) * 2014-11-28 2015-03-11 上海爱数软件有限公司 一种用于重复文件上传的方法和系统
CN104915262A (zh) * 2015-06-18 2015-09-16 国云科技股份有限公司 一种基于excel数据结构的校验系统及其方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101236554A (zh) * 2007-11-29 2008-08-06 中兴通讯股份有限公司 一种数据库海量数据比对的方法
CN103729342A (zh) * 2012-10-12 2014-04-16 中国银联股份有限公司 文件比对方法及装置
CN103970728A (zh) * 2013-02-01 2014-08-06 中国银联股份有限公司 一种文件的比对方法和系统
CN103218398A (zh) * 2013-03-13 2013-07-24 江苏省电力公司电力科学研究院 智能变电站scl文件差异性比较方法
CN104410692A (zh) * 2014-11-28 2015-03-11 上海爱数软件有限公司 一种用于重复文件上传的方法和系统
CN104915262A (zh) * 2015-06-18 2015-09-16 国云科技股份有限公司 一种基于excel数据结构的校验系统及其方法

Also Published As

Publication number Publication date
CN105787041A (zh) 2016-07-20

Similar Documents

Publication Publication Date Title
KR101162051B1 (ko) 문자열 비교 기법을 이용한 악성코드 탐지 및 분류 시스템 및 그 방법
CN103365699B (zh) 基于apk的系统api和运行时字符串的提取方法及系统
EP3174264A1 (en) Apparatus and method for automatically generating detection rule
WO2022151590A1 (zh) 数据的抽样检测方法、装置、设备及存储介质
EP3136249A1 (en) Log analysis device, attack detection device, attack detection method and program
US8108931B1 (en) Method and apparatus for identifying invariants to detect software tampering
CN105205397B (zh) 恶意程序样本分类方法及装置
CN105718795B (zh) Linux下基于特征码的恶意代码取证方法及系统
CN107679403A (zh) 一种基于序列比对算法的勒索软件变种检测方法
CN107145482A (zh) 基于人工智能的文章生成方法及装置、设备与可读介质
WO2012080077A1 (en) Cleansing a database system to improve data quality
Aronson et al. Towards an engineering approach to file carver construction
CN113688240B (zh) 威胁要素提取方法、装置、设备及存储介质
CN107368592B (zh) 一种用于网络安全报告的文本特征模型建模方法及装置
CN110209643A (zh) 一种数据处理方法及装置
JP6955676B2 (ja) ログ分析方法、システムおよび記録媒体
CN112733146B (zh) 基于机器学习的渗透测试方法、装置、设备及存储介质
CN103716394B (zh) 下载文件的管理方法及装置
CN112667750A (zh) 一种报文类别的确定、识别方法及装置
CN107995174A (zh) 文件密钥获取装置及方法,文件解密装置及方法
CN109558735A (zh) 一种基于机器学习的恶意程序样本聚类方法及相关装置
CN110399485B (zh) 基于词向量和机器学习的数据溯源方法和系统
KR100961179B1 (ko) 디지털 포렌식 방법 및 장치
CN105787041B (zh) 基于数据特征码的大文件比对方法以及比对系统
KR102031592B1 (ko) 악성코드를 탐지하기 위한 방법 및 장치

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant