CN101699428A

CN101699428A - 基于特征值比对的内容分析方法

Info

Publication number: CN101699428A
Application number: CN200910209248A
Authority: CN
Inventors: 张明哲; 徐克华; 张保忠; 刘灿雄
Original assignee: Chunghwa Telecom Co Ltd
Current assignee: Chunghwa Telecom Co Ltd
Priority date: 2009-10-27
Filing date: 2009-10-27
Publication date: 2010-04-28
Anticipated expiration: 2029-10-27
Also published as: CN101699428B

Abstract

本发明公开了一种基于特征值比对的内容分析方法，先在欲防护的机密文件进行特征值的计算，并建构出相应的数据特征档案，之后在机密防护作业的内容分析阶段，利用此文件特征数据向可疑文件进行固定长度的数据内容比对；若有符合特征比对的数据则为包含机密的档案，可以让防护系统进行政策所指定的相关防护动作，否则即可判定为不含机密的文件；本发明是基于机密防护领域的部份文件比对技术加以改良，利用切割数据空间的方法提升大型档案的比对效能与精确度，并依据目标文件的长度进行数据比对时相关参数的调整，从而达成机密辨识率与系统效能的两难需求。

Description

基于特征值比对的内容分析方法

技术领域

本发明是关于一种基于特征值比对的内容分析方法，特别是关于一种利用部分文件比对技术以提供快速及精确的内容分析方法。

背景技术

现有的机密防护系统，在内容分析中采用的部分文件比对方法，必须面临机密辨识率与系统效能的两难需求。较精确的机密辨识功能就会产生最多的数据比对作业而造成系统效能的冲击，反之若是追求内容分析的执行效能则难以兼顾机密数据的辨识率。且因为部分文件比对技术所处理的是指数成长的复杂度问题，当机密样本数据或目标文件长度增加时，系统效能就会面临急速恶化的困境。有鉴于机密防护技术在信息安全领域的应用日益广泛，诚然需要一个较佳的内容分析方法，以达成机密防护系统于辨识率及效能方面的需求。

由此可见，上述现有方式仍有诸多不足，实非良好的设计，而亟待加以改良。

发明内容

本发明的目的即在于提供一种既快速又精确的内容分析方法，是以切割特征值数据空间的方法改进大型文件的比对效能与正确性，并依据目标档案的长度进行文件比对参数的调整，从而达成机密辨识率与系统效能的两难需求，且由于字符内码分布的特性，本发明在中文与英文档案互相比对的作业中更能大幅减少比对次数，而改善内容分析的效能与正确性。

可达成上述发明目的的一种基于特征值比对的内容分析方法，至少包括：

文件特征建构流程，将欲防护的机密文件利用文件特征建构功能，进行特征值的分区计算，并建构出相应的文件特征档案；

特征值加载流程，将各区特征值加载至所属的数据结构中；

文件特征比对流程，利用文件特征比对功能将加载的文件特征数据向目标文件进行指定长度的数据内容比对，以判断文件是否包含机密数据。

本发明于建构机密文件的特征值时根据各资料区块所算出的字码统计值，分区储存特征值于所属的特征档案中，之后于文件比对阶段再依各资料区块的字码统计值进行分区比对；如此可在大数据量的内容分析作业中，尤其是中文与英文档案互相比对的情况下大幅减少比对次数而改善系统的效能，同时因为在特征值比对作业中加上字码统计值的区别，使得特征杂凑值的冲突机率进一步降低，而能提高内容分析的正确率。

另外在文件特征的比对作业中，本发明也依据目标文件的长度调整数据比对之重迭参数，使得数据量较小的比对作业有较精确的机密辨识率，而数据量大的比对作业则可改善系统的执行效能。

本发明的基于特征值比对的内容分析方法，与其它现有技术相互比较时，更具备下列的优点：

本发明可改进文件内容分析作业的效能，尤其在中文与英文档案互相比对时更能大幅减少比对次数而提高执行效率。

本发明可提高机密数据的辨识正确率，减少将文件误判为含有机密的情形。

本发明于数据量小的比对作业中具有精确的机密辨识率，而在数据量大的比对作业则提高执行效能。

附图说明

图1为本发明基于特征值比对的内容分析方法的流程示意图；

图2为该基于特征值比对的内容分析方法的文件特征建构流程图；以及

图3为该基于特征值比对的内容分析方法的文件特征比对流程图。

具体实施方式

以下通过具体实施例来说明本发明。

实施例1：

请参阅图1，为本发明基于特征值比对的内容分析方法的流程示意图，先在欲防护的机密文件(1)利用文件特征建构功能(2)进行特征值的计算，并建构出相应的文件特征档案(3)。在机密防护作业的内容分析阶段，加载特征值(4)至相对应的数据结构以后，即可利用文件特征比对功能(5)依此文件特征数据向目标文件(6)进行指定长度的数据内容比对。若有符合特征比对的数据则为包含机密的档案，可以让防护系统进行政策所指定的相关防护动作，否则即可判定为不含机密的文件。

请参阅图2，为本发明基于特征值比对的内容分析方法的文件特征建构流程图，其步骤包括：

a.设定数据的读取终点之后进行机密文件的循序读取；

b.排除空格符以组成一个固定长度的资料区块并且计算字码统计值；在这里所谓的空格符系指space，tab，换行符号等字符，属于与文件机密不相关的数据；当读取至区块长度时，其字码统计值也已计算完成，此一数值是统计资料区块内的每一字符内码值的分布，其计算方法为：

字符内码值	字码统计值
字符内码值	字码统计值	小于64	不变
介于64与123之间	加一	小于64	不变
介于64与123之间	加一	介于124与190之间	加二
大于190	加三	介于124与190之间	加二

上述的内码条件值是基于中/英文字码分布的范围而选定，以利于中/英文件的分区比对；

c.完成数据区块的读取后即利用杂凑算法计算此区块的特征值，可采用CRC40算法进行杂凑运算，以满足系统对于正确率与效能的双重需求；

d.依据字码统计值将CRC40杂凑值写至不同的特征档案，以区块长度设为64Bytes的系统为例，可采用如下的分割方式：

IF字码统计值＜56THEN写出CRC40值至特征文件1；

ELSE IF字码统计值＞55且＜60写出CRC40值至特征文件2；

ELSE IF字码统计值＞59且＜90写出CRC40值至特征文件3；

ELSE IF字码统计值＞89且＜105写出CRC40值至特征文件4；

ELSE IF字码统计值＞104且＜110写出CRC40值至特征文件5；

ELSE IF字码统计值＞109且＜115写出CRC40值至特征文件6；

ELSE IF字码统计值＞114且＜120写出CRC40值至特征文件7；

ELSE IF字码统计值＞119且＜130写出CRC40值至特征文件8；

ELSE IF字码统计值＞129写出CRC40值至特征文件9；

上述条件值的选定是考虑中文字内码的分布范围较广且本发明的应用环境以中文为主，因此特征档案的划分是在中文码范围采取较细的切割而英文码范围采取较宽的切割；当系统内定的数据区块长度不为64Bytes时，这些条件值自然会因字码统计值的变动而不同；另外如果系统要求更精细或更粗略的英文及中文码范围的切割方式，也会产生不同的条件值和档案的切割数量；

e.完成此一特征值分区写文件的作业后，将字码统计值重置为零，并依系统内定的步进参数设定下一个读取位置，所谓的步进参数是决定每一个取样数据区块的重迭程度，重迭量愈多可得到愈高的机密辨识率，但系统效能则受拖累；

重复上述b.至e.的处理步骤直至读取终点才结束。

请参阅图3，为本发明基于特征值比对的内容分析方法的文件特征比对流程图，其步骤包括：

a.设定目标文件的读取终点，亦即文件数据末端减去数据区块长度的位置；

b.依据目标文件的长度设定数据重迭参数，当文件长度小于某一内定值时采用最大的重迭参数值，以便在不影响系统效能的状况下进行最精确的比对作业；

c.进行目标文件的特征建构步骤，包含循序读取、排除空格符、计算字码统计值、达区块长度后计算数据杂凑值等处理步骤；

d.依据字码统计值设定所属的特征数据比对区及其终点；

e.进入特征值循序比对的作业，如果在特征数据区发现相同的CRC40杂凑值，即可判定为包含机密信息而传回TRUE值；否则重置字码统计值，并依重迭参数设定下一个读取位置，再检查是否已读至终点位置；如果已经比对至读取终点仍未发现相同的杂凑值则可判定为不含机密信息，传回FALSE值，否则继续进行下一数据区块的比对作业。

如此本发明利用切割特征值数据空间的方法改进了大数据量的比对效能，且因在特征值比对作业中加上字码统计值的区别，使得杂凑值冲突的情形进一步减少，从而提高内容分析的正确率。

上列详细说明是针对本发明的可行实施例的具体说明，该实施例并非用以限制本发明的专利范围，凡未脱离本发明的等效实施或变更，均应包含于本发明的专利范围中。

Claims

1.一种基于特征值比对的内容分析方法，其特征在于：至少包括：

特征值加载流程，将各区特征值加载至所属的数据结构中；

2.如权利要求1所述的基于特征值比对的内容分析方法，其特征在于：所述文件特征建构流程，处理步骤包括：

a.设定数据的读取终点、循序读取机密文件的内容；

b.排除空格符、组成一个固定长度的数据区块；

c.计算资料区块的字码统计值；

d.利用杂凑算法计算数据区块的特征值；

e.依据字码统计值将杂凑值写至不同的特征档案；

f.重置字码统计值，并设定下一个读取位置；

g.重复步骤b.至f.，直至读取终点才结束。

3.如权利要求2所述的基于特征值比对的内容分析方法，其特征在于：所述特征档案是在中文码范围采取较细的切割而英文码范围采取较宽的切割而划分的。

4.如权利要求2所述的基于特征值比对的内容分析方法，其特征在于：所述字码统计值的计算，其处理步骤包括：

a.排除空格符、组成一个固定长度的数据区块；

b.依据字符的内码值范围对字码统计值进行累计运算；

c.于文件特征建构阶段依据字码统计值将特征值分区写至所属档案；

d.于文件特征比对阶段依据字码统计值分区比对特征值。

5.如权利要求4所述的基于特征值比对的内容分析方法，其特征在于：所述内码值范围基于中/英文字码分布的范围而选定。

6.如权利要求1所述的基于特征值比对的内容分析方法，其特征在于：所述文件特征比对流程，处理步骤包括：

a.设定目标文件的读取终点；

b.依据目标文件的长度设定数据重迭参数；

c.循序读取目标文件的内容；

d.排除空格符、组成一个固定长度的数据区块；

e.计算资料区块的字码统计值；

f.利用杂凑算法计算数据区块的特征值；

g.依据字码统计值设定所属的特征数据比对区及其终点；

h.特征值的分区循序比对，以判断文件是否包含机密数据；

i.重置字码统计值，并依数据重迭参数设定下一个读取位置；

j.重复步骤c.至i.，直至读取终点或发现机密数据才结束。

7.如权利要求6所述的基于特征值比对的内容分析方法，其特征在于：所述数据重迭参数在目标文件长度小于某一内定值时采用最大的重迭参数值，以便在不影响系统效能的状况下进行最精确的比对作业。

8.如权利要求6所述的基于特征值比对的内容分析方法，其特征在于：所述字码统计值的计算，其处理步骤包括：

a.排除空格符、组成一个固定长度的数据区块；

b.依据字符的内码值范围对字码统计值进行累计运算；

d.于文件特征比对阶段依据字码统计值分区比对特征值。

9.如权利要求8所述的基于特征值比对的内容分析方法，其特征在于：所述内码值范围基于中/英文字码分布的范围而选定。