CN107491530B

CN107491530B - 一种基于文件自动标记信息的社会关系挖掘分析方法

Info

Publication number: CN107491530B
Application number: CN201710713531.9A
Authority: CN
Inventors: 陈虹宇; 罗阳
Original assignee: Sichuan Cinghoo Technology Co ltd
Current assignee: Sichuan Shenhu Technology Co.,Ltd.
Priority date: 2017-08-18
Filing date: 2017-08-18
Publication date: 2021-05-04
Anticipated expiration: 2037-08-18
Also published as: CN107491530A

Abstract

本发明公开了一种基于文件自动标记信息的社会关系挖掘分析方法，所述方法包括：从被分析对象的载体中收集具有标记信息的文件；从收集的文件中解析出标记信息并存储到数据库中；从数据中选择能够作为社交关联分析的关联字段；建立黑名单库，基于黑名单库进行过滤；从标记信息将选择出的关联字段的值读取出来，并两两关联；基于关联后的文档利用辅助字段的相似度信息，计算关联的可靠性信息；将关联信息输入可视化控件生成社会关系图；通过本申请中的方法能够显著提高取证过程中拓展线索的效率和效果。

Description

一种基于文件自动标记信息的社会关系挖掘分析方法

技术领域

本发明涉及取证分析研究领域，具体地，涉及一种基于文件自动标记信息的社会关系挖掘分析方法。

背景技术

传统的取证分析中的社会关系挖掘分析方法往往是依赖于互联网产品，如基于电子邮件的社会关系挖掘、基于社交软件的社会关系挖掘。现有的电子取证分析中的社会关系挖掘分析方法普遍需要互联网。如基予电子邮件的社会关系挖掘需要搜集目标对象的来往邮件来进行社会关系关联；基予社交软件如QQ微信的社会关系挖掘需要目标对象的账号密码。此类分析方法有2个问题：

1、严重依赖互联网，无法对不联网的计算机进行有效分析。

2、无论是电子邮件还是QQ微信都需要目标对象的账号密码信息，这在实际取证过程中难度很大，往往无法有效开展。

发明内容

本发明提供了一种基于文件自动标记信息的社会关系挖掘分析方法，解决了现有的分析存在依赖互联网且分析难度大的技术问题，通过本申请中的方法能够显著提高取证过程中拓展线索的效率和效果。

传统的方法针对于文件的取证分析方法一般只注重于文件的时间属性和内容上面的分析，往往忽略了文件的自动标记属性产生的巨大价值。

为实现上述发明目的，本申请提供了一种基于文件自动标记信息的社会关系挖掘分析方法，所述方法包括：

从被分析对象的载体中收集具有标记信息的文件；

从收集的文件中解析出标记信息并存储到数据库中；

从数据中选择能够作为社交关联分析的关联字段；

建立黑名单库，基于黑名单库进行过滤；

从标记信息将选择出的关联字段的值读取出来，并两两关联；

基于关联后的文档利用辅助字段的相似度信息，计算关联的可靠性信息；

将关联信息输入可视化控件生成社会关系图。

其中，本方法的原理为：在计算机、手机等设备上创建或编辑诸如办公文档、音频文件、图片文件、等等一系列文件时，相应的软件会根据软件自身与操作系统情况自动加入标记信息。自动加入的标记信息种类多达上百种。因为这些标记字段往往为正文内容不可见的，所以常常被人忽略。又由于这些标记信息具有传递性，即标记信息会跟随文件的传递而进行传递。当上述具有自动标记信息的文件通过U盘、光盘、网络传输等方式传递到目的端时，结合传输源端的标记信息和传输目的端的标记信息进行关联分析时，有极大的可能分析出传输源端和传输目的端的信息与关系。因此利用文件自动标记信息来作为分析文件所有的个人或公司的社会关系网络是可行的。

本申请中的的系统泛指计算机操作系统。如windows操作系统中会自带很多帮助文档和默认模板文档。这些文档所带的标记信息均是跟微软相关的。因此这类文档的标记信息对分析目标对象的社会关系来说是无价值的。

所述基于黑名单库进行过滤具体包括：将收集到的标记信息与存在于黑名单库中的标记信息进行比对，如果比对结果显示存在于黑名单库中，则进行丢弃。

可用作构建社会关系网络的标记字段(下文称关联字段)包括但不限于：创建者信息、最后修改者信息、管理者信息、公司信息、设备信息，软件信息。

可用于辅助计算关联可靠性的标记字段(下文称辅助字段)包括但不限于：编码类型信息、语言信息、校验信息、创建时间信息、修改时间信息、版本信息、模板信息、关键字信息、生成信息。

进一步的，具有自动标记信息的文件包括但不限于：word文档、excel文档、演示文稿文档、project文档、visio文档、PDF文档。

进一步的，文件自带标记信息，根据不同文件类型的各自内部结构进行解析；标记信息由键值对组成。

进一步的，所述方法还包括：从数据库中把携带标记信息的字段读取到分析平台，在分析平台中选择能够作为社交关联分析的字段。

进一步的，辅助字段为可用于辅助计算关联可靠性的标记字段。

进一步的，辅助字段的相似度与关联的可靠性成正比。

进一步的，所述建立黑名单库，黑名单库可通过人工编辑添加和自动统计分析添加。

从标记信息将选择出的关联字段的值读取出来，并两两关联，具体包括：文档a的关联字段有值：A、B、C，则A与B组成边，B与C组成边，A与C组成边，并保存到关联信息{…,(A,B),(B,C),(A,C),…}，若两个及以上的文档的关联字段的值相同，则保留关联信息，否则若没有和其它文档的关联字段的值相同，则删除该文件档的关联信息，文档a则删除关联信息{(A,B),(B,C),(A,C)}。般文档带有多个可关联的标记字段，如果文档A中的其中一个可关联标记字段与文档B的其中一个可关联字段有联系(如：这两个标记字段内容一致，那么这两个字段可以进行关联)则可将这两个字段进行关联。参考详见图2、图3。

本申请提供的一个或多个技术方案，至少具有如下技术效果或优点：

利用具有自动标记属性的文档对目标进行社会关系挖掘分析，通过多种实施可行度较高的手段收集到目标的相关文档之后，可以有效分析出目标的社会关系情况并形成关系图，为后续动作提供参考，解决了现有的分析存在依赖互联网且分析难度大的技术问题，通过本申请中的方法能够显著提高取证过程中拓展线索的效率和效果。

附图说明

此处所说明的附图用来提供对本发明实施例的进一步理解，构成本申请的一部分，并不构成对本发明实施例的限定；

图1是本申请中本方法的原理示意图；

图2是计算机上获取到4个文档示意图；

图3是本申请中人物文档关联示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是，在相互不冲突的情况下，本申请的实施例及实施例中的特征可以相互组合。

在下面的描述中阐述了很多具体细节以便于充分理解本发明，但是，本发明还可以采用其他不同于在此描述范围内的其他方式来实施，因此，本发明的保护范围并不受下面公开的具体实施例的限制。

步骤1)通过从被分析对象的设备(如计算机、手机)里以遍历所有文件的方式提取，或从目标官方网站上下载，或使用其它任意手段(如手动进行文件拷贝)收集所有的具有自动标记信息的文件。这些文档包含主要如下类型：Office系列文档的word文档、excel文档、演示文稿文档、project文档、visio文档，PDF文档。

步骤2)从上述文件中解析所有标记信息到数据库中。文件自带这些标记信息，根据不同文件类型的各自内部结构进行解析。

必须包括；标记信息一般由键(又称作字段)值对组成，如：作者(键):张三(值)，所以标记字段是标记信息中的键(字段)的部分；

步骤3)从数据库把标记信息的字段读取到分析平台；

步骤4)选择所有可作为社交关联分析的字段(关联字段)，常见的关联字段默认选中

步骤5)收集黑名单库，将系统自带的文档以及其它一些无价值文档中的关联字段加入到黑名单库，在分析时进行过滤。(例如系统文档的“创建者”为微软公司。类似这样的数据都收集到黑名单中进行过滤。)

步骤6)将数据库中的所有关联字段的值读取出来，如果两个及以上的文档的关联字段的值有相同则进行关联。

原理示意图如图1所示。

1)张三编写了“文档1”，并通过U盘拷贝给李四，此时文档自动标记作者张三的信息(红色部分)。

2)李四将“文档1”修改完后发给张三，此时文档自动标记修改者李四的信息。

李四编写了“文档3”，通过互联网发送给王五，此时文档自动标记作者为李四。

3)王五编写了“文档2”，并修改了李四的文档3。完成之后一并发给张三。

现在张三计算机上获取到4个文档如图2所示。

文档1和文档2通过张三关联，文档2与文档3通过王五关联，文档4与其它文档无任何关联，关联图如图3所示，通过该关联图可以关联出张三、李四、王五之间的联系。

步骤7)关联后的文档利用辅助字段的一致性(即辅助字段的值是否相同或相似，辅助字段相同或相似度越高即关联关系越可靠)原则计算关联的可靠性(可靠性可以通过关系图边的粗细来体现,也可以通过可靠性过滤掉可靠性低的关系)。

步骤8)将关联的数据放入可视化控件生成社会关系图。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例作出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

Claims

1.一种基于文件自动标记信息的社会关系挖掘分析方法，其特征在于，所述方法包括：

从被分析对象的载体中收集具有自动标记信息的文件；

从收集的文件中解析出键值对标记信息并存储到数据库中；

从数据中选择能够作为社交关联分析的关联字段；

建立黑名单库，基于黑名单库进行过滤；

从键值对标记信息将选择出的关联字段的值读取出来，并两两关联；

将关联信息输入可视化控件生成社会关系图；

其中，具有自动标记信息的文件包括但不限于：word文档、excel文档、演示文稿文档、project文档、visio文档、PDF文档；

文件自带标记信息，根据不同文件类型的各自内部结构进行解析；标记信息由键值对组成；

基于黑名单库进行过滤具体包括：将收集到的标记信息与存在于黑名单库中的标记信息进行比对，如果比对结果显示存在于黑名单库中，则进行丢弃；

辅助字段为可用于辅助计算关联可靠性的标记字段；辅助字段的相似度与关联的可靠性成正比；

所述建立黑名单库，具体包括：通过人工添加或自动添加；

从标记信息将选择出的关联字段的值读取出来，并两两关联，具体包括：若文档a的关联字段有值：A、B、C，则A与B组成边，B与C组成边，A与C组成边，并保存到关联信息{…,(A,B),(B,C),(A,C),…}，若两个及以上的文档的关联字段的值相同，则保留关联信息，否则若没有和其它文档的关联字段的值相同，则删除该文件档的关联信息，文档a则删除关联信息{(A,B),(B,C),(A,C)}；

所述生成社会关系图具体包括：关联标记字段作为节点存在，关联关系作为边；如果两个关联标记字段存在关系，则使用一条边将这两个关联字段进行相连，两个关联形成线，多个关联形成网，最终形成的关联网即为社会关系图。

2.根据权利要求1所述的基于文件自动标记信息的社会关系挖掘分析方法，其特征在于，所述方法还包括：从数据库中把携带标记信息的字段读取到分析平台，在分析平台中选择能够作为社交关联分析的字段。