CN108875050A

CN108875050A - 面向文本的数字取证分析方法、装置和计算机可读介质

Info

Publication number: CN108875050A
Application number: CN201810685660.6A
Authority: CN
Inventors: 何泾沙; 黄娜; 朱娜斐; 刘公政; 轩兴刚; 泽维迪阿贝
Original assignee: Beijing University of Technology
Current assignee: Beijing Star Cube Technology Development Co ltd
Priority date: 2018-06-27
Filing date: 2018-06-27
Publication date: 2018-11-23
Anticipated expiration: 2038-06-27
Also published as: CN108875050B

Abstract

根据本发明实施例提供了一种面向文本的数字取证分析方法、装置和计算机可读介质，包括：对待取证文本的文本内容进行预处理，得到多个主干词；基于训练好的文档主题生成LDA模型获取主干词中的特征词，得到多个特征词，并基于多个特征词确定特征词向量；计算特征词向量和预设的敏感词向量之间的语义相似度，并基于语义相似度得到语义相似度最大值向量；基于语义相似度最大值向量确定待取证文本是否为取证目标。本发明解决了现有技术对待取证文本的文本内容进行取证时只能依靠人工浏览文本内容来确定该待取证文本是否为取证目标导致的效率低下、耗费人工的技术问题，从而实现了节省人工成本，提高对文本内容的取证效率的技术效果。

Description

面向文本的数字取证分析方法、装置和计算机可读介质

技术领域

本发明涉及数字取证技术领域，尤其是涉及一种面向文本的数字取证分析方法、装置和计算机可读介质。

背景技术

近年来计算机技术飞速发展，各种各样的电子设备出现在人们的生活和工作中，如计算机、平板电脑、智能手机、嵌入式终端等，这些“带脑子”的设备中包含很多用户数据，成为数字取证重要的调查取证来源。文本数据是一种最基本的电子数据存在形式，除了文本文件、表格文件等简单的文本数据，许多应用程序中所包含的用户数据也是以文本的形式存在。比如在社交应用和即时通讯应用中，最重要的数据就是用户所发布的公共言论以及和联系人的通讯内容，这些用户数据通常都是以文本的形式存在。

现有的数字取证研究都是以获取数据为目的，研究如何突破用户权限、破解密码、数据库结构等，但是没有对文本内容的取证分析方法。在已经进入大数据时代的今天，每个人所拥有的电子数据量都非常大，而且呈现不断增长的趋势，而电子证据的取证分析和证据定性具有时效性，传统的人工分析远远不能满足取证需求，不但影响案件调查审理的效率，还可能会造成更大的社会或个人损失。

针对以上问题，还未提出有效解决方案。

发明内容

有鉴于此，本发明的目的在于提供一种面向文本的数字取证分析方法、装置和计算机可读介质，以解决现有技术对待取证文本的文本内容进行取证时只能依靠人工浏览文本内容来确定该待取证文本是否为取证目标导致的效率低下、耗费人工的技术问题。

根据本发明实施例提供了一种数字取证方法，所述方法包括：对待取证文本的文本内容进行预处理，得到多个主干词；其中，所述主干词为所述待取证文本中除标点符号和停用词以外的词，所述停用词包括以下至少之一：形容词，副词，代词；基于训练好的文档主题生成LDA模型获取所述主干词中的特征词，得到多个特征词，并基于多个所述特征词确定特征词向量；计算所述特征词向量和预设的敏感词向量之间的语义相似度，并基于所述语义相似度得到语义相似度最大值向量；基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标。

进一步地，计算所述特征词向量和预设的敏感词向量之间的语义相似度，并基于所述语义相似度得到语义相似度最大值向量包括：计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度，得到多个语义相似度值，其中，i依次取1至m，m为所述特征词向量中的特征词数量，k依次取1至j，j为所述敏感词向量中的敏感词数量；在所述多个语义相似度值中查找每个特征词与各个所述敏感词之间的最大语义相似度值，得到多个最大语义相似度值；将所述多个最大语义相似度值确定为所述最大语义相似度值向量。

进一步地，计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度包括：通过公式计算所述第i个特征词与所述第k个敏感词之间的语义相似度；其中，Sim_i,k为所述第i个特征词与所述第k个敏感词之间的语义相似度，λ为预设权重系数值，feature_i表示第i个特征词，s_k表示第k个敏感词，lsc为所述特征词和所述敏感词在预设语料库中的最小下义词的集合，depth(feature_i)和depth(s_k)分别为所述第i个特征词和所述第k个敏感词在所述预设语料库中的结构深度，depth(lcs)为所述最小下义词的集合在所述预设语料库中的结构深度；IC(feature_i)和IC(s_k)分别表示所述第i个特征词和所述第k个敏感词的信息熵，IC(lcs)表示所述最小下义词的集合的信息熵。

进一步地，对待取证文本的文本内容进行预处理，得到多个主干词包括：使用文本分析法将所述待取证文本中的标点符号和停用词过滤掉，得到多个所述主干词。

进一步地，基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标包括：计算所述语义相似度最大值向量中的所有语义相似度最大值的和，得到目标值；将所述目标值与预设阈值进行比较，得到比较结果；如果所述比较结果为所述目标值大于或等于所述预设阈值，则确定所述待取证文本为所述取证目标。

根据本发明实施例还提供了一种数字取证装置，所述装置包括：预处理模块，用于对待取证文本的文本内容进行预处理，得到多个主干词；其中，所述主干词为所述待取证文本中除标点符号和停用词以外的词，所述停用词包括以下至少之一：形容词，副词，代词；获取模块，用于基于训练好的文档主题生成LDA模型获取所述主干词中的特征词，得到多个特征词，并基于多个所述特征词确定特征词向量；计算模块，用于计算所述特征词向量和预设的敏感词向量之间的语义相似度，并基于所述语义相似度得到语义相似度最大值向量；确定模块，用于基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标。

进一步地，所述计算模块包括：计算单元，用于计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度，得到多个语义相似度值，其中，i依次取1至m，m为所述特征词向量中的特征词数量，k依次取1至j，j为所述敏感词向量中的敏感词数量；查找单元，用于在所述多个语义相似度值中查找每个特征词与各个所述敏感词之间的最大语义相似度值，得到多个最大语义相似度值；确定单元，用于将所述多个最大语义相似度值确定为所述最大语义相似度值向量。

进一步地，所述计算单元通过公式计算所述第i个特征词与所述第k个敏感词之间的语义相似度；其中，Sim_i,k为所述第i个特征词与所述第k个敏感词之间的语义相似度，λ为预设权重系数值，feature_i表示第i个特征词，s_k表示第k个敏感词，lsc为所述特征词和所述敏感词在预设语料库中的最小下义词的集合，depth(feature_i)和depth(s_k)分别为所述第i个特征词和所述第k个敏感词在所述预设语料库中的结构深度，depth(lcs)为所述最小下义词的集合在所述预设语料库中的结构深度；IC(feature_i)和IC(s_k)分别表示所述第i个特征词和所述第k个敏感词的信息熵，IC(lcs)表示所述最小下义词的集合的信息熵。

进一步地，所述预处理模块包括：过滤单元，用于使用文本分析法将所述待取证文本中的标点符号和停用词过滤掉，得到多个所述主干词。

根据本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述所述的数字取证方法。

根据本发明实施例提供了一种数字取证方法、装置和计算机可读介质，包括：对待取证文本的文本内容进行预处理，得到多个主干词；基于训练好的文档主题生成LDA模型获取主干词中的特征词，得到多个特征词，并基于多个特征词确定特征词向量；计算特征词向量和预设的敏感词向量之间的语义相似度，并基于语义相似度得到语义相似度最大值向量；基于语义相似度最大值向量确定待取证文本是否为取证目标。本发明解决了现有技术对待取证文本的文本内容进行取证时只能依靠人工浏览文本内容来确定该待取证文本是否为取证目标导致的效率低下、耗费人工的技术问题，从而实现了节省人工成本，提高对文本内容的取证效率的技术效果。

附图说明

为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例提供的一种数字取证方法的流程图；

图2是根据本发明实施例提供的一种数字取证方法中步骤S106的流程图；

图3是根据本发明实施例提供的确定最大语义相似度值向量的计算矩阵；

图4是根据本发明实施例提供的一种数字取证方法的主要流程图

图5是根据本发明实施例提供的一种数字取证装置的示意图；

图6是根据本发明实施例的一种计算机的示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

实施例一：

图1是根据本发明实施例提供的一种数字取证方法的流程图，如图1所示，该数字取证方法包括如下步骤：

步骤S102，对待取证文本的文本内容进行预处理，得到多个主干词；其中，主干词为待取证文本中除标点符号和停用词以外的词，停用词包括以下至少之一：形容词，副词，代词；

在本发明实施例中，主干词指的是文本内容中有实际意义的单词，不包括形容词、副词、代词等停用词，也不包括标点符号等无意义的内容。

步骤S104，基于训练好的文档主题生成LDA模型获取主干词中的特征词，得到多个特征词，并基于多个特征词确定特征词向量；

在本发明实施例中，LDA(Latent Dirichlet Allocation，文档主题生成模型)是一种非监督机器学习技术，可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了“词袋”的方法，将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。

在本发明实施例中，特征词指的是在主干词集合中提取出的能够描述文本主题的单词，作为该待取证文本的特征词，用feature表示。一个待取证文本的文本内容的所有特征词组成这个待取证文本的特征词向量，用符号E表示，其中，E＝{feature₁,feature₂,…feature_m}m≤n，m是特征词个数，n是该待取证文本的主干词的个数。

步骤S106，计算特征词向量和预设的敏感词向量之间的语义相似度，并基于语义相似度得到语义相似度最大值向量；

在本发明实施例中，取证人员根据案件的实际情况来设置敏感词向量，用符号S表示，具体的，S＝{s₁,s₂,s₃,...s_j}，其中，j指的是敏感词的个数。

步骤S108，基于语义相似度最大值向量确定待取证文本是否为取证目标。

根据本发明实施例提供了一种数字取证方法，包括：对待取证文本的文本内容进行预处理，得到多个主干词；基于训练好的文档主题生成LDA模型获取主干词中的特征词，得到多个特征词，并基于多个特征词确定特征词向量；计算特征词向量和预设的敏感词向量之间的语义相似度，并基于语义相似度得到语义相似度最大值向量；基于语义相似度最大值向量确定待取证文本是否为取证目标。本发明解决了现有技术对待取证文本的文本内容进行取证时只能依靠人工浏览文本内容来确定该待取证文本是否为取证目标导致的效率低下、耗费人工的技术问题，从而实现了节省人工成本，提高对文本内容的取证效率的技术效果。

图2是根据本发明实施例提供的一种数字取证方法中步骤S106的流程图。

在一个可选的实施方式中，如图2所示，步骤S106，计算特征词向量和预设的敏感词向量之间的语义相似度，并基于语义相似度得到语义相似度最大值向量包括如下步骤：

步骤S1061，计算特征词向量中的第i个特征词与敏感词向量中第k个敏感词之间的语义相似度，得到多个语义相似度值，其中，i依次取1至m，m为特征词向量中的特征词数量，k依次取1至j，j为敏感词向量中的敏感词数量；

步骤S1062，在多个语义相似度值中查找每个特征词与各个敏感词之间的最大语义相似度值，得到多个最大语义相似度值；

步骤S1063，将多个最大语义相似度值确定为最大语义相似度值向量。

具体地，步骤S1061，计算特征词向量中的第i个特征词与敏感词向量中第k个敏感词之间的语义相似度包括：

通过公式计算第i个特征词与第k个敏感词之间的语义相似度；

其中，Sim_i,k为第i个特征词与第k个敏感词之间的语义相似度，λ为预设权重系数值，feature_i表示第i个特征词，s_k表示第k个敏感词，lsc为特征词和敏感词在预设语料库中的最小下义词的集合，depth(feature_i)和depth(s_k)分别为第i个特征词和第k个敏感词在预设语料库中的结构深度，depth(lcs)为最小下义词的集合在预设语料库中的结构深度；IC(feature_i)和IC(s_k)分别表示第i个特征词和第k个敏感词的信息熵，IC(lcs)表示最小下义词的集合的信息熵。

在本发明实施例中，对于特征词feature_i和敏感词s_k，首先通过公式来计算第i个特征词与第k个敏感词之间的语义相似度；其中，λ为预设权重系数值，在本发明中设置λ＝0.5，lsc表示特征词feature_i和敏感词s_k的最小下义词集，depth()表示一个单词在预设语料库中的结构深度，IC()表示单词的信息熵。具体地，信息熵通过公式IC(w)＝log^-1P(w)计算得到，其中，w为任一词语，P(w)为任一词语w在预设语料库中出现的概率。

在本发明实施例中，预设语料库为Wordnet语料库，该语料库是以层次化的结构反映单词之间的语义关系。本发明是基于Wordnet语料库提出的适用于文本取证分析的语义相似度计算方法。

在计算出特征词和敏感词两两之间的语义相似度之后，基于公式Sen(feature)＝max(Sim_i,k)来计算特征词向量和敏感词向量之间的语义相似度。具体地，该公式表示取特征词向量中的特征词与任一敏感词之间的最大语义相似度值来作为该特征词向量与敏感词向量之间的语义相似度，即，Sen(E)＝max(Sen(feature))，其中，E表示特征词向量，也就是上述将多个最大语义相似度值max(Sim_i,k)确定为最大语义相似度值向量Sen(feature)。因为在数字取证的过程中，既要做到使确定的调查范围包括尽可能多的可疑目标，又要做到不能漏掉目标。

图3是根据本发明实施例提供的确定最大语义相似度值向量的计算矩阵。

如图3所示，第i个特征词与第k个敏感词之间依次计算语义相似度Sim_i,k，其中，i依次取1至m，m为特征词向量中的特征词数量，k依次取1至j，j为敏感词向量中的敏感词数量；然后将特征词向量中的特征词与任一敏感词之间的最大语义相似度值来作为该特征词向量与敏感词向量之间的语义相似度，即，将多个最大语义相似度值max(Sim_i,k)确定为最大语义相似度值向量Sen(feature)。

在另一个可选的实施方式中，对待取证文本的文本内容进行预处理，得到多个主干词包括：使用文本分析法将待取证文本中的标点符号和停用词过滤掉，得到多个主干词。

在本发明实施例中，文本分析是指对文本的表示及其特征项的选取；文本分析是文本挖掘、信息检索的一个基本问题，它把从文本中抽取出的特征词进行量化来表示文本信息。在本发明中，通过使用文本分析法来将待取证文本中的标点符号和停用词过滤掉，其中，停用词指的是形容词、副词、代词等词语。

可选地，基于语义相似度最大值向量确定待取证文本是否为取证目标包括如下步骤：

步骤S1，计算所语义相似度最大值向量中的所有语义相似度最大值的和，得到目标值；

步骤S2，将目标值与预设阈值进行比较，得到比较结果；

步骤S3，如果比较结果为目标值大于或等于预设阈值，则确定待取证文本为取证目标。

在本发明实施例中，在获取到语义相似度最大值向量之后，将语义相似度最大值向量中的多个语义相似度最大值相加，得到语义相似度最大值之和，即上述目标值，然后用该目标值与预设阈值进行比较，来确定取证目标的范围，其中，具有较高语义相似度的文本内容是取证目标。具体地，如果比较结果为目标值大于或等于预设阈值，则该则确定待取证文本为取证目标，即，其中可能含有与案件相关的信息。

下面以一个具体的实施例来对上述数字取证方法的流程做具体的介绍。

图4是根据本发明实施例提供的一种数字取证方法的主要流程图。

如图4所示，首先，对待取证文本的文本内容做预处理，提取出该文本内容的主干词，其中，预处理包括使用文本分析法过滤掉该文本内容中的停用词和标点符号，以获取该文本内容的主干词。

其次，基于训练好的文档主题生成LDA模型获取主干词中的特征词，即，如图4中所示的对文本主题进行提取，得到多个特征词，并基于多个特征词确定特征词向量。

最后，通过语义相似度的计算来确定待取证文本是否为取证目标，具体地，通过公式来计算第i个特征词与第k个敏感词之间的语义相似度，进而从计算得到的多个语义相似度值中确定每个特征词与各个敏感词之间的最大语义相似度值，得到多个最大语义相似度值，并将最大语义相似度值确定为特征词向量和预设的敏感词向量之间的语义相似度，从而将多个最大语义相似度值确定为最大语义相似度值向量。将语义相似度最大值向量中的多个语义相似度最大值相加，得到语义相似度最大值之和，即上述目标值，然后用该目标值与预设阈值进行比较，如果比较结果为目标值大于或等于预设阈值，则该则确定待取证文本为取证目标。

本发明解决了现有技术对待取证文本的文本内容进行取证时只能依靠人工浏览文本内容来确定该待取证文本是否为取证目标导致的效率低下、耗费人工的技术问题，从而实现了节省人工成本，提高对文本内容的取证效率的技术效果。

实施例二：

根据本发明实施例还提供了一种数字取证装置，该装置用于执行本发明实施例上述内容所提供的数字取证方法，以下对本发明实施例提供的数字取证装置做具体介绍。

图5是根据本发明实施例提供的一种数字取证装置的示意图，如图5所示，该数字取证装置包括：预处理模块10，获取模块20，计算模块30，确定模块40，其中：

预处理模块10，用于对待取证文本的文本内容进行预处理，得到多个主干词；其中，主干词为待取证文本中除标点符号和停用词以外的词，停用词包括以下至少之一：形容词，副词，代词；

获取模块20，用于基于训练好的文档主题生成LDA模型获取主干词中的特征词，得到多个特征词，并基于多个特征词确定特征词向量；

计算模块30，用于计算特征词向量和预设的敏感词向量之间的语义相似度，并基于语义相似度得到语义相似度最大值向量；

确定模块40，用于基于语义相似度最大值向量确定待取证文本是否为取证目标。

在一个可选的实施方式中，计算模块30包括：计算单元，用于计算特征词向量中的第i个特征词与敏感词向量中第k个敏感词之间的语义相似度，得到多个语义相似度值，其中，i依次取1至m，m为特征词向量中的特征词数量，k依次取1至j，j为敏感词向量中的敏感词数量；查找单元，用于在多个语义相似度值中查找每个特征词与各个敏感词之间的最大语义相似度值，得到多个最大语义相似度值；确定单元，用于将多个最大语义相似度值确定为最大语义相似度值向量。

在另一个可选的实施方式中，计算单元30通过公式

计算第i个特征词与第k个敏感词之间的语义相似度；其中，Sim_i,k为第i个特征词与第k个敏感词之间的语义相似度，λ为预设权重系数值，feature_i表示第i个特征词，s_k表示第k个敏感词，lsc为特征词和敏感词在预设语料库中的最小下义词的集合，depth(feature_i)和depth(s_k)分别为第i个特征词和第k个敏感词在预设语料库中的结构深度，depth(lcs)为最小下义词的集合在预设语料库中的结构深度；IC(feature_i)和IC(s_k)分别表示第i个特征词和第k个敏感词的信息熵，IC(lcs)表示最小下义词的集合的信息熵。

具体地，预处理模块10包括：过滤单元，用于使用文本分析法将待取证文本中的标点符号和停用词过滤掉，得到多个主干词。

具体地，确定模块40包括：计算目标值单元，用于计算语义相似度最大值向量中的所有语义相似度最大值的和，得到目标值；比较单元，用于将目标值与预设阈值进行比较，得到比较结果；确定文本单元，用于如果比较结果为目标值大于或等于预设阈值，则确定待取证文本为取证目标。

除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。

本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。

本发明实施例提供的数字取证方法，与上述实施例提供的数字取证装置具有相同的技术特征，所以也能解决相同的技术问题，达到相同的技术效果。

实施例三：

参见图6，本发明实施例还提供一种计算机100，包括：处理器60，存储器61，总线62和通信接口63，所述处理器60、通信接口63和存储器61通过总线62连接；处理器60用于执行存储器61中存储的可执行模块，例如计算机程序。

其中，存储器61可能包含高速随机存取存储器(RAM，Random Access Memory)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接，可以使用互联网，广域网，本地网，城域网等。

总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示，图6中仅用一个双向箭头表示，但并不表示仅有一根总线或一种类型的总线。

其中，存储器61用于存储程序，所述处理器60在接收到执行指令后，执行所述程序，前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中，或者由处理器60实现。

处理器60可能是一种集成电路芯片，具有信号的处理能力。在实现过程中，上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器，包括中央处理器(Central Processing Unit，简称CPU)、网络处理器(Network Processor，简称NP)等；还可以是数字信号处理器(Digital SignalProcessing，简称DSP)、专用集成电路(Application Specific Integrated Circuit，简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array，简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成，或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器，闪存、只读存储器，可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61，处理器60读取存储器61中的信息，结合其硬件完成上述方法的步骤。

在另一个实施例中，本发明实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质，所述程序代码使所述处理器执行上述方法实施例中所述方法。

另外，在本发明实施例的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域的普通技术人员而言，可以具体情况理解上述术语在本发明中的具体含义。

在本发明的描述中，需要说明的是，术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系，仅是为了便于描述本发明和简化描述，而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。此外，术语“第一”、“第二”、“第三”仅用于描述目的，而不能理解为指示或暗示相对重要性。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，又例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

1.一种数字取证方法，其特征在于，所述方法包括：

对待取证文本的文本内容进行预处理，得到多个主干词；其中，所述主干词为所述待取证文本中除标点符号和停用词以外的词，所述停用词包括以下至少之一：形容词，副词，代词；

基于训练好的文档主题生成LDA模型获取所述主干词中的特征词，得到多个特征词，并基于多个所述特征词确定特征词向量；

计算所述特征词向量和预设的敏感词向量之间的语义相似度，并基于所述语义相似度得到语义相似度最大值向量；

基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标。

2.根据权利要求1所述的方法，其特征在于，计算所述特征词向量和预设的敏感词向量之间的语义相似度，并基于所述语义相似度得到语义相似度最大值向量包括：

计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度，得到多个语义相似度值，其中，i依次取1至m，m为所述特征词向量中的特征词数量，k依次取1至j，j为所述敏感词向量中的敏感词数量；

在所述多个语义相似度值中查找每个特征词与各个所述敏感词之间的最大语义相似度值，得到多个最大语义相似度值；

将所述多个最大语义相似度值确定为所述最大语义相似度值向量。

3.根据权利要求2所述的方法，其特征在于，计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度包括：

通过公式计算所述第i个特征词与所述第k个敏感词之间的语义相似度；

其中，Sim_i,k为所述第i个特征词与所述第k个敏感词之间的语义相似度，λ为预设权重系数值，feature_i表示第i个特征词，s_k表示第k个敏感词，lsc为所述特征词和所述敏感词在预设语料库中的最小下义词的集合，depth(feature_i)和depth(s_k)分别为所述第i个特征词和所述第k个敏感词在所述预设语料库中的结构深度，depth(lcs)为所述最小下义词的集合在所述预设语料库中的结构深度；IC(feature_i)和IC(s_k)分别表示所述第i个特征词和所述第k个敏感词的信息熵，IC(lcs)表示所述最小下义词的集合的信息熵。

4.根据权利要求1所述的方法，其特征在于，对待取证文本的文本内容进行预处理，得到多个主干词包括：

使用文本分析法将所述待取证文本中的标点符号和停用词过滤掉，得到多个所述主干词。

5.根据权利要求1所述的方法，其特征在于，基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标包括：

计算所述语义相似度最大值向量中的所有语义相似度最大值的和，得到目标值；

将所述目标值与预设阈值进行比较，得到比较结果；

如果所述比较结果为所述目标值大于或等于所述预设阈值，则确定所述待取证文本为所述取证目标。

6.一种数字取证装置，其特征在于，所述装置包括：

预处理模块，用于对待取证文本的文本内容进行预处理，得到多个主干词；其中，所述主干词为所述待取证文本中除标点符号和停用词以外的词，所述停用词包括以下至少之一：形容词，副词，代词；

获取模块，用于基于训练好的文档主题生成LDA模型获取所述主干词中的特征词，得到多个特征词，并基于多个所述特征词确定特征词向量；

计算模块，用于计算所述特征词向量和预设的敏感词向量之间的语义相似度，并基于所述语义相似度得到语义相似度最大值向量；

确定模块，用于基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标。

7.根据权利要求6所述的装置，其特征在于，所述计算模块包括：

计算单元，用于计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度，得到多个语义相似度值，其中，i依次取1至m，m为所述特征词向量中的特征词数量，k依次取1至j，j为所述敏感词向量中的敏感词数量；

查找单元，用于在所述多个语义相似度值中查找每个特征词与各个所述敏感词之间的最大语义相似度值，得到多个最大语义相似度值；

确定单元，用于将所述多个最大语义相似度值确定为所述最大语义相似度值向量。

8.根据权利要求7所述的装置，其特征在于，所述计算单元通过公式计算所述第i个特征词与所述第k个敏感词之间的语义相似度；

9.根据权利要求6所述的装置，其特征在于，所述预处理模块包括：

过滤单元，用于使用文本分析法将所述待取证文本中的标点符号和停用词过滤掉，得到多个所述主干词。

10.一种具有处理器可执行的非易失的程序代码的计算机可读介质，其特征在于，所述程序代码使所述处理器执行上述权利要求1至5中任一所述方法。