CN108875050A - 面向文本的数字取证分析方法、装置和计算机可读介质 - Google Patents

面向文本的数字取证分析方法、装置和计算机可读介质 Download PDF

Info

Publication number
CN108875050A
CN108875050A CN201810685660.6A CN201810685660A CN108875050A CN 108875050 A CN108875050 A CN 108875050A CN 201810685660 A CN201810685660 A CN 201810685660A CN 108875050 A CN108875050 A CN 108875050A
Authority
CN
China
Prior art keywords
word
semantic similarity
feature
text
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201810685660.6A
Other languages
English (en)
Other versions
CN108875050B (zh
Inventor
何泾沙
黄娜
朱娜斐
刘公政
轩兴刚
泽维迪阿贝
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Star Cube Technology Development Co ltd
Original Assignee
Beijing University of Technology
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing University of Technology filed Critical Beijing University of Technology
Priority to CN201810685660.6A priority Critical patent/CN108875050B/zh
Publication of CN108875050A publication Critical patent/CN108875050A/zh
Application granted granted Critical
Publication of CN108875050B publication Critical patent/CN108875050B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

根据本发明实施例提供了一种面向文本的数字取证分析方法、装置和计算机可读介质,包括:对待取证文本的文本内容进行预处理,得到多个主干词;基于训练好的文档主题生成LDA模型获取主干词中的特征词,得到多个特征词,并基于多个特征词确定特征词向量;计算特征词向量和预设的敏感词向量之间的语义相似度,并基于语义相似度得到语义相似度最大值向量;基于语义相似度最大值向量确定待取证文本是否为取证目标。本发明解决了现有技术对待取证文本的文本内容进行取证时只能依靠人工浏览文本内容来确定该待取证文本是否为取证目标导致的效率低下、耗费人工的技术问题,从而实现了节省人工成本,提高对文本内容的取证效率的技术效果。

Description

面向文本的数字取证分析方法、装置和计算机可读介质
技术领域
本发明涉及数字取证技术领域,尤其是涉及一种面向文本的数字取证分析方法、装置和计算机可读介质。
背景技术
近年来计算机技术飞速发展,各种各样的电子设备出现在人们的生活和工作中,如计算机、平板电脑、智能手机、嵌入式终端等,这些“带脑子”的设备中包含很多用户数据,成为数字取证重要的调查取证来源。文本数据是一种最基本的电子数据存在形式,除了文本文件、表格文件等简单的文本数据,许多应用程序中所包含的用户数据也是以文本的形式存在。比如在社交应用和即时通讯应用中,最重要的数据就是用户所发布的公共言论以及和联系人的通讯内容,这些用户数据通常都是以文本的形式存在。
现有的数字取证研究都是以获取数据为目的,研究如何突破用户权限、破解密码、数据库结构等,但是没有对文本内容的取证分析方法。在已经进入大数据时代的今天,每个人所拥有的电子数据量都非常大,而且呈现不断增长的趋势,而电子证据的取证分析和证据定性具有时效性,传统的人工分析远远不能满足取证需求,不但影响案件调查审理的效率,还可能会造成更大的社会或个人损失。
针对以上问题,还未提出有效解决方案。
发明内容
有鉴于此,本发明的目的在于提供一种面向文本的数字取证分析方法、装置和计算机可读介质,以解决现有技术对待取证文本的文本内容进行取证时只能依靠人工浏览文本内容来确定该待取证文本是否为取证目标导致的效率低下、耗费人工的技术问题。
根据本发明实施例提供了一种数字取证方法,所述方法包括:对待取证文本的文本内容进行预处理,得到多个主干词;其中,所述主干词为所述待取证文本中除标点符号和停用词以外的词,所述停用词包括以下至少之一:形容词,副词,代词;基于训练好的文档主题生成LDA模型获取所述主干词中的特征词,得到多个特征词,并基于多个所述特征词确定特征词向量;计算所述特征词向量和预设的敏感词向量之间的语义相似度,并基于所述语义相似度得到语义相似度最大值向量;基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标。
进一步地,计算所述特征词向量和预设的敏感词向量之间的语义相似度,并基于所述语义相似度得到语义相似度最大值向量包括:计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度,得到多个语义相似度值,其中,i依次取1至m,m为所述特征词向量中的特征词数量,k依次取1至j,j为所述敏感词向量中的敏感词数量;在所述多个语义相似度值中查找每个特征词与各个所述敏感词之间的最大语义相似度值,得到多个最大语义相似度值;将所述多个最大语义相似度值确定为所述最大语义相似度值向量。
进一步地,计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度包括:通过公式计算所述第i个特征词与所述第k个敏感词之间的语义相似度;其中,Simi,k为所述第i个特征词与所述第k个敏感词之间的语义相似度,λ为预设权重系数值,featurei表示第i个特征词,sk表示第k个敏感词,lsc为所述特征词和所述敏感词在预设语料库中的最小下义词的集合,depth(featurei)和depth(sk)分别为所述第i个特征词和所述第k个敏感词在所述预设语料库中的结构深度,depth(lcs)为所述最小下义词的集合在所述预设语料库中的结构深度;IC(featurei)和IC(sk)分别表示所述第i个特征词和所述第k个敏感词的信息熵,IC(lcs)表示所述最小下义词的集合的信息熵。
进一步地,对待取证文本的文本内容进行预处理,得到多个主干词包括:使用文本分析法将所述待取证文本中的标点符号和停用词过滤掉,得到多个所述主干词。
进一步地,基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标包括:计算所述语义相似度最大值向量中的所有语义相似度最大值的和,得到目标值;将所述目标值与预设阈值进行比较,得到比较结果;如果所述比较结果为所述目标值大于或等于所述预设阈值,则确定所述待取证文本为所述取证目标。
根据本发明实施例还提供了一种数字取证装置,所述装置包括:预处理模块,用于对待取证文本的文本内容进行预处理,得到多个主干词;其中,所述主干词为所述待取证文本中除标点符号和停用词以外的词,所述停用词包括以下至少之一:形容词,副词,代词;获取模块,用于基于训练好的文档主题生成LDA模型获取所述主干词中的特征词,得到多个特征词,并基于多个所述特征词确定特征词向量;计算模块,用于计算所述特征词向量和预设的敏感词向量之间的语义相似度,并基于所述语义相似度得到语义相似度最大值向量;确定模块,用于基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标。
进一步地,所述计算模块包括:计算单元,用于计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度,得到多个语义相似度值,其中,i依次取1至m,m为所述特征词向量中的特征词数量,k依次取1至j,j为所述敏感词向量中的敏感词数量;查找单元,用于在所述多个语义相似度值中查找每个特征词与各个所述敏感词之间的最大语义相似度值,得到多个最大语义相似度值;确定单元,用于将所述多个最大语义相似度值确定为所述最大语义相似度值向量。
进一步地,所述计算单元通过公式计算所述第i个特征词与所述第k个敏感词之间的语义相似度;其中,Simi,k为所述第i个特征词与所述第k个敏感词之间的语义相似度,λ为预设权重系数值,featurei表示第i个特征词,sk表示第k个敏感词,lsc为所述特征词和所述敏感词在预设语料库中的最小下义词的集合,depth(featurei)和depth(sk)分别为所述第i个特征词和所述第k个敏感词在所述预设语料库中的结构深度,depth(lcs)为所述最小下义词的集合在所述预设语料库中的结构深度;IC(featurei)和IC(sk)分别表示所述第i个特征词和所述第k个敏感词的信息熵,IC(lcs)表示所述最小下义词的集合的信息熵。
进一步地,所述预处理模块包括:过滤单元,用于使用文本分析法将所述待取证文本中的标点符号和停用词过滤掉,得到多个所述主干词。
根据本发明实施例还提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述所述的数字取证方法。
根据本发明实施例提供了一种数字取证方法、装置和计算机可读介质,包括:对待取证文本的文本内容进行预处理,得到多个主干词;基于训练好的文档主题生成LDA模型获取主干词中的特征词,得到多个特征词,并基于多个特征词确定特征词向量;计算特征词向量和预设的敏感词向量之间的语义相似度,并基于语义相似度得到语义相似度最大值向量;基于语义相似度最大值向量确定待取证文本是否为取证目标。本发明解决了现有技术对待取证文本的文本内容进行取证时只能依靠人工浏览文本内容来确定该待取证文本是否为取证目标导致的效率低下、耗费人工的技术问题,从而实现了节省人工成本,提高对文本内容的取证效率的技术效果。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本发明实施例提供的一种数字取证方法的流程图;
图2是根据本发明实施例提供的一种数字取证方法中步骤S106的流程图;
图3是根据本发明实施例提供的确定最大语义相似度值向量的计算矩阵;
图4是根据本发明实施例提供的一种数字取证方法的主要流程图
图5是根据本发明实施例提供的一种数字取证装置的示意图;
图6是根据本发明实施例的一种计算机的示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
实施例一:
图1是根据本发明实施例提供的一种数字取证方法的流程图,如图1所示,该数字取证方法包括如下步骤:
步骤S102,对待取证文本的文本内容进行预处理,得到多个主干词;其中,主干词为待取证文本中除标点符号和停用词以外的词,停用词包括以下至少之一:形容词,副词,代词;
在本发明实施例中,主干词指的是文本内容中有实际意义的单词,不包括形容词、副词、代词等停用词,也不包括标点符号等无意义的内容。
步骤S104,基于训练好的文档主题生成LDA模型获取主干词中的特征词,得到多个特征词,并基于多个特征词确定特征词向量;
在本发明实施例中,LDA(Latent Dirichlet Allocation,文档主题生成模型)是一种非监督机器学习技术,可以用来识别大规模文档集或语料库中潜藏的主题信息。它采用了“词袋”的方法,将每一篇文档视为一个词频向量,从而将文本信息转化为了易于建模的数字信息。
在本发明实施例中,特征词指的是在主干词集合中提取出的能够描述文本主题的单词,作为该待取证文本的特征词,用feature表示。一个待取证文本的文本内容的所有特征词组成这个待取证文本的特征词向量,用符号E表示,其中,E={feature1,feature2,…featurem}m≤n,m是特征词个数,n是该待取证文本的主干词的个数。
步骤S106,计算特征词向量和预设的敏感词向量之间的语义相似度,并基于语义相似度得到语义相似度最大值向量;
在本发明实施例中,取证人员根据案件的实际情况来设置敏感词向量,用符号S表示,具体的,S={s1,s2,s3,...sj},其中,j指的是敏感词的个数。
步骤S108,基于语义相似度最大值向量确定待取证文本是否为取证目标。
根据本发明实施例提供了一种数字取证方法,包括:对待取证文本的文本内容进行预处理,得到多个主干词;基于训练好的文档主题生成LDA模型获取主干词中的特征词,得到多个特征词,并基于多个特征词确定特征词向量;计算特征词向量和预设的敏感词向量之间的语义相似度,并基于语义相似度得到语义相似度最大值向量;基于语义相似度最大值向量确定待取证文本是否为取证目标。本发明解决了现有技术对待取证文本的文本内容进行取证时只能依靠人工浏览文本内容来确定该待取证文本是否为取证目标导致的效率低下、耗费人工的技术问题,从而实现了节省人工成本,提高对文本内容的取证效率的技术效果。
图2是根据本发明实施例提供的一种数字取证方法中步骤S106的流程图。
在一个可选的实施方式中,如图2所示,步骤S106,计算特征词向量和预设的敏感词向量之间的语义相似度,并基于语义相似度得到语义相似度最大值向量包括如下步骤:
步骤S1061,计算特征词向量中的第i个特征词与敏感词向量中第k个敏感词之间的语义相似度,得到多个语义相似度值,其中,i依次取1至m,m为特征词向量中的特征词数量,k依次取1至j,j为敏感词向量中的敏感词数量;
步骤S1062,在多个语义相似度值中查找每个特征词与各个敏感词之间的最大语义相似度值,得到多个最大语义相似度值;
步骤S1063,将多个最大语义相似度值确定为最大语义相似度值向量。
具体地,步骤S1061,计算特征词向量中的第i个特征词与敏感词向量中第k个敏感词之间的语义相似度包括:
通过公式计算第i个特征词与第k个敏感词之间的语义相似度;
其中,Simi,k为第i个特征词与第k个敏感词之间的语义相似度,λ为预设权重系数值,featurei表示第i个特征词,sk表示第k个敏感词,lsc为特征词和敏感词在预设语料库中的最小下义词的集合,depth(featurei)和depth(sk)分别为第i个特征词和第k个敏感词在预设语料库中的结构深度,depth(lcs)为最小下义词的集合在预设语料库中的结构深度;IC(featurei)和IC(sk)分别表示第i个特征词和第k个敏感词的信息熵,IC(lcs)表示最小下义词的集合的信息熵。
在本发明实施例中,对于特征词featurei和敏感词sk,首先通过公式来计算第i个特征词与第k个敏感词之间的语义相似度;其中,λ为预设权重系数值,在本发明中设置λ=0.5,lsc表示特征词featurei和敏感词sk的最小下义词集,depth()表示一个单词在预设语料库中的结构深度,IC()表示单词的信息熵。具体地,信息熵通过公式IC(w)=log-1P(w)计算得到,其中,w为任一词语,P(w)为任一词语w在预设语料库中出现的概率。
在本发明实施例中,预设语料库为Wordnet语料库,该语料库是以层次化的结构反映单词之间的语义关系。本发明是基于Wordnet语料库提出的适用于文本取证分析的语义相似度计算方法。
在计算出特征词和敏感词两两之间的语义相似度之后,基于公式Sen(feature)=max(Simi,k)来计算特征词向量和敏感词向量之间的语义相似度。具体地,该公式表示取特征词向量中的特征词与任一敏感词之间的最大语义相似度值来作为该特征词向量与敏感词向量之间的语义相似度,即,Sen(E)=max(Sen(feature)),其中,E表示特征词向量,也就是上述将多个最大语义相似度值max(Simi,k)确定为最大语义相似度值向量Sen(feature)。因为在数字取证的过程中,既要做到使确定的调查范围包括尽可能多的可疑目标,又要做到不能漏掉目标。
图3是根据本发明实施例提供的确定最大语义相似度值向量的计算矩阵。
如图3所示,第i个特征词与第k个敏感词之间依次计算语义相似度Simi,k,其中,i依次取1至m,m为特征词向量中的特征词数量,k依次取1至j,j为敏感词向量中的敏感词数量;然后将特征词向量中的特征词与任一敏感词之间的最大语义相似度值来作为该特征词向量与敏感词向量之间的语义相似度,即,将多个最大语义相似度值max(Simi,k)确定为最大语义相似度值向量Sen(feature)。
在另一个可选的实施方式中,对待取证文本的文本内容进行预处理,得到多个主干词包括:使用文本分析法将待取证文本中的标点符号和停用词过滤掉,得到多个主干词。
在本发明实施例中,文本分析是指对文本的表示及其特征项的选取;文本分析是文本挖掘、信息检索的一个基本问题,它把从文本中抽取出的特征词进行量化来表示文本信息。在本发明中,通过使用文本分析法来将待取证文本中的标点符号和停用词过滤掉,其中,停用词指的是形容词、副词、代词等词语。
可选地,基于语义相似度最大值向量确定待取证文本是否为取证目标包括如下步骤:
步骤S1,计算所语义相似度最大值向量中的所有语义相似度最大值的和,得到目标值;
步骤S2,将目标值与预设阈值进行比较,得到比较结果;
步骤S3,如果比较结果为目标值大于或等于预设阈值,则确定待取证文本为取证目标。
在本发明实施例中,在获取到语义相似度最大值向量之后,将语义相似度最大值向量中的多个语义相似度最大值相加,得到语义相似度最大值之和,即上述目标值,然后用该目标值与预设阈值进行比较,来确定取证目标的范围,其中,具有较高语义相似度的文本内容是取证目标。具体地,如果比较结果为目标值大于或等于预设阈值,则该则确定待取证文本为取证目标,即,其中可能含有与案件相关的信息。
下面以一个具体的实施例来对上述数字取证方法的流程做具体的介绍。
图4是根据本发明实施例提供的一种数字取证方法的主要流程图。
如图4所示,首先,对待取证文本的文本内容做预处理,提取出该文本内容的主干词,其中,预处理包括使用文本分析法过滤掉该文本内容中的停用词和标点符号,以获取该文本内容的主干词。
其次,基于训练好的文档主题生成LDA模型获取主干词中的特征词,即,如图4中所示的对文本主题进行提取,得到多个特征词,并基于多个特征词确定特征词向量。
最后,通过语义相似度的计算来确定待取证文本是否为取证目标,具体地,通过公式来计算第i个特征词与第k个敏感词之间的语义相似度,进而从计算得到的多个语义相似度值中确定每个特征词与各个敏感词之间的最大语义相似度值,得到多个最大语义相似度值,并将最大语义相似度值确定为特征词向量和预设的敏感词向量之间的语义相似度,从而将多个最大语义相似度值确定为最大语义相似度值向量。将语义相似度最大值向量中的多个语义相似度最大值相加,得到语义相似度最大值之和,即上述目标值,然后用该目标值与预设阈值进行比较,如果比较结果为目标值大于或等于预设阈值,则该则确定待取证文本为取证目标。
本发明解决了现有技术对待取证文本的文本内容进行取证时只能依靠人工浏览文本内容来确定该待取证文本是否为取证目标导致的效率低下、耗费人工的技术问题,从而实现了节省人工成本,提高对文本内容的取证效率的技术效果。
实施例二:
根据本发明实施例还提供了一种数字取证装置,该装置用于执行本发明实施例上述内容所提供的数字取证方法,以下对本发明实施例提供的数字取证装置做具体介绍。
图5是根据本发明实施例提供的一种数字取证装置的示意图,如图5所示,该数字取证装置包括:预处理模块10,获取模块20,计算模块30,确定模块40,其中:
预处理模块10,用于对待取证文本的文本内容进行预处理,得到多个主干词;其中,主干词为待取证文本中除标点符号和停用词以外的词,停用词包括以下至少之一:形容词,副词,代词;
获取模块20,用于基于训练好的文档主题生成LDA模型获取主干词中的特征词,得到多个特征词,并基于多个特征词确定特征词向量;
计算模块30,用于计算特征词向量和预设的敏感词向量之间的语义相似度,并基于语义相似度得到语义相似度最大值向量;
确定模块40,用于基于语义相似度最大值向量确定待取证文本是否为取证目标。
在一个可选的实施方式中,计算模块30包括:计算单元,用于计算特征词向量中的第i个特征词与敏感词向量中第k个敏感词之间的语义相似度,得到多个语义相似度值,其中,i依次取1至m,m为特征词向量中的特征词数量,k依次取1至j,j为敏感词向量中的敏感词数量;查找单元,用于在多个语义相似度值中查找每个特征词与各个敏感词之间的最大语义相似度值,得到多个最大语义相似度值;确定单元,用于将多个最大语义相似度值确定为最大语义相似度值向量。
在另一个可选的实施方式中,计算单元30通过公式
计算第i个特征词与第k个敏感词之间的语义相似度;其中,Simi,k为第i个特征词与第k个敏感词之间的语义相似度,λ为预设权重系数值,featurei表示第i个特征词,sk表示第k个敏感词,lsc为特征词和敏感词在预设语料库中的最小下义词的集合,depth(featurei)和depth(sk)分别为第i个特征词和第k个敏感词在预设语料库中的结构深度,depth(lcs)为最小下义词的集合在预设语料库中的结构深度;IC(featurei)和IC(sk)分别表示第i个特征词和第k个敏感词的信息熵,IC(lcs)表示最小下义词的集合的信息熵。
具体地,预处理模块10包括:过滤单元,用于使用文本分析法将待取证文本中的标点符号和停用词过滤掉,得到多个主干词。
具体地,确定模块40包括:计算目标值单元,用于计算语义相似度最大值向量中的所有语义相似度最大值的和,得到目标值;比较单元,用于将目标值与预设阈值进行比较,得到比较结果;确定文本单元,用于如果比较结果为目标值大于或等于预设阈值,则确定待取证文本为取证目标。
除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对步骤、数字表达式和数值并不限制本发明的范围。
本发明实施例所提供的装置,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。
本发明实施例提供的数字取证方法,与上述实施例提供的数字取证装置具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
实施例三:
参见图6,本发明实施例还提供一种计算机100,包括:处理器60,存储器61,总线62和通信接口63,所述处理器60、通信接口63和存储器61通过总线62连接;处理器60用于执行存储器61中存储的可执行模块,例如计算机程序。
其中,存储器61可能包含高速随机存取存储器(RAM,Random Access Memory),也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。通过至少一个通信接口63(可以是有线或者无线)实现该系统网元与至少一个其他网元之间的通信连接,可以使用互联网,广域网,本地网,城域网等。
总线62可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一个双向箭头表示,但并不表示仅有一根总线或一种类型的总线。
其中,存储器61用于存储程序,所述处理器60在接收到执行指令后,执行所述程序,前述本发明实施例任一实施例揭示的流过程定义的装置所执行的方法可以应用于处理器60中,或者由处理器60实现。
处理器60可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器60中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器60可以是通用处理器,包括中央处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(Digital SignalProcessing,简称DSP)、专用集成电路(Application Specific Integrated Circuit,简称ASIC)、现成可编程门阵列(Field-Programmable Gate Array,简称FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本发明实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器61,处理器60读取存储器61中的信息,结合其硬件完成上述方法的步骤。
在另一个实施例中,本发明实施例提供了一种具有处理器可执行的非易失的程序代码的计算机可读介质,所述程序代码使所述处理器执行上述方法实施例中所述方法。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,又例如,多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个处理器可执行的非易失的计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。

Claims (10)

1.一种数字取证方法,其特征在于,所述方法包括:
对待取证文本的文本内容进行预处理,得到多个主干词;其中,所述主干词为所述待取证文本中除标点符号和停用词以外的词,所述停用词包括以下至少之一:形容词,副词,代词;
基于训练好的文档主题生成LDA模型获取所述主干词中的特征词,得到多个特征词,并基于多个所述特征词确定特征词向量;
计算所述特征词向量和预设的敏感词向量之间的语义相似度,并基于所述语义相似度得到语义相似度最大值向量;
基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标。
2.根据权利要求1所述的方法,其特征在于,计算所述特征词向量和预设的敏感词向量之间的语义相似度,并基于所述语义相似度得到语义相似度最大值向量包括:
计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度,得到多个语义相似度值,其中,i依次取1至m,m为所述特征词向量中的特征词数量,k依次取1至j,j为所述敏感词向量中的敏感词数量;
在所述多个语义相似度值中查找每个特征词与各个所述敏感词之间的最大语义相似度值,得到多个最大语义相似度值;
将所述多个最大语义相似度值确定为所述最大语义相似度值向量。
3.根据权利要求2所述的方法,其特征在于,计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度包括:
通过公式计算所述第i个特征词与所述第k个敏感词之间的语义相似度;
其中,Simi,k为所述第i个特征词与所述第k个敏感词之间的语义相似度,λ为预设权重系数值,featurei表示第i个特征词,sk表示第k个敏感词,lsc为所述特征词和所述敏感词在预设语料库中的最小下义词的集合,depth(featurei)和depth(sk)分别为所述第i个特征词和所述第k个敏感词在所述预设语料库中的结构深度,depth(lcs)为所述最小下义词的集合在所述预设语料库中的结构深度;IC(featurei)和IC(sk)分别表示所述第i个特征词和所述第k个敏感词的信息熵,IC(lcs)表示所述最小下义词的集合的信息熵。
4.根据权利要求1所述的方法,其特征在于,对待取证文本的文本内容进行预处理,得到多个主干词包括:
使用文本分析法将所述待取证文本中的标点符号和停用词过滤掉,得到多个所述主干词。
5.根据权利要求1所述的方法,其特征在于,基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标包括:
计算所述语义相似度最大值向量中的所有语义相似度最大值的和,得到目标值;
将所述目标值与预设阈值进行比较,得到比较结果;
如果所述比较结果为所述目标值大于或等于所述预设阈值,则确定所述待取证文本为所述取证目标。
6.一种数字取证装置,其特征在于,所述装置包括:
预处理模块,用于对待取证文本的文本内容进行预处理,得到多个主干词;其中,所述主干词为所述待取证文本中除标点符号和停用词以外的词,所述停用词包括以下至少之一:形容词,副词,代词;
获取模块,用于基于训练好的文档主题生成LDA模型获取所述主干词中的特征词,得到多个特征词,并基于多个所述特征词确定特征词向量;
计算模块,用于计算所述特征词向量和预设的敏感词向量之间的语义相似度,并基于所述语义相似度得到语义相似度最大值向量;
确定模块,用于基于所述语义相似度最大值向量确定所述待取证文本是否为取证目标。
7.根据权利要求6所述的装置,其特征在于,所述计算模块包括:
计算单元,用于计算所述特征词向量中的第i个特征词与所述敏感词向量中第k个敏感词之间的语义相似度,得到多个语义相似度值,其中,i依次取1至m,m为所述特征词向量中的特征词数量,k依次取1至j,j为所述敏感词向量中的敏感词数量;
查找单元,用于在所述多个语义相似度值中查找每个特征词与各个所述敏感词之间的最大语义相似度值,得到多个最大语义相似度值;
确定单元,用于将所述多个最大语义相似度值确定为所述最大语义相似度值向量。
8.根据权利要求7所述的装置,其特征在于,所述计算单元通过公式计算所述第i个特征词与所述第k个敏感词之间的语义相似度;
其中,Simi,k为所述第i个特征词与所述第k个敏感词之间的语义相似度,λ为预设权重系数值,featurei表示第i个特征词,sk表示第k个敏感词,lsc为所述特征词和所述敏感词在预设语料库中的最小下义词的集合,depth(featurei)和depth(sk)分别为所述第i个特征词和所述第k个敏感词在所述预设语料库中的结构深度,depth(lcs)为所述最小下义词的集合在所述预设语料库中的结构深度;IC(featurei)和IC(sk)分别表示所述第i个特征词和所述第k个敏感词的信息熵,IC(lcs)表示所述最小下义词的集合的信息熵。
9.根据权利要求6所述的装置,其特征在于,所述预处理模块包括:
过滤单元,用于使用文本分析法将所述待取证文本中的标点符号和停用词过滤掉,得到多个所述主干词。
10.一种具有处理器可执行的非易失的程序代码的计算机可读介质,其特征在于,所述程序代码使所述处理器执行上述权利要求1至5中任一所述方法。
CN201810685660.6A 2018-06-27 2018-06-27 面向文本的数字取证分析方法、装置和计算机可读介质 Active CN108875050B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810685660.6A CN108875050B (zh) 2018-06-27 2018-06-27 面向文本的数字取证分析方法、装置和计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810685660.6A CN108875050B (zh) 2018-06-27 2018-06-27 面向文本的数字取证分析方法、装置和计算机可读介质

Publications (2)

Publication Number Publication Date
CN108875050A true CN108875050A (zh) 2018-11-23
CN108875050B CN108875050B (zh) 2021-02-26

Family

ID=64295466

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810685660.6A Active CN108875050B (zh) 2018-06-27 2018-06-27 面向文本的数字取证分析方法、装置和计算机可读介质

Country Status (1)

Country Link
CN (1) CN108875050B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111061842A (zh) * 2019-12-26 2020-04-24 上海众源网络有限公司 一种相似文本确定方法及装置
CN112579534A (zh) * 2019-09-27 2021-03-30 北京国双科技有限公司 文件筛选方法及装置
CN116028988A (zh) * 2023-02-28 2023-04-28 深圳市大恒数据安全科技有限责任公司 一种电子数据固证方法、终端及系统

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170169008A1 (en) * 2015-12-15 2017-06-15 Le Holdings (Beijing) Co., Ltd. Method and electronic device for sentiment classification
CN107861945A (zh) * 2017-11-01 2018-03-30 平安科技(深圳)有限公司 金融数据分析方法、应用服务器及计算机可读存储介质
CN108090178A (zh) * 2017-12-15 2018-05-29 北京锐安科技有限公司 一种文本数据分析方法、装置、服务器和存储介质

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170169008A1 (en) * 2015-12-15 2017-06-15 Le Holdings (Beijing) Co., Ltd. Method and electronic device for sentiment classification
CN107861945A (zh) * 2017-11-01 2018-03-30 平安科技(深圳)有限公司 金融数据分析方法、应用服务器及计算机可读存储介质
CN108090178A (zh) * 2017-12-15 2018-05-29 北京锐安科技有限公司 一种文本数据分析方法、装置、服务器和存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
SHENG YAN 等: "A Concept Similarity Method in Structural and Semantic Levels", 《2009 SECOND INTERNATIONAL SYMPOSIUM ON INFORMATION SCIENCE AND ENGINEERING》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112579534A (zh) * 2019-09-27 2021-03-30 北京国双科技有限公司 文件筛选方法及装置
CN112579534B (zh) * 2019-09-27 2024-06-25 北京国双科技有限公司 文件筛选方法及装置
CN111061842A (zh) * 2019-12-26 2020-04-24 上海众源网络有限公司 一种相似文本确定方法及装置
CN111061842B (zh) * 2019-12-26 2023-06-30 上海众源网络有限公司 一种相似文本确定方法及装置
CN116028988A (zh) * 2023-02-28 2023-04-28 深圳市大恒数据安全科技有限责任公司 一种电子数据固证方法、终端及系统

Also Published As

Publication number Publication date
CN108875050B (zh) 2021-02-26

Similar Documents

Publication Publication Date Title
CN103605665B (zh) 一种基于关键词的评审专家智能检索与推荐方法
CN110020422B (zh) 特征词的确定方法、装置和服务器
CN106874292B (zh) 话题处理方法及装置
CN111797239B (zh) 应用程序的分类方法、装置及终端设备
CN103605691B (zh) 用于处理社交网络中发布内容的装置和方法
CN108090178B (zh) 一种文本数据分析方法、装置、服务器和存储介质
CN110738033B (zh) 报告模板生成方法、装置及存储介质
CN108875050A (zh) 面向文本的数字取证分析方法、装置和计算机可读介质
CN112559684A (zh) 一种关键词提取及信息检索方法
CN111680131B (zh) 基于语义的文档聚类方法、系统及计算机设备
CN104537341A (zh) 人脸图片信息获取方法和装置
CN110334343B (zh) 一种合同中个人隐私信息抽取的方法和系统
CN110032675A (zh) 基于共现词的检索方法、装置、设备及可读存储介质
CN109472008A (zh) 一种文本相似度计算方法、装置及电子设备
CN111061837A (zh) 话题识别方法、装置、设备及介质
CN110427628A (zh) 基于神经网络算法的web资产分类检测方法及装置
CN108108346A (zh) 文档的主题特征词抽取方法及装置
CN111291551B (zh) 文本处理方法、装置、电子设备及计算机可读存储介质
CN114792246B (zh) 一种基于主题集成聚类的产品典型性特质挖掘方法及系统
CN106355455A (zh) 一种从网购用户评论中抽取产品特征信息的方法
CN107368500A (zh) 数据抽取方法及系统
CN109284441A (zh) 动态自适应网络敏感信息检测方法及装置
CN108628875B (zh) 一种文本标签的提取方法、装置及服务器
CN115391551A (zh) 事件检测方法及装置
CN110362813A (zh) 基于bm25的搜索相关性度量方法、存储介质、设备及系统

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
TR01 Transfer of patent right

Effective date of registration: 20231225

Address after: Room 6331, 6332, 6333, 6334, Beijing Exhibition Hall Hotel, No. 135 Xizhimenwai Street, Xicheng District, Beijing, 100044

Patentee after: Beijing Oriental Jingrong Education Technology Co.,Ltd.

Address before: Room 205-211526, No. 40, Fuqian West Street, Pinggu Town, Pinggu District, Beijing 101299 (cluster registration)

Patentee before: BEIJING YONGBO TECHNOLOGY CO.,LTD.

Effective date of registration: 20231225

Address after: Room 205-211526, No. 40, Fuqian West Street, Pinggu Town, Pinggu District, Beijing 101299 (cluster registration)

Patentee after: BEIJING YONGBO TECHNOLOGY CO.,LTD.

Address before: 100000 No. 100 Chaoyang District Ping Tian Park, Beijing

Patentee before: Beijing University of Technology

TR01 Transfer of patent right
TR01 Transfer of patent right

Effective date of registration: 20240205

Address after: Room 510, 5th Floor, No. 10 Shangdi Information Road, Haidian District, Beijing, 100085

Patentee after: Beijing Star Cube Technology Development Co.,Ltd.

Country or region after: China

Address before: Room 6331, 6332, 6333, 6334, Beijing Exhibition Hall Hotel, No. 135 Xizhimenwai Street, Xicheng District, Beijing, 100044

Patentee before: Beijing Oriental Jingrong Education Technology Co.,Ltd.

Country or region before: China

TR01 Transfer of patent right