CN106650799B

CN106650799B - 一种电子证据分类提取方法及系统

Info

Publication number: CN106650799B
Application number: CN201611120337.1A
Authority: CN
Inventors: 高敏; 江圣航; 熊志海
Original assignee: Chongqing University of Post and Telecommunications
Current assignee: Chongqing University of Post and Telecommunications
Priority date: 2016-12-08
Filing date: 2016-12-08
Publication date: 2019-05-31
Anticipated expiration: 2036-12-08
Also published as: CN106650799A

Abstract

本发明申请一种电子证据分类提取方法及系统，涉及计算机信息处理分类技术领域，本发明基于内存分布式数据集RDD对提取的电子证据进行聚类处理，对聚类电子数据根据电子证据来源及类型进行分类并标引，电子证据分类器对获取的电子数据聚类，在经过模糊融合识别，获得分类电子证据；文档层处理模块，对目标数据进行文档化处理，呈述层模块对目标数据进行相关描述，自动生成描述型句子。本发明能够在多种数据来源，海量数据中快速准确提取出相关联的电子证据，并与案件进行关联，方便取证人员及办案人员能够快速准确的获取需要的相关电子证据。

Description

一种电子证据分类提取方法及系统

技术领域

本发明涉及计算机信息处理技术领域，具体是一种电子证据的提取和保全方法。

背景技术

随着电子信息技术的发展，电子数据已经渗透到人们工作生活的方方面面，每天数以十亿计的人使用电脑、手机等电子设备进行即时交流，收发电子邮件、存储、管理、更新数据信息，使得电子数据成为当今工作生活中不可或缺的组成部分，与此同时，电子数据对刑事犯罪也产生了深远的影响，不少犯罪分子直接利用电子信息技术实施犯罪，利用电子邮件诈骗，利用因特网散布色情照片，利用病毒进行网络攻击。电子数据在刑事犯罪中的广泛渗透给侦查活动提出了巨大的挑战。

电子证据是基于计算机应用、通信和现代管理技术等电子化技术手段形成包括文字、图形符号、数字、字母等的客观资料，包括电子邮件、电子数据交换、网上聊天记录、博客、手机短信、电子签名、域名等电子信息。当今世界已步入信息化社会，计算机技术与互联网、智能手机已经深入到生活的方方面面。电子数据证据作为揭露犯罪事实的证据形式，在查办案件过程中就显得更加重要，掌握电子数据收集与固定的方法，对提高办案能力具有重要意义。

自2016年10月1日起施行的最高人民法院最高人民检察院公安部印发《关于办理刑事案件收集提取和审查判断电子数据若干问题的规定》中，对电子证据及电子证据的提取保存等作了相关规定，明确了电子证据所包含的类别等，在大数据时代要从海量的电子数据中提取与案件和犯罪嫌疑人相关联的证据犹如大海捞针。并且由于电子证据的特殊性，必须保证提取的电子证据是客观真实的，能证明事实，才能对案件的侦破起到作用，才能在法庭上作为证据使用。

随着计算机犯罪数字不断上升和犯罪手段的数字化，搜集电子证据的工作成为提供重要线索及破案的关键。恢复已被破坏的计算机数据及提供相关的电子资料证据就是电子取证。为确保电子证据的原始性、真实性、合法性，在电子证据的收集时应采用专业的数据复制备份设备将电子证据文件复制备份。电子证据的认证也就是审查电子证据是否符合电子证据认定的相关性、真实性、合法性等标准。在审查电子证据真实性过程中，首先必须严格审查电子证据的来源。在证据采信过程中，主要体现在如下几个方面：第一，证据的来源必须是客观存在的，第二，确定证据来源的真实可靠性，根据电子证据形成的时间、地点等情况，明确电子证据所反映的是否真实可靠。结合电子证据本身的技术含量及加密条件、加密方法，判断电子证据是否真实、有无剪裁、拼凑、伪造、篡改等。由于电子证据容易被篡改,破坏和伪造而不易留痕,电子证据依附的计算机系统容易受到攻击、篡改且不易发觉,也使电子证据面临着被诉讼的问题,电子证据的完整性也变成了当前法庭,侦查机关和被告极为关注的重要的问题。但电子证据完整性涉及到从电子证据源的固定、证据提取、分析推理、报告的生成中的每个方面,是一个复杂的技术过程。

用户在使用计算机设备以及在网络中传输的过程中往往会留下使用痕迹,这些使用痕迹通常作为存储在设备中的一部分数据源被保存下来。在特定情况下,这些用户的使用痕迹将被提取和分析,甚至可能会成为案件中具有重大意义的数字证据。在数字取证过程中,鉴定专家将根据案件的鉴定需求来制定取证策略,作为选用恰当数字取证技术和取证工具的判断依据,从而对待取证设备进行数据获取与取证分析。

针对互联网中的有必要成为电子证据(司法证据)的电子数据，如电子交易的关键信息、文本、图片、音视频、电子邮件、网页内容、聊天过程等，形成了真实的、唯一的、完整的数据链条，满足了作为司法证据的客观性、关联性、合法性的要求。

发明专利“基于社交平台的电子证据处理系统及处理方法”公开了一种基于社交平台的电子证据处理系统，包括取证服务器、数字签名模块、证据存储模块、出证模块。取证服务器接收社交平台服务器转发来的源自社交平台客户端产生的取证请求，并根据该取证请求采集相应的数据同时生成记录文件；数字签名模块对记录文件进行数字签名、时间戳签名形成证据；证据存储模块对经过数字签名模块签名的证据进行存储；出证模块对证据存储模块中经过签名的证据进行完整性验证，根据通过验证的证据所记录的内容出具相应的报告；取证服务器、数字签名模块以及出证模块均处于具备公信力的第三方监控环境下。该系统实现了数据的取证、存储及出证的全过程见证，可以对所取的网络数据的真实性进行还原，增加所取证数据的证据效力。申请号为201610315054.6的发明专利申请一种电子文件基因提取系统，提供一种电子文件基因提取系统，包括：防火墙、时频服务器、交换机和服务器，所述服务器通过交换机分别连接时频服务器和防火墙，在电子文件形成过程中或形成时，提取电子文件关键信息，通过哈希算法将文件关键信息配合第三方时效脉冲加密成一段唯一不可逆密码；所述服务器包括依次串联的电子保全系统服务器、签名验证服务器和安全认证网关，所述电子保全系统服务器通过计算机接口连接交换机。该系统可为司法鉴定单位的电子证据指纹校对提供原始素材，可确保电子数据的原始性和客观性。

现有技术的电子证据验证保全方法的基本原理是利用单向散列函数(Hash函数)对发送信息进行运算，生成一串固定长度的数字摘要。将生成的数字摘要与源文件进行对比，验证该数据是否被篡改。数字摘要用来判断数据有没有被窜改，从而保证了信息的完整性不被破坏。

上述现有技术只是在取证过程中对电子数据进行完整性检查，真假时间戳和数字签名，以解决提取证据的真实性问题。但随着计算信息技术的发展，大数据时代的到来，海量的电子数据存放在犯罪工具设备中、云平台或者在网络上传播，要从海量的数据中提取出与案件相关联的电子证据，能够满足对证据关联性的要求，并且在相关证据中对证据进行分类，在对相关事实进行证明时方便提取，并进行分类保全，以方便取证专家及相关人员能够快速准确获取完整有效的电子证据，加强证明力。

发明内容

本发明所要解决的技术问题是，针对现有技术电子证据提取过程中缺乏对证据类型进行分类识别，难以在海量数据中快速准确提取出相关联的电子证据，以及没有对电子证据进行相关分类等问题，本发明提出一种电子证据分类提取方法。

本发明解决上述技术问题的技术方案是，提出一种电子证据分类提取方法，包括步骤：电子证据获取模块调用RDD序列化存储函数读取电子数据，对电子数据进行归一化处理获得标称电子数据集构成测试集；为每个分区保存一个标签，分类训练模块将训练集中的样本数据转化为样本特征和标签，该样本集中的所有样本数据获得标签，将获得标签的样本数据输入基分类器进行训练，获得电子证据分类器；将测试集中的电子数据输入电子证据分类器中进行预测，为测试集中每个电子数据寻找对应的标签，并分配到与其标签对应的RDD分区中，对每个RDD分区进行簇排序，得到不同层次结构上的簇号，合并分区，排除电子数据中的噪声信息，输出聚类的结果；模糊融合识别模块对经过聚类到各RDD分区的电子数据进行模糊识别，获得分类电子证据；文档层处理模块从RDD各分区中拷贝分类电子证据形成目标数据，对目标数据进行文档化处理，送入呈述层模块，呈述层模块对目标数据进行相关描述，自动生成描述型句子。

本发明的优选实施例进一步包括，所述将预测集中电子数据分配到对应的RDD分区分区中具体包括，将标称电子数据集通过map键值对函数转化为对应的键值对的形式，根据键值对将标称数据集分配到一系列的RDD分区中。

本发明的优选实施例进一步包括，所述对每个RDD分区进行簇排序进一步具体包括：选择一个电子数据样本点放入全局邻居数组，在全局邻居数组中选择第一个对象p进行扩张,判断对象p是否为核心点，如果p不是核心点，从全局邻居数组中删除p；如果p是核心点，对核心点p的邻域内任一未处理的邻居点q计算欧式距离,如果q已在全局邻居数组中且从p到q的可达距离小于此时q的欧式距离,更新q的可达距离为q的欧式距离,并根据更新的可达距离，调整q到全局邻居数组中的相应位置；如果q不在全局邻居数组中,则根据p到q的可达距离将其插入有序队列中，直到核心点p的所有邻居点都插入队列，获得所有核心点的队列即为分区的簇排序。

本发明的优选实施例进一步包括，所述所有电子证据获得标签进一步包括：将训练集中的样本数据转化为样本特征和标签(1，featuress，labels)的形式，采用广播变量的形式将样本特征和标签进行分离，对特征进行广播变量，将特征和标签(1，featuress，labels)转化为特征(1，featuress)，标签(1，1，label₁)，(1，2，label₂)，(1，3，label₃),……(1，n*(n+1)/2,label_n*(n+1)/2)，转化获得的标签分配到n*(n+1)/2个RDD分区分区中，为每个分区保存一个标签。

本发明的优选实施例进一步包括，所述模糊识别具体包括，模糊融合识别模块将电子数据对比度值域区间非线性划分，提取特征，利用模糊隶属函数获取待分类电子证据样本特征隶属于各类别的卡方距离，对卡方距离内的各特征进行权重融合，获得分类结果。

本发明的优选实施例进一步包括，根据任意RDD分区的前边界数据样本和广播变量的后边界点获得键值对map，根据map的方向向前合并簇号，所有RDD分区中的标称数据样本点都根据键值对Map合并簇号，并输出所有标称电子数据对应的簇号，合并的簇号加入map中。

本发明的优选实施例进一步包括，如电子证据包括N种特征，包括c个证据类型，根据公式：将各特征的分类结果按权重进行融合，使得融合值K取最大时的类别t就是最终的分类结果。

本发明还提供一种电子证据分类提取系统，包括：电子证据获取模块、分类训练模块、电子证据分类器、模糊融合识别模块、文档层处理模块、呈述层模块，其中，电子证据获取模块，用于调用RDD序列化存储函数读取电子数据，对电子数据进行归一化处理获得标称电子数据集构成测试集；分类训练模块，用于将训练集中的样本数据转化为样本特征和标签，将获得标签的样本数据输入基分类器进行训练，获得电子证据分类器；电子证据分类器，用于对测试集中的电子数据进行预测，为测试集中每个电子数据寻找对应的标签，并分配到与其标签对应的RDD分区中，为每个RDD分区保存一个标签，对每个RDD分区进行簇排序，得到不同层次结构上的簇号，合并分区，排除电子数据中的噪声信息，对电子数据进行聚类；模糊融合识别模块，用于对经过聚类到各RDD分区的电子数据进行模糊识别，获得分类电子证据；文档层处理模块，用于从RDD各分区中拷贝分类电子证据形成目标数据，对目标数据进行文档化处理，送入呈述层模块；呈述层模块，用于对目标数据进行相关描述，自动生成描述型句子。

本发明针对电子证据来源广泛，数据量大，呈现方式多种多样，能够在多种数据来源，海量数据中快速准确提取出相关联的电子证据，对电子证据进行相关分类，与案件关键信息进行关联，方便取证人员及办案人员能够快速准确的获取需要的相关电子证据。

附图说明

图1本发明所述电子证据分类提取流程图。

具体实施方式

Spark是一个基于内存的分布式计算系统，Spark基于内存计算，提高了在大数据环境下数据处理的实时性，同时保证了高容错性和高可伸缩性，允许用户将Spark部署在大量廉价硬件纸上，形成集群。Spark将计算的中间结果数据持久地存储在内存中，通过减少磁盘I/O。使后续的数据运算效率更高。Spark的这种架构设计尤其适合于机器学习、交互式数据分析等应用，这些应用都需要重复地利用计算的中间数据。Spark是基于内存计算的大数据并行计算框架。同时在上层支持图计算、迭代式计算、流式计算等多种计算范式，具有通用性。为了支持在多次迭代计算过程中重复利用内存数据集，Spark提出了一种新的数据抽象模型可分区的内存分布式数据集RDD(resilient distributed dataset)，可以一部分或者全部缓存在集群内存中，以便在多次计算过程中重用。用户可以显式控制RDD的分区、缓存策略等，RDD是一种分布式的内存抽象，表示只读的、分区记录的集合，它只能通过在稳定物理存储中的数据集或其它已有的RDD上执行一些确定性操作来创建。结果返回一个普通的类型值或将RDD中的数据输出到存储系统中。

本发明基于内存分布式数据集RDD对提取的电子证据进行聚类处理，通过点排序识别聚类结构处理大批量的数据集，并在极短的时间内得到簇排序，对聚类电子数据根据电子证据来源及类型进行分类并标引，在不同层次导出内在的聚类结构。

图1所示为电子证据提取流程示意图。

包括，电子证据获取模块、分类训练模块、电子证据分类器、模糊融合识别模块、文档层处理模块、呈述层模块。电子证据获取模块调用RDD序列化存储函数读取数据集，转化为分布式数据集RDD，对数据集进行归一化处理获得标称数据集。把分布式数据集RDD中的每一个标称数据集都通过map键值对函数转化为对应的键值对的形式，根据键值对将标称数据集分配到一系列的RDD分区中。

电子证据获取模块，获取数据、将非标称数据转化为标称数据，进行归一化处理；创建一个接口对象SparkContext(当SparkContext是Spark的对外接口，负责向调用提供Spark的各种功能，当SparkContext是Spark的入口，负责连接Spark集群)；调用RDD序列化存储函数textFile读取数据集，将获取的证据数据转化为Spark大数据平台的分布式数据集RDD；

对获取的电子数据进行特征处理，建立标称数据集，如果数据集中的某些键值对不是标称的数据集，进行标称化处理，对于有缺失值的数据，可采用中位值和众数的方式处理有缺失值的数据，将所有的标称数据进行归一化处理，将特征数据转化到[0,1]区间内。

把分布式数据集RDD中的每一个标称数据集都通过map键值对函数转化为对应的键值对(key关键值，value值)的形式，根据键值对将标称电子数据分配到一系列的RDD分区中。根据任意RDD分区的前边界数据样本和广播变量的后边界点获得键值对map，根据map的方向由后指向前，向前合并簇号，合并的簇号加入map中，所有RDD分区中的标称数据样本点都根据键值对Map合并簇号，并输出所有标称电子数据对应的簇号。

分类训练模块根据不同类别对电子证据样本进行标引，获得标引的电子证据样本集，该样本集中的所有数据获得标签。采用并行方式进行基分类器的训练，将获得标签的样本数据输入基分类器进行训练，采用迭代的形式不断优化基分类器参数，得到训练好的基分类器，直到基分类器的指标能够达到分类的要求，获得电子证据分类器。

有标签的数据样本组成训练集，经过分簇并初始分类的电子数据样本作为预测集。将训练集中的样本数据转化为样本特征和标签(1，featuress，labels)的形式。采用广播变量的形式将训练集的样本特征和标签进行分离。对特征进行广播变量，将特征和标签(1，featuress，labels)转化为特征(1，featuress)，标签(1，1，label₁)，(1，2，label₂)，(1，3，label₃),……(1，n*(n+1)/2,label_n*(n+1)/2)，转化获得的标签分配到n*(n+1)/2个RDD分区分区中，为每个分区保存一个标签。，其中，features表示某个样本所有的特征，labels表示某个样本所有的标签，label_i表示某个样本的第i个标签，n表示标签的维数。

将预测集中的电子证据输入训练好的电子证据分类器中进行预测，通过预测为每个电子证据样本寻找对应的标签，将预测集中的电子证据分配到与其标签对应的RDD分区分区中。

如果每个数据样本对应多个标签，采用投票的方式选取统计数量多的一种结果，如果统计结果相同，采用多标签算法CLR对统计结果进行选取，每个数据样本获得唯一对应的标签。

对每个RDD分区进行簇排序，得到不同层次结构上的簇号，然后进行合并分区，排除电子证据中的噪声信息，输出聚类结果。

每个分区的样本并行执行点排序识别聚类结构OPTICS聚类算法，各自得到各个分区所有样本点的可达距离形成分区可达序列，获得RDD分区中所有核心点的队列即为RDD分区的簇排序，把每个分区的簇排序保存到分布式文件系统HDFS。具体采用如下方法：选择一个电子数据样本点放入全局邻居数组；在全局邻居数组中选择第一个对象p进行扩张,判断对象p是否为核心点，如果p不是核心点，从全局邻居数组中删除p；如果p是核心点，对核心点p的邻域内任一未处理的邻居点q计算欧式距离,如果q已在全局邻居数组中且从p到q的可达距离小于此时q的欧式距离,更新q的可达距离为q的欧式距离,并根据更新的可达距离，调整q到全局邻居数组中的相应位置，以保证队列的有序性；如果q不在全局邻居数组中,则根据p到q的可达距离将其插入有序队列中，直到核心点p的所有邻居点都插入队列。获得所有核心点的队列即为分区的簇排序，把每个分区的簇排序保存到分布式文件系统HDFS。

从每个分区的簇排序中按顺序提取标称电子数据样本，获取该样本的可达距离，如果该样本的可达距离不大于预定距离B，则把样本所属的类别属性标记为当前类别，簇号即为类别号，如果标称电子数据样本可达距离大于B并且距离核心点距离小于B，则把样本点所属的类别属性标记下一个新的类别，将其类别标记为下一个簇号。如果标称电子数据样本的可达距离大于预定距离B并且距离核心点的距离大于B，则把标称电子数据样本点所属的类的类别属性标记噪声。剔除与电子证据类型不相关的数据(噪声)，将各分区数据集RDD中的标称电子数据簇号分配到不同的簇，调用map()函数，留下每个数据集分区的前后边界点的分布式数据集，调用数组转换函数把前后边界点的分布式数据集转换为数组并广播，然后，前后边界点的分布式数据集与广播变量进行全局合并获得键值对形式map。每个分区所有样本点都根据Map(键值对形式)合并簇号，并输出所有电子证据样本点的最终簇号，相同簇号的电子数据放在一个文件包中输出。

电子证据通常包括以下内容，网页、博客、微博客、朋友圈、贴吧、网盘等网络平台发布的网络信息；手机短信、电子邮件、即时通信、通讯群组等网络应用服务的通信信息；用户注册信息、身份认证信息、电子交易记录、通信记录、登录日志等日志信息；文档、图片、音视频、数字证书、计算机程序等电子文件。

根据以上聚类结果，对簇中的电子数据再进一步进行分类识别，方便取证人员识别是文本、图片、音视频、电子邮件、网页等相关的数据。

模糊融合识别模块对分配到各RDD分区的电子数据进行模糊识别，获得分类结果。

根据最高人民法院的司法解释电子证据包括：网络信息、通信信息、日志信息、文件信息。其中，网络信息包括的类型有网页、博客、微博客、朋友圈、贴吧、网盘等网络平台发布的信息类别；通信信息包括的类型手机短信、电子邮件、即时通信、通讯群组等；日志信息包括的类型有用户注册信息、身份认证信息、电子交易记录、通信记录、登录日志等类别；文件信息包括的类型文档、图片、音视频、数字证书、计算机程序等类别。将电子数据对比度值域区间非线性划分，提取特征，利用模糊隶属函数获取待分类电子证据样本特征隶属于各类别的卡方距离，对卡方距离内的各特征进行权重融合，获得分类结果。如电子数据包括N种特征，包括t类证据，根据公式：将各特征的分类结果按权重进行融合，使得K取最大的t就是最终的分类结果,即待识别电子证据样本被判定为第t类。其中，表示第N种特征模糊隶属于第c类的程度，c表示所有的电子证据类别数，W_Nt表示第N种特征模糊隶属于第t类时的融合权重，可以通过信息熵计算等方式获取。可根据公式计算融合权重，其中，为第t类电子证据样本第N种特征的信息熵平均值。利用信息熵求得特征信息的准确量。

因为源数据是唯一的，一般在电子证据取证中不对源数据进行直接操作，在不改变源数据的情况下对源数据完整的一一的拷贝形成目标数据，因此目标数据是整个电子证据的来源，需要保护目标数据层模块的完整性；文档层处理模块，在电子证据文档化过程中，采用如单项函数、数字签名等技术进行电子证据完整性的保护，可以有效地解决电子证据完整性的部分需求。

文档层处理模块从RDD各分区中将经过分类的电子证据拷贝形成目标数据，对目标数据进行文档化处理，如进行电子签名、加上时间戳，调用哈希函数对目标数据的完成性进行验证等处理，然后与证据相关特征(如当事人姓名特征、身份信息、案件性质、案件关键证据类型等)进行关联，送入呈述层模块。

要从关系错综复杂、众多的电子证据中，选取确定性级别高、完整程度高的证据根据案件的关键因素进行关联推理而保证证据的可靠性和关联性，以保证和检验在推理分析过程中杜绝取证人员偶然或恶意地修改和伪造电子证据而影响报告结论等。

呈述层模块对经过分类的电子证据进行相关描述，自动生成描述型句子。从关系错综复杂、众多的电子证据中，选取确定性级别高、完整性程度高的电子证据根据关键因素进行训练并关联推理而保证证据的可靠性和关联性。

呈述层模块对存储在各分类区域的电子证据进行预处理，提取特征信息，根据特征信息进行完整性检查，获取完整性程度高的电子证据，根据经过完整性检查的特征信息生成固定长度的特征向量，利用投影矩阵将特征向量对应描述句子中的词映射到相同的特征空间获得词序列特征向量；利用电子证据特征向量和对应的词序列特征向量作为训练样本对训练长短期记忆模型生成语言模型，将经过分类的电子证据输入语言模型，自动生成描述型句子，方便取证人员及法庭相关人员阅读和理解。

Claims

1.一种电子证据分类提取方法，其特征在于，包括步骤，电子证据获取模块调用RDD序列化存储函数读取电子数据，对电子数据进行归一化处理获得标称电子数据集构成测试集；分类训练模块将训练集中的样本数据转化为样本特征和标签，获得标引的电子证据样本集，该样本集中的所有样本数据获得标签，将获得标签的样本数据输入基分类器进行训练，获得电子证据分类器；将测试集中的电子数据输入电子证据分类器进行聚类，为测试集中每个电子数据寻找对应的标签，并分配到与其标签对应的内存分布式数据集RDD分区中，对每个RDD分区进行簇排序，即获得所有核心点的队列，得到不同层次结构上的簇号，合并分区，为每个分区保存一个标签，排除电子数据中的噪声信息，输出聚类结果；模糊融合识别模块对经过聚类到各RDD分区的电子数据进行模糊识别，获得分类电子证据；文档层处理模块从RDD各分区中拷贝分类电子证据形成目标数据，对目标数据进行文档化处理，送入呈述层模块，呈述层模块对目标数据进行相关描述，自动生成描述型句子。

2.根据权利要求1所述的方法，其特征在于，所述分配到与其标签对应的RDD分区中具体包括，将标称电子数据集通过map键值对函数转化为对应的键值对的形式，根据键值对将标称电子数据集分配到一系列的RDD分区中。

3.根据权利要求1所述的方法，其特征在于，所述对每个RDD分区进行簇排序进一步具体包括：选择一个电子数据样本点放入全局邻居数组，在全局邻居数组中选择第一个对象p进行扩张,判断对象p是否为核心点，如果p不是核心点，从全局邻居数组中删除p；如果p是核心点，对核心点p的邻域内任一未处理的邻居点q计算欧式距离,如果q已在全局邻居数组中且从p 到q 的可达距离小于此时q的欧式距离, 更新q 的可达距离为q的欧式距离, 并根据更新的可达距离，调整q 到全局邻居数组中的相应位置；如果q不在全局邻居数组中,则根据p到q 的可达距离将其插入有序队列中，直到核心点p的所有邻居点都插入队列，获得所有核心点的队列即为分区的簇排序。

4.根据权利要求1所述的方法，其特征在于，所述所有样本数据获得标签进一步包括：将训练集中的样本数据转化为样本特征和标签（1，featuress，labels）的形式，采用广播变量的形式将样本特征和标签进行分离，对特征进行广播变量，将特征和标签（1，featuress，labels）转化为特征（1，featuress），标签（1，1，label₁），（1，2，label₂），（1，3，label₃）,……(1，n*（n+1）/2,label_{n*（n+1）/2})，转化获得的标签分配到n*（n+1）/2个RDD分区中，为每个分区保存一个标签，其中，n表示标签的维数。

5.根据权利要求1所述的方法，其特征在于，所述模糊识别具体包括，模糊融合识别模块将电子数据对比度值域区间非线性划分，提取特征，利用模糊隶属函数获取待分类电子证据样本特征隶属于各类别的卡方距离，对卡方距离内的各特征进行权重融合，获得分类结果。

6.根据权利要求2所述的方法，其特征在于，根据任意RDD分区的前边界数据样本和广播变量的后边界点获得键值对map，根据map的方向向前合并簇号，所有RDD分区中的标称数据样本点都根据键值对Map合并簇号，并输出所有标称电子数据对应的簇号，合并的簇号加入map中。

7.根据权利要求1所述的方法，其特征在于，呈述层模块根据特征信息进行完整性检查，获取完整性程度高的电子证据，根据经过完整性检查的特征信息生成固定长度的特征向量，利用投影矩阵将特征向量对应描述句子中的词映射到相同的特征空间获得词序列特征向量，利用电子证据特征向量和对应的词序列特征向量作为训练样本对训练长短期记忆模型生成语言模型，将经过分类的电子证据输入语言模型，自动生成描述型句子。

8.一种电子证据分类提取系统，其特征在于，包括：电子证据获取模块、分类训练模块、电子证据分类器、模糊融合识别模块、文档层处理模块、呈述层模块，其中，电子证据获取模块，用于调用内存分布式数据集RDD序列化存储函数读取电子数据，对电子数据进行归一化处理获得标称电子数据集构成测试集；分类训练模块，用于将训练集中的样本数据转化为样本特征和标签，获得标引的电子证据样本集，该样本集中的所有样本数据获得标签，将获得标签的样本数据输入基分类器进行训练，获得电子证据分类器；电子证据分类器，用于对测试集中的电子数据进行预测，为测试集中每个电子数据寻找对应的标签，并分配到与其标签对应的RDD分区中，为每个RDD分区保存一个标签，对每个RDD分区进行簇排序，即获得所有核心点的队列，得到不同层次结构上的簇号，合并分区，排除电子数据中的噪声信息，对电子数据进行聚类；模糊融合识别模块，用于对经过聚类到各RDD分区的电子数据进行模糊识别，获得分类电子证据；文档层处理模块，用于从RDD各分区中拷贝分类电子证据形成目标数据，对目标数据进行文档化处理，送入呈述层模块；呈述层模块，用于对目标数据进行相关描述，自动生成描述型句子。

9.根据权利要求8所述的系统，其特征在于，所述对每个RDD分区进行簇排序进一步具体包括：选择一个电子数据样本点放入全局邻居数组，在全局邻居数组中选择第一个对象p进行扩张,判断对象p是否为核心点，如果p不是核心点，从全局邻居数组中删除p；如果p是核心点，对核心点p的邻域内任一未处理的邻居点q计算欧式距离,如果q已在全局邻居数组中且从p 到q 的可达距离小于此时q的欧式距离, 更新q 的可达距离为q的欧式距离, 并根据更新的可达距离，调整q 到全局邻居数组中的相应位置；如果q不在全局邻居数组中,则根据p到q 的可达距离将其插入有序队列中，直到核心点p的所有邻居点都插入队列，获得所有核心点的队列即为分区的簇排序。

10.根据权利要求8所述的系统，其特征在于，所述所有样本数据获得标签进一步包括：将训练集中的样本数据转化为样本特征和标签（1，featuress，labels）的形式，采用广播变量的形式将样本特征和标签进行分离，对特征进行广播变量，将特征和标签（1，featuress，labels）转化为特征（1，featuress），标签（1，1，label₁），（1，2，label₂），（1，3，label₃）,……(1，n*（n+1）/2,label_{n*（n+1）/2})，转化获得的标签分配到n*（n+1）/2个RDD分区分区中，为每个分区保存一个标签，其中，n表示标签的维数。

11.根据权利要求8所述的系统，其特征在于，所述模糊识别具体包括，模糊融合识别模块将电子数据对比度值域区间非线性划分，提取特征，利用模糊隶属函数获取待分类电子证据样本特征隶属于各类别的卡方距离，对卡方距离内的各特征进行权重融合，获得分类结果。

12.根据权利要求8所述的系统，其特征在于，呈述层模块根据特征信息进行完整性检查，获取完整性程度高的电子证据，根据经过完整性检查的特征信息生成固定长度的特征向量，利用投影矩阵将特征向量对应描述句子中的词映射到相同的特征空间获得词序列特征向量，利用电子证据特征向量和对应的词序列特征向量作为训练样本对训练长短期记忆模型生成语言模型，将经过分类的电子证据输入语言模型，自动生成描述型句子。