CN116452224A

CN116452224A - 一种电子证据的溯源方法及装置

Info

Publication number: CN116452224A
Application number: CN202310729267.3A
Authority: CN
Inventors: 沙卫国; 陈鹏; 杨珂; 郭庆雷; 王合建; 李永亮; 高博; 李学锋; 于晓昆; 李文健
Original assignee: State Grid Blockchain Technology Beijing Co ltd; State Grid Digital Technology Holdings Co ltd; State Grid Corp of China SGCC; State Grid Ningxia Electric Power Co Ltd; Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Current assignee: State Grid Blockchain Technology Beijing Co ltd; State Grid Digital Technology Holdings Co ltd; State Grid Corp of China SGCC; State Grid Ningxia Electric Power Co Ltd; Electric Power Research Institute of State Grid Ningxia Electric Power Co Ltd
Priority date: 2023-06-19
Filing date: 2023-06-19
Publication date: 2023-07-18
Anticipated expiration: 2043-06-19
Also published as: CN116452224B

Abstract

本申请公开了一种电子证据的溯源方法及装置，可应用于区块链应用技术领域。该方法包括：获取待追溯电子证据，生成待追溯图像电子证据的图像描述文本；将文本电子证据和图像描述文本分词，得到文本分词结果和图像描述分词结果；将文本分词结果和图像描述分词结果合并为待追溯分词结果；通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果。可见，本申请方案在电子证据溯源时，通过智能合约计算区块链上电子证据的标签之间的余弦相似度作为匹配度的方式提高了溯源时的可靠性和准确度。并结合业务系统生成溯源报告的方式提高了溯源时电子证据信息的可信度和完整性。

Description

一种电子证据的溯源方法及装置

技术领域

本申请涉及区块链应用技术领域，尤其涉及一种电子证据的溯源方法及装置。

背景技术

随着数字内容的普及，电子证据的保全和溯源成为重要的问题。电子证据已经成为了很多司法和法律事务中不可或缺的一部分，包括但不限于合同、账单、照片、视频等等。然而在电网实际生产中，电子证据的安全性、完整性、可信度和可追溯性常常受到许多挑战，包括数据篡改、数据丢失、数据泄露等等。这些问题可能会影响电子证据的有效性和可靠性，甚至可能导致司法纠纷和法律风险。

目前，现有技术中的电子证据存证和验证方法及装置，一般通过查询区块链存证平台是否存储有待验证的电子证据对应的根哈希值，来判断该电子证据是否已经存储于区块链上。该方案仅仅采用了默克尔树，无法对电子证据进行描述和分析。在数据保全和溯源方面存在一定的局限性，验证过程相对简单，无法实现搜索功能，导致保全的电子证据缺乏可信度，并且无法被准确追溯到。由此，如何设计出一种准确对电子证据保全和追溯的方法成为本领域亟需解决的技术问题。

发明内容

有鉴于此，本申请实施例提供了一种电子证据的溯源方法及装置，旨在达到准确对电子证据保全和追溯的要求。

第一方面，本申请实施例提供了一种电子证据的溯源方法，该方法包括：

获取待追溯电子证据，其中所述电子证据包括图像电子证据和文本电子证据；

生成所述图像电子证据的图像描述文本；

将所述文本电子证据和所述图像描述文本分词，得到文本分词结果和图像描述分词结果；

将所述文本分词结果和所述图像描述分词结果合并为待追溯分词结果；

通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果，公式如下：

其中，E_All为所有已存储的电子证据；E为当前查询的电子证据；Tag为已存储的电子证据的标签；θ为预设的匹配度阈值；W为待追溯分词结果；SC表示对匹配度进行计算；S为标签Tag与分词结果W之间的匹配度；R为追溯结果，所述追溯结果为包含所有已存储的电子证据E_All中匹配度S大于预设的匹配度阈值θ的集合。

可选的，所述文本电子证据和所述图像描述文本均通过以下方式分词：

将中文文本分字，将每个字映射为字典中的ID得到字典ID向量；

将字典ID向量输入使用中文预训练的BERT模型进行编码得到上下文向量；其中，所述BERT模型是一种预训练的自然语言处理模型；

根据每个上下文向量得到每个字对应的四种标注的预测概率；

获取每个字的预测概率最大值的分类作为分词标注；

根据每个字的分词标注对中文文本进行分割得到分词结果。

可选的，所述生成所述图像电子证据的图像描述文本，包括：

将所述图像电子证据输入至预训练过的ResNet模型中提取图像特征，得到图像特征向量；其中，所述ResNet模型是一种利用残差块组成的深度学习网络架构；

将所述图像特征向量输入至LSTM模型，得到初始上下文向量；

根据时间步将所述初始上下文向量对应分开，并得到当前时间步对应的上下文向量在字典中所有字的预测概率；

LSTM模型不断输入所述当前时间步对应的上下文向量，直至输出的上下文向量等于停止向量；其中，所述LSTM模型是一种基于循环神经网络的模型；

将预测概率最大的字作为上下文向量对应的预测字；

将所有预测字组合得到图像描述文本。

可选的，所述通过文本匹配度算法对区块链中已存储的电子证据进行查询，包括：

调用智能合约，将去除停用词后的两个分词结果的并集W输入智能合约；

获取所述已存储的电子证据的标签；

将输入的两个所述分词结果和所述电子证据的标签分别映射为词典中的ID得到词典ID向量；

通过中文预训练的BERT模型将所述分词结果和所述电子证据的标签对应的词典ID向量转为词向量集合；其中，词向量集合包括分词结果向量集合和电子证据标签向量集合；

分别为所述分词结果向量集合和所述电子证据标签向量集合取平均值，得到分词结果平均向量和电子证据标签平均向量；

计算所述分词结果平均向量和所述电子证据标签平均向量之间的余弦相似度的绝对值作为两组分词的匹配度；

若区块链中所述已存储的电子证据的标签与所述分词结果之间的匹配度大于预设的匹配度阈值，则返回满足大于预设的匹配度阈值的电子证据作为追溯结果。

可选的，所述返回追溯结果，包括：

将得到的追溯结果按匹配度排序并结合业务系统生成电子证据溯源报告返回给用户；其中，所述电子证据溯源报告包含溯源图像、文本摘要、存证哈希、区块链地址、存证时间、存证地点、存证人和存证编号。

可选的，在所述获取待追溯电子证据前，还包括：

用户输入所述待追溯电子证据相关的文本描述及图像。

可选的，还包括：

用户上传待保全的文本电子证据和待保全的图像电子证据；

根据所述待保全的图像电子证据生成待保全的图像描述文本；

分别为所述待保全的文本电子证据和所述待保全的图像描述文本分词得到分词结果；

取两个分词结果的并集并去除停用词，得到当前电子证据的标签；

将所述待保全的图像电子证据、所述当前电子证据的标签、所述待保全的文本电子证据、所述待保全的图像电子证据的哈希值和所述待保全的图像电子证据的存储地址保存至区块链中。

第二方面，本申请实施例提供了一种电子证据的溯源装置，该装置包括：

获取模块，用于获取待追溯电子证据，其中所述电子证据包括图像电子证据和文本电子证据；

图像描述文本生成模块，用于生成所述图像电子证据的图像描述文本；

分词模块，用于将所述文本电子证据和所述图像描述文本分词，得到文本分词结果和图像描述分词结果；

分词结果合并模块，用于将所述文本分词结果和所述图像描述分词结果合并为待追溯分词结果；

追溯模块，用于通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果，公式如下：

可选的，所述分词模块，具体用于：

获取每个字的预测概率最大值的分类作为分词标注；

根据每个字的分词标注对中文文本进行分割得到分词结果。

可选的，所述图像描述文本生成模块，具体用于：

将所述图像特征向量输入至LSTM模型，得到初始上下文向量；

将预测概率最大的字作为上下文向量对应的预测字；

将所有预测字组合得到图像描述文本。

本申请实施例提供了一种电子证据的溯源方法，包括：获取待追溯电子证据，生成待追溯图像电子证据的图像描述文本；将文本电子证据和图像描述文本分词，得到文本分词结果和图像描述分词结果；将文本分词结果和图像描述分词结果合并为待追溯分词结果；通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果。可见，本申请方案在电子证据溯源时，通过智能合约计算区块链上电子证据的标签之间的余弦相似度作为匹配度的方式提高了溯源时的可靠性和准确度。并结合业务系统生成溯源报告的方式提高了溯源时电子证据信息的可信度和完整性。

此外，本申请还提供了一种电子证据的溯源装置，其技术效果与上述方法相对应，这里不再赘述。

附图说明

为更清楚地说明本实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的电子证据的溯源方法的一种方法流程图；

图2为本申请实施例提供的电子证据的溯源方法的保全场景示意流程图；

图3为本申请实施例提供的电子证据的溯源方法的溯源场景示意流程图；

图4为本申请实施例提供的电子证据的溯源方法中分词示意图；

图5为本申请实施例提供的电子证据的溯源方法中图像描述示意图；

图6为本申请实施例提供的电子证据的溯源方法中智能合约示意图；

图7为本申请实施例提供的电子证据的溯源装置的一种结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请方案，下面结合附图和具体实施方式对本申请作进一步的详细说明。显然，所描述的实施例仅仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

随着电网企业数字化转型升级的不断加速，电子化趋势越来越明显，但线上业务系统存证难、取证难、认定难、追溯难等问题逐渐突出。在电网企业的安全生产活动中，取证手段有限、证据效力不高以及传统司法鉴定服务不够便捷等问题也日益凸显。这些问题包括电子证据及时性、规范性不足、易篡改易灭失以及缺少可信的追溯方法。尤其是在基建和运检业务方面，更容易产生法律纠纷风险。若未能在初步设计阶段对线路通道影像记录、站址、塔位坐标进行取证和存证，可能会导致工程建设期间出现站址变化、线路路径重大改变、巨额索赔等重大问题。供电企业在处理法律纠纷时，也会因证据缺乏、采集不及时、效力瑕疵等原因导致举证不能和维权不力。因此，构建可信的电子证据保全和溯源体系十分重要。

随着区块链技术的出现，它成为了解决电子证据保全和溯源问题的有力工具。区块链是一种去中心化的、分布式的数据库，可以实现信息的不可篡改性和安全性。因此，区块链被广泛应用于电子证据保全和溯源领域，以确保电子证据的真实性和完整性。

除此之外，Image-Caption技术和分词技术也被应用于电子证据保全和溯源中。Image-Caption技术可以为图像生成对应的文本描述，使得图像可以通过文本进行描述和识别。而分词技术可以将文本进行拆分和标注，从而方便文本的溯源。

本申请实施例提供一种电子证据的溯源方法，该方法的方法流程图如图1所示，包括如下步骤：

S10，获取待追溯电子证据，其中所述电子证据包括图像电子证据和文本电子证据。

S20，生成图像电子证据的图像描述文本。

图像描述生成器基于Image-Caption技术，用来为一个图像生成图像描述文本。

S30，将文本电子证据和图像描述文本分词，得到文本分词结果和图像描述分词结果。

由于中文无法像英文一样直接通过空格来进行分词，所以文本分词器主要用于将输入的中文文本拆分为多个单词。例如，将文本“B公园电线杆因塔吊施工损坏”输入文本分词器将得到“B公园”、“电线杆”、“塔吊”、“施工”、“损坏”的中文单词集合。

S40，将文本分词结果和图像描述分词结果合并为待追溯分词结果。

智能合约用于计算由用户输入得到的分词结果集合和电子证据标签之间的匹配度，并返回匹配度大于阈值的所有电子证据。

S50，通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果，公式如下：

（公式1）

其中，E_All为所有已存储的电子证据；E为当前查询的电子证据；Tag为已存储的电子证据的标签；θ为预设的匹配度阈值；W为待追溯分词结果；SC表示对匹配度进行计算；S为标签Tag与分词结果W之间的匹配度；R为追溯结果，该追溯结果包含所有已存储的电子证据E_All中匹配度S大于预设的匹配度阈值θ的集合。

可见，本申请方案在电子证据溯源时，通过智能合约计算区块链上电子证据的标签之间的余弦相似度作为匹配度的方式提高了溯源时的可靠性和准确度。并结合业务系统生成溯源报告的方式提高了溯源时电子证据信息的可信度和完整性。

在一些具体实施例中，步骤S30，具体包括：

将中文文本分字，将每个字映射为字典中的ID得到字典ID向量I；

将字典ID向量I输入使用中文预训练的BERT模型进行编码得到上下文向量C，C_i表示第i个字对应的上下文向量。表示如下：

（公式2）

其中，BERT模型是一种预训练的自然语言处理模型，可以将单词映射为高维向量用于后续任务。

将每个上下文向量C_i输入到Softmax层得到每个字对应的四种标注（即B、M、E、S）的预测概率P_i。预测概率公式如下：

（公式3）

其中W_out和b_out是Softmax层的权重矩阵和偏置。

取每个字的预测概率最大值的分类W_i作为分词标注，公式如下：

（公式4）

最后根据各个字的分词标注对中文文本T进行分割得到分词结果W。

在一些具体实施例中，步骤S20，具体包括：

将图像电子证据I输入至预训练过的ResNet模型（不含最终的预测层）提取图像特征，输出图像特征向量V_img。表示如下：

（公式5）

其中，ResNet模型是一种利用残差块组成的深度学习网络架构，该架构能够防止传统卷积网络中梯度消失和梯度爆炸的问题，能用于训练较深的网络。

将图像特征向量V_img输入至LSTM模型获得初始上下文向量H₀。表示如下：

（公式6）

对于每个时间步t的上下文向量H_t，都通过一个Softmax层得到该上下文向量H_t在字典中所有字的预测概率P_t。预测公式如下：

（公式7）

其中W_out和b_out是Softmax层的权重矩阵和偏置。下一个时间步t+1的上下文向量H_t+1取决于上一个时间步t的上下文向量H_t。公式如下：

（公式8）

LSTM不断输入当前时间步t的上下文向量H_t并输出下一个时间步t+1的上下文向量H_t+1，直至输出的上下文向量H_t+1等于停止向量。其中LSTM模型是一种基于循环神经网络的模型，能够解决传统的递归神经网络模型中梯度消失和梯度爆炸的问题。

对于每个时间步t，取预测概率最大的字作为上下文向量H_t对应的预测字D_t。公式如下：

（公式9）

最后拼接所有n个预测字得到图像描述文本D。公式如下：

（公式10）

在一些具体实施例中，步骤S50，具体包括：

调用智能合约，其中输入为将去除停用词后的两个分词结果的并集W输入智能合约；

获得已存储的电子证据的标签集合Tag。

将输入的两个分词结果集合W和电子证据标签集合Tag分别映射为词典中的ID得到词典ID向量。

通过中文预训练的BERT模型将W和Tag对应的词典ID向量转为词向量集合。其中，词向量集合包括分词结果向量集合V_w和电子证据标签向量集合V_Tag。公式如下：

（公式11）

分别为长度为n的分词结果向量集合V_W和长度为m的电子证据标签向量集合V_Tag取平均值得到各自的平均向量Avg_W和Avg_Tag。公式如下：

（公式12）

计算两组分词结果的平均向量AVG_W和AVG_Tag之间的余弦相似度的绝对值作为两组分词的匹配度S。公式如下：

（公式13）

匹配度S的值位于0到1之间，值越接近1则认为这两组分词集合之间的相似度越大，相关性越高。

若区块链中已存储的电子证据的标签与分词结果之间的匹配度S大于预设的匹配度阈值θ，则返回该满足大于预设的匹配度阈值的电子证据作为追溯结果。

在一些具体实施例中，步骤S50，具体包括：将得到的追溯结果按匹配度排序并结合业务系统生成电子证据溯源报告返回给用户；其中，电子证据溯源报告包含溯源图像、文本摘要、存证哈希、区块链地址、存证时间、存证地点、存证人和存证编号等信息。

在一些具体实施例中，本申请还包括：

用户输入待追溯电子证据相关的文本描述及图像。

在一些具体实施例中，本申请还包括：

用户上传待保全的文本电子证据和待保全的图像电子证据；

根据待保全的图像电子证据生成待保全的图像描述文本；

分别为待保全的文本电子证据和待保全的图像描述文本分词得到待保全的两个分词结果；

取待保全的两个分词结果的并集并去除停用词，得到当前电子证据的标签；

将待保全的图像电子证据、当前电子证据的标签、待保全的文本电子证据、待保全的图像电子证据的哈希值和待保全的图像电子证据的存储地址保存至区块链中。

需要说明的是，根据用户的需求，用户输入待保全数据的文本电子证据和待保全数据的图像电子证据，使得该待保全数据的相关数据存储至区块链中，以便后续可以对待保全的文本电子证据和待保全的图像证据进行追溯。

场景一：

如图2为本申请实施例提供的电子证据的溯源方法的保全场景示意流程图所示，电子证据溯源流程以B公园点灯杆为例，用户上传待保全的文本电子证据T和待保全的图像电子证据I。通过图像描述生成器G为图像电子证据I生成图像描述文本D。公式如下：

（公式14）

通过文本分词器C分别为文本电子证据T和图像描述D分词得到分词结果W_T和W_D。公式如下：

（公式15）

取两个分词结果W_T和W_D的并集并去除停用词W_stop（如“的”、“了”等无意义词）作为该电子证据的标签Tag。公式如下：

（公式16）

将图像电子证据I原文件存储于文件服务器中，并保存电子证据标签Tag、文本电子证据T、图像电子证据I的哈希值和图像电子证据I的原文件存储地址至区块链中。

场景二：

图3为本申请实施例提供的电子证据的溯源方法的溯源场景示意流程图所示，用户输入想要溯源的电子证据相关的文本描述T及图像I。通过图像描述生成器G为图像电子证据I生成图像描述文本D。通过文本分词器C分别为文本电子证据T和图像描述文本D分词得到分词结果W_T和W_D，调用区块链上的智能合约SC，将去除停用词后的两个分词结果的并集W输入智能合约SC。智能合约SC通过文本匹配度算法对区块链中的所有电子证据E_All进行查询，对于每个电子证据E的标签Tag计算与分词结果W之间的匹配度S。返回所有已存储的电子证据中匹配度S大于预设的匹配度阈值θ的电子证据集合R。

场景三：

图4、图5、图6为本申请实施例提供的电子证据的溯源方法中分词示意图、图像描述示意图和智能合约示意图。为方便理解，对步骤S30、S20和S50带入场景的流程示意图。

基于上述实施例提供的电子证据的溯源方法，本申请实施例则提供一种执行上述电子证据的溯源的装置。该电子证据的溯源装置的结构示意图如图7所示，电子证据的溯源装置包括：

获取模块10，用于获取待追溯电子证据，其中所述电子证据包括图像电子证据和文本电子证据。

图像描述文本生成模块20，用于生成图像电子证据的图像描述文本。

分词模块30，用于将文本电子证据和图像描述文本分词，得到文本分词结果和图像描述分词结果。

分词结果合并模块40，用于将文本分词结果和图像描述分词结果合并为待追溯分词结果。

追溯模块50，用于通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果，公式如下：

（公式17）

其中，E_All为所有已存储的电子证据；E为当前查询的电子证据；Tag为已存储的电子证据的标签；θ为预设的匹配度阈值；W为待追溯分词结果；S为标签Tag与分词结果W之间的匹配度；R为追溯结果，即所有已存储的电子证据E_All中匹配度S大于预设的匹配度阈值θ的集合。

在一些具体实施例中，分词模块30，具体用于：

（公式18）

（公式19）

其中W_out和b_out是Softmax层的权重矩阵和偏置。

（公式20）

在一些具体实施例中，图像描述文本生成模块20，具体用于：

将图像I输入至预训练过的ResNet模型（不含最终的预测层）用于提取图像中的特征，输出图像特征向量V_img。表示如下：

（公式21）

（公式22）

（公式23）

（公式24）

对于每个时间步t，取预测概率最大值的字作为预测字D_t。公式如下：

（公式25）

最后拼接所有n个预测字得到图像描述文本D。公式如下：

（公式26）

在一些具体实施例中，追溯模块50，具体用于：

获得该电子证据的电子证据标签集合Tag。

将输入的分词结果集合W和电子证据标签集合Tag分别映射为词典中的ID向量。

通过中文预训练的BERT模型将W和Tag对应的词典ID向量转为词向量集合V_w和V_Tag。公式如下：

（公式27）

（公式28）

（公式29）

若匹配度S大于阈值θ则返回该电子证据。

在一些具体实施例中，追溯模块50，具体用于：

将得到的追溯结果按匹配度排序并结合业务系统生成电子证据溯源报告返回给用户；其中，电子证据溯源报告包含溯源图像、文本摘要、存证哈希、区块链地址、存证时间、存证地点、存证人、存证编号等信息。

在一些具体实施例中，本申请还包括：

文本描述及图像输入模块，用于用户输入待追溯的电子证据相关的文本描述及图像。

在一些具体实施例中，本申请还包括存储模块，具体用于：

用户上传待保全的文本电子证据和待保全的图像电子证据；

根据待保全的图像电子证据生成待保全的图像描述文本；

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言，由于其与实施例公开的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

以上对本申请所提供的方案进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的一般技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

1.一种电子证据的溯源方法，其特征在于，所述方法包括：

生成所述图像电子证据的图像描述文本；

通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果，公式如下：;

2.根据权利要求1所述的方法，其特征在于，所述文本电子证据和所述图像描述文本均通过以下方式分词：

获取每个字的预测概率最大值的分类作为分词标注；

根据每个字的分词标注对中文文本进行分割得到文本分词结果和图像描述分词结果。

3.根据权利要求1所述的方法，其特征在于，所述生成所述图像电子证据的图像描述文本，包括：

将所述图像特征向量输入至LSTM模型，得到初始上下文向量；

所述LSTM模型不断输入所述当前时间步对应的上下文向量，直至输出的上下文向量等于停止向量；其中，所述LSTM模型是一种基于循环神经网络的模型；

将预测概率最大的字作为上下文向量对应的预测字；

将所有预测字组合得到图像描述文本。

4.根据权利要求1所述的方法，其特征在于，所述通过文本匹配度算法对区块链中已存储的电子证据进行查询，包括：

调用智能合约，将去除停用词后的两个分词结果的并集W输入所述智能合约；

获取已存储的电子证据的标签；

将输入的所述两个分词结果和所述电子证据的标签分别映射为词典中的ID得到词典ID向量；

通过中文预训练的BERT模型将所述两个分词结果和所述电子证据的标签对应的词典ID向量转为词向量集合；其中，所述词向量集合包括分词结果向量集合和电子证据标签向量集合；

若区块链中所述已存储的电子证据的标签与所述两个分词结果之间的匹配度大于预设的匹配度阈值，则返回满足大于预设的匹配度阈值的电子证据作为追溯结果。

5.根据权利要求1所述的方法，其特征在于，所述返回追溯结果，包括：

6.根据权利要求1所述的方法，其特征在于，在所述获取待追溯电子证据前，还包括：

用户输入所述待追溯电子证据相关的文本描述及图像。

7.根据权利要求1-6任一项所述的方法，其特征在于，还包括：

用户上传待保全的文本电子证据和待保全的图像电子证据；

分别为所述待保全的文本电子证据和所述待保全的图像描述文本分词得到待保全的两个分词结果；

取所述待保全的两个分词结果的并集并去除停用词，得到当前电子证据的标签；

8.一种电子证据的溯源装置，其特征在于，所述装置包括：

追溯模块，用于通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果，公式如下：;

9.根据权利要求8所述的装置，其特征在于，所述分词模块，具体用于：

获取每个字的预测概率最大值的分类作为分词标注；

10.根据权利要求8所述的装置，其特征在于，所述图像描述文本生成模块，具体用于：

将所述图像特征向量输入至LSTM模型，得到初始上下文向量；

将预测概率最大的字作为上下文向量对应的预测字；

将所有预测字组合得到图像描述文本。