CN116452224A - 一种电子证据的溯源方法及装置 - Google Patents
一种电子证据的溯源方法及装置 Download PDFInfo
- Publication number
- CN116452224A CN116452224A CN202310729267.3A CN202310729267A CN116452224A CN 116452224 A CN116452224 A CN 116452224A CN 202310729267 A CN202310729267 A CN 202310729267A CN 116452224 A CN116452224 A CN 116452224A
- Authority
- CN
- China
- Prior art keywords
- electronic evidence
- word segmentation
- text
- image
- word
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 238000000034 method Methods 0.000 title claims abstract description 43
- 230000011218 segmentation Effects 0.000 claims abstract description 136
- 239000013598 vector Substances 0.000 claims description 127
- 238000013507 mapping Methods 0.000 claims description 10
- 230000000306 recurrent effect Effects 0.000 claims description 8
- 208000037170 Delayed Emergence from Anesthesia Diseases 0.000 claims description 6
- 238000013528 artificial neural network Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 6
- 238000003058 natural language processing Methods 0.000 claims description 6
- 238000012935 Averaging Methods 0.000 claims description 4
- 238000002372 labelling Methods 0.000 claims description 4
- 238000012163 sequencing technique Methods 0.000 claims description 4
- 238000010586 diagram Methods 0.000 description 9
- 238000005516 engineering process Methods 0.000 description 6
- 238000010276 construction Methods 0.000 description 5
- 238000004321 preservation Methods 0.000 description 5
- 230000008034 disappearance Effects 0.000 description 4
- 238000004880 explosion Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 230000001419 dependent effect Effects 0.000 description 2
- 238000013461 design Methods 0.000 description 2
- 230000000694 effects Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 238000003062 neural network model Methods 0.000 description 2
- 238000012549 training Methods 0.000 description 2
- 230000001133 acceleration Effects 0.000 description 1
- 230000008033 biological extinction Effects 0.000 description 1
- 230000007547 defect Effects 0.000 description 1
- 230000007812 deficiency Effects 0.000 description 1
- 230000006870 function Effects 0.000 description 1
- 238000007689 inspection Methods 0.000 description 1
- 238000012423 maintenance Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000000750 progressive effect Effects 0.000 description 1
- 230000009295 sperm incapacitation Effects 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q30/00—Commerce
- G06Q30/018—Certifying business or products
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q50/00—Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
- G06Q50/10—Services
- G06Q50/18—Legal services
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Business, Economics & Management (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Strategic Management (AREA)
- Evolutionary Computation (AREA)
- General Business, Economics & Management (AREA)
- Economics (AREA)
- Marketing (AREA)
- Tourism & Hospitality (AREA)
- Accounting & Taxation (AREA)
- Finance (AREA)
- Human Resources & Organizations (AREA)
- Entrepreneurship & Innovation (AREA)
- Technology Law (AREA)
- Development Economics (AREA)
- Probability & Statistics with Applications (AREA)
- Primary Health Care (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Computing Systems (AREA)
- Databases & Information Systems (AREA)
- Medical Informatics (AREA)
- Software Systems (AREA)
- Multimedia (AREA)
- Character Discrimination (AREA)
Abstract
本申请公开了一种电子证据的溯源方法及装置,可应用于区块链应用技术领域。该方法包括:获取待追溯电子证据,生成待追溯图像电子证据的图像描述文本;将文本电子证据和图像描述文本分词,得到文本分词结果和图像描述分词结果;将文本分词结果和图像描述分词结果合并为待追溯分词结果;通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果。可见,本申请方案在电子证据溯源时,通过智能合约计算区块链上电子证据的标签之间的余弦相似度作为匹配度的方式提高了溯源时的可靠性和准确度。并结合业务系统生成溯源报告的方式提高了溯源时电子证据信息的可信度和完整性。
Description
技术领域
本申请涉及区块链应用技术领域,尤其涉及一种电子证据的溯源方法及装置。
背景技术
随着数字内容的普及,电子证据的保全和溯源成为重要的问题。电子证据已经成为了很多司法和法律事务中不可或缺的一部分,包括但不限于合同、账单、照片、视频等等。然而在电网实际生产中,电子证据的安全性、完整性、可信度和可追溯性常常受到许多挑战,包括数据篡改、数据丢失、数据泄露等等。这些问题可能会影响电子证据的有效性和可靠性,甚至可能导致司法纠纷和法律风险。
目前,现有技术中的电子证据存证和验证方法及装置,一般通过查询区块链存证平台是否存储有待验证的电子证据对应的根哈希值,来判断该电子证据是否已经存储于区块链上。该方案仅仅采用了默克尔树,无法对电子证据进行描述和分析。在数据保全和溯源方面存在一定的局限性,验证过程相对简单,无法实现搜索功能,导致保全的电子证据缺乏可信度,并且无法被准确追溯到。由此,如何设计出一种准确对电子证据保全和追溯的方法成为本领域亟需解决的技术问题。
发明内容
有鉴于此,本申请实施例提供了一种电子证据的溯源方法及装置,旨在达到准确对电子证据保全和追溯的要求。
第一方面,本申请实施例提供了一种电子证据的溯源方法,该方法包括:
获取待追溯电子证据,其中所述电子证据包括图像电子证据和文本电子证据;
生成所述图像电子证据的图像描述文本;
将所述文本电子证据和所述图像描述文本分词,得到文本分词结果和图像描述分词结果;
将所述文本分词结果和所述图像描述分词结果合并为待追溯分词结果;
通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果,公式如下:
其中,EAll为所有已存储的电子证据;E为当前查询的电子证据;Tag为已存储的电子证据的标签;θ为预设的匹配度阈值;W为待追溯分词结果;SC表示对匹配度进行计算;S为标签Tag与分词结果W之间的匹配度;R为追溯结果,所述追溯结果为包含所有已存储的电子证据EAll中匹配度S大于预设的匹配度阈值θ的集合。
可选的,所述文本电子证据和所述图像描述文本均通过以下方式分词:
将中文文本分字,将每个字映射为字典中的ID得到字典ID向量;
将字典ID向量输入使用中文预训练的BERT模型进行编码得到上下文向量;其中,所述BERT模型是一种预训练的自然语言处理模型;
根据每个上下文向量得到每个字对应的四种标注的预测概率;
获取每个字的预测概率最大值的分类作为分词标注;
根据每个字的分词标注对中文文本进行分割得到分词结果。
可选的,所述生成所述图像电子证据的图像描述文本,包括:
将所述图像电子证据输入至预训练过的ResNet模型中提取图像特征,得到图像特征向量;其中,所述ResNet模型是一种利用残差块组成的深度学习网络架构;
将所述图像特征向量输入至LSTM模型,得到初始上下文向量;
根据时间步将所述初始上下文向量对应分开,并得到当前时间步对应的上下文向量在字典中所有字的预测概率;
LSTM模型不断输入所述当前时间步对应的上下文向量,直至输出的上下文向量等于停止向量;其中,所述LSTM模型是一种基于循环神经网络的模型;
将预测概率最大的字作为上下文向量对应的预测字;
将所有预测字组合得到图像描述文本。
可选的,所述通过文本匹配度算法对区块链中已存储的电子证据进行查询,包括:
调用智能合约,将去除停用词后的两个分词结果的并集W输入智能合约;
获取所述已存储的电子证据的标签;
将输入的两个所述分词结果和所述电子证据的标签分别映射为词典中的ID得到词典ID向量;
通过中文预训练的BERT模型将所述分词结果和所述电子证据的标签对应的词典ID向量转为词向量集合;其中,词向量集合包括分词结果向量集合和电子证据标签向量集合;
分别为所述分词结果向量集合和所述电子证据标签向量集合取平均值,得到分词结果平均向量和电子证据标签平均向量;
计算所述分词结果平均向量和所述电子证据标签平均向量之间的余弦相似度的绝对值作为两组分词的匹配度;
若区块链中所述已存储的电子证据的标签与所述分词结果之间的匹配度大于预设的匹配度阈值,则返回满足大于预设的匹配度阈值的电子证据作为追溯结果。
可选的,所述返回追溯结果,包括:
将得到的追溯结果按匹配度排序并结合业务系统生成电子证据溯源报告返回给用户;其中,所述电子证据溯源报告包含溯源图像、文本摘要、存证哈希、区块链地址、存证时间、存证地点、存证人和存证编号。
可选的,在所述获取待追溯电子证据前,还包括:
用户输入所述待追溯电子证据相关的文本描述及图像。
可选的,还包括:
用户上传待保全的文本电子证据和待保全的图像电子证据;
根据所述待保全的图像电子证据生成待保全的图像描述文本;
分别为所述待保全的文本电子证据和所述待保全的图像描述文本分词得到分词结果;
取两个分词结果的并集并去除停用词,得到当前电子证据的标签;
将所述待保全的图像电子证据、所述当前电子证据的标签、所述待保全的文本电子证据、所述待保全的图像电子证据的哈希值和所述待保全的图像电子证据的存储地址保存至区块链中。
第二方面,本申请实施例提供了一种电子证据的溯源装置,该装置包括:
获取模块,用于获取待追溯电子证据,其中所述电子证据包括图像电子证据和文本电子证据;
图像描述文本生成模块,用于生成所述图像电子证据的图像描述文本;
分词模块,用于将所述文本电子证据和所述图像描述文本分词,得到文本分词结果和图像描述分词结果;
分词结果合并模块,用于将所述文本分词结果和所述图像描述分词结果合并为待追溯分词结果;
追溯模块,用于通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果,公式如下:
其中,EAll为所有已存储的电子证据;E为当前查询的电子证据;Tag为已存储的电子证据的标签;θ为预设的匹配度阈值;W为待追溯分词结果;SC表示对匹配度进行计算;S为标签Tag与分词结果W之间的匹配度;R为追溯结果,所述追溯结果为包含所有已存储的电子证据EAll中匹配度S大于预设的匹配度阈值θ的集合。
可选的,所述分词模块,具体用于:
将中文文本分字,将每个字映射为字典中的ID得到字典ID向量;
将字典ID向量输入使用中文预训练的BERT模型进行编码得到上下文向量;其中,所述BERT模型是一种预训练的自然语言处理模型;
根据每个上下文向量得到每个字对应的四种标注的预测概率;
获取每个字的预测概率最大值的分类作为分词标注;
根据每个字的分词标注对中文文本进行分割得到分词结果。
可选的,所述图像描述文本生成模块,具体用于:
将所述图像电子证据输入至预训练过的ResNet模型中提取图像特征,得到图像特征向量;其中,所述ResNet模型是一种利用残差块组成的深度学习网络架构;
将所述图像特征向量输入至LSTM模型,得到初始上下文向量;
根据时间步将所述初始上下文向量对应分开,并得到当前时间步对应的上下文向量在字典中所有字的预测概率;
LSTM模型不断输入所述当前时间步对应的上下文向量,直至输出的上下文向量等于停止向量;其中,所述LSTM模型是一种基于循环神经网络的模型;
将预测概率最大的字作为上下文向量对应的预测字;
将所有预测字组合得到图像描述文本。
本申请实施例提供了一种电子证据的溯源方法,包括:获取待追溯电子证据,生成待追溯图像电子证据的图像描述文本;将文本电子证据和图像描述文本分词,得到文本分词结果和图像描述分词结果;将文本分词结果和图像描述分词结果合并为待追溯分词结果;通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果。可见,本申请方案在电子证据溯源时,通过智能合约计算区块链上电子证据的标签之间的余弦相似度作为匹配度的方式提高了溯源时的可靠性和准确度。并结合业务系统生成溯源报告的方式提高了溯源时电子证据信息的可信度和完整性。
此外,本申请还提供了一种电子证据的溯源装置,其技术效果与上述方法相对应,这里不再赘述。
附图说明
为更清楚地说明本实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的电子证据的溯源方法的一种方法流程图;
图2为本申请实施例提供的电子证据的溯源方法的保全场景示意流程图;
图3为本申请实施例提供的电子证据的溯源方法的溯源场景示意流程图;
图4为本申请实施例提供的电子证据的溯源方法中分词示意图;
图5为本申请实施例提供的电子证据的溯源方法中图像描述示意图;
图6为本申请实施例提供的电子证据的溯源方法中智能合约示意图;
图7为本申请实施例提供的电子证据的溯源装置的一种结构示意图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面结合附图和具体实施方式对本申请作进一步的详细说明。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着电网企业数字化转型升级的不断加速,电子化趋势越来越明显,但线上业务系统存证难、取证难、认定难、追溯难等问题逐渐突出。在电网企业的安全生产活动中,取证手段有限、证据效力不高以及传统司法鉴定服务不够便捷等问题也日益凸显。这些问题包括电子证据及时性、规范性不足、易篡改易灭失以及缺少可信的追溯方法。尤其是在基建和运检业务方面,更容易产生法律纠纷风险。若未能在初步设计阶段对线路通道影像记录、站址、塔位坐标进行取证和存证,可能会导致工程建设期间出现站址变化、线路路径重大改变、巨额索赔等重大问题。供电企业在处理法律纠纷时,也会因证据缺乏、采集不及时、效力瑕疵等原因导致举证不能和维权不力。因此,构建可信的电子证据保全和溯源体系十分重要。
随着区块链技术的出现,它成为了解决电子证据保全和溯源问题的有力工具。区块链是一种去中心化的、分布式的数据库,可以实现信息的不可篡改性和安全性。因此,区块链被广泛应用于电子证据保全和溯源领域,以确保电子证据的真实性和完整性。
除此之外,Image-Caption技术和分词技术也被应用于电子证据保全和溯源中。Image-Caption技术可以为图像生成对应的文本描述,使得图像可以通过文本进行描述和识别。而分词技术可以将文本进行拆分和标注,从而方便文本的溯源。
本申请实施例提供一种电子证据的溯源方法,该方法的方法流程图如图1所示,包括如下步骤:
S10,获取待追溯电子证据,其中所述电子证据包括图像电子证据和文本电子证据。
S20,生成图像电子证据的图像描述文本。
图像描述生成器基于Image-Caption技术,用来为一个图像生成图像描述文本。
S30,将文本电子证据和图像描述文本分词,得到文本分词结果和图像描述分词结果。
由于中文无法像英文一样直接通过空格来进行分词,所以文本分词器主要用于将输入的中文文本拆分为多个单词。例如,将文本“B公园电线杆因塔吊施工损坏”输入文本分词器将得到“B公园”、“电线杆”、“塔吊”、“施工”、“损坏”的中文单词集合。
S40,将文本分词结果和图像描述分词结果合并为待追溯分词结果。
智能合约用于计算由用户输入得到的分词结果集合和电子证据标签之间的匹配度,并返回匹配度大于阈值的所有电子证据。
S50,通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果,公式如下:
(公式1)
其中,EAll为所有已存储的电子证据;E为当前查询的电子证据;Tag为已存储的电子证据的标签;θ为预设的匹配度阈值;W为待追溯分词结果;SC表示对匹配度进行计算;S为标签Tag与分词结果W之间的匹配度;R为追溯结果,该追溯结果包含所有已存储的电子证据EAll中匹配度S大于预设的匹配度阈值θ的集合。
可见,本申请方案在电子证据溯源时,通过智能合约计算区块链上电子证据的标签之间的余弦相似度作为匹配度的方式提高了溯源时的可靠性和准确度。并结合业务系统生成溯源报告的方式提高了溯源时电子证据信息的可信度和完整性。
在一些具体实施例中,步骤S30,具体包括:
将中文文本分字,将每个字映射为字典中的ID得到字典ID向量I;
将字典ID向量I输入使用中文预训练的BERT模型进行编码得到上下文向量C,Ci表示第i个字对应的上下文向量。表示如下:
(公式2)
其中,BERT模型是一种预训练的自然语言处理模型,可以将单词映射为高维向量用于后续任务。
将每个上下文向量Ci输入到Softmax层得到每个字对应的四种标注(即B、M、E、S)的预测概率Pi。预测概率公式如下:
(公式3)
其中Wout和bout是Softmax层的权重矩阵和偏置。
取每个字的预测概率最大值的分类Wi作为分词标注,公式如下:
(公式4)
最后根据各个字的分词标注对中文文本T进行分割得到分词结果W。
在一些具体实施例中,步骤S20,具体包括:
将图像电子证据I输入至预训练过的ResNet模型(不含最终的预测层)提取图像特征,输出图像特征向量Vimg。表示如下:
(公式5)
其中,ResNet模型是一种利用残差块组成的深度学习网络架构,该架构能够防止传统卷积网络中梯度消失和梯度爆炸的问题,能用于训练较深的网络。
将图像特征向量Vimg输入至LSTM模型获得初始上下文向量H0。表示如下:
(公式6)
对于每个时间步t的上下文向量Ht,都通过一个Softmax层得到该上下文向量Ht在字典中所有字的预测概率Pt。预测公式如下:
(公式7)
其中Wout和bout是Softmax层的权重矩阵和偏置。下一个时间步t+1的上下文向量Ht+1取决于上一个时间步t的上下文向量Ht。公式如下:
(公式8)
LSTM不断输入当前时间步t的上下文向量Ht并输出下一个时间步t+1的上下文向量Ht+1,直至输出的上下文向量Ht+1等于停止向量。其中LSTM模型是一种基于循环神经网络的模型,能够解决传统的递归神经网络模型中梯度消失和梯度爆炸的问题。
对于每个时间步t,取预测概率最大的字作为上下文向量Ht对应的预测字Dt。公式如下:
(公式9)
最后拼接所有n个预测字得到图像描述文本D。公式如下:
(公式10)
在一些具体实施例中,步骤S50,具体包括:
调用智能合约,其中输入为将去除停用词后的两个分词结果的并集W输入智能合约;
获得已存储的电子证据的标签集合Tag。
将输入的两个分词结果集合W和电子证据标签集合Tag分别映射为词典中的ID得到词典ID向量。
通过中文预训练的BERT模型将W和Tag对应的词典ID向量转为词向量集合。其中,词向量集合包括分词结果向量集合Vw和电子证据标签向量集合VTag。公式如下:
(公式11)
分别为长度为n的分词结果向量集合VW和长度为m的电子证据标签向量集合VTag取平均值得到各自的平均向量AvgW和AvgTag。公式如下:
(公式12)
计算两组分词结果的平均向量AVGW和AVGTag之间的余弦相似度的绝对值作为两组分词的匹配度S。公式如下:
(公式13)
匹配度S的值位于0到1之间,值越接近1则认为这两组分词集合之间的相似度越大,相关性越高。
若区块链中已存储的电子证据的标签与分词结果之间的匹配度S大于预设的匹配度阈值θ,则返回该满足大于预设的匹配度阈值的电子证据作为追溯结果。
在一些具体实施例中,步骤S50,具体包括:将得到的追溯结果按匹配度排序并结合业务系统生成电子证据溯源报告返回给用户;其中,电子证据溯源报告包含溯源图像、文本摘要、存证哈希、区块链地址、存证时间、存证地点、存证人和存证编号等信息。
在一些具体实施例中,本申请还包括:
用户输入待追溯电子证据相关的文本描述及图像。
在一些具体实施例中,本申请还包括:
用户上传待保全的文本电子证据和待保全的图像电子证据;
根据待保全的图像电子证据生成待保全的图像描述文本;
分别为待保全的文本电子证据和待保全的图像描述文本分词得到待保全的两个分词结果;
取待保全的两个分词结果的并集并去除停用词,得到当前电子证据的标签;
将待保全的图像电子证据、当前电子证据的标签、待保全的文本电子证据、待保全的图像电子证据的哈希值和待保全的图像电子证据的存储地址保存至区块链中。
需要说明的是,根据用户的需求,用户输入待保全数据的文本电子证据和待保全数据的图像电子证据,使得该待保全数据的相关数据存储至区块链中,以便后续可以对待保全的文本电子证据和待保全的图像证据进行追溯。
场景一:
如图2为本申请实施例提供的电子证据的溯源方法的保全场景示意流程图所示,电子证据溯源流程以B公园点灯杆为例,用户上传待保全的文本电子证据T和待保全的图像电子证据I。通过图像描述生成器G为图像电子证据I生成图像描述文本D。公式如下:
(公式14)
通过文本分词器C分别为文本电子证据T和图像描述D分词得到分词结果WT和WD。公式如下:
(公式15)
取两个分词结果WT和WD的并集并去除停用词Wstop(如“的”、“了”等无意义词)作为该电子证据的标签Tag。公式如下:
(公式16)
将图像电子证据I原文件存储于文件服务器中,并保存电子证据标签Tag、文本电子证据T、图像电子证据I的哈希值和图像电子证据I的原文件存储地址至区块链中。
场景二:
图3为本申请实施例提供的电子证据的溯源方法的溯源场景示意流程图所示,用户输入想要溯源的电子证据相关的文本描述T及图像I。通过图像描述生成器G为图像电子证据I生成图像描述文本D。通过文本分词器C分别为文本电子证据T和图像描述文本D分词得到分词结果WT和WD,调用区块链上的智能合约SC,将去除停用词后的两个分词结果的并集W输入智能合约SC。智能合约SC通过文本匹配度算法对区块链中的所有电子证据EAll进行查询,对于每个电子证据E的标签Tag计算与分词结果W之间的匹配度S。返回所有已存储的电子证据中匹配度S大于预设的匹配度阈值θ的电子证据集合R。
场景三:
图4、图5、图6为本申请实施例提供的电子证据的溯源方法中分词示意图、图像描述示意图和智能合约示意图。为方便理解,对步骤S30、S20和S50带入场景的流程示意图。
基于上述实施例提供的电子证据的溯源方法,本申请实施例则提供一种执行上述电子证据的溯源的装置。该电子证据的溯源装置的结构示意图如图7所示,电子证据的溯源装置包括:
获取模块10,用于获取待追溯电子证据,其中所述电子证据包括图像电子证据和文本电子证据。
图像描述文本生成模块20,用于生成图像电子证据的图像描述文本。
图像描述生成器基于Image-Caption技术,用来为一个图像生成图像描述文本。
分词模块30,用于将文本电子证据和图像描述文本分词,得到文本分词结果和图像描述分词结果。
由于中文无法像英文一样直接通过空格来进行分词,所以文本分词器主要用于将输入的中文文本拆分为多个单词。例如,将文本“B公园电线杆因塔吊施工损坏”输入文本分词器将得到“B公园”、“电线杆”、“塔吊”、“施工”、“损坏”的中文单词集合。
分词结果合并模块40,用于将文本分词结果和图像描述分词结果合并为待追溯分词结果。
智能合约用于计算由用户输入得到的分词结果集合和电子证据标签之间的匹配度,并返回匹配度大于阈值的所有电子证据。
追溯模块50,用于通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果,公式如下:
(公式17)
其中,EAll为所有已存储的电子证据;E为当前查询的电子证据;Tag为已存储的电子证据的标签;θ为预设的匹配度阈值;W为待追溯分词结果;S为标签Tag与分词结果W之间的匹配度;R为追溯结果,即所有已存储的电子证据EAll中匹配度S大于预设的匹配度阈值θ的集合。
可见,本申请方案在电子证据溯源时,通过智能合约计算区块链上电子证据的标签之间的余弦相似度作为匹配度的方式提高了溯源时的可靠性和准确度。并结合业务系统生成溯源报告的方式提高了溯源时电子证据信息的可信度和完整性。
在一些具体实施例中,分词模块30,具体用于:
将中文文本分字,将每个字映射为字典中的ID得到字典ID向量I;
将字典ID向量I输入使用中文预训练的BERT模型进行编码得到上下文向量C,Ci表示第i个字对应的上下文向量。表示如下:
(公式18)
其中,BERT模型是一种预训练的自然语言处理模型,可以将单词映射为高维向量用于后续任务。
将每个上下文向量Ci输入到Softmax层得到每个字对应的四种标注(即B、M、E、S)的预测概率Pi。预测概率公式如下:
(公式19)
其中Wout和bout是Softmax层的权重矩阵和偏置。
取每个字的预测概率最大值的分类Wi作为分词标注,公式如下:
(公式20)
最后根据各个字的分词标注对中文文本T进行分割得到分词结果W。
在一些具体实施例中,图像描述文本生成模块20,具体用于:
将图像I输入至预训练过的ResNet模型(不含最终的预测层)用于提取图像中的特征,输出图像特征向量Vimg。表示如下:
(公式21)
其中,ResNet模型是一种利用残差块组成的深度学习网络架构,该架构能够防止传统卷积网络中梯度消失和梯度爆炸的问题,能用于训练较深的网络。
将图像特征向量Vimg输入至LSTM模型获得初始上下文向量H0。表示如下:
(公式22)
对于每个时间步t的上下文向量Ht,都通过一个Softmax层得到该上下文向量Ht在字典中所有字的预测概率Pt。预测公式如下:
(公式23)
其中Wout和bout是Softmax层的权重矩阵和偏置。下一个时间步t+1的上下文向量Ht+1取决于上一个时间步t的上下文向量Ht。公式如下:
(公式24)
LSTM不断输入当前时间步t的上下文向量Ht并输出下一个时间步t+1的上下文向量Ht+1,直至输出的上下文向量Ht+1等于停止向量。其中LSTM模型是一种基于循环神经网络的模型,能够解决传统的递归神经网络模型中梯度消失和梯度爆炸的问题。
对于每个时间步t,取预测概率最大值的字作为预测字Dt。公式如下:
(公式25)
最后拼接所有n个预测字得到图像描述文本D。公式如下:
(公式26)
在一些具体实施例中,追溯模块50,具体用于:
获得该电子证据的电子证据标签集合Tag。
将输入的分词结果集合W和电子证据标签集合Tag分别映射为词典中的ID向量。
通过中文预训练的BERT模型将W和Tag对应的词典ID向量转为词向量集合Vw和VTag。公式如下:
(公式27)
分别为长度为n的分词结果向量集合VW和长度为m的电子证据标签向量集合VTag取平均值得到各自的平均向量AvgW和AvgTag。公式如下:
(公式28)
计算两组分词结果的平均向量AVGW和AVGTag之间的余弦相似度的绝对值作为两组分词的匹配度S。公式如下:
(公式29)
匹配度S的值位于0到1之间,值越接近1则认为这两组分词集合之间的相似度越大,相关性越高。
若匹配度S大于阈值θ则返回该电子证据。
在一些具体实施例中,追溯模块50,具体用于:
将得到的追溯结果按匹配度排序并结合业务系统生成电子证据溯源报告返回给用户;其中,电子证据溯源报告包含溯源图像、文本摘要、存证哈希、区块链地址、存证时间、存证地点、存证人、存证编号等信息。
在一些具体实施例中,本申请还包括:
文本描述及图像输入模块,用于用户输入待追溯的电子证据相关的文本描述及图像。
在一些具体实施例中,本申请还包括存储模块,具体用于:
用户上传待保全的文本电子证据和待保全的图像电子证据;
根据待保全的图像电子证据生成待保全的图像描述文本;
分别为待保全的文本电子证据和待保全的图像描述文本分词得到待保全的两个分词结果;
取待保全的两个分词结果的并集并去除停用词,得到当前电子证据的标签;
将待保全的图像电子证据、当前电子证据的标签、待保全的文本电子证据、待保全的图像电子证据的哈希值和待保全的图像电子证据的存储地址保存至区块链中。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
以上对本申请所提供的方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。
Claims (10)
1.一种电子证据的溯源方法,其特征在于,所述方法包括:
获取待追溯电子证据,其中所述电子证据包括图像电子证据和文本电子证据;
生成所述图像电子证据的图像描述文本;
将所述文本电子证据和所述图像描述文本分词,得到文本分词结果和图像描述分词结果;
将所述文本分词结果和所述图像描述分词结果合并为待追溯分词结果;
通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果,公式如下:;
其中,EAll为所有已存储的电子证据;E为当前查询的电子证据;Tag为已存储的电子证据的标签;θ为预设的匹配度阈值;W为待追溯分词结果;SC表示对匹配度进行计算;S为标签Tag与分词结果W之间的匹配度;R为追溯结果,所述追溯结果为包含所有已存储的电子证据EAll中匹配度S大于预设的匹配度阈值θ的集合。
2.根据权利要求1所述的方法,其特征在于,所述文本电子证据和所述图像描述文本均通过以下方式分词:
将中文文本分字,将每个字映射为字典中的ID得到字典ID向量;
将字典ID向量输入使用中文预训练的BERT模型进行编码得到上下文向量;其中,所述BERT模型是一种预训练的自然语言处理模型;
根据每个上下文向量得到每个字对应的四种标注的预测概率;
获取每个字的预测概率最大值的分类作为分词标注;
根据每个字的分词标注对中文文本进行分割得到文本分词结果和图像描述分词结果。
3.根据权利要求1所述的方法,其特征在于,所述生成所述图像电子证据的图像描述文本,包括:
将所述图像电子证据输入至预训练过的ResNet模型中提取图像特征,得到图像特征向量;其中,所述ResNet模型是一种利用残差块组成的深度学习网络架构;
将所述图像特征向量输入至LSTM模型,得到初始上下文向量;
根据时间步将所述初始上下文向量对应分开,并得到当前时间步对应的上下文向量在字典中所有字的预测概率;
所述LSTM模型不断输入所述当前时间步对应的上下文向量,直至输出的上下文向量等于停止向量;其中,所述LSTM模型是一种基于循环神经网络的模型;
将预测概率最大的字作为上下文向量对应的预测字;
将所有预测字组合得到图像描述文本。
4.根据权利要求1所述的方法,其特征在于,所述通过文本匹配度算法对区块链中已存储的电子证据进行查询,包括:
调用智能合约,将去除停用词后的两个分词结果的并集W输入所述智能合约;
获取已存储的电子证据的标签;
将输入的所述两个分词结果和所述电子证据的标签分别映射为词典中的ID得到词典ID向量;
通过中文预训练的BERT模型将所述两个分词结果和所述电子证据的标签对应的词典ID向量转为词向量集合;其中,所述词向量集合包括分词结果向量集合和电子证据标签向量集合;
分别为所述分词结果向量集合和所述电子证据标签向量集合取平均值,得到分词结果平均向量和电子证据标签平均向量;
计算所述分词结果平均向量和所述电子证据标签平均向量之间的余弦相似度的绝对值作为两组分词的匹配度;
若区块链中所述已存储的电子证据的标签与所述两个分词结果之间的匹配度大于预设的匹配度阈值,则返回满足大于预设的匹配度阈值的电子证据作为追溯结果。
5.根据权利要求1所述的方法,其特征在于,所述返回追溯结果,包括:
将得到的追溯结果按匹配度排序并结合业务系统生成电子证据溯源报告返回给用户;其中,所述电子证据溯源报告包含溯源图像、文本摘要、存证哈希、区块链地址、存证时间、存证地点、存证人和存证编号。
6.根据权利要求1所述的方法,其特征在于,在所述获取待追溯电子证据前,还包括:
用户输入所述待追溯电子证据相关的文本描述及图像。
7.根据权利要求1-6任一项所述的方法,其特征在于,还包括:
用户上传待保全的文本电子证据和待保全的图像电子证据;
根据所述待保全的图像电子证据生成待保全的图像描述文本;
分别为所述待保全的文本电子证据和所述待保全的图像描述文本分词得到待保全的两个分词结果;
取所述待保全的两个分词结果的并集并去除停用词,得到当前电子证据的标签;
将所述待保全的图像电子证据、所述当前电子证据的标签、所述待保全的文本电子证据、所述待保全的图像电子证据的哈希值和所述待保全的图像电子证据的存储地址保存至区块链中。
8.一种电子证据的溯源装置,其特征在于,所述装置包括:
获取模块,用于获取待追溯电子证据,其中所述电子证据包括图像电子证据和文本电子证据;
图像描述文本生成模块,用于生成所述图像电子证据的图像描述文本;
分词模块,用于将所述文本电子证据和所述图像描述文本分词,得到文本分词结果和图像描述分词结果;
分词结果合并模块,用于将所述文本分词结果和所述图像描述分词结果合并为待追溯分词结果;
追溯模块,用于通过文本匹配度算法对区块链中已存储的电子证据进行查询并返回追溯结果,公式如下:;
其中,EAll为所有已存储的电子证据;E为当前查询的电子证据;Tag为已存储的电子证据的标签;θ为预设的匹配度阈值;W为待追溯分词结果;SC表示对匹配度进行计算;S为标签Tag与分词结果W之间的匹配度;R为追溯结果,所述追溯结果为包含所有已存储的电子证据EAll中匹配度S大于预设的匹配度阈值θ的集合。
9.根据权利要求8所述的装置,其特征在于,所述分词模块,具体用于:
将中文文本分字,将每个字映射为字典中的ID得到字典ID向量;
将字典ID向量输入使用中文预训练的BERT模型进行编码得到上下文向量;其中,所述BERT模型是一种预训练的自然语言处理模型;
根据每个上下文向量得到每个字对应的四种标注的预测概率;
获取每个字的预测概率最大值的分类作为分词标注;
根据每个字的分词标注对中文文本进行分割得到文本分词结果和图像描述分词结果。
10.根据权利要求8所述的装置,其特征在于,所述图像描述文本生成模块,具体用于:
将所述图像电子证据输入至预训练过的ResNet模型中提取图像特征,得到图像特征向量;其中,所述ResNet模型是一种利用残差块组成的深度学习网络架构;
将所述图像特征向量输入至LSTM模型,得到初始上下文向量;
根据时间步将所述初始上下文向量对应分开,并得到当前时间步对应的上下文向量在字典中所有字的预测概率;
所述LSTM模型不断输入所述当前时间步对应的上下文向量,直至输出的上下文向量等于停止向量;其中,所述LSTM模型是一种基于循环神经网络的模型;
将预测概率最大的字作为上下文向量对应的预测字;
将所有预测字组合得到图像描述文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310729267.3A CN116452224B (zh) | 2023-06-19 | 2023-06-19 | 一种电子证据的溯源方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202310729267.3A CN116452224B (zh) | 2023-06-19 | 2023-06-19 | 一种电子证据的溯源方法及装置 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN116452224A true CN116452224A (zh) | 2023-07-18 |
CN116452224B CN116452224B (zh) | 2023-08-29 |
Family
ID=87136037
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202310729267.3A Active CN116452224B (zh) | 2023-06-19 | 2023-06-19 | 一种电子证据的溯源方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116452224B (zh) |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
CN108647531A (zh) * | 2018-05-09 | 2018-10-12 | 杭州安存网络科技有限公司 | 一种互联网法院电子证据池的管理系统 |
CN110851879A (zh) * | 2020-01-15 | 2020-02-28 | 支付宝(杭州)信息技术有限公司 | 一种基于存证区块链的侵权存证方法、装置及设备 |
CN113779355A (zh) * | 2021-08-18 | 2021-12-10 | 中国人民解放军战略支援部队信息工程大学 | 基于区块链的网络谣言溯源取证方法及系统 |
CN113918895A (zh) * | 2021-10-25 | 2022-01-11 | 成都安恒信息技术有限公司 | 一种文本文档溯源追踪的方法 |
-
2023
- 2023-06-19 CN CN202310729267.3A patent/CN116452224B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20180232443A1 (en) * | 2017-02-16 | 2018-08-16 | Globality, Inc. | Intelligent matching system with ontology-aided relation extraction |
CN108647531A (zh) * | 2018-05-09 | 2018-10-12 | 杭州安存网络科技有限公司 | 一种互联网法院电子证据池的管理系统 |
CN110851879A (zh) * | 2020-01-15 | 2020-02-28 | 支付宝(杭州)信息技术有限公司 | 一种基于存证区块链的侵权存证方法、装置及设备 |
CN113779355A (zh) * | 2021-08-18 | 2021-12-10 | 中国人民解放军战略支援部队信息工程大学 | 基于区块链的网络谣言溯源取证方法及系统 |
CN113918895A (zh) * | 2021-10-25 | 2022-01-11 | 成都安恒信息技术有限公司 | 一种文本文档溯源追踪的方法 |
Non-Patent Citations (1)
Title |
---|
王芳;赵洪;: "数据溯源研究与实践进展", 情报学进展, no. 00 * |
Also Published As
Publication number | Publication date |
---|---|
CN116452224B (zh) | 2023-08-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110598019B (zh) | 重复图像识别方法及装置 | |
CN113221890A (zh) | 一种基于ocr的云手机文字内容监管方法和系统和系统 | |
CN114662497A (zh) | 一种基于协同神经网络的虚假新闻检测方法 | |
CN115544303A (zh) | 用于确定视频的标签的方法、装置、设备及介质 | |
CN112069498A (zh) | 一种sql注入检测模型构建方法及检测方法 | |
CN114077841A (zh) | 基于人工智能的语义提取方法、装置、电子设备及介质 | |
CN114420107A (zh) | 基于非自回归模型的语音识别方法及相关设备 | |
CN115659175A (zh) | 一种面向微服务资源的多模态数据分析方法、装置及介质 | |
CN113705192B (zh) | 文本处理方法、装置与存储介质 | |
CN114491006A (zh) | 参考多模态信息的文本摘要生成方法、电子设备及介质 | |
CN114519293A (zh) | 基于小样本机器学习模型的电缆本体故障识别方法 | |
CN116452224B (zh) | 一种电子证据的溯源方法及装置 | |
CN112270205A (zh) | 一种案件侦查方法及装置 | |
CN117407875A (zh) | 一种恶意代码分类方法、系统及电子设备 | |
CN116246287B (zh) | 目标对象识别方法、训练方法、装置以及存储介质 | |
CN111401069A (zh) | 会话文本的意图识别方法、意图识别装置及终端 | |
CN105160229A (zh) | 一种具有语音和指纹双重鉴权的单兵系统 | |
CN115496134A (zh) | 基于多模态特征融合的交通场景视频描述生成方法和装置 | |
Chen et al. | A Multi-Dimensional Attention Feature FusionMethod for Pedestrian Re-identification. | |
Tang et al. | Towards training-free open-world segmentation via image prompting foundation models | |
Jieying et al. | Electronic Evidence Preservation and Traceability Method Based on Blockchain Smart Contract | |
CN116975298B (zh) | 一种基于nlp的现代化社会治理调度系统及方法 | |
Gao et al. | Intelligent appearance quality detection of air conditioner external unit and dataset construction | |
CN117435739B (zh) | 图像文本分类的方法及装置 | |
CN115205757B (zh) | 风险识别方法、装置、设备和存储介质 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |