CN117312833B - 一种应用于数字资产环境中的数据识别方法及系统 - Google Patents

一种应用于数字资产环境中的数据识别方法及系统 Download PDF

Info

Publication number
CN117312833B
CN117312833B CN202311613462.6A CN202311613462A CN117312833B CN 117312833 B CN117312833 B CN 117312833B CN 202311613462 A CN202311613462 A CN 202311613462A CN 117312833 B CN117312833 B CN 117312833B
Authority
CN
China
Prior art keywords
data
identified
destruction
original
content
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202311613462.6A
Other languages
English (en)
Other versions
CN117312833A (zh
Inventor
薛馨枫
陈轶欧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Cssca Technologies Co ltd
Original Assignee
Beijing Cssca Technologies Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Cssca Technologies Co ltd filed Critical Beijing Cssca Technologies Co ltd
Priority to CN202311613462.6A priority Critical patent/CN117312833B/zh
Publication of CN117312833A publication Critical patent/CN117312833A/zh
Application granted granted Critical
Publication of CN117312833B publication Critical patent/CN117312833B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L63/00Network architectures or network communication protocols for network security
    • H04L63/12Applying verification of the received information
    • H04L63/126Applying verification of the received information the source of the received data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Computer Security & Cryptography (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Biomedical Technology (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Storage Device Security (AREA)

Abstract

本申请公开了一种应用于数字资产环境中的数据识别方法及系统。通过应用本申请的技术方案,可以在得到某个数据内容被破坏的受损数据后,从该数据的来源方判断该数据受到了哪一种破坏类型的破坏行为,并针对性的选取与该破坏类型相匹配的数据识别模型来对该数据的数据特征进行识别,从而根据识别结果得到预先为该受损数据对应的原始数据相关联的数据ID,并以此确定该受损数据对应的原始数据。

Description

一种应用于数字资产环境中的数据识别方法及系统
技术领域
本申请中涉及数字资产环境技术,尤其是一种应用于数字资产环境中的数据识别方法及系统。
背景技术
在数字资产环境下,数据作为生产资料,其数值和分析报告对业务具有指导意义。除此之外,数据还要在生产、存储、交易、流通、交付、加工处理、可视化等环节保证其自身的可管理和安全性。
相关技术中,数据经常会在实际应用过程中被进行不同程度的处理,比如版本升级、修正(增改删)内容、裁剪和扩展等操作,而这都会使得数据内容的完整性遭到破坏。除此之外,还有一些恶意修改数据的用户,其目的是想去掉数据中的关键内容信息,以避免被业务平台追踪到该数据。
可以理解的,以上两种数据内容被有意或无意破坏的方式都有可能导致业务平台对该数据的识别出现错误,进而出现无法对数据进行追踪溯源的弊端。因此,如何设计一种对数据内容被破坏的受损数据进行识别的方法,成为了本领域技术人员需要解决的问题。
发明内容
本申请实施例提供一种应用于数字资产环境中的数据识别方法及系统。从而解决相关技术中出现的,无法对数据内容被破坏的受损数据进行识别的问题。
其中,根据本申请实施例的一个方面,提供的一种应用于数字资产环境中的数据识别方法,包括:
在数字资产环境中获取到数据内容被破坏的待识别数据后,检测所述待识别数据对应的数据来源信息;
基于所述数据来源信息,确定所述待识别数据的数据破坏类型,并选取与所述数据破坏类型相匹配的数据识别模型,所述数据识别模型为预先训练完毕的,能够识别具备所述数据破坏类型的数据的模型;
利用所述数据识别模型识别所述待识别数据的数据特征,得到与所述待识别数据相匹配的数据ID,其中所述数据ID为预先为原始数据相关联的数据ID,所述原始数据为所述待识别数据的数据内容被破坏之前的数据;
基于所述数据ID,得到与所述待识别数据相匹配的所述原始数据。
可选地,在基于本申请上述方法的另一个实施例中,述基于所述数据来源信息,确定所述待识别数据的数据破坏类型,包括:
获取历史数据记录中记录的,与所述数据来源信息相关联的历史破坏行为,所述历史破坏行为包括数据属性破坏、数据内容破坏、数据标识破坏、数据版本破坏的其中至少一种;
基于所述历史破坏行为,确定所述待识别数据的数据破坏类型。
可选地,在基于本申请上述方法的另一个实施例中,所述利用所述数据识别模型识别所述待识别数据的数据特征,得到与所述待识别数据相匹配的数据ID,包括:
提取所述待识别数据的数据特征矩阵,其中所述数据特征矩阵中包含全局特征以及内容特征,所述全局特征用于反映所述待识别数据的全局信息,所述内容特征用于反映所述待识别数据的细节信息;
将所述数据特征矩阵输入到所述数据识别模型中,得到所述数据识别模型输出的所述数据ID结果。
可选地,在基于本申请上述方法的另一个实施例中,所述基于所述数据ID,得到与所述待识别数据相匹配的所述原始数据,包括:
获取数据资产登记库中存储的登记数据资产,其中所述登记数据资产中记录有多个关联关系,每个关联关系包括一个数据ID与对应的一个原始数据;
从所述登记数据资产中,选取与所述数据ID相匹配的目标关联关系,并将所述目标关联关系包括的原始数据作为所述原始数据。
可选地,在基于本申请上述方法的另一个实施例中,所述在获取到数据内容被破坏的待识别数据之前,还包括:
获取多个原始数据,并为每一个原始数据建立唯一的数据ID;以及,
对每个原始数据的数据内容进行不同破坏行为的破坏,得到对应的多个具备不同数据破坏类型的训练样本数据,其中所述破坏行为包括数据属性破坏、数据内容破坏、数据标识破坏、数据版本破坏的其中至少一种;
利用所述训练样本数据以及对应的数据ID,训练得到所述数据识别模型。
可选地,在基于本申请上述方法的另一个实施例中,所述利用所述训练样本数据以及对应的数据ID,训练得到所述数据识别模型,还包括:
获取所属于同一个数据破坏类型的训练样本数据;
提取各个训练样本数据的样本数据特征矩阵,其中所述样本数据特征矩阵中包含样本全局特征以及样本内容特征,所述样本全局特征用于反映所述训练样本数据的全局信息,所述样本内容特征用于反映所述训练样本数据的细节信息;
利用各个训练样本数据的样本数据特征矩阵以及对应的数据ID,对初始的数据模型进行训练,直至生成训练完毕的所述数据识别模型。
可选地,在基于本申请上述方法的另一个实施例中,所述数据ID由数字序号,时间戳以及字符串的至少一种组成。
其中,根据本申请实施例的又一个方面,提供的一种应用于数字资产环境中的数据识别系统,包括:
获取模块,被配置为在数字资产环境中获取到数据内容被破坏的待识别数据后,检测所述待识别数据对应的数据来源信息;
确定模块,被配置为基于所述数据来源信息,确定所述待识别数据的数据破坏类型,并选取与所述数据破坏类型相匹配的数据识别模型,所述数据识别模型为预先训练完毕的,能够识别具备所述数据破坏类型的数据的模型;
识别模块,被配置为利用所述数据识别模型识别所述待识别数据的数据特征,得到与所述待识别数据相匹配的数据ID,其中所述数据ID为预先为原始数据相关联的数据ID,所述原始数据为所述待识别数据的数据内容被破坏之前的数据;
生成模块,被配置为基于所述数据ID,得到与所述待识别数据相匹配的所述原始数据。
根据本申请实施例的又一个方面,提供的一种电子设备,包括:
存储器,用于存储可执行指令;以及
显示器,用于与所述存储器执行所述可执行指令从而完成上述任一所述一种应用于数字资产环境中的数据识别方法的操作。
根据本申请实施例的还一个方面,提供的一种计算机可读存储介质,用于存储计算机可读取的指令,所述指令被执行时执行上述任一所述一种应用于数字资产环境中的数据识别方法的操作。
本申请中,在数字资产环境中获取到数据内容被破坏的待识别数据后,检测待识别数据对应的数据来源信息,数据来源信息用于表征待识别数据对应的数据来源地与数据生产方;基于数据来源信息,确定待识别数据的数据破坏类型,并选取与数据破坏类型相匹配的数据识别模型,数据识别模型为预先训练完毕的,能够识别具备数据破坏类型的数据的模型;利用数据识别模型识别待识别数据的数据特征,得到与待识别数据相匹配的数据ID,其中数据ID为预先为原始数据相关联的数据ID,原始数据为待识别数据的数据内容被破坏之前的数字资产环境中的数据;基于数据ID,得到与待识别数据相匹配的原始数据。
通过应用本申请的技术方案,可以在得到某个数据内容被破坏的受损数据后,从该数据的来源方判断该数据受到了哪一种破坏类型的破坏行为,并针对性的选取与该破坏类型相匹配的数据识别模型来对该数据的数据特征进行识别,从而根据识别结果得到预先为该受损数据对应的原始数据相关联的数据ID,并以此确定该受损数据对应的原始数据。
从而一方面避免了相关技术中出现的,无法对数据内容被破坏的受损数据进行识别的问题。另一方面通过预先为数字资产环境中的每一个数据建立数据ID与对应数据特征矩阵之间关联关系的方式,也可以避免当传统数据标识遭到清除后便无法对其进行溯源最终的问题。
下面通过附图和实施例,对本申请的技术方案做进一步的详细描述。
附图说明
构成说明书的一部分的附图描述了本申请的实施例,并且连同描述一起用于解释本申请的原理。
参照附图,根据下面的详细描述,可以更加清楚地理解本申请,其中:
图1为本申请提出的一种应用于数字资产环境中的数据识别方法的示意图;
图2为本申请提出的一种应用于数字资产环境中的数据识别方法的整体流程图;
图3为本申请提出的一种应用于数字资产环境中的关联关系的示意图;
图4为本申请提出的应用于数字资产环境中的数据识别系统的结构示意图;
图5为本申请提出的电子设备的结构示意图。
具体实施方式
现在将参照附图来详细描述本申请的各种示例性实施例。应注意到:除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本申请的范围。
同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
以下对至少一个示例性实施例的描述实际上仅仅是说明性的,不作为对本申请及其应用或使用的任何限制。
对于相关领域普通技术人员已知的技术、系统和设备可能不作详细讨论,但在适当情况下,所述技术、系统和设备应当被视为说明书的一部分。
应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
另外,本申请各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本申请要求的保护范围之内。
需要说明的是,本申请实施例中所有方向性指示(诸如上、下、左、右、前、后……)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
下面结合图1-图3来描述根据本申请示例性实施方式的用于进行一种应用于数字资产环境中的数据识别方法。需要注意的是,下述应用场景仅是为了便于理解本申请的精神和原理而示出,本申请的实施方式在此方面不受任何限制。相反,本申请的实施方式可以应用于适用的任何场景。
本申请还提出一种应用于数字资产环境中的数据识别方法及系统。
图1示意性地示出了根据本申请实施方式的一种应用于数字资产环境中的数据识别方法的流程示意图。如图1所示,包括:
S101,在数字资产环境中获取到数据内容被破坏的待识别数据后,检测待识别数据对应的数据来源信息。
S102,基于数据来源信息,确定待识别数据的数据破坏类型,并选取与数据破坏类型相匹配的数据识别模型,数据识别模型为预先训练完毕的,能够识别具备数据破坏类型的数据的模型。
S103,利用数据识别模型识别待识别数据的数据特征,得到与待识别数据相匹配的数据ID,其中数据ID为预先为原始数据相关联的数据ID,原始数据为待识别数据的数据内容被破坏之前的数据。
S104,基于数据ID,得到与待识别数据相匹配的原始数据。
一种方式中,本申请实施例提出的数字资产环境可以为数字货币环境、NFT环境、传统数据分级分类环境、数字版权环境、数据资产发现环境、数字索引环境、数字管控环境、数字溯源环境等等。
相关技术中,在大数据时代,数据作为生产资料,其数值和分析报告对业务具有指导意义。除此之外,数据还要在特定的数字环境中对其进行生产、存储、交易、流通、交付、加工处理、可视化等环节,以保证其自身的可管理和安全性。
可以理解的,数据的安全来自多方面的威胁,因此保持其一致性和完整性是重要的工作。但当数据失去一致性和完整性后,仍然需要进行管理,如数据被破坏后的识别工作。
对于数据被破坏的一方面过程来说,由于数据在应用过程中会进行不同程度的处理,比如版本升级、修正(增改删)内容、裁剪和扩展等操作,这些都会造成数据的完整性遭到破坏。
对于数据被破坏的另一方面过程来说,还会有一些恶意用户修改数据的情况,例如其想去掉数据内容中的版权信息,所以将数据抽取成残片模式。这也导致数据内容虽然大部分存在,但其中的版权标识已经被删除,进而导致业务平台无法找到该数据的原始信息。
基于上述问题,本申请提出一种应用于数字资产环境中的数据识别方法,其能够在得到某个数据内容被破坏的受损数据后,从该数据的来源方判断该数据受到了哪一种破坏类型的破坏行为,并针对性的选取与该破坏类型相匹配的数据识别模型来对该数据的数据特征进行识别,从而根据识别结果得到预先为该受损数据对应的原始数据相关联的数据ID,并以此确定该受损数据对应的原始数据。
可以理解的,本申请的技术方案能够一方面避免了相关技术中出现的,无法对数据内容被破坏的受损数据进行识别的问题。另一方面通过预先为数字资产环境中的每一个数据建立数据ID与对应数据特征矩阵之间关联关系的方式,也可以避免当传统数据标识遭到清除后便无法对其进行溯源最终的问题。
进一步的,本申请在此结合图2对方案进行具体说明:
步骤1、在数字资产环境中获取到数据内容被破坏的待识别数据后,检测待识别数据对应的数据来源信息。
一种方式中,数据来源信息用于表征该待识别数据的来源方。也即该待识别数据最近一次的数据拥有者。可以理解的,该数据拥有者对该待识别数据进行破坏的可能性最大。
步骤2、获取历史数据记录中记录的,与数据来源信息相关联的历史破坏行为。
其中,历史破坏行为包括数据属性破坏、数据内容破坏、数据标识破坏、数据版本破坏的其中至少一种。
作为示例的,数据属性破坏可以为对数据文件的属性信息进行改变的行为(例如将数据的PDF属性转换为word属性等)。数据内容破坏可以为对数据文件的具体内容信息进行改变的行为(例如将数据的关键字段进行修改或删除等)。数据标识破坏可以为对数据文件的生产方信息进行改变的行为(例如将数据的生产方进行修改或删除等)。数据版本破坏可以为对数据文件的版本信息进行改变的行为(例如将数据的版本信息从1.0修改为2.0版本等)。
步骤3、基于历史破坏行为,确定待识别数据的数据破坏类型。
一种方式中,本申请实施例可以根据该待识别数据的来源方的历史破坏行为,确定出其对该待识别数据的破坏操作。进而也就可以得到该待识别数据的破坏类型。
举例来说,例如当数据来源信息对应于数据拥有者A,且历史数据记录中记录有数据拥有者A在历史时间段经常出现的历史破坏行为为:对数据的属性信息进行破坏(例如将数据的PDF属性转换为word属性),那么则可以确定其本次同样对待识别数据进行了同样的破坏行为,进而间接得到待识别数据的数据破坏类型为数据属性破坏类型。
步骤4、选取与数据破坏类型相匹配的数据识别模型。
其中,数据识别模型为预先训练完毕的,能够识别具备数据破坏类型的数据的模型。
本申请实施例中,一个数据识别模型可以对应识别一种数据破坏类型的待识别数据。例如数据识别模型A用于识别数据属性破坏类型的待识别数据。例如数据识别模型B用于识别数据内容破坏类型的待识别数据。例如数据识别模型C用于识别数据标识破坏类型的待识别数据。例如数据识别模型D用于识别数据版本破坏类型的待识别数据。
一种方式中,本申请实施例训练得到数据识别模型的过程可以为:
获取多个原始数据,并为每一个原始数据建立唯一的数据ID;以及,
对每个原始数据的数据内容进行不同破坏行为的破坏,得到对应的多个具备不同数据破坏类型的训练样本数据,其中破坏行为包括数据属性破坏、数据内容破坏、数据标识破坏、数据版本破坏的其中至少一种
获取所属于同一个数据破坏类型的训练样本数据;
提取各个训练样本数据的样本数据特征矩阵,其中样本数据特征矩阵中包含样本全局特征以及样本内容特征,样本全局特征用于反映训练样本数据的全局信息,样本内容特征用于反映训练样本数据的细节信息;
利用各个训练样本数据的样本数据特征矩阵以及对应的数据ID,对初始的数据模型进行训练,直至生成训练完毕的数据识别模型。
一种方式中,本申请实施例在数据识别模型的建立阶段,可以通过对各个原始数据的数据特征进行破坏后,提取得到其对应的数据特征矩阵(数据特征矩阵中包括多个数据特征,例如包括行列结构、数值类型、数值规则、关联关系、语法语义等特征信息)。以及为每个原始数据建立关联的数据ID。
进一步的,本申请实施例可以根据多次迭代训练运算,建立多项特征值到数据ID的映射关系权重集合,完成各个数据识别模型的建立。
可以理解的,通过以上训练方式,本申请实施例中的数据识别模型不仅可以识别原始数据,还可以识别原始数据的数据内容被不同破坏类型所破坏后的数据(即通过对样本数据特征矩阵以及对应的数据ID之间的关联关系,训练得到一个可以识别待识别数据对应的数据ID的数据识别模型)。换言之,本申请实施例建立的数据识别模型具有一定的抗破坏能力和鲁棒性。
一种方式中,本申请实施例为每个原始数据建立的数据ID为其唯一ID。可以理解的,该数据ID需要为每一项数据资产进行准确标识,并且具有一定的鲁棒性,即可以在数据被破坏的情况下,仍然可以通过识别还原数据ID的方式,对数据的原始信息进行追溯。
作为示例的,数据ID可以通过系统自动设置或者手动预设,可以根据数据规模和业务领域选择编码,可以是数字序号,时间戳,或者字符串等多种方式。如201301220001,或CID1011EDBzT等。
一种方式中,本申请实施例中的数据识别模型可以为利用人工神经网络技术而建立的识别模型。可以理解的,对于多输入参数的数据,通过可以调整每个输入数据项关联的权重值,计算出其分类的特点,让机器学习代替人类的思考,让AI代替人类进行大数据量的运算,解放人类分析师的工作量,使海量特征分析变得可行。
其中,人工神经网络技术(Artificial Neural Network,即ANN ),是一种信息处理范例,它受到生物神经系统(大脑)信息处理方式的启发。由大量高度互连的处理元件(神经元)组成,这些元件协同工作以解决特定问题。
其中,神经网络是一种运算模型,由大量的节点(或称神经元)之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数(activation function)。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。
步骤5、提取待识别数据的数据特征矩阵,并将数据特征矩阵输入到数据识别模型中,得到数据识别模型输出的数据ID结果。
其中,数据特征矩阵中包含全局特征以及内容特征,全局特征用于反映待识别数据的全局信息,内容特征用于反映待识别数据的细节信息。
一种方式中,本申请实施例提出的数据特征矩阵包括两部分,第一部分为用于反映待识别数据的全局信息的全局特征,第二部分为用于反映待识别数据的细节信息的内容特征。
作为示例的,全局特征包括待识别数据的规模大小,初步分类、分级信息等。
作为另一示例的,内容特征包括待识别数据的字段值等等。
进一步的,本申请实施例为了提高数据识别码偶像的数据识别精度和鲁棒性的要求,还可以对各个数据的全局特征和内容特征做可扩展的结构设计。例如通过扩展特征类型的方法提高识别精度。冗余空间的大小,是识别精度的扩展空间,预留的空间越大,后续可以增加更多的特征类型。当现有矩阵不足以对数据规模进行识别时,就可以扩展以识别更大的数据量。
可以理解的,由于对于一项原始数据的增删后,获得的特征矩阵也会随着行列的不同而不同。但是,由于机器学习算法(如人工神经网络)通过训练运算对矩阵中的特征值进行权重的调整,重要的特征值将是预测运算的重要因素。特征值的位置和顺序的作用也会调整到适当程度,达到一定正确率。
一种方式中,本申请实施例中的数据特征矩阵可以为一个固定大小的矩阵,填充原始数据的实际特征,并通过填充保留特征值方式补充。即在实际数据列数之外,增加置零的特征值,以对齐不同数据的特征矩阵。
作为示例的,数据特征矩阵的大小为(M, N)。其每行存储一个特征(全局特征或内容特征)的结果值,根据列的顺序存储各列计算出来结果值;最大可以存储M列结果值。
需要说明的是,本申请实施例不对全局特征和内容特征的数量进行具体限定。也即只要将一定数量的全局特征和内容特征组成的数据特征矩阵输入到预先建立的数据识别模型中,从而得到该模型输出的数据ID结果即可(也即通过数据识别模型,识别出该数据内容被破坏的受损数据所对应的数据ID)。
步骤6、获取数据资产登记库中存储的登记数据资产,其中登记数据资产中记录有多个关联关系。
其中,每个关联关系包括一个数据ID与对应的一个原始数据。
其中,数据资产登记库可以为一个中心化或去中心化的数据库。
一种方式中,本申请实施例可以预先建立一个数据资产登记库。该数据资产登记库中至少记录有各个原始数据与对应数据ID的关联关系。
作为示例的,如图3所示,关联关系还可以包括原始数据的登记序号,登记分类,登记日期,数据特征矩阵,版权信息,元数据等
步骤7、从登记数据资产中,选取与数据ID相匹配的目标关联关系,并将目标关联关系包括的原始数据作为原始数据。
一种方式中,本申请在确定得到待识别数据对应的数据ID后,即可通过在登记数据资产中进行检索的方式,得到与该数据ID相匹配的原始数据。
通过应用本申请的技术方案,可以在得到某个数据内容被破坏的受损数据后,从该数据的来源方判断该数据受到了哪一种破坏类型的破坏行为,并针对性的选取与该破坏类型相匹配的数据识别模型来对该数据的数据特征进行识别,从而根据识别结果得到预先为该受损数据对应的原始数据相关联的数据ID,并以此确定该受损数据对应的原始数据。
从而一方面避免了相关技术中出现的,无法对数据内容被破坏的受损数据进行识别的问题。另一方面通过预先为数字资产环境中的每一个数据建立数据ID与对应数据特征矩阵之间关联关系的方式,也可以避免当传统数据标识遭到清除后便无法对其进行溯源最终的问题。
可选地,在基于本申请上述方法的另一个实施例中,述基于所述数据来源信息,确定所述待识别数据的数据破坏类型,包括:
获取历史数据记录中记录的,与所述数据来源信息相关联的历史破坏行为,所述历史破坏行为包括数据属性破坏、数据内容破坏、数据标识破坏、数据版本破坏的其中至少一种;
基于所述历史破坏行为,确定所述待识别数据的数据破坏类型。
可选地,在基于本申请上述方法的另一个实施例中,所述利用所述数据识别模型识别所述待识别数据的数据特征,得到与所述待识别数据相匹配的数据ID,包括:
提取所述待识别数据的数据特征矩阵,其中所述数据特征矩阵中包含全局特征以及内容特征,所述全局特征用于反映所述待识别数据的全局信息,所述内容特征用于反映所述待识别数据的细节信息;
将所述数据特征矩阵输入到所述数据识别模型中,得到所述数据识别模型输出的所述数据ID结果。
可选地,在基于本申请上述方法的另一个实施例中,所述基于所述数据ID,得到与所述待识别数据相匹配的所述原始数据,包括:
获取数据资产登记库中存储的登记数据资产,其中所述登记数据资产中记录有多个关联关系,每个关联关系包括一个数据ID与对应的一个原始数据;
从所述登记数据资产中,选取与所述数据ID相匹配的目标关联关系,并将所述目标关联关系包括的原始数据作为所述原始数据。
可选地,在基于本申请上述方法的另一个实施例中,所述在获取到数据内容被破坏的待识别数据之前,还包括:
获取多个原始数据,并为每一个原始数据建立唯一的数据ID;以及,
对每个原始数据的数据内容进行不同破坏行为的破坏,得到对应的多个具备不同数据破坏类型的训练样本数据,其中所述破坏行为包括数据属性破坏、数据内容破坏、数据标识破坏、数据版本破坏的其中至少一种;
利用所述训练样本数据以及对应的数据ID,训练得到所述数据识别模型。
可选地,在基于本申请上述方法的另一个实施例中,所述利用所述训练样本数据以及对应的数据ID,训练得到所述数据识别模型,还包括:
获取所属于同一个数据破坏类型的训练样本数据;
提取各个训练样本数据的样本数据特征矩阵,其中所述样本数据特征矩阵中包含样本全局特征以及样本内容特征,所述样本全局特征用于反映所述训练样本数据的全局信息,所述样本内容特征用于反映所述训练样本数据的细节信息;
利用各个训练样本数据的样本数据特征矩阵以及对应的数据ID,对初始的数据模型进行训练,直至生成训练完毕的所述数据识别模型。
可选地,在基于本申请上述方法的另一个实施例中,所述数据ID由数字序号,时间戳以及字符串的至少一种组成。
一种方式中,本申请实施例可以对数据原始信息进行追溯,除了要具有鲁棒性的数据ID,还需要建立数据原始信息的登记库,将数据ID和数据的原始信息,包括数据版权信息存储在可以检索的数据库中,即数据资产登记库。数据资产登记库可以使用中心化的数据库进行登记,也可以使用非中心化的区块链进行登记。
数据资产可以通过主动登记方式进行,也可以建立一种数据资产的发现机制,在一定可控范围内进行数据资产的扫描和数据ID发现。数据资产发现可以找到未经登记的数据资产,可以建立数据新数据ID后,登记备案。对于一个资产的拷贝或副本,即使经过一定的修改,仍然能够识别出唯一ID,并归属到已经登记的数据资产中,避免重复登记。
其次,对于原始信息丢失,甚至完整性被破坏的未知数据,利用已经建立的特征同数据ID的映射模型,将未知数据提取特征后作为输入数据,进行预测推理获得数据ID,并以此检索到数据ID和原始信息,完成数据识别。
可选的,在本申请的另外一种实施方式中,如图4所示,本申请还提供一种应用于数字资产环境中的数据识别系统。包括:
获取模块,被配置为在数字资产环境中获取到数据内容被破坏的待识别数据后,检测所述待识别数据对应的数据来源信息;
确定模块,被配置为基于所述数据来源信息,确定所述待识别数据的数据破坏类型,并选取与所述数据破坏类型相匹配的数据识别模型,所述数据识别模型为预先训练完毕的,能够识别具备所述数据破坏类型的数据的模型;
识别模块,被配置为利用所述数据识别模型识别所述待识别数据的数据特征,得到与所述待识别数据相匹配的数据ID,其中所述数据ID为预先为原始数据相关联的数据ID,所述原始数据为所述待识别数据的数据内容被破坏之前的数据;
生成模块,被配置为基于所述数据ID,得到与所述待识别数据相匹配的所述原始数据。
通过应用本申请的技术方案,可以在得到某个数据内容被破坏的受损数据后,从该数据的来源方判断该数据受到了哪一种破坏类型的破坏行为,并针对性的选取与该破坏类型相匹配的数据识别模型来对该数据的数据特征进行识别,从而根据识别结果得到预先为该受损数据对应的原始数据相关联的数据ID,并以此确定该受损数据对应的原始数据。
本申请实施方式还提供一种电子设备,以执行上述应用于数字资产环境中的数据识别方法。请参考图5,其示出了本申请的一些实施方式所提供的一种电子设备的示意图。如图5所示,电子设备3包括:处理器300,存储器301,总线302和通信接口303,所述处理器300、通信接口303和存储器301通过总线302连接;所述存储器301中存储有可在所述处理器300上运行的计算机程序,所述处理器300运行所述计算机程序时执行本申请前述任一实施方式所提供的应用于数字资产环境中的数据识别方法。
其中,存储器301可能包含高速随机存取存储器(RAM:Random Access Memory),也可能还包括非不稳定的存储器(non-volatilememory),例如至少一个磁盘存储器。通过至少一个通信接口303(可以是有线或者无线)实现该装置网元与至少一个其他网元之间的通信连接,可以使用互联网、广域网、本地网、城域网等。
总线302可以是ISA总线、PCI总线或EISA总线等。所述总线可以分为地址总线、数据总线、控制总线等。其中,存储器301用于存储程序,所述处理器300在接收到执行指令后,执行所述程序,前述本申请实施例任一实施方式揭示的所述视频传输方法可以应用于处理器300中,或者由处理器300实现。
处理器300可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器300中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器300可以是通用处理器,包括处理器(Central Processing Unit,简称CPU)、网络处理器(Network Processor,简称NP)等;还可以是数字信号处理器(DSP)、专用集成电路(ASIC)、现成可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本申请实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本申请实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器301,处理器300读取存储器301中的信息,结合其硬件完成上述方法的步骤。
本申请实施例提供的电子设备与本申请实施例提供的应用于数字资产环境中的数据识别方法出于相同的发明构思,具有与其采用、运行或实现的方法相同的有益效果。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

Claims (3)

1.一种应用于数字资产环境中的数据识别方法,其特征在于,包括:
获取多个原始数据,并为每一个原始数据建立唯一的数据ID;以及,
对每个原始数据的数据内容进行不同破坏行为的破坏,得到对应的多个具备不同数据破坏类型的训练样本数据,其中所述破坏行为包括数据属性破坏、数据内容破坏、数据标识破坏、数据版本破坏的其中至少一种;
利用所述训练样本数据以及对应的数据ID,训练得到所述数据识别模型,其中,所述数据ID由数字序号,时间戳以及字符串的至少一种组成;
在数字资产环境中获取到数据内容被破坏的待识别数据后,检测所述待识别数据对应的数据来源信息,所述数据来源信息用于表征所述待识别数据最近一次的数据拥有者;
基于所述数据来源信息,确定所述待识别数据的数据破坏类型,并选取与所述数据破坏类型相匹配的数据识别模型,所述数据识别模型为预先训练完毕的,能够识别具备所述数据破坏类型的数据的模型;
其中,基于所述数据来源信息,确定所述待识别数据的数据破坏类型,包括:
获取历史数据记录中记录的,与所述数据来源信息相关联的历史破坏行为,所述历史破坏行为包括数据属性破坏、数据内容破坏、数据标识破坏、数据版本破坏的其中至少一种;
基于所述历史破坏行为,确定所述待识别数据的数据破坏类型;
利用所述数据识别模型识别所述待识别数据的数据特征,得到与所述待识别数据相匹配的数据ID,其中所述数据ID为预先为原始数据相关联的数据ID,所述原始数据为所述待识别数据的数据内容被破坏之前的数据;
基于所述数据ID,得到与所述待识别数据相匹配的所述原始数据;
其中,基于所述数据ID,得到与所述待识别数据相匹配的所述原始数据,包括:
获取数据资产登记库中存储的登记数据资产,其中所述登记数据资产中记录有多个关联关系,每个关联关系包括一个数据ID与对应的一个原始数据;
从所述登记数据资产中,选取与所述数据ID相匹配的目标关联关系,并将所述目标关联关系包括的原始数据作为所述原始数据;
其中,所述利用所述数据识别模型识别所述待识别数据的数据特征,得到与所述待识别数据相匹配的数据ID,包括:
提取所述待识别数据的数据特征矩阵,其中所述数据特征矩阵中包含全局特征以及内容特征,所述全局特征用于反映所述待识别数据的全局信息,所述内容特征用于反映所述待识别数据的细节信息;
将所述数据特征矩阵输入到所述数据识别模型中,得到所述数据识别模型输出的所述数据ID结果。
2.如权利要求1所述的方法,其特征在于,所述利用所述训练样本数据以及对应的数据ID,训练得到所述数据识别模型,还包括:
获取所属于同一个数据破坏类型的训练样本数据;
提取各个训练样本数据的样本数据特征矩阵,其中所述样本数据特征矩阵中包含样本全局特征以及样本内容特征,所述样本全局特征用于反映所述训练样本数据的全局信息,所述样本内容特征用于反映所述训练样本数据的细节信息;
利用各个训练样本数据的样本数据特征矩阵以及对应的数据ID,对初始的数据模型进行训练,直至生成训练完毕的所述数据识别模型。
3.一种应用于数字资产环境中的数据识别系统,其特征在于,包括:
获取模块,用于获取多个原始数据,并为每一个原始数据建立唯一的数据ID;以及,
对每个原始数据的数据内容进行不同破坏行为的破坏,得到对应的多个具备不同数据破坏类型的训练样本数据,其中所述破坏行为包括数据属性破坏、数据内容破坏、数据标识破坏、数据版本破坏的其中至少一种;
利用所述训练样本数据以及对应的数据ID,训练得到所述数据识别模型,其中,所述数据ID由数字序号,时间戳以及字符串的至少一种组成;
被配置为在数字资产环境中获取到数据内容被破坏的待识别数据后,检测所述待识别数据对应的数据来源信息;所述数据来源信息用于表征所述待识别数据最近一次的数据拥有者;
确定模块,被配置为基于所述数据来源信息,确定所述待识别数据的数据破坏类型,并选取与所述数据破坏类型相匹配的数据识别模型,所述数据识别模型为预先训练完毕的,能够识别具备所述数据破坏类型的数据的模型;
其中,基于所述数据来源信息,确定所述待识别数据的数据破坏类型,包括:
获取历史数据记录中记录的,与所述数据来源信息相关联的历史破坏行为,所述历史破坏行为包括数据属性破坏、数据内容破坏、数据标识破坏、数据版本破坏的其中至少一种;
基于所述历史破坏行为,确定所述待识别数据的数据破坏类型;
识别模块,被配置为利用所述数据识别模型识别所述待识别数据的数据特征,得到与所述待识别数据相匹配的数据ID,其中所述数据ID为预先为原始数据相关联的数据ID,所述原始数据为所述待识别数据的数据内容被破坏之前的数据;
生成模块,被配置为基于所述数据ID,得到与所述待识别数据相匹配的所述原始数据;
其中,基于所述数据ID,得到与所述待识别数据相匹配的所述原始数据,包括:
获取数据资产登记库中存储的登记数据资产,其中所述登记数据资产中记录有多个关联关系,每个关联关系包括一个数据ID与对应的一个原始数据;
从所述登记数据资产中,选取与所述数据ID相匹配的目标关联关系,并将所述目标关联关系包括的原始数据作为所述原始数据;
其中,所述利用所述数据识别模型识别所述待识别数据的数据特征,得到与所述待识别数据相匹配的数据ID,包括:
提取所述待识别数据的数据特征矩阵,其中所述数据特征矩阵中包含全局特征以及内容特征,所述全局特征用于反映所述待识别数据的全局信息,所述内容特征用于反映所述待识别数据的细节信息;
将所述数据特征矩阵输入到所述数据识别模型中,得到所述数据识别模型输出的所述数据ID结果。
CN202311613462.6A 2023-11-29 2023-11-29 一种应用于数字资产环境中的数据识别方法及系统 Active CN117312833B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311613462.6A CN117312833B (zh) 2023-11-29 2023-11-29 一种应用于数字资产环境中的数据识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311613462.6A CN117312833B (zh) 2023-11-29 2023-11-29 一种应用于数字资产环境中的数据识别方法及系统

Publications (2)

Publication Number Publication Date
CN117312833A CN117312833A (zh) 2023-12-29
CN117312833B true CN117312833B (zh) 2024-02-27

Family

ID=89255727

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311613462.6A Active CN117312833B (zh) 2023-11-29 2023-11-29 一种应用于数字资产环境中的数据识别方法及系统

Country Status (1)

Country Link
CN (1) CN117312833B (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783796A (zh) * 2017-11-14 2019-05-21 奥多比公司 预测文本内容中的样式破坏
CN109902747A (zh) * 2019-03-01 2019-06-18 成都农村商业银行股份有限公司 一种身份识别方法、装置、设备及计算机可读存储介质
CN110969183A (zh) * 2019-09-20 2020-04-07 北京方位捷讯科技有限公司 一种根据图像数据确定目标对象受损程度的方法及系统
CN111260219A (zh) * 2020-01-16 2020-06-09 泰康保险集团股份有限公司 资产类别识别方法、装置、设备及计算机可读存储介质
CN115758336A (zh) * 2022-10-21 2023-03-07 新华三信息安全技术有限公司 一种资产识别方法及装置
CN116127925A (zh) * 2023-04-07 2023-05-16 北京龙智数科科技服务有限公司 基于对文本进行破坏处理的文本数据增强方法及装置

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11657373B2 (en) * 2020-08-21 2023-05-23 Accenture Global Solutions Limited System and method for identifying structural asset features and damage

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783796A (zh) * 2017-11-14 2019-05-21 奥多比公司 预测文本内容中的样式破坏
CN109902747A (zh) * 2019-03-01 2019-06-18 成都农村商业银行股份有限公司 一种身份识别方法、装置、设备及计算机可读存储介质
CN110969183A (zh) * 2019-09-20 2020-04-07 北京方位捷讯科技有限公司 一种根据图像数据确定目标对象受损程度的方法及系统
CN111260219A (zh) * 2020-01-16 2020-06-09 泰康保险集团股份有限公司 资产类别识别方法、装置、设备及计算机可读存储介质
CN115758336A (zh) * 2022-10-21 2023-03-07 新华三信息安全技术有限公司 一种资产识别方法及装置
CN116127925A (zh) * 2023-04-07 2023-05-16 北京龙智数科科技服务有限公司 基于对文本进行破坏处理的文本数据增强方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
焦罡.大数据环境下敏感数据资产梳理研究.中国科技信息.2020,(第18期),全文. *

Also Published As

Publication number Publication date
CN117312833A (zh) 2023-12-29

Similar Documents

Publication Publication Date Title
CN110457302B (zh) 一种结构化数据智能清洗方法
US9690788B2 (en) File type recognition analysis method and system
EP3640847A1 (en) Systems and methods for identifying form fields
US11816138B2 (en) Systems and methods for parsing log files using classification and a plurality of neural networks
US11157816B2 (en) Systems and methods for selecting and generating log parsers using neural networks
CN109033150B (zh) 敏感词验证方法、装置、计算机设备及存储介质
CN111092894A (zh) 一种基于增量学习的webshell检测方法、终端设备及存储介质
CN110046155B (zh) 特征数据库的更新、数据特征的确定方法、装置及设备
CN113961768B (zh) 敏感词检测方法、装置、计算机设备和存储介质
US10782942B1 (en) Rapid onboarding of data from diverse data sources into standardized objects with parser and unit test generation
CN117312833B (zh) 一种应用于数字资产环境中的数据识别方法及系统
CN111859862A (zh) 文本的数据标注方法和装置、存储介质及电子装置
CN116484025A (zh) 漏洞知识图谱构建方法、评估方法、设备及存储介质
CN114579834B (zh) 网页登录实体识别方法、装置、电子设备及存储介质
US11789903B1 (en) Tagging tool for managing data
CN115238645A (zh) 资产数据识别方法、装置、电子设备和计算机存储介质
CN112363929B (zh) 系统上线方法、装置、计算机设备及存储介质
CN114416847A (zh) 一种数据转换的方法、装置、服务器及存储介质
CN114462381A (zh) 数据处理方法、装置、设备及存储介质
CN112966268A (zh) 基于神经网络模型和哈希匹配的sql检测方法及系统
CN112487394A (zh) 图形推理验证码识别方法、系统、设备及介质
CN112202822B (zh) 数据库注入检测方法、装置、电子设备及存储介质
CN114356405B (zh) 开源组件函数的匹配方法、装置、计算机设备和存储介质
CN116955300B (zh) 一种基于标签技术的文件生成方法及系统
CN115953136A (zh) 合同审核方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant