CN117271781B - 一种数据跨境合规评估系统 - Google Patents
一种数据跨境合规评估系统 Download PDFInfo
- Publication number
- CN117271781B CN117271781B CN202311558410.3A CN202311558410A CN117271781B CN 117271781 B CN117271781 B CN 117271781B CN 202311558410 A CN202311558410 A CN 202311558410A CN 117271781 B CN117271781 B CN 117271781B
- Authority
- CN
- China
- Prior art keywords
- data
- node
- module
- compliance
- network
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
- 238000011156 evaluation Methods 0.000 title claims abstract description 30
- 238000000034 method Methods 0.000 claims abstract description 50
- 230000004927 fusion Effects 0.000 claims abstract description 32
- 230000006870 function Effects 0.000 claims abstract description 29
- 238000013507 mapping Methods 0.000 claims abstract description 16
- 238000005516 engineering process Methods 0.000 claims abstract description 13
- 238000013145 classification model Methods 0.000 claims abstract description 7
- 238000003058 natural language processing Methods 0.000 claims abstract description 5
- 230000005540 biological transmission Effects 0.000 claims description 21
- 238000011176 pooling Methods 0.000 claims description 18
- 238000010276 construction Methods 0.000 claims description 17
- 238000004364 calculation method Methods 0.000 claims description 14
- 230000010354 integration Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 11
- 238000013527 convolutional neural network Methods 0.000 claims description 10
- 230000005236 sound signal Effects 0.000 claims description 5
- 230000002457 bidirectional effect Effects 0.000 claims description 4
- 238000000605 extraction Methods 0.000 claims description 3
- 238000007670 refining Methods 0.000 claims description 3
- 230000008569 process Effects 0.000 abstract description 7
- 238000011157 data evaluation Methods 0.000 abstract description 2
- 238000010586 diagram Methods 0.000 description 7
- 238000006243 chemical reaction Methods 0.000 description 5
- 230000008520 organization Effects 0.000 description 5
- 238000012216 screening Methods 0.000 description 5
- 238000012546 transfer Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 230000000694 effects Effects 0.000 description 4
- 238000012986 modification Methods 0.000 description 4
- 230000004048 modification Effects 0.000 description 4
- 230000009897 systematic effect Effects 0.000 description 3
- 230000003044 adaptive effect Effects 0.000 description 2
- 230000004075 alteration Effects 0.000 description 2
- 230000004913 activation Effects 0.000 description 1
- 238000004458 analytical method Methods 0.000 description 1
- 238000013459 approach Methods 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 230000001427 coherent effect Effects 0.000 description 1
- 230000001276 controlling effect Effects 0.000 description 1
- 238000013480 data collection Methods 0.000 description 1
- 238000011835 investigation Methods 0.000 description 1
- 239000011159 matrix material Substances 0.000 description 1
- 230000007246 mechanism Effects 0.000 description 1
- 238000012544 monitoring process Methods 0.000 description 1
- 238000007781 pre-processing Methods 0.000 description 1
- 230000001105 regulatory effect Effects 0.000 description 1
- 238000011160 research Methods 0.000 description 1
- 238000012552 review Methods 0.000 description 1
- 230000033764 rhythmic process Effects 0.000 description 1
- 238000012795 verification Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/35—Clustering; Classification
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/3331—Query processing
- G06F16/334—Query execution
- G06F16/3346—Query execution using probabilistic model
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/30—Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
- G06F16/33—Querying
- G06F16/335—Filtering based on additional data, e.g. user or group profiles
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/0464—Convolutional networks [CNN, ConvNet]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Evolutionary Computation (AREA)
- Databases & Information Systems (AREA)
- Life Sciences & Earth Sciences (AREA)
- Artificial Intelligence (AREA)
- Biophysics (AREA)
- General Health & Medical Sciences (AREA)
- Software Systems (AREA)
- Mathematical Physics (AREA)
- Computing Systems (AREA)
- Health & Medical Sciences (AREA)
- Biomedical Technology (AREA)
- Molecular Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Probability & Statistics with Applications (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明涉及数据评估领域,尤其涉及一种数据跨境合规评估系统。首先,设计基于深度融合策略的数据资产自动分类模型,用多路径表示技术、非线性映射、深度特征融合和分类损失函数来实现数据资产分类;然后,开发数据内容违规审核模块,通过自然语言处理技术,对数据内容进行深入分析,计算数据的违规概率并进行合规评估。解决了现有技术没有进行全面的评估,导致某些关键信息在合并过程中丢失或被稀释;缺乏自适应性,导致无法充分捕捉到数据的特点和特性,从而影响评估的准确性;以及没有更加细致和灵活的处理措施,导致某些违规情况在长时间内被忽视的技术问题。
Description
技术领域
本发明涉及数据评估领域,尤其涉及一种数据跨境合规评估系统。
背景技术
随着全球化的深入推进,数据跨境流动成为了组织和企业日常运营的常态。从跨国公司的全球业务部署,到中小企业的跨境电商业务,大量的数据在各国之间频繁流动。然而,数据的跨境流动涉及到多国的法律、法规和政策,这为数据的合规性带来了巨大的挑战。
不同的国家和地区对于数据的管理和保护有着各自的要求。例如,欧盟的《通用数据保护条例》(GDPR)对数据主体的权利、数据的存储和处理、以及跨境数据传输都有严格的规定。与此同时,亚洲、美洲和非洲等其他地区也相继出台了各自的数据保护法规。这意味着,当企业的数据跨境流动时,需要满足所有涉及国家和地区的法规要求,确保数据的完整性、安全性和合规性。
我国专利申请号:CN202310007952.5,公开日:2023.05.30,公开了一种数据跨境合规管控方法及装置,所述方法包括通过数据访问代理agent访问业务系统API接口的关键执行点,获取API接口的数据执行条数和数据类型,以及根据数据执行条数和数据类型获取其对应的元数据及元数据对应的安全属性级别;根据元数据及其相应的安全属性级别生成数据流转安全地图,以及根据数据执行条数和数据类型得到数据流转tracing日志,并根据数据流转tracing日志生成数据实时流转地图;对比数据流转安全地图和数据实时流转地图,判断API接口的传输数据是否合规。该发明能够在不修改原业务系统代码的情况,帮助企业做好数据出境评估和常态化精准监控。
但上述技术至少存在如下技术问题:现有技术没有进行全面的评估,导致某些关键信息在合并过程中丢失或被稀释;缺乏自适应性,导致无法充分捕捉到数据的特点和特性,从而影响评估的准确性;没有更加细致和灵活的处理措施,导致某些违规情况在长时间内被忽视;为内部审查和外部合作伙伴判断数据的真实合规性带来了挑战。
发明内容
本申请实施例通过提供一种数据跨境合规评估系统,解决了现有技术没有进行全面的评估,导致某些关键信息在合并过程中丢失或被稀释;缺乏自适应性,导致无法充分捕捉到数据的特点和特性,从而影响评估的准确性;没有更加细致和灵活的处理措施,导致某些违规情况在长时间内被忽视;为内部审查和外部合作伙伴判断数据的真实合规性带来了挑战。实现了一个结构化、系统化且高效的方法,能够显著提高数据合规性的准确性和效率,降低违规风险,从而为组织在全球范围内安全、合规地传输和使用数据提供了坚实的支持。
本申请提供了一种数据跨境合规评估系统,具体包括以下技术方案:
一种数据跨境合规评估系统,包括以下部分:
数据获取模块、数据整理模块、数据整合模块、特征融合模块、数据分类模块、网络构建模块、计算模块、合规评估模块;
所述数据整理模块,用于对两种及以上格式的数据资产进行多路径数据表示,包括文本数据转化为图结构,图像数据通过卷积神经网络进行特征提取,音频数据转化为时频域表示,数据整理模块通过数据传输的方式与数据整合模块相连;
所述数据整合模块,用于使用双向核函数,将来自不同数据源的数据表示整合到统一的特征空间中,数据整合模块通过数据传输的方式与特征融合模块相连;
所述特征融合模块,用于采用基于注意力的特征融合策略,将来自不同数据源的特征整合为统一的特征表示,特征融合模块通过数据传输的方式与数据分类模块相连;
所述数据分类模块,用于根据融合后的特征表示对数据资产进行分类,同时引入损失函数,数据分类模块通过数据传输的方式与网络构建模块相连;
所述网络构建模块,用于构建初级的数据网络,反映数据项之间的基本关系,并进一步将初级的数据网络细化为两个及以上子网络,网络构建模块通过数据传输的方式与计算模块相连;
所述计算模块,用于定义和计算数据从一个节点到另一个节点的传播分数、数据的复杂度分数,以及每个数据节点的违规概率,计算模块通过数据传输的方式与合规评估模块相连。
一种数据跨境合规评估方法,应用于所述的一种数据跨境合规评估系统,包括以下步骤:
S100:设计基于深度融合策略的数据资产自动分类模型,用多路径表示技术、非线性映射、深度特征融合和分类损失函数来实现数据资产分类;
S200:开发数据内容违规审核模块,通过自然语言处理技术,对数据内容进行深入分析,计算数据的违规概率并进行合规评估。
优选的,所述S100,具体包括:
采用基于图的卷积方法来提取文本中的结构信息,捕获文本中的长距离依赖关系;使用卷积神经网络对图像进行特征提取,所述卷积神经网络可以捕获图像中的局部模式和结构;引入自适应池化策略,将得到的特征图再通过所述自适应池化策略进行处理,所述自适应池化策略根据特征图的内容自动选择最佳的池化尺寸;将音频信号转化为时频域表示,同时捕获音频的时域和频域特性;将时频域表示输入到卷积神经网络中,以学习音频的深度特征。
优选的,所述S100,还包括:
使用双向核函数将各路径的数据映射到新的特征空间,双向核函数结合了两种不同的核技术来实现数据的非线性映射。
优选的,所述S100,还包括:
采用基于注意力的特征融合策略,为每种数据来源分配一个权重,所述权重决定了该数据来源在最终特征表示中的重要性;将所述权重应用于各路径的数据表示,得到融合后的特征表示。
优选的,所述S100,还包括:
将融合后的特征表示输入到数据分类模块中,进行数据资产的分类;引入损失函数,所述损失函数不仅考虑了分类的准确性,还考虑了类间和类内的距离。
优选的,所述S200,具体包括:
基于数据识别和分类结果,深入探索数据的内部结构和属性,通过融合图论、复杂性理论,设计一种方法来评估数据的违规概率;每个数据项被认为是一个独立的节点;当两个数据项属于同一类别时,这两个数据项之间将有一个边,边的权重是根据数据项之间的相似度来确定的;在网络构建模块中构建初级的数据网络,所述网络构建模块将所述初级的数据网络进一步细化为两个及以上子网络;具体为根据数据的来源、类型或维度进行分类,为每个类别创建一个独立的子网络。
优选的,所述S200,还包括:
定义传播分数的数学公式和复杂度分数公式。
优选的,所述S200,还包括:
结合传播分数和复杂度分数,为每个数据节点计算一个违规概率;预设违规概率阈值,根据当前数据的违规概率将其划分为对应的类别,包括:高风险、低风险、合规;对于被标记为不合规类别的数据,需要采取措施,包括数据清洗或匿名化,以满足合规要求;对所述不合规类别进行自定义设置;在采取措施后,重新计算数据的违规概率,确保它们现在都是合规的;最后,制作合规评估报告。
有益效果:
本申请实施例中提供的多个技术方案,至少具有如下技术效果或优点:
1、通过考虑文本、图像和音频三种主要的数据类型,确保了对多种格式的数据资产进行准确的识别和分类,从而为数据跨境合规评估提供了全方位的支持;通过对不同类型的数据采用专门设计的处理策略(例如,文本的图结构表示、图像的自适应池化策略和音频的时频域转换),该方法能够确保各种数据的特性都被充分利用;
2、采用多路径表示技术、非线性映射、深度特征融合和增强的分类损失函数,确保了高效、准确的数据资产分类,并最大化地捕获了数据的内部结构和属性;通过结合图论、复杂性理论和多种计算方法,本发明为每个数据节点提供了精确的违规概率,从而提供了一个量化的工具,使合规评估更为准确和可靠;
3、对于被标记为不合规的数据,提供了一系列灵活的解决方案,如数据清洗或匿名化,以确保数据满足合规要求;不仅为数据的初始评估提供支持,还可以持续监控数据的合规性,确保数据在其整个生命周期中始终保持合规;通过生成详细的合规评估报告,为组织提供了一个清晰、全面的数据合规概览,有助于内部审查和外部合作伙伴的信任。
4、本申请的技术方案能够有效解决现有技术没有进行全面的评估,导致某些关键信息在合并过程中丢失或被稀释;缺乏自适应性,导致无法充分捕捉到数据的特点和特性,从而影响评估的准确性;没有更加细致和灵活的处理措施,导致某些违规情况在长时间内被忽视;为内部审查和外部合作伙伴判断数据的真实合规性带来了挑战。能够为数据跨境合规评估提供一个结构化、系统化且高效的方法,能够显著提高数据合规性的准确性和效率,降低违规风险,从而为组织在全球范围内安全、合规地传输和使用数据提供了坚实的支持。
附图说明
图1为本申请所述的一种数据跨境合规评估系统结构图;
图2为本申请所述的一种数据跨境合规评估方法流程图;
具体实施方式
本申请实施例通过提供一种数据跨境合规评估系统,解决了现有技术没有进行全面的评估,导致某些关键信息在合并过程中丢失或被稀释;缺乏自适应性,导致无法充分捕捉到数据的特点和特性,从而影响评估的准确性;没有更加细致和灵活的处理措施,导致某些违规情况在长时间内被忽视;为内部审查和外部合作伙伴判断数据的真实合规性带来了挑战。
本申请实施例中的技术方案为解决上述问题,总体思路如下:
通过考虑文本、图像和音频三种主要的数据类型,确保了对多种格式的数据资产进行准确的识别和分类,从而为数据跨境合规评估提供了全方位的支持;通过对不同类型的数据采用专门设计的处理策略(例如,文本的图结构表示、图像的自适应池化策略和音频的时频域转换),该方法能够确保各种数据的特性都被充分利用;采用多路径表示技术、非线性映射、深度特征融合和增强的分类损失函数,确保了高效、准确的数据资产分类,并最大化地捕获了数据的内部结构和属性;通过结合图论、复杂性理论和多种计算方法,本发明为每个数据节点提供了精确的违规概率,从而提供了一个量化的工具,使合规评估更为准确和可靠;对于被标记为不合规的数据,提供了一系列灵活的解决方案,如数据清洗或匿名化,以确保数据满足合规要求;不仅为数据的初始评估提供支持,还可以持续监控数据的合规性,确保数据在其整个生命周期中始终保持合规;通过生成详细的合规评估报告,为组织提供了一个清晰、全面的数据合规概览,有助于内部审查和外部合作伙伴的信任。
为了更好的理解上述技术方案,下面将结合说明书附图以及具体的实施方式对上述技术方案进行详细的说明。
参照附图1,本申请所述的一种数据跨境合规评估系统包括以下部分:
数据获取模块、数据整理模块、数据整合模块、特征融合模块、数据分类模块、网络构建模块、计算模块、合规评估模块;
所述数据获取模块,用于接收上传的数据资产,负责数据的收集和预处理,数据获取模块通过数据传输的方式与数据整理模块相连;
所述数据整理模块,用于对多种格式的数据资产进行多路径数据表示,如文本数据转化为图结构,图像数据通过卷积神经网络进行特征提取,音频数据转化为时频域表示,数据整理模块通过数据传输的方式与数据整合模块相连;
所述数据整合模块,用于使用双向核函数,将来自不同数据源的数据表示整合到一个统一的特征空间中,数据整合模块通过数据传输的方式与特征融合模块相连;
所述特征融合模块,用于采用基于注意力的特征融合策略,将来自不同数据源的特征整合为一个统一的特征表示,特征融合模块通过数据传输的方式与数据分类模块相连;
所述数据分类模块,用于根据融合后的特征表示对数据资产进行分类,同时引入特殊的损失函数以提高分类的准确性,数据分类模块通过数据传输的方式与网络构建模块相连;
所述网络构建模块,用于构建一个初级的数据网络,反映数据项之间的基本关系,并进一步将初级的数据网络细化为多个子网络,网络构建模块通过数据传输的方式与计算模块相连;
所述计算模块,用于定义和计算数据从一个节点到另一个节点的传播分数、数据的复杂度分数,以及每个数据节点的违规概率,计算模块通过数据传输的方式与合规评估模块相连;
所述合规评估模块,用于根据当前数据的违规概率进行合规性评估,对不合规数据采取措施,并重新计算这些数据的违规概率,生成合规评估报告。
参照附图2,本申请所述的一种数据跨境合规评估方法包括以下步骤:
S100:设计基于深度融合策略的数据资产自动分类模型,用多路径表示技术、非线性映射、深度特征融合和增强的分类损失函数来实现数据资产分类;
在数据跨境合规评估中,准确的数据资产识别与分类是关键。为此,设计了一个基于深度融合策略的数据资产自动分类模型。所述数据资产自动分类模型采用多路径表示技术、非线性映射、深度特征融合和增强的分类损失函数来实现高效的数据资产分类。
具体的,数据获取模块接收上传的数据资产,数据资产自动分类模型接收多种格式的数据资产作为输入,为了更好地表示这些数据,数据整理模块进行了多路径数据表示。
文本数据:文本数据往往包含结构化和非结构化的信息,为了更好地捕获这两种信息,将文本转化为图结构,其中每个单词作为一个节点,而词之间的关系(如共现、语义相似性等)作为边。每个节点的初始特征是基于词嵌入技术(如Word2Vec或GloVe)的词向量。
采用基于图的卷积方法来提取文本中的结构信息,捕获文本中的长距离依赖关系。对于图中的每一个节点,计算节点的新特征表示:
其中,是节点/>的新特征表示,/>是节点/>的原始特征,/>是节点/>的邻居集合,/>是非线性激活函数,/>是权重矩阵。
图像数据:图像数据包含大量的像素值,其中包含了空间和颜色的信息。使用卷积神经网络对图像进行特征提取,卷积神经网络可以捕获图像中的局部模式和结构。引入自适应池化策略,将得到的特征图再通过自适应池化策略进行处理,这种策略可以根据特征图的内容自动选择最佳的池化尺寸,从而提高模型的鲁棒性。具体公式为:
其中,是在位置/>上的池化后的特征值,/>是卷积后的特征图,/>是池化窗口的起始位置,/>是池化窗口的尺寸。
音频数据:与文本和图像不同,音频数据是一系列的时间序列数据,为了从音频中提取有效的特征信息,需要将音频信号从时域转换到频域,将音频信号转化为时频域表示,同时捕获音频的时域和频域特性。这是因为在频域中,音频的某些特性,如音高、音色和节奏,可能更容易被识别和描述。具体公式为:
其中,表示在时间/>和频率/>处的音频强度,/>是音频信号的时域表示,/>是虚数单位。
进一步,为了捕获音频中的局部模式和结构,将时频域表示输入到一个卷积神经网络中,以学习音频的深度特征。这些深度特征会捕获音频中的复杂模式,如和弦的变化或特定的音乐节奏。
文本、图像和音频的特征空间有很大的差异,为了将这些不同来源的数据表示整合到一个统一的特征空间中,数据整合模块采用双向核函数进行非线性映射。双向核函数结合了两种不同的核技术来实现数据的非线性映射,从而使得来自不同源的数据更容易在这个新的空间中融合,以提高模型的表达能力。使用双向核函数将各路径的数据映射到一个新的特征空间,具体公式为:
其中,是两个数据点/>和/>在新特征空间中的内积,/>是非线性映射函数,用于将原始数据映射到新的特征空间,/>是一个超参数。这个新的特征空间富含了原始数据的深层特性,为后续的特征融合提供了有利的基础。
在获得了来自不同数据源的特征表示之后,需要一个机制来整合这些特征表示。特征融合模块采用一种基于注意力的特征融合策略,为每种数据来源分配一个权重,这个权重决定了该数据来源在最终特征表示中的重要性。计算每个特征表示的权重:
其中,表示第i个特征表示的权重,/>表示第s个特征表示的能量值,/>表示第r个特征表示的能量值。将这些权重应用于各路径的数据表示,得到融合后的特征表示/>:
在得到了融合后的特征表示之后,将这些特征表示输入到数据分类模块中,进行数据资产的分类。为了提高分类的准确性,引入了一个特殊的损失函数。这个损失函数不仅考虑了分类的准确性,还考虑了类间和类内的距离,确保得到有区分性的特征表示。具体公式为:
其中,是损失函数,/>是第k个数据的真实标签,/>是第k个数据的预测概率,/>是类别/>的特征中心,/>是所有数据的特征中心。从而能够处理来自不同数据源的信息,有效地整合这些信息,并提供准确的数据资产分类。
S200:开发数据内容违规审核模块,通过自然语言处理技术,对数据内容进行深入分析,计算数据的违规概率并进行合规评估。
在数据跨境传输中,为了确保数据内容的合规性,开发了一个数据内容违规审核模块,通过自然语言处理技术,对数据内容进行深入分析,确保内容的准确性并进行违规审核。
基于数据识别和分类结果,深入探索数据的内部结构和属性。通过融合图论、复杂性理论,设计一种方法来量化地评估数据的违规概率。考虑到数据的多样性和复杂性,每个数据项被认为是一个独立的节点。当两个数据项属于同一类别时,这两个数据项之间就会有一个边。这些边的权重是根据数据项之间的相似度来确定的。在网络构建模块中构建一个初级的数据网络,反映了数据项之间的基本关系。
为了进一步捕获数据的复杂性,并考虑到数据可能存在的不同属性或特征,网络构建模块将初级的数据网络进一步细化为多个子网络。例如,可以根据数据的来源、类型或其他特定维度将其分类,从而为每个类别创建一个独立的子网络。这样可以确保每种特定类型的数据都在一起,并且其内部关系得到了适当的表示。
为了整合这些子网络并创建一个完整的、连贯的数据网络,设计了一种策略,该策略允许在不同子网络之间建立连接,基于数据的相似性。这种整合方法确保了整个数据网络的连通性,同时反映了数据的完整性和多样性。
为了进一步量化数据从一个节点到另一个节点的传播概率,计算模块定义了一个数学公式:
其中,代表从节点i到节点j的传播分数,/>是节点i和节点j之间的边的权重,/>描述节点i在网络中的重要性,/>是节点j在网络中的可见性或可访问性,/>是节点i的度,即与其直接连接的节点数量,/>是节点i的中心性度量,/>是节点i和节点j之间的路径长度,/>和/>分别是节点i和节点j的其他相关属性,/>和/>是调节参数。
此外,为了量化数据的复杂性,计算模块定义了复杂度分数公式:
其中,是节点i的复杂度分数,/>是节点i的熵值,表示其数据的不确定性,/>是节点i的冗余度,/>是节点i的拓扑复杂度,/>是节点i的更新率,/>是节点i的增长率,/>、/>、/>、/>、/>是调整参数。
结合上述的传播分数和复杂度分数,为每个数据节点计算一个违规概率。公式如下:
其中,是节点i的违规概率,/>和/>是其他相关的属性或指标,/>是节点i的频率,/>是节点i的知识分数,/>、/>、/>、/>、/>、/>、/>是调整参数。通过深入分析数据的内部结构和属性,并结合图论、复杂性理论和多种计算方法,提供了一种全新的数据内容违规审核方法,为数据跨境合规评估提供了强有力的技术支持。
预设违规概率阈值,合规评估模块根据当前数据的违规概率将其划分为对应的类别,例如:高风险、低风险、合规等。对于被标记为不合规类别的数据,需要采取合适的措施,如数据清洗或匿名化,以满足合规要求;所述不合规类别可自定义设置。在采取措施后,重新计算这些数据的违规概率,以确保它们现在都是合规的。最后,制作一个合规评估报告,以备后续的参考或审查。
综上所述,便完成了本申请所述的一种数据跨境合规评估系统。
上述本申请实施例中的技术方案,至少具有如下的技术效果或优点:
1、通过考虑文本、图像和音频三种主要的数据类型,确保了对多种格式的数据资产进行准确的识别和分类,从而为数据跨境合规评估提供了全方位的支持;通过对不同类型的数据采用专门设计的处理策略(例如,文本的图结构表示、图像的自适应池化策略和音频的时频域转换),该方法能够确保各种数据的特性都被充分利用;
2、采用多路径表示技术、非线性映射、深度特征融合和增强的分类损失函数,确保了高效、准确的数据资产分类,并最大化地捕获了数据的内部结构和属性;通过结合图论、复杂性理论和多种计算方法,本发明为每个数据节点提供了精确的违规概率,从而提供了一个量化的工具,使合规评估更为准确和可靠;
3、对于被标记为不合规的数据,提供了一系列灵活的解决方案,如数据清洗或匿名化,以确保数据满足合规要求;不仅为数据的初始评估提供支持,还可以持续监控数据的合规性,确保数据在其整个生命周期中始终保持合规;通过生成详细的合规评估报告,为组织提供了一个清晰、全面的数据合规概览,有助于内部审查和外部合作伙伴的信任。
效果调研:
本申请的技术方案能够有效解决现有技术没有进行全面的评估,导致某些关键信息在合并过程中丢失或被稀释;缺乏自适应性,导致无法充分捕捉到数据的特点和特性,从而影响评估的准确性;没有更加细致和灵活的处理措施,导致某些违规情况在长时间内被忽视;为内部审查和外部合作伙伴判断数据的真实合规性带来了挑战。并且,上述系统或方法经过了一系列的效果调研,通过验证,最终能够为数据跨境合规评估提供一个结构化、系统化且高效的方法,能够显著提高数据合规性的准确性和效率,降低违规风险,从而为组织在全球范围内安全、合规地传输和使用数据提供了坚实的支持。
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例作出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
Claims (9)
1.一种数据跨境合规评估系统,其特征在于,包括以下部分:
数据获取模块、数据整理模块、数据整合模块、特征融合模块、数据分类模块、网络构建模块、计算模块、合规评估模块;
所述数据整理模块,用于对两种及以上格式的数据资产进行多路径数据表示,包括文本数据转化为图结构,图像数据通过卷积神经网络进行特征提取,音频数据转化为时频域表示,数据整理模块通过数据传输的方式与数据整合模块相连;
所述数据整合模块,用于使用双向核函数,将来自不同数据源的数据表示整合到统一的特征空间中,具体公式为:其中,是两个数据点/>和/>在新特征空间中的内积,/>是非线性映射函数,用于将原始数据映射到新的特征空间;/>是节点/>的新特征表示;/>是在位置/>上的池化后的特征值;是超参数;/>表示在时间/>和频率/>处的音频强度;数据整合模块通过数据传输的方式与特征融合模块相连;
所述特征融合模块,用于采用基于注意力的特征融合策略,将来自不同数据源的特征整合为统一的特征表示,特征融合模块通过数据传输的方式与数据分类模块相连;
所述数据分类模块,用于根据融合后的特征表示对数据资产进行分类,同时引入损失函数,数据分类模块通过数据传输的方式与网络构建模块相连;
所述网络构建模块,用于构建初级的数据网络,反映数据项之间的关系;每个数据项被认为是独立的节点,当两个数据项属于同一类别时,所述两个数据项之间会有一个边,所述边的权重是根据数据项之间的相似度来确定的;进一步将初级的数据网络细化为两个及以上子网络,设计策略整合所述子网络并创建数据网络,所述策略基于数据的相似性在不同子网络之间建立连接;网络构建模块通过数据传输的方式与计算模块相连;
所述计算模块,用于定义和计算数据从一个节点到另一个节点的传播分数,具体公式为:其中,/>代表从节点i到节点j的传播分数,/>是节点i和节点j之间的边的权重,/>描述节点i在网络中的重要性,/>是节点j在网络中的可见性或可访问性,/>是节点i的度,/>是节点i的中心性度量,/>是节点i和节点j之间的路径长度,/>和/>分别是节点i和节点j的其他相关属性,/>和/>是调节参数;
定义数据的复杂度分数,具体公式为:其中,/>是节点i的复杂度分数,/>是节点i的熵值,/>是节点i的冗余度,/>是节点i的拓扑复杂度,/>是节点i的更新率,/>是节点i的增长率,/>、/>、/>、/>、/>是调整参数;
结合传播分数和复杂度分数,计算每个数据节点的违规概率,公式如下:其中,/>是节点i的违规概率,/>和/>是其他相关的属性或指标,/>是节点i的频率,/>是节点i的知识分数,/>、/>、/>、/>、/>、/>、/>是调整参数;计算模块通过数据传输的方式与合规评估模块相连。
2.一种数据跨境合规评估方法,应用于权利要求1所述的一种数据跨境合规评估系统,其特征在于,包括以下步骤:
S100:设计基于深度融合策略的数据资产自动分类模型,用多路径表示技术、非线性映射、深度特征融合和分类损失函数来实现数据资产分类;
S200:开发数据内容违规审核模块,通过自然语言处理技术,对数据内容进行深入分析,计算数据的违规概率并进行合规评估。
3.根据权利要求2所述的一种数据跨境合规评估方法,其特征在于,所述S100,具体包括:
采用基于图的卷积方法来提取文本中的结构信息,捕获文本中的长距离依赖关系;使用卷积神经网络对图像进行特征提取,捕获图像中的局部模式和结构;引入自适应池化策略,将得到的特征图再通过所述自适应池化策略进行处理,所述自适应池化策略根据特征图的内容自动选择最佳的池化尺寸;将音频信号转化为时频域表示,同时捕获音频的时域和频域特性;将时频域表示输入到卷积神经网络中,以学习音频的深度特征。
4.根据权利要求3所述的一种数据跨境合规评估方法,其特征在于,所述S100,还包括:
使用双向核函数将各路径的数据映射到新的特征空间,双向核函数结合了两种不同的核技术来实现数据的非线性映射。
5.根据权利要求4所述的一种数据跨境合规评估方法,其特征在于,所述S100,还包括:
采用基于注意力的特征融合策略,为每种数据来源分配一个权重,所述权重决定了该数据来源在最终特征表示中的重要性;将所述权重应用于各路径的数据表示,得到融合后的特征表示。
6.根据权利要求5所述的一种数据跨境合规评估方法,其特征在于,所述S100,还包括:
将融合后的特征表示输入到数据分类模块中,进行数据资产的分类;引入损失函数,所述损失函数不仅考虑了分类的准确性,还考虑了类间和类内的距离。
7.根据权利要求2所述的一种数据跨境合规评估方法,其特征在于,所述S200,具体包括:
基于数据识别和分类结果,深入探索数据的内部结构和属性,通过融合图论、复杂性理论,设计一种方法来评估数据的违规概率;每个数据项被认为是一个独立的节点;当两个数据项属于同一类别时,这两个数据项之间将有一个边,边的权重是根据数据项之间的相似度来确定的;在网络构建模块中构建初级的数据网络,所述网络构建模块将所述初级的数据网络进一步细化为两个及以上子网络;具体为根据数据的来源、类型或维度进行分类,为每个类别创建一个独立的子网络。
8.根据权利要求7所述的一种数据跨境合规评估方法,其特征在于,所述S200,还包括:
定义传播分数的数学公式和复杂度分数公式。
9.根据权利要求8所述的一种数据跨境合规评估方法,其特征在于,所述S200,还包括:
结合传播分数和复杂度分数,为每个数据节点计算一个违规概率;预设违规概率阈值,根据当前数据的违规概率将其划分为对应的类别,包括:高风险、低风险、合规;对于被标记为不合规类别的数据,需要采取措施,包括数据清洗或匿名化,以满足合规要求;对所述不合规类别进行自定义设置;在采取措施后,重新计算数据的违规概率,确保它们现在都是合规的;最后,制作合规评估报告。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311558410.3A CN117271781B (zh) | 2023-11-22 | 2023-11-22 | 一种数据跨境合规评估系统 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311558410.3A CN117271781B (zh) | 2023-11-22 | 2023-11-22 | 一种数据跨境合规评估系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN117271781A CN117271781A (zh) | 2023-12-22 |
CN117271781B true CN117271781B (zh) | 2024-01-19 |
Family
ID=89201254
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311558410.3A Active CN117271781B (zh) | 2023-11-22 | 2023-11-22 | 一种数据跨境合规评估系统 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN117271781B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118410524B (zh) * | 2024-07-04 | 2024-08-27 | 深圳市前海泽金产融科技有限公司 | 一种基于云计算的金融数据保护系统 |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114760149A (zh) * | 2022-06-13 | 2022-07-15 | 深圳红途科技有限公司 | 数据跨境合规管控方法、装置、计算机设备及存储介质 |
WO2022269504A1 (en) * | 2021-06-23 | 2022-12-29 | Abilash Soundararajan | System and method for privacy risk assessment and mitigatory recommendation |
CN116401343A (zh) * | 2022-12-31 | 2023-07-07 | 浙江大学 | 一种数据合规分析方法 |
-
2023
- 2023-11-22 CN CN202311558410.3A patent/CN117271781B/zh active Active
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2022269504A1 (en) * | 2021-06-23 | 2022-12-29 | Abilash Soundararajan | System and method for privacy risk assessment and mitigatory recommendation |
CN114760149A (zh) * | 2022-06-13 | 2022-07-15 | 深圳红途科技有限公司 | 数据跨境合规管控方法、装置、计算机设备及存储介质 |
CN116401343A (zh) * | 2022-12-31 | 2023-07-07 | 浙江大学 | 一种数据合规分析方法 |
Also Published As
Publication number | Publication date |
---|---|
CN117271781A (zh) | 2023-12-22 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022134588A1 (zh) | 信息审核分类模型的构建方法和信息审核方法 | |
Batra et al. | Integrating StockTwits with sentiment analysis for better prediction of stock price movement | |
CN107025509B (zh) | 基于业务模型的决策系统和方法 | |
CN117271767B (zh) | 基于多智能体的运维知识库的建立方法 | |
CN113011973B (zh) | 基于智能合约数据湖的金融交易监管模型的方法及设备 | |
CN117271781B (zh) | 一种数据跨境合规评估系统 | |
CN107644011A (zh) | 用于细粒度医疗实体提取的系统和方法 | |
CN112036842B (zh) | 一种科技服务智能匹配装置 | |
CN112100398B (zh) | 一种专利空白预测方法及系统 | |
Ebadi et al. | Application of machine learning techniques to assess the trends and alignment of the funded research output | |
US20160321556A1 (en) | Determining Comprehensiveness of Question Paper Given Syllabus | |
CN110494882A (zh) | 决策支持系统及其相关方法 | |
CN111027600A (zh) | 图像类别预测方法和装置 | |
CN109933783A (zh) | 一种不良资产经营领域的合同要素化方法 | |
Graf et al. | A risk analysis of file formats for preservation planning | |
CN117290508A (zh) | 一种基于自然语言处理的贷后文本数据处理方法和系统 | |
CN116861924A (zh) | 基于人工智能的项目风险预警方法及系统 | |
CN118013963B (zh) | 敏感词的识别和替换方法及其装置 | |
CN117349437A (zh) | 基于智能ai的政府信息管理系统及其方法 | |
Chua et al. | Problem Understanding of Fake News Detection from a Data Mining Perspective | |
CN117171711A (zh) | 一种基于云平台的企业内外部数据融合共享方法及系统 | |
CN116739408A (zh) | 基于数据标签的电网调度安全监控方法、系统及电子设备 | |
CN106777124B (zh) | 语义认知方法、装置及系统 | |
Basharat et al. | Crowdlink: Crowdsourcing for large-scale linked data management | |
CN110569061A (zh) | 一种基于大数据的软件工程知识库的自动化构建系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |