CN116402334A - 一种多模态数据合规分析与智能评估方法及装置 - Google Patents
一种多模态数据合规分析与智能评估方法及装置 Download PDFInfo
- Publication number
- CN116402334A CN116402334A CN202211741479.5A CN202211741479A CN116402334A CN 116402334 A CN116402334 A CN 116402334A CN 202211741479 A CN202211741479 A CN 202211741479A CN 116402334 A CN116402334 A CN 116402334A
- Authority
- CN
- China
- Prior art keywords
- compliance
- data
- model
- layer
- risk
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000004458 analytical method Methods 0.000 title claims abstract description 36
- 238000011156 evaluation Methods 0.000 title abstract description 7
- 238000000034 method Methods 0.000 claims abstract description 45
- 238000012545 processing Methods 0.000 claims abstract description 40
- 238000005516 engineering process Methods 0.000 claims abstract description 11
- 238000012549 training Methods 0.000 claims description 32
- 230000006870 function Effects 0.000 claims description 21
- 230000008569 process Effects 0.000 claims description 16
- 230000004913 activation Effects 0.000 claims description 12
- 239000013598 vector Substances 0.000 claims description 11
- 239000011159 matrix material Substances 0.000 claims description 9
- 238000003062 neural network model Methods 0.000 claims description 7
- 238000005259 measurement Methods 0.000 claims description 6
- 238000013135 deep learning Methods 0.000 claims description 5
- 238000013145 classification model Methods 0.000 claims description 3
- 238000001514 detection method Methods 0.000 claims description 3
- 235000013399 edible fruits Nutrition 0.000 claims description 3
- 238000000605 extraction Methods 0.000 claims description 3
- 238000010801 machine learning Methods 0.000 claims description 3
- 238000003058 natural language processing Methods 0.000 claims description 3
- 238000012502 risk assessment Methods 0.000 claims description 3
- 238000012015 optical character recognition Methods 0.000 claims description 2
- 238000011158 quantitative evaluation Methods 0.000 description 7
- 238000012795 verification Methods 0.000 description 5
- 238000012550 audit Methods 0.000 description 4
- 238000010586 diagram Methods 0.000 description 4
- 230000010354 integration Effects 0.000 description 3
- 238000012360 testing method Methods 0.000 description 3
- 230000000694 effects Effects 0.000 description 2
- 230000001788 irregular Effects 0.000 description 2
- 238000002372 labelling Methods 0.000 description 2
- 238000007726 management method Methods 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 230000006978 adaptation Effects 0.000 description 1
- 238000013473 artificial intelligence Methods 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000009286 beneficial effect Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000013136 deep learning model Methods 0.000 description 1
- 238000000586 desensitisation Methods 0.000 description 1
- 238000013461 design Methods 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000005065 mining Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 238000013106 supervised machine learning method Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06Q—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
- G06Q10/00—Administration; Management
- G06Q10/06—Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
- G06Q10/063—Operations research, analysis or management
- G06Q10/0635—Risk analysis of enterprise or organisation activities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/177—Editing, e.g. inserting or deleting of tables; using ruled lines
- G06F40/18—Editing, e.g. inserting or deleting of tables; using ruled lines of spreadsheets
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Business, Economics & Management (AREA)
- Theoretical Computer Science (AREA)
- Human Resources & Organizations (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Strategic Management (AREA)
- Economics (AREA)
- Entrepreneurship & Innovation (AREA)
- General Engineering & Computer Science (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Development Economics (AREA)
- Educational Administration (AREA)
- Tourism & Hospitality (AREA)
- Game Theory and Decision Science (AREA)
- Quality & Reliability (AREA)
- Operations Research (AREA)
- Marketing (AREA)
- General Business, Economics & Management (AREA)
- Biomedical Technology (AREA)
- Biophysics (AREA)
- Data Mining & Analysis (AREA)
- Evolutionary Computation (AREA)
- Molecular Biology (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Management, Administration, Business Operations System, And Electronic Commerce (AREA)
Abstract
本发明公开了一种多模态数据合规分析与智能评估方法及装置,该方法包括:获取不同类型、不同存储方式的多模态数据;识别标记出多模态数据中的敏感信息;基于数据生命周期模块化拆分合规问卷表单,生成全周期数据合规表单,将合规表单发送至用户并获取用户填写的合规表单;将敏感数据和用户填写的合规表单作为输入,送入预训练的合规风险识别模型进行合规分析,识别出违规数据项和风险点,并给出合规指数得分;基于风险点,送入预训练的智能推荐合规建议模型进行分析,从而智能推荐合规建议,自动给出合规风险评估并生成合规报告;针对违规数据,进行一键自动合规处理;运用区块链技术,将数据合规处理的记录保存上链,以防止篡改丢失。
Description
技术领域
本发明属于数据合规处理领域,尤其涉及一种多模态数据合规分析与智能评估方法及装置。
背景技术
随着5G、人工智能、物联网等新一代信息技术的发展,数据已与土地、劳动力、资本、技术并列为第五大基础性生产要素,需要加快培育数据要素市场,加快推动各地区各部门间数据共享交换,提升社会数据资源价值,加强数据资源整合和安全保护。但在获取与利用数据所蕴含巨大价值的同时也伴随着肆意收集、过度使用、非法买卖个人信息等数据安全问题,并引起了社会的广泛关注。
审计与法律工作者在面临多模态海量数据与多维属性时存在工作量极大和处理难度极高的双重挑战,传统合规审计方式在处理大数据时存在明显瓶颈。与此同时,在实施隐私保护管理的过程中,企业同样面临着来自管理层、支持部门、产品本身等各方面带来的诸多挑战。数据合规领域主要涉及两个不同子领域,其一,利用深度学习模型从多模态的数据中识别出敏感信息;其二,结合识别的敏感数据和用户所填写的表单,通过神经网络模型识别出违规项和风险点。
《Private Data Discovery for Privacy Compliance in CollaborativeEnvironments》提出了一种自动识别存在于半结构化和非结构化文件中的私人数据方法。该方法的第一部分涉及通过命名实体识别来识别敏感的个人身份信息。第二部分是根据监督下的机器学习方法来确定这些实体之间的关系。从而使用从不同的合作活动中产生的公开数据来提供合作计算环境中的可扩展性评估。但该方法存在很多局限性,只是用于识别存在于半结构化和非结构化文件中的数据,并且应用的场景相对单一,没有建立基于现行法律基础上的合规评估标准和方法。
发明内容
本申请实施例的目的是自动高效地帮助企业等组织发现数据在全周期活动中存在的安全风险问题。由于审计与法律工作者在面临多模态海量数据与多维属性时存在工作量极大和处理难度极高的双重挑战,传统靠人力合规审计方式在处理大数据时存在明显瓶颈。本申请提供一种方法及装置、电子设备,用以低成本、自动地从海量数据中对重要数据和敏感数据进行盘点,挖掘展示其中不合规的数据项,并智能地给出合规意见和处理方式。从而保证数据合规合法处理与流动,充分激发数据要素巨大价值。
根据本申请实施例的第一方面,提供一种多模态数据合规分析与智能评估方法,包括:
多模态数据获取:获取不同类型、不同存储方式的多模态数据;
多模态敏感信息自动抽取与分类分级:对所述多模态数据进行分类分级,并识别标记出所述多模态数据中的敏感信息;
基于全周期的可编程数据合规表单生成:基于数据生命周期模块化拆分合规问卷表单,根据不同业务流程自由编程数据流转方式并自动生成全周期数据合规表单,将所述合规表单发送至用户并获取所述用户填写的合规表单;
进行数据合规智能分析:将所述敏感数据和用户填写的合规表单作为输入,送入预训练的合规风险识别模型进行合规分析,识别出违规数据项和风险点,并给出合规指数得分;
智能推荐合规建议与措施并集成一键合规:基于所述风险点,送入预训练的智能推荐合规建议模型进行分析,从而智能推荐合规建议,自动给出合规风险评估并生成合规报告;
数据合规处理:针对所述违规数据,进行一键自动合规处理;
数据合规存证:运用区块链技术,将数据合规处理的记录保存上链,以防止篡改丢失。
进一步地,所述多模态数据为网页、文件、邮件、数据库、云数据库的数据,包括文本数据、图像数据、音频数据、视频数据。
进一步地,对所述多模态数据进行分类分级,并识别标记出所述多模态数据中的敏感信息,包括:
利用自然语言处理模型对非结构文本数据进行命名实体识别和敏感信息识别,利用基于深度学习的光学字符识别模型对图像数据进行敏感信息识别,利用自动语音识别模型对音频数据进行敏感信息识别,利用基于深度学习的视频目标检测模型,支持对视频数据中的敏感信息识别;
利用基于合规知识库的多模态机器学习分类模型,支持对所述非结构文本数据、图像数据、音频数据、视频数据进行分类分级。
进一步地,所述合规风险识别模型为神经网络模型,将所述敏感数据和用户填写的合规表单通过词嵌入的方式将两种输入拼接为向量形式作为输入,违规分类作为输出。
进一步地,所述合规风险识别模型包括:
输入层:输入敏感数据和所填写的多个表单结果通过词嵌入方式拼接的矩阵B;
卷积层:对输入的矩阵采用3个相同大小为2 1的卷积核,步长为1,进行卷积操作;
全连接层:采用4层全连接层结构,长度分别为1024、512、128、64,其中,ReLu作为全连接层的激活函数,Dropout用于防止模型过拟合;
输出层:该层的输出由长度为第一训练集中定义的违规分类数量的向量构成,其中,每个输出值分别对应一个类标签,该层采用sigmoid作为激活函数,输出值可视为样本属于对应标签的概率;
其中在模型的预训练过程中,以交叉熵作为误差衡量标准的loss函数训练标签分类器;所述第一训练集包括实际的数据违规案例中的风险数据、表单内容以及违规分类。
进一步地,所述智能推荐合规建议模型为预训练的神经网络模型,将合规风险点和法律法规通过词嵌入的方式将两种输入拼接为向量形式作为输入,输出合规建议。
进一步地,所述智能推荐合规建议模型包括:
输入层:分别获得的风险点的tocken序列和对应的法律法规的tocken序列作为输入;
嵌入层:通过bert预训练模型获取两个tocken序列的嵌入矩阵;
编码层:对于获得的任意风险点的词嵌入矩阵,由bert编码器获得编码表示;对于对应的法律法规,同样由bert编码器获得编码表示,将两个编码层获得的嵌入矩阵进行拼接;
卷积层:采用3个相同大小为2 1的卷积核,步长为1,对其进行卷积操作;
全连接层:采用4层全连接层结构,长度分别为1024、512、128、64,其中,ReLu作为全连接层的激活函数,Dropout用于防止模型过拟合;
输出层:该层由长度为所述合规建议库的个数的向量构成,其中,每个输出值分别对应一个建议类。该层采用sigmoid作为激活函数,输出值可视为样本属于对应标签的概率;
其中,在模型的训练过程中,以交叉熵作为误差衡量标准的loss函数训练标签分类器。
根据本申请实施例的第二方面,提供一种多模态数据合规分析与智能评估装置,包括:
多模态数据获取模块,用于获取不同类型、不同存储方式的多模态数据;
多模态敏感信息自动抽取与分类分级模块,用于对所述多模态数据进行分类分级,并识别标记出所述多模态数据中的敏感信息;
基于全周期的可编程数据合规表单生成模块,用于基于数据生命周期模块化拆分合规问卷表单,根据不同业务流程自由编程数据流转方式并自动生成全周期数据合规表单,将所述合规表单发送至用户并获取所述用户填写的合规表单;
数据合规智能分析模块,用于将所述敏感数据和用户填写的合规表单作为输入,送入预训练的合规风险识别模型进行合规分析,识别出违规数据项和风险点,并给出合规指数得分;
智能推荐合规建议与措施并集成一键合规模块,用于基于所述风险点,送入预训练的智能推荐合规建议模型进行分析,从而智能推荐合规建议,自动给出合规风险评估并生成合规报告;
数据合规处理模块,用于针对所述违规数据,进行一键自动合规处理;
数据合规存证模块,用于运用区块链技术,将数据合规处理的记录保存上链,以防止篡改丢失。
根据本申请实施例的第三方面,提供一种电子设备,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的方法。
根据本申请实施例的第四方面,提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如第一方面所述方法的步骤。
本申请的实施例提供的技术方案可以包括以下有益效果:
由上述实施例可知,本申请通过高度集成数十种人工智能模型算法,可以自动、准确地从多模态数据中识别出相关的敏感数据;本发明提供的预训练模型可以自动分析全流程数据合规表单与识别出的违规数据项,结合合规知识库与数据合规量化评价指标自动评估数据合规风险,智能推荐违规条款与合规意见,并且针对各违规数据项集成一键合规功能,从而实现海量多模态数据合规分析与智能评估。能够有效降低数据合规的人工成本、提高相关任务效率,且具有集成度高、智能性强、使用简便等优点。
应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
图1是根据一示例性实施例示出的一种多模态数据合规分析与智能评估方法的流程图。
图2是根据一示例性实施例示出的一种多模态数据合规分析与智能评估装置的框图。
图3是根据一示例性实施例示出的电子设备的示意图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。
在本申请使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请。在本申请和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本申请可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是根据一示例性实施例示出的一种多模态数据合规分析与智能评估方法的流程图,如图1所示,该方法可以包括以下步骤:
(1)多模态数据获取:获取不同类型、不同存储方式的多模态数据;
(2)多模态敏感信息自动抽取与分类分级:对所述多模态数据进行分类分级,并识别标记出所述多模态数据中的敏感信息;
(3)基于全周期的可编程数据合规表单生成:基于数据生命周期模块化拆分合规问卷表单,根据不同业务流程自由编程数据流转方式并自动生成全周期数据合规表单,将所述合规表单发送至用户并获取所述用户填写的合规表单;
(4)通过预训练模型进行数据合规智能分析:将所述敏感数据和用户填写的合规表单作为输入,送入预训练模型进行合规分析,识别出违规数据项和风险点;
(5)智能推荐合规建议与措施并集成一键合规:基于所述风险点,送入预训练的智能推荐合规建议模型进行分析,从而智能推荐合规建议,自动给出合规风险评估并生成合规报告;
(6)数据合规处理:针对所述违规数据,进行一键自动合规处理;
(7)数据合规存证:运用区块链技术,将数据合规处理的记录保存上链,以防止篡改丢失。
由上述实施例可知,本申请通过高度集成数十种人工智能模型算法,可以自动、准确地从多模态数据中识别出相关的敏感数据;本发明提供的预训练模型可以自动分析全流程数据合规表单与识别出的违规数据项,结合合规知识库与数据合规量化评价指标自动评估数据合规风险,智能推荐违规条款与合规意见,并且针对各违规数据项集成一键合规功能,从而实现海量多模态数据合规分析与智能评估。能够有效降低数据合规的人工成本、提高相关任务效率,且具有集成度高、智能性强、使用简便等优点。
在步骤(1)的具体实施中,多模态数据获取:获取不同类型、不同存储方式的多模态数据;
具体地,可以从数据上传与扫描接口获取所述多模态数据,所述多模态数据为从网页、文件、邮件、数据库、云数据库等获取的数据,包括文本数据、图像数据、音频数据、视频数据等。更具体地,所述数据上传与扫描接口能够针对所上传的各种类型数据进行全量扫描:SQL Server、MySQL、Access、Oracle、DB2等主流数据库接口,对数据库内的数据进行全量扫描;网页及邮件扫描接口,能够对网页及网络邮件中各类型数据进行全量扫描;常见云端数据库访问接口,全量扫描存储在云端的数据。
在步骤(2)的具体实施中,多模态敏感信息自动抽取与分类分级:对所述多模态数据进行分类分级,并识别标记出所述多模态数据中的敏感信息;
具体地,通过自然语言处理模型对非结构文本数据进行命名实体识别和敏感信息识别;通过自动语音识别模型对音频数据进行敏感信息识别;通过基于深度学习的视频目标检测模型对视频数据中的敏感信息识别。
利用基于合规知识库的多模态机器学习分类模型,支持对所述非结构文本数据、图像数据、音频数据、视频数据进行分类分级。依据现行的数据分类分级保护制度,按照数据对国家安全、公共利益或者个人、组织合法权益的影响和重要程度,将数据分为一般数据、重要数据、核心数据,不同级别的数据采取不同的保护措施。国家对个人信息和重要数据进行重点保护,对核心数据实行严格保护。对于个人信息而言,人脸、指纹、定位、金融账户等均为敏感信息。
在步骤(3)的具体实施中,基于全周期的可编程数据合规表单生成:基于数据生命周期模块化拆分合规问卷表单,根据不同业务流程自由编程数据流转方式并自动生成全周期数据合规表单,将所述合规表单发送至用户并获取所述用户填写的合规表单;
具体地,建立数据合规知识库,包含法律库、问卷表单库、案例库、标签库、合规量化评价指标库、建议库、模型库,其中所述法律库包括数据安全相关的法律法规、标准和规范,所述问卷表单库是以数据安全相关的法律法规、标准和规范为基础,结合法律专家、数据专家、审计专家和企业专家的专业知识专门为平台系统自动化处理制定的可量化、可复用、可迁移的问卷库;所述案例库是和所述法律法规相对应的,包括每个案例违反的条法律法规,或者说是否具有可能违反所述法律法规的风险;所述的标签库是用来表征用户上传数据的特点;所述合规量化评价指标库包括违规项风险评级和各数据维度的评分,具体的所述的数据维度涉及不同的违规项,根据特定违规项及数据体量、数据类别等变量计算不规则多边形的面积作为各数据维度的得分;所述建议库是由法律专家结合不同的敏感数据以及不同的数据流转流程制定的合规建议,对于数据合规处理有着指导性的意义;所述模型库为针对不同场景训练的人工智能模型,用户可以根据自身业务需求选取不同的模型。
基于上述问卷库,按照数据全生命周期模块化设置问卷表单。在一实施例中提供可视化问卷编程界面,模块之间可自由拖拽组合进行编程,最终根据编程好的模块自动生成合规问卷表单。
平台根据《个人信息保护法》、《网络安全法》、《数据安全法》内置不同问卷模板,用户可在此基础上添加关联其他表单,具体的,用户将根据自己的目的或者行为选择问卷,如果所述问卷已经具有模板,则可以直接获取,若没有则可以通过选择问卷模块组成新的问卷模板,所述新的问卷模板将存储到所述问卷库中。
在步骤(4)的具体实施中,进行数据合规智能分析:将所述敏感数据和用户填写的合规表单作为输入,送入预训练的合规风险识别模型进行合规分析,识别出违规数据项和风险点,并给出合规指数得分;
具体地,根据所述敏感数据和用户填写的合规表单,通过合规风险识别模型自动识别出违规数据项和风险点,并计算数据合规量化评价指标,给出各项合规指数得分;
其中所述合规风险识别模型为神经网络模型,将所述敏感数据和用户填写的合规表单通过词嵌入的方式将两种输入拼接为向量形式作为输入,违规分类作为模型输出,选取一部分实际的数据违规案例作为第一训练集,另一部分违规案例作为测试集与验证集,得到训练好的模型作为数据合规风险识别预训练模型,精准识别出违规数据项和风险点。
所述的第一训练集可以通过法律专业人士标注获取,其中包括风险数据、表单内容以及违规分类,所述违规分类由专业人士结合法律法规以及业务流程设计完成,分类应该涵盖实际业务中的所有情况。
所述合规风险识别模型采用所述训练集的分类标签训练用于识别违规项和风险点的多标签分类器,该模型可以由以下模块组成:
输入层:输入敏感数据和所填写的多个表单结果通过词嵌入方式拼接的矩阵B;
卷积层:对输入的矩阵采用3个相同大小为2 1的卷积核,步长为1,进行卷积操作;
全连接层:采用4层全连接层结构,长度分别为1024、512、128、64,其中,ReLu作为全连接层的激活函数,Dropout用于防止模型过拟合;
输出层:该层的输出由长度为训练集中定义的分类标签数量的向量构成,其中,每个输出值分别对应一个类标签。该层采用sigmoid作为激活函数,输出值可视为样本属于对应标签的概率;
在模型的预训练过程中,以交叉熵作为误差衡量标准的loss函数训练标签分类器;
所述合规风险识别模型在训练完成后,即可部署到数据合规合规平台,当所述需求端需要进行合规分析审核时,只需要调取所述预测模型,并输入所述敏感数据和用户填写的表单,即可获取合规分类,从而定位到具体的法条。
通过合规量化评价指标自动核算数据合规得分。所述合规量化评价指标为专业人士给定,具体包括违规项风险评级和各数据维度的评分,具体的所述的数据维度涉及不同的违规项,根据特定违规项及数据体量、数据类别等变量计算不规则多边形的面积作为各数据维度的得分。
在步骤(5)的具体实施中,智能推荐合规建议与措施并集成一键合规:基于所述风险点,送入预训练的智能推荐合规建议模型进行分析,从而智能推荐合规建议,自动给出合规风险评估并生成合规报告;
具体地,所述预训练的智能推荐合规建议模型为预训练的神经网络模型,将合规风险点和法律法规通过词嵌入的方式将两种输入拼接为向量形式作为输入,输出合规建议,其中在所述预训练模型的训练阶段,选取一部分实际的数据违规案例作为第二训练集,另一部分违规案例作为测试集与验证集,进行训练,从而得到训练好的模型作为数据合规风险识别预训练模型。
通过步骤(4)自动获取用户上传数据中的违规数据和合规风险点,通过智能推荐合规建议模型自动推荐合规建议,并生成合规报告。所述智能推荐合规建议模型为预训练的神经网络模型,将步骤(4)识别的合规风险点和法律法规分别作为作为输入进入两个编码层,合规建议作为输出,选取一部分实际的数据违规案例作为第二训练集,另一部分违规案例作为测试集与验证集,得到训练好的模型作为数据合规风险识别预训练模型,智能地给出合规建议。
所述的第二训练集可以通过法律专业人士标注获取,其中包违规数据、合规风险点和合规建议,所述合规建议由专业人士结合法律法规以及业务流程评定给出,并建立合规建议库。
所述智能推荐合规建议模型包括如下模块:
输入层:分别将步骤(4)获得的风险点的tocken序列和对应的法律法规的tocken序列作为输入;
嵌入层:通过bert预训练模型获取两个tocken序列的嵌入矩阵;
编码层:对于步骤(4)获得的任意风险点的词嵌入矩阵,由bert编码器获得编码表示;对于对应的法律法规,同样由bert编码器获得编码表示,将两个编码层获得的嵌入矩阵进行拼接;
卷积层:采用3个相同大小为2 1的卷积核,步长为1,对其进行卷积操作;
全连接层:采用4层全连接层结构,长度分别为1024、512、128、64,其中,ReLu作为全连接层的激活函数,Dropout用于防止模型过拟合;
输出层:该层的输出由长度为训练集中定义的建议模板数量的向量构成,其中,每个输出值分别对应一个建议类。该层采用sigmoid作为激活函数,输出值可视为样本属于对应标签的概率;
在该模型的训练过程中,以交叉熵作为误差衡量标准的loss函数训练标签分类器;
在所述预测模型在训练完成后,当要进行合规分析建议时,只需要调取所述预测模型,并输入所述违规数据和违规风险点,即可智能获取合规建议,其中合规建议包括违规项、规避风险、合规建议及合规操作。
在步骤(6)的具体实施中,数据合规处理:针对所述违规数据,进行一键自动合规处理;
具体地,数据合规处理步骤以可视化方式呈现,从而方便用户查看进度与处理过程。可对格式化数据、文本数据、图像数据、音频数据、视频数据中的违规进行自动化处理。对于不同类别的数据,采取不同的脱敏手段,对于格式化数据和文本数据中涉及的敏感数据用*代替,对于图片中涉及的敏感数据进行打马赛克处理,对于语音数据涉及到的敏感数据进行消音处理,对于视频中涉及到的敏感数据,对特定帧的特定部位进行打马赛克的处理。
在步骤(7)的具体实施中,数据合规存证:运用区块链技术,将数据合规处理的记录保存上链,以防止篡改丢失;
具体地,运用区块链技术,将本次合规项目基本信息、合规报告、合规操作日志信息上链记录,作为审计证据防止篡改丢失。
与前述的多模态数据合规分析与智能评估方法的实施例相对应,本申请还提供了多模态数据合规分析与智能评估装置的实施例。
图2是根据一示例性实施例示出的一种多模态数据合规分析与智能评估装置框图。参照图2,该装置可以包括:
多模态数据获取模块21,用于获取不同类型、不同存储方式的多模态数据;
多模态敏感信息自动抽取与分类分级模块22,用于对所述多模态数据进行分类分级,并识别标记出所述多模态数据中的敏感信息;
基于全周期的可编程数据合规表单生成模块23,用于基于数据生命周期模块化拆分合规问卷表单,根据不同业务流程自由编程数据流转方式并自动生成全周期数据合规表单,将所述合规表单发送至用户并获取所述用户填写的合规表单;
数据合规智能分析模块24,用于将所述敏感数据和用户填写的合规表单作为输入,送入预训练的合规风险识别模型进行合规分析,识别出违规数据项和风险点,并给出合规指数得分;
智能推荐合规建议与措施并集成一键合规模块25,用于基于所述风险点,送入预训练的智能推荐合规建议模型进行分析,从而智能推荐合规建议,自动给出合规风险评估并生成合规报告;
数据合规处理模块26,用于针对所述违规数据,进行一键自动合规处理;
数据合规存证模块27,用于运用区块链技术,将数据合规处理的记录保存上链,以防止篡改丢失。
关于上述实施例中的装置,其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述,此处将不做详细阐述说明。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
相应的,本申请还提供一种电子设备,包括:一个或多个处理器;存储器,用于存储一个或多个程序;当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如上述的多模态数据合规分析与智能评估方法。如图3所示,为本发明实施例提供的一种多模态数据合规分析与智能评估方法所在任意具备数据处理能力的设备的一种硬件结构图,除了图3所示的处理器、内存以及网络接口之外,实施例中装置所在的任意具备数据处理能力的设备通常根据该任意具备数据处理能力的设备的实际功能,还可以包括其他硬件,对此不再赘述。
相应的,本申请还提供一种计算机可读存储介质,其上存储有计算机指令,该指令被处理器执行时实现如上述的多模态数据合规分析与智能评估方法。所述计算机可读存储介质可以是前述任一实施例所述的任意具备数据处理能力的设备的内部存储单元,例如硬盘或内存。所述计算机可读存储介质也可以是外部存储设备,例如所述设备上配备的插接式硬盘、智能存储卡(Smart Media Card,SMC)、SD卡、闪存卡(Flash Card)等。进一步的,所述计算机可读存储介还可以既包括任意具备数据处理能力的设备的内部存储单元也包括外部存储设备。所述计算机可读存储介质用于存储所述计算机程序以及所述任意具备数据处理能力的设备所需的其他程序和数据,还可以用于暂时地存储已经输出或者将要输出的数据。
本领域技术人员在考虑说明书及实践这里公开的内容后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。
应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。
Claims (10)
1.一种多模态数据合规分析与智能评估方法,其特征在于,包括:
多模态数据获取:获取不同类型、不同存储方式的多模态数据;
多模态敏感信息自动抽取与分类分级:对所述多模态数据进行分类分级,并识别标记出所述多模态数据中的敏感信息;
基于全周期的可编程数据合规表单生成:基于数据生命周期模块化拆分合规问卷表单,根据不同业务流程自由编程数据流转方式并自动生成全周期数据合规表单,将所述合规表单发送至用户并获取所述用户填写的合规表单;
进行数据合规智能分析:将所述敏感数据和用户填写的合规表单作为输入,送入预训练的合规风险识别模型进行合规分析,识别出违规数据项和风险点,并给出合规指数得分;
智能推荐合规建议与措施并集成一键合规:基于所述风险点,送入预训练的智能推荐合规建议模型进行分析,从而智能推荐合规建议,自动给出合规风险评估并生成合规报告;
数据合规处理:针对所述违规数据,进行一键自动合规处理;
数据合规存证:运用区块链技术,将数据合规处理的记录保存上链,以防止篡改丢失。
2.根据权利要求1所述的方法,其特征在于,所述多模态数据为网页、文件、邮件、数据库、云数据库的数据,包括文本数据、图像数据、音频数据、视频数据。
3.根据权利要求1所述的方法,其特征在于,对所述多模态数据进行分类分级,并识别标记出所述多模态数据中的敏感信息,包括:
利用自然语言处理模型对非结构文本数据进行命名实体识别和敏感信息识别,利用基于深度学习的光学字符识别模型对图像数据进行敏感信息识别,利用自动语音识别模型对音频数据进行敏感信息识别,利用基于深度学习的视频目标检测模型,支持对视频数据中的敏感信息识别;
利用基于合规知识库的多模态机器学习分类模型,支持对所述非结构文本数据、图像数据、音频数据、视频数据进行分类分级。
4.根据权利要求1所述的方法,其特征在于,所述合规风险识别模型为神经网络模型,将所述敏感数据和用户填写的合规表单通过词嵌入的方式将两种输入拼接为向量形式作为输入,违规分类作为输出。
5.根据权利要求1所述的方法,其特征在于,所述合规风险识别模型包括:
输入层:输入敏感数据和所填写的多个表单结果通过词嵌入方式拼接的矩阵B;
卷积层:对输入的矩阵采用3个相同大小为2 1的卷积核,步长为1,进行卷积操作;
全连接层:采用4层全连接层结构,长度分别为1024、512、128、64,其中,ReLu作为全连接层的激活函数,Dropout用于防止模型过拟合;
输出层:该层的输出由长度为第一训练集中定义的违规分类数量的向量构成,其中,每个输出值分别对应一个类标签,该层采用sigmoid作为激活函数,输出值可视为样本属于对应标签的概率;
其中在模型的预训练过程中,以交叉熵作为误差衡量标准的loss函数训练标签分类器;所述第一训练集包括实际的数据违规案例中的风险数据、表单内容以及违规分类。
6.根据权利要求1所述的方法,其特征在于,所述智能推荐合规建议模型为预训练的神经网络模型,将合规风险点和法律法规通过词嵌入的方式将两种输入拼接为向量形式作为输入,输出合规建议。
7.根据权利要求1所述的方法,其特征在于,所述智能推荐合规建议模型包括:
输入层:分别获得的风险点的tocken序列和对应的法律法规的tocken序列作为输入;
嵌入层:通过bert预训练模型获取两个tocken序列的嵌入矩阵;
编码层:对于获得的任意风险点的词嵌入矩阵,由bert编码器获得编码表示;对于对应的法律法规,同样由bert编码器获得编码表示,将两个编码层获得的嵌入矩阵进行拼接;
卷积层:采用3个相同大小为2 1的卷积核,步长为1,对其进行卷积操作;
全连接层:采用4层全连接层结构,长度分别为1024、512、128、64,其中,ReLu作为全连接层的激活函数,Dropout用于防止模型过拟合;
输出层:该层由长度为所述合规建议库的个数的向量构成,其中,每个输出值分别对应一个建议类。该层采用sigmoid作为激活函数,输出值可视为样本属于对应标签的概率;
其中,在模型的训练过程中,以交叉熵作为误差衡量标准的loss函数训练标签分类器。
8.一种多模态数据合规分析与智能评估装置,其特征在于,包括:
多模态数据获取模块,用于获取不同类型、不同存储方式的多模态数据;
多模态敏感信息自动抽取与分类分级模块,用于对所述多模态数据进行分类分级,并识别标记出所述多模态数据中的敏感信息;
基于全周期的可编程数据合规表单生成模块,用于基于数据生命周期模块化拆分合规问卷表单,根据不同业务流程自由编程数据流转方式并自动生成全周期数据合规表单,将所述合规表单发送至用户并获取所述用户填写的合规表单;
数据合规智能分析模块,用于将所述敏感数据和用户填写的合规表单作为输入,送入预训练的合规风险识别模型进行合规分析,识别出违规数据项和风险点,并给出合规指数得分;
智能推荐合规建议与措施并集成一键合规模块,用于基于所述风险点,送入预训练的智能推荐合规建议模型进行分析,从而智能推荐合规建议,自动给出合规风险评估并生成合规报告;
数据合规处理模块,用于针对所述违规数据,进行一键自动合规处理;
数据合规存证模块,用于运用区块链技术,将数据合规处理的记录保存上链,以防止篡改丢失。
9.一种电子设备,其特征在于,包括:
一个或多个处理器;
存储器,用于存储一个或多个程序;
当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如权利要求1-7任一项所述的方法。
10.一种计算机可读存储介质,其上存储有计算机指令,其特征在于,该指令被处理器执行时实现如权利要求1-7中任一项所述方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211741479.5A CN116402334A (zh) | 2022-12-31 | 2022-12-31 | 一种多模态数据合规分析与智能评估方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202211741479.5A CN116402334A (zh) | 2022-12-31 | 2022-12-31 | 一种多模态数据合规分析与智能评估方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116402334A true CN116402334A (zh) | 2023-07-07 |
Family
ID=87006341
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202211741479.5A Pending CN116402334A (zh) | 2022-12-31 | 2022-12-31 | 一种多模态数据合规分析与智能评估方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116402334A (zh) |
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118035712A (zh) * | 2024-04-12 | 2024-05-14 | 数据空间研究院 | 一种基于nlp的数据收集合规识别方法 |
CN118035712B (zh) * | 2024-04-12 | 2024-06-21 | 数据空间研究院 | 一种基于nlp的数据收集合规识别方法 |
-
2022
- 2022-12-31 CN CN202211741479.5A patent/CN116402334A/zh active Pending
Cited By (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN118035712A (zh) * | 2024-04-12 | 2024-05-14 | 数据空间研究院 | 一种基于nlp的数据收集合规识别方法 |
CN118035712B (zh) * | 2024-04-12 | 2024-06-21 | 数据空间研究院 | 一种基于nlp的数据收集合规识别方法 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
EP3522078A1 (en) | Explainable artificial intelligence | |
Issa et al. | Research ideas for artificial intelligence in auditing: The formalization of audit and workforce supplementation | |
US20170109639A1 (en) | General Model for Linking Between Nonconsecutively Performed Steps in Business Processes | |
CN109800354B (zh) | 一种基于区块链存储的简历修改意图识别方法及系统 | |
CN114648392B (zh) | 基于用户画像的产品推荐方法、装置、电子设备及介质 | |
Dey et al. | Which pull requests get accepted and why? a study of popular npm packages | |
CN113762973A (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
CN110414806B (zh) | 员工风险预警方法及相关装置 | |
CN110490304B (zh) | 一种数据处理方法及设备 | |
WO2021024145A1 (en) | Systems and methods for process mining using unsupervised learning and for automating orchestration of workflows | |
CN116861924A (zh) | 基于人工智能的项目风险预警方法及系统 | |
CN114625406A (zh) | 应用开发管控方法、计算机设备、存储介质 | |
Murdick et al. | AI Definitions Affect Policymaking | |
CN112200465B (zh) | 基于多媒体信息智能分析的电力ai方法及系统 | |
Balona | ActuaryGPT: Applications of large language models to insurance and actuarial work | |
CN116976321A (zh) | 文本处理方法、装置、计算机设备、存储介质和程序产品 | |
CN116402334A (zh) | 一种多模态数据合规分析与智能评估方法及装置 | |
CN115482075A (zh) | 财务数据的异常分析方法、装置、电子设备及存储介质 | |
CN114493853A (zh) | 信用等级评价方法、装置、电子设备及存储介质 | |
Parthasarathy et al. | A framework for managing ethics in data science projects | |
CN113706207A (zh) | 基于语义解析的订单成交率分析方法、装置、设备及介质 | |
Föhr et al. | Deep Learning Meets Risk-Based Auditing: A Holistic Framework for Leveraging Foundation and Task-Specific Models in Audit Procedures | |
CN117172632B (zh) | 一种企业异常行为检测方法、装置、设备及存储介质 | |
Iglesias et al. | A practical guide to (successfully) collect and process images through online surveys | |
CN117493140B (zh) | 一种针对深度学习模型的评测系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |