CN114883005A - 一种数据分类分级方法、装置、电子设备和存储介质 - Google Patents
一种数据分类分级方法、装置、电子设备和存储介质 Download PDFInfo
- Publication number
- CN114883005A CN114883005A CN202210579320.1A CN202210579320A CN114883005A CN 114883005 A CN114883005 A CN 114883005A CN 202210579320 A CN202210579320 A CN 202210579320A CN 114883005 A CN114883005 A CN 114883005A
- Authority
- CN
- China
- Prior art keywords
- data
- classification
- analyzed
- grading
- model
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16H—HEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
- G16H50/00—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
- G16H50/70—ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
- G06F40/289—Phrasal analysis, e.g. finite state techniques or chunking
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/30—Semantic analysis
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- General Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Medical Informatics (AREA)
- Computational Linguistics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Public Health (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- Bioinformatics & Computational Biology (AREA)
- Biomedical Technology (AREA)
- Databases & Information Systems (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Pathology (AREA)
- Life Sciences & Earth Sciences (AREA)
- Epidemiology (AREA)
- Primary Health Care (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
Abstract
本发明实施例涉及一种数据分类分级方法、装置、电子设备和存储介质,所述方法包括:获取数据分类分级模型和标准化处理后的待分析数据;采用该分类分级模型对该待分析数据进行特征提取,以确定其数据特征;采用该分类分级模型根据所述数据特征对待分析数据进行分类,得到分类结果;采用该分类分级模型根据预设的分级规则和分类结果对待分析数据进行分级,得到分级结果;输出分级结果。本发明实施例的技术方案,通过对待分析数据进行特征提取以实现分类分级,提高了数据分类分级处理的准确性;同时提供了基于可信执行环境技术的数据分类分级方法,为数据和模型提供数据传输安全、计算安全、存储安全等全生命周期的隐私安全保护。
Description
技术领域
本发明实施例涉及数据安全领域,尤其涉及一种数据分类分级方法、装置、电子设备和存储介质。
背景技术
通常来说,数据管理将数据分为绝密、机密、秘密和公开四种类型,超过公开级别的数据通常为敏感数据。不同类型的数据具有不同的价值,需要采取不同的额外投入和特定策略等来管理数据,规避因敏感信息的未经授权访问造成重大损失的可能。
发明内容
基于现有技术的上述情况,本发明实施例的目的在于提供一种数据分类分级方法、装置、电子设备和存储介质,能够在保护原始数据的前提下对海量数据进行分级分类,从而实现对商业秘密数据及用户隐私安全的保护。
为了达到上述目的,根据本发明的一个方面,提供了一种数据分类分级方法,所述方法包括:
获取数据分类分级模型和标准化处理后的待分析数据;
在可信执行环境中,采用该分类分级模型对该待分析数据进行特征提取,以确定其数据特征;
在可信执行环境中,采用该分类分级模型根据所述数据特征对待分析数据进行分类,得到分类结果;
在可信执行环境中,采用该分类分级模型根据预设的分级规则和分类结果对待分析数据进行分级,得到分级结果;
输出分级结果,并根据分级结果对待分析数据进行处理。
进一步的,所述特征提取包括:
提取待分析数据中每一条数据的特征;
将该条数据的特征与该条数据的前M条数据和后N条数据的特征相结合,形成该条数据的特征向量;
其中,M和N均为大于等于1的自然数。
进一步的,所述待分析数据包括格式数据和非格式数据;
所述待分析数据为格式数据时,M=M1,N=N1;
所述待分析数据为非格式数据时,M=M2,N=N2;
M2>M1且N2>N1。
进一步的,通过识别该待分析数据中是否包括特殊标识确定该数据为格式数据或非格式数据;
所述特殊标识包括下划线、文字间的空白、文字书写类型标识。
进一步的,还包括:
依据分级结果,为待分析数据中各等级的数据添加相应等级的标记信息,形成数据处理结果,所述标记信息包括:为数据添加等级对应的背景颜色、为数据添加等级编号中的至少一种;
提供交互页面,以在交互页面中展示数据处理结果;
基于在交互页面中的数据调整操作,确定数据调整信息,所述数据调整信息包括新增标记信息和标记信息调整信息;
依据数据调整信息对待分析数据的分级结果进行调整,并对分类分级模型进行调整,以得到调整后的分类分级模型。
进一步的,还包括:
依据分级结果确定待分析数据中隐藏数据的隐藏等级,所述隐藏等级包括全部隐藏和部分隐藏;
按照隐藏等级,为待分析数据中的隐藏数据添加马赛克,形成输出数据。
进一步的,还包括:从第一数据源获取数据分类分级模型,从第二数据源获取待分析数据,其中,所述第一数据源和第二数据源为不同的数据源;
将所述数据分类分级模型和待分析数据传输至可信执行环境中进行分析。
根据本发明的第二个方面,提供了一种医学数据分类分级方法,所述方法包括:
获取数据分类分级模型和标准化处理后的待分析数据,所述待分析数据包括医学文本数据或图像数据;
在可信执行环境中,采用该分类分级模型对该待分析数据进行特征提取,以确定其数据特征;
在可信执行环境中,采用该分类分级模型根据所述数据特征对待分析数据进行分类,得到分类结果;
在可信执行环境中,采用该分类分级模型根据预设的分级规则和分类结果对待分析数据进行分级,得到分级结果;
输出分级结果,并根据分级结果对待分析数据进行处理。
根据本发明的第三个方面,提供了一种数据分类分级装置,包括:
获取模块,用于获取数据分类分级模型和标准化处理后的待分析数据;
特征提取模块,用于在可信执行环境中采用该分类分级模型对该待分析数据进行特征提取,以确定其数据特征;
分类模块,用于在可信执行环境中采用该分类分级模型根据所述数据特征对待分析数据进行分类,得到分类结果;
分级模块,用于在可信执行环境中采用该分类分级模型根据预设的分级规则和分类结果对待分析数据进行分级,得到分级结果;
输出模块,用于输出分级结果,并根据分级结果对待分析数据进行处理。
根据本发明的第四个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令,所述处理器执行所述程序时实现如本发明第一个方面所述的分类分级方法。
根据本发明的第五个方面,提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如本发明第一个方面所述的分类分级方法。
综上所述,本发明实施例提供了一种数据分类分级方法、装置、电子设备和存储介质,所述方法包括:获取数据分类分级模型和标准化处理后的待分析数据;采用该分类分级模型对该待分析数据进行特征提取,以确定其数据特征;采用该分类分级模型根据所述数据特征对待分析数据进行分类,得到分类结果;采用该分类分级模型根据预设的分级规则和分类结果对待分析数据进行分级,得到分级结果;输出分级结果。本发明实施例的技术方案,通过对待分析数据进行特征提取以实现分类分级,提高了数据分类分级处理的准确性;同时提供了基于可信执行环境技术的数据分类分级方法,通过采用远程验证、传输加密、内存隔离、内存加密、数据密封等技术可以为数据和模型提供数据传输安全、计算安全、存储安全等全生命周期的隐私安全保护,从而在技术层面上为用户扫除因隐私保护而产生的模型部署中的障碍。
附图说明
图1是本发明实施例提供的数据分类分级方法的流程图;
图2是多层感知机(MLP)神经网络模型的结构示意图;
图3是本发明另一个实施例提供的数据分类分级方法的流程图;
图4是本发明实施例提供的数据分类分级装置的构成框图;
图5是本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚明了,下面结合具体实施方式并参照附图,对本发明进一步详细说明。应该理解,这些描述只是示例性的,而并非要限制本发明的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本发明的概念。
需要说明的是,除非另外定义,本发明一个或多个实施例使用的技术术语或者科学术语应当为本公开所属领域内具有一般技能的人士所理解的通常意义。本发明一个或多个实施例中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同,而不排除其他元件或者物件。
通过对数据进行高质量的分类分级来保护数据的安全性且不泄露重要的数据。例如,现代医学信息学研究需要大量的生物医学数据的共享与联合分析,然而生物医学数据种类繁多,并且包含了大量敏感的病人隐私信息。如何能有效的评估生物医学数据在共享和使用前的隐私风险,并且在医疗数据共享和使用过程中提供充分的隐私安全保护是非常重要的前提。从医学角度出发,利用分级分类的想法将医学信息进行等级划分和类别划分对医学发展进行起到促进作用且有利用医学信息的共享建设。同时,为了保护医学信息,在特定环境下对数据进行处理也是用户隐私起到保护的作用。因此基于上述医学角度的出发点,建立安全可靠的数据分级分类平台是必要的举措。数据分级分类对数据安全能力建设的核心基础,也是数据保护与利用之间平衡点的重要依据。
下面结合附图对本发明的技术方案进行详细说明。本发明的实施例中,提供了一种数据分类分级方法,图1中示出了该方法的流程图,该数据分类分级方法100包括如下步骤:
S102、获取数据分类分级模型和标准化处理后的待分析数据。本发明实施例例如采用数据分类分级模型来对数据进行分类分级,该数据分类分级模型采用标准的训练数据进行训练后获得,并可以采用新的训练数据不断进行改进。标准化处理主要用于对待分析数据进行清洗和标准化,待分析数据例如为文字数据、图像数据等数据,数据清洗可以去除数据中存在的噪声,例如编码格式不一致、数据中存在过多相同的句子以及存在的无意义的数据,可以采用本领域常见的数据清洗方法对数据进行清洗,利用数据清洗可以提高数据的质量和利用率,有利于提高数据分级分类的准确性。为了提高数据的安全性,数据分类分级模型和待分析数据来源于不同的源,从第一数据源获取数据分类分级模型,从第二数据源获取待分析数据,该第一数据源例如设置于模型拥有方,第二数据源例如设置于数据拥有方。将从不同数据源获取的数据分类分级模型和待分析数据传输至可信执行环境中进行分析,数据拥有方无需将数据提供至模型拥有方进行数据分析,极大地提高了数据的安全性。在实际使用场景中,数据分类分级模型属于模型拥有方公司财产,涉及商业机密,待分析数据可能含有用户的敏感信息而需要进行保护,计算资源可能是由私有云或公有云平台提供、对应不同的部署成本和信任前提。这些因素分别在不同程度上为模型部署带来了障碍,限制了模型的应用范围。而本发明实施例基于可信执行环境技术,通过采用远程验证、传输加密、内存隔离、内存加密、数据密封等技术可以为数据和模型提供数据传输安全、计算安全、存储安全等全生命周期的隐私安全保护,从而在技术层面上为用户扫除上述因隐私保护而产生的模型部署中的障碍,能够为医学信息起到保护作用。
S104、在可信执行环境中,采用该分类分级模型对该待分析数据进行特征提取,以确定其数据特征。特征提取的过程可以为:提取待分析数据中每一条数据的特征;将该条数据的特征与该条数据的前M条数据和后N条数据的特征相结合,形成该条数据的特征向量;其中,M和N均为大于等于1的自然数。例如,当待分析数据为文字时,提取待分析文字内容中每一条数据的特征,该每一条数据可以为一个文字(单个文字)、一个词组或者一个句子等,针对文字来说,该特征例如为语义特征、句法特征、表达特征等,并结合文字的上下文(例如单个文字之前至少一个文字,以及单个文字之后至少一个文字),以形成该条数据的特征向量,从而确定待分析数据的数据特征。特征提取过程例如可以采用jieba分词技术和BPE编码技术。jieba分词技术可以通过数据集生成有向无环图和动态规划思想寻找最佳切分路径,其有三种分词模式为全模式,精确模式,搜索模式,本发明实施例中采用搜索模式进行精确切分。在得到上述Jieba切分后的数据后,对数据集进行BPE编码处理,通过将数据中连续存在的字符替换成数据中不存在的字符,而后通过建立转换关系表进行数据的还原,能使数据中出现次数较少的词转换成较高的词,以减少未登陆词现象。在上述步骤执行完毕,即对数据集进行Glove处理,Glove能够对语料从全局角度进行特征统计,在全局语料信息基础上展开词表征嵌入技术,通过对数据进行全局统计生成共现矩阵及共现概率得到对应词向量,其中包含了数据集的语义特征和内容,对后续数据分属任务的进行起到至关重要的作用。为了获取更加精细丰富的语义特征和内容,在Glove技术处理之后,还可以采用ELMO进行再处理。ELMO采用双层BiLSTM进行模型的训练,组合不同层的词向量作为最终的表达,能够捕捉词义与上文关系和句法信息。ELMO有三层特征表示关系,利用上述得到的词向量作为ELMO的输入,第一层得到了固定的词向量表达,利用BiLSTM的前向网络和后向网络对词的位置信息进行编码,即第二层获得词的句法特征多一些,第三层获得的语义特征多一些。最后整合三层特征表达的加权和即获得较为充沛的语义表达特征。为下游数据的分级分类任务提供可靠基础。该步骤中通过对数据进行一定的分词提高数据的密集性,缓解部分数据的稀疏性问题,同时采用BPE编码技术解决未登陆词问题。然后采用Glove以及ELMO技术对数据级中的词语从词级、语义级以及语法级别获取数据表达特征。
可选的,在特征提取之后,还可以对数据进行数据唯一性识别。针对数据信息的唯一性是一种用来衡量数据的敏感程度和潜在的隐私泄露风险的指标。可以采用g-distinct量化方法对数据进行数据唯一性识别。当一个个体所具有的一组特征与数据集中的g-1个其他个体相同,即称其为具有g-distinct。当套用到唯一性上,当一个个体是唯一的时,其具有1-distinct,也即,其具有的一组特征与数据集中其他个体不相同h(g)=i=1g∑i|bin(i)|,其中,g是模型参数;bin(i)代表有i个相同记录的子集;|bin(i)|是满足有i个相同记录的子集的总数。
S106、在可信执行环境中,采用该分类分级模型根据所述数据特征对待分析数据进行分类,得到分类结果。其中,待分析数据包括格式数据和非格式数据;所述待分析数据为格式数据时,上述M和N的取值为:M=M1,N=N1;所述待分析数据为非格式数据时,上述M和N的取值为:M=M2,N=N2;M2>M1且N2>N1。在分级分类的过程中,可以通过上述方式重点对非格式的部分内容进行识别,该非格式的部分例如为输入或手写的部分,从而进行分级分类。例如对格式信息进行分析时,可以按照第一数量来结合前后文进行分析;对非格式信息进行分析时,可以按照第二数量来结合前后文进行分析,第二数量大于第一数量。通过对于非格式信息结合更多的前后文来进行分析,从而可以提升识别的准确性,通过对于格式信息采取少量的前后文进行分析,从而可以提升识别效率。其中,可以通过识别数据中的文字是否包含下划线(或者冒号、文字间的空白、文字类型(手写))来确定格式信息和非格式信息。
S108、在可信执行环境中,采用该分类分级模型根据预设的分级规则和分类结果对待分析数据进行分级。
上述分类和分级过程中,例如可以采用多层感知机MLP和Softmax激活函数分类方法根据输入数据自身属性的限制程度对数据进行分级分类。多层感知机(MLP)神经网络模型的结构如图2所示,在图2所示的多层感知机中,输入和输出个数分别为4和3,中间的隐藏层中包含了5个隐藏单元(hidden unit)。由于输入层不涉及计算,图2中的多层感知机的层数为2。由图2可知,隐藏层中的神经元和输入层中各个输入完全连接,输出层中的神经元和隐藏层中的各个神经元也完全连接。因此,多层感知机中的隐藏层和输出层都是全连接层。在MLP的隐藏层采用Relu激活函数,输出层采用Softmax激活函数,Softmax函数把输出映射成区间在(0,1)的值,并且做了归一化,所有元素的和累加起来等于1。可以直接当作概率对待,选取概率最大的分类作为预测的目标。例如在对医学数据分析时,可以将用户数据信息按隐私等级划分为公开等级L1,内部使用等级L2,保密等级L3,机密等级L4四个隐私等级,按照用户数据的所示类别划分为数据类别(卫生资源数据,个人属性数据,病例健康数据,医疗支付数据,公共卫生数据),目的类别(卫生服务,监督管理,决策支持,临床研究,商业使用),角色类别(主体(病人/医生),控制者(医院),处理者(第三方公司),使用者(药厂/医院),监管者)三个类别。
S110、输出分级结果,并根据分级结果对待分析数据进行相应处理。所述分类结果和分级结果可以分别展示待分析数据的分类类别和分级等级,分类类别可以包括数据类别、数据目的类别和数据角色类别等,分级等级包括公开等级L1、内部使用等级L2、保密等级L3和机密等级L4等。基于上述分级结果进行相应处理,可以包括如下步骤:依据分级结果确定待分析数据中隐藏数据的隐藏等级,所述隐藏等级包括全部隐藏和部分隐藏;按照隐藏等级,为待分析数据中的隐藏数据添加马赛克,形成输出数据。为了提高数据的安全性,还可以将输出的分类分级结果进行加密后进行传输和返回。本发明实施例中依据分级分类结果对待分析数据进行处理,从而可以依据处理后的待分析数据进行模型训练等应用,如在多方参与的模型训练过程中,可以将安全等级低的数据直接交互进行训练,可以将安全等级高的数据加密或在本地进行计算,从而对数据进行保护。另外也可以应用在数据监控加密过程中,可以设置加密插件,加密插件可以监控输出的数据,并对安全等级高的数据进行监控,在高等级的数据输出时,进行加密,低等级不加密;也可以进行预先加密,从而快速输出。
根据某些实施例,也可以在中间,即对待分析数据进行分类后输出分类结果,对该分类结果采用人工判断分类结果是否正确,然后再回到上述流程中继续进行分级,从而进一步提高输出结果的准确性。
根据某些实施例,该方法还可以包括:依据分级结果,为待分析数据中各等级的数据添加相应等级的标记信息,形成数据处理结果,所述标记信息包括:为数据添加等级对应的背景颜色、为数据添加等级编号中的至少一种;提供交互页面,以在交互页面中展示数据处理结果;基于在交互页面中的数据调整操作,确定数据调整信息,所述数据调整信息包括新增标记信息和标记信息调整信息;依据数据调整信息对待分析数据的分级结果进行调整,并对分类分级模型进行调整,以得到调整后的分类分级模型。还可以输出可调整的分级结果,以使得使用者对该分级结果进行调整;根据调整的分级结果对所述分类分级模型进行调整,以得到调整后的分类分级模型。输出可调整的分级结果,例如可以依据文本、图像等数据生成展示图像,该展示图像中各类关键数据可以显示相应的等级,如按照等级添加编号、按照等级添加关键词的背景颜色;也可以在该展示图像中仅显示可公开的内容。关键数据可能为人名、身份证号、地名、以及病情等数据。其中,所述调整包括对关键数据的分级等级进行调整和对未识别出的关键数据的等级进行添加。具体来说,对应显示分级等级的情况,可以调整关键数据的等级,将等级调低或调高;也可以为将未识别出的关键数据添加等级;对应显示分级等级为公开等级L1的情况,可以为其中显示的关键数据,例如识别出关键数据但分级错误的数据,添加马赛克,从而形成可公开的数据;对应显示分级等级为公开等级L1的情况,可以为其中显示的部分数据,例如未识别成为关键数据的数据,添加马赛克,从而形成可公开的数据。使用者可以上传修改的数据的位置、以及人工输入正常的分类结果、修改后的分级结果,并可以通过加密后传输,从而在可信执行环境中,依据位置确定识别异常的数据,并进行重新分类以及对模型进行调整。
本发明该实施例提供的方案中,模型拥有方提供分类分级模型,数据拥有方提供用户待分析数据信息,模型拥有方上传分类分级模型至基于可信执行环境的安全可信服务器中,数据拥有方即服务使用方,可以在本地调用安全推理SDK,与安全可信服务器建立安全可信加密链路,使用SDK对待分析数据进行加密,将加密好的待分析数据传输至安全可信服务器中的可信执行环境中,并在可信执行境内完成分类分级的分析。模型分类分级的结果也可以加密的形式返回给数据拥有方的本地客户端。用户在本地客户端通过本地密钥对结果解密,然后查看分类分级结果。整个分析过程均在密文以及硬件级别的安全计算环境中进行,明文信息不泄露,可以有效保障用户样本数据的机密信息安全,通过将分类分级模型以及相关待分析数据信息上传到安全可信服务器的可信执行环境中进行安全数据分级分类的分析,最后得出分级分类结果。从而能够对待分析数据信息进行防篡改防偷窃,起到隐私保护作用。
本发明的实施例,还提供了一种医学数据分类分级方法,图3中示出了该方法的流程图,所述方法300包括如下步骤:
S302、获取数据分类分级模型和标准化处理后的待分析数据,所述待分析数据包括医学或文本图像数据。
S304、在可信执行环境中,采用该分类分级模型对该待分析数据进行特征提取,以确定其数据特征。
S306、在可信执行环境中,采用该分类分级模型根据所述数据特征对待分析数据进行分类。
S308、在可信执行环境中,采用该分类分级模型根据预设的分级规则对分类后的训练数据进行分级。
S310、输出分级结果,并根据分级结果对待分析数据进行处理。
该实施例的技术方案针对医学领域的医学文本数据或图像数据进行分类分级,各步骤的具体实施过程与本发明上述实施例的分类分级方法相同,因此,这里将省略其重复描述。
本发明的实施例,还提供了一种数据分类分级装置,图4中示出了该数据分类分级装置的构成框图,该装置400包括:
获取模块401用于获取数据分类分级模型和标准化处理后的待分析数据;
特征提取模块402,用于在可信执行环境中采用该分类分级模型对该待分析数据进行特征提取,以确定其数据特征;
分类模块403,用于在可信执行环境中采用该分类分级模型根据所述数据特征对待分析数据进行分类,得到分类结果;
分级模块404,用于在可信执行环境中采用该分类分级模型根据预设的分级规则和分类结果数据进行分级,得到分级结果;
输出模块405,用于输出分级结果,并根据分级结果对待分析数据进行处理。
上述数据分类分级装置400中的各个模块的具体功能和操作已经在上述实施例的数据分类分级方法中进行了详细介绍,因此,这里将省略其重复描述。
本发明的实施例中,还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令,所述处理器执行所述程序时实现如本发明上述实施例所述的数据分类分级方法。图5所示为本发明该实施例提供的电子设备500的结构示意图。如图5所示,该电子设备500包括:一个或多个处理器501和存储器502;以及存储在存储器502中的计算机可执行指令,可执行指令在被处理器501运行时使得处理器501执行如上述实施例的数据分类分级方法。处理器501可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其他形式的处理单元,并且可以控制电子设备中的其他组件以执行期望的功能。存储器502可以包括一个或多个计算机程序产品,计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。在计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器501可以运行程序指令,以实现上文的本发明实施例的数据分类分级方法中的步骤以及/或者其他期望的功能。
本发明的实施例,还提供了一种计算机可读存储介质,其上存储有计算机可执行指令,所述可执行指令被处理器执行时实现如上述实施例所述的数据分类分级方法。计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器((RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。应当理解的是,本发明实施例中的处理器可以为中央处理单元(Central Processing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(FieldProgrammable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
综上所述,本发明实施例涉及一种数据分类分级方法、装置、电子设备和存储介质,所述方法包括:获取数据分类分级模型和标准化处理后的待分析数据;采用该分类分级模型对该待分析数据进行特征提取,以确定其数据特征;采用该分类分级模型根据所述数据特征对待分析数据进行分类,得到分类结果;采用该分类分级模型根据预设的分级规则和分类结果对待分析数据进行分级,得到分级结果;输出分级结果。本发明实施例的技术方案,通过对待分析数据进行特征提取以实现分类分级,提高了数据分类分级处理的准确性;同时提供了基于可信执行环境技术的数据分类分级方法,通过采用远程验证、传输加密、内存隔离、内存加密、数据密封等技术可以为数据和模型提供数据传输安全、计算安全、存储安全等全生命周期的隐私安全保护,从而在技术层面上为用户扫除因隐私保护而产生的模型部署中的障碍。
应当理解的是,以上任何实施例的讨论仅为示例性的,并非旨在暗示本发明的范围(包括权利要求)被限于这些例子;在本发明的思路下,以上实施例或者不同实施例中的技术特征之间也可以进行组合,步骤可以以任意顺序实现,并存在如上所述的本发明一个或多个实施例的不同方面的许多其它变化,为了简明它们没有在细节中提供。本发明的上述具体实施方式仅仅用于示例性说明或解释本发明的原理,而不构成对本发明的限制。因此,在不偏离本发明的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。此外,本发明所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
Claims (11)
1.一种数据分类分级方法,其特征在于,所述方法包括:
获取数据分类分级模型和标准化处理后的待分析数据;
在可信执行环境中,采用该分类分级模型对该待分析数据进行特征提取,以确定其数据特征;
在可信执行环境中,采用该分类分级模型根据所述数据特征对待分析数据进行分类,得到分类结果;
在可信执行环境中,采用该分类分级模型根据预设的分级规则和分类结果对待分析数据进行分级,得到分级结果;
输出分级结果,并根据分级结果对待分析数据进行处理。
2.根据权利要求1所述的方法,其特征在于,所述特征提取包括:
提取待分析数据中每一条数据的特征;
将该条数据的特征与该条数据的前M条数据和后N条数据的特征相结合,形成该条数据的特征向量;
其中,M和N均为大于等于1的自然数。
3.根据权利要求2所述的方法,其特征在于,所述待分析数据包括格式数据和非格式数据;
所述待分析数据为格式数据时,M=M1,N=N1;
所述待分析数据为非格式数据时,M=M2,N=N2;
M2>M1且N2>N1。
4.根据权利要求3所述的方法,其特征在于,通过识别该待分析数据中是否包括特殊标识确定该数据为格式数据或非格式数据;
所述特殊标识包括下划线、文字间的空白、文字书写类型标识。
5.根据权利要求1所述的方法,其特征在于,还包括:
依据分级结果,为待分析数据中各等级的数据添加相应等级的标记信息,形成数据处理结果,所述标记信息包括:为数据添加等级对应的背景颜色、为数据添加等级编号中的至少一种;
提供交互页面,以在交互页面中展示数据处理结果;
基于在交互页面中的数据调整操作,确定数据调整信息,所述数据调整信息包括新增标记信息和标记信息调整信息;
依据数据调整信息对待分析数据的分级结果进行调整,并对分类分级模型进行调整,以得到调整后的分类分级模型。
6.根据权利要求1所述的方法,其特征在于,还包括:
依据分级结果确定待分析数据中隐藏数据的隐藏等级,所述隐藏等级包括全部隐藏和部分隐藏;
按照隐藏等级,为待分析数据中的隐藏数据添加马赛克,形成输出数据。
7.根据权利要求1所述的方法,其特征在于,还包括:从第一数据源获取数据分类分级模型,从第二数据源获取待分析数据,其中,所述第一数据源和第二数据源为不同的数据源;
将所述数据分类分级模型和待分析数据传输至可信执行环境中进行分析。
8.一种医学数据分类分级方法,其特征在于,所述方法包括:
获取数据分类分级模型和标准化处理后的待分析数据,所述待分析数据包括医学文本数据或图像数据;
在可信执行环境中,采用该分类分级模型对该待分析数据进行特征提取,以确定其数据特征;
在可信执行环境中,采用该分类分级模型根据所述数据特征对待分析数据进行分类,得到分类结果;
在可信执行环境中,采用该分类分级模型根据预设的分级规则和分类结果对待分析数据进行分级,得到分级结果;
输出分级结果,并根据分级结果对待分析数据进行处理。
9.一种数据分类分级装置,其特征在于,包括:
获取模块,用于获取数据分类分级模型和标准化处理后的待分析数据;
特征提取模块,用于在可信执行环境中采用该分类分级模型对该待分析数据进行特征提取,以确定其数据特征;
分类模块,用于在可信执行环境中采用该分类分级模型根据所述数据特征对待分析数据进行分类,得到分类结果;
分级模块,用于在可信执行环境中采用该分类分级模型根据预设的分级规则和分类结果对待分析数据进行分级,得到分级结果;
输出模块,用于输出分级结果,并根据分级结果对待分析数据进行处理。
10.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的可执行指令,其特征在于,所述处理器执行所述程序时实现如权利要求1-8中任一项所述的分类分级方法。
11.一种计算机可读存储介质,其上存储有计算机可执行指令,其特征在于,所述可执行指令被处理器执行时实现如权利要求1-8中任一项所述的分类分级方法。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210579320.1A CN114883005A (zh) | 2022-05-25 | 2022-05-25 | 一种数据分类分级方法、装置、电子设备和存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202210579320.1A CN114883005A (zh) | 2022-05-25 | 2022-05-25 | 一种数据分类分级方法、装置、电子设备和存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN114883005A true CN114883005A (zh) | 2022-08-09 |
Family
ID=82676881
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202210579320.1A Pending CN114883005A (zh) | 2022-05-25 | 2022-05-25 | 一种数据分类分级方法、装置、电子设备和存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN114883005A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115391810A (zh) * | 2022-09-23 | 2022-11-25 | 高印 | 一种基于大数据的数据分级加密方法及ai系统 |
CN116861496A (zh) * | 2023-09-04 | 2023-10-10 | 合肥工业大学 | 一种智慧医疗信息安全显示方法及系统 |
CN117633605A (zh) * | 2024-01-25 | 2024-03-01 | 浙江鹏信信息科技股份有限公司 | 数据安全分类分级能力成熟度评估方法、系统及可读介质 |
-
2022
- 2022-05-25 CN CN202210579320.1A patent/CN114883005A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN115391810A (zh) * | 2022-09-23 | 2022-11-25 | 高印 | 一种基于大数据的数据分级加密方法及ai系统 |
CN116861496A (zh) * | 2023-09-04 | 2023-10-10 | 合肥工业大学 | 一种智慧医疗信息安全显示方法及系统 |
CN117633605A (zh) * | 2024-01-25 | 2024-03-01 | 浙江鹏信信息科技股份有限公司 | 数据安全分类分级能力成熟度评估方法、系统及可读介质 |
CN117633605B (zh) * | 2024-01-25 | 2024-04-12 | 浙江鹏信信息科技股份有限公司 | 数据安全分类分级能力成熟度评估方法、系统及可读介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Busuioc | Accountable artificial intelligence: Holding algorithms to account | |
US20230013306A1 (en) | Sensitive Data Classification | |
Brown et al. | The algorithm audit: Scoring the algorithms that score us | |
Vale et al. | Explainable artificial intelligence (XAI) post-hoc explainability methods: Risks and limitations in non-discrimination law | |
CN114883005A (zh) | 一种数据分类分级方法、装置、电子设备和存储介质 | |
Xu | Synthesizing tabular data using conditional GAN | |
Bologa et al. | Big data and specific analysis methods for insurance fraud detection. | |
CN107533698A (zh) | 社交媒体事件的检测与验证 | |
Lago et al. | Visual and textual analysis for image trustworthiness assessment within online news | |
Wang et al. | Fake news in virtual community, virtual society, and metaverse: A survey | |
Chatterjee et al. | Classifying facts and opinions in Twitter messages: a deep learning-based approach | |
EP3591561A1 (en) | An anonymized data processing method and computer programs thereof | |
Tan et al. | Research status of deep learning methods for rumor detection | |
Permana et al. | Perception analysis of the Indonesian society on twitter social media on the increase in BPJS kesehatan contribution in the Covid 19 pandemic era | |
Monterrubio et al. | Coronavirus fake news detection via MedOSINT check in health care official bulletins with CBR explanation: The way to find the real information source through OSINT, the verifier tool for official journals | |
Dehshibi et al. | A deep multimodal learning approach to perceive basic needs of humans from Instagram profile | |
CN112968873B (zh) | 一种用于隐私数据传输的加密方法和装置 | |
CN112579771B (zh) | 一种内容的标题检测方法及装置 | |
Deeb-Swihart et al. | Ethical tensions in applications of ai for addressing human trafficking: A human rights perspective | |
Duan et al. | A Gaussian copula regression model for movie box-office revenues prediction | |
CN113762973A (zh) | 数据处理方法、装置、计算机可读介质及电子设备 | |
Borradaile et al. | Whose tweets are surveilled for the police: an audit of a social-media monitoring tool via log files | |
EP4174738B1 (en) | Systems and methods for protecting trainable model validation datasets | |
Bailer et al. | Challenges for Automatic Detection of Fake News Related to Migration | |
Hamed et al. | A Review of Fake News Detection Models: Highlighting the Factors Affecting Model Performance and the Prominent Techniques Used |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |