CN116090006B - 一种基于深度学习的敏感识别方法及系统 - Google Patents

一种基于深度学习的敏感识别方法及系统 Download PDF

Info

Publication number
CN116090006B
CN116090006B CN202310049401.5A CN202310049401A CN116090006B CN 116090006 B CN116090006 B CN 116090006B CN 202310049401 A CN202310049401 A CN 202310049401A CN 116090006 B CN116090006 B CN 116090006B
Authority
CN
China
Prior art keywords
sample data
sensitive
test
field attribute
sub
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310049401.5A
Other languages
English (en)
Other versions
CN116090006A (zh
Inventor
金震
张京日
穆宇浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing SunwayWorld Science and Technology Co Ltd
Original Assignee
Beijing SunwayWorld Science and Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing SunwayWorld Science and Technology Co Ltd filed Critical Beijing SunwayWorld Science and Technology Co Ltd
Priority to CN202310049401.5A priority Critical patent/CN116090006B/zh
Publication of CN116090006A publication Critical patent/CN116090006A/zh
Application granted granted Critical
Publication of CN116090006B publication Critical patent/CN116090006B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Bioethics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Security & Cryptography (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Hardware Design (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供了一种基于深度学习的敏感识别方法及系统,其方法包括:S1:基于用户设置的每个敏感等级的所有字段属性集合,生成每个敏感等级的每个字段属性的初始模型;S2:利用用户上传的每个敏感等级的每个字段属性的样本数据,对初始模型进行训练并测试,获得测试结果;S3:基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型;S4:将待识别数据库中的所有数据表输入至所有最终敏感识别模型,获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果;用以将深度学习和敏感识别结合,使得用户只需上传样本数据,即可自动深度学习并训练测试出符合要求的敏感识别模型,与传统的敏感识别方式相比,识别准确率和效率都有所提高。

Description

一种基于深度学习的敏感识别方法及系统
技术领域
本发明涉及敏感识别技术领域,特别涉及一种基于深度学习的敏感识别方法及系统。
背景技术
目前,在数据安全中,需要对数据库中的数据进行敏感识别,识别出不同敏感等级的字段数据,进而进行标签化或者二次处理,传统的敏感识别是基于规则的,如黑白名单、正则表达式等。此类方法对于简单的敏感识别任务比较适用。
但当数据量较大,敏感规则复杂的场景,配置黑白名单,制定正则表达式将是一件很繁琐、很低效,甚至于无法完成的任务,例如,对姓名字段属性的数据进行敏感识别时,传统的正则表达式和黑白名单无法定义姓名的字段数据,所以,无法完成敏感识别任务。
因此,本发明提出一种基于深度学习的敏感识别方法及系统。
发明内容
本发明提供一种基于深度学习的敏感识别方法及系统,用以将深度学习和敏感识别结合,使得用户只需上传样本数据,即可自动深度学习并训练测试出符合要求的敏感识别模型,与传统的敏感识别方式相比,识别准确率和效率都有所提高。
本发明提供一种基于深度学习的敏感识别方法,包括:
S1:基于用户设置的每个敏感等级的所有字段属性集合,生成每个敏感等级的每个字段属性的初始模型;
S2:利用用户上传的每个敏感等级的每个字段属性的样本数据,对初始模型进行训练并测试,获得测试结果;
S3:基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型;
S4:将待识别数据库中的所有数据表输入至所有最终敏感识别模型,获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果。
优选的,所述的一种基于深度学习的敏感识别方法,S2:利用用户上传的每个敏感等级的每个字段属性的样本数据,对初始模型进行训练并测试,获得测试结果,包括:
S201:将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本;
S202:利用训练样本训练对应敏感等级的对应字段属性的初始模型,获得每个敏感等级的每个字段属性的敏感识别模型;
S203:基于测试样本测试对应敏感等级的对应字段属性的敏感识别模型,获得测试结果。
优选的,所述的一种基于深度学习的敏感识别方法,S201:将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本,包括:
获取包含用户上传的每个敏感等级的每个字段属性的样本数据中的所有第一子样本数据的所有完整数据表,并将每个完整数据表中包含的样本数据中的所有第一子样本数据进行标记,获得多个样本标记数据表;
对所有样本数据表进行排序,获得样本数据表的第一序数,基于统一排序方式对所有样本数据表中包含的单位数据进行排序,获得每个样本数据表中每个第一子样本数据的第二序数;
基于每个样本数据表的第一序数和每个样本数据表中每个第一子样本数据的第二序数,生成样本数据中所有第一子样本数据的第一序列;
基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数,获得每个敏感等级的每个字段属性的初始样本数据;
将初始样本数据划分为训练样本和测试样本。
优选的,所述的一种基于深度学习的敏感识别方法,基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数,获得每个敏感等级的每个字段属性的初始样本数据,包括:
基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻前一第一子样本数据的第二序数以及对应第一子样本数据的第二序数,生成对应第一子样本数据的第一三维分布坐标;
基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻后一第一子样本数据的第二序数以及对应第一子样本数据的第二序数,生成对应第一子样本数据的第二三维分布坐标;
基于第一三维分布坐标和第二三维分布坐标,获得每个敏感等级的每个字段属性的初始样本数据。
优选的,所述的一种基于深度学习的敏感识别方法,基于第一三维分布坐标点和第二三维坐标点,获得每个敏感等级的每个字段属性的初始样本数据,包括:
基于第一三维分布坐标和第二三维分布坐标生成对应第一子样本数据的第一位置分布特征向量;
将第一位置分布特征向量和用户上传的每个敏感等级的每个字段属性的样本数据中的每个第一子样本数据进行对应绑定,获得每个敏感等级的每个字段属性的初始样本数据。
优选的,所述的一种基于深度学习的敏感识别方法,将初始样本数据划分为训练样本和测试样本,包括:
基于预设比例,将每个敏感等级的每个字段属性的初始样本数据中的正样本数据和负样本数据划分为正训练样本数据和负训练样本数据以及正测试样本数据和负测试样本数据;
将正训练样本数据和负训练样本数据汇总,获得训练样本;
将正测试样本数据和负测试样本数据汇总,获得测试样本。
优选的,所述的一种基于深度学习的敏感识别方法,S203:基于测试样本测试对应敏感等级的对应字段属性的敏感识别模型,获得测试结果,包括:
将测试样本输入至对应敏感等级的对应字段属性的敏感识别模型中,获得每个敏感等级的每个字段属性的测试敏感识别结果;
基于用户输入的对测试敏感识别结果的识别正误性判断结果,确定出每个敏感识别模型的测试识别准确率;
将所有敏感识别模型的测试识别准确率当作测试结果。
优选的,所述的一种基于深度学习的敏感识别方法,基于用户输入的对测试敏感识别结果的识别正误性判断结果,确定出每个敏感识别模型的测试识别准确率,包括:
基于用户输入的对测试敏感识别结果的识别正误性判断结果,确定出每个敏感识别模型的测试样本中识别正确的单位数据的第一总数;
将第一总数和对应敏感识别模型的测试样本中包含的所有单位数据的第二总数的比值作为初始识别准确率;
确定出每个敏感识别模型的正训练样本数据中每个第一子样本数据的第一位置分布特征向量和每个敏感识别模型的正测试样本数据中每个第一子样本数据的第二位置分布特征向量;
基于正训练样本数据中所有第一子样本数据在对应的第一序列中的顺序,对所有第一位置分布特征向量进行排序,获得第二序列;
基于正测试样本数据中所有第一子样本数据在对应的第一序列中的顺序,对所有第二位置分布特征向量进行排序,获得第三序列;
基于第二序列和第三序列,计算出每个敏感识别模型的正训练样本数据和正测试样本数据中子样本数据的分布差别率;
基于初始识别准确率和分布差别率,计算出对应敏感识别模型的测试识别准确率。
优选的,所述的一种基于深度学习的敏感识别方法,S3:基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型,包括:
判断测试结果中的所有敏感识别模型的测试识别准确率是否不小于准确率阈值,若是,则将每个敏感等级的每个字段属性的敏感识别模型当作对应敏感等级的对应字段属性的最终敏感识别模型;
否则,基于重新接收的对应敏感等级的对应字段属性的样本数据对对应初始模型进行重新训练和测试,直至最新获得的敏感识别模型的测试识别准确率不小于准确率阈值时,则将最新获得的敏感识别模型当作对应敏感等级的对应字段属性的最终敏感识别模型。
本发明提供一种基于深度学习的敏感识别系统,包括:
第一生成模块,用于基于用户设置的每个敏感等级的所有字段属性集合,生成每个敏感等级的每个字段属性的初始模型;
模型训练模块,用于利用用户上传的每个敏感等级的每个字段属性的样本数据,对初始模型进行训练并测试,获得测试结果;
第二生成模块,用于基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型;
敏感识别模块,用于将待识别数据库中的所有数据表输入至所有最终敏感识别模型,获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果。
本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
附图说明
附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。在附图中:
图1为本发明实施例中一种基于深度学习的敏感识别方法流程图;
图2为本发明实施例中又一种基于深度学习的敏感识别方法流程图;
图3为本发明实施例中一种基于深度学习的敏感识别系统示意图。
具体实施方式
以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
实施例1:
本发明提供了一种基于深度学习的敏感识别方法,参考图1,包括:
S1:基于用户设置的每个敏感等级的所有字段属性集合,生成每个敏感等级的每个字段属性的初始模型;
S2:利用用户上传的每个敏感等级的每个字段属性的样本数据,对初始模型进行训练并测试,获得测试结果;
S3:基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型;
S4:将待识别数据库中的所有数据表输入至所有最终敏感识别模型,获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果。
该实施例中,敏感等级即为需要被敏感识别出的数据的敏感等级,例如有:绝密、保密、涉密等级别。
该实施例中,字段属性集合即为用户设置的不同敏感等级的字段属性构成的集合,例如:将数据表A中的字段属性为“姓名”和“年收入”的数据设置为涉密等级。
该实施例中,初始模型即为基于用户设置的初始模型配置生成的用于基于用户输入的样本数据训练测试后生成可识别出用户设置的每个敏感等级的所有字段属性集合对应的数据的模型。
该实施例中,样本数据即为用户上传的用于对初始模型进行训练并测试的样本数据,其中,包含正样本(例如1000个姓名样本)和负样本(例如1000个非姓名样本)。
该实施例中,测试结果即为利用用户上传的每个敏感等级的每个字段属性的样本数据对初始模型进行训练并测试后获得的结果,包含每个训练后的敏感识别模型对测试样本中的敏感数据的测试识别准确率。
该实施例中,最终敏感识别模型即为基于测试结果判断训练后的敏感识别模型是否满足要求,若是,则将敏感识别模型当作最终敏感识别模型,否则,基于重新输入的样本数据对初始模型进行重新训练和测试,直至测试出训练后的敏感识别模型满足要就是,则将敏感识别模型当作最终敏感识别模型。
该实施例中,待识别数据库即为包含所有需要被敏感识别的数据表的数据库。
该实施例中,敏感数据即为利用最终敏感识别模型在待识别数据库中识别出的每个敏感等级的每个字段属性的数据作为对应敏感等级的敏感数据。
该实施例中,最终敏感识别结果即为利用最终识别模型在待识别数据库中识别出的包含每个敏感等级的每个字段属性的敏感数据的结果。
该实施例中,本发明通过用户输入的每个敏感等级(例如涉密)的每个字段属性(例如姓名,即用户提前设置数据表中字段属性为“姓名”的数据为涉密等级)的样本数据对初始模型进行训练(利用样本数据中的训练样本)测试(利用样本数据中的测试样本)后获得的可以识别出对应字段属性(例如姓名)的敏感数据,实现对不同敏感等级的不同字段属性的敏感数据的准确高效识别。
以上技术的有益效果为:将深度学习和敏感识别结合,使得用户只需上传样本数据,即可自动深度学习并训练测试出符合要求的敏感识别模型,基于训练测试出的最终敏感识别模型去识别待识别数据库中的敏感数据,与传统的敏感识别方式相比,识别准确率和效率都有所提高。
实施例2:
在实施例1的基础上,所述的一种基于深度学习的敏感识别方法,S2:利用用户上传的每个敏感等级的每个字段属性的样本数据,对初始模型进行训练并测试,获得测试结果,参考图2,包括:
S201:将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本;
S202:利用训练样本训练对应敏感等级的对应字段属性的初始模型,获得每个敏感等级的每个字段属性的敏感识别模型;
S203:基于测试样本测试对应敏感等级的对应字段属性的敏感识别模型,获得测试结果。
该实施例中,训练样本即为由用户上传的每个敏感等级的每个字段属性的样本数据划分获得的用于训练对应敏感等级的对应字段属性的初始模型的数据。
该实施例中,测试样本即为由用户上传的每个敏感等级的每个字段属性的样本数据划分获得的用于测试对应敏感等级的对应字段属性的敏感识别模型的数据。
该实施例中,敏感识别模型即为利用训练样本训练对应敏感等级的对应字段属性的初始模型后获得的模型。
以上技术的有益效果为:通过将用户上传的每个敏感等级的字段属性的样本数据划分为训练样本和测试样本,并基于训练样本和测试样本对初始模型分别进行训练和测试,不仅生成可识别敏感数据的敏感识别模型,并实现对敏感识别模型的测试识别。
实施例3:
在实施例2的基础上,所述的一种基于深度学习的敏感识别方法,S201:将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本,包括:
获取包含用户上传的每个敏感等级的每个字段属性的样本数据中的所有第一子样本数据的所有完整数据表,并将每个完整数据表中包含的样本数据中的所有第一子样本数据进行标记,获得多个样本标记数据表;
对所有样本数据表进行排序,获得样本数据表的第一序数,基于统一排序方式对所有样本数据表中包含的单位数据进行排序,获得每个样本数据表中每个第一子样本数据的第二序数;
基于每个样本数据表的第一序数和每个样本数据表中每个第一子样本数据的第二序数,生成样本数据中所有第一子样本数据的第一序列;
基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数,获得每个敏感等级的每个字段属性的初始样本数据;
将初始样本数据划分为训练样本和测试样本。
该实施例中,第一子样本数据即为用户上传的每个敏感等级的每个字段属性的样本数据中的单位数据。
该实施例中,完整数据表即为包含第一子样本数据的完整的数据表(即最原始状态的数据表)。
该实施例中,本标记数据表即为将每个完整数据表中包含的样本数据中的所有第一子样本数据进行标记后获得的数据表。
该实施例中,第一序数即为对所有样本数据表进行排序(例如按照数据规模排序,或者按照数据表的实体的预设顺序对样本数据表进行排序)后确定出的样本数据表的序数。
该实施例中,统一排序方式即为对每个样本数据表中包含的单位数据进行排序的方式,例如,可采用行优先的原则进行排序,例如:第一行的数据比第二行的数据的顺序靠前,当行序数一致时,利用列序数进行排序的方法。
该实施例中,第二序数即为基于统一排序方式对所有样本数据表中包含的单位数据进行排序后确定出的子样本数据在所在的样本数据表中的序数,这样获得的第一子样本数据的第二序数可能相邻也可能不相邻,因为是对所有样本数据表中包含的单位数据进行排序后确定出的第二序数,而不是对所有第一子样本数据排序后确定出的第二序数。
该实施例中,第一序列即为基于每个样本数据表的第一序数和每个样本数据表中每个第一子样本数据的第二序数生成的由样本数据中所有第一子样本数据构成的序列,例如:第一序数在前的第一子样本数据在第一序列中的序数更靠前,当两个第一子样本数据的第一序数一致时,则第二序数靠前的第一子样本数据在第一序列中的序数更靠前。
该实施例中,初始样本数据即为基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数确定出的初始的样本数据,即将基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数确定出表征每个第一子样本数据的位置分布特征的数据进行对应绑定后获得的样本数据。
以上技术的有益效果为:通过确定出包含样本数据中的第一子样本数据的完整数据表的顺序以及第一子样本数据在完整数据表中的顺序,便于后续表示出每个第一子样本数据在完整数据表中的分布位置,将其与样本数据进行结合,可以在训练初始模型时,使得训练出的敏感识别模型在识别敏感数据时可以综合考虑到敏感数据在完整数据表中的分布位置(因为某一字段属性的数据在完整数据表中的分布位置多存在规律,例如以列分布,因此,识别时结合数据的分布位置可以大大提高敏感识别的准确性),进而使得训练出的敏感识别模型的识别准确率更高。
实施例4:
在实施例2的基础上,所述的一种基于深度学习的敏感识别方法,基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数,获得每个敏感等级的每个字段属性的初始样本数据,包括:
基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻前一第一子样本数据的第二序数以及对应第一子样本数据的第二序数,生成对应第一子样本数据的第一三维分布坐标;
基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻后一第一子样本数据的第二序数以及对应第一子样本数据的第二序数,生成对应第一子样本数据的第二三维分布坐标;
基于第一三维分布坐标和第二三维分布坐标,获得每个敏感等级的每个字段属性的初始样本数据。
该实施例中,基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻前一第一子样本数据的第二序数以及对应第一子样本数据的第二序数,生成对应第一子样本数据的第一三维分布坐标,第一三维分布坐标即为(x1,y1,z1),式中,x1为第一子样本数据所在的样本数据表的第一序数,y1为第一子样本数据对应相邻前一第一子样本数据的第二序数,z1为第一子样本数据的第二序数。
该实施例中,基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻后一第一子样本数据的第二序数以及对应第一子样本数据的第二序数,生成对应第一子样本数据的第二三维分布坐标,第二三维分布坐标即为(x2,y2,z2),式中,x2为第一子样本数据所在的样本数据表的第一序数,y2为第一子样本数据对应相邻后一第一子样本数据的第二序数,z2为第一子样本数据的第二序数。
以上技术的有益效果为:基于第一序列中每个第一子样本数据所在的样本数据表的第一序数、对应相邻前一第一子样本数据的第二序数和对应相邻后一第一子样本数据的第二序数以及对应第一子样本数据的第二序数,生成第一子样本数据的第一三维分布坐标和第二三维分布坐标,实现基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数确定出每个样本数据在完整数据表中的分布特征。
实施例5:
在实施例4的基础上,所述的一种基于深度学习的敏感识别方法,基于第一三维分布坐标点和第二三维坐标点,获得每个敏感等级的每个字段属性的初始样本数据,包括:
基于第一三维分布坐标和第二三维分布坐标生成对应第一子样本数据的位置分布特征向量;
将位置分布特征向量和用户上传的每个敏感等级的每个字段属性的样本数据中的每个第一子样本数据进行对应绑定,获得每个敏感等级的每个字段属性的初始样本数据。
该实施例中,位置分布特征向量即为将第一三维分布坐标指向第二三维分布坐标的向量,也是表征第一子样本数据在样本数据表中与前一第一子样本数据以及后一第一子样本数据之间的相对位置关系的向量。
以上技术的有益效果为:基于第一三维分布坐标和第二三维分布坐标生成对应第一子样本数据的位置分布特征向量,并将位置分布特征向量和用户上传的每个敏感等级的每个字段属性的样本数据中的每个第一子样本数据进行对应绑定,获得表征每个第一子样本数据的位置特征的向量和对应的样本数据。
实施例6:
在实施例2的基础上,所述的一种基于深度学习的敏感识别方法,将初始样本数据划分为训练样本和测试样本,包括:
基于预设比例,将每个敏感等级的每个字段属性的初始样本数据中的正样本数据和负样本数据划分为正训练样本数据和负训练样本数据以及正测试样本数据和负测试样本数据;
将正训练样本数据和负训练样本数据汇总,获得训练样本;
将正测试样本数据和负测试样本数据汇总,获得测试样本。
该实施例中,预设比例即为预先设置的将用户上传的样本数据划分为训练样本和测试样本的比例,例如:9比1,训练样本数据的数据规模为样本数据的数据规模的0.9倍,测试样本数据的数据规模为样本数据的数据规模的0.1倍。
该实施例中,正样本数据即为每个敏感等级的每个字段属性的初始样本数据中的正样本。
该实施例中,负样本数据即为每个敏感等级的每个字段属性的初始样本数据中的负样本。
该实施例中,正训练样本数据即为由每个敏感等级的每个字段属性的初始样本数据划分获得的用于训练初始模型的正样本数据。
该实施例中,负训练样本数据即为由每个敏感等级的每个字段属性的初始样本数据划分获得的用于训练初始模型的负样本数据。
该实施例中,正测试样本数据即为由每个敏感等级的每个字段属性的初始样本数据划分获得的用于测试初始模型的正样本数据。
该实施例中,负测试样本数据即为由每个敏感等级的每个字段属性的初始样本数据划分获得的用于测试初始模型的负样本数据。
以上技术的有益效果为:基于预设比例将每个敏感等级的每个字段属性的初始样本数据中的正样本数据和负样本数据划分为正训练样本数据和负训练样本数据以及正测试样本数据和负测试样本数据,获得训练样本和测试样本,进而获得训练并测试初始模型的样本数据。
实施例7:
在实施例2的基础上,所述的一种基于深度学习的敏感识别方法,S203:基于测试样本测试对应敏感等级的对应字段属性的敏感识别模型,获得测试结果,包括:
将测试样本输入至对应敏感等级的对应字段属性的敏感识别模型中,获得每个敏感等级的每个字段属性的测试敏感识别结果;
基于用户输入的对测试敏感识别结果的识别正误性判断结果,确定出每个敏感识别模型的测试识别准确率;
将所有敏感识别模型的测试识别准确率当作测试结果。
该实施例中,测试敏感识别结果即为将测试样本输入至对应敏感等级的对应字段属性的敏感识别模型中后敏感识别模型在测试样本中识别出的敏感数据。
该实施例中,识别正误性判断结果即为用户输入的对测试敏感识别结果中识别正误的标记判断结果,即用户标记出敏感识别模型识别出的测试数据中的敏感数据的正误性。
该实施例中,测试识别准确率即为敏感识别模型对测试样本中的敏感数据识别的准确率。
以上技术的有益效果为:通过将测试样本输入至对应敏感等级的对应字段属性的敏感识别模型中,并基于用户输入的对测试敏感识别结果的识别正误性判断结果,确定出每个敏感识别模型的测试识别准确率,实现对敏感识别模型的测试过程。
实施例8:
在实施例7的基础上,所述的一种基于深度学习的敏感识别方法,基于用户输入的对测试敏感识别结果的识别正误性判断结果,确定出每个敏感识别模型的测试识别准确率,包括:
基于用户输入的对测试敏感识别结果的识别正误性判断结果,确定出每个敏感识别模型的测试样本中识别正确的单位数据的第一总数;
将第一总数和对应敏感识别模型的测试样本中包含的所有单位数据的第二总数的比值作为初始识别准确率;
确定出每个敏感识别模型的正训练样本数据中每个第一子样本数据的第一位置分布特征向量和每个敏感识别模型的正测试样本数据中每个第一子样本数据的第二位置分布特征向量;
基于正训练样本数据中所有第一子样本数据在对应的第一序列中的顺序,对所有第一位置分布特征向量进行排序,获得第二序列;
基于正测试样本数据中所有第一子样本数据在对应的第一序列中的顺序,对所有第二位置分布特征向量进行排序,获得第三序列;
基于第二序列和第三序列,计算出每个敏感识别模型的正训练样本数据和正测试样本数据中子样本数据的分布差别率;
基于初始识别准确率和分布差别率,计算出对应敏感识别模型的测试识别准确率。
该实施例中,第一总数即为每个敏感识别模型对测试样本中包含的敏感数据识别正确的总数。
该实施例中,第二总数即为测试样本中包含的单位数据的总数。
该实施例中,初始识别准确率即为对应敏感识别模型的测试样本的第一总数和第二总数的比值。
该实施例中,第一位置分布特征向量即为正训练样本数据中的每个第一子样本数据的位置分布特征向量。
该实施例中,第二位置分布特征向量即为正测试样本数据中每个第一子样本数据的位置分布特征向量。
该实施例中,第二序列即为基于正训练样本数据中所有第一子样本数据在对应的第一序列中的顺序对所有第一位置分布特征向量进行排序后获得的序列。
该实施例中,基于正测试样本数据中每个第一子样本数据的完整数据表的顺序和每个第一子样本数据在对应完整数据表中的第三序数,确定出包含所有第一子样本数据的第三序列
该实施例中,第三序列即为基于正测试样本数据中所有第一子样本数据在对应的第一序列中的顺序对所有第二位置分布特征向量进行排序后获得的序列。
该实施例中,基于第二序列和第三序列,计算出每个敏感识别模型的正训练样本数据和正测试样本数据中子样本数据的分布差别率,包括:
式中,γfb为敏感识别模型的正训练样本数据和正测试样本数据中子样本数据的分布差别率,i为第二序列中的第i个第一位置分布特征向量和第三序列中的第i个第二位置分布特征向量,n为第二序列中包含的第一位置分布特征向量的总数和第三序列中的第二位置分布特征向量的总数中的较大值,A1i为第二序列中的第i个第一位置分布特征向量,A2i为第三序列中的第i个第二位置分布特征向量,|A1i|为第二序列中的第i个第一位置分布特征向量的模,|A2i|为第三序列中的第i个第二位置分布特征向量的模,α1i,2i为第二序列中的第i个第一位置分布特征向量和第三序列中的第i个第二位置分布特征向量之间的夹角,cosα1i,2i为第二序列中的第i个第一位置分布特征向量和第三序列中的第i个第二位置分布特征向量之间的夹角余弦值;
当第二序列中不存在第i个第一位置分布特征向量或第三序列中不存在第i个第二位置分布特征向量时,则将对应的第一位置分布特征向量或第二位置分布特征向量设置为零向量(例如,第二序列中包含的第一位置分布特征向量总数为10,第三序列中包含的第二位置分布特征向量总数为8,则基于上述公式计算时将第三序列中包含的第9至10个第二位置分布特征向量设置为零向量);
基于上述公式可以准确计算出敏感识别模型的正训练样本数据和正测试样本数据中子样本数据的分布差别率。
该实施例中,基于初始识别准确率和分布差别率,计算出对应敏感识别模型的测试识别准确率,包括:
θ=γfbc
式中,θ为敏感识别模型的测试识别准确率,γfb为分布差别率,βc为初始识别准确率;
基于上述公式可以综合考虑敏感识别模型的正训练样本数据和正测试样本数据中子样本数据的分布差别率,准确计算出敏感识别模型的测试识别准确率。
以上技术的有益效果为:通过统计出的敏感识别模型正确识别出测试样本中的敏感数据的总数和测试样本中的敏感数据的总数,计算出初始识别准确率,并基于正训练样本中每个第一子样本数据的第一位置分布特征向量构成的序列和正测试样本中每个第一子样本数据的第二位置分布特征向量构成的序列,实现综合子样本数据在正训练样本和正测试样本中的分布特征,计算出敏感识别模型的正训练样本数据和正测试样本数据中子样本数据的分布差别率,并结合计算出的初始识别准确率,使得计算出的敏感识别模型的测试识别准确率更加准确。
实施例9:
在实施例1的基础上,所述的一种基于深度学习的敏感识别方法,S3:基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型,包括:
判断测试结果中的所有敏感识别模型的测试识别准确率是否不小于准确率阈值,若是,则将每个敏感等级的每个字段属性的敏感识别模型当作对应敏感等级的对应字段属性的最终敏感识别模型;
否则,基于重新接收的对应敏感等级的对应字段属性的样本数据对对应初始模型进行重新训练和测试,直至最新获得的敏感识别模型的测试识别准确率不小于准确率阈值时,则将最新获得的敏感识别模型当作对应敏感等级的对应字段属性的最终敏感识别模型。
该实施例中,准确率阈值即为当判定敏感识别模型满足要求时(即可当作最终敏感识别模型时)应该满足的最小测试识别准确率。
以上技术的有益效果为:实现基于测试结果中敏感识别模型的测试识别准确率判断出敏感识别模型是否满足要求,进而获得识别准确率高且识别效率高的最终敏感识别模型。
实施例10:
本发明提供了一种基于深度学习的敏感识别系统,参考图3,包括:
第一生成模块,用于基于用户设置的每个敏感等级的所有字段属性集合,生成每个敏感等级的每个字段属性的初始模型;
模型训练模块,用于利用用户上传的每个敏感等级的每个字段属性的样本数据,对初始模型进行训练并测试,获得测试结果;
第二生成模块,用于基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型;
敏感识别模块,用于将待识别数据库中的所有数据表输入至所有最终敏感识别模型,获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果。
以上技术的有益效果为:将深度学习和敏感识别结合,使得用户只需上传样本数据,即可自动深度学习并训练测试出符合要求的敏感识别模型,基于训练测试出的最终敏感识别模型去识别待识别数据库中的敏感数据,与传统的敏感识别方式相比,识别准确率和效率都有所提高。
显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。

Claims (6)

1.一种基于深度学习的敏感识别方法,其特征在于,包括:
S1:基于用户设置的每个敏感等级的所有字段属性集合,生成每个敏感等级的每个字段属性的初始模型;
S2:利用用户上传的每个敏感等级的每个字段属性的样本数据,对初始模型进行训练并测试,获得测试结果;
S3:基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型;
S4:将待识别数据库中的所有数据表输入至所有最终敏感识别模型,获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果;
步骤S2:利用用户上传的每个敏感等级的每个字段属性的样本数据,对初始模型进行训练并测试,获得测试结果,包括:
S201:将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本;
S202:利用训练样本训练对应敏感等级的对应字段属性的初始模型,获得每个敏感等级的每个字段属性的敏感识别模型;
S203:基于测试样本测试对应敏感等级的对应字段属性的敏感识别模型,获得测试结果;
步骤S201:将用户上传的每个敏感等级的每个字段属性的样本数据划分为训练样本和测试样本,包括:
获取包含用户上传的每个敏感等级的每个字段属性的样本数据中的所有第一子样本数据的所有完整数据表,并将每个完整数据表中包含的样本数据中的所有第一子样本数据进行标记,获得多个样本标记数据表;
对所有样本数据表进行排序,获得样本数据表的第一序数,基于统一排序方式对所有样本数据表中包含的单位数据进行排序,获得每个样本数据表中每个第一子样本数据的第二序数;
基于每个样本数据表的第一序数和每个样本数据表中每个第一子样本数据的第二序数,生成样本数据中所有第一子样本数据的第一序列;
基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数,获得每个敏感等级的每个字段属性的初始样本数据;
将初始样本数据划分为训练样本和测试样本;
其中,基于第一序列中每个第一子样本数据所在的样本数据表的第一序数以及每个第一子样本数据的第二序数,获得每个敏感等级的每个字段属性的初始样本数据,包括:
基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻前一第一子样本数据的第二序数以及对应第一子样本数据的第二序数,生成对应第一子样本数据的第一三维分布坐标;
基于第一序列中每个第一子样本数据所在的样本数据表的第一序数和对应相邻后一第一子样本数据的第二序数以及对应第一子样本数据的第二序数,生成对应第一子样本数据的第二三维分布坐标;
基于第一三维分布坐标和第二三维分布坐标,获得每个敏感等级的每个字段属性的初始样本数据;
其中,基于第一三维分布坐标点和第二三维分布坐标点,获得每个敏感等级的每个字段属性的初始样本数据,包括:
基于第一三维分布坐标和第二三维分布坐标生成对应第一子样本数据的第一位置分布特征向量;
将第一位置分布特征向量和用户上传的每个敏感等级的每个字段属性的样本数据中的每个第一子样本数据进行对应绑定,获得每个敏感等级的每个字段属性的初始样本数据。
2.根据权利要求1所述的一种基于深度学习的敏感识别方法,其特征在于,将初始样本数据划分为训练样本和测试样本,包括:
基于预设比例,将每个敏感等级的每个字段属性的初始样本数据中的正样本数据和负样本数据划分为正训练样本数据和负训练样本数据以及正测试样本数据和负测试样本数据;
将正训练样本数据和负训练样本数据汇总,获得训练样本;
将正测试样本数据和负测试样本数据汇总,获得测试样本。
3.根据权利要求1所述的一种基于深度学习的敏感识别方法,其特征在于,S203:基于测试样本测试对应敏感等级的对应字段属性的敏感识别模型,获得测试结果,包括:
将测试样本输入至对应敏感等级的对应字段属性的敏感识别模型中,获得每个敏感等级的每个字段属性的测试敏感识别结果;
基于用户输入的对测试敏感识别结果的识别正误性判断结果,确定出每个敏感识别模型的测试识别准确率;
将所有敏感识别模型的测试识别准确率当作测试结果。
4.根据权利要求3所述的一种基于深度学习的敏感识别方法,其特征在于,基于用户输入的对测试敏感识别结果的识别正误性判断结果,确定出每个敏感识别模型的测试识别准确率,包括:
基于用户输入的对测试敏感识别结果的识别正误性判断结果,确定出每个敏感识别模型的测试样本中识别正确的单位数据的第一总数;
将第一总数和对应敏感识别模型的测试样本中包含的所有单位数据的第二总数的比值作为初始识别准确率;
确定出每个敏感识别模型的正训练样本数据中每个第一子样本数据的第一位置分布特征向量和每个敏感识别模型的正测试样本数据中每个第一子样本数据的第二位置分布特征向量;
基于正训练样本数据中所有第一子样本数据在对应的第一序列中的顺序,对所有第一位置分布特征向量进行排序,获得第二序列;
基于正测试样本数据中所有第一子样本数据在对应的第一序列中的顺序,对所有第二位置分布特征向量进行排序,获得第三序列;
基于第二序列和第三序列,计算出每个敏感识别模型的正训练样本数据和正测试样本数据中子样本数据的分布差别率;
基于初始识别准确率和分布差别率,计算出对应敏感识别模型的测试识别准确率。
5.根据权利要求1所述的一种基于深度学习的敏感识别方法,其特征在于,S3:基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型,包括:
判断测试结果中的所有敏感识别模型的测试识别准确率是否不小于准确率阈值,若是,则将每个敏感等级的每个字段属性的敏感识别模型当作对应敏感等级的对应字段属性的最终敏感识别模型;
否则,基于重新接收的对应敏感等级的对应字段属性的样本数据对对应初始模型进行重新训练和测试,直至最新获得的敏感识别模型的测试识别准确率不小于准确率阈值时,则将最新获得的敏感识别模型当作对应敏感等级的对应字段属性的最终敏感识别模型。
6.一种基于深度学习的敏感识别系统,其特征在于,用于执行权利要求1至5中任一所述的基于深度学习的敏感识别方法,包括:
第一生成模块,用于基于用户设置的每个敏感等级的所有字段属性集合,生成每个敏感等级的每个字段属性的初始模型;
模型训练模块,用于利用用户上传的每个敏感等级的每个字段属性的样本数据,对初始模型进行训练并测试,获得测试结果;
第二生成模块,用于基于测试结果获得每个敏感等级的每个字段属性的最终敏感识别模型;
敏感识别模块,用于将待识别数据库中的所有数据表输入至所有最终敏感识别模型,获得每个敏感等级的每个字段属性的敏感数据作为最终敏感识别结果。
CN202310049401.5A 2023-02-01 2023-02-01 一种基于深度学习的敏感识别方法及系统 Active CN116090006B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310049401.5A CN116090006B (zh) 2023-02-01 2023-02-01 一种基于深度学习的敏感识别方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310049401.5A CN116090006B (zh) 2023-02-01 2023-02-01 一种基于深度学习的敏感识别方法及系统

Publications (2)

Publication Number Publication Date
CN116090006A CN116090006A (zh) 2023-05-09
CN116090006B true CN116090006B (zh) 2023-09-08

Family

ID=86186580

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310049401.5A Active CN116090006B (zh) 2023-02-01 2023-02-01 一种基于深度学习的敏感识别方法及系统

Country Status (1)

Country Link
CN (1) CN116090006B (zh)

Citations (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229588A (zh) * 2018-02-08 2018-06-29 重庆师范大学 一种基于深度学习的机器学习识别方法
CN109543445A (zh) * 2018-10-29 2019-03-29 复旦大学 一种基于条件概率分布的隐私保护数据发布方法
CN110222170A (zh) * 2019-04-25 2019-09-10 平安科技(深圳)有限公司 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN110377605A (zh) * 2019-07-24 2019-10-25 贵州大学 一种结构化数据的敏感属性识别与分类分级方法
CN111191275A (zh) * 2019-11-28 2020-05-22 深圳云安宝科技有限公司 敏感数据识别方法、系统及其装置
CN112507376A (zh) * 2020-12-01 2021-03-16 浙商银行股份有限公司 一种基于机器学习的敏感数据检测方法及装置
CN113485993A (zh) * 2021-07-13 2021-10-08 浙江网商银行股份有限公司 数据识别方法以及装置
CN113591884A (zh) * 2020-04-30 2021-11-02 上海高德威智能交通系统有限公司 字符识别模型的确定方法、装置、设备及存储介质
CN113642030A (zh) * 2021-10-14 2021-11-12 广东鸿数科技有限公司 敏感数据多层识别方法
CN114021716A (zh) * 2021-10-26 2022-02-08 浙江大华技术股份有限公司 一种模型训练的方法、系统及电子设备
CN114218391A (zh) * 2021-12-30 2022-03-22 闪捷信息科技有限公司 一种基于深度学习技术的敏感信息识别方法
CN114398681A (zh) * 2022-01-20 2022-04-26 支付宝(杭州)信息技术有限公司 训练隐私信息分类模型、识别隐私信息的方法和装置
CN114443639A (zh) * 2020-11-02 2022-05-06 第四范式(北京)技术有限公司 处理数据表及自动训练机器学习模型的方法和系统
CN114840869A (zh) * 2021-02-01 2022-08-02 腾讯科技(深圳)有限公司 基于敏感度识别模型的数据敏感度识别方法及装置
CN115186738A (zh) * 2022-06-20 2022-10-14 北京百度网讯科技有限公司 模型训练方法、装置和存储介质
CN115329872A (zh) * 2022-08-16 2022-11-11 浙江工业大学 一种基于对比学习的敏感属性识别方法及装置

Patent Citations (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108229588A (zh) * 2018-02-08 2018-06-29 重庆师范大学 一种基于深度学习的机器学习识别方法
CN109543445A (zh) * 2018-10-29 2019-03-29 复旦大学 一种基于条件概率分布的隐私保护数据发布方法
CN110222170A (zh) * 2019-04-25 2019-09-10 平安科技(深圳)有限公司 一种识别敏感数据的方法、装置、存储介质及计算机设备
WO2020215571A1 (zh) * 2019-04-25 2020-10-29 平安科技(深圳)有限公司 一种识别敏感数据的方法、装置、存储介质及计算机设备
CN110377605A (zh) * 2019-07-24 2019-10-25 贵州大学 一种结构化数据的敏感属性识别与分类分级方法
CN111191275A (zh) * 2019-11-28 2020-05-22 深圳云安宝科技有限公司 敏感数据识别方法、系统及其装置
CN113591884A (zh) * 2020-04-30 2021-11-02 上海高德威智能交通系统有限公司 字符识别模型的确定方法、装置、设备及存储介质
CN114443639A (zh) * 2020-11-02 2022-05-06 第四范式(北京)技术有限公司 处理数据表及自动训练机器学习模型的方法和系统
CN112507376A (zh) * 2020-12-01 2021-03-16 浙商银行股份有限公司 一种基于机器学习的敏感数据检测方法及装置
CN114840869A (zh) * 2021-02-01 2022-08-02 腾讯科技(深圳)有限公司 基于敏感度识别模型的数据敏感度识别方法及装置
CN113485993A (zh) * 2021-07-13 2021-10-08 浙江网商银行股份有限公司 数据识别方法以及装置
CN113642030A (zh) * 2021-10-14 2021-11-12 广东鸿数科技有限公司 敏感数据多层识别方法
CN114021716A (zh) * 2021-10-26 2022-02-08 浙江大华技术股份有限公司 一种模型训练的方法、系统及电子设备
CN114218391A (zh) * 2021-12-30 2022-03-22 闪捷信息科技有限公司 一种基于深度学习技术的敏感信息识别方法
CN114398681A (zh) * 2022-01-20 2022-04-26 支付宝(杭州)信息技术有限公司 训练隐私信息分类模型、识别隐私信息的方法和装置
CN115186738A (zh) * 2022-06-20 2022-10-14 北京百度网讯科技有限公司 模型训练方法、装置和存储介质
CN115329872A (zh) * 2022-08-16 2022-11-11 浙江工业大学 一种基于对比学习的敏感属性识别方法及装置

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
面向结构化数据集的敏感属性识别与分级算法;何文竹;彭长根;王毛妮;丁兴;樊玫玫;丁红发;;计算机应用研究(第10期);全文 *

Also Published As

Publication number Publication date
CN116090006A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
CN110689010B (zh) 一种证件识别方法及装置
CN109284355B (zh) 一种批改试卷中口算题的方法及装置
CN109800320B (zh) 一种图像处理方法、设备及计算机可读存储介质
CN109446885B (zh) 一种基于文本的元器件识别方法、系统、装置和存储介质
CN106919957B (zh) 处理数据的方法及装置
WO2020155757A1 (zh) 柱状图数据转换控制方法、装置、计算机设备及存储介质
CN109189895B (zh) 一种针对口算题的题目批改方法及装置
CN105989001B (zh) 图像搜索方法及装置、图像搜索系统
CN111159356B (zh) 基于教学内容的知识图谱构建方法
CN114913729B (zh) 一种选题方法、装置、计算机设备和存储介质
CN111210402A (zh) 人脸图像质量评分方法、装置、计算机设备及存储介质
CN113762269A (zh) 基于神经网络的中文字符ocr识别方法、系统、介质及应用
US20210390251A1 (en) Automatic generation of form application
CN110796185A (zh) 一种图像标注结果的检测方法和装置
JP2021530066A (ja) 暗算問題に対する問題添削方法、装置、電子機器及び記憶媒体
WO2022134580A1 (zh) 证件信息的获取方法及装置、存储介质、计算机设备
CN113360768A (zh) 基于用户画像的产品推荐方法、装置、设备及存储介质
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
CN111144466B (zh) 一种图像样本自适应的深度度量学习方法
CN116090006B (zh) 一种基于深度学习的敏感识别方法及系统
CN112801222A (zh) 基于二分类模型的多分类方法、装置、电子设备及介质
CN111597336A (zh) 训练文本的处理方法、装置、电子设备及可读存储介质
CN115984054A (zh) 一种基于大数据平台的智慧教育方法及系统
CN112699908B (zh) 标注图片的方法、电子终端、计算机可读存储介质及设备
CN114708462A (zh) 多数据训练的检测模型生成方法、系统、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant