CN111666587B - 基于监督学习的食品数据多属性特征联合脱敏方法和装置 - Google Patents

基于监督学习的食品数据多属性特征联合脱敏方法和装置 Download PDF

Info

Publication number
CN111666587B
CN111666587B CN202010389535.8A CN202010389535A CN111666587B CN 111666587 B CN111666587 B CN 111666587B CN 202010389535 A CN202010389535 A CN 202010389535A CN 111666587 B CN111666587 B CN 111666587B
Authority
CN
China
Prior art keywords
data
desensitized
sensitive
desensitization
food
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010389535.8A
Other languages
English (en)
Other versions
CN111666587A (zh
Inventor
李琳
储宇
袁景凌
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Wuhan University of Technology WUT
Original Assignee
Wuhan University of Technology WUT
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Wuhan University of Technology WUT filed Critical Wuhan University of Technology WUT
Priority to CN202010389535.8A priority Critical patent/CN111666587B/zh
Publication of CN111666587A publication Critical patent/CN111666587A/zh
Application granted granted Critical
Publication of CN111666587B publication Critical patent/CN111666587B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/60Protecting data
    • G06F21/62Protecting access to data via a platform, e.g. using keys or access control rules
    • G06F21/6218Protecting access to data via a platform, e.g. using keys or access control rules to a system of files or objects, e.g. local or distributed file system or database
    • G06F21/6245Protecting personal data, e.g. for financial or medical purposes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/08Logistics, e.g. warehousing, loading or distribution; Inventory or stock management
    • G06Q10/083Shipping
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Business, Economics & Management (AREA)
  • Physics & Mathematics (AREA)
  • Bioethics (AREA)
  • General Health & Medical Sciences (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Hardware Design (AREA)
  • Human Resources & Organizations (AREA)
  • Data Mining & Analysis (AREA)
  • Computer Security & Cryptography (AREA)
  • Development Economics (AREA)
  • Medical Informatics (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Software Systems (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • General Preparation And Processing Of Foods (AREA)

Abstract

本发明实施例提供一种基于监督学习的食品数据多属性特征联合脱敏方法和装置,方法包括:获取食品数据样本进行分类和预处理,获得样本敏感数据;对样本敏感数据添加脱敏算法标签,构建敏感信息数据库;将预处理后的待脱敏数据与敏感信息数据库中的数据进行多属性特征匹配,根据多任务学习方法获得待脱敏数据中每一敏感属性对应的脱敏算法标签。本发明将监督学习、多任务学习方法运用到食品结构化数据和非结构化数据的脱敏技术上,从而针对多类型的食品数据能快速地识别敏感数据并找到适宜的脱敏算法。将脱敏后数据加入到敏感信息数据库,为之后待脱敏数据的数据脱敏提供参考。

Description

基于监督学习的食品数据多属性特征联合脱敏方法和装置
技术领域
本发明实施例涉及数据脱敏领域,尤其涉及一种基于监督学习的食品数据多属性特征联合脱敏方法和装置。
背景技术
随着国家经济水平的提高和经济全球化的深入发展,消费者对商品品质有了更高的追求,“民以食为天,食以安为先”的安全消费意识逐渐深入人心。食品在生产及运输过程中可能会产生敏感信息,例如在食品生产时企业所用到的独特配方信息,在食品加工时用到的加工技术,在食品运输过程中用到的保鲜或冷冻方法等,都属于相关企业或公司不想对外公开的敏感信息。为了保障数据的隐私性和安全性,需要有效地保护食品数据的敏感属性,满足食品安全数据脱敏指标要求。
传统的针对食品数据的脱敏技术(如k-匿名、数据扰动、差分隐私保护等)着重于最后呈现的结果,缺少对食品多样化,运输过程多样化的预判,面对海量的食品数据识别精度不够,需要进行人工干预和不定期配置。同时,由于食品的多样性,导致传统的数据脱敏技术分类分级智能化不足以及在不同运输条件下的灵活度不足。传统的数据脱敏技术面对食品数据的多样性,无法针对性的给出脱敏方法。
发明内容
本发明实施例提供一种基于监督学习的食品数据多属性特征联合脱敏方法和装置,用以解决传统数据脱敏技术面对食品数据的多样性无法针对性的给出脱敏方法的缺陷。
第一方面,本发明实施例提供一种基于监督学习的食品数据多属性特征联合脱敏方法,包括:
S1,获取食品数据样本进行分类和预处理,获得样本敏感数据;
S2,对样本敏感数据添加脱敏算法标签;
S3,基于添加脱敏算法标签后的样本敏感数据,构建敏感信息数据库;
S4,获取待脱敏数据进行预处理;
S5,将预处理后的待脱敏数据与敏感信息数据库中的数据进行多属性特征匹配,根据多任务学习方法获得待脱敏数据中每一敏感属性对应的脱敏算法标签;
S6,将待脱敏数据的不同敏感属性根据各自对应的脱敏算法标签进行脱敏,得到脱敏后的数据。
进一步,所述S1具体包括:
S11,对食品数据样本中的结构化数据和非结构化数据分别进行分类整理;
S12,对所述结构化数据中的关键字段进行特征提取,对所述非结构化数据中的关键属性进行特征提取。
进一步,所述S2中具体包括:
S21,对预处理后获得的样本敏感数据进行分析,选取样本敏感数据中不同敏感属性适宜的脱敏算法。
S22,将选取的不同敏感属性适宜的脱敏算法作为标签添加到所述样本敏感数据上。
进一步,S4中,所述获取待脱敏数据进行预处理具体包括:
获取食品产生及运输过程中产生的待脱敏数据进行预处理,提取待脱敏数据结构化数据中的关键字段以及待脱敏数据非结构化数据中的关键属性。
进一步,所述S5具体包括:
S51,将所述待脱敏数据结构化数据中的关键字段以及待脱敏数据非结构化数据中的关键属性,分别与敏感信息数据库中的敏感数据进行特征匹配;
S52,通过匹配特征值,对待脱敏数据的不同敏感属性进行多任务监督学习,联合学习每一敏感属性对应的脱敏方法标签。
进一步,在步骤S6之后,所述方法还包括:
S7,将所述脱敏后的数据添加脱敏算法标签,并加入到敏感信息数据库中。
第二方面,本发明实施例提供一种基于监督学习的食品数据多属性特征联合脱敏装置,包括:
样本预处理模块,用于获取食品数据样本进行分类和预处理,获得样本敏感数据;
脱敏算法标签添加模块,用于对样本敏感数据添加脱敏算法标签;
敏感信息数据库构建模块,用于基于添加脱敏算法标签后的样本敏感数据,构建敏感信息数据库;
待脱敏数据预处理模块,用于获取待脱敏数据进行预处理;
多任务学习模块,用于将预处理后的待脱敏数据与敏感信息数据库中的数据进行多属性特征匹配,根据多任务学习方法获得待脱敏数据中每一敏感属性对应的脱敏算法标签;
数据脱敏模块,用于将待脱敏数据的不同敏感属性根据各自对应的脱敏算法标签进行脱敏,得到脱敏后的数据。
进一步,所述装置还包括:数据库扩充模块,用于将所述脱敏后的数据添加脱敏算法标签,并加入到敏感信息数据库中。
第三方面,本发明实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如本发明第一方面实施例所述基于监督学习的食品数据多属性特征联合脱敏方法的步骤。
第四方面,本发明实施例提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如本发明第一方面实施例所述基于监督学习的食品数据多属性特征联合脱敏方法的步骤。
本发明实施例提供的基于监督学习的食品数据多属性特征联合脱敏方法和装置,对食品数据样本进行分类管理和预处理后,加以脱敏算法标签,将监督学习、多任务学习方法运用到食品结构化数据和非结构化数据的脱敏技术上,从而针对多类型的食品数据能快速地识别敏感数据并找到适宜的脱敏算法,对待脱敏数据字段分属性给出针对性的脱敏算法选择。并将脱敏后数据加入到敏感信息数据库,为之后待脱敏数据的数据脱敏提供参考。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的基于监督学习的食品数据多属性特征联合脱敏方法流程示意图;
图2本发明实施例提供的基于监督学习的食品数据多属性特征联合脱敏装置的结构示意图;
图3为本发明实施例提供的电子设备的结构示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
图1为本发明实施例提供的一种基于监督学习的食品数据多属性特征联合脱敏方法,参照图1,该方法包括:
S1,获取食品数据样本进行分类和预处理,获得样本敏感数据。
本实施例中,S1可以具体包括以下步骤:
S11,对食品数据样本中的结构化数据和非结构化数据分别进行分类整理;其中,食品数据样本中的结构化数据可以是食品配料配方、冷链设备和食品名称;食品数据中的非结构化数据可以是冷链物流、食品保鲜方法、食品运输方法和原材料源头;
S12,对所述结构化数据中的关键字段进行特征提取,对所述非结构化数据中的关键属性进行特征提取。例如,对于冷链设备,其关键字段可以是冷链设备、贮藏温度和低温运输工具等;对于食品运输方法,其关键属性可以是食品运输方法、绝热运输以及低温车运输等。
S2,对样本敏感数据添加脱敏算法标签。
本实施例中,S2可以具体包括以下步骤:
S21,对预处理后获得的样本敏感数据进行分析,选取样本敏感数据中不同敏感属性适宜的脱敏算法。
此处,样本敏感数据包括S11中食品数据样本的结构化数据中的关键字段,以及非结构化数据中的关键属性。本实施例可以将样本敏感数据交由食品生产人员和运输人员加以分析,选取样本敏感数据中不同敏感属性适宜的脱敏算法。
针对食品数据的特点,针对食品数据的脱敏方法可以分为以下几种:
方法一:加密。加密是指对待脱敏的特征数据进行加密处理,使非食品生产或运输人员只能够接触公开数据和加密后的数据。在特定场景下,加密算法可以提供解密能力,分发密钥给相关方以恢复原始数据。
方法二:遮掩。遮掩是指利用掩饰符号,涂层或遮挡码对敏感特征数据的部分内容进行遮挡,使得敏感数据保持部分内容公开。针对食品数据,遮掩方法只要是将识别出的特征隐私数据加以涂层,防公开。
方法三:变换。变换是指通过随机函数对数值和日期类型等源数据进行可控调整,以便在保持原始数据相关统计特征的同时,完成对具体数值的伪装。
S22,将选取的不同敏感属性适宜的脱敏算法作为标签添加到所述样本敏感数据上。
S3,基于添加脱敏算法标签后的样本敏感数据,构建敏感信息数据库。
其中,敏感信息数据库中包含样本敏感数据的不同敏感属性及其对应的脱敏算法标签。
S4,获取待脱敏数据进行预处理;
获取食品产生及运输过程中产生的待脱敏数据进行预处理,提取待脱敏数据结构化数据中的关键字段以及待脱敏数据非结构化数据中的关键属性。结构化数据至少包括食品配料配方、冷链设备和食品名称;非结构化数据至少包括冷链物流、食品保鲜方法、食品运输方法和原材料源头。
S5,将预处理后的待脱敏数据与敏感信息数据库中的数据进行多属性特征匹配,根据多任务学习方法获得待脱敏数据中每一敏感属性对应的脱敏算法标签。
具体地,步骤S5可以具体包括以下内容:
S51,将所述待脱敏数据结构化数据中的关键字段以及待脱敏数据非结构化数据中的关键属性,分别与敏感信息数据库中的敏感数据进行特征匹配;
S52,通过匹配特征值,对待脱敏数据的不同敏感属性进行多任务监督学习,联合学习每一敏感属性对应的脱敏方法标签。
通过匹配特征值,获得敏感信息数据库中的敏感数据与待脱敏数据相同的敏感属性。敏感属性包括食品数据的各类结构化数据中的关键字段,以及各类非结构化数据中的关键属性。敏感属性的类别可以包括食品配料配方、冷链设备、食品生产日期和食品名称中的关键字段,以及冷链物流、食品保鲜方法、食品运输方法和原材料源头中的关键属性。
本实施例以待脱敏数据的各类敏感属性作为多任务监督学习模型的输入,以S3中获得的不同敏感属性对应的脱敏算法标签作为多任务监督学习模型的输出,对多任务监督学习模型进行训练,联合学习每一敏感属性对应的脱敏方法标签。
以下举例说明步骤S52,例如通过特征匹配,待脱敏数据包含m个敏感属性,其中每一个敏感属性都对应一个监督学习任务,每个监督学习任务i与一个训练数据集Di相关联,其中包含对应的敏感属性和脱敏方法标签。多任务学习旨在对待脱敏数据的每一个敏感属性构造学习器,对m个敏感属性同时进行监督学习。同时,多任务学习善于发现多个任务的关联性,通过比对相关联任务的标签脱敏方法,快速高效同时学习每一个敏感属性的脱敏方法。
S6,将待脱敏数据的不同敏感属性根据各自对应的脱敏算法标签进行脱敏,得到脱敏后的数据。
本发明实施例提供的基于监督学习的食品数据多属性特征联合脱敏方法,对食品数据样本进行分类管理和预处理后,加以脱敏算法标签,将监督学习、多任务学习方法运用到食品结构化数据和非结构化数据的脱敏技术上,从而针对多类型的食品数据能快速地识别敏感数据并找到适宜的脱敏算法,对待脱敏数据字段分属性给出针对性的脱敏算法选择。
在上述实施例的基础上,在步骤S6之后,所述方法还包括:
S7,将所述脱敏后的数据添加脱敏算法标签,并加入到敏感信息数据库中。
本发明实施例将脱敏后数据加入到敏感信息数据库,为之后待脱敏数据的数据脱敏提供参考。
图2本发明实施例提供的基于监督学习的食品数据多属性特征联合脱敏装置的结构示意图,参照图2,本该装置包括:
样本预处理模块201,用于获取食品数据样本进行分类和预处理,获得样本敏感数据;
脱敏算法标签添加模块202,用于对样本敏感数据添加脱敏算法标签;
敏感信息数据库构建模块203,用于基于添加脱敏算法标签后的样本敏感数据,构建敏感信息数据库;
待脱敏数据预处理模块204,用于获取待脱敏数据进行预处理;
多任务学习模块205,用于将预处理后的待脱敏数据与敏感信息数据库中的数据进行多属性特征匹配,根据多任务学习方法获得待脱敏数据中每一敏感属性对应的脱敏算法标签;
数据脱敏模块206,用于将待脱敏数据的不同敏感属性根据各自对应的脱敏算法标签进行脱敏,得到脱敏后的数据。
进一步地,所述装置还包括:数据库扩充模块207,用于将所述脱敏后的数据添加脱敏算法标签,并加入到敏感信息数据库中。
具体地,本发明实施例提供的基于监督学习的食品数据多属性特征联合脱敏装置的各功能模块,具体用于执行上述基于监督学习的食品数据多属性特征联合脱敏方法的步骤,由于上述实施例中已对基于监督学习的食品数据多属性特征联合脱敏方法进行详细介绍,此处不再对基于监督学习的食品数据多属性特征联合脱敏装置进行赘述。
本发明实施例提供的基于监督学习的食品数据多属性特征联合脱敏装置,对食品数据样本进行分类管理和预处理后,加以脱敏算法标签,将监督学习、多任务学习方法运用到食品结构化数据和非结构化数据的脱敏技术上,从而针对多类型的食品数据能快速地识别敏感数据并找到适宜的脱敏算法,对待脱敏数据字段分属性给出针对性的脱敏算法选择。并将脱敏后数据加入到敏感信息数据库,为之后待脱敏数据的数据脱敏提供参考。
本发明实施例提供了本发明实施例提供了一种电子设备,如图3所示,该电子设备可以包括:处理器(processor)301、通信接口(Communications Interface)302、存储器(memory)303和通信总线304,其中,处理器301,通信接口302,存储器303通过通信总线304完成相互间的通信。处理器301可以调用存储器303中的逻辑指令,以执行上述各实施例提供的基于监督学习的食品数据多属性特征联合脱敏方法,例如包括:S1,获取食品数据样本进行分类和预处理,获得样本敏感数据;S2,对样本敏感数据添加脱敏算法标签;S3,基于添加脱敏算法标签后的样本敏感数据,构建敏感信息数据库;S4,获取待脱敏数据进行预处理;S5,将预处理后的待脱敏数据与敏感信息数据库中的数据进行多属性特征匹配,根据多任务学习方法获得待脱敏数据中每一敏感属性对应的脱敏算法标签;S6,将待脱敏数据的不同敏感属性根据各自对应的脱敏算法标签进行脱敏,得到脱敏后的数据。
本发明实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各实施例提供的基于监督学习的食品数据多属性特征联合脱敏方法,例如包括:S1,获取食品数据样本进行分类和预处理,获得样本敏感数据;S2,对样本敏感数据添加脱敏算法标签;S3,基于添加脱敏算法标签后的样本敏感数据,构建敏感信息数据库;S4,获取待脱敏数据进行预处理;S5,将预处理后的待脱敏数据与敏感信息数据库中的数据进行多属性特征匹配,根据多任务学习方法获得待脱敏数据中每一敏感属性对应的脱敏算法标签;S6,将待脱敏数据的不同敏感属性根据各自对应的脱敏算法标签进行脱敏,得到脱敏后的数据。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

Claims (8)

1.一种基于监督学习的食品数据多属性特征联合脱敏方法,其特征在于,包括:
S1,获取食品数据样本进行分类和预处理,获得样本敏感数据;
S2,对样本敏感数据添加脱敏算法标签;
S3,基于添加脱敏算法标签后的样本敏感数据,构建敏感信息数据库;
S4,获取待脱敏数据进行预处理;
S5,将预处理后的待脱敏数据与敏感信息数据库中的数据进行多属性特征匹配,根据多任务学习方法获得待脱敏数据中每一敏感属性对应的脱敏算法标签;
S6,将待脱敏数据的不同敏感属性根据各自对应的脱敏算法标签进行脱敏,得到脱敏后的数据;
所述S1具体包括:
S11,对食品数据样本中的结构化数据和非结构化数据分别进行分类整理;
S12,对所述结构化数据中的关键字段进行特征提取,对所述非结构化数据中的关键属性进行特征提取;
所述S5具体包括:
S51,将所述待脱敏数据结构化数据中的关键字段以及待脱敏数据非结构化数据中的关键属性,分别与敏感信息数据库中的敏感数据进行特征匹配;
S52,通过匹配特征值,对待脱敏数据的不同敏感属性进行多任务监督学习,联合学习每一敏感属性对应的脱敏方法标签。
2.根据权利要求1所述的基于监督学习的食品数据多属性特征联合脱敏方法,其特征在于,所述S2中具体包括:
S21,对预处理后获得的样本敏感数据进行分析,选取样本敏感数据中不同敏感属性适宜的脱敏算法;
S22,将选取的不同敏感属性适宜的脱敏算法作为标签添加到所述样本敏感数据上。
3.根据权利要求1所述的基于监督学习的食品数据多属性特征联合脱敏方法,其特征在于,S4中,所述获取待脱敏数据进行预处理具体包括:
获取食品产生及运输过程中产生的待脱敏数据进行预处理,提取待脱敏数据结构化数据中的关键字段以及待脱敏数据非结构化数据中的关键属性。
4.根据权利要求1所述的基于监督学习的食品数据多属性特征联合脱敏方法,其特征在于,在步骤S6之后,所述方法还包括:
S7,将所述脱敏后的数据添加脱敏算法标签,并加入到敏感信息数据库中。
5.一种基于监督学习的食品数据多属性特征联合脱敏装置,其特征在于,包括:样本预处理模块,用于获取食品数据样本进行分类和预处理,获得样本敏感数据;脱敏算法标签添加模块,用于对样本敏感数据添加脱敏算法标签;
敏感信息数据库构建模块,用于基于添加脱敏算法标签后的样本敏感数据,构建敏感信息数据库;
待脱敏数据预处理模块,用于获取待脱敏数据进行预处理;
多任务学习模块,用于将预处理后的待脱敏数据与敏感信息数据库中的数据进行多属性特征匹配,根据多任务学习方法获得待脱敏数据中每一敏感属性对应的脱敏算法标签;
数据脱敏模块,用于将待脱敏数据的不同敏感属性根据各自对应的脱敏算法标签进行脱敏,得到脱敏后的数据;
所述用于获取食品数据样本进行分类和预处理,获得样本敏感数据具体包括:对食品数据样本中的结构化数据和非结构化数据分别进行分类整理;对所述结构化数据中的关键字段进行特征提取,对所述非结构化数据中的关键属性进行特征提取;
所述用于将预处理后的待脱敏数据与敏感信息数据库中的数据进行多属性特征匹配,根据多任务学习方法获得待脱敏数据中每一敏感属性对应的脱敏算法标签具体包括:
将所述待脱敏数据结构化数据中的关键字段以及待脱敏数据非结构化数据中的关键属性,分别与敏感信息数据库中的敏感数据进行特征匹配;
通过匹配特征值,对待脱敏数据的不同敏感属性进行多任务监督学习,联合学习每一敏感属性对应的脱敏方法标签。
6.根据权利要求5所述的基于监督学习的食品数据多属性特征联合脱敏方法,其特征在于,还包括:
数据库扩充模块,用于将所述脱敏后的数据添加脱敏算法标签,并加入到敏感信息数据库中。
7.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至4任一项所述基于监督学习的食品数据多属性特征联合脱敏方法的步骤。
8.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1至4任一项所述基于监督学习的食品数据多属性特征联合脱敏方法的步骤。
CN202010389535.8A 2020-05-10 2020-05-10 基于监督学习的食品数据多属性特征联合脱敏方法和装置 Active CN111666587B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010389535.8A CN111666587B (zh) 2020-05-10 2020-05-10 基于监督学习的食品数据多属性特征联合脱敏方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010389535.8A CN111666587B (zh) 2020-05-10 2020-05-10 基于监督学习的食品数据多属性特征联合脱敏方法和装置

Publications (2)

Publication Number Publication Date
CN111666587A CN111666587A (zh) 2020-09-15
CN111666587B true CN111666587B (zh) 2023-07-04

Family

ID=72383560

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010389535.8A Active CN111666587B (zh) 2020-05-10 2020-05-10 基于监督学习的食品数据多属性特征联合脱敏方法和装置

Country Status (1)

Country Link
CN (1) CN111666587B (zh)

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112347510B (zh) * 2020-11-06 2024-03-29 中国工商银行股份有限公司 脱敏方法和脱敏装置
CN112632618B (zh) * 2020-12-30 2024-04-16 深圳市华傲数据技术有限公司 一种标签人群数据的脱敏方法、装置及计算机设备
CN113407989A (zh) * 2021-05-26 2021-09-17 天九共享网络科技集团有限公司 数据脱敏的方法、装置、电子设备及存储介质
CN115859118B (zh) * 2022-12-23 2023-08-11 摩尔线程智能科技(北京)有限责任公司 数据的获取方法、装置、电子设备及存储介质

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2013101723A1 (en) * 2011-12-27 2013-07-04 Wellpoint, Inc. Method and system for data pattern matching, masking and removal of sensitive data
US10395180B2 (en) * 2015-03-24 2019-08-27 International Business Machines Corporation Privacy and modeling preserved data sharing
CN105653981B (zh) * 2015-12-31 2018-11-30 中国电子科技网络信息安全有限公司 大数据平台的数据流通与交易的敏感数据保护系统及方法
US20190354718A1 (en) * 2018-05-16 2019-11-21 Microsoft Technology Licensing, Llc. Identification of sensitive data using machine learning
CN108875404B (zh) * 2018-05-30 2022-05-20 中国联合网络通信集团有限公司 基于机器学习的数据脱敏方法、装置及存储介质
CN109614816B (zh) * 2018-11-19 2024-05-07 平安科技(深圳)有限公司 数据脱敏方法、装置及存储介质
CN109815736A (zh) * 2019-01-24 2019-05-28 深圳昂楷科技有限公司 一种数据库脱敏方法、装置及脱敏设备
CN110532797A (zh) * 2019-07-24 2019-12-03 方盈金泰科技(北京)有限公司 大数据的脱敏方法和系统
CN110610196B (zh) * 2019-08-14 2023-04-28 平安科技(深圳)有限公司 脱敏方法、系统、计算机设备和计算机可读存储介质
CN110851860A (zh) * 2019-10-23 2020-02-28 国网天津市电力公司电力科学研究院 一种基于匿名化隐私技术的用电数据脱敏算法模型构建方法
CN111079174A (zh) * 2019-11-21 2020-04-28 中国电力科学研究院有限公司 基于匿名化及差分隐私技术的用电数据脱敏方法及系统

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
基于中间件的政务信息管理与共享交换平台研究;徐斌等;《武汉理工大学学报》;第39卷(第3期);全文 *
基于弱相关化特征子空间选择的离散化随机森林并行分类算法;袁景凌等;计算机科学(第6期);全文 *
基于模拟退火半监督学习的信用预测研究;张杰等;中国科学技术大学学报(第6期);全文 *
数据脱敏全生命周期过程研究;叶水勇;;电力与能源(第6期);全文 *

Also Published As

Publication number Publication date
CN111666587A (zh) 2020-09-15

Similar Documents

Publication Publication Date Title
CN111666587B (zh) 基于监督学习的食品数据多属性特征联合脱敏方法和装置
EP3200136A1 (en) Method for detecting spam reviews written on websites
CN110880075A (zh) 一种员工离职倾向检测方法
CN111291125B (zh) 一种数据处理方法及相关设备
CN113657993A (zh) 信用风险识别方法、装置、设备及存储介质
CN112966100B (zh) 一种数据分类分级模型的训练方法、装置及电子设备
CN111600874A (zh) 用户账号检测方法、装置、电子设备、介质和程序产品
CN112990281A (zh) 异常投标识别模型训练方法、异常投标识别方法及装置
Alhajjar et al. Survival analysis for insider threat: Detecting insider threat incidents using survival analysis techniques
Saitulasi et al. Deep Belief Network and Sentimental analysis for extracting on multi-variable Features to predict Stock market Performance and accuracy
Engels Detours on the path to a European big data economy
Nozari et al. Smart Systems Risk Management in IoT-Based Supply Chain
CN111709225A (zh) 一种事件因果关系判别方法、装置和计算机可读存储介质
Alwadi et al. A framework for vehicle quality evaluation based on interpretable machine learning
CN113988961A (zh) 目标对象预测方法及装置
CN111476027A (zh) 基于大数据的缉私案件情报抽取方法
CN115409512A (zh) 异常信息检测方法、装置、计算机设备、存储介质
CN112085566B (zh) 基于智能决策的产品推荐方法、装置及计算机设备
Uchida et al. Concept drift in Japanese COVID-19 infection data
Salomatin et al. Web user identification based on browser fingerprints using machine learning methods
Kumar et al. Recurrent Neural Network Deep Learning Approach for Classifying Early-Stage Malicious Ransomware Malware
Perkowitz The Bias in the Machine
Liao Employee turnover prediction using machine learning models
US20230245136A1 (en) Retail product listing escalation event detection
Göllner et al. Towards a Definition of a Responsible Artificial Intelligence

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant