CN116805039A - 特征筛选方法、装置、计算机设备和数据扰动方法 - Google Patents

特征筛选方法、装置、计算机设备和数据扰动方法 Download PDF

Info

Publication number
CN116805039A
CN116805039A CN202311048628.4A CN202311048628A CN116805039A CN 116805039 A CN116805039 A CN 116805039A CN 202311048628 A CN202311048628 A CN 202311048628A CN 116805039 A CN116805039 A CN 116805039A
Authority
CN
China
Prior art keywords
data
disturbance
value
feature
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202311048628.4A
Other languages
English (en)
Other versions
CN116805039B (zh
Inventor
石志林
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202311048628.4A priority Critical patent/CN116805039B/zh
Publication of CN116805039A publication Critical patent/CN116805039A/zh
Application granted granted Critical
Publication of CN116805039B publication Critical patent/CN116805039B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及一种基于人工智能技术的特征筛选方法、装置、计算机设备、存储介质和计算机程序产品。方法包括:接收多个终端发送的相应扰动编码数据,获得扰动编码数据集;获取组合数据集合,并基于扰动编码数据集和预设扰动概率,确定组合数据集合中每个组合数据在保护编码数据集中的出现预估频率;根据每个组合数据的出现预估频率,确定预设特征集合中的每个特征对于目标分类任务的重要度;根据预设特征集合中每个特征的重要度,从预设特征集合中筛选目标特征;目标特征用于针对目标分类任务进行分类模型训练。采用本方法能够在实现隐私保护和数据安全的前提下实现特征选择。

Description

特征筛选方法、装置、计算机设备和数据扰动方法
技术领域
本申请涉及数据处理技术领域,特别是涉及一种特征筛选方法、装置、计算机设备和数据扰动方法。
背景技术
在数据分析中,特征选择技术能够选择最有信息量的特征描述数据,从而过滤由于不相关的特征而引起的噪音、复杂度和过度拟合。
由于无线通信技术的快速发展,大量互联网设备和应用程序每天产生着巨量的数据。通常会针对这些应用程序专门设计分类模型,针对数据生成高效和先进的数据分析,例如通过分类模型的使用,应用程序可以提供个性化的人工智能服务,例如语音助手、单词建议、面部识别和智能视频等服务。
虽然分类模型能够在数据分析中作为实用且高效的工具,但其性能依赖于训练数据的特征。训练数据的特征可能高度相关、冗余或无关,这会为计算增添不必要的噪声。为了缓解这种噪声的影响,使用特征选择技术来减少这些无关特征的数量,而不会引起太多的信息损失。
在实际应用中,特征选择通常是在自由可访问的数据上进行的,然而当数据中包含用户的隐私数据时,需要对隐私数据的收集和处理有严格的保护,则服务器无法获取原始的数据。
因此,如何在保护用户隐私的前提下安全地进行特征选择以实现数据分析,是目前亟待解决的问题。
发明内容
基于此,有必要针对上述技术问题,提供一种能够实现对隐私数据的特征选择的特征筛选方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,并提供一种数据扰动方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
一方面,本申请提供了一种特征筛选方法,所述方法包括:
接收多个终端发送的相应扰动编码数据,获得扰动编码数据集;每个所述扰动编码数据,是将相应终端的保护编码数据按扰动概率扰动处理后的数据;
获取组合数据集合,所述组合数据集合包括多个组合数据,每个组合数据包括预设特征集合中任一特征的任一特征值,以及预设类别标签集合的任一类别标签;所述扰动编码数据和所述保护编码数据是编码值序列的形式,所述编码值序列中的编码值,表征相应终端本地的保护数据是否存在所述组合数据;
基于所述扰动编码数据集和所述扰动概率,确定所述组合数据集合中每个组合数据在保护编码数据集中的出现预估频率;所述保护编码数据集,包括所述多个终端各自的保护编码数据;
根据每个所述组合数据的出现预估频率,确定所述预设特征集合中的每个特征对于目标分类任务的重要度;
根据所述预设特征集合中每个特征的所述重要度,从所述预设特征集合中筛选目标特征;所述目标特征用于针对所述目标分类任务进行分类模型训练。
另一方面,本申请还提供了一种特征筛选装置,所述装置包括:
接收模块,用于接收多个终端发送的相应扰动编码数据,获得扰动编码数据集;每个所述扰动编码数据,是将相应终端的保护编码数据按扰动概率扰动处理后的数据;
获取模块,用于获取组合数据集合,所述组合数据集合包括多个组合数据,每个组合数据包括预设特征集合中任一特征的任一特征值,以及预设类别标签集合的任一类别标签;所述扰动编码数据和所述保护编码数据是编码值序列的形式,所述编码值序列中的编码值,表征相应终端本地的保护数据是否存在所述组合数据;
预估模块,用于基于所述扰动编码数据集和所述扰动概率,确定所述组合数据集合中每个组合数据在保护编码数据集中的出现预估频率;所述保护编码数据集,包括所述多个终端各自的保护编码数据;
确定模块,用于根据每个所述组合数据的出现预估频率,确定所述预设特征集合中的每个特征对于目标分类任务的重要度;
筛选模块,用于根据所述预设特征集合中每个特征的所述重要度,从所述预设特征集合中筛选目标特征;所述目标特征用于针对所述目标分类任务进行分类模型训练。
另一方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请实施例提供的任一种特征筛选方法中的步骤。
另一方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例提供的任一种特征筛选方法中的步骤。
另一方面,本申请还提供了一种计算机程序产品,所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请实施例提供的任一种特征筛选方法中的步骤。
上述特征筛选方法、装置、计算机设备、存储介质和计算机程序产品,通过接收多个终端发送的相应扰动编码数据,获得扰动编码数据集,其中每个扰动编码数据是将相应终端的保护编码数据按预设扰动概率扰动处理后的数据,由此终端所发送的数据即为扰动后的数据,终端本地的保护数据能够不被服务器读取,有效地保护了数据的隐私安全;通过获取组合数据集合,并基于扰动编码数据集和预设扰动概率,确定组合数据集合中每个组合数据在保护编码数据集中的出现预估频率,再根据每个组合数据的出现预估频率,确定预设特征集合中的每个特征对于目标分类任务的重要度,由此实现了在数据为扰动后的数据的情况下估计特征的重要性,再根据预设特征集合中每个特征的重要度,从预设特征集合中筛选目标特征,过滤相关性不高的特征,实现了保护隐私安全前提下的特征选择。后续将目标特征用于目标分类任务的分类模型训练中,能够降低由于不相关的特征而引起的噪音、复杂度和过度拟合,进而提高了目标分类任务的模型训练效率和分类准确性。
另一方面,本申请还提供了一种数据扰动方法,所述方法包括:
接收查询指令,从所述查询指令提取组合数据集合,所述组合数据集合包括多个组合数据,每个组合数据包括预设特征集合中任一特征的任一特征值,以及预设类别标签集合的任一类别标签;
读取本地存储的保护数据,针对所述组合数据集合的每一组合数据,查询所述保护数据是否包括所针对的组合数据,得到查询结果;
对所述查询结果按照所述组合数据集合进行编码,获得保护编码数据;
根据预设扰动概率对所述保护编码数据进行扰动处理,得到扰动编码数据;
响应于所述查询指令,反馈所述扰动编码数据。
另一方面,本申请还提供了一种数据扰动装置,所述装置包括:
接收模块,用于接收查询指令,从所述查询指令提取组合数据集合,所述组合数据集合包括多个组合数据,每个组合数据包括预设特征集合中任一特征的任一特征值,以及预设类别标签集合的任一类别标签;
读取模块,用于读取本地存储的保护数据,针对所述组合数据集合的每一组合数据,查询所述保护数据是否包括所针对的组合数据,得到查询结果;
编码模块,用于对所述查询结果按照所述组合数据集合进行编码,获得保护编码数据;
扰动模块,用于根据预设扰动概率对所述保护编码数据进行扰动处理,得到扰动编码数据;
发送模块,用于响应于所述查询指令,反馈所述扰动编码数据。
另一方面,本申请还提供了一种计算机设备,所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现本申请实施例提供的任一种数据扰动方法中的步骤。
另一方面,本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请实施例提供的任一种数据扰动方法中的步骤。
另一方面,本申请还提供了一种计算机程序产品,所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现本申请实施例提供的任一种数据扰动方法中的步骤。
上述数据扰动方法、装置、计算机设备、存储介质和计算机程序产品,通过接收查询指令,并从查询指令提取组合数据集合,通过读取本地存储的保护数据来查询保护数据是否包括组合数据集合的每一组合数据,对所得到的查询结果按照组合数据集合进行编码,获得保护编码数据,再根据预设扰动概率对保护编码数据进行扰动处理得到扰动编码数据,通过添加一定量的随机噪音来保护数据隐私,并最终响应于查询指令反馈扰动编码数据,既能够对本地的保护数据增加数据扰动实现隐私保护,同时能够使得扰动后的数据能够尽可能反映真实数据,使得后续能够基于扰动编码数据进行有效地特征选择。
附图说明
图1为一些实施例中特征筛选方法的应用环境图;
图2为一些实施例中特征筛选方法的流程示意图;
图3为一些实施例中组合数据的生成示意图;
图4为另一些实施例中目标特征的选择示意图;
图5为一些实施例中判定结果的确定示意图;
图6为一些实施例中重要度的确定示意图;
图7为一些实施例中数据扰动方法的流程示意图;
图8为一些实施例中扰动编码数据的获取示意图;
图9为一些实施例中基于局部差分隐私数据的特征选择框架的原理示意图;
图10为一些实施例中特征筛选装置的结构框图;
图11为一些实施例中数据扰动装置的结构框图;
图12为一些实施例中计算机设备的内部结构图;
图13为一些实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
隐私差分技术是一种保护个人隐私的技术,它通过在数据集中添加噪声来保护敏感数据。这种技术可以防止攻击者通过分析数据集来确定个人的身份或敏感信息。在隐私差分技术中,噪声的添加量和分布是关键因素,需要根据具体情况进行适当的调整。
隐私差分技术通常应用于数据挖掘、机器学习、统计分析和数据库查询等领域,以帮助保护个人隐私并促进数据共享和数据分析。在隐私差分技术中,局部差分隐私是一种强隐私保护框架,能够提供强大的隐私保证,不需要信任任何第三方服务。在局部差分隐私框架中,每个用户通过使用随机化算法对其数据进行本地扰动,然后将扰动值发送至聚合器。其中,扰动值是指在本地差分隐私中,针对自己的数据进行加噪处理后得到的值,以保护数据隐私。其中,聚合器指的是一种从用户那里收集信息的装置,可以用于保护数据的隐私。聚合器被用于收集用户在局部差分隐私框架下扰动后的数据,以估计数据中各个特征值的频率,并用于特征选择。聚合器收集这些扰动值来估计数据的真实统计。局部差分隐私比基于差分隐私的设置更加保护隐私,因为它不需要信任服务器收集个人数据就可以获得差分隐私统计值。
其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、式教学习等技术。
随着人工智能技术研究和进步,人工智能技术在多个领域展开研究和应用,例如常见的智能家居、智能穿戴设备、虚拟助理、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗、智能客服等,相信随着技术的发展,人工智能技术将在更多的领域得到应用,并发挥越来越重要的价值。
本申请实施例提供的涉及人工智能和机器学习技术的特征筛选方法,可以应用于如图1所示的应用环境中。
如图1所示,多个终端102与服务器104连接以进行通信。终端102和服务器104可以通过有线或无线通信方式进行直接或间接地连接,本申请在此不做限制。数据存储系统可以存储服务器104需要处理的数据。数据存储系统可以集成在服务器104上,也可以放在云上或其他服务器上。
其中,服务器104接收多个终端102发送的相应扰动编码数据,获得扰动编码数据集。服务器104获取组合数据集合,并基于扰动编码数据集和预设扰动概率,确定组合数据集合中每个组合数据在保护编码数据集中的出现预估频率。服务器104再根据每个组合数据的出现预估频率,确定预设特征集合中的每个特征对于目标分类任务的重要度,进而根据预设特征集合中每个特征的重要度,从预设特征集合中筛选目标特征。
在一些实施例中,每个终端102发送的扰动编码数据,可以基于如下步骤得到:终端102接收查询指令,从查询指令提取组合数据集合;终端102读取本地存储的保护数据,针对组合数据集合的每一组合数据,查询保护数据是否包括所针对的组合数据,得到查询结果,并对查询结果按照组合数据集合进行编码,获得保护编码数据,再根据预设扰动概率对保护编码数据进行扰动处理,得到扰动编码数据。最终终端102响应于查询指令,反馈扰动编码数据。
其中,终端102可以但不限于是各种台式计算机、笔记本电脑、智能手机、平板电脑、物联网设备、或者便携式可穿戴设备等中的一种或多种,物联网设备可为智能音箱、智能电视、智能空调、或者智能车载设备等中的一种或多种。便携式可穿戴设备可为智能手表、智能手环、或者头戴设备等中的一种或多种。
其中,服务器104可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)、以及大数据和人工智能平台等基础云计算服务的云服务器。
需要说明的是,本申请中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性,而只是用来区分不同的组成部分。除非上下文另外清楚地指出,否则单数形式“一个”、“一”或者“该”等类似词语也不表示数量限制,而是表示存在至少一个。本申请各实施例中提及的“多个”或“多份”等的数量均指代“至少两个”的数量,比如,“多个”指“至少两个”,“多份”指“至少两份”。
在一些实施例中,如图2所示,本申请实施例提供的特征筛选方法可以应用于终端或服务器,也可以由终端和服务器协同执行。下面以该方法应用于服务器为例进行说明,该方法包括以下步骤:
步骤S202,接收多个终端发送的相应扰动编码数据,获得扰动编码数据集;每个扰动编码数据,是将相应终端的保护编码数据按扰动概率扰动处理后的数据。
扰动编码数据指的是终端对本地存储的保护数据进行编码后得到的保护编码数据进行随机化处理得到的数据。随机化处理的目的是为了向保护编码数据中添加随机噪声,从而保护数据的隐私安全。随机化处理即对保护编码数据按照扰动概率进行扰动处理。扰动处理包括但不限于最优局部哈希扰动处理等。终端对保护编码数据进行扰动处理的步骤请容后再述。
具体地,服务器可以基于对目标分类任务进行分类模型训练的任务,从多个终端收集扰动编码数据。服务器收集到多个终端发送的相应扰动编码数据后,将各个终端对应的扰动编码数据构成扰动编码数据集。
其中,所收集到的扰动编码数据集中的扰动编码数据是用于后续的特征选择。根据目标分类任务的不同,扰动编码数据的种类也随之不同。例如,在文本分类任务中,服务器对文本分类模型进行训练,因此需要收集终端发送的文本数据作为训练样本。则终端对本地存储的文本数据(保护数据)进行编码后得到保护编码数据,再对保护编码数据进行扰动处理后得到扰动编码数据。
又如,在图像分类任务中,服务器对图像分类模型进行训练,因此需要收集终端发送的图像数据作为训练样本。则终端对本地存储的图像数据(保护数据)进行编码后得到保护编码数据,再对保护编码数据进行扰动处理后得到扰动编码数据。
再如,在例如金融领域的异常数据识别任务中,服务器对异常数据识别模型进行训练,因此需要收集终端发送的金融数据作为训练样本。则终端对本地存储的金融数据(保护数据)进行编码后得到保护编码数据,再对保护编码数据进行扰动处理后得到扰动编码数据。
容易理解的是,上述扰动编码数据的种类仅为举例,在具体的应用场景中可根据实际情况作适当调整;本领域技术人员应当清楚,对上述扰动编码数据的种类所做出的合理变形和适当调整均在本申请的保护范围之内。
步骤S204,获取组合数据集合,组合数据集合包括多个组合数据,每个组合数据包括预设特征集合中任一特征的任一特征值,以及预设类别标签集合的任一类别标签;扰动编码数据和保护编码数据是编码值序列的形式,编码值序列中的编码值,表征相应终端本地的保护数据是否存在组合数据。
在对目标分类任务进行分类模型训练的任务中,服务器需要将从多个终端收集到的扰动编码数据作为训练样本来对分类模型进行训练。训练样本通常需要进行标签进行标注,并且通常包括正样本和负样本。然而由于处于数据保护和隐私安全的目的,服务器无法获取到数据的真实值,而是获取到对真实值进行随机化处理后的扰动值,即扰动编码数据。
通常而言,扰动编码数据和保护编码数据是编码值序列的形式。编码值序列例如为0、1构成的序列等。编码值序列中的编码值,表征相应终端本地的保护数据是否存在组合数据。编码值序列的长度可以根据特征的数量而定。例如,编码值序列中的首位表征年龄特征,第二位表征性别特征,第三位表征兴趣特征……等。示例性地,终端可以对原始的保护数据进行编码后得到保护编码数据,并对保护编码数据进行扰动处理后得到扰动编码数据,具体步骤请容后再述。
鉴于此,服务器便无法获取数据实际属于何种标签,因此需要对数据所属的标签进行估计。因此,服务器根据目标分类任务,预先确定预设特征集合。预设特征集合是预先设置的特征的特征值构成的集合,即包括多个特征的特征值。特征即为用于对分类模型进行训练时的特征。
举例而言,当特征为年龄时,年龄的取值可以为0岁~100岁,则特征值为0~100。又如,当特征为图像中的生物类别时,比如可以是人、猫、狗等。则特征值可以为0~4,其中特征值1表示人,特征值2表示猫,特征值3表示狗,特征值4表示其他生物等。
通常而言,服务器会获取到多个特征的特征值,例如特征包括年龄、性别、以及兴趣等,相应地,预设特征集合则为年龄特征的各个特征值、性别特征的各个特征值、以及兴趣的各个特征值构成的预设特征集合。
服务器还根据目标分类任务,预先确定预设类别标签集合。预设类别标签集合是预先设置的特征所属的类别标签构成的集合。类别标签用于表示特征所属的类别。类别标签用于表示数据作为正样本还是负样本,比如类别标签1表示正样本,类别标签0表示负样本等。
进而,服务器基于预设特征集合和预设类别标签集合,将预设特征集合中任一特征的任一特征值和预设类别标签集合的任一类别标签进行组合,得到组合数据。比如参考图3,服务器对于预设特征集合和预设类别标签集合中的全部特征值和全部类别标签均进行组合,由此即可得到多个组合数据,该多个组合数据构成了组合数据集合。图3示出了一个实施例中组合数据的生成示意图。
举例而言,当特征为年龄时,预设特征集合包括特征值0~100,类别标签包括0和1,则服务器将特征值0~100分别与类别标签进行组合,得到200个组合数据为:(0,0),(1,0),(2,0),…,(100,0),(0,1),(1,1),(2,1)…,(100,1)。这200个组合数据即构成了组合数据集合。
步骤S206,基于扰动编码数据集和扰动概率,确定组合数据集合中每个组合数据在保护编码数据集中的出现预估频率;保护编码数据集,包括多个终端各自的保护编码数据。
对于所获取的组合数据集合中所包括的组合数据,服务器需要预估组合数据在保护编码数据集中出现的次数,即对应于出现预估频率。出现预估频率旨在确定扰动数据集中存在预设的组合数据集合中的组合数据的数据数量。
由此,在服务器无法直接获取到终端在其本地存储的保护数据的情况下,服务器通过预估频率的方式来拟合真实数据的情况,进而根据出现预估频率来判断所获取的扰动编码数据集中的扰动编码数据最可能所相匹配的类别标签。
由此,服务器针对组合数据集合中的每一个组合数据,均从扰动编码数据集中的每个扰动编码数据中进行查找,判断扰动编码数据集中的扰动编码数据是否与组合数据集合中的组合数据相匹配。如果终端发送的扰动编码数据集中,存在与组合数据集合中的组合数据相匹配的扰动编码数据,则说明终端在其本地存储有与该组合数据中的特征值相同的数据,且该数据属于该组合数据中的类别标签。如果终端发送的扰动编码数据集中,不存在与组合数据集合中的组合数据相匹配的扰动编码数据,则说明终端在其本地并未存储有与该组合数据中的特征值相同的数据。
例如,同样以特征为年龄为例,服务器获取的组合数据集合包括如下组合数据:(0,0),(1,0),(2,0),…,(100,0),(0,1),(1,1),(2,1)…,(100,1),则服务器从扰动编码数据集中的每个扰动编码数据中进行查找,判断扰动编码数据集中的扰动编码数据是否与组合数据集合中的组合数据相匹配。
在实际的应用场景中,服务器可以通过查询的方式向终端发送查询,以确定扰动编码数据集中是否存在与组合数据集合中的组合数据相匹配的扰动编码数据。仍以上述实施例中以特征为年龄为例,服务器对于预先确定的组合数据集合(0,0),(1,0),(2,0),…,(100,0),(0,1),(1,1),(2,1)…,(100,1),逐个向终端发送查询,即首先将组合数据(0,0)发送给终端,终端本地将其与保护数据进行比对后判断保护数据是否存在该组合数据(0,0),并对判定结果进行编码得到保护编码数据,再将保护编码数据进行扰动处理后得到的扰动编码数据返回至服务器。接着,服务器再发送(1,0)……直至服务器遍历完整个组合数据集合。
步骤S208,根据每个组合数据的出现预估频率,确定预设特征集合中的每个特征对于目标分类任务的重要度。
服务器根据组合数据集合中每个组合数据的出现预估频率来计算预设特征集合中的每个特征的得分,以描述特征与目标分类任务的相关性,即确定预设特征集合中的每个特征对于目标分类任务的重要度,便于后续确定与目标分类任务最相关的特征,并从中选择与目标分类任务最相关或者对目标分类任务最重要的特征。
其中,服务器根据组合数据集合中每个组合数据的出现预估频率,确定预设特征集合中的每个特征对于目标分类任务的重要度,包括:服务器根据组合数据集合中每个组合数据的出现预估频率,确定预设类别标签集合中每个类别标签的出现次数,以及确定预设特征集合中每个特征的特征值的出现次数,由此根据每个类别标签的出现次数和每个特征的特征值的出现次数,再结合所获取到的数据的总数,即扰动编码数据集中的扰动编码数据总量,确定预设特征集合中的每个特征对于目标分类任务的重要度。
示例性地,预设类别标签集合包括类别标签l为小于或等于M的正整数,M为所述预设类别标签集合中类别标签的总数量。所述预设特征集合包括特征/>k为小于或等于N的正整数,N为所述预设特征集合中特征的总数量。则服务器根据组合数据集合中每个组合数据的出现预估频率,确定预设类别标签集合中每个类别标签/>的出现次数,以及确定预设特征集合中每个特征/>的特征值的出现次数,由此根据每个类别标签的出现次数和每个特征的特征值的出现次数,再结合所获取到的数据的总数,即扰动编码数据集中的扰动编码数据总量,确定预设特征集合中的每个特征对于目标分类任务的重要度。
步骤S210,根据预设特征集合中每个特征的重要度,从预设特征集合中筛选目标特征;目标特征用于针对目标分类任务进行分类模型训练。
服务器在得到预设特征集合中每个特征的重要度之后,即能以特征的重要度为依据对预设特征集合中的特征进行筛选,从而筛选出目标特征。这些目标特征即为与目标分类任务最相关的特征,或者对于目标分类任务最重要的得到特征。由此基于这些目标特征即可对分类模型进行训练,提高分类模型的准确性。示例性地,目标分类任务包括但不限于文本分类任务、图像分类任务、以及异常数据识别任务中的至少一种。
在一些实施例中,服务器根据预设特征集合中每个特征的重要度,从预设特征集合中筛选目标特征,包括:将预设特征集合中的每个特征按照各自对应的重要度进行排序,并按照排序结果筛选预设数量的预设特征,作为目标特征;或者,按照预先设置的重要度阈值,从预设特征集合中选择高于重要度阈值的特征,作为目标特征。
具体地,服务器可以在得到预设特征集合中每个特征的重要度之后,按照重要度的大小为该预设特征集合中的每个特征进行排序,得到排序结果,并按照排序结果筛选预设数量的特征作为目标特征。比如,参考图4,服务器在得到特征的排序结果后,选取前S个特征作为目标特征。图4示出了一个实施例中目标特征的选择示意图。
或者,服务器也可以采取阈值筛选的方式,即预先设置重要度阈值,并按照该重要度阈值对预设特征集合中的特征进行筛选,并将重要度高于该重要度阈值的特征作为目标特征。比如,预设特征集合中的特征各自对应的重要度分别为0~100中的数值,则服务器设置重要度阈值为80,并选择重要度高于80的特征作为目标特征。
上述实施例中,通过基于重要度对特征进行筛选得到目标特征,从而选择与最具代表性的特征来对目标分类任务中的分类模型进行训练,能够降低由于不相关的特征而引起的噪音、复杂度和过度拟合,进而提高了目标分类任务的模型训练效率和分类准确性。
在一些实施例中,服务器还按照目标分类任务,将经筛选得到的目标特征添加至预设的训练样本集合中;通过训练样本集合对目标分类任务中的分类模型进行训练,训练好的分类模型用于目标分类任务中对业务数据进行分类。
容易理解的是,上述目标分类任务及分类模型仅为举例,在具体的应用场景中可根据实际情况作适当调整;本领域技术人员应当清楚,对上述目标分类任务及分类模型的训练过程所做出的合理变形和适当调整均在本申请的保护范围之内。
上述特征筛选方法、装置、服务器、存储介质和计算机程序产品,通过接收多个终端发送的相应扰动编码数据,获得扰动编码数据集,其中每个扰动编码数据是将相应终端的保护编码数据按预设扰动概率扰动处理后的数据,由此终端所发送的数据即为扰动后的数据,终端本地的保护数据能够不被服务器读取,有效地保护了数据的隐私安全;通过获取组合数据集合,并基于扰动编码数据集和预设扰动概率,确定组合数据集合中每个组合数据在保护编码数据集中的出现预估频率,再根据每个组合数据的出现预估频率,确定预设特征集合中的每个特征对于目标分类任务的重要度,由此实现了在数据为扰动后的数据的情况下估计特征的重要性,再根据预设特征集合中每个特征的重要度,从预设特征集合中筛选目标特征,过滤相关性不高的特征,实现了保护隐私安全前提下的特征选择。后续将目标特征用于目标分类任务的分类模型训练中,能够降低由于不相关的特征而引起的噪音、复杂度和过度拟合,进而提高了目标分类任务的模型训练效率和分类准确性。
在一些实施例中,服务器基于扰动编码数据集和扰动概率,确定组合数据集合中每个组合数据在保护编码数据集中的出现预估频率,包括:
步骤S302,针对组合数据集合中的每个组合数据,从扰动编码数据集中的每个扰动编码数据中筛选出与所针对的组合数据相匹配的匹配编码值;每个匹配编码值在相应扰动编码数据中的排序,与针对的组合数据在组合数据集合中的排序相匹配;
步骤S304,针对多个匹配编码值中的每一个,确定所针对的匹配编码值表征的组合数据是否为针对的组合数据,得到与针对的匹配编码值对应的判定结果;
步骤S306,根据每个匹配编码值各自对应的判定结果和扰动概率,确定针对的组合数据在保护编码数据集中的出现预估频率。
具体地,服务器针对组合数据集合中的每个组合数据,确定每个组合数据在组合数据集合中的排序。示例性地,预设特征集合中的每个特征/>包括一组特征值/>,预设类标签集合/>包括L个类标签/>,组合数据集合/>包括多个组合数据/>。则组合数据集合/>中的任一组合数据/>具体可以表示为/>(或者也可以表示为),其中/>表示第l个类标签,/>表示第k个特征/>的第j个值,组合数据集合/>的大小为/>
例如,同样以特征为年龄为例,服务器获取的组合数据集合包括如下组合数据:(0,0),(1,0),(2,0),…,(100,0),(0,1),(1,1),(2,1)…,(100,1),其中组合数据(0,0)是首位,接下来依次是(1,0)、(2,0)……。
相应地,服务器从扰动编码数据集中,按顺序确定每个扰动编码数据的编码值是否与相应顺序的组合数据相匹配。示例性地,扰动编码数据集中的第i个扰动编码数据为,其中/>和/>分别是属于终端i的第k个特征/>(即/>)和类别标签/>(即/>)的编码值。
进而,服务器从每个扰动编码数据中筛选出与所针对的组合数据相匹配的匹配编码值。其中,每个匹配编码值在相应扰动编码数据中的排序,与针对的组合数据在组合数据集合中的排序相匹配,例如指的是每个匹配编码值在相应扰动编码数据中的排序与针对的组合数据在组合数据集合中的排序相同。
参考图5,针对多个匹配编码值中的每一个,服务器确定所针对的匹配编码值表征的组合数据是否为针对的组合数据,即判定所针对的匹配编码值表征的组合数据是否与所针对的组合数据相同,从而得到与针对的匹配编码值对应的判定结果。示例性地,计算机设备可以根据指示函数来确定所针对的匹配编码值表征的组合数据是否为针对的组合数据,从而得到与针对的匹配编码值对应的判定结果。图5示出了一个实施例中判定结果的确定示意图。
由此,服务器即可根据每个匹配编码值各自对应的判定结果和扰动概率,确定针对的组合数据在保护编码数据集中的出现预估频率。
示例性地,服务器可以按照如下公式计算针对的组合数据在保护编码数据集中的出现预估频率:
其中,为组合数据/>即/>的出现预估频率。n为扰动编码数据集中扰动编码数据的数量,即扰动编码数据总量;由于每个用户通过其对应的终端发送扰动编码数据,则n也表示用户数量。/>为对保护数据v进行编码后的保护编码数据,/>表示对保护编码数据/>进行扰动处理后得到的扰动编码数据/>,即/>。/>是一个指示函数,当/>时,指示函数输出判定结果为1,否则输出判定结果为0。pq是扰动概率。
上述实施例中,在服务器无法直接获取到终端在其本地存储的保护数据的情况下,通过基于扰动编码数据集和扰动概率来确定组合数据集合中每个组合数据在保护编码数据集中的出现预估频率,并通过出现预估频率来拟合真实数据的情况,有效地保护了数据和隐私安全。
其中,扰动概率包括第一扰动概率和第二扰动概率。其中第一扰动概率为保护编码数据中的编码值在扰动后保持不变的概率,第二扰动概率为保护编码数据中的编码值在扰动后变为目标值的概率,而目标值为表征相应终端本地的保护数据存在针对的组合数据的值。示例性地,目标值例如为随机值,或者由扰动算法指定的值等。
则相应地,在一些实施例中,服务器根据每个匹配编码值各自对应的判定结果和扰动概率,确定针对的组合数据在保护编码数据中出现的预估频率,包括:
步骤S402,根据每个匹配编码值各自对应的判定结果、第一扰动概率和扰动编码数据集中扰动编码数据的数据量,得到第一中间结果;
步骤S404,根据第一扰动概率与第二扰动概率的差值,得到第二中间结果;
步骤S406,根据第一中间结果和第二中间结果的比值,得到针对的组合数据在保护数据集中的出现预估频率。
具体地,服务器获取每个匹配编码值各自对应的判定结果,即所针对的匹配编码值表征的组合数据是否为针对的组合数据之后,确定保护编码数据中的编码值在扰动后保持不变的概率,即第一扰动概率,结合扰动编码数据集中扰动编码数据总量,得到第一中间结果。
示例性地,服务器可以按照如下公式计算得到第一中间结果
其中,p为表征保护编码数据中的编码值在扰动后保持不变的第一扰动概率。
并且,服务器根据第一扰动概率和第二扰动概率,得到第二中间结果。示例性地,服务器可以按照如下公式计算得到第二中间结果
其中,q为表征保护编码数据中的编码值在扰动后变为目标值的第二扰动概率。
进而,服务器即可根据第一中间结果和第二中间结果的比值,得到针对的组合数据在保护数据集中的出现预估频率。示例性地,服务器可以按照如下公式计算得到出现预估频率:
其中,为组合数据/>即/>的出现预估频率。
上述实施例中,在服务器无法直接获取到终端在其本地存储的保护数据的情况下,通过基于扰动编码数据集和扰动概率来确定组合数据集合中每个组合数据在保护编码数据集中的出现预估频率,并通过出现预估频率来拟合真实数据的情况,有效地保护了数据和隐私安全。
其中,预设类别标签集合包括类别标签l为小于或等于M的正整数,M为预设类别标签集合的总数量。预设特征集合包括特征/>k为小于或等于N的正整数,N为预设特征集合的总数量。
则相应地,在一些实施例中,服务器根据每个组合数据的出现预估频率,确定预设特征集合中的每个特征对于目标分类任务的重要度,包括:根据每个组合数据的出现预估频率,确定类别标签在保护数据集中出现的第一次数;根据每个组合数据的出现预估频率,确定特征/>下的每个特征值分别在保护数据集中出现的第二次数;根据各第一次数、各第二次数和扰动编码数据集中扰动编码数据总量,确定预设特征集合中的每个特征对于目标分类任务的重要度。
具体地,服务器根据每个组合数据的出现预估频率,确定类别标签/>在保护数据集中出现的第一次数/>。假设任一终端发送至服务器的扰动编码数据作为一条记录,则/>表征类别标签/>的记录数量。
示例性地,服务器可以通过如下公式计算确定类别标签在保护数据集中出现的第一次数/>
其中,表示第l个类标签,/>表示第k个特征/>的第j个值,j为小于或等于L的正整数,L为特征/>具有的特征值的总数量。
并且,服务器根据每个组合数据的出现预估频率,确定特征下的每个特征值分别在保护数据集中出现的第二次数/>。假设任一终端发送至服务器的扰动编码数据作为一条记录,则/>表征满足第k个特征的第j个值的记录数量。
示例性地,服务器可以通过如下公式计算确定特征下的每个特征值分别在保护数据集中出现的第二次数/>:/>
进而,服务器即可根据各第一次数、各第二次数/>和扰动编码数据集中扰动编码数据总量/>(扰动编码数据总量/>即为用户数量n),确定预设特征集合中的每个特征对于目标分类任务的重要度,以进行后续的特征选择。
在一些实施例中,参考图6,对于连续型的数据,服务器可以通过信息增益的方式进行特征选择,则服务器通过计算信息熵和条件熵来确定预设特征集合中的每个特征对于目标分类任务的重要度。
在另一些实施例中,对于离散型的数据,服务器可以通过卡方检验的方式进行特征选择,则服务器通过计算卡方值来确定预设特征集合中的每个特征对于目标分类任务的重要度。图6示出了一个实施例中重要度的确定示意图。
上述实施例中,通过分别确定类别标签在保护数据集中出现的次数和每个特征下的各特征值分别在保护数据集中出现的次数,基于出现的次数所反映的相应数据在数据集中出现的概率情况,进而根据概率情况来进行重要度的计算,实现了在数据隐私保护前提下对特征的重要性进行估计。
在基于信息增益的方式进行特征选择的情况下,在一些实施例中,服务器根据各第一次数、各第二次数和扰动编码数据集中扰动编码数据总量,确定预设特征集合中的每个特征对于目标分类任务的重要度,包括:根据类别标签在保护编码数据集中出现的第一次数和扰动编码数据总量,确定与类别标签/>对应的信息熵;信息熵表征预设类别标签集合中类别标签出现概率的平均程度;根据扰动编码数据总量、特征/>下的每个特征值分别在保护编码数据集中出现的第二次数和与特征/>相关联的出现预估频率,确定与特征对应的条件熵;条件熵表征特征/>在对应于类别标签/>的条件下的出现概率的平均程度;根据信息熵和条件熵,确定特征/>对于目标分类任务的重要度。
其中,信息熵通常用于表示某个变量的确定性(或者不确定性)。如果一个变量的取值很多,且每个取值的出现概率差不多,那么该变量具有较高的信息熵。相反,如果一个变量的取值较少、或者一个或少数取值出现的概率远远大于其他取值,则该变量具有较低的信息熵。
因此,信息熵表征预设类别标签集合中类别标签出现概率的平均程度,信息熵越大,说明预设类别标签集合中各个类别标签的出现概率越平均;反之,信息熵越大,说明预设类别标签集合中各个类别标签的出现概率越不平衡(比如其中一个类别标签的出现概率远远大于其他类别标签的出现概率)。
其中,条件熵通常用于表示给定条件下某个变量的熵的期望。具体而言,条件熵表征特征在给定预设类别标签集合的条件下出现概率的平均程度。
具体地,计算机设备根据类别标签在保护编码数据集中出现的第一次数、和扰动编码数据总量,确定与类别标签/>对应的信息熵,从而确定预设类别标签集合中各个类别标签的出现概率的概率分布情况。示例性地,计算机设备可以通过如下公式计算得到与类别标签/>对应的信息熵/>
其中,为类别标签/>在保护编码数据集中出现的第一次数,/>,/>为预设类别标签集合。/>为扰动编码数据总量。
并且,服务器根据扰动编码数据总量、特征/>下的每个特征值分别在保护编码数据集中出现的第二次数/>、以及与特征/>相关联的出现预估频率,确定与特征对应的条件熵。示例性地,计算机设备可以通过如下公式计算得到与特征/>对应的条件熵/>
由此,服务器即可根据信息熵和条件熵,确定特征/>对于目标分类任务的重要度。在一些实施例中,服务器计算信息熵/>和条件熵/>的差值,并根据差值所代表的信息增益来确定特征对于目标分类任务的重要度。
其中,信息增益值越大,说明则该特征携带的分类信息越多,对于目标分类任务而言也就越重要;反之,信息增益值越小,说明则该特征携带的分类信息越少,对于目标分类任务而言相对而言重要性较低。
上述实施例中,通过计算信息熵和条件熵来确定特征对于目标分类任务的重要度,能够过滤相关性不高的特征,实现了保护隐私安全前提下的特征选择。后续将目标特征用于目标分类任务的分类模型训练中,能够降低由于不相关的特征而引起的噪音、复杂度和过度拟合,进而提高了目标分类任务的模型训练效率和分类准确性。
在一些实施例中,特征具有特征值/>j为小于或等于L的正整数,L为特征/>具有的特征值的总数量。则相应地,服务器根据扰动编码数据总量、特征/>下的每个特征值分别在保护编码数据集中出现的第二次数和与特征/>相关联的出现预估频率,确定与特征/>对应的条件熵,包括:确定组合数据集合中包括特征/>的特征值的目标组合数据,得到目标组合数据集合;对于目标组合数据集合中包括类别标签/>和特征值/>的目标组合数据,根据每个组合数据的出现预估频率,确定包括类别标签/>和特征值/>的目标组合数据在保护编码数据集中出现的第三次数;根据第三次数与特征值/>在保护数据集中出现的第二次数的比值,确定与特征值/>对应的第一概率值;第一概率值,表征保护数据集在出现特征值/>的情况下出现类别标签/>的概率值;根据第三次数与扰动编码数据总量的比值,确定保护数据集中出现特征值/>的第二概率值;根据保护数据集中出现类别标签/>的第二概率值和特征/>下每个特征值各自对应的第一概率值,确定特征/>在类别标签/>下的条件熵;根据特征/>在预设类别标签集合中每个类别标签下的条件熵,确定与特征/>对应的条件熵。
其中,服务器确定组合数据集合中包括特征的特征值的目标组合数据,得到目标组合数据集合。其中,目标组合数据集合即为包括特征/>的特征值的组合数据构成的集合。
进而,对于目标组合数据集合中包括类别标签和特征值/>的目标组合数据,服务器根据每个组合数据的出现预估频率,确定包括类别标签/>和特征值/>的目标组合数据在保护编码数据集中出现的第三次数/>
进而,服务器即可根据第三次数与特征值/>在保护数据集中出现的第二次数/>的比值,确定与特征值/>对应的第一概率值/>。其中,第一概率值表征保护数据集在出现特征值/>的情况下出现类别标签/>的概率值。
示例性地,计算机设备可以通过如下公式计算得到第一概率值
并且,服务器根据第三次数与扰动编码数据总量/>的比值,确定保护数据集中所述特征值/>的第二概率值/>
示例性地,计算机设备可以通过如下公式计算得到第二概率值
由此,服务器即可根据保护数据集中出现类别标签的第二概率值/>和特征/>下每个特征值各自对应的第一概率值/>,确定特征/>在类别标签/>下的条件熵。进而,计算机设备即可根据特征/>在预设类别标签集合中每个类别标签下的条件熵,确定与特征/>对应的条件熵。
示例性地,计算机设备可以通过如下公式计算得到条件熵
上述实施例中,通过计算信息熵和条件熵来确定特征对于目标分类任务的重要度,能够过滤相关性不高的特征,实现了保护隐私安全前提下的特征选择。后续将目标特征用于目标分类任务的分类模型训练中,能够降低由于不相关的特征而引起的噪音、复杂度和过度拟合,进而提高了目标分类任务的模型训练效率和分类准确性。
在基于卡方检验的方式进行特征选择的情况下,在一些实施例中,服务器根据各第一次数、各第二次数和扰动编码数据集中扰动编码数据总量,确定预设特征集合中的每个特征对于目标分类任务的重要度,包括:根据各第一次数、各第二次数和扰动编码数据集中扰动编码数据总量,确定特征与预设类别标签集合之间的卡方值;卡方值,表征特征与预设类别标签集合之间的关联度;根据特征/>与预设类别标签集合之间的卡方值,确定特征/>对于目标分类任务的重要度。
具体地,服务器根据各第一次数、各第二次数/>和扰动编码数据集中扰动编码数据总量/>,确定特征/>与预设类别标签集合之间的卡方值。其中,卡方值表征特征/>与预设类别标签集合之间的关联度。
由此,服务器即可根据特征与预设类别标签集合之间的卡方值,确定特征/>对于目标分类任务的重要度。较高的卡方值显示特征和类别标签之间的依赖性更高。对于95%置信度的卡方检验中,通常卡方临界值为3.84。对于特征/>和类别标签/>,如果卡方值小于临界值3.84,则说明特征和类别标签相互独立。则服务器使用卡方值来排序特征,使卡方值较高的特征(更具相关性的特征)进行目标分类任务的分类模型训练。
上述实施例中,通过计算卡方值来确定特征对于目标分类任务的重要度,能够过滤相关性不高的特征,实现了保护隐私安全前提下的特征选择。后续将目标特征用于目标分类任务的分类模型训练中,能够降低由于不相关的特征而引起的噪音、复杂度和过度拟合,进而提高了目标分类任务的模型训练效率和分类准确性。
在一些实施例中,特征具有特征值/>j为小于或等于L的正整数,L为特征/>具有的特征值的总数量。则相应地,服务器根据各第一次数、各第二次数和扰动编码数据集中扰动编码数据总量,确定特征/>与预设类别标签集合之间的卡方值,包括:确定组合数据集合中包括特征/>的特征值的目标组合数据,得到目标组合数据集合;对于目标组合数据集合中包括类别标签/>和特征值/>的目标组合数据,将类别标签/>在保护编码数据集中出现的第一次数与特征值/>在保护编码数据集中出现的第二次数进行融合,得到与包括类别标签/>和特征值/>的目标组合数据相对应的融合数据;根据融合数据与扰动编码数据总量的比值,确定与包括类别标签/>和特征值/>的目标组合数据相对应的融合数据均值;根据包括类别标签/>和特征值/>的目标组合数据在保护编码数据集中出现的第三次数和融合数据均值,确定特征/>在类别标签/>下的卡方值;根据特征/>在预设类别标签集合中每个类别标签下的卡方值,确定与特征/>对应的卡方值。
具体地,服务器确定组合数据集合中包括特征的特征值的目标组合数据,得到目标组合数据集合,目标组合数据集合即为包括特征/>的特征值的组合数据构成的集合。
对于目标组合数据集合中包括类别标签和特征值/>的目标组合数据,服务器将类别标签/>在保护编码数据集中出现的第一次数/>,与特征值/>在保护编码数据集中出现的第二次数/>进行融合,得到与包括类别标签/>和特征值/>的目标组合数据相对应的融合数据/>
由此,服务器即可根据融合数据与扰动编码数据总量的比值,确定与包括类别标签和特征值/>的目标组合数据相对应的融合数据均值。示例性地,计算机设备可以通过如下公式计算得到与包括类别标签/>和特征值/>的目标组合数据相对应的融合数据均值:
进而,服务器即可根据包括类别标签和特征值/>的目标组合数据在保护编码数据集中出现的第三次数/>和融合数据均值,确定特征/>在类别标签/>下的卡方值。
由此,服务器即可根据特征在预设类别标签集合中每个类别标签下的卡方值,确定与特征/>对应的卡方值。示例性地,计算机设备可以通过如下公式计算在预设类别标签集合下与特征/>对应的卡方值:
其中,为在预设类别标签集合下与特征/>对应的卡方值。
上述实施例中,通过计算信息熵和条件熵来确定特征对于目标分类任务的重要度,能够过滤相关性不高的特征,实现了保护隐私安全前提下的特征选择。后续将目标特征用于目标分类任务的分类模型训练中,能够降低由于不相关的特征而引起的噪音、复杂度和过度拟合,进而提高了目标分类任务的模型训练效率和分类准确性。
本申请还提供一种应用场景,该应用场景应用上述的特征筛选方法。具体地,以本申请实施例提供的特征筛选方法应用于文本分类任务为例,在该应用场景下的特征筛选方法的步骤包括:服务器接收多个终端发送的相应扰动文本编码数据,获得扰动文本编码数据集;每个扰动文本编码数据,是将相应终端的文本编码数据按扰动概率扰动处理后的数据。服务器获取组合数据集合,组合数据集合包括多个组合数据,每个组合数据包括预设文本特征集合中任一文本特征的任一文本特征值,以及预设文本类别标签集合的任一文本类别标签;扰动文本编码数据和文本编码数据是编码值序列的形式,编码值序列中的编码值,表征相应终端本地的文本数据是否存在组合数据;基于扰动文本编码数据集和扰动概率,确定组合数据集合中每个组合数据在文本编码数据集中的出现预估频率;文本编码数据集,包括多个终端各自的文本编码数据。服务器根据每个组合数据的出现预估频率,确定预设文本特征集合中的每个文本特征对于文本分类任务的重要度。 服务器根据预设文本特征集合中每个文本特征的重要度,从预设文本特征集合中筛选目标文本特征;目标文本特征用于针对文本分类任务进行文本分类模型的模型训练。
又如,以本申请实施例提供的特征筛选方法应用于图像分类任务为例,在该应用场景下的特征筛选方法的步骤包括:服务器接收多个终端发送的相应扰动图像编码数据,获得扰动图像编码数据集;每个扰动图像编码数据,是将相应终端的图像编码数据按扰动概率扰动处理后的数据。服务器获取组合数据集合,组合数据集合包括多个组合数据,每个组合数据包括预设图像特征集合中任一图像特征的任一图像特征值,以及预设图像类别标签集合的任一图像类别标签;扰动图像编码数据和图像编码数据是编码值序列的形式,编码值序列中的编码值,表征相应终端本地的图像数据是否存在组合数据。服务器基于扰动图像编码数据集和扰动概率,确定组合数据集合中每个组合数据在图像编码数据集中的出现预估频率;图像编码数据集,包括多个终端各自的图像编码数据。服务器根据每个组合数据的出现预估频率,确定预设图像特征集合中的每个图像特征对于图像分类任务的重要度。服务器根据预设图像特征集合中每个图像特征的重要度,从预设图像特征集合中筛选目标图像特征;目标图像特征用于针对图像分类任务进行图像分类模型的模型训练。
再如,以本申请实施例提供的特征筛选方法应用于金融领域的异常数据识别任务为例,异常数据识别即为对数据是异常还是正常进行分类。在该应用场景下的特征筛选方法的步骤包括:服务器接收多个终端发送的相应扰动编码数据,获得扰动编码数据集;每个所述扰动编码数据,是将相应终端的金融编码数据按扰动概率扰动处理后的数据;服务器获取组合数据集合,所述组合数据集合包括多个组合数据,每个组合数据包括预设特征集合中任一特征的任一特征值,以及预设类别标签集合的任一类别标签;所述扰动编码数据和所述金融编码数据是编码值序列的形式,所述编码值序列中的编码值,表征相应终端本地的金融数据是否存在所述组合数据。服务器基于所述扰动编码数据集和所述扰动概率,确定所述组合数据集合中每个组合数据在金融编码数据集中的出现预估频率;所述金融编码数据集,包括所述多个终端各自的金融编码数据。服务器根据每个所述组合数据的出现预估频率,确定所述预设特征集合中的每个特征对于目标分类任务的重要度。服务器根据所述预设特征集合中每个特征的所述重要度,从所述预设特征集合中筛选目标特征;所述目标特征用于针对所述异常数据识别任务进行异常数据识别模型的模型训练。
上述应用场景仅为示意性的说明,可以理解,本申请各实施例所提供的特征筛选方法的应用不局限于上述场景。
下面以具体的实施例为例,说明本申请实施例提供的特征筛选方法的具体步骤。具体包括如下步骤:服务器接收多个终端发送的相应扰动编码数据,获得扰动编码数据集。并且,服务器获取组合数据集合。
服务器针对组合数据集合中的每个组合数据,从扰动编码数据集中的每个扰动编码数据中筛选出与所针对的组合数据相匹配的匹配编码值,并针对多个匹配编码值中的每一个,确定所针对的匹配编码值表征的组合数据是否为针对的组合数据,得到与针对的匹配编码值对应的判定结果。
进而,服务器根据每个匹配编码值各自对应的判定结果、第一扰动概率和扰动编码数据集中扰动编码数据的数据量,得到第一中间结果;根据第一扰动概率与第二扰动概率的差值,得到第二中间结果;并根据第一中间结果和第二中间结果的比值,得到针对的组合数据在保护数据集中的出现预估频率。
接着,服务器根据每个组合数据的出现预估频率,确定类别标签在保护数据集中出现的第一次数,并根据每个组合数据的出现预估频率,确定特征/>下的每个特征值分别在保护数据集中出现的第二次数。
当基于信息增益技术来进行特征选择时,服务器根据类别标签在保护编码数据集中出现的第一次数和扰动编码数据总量,确定与类别标签/>对应的信息熵,并确定组合数据集合中包括特征/>的特征值的目标组合数据,得到目标组合数据集合。对于目标组合数据集合中包括类别标签/>和特征值/>的目标组合数据,服务器根据每个组合数据的出现预估频率,确定包括类别标签/>和特征值/>的目标组合数据在保护编码数据集中出现的第三次数,并根据第三次数与特征值/>在保护数据集中出现的第二次数的比值,确定与特征值/>对应的第一概率值。并且,服务器根据第三次数与扰动编码数据总量的比值,确定保护数据集中出现类别标签/>的第二概率值。服务器根据保护数据集中出现类别标签的第二概率值和特征/>下每个特征值各自对应的第一概率值,确定特征/>在类别标签下的条件熵,并根据特征/>在预设类别标签集合中每个类别标签下的条件熵,确定与特征/>对应的条件熵。由此,服务器即可根据信息熵和条件熵,确定特征/>对于目标分类任务的重要度。
当以卡方检验作为特征选择方式时,服务器确定组合数据集合中包括特征的特征值的目标组合数据,得到目标组合数据集合。对于目标组合数据集合中包括类别标签和特征值/>的目标组合数据,服务器将类别标签/>在保护编码数据集中出现的第一次数与特征值/>在保护编码数据集中出现的第二次数进行融合,得到与包括类别标签/>和特征值/>的目标组合数据相对应的融合数据,并根据融合数据与扰动编码数据总量的比值,确定与包括类别标签/>和特征值/>的目标组合数据相对应的融合数据均值。并且,服务器还根据包括类别标签/>和特征值/>的目标组合数据在保护编码数据集中出现的第三次数和融合数据均值,确定特征/>在类别标签/>下的卡方值,并根据特征/>在预设类别标签集合中每个类别标签下的卡方值,确定与特征/>对应的卡方值。由此,服务器即可根据特征/>与预设类别标签集合之间的卡方值,确定特征/>对于目标分类任务的重要度。
最终,服务器即可将预设特征集合中的每个特征按照各自对应的重要度进行排序,并按照排序结果筛选预设数量的预设特征,作为目标特征。或者,服务器可按照预先设置的重要度阈值,从预设特征集合中选择高于重要度阈值的特征,作为目标特征。其中目标特征用于针对目标分类任务进行分类模型训练。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供一种数据扰动方法。在一些实施例中,如图7所示,该方法可以应用于终端,包括以下步骤:
步骤S702,接收查询指令,从查询指令提取组合数据集合,组合数据集合包括多个组合数据,每个组合数据包括预设特征集合中任一特征的任一特征值,以及预设类别标签集合的任一类别标签。
具体地,终端接收到服务器发送的查询指令后,从查询指令提取组合数据集合。其中,组合数据集合为服务器根据目标分类任务预先确定的。预设特征集合是预先设置的特征的特征值构成的集合,即包括多个特征的特征值。特征即为用于对分类模型进行训练时的特征。
举例而言,当特征为年龄时,年龄的取值可以为0岁~100岁,则特征值为0~100。又如,当特征为图像中的生物类别时,比如可以是人、猫、狗等。则特征值可以为0~4,其中特征值1表示人,特征值2表示猫,特征值3表示狗,特征值4表示其他生物等。
通常而言,服务器会获取到多个特征的特征值,例如特征包括年龄、性别、以及兴趣等,相应地,预设特征集合则为年龄特征的各个特征值、性别特征的各个特征值、以及兴趣的各个特征值构成的预设特征集合。
步骤S704,读取本地存储的保护数据,针对组合数据集合的每一组合数据,查询保护数据是否包括所针对的组合数据,得到查询结果。
具体地,终端读取本地存储的保护数据,保护数据的类别可以根据目标分类任务而确定。示例性地,目标分类任务包括但不限于文本分类任务、图像分类任务、以及异常数据识别任务中的至少一种。比如,目标分类任务为文本分类任务时,保护数据为文本数据。又如,目标分类任务为图像分类任务时,保护数据为图像数据。再如,目标分类任务为金融领域的异常数据识别任务时,异常数据识别即为对数据是异常还是正常进行分类,则保护数据为金融数据。
终端针对于组合数据集合中的每一组合数据,查询保护数据是否包括所针对的组合数据,即,组合数据集合中的每一组合数据与本地存储的保护数据进行比较,当组合数据集合中的某一组合数据与本地存储的保护数据相同时,说明本地存储的保护数据中包括该组合数据,由此终端即可得到查询结果。
在一些实施例中,终端可以利用编码值作为查询结果,来表示保护数据是否包括所针对的组合数据。例如,终端利用编码值0来表示保护数据未包括所针对的组合数据,并利用编码值1来表示保护数据包括所针对的组合数据。由此,对于包含多个特征的组合数据,查询结果即为一个编码值序列的形式。
步骤S706,对查询结果按照组合数据集合进行编码,获得保护编码数据。
通常而言,保护编码数据是编码值序列的形式。编码值序列例如为0、1构成的序列等。编码值序列中的编码值,表征相应终端本地的保护数据是否存在组合数据。编码值序列的长度可以根据特征的数量而定。例如,编码值序列中的首位表征年龄特征,第二位表征性别特征,第三位表征兴趣特征……等。
在一些实施例中,终端对查询结果按照组合数据集合进行编码,包括:按照组合数据集合中组合数据的排序,分别对相匹配的排序的查询结果进行编码,从而得到保护编码数据。
举例而言,终端对用户数据(保护数据)与组合数据的查询结果按照组合数据集合的排序进行排序,其中第一排序表示年龄特征的查询结果,第二排序表示性别特征的查询结果,第三排序表示兴趣特征的查询结果……等。
步骤S708,根据预设扰动概率对保护编码数据进行扰动处理,得到扰动编码数据。
通常而言,扰动编码数据与保护编码数据相同,均为编码值序列的形式。具体地,终端根据预设扰动概率对保护编码数据进行扰动处理,得到扰动编码数据。示例性地,终端可以利用局部差分隐私算法实现对保护编码数据进行扰动处理。
其中,扰动处理是一种将数据扰动后返回真实值或随机值的技术,其返回真实值的概率是,返回随机值的概率是/>,其中,ε为本地化隐私参数。
示例性地,以保护数据、保护编码数据/>为例,则/>为扰动编码数据。则扰动概率可以通过如下公式计算得到:
在一些实施例中,扰动概率包括第一扰动概率和第二扰动概率。其中第一扰动概率为保护编码数据中的编码值在扰动后保持不变的概率,第二扰动概率为保护编码数据中的编码值在扰动后变为目标值的概率,而目标值为表征相应终端本地的保护数据存在针对的组合数据的值。
则相应地,第一扰动概率p为保护编码数据中的编码值在扰动后保持不变的概率,概率值为,第二扰动概率q保护编码数据中的编码值在扰动后变为目标值的概率,概率值为/>
步骤S710,响应于查询指令,反馈扰动编码数据。
具体地,终端在得到扰动编码数据后,完成对原始的保护数据的隐私化处理,则将扰动编码数据发送至服务器,以供服务器根据扰动编码数据进行后续的特征选择。
在其中一个实施例中,参考图8,服务器可发送查询指令至各终端,进而各终端可反馈扰动编码数据,进而服务器可综合各扰动编码数据,得到扰动编码数据集。图8示出了一个实施例中扰动编码数据的获取示意图。
在其中一个实施例中,针对每一个组合数据,服务器也可生成一个查询指令,从而当具有多个组合数据时,则发送多个组合数据,进而本地终端可基于接收到的多个查询请求进行多次查询,以得到多个查询结果,再对多个查询结果进行编码和扰动,得到序列值,将各序列值进行组合,得到扰动编码数据。
上述数据扰动方法、装置、计算机设备、存储介质和计算机程序产品,通过接收查询指令,并从查询指令提取组合数据集合,通过读取本地存储的保护数据来查询保护数据是否包括组合数据集合的每一组合数据,对所得到的查询结果按照组合数据集合进行编码,获得保护编码数据,再根据预设扰动概率对保护编码数据进行扰动处理得到扰动编码数据,通过添加一定量的随机噪音来保护数据隐私,并最终响应于查询指令反馈扰动编码数据,既能够对本地的保护数据增加数据扰动实现隐私保护,同时能够使得扰动后的数据能够尽可能反映真实数据,使得后续能够基于扰动编码数据进行有效地特征选择。
在一些实施例中,终端对查询结果按照组合数据集合进行编码,获得保护编码数据,包括:对于组合数据集合中的每个组合数据,在保护数据包括当前组合数据的情况下,将当前组合数据编码为第一目标值;在保护数据未包括当前组合数据的情况下,将当前组合数据编码为第二目标值;其中,第一目标值不同于第二目标值。
具体而言,终端对于组合数据集合中的每个组合数据,在保护数据包括当前组合数据的情况下,将当前组合数据编码为第一目标值,例如将当前组合数据编码为1。反之,在保护数据未包括当前组合数据的情况下,则终端将当前组合数据编码为第二目标值,例如将当前组合数据编码为0。第一目标值不同于第二目标值,目的是为了便于区分保护数据是否包括当前组合数据的不同情况,具体取值可以根据实际情况而定。
上述实施例中,通过对查询结果按照组合数据集合进行编码,获得保护编码数据,实现了对数据按照组合数据进行编码,使得数据能够在扰动后依然能够反映数据的真实情况。
本申请实施例中提出一种最优局部哈希方法对相关的扰动方法进行改进,从而提高扰动效率并提高反映真实数据的能力。为此,在一些实施例中,终端根据预设扰动概率对保护编码数据进行扰动处理,得到扰动编码数据,包括:对于保护编码数据中的每个编码值,确定与当前编码值对应的哈希函数,并根据哈希函数输出与当前编码值对应的哈希值;根据哈希值和当前编码值,生成与当前编码值对应的哈希编码值对;根据预设的扰动概率,将与当前编码值对应的哈希编码值对中的数值进行变更,得到与当前编码值对应的扰动后的哈希编码值对;根据保护编码数据中各编码值各自对应的扰动后的哈希编码值对,确定扰动编码数据。
具体地,终端对于保护编码数据中的每个编码值,确定与当前编码值对应的哈希函数,并根据哈希函数输出与当前编码值对应的哈希值。终端预先设置哈希函数族,该哈希函数族中包含多个哈希函数。例如,终端设置有哈希函数族,其中/>m为哈希函数的数量。任一哈希函数/>均会输出一个哈希值/>。示例性地,终端从预先设置的哈希函数族中,随机选择与当前编码值对应的哈希函数/>
进而,计算机设备根据当前选择的与当前编码值对应的哈希函数,对保护数据进行编码得到的当前编码值/>进行哈希编码,从而生成与当前编码值对应的哈希编码值对/>
进而,终端根据预设的扰动概率,将与当前编码值对应的哈希编码值对中的数值进行变更,得到与当前编码值对应的扰动后的哈希编码值对。其中,预设的扰动概率可以通过如下公式表示:
由此,终端即可根据保护编码数据中各编码值各自对应的扰动后的哈希编码值对,根据预设扰动概率对保护编码数据进行扰动处理,确定扰动编码数据。
其中,在扰动概率包括第一扰动概率和第二扰动概率时,第一扰动概率为保护编码数据中的编码值在扰动后保持不变的概率p。第二扰动概率为保护编码数据中的编码值在扰动后变为目标值的概率q,/>
上述实施例中,通过根据预设扰动概率对保护编码数据进行扰动处理得到扰动编码数据,通过添加一定量的随机噪音来保护数据隐私,并最终响应于查询指令反馈扰动编码数据,既能够对本地的保护数据增加数据扰动实现隐私保护,同时能够使得扰动后的数据能够尽可能反映真实数据,使得后续能够基于扰动编码数据进行有效地特征选择。
在一些实施例中,在结合上述特征扰动方法和特征选择方法的场景下,本申请实施例还提供一种基于局部差分隐私技术的特征选择框架,如图9所示,其中,任一终端按照上述实施例中的数据扰动方法,对原始的保护数据进行编码处理,得到保护编码数据,再对保护编码数据进行随机化处理得到扰动编码数据,并将扰动编码数据发送至服务器。服务器收集多个终端各自上传的扰动编码数据。由此,服务器即可按照上述实施例中的特征筛选方法,根据多个终端发送的相应扰动编码数据获得扰动编码数据集,并基于该扰动编码数据集进行特征选择。
示例性地,终端中设置编码器来对原始的保护数据进行数据隐私化处理,而服务器中设置聚合器来收集各个终端发送的扰动编码数据。则一种具体的实施步骤如下:
终端通过编码器将本地的保护数据进行编码,转换为二进制向量,即保护编码数据,以匹配扰动处理过程中所需的数据形式。终端通过扰动算法对保护编码数据进行扰动处理,得到扰动编码数据,并将扰动编码数据发送到聚合器。
聚合器收集所有终端发送的扰动编码数据,并进行频率估计得到出现预估频率,再利用估计得到的出现预估频率计算每个特征的重要度,以描述特征与目标分类任务的相关性。其中,重要度越高表示特征与目标分类任务越相关。由此,聚合器即可根据每个特征的重要度进行特征选择。
下面给出当终端基于上述实施例中的数据扰动方法对保护数据进行扰动处理后,服务器能够基于上述实施例中的特征筛选方法进行特征选择的证明过程:
本申请实施例提供的特征筛选方法仅在估算实际值时使用频率估算,其中/>,/>是/>实际值和估算值之间的差异,即估算误差。因此基于出现概率估计得到的/>、/>和/>的值/>、/>和/>如下:
在特征有/>的情况下,对于lj、特征/>、/>、/>的值被估计的最大误差如下:
/>
由此,基于上述公式可以推断出,如果趋近于零,即频率估计没有误差,则近似概率/>、/>和/>分别趋近于/>、/>和/>
进而,对于特征的所有特征值,如果误差趋近于零,则可以得到:
同样地,可以得到:
因此,基于上述过程可以得到:
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的特征选择方法的特征选择装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个特征选择装置实施例中的具体限定可以参见上文中对于特征选择方法的限定,在此不再赘述。
在一些实施例中,如图10所示,提供了一种特征选择装置1000,包括:接收模块1001、获取模块1002、预估模块1003、确定模块1004和筛选模块1005,其中:
接收模块1001,用于接收多个终端发送的相应扰动编码数据,获得扰动编码数据集;每个扰动编码数据,是将相应终端的保护编码数据按扰动概率扰动处理后的数据。
获取模块1002,用于获取组合数据集合,组合数据集合包括多个组合数据,每个组合数据包括预设特征集合中任一特征的任一特征值,以及预设类别标签集合的任一类别标签;扰动编码数据和保护编码数据是编码值序列的形式,编码值序列中的编码值,表征相应终端本地的保护数据是否存在组合数据。
预估模块1003,用于基于扰动编码数据集和扰动概率,确定组合数据集合中每个组合数据在保护编码数据集中的出现预估频率;保护编码数据集,包括多个终端各自的保护编码数据。
确定模块1004,用于根据每个组合数据的出现预估频率,确定预设特征集合中的每个特征对于目标分类任务的重要度。
筛选模块1005,用于根据预设特征集合中每个特征的重要度,从预设特征集合中筛选目标特征;目标特征用于针对目标分类任务进行分类模型训练。
在一些实施例中,预估模块还用于针对组合数据集合中的每个组合数据,从扰动编码数据集中的每个扰动编码数据中筛选出与所针对的组合数据相匹配的匹配编码值;每个匹配编码值在相应扰动编码数据中的排序,与针对的组合数据在组合数据集合中的排序相匹配;针对多个匹配编码值中的每一个,确定所针对的匹配编码值表征的组合数据是否为针对的组合数据,得到与针对的匹配编码值对应的判定结果;根据每个匹配编码值各自对应的判定结果和扰动概率,确定针对的组合数据在保护编码数据集中的出现预估频率。
在一些实施例中,扰动概率包括第一扰动概率和第二扰动概率;第一扰动概率,为保护编码数据中的编码值在扰动后保持不变的概率;第二扰动概率,为保护编码数据中的编码值在扰动后变为目标值的概率;目标值为表征相应终端本地的保护数据存在针对的组合数据的值;预估模块还用于根据每个匹配编码值各自对应的判定结果、第一扰动概率和扰动编码数据集中扰动编码数据的数据量,得到第一中间结果;根据第一扰动概率与第二扰动概率的差值,得到第二中间结果;根据第一中间结果和第二中间结果的比值,得到针对的组合数据在保护数据集中的出现预估频率。
在一些实施例中,预设类别标签集合包括类别标签i为小于或等于M的正整数,M为预设类别标签集合的总数量;预设特征集合包括特征/>k为小于或等于N的正整数,N为预设特征集合的总数量;确定模块还用于根据每个组合数据的出现预估频率,确定类别标签/>在保护数据集中出现的第一次数;根据每个组合数据的出现预估频率,确定特征/>下的每个特征值分别在保护数据集中出现的第二次数;根据各第一次数、各第二次数和扰动编码数据集中扰动编码数据总量,确定预设特征集合中的每个特征对于目标分类任务的重要度。
在一些实施例中,确定模块还用于根据类别标签在保护编码数据集中出现的第一次数和扰动编码数据总量,确定与类别标签/>对应的信息熵;信息熵表征预设类别标签集合中类别标签出现概率的平均程度;根据扰动编码数据总量、特征/>下的每个特征值分别在保护编码数据集中出现的第二次数和与特征/>相关联的出现预估频率,确定与特征对应的条件熵;条件熵表征特征/>在给定预设类别标签集合的条件下出现概率的平均程度;根据信息熵和条件熵,确定特征/>对于目标分类任务的重要度。
在一些实施例中,特征具有特征值/>j为小于或等于L的正整数,L为特征/>具有的特征值的总数量;确定模块还用于确定组合数据集合中包括特征/>的特征值的目标组合数据,得到目标组合数据集合;对于目标组合数据集合中包括类别标签/>和特征值的目标组合数据,根据每个组合数据的出现预估频率,确定包括类别标签/>和特征值/>的目标组合数据在保护编码数据集中出现的第三次数;根据第三次数与特征值/>在保护数据集中出现的第二次数的比值,确定与特征值/>对应的第一概率值;第一概率值,表征保护数据集在出现特征值/>的情况下出现类别标签/>的概率值;根据第三次数与扰动编码数据总量的比值,确定保护数据集中出现类别标签/>的第二概率值;根据保护数据集中出现类别标签/>的第二概率值和特征/>下每个特征值各自对应的第一概率值,确定特征/>在类别标签/>下的条件熵;根据特征/>在预设类别标签集合中每个类别标签下的条件熵,确定与特征/>对应的条件熵。
在一些实施例中,确定模块还用于根据各第一次数、各第二次数和扰动编码数据集中扰动编码数据总量,确定特征与预设类别标签集合之间的卡方值;卡方值,表征特征/>与预设类别标签集合之间的关联度;根据特征/>与预设类别标签集合之间的卡方值,确定特征/>对于目标分类任务的重要度。
在一些实施例中,特征具有特征值/>j为小于或等于L的正整数,L为特征/>具有的特征值的总数量;确定模块还用于确定组合数据集合中包括特征/>的特征值的目标组合数据,得到目标组合数据集合;对于目标组合数据集合中包括类别标签/>和特征值的目标组合数据,将类别标签/>在保护编码数据集中出现的第一次数与特征值/>在保护编码数据集中出现的第二次数进行融合,得到与包括类别标签/>和特征值/>的目标组合数据相对应的融合数据;根据融合数据与扰动编码数据总量的比值,确定与包括类别标签/>和特征值/>的目标组合数据相对应的融合数据均值;根据包括类别标签/>和特征值的目标组合数据在保护编码数据集中出现的第三次数和融合数据均值,确定特征/>在类别标签/>下的卡方值;根据特征/>在预设类别标签集合中每个类别标签下的卡方值,确定与特征/>对应的卡方值。
在一些实施例中,筛选模块还用于将预设特征集合中的每个特征按照各自对应的重要度进行排序,并按照排序结果筛选预设数量的预设特征,作为目标特征;或者,按照预先设置的重要度阈值,从预设特征集合中选择高于重要度阈值的特征,作为目标特征。
上述特征选择装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的数据扰动方法的数据扰动装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个数据扰动装置实施例中的具体限定可以参见上文中对于数据扰动方法的限定,在此不再赘述。
在一些实施例中,如图11所示,提供了一种数据扰动装置1100,包括:接收模块1101、读取模块1102、编码模块1103、扰动模块1104和发送模块1105,其中:
接收模块1101,用于接收查询指令,从查询指令提取组合数据集合,组合数据集合包括多个组合数据,每个组合数据包括预设特征集合中任一特征的任一特征值,以及预设类别标签集合的任一类别标签。
读取模块1102,用于读取本地存储的保护数据,针对组合数据集合的每一组合数据,查询保护数据是否包括所针对的组合数据,得到查询结果。
编码模块1103,用于对查询结果按照组合数据集合进行编码,获得保护编码数据。
扰动模块1104,用于根据预设扰动概率对保护编码数据进行扰动处理,得到扰动编码数据。
发送模块1105,用于响应于查询指令,反馈扰动编码数据。
在一些实施例中,编码模块还用于对于组合数据集合中的每个组合数据,在保护数据包括当前组合数据的情况下,将当前组合数据编码为第一目标值;在保护数据未包括当前组合数据的情况下,将当前组合数据编码为第二目标值;第一目标值不同于第二目标值。
在一些实施例中,保护编码数据是编码值序列的形式;编码模块还用于对于保护编码数据中的每个编码值,确定与当前编码值对应的哈希函数,并根据哈希函数输出与当前编码值对应的哈希值;根据哈希值和当前编码值,生成与当前编码值对应的哈希编码值对;根据预设的扰动概率,将与当前编码值对应的哈希编码值对中的数值进行变更,得到与当前编码值对应的扰动后的哈希编码值对;根据保护编码数据中各编码值各自对应的扰动后的哈希编码值对,确定扰动编码数据。
上述数据扰动装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一些实施例中,本申请实施例提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图12所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储特征选择相关的数据,例如组合数据等。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种特征筛选方法。
在一些实施例中,本申请实施例还提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图13所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种数据扰动方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图12和图13中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一些实施例中,还提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一些实施例中,提供了一种计算机可读存储介质,存储有计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一些实施例中,提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (16)

1.一种特征筛选方法,其特征在于,所述方法包括:
接收多个终端发送的相应扰动编码数据,获得扰动编码数据集;每个所述扰动编码数据,是将相应终端的保护编码数据按扰动概率扰动处理后的数据;
获取组合数据集合,所述组合数据集合包括多个组合数据,每个组合数据包括预设特征集合中任一特征的任一特征值,以及预设类别标签集合的任一类别标签;所述扰动编码数据和所述保护编码数据是编码值序列的形式,所述编码值序列中的编码值,表征相应终端本地的保护数据是否存在所述组合数据;
基于所述扰动编码数据集和所述扰动概率,确定所述组合数据集合中每个组合数据在保护编码数据集中的出现预估频率;所述保护编码数据集,包括所述多个终端各自的保护编码数据;
根据每个所述组合数据的出现预估频率,确定所述预设特征集合中的每个特征对于目标分类任务的重要度;
根据所述预设特征集合中每个特征的所述重要度,从所述预设特征集合中筛选目标特征;所述目标特征用于针对所述目标分类任务进行分类模型训练。
2.根据权利要求1所述的方法,其特征在于,所述基于所述扰动编码数据集和所述扰动概率,确定所述组合数据集合中每个组合数据在保护编码数据集中的出现预估频率,包括:
针对所述组合数据集合中的每个组合数据,从所述扰动编码数据集中的每个扰动编码数据中筛选出与所针对的组合数据相匹配的匹配编码值;每个所述匹配编码值在相应扰动编码数据中的排序,与所述针对的组合数据在所述组合数据集合中的排序相匹配;
针对多个匹配编码值中的每一个,确定所针对的匹配编码值表征的组合数据是否为所述针对的组合数据,得到与所述针对的匹配编码值对应的判定结果;
根据每个所述匹配编码值各自对应的判定结果和所述扰动概率,确定所述针对的组合数据在保护编码数据集中的出现预估频率。
3.根据权利要求2所述的方法,其特征在于,所述扰动概率包括第一扰动概率和第二扰动概率;所述第一扰动概率,为所述保护编码数据中的编码值在扰动后保持不变的概率;所述第二扰动概率,为所述保护编码数据中的编码值在扰动后变为目标值的概率;所述目标值为表征相应终端本地的保护数据存在所述针对的组合数据的值;
所述根据每个所述匹配编码值各自对应的判定结果和所述扰动概率,确定所述针对的组合数据在所述保护编码数据中出现的预估频率,包括:
根据每个所述匹配编码值各自对应的判定结果、所述第一扰动概率和所述扰动编码数据集中扰动编码数据的数据量,得到第一中间结果;
根据所述第一扰动概率与所述第二扰动概率的差值,得到第二中间结果;
根据所述第一中间结果和所述第二中间结果的比值,得到所述针对的组合数据在保护数据集中的出现预估频率。
4.根据权利要求1所述的方法,其特征在于,所述预设类别标签集合包括类别标签l为小于或等于M的正整数,M为所述预设类别标签集合的总数量;所述预设特征集合包括特征/>k为小于或等于N的正整数,N为所述预设特征集合的总数量;
所述根据每个所述组合数据的出现预估频率,确定所述预设特征集合中的每个特征对于目标分类任务的重要度,包括:
根据每个所述组合数据的出现预估频率,确定所述类别标签在所述保护数据集中出现的第一次数;
根据每个所述组合数据的出现预估频率,确定所述特征下的每个特征值分别在所述保护数据集中出现的第二次数;
根据各所述第一次数、各所述第二次数和所述扰动编码数据集中扰动编码数据总量,确定所述预设特征集合中的每个特征对于目标分类任务的重要度。
5.根据权利要求4所述的方法,其特征在于,所述根据各所述第一次数、各所述第二次数和所述扰动编码数据集中扰动编码数据总量,确定所述预设特征集合中的每个特征对于目标分类任务的重要度,包括:
根据所述类别标签在所述保护编码数据集中出现的第一次数和所述扰动编码数据总量,确定与所述预设类别标签集合对应的信息熵;所述信息熵表征所述预设类别标签集合中类别标签出现概率的平均程度;
根据所述扰动编码数据总量、所述特征下的每个特征值分别在所述保护编码数据集中出现的第二次数和与所述特征/>相关联的出现预估频率,确定与所述特征/>对应的条件熵;所述条件熵表征所述特征/>在给定所述预设类别标签集合的条件下出现概率的平均程度;
根据所述信息熵和条件熵,确定所述特征对于目标分类任务的重要度。
6.根据权利要求5所述的方法,其特征在于,所述特征具有特征值/>j为小于或等于L的正整数,所述L为所述特征/>具有的特征值的总数量;
所述根据所述扰动编码数据总量、所述特征下的每个特征值分别在所述保护编码数据集中出现的第二次数和与所述特征/>相关联的出现预估频率,确定与所述特征/>对应的条件熵,包括:
确定所述组合数据集合中包括所述特征的特征值的目标组合数据,得到目标组合数据集合;
对于所述目标组合数据集合中包括所述类别标签和所述特征值/>的目标组合数据,根据每个所述组合数据的出现预估频率,确定包括所述类别标签/>和所述特征值/>的目标组合数据在所述保护编码数据集中出现的第三次数;
根据所述第三次数与所述特征值在所述保护数据集中出现的第二次数的比值,确定与所述特征值/>对应的第一概率值;所述第一概率值,表征所述保护数据集在出现所述特征值/>的情况下出现所述类别标签/>的概率值;
根据所述第三次数与所述扰动编码数据总量的比值,确定所述保护数据集中出现所述特征值的第二概率值;
根据所述保护数据集中出现所述类别标签的第二概率值和所述特征/>下每个特征值各自对应的第一概率值,确定所述特征/>在所述类别标签/>下的条件熵;
根据所述特征在所述预设类别标签集合中每个类别标签下的条件熵,确定与所述特征/>对应的条件熵。
7.根据权利要求4所述的方法,其特征在于,所述根据各所述第一次数、各所述第二次数和所述扰动编码数据集中扰动编码数据总量,确定所述预设特征集合中的每个特征对于目标分类任务的重要度,包括:
根据各所述第一次数、各所述第二次数和所述扰动编码数据集中扰动编码数据总量,确定所述特征与所述预设类别标签集合之间的卡方值;所述卡方值,表征所述特征/>与所述预设类别标签集合之间的关联度;
根据所述特征与所述预设类别标签集合之间的卡方值,确定所述特征/>对于目标分类任务的重要度。
8.根据权利要求7所述的方法,其特征在于,所述特征具有特征值/>j为小于或等于L的正整数,所述L为所述特征/>具有的特征值的总数量;
所述根据各所述第一次数、各所述第二次数和所述扰动编码数据集中扰动编码数据总量,确定所述特征与所述预设类别标签集合之间的卡方值,包括:
确定所述组合数据集合中包括所述特征的特征值的目标组合数据,得到目标组合数据集合;
对于所述目标组合数据集合中包括所述类别标签和所述特征值/>的目标组合数据,将所述类别标签/>在所述保护编码数据集中出现的第一次数与所述特征值/>在所述保护编码数据集中出现的第二次数进行融合,得到与包括所述类别标签/>和所述特征值/>的目标组合数据相对应的融合数据;
根据所述融合数据与所述扰动编码数据总量的比值,确定与包括所述类别标签和所述特征值/>的目标组合数据相对应的融合数据均值;
根据包括所述类别标签和所述特征值/>的目标组合数据在所述保护编码数据集中出现的第三次数和所述融合数据均值,确定所述特征/>在所述类别标签/>下的卡方值;
根据所述特征在所述预设类别标签集合中每个类别标签下的卡方值,确定与所述特征/>对应的卡方值。
9.根据权利要求1所述的方法,其特征在于,所述根据所述预设特征集合中每个特征的所述重要度,从所述预设特征集合中筛选目标特征,包括:
将所述预设特征集合中的每个特征按照各自对应的重要度进行排序,并按照排序结果筛选预设数量的预设特征,作为目标特征;或者,
按照预先设置的重要度阈值,从所述预设特征集合中选择高于所述重要度阈值的特征,作为目标特征。
10.一种数据扰动方法,其特征在于,所述方法包括:
接收查询指令,从所述查询指令提取组合数据集合,所述组合数据集合包括多个组合数据,每个组合数据包括预设特征集合中任一特征的任一特征值,以及预设类别标签集合的任一类别标签;
读取本地存储的保护数据,针对所述组合数据集合的每一组合数据,查询所述保护数据是否包括所针对的组合数据,得到查询结果;
对所述查询结果按照所述组合数据集合进行编码,获得保护编码数据;
根据预设扰动概率对所述保护编码数据进行扰动处理,得到扰动编码数据;
响应于所述查询指令,反馈所述扰动编码数据。
11.根据权利要求10所述的方法,其特征在于,所述对所述查询结果按照所述组合数据集合进行编码,获得保护编码数据,包括:
对于所述组合数据集合中的每个组合数据,在所述保护数据包括当前组合数据的情况下,将所述当前组合数据编码为第一目标值;
在所述保护数据未包括所述当前组合数据的情况下,将所述当前组合数据编码为第二目标值;所述第一目标值不同于所述第二目标值。
12.根据权利要求10所述的方法,其特征在于,所述保护编码数据是编码值序列的形式;所述根据预设扰动概率对所述保护编码数据进行扰动处理,得到扰动编码数据,包括:
对于所述保护编码数据中的每个编码值,确定与当前编码值对应的哈希函数,并根据所述哈希函数输出与所述当前编码值对应的哈希值;
根据所述哈希值和所述当前编码值,生成与所述当前编码值对应的哈希编码值对;
根据预设的扰动概率,将与所述当前编码值对应的哈希编码值对中的数值进行变更,得到与所述当前编码值对应的扰动后的哈希编码值对;
根据所述保护编码数据中各编码值各自对应的扰动后的哈希编码值对,确定扰动编码数据。
13.一种特征选择装置,其特征在于,所述装置包括:
接收模块,用于接收多个终端发送的相应扰动编码数据,获得扰动编码数据集;每个所述扰动编码数据,是将相应终端的保护编码数据按扰动概率扰动处理后的数据;
获取模块,用于获取组合数据集合,所述组合数据集合包括多个组合数据,每个组合数据包括预设特征集合中任一特征的任一特征值,以及预设类别标签集合的任一类别标签;所述扰动编码数据和所述保护编码数据是编码值序列的形式,所述编码值序列中的编码值,表征相应终端本地的保护数据是否存在所述组合数据;
预估模块,用于基于所述扰动编码数据集和所述扰动概率,确定所述组合数据集合中每个组合数据在保护编码数据集中的出现预估频率;所述保护编码数据集,包括所述多个终端各自的保护编码数据;
确定模块,用于根据每个所述组合数据的出现预估频率,确定所述预设特征集合中的每个特征对于目标分类任务的重要度;
筛选模块,用于根据所述预设特征集合中每个特征的所述重要度,从所述预设特征集合中筛选目标特征;所述目标特征用于针对所述目标分类任务进行分类模型训练。
14.一种数据扰动装置,其特征在于,所述装置包括:
接收模块,用于接收查询指令,从所述查询指令提取组合数据集合,所述组合数据集合包括多个组合数据,每个组合数据包括预设特征集合中任一特征的任一特征值,以及预设类别标签集合的任一类别标签;
读取模块,用于读取本地存储的保护数据,针对所述组合数据集合的每一组合数据,查询所述保护数据是否包括所针对的组合数据,得到查询结果;
编码模块,用于对所述查询结果按照所述组合数据集合进行编码,获得保护编码数据;
扰动模块,用于根据预设扰动概率对所述保护编码数据进行扰动处理,得到扰动编码数据;
发送模块,用于响应于所述查询指令,反馈所述扰动编码数据。
15.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至12中任一项所述的方法的步骤。
16.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至12中任一项所述的方法的步骤。
CN202311048628.4A 2023-08-21 2023-08-21 特征筛选方法、装置、计算机设备和数据扰动方法 Active CN116805039B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311048628.4A CN116805039B (zh) 2023-08-21 2023-08-21 特征筛选方法、装置、计算机设备和数据扰动方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311048628.4A CN116805039B (zh) 2023-08-21 2023-08-21 特征筛选方法、装置、计算机设备和数据扰动方法

Publications (2)

Publication Number Publication Date
CN116805039A true CN116805039A (zh) 2023-09-26
CN116805039B CN116805039B (zh) 2023-12-05

Family

ID=88079641

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311048628.4A Active CN116805039B (zh) 2023-08-21 2023-08-21 特征筛选方法、装置、计算机设备和数据扰动方法

Country Status (1)

Country Link
CN (1) CN116805039B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574148A (zh) * 2023-11-20 2024-02-20 国网冀北电力有限公司信息通信分公司 智能预测模型的训练方法、预测方法及相关设备

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846410A (zh) * 2018-05-02 2018-11-20 湘潭大学 基于稀疏自动编码深度神经网络的电能质量扰动分类方法
CN110020435A (zh) * 2019-04-03 2019-07-16 湖北工业大学 一种采用并行二进制蝙蝠算法优化文本特征选择的方法
CN112633315A (zh) * 2020-10-21 2021-04-09 广东电网有限责任公司广州供电局 一种电力系统扰动分类方法
CN113779075A (zh) * 2021-09-18 2021-12-10 平安国际智慧城市科技股份有限公司 基于差分隐私的数据查询方法、装置、设备及存储介质
WO2022141861A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 情感分类方法、装置、电子设备及存储介质
CN115481104A (zh) * 2022-09-09 2022-12-16 航天信息股份有限公司 一种数据查询方法、装置、电子设备及存储介质
WO2023024411A1 (zh) * 2021-08-25 2023-03-02 平安科技(深圳)有限公司 基于机器学习对关联规则进行评估的方法及装置
CN116204773A (zh) * 2022-11-11 2023-06-02 河南星环众志信息科技有限公司 一种因果特征的筛选方法、装置、设备及存储介质

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108846410A (zh) * 2018-05-02 2018-11-20 湘潭大学 基于稀疏自动编码深度神经网络的电能质量扰动分类方法
CN110020435A (zh) * 2019-04-03 2019-07-16 湖北工业大学 一种采用并行二进制蝙蝠算法优化文本特征选择的方法
CN112633315A (zh) * 2020-10-21 2021-04-09 广东电网有限责任公司广州供电局 一种电力系统扰动分类方法
WO2022141861A1 (zh) * 2020-12-31 2022-07-07 平安科技(深圳)有限公司 情感分类方法、装置、电子设备及存储介质
WO2023024411A1 (zh) * 2021-08-25 2023-03-02 平安科技(深圳)有限公司 基于机器学习对关联规则进行评估的方法及装置
CN113779075A (zh) * 2021-09-18 2021-12-10 平安国际智慧城市科技股份有限公司 基于差分隐私的数据查询方法、装置、设备及存储介质
CN115481104A (zh) * 2022-09-09 2022-12-16 航天信息股份有限公司 一种数据查询方法、装置、电子设备及存储介质
CN116204773A (zh) * 2022-11-11 2023-06-02 河南星环众志信息科技有限公司 一种因果特征的筛选方法、装置、设备及存储介质

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117574148A (zh) * 2023-11-20 2024-02-20 国网冀北电力有限公司信息通信分公司 智能预测模型的训练方法、预测方法及相关设备

Also Published As

Publication number Publication date
CN116805039B (zh) 2023-12-05

Similar Documents

Publication Publication Date Title
CN111523621B (zh) 图像识别方法、装置、计算机设备和存储介质
CN112667714B (zh) 基于深度学习的用户画像优化方法、装置及存储介质
Arietta et al. City forensics: Using visual elements to predict non-visual city attributes
CN111967615B (zh) 基于特征抽取的多模型训练方法及设备、电子设备和介质
Wang et al. Fusing heterogeneous data: A case for remote sensing and social media
CN111612038B (zh) 异常用户检测方法及装置、存储介质、电子设备
CN113544659A (zh) 基于散列的有效用户建模
CN116805039B (zh) 特征筛选方法、装置、计算机设备和数据扰动方法
Zhao et al. A probabilistic lifestyle-based trajectory model for social strength inference from human trajectory data
CN112131261B (zh) 基于社区网络的社区查询方法、装置和计算机设备
CN114693409A (zh) 产品匹配方法、装置、计算机设备、存储介质和程序产品
Xie et al. Unsupervised abnormal detection using VAE with memory
CN116150663A (zh) 数据分级方法、装置、计算机设备和存储介质
Yang et al. Attention mechanism and adaptive convolution actuated fusion network for next POI recommendation
CN116630630B (zh) 语义分割方法、装置、计算机设备及计算机可读存储介质
CN114757391B (zh) 一种面向服务质量预测的网络数据空间设计与应用方法
CN116958622A (zh) 数据的分类方法、装置、设备、介质及程序产品
Xu et al. FIGAT: Accurately classify individual crime risks with multi-information fusion
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质
CN115018608A (zh) 风险预测方法、装置、计算机设备
Xu et al. Multi-view Heterogeneous Temporal Graph Neural Network for “Click Farming” Detection
KR102663767B1 (ko) Ai기반 가상자산 고위험 지갑주소 db 자동 업데이트 방법
Kusano et al. User identity linkage for different behavioral patterns across domains
CN113792163B (zh) 多媒体推荐方法、装置、电子设备及存储介质
Yang et al. Generative face inpainting hashing for occluded face retrieval

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40094525

Country of ref document: HK