CN117113182A - 分布外数据检测方法、装置、计算机设备和存储介质 - Google Patents

分布外数据检测方法、装置、计算机设备和存储介质 Download PDF

Info

Publication number
CN117113182A
CN117113182A CN202311064778.4A CN202311064778A CN117113182A CN 117113182 A CN117113182 A CN 117113182A CN 202311064778 A CN202311064778 A CN 202311064778A CN 117113182 A CN117113182 A CN 117113182A
Authority
CN
China
Prior art keywords
target
category
prototype
class
prediction
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202311064778.4A
Other languages
English (en)
Inventor
周立广
熊步天
林天麟
徐扬生
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chinese University of Hong Kong Shenzhen
Shenzhen Institute of Artificial Intelligence and Robotics
Original Assignee
Chinese University of Hong Kong Shenzhen
Shenzhen Institute of Artificial Intelligence and Robotics
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chinese University of Hong Kong Shenzhen, Shenzhen Institute of Artificial Intelligence and Robotics filed Critical Chinese University of Hong Kong Shenzhen
Priority to CN202311064778.4A priority Critical patent/CN117113182A/zh
Publication of CN117113182A publication Critical patent/CN117113182A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computational Linguistics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Image Analysis (AREA)

Abstract

本申请涉及一种分布外数据检测方法、装置、计算机设备和存储介质。方法包括:确定类原型字典;类原型字典中包括各类别分别对应的原型向量;每个原型向量是基于同类别的训练样本在各类别下的预测置信度确定的;获取对目标数据进行分类预测得到的目标概率分布;目标概率分布用于表征目标数据在每个类别下的预测概率;根据目标概率分布从各类别中确定目标数据的预测类别;从类原型字典中索引出预测类别对应的目标原型向量;根据目标原型向量和目标概率分布之间的相关性,确定目标数据的检测结果;检测结果用于表征目标数据是否为分布外数据。采用本方法能够提高分布外数据检测的准确性。

Description

分布外数据检测方法、装置、计算机设备和存储介质
技术领域
本申请涉及数据检测技术领域,特别是涉及一种分布外数据检测方法、装置、计算机设备和存储介质。
背景技术
随着人工智能的发展,分布外数据检测技术变得越来越重要。模型所使用的训练数据与模型在实际运行时所接收到的数据可能具备不同的分布。与训练数据分布不同的数据为分布外数据,分布外数据检测技术的目标正是识别和检测这些分布外数据,以便进行进一步的处理。
传统技术中,通过确定模型对输入数据输出的置信度大小,判断输入数据是否为分布外数据。但是,即使模型在训练数据上表现良好,也不能保证它能准确地评估输入数据的置信度。因此,仅仅依赖模型输出的置信度进行分布外数据检测可能会导致误判,不够准确。
发明内容
基于此,有必要针对上述技术问题,提供一种能够提高准确性的分布外数据检测方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
第一方面,本申请提供了一种分布外数据检测方法。所述方法包括:
确定类原型字典;所述类原型字典中包括各类别分别对应的原型向量;每个原型向量是基于同类别的训练样本在各类别下的预测置信度确定的;
获取对目标数据进行分类预测得到的目标概率分布;所述目标概率分布用于表征所述目标数据在每个类别下的预测概率;
根据所述目标概率分布从所述各类别中确定所述目标数据的预测类别;
从所述类原型字典中索引出所述预测类别对应的目标原型向量;
根据所述目标原型向量和所述目标概率分布之间的相关性,确定所述目标数据的检测结果;所述检测结果用于表征所述目标数据是否为分布外数据。
第二方面,本申请还提供了一种分布外数据检测装置。所述装置包括:
第一确定模块,用于确定类原型字典;所述类原型字典中包括各类别分别对应的原型向量;每个原型向量是基于同类别的训练样本在各类别下的预测置信度确定的;
获取模块,用于获取对目标数据进行分类预测得到的目标概率分布;所述目标概率分布用于表征所述目标数据在每个类别下的预测概率;
第二确定模块,用于根据所述目标概率分布从所述各类别中确定所述目标数据的预测类别;
索引模块,用于从所述类原型字典中索引出所述预测类别对应的目标原型向量;
检测模块,用于根据所述目标原型向量和所述目标概率分布之间的相关性,确定所述目标数据的检测结果;所述检测结果用于表征所述目标数据是否为分布外数据。
在一些实施例中,第一确定模块,用于获取训练样本集合;所述训练样本集合中包括多个类别下的训练样本;针对所述多个类别中的任意目标类别下的训练样本,对所述目标类别下的训练样本进行分类预测,得到所述目标类别下的训练样本在所述多个类别下分别对应的预测置信度;根据所述目标类别下的训练样本在所述多个类别下分别对应的预测置信度,确定所述目标类别对应的原型向量;其中,所述目标类别对应的原型向量中包括所述多个类别分别对应的向量元素;每个类别对应的向量元素用于表征所述目标类别下的各训练样本属于所述类别的综合预测置信度。
在一些实施例中,第一确定模块,用于通过对所述目标类别下的训练样本在每个类别下对应的预测置信度进行均值计算,确定各类别分别对应的综合预测置信度;根据所述各类别分别对应的综合预测置信度,确定所述目标类别对应的原型向量。
在一些实施例中,所述预测置信度为未经归一化的原始置信度;所述原型向量包括综合概率;第一确定模块,用于对每个类别对应的综合预测置信度进行归一化,得到所述目标类别下的训练样本在各个类别下分别对应的综合概率。
在一些实施例中,检测模块,用于对所述目标原型向量和所述目标概率分布进行相关性分析,得到分析结果;所述分析结果用于表征所述目标原型向量与所述目标概率分布之间的相关度;确定所述目标数据在每个类别下对应的目标置信度;其中,所述目标置信度被归一化后得到预测概率;根据所述分析结果和所述预测类别下的目标置信度,确定所述目标数据的检测结果。
在一些实施例中,所述目标原型向量用于表征目标原型概率分布;所述目标原型概率分布用于表征预测类别的训练样本在各类别下分别对应的综合概率;检测模块,用于根据所述目标原型概率分布和所述目标概率分布之间的差异,确定分析结果。
在一些实施例中,检测模块,用于对所述分析结果和所述预测类别下的目标置信度进行加权融合,确定融合结果;通过比对融合结果和预设阈值,确定目标数据的检测结果。
第三方面,本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述的方法中的步骤。
第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法中的步骤。
第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的方法中的步骤。
上述分布外数据检测方法、装置、计算机设备、存储介质和计算机程序产品,确定类原型字典;类原型字典中包括各类别分别对应的原型向量;每个原型向量是基于同类别的训练样本在各类别下的预测置信度确定的,相较于针对每个类别的训练样本的特征构建类原型的方式能够大大地降低计算量,节约计算资源;获取对目标数据进行分类预测得到的目标概率分布;目标概率分布用于表征目标数据在每个类别下的预测概率;根据目标概率分布从各类别中确定目标数据的预测类别;从类原型字典中索引出预测类别对应的目标原型向量,目标原型向量能够代表预测类别下训练样本的模式和属性;进而根据目标原型向量和目标概率分布之间的相关性,能够准确地检测目标数据是否为分布外数据。
附图说明
图1为一个实施例中分布外数据检测方法的流程示意图;
图2为一个实施例中类原型字典的示意图;
图3为一个实施例中基于分类模型进行分布外数据检测的示意图;
图4为一个实施例中分布外数据检测装置的结构框图;
图5为一个实施例中计算机设备的内部结构图;
图6为另一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
在一个实施例中,如图1所示,提供了一种分布外数据检测方法,以该方法应用于计算机设备为例进行说明,包括以下步骤:
S102,确定类原型字典;类原型字典中包括各类别分别对应的原型向量;每个原型向量是基于同类别的训练样本在各类别下的预测置信度确定的。
在一些实施例中,每个类别对应的原型向量用于表征该类别下的训练样本具备的模式和属性。可以理解,在对相同类别下的训练样本进行分类预测时,这些训练样本在各个类别下分别对应的预测置信度存在相关性,即,同类别的训练样本在各类别上的预测置信度分布具有一致性。故而计算机设备可以针对多个类别中的任意目标类别下的训练样本,通过综合每个目标类别的训练样本在各类别下分别对应的预测置信度确定该目标类别对应的原型向量。
在一些实施例中,目标类别对应的原型向量中包括各类别分别对应的向量元素。每个类别对应的向量元素用于表征目标类别的训练样本属于该类别的置信度水平。可以理解,对同目标类别的训练样本进行分类预测,能够得到每个训练样本分别属于各个类别的预测置信度,这些训练样本在相同类别下对应的预测置信度差异不大,通过综合每个类别下这些训练样本分别对应的预测置信度得到向量元素,使得每个类别对应的向量元素能够准确地衡量目标类别的训练样本在该类别下的置信度水平。
在一些实施例中,计算机设备可以包括终端或服务器中的至少一种。可以理解,本申请实施例提供的方法可以应用于终端或服务器,也可以应用于包括终端和服务器的系统,通过终端和服务器的交互实现。其中,终端可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑、物联网设备和便携式可穿戴设备,物联网设备可为智能音箱、智能电视、智能空调、智能车载设备等。便携式可穿戴设备可为智能手表、智能手环、头戴设备等。服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
S104,获取对目标数据进行分类预测得到的目标概率分布;目标概率分布用于表征目标数据在每个类别下的预测概率。
在一些实施例中,计算机设备可以在对目标数据进行分类预测的过程中,获取目标数据在每个类别下对应的目标置信度,以及对每个类别下对应的目标置信度进行归一化,确定各类别下分别对应的预测概率,得到目标概率分布。
在一些实施例中,计算机设备可以确定基于各类别的训练样本训练得到的分类模型。将目标数据输入至分类模型,获取分类模型对目标数据进行分类预测得到的目标概率分布。
在一些实施例中,将目标数据输入至分类模型后,分类模型中归一化层的前一层输出为目标数据在各类别下分别对应的目标置信度,归一化层的输出为目标数据在各类别下分别对应的预测概率。
在一些实施例中,分类模型可以是语义分割模型、物体分类模型或目标检测模型等。可以理解的是,本申请实施例中对分类模型不作限定,只要是用于分类预测的模型均可采用本申请实施例提供的方法,对输入至模型的数据进行分布外数据检测。
S106,根据目标概率分布从各类别中确定目标数据的预测类别。
在一些实施例中,计算机设备可以确定目标概率分布中最大的预测概率对应的类别,得到目标数据的预测类别。
在一些实施例中,预测类别可以为至少一个。计算机设备可以确定目标概率分布中大于预设概率阈值的预测概率,将大于预设概率阈值的预测概率对应的类别作为目标数据的预测类别。
S108,从类原型字典中索引出预测类别对应的目标原型向量。
在一些实施例中,类原型字典中各类别分别对应的原型向量按照预设顺序排列。比如,类别1在类原型字典中的索引标识为1,类别2在类原型字典中的做引标识为2。可以理解,每个类别的索引标识可以用于唯一指示该类别。
在一些实施例中,计算机设备可以根据目标概率分布确定目标数据的预测类别的索引标识。
在一些实施例中,类原型字典可以为类原型矩阵。类原型矩阵中每一行是一个类别对应的原型向量。可以理解,类原型矩阵是各类别分别对应的原型向量是按照预设顺序堆叠得到的。
在一些实施例中,计算机设备可以通过拼接各类别分别对应的原型向量得到类原型字典。
S110,根据目标原型向量和目标概率分布之间的相关性,确定目标数据的检测结果;检测结果用于表征目标数据是否为分布外数据。
在一些实施例中,计算机设备可以根据目标原型向量和目标概率分布之间的相关性、以及预测类别对应的预测概率确定目标数据的检测结果。可以理解,目标原型向量与目标概率分布之间的相关性越大,且预测类别对应的预测概率越大,则表征目标数据为分布外数据的可能性越小。
在一些实施例中,计算机设备可以对目标原型向量和目标概率分布之间的相关性、以及预测类别对应的预测概率进行加权融合,以确定检测结果。
在一些实施例中,目标原型向量中每个类别对应的向量元素用于表征预测类别下的训练样本属于该类别下的综合预测置信度。故而,目标原型向量实际上代表了预测类别的训练样本在各类别上的置信度分布,计算机设备可以根据目标概率分布和目标原型向量表征的置信度分布之间的相关性,确定检测结果。可以理解,如果目标数据不为分布外数据,则对于每个类别,目标原型向量中该类别对应的向量元素表征的综合预测置信度越大,目标概率分布中该类别对应的预测概率也应该越大。
在一些实施例中,在检测结果表征目标数据不为分布外数据的情况下,计算机设备可以将目标数据的预测类别作为对目标数据的分类结果。
在一些实施例中,在检测结果表征目标数据为分布外数据的情况下,计算机设备可以确定目标数据为未知样本。后续通过对检测的未知样本进行标记后用于模型训练。
上述分布外数据检测方法中,确定类原型字典;类原型字典中包括各类别分别对应的原型向量;每个原型向量是基于同类别的训练样本在各类别下的预测置信度确定的,相较于针对每个类别的训练样本的特征构建类原型的方式能够大大地降低计算量,节约计算资源;获取对目标数据进行分类预测得到的目标概率分布;目标概率分布用于表征目标数据在每个类别下的预测概率;根据目标概率分布从各类别中确定目标数据的预测类别;从类原型字典中索引出预测类别对应的目标原型向量,目标原型向量能够代表预测类别下训练样本的模式和属性;进而根据目标原型向量和目标概率分布之间的相关性,能够准确地检测目标数据是否为分布外数据。
在一些实施例中,确定类原型字典,包括:获取训练样本集合;训练样本集合中包括多个类别下的训练样本;针对多个类别中的任意目标类别下的训练样本,对目标类别下的训练样本进行分类预测,得到目标类别下的训练样本在多个类别下分别对应的预测置信度;根据目标类别下的训练样本在多个类别下分别对应的预测置信度,确定目标类别对应的原型向量;其中,目标类别对应的原型向量中包括多个类别分别对应的向量元素;每个类别对应的向量元素用于表征目标类别下的各训练样本属于类别的综合预测置信度。
在一些实施例中,计算机设备可以针对多个类别中的任意目标类别下的训练样本,通过训练好的分类模型对目标类别下的训练样本进行分类预测,获取分类模型的归一化层的前一层的输出,得到目标类别下的训练样本在各类别下分别对应的预测置信度。其中,预测置信度是归一化前的原始置信度,而原始置信度经过归一化层输出为概率。可以理解,分类模型中归一化层的前一层输出为logits(原始置信度),logits经过softmax(归一化)层后得到概率。
在一些实施例中,计算机设备可以综合目标类别下的训练样本在每个类别下分别对应的预测置信度,确定各类别分别对应的综合预测置信度。每个类别对应的综合预测置信度用于表征目标类别下的训练样本在该类别下的置信度水平。综合预测置信度可以为每个类别对应的预测置信度的均值或中位数等。
在一些实施例中,如图2所示,提供了类原型字典的示意图。类原型字典中包括类别0至类别13这14个类别分别对应的原型向量。每一行代表一个原型向量。图2中灰度的大小用于表征原型向量中综合概率的高低。灰度越大则代表综合概率越高。
可以理解,基于高维的特征向量构建类原型,计算量很大,会消耗过多的计算资源。并且,对训练样本提取的特征内容复杂,未必与相应类别强相关,构建的类原型不能准确地指示相同类别的训练样本在分类场景下的属性。
本实施例中,获取训练样本集合;针对多个类别中的任意目标类别下的训练样本,对目标类别下的训练样本进行分类预测,得到目标类别下的训练样本在多个类别下分别对应的预测置信度;根据目标类别下的训练样本在多个类别下分别对应的预测置信度,确定目标类别对应的原型向量,能够大大降低计算量,节约计算资源,并且基于预测置信度得到的原型向量与目标类别的分类预测的场景强相关,能够准确地代表相应类别在分类预测场景下的属性。
在一些实施例中,根据目标类别下的训练样本在多个类别下分别对应的预测置信度,确定目标类别对应的原型向量,包括:通过对目标类别下的训练样本在每个类别下对应的预测置信度进行均值计算,确定各类别分别对应的综合预测置信度;根据各类别分别对应的综合预测置信度,确定目标类别对应的原型向量。
在一些实施例中,公式(1)为综合预测置信度的计算公式。
其中,Lk表征类别k的训练样本在各类别下分别对应的综合预测置信度。nk表征类别k的训练样本数量。θ表征不经过归一化层的分类预测。xki表征类别k的第i个训练样本。n表征类别总数。
在一些实施例中,每个类别对应的综合预测置信度可以是目标类别下的训练样本在该类别下对应的预测置信度的均值。
在一些实施例中,预测置信度可以是概率,综合预测置信度可以是综合概率。计算机设备可以将综合概率作为原型向量中的向量元素。可以理解,预测置信度可以不是原始置信度,而是经过归一化得到的概率,直接对概率进行均值计算得到相应的综合概率。
本实施例中,通过对目标类别下的训练样本在每个类别下对应的预测置信度进行均值计算,确定各类别分别对应的综合预测置信度;综合预测置信度能够准确地表征相应类别下的预测置信度水平,进而根据各类别分别对应的综合预测置信度,能够准确地确定目标类别对应的原型向量。
在一些实施例中,预测置信度为未经归一化的原始置信度;原型向量包括综合概率;根据各类别分别对应的综合预测置信度,确定目标类别对应的原型向量,包括:对每个类别对应的综合预测置信度进行归一化,得到目标类别下的训练样本在各个类别下分别对应的综合概率。
在一些实施例中,计算机设备可以通过分类模型的归一化层对每个综合预测置信度进行归一化。
可以理解,先综合预测置信度,再对综合预设置信度进行归一化,相较于对每个预测置信度进行归一化后进行综合的方式,能够有效地降低归一化处理的数据量,节约计算资源。并且,归一化处理会在一定程度上影响预测置信度的准确性,直接对概率本身进行综合无法准确地代表同类别训练样本的属性,而对预测置信度进行综合能够更准确地代表同类别训练样本的属性。
在一些实施例中,公式(2)为原型向量的计算公式。
其中,Pk表征类别k对应的原型向量。σ表征归一化。Lkj表征类别k的训练样本在类别j下对应的综合预测置信度。
在一些实施例中,计算机设备可以对各类别分别对应的原型向量进行堆叠,得到类原型字典。如公式(3)为类原型字典的构建公式。
Pcrm={P1,..,Pi,..,PK}∈Rn×n (3)
其中,Pcrm表征类原型字典。Pi表征类别i对应的原型向量。
本实施例中,通过对每个类别对应的综合预测置信度进行归一化,得到目标类别下的训练样本在各个类别下分别对应的综合概率,后续基于包括综合概率的原型向量与目标概率分布之间的相关性,能够准确地检测出分布外数据。
并且,使用归一化得到的综合概率的分布情况与目标概率分布进行比对,相较于比对综合预测置信度的分布情况和目标置信度的分布情况,将置信度分布映射到相同的尺度上,能够消除由于置信度数值大小的差异而引起的偏差。
在一些实施例中,根据目标原型向量和目标概率分布之间的相关性,确定目标数据的检测结果,包括:对目标原型向量和目标概率分布进行相关性分析,得到分析结果;分析结果用于表征目标原型向量与目标概率分布之间的相关度;确定目标数据在每个类别下对应的目标置信度;其中,目标置信度被归一化后得到预测概率;根据分析结果和预测类别下的目标置信度,确定目标数据的检测结果。
在一些实施例中,计算机设备可以对分析结果和预测类别下的目标置信度进行加权融合,以确定目标数据的检测结果。可以理解,加权融合后的数值越大,则表征目标数据为分布外数据的可能性越小,即,目标数据被确定为分布外数据的程度越低。
在一些实施例中,计算机设备可以确定各类别对分析结果和预测类别下的目标置信度进行加权融合,以确定目标数据的检测结果。
在一些实施例中,计算机设备可以对分析结果和预测类别下的预测概率进行加权融合,以确定目标数据的检测结果。
在一些实施例中,计算机设备可以对分析结果和最大预测概率进行加权融合。
在一些实施例中,计算机设备可以直接根据分析结果确定目标数据的检测结果。分析结果表征的相关度越大则代表目标数据为分布外数据的可能性越小。
本实施例中,对目标原型向量和目标概率分布进行相关性分析,得到分析结果;分析结果用于表征目标原型向量与目标概率分布之间的相关度;确定目标数据在每个类别下的目标置信度;根据分析结果和预测类别下的目标置信度,确定目标数据的检测结果,除了引入相关度外,还保留了预测类别下的目标置信度作为补充,能够更加准确地检测出分布外数据。
在一些实施例中,目标原型向量用于表征目标原型概率分布;目标原型概率分布用于表征预测类别的训练样本在各类别下分别对应的综合概率;对目标原型向量和目标概率分布进行相关性分析,得到分析结果,包括:根据目标原型概率分布和目标概率分布之间的差异,确定分析结果。
在一些实施例中,计算机设备可以确定目标原型概率分布和目标概率分布之间的距离,得到分析结果。可以理解,分析结果表征的距离越大,代表目标原型概率分布和目标概率分布相关度越小。
在一些实施例中,计算机设备可以确定目标原型概率分布和目标概率分布之间的相对熵,得到分析结果。可以理解,分析结果表征的相对熵越大,代表目标原型概率分布和目标概率分布相关度越小。
在一些实施例中,公式(4)为目标概率分布的获取公式。
Pt=θs(z)∈Rn×1 (4)
其中,Pt表征目标概率分布。θs表征经过归一化层的分类预测。z表征目标数据。
在一些实施例中,公式(5)为分析结果的计算公式。
其中,Pcr表征分析结果。Ipc表征预测类别的索引标识。
在一些实施例中,公式(6)为索引标识的确定公式。
Ipc=argmax(θ(z)) (6)
其中,θ(z)表征目标数据在各类别下的目标置信度。
本实施例中,目标原型概率分布和目标概率分布之间的差异能够准确地表征预测类别下的训练样本与目标数据的接近程度,差异越大,接近程度越低,进而根据目标原型概率分布和目标概率分布之间的差异确定的相关度能够用于准确地检测出目标数据是否为分布外数据。
在一些实施例中,根据分析结果和预测类别下的目标置信度,确定目标数据的检测结果,包括:对分析结果和预测类别下的目标置信度进行加权融合,确定融合结果;通过比对融合结果和预设阈值,确定目标数据的检测结果。
在一些实施例中,计算机设备可以对分析结果中的相对熵和预测类别下的目标置信度进行加权融合。
在一些实施例中,计算机设备可以基于预设的融合公式对分析结果和预测类别下对应的目标置信度进行加权融合。其中,分析结果表征的相关度越大、且预测类别下的目标置信度越大,则基于融合公式得到的融合结果越小。分析结果表征的相关度越小、且预测类别下的目标置信度越小,则基于融合公式得到的融合结果越大。
在一些实施例中,公式(7)为预设的融合公式。
其中,Pcf表征融合结果。∈表征调整参数,α和β表征缩放调整参数。可以理解,实际场景中,通过验证测试可以确定出调整参数的大小。
在一些实施例中,计算机设备可以通过比对融合结果和预测类别对应的预设阈值,确定检测结果。可以理解,由于目标置信度相较于预测概率来说,不同类别相差较大,通过对每种类别针对性地设置阈值能够更准确地进行分类外数据的检测。
在一些实施例中,预设阈值可以是通用的。
本实施例中,对分析结果和预测类别下的目标置信度进行加权融合,确定融合结果;通过比对融合结果和预设阈值,确定目标数据的检测结果,通过综合相关度和预测类别下的目标置信度,能够更加准确地检测出分布外数据。
在一些实施例中,如图3所示,提供了基于分类模型进行分布外数据检测的示意图。通过分类模型对训练样本进行分类预测得到预测置信度。基于目标类别下的训练样本在各类别下分别对应的预测置信度确定目标类别的原型向量。将各原型向量组合得到类原型字典。
在通过分类模型对目标数据进行分类预测的过程中,确定目标数据在各类别下分别对应的目标置信度,对目标数据在各类别下分别对应的目标置信度进行归一化得到目标概率分布。基于目标概率分布确定最大预测概率对应的预测类别。通过计算目标概率分布与类原型字典中预测类别对应的原型向量之间的距离,得到分析结果。对分析结果和预测类别对应的目标置信度进行加权融合,得到融合结果。在融合结果大于预设阈值的情况下,计算机设备可以确定目标数据为分布外数据。
应该理解的是,虽然如上的各实施例所涉及的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,如上的各实施例所涉及的流程图中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
基于同样的发明构思,本申请实施例还提供了一种用于实现上述所涉及的分布外数据检测方法的分布外数据检测装置。该装置所提供的解决问题的实现方案与上述方法中所记载的实现方案相似,故下面所提供的一个或多个分布外数据检测装置实施例中的具体限定可以参见上文中对于分布外数据检测方法的限定,在此不再赘述。
在一个实施例中,如图4所示,提供了一种分布外数据检测装置400,包括:第一确定模块402、获取模块404、第二确定模块406、索引模块408和检测模块410,其中:
第一确定模块402,用于确定类原型字典;类原型字典中包括各类别分别对应的原型向量;每个原型向量是基于同类别的训练样本在各类别下的预测置信度确定的;
获取模块404,用于获取对目标数据进行分类预测得到的目标概率分布;目标概率分布用于表征目标数据在每个类别下的预测概率;
第二确定模块406,用于根据目标概率分布从各类别中确定目标数据的预测类别;
索引模块408,用于从类原型字典中索引出预测类别对应的目标原型向量;
检测模块410,用于根据目标原型向量和目标概率分布之间的相关性,确定目标数据的检测结果;检测结果用于表征目标数据是否为分布外数据。
在一些实施例中,第一确定模块402,用于获取训练样本集合;训练样本集合中包括多个类别下的训练样本;针对多个类别中的任意目标类别下的训练样本,对目标类别下的训练样本进行分类预测,得到目标类别下的训练样本在多个类别下分别对应的预测置信度;根据目标类别下的训练样本在多个类别下分别对应的预测置信度,确定目标类别对应的原型向量;其中,目标类别对应的原型向量中包括多个类别分别对应的向量元素;每个类别对应的向量元素用于表征目标类别下的各训练样本属于类别的综合预测置信度。
在一些实施例中,第一确定模块402,用于通过对目标类别下的训练样本在每个类别下对应的预测置信度进行均值计算,确定各类别分别对应的综合预测置信度;根据各类别分别对应的综合预测置信度,确定目标类别对应的原型向量。
在一些实施例中,预测置信度为未经归一化的原始置信度;原型向量包括综合概率;第一确定模块402,用于对每个类别对应的综合预测置信度进行归一化,得到目标类别下的训练样本在各个类别下分别对应的综合概率。
在一些实施例中,检测模块410,用于对目标原型向量和目标概率分布进行相关性分析,得到分析结果;分析结果用于表征目标原型向量与目标概率分布之间的相关度;确定目标数据在每个类别下对应的目标置信度;其中,目标置信度被归一化后得到预测概率;根据分析结果和预测类别下的目标置信度,确定目标数据的检测结果。
在一些实施例中,目标原型向量用于表征目标原型概率分布;目标原型概率分布用于表征预测类别的训练样本在各类别下分别对应的综合概率;检测模块410,用于根据目标原型概率分布和目标概率分布之间的差异,确定分析结果。
在一些实施例中,检测模块410,用于对所述分析结果和所述预测类别下的目标置信度进行加权融合,确定融合结果;通过比对融合结果和预设阈值,确定目标数据的检测结果。
上述分布外数据检测装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图5所示。该计算机设备包括处理器、存储器、输入/输出接口(Input/Output,简称I/O)和通信接口。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储类原型字典。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种分布外数据检测方法。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图6所示。该计算机设备包括处理器、存储器、输入/输出接口、通信接口、显示单元和输入装置。其中,处理器、存储器和输入/输出接口通过系统总线连接,通信接口、显示单元和输入装置通过输入/输出接口连接到系统总线。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质和内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的输入/输出接口用于处理器与外部设备之间交换信息。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过WIFI、移动蜂窝网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种分布外数据检测方法。该计算机设备的显示单元用于形成视觉可见的画面,可以是显示屏、投影装置或虚拟现实成像装置。显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图5或图6中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述各方法实施例中的步骤。
在一个实施例中,提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述各方法实施例中的步骤。
需要说明的是,本申请所涉及的用户信息(包括但不限于用户设备信息、用户个人信息等)和数据(包括但不限于用于分析的数据、存储的数据、展示的数据等),均为经用户授权或者经过各方充分授权的信息和数据,且相关数据的收集、使用和处理需要遵守相关国家和地区的相关法律法规和标准。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-OnlyMemory,ROM)、磁带、软盘、闪存、光存储器、高密度嵌入式非易失性存储器、阻变存储器(ReRAM)、磁变存储器(Magnetoresistive Random Access Memory,MRAM)、铁电存储器(Ferroelectric Random Access Memory,FRAM)、相变存储器(Phase Change Memory,PCM)、石墨烯存储器等。易失性存储器可包括随机存取存储器(Random Access Memory,RAM)或外部高速缓冲存储器等。作为说明而非局限,RAM可以是多种形式,比如静态随机存取存储器(Static Random Access Memory,SRAM)或动态随机存取存储器(Dynamic RandomAccess Memory,DRAM)等。本申请所提供的各实施例中所涉及的数据库可包括关系型数据库和非关系型数据库中至少一种。非关系型数据库可包括基于区块链的分布式数据库等,不限于此。本申请所提供的各实施例中所涉及的处理器可为通用处理器、中央处理器、图形处理器、数字信号处理器、可编程逻辑器、基于量子计算的数据处理逻辑器等,不限于此。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本申请专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请的保护范围应以所附权利要求为准。

Claims (10)

1.一种分布外数据检测方法,其特征在于,所述方法包括:
确定类原型字典;所述类原型字典中包括各类别分别对应的原型向量;每个原型向量是基于同类别的训练样本在各类别下的预测置信度确定的;
获取对目标数据进行分类预测得到的目标概率分布;所述目标概率分布用于表征所述目标数据在每个类别下的预测概率;
根据所述目标概率分布从所述各类别中确定所述目标数据的预测类别;
从所述类原型字典中索引出所述预测类别对应的目标原型向量;
根据所述目标原型向量和所述目标概率分布之间的相关性,确定所述目标数据的检测结果;所述检测结果用于表征所述目标数据是否为分布外数据。
2.根据权利要求1所述的方法,其特征在于,所述确定类原型字典,包括:
获取训练样本集合;所述训练样本集合中包括多个类别下的训练样本;
针对所述多个类别中的任意目标类别下的训练样本,对所述目标类别下的训练样本进行分类预测,得到所述目标类别下的训练样本在所述多个类别下分别对应的预测置信度;
根据所述目标类别下的训练样本在所述多个类别下分别对应的预测置信度,确定所述目标类别对应的原型向量;
其中,所述目标类别对应的原型向量中包括所述多个类别分别对应的向量元素;每个类别对应的向量元素用于表征所述目标类别下的各训练样本属于所述类别的综合预测置信度。
3.根据权利要求2所述的方法,其特征在于,所述根据所述目标类别下的训练样本在所述多个类别下分别对应的预测置信度,确定所述目标类别对应的原型向量,包括:
通过对所述目标类别下的训练样本在每个类别下对应的预测置信度进行均值计算,确定各类别分别对应的综合预测置信度;
根据所述各类别分别对应的综合预测置信度,确定所述目标类别对应的原型向量。
4.根据权利要求3所述的方法,其特征在于,所述预测置信度为未经归一化的原始置信度;所述原型向量包括综合概率;
所述根据所述各类别分别对应的综合预测置信度,确定所述目标类别对应的原型向量,包括:
对每个类别对应的综合预测置信度进行归一化,得到所述目标类别下的训练样本在各个类别下分别对应的综合概率。
5.根据权利要求1至4任一项所述的方法,其特征在于,所述根据所述目标原型向量和所述目标概率分布之间的相关性,确定所述目标数据的检测结果,包括:
对所述目标原型向量和所述目标概率分布进行相关性分析,得到分析结果;所述分析结果用于表征所述目标原型向量与所述目标概率分布之间的相关度;
确定所述目标数据在每个类别下对应的目标置信度;其中,所述目标置信度被归一化后得到预测概率;
根据所述分析结果和所述预测类别下的目标置信度,确定所述目标数据的检测结果。
6.根据权利要求5所述的方法,其特征在于,所述目标原型向量用于表征目标原型概率分布;所述目标原型概率分布用于表征预测类别的训练样本在各类别下分别对应的综合概率;
所述对所述目标原型向量和所述目标概率分布进行相关性分析,得到分析结果,包括:
根据所述目标原型概率分布和所述目标概率分布之间的差异,确定分析结果。
7.根据权利要求5所述的方法,其特征在于,所述根据所述分析结果和所述预测类别下的目标置信度,确定所述目标数据的检测结果,包括:
对所述分析结果和所述预测类别下的目标置信度进行加权融合,确定融合结果;
通过比对融合结果和预设阈值,确定目标数据的检测结果。
8.一种分布外数据检测装置,其特征在于,所述装置包括:
第一确定模块,用于确定类原型字典;所述类原型字典中包括各类别分别对应的原型向量;每个原型向量是基于同类别的训练样本在各类别下的预测置信度确定的;
获取模块,用于获取对目标数据进行分类预测得到的目标概率分布;所述目标概率分布用于表征所述目标数据在每个类别下的预测概率;
第二确定模块,用于根据所述目标概率分布从所述各类别中确定所述目标数据的预测类别;
索引模块,用于从所述类原型字典中索引出所述预测类别对应的目标原型向量;
检测模块,用于根据所述目标原型向量和所述目标概率分布之间的相关性,确定所述目标数据的检测结果;所述检测结果用于表征所述目标数据是否为分布外数据。
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
CN202311064778.4A 2023-08-23 2023-08-23 分布外数据检测方法、装置、计算机设备和存储介质 Pending CN117113182A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202311064778.4A CN117113182A (zh) 2023-08-23 2023-08-23 分布外数据检测方法、装置、计算机设备和存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202311064778.4A CN117113182A (zh) 2023-08-23 2023-08-23 分布外数据检测方法、装置、计算机设备和存储介质

Publications (1)

Publication Number Publication Date
CN117113182A true CN117113182A (zh) 2023-11-24

Family

ID=88797790

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202311064778.4A Pending CN117113182A (zh) 2023-08-23 2023-08-23 分布外数据检测方法、装置、计算机设备和存储介质

Country Status (1)

Country Link
CN (1) CN117113182A (zh)

Similar Documents

Publication Publication Date Title
CN110245714B (zh) 图像识别方法、装置及电子设备
CN112231592B (zh) 基于图的网络社团发现方法、装置、设备以及存储介质
CN115311730B (zh) 一种人脸关键点的检测方法、系统和电子设备
CN113065593A (zh) 模型训练方法、装置、计算机设备和存储介质
CN115690672A (zh) 异常图像识别方法、装置、计算机设备和存储介质
CN115545103A (zh) 异常数据识别、标签识别方法和异常数据识别装置
CN116414815A (zh) 数据质量检测方法、装置、计算机设备和存储介质
CN116630630B (zh) 语义分割方法、装置、计算机设备及计算机可读存储介质
CN114549849A (zh) 图像识别方法、装置、计算机设备和存储介质
CN112613871A (zh) 基于大数据和区块链的支付方式推荐方法及云计算服务器
CN116030312B (zh) 模型评估方法、装置、计算机设备和存储介质
CN117390098A (zh) 数据分析方法、装置、计算机设备和存储介质
CN116932935A (zh) 地址匹配方法、装置、设备、介质和程序产品
CN116894721A (zh) 一种指标预测方法、装置、计算机设备
CN116186708A (zh) 类别识别模型生成方法、装置、计算机设备和存储介质
CN115758271A (zh) 数据处理方法、装置、计算机设备和存储介质
CN115762530A (zh) 声纹模型训练方法、装置、计算机设备和存储介质
CN116258923A (zh) 图像识别模型训练方法、装置、计算机设备和存储介质
CN117113182A (zh) 分布外数据检测方法、装置、计算机设备和存储介质
CN118114123B (zh) 识别模型的处理方法、装置、计算机设备和存储介质
CN116933107B (zh) 数据分布边界确定方法、装置、计算机设备和存储介质
CN117874530B (zh) 对抗样本检测方法、装置、设备、介质和产品
CN115761239B (zh) 一种语义分割方法及相关装置
CN117951621A (zh) 数据处理方法及装置
CN117312892A (zh) 用户聚类方法、装置、计算机设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination