CN116910669A - 数据分类方法、装置、电子设备及可读存储介质 - Google Patents
数据分类方法、装置、电子设备及可读存储介质 Download PDFInfo
- Publication number
- CN116910669A CN116910669A CN202311179173.XA CN202311179173A CN116910669A CN 116910669 A CN116910669 A CN 116910669A CN 202311179173 A CN202311179173 A CN 202311179173A CN 116910669 A CN116910669 A CN 116910669A
- Authority
- CN
- China
- Prior art keywords
- data
- target
- preset
- classified
- training sample
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000000034 method Methods 0.000 title claims abstract description 68
- 238000003066 decision tree Methods 0.000 claims abstract description 39
- 238000012549 training Methods 0.000 claims description 150
- 239000004973 liquid crystal related substance Substances 0.000 claims description 9
- 238000010276 construction Methods 0.000 claims description 3
- 238000004590 computer program Methods 0.000 description 13
- 238000010586 diagram Methods 0.000 description 7
- 238000012545 processing Methods 0.000 description 5
- 230000009286 beneficial effect Effects 0.000 description 4
- 238000004364 calculation method Methods 0.000 description 4
- 230000007547 defect Effects 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000004422 calculation algorithm Methods 0.000 description 3
- 238000004891 communication Methods 0.000 description 3
- 238000013136 deep learning model Methods 0.000 description 3
- 238000005516 engineering process Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 241000699670 Mus sp. Species 0.000 description 1
- 238000011161 development Methods 0.000 description 1
- 230000018109 developmental process Effects 0.000 description 1
- 239000000835 fiber Substances 0.000 description 1
- 239000000463 material Substances 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 239000013307 optical fiber Substances 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 238000006467 substitution reaction Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/243—Classification techniques relating to the number of classes
- G06F18/24323—Tree-organised classifiers
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/213—Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/21—Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
- G06F18/214—Generating training patterns; Bootstrap methods, e.g. bagging or boosting
- G06F18/2148—Generating training patterns; Bootstrap methods, e.g. bagging or boosting characterised by the process organisation or structure, e.g. boosting cascade
Abstract
本申请公开了一种数据分类方法、装置、电子设备及可读存储介质,应用于大数据技术领域,包括:获取待分类数据;构建所述待分类数据的流程调用特征,其中,所述流程调用特征为在所述待分类数据的各数据属性特征中选取得到;通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果。本申请解决了数据分类效率较低的技术问题。
Description
技术领域
本申请涉及大数据技术领域,尤其涉及一种数据分类方法、装置、电子设备及可读存储介质。
背景技术
随着科技的高速发展,目前,通过深度学习模型提取数据的数据属性特征以识别数据是否为目标数据,需要人工对数据属性特征进行标注,从而实现数据的分类,而由于人工标注的能力有限,为保证不出现错漏或者标注错误的情况,往往需要花费大量的时间去重查,从而导致数据分类效率较低。
发明内容
本申请的主要目的在于提供一种数据分类方法、装置、电子设备及可读存储介质,旨在解决现有技术中数据分类效率较低的技术问题。
为实现上述目的,本申请提供一种数据分类方法,所述数据分类方法包括:
获取待分类数据;
构建所述待分类数据的流程调用特征,其中,所述流程调用特征为在所述待分类数据的各数据属性特征中选取得到;
通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果。
可选地,在所述通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果的步骤之前,还包括:
获取多条训练样本,其中,一条所述训练样本包括一条输入特征数据和所述输入特征数据对应的真实标签,所述输入特征数据包括一条训练数据的流程调用特征,所述真实标签为所述训练数据是否为目标数据的判定结果;
根据所述多条训练样本中各所述输入特征数据对应的信息增益,构建所述预设决策树。
可选地,在所述获取多条训练样本的步骤之前,还包括:
获取预设数据集;
基于确定的流程调用特征,对所述预设数据集进行数据埋点,得到所述多条训练样本中的各所述输入特征数据。
可选地,在所述获取多条训练样本的步骤之前,还包括:
对于各所述训练样本中任一目标训练样本,基于所述目标训练样本的输入特征数据,判断所述目标训练样本是否满足预设条件;
若所述目标训练样本满足所述预设条件,则判定所述目标训练样本的真实标签为对应的训练数据为目标数据;
若所述目标训练样本不满足所述预设条件,则判定所述目标训练样本的真实标签为对应的训练数据不为目标数据。
可选地,所述基于所述目标训练样本的输入特征数据,判断所述目标训练样本是否满足预设条件的步骤包括:
若所述目标训练样本的输入特征数据为完成预设流程必需的数据,则判定所述目标训练样本满足预设条件;和/或,
若所述目标训练样本的输入特征数据为使得预设流程成功必需的数据,则判定所述目标训练样本满足预设条件。
可选地,在所述获取多条训练样本的步骤之前,还包括:
获取所述多条训练样本的各数据属性特征;
计算各所述数据属性特征对应的信息增益;
在各所述数据属性特征中选取对应的所述信息增益大于预设增益阈值的特征,作为所述流程调用特征。
可选地,所述根据所述多条训练样本中各所述输入特征数据对应的信息增益,构建所述预设决策树的步骤包括:
根据所述多条训练样本中各所述输入特征数据对应的信息增益,计算所述多条训练样本中各所述输入特征数据对应的信息增益比;
在未被选取的各所述输入特征数据中,选取对应的所述信息增益比最大的特征数据作为所述预设决策树的根节点;
在未被选取的各所述输入特征数据中,选取对应的所述信息增益比最大的特征数据作为分叉节点;
返回至所述在未被选取的各所述输入特征数据中,选取对应的所述信息增益比最大的特征数据作为所述预设决策树的根节点的步骤,直至各所述输入特征数据均被选取。
为实现上述目的,本申请还提供一种数据分类装置,所述数据分类装置包括:
获取模块,用于获取待分类数据;
构建模块,用于构建所述待分类数据的流程调用特征,其中,所述流程调用特征为在所述待分类数据的各数据属性特征中选取得到;
识别模块,用于通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果。
本申请还提供一种电子设备,所述电子设备包括:存储器、处理器以及存储在所述存储器上并可在所述处理器上运行的所述数据分类方法的程序,所述数据分类方法的程序被处理器执行时可实现如上述的数据分类方法的步骤。
本申请还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有实现数据分类方法的程序,所述数据分类方法的程序被处理器执行时实现如上述的数据分类方法的步骤。
本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的数据分类方法的步骤。
本申请提供了一种数据分类方法、装置、电子设备及可读存储介质,通过获取待分类数据;构建所述待分类数据的流程调用特征;通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果,由于构建的流程调用特征是在各数据属性特征中选取得到的,可用于表征待分类数据的重要程度,从而可通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果,以规避通过深度学习模型提取数据的数据属性特征以识别数据是否为目标数据,需要人工对数据属性特征进行标注的技术缺陷,从而提高了数据分类的效率。
附图说明
此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请数据分类方法第一实施例的流程示意图;
图2为本申请数据分类方法第二实施例的流程示意图;
图3为本申请实施例中数据分类方法涉及的装置结构示意图;
图4为本申请实施例中数据分类方法涉及的硬件运行环境的设备结构示意图。
本申请目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为使本申请的上述目的、特征和优点能够更加明显易懂,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本申请保护的范围。
实施例一
本申请实施例提供一种数据分类方法,在本申请数据分类方法的第一实施例中,参照图1,所述数据分类方法包括:
步骤S10,获取待分类数据;
在本实施例中,需要说明的是,所述待分类数据为等待进行分类的业务场景下的数据,尤其是政务场景下的数据,所述数据可以为流程产生的数据,也可以为指标数据,还可以为要素数据。
在一可行实施例中,获取待分类数据集,所述待分类数据集包括至少两个待分类数据。
步骤S20,构建所述待分类数据的流程调用特征,其中,所述流程调用特征为在所述待分类数据的各数据属性特征中选取得到;
示例性地,将所述待分类数据输入至预设特征提取器,通过所述预设特征提取器将所述待分类数据映射为所述待分类数据的流程调用特征。
可选地,在所述构建所述待分类数据的流程调用特征之后,还包括:对所述流程调用特征进行归一化处理。
步骤S30,通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果。
示例性地,通过预设决策树将所述流程调用特征映射为所述待分类数据的分类结果。
在一可行实施例中,所述分类结果包括所述待分类数据为目标数据。
在另一可行实施例中,所述分类结果包括所述待分类数据不为目标数据。
本申请实施例提供了一种数据分类方法,通过获取待分类数据;构建所述待分类数据的流程调用特征;通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果,由于构建的流程调用特征是在各数据属性特征中选取得到的,可用于表征待分类数据的重要程度,从而可通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果,以规避通过深度学习模型提取数据的数据属性特征以识别数据是否为目标数据,需要人工对数据属性特征进行标注的技术缺陷,从而提高了数据分类的效率。
实施例二
进一步地,基于本申请第一实施例,在本申请另一实施例中,与上述实施例一相同或相似的内容,可以参考上文介绍,后续不再赘述。在此基础上,其中,参照图2,在步骤S30中,在所述通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果的步骤之前,还包括:
步骤A10,获取多条训练样本,其中,一条所述训练样本包括一条输入特征数据和所述输入特征数据对应的真实标签,所述输入特征数据包括一条训练数据的流程调用特征,所述真实标签为所述训练数据是否为目标数据的判定结果;
在一可行实施例中,在所述获取多条训练样本的步骤之后,还包括:获取预设标准,根据所述预设标准,将所述多条训练样本中的数据处理为布尔值和/或者数值。
其中,在步骤A10中,在所述获取多条训练样本的步骤之前,还包括:
步骤A01,获取所述多条训练样本的各数据属性特征;
在一可行实施例中,获取所述多条训练样本的各数据属性信息,根据各所述数据属性信息,提取得到各所述数据属性特征。
在另一可行实施例中,通过数据埋点,获取所述多条训练样本的各数据属性信息。
具体地,根据各所述数据属性信息包括的数据类型,确定数据埋点的方向;根据所述数据埋点的方向,对预设数据库进行数据埋点,得到所述多条训练样本的各数据属性信息。
在本实施例中,需要说明的是,所述数据属性信息包括数据调用信息、针对于所述训练样本所在业务场景的影响信息、数据计算信息和数据来源信息中的至少一种。所述数据调用信息包括经由节点的数据调用次数、经由各关键节点的数据调用次数、流经关键节点的节点数量和经由所述业务场景对应的业务规则的调用次数中的至少一种,其中,所述关键节点为业务场景下节点任务执行的必需节点;所述针对于所述训练样本所在业务场景的影响信息包括对于所述业务场景对应的业务系统的正常运行的影响信息;所述数据计算信息包括过渡性计算次数;所述数据来源信息包括所述业务场景所在业务领域来源、相关规则来源和相关标准来源,其中,所述相关规则包括法律法规和/或政策;所述相关标准包括国家标准、行业标准和团体标准中的至少一种。
可以理解的是,将各种数据调用信息、针对于所述训练样本所在业务场景的影响信息、数据计算信息和数据来源信息作为流程调用特征的备选特征提取数据,使得由训练样本训练得到的预设决策树的分类更准确,进而提高了数据分类准确性。
步骤A02,计算各所述数据属性特征对应的信息增益;
示例性地,获取各所述训练样本的经验熵;根据所述经验熵和各所述训练样本的总样本量,计算各所述数据属性特征对应的经验条件熵;根据所述经验熵和各所述数据属性特征各自对应的经验条件熵,计算各所述数据属性特征对应的信息增益。
在一可行实施例中,获取各所述训练样本的总样本量,根据所述总样本量,计算各所述训练样本的经验熵。
其中,所述根据所述总样本量,计算各所述训练样本的经验熵的步骤具体可以包括:
其中,为各所述训练样本的经验熵,/>为各所述训练样本里值为/>的样本量,为所述总样本量。
其中,所述根据所述经验熵和各所述训练样本的总样本量,计算各所述数据属性特征对应的经验条件熵的步骤具体可以包括:
其中,为数据属性特征/>对应的经验条件熵。
其中,所述根据所述经验熵和各所述数据属性特征各自对应的经验条件熵,计算各所述数据属性特征对应的信息增益的步骤包括:
其中,为数据属性特征/>对应的信息增益。
步骤A03,在各所述数据属性特征中选取对应的所述信息增益大于预设增益阈值的特征,作为所述流程调用特征。
其中,在步骤A10中,在所述获取多条训练样本的步骤之前,还包括:
步骤A04,获取预设数据集;
步骤A05,基于确定的流程调用特征,对所述预设数据集进行数据埋点,得到所述多条训练样本中的各所述输入特征数据。
其中,在步骤A10中,在所述获取多条训练样本的步骤之前,还包括:
对于各所述训练样本中任一目标训练样本,步骤A06,基于所述目标训练样本的输入特征数据,判断所述目标训练样本是否满足预设条件;
其中,在步骤A06中,所述基于所述目标训练样本的输入特征数据,判断所述目标训练样本是否满足预设条件的步骤包括:
步骤B10,若所述目标训练样本的输入特征数据为完成预设流程必需的数据,则判定所述目标训练样本满足预设条件;和/或,
在本实施例中,需要说明的是,所述预设流程为所述目标训练样本所处的业务场景下的流程。
步骤B20,若所述目标训练样本的输入特征数据为使得预设流程成功必需的数据,则判定所述目标训练样本满足预设条件。
步骤A07,若所述目标训练样本满足所述预设条件,则判定所述目标训练样本的真实标签为对应的训练数据为目标数据;
步骤A08,若所述目标训练样本不满足所述预设条件,则判定所述目标训练样本的真实标签为对应的训练数据不为目标数据。
步骤A20,根据所述多条训练样本中各所述输入特征数据对应的信息增益,构建所述预设决策树。
在一可行实施例中,通过C4.3算法,根据所述多条训练样本中各所述输入特征数据对应的信息增益,构建所述预设决策树。
在另一可行实施例中,通过ID3算法,根据所述多条训练样本中各所述输入特征数据对应的信息增益,构建所述预设决策树。
具体的,若所述多条训练样本都属于同一类别,则设置单节点树,并将所述类别作为所述单节点树的节点的类标记,并返回至所述单节点树;若所述多条训练样本的特征集为空集,则设置单节点树,并将所述多条训练样本中实例数最大的类作为所述单节点树的类标记;若所述多条训练样本的特征集不为空集,则计算各所述输入特征数据对应的信息增益,并在各所述输入特征数据中选取对应的信息增益最大的第一特征数据;若所述第一特征数据对应的信息增益小于第一增益阈值,则设置单节点树,并将所述多条训练样本中实例数最大的类作为所述单节点树的类标记;若所述第一特征数据对应的信息增益大于或等于第一增益阈值,则根据所述第一特征数据,将所述多条训练样本分割为至少一个子样本,将所述子样本中实例数最大的类作为标记,构建子结点,由结点及其子树构成树;递归调用上述步骤,得到所述预设决策树。
在又一可行实施例中,通过CARD算法,构建所述预设决策树。
具体的,计算各所述数据属性特征对应的基尼系数;根据各所述基尼系数,在各所述数据属性特征中选取结点和切分点;对节点递归上述步骤,得到所述预设决策树。
其中,在步骤A20中,所述根据所述多条训练样本中各所述输入特征数据对应的信息增益,构建所述预设决策树的步骤包括:
步骤A21,根据所述多条训练样本中各所述输入特征数据对应的信息增益,计算所述多条训练样本中各所述输入特征数据对应的信息增益比;
步骤A22,在未被选取的各所述输入特征数据中,选取对应的所述信息增益比最大的特征数据作为所述预设决策树的根节点;
步骤A23,在未被选取的各所述输入特征数据中,选取对应的所述信息增益比最大的特征数据作为分叉节点;
步骤A24,返回至所述在未被选取的各所述输入特征数据中,选取对应的所述信息增益比最大的特征数据作为所述预设决策树的根节点的步骤,直至各所述输入特征数据均被选取。
示例性地,若所述多条训练样本都属于同一类别,则设置单节点树,并将所述类别作为所述单节点树的节点的类标记,并返回至所述单节点树;若所述多条训练样本的特征集为空集,则设置单节点树,并将所述多条训练样本中实例数最大的类作为所述单节点树的类标记;若所述多条训练样本的特征集不为空集,则计算各所述输入特征数据对应的信息增益比,并在各所述输入特征数据中选取对应的信息增益比最大的第一特征数据;若所述第一特征数据对应的信息增益比小于第一增益阈值,则设置单节点树,并将所述多条训练样本中实例数最大的类作为所述单节点树的类标记;若所述第一特征数据对应的信息增益比大于或等于第一增益阈值,则根据所述第一特征数据,将所述多条训练样本分割为至少一个子样本,将所述子样本中实例数最大的类作为标记,构建子结点,由结点及其子树构成树;递归调用上述步骤,得到所述预设决策树。
本申请实施例提供了一种数据分类方法,通过获取多条训练样本,其中,一条所述训练样本包括一条输入特征数据和所述输入特征数据对应的真实标签,所述输入特征数据包括一条训练数据的流程调用特征,所述真实标签为所述训练数据是否为目标数据的判定结果;根据所述多条训练样本中各所述输入特征数据对应的信息增益,构建所述预设决策树,从而可通过预设决策树基于流程调用特征识别待分类数据是否为目标数据,得到分类结果,由于构建的流程调用特征是在各数据属性特征中选取得到的,可用于表征待分类数据的重要程度,从而可通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果,以规避通过深度学习模型提取数据的数据属性特征以识别数据是否为目标数据,需要人工对数据属性特征进行标注的技术缺陷,从而提高了数据分类的效率。
实施例三
本申请实施例还提供一种数据分类装置,参照图3,所述数据分类装置包括:
获取模块,用于获取待分类数据;
构建模块,用于构建所述待分类数据的流程调用特征;
识别模块,用于通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果。
可选地,在所述通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果的步骤之前,所述数据分类装置还包括:
获取多条训练样本,其中,一条所述训练样本包括一条输入特征数据和所述输入特征数据对应的真实标签,所述输入特征数据包括一条训练数据的流程调用特征,所述真实标签为所述训练数据是否为目标数据的判定结果;
根据所述多条训练样本中各所述输入特征数据对应的信息增益,构建所述预设决策树。
可选地,在所述获取多条训练样本的步骤之前,所述数据分类装置还包括:
获取预设数据集;
基于确定的流程调用特征,对所述预设数据集进行数据埋点,得到所述多条训练样本中的各所述输入特征数据。
可选地,在所述获取多条训练样本的步骤之前,所述数据分类装置还包括:
对于各所述训练样本中任一目标训练样本,基于所述目标训练样本的输入特征数据,判断所述目标训练样本是否满足预设条件;
若所述目标训练样本满足所述预设条件,则判定所述目标训练样本的真实标签为对应的训练数据为目标数据;
若所述目标训练样本不满足所述预设条件,则判定所述目标训练样本的真实标签为对应的训练数据不为目标数据。
可选地,所述数据分类装置还包括:
若所述目标训练样本的输入特征数据为完成预设流程必需的数据,则判定所述目标训练样本满足预设条件;和/或,
若所述目标训练样本的输入特征数据为使得预设流程成功必需的数据,则判定所述目标训练样本满足预设条件。
可选地,在所述获取多条训练样本的步骤之前,所述数据分类装置还包括:
获取所述多条训练样本的各数据属性特征;
计算各所述数据属性特征对应的信息增益;
在各所述数据属性特征中选取对应的所述信息增益大于预设增益阈值的特征,作为所述流程调用特征。
可选地,所述数据分类装置还包括:
在各所述输入特征数据中选取未进行信息增益判定的目标特征数据;
根据所述目标特征数据对应的信息增益,判断所述目标特征数据对应的信息增益比是否小于预设增益阈值;
若所述目标特征数据对应的信息增益比小于预设增益比阈值,则设置单节点树,并在所述多条数据样本中选取示例数最大的类作为所述目标特征数据对应的节点的类,返回所述单节点树;
若所述目标特征数据对应的信息增益比不小于预设增益比阈值,则在所述多条训练样本中拆分所述目标特征数据对应的数据集,并在所述数据集中选取示例数最大的类作为标记,构建子节点,返回所述单节点树。
本申请提供的数据分类装置,采用上述实施例中的数据分类方法,解决了数据分类效率较低的技术问题。与现有技术相比,本申请实施例提供的数据分类装置的有益效果与上述实施例提供的数据分类方法的有益效果相同,且该数据分类装置中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。
实施例四
本申请实施例提供一种电子设备,所述电子设备包括:至少一个处理器;以及,与至少一个处理器通信连接的存储器;其中,存储器存储有可被至少一个处理器执行的指令,指令被至少一个处理器执行,以使至少一个处理器能够执行上述实施例中的数据分类方法。
下面参考图4,其示出了适于用来实现本公开实施例的电子设备的结构示意图。本公开实施例中的电子设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器PDA(Personal Digital Assistant,个人数字助理)、PAD(平板电脑)、PMP(Portable MediaPlayer,便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图4示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。
如图4所示,电子设备可以包括处理装置(例如中央处理器、图形处理器等),其可以根据存储在ROM(Read-Only Memory,只读存储器)中的程序或者从存储装置加载到RAM(Random Access Memory,随机访问存储器)中的程序而执行各种适当的动作和处理。在RAM中,还存储有电子设备操作所需的各种程序和数据。处理装置、ROM以及RAM通过总线彼此相连。输入/输出(I/O)端口也连接至总线。
通常,以下系统可以连接至I/O端口:包括例如触摸屏、触摸板、键盘、鼠标、图像传感器、麦克风、加速度计、陀螺仪等的输入装置;包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置;包括例如磁带、硬盘等的存储装置;以及通信装置。通信装置可以允许电子设备与其他设备进行无线或有线通信以交换数据。虽然图中示出了具有各种系统的电子设备,但是应理解的是,并不要求实施或具备所有示出的系统。可以替代地实施或具备更多或更少的系统。
特别地,根据本公开的实施例,上文参考流程图描述的过程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信装置从网络上被下载和安装,或者从存储装置被安装,或者从ROM被安装。在该计算机程序被处理装置执行时,执行本公开实施例的方法中限定的上述功能。
本申请提供的电子设备,采用上述实施例中的数据分类方法,解决了数据分类效率较低的技术问题。与现有技术相比,本申请实施例提供的电子设备的有益效果与上述实施例提供的数据分类方法的有益效果相同,且该电子设备中的其他技术特征与上述实施例方法公开的特征相同,在此不做赘述。
应当理解,本公开的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式的描述中,具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应以所述权利要求的保护范围为准。
实施例五
本实施例提供一种计算机可读存储介质,具有存储在其上的计算机可读程序指令,计算机可读程序指令用于执行上述实施例中的数据分类方法的方法。
本申请实施例提供的计算机可读存储介质例如可以是U盘,但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、RAM、ROM、EPROM(Erasable Programmable Read Only Memory,可擦式可编程只读存储器)或闪存、光纤、CD-ROM(compact disc read-only memory,便携式紧凑磁盘只读存储器)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本实施例中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、系统或者器件使用或者与其结合使用。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于:电线、光缆、RF(Radio Frequency,射频)等等,或者上述的任意合适的组合。
上述计算机可读存储介质可以是电子设备中所包含的;也可以是单独存在,而未装配入电子设备中。
上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被电子设备执行时,使得电子设备:获取待分类数据;构建所述待分类数据的流程调用特征,其中,所述流程调用特征为在所述待分类数据的各数据属性特征中选取得到;通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果。
可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括LAN(LocalArea Network,局域网)或WAN(Wide Area Network,广域网)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
附图中的流程图和框图,图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
描述于本公开实施例中所涉及到的模块可以通过软件的方式实现,也可以通过硬件的方式来实现。其中,模块的名称在某种情况下并不构成对该单元本身的限定。
本申请提供的计算机可读存储介质,存储有用于执行上述数据分类方法的计算机可读程序指令,解决了数据分类效率较低的技术问题。与现有技术相比,本申请实施例提供的计算机可读存储介质的有益效果与上述实施提供的数据分类方法的有益效果相同,在此不做赘述。
实施例六
本申请还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述的数据分类方法的步骤。
本申请提供的计算机程序产品解决了数据分类效率较低的技术问题。与现有技术相比,本申请实施例提供的计算机程序产品的有益效果与上述实施例提供的数据分类方法的有益效果相同,在此不做赘述。
以上仅为本申请的优选实施例,并非因此限制本申请的专利范围,凡是利用本申请说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本申请的专利处理范围内。
Claims (10)
1.一种数据分类方法,其特征在于,所述数据分类方法包括:
获取待分类数据;
构建所述待分类数据的流程调用特征,其中,所述流程调用特征为在所述待分类数据的各数据属性特征中选取得到;
通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果。
2.如权利要求1所述数据分类方法,其特征在于,在所述通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果的步骤之前,还包括:
获取多条训练样本,其中,一条所述训练样本包括一条输入特征数据和所述输入特征数据对应的真实标签,所述输入特征数据包括一条训练数据的流程调用特征,所述真实标签为所述训练数据是否为目标数据的判定结果;
根据所述多条训练样本中各所述输入特征数据对应的信息增益,构建所述预设决策树。
3.如权利要求2所述数据分类方法,其特征在于,在所述获取多条训练样本的步骤之前,还包括:
获取预设数据集;
基于确定的流程调用特征,对所述预设数据集进行数据埋点,得到所述多条训练样本中的各所述输入特征数据。
4.如权利要求2所述数据分类方法,其特征在于,在所述获取多条训练样本的步骤之前,还包括:
对于各所述训练样本中任一目标训练样本,基于所述目标训练样本的输入特征数据,判断所述目标训练样本是否满足预设条件;
若所述目标训练样本满足所述预设条件,则判定所述目标训练样本的真实标签为对应的训练数据为目标数据;
若所述目标训练样本不满足所述预设条件,则判定所述目标训练样本的真实标签为对应的训练数据不为目标数据。
5.如权利要求4所述数据分类方法,其特征在于,所述基于所述目标训练样本的输入特征数据,判断所述目标训练样本是否满足预设条件的步骤包括:
若所述目标训练样本的输入特征数据为完成预设流程必需的数据,则判定所述目标训练样本满足预设条件;和/或,
若所述目标训练样本的输入特征数据为使得预设流程成功必需的数据,则判定所述目标训练样本满足预设条件。
6.如权利要求2所述数据分类方法,其特征在于,在所述获取多条训练样本的步骤之前,还包括:
获取所述多条训练样本的各数据属性特征;
计算各所述数据属性特征对应的信息增益;
在各所述数据属性特征中选取对应的所述信息增益大于预设增益阈值的特征,作为所述流程调用特征。
7.如权利要求2所述数据分类方法,其特征在于,所述根据所述多条训练样本中各所述输入特征数据对应的信息增益,构建所述预设决策树的步骤包括:
根据所述多条训练样本中各所述输入特征数据对应的信息增益,计算所述多条训练样本中各所述输入特征数据对应的信息增益比;
在未被选取的各所述输入特征数据中,选取对应的所述信息增益比最大的特征数据作为所述预设决策树的根节点;
在未被选取的各所述输入特征数据中,选取对应的所述信息增益比最大的特征数据作为分叉节点;
返回至所述在未被选取的各所述输入特征数据中,选取对应的所述信息增益比最大的特征数据作为所述预设决策树的根节点的步骤,直至各所述输入特征数据均被选取。
8.一种数据分类装置,其特征在于,所述数据分类装置包括:
获取模块,用于获取待分类数据;
构建模块,用于构建所述待分类数据的流程调用特征;
识别模块,用于通过预设决策树基于所述流程调用特征分类所述待分类数据是否为目标数据,得到分类结果。
9.一种电子设备,其特征在于,所述电子设备包括:
至少一个处理器;以及,
与所述至少一个处理器通信连接的存储器;其中,
所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1至7中任一项所述的数据分类方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有实现数据分类方法的程序,所述实现数据分类方法的程序被处理器执行以实现如权利要求1至7中任一项所述数据分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311179173.XA CN116910669A (zh) | 2023-09-13 | 2023-09-13 | 数据分类方法、装置、电子设备及可读存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202311179173.XA CN116910669A (zh) | 2023-09-13 | 2023-09-13 | 数据分类方法、装置、电子设备及可读存储介质 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN116910669A true CN116910669A (zh) | 2023-10-20 |
Family
ID=88353458
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202311179173.XA Pending CN116910669A (zh) | 2023-09-13 | 2023-09-13 | 数据分类方法、装置、电子设备及可读存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN116910669A (zh) |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555565A (zh) * | 2019-09-09 | 2019-12-10 | 南京东控智能交通研究院有限公司 | 基于决策树模型的高速路出口匝道事故严重程度预测方法 |
CN111783830A (zh) * | 2020-05-29 | 2020-10-16 | 平安科技(深圳)有限公司 | 基于oct的视网膜分类方法、装置、计算机设备及存储介质 |
CN114418035A (zh) * | 2022-03-25 | 2022-04-29 | 腾讯科技(深圳)有限公司 | 决策树模型生成方法、基于决策树模型的数据推荐方法 |
WO2022121705A1 (zh) * | 2020-12-10 | 2022-06-16 | 株式会社日立制作所 | 信息处理方法、装置和设备 |
CN115062676A (zh) * | 2022-08-18 | 2022-09-16 | 北京大学 | 数据处理方法、装置及计算机可读存储介质 |
CN115099875A (zh) * | 2022-07-15 | 2022-09-23 | 平安科技(深圳)有限公司 | 基于决策树模型的数据分类方法及相关设备 |
-
2023
- 2023-09-13 CN CN202311179173.XA patent/CN116910669A/zh active Pending
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN110555565A (zh) * | 2019-09-09 | 2019-12-10 | 南京东控智能交通研究院有限公司 | 基于决策树模型的高速路出口匝道事故严重程度预测方法 |
CN111783830A (zh) * | 2020-05-29 | 2020-10-16 | 平安科技(深圳)有限公司 | 基于oct的视网膜分类方法、装置、计算机设备及存储介质 |
WO2022121705A1 (zh) * | 2020-12-10 | 2022-06-16 | 株式会社日立制作所 | 信息处理方法、装置和设备 |
CN114418035A (zh) * | 2022-03-25 | 2022-04-29 | 腾讯科技(深圳)有限公司 | 决策树模型生成方法、基于决策树模型的数据推荐方法 |
CN115099875A (zh) * | 2022-07-15 | 2022-09-23 | 平安科技(深圳)有限公司 | 基于决策树模型的数据分类方法及相关设备 |
CN115062676A (zh) * | 2022-08-18 | 2022-09-16 | 北京大学 | 数据处理方法、装置及计算机可读存储介质 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110321958B (zh) | 神经网络模型的训练方法、视频相似度确定方法 | |
EP3913532A2 (en) | Object area measurement method, apparatus, storage medium and computer product | |
CN110619039A (zh) | 一种房产信息的校验方法、装置、存储介质及电子设备 | |
CN111522838A (zh) | 地址相似度计算方法及相关装置 | |
CN116028868B (zh) | 设备故障分类方法、装置、电子设备及可读存储介质 | |
CN112712795B (zh) | 标注数据确定方法、装置、介质及电子设备 | |
CN110619061A (zh) | 一种视频分类方法、装置、电子设备及可读介质 | |
CN117033309A (zh) | 一种数据转换方法、装置、电子设备及可读存储介质 | |
CN116151961A (zh) | 信用风险预测方法、电子设备及可读存储介质 | |
CN114140723B (zh) | 多媒体数据的识别方法、装置、可读介质及电子设备 | |
CN116910669A (zh) | 数据分类方法、装置、电子设备及可读存储介质 | |
CN115618808A (zh) | 文档排版方法、装置、电子设备和存储介质 | |
CN112509581B (zh) | 语音识别后文本的纠错方法、装置、可读介质和电子设备 | |
CN112256175B (zh) | 文字显示方法、装置、电子设备及计算机可读存储介质 | |
CN114547252A (zh) | 文本识别方法、装置、电子设备和介质 | |
CN110458743B (zh) | 基于大数据分析的社区治理方法、装置、设备及存储介质 | |
CN114116431A (zh) | 系统运行健康检测方法、装置、电子设备及可读存储介质 | |
CN113205092A (zh) | 文本检测方法、装置、设备及存储介质 | |
CN116910631B (zh) | 数组对比方法、装置、电子设备及可读存储介质 | |
CN111738311A (zh) | 面向多任务的特征提取方法、装置及电子设备 | |
CN112307073A (zh) | 一种信息查询方法、装置、设备和存储介质 | |
CN116302043B (zh) | 代码维护问题检测方法、装置、电子设备及可读存储介质 | |
CN111126120A (zh) | 城市区域分类方法、装置、设备和介质 | |
CN114064739B (zh) | 阅卷优化方法、装置、电子设备及可读存储介质 | |
CN114613355B (zh) | 视频处理方法、装置、可读介质及电子设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |