CN116303746A - 一种数据分类结果可视化方法、装置、设备及存储介质 - Google Patents

一种数据分类结果可视化方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN116303746A
CN116303746A CN202310295126.5A CN202310295126A CN116303746A CN 116303746 A CN116303746 A CN 116303746A CN 202310295126 A CN202310295126 A CN 202310295126A CN 116303746 A CN116303746 A CN 116303746A
Authority
CN
China
Prior art keywords
data
classified
classification
classification result
preset
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202310295126.5A
Other languages
English (en)
Inventor
肖威
莫凡
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
DBAPPSecurity Co Ltd
Original Assignee
DBAPPSecurity Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by DBAPPSecurity Co Ltd filed Critical DBAPPSecurity Co Ltd
Priority to CN202310295126.5A priority Critical patent/CN116303746A/zh
Publication of CN116303746A publication Critical patent/CN116303746A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/26Visual data mining; Browsing structured data
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请公开了一种数据分类结果可视化方法、装置、设备及存储介质,包括将获取的待分类数据以及对应的类别标签数据转化成预设取值范围内的数值向量得到训练数据;预设取值范围为数值大于零的取值范围;基于训练数据对初始的带非负约束的多分类逻辑回归模型进行训练,得到训练后的带非负约束的多分类逻辑回归模型;基于训练后的带非负约束的多分类逻辑回归模型以及待分类数据进行数据分类预测,得到分类结果以及对应的目标参数矩阵;根据预设可视化方案,并利用待分类数据、分类结果以及目标参数矩阵生成相应的图表和/或文字。本申请通过利用预设可视化方案针对模型输出的分类结果生成相应的图表和/或文字,能够有效实现对分类结果的可视化展示。

Description

一种数据分类结果可视化方法、装置、设备及存储介质
技术领域
本发明涉及数据分类领域,特别涉及一种数据分类结果可视化方法、装置、设备及存储介质。
背景技术
数据分类分级是对数据建立分级保护策略的前提,在数据安全治理中至关重要。当前主流的方法是采用神经网络模型对结构化数据分类分级,例如FastText、TextCNN(Text Convolutional Naural Networks,文本卷积神经网络)、BERT(BidirectionalEncoder Representations from Transformers,一种基于微调的多层双向变换器编码器)等模型,但这类模型由于结构复杂,天然存在可解释性差的问题,模型使用者无法对模型输出的结果给出直观合理的解释,导致分类分级结果不被认可。且现有的技术方案只是通过组合多种方案来提高最终分类分级结果的准确性,并未给模型设计可解释方案。
发明内容
有鉴于此,本发明的目的在于提供一种数据分类结果可视化方法、装置、设备及存储介质,能够有效实现对模型输出的分类结果的可视化展示。其具体方案如下:
第一方面,本申请提供了一种数据分类结果可视化方法,包括:
将获取的待分类数据以及对应的类别标签数据转化成预设取值范围内的数值向量,以得到相应的训练数据;所述预设取值范围为数值大于零的取值范围;
基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作,得到训练后的带非负约束的多分类逻辑回归模型;
基于所述训练后的带非负约束的多分类逻辑回归模型以及所述待分类数据进行数据分类预测操作,得到相应的分类结果以及与所述分类结果对应的目标参数矩阵;所述目标参数矩阵中的所有元素值均大于零值;
根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字。
可选的,所述将获取的待分类数据以及对应的类别标签数据转化成预设取值范围内的数值向量,以得到相应的训练数据,包括:
根据预设分词技术对待分类数据进行相应的特征提取操作,得到与所述待分类数据对应的若干个待分类文本特征;
基于所述若干个待分类文本特征构建相应的词典以及特征空间;
基于所述词典以及所述特征空间分别对所述若干个待分类文本特征以及相应的类别标签数据进行相应维数的向量转换,得到预设取值范围内的数值向量,以得到相应的训练数据。
可选的,所述根据预设分词技术对待分类数据进行相应的特征提取操作,得到与所述待分类数据对应的若干个待分类文本特征,包括:
分别基于预设分词技术以及预设过滤规则对待分类数据进行拆分以及过滤,以确定与所述待分类数据对应的若干个待分类文本特征。
可选的,所述基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作,得到训练后的带非负约束的多分类逻辑回归模型,包括:
在基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作的过程中,通过基于与梯度下降算法对应的预设迭代公式对所述多分类逻辑回归模型中的参数矩阵进行更新以完成训练操作,得到训练后的带非负约束的多分类逻辑回归模型。
可选的,所述根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字,包括:
对所述待分类数据进行相应的特征提取操作,得到与所述待分类数据对应的若干个待分类文本特征;
从所述目标参数矩阵中确定相应的特征维度,以确定与各所述待分类文本特征对应的类别依附程度信息;
对各所述类别依附程度信息进行归一化,得到与各所述待分类文本特征对应的类别相对贡献度信息,以便基于所述类别相对贡献度信息以及所述分类结果生成相应的图表和/或文字;所述图表中的行列信息分别为所述待分类文本特征以及预测类别信息。
可选的,所述根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字之后,还包括:
将所述图表中的行列信息进行互换,得到互换后的所述图表;互换后的所述图表中的行列信息分别为所述预测类别信息与所述待分类文本特征。
可选的,所述根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字之后,还包括:
针对所述图表中的所述预测类别信息,基于相应的模型实际预测概率进行降序排列,得到第一调整后图表;
针对所述第一调整后图表中的所述待分类文本特征,基于相应的所述类别相对贡献度信息进行降序排列,以得到第二调整后图表。
第二方面,本申请提供了一种数据分类结果可视化装置,包括:
数据转化模块,用于将获取的待分类数据以及对应的类别标签数据转化成预设取值范围内的数值向量,以得到相应的训练数据;所述预设取值范围为数值大于零的取值范围;
模型训练模块,用于基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作,得到训练后的带非负约束的多分类逻辑回归模型;
数据分类模块,用于基于所述训练后的带非负约束的多分类逻辑回归模型以及所述待分类数据进行数据分类预测操作,得到相应的分类结果以及与所述分类结果对应的目标参数矩阵;所述目标参数矩阵中的所有元素值均大于零值;
结果可视化模块,用于根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字。第三方面,本申请提供了一种电子设备,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序,以实现前述的数据分类结果可视化方法的步骤。
第四方面,本申请提供了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现前述的数据分类结果可视化法的步骤。
可见,本申请中,将获取的待分类数据以及对应的类别标签数据转化成预设取值范围内的数值向量,以得到相应的训练数据;所述预设取值范围为数值大于零的取值范围;基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作,得到训练后的带非负约束的多分类逻辑回归模型;基于所述训练后的带非负约束的多分类逻辑回归模型以及所述待分类数据进行数据分类预测操作,得到相应的分类结果以及与所述分类结果对应的目标参数矩阵;所述目标参数矩阵中的所有元素值均大于零值;根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字。本申请中先利用转换后得到的训练数据对对初始的带非负约束的多分类逻辑回归模型进行训练,然后通过利用预设可视化方案针对模型输出的分类结果生成相应的图表和/或文字,能够有效实现对分类结果的可视化展示,提高了结果的认可度以及模型可信度。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请提供的一种数据分类结果可视化方法流程图;
图2为本申请提供的一种具体的与分类结果对应的图表示意图;
图3为本申请提供的一种具体的与分类结果对应的图表示意图;
图4为本申请提供的一种具体的数据分类结果可视化方法流程图;
图5为本申请提供的一种数据分类结果可视化装置结构示意图;
图6为本申请提供的一种电子设备结构图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
当前主流的方法是采用神经网络模型对结构化数据分类分级,例如FastText、TextCNN、BERT等模型,但这类模型由于结构复杂,天然存在可解释性差的问题,模型使用者无法对模型输出的结果给出直观合理的解释,导致分类分级结果不被认可。且现有的技术方案只是通过组合多种方案来提高最终分类分级结果的准确性,并未给模型设计可解释方案。为此,本申请提供了一种数据分类结果可视化方案,能够有效实现对模型输出的分类结果的可视化展示。
参见图1所示,本发明实施例公开了一种数据分类结果可视化方法,包括:
步骤S11、将获取的待分类数据以及对应的类别标签数据转化成预设取值范围内的数值向量,以得到相应的训练数据;所述预设取值范围为数值大于零的取值范围。
本实施例中,在从数据库中获取待分类数据以及对应的类别标签数据后,需要进一步将所述待分类数据以及所述类别标签数据转化未预设取值范围内的数值向量。具体的,所述将获取的待分类数据以及对应的类别标签数据转化成预设取值范围内的数值向量,以得到相应的训练数据,包括:根据预设分词技术对待分类数据进行相应的特征提取操作,得到与所述待分类数据对应的若干个待分类文本特征;基于所述若干个待分类文本特征构建相应的词典以及特征空间;基于所述词典以及所述特征空间分别对所述若干个待分类文本特征以及相应的类别标签数据进行相应维数的向量转换,得到预设取值范围内的数值向量,以得到相应的训练数据。其中,所述预设取值范围可以为[0,1]。其中,所述根据预设分词技术对待分类数据进行相应的特征提取操作,得到与所述待分类数据对应的若干个待分类文本特征,包括:分别基于预设分词技术以及预设过滤规则对待分类数据进行拆分以及过滤,以确定与所述待分类数据对应的若干个待分类文本特征。这样一来,可以去除对预测分类无价值的文本,例如助词、语气词、介词等。
进一步需要理解的是,在一种具体实施方式中,基于所述若干个待分类文本特征构建的所述词典可以表示为{词1、词2、词3、……、词n}。由于模型特征需要考虑所述若干个待分类文本特征可能来自字段名(记为FN)、字段注释(记为FC)、所属表名(记为TN)、所属表注释(记为TC)这4个不同位置,因此若所述词典大小为n,则所述特征空间的大小为4n。例如,字段名包含词1可表示为FN_1,故所述特征空间可以表示为{FN_1、FC_1、TN_1、TC_1、……、FN_n、FC_n、TN_n、TC_n}。
本实施例中,在进行向量转换的过程中,在一种具体实施方式中,将所述若干个待分类文本特征转化成维数为4n的0-1稀疏特征向量。其中,所述特征向量中值为1的维度表示相应的所述待分类文本特征符合该维度的特征,即所述特征向量在FC_i的维度等于1表示相应的所述待分类文本特征符合条件,即字段注释包含词汇i。因为所述待分类文本数据所能包含的特征数远远小于4n,所以所述特征向量中只有少数维度等于1,大部分维度等于0,即为稀疏向量。进一步需要理解的是,将所述类别标签数据转化成维数为m的0-1稀疏特征向量,其中m为与所述类别标签数据对应的类别个数。例如,当与所述类别标签数据对应的类别标签集合为{class_1、class_2、……、class_m}时,其中,class_1所对应的特征向量可表示为[1,0,0,……,0],向量第1维等于1,其余维度均等于0。
步骤S12、基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作,得到训练后的带非负约束的多分类逻辑回归模型。
本实施例中,所述基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作,得到训练后的带非负约束的多分类逻辑回归模型,包括:在基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作的过程中,通过基于与梯度下降算法对应的预设迭代公式对所述多分类逻辑回归模型中的参数矩阵进行更新以完成训练操作,得到训练后的带非负约束的多分类逻辑回归模型。其中,若假定输入的特征向量为x,则所述初始的带非负约束的多分类逻辑回归模型可以表示为:
F(x)=softmax(Wx)
其中,W为m×n的参数矩阵,所述参数矩阵中的所有元素值均大于0,softmax函数可将任意向量转化成概率分布向量,即转化后向量的每个维度均大于0且所有维度之和等于1。
因此,本实施例中,模型训练的过程可以转化成最小化交叉熵损失函数H(F(x),y)的问题,其中交叉熵函数H是信息论中的概念,用于衡量两个概率分布之间的差异,H越小表示模型实际输出F(x)和期望输出y之间的差异越小。而H最小化的过程通过调整所述参数矩阵W来实现,其具体的更新过程可通过梯度下降算法的迭代公式表示:
Figure BDA0004144563420000071
其中,
Figure BDA0004144563420000072
为偏导数符号,α为迭代过程的学习率,并且在具体的实施方式中,根据专家经验调试,α可以取值为0.01。可以理解的是,模型训练后的所述参数模型W中的元素值代表着所述训练数据中所蕴含的关联关系。所述参数矩阵W中的每一个矩阵元素代表着一个特征对一个类别标签的依附程度,例如,W的第i行第j列(W_ij)表示第i个特征对第j个类别的依附程度,可以理解的是,所述W_ij的取值范围大于0,且所述W_ij越大表明具有特征i的所述待分类文本特征属于类别j的概率越大。
步骤S13、基于所述训练后的带非负约束的多分类逻辑回归模型以及所述待分类数据进行数据分类预测操作,得到相应的分类结果以及与所述分类结果对应的目标参数矩阵;所述目标参数矩阵中的所有元素值均大于零值。
本实施例中,在得到训练后的带非负约束的多分类逻辑回归模型后,可以基于所述待分类数据进行数据分类预测操作,以得到相应的分类结果以及与所述分类结果对应的目标参数矩阵W’。
步骤S14、根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字。
本实施例中,在基于所述分类结果生成相应的图表和/或文字时,先对所述待分类数据进行特征提取,以得到所述若干个待分类文本特征,上述步骤与获取训练数据时的步骤一致。之后从所述目标参数矩阵中筛选出与所述待分类文本特征对应的维度,例如,所述目标参数矩阵W’维度1000×10时,表示总共有1000种所述待分类文本特征,10个预测类别,而一条实际输入只命中了其中10条特征,则从W’矩阵中提取出10×10的子矩阵W’1。由于本专利中对模型的参数做了非负拘束,所以W’1的所有元素都是非负的。之后对所述W’1按列进行归一化,得到W’2,即所述W’2的每列之和等于1。然后基于所述W’2可以绘制相应的图表。其中,所述图表可以为热力图,所述热力图可通过颜色高亮,突出模型预测的所述分类结果与依据,解释性强,同时也方便排错。
进一步的,本实施例中,所述根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字之后,还包括:针对所述图表中的所述预测类别信息,基于相应的模型实际预测概率进行降序排列,得到第一调整后图表;针对所述第一调整后图表中的所述待分类文本特征,基于相应的所述类别相对贡献度信息进行降序排列,以得到第二调整后图表。具体可以参见图2所示。并且,还可以将所述图表中的行列信息进行互换,得到互换后的所述图表;互换后的所述图表中的行列信息分别为所述预测类别信息与所述待分类文本特征。具体可以如图3所示。
基于所述可视化方案,用户可以从确定的所述第二调整后图表中直观的看出模型预测概率最大的类别、模型预测概率最大类别所基于的特征的重要性排序。并且基于以上的解释说明,可整理成相应的文字报告并嵌入到数据分级分类产品的结果分析模块中。
由此可见,本申请实施例中,将获取的待分类数据以及对应的类别标签数据转化成预设取值范围内的数值向量,以得到相应的训练数据;所述预设取值范围为数值大于零的取值范围;基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作,得到训练后的带非负约束的多分类逻辑回归模型;基于所述训练后的带非负约束的多分类逻辑回归模型以及所述待分类数据进行数据分类预测操作,得到相应的分类结果以及与所述分类结果对应的目标参数矩阵;所述目标参数矩阵中的所有元素值均大于零值;根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字。本申请中先利用转换后得到的训练数据对对初始的带非负约束的多分类逻辑回归模型进行训练,然后通过利用预设可视化方案针对模型输出的分类结果生成相应的图表和/或文字,能够有效实现对分类结果的可视化展示,提高了结果的认可度以及模型可信度。
由前一实施例可知,本申请在得到分类结果及对应的目标参数矩阵后,基于预设可视化方案生成图表和/或文字,以进行可视化展示。为此,本实施例接下来对基于预设可视化方案生成相应的图表和/或文字的过程进行详细描述。参见图4所示,本发明实施例公开了一种数据分类结果可视化方法,包括:
步骤S21、对待分类数据进行相应的特征提取操作,得到与所述待分类数据对应的若干个待分类文本特征。
步骤S22、从与得到的分类结果对应的目标参数矩阵中确定相应的特征维度,以确定与各所述待分类文本特征对应的类别依附程度信息。
步骤S23、对各所述类别依附程度信息进行归一化,得到与各所述待分类文本特征对应的类别相对贡献度信息,以便基于所述类别相对贡献度信息以及所述分类结果生成相应的图表和/或文字;所述图表中的行列信息分别为所述待分类文本特征以及预测类别信息。
其中,关于上述步骤S21至步骤S23的具体过程可以参考前述实施例公开的相应内容,在此不再进行赘述。
由此可见,本申请实施例中,对待分类数据进行相应的特征提取操作,得到与所述待分类数据对应的若干个待分类文本特征。从与得到的分类结果对应的目标参数矩阵中确定相应的特征维度,以确定与各所述待分类文本特征对应的类别依附程度信息。对各所述类别依附程度信息进行归一化,得到与各所述待分类文本特征对应的类别相对贡献度信息,以便基于所述类别相对贡献度信息以及所述分类结果生成相应的图表和/或文字;所述图表中的行列信息分别为所述待分类文本特征以及预测类别信息。这样一来,通过利用预设可视化方案针对模型输出的分类结果生成相应的图表和/或文字,能够有效实现对分类结果的可视化展示,提高了结果的认可度。
参见图5所示,本申请实施例还相应公开了一种数据分类结果可视化装置,包括:
数据转化模块11,用于将获取的待分类数据以及对应的类别标签数据转化成预设取值范围内的数值向量,以得到相应的训练数据;所述预设取值范围为数值大于零的取值范围;
模型训练模块12,用于基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作,得到训练后的带非负约束的多分类逻辑回归模型;
数据分类模块13,用于基于所述训练后的带非负约束的多分类逻辑回归模型以及所述待分类数据进行数据分类预测操作,得到相应的分类结果以及与所述分类结果对应的目标参数矩阵;所述目标参数矩阵中的所有元素值均大于零值;
结果可视化模块14,用于根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字。
其中,关于上述各个模块更加具体的工作过程可以参考前述实施例中公开的相应内容,在此不再进行赘述。
由此可见,本申请中,将获取的待分类数据以及对应的类别标签数据转化成预设取值范围内的数值向量,以得到相应的训练数据;所述预设取值范围为数值大于零的取值范围;基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作,得到训练后的带非负约束的多分类逻辑回归模型;基于所述训练后的带非负约束的多分类逻辑回归模型以及所述待分类数据进行数据分类预测操作,得到相应的分类结果以及与所述分类结果对应的目标参数矩阵;所述目标参数矩阵中的所有元素值均大于零值;根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字。本申请中先利用转换后得到的训练数据对对初始的带非负约束的多分类逻辑回归模型进行训练,然后通过利用预设可视化方案针对模型输出的分类结果生成相应的图表和/或文字,能够有效实现对分类结果的可视化展示,提高了结果的认可度以及模型可信度。
在一些具体实施例中,所述数据转化模块11,具体可以包括:
特征提取单元,用于根据预设分词技术对待分类数据进行相应的特征提取操作,得到与所述待分类数据对应的若干个待分类文本特征;
特征空间构建单元,用于基于所述若干个待分类文本特征构建相应的词典以及特征空间;
向量转换单元,用于基于所述词典以及所述特征空间分别对所述若干个待分类文本特征以及相应的类别标签数据进行相应维数的向量转换,得到预设取值范围内的数值向量,以得到相应的训练数据。
在一些具体实施例中,所述数据分类结果可视化装置,具体可以包括:
待分类文本特征确定单元,用于分别基于预设分词技术以及预设过滤规则对待分类数据进行拆分以及过滤,以确定与所述待分类数据对应的若干个待分类文本特征。
在一些具体实施例中,所述模型训练模块12,具体可以包括:
参数矩阵更新单元,用于在基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作的过程中,通过基于与梯度下降算法对应的预设迭代公式对所述多分类逻辑回归模型中的参数矩阵进行更新以完成训练操作,得到训练后的带非负约束的多分类逻辑回归模型。
在一些具体实施例中,所述结果可视化模块14,具体可以包括:
文本特征提取单元,用于对所述待分类数据进行相应的特征提取操作,得到与所述待分类数据对应的若干个待分类文本特征;
类别依附程度信息确定单元,用于从所述目标参数矩阵中确定相应的特征维度,以确定与各所述待分类文本特征对应的类别依附程度信息;
类别相对贡献度信息确定单元,用于对各所述类别依附程度信息进行归一化,得到与各所述待分类文本特征对应的类别相对贡献度信息,以便基于所述类别相对贡献度信息以及所述分类结果生成相应的图表和/或文字;所述图表中的行列信息分别为所述待分类文本特征以及预测类别信息。
在一些具体实施例中,所述数据分类结果可视化装置,具体还可以包括:
图表行列互换单元,用于将所述图表中的行列信息进行互换,得到互换后的所述图表;互换后的所述图表中的行列信息分别为所述预测类别信息与所述待分类文本特征。
在一些具体实施例中,所述数据分类结果可视化装置,具体可以包括:
第一排列调整单元,用于针对所述图表中的所述预测类别信息,基于相应的模型实际预测概率进行降序排列,得到第一调整后图表;
第二排列调整单元,用于针对所述第一调整后图表中的所述待分类文本特征,基于相应的所述类别相对贡献度信息进行降序排列,以得到第二调整后图表。
进一步的,本申请实施例还公开了一种电子设备,图6是根据一示例性实施例示出的电子设备20结构图,图中的内容不能认为是对本申请的使用范围的任何限制。
图6为本申请实施例提供的一种电子设备20的结构示意图。该电子设备20,具体可以包括:至少一个处理器21、至少一个存储器22、电源23、通信接口24、输入输出接口25和通信总线26。其中,所述存储器22用于存储计算机程序,所述计算机程序由所述处理器21加载并执行,以实现前述任一实施例公开的数据分类结果可视化方法中的相关步骤。另外,本实施例中的电子设备20具体可以为电子计算机。
本实施例中,电源23用于为电子设备20上的各硬件设备提供工作电压;通信接口24能够为电子设备20创建与外界设备之间的数据传输通道,其所遵循的通信协议是能够适用于本申请技术方案的任意通信协议,在此不对其进行具体限定;输入输出接口25,用于获取外界输入数据或向外界输出数据,其具体的接口类型可以根据具体应用需要进行选取,在此不进行具体限定。
另外,存储器22作为资源存储的载体,可以是只读存储器、随机存储器、磁盘或者光盘等,其上所存储的资源可以包括操作系统221、计算机程序222等,存储方式可以是短暂存储或者永久存储。
其中,操作系统221用于管理与控制电子设备20上的各硬件设备以及计算机程序222,其可以是Windows Server、Netware、Unix、Linux等。计算机程序222除了包括能够用于完成前述任一实施例公开的由电子设备20执行的数据分类结果可视化方法的计算机程序之外,还可以进一步包括能够用于完成其他特定工作的计算机程序。
进一步的,本申请还公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的数据分类结果可视化方法。关于该方法的具体步骤可以参考前述实施例中公开的相应内容,在此不再进行赘述。
本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本申请的范围。
结合本文中所公开的实施例描述的方法或算法的步骤可以直接用硬件、处理器执行的软件模块,或者二者的结合来实施。软件模块可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上对本申请所提供的技术方案进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

1.一种数据分类结果可视化方法,其特征在于,包括:
将获取的待分类数据以及对应的类别标签数据转化成预设取值范围内的数值向量,以得到相应的训练数据;所述预设取值范围为数值大于零的取值范围;
基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作,得到训练后的带非负约束的多分类逻辑回归模型;
基于所述训练后的带非负约束的多分类逻辑回归模型以及所述待分类数据进行数据分类预测操作,得到相应的分类结果以及与所述分类结果对应的目标参数矩阵;所述目标参数矩阵中的所有元素值均大于零值;
根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字。
2.根据权利要求1所述的数据分类结果可视化方法,其特征在于,所述将获取的待分类数据以及对应的类别标签数据转化成预设取值范围内的数值向量,以得到相应的训练数据,包括:
根据预设分词技术对待分类数据进行相应的特征提取操作,得到与所述待分类数据对应的若干个待分类文本特征;
基于所述若干个待分类文本特征构建相应的词典以及特征空间;
基于所述词典以及所述特征空间分别对所述若干个待分类文本特征以及相应的类别标签数据进行相应维数的向量转换,得到预设取值范围内的数值向量,以得到相应的训练数据。
3.根据权利要求2所述的数据分类结果可视化方法,其特征在于,所述根据预设分词技术对待分类数据进行相应的特征提取操作,得到与所述待分类数据对应的若干个待分类文本特征,包括:
分别基于预设分词技术以及预设过滤规则对待分类数据进行拆分以及过滤,以确定与所述待分类数据对应的若干个待分类文本特征。
4.根据权利要求1所述的数据分类结果可视化方法,其特征在于,所述基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作,得到训练后的带非负约束的多分类逻辑回归模型,包括:
在基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作的过程中,通过基于与梯度下降算法对应的预设迭代公式对所述多分类逻辑回归模型中的参数矩阵进行更新以完成训练操作,得到训练后的带非负约束的多分类逻辑回归模型。
5.根据权利要求1至4任一项所述的数据分类结果可视化方法,其特征在于,所述根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字,包括:
对所述待分类数据进行相应的特征提取操作,得到与所述待分类数据对应的若干个待分类文本特征;
从所述目标参数矩阵中确定相应的特征维度,以确定与各所述待分类文本特征对应的类别依附程度信息;
对各所述类别依附程度信息进行归一化,得到与各所述待分类文本特征对应的类别相对贡献度信息,以便基于所述类别相对贡献度信息以及所述分类结果生成相应的图表和/或文字;所述图表中的行列信息分别为所述待分类文本特征以及预测类别信息。
6.根据权利要求5所述的数据分类结果可视化方法,其特征在于,所述根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字之后,还包括:
将所述图表中的行列信息进行互换,得到互换后的所述图表;互换后的所述图表中的行列信息分别为所述预测类别信息与所述待分类文本特征。
7.根据权利要求5所述的数据分类结果可视化方法,其特征在于,所述根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字之后,还包括:
针对所述图表中的所述预测类别信息,基于相应的模型实际预测概率进行降序排列,得到第一调整后图表;
针对所述第一调整后图表中的所述待分类文本特征,基于相应的所述类别相对贡献度信息进行降序排列,以得到第二调整后图表。
8.一种数据分类结果可视化装置,其特征在于,包括:
数据转化模块,用于将获取的待分类数据以及对应的类别标签数据转化成预设取值范围内的数值向量,以得到相应的训练数据;所述预设取值范围为数值大于零的取值范围;
模型训练模块,用于基于所述训练数据对初始的带非负约束的多分类逻辑回归模型进行训练操作,得到训练后的带非负约束的多分类逻辑回归模型;
数据分类模块,用于基于所述训练后的带非负约束的多分类逻辑回归模型以及所述待分类数据进行数据分类预测操作,得到相应的分类结果以及与所述分类结果对应的目标参数矩阵;所述目标参数矩阵中的所有元素值均大于零值;
结果可视化模块,用于根据预设可视化方案,并利用所述待分类数据、所述分类结果以及所述目标参数矩阵生成相应的图表和/或文字。
9.一种电子设备,其特征在于,包括:
存储器,用于保存计算机程序;
处理器,用于执行所述计算机程序以实现如权利要求1至7任一项所述的数据分类结果可视化方法。
10.一种计算机可读存储介质,其特征在于,用于保存计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的数据分类结果可视化方法。
CN202310295126.5A 2023-03-22 2023-03-22 一种数据分类结果可视化方法、装置、设备及存储介质 Pending CN116303746A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310295126.5A CN116303746A (zh) 2023-03-22 2023-03-22 一种数据分类结果可视化方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310295126.5A CN116303746A (zh) 2023-03-22 2023-03-22 一种数据分类结果可视化方法、装置、设备及存储介质

Publications (1)

Publication Number Publication Date
CN116303746A true CN116303746A (zh) 2023-06-23

Family

ID=86832209

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310295126.5A Pending CN116303746A (zh) 2023-03-22 2023-03-22 一种数据分类结果可视化方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN116303746A (zh)

Similar Documents

Publication Publication Date Title
CN111026842B (zh) 自然语言处理方法、自然语言处理装置及智能问答系统
CN112507040B (zh) 多元关系生成模型的训练方法、装置、电子设备及介质
CN111127246A (zh) 一种输电线路工程造价的智能预测方法
EP4131076A1 (en) Serialized data processing method and device, and text processing method and device
CN112861518B (zh) 文本纠错方法、装置和存储介质及电子装置
JP2021177375A (ja) 募集ポジション説明テキストの生成方法、装置、電子デバイス、コンピュータ可読記憶媒体及びコンピュータプログラム
US20220358292A1 (en) Method and apparatus for recognizing entity, electronic device and storage medium
CN111274790A (zh) 基于句法依存图的篇章级事件嵌入方法及装置
CN114281968B (zh) 一种模型训练及语料生成方法、装置、设备和存储介质
CN115222566A (zh) 国际金融与金融计量学教学用学习方法及其系统
CN116611546B (zh) 基于知识图谱的目标研究区域滑坡预测方法及系统
JP6743942B2 (ja) 語彙テーブルの選択方法、装置およびコンピュータ読み取り可能な記憶媒体
CN115878818B (zh) 一种地理知识图谱构建方法、装置、终端及存储介质
JP2021144294A (ja) データ補完システム、およびデータ補完方法
CN116823202A (zh) 简历信息处理方法、系统、智能终端及存储介质
CN116303746A (zh) 一种数据分类结果可视化方法、装置、设备及存储介质
CN113010687B (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
CN113722477B (zh) 基于多任务学习的网民情绪识别方法、系统及电子设备
CN109657071A (zh) 词汇预测方法、装置、设备和计算机可读存储介质
CN115660695A (zh) 客服人员标签画像构建方法、装置、电子设备及存储介质
Pereira et al. On the convergence rate of the elitist genetic algorithm based on mutation probability
CN110633363B (zh) 一种基于nlp和模糊多准则决策的文本实体推荐方法
CN109063073B (zh) 一种因果关系问题的分析系统和分析方法
CN108073704B (zh) 一种liwc词表扩展方法
Gaikwad et al. Machine learning amalgamation of Mathematics, Statistics and Electronics

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination