CN112307227B - 一种数据分类方法 - Google Patents

一种数据分类方法 Download PDF

Info

Publication number
CN112307227B
CN112307227B CN202011326744.4A CN202011326744A CN112307227B CN 112307227 B CN112307227 B CN 112307227B CN 202011326744 A CN202011326744 A CN 202011326744A CN 112307227 B CN112307227 B CN 112307227B
Authority
CN
China
Prior art keywords
data
original media
node
media data
weight value
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202011326744.4A
Other languages
English (en)
Other versions
CN112307227A (zh
Inventor
黄佩卓
皮志贤
高灵超
刘洋
陈相舟
王家凯
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Big Data Center Of State Grid Corp Of China
Original Assignee
Big Data Center Of State Grid Corp Of China
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Big Data Center Of State Grid Corp Of China filed Critical Big Data Center Of State Grid Corp Of China
Priority to CN202011326744.4A priority Critical patent/CN112307227B/zh
Publication of CN112307227A publication Critical patent/CN112307227A/zh
Application granted granted Critical
Publication of CN112307227B publication Critical patent/CN112307227B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/40Information retrieval; Database structures therefor; File system structures therefor of multimedia data, e.g. slideshows comprising image and additional audio data
    • G06F16/45Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Computational Linguistics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种数据分类方法,包括:获取待分类的原始媒体数据,对原始媒体数据进行预处理得到各时刻的节点特征矩阵;根据各节点特征矩阵,计算各时刻的第一目标权重值;根据各节点特征矩阵以及第一目标权重值,计算各时刻的媒体特征向量,根据各时刻的媒体特征向量,对原始媒体数据进行分类。本发明实施例的技术方案可以减少对数据分类的耗时,提高数据的分类效率。

Description

一种数据分类方法
技术领域
本发明实施例涉及数据处理技术领域,尤其涉及一种数据分类方法。
背景技术
随着电力行业的发展,电网数据量庞大、种类繁多且增长速度飞快,由于各级电力调度中心缺乏对电网数据输出的标准化规定,导致相同类型的数据对应的存储格式可能不同,并且电网数据库既可以包括简单的文件数据库,也可以包括复杂的网络数据库,由此构成了电网数据的异构数据源。
由于大量的电网数据缺乏标准的存储格式,且数据源异构,开发人员很难全局掌握这些电网数据间的联系,进而无法开发与电网数据对应的前端业务。因此,对异构异源的电网数据进行分类,通过分类结果识别电网数据之间的联系,对开发电网前端业务是尤为重要的。
现有方法对电网数据分类时,通常分别将电网数据输入长短期记忆(Long Short-Term Memory,LSTM)神经网络和图卷积神经网络,根据各神经网络的输出结果确定电网数据的类型,但是,由于LSTM神经网络和图卷积神经网络各自包括多个全连接层,导致网络计算量较大,且耗费时间长,数据分类效率较低。
发明内容
本发明实施例提供一种数据分类方法,能够减少对数据分类的耗时,提高数据的分类效率。
本发明实施例提供了一种数据分类方法,所述方法包括:
获取待分类的原始媒体数据,对所述原始媒体数据进行预处理得到与所述原始媒体数据对应的各时刻的节点特征矩阵;
根据各所述节点特征矩阵,计算与所述原始媒体数据对应的各时刻的第一目标权重值;所述第一目标权重值用于表示所述原始媒体数据中包括设定类型的语音数据或设定类型的文本数据的权重;
根据各所述节点特征矩阵以及第一目标权重值,计算与所述原始媒体数据对应的各时刻的媒体特征向量,所述媒体特征向量中包括第二目标权重值,所述第二目标权重值用于表示所述原始媒体数据中包括设定类型的图像数据的权重;
根据所述各时刻的媒体特征向量,对所述原始媒体数据进行分类。
本发明实施例的技术方案通过获取待分类的原始媒体数据,对原始媒体数据进行预处理得到与原始媒体数据对应的各时刻的节点特征矩阵,并根据各节点特征矩阵,计算与原始媒体数据对应的各时刻的第一目标权重值,然后根据各节点特征矩阵以及第一目标权重值,计算与原始媒体数据对应的各时刻的媒体特征向量,最后根据各时刻的媒体特征向量,对原始媒体数据进行分类。本发明实施例的技术方案可以减少对数据分类的耗时,提高数据的分类效率。
附图说明
图1是本发明实施例一中的一种数据分类方法的流程图;
图2是本发明实施例二中的一种数据分类方法的流程图;
图3a是本发明实施例三中的一种数据分类方法的流程图;
图3b是本发明实施例三中的一种数据分类方法的流程图;
图4是本发明实施例四中的一种数据分类装置的结构图;
图5是本发明实施例五中的一种计算机设备的结构示意图。
具体实施方式
下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
实施例一
图1为本发明实施例一提供的一种数据分类方法的流程图,本实施例可适用于对类型未知的数据进行分类的情形,该方法可以由数据分类装置来执行,该装置可以由软件和/或硬件来实现,并一般可以集成在计算机以及所有包含程序运行功能的智能设备(例如,终端设备或者服务器)中,具体包括如下步骤:
步骤110、获取待分类的原始媒体数据,对原始媒体数据进行预处理得到与原始媒体数据对应的各时刻的节点特征矩阵。
在本实施例中,所述原始媒体数据为类型未知的数据,具体的,所述原始媒体数据可以包括图像数据、文本数据、语音数据以及视频数据等。
其中,原始媒体数据中可以包括多个特征点,也即节点,每个节点的节点特征向量组成了节点特征矩阵。每个节点的节点特征向量包含该节点的特征信息,即该节点特征矩阵可以根据原始媒体数据中每个节点携带的特征信息构建得到。例如,假设原始媒体数据中包括N个节点,每个节点特征向量的长度为M,则该原始媒体数据的节点特征矩阵为N×M维度的矩阵,该矩阵的每一行为一个节点的节点特征向量。
示例性地,若原始媒体数据具体为图像数据,原始媒体数据中的节点具体可以为像素点,则节点特征矩阵中的每一个节点特征向量包含的特征信息可以为像素值等信息。
步骤120、根据各节点特征矩阵,计算与原始媒体数据对应的各时刻的第一目标权重值;第一目标权重值用于表示原始媒体数据中包括设定类型的语音数据或设定类型的文本数据的权重。
在此步骤中,可选的,可以首先利用语音识别模型对所述节点特征矩阵进行处理,得到与所述原始媒体数据对应的语音权重值,所述语音权重值用于表示原始媒体数据中包括设定类型的语音数据的权重。示例性地,所述设定类型的语音数据可以为会议音频数据等。
在本实施例中,计算出语音权重值后,可选的,可以利用预设的文本识别模型对所述节点特征矩阵进行处理,得到与所述原始媒体数据对应的文本权重值,所述文本权重值用于表示原始媒体数据中包括设定类型的文本数据的权重。示例性地,当所述原始媒体数据为电力行业中的电网数据时,所述设定类型的文本数据可以为电网维修文本数据或者工作人员信息文本数据等。
在此步骤中,当计算出语音权重值和文本权重值后,可选的,可以在语音权重值和文本权重值中选择较大的权重值作为所述第一目标权重值,所述第一目标权重值用于表示原始媒体数据中包括设定类型的语音数据或设定类型的文本数据的权重。
步骤130、根据各节点特征矩阵以及第一目标权重值,计算与原始媒体数据对应的各时刻的媒体特征向量,媒体特征向量中包括第二目标权重值,第二目标权重值用于表示原始媒体数据中包括设定类型的图像数据的权重。
在此步骤中,可选的,可以将各节点特征矩阵以及第一目标权重值输入至预设的图像识别模型中,然后利用预设的图像识别模型对所述节点特征矩阵进行处理,得到与所述原始媒体数据对应的图像权重值(也即第二目标权重值),所述图像权重值用于表示原始媒体数据中包括设定类型的图像数据的权重。示例性地,所述设定类型的图像数据可以为黑白图像数据或者彩色图像数据等。
在本实施例中,计算出第二目标权重值后,可以将第一目标权重值与第二目标权重值进行结合,得到所述媒体特征向量,所述媒体特征向量用于表示各时刻下原始媒体数据中包括设定类型的图像数据、以及语音数据或文本数据的权重。
在本实施例中,根据各节点特征矩阵,计算出第一目标权重值后,可以将各节点特征矩阵以及第一目标权重值直接输入至图像识别模型,而无需经过全连接层,由此,可以避免各模型中多个全连接层对节点特征矩阵以及第一目标权重值的计算,进而可以减少模型对节点特征矩阵的计算量,提高对原始媒体数据的分类效率。
步骤140、根据各时刻的媒体特征向量,对原始媒体数据进行分类。
在此步骤中,可选的,可以将各时刻的媒体特征向量进行组合,得到与原始媒体数据对应的目标媒体特征向量,根据目标媒体特征向量,确定原始媒体数据的类型。
在一个具体的实施例中,假设目标媒体特征向量中彩色图像数据和会议音频数据的权重值较大,则可以确定原始媒体数据的类型为会议视频数据;假设目标媒体特征向量中图像数据权重值较小,维修文本数据权重值较大,则可以确定原始媒体数据的类型为维修文本数据。
本发明实施例的技术方案通过获取待分类的原始媒体数据,对原始媒体数据进行预处理得到与原始媒体数据对应的各时刻的节点特征矩阵,并根据各节点特征矩阵,计算与原始媒体数据对应的各时刻的第一目标权重值,然后根据各节点特征矩阵以及第一目标权重值,计算与原始媒体数据对应的各时刻的媒体特征向量,最后根据各时刻的媒体特征向量,对原始媒体数据进行分类。本发明实施例的技术方案可以减少对数据分类的耗时,提高数据的分类效率。
实施例二
本实施例是对上述实施例一的进一步细化,与上述实施例相同或相应的术语解释,本实施例不再赘述。图2为本发明实施例二提供的一种数据分类方法的流程图,在本实施例中,本实施例的技术方案可以与上述实施例的方案中的一种或者多种方法进行组合,在本实施例中,如图2所示,本发明实施例提供的方法还可以包括:
步骤210、获取待分类的原始媒体数据,对原始媒体数据进行预处理得到与原始媒体数据对应的各时刻的节点特征矩阵。
步骤220、将各节点特征矩阵,输入至预先训练的双向长短期记忆网络中的注意力机制模型Attention-LSTM中,得到与原始媒体数据对应的各时刻的第一目标权重值。
其中,第一目标权重值用于表示原始媒体数据中包括设定类型的语音数据或设定类型的文本数据的权重。
其中,双向Attention-LSTM模型可以使用各预设类型的数据对应的节点特征矩阵作为训练样本训练得到,具体的,双向Attention-LSTM模型可以使用各预设类型的语音数据以及文本数据构成的数据集合训练得到。
在本实施例中,可选的,双向Attention-LSTM模型包括输入层、前向Attention-LSTM层、后向Attention-LSTM层以及输出层;所述输入层用于将所述节点特征矩阵输入至所述前向Attention-LSTM层;所述前向Attention-LSTM层与后向Attention-LSTM层,用于计算当前节点特征矩阵与前一节点特征矩阵,以及后一节点特征矩阵的依赖关系,根据所述依赖关系,以及所述节点特征矩阵,计算第一目标权重值,并将所述第一目标权重值传输至所述输出层。
在本实施例中,LSTM层由于具备“记忆”特性,在具有长短期依赖关系的语音和文本特征问题上表现出极强的学习能力。在一个具体的实施例中,假设原始媒体数据为电网数据,利用LSTM层对节点特征矩阵的处理,可以有效计算当前节点特征矩阵与前一节点特征矩阵,以及后一节点特征矩阵的依赖关系,进而便于开发人员全局掌握电网数据之间的联系,开发与电网数据对应的前端业务。其中,LSTM层包括输入门、遗忘门、输出门、输入块、细胞单元、输出激活函数和连接层,其中,输入块的输出反复连接回输入块和所有的门。其具体公式如下:
Ginput=sigmoid(Wixx+WicCell'+bi)
Gforget=sigmoid(Wfxx+WfcCell'+bf)
Cell=m'+Gforget*Cell'+Ginput*tanh(Wcxx)*m'+bc
Goutput=sigmoid(Woxx+WocCell'+bo)
m=tanh(Goutput*Cell*m')
y=softmaxk(Wymm+by)
其中,Ginput为输入门的输出,Gforget为遗忘门的输出,Cell为记忆细胞的输出,Cell'为t-1时刻记忆细胞的输出,Goutput为输出门的输出,G'output为t-1时刻输出门的输出,m为线性循环投影层的输出,m'为t-1时刻线性循环投影层的输出;x为整个长短期记忆循环神经网络模块的输入,y为一个长短期记忆循环神经网络子模块的输出;bi为输入门i的偏差量,bf为遗忘门f的偏差量,bc为记忆细胞c的偏差量,bo为输出门o的偏差量,by为输出y的偏差量,不同的b代表不同的偏差量;Wix为输入门i与输入x之间的权重,Wic为输入门i与记忆细胞c之间的权重,Wfx为遗忘门f与输入x之间的权重,Wfc为遗忘门f与记忆细胞c之间的权重,Woc为输出门o与记忆细胞c之间的权重,Wym为输出y与输出m之间的权重,*代表矩阵元素相乘。
在本实施例中,将LSTM层与Attention机制结合,主要目的是强制模型来处理节点特征矩阵中的某些重要部分,也即,计算原始媒体数据中包括设定类型的语音数据或设定类型的文本数据的权重。双向Attention-LSTM模型可以从前向和后向两个方向对节点特征矩阵进行处理,可以有效提高模型的处理性能。
在本发明实施例的一个实施方式中,在获取待分类的原始媒体数据之前,还包括:获取多个标准数据集合,所述标准数据集合中包括多个语音数据以及文本数据;将所述多个标准数据集合划分为训练数据集和测试数据集;使用所述训练数据集和测试数据集对所述Attention-LSTM模型进行迭代训练。
其中,本实施例将第一数量的标准数据集合作为训练数据集,将第二数量的标准数据集合作为测试数据集。典型的,第一数量大于第二数量。
其中,所述训练数据集用于输入至预先构建的Attention-LSTM模型,并根据输出结果调整Attention-LSTM模型的参数,从而完成对Attention-LSTM模型的训练;所述测试数据集用于测试训练后的Attention-LSTM模型的处理结果的准确率,根据所述准确率确定所述训练后的Attention-LSTM模型是否可以作为最终使用的Attention-LSTM模型。
其中,各标准数据集合中语音数据以及文本数据的比例可以不同,例如,第一个标准数据集合中语音数据的比例可以为20%,文本数据的比例可以为80%;第二个标准数据集合中语音数据的比例可以为70%,文本数据的比例可以为30%。由此,通过采取内部数据比例不同的标准数据集合,对Attention-LSTM模型进行训练,可以提高Attention-LSTM模型对实际待分类数据处理结果的准确性,进而提高后续数据分类结果的准确性。
步骤230、根据各节点特征矩阵以及第一目标权重值,计算与原始媒体数据对应的各时刻的媒体特征向量,其中,媒体特征向量中包括第二目标权重值,第二目标权重值用于表示原始媒体数据中包括设定类型的图像数据的权重。
在此步骤中,可选的,可以将各节点特征矩阵以及第一目标权重值直接输入至图像识别模型,得到与原始媒体数据对应的各时刻的媒体特征向量。
步骤240、将各媒体特征向量输入至预先训练的全连接网络中,得到与原始媒体数据对应的目标标签值。
其中,全连接网络可以根据预设的计算方式对各媒体特征向量进行计算,得到与原始媒体数据对应的目标标签值。
在本实施例中,Attention-LSTM模型与所述图像识别模型可以共享一个全连接网络,由此可以避免各模型中多个全连接层对节点特征矩阵以及第一目标权重值的计算,进而可以减少模型对节点特征矩阵的计算量,提高对原始媒体数据的分类效率。
步骤250、根据预存的标签值与数据类型的映射关系,确定与目标标签值对应的目标数据类型。
在本实施例中,在获取待分类的原始媒体数据之前,预先建立了各标签值与数据类型的映射关系。例如,当标签值为1时,对应的数据类型可以为维修文本数据;当标签值为2时,对应的数据类型可以为人员信息文本数据。
由此,通过预先建立标签值与数据类型的映射关系,可以快速确定与目标标签值对应的目标数据类型,进而提高对原始媒体数据的分类效率。
本发明实施例的技术方案通过获取待分类的原始媒体数据,对原始媒体数据进行预处理得到与原始媒体数据对应的各时刻的节点特征矩阵,并将各节点特征矩阵,输入至预先训练的双向Attention-LSTM模型中,得到与原始媒体数据对应的各时刻的第一目标权重值,然后根据各节点特征矩阵以及第一目标权重值计算媒体特征向量,最后将各媒体特征向量输入至全连接网络中,得到目标标签值,并根据预存的标签值与数据类型的映射关系,确定与目标标签值对应的目标数据类型。本发明实施例的技术方案可以减少对数据分类的耗时,提高数据的分类效率,提高数据分类结果的准确性。
实施例三
本实施例是对上述实施例二的进一步细化,与上述实施例相同或相应的术语解释,本实施例不再赘述。图3a为本发明实施例三提供的一种数据分类方法的流程图,在本实施例中,本实施例的技术方案可以与上述实施例的方案中的一种或者多种方法进行组合,在本实施例中,如图3a所示,本发明实施例提供的方法还可以包括:
步骤310、获取待分类的原始媒体数据,对原始媒体数据进行预处理得到与原始媒体数据对应的各时刻的节点特征矩阵。
步骤320、将各节点特征矩阵,输入至预先训练的双向长短期记忆网络中的注意力机制模型Attention-LSTM中,得到与原始媒体数据对应的各时刻的第一目标权重值。
步骤330、将各所述节点特征矩阵以及第一目标权重值,输入至预先训练的图卷积神经网络模型GCN中,得到与所述原始媒体数据对应的各时刻的媒体特征向量。
在本实施例中,所述GCN模型使用各标准的图像数据作为训练样本训练得到,其中,所述标准的图像数据可以包括图像以及图结构数据。具体的,所述图结构数据为以图的形式进行表示的结构数据,例如知识图谱数据。
由此,通过利用标准的图像数据对GCN模型进行训练,可以保证GCN模型对节点特征矩阵处理结果的准确性,进而可以提高后续数据分类结果的准确性。
在本发明实施例的一个实施方式中,在获取待分类的原始媒体数据之前,还包括:获取多个标准的图像数据,将所述多个标准的图像数据划分为训练数据集和测试数据集;使用所述训练数据集和测试数据集对神经网络模型进行迭代训练,得到所述GCN模型。
在此步骤中,可选的,本实施例将第一数量的图像数据作为训练数据集,将第二数量的图像数据作为测试数据集。典型的,第一数量大于第二数量。
其中,所述训练数据集用于输入至预先构建的神经网络模型,并根据输出结果调整神经网络模型的参数,从而完成对神经网络模型的训练;所述测试数据集用于测试训练后的神经网络模型的处理结果的准确率,根据所述准确率确定所述训练后的神经网络模型是否可以作为GCN模型。
其中,所述神经网络模型可以包括数据输入层、隐含层以及输出层,具体用于实现输出层的输出结果与输入层数据的最大拟合,所述隐含层用于更新输入层与输出层之间的权重以及参数,从而保证输出结果的准确性。
步骤340、将各媒体特征向量输入至预先训练的全连接网络中,得到与原始媒体数据对应的目标标签值。
在本实施例中,Attention-LSTM模型与GCN模型可以共享一个全连接网络,由此可以避免各模型中多个全连接层对节点特征矩阵以及第一目标权重值的计算,进而可以减少模型对节点特征矩阵的计算量,提高对原始媒体数据的分类效率。
步骤350、根据预存的标签值与数据类型的映射关系,确定与目标标签值对应的目标数据类型。
本发明实施例的技术方案通过获取待分类的原始媒体数据,对原始媒体数据进行预处理得到与原始媒体数据对应的各时刻的节点特征矩阵,并将各节点特征矩阵,输入至预先训练的双向Attention-LSTM模型中,得到第一目标权重值,然后将各节点特征矩阵以及第一目标权重值,输入至预先训练的GCN模型中,得到各时刻的媒体特征向量,最后将各媒体特征向量输入至预先训练的全连接网络中得到目标标签值,并根据预存的标签值与数据类型的映射关系,确定与目标标签值对应的目标数据类型。本发明实施例的技术方案可以减少对数据分类的耗时,提高数据的分类效率,提高数据分类结果的准确性。
为了更好的对本发明实施例提供的技术方案进行介绍,本发明实施例可以参考下述的实施方式,如图3b所示:
步骤1:获取各时刻的节点特征矩阵;其中,节点特征矩阵根据对待分类的原始媒体数据进行预处理得到。
步骤2:将各时刻的节点特征矩阵,输入至预先训练的前向Attention-LSTM层中。
步骤3:将各时刻下前向Attention-LSTM层的输出结果输入至后向Attention-LSTM层,得到第一目标权重值。
步骤4:将各时刻下得到的第一目标权重值,以及节点特征矩阵输入至GCN模型中,得到各时刻的媒体特征向量。
步骤5、将各时刻的媒体特征向量输入至预先训练的全连接网络中,得到目标标签值,并根据预存的标签值与数据类型的映射关系,确定与目标标签值对应的目标数据类型。
本发明实施例提供的方法可以减少对数据分类的耗时,提高数据的分类效率,提高数据分类结果的准确性。
实施例四
图4为本发明实施例四提供的一种数据分类装置的结构图,该装置包括:节点特征矩阵生成模块410、第一目标权重值计算模块420、媒体特征向量计算模块430和分类模块440。
其中,节点特征矩阵生成模块410,用于获取待分类的原始媒体数据,对所述原始媒体数据进行预处理得到与所述原始媒体数据对应的各时刻的节点特征矩阵;第一目标权重值计算模块420,用于根据各所述节点特征矩阵,计算与所述原始媒体数据对应的各时刻的第一目标权重值;所述第一目标权重值用于表示所述原始媒体数据中包括设定类型的语音数据或设定类型的文本数据的权重;媒体特征向量计算模块430,用于根据各所述节点特征矩阵以及第一目标权重值,计算与所述原始媒体数据对应的各时刻的媒体特征向量,所述媒体特征向量中包括第二目标权重值,所述第二目标权重值用于表示所述原始媒体数据中包括设定类型的图像数据的权重;分类模块440,用于根据所述各时刻的媒体特征向量,对所述原始媒体数据进行分类。
本发明实施例的技术方案通过获取待分类的原始媒体数据,对原始媒体数据进行预处理得到与原始媒体数据对应的各时刻的节点特征矩阵,并根据各节点特征矩阵,计算与原始媒体数据对应的各时刻的第一目标权重值,然后根据各节点特征矩阵以及第一目标权重值,计算与原始媒体数据对应的各时刻的媒体特征向量,最后根据各时刻的媒体特征向量,对原始媒体数据进行分类。本发明实施例的技术方案可以减少对数据分类的耗时,提高数据的分类效率。
在上述各实施例的基础上,第一目标权重值计算模块420,可以包括:
节点特征矩阵输入单元,用于将各所述节点特征矩阵,输入至预先训练的双向长短期记忆网络中的注意力机制模型Attention-LSTM中,得到与所述原始媒体数据对应的各时刻的第一目标权重值;
其中,所述Attention-LSTM模型使用各预设类型的数据对应的节点特征矩阵作为训练样本训练得到;
所述双向Attention-LSTM模型包括输入层、前向Attention-LSTM层、后向Attention-LSTM层以及输出层;
所述输入层用于将所述节点特征矩阵输入至所述前向Attention-LSTM层;
所述前向Attention-LSTM层与后向Attention-LSTM层,用于计算当前节点特征矩阵与前一节点特征矩阵,以及后一节点特征矩阵的依赖关系,根据所述依赖关系,以及所述节点特征矩阵,计算第一目标权重值,并将所述第一目标权重值传输至所述输出层。
媒体特征向量计算模块430,可以包括:
第一目标权重值输入单元,用于将各所述节点特征矩阵以及第一目标权重值,输入至预先训练的图卷积神经网络模型GCN中,得到与所述原始媒体数据对应的各时刻的媒体特征向量;
其中,所述GCN模型使用各标准的图像数据作为训练样本训练得到。
分类模块440,可以包括:
媒体特征向量输入单元,用于将各所述媒体特征向量输入至预先训练的全连接网络中,得到与所述原始媒体数据对应的目标标签值;
类型确定单元,用于根据预存的标签值与数据类型的映射关系,确定与所述目标标签值对应的目标数据类型。
在上述各实施例的基础上,所述数据分类装置,还可以包括:
标准数据集合获取模块,用于获取多个标准数据集合,所述标准数据集合中包括多个语音数据以及文本数据;
标准数据集合划分模块,用于将所述多个标准数据集合划分为训练数据集和测试数据集;
Attention-LSTM模型训练模块,用于使用所述训练数据集和测试数据集对所述Attention-LSTM模型进行迭代训练;
图像数据获取模块,用于获取多个标准的图像数据,将所述多个标准的图像数据划分为训练数据集和测试数据集;
神经网络模型训练模块,用于使用所述训练数据集和测试数据集对神经网络模型进行迭代训练,得到所述GCN模型。
本发明实施例所提供的数据分类装置可执行本发明任意实施例所提供的数据分类方法,具备执行方法相应的功能模块和有益效果。
实施例五
图5为本发明实施例五提供的一种计算机设备的结构示意图,如图5所示,该计算机设备包括处理器510、存储器520、输入装置530和输出装置540;计算机设备中处理器510的数量可以是一个或多个,图5中以一个处理器510为例;计算机设备中的处理器510、存储器520、输入装置530和输出装置540可以通过总线或其他方式连接,图5中以通过总线连接为例。存储器520作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明任意实施例中的一种数据分类方法对应的程序指令/模块(例如,一种数据分类装置中的节点特征矩阵生成模块410、第一目标权重值计算模块420、媒体特征向量计算模块430和分类模块440)。处理器510通过运行存储在存储器520中的软件程序、指令以及模块,从而执行计算机设备的各种功能应用以及数据处理,即实现上述的一种数据分类方法。也即,该程序被处理器执行时实现:
获取待分类的原始媒体数据,对所述原始媒体数据进行预处理得到与所述原始媒体数据对应的各时刻的节点特征矩阵;
根据各所述节点特征矩阵,计算与所述原始媒体数据对应的各时刻的第一目标权重值;所述第一目标权重值用于表示所述原始媒体数据中包括设定类型的语音数据或设定类型的文本数据的权重;
根据各所述节点特征矩阵以及第一目标权重值,计算与所述原始媒体数据对应的各时刻的媒体特征向量,所述媒体特征向量中包括第二目标权重值,所述第二目标权重值用于表示所述原始媒体数据中包括设定类型的图像数据的权重;
根据所述各时刻的媒体特征向量,对所述原始媒体数据进行分类。
存储器520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器520可进一步包括相对于处理器510远程设置的存储器,这些远程存储器可以通过网络连接至计算机设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。输入装置530可用于接收输入的数字或字符信息,以及产生与计算机设备的用户设置以及功能控制有关的键信号输入,可以包括键盘和鼠标等。输出装置540可包括显示屏等显示设备。
实施例六
本发明实施例六还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本发明任意实施例所述方法。当然,本发明实施例所提供的一种计算机可读存储介质,其可以执行本发明任意实施例所提供的一种数据分类方法中的相关操作。也即,该程序被处理器执行时实现:
获取待分类的原始媒体数据,对所述原始媒体数据进行预处理得到与所述原始媒体数据对应的各时刻的节点特征矩阵;
根据各所述节点特征矩阵,计算与所述原始媒体数据对应的各时刻的第一目标权重值;所述第一目标权重值用于表示所述原始媒体数据中包括设定类型的语音数据或设定类型的文本数据的权重;
根据各所述节点特征矩阵以及第一目标权重值,计算与所述原始媒体数据对应的各时刻的媒体特征向量,所述媒体特征向量中包括第二目标权重值,所述第二目标权重值用于表示所述原始媒体数据中包括设定类型的图像数据的权重;
根据所述各时刻的媒体特征向量,对所述原始媒体数据进行分类。
通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(Read-Only Memory,ROM)、随机存取存储器(RandomAccess Memory,RAM)、闪存(FLASH)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。
值得注意的是,上述一种测试异常的定位装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

Claims (7)

1.一种数据分类方法,其特征在于,包括:
获取待分类的原始媒体数据,对所述原始媒体数据进行预处理得到与所述原始媒体数据对应的各时刻的节点特征矩阵;
根据各所述节点特征矩阵,计算与所述原始媒体数据对应的各时刻的第一目标权重值;所述第一目标权重值用于表示所述原始媒体数据中包括设定类型的语音数据或设定类型的文本数据的权重;
根据各所述节点特征矩阵以及第一目标权重值,计算与所述原始媒体数据对应的各时刻的媒体特征向量,所述媒体特征向量中包括第二目标权重值,所述第二目标权重值用于表示所述原始媒体数据中包括设定类型的图像数据的权重;
根据所述各时刻的媒体特征向量,对所述原始媒体数据进行分类。
2.根据权利要求1所述的方法,其特征在于,根据各所述节点特征矩阵,计算与所述原始媒体数据对应的各时刻的第一目标权重值,包括:
将各所述节点特征矩阵,输入至预先训练的双向长短期记忆网络中的注意力机制模型Attention-LSTM中,得到与所述原始媒体数据对应的各时刻的第一目标权重值;
其中,所述Attention-LSTM模型使用各预设类型的数据对应的节点特征矩阵作为训练样本训练得到。
3.根据权利要求1所述的方法,其特征在于,根据各所述节点特征矩阵以及第一目标权重值,计算与所述原始媒体数据对应的各时刻的媒体特征向量,包括:
将各所述节点特征矩阵以及第一目标权重值,输入至预先训练的图卷积神经网络模型GCN中,得到与所述原始媒体数据对应的各时刻的媒体特征向量;
其中,所述GCN模型使用各标准的图像数据作为训练样本训练得到。
4.根据权利要求1所述的方法,其特征在于,根据所述各时刻的媒体特征向量,对所述原始媒体数据进行分类,包括:
将各所述媒体特征向量输入至预先训练的全连接网络中,得到与所述原始媒体数据对应的目标标签值;
根据预存的标签值与数据类型的映射关系,确定与所述目标标签值对应的目标数据类型。
5.根据权利要求2所述的方法,其特征在于,所述双向Attention-LSTM模型包括输入层、前向Attention-LSTM层、后向Attention-LSTM层以及输出层;
所述输入层用于将所述节点特征矩阵输入至所述前向Attention-LSTM层;
所述前向Attention-LSTM层与后向Attention-LSTM层,用于计算当前节点特征矩阵与前一节点特征矩阵,以及后一节点特征矩阵的依赖关系,根据所述依赖关系,以及所述节点特征矩阵,计算第一目标权重值,并将所述第一目标权重值传输至所述输出层。
6.根据权利要求2所述的方法,其特征在于,在获取待分类的原始媒体数据之前,还包括:
获取多个标准数据集合,所述标准数据集合中包括多个语音数据以及文本数据;
将所述多个标准数据集合划分为训练数据集和测试数据集;
使用所述训练数据集和测试数据集对所述Attention-LSTM模型进行迭代训练。
7.根据权利要求3所述的方法,其特征在于,在获取待分类的原始媒体数据之前,还包括:
获取多个标准的图像数据,将所述多个标准的图像数据划分为训练数据集和测试数据集;
使用所述训练数据集和测试数据集对神经网络模型进行迭代训练,得到所述GCN模型。
CN202011326744.4A 2020-11-24 2020-11-24 一种数据分类方法 Active CN112307227B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202011326744.4A CN112307227B (zh) 2020-11-24 2020-11-24 一种数据分类方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011326744.4A CN112307227B (zh) 2020-11-24 2020-11-24 一种数据分类方法

Publications (2)

Publication Number Publication Date
CN112307227A CN112307227A (zh) 2021-02-02
CN112307227B true CN112307227B (zh) 2023-08-29

Family

ID=74335515

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011326744.4A Active CN112307227B (zh) 2020-11-24 2020-11-24 一种数据分类方法

Country Status (1)

Country Link
CN (1) CN112307227B (zh)

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108662A (zh) * 2017-11-24 2018-06-01 深圳市华尊科技股份有限公司 深度神经网络识别模型及识别方法
CN111800569A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 拍照处理方法、装置、存储介质及电子设备

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10657259B2 (en) * 2017-11-01 2020-05-19 International Business Machines Corporation Protecting cognitive systems from gradient based attacks through the use of deceiving gradients

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108108662A (zh) * 2017-11-24 2018-06-01 深圳市华尊科技股份有限公司 深度神经网络识别模型及识别方法
CN111800569A (zh) * 2019-04-09 2020-10-20 Oppo广东移动通信有限公司 拍照处理方法、装置、存储介质及电子设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于深度学习的科普文章评论情感分析;姚彬;杜义华;;科研信息化技术与应用(04);全文 *

Also Published As

Publication number Publication date
CN112307227A (zh) 2021-02-02

Similar Documents

Publication Publication Date Title
CN114912433B (zh) 文本层级多标签分类方法、装置、电子设备以及存储介质
CN109582956A (zh) 应用于句子嵌入的文本表示方法和装置
CN110442721B (zh) 神经网络语言模型、训练方法、装置及存储介质
CN112988851B (zh) 反事实预测模型数据处理方法、装置、设备及存储介质
CN113065974A (zh) 一种基于动态网络表示学习的链路预测方法
CN116664719A (zh) 一种图像重绘模型训练方法、图像重绘方法及装置
CN113761375B (zh) 基于神经网络的消息推荐方法、装置、设备及存储介质
CN117520209B (zh) 代码评审方法、装置、计算机设备和存储介质
CN115062617A (zh) 基于提示学习的任务处理方法、装置、设备及介质
CN112989843B (zh) 意图识别方法、装置、计算设备及存储介质
CN114299304A (zh) 一种图像处理方法及相关设备
CN111783688B (zh) 一种基于卷积神经网络的遥感图像场景分类方法
CN116186295B (zh) 基于注意力的知识图谱链接预测方法、装置、设备及介质
Sonawane et al. ChatBot for college website
CN116302088B (zh) 一种代码克隆检测方法、存储介质及设备
CN116680401A (zh) 文档处理方法、文档处理装置、设备及存储介质
CN112307227B (zh) 一种数据分类方法
CN116910357A (zh) 一种数据处理方法及相关装置
CN116777646A (zh) 基于人工智能的风险识别方法、装置、设备及存储介质
CN113312445B (zh) 数据处理方法、模型构建方法、分类方法及计算设备
CN113010687B (zh) 一种习题标签预测方法、装置、存储介质以及计算机设备
CN115129863A (zh) 意图识别方法、装置、设备、存储介质和计算机程序产品
Zhu et al. Emotion Recognition in Learning Scenes Supported by Smart Classroom and Its Application.
CN114328797B (zh) 内容搜索方法、装置、电子设备、存储介质及程序产品
CN113627556B (zh) 一种图像分类的实现方法、装置、电子设备和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant