CN113723426A - 基于深度多流神经网络的图像分类方法及装置 - Google Patents
基于深度多流神经网络的图像分类方法及装置 Download PDFInfo
- Publication number
- CN113723426A CN113723426A CN202110857669.2A CN202110857669A CN113723426A CN 113723426 A CN113723426 A CN 113723426A CN 202110857669 A CN202110857669 A CN 202110857669A CN 113723426 A CN113723426 A CN 113723426A
- Authority
- CN
- China
- Prior art keywords
- image
- features
- classified
- classification
- branch
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/22—Matching criteria, e.g. proximity measures
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Data Mining & Analysis (AREA)
- Physics & Mathematics (AREA)
- Artificial Intelligence (AREA)
- General Engineering & Computer Science (AREA)
- Life Sciences & Earth Sciences (AREA)
- Evolutionary Computation (AREA)
- General Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Computational Biology (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Biology (AREA)
- Biophysics (AREA)
- Computing Systems (AREA)
- Mathematical Physics (AREA)
- Software Systems (AREA)
- Molecular Biology (AREA)
- General Health & Medical Sciences (AREA)
- Computational Linguistics (AREA)
- Biomedical Technology (AREA)
- Health & Medical Sciences (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Image Analysis (AREA)
Abstract
本发明提供一种基于深度多流神经网络的图像分类方法及装置,方法包括:获取特定领域的待分类图像以及待分类图像对应的文本数据;提取待分类图像的图像特征;提取待分类图像对应的文本数据的语义特征;将图像特征和语义特征,输入至少两个网络分支,获得各网络分支分别对应的分类阈值;基于分类阈值,确定待分类图像的标签。本发明用以解决现有技术中针对特定领域,仅能检测单一标签的图像的缺陷。
Description
技术领域
本发明涉及计算机视觉技术领域,尤其涉及一种基于深度多流神经网络的图像分类方法及装置。
背景技术
图像分类是视觉领域一项重要的任务,目前基于自然图像的图像分类已经取得了巨大的发展。然而,对于特定领域中的非自然图像(例如,花粉颗粒图像、医疗图像)的分类任务在很大程度上依赖于专业的领域知识,这很容易消耗大量人力资源和时间成本。因此,基于特定领域的图像自动分类在解决标注成本方面具有十分重要的意义。
目前主流的特定领域图像分类方法主要分为两类:基于先验知识和基于深度学习的图像分类方法。基于先验知识的方法主要利用图像处理方法和领域专家的专业知识来设定预定义的图像特征,通过这些图像特征来训练专门的分类器。然而,由于图像内容的复杂性,这种依靠领域先验知识的方法很可能丢失一些重要的图像特征。
近年来,深度学习模型能够从高维数据中捕获复杂的隐藏特征方面具有很大的优势,研究人员也将这类方法引入到特定领域图像的自动分类中。虽然这些研究取得了较好的分类效果。但是,现有的基于深度学习机制的研究主要利用特定类型的数据来检测单一标签的图像,这在实际场景中是不实用的。
因此,如何进行特定领域的多标签分类是目前业界亟待解决的重要课题。
发明内容
本发明提供一种基于深度多流神经网络的图像分类方法及装置,用以解决现有技术中针对特定领域,仅能检测单一标签的图像的缺陷,实现特定领域的多标签的图像分类。
本发明提供一种基于深度多流神经网络的图像分类方法,包括:所述深度多流神经网络包括至少两个网络分支,每个所述网络分支对应一种标签,所述方法包括:
获取特定领域的待分类图像以及所述待分类图像对应的文本数据;
提取所述待分类图像的图像特征;
提取所述待分类图像对应的文本数据的语义特征;
基于所述图像特征和所述语义特征,输入所述至少两个网络分支,获得各所述网络分支分别对应的分类阈值;
基于所述分类阈值,确定所述待分类图像的标签。
根据本发明提供的一种基于深度多流神经网络的图像分类方法,所述深度多流神经网络还包括:卷积层,所述卷积层包括:第一支路、第二支路和第三支路;
所述提取所述待分类图像的图像特征,包括:
利用所述第一支路,提取所述待分类图像的全局特征;
利用所述第二支路和所述第三支路,提取所述待分类图像的局部特征;
融合所述全局特征和所述局部特征,得到所述待分类图像的图像特征。
根据本发明提供的一种基于深度多流神经网络的图像分类方法,所述提取所述待分类图像对应的文本数据的语义特征,包括:
将所述文本数据在预先建立的语义知识库中进行匹配,得到能够匹配成功的数据;
确定所述匹配成功的数据在所述文本数据中的上下文信息;
基于所述匹配成功的数据和所述上下文信息,得到所述文本数据的语义特征。
根据本发明提供的一种基于深度多流神经网络的图像分类方法,所述深度多流神经网络还包括:全连接层;
所述将所述图像特征和所述语义特征,输入所述至少两个网络分支,获得各所述网络分支分别对应的分类阈值,包括:
将所述图像特征和所述语义特征,输入所述全连接层,得到所述图像特征和所述语义特征融合后的融合特征;
将所述融合特征输入所述至少两个网络分支,得到所述分类阈值。
根据本发明提供的一种基于深度多流神经网络的图像分类方法,所述基于所述分类阈值,确定所述待分类图像的标签,包括:
将所述分类阈值大于预设阈值时对应的网络分支的标签,作为所述待分类图像的标签。
根据本发明提供的一种基于深度多流神经网络的图像分类方法,所述图像特征为高维图像特征,所述语义特征为离散值;
所述将所述图像特征和所述语义特征,输入所述全连接层,得到所述图像特征和所述语义特征融合后的融合特征,包括:
将所述图像特征和所述语义特征,输入所述全连接层,通过所述全连接层对所述高维图像特征进行降维处理,得到一维图像特征,以及对所述离散值进行编码处理,得到一维语义特征,拼接所述一维图像特征和所述一维语义特征,得到所述融合特征。
根据本发明提供的一种基于深度多流神经网络的图像分类方法,所述利用所述第一支路,提取所述待分类图像的全局特征,包括:
利用所述第一支路,依次对所述待分类图像进行第一卷积操作、第一激活操作和第一池化操作,得到所述全局特征;
所述利用所述第二支路和所述第三支路,提取所述待分类图像的局部特征,包括:
利用所述第二支路,依次对所述待分类图像进行第二卷积操作、第二激活操作和第二池化操作,得到第一局部特征;
利用所述第三支路,依次对所述待分类图像进行第三卷积操作和第三激活操作,得到第二局部特征;
所述融合所述全局特征和所述局部特征,得到所述待分类图像的图像特征,包括:
融合所述全局特征、所述第一局部特征和所述第二局部特征,得到所述待分类图像的图像特征。
本发明还提供一种基于深度多流神经网络的图像分类装置,所述深度多流神经网络包括至少两个网络分支,每个所述网络分支分别对应一种分类标签,所述装置包括:
获取模块,用于获取特定领域的待分类图像以及所述待分类图像对应的文本数据;
第一提取模块,用于提取所述待分类图像的图像特征;
第二提取模块,用于提取所述待分类图像对应的文本数据的语义特征;
获得模块,用于将所述图像特征和所述语义特征,输入所述至少两个网络分支,获得各所述网络分支分别对应的分类阈值;
确定模块,用于基于所述分类阈值,确定所述待分类图像的标签。
本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述基于深度多流神经网络的图像分类方法的步骤。
本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述基于深度多流神经网络的图像分类方法的步骤。
本发明提供的基于深度多流神经网络的图像分类方法及装置,本发明的深度多流神经网络包括至少两个网络分支,每个网络分支对应一种标签,可见,本发明基于深度多流神经网络,能够实现多标签的图像分类,本发明通过获取特定领域的待分类图像以及待分类图像对应的文本数据;提取待分类图像的图像特征;提取待分类图像对应的文本数据的语义特征;将图像特征和语义特征,输入至少两个网络分支,获得各网络分支分别对应的分类阈值;基于分类阈值,确定待分类图像的标签,本发明通过包括至少两个网络分支的深度多流神经网络,获得各个网络分支对应的分类阈值,确定待分类图像的标签,能够实现特定领域的多标签的图像分类,解决了现有技术中,针对特定领域,仅能检测单一标签的图像的缺陷,另外,本发明基于图像特征和语义特征,能够得到多层次、细粒度的数据特征,使得待分类图像的标签更精确。
附图说明
为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明提供的图像分类方法的流程示意图之一;
图2是本发明提供的图像分类方法的流程示意图之二;
图3是本发明提供的CNN网络结构示意图;
图4A是本发明提供的图像分类方法的流程示意图之三;
图4B是本发明提供的图像分类方法的流程示意图之四;
图5是本发明提供的图像分类方法的流程示意图之五;
图6是本发明提供的多流神经网络结构示意图;
图7是本发明提供的图像分类装置的结构示意图;
图8是本发明提供的电子设备的结构示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合图1-图6描述本发明的基于深度多流神经网络的图像分类方法。
本发明实施例提供了一种基于深度多流神经网络的图像分类方法,该方法可以应用在智能终端,例如,手机、电脑、平板等,也可以应用在服务器中。下面,以该方法应用在服务器为例进行说明,但需要说明的是仅为举例说明,并不用于对本发明的保护范围进行限定。本发明实施例中的一些其他说明,也是举例说明,并不用于对本发明的保护范围进行限定,之后便不再一一说明。
其中,深度多流神经网络包括至少两个网络分支,每个网络分支对应一种标签,该方法的具体实现如图1所示:
步骤101,获取特定领域的待分类图像以及待分类图像对应的文本数据。
具体的,特定领域的待分类图像为非自然图像,例如,花粉颗粒图像、医疗图像等。
具体的,待分类图像与文本数据具有一定的相关性,其中,文本数据至少能够描述待分类图像的一个特征。
步骤102,提取待分类图像的图像特征。
一个具体实施例中,深度多流神经网络还包括:卷积层,卷积层包括:第一支路、第二支路和第三支路。图像特征的获取方式具体如图2所示:
步骤201,利用第一支路,提取待分类图像的全局特征。
一个具体实施例中,利用第一支路,依次对待分类图像进行第一卷积操作、第一激活操作和第一池化操作,得到全局特征。
步骤202,利用第二支路和第三支路,提取待分类图像的局部特征。
一个具体实施例中,利用第二支路,依次对待分类图像进行第二卷积操作、第二激活操作和第二池化操作,得到第一局部特征;利用第三支路,依次对待分类图像进行第三卷积操作和第三激活操作,得到第二局部特征。
步骤203,融合全局特征和局部特征,得到待分类图像的图像特征。
一个具体实施例中,融合全局特征、第一局部特征和第二局部特征,得到待分类图像的图像特征。
具体的,深度卷积神经网络具有从图像中捕获复杂隐藏特征的优势。可以将图像输入深度卷积神经网络,以端到端的方式学习图像特征。因此,本发明采用扩展卷积神经网络(Convolutional Neural Networks,简称CNN)的结构来提取待分类图像的图像特征。
本发明的CNN网络结构如图3所示:总共分为九层,分别为7个卷积层和2个全连接层,池化层不包括在内,其中最后一层是输出层。其中,7个卷积层包括:conv1-1、conv1-2、conv1-3,conv2-1、conv2-2、conv2-3,conv3-1、conv3-2、conv3-3,conv4-1、conv4-2、conv4-3,conv5-1、conv5-2、conv5-3,conv6-1、conv6-2、conv6-3,conv7-1、conv7-2、conv7-3,2个全连接层包括:fc1和fc2。
为了判别标签的是或否,我们将输出单元数量的设置为2。上述的7个卷积层主要分为两种类型,分别是:支路带有池化层的卷积层和支路不带有池化层的卷积层,如图4A和4B所示。每个卷积层包含三条支路,第一条支路是用来进行全局特征的提取,第二、三条支路是用来提取局部特征。支路的汇集即为全局特征和局部特征的融合。
其中,Conv1-1、Conv1-2和Conv1-3分别表示第一个卷积层的三条支路;具有相同名称的池化层表示它们具有相同的池化参数。通过本发明的CNN网络,能够提取多尺寸、多视角的图像特征。
步骤103,提取待分类图像对应的文本数据的语义特征。
具体的,步骤102和步骤103并没有严格的执行顺序,该实施例将图像特征的提取放到了步骤101的后面,当然,也可以将语义特征的提取放到步骤101的后面。
一个具体实施例中,语义特征的获取方式具体如图5所示:
步骤501,将文本数据在预先建立的语义知识库中进行匹配,得到能够匹配成功的数据。
具体的,语义特征来源于与图像相关的文本数据,例如花粉颗粒图像中的对象种类、纹理和颜色信息,医疗图像的诊断报告等。
具体的,需预先建立语义知识库,该语义知识库中预先存储有关键词、与关键词对应的特征向量等。另外,由于不同的文本数据在描述图像时有不同的语言风格,因此,在建立语义知识库时,充分考虑了同义词的问题。
具体的,采用前向最大匹配方法进行匹配。其中,匹配原则为:优先匹配语义知识库中较长的词语。
步骤502,确定匹配成功的数据在文本数据中的上下文信息。
具体的,仅凭一个词可能无法判断待分类图像的具体细,因此,需要根据关键词的上下文信息,为关键词标记正性或负性的标签。例如,花粉颗粒数据的上下文中出现诸如“无异常”之类的描述,通常意味着没有观察到异常花粉颗粒。这时,我们将关键词标记为正性,否则,它将为负性。
步骤503,基于匹配成功的数据和上下文信息,得到文本数据的语义特征。
具体的,基于匹配成功的关键词和关键词的标签,得到文本数据的语义特征。
步骤104,将图像特征和语义特征,输入至少两个网络分支,获得各网络分支分别对应的分类阈值。
一个具体实施例中,深度多流神经网络还包括:全连接层。通过将图像特征和语义特征输入全连接层,通过全连接层对图像特征和语义特征进行融合,得到图像特征和语义特征融合后的融合特征,将融合特征输入至少两个网络分支,得到每个网络分支分别对应的分类阈值。
一个具体实施例中,图像特征为高维图像特征,语义特征为离散值,在此基础上,融合特征的获取方式,具体实现为:
将图像特征和语义特征,输入全连接层,通过全连接层对高维图像特征进行降维处理,得到一维图像特征,以及对离散值进行编码处理,得到一维语义特征,拼接一维图像特征和一维语义特征,得到融合特征。
具体的,降维处理为:将高维图像特征展平为长度为9216的一维向量。
步骤105,基于分类阈值,确定待分类图像的标签。
一个具体实施例中,得到全连接层输出的分类阈值后,确定分类阈值大于预设阈值时对应的网络分支的标签,将确定的标签作为待分类图像的标签。
具体的,本发明需要预先构建深度多流神经网络,下面以深度多流神经网络包括三个网络分支为例进行说明:
其中,三个网络分支分别为:第一网络分支、第二网络分支和第三网络分支,第一网络分支对应第一标签、第二网络分支对应第二标签和第三网络分支对应第三标签。每个分支网络代表着每个特定分类任务的特征学习过程。
其中,深度多流神经网络的一个关键操作是通过并行CNN更新损失函数来完成多分类结果的逻辑计算。
Softmax损失函数常用于多任务分类,是Softmax函数和交叉熵损失函数的结合,计算见公式(1):
其中,i指的分支网络的编号;xi指的是输入向量;yi指的是第i个编号对应的实际值。当yi等于1时,代入Softmax函数后见公式(2):
对于这个损失函数,编码格式是One-Hot码,即每个目标向量中只允许一位为1,其余位必须为0。但是,实验中的样本有多个标签,我们需要使用多重编码。多重编码中目标向量的每一位代表一种属性。当样本包含多个属性时,向量中对应属性的位标记为1,否则为0。为了适应多种编码模式,我们提出的网络利用Sigmoid交叉熵损失函数作为优化损失函数,见公式(3):
其中,i指的分支网络的编号;xi指的是输入向量;yi指的是第i个编号对应的实际值。
其中f(·)表示Sigmoid函数,见公式(4):
其中,i指的分支网络的编号;xi指的是输入向量。然后我们将Sigmoid函数代入公式(3),可以得到L(x),见公式(5):
其中,i指的分支网络的编号;xi指的是输入向量;yi指的是第i个编号对应的实际值。
Sigmoid交叉熵损失函数可以计算每个目标的二元交叉熵损失,使得每个标签的概率值接近其实际值0或1。最后,我们将每个标签的阈值设置为0.5。如果超过0.5,则选择当前标签作为分类结果。
具体的,通过图6对基于多流神经网络结构进行说明:
多流神经网络结构包括:图像特征提取器601、语义特征提取器602、多任务学习模块603和标签输出模块604。
具体的,将待分类图像输入到图像特征提取器601,得到图像特征,将文本数据输入到语义特征提取器602,得到语义特征;将图像特征和语义特征输入到多任务学习模块603,得到分类结果,通过标签输出模块604输出标签。
本发明提供的基于深度多流神经网络的图像分类方法及装置,本发明的深度多流神经网络包括至少两个网络分支,每个网络分支对应一种标签,可见,本发明基于深度多流神经网络,能够实现多标签的图像分类,本发明通过获取特定领域的待分类图像以及待分类图像对应的文本数据;提取待分类图像的图像特征;提取待分类图像对应的文本数据的语义特征;将图像特征和语义特征,输入至少两个网络分支,获得各网络分支分别对应的分类阈值;基于分类阈值,确定待分类图像的标签,本发明通过获得各个网络分支对应的分类阈值,确定待分类图像的标签,能够实现特定领域的多标签的图像分类,解决了现有技术中,针对特定领域,仅能检测单一标签的图像的缺陷,另外,本发明基于图像特征和语义特征,能够得到多层次、细粒度的数据特征,使得待分类图像的标签更精确。
下面对本发明提供的基于深度多流神经网络的图像分类装置进行描述,下文描述的基于深度多流神经网络的图像分类装置与上文描述的基于深度多流神经网络的图像分类方法可相互对应参照,具体如图7所示:
获取模块701,用于获取特定领域的待分类图像以及待分类图像对应的文本数据;
第一提取模块702,用于提取待分类图像的图像特征;
第二提取模块703,用于提取待分类图像对应的文本数据的语义特征;
获得模块704,用于将图像特征和语义特征,输入至少两个网络分支,获得各网络分支分别对应的分类阈值;
确定模块705,用于基于分类阈值,确定待分类图像的标签。
一个具体实施例中,深度多流神经网络还包括:卷积层,卷积层包括:第一支路、第二支路和第三支路;第一提取模块702包括第一提取子模块,第二提取子模块和融合模块,第一提取子模块,用于利用第一支路,提取待分类图像的全局特征;第二提取子模块,用于利用第二支路和第三支路,提取待分类图像的局部特征;融合模块,用于融合全局特征和局部特征,得到待分类图像的图像特征。
一个具体实施例中,第二提取模块703,具体用于将文本数据在预先建立的语义知识库中进行匹配,得到能够匹配成功的数据;确定匹配成功的数据在文本数据中的上下文信息;基于匹配成功的数据和上下文信息,得到文本数据的语义特征。
一个具体实施例中,深度多流神经网络还包括:全连接层;获得模块704,具体用于融合图像特征和语义特征,得到融合特征;将融合特征输入全连接层,得到全连接层输出的分类阈值。
一个具体实施例中,确定模块705,具体用于将分类阈值大于预设阈值时对应的网络分支的标签,作为待分类图像的标签。
一个具体实施例中,获得模块704包括:降维处理模块、编码模块和拼接模块。降维处理模块,用于对高维图像特征进行降维处理,得到一维图像特征;编码模块,用于对离散值进行编码处理,得到一维语义特征;拼接模块,用于拼接一维图像特征和一维语义特征,得到融合特征。
一个具体实施例中,第一提取子模块,具体用于利用第一支路,依次对待分类图像进行第一卷积操作、第一激活操作和第一池化操作,得到全局特征;第二提取子模块,具体用于利用第二支路,依次对待分类图像进行第二卷积操作、第二激活操作和第二池化操作,得到第一局部特征;利用第三支路,依次对待分类图像进行第三卷积操作和第三激活操作,得到第二局部特征;融合模块,具体用于融合全局特征、第一局部特征和第二局部特征,得到待分类图像的图像特征。
图8示例了一种电子设备的实体结构示意图,如图8所示,该电子设备可以包括:处理器(processor)801、通信接口(Communications Interface)802、存储器(memory)803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信。处理器801可以调用存储器803中的逻辑指令,以执行基于深度多流神经网络的图像分类方法,该方法包括:获取特定领域的待分类图像以及待分类图像对应的文本数据;提取待分类图像的图像特征;提取待分类图像对应的文本数据的语义特征;将图像特征和语义特征,输入至少两个网络分支,获得各网络分支分别对应的分类阈值;基于分类阈值,确定待分类图像的标签。
此外,上述的存储器803中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的基于深度多流神经网络的图像分类方法,该方法包括:获取特定领域的待分类图像以及待分类图像对应的文本数据;提取待分类图像的图像特征;提取待分类图像对应的文本数据的语义特征;将图像特征和语义特征,输入至少两个网络分支,获得各网络分支分别对应的分类阈值;基于分类阈值,确定待分类图像的标签。
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的基于深度多流神经网络的图像分类方法,该方法包括:获取特定领域的待分类图像以及待分类图像对应的文本数据;提取待分类图像的图像特征;提取待分类图像对应的文本数据的语义特征;将图像特征和语义特征,输入至少两个网络分支,获得各网络分支分别对应的分类阈值;基于分类阈值,确定待分类图像的标签。
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
Claims (10)
1.一种基于深度多流神经网络的图像分类方法,其特征在于,所述深度多流神经网络包括至少两个网络分支,每个所述网络分支对应一种标签,所述方法包括:
获取特定领域的待分类图像以及所述待分类图像对应的文本数据;
提取所述待分类图像的图像特征;
提取所述待分类图像对应的文本数据的语义特征;
将所述图像特征和所述语义特征,输入所述至少两个网络分支,获得各所述网络分支分别对应的分类阈值;
基于所述分类阈值,确定所述待分类图像的标签。
2.根据权利要求1所述的基于深度多流神经网络的图像分类方法,其特征在于,所述深度多流神经网络还包括:卷积层,所述卷积层包括:第一支路、第二支路和第三支路;
所述提取所述待分类图像的图像特征,包括:
利用所述第一支路,提取所述待分类图像的全局特征;
利用所述第二支路和所述第三支路,提取所述待分类图像的局部特征;
融合所述全局特征和所述局部特征,得到所述待分类图像的图像特征。
3.根据权利要求2所述的基于深度多流神经网络的图像分类方法,其特征在于,所述提取所述待分类图像对应的文本数据的语义特征,包括:
将所述文本数据在预先建立的语义知识库中进行匹配,得到能够匹配成功的数据;
确定所述匹配成功的数据在所述文本数据中的上下文信息;
基于所述匹配成功的数据和所述上下文信息,得到所述文本数据的语义特征。
4.根据权利要求3所述的基于深度多流神经网络的图像分类方法,其特征在于,所述深度多流神经网络还包括:全连接层;
所述将所述图像特征和所述语义特征,输入所述至少两个网络分支,获得各所述网络分支分别对应的分类阈值,包括:
将所述图像特征和所述语义特征,输入所述全连接层,得到所述图像特征和所述语义特征融合后的融合特征;
将所述融合特征输入所述至少两个网络分支,得到所述分类阈值。
5.根据权利要求1-4任一项所述的基于深度多流神经网络的图像分类方法,其特征在于,所述基于所述分类阈值,确定所述待分类图像的标签,包括:
将所述分类阈值大于预设阈值时对应的网络分支的标签,作为所述待分类图像的标签。
6.根据权利要求4所述的基于深度多流神经网络的图像分类方法,其特征在于,所述图像特征为高维图像特征,所述语义特征为离散值;
所述将所述图像特征和所述语义特征,输入所述全连接层,得到所述图像特征和所述语义特征融合后的融合特征,包括:
将所述图像特征和所述语义特征,输入所述全连接层,通过所述全连接层对所述高维图像特征进行降维处理,得到一维图像特征,以及对所述离散值进行编码处理,得到一维语义特征,拼接所述一维图像特征和所述一维语义特征,得到所述融合特征。
7.根据权利要求2所述的基于深度多流神经网络的图像分类方法,其特征在于,所述利用所述第一支路,提取所述待分类图像的全局特征,包括:
利用所述第一支路,依次对所述待分类图像进行第一卷积操作、第一激活操作和第一池化操作,得到所述全局特征;
所述利用所述第二支路和所述第三支路,提取所述待分类图像的局部特征,包括:
利用所述第二支路,依次对所述待分类图像进行第二卷积操作、第二激活操作和第二池化操作,得到第一局部特征;
利用所述第三支路,依次对所述待分类图像进行第三卷积操作和第三激活操作,得到第二局部特征;
所述融合所述全局特征和所述局部特征,得到所述待分类图像的图像特征,包括:
融合所述全局特征、所述第一局部特征和所述第二局部特征,得到所述待分类图像的图像特征。
8.一种基于深度多流神经网络的图像分类装置,其特征在于,所述深度多流神经网络包括至少两个网络分支,每个所述网络分支分别对应一种分类标签,所述装置包括:
获取模块,用于获取特定领域的待分类图像以及所述待分类图像对应的文本数据;
第一提取模块,用于提取所述待分类图像的图像特征;
第二提取模块,用于提取所述待分类图像对应的文本数据的语义特征;
获得模块,用于将所述图像特征和所述语义特征,输入所述至少两个网络分支,获得各所述网络分支分别对应的分类阈值;
确定模块,用于基于所述分类阈值,确定所述待分类图像的标签。
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述基于深度多流神经网络的图像分类方法的步骤。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于深度多流神经网络的图像分类方法的步骤。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110857669.2A CN113723426A (zh) | 2021-07-28 | 2021-07-28 | 基于深度多流神经网络的图像分类方法及装置 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN202110857669.2A CN113723426A (zh) | 2021-07-28 | 2021-07-28 | 基于深度多流神经网络的图像分类方法及装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN113723426A true CN113723426A (zh) | 2021-11-30 |
Family
ID=78674148
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202110857669.2A Pending CN113723426A (zh) | 2021-07-28 | 2021-07-28 | 基于深度多流神经网络的图像分类方法及装置 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN113723426A (zh) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114648664A (zh) * | 2022-03-23 | 2022-06-21 | 北京工业大学 | 一种基于多视角信息融合的图像分类方法 |
CN115187996A (zh) * | 2022-09-09 | 2022-10-14 | 中电科新型智慧城市研究院有限公司 | 语义识别方法、装置、终端设备和存储介质 |
CN116434028A (zh) * | 2023-06-15 | 2023-07-14 | 上海蜜度信息技术有限公司 | 图像处理方法、系统、模型训练方法、介质及设备 |
-
2021
- 2021-07-28 CN CN202110857669.2A patent/CN113723426A/zh active Pending
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114648664A (zh) * | 2022-03-23 | 2022-06-21 | 北京工业大学 | 一种基于多视角信息融合的图像分类方法 |
CN115187996A (zh) * | 2022-09-09 | 2022-10-14 | 中电科新型智慧城市研究院有限公司 | 语义识别方法、装置、终端设备和存储介质 |
CN115187996B (zh) * | 2022-09-09 | 2023-01-06 | 中电科新型智慧城市研究院有限公司 | 语义识别方法、装置、终端设备和存储介质 |
CN116434028A (zh) * | 2023-06-15 | 2023-07-14 | 上海蜜度信息技术有限公司 | 图像处理方法、系统、模型训练方法、介质及设备 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN110866140B (zh) | 图像特征提取模型训练方法、图像搜索方法及计算机设备 | |
CN112199375B (zh) | 跨模态的数据处理方法、装置、存储介质以及电子装置 | |
CN110222140B (zh) | 一种基于对抗学习和非对称哈希的跨模态检索方法 | |
CN108959431B (zh) | 标签自动生成方法、系统、计算机可读存储介质及设备 | |
CN112085012B (zh) | 项目名称和类别识别方法及装置 | |
CN113723426A (zh) | 基于深度多流神经网络的图像分类方法及装置 | |
WO2023134084A1 (zh) | 多标签识别方法、装置、电子设备及存储介质 | |
Singh et al. | Dock: Detecting objects by transferring common-sense knowledge | |
CN112580328A (zh) | 事件信息的抽取方法及装置、存储介质、电子设备 | |
CN109710842B (zh) | 业务信息的推送方法、装置及可读存储介质 | |
CN114358188A (zh) | 特征提取模型处理、样本检索方法、装置和计算机设备 | |
CN111046949A (zh) | 一种图像分类方法、装置及设备 | |
CN115223020A (zh) | 图像处理方法、装置、电子设备以及可读存储介质 | |
CN114332893A (zh) | 表格结构识别方法、装置、计算机设备和存储介质 | |
CN115588193A (zh) | 基于图注意力神经网络与视觉关系的视觉问答方法及装置 | |
CN112445862B (zh) | 物联网设备数据集构建方法、装置、电子设备和存储介质 | |
CN116775880A (zh) | 一种基于标签语义和迁移学习的多标签文本分类方法及系统 | |
CN113568969B (zh) | 信息抽取方法、装置、设备以及计算机可读存储介质 | |
CN113627464B (zh) | 图像处理方法、装置、设备和存储介质 | |
CN113159071B (zh) | 一种跨模态图像-文本关联异常检测方法 | |
CN115168609A (zh) | 一种文本匹配方法、装置、计算机设备和存储介质 | |
CN114741549A (zh) | 基于lire的图像查重方法、装置、计算机设备和存储介质 | |
CN115017356A (zh) | 图像文本对的判断方法和装置 | |
CN114003708A (zh) | 基于人工智能的自动问答方法、装置、存储介质及服务器 | |
CN114298052A (zh) | 一种基于概率图的实体联合标注关系抽取方法和系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |