CN114332524A - 图像处理装置、方法、设备以及计算机可读存储介质 - Google Patents

图像处理装置、方法、设备以及计算机可读存储介质 Download PDF

Info

Publication number
CN114332524A
CN114332524A CN202011075037.2A CN202011075037A CN114332524A CN 114332524 A CN114332524 A CN 114332524A CN 202011075037 A CN202011075037 A CN 202011075037A CN 114332524 A CN114332524 A CN 114332524A
Authority
CN
China
Prior art keywords
feature
processing
processing result
result
dimension
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202011075037.2A
Other languages
English (en)
Inventor
刘巍
梁潇
中村一成
郭垿宏
李安新
陈岚
福岛悠介
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NTT Docomo Inc
Original Assignee
NTT Docomo Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NTT Docomo Inc filed Critical NTT Docomo Inc
Priority to CN202011075037.2A priority Critical patent/CN114332524A/zh
Priority to JP2021163243A priority patent/JP2022063236A/ja
Publication of CN114332524A publication Critical patent/CN114332524A/zh
Pending legal-status Critical Current

Links

Images

Landscapes

  • Image Analysis (AREA)

Abstract

本公开涉及图像处理领域,并且具体涉及一种图像处理装置、方法、设备以及计算机可读存储介质。该装置包括:预处理模块,用于获取第一特征和第二特征;特征处理模块,包括至少两个特征处理子模块,所述至少两个特征处理子模块分别处理所述第一特征和所述第二特征,以获得第一处理结果和第二处理结果;以及特征融合模块,用于融合所述第一处理结果和所述第二处理结果,以获得判定结果,其中,所述特征融合模块在与所述特征处理模块不同的维度上融合所述第一处理结果和所述第二处理结果。本公开的装置在不同的维度上处理并融合不同的特征,从而可以从多个维度有效促进异构特征的融合,使得神经网络模型的判定结果更加准确。

Description

图像处理装置、方法、设备以及计算机可读存储介质
技术领域
本申请涉及图像处理领域,并且具体涉及一种图像处理装置、方法、设备以及计算机可读存储介质。
背景技术
深度神经网络是一种大规模、多参数优化的工具。依靠大量的训练数据,深度神经网络能够学习出数据中难以总结的隐藏特征,从而完成多项复杂的任务,如人脸检测、图像语义分割、文本摘要提取、物体检测、动作追踪、自然语言翻译等。
随着科技的发展,信息化智能化已经广泛应用于人们日常生活中。例如,在线上教育、自动驾驶等领域,注意力集中非常重要,通过深度神经网络实时监控注意力变成可能。
发明内容
鉴于上述问题,本公开提供了一种图像处理装置、方法、设备以及计算机可读存储介质。
根据本公开的一个方面,提供了一种基于神经网络的图像处理装置,所述装置包括:预处理模块,用于获取第一特征和第二特征;特征处理模块,包括至少两个特征处理子模块,所述至少两个特征处理子模块分别处理所述第一特征和所述第二特征,以获得第一处理结果和第二处理结果;以及特征融合模块,用于融合所述第一处理结果和所述第二处理结果,以获得判定结果,其中,所述特征融合模块在与所述特征处理模块不同的维度上融合所述第一处理结果和所述第二处理结果。
根据本公开的一个示例,所述至少两个特征处理子模块在时间维度上处理所述第一特征和所述第二特征,以获得所述第一处理结果和所述第二处理结果;以及所述特征融合模块在特征维度上融合所述第一处理结果和所述第二处理结果,以获得所述判定结果。
根据本公开的一个示例,所述特征融合模块在特征维度上分别处理所述第一处理结果和所述第二处理结果以获得所述第三处理结果和所述第四处理结果;以及所述特征融合模块拼接所述第三处理结果和所述第四处理结果,以获得所述判定结果。
根据本公开的一个示例,所述第三处理结果包括所述第一处理结果的线性变换结果和非线性变换结果,所述第四处理结果包括所述第二处理结果的线性变换结果和非线性变换结果。
根据本公开的一个示例,所述至少两个特征处理子模块基于自注意力机制处理所述第一特征和所述第二特征。
根据本公开的一个示例,所述至少两个特征处理子模块基于变换器Transformer模型处理所述第一特征和所述第二特征。
根据本公开的一个示例,所述预处理模块在时间维度和空间维度上获取所述第一特征和所述第一特征异构的所述第二特征。
根据本公开的一个示例,所述第一特征和所述第二特征是与所述注意力波动有关的特征。
根据本公开的一个方面,提供了一种基于神经网络的图像处理方法,所述方法包括:获取第一特征和第二特征;分别处理所述第一特征和所述第二特征,以获得第一处理结果和第二处理结果;融合所述第一处理结果和所述第二处理结果,以获得判定结果,其中,所述方法在与处理所述第一特征和所述第二特征不同的维度上融合所述第一处理结果和所述第二处理结果。
根据本公开的一个示例,所述分别处理所述第一特征和所述第二特征,以获得第一处理结果和第二处理结果包括:在时间维度上分别处理所述第一特征和所述第二特征,以获得所述第一处理结果和所述第二处理结果;以及所述融合所述第一处理结果和所述第二处理结果,以获得判定结果包括:在特征维度上融合所述第一处理结果和所述第二处理结果,以获得所述判定结果。
根据本公开的一个示例,所述在特征维度上融合所述第一处理结果和所述第二处理结果,以获得所述判定结果包括:在特征维度上分别处理所述第一处理结果和所述第二处理结果以获得所述第三处理结果和所述第四处理结果;以及拼接所述第三处理结果和所述第四处理结果,以获得所述判定结果。
根据本公开的一个示例,所述第三处理结果包括所述第一处理结果的线性变换结果和非线性变换结果,所述第四处理结果包括所述第二处理结果的线性变换结果和非线性变换结果。
根据本公开的一个示例,所述获取第一处理结果和第二处理结果包括:基于自注意力机制处理所述第一特征和所述第二特征以获取第一处理结果和第二处理结果。
根据本公开的一个示例,所述获取第一处理结果和第二处理结果包括:基于变换器Transformer模型处理所述第一特征和所述第二特征以获取第一处理结果和第二处理结果。
根据本公开的一个示例,所述获取第一特征和第二特征包括:在时间维度和空间维度上获取所述第一特征和所述第一特征异构的所述第二特征。
根据本公开的一个示例,所述第一特征和所述第二特征是与所述注意力波动有关的特征。
根据本公开的一个方面,提供了一种基于神经网络的图像处理设备,所述设备包括:处理器;以及存储器,其中存储计算机可读程序指令,其中,在所述计算机可读程序指令被所述处理器运行时执行基于神经网络的图像处理方法,所述方法包括:获取第一特征和第二特征;分别处理所述第一特征和所述第二特征,以获得第一处理结果和第二处理结果;融合所述第一处理结果和所述第二处理结果,以获得判定结果,其中,所述方法在与处理所述第一特征和所述第二特征不同的维度上融合所述第一处理结果和所述第二处理结果。
根据本公开的一个方面,提供了一种用于存储计算机可读程序的计算机可读存储介质,所述程序使得计算机执行如上述任一项所述的基于神经网络的图像处理方法。
在本公开的上述方面中,通过构建神经网络模型,在不同的维度上处理并融合不同的特征,从而可以从多个维度有效促进异构特征的融合,使得基于神经网络模型的判定结果更加准确。
附图说明
通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
图1示出了根据本公开实施例的图像处理装置的功能框图;
图2示出了根据本公开实施例的图像处理装置的示意图;
图3示出了根据本公开实施例的图像处理装置在时间维度和空间维度上的实现的示意图;
图4示出了根据本公开实施例的特征融合模块的操作示意图;
图5示出了根据本公开实施例的图像处理装置的操作流程的示意图;
图6示出了根据本公开实施例的图像处理方法的流程图;
图7示出了根据本公开实施例的获得判定结果的方法的流程图;
图8示出了根据本公开实施例的图像处理设备的功能框图;
图9示出了根据本公开实施例的计算机可读存储介质的示意图;
图10示出了本公开实施例所涉及的电子设备的硬件结构的一例的图。
具体实施方式
下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在无需创造性劳动的前提下所获取的所有其他实施例,都属于本公开保护的范围。
本申请中使用了流程图用来说明根据本申请的实施例的方法的步骤。应当理解的是,前面或后面的步骤不一定按照顺序来精确的进行。相反,可以按照倒序或同时处理各种步骤。同时,也可以将其他操作添加到这些过程中,或从这些过程移除某一步或数步。
首先,参照图1来描述用于实现本公开实施例的图像处理装置。本公开的图像处理装置可以用于判定在线教育或自动驾驶等领域的注意力检测。此外,本公开的图像处理装置不限于单人在线教育或自动驾驶等领域的注意力检测,本公开的图像处理装置还可以应用于多人在线教育或自动驾驶等领域的注意力检测。应当认识到,本公开的图像处理装置不限于该领域,本公开的图像处理装置可以适用于任何合适的领域。
以下以将本公开的图像处理装置用于在线教育的注意力检测为例、结合附图对本公开的实施例及其示例进行详细说明。
本公开的至少一个实施例提供了一种图像处理装置、方法、设备和计算机可读存储介质。下面通过几个示例和实施例对根据本公开的至少一个实施例提供的图像处理进行非限制性说明,如下面所描述的,在不相互抵触的情况下,这些具体示例和实施例中不同特征可以相互组合,从而得到新的示例和实施例,这些新的示例和实施例也都属于本公开保护的范围。
下面参照图1-5描述根据本公开实施例的图像处理装置。
如图1所示,根据本公开实施例的图像处理装置1000包括预处理模块1010、特征处理模块1020和特征融合模块1030。本领域的技术人员理解:这些单元模块可以单独由硬件、单独由软件或者由其组合以各种方式实现,并且本公开不限于它们的任何一个。例如,可以通过中央处理单元(CPU)、文本处理器(GPU)、张量处理器(TPU)、现场可编程逻辑门阵列(FPGA)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元以及相应计算机指令来实现这些单元。
图2所示为根据本公开实施例的图像处理装置的示意图。
例如,如图2所示,预处理模块1010可以用于获取第一特征30和第二特征20。
例如,在在线教育领域,所述第一特征30和所述第二特征20是与所述注意力波动有关的特征。例如,第一特征可以是人脸特征,第二特征可以是身体姿势特征。应当认识到,本公开的预处理模块1010不限于仅获取上述两种特征,本公开的预处理模块1010还可以获取视频声音特征、字幕特征、背景特征等多种与注意力波动有关的特征,这里不做限制。
例如,所述预处理模块1010可以在时间维度和空间维度上获取所述第一特征和所述第一特征异构的所述第二特征。
例如,在时间维度上,可以在不同时间提取不同的视频或图像帧(例如,每个30秒或者每个3帧)中的人脸特征和身体姿势特征;在空间维度上,可以在图像或视频的不同空间提取人脸特征和身体姿势特征。接下来,预处理模块1010可以根据注意力判定的需要抽取、变换、计算提取的人脸特征和身体姿势特征。
作为一个示例,人脸特征可以包括与注意力相关的双眼视线角度的平均值、方差和斜度等、以及头部朝向的平均值、方差和斜度等。作为另一个示例,身体姿势特征可以包括与注意力相关的双肩的位置坐标方差、双手肘部的位置坐标方差等。作为又一个示例,人脸有大小之分,但是人脸的大小与注意力判定无关,所以可以不用提取人脸大小的特征作为该图像处理装置1000的特征。应当认识到,与提取所有的人脸特征和身体姿势特征相比,直接提取与注意力相关的特征进行处理,可以降低注意力判定的处理复杂度,并且使得处理结果更加准确。
应当认识到,上述人脸特征和身体姿势特征仅仅是示例,可以提取其他与注意力相关的特征,这里不做限制。
如上所述,假设预处理模块1010获取了37种第一特征和50种第二特征。接下来,如图2所示,特征处理模块1020可以包括至少两个特征处理子模块11和12,所述至少两个特征处理子模块11和12分别处理所述第一特征30和所述第二特征20,以获得第一处理结果13和第二处理结果14。
例如,该图像处理装置1000可以是基于神经网络的图像处理装置。例如,该神经网络模型可以包括各种神经网络模型,例如但不限于:卷积神经网络(CNN)(包括GoogLeNet、AlexNet、VGG网络等)、具有卷积神经网络的区域(R-CNN)、区域提议网络(RPN)、循环神经网络(RNN)、基于堆栈的深度神经网络(S-DNN)、深度信念网络(DBN)、受限玻尔兹曼机(RBM)、完全卷积网络、长短期记忆(LSTM)网络和分类网络。
例如,该神经网络模型可以包括子神经网络/神经网络分支,并且该子神经网络可以包括异构神经网络,并且可以用异构神经网络模型来实现。例如,该至少两个图像处理子模块可以对应于神经网络的至少两个异构的神经分支/子网络。
例如,所述至少两个特征处理子模块可以基于自注意力机制处理所述第一特征和所述第二特征。例如,所述至少两个特征处理子模块可以基于变换器Transformer模型处理所述第一特征和所述第二特征。例如,可以将第一特征和第二特征经过预定次数的Transformer模型和激活函数(诸如sigmoid函数、softmax函数、tanh函数等)的处理,以获得第一处理结果和第二处理结果。应当认识到,预定次数可以根据需要或者统计信息设置,这里不做限制。
如图2所示,在获得第一处理结果13和第二处理结果14之后,接下来,特征融合模块1030可以融合所述第一处理结果13和所述第二处理结果14,以获得判定结果15。例如,所述特征融合模块1030可以在与所述特征处理模块1020不同的维度上融合所述第一处理结果13和所述第二处理结果14。
例如,所述至少两个特征处理子模块可以在时间维度上处理所述第一特征和所述第二特征,以获得所述第一处理结果和所述第二处理结果;以及所述特征融合模块1030可以在特征维度上融合所述第一处理结果和所述第二处理结果,以获得所述判定结果。
下面通过图3-4描述根据本公开实施例的图像处理装置1000在不同维度上的处理。
如图3所示为根据本公开实施例的图像处理装置在时间维度和空间维度上的实现的示意图。如图3所示,左侧为至少两个特征处理子模块在时间维度上处理所述第一特征和所述第二特征的示意图;右侧为特征融合模块1030在特征维度上融合所述第一处理结果和所述第二处理结果的示意图。
如图3左侧所示,在时间维度上,例如,针对第一特征(例如人脸特征),特征处理子模块在一定时间内(如30秒内)随时间获得第一特征的三个特征量集合21、22和23。这里,特征量集合21、22和23中不同的圆形填充表示不同的特征。接下来,利用基于变换器Transformer模型对该三个特征量集合21、22和23赋予不同的权重(例如,0.2、0.7和0.1),以得到时间维度上的第一处理结果24。类似地,利用基于变换器Transformer模型对第二处理特征(例如,身体姿势特征)的随时间变换的特征量集合赋予不同的权重,以得到时间维度上的第二处理结果24。
如图3右侧所示,在特征维度上,例如,对于第一处理结果中的每个特征,忽略时间因素,通过计算每个特征的线性变换和非线性变换来得到特征维度上的处理结果。
例如,所述特征融合模块1030可以在特征维度上分别处理所述第一处理结果和所述第二处理结果以获得所述第三处理结果和所述第四处理结果;以及所述特征融合模块1030可以拼接所述第三处理结果和所述第四处理结果,以获得所述判定结果。例如,所述第三处理结果可以包括所述第一处理结果的线性变换结果和非线性变换结果,所述第四处理结果可以包括所述第二处理结果的线性变换结果和非线性变换结果。
下面参照图4详细介绍根据本公开实施例的特征融合模块1030的操作。
如图4所示,对于第一处理结果13的各个特征量,可以先将其通过例如卷积神经网络(Conv)22进行处理,然后对处理结果进行时间维度上的降维。例如,可以取Conv 22的输出结果在时间维度上的平均化(Reduce mean)42、最大值、最小值、均方差等,以获得其在时间维度上降维的处理结果。接下来,将经过例如Reduce mean 42降维后的处理结果经过激活函数43处理,以获得线性处理结果46。例如,该激活函数可以包括但不限于sigmoid函数、softmax函数、tanh函数等。
例如,对于激活函数是tanh函数的情况,可以通过以下公式获得线性处理结果S1:
Figure BDA0002716401810000081
其中,f1、f2和f3表示经过Reduce mean 42降维后的处理结果。
例如,对于第一处理结果13,上述通过激活函数43获得的输出结果46是线性变换结果,第一处理结果13也是线性变换结果44,且经过卷积神经网络Conv 22获得的输出结果45是非线性变换结果。由此特征融合模块1030通过在特征维度上处理所述第一处理结果13从而获得所述第三处理结果,第三处理结果包括所述第一处理结果13的线性变换结果44、46和非线性变换结果45。类似的,特征融合模块1030也可以通过在特征维度上处理第二处理结果14从而获得所述第四处理结果,第四处理结果包括所述第二处理结果的线性变换结果和非线性变换结果。
接下来,特征融合模块1030可以拼接48所述第三处理结果和所述第四处理结果,以获得所述判定结果15。
此外,在将第三处理结果和第四处理结果拼接起来之前,对于第三处理结果,可以将其线性变换结果44和46拼接起来以获得线性变换结果47。类似的,在将第三处理结果和第四处理结果拼接起来之前,对于第四处理结果,可以将其两个线性变换结果拼接起来以获得线性变换结果49。
例如,该拼接操作可以包括相加、相乘、直接组合、连接等操作。应当认识到,拼接操作不限于上述操作,任何可以将第三处理结果与第四处理结果结合起来的操作都可以实现上述拼接操作。
图5所示是根据本公开实施例的图像处理装置1000的操作流程的示意图。
如图5所示,预处理模块1010可以获取第一特征30和第二特征20。在在线教育领域,所述第一特征30和所述第二特征20是与所述注意力波动有关的特征。例如,第一特征可以是人脸特征,第二特征可以是身体姿势特征。本公开的预处理模块1010还可以获取视频声音特征、字幕特征、背景特征等多种与注意力波动有关的特征,这里不做限制。
接下来,特征处理模块1020的至少两个特征处理子模块在时间维度上处理所述第一特征30和所述第二特征20,以获得所述第一处理结果和所述第二处理结果(如虚线框60所示)。例如,对于第一特征30,特征处理子模块可以依次通过例如门控循环单元(GRU)、激活函数(诸如sigmoid函数、softmax函数、tanh函数等)、预定次数的变换器Transformer模型等在时间维度上处理所述第一特征30以获得第一处理结果。类似的,对于第二特征10,特征处理子模块可以依次通过例如门控循环单元(GRU)、激活函数(诸如sigmoid函数、softmax函数、tanh函数等)、预定次数的变换器Transformer模型等在时间维度上处理所述第二特征20以获得第二处理结果。应当认识到,图5中预定次数的变换器Transformer模型被设置为2次仅仅是示例,预定次数可以根据需要或者统计信息设置,这里不做限制。
接下来,特征融合模块1030可以在特征维度上分别处理所述第一处理结果和所述第二处理结果以获得所述第三处理结果和所述第四处理结果(如虚线框61所示)。这里,所述第三处理结果可以包括所述第一处理结果的线性变换结果和非线性变换结果,所述第四处理结果可以包括所述第二处理结果的线性变换结果和非线性变换结果。然后,所述特征融合模块1030拼接所述第三处理结果和所述第四处理结果,以获得所述拼接结果。下一步,该图像处理模型1000使得拼接结果通过例如神经网络的压平层(例如,flatten 56,GlobalAveragePooling2D等)、全连接层(FC)以及激活函数(如Sigmoid)等,获得判定结果15。在在线教育领域,该判定结果可以用于判定注意力的集中度。
本公开引入了多分支神经网络来同时处理异构的第一特征和第二特征,同时通过特征处理模块和特征融合模块从多个维度处理第一特征和第二特征,有效地促进了异构特征的融合,使得基于本公开的图像处理装置的判定结果更加准确。
以上,参照附图描述了根据本公开实施例的图像处理装置。以下,将描述根据本公开实施例的图像处理方法。
图6是根据本公开实施例的图像处理方法100的流程图。本公开的图像处理方法可以用于判定在线教育或自动驾驶等领域的注意力检测。
以下以将本公开的图像处理方法用于在线教育的注意力检测为例、结合附图对本公开的实施例及其示例进行详细说明。
如图6所示,该图像处理方法包括以下步骤S101-S103。
在步骤S101,获取第一特征和第二特征。
在步骤S102,分别处理所述第一特征和所述第二特征,以获得第一处理结果和第二处理结果。
在步骤S103,融合所述第一处理结果和所述第二处理结果,以获得判定结果,其中,所述方法在与处理所述第一特征和所述第二特征不同的维度上融合所述第一处理结果和所述第二处理结果。
例如,该图像处理方法100可以是基于神经网络的图像处理方法。例如,该神经网络模型可以包括各种神经网络模型,例如但不限于:卷积神经网络(CNN)(包括GoogLeNet、AlexNet、VGG网络等)、具有卷积神经网络的区域(R-CNN)、区域提议网络(RPN)、循环神经网络(RNN)、基于堆栈的深度神经网络(S-DNN)、深度信念网络(DBN)、受限玻尔兹曼机(RBM)、完全卷积网络、长短期记忆(LSTM)网络和分类网络。
例如,该神经网络模型可以包括子神经网络/神经网络分支,并且该子神经网络可以包括异构神经网络,并且可以用异构神经网络模型来实现。
对于步骤S101,例如,在在线教育领域,所述第一特征30和所述第二特征20是与所述注意力波动有关的特征。例如,第一特征可以是人脸特征,第二特征可以是身体姿势特征。应当认识到,本公开不限于仅获取上述两种特征,本公开还可以获取视频声音特征、字幕特征、背景特征等多种与注意力波动有关的特征,这里不做限制。
例如,可以在时间维度和空间维度上获取所述第一特征和所述第一特征异构的所述第二特征。
例如,可以根据注意力判定的需要抽取、变换、计算提取的人脸特征和身体姿势特征。
作为一个示例,人脸特征可以包括与注意力相关的双眼视线角度的平均值、方差和斜度等、以及头部朝向的平均值、方差和斜度等。作为另一个示例,身体姿势特征可以包括与注意力相关的双肩的位置坐标方差、双手肘部的位置坐标方差等。作为又一个示例,人脸有大小之分,但是人脸的大小与注意力判定无关,所以可以不用提取人脸大小的特征作为该图像处理方法100的特征。应当认识到,与提取所有的人脸特征和身体姿势特征相比,直接提取与注意力相关的特征进行处理,可以降低注意力判定的处理复杂度,并且使得处理结果更加准确。
对于步骤S102,例如,根据本公开实施例的神经网络可以包括至少两个异构的神经分支/子网络,以分别处理所述第一特征和所述第二特征,以获得第一处理结果和第二处理结果。
例如,所述获取第一处理结果和第二处理结果可以包括:基于自注意力机制处理所述第一特征和所述第二特征以获取第一处理结果和第二处理结果。例如,所述获取第一处理结果和第二处理结果还可以包括:基于变换器Transformer模型处理所述第一特征和所述第二特征以获取第一处理结果和第二处理结果。例如,可以将第一特征和第二特征经过预定次数的Transformer模型和激活函数(诸如sigmoid函数、softmax函数、tanh函数等)的处理,以获得第一处理结果和第二处理结果。应当认识到,预定次数可以根据需要或者统计信息设置,这里不做限制。
对于步骤S103,所述融合所述第一处理结果和所述第二处理结果,以获得判定结果可以包括:在特征维度上融合所述第一处理结果和所述第二处理结果,以获得所述判定结果。
图7示出了根据本公开实施例的获得判定结果的方法200的流程图。
如图7所示,所述在特征维度上融合所述第一处理结果和所述第二处理结果,以获得所述判定结果可以包括:在特征维度上分别处理所述第一处理结果和所述第二处理结果以获得所述第三处理结果和所述第四处理结果(S201);以及拼接所述第三处理结果和所述第四处理结果,以获得所述判定结果(S202)。
如图4所示,对于第一处理结果13的各个特征量,可以先将其通过例如卷积神经网络(Conv)22进行处理,然后对处理结果进行时间维度上的降维。例如,可以取Conv 22的输出结果在时间维度上的平均化(Reduce mean)42、最大值、最小值、均方差等,以获得其在时间维度上降维的处理结果。接下来,将经过例如Reduce mean 42降维后的处理结果经过激活函数43处理,以获得线性处理结果46。例如,该激活函数可以包括但不限于sigmoid函数、softmax函数、tanh函数等。
例如,对于激活函数是tanh函数的情况,可以通过以下公式获得线性处理结果S1:
Figure BDA0002716401810000121
其中,f1、f2和f3表示经过Reduce mean 42降维后的处理结果。
例如,对于第一处理结果13,上述通过激活函数43获得的输出结果46是线性变换结果,第一处理结果13也是线性变换结果44,且经过卷积神经网络Conv 22获得的输出结果45是非线性变换结果。由此步骤S013通过在特征维度上处理所述第一处理结果13从而获得所述第三处理结果,第三处理结果包括所述第一处理结果13的线性变换结果44、46和非线性变换结果45。类似的,步骤S013也可以通过在特征维度上处理第二处理结果14从而获得所述第四处理结果,第四处理结果包括所述第二处理结果的线性变换结果和非线性变换结果。
接下来,步骤S013可以拼接48所述第三处理结果和所述第四处理结果,以获得所述判定结果15。
此外,在将第三处理结果和第四处理结果拼接起来之前,对于第三处理结果,可以将其线性变换结果44和46拼接起来以获得线性变换结果47。类似的,在将第三处理结果和第四处理结果拼接起来之前,对于第四处理结果,可以将其两个线性变换结果拼接起来以获得线性变换结果49。
例如,该拼接操作可以包括相加、相乘、直接组合、连接等操作。应当认识到,拼接操作不限于上述操作,任何可以将第三处理结果与第四处理结果结合起来的操作都可以实现上述拼接操作。
在本公开的上述方面中,通过构建神经网络模型,在不同的维度上处理并融合不同的特征,从而可以从多个维度有效促进异构特征的融合,使得基于神经网络模型的判定结果更加准确。
下面,参照图8描述根据本公开实施例的图像处理设备1100。图8是根据本公开实施例的图像处理设备的示意图。由于本实施例的图像处理设备的功能与在上文中参照图1描述的装置以及图6描述的方法的细节相同,因此在这里为了简单起见,省略对相同内容的详细描述。
本公开的图像处理设备包括处理器1102;以及存储器1101,其中存储计算机可读指令,其中,在所述计算机可读指令被所述处理器运行时执行图像处理方法,所述方法包括:获取第一特征和第二特征;分别处理所述第一特征和所述第二特征,以获得第一处理结果和第二处理结果;以及融合所述第一处理结果和所述第二处理结果,以获得判定结果,其中,所述方法在与处理所述第一特征和所述第二特征不同的维度上融合所述第一处理结果和所述第二处理结果。
关于不同实施例中的图像处理装置1000和图像处理设备1100的技术效果可以参考本公开的实施例中提供的图像处理方法的技术效果,这里不再赘述。
图像处理装置1000和图像处理设备1100可以用于各种适当的电子设备。
图9是根据本公开实施例的计算机可读存储介质1200的示意图。
如图9所示,本公开还包括一种计算机可读存储介质1200,其上存储计算机可读指令1201,当该计算机可读指令由计算机执行时,计算机执行图像方法,包括:获取第一特征和第二特征;分别处理所述第一特征和所述第二特征,以获得第一处理结果和第二处理结果;以及融合所述第一处理结果和所述第二处理结果,以获得判定结果,其中,所述方法在与处理所述第一特征和所述第二特征不同的维度上融合所述第一处理结果和所述第二处理结果。
<硬件结构>
另外,上述实施方式的说明中使用的框图示出了以功能为单位的块。这些功能块(结构单元)通过硬件和/或软件的任意组合来实现。此外,各功能块的实现手段并不特别限定。即,各功能块可以通过在物理上和/或逻辑上相结合的一个装置来实现,也可以将在物理上和/或逻辑上相分离的两个以上装置直接地和/或间接地(例如通过有线和/或无线)连接从而通过上述多个装置来实现。
例如,本公开的一实施方式中的电子设备可以作为执行本公开的属性识别方法的处理的计算机来发挥功能。图10是示出本公开的一实施方式所涉及的电子设备的硬件结构的一例的图。上述的电子设备10可以作为在物理上包括处理器1001、内存1002、存储器1003、通信装置1004、输入装置1005、输出装置1006、总线1007等的计算机装置来构成。
另外,在以下的说明中,“装置”这样的文字也可替换为电路、设备、单元等。电子设备10的硬件结构可以包括一个或多个图中所示的各装置,也可以不包括部分装置。
例如,处理器1001仅图示出一个,但也可以为多个处理器。此外,可以通过一个处理器来执行处理,也可以通过一个以上的处理器同时、依次、或采用其它方法来执行处理。另外,处理器1001可以通过一个以上的芯片来安装。
电子设备10中的各功能例如通过如下方式实现:通过将规定的软件(程序)读入到处理器1001、内存1002等硬件上,从而使处理器1001进行运算,对由通信装置1004进行的通信进行控制,并对内存1002和存储器1003中的数据的读出和/或写入进行控制。
处理器1001例如使操作系统进行工作从而对计算机整体进行控制。处理器1001可以由包括与周边装置的接口、控制装置、运算装置、寄存器等的中央处理器(CPU,CentralProcessing Unit)构成。
此外,处理器1001将程序(程序代码)、软件模块、数据等从存储器1003和/或通信装置1004读出到内存1002,并根据它们执行各种处理。作为程序,可以采用使计算机执行在上述实施方式中说明的动作中的至少一部分的程序。例如,电子设备10的控制单元401可以通过保存在内存1002中并通过处理器1001来工作的控制程序来实现,对于其它功能块,也可以同样地来实现。
内存1002是计算机可读取记录介质,例如可以由只读存储器(ROM,Read OnlyMemory)、可编程只读存储器(EPROM,Erasable Programmable ROM)、电可编程只读存储器(EEPROM,Electrically EPROM)、随机存取存储器(RAM,Random Access Memory)、其它适当的存储介质中的至少一个来构成。内存1002也可以称为寄存器、高速缓存、主存储器(主存储装置)等。内存1002可以保存用于实施本公开的一实施方式所涉及的无线通信方法的可执行程序(程序代码)、软件模块等。
存储器1003是计算机可读取记录介质,例如可以由软磁盘(flexible disk)、软(注册商标)盘(floppy disk)、磁光盘(例如,只读光盘(CD-ROM(Compact Disc ROM)等)、数字通用光盘、蓝光(Blu-ray,注册商标)光盘)、可移动磁盘、硬盘驱动器、智能卡、闪存设备(例如,卡、棒(stick)、密钥驱动器(key driver))、磁条、数据库、服务器、其它适当的存储介质中的至少一个来构成。存储器1003也可以称为辅助存储装置。
通信装置1004是用于通过有线和/或无线网络进行计算机间的通信的硬件(发送接收设备),例如也称为网络设备、网络控制器、网卡、通信模块等。
输入装置1005是接受来自外部的输入的输入设备(例如,键盘、鼠标、麦克风、开关、按钮、传感器等)。输出装置1006是实施向外部的输出的输出设备(例如,显示器、扬声器、发光二极管(LED,Light Emitting Diode)灯等)。另外,输入装置1005和输出装置1006也可以为一体的结构(例如触控面板)。
此外,处理器1001、内存1002等各装置通过用于对信息进行通信的总线1007连接。总线1007可以由单一的总线构成,也可以由装置间不同的总线构成。
此外,电子设备10可以包括微处理器、数字信号处理器(DSP,Digital SignalProcessor)、专用集成电路(ASIC,Application Specific Integrated Circuit)、可编程逻辑器件(PLD,Programmable Logic Device)、现场可编程门阵列(FPGA,FieldProgrammable Gate Array)等硬件,可以通过该硬件来实现各功能块的部分或全部。例如,处理器1001可以通过这些硬件中的至少一个来安装。
软件无论被称为软件、固件、中间件、微代码、硬件描述语言,还是以其它名称来称呼,都应宽泛地解释为是指命令、命令集、代码、代码段、程序代码、程序、子程序、软件模块、应用程序、软件应用程序、软件包、例程、子例程、对象、可执行文件、执行线程、步骤、功能等。
此外,软件、命令、信息等可以经由传输介质被发送或接收。例如,当使用有线技术(同轴电缆、光缆、双绞线、数字用户线路(DSL,Digital Subscriber Line)等)和/或无线技术(红外线、微波等)从网站、服务器、或其它远程资源发送软件时,这些有线技术和/或无线技术包括在传输介质的定义内。
本说明书中说明的各方式/实施方式可以单独使用,也可以组合使用,还可以在执行过程中进行切换来使用。此外,本说明书中说明的各方式/实施方式的处理步骤、序列、流程图等只要没有矛盾,就可以更换顺序。例如,关于本说明书中说明的方法,以示例性的顺序给出了各种各样的步骤单元,而并不限定于给出的特定顺序。
本说明书中使用的“根据”这样的记载,只要未在其它段落中明确记载,则并不意味着“仅根据”。换言之,“根据”这样的记载是指“仅根据”和“至少根据”这两者。
本说明书中使用的对使用“第一”、“第二”等名称的单元的任何参照,均非全面限定这些单元的数量或顺序。这些名称可以作为区别两个以上单元的便利方法而在本说明书中使用。因此,第一单元和第二单元的参照并不意味着仅可采用两个单元或者第一单元必须以若干形式占先于第二单元。
在本说明书或权利要求书中使用“包括(including)”、“包含(comprising)”、以及它们的变形时,这些用语与用语“具备”同样是开放式的。进一步地,在本说明书或权利要求书中使用的用语“或(or)”并非是异或。
本领域技术人员可以理解,本申请的各方面可以通过若干具有可专利性的种类或情况进行说明和描述,包括任何新的和有用的工序、机器、产品或物质的组合,或对他们的任何新的和有用的改进。相应地,本申请的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外,本申请的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品,该产品包括计算机可读程序编码。
本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此,应强调并注意的是,本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一替代性实施例”并不一定是指同一实施例。此外,本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
除非另有定义,这里使用的所有术语(包括技术和科学术语)具有与本公开所属领域的普通技术人员共同理解的相同含义。还应当理解,诸如在通常字典里定义的那些术语应当被解释为具有与它们在相关技术的上下文中的含义相一致的含义,而不应用理想化或极度形式化的意义来解释,除非这里明确地这样定义。
以上对本公开进行了详细说明,但对于本领域技术人员而言,显然,本公开并非限定于本说明书中说明的实施方式。本公开在不脱离由权利要求书的记载所确定的本公开的宗旨和范围的前提下,可以作为修改和变更方式来实施。因此,本说明书的记载是以示例说明为目的,对本公开而言并非具有任何限制性的意义。

Claims (10)

1.一种基于神经网络的图像处理装置,所述装置包括:
预处理模块,用于获取第一特征和第二特征;
特征处理模块,包括至少两个特征处理子模块,所述至少两个特征处理子模块分别处理所述第一特征和所述第二特征,以获得第一处理结果和第二处理结果;以及
特征融合模块,用于融合所述第一处理结果和所述第二处理结果,以获得判定结果,
其中,所述特征融合模块在与所述特征处理模块不同的维度上融合所述第一处理结果和所述第二处理结果。
2.根据权利要求1所述的装置,其中,
所述至少两个特征处理子模块在时间维度上处理所述第一特征和所述第二特征,以获得所述第一处理结果和所述第二处理结果;以及
所述特征融合模块在特征维度上融合所述第一处理结果和所述第二处理结果,以获得所述判定结果。
3.根据权利要求2所述的装置,其中,
所述特征融合模块在特征维度上分别处理所述第一处理结果和所述第二处理结果以获得所述第三处理结果和所述第四处理结果;以及
所述特征融合模块拼接所述第三处理结果和所述第四处理结果,以获得所述判定结果。
4.根据权利要求3所述的装置,其中,
所述第三处理结果包括所述第一处理结果的线性变换结果和非线性变换结果,所述第四处理结果包括所述第二处理结果的线性变换结果和非线性变换结果。
5.根据权利要求1-4任一项所述的装置,其中,
所述至少两个特征处理子模块基于自注意力机制处理所述第一特征和所述第二特征。
6.根据权利要求5所述的装置,其中,
所述至少两个特征处理子模块基于变换器Transformer模型处理所述第一特征和所述第二特征。
7.根据权利要求1-6任一项所述的装置,其中,
所述预处理模块在时间维度和空间维度上获取所述第一特征和所述第一特征异构的所述第二特征。
8.一种基于神经网络的图像处理方法,所述方法包括:
获取第一特征和第二特征;
分别处理所述第一特征和所述第二特征,以获得第一处理结果和第二处理结果;
融合所述第一处理结果和所述第二处理结果,以获得判定结果,
其中,所述方法在与处理所述第一特征和所述第二特征不同的维度上融合所述第一处理结果和所述第二处理结果。
9.一种基于神经网络的图像处理设备,所述设备包括:
处理器;以及
存储器,其中存储计算机可读程序指令,
其中,在所述计算机可读程序指令被所述处理器运行时执行基于神经网络的图像处理方法,所述方法包括:
获取第一特征和第二特征;
分别处理所述第一特征和所述第二特征,以获得第一处理结果和第二处理结果;
融合所述第一处理结果和所述第二处理结果,以获得判定结果,
其中,所述方法在与处理所述第一特征和所述第二特征不同的维度上融合所述第一处理结果和所述第二处理结果。
10.一种用于存储计算机可读程序的计算机可读存储介质,所述程序使得计算机执行如权利要求1-7任一项所述的基于神经网络的图像处理方法。
CN202011075037.2A 2020-10-09 2020-10-09 图像处理装置、方法、设备以及计算机可读存储介质 Pending CN114332524A (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN202011075037.2A CN114332524A (zh) 2020-10-09 2020-10-09 图像处理装置、方法、设备以及计算机可读存储介质
JP2021163243A JP2022063236A (ja) 2020-10-09 2021-10-04 画像処理装置、方法、機器及びコンピュータ読み取り可能な記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202011075037.2A CN114332524A (zh) 2020-10-09 2020-10-09 图像处理装置、方法、设备以及计算机可读存储介质

Publications (1)

Publication Number Publication Date
CN114332524A true CN114332524A (zh) 2022-04-12

Family

ID=81259204

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202011075037.2A Pending CN114332524A (zh) 2020-10-09 2020-10-09 图像处理装置、方法、设备以及计算机可读存储介质

Country Status (2)

Country Link
JP (1) JP2022063236A (zh)
CN (1) CN114332524A (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115439912A (zh) * 2022-09-20 2022-12-06 支付宝(杭州)信息技术有限公司 一种识别表情的方法、装置、设备及介质
CN115409855B (zh) * 2022-09-20 2023-07-07 北京百度网讯科技有限公司 图像处理方法、装置、电子设备和存储介质

Also Published As

Publication number Publication date
JP2022063236A (ja) 2022-04-21

Similar Documents

Publication Publication Date Title
WO2021233112A1 (zh) 基于多模态机器学习的翻译方法、装置、设备及存储介质
KR20190116199A (ko) 영상 데이터 처리 방법, 장치 및 판독 가능 저장 매체
CN112799747A (zh) 智能助理评价、推荐方法、系统、终端及可读存储介质
CN116171473A (zh) 用于视听事件定位的双模态关系网络
CN114387567B (zh) 一种视频数据的处理方法、装置、电子设备及存储介质
US10768887B2 (en) Electronic apparatus, document displaying method thereof and non-transitory computer readable recording medium
CN110991427A (zh) 用于视频的情绪识别方法、装置和计算机设备
CN115223020B (zh) 图像处理方法、装置、设备、存储介质及计算机程序产品
US11468296B2 (en) Relative position encoding based networks for action recognition
Xiao et al. Multi-sensor data fusion for sign language recognition based on dynamic Bayesian network and convolutional neural network
CN112712068B (zh) 一种关键点检测方法、装置、电子设备及存储介质
Zhang et al. Is an object-centric video representation beneficial for transfer?
CN114092759A (zh) 图像识别模型的训练方法、装置、电子设备及存储介质
CN114332524A (zh) 图像处理装置、方法、设备以及计算机可读存储介质
CN109598301B (zh) 检测区域去除方法、装置、终端和存储介质
CN113591758A (zh) 一种人体行为识别模型训练方法、装置及计算机设备
Li et al. Intention understanding in human–robot interaction based on visual-NLP semantics
CN114140885A (zh) 一种情感分析模型的生成方法、装置、电子设备以及存储介质
CN114529761B (zh) 基于分类模型的视频分类方法、装置、设备、介质及产品
CN115393854A (zh) 一种视觉对齐处理方法、终端及存储介质
CN114676776A (zh) 一种基于Transformer的细粒度图像分类方法
CN117216536A (zh) 一种模型训练的方法、装置和设备及存储介质
CN112288883A (zh) 作业指导信息的提示方法、装置、电子设备及存储介质
Kollias et al. 7th abaw competition: Multi-task learning and compound expression recognition
CN117407557B (zh) 零样本实例分割方法、系统、可读存储介质及计算机

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20220412

WD01 Invention patent application deemed withdrawn after publication