CN107886097A - 一种图像处理的方法、终端设备及计算机可读介质 - Google Patents

一种图像处理的方法、终端设备及计算机可读介质 Download PDF

Info

Publication number
CN107886097A
CN107886097A CN201710996498.5A CN201710996498A CN107886097A CN 107886097 A CN107886097 A CN 107886097A CN 201710996498 A CN201710996498 A CN 201710996498A CN 107886097 A CN107886097 A CN 107886097A
Authority
CN
China
Prior art keywords
target element
content
element region
prediction
mrow
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
CN201710996498.5A
Other languages
English (en)
Inventor
朱益
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shenzhen Jinli Communication Equipment Co Ltd
Original Assignee
Shenzhen Jinli Communication Equipment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shenzhen Jinli Communication Equipment Co Ltd filed Critical Shenzhen Jinli Communication Equipment Co Ltd
Priority to CN201710996498.5A priority Critical patent/CN107886097A/zh
Publication of CN107886097A publication Critical patent/CN107886097A/zh
Withdrawn legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明实施例提供了一种图像处理的方法、终端设备及计算机可读介质,其中方法包括:接收待处理图像;提取上述待处理图像的特征图,在该特征图中包含第一图像元素和第二图像元素;对上述第一图像元素和上述第二图像元素分别进行内容识别得到第一内容和第二内容;依据上述第一内容和上述第二内容进行关系预测得到关系预测结果。实施本发明实施例,不仅可以精细地对图像中各个元素进行识别,还可以对各个元素间的关系进行预测。

Description

一种图像处理的方法、终端设备及计算机可读介质
技术领域
本发明涉及电子通信领域,尤其涉及一种图像处理的方法、终端设备及计算机可读介质。
背景技术
随着信息技术的不断发展,越来越多的图像信息影响和改变着人们的生活,人们对图像处理的要求也日益提高。目标识别是图像处理领域中一个非常重要的内容,广泛地应用于医学、视频监控等方面。
近年来随着深度学习在图像处理领域的应用,目标识别的研究也取得了突破性的进步,检测的精度有了很大的提高。
但是目前的图像处理技术只能识别图像中的单一类别物体(比如,人、车等),而一幅图像中包含的内容远不止这些相互独立的物体,还包含更精细的图像元素以及元素间的关系等信息。因此,目前的图像处理技术无法精细地理解和预测出图像的含义。
发明内容
本发明实施例提供一种图像处理的方法、终端设备及计算机可读介质,不仅可以精细地对图像中各个元素进行识别,还可以对各个元素间的关系进行预测。第一方面,本发明实施例提供了一种图像处理的方法,该方法包括:
接收待处理图像;
提取上述待处理图像的特征图,在该特征图中包含第一图像元素和第二图像元素;
对上述第一图像元素和上述第二图像元素分别进行内容识别得到第一内容和第二内容;
依据上述第一内容和上述第二内容进行关系预测得到关系预测结果。
第二方面,本发明实施例提供了一种终端设备,该终端设备包括用于执行第一方面的方法的单元。
第三方面,本发明实施例提供了另一种终端设备,包括处理器、输入设备、输出设备和存储器,该处理器、输入设备、输出设备和存储器相互连接,其中,上述存储器用于存储支持终端设备执行上述方法的计算机程序,该计算机程序包括程序指令,上述处理器被配置用于调用该程序指令,执行上述第一方面的方法。
第四方面,本发明实施例提供了一种计算机可读存储介质,该计算机存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令当被处理器执行时使该处理器执行上述第一方面的方法。
本发明实施例具有以下有益效果:
本发明实施例中,对待处理图像提取含有各个图像元素的特征图,不仅对精细地对待处理图像中各个图像元素进行识别,还对各个元素间的关系进行预测,可以深度地理解和预测出图像的含义,在图像识别、图片推送等领域可以得到广泛应用。
附图说明
为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。
图1是目前一种图像识别技术的示意图;
图2是本发明实施例提供的一种图像处理方法的示意流程图;
图3是本发明实施例提供的一种图像处理方法的处理过程示意图;
图4是本发明实施例提供的一种图像处理方法的示意图;
图5是本发明实施例提供的一种图像处理方法的终端设备示意图;
图6是本发明实施例提供的一种图像处理方法实施方式的示意图;
图7是本发明实施例提供的另一种图像处理方法的示意流程图;
图8是本发明实施例提供的一种图像元素识别和关系预测方法的示意图;
图9是本发明实施例提供的一种终端设备的示意框图;
图10是本发明实施例公开的另一种终端设备的示意框图;
图11是本发明另一实施例提供的一种终端设备的示意框图。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
如在本说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。
随着信息技术的不断发展,人们对图像处理的要求也日益提高。目标识别是图像处理领域中一个非常重要的内容。近年来随着深度学习在图像处理领域的应用,目标识别的研究也取得了突破性的进步,检测的精度有了很大的提高。
但是目前的图像处理技术只能识别图像中的单一类别物体(比如,人、车等),如图1所示,图1是目前一种图像识别技术的示意图,目前的图像处理技术只能识别出图像中有两个人物,并不能对人物的其他特征进行识别以及对人物之间的关系进行预测。然而一幅图像中包含的内容远不止这些相互独立的物体,还包含更精细的图像元素以及元素间的关系等信息。因此,目前的图像处理技术无法精细地理解和预测出图像的含义。
参见图2,图2是本发明实施例提供的一种图像处理方法的示意流程图,如图所示图像处理方法可包括:
201、接收待处理图像。
在本实施例中,该待处理图像可以是用户通过终端设备的任意方式获得的图像,例如,从云端下载、截图、拍摄等方式,本实施例不做限制。
202、提取上述待处理图像的特征图,在该特征图中包含第一图像元素和第二图像元素。
在本实施例中,“提取上述待处理图像的特征图”是指处理器利用卷积神经网络(Convolutional Neural Network,CNN)之类的图像处理技术提取该待处理图像的图像特征,得到该待处理图像的图像特征图Feature Map。
203、对上述第一图像元素和上述第二图像元素分别进行内容识别得到第一内容和第二内容。
204、依据上述第一内容和上述第二内容进行关系预测得到关系预测结果。
在本实施例中,为了能得到更加智能和准确的结果,对图像元素进行内容识别和对图像元素关系进行预测都采用深度学习的人工神经网络技术进行。
举例说明,请参见图3、图4和图5,图3是本发明实施例提供的一种图像处理方法的处理过程示意图;图4是本发明实施例提供的一种图像处理方法的示意图;图5是本发明实施例提供的一种图像处理方法的终端设备示意图。终端设备接收待处理图片,中央处理器(Central Processing Unit,CPU)先对待处理图片进行数据预处理,由中央处理器CPU调用图形处理器(Graphics Processing Unit,GPU)和关系预测系统(包括元素预测模块、元素关系预测模块、场景关系建立模块)并请求通信模块准备进行云端访问;上述关系预测系统接收待处理图像后,通过与本地存储器中存有学习过的数据库中的数据进行对比进行元素预测,然后再通过元素关系预测模块进行元素关系预测,将预测结果数据通过CPU存入存储器,最后再显示屏上显示预测结果;另一方面CPU调用请求通信模块,将待处理图像的数据与云端数据对比进行云端预测。
可以理解,本发明实施例中,通过深度学习的人工神经网络技术不仅对精细地对待处理图像中各个图像元素进行识别,还对各个元素间的关系进行预测,可以精细地理解和预测出图像的含义。
作为一种优选的实施方式,上述对上述第一图像元素和上述第二图像元素分别进行内容识别得到第一内容和第二内容,包括:对上述第一图像元素进行内容分类预测得到第一分类结果,对上述第一图像元素的位置进行预测得到第一预测位置;对上述第二图像元素进行内容分类预测得到第二分类结果,对上述第二图像元素的位置进行预测得到第二预测位置;上述依据上述第一内容和上述第二内容进行关系预测得到关系预测结果包括:依据上述第一分类结果和上述第一预测位置以及上述第二分类结果和上述第二预测位置进行关系预测得到关系预测结果。
在本实施方式中,“对上述第一图像元素进行内容识别”包括,对上述第一图像元素进行内容分类预测得到第一分类结果,对上述第一图像元素的位置进行预测得到第一预测位置;上述“第一内容”包括,上述第一分类结果和上述第一预测位置。“对上述第二图像元素进行内容识别”包括,对上述第二图像元素进行内容分类预测得到第二分类结果,对上述第二图像元素的位置进行预测得到第二预测位置;上述“第二内容”包括,上述第二分类结果和上述第二预测位置。
作为一种优选的实施方式,上述图像处理方法还包括:在上述待处理图像的特征图上生成至少两个目标元素区域,该目标元素区域为上述特征图上包含单个图像元素的图像区域;上述对上述第一图像元素进行内容分类预测得到第一分类结果,对上述第一图像元素的位置进行预测得到第一预测位置;对上述第二图像元素进行内容分类预测得到第二分类结果,对上述第二图像元素的位置进行预测得到第二预测位置;依据上述第一分类结果和上述第一预测位置以及上述第二分类结果和上述第二预测位置进行关系预测得到关系预测结果,包括:对上述目标元素区域中的内容进行分类预测,得到上述目标元素区域中的内容的分类结果;对上述目标元素区域的位置进行位置预测,得到上述目标元素区域的预测位置;对上述目标元素区域中内容之间的关系进行关系预测,得到上述目标元素区域中内容之间的关系预测结果。
举例说明,参见图6,图6是本发明实施例提供的一种图像处理方法实施方式的示意图。获得待处理图像后,利用卷积神经网络CNN技术提取该待处理图像的图像特征,得到该待处理图像的特征图Feature Map,再利用候选区域生成网络RPN技术在上述特征图Feature Map上生成至少两个上述目标元素区域(图中的虚线框),每个目标元素区域包含了单个图像元素,如图所示,图中有包含了男人、女人、礼帽、领结、牵手等图像元素的目标元素区域。然后,对这些目标元素区域进行内容识别(包括对上述目标元素区域中的内容进行分类预测,对上述目标元素区域的位置进行位置预测),识别出图中目标元素区域中的图像元素为男人、女人、礼帽、领结、牵手,以及这些元素的坐标位置。最后对图像中的各个图像元素进行关系预测,得到类似“男人戴着礼帽和领结牵着女人,他们可能使情侣或夫妻”的关系预测结果。
作为一种优选的实施方式,上述对上述目标元素区域中的内容进行分类预测,得到上述目标元素区域中的内容的分类结果;对上述目标元素区域的位置进行位置预测,得到上述目标元素区域的预测位置;对上述目标元素区域中内容之间的关系进行关系预测,得到上述目标元素区域中内容之间的关系预测结果,包括:利用概率函数
计算上述目标元素区域中内容的分类预测概率、上述目标元素区域的位置预测概率、以及上述目标元素区域中内容之间的关系预测概率;其中,是变量的集合,Pr为每个变量x的概率函数名,n为所述目标元素区域的个数,V是上述目标元素区域的集合,是第i个上述目标元素区域中内容的分类变量,是表示上述目标元素区域的坐标的变量,xi→j是第i个上述目标元素区域中内容和第j个上述目标元素区域中内容的关系变量,I为上述待处理图像的特征图,BI为上述目标元素区域,∏是各项连乘的运算符号;利用方程x*=argmaxxPr(x|I,BI)解得上述目标元素区域中的内容的分类结果、上述目标元素区域的预测位置、上述目标元素区域中内容之间的关系预测结果;其中,x*为上述目标元素区域中的内容的分类结果变量、上述目标元素区域的预测位置变量、上述目标元素区域中内容之间的关系预测结果变量的集合,argmaxxPr(x|I,BI)为寻找使得上述概率函数Pr(x|I,BI)取得最大值所对应的变量x的函数。
在本实施例中,首先利用概率函数
计算上述目标元素区域中内容的分类预测概率、上述目标元素区域的位置预测概率、以及上述目标元素区域中内容之间的关系预测概率;然后利用方程x*=argmaxxPr(x|I,BI)(即寻找使得上述概率函数Pr(x|I,BI)取得最大值所对应的变量x)解得上述目标元素区域中的内容的分类结果、上述目标元素区域的预测位置、上述目标元素区域中内容之间的关系预测结果。
作为一种优选的实施方式,上述方法还包括:通过自然语言的文本形式将上述第一内容、上述第二内容以及上述关系预测结果显示出来。
在本实施例中,经过图像处理后得到的上述第一内容、上述第二内容以及上述关系预测结果可以通过一定的方式显示出来,例如,在图片上标注文字、直接通过文字表达等方式。比如图3所示的待处理图像,经过本发明的图像处理方法处理后,通过“男人戴着礼帽和领结牵着女人,他们可能使情侣或夫妻”这样的文字对上述第一内容、上述第二内容以及上述关系预测结果进行表达显示。
参见图7,图7是本发明实施例提供的另一种图像处理方法的示意流程图,如图所示图像处理方法可包括:
701、接收待处理图像。
在本实施例中,该待处理图像可以是用户通过终端设备的任意方式获得的图像,例如,从云端下载、截图、拍摄等方式,本实施例不做限制。
702、提取上述待处理图像的特征图,在该待处理图像的特征图上生成至少两个目标元素区域,该目标元素区域为上述特征图上包含单个图像元素的图像区域。
在本实施例中,获得待处理图像后,可利用卷积神经网络CNN技术提取该待处理图像的图像特征,得到该待处理图像的特征图Feature Map,再利用候选区域生成网络(Region Proposal Network,RPN)技术在上述特征图Feature Map上生成至少两个上述目标元素区域(图中的虚线框),每个目标元素区域包含了单个图像元素,如图所示,图中有包含了男人、女人、礼帽、领结、牵手等图像元素的目标元素区域。
703、提取上述目标元素区域中的代表上述图像元素视觉特征的节点和边缘点。
举例说明,参见图5,图5是本发明实施例提供的一种图像元素识别和关系预测方法的示意图。如图所示,在得到待处理图像的目标元素区域后,对每个目标元素区域中能够代表其中图像元素视觉特征的节点和边缘点进行提取。
704、利用预设处理方法对上述节点和上述边缘点进行处理,该预设处理方法包括:将上述节点和上述边缘点分别作为门控递归单位递归神经网络GRU的节点输入数据和边缘点输入数据进行计算,分别得到节点GRU结果和边缘GRU结果;分别对该节点GRU结果和该边缘GRU结果进行池化,分别得到节点池化结果和边缘池化结果。
705、将上述节点池化结果和上述边缘池化结果分别作为下一次预设处理方法的门控递归单位递归神经网络GRU的边缘点输入数据和节点输入数据,继续利用预设处理方法进行处理直至得到上述目标元素区域中内容的分类预测概率、上述目标元素区域的位置预测概率、以及上述目标元素区域中内容之间的关系预测概率。
706、根据上述分类预测概率、上述位置预测概率以及上述关系预测概率解得上述目标元素区域中的内容的分类结果、上述目标元素区域的预测位置以及上述目标元素区域中内容之间的关系预测结果。
举例说明,参见图8,在对每个目标元素区域提取能够代表其中图像元素视觉特征的节点和边缘点之后,利用预设处理方法(图中第一层处理)对上述节点和上述边缘点进行处理,该预设处理方法包括,将该节点和边缘点的信息分别作为节点输入数据和边缘点输入数据进行计算,得到节点GRU结果(如图所示节点GRU)和边缘GRU结果(如图所示边缘GRU),分别对该节点GRU结果和该边缘GRU结果进行池化,分别得到节点池化结果和边缘池化结果;将上述节点池化结果和上述边缘池化结果分别作为下一次预设处理方法(图中第二层处理)的门控递归单位递归神经网络(Gated Recurrent Unit,GRU)的边缘点输入数据和节点输入数据,继续利用该预设处理方法(一直到第n层处理)进行处理直至得到上述目标元素区域中内容的分类预测概率、上述目标元素区域的位置预测概率、以及上述目标元素区域中内容之间的关系预测概率;最后利用方程x*=argmaxxPr(x|I,BI)解得上述目标元素区域中的内容的分类结果、上述目标元素区域的预测位置、上述目标元素区域中内容之间的关系预测结果,如图所述,得到待处理图像中图像元素“男人”、“女人”、“礼帽”、“领结”、“牵手”的识别以及“男人戴着礼帽和领结牵着女人,他们可能使情侣或夫妻”的元素关系预测。
可以理解,本发明实施例中,通过对目标元素区域中代表图像元素视觉特征的节点和边缘点的提取,以及对该节点和边缘点的上述预设处理方法进行处理,不仅对精细地对待处理图像中各个图像元素进行识别、对各个元素间的关系进行预测,还可以降低计算量,提高图像处理效率。
作为一种优选的实施方式,上述将上述节点和上述边缘点分别作为门控递归单位递归神经网络GRU的节点输入数据和边缘点输入数据进行计算,分别得到节点GRU结果和边缘GRU结果,包括:利用概率函数
分别计算上述节点输入数据和上述边缘点输入数据对应的上述目标元素区域中内容的分类预测概率、上述目标元素区域的位置预测概率、以及上述目标元素区域中内容之间的关系预测概率;其中,是变量的集合,Q为每个变量x的概率函数名,n为所述目标元素区域的个数,是第i个所述目标元素区域中内容的分类变量,是表示所述目标元素区域的坐标的变量,xi→j是第i个所述目标元素区域中内容和第j个所述目标元素区域中内容的关系变量,hi为节点i的当前隐藏状态,hi→j为节点i到节点j的当前隐藏状态,fi v为一个关于节点i的视觉特征,是一个节点i到节点j的视觉特征迭代;将上述节点输入数据对应的上述目标元素区域中内容的分类预测概率、上述目标元素区域的位置预测概率、以及上述目标元素区域中内容之间的关系预测概率作为上述节点GRU结果;将上述边缘点输入数据对应的上述目标元素区域中内容的分类预测概率、上述目标元素区域的位置预测概率、以及上述目标元素区域中内容之间的关系预测概率作为上述边缘GRU结果。
本实施方式中,节点和边缘点的池权值算法为
其中,hi为节点i的当前隐藏状态,hi→j为节点i到节点j的当前隐藏状态,σ代表一个类似logistic函数的s型函数,w1,w2是学习参数,这两个等式描述了最初原始的双更新规则。
本发明实施例还提供一种终端设备,该终端设备用于执行前述任一项的方法的单元。具体地,参见图9,图9是本发明实施例提供的一种终端设备的示意框图。本实施例的终端设备包括:图像接收单元901,特征图提取单元902,内容识别单元903,关系预测单元904;
上述图像接收单元901,用于接收待处理图像;
上述特征图提取单元902,用于提取上述待处理图像的特征图,在该特征图中包含第一图像元素和第二图像元素;
上述内容识别单元903,用于对上述第一图像元素和上述第二图像元素分别进行内容识别得到第一内容和第二内容;
上述关系预测单元904,用于依据上述第一内容和上述第二内容进行关系预测得到关系预测结果。
具体实现方法与图2所示的图像处理方法相同,这里不作详述。
作为一种优选的实施方式,上述内容识别单元903包括:第一内容识别子单元9031和第二内容识别子单元9032;该第一内容识别子单元9031,用于对上述第一图像元素进行内容分类预测得到第一分类结果,对上述第一图像元素的位置进行预测得到第一预测位置;该第二内容识别子单元9032,用于对上述第二图像元素进行内容分类预测得到第二分类结果,对上述第二图像元素的位置进行预测得到第二预测位置;上述关系预测单元904,用于依据上述第一内容和上述第二内容进行关系预测得到关系预测结果包括:依据上述第一分类结果和上述第一预测位置以及上述第二分类结果和上述第二预测位置进行关系预测得到关系预测结果。具体实现方法与图2所示的图像处理方法相同,这里不作详述。
作为一种优选的实施方式,上述终端设备还包括:目标元素区域生成单元905,用于在上述待处理图像的特征图上生成至少两个目标元素区域,该目标元素区域为上述特征图上包含单个图像元素的图像区域;上述内容识别单元903,用于对上述目标元素区域中的内容进行分类预测,得到上述目标元素区域中的内容的分类结果;对上述目标元素区域的位置进行位置预测,得到上述目标元素区域的预测位置;上述关系预测单元904,用于对上述目标元素区域中内容之间的关系进行关系预测,得到上述目标元素区域中内容之间的关系预测结果。具体实现方法与图2所示的图像处理方法相同,这里不作详述。
作为一种优选的实施方式,
上述内容识别单元903,用于利用概率函数
计算上述目标元素区域中内容的分类预测概率、上述目标元素区域的位置预测概率;利用方程x*=argmaxxPr(x|I,BI)解得上述目标元素区域中的内容的分类结果、上述目标元素区域的预测位置;
上述关系预测单元904,用于利用概率函数
计算上述目标元素区域中内容之间的关系预测概率;利用方程x*=argmaxxPr(x|I,BI)解得上述目标元素区域中内容之间的关系预测结果;
其中,是变量的集合,Pr为每个变量x的概率函数名,n为所述目标元素区域的个数,V是上述目标元素区域的集合,是第i个上述目标元素区域中内容的分类变量,是表示上述目标元素区域的坐标的变量,xi→j是第i个上述目标元素区域中内容和第j个上述目标元素区域中内容的关系变量,I为上述待处理图像的特征图,BI为上述目标元素区域,∏是各项连乘的运算符号;x*为上述目标元素区域中的内容的分类结果变量、上述目标元素区域的预测位置变量、上述目标元素区域中内容之间的关系预测结果变量的集合,argmaxxPr(x|I,BI)为寻找使得上述概率函数Pr(x|I,BI)取得最大值所对应的变量x的函数。具体实现方法与图2所示的图像处理方法相同,这里不作详述。
作为一种优选的实施方式,上述终端设备还包括:显示单元806,用于通过自然语言的文本形式将上述第一内容、上述第二内容以及上述关系预测结果显示出来。具体实现方法与图2所示的图像处理方法相同,这里不作详述。
请一并参阅图10,图10是本发明实施例公开的另一种终端设备的示意框图。本实施例的终端设备包括:图像接收单元1001,特征图提取单元1002,目标元素区域生成单元1003,视觉特征点提取单元1004,视觉特征点处理单元1005,关系预测单元1006;
图像接收单元1001,用于接收待处理图像;
特征图提取单元1002,用于提取上述待处理图像的特征图;
目标元素区域生成单元1003,用于在该待处理图像的特征图上生成至少两个目标元素区域,该目标元素区域为上述特征图上包含单个图像元素的图像区域;
视觉特征点提取单元1004,用于提取上述目标元素区域中的代表上述图像元素视觉特征的节点和边缘点;
视觉特征点处理单元1005,用于利用预设处理方法对上述节点和上述边缘点进行处理,该预设处理方法包括:将上述节点和上述边缘点分别作为门控递归单位递归神经网络GRU的节点输入数据和边缘点输入数据进行计算,分别得到节点GRU结果和边缘GRU结果;分别对该节点GRU结果和该边缘GRU结果进行池化,分别得到节点池化结果和边缘池化结果;将上述节点池化结果和上述边缘池化结果分别作为下一次预设处理方法的门控递归单位递归神经网络GRU的边缘点输入数据和节点输入数据,继续利用预设处理方法进行处理直至得到上述目标元素区域中内容的分类预测概率、上述目标元素区域的位置预测概率、以及上述目标元素区域中内容之间的关系预测概率;
关系预测单元1006,用于根据上述分类预测概率、上述位置预测概率以及上述关系预测概率解得上述目标元素区域中的内容的分类结果、上述目标元素区域的预测位置以及上述目标元素区域中内容之间的关系预测结果。
具体实现方法与图7所示的图像处理方法相同,这里不作详述。
作为一种优选的实施方式,上述将上述节点和上述边缘点分别作为门控递归单位递归神经网络GRU的节点输入数据和边缘点输入数据进行计算,分别得到节点GRU结果和边缘GRU结果,包括:利用概率函数
分别计算上述节点输入数据和上述边缘点输入数据对应的上述目标元素区域中内容的分类预测概率、上述目标元素区域的位置预测概率、以及上述目标元素区域中内容之间的关系预测概率;其中,是变量的集合,Q为每个变量x的概率函数名,n为所述目标元素区域的个数,是第i个所述目标元素区域中内容的分类变量,是表示所述目标元素区域的坐标的变量,xi→j是第i个所述目标元素区域中内容和第j个所述目标元素区域中内容的关系变量,hi为节点i的当前隐藏状态,hi→j为节点i到节点j的当前隐藏状态,fi v为一个关于节点i的视觉特征,是一个节点i到节点j的视觉特征迭代;将上述节点输入数据对应的上述目标元素区域中内容的分类预测概率、上述目标元素区域的位置预测概率、以及上述目标元素区域中内容之间的关系预测概率作为上述节点GRU结果;将上述边缘点输入数据对应的上述目标元素区域中内容的分类预测概率、上述目标元素区域的位置预测概率、以及上述目标元素区域中内容之间的关系预测概率作为上述边缘GRU结果。
本实施方式中,节点和边缘点的池权值算法为
其中,hi为节点i的当前隐藏状态,hi→j为节点i到节点j的当前隐藏状态,σ代表一个类似logistic函数的s型函数,w1,w2是学习参数,这两个等式描述了最初原始的双更新规则。具体实现方法与图7所示的图像处理方法相同,这里不作详述。
参见图11,图11是本发明另一实施例提供的一种终端设备的示意框图。如图所示的本实施例中的终端设备可以包括:一个或多个处理器1101;一个或多个输入设备1102,一个或多个输出设备1103和存储器1104。上述处理器1101、输入设备1102、输出设备1103和存储器1104通过总线1105连接。存储器1102用于存储计算机程序,该计算机程序包括程序指令,处理器1101用于执行存储器1102存储的程序指令。其中,处理器1101被配置用于调用该程序指令执行以下操作:
接收待处理图像;
提取上述待处理图像的特征图,在该特征图中包含第一图像元素和第二图像元素;
对上述第一图像元素和上述第二图像元素分别进行内容识别得到第一内容和第二内容;
依据上述第一内容和上述第二内容进行关系预测得到关系预测结果。
应当理解,在本发明实施例中,所称处理器1101可以是中央处理单元(CentralProcessing Unit,CPU),该处理器还可以是其他通用处理器、数字信号处理器(DigitalSignal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现成可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
输入设备1102可以包括触控板、指纹采传感器(用于采集用户的指纹信息和指纹的方向信息)、麦克风等,输出设备1103可以包括显示器(LCD等)、扬声器等。
该存储器1104可以包括只读存储器和随机存取存储器,并向处理器1101提供指令和数据。存储器1104的一部分还可以包括非易失性随机存取存储器。例如,存储器1104还可以存储设备类型的信息。
具体实现中,本发明实施例中所描述的处理器1101、输入设备1102、输出设备1103可执行本发明实施例提供的续航测试的方法的第一实施例和第二实施例中所描述的实现方式,也可执行本发明实施例所描述的终端设备的实现方式,在此不再赘述。
在本发明的另一实施例中提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序包括程序指令,该程序指令被处理器执行时实现:
接收待处理图像;
提取上述待处理图像的特征图,在该特征图中包含第一图像元素和第二图像元素;
对上述第一图像元素和上述第二图像元素分别进行内容识别得到第一内容和第二内容;
依据上述第一内容和上述第二内容进行关系预测得到关系预测结果。
上述计算机可读存储介质可以是前述任一实施例的终端设备的内部存储单元,例如终端设备的硬盘或内存。上述计算机可读存储介质也可以是上述终端设备的外部存储设备,例如上述终端设备上配备的插接式硬盘,智能存储卡(Smart Media Card,SMC),安全数字(Secure Digital,SD)卡,闪存卡(Flash Card)等。进一步地,上述计算机可读存储介质还可以既包括上述终端设备的内部存储单元也包括外部存储设备。上述计算机可读存储介质用于存储上述计算机程序以及上述终端设备所需的其他程序和数据。上述计算机可读存储介质还可以用于暂时地存储已经输出或者将要输出的数据。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的终端设备和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的终端设备和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,上述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
上述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
上述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例中方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (10)

1.一种图像处理方法,其特征在于,包括:
接收待处理图像;
提取所述待处理图像的特征图,在所述特征图中包含第一图像元素和第二图像元素;
对所述第一图像元素和所述第二图像元素分别进行内容识别得到第一内容和第二内容;
依据所述第一内容和所述第二内容进行关系预测得到关系预测结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述第一图像元素和所述第二图像元素分别进行内容识别得到第一内容和第二内容,包括:
对所述第一图像元素进行内容分类预测得到第一分类结果,对所述第一图像元素的位置进行预测得到第一预测位置;对所述第二图像元素进行内容分类预测得到第二分类结果,对所述第二图像元素的位置进行预测得到第二预测位置;
所述依据所述第一内容和所述第二内容进行关系预测得到关系预测结果包括:
依据所述第一分类结果和所述第一预测位置以及所述第二分类结果和所述第二预测位置进行关系预测得到关系预测结果。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
在所述待处理图像的特征图上生成至少两个目标元素区域,所述目标元素区域为所述特征图上包含单个图像元素的图像区域;
所述对所述第一图像元素进行内容分类预测得到第一分类结果,对所述第一图像元素的位置进行预测得到第一预测位置;对所述第二图像元素进行内容分类预测得到第二分类结果,对所述第二图像元素的位置进行预测得到第二预测位置;依据所述第一分类结果和所述第一预测位置以及第二分类结果和所述第二预测位置进行关系预测得到关系预测结果,包括:
对所述目标元素区域中的内容进行分类预测,得到所述目标元素区域中的内容的分类结果;
对所述目标元素区域的位置进行位置预测,得到所述目标元素区域的预测位置;
对所述目标元素区域中内容之间的关系进行关系预测,得到所述目标元素区域中内容之间的关系预测结果。
4.根据权利要求3所述的方法,其特征在于,所述对所述目标元素区域中的内容进行分类预测,得到所述目标元素区域中的内容的分类结果;对所述目标元素区域的位置进行位置预测,得到所述目标元素区域的预测位置;对所述目标元素区域中内容之间的关系进行关系预测,得到所述目标元素区域中内容之间的关系预测结果,包括:利用概率函数
<mrow> <mi>Pr</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>I</mi> <mo>,</mo> <msub> <mi>B</mi> <mi>I</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munder> <mo>&amp;Pi;</mo> <mrow> <mi>i</mi> <mo>&amp;Element;</mo> <mi>V</mi> </mrow> </munder> <munder> <mo>&amp;Pi;</mo> <mrow> <mi>j</mi> <mo>&amp;NotEqual;</mo> <mi>i</mi> </mrow> </munder> <mi>Pr</mi> <mrow> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>c</mi> <mi>l</mi> <mi>s</mi> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>b</mi> <mi>b</mi> <mi>o</mi> <mi>x</mi> </mrow> </msubsup> <mo>,</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>&amp;RightArrow;</mo> <mi>j</mi> </mrow> </msub> <mo>|</mo> <mi>I</mi> <mo>,</mo> <msub> <mi>B</mi> <mi>I</mi> </msub> <mo>)</mo> </mrow> </mrow>
计算所述目标元素区域中内容的分类预测概率、所述目标元素区域的位置预测概率、以及所述目标元素区域中内容之间的关系预测概率;其中,是变量的集合,Pr为每个变量x的概率函数名,n为所述目标元素区域的个数,V是所述目标元素区域的集合,是第i个所述目标元素区域中内容的分类变量,是表示所述目标元素区域的坐标的变量,xi→j是第i个所述目标元素区域中内容和第j个所述目标元素区域中内容的关系变量,I为所述待处理图像的特征图,BI为所述目标元素区域,∏是各项连乘的运算符号;
利用方程x*=argmaxxPr(x|I,BI)解得所述目标元素区域中的内容的分类结果、所述目标元素区域的预测位置、所述目标元素区域中内容之间的关系预测结果;其中,x*为所述目标元素区域中的内容的分类结果变量、所述目标元素区域的预测位置变量、所述目标元素区域中内容之间的关系预测结果变量的集合,argmaxxPr(x|I,BI)为寻找使得所述概率函数Pr(x|I,BI)取得最大值所对应的变量x的函数。
5.根据权利要求4所述的方法,其特征在于,所述利用概率函数计算所述目标元素区域中内容的分类预测概率、所述目标元素区域的位置预测概率、以及所述目标元素区域中内容之间的关系预测概率,包括:
提取所述目标元素区域中的代表所述图像元素视觉特征的节点和边缘点;
利用预设处理方法对所述节点和所述边缘点进行处理,所述预设处理方法包括:将所述节点和所述边缘点分别作为门控递归单位递归神经网络GRU的节点输入数据和边缘点输入数据进行计算,分别得到节点GRU结果和边缘GRU结果;分别对所述节点GRU结果和所述边缘GRU结果进行池化,分别得到节点池化结果和边缘池化结果;
将所述节点池化结果和所述边缘池化结果分别作为下一次预设处理方法的门控递归单位递归神经网络GRU的边缘点输入数据和节点输入数据,继续利用预设处理方法进行处理直至得到所述目标元素区域中内容的分类预测概率、所述目标元素区域的位置预测概率、以及所述目标元素区域中内容之间的关系预测概率。
6.根据权利要求5所述的方法,其特征在于,所述将所述节点和所述边缘点分别作为门控递归单位递归神经网络GRU的节点输入数据和边缘点输入数据进行计算,分别得到节点GRU结果和边缘GRU结果,包括:利用概率函数
<mrow> <mi>Q</mi> <mrow> <mo>(</mo> <mi>x</mi> <mo>|</mo> <mi>I</mi> <mo>,</mo> <msub> <mi>B</mi> <mi>I</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfenced open = "{" close = ""> <mtable> <mtr> <mtd> <mstyle> <munderover> <mo>&amp;Pi;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> </mstyle> <mi>Q</mi> <mo>(</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>c</mi> <mi>l</mi> <mi>s</mi> </mrow> </msubsup> <mo>,</mo> <msubsup> <mi>x</mi> <mi>i</mi> <mrow> <mi>b</mi> <mi>b</mi> <mi>o</mi> <mi>x</mi> </mrow> </msubsup> <mo>|</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>)</mo> <mi>Q</mi> <mo>(</mo> <msub> <mi>h</mi> <mi>i</mi> </msub> <mo>|</mo> <msubsup> <mi>f</mi> <mi>i</mi> <mi>v</mi> </msubsup> <mo>)</mo> </mtd> </mtr> <mtr> <mtd> <mstyle> <munder> <mo>&amp;Pi;</mo> <mrow> <mi>j</mi> <mo>&amp;NotEqual;</mo> <mi>i</mi> </mrow> </munder> </mstyle> <mi>Q</mi> <mo>(</mo> <msub> <mi>x</mi> <mrow> <mi>i</mi> <mo>&amp;RightArrow;</mo> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msub> <mi>h</mi> <mrow> <mi>i</mi> <mo>&amp;RightArrow;</mo> <mi>j</mi> </mrow> </msub> <mo>)</mo> <mi>Q</mi> <mo>(</mo> <msub> <mi>h</mi> <mrow> <mi>i</mi> <mo>&amp;RightArrow;</mo> <mi>j</mi> </mrow> </msub> <mo>|</mo> <msubsup> <mi>f</mi> <mrow> <mi>i</mi> <mo>&amp;RightArrow;</mo> <mi>j</mi> </mrow> <mi>e</mi> </msubsup> <mo>)</mo> </mtd> </mtr> </mtable> </mfenced> </mrow>
分别计算所述节点输入数据和所述边缘点输入数据对应的所述目标元素区域中内容的分类预测概率、所述目标元素区域的位置预测概率、以及所述目标元素区域中内容之间的关系预测概率;其中,是变量的集合,Q为每个变量x的概率函数名,n为所述目标元素区域的个数,是第i个所述目标元素区域中内容的分类变量,是表示所述目标元素区域的坐标的变量,xi→j是第i个所述目标元素区域中内容和第j个所述目标元素区域中内容的关系变量,hi为节点i的当前隐藏状态,hi→j为节点i到节点j的当前隐藏状态,fi v为一个关于节点i的视觉特征,是一个节点i到节点j的视觉特征迭代;
将所述节点输入数据对应的所述目标元素区域中内容的分类预测概率、所述目标元素区域的位置预测概率、以及所述目标元素区域中内容之间的关系预测概率作为所述节点GRU结果;
将所述边缘点输入数据对应的所述目标元素区域中内容的分类预测概率、所述目标元素区域的位置预测概率、以及所述目标元素区域中内容之间的关系预测概率作为所述边缘GRU结果。
7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
通过自然语言的文本形式将所述第一内容、所述第二内容以及所述关系预测结果显示出来。
8.一种终端设备,其特征在于,包括用于执行如权利要求1至7任一权利要求所述的方法的单元。
9.一种终端设备,其特征在于,包括处理器、输入设备、输出设备和存储器,所述处理器、输入设备、输出设备和存储器相互连接,其中,所述存储器用于存储计算机程序,所述计算机程序包括程序指令,所述处理器被配置用于调用所述程序指令,执行如权利要求1至7任一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的方法。
CN201710996498.5A 2017-10-23 2017-10-23 一种图像处理的方法、终端设备及计算机可读介质 Withdrawn CN107886097A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201710996498.5A CN107886097A (zh) 2017-10-23 2017-10-23 一种图像处理的方法、终端设备及计算机可读介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201710996498.5A CN107886097A (zh) 2017-10-23 2017-10-23 一种图像处理的方法、终端设备及计算机可读介质

Publications (1)

Publication Number Publication Date
CN107886097A true CN107886097A (zh) 2018-04-06

Family

ID=61782147

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201710996498.5A Withdrawn CN107886097A (zh) 2017-10-23 2017-10-23 一种图像处理的方法、终端设备及计算机可读介质

Country Status (1)

Country Link
CN (1) CN107886097A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463430A (zh) * 2022-04-13 2022-05-10 威海经济技术开发区天智创新技术研究院 一种基于图像处理的海洋搜救系统和方法
CN115375736A (zh) * 2022-10-25 2022-11-22 威海市博华医疗设备有限公司 一种基于图像的行人轨迹跟踪方法和装置

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114463430A (zh) * 2022-04-13 2022-05-10 威海经济技术开发区天智创新技术研究院 一种基于图像处理的海洋搜救系统和方法
CN114463430B (zh) * 2022-04-13 2022-07-01 威海经济技术开发区天智创新技术研究院 一种基于图像处理的海洋搜救系统和方法
CN115375736A (zh) * 2022-10-25 2022-11-22 威海市博华医疗设备有限公司 一种基于图像的行人轨迹跟踪方法和装置

Similar Documents

Publication Publication Date Title
US10635890B2 (en) Facial recognition method and apparatus, electronic device, and storage medium
CN107633204B (zh) 人脸遮挡检测方法、装置及存储介质
CN107633207B (zh) Au特征识别方法、装置及存储介质
CN109657533B (zh) 行人重识别方法及相关产品
CN110751043B (zh) 基于人脸可见性的人脸识别方法、装置及存储介质
US12087097B2 (en) Image recognition method and apparatus, computer-readable storage medium, and electronic device
WO2021042547A1 (zh) 行为识别方法、装置及计算机可读存储介质
WO2018028546A1 (zh) 一种关键点的定位方法及终端、计算机存储介质
US11062124B2 (en) Face pose detection method, device and storage medium
CN110033018B (zh) 图形相似度判断方法、装置及计算机可读存储介质
CN110163096B (zh) 人物识别方法、装置、电子设备和计算机可读介质
CN111242030A (zh) 视频数据处理方法、装置、设备及计算机可读存储介质
CN110633004B (zh) 基于人体姿态估计的交互方法、装置和系统
CN113255557B (zh) 一种基于深度学习的视频人群情绪分析方法及系统
CN112699297A (zh) 基于用户画像的服务推荐方法、装置、设备及存储介质
CN114402369A (zh) 人体姿态的识别方法、装置、存储介质及电子设备
CN114359974B (zh) 一种人体姿态的检测方法、设备及存储介质
CN109711427A (zh) 目标检测方法及相关产品
CN111401339A (zh) 识别人脸图像中的人的年龄的方法、装置及电子设备
CN111680546A (zh) 注意力检测方法、装置、电子设备及存储介质
US20230290174A1 (en) Weakly supervised semantic parsing
CN111444850A (zh) 一种图片检测的方法和相关装置
CN109784140A (zh) 驾驶员属性识别方法及相关产品
CN114758382B (zh) 基于自适应补丁学习的面部au检测模型建立方法及应用
CN113705534A (zh) 基于深度视觉的行为预测方法、装置、设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
WW01 Invention patent application withdrawn after publication

Application publication date: 20180406

WW01 Invention patent application withdrawn after publication