CN112822390A - 处理图像的方法和图像处理设备 - Google Patents
处理图像的方法和图像处理设备 Download PDFInfo
- Publication number
- CN112822390A CN112822390A CN202010426927.7A CN202010426927A CN112822390A CN 112822390 A CN112822390 A CN 112822390A CN 202010426927 A CN202010426927 A CN 202010426927A CN 112822390 A CN112822390 A CN 112822390A
- Authority
- CN
- China
- Prior art keywords
- image
- information
- processing
- objects
- user
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 238000012545 processing Methods 0.000 title claims abstract description 284
- 238000000034 method Methods 0.000 title claims abstract description 52
- 238000013473 artificial intelligence Methods 0.000 claims description 40
- 238000013528 artificial neural network Methods 0.000 claims description 34
- 238000010586 diagram Methods 0.000 description 14
- 230000000694 effects Effects 0.000 description 13
- 230000008569 process Effects 0.000 description 13
- 238000013527 convolutional neural network Methods 0.000 description 11
- 101150013335 img1 gene Proteins 0.000 description 10
- 235000013550 pizza Nutrition 0.000 description 9
- 102100027867 FH2 domain-containing protein 1 Human genes 0.000 description 7
- 101001060553 Homo sapiens FH2 domain-containing protein 1 Proteins 0.000 description 7
- 238000011176 pooling Methods 0.000 description 6
- 238000012549 training Methods 0.000 description 5
- 238000004364 calculation method Methods 0.000 description 4
- 238000012937 correction Methods 0.000 description 4
- 238000005516 engineering process Methods 0.000 description 4
- 230000006870 function Effects 0.000 description 4
- 238000010801 machine learning Methods 0.000 description 4
- 239000011159 matrix material Substances 0.000 description 4
- 101100452236 Caenorhabditis elegans inf-1 gene Proteins 0.000 description 3
- 230000004913 activation Effects 0.000 description 3
- 239000003990 capacitor Substances 0.000 description 3
- 238000012986 modification Methods 0.000 description 3
- 230000004048 modification Effects 0.000 description 3
- 230000004044 response Effects 0.000 description 3
- 239000013598 vector Substances 0.000 description 3
- 102100023882 Endoribonuclease ZC3H12A Human genes 0.000 description 2
- 101710112715 Endoribonuclease ZC3H12A Proteins 0.000 description 2
- 101001096074 Homo sapiens Regenerating islet-derived protein 4 Proteins 0.000 description 2
- 108700012361 REG2 Proteins 0.000 description 2
- 101150108637 REG2 gene Proteins 0.000 description 2
- 108091058543 REG3 Proteins 0.000 description 2
- 101100120298 Rattus norvegicus Flot1 gene Proteins 0.000 description 2
- 101100412403 Rattus norvegicus Reg3b gene Proteins 0.000 description 2
- 102100027336 Regenerating islet-derived protein 3-alpha Human genes 0.000 description 2
- 102100037889 Regenerating islet-derived protein 4 Human genes 0.000 description 2
- 230000003190 augmentative effect Effects 0.000 description 2
- 210000004027 cell Anatomy 0.000 description 2
- 230000008859 change Effects 0.000 description 2
- 238000004891 communication Methods 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 230000010354 integration Effects 0.000 description 2
- 230000003993 interaction Effects 0.000 description 2
- 238000004519 manufacturing process Methods 0.000 description 2
- 210000002569 neuron Anatomy 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000008520 organization Effects 0.000 description 2
- QGVYYLZOAMMKAH-UHFFFAOYSA-N pegnivacogin Chemical compound COCCOC(=O)NCCCCC(NC(=O)OCCOC)C(=O)NCCCCCCOP(=O)(O)O QGVYYLZOAMMKAH-UHFFFAOYSA-N 0.000 description 2
- 230000000306 recurrent effect Effects 0.000 description 2
- 230000009466 transformation Effects 0.000 description 2
- 230000000007 visual effect Effects 0.000 description 2
- 101100257062 Leishmania major IPCS gene Proteins 0.000 description 1
- 230000008901 benefit Effects 0.000 description 1
- 210000004556 brain Anatomy 0.000 description 1
- 230000000295 complement effect Effects 0.000 description 1
- 238000005094 computer simulation Methods 0.000 description 1
- 238000003066 decision tree Methods 0.000 description 1
- 238000001914 filtration Methods 0.000 description 1
- 101150071665 img2 gene Proteins 0.000 description 1
- 238000012886 linear function Methods 0.000 description 1
- 238000012417 linear regression Methods 0.000 description 1
- 238000007477 logistic regression Methods 0.000 description 1
- 230000015654 memory Effects 0.000 description 1
- 229910044991 metal oxide Inorganic materials 0.000 description 1
- 150000004706 metal oxides Chemical class 0.000 description 1
- 230000003278 mimic effect Effects 0.000 description 1
- 230000001537 neural effect Effects 0.000 description 1
- 238000000513 principal component analysis Methods 0.000 description 1
- 238000007637 random forest analysis Methods 0.000 description 1
- 238000001454 recorded image Methods 0.000 description 1
- 230000009467 reduction Effects 0.000 description 1
- 230000002787 reinforcement Effects 0.000 description 1
- 238000005070 sampling Methods 0.000 description 1
- 230000011218 segmentation Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000006403 short-term memory Effects 0.000 description 1
- 238000000638 solvent extraction Methods 0.000 description 1
- 238000012360 testing method Methods 0.000 description 1
- 238000010977 unit operation Methods 0.000 description 1
- 230000003936 working memory Effects 0.000 description 1
Images
Classifications
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/67—Focus control based on electronic image sensor signals
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/61—Control of cameras or camera modules based on recognised objects
- H04N23/611—Control of cameras or camera modules based on recognised objects where the recognised objects include parts of the human body
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/62—Control of parameters via user interfaces
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/66—Remote control of cameras or camera parts, e.g. by remote control devices
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/60—Control of cameras or camera modules
- H04N23/67—Focus control based on electronic image sensor signals
- H04N23/671—Focus control based on electronic image sensor signals in combination with active ranging signals, e.g. using light or sound signals emitted toward objects
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04N—PICTORIAL COMMUNICATION, e.g. TELEVISION
- H04N23/00—Cameras or camera modules comprising electronic image sensors; Control thereof
- H04N23/80—Camera processing pipelines; Components thereof
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
Landscapes
- Engineering & Computer Science (AREA)
- Multimedia (AREA)
- Signal Processing (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Physics & Mathematics (AREA)
- Acoustics & Sound (AREA)
- Image Analysis (AREA)
- Studio Devices (AREA)
Abstract
提供了处理图像的方法和图像处理设备。在处理图像的方法中,获取包括多个对象的第一图像以及与所述第一图像相关联的图像信息。基于包括在所述第一图像中的所述多个对象当中的第一对象以及以用户的语音信息和来自所述用户的触摸信息中的至少一种指定的用户命令,获取与要对所述第一图像执行的图像操作相关联的图像处理信息。通过基于所述图像信息和所述图像处理信息对所述第一图像执行所述图像操作产生第二图像。
Description
技术领域
一些示例实施例总体上涉及图像获取和处理,并且更具体地涉及基于人工智能(AI)处理图像的方法及执行该方法的图像处理设备。
背景技术
图像记录设备已被用于诸如计算机、移动电话、平板电脑、虚拟现实(VR)设备和机器人系统的各种电子系统和移动系统中。可以以各种方式处理由图像记录设备记录的图像。例如,可以对所记录的图像进行处理以呈现各种效果中的至少一种。
在计算机科学中,与人类展现的自然的智能相比较而言,有时被称为机器智能的人工智能(AI)是机器展示的智能。
在一些示例实施例中,可以基于机器学习、神经网络、人工神经网络(ANN)等来实现AI。通过对执行高效地识别模式的过程的人脑的细胞结构模型进行工程设计来获得ANN。ANN是指基于软件或硬件并且被设计成通过应用许多通过连接线互连的人工神经元来模仿生物计算能力的计算模型。ANN通过将具有连接强度的人工神经元互连来执行学习过程。近来,已经研究了基于AI和/或ANN的图像操作。
发明内容
本公开的一些示例实施例提供了一种基于人工智能(AI)处理图像的方法,该方法能够高效地在当前图像上呈现各种效果。
本公开的一些示例实施例提供了一种执行处理图像的方法的图像处理设备。
根据一些示例实施例,在处理图像的方法中,由处理电路获取包括多个对象的第一图像以及与所述第一图像相关联的图像信息。由所述处理电路基于所述多个对象当中的第一对象以及以用户的语音信息和来自所述用户的触摸信息中的至少一种指定的用户命令,获取与要对所述第一图像执行的图像操作相关联的图像处理信息。由所述处理电路通过基于所述图像信息和所述图像处理信息对所述第一图像执行所述图像操作产生第二图像。
根据一些示例实施例,一种图像处理设备包括:图像拾取装置,被配置为获取包括多个对象的第一图像;以及处理电路,被配置为:分析所述第一图像,以获取与所述第一图像相关联的图像信息,接收以用户的语音信息和来自所述用户的触摸信息中的至少一种指定的用户命令,分析所述用户命令以获取与要基于所述多个对象中的对象对所述第一图像执行的图像操作相关联的图像处理信息,以及通过基于所述图像信息和所述图像处理信息对所述第一图像执行所述图像操作,来获取第二图像。
根据一些示例实施例,在处理图像的方法中,由处理电路对多个对象中的至少一个对象执行第一自动聚焦,以获取包括所述多个对象的第一图像。由所述处理电路分析所述第一图像以获取图像信息,所述图像信息包括:所述第一图像的场景信息、表示所述多个对象的对象类型的多个标签、以及所述多个对象在所述第一图像中所在的多个对象区域。由所述处理电路接收以用户的语音信息和来自所述用户的触摸信息中的至少一种指定的用户命令,所述用户命令表示要基于所述多个对象当中的对象对所述第一图像执行的图像操作。由所述处理电路分析所述用户命令,以获取包括与所述对象相关联的第一信息和与所述图像操作相关联的第二信息的图像处理信息。所述处理电路确定用于所述多个对象的所述多个标签当中是否存在对应于所述第一信息的标签。所述处理电路基于所述对象、与所述图像操作相关联的所述第二信息以及确定出存在所述标签,执行第二自动聚焦。所述处理电路基于所述第二信息仅对所述第一图像中的对应于所述对象的第一区域执行所述图像操作,以获取第二图像。
根据一些示例实施例,在基于人工智能处理图像的方法和图像处理设备中,处理电路可以基于人工智能来分析当前图像以获取图像信息,处理电路可以接收需要最少用户操作或交互的信号作为用户命令,并且处理电路可以基于用户命令和图像信息,将期望的特定效果应用于包括在当前图像中的特定对象。因此,用户可以向图像处理设备发出用户命令以聚焦于他或她想要的特定对象,并且选择性地和部分地对特定对象施加适当的效果。因此,可以在当前图像上高效地表现或呈现各种效果,并且可以满足用户的需求。
附图说明
通过以下结合附图的详细描述,将更清楚地理解一些示例实施例。
图1是示出了根据一些示例实施例的处理图像的方法的流程图。
图2是示出了根据一些示例实施例的图像处理设备的框图。
图3A和图3B是用于描述根据一些示例实施例的由图像处理设备中包括的人工智能处理元件驱动的人工神经网络的示例的示图。
图4是示出了图1中的获取第一图像和图像信息的示例的流程图。
图5是用于描述图4中的获取第一图像和图像信息的操作的示图。
图6是示出了图1中的获取图像处理信息的示例的流程图。
图7是示出了图1中的获取第二图像的示例的流程图。
图8A和图8B是用于描述图7中的获取第二图像的操作的示图。
图9是示出了图1中的获取第二图像的另一示例的流程图。
图10A、图10B、图11A和图11B是用于描述图9中的获取第二图像的操作的示图。
图12是示出了图1中的获取第二图像的又一示例的流程图。
图13、图14和图15是示出了根据一些示例实施例的图像处理设备的框图。
图16是示出了根据一些示例实施例的电子系统的框图。
具体实施方式
将参照示出了一些示例实施例的附图更全面地描述各种示例实施例。然而,本公开可以以许多不同的形式来体现,并且不应被解释为限于本文所阐述的示例实施例。贯穿本申请,相似的附图标记指代相似的元件。
图1是示出了根据一些示例实施例的处理图像的方法的流程图。
参照图1,根据一些示例实施例的执行处理图像的方法以将期望的特定效果应用于图像中的特定对象。在一些示例实施例中,可以通过图像处理设备来执行处理图像的方法,该图像处理设备包括基于人工智能(AI)来分析图像的处理电路。将参照图2和其他附图描述图像处理设备的详细配置。
在根据一些示例实施例的处理图像的方法中,通过处理电路获得包括多个对象的第一图像以及与第一图像相关联的图像信息(操作S100)。例如,如将参照图4描述的,处理电路可以通过执行第一自动聚焦(AF)来捕获第一图像,并且处理电路可以通过分析第一图像来获取图像信息。
处理电路响应于从用户接收包括用户的语音信息和触摸信息中的至少一种的用户命令,获取图像处理信息(操作S200)。图像处理信息是用于对包括在第一图像中的多个对象当中的对象执行图像操作的信息。例如,用户命令可以包括与对象相关联的第一信息和与图像操作相关联的第二信息。如将参照图6描述的,包括第一信息和第二信息的图像处理信息可以是由处理电路通过分析用户命令获得的。在一些示例实施例中,用户命令可以包括两个或更多个图像操作,例如,针对对象的聚焦操作和锐化操作,或者针对第一对象的聚焦操作和针对第二对象的锐化操作。
处理电路通过基于图像信息和根据用户命令获得的图像处理信息对第一图像执行图像操作,生成与第一图像相对应的第二图像(操作S300)。例如,如将参照图7描述的,第二图像可以是由处理电路通过基于对象执行第二自动聚焦生成(例如,捕获)的。在一些示例实施例中,可以通过应用硬件自动聚焦,例如,将镜头重新聚焦在对象上并捕获另外的图像,来生成第二图像或其他后续图像。在一些其他示例实施例中,可以通过对第一图像施加聚焦操作以对图像的描绘对象的部分进行重新聚焦(例如,锐化)来生成第二图像或其他后续图像。换句话说,在根据一些示例实施例的处理图像的方法中可以执行两次自动聚焦。在一些示例实施例中,如将参考图8描述的,处理电路可以通过基于对象对图像执行第二自动聚焦和附加图像操作来生成第二图像。
在根据一些示例实施例的处理图像的一些示例方法中,处理电路可以基于人工智能来分析当前图像以获得图像信息,可以接收信号作为用户命令,并且基于用户命令和所获得的图像信息,处理电路可以基于包括在当前图像中的特定对象将期望的特定效果施加到当前图像。因此,用户可以命令成像设备聚焦在他或她想要的特定对象上,并且选择性地并且部分地将适当的效果施加到特定对象上。因此,可以在当前图像上高效地表现或呈现各种效果,并且可以满足用户的需求。
图2是示出了根据一些示例实施例的图像处理设备的框图。
参照图2,图像处理设备100包括图像拾取装置200和处理电路。在一些示例实施例中,如图2所示,处理电路可以包括图像分析器300、命令接收器400、命令分析器500和图像处理器600。图像处理设备100还可以包括至少一个人工智能处理元件(PE)700。应当理解,一些其他示例实施例可以包括一组与图2所示的组件不同的组件,诸如更多或更少的组件,和/或可以包括由图像处理设备100执行的操作的不同布置和执行此类操作的组件的不同布置。例如,在一些示例实施例中,图像处理设备100中的一个组件可以执行两个或更多个操作;而在一些其他示例实施例中,一个操作可以由两个或更多个组件执行。此外,处理电路的各个组件可以被实现为各种计算技术,例如,硬件、软件或硬件/软件组合。
图像拾取装置200被配置为从外部接收从多个对象反射的外部光信号LS,并获取与外部光信号LS相对应的第一图像IMG1。图像拾取装置200可以包括透镜210、快门220、传感器230、透镜驱动器240和快门驱动器250中的至少一种。
透镜210可以将外部光信号LS会聚在传感器230上。例如,外部光信号LS可以包括可见光信号、红外光信号和/或近红外光信号。尽管图2中的图像拾取装置200包括单个透镜210,但是根据一些其他示例实施例,图像拾取装置可以包括两个透镜或多于两个的透镜。
传感器230可以基于通过透镜210会聚的光信号LS'获取第一图像IMGl。第一图像IMG1可以是在图1的操作S100中获取的第一图像,并且可以是对其执行第一自动聚焦的图像。
在一些示例实施例中,传感器230可以包括互补金属氧化物半导体(CMOS)图像传感器。例如,传感器230可以包括RGB传感器。在一些其他示例实施例中,传感器230可以包括诸如电荷耦合器件(CCD)图像传感器的各种类型的图像传感器之一。
快门220可以选择性地将通过透镜210会聚的光信号LS'提供给传感器230。例如,快门220可以包括电快门、光学快门、机械快门等中的一种或更多种。在一些示例实施例中,快门220可以与传感器230集成在一起。在一些其他示例实施例中,快门220可以与传感器230分开。
透镜驱动器240可以被配置为产生用于控制和/或调整透镜210的位置的透镜驱动信号LDS。例如,透镜驱动器240可以包括诸如音圈电机(VCM)的各种类型的电机之一。快门驱动器250可以被配置为产生用于控制和/或调整快门220的切换时间(例如,打开快门或关闭快门的时间点)和/或快门220的曝光时间(例如,快门的积分周期)的快门驱动信号SDS。尽管未在图2中示出,但是图像拾取装置200还可以包括被配置为控制镜头驱动器240和快门驱动器250的操作的控制器。
图像分析器300可以被配置为分析第一图像IMG1以获取与第一图像IMG1相关联的图像信息IMG_INF1。如将参照图4描述的,图像信息IMG_INF1可以包括:与第一图像IMG1的场景类型相关联的信息ISCN、与用于包括在第一图像IMG1中的多个对象的多个标签相关联的信息ILAB、与多个对象在第一图像IMG1中所在的多个对象区域相关联的信息IREG等。尽管未在图2中示出,但是图像分析器300可以包括场景检测器和/或语义分割单元。
命令接收器400可以被配置为从用户接收并输出包括用户的语音信息和触摸信息中的至少一种的用户命令信号UCS。命令分析器500可以被配置为分析用户命令信号UCS以获取用于对包括在第一图像IMG1中的多个对象当中的对象执行图像操作的图像处理信息PCS_INF1。如将参照图6描述的,图像处理信息PCS_INF1可以包括与对象相关联的第一信息IOBJ、与图像操作相关联的第二信息IPCS等。
在图2的示例中,用户命令信号UCS可以对应于用户的语音信息。命令接收器400可以包括被配置为接收与用户的语音信息相对应的语音信号VS作为用户命令信号UCS的语音接收装置410。例如,语音接收装置410可以包括诸如模拟麦克风、数字麦克风、蓝牙麦克风等的各种类型的麦克风中的至少一种。命令分析器500可以包括被配置为分析用户的语音信息以获取图像处理信息PCS_INF1的语音识别装置510。例如,语音识别装置510可以以被实现为语音助手服务、自动语音识别(ASR)服务等的形式。
图像处理器600可以被配置为基于第一图像IMG1、图像信息IMG_INF1和根据用户命令信号UCS获取到的图像处理信息PCS_INF1,通过基于包括在第一图像IMG1中的多个对象当中的对象对第一图像执行图像操作,来获取与第一图像IMG1相对应的第二图像IMG2。例如,图像操作可以包括自动聚焦、自动曝光、白平衡调整、色彩饱和度调整、对比度调整、锐度调整、图像插值、色彩校正、伽马校正和颜色变换中的至少一种。
人工智能处理元件700可以与图像分析器300互操作,并且可以被配置为驱动人工神经网络(ANN),ANN被配置(例如被设计和/或被训练)为分析第一图像IMG1以获取图像信息IMG_INF1。将参照图3A和图3B描述人工神经网络的示例结构。
在一些示例实施例中,人工智能处理元件700可以包括中央处理单元(CPU)、图形处理单元(GPU)、神经处理单元(NPU)、数字信号处理器(DSP)、图像信号处理器(ISP)和专用硬件(DHW)中的至少一种。例如,专用硬件可以包括视觉处理单元(VPU)、视觉知识产权(vision intellectual property,VIP)等。每个处理元件可以被称为计算资源。
图像拾取装置200、图像分析器300和人工智能处理元件700可以统称为人工智能相机。
在一些示例实施例中,人工神经网络可以与包括在命令分析器500中的语音识别装置510互操作,并且可以被配置为通过分析用户的语音信息来获取图像处理信息PCS_INF1。在一些其他示例实施例中,人工神经网络可以与图像处理器600互操作,并且可以被配置为执行图像操作。
在一些示例实施例中,图2中的图像分析器300、命令分析器500、图像处理器600和人工智能处理元件700中的至少一部分可以被实现为硬件。例如,根据一些示例实施例的图像处理设备100中包括的至少一部分元件可以被包括在基于计算机的电子系统中。在一些其他示例实施例中,图2中的图像分析器300、命令分析器500、图像处理器600和人工智能处理元件700中的至少一部分可以被实现为指令代码或程序例程(例如,软件程序)。例如,指令代码或程序例程可以由基于计算机的电子系统执行,并且可以存储在位于基于计算机的电子系统内部或外部的任何存储设备中。
在一些示例实施例中,图像处理设备100可以是移动系统,例如,移动电话、智能电话、平板计算机、膝上型计算机、个人数字助理(PDA)、便携式多媒体播放器(PMP)、数码相机、便携式游戏机、音乐播放器、便携式摄像机、视频播放器、导航设备、可穿戴设备、物联网(IoT)设备、万物联网(IoE)设备、电子书阅读器、虚拟现实(VR)设备、增强现实(AR)设备、机器人设备等。在一些其他示例实施例中,图像处理设备100可以是任何计算系统,例如,个人计算机(PC)、服务器计算机、工作站、数字电视、机顶盒、导航系统等。
尽管未在图2中示出,但是图像处理设备100还可以包括存储与图像处理相关联的数据的存储器或存储装置。
根据一些示例实施例的图1的处理图像的方法可以由图像处理设备100执行。例如,图1中的操作S100可以由图像拾取装置200和/或包括图像分析器300和/或人工智能处理元件700的处理电路执行。图1中的操作S200可以由命令接收器400和命令分析器500执行,并且图1中的操作S300可以由图像拾取装置200和图像处理器600执行。
图3A和图3B是用于描述根据一些示例实施例的由图像处理设备中包括的人工智能处理元件驱动的人工神经网络的示例的示图。
参照图3A,一般的神经网络可以包括:输入层IL,多个隐藏层HL1、HL2、……、HLn,以及输出层OL。
输入层IL可以包括i个输入节点x1、x2、…、xi,其中i是自然数。可以将长度为i的输入数据(例如,向量输入数据)IDAT输入到输入节点x1、x2、…、xi,使得输入数据IDAT的每个元素被输入到输入节点x1、x2、…、xi中的相应节点。
多个隐藏层HL1、HL2、…、HLn可以包括n个隐藏层,其中n是自然数,并且可以包括多个隐藏节点h1 1、h1 2、h1 3、…、h1 m、h2 1、h2 2、h2 3、…、h2 m、hn 1、hn 2、hn 3、…、hn m。例如,隐藏层HL1可以包括m个隐藏节点h1 1、h1 2、h1 3、…、h1 m,隐藏层HL2可以包括m个隐藏节点h2 1、h2 2、h2 3、…、h2 m,隐藏层HLn可以包括m个隐藏节点hn 1、hn 2、hn 3、…、hn m,其中m是自然数。
输出层OL可以包括j个输出节点y1、y2、…、yj,其中j是自然数。输出节点y1、y2、…、yj中的每个节点可以对应于要分类的多个类别中的相应的一类。输出层OL可以针对每个类别输出与输入数据IDAT相关联的值(例如,类别得分或简单得分)。输出层OL可以被称为全连接层,并且可以指示例如输入数据IDAT对应于汽车的概率。
图3A中所示的神经网络的结构可以由被示为线的节点之间的分支(或连接)上的信息以及分配给每个分支的加权值(未示出)来表示。一层内的节点可以不彼此连接,但是不同层的节点可以完全或部分地彼此连接。
每个节点(例如,节点h1 1)可以接收上一个节点(例如,节点x1)的输出,可以对接收到的输出执行计算操作、运算或计算,并且可以输出计算操作、运算或计算的结果作为到下一个节点(例如,节点h2 1)的输出。每个节点可以通过将输入应用于特定函数(例如,非线性函数)来计算要输出的值。
通常,神经网络的结构是预先设置的,并且使用数据所属的类别是已知答案的数据,来适当地设置用于节点之间的连接的加权值。具有已知答案的数据称为“训练数据”,而确定加权值的过程称为“训练”。神经网络在训练过程中“学习”。一组可独立训练的结构和加权值称为“模型”,并且通过具有确定的加权值的模型预测输入数据所属的类别然后输出预测值的过程称为“测试”过程。
由于每个节点(例如,节点h1 1)连接到上一层的所有节点(例如,包括在层IL中的节点x1、x2、…、xi),并且随着输入图像数据的大小增加,加权值的数量急剧增加,因此图3A所示的一般的神经网络可能不适合用于处理输入图像数据(或输入声音数据)。因此,已经研究了通过将滤波技术与一般的神经网络相结合而实现的卷积神经网络,从而通过卷积神经网络高效地训练了二维图像(例如,输入图像数据)。
参照图3B,卷积神经网络可以包括多个层CONV1、RELU1、CONV2、RELU2、POOL1、CONV3、RELU3、CONV4、RELU4、POOL2、CONV5、RELU5、CONV6、RELU6、POOL3和FC。
与一般的神经网络不同,卷积神经网络的每一层可以具有宽度、高度和深度的三个维度,因此输入到每一层的数据可以是具有宽度、高度和深度的三个维度的体数据。例如,如果图3B中的输入图像具有32的宽度(例如,32个像素)和32的高度的大小以及三个颜色通道R、G和B,与输入图像相对应的输入数据IDAT可以具有32×32×3的大小。图3B中的输入数据IDAT可以称为输入体数据或输入激活体。
卷积层CONV1、CONV2、CONV3、CONV4、CONV5和CONV6均可以对输入体数据执行卷积运算。在图像处理中,卷积运算表示基于具有加权值的掩码对图像数据进行处理、通过将输入值与加权值相乘并将所有乘积值相加获得输出值的操作。该掩码可以称为滤波器、窗口或内核。
在一些示例实施例中,每个卷积层的参数可以包括一组可学习的滤波器。每个滤波器在空间上(沿宽度和高度)可以很小,但可以延伸到输入体的整个深度。例如,在正向传递(forward pass)期间,每个滤波器可以滑过(更精确地,卷积)输入体的宽度和高度,并且可以计算滤波器的条目与任何位置的输入之间的点积。当滤波器滑过输入体的宽度和高度时,可以产生给出该滤波器在每个空间位置的响应的二维激活图。结果,可以通过沿着深度维度堆叠这些激活图来产生输出体。例如,如果具有32×32×3的大小的输入体数据经过具有四个具有补零的滤波器的卷积层CONV1,则卷积层CONV1的输出体数据可以具有32×32×12的大小(例如,体数据的深度增加)。
RELU层RELU1、RELU2、RELU3、RELU4、RELU5和RELU6均可以执行与由例如函数f(x)=max(0,x)(例如,所有负输入x的输出均为零)定义的激活函数对应的整流线性单元操作。例如,如果大小为32×32×12的输入体数据经过RELU层RELU1以执行整流线性单元操作,则RELU层RELU1的输出体数据的大小可以为32×32×12(例如,保持体数据的大小)。
池化层POOL1、POOL2和POOL3均可以沿宽度和高度的空间维度对输入体数据执行下采样操作。例如,以2×2矩阵形式排列的四个输入值可以基于2×2滤波器被转换为一个输出值。例如,可以基于2×2最大池化来选择以2×2矩阵形式排列的四个输入值中的最大值,或者可以基于2×2平均池化来获取以2×2矩阵形式排列的四个输入值的平均值。例如,如果大小为32×32×12的输入体数据经过具有2×2滤波器的池化层POOL1,则池化层POOL1的输出体数据的大小可以为16×16×12(例如,体数据的宽度和高度减小,并且体数据的深度保持)。
通常,一个卷积层(例如CONV1)和一个RELU层(例如RELU1)可以形成卷积神经网络中的一对CONV/RELU层,成对的CONV/RELU层可以重复地排列在卷积神经网络中,并且池化层可以周期性地插入到卷积神经网络中,从而减小图像的空间大小并提取图像的特征。
输出层或完全连接层FC可以针对每个类别输出输入体数据IDAT的结果(例如,类别得分)。例如,当重复卷积操作和下采样操作时,与二维图像相对应的输入体数据IDAT可以被转换为一维矩阵或向量。例如,完全连接层FC可以表示输入体数据IDAT对应于汽车、卡车、飞机、轮船和马的概率。
卷积神经网络中包括的层的类型和数量可以不限于参照图3B描述的示例,并且可以根据一些示例实施例进行改变。另外,尽管在图3B中未示出,但是,卷积神经网络还可以包括其他层,例如,用于将与预测结果对应的得分值转换为概率值的softmax层,或者用于添加至少一个偏置的偏置添加层。
虽然图3示出了使用人工神经网络(ANN)执行一些操作,但是应当理解,在一些示例实施例中,处理电路可以被配置为基于可以在几个方面有所不同的人工智能和/或机器学习模型执行一些操作(包括对第一图像执行的图像操作)。作为第一示例,可以通过例如有监督的、无监督的和/或强化学习模型在一组训练数据上训练处理电路使用的人工神经网络,其中处理电路可以处理特征向量以基于训练提供输出。这样的人工神经网络可以利用各种人工神经网络的组织和处理模型,例如,卷积神经网络(CNN)、反卷积神经网络、可选地包括长短期记忆(LSTM)单元和/或门控递归单元(GRU)的递归神经网络(RNN)、堆叠神经网络(SNN)、状态空间动态神经网络(SSDNN)、深度置信网络(DBN)、生成对抗网络(GAN)和/或受限玻尔兹曼机器(restricted Boltzmann machines,RBM)。作为第二示例,处理电路可以包括(作为人工神经网络的替代方案或附加于人工神经网络)人工智能和/或机器学习的其他模型,例如,线性和/或逻辑回归、统计聚类、贝叶斯分类、决策树、诸如主成分分析的降维、以及专家系统;和/或它们的组合,包括诸如随机森林的集成(ensembles)。应当理解,可以用于执行这样的操作的所有人工智能和/或机器学习模型都包括在本公开中。
图4是示出了图1中的获取第一图像和图像信息的示例的流程图。图5是用于描述图4中的获取第一图像和图像信息的操作的示图。
参照图1、图4和图5,基于获取第一图像和图像信息(操作S100),成像装置的处理电路可以被配置为执行第一自动聚焦以捕获第一图像IMAGE1(操作S110)。例如,图5的第一图像IMAGE1可以包括多个对象(例如,人和树)和背景(例如,太阳、山等),并且处理电路可以被配置为对多个对象中的至少一个对象执行第一自动聚焦。
在一些示例实施例中,处理电路可以被配置为对多个对象中的最大的对象执行第一自动聚焦。例如,处理电路可以被配置为对图5的第一图像IMAGE1中的与最大的对象相对应的黑头发的人执行第一自动聚焦。
在其他示例实施例中,处理电路可以被配置为对多个对象中的最靠近第一图像IMAGE1的中心的对象执行第一自动聚焦。例如,处理电路可以被配置为对图1的第一图像IMAGE1中的与最靠近中心的对象相对应的黑头发的人执行第一自动聚焦。
在其他示例实施例中,处理电路可以被配置为对第一图像IMAGE1中的任何固定区域执行第一自动聚焦。例如,最感兴趣的区域通常可以在图像中居中,因此处理电路可以被配置为对图5的第一图像IMAGE1的中心区域执行第一自动聚焦。
在一些示例实施例中,处理电路可以被配置为以图像数据的形式或者以包括通过对图像数据进行编码而获得的编码数据的形式提供第一图像IMAGE1。例如,图像数据可以具有诸如以下各种图像格式之一:RGB(红、绿、蓝)、YUV(亮度-带宽-色度)、YCbCr(数字视频中的亮度、色度蓝、色度红)、YPbPr(也称为“分量视频”,是YcbCr色彩空间的模拟版本)等。例如,可以基于诸如JPEG(联合图像专家组)、MPEG(运动图像专家组)、H.264、HEVC(高效视频编码)等的各种编码方案之一生成编码数据。
在获得第一图像IMAGE1之后,处理电路可以被配置为分析第一图像IMAGE1以检测第一图像IMAGE1的场景类型(操作S120)。例如,处理电路可以被配置为相对于捕获图像的地方或背景(例如,山、海、溪流等)对场景类型进行分类。例如,处理电路可以被配置为例如在制造根据一些示例实施例的执行处理图像的方法的图像处理设备时,预先对场景类型进行分类并存储场景类型。例如,通过使用由人工智能处理元件驱动的人工神经网络,处理电路可以将第一图像IMAGE1的场景类型检测为“山”。
处理电路可以被配置为对包括在第一图像IMAGE1中的多个对象进行分析,以检测多个对象的对象类型和/或将多个标签LAB1、LAB2、LAB3和LAB4分配给多个对象(操作S130)。例如,处理电路可以被配置为相对于图像中的对象(或主体)(诸如人(或脸部)、车等)对对象类型进行分类。与场景类型一样,处理电路可以被配置为例如在制造根据一些示例实施例的执行处理图像的方法的图像处理设备时,预先对对象类型进行分类并预先存储对象类型。例如,通过使用由人工智能处理元件驱动的人工神经网络,处理电路可以将第一图像IMAGE1中的多个对象检测和/或分类为两个人和两棵树,以及多个标签LAB1、LAB2、LAB3和LAB4可以分别被设置为“脸部1”、“脸部2”、“树1”和“树2”。
处理电路可以被配置为检测多个对象位于或布置在第一图像IMAGE1中的位置的多个对象区域REG1、REG2、REG3和REG4(操作S140)。例如,多个对象区域REG1、REG2、REG3和REG4可以指示被分配了多个标签LAB1、LAB2、LAB3和LAB4的多个对象的位置。
图6是示出了图1中的获取图像处理信息的示例的流程图。
参照图1和图6,基于图像处理信息(操作S200),处理电路可以被配置为确定(例如,识别)包括用户的语音信息和来自用户的触摸信息中的至少一者的用户命令(操作S210),分析用户命令以检测与对象相关联的第一信息(操作S220),和/或分析用户命令以检测与图像操作相关联的第二信息(操作S230)。在一些示例实施例中,与用户命令相对应的语音信息和/或触摸信息可以包括与对象相关联的第一信息和与图像操作相关联的第二信息两者。
例如,基于语音信息被接收为用户命令,并且基于包括短语“聚焦于脸部”的语音信息,处理电路可以被配置为分析语音信息以提取“脸部”作为第一信息和/或“聚焦于”作为第二信息。
图7是示出了图1中的获取第二图像的示例的流程图。图8A和图8B是用于描述图7中的获取第二图像的操作的示图。
参照图1、图7、图8A和图8B,基于第二图像(操作S300),处理电路可以确定在多个对象的多个标签中存在对应于与对象相关联的第一信息的标签(操作S310)。
基于确定存在与第一信息相对应的第一标签(操作S310:是),处理电路可以基于对象、标签和与图像操作相关联的第二信息对图像执行第二自动聚焦,以生成(例如,捕获)第二图像(操作S320)。
在图7的示例中,处理电路可以被配置为仅对图像的包括对象的部分执行包括第二自动聚焦的图像操作。
在一些示例实施例中,基于已经对图像的包括对象的部分执行了自动聚焦,例如,根据基于第一图像已经聚焦了的对象对第一图像执行了图4的操作S110中的第一自动聚焦,处理电路可以被配置为省略第二自动聚焦。
基于不存在对应于第一信息的第一标签(操作S310:否),处理电路可以被配置为在不进行任何图像处理的情况下(例如,在未获取第二图像的情况下)终止该过程。
在一些示例实施例中,图8A的图像可以是第一图像,图8B的图像可以是第二图像。例如,处理电路可以被配置为捕获图8A中的包括脸部和花朵的图像作为第一图像,和/或通过对脸部执行第一自动聚焦来捕获第一图像。处理电路可以被配置为对图8A的图像和图8A的图像中的对象进行分析,检测场景类型为“房间”,为对象分配“脸部”和“花朵”的标签,和/或检测指示对象位置的对象区域。之后,基于作为用户命令的包括短语“聚焦于花朵”的语音信息,处理电路可以被配置为分析用户命令以提取“花朵”和“聚焦于”分别作为第一信息和第二信息。由于存在与第一信息“花朵”相对应的标签,因此处理电路可以被配置为对花朵执行第二自动聚焦,从而可以产生(例如,捕获)图8B的图像作为第二图像。
在一些其他示例实施例中,图8B的图像可以是第一图像,而图8A的图像可以是第二图像。例如,图8B的对花朵执行了第一自动聚焦的图像可以被捕获作为第一图像。处理电路可以被配置为对图8B的图像和图8B的图像中的对象进行分析,以检测场景类型、分配标签和/或检测对象区域。之后,基于作为用户命令的包括短语“聚焦于脸部”的语音信息,处理电路可以被配置为分析用户命令以提取“脸部”和“聚焦于”分别作为第一信息和第二信息。由于存在与第一信息“脸部”相对应的标签,因此处理电路可以被配置为对脸部执行第二自动聚焦,和/或产生(例如,捕获)图8A的图像作为第二图像。
在另外的其他示例实施例中,图8A的图像和图8B的图像都可以是第二图像。例如,尽管未示出,但是处理电路可以被配置为捕获对除了脸部和花朵以外的区域执行了第一自动聚焦的图像作为第一图像。处理电路可以被配置为分析第一图像和第一图像中的对象以检测场景类型、分配标签和/或检测对象区域。之后,基于作为用户命令的包括短语“聚焦于脸部”的语音信息,处理电路可以被配置为产生(例如,捕获)图8A的图像作为根据上述过程的第二图像。基于作为用户命令的包括短语“聚焦于花朵”的语音信息,处理电路可以被配置为产生(例如,捕获)图8B的图像作为根据上述过程的第二图像。
图9是示出了图1中的获取第二图像的另一示例的流程图。图10A、图10B、图11A和图11B是用于描述图9中的获取第二图像的操作的示图。将省略与图7重复的描述。
参照图1、图9、图10A、图10B、图11A和图11B,基于获取第二图像(操作S300),图9中的操作S310可以与图7中的操作S310基本相同。
基于确定出存在与第一信息相对应的第一标签(操作S310:是),处理电路可以被配置为基于对象和与图像操作相关联的第二信息对第一图像执行第二自动聚焦,以产生(例如,捕获)第三图像(操作S325),和/或基于对象和第二信息对第三图像执行图像操作以产生第二图像(操作S330)。
在图9的示例中,图像操作可以包括针对对象的第二自动聚焦,并且还可以包括针对与对象相对应的第一区域的白平衡调整、色彩饱和度调整、对比度调整和清晰度调整中的至少一个。然而,一些示例实施例不限于此,并且图像操作还可以包括针对与对象相对应的第一区域的图像插值、色彩校正、伽马校正、颜色变换等。
基于确定出不存在与第一信息相对应的第一标签(操作S310:否),处理电路可以被配置为在不进行任何图像处理的情况下(例如,在未获取第二图像的情况下)终止该过程。
在一些示例实施例中,图10A的图像可以是第一图像,图10B的图像可以是第二图像。例如,处理电路可以被配置为例如通过对自行车执行第一自动聚焦来捕获图10A的包括文本和自行车的图像作为第一图像。处理电路可以被配置为对图10A的图像和图10A的图像中的对象进行分析,检测场景类型为“街道”,为对象分配“文本”和“自行车”的标签,和/或检测指示对象位置的对象区域。之后,基于作为用户命令的包括短语“使文本清晰”的语音信息,处理电路可以被配置为分析用户命令以提取“文本”和“使清晰”分别作为第一信息和第二信息。基于确定出存在与第一信息“文本”相对应的标签,处理电路可以被配置为对包括文本的传单执行第二自动聚焦以产生(例如,捕获)第三图像,提高第三图像的清晰度,并获取图10B的图像作为第二图像。
在一些示例实施例中,图11A的图像可以是第一图像,图11B的图像可以是第二图像。例如,处理电路可以被配置为例如通过对披萨执行第一自动聚焦来捕获图11A的包括披萨、叉子、刀等的图像作为第一图像。处理电路可以被配置为对图11A的图像和图11A的图像中的对象进行分析,检测场景类型为“餐厅”,将“披萨”、“叉子”和“刀”的标签分配给对象,和/或检测指示对象位置的对象区域。之后,基于作为用户命令的包括短语“使披萨呈彩色”的语音信息,处理电路可以被配置为分析用户命令以提取“披萨”和“使呈彩色”分别作为第一信息和第二信息。基于确定出存在与第一信息“披萨”相对应的标签,处理电路可以被配置为对披萨执行第二自动聚焦以产生(例如,捕获)第三图像,调整和/或修改第三图像的色彩饱和度和/或对比度,和/或获取图11B的图像作为第二图像。作为替代方案,由于已经对第一图像中的披萨进行了第一自动聚焦,因此处理电路可以被配置为省略捕获第三图像、调整和/或修改第一图像的色彩饱和度和/或对比度和/或获取图11B的图像作为第二图像的操作。
在一些示例实施例中,处理电路可以被配置为例如仅对与第三图像中的对象相对应的第一区域部分地执行图像操作。然而,一些示例实施例不限于此,并且处理电路可以被配置为对整个(或全部)第三图像执行图像操作。
图12是示出了图1中的获取第二图像的又一示例的流程图。将省略与图7和图9重复的描述。
参照图1和图12,基于第二图像(操作S300),图12中的操作S310、S325和S330可以分别与图9中的操作S310、S325和S330基本相同。
基于确定出不存在与第一信息相对应的第一标签(操作S310:否),处理电路可以被配置为检查是否需要用于确定是否存在第一标签的附加信息(操作S340),而不是在未获取第二图像的情况下终止该过程。
基于确定出需要附加信息(操作S340:是),处理电路可以被配置为请求附加用户命令(操作S350),接收和/或分析附加用户命令以再次检测第一信息(操作S360),和/或基于从附加用户命令检测到的第一信息来执行操作S310、S325和S330。基于不需要附加信息(操作S340:否),处理电路可以被配置为在不进行任何图像处理的情况下(例如,在未获取第二图像的情况下)终止该过程。
在一些示例实施例中,处理电路可以被配置为仅基于确定出在多个对象的多个标签中不存在对应于与对象相关联的第一信息的第一标签,来请求附加用户命令。例如,当图8A的图像可以是第一图像,并且基于作为用户命令的包括短语“使文本清晰”的语音信息时,处理电路可以被配置为例如因为第一图像中不存在文本,所以通过输出消息“请选择另一对象”来请求附加用户命令。
在一些其他示例实施例中,处理电路可以被配置为基于仅使用第一信息无法确认在多个对象的多个标签中是否存在对应于与对象相关联的第一信息的第一标签,而请求附加用户命令。例如,图5的图像可以是第一图像,并且基于作为用户命令的包括短语“聚焦于脸部”的语音信息,处理电路可以被配置为通过输出消息“应聚焦于谁的脸部?”来请求附加用户命令,因为尚不清楚要聚焦于两个脸部中的哪一个。
在一些示例实施例中,处理电路可以被配置为在初始接收用户命令的操作中请求和/或接收更具体且详细的信息。例如,图5的图像可以是第一图像,并且基于作为用户命令的包括短语“聚焦于左边的人的脸部”的语音信息,处理电路可以被配置为执行图像操作(例如,立即地、直接地和/或在不请求附加用户命令的情况下)。
在一些示例实施例中,根据一些示例实施例的执行处理图像的方法的图像处理设备还可以包括用于预测与对象的距离的深度传感器或装置,并且可以基于距离(或深度)信息执行图像处理。例如,基于从相机到彼此不同的对象的距离,并且基于作为用户命令的包括短语“聚焦于最近的人”或“聚焦于最远的汽车”的语音信息,处理电路可以被配置为基于从用于预测距离的深度传感器或装置接收到的距离信息执行图像操作(例如,立即地和/或直接地),而无需请求附加用户命令。
尽管未示出,但是可以将图12所示的请求附加用户命令的操作应用于图7的示例。
尽管已经参照图4至图12基于特定图像、特定对象和特定图像处理描述了一些示例实施例,但是一些示例实施例不限于此,并且可以被应用于或被扩展到处理电路可以被配置为选择性地和/或部分地将期望效果应用于图像中的任何对象的示例。另外,尽管已经基于包括多个对象的图像描述了一些示例实施例,但是一些示例实施例不限于此,并且可以被应用于或被扩展到图像包括单个对象的示例。
如本领域技术人员将理解的,本文讨论的一些发明构思可以体现为系统、方法、计算机程序产品和/或在具有在其上体现的计算机可读程序代码的一个或更多个计算机可读介质中体现的计算机程序产品。计算机可读程序代码可以被提供给通用计算机、专用计算机或其他可编程数据处理设备的处理器。计算机可读介质可以是计算机可读信号介质或计算机可读存储介质。计算机可读存储介质可以是可以包含或存储供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合使用的程序的任何有形介质。例如,计算机可读介质可以是非暂时性计算机可读介质。
图13、图14和图15是示出了根据一些示例实施例的图像处理设备的框图。将省略与图2重复的描述。
参照图13,图像处理设备100a包括图像拾取装置200和处理电路。在一些示例实施例中,处理电路可以包括图像分析器300a、命令接收器400、命令分析器500和图像处理器600。图像处理设备100a还可以包括至少一个人工智能处理元件700。应当理解,一些其他示例实施例可以包括一组与图13所示的组件不同的组件,例如,更多或更少的组件,和/或可以包括由图像处理设备100执行的操作与被配置为执行这些操作的组件的不同布置。例如,在一些示例实施例中,图像处理设备100的一个组件可以执行两个或更多个操作;而在一些其他示例实施例中,一个操作可以由两个或更多个组件执行。此外,处理电路的各个组件可以被实现为各种计算技术,例如硬件、软件或硬件/软件组合。
除了人工智能处理元件700可以包括在处理电路(例如,图像分析器300a)中之外,图13的图像处理设备100a可以与图2的图像处理设备100基本相同。图13中的图像拾取装置200、命令接收器400、命令分析器500、图像处理器600和/或人工智能处理元件700可以分别与图2中的图像拾取装置200、命令接收器400、命令分析器500、图像处理器600和/或人工智能处理元件700基本相同。
参照图14,图像处理设备100b包括图像拾取装置200和处理电路。在一些示例实施例中,如图14所示,处理电路可以包括图像分析器300、命令接收器400、命令分析器500和图像处理器600b。图像处理设备100b还可以包括至少一个人工智能处理元件700。应当理解,一些其他示例实施例可以包括一组与图14所示的组件不同的组件,例如,更多或更少的组件,和/或可以包括由图像处理设备100执行的操作与被配置为执行这些操作的组件的不同布置。例如,在一些示例实施例中,图像处理设备100的一个组件可以执行两个或更多个操作;而在一些其他示例实施例中,一个操作可以由两个或更多个组件执行。此外,处理电路的各个组件可以被实现为各种计算技术,例如硬件、软件或硬件/软件组合。
除了人工智能处理元件700包括在处理电路(例如,图像处理器600b)中之外,图14的图像处理设备100b可以与图2的图像处理设备100基本相同。图14中的图像拾取装置200、图像分析器300、命令接收器400、命令分析器500和/或人工智能处理元件700可以分别与图2中的图像拾取装置200、图像分析器300、命令接收器400、命令分析器500和/或人工智能处理元件700基本相同。
参照图15,图像处理设备100c包括图像拾取装置200和处理电路。在一些示例实施例中,如图15所示,处理电路可以包括图像分析器300、命令接收器400c、命令分析器500c和图像处理器600。图像处理设备100c还可以包括至少一个人工智能处理元件700。应当理解,一些其他示例实施例可以包括一组与图13所示的组件不同的组件,例如,更多或更少的组件,和/或可以包括由图像处理设备100执行的操作与被配置为执行这些操作的组件的不同布置。例如,在一些示例实施例中,图像处理设备100的一个组件可以执行两个或更多个操作;而在一些其他示例实施例中,一个操作可以由两个或更多个组件执行。此外,处理电路的各个组件可以被实现为各种计算技术,例如硬件、软件或硬件/软件组合。
除了命令接收器400c和命令分析器500c的配置改变之外,图15的图像处理设备100c可以与图2的图像处理设备100基本相同。图15中的图像拾取装置200、图像分析器300、图像处理器600和/或人工智能处理元件700可以分别与图2中的图像拾取装置200、图像分析器300、图像处理器600和/或人工智能处理元件700基本相同。
在图15的示例中,用户命令信号UCS可以对应于来自用户的触摸信息(或触摸事件)。处理电路(例如,命令接收器400c)可以包括被配置为接收与来自用户的触摸信息相对应的触摸信号(或感测信号)TS作为用户命令信号UCS的触摸传感器面板(TSP)420。例如,触摸传感器面板420可以包括多个感测电容器,并且每个感测电容器的电容可以响应于对象(例如,用户的手指)的接触或接近而变化。处理电路(例如,命令分析器500c)可以包括被配置为分析来自用户的触摸信息以获得图像处理信息PCS_INF1的触摸控制器520。例如,触摸控制器520可以被配置为基于每个感测电容器的电容的变化来识别对象的接触或接近,和/或输出命令以执行特定的和/或适当的操作(例如,图像中的对象选择和/或图像处理)。
尽管未示出,但是在图15中所示的包括触摸传感器面板420和触摸控制器520的图像处理设备100c中,人工智能处理元件700的布置可以改变,如参照图13和图14所描述的。
尽管已经参照图1至图15,基于接收到用户的语音信息和来自用户的触摸信息中的至少一种作为用户命令信号的示例描述了一些示例实施例,但是一些示例实施例不限于此,并且可以被应用于或扩展到这样的示例:为了方便用户,命令接收器和命令分析器接收并分析任意触发信息(例如,运动信息、手势信息等)作为用户命令信号。
图16是示出了根据一些示例实施例的电子系统的框图。
参照图16,电子系统1000包括处理电路1010、通信接口1020、存储设备1030、用户接口1040、电源1050和图像处理设备1060。例如,电子系统1000可以是任何移动系统或任何计算系统。
在一些示例实施例中,处理电路1010可以包括诸如逻辑电路的硬件;诸如执行软件的处理器之类的硬件/软件组合;或它们的组合。例如,处理器可以包括但不限于中央处理单元(CPU)、算术逻辑单元(ALU)、数字信号处理器、微计算机、现场可编程门阵列(FPGA)、片上系统(SoC)、可编程逻辑单元、微处理器、专用集成电路(ASIC)等。处理电路1010可以被配置为控制电子系统1000的整体操作,以执行操作系统(OS)和各种应用程序,和/或执行诸如运算和任务的各种计算功能。通信接口1020可以被配置为与外部设备通信。存储设备1030可以被配置为用作由处理电路1010处理的数据的数据存储装置或工作存储器。用户接口1040可以包括诸如小键盘、按钮、麦克风、触摸屏等的至少一个输入设备,和/或诸如扬声器或显示设备等的至少一个输出设备。电源1050可以被配置为向电子系统1000提供电力。
图像处理设备1060可以由处理电路1010控制,并且可以是根据一些示例实施例的图像处理设备。在图像处理设备1060中,可以基于人工智能来分析当前图像以获取图像信息,可以接收需要最小限度的用户操作或交互的信号作为用户命令,并且可以基于用户命令和所获取的图像信息,将期望的特定效果应用于包括在当前图像中的特定图像。因此,用户可以聚焦于他或她想要的特定对象,并且可以选择性地和部分地对特定对象施加适当的效果。因此,可以在当前图像上高效地表现或展现各种效果,并且可以满足用户的需求。
本文提出的一些示例实施例可以呈现组件的示例组织。在不脱离本公开的范围的情况下,其他示例实施例可以包括组件的不同组织,例如重命名、重新布置、添加、分区、复制、合并和/或删除组件、组件集以及它们之间的关系。所有这样的在技术上和逻辑上合理的并且与其他陈述不矛盾的可能变化都旨在被包括在本公开中,其范围应被理解为仅由权利要求书限制。
在一些示例实施例中,本文讨论的一些发明构思可以应用于包括图像处理设备和系统的各种电子设备和系统。例如,本文讨论的一些发明构思可以应用于诸如以下各项的系统:移动电话、智能电话、平板计算机、膝上型计算机、个人数字助理(PDA)、便携式多媒体播放器(PMP)、数字相机、便携式游戏机、音乐播放器、便携式摄像机、视频播放器、导航设备、可穿戴设备、物联网(IoT)设备、万物联网(IoE)设备、电子书阅读器、虚拟现实(VR)设备、增强现实(AR)设备、机器人设备等。
前述内容是一些示例实施例的说明,并且不应解释为对其的限制。尽管已经描述了一些示例实施例,但是本领域技术人员将容易理解,在实质上不脱离此类示例实施例的新颖性教导和优点的情况下,在某些示例实施例中可以进行许多修改。因此,所有这样的修改旨在被包括在如权利要求中所限定的一些示例实施例的范围内。因此,应理解,前述内容是各种示例实施例的说明,并且不应解释为限于所公开的特定示例实施例,并且对所公开的示例实施例的修改以及一些其他示例实施例旨在包括在所附权利要求书的范围内。
Claims (20)
1.一种处理图像的方法,所述方法包括:
由处理电路获取:包括多个对象的第一图像,以及与所述第一图像相关联的图像信息;
由所述处理电路基于所述多个对象当中的第一对象以及以用户的语音信息和来自所述用户的触摸信息中的至少一种指定的用户命令,获取与要对所述第一图像执行的图像操作相关联的图像处理信息;以及
由所述处理电路通过基于所述图像信息和所述图像处理信息对所述第一图像执行所述图像操作,产生第二图像。
2.根据权利要求1所述的方法,其中,获取所述第一图像和所述图像信息包括:
对所述多个对象中的至少一个对象执行第一自动聚焦,以捕获所述第一图像;
分析所述第一图像以检测所述第一图像的场景类型;
分析所述多个对象,以检测所述多个对象的对象类型,以及将多个标签分配给所述多个对象;以及
检测所述多个对象中的各个对象在所述第一图像中所在的多个对象区域。
3.根据权利要求2所述的方法,其中,对所述多个对象当中的最大的对象执行所述第一自动聚焦。
4.根据权利要求2所述的方法,其中,对所述多个对象当中的最靠近所述第一图像的中心的对象执行所述第一自动聚焦。
5.根据权利要求2所述的方法,其中,获取所述图像处理信息包括:
识别所述用户命令;
分析所述用户命令以检测与所述第一对象相关联的第一信息;以及
分析所述用户命令以检测与所述图像操作相关联的第二信息。
6.根据权利要求5所述的方法,其中,产生所述第二图像包括:
确定用于所述多个对象的所述多个标签当中是否存在对应于所述第一信息的第一标签;以及
基于所述第一对象、确定出存在所述第一标签以及所述第二信息,对所述第一图像执行第二自动聚焦,以产生所述第二图像。
7.根据权利要求6所述的方法,其中,所述图像操作包括所述第二自动聚焦。
8.根据权利要求5所述的方法,其中,产生所述第二图像包括:
确定用于所述多个对象的所述多个标签当中是否存在对应于所述第一信息的第一标签;
基于所述第一对象、确定出存在所述第一标签以及所述第二信息,对所述第一图像执行第二自动聚焦,以产生第三图像;以及
基于所述第一对象和所述第二信息对所述第三图像执行所述图像操作以产生所述第二图像。
9.根据权利要求8所述的方法,其中,执行所述图像操作包括仅对所述第三图像中的对应于所述第一对象的第一区域执行所述图像操作。
10.根据权利要求8所述的方法,其中:
所述图像操作包括针对所述第一对象的所述第二自动聚焦,并且
所述图像操作还包括要应用于所述第一图像和所述第三图像中的至少一者中的对应于所述第一对象的第一区域的白平衡调整、色彩饱和度调整、对比度调整和清晰度调整中的至少一个。
11.根据权利要求8所述的方法,其中,所述处理电路还被配置为:
基于确定出不存在所述第一标签,请求附加用户命令。
12.根据权利要求8所述的方法,其中,所述处理电路还被配置为:
基于确定出仅基于所述第一信息无法确认所述第一标签的存在,请求附加用户命令。
13.一种图像处理设备,所述图像处理设备包括:
图像拾取装置,被配置为获取包括多个对象的第一图像;以及
处理电路,被配置为:
分析所述第一图像,以获取与所述第一图像相关联的图像信息,
接收以用户的语音信息和来自所述用户的触摸信息中的至少一种指定的用户命令,
分析所述用户命令以获取与要基于所述多个对象中的对象对所述第一图像执行的图像操作相关联的图像处理信息,以及
通过基于所述图像信息和所述图像处理信息对所述第一图像执行所述图像操作,来获取第二图像。
14.根据权利要求13所述的图像处理设备,所述图像处理设备还包括:
至少一个人工智能处理元件,被配置为驱动用于分析所述第一图像以获取第一图像信息的人工神经网络。
15.根据权利要求14所述的图像处理设备,其中,所述至少一个人工智能处理元件包括在图像分析器中,所述图像分析器包括在所述处理电路中。
16.根据权利要求14所述的图像处理设备,其中,所述至少一个人工智能处理元件包括在所述处理电路中。
17.根据权利要求13所述的图像处理设备,其中,所述处理电路还被配置为:
接收所述用户的所述语音信息作为所述用户命令,以及
分析所述用户的所述语音信息,以获取所述图像处理信息。
18.根据权利要求13所述的图像处理设备,其中,所述处理电路还被配置为:
接收来自所述用户的所述触摸信息作为所述用户命令,以及
分析来自所述用户的所述触摸信息,以获取所述图像处理信息。
19.根据权利要求13所述的图像处理设备,其中,所述图像拾取装置包括下述中的至少一种:
传感器,被配置基于外部光信号获取所述第一图像;
透镜,被配置为将所述外部光信号会聚在所述传感器上;
快门,被配置为选择性地将所述外部光信号提供给所述传感器;
透镜驱动器,被配置为控制所述透镜的位置;以及
快门驱动器,被配置为控制所述快门的操作。
20.一种处理图像的方法,所述方法包括:
由处理电路对多个对象中的至少一个对象执行第一自动聚焦,以获取包括所述多个对象的第一图像;
由所述处理电路分析所述第一图像以获取图像信息,所述图像信息包括:所述第一图像的场景信息、表示所述多个对象的对象类型的多个标签、以及所述多个对象在所述第一图像中所在的多个对象区域;
由所述处理电路接收以用户的语音信息和来自所述用户的触摸信息中的至少一种指定的用户命令,所述用户命令表示要基于所述多个对象当中的对象对所述第一图像执行的图像操作;
由所述处理电路分析所述用户命令,以获取包括与所述对象相关联的第一信息和与所述图像操作相关联的第二信息的图像处理信息;
由所述处理电路确定用于所述多个对象的所述多个标签当中是否存在对应于所述第一信息的标签;
由所述处理电路基于所述对象、与所述图像操作相关联的所述第二信息以及确定出存在所述标签,执行第二自动聚焦;以及
由所述处理电路基于所述第二信息仅对所述第一图像中的对应于所述对象的第一区域执行所述图像操作,以获取第二图像。
Applications Claiming Priority (4)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
US16/685,402 | 2019-11-15 | ||
US16/685,402 US11385526B2 (en) | 2019-11-15 | 2019-11-15 | Method of processing image based on artificial intelligence and image processing device performing the same |
KR1020190159846A KR102628898B1 (ko) | 2019-11-15 | 2019-12-04 | 인공 지능 기반의 영상 처리 방법 및 이를 수행하는 영상 처리 장치 |
KR10-2019-0159846 | 2019-12-04 |
Publications (1)
Publication Number | Publication Date |
---|---|
CN112822390A true CN112822390A (zh) | 2021-05-18 |
Family
ID=75853091
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN202010426927.7A Pending CN112822390A (zh) | 2019-11-15 | 2020-05-19 | 处理图像的方法和图像处理设备 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN112822390A (zh) |
Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070030357A1 (en) * | 2005-08-05 | 2007-02-08 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Techniques for processing images |
US20160065832A1 (en) * | 2014-08-28 | 2016-03-03 | Lg Electronics Inc. | Mobile terminal and method for controlling the same |
US20160155241A1 (en) * | 2013-06-17 | 2016-06-02 | Huawei Device Co., Ltd. | Target Detection Method and Apparatus Based On Online Training |
CN105808635A (zh) * | 2015-01-15 | 2016-07-27 | 三星电子株式会社 | 用于图像分析的方法和装置 |
CN107810629A (zh) * | 2015-01-18 | 2018-03-16 | 三星电子株式会社 | 图像处理装置和图像处理方法 |
CN108093167A (zh) * | 2016-11-22 | 2018-05-29 | 谷歌有限责任公司 | 使用自然语言命令可操作的相机 |
US20180225306A1 (en) * | 2017-02-08 | 2018-08-09 | International Business Machines Corporation | Method and system to recommend images in a social application |
JP2018125701A (ja) * | 2017-02-01 | 2018-08-09 | オムロン株式会社 | 画像処理システム、光学センサ、及び学習装置 |
US20190342490A1 (en) * | 2018-05-07 | 2019-11-07 | Sharp Kabushiki Kaisha | Electronic device, image capture method, and control device |
-
2020
- 2020-05-19 CN CN202010426927.7A patent/CN112822390A/zh active Pending
Patent Citations (9)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US20070030357A1 (en) * | 2005-08-05 | 2007-02-08 | Searete Llc, A Limited Liability Corporation Of The State Of Delaware | Techniques for processing images |
US20160155241A1 (en) * | 2013-06-17 | 2016-06-02 | Huawei Device Co., Ltd. | Target Detection Method and Apparatus Based On Online Training |
US20160065832A1 (en) * | 2014-08-28 | 2016-03-03 | Lg Electronics Inc. | Mobile terminal and method for controlling the same |
CN105808635A (zh) * | 2015-01-15 | 2016-07-27 | 三星电子株式会社 | 用于图像分析的方法和装置 |
CN107810629A (zh) * | 2015-01-18 | 2018-03-16 | 三星电子株式会社 | 图像处理装置和图像处理方法 |
CN108093167A (zh) * | 2016-11-22 | 2018-05-29 | 谷歌有限责任公司 | 使用自然语言命令可操作的相机 |
JP2018125701A (ja) * | 2017-02-01 | 2018-08-09 | オムロン株式会社 | 画像処理システム、光学センサ、及び学習装置 |
US20180225306A1 (en) * | 2017-02-08 | 2018-08-09 | International Business Machines Corporation | Method and system to recommend images in a social application |
US20190342490A1 (en) * | 2018-05-07 | 2019-11-07 | Sharp Kabushiki Kaisha | Electronic device, image capture method, and control device |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2020192483A1 (zh) | 图像显示方法和设备 | |
CN113302620B (zh) | 使用机器学习模型确定对象与人之间的关联 | |
US11385526B2 (en) | Method of processing image based on artificial intelligence and image processing device performing the same | |
KR20230013243A (ko) | 프레임에서 타겟 오브젝트를 위한 고정된 크기 유지 | |
US8463025B2 (en) | Distributed artificial intelligence services on a cell phone | |
KR20200078314A (ko) | 시맨틱 분할에 의해 지배적 장면 분류를 제공하는 시스템 및 방법 | |
AU2021201933B2 (en) | Hierarchical multiclass exposure defects classification in images | |
KR20190016367A (ko) | 객체를 인식하는 방법 및 장치 | |
EP4226322A1 (en) | Segmentation for image effects | |
KR20240038939A (ko) | 스타일 변환을 위한 영상 처리 장치 및 방법 | |
KR20210048272A (ko) | 음성 및 영상 자동 포커싱 방법 및 장치 | |
CN109963072B (zh) | 对焦方法、装置、存储介质及电子设备 | |
CN112862828A (zh) | 一种语义分割方法、模型训练方法及装置 | |
JP2019185127A (ja) | 多層ニューラルネットワークの学習装置およびその制御方法 | |
CN112329616B (zh) | 目标检测方法、装置、设备以及存储介质 | |
CN113284055A (zh) | 一种图像处理的方法以及装置 | |
CN116844032A (zh) | 一种海洋环境下目标检测识别方法、装置、设备及介质 | |
CN114359789B (zh) | 视频图像的目标检测方法、装置、设备及介质 | |
CN115482529A (zh) | 近景色水果图像识别方法、设备、存储介质及装置 | |
US11250542B2 (en) | Mosaic generation apparatus and method | |
CN114758334A (zh) | 一种对象注册方法及装置 | |
US20230066331A1 (en) | Method and system for automatically capturing and processing an image of a user | |
CN112822390A (zh) | 处理图像的方法和图像处理设备 | |
CN114445864A (zh) | 一种手势识别方法及装置、存储介质 | |
CN115731115A (zh) | 一种数据处理方法以及装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination |