CN110063053B

CN110063053B - 用于处理图像的装置和方法

Info

Publication number: CN110063053B
Application number: CN201780076454.9A
Authority: CN
Inventors: 金叡薰; 尹昭正; 张峻翼
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2016-12-22
Filing date: 2017-12-21
Publication date: 2021-05-04
Anticipated expiration: 2037-12-21
Also published as: JP2020507228A; KR102458358B1; CN113114943A; KR20180073432A; JP2023036778A; KR102407815B1; CN113114943B; CN110063053A; KR20220080731A

Abstract

提供了一种图像处理装置和图像处理方法，用于基于由多个数据识别模型当中的、满足特定条件的数据识别模型所学习的兴趣信息来估计兴趣区域，并用于设置焦点。该图像处理装置包括通过使用基于规则的算法或人工智能(AI)算法来估计兴趣区域。当通过使用AI算法估计兴趣区域时，该图像处理装置可以通过使用机器学习算法、神经网络算法或深度学习算法来估计兴趣区域。

Description

用于处理图像的装置和方法

技术领域

本公开涉及人工智能(AI)系统。更具体地，本公开涉及一种用于通过使用诸如深度学习的机器学习算法及其应用技术来模拟包括识别和决策的人脑功能的AI系统。

背景技术

在图像处理中，自动聚焦是可以提高用户对图像的满意度的任务。通常，可以将用户的兴趣可能会集中的图像区域视为兴趣区域，并且存在用于将焦点设置在这样的兴趣区域上的图像处理技术。

最近，人工智能(AI)系统也被引入图像处理领域。

AI系统是实现人类级别智能的计算机系统，并且与基于规则的智慧系统不同，机器根据相关现有技术自己学习、决策并变得智能。使用的AI系统越多，识别率就越高，用户偏好就会被越准确地理解。因此，根据现有技术，基于规则的智慧系统逐渐被基于深度学习的AI系统所取代。

AI技术包括机器学习(深度学习)和利用机器学习的元素技术。

机器学习是用于自主分类/学习输入数据的特性的算法技术。元素技术是通过利用诸如深度学习的机器学习算法来模拟人脑功能(例如识别和决策)的技术，并且包括语言理解、视觉理解、推理/预测、知识表示、运动控制等。

应用AI技术的各个领域如下。语言理解是一种识别、应用/处理人类语言/字符的技术，包括自然语言处理、机器翻译、对话系统、查询响应、语音识别/合成等。视觉理解是一种以与人类视觉的方式类似的方式来识别和处理对象的技术，包括对象识别、对象追踪、图像搜索、人类识别、场景理解、空间理解和图像增强。推理/预测是一种确定用于逻辑推理和预测的信息的技术，并且包括基于知识/概率的推理、优化预测、基于偏好的计划和推荐。知识表示是一种将人类体验信息自动化为知识数据的技术，包括知识构建(数据生成/分类)和知识管理(数据利用)。运动控制是一种用于控制车辆的自动驾驶和机器人的运动的技术，并且包括运动控制(导航、碰撞避免、驾驶)、操纵控制(行为控制)等。

以上信息仅作为背景信息呈现，以帮助理解本公开。没有做出任何确定，并且没有断言关于上述任何一个是否适合作为关于本公开的现有技术。

发明内容

技术解决方案

本公开的各方面旨在解决至少上述问题和/或缺点，并提供至少下述优点。因此，本公开的一个方面是提供一种图像处理装置和图像处理方法，其通过基于由多个数据识别模型当中满足特定条件的数据识别模型所学习的兴趣信息估计兴趣区域来设置焦点。

附图说明

通过以下结合附图的描述，特定实施例的上述和其他方面、特征和优点将更加明显，其中：

图1a是用于描述根据本公开的实施例的图像处理装置的框图；

图1b是示出根据本公开各种实施例的图像处理装置的配置的图；

图2是根据本公开的实施例的图像捕获器的框图；

图3是用于描述根据本公开的实施例的控制器的操作的图；

图4a和4b是用于描述根据本公开的实施例的将显著区域估计为兴趣区域并且聚焦在图像处理装置中的示例的图；

图5a和图5b是用于描述根据本公开的实施例的图像处理装置估计与兴趣的个性化信息对应的区域作为用户的兴趣区域并在其上设置焦点的示例的图；

图6是根据本公开的实施例的控制器的框图；

图7是根据本公开的实施例的数据学习器的框图；

图8是根据本公开的实施例的数据识别器的框图；

图9是用于描述根据本公开另一实施例的图像处理装置的框图；

图10是示出根据本公开的各种实施例的图像处理装置和外部服务器彼此结合操作以学习和识别数据的示例的图；

图11是用于描述根据本公开的实施例的图像处理装置的框图；

图12是根据本公开的实施例的图像处理方法的流程图；

图13是用于描述根据本公开的实施例的当图像处理装置包括第一处理器和第二处理器时估计兴趣区域的情况的流程图；

图14是用于描述根据本公开的实施例的当图像处理装置包括第一处理器、第二处理器和第三处理器时估计兴趣区域的情况的流程图；

图15是用于描述当图像处理装置包括根据本公开的实施例的第一处理器、第二处理器和第三处理器时估计兴趣区域的情况的流程图；以及

图16是用于描述根据本公开的实施例的图像处理装置通过使用服务器估计兴趣区域的情况的流程图。

在整个附图中，应该注意，相同的附图标记用于描绘相同或相似的元件、特征和结构。

最佳模式

根据本公开的一方面，提供了一种图像处理装置。该图像处理装置包括：图像捕获器，被配置为获取包括至少一个对象的实时取景图像；存储器，被配置为存储计算机可运行指令；至少一个处理器，其通过运行计算机可运行指令，被配置为基于各数据识别模型当中与特定条件对应的数据识别模型，根据该数据识别模型的准则估计获取的实时取景图像中的用户的兴趣区域，以确定区域是否对应于学得的兴趣信息，并且将焦点设置在估计的兴趣区域上；以及输入/输出单元，被配置为显示其中焦点被设置在估计的兴趣区域上的实时取景图像。

根据本公开的另一方面，提供了一种图像处理方法。该图像处理方法包括：基于与各数据识别模型当中的特定条件对应的数据识别模型，获取包括至少一个对象的实时取景图像，根据该数据识别模型的准则估计所获取的实时取景图像中的用户的兴趣区域，以确定区域是否对应于学得的兴趣信息，将焦点设置在所估计的兴趣区域上，以及显示其中焦点被设置在估计的兴趣区域上的实时取景图像。

通过以下结合附图公开了本公开的各种实施例的详细描述，本公开的其他方面、优点和显著特征对于本领域技术人员将变得显而易见。

具体实施方式

发明模式

提供参考附图的以下描述以帮助全面理解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体细节以帮助理解，但这些仅被视为示例性的。因此，本领域普通技术人员将认识到，在不脱离本公开的范围和精神的情况下，可以对本文描述的各种实施例进行各种改变和修改。另外，为了清楚和简明，可以省略对公知功能和结构的描述。

在以下描述和权利要求中使用的术语和词语不限于书面含义，而是仅由发明人使用以使得能够清楚和一致地理解本公开。因此，对于本领域技术人员来说显而易见的是，提供本公开的各种实施例的以下描述仅用于说明目的，而不是为了限制由所附权利要求及其等同物限定的本公开的目的。

应该理解，除非上下文另有明确规定，否则单数形式“一”、“一个”和“该”包括复数指示物。因此，例如，对“组件表面(surface)”的引用包括对一个或多个这样的表面的引用。

在整个说明书中，应该理解，当一部分被称为“连接到”另一部分时，它可以“直接连接到”所述另一部分或通过另一元件“电连接到”所述另一部分。此外，将进一步理解，本文使用的术语“包括”和/或“包含”指定所述特征或组件的存在，但不排除一个或多个其他特征或组件的存在或添加。

此外，如本文所使用的，包括诸如“第一”或“第二”的序数的术语可用于描述各种元件，但是这些元件不应受这些术语的限制。这些术语仅用于区分一个组件与另一个组件。

在本说明书中，术语“图像处理装置”通常是指具有图像捕获功能的电子装置。例如，诸如智能电话或配备有相机模块的数字相机这样的设备可以对应于图像处理装置。

实施例涉及图像处理装置和图像处理方法，并且将省略对以下实施例所属领域的普通技术人员公知的事项的详细描述。

图1a是用于描述根据本公开的实施例的图像处理装置的框图。对于本领域普通技术人员来说显而易见的是，除了图1A和1B中所示的组件之外，可以进一步包括通用组件。

参考图1a，根据实施例的图像处理装置1000可以包括存储器1100、控制器1200、输入/输出单元1300和图像捕获器1610。

图像捕获器1610可以获取包括至少一个对象的图像。例如，图像捕获器1610可以获取包括至少一个对象的实时取景图像，并且可以在实际执行拍摄时获取要存储在图像处理装置1000中的捕获的图像。图像捕获器1610可以通过响应于来自用户的图像捕获命令、将焦点设置在估计的兴趣区域上来捕获图像。下面将参考图2给出图像捕获器1610的详细描述。

存储器1100可以存储用于处理和控制控制器1200的程序，并且还可以存储输入到图像处理装置1000或从图像处理装置1000输出的数据。存储器1100可以存储计算机可运行指令。

控制器1200通常控制图像处理装置1000的整体操作。控制器1200可以包括至少一个集成型处理器或多个处理器，这取决于控制器1200的功能和作用。

构成控制器1200的至少一个处理器可以执行存储在存储器1100中的计算机可运行指令，从而基于与各数据识别模型当中的特定条件对应的数据识别模型，在获取的实时取景图像中根据该数据识别模型的准则来估计用户的兴趣区域，以确定区域是否对应于学得的兴趣信息并将焦点设置在估计的兴趣区域上。下面将参考图3至图8给出控制器1200的详细描述。

输入/输出单元1300可以显示聚焦于估计的兴趣区域上的实时取景图像。输入/输出单元1300可以显示反映用于将焦点设置在兴趣区域上的实时操作的实时取景图像。

图1b是示出根据本公开各种实施例的图像处理装置的配置的图。

参考图1b，图像处理装置1000可以包括具有第一处理器1200a和第二处理器1200b的控制器1200。

第一处理器1200a可以控制安装在图像处理装置1000上的至少一个应用的执行，并且对由图像处理装置1000获取的图像执行图形处理(例如，实时取景图像、捕获的图像等)。第一处理器1200a可以以中央处理单元(CPU)、图形处理单元(GPU)或片上系统(SoC)的形式实现，其中集成了通信芯片和传感器的功能。此外，第一处理器1200a可以被描述为本说明书中的应用处理器(AP)。

第二处理器1200b可以通过使用数据识别模型来估计图像的兴趣区域。

第二处理器1200b可以被制造为用于人工智能(AI)的专用硬件芯片，其执行用于通过使用数据识别模型来估计兴趣区域的功能。根据各种实施例，用于AI的专用硬件芯片可以包括用于数据识别模型的GPU，其包括作为基本技术的视觉理解。

图像处理装置1000还可以包括第三处理器、第四处理器等，其执行与第二处理器1200b相同的功能。在这种情况下，各个处理器可以通过使用不同的数据识别模型来执行用于估计兴趣区域的功能。

根据本公开的各种实施例，可以针对存储在存储器1100中并执行各种功能的应用执行由第一处理器1200a执行的功能，并且可以针对图像处理装置1000的操作系统(OS)执行由第二处理器1200b执行的功能。

例如，相机应用可以生成实时取景图像并确定对应于特定条件的数据识别模型。相机应用可以将与所确定的数据识别模型有关的信息和用于估计兴趣区域的请求发送到位于图像处理装置1000外部的OS和/或外部服务器。

OS和/或外部服务器可以通过使用其中包括的各个数据识别模型来估计兴趣区域。OS和/或外部服务器可以将焦点设置在估计的兴趣区域上。然而，本公开不限于此。

图2是根据本公开的实施例的图像捕获器的框图。对于本领域普通技术人员来说显而易见的是，除了图2中所示的组件之外，可以进一步包括通用组件。

参考图2，图像捕获器1610是用于从入射光产生电信号的图像的组件，并且包括透镜1611、透镜驱动器1612、光圈1613、光圈驱动器1614、成像器件1615和成像器件控制器1616。

透镜1611可以包括多组透镜。由透镜驱动器1612调节透镜1611的位置。透镜驱动器1612根据从控制器1200提供的控制信号调节透镜1611的位置。

光圈驱动器1614调节光圈1613以调节入射在成像器件1615上的光量。

透过透镜1611和光圈1613的光信号到达成像器件1615的光接收表面并形成物体的图像。成像器件1615可以是电荷耦合器件(CCD)图像传感器或互补金属氧化物半导体(CIS)图像传感器，用于将光信号转换为电信号。可以通过成像器件控制器1616调节这种成像器件1615的灵敏度。成像器件控制器1616可以根据基于实时输入的视频信号或用户手动输入的控制信号而自动生成的控制信号，控制成像器件1615。

通过快门(未示出)调节成像器件1615的曝光时间。快门(未示出)包括用于移动屏幕以调节光入射的机械快门和用于通过向成像器件1615提供电信号来控制曝光的电子快门。

模拟信号处理器(未示出)可以对从成像器件1615提供的模拟信号执行降噪、增益调节、波形整形、模数转换等。从模拟信号处理器(未示出)输出的图像信号可以输入到控制器1200。输入到控制器1200的图像信号可以通过数字信号处理变为实时取景图像。

图3是用于描述根据本公开的实施例的控制器的操作的图。

参考图3，构成控制器1200的至少一个处理器可以在操作S1201中基于从图像捕获器1610输入的图像信号获取实时取景图像。基于与多个数据识别模型当中的特定条件对应的数据识别模型，构成控制器1200的至少一个处理器可以在操作S1202、S1203、S1204中根据该数据识别模型的准则估计获取的实时取景图像中的用户的兴趣区域，以确定区域是否对应于学得的兴趣信息，并且在操作1205中将焦点集中在所估计的兴趣区域上。

例如，构成控制器1200的至少一个处理器可以在满足第一条件时，根据第一数据识别模型的准则，将显著区域确定为用户的兴趣区域，以确定区域是否对应于学得的显著区域。显著区域是通常被识别为图像中的突出区域或独特区域的区域，并且可以根据关于由图像中的对象占据的区或图像的颜色分布的特定准则来确定。第一数据识别模型可以学习用于确定区域是否对应于显著区域的准则。在确定由图像捕获器1610获取的实时取景图像中的显著区域的情况下，第一数据识别模型可以使用用于确定区域是否对应于学得的显著区域的准则。

图4a和4b是用于描述根据本公开的实施例的、显著区域被估计为兴趣区域并且被聚焦在图像处理装置中的示例的图。

参考图4a，在图像处理装置1000中，与穿过同一类型的花的单色花海的人对应的形状或区域明显不同于与背景中的花海对应的区域，并且人穿的衣服的颜色不同于花的颜色。因此，图像处理装置1000可以确定与图像中的人对应的区域是显著区域，将与图像中的人对应的区域估计为兴趣区域，并在其上设置焦点。

如图4b所示，在长栅栏延伸在长路与森林之间的图像中，图像处理装置1000可以确定图像中与红色公用电话盒对应的区域是显著区域，估计图像中的红色公共电话盒作为兴趣区域，并在其上设置焦点。

当满足第二条件时，构成控制器1200的至少一个处理器可以根据用于第二数据识别模型的准则，将与个性化的兴趣信息对应的区域估计为用户的兴趣区域，以确定区域是否对应于学得的个性化的兴趣信息。可以基于关于存储在图像处理装置1000中的用户的图像的特定统计来确定个性化的兴趣信息。第二数据识别模型可以学习用于确定区域是否对应于个性化的兴趣信息的准则。当确定区域对应于由图像捕获器1610获取的实时取景图像中的个性化的兴趣信息时，第二数据识别模型可以使用用于确定区域是否对应于学得的个性化的兴趣信息的准则。

图5a和图5b是用于描述根据本公开的实施例的、图像处理装置估计与个性化的兴趣信息对应的区域作为用户的兴趣区域并在其上设置焦点的示例的图。

参考图5a，在包括人和汽车的图像中，当个性化的兴趣信息是汽车时，图像处理装置1000可以将图像中与汽车对应的区域估计为兴趣区域并在其上设置焦点。换句话说，在包括人和汽车的图像中，通常将焦点设置在人身上。然而，当确定个性化的兴趣信息是汽车时，可以将与汽车对应的区域估计为用户的兴趣区域，并且可以在其上设置焦点。

参考图5b，在包括几个婴儿的图像中，当个性化的兴趣信息是用户的婴儿时，图像处理装置1000可以将图像中与用户的婴儿对应的区域估计为兴趣区域并在其上设置焦点。换句话说，在包括几个婴儿的图像中，可能通常将焦点设置在所有婴儿或最近的婴儿身上。然而，当确定个性化的兴趣信息是用户的婴儿时，可以将与用户的婴儿对应的区域估计为用户的兴趣区域，并且可以在其上设置焦点。

第二条件是指存储在图像处理装置1000中的图像的数目大于特定数目并且个性化的兴趣信息的可靠性满足特定条件的情况，而第一条件是指不满足第二条件的情况。当存储在图像处理装置1000中的图像的数目不大于特定数目或者个性化的兴趣信息的可靠性不满足特定条件时，认为不满足第二条件。在这种情况下，由于个性化的兴趣信息的准确性不令人满意，因此使用第一数据识别模型来估计兴趣区域。

构成控制器1200的至少一个处理器可以基于兴趣信息的优先级来估计与具有高优先级的兴趣信息对应的区域作为用户的兴趣区域。

当估计多个兴趣区域时，构成控制器1200的至少一个处理器可以执行多次聚焦以在多个兴趣区域上设置焦点。此外，当估计多个兴趣区域时，构成控制器1200的至少一个处理器可以将焦点设置在用户从多个兴趣区域中选择的兴趣区域上。

构成控制器1200的至少一个处理器可以将控制信号发送到图像捕获器1610，以将焦点设置在估计的兴趣区域上。

图6是根据本公开的实施例的控制器的框图。

参考图6，根据一些实施例的控制器1200可以包括数据学习器1210和数据识别器1220。

为了估计图像中的用户的兴趣区域，数据学习器1210可以学习和/或训练，使得数据识别模型(例如，图3的第一数据识别模型或第二数据识别模型)获取用于确定图像中与兴趣信息对应的区域的准则。数据学习器1210可以学习，使得数据识别模型获取用于确定数据的准则，该数据用于确定区域是否对应于兴趣信息以及如何确定其是否对应于兴趣信息。数据学习器1210可以获取要用于学习的数据并将获取的数据应用于数据识别模型，从而学习用于确定图像中与兴趣信息对应的区域的准则。

数据识别器1220可以基于各种类型的数据，确定与兴趣信息对应的图像的区域。数据识别器1220可以通过使用各数据识别模型当中与特定条件对应地学习的数据识别模型，来确定与兴趣信息对应的图像的区域。根据由各个数据识别模型经由学习获取的准则，数据识别器1220可以通过使用包括至少一个对象的实时取景图像作为输入值，应用数据识别模型，从而确定图像的对应于兴趣信息的区域。另一方面，通过应用数据识别模型确定与兴趣信息对应的图像的区域而估计用户的兴趣区域的结果、以及用户关于该结果的反馈可以用于更新数据识别模型。

数据学习器1210和数据识别器1220中的至少一个可以被制造为至少一个硬件芯片并安装在图像处理装置上。例如，数据学习器1210和数据识别器1220中的至少一个可以被制造为用于AI的专用硬件芯片，或者可以被制造为通用处理器(例如，CPU或AP)的一部分或者图形处理器(例如，GPU)并且根据现有技术安装在如上所述的各种图像处理装置上。

在这种情况下，数据学习器1210和数据识别器1220可以安装在一个图像处理装置上，或者可以分别安装在分离的图像处理装置上。例如，数据学习器1210和数据识别器1220中的一个可以包括在图像处理装置中，而另一个可以包括在服务器中。此外，数据学习器1210和数据识别器1220可以经由有线或无线地彼此连接。因此，可以将由数据学习器1210生成的模型信息提供给数据识别器1220，或者可以将输入到数据识别器1220的数据作为附加学习数据提供给数据学习器1210。

数据学习器1210和数据识别器1220中的至少一个可以实现为软件模块。当数据学习器1210和数据识别器1220中的至少一个被实现为软件模块(或包括指令的程序模块)时，软件模块可以存储在非暂时性计算机可读记录介质中。此外，在这种情况下，至少一个软件模块可以由OS或特定应用提供。可替换地，至少一个软件模块中的一些可以由OS提供，并且至少一个软件模块的剩余部分可以由特定应用提供。

图7是根据本公开的实施例的数据学习器的框图。

参考图7，根据一些实施例的数据学习器1210可以包括数据获取器1210-1、预处理器1210-2、学习数据选择器1210-3、模型学习器1210-4和模型评估器1210-5。

数据获取器1210-1可以获取用于数据识别模型(例如，图3的第一数据识别模型和第二数据识别模型)的数据，以学习具有用于确定与兴趣信息对应的图像的区域的准则。数据获取器1210-1可以获取用于学习的数据，以确定与兴趣信息对应的图像的区域。

例如，数据获取器1210-1可以获取图像数据，例如图像、运动图片等。数据获取器1210-1可以获取经由图像处理装置1000直接输入的数据或所选择的数据。此外，数据获取器1210-1可以获取由图像处理装置1000中的各种传感器检测到的各种感测信息。数据获取器1210-1还可以获取从与图像处理装置1000通信的外部设备(诸如，如图9所示的外部服务器2000)接收的数据。

数据获取器1210-1可以获取从用户接收的数据、由图像处理装置1000捕获或预先存储在图像处理装置1000中的数据、或者从诸如服务器的外部装置接收的数据，但是本公开不限于此。

预处理器1210-2可以预处理所获取的数据，使得所获取的数据可以由数据识别模型使用以学习对图像中的区域是否对应于兴趣信息的确定。预处理器1210-2可以将获取的数据处理成预设格式，使得如下所述的模型学习器1210-4可以使用所获取的数据用于学习。

例如，预处理器1210-2可以从数据获取器1210-1获取的数据(诸如图像或运动图片)中去除噪声，以便选择有效数据或将数据处理成特定格式。

学习数据选择器1210-3可以从预处理数据中选择数据，数据识别模型的数据用于学习确定与兴趣信息对应的图像的区域。可以将所选择的数据提供给模型学习器1210-4。学习数据选择器1210-3可以从预处理数据和数据识别模型的数据中选择数据，以学习根据用于确定与兴趣信息对应的图像的区域的预设准则来确定与兴趣信息对应的图像的区域。此外，学习数据选择器1210-3可以根据如下所述基于模型学习器1210-4的学习而预设的数据选择准则来选择数据。

学习数据选择器1210-3可以具有针对每种数据类型的数据选择准则，例如图像数据和运动图片数据，并且可以使用这样的选择准则来选择用于学习的数据。

学习数据选择器1210-3可以选择用于学习数据识别模型的数据，以学习与兴趣信息对应的图像的区域。

模型学习器1210-4可以学习，使得数据识别模型具有用于基于学得的数据确定与兴趣信息对应的图像的区域的准则。此外，模型学习器1210-4可以学习用于选择用于确定与兴趣信息对应的图像的区域的学得的数据的准则。

模型学习器1210-4可以学习数据识别模型如何确定与兴趣信息对应的图像的区域。例如，模型学习器1210-4可以学习第一数据识别模型如何确定图像的与显著区域对应的区域。此外，模型学习器1210-4可以学习第二数据识别模型如何确定图像的与个性化的兴趣信息对应的区域。

此外，模型学习器1210-4可以通过使用学习数据来训练用于确定与兴趣信息对应的图像的区域的数据识别模型。在这种情况下，数据识别模型可以是预先构建的模型。例如，数据识别模型可以是通过接收基本学习数据(例如，样本文本等)而提前构建的模型。

模型学习器1210-4可以通过使用学习数据作为输入值的监督学习来训练数据识别模型。此外，模型学习器1210-4可以通过无监督学习来训练数据识别模型，以通过自学习想出用于确定与兴趣信息对应的图像的区域的准则，例如，在没有任何特别监督的情况下，用于确定与兴趣信息对应的图像的区域的数据的类型。可替换地，模型学习器1210-4可以通过使用关于基于学习确定与兴趣信息对应的图像的区域的结果是否正确的反馈强化学习，来训练数据识别模型。

根据实施例，模型学习器1210-4可以学习，使得第一数据识别模型具有用于通过使用包括图像和关于图像的区域的坐标信息的学习的数据、来确定兴趣区域的准则，该区域具有与周围区域不同的颜色或形状中的至少一种。

例如，模型学习器1210-4可以通过使用监督学习方法来执行学习，该监督学习方法使用包括图像和关于图像中包括的人的形状所位于的区域的坐标信息的学习的数据，如图4a所示。

因此，由模型学习器1210-4训练的第一数据识别模型可以识别由图像捕获装置1000生成的实时取景图像中包括的对象，并估计其中所识别的对象当中的、具有与周围区域的颜色和/或形状不同的颜色和/或形状的对象所位于的区域作为兴趣区域。

此外，根据实施例，模型学习器1210-4可以学习，使得第二数据识别模型具有用于通过使用由用户经由图像捕获装置1000捕获的图像来估计兴趣区域的准则。

例如，通过使用无监督学习方法，模型学习器1210-4可以通过接收如图5a所示的、由用户捕获的图像，学习具有用于估计兴趣区域的准则。

具体地，模型学习器1210-4可以识别用户捕获的图像中的对象。例如，模型学习器1210-4可以识别由用户捕获并存储在图库应用中的多个图像中的每个图像中的对象。模型学习器1210-4可以根据识别的对象的类型对相似类型的对象进行分类。可替换地，模型学习器1210-4可以选择根据识别的对象的捕获频率生成的组的优先级。因此，模型学习器1210-4可以通过使用主要且经常由图像捕获装置1000的用户捕获的对象来学习。

因此，由模型学习器1210-4训练的第二数据识别模型可以估计图像处理装置1000生成的实时取景图像中包括的各对象当中的、用户高度偏好的对象所位于的区域作为兴趣区域。换句话说，第二数据识别模型可以估计针对用户使用图像捕获装置1000的偏好定制的兴趣区域。

根据各种实施例，图像处理装置1000可以生成第四数据识别模型，该第四数据识别模型被训练为基于第二数据识别模型估计用户高度偏好的一些对象。例如，作为学习用户捕获的图像的结果，模型学习器1210-4可以生成组A、组B、组C和组D。此时，图像处理装置1000可以生成第四数据识别模型，该第四数据识别模型能够仅从在用户捕获的图像中检测到的各对象中检测属于具有最高捕获频率的组A的对象。在这种情况下，图像处理装置1000可以根据给定情况选择性地或顺序地使用第二数据识别模型和第四数据识别模型。

可以通过考虑要应用数据识别模型的字段、学习的目的、或设备的计算机性能来构建数据识别模型。数据识别模型可以是例如基于神经网络的模型。例如，诸如深度神经网络(DNN)、递归神经网络(RNN)和双向递归深度神经网络(BRDNN)的模型可以用作数据识别模型，但不限于此。

根据各种实施例，当存在多个预先构建的数据识别模型时，模型学习器1210-4可以将与彼此密切相关的输入学习数据和基本学习数据对应的数据识别模型确定为数据识别模型来训练。在这种情况下，可以根据数据类型对基本学习数据进行预分类，并且可以针对各个类型的数据预先构建数据识别模型。例如，可以根据各种准则对基本学习数据进行预分类，所述准则包括生成学习数据的区域、生成学习数据的时间点、学习数据的大小、学习数据的类型、学习数据的创建者、学习数据中对象的类型等。

模型学习器1210-4还可以通过使用例如包括误差反向传播或梯度下降的学习算法来训练数据识别模型。

此外，当学习数据识别模型时，模型读取器1210-4可以存储学得的数据识别模型。在这种情况下，模型学习器1210-4可以将学得的数据识别模型存储在包括数据识别器1220的图像处理装置的存储器中。可替换地，模型学习器1210-4可以将学得的数据识别模型存储在经由有线或无线网络连接到图像处理装置的服务器的存储器中。

在这种情况下，存储学得的数据识别模型的存储器还可以存储与例如图像处理装置的至少一个其他组件相关联的指令或数据。存储器还可以存储软件和/或程序。该程序可以包括例如内核、中间件、应用编程接口(API)和/或应用程序(或“应用”)。

模型评估器1210-5可以将评估数据输入到数据识别模型，并且当根据评估数据输出的识别结果不满足特定准则时，模型评估器1210-5可以使模型学习器1210-4再次学习。在这种情况下，评估数据可以是用于评估数据识别模型的预设数据。

例如，当关于学得的数据识别模型的识别结果当中具有不正确识别结果的评估数据相对于评估数据的数目或比率超过预设临界值时，模型评估器1210-5可以评估特定准则是不满意的。例如，当特定准则被定义为2％的比率，并且在总共1000条评估数据当中，学得的数据识别模型输出对于评估数据的不正确识别结果超过20，模型评估器1210-5可以评估学得的数据识别模型不合适。

另一方面，当存在多个学得的数据识别模型时，模型评估器1210-5可以评估每个学得的数据识别模型是否满足特定准则，并且可以将满足特定准则的模型确定为最终数据识别模型。在这种情况下，当存在满足特定准则的多个数据识别模型时，模型评估器1210-5可以按评估分数的降序确定任何预设的一个或一定数目的数据识别模型作为最终数据识别模型。

根据各种实施例，数据学习器1210可以包括数据获取器1210-1和模型学习器1210-4，并且可以选择性地包括预处理器1210-2、学习数据选择器1210-3和模型评估器1210-5。

数据学习器1210中的数据获取器1210-1、预处理器1210-2、学习数据选择器1210-3、模型学习器1210-4和模型评估器1210-5中的至少一个可以被制造为至少一个硬件芯片并安装在图像处理装置上。例如，数据获取器1210-1、预处理器1210-2、学习数据选择器1210-3、模型学习器1210-4和模型评估器1210-5中的至少一个可以被制造为专用的用于AI的硬件芯片或者可以被制造为通用处理器(例如，CPU或AP)或图形处理器(例如，GPU)的一部分并且如上所述根据相关现有技术安装在各种图像处理装置上。

此外，数据获取器1210-1、预处理器1210-2、学习数据选择器1210-3、模型学习器1210-4和模型评估器1210-5可以安装在单个图像处理装置上或者可以分别安装在分离的图像处理装置中。例如，数据获取器1210-1、预处理器1210-2、学习数据选择器1210-3、模型学习器1210-4和模型评估器1210-5中的一些可以包括在图像处理装置中，其余的可能包含在服务器中。

此外，数据获取器1210-1、预处理器1210-2、学习数据选择器1210-3、模型学习器1210-4和模型评估器1210-5中的至少一个可以实现为软件模块。当数据获取器1210-1、预处理器1210-2、学习数据选择器1210-3、模型学习器1210-4和模型评估器1210-5中的至少一个被实现为软件模块(或者包括指令的程序模块)，该软件模块可以存储在非暂时性计算机可读记录介质中。此外，在这种情况下，至少一个软件模块可以由OS或特定应用提供。可替换地，至少一个软件模块中的一些可以由OS提供，并且至少一个软件模块的剩余部分可以由特定应用提供。

图8是根据本公开的实施例的数据识别器的框图。

参考图8，根据一些实施例的数据识别器1220包括数据获取器1220-1、预处理器1220-2、识别数据选择器1220-3、识别结果提供器1220-4和模型更新器1220-5。

通过使用与多个学得的数据识别模型中的特定条件对应的数据识别模型，数据识别器1220可以根据数据识别模型的准则，确定与兴趣信息对应的图像的区域，以确定图像的区域是否对应于学得的兴趣信息。

数据获取器1220-1可以获取用于确定与兴趣信息对应的图像的区域的各种类型的数据。例如，数据获取器1220-1可以获取视频数据，例如图像和运动图片。例如，数据获取器1220-1可以获取从图像处理装置1000直接输入的数据或所选择的数据，或者可以获取由图像处理装置1000中的各种传感器检测到的各种感测信息。数据获取器1220-1也可以获取从与图像处理装置1000通信的外部设备(诸如外部服务器2000)接收的数据。

预处理器1220-2可以预处理所获取的数据，使得所获取的数据可以由数据识别模型使用以确定与兴趣信息对应的图像的区域。预处理器1220-2可以将获取的数据处理成预设格式，使得如下所述的识别结果提供器1220-4可以使用所获取的数据来确定与兴趣信息对应的图像的区域。

例如，预处理器1220-2可以从数据获取器1220-1获取的数据(例如图像或运动图片)中去除噪声，以便选择有效数据或将数据处理成某种格式。

识别数据选择器1220-3可以从预处理数据中选择数据，数据识别模型的数据用于确定与兴趣信息对应的图像的区域。可以将所选择的数据提供给识别结果提供器1220-4。识别数据选择器1220-3可以根据用于确定与兴趣信息对应的图像的区域的特定准则来选择一些或全部预处理数据。此外，识别数据选择器1220-3可以根据基于模型学习器1210-4的学习而预设的准则来选择数据，这将在下面描述。

识别结果提供器1220-4可以将所选择的数据应用于数据识别模型，从而确定与兴趣信息对应的图像的区域。识别结果提供器1220-4可以根据数据识别的目的提供与兴趣信息对应的图像的区域。识别结果提供器1220-4可以使用由识别数据选择器1220-3选择的数据作为输入值，从而将所选择的数据应用于数据识别模型。此外，识别结果可以由数据识别模型确定。识别结果提供器1220-4可以基于多个数据识别模型当中的、与特定条件对应的数据识别模型来确定与兴趣信息对应的图像的区域。

当满足第一条件时，识别结果提供器1220-4可以根据第一数据识别模型的准则将显著区域估计为用户的兴趣区域，以确定区域是否对应于学得的显著区域。当确定从图像捕获器1610获取的实时取景图像中的显著区域时，第一数据识别模型可以使用用于确定区域是否对应于学得的显著区域的准则。

例如，当图像处理装置1000满足第一条件时，识别结果提供器1220-4可以通过使用第一数据识别模型检测如图4b中所示的输入图像中的电话亭，并估计电话亭所位于的区域作为兴趣区域。

当满足第二条件时，识别结果提供器1220-4可以根据第二数据识别模型的准则，估计与个性化的兴趣信息对应的区域作为用户的兴趣区域，以确定区域是否对应于个性化的兴趣信息。当确定由图像捕获器1610获取的实时取景图像的区域(该区域对应于学得的个性化的兴趣信息)时，第二数据识别模型可以使用用于确定区域是否对应于学得的个性化的兴趣信息的准则。

例如，当图像处理装置1000满足第二条件时，识别结果提供器1220-4可以通过使用第二数据识别模型检测如图5b所示的输入图像中的孩子的面部，并估计孩子的面部所位于的区域作为兴趣区域。

此外，当模型学习器(例如，图7的模型学习器1210-4)学习用户捕获的图像并且类似于汽车的形状最频繁地出现在图像中时，识别结果提供器1220-4可以检测到与如图5a所示的输入图像中的汽车类似的形状，并估计与汽车类似的形状所位于的区域作为兴趣区域。

换句话说，当在用户购买图像处理装置1000之后的短时间段内不满足第二条件时，图像处理装置1000可以通过使用第一数据识别模型来估计兴趣区域。此外，当随着图像处理装置1000捕获的图像的数目增加而满足第二条件时，图像处理装置1000可以通过使用第二数据识别模型和/或第四数据识别模型来估计兴趣区域。

模型更新器1220-5可以基于由识别结果提供器1220-4提供的识别结果的评估来更新数据识别模型。例如，模型更新器1220-5可以向模型学习器1210-4提供由识别结果提供器1220-4提供的结果、确定与兴趣信息对应的图像的区域的结果，并且因此模型学习器1210-4可以更新数据识别模型。

根据各种实施例，数据识别器1220可以包括数据获取器1220-1和识别结果提供器1220-4，并且可以选择性地包括预处理器1230-2、识别数据选择器1220-3和模型更新器1220-5。

可以将数据识别器1220中的数据获取器1220-1、预处理器1220-2、识别数据选择器1220-3、识别结果提供器1220-4和模型更新器1220-5中的至少一个制造为至少一个硬件芯片并安装在图像处理装置上。例如，数据获取器1220-1、预处理器1220-2、识别数据选择器1220-3、识别结果提供器1220-4和模型更新器1220-5中的至少一个可以被制造为用于AI的专用硬件芯片或者可以被制造为通用处理器(例如，CPU或AP)或图形处理器(例如，GPU)的一部分并且安装在如上所述根据相关现有技术的各种图像处理装置上。

此外，数据获取器1220-1、预处理器1220-2、识别数据选择器1220-3、识别结果提供器1220-4和模型更新器1220-5可以安装在单个图像处理装置上或可以分别安装在分离的图像处理装置中。例如，数据获取器1220-1、预处理器1220-2、识别数据选择器1220-3、识别结果提供器1220-4和模型更新器1220-5中的一些可以包括在图像处理装置中，其余的可以包括在服务器中。

此外，数据获取器1220-1、预处理器1220-2、识别数据选择器1220-3、识别结果提供器1220-4和模型更新器1220-5中的至少一个可以实现为软件模块。当数据获取器1220-1、预处理器1220-2、识别数据选择器1220-3、识别结果提供器1220-4和模型更新器1220-5中的至少一个被实现为软件模块时(或者包括指令的程序模块)，该软件模块可以存储在非暂时性计算机可读记录介质中。此外，在这种情况下，至少一个软件模块可以由OS或特定应用提供。可替换地，至少一个软件模块中的一些可以由OS提供，并且至少一个软件模块的剩余部分可以由特定应用提供。

图9是用于描述根据本公开另一实施例的图像处理装置的框图。对于本领域普通技术人员来说显而易见的是，除了图9中所示的组件之外，可以进一步包括通用组件。将省略上面参考图1A和1B描述的组件的详细描述。

参考图9，外部服务器2000可以根据特定准则对用户捕获的图像进行分类，并通过使用分类的图像训练第三数据识别模型，从而获取用于确定区域是否对应于个性化的兴趣信息的准则。

根据实施例，可以与第二数据识别模型类似地训练第三数据识别模型，以获取用于确定为用户定制的兴趣信息的准则。

图像处理装置1000还可以包括通信器1500，用于接收第三数据识别模型的准则，以通过使用存储在外部服务器2000中的用户的图像来确定区域是否对应于个性化的兴趣信息。

根据用于确定区域是否对应于由图像处理装置1000中提供的数据识别模型从外部服务器2000接收的个性化的兴趣信息的准则，构成控制器1200的至少一个处理器可以估计与个性化的兴趣信息对应的区域作为实时取景图像中的兴趣区域。

图像处理装置1000可以通过通信器1500将由图像处理装置1000获取的实时取景图像发送到外部服务器2000。外部服务器2000可以根据第三数据识别模型的准则估计从图像处理装置1000发送的实时取景图像的区域作为用户的兴趣区域，以确定区域是否对应于个性化的兴趣信息，并且还可以将关于估计的兴趣区域的信息发送到图像处理装置1000。

图10是示出根据本公开的各种实施例的图像处理装置和外部服务器彼此结合操作以学习和识别数据的示例的图。

参考图10，外部服务器2000可以学习用于确定与兴趣信息对应的图像的区域的准则，并且图像处理装置1000可以通过使用由外部服务器2000训练的数据识别模型来确定与兴趣信息对应的图像的区域。

在这种情况下，外部服务器2000的数据学习器2210可以执行图7中所示的数据学习器1210的功能。数据学习器2210可以包括数据获取器2210-1、预处理器2210-2、学习数据选择器2210-3、模型学习器2210-4和模型评估器2210-5。外部服务器2000的数据学习器2210可以学习用于确定用于确定与兴趣信息对应的图像的区域的数据的准则以及如何通过使用该数据来确定与兴趣信息对应的图像的区域。外部服务器2000的数据学习器2210可以获取要用于学习的数据，并将获取的数据应用于下面将描述的数据识别模型，从而学习用于确定与兴趣信息对应的图像的区域的准则。

此外，图像处理装置1000的识别结果提供器1220-4可以将由识别数据选择器1220-3选择的数据应用于由外部服务器2000生成的数据识别模型，从而确定与兴趣信息对应的图像的区域。例如，识别结果提供器1220-4可以将识别数据选择器1220-3选择的数据发送到外部服务器2000，并请求外部服务器2000将识别数据选择器1220-3选择的数据应用于数据识别模型，并确定对应于兴趣信息的图像的区域。此外，识别结果提供器1220-4可以从外部服务器2000接收与兴趣信息对应的图像的区域，该区域由外部服务器2000确定。

例如，图像处理装置1000可以将由图像处理装置1000获取的实时取景图像发送到外部服务器2000。外部服务器2000可以通过将从图像处理装置1000接收的实时取景图像应用到存储在外部服务器2000中的数据识别模型，来确定与兴趣信息对应的图像的区域。外部服务器2000还可以反映存储在外部服务器2000中的用户的图像，以确定与兴趣信息对应的图像的区域。对应于兴趣信息的图像区域、由外部服务器2000确定的区域可以被发送到图像处理装置1000。

可替换地，图像处理装置1000的识别结果提供器1320-4可以从外部服务器2000接收由外部服务器2000生成的数据识别模型，并且通过使用所接收的数据识别模型来确定与兴趣信息对应的图像的区域。在这种情况下，图像处理装置1000的识别结果提供器1220-4将由识别数据选择器1220-3选择的数据应用于从外部服务器2000接收的数据识别模型，从而确定对应于兴趣信息的图像的区域。

例如，图像处理装置1000可以将由图像处理装置1000获取的实时取景图像应用于从外部服务器2000接收的数据识别模型，从而确定与兴趣信息对应的实时取景图像的区域。外部服务器2000可以将存储在外部服务器2000中的用户的图像发送到图像处理装置1000，使得图像处理装置1000可以进一步利用用户的图像来确定与兴趣信息对应的图像的区域。

图11是用于描述根据本公开另一实施例的图像处理装置的框图。

参考图11，根据另一实施例的图像处理装置1000可以包括存储器1100、控制器1200、输入/输出单元1300、传感器1400、通信器1500和音频/视频(A/V)输入单元1600。

存储器1100可以包括闪存类型存储器、硬盘类型存储器、多媒体卡微型存储器、卡型存储器(例如，安全数字(SD)存储器或极端数字(XD)存储器)、随机存取存储器(RAM)、静态随机存取存储器(SRAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、可编程只读存储器(PROM)、磁存储器、磁盘和光盘中的至少一个。

存储在存储器1100中的程序可以根据其功能分类为多个模块，例如用户界面(UI)模块、触摸屏模块、通知模块等。

UI模块可以为每个应用提供与图像处理装置1000互锁(interlocked)的专用UI或图形用户界面(GUI)。触摸屏模块可以在触摸屏上感测用户的触摸手势并且可以将关于触摸手势的信息发送到控制器1200。根据实施例的触摸屏模块可以识别和分析触摸代码。触摸屏模块可以配置为单独的硬件。用户的触摸手势可以包括轻击、触摸并保持、双击，拖动、平移、轻拂、拖放、轻扫等。通知模块可以生成用于通知图像事件发生的信号。在图像处理装置1000中发生的事件的示例包括消息接收、键信号输入、内容输入、内容传输和对应于特定条件的内容的检测。通知模块可以通过显示器1322以视频信号的形式输出通知信号、可以通过声音输出单元1324输出音频信号形式的通知信号、或者可以以振动电机1326输出振动信号的形式输出通知信号。

控制器1200通常控制图像处理装置1000的整体操作。例如，控制器1200可以通过执行存储在存储器1100中的程序，控制输入/输出单元1300、传感器1400、通信器1500和A/V输入单元1600的整体操作。

具体地，控制器1200可以包括至少一个处理器。取决于控制器1200的功能和作用，控制器1200可以包括至少一个集成型处理器或多个处理器。

构成控制器1200的至少一个处理器可以执行存储在存储器1100中的计算机可运行指令，从而基于各数据识别模型当中的、与特定条件对应的数据识别模型，根据该数据识别模型的准则估计所获取的实时取景图像中的用户的兴趣区域，以确定区域是否对应于学得的兴趣信息，并将焦点设置在所估计的兴趣区域上。

构成控制器1200的至少一个处理器可以在满足第一条件时，根据第一数据识别模型的准则将显著区域估计为用户的兴趣区域，以确定区域是否对应于学得的显著区域，并且可以在满足第二条件时，根据第二数据识别模型的准则，估计与个性化的兴趣信息对应的区域作为用户的兴趣区域，以确定区域是否对应于学得的个性化的兴趣信息。

学得的数据识别模型可以存储在图像处理装置1000外部的服务器中，并且可以根据图像处理装置1000的请求从服务器接收。

输入/输出单元1300可以包括用户输入单元1310和输出单元1320。构成输入/输出单元1300的用户输入单元1310和输出单元1320可以彼此分离或者可以彼此集成(例如触摸屏)。

输入/输出单元1300可以显示焦点被设置在估计的兴趣区域上的实时取景图像。

用户输入单元1310可以指用户输入用于控制图像处理装置1000的数据的单元。用户输入单元1310可以从用户接收缩写词并且从用户接收对应于缩写词的句子的选择。

用户输入单元1310可以包括键盘1312、触摸板1314(接触电容型、耐压型、红外线检测型、表面声波传导型、整体张力测量型、压电效应型等)。此外，用户输入单元1310可以包括转轮和转动开关，但不限于此。

输出单元1320可以在图像处理装置1000上输出执行应用的结果。输出单元1320可以输出操作图像处理装置1000的结果。当存在用户输入时，输出单元1320可以输出用户输入改变的结果。

输出单元1320可以输出音频信号、视频信号或振动信号。输出单元1320可以包括显示器1322、声音输出单元1324和振动电机1326。

显示器1322显示在图像处理装置1000中处理的信息。例如，显示器1322可以显示相机应用的执行屏幕图像或用于接收用户输入的用户界面。

同时，当显示器1322和触摸板构成层结构的触摸屏时，除了作为输出设备之外，显示器1322还可以用作输入设备。显示器1322可以包括液晶显示器、薄膜晶体管-液晶显示器、有机发光二极管、柔性显示器、三维显示器和电泳显示器中的至少一个。此外，取决于图像处理装置1000的实施方式，电子设备100a可以包括两个或更多个显示器1322。在这种情况下，两个或更多个显示器1322可以通过铰链彼此面对。

声音输出单元1324可以输出从通信器1500接收的或存储在存储器1100中的音频数据。此外，声音输出单元1324可以输出与在图像处理装置1000中处理的功能有关的音频信号(例如，呼叫信号接收声音、消息接收声音和通知声音)。这样的声音输出单元1324可以包括扬声器、蜂鸣器等。

振动电机1326可以输出振动信号。例如，振动电机1326可以输出与音频数据或视频数据的输出对应的振动信号(例如，接收声音的呼叫信号，接收声音的消息等)。此外，振动电机1326可以在触摸输入到触摸屏上时输出振动信号。

传感器1400可以检测图像处理装置1000的状态或图像处理装置1000的环境状态，并将检测到的信息传送到控制器1200。

传感器1400可以包括地磁传感器1410、加速度传感器1420、温度/湿度传感器1430、红外线传感器1440、陀螺仪传感器1450、位置传感器1460(例如，全球定位系统(GPS))、大气压传感器1470、接近传感器1480和红色、绿色、蓝色(RGB)传感器(照度传感器)中的至少一个，但不限于此。由于各个传感器的功能可以由本领域普通技术人员直观地推断，因此将省略其详细描述。

通信器1500可以包括能够在电子设备100a与外部设备(未示出)之间或在电子设备100a与服务器(未示出)之间进行通信的组件中的至少一个。例如，通信器1500可以包括短程无线通信器1510、移动通信器1520和广播接收器1530。

短距离无线通信器1510可以包括蓝牙通信器、蓝牙低功耗(BLE)通信器、近场通信器、无线局域网(WLAN)或Wi-Fi通信器、Zigbee通信器、红外数据关联(IrDA)通信器、Wi-Fi直连(WFD)通信器、超宽带(UWB)通信器和Ant+通信器，但不限于此。

移动通信器1520可以向和从移动通信网络上的基站、外部终端和服务器中的至少一个收发无线信号。无线信号可以包括用于收发音频呼叫信号、视频通信呼叫信号或文本/多媒体消息的各种类型的数据。

广播接收器1530可以经由广播信道从外部接收广播信号和/或与广播有关的信息。广播频道可以包括卫星频道和地面波频道。根据一些实施例，电子设备100a可以不包括广播接收器1530。

此外，通信器1500可以与其他设备、服务器和外围设备通信，以便收发或上载内容。

A/V输入单元1600是用于输入音频信号或视频信号的单元，并且可以包括相机1610和麦克风1620。相机1610可以经由视频呼叫模式或图像捕获模式下的成像器件，获取包括静止图像或运动图片的图像帧。由成像器件捕获的图像可以由控制器1200或分离的图像处理器(未示出)处理。

由图像捕获器1610处理的图像帧可以存储在存储器1100中或者通过通信器1500发送到外部设备。根据图像处理装置1000的配置，可以包括两个或更多个图像捕获器1610。

麦克风1620接收外部声音信号并将外部声音信号处理成电声音数据。例如，麦克风1620可以从外部设备或扬声器接收声音信号。麦克风1620可以使用各种降噪算法来去除在接收外部声音信号期间产生的噪声。

图12是根据本公开的实施例的图像处理方法的流程图。

参考图12，在操作S1210中，图像处理装置1000获取包括至少一个对象的实时取景图像。

在操作S1220中，基于各数据识别模型当中的、与特定条件对应的数据识别模型，图像处理装置1000可以根据该数据识别模型的准则，估计所获取的实时取景图像中的用户的兴趣区域，以确定区域是否对应于学得的兴趣信息。

图像处理装置1000可以在满足第一条件时根据第一数据识别模型的准则，将显著区域估计为用户的兴趣区域，以确定区域是否对应于学得的显著区域，并且可以在满足第二条件时，根据第二数据识别模型的准则，将与个性化的兴趣信息对应的区域估计为用户的兴趣区域，以确定区域是否对应于学得的个性化的兴趣信息。可以根据关于图像中的对象占据的区或图像的颜色分布的特定准则来确定显著区域，并且可以基于关于存储在图像处理装置1000中的用户的图像的特定统计来确定个性化的兴趣信息。第二条件是指存储在图像处理装置1000中的图像的数目大于特定数目并且个性化的兴趣信息的可靠性满足特定条件的情况，而第一条件是指不满足第二条件的情况。

图像处理装置1000可以根据特定准则对用户的图像进行分类，通过使用分类的图像训练第三数据识别模型，并且与外部服务器2000进行通信以获取用于确定区域是否对应于个性化的兴趣信息的准则。图像处理装置1000可以从外部服务器2000接收第三数据识别模型的准则，通过使用存储在外部服务器2000中的用户的图像来确定区域是否对应于学得的个性化的兴趣信息。根据图像处理装置1000中提供的数据识别模型的准则，与个性化的兴趣信息对应的区域可以被估计为用户的兴趣区域，以确定区域是否对应于所接收的个性化的兴趣信息。

图像处理装置1000可以基于兴趣信息的优先级，将与具有高优先级的兴趣信息对应的区域估计为用户的兴趣区域。当估计多个兴趣区域时，图像处理装置1000可以执行多聚焦，以在所有多个兴趣区域上设置焦点。当估计多个兴趣区域时，图像处理装置1000可以将焦点设置在用户选择的兴趣区域上。

在操作S1230中，图像处理装置1000将焦点设置在估计的兴趣区域上。

在操作S1240中，图像处理装置1000显示其中焦点被设置在估计的兴趣区域上的实时取景图像。图像处理装置1000可以响应于来自用户的图像捕获命令，捕获具有设置在估计的兴趣区域上的焦点的图像。

图13是用于描述根据本公开的实施例的、在图像处理装置包括第一处理器和第二处理器时估计兴趣区域的情况的流程图。

参考图13，第一处理器1200a可以控制安装在图像处理装置1000上的至少一个应用的执行，并且对通过图像处理获取的图像(例如，实时取景图像、捕获的图像等)执行图形处理。第一处理器1200a可以实现为集成了CPU、GPU、通信芯片和传感器的功能的SoC。此外，在本说明书中，第一处理器1200a可以被称为AP。

第二处理器1200b可以被制造为用于AI的专用硬件芯片，其执行用于通过使用数据识别模型来估计兴趣区域的功能。根据各种实施例，用于AI的专用硬件芯片可以包括用于数据识别模型的GPU，其包括作为基本技术的视觉理解。

根据实施例，图像处理装置1000可以包括第一处理器1200a和第二处理器1200b。

在操作S1310中，第一处理器1200a可以获取实时取景图像。实时取景图像可以包括至少一个对象。

在操作S1320中，第一处理器1200a可以确定与特定条件对应的数据识别模型。

例如，当图像处理装置1000满足上面参考图3描述的第二条件时，第一处理器1200a可以确定使用第二数据识别模型或第四数据识别模型。根据实施例，第一处理器1200a可以根据由图像处理装置1000的制造商设置的默认值或用户选择来选择第二数据识别模型或第四数据识别模型。

此外，当图像处理装置1000不满足第二条件时，第一处理器1200a可以确定满足第一条件并且确定使用第一数据识别模型。

在操作S1330中，第一处理器1200a可以通过使用所确定的数据识别模型来请求第二处理器1200b估计兴趣区域。

在操作S1340中，第二处理器1200b可以通过使用所确定的数据识别模型来估计兴趣区域。

例如，当确定使用第一数据识别模型时，第二处理器1200b可以根据第一数据识别模型的准则将显著区域估计为用户的兴趣区域，以确定区域是否对应于学得的显著区域。当确定使用第二数据识别模型时，第二处理器1200b可以根据第二数据识别模型的准则，估计与个性化的兴趣信息对应的区域作为用户的兴趣区域，以确定区域是否对应于学得的个性化信息。

当确定使用第四数据识别模型时，第二处理器1200b可以通过使用第四数据识别模型来估计与个性化的兴趣信息对应的区域。

在操作S1350中，第二处理器1200b可以将估计的兴趣区域发送到第一处理器1200a。

在操作S1360中，第一处理器1200a可以将焦点设置在估计的兴趣区域上。

在操作S1370中，第一处理器1200a可以显示其中焦点被设置在估计的兴趣区域上的实时取景图像。

图14是用于描述根据本公开的实施例的当图像处理装置包括第一处理器、第二处理器和第三处理器时估计兴趣区域的情况的流程图。

参考图14，图像处理装置1000可以包括第一处理器1200a、第二处理器1200b和第三处理器1200c。例如，第二处理器1200b可以通过使用第一数据识别模型来估计兴趣区域。第三处理器1200c可以通过使用第二数据识别模型或第四数据识别模型来估计兴趣区域。

在操作S1410中，第一处理器1200a可以获取实时取景图像。例如，实时取景图像可以包括至少一个对象。

在操作S1420中，第一处理器1200a可以确定与特定条件对应的数据识别模型。

例如，当图像处理装置1000满足上面参考图3描述的第二条件时，第一处理器1200a可以确定使用第二数据识别模型或第四数据识别模型。

根据实施例，第一处理器1200a可以将第四数据识别模型设置为与第二条件对应的默认数据识别模型，以加速对用户的兴趣区域的检测。然而，本公开不限于此。例如，第一处理器1200a可以根据由图像处理装置1000的制造商设置的默认值或用户选择来选择第二数据识别模型或第四数据识别模型。

在操作S1430中，当确定使用第一数据识别模型时，第一处理器1200a可以请求第二处理器1200b估计兴趣区域。此外，当确定使用第二数据识别模型或第四数据识别模型时，第一处理器1200a可以请求第三处理器1200c估计兴趣区域。

在操作S1440中，第三处理器1200c可以通过使用第四数据识别模型来估计兴趣区域。

在操作S1450中，第三处理器1200c可以通过使用第四数据识别模型来检查是否完成了对兴趣区域的估计。

在操作S1470中，当检查到通过使用第四数据识别模型估计兴趣区域时，第三处理器1200c可以将估计的兴趣区域发送到第一处理器1200a。

在操作S1460中，第二处理器1200b可以通过使用第一数据识别模型来估计兴趣区域。此外，当在操作S1450中确定第三处理器1200c未能通过使用第四数据识别模型来估计兴趣区域时，第二处理器1200b可以通过使用第一数据识别模型来估计兴趣区域。

在操作S1475中，第二处理器1200b可以将通过使用第一数据识别模型估计的兴趣区域发送到第一处理器1200a。

在操作S1480中，第一处理器1200a可以将焦点设置在估计的兴趣区域上。

在操作S1490中，第一处理器1200a可以显示其中焦点被设置在估计的兴趣区域上的实时取景图像。

图15是用于描述根据本公开的实施例的当图像处理装置包括第一处理器、第二处理器和第三处理器时估计兴趣区域的另一情况的流程图。

参考图15，在操作S1510中，第一处理器1200a可以获取实时取景图像。例如，实时取景图像可以包括至少一个对象。

在操作S1520中，第一处理器1200a可以确定与特定条件对应的数据识别模型。

在操作S1530中，当确定使用第一数据识别模型时，第一处理器1200a可以请求第二处理器1200b估计兴趣区域。此外，当确定使用第二数据识别模型或第四数据识别模型时，第一处理器1200a可以请求第三处理器1200c估计兴趣区域。

在操作S1540中，第二处理器1200b可以通过使用第一数据识别模型来估计兴趣区域。

在操作S1560中，第二处理器1200b可以将估计的兴趣区域发送到第一处理器1200a。

在操作S1550中，第三处理器1200c可以通过使用第四数据识别模型来估计兴趣区域。

在操作S1570中，第三处理器1200c可以通过使用第四数据识别模型来检查是否完成了对兴趣区域的估计。

在操作S1565中，当检查通过使用第四数据识别模型估计兴趣区域时，第三处理器1200c可以将估计的兴趣区域发送到第一处理器1200a。

在操作S1580中，当确定第三处理器1200c未能通过使用第四数据识别模型估计兴趣区域时，第三处理器1200c可以通过使用第二数据识别模型来估计兴趣区域。

例如，第四数据识别模型可以估计与汽车类似的形状作为兴趣区域。然而，当在实时取景图像中检测到的对象不具有与汽车类似的形状时，第三处理器1200c可以应用第二数据识别模型并估计为用户定制的另一对象作为兴趣区域。

在操作S1590中，第二处理器1200b可以将通过使用第一数据识别模型估计的兴趣区域发送到第一处理器1200a。

在操作S1593中，第一处理器1200a可以将焦点设置在估计的兴趣区域上。

在操作S1595中，第一处理器1200a可以显示其中焦点被设置在估计的兴趣区域上的实时取景图像。

图16是用于描述根据本公开的实施例的、图像处理装置通过使用服务器估计兴趣区域的情况的流程图。

如图16所示，在这种情况下，可以定义用于在图像处理装置1000和外部服务器2000之间收发数据的接口。

例如，可以定义具有要应用于数据识别模型的学习的数据作为参数(或中间值或转移值)的API。API可以被定义为一组子例程或函数，其可以由任何一个协议(例如，在图像处理装置1000中定义的协议)调用以用于另一协议(例如，在外部服务器2000中定义的协议)的特定处理。换句话说，可以提供可以经由API通过任何一个协议来执行另一协议的操作的环境。

根据实施例，外部服务器2000可以包括第三数据识别模型。

在操作S1610中，第一处理器1200a可以获取实时取景图像。例如，实时取景图像可以包括至少一个对象。

在操作S1620中，第一处理器1200a可以确定与特定条件对应的数据识别模型。

例如，图像处理装置1000可以在满足上面参考图3描述的第二条件时确定使用第二数据识别模型或第四数据识别模型。此外，当不满足第二条件时，图像处理装置1000可以确定满足第一条件并且确定使用第一数据识别模型。

在操作S1630中，图像处理装置1000可以通过使用数据识别模型来检查是否估计了兴趣区域。

在操作S1640中，当通过使用包括在图像处理装置1000中的数据识别模型来估计兴趣区域时，图像处理装置1000可以将焦点设置在估计的兴趣区域上。

在操作S1650中，当通过使用包括在图像处理装置1000中的数据识别模型没有估计出兴趣区域时，图像处理装置1000可以请求外部服务器2000估计兴趣区域。

在操作S1660中，外部服务器2000可以通过使用第三数据识别模型来估计兴趣区域。

在操作S1670中，外部服务器2000可以将估计的兴趣区域发送到图像处理装置1000。

在操作S1680中，图像处理装置1000可以将焦点设置在估计的兴趣区域上。

在操作S1690中，图像处理装置1000可以显示其中焦点被设置在估计的兴趣区域上的实时取景图像。

同时，可以实现上述图像处理方法可以被创建为可以由计算机执行的程序，并且可以在通过使用计算机可读存储介质来操作这样的程序的通用数字计算机上实现。这种计算机可读存储介质可以包括ROM、RAM、闪存、光盘ROM(CD-ROM)、CD-R、CD+R、CD-RW、CD+RW、数字通用光盘ROM(DVD-ROM)、DVD-R、DVD+R、DVD-RW、DVD+RW、DVD-RAM、BD-ROM、BD-R、BD-RLTH、BD-RE、磁带、软盘、光磁数据存储设备、光学数据存储设备、硬盘、固态磁盘(SSD)以及能够存储指令或软件、相关联数据、数据文件和数据结构并且向处理器或计算机提供指令或软件、相关联数据、数据文件和数据结构、使得该处理器或计算机可以执行指令的任何类型的设备。

而且，所公开的实施例可以实现为包括存储在计算机可读存储介质上的指令的软件程序。

计算机可以包括根据所公开的实施例的图像处理装置，该图像处理装置是能够根据调用的指令从存储介质调用存储的指令并根据所公开的实施例执行操作的装置。

可以以非暂时性存储介质的形式提供计算机可读存储介质。这里，“非暂时性”仅意味着存储介质不包括信号并且是有形的，并且不指示数据是半永久地还是临时地存储在存储介质上。

而且，可以在计算机程序产品中提供根据所公开实施例的控制方法。计算机程序产品可以作为商品在售卖方和购买者之间进行交易。

计算机程序产品可以包括软件程序和其上存储有软件程序的计算机可读存储介质。例如，计算机程序产品可以包括由软件程序(例如，可下载的应用)形式的产品，其由图像处理装置的制造商或通过电子市场(例如，Google Play商店，App商店等)电子地分发。对于电子分发，软件程序的至少一部分可以存储在存储介质上或者可以临时生成。在这种情况下，存储介质可以是制造商的服务器、电子市场的服务器、或用于临时存储软件程序的中继服务器的存储介质。

在包括服务器和图像处理装置的系统中，计算机程序产品可以包括服务器的存储介质或图像处理装置的存储介质。可替换地，当存在与服务器或图像处理装置通信的第三设备(例如，智能电话)时，计算机程序产品可以包括第三设备的存储介质。可替换地，计算机程序产品可以包括软件程序本身，该软件程序从服务器发送到图像处理装置或第三设备，或者从第三设备发送到图像处理装置。

在这种情况下，服务器，图像处理装置和第三设备中的一个可以执行计算机程序产品以执行根据所公开的实施例的方法。可替换地，服务器、图像处理装置和第三设备中的两个或更多个可以执行计算机程序产品以分布式方式执行根据所公开实施例的方法。

例如，服务器(例如，云服务器或AI服务器等)可以执行存储在服务器中的计算机程序产品，以控制与服务器通信的图像处理装置，以执行根据所公开的实施例的方法。

在另一示例中，第三设备可以执行计算机程序产品以控制与第三设备通信的图像处理装置，以执行根据所公开的实施例的方法。当第三设备执行计算机程序产品时，第三设备可以从服务器下载计算机程序产品并执行下载的计算机程序产品。可替换地，第三设备可以执行以预加载方式提供的计算机程序产品，以执行根据所公开实施例的方法。

应该理解的是，这里描述的实施例应该仅被认为是描述性的，而不是为了限制的目的。通常应当认为每个实施例中的特征或方面的描述可用于其他实施例中的其他类似特征或方面。

虽然已经参考本公开的各种实施例示出和描述了本公开，但是本领域技术人员将理解，在不脱离由所附权利要求及其等同物所限定的本公开的精神和范围的情况下，可以在其中进行形式和细节上的各种改变。

Claims

1.一种图像处理装置，包括：

图像捕获器，被配置为获取包括至少一个对象的实时取景图像；

存储器，被配置为存储计算机可运行指令和一个或多个预先捕获的图像；

至少一个处理器，其通过运行所述计算机可运行指令，基于从多个数据识别模型当中选择的、与特定条件对应的数据识别模型，被配置为：

通过使用被训练用于确定区域是否对应于兴趣区域的所述选择的数据识别模型，估计所获取的实时取景图像中的兴趣区域，以及

在所估计的兴趣区域上设置焦点；以及

输入/输出单元，被配置为显示其中焦点被设置在所估计的兴趣区域上的实时取景图像，

其中，所述多个数据识别模型使用机器学习算法，神经网络算法或深度学习算法中的至少一个，

其中，所述多个数据识别模型包括：i)第一数据识别模型，其被训练用于估计实时取景图像中的显著区域作为兴趣区域，以及ii)第二数据识别模型，其用于将实时取景图像中的个性化信息相对应的区域估计为兴趣区域，

其中，所述至少一个处理器还被配置为：

当满足第一条件时，通过使用第一数据识别模型将显著区域估计为兴趣区域，以及

当满足第二条件时，通过使用第二数据识别模型将与个性化信息对应的区域估计为兴趣区域。

2.如权利要求1所述的图像处理装置，其中，所述第一条件或所述第二条件根据存储在存储器中的图像的数目大于预定数目和个性化信息满足预定可靠性而被满足。

3.如权利要求2所述的图像处理装置，

其中，根据图像中的对象占据的区或所述图像的颜色分布，通过所述第一数据识别模型确定所述显著区域，以及

其中，基于关于存储在所述存储器中的图像的统计，通过所述第二数据识别模型确定所述个性化信息。

4.如权利要求2所述的图像处理装置，

其中，所述第一条件是指不满足所述第二条件的情况。

5.如权利要求1所述的图像处理装置，还包括：

通信器(1500)，被配置为接收第三数据识别模型的准则，其中所述第三数据识别模型的准则用于通过使用存储在外部服务器中的用户图像，确定区域是否对应于学得的个性化信息，

其中，所述至少一个处理器还被配置为基于接收到的所述第三数据识别模型的准则将与所述个性化信息对应的区域估计为所述用户的兴趣区域。

6.如权利要求5所述的图像处理装置，其中，所述外部服务器还被配置为：对所述用户图像进行分类，并通过使用分类的图像训练所述第三数据识别模型，从而获取所述第三数据识别模型的用于确定区域是否对应于所述个性化信息的准则。

7.如权利要求1所述的图像处理装置，其中，所述至少一个处理器还被配置为基于兴趣信息的优先级，将与具有高优先级的兴趣信息对应的区域估计为兴趣区域。

8.如权利要求1所述的图像处理装置，其中，当估计多个兴趣区域时，所述至少一个处理器还被配置为执行多聚焦，用于在所有的所述多个兴趣区域上设置焦点。

9.如权利要求1所述的图像处理装置，其中，当估计多个兴趣区域时，所述至少一个处理器还被配置为将焦点设置在用户从所述多个兴趣区域当中选择的兴趣区域上。

10.如权利要求1所述的图像处理装置，其中，响应于来自用户的图像捕获命令，所述图像捕获器还被配置为捕获具有设置在估计的兴趣区域上的焦点的图像。

11.一种图像处理方法，包括：

在存储器中存储一个或多个预先捕获的图像；

获取包括至少一个对象的实时取景图像；

基于从多个数据识别模型当中选择的、与特定条件对应的数据识别模型，通过使用被训练用于确定区域是否对应于兴趣区域的所述选择的数据识别模型，估计所获取的实时取景图像中的兴趣区域；

在所估计的兴趣区域上设置焦点；以及

显示其中焦点被设置在所估计的兴趣区域上的实时取景图像，

其中，所述多个数据识别模型包括：i)第一数据识别模型，其被训练用于估计实时取景图像中的显著区域作为兴趣区域，以及ii)第二数据识别模型，其用于将与实时取景图像中的个性化信息相对应的区域估计为兴趣区域，

其中，估计所述兴趣区域包括：

12.如权利要求11所述的图像处理方法，

其中，所述第一条件或所述第二条件根据存储在存储器中的图像的数目大于预定数目和个性化信息满足预定可靠性而被满足。

13.如权利要求12所述的图像处理方法，

14.如权利要求12所述的图像处理方法，

其中，所述第一条件是指不满足所述第二条件的情况。

15.一种非暂时性记录介质，所述非暂时性记录介质上存储有定义为由至少一个处理器执行的指令，执行成像处理方法包括：

在存储器中存储一个或多个预先捕获的图像；

获取包括至少一个对象的实时取景图像；

在所估计的兴趣区域上设置焦点；以及

其中，估计所述兴趣区域包括：