CN109906457A

CN109906457A - 数据识别模型构建设备及其构建数据识别模型的方法，以及数据识别设备及其识别数据的方法

Info

Publication number: CN109906457A
Application number: CN201780067877.4A
Authority: CN
Inventors: 金地万; 朴灿钟; 梁道俊; 李贤优
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2016-11-03
Filing date: 2017-11-01
Publication date: 2019-06-18
Also published as: EP3532990A4; EP3532990A1; KR102414602B1; KR20180049786A

Abstract

公开了一种数据识别模型构建设备。所述数据识别模型构建设备包括：视频输入器，被配置为接收视频；图像合成单元，被配置为基于形成所述视频的至少一部分的多个图像中的每个图像中包括的公共区域，通过将所述多个图像的至少一部分重叠来产生合成图像；学习数据输入器，被配置为接收产生的合成图像；模型学习单元，被配置为使用产生的合成图像使数据识别模型进行学习；以及模型存储器，被配置为存储学习后的数据识别模型。

Description

数据识别模型构建设备及其构建数据识别模型的方法，以及数据识别设备及其识别数据的方法

技术领域

与示例性实施例一致的设备和方法涉及显示设备及其图像合成方法，更具体地，涉及使用学习数据来构建数据识别模型的设备及其方法。此外，本公开涉及使用构建的数据识别模型来识别数据的设备及其方法。

本公开涉及利用诸如深度学习的机器学习算法来模拟诸如人脑等的识别和确定的功能的人工智能(AI)系统及其应用。

背景技术

随着诸如计算机和智能电话的信息装置的发展，已经开发了数字计算机应用和数字信号处理技术。

特别地，已经开发了诸如人工智能图像识别(视频/运动识别)、深度学习(深度学习)和机器学习的最新技术，并且自动识别数据(诸如，语音、图像、视频或文本)并提供与数据有关的信息或提供与数据有关的服务的智能服务被用于各种领域。

人工智能系统是实现人类级别智能的计算机系统，并且与现有的基于规则的智能系统不同，机器进行学习、判断并且变得智能。人工智能系统被使用越多，系统的识别能力被进一步提高并且用户偏好被更准确地确定，因此现有的基于规则的智能系统正逐渐被基于深度学习的人工智能系统取代。

人工智能技术由机器学习(例如，深度学习)和利用机器学习的元素技术组成。

机器学习是一种通过它本身对输入数据的特征进行分类/学习的算法技术。元素技术是使用诸如深度学习的机器学习算法来模拟诸如人脑的识别和判断的功能的技术。元素技术包括语言理解、视觉理解、推理/预测、知识表示和运动控制。

应用人工智能技术的各种领域如下。语言理解是用于识别、应用和处理人类语言/文字的技术，包括自然语言处理、机器翻译、对话系统、问答、语音识别/合成等。视觉理解是一种如人类视觉那样识别和处理对象的技术，包括对象识别、对象跟踪、图像搜索、人类识别、场景理解、空间理解和图像增强。推理和预测是用于判断信息以及逻辑推断并预测信息的技术，包括基于知识/概率的推理、优化预测、基于偏好的计划和推荐。知识表示是一种将人类经历信息自动转化为知识数据的技术，包括知识构建(数据产生/分类)和知识管理(数据利用)。运动控制是用于控制车辆的自动行驶和机器人的运动的技术，并且包括运动控制(导航、碰撞、行驶)、操作控制(行为控制)。

发明内容

技术问题

示例性实施例可克服上述缺点和以上未描述的其他缺点。然而，应理解，示例性实施例不需要克服上述缺点，并且可能不克服上述任何问题。

为了构建用于识别数据的数据识别模型，需要学习数据。特别地，当使用视频对数据识别模型进行学习时，形成视频的帧中的每个帧可被用作学习数据。

在这种情况下，当针对形成视频的全部帧学习对数据识别模型进行学习时，可能需要大量的信息处理，并且可能需要将在其中存储帧的大容量存储空间。

此外，帧中的每个帧被用作学习数据，可对数据识别模型进行学习，同时省略帧之间的相关信息。

因此，本公开用于缩短学习所需的时间，减少存储学习数据的存储空间，并且提供考虑帧之间的相关性的学习的设备及其方法。

此外，本公开要解决的技术问题不限于上述技术问题，并且本领域中的技术人员将从下面的描述中理解未提及的其他技术对象。

技术方案

根据示例性实施例的一方面，一种数据识别模型构建设备可包括：视频输入器，被配置为接收视频；图像合成单元，被配置为基于包括在形成所述视频的至少一部分的多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分重叠来产生合成图像；学习数据输入器，被配置为接收产生的合成图像；模型学习单元，被配置为使用产生的合成图像进行数据识别模型学习；以及模型存储器，被配置为存储学习后的数据识别模型。

根据示例性实施例的一方面，一种数据识别设备可包括：视频输入器，被配置为接收视频；图像合成单元，被配置为基于包括在形成所述视频的至少一部分的多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分重叠来产生合成图像；识别数据输入器，被配置为接收产生的合成图像；以及识别结果提供器，被配置为将产生的合成图像应用于数据识别模型并且提供所述视频的识别结果。

根据示例性实施例的一方面，一种电子设备可包括：视频输入器，被配置为接收视频；图像合成单元，被配置为基于包括在形成所述视频的至少一部分的多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分重叠来产生合成图像；识别数据输入器，被配置为接收产生的合成图像；识别结果提供器，被配置为将产生的合成图像应用于数据识别模型并且提供所述视频的识别结果；以及服务提供器，配置为基于所述视频的识别结果提供服务。

根据示例性实施例的一方面，一种由数据识别模型构建设备构建数据识别模型的方法可包括：接收视频；基于包括在多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分重叠来产生合成图像；使用产生的合成图像对数据识别模型进行学习；并且存储学习后的数据识别模型。

根据示例性实施例的一方面，一种由数据识别设备识别数据的方法可包括：接收视频；基于包括在形成所述视频的至少一部分的多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分重叠来产生合成图像；并且将产生的合成图像应用于数据识别模型并提供所述视频的识别结果。

根据示例性实施例的一方面，一种根据示例性实施例的计算机可读非暂时性记录介质可存储使电子设备能够执行以下操作的程序：接收视频；基于包括在多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分重叠来产生合成图像；使用产生的合成图像对数据识别模型进行学习；并且存储学习后的数据识别模型。

根据示例性实施例的一方面，一种根据示例性实施例的计算机可读非暂时性记录介质可存储使电子设备能够执行以下操作的程序：接收视频；基于包括在形成所述视频的至少一部分的多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分重叠来产生合成图像；并且将产生的合成图像应用于数据识别模型并提供所述视频的识别结果。

有益效果

根据本公开，通过使用合成图像作为学习数据，可构建考虑形成视频的帧之间的相关信息的数据识别模型。

此外，不是形成视频的全部帧，而是包括多个帧的合成图像被用作学习数据，可缩短学习所需的时间，并且可节省用于存储学习数据的存储空间。

此外，可在本公开中获得的效果不限于提及的效果，并且对本公开所属领域中的技术人员来说，从下面的描述中，未提及的其他效果是显而易见的。

附图说明

通过参照附图详细地描述示例性实施例，以上和/或其他方面将更明显，其中：

图1A和图1B是用于描述根据示例性实施例的数据识别模型构建设备的框图。

图2A和图2B是根据示例性实施例的数据识别设备的框图。

图3是示出根据示例性实施例的基于视频的识别结果提供服务的处理的示图。

图4至图6是示出根据示例性实施例的图像合成单元的处理的示图。

图7是示出根据示例性实施例的电子设备的构造的框图。

图8A是表示根据示例性实施例的通过数据识别模型构建设备构建数据识别模型的方法的流程图。

图8B是示出根据示例性实施例的通过包括电子设备和服务器的系统构建数据识别模型的方法的序列图。

图9A是指示根据示例性实施例的通过数据识别设备识别数据的方法的流程图。

图9B是示出根据示例性实施例的通过包括电子设备和服务器的系统识别数据的方法的序列图。

图10A是示出根据示例性实施例的通过电子设备提供服务的方法的流程图。

图10B和图10C是示出根据示例性实施例的通过包括电子设备和服务器的系统来提供服务的方法的序列图。

图11和图12是用于描述根据各种示例性实施例的电子设备的处理器的各种示例性实施例的示图。

最佳实施方式

在下文中，将参照附图更详细地描述示例性实施例。

在下面的描述中，即使在不同的附图中，相同的参考标号也被用于相同的元件。提供说明书中定义的事项(诸如，详细的结构和元件)以帮助全面理解示例性实施例。因此，显而易见的是，可在没有那些具体定义的事项的情况下实施示例性实施例。此外，由于相关领域中已知的功能或元件会以不必要的细节模糊示例性实施例，因此没有详细地描述相关领域中已知的功能或元件。

本文使用的术语选自目前广泛使用的且考虑到本公开中的功能的通用术语，但是同时，术语可根据先例或本领域中的技术人员的意图而变化，或者根据新技术的出现而变化。此外，可任意选择特定术语，在这种情况下，将在本公开中详细地描述相应的含义。因此，本文使用的术语将不简单地基于术语的名称来定义，而是基于贯穿说明书的术语和上下文的含义来定义。

本公开的示例性实施例可具有各种修改和若干示例。因此，尽管本文详细地描述了各种示例性实施例，但是这些实施例并不意在将本公开的范围仅限于特定示例性实施例。相反，应理解，示例性实施例包含落入被公开的构思和技术范围内的所有修改、等同物或替换物。在描述示例实施例时，当公知功能或结构以不必要的细节模糊本公开时，可不详细地描述公知功能或结构。此外，下面描述的术语是考虑到本公开的功能而定义的术语，并且可根据用户、操作者或实践而变化。因此，必须基于贯穿说明书提供的内容进行定义。

诸如“第一”、“第二”等术语可用于描述各种元件，但这些元件不应受这些术语的限制。这些术语仅用于将一个元件与另一元件区分开的目的。

除非另有说明，否则单数表述包括复数表述。将理解，本文使用的诸如“包括”或“由…组成”的术语用于指示特征、数字、步骤、操作、元件、组件或它们的组合的存在，并且不排除存在添加一个或更多个其他特征、数字、步骤、操作、元件、组件或它们的组合或者添加一个或更多个其他特征、数字、步骤、操作、元件、组件或它们的组合的可能性。

在本公开的示例性实施例中，“模块”或“单元”可执行至少一个功能或操作，并且可被实现为硬件(例如，电路)或软件，或者被实现为硬件和软件的组合。此外，除了必须作为特定硬件(例如，专用处理器)实现的“模块”或“单元”之外，多个“模块”或多个“单元”可被集成到至少一个模块中并且被实现为至少一个处理器。

根据各种示例性实施例的电子设备可包括例如以下项中的至少一项：智能电话、平板PC、移动电话、视频电话、电子书阅读器、台式PC、膝上型PC、上网本计算机、工作站、服务器、PDA、便携式多媒体播放器(PMP)、MP3播放器、医学装置、相机或可穿戴装置。可穿戴装置可包括以下项中的至少一项：配件型(例如，手表、戒指、手镯、脚镯、项链、眼镜、隐形眼镜或头戴式装置(HMD))、织物或服装嵌入型(例如，电子服装)、身体附着型(例如，皮肤垫或纹身)或生物植入物电路。

在一些实施例中，电子设备可包括例如以下项中的至少一项：电视、数字视频盘(DVD)播放器、音响、冰箱、空调、清洁器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、家用自动控制面板、安全控制面板、媒体盒(例如，Samsung HomeSync^TM、Apple TV^TM或GoogleTV^TM)、游戏机(例如，Xbox^TM、PlayStation^TM)、电子词典、电子钥匙、摄录机或电子相框。

在另一示例性实施例中，电子设备可包括各种医学装置(例如，各种便携式医学测量装置(血糖监视器、心率监视器、血压测量装置或体温测量装置等)、磁共振血管造影(MRA)、磁共振成像(MRI)、计算机断层扫描(CT)、摄影装置或超声装置等)、导航仪、全球导航卫星系统(GNSS)、事件数据记录器(EDR)、飞行数据记录器(FDR)、车载信息娱乐装置、用于船舶的电子装置(例如，用于船舶的导航装置、回转罗盘等)、航空电子设备、安全装置、车辆的头单元、工业或家用机器人、无人机、金融机构的ATM、商店的销售点(POS)或物联网装置(例如，灯泡、传感器、洒水器、火警警报器、温度控制器、路灯、烤面包机、体育用品、热水箱、加热器、锅炉等)。根据一些示例性实施例，电子设备可包括以下项中的至少一项：家具、建筑物/结构或车辆的一部分、电子板、电子签名接收装置、投影仪或各种测量装置(例如，水测量装置、电测量装置、气测量装置、或波测量装置等)。在各种示例性实施例中，电子设备可以是柔性的，或者是前述各种装置中的两个或更多个的组合。根据示例性实施例的电子设备不限于前述装置。在本公开中，术语“用户”可指示使用电子设备的人或使用电子设备的设备(例如，人工智能电子设备)。

随后将在本公开中描述的数据识别模型构建设备的至少一部分和数据识别设备的至少一部分可被实现为软件模块或硬件芯片，并且可被设置在前述电子设备中。例如，数据识别模型构建设备和数据识别设备可以以专用于人工智能(AI)的硬件芯片或者传统通用处理器(例如，CPU或应用处理器)或图形专用处理器(例如，GPU)的形式被制造并且被安装在如上所述的各种电子设备上。此时，专用于人工智能的硬件芯片是用于概率计算的专用处理器，并且比传统通用处理器具有更高的并行处理性能，因此能够实现机器学习和人工智能领域中的快速计算工作。当数据识别模型构建设备和数据识别设备被实现为软件模块(或包括指令的程序模块)时，软件模块可被存储在计算机可读非暂时性计算机可读介质中。此外，在这种情况下，至少一个软件模块可由操作系统(OS)或预定应用提供。可选地，软件模块中的一些软件模块可由操作系统(OS)提供，并且软件模块中的一些软件模块可由预定应用提供。

在下文中，将参照附图描述数据识别模型构建设备和数据识别设备的示例性实施例。

图1A是根据示例性实施例的数据识别模型构建设备100的框图。数据识别模型构建设备100可对用于确定环境的标准(例如，图像分析)进行学习并且构建数据识别模型。数据识别模型构建设备100可对关于哪个数据将被用于确定预定环境的标准以及如何使用数据来确定环境的标准进行学习。数据识别模型构建设备100可通过获得将用于学习的数据并且将获得的数据应用于随后描述的数据识别模型来对用于确定环境的标准进行学习。

由数据识别模型构建设备100输入的数据类型包括语音数据、视频数据、文本数据、生物信号数据等，但不限于此，并且可包括可使用其他识别模型被分类的所有数据。

同时，将以视频数据(或视频)作为主要示例进行说明。

参照图1A，数据识别模型构建设备100可包括视频输入器110、图像合成单元120、模型学习单元140和模型存储器150。同时，前述元件可被实施为软件模块或者被制造为硬件模块(例如，硬件芯片)，并且前述元件中的两个或更多个可被实现为一个元件并被实现为软件模块或者被制造为硬件模块。

视频输入器110可接收视频。视频可包括多个图像(或帧)。

例如，视频输入器110可通过安装有数据识别模型构建设备100的电子设备的相机或能够与安装有数据识别模型构建设备100的电子设备进行通信的外部相机(例如，CCTV或黑匣子等)来接收视频。这里，相机可包括一个或更多个图像传感器(例如，前置传感器或后置传感器)、镜头、图像信号处理器(ISP)或闪光灯(例如，LED或氙灯等)。

图像合成单元120可基于包括在形成输入视频的至少一部分的多个图像(或帧)中的每个图像(或帧)中的公共区域，通过将所述多个图像的至少一部分重叠来产生一个合成图像。在这种情况下，可从一个视频产生多个合成图像。

公共区域可以是包括来自多个图像中的每个图像的相同或相似的公共对象(例如，动物、植物或人等)的区域。可选地，公共区域可以是多个图像的颜色、阴影、RGB值或CMYK值相同或相似的区域。

将在下面描述的示例性实施例中进一步描述前述公共区域。

参照回图1A，所述多个图像可以是第一图像至第四图像121、122、123和124。

在这种情况下，图像合成单元120可从第一图像121至第四图像124提取多个公共区域121a、122a、123a和124a。在这种情况下，公共区域可以是包括例如正在进行运动的人的区域。

例如，图像合成单元120可使用分割技术确定包括在多个图像中的公共对象，以指定的帧间隔(例如，每秒10-60帧)选择多个图像，并且从选择的多个图像提取包括公共对象的多个公共区域。

可选地，图像合成单元120可通过使用分割技术确定包括在多个图像中的公共对象，选择公共对象的形状显著改变的多个图像，并且从选择的多个图像提取包括公共对象的多个公共区域。

图像合成单元120可通过使用运动对象检测技术从多个图像确定运动的大小大于或等于预定矢量的公共区域，并且从具有预定义帧间隔(例如，每秒10-60帧)的多个图像提取多个公共区域。

图像合成单元120可使用运动对象检测技术从多个图像确定运动的大小大于或等于特定矢量的公共区域，并且从运动的改变大的多个图像提取多个公共区域。

此外，图像合成单元120的提取公共区域的方法不限于此，并且可使用本领域中的技术人员已知的各种区域提取技术从多个图像提取多个公共区域。

当从第一图像121至第四图像124提取多个公共区域121a-124a时，图像合成单元120可通过将提取的多个公共区域121a-124a重叠来产生合成图像125。在这种情况下，图像合成单元120可将除从合成图像125提取的公共区域之外的背景区域处理为单色(例如，黑色)。

图1A的模型学习单元140可接收从图像合成单元120产生的合成图像作为学习数据。

此外，模型学习单元140还可接收例如语音数据、图像数据、文本数据或生物信号数据等。

此外，模型学习单元140还可接收与合成图像相应的视频的分类结果(或正确答案信息)作为用于数据识别模型的学习的学习数据。在这种情况下，视频的分类结果可由人手动产生，或者可根据传统的图像处理技术自动产生。可选地，可从视频的附加信息(例如，标签、元数据、评论信息等)自动获得视频的分类结果。

用于数据识别模型的学习的视频的分类结果可被设置为文本、语音、图像等。视频的分类结果可以是例如视频的包括的对象(例如，人)的状态信息、关于对象的状态信息等。具体地，视频的状态信息可以是诸如在锻炼期间、在紧急情况中、在休息期间、在用餐期间或在睡眠时人的状态信息，但不限于上述示例。

例如，模型学习单元140除了可通过数据识别模型构建设备100接收附加学习数据之外还可通过安装有数据识别设备200的电子设备的输入装置(例如，麦克风、相机或传感器等)接收附加学习数据。模型学习单元140还可通过与安装有数据识别设备200的电子设备进行通信的外部装置接收附加学习数据。

模型学习单元140可使用接收到的合成图像使数据识别模型进行学习。

在这种情况下，数据识别模型可以是已经被构建的模型。例如，数据识别模型可以是通过接收基本学习数据(例如，样本图像等)而已经被构建的模型。

可考虑识别模型的应用领域、学习的目的、设备的计算机性能等来构建数据识别模型。

数据识别模型可以是例如基于神经网络的模型141。

数据识别模型可被设计为在计算机上模拟人脑结构。数据识别模型可包括模拟人类神经网络的神经元的具有加权值的多个网络节点。所述多个网络节点可分别建立连接关系，使得神经元模拟经由突触发送和接收信号的突触活动。数据识别模型可包括例如神经网络模型或从神经网络模型发展的深度学习模型。在深度学习模型中，多个网络节点位于不同的深度(或层)，并且数据可根据卷积连接关系被交换。诸如深度神经网络(DNN)、递归神经网络(RNN)和双向递归深度神经网络(BRDNN)的模型可包括在数据识别模型中，但不具体地限于上述示例。

根据各种示例性实施例，当存在多个预先构建的数据识别模型时，模型学习单元140可将输入的合成图像与基本学习数据之间的相关性高的数据识别模型确定为将被学习的数据识别模型。在这种情况下，基本学习数据可按照数据的类型被预分类，并且数据识别模型可按照数据的类型被预构建。例如，基本学习数据可基于各种标准(诸如，产生学习数据的区域、产生学习数据的时间、学习数据的大小、学习数据的种类、学习数据的产生器和学习数据内的对象的类型等)被预分类。

根据各种示例性实施例，模型学习单元140可使用包括例如误差反传或梯度下降的学习算法来对数据识别模型进行学习。

当对数据识别模型进行了学习时，如图1A中示出的模型存储器150可存储学习后的数据识别模型。在这种情况下，模型存储器150可将学习后的数据识别模型存储在安装有数据识别模型构建设备100的电子设备的存储器中。或者，模型存储器150可将学习后的数据识别模型存储在安装有随后将描述的数据识别设备200的电子设备的存储器中。可选地，模型存储器150可将学习后的数据识别模型存储在位于外部并且通过有线或无线连接的服务器的存储器中。

在这种情况下，存储学习后的数据识别模型的存储器可存储例如与电子设备的至少一个其他元件有关的命令或数据。此外，存储器可存储软件和/或程序。所述程序可包括例如内核、中间件、应用编程接口(API)和/或应用程序(或“应用”)等。将通过图7的存储器750描述存储器的详细示例。

图1B是根据另一示例性实施例的数据识别模型构建设备100的框图。

参照图1B，数据识别模型构建设备100可包括视频输入器110、图像合成单元120、模型学习单元140、模型存储器150和模型评估单元160。

在图1B中，已经参照图1A更详细地描述了视频输入器110、图像合成单元120、模型学习单元140和模型存储器150，并且将不再进一步描述。

模型评估单元160可将评估数据输入到学习后的数据识别模型，并且可在从评估数据输出的识别结果不满足预定标准时使模型学习单元140再次进行学习。在这种情况下，评估数据可以是视频本身或从视频产生的合成图像。

例如，在关于评估数据的学习后的数据识别模型的识别结果中，如果识别结果是不正确的评估数据的数量或比率超过预定阈值，则模型评估单元160可评估为不满足预定标准。例如，如果预定标准被定义为2％，并且由学习后的数据识别模型输出关于1000个评估数据中超过20个的评估数据的不正确识别，则模型评估单元160可评估为学习后的数据识别模型不合适。

同时，如果存在多个学习后的数据识别模型，则模型评估单元160可评估每个学习后的数据识别模型是否满足预定标准，并且将满足预定标准的模型确定为最终的数据识别模型。在这种情况下，当存在满足预定标准的多个模型时，模型评估单元160可将以高评估分数的顺序预设的一个模型或预定数量的模型确定为最终的数据识别模型。

根据各种示例性实施例，数据识别模型构建设备100可包括：视频输入器110，接收视频；图像合成单元120，基于包括在形成视频的至少一部分的多个图像中的每个图像中的公共区域，将所述多个图像的至少一部分重叠，并且产生合成图像模型学习单元140，使用合成图像来对数据识别模型进行学习；以及模型存储器150，存储数据识别模型。

根据各种示例性实施例，图像合成单元120可通过从所述多个图像中的每个图像提取公共区域，并将提取的公共区域重叠来产生合成图像。

根据各种示例性实施例，图像合成单元120可基于公共区域的重心产生合成图像。

根据各种示例性实施例，图像合成单元120可将公共区域和包括在所述多个图像中的每个图像中的公共区域周围的背景区域重叠，并且产生合成图像。

根据各种示例性实施例，图像合成单元120可对多个图像中的每个图像补偿拍摄视频的相机的运动，并且基于包括在相机的运动被补偿的多个图像中的每个图像中的公共区域来产生合成图像。

根据各种示例性实施例，数据识别模型构建设备100还可包括使用视频或合成图像来评估学习后的数据识别模型的模型评估单元160。

图2A是根据示例性实施例的数据识别设备200的框图。数据识别设备200可基于数据执行状态确定(例如，视频分析等)。数据识别设备200可使用学习后的数据识别模型从预定数据识别状态。数据识别设备200可通过学习来基于预设标准获得预定数据，使用以获得的数据作为输入值的数据识别模型，并且基于预定数据确定预定状态。此外，由以获得的数据作为输入值的数据识别模型输出的结果值可被用于更新数据识别模型。

数据识别设备200可识别的数据的类型可包括语音数据、视频数据、文本数据、生物信号数据等，但不限于此，并且包括可通过使用另一识别模型被分类的所有数据。

同时，本公开将以视频数据(或视频)作为主要示例进行说明。

参照图2A，数据识别设备200可包括视频输入器210、图像合成单元220和识别结果提供器240。

视频输入器210可接收视频。视频可由多个图像(或帧)形成。

例如，视频输入器210可从用户接收将要识别的视频。

例如，用户可从预先存储在用户拥有的电子设备中的视频选择将识别的视频并且进行控制，使得选择的视频被提供给视频输入器210。或者，用户可执行电子设备的相机应用，使得通过电子设备的相机拍摄的视频被提供给视频输入器210。

或者，视频输入器210可通过安装有数据识别设备200的电子设备的相机或能够与安装有数据识别设备200的电子设备进行通信的外部相机(例如，CCTV或黑匣子等)接收视频。

图像合成单元220可基于包括在形成视频的至少一部分的多个图像中的每个图像中的公共区域将所述多个图像的至少一部分重叠，并且产生一个合成图像。

图像合成单元220可从第一图像至第四图像221、222、223、224提取多个公共区域221a、222b、223c和224d。接下来，图像合成单元220可将提取的多个公共区域221a-224d重叠，并且产生合成图像225。

由图像合成单元220从视频产生合成图像225的处理与如图1A中示出的图像合成单元120从视频产生合成图像的处理相应，因此将不再描述由图像合成单元220从视频产生合成图像225的处理。

图2A的识别结果提供器240可接收从图像合成单元220产生的合成图像作为识别数据。

此外，识别结果提供器240还可接收例如音频数据、视频数据、文本数据或生物信号数据。

识别结果提供器240可将合成图像应用于学习后的数据识别模型并且提供视频的识别结果。

识别结果提供器240可根据识别数据的目的向用户提供识别结果。视频的识别结果可被提供为文本、语音、视频、图像或命令(例如，应用执行命令、模块功能执行命令等)。

例如，识别结果提供器240可提供包括在视频中的对象(例如，人)的识别结果。识别结果可包括例如包括在视频中的对象的状态信息和对象的周围状态信息等。

识别结果提供器240可通过文本、语音、视频、图像或命令提供包括在视频中的人的状态信息(诸如，“在锻炼期间241”、“紧急情况242”、“休息243”、“用餐244”、“睡眠245”)作为对象的状态信息。

识别结果提供器240可通过额外地使用从安装有数据识别设备200的电子设备的传感器获得的感测值来确定识别结果。

具体地，识别结果提供器240可使用从能够获取位置信息的传感器获得的感测值(例如，GPS信息、网络连接信息等)来确定数据识别设备200的位置信息。然后，识别结果提供器240可考虑位置信息来确定识别结果。

例如，当数据识别设备200的位置是健身中心或运动场时，识别结果提供器240可高度地确定识别结果是“在锻炼期间”的可能性。此外，识别结果提供器240可基于从传感器获得的感测值来检测包括在e中的对象信息，并且确定e结果。例如，识别结果提供器240可额外地使用包括在视频中的QR码或条形码的读取结果，并且确定识别结果。

服务提供器250可基于视频的识别结果来提供服务。

服务提供器250可被实现为软件模块或者被制造为芯片，并且被安装在各种电子设备上。

安装有服务提供器250的电子设备可以是与安装有数据识别设备200的设备相同的设备或单独的设备。当被安装在单独的电子设备上时，安装有服务提供器250的电子设备和安装有数据识别设备200的电子设备可通过有线网络或无线网络连接。在这种情况下，可通过安装有服务提供器250的电子设备接收从数据识别设备200输出的视频的识别结果，并且可提供基于视频的识别结果的服务。

服务提供器250可包括至少一个应用或操作系统的一部分，以基于识别结果提供服务。可选地，服务提供器250可执行电子设备的与识别结果相关联的应用。

例如，如果视频识别结果是“在锻炼期间241”，则服务提供器250可提供用于指导锻炼的服务301。例如，服务提供器250可控制位于用户的前方的显示设备在显示设备中显示用于指导锻炼的视频。

作为另一示例，如果视频识别结果是“紧急情况242”，则服务提供器250可提供产生紧急警报的服务。例如，服务提供器250可将指示紧急情况的警报信息发送到应急灾难系统或健康管理系统等。

图2B是根据另一示例性实施例的数据识别设备200的框图。

参照图2B，数据识别设备200可包括视频输入器210、图像合成单元220、识别结果提供器240和模型更新单元260。在图2B中，已经参照图2A更详细地描述了视频输入器210、图像合成单元220和识别结果提供器240，因此将不再进一步描述。

模型更新单元260可确定当将要识别的数据被输入时是按原样使用数据识别模型还是需要更新数据识别模型，并且可根据确定结果更新数据识别模型。

例如，模型更新单元260可通过分析用于预构建的数据识别模型的学习的基本学习数据与新输入的视频或合成图像之间的相关性来确定是否进行更新。此时，可基于产生视频或合成图像的区域、产生视频或合成图像的时间、视频或合成图像的大小、视频或合成图像的种类、视频或合成图像的产生器、视频或合成图像内的对象、输入视频或合成图像的区域、输入视频或合成图像的时间、提供视频或合成图像的电子设备的类型、提供视频或合成图像的应用或者操作系统的类型来确定相关性。如在示例中描述的，模型更新单元260可在基本学习数据与将要识别的数据之间的相关性非常低的情况下确定出需要更新。

例如，在数据识别模型是利用在韩国产生的视频作为基本学习数据被构建的情况下，如果输入视频是在国外产生的视频，则模型更新单元260可确定该视频与基本学习数据之间的相关性低，并且需要更新数据识别模型。

作为另一示例，模型更新单元260使用全球导航卫星系统(GNSS)、蜂窝ID和无线LAN接入位置检测等来确定视频被输入的地点，并且如果基本学习数据不反映出不适合视频被输入的地点的状态，则可确定出相关性低并且需要更新识别模型。这些示例用于帮助进一步理解，并且不限于此。

作为另一示例，模型更新单元260可基于当前加载的数据识别模型的识别准确性来确定是否需要更新。此时，模型更新单元260可使用预定时间段基于通过使用识别模型识别的结果来确定识别正确级别，并且如果确定的识别正确级别不满足预定标准(例如，平均80％)，则可确定出需要更新数据识别模型。在这种情况下，可基于主要使用数据识别模型的区域来预设预定标准。

作为另一示例，模型更新单元260可基于用户关于识别结果提供器240的识别结果的响应来确定是否更新当前数据识别模型。例如，当识别结果提供器240使用数据识别模型输出识别结果时，模型更新单元260可向用户呈现询问识别结果是否正确的问题，并且基于用户关于询问的响应来确定是否更新。

如果作为确定的结果需要更新当前数据识别模型，则模型更新单元260可使用各种预设方法来更新数据识别模型。

例如，模型更新单元260可通过使用在预定时段期间被输入到数据识别模型的学习数据作为附加学习数据来直接更新数据识别模型。在这种情况下，模型更新单元260可向数据识别模型构建设备100或用户请求附加学习数据。

可选地，当数据识别设备200通过有线或无线被连接到数据识别模型构建设备100时，模型更新单元260可向数据识别模型构建设备100传送关于数据识别模型的识别准确性或已经被输入到数据识别模型达预定时间段的学习数据的信息，从数据识别模型构建设备100接收新的数据识别模型，并且更新正在被使用的数据识别模型。

根据各种示例性实施例，数据识别设备200可包括：视频输入器210，接收视频；图像合成单元220，通过基于包括在形成视频的至少一部分的多个图像中的每个图像中的公共区域将所述多个图像重叠来产生合成图像；以及识别结果提供器240，将合成图像应用于数据识别模型，并且提供视频的识别结果。

根据各种示例性实施例，图像合成单元220可从所述多个图像中的每个图像提取公共区域，将提取的多个公共区域重叠，并且产生合成图像。

根据各种示例性实施例，图像合成单元220可基于公共区域的重心产生合成图像。

根据各种示例性实施例，图像合成单元220可通过将来自所述多个图像中的每个图像的公共区域和公共区域周围的背景区域重叠来产生合成图像。

根据各种示例性实施例，图像合成单元220可从多个图像中的每个图像补偿拍摄视频的相机的运动，并且基于包括在相机的运动被补偿的多个图像中的每个图像中的公共区域来产生合成图像。

根据各种示例性实施例，数据识别设备200还可包括：模型更新单元260，确定是否更新数据识别模型，并且根据确定结果更新数据识别模型。

根据各种示例性实施例，电子设备可包括数据识别设备200和服务提供器250，其中，服务提供器250基于由数据识别设备200提供的视频的识别结果来提供服务。

在图3中，数据识别设备200可被实施为软件模块或硬件芯片(例如，AI处理器)321并且被安装在电子设备320上。这里，安装有数据识别设备200的电子设备320可以是前述的各种电子设备。

在这种情况下，外部设备(例如，物联网(IoT)装置)310可使用相机311拍摄外部设备的周围环境，并且将拍摄的视频发送到电子设备320。电子设备320可识别通过使用数据识别设备200接收到的视频并且将视频识别结果传送到服务提供器250。在这种情况下，电子装置320不仅可将视频识别结果传送到服务提供器250，而且还可将视频或从视频产生的合成图像传送到服务提供器250。

可在安装有数据识别设备200的电子设备上设置服务提供器250或者在单独的电子设备340、350上设置服务提供器250。

服务提供器250可基于提供的视频的识别结果来提供服务。或者，服务提供器250可使用接收到的视频和合成图像来提供与识别结果相应的服务。

例如，当视频的识别结果是指示包括在视频中的人处于“紧急情况状态”的状态信息331时，服务提供器250可基于“紧急情况状态”提供服务。例如，服务提供器250可从用户拥有的便携式终端340获得关于当前时间和地点的信息341。可选地，服务提供器250可从接收到的视频和合成图像接收关于时间和地点的信息。

接下来，服务提供器250可使用警报应用345基于获取的时间和地点信息341控制警报应用345通知“紧急情况”。

在这种情况下，警报应用345可以是被安装在装载有数据识别设备200的电子设备320中的应用或被安装在提供时间和地点信息341的便携式终端340中的应用。可选地，警报应用345可以是被安装在外部应急灾难系统或健康管理系统中的应用。

作为另一示例，如果视频的识别结果是指示包括在视频中的人处于“在锻炼期间”的状态信息332，则服务提供器250可基于“在锻炼期间”提供服务。例如，服务提供器250可从位于人周围的显示设备350获得运动信息351。或者，服务提供器250可从接收到的视频和合成图像获得运动信息351。

接下来，服务提供器250可通过将获得的运动信息351提供给指导应用355来控制指导应用355根据人“在锻炼期间”的运动提供指导服务。

在这种情况下，指导应用355可以是被安装在装载有服务提供器250的电子设备320中的应用或被安装在提供运动信息351的显示设备350中的应用。或者，指导应用355可以是被安装在位于人周围的单独的电子设备中的应用。

根据各种示例性实施例，当在电子设备(例如，智能电话)中设置服务提供器250时，电子设备可使用本公开的数据识别模型来提供对由电子设备提供的图库应用提供的视频自动进行分类的服务。

例如，电子设备可将包括在图库应用中的视频提供给数据识别设备200。数据识别设备200可被安装在电子设备中，或者被安装在电子设备的外部设备(例如，服务器)中。数据识别设备200可针对输入视频中的每个视频产生合成图像，将合成图像应用于数据识别模型以获得多个视频的识别结果，并且将识别结果提供给服务提供器250。视频识别结果可以是各种属性(例如，视频的种类、视频的观看者、视频的内容、视频的特征、包括在视频中的对象的状态信息)，并且不限于此。

电子设备可使用提供的视频的识别结果自动地对包括在图库应用中的视频进行分类。根据视频识别结果，电子设备可执行自动分类，诸如，将具有相同或相似属性的视频安置在同一文件夹中，或者将与视频相应的图标或缩略图移动到屏幕的特定区域。

同时，对视频进行分类的识别结果可被插入作为每个视频的元数据。

根据各种示例性实施例，当在电子设备(例如，相机)上设置服务提供器250时，电子设备可使用数据识别模型提供自动设置拍摄模式以拍摄由电子设备获得的预览图像的服务。

例如，电子设备可将通过镜头获得的预览视频提供给本公开的数据识别设备200。数据识别设备200可被安装在电子设备上，或者被安装在另一设备上。数据识别设备200可产生针对输入的预览视频的合成图像，通过将合成图像应用于数据识别模型来获得视频识别结果，并且将识别结果提供给服务提供器250。例如，服务提供器250可基于视频识别结果提供考虑到产生预览视频的地点或周围环境条件而适合于拍摄预览视频的拍摄模式。

电子设备可使用提供的视频识别结果自动设置拍摄预览视频的拍摄模式。

根据各种示例性实施例，当在电子设备(例如，灾难系统)上设置服务提供器250时，如果使用数据识别模型识别由外部设备(例如，CCTV)拍摄的视频以监控紧急情况，则电子设备可根据识别结果提供应急警报服务。

例如，外部设备可将周围环境的视频提供给数据识别设备200。数据识别设备200可针对周围环境的视频产生合成图像，将合成图像应用于数据识别模型并且获得视频识别结果，并且将视频识别结果提供给服务提供器250。视频识别结果可以是例如包括在视频中的人的状态信息。

当一个人的当前状态是发生事故的紧急情况时，电子设备可使用提供的视频识别结果提供通知这个人的家人或位于这种紧急情况附近的医院的通知服务。

根据各种示例性实施例，当在电子设备(例如，家用网关或家用机器人)上设置服务提供器250时，如果通过使用数据识别模型识别由设置有相机的IoT装置拍摄的视频以监视家中的人的日常行为，则电子设备可基于识别结果提供针对日常行为的关联服务。

例如，在家中的人烹饪的情况下，外部IoT装置可将拍摄这个人的视频提供给数据识别设备200。数据识别设备200可产生针对关于周围状态的视频的合成图像，将合成图像应用于数据识别模型以获得视频识别结果，并且将视频识别结果提供给服务提供器250。视频识别结果可以是例如这个人烹饪的状态信息。

电子设备可通过使用提供的视频识别结果来提供辅助烹饪的关联服务。例如，电子设备可控制烹饪的人所在的厨房的照明，或者通过位于附近的显示器提供菜谱。

根据各种示例性实施例，当在设置在汽车中的电子设备(例如，ECM(发动机控制模块))上设置服务提供器250并使用数据识别模型识别由设置在汽车上的前置相机拍摄的视频时，电子设备可基于识别结果提供用于控制制动踏板或加速踏板的服务。

例如，在跑步的行人或行走的行人出现在汽车前方的情况下，汽车的相机可将拍摄前方的视频提供给数据识别设备200。数据识别设备200可产生针对拍摄前方的视频的合成图像，将合成图像应用于数据识别模型以获得视频识别结果，并且将视频识别结果提供给服务提供器250。视频识别结果可以是例如指示行人的行走状态的状态信息。

电子设备可使用提供的视频识别结果来控制汽车的驾驶。例如，当唤醒状态指示行人跑步时，电子设备可将制动踏板的反应速度控制为敏感，或者将加速踏板的反应速度控制为不敏感。相反，当唤醒状态指示行人行走时，电子设备可将制动踏板的反应速度控制为不敏感，或者将加速踏板的反应速度控制为敏感。

根据各种示例性实施例，当在汽车的电子设备(例如，ECM(发动机控制模块))上设置服务提供器250并且通过使用本公开的数据识别模型识别由拍摄汽车内的乘车人的内部相机拍摄的视频时，电子设备可基于识别结果将汽车的操作模式改变为安全驾驶模式或者提供警报服务。例如，安全驾驶模式可以是降低汽车速度、控制汽车自动驾驶或强制停车的模式。

例如，内部相机可将拍摄驾驶员或同行乘车人的视频提供给数据识别设备200。数据识别设备200可产生针对拍摄汽车内部的视频的合成图像，将合成图像应用于数据识别模型以获得视频识别结果，并且将视频识别结果提供给服务提供器250。视频识别结果可以是指示例如驾驶员的驾驶状态或同行乘车人的同行乘车状态的状态信息。

电子设备可使用提供的视频识别结果将汽车的驾驶模式改变为安全驾驶模式或者提供警报服务。例如，当视频识别结果指示驾驶员的驾驶状态是疲劳驾驶时，电子设备可将汽车的驾驶模式改变为安全驾驶模式，或者提供作为诱导休息的警报服务的听觉UI或视觉UI。

作为另一示例，如果视频识别结果指示正在发生紧急事故(例如，暴力、抢劫等)，则电子设备可将汽车的驾驶模式改变为安全驾驶模式或者将指示这种紧急事故的消息发送到附近的应急响应中心(如警察局、消防局等)系统。

图4至图6的图像合成单元420可以是图1A和图1B的数据识别模型构建设备100的图像合成单元120、或图2A和图2B的数据识别设备200的图像合成单元220。

当图像合成单元420是图1A和图1B的图像合成单元110时，图像合成单元420可接收视频，产生一个或更多个合成图像，并且将图像传送到数据识别模型构建设备100的模型学习单元140。可选地，当图像合成单元420是图2A和图2B的图像合成单元220时，图像合成单元420可接收视频，产生一个或更多个合成图像，并且将图像传送到数据识别设备200的识别结果提供器240。

在图4中，图像合成单元420可补偿拍摄视频的相机的运动。

图像合成单元420可根据拍摄输入视频的相机的拍摄属性选择性地补偿相机的运动。

例如，当通过固定在一点的相机拍摄视频时，图像合成单元420可忽略相机的运动。

在这种情况下，通过固定的相机拍摄视频的情况可以是例如拍摄产生人的运动的整个区域的情况(例如，拍摄烹饪的人或舞台上的舞蹈的人等)，或者拍摄在运动但没有移动位置的人的情况(例如，拍摄进行诸如高尔夫的运动的人或练习诸如俯卧撑的静态运动的人等)。

相反，当通过运动的相机拍摄视频时，图像合成单元420可补偿相机的运动。

在这种情况下，通过运动的相机拍摄视频的情况可以是例如相机跟随人的运动线的情况(例如，拍摄踢足球的人的情况等)，或者相机由于周围因素而摇晃的情况(例如，相机由于风而摇晃或由于自然灾害而摇晃等)。

具体而言，在图4中，形成视频的至少一部分的多个图像可以是通过运动的相机拍摄的第一图像至第四图像421、422、423和424。

图像合成单元420可使用例如光流估计来提取构成图像的像素的运动路径，并且基于提取的像素的运动路径来估计相机的运动路径以补偿相机的运动。

通过将相机的估计的运动路径的相反方向上的运动应用于图像，图像合成单元420可从第一图像421至第四图像424产生第一图像至第四图像421a、422a、423a和424a。在这种情况下，第一图像421a至第四图像424a的背景可以是固定的，并且只有包括在图像中的人可移动。

图像合成单元110可从相机的运动被补偿的第一图像421a至第四图像424a提取公共区域421b、422b、423b和424b。

当提取了多个公共区域421b-424b时，图像合成单元420可将提取的多个公共区域重叠并且产生合成图像425。

图像合成单元420可将产生的合成图像425传送到数据识别模型构建设备100的模型学习单元140或数据识别设备200的识别结果提供器240。

在图5中，图像合成单元420可将包括在视频中的公共区域和公共区域周围的背景区域重叠，并且产生合成图像。

在这种情况下，图像合成单元420可根据包括在输入视频中的背景属性选择性地将公共区域和背景区域重叠，并且产生合成图像。

例如，当包括在视频中的背景与包括在视频中的公共区域(或公共对象)具有显著的相关性时(例如，对滑雪或浮潜的人进行拍摄的情况)，图像合成单元420可将包括在视频中的公共区域和背景区域重叠并且产生合成图像。

可选地，在与视频中的背景相应的区域的比率低的情况下(例如，在人的权重高的以全拍角度拍摄乒乓球比赛的情况)，图像合成单元420可使包括在视频中的公共区域和公共区域周围的背景区域重叠，并且产生合成图像。

相反，当包括在视频中的背景与包括在视频中的公共区域具有低相关性时(例如，对另一人的摇晃、跑步或行走进行拍摄的情况)，图像合成单元420可忽略背景区域的合成，仅将公共区域重叠，并且产生合成图像。

可选地，在与视频的背景相应的区域的比率高的情况下(例如，以全拍角度对许多人彼此协作的足球比赛进行拍摄的情况)，图像合成单元420可忽略背景区域的合成，仅合成公共区域，并且产生合成图像。

具体而言，在图5中，形成视频的一部分的多个图像可以是公共区域与背景区域之间的相关性显著的第一图像至第四图像521、522、523和524。

在这种情况下，图像合成单元420可将公共区域和背景区域重叠并且产生合成图像525。

图像合成单元420可将产生的合成图像525传送到数据识别模型构建设备100的模型学习单元140或数据识别设备200的识别结果提供器240。

在图6中，图像合成单元420可参照多个公共区域的重心来产生合成图像。

在这种情况下，图像合成单元420可根据多个公共区域(或公共对象)的属性选择性地产生相对于重心的合成图像。

例如，在多个图像中的每个图像的公共区域的重心移动较小的情况下(例如，对进行具有较少移动的高尔夫或瑜伽的人进行拍摄的情况)，图像合成单元420可将多个图像相对于公共区域的重心同步并且产生合成图像。

或者，当通过将多个图像中的每个图像的公共区域的重心同步来产生合成图像时，在预期相对于公共区域中的重心，运动发生变化的情况下(例如，对做瑜伽的人进行拍摄的情况)，图像合成单元420可通过将多个图像相对于公共区域的重心同步来产生合成图像。

相反，在多个图像中的每个图像的公共区域的重心移动显著的情况下(例如，对进行大运动的篮球或滑冰的人进行拍摄的情况)，图像合成单元420可省略同步处理并且产生合成图像。即，在关于根据公共区域的运动的运动轨迹的信息重要的情况下，图像合成单元420可省略同步处理并且产生包括关于运动轨迹的信息的合成图像。

具体而言，在图6中，形成视频的一部分的多个图像可以是具有较少的重心移动的第一图像至第四图像621、622、623和624。

图像合成单元420可通过使用人体分割技术或运动对象检测技术从第一图像621至第四图像624提取公共区域(或公共对象)621a、622a、623a、624a以用于对多个图像同步。

此外，图像合成单元420可计算提取的多个公共区域621a-624a的坐标值的平均值，并且通过将多个公共区域重叠以使得公共区域621a-624a的重心621a'、622a'、623a'、624a'中的每一个被匹配来产生合成图像625。

图像合成单元420可将产生的合成图像625传送到数据识别模型构建设备100的模型学习单元140或数据识别设备200的识别结果提供器240。

图7是示出根据各种示例性实施例的电子设备的构造的框图。

图7的电子设备700可以是安装有数据识别模型构建设备100的电子设备、安装有数据识别设备200的电子设备、或安装有服务提供器250的电子设备。此外，电子设备700可以是安装有数据识别模型构建设备100、数据识别设备200和服务提供器250中的两个或更多个的电子设备。电子设备700的处理器790可包括数据识别模型构建设备100、数据识别设备200和服务提供器250中的至少一个。

如图7所示，电子设备700可包括以下项中的至少一项：图像获取单元710、图像处理器720、显示器730、通信器740、存储器750、和音频处理器760、音频输出器770、传感器780和处理器790。同时，图7中示出的电子设备700的构造仅是示例性的，本质上并不限于框图。因此，根据电子设备700的类型或目的，如图7所示的电子设备700的特征的一部分可被省略、变形或添加。

图像获取单元710可通过各种源获取视频数据。例如，图像获取单元710可从外部服务器接收视频数据并且从外部设备接收视频数据。此外，图像获取单元710可通过拍摄外部环境来获取视频数据。例如，图像获取单元710可被实现为拍摄电子设备700的外部环境的相机。可通过视频处理器720处理通过图像获取单元710获得的视频数据。

视频处理器720可执行从图像获取单元710接收到的视频数据的处理。视频处理器720可执行针对视频数据的各种图像处理，诸如，解码、缩放、噪声滤波、帧速率转换和分辨率转换。

视频处理器720可将经过处理的视频数据提供给数据识别模型构建设备100的视频输入器110或数据识别设备200的视频输入器120。

显示器730可在显示区域上显示由视频处理器720处理的视频数据。显示器730可以以柔性显示器的形式被耦接到电子设备700的前部区域、侧部区域和后部区域中的至少一个。柔性显示器通过如纸一样薄且柔软的基板在没有损坏的情况下被弯折、弯曲或卷起。

显示器730可通过与触摸传感器781组合而被实施为层结构的触摸屏。触摸屏不仅可具有显示功能，而且可具有感测触摸输入位置、触摸区域和触摸输入的功能，还具有不仅感测真实触摸还感测接近触摸的功能。

显示器730可根据服务提供器250的控制输出用于提供服务的可视数据。

通信器740可根据各种类型的通信执行与各种类型的外部装置的通信。通信器740可包括WiFi芯片741、蓝牙芯片742、无线通信芯片743和NFC芯片744中的至少一个。处理器790可使用通信器740与外部服务器或各种外部装置进行通信。

存储器750可存储电子设备700的操作所需的各种程序和数据。存储器750可被实现为非易失性存储器、易失性存储器、闪存、硬盘驱动器(HDD)或固态驱动器(SSD)。存储器750可由处理器790访问，并且可由处理器790执行数据的读取/记录/校正/删除/更新。在本公开中，术语“存储器”可包括存储器750、处理器790内的ROM(未示出)、RAM(未示出)或安装在电子设备700中的存储卡(未示出)(例如，微型SD卡、记忆棒)。

此外，数据和用于构建将在显示器730的显示区域中显示的各种屏幕的程序可被存储在存储器750中。存储器750可存储数据识别模型。

音频处理器760是执行音频数据处理的元件。在音频处理器760中，可执行诸如音频数据的解码、放大和噪声滤波的各种处理。由音频处理器760处理的音频数据可被输出到音频输出器770。

音频输出器770是输出警报声音和语音消息以及通过音频处理器760的解码、放大、噪声滤波处理的各种音频数据的元件。特别地，音频输出器770可被实现为扬声器，但这仅是示例性的，并且音频输出器770可被实现为可输出音频数据的输出端。

音频输出器770可根据服务提供器250的控制来输出用于提供服务的音频数据。

传感器780感测各种用户交互。传感器780可感测诸如电子设备700的姿势、亮度、加速度的改变中的至少一个，并且将电信号发送到处理器790。即，传感器780可基于电子设备700感测状态改变，产生相应的感测信号，并且将感测信号传送到处理器790。

传感器780可被形成为各种传感器，并且可包括可检测电子设备700的状态改变的所有类型的感测装置中的至少一个。例如，传感器780可包括以下项中的至少一项：触摸传感器、加速度传感器、陀螺仪传感器、照度传感器、接近传感器、压力传感器、噪声传感器(例如，麦克风)、视频传感器(例如，相机模块)、笔传感器和计时器。

传感器780可根据感测的目的被分类为触摸传感器781和运动传感器782等，但不限于此，并且可根据各种目的被分类。这不表示物理分类，并且可通过将至少两个传感器组合来执行传感器781和传感器782的作用。此外，根据实施例方法，传感器780的配置或功能的一部分可包括在处理器790中。

触摸传感器781可感测用户的手指输入并且输出与触摸的触摸信号相应的触摸事件值。

运动传感器782可使用加速度传感器、倾斜传感器、陀螺仪传感器和3轴磁性传感器中的至少一个来感测电子设备700的运动(例如，旋转、倾斜等)。此外，运动传感器782可将产生的电信号发送到处理器790。

传感器780可根据服务提供器250的控制来感测用户的操作状态或周围状态。服务提供器250可基于根据本公开的视频识别结果和感测信息来提供服务。

处理器790(或控制器)可使用存储在存储器750中的各种程序来控制电子设备700的总体操作。

传感器780还可包括各种传感器，诸如，可感测电子设备700的位置信息的GPS传感器。

处理器790可包括RAM 791、ROM 792、图形处理器793、主CPU 794、第一接口795-1至第n接口795-n、总线796等。在这种情况下，RAM 791、ROM 792、图形处理器793、主CPU794、第一接口795-1至第n接口795-n可通过总线796互连。

同时，数据识别模型构建设备100和数据识别设备200可被安装在一个电子设备上，或者可被安装在单独的电子设备上。例如，数据识别模型构建设备100和数据识别设备200中的一个可包括在电子设备中，而另一个可包括在服务器中。数据识别模型构建设备100和数据识别设备200可经由有线网络或无线网络将由数据识别模型构建设备100构建的模型信息发送到数据识别设备200，并且输入到数据识别设备200的数据可作为附加学习数据被发送到数据识别模型构建设备100。

例如，如图11所示，电子设备700可包括数据识别模型构建设备100和数据识别设备200。

可选地，如图12所示，数据识别设备200可包括在电子设备700中，并且外部服务器1200可包括数据识别模型构建设备100。

参照图12，服务器1200可学习关于状态确定的标准，并且电子设备700可基于服务器1200的学习结果来确定状态。

在这种情况下，服务器1200的模型学习单元140可学习关于哪个数据将被用于确定预定状态以及如何通过使用数据来确定状态的标准。模型学习单元140可通过获得将用于学习的数据并且将获得的数据应用于随后将描述的数据识别模型来学习关于确定状态的标准。

此外，电子设备700的识别结果提供器240可将通过识别结果提供器240接收到的合成图像应用于由服务器1200产生的数据识别模型，并且确定状态。例如，识别结果提供器240可将输入的合成图像发送到服务器1200，并且请求服务器1200将合成图像应用于数据识别模型以确定情况。此外，识别结果提供器240可从服务器1200接收关于由服务器1200确定的状态的信息。或者，电子设备700的识别结果提供器240可从服务器1200接收由服务器1200产生的数据识别模型，并且通过使用接收到的数据识别模型确定状态。在这种情况下，电子设备700的识别结果提供器240可通过将输入的合成图像应用于从服务器1200接收到的数据识别模型来确定情况。

然而，以上仅是示例性的，并且电子设备700可包括数据识别模型构建设备100，并且外部设备可包括数据识别设备200。此外，电子设备700可包括以下项中的至少一项：视频输入器110、图像合成单元120、模型学习单元140、模型存储器150、模型评估单元160、视频输入器210、图像合成单元220、识别结果提供器240和模型更新单元260。

图8A是示出通过数据识别模型构建设备100构建数据识别模型的方法的流程图。此时，数据识别模型构建设备100可以是电子设备700，但这仅仅是示例性的，并且数据识别模型构建设备100可被实现为服务器1200。

在图8A中，数据识别模型构建设备100可接收视频(S801)。

数据识别模型构建设备100可基于包括在形成视频的至少一部分的多个图像中的每个图像中的公共区域，将所述多个图像的至少一部分重叠，并且产生合成图像(S803)。

根据各种示例性实施例，数据识别模型构建设备100可从所述多个图像提取多个公共区域，将从图像提取的所述多个公共区域重叠，并且产生合成图像。

根据各种示例性实施例，数据识别模型构建设备100可参照公共区域的重心来产生合成图像。

根据各种示例性实施例，数据识别模型构建设备100可将包括在多个图像中的公共区域和公共区域周围的背景区域重叠，并且产生合成图像。

根据各种示例性实施例，数据识别模型构建设备100可从多个图像中的每个图像补偿拍摄视频的相机的运动，并且基于包括在相机的运动被补偿的所述多个图像中的公共区域来产生合成图像。

参照回图8A，数据识别模型构建设备100可通过使用产生的合成图像来对数据识别模型进行学习(S805)。

数据识别模型构建设备100可存储学习后的数据识别模型(S807)。

图8B是示出通过根据图8B的示例性实施例的用于构建数据识别模型的系统构建数据识别模型的方法的流程图。此时，用于构建数据识别模型的系统可包括第一组件2100和第二组件2200。

在一个示例中，第一组件2100可以是电子设备700，并且第二组件2200可以是服务器1200。可选地，第一组件2100可以是通用处理器，并且第二组件2200可以是人工智能专用处理器。可选地，第一组件2100可以是至少一个应用，并且第二组件可以是操作系统(OS)。

在这种情况下，可定义在第一组件2100与第二组件2200之间用于收发数据(例如，合成图像)的接口。

例如，可定义具有将被应用于数据识别模型的学习数据作为因子值(或中间值或传送值)的应用程序接口(API)函数。在这种情况下，如果第一组件2100调用API函数并且输入作为数据因子值的合成图像，则API函数可将合成图像作为将被应用于数据识别模型的学习数据传送到第二组件2200。

在图8B中，第一组件2100可接收视频(S811)。

第一组件2100可基于包括在构成视频的至少一部分的多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分叠加来产生合成图像(S813)。

第一组件2100可将产生的合成图像发送到第二组件2200(S815)。

第二组件2200可使用产生的合成图像来对数据识别模型进行学习(S817)。

第二组件2200可存储学习后的数据识别模型(S819)。

在上述实施例中，描述了第二组件2100存储学习后的数据识别模型。然而，这仅是示例性的，并且第二组件2200可将学习后的数据识别模型传送到第一组件2100，使得第一组件2100可存储数据识别模型。

此外，尽管在上述示例性实施例中，第一组件2100被描述为产生合成图像，但这仅是示例，并且第二组件2200可接收输入视频，并且通过基于包括在构成视频的至少一部分的多个图像中的每个图像中的公共区域，将所述多个图像的至少一部分叠加来产生合成图像。

图9A是示出根据示例性实施例的通过数据识别设备200识别数据的方法的流程图。此时，数据识别设备200可以是电子设备700，但这仅是示例性的，并且数据识别设备可被实现为服务器1200。

在图9A中，数据识别设备200可接收视频(S901)。

数据识别设备200可基于包括在形成视频的一部分的多个图像中的每个图像中的公共区域将所述多个图像的至少一部分重叠，并且产生合成图像(S903)。

根据各种示例性实施例，数据识别设备200可从所述多个图像中的每个图像提取公共区域，将提取的多个公共区域重叠，并且产生合成图像。

根据各种示例性实施例，数据识别设备200可参照公共区域的重心来产生合成图像。

根据各种示例性实施例，数据识别设备200可将所述多个图像的公共区域和公共区域周围的背景区域重叠，并且产生合成图像。

根据各种示例性实施例，数据识别设备200可从多个图像中的每个图像补偿拍摄视频的相机的运动，并且基于包括在相机的运动被补偿的多个图像中的每个图像中的公共区域来产生合成图像。

参照回图9A，数据识别设备200可将产生的合成图像应用于数据识别模型，并且提供视频的识别结果(S905)。

图9B是示出根据本公开的示例性实施例的使用数据识别模型识别数据的系统的数据识别的方法的流程图。此时，使用数据识别模型识别数据的系统可包括第三组件2300和第四组件2400。

作为示例，第三组件2300可以是电子设备700，并且第四组件2400可以是服务器1200。可选地，第三组件2300可以是通用处理器，并且第四组件2400可以是人工智能专用处理器。可选地，第三组件2300可以是至少一个应用，并且第四组件2400可以是操作系统。

在这种情况下，可定义用于在第三组件2300与第四组件2400之间发送/接收数据(例如，视频、合成图像或视频识别结果)的接口。

例如，可定义具有将被应用于学习后的数据识别模型的识别数据作为因子值(或中间值或传递值)以及数据识别模型的识别结果作为输出值的API函数。在这种情况下，如果第三组件2300调用API函数并且输入作为数据因子值的合成图像，则API函数可将合成图像作为学习数据传送到第四组件2400，其中，合成图像将被应用于数据识别模型。当从第四组件2400接收到视频识别结果时，第三组件2300可将视频识别结果提供为API函数的输出值。

在图9B中，第三组件2300可接收视频(S911)。

第三组件2300可基于包括在构成视频的至少一部分的多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分叠加来产生合成图像(S913)。

第三组件2300可将产生的合成图像发送到第四组件2400(S915)。

第四组件2400可将产生的合成图像应用于数据识别模型并且识别视频(S917)。

第四组件2400可将视频识别结果发送到第三组件2300(S919)。第三组件2300可提供视频识别结果(S921)。

在上述实施例中，第三组件2300被描述为产生合成图像，但这仅是示例性的，并且通过接收输入第四组件2400的视频，并且基于包括在构成视频的至少一部分的多个图像中的每个图像中的公共区域，可将所述多个图像的至少一部分叠加以产生合成图像。

图10A是指示根据示例性实施例的由电子设备700提供服务的方法的流程图。此时，数据识别设备200可以是电子设备700，但这仅是示例性的，并且数据识别设备200可被实现为服务器1200。

在图10A中，电子设备700可包括数据识别设备200和服务提供器250。

首先，电子设备(00可接收视频(S1001)。

电子设备700可基于包括在形成视频的至少一部分的多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分重叠来产生合成图像(S1003)。

电子设备700可通过将产生的合成图像应用于数据识别模型来获得视频的识别结果(S1005)。

电子设备700可基于获得的视频的识别结果来提供服务(S1007)。

图10B是示出根据本公开的实施例的由使用视频识别模型识别数据的系统提供服务的方法的流程图。此时，使用数据识别模型识别数据的系统可包括第五组件2500和第六组件2600。

在一个示例中，第五组件2500可以是电子设备700，并且第六组件2600可以是服务器1200。可选地，第五组件2500可以是通用处理器，并且第六组件2600可以是人工智能专用处理器。可选地，第五组件2500可以是至少一个应用，并且第六组件2600可以是操作系统。

首先，第五组件2500可接收视频(S1011)。

第五组件2500可基于包括在构成视频的至少一部分的多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分叠加来产生合成图像(S1013)。

第五组件2500可将产生的合成图像发送到第六组件2600(S1015)。

第六组件2600可将产生的合成图像应用于数据识别模型并且获得视频的识别结果(S1017)。

第六组件2600可将获得的视频识别结果发送到第五组件2500(S1019)。

第五组件2500可基于视频识别结果执行服务(S1021)。

在上述实施例中，描述了第五组件2500产生合成图像。然而，这仅是示例，并且第六组件2600可接收输入的视频，并且基于包括在构成视频的至少一部分的多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分叠加来产生合成图像。

图10C是示出根据本公开的实施例的由使用视频识别模型识别数据的系统提供服务的方法的流程图。此时，使用数据识别模型识别数据的系统可包括第七组件2700和第八组件2800。

作为示例，第七组件2700可以是电子设备700，并且第八组件2800可以是服务器1200。可选地，第七组件2700可以是通用处理器，并且第八组件2800可以是人工智能专用处理器。可选地，第七组件2700可以是至少一个应用，并且第八组件2800可以是操作系统。

第七组件2700可接收视频(S1031)。

第七组件2700可基于包括在构成视频的至少一部分的多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分叠加来产生合成图像(S1033)。

第七组件2700可将产生的合成图像发送到第八组件2800(S1035)。

第八组件2800可将产生的合成图像应用于数据识别模型并且获得视频识别结果(S1037)。

第八组件2800可基于获得的视频识别结果来确定将要提供的服务(S1039)。

第八组件2800可将确定的服务的信息发送到第七组件2700(S1041)。

第七组件2700可基于服务的信息执行服务(S1043)。

在上述实施例中，第七组件2700被描述为产生合成图像，但这仅是示例性的，并且第八组件2800可接收输入视频，并且基于包括在构成视频的至少一部分的多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分叠加来产生合成图像。

在上述实施例中，基于视频识别结果确定服务的处理可以以基于规则的方式被执行，或者可以以作为人工智能技术的神经网络模型或深度学习模型被执行。在这种情况下，第八组件可通过将运动识别结果应用于数据识别模型集来获取关于将要提供的服务的信息以确定服务。在这种情况下，关于服务的信息可包括推荐应用、内容、数据和命令(例如，应用执行命令、模块功能执行命令)中的至少一个。

当提供视频识别结果的数据识别模型被定义为第一数据识别模型并且提供关于服务的信息的数据识别模型被定义为第二数据识别模型时，第一数据识别模型和第二数据识别模型可被分别实现，或者第一数据识别模型和第二数据识别模型可被集成为一个数据识别模型并且以一个数据识别模型(在下文中，被称为集成数据识别模型)来实现。

当实现集成数据识别模型时，在图10C中，可将S1037和S1039作为一个操作S1045进行操作。

也就是说，第八组件2800可将合成图像应用于集成数据识别模型，以直接获取关于将要提供给用户的服务的信息。可选地，第七组件2700可将合成图像应用于集成数据识别模型，以直接获得关于将要提供给用户的服务的信息。

为此目的，可在数据识别模型构建设备100中预先构建集成数据识别模型。可周期性地或根据需要更新集成数据识别模型，并且集成数据识别模型的更新条件可与图2B的数据识别模型的更新条件相应，因此冗余的描述被省略。

示例性实施例可被实现为包括存储在可由计算机读取的计算机可读存储介质中的命令的S/W程序。

计算机是能够从存储介质调用存储的命令并且根据调用的命令根据公开的实施例进行操作的设备，并且可包括根据公开的示例性实施例的x射线设备或与x射线设备进行通信的外部服务器。

计算机可读存储介质可以以非暂时性存储介质的形式被提供。这里，“非暂时性”仅表示存储介质不包括信号、电流并且是有形的，但对数据是被半永久地存储在存储介质上还是被临时地存储在存储介质上不进行区分。作为示例，非暂时性存储介质不仅包括非暂时性可读介质(诸如，CD、DVD、硬盘、蓝光盘、USB、内部存储器、存储卡、ROM或RAM)还包括临时存储介质(诸如，寄存器、高速缓存、缓冲器等)。

此外，根据公开的示例性实施例的方法可被提供为计算机程序产品。

计算机程序产品可包括软件程序、存储软件程序的计算机可读存储介质、或在卖方与买方之间交易的产品。

例如，计算机程序产品可包括通过X射线装置的制造商或电子市场(例如，GooglePlay商店，AppStore)以电子方式发布的S/W程序的产品。对于电子发布，软件程序的至少一部分可被存储在存储介质上或者可被临时创建。在这种情况下，存储介质可以是电子市场的制造商或服务器，或中继服务器的存储介质。

上述示例性实施例和优点仅是示例性的，并不被解释为限制本发明构思。示例性实施例可被容易地应用于其他类型的装置或设备。此外，示例性实施例的描述意在是说明性的，而不是限制本发明构思的范围，并且对于本领域中的技术人员而言许多替换、修改和变化将是显而易见的。

Claims

1.一种数据识别模型构建设备，包括：

视频输入器，被配置为接收视频；

图像合成单元，被配置为基于包括在形成所述视频的至少一部分的多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分重叠来产生合成图像；

学习数据输入器，被配置为接收产生的合成图像；

模型学习单元，被配置为使用产生的合成图像使数据识别模型进行学习；以及

模型存储器，被配置为存储学习后的数据识别模型。

2.如权利要求1所述的设备，其中，图像合成单元被配置为从所述多个图像中的每个图像提取公共区域，并且通过将提取的多个公共区域重叠来产生合成图像。

3.如权利要求1所述的设备，其中，公共区域被配置为包括来自所述多个图像中的每个图像的相同或相似的公共对象。

4.如权利要求1所述的设备，其中，数据识别模型构建设备还包括：模型评估单元，被配置为使用视频或合成图像来评估学习后的数据识别模型。

5.如权利要求1所述的设备，

其中，数据识别模型是基于多个网络节点之间的连接关系和所述多个网络节点中的每个网络节点的加权值来执行计算的神经网络模型或深度学习模型。

6.一种数据识别设备，包括：

视频输入器，被配置为接收视频；

图像合成单元，被配置为基于包括在形成所述视频的至少一部分的多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分重叠来产生合成图像；以及

识别结果提供器，被配置为通过将产生的合成图像应用于学习后的数据识别模型来提供所述视频的识别结果。

7.如权利要求6所述的设备，其中，图像合成单元被配置为从所述多个图像中的每个图像提取公共区域，并且通过将提取的多个公共区域重叠来产生合成图像。

8.如权利要求6所述的设备，其中，公共区域被配置为包括来自所述多个图像中的每个图像的相同或相似的公共对象。

9.如权利要求6所述的设备，其中，所述视频的识别结果包括：包括在所述视频中的所述对象的状态信息或所述对象的周围状态的信息。

10.如权利要求6所述的设备，其中，数据识别模型是基于多个网络节点之间的连接关系和所述多个网络节点中的每个网络节点的加权值来执行计算的神经网络模型或深度学习模型。

11.如权利要求6所述的设备，其中，图像合成单元基于公共区域的重心产生合成图像。

12.如权利要求6所述的设备，其中，图像合成单元通过将包括在所述多个图像中的每个图像中的公共区域和公共区域周围的背景区域重叠来产生合成图像。

13.如权利要求6所述的设备，其中，图像合成单元被配置为从所述多个图像中的每个图像补偿拍摄视频的相机的运动，并且基于包括在多个运动补偿图像中的每个运动补偿图像中的公共区域来产生合成图像。

14.如权利要求6所述的设备，还包括：模型更新单元，确定数据识别模型是否被更新，并且根据确定结果更新数据识别模型。

15.一种由数据识别模型构建设备构建数据识别模型的方法，所述方法包括：

接收视频；

基于包括在多个图像中的每个图像中的公共区域，通过将所述多个图像的至少一部分重叠来产生合成图像；

使用产生的合成图像对数据识别模型进行学习；并且

存储学习后的数据识别模型。