CN111373417B

CN111373417B - 与基于度量学习的数据分类相关的设备及其方法

Info

Publication number: CN111373417B
Application number: CN201780096898.9A
Authority: CN
Inventors: 蒋太权; 崔寅权; 朴宰贤
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-11-16
Filing date: 2017-12-15
Publication date: 2024-04-26
Anticipated expiration: 2037-12-15
Also published as: EP3678064A1; KR102535411B1; US20200257975A1; WO2019098449A1; KR20190056009A; CN111373417A; EP3678064A4; US11568245B2

Abstract

本发明提供了具有基于机器学习的信息理解能力的人工智能技术，包括提供改进的分类性能的度量学习、考虑语义关系的对象分类、基于度量学习和分类的场景意义理解等。根据本发明一个实施例的电子装置包括其中存储至少一个指令的存储器，以及用于执行所存储的指令的处理器。这里，处理器从第一类的训练数据中提取特征数据，通过将所提取的特征数据映射到嵌入空间来获得特征点，并且使人工神经网络在减小所获得的特征点和锚点之间的距离的方向上学习。

Description

与基于度量学习的数据分类相关的设备及其方法

技术领域

本申请涉及通过利用诸如深度学习等机器学习算法来模拟人脑的认知和决定功能的人工智能(AI)系统及其应用。本申请涉及与基于度量学习的数据分类相关的设备及其方法，更具体地，涉及执行具有改进的性能的度量学习和基于度量学习考虑语义的数据分类的电子设备及其方法。

背景技术

不同于传统的基于规则的智能系统，人工智能(AI)系统是实现人类层级的智能的计算机系统，是机器学习和自己作出决定并变得智能的系统。AI系统使用得越多，识别率就改进得越好，系统就越能精确理解用户的喜好，因此传统的基于规则的智能系统逐渐被基于深度学习的AI系统所取代。

AI技术由诸如深度学习等机器学习和使用机器学习的基础技术组成。

机器学习是一种算法技术，它能够自己分类/学习输入数据的特征。基础技术是通过使用诸如深度学习的机器学习算法来模拟人脑的认知和决定功能的技术，并且由诸如语言理解、视觉理解、推理/预测、知识表达、运动控制等技术领域组成。

AI技术适用于如下各个领域。语言理解是用于识别和应用/处理人类语言/字符的技术，并且包括自然语言处理、机器翻译、对话系统、问答、语音识别/合成等。视觉理解是将对象识别和处理为人类视觉的技术，并且包括对象识别、对象跟踪、图像检索、人识别、场景理解、空间理解、图像改进等。推理/预测是确定信息、逻辑推理和预测信息的技术，并且包括基于知识/概率的推理、优化预测、基于偏好的规划、推荐等。知识表达是将人类经验信息自动处理成知识数据的技术，并且包括知识构建(数据生成/分类)、知识管理(数据利用)等。运动控制是控制车辆的自主驾驶和机器人的运动的技术，并且包括运动控制(导航、碰撞、驾驶)、操作控制(动作控制)等。

度量学习属于机器学习的一个类别，是一种软件技术，它学习要应用于输入数据集的特征向量被投影或映射到的特征空间的度量的最合适的形式。度量被称为距离函数，因此度量学习也被称为距离度量学习。

可以为训练数据集中的每个数据对定义相似性/相异性以用于度量学习。度量学习是学习这样一种距离函数，该函数将相似数据的点之间的距离确定为更近的距离，并将相异数据的点之间的距离确定为更远的距离。距离函数可以极大地影响基于输入数据的特征点之间的距离对输入数据进行分类的算法(例如K最近邻(KNN)算法等)的性能。因此，为了提高分类性能，通过度量学习找到最优距离函数是很重要的。

上述度量学习涉及不同数据的精确分类。同时，为了理解数据，不仅需要正确地对不同的数据进行分类，还需要理解数据的含义(以下称为语义)。换句话说，只有当要分析的数据的精确分类和数据的语义都被识别时，数据才能被理解。

当从数据中提取的特征数据在特征空间上被聚类时，重要的是每个聚类都反映语义关系并且被设置在特征空间上，以便使用机器学习来掌握数据的含义。否则，可能只能确定数据是否属于同一个聚类，并且可能无法理解语义，并且无法通过全面识别多个数据来进一步理解情形和语义。对于该操作，第一聚类和第二聚类在特征空间中的相对位置可以根据属于第一聚类的数据的语义和属于第二聚类的数据的语义之间的相似性而变化。

为了提供需要对输入数据的语义理解(例如图像的场景理解、通过语音识别的情绪分析等)的人工智能应用服务，需要提供上述改进的度量学习方法和提供反映语义的聚类方法。

发明内容

技术问题

本申请的技术问题是提供一种执行具有改进的性能的度量学习的电子设备及其方法。

要解决的另一个技术问题是提供一种执行机器学习的电子设备或其方法，所述机器学习用于基于反映度量学习结果的嵌入空间来生成性能改进的分类模型。

要解决的另一个技术问题是提供一种通过使用从图像的每个帧提取的对象作为训练数据来执行反映每个对象的语义关系信息的度量学习的电子设备及其方法。

要解决的另一个技术问题是提供一种电子设备，该电子设备通过使用作为使用人工智能算法的机器学习结果而预先生成的对象识别模型来识别图像中包括的每个对象的语义，并且通过使用每个对象的语义关系来理解图像的场景。

本申请的技术问题不限于上述技术问题，并且本领域技术人员从以下描述中将清楚地理解未描述的其他技术问题。

技术方案

实施例的一个方面涉及一种电子设备，其包括被配置成存储至少一个指令的存储器，以及被配置成执行所存储的指令的处理器，其中处理器还被配置成从第一类的训练数据中提取特征数据，通过将所提取的特征数据映射到嵌入空间来获得特征点，并且在减小所获得的特征点和锚点之间的距离的方向上训练人工神经网络，并且其中锚点是从映射到嵌入空间的第一类的代表数据中提取的特征数据。

使人工神经网络学习可以包括通过使用损失函数来训练人工神经网络，该损失函数定义了第一类的训练数据的特征点越靠近锚点，损失就越小，并且不同于第一类的第二类的训练数据的特征点越靠近锚点，损失就越大。

使人工神经网络学习可以包括，对用于提取第一类的训练数据的特征数据的卷积神经网络(CNN)层和用于获得通过接收从CNN层输出的数据而获得的特征点和锚点之间的距离的度量学习层进行共同训练。

使人工神经网络学习可以包括从CNN层仅分离度量学习层，用于获得通过接收从用于提取第一类的训练数据的特征数据的CNN层输出的数据而获得的特征点和锚点之间的距离，以及训练分离的度量学习层。

人工神经网络可以包括度量学习层，该度量学习层输出在嵌入空间上形成的聚类特征数据，并且其中人工神经网络的训练包括训练由单层组成的对象分类层，该单层接收从度量学习层输出的数据并且按每个类输出置信水平。

对人工神经网络的训练可以包括在嵌入空间上第一类的训练数据的特征点更靠近第一类的锚点同时第二类的训练数据的特征点更靠近第二类的锚点的方向上训练人工神经网络，并且其中通过反映第一类和第二类之间的语义关系信息来确定第一类的锚点的位置和第二类的锚点的位置。

语义关系信息可以包括语义树中第一类的关键词和第二类的关键词之间的距离，并且其中语义树反映了每个关键词之间的语义层次关系，并且语义树中第一类的关键词和第二类的关键词之间的距离被设置为对应于第一类的关键词的第一节点和对应于第二类的关键词的第二节点之间的节点数量越多，距离就变得越远。

人工神经网络的训练可以包括反映第一类和第二类之间的语义关系信息，并且更新第一类聚类和第二类聚类中的至少一个在嵌入空间上的位置，其中第一类聚类由第一类的特征点和第一类的锚点组成，并且其中第二类聚类由第二类的特征点和第二类的锚点组成。

人工神经网络的训练可以包括通过反映第一类的特征点来更新锚点在嵌入空间上的位置，并且在减小第一类的特征点和更新的锚点之间的距离的方向上训练人工神经网络。

更新锚点在嵌入空间上的位置可以包括在由从训练起点开始的第一次数的迭代组成的初始训练中不执行锚点的位置更新，而是在初始训练之后的迭代中执行锚点的位置更新。

在初始训练之后的迭代中执行锚点的位置更新可以包括每两次或更多次第二次数的迭代执行一次锚点的位置更新。

响应于训练数据的类型是第一类型，第一次数可以被设置为第一值，并且当训练数据的类型是第二类型时，第一次数被设置为第二值。

所述电子设备可以包括被配置成存储至少一个指令的存储器和被配置成执行所存储的指令的处理器，其中处理器还被配置成通过使用对象识别模型来获得从图像中提取的多个对象中的每一个在嵌入空间上的特征点，所述对象识别模型输出与嵌入空间上的特征点相关的数据，并且通过使用最靠近至少一些特征点的锚点的关键词来理解图像的场景，其中锚点是映射到嵌入空间上的每个类的代表图像，并且其中嵌入空间是通过反映锚点之间的语义关系来计算锚点之间的距离的特征空间。

理解图像的场景可以包括选择最靠近每个映射特征点的下层锚点，从对应于每个所选择的下层锚点的语义树的节点中选择至少一些上部节点，以及通过使用对应于所选择的上部节点的关键词来理解图像的场景。

理解图像的场景可以包括选择最靠近至少一些映射特征点的上层锚点，并且通过使用对应于所选择的上层锚点的关键词来理解图像的场景。

处理器可以被配置成基于图像的类型来选择对象识别模型。

处理器可以被配置成基于电子设备的用户的简档信息来选择对象识别模型。

处理器可以被配置成基于应用服务类型来选择对象识别模型。

处理器可以被配置成输出对应于理解的场景的附加内容。

实施例的一个方面涉及一种由电子设备执行的方法，该方法包括：通过使用输出与嵌入空间上的特征相关的数据的对象识别模型，获得从图像中提取的多个对象中的每一个在嵌入空间上的特征点，以及使用最靠近特征点中的至少一些特征点的锚点的关键词来理解图像的场景，其中锚点是每个类的代表图像被映射到嵌入空间上，并且其中嵌入空间是通过反映锚点之间的语义关系来计算锚点之间的距离的特征空间。

附图说明

图1是示出根据实施例的基于场景理解的服务系统的视图；

图2是根据实施例的电子设备的硬件框图；

图3是示出根据现有技术的度量学习的视图；

图4是示出应用于根据一些实施例的电子设备或方法的具有改进性能的度量学习的视图；

图5是示出与根据现有技术的分类算法相比，应用于根据一些实施例的电子设备或方法的改进的度量学习的性能的视图；

图6是示出应用于根据一些实施例的电子设备或方法的改进性能的度量学习的特征的视图；

图7是示出在应用于根据本公开的一些实施例的电子设备或方法的度量学习过程中根据锚点之间的语义关系来确定两个锚点之间的相对位置的点的视图；

图8是示出应用于根据本公开的一些实施例的电子设备或方法的反映语义关系的度量学习的特性的视图；

图9是示出在应用于根据本公开的一些实施例的电子设备或方法的度量学习过程中执行锚点更新的视图；

图10至图11是示出在应用于根据本公开的一些实施例的电子设备或方法的度量学习过程中在锚点更新和嵌入空间更新之后执行聚类位置更新的视图；

图12至图14是具体示出根据本公开实施例的电子设备的度量生成程序的操作的示例的视图；

图15是示出根据本公开的另一实施例的电子设备的硬件的框图；

图16是示出图15的电子设备的场景理解操作的概念图；

图17是示出根据本公开的另一实施例的度量学习方法的流程图；

图18是示出根据本公开的另一实施例的生成对象识别模型的方法的流程图；和

图19是示出根据本公开的另一实施例的场景理解方法的流程图。

具体实施方式

在下文中，现在将参考附图详细解释某些示例性实施例。参考下面结合附图详细描述的实施例，本公开的优点和特征及其实现方法将是显而易见的。然而，本公开不限于下面公开的实施例，而是可以以各种不同的形式实现，并且这些实施例可以仅用来使本发明的公开完整，并且被提供来向本公开所属技术领域的技术人员完全传达本发明的范围，并且本公开仅由权利要求的范围限定。在整个说明书中，相同的附图标记指代相同的元件。

如果没有另行定义，那么在本说明书中使用的所有术语(包括技术和科学术语)可以在本领域技术人员通常理解的意义上使用。此外，在常用词典中定义的术语不应被理想地或过度地解释，除非它们被具体和清楚地定义。本文使用的术语是为了描述实施例，而不是为了限制本说明书。在本说明书中，单数形式也包括复数形式，除非在短语中有具体说明。在下文中，将参考附图描述本说明书的一些实施例。

将参照图1描述根据本公开实施例的基于场景理解的服务系统的配置和操作。根据实施例的系统可以包括对象识别模型学习设备10和电子设备100a、100b和100c。电子设备100a、100b和100c是用户使用的用户终端，并且可以是包括计算处理器的计算装置，诸如可佩戴装置(诸如智能手机和智能手表等)、平板电脑、台式机、笔记本电脑、数字电视、数字标牌、信息亭等，或者可以是包括技术装置的电子装置，诸如数字装置等。

对象识别模型学习设备10执行机器学习以生成用于识别图像中的对象的模型，并且向电子设备100a、100b和100c提供由该生成产生的对象识别模型相关数据50。电子设备100a、100b和100c使用对象识别模型相关数据50来识别视频的每个帧或图像中包括的一个或多个对象，并基于结果理解场景。

识别对象意味着将包括在图像中的对象区域，即由感兴趣区域(ROI)表达的主题，确定为预定关键词之一。换句话说，对对象的识别包括提取对象区域，将所提取的对象区域的图像输入到分类器中，以及选择主题图像。

理解场景意味着使用对包括在当前显示屏中的对象的识别结果来确定当前显示屏所表达的整体含义或情形。例如，如果在当前显示屏上识别出“切菜板”、“刀”和“鱼”这三个对象，则当前显示屏的场景理解结果可以是“盘子”。因此，对于理解场景可能需要考虑语义层次关系。稍后将描述根据本公开的一些实施例的场景理解方法。

根据实施例，电子设备100a、100b和100c可以通过使用至少一些对象识别模型相关数据50来生成反映每个对象的语义关系信息(未示出)的距离函数数据，并且基于对象图像的特征点在嵌入空间中的位置来识别对象。嵌入空间是通过距离函数计算点之间距离的空间。

根据该实施例的系统还可以包括服务服务器20。服务服务器20是向电子设备100a、100b和100c提供基于服务器/客户端模型的在线服务的电子设备。电子设备100a、100b和100c可以提供指示场景理解结果的数据40，并且从服务服务器20接收场景反映服务30。

场景反映服务30可以包括提供对应于显示在电子设备100a、100b和100c上的特定场景的附加内容。例如，附加内容可以是场景定制广告、使用场景对应文本的搜索结果、或场景定制媒体。

在一个实施例中，电子设备100a、100b和100c可以对对象识别模型执行增量学习，从而改进其性能。增量学习可以接收用户对于对象识别模型的反馈，并通过反映该反馈来重新学习对象识别模型。稍后将描述关于增量学习的详细描述。

将参照图2描述根据本公开的另一实施例的电子设备10的配置和操作。根据实施例的电子设备是执行机器学习以确定分类等的设备，因此需要高水平的计算性能。因此，根据实施例的电子设备可以是例如诸如图1的对象识别模型学习装置的服务器装置。然而，根据该实施例的电子设备不必限于服务器装置。注意，也满足上述配置并且执行相同操作的用户终端装置也可以是根据实施例的电子设备。

如图2所示，根据实施例的电子设备10包括处理器101和存储由处理器101执行的度量生成程序130b的存储器102。处理器101可以使用一个或多个中央处理单元(CPU)和一个或多个图形处理单元(GPU)中的至少一个来配置。

在一个实施例中，电子设备10还可以包括存储设备103和网络接口105中的至少一个，网络接口105对通过网络与外部装置的数据传输和接收进行协调。系统总线104用作处理器101、存储器102、存储设备103和网络接口105之间的数据传输/接收路径。存储器102可以是易失性数据存储设备，例如随机存取存储器(RAM)。存储设备103可以是例如闪存的非易失性存储器或者诸如硬盘的数据存储装置。

存储设备103可以存储语义树131和每个类的代表数据132。语义树131的每个节点可以一对一地对应于关键词，并且每个节点根据关键词之间的层次连接关系以父/子关系彼此连接。每个节点的关键词可以一对一地对应于一类训练数据集。稍后将参照图6等描述语义树131的具体示例。

每个类的代表数据131是训练数据集的每个类的代表数据。例如，当训练数据集是用于对象识别的图像集时，“老鹰”这个类的代表数据是指代表老鹰的代表图像。此外，当从“老鹰”这个类的代表数据中提取的特征数据被映射到嵌入空间时，它成为“老鹰”这个类的锚点。作为另一个示例，当训练数据集是用于语音识别的语音集时，“老鹰”这个类的代表数据是指老鹰的代表语音。此外，当从“老鹰”这个类的代表语音中提取的特征数据被映射到嵌入空间时，它成为“老鹰”这个类的锚点。

在一个实施例中，在用于生成度量的机器学习期间，可以单独提供每个类的代表数据。在这种情况下，通过使用所提供的代表数据来执行机器学习，并且如果没有提供代表数据，则存储在存储设备103中的每个类的代表数据131可以用作默认数据。

存储设备103还可以存储度量生成程序130a。度量生成程序130a可以包括可执行二进制文件(未示出)，并且可执行二进制文件与度量生成程序130a一起被加载到存储器102中。在图2中，度量生成程序130b存储在存储器102中。当度量生成程序130b被执行时，语义树131可以不时地被引用。因此，语义树131也可以被加载并存储在存储器102中，以便改进执行速度。

存储设备103还可以存储机器学习(ML)参数集1340。ML参数集1340是定义作为机器学习的结果生成的分类模型的数据，并且当分类模型是基于神经网络的模型时，可以是用于定义人工神经网络的参数集。

通过执行度量生成程序130b中包括的度量学习指令1301、语义树接口指令1302、分类学习指令1303和模型生成指令1304中的至少一个，电子设备10可以执行用于确定距离函数的度量学习，或者用于确定距离函数并基于反映距离函数的嵌入空间而生成分类模型的机器学习。在下文中，将描述可以由电子设备10执行的与机器学习相关的操作。

本公开中的指令是指在处理器中执行的一系列按功能分组的指令。

将描述可以由电子设备10执行的具有改进性能的度量学习。

图3是示出根据现有技术的度量学习的视图。图3示出映射到特征空间70的两类特征点。第一类用矩形表示，第二类用圆形表示。特征空间70中的每个点之间的距离可以使用众所周知的通用距离函数来测量，例如i)欧几里德距离、ii)马氏距离等。然而，通用距离函数通常不能充分表达训练数据之间的相似性或相异性。这是因为通用距离函数是可以在各种情形中通用的距离函数，而不是针对包括在训练目标数据集中的训练数据而优化的。这一点反映在，第一类的特征点和第二类的特征点在图3的特征空间中部分混合。在这种情况下，聚类可能不清楚，并且由此，分类模型的精确性可能降低，并且其复杂性可能增加。

为了解决这个问题，如果执行根据现有技术的度量学习，则获得针对训练目标数据集优化的距离函数。然后，可以构建其中根据该距离函数进行距离测量的特征空间。根据由度量学习生成的距离函数进行距离测量的特征空间被称为嵌入空间80。

如图3所示，嵌入空间80上的第一类特征点之间的距离比特征空间70上的第一类特征点之间的距离短。此外，嵌入空间80上的第二类特征点之间的距离比特征空间70上的第二类特征点之间的距离短。随着同一类的特征点之间的距离变得更近，第一类的聚类81和第二类的聚类82变得更清楚地分离，从而改进了分类模型的精确性，并且还减少了计算所需的计算负荷。

然而，在根据现有技术的度量学习的情况下，为了获得高精确性的距离函数，必须学习大量的训练数据。现有技术的度量学习的这个问题通过改进的性能度量学习来解决，这将在下面参照图4来描述。

此外，作为度量学习的结果而生成的距离函数仅反映类之间的相似性或相异性，而不考虑相似性或相异性的程度，也不考虑类的语义。现有技术的这个度量学习问题通过改进性能的度量学习来解决，这将在下面参照图6至图11来描述。

参照图4，将描述应用于根据本公开的一些实施例的电子设备或方法的改进性能的度量学习。

与根据现有技术的度量学习(其简单地生成使相似特征点更靠近的距离函数)不同，根据本公开的一些实施例的度量学习的改进性能使训练数据的特征点更靠近锚点。对于该操作，可以通过如下定义损失值来设置应用于度量学习的损失函数。当第一类的训练数据的特征点与锚点靠近时，损失函数可能具有低损失，而当不同于第一类的第二类的训练数据的特征点与锚点靠近时，损失函数可能具有高损失。

如图4所示，每个类的锚点71a和72a可以不是训练数据中的任何一个，而是可以被映射到从单独的代表数据71c和72c提取的特征数据。如上所述，代表数据71c和72c可以是在度量学习开始时输入的数据。另外，如果锚点71a和72a对应于语义树的特定节点(对应于特定类)，则即使没有输入代表数据71c和72c，也基本上可以应用每个类的代表数据。

根据该实施例的改进性能的度量学习具有这样的效果：距离函数被生成为使得即使与现有技术相比训练数据的数量更少，每个类的聚类也足够集中。

当根据实施例的度量学习应用于特征空间70时，将生成构成嵌入空间83的距离函数(未示出)。图4示出，由于生成的距离函数，第一类的特征点更靠近第一类的锚点71b，而第二类的特征点更靠近第二类的锚点72b。随着每个类的特征点的位置被更新为比度量学习之前更密集地集中，每个类的聚类71d和72d的区域在嵌入空间83上变得更窄。因此，与根据现有技术的度量学习结果相比，每个类的聚类71d和72d更清楚地彼此分离，从而改进了分类模型的精确性，并减少了计算所需的计算负荷。

图5是示出与根据现有技术的分类算法相比、参照图4描述的具有改进性能的度量学习的视图。众所周知的分类算法，例如支持向量机(SVM)，在特征空间上为每个类生成分类基线90。分类基线90可以是非线性的。然而，如图5所示，如果因为没有很好地执行每个类的聚类而使分类基线90需要高维函数，则分类模型将需要高计算负荷。

同时，如果使用参照图4描述的度量学习的结果来训练分类模型，则所需的计算负荷显著降低。如图5所示，基于每一类的锚点73、74和75，特征点被高度且密集地聚类，从而与现有技术相比，分类基线91的复杂性得以降低。

在根据本公开的一些实施例的度量学习中，考虑对应于锚点的类之间的语义关系来确定锚点的位置。在下文中，将参照图6至图10描述关于此项的描述。

图7所示的猎鹰节点76c的锚点76a和贵宾犬节点73c的锚点73a之间在特征空间70上的距离比图6所示的猎鹰节点76c的锚点76a和天鹅节点74c的锚点74a之间在特征空间70上的距离更远。这是因为猎鹰类和天鹅类之间的语义关系比猎鹰类和贵宾犬类之间的语义关系更密切。换句话说，在语义树上，猎鹰节点76c和天鹅节点74c之间的距离比猎鹰节点76c和贵宾犬节点73c之间的距离更近。

在一个实施例中，语义树上的两个节点之间的距离可以被设置为随着两个节点之间的节点的数量或边的数量的增加而更远。例如，如果将距离设置为节点之间的边的数量，则猎鹰节点76c和天鹅节点74c之间的距离是2(猎鹰-鸟之间的边，鸟-天鹅之间的边)，而猎鹰节点76c和贵宾犬节点73c之间的距离是4(猎鹰-鸟之间的边，鸟-动物之间的边，动物-狗之间的边，狗-贵宾犬之间的边)。

图6中，一些相邻特征点更靠近猎鹰锚点76b以形成猎鹰聚类76d，一些相邻特征点更靠近天鹅锚点74b以形成天鹅聚类74d。因此，锚点成为增加聚类内聚力的参考点。因此，为了提高分类性能，重要的是锚点彼此适当地间隔开。在该实施例中，由于每个锚点的位置是考虑语义关系来确定的，所以使得锚点彼此适当地间隔开。

在图7中，一些相邻特征点更靠近猎鹰锚点76b以形成猎鹰聚类76d，一些相邻特征点更靠近贵宾犬锚点73b以形成贵宾犬聚类73d。贵宾犬聚类73d的位置比图6的天鹅聚类74d的位置离猎鹰聚类76d更远。此外，与根据实施例执行度量学习之前相比，贵宾犬类的特征点离猎鹰群76d更远。这反映了猎鹰和贵宾犬之间的语义关系。另外，猎鹰类的锚点76b和贵宾犬类的锚点73b作为首先反映语义关系的聚类参考点，因此猎鹰聚类76d和贵宾犬聚类73d的位置也反映语义树上的关系。

图6和图7分别仅示出了两个锚点，但是将在特征空间70中布置与待训练的训练数据的类数量一样多的锚点，并且锚点的位置将被确定为使所有成对的锚点之间的距离满足语义关系。换句话说，随着类的数量的增加，每个锚点的位置更精确地反映了语义树的每个对应节点之间的距离。

因此，如图8所示，可以反映三个或更多个锚点以获得学习到的距离函数，并且可以在反映距离函数的嵌入空间86上形成包括语义树的下部节点的聚类区域的上层的聚类区域。如果可以使用上述特征从要分析的数据中提取多个特征数据，则考虑要分析的数据的语义的层次理解可以通过识别由每个特征数据指示的语义树131上的上部/下部节点、识别所识别的下部节点所属的上部节点等方式来实现。这将在后面参照图16进行描述。

在一个实施例中，可以在度量学习过程中更新锚点的位置。这将参照图9至图11进行描述。

作为机器学习的一种，度量学习还将每个训练数据输入到神经网络，使用损失函数评估从神经网络输出的数据，并使用所有训练数据集的结果来迭代用于调整神经网络权重的操作。

在没有距离函数的情况下，锚点被映射到简单的特征空间上。因此，在这种情况下，当前嵌入空间变成特征空间。然而，当获得了距离函数并且形成了反映获得的距离函数的嵌入空间时，用形成的嵌入空间更新当前嵌入空间。

图9示出，在猎鹰类的锚点76a和贵宾犬类的锚点73a被映射到当前嵌入空间70之后，通过反映猎鹰类的训练数据的特征点的位置而根据锚点更新过程更新猎鹰类的锚点76a’，通过反映贵宾犬类的训练数据的特征点的位置更新贵宾犬类的锚点73a’。

在一个实施例中，借助于对第一类的更新，可以用直到第一类的锚点为止的输入的所有第一类的训练数据的特征点的代表值和当前迭代来更新第一类的锚点的位置。例如，代表值可以是平均值或中值。

通过更新，可以确认贵宾犬类的锚点位置和训练数据的特征点位置之间的分离问题得到了改善。

作为度量学习的结果，可以对根据当前迭代的距离函数进行更新，使得猎鹰类的特征点更靠近更新后的锚点76a’，而贵宾犬类的特征点更靠近更新后的锚点73a’。在图9中，示出了反映更新后的距离函数的嵌入空间86。

如果还有下一个要学习的训练数据133，则度量学习可以进行下一次迭代。

如上所述，锚点是映射到特征空间(或者正在进行学习迭代时的当前嵌入空间)的代表数据的特征数据。无论如何小心地选择代表数据，它也可能不是对应类的所有训练数据的理想代表点。因此，当通过连续保持第一锚点来迭代学习时，如果第一锚点保持并再次迭代，则存在嵌入空间中的每个聚类的位置不能精确反映训练数据的问题。然而，锚点可能需要作为训练数据的特征点位置的参考点。

在一个实施例中，为了满足这两个相反的目标，可以通过反映第一类的特征点的位置来更新第一类的锚点的位置，但是在初始学习时可以不更新锚点。初始学习包括从学习开始的第一次数的迭代。此时，即使锚点的位置被更新，也可以通过每两次或更多次的第二次数的迭代更新一次锚点的位置来减少由过于频繁的锚点更新所导致的开销。

在一个实施例中，可以基于训练数据的类型来设置定义初始学习间隔的第一次数。换句话说，当训练数据的类型是第一类型时，第一次数可以被设置为第一值，并且当训练数据的类型是第二类型时，第一次数可以被设置为第二值。例如，第一类型可以是图像数据，第二类型可以是音频数据。

在一个实施例中，在根据度量学习更新嵌入空间之后，可以考虑聚类之间的语义关系来调整聚类之间的距离，然后进行下一次迭代。在这方面，参照图10，在根据度量学习更新嵌入空间之后，根据聚类位置修正来修正三个聚类73e、76e和78e的位置。通过修正聚类之间的位置，可以防止由于锚点更新导致的语义关系的损害逐渐扩大。

参照图10，基于语义树131的猎鹰节点76c和老鹰节点78c之间的距离来确定猎鹰聚类76e和老鹰聚类78e之间的适当距离。因为确定的距离比当前嵌入空间上的两个聚类76e和78e之间的距离短，所以两个聚类76e和78e在彼此靠近的方向上移动76f和78f。此外，由于贵宾犬聚类73e已经靠近猎鹰聚类76e和老鹰聚类78e超过根据语义树131确定的适当距离，因此贵宾犬聚类73e在远离两个聚类76e和78e的方向上移动73f。图11示出了根据图10的聚类位置修正而修正的三个聚类的位置73g、76g、78g。

如果在聚类位置修正之后还有要学习的下一个训练数据133，则根据参照图10描述的实施例的度量学习进行到下一次迭代。在下一次迭代中，可以在当前嵌入空间包括修正后的位置73g、76g和78g的三个聚类的情况下进一步映射下一个训练数据的特征点。

在下文中，将参考度量生成程序中包括的指令的每个操作来描述上述电子设备的度量学习相关操作。

参照图12描述矩阵生成程序输出作为训练训练数据集的结果获得的距离函数(即，度量)的操作。

如上所述，在一些实施例中，可以在度量学习期间查询语义树131，并且如果没有输入用于形成锚点的单独的类代表数据，则可以使用存储在电子设备中的每个类的代表数据132。语义树接口指令1302响应于度量学习指令1301的请求，向度量学习指令1301返回语义树131的查询结果或每个类的代表数据132。

在一个实施例中，度量学习指令1301可以将训练数据133输入到卷积神经网络(CNN)层1310中，以获得输入的训练数据133的特征数据，并且可以将获得的特征数据输入到深度度量学习(DML)层1311a，以获得从DML层1311a输出的距离函数相关数据。

度量学习指令1301可以共同训练CNN层1310和CNN层1310中的DML层1311a，或者通过与CNN层1310分离而仅训练DML层1311a。

注意，在另一个实施例中，可以使用其他机器学习算法代替卷积神经网络(CNN)层1310，以获得训练数据的特征数据。

DML层1311a是基于深度学习的人工神经网络，其中执行上述度量学习。

模型生成指令1304以预定方式封装并输出从DML层1311a输出的距离函数相关数据。输出的数据可以通过网络接口传输到外部装置，或者存储在电子设备的存储装置中以备以后参考该数据。

图13描述了度量生成程序生成并输出基于嵌入空间的分类模型，该模型反映了作为训练训练数据集的结果获得的距离函数(即，度量)。

图13的语义树接口指令1302以参照图12描述的相同方式操作。度量学习指令1301以与参照图12描述的相同方式操作，除了DML层1311b不同于图12的DML层1311a，其不是作为度量学习的结果而生成的距离函数，而是还包括输出反映通过反映距离函数而形成的嵌入空间上的聚类形成结果的聚类特征数据的层。

分类学习指令1303基于根据度量学习指令1301生成的距离函数生成分类模型。分类学习指令1303可以训练由单层组成的对象分类层1330，该单层接收从由度量学习指令1301学习的度量学习层(特别是DML层1311b)输出的数据，并且输出每个类的置信水平。

分类学习指令1303能够仅使用单层来训练分类模型的原因是因为从DML层1311b输出的聚类特征数据反映了彼此充分隔开的聚类结果。因此，由于用于从聚类特征数据计算每个类的置信水平的计算复杂度较低，所以可以仅使用单层来训练分类模型。

模型生成指令1304输出ML参数集1340，该参数集1340以预定义的方式封装从分类训练指令1303输出的数据。ML参数集1340可以包括用于定义CNN层1310的参数集、用于定义DML层1311b的参数集以及用于定义分类层1330的参数集。换句话说，ML参数集1340可以包括用于生成模型的数据，该模型通过顺序连接CNN层1310、DML层1311b和分类层1330来输出数据的分类结果。由模型生成指令1304输出的数据可以通过网络接口传输到外部装置，或者可以存储在电子设备的存储装置中以备将来参考。

在下文中，图14描述了度量生成程序130b执行度量学习的操作的实施例，该度量学习的操作用于使用包括视频的每个帧图像的训练数据集来生成对视频中包括的每个对象进行分类的模型。将描述执行操作的实施例。根据本实施例的度量生成程序130b的操作可以被理解为在指令单元中参照图10描述的电子设备的操作的概要。

获得视频帧的指令1320接收视频数据，并且顺序地向提取对象的指令1321提供帧图像。如果不存在视频的下一帧图像，则可以输出最后的距离函数或反映最后的距离函数的最后的嵌入空间上的聚类特征数据，因为使用视频的学习已经完成。

尽管用于获得视频帧的指令1320和用于提取对象的指令1321可以包括在根据实施例的度量生成程序130b中，但是注意，对象提取结果可以由外部程序提供。

用于提取对象的指令1321通过使用已知的对象提取算法从所提供的帧图像中提取一个或多个对象图像，并将所提取的对象图像提供给用于确定特征点的指令1322。用于确定特征点的指令1322使用CNN层输出每个对象图像的特征数据，并且通过映射到当前嵌入空间来添加特征点。

用于确定锚点位置的指令1323通过反映每个类之间的语义关系信息来确定多个类的锚点位置。用于确定锚点位置的指令1323可以仅在度量生成程序开始时，即当度量学习开始时执行以设置锚点的初始位置，并且当锚点位置更新开始时，可以不再执行。

用于更新锚点位置的指令1324通过反映每个锚点附近的特征点的位置来更新每个锚点的位置。

用于更新度量学习和嵌入空间的指令1325执行生成距离函数的度量学习的当前迭代，当前迭代使得每个特征点更靠近更新后的锚点中的最近的锚点，并且通过反映生成的距离函数来更新嵌入空间。

用于更新聚类位置的指令1326通过反映由每个锚点指示的类之间的语义关系信息，为由每个锚点和该锚点附近的特征点组成的每个类更新聚类在嵌入空间上的位置。然后，可以通过提供下一帧的图像的操作来执行用于获得视频帧的指令。

同时，在一个实施例中，可以进一步执行用于获得作为度量生成程序130b(接收视频的帧图像，并输出帧图像中包括的每个对象图像属于哪个聚类的确定结果)的学习结果而生成的对象聚类形成模型的用户反馈的指令(未示出)。对于该操作，使用反馈，可以执行用于更新现有对象聚类形成模型的度量学习、用于更新嵌入空间的指令1325和用于更新聚类位置的指令1326。这个实施例可以被理解为增量学习的一种形式。执行根据实施例的度量生成程序130b的电子设备可以是用户终端。

在下文中，将描述根据本公开的另一实施例的电子设备的配置和操作。根据实施例的电子设备可以被理解为执行作为在上述电子设备中执行的机器学习的结果而创建的模型的设备。在下文中，作为实施例，描述了电子设备的配置和操作，该电子设备在视频回放期间使用模型来识别当前显示的屏幕上显示的每个对象，并且使用每个对象的识别结果来理解当前显示的屏幕的场景。

图15的电子设备100也具有类似于图2的电子设备10的硬件配置。在下文中，对共同的部分不做重复描述。

存储设备153可以存储通过网络接口155从显示器151、图2的电子设备等上播放的视频数据160a接收的对象识别模型50、语义树131、每个类的代表数据132、场景理解程序170a和应用服务应用180a。

场景理解程序170a被加载并存储在存储器152中作为场景理解程序170b。在下文中，将以指令为单位描述场景理解程序170b的操作。

用于提取对象的指令1701从通过显示器151播放的视频160b的当前屏幕中提取对象。因为从显示器151上显示的图像中提取对象就足够了，所以该图像可以是视频帧或一般图像。注意，尽管用于提取对象的指令1701可以包括在根据实施例的场景理解程序170b中，但是对象提取结果也可以由外部程序提供。

用于选择对象识别模型的指令1702选择存储在存储设备153中的对象识别模型50之一。对象识别模型50可以是例如参照图13描述的ML参数集1340。换句话说，对象识别模型50可以将对象图像的特征点映射到反映语义关系信息的距离函数被反映的嵌入空间上，并且基于特征点在嵌入空间上的位置输出对象的类。

存储设备153可以存储多个对象识别模型50。在这种情况下，用于选择对象识别模型的指令1702可以选择多个对象识别模型50之一。要应用的应用对象识别模型50可以是固定的，从而可以不需要用于选择对象识别模型的指令1702的操作。在下文中，将描述选择多个对象识别模型50之一的实施例。

在一个实施例中，多个对象识别模型50可以包括作为使用第一流派的视频的机器学习的结果而生成的第一对象识别模型和作为使用第二流派的视频的机器学习的结果而生成的第二对象。用于选择对象识别模型的指令1702可以基于图像的类型进行选择。例如，用于选择对象识别模型的指令1702可以从当前正在播放的视频的元信息中获得流派信息，并且选择标记有与视频的流派信息相对应的流派信息的对象识别模型。根据此实施例，通过将要输入到对象识别模型的视频和用于学习对象识别模型的视频的流派匹配，存在可以增加对象识别的精确性的效果。

在另一实施例中，用于选择对象识别模型的指令1702可以基于在电子设备100的用户简档(未示出)中注册的信息来选择多个对象识别模型50中的任何一个。例如，根据用户简档，如果描述了偏好电影流派的动作，则用于选择对象识别模型的对象1702可以使用该动作流派的视频来选择所学习的对象识别模型。

在另一个实施例中，用于选择对象识别模型的指令1702可以根据应用服务的类型选择多个对象识别模型50中的任何一个。应用服务的类型可以根据与场景理解程序170b相关联的应用服务应用180b来确定。应用服务可以包括提供对应于由场景理解程序170b确定的当前场景理解结果的附加内容。注意，应用服务应用180b可以是与场景理解程序170b分开的程序，但是也可以是场景理解程序170b内部的指令。

例如，附加内容可以是场景定制广告、使用场景对应文本的搜索结果、或场景定制媒体。例如，当附加内容是场景定制广告时，用于选择对象识别模型的指令1702可以选择密集学习广告目标对象图像的对象识别模型。

用于生成对象点的指令1703使用所选择的对象识别模型将从图像中提取的多个对象中的每一个对象的特征点映射到嵌入空间。

用于场景理解的指令1705选择与从图像中提取的至少一些映射特征点最靠近的锚点，并通过使用所选择的锚点的关键词来理解图像的场景。在这个过程中，需要查询语义树131，并且用于语义树接口1704的指令可以负责查询。这将参照图16更详细地描述。

参照图16，当从图像160b中提取两个对象95a和96a时，用于生成对象点的指令1703可以通过使用对象识别模型将对象95a的图像的特征点95b映射到嵌入空间87，并且通过使用对象识别模型将对象96a的图像的特征点96b映射到嵌入空间87。用于场景理解的指令1705选择嵌入空间87中最靠近两个特征点95b和96b的锚点76a和78a。

假设最靠近特征点95b的锚点是猎鹰锚点76a，最靠近特征点96b的锚点是老鹰锚点78a。根据一个实施例，可以选择语义树131上与猎鹰锚点76a相对应的节点76c和与老鹰锚点78a相对应的节点78c的父节点，即鸟节点92c，并且场景理解结果可以被确定为“鸟”。根据另一个实施例，可以选择最靠近特征点95b和96b的更高级别的锚点。更高级别的锚点是指对应于语义树131上具有预定深度或更小深度的节点的锚点。例如，当预定深度为“1”时，最靠近特征点95b和96b的更高级别的锚点可以是鸟节点92c的锚点92a。因此，即使在这种情况下，场景理解结果也可以被确定为“鸟”。

在一个实施例中，如图16所示，场景理解结果可以通过分层次划分其级别来输出。这是可能的，因为嵌入空间87反映了层次语义关系。

根据一个实施例，当从图像中提取了超过预定数量的对象时，可以为一些对象选择最靠近的锚点，并且可以通过使用所选择的锚点的关键词来理解图像的场景。从图像中提取的一些对象可能具有差异较大的意义，如果是这样，在理解场景时它们就像噪声一样。

在下文中，将参照图17至图19描述根据本公开的一些实施例的电子设备执行的方法。

图17是根据本公开的另一实施例的度量学习方法的流程图。根据此实施例的方法可以由例如图2所示的电子设备10来执行。注意，该度量学习方法可以包括参照图2至图5描述的电子设备的操作的至少一部分。因此，尽管在下面描述的度量学习方法的描述中没有单独描述，但是上面参照图2至图5描述的操作可以包括在此度量学习方法中。此外，在方法的以下描述中，当没有描述操作的主体时，该主体可以被解释为电子设备。

在操作S101中，确定训练数据在当前嵌入空间上的特征点。训练数据是作为训练数据集中的当前迭代的学习目标的数据，并且当前嵌入空间是反映当前获得的距离函数的特征空间。当前嵌入空间是这样的特征空间：如果没有获得距离函数，则将通用距离函数作为初始状态应用于该特征空间。

在操作S103中，确定锚点的位置。如果已经确定了锚点的位置，则可以不执行锚点位置的确定。此外，如上所述，如果初始学习步骤已经过去，则现有锚点的位置可以反映特征点的位置并且可被周期性地更新。

在操作S105中，执行度量学习，使得特征点更靠近锚点。如上所述，学习距离函数使得特征点更靠近被称为锚点的参考点，与根据现有技术的度量学习相比，具有学习速度更快的优点。根据实施例的度量学习方法，如果还有要学习的下一个训练数据S107，则该方法进行到下一次迭代，并且如果没有要学习的下一个训练数据，则作为学习的结果输出距离函数相关数据S109。

图18是示出根据本公开的另一实施例的生成对象识别模型的方法的流程图。根据实施例的方法可以例如由图2所示的电子设备100来执行。注意，参照图2、图10和图14描述的电子设备的操作可以包括在生成对象识别模型的方法中。因此，尽管在下面描述的生成对象识别模型的方法的描述中没有单独描述，但是上面参照图2、图10和图14描述的操作可以包括在生成对象识别模型的方法中。另外，在方法的以下描述中，当没有描述操作主体时，该主体可以被解释为电子设备。

在操作S201中，对视频的当前帧图像执行对象识别。如上所述，也可以从外部程序提供对象识别结果。

在操作S203中，确定每个对象的图像在当前嵌入空间上的特征点。另外，在操作S205中，通过反映语义关系信息来确定锚点的位置。与图18所示的不同，操作S205也可以在操作S203之前执行。

在操作S207中，将锚点的位置更新为聚类的平均值等。在操作S209中，执行度量学习，使得特征点更靠近更新后的位置的锚点。通过度量学习，可以学习用于提取对象图像的特征数据的CNN层和用于度量学习的DML层。在操作S211中，通过使用通过度量学习获得的距离函数来更新当前嵌入空间。

在操作S213中，为了防止语义关系信息根据锚点位置的更新而被破坏，通过反映语义关系信息来修改聚类之间的相对位置。

在根据实施例的生成对象识别模型的方法中，如果还有要学习的下一帧S215，则可以进行下一次迭代。如果学习完成到视频的最后一帧，则基于在操作S217中学习到的距离函数来训练分类模型。通过分类模型的学习，可以学习由接收从度量学习层输出的数据并输出每个类的置信水平的单层组成的对象分类层。

在操作S219中，输出对象识别模型的数据。输出的数据可以包括学习到的CNN层、DML层和对象分类层的参数集。

图19是示出根据本公开的另一实施例的场景理解方法的流程图。根据实施例的方法可以例如由图15所示的电子设备100来执行。注意，参照图15和图16描述的电子设备的操作可以包括在场景理解方法中。因此，尽管在下面描述的场景理解方法的描述中没有单独描述，但是上面参照图15和图16描述的操作可以包括在场景理解方法中。此外，在该方法的以下描述中，当没有描述操作主体时，该主体可以被解释为电子设备。

在操作S301中，从服务器装置等下载对象识别模型并存储。当由于诸如视频的回放的原因而显示图像S303时，从当前显示的图像中提取多个对象S305。此时，可以从下载的对象识别模型中选择要使用的对象识别模型。

在操作S307中，对于每个对象图像，可以通过使用所选择的对象识别模型，根据对象识别模型将特征点映射到嵌入空间。在操作S309中，可以选择与映射的特征点的至少一部分接近的锚点，并且在操作S311中，可以使用语义关系和所选择的锚点的含义来理解当前显示的图像的场景。

同时，呈现对图像场景的理解结果，并且可以向其输入用户的反馈S313。当输入反馈时，可以使用输入反馈来执行关于对象识别模型的学习S314。这可以理解为一种增量学习的形式。

在操作S315中，将场景理解结果数据传输到服务服务器，并且可以输出对应于场景的附加内容作为响应S317。

只要视频回放没有结束S319，就可以在移动到下一帧S312的同时连续执行场景理解方法。

至此描述的根据实施例的方法可以通过执行包含在计算机可读代码中的计算机程序来执行。计算机程序可以通过诸如因特网的网络从第一电子设备传输到第二电子设备，并且安装在第二电子设备中，因此可以在第二电子设备中使用。第一电子设备和第二电子设备包括服务器装置、属于云服务的服务器池的物理服务器、诸如台式PC的固定电子设备等。

该计算机程序可以存储在非暂时性记录介质中，例如DVD-ROM、闪存装置等。

尽管已经参照本发明的各种实施例示出和描述了本发明，但是本领域技术人员将理解，本申请可以以其他特定形式实现，而不改变其技术精神或基本特征。因此，应该理解，上述实施例在所有方面都是说明性的，而不是限制性的。

Claims

1.一种电子设备，包括：

存储器，被配置成存储至少一个指令；以及

处理器，被配置成执行存储的指令，

其中，所述处理器还被配置成：

从第一类的训练数据中提取特征数据，其中，所述训练数据为图像数据或语音数据，并且包括多种类别的训练数据，其中，所述第一类为所述多种类别中的一种，

通过将提取的特征数据映射到嵌入空间来获得特征点，

在减小获得的特征点和锚点之间的距离的方向上训练人工神经网络，以及

输出经训练的人工神经网络，所述经训练的人工神经网络供计算设备使用以处理输入图像或语音并理解所述输入图像或语音的场景，

其中，所述锚点是从映射到所述嵌入空间的与所述第一类对应的代表数据中提取的特征数据，

其中，训练所述人工神经网络包括：

通过反映与所述第一类对应的特征点来更新所述嵌入空间上的所述锚点的位置；以及

在减小与所述第一类对应的特征点和更新后的锚点之间的距离的方向上训练所述人工神经网络，

其中，更新所述嵌入空间上的所述锚点的位置包括在由从训练起点开始的第一次数的迭代组成的初始训练中不执行所述锚点的位置更新，而是在所述初始训练之后的迭代中执行所述锚点的位置更新。

2.根据权利要求1所述的电子设备，其中，训练所述人工神经网络包括通过使用损失函数来训练所述人工神经网络，所述损失函数定义所述第一类的训练数据的特征点越靠近所述锚点，损失就越小，并且不同于所述第一类的第二类的训练数据的特征点越靠近所述锚点，损失就越大。

3.根据权利要求1所述的电子设备，其中，训练所述人工神经网络包括对用于提取所述第一类的训练数据的特征数据的卷积神经网络CNN层和用于获得通过接收从所述CNN层输出的数据而获得的特征点和所述锚点之间的距离的度量学习层进行共同训练。

4.根据权利要求3所述的电子设备，其中，训练所述人工神经网络包括从所述CNN层仅分离所述度量学习层，所述度量学习层用于获得通过接收从用于提取所述第一类的训练数据的特征数据的所述CNN层输出的数据而获得的特征点和所述锚点之间的距离，并且训练分离的度量学习层。

5.根据权利要求1所述的电子设备，其中，所述人工神经网络包括度量学习层，所述度量学习层输出在所述嵌入空间上形成的聚类特征数据，并且

其中，训练所述人工神经网络包括训练由单层组成的对象分类层，所述单层接收从所述度量学习层输出的数据，并按每个类输出置信水平。

6.根据权利要求1所述的电子设备，其中，训练所述人工神经网络包括在所述第一类的训练数据的特征点更靠近与所述第一类对应的锚点、并且同时第二类的训练数据的特征点更靠近所述嵌入空间上的与所述第二类对应的锚点的方向上训练所述人工神经网络，其中，所述第二类为所述多种类别中的不同于所述第一类的一种，并且

其中，通过反映所述第一类和所述第二类之间的语义关系信息来确定与所述第一类对应的锚点的位置和与所述第二类对应的锚点的位置。

7.根据权利要求6所述的电子设备，其中，所述语义关系信息包括语义树中所述第一类的关键词和所述第二类的关键词之间的距离，并且

其中，所述语义树反映每个关键词之间的语义层次关系，并且所述语义树中所述第一类的关键词和所述第二类的关键词之间的距离被设置为对应于所述第一类的关键词的第一节点和对应于所述第二类的关键词的第二节点之间的节点数量越多，所述距离就越远。

8.根据权利要求6所述的电子设备，其中，训练所述人工神经网络包括反映所述第一类和所述第二类之间的所述语义关系信息，并更新第一类聚类和第二类聚类中的至少一个在所述嵌入空间上的位置，

其中，所述第一类聚类由与所述第一类对应的特征点和与所述第一类对应的锚点组成，并且

其中，所述第二类聚类由与所述第二类对应的特征点和与所述第二类对应的锚点组成。

9.根据权利要求1所述的电子设备，其中，在所述初始训练之后的迭代中执行所述锚点的位置更新包括每两次或更多次的第二次数的迭代执行一次所述锚点的位置更新。

10.根据权利要求1所述的电子设备，其中，响应于所述训练数据的类型是第一类型，所述第一次数被设置为第一值，并且当所述训练数据的类型是第二类型时，所述第一次数被设置为第二值。

11.一种电子设备，包括：

存储器，被配置成存储至少一个指令；以及

处理器，被配置成执行存储的指令，

其中，所述处理器还被配置成：

获得从图像中提取的多个对象中的每一个在嵌入空间上的特征点，以及

通过使用最靠近至少一些所述特征点的锚点的关键词来理解所述图像的场景，

其中，每个特征点表示已经映射到嵌入空间的、从相应类的训练数据中提取的特征数据，所述特征点已用于在减小获得的特征点和锚点之间的距离的方向上训练人工神经网络，所述锚点是映射到所述嵌入空间上的每个类的代表图像，其中，训练所述人工神经网络包括：

通过反映第一类的特征点来更新所述嵌入空间上的所述锚点的位置，其中，所述训练数据包括多种类别的训练数据，并且

所述第一类为所述多种类别中的一种；以及

在减小所述第一类的特征点和更新后的锚点之间的距离的方向上训练所述人工神经网络，

其中，更新所述嵌入空间上的所述锚点的位置包括在由从训练起点开始的第一次数的迭代组成的初始训练中不执行所述锚点的位置更新，而是在所述初始训练之后的迭代中执行所述锚点的位置更新，以及

其中，所述嵌入空间是通过反映所述锚点之间的语义关系来计算所述锚点之间的距离的特征空间。

12.根据权利要求11所述的电子设备，其中，理解所述图像的场景包括：

选择最靠近每个映射的特征点的下层锚点，

从对应于每个所选择的下层锚点的语义树的节点中选择至少一些上部节点，以及

通过使用对应于所选择的上部节点的关键词来理解所述图像的场景。

13.根据权利要求11所述的电子设备，其中，理解所述图像的所述场景包括：

选择最靠近至少一些映射的特征点的上层锚点，以及

通过使用对应于所选择的上层锚点的关键词来理解所述图像的场景。

14.根据权利要求11所述的电子设备，其中，所述处理器被配置成基于所述图像的类型来选择所述对象识别模型。

15.根据权利要求11所述的电子设备，其中，所述处理器被配置成基于所述电子设备的用户的简档信息来选择所述对象识别模型。

16.根据权利要求11所述的电子设备，其中，所述处理器被配置成基于应用服务类型来选择所述对象识别模型。

17.根据权利要求11所述的电子设备，其中，所述处理器被配置成输出对应于所理解的场景的附加内容。

18.一种由电子设备执行的方法，其包括：

通过使用输出与嵌入空间上的特征点相关的数据的对象识别模型，获得从图像中提取的多个对象的每一个在所述嵌入空间上的特征点；以及

使用最靠近所述特征点中的至少一些特征点的锚点的关键词来理解所述图像的场景，

其中，每个特征点表示已经映射到嵌入空间的、从相应类的训练数据中提取的特征数据，所述特征点已用于在减小获得的特征点和锚点之间的距离的方向上训练人工神经网络，所述锚点是每个类的代表图像被映射到所述嵌入空间上，其中训练所述人工神经网络包括：

所述第一类为所述多种类别中的一种；以及