CN111095934A

CN111095934A - 用于提供内容的方法和终端

Info

Publication number: CN111095934A
Application number: CN201880060004.5A
Authority: CN
Inventors: 李建熙; 金璟洙; 崔贤秀; 金圣晋; 金珠熙
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2017-09-15
Filing date: 2018-09-14
Publication date: 2020-05-01
Anticipated expiration: 2038-09-14
Also published as: WO2019054792A1; KR20190031033A; US11210525B2; EP3661218A1; CN111095934B; US20200210710A1; EP3661218A4; KR102449877B1

Abstract

本公开涉及一种用于根据人工智能(AI)系统提供内容的方法和一种人工智能系统的应用，从而获取内容中包括的至少一个图像，基于从至少一个图像提取的特征信息创建与至少一个图像对应的用于引导用户响应的附加内容，以及当接收到播放内容的请求时，同步创建的附加内容和至少一个图像，并且可以依赖于同步结果播放内容和附加内容。

Description

用于提供内容的方法和终端

技术领域

本公开涉及提供内容的方法，用于提供内容的终端，和在其上记录有用于执行在计算机上提供内容的方法的程序的记录介质。

背景技术

人工智能(AI)系统是具有人类级别的智能的计算机系统，且与先前的基于规则的智能系统不同，AI系统是训练自身、进行判断和变得越来越智能的系统。AI系统使用得越多，AI系统的识别率越高，且AI系统可以更精确地理解用户的品味。因此，先前的基于规则的智能系统已经逐渐由基于深度学习的AI系统替代。

AI技术由机器学习(例如，深度学习)与使用机器学习的元素技术组成。

机器学习是依靠自身分类/学习输入数据的特性的算法技术。元素技术是通过使用诸如深度学习等的机器学习算法模拟人脑的功能(比如识别、确定等)的技术，且包括语言理解、视觉理解、推断/预测、知识表示、操作控制等技术领域。

AI技术应用于如下的各个领域。语言理解是识别和应用/处理人的语言/字符的技术，且包括自然语言的处理、机器翻译、对话系统、询问响应、语音识别/合成等。视觉理解是如以人的视觉识别和处理对象的技术，且包括对象识别、对象检测、图像搜索、人类识别、场景理解、空间理解、图像增强等。推断预测是检查与逻辑上推断和预知信息的技术，且包括基于知识/概率的推断、优化预测、基于偏爱的计划、推荐等。知识表示是将人类经验数据自动地处理为知识数据的技术，且包括知识建立(数据生成/分类)、知识管理(数据使用)等。操作控制是控制车辆的自主驾驶和机器人的运动的技术，且包括运动控制(导航、碰撞避免、驾驶)、操纵控制(行为控制)等。

发明内容

技术问题

本公开提供了提供内容的方法、终端和记录介质，由此当再现内容时，与一个或多个图像同步地提供与内容的一个或多个图像对应的包括反应信息的附加内容，且因此，当重复地再现内容时，防止用户沉浸的恶化。

技术方案

本公开涉及人工智能(AI)系统及其应用，该AI系统通过使用机器学习算法，比如深度学习等，模拟人脑的功能，比如识别、确定等。更具体地，本公开涉及一种人工智能(AI)系统和一种根据AI系统的应用提供内容的方法，该方法包括：获得内容中包括的一个或多个图像；基于从一个或多个图像提取的特征信息，生成用于引导用户信息的附加内容，该附加内容与一个或多个图像对应；当接收到再现内容的请求时，将生成的附加内容与一个或多个图像同步；和根据同步的结果再现内容和附加内容。

附图说明

图1是用于描述根据实施例的、由终端执行的提供内容的方法的概念图。

图2是根据实施例的、由终端执行的提供内容的方法的流程图。

图3是根据实施例的、由终端执行的基于关于对象的改变的信息和对象的位置的信息生成附加内容的方法的流程图，所述信息从一个或多个图像获得。

图4是用于描述由终端执行的、通过使用学习网络模型基于关于图像的对象的位置的信息和关于图像的对象的改变的信息确定图像的场景类别的方法的图。

图5是用于描述根据实施例的、由终端执行的通过根据提供内容的情形将权重应用于反应信息生成附加内容的方法的图。

图6是用于描述根据实施例的、由终端执行的考虑内容的种类生成学习网络模型的方法的图。

图7是用于描述根据实施例的、由终端执行的通过使用学习网络模型基于关于图像的对象的位置的信息和关于图像的对象的改变的信息确定反应信息的方法的图。

图8是用于描述根据另一实施例的、由终端执行的通过使用学习网络模型基于关于图像的对象的位置的信息和关于图像的对象的改变的信息确定反应信息的方法的图。

图9是根据实施例的、由终端执行的基于用户反馈信息修改和改进附加内容的方法的流程图。

图10是根据实施例的、由终端执行的基于用户简档信息生成附加内容的方法的流程图。

图11是用于描述根据实施例的、由终端执行的通过将语音模型应用于反应信息而提供附加内容的方法的图。

图12是根据实施例的用于提供内容的终端的框图。

图13是用于描述根据实施例的处理器的图。

图14是根据实施例的数据学习器的框图。

图15是根据实施例的识别器的框图。

图16是根据另一实施例的用于提供内容的终端的框图。

图17是根据另一实施例的由终端执行的提供附加内容的方法的概念图。

图18是根据另一实施例的由第一终端和第二终端执行的提供内容的方法的流程图。

具体实施方式

根据实施例，一种提供内容的方法包括：获得内容中包括的一个或多个图像；基于从一个或多个图像提取的特征信息，生成用于引导用户信息的附加内容，该附加内容与一个或多个图像对应；当接收到再现内容的请求时，同步生成的附加内容与一个或多个图像；和根据同步结果再现内容和附加内容。

生成附加内容可以包括：基于提取的特征信息，识别一个或多个图像中包括的对象；从一个或多个图像获得关于识别的对象的位置的信息和关于一个或多个图像之间识别的对象的改变的信息；和基于所获得关于识别的对象的位置的信息和所获得的关于一个或多个图像之间识别的对象的改变的信息，确定与一个或多个图像对应的反应信息。

生成附加内容可以包括：通过使用预先生成的学习网络模型，基于提取的特征信息确定一个或多个图像的场景类别；和从反应信息数据库获得与所确定的场景类别对应的反应信息。

一个或多个图像的场景类别可以根据一个或多个图像中包括的对象类型和由对象执行的动作类型中的至少一个分类。

该方法可以进一步包括获得关于内容种类的信息，且确定一个或多个图像的场景类别可以包括通过使用预先生成的学习网络模型，基于提取的特征信息和关于内容种类的信息确定一个或多个图像的场景类别。

该方法可以进一步包括获得包括用户的性别、年龄和偏爱中的至少一个的简档信息，且获得与所确定的图像的场景类别对应的反应信息可以包括基于识别的场景类别和简档信息获得与一个或多个图像对应的反应信息。

生成附加内容可以包括通过使用预先生成的学习网络模型，基于提取的特征信息确定与一个或多个图像对应的反应信息。

该方法可以进一步包括：获得相对于与内容同步再现的附加内容的用户反馈信息；基于所获得的用户反馈信息，确定多条预先存储的反应信息中的每一条的权重；和基于所确定的权重，在多条预先存储的反应信息当中修改和改进与一个或多个图像对应的反应信息。

该方法可以进一步包括：获得相对于一个或多个图像选择的反应信息的历史信息；基于历史信息确定多条预先存储的反应信息中的每一条的权重；和基于所确定的权重，在多条预先存储的反应信息当中修改和改进与一个或多个图像对应的反应信息，其中，当先前选择多条预先存储的反应信息的次数减小时，多条预先存储的反应信息的权重设置为较低。

该方法可以进一步包括，当反应信息是声音数据时，从包括多个声音模型的声音数据库选择与反应信息对应的声音模型，且再现内容和附加内容可以包括与一个或多个图像同步地再现所选的声音模型应用于的附加内容。

根据实施例，一种用于提供内容的终端可以包括：存储器，存储一个或多个指令；显示器；和处理器，配置为执行存储器中存储的一个或多个指令以：获得内容中包括的一个或多个图像；基于从一个或多个图像提取的特征信息，生成与一个或多个图像对应的包括反应信息的附加内容；当接收到再现内容的请求时，与一个或多个图像同步地再现生成的附加内容；和控制显示器以显示一个或多个图像。

本公开的模式

将简要地描述本说明书中使用的术语且将具体描述本公开的实施例。

本公开中使用的术语是考虑它们在本公开中的功能从当前广泛地使用的通用术语中选出的。但是，术语可以根据本领域技术人员的意图、前例或者新技术的出现而不同。此外，在特殊情况下，术语可以由本公开的申请人酌情选择，且在具体实施方式的相应部分中具体描述那些术语的含义。因此，本公开中使用的术语不仅是术语的指定，而是基于遍及本公开的条目和内容的含义定义术语。

将理解，虽然术语第一、第二等在这里可以用于描述各种元件，但是这些元件不应该由这些术语限制。这些术语仅用于区分一个元件与另一元件。例如，第一元件可以被称为第二元件，且类似地，第二元件也可以被称为第一元件而不脱离本公开的范围。如在此使用的，术语“和/或”包括一个或多个关联的列出的项的任意和所有组合。

将理解术语在这里使用的“包括”和/或“包含”不排除一个或多个其他特征或者组件的存在或者添加，除非存在与此相反的特定说明。说明书中使用的术语“单元”指的是软件组件或者硬件组件，比如现场可编程门阵列(FPGA)或者专用集成电路(ASIC)，且执行特定功能。但是，术语“单元”不限于软件或者硬件。“单元”可以形成为可寻址存储介质，或者可以形成为操作一个或多个处理器。因此，例如，术语“单元”可以指比如软件组件、面向对象的软件组件、类组件和任务组件的组件，且可以包括处理、功能、属性、过程、子例程、程序代码的分段、驱动器、固件、微码、电路、数据、数据库、数据结构、表、阵列或者变量。由组件和“单元”提供的功能可以与更少数目的组件和“单元”相关联，或者可以划分为附加的组件和“单元”。

现在将参考附图更全面地描述本公开的实施例以使得本领域技术人员能够没有任何困难地执行本公开。但是，本公开可以具体表现为许多不同形式且不应该被看作是限于在这里提出的本公开的实施例。此外，省略与具体描述无关的附图中的部分以保证本公开的清楚。在附图中的相同的附图标记表示相同的元件。

图1是用于描述根据实施例的、由终端100执行的提供内容的方法的概念图。

参考图1，终端100可以获得包括一个或多个图像12、14和16的内容10。根据实施例的内容10例如可以包括多媒体内容，比如动画、电影、戏剧等。内容中包括的图像指示在屏幕单元上显示的内容的一部分，且在本说明书中，图像可以用作具有与帧等相同的含义。此外，可以基于图像中包括的对象类型或者由对象执行的活动确定图像的场景类别。例如，图像的场景类别可以基于对象类型确定为食物图像、机器人图像等，或者基于对象的活动确定为转换图像、游戏图像、歌唱图像等。

当再现内容10时，根据实施例的终端100可以生成包括关于内容10的一个或多个图像12、14和16的反应信息的附加内容20。反应信息包括相对于一个或多个图像12、14和16的内容，比如评估、共鸣等。通过当再现一个或多个图像12、14和16时提供反应信息，可以增加对于内容10的用户沉浸。此外，反应信息可以以声音数据、文本数据和图像数据中的至少一个的形式提供。

例如，终端100可以相对于一个或多个图像12、14和16生成包括以“好！”的声音数据的形式的反应信息的附加内容。此外，终端100可以与反应信息一起生成包括一个或多个图像12、14和16的标识信息的附加内容，以使得可以与一个或多个图像12、14和16同步地再现“好！”的反应信息。但是，这仅是实施例，且与反应信息对应的一个或多个图像12、14和16的标识信息可以作为单独的元数据提供。

根据实施例的终端100可以使用学习网络模型以确定与一个或多个图像12、14和16对应的反应信息。这里，学习网络模型可以指示一组算法，其用于通过经由使用统计机器学习的结果提取和使用一个或多个图像12、14和16中的各种特征而确定一个或多个图像12、14和16的场景类别或者确定与一个或多个图像12、14和16对应的反应信息。此外，学习网络模型可以实现为用于执行描述的一组算法的软件、引擎等。实现为软件、引擎等的学习网络模型可以由终端100中的处理器或者服务器(未示出)的处理器执行。

例如，终端100可以通过将一个或多个图像12、14和16或者一个或多个图像12、14和16中的至少一个应用为学习网络模型的输入数据，来获得与一个或多个图像12、14和16对应的反应信息作为输出数据。这方面将在下面参考图4到图8更详细地描述。

终端100可以包括，但不限于智能电话、平板个人计算机(PC)、PC、智能电视(TV)、蜂窝电话、个人数字助理(PDA)、膝上型电脑、媒体播放器、微服务器、电子书终端、数字广播终端、信息站、MP3播放器、数码相机、家用电器及其他移动或者非移动计算装置。此外，终端100可以包括具有通信功能和数据处理功能的可穿戴装置，比如手表、眼镜、发带、指环等。

图2是根据实施例的由终端执行的提供内容的方法的流程图。

在操作S210中，终端可以获得内容中包括的一个或多个图像。

终端可以获得终端中存储的内容中包括的一个或多个图像。例如，终端可以通过执行视频再现应用等获得预先存储的内容中包括的一个或多个图像。

根据另一示例，终端可以从外部服务器接收图像。这里，外部服务器可以包括社交网络服务器、云服务器、web服务器和内容提供服务器中的至少一个。例如，当web应用、搜索应用和社交网络服务(SNS)中的至少一个由终端执行时，终端可以通过访问支持由终端执行的应用的外部服务器来获得内容中包括的一个或多个图像。

在操作S220中，终端可以基于从一个或多个图像提取的特征信息，生成与一个或多个图像对应的用于引导用户反应的附加内容。

根据实施例的终端可以通过使用学习网络模型确定与一个或多个图像对应的反应信息。

例如，终端可以使用学习网络模型检测一个或多个图像的特征信息和基于检测到的特征信息确定与一个或多个图像对应的反应信息。根据另一示例，终端可以通过使用学习网络模型检测一个或多个图像的特征信息来确定一个或多个图像的场景类别。当确定一个或多个图像的场景类别时，终端可以从预先存储的反应信息数据库获得与一个或多个图像对应的反应信息。反应信息数据库可以存储对于图像的每个场景类别分类的多条反应信息。

这里，图像的特征信息可以指示可以应用为学习网络模型的输入参数的信息。图像的特征信息可以包括颜色、边缘、多边形、饱和度、亮度、色温、模糊、锐度、对比度等，但是不限于此。根据另一示例，图像的特征信息可以包括与图像对应的内容中的声音数据(例如，主题曲或者对话)。

当确定与一个或多个图像对应的反应信息时，终端可以生成包括反应信息的附加内容。附加内容可以包括作为同步信息的与反应信息对应的至少一个图像的标识信息，以使得同步地显示一个或多个图像和附加内容。但是，这仅是实施例。同步信息可以作为附加内容的元数据单独地提供。

在操作S230中，当接收到再现内容的请求时，终端可以同步生成的附加内容与一个或多个图像。当在生成附加内容之后接收到再现内容的请求时，终端可以同步内容和附加内容的再现时间。

在操作S240中，终端可以根据同步结果再现内容和附加内容。

因此，内容中包括的一个或多个图像和附加内容可以彼此同步地再现。例如，当附加内容包括作为相对于一个或多个图像的反应信息的声音数据“好！”时，终端可以在再现一个或多个图像的时间点与一个或多个图像同步地再现声音数据“好！”。

当再现相同内容的次数增加时，终端可以修改和改进附加内容以便避免相同的附加内容的重复再现。这方面将在下面参考图5具体描述。

图3是根据实施例的、由终端执行的基于关于从一个或多个图像获得的对象的改变的信息和关于对象的位置的信息生成附加内容的方法的流程图。

在操作S310中，终端可以基于内容中包括的多个图像的特征信息，识别多个图像中的每一个中包括的至少一个对象。

例如，终端可以通过将作为每个图像的特征信息获得的关于颜色、多边形等的信息与预先存储的关于多个对象的颜色、多边形等的信息比较，来识别多个图像中的每一个中包括的至少一个对象。作为另一示例，终端可以通过将每个图像作为输入数据应用于相对于对象的每个类型的特征训练的学习网络模型，来识别多个图像中的每一个中包括的对象。

在操作S320中，终端可以从每个图像获得关于至少一个对象的位置的信息。关于至少一个对象的位置的信息可以作为二维平面上至少一个对象的坐标的信息获得。但是，这仅是实施例，且关于至少一个对象的位置的信息不限于此。作为另一示例，关于至少一个对象的位置的信息可以作为图像中包括的多个对象的相对位置值的信息获得。

在操作S330中，终端可以通过比较多个图像中包括的对象获得关于在多个图像之间对象的改变的信息。关于对象的改变的信息可以包括就形状、位置、颜色等而言，关于在预定图像之间对象的改变的信息。此外，关于对象的改变的信息可以包括关于新对象添加到预定图像的事件或者先前图像中包括的对象在预定图像中消失的事件的信息。

在操作S340中，终端可以基于关于对象的位置的信息和关于对象的改变的信息生成与多个图像对应的附加内容。

根据实施例的终端可以通过作为输入数据将关于对象的位置的信息和关于对象的改变的信息应用于训练用于输出反应信息的学习网络模型，来获得与多个图像对应的反应信息作为输出数据。

根据另一实施例的终端可以通过作为输入数据将关于对象的位置的信息和关于对象的改变的信息应用于训练用于确定图像的场景类别的学习网络模型，来获得多个图像中的每一个的场景类别作为输出数据。终端可以通过比较每个图像的场景类别与预先存储的反应信息数据库，来确定与每个图像对应的反应信息。

在操作S350中，当接收到再现内容的请求时，终端可以通过同步生成的附加内容与一个或多个图像，来再现生成的附加内容和一个或多个图像。

参考图4，终端可以从内容中包括的多个图像410获得关于对象的位置的信息412和关于对象的改变的信息414。由终端执行的从多个图像410获得关于对象的位置的信息412和关于对象的改变的信息414的方法可以对应于参考图3的操作S310到S330描述的方法。

终端可以将关于对象的位置的信息412和关于对象的改变的信息414作为输入数据应用于第一学习网络模型420。这里，第一学习网络模型420可以通过相对于标准(standard)进行训练而生成，该标准用于从关于一个或多个对象的位置的信息和关于一个或多个对象的改变的信息确定图像的场景类别。在该情况下，第一学习网络模型420可以是预先建立的模型。例如，第一学习网络模型420可以是预先建立以接收基本学习数据(例如，关于样本图像的对象的位置的信息和关于对象的改变的信息)并输出图像的场景类别的模型。

终端可以根据通过将关于对象的位置的信息412和关于对象的改变的信息414输入到第一学习网络模型420而获得的输出数据，确定多个图像410的场景类别为转换图像。

终端可以比较所确定的图像的场景类别与预先存储的反应信息数据库430中存储的各条信息。反应信息数据库430可以存储对于图像的每个场景类别分类的多条反应信息。作为比较的结果，终端可以获得声音数据“转换为OOO！”作为与转换图像对应的反应信息。终端可以生成包括所获得的反应信息的附加内容440。

图4描述了关于对象的位置的信息412和关于对象的改变的信息414应用为第一学习网络模型420的输入数据的示例。但是，这仅是实施例，且与图像对应的内容中的声音数据也可以应用为输入数据。例如，设置为在再现内容中的一个或多个图像的时间点一起再现的包括歌曲、语音等的声音数据也可以应用为第一学习网络模型420的声音数据。

图5是用于描述根据实施例的、由终端执行的通过根据提供内容的情形将权重应用于反应信息而生成附加内容的方法的图。

参考图5，终端可以从内容中包括的多个图像510获得关于对象的位置的信息512和关于对象的改变的信息514。从多个图像510获得关于对象的位置的信息512和关于对象的改变的信息514的方法可以对应于参考图3的操作S310到S330描述的方法。

终端可以将关于对象的位置的信息512和关于对象的改变的信息514作为输入数据应用于第一学习网络模型520。这里，第一学习网络模型520可以对应于如上参考图4所述的第一学习网络模型420。

终端可以根据通过将关于对象的位置的信息512和关于对象的改变的信息514输入到第一学习网络模型520而获得的输出数据，确定多个图像510的场景类别为游戏图像。此外，终端可以从预先存储的反应信息数据库530获得与游戏图像对应的多条反应信息。

终端可以基于内容再现历史选择多条反应信息中的任何一个。终端可以在多条反应信息当中对于先前作为附加内容再现的反应信息设置低权重。为了避免无论何时再现内容当重复地再现相同附加内容时用户沉浸的恶化，终端可以对于先前确定为附加内容的反应信息设置低权重。

例如，终端可以分别将权重w1和w2应用于“哦！令人激动”和“OO，我们应该与OO一起游戏吗？”的各条反应信息，各条反应信息与游戏图像对应。这里，假定“哦！令人激动”的反应信息先前选为附加内容。因此，对于“哦！令人激动”的反应信息设置的权重w1可以低于对于“OO，我们应该与OO一起游戏吗”反应信息的权重w2。

终端可以根据基于设置权重选择多条反应信息之一的结果，生成包括“OO，我们应该与OO一起游戏吗？”的反应信息的附加内容540。

如上参考图4和图5所述，终端可以通过将关于图像的对象的位置的信息和关于对象的改变的信息作为输入应用于学习网络模型而确定图像的场景类别。

根据实施例的终端可以生成相对于内容的每个种类的图像的特征训练的学习网络模型，以便增加图像的场景类别的确定的精确性。内容可以具有用于每个种类的不同绘图。例如，在转换内容可以具有引入、事件的发生、转换和解决的绘图时，机器人内容可以具有引入、危险、机器人的出现和对抗的绘图。也就是，因为每个种类的内容具有唯一绘图，当识别出关于内容的种类的信息时，由终端确定的图像的场景类别可以具有增大的精确性。

参考图6，终端可以将对于其确定种类的学习图像610输入到学习网络模型。这里，学习图像610可以分别是多个种类g1、g2和g3中包括的图像。

终端可以通过使用学习网络模型从学习图像510检测特征，和生成由检测到的特征组成的特征空间620。终端可以通过分析在特征空间620上分布的特征和学习图像610的种类之间的相关性来学习标准630(图示为线条)。

通过重复地执行描述的学习过程，终端可以生成用于通过考虑每个种类的内容的图像特征来确定每个图像的场景类别的学习网络模型。

终端可以通过将关于一个或多个图像的对象的位置的信息和关于对象的改变的信息与关于内容的种类的信息一起作为输入数据应用于生成的学习网络模型，来获得一个或多个图像的场景类别作为输出数据。但是，这仅是实施例，且输入到学习网络模型中的输入数据不限于此。

参考图7，终端可以从内容中包括的多个图像710获得关于对象的位置的信息712和关于对象的改变的信息714。由终端执行的从多个图像710获得关于对象的位置的信息712和关于对象的改变的信息714的方法可以对应于参考图3的操作S310到S330描述的方法。

终端可以将关于对象的位置的信息712和关于对象的改变的信息714作为输入数据应用于第二学习网络模型720。这里，第二学习网络模型720可以通过相对于标准训练而生成，该标准用于从关于一个或多个对象的位置的信息和关于一个或多个对象的改变的信息确定反应信息。在该情况下，第二学习网络模型720可以是预先建立的模型。例如，第二学习网络模型720可以是预先建立以接收基本学习数据(例如，关于样本图像的对象的位置的信息和关于对象的改变的信息)并输出反应信息的模型。

终端可以根据通过将关于对象的位置的信息712和关于对象的改变的信息714输入到第二学习网络模型720而获得的输出数据，确定与图像对应的反应信息为“转换为OOO！”的声音数据。这里，输出数据可以作为反应信息相对于输入的关于对象的位置的信息712和关于对象的改变的信息714中的每一个的概率值输出。终端可以生成包括所确定的反应信息的附加内容740。

图7描述了关于对象的位置的信息712和关于对象的改变的信息714作为第一学习网络模型720的输入数据应用的示例。但是，这仅是实施例，且与图像对应的内容中的声音数据也可以应用为输入数据。

参考图8，终端可以从内容中包括的多个图像810获得关于对象的位置的信息812和关于对象的改变的信息814。由终端执行的从多个图像810获得关于对象的位置的信息812和关于对象的改变的信息814的方法可以对应于参考图3的操作S310到S330描述的方法。

终端可以将关于对象的位置的信息812和关于对象的改变的信息814作为输入数据应用于第三学习网络模型820。第三学习网络模型820可以包括第一网络822和第二网络824，第一网络822包括用于确定多个图像810的场景类别的多个层，且第二网络824包括用于确定与场景类别对应的反应信息的多个层。

根据实施例，终端可以使用第一网络822从关于对象的位置的信息812和关于对象的改变的信息814检测一个或多个图像特征。这里，从第一网络822的每一层检测到的图像特征可以彼此不同。但是，其不限于此。例如，终端可以使用第一网络822的多个层以从关于对象的位置的信息812和关于对象的改变的信息814检测对象的位置的改变、对象的运动的改变、对象的形状的改变中的至少一个。但是，这仅是实施例，且由第一网络822提取的图像特征不限于此。

终端可以通过使用第一网络822组合(或者连接)关于对象的位置的信息和关于对象的改变的信息(或者结果矢量)，来通过使用预先存储的学习结果确定图像的场景类别。此外，终端可以验证所确定的图像的场景类别。

此外，终端可以使用第二网络824检测与图像的场景类别对应的反应信息。指示所确定的图像的场景类别的信息可以作为相对于第二网络824的输入应用。

终端可以与多个图像810同步地再现包括从包括第一网络822和第二网络824第三学习网络模型820输出的反应信息的附加内容830。

在操作S910中，当接收到再现内容的请求时，终端可以通过同步生成的附加内容与一个或多个图像来再现生成的附加内容和一个或多个图像。

操作S910可以对应于如上参考图2所述的操作S230。

在操作S920中，终端可以获得相对于与内容同步再现的附加内容的用户反馈信息。例如，终端可以获得附加内容的再现期间的用户姿势或者话语作为反馈信息。但是，反馈信息不限于描述的示例。

在操作S930中，终端可以基于所获得的反馈信息确定与一个或多个图像对应的反应信息的权重。

根据分析反馈信息的结果，当用户实质上以与由附加内容提供的反应信息相同的方式作出反应时，终端可以设置反应信息的高权重。例如，根据分析反馈信息的结果，当标识用户根据如反应信息提供的声音数据喊叫时，终端可以设置相应的反应信息的高权重。

此外，根据分析反馈信息的结果，当确定相对于图像中的特定对象用户具有对反应信息的较高响应时，终端可以相对于特定对象设置反应信息的高权重。例如，当相对于图像中包括的人物A和人物B，对“我们应该与人物B一起游戏？”的用户响应高于对反应信息“我们应该与人物A一起游戏？”的用户响应时，终端可以设置对反应信息“我们应该与人物B一起游戏？”的高权重。

但是，这仅是实施例，且由终端执行的确定反应信息的权重的方法不限于描述的示例。

在操作S940中，当在获得反馈信息之后接收到再现内容的请求时，终端可以基于所确定的权重生成与一个或多个图像对应的附加内容。终端可以将附加内容中包括的各条反应信息当中的具有低权重的反应信息修改和改进为具有高权重的反应信息。

在终端彼此同步地再现内容和包括修改和改进的反应信息的附加内容之后，当接收到新的反馈信息时，终端可以基于新的反馈信息重复地执行描述的操作S910到S940。

在操作S1010，终端可以基于从内容中包括的一个或多个图像提取的特征信息来确定一个或多个图像的场景类别。

终端可以通过使用学习网络模型确定一个或多个图像的场景类别，学习网络模型通过相对于标准进行训练而生成，该标准用于从一个或多个图像的特征确定一个或多个图像的场景类别。在该情况下，一个或多个图像可以应用为输入数据，或者关于从一个或多个图像获得的对象的位置的信息和关于对象的改变的信息可以应用为输入数据。

在操作S1020中，终端可以获得关于用户简档的信息。这里，用户简档可以包括关于用户的年龄、性别、职业、爱好、偏爱等的信息。终端可以通过以用户许可接收SNS账户等中存储的用户简档或者通过直接接收用户输入来获得关于用户简档的信息。

但是，这仅是实施例，且由终端执行的获得关于用户简档的信息的方法不限于如上所述的示例。

在操作S1030中，终端可以基于一个或多个图像的场景类别和关于用户简档的信息，从预先存储的反应信息数据库确定与一个或多个图像对应的反应信息。反应信息数据库可以存储对于图像的每个场景类别分类的多条反应信息。

终端可以获得从反应信息数据库确定的与图像的场景类别对应的多条反应信息。此外，终端可以基于关于用户简档的信息，从多条反应信息当中选择适于用户的反应信息。例如，当用户是女性时且当多条反应信息包括相对于女性用户更喜欢的对象的反应信息时，终端可以选择该反应信息作为与一个或多个图像对应的反应信息。但是，这仅是实施例，且基于关于用户简档的信息确定反应信息的方法不限于如上所述的示例。

在操作S1040中，当接收到再现内容的请求时，终端可以通过同步附加内容与一个或多个图像来再现包括所确定的反应信息的附加内容和一个或多个图像。

操作S1040可以对应于如上参考图2所述的操作S230。

参考图11，终端可以通过使用如上参考图1到图10所述的方法中的任何一个，确定与一个或多个图像1110对应的反应信息1120。

根据实施例的终端可以将特定声音模型(例如，1132)应用于反应信息1120，以便将所确定的反应信息1120更有效地提供给用户。例如，终端可以将任何一个声音模型，比如用户的熟人、用户喜爱的男演员/女演员和用户喜爱的人物，应用于反应信息1120，并将反应信息1120提供到附加内容1140。

终端可以预先存储包括多个声音模型1132、1134和1136的声音数据库1130。终端可以通过使用声音数据库1130中存储的多个声音模型1132、1134和1136当中的用户更喜欢的声音模型来提供附加内容1140。终端可以通过使用用户更喜欢的声音模型提供附加内容1140，来增加相对于内容的用户沉浸。

关于用户更喜欢的声音模型的信息可以通过使用如上参考图9所述的反馈信息获得，且也可以通过使用如上参考图10所述的关于用户简档的信息获得。

图12是根据实施例的用于提供内容的终端100的框图。

参考图12，终端100可以包括存储器110、处理器120和显示器130。

存储器110可以存储用于处理器120的处理和控制的程序(一个或多个指令)。存储器110中存储的程序可以根据其功能划分为多个模块。根据实施例，存储器110可以包括以下要参考图13描述的数据学习器和数据识别器，数据学习器和数据识别器实现为软件模块。此外，数据学习器和数据识别器每个可以包括单独的学习网络模型或者可以共享一个学习网络模型。

处理器120可以包括一个或多个核心(未示出)和一个或多个图形处理单元(未示出)和/或用于将信号发送到其它组件和从其它组件接收信号的连接路径(例如，总线等)。

根据实施例，处理器120可以执行如上参考图1到图11所述的终端的操作。

例如，处理器120可以获得内容中包括的一个或多个图像。处理器120可以通过使用学习网络模型从内容中包括的一个或多个图像获得特征信息。

此外，处理器120可以通过将一个或多个图像、或者关于一个或多个图像的对象的位置的信息和关于对象的改变的信息输入到学习网络模型，来确定一个或多个图像的场景类别。作为另一示例，处理器120可以通过将一个或多个图像、或者关于一个或多个图像的对象的位置的信息和关于对象的改变的信息输入到学习网络模型，来确定一个或多个图像的反应信息。

根据实施例的处理器120可以获得相对于与内容同步再现的附加内容的用户反馈信息。处理器120可以通过基于反馈信息修改和改进与一个或多个图像对应的反应信息来提供附加内容。

根据实施例的处理器120可以获得关于用户简档的信息。处理器120可以基于从一个或多个图像提取的特征信息和所获得的关于用户简档的信息来确定与一个或多个图像对应的反应信息。

处理器120可以进一步包括临时和/或永久地存储处理器120中处理的信号(或者数据)的随机存取存储器(RAM)(未示出)和只读存储器(ROM)(未示出)。此外，处理器120可以以包括图形处理器、RAM和ROM中的至少一个的片上系统(SoC)的形式实现。

显示器130可以显示内容中包括的一个或多个图像。此外，当生成的附加内容具有图像或者文字的形式时，显示器130可以显示与内容同步的附加内容。

图13是用于描述根据实施例的处理器120的框图。

参考图13，根据实施例的处理器120可以包括数据学习器1310和数据识别器1320。

数据学习器1310可以学习用于确定一个或多个图像的场景类别的标准。此外，根据另一实施例，数据学习器1310可以学习用于确定与一个或多个图像对应的反应信息的标准。

数据识别器1320可以基于通过使用数据学习器1310学习的标准，来确定一个或多个图像的场景类别或者确定与一个或多个图像对应的反应信息。

数据学习器1310和数据识别器1320中的至少一个可以以至少一个硬件芯片的形式形成且安装在终端中。例如，数据学习器1310和数据识别器1320中的至少一个可以以用于AI的专用硬件芯片的形式形成，或者可以形成为先前的通用处理器(例如，中央处理单元CPU)或者应用处理器)或者图形专用处理器(例如，图形处理单元(GPU))的部分且安装在如上所述的各种终端中。

在该情况下，数据学习器1310和数据识别器1320可以安装在一个终端中或者每个可以安装在不同终端中。例如，数据学习器1310和数据识别器1320之一可以包括在终端中，且另一个可以包括在服务器中。此外，数据学习器1310和数据识别器1320可以以有线或者无线方式彼此通信，以将由数据学习器1310建立的模型信息提供给数据识别器1320，或者将输入到数据识别器1320中的数据作为附加学习数据提供给数据学习器1310。

数据学习器1310和数据识别器1320中的至少一个可以实现为软件模块。当数据学习器1310和数据识别器1320中的至少一个实现为软件模块(或者包括指令的程序模块)时，软件模块可以存储在非瞬时计算机可读记录介质中。此外，在该情况下，可以由操作系统(OS)或者某个应用提供至少一个软件模块。替代地，至少一个软件模块的一部分可以由OS提供，且至少一个软件模块的其它部分可以由某个应用提供。

图14是根据实施例的数据学习器1310的框图。

参考图14，根据一个或多个实施例的数据学习器1310可以包括数据获得器1410、预处理器1420、学习数据选择器1430、模型学习器1440和模型评估器1450。但是，这仅是实施例，且数据学习器1310可以包括比描述的组件更少的组件，或者除描述的组件之外，数据学习器1310中可以进一步包括其他组件。

数据获得器1410可以获得内容中包括的一个或多个图像作为学习数据。例如，数据获得器1410可以从包括数据学习器1310的终端或者能够与包括数据学习器1310的终端通信的外部终端获得一个或多个图像。

由根据实施例的数据获得器1410获得的一个或多个图像可以是根据种类分类的内容中包括的多个图像中的任意图像。例如，为了学习，数据获得器1410可以获得根据种类分类的至少一条内容中包括的一个或多个图像。

预处理器1420可以预处理所获得的图像，以使得所获得的图像可以用于确定一个或多个图像的场景类别或者确定一个或多个图像的反应信息的学习。预处理器1420可以将所获得的一个或多个图像处理为预定格式，以使得以下要描述的模型学习器1440可以使用所获得的一个或多个图像用于学习。

学习数据选择器1430可以从预处理的数据选择学习所需的图像。所选的图像可以提供给模型学习器1440。学习数据选择器1430可以基于预定标准从预处理的图像选择学习所需的图像。

模型学习器1440可以学习标准，关于该标准要使用来自学习网络模型中的多个层的一个或多个图像的各条特征信息中的哪条信息以便确定一个或多个图像的场景类别或者确定一个或多个图像的反应信息。例如，模型学习器1440可以学习第一标准，该第一标准指示要从学习网络模型中包括的多个层中的哪层提取用于确定一个或多个图像的场景类别的特征信息。这里，第一标准可以包括由终端使用以通过使用学习网络模型确定一个或多个图像的场景类别的一个或多个图像的特征的类型、数目或者级别。

根据各个实施例，当存在多个预先建立的数据识别模型时，模型学习器1440可以确定在输入学习数据和基本学习数据之间具有大的相关性的数据识别模型作为用于学习的数据识别模型。在该情况下，基本学习数据可以预先分类为多个类型的数据，且可以对于多个类型的数据预先建立数据识别模型。例如，可以基于各种参考，比如生成学习数据的区域、生成学习数据的时间、学习数据的大小、学习数据的种类、学习数据的发生器、学习数据中对象的类型等，将基本学习数据预先分类。

此外，模型学习器1440可以例如通过使用强化学习训练数据识别模型，强化学习使用关于基于学习确定的图像的场景类别或者图像的反应信息是否正确的反馈。

此外，当训练数据识别模型时，模型学习器1440可以存储已训练的数据识别模型。在该情况下，模型学习器1440可以在包括数据识别器1320的终端的存储器中存储已训练的数据识别模型。替代地，模型学习器1440可以在包括以下要描述的数据识别器1320的终端的存储器中存储已训练的数据识别模型。替代地，模型学习器1440可以在以有线或者无线网络与终端连接的服务器的存储器中存储已训练的数据识别模型。

在该情况下，在其上存储已训练的数据识别模型的存储器例如也可以存储与终端的至少另一组件有关的命令或者数据。此外，存储器可以存储软件和/或程序。该程序例如可以包括内核程序、中间件、应用编程接口(API)和/或应用程序(或者“应用”)。

模型评估器1450可以输入数据识别模型中的评估数据，且当根据评估数据输出的识别结果不满足预定参考时，模型评估器1450可以使得模型学习器1440重新学习。在该情况下，评估数据可以是预定用于评估数据识别模型的数据。这里，评估数据可以包括基于学习网络模型标识的图像的场景类别与图像的实际场景类别之间的一致性比率。作为另一示例，评估数据可以包括基于学习网络模型标识的图像的反应信息和实际上适当的反应信息之间的一致性比率。

当存在多个学习网络模型时，模型评估器1450可以评估每一个学习网络模型是否满足某个标准，且可以将满足某个标准的模型确定为最终的学习网络模型。

而且，数据学习器1310中的数据获得器1410、预处理器1420、学习数据选择器1430、模型学习器1440和模型评估器1450中的至少一个可以以至少一个硬件芯片的形式形成且可以安装在终端中。例如，数据获得器1410、预处理器1420、学习数据选择器1430、模型学习器1440和模型评估器1450中的至少一个可以以用于AI的专用硬件芯片的形式形成，或者可以形成为先前的通用处理器(例如，CPU或者应用处理器)或者图形专用处理器(例如，GPU)的一部分且可以安装在如上所述的各种终端中。

此外，数据获得器1410、预处理器1420、学习数据选择器1430、模型学习器1440和模型评估器1450可以安装在一个终端中或者每个可以安装在单独的终端中。例如，数据获得器1410、预处理器1420、学习数据选择器1430、模型学习器1440和模型评估器1450中的某些可以包括在终端中，且其它的可以包括在服务器中。

此外，数据获得器1410、预处理器1420、学习数据选择器1430、模型学习器1440和模型评估器1450中的至少一个可以实现为软件模块。当数据获得器1410、预处理器1420、学习数据选择器1430、模型学习器1440和模型评估器1450中的至少一个实现为软件模块(或者包括指令的程序模块)时，软件模块可以存储在非瞬时计算机可读记录介质中。此外，在该情况下，可以由操作系统(OS)或者某个应用提供至少一个软件模块。替代地，至少一个软件模块的一部分可以由OS提供，且至少一个软件模块的其它部分可以由某个应用提供。

图15是根据实施例的数据识别器1320的框图。

参考图15，根据一个或多个实施例的数据识别器1320可以包括数据获得器1510、预处理器1520、识别数据选择器1530、识别结果提供器1540以及模型修改器和改进器(modifier and refiner)1550。

数据获得器1510可以获得确定图像的场景类别或者图像的反应信息所需的一个或多个图像，且预处理器1520可以预处理所获得的一个或多个图像，以使得所获得的一个或多个图像可以用于确定图像的场景类别或者图像的反应信息。预处理器1520可以将所获得的图像处理为预定格式，以使得以下要描述的识别结果提供器1540可以使用所获得的图像确定图像的场景类别或者图像的反应信息。识别数据选择器1530可以从预处理的数据选择确定图像的场景类别或者图像的反应信息所需的图像。所选的数据可以提供给识别结果提供器1540。

识别结果提供器1540可以将所选的图像应用于根据实施例的学习网络模型，以确定图像的场景类别或者图像的反应信息。将至少一个图像输入到学习网络模型和确定至少一个图像的场景类别或者反应信息的方法可以对应于如上参考图1到图11所述的方法。

识别结果提供器1540可以相对于至少一个图像在图像的形成中提供关于场景类别或者反应的信息。

基于关于由识别结果提供器1540提供的确定图像的场景类别或者反应信息的结果的评估，模型修改器和改进器1550可以将关于评估的信息提供给如上参考图14所述的模型学习器1440，以使得可以修改和改进学习网络模型中包括的类型分类网络或者至少一个特征提取层的参数。

此外，数据识别器1320中的数据获得器1510、预处理器1520、识别数据选择器1530、识别结果提供器1540和模型修改器和改进器1550中的至少一个可以以至少一个硬件芯片的形式形成且可以安装在终端中。例如，数据获得器1510、预处理器1520、识别数据选择器1530、识别结果提供器1540和模型修改器和改进器1550中的至少一个可以以用于AI的专用硬件芯片的形式形成，或者可以形成为先前的通用处理器(例如，CPU或者应用处理器)或者图形专用处理器(例如，GPU)的一部分且可以安装在如上所述的各种终端中。

此外，数据获得器1510、预处理器1520、识别数据选择器1530、识别结果提供器1540和模型修改器和改进器1550可以安装在一个终端中或者每个可以安装在单独的终端中。例如，数据获得器1510、预处理器1520、识别数据选择器1530、识别结果提供器1540和模型修改器和改进器1550中的某些可以包括在终端中，且其它的可以包括在服务器中。

此外，数据获得器1510、预处理器1520、识别数据选择器1530、识别结果提供器1540和模型修改器和改进器1550中的至少一个可以实现为软件模块。当数据获得器1510、预处理器1520、识别数据选择器1530、识别结果提供器1540和模型修改器和改进器1550中的至少一个实现为软件模块(或者包括指令的程序模块)时，软件模块可以存储在非瞬时计算机可读记录介质中。此外，在该情况下，可以由操作系统(OS)或者某个应用提供至少一个软件模块。替代地，至少一个软件模块的一部分可以由OS提供，且至少一个软件模块的其它部分可以由某个应用提供。

图16是根据另一实施例的用于提供内容的终端1600的框图。

参考图16，除与图12的存储器110、处理器120和显示器对应的存储器1660、处理器1620和输出器1630之外，根据实施例的终端1600可以进一步包括输入器1610、音频/视频(A/V)输入器1640和通信器1650。

输入器1610表示用于用户输入用于控制终端1600的数据的装置。例如，输入器1610可以包括键盘、圆顶开关、触摸板(触摸电容方法、压力电阻方法、红外检测方法、表面超声导电方法、集成张力测量方法、压电效应方法等)、滚轮、摇动开关等，但是不限于此。

根据实施例，输入器1610可以通过使用触摸板接收用于请求内容再现的用户输入。但是，这仅是实施例，且输入器1610可以经由比如遥控器的输入装置从用户接收用于请求内容再现的用户输入。

总的来说，处理器1620可以控制终端1600的一般操作和终端1000中的内部组件之间的信号流，并处理数据。例如，处理器1620可以执行存储器1660中存储的程序(一个或多个指令)以总地控制输入器1610、输出器1630、A/V输入器1640和通信器1650。

根据实施例，处理器1620可以通过使用学习网络模型，确定图像的场景类别和与图像的场景类别对应的反应信息，由此执行如上参考图1到图11所述的终端100的功能。因此，处理器1620可以控制终端1600的组件以确定与图像对应的反应信息。处理器1620对应于图12的处理器120，且因此，省略其具体实施方式。

输出器1630可以输出内容中的一个或多个图像和音频信号或者视频信号形式的附加内容，且输出器1630可以包括显示器1631和声音输出器1632。

显示器1631可以显示由终端1600处理的信息。当显示器1631和触摸板分层以形成触摸屏时，显示器1631可以用作输入装置以及输出装置。

声音输出器1632可以输出从通信器1650接收到或者存储在存储器1660中的音频数据。当附加内容中包括的反应信息具有声音数据的形式时，声音输出器1632可以输出附加内容。

A/V输入器1640是用于音频信号或者视频信号的输入的装置，且可以包括相机1641和麦克风1642。

相机1641可以捕获相机识别范围内的图像。根据实施例，由相机1641捕获的图像可以由处理器1620进行图像处理且可以在显示器1631上显示。

通信器1650可以包括一个或多个组件以使外部服务器(例如，SNS服务器、云服务器、内容提供服务器等)能够与其他外部装置通信。例如，通信器1650可以包括短距离无线通信器1651、移动通信器1652和广播接收器1653。

短距离无线通信器1651可以包括蓝牙通信接口、蓝牙低能量(BLE)通信接口、近场通信接口、WLAN(Wi-Fi)通信接口、Zigbee通信接口、红外数据协会(IrDA)通信接口、Wi-Fi直接(WFD)通信接口、超宽带(UWB)通信接口、Ant+通信接口等，但是不限于此。

移动通信器1652可以将无线信号发送到移动通信网络中的基站、外部终端和服务器中的至少一个，和从其接收无线信号。这里，无线信号可以根据内容的交换包括各种类型的数据。

广播接收器1653可以经由广播信道从外部接收广播信号和/或与广播有关的信息。根据实施例，终端1600可以不包括广播接收器1653。

根据实施例，通信器1650可以从外部服务器接收内容，和将接收到的内容提供到处理器1620。

存储器1660可以存储用于处理器1620的处理和控制的程序(例如，一个或多个指令，学习网络模型)，且可以存储输入到终端1600或者从终端1600输出的数据。

存储器1660中存储的程序可以根据它们的功能划分为多个模块。例如，程序可以划分为UI模块1661、触摸屏模块1662等。

UI模块1661可以对每个应用提供与终端1600相关的专用UI、GUI等。触摸屏模块1662可以感测触摸屏上的用户的触摸手势，和将关于触摸手势的信息发送到处理器1620。根据本公开的一个或多个实施例的触摸屏模块1662可以识别和分析触摸代码。触摸屏模块1662可以形成为包括控制器的附加硬件。

存储器1660可以包括闪存存储器类型、硬盘类型、多媒体卡微类型，或者卡类型(例如，SD或者XD存储器)的存储器和随机存取存储器(RAM)、静态RAM(SRAM)、只读存储器(ROM)、电可擦可编程ROM(EEPROM)、可编程ROM(PROM)、磁存储器、磁盘或者光盘当中的至少一个类型的存储介质。

如图16所示的终端1600的组件是据实施例的，且终端1600的每个组件可以根据实现的终端的规范集成、添加或者省略。也就是，根据需要，两个或更多组件可以组合为一个组件或者一个组件可以划分为两个或更多组件。此外，描述由每个组件(或者每个模块)执行的功能以描述实施例，且与其有关的特定操作或者装置不限制本公开的范围。

图17是根据另一实施例的由终端1740执行的提供附加内容的方法的概念图。

参考图17，根据另一实施例，终端1710可以通过使用学习网络模型1730基于至少一个图像1720生成附加内容。这里，由终端1710执行的生成附加内容的方法可以对应于如上参考图1到图11所述的方法。

终端1710可以将生成的附加内容发送到另一终端1740。这里，附加内容可以与反应信息一起包括与反应信息对应的至少一个图像的标识信息，以同步附加内容与内容。

当终端1710再现内容时，另一终端1740可以与内容同步地再现接收到的附加内容。例如，在终端1710再现内容之前，终端1710可以将用于通知内容的再现的控制信号发送到另一终端1740。因此，另一终端1740可以标识开始内容的再现，并与内容同步地再现附加内容。

另一终端1740可以是能够再现附加内容的计算装置，且例如可以包括PC、膝上型电脑、蜂窝电话、微服务器、全球定位系统(GPS)装置、智能电话、可穿戴终端、电子书终端、家用电器、车辆中的电子装置及其他移动或者非移动计算装置。但是，其不限于此，且另一终端1740可以包括包含通信功能和数据处理功能的所有类型的装置。

此外，终端1710可以经由网络与另一终端1740连接以用于通信。在该情况下，网络可以包括局域网(LAN)、广域网(WAN)、附加值网络(VAN)、移动无线电通信网络、卫星网络和其组合，且可以是使能终端1710和另一终端1740之间的流畅通信的综合数据通信网络，且可以包括有线因特网、无线因特网和移动无线电通信网络。

在操作S1810中，第一终端可以获得内容中包括的一个或多个图像。

操作S1810可以对应于如上参考图2所述的操作S210。

在操作S1820中，第一终端可以基于从一个或多个图像提取的特征信息，生成与一个或多个图像对应的附加内容。

操作S1820可以对应于如上参考图2所述的操作S220。

在操作S1830中，第一终端可以将生成的附加内容发送到第二终端。第一终端可以通过网络与第二终端通信地连接。第一终端可以通过网络将附加内容发送到第二终端。

但是，这仅是实施例，且第一终端可以在云服务器中存储生成的附加内容，且可以将指示存储生成的附加内容的云服务器中的位置的URL信息发送到第二终端。

在操作S1840中，第二终端可以与内容同步地再现接收到的附加内容。当第二终端接收到指示在第一终端再现内容的控制信号时，第二终端可以与内容的再现同步地再现附加内容。

本公开的之前描述的实施例可以实现为可执行程序，且可以由通过使用计算机可读记录介质运行程序的通用数字计算机执行。

计算机可读记录介质包括存储介质，比如磁存储介质(例如，ROM、软盘、硬盘等)、光读取介质(例如，CD-ROM、DVD等)和载波(例如，通过因特网传输)。

虽然在这里参考附图描述了本公开的实施例，但是本领域技术人员可以理解在不改变本公开的技术概念或者本质特性的情况下，实施例可以以其他特定形式实现。因此，如上所述的实施例应该在所有方面解释为示例而并非限制性的。

Claims

1.一种提供内容的方法，所述方法包括：

获得内容中包括的一个或多个图像；

基于从一个或多个图像提取的特征信息，生成用于引导用户信息的附加内容，所述附加内容与一个或多个图像对应；

当接收到再现内容的请求时，同步生成的附加内容与一个或多个图像；和

根据同步的结果再现内容和附加内容。

2.如权利要求1所述的方法，其中，生成附加内容包括：

基于提取的特征信息，识别一个或多个图像中包括的对象；

从一个或多个图像获得关于识别的对象的位置的信息和关于在一个或多个图像之间识别的对象的改变的信息；和

基于所获得的关于识别的对象的位置的信息和所获得的关于在一个或多个图像之间识别的对象的改变的信息，确定与一个或多个图像对应的反应信息。

3.如权利要求1所述的方法，其中，生成附加内容包括：

通过使用预先生成的学习网络模型，基于提取的特征信息确定一个或多个图像的场景类别；和

从反应信息数据库获得与所确定的场景类别对应的反应信息。

4.如权利要求1所述的方法，其中，生成附加内容包括：通过使用预先生成的学习网络模型，基于提取的特征信息确定与一个或多个图像对应的反应信息。

5.如权利要求1所述的方法，进一步包括：

获得相对于与内容同步再现的附加内容的用户反馈信息；

基于所获得的用户反馈信息，确定多条预先存储的反应信息中的每一条的权重；和

基于所确定的权重，在多条预先存储的反应信息当中修改和改进与一个或多个图像对应的反应信息。

6.如权利要求1所述的方法，进一步包括：

获得相对于一个或多个图像选择的反应信息的历史信息；

基于历史信息，确定多条预先存储的反应信息中的每一条的权重；和

基于所确定的权重，在多条预先存储的反应信息当中修改和改进与一个或多个图像对应的反应信息，

其中，当先前选择多条预先存储的反应信息的次数减小时，多条预先存储的反应信息的权重设置为较低。

7.如权利要求1所述的方法，进一步包括，当反应信息是声音数据时，从包括多个声音模型的声音数据库选择与反应信息对应的声音模型，

其中，内容和附加内容的再现包括与一个或多个图像同步地再现所选的声音模型应用于的附加内容。

8.一种用于提供内容的终端，所述终端包括：

存储器，存储一个或多个指令；

显示器；和

处理器，配置为执行所述存储器中存储的一个或多个指令以：

获得内容中包括的一个或多个图像；

基于从一个或多个图像提取的特征信息，生成与一个或多个图像对应的包括反应信息的附加内容；

当接收到再现内容的请求时，与一个或多个图像同步地再现生成的附加内容；和

控制所述显示器以显示一个或多个图像。

9.如权利要求8所述的终端，其中，所述处理器进一步配置为执行一个或多个指令以：

基于提取的特征信息，识别一个或多个图像中包括的对象；

10.如权利要求8所述的终端，其中，所述处理器进一步配置为执行一个或多个指令以：

11.如权利要求8所述的终端，其中，所述处理器进一步配置为执行一个或多个指令以通过使用预先生成的学习网络模型，基于提取的特征信息确定与一个或多个图像对应的反应信息。

12.如权利要求8所述的终端，其中，所述处理器进一步配置为执行一个或多个指令以：

获得相对于与内容同步再现的附加内容的用户反馈信息；

13.如权利要求8所述的终端，其中，所述处理器进一步配置为执行一个或多个指令以：

获得相对于一个或多个图像选择的反应信息的历史信息；

基于所确定的权重，在多条预先存储的反应信息当中修改和改进与一个或多个图像对应的反应信息；和

当先前选择多条预先存储的反应信息的次数减小时，多条预先存储的反应信息的权重设置为较低。

14.如权利要求8所述的终端，其中，所述处理器进一步配置为执行一个或多个指令以：

当反应信息是声音数据时，从包括多个声音模型的声音数据库选择与反应信息对应的声音模型；和

与一个或多个图像同步地再现所选的声音模型应用于的附加内容。

15.一种计算机可读记录介质，在其上记录有用于在计算机上执行如权利要求1所述的方法的程序。