CN107211198B

CN107211198B - 用于编辑内容的装置和方法

Info

Publication number: CN107211198B
Application number: CN201580074063.4A
Authority: CN
Inventors: 宣俊奎; 方汉敏; 申盛国
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2015-01-20
Filing date: 2015-12-17
Publication date: 2020-07-17
Anticipated expiration: 2035-12-17
Also published as: EP3248383A1; WO2016117836A1; US20190180788A1; KR20160089742A; US10971188B2; KR102306538B1; US10373648B2; US20160211001A1; CN107211198A; EP3248383A4

Abstract

提供了一种用于编辑运动图像内容的系统和方法。所述方法包括：获取运动图像内容；映射包括在运动图像内容中的人的图像和人的语音数据；选择包括在运动图像内容中的帧中的至少一个帧；以及使用映射的图像和语音数据以及选择的至少一个帧创建运动图像内容的编辑内容。

Description

用于编辑内容的装置和方法

技术领域

本公开涉及一种用于编辑内容的装置和方法。更具体地，本公开涉及一种用于基于内容中的人的图像和语音来编辑运动图像内容的装置和方法。

背景技术

随着多媒体和网络技术的发展，用户可以创建他/她期望的内容或者从另一终端或服务服务器接收各种内容以使用该内容。然而，随着用户使用的内容数量的增加，用户难以有效地选择将要使用的内容。因此，已经开发了用于编辑内容的细节和提供编辑信息的技术。然而，现有技术的用于提供编辑信息的技术涉及简单地组合一些现有媒体，因此用户难以以舒适和熟悉的方式了解内容的细节。因此，期望内容编辑技术有效地使得用户能够以熟悉的方式了解内容的细节并使用编辑信息。

上述信息仅作为背景信息呈现，以帮助理解本公开。关于上述内容是否可能适用于本公开的现有技术，没有做出任何决定，也没有断言。

发明内容

技术方案

本公开的各个方面至少是解决上述问题和/或缺点，并且至少提供下面描述的优点。因此，本公开的一方面是提供一种用于编辑内容的装置和方法，其中，可以使用包括在运动图像内容中的人的图像和语音数据来创建编辑内容。

本公开的另一方面是提供一种编辑内容的装置和方法，其中，可以使用运动图像内容的声音数据来选择用于创建编辑内容的场景和帧。

本公开的另一方面是提供一种用于编辑内容的装置和方法，其中，根据编辑内容的类型，可以使用不同模板来创建编辑内容。

附图说明

根据以下结合附图的描述，本公开的特定实施例的上述和其它方面、特征和优点将更加明显，其中：

图1是示出根据本公开的各种实施例的内容编辑装置创建运动图像内容的编辑内容的方法的示意图；

图2是示出根据本公开的各种实施例的内容编辑装置响应于来自设备的请求向设备提供编辑内容的示例的示图；

图3是示出根据本公开的各种实施例的内容编辑装置创建编辑内容的方法的流程图；

图4是示出根据本公开的各种实施例的内容编辑装置映射面部图像和语音数据的方法的流程图；

图5是示出根据本公开的各种实施例的创建面部图像数据库(DB)的方法的流程图；

图6是示出根据本公开的各种实施例的创建语音DB的方法的流程图；

图7是示出根据本公开的各种实施例的将从运动图像内容创建的面部图像映射到语音数据的示例的示图；

图8是示出根据本公开的各种实施例的面部图像和声音数据彼此映射的示例的示图；

图9是示出根据本公开的各种实施例的内容编辑装置选择运动图像内容中的场景并创建编辑内容的方法的流程图；

图10是示出根据本公开的各种实施例的创建内容的编辑信息的示例的示意图；

图11是示出根据本公开的各种实施例的内容编辑装置推荐和选择要用于创建编辑内容的场景的方法的流程图；

图12是示出根据本公开的各种实施例的内容编辑装置基于从运动图像内容获取的声音信号的声音等级变化和声音频率变化来确定推荐场景的示例的示图；

图13是示出根据本公开的各种实施例的内容编辑装置通过检测预定声音来确定推荐场景的示例的流程图；

图14是示出根据本公开的各种实施例的内容编辑装置通过检测与选择的场景中的人相对应的文本数据并选择与选择的场景相对应的一些帧来创建内容的编辑信息的方法的流程图；

图15是示出根据本公开的各种实施例的内容编辑装置选择包括在选择的场景中的多个帧中的一个的示例的示图；

图16是示出根据本公开的各种实施例的内容编辑装置根据编辑内容的类型获取模板并使用所获取的模板创建编辑内容的方法的流程图；

图17是示出根据本公开的各种实施例的内容编辑装置创建编辑内容使用的模板的布局的示例的示图；

图18是示出根据本公开的各种实施例的内容编辑装置处理要插入到模板中的图像并将处理的图像插入到模板中的示例的示图；

图19和图20是示出根据本公开的各种实施例的内容编辑装置是用户设备时的内容编辑装置的框图；以及

图21是示出根据本公开的各种实施例的内容编辑装置是服务器时的内容编辑装置的框图。

在整个附图中，相同的附图标记将被理解为是指相同的部件、组件和结构。

具体实施方式

根据本公开的一方面，提供一种用于编辑运动图像内容的内容编辑装置的方法。所述方法包括：获取运动图像内容；映射包括在运动图像内容中的人的图像和人的语音数据；选择包括在运动图像内容中的帧中的至少一个帧；以及使用映射的图像和语音数据和选择的至少一个帧创建运动图像内容的编辑内容。

映射包括在运动图像内容中的人的图像和人的语音数据可以包括：对每个人的运动图像内容中的人的面部图像进行分类；以及将分类的面部图像映射到人的语音数据。

语音数据可以包括人的声音数据和从声音数据转换的文本数据中的至少一个。

选择包括在运动图像内容中的帧中的至少一个帧可以包括：使用运动图像内容中的声音数据确定运动图像内容的场景中的至少一个场景；以及选择包括在确定的场景中的帧中的至少一个帧。

确定运动图像内容的场景中的至少一个场景可以包括：基于运动图像内容中的声音数据的声音等级变化和声音频率变化来确定场景中的至少一个场景。

确定运动图像内容的场景中的至少一个场景可以包括：检测运动图像内容中的预定声音；以及基于检测的声音的位置来确定与满足预定条件的位置相对应的场景。

预定声音可以包括突发声音，与满足预定条件的位置相对应的场景可以是范围在输出突发声音的运动图像内容的部分与沿相反方向间隔特定距离的运动图像内容的另一部分之间的场景。

选择至少一个帧可以包括根据包括在确定的场景中的帧中包含的噪声等级来选择至少一个帧。

选择至少一个帧可以包括基于包括在确定的场景中的帧中包含的人的视线方向、面部方向和面部表情中的至少一个来选择至少一个帧。

创建编辑内容还包括：确定用于创建编辑内容的模板；以及将选择的帧的图像插入确定的模板。

由包括在帧的图像中的人发出的声音转换的文本可以被显示在插入到模板的图像中。

确定模板可以包括确定编辑内容的类型并选择与确定的类型相对应的模板，以及可以根据编辑内容的类型来处理插入到模板中的图像。

根据本公开的另一方面，提供一种用于编辑运动图像内容的内容编辑装置。所述内容编辑装置包括：存储单元，被配置为映射和存储包括在运动图像内容中的人的图像和人的语音数据；以及控制器，被配置为：选择包括在运动图像内容中的帧中的至少一个帧，以及使用映射的图像和语音数据以及选择的至少一个帧来创建运动图像内容的编辑内容。

控制器可以对每个人的运动图像内容中的人的面部图像进行分类，并且可以在存储单元中映射并存储分类的人的面部图像和语音数据。

控制器可以使用运动图像内容中的声音数据来确定运动图像内容的场景中的至少一个场景，并且可以选择包括在确定的场景中的帧中的至少一个帧。

控制器可以基于运动图像内容中的声音数据的声音等级变化和声音频率变化来确定场景中的至少一个场景。

控制器可以检测运动图像内容中的预定声音，并且可以基于检测的声音的位置来确定与满足预定条件的位置相对应的场景。

预定声音可以包括突发声音，并且与满足预定条件的位置相对应的场景可以是范围在输出突发声音的运动图像内容的部分与沿相反方向间隔特定距离的运动图像内容的另一部分之间的场景。

控制器可以根据包括在确定的场景中的帧中包含的噪声等级来选择至少一个帧。

控制器可以基于包括在确定的场景中的帧中保护的人的视线方向、面部方向和面部表情中的至少一个来选择至少一个帧。

控制器可以确定用于创建编辑内容的模板，并且可以将选择的帧的图像插入确定的模板。

控制器可以确定编辑内容的类型并且可以选择与确定的类型相对应的模板，以及可以根据编辑内容的类型来处理插入到模板中的图像。

根据本公开的另一方面，提供一种非临时性计算机可读记录介质。非临时性计算机可读记录介质存储用于通过处理器执行上述方法的计算机程序。

根据以下结合附图公开了本公开的各种实施例的详细描述，本公开的其它方面、优点和显着特征对于本领域技术人员将变得显而易见。

提供了参照附图的以下描述以帮助全面了解由权利要求及其等同物限定的本公开的各种实施例。它包括各种具体的细节来帮助理解，但这些细节仅被视为是示例性的。因此，本领域普通技术人员将认识到，在不脱离本公开的范围和精神的情况下，可以对本文所述的各种实施例进行各种改变和修改。此外，为了清楚和简明，可以省略对公知功能和结构的描述。

以下说明书和权利要求中使用的术语和词语不限于书面含义，而是仅由发明人使用以使得能够清楚且一致地理解本公开内容。因此，本领域技术人员应当明白，本公开的各种实施例的以下描述仅用于说明的目的，而不是为了限制由所附权利要求及其等同物限定的本公开的目的。

可以理解，除非另有明确规定，单数形式“一”，“一个”和“该”包括复数指代。因此，例如，提及“组件表面”包括对这些表面中的一个或多个的引用。

在本公开中，当将一个部分(或元件、设备等)称为“连接”到另一部分(或元件、设备等)时，应当理解，前者可以“直接连接”到后者或者通过中间部分(或元件、设备等)“电连接到”后者。此外，当将一个部分被称为“包括(或包含或具有)”其他元件时，应当理解，它可以仅包括(或包含或具有)那些元件，或者如果没有具体限制，它可以包括(或包含或具有)其它元件以及那些元件。

在本公开中，术语“编辑内容”可以表示通过编辑主要内容而创建的次要内容。例如，编辑内容可以是通过总结主要内容的细节而创建的次要内容。例如，内容编辑装置可以通过提取运动图像内容的部分并使用该部分来总结运动图像内容的细节来创建编辑内容。例如，内容编辑装置可以通过处理运动图像内容的部分或者将新数据添加到运动图像内容的部分来创建编辑内容。然而，本公开的实施例不限于此。

在下文中，将参照附图详细描述本公开的实施例。

图1是示出根据本公开的各种实施例的内容编辑装置1000创建运动图像内容的编辑内容12的方法的示意图。

参照图1，内容编辑装置1000可以通过组合表示运动图像内容10的特定场景的图像并且在图像上显示表示图像中的人之间的对话的文本来创建运动图像内容10的编辑信息11。运动图像内容10的编辑信息11是通过编辑运动图像内容10创建的信息，并且例如可以通过总结运动图像内容的细节来创建，但不限于此。

内容编辑装置1000可以创建包括表示从运动图像内容10的场景中选择的场景的图像和包括在图像中的人的语音数据的编辑内容12，并且可以使用所创建的图像和语音数据来创建运动图像内容10的编辑信息11。语音数据可以包括由人发出的声音数据和从声音数据转换的文本数据中的至少一个。此外，语音数据可以包括与声音数据和文本数据相对应的播放位置信息。播放位置信息可以指示例如在运动图像内容10的整个播放时间中播放与声音数据和文本数据相对应的帧的播放时间。

为了创建编辑内容12，内容编辑装置1000可以通过在运动图像内容10中将面部图像按人分类来创建面部图像数据库(DB)，并且可以通过对与人发出的声音相关联的语音数据进行分类来创建语音DB。此外，内容编辑装置1000可以将面部图像DB中的面部图像和语音DB中的语音数据进行映射。

内容编辑装置1000可以包括用于执行图像处理的所有设备。内容编辑装置1000的示例可以是设备或服务器。设备可以包括但不限于智能电话、平板电脑(PC)、PC、智能电视(TV)、蜂窝电话、个人数字助理(PDA)、膝上型计算机、媒体播放器、微型服务器、全球定位系统(GPS)设、电子书终端、数字广播终端、导航、信息亭、运动图像专家组阶段1或阶段2(MPEG-1或MPEG-2)声音层3(MP3)播放器、数码相机、家用电器以及另一移动或非移动计算设备。此外，设备可以是包括通信功能和数据处理功能的可穿戴设备，诸如手表、眼镜、发带以及环。此外，服务可以是提供特定服务的服务提供商的服务器。服务的示例可以包括使用运动图像数据的服务，诸如广播服务、内容共享服务、内容提供服务、游戏提供服务、聊天服务、搜索服务、呼叫服务、照片拍摄服务以及运动图像播放服务。然而，本公开的实施例不限于此。

图2是示出根据本公开的各种实施例的内容编辑装置1000响应于来自设备2000的请求向设备2000提供编辑内容12的示例的示图。

参照图2，内容编辑装置1000可以通过网络与设备2000通信地连接。内容编辑装置1000可以从设备2000接收对运动图像内容10的编辑信息11的请求，并且可以创建所请求的运动图像内容10的编辑内容12，并将所创建的编辑内容12提供给设备2000。在向内容编辑装置1000发送运动图像内容10的识别值，或者向内容编辑装置1000发送运动图像内容10时，设备2000可以从内容编辑装置1000请求运动图像内容10的编辑内容12。在这种情况下，设备2000可以请求内容编辑装置1000根据用户输入提供编辑内容12。

此外，内容编辑装置1000可以从设备2000接收用于创建编辑内容12的信息，诸如运动图像内容10中的场景选择和编辑内容12的类型选择，并且可以根据接收的信息创建编辑内容12。

此外，内容编辑装置1000可以将创建的编辑内容12存储在与设备2000的用户的帐户相对应的DB中，并且可以将存储在DB中的编辑内容12提供给设备2000。

图3是示出根据本公开的各种实施例的内容编辑装置1000创建编辑内容的方法的流程图。

参照图3，在操作S300中，内容编辑装置1000可以获取运动图像内容。运动图像内容可以是存储在内容编辑装置1000中的内容。存储在内容编辑装置1000中的内容可以是内容编辑装置1000从外部接收的内容或由内容编辑装置1000产生的内容。另外，运动图像内容可以是从内容编辑装置1000或一个用户设备(未示出)上传到外部服务器(例如，云服务器)或其他用户设备(未示出)的内容。运动图像内容可以由外部服务器再现的内容。

内容编辑装置1000可以提取存储在内容编辑装置1000中的运动图像内容。内容编辑装置1000可以从设备2000或外部服务器接收存储在设备2000或外部服务器中的运动图像内容。

在操作S310中，内容编辑装置1000可以将包括在运动图像内容中的人的图像和人的语音数据映射。内容编辑装置1000可以从运动图像内容的帧中提取包括在运动图像内容中的人的面部图像。内容编辑装置1000可以使用内容编辑装置中的媒体数据格式转换器来从运动图像内容创建图像，并且可以识别所创建的图像中的人的面部并提取人的面部图像。内容编辑装置1000可以按人对所提取的面部图像进行分类。

此外，内容编辑装置1000可以从运动图像内容提取关于运动图像内容中包括的人的语音的声音数据，并且将提取的声音数据转换为文本数据。内容编辑装置1000可以使用内容编辑装置1000中的媒体数据提取器(未示出)来从运动图像内容提取声音数据。此外，内容编辑装置1000可以将提取的声音数据转换为文本数据。语音数据可以包括提取的声音数据和转换的文本数据中的至少一个。内容编辑装置1000可以按说话者对语音数据进行分类。

此外，内容编辑装置1000可以对分类的面部图像和分类的语音数据进行映射。内容编辑装置1000可以映射特定人的图像和语音数据。内容编辑装置1000可以在存储在面部图像DB中的面部图像和存储在语音DB中的语音数据之中相互映射或分组被确定为属于同一人的面部图像和语音数据。

此外，内容编辑装置1000可以通过分析人的图像来确定人的面部表情，并且可以通过分析声音数据和从声音数据转换的文本来确定人的语音的细节(含义)。

在操作S320中，内容编辑装置1000可以从包括在运动图像内容中的帧中选择至少一个帧。内容编辑装置1000可以从包括在运动图像内容中的场景中选择要用于创建编辑内容的场景。内容编辑装置1000可以根据预定准则从与选择的场景相对应的帧中选择至少一个帧。

在操作S330中，内容编辑装置1000可以使用选择的帧来创建运动图像内容的编辑内容。内容编辑装置1000可以获取编辑内容的模板，并且可以通过将选择的帧的图像插入到模板中来创建编辑内容。此外，内容编辑装置1000可以基于选择的帧的图像中的人的面部图像从DB提取选择的帧的图像中的人的语音数据。此外，内容编辑装置1000可以使用提取的语音数据将表示人发出的内容的文本插入到选择的帧的图像中的人的附近。

图4是示出根据本公开的各种实施例的内容编辑装置1000映射面部图像和语音数据的方法的流程图。

参照图4，在操作S400中，内容编辑装置1000可以创建关于运动图像内容中的人的面部图像DB。内容编辑装置1000可以从运动图像内容获取面部图像，并且提取获取的面部图像的特征值。此外，内容编辑装置1000可以基于提取的特征值，通过对每个人的面部图像进行分组来创建面部图像DB。

在操作S410中，内容编辑装置1000可以创建关于运动图像内容中的说话者的语音DB。内容编辑装置1000可以从运动图像内容收集声音数据，并提取收集的声音数据的特征值。此外，内容编辑装置1000可以基于提取的特征值对每个说话者的声音数据进行分组。内容编辑装置1000可以将声音数据转换为文本并将文本映射到声音数据。内容编辑装置1000可以通过对包括每个说话者的声音数据和文本数据中的至少一个的语音数据进行分类和存储来创建语音DB。

在操作S420中，内容编辑装置1000可以映射面部图像和语音数据。内容编辑装置1000可以对人的面部图像和说话者的语音数据进行映射。人和说话者可能是同一人。因此，可以将确定为属于同一人的面部图像和语音数据彼此映射。内容编辑装置1000可以通过映射被确定为属于同一人的面部图像和语音数据来创建映射表。

此外，如果运动图像内容中的人是名人，则为了增强人脸识别功能，内容编辑装置1000可以将从各种服务服务器(未示出)提供的人的图像映射到面部图像DB。

内容编辑装置1000可以确定与人的面部图像和语音数据相对应的情绪状态。内容编辑装置1000可以通过分析人的面部图像和对应于面部图像的语音数据来确定与人的面部图像和语音数据相对应的情绪状态。例如，内容编辑装置1000可以通过分析人的面部表情，人的语音的意义以及人的声音的等级和频率来确定人的情绪。此外，内容编辑装置1000可以映射和存储指示确定的情绪以及人的面部图像和语音数据的信息。

图5是示出根据本公开的各种实施例的创建面部图像DB的方法的流程图。

参照图5，在操作S500中，内容编辑装置1000可以获取运动图像内容中的图像数据。内容编辑装置1000可以从包括在运动图像内容中的帧中获取图像数据。例如，内容编辑装置1000可以通过提取包括在运动图像内容中的帧中包含的图像数据来获取图像数据。此外，内容编辑装置1000可以通过使用包括在运动图像内容中的帧来获取图像数据，以捕获显示在内容编辑装置1000的屏幕上的图像。当内容编辑装置1000捕获图像时，内容编辑装置1000可以是包括显示器的装置。然而，内容编辑装置1000获取图像数据的方法不限于此。

在操作S510中，内容编辑装置1000可以从图像数据获取人的面部图像。内容编辑装置1000可以使用图像数据来获取运动图像内容中的人的面部图像。例如，内容编辑装置1000可以通过从图像数据提取具有面部属性的图像数据来获取每个面部图像。例如，内容编辑装置1000可以通过人脸识别从图像数据中切割出面部图像来获取面部图像。然而，本公开的实施例不限于此。面部图像可以是表示一个人的面部的图像。

在操作S520中，内容编辑装置1000可以从面部图像中提取特征值。面部图像的特征值是表示面部图像的特征的值，例如，可以表示诸如包括在面部图像中的对象的形状、颜色和大小的特征。此外，例如，内容编辑装置1000可以提取关于包括在面部图像中的对象之间的位置和空间的特征值。包括在面部图像中的对象可以包括例如头部、头发、眼睛、鼻子、嘴和耳朵。另外，特征值可以是例如特征向量值。然而，本公开的实施例不限于此。

在操作S530中，内容编辑装置1000可以基于特征值对面部图像进行分类。内容编辑装置1000可以通过对具有相似特征值的面部图像进行分组来对面部图像进行分类。内容编辑装置1000可以通过比较面部图像的特征值来将被确定为表示同一人的面部的图像的面部图像分组。特征值以及特征值之间的相似度可以被预先确定为内容编辑装置1000用于确定面部图像表示同一人的面部的准则。

在操作S540中，内容编辑装置1000可以创建关于运动图像内容中的人的面部图像DB。内容编辑装置1000可以通过存储每个人的面部图像来创建面部图像DB。面部图像DB不仅可以包括面部图像，而且可以包括面部图像的特征值，但不限于此。面部图像DB还可以包括关于包括面部图像的帧的播放位置的信息。

图6是示出根据本公开的各种实施例的创建语音DB的方法的流程图。

参照图6，在操作S600中，内容编辑装置1000可以获取运动图像内容中的声音数据。内容编辑装置1000可以从包括在运动图像内容中的帧中获取声音数据。例如，内容编辑装置1000可以通过提取包括在运动图像内容中的帧中包含的声音数据来获取声音数据。

在操作S610中，内容编辑装置1000可以从声音数据中提取特征值。例如，内容编辑装置1000可以提取声音数据的特征值。声音数据的特征值指示声音数据的特征，例如可以包括诸如声音的幅度、频率和音调的特征。另外，特征值可以是例如特征向量值。然而，本公开的实施例不限于此。

在操作S620中，内容编辑装置1000可以基于特征值对声音数据进行分类。内容编辑装置1000可以通过对具有相似特征值的声音数据进行分组来对声音数据进行分类。内容编辑装置1000可以通过比较声音数据的特征值来将被确定为同一说话者的声音数据的声音数据分组。特征值以及特征值之间的相似度可以被预先确定为内容编辑装置1000用于确定声音数据表示同一人的声音的准则。

在操作S630中，内容编辑装置1000可以通过将声音数据转换为文本来生成文本数据。内容编辑装置1000可以使用语音对文本(STT)技术将声音数据转换为文本。

在操作S640中，内容编辑装置1000可以创建关于运动图像内容中的说话者的语音DB。内容编辑装置1000可以通过存储每个人的声音数据和文本数据中的至少一个来创建语音DB。语音DB不仅可以包括声音数据和文本数据，而且可以包括声音数据的特征值，但不限于此。此外，语音DB可以包括关于与声音数据和文本数据相对应的帧的播放位置的信息。

图7是示出根据本公开的各种实施例的将从运动图像内容创建的面部图像映射到语音数据的示例的示图。

参照图7，人A的面部图像、人B的面部图像、人C的面部图像可以被分类并存储在面部图像DB中。此外，说话者A的声音数据和文本数据、说话者B的声音数据和文本数据以及说话者C的声音数据和文本数据可以被分类并存储在语音DB中。

此外，人A可以被映射到说话者A，人B可以被映射到说话者B，并且人C可以被映射到说话者C。另外，人A和说话者A可以是同一人，人B和说话者B可以是同一人，而人C和说话者C可以是同一人。

图8是示出根据本公开的各种实施例的面部图像和声音数据彼此映射的示例的示图。

参照图8，内容编辑装置1000可以从包括在运动图像内容的第一场景80中的帧82提取面部图像84。此外，内容编辑装置1000可以提取在第一场景80中输出的声音数据86。内容编辑装置1000可以分析包括在第一场景80中的人A的移动，以便提取声音数据86。例如，内容编辑装置1000可以分析人A的嘴在第一场景80中的移动，并且提取在人A的嘴移动时在第一场景80中输出的声音数据86。

此外，内容编辑装置1000可以将提取的声音数据86映射到提取的面部图像84。另外，内容编辑装置1000可以确定声音数据86的说话者和提取的面部图像84的人A是同一人。

图9是示出根据本公开的各种实施例的内容编辑装置1000选择运动图像内容中的场景并创建编辑内容的方法的流程图。

参照图9，在操作S900中，内容编辑装置1000可以选择运动图像内容中的场景。内容编辑装置1000可以通过分析视频内容的声音来推荐用于创建编辑内容的场景。内容编辑装置1000可以基于声音的等级和频率来分析声音的特征，并且可以推荐包括具有预定特征的声音数据的帧的附近的场景。内容编辑装置1000可以向设备2000提供推荐的场景，或者在内容编辑装置1000的屏幕上显示推荐的场景。此外，内容编辑装置1000可以根据用户的选择来选择推荐场景中的至少一个。因此，内容编辑装置1000可以选择运动图像内容中的突出显示场景。

在操作S910中，内容编辑装置1000可以选择与选择的场景相对应的帧中的至少一个。内容编辑装置1000可以从构成选择的场景的帧中选择包括预定人的帧。此外，内容编辑装置1000可以从构成选择的场景的帧中选择具有小噪声的帧。然而，本公开的实施例不限于此。内容编辑装置1000可以根据各种准则来选择帧。

在操作S920中，内容编辑装置1000可以使用选择的帧来创建编辑内容。内容编辑装置1000可以获取用于创建编辑内容的模板，并且可以将选择的帧的图像插入到获取的模板中。用于创建编辑内容的模板可以根据编辑内容的类型来预先确定。

此外，内容编辑装置1000可以获取选择的帧中由人发出的声音的文本数据。内容编辑装置1000可以提取选择的帧中的人的面部图像，并且可以从语音DB提取与所提取的面部图像相对应的文本数据。

此外，内容编辑装置1000可以将提取的文本数据插入到已插入到模板中的帧的图像上。内容编辑装置1000可以在帧的图像中的人的附近显示语音气泡，并且可以在语音气泡中显示文本数据。

内容编辑装置1000可以基于场景中包括的人的情绪来创建编辑内容。内容编辑装置1000可以通过分析场景中包括的人的表情和语音来确定人的情绪。内容编辑装置1000可以根据人的情绪将预定图像效果分配给要包括在模板中的帧的图像。此外，内容编辑装置1000可以根据人的情绪来确定要在人的附近显示的语音气泡的形状和颜色。此外，内容编辑装置1000可以根据人的情绪来确定要在语音气泡中显示的文本的颜色、字体和大小。

图10是示出根据本公开的各种实施例的创建内容的编辑信息的示例的示意图。

参照图10，图像100是被选择用于创建编辑内容的帧的图像，并且至少一个或多个编辑图像200是通过将文本数据插入图像100而创建的图像。

参照图10，内容编辑装置1000可以提取包括在图像101中的特定人的面部图像102，并将提取的图像102与面部图像DB中的图像进行比较，以识别提取的图像的类别(例如，人A)。此外，内容编辑装置1000可以从语音DB提取映射到所识别的类别的文本数据中映射到与图像101相对应的帧的文本数据103。此外，内容编辑装置1000可以在图像101中提取的面部图像102的附近显示语音气泡，并且可以在语音气泡中显示提取的文本数据103。

图11是示出根据本公开的各种实施例的内容编辑装置1000推荐和选择要用于创建编辑内容的场景的方法的流程图。

参照图11，在操作S1100中，内容编辑装置1000可以测量从运动图像内容获取的声音信号的声音等级变化和声音频率变化。声音信号的声音等级可以是声音信号的幅度。

在操作S1110中，内容编辑装置1000可以基于声音等级变化和声音频率变化推荐运动图像中的特定场景。内容编辑装置1000可以根据声音等级变化和/或声音频率变化是否大于预定值(或多个)来推荐运动图像中的特定场景。

内容编辑装置1000可以确定声音等级变化的标准偏差大于预定值的声音信号的部分。在这种情况下，内容编辑装置1000可以推荐包括声音等级变化的标准偏差大于预定值的声音信号的部分的场景。

此外，内容编辑装置1000可以确定声音频率变化的标准偏差大于预定值的声音信号的部分。在这种情况下，内容编辑装置1000可以推荐包括声音等级变化的标准偏差大于预定值的声音信号的部分的场景。

然而，本公开的实施例不限于此。内容编辑装置1000可以基于声音等级变化和声音频率变化根据各种准则来推荐场景。

在操作S1120中，内容编辑装置1000可以检测运动图像内容中的预定声音。当声音等级变化和声音频率变化小于预定值时，内容编辑装置1000可以检测运动图像内容中的预定声音。例如，内容编辑装置1000可以从自运动图像内容获取的声音信号检测与笑声相对应的部分。例如，内容编辑装置1000可以通过将笑声的预定特征值和从运动图像内容获取的声音信号的特征值进行比较来检测与来自声音信号的发笑者相对应的部分。然而，本公开的实施例不限于此。

在操作S1130中，内容编辑装置1000可以基于检测的声音的位置来推荐与满足预定条件的位置相对应的场景。例如，内容编辑装置1000可以推荐包括与笑声相对应的声音信号的部分的场景和/或包括与笑声相对应的部分之前的预定部分的场景。

在操作S1140中，内容编辑装置1000可以根据用户输入选择推荐场景中的至少一个。当内容编辑装置1000是用户设备时，内容编辑装置1000可以在内容编辑装置1000的屏幕上显示表示推荐场景的运动图像或静止图像，并且可以基于到内容编辑装置1000的用户选择输入来选择推荐场景的一部分。

可选地，当内容编辑装置1000是与用户设备2000连接的服务器时，内容编辑装置1000可以向用户设备2000发送关于运动图像内容中的推荐场景的位置信息、表示推荐场景的运动图像和表示推荐场景的静止图像中的至少一个。此外，用户设备2000可以在设备2000的屏幕上显示从内容编辑装置1000推荐的场景，并且可以接收选择推荐场景的一些的用户选择输入。用户设备2000可以根据用户选择输入来选择推荐场景的一些，并且可以向内容编辑装置1000提供选择的推荐场景的标识值。

图12是示出根据本公开的各种实施例的内容编辑装置1000基于从运动图像内容获取的声音信号的声音等级变化和声音频率变化来确定推荐场景的示例的示图。

参照图12，内容编辑装置1000可以从声音信号中选择部分120，并且可以基于从其中声音信号的幅度变化和频率变化较大的运动图像内容获取的声音信号的一部分来推荐与选择的部分120相对应的运动图像内容的场景。

例如，频率变化较大的声音信号的部分可以是多个声音汇聚的部分。此外，例如，幅度变化较大的声音信号的部分可以是声音的等级变化较大的部分。

因此，内容编辑装置1000可以通过从声音信号中选择大频率变化和幅度变化的部分来推荐几个声音汇聚以产生大声的场景。此外，几个声音汇聚以产生大声的场景很可能是运动图像内容的突出显示的场景。

图13是示出根据本公开的各种实施例的内容编辑装置1000通过检测预定声音来确定推荐场景的示例的流程图。

参照图13，内容编辑装置1000可以从自运动图像内容获取的声音信号检测与笑声相对应的部分130。内容编辑装置1000可以通过将笑声的特征值与声音信号的特征值进行比较来检测与来自语音信号的发笑者相对应的部分130。

此外，内容编辑装置1000可以选择范围从与笑声相对应的部分130到沿相反方向的预定位置的部分132，并且可以将与选择的部分132相对应的场景确定为推荐场景。例如，内容编辑装置1000可以确定相对于与笑声相对应的部分130位于相反方向的对话开始的点，并且可以选择从确定的点开始且包括与笑声相对应的部分130的部分132。

内容编辑装置1000已经被描述为检测与图13中的笑声相对应的部分，但不限于此。例如，内容编辑装置1000可以检测诸如尖叫声、爆炸声或雷声的突发声音。

图14是示出根据本公开的各种实施例的内容编辑装置1000通过检测与选择的场景中的人相对应的文本数据并选择与选择的场景相对应的一些帧来创建内容的编辑信息的方法的流程图。

参照图14，在操作S1400中，内容编辑装置1000可以识别选择的场景中的人。内容编辑装置1000可以从运动图像内容获取包括在选择的场景中的帧，并且可以识别包括在所获取的帧的图像中的人。内容编辑装置1000可以从获取的帧的图像中提取人的面部图像。例如，内容编辑装置1000可以使用人脸识别技术来识别获取的帧的图像中的人的面部，并且可以从获取的帧的图像中切割识别的面部的图像。

在操作S1410中，内容编辑装置1000可以检测与选择的场景和识别的人相对应的文本数据。内容编辑装置1000可以确定与在操作S1400中获取的面部图像相对应的人。内容编辑装置1000可以确定与在操作S1400中获取的面部图像相同或相似的面部图像的人。内容编辑装置1000可以通过将在操作S1400中获取的面部图像与包括在面部图像DB中的面部图像进行比较来确定与获取的面部图像相对应的人。

此外，内容编辑装置1000可以提取与选择的场景和确定的人对应的文本数据。内容编辑装置1000可以从语音DB检测与包括在操作S1400中获取的面部图像的帧的播放位置相对应的文本数据。内容编辑装置1000可以检测在包括面部图像的帧的播放位置与从运动图像内容输出的语音数据相对应的文本数据。

在操作S1420中，内容编辑装置1000可以从与选择的场景相对应的帧中选择至少一个帧。内容编辑装置1000可以从构成选择的场景的帧中选择具有小噪声的帧。内容编辑装置1000可以确定构成选择的场景的帧的每个图像中包括多少噪声。内容编辑装置1000可以基于确定的结果来选择具有小于预定值的噪声的帧。

此外，内容编辑装置1000考虑到人的面部方向、视线、表情和嘴形状，可以选择与选择的场景相对应的帧中的至少一个。例如，内容编辑装置1000可以在帧中的人面向前、人正在向前看或者人的嘴是张开时选择对应的帧。然而，本公开的实施例不限于此。内容编辑装置1000可以根据各种准则来选择帧。

在操作S1430中，内容编辑装置1000可以使用检测到的文本数据和选择的帧来创建内容的编辑信息。内容编辑装置1000可以选择用于创建内容的编辑信息的模板。内容编辑装置1000可以将在操作S1420中选择的帧的图像的全部或部分插入到选择的模板中。此外，内容编辑装置1000可以将包括文本数据的语音气泡插入到选择的帧的图像中。

图15是示出根据本公开的各种实施例的内容编辑装置1000选择包括在选择的场景中的多个帧中的一个的示例的示图。

例如，参照图15，内容编辑装置1000可以从构成场景的帧150、152、154和156中选择具有小噪声并且表示清晰图像的帧156。可选地，例如，内容编辑装置1000可以从构成场景的帧150、152、154和156中选择包括帧中的人面向前并且人正在向前看的图像的帧156。

图16是示出根据本公开的各种实施例的内容编辑装置1000根据编辑内容的类型获取模板并使用所获取的模板创建编辑内容的方法的流程图。

参照图16，在操作S1600中，内容编辑装置1000可以确定编辑内容的类型。编辑内容的类型可以包括例如卡通类型内容、相册类型内容和缩略图类型内容。然而，本公开的实施例不限于此。

内容编辑装置1000可以根据用于选择编辑内容的类型的用户输入来确定编辑内容的类型。当内容编辑装置1000是用户设备时，内容编辑装置1000可以在内容编辑装置1000的屏幕上显示用于选择编辑内容的类型的用户界面(UI)，并且可以基于通过显示的UI接收的用户选择输入来选择编辑内容的类型。

可选地，当内容编辑装置1000是与用户装置2000连接的服务器时，内容编辑装置1000可以向用户设备2000发送用于选择编辑内容的类型的UI。此外，用户设备2000可以在设备2000的屏幕上显示用于选择从内容编辑装置1000接收的编辑内容的类型的UI，并且接收用于选择编辑内容的类型的用户选择输入。用户设备2000可以根据用户选择输入来选择编辑内容的类型，并且可以向内容编辑装置1000提供选择的编辑内容的类型的标识值。

在操作S1610中，内容编辑装置1000可以获取要用于创建编辑内容的模板。根据编辑内容的类型的模板可以被预先确定并存储在内容编辑装置1000中。然而，本公开的实施例不限于此。内容编辑装置1000可以从外部接收与编辑内容的类型相对应的模板。用于创建编辑内容的模板可以根据编辑内容的类型具有不同的布局。内容编辑装置1000可以通过组合多个模板来创建要用于创建编辑内容的布局。例如，内容编辑装置1000可以通过将一个模板插入另一个模板来创建布局。此外，模板可以具有可扩展格式，并且用户可以通过编辑至少一个模板来创建期望的布局。

在操作S1620中，内容编辑装置1000可以处理选择的帧的图像。内容编辑装置1000可以根据编辑内容的类型改变帧的图像的大小，改变帧的图像的分辨率或者将预定的图像效果分配给帧的图像。例如，当编辑内容是卡通时，内容编辑装置1000可以对要插入到模板中的图像分配特定效果或者改变要插入到模板中的图像的大小。可选地，例如，当编辑内容是缩略图时，内容编辑装置1000可以改变要插入到模板中的图像的大小和分辨率。可选地，例如，当编辑内容是相册时，内容编辑装置1000可以改变要插入到模板中的图像的大小。然而，本公开的实施例不限于此。

此外，内容编辑装置1000可以将预定的滤波效果应用到帧的图像。例如，滤波器可以包括向图像分配卡通效果的滤波器，使图像清晰的滤波器，使图像模糊的滤波器，改变图像的颜色的滤波器，改变图像的色度的滤波器等，但不限于此。内容编辑装置1000可以通过将预定的动态数据与帧的图像组合来向编辑内容添加预定功能。然而，本公开的实施例不限于此。

在操作S1630中，内容编辑装置1000可以将所处理的图像插入到获取的模板中。内容编辑装置1000可以将处理的图像插入与处理的图像相对应的模板的插入位置。将图像插入到模板可以指将图像插入形成为模板的布局。

在操作S1640中，内容编辑装置1000可以将语音气泡和文本数据插入到处理的图像中。内容编辑装置1000可以将语音气泡插入处理的图像中的人的附近。内容编辑装置1000可以从处理的图像中的人周围的区域中确定要显示语音气泡的区域。考虑到表示人的语音的文本中的字符数，内容编辑装置1000可以从人周围的区域中确定要显示语音气泡的区域。内容编辑装置1000可以将语音气泡插入到确定的区域中。此外，内容编辑装置1000可以将表示人的语音的文本插入到语音气泡中。

在图16中内容编辑装置1000被描述为将图像插入到模板中，然后将语音气泡和文本插入到图像中。然而，将语音气泡和文本插入到图像中的时间不限于此。内容编辑装置1000可以在将语音气泡和/或文本插入图像之后将图像插入到模板中。

在图16中内容编辑装置1000已经被描述为将图像插入到模板中，但不限于此。内容编辑装置1000可以将表示预定场景的运动图像插入到模板中。在这种情况下，内容编辑装置1000可以创建包括构成预定场景的帧的运动图像，并且可以将创建的运动图像插入到模板中。此外，内容编辑装置1000可以将表示人的语音的文本插入到运动图像中。此外，内容编辑装置1000可以将静止图像和运动图像一起插入到模板中。此外，内容编辑装置1000可以组合多个图像并创建运动图像，使得组合的图像被顺序地显示，就像幻灯片显示那样，以将运动图像插入到模板中。

图17是示出根据本公开的各种实施例的内容编辑装置1000创建编辑内容使用的模板的布局的示例的示图。

参照图17，可以根据编辑内容的类型来预先确定具有特定布局的模板。可以根据编辑内容的类型来预定至少一个模板，并且内容编辑装置1000可以根据编辑内容的类型使用不同的模板来创建编辑内容。

图18是示出根据本公开的各种实施例的内容编辑装置1000处理要插入到模板中的图像并将处理的图像插入到模板中的示例的示图。

参照图18，内容编辑装置1000可以通过对要插入模板的图像180分配预定的图像效果来创建图像182。此外，内容编辑装置1000可以将分配有图像效果的图像182插入到模板中。

图19和图20是示出根据本公开的各种实施例的内容编辑装置1000是用户设备时的内容编辑装置1000的框图。

参照图19，当内容编辑装置1000是用户设备时，根据本公开的各种实施例的内容编辑装置1000可以包括用户输入单元1100、输出单元1200、控制器1300和通信器(例如，通信接口)1500。然而，并不是图19所示的所有元件对内容编辑装置1000都是必要的。内容编辑装置1000可以用比图19所示的更多的元素来实现，或者可以用比图19所示的元件更少的元件来实现。

例如，参照图20，除了用户输入单元1100、输出单元1200、控制器1300和通信器1500之外，根据本公开的各种实施例的内容编辑装置1000还可以包括感测单元1400、音频/视频(A/V)输入单元1600和存储器1700。另外，存储器1700可以是DB。

用户输入单元1100表示用户输入用于控制内容编辑装置1000的数据的单元。例如，用户输入单元1100可以包括但不限于键盘、圆顶开关、触摸板(接触电容型、耐压型、红外线感测型、表面超声波传导型、积分张力测量型、压电效应型等)、滚轮、点动开关等。

用户输入单元1100可以接收用于创建编辑内容的用户输入。例如，用户输入单元1100可以接收用于选择推荐场景中的至少一个的用户输入、用于选择场景中包括的帧中的至少一个的用户输入或用于选择编辑内容的类型的用户输入，但是不限于此。

输出单元1200可以输出音频信号、视频信号和/或振动信号。输出单元1200可以包括显示单元1210、声音输出单元1220和振动马达1230。

显示单元1210显示并输出在内容编辑装置1000中处理的信息。例如，显示单元1210可以显示用于创建编辑内容的UI。可以使用用于创建编辑内容的UI，例如来选择至少一个推荐场景、选择场景中包括的帧中的至少一个以及选择编辑内容的类型。

当显示单元1210和触摸板形成分层结构并因此被实现为触摸屏时，除了输出设备之外，显示单元1210可以被用作输入设备。显示单元1210可以包括液晶显示器(LCD)、薄膜晶体管LCD(TFT-LCD)、有机发光二极管(OLED)显示器、柔性显示器、三维(3D)显示器以及电泳显示器中的至少一个。根据内容编辑装置1000的实现，内容编辑装置1000可以包括两个或更多个显示单元1210。在这种情况下，两个或更多个显示单元1210可以被布置为使用铰链彼此面对。

声音输出单元1220输出从通信器1500接收或存储在存储器1700中的音频数据。声音输出单元1220可以输出与内容编辑装置1000执行的功能相关的声学信号(例如，呼叫信号接收声音、消息接收声音或报警声音)。声音输出单元1220可以包括说话者、蜂鸣器等

振动马达1230可以输出振动信号。例如，振动马达1230可以输出与音频数据或视频数据的输出相对应的振动信号(例如，呼叫信号接收声音、消息接收声音等)。此外，当触摸被输入到触摸屏时，振动马达1230可以输出振动信号。

控制器1300通常控制内容编辑装置1000的总体操作。例如，控制器1300可以通过执行存储在存储器1700中的程序来控制用户输入单元1100、输出单元1200、感测单元1400、通信器1500、A/V输入单元1600等的总体操作。

此外，控制器1300可以通过执行图1至图18中的内容编辑装置1000的功能来构建关于运动图像内容中的人的图像和语音数据的DB并创建运动图像内容的编辑内容。

详细地，控制器1300可以获取运动图像内容。控制器1300可以提取存储在内容编辑装置1000中的运动图像内容。控制器1300可以从设备2000或外部服务器接收存储在设备2000或外部服务器中的运动图像内容。

控制器1300可以映射包括在运动图像内容中的人的图像和语音数据。控制器1300可以从运动图像内容的帧中提取包括在运动图像内容中的人的面部图像。控制器1300可以按人将提取的面部图像进行分类。

此外，控制器1300可以从运动图像内容中提取关于包括在运动图像内容中的人的语音的声音数据，并将提取的声音数据转换为文本数据。语音数据可以包括提取的声音数据和转换的文本数据中的至少一个。控制器1300可以按说话者对语音数据进行分类。

控制器1300可以创建关于运动图像内容中的人的面部图像DB。控制器1300可以从运动图像内容获取面部图像并提取所获取的面部图像的特征值。此外，控制器1300可以基于提取的特征值，通过对每个人的面部图像进行分组来创建面部图像DB。

具体地，控制器1300可以获取运动图像内容中的图像数据。控制器1300可以从包括在运动图像内容中的帧获取图像数据。例如，控制器1300可以通过提取包括在运动图像内容中的帧中包含的图像数据来获取图像数据。此外，例如，控制器1300可以通过使用包括在运动图像内容中的帧来获取图像数据，以捕获显示在内容编辑装置1000的屏幕上的图像。控制器1300可以从图像数据获取人的面部图像。控制器1300可以使用图像数据来获取运动图像内容的人的面部图像。例如，控制器1300可以通过从图像数据中提取具有面部属性的图像数据来获取每个面部图像。例如，控制器1300可以通过人脸识别从图像数据中切割面部图像来获取面部图像。然而，本公开的实施例不限于此。面部图像可以是表示一个人的面部的图像。

控制器1300可以从面部图像提取特征值。面部图像的特征值是表示面部图像的特征的值，例如，可以表示包括在面部图像中包括的对象的形状、颜色和大小等特征。此外，例如，控制器1300可以提取关于包括在面部图像中的对象之间的位置和空间的特征值。包括在面部图像中的对象可以包括例如头部、头发、眼睛、鼻子、嘴和耳朵。另外，特征值可以是例如特征向量值。然而，本公开的实施例不限于此。控制器1300可以基于特征值对面部图像进行分类。控制器1300可以通过对具有相似特征值的面部图像进行分组来对面部图像进行分类。控制器1300可以通过比较面部图像的特征值来将被确定为表示同一人的面部的图像的面部图像分组。特征值和特征值之间的相似性可以被预先确定为控制器1300确定面部图像表示同一人的面部的准则。

控制器1300可以创建关于运动图像内容中的人的面部图像DB。控制器1300可以通过存储每个人的面部图像来创建面部图像DB。面部图像DB不仅可以包括面部图像，而且可以包括面部图像的特征值，但不限于此。面部图像DB还可以包括关于包括面部图像的帧的播放位置的信息。

此外，控制器1300可以创建关于运动图像内容中的说话者的语音DB。控制器1300可以从运动图像内容收集声音数据并提取所收集的声音数据的特征值。此外，控制器1300可以基于所提取的特征值来对每个说话者的声音数据进行分组。此外，控制器1300可以将声音数据转换为文本并将文本映射到声音数据。控制器1300可以通过对包括每个说话者的声音数据和文本数据中的至少一个的语音数据进行分类和存储来创建语音DB。

控制器1300可以获取运动图像内容中的声音数据。控制器1300可以从包括在运动图像内容中的帧获取声音数据。例如，控制器1300可以通过提取包括在运动图像内容中的帧中包含的声音数据来获取声音数据。

控制器1300可以从声音数据中提取特征值。例如，控制器1300可以提取声音数据的特征值。声音数据的特征值指示声音数据的特征，并且例如可以包括诸如声音的幅度、频率和音调的特征。另外，特征值可以是例如特征向量值。然而，本公开的实施例不限于此。

控制器1300可以基于特征值对声音数据进行分类。控制器1300可以通过对具有相似特征值的声音数据进行分组来对声音数据进行分类。控制器1300可以通过比较声音数据的特征值来将被确定为同一说话者的声音数据的声音数据分组。特征值和特征值之间的相似性可以被预先确定为控制器1300确定声音数据表示同一人的声音的准则。

控制器1300可以通过将声音数据转换为文本来创建文本数据。控制器1300可以使用语音到文本(STT)技术将声音数据转换成文本。

控制器1300可以创建关于运动图像内容中的说话者的语音DB。控制器1300可以通过存储每个人的声音数据和文本数据中的至少一个来创建语音DB。语音DB不仅可以包括声音数据和文本数据，而且可以包括声音数据的特征值，但不限于此。此外，语音DB可以包括关于与声音数据和文本数据相对应的帧的播放位置的信息。

此外，控制器1300可以对分类的面部图像和分类的语音数据进行映射。控制器1300可以映射特定人的图像和语音数据。

控制器1300可以映射面部图像和语音数据。控制器1300可以映射特定人的面部图像和特定说话者的语音数据。人和说话者可能是同一人。因此，可以将被确定为属于同一人的面部图像和语音数据彼此映射。控制器1300可以通过映射被确定属于同一人的面部图像和语音数据来创建映射表。

此外，如果运动图像内容中的人是名人，则为了增强人脸识别功能，控制器1300可以将从各种服务服务器(未示出)提供的人的图像映射到面部图像DB。

此外，控制器1300可以确定与人的面部图像和语音数据相对应的情绪状态。控制器1300可以通过分析人的面部图像和对应于面部图像的语音数据来确定与人的面部图像和语音数据相对应的情绪状态。例如，控制器1300可以通过分析人的面部表情，人的语音的意义以及人的声音的等级和频率来确定人的情绪。此外，控制器1300可以映射和存储指示确定的情绪以及人的面部图像和语音数据的信息。

控制器1300可以从包括在运动图像内容中的帧之中选择至少一个帧。控制器1300可以从包括在运动图像内容中的场景之中选择要用于创建编辑内容的场景。控制器1300可以根据预定准则从与选择的场景相对应的帧中选择至少一个帧。

控制器1300可以测量从运动图像内容获取的声音信号的声音等级变化和声音频率变化。声音信号的声音等级可以是声音信号的幅度。

控制器1300可以基于声音等级变化和声音频率变化推荐运动图像中的特定场景。单元1300可以根据声音等级变化和/或声音频率变化是否大于预定值(或多个)来推荐运动图像中的特定场景。

控制器1300可以确定声音等级变化的标准偏差大于预定值的声音信号的部分。在这种情况下，控制器1300可以推荐包括声音等级变化的标准偏差大于预定值的声音信号的部分的场景。

控制器1300可以确定声音频率变化的标准偏差大于预定值的声音信号的部分。在这种情况下，控制器1300可以推荐包括声音频率变化的标准偏差大于预定值的声音信号的部分的场景。然而，本公开的实施例不限于此。控制器1300可以基于声音等级变化和声音频率变化根据各种准则来推荐场景。

控制器1300可以检测运动图像内容中的预定声音。当声音等级变化和声音频率变化小于预定值时，控制器1300可以检测运动图像内容中的预定声音。例如，控制器1300可以从自运动图像内容获取的声音信号中检测与发笑者相对应的部分。例如，控制器1300可以通过将笑声的预定特征值和从运动图像内容获取的声音信号的特征值进行比较来检测与来自声音信号的发笑者相对应的部分。然而，本公开的实施例不限于此。

控制器1300可以基于检测的声音的位置来推荐与满足预定条件的位置相对应的场景。例如，控制器1300可以推荐包括与笑声相对应的声音信号的部分的场景和/或包括与笑声相对应的部分之前的预定部分的场景。

控制器1300可以根据用户输入来选择推荐场景中的至少一个。控制器1300可以在内容编辑装置1000的屏幕上显示表示推荐场景的运动图像或静止图像，并且可以基于到内容编辑装置1000的用户选择输入来选择推荐场景的一些。

控制器1300可以识别选择的场景中的人。控制器1300可以从运动图像内容获取包括在选择的场景中的帧，并且可以识别包括在所获取的帧的图像中的人。控制器1300可以从所获取的帧的图像中提取人的面部图像。例如，控制器1300可以使用人脸识别技术来识别所获取的帧的图像中的人的面部，并且可以从所获取的帧的图像中切割识别的面部的图像。

控制器1300可以检测与选择的场景和所识别的人相对应的文本数据。控制器1300可以确定与获取的面部图像相对应的人。控制器1300可以确定具有与所获取的面部图像相同或相似的面部图像的人。控制器1300可以通过将所获取的面部图像与包括在面部图像DB中的面部图像进行比较来确定与所获取的面部图像相对应的人。

控制器1300可以提取与选择的场景和所确定的人相对应的文本数据。控制器1300可以从语音DB中检测与包括所获取的面部图像的帧的播放位置相对应的文本数据。控制器1300可以检测在包括面部图像的帧的播放位置与从运动图像内容输出的声音数据相对应的文本数据。

控制器1300可以从与选择的场景相对应的帧中选择至少一个帧。控制器1300可以从构成选择的场景的帧中选择具有小噪声的帧。控制器1300可以确定构成选择的场景的帧的每个图像中包括多少噪声。控制器1300可以基于确定的结果来选择具有小于预定值的噪声的帧。

此外，控制器1300可以考虑到人的面部方向、视线、表情和嘴形状来选择与选择的场景相对应的帧中的至少一个。例如，控制器1300可以当帧中的人面向前、人正在向前看或者人的嘴是张开时选择对应的帧。然而，本公开的实施例不限于此。控制器1300可以根据各种准则来选择帧。

控制器1300可以使用选择的帧来创建运动图像内容的编辑内容。控制器1300可以获取编辑内容的模板，并且可以通过将选择的帧的图像插入模板来创建编辑内容。此外，控制器1300可以基于选择的帧的图像中的人的面部图像，从DB中提取选择的帧的图像中的人的语音数据。此外，控制器1300可以使用提取的语音数据将表示由选择的帧的图像中的人发出的内容的文本插入到人的附近。

控制器1300可以确定编辑内容的类型。编辑内容的类型可以包括例如卡通类型内容、相册类型内容和缩略图类型内容。然而，本公开的实施例不限于此。

控制器1300可以根据用于选择编辑内容的类型的用户输入来确定编辑内容的类型。控制器1300可以在屏幕上显示用于选择编辑内容的类型的UI，并且可以基于通过显示的UI接收的用户选择输入来选择编辑内容的类型。

控制器1300可以获取用于创建编辑内容的模板。根据编辑内容的类型的模板可以被预先确定并存储在内容编辑装置1000中。然而，本公开的实施例不限于此。控制器1300可以从外部接收与编辑内容的类型相对应的模板。根据编辑内容的类型，用于创建编辑内容的模板可以具有不同的布局。

控制器1300可以处理选择的帧的图像。控制器1300可以根据编辑内容的类型改变帧的图像的大小，改变帧的图像的分辨率或者将预定的图像效果分配给帧的图像。例如，当编辑内容是卡通时，控制器1300可以对要插入到模板中的图像分配特定效果或改变要插入到模板中的图像的大小。可选地，例如，当编辑内容是缩略图时，控制器1300可以改变要插入到模板中的图像的大小和分辨率。可选地，例如，当编辑内容是相册时，控制器1300可以改变要插入到模板中的图像的大小。然而，本公开的实施例不限于此。

此外，控制器1300可以将预定的滤波效果应用到帧的图像。控制器1300可以通过将预定的动态数据组合到帧的图像来向编辑内容添加预定的功能。然而，本公开的实施例不限于此。

控制器1300可以将处理的图像插入获取的模板中。控制器1300可以将处理的图像插入与处理的图像相对应的模板中的插入位置。

控制器1300可以将语音气泡和文本数据插入到处理的图像中。控制器1300可以将语音气泡插入处理后的图像中的人的附近。控制器1300可以从处理的图像中的人周围的区域中确定要显示语音气泡的区域。控制器1300可以考虑到表示人的语音的文本中的字符数，从人周围的区域中确定要显示语音气泡的区域。控制器1300可以将语音气泡插入到确定的区域中。此外，控制器1300可以将表示人的语音的文本插入到语音气泡中。

感测单元1400可以感测内容编辑装置1000的状态或者内容编辑装置1000周围的状态，并且可以将感测的信息传送到控制器1300。

感测单元1400可以包括但不限于磁传感器1410、加速度传感器1420、温度/湿度传感器1430、红外传感器1440、陀螺仪传感器1450、定位传感器1460(例如，GPS传感器)、空气压力传感器1470、接近传感器1480以及红绿蓝(RGB)传感器(照度传感器)1490。每个传感器的功能可以由本领域技术人员从其名称直接推断，因此将省略其详细描述。

通信器1500可以包括用于在内容编辑装置1000和外部之间进行通信的一个或多个元件。例如，通信器1500可以包括短距离无线通信器1510、移动通信器1520和广播接收器1530。

短距离无线通信器1510可以包括但不限于蓝牙通信器、蓝牙低功率(BLE)通信器、近场通信器、无线局域网(WLAN)通信器、ZigBee通信器、红外线数据关联(IrDA)通信器、Wi-Fi直连(WFD)通信器、超宽带(UWB)通信器和ANT+通信器。

移动通信器1520在移动通信网络上向基站、外部终端和服务器中的至少一个发送无线电信号以及在移动通信网络上从基站、外部终端和服务器中的至少一个接收无线电信号。根据文本和/或多媒体消息的发送和/或接收，无线电信号可以包括语音呼叫信号、视频呼叫信号或各种形式的数据。

广播接收器1530通过广播信道从外部接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和地面信道。根据实现方式，内容编辑装置1000可以不包括广播接收器1530。

此外，通信器1500可以向外部设备或外部服务器发送用于创建运动图像内容的编辑内容的信息和从外部设备或外部服务器接收用于创建运动图像内容的编辑内容的信息。

A/V输入单元1600被配置为输入音频或视频信号，并且可以包括相机1610和麦克风1620。相机1610可以在视频呼叫模式或图像捕获模式中通过图像传感器获得静止图像或视频的图像帧。通过图像传感器捕获的图像可以通过控制器1300或单独的图像处理单元(未示出)来处理。

由相机1610处理的画面可以存储在存储器1700中，或者经由通信器1500发送到外部。可以根据终端的配置方面来提供两个或多个相机1610。

麦克风1620接收并处理外部声音信号为电气声音数据。例如，麦克风1620可以从外部设备或扬声器接收声音信号。麦克风1620可以使用各种噪声去除算法来消除在接收外部声学信号时产生的噪声。

存储器1700可以存储用于处理和控制控制器1300的程序，并且还可以存储输入到内容编辑装置1000和从内容编辑装置1000输出的数据。

存储器1700可以包括闪速存储器类型、硬盘类型、多媒体卡微型或卡型存储器(例如，安全数字(SD)或极限数字(xD)存储器)，或者随机存取存储器(RAM)、静态RAM(SRAM)、只读存储器(ROM)、电可擦除可编程ROM(EEPROM)、PROM、磁存储器、磁盘和光盘中的至少一种类型的存储介质。

存储在存储器1700中的程序可以根据程序的功能被分类为多个模块，并且例如可以被分类为UI模块1710、触摸屏模块1720、报警模块1730等。

UI模块1710可以提供对于每个应用与内容编辑装置1000协作的专用UI、图形UI(GUI)等。触摸屏模块1720可以感测触摸屏上的用户的触摸手势并且将关于触摸手势的信息传递到控制器1300。根据本公开的各种实施例的触摸屏模块1720可以识别和分析触摸代码。触摸屏模块1720可以被配置为包括控制器的单独硬件。

为了感测触摸屏上的触摸或接近触摸，可以在触摸屏的内部或附近提供各种传感器。用于感测触摸屏上的触摸的传感器的示例是触觉传感器。触觉传感器表示感测特定对象的做出的人能够感觉的程度的触摸的传感器。触觉传感器可以感测各种信息，诸如被触摸表面的粗糙度、被触摸物体的刚度、触摸点的温度等。

此外，用于感测触摸屏上的触摸的传感器的示例是接近传感器。

接近传感器表示使用电磁力或红外光来检测接近检测表面的对象或检测表面附近的对象而没有任何机械接触的传感器。接近传感器的示例包括透射光电传感器、直接反射光电传感器、镜面反射光电传感器、高频振荡接近传感器、电容接近传感器、磁接近传感器和红外接近传感器。用户的触摸手势的示例可以包括点击、触摸并保持、拖动、平移、轻拂、拖放和滑动。

报警模块1730可以生成用于对在内容编辑装置1000中发生事件进行报警的信号。在内容编辑装置1000中发生的事件的示例可以包括接收呼叫信号、接收消息、输入密钥信号和调度通知。报警模块1730可以通过显示单元1210以视频信号的形式输出报警信号，通过声音输出单元1220输出音频信号形式输出报警信号，以及通过振动马达1230以振动信号的形式输出报警信号。

图21是示出根据本公开的各种实施例的内容编辑装置1000是服务器时的内容编辑装置1000的框图。

参照图21，内容编辑装置1000可以包括通信器(例如，通信接口)1010、DB 1020和控制器1030，并且DB 1020可以包括面部图像DB 1021和语音DB 1022。

通信器1010可以包括用于在内容编辑装置1000与外部之间进行通信的一个或多个元件。例如，通信器1010可以包括短距离无线通信器、移动通信器和广播接收器，但不限于此。短距离无线通信器可以包括但不限于蓝牙通信器、BLE通信器、近场通信器、WLAN通信器、ZigBee通信器、IrDA通信器、WFD通信器、UWB通信器和ANT+通信器。移动通信器在移动通信网络上向基站、外部终端和服务器中的至少一个发送无线电信号和在移动通信网络上从基站、外部终端和服务器中的至少一个接收无线电信号。根据文本和/或多媒体消息的发送和/或接收，无线电信号可以包括语音呼叫信号、视频呼叫信号或各种形式的数据。广播接收器通过广播信道从外部接收广播信号和/或广播相关信息。广播信道可以包括卫星信道和地面信道。

DB 1020可以存储运动图像内容中的人的面部图像和语音数据。

面部图像DB 1021可以存储每个人的运动图像内容中的面部图像。面部图像DB1021不仅可以存储面部图像，而且可以存储面部图像的特征值，但不限于此。此外，面部图像DB 1021可以包括关于包含面部图像的帧的播放位置的信息。

语音DB 1022可以存储运动图像内容中的人的语音数据。语音数据可以包括声音数据和文本数据中的至少一个。语音DB 1022不仅可以包括声音数据和文本数据，而且可以包括声音数据的特征值，但不限于此。此外，语音DB 1022可以包括关于与声音数据和文本数据相对应的帧的播放位置的信息。

DB 1020可以存储分类的面部图像和分类的语音数据的映射值。特定人的图像和语音数据可以被彼此映射，并且DB 1020可以存储指示哪个图像被映射到哪个语音数据的映射值。

控制器1300通常控制内容编辑装置1000的总体操作。例如，控制器1300可以通过执行存储在DB 1020中的程序来控制通信器1010和DB 1020的总体操作等。

详细地，控制器1030可以获取运动图像内容。控制器1030可以提取存储在内容编辑装置1000中的运动图像内容。控制器1030可以从设备2000或外部服务器接收存储在设备2000或外部服务器中的运动图像内容。

控制器1030可以映射包括在运动图像内容中的人的图像和语音数据。控制器1030可以从运动图像内容的帧中提取包括在运动图像内容中的人的面部图像。控制器1030可以按人对所提取的面部图像进行分类。

此外，控制器1030可以从运动图像内容中提取关于包括在运动图像内容中的人的语音的声音数据，并将提取的声音数据转换为文本数据。语音数据可以包括提取的声音数据和转换的文本数据中的至少一个。控制器1030可以按说话者对语音数据进行分类。

控制器1030可以创建关于运动图像内容中的人的面部图像DB。控制器1030可以从运动图像内容获取面部图像并提取所获取的面部图像的特征值。此外，控制器1030可以基于提取的特征值，通过对每个人的面部图像进行分组来创建面部图像DB。

具体地，控制器1030可以获取运动图像内容中的图像数据。控制器1030可以从包括在运动图像内容中的帧获取图像数据。例如，控制器1030可以通过提取包括在运动图像内容中的帧中包含的图像数据来获取图像数据。控制器1030可以从图像数据获取人的面部图像。控制器1030可以使用图像数据来获取运动图像内容的人的面部图像。例如，控制器1030可以通过从图像数据提取具有面部属性的图像数据来获取每个面部图像。例如，控制器1030可以通过人脸识别从图像数据中切割面部图像来获取面部图像。然而，本公开的实施例不限于此。面部图像可以是表示一个人的面部的图像。

控制器1030可以从面部图像提取特征值。面部图像的特征值是表示面部图像的特征的值，并且，例如，可以表示包括在面部图像中的对象的形状、颜色和大小等特征。此外，例如，控制器1030可以提取关于包括在面部图像中的对象之间的位置和空间的特征值。包括在面部图像中的对象可以包括例如头部、头发、眼睛、鼻子、嘴和耳朵。另外，特征值可以是例如特征向量值。然而，本公开的实施例不限于此。

控制器1030可以基于特征值对面部图像进行分类。控制器1030可以通过对具有相似特征值的面部图像进行分组来对面部图像进行分类。控制器1030可以通过比较面部图像的特征值来将被确定为表示同一人的面部的图像的面部图像分组。特征值和特征值之间的相似性可以被预先确定为控制器1030确定面部图像表示同一人的面部的准则。

控制器1030可以创建关于运动图像内容中的人的面部图像DB。控制器1300可以通过存储每个人的面部图像来创建面部图像DB。面部图像DB不仅可以包括面部图像，而且可以包括面部图像的特征值，但不限于此。面部图像DB还可以包括关于包括面部图像的帧的播放位置的信息。

此外，控制器1030可以创建关于运动图像内容中的说话者的语音DB。控制器1030可以从运动图像内容收集声音数据并提取所收集的声音数据的特征值。此外，控制器1030可以基于所提取的特征值来对每个说话者的声音数据进行分组。此外，控制器1030可以将声音数据转换为文本并将文本映射到声音数据。控制器1030可以通过对包括每个说话者的声音数据和文本数据中的至少一个的语音数据进行分类和存储来创建语音DB。

控制器1030可以获取运动图像内容中的声音数据。控制器1030可以从包括在运动图像内容中的帧获取声音数据。例如，控制器1030可以通过提取包括在运动图像内容中的帧中包含的声音数据来获取声音数据。

控制器1030可以从声音数据中提取特征值。例如，控制器1030可以提取声音数据的特征值。声音数据的特征值指示声音数据的特征，例如可以包括诸如声音的幅度、频率和音调的特征。另外，特征值可以是例如特征向量值。然而，本公开的实施例不限于此。

控制器1030可以基于特征值对声音数据进行分类。控制器1030可以通过对具有相似特征值的声音数据进行分组来对声音数据进行分类。控制器1030可以通过比较声音数据的特征值来将被确定为同一说话者的声音数据的声音数据分组。特征值和特征值之间的相似性可以被预先确定为控制器1030确定声音数据表示同一人的声音的准则。

控制器1030可以通过将声音数据转换为文本来创建文本数据。控制器1030可以使用STT技术将声音数据转换成文本。

控制器1030可以创建关于运动图像内容中的说话者的语音DB。控制器1030可以通过存储每个人的声音数据和文本数据中的至少一个来创建语音DB。语音DB不仅可以包括声音数据和文本数据，而且可以包括声音数据的特征值，但不限于此。此外，语音DB可以包括关于与声音数据和文本数据相对应的帧的播放位置的信息。

此外，控制器1030可以对分类的面部图像和分类的语音数据进行映射。控制器1030可以映射特定人的图像和语音数据。

控制器1030可以映射面部图像和语音数据。控制器1030可以映射特定人的面部图像和特定说话者的语音数据。人和说话者可能是同一人。因此，可以将被确定为属于同一人的面部图像和语音数据彼此映射。控制器1030可以通过映射被确定属于同一人的面部图像和语音数据来创建映射表。

此外，如果运动图像内容中的人是名人，则为了增强人脸识别功能，控制器1030可以将从各种服务服务器(未示出)提供的人的图像映射到面部图像DB。

控制器1030可以从包括在运动图像内容中的帧之中选择至少一个帧。控制器1030可以从包括在运动图像内容中的场景之中选择要用于创建编辑内容的场景。控制器1030可以根据预定准则从与选择的场景相对应的帧中选择至少一个帧。

控制器1030可以测量从运动图像内容中获取的声音信号的声音等级变化和声音频率变化。声音信号的声音等级可以是声音信号的幅度。

控制器1030可以基于声音等级变化和声音频率变化推荐运动图像中的特定场景。单元1030可以根据声音等级变化和/或声音频率变化是否大于预定值(或多个)来推荐运动图像中的特定场景。

控制器1030可以确定声音等级变化的标准偏差大于预定值的声音信号的部分。在这种情况下，控制器1030可以推荐包括声音等级变化的标准偏差大于预定值的声音信号的部分的场景。

控制器1030可以确定声音频率变化的标准偏差大于预定值的声音信号的部分。在这种情况下，控制器1030可以推荐包括声音频率变化的标准偏差大于预定值的声音信号的部分的场景。然而，本公开的实施例不限于此。控制器1030可以基于声音等级变化和声音频率变化根据各种准则来推荐场景。

控制器1030可以检测运动图像内容中的预定声音。当声音等级变化和声音频率变化小于预定值时，控制器1030可以检测运动图像内容中的预定声音。例如，控制器1030可以从自运动图像内容获取的声音信号检测中与笑声相对应的部分。例如，控制器1030可以通过将笑声的预定特征值和从运动图像内容获取的声音信号的特征值进行比较来检测与来自声音信号的发笑者相对应的部分。然而，本公开的实施例不限于此。

控制器1030可以基于检测的声音的位置来推荐与满足预定条件的位置相对应的场景。例如，控制器1030可以推荐包括与笑声相对应的声音信号的部分的场景和/或包括与笑声相对应的部分之前的预定部分的场景。

控制器1030可以根据用户输入选择推荐的特定场景中的至少一个。控制器1030可以向用户设备2000发送关于运动图像内容中的推荐场景的位置信息、表示推荐场景的运动图像和表示推荐场景的静止图像中的至少一个。另外，用户设备2000可以在设备2000的屏幕上显示从内容编辑装置1000推荐的场景，并且可以接收用于选择一些推荐场景的用户选择输入。用户设备2000可以根据用户选择输入来选择一些推荐场景，并且可以向内容编辑装置1000提供选择的推荐场景的标识值。

控制器1030可以识别选择的场景中的人。控制器1030可以从运动图像内容获取包括在选择的场景中的帧，并且可以识别包括在所获取的帧的图像中的人。控制器1030可以从所获取的帧的图像中提取人的面部图像。例如，控制器1030可以使用人脸识别技术来识别所获取的帧的图像中的人的面部，并且可以从所获取的帧的图像中切割识别的面部的图像。

控制器1030可以检测与选择的场景和所识别的人相对应的文本数据。控制器1030可以确定与获取的面部图像相对应的人。控制器1030可以确定具有与所获取的面部图像相同或相似的面部图像的人。控制器1030可以通过将所获取的面部图像与包括在面部图像DB中的面部图像进行比较来确定与所获取的面部图像相对应的人。

控制器1030可以提取与选择的场景和所确定的人相对应的文本数据。控制器1030可以从语音DB中检测与包括所获取的面部图像的帧的播放位置相对应的文本数据。控制器1030可以检测在包括面部图像的帧的播放位置与从运动图像内容输出的声音数据对应的文本数据。

控制器1030可以从与选择的场景相对应的帧中选择至少一个帧。控制器1030可以从构成选择的场景的帧中选择具有小噪声的帧。控制器1030可以确定构成选择的场景的帧的每个图像中包括多少噪声。控制器1030可以基于确定的结果来选择具有小于预定值的噪声的帧。

此外，控制器1030可以考虑到人的面部方向、视线、表情和嘴形状，选择与选择的场景相对应的帧中的至少一个。例如，控制器1030可以当帧中的人面向前、人正在向前看或者人的嘴是张开时选择对应的帧。然而，本公开的实施例不限于此。控制器1030可以根据各种准则来选择帧。

控制器1030可以使用选择的帧来创建运动图像内容的编辑内容。控制器1030可以获取编辑内容的模板，并且可以通过将选择的帧的图像插入模板来创建编辑内容。此外，控制器1030可以基于选择的帧的图像中的人的面部图像，从DB中提取选择的帧的图像中的人的语音数据。此外，控制器1030可以使用提取的语音数据将表示由选择的帧的图像中的人发出的内容的文本插入到人的附近。

控制器1030可以确定编辑内容的类型。编辑内容的类型可以包括例如卡通类型内容、相册类型内容和缩略图类型内容。然而，本公开的实施例不限于此。

控制器1030可以根据用于选择编辑内容的类型的用户输入来确定编辑内容的类型。控制器1030可以向用户设备2000发送用于选择编辑内容的类型的UI。此外，用户设备2000可以在设备2000的屏幕上显示用于选择从内容编辑装置1000接收的编辑内容的类型的UI并且接收用于选择编辑内容的类型的用户选择输入。用户设备2000可以根据用户选择输入来选择编辑内容的类型，并且可以向内容编辑装置1000提供选择的编辑内容的类型的标识值。

控制器1030可以获取用于创建编辑内容的模板。根据编辑内容的类型的模板可以被预先确定并存储在内容编辑装置1000中。然而，本公开的实施例不限于此。控制器1030可以从外部接收与编辑内容的类型相对应的模板。根据编辑内容的类型，用于创建编辑内容的模板可以具有不同的布局。

控制器1030可以处理选择的帧的图像。控制器1030可以根据编辑内容的类型改变帧的图像的大小，改变帧的图像的分辨率或者将预定的图像效果分配给帧的图像。例如，当编辑内容是卡通时，控制器1030可以对要插入到模板中的图像分配特定效果或改变要插入到模板中的图像的大小。可选地，例如，当编辑内容是缩略图时，控制器1030可以改变要插入到模板中的图像的大小和分辨率。可选地，例如，当编辑内容是相册时，控制器1030可以改变要插入到模板中的图像的大小。然而，本公开的实施例不限于此。

此外，控制器1030可以将预定的滤波效果应用到帧的图像。控制器1030可以通过将预定的动态数据组合到帧的图像来向编辑内容添加预定的功能。然而，本公开的实施例不限于此。

控制器1030可以将处理的图像插入获取的模板中。控制器1030可以将处理的图像插入与处理的图像相对应的模板中的插入位置。

控制器1030可以将语音气泡和文本数据插入到处理的图像中。控制器1030可以将语音气泡插入处理后的图像中的人的附近。控制器1030可以从处理的图像中的人周围的区域中确定要显示语音气泡的区域。考虑到表示人的语音的文本中的字符数，控制器1030可以从人周围的区域中确定要显示语音气泡的区域。控制器1030可以将语音气泡插入到确定的区域中。此外，控制器1030可以将表示人的语音的文本插入到语音气泡中。

本公开的一些实施例可以被实现为非临时计算机可读记录介质，其包括计算机或处理器可执行的指令，诸如计算机执行的程序模块。非临时性计算机可读介质可以是计算机可访问的任何可用介质，并且可以包括易失性和非易失性媒体以及离散和集成媒体。此外，非临时性计算机可读介质可以包括计算机存储介质和通信介质二者。计算机存储介质包括易失性和非易失性媒体以及离散和集成媒体，其以存储信息——诸如计算机可读指令、数据结构、程序模块或其他数据——的任何方法或技术来实现。通信模块通常包括计算机可读指令、数据结构、程序模块或诸如载波的调制数据信号的其他数据和传输机制，并且还包括任何信息传输介质。

在本公开中，术语“单元”可以表示诸如处理器或电路的硬件组件或由硬件组件(诸如处理器)执行的软件组件。

尽管已经参照本发明的各种实施例示出和描述了本公开，但是本领域技术人员将会理解，在不脱离由所附权利要求及其等同物定义的本公开的精神和范围的情况下，可以在形式和细节上进行各种改变。

Claims

1.一种从运动图像内容创建内容的方法，所述方法包括：

获取包含语音数据的运动图像内容；

基于从运动图像内容提取的面部图像产生面部数据库；

基于从运动图像内容提取的语音数据产生语音数据库；

映射包括在面部数据库中的人的面部图像与包括在语音数据库中的人的语音数据，其中语音数据至少包括人的音频语音数据，而且映射是基于音频语音数据；

选择包括在运动图像内容中的帧中的至少一个帧；以及

使用映射的面部图像和语音数据以及选择的至少一个帧来创建运动图像内容的内容，

其中，选择包括在运动图像内容中的帧中的至少一个帧包括：

使用运动图像内容中的声音数据确定运动图像内容的场景中的至少一个推荐场景；

向用户设备发送所确定的至少一个推荐场景；

接收由该用户设备从所发送的至少一个推荐场景中选择的推荐场景的标识；以及

基于所接收的选择的推荐场景的标识，选择包括在选择的推荐的场景中的帧中的至少一个帧，

其中，确定运动图像内容的场景中的至少一个推荐场景包括：

检测运动图像内容中的预定声音；以及

基于检测的声音的位置来确定与满足预定条件的位置相对应的至少一个推荐场景，

其中，预定声音包括人发出的突发声音，以及

其中，与满足预定条件的位置相对应的至少一个推荐场景是范围在输出突发声音的运动图像内容的部分与沿相反方向间隔特定距离的运动图像内容的另一部分之间的场景。

2.根据权利要求1所述的方法，其中，映射包括在面部数据库中的人的面部图像与包括在语音数据库中的人的语音数据包括：

对面部数据库中的人的面部图像按每个人进行分类；以及

将分类的面部图像映射到包括在面部数据库中的人的语音数据。

3.根据权利要求2所述的方法，其中，语音数据包括人的音频语音数据和从音频语音数据转换的文本数据中的至少一个。

4.根据权利要求1所述的方法，其中，确定运动图像内容的场景中的至少一个推荐场景包括基于运动图像内容中的音频语音数据的声音等级变化和声音频率变化来确定场景中的至少一个推荐场景。

5.根据权利要求1所述的方法，其中，选择至少一个帧包括根据包括在确定的场景中的帧中包含的噪声等级来选择至少一个帧。

6.根据权利要求1所述的方法，其中，选择至少一个帧包括基于包括在确定的场景中的帧中包含的人的视线方向、面部方向和面部表情中的至少一个来选择至少一个帧。

7.根据权利要求1所述的方法，其中，创建内容还包括：

确定用于创建内容的模板；以及

将选择的帧的图像插入确定的模板。

8.根据权利要求7所述的方法，其中，由包括在帧的图像中的人发出的声音转换的文本被显示在插入到模板的图像中。

9.根据权利要求7所述的方法，

其中，确定模板包括确定内容的类型并选择与确定的类型相对应的模板，以及

其中，根据内容的类型来处理插入到模板中的图像。

10.一种非临时性计算机可读记录介质，存储用于通过处理器执行权利要求1所述的方法的计算机程序。

11.一种用于从运动图像内容创建内容的内容创建装置，所述内容创建装置包括：

控制器，被配置为：

基于从运动图像内容提取的面部图像产生面部数据库，

基于从运动图像内容提取的语音数据产生语音数据库，

映射包括在面部数据库中的人的面部图像与包括在语音数据库中的人的语音数据，其中语音数据至少包括人的音频语音数据，而且映射是基于音频语音数据；以及

存储单元，被配置为存储面部数据库、语音数据库、以及包括在面部数据库中的人的面部图像与包括在语音数据库中的人的语音数据的映射；以及

其中，控制器进一步被配置为：

选择包括在运动图像内容中的帧中的至少一个帧，以及

其中，控制器进一步被配置为：

向用户设备发送所确定的至少一个推荐场景；

其中，控制器进一步被配置为：

检测运动图像内容中的预定声音；以及

其中，预定声音包括人发出的突发声音，以及

12.根据权利要求11所述的内容创建装置，其中，控制器还被配置为：

对面部数据库中的人的面部图像按每个人进行分类；以及

在存储单元中存储分类的面部图像和人的语音数据的映射。