CN104065869B

CN104065869B - 在电子装置中与播放音频组合地显示图像的方法

Info

Publication number: CN104065869B
Application number: CN201410101299.XA
Authority: CN
Inventors: 金炫廷; 郑哲虎; 金辰禹; 李基赫
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2013-03-18
Filing date: 2014-03-18
Publication date: 2018-04-27
Anticipated expiration: 2034-03-18
Also published as: KR20140114238A; EP2782098A3; CN104065869A; EP2782098A2; US20140314391A1; US9743033B2; AU2013263740A1

Abstract

一种在电子装置中与播放音频组合地显示图像的方法，所述方法包括：显示图像：当选择了图像内的第一图像对象时，输出与第一图像对象相应的第一音频对象；当选择了图像内的第二图像对象时，输出与第二图像对象相应的第二音频对象。

Description

在电子装置中与播放音频组合地显示图像的方法

技术领域

本发明总体上涉及在电子装置中播放图像和音频。

背景技术

许多电子装置可作为多媒体装置而进行操作，所述多媒体装置提供输入、编辑、询问或播放图像和音频的功能中的至少一种或多种功能。这些电子装置支持各种文件格式和编解码器。通常，作为包含根据编解码器而编码的媒体数据的预定格式的容器的多媒体文件的格式包括这样的信息：诸如，媒体内的播放位置信息以及媒体的时间信息。多媒体文件可提供诸如播放、暂停和搜索的各种功能。

例如，图像可以是静止图像或视频，并经常使用诸如联合图像专家组（JPEG）、图像互换格式（GIF）、位图（BMP）、标签图像文件格式（TIFF）、AI、H.263、H.264、运动图像专家组（MPEG）、音频视频交错（AVI）、Windows媒体视频（WMV）、DivX、XviD、MOV、高级串流格式（ASF）和VP8的编解码器或文件格式。音频经常使用诸如G.711、G.726、G.723、G.729、增强变速率编解码器（EVRC）、自适应多速率（AMR）、弧一致性-3（AC-3）、Windows媒体音频（WMA）、MPEG音频层-3（MP3）、乐器数字接口（MIDI）、脉冲编码调制（PCM）、自适应差分脉冲编码调制（ADPCM）、第三代合作伙伴计划（3GPP）、第三代合作伙伴计划2（3GPP2）和Ogg Vorbis的编解码器或文件格式。

如上所述，各种电子装置可通过使用相机功能将视觉数据提供给用户。

发明内容

本发明的一方面在于解决上述问题和/或缺点并至少提供以下优点。因此，本发明的一方面可在电子装置中组合图像和音频。

本发明的另一方面在于在电子装置中从在图像拍摄时记录的音频提取与图像中的每个对象相应的音频。

本发明的另一方面在于在电子装置中将在图像拍摄时记录的音频与图像内的每个对象对应。

本发明的另一方面在于在电子装置中选择性地输出与图像内的每个对象相应的音频。

通过提供一种用于与播放音频组合地显示图像的方法来实现上述方面。

根据本发明的一方面，一种电子装置的操作方法，包括：显示图像；当选择了图像内的第一图像对象时，输出与第一图像对象相应的第一音频对象，当选择了图像内的第二图像对象时，输出与第二图像对象相应的第二音频对象。

根据本发明的一方面，一种电子装置的操作方法，包括：收集图像和音频；基于从图像中提取的至少一个图像对象和从音频中提取的至少一个音频对象，确定所述至少一个图像对象与所述至少一个音频对象之间的相应关系；存储包括指示图像的图像数据、指示音频的音频数据和指示相应关系的映射数据的组合数据集。

根据本发明的另一方面，一种电子装置包括显示单元和处理器。显示单元显示图像。处理器进行控制以当选择了图像内的第一图像对象时输出与第一图像对象相应的第一音频对象，并当选择了图像内的第二图像对象时输出与第二图像对象相应的第二音频对象。

根据本发明的另一方面，一种电子装置包括处理器和存储单元。处理器收集图像和音频，基于从图像中提取的至少一个图像对象和从音频中提取的至少一个音频对象，确定所述至少一个图像对象与所述至少一个音频对象之间的相应关系。存储单元存储包括指示图像的图像数据、指示音频的音频数据和指示相应关系的映射数据的组合数据集。

根据本发明的另一方面，一种电子装置包括存储器、处理器和显示单元。存储器存储至少一个软件模块。处理器执行存储在存储器中的所述至少一个软件模块。显示单元根据处理器的控制来显示图像。所述至少一个软件模块包括控制用于当选择了图像内的第一图像对象时输出与第一图像对象相应的第一音频对象并当选择了图像内的第二图像对象时输出与第二图像对象相应的第二音频对象的至少一个指令集。

根据本发明的另一方面，一种电子装置包括存储器和处理器。存储器存储至少一个软件模块。处理器执行存储在存储器中的所述至少一个软件模块。所述至少一个软件模块包括控制用于收集图像和音频、基于从图像中提取的至少一个图像对象和从音频中提取的至少一个音频对象来确定所述至少一个图像对象与所述至少一个音频对象之间的相应关系、存储包括指示图像的图像数据、指示音频的音频数据和指示相应关系的映射数据的组合数据集的至少一个指令集。

根据本发明的另一方面，提供了一种计算机可读存储介质。所述存储介质存储包括当由电子装置执行时能够使电子装置执行在权利要求1至50之一要求保护的方法的指令的至少一个程序。根据本发明的一方面，一种电子装置的操作方法包括：显示通过第一相机输入的第一图像和通过第二相机输入的第二图像；当产生音频时，确定第一相机和第二相机的拍摄方向中的正确相机方向；基于确定的方向信息，将音频与第一图像和第二图像中通过相应方向的相机输入的图像映射。

附图说明

通过下面组合附图进行的详细描述，本发明的上述和其它对象、特征和优点将变得更加清楚，其中：

图1示出根据本发明实施例的图像和音频组合技术；

图2示出根据本发明实施例的将在电子装置中产生的图像和音频进行组合的数据的结构；

图3示出根据本发明实施例的电子装置中的图像捕捉时间点和音频存储持续时间的示例；

图4示出根据本发明实施例的在电子装置中从视频收集图像和音频的示例；

图5A至图5B示出根据本发明实施例的在电子装置中提取图像对象和音频对象的示例；

图6A至图6D示出根据本发明实施例的对在电子装置中设置的组合数据进行编码的示例；

图7示出根据本发明实施例的在电子装置中映射图像对象和音频对象的示例；

图8A至图8B示出根据本发明实施例的在电子装置中通过图像对象来输出音频对象的示例；

图9示出根据本发明实施例的当选择多个图像对象时在电子装置中输出音频对象的示例；

图10示出根据本发明实施例的在电子装置中删除音频对象的示例；

图11示出根据本发明实施例的在电子装置中的根据图像片段的图像对象片段和音频对象片段的示例；

图12示出根据本发明实施例的在电子装置中通知图像与音频组合的用户界面（UI）的示例；

图13示出根据本发明实施例的在电子装置中分离并显示图像对象的示例；

图14示出根据本发明实施例的在电子装置中显示音频对象输出按钮的示例；

图15A至图15D示出根据本发明实施例的在电子装置中的画中画（PIP）屏幕控制的示例；

图16示出根据本发明实施例的在电子装置中用于将图像和音频进行组合的功能块的结构；

图17示出根据本发明实施例的在电子装置中用于将图像和音频进行组合的操作过程；

图18示出根据本发明实施例的在电子装置中用于播放图像和音频的组合数据集的操作过程；

图19示出根据本发明实施例的电子装置的结构；

图20示出根据本发明另一实施例的电子装置的结构。

具体实施方式

以下将参照附图来描述本发明的实施例。在以下描述中，不对已知功能或结构进行详细描述，从而不以不必要的细节而模糊本发明。考虑本发明中的功能而限定的以下描述的术语可根据用户和操作者的意图或实践而不同。因此，应基于本发明贯穿本说明书来限定所述术语。

本发明涉及显示图像和输出与在图像内选择的图像对象相应的音频对象。以下，本发明的各种实施例描述了能够在电子装置中将图像和音频进行组合的技术。例如，电子装置可将诸如静止图像和视频的图像数据与诸如语音、背景音和音乐的音频数据进行组合以播放图像数据和音频数据的组合。

电子装置可以是便携式电子装置，并且可以是以下装置之一：智能电话、便携式终端、移动电话、移动平板、媒体播放器、平板计算机、手提计算机、个人数字助理（PDA）、笔记本计算机、个人计算机（PC）、电子相框、超便携PC、便携式媒体播放器（PMP）、MP3播放器和用于处理图像和音频的诸如便携式音频播放器的计算系统装置。电子装置可将上述装置中的两种或多种功能进行组合。

图1示出根据本发明实施例的图像和音频组合技术。

参照图1，图像和音频组合技术包括图像拍摄操作110、图像分析操作115、音频记录操作120、音频分析操作125以及图像对象和音频对象映射操作130。

图像拍摄操作110包括通过在电子装置中提供的成像装置（诸如，相机）来产生图像数据。音频记录操作120包括通过在电子装置中提供的记录装置（诸如，麦克风）来将外部声音转变为数据。图像分析操作115包括在拍摄的图像内识别图像对象，并设置每个图像对象的区域。图像对象指定图像内的特定对象（例如，人或物体）和姿态中的一个，并被指定为图像内的闭合圆环区域。为此，图像分析操作115可采用诸如角色识别或面部识别的技术。音频分析操作125包括从记录的一个音频数据识别和提取每个对象的音频。为了更有效地音频提取，音频分析操作125可采用诸如噪声去除和快门声去处的声音源处理技术。映射操作130包括产生关于图像内的图像对象和从音频提取的音频对象的组合信息。组合信息可被配置为分离的数据库的形式或者图像文件或音频文件的一部分的形式。

如上所述，根据本发明实施例的电子装置可收集和组合图像和音频。当显示图像时，根据本发明实施例的电子装置可使用图像和音频组合信息输出音频。

为了描述方便，“图像对象”表示从收集的整个图像提取的图像单元，“音频对象”表示从记录的整个音频分离的将被映射到每个图像对象的音频单元，“映射数据”表示图像对象与音频对象之间的映射信息，“组合数据集”表示整个图像、图像对象指定信息、整个音频、至少一个音频对象和映射数据的捆绑。

图2示出根据本发明实施例的将在电子装置中产生的图像和音频进行组合的数据的结构。

参照图2，组合数据集200包括图像数据210、音频数据220和映射数据230。

图像数据210包括拍摄的图像（即，已被拍摄的图像）和从拍摄的图像产生的图像相关数据。例如，图像数据210包括拍摄的图像、图像对象指定信息、纠正图像和用于访问图像数据的间接信息。图像对象指定信息包括整个图像中包括相应的图像对象的区域的像素坐标。如果所述区域是圆圈的形式，则图像对象指定信息包括中心坐标和半径长度。如果所述区域是矩形形式，则图像对象指定信息包括左上角和右下角的坐标以及右上角和左下角的坐标。

可选择地，图像对象指定信息包括面部区域内的像素的坐标或轮廓的边界线像素的坐标。图像对象指定信息还可包括图像对象的名称或指示符。纠正图像表示应用图像处理技术（诸如，缩放、颜色转换、亮度调节、灰度处理和平滑）的图像。间接信息包括指示图像数据210的全部或部分构成项的统一资源定位符（URL）或链接。

音频数据220包括记录的全部音频、处理的音频、至少一个音频对象、音频特征信息和用于访问音频数据的间接信息。处理的音频可以是例如通过噪声去除技术和诸如背景声分离和回声消除器的技术去除噪声或快门声的音频。可选择地，处理的音频可以是去除捆绑持续时间的音频。音频对象是与一个图像对象相应的单元。音频对象可以是一个音频文件或音频文件内的部分持续时间。音频特征信息包括每个音频对象的频带、声波或频率的样式、音高、节奏、音调、白噪声、捆绑持续时间、振幅、波长、语调、口音或发音组合。间接信息包括指示音频数据220的全部或部分构成项的URL或链接。

映射数据230包括对象识别信息和相应关系信息。对象识别信息表示关于至少一个图像对象和至少一个音频对象的识别信息。相应关系信息表示图像对象与音频对象之间的相应关系。

为了配置如图2中所示的组合数据集200，电子装置拍摄图像并记录音频，从而收集图像和音频。电子装置可如下收集图像和音频。

根据本发明的实施例，电子装置可存储在拍摄图像时输入的音频。在电子装置通过用户的指令在图像拍摄模式下进行操作时，电子装置连续地显示预览屏幕。在预览屏幕被显示时，电子装置临时存储通过麦克风输入的音频。如果快门在预览屏幕显示状态下被按下，则电子装置在快门按下时间点通过图像传感器捕捉图像，并存储在捕捉图像的时间点临时存储的音频。存储的音频的持续时间可根据本发明的实施例而不同。

图3示出根据本发明实施例的电子装置中的图像捕捉时间点和音频存储持续时间的示例。参照图3，快门在时间点（t1）300被按下，图像在时间点（t1）300被捕捉。音频存储持续时间可以是具有时间点（t1）300作为终点的音频存储持续时间A311、包括时间点（t1）300之前和之后的音频存储持续时间B312以及具有时间点（t1）300作为开始点的音频存储持续时间C313中的一个。虽然未在图3中示出，但是音频存储持续时间可以是与时间点（t1）300分离了预定时间的持续时间。

根据本发明的另一实施例，电子装置可使用视频拍摄功能收集图像和音频。

电子装置拍摄包括音频的视频，并通过最大记录容量或根据时间的自动结束或用户的中断指令输入来结束视频拍摄，从构成视频的视频轨迹内的帧提取至少一个图像，并从音频轨迹收集音频。

图4示出根据本发明实施例的在电子装置中从视频收集图像和音频的示例。参照图4，拍摄视频410包括视频轨迹413和音频轨迹415。视频轨迹413包括多个帧（帧#1、帧#2、帧#3、……、帧#n）。电子装置通过从视频轨迹413提取至少一个图像产生图像数据421，并从音频轨迹415产生音频数据422。

在提取图像的方法中，电子装置从视频提取至少一个图像。提取的图像包括帧内帧（I帧）、发生多于一个参考的运动的持续时间的帧或者按照预定时间间隔放置的帧。在评估对焦的图像质量（例如，图像对比度、噪声比率、亮度和清晰度）之后，电子装置提取多于一个参考的至少一个好的图像。电子装置可合成或覆盖多个图像以确定平均图像，或通过图像质量提高算法产生一个或更多转换的图像。

在收集音频的方法中，电子装置可通过分离音频轨迹并对音频轨迹进行编码来收集音频。电子装置可从音频去除多于预定时间段的捆绑持续时间。

根据本发明的实施例，电子装置可存储在音频记录期间输入的图像。

电子装置根据通过用户界面的开始指令来开始音频记录。在音频记录期间，电子装置拍摄一个或多个图像。可遵从预定义的规则或者根据用户的指令来自动地执行图像拍摄。例如，在自动方案中，预定义的规则包括当说话者开始运动嘴部并且开始音频输入时、当输入新的说话者的语音或新类型的音频时或当识别到面部时。对于另一示例，在手动方案中，可当触摸或点击在预览屏幕上显示的物体或人脸区域时，并可当按下相机按钮或键时，执行图像拍摄。

为了收集极高质量的音频，电子装置可去除在图像拍摄中产生的快门声。为此，电子装置可去除当在相机拍摄中产生的快门声被输入到音频输入装置（诸如，麦克风）时的快门声，或可通过记录的音频的后处理来去除快门声。

通过在电子装置中播放与快门声相应的声音源，或者通过按下机械快门按钮，来产生快门声。当通过播放声音源来产生快门声时，电子装置获知何时发生快门声以及快门声的信号样式。因此，电子装置可通过噪声去除技术或诸如回声消除器的技术来去除快门声。详细地，处理器将关于快门声音源的信息转发到音频分析单元，从而可去除通过音频输入装置输入的音频信号中的快门声。当通过机械操作产生快门声时，电子装置将机械声的音频信号的样式存储在存储器中，并响应于当按下快门按钮时的相应的输入信号来从通过音频输入装置输入的音频信号中去除相应的机械声的音频信号。

根据另一实施例，当包括快门声时，电子装置可按照从记录的音频中搜索和去除快门声的音频信号样式的后处理方法来去除快门声。

根据另一实施例，为了避免将输入到或存储在音频输入装置中的快门声或机械声，电子装置可感测快门声，并在产生快门声时停止记录音频。可选择地，在产生快门声时，电子装置可不记录快门声所属的音高区域的声音。

在收集图像和音频之后，根据本发明实施例的电子装置从图像提取至少一个图像对象并从音频提取至少一个音频对象，并确定所述至少一个图像对象与所述至少一个音频对象之间的相应关系。

电子装置可从收集的音频执行噪声去除，例如，分离说话者的语音、背景声音分离和背景声音去除。电子装置在图像上识别音频产生区域。例如，在图像上产生运动或声音源的情况下，电子装置可基于方向性识别来识别声音源产生区域。电子装置根据音频和图像分析结果来确定相应关系，并存储相应关系、图像数据和音频数据。

根据本发明的实施例，电子装置可基于面部识别和波形分析来确定相应关系。

电子装置分析收集的图像，并根据参考来划分图像中显示的图像对象。例如，参考可以是人或物。如果是人，则参考可以是男人、女人、孩子或者年轻人或老年人。为了区分人和物，电子装置可使用面部识别技术。可将分类结果（例如，图像数据内的面部坐标信息、面部缩略图图像数据、对象标识符（ID）、男人/女人/孩子/年轻人或老年人的对象特征信息）存储在例如相应的图像文件的头或者单独的数据库或者与图像数据相关联的文件中。

电子装置分析收集的音频的波形，基于每个波形的特征提取音频对象，并将提取的音频对象映射到具有与音频对象相应的特征的图像对象。可使用例如频率分析、声音升/降分析、音量分析、音高（pitch）分析或与事物的典型波形的相似度的确定来执行波形分析。

图5A至图5B示出根据本发明实施例的在电子装置中提取图像对象和音频对象的示例。参照图5A至图5B，电子装置分析图像数据。电子装置通过面部识别来区分人/物，并将人区分为男人/女人/孩子/年轻人或老年人，其中，所述男人/女人/孩子/年轻人或老年人基于至少一个图像对象被提取。例如，电子装置首先将图像对象A511和图像对象B512区分为人，并将图像对象C513区分为海。电子装置随后将图像对象A511区分为女人，并将图像对象B512区分为男人。电子装置随后分析音频数据。电子装置使用通过经由持续时间的音频声波分析的声波的唯一特征来区分人声/物声。作为结果，在整个音频“AAA～BB～CCCCC～”中，“AAA～[高音高音调]”被分类为音频对象A521，“BB～[低音高音调]”被分类为音频对象B522，“CCCCC～[波形声音]”被分类为音频对象C523。

电子装置将分类的图像对象511、512和513的特征与分类的音频对象521、522和523进行映射。根据此，图像对象A[女人]511和音频对象A[高音高音调]521被彼此映射，图像对象B[男人]512和音频对象B[低音高音调]522被彼此映射，图像对象C[海]513和音频对象C[波形声音]523被彼此映射。

根据本发明的另一实施例，电子装置可基于角色和目标的运动来确定相应关系。

在图像拍摄中，电子装置可根据角色或物的运动或手势来确定与音频的相应关系。例如，电子装置识别嘴部运动的人的位置、在音频记录发生时通过图像捕捉装置输入的图像（例如，预览图像）中的面部区域，从而能够确定当前正被输入的音频的产生对象是什么。例如，电子装置可确定当前输入的音频的产生对象是随着当前运动而观察的图像对象。

此外，电子装置可注册并存储图像对象的区域信息或通过面部或物识别的信息（例如，名称或ID）之间的相应关系以及正被输入的音频。

根据本发明的另一实施例，电子装置可基于音频的方向性信息来确定相应关系。

在音频记录的情况下，电子装置可确定声音源的方向，并基于方向或方向性信息来确定产生音频的图像对象。例如，如果立体声麦克风被布置在电子装置的一侧，则电子装置可确定声音源的近似方向。电子装置可从输入图像识别与声音源相应的图像对象的坐标，并可确定图像对象与输入的音频对象之间的相应关系。例如，当在图像的左侧识别出一个角色并且输入音频的方向被确定为在左侧时，电子装置可将在左侧识别的角色定义为一个图像对象，并将图像对象与当前输入的音频映射。

对于另一示例，当相机被分别布置在电子装置的前面和后面时，在电子装置中提供至少一个麦克风以识别在每个相机镜头的方向所产生的声音源，电子装置可将通过两个相机输入的图像合成为一个图像，并在合成的图像中识别与每个输入音频相应的图像对象。例如，可按照每个相机镜头的方向来安装多个麦克风。虽然与每个相机镜头的方向无关地安装多个麦克风，通过使用从多个麦克风输入的声音源的时间差，电子装置可确定声音源的方向性。如果安装的麦克风是方向性麦克风，则麦克风可自己识别声音源的方向性。如果支持画中画（PIP）功能，则背景图像区域被输入到后面的相机，并且背景图像区域可被指定为一个图像对象并与输入到后面的麦克风的音频映射。通过PIP呈现的缩略图图像区域是通过前面的相机输入的图像，缩略图图像区域可被指定为一个图像对象并与输入到前面的麦克风的音频映射。

根据本发明的另一实施例，如果难以将提取的音频对象中的每个图像对象的语音与音频进行区分，则电子装置可将多个特征分类为上层特征，并将多个特征定义为一个群组。例如，电子装置可将音频对象分类为高音高音调/低音高音调，并通过男人/女人性别将分类的音频对象进行分组。

在确定图像与音频之间的相应关系中，不必须仅在同时拍摄的图像和记录的音频之间设置相应关系。例如，甚至可在不同时间点收集的图像与音频之间确定相应关系。

例如，电子装置收集第一图像和第一音频，并通过分析操作设置第一图像与第一音频之间的相应关系。电子装置收集第二图像和第二音频，并分析第一图像、第一音频、第二图像和第二音频，并随后设置它们之间的相关关系。当第一图像与第二音频之间的相关性相对较高时，电子装置将从第二音频而不是第一音频提取的音频对象与从第一图像提取的图像对象映射。例如，当角色A发音“AAA”并且角色B发音“BBB”时，如果第一音频包括“AAA”但是角色B在第一图像拍摄时被拍摄，则第一图像与第一音频之间的相关性低。如果第二音频包括“BBB”但是角色A在第二图像拍摄时运动，则第二图像与第二音频之间的相关性低。在这种情况下，可设置第一图像与第二音频之间的相应的相关性以及第二图像与第一音频之间的相应的相关性。

为此，电子装置通过图像和音频分析来确定相对的相关性，或者通过单独的UI从用户接收相对的相关性。

根据本发明实施例的电子装置根据预定义的规则来设置图像对象与音频对象之间的相应关系。完成这个，电子装置可提供能够通过用户的指令设置相应关系的UI。换句话说，电子装置可提供能够将图像对象与音频对象彼此映射的UI。电子装置可显示可选择的音频对象的列表，识别由用户选择的音频对象，并将音频对象与识别的图像对象映射。可选择地，当由用户选择图像对象时，电子装置可显示可映射的音频对象的列表，并将由用户选择的音频对象与图像对象映射。例如，电子装置确定图像对象与由用户选择的音频对象之间的相应关系。

根据本发明实施例的电子装置可将收集的图像和音频以及确定的相应关系信息作为组合数据集来进行编码和解码。下面将详细描述编码和解码。将文件描述为示例，但是本发明的组合数据集的形式可以是比特流。

组合数据集可被编码为一个文件或多个文件。

图6A至图6D示出根据本发明实施例的对电子装置中的组合数据集进行编码的示例。图6A示出图像数据612被插入到音频文件611的基于音频文件的图像插入形式。图6B示出音频数据622被插入到图像文件621的基于图像文件的音频插入形式。图6C示出图像数据被配置为视频轨632并且音频数据被配置为音频轨633的视频文件631格式的图像文件和音频文件合成形式。图6D示出图像文件641、音频文件642和映射信息数据库643分别单独存在的添加分离映射信息数据的形式。

当进行基于音频文件的图像插入形式的编码和解码时，基于音频文件的图像插入形式指示将图像数据包括或添加到音频文件的一部分的方案。

根据本发明的实施例，图像数据可被编码到音频文件的元数据区域。例如，在MP3文件中，图像数据可被存储在ID3标签中，所述ID3标签表示在MP3文件格式中定义的元数据的容器。ID3标签通常包括作曲家、播放时间和专辑图像的信息。为了配置组合数据集，图像数据可被插入到MP3文件的ID3标签区域中。例如，图像数据可被插入到专辑图像区域中。可选择地，与音频相关联的图像以及说话者的面部图像的坐标可被存储在音频文件的元数据区域中。根据需要，通过将至少一个图像数据存储在音频文件的元数据区域中，各种操作是可能的。

根据本发明的另一实施例，可定义用于图像数据的单独的新字段，而不是元数据区域。在这种情况下，电子装置将图像数据存储在针对图像数据新定义的字段中。例如，在音频文件的前端、后端或特定中间位置定义单独的新字段，并且可将图像数据存储在单独的新字段中。

根据本发明的另一实施例，图像数据可被包括在音频文件的文本轨或单独提供的字幕信息（诸如字幕文件）中。

基于音频文件的图像插入形式的一个示例是替换包括在MP3文件的ID3标签区域中的用于专辑图像项的静止图像。在这种情况下，显示专辑图像的一般MP3播放器可与图像一起输出音频。如果使用元数据，则可提供各种方案的服务。例如，如果在音频文件的元数据区域中记录了诸如用于访问图像数据的统一资源定位符（URL）的间接信息，则通过使用在音频播放时处理器需要的图像数据，电子装置可从存储器读取指定的图像数据并显示图像。

当在元数据区域中存储有诸如音频相关区域的坐标和说话者的面部图像的附加图像数据时，可由显示图像上的用户输入控制音频输出。例如，如果在显示图像上输入了坐标，则电子装置可识别与输入的坐标有关的图像区域。如果图像上的坐标包括在特定区域中或位于距特定区域参考距离，则电子装置可基于元数据区域搜索映射到特定区域的音频对象，并输出搜索的音频对象。电子装置可识别与输入坐标相应的物，并输出映射到物的音频对象。在具体示例中，如果在图像上选择的区域是角色的面部，则电子装置可识别相应的角色，并计算与例如存储在音频文件的元数据区域中的角色的面部图像以及角色信息的匹配率，如果匹配率等于或大于阈值，则输出映射的音频对象。

存储在音频文件的元数据区域中的图像数据可以是多个。例如，一个音频文件可被映射到不同的图像对象。如果图像对象是多个，则每个图像对象可指定相应的音频文件的特定部分。

图7示出根据本发明实施例的在电子装置中映射图像对象和音频对象的示例。

参照图7，第一图像对象711可与从音频文件的00:00:00到00:00:10的持续时间A721映射，第二图像对象712可与从音频文件的00:00:11到00:00:30的持续时间B722映射，第三图像对象713可与从音频文件的00:00:31到00:00:50的持续时间C723映射。如果第一图像对象711是由用户选择的，则电子装置输出作为持续时间A721的音频“AAA～”。如果第二图像对象712是由用户选择的，则电子装置输出作为持续时间B722的音频“BB～”。如果第三图像对象713是由用户选择的，则电子装置输出作为持续时间C723的音频“CCCCC～”。

如果图像数据存储在位于音频文件的前端、后端和特定中间位置中的针对图像数据定义的字段中，则电子装置可通过与使用前述的元数据区域的实施例相似的操作显示来自图像数据的图像，并输出相应的音频对象。通过使用添加到相应的音频的图像数据，电子装置可识别在图像中选择的区域，并根据区域输出不同音频对象。即使图像数据存储在音频文件的文本轨或单独的字幕信息中，电子装置也可通过与使用前述的元数据区域的实施例相似的操作显示来自图像数据的图像，并输出相应的音频对象。

以下描述基于图像文件的音频插入形式的编码和解码。基于图像文件的音频插入形式指示将音频数据包括或添加到图像文件或图像数据流的一部分中的方案。

根据本发明的实施例，音频数据可被存储在图像文件或图像数据的元数据区域中。音频数据可被包括在补充字段中，诸如，JPEG的JPEG文件交换格式（JFIF）、EX可改变图像文件格式（EXIF）的元数据区域中的APP区域。可在图像文件中定义用于音频数据的单独的新字段。根据此，音频数据可被存储在针对音频数据定义的字段中。音频数据也可与映射的数据一起存储。换句话说，音频数据包括至少一个音频对象，并可与指示与所述至少一个音频对象映射的图像对象的信息一起存储。根据此，可针对一个图像文件存储多个区域信息和与区域信息有关的多个音频对象。

如果由用户选择了图像上的与特定图像对象相应的区域，则电子装置从存储在图像文件的元数据区域以及针对音频数据定义的字段中的音频数据中搜索映射到选择的图像对象的音频对象，并输出搜索的音频对象。

如果音频数据存储在图像文件的后端，则电子装置可仅对图像进行解码和显示，并可根据后面的需要对音频进行解码。因此，有利地减少不必要的操作。相反，如果音频数据位于图像文件的前端，则电子装置可快速地搜索音频。

以下描述图像文件的音频文件合成形式的编码和解码。图像文件和音频文件合成形式指示按照视频形式而不是图像文件或音频文件来存储组合数据集的方案。

通常，视频文件包括并被设计为指定视频轨和音频轨。根据本发明的实施例，电子装置使用至少一个图像数据配置视频轨，并在音频轨中包括音频数据，所述音频数据包括映射到图像数据内的所有图像对象的音频对象。根据此，可通过一般视频播放器播放图像和音频。例如，视频文件包括视频轨和音频轨，其中，视频轨包括一个或多个静止图像，音频轨包括与静止图像内的图像对象映射的至少一个音频对象。如果选择了与静止图像内的特定图像对象相应的区域，则电子装置搜索与图像对象映射的音频对象所位于的部分，并随后播放音频轨。例如，与图像对象相应的每个区域作为音频轨的快捷键。

以下描述添加单独的映射信息数据的形式的编码和解码。添加单独的映射信息数据的形式表示单独地存储图像文件和音频文件并产生指示图像文件和音频文件两者之间的组合关系的单独的映射信息的方案。

图像数据和音频数据不被组合为一个捆绑（bundle），并且产生指示图像数据内的图像对象与音频数据内的音频对象之间的组合关系的单独的数据库。例如，至少一个图像对象的识别信息和至少一个音频对象的识别信息可存储在数据库记录中。如果在图像显示期间选择了与特定图像对象相应的区域，则电子装置可搜索与数据库的图像相关记录中选择的图像对象映射的音频对象，并输出搜索的音频对象。

如前述实施例中，可在一个记录中保持和管理多个图像对象和多个音频对象。

如上所述，根据本发明实施例的电子装置可对组合数据集进行编码和解码。电子装置可如下所述移除图像对象与音频对象之间的组合关系。

当图像信息存储在MP3文件的ID3标签内的专辑图像项中时，电子装置可通过移除专辑图像或使用其它图像覆盖专辑图像来移除图像数据。当针对图像数据的间接信息（例如，URL）存储在MP3文件的ID3标签内的补充元数据区域中时，电子装置可通过移除或去活元数据区域内的值来移除图像数据。当图像信息存储在针对图像数据定义的字段中时，电子装置可通过移除针对图像数据定义的字段来移除图像数据。当图像数据存储在字幕信息中时，电子装置可通过从字幕信息移除用于图像数据的区域或删除字幕信息来移除图像数据。

当音频数据存储在图像文件的元数据区域（例如，JFIF中的APP区域或JPEG的EXIF区域）中时，电子装置可通过初始化相应的区域来移除音频数据。当音频数据存储在图像文件的特定区域中（即，在针对音频数据定义的新字段）时，电子装置可通过去除针对音频数据定义的字段来去除音频数据。

当按照图像文件和音频文件合成格式进行编码时，例如，当编码为视频文件时，电子装置可通过将视频分离为音频轨和视频轨并将视频分离并编码为音频文件和视频文件来移除组合数据集。

当产生指示相应关系的单独的数据库时，电子装置可通过从数据库移除相应记录、去活相应记录或删除相关映射信息来移除组合数据集。

根据本发明实施例的电子装置可通过使用如下的组合数据集来提供功能。

图8A至图8B示出根据本发明实施例的在电子装置中通过图像对象来输出音频对象的示例。

参照图8A至图8B，图像被显示并包括图像对象A811和图像对象B812。如图8A中所示，如果发生图像对象A811的选择，则电子装置输出与图像对象A811映射的音频对象A821。如图8B中所示，如果发生图像对象B812的选择，则电子装置输出与图像对象B812映射的音频对象B822。

如图8A至图8B中所示，当用户选择与特定图像对象相应的区域时，电子装置识别与选择的区域相应的图像对象，并输出与图像对象映射的音频对象。例如，选择可被定义为触摸、点击或拖拽的事件。对于另一示例，选择可被定义为针对相应的图像对象或标识符的名称的语音输入或文本输入。

可按照各种方式来定义用于确定选择的图像对象的参考。例如，如果事件的发生的坐标包括在与特定图像对象相应的区域内，则电子装置可确定选择发生。可选择地，电子装置可搜索在距事件的发生的坐标预定距离内存在的至少一个预注册的区域，并确定与位于所述至少一个预注册的区域最近的区域相应的图像对象已被选择。可选择地，电子装置可以以发生事件的图像区域为中心来分析图像，提取诸如角色的面部区域、角色的轮廓区域、图像上的物的区域和背景区域的信息，确定与预注册的图像对象的匹配率，搜索匹配率等于或大于阈值的至少一个图像对象，并确定具有最高匹配率的图像对象已被选择。如果识别面部或特定物，则电子装置可从数据库获得诸如名称和ID的信息，并随后确定相应的图像对象已被选择。图像对象可指定图像内的特定主体或特定手势。

图9示出根据本发明实施例的当选择多个图像对象时在电子装置中输出音频对象的示例。

参照图9，图像包括图像对象A911、图像对象B912和图像对象C913。图像对象A911与音频对象A921映射，图像对象B912与音频对象B922映射，图像对象C913与音频对象C映射。当在显示的图像上选择了多个图像对象（例如，图像对象A911和图像对象B912）时，电子装置输出与选择的图像对象映射的音频对象，例如，输出音频对象A921和音频对象B922。可通过例如多触摸或区域选择来实现多个图像对象的选择。电子装置可通过多线程同时输出音频对象A921和音频对象B922，或顺序地输出音频对象A921和音频对象B922。在顺序输出的情况下，音频对象A921和音频对象B922可部分重叠。在顺序输出的情况下，音频对象A921和音频对象B922的输出顺序可根据预指定的顺序或音频存储时间顺序。

图10示出根据本发明实施例的在电子装置中删除音频对象的示例。

参照图10，图像包括图像对象A1011、图像对象B1012和图像对象C1013。图像对象A1011与音频对象A1021映射，图像对象B1012与音频对象B1022映射，图像对象C1013与音频对象C1023映射。图像对象A1011由用户选择。根据此，电子装置删除与图像对象A1011映射的音频对象A1021。

可按照针对预定义的音频对象删除而定义的删除模式来执行通过图像对象选择的音频对象的删除。电子装置可通过单独的菜单来进入删除模式，或通过输入特定样式（例如，在预定时间期间或更长时间期间按压特定图像对象）来临时地进入删除模式。在按照删除模式的图像对象选择的情况下，电子装置可显示询问删除或不删除的UI（例如，弹出窗口），如果选择了删除，则随后删除相应的音频对象。

图11示出根据本发明实施例的在电子装置中的根据图像片段的图像对象片段和音频对象片段的示例。

参照图11，通过复制或剪切从整个图像中分割整个图像中包括图像对象A1111和图像对象B1112的部分，导致产生新的组合数据集1100。组合数据集1100包括图像对象A1111和图像对象B1112，并甚至包括一起与原始图像映射的音频对象A1121和音频对象B1122。

图12示出根据本发明实施例的在电子装置中通知图像与音频组合的UI的示例。

如图12所示，当显示如上产生的组合数据时，电子装置可显示通知图像和音频已经彼此组合的UI。在图12中，通知图像和音频已经彼此组合的UI1200具有音符的形状。可选择地，通知图像和音频已经彼此组合的UI1200可被定义为不同形状。

图13示出根据本发明实施例的在电子装置中分离并显示图像对象的示例。

参照图13，图像包括图像对象A1311、图像对象B1312和图像对象C1313。电子装置可通过按照例如特定颜色或特定样式填充与图像对象A1311、图像对象B1312和图像对象C1313相应的区域中的每一个区域来显示与音频对象映射的图像对象，从而图像对象与图像内的其它区域相区分。在图13中，根据不同样式来区分每个图像对象，但是可按照相同样式来显示每个图像对象。因此，用户可容易地识别与音频对象映射的图像对象。

图14示出根据本发明实施例的在电子装置中显示音频对象输出按钮的示例。

参照图14，图像包括图像对象A1411、图像对象B1412和图像对象C1413。电子装置在图像内显示被定义为用于命令输出与图像对象A1411、图像对象B1412和图像对象C1413中的每一个映射的音频对象的按钮A1431、B1432和C1433。因此，用户可通过选择不是图像对象而是相应的按钮来输出音频对象（例如，声音1、声音2或声音3）。

图15A至图15D示出根据本发明实施例的在电子装置中的PIP屏幕控制的示例。

参照图15A，电子装置具有在前面的第一相机1501和在后面的第二相机1502。电子装置提供将输入到第二相机1502的图像提供为壁纸图像并将输入到第一相机1501的图像提供为缩略图图像的PIP功能。

电子装置具有在前面的第一麦克风1511和在后面的第二麦克风1512。因此，输入到第二相机1502的壁纸图像与输入到第二麦克风1512的音频映射，并且输入到第一相机1501的缩略图图像与输入到第一麦克风1511的音频映射。

如图15B中所示，如果音频被输入到第二麦克风1512，则电子装置将输入到第二相机1502的图像显示为壁纸图像，并将输入到第一相机1501的图像显示为缩略图图像。相反，如图15C中所示，如果音频被输入到第一麦克风1511，则电子装置可按照更大的尺寸来显示输入到第一相机1501的缩略图图像。如图15D中所示，如果音频被输入到第一麦克风1511，则电子装置可将输入到第一相机1501的图像替换并显示为壁纸图像，并将输入到第二相机1502的图像替换并显示为缩略图图像。

图15A至图15D中，第一麦克风1511被安装在与第一相机1501相同的表面，第二麦克风1512被安装在与第二相机1502相同的表面。然而，第一麦克风1511和第二麦克风1512可被安装在与第一相机1501和第二相机1502被安装的表面无关的位置。通过使用例如输入到第一麦克风1511和第二麦克风1512中的每一个的声音源的输入时间差、音量差或者诸如通过相机输入的图像中的面部图像的嘴型的改变或动作的运动，电子装置可确定声音源的方向。

根据本发明的实施例，在通过图像对象输出音频对象之前，电子装置可至少一次与图像显示一起输出整个音频。如果在整个音频输出期间选择了特定图像对象，则电子装置可停止整个音频输出，并输出与选择的图像对象相应的音频对象。如果选择了多个图像对象，则电子装置可同时输出与选择的多个图像对象相应的多个音频对象的混合。根据本发明的另一实施例，如果在整个音频或多个音频对象输出期间选择了特定图像对象，则电子装置可将与选择的图像对象相应的音频对象静音。

图16示出根据本发明实施例的在电子装置中用于将图像和音频进行组合的功能块的结构。

参照图16，电子装置包括用于接收和分析图像的图像分析单元1610以及用于接收和分析音频的音频分析单元1620。

图像分析单元1610从拍摄的图像提取并分离图像对象（诸如，角色、物、面部和壁纸），并识别每个图像对象的一个或多个主要属性。例如，主要属性包括对象在图像内的位置、在物/区域之间的相对位置或状态（phase）、形状、颜色、说话者相关信息和元数据。通过发送并在存储器中存储识别的对象或区域的主要属性，在发生针对包括在图像中的图像对象的信息询问的情况下，图像分析单元1610使处理器能够从存储器接收与信息询问相应的至少一个属性信息并处理接收的属性信息。信息询问包括例如图像、音频、通过用户输入接口的坐标或区域的指定以及通过关键字的询问。

图像分析单元1610可执行图像处理用于图像对象的每次提取。例如，图像处理包括预处理、图像分割、特征提取或从输入图像进行识别。换句话说，可采用诸如样式匹配和机器视觉的技术。

图像分析单元1610可通过使用诸如二值化、灰度转换或颜色转换的属性转换技术来移除不必要的信息或加速处理速度。例如，在处理速度方面，使用二值的黑/白图像而不是颜色图像以从图像提取特定物的形状是更有利的。图像分析单元1610可执行例如傅里叶变换、离散余弦转换或小波转换的简化高带滤波和低带滤波的数字图像转换技术，从而简化处理图像增强和目标区域提取。

图像分析单元1610可分析图像内的像素的信息以执行诸如模糊、加锐、扩展、收缩、噪声去除、并行化和亮度调节的图像增强技术。由于此，诸如图像中的物的形状、位置和颜色的主要属性的损失减少或者主要属性被恢复为原始，简化了特征提取和识别。图像分析单元1610可通过例如边界提取、轮廓跟踪、特征提取、轮廓提取、颜色分离和区域颜色算法来检测数字图像的尺寸或特定区域的尺寸以及物的外形。寻找数字图像的轮廓、区分颜色和样式并确定材料触觉对于图像提取、区分和识别会是有用的。图像分析单元1610可分析多个图像用于运动和手势识别以获得不同图像之间的差图像，并调查物的运动样式或变化以确定例如运动、移动或手势。

作出以下描述用于图像对象的提取和用户输入的图像对象的区域的设置。通过应用前述的图像处理技术，图像分析单元1610可提取诸如角色的面部区域、对象的轮廓和物（诸如运动的物）的区域的信息。图像分析单元1610在存储器中存储诸如相应的图像对象的区域范围、坐标、边界线数据和轮廓数据的信息。

作出以下描述用于说话者识别和注册。在预注册的说话者中，图像分析单元1610可通过图像的面部识别从预注册的说话者数据中确定一个或多个候选。例如，图像分析单元1610可将面部图像数据与注册的说话者面部图像数据进行比较。在图像中的面部识别之后，图像分析单元1610可将相应的识别的信息项（例如，特征信息、样式信息或面部图像构成物的布置信息）与预注册的说话者数据项进行比较以确定识别的信息项与预注册的说话者数据项之间的相似度，并搜索相似度等于或大于阈值的至少一个候选。

通过分析说话者的特征，图像分析单元1610可识别例如年龄和性别。说话者的特征包括诸如说话者的面部、身体形状、服装颜色和配饰形式的信息。图像分析单元1610可识别嘴型的运动，产生来自预览图像的手势，并确定诸如语音相关的说话者的位置的说话者相关信息以及例如区域信息和面部图像区域。

作出以下描述用于图像的元数据的分析。通过分析在图像拍摄时一起存储或感测的元数据，图像分析单元1610可获得附加信息。例如，在JPEG文件中，图像分析单元1610可获得诸如以JFIF或EXIF存储的文件的创建日期、位置、缩略图、分辨率和图像捕捉装置的位置的补充数据。所述位置包括电子装置的位置、角度或倾斜度。例如，图像分析单元1610可通过诸如全球定位系统（GPS）、数字罗盘、陀螺仪传感器、加速度传感器、水平传感器、网络蜂窝信息接收器、嵌入式数字手表和光学传感器的传感器装置一起接收诸如图像拍摄的地点、时间、亮度和图像捕捉装置的姿态的感测信息。

作出以下描述用于图像标签设置。另外，图像分析单元1610可配置与区域有关的标签信息。例如，标签信息包括区域、物或角色ID、坐标信息、说话者、年龄和性别。

作出以下描述用于面部识别，所述面部识别包括诸如面部区域分离、面部特征提取、面部识别、性别和年龄识别的操作。为了分离面部区域，图像分析单元1610首先主要通过使用边缘图像以及亮度和颜色来确定给定图像中存在或不存在面部。例如，图像分析单元1610在边缘图中应用诸如日食形状的模板以设置头部区域，并检查设置的区域中的眼、嘴和鼻的边缘图像。图像分析单元1610可随后使用通过提取头部和身体的边缘并保持眼、鼻和嘴的提取位置来分析特征的上下图像插值方法。

为了提取面部特征，图像分析单元1610使用例如Hough变换、矩阵的单值分解方法以及眼、鼻和嘴的模板的匹配技术来提取边缘、颜色和亮度信息。为了识别面部，可使用基于Karhunen-Loeve（KL）变换的统计方法、基于特征的面部构成元素几何分析、Eigen面部技术、Fisher的线性判别式（FLD）技术、支持矢量机器（SVM）、模糊神经网络技术、小波弹性匹配、边缘投射简档和三维图像分析技术。通过使用前述的技术，图像分析单元1610确定预注册的图像与新输入的图像的相关信息之间的相似度。

通过面部识别甚至可估计性别或年龄。例如，图像分析单元1610可对检测的面部区域图像进行标准化，并通过针对标准化的面部区域图像的SVM执行性别估计功能。在本发明中，可使用已知的性别识别技术，诸如在用于从面部图像的性别识别的几个分类算法的比较，Sakarkaya.M等，智能工程系统，2012IEEE第16次国际会议，2012，第97～101页中所公开的。

图像分析单元1610可经由回归分析或方差分析通过以下操作来估计年龄：对检测的面部区域图像进行标准化，从标准化的面部区域图像构造面部区域内的构成元素的输入矢量，并随后将输入矢量投射到先前存储的年龄流形（manifold）空间以产生特征矢量。在本发明中，可使用已知年龄估计技术，诸如，在以下文献中所公开的那些技术：Y.Fu，Y.Xu和T.S.Huang，“通过面部图像的流形分析以及针对年龄特征的回归来估计人类年龄”，Proc.IEEE conf.多媒体展览会，2007，第1383～1386页，G.Guo，Y.Fu，T.S.Huang和C.Dyer的论文，“用于人类年龄估计的本地调节鲁棒回归”，在计算机视觉的应用的IEEE研讨会发表，2008，A.Lanitis，C.Draganova和C.Christodoulou，“比较用于自动年龄估计的不同分类器”，IEEE Trans.Syst.，Man，Cybern.B，Cybern.，vol.34，no.1，第621～628页，2004年二月，Y.H.Kwon和N.da Vitoria Lobo.“从面部图像的年龄分类”，CVIU，74:1-21，1999，A.Lanitis，C.Draganova和C.Christodoulou，“比较用于自动年龄估计的不同分类器”，IEEE Trans.SMC B，34(1):621-8，2004，N.Ramanathan和R.Chellappa，“跨越年龄发展的面部验证”，关于图像处理的IEEE Trans.，15(11):3349-3361，2006，以及S.K.Zhou，B.Georgescu，X.Zhou和D.Comaniciu，“使用促进方法的基于图像的回归”ICCV，I:541-548，2005。

音频分析单元1620从输入或记录的音频信号提取至少一个音频对象，并分析所述至少一个音频对象的特征。例如，音频分析单元1620从音频信号提取语音信号。音频分析单元1620分析诸如频带特征、声波或频率样式、音高、接拍、音调、白噪声、捆绑时间期间、音量、波长、声调、口音和发音组合的信息。音频分析单元1620可基于分析的信息来提供音频处理功能，诸如说话者信息识别、背景声音分离和噪声去除。音频分析单元1620可提供分析或记录音频数据的元数据的功能，并可另外支持语音识别。

作出以下描述用于背景噪声去除。音频分析单元1620从通过麦克风输入的音频数据去除与噪声相应的音频。例如，当通过音频输入装置（诸如麦克风）输入了在相机拍摄产生的快门声时，音频分析单元1620可去除快门声。通过在电子装置中播放与快门声相应的声音源或机械按压快门按钮来产生快门声。当通过播放声音源产生快门声时，音频分析单元1620获知快门声发生的时间以及快门声的信号样式。因此，音频分析单元1620可通过噪声去除技术或诸如回声去除的技术来去除快门声。当通过机械操作产生快门声时，音频分析单元1620在存储器中存储机械声的音频信号的样式，并当快门按钮被按压时响应于相应的输入信号从通过音频输入装置输入的音频信号去除相应的机械声的音频信号。例如，音频分析单元1620可在从当包括快门声时记录的音频中搜索并去除快门声的音频信号样式的后处理方法中去除快门声。为了使快门声或机械声音不能被输入或存储在音频输入装置中，音频分析单元1620可感测快门声，并在产生快门声时停止记录音频。可选择地，当产生快门声时，音频分析单元1620可不记录快门声所属的音高区域的声音。

音频分析单元1620可去除或提取背景声音。例如，背景声音表现为昆虫的鸣叫声、汽车行驶声、包噪声、海浪声或歌曲文件的音乐伴奏。可根据诸如专有（peculiar）样式或频带的参考来分离或去除背景声音。例如，音频分析单元1620可使用通过立体声记录语音和音乐的所有记录（AR）中的频域的能量差分信息仅提取音乐记录（MR），或可仅提取语音声音源。可应用各种技术。如上所述，音频分析单元1620可分离至少一个语音，或从输入音频信号去除背景声音或音乐，或从音频信号分离和提取背景声音或音乐。

作出以下描述用于元数据分析和输入。在MP3文件中，存在诸如ID3标签的元数据区域，因此，通过分析元数据，音频分析单元1620可获得各种信息。可选择地，音频分析单元1620可将单独的元数据信息与不具有原数据区域的音频数据进行关联。例如，音频分析单元1620可将元数据添加到音频数据以产生一个文件或比特流。可选择地，可将诸如可访问单独的详细元数据的统一资源定位符（URL）和数据库的标识符的参考信息映射到元数据区域。通过使用参考信息，音频分析单元1620可编写或参考单独的元数据信息。元数据包括各种信息，诸如产生时间、播放长度、作曲家和专辑图像，包括在元数据中的信息可相应于图像上的预定的图像对象。

例如，音频分析单元1620可将说话者的面部图像信息编码到专辑图像元数据区域。如果在拍摄的图像上选择了人脸区域，则音频分析单元1620可将相应的人的面部图像与存在于各种音频数据中（例如，在各种音频文件、各种音频轨和各种音频比特流中）的专辑图像区域的说话者的面部图像信息进行比较，并搜索和播放具有与所述人相应的说话者面部图像的至少一个音频数据。与图像的元数据一样，音频的元数据包括位置和时间信息。包括在元数据中的信息可随后与图像数据组合并被不同地用于信息搜索和询问。

作出以下描述用于针对语音信号的说话者识别以及说话者相关信息输入。音频分析单元1620可通过语音信号分析识别一个或更多个说话者相关信息。说话者识别与识别语音信号中的字面含义不同。音频分析单元1620可识别每个说话者，或识别说话者所属的群组。在说话者识别中，音频分析单元1620可使用预注册到存储器的说话者数据库来分析语音信号的特征。如果相似度等于或大于阈值，则音频分析单元1620可从说话者数据库中减去一个或多个候选说话者。通过使用一个或多个语音信号特征信息，音频分析单元1620可确定与数据库中的语音信号特征信息的匹配率。在群识别中，音频分析单元1620可分析语音信号以确定诸如发出相应的语音的说话者的年龄和性别的信息。识别每个说话者可需要说话者识别。通过先前分析和在存储器中存储说话者语音音频信号的特征，音频分析单元1620可确定与分析后来的输入语音音频信号的特征的结果的相似度是否高。例如，在做出电话呼叫时，音频分析单元1620可收集对方的语音信号特征。换句话说，音频分析单元1620可当用户通常做出电话呼叫时记录呼叫语音并使用记录的语音作为说话者分析的基础数据。在识别说话者中，音频信号分析不是必需的。例如，通过将通过图像识别获得的说话者相关特征与音频信号特征进行比较，音频分析单元1620可识别说话者。通过识别说话者的语音以解释字面含义，音频分析单元1620可获得说话者或区域中其他人的信息。

作出以下描述用于方向/方向性音频识别和处理。当电子装置具有能够确定方向的语音输入装置（诸如，方向性麦克风或者两个或多个麦克风）时，音频分析单元1620可使用音频的方向性来处理音频信号。例如，在拍摄视频时，由于多个麦克风被布置为面向前面和后面，故前面和后面的音频可以是所有输入，并且音频分析单元1620可确定声音源的方向从哪个方向发出。在另一示例中，当两个或多个麦克风根据参考被分离地布置并被布置在电子装置的一个表面上时，音频分析单元1620可通过分析在相应方向的音频信号输入的音量、输入事件和样式差来更详细地识别音频产生的方向。例如，当在相机镜头面向的方向产生音频时，音频分析单元1620可确定说话者所处于的方向，诸如，左、由、上、下、左上、右上、右下和左下。在通过图像分析将方向性信息与说话者位置信息关联到一起时，可更详细地准确地指定说话者相关信息。音频分析单元1620可通过方向性信息分析来放大目标音频信号。例如，当几个声音源被同时输入或者部分地重叠并输入时，音频分析单元1620可通过方向性信息从其它声音源放大或分离特定说话者的语音音频。

音频分析单元1620可通过处理音频数据来确定语音输入顺序或时间并提供各种功能。例如，可提供音频播放顺序、说话者分离和与图像数据的关联。

图17示出根据本发明实施例的在电子装置中用于将图像和音频进行组合的操作过程。

参照图17，在步骤1701，电子装置收集图像和音频。例如，电子装置可拍摄图像，并存储在基于图像拍摄的快门输入时间点定义的持续时间期间输入的音频。可选择地，电子装置可使用视频拍摄功能收集图像和音频。在这种情况下，电子装置从构成视频的视频轨内的帧中提取至少一个图像，并从音频轨收集音频。电子装置可从音频中移除预定时间段或更长的捆绑持续时间。可选择地，电子装置可执行音频记录，并存储在音频记录的持续时间内的特定时间点捕捉的图像。

电子装置进行到步骤1703，并分析图像。电子装置从通过图像分析收集的图像提取至少一个图像对象。电子装置从收集的图像提取并分离图像对象（诸如，角色、物、面部和背景），并识别每个图像对象的一个或多个主要属性。例如，主要属性包括图像内的对象的位置、物/区域之间的相对位置或状态、形状、颜色、说话者相关信息或元数据。为了有效地提取图像对象，电子装置还可执行各种图像处理，诸如通过面部识别来识别角色，以及基于说话者的预设特征信息来识别图像中显示的说话者。电子装置可估计说话者的性别和年龄。电子装置可通过传感器装置获得用于以下相应的关系确定的补充数据。

电子装置进行到步骤1705，并分析音频。电子装置从通过音频分析收集的音频提取至少一个音频对象。为此，电子装置从音频信号提取语音信号，并分析诸如语音信号的频带、声波、频率的样式的特征。为了有效执行音频对象提取，电子装置可执行诸如噪声去除、快门声去除和背景声去除的处理。电子装置可从音频文件的元数据获得用于以下相应关系确定的补充数据。当能够使用麦克风确定声音源的方向性时，电子装置可确定音频对象的方向性，或者放大或分离特定音频对象。可选择地，电子装置可捆绑作为上层特征的多个特征，以将多个音频对象定义为一个组。

在分析图像和音频之后，电子装置进行到步骤1707并确定最后一个图像对象与至少一个音频对象之间的相应关系。例如，电子装置可基于面部识别和波形分析来确定相应关系。在示例中，电子装置将特征彼此相应的图像对象和音频对象映射。在另一示例中，电子装置可基于目标的运动来确定相应关系。电子装置通过使用图像拍摄的预览屏幕或视频的视频轨来识别图像内目标的运动，并将当运动存在时产生的音频对象和与目标相应的图像对象映射。电子装置还可基于音频的方向性来确定相应关系。电子装置将方向彼此一致的图像对象与音频对象进行映射。电子装置可根据用户的指定来确定相应关系。可选择地，电子装置可根据图像对象和音频对象的相关性来设置在不同时间点产生的图像对象与音频对象之间的相应关系。

电子装置进行步骤1709并对组合数据集进行编码，所述组合数据集包括图像数据、音频数据和映射数据。例如，图像数据包括图像本身、图像对象指定信息、纠正的图像和用于访问图像信息的间接信息，音频数据包括记录的整个音频、处理的音频、至少一个音频对象、音频特征信息和用于访问音频数据的间接信息，映射数据包括对象识别信息和相应关系信息。组合数据集可分别是图像数据被插入到音频文件的第一形式、音频数据被插入图像文件的第二形式、作为图像数据被构造为视频轨且音频数据被构造为音频轨的视频文件的第三形式以及添加图像文件、音频文件和映射信息数据库独立存在的分离映射信息数据的第四形式。

本发明的上面与图17相关的所述方法可被提供为一个或多个软件模块中的一个或多个指令或存储在包括便携式终端的电子装置中的计算机程序。

图18示出根据本发明实施例的在电子装置中用于播放图像和音频的组合数据集的操作过程。

参照图18，在步骤1801，电子装置显示与音频组合的图像。电子装置可显示表示图像与音频组合的UI。电子装置可区分并显示与图像内的音频对象映射的至少一个图像对象。可选择地，电子装置还可显示映射到至少一个图像对象的音频对象输出按钮。

在图像显示状态中，电子装置进行步骤1803并确定至少一个图像对象是否被选择。所述选择可被定义为诸如触摸、点击或拖拽的事件。在另一示例中，所述选择可被定义为针对相应图像对象的名称或标识符的语音输入或字符输入。可选择地，多个图像对象的选择可被定义为多触摸或区域选择。

如果选择了至少一个图像对象，则电子装置进行步骤1805并搜索映射到选择的至少一个图像对象的至少一个音频对象。换句话说，电子装置基于映射数据搜索所述至少一个音频对象。例如，电子装置可参照音频文件的元数据、字幕信息和存储在单独字段中的信息来搜索音频文件的音频数据中的映射到图像对象的持续时间。电子装置可参照图像文件的元数据、存储在单独字段中的信息来搜索音频数据中的映射到图像对象的音频对象。电子装置可验证单独的相应关系数据库中的与图像有关的记录，并搜索映射到在所述记录中选择的图像对象的音频对象。电子装置可搜索与在视频的音频轨中选择的图像对象相应的部分。

电子装置进行步骤1807并输出搜索的至少一个音频对象。如果选择了多个图像对象，则电子装置可同时或顺序地输出与多个图像对象映射的多个音频对象。在顺序输出时，所述多个音频对象可部分重叠，并且所述多个音频对象的输出顺序可遵循预指定的顺序或产生顺序。

本发明的上面与图18相关的所述方法可被提供为一个或多个软件模块中的一个或多个指令或存储在包括便携式终端的电子装置中的计算机程序。

图19示出根据本发明实施例的电子装置的结构。本发明可被实现为包括便携式终端（诸如，智能电话和移动电信终端）的电子装置。以下，便携式终端被用作电子装置的示例。

电子装置包括存储器1910、处理器单元1920、输入输出系统1930、音频子系统1940、感测子系统1950和相机子系统1960。存储器1910可被构造为多个。

存储器1910存储例如至少一个软件、微代码和设置信息。存储器1910包括至少一个高速随机存取存储器、非易失性存储器、至少一个光存储装置或闪存（例如，与非（NAND）存储器、与或（NOR）存储器）。存储在存储器1910中的软件构成元素包括操作系统（OS）模块1911、图形模块1912、UI模块1913、相机模块1914、图像/音频组合应用模块1915和图像/音频组合数据1916。由于模块或软件构成元素可呈现为一组指令，故模块还被称为“指令集”或“程序”。包括执行根据本发明实施例的方法的指令的至少一个模块可存储在存储器1910中。

OS模块1911包括控制一般系统操作的至少一个软件构成元素。例如，OS模块1911可以是嵌入式操作系统，诸如WINDOWS、LINUX、Darwin、RTXC、UNIX、OS X、VxWorks、Android和iOS。例如，OS模块1911控制一般系统操作控制，诸如存储器管理和控制、存储器硬件控制和管理以及电源控制和管理。OS模块1911进行控制以简化至少一个硬件元件与软件构成元素之间的通信。图形模块1912包括用于在触摸屏1933上提供和显示图形的至少一个软件构成元素。触摸屏1933可用作显示单元。图形包括文本、web页、图标、数字图像、视频、动画。UI模块1913包括用于提供UI的至少一个软件构成元素。例如，UI模块1913控制在何种条件下执行UI状态的改变的UI状态被改变的方式。相机模块1914包括用于执行相机相关处理和功能的至少一个软件构成元素。

图像/音频组合应用模块1915包括用于根据本发明实施例组合图像和音频的至少一个软件构成元素。换句话说，图像/音频组合应用模块1915包括如图17中的用于产生组合数据集的软件构成元素和如图18中的用于播放组合数据集的软件构成元素。图像/音频组合应用模块1915包括配置电子装置如参照图1至图16所述进行操作的至少一个软件构成元素。图像/音频组合应用模块1916包括根据本发明的实施例产生的组合数据集。例如，图像/音频组合数据1916包括图2的数据。可如图6中所示来构造图像/音频组合数据1916。

除了前述模块1911至1916之外，存储器1910还包括另外的模块。可选择地，前述模块1911至1916中的部分可被排除。

处理器单元1920包括存储器接口1921、处理器1922和外围接口1923。处理器单元1920称为“处理器”。存储器接口1921、处理器1922和外围接口1923均可以是单独的构成元件或包括在至少一个集成电路中。

处理器1922包括至少一个硬件芯片。通过执行软件模块，处理器1922通过软件模块执行实现电子装置的功能。具体地，处理器1922与存储在存储器1910中的软件模块相互协作以实现本发明的实施例。处理器1922包括至少一个数据处理器和图像处理器。数据处理器和图像处理器可构成为单独的硬件。处理器1922可包括执行不同功能的多个处理器。

存储器接口1921在存储器1910与处理器1922之间提供数据和控制信号的移动路径。例如，存储器接口1921提供用于访问存储器1910的接口。外围接口1923将电子装置的输入输出子系统1930和至少一个外围装置连接到处理器1921和存储器1910。

输入输出系统1930包括触摸屏控制器1931、其它输入控制器1932、触摸屏1933和其它输入/控制装置1934。

触摸屏控制器1931可组合到触摸屏1933。例如，触摸屏控制器1931和触摸屏1933可通过不仅使用用于确定触摸屏1933上的一个或多个接触点的电容、电阻、红外和表面声波技术，还使用包括例如其它接近传感器阵列或其它元件的任何多触摸感测技术，来检测接触和运动或接触和运动的中断。

其它输入控制器1932可以与其它输入/控制装置1934组合。其它输入/控制装置1934包括用于音量控制的至少一个上/下按钮。上/下按钮可具有例如推按钮或锁定按钮、摇杆切换、拇指滚轮、拨盘、操纵杆和指点装置（诸如，触控笔）的形式。

触摸屏1933提供电子装置与用户之间的输入/输出接口。例如，触摸屏1933将用户的触摸输入发送到电子装置。触摸屏1933是用于将电子装置的输出显示给用户的媒介。也就是说，触摸屏1933按照文本、图形、视频和它们的组合的形式将视觉输出显示给用户。

触摸屏1933可使用各种显示装置。例如，触摸屏1933包括但不限于液晶显示器（LCD）、发光二极管（LED）、发光聚合物显示器（LPD）、有机发光二极管（OLED）、有源矩阵有机发光二极管（AMOLED）或柔性LED（FLED）。

音频子系统1940可被组合到扬声器1941和麦克风1942以控制音频流的输入和输出，诸如，语音识别、语音复制、数字记录和电话功能。也就是说，音频子系统1940通过扬声器1941和麦克风1942与用户进行通信。音频子系统1940通过处理器单元1920的外围接口1923接收数据流，将接收的数据流转换为电信号，并将转换的电信号发送到扬声器1941。扬声器1941将电信号转换为人类可听声波并输出转换的声波。

麦克风1942将从人或其它声音源发送的声波转换为电信号。音频子系统1940从麦克风1942接收转换的电信号。音频子系统1940将接收的电信号转换为音频数据流，并将转换的音频数据流发送到外围接口1923。音频子系统1940包括可拆卸耳机、头戴式耳机或耳麦，或者包括用于连接耳机、头戴式耳机和耳麦的端子。麦克风1942可以是多个，并可被分别布置在电子装置的前面和后面。

感测子系统1950检测外部刺激。感测子系统1950包括加速传感器、陀螺仪传感器、光学传感器、地磁传感器、重力传感器、温度传感器、生物计量传感器或位置传感器。GPS模块可用作位置传感器。感测子系统1950感测例如运动、光线、倾斜和方向，并提供指示感测结果的电信号。感测子系统1950还可包括用于解释指示运动的电信号的块。

相机子系统1960可执行图像拍摄和视频记录的功能。相机子系统1960包括图像传感器（未示出）和镜头（未示出）。图像传感器可以是电荷耦合器件（CCD）或互补金属氧化物半导体（CMOS）。例如，相机子系统1960通过图像传感器来识别通过镜头输入的光，并将在图像传感器中识别的图像转换为数字数据。

可通过至少一个流处理、包括专用集成电路（ASIC）的硬件、软件以及它们的组合来执行根据本发明的电子装置的各种功能。

图20示出根据本发明实施例的电子装置的结构。与图19相比，图20的电子装置的结构呈现由硬件模块来实现由软件实现的图像和音频组合和播放功能的实施例。本发明可被实现为包括便携式终端（诸如，智能电话和移动电信终端）的电子装置。以下，便携式终端被用作电子装置的示例。

参照图20，电子装置包括存储器2010、处理器单元2020、输入输出系统2030、音频子系统2040、感测子系统2050和相机子系统2060。存储器2010可被构造为多个。

存储器2010存储至少一个软件、微代码和设置信息。存储器2010包括至少一个高速随机存取存储器、非易失性存储器、至少一个光存储装置或闪存（例如，NAND存储器、NOR存储器）。存储在存储器2010中的软件构成元素包括OS模块2011、图形模块2012、UI模块2013、相机模块2014、图像/音频组合数据2015。由于模块或软件构成元素可呈现为一组指令，故模块还被称为“指令集”或“程序”。包括执行根据本发明实施例的方法的指令的至少一个模块可存储在存储器2010中。

OS模块2011包括控制一般系统操作的至少一个软件构成元素。例如，OS模块2011可以是嵌入式操作系统，诸如WINDOWS、LINUX、Darwin、RTXC、UNIX、OS X、VxWorks、Android和iOS。例如，OS模块2011控制一般系统操作控制，诸如存储器管理和控制、存储器硬件控制和管理以及电源控制和管理。OS模块2011进行控制以简化至少一个硬件元件与软件构成元素之间的通信。图形模块2012包括用于在触摸屏2033上提供和显示图形的至少一个软件构成元素。图形包括例如文本、web页、图标、数字图像、视频、动画。UI模块2013包括用于提供UI的至少一个软件构成元素。例如，UI模块2013控制在何种条件下执行UI状态的改变的UI状态被改变的方式。相机模块2014包括用于执行相机相关处理和功能的至少一个软件构成元素。图像/音频组合数据2015包括根据本发明实施例产生的组合数据集。例如，图像/音频组合数据2015包括图2的数据。可如图6中所示来构造图像/音频组合数据2015。

除了前述模块2011至2016之外，存储器2010还包括另外的模块。可选择地，前述模块2011至2016中的部分可被排除。

处理器单元2020包括存储器接口2021、处理器2022、外围接口2023和图像/音频组合模块2024。处理器单元2020称为“处理器”。存储器接口2021、处理器2022和外围接口2023均可以是单独的构成元件或包括在至少一个集成电路中。

处理器2022包括至少一个硬件芯片。通过执行软件模块，处理器2022通过软件模块执行实现电子装置的功能。具体地，处理器2022与存储在存储器2010中的软件模块相互协作以实现本发明的实施例。处理器2022包括至少一个数据处理器和图像处理器。数据处理器和图像处理器可构成为单独的硬件。处理器2022可包括执行不同功能的多个处理器。

图像/音频组合模块2024包括用于根据本发明实施例组合图像和音频的至少一个功能。换句话说，图像/音频组合模块2024执行如图17中的用于产生组合数据集的功能和如图18中的用于播放组合数据集的功能。图像/音频组合模块2024控制电子装置如参照图1至图16所述进行操作。

存储器接口2021在存储器2010与处理器2022之间提供数据和控制信号的移动路径。例如，存储器接口2021提供用于访问存储器2010的接口。外围接口2023将电子装置的输入输出子系统2030和至少一个外围装置连接到处理器2021和存储器2010。

输入输出子系统2030包括触摸屏控制器2031、其它输入控制器2032、触摸屏2033和其它输入/控制装置2034。

触摸屏控制器2031可组合到触摸屏2033。例如，触摸屏控制器2031和触摸屏2033可通过不仅使用用于确定触摸屏2033上的一个或多个接触点的电容、电阻、红外和表面声波技术，还使用包括例如其它接近传感器阵列或其它元件的任何多触摸感测技术，来检测接触和运动或接触和运动的中断。

其它输入控制器2032可与其它输入/控制装置2034组合，其它输入/控制装置1934包括用于音量控制的至少一个上/下按钮。上/下按钮可具有推按钮或锁定按钮、摇杆切换、拇指滚轮、拨盘、操纵杆或指点装置（诸如，触控笔）的形式。

触摸屏2033提供电子装置与用户之间的输入/输出接口。例如，触摸屏2033将用户的触摸输入发送到电子装置。触摸屏2033是用于将电子装置的输出显示给用户的媒介。例如，触摸屏2033将视觉输出显示给用户。触摸屏2033可按照文本、图形、视频和它们的组合的形式被呈现。

触摸屏2033可使用各种显示装置。例如，触摸屏2033包括但不限于液晶显示器（LCD）、发光二极管（LED）、照明功率密度（LPD）、有机LED（OLED）、有源矩阵OLED（AMOLED）或FLED。

音频子系统2040可被组合到扬声器2041和麦克风2042以控制音频流的输入和输出，诸如，语音识别、语音复制、数字记录和电话功能。例如，音频子系统2040通过扬声器2041和麦克风2042与用户进行通信。音频子系统2040通过处理器单元2020的外围接口2023接收数据流，将接收的数据流转换为电信号，并将转换的电信号发送到扬声器2041。扬声器2041将电信号转换为人类可听声波并输出转换的声波。

麦克风2042将从人或其它声音源发送的声波转换为电信号。音频子系统2040从麦克风2042接收转换的电信号。音频子系统2040将接收的电信号转换为音频数据流，并将转换的音频数据流发送到外围接口2023。音频子系统2040包括可拆卸耳机、头戴式耳机或耳麦，或者包括用于连接耳机、头戴式耳机和耳麦的端子。麦克风2042可以是多个，并可被分别布置在电子装置的前面和后面。

感测子系统2050检测外部刺激。感测子系统2050包括加速传感器、陀螺仪传感器、光学传感器、地磁传感器、重力传感器、温度传感器、生物计量传感器或位置传感器。GPS模块可用作位置传感器。感测子系统2050感测运动、光线、倾斜和方向，并提供指示感测结果的电信号。感测子系统2050还可包括用于解释指示运动的电信号的块。

相机子系统2060可执行图像拍摄和视频记录的功能。相机子系统2060包括图像传感器（未示出）和镜头（未示出）。图像传感器可以是电荷耦合器件（CCD）或互补金属氧化物半导体（CMOS）。例如，相机子系统2060通过图像传感器来识别通过镜头输入的光，并将在图像传感器中识别的图像转换为数字数据。

在一起存储音频和图像中，用户使用单独的著作工具按照视频文件格式来编辑或存储图像和音频，或使用嵌入有相机和麦克风的计算装置按照视频格式存储图像和音频。在存储视频文件中，仅支持视频文件播放和搜索，执行到图像的用户输入，并且不可呈现根据此的诸如特定视频输出的交互。

通过分析和将图像与音频彼此关联，电子装置可选择性地播放与图像内的图像对象有关的音频。例如，电子装置可播放与图像捕捉情况有关的音频，并通过产生能够与用户进行交互的媒体来将媒体应用于电子相册或幻灯片放映。电子装置可联合地提供与各种情况有关的图像和音频数据。

可按照硬件、软件或硬件和软件的组合的形式来实现根据权利要求和说明书中的描述的本发明的实施例。

这样的软件可存储在计算机可读存储介质中。计算机可读存储介质存储一个或多个程序（软件模块）、包括指令的一个或多个程序，其中，当由电子装置中的一个或多个处理器执行所述一个或多个程序时使电子装置执行本发明的方法。

可按照易失性或非易失性存储器（例如，如不论可擦写或可重写的只读存储器（ROM）的存储装置）的形式或者按照存储器（例如，随机存取存储器（RAM）、存储器芯片、装置或集成电路）的形式来来存储这样的软件，或者将这样的软件存储在光学或磁可读介质（例如，紧凑盘（CD）、数字视频盘（DVD）、磁盘或磁带等）上。将理解，存储装置和存储介质是适合于存储当被执行时实现本发明的实施例的程序或包括指令的程序的机器可读存储器的实施例。实施例提供了包括用于实现如本申请的权利要求书中的任何一个中要求保护的设备或方法的代码的程序以及存储这样的程序的机器可读存储器。此外，可经由任何介质（诸如经由有线或无线连接携带的通信信号）来电传送这样的程序，并且可适合的实施例包括这样的程序。

在前述本发明的实施例中，根据实施例按照单个或多个形式来呈现构成元件。然而，本发明不限于单个或多个构成元件。虽然按照多个的形式来呈现构成元件，但是可按照单个的形式来构造构成元件，虽然按照单个的形式来呈现构成元件，但是可按照多个的形式来构造构成元件。

虽然已经参照特定实施例具体地示出并描述了本发明，但是本领域的普通技术人员将理解的是，在不脱离由权利要求限定的本发明的精神和范围的情况下，可在形式和细节上做出各种改变。

Claims

1.一种在电子装置中基于图像和音频来产生集成数据的方法，所述方法包括：

经由所述电子装置的至少一个相机获取图像；

经由所述电子装置的至少一个麦克风获取用于图像的音频；

识别包括在获取的图像中的至少一个图像对象；

识别包括在获取的音频中的至少一个音频对象；

产生包括用于将识别的所述至少一个图像对象与识别的所述至少一个音频对象相关联的信息的映射数据；以及

基于获得的图像的图像数据、获得的音频的音频数据和产生的映射数据来产生集成数据。

2.如权利要求1所述的方法，其中，音频在持续时间期间被获取，其中，持续时间基于被初始化以获取图像的时间点而被确定。

3.如权利要求1所述的方法，其中，

如果图像是静止图像，则图像在获取音频的持续时间内的时间点被获取，以及

如果图像是运动图像，则图像在获取音频的持续时间内被获取。

4.如权利要求1所述的方法，其中，识别所述至少一个图像对象的步骤包括将获取的图像上的指示特定物体或特定运动的闭合区域识别为所述至少一个图像对象。

5.如权利要求1所述的方法，还包括：

识别图像中的角色的面部；

通过将识别的角色的面部与角色的参考面部图像进行比较来确定角色的特征，

其中，所述特征包括性别或年龄。

6.如权利要求1所述的方法，还包括：

通过从获取的音频去除由获取图像引起的静音持续时间、噪声或背景快门声来产生处理的音频；以及

产生包括关于处理的音频的信息的音频数据。

7.如权利要求1所述的方法，还包括：从音频分离说话者的语音信号。

8.如权利要求7所述的方法，其中，分离说话者的语音信号的步骤包括：

识别包括在音频中的语音信号；以及

通过将说话者相关特征与识别的语音信号的特征进行比较来识别每个说话者的语音信号。

9.如权利要求8所述的方法，其中，通过图像的分析、在电话呼叫时收集的音频信号的分析、通过语音识别的字面含义的解释或方向确定来确定说话者相关特征。

10.如权利要求7所述的方法，其中，分离说话者的语音信号的步骤包括：

从音频识别多个语音信号；以及

根据接收识别的多个语音信号的方向来分离多个语音信号。

11.如权利要求1所述的方法，其中，产生映射数据的步骤包括：

通过分别将具有与所述至少一个图像对象的特征相应的特征的所述至少一个音频对象映射到所述至少一个图像对象来产生用于将识别的所述至少一个图像对象与识别的所述至少一个音频对象相关联的信息；以及

产生包括产生的信息的映射数据。

12.如权利要求1所述的方法，其中，产生映射数据的步骤包括：

通过分别将在所述至少一个图像对象运动的同时接收的所述至少一个音频对象映射到所述至少一个图像对象来产生用于将识别的所述至少一个图像对象与识别的所述至少一个音频对象相关联的信息；以及

产生包括产生的信息的映射数据。

13.如权利要求1所述的方法，其中，产生映射数据的步骤包括：

通过分别将具有与所述至少一个图像对象的方向相应的接收方向的所述至少一个音频对象映射到所述至少一个图像对象来产生用于将识别的所述至少一个图像对象与识别的所述至少一个音频对象相关联的信息；以及

产生包括产生的信息的映射数据。

14.如权利要求1所述的方法，其中，产生映射数据的步骤包括：

显示用于设置识别的所述至少一个图像对象与识别的所述至少一个音频对象之间的关联的UI；

基于在显示的UI上的用户指令的输入来产生用于指示所述关联的信息；以及

产生包括产生的信息的映射数据。

15.如权利要求10所述的方法，其中，产生映射数据的步骤包括：

将从在不同时间点获取的图像和音频识别出的所述至少一个图像对象与所述至少一个音频对象之间的组合关联确定为所述至少一个图像对象与所述至少一个音频对象之间的所述关联；

产生包括信息的映射数据。

16.如权利要求1所述的方法，其中，集成数据的形式是以下形式之一：图像数据被插入到音频数据的第一形式、音频数据被插入到图像数据的第二形式、图像数据被构造为视频轨且音频数据被构造为音频轨的第三形式以及图像数据、音频数据和映射数据独立存在的第四形式。

17.如权利要求1所述的方法，还包括：

显示图像；以及

响应于在所述至少一个图像对象中的图像对象上检测到输入，基于集成数据来输出与图像对象相应的音频对象。

18.一种电子装置，包括：

至少一个相机；

至少一个麦克风；

处理器，与所述至少一个相机和所述至少一个麦克风可操作地连接，被配置用于：

经由所述至少一个相机获取图像；

经由所述至少一个麦克风获取用于图像的音频；

识别包括在获取的图像中的至少一个图像对象；

识别包括在获取的音频中的至少一个音频对象；

19.如权利要求18所述的装置，其中，音频在持续时间期间被获取，其中，持续时间基于被初始化以获取图像的时间点而被确定。

20.如权利要求18所述的装置，其中，

21.如权利要求18所述的装置，其中，处理器被配置用于将获取的图像上的指示特定物体或特定运动的闭合区域识别为所述至少一个图像对象。

22.如权利要求18所述的装置，其中，处理器还被配置用于：

识别图像中的角色的面部；以及

其中，所述特征包括性别或年龄。

23.如权利要求18所述的装置，其中，处理器还被配置用于：

产生包括关于处理的音频的信息的音频数据。

24.如权利要求18所述的装置，其中，处理器还被配置用于从音频分离说话者的语音信号。

25.如权利要求24所述的装置，其中，处理器还被配置用于：

识别包括在音频中的语音信号；以及

26.如权利要求25所述的装置，其中，通过图像的分析、在电话呼叫时收集的音频信号的分析、通过语音识别的字面含义的解释或方向确定来确定说话者相关特征。

27.如权利要求24所述的装置，其中，处理器还被配置用于：

从音频识别多个语音信号；以及

根据接收识别的多个语音信号的方向来分离多个语音信号。

28.如权利要求18所述的装置，其中，处理器还被配置用于：

产生包括产生的信息的映射数据。

29.如权利要求18所述的装置，其中，处理器还被配置用于：

产生包括产生的信息的映射数据。

30.如权利要求18所述的装置，其中，处理器还被配置用于：

产生包括产生的信息的映射数据。

31.如权利要求18所述的装置，其中，处理器还被配置用于：

产生包括产生的用于指示所述关联的信息的映射数据。

32.如权利要求18所述的装置，其中，处理器还被配置用于：

产生包括信息的映射数据。

33.如权利要求18所述的装置，其中，集成数据的形式是以下形式之一：图像数据被插入到音频数据的第一形式、音频数据被插入到图像数据的第二形式、图像数据被构造为视频轨且音频数据被构造为音频轨的第三形式以及图像数据、音频数据和映射数据独立存在的第四形式。

34.如权利要求18所述的装置，其中，处理器还被配置用于：

显示图像；以及

35.一种在电子装置中中基于图像和音频来产生映射数据的方法，所述方法包括：

显示通过第一相机输入的第一图像和通过第二相机输入的第二图像；

如果接收音频的方向与第一相机的方向相应，则通过将经由第一相机输入的第一图像映射到音频来产生第一数据；以及

如果接收音频的方向与第二相机的方向相应，则通过将经由第二相机输入的第二图像映射到音频来产生第二数据。

36.如权利要求35所述的方法，其中，显示第一图像和第二图像的步骤包括在第一图像上叠放地显示第二图像，并且

其中，如果接收音频的方向与第二相机的方向相应，则在第一图像上叠放的第二图像被显示为扩大。