CN106575361B

CN106575361B - 提供视觉声像的方法和实现该方法的电子设备

Info

Publication number: CN106575361B
Application number: CN201580044928.2A
Authority: CN
Inventors: 李永均; 朴斗用; 徐银贞; 李在学
Original assignee: Samsung Electronics Co Ltd
Current assignee: Samsung Electronics Co Ltd
Priority date: 2014-08-21
Filing date: 2015-08-17
Publication date: 2020-11-24
Anticipated expiration: 2035-08-17
Also published as: EP3195601A4; EP3195601B1; US20160054895A1; CN106575361A; WO2016028042A1; US10684754B2; EP3195601A1; KR20160024002A

Abstract

提供了提供视觉声像的方法和实现该方法的电子设备，该方法可以生成、编辑和播放其中声音数据被链接到图像的视觉声像。该方法包括：由电子设备在显示器上显示包括至少一个对象的图像；由电子设备接收对显示在显示器上的图像中的对象的至少一个特定区域的选择或对图像的特定区域的选择；以及由电子设备将声音数据链接到对象的至少一个特定区域或图像的特定区域。此外，各种实施例也是可能的。

Description

提供视觉声像的方法和实现该方法的电子设备

技术领域

本公开涉及提供视觉声像的方法，该方法可以生成、编辑和播放(play back)其中声音数据被链接到图像的视觉声像，并且涉及实现该方法的电子设备。

背景技术

根据信息通信技术和半导体技术的显著发展，电子设备(例如，移动通信终端、智能电话、平板个人计算机(PC))的传播和使用已经迅速增加。因此，电子设备已经成为现代的必需品，因为其提供了用户所需的各种功能。例如，电子设备提供了诸如呼叫、拍摄图像或视频、接收广播、连接到因特网、记录等的各种功能。

电子设备提供了在执行拍摄时将声音数据链接到拍摄的图像的功能(以下称为声音拍摄功能(sound shot function))。

上述信息仅作为背景信息呈现以帮助对本公开的理解。关于任何上述内容是否可以被用作相对于本公开的现有技术，并没有做出确定，也没有做出断言。

发明内容

技术问题

声音拍摄功能可以将单个(single piece)声音数据链接到单个图像。如上所述，当单个声音数据链接到单个图像时，难以识别图像和所链接的声音数据之间的相关性。例如，当通过记录预定人物的语音而获得的声音数据被链接到包括多个人物的图像时，用户可能难以识别多个人物的语音中的哪一个与所链接的声音数据相对应，除非播放所链接的声音数据。

此外，当用户希望将多个人物的语音链接到图像时，传统上，用户应当顺序地记录多个人物的语音，以便生成单个声音数据文件，或者应当将多个声音数据编辑为单个声音数据，这是不方便的。

问题的解决方案

本公开的各方面用于解决至少上述问题和/或缺点，并且提供至少下面描述的优点。因此，本公开的一个方面提供了用于选择图像的特定区域并将声音数据链接到图像的所选择的特定区域的装置和方法。

本公开的另一方面提供了用于选择性地播放链接到图像的特定区域的声音数据或顺序地播放整个声音数据的装置和方法。

本公开的另一方面提供了用于将链接到图像的特定区域的声音数据的至少一部分转换为文本并显示该文本的装置和方法。

根据本公开的一个方面，提供了操作电子设备的方法。该方法包括：由电子设备在显示器上显示包括至少一个对象的图像；由电子设备接收对显示在显示器上的图像中的对象的至少一个特定区域的选择，或者对图像的特定区域的选择；以及由电子设备将声音数据链接到对象的至少一个特定区域或图像的特定区域。

根据本公开的另一方面，提供了操作电子设备的方法。该方法包括：由电子设备在显示器上显示包括至少一个对象的图像，该图像包括指示对象或所述图像的特定区域和声音数据之间的链接的符号、图标、文本、照片和图片中的至少一个；由电子设备接收对显示在显示器上的图像中所包括的所述符号、图标、文本、照片和图片中的至少一个的选择；以及响应于输入的至少一部分，由电子设备通过声音输出装置输出声音数据。

根据本公开的另一方面，提供了电子设备。电子设备包括：显示单元，被配置为显示包括至少一个对象的图像；控制器，被配置为接收对所显示的图像中的对象的至少一个特定区域或图像的特定区域的选择，通过将对象的所选择的特定区域或图像的特定区域链接到声音数据来生成视觉声像；以及存储单元，被配置为存储视觉声像。

根据本公开的一个方面，提供了电子设备。该电子设备包括：显示单元，被配置为显示包括指示声音数据被链接到对象或图像的特定区域的符号、图标、文本、照片和图片中的至少一个的图像；音频处理单元，被配置为当选择了所述符号、图标、文本、照片和图片中的至少一个时，输出所链接的声音数据；以及控制器，被配置为控制显示单元和音频处理单元，以便显示图像，接收选择所述符号、图标、文本、照片和图片中的至少一个的输入，并且基于输入来输出所链接的声音数据。

从以下结合附图公开了本公开的各种实施例的详细描述中，本公开的其它方面、优点、以及显著特征将对于本领域技术人员变得清晰。

发明的有益效果

根据本公开的各种实施例，至少一个声音数据可以分别链接到图像的至少一个特定区域。

此外，根据本公开的各种实施例，可以选择性地播放链接到图像的特定区域的声音数据，或者可以顺序地播放多个声音数据。

此外，根据本公开的各种实施例，链接到图像的特定区域的声音数据的至少一部分可以被转换为文本，并且该文本可以被显示在图像中。通过上述方式，用户可以预先识别粗略的内容，而无需播放链接到图像的特定区域的声音数据。

附图说明

从下面结合附图的详细描述中，本公开的实施例的上述以及其它对象、特征、以及优点将更加清晰，其中：

图1a是根据本公开的实施例的电子设备的配置的框图；

图1b是示出根据本公开的实施例的电子设备中的控制器的配置的框图；

图2和图3是示出根据本公开的实施例的视觉声像的数据结构的示图；

图4是示出根据本公开的实施例的电子设备的生成视觉声像的方法的流程图；

图5a、图5b、图5c、图5d和图5e是示出根据本公开的实施例的与使用存储的图像生成视觉声像的方法相关联的屏幕的示图；

图6a、图6b和图6c是示出根据本公开的实施例的与使用拍摄功能生成视觉声像的方法相关联的屏幕的示图；

图7a和图7b是示出根据本公开的实施例的与使用拍摄功能生成视觉声像的方法相关联的屏幕的示图；

图8a、图8b、图8c、图8d、图8e、图8f、图8g和图8h是示出根据本公开的实施例的与选择图像的特定区域的方法相关联的屏幕的示图；

图8i是示出根据本公开的实施例的与链接声音数据和图像的特定区域的方法相关联的屏幕的示图；

图9是示出根据本公开的实施例的播放包括在视觉声像中的声音数据的方法的流程图；

图10是示出根据本公开的实施例的与播放包括在视觉声像中的声音数据的方法相关联的屏幕的示图；

图11是示出根据本公开的实施例的与将包括在视觉声像中的声音数据设置为通知声音的示例相关联的屏幕的示图；

图12是示出根据本公开的实施例的与共享视觉声像的示例相关联的屏幕的示图；以及

图13是示出根据本公开的实施例的使用视觉声像提供方向的方法的流程图。

贯穿附图，应当注意到，相同的参考标号被用来描绘相同或相似的元素、特征、以及结构。

具体实施方式

下面参考附图的描述被提供来帮助对通过权利要求书及其等同物定义的本公开的各种实施例的全面的理解。其包括各种具体细节来帮助理解，但是这些细节将被认为仅仅是示范性的。因此，本领域普通技术人员将认识到，能够对这里描述的各种实施例进行各种变化和修改，而不脱离本公开的范围和精神。此外，为了清楚和简明，对于熟知功能和结构的描述可以被省略。

在下面说明书和权利要求书中使用的术语和词语不限于书目含义，而是仅仅被发明人用来使对于本公开的清楚和一致的理解成为可能。因此，本领域技术人员应该理解下面对本公开的各种实施例的描述被提供仅仅用于例示的目的，而非用于限制由所附权利要求书以及它们的等同物所定义的本公开的目的。

应当理解，单数形式“一”和“该”包括复数的指示物，除非上下文清楚地另外指出。因此，例如，对于“组件表面”的引用也包括对于一个或多个这样的表面的引用。

在附图的描述中，相同或者相似的参考标号被用来指定相同或者相似的元素。

如本公开的各种实施例所使用的，“包括”、“可以包括”以及其它变形的表达指示相应的公开的功能、操作、或组成元素的存在，而不限制一个或多个另外的功能、操作、或组成元素。

此外，如在本公开的各种实施例中所使用的，术语“包括”、“具有”及其变形仅旨在表示特定特征、数字、步骤、操作、元素、组件或它们的组合，而不应被解释为初始地排除了一个或多个其它特征、数字、步骤、操作、元素、组件或它们的组合的存在，或者其添加的可能性。

在本公开的各种实施例中使用的术语“或”包括所列出的词语的任何或所有组合。例如，“A或B”的表达可以包括A，可以包括B，或者可以包括A和B。

在本公开的各种实施例中使用的诸如“第一”、“第二”等的表达可以修改各种实施例中的各种组件元素，但是可以不限制相应的组件元素。例如，上述表达并不限制元素的顺序和/或重要性。上述表达仅用于区分该元素与其它元素的目的。例如，第一用户设备和第二用户设备指示不同的用户设备，尽管它们两者都是用户设备。例如，第一元素可以被称为第二元素，并且同样地，第二元素也可以被称为第一元素，而不脱离本公开的各种实施例的范围。

在元素被称为“连接”或“接入(access)”到其它元素的情况下，应当理解，不仅该元素直接连接或接入到其它元素，而且在它们之间也可以存在着另一个元素。相反，当元素被称为“直接耦合”或“直接连接”到任何其它元素时，应当理解，在它们之间没有元素。

在本公开的实施例中使用的术语用于描述特定实施例，并且不旨在限制本公开。如这里所使用的，单数形式也旨在包括复数形式，除非上下文另有明确指出。

除非不同地定义，这里所使用的所有术语，包括技术术语或科学术语，具有与本公开所属领域的技术人员所理解的相同的含义。像在通常使用的词典中定义的那样，这样的术语应被解释为具有与在相关领域中的上下文含义相等的含义，并且不应被解释为具有理想的或过度形式化的含义，除非在本公开中清楚地定义。

例如，电子设备可以包括以下各项中的至少一个：智能电话、平板个人计算机(PC)、移动电话、视频电话、电子书(e-book)阅读器、台式PC、膝上型PC、上网本计算机、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MP3播放器、移动医疗器材、相机和可穿戴设备(例如，诸如电子眼镜的头戴式设备(HMD)、电子衣物、电子手镯、电子项链、电子配件、电子纹身或智能手表)。

根据一些实施例，电子设备可以是智能家电。例如，智能家电可以包括以下各项中的至少一个：电视机、数字视频盘(DVD)播放器、音频、冰箱、空调、真空吸尘器、烤箱、微波炉、洗衣机、空气净化器、机顶盒、TV盒(例如，Samsung HomeSync^TM、Apple TV^TM或GoogleTV^TM)、游戏机、电子词典、电子钥匙、摄像机和电子相框。

根据一些实施例，电子设备可以包括以下各项中的至少一个：各种医疗器材(例如，磁共振血管造影术(MRA)、磁共振成像(MRI)、计算机断层摄影(CT)和超声波机)、导航设备、全球定位系统(GPS)接收器、事件数据记录器(EDR)、飞行数据记录器(FDR)、汽车信息娱乐设备、船舶电子设备(例如，船舶导航设备和陀螺罗盘)、航空电子设备、保密设备、车辆头部单元(vehicle head unit)、工业或家庭机器人、银行系统的自动取款机(ATM)和商店的销售点(POS)。

根据一些实施例，电子设备可以包括以下各项中的至少一个：家具或建筑物/结构的一部分、电子板、电子签名接收设备、投影仪和各种测量仪器(例如，水表、电表、燃气表和无线电波表)。

根据本公开的各个实施例的电子设备可以是前述各种设备中的一个或多个的组合。此外，根据本公开的各个实施例的电子设备可以是柔性设备。此外，对于本领域技术人员清楚的是，根据本公开的各种实施例的电子设备不限于前述设备。

在下文中，将参考附图描述根据本公开的各种实施例的电子设备。如在本公开的各种实施例中所使用的术语“用户”可以指使用电子设备的人或使用电子设备的设备(例如，人工智能电子设备)。

图1a是根据本公开的实施例的电子设备的配置的框图。图1b是示出根据本公开的实施例的电子设备中的控制器的配置的框图。图2和图3是示出根据本公开的实施例的视觉声像的数据结构的示图。

参考图1a至图3，根据本公开的实施例的电子设备100可以包括控制器110、存储单元120、触摸屏130、相机单元140、通信单元150、音频处理单元160和位置信息接收单元170。触摸屏130可以包括显示单元131和触摸检测单元132。

控制器110可以控制电子设备100的整体操作和电子设备100的内部块之间的信号流，并且可以执行用于处理数据的数据处理功能。例如，控制器110可以实现为中央处理单元(CPU)、应用处理器(AP)等。控制器110可以被实现为单核处理器或多核处理器。

根据本公开的实施例的控制器110可以控制将包括至少一个对象的图像输出到显示单元131并将至少一个声音数据链接到图像的特定区域(例如，对象的至少一部分、图像中不存在对象的区域的至少一部分、或者图像的背景区域的至少一部分)以便生成视觉声像的程序(procedure)、播放视觉声像的程序、编辑视觉声像的程序、共享视觉声像的程序等。为此，如图1b中所示，控制器110可以包括区域选择单元111、链接单元113和语音识别单元115。

区域选择单元111可以选择图像的特定区域(例如，预先存储的图像或预览图像)。例如，区域选择单元111可以通过用户的手势、被摄体的检测或识别、声音出现的方向的检测、跟踪唇部、跟踪视线、讲话者(speaker)的识别等来选择图像的特定区域。稍后将参考图8a至图8h来描述选择图像的特定区域的方法。

链接单元113可以将声音数据链接到图像的特定区域。链接单元113可以将由预先存储的声音数据、新生成的声音数据和存在声音数据的网页的地址信息中的一个链接到由区域选择单元111选择的图像的特定区域。在这种实例中，可以显示指示声音数据被链接的指示符(例如，符号、图标、文本、照片、图片等)。此外，图像的所选择的特定区域可以被显示以为视觉上区别于未被选择的剩余区域(例如，高亮、黑白、模糊等)。

语音识别单元115可以将声音数据转换为文本。例如，语音识别单元115可以支持语音转文本(speech to text，STT)功能。根据本公开的实施例的语音识别单元115可以在输出视觉声像时将链接到视觉声像的特定区域的声音数据的至少一部分转换为文本。通过转换获得的文本可以显示在图像的特定区域周围。例如，文本可以显示在词语泡泡(对话泡泡)中。

控制器110可以显示视觉声像。视觉声像可以包括以下各项中的至少一个：指示声音数据被链接的指示符(符号、图标、文本、照片、图片等)、从至少一部分声音数据转换的文本、以及用于请求播放链接到图像的整个声音数据的整个播放图标。响应于来自用户的请求，控制器110可以选择性地播放链接到视觉声像的声音数据，或者可以顺序地播放整个声音数据。当声音数据被链接到的区域或指示符被选择时，控制器110可以播放链接到相应区域的声音数据。此外，当整个播放图标被选择时，控制器110可以以声音数据的链接的顺序、以由用户指定的顺序、或者以随机的顺序来播放声音数据。控制器110可以在声音数据被播放时显示当前播放的声音数据被链接到的图像的特定区域以便在视觉上区分开(例如，高亮显示)。

根据本公开的实施例，控制器110可以确定与接收图像的接收者相关联的接收者信息，并且可以优先地播放与接收者信息相关联的声音数据。例如，当接收新郎和新娘的问候语(greeting)被链接到的邀请的接收者是与新郎有关系的人时，控制器110可以优先地播放新郎的问候。相反，当接收到新郎和新娘的问候语被链接到的邀请的接收者是与新娘有关系的人时，控制器110可以优先地播放新娘的问候。例如，控制器110可以在接收到视觉声像时执行脸部识别，并且当所识别的人物被存储在电话簿中时，可以优先地播放对应的人物的声音数据。在这个实例中，当电话簿中存在多个人物时，控制器110可以基于顺序数据223来播放链接到多个人物的声音数据。控制器110可以基于顺序数据223顺序地播放剩余的声音数据(与电话簿中不存在的人物相对应的声音数据)。

根据本公开的实施例，控制器110可以将具有各种质量的声音数据链接到图像的特定区域。例如，图像的所选择的特定区域可以被链接到低质量的声音数据(例如，48kbps或96kbps)，链接到中等质量的声音数据(例如，128kbps或192kbps)、以及链接到高质量的声音数据(例如，256kbps)。虽然低质量的声音数据、中等质量的声音数据和高质量的声音数据在声音质量上存在差异，但是它们包括相同的声音信息。为此，当记录要链接到图像的特定区域的声音数据时，控制器110可以使用许多采样率来生成具有各种质量的声音数据。或者，控制器110可以将预先存储的高质量的声音数据重新编码为中等质量和低质量的声音数据，以生成具有各种质量的声音数据。

如上所述，当链接具有各种质量的声音数据时，当请求播放声音数据时，控制器110可以通过考虑音频处理单元160的能力来选择性地播放具有适当质量的声音数据。例如，控制器110可以基于音频处理单元160支持的编解码器的类型、编解码器的配置文件(profile)、编解码器的播放能力等来选择适当质量的声音数据。

或者，当请求传输(共享)视觉声像时，控制器110可以通过考虑网络流量(例如，上传速率)来传输(共享)适当质量的声音数据被链接到的视觉声像。或者，当请求传输视觉声像时，通过考虑伙伴(partner)终端的音频处理单元的能力，控制器110可以传输适当质量的声音数据被链接到的视觉声像。为此，当请求传输视觉声像时，控制器110可以请求和接收诸如伙伴终端的编解码器的类型、编解码器的配置文件等的信息。或者，控制器110可以基于伙伴终端的类型(例如，移动终端、PC等)来传送适当质量的声音数据被链接到的视觉声像。

根据本公开的实施例，当播放多个视觉声像的幻灯片时，控制器110可以基于包括在每个视觉声像中的至少一个声音数据的整个播放时间来改变幻灯片间隔。

根据本公开的实施例，控制器110可以执行提供方向的功能(例如，导航功能)。例如，控制器110显示链接了至少一个声音数据的地图，并且通过位置信息接收单元170接收当前位置。控制器110可以确定是否存在链接到与接收到的当前位置信息相对应的位置的声音数据，并且可以当存在声音数据时播放所链接的声音数据。当在与当前位置相对应的位置中存在补充图像数据时，控制器110可以输出补充图像(supplementary image)。补充图像可以是预定位置的实际图像或放大图像。

根据本公开的实施例，当组合多个视觉声像时，控制器110可以组合链接到每个图像的声音数据。类似地，当编辑视觉声像时，控制器110可以一起编辑声音数据。例如，当从其中声音数据被链接到三个区域中的每一个的视觉声像中剪切或复制声音数据被链接到的一个区域时，控制器110可以从整个声音数据中剪切或复制链接到被剪切或被复制的该区域的声音数据。

根据本公开的实施例，控制器110可以将包括在视觉声像中的声音数据指定为声音效果，该声音效果指示接收到与该声音数据被链接到的人物相关的事件(接收到呼叫、文本消息、即时消息(IM)等)。下面将参照图11对其进行描述。

存储单元120可以存储电子设备100的操作系统(OS)和其它可选功能所需的应用程序，诸如声音再现功能、图像或视频再现功能、广播再现功能、因特网访问功能、文本消息功能、地图服务功能等。此外，存储单元120可以存储各种数据，例如，电话簿数据、视频数据、游戏数据、音乐数据、电影数据、地图数据等。

存储单元120可以存储用于控制生成、编辑和播放视觉声像的程序(procedure)的控制程序(program)。

存储单元120可以存储用于识别包括在图像中的人物的脸部识别数据库(未示出)和用于识别讲话者的讲话者识别数据库(未示出)。

脸部识别数据库可以存储人物的脸部特征信息。讲话者识别数据库可以存储人物的音色(tone color)信息。

根据本公开的实施例的存储单元120可以存储其中声音数据被链接到图像的特定区域的视觉声像。这里，将参照图2和图3描述视觉声像的数据结构。

参考图2，视觉声像可以由图像数据210、信息数据220和声音数据230形成。信息数据220可以包括指示图像中所选择的特定区域的位置信息的位置数据221、指示包括在所选择的特定区域中的被摄体(人物)的电话簿信息的联系人数据222、以及指示声音数据的播放的顺序的顺序数据223。顺序数据223可以是声音数据的链接的顺序。顺序数据223可以由用户改变。

信息数据220和声音数据230可以以与用户选择的区域的数量相等的数量存在。例如，图2是当信息数据220和声音数据230被链接到图像的三个区域中的每一个时的数据结构。图2示出了图像数据210是JPEG数据而声音数据230是PCM数据的情况。然而，根据本公开的实施例的图像数据210和声音数据230可以以各种格式来提供。

参考图3，视觉声像可以以便携式网络图形(PNG)格式存储。一般的PNG结构可以包括PNG签名310和块(chunk)。块可以包括关键块320和辅助块330。

根据本公开的实施例的视觉声像的PNG结构可以包括PNG原始字段340和声音数据块字段350。PNG原始字段340可以包括PNG签名310和关键块320。声音数据块字段350可以是辅助块字段。声音数据块字段350可以包括4字节的长度字段、4字节的块类型字段、由长度字段指定的字节的块数据字段、以及4字节的循环冗余校验(CRC)字段。PNG格式的视觉声像可以用于通过IM或MMS的传输。

触摸屏130可以执行输入功能和显示功能。为此，触摸屏130可以包括显示单元131和触摸检测单元132。

显示单元131显示由用户输入的信息或要提供给用户的信息以及电子设备100的各种菜单。显示单元131可以实现为液晶显示器(LCD)、有机发光二极管(OLED)、有源矩阵有机发光二极管(AMOLED)等。显示单元131可以根据电子设备100的使用来提供各种屏幕，例如，主屏幕、菜单屏幕、网页屏幕、呼叫屏幕等。根据本公开的实施例的显示单元131可以显示诸如下面描述的屏幕的示例的各种屏幕。

触摸检测单元132是用于提供输入功能的设备，并且可以在触摸输入装置(诸如用户的手指、触控笔、电子笔等)接触或接近触摸检测单元132时，产生触摸事件并将产生的触摸事件发送到控制器110。例如，触摸检测单元132可以基于根据触摸输入装置的接触或接近的物理量(例如，电容、电阻等)的变化来识别触摸事件的发生。此外，触摸检测单元132还可以包括电磁感应类型的触摸面板，用于识别电磁感应类型的电子笔。如上所述的触摸检测单元132对于本领域技术人员是清楚的，因此，将省略对其的描述。

根据本公开的实施例的触摸检测单元132可以检测用于控制视觉声像的生成、编辑和播放的各种触摸信号的输入，并且可以将检测到的触摸信号发送到控制器110。

相机单元140是用于拍摄被摄体的设备，其可以将通过拍摄被摄体产生的图像转换为电信号，并将电信号存储为数字数据。相机单元140可以被实现为电荷耦合器件(CCD)图像传感器或互补金属氧化物半导体(CMOS)图像传感器。相机单元140可以支持图像拍摄功能和视频拍摄功能。根据本公开的实施例的相机单元140可以支持声音拍摄模式(soundshot photographing mode)。声音拍摄模式是能够将声音数据链接到拍摄图像的拍摄模式。根据本公开的实施例的相机单元140可以包括安装在电子设备100的前侧(包括显示单元131的一侧)的前置相机(未示出)和安装在电子设备100的后侧的后置相机(未示出)。根据本公开的实施例的前置相机可以用于在使用声音拍摄模式时跟踪拍摄者的视线。

根据本公开的实施例，电子设备100还可以包括单独地用于跟踪拍摄者的视线的视线跟踪相机。或者，电子设备100可以与能够跟踪拍摄者的视线的单独的电子设备(例如，以眼镜形式提供的可穿戴电子设备)一起工作，从而从单独的电子设备中接收拍摄者的视线信息。

通信单元150可以支持电子设备100的有线和/或无线通信功能。例如，通信单元150可以包括支持移动通信功能(例如，3G或4G中的移动通信)的移动通信模块、支持短距离无线通信功能的无线LAN通信模块、蓝牙通信模块、红外通信模块、Zigbee通信模块、以及支持有线通信功能的USB通信模块等。根据本公开的实施例的通信单元150可以在控制器110的控制下向另一电子设备发送或从另一电子设备接收视觉声像。或者，通信单元150可以从可穿戴电子设备(未示出)接收拍摄者的视线信息，并将其发送到控制器110。

音频处理单元160可以与扬声器和麦克风相连接，扬声器用于输出在呼叫期间发送/接收的音频信号、包括在接收到的消息中的音频信号或根据存储在存储单元120中的音频文件的再现的音频信号，麦克风用于收集用户的语音或其它音频信号。根据本公开的实施例的音频处理单元160可以通过至少一个麦克风(MIC)收集要链接到图像的特定区域的声音数据，或者可以通过扬声器(SPK)输出链接到图像的特定区域的声音数据。

位置信息接收单元170可以通过各种方法确定电子设备100的当前位置。例如，位置信息接收单元170可以通过诸如全球定位系统(GPS)、全球导航卫星系统(GNSS)、GALILEO等的卫星导航系统来确定电子设备100的当前位置。或者，位置信息接收单元170可以通过使用从多个基站(例如，三个或更多个基站)接收的无线信号计算位置的三角测量来确定电子设备100的当前位置。或者，位置信息接收单元170可以使用位置已知的相邻接入点(AP)来确定电子设备100的当前位置。确定电子设备100的位置的方法是公知的技术，并且对于本领域技术人员是清楚的，因此将省略对其的描述。

尽管在图1a中未示出，但是电子设备100还可以选择性地包括诸如各种传感器模块的组成元件，诸如用于接收广播的广播接收模块、诸如MP3的数字声源播放模块、红外传感器模块、照明传感器模块、运动传感器模块等。或者，根据本公开的实施例的电子设备100还可以包括与上述组成元件等同级别的组成元件。

图4是示出根据本公开的实施例的生成电子设备的视觉声像的方法的流程图。

参考图4，根据本公开的实施例的电子设备100的控制器110可以在操作401中输出图像。该图像可以是通过拍摄或下载预先存储在电子设备100的存储单元120中的图像，或者用于拍摄图像的预览图像。图像可以包括至少一个对象。对象(object)可以是诸如人物、动物、建筑物、玩偶、监视器、汽车等的被摄体(subject)。

在操作403，控制器110可以检测对输出图像中的特定区域的选择。该特定区域可以是对象的至少一部分、图像中不存在对象的区域的至少一部分、或者图像的背景的至少一部分。

特定区域可以由用户选择，或者可以由控制器110的区域选择单元111自动选择。例如，用户可以绘制闭合曲线或开放曲线(例如，未完成的闭合曲线)以使得能够包括输出图像的预定的被摄体。或者，区域选择单元111可以通过以下方式选择图像的特定区域：对被摄体的检测或识别、对声音出现的方向的检测、跟踪唇部、跟踪视线、识别讲话者等。稍后将参考图8a至图8h描述选择图像的特定区域的方法。

在操作405，控制器110可以将声音数据链接到所选择的特定区域。存储在存储单元120中的声音数据、使用记录功能新产生的声音数据、以及存在声音数据的网页的地址信息中的一个可以被链接到所选择的特定区域。

当声音数据的链接完成时，控制器110可以在操作407中确定是否请求存储(storage)。可以通过单独的菜单(或键)请求存储。

当不请求存储时，控制器110可以返回到操作403。也就是说，控制器110可以检测对图像的另一特定区域的选择，并且可以将声音数据链接到所选择的另一特定区域。

相反，当请求存储时，控制器110可以进行操作409，并且可以存储其中声音数据被链接到所选择的特定区域的图像(视觉声像)。

根据本公开的实施例，当声音数据的链接完成时，即使没有单独的存储请求，控制器110也可以自动存储视觉声像。

图5a至图5e示图示出根据本公开的实施例的与使用存储的图像生成视觉声像的方法相关联的屏幕的示图。

参考图5a至图5e，根据本公开的实施例的电子设备可以检测对请求显示存储的图像的列表的图库(gallery)图标501的选择，如图5a的参考标号510的附图所示。当检测到对图库图标501的选择时，电子设备可以输出存储的图像的列表，如图5a的参考标号515的附图所示。例如，电子设备可以以缩略图的形式输出图像的列表。

当从列表中选择单个图像503时，电子设备可以输出所选择的图像503，如图5a的参考标号520的附图所示。

电子设备可以检测对图像503的特定区域504的选择。例如，电子设备可以通过在图像503中检测到的用户手势来检测对图像503的特定区域504的选择，如在图5a的参考标号520的附图所示。

当检测到对图像503的特定区域504的选择时，电子设备可以输出用于链接声音数据的功能菜单505，如图5b的参考标号525的附图所示。功能菜单505可以包括用于链接预先存储的声音数据之一的第一菜单505a、用于链接通过记录功能产生的新声音数据的第二菜单505b、以及用于链接其中声音数据所位于的网页的地址信息的第三菜单505c。功能菜单505可以显示在所选择的特定区域504周围。

当从功能菜单505中选择第一菜单505a时，电子设备可以输出预先存储的声音数据的列表，如图5b的参考标号530的附图所示。

在图5b的参考标号530的附图的状态下，当选择了预定的声音数据507并且输入了选择完成菜单509时，电子设备返回到显示所选择的图像503的屏幕，如图5c的参考标号535的附图所示。并且可以在图像503的所选择的特定区域504周围显示指示存在声音数据的第一通知图标511。第一通知图标511可以被显示为符号、图片、图像、文本等。虽然未示出，但是所选择的特定区域可以被显示为在视觉上区别于未被选择的另一区域。

电子设备可以检测对图像503的另一区域513的选择，如图5c的参考标号540的附图所示。当检测到对另一区域513的选择时，电子设备可以输出功能菜单505，如图5c的参考标号545的附图所示。当从功能菜单505中选择第二菜单505b时，电子设备可以输出用于实现记录功能的屏幕(以下称为记录等待屏幕)，如图5d的参考标号550的附图所示。记录等待屏幕可以包括预先记录的文件的列表514a和用于请求开始记录的记录图标514b。

当在参考标号550的附图中选择记录图标514b时，电子设备可以显示其中执行记录的记录执行屏幕，如图5d的参考标号555的附图所示。例如，记录执行屏幕可以包括麦克风图像516a、指示记录时间的计时器516b、记录文件的标题516c和记录控制菜单517。记录控制菜单517可以包括取消菜单517a、暂停菜单517b和记录终止菜单517c。

如图5d的参考标号560的附图所示，当输入记录终止菜单517c时，电子设备终止记录，并返回记录等待屏幕，如图5e的参考标号565的附图所示。在这个实例中，新生成的记录文件“语音009”516c可以在被选择的状态下显示在列表的顶部。

当在图5e的参考标号565的附图中输入选择完成菜单509时，电子设备可以返回到显示所选择的图像503的屏幕，如图5e的参考标号570的附图所示，并且可以在图像503的另一区域513周围显示第二通知图标519。

图6a至图6c是示出根据本公开的实施例的与使用拍摄功能生成视觉声像的方法相关联的屏幕的示图。

参考图6a至图6c，根据本公开的实施例的电子设备可以检测对相机图标601的选择，如图6a的参考标号610的附图所示。当检测到对相机图标601的选择时，电子设备可以输出预览屏幕，如图6a的参考标号615的附图所示。

当在预览屏幕中选择模式菜单603时，电子设备可以在预览屏幕的一侧显示电子设备所支持的各种拍摄模式，如图6b的参考标号620的附图所示。

当从各种拍摄模式中选择声音拍摄模式(sound shot mode)605时，电子设备可以输出声音拍摄模式的预览屏幕，如图6b的参考标号625的附图所示。

如图6b的参考标号625的附图所示，当检测到对请求记录的记录请求菜单609的选择时，在声音数据要链接到的区域607被选择的状态下，电子设备可以执行记录功能，如图6c的参考标号630的附图所示。记录请求菜单609可以显示声音数据要链接到的区域607的图像。例如，当电子设备拍摄人物时，电子设备通过脸部检测功能检测人物的脸部，并且可以将检测到的人物的脸部设置为声音要链接到的区域。在这个实例中，记录请求菜单609可以显示人物的脸部。

根据本公开的实施例，当在预览屏幕中检测到多个人物时，电子设备可以显示多个记录请求菜单。用户可以选择多个记录请求菜单中的一个，并且可以将声音数据链接到与所选择的记录请求菜单相对应的人物的脸部区域。或者，当在预览屏幕中检测到多个人物时，电子设备可以在记录请求菜单中显示聚焦的人物的图像或用户选择的人物的图像。

根据本公开的实施例，当在预览屏幕中检测到被摄体(例如，人物)时，电子设备可以通过被摄体识别功能来识别被摄体，并且可以显示与被摄体相关联的信息。例如，当被摄体是人物时，电子设备可以通过脸部识别功能来识别人物，并且当相应的人物被存储在电话簿中时，可以显示相应的人物的姓名或昵称。在这个实例中，当在预览屏幕中检测到对人物的脸部区域或姓名(或昵称)的触摸时，控制器110可以执行记录功能。

参考图6c的参考标号630的附图，当通过选择记录请求菜单609执行记录功能时，电子设备可以在预览屏幕的一侧显示指示可用记录时间和记录时间的图形611。这里，本公开的实施例可以通过考虑数据的容量来限制可用记录时间。然而，本公开的另一实施例可以不限制可用记录时间。

当重新选择记录请求菜单609时，电子设备可以终止记录。如图6c的参考标号635的附图所示，当在记录完成之后选择拍摄菜单613时，电子设备可以拍摄被摄体。

当被摄体的拍摄完成时，电子设备可以输出拍摄的图像，如图6c的参考标号640的附图所示。在这个实例中，拍摄的图像可以包括通知图标614。

根据图6a至图6c的本公开的实施例可以在拍摄被摄体之前生成要链接的声音数据。

图7a和图7b是示出根据本公开的实施例的与使用拍摄功能生成视觉声像的方法相关联的屏幕的示图。

参考图7a和图7b，根据本公开的实施例的电子设备可以检测对相机图标701的选择，如图7a的参考标号710的附图所示。当检测到对相机图标701的选择时，电子设备可以输出预览屏幕，如图7a的参考标号715的附图所示。

当在预览屏幕中选择拍摄菜单702时，电子设备可以拍摄被摄体，并且可以输出拍摄的图像。在这个实例中，用户可以选择拍摄的图像的特定区域703，如图7b的参考标号720的附图所示。这里，拍摄的图像的特定区域703可以不限于通过用户的手势选择的区域，并且可以通过以下描述的各种方法来选择。

当检测到对图像的特定区域703的选择时，电子设备可以输出功能菜单705，如图7b的参考标号725的附图所示。通过功能菜单705，声音数据可以被链接到拍摄的图像的特定区域703。这里，已经通过图5a至图5e描述了使用功能菜单705链接声音数据的方法，并且因此，将省略其描述。

当完成声音数据的链接时，电子设备可以在拍摄的图像的一侧显示通知图标707，如图7b的参考标号730的附图所示。

根据图7a和图7b的本公开的实施例可以在拍摄被摄体之后链接声音数据。

图8a至图8h是示出根据本公开的实施例的与选择图像的特定区域的方法相关联的屏幕的示图。

参考图8a，根据本公开的实施例的电子设备可以基于用户的手势来选择图像的特定区域。例如，用户可以使用手指、触摸输入装置(例如，手写笔)等在图像上绘制图形(例如，圆形)。该图形可以是闭合曲线或开放曲线(未完成的闭合曲线)。例如，电子设备可以自动地绘制剩余的部分803以形成完整的闭合曲线，尽管用户只绘制了未完成的闭合曲线801，如图8a所示。

如上所述，本公开的实施例可以基于用户的手势来选择(指定)声音数据要链接到的图像的特定区域。

参考图8b，根据本公开的实施例的电子设备可以检测包括在基于用户的手势选择的区域中的对象，并且可以将检测到的对象指定为声音数据要链接到的区域。例如，如参考图8b中所示，电子设备可以检测基于用户的手势绘制的闭合曲线805内的对象807，并且可以将检测到的对象807指定为声音数据要链接到的区域。这里，检测对象的方法是图像处理领域中的公知技术，因此，将省略对其的描述。

参考图8c，根据本公开的实施例的电子设备可以使用被摄体检测技术来选择图像的特定区域。例如，电子设备可以通过脸部检测技术从图像中检测被摄体的脸部，并且可以将包括检测到的脸部的区域809指定为声音数据要链接到的图像。或者，电子设备可以将与检测到的脸部相对应的区域811指定为声音数据要链接到的区域。

参考图8d，根据本公开的实施例的电子设备可以选择预览图像中的特定区域。例如，电子设备可以通过被摄体检测(例如，脸部检测)来选择声音数据要链接到的至少一个区域812a和812b。或者，电子设备可以基于用户的手势来选择特定区域。

如上所述，当声音数据要链接到的特定区域被选择时，电子设备可以从所选择的特定区域中检测被摄体，并且可以显示与通过被摄体识别功能检测到的被摄体相关联的信息。例如，如图8d中所示，电子设备可以显示与通过脸部识别检测到的人物相关联的信息813a和813b。与该人物相关联的信息813a和813b可以是存储在电话簿中的用户的姓名或昵称。可以使用词语泡泡来显示与人物相关联的信息813a和813b。

参考图8e，根据本公开的实施例的电子设备可以基于声音出现的方向来选择声音数据要链接到的区域。可以使用通过多个麦克风输入的声音数据来检测声音出现的方向。检测声音出现的方向的方法是公知的技术，因此将省略其描述。

当检测到声音的出现时，电子设备检测声音出现的方向，并且选择包括位于所检测到的方向上的被摄体(例如，讲话者)的区域的一部分作为声音数据要链接到的区域。例如，当声音出现在90度的方向上时，电子设备选择讲话者2的脸部区域814作为声音数据要链接到的区域，并且当声音出现在135度的方向上时，电子设备选择讲话者1的脸部区域815作为声音数据要链接到的区域。在这个实例中，电子设备可以将在90度方向上出现的声音链接到讲话者2的脸部区域814，并且可以将在135度方向上出现的声音链接到讲话者1的脸部区域815。这里，声音出现的方向可以是预定范围，而不是预定角度。当难以识别声音出现的方向时，控制器110可以将声音数据链接到图像的整个区域。

根据本公开的实施例，当在一个方向上存在多个讲话者时，电子设备可以将多个讲话者分组成组，并且可以将声音数据链接到该组。控制器110可以识别包括在该组中的人物的脸部，并且当所识别的人物存在于电话簿中时，可以生成与所识别的人物相关联的电话簿组。当生成新的电话簿组时，或者当已经存在与所识别的人物相关联的电话簿组时，控制器110可以向每个成员发送视觉声像。

尽管图8e将声音出现的方向分为5类(0度、45度、90度、135度和180度)，本公开的实施例不限于此。可以基于电子设备的能力来优化地划分声音出现的方向。电子设备可以基于预定时段检查声音是否出现以及声音出现的方向。可以基于电子设备的能力来优化预定时段。

参考图8f，根据本公开的实施例的电子设备可以通过跟踪唇部来选择声音数据要链接到的区域。例如，电子设备在预览屏幕中检测至少一个被摄体(例如，至少一个人)的唇部817，并且当通过跟踪检测到的唇部817检测到唇部运动时，可以选择相应的被摄体的特定区域(例如，脸部区域)作为声音要链接到的区域。在这个实例中，电子设备可以将当前通过麦克风输入的声音数据819链接到检测到唇部运动的被摄体的特定区域。

参考图8g，根据本公开的实施例的电子设备可以基于拍摄者的视线来选择声音数据要链接到的区域。例如，电子设备可以在拍摄者通过后置相机(未示出)预览被摄体的同时，使用前置相机825跟踪拍摄者的视线，以便识别拍摄者观看的被摄体。电子设备可以选择拍摄者观看的被摄体821的至少一个特定区域作为声音数据要链接到的区域。电子设备可以将通过麦克风输入的声音数据823链接到所识别的被摄体821的特定区域(例如，脸部区域)。

参考图8h，根据本公开的实施例的电子设备可以基于用户的触摸输入(例如，触摸和拖动)来选择声音数据要链接到的区域。例如，当在预览屏幕中检测到拍摄菜单826上的触摸时，电子设备可以在拍摄菜单826周围显示与包括在预览屏幕中的被摄体相关联的信息(例如，脸部图像)，如参考标号850的附图所示。

当拍摄菜单826在预定的被摄体信息828上移动时，如参考标号860的附图所示，电子设备可以选择与预定的被摄体信息828相对应的被摄体的特定区域827作为声音数据要链接到的区域。在这个实例中，可以将被摄体的所选择的特定区域827显示为在视觉上区别于另一区域。电子设备可以将输入声音数据829链接到被摄体的特定区域827。当检测到对拍摄菜单826的触摸的释放时，电子设备可以执行拍摄。

图8i是示出根据本公开的实施例的与链接声音数据和图像的特定区域的方法相关联的屏幕的示图。

参考图8i，根据本公开的实施例的电子设备将屏幕划分为两个区域，在第一区域81中输出图像，并且在第二区域83中可视化并输出声音数据(例如，图形)。根据本公开的实施例，电子设备可以不划分屏幕，在整个屏幕中输出图像，并且通过将图像和可视化的声音数据重叠来在图像的一侧(例如，底侧)显示可视化的声音数据。声音数据的可视化指示以图形的形式显示声音数据的至少一个特征，例如，波形、级别、包络等。

用户可以选择可视化的声音数据的特定部分831，并将所选择的部分链接到图像的特定区域833。例如，用户可以触摸可视化的声音数据中的预定位置，并且可以将其拖放到声音数据要链接到的图像的特定区域833。在这个实例中，电子设备提取位于存在于触摸位置(仅存在小于或等于预定大小的声音的部分)之前的静音部分与存在于触摸位置之后的静音部分之间的声音数据831，将提取的声音数据831链接到其中触摸被释放的图像的特定区域833。

根据本公开的实施例，电子设备在声音数据的图形中显示用于选择部分的开始标记和结束标记，并且使得用户能够移动开始标记和结束标记以便容易地选择声音数据的特定区域。

根据本公开的实施例，电子设备相对于可视化的声音数据的每个部分识别讲话者，识别包括在图像中的人物的脸部，将讲话者识别的结果与脸部识别的结果进行比较，并且为可视化的声音数据的每个部分显示匹配的讲话者的脸部图像。

根据本公开的实施例，当选择部分时，电子设备可以播放所选择的部分的声音数据。为此，用户可以预先确定是否很好地选择了期望的声音数据。

根据本公开的实施例，电子设备识别与声音数据相关联的讲话者，并且为每个讲话者划分声音数据。此外，电子设备可以对图像中的人物执行脸部识别。基于讲话者识别的结果和脸部识别的结果，电子设备可以自动地将针对每个讲话者划分的声音数据链接到对应的人物。例如，当人物A的声音数据被包括在声音数据中，并且人物A的脸部存在于图像中时，电子设备可以自动地将人物A的声音数据链接到人物A的脸部。

图9是示出根据本公开的实施例的播放包括在视觉声像中的声音数据的方法的流程图。图10是示出根据本公开的实施例的与播放包括在视觉声像中的声音数据的方法相关联的屏幕的示图。

参考图9和图10，在操作901中，根据本公开的实施例的电子设备的控制器110可以输出声音数据被链接到的图像(视觉声像)。例如，控制器110可以将视觉声像输出到显示器131，如图10中所示。控制器110可以控制显示单元131将视觉声像的选择区域1005显示为在视觉上与另一区域(未选择的区域)区分开。例如，控制器110可以执行模糊、黑白处理、调整亮度等，以使得所选择的区域1005能够在视觉上区别于未选择的区域。

视觉声像可以包括以下各项中的至少一个：指示所链接的声音数据的至少一部分为文本的词语泡泡1001；指示声音数据被链接的通知图标1003；以及请求所链接的声音数据的顺序播放的整个播放图标1007。

在操作903，控制器110确定是否选择了声音数据被链接到的预定区域。当选择了预定区域时，控制器110可以进行操作905，以便播放链接到所选择的预定区域的声音数据。相反，当未选择预定区域时，控制器110可以进行操作907，以便确定是否请求了整个播放。例如，控制器110可以确定是否触摸了整个播放图标1007。

当请求整个播放时，控制器110可以进行操作909，以便顺序地播放整个声音数据。当未请求整个播放时，控制器110可以进行操作911。

在操作911中，控制器110可以确定是否请求终止。当没有请求终止时，控制器110可以返回到操作903，以便执行上述操作。相反，当请求终止时，控制器110可以终止显示视觉声像。

尽管未示出，但是具有各种质量的声音数据(例如，低质量的声音数据、中等质量的声音数据和高质量的声音数据)可以被链接到图像的特定区域。在这个实例中，电子设备可以通过考虑在播放声音数据时音频处理单元的能力来选择并播放适当质量的声音数据。

图11是示出根据本公开的实施例的与将包括在视觉声像中的声音数据设置为通知声音的示例相关联的屏幕的示图。

在下文中，假设电子设备区分手写笔的触摸输入和手指的触摸输入。例如，可以通过电磁感应类型的触摸面板来检测手写笔的触摸输入，并且可以通过电容型的触摸面板来检测手指的触摸。

参考图11，根据本公开的实施例的电子设备可以输出声音数据被链接到的图像。当在声音数据被链接到的区域1101中检测到手写笔的触摸输入时，电子设备可以输出包括如参考标号1110的附图中所示的多个菜单的弹出菜单窗口1103。

当在弹出菜单窗口1103中选择声音效果指定菜单1103a时，电子设备可以将链接到区域1101的声音数据指定为指示接收到与对应的人物相关联的信息(例如，SMS、MMS、IM、电子邮件等)的通知声音。例如，如参考标号1120的附图中所示，电子设备可以将存储在包括在区域1101中的人物的电话簿信息中的铃声1105和消息通知声音1107改变为所链接的声音数据。

图12是示出根据本公开的实施例的与共享视觉声像的示例相关联的屏幕的示图。

参考图12，根据本公开的实施例的电子设备可以通过多媒体消息服务(MMS)或即时消息(IM)将声音数据被链接到的图像发送到另一电子设备。例如，在聊天屏幕中选择文件附加图标1201，如参考标号1210的附图中所示，电子设备可以显示存储的文件的缩略图列表，如参考标号1220的附图中所示。当从缩略图列表中选择了声音数据被链接到的图像的缩略图1203时，电子设备可以将所选择的缩略图1203显示在消息输入区域1205中，如参考标号1230的附图中所示。随后，当输入传输菜单1207时，电子设备可以将对应于所选择的缩略图的文件传送到用户与其交谈的伙伴的终端。在这个实例中，电子设备可以以数据包的形式配置图像数据和声音数据，并将其传送到伙伴的终端。例如，传送到伙伴的终端的数据可以具有如图3所示的结构。

当具有各种质量的声音数据(例如，低质量的声音数据、中等质量的声音数据和高质量的声音数据)被链接到图像的特定区域时，电子设备可以通过考虑网络流量(例如，上传速率)来将适当质量的声音数据链接到图像数据，并且可以将其传送到另一电子设备。例如，电子设备在上传速率小于第一参考值时链接低质量的声音数据并执行传输，在上传速率大于或等于第一参考值并小于第二参考值时链接中等质量的声音数据并执行传输，并且在上传速率大于或等于第二参考值时链接高质量的声音数据并执行传输。

根据本公开的实施例，电子设备可以通过考虑伙伴的终端的类型、声音数据播放能力等，将视觉声像传送到伙伴的终端。例如，当请求传输视觉声像时，电子设备请求并接收与终端的类型、声音数据播放能力等相关联的信息，通过基于接收的信息将适当质量的声音数据链接到图像来生成视觉声像，并且将所生成的视觉声像传送到伙伴的终端。或者，电子设备可以在从链接到视觉声像的具有各种质量的声音数据中排除适合于伙伴的终端的质量的声音数据之后，去除剩余的声音数据，并将视觉声像传送到伙伴的终端。

参考图13，根据本公开的实施例的电子设备100的控制器110可以在操作1301中显示其中声音数据被链接以提供方向的地图。地图可以不是用于提供方向的一般地图，而可以是其中用户将用于提供方向的声音数据链接到预定位置的地图。

在操作1303中，控制器110可以确定当前位置。例如，控制器110可以通过位置信息接收单元170来确定当前位置。

当完成当前位置的确定时，在操作1305中，控制器110可以确定是否存在链接到当前位置的声音数据。当不存在声音数据时，控制器110可以进行操作1309。相反，当存在声音数据时，控制器110可以进行操作1307以播放所链接的声音数据。

在操作1309，控制器110可以确定是否存在链接到当前位置的补充图像。补充图像可以是当前位置的实际图像、放大图像等。

当不存在补充图像数据时，控制器110可以进行下面描述的操作1313。相反，当存在补充图像时，控制器110可以继续操作1311以输出所链接的补充图像。

在操作1313中，控制器110可以确定是否请求提供方向的终止。当没有请求终止时，控制器110可以返回到操作1303，以重复上述操作。相反，当请求终止时，控制器110可以终止提供方向。

根据各种实施例，根据本公开的设备中的至少一些(例如，其模块或其功能)或方法(例如，操作)可以通过以编程模块形式存储在计算机可读存储介质中的命令来实现。当由一个或多个处理器(例如，处理器110)执行命令时，一个或多个处理器可以执行与命令相对应的功能。计算机可读存储介质可以是，例如，存储器120。编程模块中的至少一些可以由，例如，处理器来实现(例如，执行)。编程模块中的至少一些可以包括，例如，模块、程序、例程、指令集或过程，用于执行一个或多个功能。

计算机可读记录介质可以包括：磁介质，诸如硬盘、软盘、磁带；光学介质，诸如光盘只读存储器(CD-ROM)和数字多功能盘(DVD)；磁光介质，诸如软光盘；以及专门被配置为存储和执行程序命令的硬件设备，诸如只读存储器(ROM)、随机存取存储器(RAM)和闪速存储器。另外，程序指令可以包括高级语言代码，其可以通过使用解释器在计算机中执行，以及由编译器制作的机器代码。如上所述的任何硬件设备可以被配置为作为一个或多个软件模块工作，以便执行根据本公开的各种实施例的操作，反之亦然。

根据本公开的各种实施例的任何模块或编程模块可以包括上述元素中的至少一个，排除一些元素，或者还包括其它另外的元素。由根据本公开的各种实施例的模块、编程模块或其它元素执行的操作可以以顺序、并行、重复或启发式(heuristic)方式执行。此外，一些操作可以以另一种次序执行或者可以被省略，或者可以也添加其它的操作。

虽然已经参考本公开的各种实施例示出和描述了本公开，但是本领域技术人员将理解，可以在这里进行各种形式和细节上的改变，而不脱离由所附权利要求书及其等同物定义的本公开的精神和范围。

Claims

1.一种操作电子设备的方法，该方法包括：

响应于用户请求操作电子设备的相机；

由所述电子设备在显示器上显示从相机获得的包括至少一个对象的预览图像；

由所述电子设备选择显示在所述显示器上的预览图像中包括讲话者的特定区域；

在显示预览图像的状态下，响应于对记录菜单的选择，使用记录功能收集声音数据；

由所述电子设备将收集的声音数据链接到所述包括讲话者的特定区域；

存储声音数据被链接到所述特定区域的声像；以及

在播放所述声音数据时，高亮显示当前播放的声音数据被链接到的特定区域。

2.如权利要求1所述的方法，还包括：

由所述电子设备在所述显示器上的声像中显示指示所述声音数据的链接的符号、图标、文本、照片和图片中的至少一个。

3.如权利要求1所述的方法，其中，选择包括讲话者的特定区域包括以下中的至少一个：

基于用户手势选择所述特定区域；

从所述图像中检测被摄体，以及选择所述图像的特定区域以使其能够包括所检测到的被摄体；

跟踪拍摄者的视线，以及选择所述图像的特定区域以使其能够包括位于所述拍摄者的视线中的被摄体；

跟踪被摄体的唇部运动，以及基于跟踪的结果选择所述图像的特定区域以使其能够包括唇部运动的被摄体；

识别当检测到声音出现时声音出现的方向，以及选择所述图像的特定区域以使其能够包括位于识别的声音出现的方向上的被摄体；

识别与所述声音数据相关联的讲话者，以及识别所述图像中所包括的被摄体，并且基于讲话者识别的结果和被摄体识别的结果，选择所述图像的特定区域以使其能够包括与所识别的讲话者相对应的被摄体；或者

当在预览屏幕中检测到对拍摄菜单的触摸时，在所述拍摄菜单周围显示与包括在所述预览屏幕中的至少一个被摄体相对应的至少一个图标，并且当所述拍摄菜单被拖动到显示预定图标的位置时，选择与所述预定图标相对应的被摄体的特定区域。

4.如权利要求1所述的方法，还包括：

当所选择的特定区域包括人物时，通过脸部识别确定与该人物相关联的信息并显示所述信息。

5.如权利要求1所述的方法，其中，所述声音数据的链接包括以下之一：

选择预先存储的声音数据之一，并执行链接；以及

链接存在声音数据的网页的地址信息。

6.如权利要求1所述的方法，其中，所述声音数据的链接包括：

可视化和显示所述声音数据；

选择可视化的声音数据的特定部分；以及

将与所选择的特定部分相对应的声音数据链接到所述特定区域。

7.如权利要求6所述的方法，还包括：

对于可视化的声音数据的每个部分识别讲话者；

识别所述预览图像中包括的人物的脸部；以及

比较讲话者识别的结果和脸部识别的结果，以及针对可视化的声音数据的每个部分显示匹配的讲话者的脸部图像。

8.如权利要求2所述的方法，还包括以下中的至少一个：

当声音数据被链接到的区域、或者符号、图标、文本、照片或图片被选择时，播放链接到相应的区域的所述声音数据；以及

当请求播放链接到所述图像的整个声音数据时，按照用户指定的顺序，按照声音数据的链接的顺序，或者按照随机顺序，顺序地播放链接到所述图像的至少一个声音数据。

9.如权利要求1所述的方法，还包括以下中的至少一个：

响应于所述声音数据被链接到的图像的编辑，编辑所链接的声音数据；或者

当组合声音数据被链接到的多个图像时，组合链接到所述多个图像的所述声音数据。

10.一种电子设备，包括：

显示单元；

控制器，被配置为：

响应于用户请求操作电子设备的相机；

由所述电子设备在显示单元上显示从相机获得的包括至少一个对象的预览图像；

选择显示在所述显示单元上的预览图像中包括讲话者的至少一个特定区域；

通过将所选择的特定区域链接到收集的声音数据来生成声像；以及

存储单元，被配置为存储所述声像，

其中，所述控制器还被配置为播放所述声音数据，并且高亮显示当前播放的声音数据被链接到的特定区域。

11.如权利要求10所述的电子设备，其中，所述控制器还被配置为在所述声像上显示指示所述声音数据的链接的符号、图标、文本、照片和图片中的至少一个。

12.如权利要求10所述的电子设备，其中，所述控制器包括区域选择单元，该区域选择单元被配置为执行以下中的至少一个：

基于用户手势选择所述特定区域；

识别与声音数据相关联的讲话者，以及识别所述图像中所包括的被摄体，并且基于讲话者识别的结果和被摄体识别的结果，选择所述图像的特定区域以使其能够包括与所识别的讲话者相对应的被摄体；或者

13.如权利要求10所述的电子设备，其中，所述控制器还被配置为执行控制以识别与包括在所述特定区域中的被摄体相关联的信息，并且在所述被摄体周围显示与所识别的被摄体相关联的信息。

14.如权利要求10所述的电子设备，其中，所述控制器包括链接单元，该链接单元被配置为将预先存储的声音数据、以及存在声音数据的网页的地址信息中的一个，链接到所述对象的至少一个特定区域或所述图像的特定区域。

15.如权利要求10所述的电子设备，其中，所述控制器还被配置为在声音数据被链接时可视化和显示所述声音数据，接收对可视化的声音数据的特定部分的选择，并且响应于用户的请求，将与所述特定部分相对应的声音数据链接到所述特定区域。

16.如权利要求15所述的电子设备，其中，所述控制器还被配置为：

对于可视化的声音数据的每个部分识别讲话者；

对于所述预览图像中包括的人物识别脸部；以及

17.如权利要求11所述的电子设备，其中，所述控制器还被配置为当声音数据被链接到的区域、或者符号、图标、文本、照片或图片被选择时，播放链接到相应的区域的所述声音数据，以及当请求播放链接到所述图像的整个声音数据时，按照用户指定的顺序，按照声音数据的链接的顺序、或者按照随机顺序，顺序地播放链接到所述图像的至少一个声音数据。

18.如权利要求10所述的电子设备，其中，所述控制器还被配置为：

响应于编辑所述声音数据被链接到的图像，编辑链接到所述图像的声音数据；或者

当组合所述声音数据被链接到的多个图像时，组合链接到所述多个图像的声音数据。