CN115238111A

CN115238111A - 一种图片显示方法及电子设备

Info

Publication number: CN115238111A
Application number: CN202210685494.6A
Authority: CN
Inventors: 李宗原; 蔡子轩
Original assignee: Honor Device Co Ltd
Current assignee: Honor Device Co Ltd
Priority date: 2022-06-15
Filing date: 2022-06-15
Publication date: 2022-10-25
Anticipated expiration: 2042-06-15
Also published as: CN115238111B

Abstract

本申请实施例提供了一种图片显示方法及电子设备，涉及终端技术领域，可以在显示图片的同时，播放图片对应的语音旁白。其中，电子设备显示第一界面，第一界面中包括第一相册的选项。电子设备响应于用户对第一相册的选项的第一操作，显示第二界面，第二界面中包括第一相册中多张图片的缩略图。电子设备响应于用户对第二界面中第一缩略图的第二操作，显示第三界面，并播放第一语音，第一缩略图是第一相册中第一图片的缩略图，第三界面中包括第一图片。其中，第一语音是根据多张图片和/或用户当前的情绪特征生成的。

Description

一种图片显示方法及电子设备

技术领域

本申请涉及终端技术领域，尤其涉及一种图片显示方法及电子设备。

背景技术

手机、平板等电子设备通常都支持拍照功能，并且拍照得到的图片可集中在图库应用(也可以称为相册应用)中查看。但是，图库应用提供的信息较单一，通常主要提供图片内容供用户查看。

发明内容

有鉴于此，本申请提供了一种图片显示方法及电子设备，可以显示图片的同时，播放图片对应的语音旁白。

第一方面，本申请实施例提供一种图片显示方法，可以应用于手机、平板等电子设备中。该电子设备中包括第一相册，第一相册中包括第一图片。其中，电子设备显示第一界面，第一界面中包括第一相册的选项。例如，第一界面可以是图库应用中相册菜单项对应的界面，相册的选项通常用相册的封面表示。电子设备响应于用户对第一相册的选项的第一操作，显示第二界面。第二界面中包括第一相册中多张图片的缩略图。电子设备响应于用户对第二界面中第一缩略图的第二操作，显示第三界面，并播放第一语音，第一缩略图是第一相册中第一图片的缩略图，第三界面中包括第一图片。也就是说，电子设备在显示第一图片的同时，可以播放语音。其中，第一语音是根据多张图片和/或用户当前的情绪特征生成的。

综上，采用本申请实施例的方法，电子设备可以根据相册中的多张图片以及用户的当前情绪来生成相册中图片的语音旁白，然后在显示相应的图片时，则播放语音旁白。从而可以在显示图片时，提供相应的语音。

在一种可能的设计方式中，电子设备响应于第一操作，周期性采集用户的人脸图像和/或声音，人脸图像和/或声音用于确定用户当前的情绪特征。

也就是说，采用本实施例的方法，电子设备可以在检测到查看第一相册的请求后，开始采集人脸图像和/或声音，以用于确定用户当前的情绪特征。从而使确定的情绪特征可以准确的反应用户查看第一相册过程中的情绪。并且，周期性采集人脸图像和/或声音，可以及时确定出用户最新的情绪特征。

在一种可能的设计方式中，电子设备需要进一步根据第一相册中多张图片的图片内容，多张图片的拍摄时间先后顺序以及情绪特征来生成语音，那么，当第一相册中图片的拍摄时间先后顺序不同时，电子设备为同一图片(如第一图片)生成的语音可能不同，或者可能在一种顺序下为某一图片(如第一图片)生成了语音，但是在另一种顺序下则不会为该图片生成语音。

示例性的，多张图片包括第二图片。即，第一相册中包括第二图片。电子设备响应于用户对第二界面中第一缩略图的第二操作，显示第三界面，并播放第一语音，包括：第一图片的拍摄时间早于第二图片的拍摄时间，电子设备响应于用户对第二界面中第一缩略图的第二操作，显示第三界面，并播放第一语音。其中，第一语音是根据多张图片的图片内容，多张图片的拍摄时间先后顺序和/或情绪特征生成的。

与之相反的：第一图片的拍摄时间晚于第二图片的拍摄时间，电子设备响应于用户对第二界面中第一缩略图的第二操作，显示第三界面，并播放第二语音或者不播放语音。其中，第二语音是根据多张图片的图片内容，多张图片的拍摄时间先后顺序和/或电子设备采集的情绪特征生成的，第二语音不同于第一语音。

在一种可能的设计方式中，电子设备根据第一相册中的多张图片和/或用户当前的情绪特征可以为第一相册中的部分或者全部图片生成不同的语音。也就是说，为第一图片生成了第一语音，则为其它任一图片可能生成不同于第一语音的第三语音，也可能不生成语音。

示例性的，多张图片包括第三图片。即，第一相册中包括第三图片。在显示第三界面之后，上述方法还包括：电子设备响应于用户对第三界面的滑动操作(如左滑操作或者右滑操作)，显示第四界面，第四界面中包括第三图片，并播放第三语音或者不播放语音。其中，第三语音不同于第一语音。

又示例性的，多张图片包括第三图片。即，第一相册中包括第三图片。在显示第三界面之后，上述方法还包括：电子设备响应于用户对第三界面的第三操作，显示第二界面。即，从第三界面返回继续显示第二界面。电子设备响应于用户对第二界面中第二缩略图的第二操作，显示第四界面，并播放第三语音或者不播放语音，第二缩略图是第一相册中第三图片的缩略图，第四界面中包括第三图片。其中，第三语音不同于第一语音。

也就是说，采用本实施例的方法，电子设备在从第一图片的显示界面切换到第二图片的显示界面后，可能会播放不同的语音，也可能会结束播放语音。从而可以针对同一相册中的不同图片，提供差异化的旁白效果。

在一种可能的设计方式中，语音包括文本和声纹特征，语音不同包括文本不同和/或声纹特征不同。其中，声纹特征包括音调参数、音量参数和语速参数中的至少一种。

在一种可能的设计方式中，根据多张图片和/或情绪特征生成第一语音，包括：根据多张图片的图片内容、多张图片的第一标签、多张图片的拍摄时间先后顺序和/或情绪特征生成多张图片中至少一张图片对应的至少一段语音，至少一张图片包括第一图片，第一语音是第一图片对应的语音。其中，每张图片的第一标签用于指示图片的情感属性。

在一种可能的设计方式中，至少一张图片多于或等于两张图片，不同图片的语音不同。

在一种可能的设计方式中，生成语音包括两个过程，其一是生成语音文本，其二是生成语音声纹。具体地，生成语音文本的过程如下：

以第一语音为例，第一语音的文本为第一文本。根据多张图片的图片内容、多张图片的第一标签、多张图片的拍摄时间先后顺序和/或情绪特征生成多张图片中至少一张图片对应的至少一段语音，包括：电子设备将多张图片的图片序列、第一相册的第二标签、情绪特征和/或第一性格特征作为输入，运行预设人工智能AI模型得到至少一段文本，至少一段文本与至少一段语音一一对应，至少一段文本中包括第一文本。其中，图片序列按照多张图片的拍摄时间的先后顺序排列，第二标签指示第一相册的情感属性，第二标签根据多张图片的第一标签生成，第一性格特征与第二标签和/或情绪特征相匹配；预设AI模型具有根据图片序列、相册的标签、情绪特征和/或性格特征得到至少一段文本的能力。

也就是说，采用本实施例的方法，电子设备可以使用预设AI模型得到第一相册中至少一张图片的至少一段文本，从而得到第一文本。

具体地，生成语音声纹的过程如下：

以第一语音为例，第一语音的声纹为第一声纹。根据多张图片和/或用户当前的情绪特征生成第一语音，包括：电子设备根据第一相册的第二标签、情绪特征、第一性格特征和/或第一音色特征生成第一声纹。其中，第二标签指示第一相册的情感属性，第二标签根据多张图片的第一标签生成，第一性格特征与第二标签和/或情绪特征相匹配，第一音色特征与第二标签和/或情绪特征相匹配。

也就是说，采用本实施例的方法，电子设备可以针对第一相册，生成第一声纹，该第一声纹可用于朗读第一相册中至少一张图片的至少一段语音。

在一种可能的设计方式中，电子设备中包括角色库，角色库中包括多个角色及其性格特征和/或音色特征，每个角色有对应的情绪条件和/或标签条件，第一性格特征是角色库中第一角色的性格特征，第一音色特征是角色库中第一角色的音色特征。上述方法还包括：电子设备将情绪特征与多个角色分别的情绪条件匹配，确定出第一角色；和/或，电子设备将第一相册的第二标签与多个角色分别的标签条件匹配，确定出第一角色。

也就是说，采用本实施例的方法，电子设备可以从角色库中确定出与第一相册和用户当前的情绪特征相匹配的目标角色(即第一角色)，从而方便后续使用该目标角色的性格特征来生成语音文本(如第一文本)和/或语音声纹(如第一声纹)，以及使用该目标角色的音色特征来生成语音声纹(如第一声纹)。

在一种可能的设计方式中，在电子设备显示第一界面之前，上述方法还包括：电子设备根据电子设备中图片的第一标签、拍摄时间以及拍摄地点中的至少一项聚类得到至少两个相册，第一相册为至少两个相册中的一个。

也就是说，采用本实施例的方法，第一相册中的多张图片是情感属性、拍摄时间、拍摄地点都比较相近的图片，即是关联性极强的一组图片。相应的，在根据多张图片的拍摄时间先后顺序来生成语音时，则可以提升生成的语音的合理性。

第二方面，本申请实施例提供了一种图片显示方法，应用于手机、平板等电子设备，电子设备中包括第一图片。其中，电子设备显示第一界面，第一界面中包括第一图片的第一缩略图。例如，第一界面可以是图库应用中照片菜单项对应的界面。电子设备响应于用户对第一缩略图的第一操作，显示第二界面，并播放第一语音，第二界面中包括第一图片。也就是说，电子设备在显示图片时，可以进一步提供图片对应的语音。其中，第一语音是根据第一图片和/或用户当前的情绪特征生成的。

综上，采用本申请实施例的方法，电子设备可以根据当前查看的图片以及用户当前的情绪来生成当前查看的图片的语音旁白，然后在显示该图片时，则播放语音旁白。从而可以在显示图片时，提供相应的语音。

在一种可能的设计方式中，上述方法还包括：电子设备响应于用户对第一缩略图的第一操作，采集用户的人脸图像和/或声音，人脸图像和/或声音用于确定用户当前的情绪特征。

也就是说，采用本实施例的方法，电子设备可以在检测到用户对图片内的查看操作后，采集人脸图像和/或声音，以用于确定情绪特征。从而使确定的情绪特征为用户查看第一图片时的情绪特征。

在一种可能的设计方式中，电子设备根据当前查看的图片和用户当前的情绪特征来生成语音，那么，针对不同的图片，则可以生成不同的语音。示例性的，电子设备中还包括第二图片。在显示第二界面之后，上述方法还包括：电子设备响应于用户对第二界面的滑动(如左滑操作或者右滑操作)操作，显示第三界面，第三界面中包括第二图片，并播放第二语音。其中，第二语音是根据第二图片和/或用户当前的情绪特征生成的，第二语音不同于第一语音。又示例性的，电子设备中还包括第二图片，第一界面中还包括第二图片的第二缩略图。在显示第二界面之后，上述方法还包括：电子设备响应于用户对第二界面的第二操作，显示第一界面，即返回检继续显示第一界面。电子设备响应于用户对第二缩略图的第一操作，显示第三界面，第三界面中包括第二图片，并播放第二语音。其中，第二语音是根据第二图片和/或用户当前的情绪特征生成的，第二语音不同于第一语音。

也就是说，采用本实施例的方法，电子设备在从第一图片的显示界面切换到第二图片的显示界面后，可能会播放不同的语音。从而可以针对不同图片，提供差异化的旁白效果。

在一种可能的设计方式中，第一语音包括第一文本和第一声纹特征，第二语音包括第二文本和第二声纹，第二语音不同于第一语音包括：第二文本不同于第一文本，和/或，第二声纹不同于第一声纹。其中，第一声纹包括第一音调、第一音量和第一语速中的至少一种，第二声纹包括第二音调、第二音量和第二语速中的至少一种。

在一种可能的设计方式中，上述根据第一图片和/或用户当前的情绪特征生成第一语音，包括：根据第一图片的图片内容、第一图片的第一标签、和/或情绪特征生成第一语音；第一标签用于指示第一图片的情感属性。

以第一语音为例，第一语音的文本为第一文本。根据第一图片的图片内容、第一图片的第一标签、和/或情绪特征生成第一语音，包括：电子设备将第一图片、第一图片的第一标签、情绪特征和/或第一性格特征作为输入，运行预设人工智能AI模型得到第一文本。其中，第一性格特征与第一标签和/或情绪特征相匹配；预设AI模型具有根据图片内容、图片的标签、情绪特征和/或性格特征得到一段文本的能力。

也就是说，采用本实施例的方法，电子设备可以采用预设AI模型为第一图片生成对应的第一文本，该第一文本由与图片内容、图片的标签、情绪特征和/或性格特征相匹配。

具体地，生成语音声纹的过程如下：

以第一语音为例，第一语音的声纹为第一声纹。根据第一图片和/或用户当前的情绪特征生成第一语音，包括：电子设备根据第一图片的第一标签、情绪特征、第一性格特征和/或第一音色特征生成第一声纹；其中，第一标签指示第一图片的情感属性，第一性格特征与第一标签和/或情绪特征相匹配，第一音色特征与第一标签和/或情绪特征相匹配。

也就是说，采用本实施例的方法，电子设备可以为第一图片生成第一声纹，该第一声纹用于朗读为第一图片生成的第一文本。

在一种可能的设计方式中，电子设备中包括角色库，角色库中包括多个角色及其性格特征和/或音色特征，每个角色有对应的情绪条件和/或标签条件，第一性格特征是角色库中第一角色的性格特征，第一音色特征是角色库中第一角色的音色特征。上述方法还包括：电子设备将情绪特征与多个角色分别的情绪条件匹配，确定出第一角色；和/或，电子设备将第一图片的第一标签与多个角色分别的标签条件匹配，确定出第一角色。

也就是说，采用本实施例的方法，电子设备可以从角色库中确定出与第一图片和用户当前的情绪特征相匹配的目标角色(即第一角色)，从而方便后续使用该目标角色的性格特征来生成语音文本(如第一文本)和/或语音声纹(如第一声纹)，以及使用该目标角色的音色特征来生成语音声纹(如第一声纹)。

第三方面，本申请实施例还提供一种电子设备，所述电子设备中包括待处理视频，所述电子设备包括：存储器和一个或多个处理器，所述存储器与所述处理器耦合；其中，所述存储器中存储有计算机程序代码，所述计算机程序代码包括计算机指令，当所述计算机指令被所述处理器执行时，使得所述电子设备执行如第一方面及其任一种可能的设计方式所述的方法，当所述计算机指令被所述处理器执行时，或者使得所述电子设备执行如第二方面及其任一种可能的设计方式所述的方法。

第四方面，本申请实施例提供一种芯片系统，该芯片系统应用于包括显示屏和存储器的电子设备；所述芯片系统包括一个或多个接口电路和一个或多个处理器；所述接口电路和所述处理器通过线路互联；所述接口电路用于从所述电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括所述存储器中存储的计算机指令；当所述处理器执行所述计算机指令时，所述电子设备执行如第一方面及其任一种可能的设计方式所述的方法；或者，当所述处理器执行所述计算机指令时，所述电子设备执行如第二方面及其任一种可能的设计方式所述的方法。

第五方面，本申请提供一种计算机存储介质，该计算机存储介质包括计算机指令，当所述计算机指令在电子设备上运行时，使得电子设备执行如第一方面及其任一种可能的设计方式所述的方法；或者，当所述计算机指令在电子设备上运行时，使得电子设备执行如第二方面及其任一种可能的设计方式所述的方法。

第六方面，本申请提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如第一方面及其任一种可能的设计方式所述的方法；或者，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如第二方面及其任一种可能的设计方式所述的方法。

可以理解地，上述提供的第三方面所述的电子设备，第四方面所述的芯片系统，第五方面所述的计算机存储介质，第六方面所述的计算机程序产品所能达到的有益效果，可参考第一方面及其任一种可能的设计方式中的有益效果，此处不再赘述。

附图说明

图1为本申请实施例提供的手机的界面图之一；

图2为本申请实施例提供的手机的界面图之二；

图3为本申请实施例提供的手机的硬件结构图；

图4为本申请实施例提供的手机的界面图之三；

图5为本申请实施例提供的图片显示方法的实施原理图之一；

图6为本申请实施例提供的图片显示方法的实施原理图之二；

图7为本申请实施例提供的图片显示方法的实施原理图之三；

图8为本申请实施例提供的图片显示方法的实施原理图之四；

图9为本申请实施例提供的手机的界面图之四；

图10为本申请实施例提供的图片显示方法的实施原理图之五；

图11为本申请实施例提供的手机的界面图之五；

图12为本申请实施例提供的图片显示方法的实施原理图之六；

图13为本申请实施例提供的图片显示方法的实施原理图之七；

图14为本申请实施例提供的图片显示方法的实施原理图之八；

图15为本申请实施例提供的图片显示方法的实施原理图之九；

图16为本申请实施例提供的图片显示方法的实施原理图之十；

图17为本申请实施例提供的手机的界面图之六；

图18为本申请实施例提供的图片显示方法的实施原理图之十一；

图19为本申请实施例提供的图片显示方法的实施原理图之十二；

图20为本申请实施例提供的图片显示方法的实施原理图之十三；

图21为本申请实施例提供的图片显示方法的实施原理图之十四；

图22为本申请实施例提供的图片显示方法的实施原理图之十五；

图23为本申请实施例提供的图片显示方法的实施原理图之十六；

图24为本申请实施例提供的系统芯片的结构示意图。

具体实施方式

在手机、平板等电子设备的图库应用中，用户可查看拍摄得到的图片。以电子设备是图1所示的手机为例，手机的图库应用中可以提供照片、相册、时刻、发现共4个菜单项，响应于用户对任一菜单项的选择操作，可以相应的形式呈现图片。示例性的，手机响应于用户对照片菜单项的选择操作，可显示图1所示的界面101，界面101中以单张图片的形式显示图片，此时用户可查看到各张图片的缩略图。又示例性的，手机响应于用户对相册菜单项的点击操作，可显示图1所示的界面102，界面102中以相册的形式显示图片。手机响应于用户对任一相册的选择操作，则可查看到相应相册中的图片。例如，手机响应于用户对界面102中“出游”相册的选择操作，则可显示界面103，界面103中包括“出游”相册下各张图片的缩略图。

并且，手机响应于用户对任一图片的缩略图的点击操作，可显示该张图片的大图。从而可将图片的细节展示给用户。示例性的，手机响应于用户对界面101中的缩略图1011或者界面103中的缩略图1031的点击操作，可显示界面104，界面104中显示有缩略图1011或者缩略图1031对应图片的大图。在本文中，显示图片的大图，可以理解为显示该图片。

手机在显示如图1所示的界面104时，只能提供视觉上的图片内容，导致提供的信息较为单一。

本申请实施例提供一种图片显示方法，该方法可以应用于手机、平板等支持图片查看(如安装有图库应用)和语音播放的电子设备中。该方法包括：电子设备在显示第一图片时，可以播放语音旁白。该语音旁白的旁白文本由电子设备根据用户当前的情绪信息(也可以称为情绪特征)和/或第一图片(如第一图片的第一标签和/或第一图片的图片内容)生成。其中，第一标签用于指示第一图片的情感属性。以电子设备是图2所示的手机，第一图片是手机显示的界面201中的图片202为例，手机在显示该图片202时，会同时播放语音旁白“还记得一起出游的日子吗”。应理解，图2中界面201中的旁白文本仅为示意性，其仅用于表示手机可播放该旁白，实际中可能并不会显示。从而在显示图片时，将匹配用户情绪和图片情感及内容的语音旁白提供给用户，提供更为丰富的信息给用户。

示例性的，本申请实施例中的电子设备可以是手机、平板电脑、桌面型、膝上型、手持计算机、笔记本电脑、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本，以及蜂窝电话、个人数字助理(personal digital assistant，PDA)、增强现实(augmented reality，AR)\虚拟现实(virtual reality，VR)设备等支持图片查看和语音播放的设备。本申请实施例对该电子设备的具体形态不作特殊限制。

请参见图3，为本申请实施例提供的一种手机300的硬件结构图。如图3所示，手机300可以包括处理器310，外部存储器接口320，内部存储器321，通用串行总线(universalserial bus，USB)接口330，充电管理模块340，电源管理模块341，电池342，天线1，天线2，移动通信模块350，无线通信模块360，音频模块370，扬声器370A，受话器370B，麦克风370C，耳机接口370D，传感器模块380，按键390，马达391，指示器392，摄像头393，显示屏394，以及用户标识模块(subscriber identification module，SIM)卡接口395等。

可以理解的是，本实施例示意的结构并不构成对手机300的具体限定。在另一些实施例中，手机300可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器310可以包括一个或多个处理单元，例如：处理器310可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processingunit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，存储器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

本申请实施例中，可以由处理器来完成替换背景的相关运算和处理。

可以理解的是，本实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对手机300的结构限定。在另一些实施例中，手机300也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块340用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块340可以通过USB接口330接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块340可以通过手机300的无线充电线圈接收无线充电输入。充电管理模块340为电池342充电的同时，还可以通过电源管理模块341为手机300供电。

电源管理模块341用于连接电池342，充电管理模块340与处理器310。电源管理模块341接收电池342和/或充电管理模块340的输入，为处理器310，内部存储器321，外部存储器，显示屏394，摄像头393，和无线通信模块360等供电。电源管理模块341还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块341也可以设置于处理器310中。在另一些实施例中，电源管理模块341和充电管理模块340也可以设置于同一个器件中。

手机300的无线通信功能可以通过天线1，天线2，移动通信模块350，无线通信模块360，调制解调处理器以及基带处理器等实现。

无线通信模块360可以提供应用在手机300上的包括无线局域网(wireless localarea networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequencymodulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块360可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块360经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器310。无线通信模块360还可以从处理器310接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

手机300通过GPU，显示屏394，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏394和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器310可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

手机300可以通过ISP，摄像头393，视频编解码器，GPU，显示屏394以及应用处理器等实现拍摄功能。ISP用于处理摄像头393反馈的数据。摄像头393用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。在一些实施例中，手机300可以包括1个或N个摄像头393，N为大于1的正整数。

外部存储器接口320可以用于连接外部存储卡，例如Micro SD卡，实现扩展手机300的存储能力。外部存储卡通过外部存储器接口320与处理器310通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器321可以用于存储计算机可执行程序代码，所述可执行程序代码包括指令。处理器310通过运行存储在内部存储器321的指令，从而执行手机300的各种功能应用以及数据处理。例如，处理器310可以通过执行存储在内部存储器321中的指令，响应于用户展开显示屏394的操作，在显示屏394显示不同的内容。内部存储器321可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储手机300使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器321可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universalflash storage，UFS)等。

手机300可以通过音频模块370，扬声器370A，受话器370B，麦克风370C，耳机接口370D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

按键390包括开机键，音量键等。按键390可以是机械按键。也可以是触摸式按键。手机300可以接收按键输入，产生与手机300的用户设置以及功能控制有关的键信号输入。马达391可以产生振动提示。马达391可以用于来电振动提示，也可以用于触摸振动反馈。指示器392可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。SIM卡接口395用于连接SIM卡。SIM卡可以通过插入SIM卡接口395，或从SIM卡接口395拔出，实现和手机300的接触和分离。手机300可以支持1个或N个SIM卡接口，N为大于1的正整数。

下文中，将主要以具有上述硬件结构的手机为例，来说明本申请方案。

在本申请实施例中，将手机在显示第一图片的同时，播放语音旁白的功能称为情感语音相册功能。默认情况下，该情感语音相册功能可开启或者关闭。并且，手机中可提供开启和关闭该情感语音相册功能的设置项(可记为设置项a)。手机可接收用户对该设置项a的第一操作，响应于该第一操作，手机可开启或者关闭情感语音相册功能。该第一操作可以是点击操作、长按操作或者滑动操作。

示例性的，手机可在图库应用的设置界面中提供设置项a。例如，手机可显示图4所示的界面401，该界面401是图库应用中相册菜单项对应的应用界面。该界面401中包括控件402，该控件402可用于触发手机显示图库应用的设置入口。手机可接收用户对控件402的点击操作，响应于对控件402的点击操作，手机可显示界面403。与界面401相比：界面403中新增了“相册排序”选项、“风格切换”选项、“隐藏相册”选项以及“设置”选项。手机可接收用户对“设置”选项的选择操作，响应于对“设置”选项的选择操作，手机可显示界面404。界面404是图库应用的设置界面。该界面404中包括设置项405，设置项405用于触发手机开启或者关闭情感语音相册功能。即，设置项405是设置项a。并且，界面404中的设置项405指示情感语音相册功能当前为关闭状态。以第一操作是点击操作为例，手机响应于用户对界面404中设置项405的点击操作，可显示界面406。界面406中的设置项405指示情感语音相册功能当前为关闭状态，即开启了情感语音相册功能。

应注意，上述图4所示进入图库应用的设置界面的过程，图库应用的设置界面包括的设置项以及设置项a的具体形态均为示例性的，实际实施时，并不以此为限。例如，可以从手机的设置应用中应用管理设置项进入图库应用的设置界面。又例如，图库应用的设置界面中可以包括更多或者更少的设置项。

在开启情感语音相册功能后，手机则可以在显示第一图片的同时，播放第一图片的语音旁白。其中，第一图片可以为图库应用中的任一张图片。应理解，第一图片可以是图库应用中的单张图片(可记为情况1)，如图库应用中照片菜单项中的单张图片，或者，第一图片也可以为位于某相册中的图片(可记为情况2)。实际实施时，针对上述情况1，可以采用下文中的方式1来实现语音相册功能。针对上述情况2，可以采用下文中的方式1或者方式2来实现语音相册功能。下面将分别说明。

方式1，手机响应于用户对第一图片的查看操作，则生成旁白文本并播放。其中，对第一图片的查看操作可以是对第一图片的缩略图(也可以称为第一缩略图)，如图1所示界面101中缩略图1011，或者图1所示界面103中缩略图1031的点击操作、长按操作或者滑动操作(这些操作也可以称为第一操作)。或者，对第一图片的查操作也可以是在全屏显示图片时的左右滑动手势，例如，左滑到前一张图片，右滑到后一张图片等。下文中，将主要以对第一图片的缩略图的点击操作为例来说明。另外，为了方便说明，可以将方式1中显示个账图片(如第一图片)的缩略图的界面，如图1所示界面101称为第一界面。

本申请实施例中，手机需要根据第一图片的第一标签来生成旁白文本。其中，第一标签用于指示第一图片的情感属性。因此，在一些实施例中，在生成旁白文本前，手机需要确定第一图片的第一标签。

手机可采用第一人工智能(Artificial Intelligence，AI)模型来确定第一标签。该第一AI模型为深度学习模型，如图像语义分割网络(U-Net)、残差神经网络(ResNet50)等神经网络模型。参见图5，手机将第一图片输入至第一AI模型中，运行第一AI模型，第一AI模型则可输出第一标签。其中，第一标签指示的情感属性可以为喜悦、悲伤、愤怒或者恐惧。或者，可以为喜悦、悲伤、愤怒或者恐惧的细化情感中的任一种。例如，喜悦进一步可细化为狂喜、欣喜以及窃喜，那么第一标签指示的情感属性可以为狂喜、欣喜或者窃喜。以情感属性包括喜悦、悲伤、愤怒以及恐惧四种，并且可分别用00、01、10、11来表示为例，那么若第一图片的情感属性为喜悦，则第一AI模型可以输出00。

示例性的，下面将介绍上述第一AI模型的训练过程：可以收集对应不同情感属性的多张图片样本，还可以标注每张图片样本对应的标签样本，得到多个标签样本。标签样本用于指示相应的图片样本的情感属性。而后，将上述多张图片样本作为输入样本，将多个标签样本作为输出样本，训练上述神经网络模型。当实际的训练输出与输出样本的差距小于预设误差时，结束训练，结束训练时得到的模型即为第一AI模型。

在一种具体的实现方式中，手机可以在空闲时，例如，息屏后，预设时间段(如凌晨)内，或者当前运行的应用的数量少于第一预设数量时，确定图库应用中各张图片的第一标签，并存储。然后，在需要生成第一图片对应的旁白文本时，直接获取该第一图片的第一标签即可。从而避免在手机负载较高时，进一步因确定第一图片的第一标签而增加功耗。

进一步的，手机可以监控相册中图片的新增情况，在监控到图片的新增数量达到第二预设数量后，手机在空闲时则可以确定新增的各张图片的第一标签。如此，手机可以自动触发确定所有的图片的第一标签。

在另一种具体的实现方式中，手机可以在检测到用户对第一图片的缩略图的点击操作后，确定该第一图片的第一标签。从而可以有针对性的确定第一标签，避免确定和存储过多无用的标签。

本申请实施例中，手机需要根据用户当前的情绪信息来生成旁白文本。因此，在一些实施例中，在生成旁白文本前，手机需要确定第一图片的第一标签。手机可使用面部图片以及实时语音中的至少一种来确定用户当前的情绪信息。下文中主要以使用面部图片以及实时语音两者预测用户的情绪为例来说明。

示例性的，手机在检测到用户对图库应用的图标的点击操作，或者，在检测到用户对包括第一图片的相册的点击操作后，则可打开摄像头(如前置摄像头)以采集用户的面部图片，也可以开启麦克风以采集用户的实时语音。从而可以提前获知面部图片和实时语音。

又示例性的，手机可以在检测到用户对第一图片的点击操作后，则可打开摄像头(如前置摄像头)以采集用户的面部图片(也可称为人脸图像)，也可以开启麦克风以采集用户的实时语音(也可称为声音)。从而可以使面部图片和实时语音准确的表示用户查看第一图片时的情绪。

手机可采用第二AI模型来确定用户当前的情绪信息。该第二AI模型为深度学习模型，如基于Transformer的双向编码器表征(Bidirectional Encoder Representationfrom Transformers，BERT)网络模型。参见图6，手机可以将面部图片和实时语音输入至第二AI模型中，运行第二AI模型，第二AI模型则可输出情绪信息。从而可以综合面部图片和实时语音来预测用户的情绪。应注意，若第二AI模型是BERT模型，手机则需要先采用语音转文字技术，将实时语音转换为语音文本，然后将语音文本和面部图片输入至第二AI模型。

在一种具体的实现方式中，该情绪信息与前文情感属性类似，即：可以为喜悦、悲伤、愤怒或者恐惧。或者，可以为喜悦、悲伤、愤怒或者恐惧的细化情感中的任一种。

然而实际中，用户的情绪可能是复杂的，并不简单的是喜悦或者悲伤等。基于此，在另一种具体的实现方式中，为了可以更准确的描述用户当前的情绪，情绪信息可以用多种情绪分别的比重来表示。以喜悦、悲伤、愤怒和恐惧为例，则用户的情绪信息可以是X1，X1＝[k1，k2，k3，k4]，表示喜悦的比重为k1，悲伤的比重为k2，愤怒的比重为k2和恐惧的比重为k4。下文中，将主要以情绪信息是多种情绪分别的占比为例来说明。

应注意，为了避免侵犯用户隐私，手机可以在开启情感语音相册功能时，发出第一提示信息。该第一提示信息用于提示情感语音相册功能需要获取摄像头和/或麦克风权限。

示例性的，下面将介绍上述第二AI模型的训练过程：可以收集对应不同情绪的多组面部图像样本和实时语音样本，还可以标注每组面部图像样本和实时语音样本对应的情绪信息样本，得到多个情绪信息样本。而后，将上述多组面部图像样本和实时语音样本作为输入样本，将多个情绪信息样本作为输出样本，训练上述神经网络模型。当实际的训练输出与输出样本的差距小于预设误差时，结束训练，结束训练时得到的模型即为第二AI模型。

在前述确定第一图片的第一标签，以及确定用户当前的情绪信息后，手机则可以根据第一标签、情绪信息以及第一图片来生成旁白文本。参见图7，在确定第一图片的第一标签和用户当前的情绪后，手机可以采用第三AI模型(也可以称为预设AI模型)来生成旁白文本。该第三AI模型为深度学习模型，如transformer网络模型。手机将第一标签、情绪信息以及第一图片输入至第三AI模型中，运行第三AI模型，第三AI模型则可输出旁白文本(也可以称为第一文本)。其中，第三AI模型具有根据图片内容、图片的标签以及情绪特征得到一段文本的能力。

示例性的，下面将介绍上述第三AI模型的训练过程：可以收集多个图片样本和多个标签样本。该多个标签样本可以使用前述第一AI模型预测得到。还收集不同情绪的多个情绪信息样本。从而得到多组图片样本、标签样本和情绪信息样本。并且，还可以标注每组图片样本、标签样本和情绪信息样本对应的旁白文本样本，得到多条旁白文本样本。若情绪信息样本中包括各种情绪的比重，则在标注旁白文本样本时，需要基于各种情绪的比重来标注。示例性的，对应海边玩耍的图片样本，标签样本为00，指示喜悦的情感属性，若情绪信息样本中喜悦的比重最大，则可以标注旁白文本样本为“那天好开心啊”，若情绪信息样本中悲伤的比重最大，则可以标注旁白文本样本为“别难过啦，多想想出游时的快乐时光吧”，若情绪信息样本中喜悦和悲伤的比重较均衡，则可以标注旁白文本样本为“下一次什么时候出去玩耍呢”。而后，将上述多组图片样本、标签样本和情绪信息样本作为输入样本，将多条旁白文本样本作为输出样本，训练上述神经网络模型。当实际的训练输出与输出样本的差距小于预设误差时，结束训练，结束训练时得到的模型即为第三AI模型。

最后，手机将旁白文本朗读出来，即可实现在显示第一图片的同时，为第一图片配语音旁白(也可以称为第一语音)。示例性的，手机可以使用文语转换(Text to Speech，TTS)技术，也可以称为语音合成技术，将旁白文本转换为语音朗读出来。为了方便说明，可以将显示第一图片的界面称为第二界面。

实际中，用户情绪不同，或者图片的感情色彩不同，对旁白的声音特征的需求也不同。例如，用户情绪主要为喜悦，则更需要节奏快一点的旁白。又例如，用户情绪主要为喜悦主要为悲伤的，则更需要缓慢一点的旁白。

基于此，参见图8，在一些实施例中，手机可以先根据第一标签和情绪信息生成旁白声纹(如图8中801的过程)。其中，旁白声纹包括但不限于音量、音调以及语速等不同维度的声音参数。示例性的，可采用多层感知机(Multilayer Perceptron，MLP)来感知输入的信息(如第一标签、情绪信息)，输出声纹的不同维度的声音参数，下文中也相同。在得到旁白声纹后，将旁白声纹和旁白文本合成得到语音旁白(如图8中802的语音合成过程)。从而可以使得朗读旁白文本的声纹与用户情绪和图片的感情色彩相匹配。示例性的，可采用TTS相关的神经网络，如深度混合密度网络(Deep Mixture Density Network，DMDN)来完成语音合成，下文中也相同。

在另一些实施例中，手机中存储有角色库，角色库中可以预置或者由用户添加多种角色以及角色的音色特征。其中，多种角色包括但不限于父亲、母亲、孩子、兄弟、闺蜜、恋人以及师长中的多种。音色特征可以用波形来表示。手机在开启情感语音相册功能后，可以显示用于添加角色的控件(可记为控件a)。手机可接收用户对控件a的第二操作，该第二操作可以是点击操作、长按操作或者滑动操作。该第二操作用于触发手机添加角色。参见图9，控件a是图9中的控件901，第二操作可以是对控件901的点击操作。手机响应于第二操作，可以显示角色的添加界面(可记为界面a)。例如，界面a是图9中的界面902。

其中，界面a中包括输入角色关系的控件(可记为控件b)，角色关系是指添加的角色与用户本人的关系，如孩子、父亲、母亲等。用户操作控件b可以输入(如选择)角色关系。例如，控件b是图9所示的界面902中的“选择角色关系”控件。手机响应于用户对角色关系的选择，可确定角色关系。

其中，界面a中还可以包括语音输入的控件(可记为控件c)。用户操作控件c可以输入角色的自定义语音。例如，控件c是图9所示的界面902中的“输入自定义语音”控件。手机响应于用户输入自定义语音的操作，可接收自定义语音。然后，手机对自定义语音解码，可得到角色的音色特征。

用户的情绪不同，或者图片的感情色彩不同，可能需要以不同角色的口吻来朗读旁白文本。例如，在第一标签指示情感属性为喜悦时，则更有可能需要与兄弟、闺蜜或者恋人分享喜悦。此时，使用兄弟、闺蜜或者恋人的口吻来朗读旁白文本则更合适。又例如，在第一标签指示情感属性为悲伤或者愤怒时，则更有可能需要父母、师长的劝导。此时，使用父母或者师长的口吻来朗读旁白文本则更为合适。

基于此，参见图10，在一种具体的实现方式中，手机可以先根据第一标签和情绪信息从角色库中匹配到对应的目标角色(如图10中1001的过程)。示例性的，角色库中的各种角色都有对应的标签条件和情绪条件，手机可以将第一标签与各个角色的标签条件匹配，以及，将情绪信息与各个角色的情绪条件匹配，确定相匹配的目标角色(也可以称为第一角色)，从而可以确定目标角色的音色特征(可记为目标音色，也可以称为第一音色特征)。示例性的，当第一标签满足角色A的标签条件，情绪信息满足角色A的情绪条件时，则可确定角色A为目标角色，角色A的音色特征即为目标特征。应注意，有一些角色可能仅有对应的标签条件或者情绪条件，针对这些角色，则当第一标签满足其标签条件时，或者当情绪信息满足其情绪条件时，则可确定其为目标角色。然后，手机根据目标音色可以生成旁白声纹(如图10中1002的过程)。最后，手机将旁白声纹和旁白文本合成语音旁白(如图10中1003的过程)。从而可以自动匹配得到符合当前用户情绪和第一图片的感情色彩的目标角色，并以目标角色的音色特征相匹配的声纹来朗读旁白文本。

在另一种具体的实现方式中，手机可以接收用户对目标角色的选择操作。手机在接收到用户对目标角色的选择操作后，则可以根据用户选择的目标角色的音色特征和旁白文本来合成语音旁白。从而可以以用户手动选择的目标角色的音色来朗读旁白文本。

示例性的，手机在开启情感语音相册功能后，可提供多个角色供用户选择。例如，手机可显示图11所示的界面1101。界面1101中的情感语音相册功能已开启。界面1101中还包括选项1102，手机响应于用户对图11中选项1101的点击操作，可显示图11所示的界面1103.界面1103中以弹窗形式显示有多个角色(如父亲、母亲、孩子等)供用户选择。

在一些场景中，手机预置的角色和用户添加的角色都包括第一角色，例如，第一角色为孩子。该场景下，若确定出的目标角色为该相同的角色，那么则可能存在冲突。基于该冲突问题，在一种具体的实现方式中，若确定出的目标角色为第一角色，手机可以将用户添加的第一角色确定为最终的目标角色。

角色库中的各个角色可能具有不同性格，而不同性格的角色，其表达时的语速、音量、音调等声音参数也可能不同。也就是说，朗读旁白文本的声纹特征可能会受角色性格的影响。基于此，在一种具体的实现方式中，角色库中可以包括角色的性格特征。手机在预置角色时或者由用户手动添加角色时，都需要为角色添加性格特征。如图9所示的界面902中有“选择角色性格”控件，用于输入角色的性格。与图10所示的实现方式不同的是：在本实现方式中，参见图12，手机确定出目标角色，从而可以确定出目标角色的性格特征(可记为目标性格，也可以称为第一性格特征)，手机根据目标性格可以生成旁白声纹(如图12中1201的过程)。从而可以采用与目标角色的性格特征相匹配的声纹特征来朗读旁白文本。

应理解，目标角色是根据第一标签和情绪信息匹配得到的，那么，目标音色特征应该也是与第一标签和情绪信息相匹配的，同样的，目标性格特征应该也是与第一标签和情绪信息相匹配的。

至此，需要说明的是，虽然前文中分别说明了可以根据第一标签和情绪信息，或者目标音色，或者目标声纹来生成旁白声纹的实施例。但是实际实施时，为了提升的旁白声纹的准确性，手机可以依据第一标签和情绪信息，目标音色以及目标声纹中的多项来生成旁白声纹。本申请实施例对此不作具体限定。示例性的，参见图13，手机可以根据第一标签、情绪信息、目标音色和目标性格来生成旁白声纹。

另外，不同性格的角色，其表达的内容会存在差异。例如，同样是表达赞扬，性格活泼的人的表达可能是“你小子有点阔以哦”，性格稳重的人的表达可能是“你真优秀”。也就是说，旁白文本可能会受角色性格的影响。

基于此，在一种具体的实现方式中，手机可以在第一标签、情绪信息以及第一图片的基础上，进一步结合目标角色的性格特征(即目标性格)来生成旁白文本。与图7所示的实施例不同的是：在本实现方式中，参见图14，手机可以采用第四AI模型(也可以称为预设AI模型)来生成旁白文本。将第一标签、情绪信息、第一图片以及目标性格输入至第四AI模型中，运行第四AI模型，第四AI模型则可输出旁白文本(也可以称为第一文本)。同样的，该第四AI模型也可以是transformer网络模型。其中，第四AI模型具有根据图片内容、图片的标签、情绪特征以及性格特征得到一段文本的能力。

示例性的，下面将介绍上述第四AI模型的训练过程：可以收集多个图片样本以及该多个图片样本对应的多个标签样本。该多个标签样本可以使用前述第一AI模型预测得到。还收集不同情绪的多个情绪信息样本，以及，多种性格特征样本。从而得到多组图片样本、标签样本、情绪信息样本和性格特征样本。并且，还可以标注每组图片样本、标签样本、情绪信息样本和性格特征样本对应的旁白文本样本，得到多条旁白文本样本。在标注旁白文本样本时，需要考虑到不同性格特征的表达习惯。同时，与第三AI模型训练时标准旁白文本样本类似，若情绪信息样本中包括各种情绪的比重，则在标注旁白文本样本时，需要基于各种情绪的比重来标注。而后，将上述多组图片样本、标签样本、情绪信息样本和性格特征样本作为输入样本，将多条旁白文本样本作为输出样本，训练上述神经网络模型。当实际的训练输出与输出样本的差距小于预设误差时，结束训练，结束训练时得到的模型即为第四AI模型。

为了便于对上述方式1的理解，下面以图15所示的完整示例来说明方式1的具体实现：

参见图15，手机可以空闲时将相册中的各张图片输入至第一AI模型，运行第一AI模型可以确定各张图片的第一标签(如图15中1501的过程)，从而可以确定第一图片的第一标签。手机响应于用户对第一图片的查看操作，可以开启摄像头采集用户的面部图片以及开启麦克风采集实时语音。手机将面部图片和实时语音输入至第二AI模型，运行第二AI模型可以确定用户当前的情绪信息(如图15中1502的过程)。然后，手机可以获取第一图片的第一标签，并将第一图片的第一标签和用户当前的情绪信息，与角色库中的角色匹配，得到相匹配的目标角色的音色特征(即目标音色)和性格特征(即目标性格)(如图15中1503的过程)。此后一方面，手机将第一图片的第一标签、用户当前的情绪信息、第一图片和目标性格输入至第四AI模型，运行第四AI模型可以生成旁白文本(如图15中1504的过程)。另一方面，手机根据第一图片的第一标签、用户当前的情绪信息、目标音色和目标性格来生成旁白声纹(如图15中1505的过程)。最后，手机将旁白声纹和旁白文本进行语音合成，则可以得到语音旁白(如图15中1506的过程)。从而可以在显示第一图片的同时，播放该第一图片的语音旁白。

由上述图15所示的示例可以看出：只有图片和情绪信息是方式1中最初始的输入，而图片的标签、目标角色及其性格特征和/或音色特征等都是根据初始的输入而得到的中间量。因此，在实际实施时，本领域技术人员可以根据实际需求将上述图15中的多个功能模块或者AI模型合并。例如，将图15中1503、1504、1505以及1506所示的过程中至少两个合并。本申请实施例对此不做具体限定。

综上所述，在方式1中，手机根据图片和用户在查看图片时的情绪信息生成图片的语音旁白。那么，当图片不同时，或者用户查看图片的情绪不同时，则生成的语音旁白可能不同。示例性的，针对上述第一图片，可以生成第一语音，针对第二图片，则可以生成第二语音，第二语音则通常不同于第一语音。也就是说，在手机显示第一图片之后，若进一步接收到用户对第二图片的查看操作，手机则可以在显示第二图片的同时，播放对应的第二语音。该第二语音则是根据第二图片和用户查看第二图片时的情绪信息生成的。例如，用户对第二图片的查看操作可以是用户在显示第一图片的界面的左滑操作或者右滑操作(可统称为滑动操作)。又例如，用户对第二图片的查看操作包括用户在显示第一图片的界面的返回操作(也可以称为第二操作)，手机响应于该返回操作，则可继续显示包括各张图片的缩略图的界面，如图1所示界面101；然后，用户对第二图片的查看操作还包括用户对显示包括各张图片的缩略图的界面中第二图片的缩略图的点击操作。另外，为了方便说明，可以将显示第二图片的界面称为第三界面。

应注意，虽然情况2也可以采用前文方式1来实现情感语音相册功能。但是，在本申请实施例中，手机可以自动创建包括感情色彩较相似、拍摄时间跨度较小、拍摄地点相近的多张图片的事件相册，如婚礼相册、聚餐相册等。也就是说，事件相册中包括的多张图片的相关度极高，若第一图片为事件相册中的图片，那么则可以采用下文中的方式2，借助事件相册内图片之间的关联性来实现情感语音相册功能，从而提升语音旁白的准确性。

在详细介绍方式2之前，先在此说明手机自动创建事件相册的过程：

首先，手机可以确定相册中多张(记为n张)图片分别的第一标签。关于确定图片的第一标签的具体实现，可参见前文方式1中关于确定第一图片的第一标签的说明，此处不再赘述。

然后，手机根据n张图片分别的第一标签、拍摄时间和拍摄地点，将相册中的多张图片划分为多个(记为m个)事件相册。每个事件相册中至少包括两张图片。参见图16，手机将n张图片(如图片1、图片2……图片n)的第一标签、拍摄地点和拍摄时间利用聚类算法完成图片聚类，得到m个事件相册(如事件相册1、事件相册2……事件相册m)。其中，聚类算法可以为K均值(k-means)聚类算法、基于密度的噪声空间聚类算法(Density-Based SpatialClustering Algorithm with Noise，DBSCAN)等。

在完成一次事件相册的划分后，手机可以监控相册中图片的新增情况，在监控到图片的新增数量达到第二预设数量时，手机则针对新增的图片再次完成事件相册的划分。从而可以及时为新增的图片划分事件相册。如此，后续则可以针对新产生的图片采用下述方式2来实现情感语音相册功能。

应注意，为了省去运行图库应用过程中，因划分事件相册而产生的功耗，手机也可以在在空闲时，例如，息屏后，预设时间段(如凌晨)内，或者当前运行的应用的数量少于第一预设数量时，划分事件相册。

在一些实施例中，手机还可以为事件相册命名。示例性的，手机可以根据事件相册中包括的图片的拍摄时间和拍摄地点来命令。例如，拍摄地点均为成都，拍摄时间为2022年五一劳动节期间，那么可以为事件相册命名为“今年五一在成都”。

手机在完成事件相册的划分后，可以在手机的图库应用中显示事件相册。示例性的，手机可以显示图17所示的界面1701，界面1701是图库应用的相册菜单项对应的界面。该界面1701中除了“全部照片”、“截屏录屏”等手机按照图片来源划分的相册，以及“日落”、“出游”等用户自行创建的相册之外，还包括“事件相册1”、“事件相册2”等事件相册。或者，手机在完成事件相册的划分后，还可以在手机的主界面、负一屏等位置推荐事件相册。示例性的，手机可以显示图17所示的界面1702，界面1702是手机的负一屏界面，界面1702中包括事件相册1704。

方式2，手机响应于用户对第一图片所在的第一相册的查看操作(也可以称为第一操作)，则根据第一相册中的多张图片来生成旁白文本。第一相册可以是任一事件相册，第一图片可以是第一相册中的任一图片。而后，手机响应于用户对第一图片的查看操作(也可以称为第二操作)，才播放语音旁白。其中，对事件相册的查看操作包括对事件相册的封面(也可以称为选项)，如图17所示的界面1701中的封面1703，或者图17所示的界面1702中的封面1704的点击操作、长按操作或者滑动操作。下文中，将主要以对事件相册的封面的点击操作为例来说明。另外，为了方便说明，可以将包括相册(如第一相册)的封面的界面，如图17所示的界面1701或者界面1702，称为第一界面。

与前文方式1不同的是：在方式2中，手机需要根据第一相册中多张图片(包括第一图片)的情感属性和图片内容来生成旁白文本。从而可以借助同一相册中多张图片之间的关联性来生成旁白文本。

在一些实施例中，手机可以根据第一相册中多张图片的第一标签生成相册属性(也可以称为第二标签)。相册属性用于表示第一相册中多张图片整体的情感属性，以用于后续生成旁白文本。

在一种具体的实现方式中，手机可以将第一相册中多张图片的第一标签按照情感属性划分，然后统计各种情感属性的第一标签的数量，将数量最多的情感属性确定为相册属性。以喜悦、悲伤、愤怒以及恐惧四种情感为例，可以用第一标签分别为00,01,10,11来指示该四种情感属性，假设第一相册中包括10张图片，10张图片分别的第一标签为：00,00,00，01,00,00,00,00,00,10。也就是说，有8张图片的情感属性为喜悦，1张图片的情感属性为悲伤，1张图片的情感属性为愤怒。很显然，数量最多的情感属性是喜悦，那么可以确定相册属性为喜悦，或者可以用标签00表示。

在另一种具体的实现方式中，手机可以将第一相册中多张图片的第一标签按照情感属性划分，然后统计各种情感属性的第一标签的数量，根据各种情感属性的第一标签的数量确定第一相册的相册属性中相应情感属性的比重，如将各种情感属性的第一标签的数量确定为第一相册的相册属性中相应情感属性的比重，或者将各种情感属性的第一标签的数量与第一相册中图片的数量的比值确定为第一相册的相册属性中相应情感属性的比重。仍以喜悦、悲伤、愤怒以及恐惧四种情感为例，可以用第一标签分别为00,01,10,11来指示该四种情感属性，假设第一相册中包括10张图片，10张图片分别的第一标签为：00,00,00，01,00,00,00,00,00,10。也就是说，有8张图片的情感属性为喜悦，那么相册属性中喜悦的比重为8；有1张图片的情感属性为悲伤，那么相册属性中悲伤的比重为1；有1张图片的情感属性为愤怒，那么相册属性中愤怒的比重为1；有0张图片的情感属性为恐惧，那么相册属性中恐惧的占比为0。则，相册属性可以为X2＝[0.8，0.1，0.1，0]。

与前文方式1中手机确定第一图片的第一标签类似的，在方式2中，手机也可以在空闲时确定并存储图库应用中各个事件相册的情感属性。然后，在需要生成第一图片对应的旁白文本时，手机可以直接获取第一相册的相册属性。从而可以省去手机在前台运行图库应用过程中，因确定相册属性而产生的功耗。或者，手机可以在检测到用户对第一相册的封面的点击操作后，确定该相册属性。从而避免在手机负载较高时，进一步因确定相册属性而增加功耗。

通常情况下，手机响应于用户对第一相册的封面的点击操作，显示第一相册包括的多张图片的缩略图即可。如第一相册的封面是图17所示界面1701中封面1703，手机响应于用户对封面1703的点击操作，可显示图17所示界面1705，界面1705中显示有第一相册(即“事件相册1”)包括的多张图片。为了方便说明，可以将显示相册包括的多张图片的缩略图的界面称为第二界面。

而在本申请实施例中，为了实现情感语音相册功能，手机响应于用户对第一相册的封面的点击操作，还需要确定用户当前的情绪信息(也可以称为情绪特征)，生成旁白文本并播放。关于确定用户的情绪信息的具体实现，可参见前文方式1中的相关说明，此处不再赘述。但是，需要注意的是，在方式2中，为了使采集的人脸图像和实时语音可以准确表示用户查看第一相册时的情绪，手机可以在检测到用户对第一图片的点击操作后，打开摄像头(如前置摄像头)以采集用户的面部图片(也可以称为人脸图像)，也可以开启麦克风以采集用户的实时语音(也可以称为声音)。

在确定相册属性，以及确定用户当前的情绪信息后，手机则可以根据相册属性、情绪信息以及第一相册包括的多张图片来生成旁白文本。参见图18，在确定相册属性和用户当前的情绪信息后，手机可以采用第五AI模型(也可以称为预设AI模型)来生成旁白文本。该第五AI模型为深度学习模型，如transformer网络模型。手机将相册属性、情绪信息以及第一相册包括的多张图片的图片序列输入至第五AI模型中，运行第五AI模型，第五AI模型则可输出至少一段旁白文本。其中，将第一相册中的多张图片按照拍摄时间的先后顺序排列则可得到图片序列。每段旁白文本可以用于为第一相册中的一张图片配语音旁白。并且，任意两段旁白文本是不同的。

在一种具体的实现方式中，采用第五AI模型可以为第一相册中所有图片都生成对应的旁白文本。那么，至少一段旁白文本的数量应该与第一相册中的图片数量相同。例如，第一相册中有5张图片，则第五AI模型可以输出5段旁白文本，每段旁白文本对应一张图片。从而可以为第一相册中的每张图片均生成旁白。

在另一种具体的实现方式中，采用第五AI模型可以为第一相册中部分图片生成对应的旁白文本。那么，至少一段旁白文本的数量应该少于第一相册中的图片数量。例如，第一相册中共有5张图片，则第五AI模型可以输出如下结果{“”、“好想再去学校转一转”、“”、“集美，约吗”、“”}，表示为第一相册中的第二张图片生成旁白文本“好想再去学校转一转”，为第一相册中的第四张图片生成旁白文本“集美，约吗”，即共生成2段旁白文本。从而可以仅为部分图片配旁白，使得添加的旁白更为自然。

示例性的，下面将介绍上述第五AI模型的训练过程：可以收集多个相册样本，每个相册样本中包括多张图片样本，确定每个相册样本中每张图片样本的标签样本，并根据每个相册样本中多张图片样本的标签样本确定相册样本的情感属性样本，得到对应多个相册样本的多个情感属性样本。以及，收集用户不同的情绪信息样本。还可以为每个相册样本标注至少一段旁白文本样本。其中，在标注旁白文本样本时，可以选择为每个相册样本中的部分或者全部图片标注；并且，在标注旁白文本时，需要根据相册样本中多张图片先后之间的关联性来标注，以使至少一段旁白文本之间的故事性更强。示例性的，相册样本中包括如图17所示界面1705中的三张图片，并且按照拍摄时间的先后顺序依次为图片1706、图片1707和图片1708，若对部分图片标注旁白文样本，则可以仅为图片1708标注旁白文本样本为“运动之后修身养性一下可真舒服呀”。从而考虑了图片1708中的打坐，与图片1706和图片1707中的运动之间时间上的关联。而后，将上述多组图片样本、标签样本、情绪信息样本和性格特征样本作为输入样本，将多条旁白文本样本作为输出样本，训练上述神经网络模型。当实际的训练输出与输出样本的差距小于预设误差时，结束训练，结束训练时得到的模型即为第四AI模型。

在方式2中，手机根据第一相册的相册属性和用户当前的情绪信息来生成旁白文本，则可以考虑到相册整体的感情色彩和用户的情绪，使得生成的旁白文本符合整个相册的感情基调以及用户的情绪。以及，与前文方式1不同的是：在方式2中，根据第一相册中多张图片的图片序列来生成旁白文本，则可以考虑到多张图片先后之间的关联性，使得生成的旁白文本更合理。例如，针对图17所示界面1705中的图片1708，若仅依据该图片来生成旁白文本，则可能会生成“打坐可真是惬意”，而若结合图片1706、图片1707和图片1708来生成旁白文本，则可能生成“运动之后修身养性一下可真舒服呀”。很显然，后者考虑了图片1708中的打坐，与图片1706和图片1707中的运动之间时间上的关联。

手机在生成至少一段旁白文本后，可以将至少一段旁白文本与第一相册中的至少一张图片绑定。例如，将第一文本与第一图片绑定。然后，手机可以检测用户对第一相册中各张图片的查看操作。关于对图片的查看操作，可参见前文方式1中的相关说明，此处不再赘述。手机响应于用户对第一相册中第一图片(可以为第一相册中的任一图片)的查看操作(即第二操作)，可以显示第一图片的大图。并且，若第一图片绑定有旁白文本，手机还可以将第一图片的旁白文本朗读出来，即可实现在显示第一图片的同时，为第一图片配语音旁白(也可以称为第一语音)。应理解，若第一图片没有旁白文本，手机则不会朗读旁白文本。为了方便说明，可以将显示第一图片的大图的界面称为第三界面。

以第一相册是图17所示界面1705中的“事件相册1”为例，手机采用第五AI模型为“事件相册1”生成的至少一段旁白文本如下{“”、“年轻的时候真是什么都敢尝试啊”、“”}。也就是说，仅为“事件相册1”中的第2张图片生成了旁白文本。此后，手机响应于用户对图17所示界面1705中第2张图片的缩略图1707的点击操作，则不仅会显示该图片的大图，而且会朗读旁白“年轻的时候真是什么都敢尝试啊”。

与方式1中类似的，在方式2中，用户的情绪不同，或者相册的感情色彩不同，对旁白的声音特征的需求也不同，具体可参见前文方式1中的相关说明，此处不再赘述。

基于此，参见图19，在一些实施例中，手机可以先根据相册属性和情绪信息生成旁白声纹(如图19中1901的过程)。在得到旁白声纹后，将旁白声纹和旁白文本合成得到语音旁白(如图19中1902的过程)。从而可以使得朗读旁白文本的声纹与用户情绪和第一相册的感情色彩相匹配。生成旁白声纹的具体实现，可参见方式1中图8所示实施例的相关说明。

在另一些实施例中，手机中也可以存储角色库。用户的情绪不同，或者相册的感情色彩不同，可能需要以不同角色的口吻来朗读旁白文本，具体可参见前文方式1中的相关说明，此处不再赘述。

基于此，参见图20，在一种具体的实现方式中，手机可以先根据相册属性和情绪信息匹配得到对应的目标角色(如图20中2001的过程)。示例性的，角色库中的各种角色都有对应的情感属性条件(也可以称为标签条件)和情绪条件，手机可以将相册属性与各个角色的情感属性条件匹配，以及，将情绪信息与各个角色的情绪条件匹配，确定出相匹配的目标角色(也可以称为第一角色)，从而可以得到目标角色的音色特征(可记为目标音色，也可以称为第一音色特征)，并根据目标音色来生成旁白声纹(如图20中2002的过程)。最后，手机将旁白声纹和旁白文本合成语音旁白(如图20中2003的过程)。从而可以自动匹配得到符合当前用户情绪和相册的情绪属性的目标角色，并以目标角色的音色特征相匹配的声纹朗读旁白文本。

或者，手机也可以根据目标角色的性格特征(也可以称为第一性格特征)来生成旁白声纹。具体可参见前文方式1中的相关说明，此处不再赘述。

或者，为了提升的旁白声纹的准确性，手机可以依据相册属性和情绪信息，目标音色以及目标性格中的多项来生成旁白声纹。示例性的，参见图21，手机可以根据相册属性、情绪信息、目标音色和目标性格来生成旁白声纹。

前述关于生成旁白声纹的具体实现，可参见方式1中对应内容的说明，此处不再赘述。

与方式1中类似的，在方式2中，旁白文本也可能会受角色性格的影响，基于此，手机可以在相册属性、情绪信息、第一相册中多张图片的基础上，进一步结合目标角色的性格特征(即目标性格)来生成旁白文本。示例性的，参见图22，手机可以采用第六AI模型(也可以称为预设AI模型)来生成旁白文本。将相册属性、情绪信息、第一相册中多张图片以及目标性格输入第六AI模型中，运行第六AI模型，第六AI模型则可输出旁白文本。

示例性的，第六AI模型的训练过程与前述第五AI模型的训练过程类似，主要不同之处在于：在训练第六AI模型的过程中，还需要收集多种性格特征样本。从而得到多组图片样本、标签样本、情绪信息样本和性格特征样本。并且，在标注每组图片样本、标签样本、情绪信息样本和性格特征样本对应的旁白文本样本时，还需要考虑到不同性格特征的表达习惯。而后，将上述多组图片样本、标签样本、情绪信息样本和性格特征样本作为输入样本，将多条旁白文本样本作为输出样本，训练上述神经网络模型。当实际的训练输出与输出样本的差距小于预设误差时，结束训练，结束训练时得到的模型即为第六AI模型。

应理解，目标角色是根据相册属性和情绪信息匹配得到的，那么，目标音色特征应该也是与相册属性和情绪信息相匹配的，同样的，目标性格特征应该也是与相册属性和情绪信息相匹配的。

在上述方式2中，需要根据第一相册中包括的多张图片的图片序列来得到语音旁白。也就是说，第一相册中包括的多张图片的拍摄时间先后顺序不同，也会导致得到的语音旁白不同，示例性的，第一相册中还包括第二图片，若第二图片的拍摄时间晚于第一图片的拍摄时间，则第一相册中包括的多张图片的图片序列中，第一图片位于第二图片之前，此时根据多张图片的图片序列和用户的情绪信息，可以得到第一图片的语音旁白1(即第一语音旁白)。又示例性的，第一相册中还包括第二图片，若第二图片的拍摄时间早于第一图片的拍摄时间，则第一相册中包括的多张图片的图片序列中，第一图片位于第二图片之后，此时根据多张图片的图片序列和用户的情绪信息，可以得到第一图片的语音旁白2(即第二语音)或者可能得到的语音旁白中没有第一图片的语音旁白。上述语音旁白2不同于语音旁白1。

以及，在上述方式2中，可以生成至少一段旁白问本，每段旁白文本可以用于为第一相册中的一张图片配语音旁白。并且，任意两段旁白文本是不同的。也就是说，采用方式2，可以为第一相册中不同图片配不同的语音旁白。示例性的，为第一图片配语音旁白1，为第二图片配语音旁白3(也可以称为第三语音)。相应的，在手机显示第一图片之后，若进一步接收到用户对第三图片的查看操作，手机则可以在显示第二图片的同时，播放对应的语音旁白3。例如，用户对第三图片的查看操作可以是用户在显示第一图片的界面的左滑操作或者右滑操作(可统称为滑动操作)。又例如，用户对第二图片的查看操作包括用户在显示第一图片的界面的返回操作(也可以称为第三操作)，手机响应于该返回操作，则可继续显示包括各张图片的缩略图的界面；然后，用户对第三图片的查看操作还包括用户对显示包括各张图片的缩略图的界面中第三图片的缩略图(也可以称为第二缩略图)的点击操作。另外，为了方便说明，可以将显示第三图片的界面称为第四界面。

在一些场景中，在浏览相册的过程，用户的情绪可能会发生变化。例如，在打开图17所示界面1705中的“事件相册1”时，用户的情绪是比较喜悦的，但是在浏览到该“事件相册1”中的某些图片时，回忆起一些往事，情绪则可能会变得比较悲伤。

基于此，在一些实施例中，手机在打开第一相册后，可以定期采集用户的面部图片和/或实时语音，并更新用户的情绪信息，然后根据更新的情绪信息来生成旁白文本和/或生成旁白声纹。从而可以保证最终播放的语音旁白符合用户当下的情绪。

为了便于对上述方式2的理解，下面以图23所示的完整示例来说明方式2的具体实现：

参见图23，手机可以在空闲时将相册中的各张图片输入至第一AI模型，运行第一AI模型可以确定各张图片的第一标签(如图23中2301的过程)。手机根据各张图片的第一标签、拍摄时间和拍摄地点，对相册中的图片聚类，形成m个事件相册(如图23中2302的过程)。手机根据每个事件相册包括的多张图片的第一标签，可以确定该事件相册的相册属性，相册属性用于表示整个相册的情感属性，从而可以确定第一相册的相册属性(如图23中2303的过程)。手机响应于用户对第一相册(可以为任一事件相册)的查看操作，可以开启摄像头采集用户的面部图片以及开启麦克风采集实时语音。手机将面部图片和实时语音输入至第二AI模型，运行第二AI模型可以确定用户当前的情绪信息(如图23中2304的过程)。然后，手机可以获取第一相册的相册属性，并将第一相册的相册属性和用户当前的情绪信息，与角色库中的角色匹配，得到相匹配的目标角色的音色特征(即目标音色)和性格特征(即目标性格)(如图23中2305的过程)。此后一方面，手机将第一相册的相册属性、用户当前的情绪信息、第一相册中多张图片的图片序列和目标性格输入至第六AI模型，运行第六AI模型可以生成至少一段旁白文本(如图23中2306的过程)。另一方面，手机根据第一相册的相册属性、用户当前的情绪信息、目标音色和目标性格来生成旁白声纹(如图23中2307的过程)。最后，手机将旁白声纹和至少一段旁白文本进行语音合成，则可以得到至少一段语音旁白(如图23中2308的过程)。手机响应于用户对第一相册中第一图片的查看操作，可以控制播放语音旁白，其中，若该第一图片有语音旁白，则播放语音旁白；若该第一图片没有语音旁白，则不播放语音旁白。从而可以随着用户切换查看第一相册中的不同图片，手机播放相应的语音旁白或者不播放语音旁白(如图23中2309的过程)。由此可见，本实施例的方案，可以根据相册与用户当前的情绪生成相匹配的语音旁白，在用户滑到对应图片的时候，使用恰当的角色(比如父亲、母亲、伴侣、朋友等)的语音语调发出语音吐槽，给用户营造出如同和亲朋好友一同翻阅相册的情境。

由上述图23所示的示例可以看出：只有第一相册中的多张图片和情绪信息是方式2中最初始的输入，而相册的属性、目标角色及其性格特征和/或音色特征等都是根据初始的输入而得到的中间量。因此，在实际实施时，本领域技术人员可以根据实际需求将上述图23中的多个功能模块或者AI模型合并。例如，将图23中2303、2305、2306、2307以及2308所示的过程中至少两个合并。本申请实施例对此不做具体限定。简言之，只要有第一相册中的多张图片和情绪信息，就可以最终确定出至少一段语音旁白(如第一语音)。

本申请实施例还提供一种电子设备，该电子设备可以包括：存储器和一个或多个处理器。存储器和处理器耦合。该存储器用于存储计算机程序代码，该计算机程序代码包括计算机指令。当处理器执行计算机指令时，电子设备可执行上述方法实施例中设备执行的各个功能或者步骤。

本申请实施例还提供一种芯片系统，如图24所示，该芯片系统2400包括至少一个处理器2401和至少一个接口电路2402。处理器2401和接口电路2402可通过线路互联。例如，接口电路2402可用于从其它装置(例如电子设备的存储器)接收信号。又例如，接口电路2402可用于向其它装置(例如处理器2401)发送信号。示例性的，接口电路2402可读取存储器中存储的指令，并将该指令发送给处理器2401。当所述指令被处理器2401执行时，可使得电子设备执行上述实施例中的各个步骤。当然，该芯片系统还可以包含其他分立器件，本申请实施例对此不作具体限定。

本实施例还提供一种计算机存储介质，该计算机存储介质中存储有计算机指令，当该计算机指令在电子设备上运行时，使得电子设备执行上述相关方法步骤实现上述实施例中的图像处理方法。

本实施例还提供了一种计算机程序产品，当该计算机程序产品在计算机上运行时，使得计算机执行上述相关步骤，以实现上述实施例中的图像处理方法。

另外，本申请的实施例还提供一种装置，这个装置具体可以是芯片，组件或模块，该装置可包括相连的处理器和存储器；其中，存储器用于存储计算机执行指令，当装置运行时，处理器可执行存储器存储的计算机执行指令，以使芯片执行上述各方法实施例中的图像处理方法。

其中，本实施例提供的电子设备、计算机存储介质、计算机程序产品或芯片均用于执行上文所提供的对应的方法，因此，其所能达到的有益效果可参考上文所提供的对应的方法中的有益效果，此处不再赘述。

通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

该作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是，以上实施例仅用以说明本申请的技术方案而非限制，尽管参照较佳实施例对本申请进行了详细说明，本领域的普通技术人员应当理解，可以对本申请的技术方案进行修改或等同替换，而不脱离本申请技术方案的精神和范围。

Claims

1.一种图片显示方法，其特征在于，应用于电子设备，所述电子设备中包括第一相册，所述第一相册中包括第一图片，所述方法包括：

所述电子设备显示第一界面，所述第一界面中包括第一相册的选项；

所述电子设备响应于用户对所述第一相册的选项的第一操作，显示第二界面，所述第二界面中包括所述第一相册中多张图片的缩略图；

所述电子设备响应于用户对所述第二界面中第一缩略图的第二操作，显示第三界面，并播放第一语音，所述第一缩略图是所述第一相册中第一图片的缩略图，所述第三界面中包括所述第一图片；

其中，所述第一语音是根据所述多张图片和/或用户当前的情绪特征生成的。

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

所述电子设备响应于所述第一操作，周期性采集用户的人脸图像和/或声音，所述人脸图像和/或所述声音用于确定用户当前的所述情绪特征。

3.根据权利要求1或2所述的方法，其特征在于，所述多张图片包括第二图片；

所述电子设备响应于用户对所述第二界面中第一缩略图的第二操作，显示第三界面，并播放第一语音，包括：

所述第一图片的拍摄时间早于所述第二图片的拍摄时间，所述电子设备响应于用户对所述第二界面中所述第一缩略图的所述第二操作，显示所述第三界面，并播放所述第一语音；

其中，所述第一语音是根据所述多张图片的图片内容，所述多张图片的拍摄时间先后顺序和/或所述情绪特征生成的。

4.根据权利要求3所述的方法，其特征在于，所述方法还包括：

所述第一图片的拍摄时间晚于所述第二图片的拍摄时间，所述电子设备响应于用户对所述第二界面中所述第一缩略图的所述第二操作，显示第三界面，并播放第二语音或者不播放语音；

其中，所述第二语音是根据所述多张图片的图片内容，所述多张图片的拍摄时间先后顺序和/或所述电子设备采集的所述情绪特征生成的，所述第二语音不同于所述第一语音。

5.根据权利要求1-4中任一项所述的方法，其特征在于，所述多张图片包括第三图片；

在所述显示第三界面之后，所述方法还包括：

所述电子设备响应于用户对所述第三界面的滑动操作，显示第四界面，所述第四界面中包括所述第三图片，并播放第三语音或者不播放语音；

其中，所述第三语音不同于所述第一语音。

6.根据权利要求1-4中任一项所述的方法，其特征在于，所述多张图片包括第三图片；

在所述显示第三界面之后，所述方法还包括：

所述电子设备响应于用户对所述第三界面的第三操作，显示所述第二界面；

所述电子设备响应于用户对所述第二界面中第二缩略图的所述第二操作，显示第四界面，并播放第三语音或者不播放语音，所述第二缩略图是所述第一相册中第三图片的缩略图，所述第四界面中包括所述第三图片；

其中，所述第三语音不同于所述第一语音。

7.根据权利要求4-6中任一项所述的方法，其特征在于，语音包括文本和声纹特征，语音不同包括文本不同和/或声纹特征不同；

其中，所述声纹特征包括音调参数、音量参数和语速参数中的至少一种。

8.根据权利要求1-7中任一项所述的方法，其特征在于，所述根据所述多张图片和/或所述情绪特征生成所述第一语音，包括：

根据所述多张图片的图片内容、所述多张图片的第一标签、所述多张图片的拍摄时间先后顺序和/或所述情绪特征生成所述多张图片中至少一张图片对应的至少一段语音，所述至少一张图片包括第一图片，所述第一语音是所述第一图片对应的语音；

其中，每张图片的第一标签用于指示所述图片的情感属性。

9.根据权利要求8所述的方法，其特征在于，所述至少一张图片多于或等于两张图片，不同图片的语音不同。

10.根据权利要求8或9所述的方法，其特征在于，所述第一语音的文本为第一文本；

所述根据所述多张图片的图片内容、所述多张图片的第一标签、所述多张图片的拍摄时间先后顺序和/或所述情绪特征生成所述多张图片中至少一张图片对应的至少一段语音，包括：

所述电子设备将所述多张图片的图片序列、所述第一相册的第二标签、所述情绪特征和/或第一性格特征作为输入，运行预设人工智能AI模型得到至少一段文本，所述至少一段文本与所述至少一段语音一一对应，所述至少一段文本中包括所述第一文本；

其中，所述图片序列按照所述多张图片的拍摄时间的先后顺序排列，所述第二标签指示所述第一相册的情感属性，所述第二标签根据所述多张图片的第一标签生成，所述第一性格特征与所述第二标签和/或所述情绪特征相匹配；所述预设AI模型具有根据图片序列、相册的标签、情绪特征和/或性格特征得到至少一段文本的能力。

11.根据权利要求1-10中任一项所述的方法，其特征在于，所述第一语音的声纹为第一声纹；

所述根据所述多张图片和/或用户当前的情绪特征生成所述第一语音，包括：

所述电子设备根据所述第一相册的第二标签、所述情绪特征、第一性格特征和/或第一音色特征生成所述第一声纹；其中，所述第二标签指示所述第一相册的情感属性，所述第二标签根据所述多张图片的第一标签生成，所述第一性格特征与所述第二标签和/或所述情绪特征相匹配，所述第一音色特征与所述第二标签和/或所述情绪特征相匹配。

12.根据权利要求10或11所述的方法，其特征在于，所述电子设备中包括角色库，所述角色库中包括多个角色及其性格特征和/或音色特征，每个角色有对应的情绪条件和/或标签条件，所述第一性格特征是所述角色库中第一角色的性格特征，所述第一音色特征是所述角色库中所述第一角色的音色特征；

所述方法还包括：

所述电子设备将所述情绪特征与所述多个角色分别的情绪条件匹配，确定出第一角色；和/或，所述电子设备将所述第一相册的第二标签与所述多个角色分别的标签条件匹配，确定出第一角色。

13.根据权利要求1-12中任一项所述的方法，其特征在于，在所述电子设备显示第一界面之前，所述方法还包括：

所述电子设备根据所述电子设备中图片的第一标签、拍摄时间以及拍摄地点中的至少一项聚类得到至少两个相册，所述第一相册为所述至少两个相册中的一个。

14.一种图片显示方法，其特征在于，应用于电子设备，所述电子设备中包括第一图片，所述方法包括：

所述电子设备显示第一界面，所述第一界面中包括所述第一图片的第一缩略图；

所述电子设备响应于用户对所述第一缩略图的第一操作，显示第二界面，并播放第一语音，所述第二界面中包括所述第一图片；

其中，所述第一语音是根据所述第一图片和/或用户当前的情绪特征生成的。

15.根据权利要求14所述的方法，其特征在于，所述方法还包括：

所述电子设备响应于用户对所述第一缩略图的所述第一操作，采集用户的人脸图像和/或声音，所述人脸图像和/或所述声音用于确定用户当前的所述情绪特征。

16.根据权利要求14或15所述的方法，其特征在于，所述电子设备中还包括第二图片；

在所述显示第二界面之后，所述方法还包括：

所述电子设备响应于用户对所述第二界面的滑动操作，显示第三界面，所述第三界面中包括所述第二图片，并播放第二语音；

其中，所述第二语音是根据所述第二图片和/或用户当前的情绪特征生成的，所述第二语音不同于所述第一语音。

17.根据权利要求14或15所述的方法，其特征在于，所述电子设备中还包括第二图片，所述第一界面中还包括所述第二图片的第二缩略图；

在所述显示第二界面之后，所述方法还包括：

所述电子设备响应于用户对所述第二界面的第二操作，显示所述第一界面；

所述电子设备响应于用户对所述第二缩略图的所述第一操作，显示第三界面，所述第三界面中包括所述第二图片，并播放第二语音；

18.根据权利要求16或17所述的方法，其特征在于，第一语音包括第一文本和第一声纹特征，第二语音包括第二文本和第二声纹，所述第二语音不同于所述第一语音包括：所述第二文本不同于所述第一文本，和/或，所述第二声纹不同于所述第一声纹；

其中，所述第一声纹包括第一音调、第一音量和第一语速中的至少一种，所述第二声纹包括第二音调、第二音量和第二语速中的至少一种。

19.根据权利要求14-18中任一项所述的方法，其特征在于，所述根据所述第一图片和/或用户当前的情绪特征生成所述第一语音，包括：

根据所述第一图片的图片内容、所述第一图片的第一标签、和/或所述情绪特征生成所述第一语音；所述第一标签用于指示所述第一图片的情感属性。

20.根据权利要求19所述的方法，其特征在于，所述第一语音的文本为第一文本；

所述根据所述第一图片的图片内容、所述第一图片的第一标签、和/或所述情绪特征生成所述第一语音，包括：

所述电子设备将所述第一图片、所述第一图片的第一标签、所述情绪特征和/或第一性格特征作为输入，运行预设人工智能AI模型得到第一文本；

其中，所述第一性格特征与所述第一标签和/或所述情绪特征相匹配；所述预设AI模型具有根据图片内容、图片的标签、情绪特征和/或性格特征得到一段文本的能力。

21.根据权利要求14-20中任一项所述的方法，其特征在于，所述第一语音的声纹为第一声纹；

所述根据所述第一图片和/或用户当前的情绪特征生成所述第一语音，包括：

所述电子设备根据所述第一图片的第一标签、所述情绪特征、第一性格特征和/或第一音色特征生成所述第一声纹；其中，所述第一标签指示所述第一图片的情感属性，所述第一性格特征与所述第一标签和/或所述情绪特征相匹配，所述第一音色特征与所述第一标签和/或所述情绪特征相匹配。

22.根据权利要求20或21所述的方法，其特征在于，所述电子设备中包括角色库，所述角色库中包括多个角色及其性格特征和/或音色特征，每个角色有对应的情绪条件和/或标签条件，所述第一性格特征是所述角色库中第一角色的性格特征，所述第一音色特征是所述角色库中所述第一角色的音色特征；

所述方法还包括：

所述电子设备将所述情绪特征与所述多个角色分别的情绪条件匹配，确定出第一角色；和/或，所述电子设备将所述第一图片的所述第一标签与所述多个角色分别的标签条件匹配，确定出第一角色。

23.一种电子设备，其特征在于，所述电子设备中包括显示屏、存储器和一个或多个处理器，所述显示屏、所述存储器与所述处理器耦合；其中，所述存储器中存储有计算机程序代码，所述计算机程序代码包括计算机指令，当所述计算机指令被所述处理器执行时，使得所述电子设备执行如权利要求1-13中任一项所述的方法；或者，当所述计算机指令被所述处理器执行时，使得所述电子设备执行如权利要求14-22中任一项所述的方法。

24.一种计算机可读存储介质，其特征在于，包括计算机指令，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求1-13中任一项所述的方法；或者，当所述计算机指令在电子设备上运行时，使得所述电子设备执行如权利要求14-22中任一项所述的方法。

25.一种芯片系统，其特征在于，所述芯片系统应用于包括处理器和存储器的电子设备，所述芯片系统包括一个或多个接口电路和一个或多个处理器，所述接口电路和所述处理器通过线路互联，所述接口电路用于从所述电子设备的存储器接收信号，并向所述处理器发送所述信号，所述信号包括所述存储器中存储的计算机指令，当所述处理器执行所述计算机指令时，使得所述电子设备执行如权利要求1-13中任一项所述的方法；或者，当所述处理器执行所述计算机指令时，使得所述电子设备执行如权利要求14-22中任一项所述的方法。