CN110337030B

CN110337030B - 视频播放方法、装置、终端和计算机可读存储介质

Info

Publication number: CN110337030B
Application number: CN201910728569.2A
Authority: CN
Inventors: 江宁; 杜正中; 熊健
Original assignee: Tencent Technology Shenzhen Co Ltd
Current assignee: Tencent Technology Shenzhen Co Ltd
Priority date: 2019-08-08
Filing date: 2019-08-08
Publication date: 2020-08-11
Anticipated expiration: 2039-08-08
Also published as: CN110337030A

Abstract

本申请公开了一种视频播放方法、装置、终端和计算机可读存储介质，属于终端技术领域。所述方法包括：识别正在播放的视频中的当前视频图像中出现的第一角色；获取包含第一角色对话的当前语音片段；获取当前语音片段对应的声纹特征；当当前语音片段对应的声纹特征与任一第二角色的声纹特征之间相似度大于或等于参考相似度时，对当前语音片段的音色进行修改，以使当前语音片段对应的声纹特征与所有第二角色的声纹特征之间的相似度均小于参考相似度，第二角色为视频中已显示过的视频图像中出现的与第一角色不同的角色。本申请可以使得不同角色的音色不重合，如此可以便于用户区分不同的角色，提高了用户的视听体验。

Description

视频播放方法、装置、终端和计算机可读存储介质

技术领域

本申请涉及终端技术领域，特别涉及一种视频播放方法、装置、终端和计算机可读存储介质。

背景技术

人们往往进行各种休闲活动以求得身心的调节及放松。随着视频内容及形式的不断丰富，通过终端来播放视频逐渐成为备受人们青睐的休闲活动。

目前，终端在播放视频时，在播放页面上播放该视频中的视频图像的同时，也会播放对应的音频。例如，当播放到该视频中包含有某一角色的视频图像时，同时也会播放包含有这一角色对话的音频。

发明内容

本申请实施例提供了一种视频播放方法、装置、终端和计算机可读存储介质。所述技术方案如下：

一方面，提供了一种视频播放方法，所述方法包括：

识别正在播放的视频中的当前视频图像中出现的第一角色；

获取包含所述第一角色对话的当前语音片段；

获取所述当前语音片段对应的声纹特征；

当所述当前语音片段对应的声纹特征与任一第二角色的声纹特征之间相似度大于或等于参考相似度时，对所述当前语音片段的音色进行修改，以使所述当前语音片段对应的声纹特征与所有第二角色的声纹特征之间的相似度均小于参考相似度，所述第二角色为所述视频中已显示过的视频图像中出现的与所述第一角色不同的角色。

一方面，提供了一种视频播放装置，所述装置包括：

识别模块，用于识别正在播放的视频中的当前视频图像中出现的第一角色；

第一获取模块，用于获取包含所述第一角色对话的当前语音片段；

第二获取模块，用于获取所述当前语音片段对应的声纹特征；

第一修改模块，用于当所述当前语音片段对应的声纹特征与任一第二角色的声纹特征之间相似度大于或等于参考相似度时，对所述当前语音片段的音色进行修改，以使所述当前语音片段对应的声纹特征与所有第二角色的声纹特征之间的相似度均小于参考相似度，所述第二角色为所述视频中已显示过的视频图像中出现的与所述第一角色不同的角色。

一方面，提供了一种终端，所述终端包括处理器和存储器，所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现上述的视频播放方法。

一方面，提供了一种计算机可读存储介质，所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现上述的视频播放方法。

本申请实施例提供的技术方案至少可以带来以下有益效果：

在本申请实施例中，识别正在播放的视频中的当前视频图像中出现的第一角色后，获取包含第一角色对话的当前语音片段。之后，获取当前语音片段对应的声纹特征。当当前语音片段对应的声纹特征与任一第二角色的声纹特征之间相似度大于或等于参考相似度时，对当前语音片段的音色进行修改，以使当前语音片段对应的声纹特征与所有第二角色的声纹特征之间的相似度均小于参考相似度。本申请实施例中，可以当第一角色对应的音色与第二角色对应的音色重合时，对第一角色对应的音色进行修改，从而可以保证不同角色对应的音色不重合，如此可以便于用户区分不同的角色，提高了用户的视听体验。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种视频播放方法的流程图；

图2是本申请实施例提供的一种视频播放方法的示意图；

图3是本申请实施例提供的一种视频播放装置的结构示意图；

图4是本申请实施例提供的另一种视频播放装置的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

在对本申请实施例进行详细地解释说明之前，先对本申请实施例的应用场景予以说明。

视频中往往会包含有许多角色，且经常会出现一个配音员同时给多个角色配音的情况。这种情况下，人们在观看视频的过程中，根据这多个角色的声音将难以区分这多个角色。特别是对于视力不好的用户，会导致其听取视频内容变得更加困难。

为此，本申请实施例提供了一种视频播放方法，可以在视频播放过程中，修改该视频中出现的角色对应的音色，以保证不同的角色对应的音色不重合，从而便于用户区分该视频中出现的不同角色。

本申请实施例提供了一种视频播放方法，该方法可由终端实现。其中，终端可以为手机、平板电脑等。在终端中可以安装有用于播放视频的应用程序，如终端中可以安装有视频应用或浏览器等。

图1是本申请实施例提供的一种视频播放方法的流程图。参见图1，该方法包括：

步骤101：识别正在播放的视频中的当前视频图像中出现的第一角色。

需要说明的是，视频是存储动态影像的文件，如该视频可以为电视剧、电影、自媒体制作的小视频等。播放视频的页面可以为应用程序中的应用界面、浏览器中的网页等，本申请实施例对此不作限定。

另外，当前视频图像是该视频中正在显示的视频图像，当前视频图像中可以出现各种角色。第一角色可以为当前视频图像中出现的任一角色，如第一角色是当前视频图像中出现的任一人物或拟人化生物等，本申请实施例对此不作限定。

再者，本申请实施例中每播放到该视频中的一帧视频图像，就可以识别这一帧视频图像中出现的角色，以便后续可以确定该角色对应的音色是否与其它已出现过的角色对应的音色重合。

具体地，步骤101的操作可以为：对正在播放的视频中的当前视频图像进行人脸识别，以确定当前视频图像中出现的第一角色。

需要说明的是，人脸识别是一种生物识别技术，人脸识别基于人的脸部特征信息进行身份识别，人脸识别可以包括人脸检测、人脸图像预处理、人脸特征提取、人脸匹配与识别等过程。

另外，对正在播放的视频中的当前视频图像进行人脸识别的操作与相关技术中对某一图像进行人脸识别的操作类似，本申请实施例对此不进行详细阐述。

例如，可以对当前视频图像进行人脸检测，以在当前视频图像中标定出人脸的位置和大小；根据人脸检测结果，对当前视频图像中的人脸区域进行光线补偿、灰度变换、直方图均衡化、归一化、几何校正、滤波以及锐化等预处理；提取当前视频图像中的人脸区域的人脸特征；将提取到的人脸特征与已存储的参考人脸特征进行匹配，如果提取到的人脸特征与一个参考人脸特征匹配成功，则将这个参考人脸特征对应的角色确定为当前视频图像中出现的第一角色。

需要说明的是，将提取到的人脸特征与已存储的参考人脸特征进行匹配时，可以计算提取到的人脸特征与已存储的参考人脸特征之间的相似度；当提取到的人脸特征与一个参考人脸特征之间的相似度大于或等于预设的相似度时，确定提取到的人脸特征与这个参考人脸特征匹配成功；当提取到的人脸特征与一个参考人脸特征之间的相似度小于预设的相似度时，确定提取到的人脸特征与这个参考人脸特征匹配失败。

另外，参考人脸特征可以预先进行设置，且每个参考人脸特征为事先提取到的一个角色的人脸特征，即每个参考人脸特征与一个角色对应。本申请实施例中可以事先提取该视频中的所有角色的人脸特征并对其进行存储，即可以事先存储该视频中的所有角色对应的参考人脸特征，以便后续可以据此识别该视频中的视频图像中出现的角色。

步骤102：获取包含第一角色对话的当前语音片段。

需要说明的是，在播放该视频的过程中，也会同时播放该视频对应的音频，该音频中包含有该视频中出现的各个角色的对话内容。当前语音片段是当前正在播放的包含有第一角色对话的语音片段，当前语音片段可以从当前正在播放的音频片段中提取得到。当前正在播放的音频片段可以是直接从该视频对应的音频中截取出的包含有当前视频图像中出现的第一角色的对话(即语音)、环境音、背景音乐等内容的片段，该语音片段可以是从该音频片段中提取到的只包含第一角色的对话内容的片段。

具体地，步骤102的操作可以为：获取当前正在播放的音频片段；从该音频片段中提取包含第一角色对话的语音片段作为当前语音片段。

需要说明的是，从该音频片段中提取包含第一角色对话的语音片段的操作与相关技术中从某个音频片段中提取语音片段的操作类似，本申请实施例对此不进行详细阐述。

例如，可以使用VAD(Voice Activity Detection，语音活动检测)算法来从该音频片段中提取包含第一角色对话的语音片段，该VAD算法可以包括LTSD(Long-Term SpectralDivergence，长时频谱差异)算法等，本申请实施例对此不作限定。

步骤103：获取当前语音片段对应的声纹特征。

需要说明的是，包含某一角色对话的语音片段对应的声纹特征是这个语音片段中包含的语音的声纹特征，且这个语音片段对应的声纹特征用于表征这个语音片段的音色，也即用于表征这一角色对应的音色，音色通常是最能反映说话人身份信息的属性。例如，当前语音片段对应的声纹特征是当前语音片段中包含的语音的声纹特征，当前语音片段对应的声纹特征可以表征当前语音片段的音色，也即可以表征第一角色对应的音色。例如，该声纹特征可以为i-vector(Identity Vector，身份向量)等。

具体地，步骤103的操作可以为：对当前语音片段进行声纹识别，以得到当前语音片段对应的声纹特征。

需要说明的是，声纹识别是一种生物识别技术，也叫说话人识别，是一种通过声音判别说话人身份的技术。

另外，对当前语音片段进行声纹识别的操作与相关技术中对一个语音片段进行声纹识别的操作类似，本申请实施例对此不进行详细阐述。

例如，可以提取当前语音片段的频谱特征；将当前语音片段的频谱特征输入到声纹模型中，由声纹模型输出当前语音片段对应的声纹特征。

需要说明的是，当前语音片段的频谱特征用于表征当前语音片段的频谱信息。例如，可以先将当前语音片段分为多个较短的音频帧，然后提取该多个音频帧中的每个音频帧的频谱特征值，将该多个音频帧的频谱特征值组成当前语音片段的频谱特征。

其中，该频谱特征值可以是MFCC(Mel-frequency cepstral coefficients，梅尔倒谱系数)、LPCC(linear predictive cepstral coefficients，线性预测倒谱系数)、LSF(line spectral frequencies，线谱频率)或PLP(Perceptual Linear Prediction，感知线性预测系数)等，本申请实施例对此不作限定。例如，可以先将当前语音片段分为多个较短的音频帧，然后提取该多个音频帧中的每个音频帧的MFCC，将该多个音频帧的MFCC组成当前语音片段的频谱特征。

需要说明的是，声纹模型是预先训练好的可以提取语音片段对应的声纹特征的模型，该声纹模型可以是非参数模型或参数模型。非参数模型可以包括VQ(VectorQuantization，矢量量化)和DTW(Dynamic Time Warping，动态时间规整)等。参数模型可以包括GMM(Gaussian Mixture Model，高斯混合模型)、HMM(Hidden Markov Model，隐马尔可夫模型)、ANNs(Artificial neural networks，人工神经网络)模型、i-vector模型等。

另外，在训练得到该声纹模型时，可以获取包含大量角色中每个角色对话的语音片段，然后提取这些语音片段中每个语音片段的频谱特征，使用这些语音片段的频谱特征进行模型训练，得到该声纹模型。

再者，在使用这些语音片段的频谱特征进行模型训练之前，为了提高训练效率和训练效果，可以对这些语音片段的频谱特征进行归一化处理。例如，可以使用CMS(CepstralMean Subtraction，倒谱均值减)算法、CMN(cepstral mean normalization，倒谱均值归一化)算法、特征校正(Feature Warping)算法、短期高斯化(Short-term Gaussianization)算法等对这些语音片段的频谱特征进行归一化处理。

步骤104：当当前语音片段对应的声纹特征与任一第二角色的声纹特征之间相似度大于或等于参考相似度时，对当前语音片段的音色进行修改，以使当前语音片段对应的声纹特征与所有第二角色的声纹特征之间的相似度均小于参考相似度。

需要说明的是，第二角色为该视频中已显示过的视频图像中出现的与第一角色不同的角色。例如，第二角色可以是该视频中已显示过的视频图像中出现的与第一角色不同的任一人物或拟人化生物等。

另外，参考相似度可以预先进行设置，且参考相似度可以设置的较大。当两个声纹特征之间的相似度大于或等于参考相似度时，这两个声纹特征所表征的音色重合；当两个声纹特征之间的相似度小于参考相似度时，这两个声纹特征所表征的音色相差较大。

再者，计算当前语音片段对应的声纹特征与任一第二角色的声纹特征之间的相似度时，可以使用SVM(Support Vector Machine，支持向量机)、CDS(Cosine DistanceScoreing，余弦距离评分)、LDA(Probalistic Linear Discriminant Analysis，概率线性判别分析)等来进行计算，本申请实施例对此不作限定。

当当前语音片段对应的声纹特征与任一第二角色的声纹特征之间相似度大于或等于参考相似度时，表明当前语音片段对应的声纹特征与这一第二角色的声纹特征之间的相似度较高，即第一角色对应的音色与这一第二角色对应的音色重合，因而可以对当前语音片段的音色进行修改，使第一角色对应的音色与所有第二角色对应的音色不重合，以便用户能够区分不同的角色，提高用户的视听体验。

其中，对当前语音片段的音色进行修改，以使当前语音片段对应的声纹特征与所有第二角色的声纹特征之间的相似度均小于参考相似度时，可以先对当前语音片段的音色进行一次修改，然后获取当前语音片段对应的声纹特征，当获取到的声纹特征与所有第二角色的声纹特征之间的相似度均小于参考相似度，音色修改完成，结束操作；当获取到的声纹特征与某一第二角色的声纹特征之间的相似度大于或等于参考相似度时，继续对当前语音片段的音色再次进行修改，如此重复，直至当前语音片段对应的声纹特征与所有第二角色的声纹特征之间的相似度均小于参考相似度为止。

需要说明的是，对当前语音片段的音色进行修改的操作与相关技术中对某一语音片段的音色进行修改的操作类似，本申请实施例对此不进行详细阐述。

例如，可以分析当前语音片段，得到当前语音片段的特征参数；修改当前语音片段的特征参数，以改变当前语音片段的音色。

需要说明的是，分析当前语音片段时，可以对当前语音片段进行基音估计(PitchEstimation)、声门信号估计(Glottal source separation)、声道估计、噪声估计等，以得到当前语音片段的基音的频率、声门信号的类型、声道的参数、噪声的能量等特征参数。

另外，可以通过修改基音的频率，来改变音调高低。可以通过修改声门信号的类型，来使得声音变得平缓或紧张。可以通过修改声道的参数，来改变声音的个性。可以通过修改噪声的能量，来改变声音的低沉度。如此，通过修改当前语音片段的特征参数，就可以改变当前语音片段的音色。

进一步地，在步骤104之后，还可以重新获取当前语音片段对应的声纹特征；将当前语音片段对应的声纹特征确定为第一角色的声纹特征。

在步骤104对当前语音片段的音色进行修改后，当前语音片段的音色与所有第二角色对应的音色不重合，因而此时可以将当前语音片段对应的声纹特征确定为第一角色的声纹特征。并且，确定出第一角色的声纹特征后，可以便于后续显示到其它视频图像时，据此将其它视频图像中出现的其它角色对应的音色和第一角色对应的音色进行比较，以保证后续出现的其它角色对应的音色不与第一角色对应的音色重合。

值得注意的是，本申请实施例中，不仅可以在步骤101后直接执行步骤102-步骤104，也可以在步骤101之后，先执行如下步骤(1)-(3)：

(1)判断第一角色是否是该视频中已显示过的视频图像中出现的角色。

需要说明的是，由于每播放到该视频中的一帧视频图像，就会识别这帧视频图像中出现的角色，所以可以获知该视频中已显示过的所有视频图像中出现的所有角色，并据此判断第一角色是否是该视频中已显示过的视频图像中出现的角色。

另外，当第一角色不是该视频中已显示过的视频图像中出现的角色时，执行步骤(2)；当第一角色是该视频中已显示过的视频图像中出现的角色时，执行步骤(3)。

(2)当第一角色不是该视频中已显示过的视频图像中出现的角色时，执行步骤102-步骤104。

这种情况下，第一角色是该视频中新出现的角色，因而此时尚不能确定第一角色对应的音色与该视频中已出现的第二角色的音色是否重合，需要进一步进行判断，因此可以执行步骤102-步骤104，来保证第一角色对应的音色与该视频中已出现的所有第二角色对应的音色不重合。

(3)当第一角色是该视频中已显示过的视频图像中出现的角色时，有以下两种可能的情况：

第一种可能的情况：当对该视频中已播放过的包含第一角色对话的语音片段的音色进行过修改时，获取包含第一角色对话的当前语音片段，并按照相同的修改方式，对当前语音片段的音色进行修改。

这种情况下，第一角色是该视频中已经出现过的角色，且在播放该视频的过程中，已经对包含第一角色对话的语音片段的音色进行过修改，因而可以表明第一角色对应的初始音色与该视频中已经出现过的某个第二角色对应的音色是重合的，因此需要对包含第一角色对话的当前语音片段的音色进行修改。并且，由于之前对包含第一角色对话的语音片段的音色进行修改，就是为了保证第一角色对应的音色与第二角色对应的音色不重合，因此，此时可以直接按照与之前的修改方式相同的修改方式，修改当前语音片段的音色，以保证当前语音片段的音色与第二角色对应的音色不重合。这种情况下，无需再执行步骤102-步骤104来进行音色修改，从而提高了音色修改效率。

第二种可能的情况：当未对该视频中已播放过的包含第一角色对话的语音片段的音色进行过修改时，结束操作。

这种情况下，第一角色是该视频中已出现过的角色，且在播放该视频的过程中，未对包含第一角色对话的语音片段的音色进行过修改，因而可以表明第一角色对应的音色未与该视频中已经出现过的第二角色对应的音色重合，此时包含第一角色对话的当前语音片段的音色也不会与该视频中已经出现过的第二角色对应的音色重合，因此无需对当前语音片段的音色进行修改，即无需执行步骤102-步骤104，可以直接结束操作。

为了便于理解，下面结合图2来对本申请实施例提供的视频播放方法进行举例说明。

参见图2，第一步，对该视频中的视频图像进行人脸识别，确定该视频中的视频图像中出现了角色1、角色2、角色3等。第二步，从该视频对应的音频中的音频片段中提取包含各个角色对话的语音片段，获取包含各个角色对话的语音片段对应的声纹特征，包含某个角色对话的语音片段对应的声纹特征可以表征这个角色对应的音色。第三步，根据包含各个角色对话的语音片段对应的声纹特征，判断各个角色对应的音色是否重合。第四步，当两个角色对应的音色重合时，如当先出现的角色3对应的音色与后出现的角色7对应的音色均为音色3，对包含角色7的对话的语音片段的音色进行修改，以实现对角色7对应的音色进行修改，使得角色7对应的音色与其它角色对应的音色均不重合。

图3是本申请实施例提供的一种视频播放装置的结构示意图。参见图3，该装置包括：识别模块301、第一获取模块302、第二获取模块303和第一修改模块304。

识别模块301，用于识别正在播放的视频中的当前视频图像中出现的第一角色；

第一获取模块302，用于获取包含第一角色对话的当前语音片段；

第二获取模块303，用于获取当前语音片段对应的声纹特征；

第一修改模块304，用于当当前语音片段对应的声纹特征与任一第二角色的声纹特征之间相似度大于或等于参考相似度时，对当前语音片段的音色进行修改，以使当前语音片段对应的声纹特征与所有第二角色的声纹特征之间的相似度均小于参考相似度，第二角色为所述视频中已显示过的视频图像中出现的与第一角色不同的角色。

可选地，该装置还包括：

触发模块，用于当第一角色不是该视频中已显示过的视频图像中出现的角色时，触发第一获取模块302获取包含第一角色对话的当前语音片段。

可选地，该装置还包括：

第二修改模块，用于当第一角色是该视频中已显示过的视频图像中出现的角色时，如果对该视频中已播放过的包含第一角色对话的语音片段的音色进行过修改，则获取包含第一角色对话的当前语音片段，并按照相同的修改方式，对当前语音片段的音色进行修改。

可选地，该装置还包括：

第三获取模块，用于重新获取当前语音片段对应的声纹特征；

确定模块，用于将当前语音片段对应的声纹特征确定为第一角色的声纹特征。

可选地，识别模块301包括：

识别单元，用于对正在播放的视频中的当前视频图像进行人脸识别，以确定当前视频图像中出现的第一角色。

可选地，第二获取模块303包括：

获取单元，用于对当前语音片段进行声纹识别，以得到当前语音片段对应的声纹特征。

需要说明的是：上述实施例提供的视频播放装置在播放视频时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的视频播放装置与视频播放方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图4是本申请实施例提供的一种视频播放装置的结构示意图。参见图4，该装置可以为终端400，终端400可以是：智能手机、平板电脑、MP3播放器(Moving Picture ExpertsGroup Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(Moving PictureExperts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端400还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端400包括有：处理器401和存储器402。

处理器401可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器401可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器401也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器401可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器401还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器402可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器402还可包括高速随机存取存储器以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器402中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器401所执行以实现本申请中方法实施例提供的视频播放方法。

在一些实施例中，终端400还可选包括有：外围设备接口403和至少一个外围设备。处理器401、存储器402和外围设备接口403之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口403相连。具体地，外围设备包括：射频电路404、触摸显示屏405、摄像头组件406、音频电路407、定位组件408和电源409中的至少一种。

外围设备接口403可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器401和存储器402。在一些实施例中，处理器401、存储器402和外围设备接口403被集成在同一芯片或电路板上；在一些其他实施例中，处理器401、存储器402和外围设备接口403中的任意一个或两个可以在单独的芯片或电路板上实现，本申请对此不加以限定。

射频电路404用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路404通过电磁信号与通信网络以及其他通信设备进行通信。射频电路404将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路404包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等。射频电路404可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路404还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏405用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏405是触摸显示屏时，显示屏405还具有采集在显示屏405的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器401进行处理。此时，显示屏405还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏405可以为一个，设置在终端400的前面板；在另一些实施例中，显示屏405可以为至少两个，分别设置在终端400的不同表面或呈折叠设计；在再一些实施例中，显示屏405可以是柔性显示屏，设置在终端400的弯曲表面上或折叠面上。甚至，显示屏405还可以设置成非矩形的不规则图形，也即异形屏。显示屏405可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件406用于采集图像或视频。可选地，摄像头组件406包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件406还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路407可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器401进行处理，或者输入至射频电路404以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端400的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器401或射频电路404的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路407还可以包括耳机插孔。

定位组件408用于定位终端400的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件408可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。

电源409用于为终端400中的各个组件进行供电。电源409可以是交流电、直流电、一次性电池或可充电电池。当电源409包括可充电电池时，该可充电电池可以支持有线充电或无线充电。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端400还包括有一个或多个传感器410。该一个或多个传感器410包括但不限于：加速度传感器411、陀螺仪传感器412、压力传感器413、指纹传感器414、光学传感器415以及接近传感器416。

加速度传感器411可以检测以终端400建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器411可以用于检测重力加速度在三个坐标轴上的分量。处理器401可以根据加速度传感器411采集的重力加速度信号，控制触摸显示屏405以横向视图或纵向视图进行用户界面的显示。加速度传感器411还可以用于游戏或用户的运动数据的采集。

陀螺仪传感器412可以检测终端400的机体方向及转动角度，陀螺仪传感器412可以与加速度传感器411协同采集用户对终端400的3D动作。处理器401根据陀螺仪传感器412采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器413可以设置在终端400的侧边框和/或触摸显示屏405的下层。当压力传感器413设置在终端400的侧边框时，可以检测用户对终端400的握持信号，由处理器401根据压力传感器413采集的握持信号进行左右手识别或快捷操作。当压力传感器413设置在触摸显示屏405的下层时，由处理器401根据用户对触摸显示屏405的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器414用于采集用户的指纹，由处理器401根据指纹传感器414采集到的指纹识别用户的身份，或者，由指纹传感器414根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器401授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器414可以被设置在终端400的正面、背面或侧面。当终端400上设置有物理按键或厂商Logo时，指纹传感器414可以与物理按键或厂商Logo集成在一起。

光学传感器415用于采集环境光强度。在一个实施例中，处理器401可以根据光学传感器415采集的环境光强度，控制触摸显示屏405的显示亮度。具体地，当环境光强度较高时，调高触摸显示屏405的显示亮度；当环境光强度较低时，调低触摸显示屏405的显示亮度。在另一个实施例中，处理器401还可以根据光学传感器415采集的环境光强度，动态调整摄像头组件406的拍摄参数。

接近传感器416也称距离传感器，通常设置在终端400的前面板。接近传感器416用于采集用户与终端400的正面之间的距离。在一个实施例中，当接近传感器416检测到用户与终端400的正面之间的距离逐渐变小时，由处理器401控制触摸显示屏405从亮屏状态切换为息屏状态；当接近传感器416检测到用户与终端400的正面之间的距离逐渐变大时，由处理器401控制触摸显示屏405从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图4中示出的结构并不构成对终端400的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

在一些实施例中，还提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现上述实施例中视频播放方法。例如，该计算机可读存储介质可以是ROM(Read-Only Memory，只读存储器)、RAM(Random Access Memory，随机存取存储器)、CD-ROM、磁带、软盘和光数据存储设备等。

值得注意的是，本申请提到的计算机可读存储介质可以为非易失性存储介质，换句话说，可以是非瞬时性存储介质。

应当理解的是，实现上述实施例的全部或部分步骤可以通过软件、硬件、固件或者其任意结合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机指令。该计算机指令可以存储在上述计算机可读存储介质中。

也即是，在一些实施例中，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述所述的视频播放方法。

以上所述为本申请提供的实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

1.一种视频播放方法，其特征在于，所述方法包括：

识别正在播放的视频中的当前视频图像中出现的第一角色；

获取包含所述第一角色对话的当前语音片段；

获取所述当前语音片段对应的声纹特征；

2.如权利要求1所述的方法，其特征在于，所述获取包含所述第一角色对话的当前语音片段之前，还包括：

当所述第一角色不是所述视频中已显示过的视频图像中出现的角色时，执行所述获取包含所述第一角色对话的当前语音片段的步骤。

3.如权利要求1所述的方法，其特征在于，所述获取包含所述第一角色对话的当前语音片段之前，还包括：

当所述第一角色是所述视频中已显示过的视频图像中出现的角色时，如果对所述视频中已播放过的包含所述第一角色对话的语音片段的音色进行过修改，则执行获取包含所述第一角色对话的当前语音片段的步骤，并按照与对已播放过的包含所述第一角色对话的语音片段的音色进行修改的修改方式相同的修改方式，对所述当前语音片段的音色进行修改，且不执行获取所述当前语音片段对应的声纹特征，以及当所述当前语音片段对应的声纹特征与任一第二角色的声纹特征之间相似度大于或等于参考相似度时，对所述当前语音片段的音色进行修改的步骤。

4.如权利要求1-3任一所述的方法，其特征在于，所述对所述当前语音片段的音色进行修改之后，还包括：

重新获取所述当前语音片段对应的声纹特征；

将所述当前语音片段对应的声纹特征确定为所述第一角色的声纹特征。

5.如权利要求1所述的方法，其特征在于，所述识别正在播放的视频中的当前视频图像中出现的第一角色，包括：

对正在播放的视频中的当前视频图像进行人脸识别，以确定所述当前视频图像中出现的第一角色。

6.如权利要求1所述的方法，其特征在于，所述获取所述当前语音片段对应的声纹特征，包括：

对所述当前语音片段进行声纹识别，以得到所述当前语音片段对应的声纹特征。

7.一种视频播放装置，其特征在于，所述装置包括：

8.如权利要求7所述的装置，其特征在于，所述装置还包括：

触发模块，用于当所述第一角色不是所述视频中已显示过的视频图像中出现的角色时，触发所述第一获取模块获取包含所述第一角色对话的当前语音片段。

9.如权利要求8所述的装置，其特征在于，所述装置还包括：

第二修改模块，用于当所述第一角色是所述视频中已显示过的视频图像中出现的角色时，如果对所述视频中已播放过的包含所述第一角色对话的语音片段的音色进行过修改，则获取包含所述第一角色对话的当前语音片段，并按照相同的修改方式，对所述当前语音片段的音色进行修改。

10.如权利要求7-9任一所述的装置，其特征在于，所述装置还包括：

第三获取模块，用于重新获取所述当前语音片段对应的声纹特征；

确定模块，用于将所述当前语音片段对应的声纹特征确定为所述第一角色的声纹特征。

11.一种计算机可读存储介质，所述计算机可读存储介质上存储有指令，其特征在于，所述指令被处理器执行时实现权利要求1-6任一项所述的方法的步骤。