CN112584225A

CN112584225A - 视频录制处理方法、视频播放控制方法及电子设备

Info

Publication number: CN112584225A
Application number: CN202011405870.9A
Authority: CN
Inventors: 高志稳
Original assignee: Vivo Mobile Communication Co Ltd
Current assignee: Vivo Mobile Communication Co Ltd
Priority date: 2020-12-03
Filing date: 2020-12-03
Publication date: 2021-03-30

Abstract

本申请公开了一种视频录制处理方法、视频播放控制方法及电子设备。该方法包括：在视频录制的过程中，确定视频帧中用户的声纹特征；基于所述声纹特征确定录音数据中与所述用户关联的语音信息，所述录音数据为所述视频录制产生的语音数据；保存所述用户与所述语音信息的关联关系。本申请实施例提高了录制视频播放的灵活性。

Description

视频录制处理方法、视频播放控制方法及电子设备

技术领域

本申请属于视频处理技术领域，具体涉及一种视频录制处理方法、视频播放控制方法及电子设备。

背景技术

随着电子设备的不断进步和发展，电子设备的功能也越来越丰富多样。例如可以通过电子设备进行录像，即视频录制。在视频录制的过程中，电子设备可以进行立体声录音，从而提高声音的播放效果。在实现本申请过程中，发明人发现现有技术中至少存在如下问题，目前针对录制的视频在进行视频回放时，通常按照统一的播放方式进行播放，因此存在录制视频播放的灵活性较差。

发明内容

本申请实施例的目的是提供一种视频录制处理方法、视频播放控制方法及电子设备，能够解决录制视频播放的灵活性较差的问题。

第一方面，本申请实施例提供了一种视频录制处理方法，包括：

在视频录制的过程中，确定视频帧中用户的声纹特征；

基于所述声纹特征确定录音数据中与所述用户关联的语音信息，所述录音数据为所述视频录制产生的语音数据；

保存所述用户与所述语音信息的关联关系。

第二方面，本申请实施例提供了一种视频播放控制方法，其特征在于，包括：

接收对录制的目标视频的视频帧中第一用户的第一输入；

响应于所述第一输入，基于所述第一用户关联的语音信息进行语音的播放控制。

第三方面，本申请实施例提供了一种视频录制处理装置，包括：

第一确定模块，用于在视频录制的过程中，确定视频帧中用户的声纹特征；

第二确定模块，用于基于所述声纹特征确定录音数据中与所述用户关联的语音信息，所述录音数据为所述视频录制产生的语音数据；

存储模块，用于保存所述用户与所述语音信息的关联关系。

第四方面，本申请实施例提供了一种视频播放控制装置，包括：

接收模块，用于接收对录制的目标视频的视频帧中第一用户的第一输入；

控制模块，用于响应于所述第一输入，基于所述第一用户关联的语音信息进行语音的播放控制。

第五方面，本申请实施例提供了一种电子设备，该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤，或者，所述程序或指令被所述处理器执行时实现如第二方面所述的方法的步骤。

第六方面，本申请实施例提供了一种可读存储介质，所述可读存储介质上存储程序或指令，所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤，或者，所述程序或指令被所述处理器执行时实现如第二方面所述的方法的步骤。

第七方面，本申请实施例提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现如第一方面所述的方法，或者，所述程序或指令被所述处理器执行时实现如第二方面所述的方法的步骤。

第八方面，本发明实施例还提供一种计算机程序产品，所述计算机程序产品被存储在非易失的存储介质中，所述计算机程序产品被配置成被至少一个处理器执行以实现上文所述的方法的步骤。

第九方面，本发明实施例还提供一种控制装置，所述控制装置被配置成用于执行上文所述的方法。

本申请实施例通过在视频录制的过程中，确定视频帧中用户的声纹特征；基于所述声纹特征确定录音数据中与所述用户关联的语音信息，所述录音数据为所述视频录制产生的语音数据；保存所述用户与所述语音信息的关联关系。由于在视频录制时，建立了视频帧中用户与语音信息的关联关系，在进行视频播放时，可以基于视频帧中显示的用户对录音数据进行灵活的控制，从而提高了录制视频播放的灵活性。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的视频录制处理方法的流程图；

图2是本申请实施例提供的视频录制的流程示意图；

图3是本申请实施例提供的视频播放控制方法的流程图；

图4是本申请实施例提供的视频播放控制方法中视频播放界面示意图；

图5是本申请实施例提供的视频录制处理装置的结构图；

图6是本申请实施例提供的视频播放控制装置的结构图；

图7是本申请实施例提供的一种电子设备的结构图；

图8是本申请实施例提供的另一种电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

下面结合附图，通过具体的实施例及其应用场景对本申请实施例提供的视频录制处理方法进行详细地说明。

参见图1，图1是本申请实施例提供的一种视频录制处理方法的流程图，如图1所示，包括以下步骤：

步骤101，在视频录制的过程中，确定视频帧中用户的声纹特征；

本申请实施例中，用户可以通过电子设备交互界面输入交互指令从而控制电子设备进行视频录制，应理解，在视频录制过程中，通常采用摄像头进行图像采集，从而生成图像数据，通过麦克风采集生成语音数据，基于图像数据和语音数据最终得到录制的目标视频。

具体的，上述麦克风可以为一个麦克风，也可以为至少两个麦克风，当为至少两个麦克风时，该至少两个麦克风可以设置在不同的位置，从而形成立体声录音。例如，在一些实施例中，上述麦克风的数量至少为三个，形成一个立体空间，可以进行声音定位，录制表现来自不同方向的声音，使得音频无比清晰。

本申请实施例中，可以基于录制过程中产生的语音数据确定用户的声纹特征，也可以在视频录制开始时，为每一用户进行场景录制(例如每次一个用户处于视频中进行讲话)，以确定用户的声纹特征。

应理解，上述用户是指视频帧中所包含的用户，在不同的时刻，视频中所包含的用户可以相同也可以不同，例如，在视频录制过程中，可以增加或者减少当前视频帧中的用户。

步骤102，基于所述声纹特征确定录音数据中与所述用户关联的语音信息，所述录音数据为所述视频录制产生的语音数据；

本申请实施例中，可以在视频录制过程中基于声纹特征确定当前录音数据中与用户关联的语音信息，也可以在视频录制结束后，基于声纹特征确定录音数据中与用户关联的语音信息。该语音信息可以包括语音数据和所述语音数据对应在所述录音数据中的起始时刻和结束时刻等信息。

应理解，在本申请实施例中，一个用户可以包括一个或者多个语音数据。其中，可以分析确定一个或者多个用户的语音信息，并建立该用户和语音信息的关联关系。

步骤103，保存所述用户与所述语音信息的关联关系。

本申请实施例中，可以设置一个关联关系表，在该关联关系中储存用户与语音信息的关联关系。例如，在一些实施例中，关联关系表储存有录音数据中存在语音数据的每一用户的用户信息以及该用户的语音信息，且该用户信息与语音信息存在关联关系，上述用户信息可以理解为用户的标识信息，用于区分不同的用户，例如可以为用户ID或者用户名等，在此不做进一步的限定。

应理解，由于保存了用户与语音信息的关联关系，从而在进行录制视频的播放过程中，可以基于用户与语音信息的关联关系，对某一用户的语音数据进行独立控制。例如，在一些实施例中，可以仅对某一个或者多个用户的语音数据进行播放，或者在视频播放过程中，某一个或者多个用户的语音数据按照指定的声音播放参数进行播放，例如，部分用户的语音数据的音量大于正常播放的音量，部分用户的语音数据的音量小于正常播放的音量。该正常播放音量可以理解为，视频播放时设置的整体播放音量或者基准播放音量。因此，本申请实施例，可以提高录制视频播放的灵活性。

需要说明的是，本申请实施例中，可以由录制视频的人员主动确定当前检测到的语音数据和视频帧中用户之间的关联关系；也可以基于声源的位置信息以及视频帧中说话人的位置信息自动确定。例如，在一些实施例中，在视频录制的过程中，确定图像画面中至少一个用户的声纹特征包括：

在视频录制的过程中，获取多个麦克风采集的语音数据以及至少两个摄像头采集的图像信息；

根据所述多个麦克风采集的语音数据确定声源的第一位置信息，并根据图像信息确定目标语音用户的第二位置信息；

在当前仅存在一个声源，且所述声源的第一位置信息与所述第二位置信息匹配的情况下，提取所述声源的声纹特征；

将所述声纹特征确定为所述目标语音用户的声纹特征。

在视频录制的过程中，可以通过多个麦克风持续采集语音数据，通过至少两个摄像头持续采集图像数据。其中，针对录制的目标视频的语音数据或录音数据，可以基于多个麦克风采集的语音数据得到目标视频最终的语音数据或者录音数据，此时可以采用某个麦克风采集的语音数据作为最终的语音数据，也可以采用多个麦克风采集的语音数据合成立体语音数据作为最终的语音数据。针对录制的目标视频的视频数据，可以采用某一摄像头的视频数据作为目标视频的视频数据。

应理解，上述目标语音用户为一个用户，该目标语音用户可以理解为当前仅存在一个用户讲话的情况下，当前正在讲话的用户。

可选地，可以基于语音数据和图像数据中的至少一项判断当前是否仅存在一个声源。例如，在一些实施例中，可以基于语音数据进行声纹特征分析确定当前声源的数量，也可以基于图像数据可以分析获得当前是否仅存在一个声源。基于图像数据可以分析用户讲话的动作，例如通过识别用户脸部的变化和口部动作变化来确定用户讲话的场景，假设，在某一时刻仅存在一个用户在讲话时，可以理解为该时刻仅存在一个声源；在某一时刻同时存在两个或者两个以上的用户在讲话时，可以理解为，当前时刻存在至少两个声源。

在确定当前时刻仅存在一个声源时，可以基于多个麦克风的定向录音功能，确定当前检测到的语音数据的方位信息，也就是说每一麦克风检测的语音数据携带有方位信息，基于该方位信息可以确定当前声源的第一位置信息，该位置信息可以包括声源的方位，在一些实施例中，还可以进一步包括距离。当基于语音数据监测到的声源位置(即第一位置信息)与基于图像数据监测到的正在讲话的用户位置(即第二位置信息)匹配时，可以将录音数据中该声源对应的声纹特征确定为视频帧中当前讲话的用户的声纹特征。本申请实施例中，通过对语音数据和视频数据进行分析，从而自动确定视频帧中用户对应的声纹特征。这样，由于无需用户手动操作，降低了视频录音的难度，因此提高了电子设备的智能化程度。

具体的，如图2所示，开启录制视频后，基于摄像头进行录像，基于多麦克风录音得到全景录音数据；多麦录音过程中进行声源定位，并识别声源的声纹特征，获得声源1、声源2、声源3、声源1对于的声纹特征1、声源2对于的声纹特征2以及声源3对于的声纹特征3；在录像过程中进行人像定位，并通过人脸讲话识别，确定讲话的用户1、用户2和用户3。当人像定位与声源定位匹配时，可以建立用户与声纹特征之间的关联关系，基于声纹特征可以确定用户与录音数据中用户的语音信息的关联关系，直到录像结束，保存录制的目标视频以及用户与用户的语音信息之间的关联关系。

可选地，在一些实施例中，基于所述声纹特征确定录音数据中与所述用户关联的语音信息的步骤包括：

提取所述录音数据中与所述声纹特征匹配的目标语音数据，将所述目标语音数据确定为所述语音信息；

所述保存所述用户与所述语音信息的关联关系的步骤包括：

将所述目标语音数据存储至与所述用户关联的储存位置。

本申请实施例中，上述存储位置可以理解为某一存储目录，也可以理解为某一文件夹。可以在某一用户讲话结束后(例如，在持续预设时间段内未检测到某一用户的声音或者具有讲话的动作)，基于该用户的声纹特征在录音数据中提取该用户对应的语音数据，然后将该语音数据进行储存，例如储存在视频帧中的用户关联的某一储存目录下，以实现用户与语音信息的关联关系的存储。若某一用户未存在对应的储存目录，可以创建该用户对应的储存目录，并对该用户对应的语音数据进行储存。由于单独对用户的语音数据进行提取和储存，从而可以暂停视频播放，仅播放该用户的语音数据，也可以在视频播放过程中仅播放该用户的语音数据，还可以针对该语音数据进行播放参数调整，例如进行音量调整等，以提高声音播放的灵活性。

应理解，当同时存在多个声源时，可以基于不同用户的声纹特征对不同用户的声音数据进行提取，从而得到每一用户的声音数据，这样可以避免多人声音混合造成语音的播放效果较差。

参照图3，本申请实施例还提供一种视频播放控制方法，包括：

步骤301，接收对录制的目标视频的视频帧中第一用户的第一输入；

步骤302，响应于所述第一输入，基于所述第一用户关联的语音信息进行语音的播放控制。

本申请实施例提供的视频播放控制方法应用电子设备，用于对录制的目标视频进行回放控制。上述语音播放控制可以理解为对语音数据的播放控制，即对上述第一用户对应的语音数据的播放控制。

可选地，在一些实施例中，可以在视频播放过程中，通过上述第一输入对视频帧中的一个或者多个用户的语音数据进行播放控制。例如，在视频播放过程中，可以对当前显示的视频帧中的一个或者多个用户进行第一输入，从而按照第一输入对应处理方式对该一个或者多个用户的语音数据进行播放控制。

可选地，在一些实施例中，也可以在视频暂停时，通过上述第一输入对视频帧中的一个或者多个用户的语音数据进行播放控制。应理解，暂停时可以显示当前视频帧，基于当前视频帧中的用户进行第一输入；暂停时还可以获取并显示目标视频中所有用户，以供用户进行第一输入，此时除当前视频帧中包含的用户之外的其他用户可以通过悬浮控件进行显示；此外也可以专门设置一个暂停显示界面，当视频被暂停时，直接显示该暂停显示界面，在该暂停显示界面中显示有该目标视频中所包含的所有用户，以供用户进行第一输入。

上述第一输入可以为语音输入，也可以为触控输入，例如，用户可以基于第一输入对目标视频的播放进行灵活控制，例如，第一输入可以用于暂停某一用户的语音数据，也可以用于仅播放某一用户的语音数据，还可以对某一用户的语音数据进行播放参数调整等。

本申请实施例通过接收对录制的目标视频的视频帧中第一用户的第一输入；响应于所述第一输入，基于所述第一用户关联的语音信息进行语音的播放控制。这样，用户可以基于视频中的用户对该用户的语音数据进行灵活的播放控制，从而提高了录制视频播放的灵活性

可选地，在一些实施例中，所述基于所述第一用户关联的语音信息进行语音的播放控制包括：

基于所述第一用户关联的语音信息，播放所述第一用户的语音数据。

本申请实施例中，播放所述第一用户的语音数据可以理解为，仅播放所述第一用户的语音数据，也可以理解为，增强第一用户的语音数据和/或弱化其他用户的语音数据。

其中，增强第一用户的语音数据可以理解为，在当前设置的基础音量的基础上，控制第一用户的语音数据的播放音量增大。弱化其他用户的语音数据可以理解为，在当前设置的基础音量的基础上，控制其他用户的语音数据的播放音量减小。

可选地，在一些实施例中，当仅播放所述第一用户的语音数据时，可以理解为电子设备仅输出第一用户的声音，具体的，可以基于录音数据播放第一用户的语音数据，也可以播放基于第一用户的声纹特征提取的第一用户的语音数据。换句话说，上述基于所述第一用户关联的语音信息，播放所述第一用户的语音数据包括以下任一项：

在播放所述目标视频的过程中，仅播放所述目标视频对应的录音数据中第一语音数据，所述第一语音数据基于所述第一用户关联的语音信息确定；

所述语音信息为第二语音数据的情况下，暂停播放所述目标视频，仅播放所述第二语音数据，所述第二语音数据为预先基于所述第一用户的声纹特征，从所述目标视频对应的录音数据中获取的语音数据。

本申请实施例中，可以基于第一语音数据的起始时刻和终止时刻对目标视频进行跳转播放，例如，第一语音数据的起始时刻包括t1和t2，终止时刻包括t3和t4，其中，t1、t2、t3和t4可以理解为目标视频播放第一语音数据对应的播放时间戳，按照视频的播放时序t1、t2、t3和t4的播放顺序依次为t1、t3、t2和t4。

可选地，在一些实施例中，若视频播放未暂停，则可以直接跳转至t1时刻开始播放视频，直到播放到t3时刻时，再次跳转至t2时刻，从t2时刻播放至t4时刻结束视频的播放，从而实现播放视频过程中仅播放第一用户的语音数据。

可选地，在一些实施例中，若视频播放未暂停，可以按照视频播放的顺序依次播放，且播放的过程中，不进行录音数据的播放，在t1时刻到t3时刻，以及t2时刻到t4时刻之间，播放录音数据或者播放预先储存的第一用户的第一声音数据。

可选地，在一些实施例中，若视频播放暂停，则可以直接播放预先储存的第一用户的第一声音数据。如图4所示，在一些实施例中，用户可以首先暂停视频播放，此时，暂停的视频画面显示有三个用户，可以通过点击某一用户，从而获取该用户关联的声音数据，并显示声音播放控件，当点击该声音播放控件时，可以直接播放该用户关联的声音数据。

确定所述第一输入关联的目标音量值；

在播放所述目标视频的过程中，将所述第一用户的语音数据对应的音量调整为所述目标音量值。

本申请实施例中，还可以通过第一数据对用户的语音数据的音量进行调整，例如，调整的音量可以为绝对值，也可以为相对于当前播放的基准音量调整值。应理解，调整的方式可以根据实际需要进行设置，如图4所示，上述第一输入可以用于对整个图像画面进行调整，也可以是对当前选择的某一特定的用户图像进行大小调整，图像画面或者用户图像的大小与音量的大小相关。当通过第一输入缩小图像画面或者用户图像时，可以减少对应用户的语音数据的音量；当通过第一输入放大图像画面或者用户图像时，可以增大对应用户的语音数据的音量。

需要说明的是，本申请实施例提供的视频录制处理方法，执行主体可以为视频录制处理装置，或者该视频录制处理装置中的用于执行加载视频录制处理方法的控制模块。本申请实施例中以视频录制处理装置执行加载视频录制处理方法为例，说明本申请实施例提供的视频录制处理方法。

参见图5，图5是本申请实施例提供的视频录制处理装置的结构图，如图5所示，视频录制处理装置500包括：

第一确定模块501，用于在视频录制的过程中，确定视频帧中用户的声纹特征；

第二确定模块502，用于基于所述声纹特征确定录音数据中与所述用户关联的语音信息，所述录音数据为所述视频录制产生的语音数据；

存储模块503，用于保存所述用户与所述语音信息的关联关系。

可选地，所述第一确定模块501包括：

获取单元，用于在视频录制的过程中，获取多个麦克风采集的语音数据以及至少两个摄像头采集的图像数据；

第一确定单元，用于根据所述多个麦克风采集的语音数据确定声源的第一位置信息，并根据图像数据确定目标语音用户的第二位置信息；

提取单元，用于在当前仅存在一个声源，且所述声源的第一位置信息与所述第二位置信息匹配的情况下，提取所述声源的声纹特征；

第二确定单元，用于将所述声纹特征确定为所述目标语音用户的声纹特征。

可选地，所述第二确定模块502具体用于：提取所述录音数据中与所述声纹特征匹配的目标语音数据，将所述目标语音数据确定为所述语音信息；

所述存储模块具体用于：将所述目标语音数据存储至与所述用户关联的储存位置。

需要说明的是，本申请实施例提供的视频播放控制方法，执行主体可以为视频播放控制装置，或者该视频播放控制装置中的用于执行加载视频播放控制方法的控制模块。本申请实施例中以视频播放控制装置执行加载视频播放控制方法为例，说明本申请实施例提供的视频播放控制方法。

参见图6，图6是本申请实施例提供的视频播放控制装置的结构图，如图6所示，视频播放控制装置600包括：

接收模块601，用于接收对录制的目标视频的视频帧中第一用户的第一输入；

控制模块602，用于响应于所述第一输入，基于所述第一用户关联的语音信息进行语音的播放控制。

可选地，所述控制模块602具体用于：基于所述第一用户关联的语音信息，播放所述第一用户的语音数据。

可选地，所述控制模块602具体用于执行以下任一项：

可选地，所述控制模块602包括：

第三确定单元，用于确定所述第一输入关联的目标音量值；

控制单元，用于在播放所述目标视频的过程中，将所述第一用户的语音数据对应的音量调整为所述目标音量值。

本申请实施例中的视频录制处理装置或视频播放控制装置可以是装置，也可以是终端中的部件、集成电路、或芯片。该装置可以是移动电子设备，也可以为非移动电子设备。示例性的，移动电子设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载电子设备、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer，UMPC)、上网本或者个人数字助理(personal digital assistant，PDA)等，非移动电子设备可以为服务器、网络附属存储器(Network Attached Storage，NAS)、个人计算机(personal computer，PC)、电视机(television，TV)、柜员机或者自助机等，本申请实施例不作具体限定。

本申请实施例中的视频录制处理装置或视频播放控制装置可以为具有操作系统的装置。该操作系统可以为安卓(Android)操作系统，可以为ios操作系统，还可以为其他可能的操作系统，本申请实施例不作具体限定。

本申请实施例提供的视频录制处理装置和视频播放控制装置能够实现图1至图3的方法实施例中各个过程，为避免重复，这里不再赘述。

可选的，本申请实施例还提供一种电子设备，包括处理器710，存储器709，存储在存储器709上并可在所述处理器710上运行的程序或指令，该程序或指令被处理器710执行时实现上述视频录制处理方法或视频播放控制方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

需要注意的是，本申请实施例中的电子设备包括上述所述的移动电子设备和非移动电子设备。

图8为实现本申请各个实施例的一种电子设备的硬件结构示意图。

该电子设备800包括但不限于：射频单元801、网络模块802、音频输出单元803、输入单元804、传感器805、显示单元806、用户输入单元807、接口单元808、存储器809、以及处理器810等部件。

本领域技术人员可以理解，电子设备800还可以包括给各个部件供电的电源(比如电池)，电源可以通过电源管理系统与处理器810逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。图8中示出的电子设备结构并不构成对电子设备的限定，电子设备可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置，在此不再赘述。

其中，射频单元801，用于执行以下操作：

在视频录制的过程中，确定视频帧中用户的声纹特征；

保存所述用户与所述语音信息的关联关系。

或者，射频单元801，用于执行以下操作：

接收对录制的目标视频的视频帧中第一用户的第一输入；

本申请实施例还提供一种可读存储介质，所述可读存储介质上存储有程序或指令，该程序或指令被处理器执行时实现上述视频录制处理方法或视频播放控制方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

其中，所述处理器为上述实施例中所述的电子设备中的处理器。所述可读存储介质，包括计算机可读存储介质，如计算机只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等。

本申请实施例另提供了一种芯片，所述芯片包括处理器和通信接口，所述通信接口和所述处理器耦合，所述处理器用于运行程序或指令，实现上述视频录制处理方法或视频播放控制方法实施例的各个过程，且能达到相同的技术效果，为避免重复，这里不再赘述。

应理解，本申请实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。

本申请实施例还提供一种计算机程序产品，所述计算机程序产品被存储在非易失的存储介质中，所述计算机程序产品被配置成被至少一个处理器执行以实现上文所述的方法的步骤。

本申请实施例还提供一种控制装置，所述控制装置被配置成用于执行上文所述的方法。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外，需要指出的是，本申请实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能，还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能，例如，可以按不同于所描述的次序来执行所描述的方法，并且还可以添加、省去、或组合各种步骤。另外，参照某些示例所描述的特征可在其他示例中被组合。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本申请各个实施例所述的方法。

上面结合附图对本申请的实施例进行了描述，但是本申请并不局限于上述的具体实施方式，上述的具体实施方式仅仅是示意性的，而不是限制性的，本领域的普通技术人员在本申请的启示下，在不脱离本申请宗旨和权利要求所保护的范围情况下，还可做出很多形式，均属于本申请的保护之内。

Claims

1.一种视频录制处理方法，其特征在于，包括：

在视频录制的过程中，确定视频帧中用户的声纹特征；

保存所述用户与所述语音信息的关联关系。

2.根据权利要求1所述的方法，其特征在于，在视频录制的过程中，确定图像画面中至少一个用户的声纹特征包括：

在视频录制的过程中，获取多个麦克风采集的语音数据以及至少两个摄像头采集的图像数据；

根据所述多个麦克风采集的语音数据确定声源的第一位置信息，并根据图像数据确定目标语音用户的第二位置信息；

将所述声纹特征确定为所述目标语音用户的声纹特征。

3.根据权利要求1所述的方法，其特征在于，所述基于所述声纹特征确定录音数据中与所述用户关联的语音信息的步骤包括：

所述保存所述用户与所述语音信息的关联关系的步骤包括：

将所述目标语音数据存储至与所述用户关联的储存位置。

4.一种视频播放控制方法，其特征在于，包括：

接收对录制的目标视频的视频帧中第一用户的第一输入；

5.根据权利要求4所述的方法，其特征在于，所述基于所述第一用户关联的语音信息进行语音的播放控制的步骤包括：

6.根据权利要求5所述的方法，其特征在于，基于所述第一用户关联的语音信息，播放所述第一用户的语音数据包括以下任一项：

7.根据权利要求4所述的方法，其特征在于，所述基于所述第一用户关联的语音信息进行语音的播放控制包括：

确定所述第一输入关联的目标音量值；

8.一种视频录制处理装置，其特征在于，包括：

存储模块，用于保存所述用户与所述语音信息的关联关系。

9.根据权利要求8所述的装置，其特征在于，所述第一确定模块包括：

10.根据权利要求8所述的装置，其特征在于，所述第二确定模块具体用于：提取所述录音数据中与所述声纹特征匹配的目标语音数据，将所述目标语音数据确定为所述语音信息；

11.一种视频播放控制装置，其特征在于，包括：

12.根据权利要求11所述的装置，其特征在于，所述控制模块具体用于：基于所述第一用户关联的语音信息，播放所述第一用户的语音数据。

13.根据权利要求12所述的装置，其特征在于，所述控制模块具体用于执行以下任一项：

14.根据权利要求11所述的装置，其特征在于，所述控制模块包括：

第三确定单元，用于确定所述第一输入关联的目标音量值；

控制单元，用于播放所述目标视频的过程中，将所述第一用户的语音数据对应的音量调整为所述目标音量值。

15.一种电子设备，其特征在于，包括处理器，存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至3中任一项所述的视频录制处理方法的步骤，或者，所述程序或指令被所述处理器执行时实现如权利要求4至7中任一项所述的视频录制处理方法的步骤。

16.一种可读存储介质，其特征在于，所述可读存储介质上存储程序或指令，所述程序或指令被所述处理器执行时实现如权利要求1至3中任一项所述的视频录制处理方法的步骤，或者，所述程序或指令被所述处理器执行时实现如权利要求4至7中任一项所述的视频录制处理方法的步骤。