CN112788278B

CN112788278B - 视频流的生成方法、装置、设备及存储介质

Info

Publication number: CN112788278B
Application number: CN202011643811.5A
Authority: CN
Inventors: 曹璨; 李峥; 戴宁; 姜俊; 王昕�; 魏建强; 付明鑫
Original assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Current assignee: Beijing Baidu Netcom Science and Technology Co Ltd
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2023-04-07
Anticipated expiration: 2040-12-30
Also published as: CN112788278A

Abstract

本公开公开了一种视频流的生成方法、装置、设备及存储介质，涉及语音技术领域、视频处理技术领域、计算机视觉技术领域和深度学习技术领域。具体实现方案为：当监测到语音数据时，确定与语音数据对应的第一发言用户；控制预设摄像头对焦第一发言用户拍摄第一视频帧图像，并采集第一发言用户的第一发言数据；对第一发言数据中的噪音数据进行去噪处理，得到第一目标数据；根据第一目标数据和第一视频帧图像生成视频流。由此，在视频流传输场景下，聚焦发言人进行视频帧图像的拍摄，并且抑制非发言人的噪音，提高了视频流的质量，满足了多种场景下的视频需求。

Description

视频流的生成方法、装置、设备及存储介质

技术领域

本公开涉及语音技术领域、视频处理技术领域、计算机视觉技术领域和深度学习技术领域，尤其涉及一种视频流的生成方法、装置、设备及存储介质。

背景技术

随着计算机技术的发展，基于计算机技术的视频场景也越发普遍，比如，在室内视频会议，或者是在室外视频会议等。

相关技术中，对于室内的多人视频会议，两地沟通需要极强纽带和感知度，传统设备有背景噪音和人声干扰，且摄像头不好聚焦难定位主要发言人。对于室外的大厅、车站、开放空间的音视频通讯，会有背景嘈杂、人声干扰，不便会议。

发明内容

本公开提供了一种视频流的生成方法、装置、设备及存储介质，实现了在视频流传输场景下，聚焦发言人进行视频帧图像的拍摄，并且抑制非发言人的噪音，提高了视频流的质量，满足了多种场景下的视频需求。

根据本公开的一方面，提供了一种视频流的生成方法，包括：当监测到语音数据时，确定与所述语音数据对应的第一发言用户；控制预设摄像头对焦所述第一发言用户拍摄第一视频帧图像，并采集所述第一发言用户的第一发言数据；对所述第一发言数据中的噪音数据进行去噪处理，得到第一目标数据；根据所述第一目标数据和所述第一视频帧图像生成视频流。

根据本公开的另一方面，提供了一种视频流的生成装置，包括：确定模块，用于当监测到语音数据时，确定与所述语音数据对应的第一发言用户；拍摄模块，用于控制预设摄像头对焦所述第一发言用户拍摄第一视频帧图像，并采集所述第一发言用户的第一发言数据；采集模块，用于对所述第一发言数据中的噪音数据进行去噪处理，得到第一目标数据；去噪模块，用于对所述第一发言数据中的噪音数据进行去噪处理，得到第一目标数据；生成模块，用于根据所述第一目标数据和所述第一视频帧图像生成视频流。

本公开的根据本公开的又一方面，提供了一种电子设备，包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述实施例所描述的视频流的生成方法。

根据本公开的再一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使所述计算机执行上述实施例所描述的视频流的生成方法。

根据本公开的还一方面，提供了一种计算机程序产品，包括计算机程序，所述计算机程序在被处理器执行时实现上述实施例所描述的视频流的生成方法。

本公开的实施例，至少具备如下附加的技术效果：

当监测到语音数据时，确定与语音数据对应的第一发言用户，控制预设摄像头对焦第一发言用户拍摄第一视频帧图像，并采集第一发言用户的第一发言数据，进而，对第一发言数据中的噪音数据进行去噪处理，得到第一目标数据，最后，根据第一目标数据和第一视频帧图像生成视频流。由此，在视频流传输场景下，聚焦发言人进行视频帧图像的拍摄，并且抑制非发言人的噪音，提高了视频流的质量，满足了多种场景下的视频需求。

应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案，不构成对本公开的限定。其中：

图1是根据本公开第一实施例的视频流的生成方法的流程示意图；

图2是根据本公开第二实施例的视频帧图像的示意图；

图3是根据本公开第三实施例的视频流的生成方法的流程示意图；

图4是根据本公开第四实施例的视频流的生成方法的流程示意图；

图5是根据本公开第五实施例的视频流的生成方法的流程示意图；

图6是根据本公开第六实施例的视频流的生成方法的流程示意图；

图7是根据本公开第七实施例的视频流的生成方法的流程示意图；

图8是根据本公开第八实施例的视频帧图像的示意图；

图9是根据本公开第九实施例的视频流的生成装置的结构示意图；

图10是根据本公开第十实施例的视频流的生成装置的结构示意图；

图11是用来实现本公开实施例的视频流的生成的方法的电子设备的框图。

具体实施方式

以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。

为了解决现有技术中，视频会议的应用场景受限的技术问题，本公开提出了一种视频流的生成方法、装置、设备及存储介质，不但可以跟踪发言人采集视频帧图像，而且可以抑制非发言人之外的噪音，以打破视频场景的应用限制。

下面参照附图描述本公开实施例的视频流的生成方法、装置、设备及存储介质。

图1是根据本公开一个实施例的视频流的生成方法的流程图，如图1所示，该视频流的生成方法包括：

步骤101，当监测到语音数据时，确定与语音数据对应的第一发言用户。

需要说明的是，本实施例中，并非是监测到任何声音数据都认为当前视频场景中存在用户发言，只有当检测到语音数据时，才认为存在用户发言。

在一些可能的实施例中，可以分析当前采集到的声音数据后，提取声音数据的声音特征，将该声音特征输入到预先根据深度学习技术训练得到的深度学习模型中，根据深度模型的输出确定该声音数据是否包含语音数据。

在监测到语音数据时，确定与语音数据对应的第一发言用户，其中，将会在后续实施例中说明第一发言用户的获取方式，在此不再赘述。

步骤102，控制预设摄像头对焦第一发言用户拍摄第一视频帧图像，并采集第一发言用户的第一发言数据。

其中，预设摄像头可以理解为预先设置在视频场景中，角度可以任意调节、焦距也可以任意调节的摄像头。

在本实施例中，为了保证视频场景中的视频帧图像的质量，在确定出第一发言用户后，控制预设摄像头对焦第一发言用户拍摄第一视频帧图像，此时，显然画面中将会以第一发言用户为对焦焦距，以第一发言用户为对焦方向，控制摄像头拍摄以第一发言用户为拍照主体的第一视频帧图像。

举例而言，如图2所示，对于包含4个人的会议场景，若是第一发言用户A确定，则拍摄的第一视频帧图像以A为聚焦对象，得到聚焦在A的图像。

在一些可能的实施例中，可以拍摄当前场景的全景图像，比如，通过预先设置的另一个全景摄像头得到全景图像，根据全景图像确定第一发言用户所在的位置，比如，根据全景图像中唇部形状与语音数据对应的用户面部图像确定为第一发言用户后，根据全景摄像头的内参和外参的转换，得到第一发言用户的距离和方向，进而，根据第一发言用户的距离和方向实现预设摄像头的对焦。

步骤103，对第一发言数据中的噪音数据进行去噪处理，得到第一目标数据。

由于在室外或者是室内的视频场景中，都包含了大量的噪音，因此，第一发言数据中除了包含第一发言用户的发言语音数据之外，还包括了大量的噪音数据，因此，在本实施例中，对第一发言数据中的噪音数据进行去噪处理，得到第一目标数据，该第一目标数据可以理解为包含了相对纯净的第一发言用户的发言语音。

步骤104，根据第一目标数据和第一视频帧图像生成视频流。

在本实施例中，可以将第一目标数据和第一视频帧图像生成视频流，将视频流传送给服务器，以发送给视频会议的对侧终端设备等。

在一些可能的实施例中，可以获取第一目标数据的采集时间的采集时间点和第一视频帧图像的拍摄时间点，对采集时间点和拍摄时间点进行时间对齐合成，得到对应的视频流。

综上，本公开实施例的视频流的生成方法，当监测到语音数据时，确定与语音数据对应的第一发言用户，控制预设摄像头对焦第一发言用户拍摄第一视频帧图像，并采集第一发言用户的第一发言数据，进而，对第一发言数据中的噪音数据进行去噪处理，得到第一目标数据，最后，根据第一目标数据和第一视频帧图像生成视频流。由此，在视频流传输场景下，聚焦发言人进行视频帧图像的拍摄，并且抑制非发言人的噪音，提高了视频流的质量，满足了多种场景下的视频需求。

正如以上提到的，在不同的应用场景中，确定与语音数据对应的第一发言用户的方式不同，示例说明如下：

示例一：

在本示例中，如图3所示，确定与语音数据对应的第一发言用户的步骤包括：

步骤301，获取与语音数据对应的全景图像，分析全景图像中用户的唇形特征。

其中，唇形特征包括但不限于唇部形状变化特征等。

在本实施例中，可以将预设的全景摄像头在语音数据的时间点采集的全景图像，作为与语音数据对应的全景图像，进而，可以根据图像处理技术领域中的图像处理技术来分析全景图像中的唇形特征。

步骤302，根据唇形特征确定与语音数据对应的第一发言用户。

容易理解的是，用户发出不同的语音数据，则对应的唇形特征显然是不同的，因此，可以根据唇形特征确定与语音数据对应的用户为第一发言用户。

在一些可能的实施例中，根据预先根据学习技术对大量样本数据学习得到深度学习模型，从而，在与语音数据对应的多张全景图像中，将包含相同人脸特征的唇形特征按照拍摄顺序，组成与该人脸特征对应的唇形特征序列，将该唇形特征序列输入到深度学习模型，得到其对应的参考语音数据，基于参考语音数据是否与语音数据匹配，发现第一发言用户。

示例二：

在本示例中，如图4所示，确定与语音数据对应的第一发言用户的步骤包括：

步骤401，计算语音数据到预设麦克风阵列中的第一麦克风和第二麦克风的时延差。

可以理解，本实施例中的麦克风包括设置在两个不同的位置的麦克风，即第一麦克风和第二麦克风，计算语音数据到预设麦克风阵列中的第一麦克风和第二麦克风的时延差。

在本实施例中，如第一麦克风和第二麦克风的连线端射方向的夹角为a，则语音数据到第一麦克风和第二麦克风的时延差可以采用如下公式(1)计算得到：

其中，上述公式(1)中，τ为时延差，d为2个麦克风的距离，c为声速。

步骤402，识别语音数据的频率，并根据预设算法计算时延差和频率以获取参考方向矢量。

本实施例中的语音数据的频率，可以理解为语音数据中，皮频率属于人类发言的频率中，音量最大的音频。

在一些可能的实施例中，该预设算法可以认为是任意可以根据时延差和频率计算得到参考方向矢量的算法，其中，参考方向矢量用于指示第一发言用户的说话的方向，在本实施例中，该预设算法可以体现在公式(2)：

其中，A_t,f为参考方向矢量，j为复数中的虚数单位，f为频率，τ_t为t时刻的时延差。

步骤403，计算参考方向矢量和预设麦克风阵列的预设实际相位差的余弦距离，并根据余弦距离确定第一方向。

其中，预设麦克风阵列的预设实际相位差可以是预先标定的，也可以是根据一定算法计算得到的，比如，可以根据如下公式(3)计算得到：

其中，R_t,f为实际相位差，j为复数中的虚数单位，θ_m1,f为第一个麦克风的相位，θ_m2,f为第二个麦克风的相位。

在本实施例中，计算参考方向矢量和预设麦克风阵列的预设实际相位差的余弦距离，其中，余弦距离表示语音数据与参考方向矢量对应的参考方向的夹角大小，余弦距离越大，说明语音数据与参考方向矢量对应的参考方向越接近；余弦距离越小，说明语音数据与参考方向矢量对应的参考方向夹角越大。

在本实施例中，可以采用如下公式(4)来计算余弦距离：

其中，d_t,f为余弦距离，A_t,f为参考方向矢量，

为麦克风真理的实际相位差的转置。

在本实施例中，在确定余弦距离和参考方向矢量后，即可确定出第一方向。

步骤404，确定位于第一方向上的用户为第一发言用户。

在本实施例中，可以在第一方向上通过生理信号检测或者图像检测等，得到该第一方向上的用户，将该第一方向上的用户确定为第一发言用户，当第一方向上包括多个用户时，可以结合上述实施例中的和唇形特征在多个用户中筛选出第一发言用户。

综上，本公开实施例的视频流的生成方法，可以根据场景需要灵活的确定出第一发言用户，保证根据第一发言用户聚焦拍摄图像等，提高了视频流的质量。

应当理解的是，为了满足在嘈杂环境下视频流的获取，对第一发言数据中的噪音数据进行去噪是至关重要的一步。在实际执行过程中，根据场景的不同，本公开可以采用不同的方式来去噪处理，示例说明如下：

示例一：

在本示例中，如图5所示，对第一发言数据中的噪音数据进行去噪处理，得到第一目标数据，包括：

步骤501，识别第一发言用户的第一方向，提取第一发言数据中包含的多种语音频率。

在本实施例中，第一发言数据中除了包含第一发言用户的语音数据之外，还可能包括其他用户的语音数据、环境噪音等，因此，在本实施例中，首先提取第一发言数据中符合人类发音频率的多种语音频率。

当然，在一些可能的实施例中，也有可能第一发言数据仅仅包含了第一发言用户的语音，从而，仅能提取出一种语音频率，这种情况下可以直接根据语音频率对对应的语音数据进行提取实现去噪。

在本实施例中，还需要识别第一发言用户的第一方向，比如，在确定第一发言用户后，根据第一发言用户的人脸特征在全景摄像头拍摄的全景图像中确定第一发言用户所在的图像区域，基于全景摄像头的内参和外参的转换，得到第一发言用户的第一方向。

在另一些可能的实施例中，还可以根据红外识别等方式，识别第一发言用户所在的第一方向，或者，可以将多个语音频率中，最大音量的语音频率作为第一发言用户的第一发言数据的语音频率，将该语音频率的方向作为第一方向。其中，该语音频率的方向的确认方式可以由现有技术中的任意声源定位算法得到，比如，三角定位法等，在此不再赘述。

步骤502，识别多种语音频率中与预设语音频率匹配的至少一个候选语音频率。

由于，第一发言数据中除了包含第一发言用户的语音数据之外，还可能包括其他用户的语音数据，但是不同用户的语音数据的语音频率必然是不同的，因此，在本实施例中，首先提取第一发言数据中符合人类发音频率的至少一个候选语音频率。

步骤503，识别每个候选语音频率的第二方向。

在本实施例中，识别每个候选语音频率的第二方向的方式，可以由现有技术中的任意声源定位算法得到，比如，三角定位法等，在此不再赘述。

步骤504，将第二方向与第一方向匹配，提取匹配成功的第二方向上的候选语音频率为目标语音频率。

在本实施例中，将第二方向与与第一方向匹配，若是二者的方向对应的角度差小于预设阈值，则认为对应的第二方向与第一方向匹配成功，从而，提取匹配成功的第二方向上的候选语音频率为目标语音频率。

步骤505，提取与目标语音频率对应的语音数据得到第一目标数据。

可以理解，目标语音频率对应于第一发言用户的发言数据，因此，提取与目标语音频率对应的语音数据得到第一目标数据，其他的语音频率对应的语音数据直接舍弃，从而，实现了对噪音数据的去噪。

示例二：

在本示例中，识别语音数据中每个语音频率对应的语音子数据，计算每个语音子数据到预设麦克风阵列中的第一麦克风和第二麦克风的时延差，识别每个语音子数据的频率，并根据预设算法计算时延差和频率以获取参考方向矢量，进而，计算参考方向矢量和预设麦克风阵列的预设实际相位差的余弦距离，并根据余弦距离确定每个语音子数据的方向。

在本实施例中，识别第一发言用户的第一方向，比如，在确定第一发言用户后，根据第一发言用户的人脸特征在全景摄像头拍摄的全景图像中确定第一发言用户所在的图像区域，基于全景摄像头的内参和外参的转换，得到第一发言用户的第一方向。

将每个语音子数据的方向与第一方向匹配，将匹配成功的语音子数据进行放大后作为去噪后的第一目标语音数据。

综上，本公开实施例的视频流的生成方法，根据场景需要可灵活选择不同的方式对第一发言数据中的噪音数据去噪处理，抑制了非第一发言用户之外的噪音数据，为视频流的应用场景提供了技术支撑。

基于以上实施例，在视频流的应用场景中，比如，在视频会议中，随着发言人的变化，还可灵活的切换视频帧图像，跟踪发言人显示视频帧图像，进一步提高视频服务质量。

举例而言，如图6所示，该场景为室内会议室，在检测到语音数据时，认为发言人开始说话，从而，基于唇形检测和声源定位，聚焦发言人所在的位置拍摄视频帧图像，对获取的到的发言人的语音数据进行抑制噪音的处理，将获取到的去噪后的语音数据和视频帧图像作为视频流图像输出，若是检测到换人发言，则重新适配检测发言人，等到所有的发言结束后，预设摄像头不再聚焦拍摄，而是进入全景拍摄模式并继续检测是否有发言人发言。

下面结合实施例具体说明如何适配其他发言人进行视频流的获取。

如图7所示，该方法还包括：

步骤701，在监测到语音数据时开始计时。

在本实施例中，在监测到语音数据时开始计时，比如，开启定时器计时等。

步骤702，根据计时结果判断在预设时长内是否监测到第二发言用户的语音数据。

其中，预设时长可以理解为一个较短的时间间隔。

在本实施例中，根据计时结果判断在预设时长内是否监测到第二发言用户的语音数据，其中，第二发言用户为与第一发言用户不同的用户。

在本实施例中，第二发言用户的语音数据的确定方式，与上述第一发言用户的语音数据的确定方式相同，在此不再赘述。

步骤703，若监测到第二发言用户的语音数据，则控制预设摄像头对焦第一发言用户和第二发言用户拍摄第二视频帧图像，并采集第一发言用户和第二发言用户的第二发言数据。

在本实施例中，若监测到第二发言用户的语音数据，则控制预设摄像头对焦第一发言用户和第二发言用户拍摄第二视频帧图像，其中，对焦第一发言用户和第二发言用户可以理解为将焦第一发言用户和第二发言用户清晰成像，且对焦第一发言用户和第二发言用户占据视频帧图像的大部分成像区域的拍摄方式，比如，如图8所示，对焦第一发言用户A和第二发言用户B拍摄第二视频帧图像，可以清晰的看到第一发言用户A和第二发言用户B，包含较少的其他发言用户等其他的图像信息。

步骤704，对第二发言数据中的噪音数据进行去噪处理，得到第二目标数据。

步骤705，根据第二目标数据和第二视频帧图像生成视频流。

在本实施例中，对第二发言数据中的噪音数据进行去噪处理，得到第二目标数据，根据第二目标数据和第二视频帧图像生成视频流，由此，视频流中包含了第一发言用户和第二发言用户清晰的画面，且第二目标数据包含纯净的第一发言用户或者是第二发言用户的发言语音。

其中，对第二发言数据中的噪音数据进行去噪处理可以参照上述对第一发言数据的噪音数据的处理，在此不再赘述。

可以理解，当第一发言用户和第二发言用户间隔时间较短的交替发言，类似对话形式，则直接聚焦第一发言用户和第二发言用户进行视频帧图像的采集。

在本公开的一个实施例中，当在预设时长内没有监测到第二发言用户的语音数据时，则控制预设摄像头进入全景拍摄模式，拍摄当前场景下所有用户图像，并继续检测是否具有发言用户发言。

综上，本公开实施例的视频流的生成方法，当发言人切换时，跟踪发言人拍摄视频帧图像，保证了视频流中的画面质量。

为了实现上述实施例，本公开还提出了一种视频流的生成装置。图9是根据本公开一个实施例的视频流的生成装置的结构示意图，如图9所示，该视频流的生成装置包括：确定模块910、拍摄模块920、采集模块930、去噪模块940、生成模块950，其中，

确定模块910，用于当监测到语音数据时，确定与语音数据对应的第一发言用户；

拍摄模块920，用于控制预设摄像头对焦第一发言用户拍摄第一视频帧图像，并采集第一发言用户的第一发言数据；

采集模块930，用于对第一发言数据中的噪音数据进行去噪处理，得到第一目标数据；

去噪模块940，用于对第一发言数据中的噪音数据进行去噪处理，得到第一目标数据；

生成模块950，用于根据第一目标数据和第一视频帧图像生成视频流。

需要说明的是，前述对视频流的生成方法的解释说明，也适用于本公开实施例的视频流的生成装置，其实现原理类似，在此不再赘述。

综上，本公开实施例的视频流的生成装置，当监测到语音数据时，确定与语音数据对应的第一发言用户，控制预设摄像头对焦第一发言用户拍摄第一视频帧图像，并采集第一发言用户的第一发言数据，进而，对第一发言数据中的噪音数据进行去噪处理，得到第一目标数据，最后，根据第一目标数据和第一视频帧图像生成视频流。由此，在视频流传输场景下，聚焦发言人进行视频帧图像的拍摄，并且抑制非发言人的噪音，提高了视频流的质量，满足了多种场景下的视频需求。

在本公开的一个实施例中，确定模块910，具体用于：获取与语音数据对应的全景图像，分析全景图像中用户的唇形特征；

根据唇形特征确定与语音数据对应的第一发言用户。

在本公开的一个实施例中，确定模块910，具体用于：

计算语音数据到预设麦克风阵列中的第一麦克风和第二麦克风的时延差；

识别语音数据的频率，并根据预设算法计算时延差和频率以获取参考方向矢量；

计算参考方向矢量和预设麦克风阵列的预设实际相位差的余弦距离，并根据余弦距离确定第一方向；

确定位于第一方向上的用户为第一发言用户。

在本公开的一个实施例中，去噪模块940，具体用于：

识别第一发言用户的第一方向，提取第一发言数据中包含的多种语音频率；

识别多种语音频率中与预设语音频率匹配的至少一个候选语音频率；

识别每个候选语音频率的第二方向；

将第二方向与第一方向匹配，提取匹配成功的第二方向上的候选语音频率为目标语音频率；

提取与目标语音频率对应的语音数据得到第一目标数据。

综上，本公开实施例的视频流的生成装置，根据场景需要可灵活选择不同的方式对第一发言数据中的噪音数据去噪处理，抑制了非第一发言用户之外的噪音数据，为视频流的应用场景提供了技术支撑。

在本公开的一个实施例中，如图10所示，该视频的生成装置包括：确定模块1010、拍摄模块1020、采集模块1030、去噪模块1040、生成模块1050、计时模块1060、判断模块1070，其中，确定模块1010、拍摄模块1020、采集模块1030、去噪模块1040、生成模块1050与上述图9提到的确定模块910、拍摄模块920、采集模块930、去噪模块940、生成模块950功能相同，在此不再赘述。

在本实施例中，计时模块1060，用于在监测到语音数据时开始计时；

判断模块1070，用于根据计时结果判断在预设时长内是否监测到第二发言用户的语音数据；

拍摄模块1020，还用于在监测到第二发言用户的语音数据时，控制预设摄像头对焦第一发言用户和第二发言用户拍摄第二视频帧图像；

采集模块1030，还用于采集第一发言用户和第二发言用户的第二发言数据；

去噪模块1040，还用于对第二发言数据中的噪音数据进行去噪处理，得到第二目标数据；

生成模块1050，还用于根据第二目标数据和第二视频帧图像生成视频流。

综上，本公开实施例的视频流的生成装置，当发言人切换时，跟踪发言人拍摄视频帧图像，保证了视频流中的画面质量。

根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。

图11示出了可以用来实施本公开的实施例的示例电子设备1100的示意性框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，设备1100包括计算单元1101，其可以根据存储在只读存储器(ROM)1102中的计算机程序或者从存储单元11011加载到随机访问存储器(RAM)1103中的计算机程序，来执行各种适当的动作和处理。在RAM 1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、ROM 1102以及RAM 1103通过总线1104彼此相连。输入/输出(I/O)接口1105也连接至总线1104。

设备1100中的多个部件连接至I/O接口1105，包括：输入单元1106，例如键盘、鼠标等；输出单元1107，例如各种类型的显示器、扬声器等；存储单元11011，例如磁盘、光盘等；以及通信单元1109，例如网卡、调制解调器、无线通信收发机等。通信单元1109允许设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元(CPU)、图形处理单元(GPU)、各种专用的人工智能(AI)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(DSP)、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理，例如方法视频流的生成。例如，在一些实施例中，方法视频流的生成可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元11011。在一些实施例中，计算机程序的部分或者全部可以经由ROM 1102和/或通信单元1109而被载入和/或安装到设备1100上。当计算机程序加载到RAM1103并由计算单元1101执行时，可以执行上文描述的方法视频流的生成的一个或多个步骤。备选地，在其他实施例中，计算单元1101可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行方法视频流的生成。

本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、芯片上系统的系统(SOC)、负载可编程逻辑设备(CPLD)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，CRT(阴极射线管)或者LCD(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(LAN)、广域网(WAN)、互联网和区块链网络。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，以解决了传统物理主机与VPS服务("Virtual Private Server"，或简称"VPS")中，存在的管理难度大，业务扩展性弱的缺陷。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。

服务器也可以为分布式系统的服务器，或者是，结合了区块链的服务器。

本申请还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现上述视频流的生成方法的步骤。

应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。

上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

Claims

1.一种视频流的生成方法，包括：

当监测到语音数据时，获取通过预设的全景摄像头采集的与所述语音数据对应的多张全景图像，分析每张全景图像中用户的唇形特征，将包含相同人脸特征的唇形特征按照拍摄顺序组成唇部特征序列，将所述唇部特征序列输入到预先训练的深度学习模型，以得到参考语音数据，根据所述参考语音数据和所述语音数据确定与所述语音数据对应的第一发言用户；

控制预设摄像头对焦所述第一发言用户拍摄第一视频帧图像；

采集所述第一发言用户的第一发言数据；

提取所述第一发言数据中包含的多种语音频率，识别所述多种语音频率中与预设语音频率匹配的至少一个候选语音频率，识别每个所述候选语音频率的第二方向，将多个第二方向分别与所述第一发言用户的第一方向进行匹配，提取匹配成功的第二方向上的候选语音频率为目标语音频率，将与所述目标语音频率对应的语音数据作为第一目标数据；

根据所述第一目标数据和所述第一视频帧图像生成视频流。

2.如权利要求1所述的方法，还包括：

在监测到所述语音数据时开始计时；

根据计时结果判断在预设时长内是否监测到第二发言用户的语音数据；

若监测到所述第二发言用户的语音数据，则控制所述预设摄像头对焦所述第一发言用户和所述第二发言用户拍摄第二视频帧图像，并采集所述第一发言用户和所述第二发言用户的第二发言数据；

对所述第二发言数据中的噪音数据进行去噪处理，得到第二目标数据；

根据所述第二目标数据和所述第二视频帧图像生成视频流。

3.如权利要求2所述的方法，其中，在所述根据计时结果判断在预设时长内是否监测到第二发言用户的语音数据之后，还包括：

若没有监测到所述第二发言用户的语音数据，则控制所述预设摄像头进入全景拍摄模式。

4.一种视频流的生成装置，包括：

确定模块，用于当监测到语音数据时，获取通过预设的全景摄像头采集的与所述语音数据对应的多张全景图像，分析每张全景图像中用户的唇形特征，将包含相同人脸特征的唇形特征按照拍摄顺序组成唇部特征序列，将所述唇部特征序列输入到预先训练的深度学习模型，以得到参考语音数据，根据所述参考语音数据和所述语音数据确定与所述语音数据对应的第一发言用户；

拍摄模块，用于控制预设摄像头对焦所述第一发言用户拍摄第一视频帧图像；

采集模块，用于采集所述第一发言用户的第一发言数据；

去噪模块，用于提取所述第一发言数据中包含的多种语音频率，识别所述多种语音频率中与预设语音频率匹配的至少一个候选语音频率，识别每个所述候选语音频率的第二方向，将多个第二方向分别与所述第一发言用户的第一方向进行匹配，提取匹配成功的第二方向上的候选语音频率为目标语音频率，将与所述目标语音频率对应的语音数据作为第一目标数据；

生成模块，用于根据所述第一目标数据和所述第一视频帧图像生成视频流。

5.如权利要求4所述的装置，还包括：

计时模块，用于在监测到所述语音数据时开始计时；

判断模块，用于根据计时结果判断在预设时长内是否监测到第二发言用户的语音数据；

所述拍摄模块，还用于在监测到所述第二发言用户的语音数据时，控制所述预设摄像头对焦所述第一发言用户和所述第二发言用户拍摄第二视频帧图像；

所述采集模块，还用于采集所述第一发言用户和所述第二发言用户的第二发言数据；

所述去噪模块，还用于对所述第二发言数据中的噪音数据进行去噪处理，得到第二目标数据；

所述生成模块，还用于根据所述第二目标数据和所述第二视频帧图像生成视频流。

6.如权利要求5所述的装置，所述判断模块，具体用于：

在没有监测到所述第二发言用户的语音数据时，控制所述预设摄像头进入全景拍摄模式。

7.一种电子设备，包括：

至少一个处理器；以及

与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-3中任一项所述的视频流的生成方法。

8.一种存储有计算机指令的非瞬时计算机可读存储介质，其中，所述计算机指令用于使计算机执行根据权利要求1-3中任一项所述的视频流的生成方法。