CN115633184A

CN115633184A - 一种字幕处理方法、装置及电子设备

Info

Publication number: CN115633184A
Application number: CN202211228350.4A
Authority: CN
Inventors: 李宗祥; 何宇; 孙兴; 石瑜; 王杨
Original assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-10-09
Filing date: 2022-10-09
Publication date: 2023-01-20

Abstract

本申请公开了一种字幕处理方法、装置及电子设备，涉及视频处理技术领域，以解决现有方案难以准确提取出与特定对象相关的字幕的问题。该方法包括：获取直播视频中的目标对象的身份信息和第一视频帧组；获取直播视频中的第二视频帧组，并将目标对象的身份信息与第二视频帧组的字幕内容进行匹配，得到第一匹配结果；根据第一匹配结果，确定第二视频帧组的字幕相关性，字幕相关性为视频帧组的字幕内容与目标对象的相关性；基于第二视频帧组的字幕相关性，提取第二视频帧组的字幕内容。这样，通过对直播视频进行理解，确定视频中目标对象与字幕内容的相关性，从而能够基于该相关性准确提取出与目标对象相关的字幕。

Description

一种字幕处理方法、装置及电子设备

技术领域

本申请涉及视频处理技术领域，尤其涉及一种字幕处理方法、装置及电子设备。

背景技术

现有技术中，通常采用光学字符识别(Optical Character Recognition，OCR)技术或语音识别模型对视频帧进行识别以提取字幕。然而，在特定场景尤其是赛事直播场景中，现有技术方案无法建立解说字幕与视频中特定对象如运动员的对应关系，导致难以准确提取出与特定对象相关的字幕。

发明内容

本申请实施例提供一种字幕处理方法、装置及电子设备，以解决现有方案难以准确提取出与特定对象相关的字幕的问题。

第一方面，本申请实施例提供了一种字幕处理方法，包括：

获取直播视频中的目标对象的身份信息和第一视频帧组；

获取所述直播视频中的第二视频帧组，并将所述目标对象的身份信息与所述第二视频帧组的字幕内容进行匹配，得到第一匹配结果，其中，所述第二视频帧组为所述第一视频帧组之后的视频帧组；

根据第一匹配结果，确定所述第二视频帧组的字幕相关性，其中，所述字幕相关性为视频帧组的字幕内容与所述目标对象的相关性；

基于所述第二视频帧组的字幕相关性，提取所述第二视频帧组的字幕内容。

可选地，所述根据第一匹配结果，确定所述第二视频帧组的字幕相关性，包括：

在所述第二视频帧组的字幕内容与所述目标对象的身份信息匹配的情况下，确定所述第二视频帧组的字幕相关性为第一值，其中，所述第一值大于或等于预设值；

或者，

在所述第二视频帧组的字幕内容与所述目标对象的身份信息不匹配的情况下，将所述目标对象的身份信息分别与第一视频帧组集中各视频帧组的字幕内容进行匹配，其中，所述第一视频帧组集包括所述直播视频中位于所述第二视频帧组之前的视频帧组；根据第二匹配结果，确定目标视频帧组集，其中，所述第二匹配结果包括所述目标对象的身份信息与所述第一视频帧组集中各视频帧组的字幕内容的匹配结果，所述目标视频帧组集至少包括所述第二视频帧组；根据所述目标对象在所述目标视频帧组集中各视频帧组中的重要性，确定所述第二视频帧组的字幕相关性，其中，所述目标对象在任一视频帧组中的重要性根据所述目标对象在该视频帧组中的像素占比信息确定。

可选地，所述第一视频帧组集中各视频帧组的目标信息按视频帧播放顺序存储在缓存队列中，其中，所述目标信息包括字幕内容和字幕相关性；

所述获取直播视频中的目标对象的身份信息和第一视频帧组之后，所述将所述目标对象的身份信息与当前第二视频帧组的字幕内容进行匹配之前，所述方法还包括：

将所述第一视频帧组的字幕内容和字幕相关性关联存储至所述缓存队列中的第一个存储位置，其中，所述第一视频帧组的字幕相关性设置为默认值，所述默认值大于或等于所述预设值；

所述确定所述第二视频帧组的字幕相关性之后，所述方法还包括：

将所述第二视频帧组的字幕内容和字幕相关性关联存储至所述缓存队列的目标存储位置，其中，在所述缓存队列中存在空位的情况下，所述目标存储位置为所述缓存队列中位于第一存储位置之后且与所述第一存储位置相邻的空位，所述第一存储位置为所述缓存队列中最后一个存储有数据的位置；在所述缓存队列中不存在空位的情况下，所述缓存队列中的原有数据向前移位，所述目标存储位置为所述缓存队列中的最后一个存储位置。

可选地，所述获取直播视频中的目标对象的身份信息和第一视频帧组之后，所述将所述第一视频帧组的字幕内容和字幕相关性关联存储至所述缓存队列中的第一个存储位置之前，所述方法还包括：

根据所述目标对象在所述第一视频帧组中的像素占比信息，确定所述目标对象在所述第一视频帧组中的重要性；

所述将所述第一视频帧组的字幕内容和字幕相关性关联存储至所述缓存队列中的第一个存储位置，包括：

将所述第一视频帧组的字幕内容、字幕相关性和所述目标对象在所述第一视频帧组中的重要性关联存储至所述缓存队列中的第一个存储位置。

可选地，所述将所述目标对象的身份信息分别与第一视频帧组集中各视频帧组的字幕内容进行匹配，包括：

将所述目标对象的身份信息分别与所述第一视频帧组集中各视频帧组的字幕内容进行匹配，以及将第一对象的身份信息分别与所述第一视频帧组集中各视频帧组的字幕内容进行匹配；

其中，所述第一对象包括所述直播视频中除所述目标对象外的其他对象，所述第二匹配结果还包括所述第一对象的身份信息与所述第一视频帧组集中各视频帧组的字幕内容的匹配结果。

可选地，所述根据第二匹配结果，确定目标视频帧组集，包括如下至少一项：

在所述第一视频帧组集中的第三视频帧组的字幕内容与所述目标对象的身份信息匹配的情况下，确定所述目标视频帧组集包括所述直播视频中所述第三视频帧组至所述第二视频帧组之间的视频帧组；

在所述第一视频帧组集中的第四视频帧组的字幕内容与所述第一对象的身份信息匹配，且所述第一视频帧组集中的第五视频帧组的字幕内容与所述目标对象的身份信息匹配的情况下，确定所述目标视频帧组集包括第一子目标视频帧组集和第二子目标视频帧组集，其中，所述第五视频帧组位于所述第四视频帧组之前，所述第一子目标视频帧组集包括所述直播视频中所述第四视频帧组至所述第二视频帧组之间的视频帧组，所述第二子目标视频帧组集包括所述直播视频中所述第五视频帧组至所述第四视频帧组之间的视频帧组；

在所述第一视频帧组集中的第六视频帧组的字幕内容与所述第一对象的身份信息匹配，且所述第一视频帧组集中任一视频帧组的字幕内容均与所述目标对象的身份信息不匹配的情况下，确定所述目标视频帧组集包括第三子目标视频帧组集和第四子目标视频帧组集，其中，所述第三子目标视频帧组集包括所述直播视频中所述第六视频帧组至所述第二视频帧组之间的视频帧组，所述第四子目标视频帧组集包括所述第一视频帧组集中位于所述第六视频帧组之前的视频帧组；

在所述第一视频帧组集中任一视频帧组的字幕内容均与所述目标对象和所述第一对象的身份信息不匹配的情况下，确定所述目标视频帧组集包括所述第一视频帧组集和所述第二视频帧组。

可选地，所述根据所述目标对象在所述目标视频帧组集中各视频帧组中的重要性，确定所述第二视频帧组的字幕相关性，包括如下至少一项：

在所述目标视频帧组集包括所述第三视频帧组至所述第二视频帧组之间的视频帧组的情况下，确定所述目标对象在所述目标视频帧组集中的平均重要性和重要性方差；若所述目标对象在所述第二视频帧组中的重要性与所述平均重要性的距离大于或等于所述重要性方差，则确定所述第二视频帧组的字幕相关性为第二值，否则确定所述第二视频帧组的字幕相关性为第三值，其中，所述第二值大于或等于所述预设值，所述第三值小于所述预设值；

在所述目标视频帧组集包括所述第一子目标视频帧组集和所述第二子目标视频帧组集，或者所述目标视频帧组集包括所述第三子目标视频帧组集和所述第四子目标视频帧组集的情况下，确定第五子目标视频帧组集的第一平均字幕相关性和第六子目标视频帧组集的第二平均字幕相关性，以及确定所述目标对象在所述第五子目标视频帧组集中的第一平均重要性和所述目标对象在所述第六子目标视频帧组集的第二平均重要性，其中，所述第五子目标视频帧组集为所述第一子目标视频帧组集，所述第六子目标视频帧组集为所述第二子目标视频帧组集，或者所述第五子目标视频帧组集为所述第三子目标视频帧组集，所述第六子目标视频帧组集为所述第四子目标视频帧组集；根据所述第一平均字幕相关性、所述第一平均重要性和所述第二平均重要性，确定所述第五子目标视频帧组集的字幕相关性受所述目标对象的重要性的第一影响值，根据所述第二平均字幕相关性、所述第一平均重要性和所述第二平均重要性，确定所述第六子目标视频帧组集的字幕相关性受所述目标对象的重要性的第二影响值；若所述第一影响值与所述第二影响值之差的绝对值大于或等于第一预设阈值，则确定所述第二视频帧组的字幕相关性为第四值，否则确定所述第二视频帧组的字幕相关性为第五值，其中，所述第四值小于所述预设值，所述第五值大于或等于所述预设值；

在所述目标视频帧组集包括所述第一视频帧组集和所述第二视频帧组的情况下，若所述第一视频帧组集中字幕相关性大于或等于所述预设值的视频帧组占比达到预设比例，且所述目标对象在所述第二视频帧组中的重要性与所述目标对象在所述第一视频帧组集中各视频帧组中的重要性的差值在预设范围内，则确定所述第二视频帧组的字幕相关性为第六值，否则确定所述第二视频帧组的字幕相关性为第七值，其中，所述第六值大于或等于所述预设值，所述第七值小于所述预设值。

可选地，所述获取直播视频中的目标对象的身份信息和第一视频帧组，包括：

根据用户在所述直播视频的播放画面中的触控输入，确定所述触控输入所针对的目标对象；

根据所述触控输入的触控时间，确定所述第一视频帧组；

识别所述目标对象的身份信息，其中，所述身份信息包括人脸信息和号码信息中的至少一种。

可选地，所述提取所述第二视频帧组的字幕内容之后，所述方法还包括：

在所述直播视频的播放画面中的预设位置显示所提取的字幕内容；

或者，将所提取的字幕内容生成弹幕，并发布所述弹幕。

第二方面，本申请实施例还提供一种字幕处理装置，包括：

获取模块，用于获取直播视频中的目标对象的身份信息和第一视频帧组；

匹配模块，用于获取所述直播视频中的第二视频帧组，并将所述目标对象的身份信息与所述第二视频帧组的字幕内容进行匹配，得到第一匹配结果，其中，所述第二视频帧组为所述第一视频帧组之后的视频帧组；

第一确定模块，用于根据第一匹配结果，确定所述第二视频帧组的字幕相关性，其中，所述字幕相关性为视频帧组的字幕内容与所述目标对象的相关性；

提取模块，用于基于所述第二视频帧组的字幕相关性，提取所述第二视频帧组的字幕内容。

可选地，所述第一确定模块包括：

第一确定子模块，用于在所述第二视频帧组的字幕内容与所述目标对象的身份信息匹配的情况下，确定所述第二视频帧组的字幕相关性为第一值，其中，所述第一值大于或等于预设值；

或者，

第二确定子模块，用于在所述第二视频帧组的字幕内容与所述目标对象的身份信息不匹配的情况下，将所述目标对象的身份信息分别与第一视频帧组集中各视频帧组的字幕内容进行匹配，其中，所述第一视频帧组集包括所述直播视频中位于所述第二视频帧组之前的视频帧组；根据第二匹配结果，确定目标视频帧组集，其中，所述第二匹配结果包括所述目标对象的身份信息与所述第一视频帧组集中各视频帧组的字幕内容的匹配结果，所述目标视频帧组集至少包括所述第二视频帧组；根据所述目标对象在所述目标视频帧组集中各视频帧组中的重要性，确定所述第二视频帧组的字幕相关性，其中，所述目标对象在任一视频帧组中的重要性根据所述目标对象在该视频帧组中的像素占比信息确定。

所述字幕处理装置包括：

第一存储模块，用于将所述第一视频帧组的字幕内容和字幕相关性关联存储至所述缓存队列中的第一个存储位置，其中，所述第一视频帧组的字幕相关性设置为默认值，所述默认值大于或等于所述预设值；

第二存储模块，用于将所述第二视频帧组的字幕内容和字幕相关性关联存储至所述缓存队列的目标存储位置，其中，在所述缓存队列中存在空位的情况下，所述目标存储位置为所述缓存队列中位于第一存储位置之后且与所述第一存储位置相邻的空位，所述第一存储位置为所述缓存队列中最后一个存储有数据的位置；在所述缓存队列中不存在空位的情况下，所述缓存队列中的原有数据向前移位，所述目标存储位置为所述缓存队列中的最后一个存储位置。

可选地，所述字幕处理装置还包括：

第二确定模块，用于根据所述目标对象在所述第一视频帧组中的像素占比信息，确定所述目标对象在所述第一视频帧组中的重要性；

所述第一存储模块用于将所述第一视频帧组的字幕内容、字幕相关性和所述目标对象在所述第一视频帧组中的重要性关联存储至所述缓存队列中的第一个存储位置。

可选地，所述第二确定子模块包括：

匹配单元，用于将所述目标对象的身份信息分别与所述第一视频帧组集中各视频帧组的字幕内容进行匹配，以及将第一对象的身份信息分别与所述第一视频帧组集中各视频帧组的字幕内容进行匹配；

可选地，所述第二确定子模块还包括如下至少一项：

第一确定单元，用于在所述第一视频帧组集中的第三视频帧组的字幕内容与所述目标对象的身份信息匹配的情况下，确定所述目标视频帧组集包括所述直播视频中所述第三视频帧组至所述第二视频帧组之间的视频帧组；

第二确定单元，用于在所述第一视频帧组集中的第四视频帧组的字幕内容与所述第一对象的身份信息匹配，且所述第一视频帧组集中的第五视频帧组的字幕内容与所述目标对象的身份信息匹配的情况下，确定所述目标视频帧组集包括第一子目标视频帧组集和第二子目标视频帧组集，其中，所述第五视频帧组位于所述第四视频帧组之前，所述第一子目标视频帧组集包括所述直播视频中所述第四视频帧组至所述第二视频帧组之间的视频帧组，所述第二子目标视频帧组集包括所述直播视频中所述第五视频帧组至所述第四视频帧组之间的视频帧组；

第三确定单元，用于在所述第一视频帧组集中的第六视频帧组的字幕内容与所述第一对象的身份信息匹配，且所述第一视频帧组集中任一视频帧组的字幕内容均与所述目标对象的身份信息不匹配的情况下，确定所述目标视频帧组集包括第三子目标视频帧组集和第四子目标视频帧组集，其中，所述第三子目标视频帧组集包括所述直播视频中所述第六视频帧组至所述第二视频帧组之间的视频帧组，所述第四子目标视频帧组集包括所述第一视频帧组集中位于所述第六视频帧组之前的视频帧组；

第四确定单元，用于在所述第一视频帧组集中任一视频帧组的字幕内容均与所述目标对象和所述第一对象的身份信息不匹配的情况下，确定所述目标视频帧组集包括所述第一视频帧组集和所述第二视频帧组。

可选地，所述第二确定子模块还包括如下至少一项：

第五确定单元，用于在所述目标视频帧组集包括所述第三视频帧组至所述第二视频帧组之间的视频帧组的情况下，确定所述目标对象在所述目标视频帧组集中的平均重要性和重要性方差；若所述目标对象在所述第二视频帧组中的重要性与所述平均重要性的距离大于或等于所述重要性方差，则确定所述第二视频帧组的字幕相关性为第二值，否则确定所述第二视频帧组的字幕相关性为第三值，其中，所述第二值大于或等于所述预设值，所述第三值小于所述预设值；

第六确定单元，用于在所述目标视频帧组集包括所述第一子目标视频帧组集和所述第二子目标视频帧组集，或者所述目标视频帧组集包括所述第三子目标视频帧组集和所述第四子目标视频帧组集的情况下，确定第五子目标视频帧组集的第一平均字幕相关性和第六子目标视频帧组集的第二平均字幕相关性，以及确定所述目标对象在所述第五子目标视频帧组集中的第一平均重要性和所述目标对象在所述第六子目标视频帧组集的第二平均重要性，其中，所述第五子目标视频帧组集为所述第一子目标视频帧组集，所述第六子目标视频帧组集为所述第二子目标视频帧组集，或者所述第五子目标视频帧组集为所述第三子目标视频帧组集，所述第六子目标视频帧组集为所述第四子目标视频帧组集；根据所述第一平均字幕相关性、所述第一平均重要性和所述第二平均重要性，确定所述第五子目标视频帧组集的字幕相关性受所述目标对象的重要性的第一影响值，根据所述第二平均字幕相关性、所述第一平均重要性和所述第二平均重要性，确定所述第六子目标视频帧组集的字幕相关性受所述目标对象的重要性的第二影响值；若所述第一影响值与所述第二影响值之差的绝对值大于或等于第一预设阈值，则确定所述第二视频帧组的字幕相关性为第四值，否则确定所述第二视频帧组的字幕相关性为第五值，其中，所述第四值小于所述预设值，所述第五值大于或等于所述预设值；

第七确定单元，用于在所述目标视频帧组集包括所述第一视频帧组集和所述第二视频帧组的情况下，若所述第一视频帧组集中字幕相关性大于或等于所述预设值的视频帧组占比达到预设比例，且所述目标对象在所述第二视频帧组中的重要性与所述目标对象在所述第一视频帧组集中各视频帧组中的重要性的差值在预设范围内，则确定所述第二视频帧组的字幕相关性为第六值，否则确定所述第二视频帧组的字幕相关性为第七值，其中，所述第六值大于或等于所述预设值，所述第七值小于所述预设值。

可选地，所述获取模块包括：

第八确定单元，用于根据用户在所述直播视频的播放画面中的触控输入，确定所述触控输入所针对的目标对象；

第九确定单元，用于根据所述触控输入的触控时间，确定所述第一视频帧组；

识别单元，用于识别所述目标对象的身份信息，其中，所述身份信息包括人脸信息和号码信息中的至少一种。

可选地，所述字幕处理装置还包括：

显示模块，用于在所述直播视频的播放画面中的预设位置显示所提取的字幕内容；

或者，处理模块，用于将所提取的字幕内容生成弹幕，并发布所述弹幕。

第三方面，本申请实施例还提供一种电子设备，包括：存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如上所述的字幕处理方法中的步骤。

第四方面，本申请实施例还提供一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现如上所述的字幕处理方法中的步骤。

在本申请实施例中，获取直播视频中的目标对象的身份信息和第一视频帧组；获取所述直播视频中的第二视频帧组，并将所述目标对象的身份信息与所述第二视频帧组的字幕内容进行匹配，得到第一匹配结果，其中，所述第二视频帧组为所述第一视频帧组之后的视频帧组；根据第一匹配结果，确定所述第二视频帧组的字幕相关性，其中，所述字幕相关性为视频帧组的字幕内容与所述目标对象的相关性；基于所述第二视频帧组的字幕相关性，提取所述第二视频帧组的字幕内容。这样，通过对直播视频进行理解，确定视频中目标对象与字幕内容的相关性，从而能够基于该相关性准确提取出与目标对象相关的字幕。

附图说明

为了更清楚地说明本申请实施例的技术方案，下面将对本申请实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的字幕处理方法的流程图之一；

图2是本申请实施例提供的确定目标对象相对视频画面边框的距离的示意图；

图3是本申请实施例提供的在按压视频画面中目标对象以提取相关字幕的操作示意图；

图4是本申请实施例提供的缓存队列的示意图；

图5a是本申请实施例提供的输出目标视频帧组的示意图之一；

图5b是本申请实施例提供的输出目标视频帧组的示意图之二；

图5c是本申请实施例提供的输出目标视频帧组的示意图之三；

图6是本申请实施例提供的直播视频的播放界面示意图；

图7是本申请实施例提供的字幕处理方法的流程图之二；

图8是本申请实施例提供的字幕处理装置的结构图；

图9是本申请实施例提供的电子设备的结构图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象，而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施，且“第一”、“第二”等所区分的对象通常为一类，并不限定对象的个数，例如第一对象可以是一个，也可以是多个。此外，说明书以及权利要求中“和/或”表示所连接对象的至少其中之一，字符“/”，一般表示前后关联对象是一种“或”的关系。

参见图1，图1是本申请实施例提供的字幕处理方法的流程图，如图1所示，包括以下步骤：

步骤101、获取直播视频中的目标对象的身份信息和第一视频帧组。

上述直播视频可以是任意直播视频，尤其可以是赛事类直播视频，如体育赛事直播视频、游戏赛事直播视频等。

上述目标对象可以是所述直播视频中用户关注的对象，如可以是用户指定的对象，也可以是预设设定的某个特定对象，或者还可以是该直播视频中大多数用户比较感兴趣的对象。例如，对于体育赛事直播中，目标对象可以是关注度较高的某个运动员，也可以是基于用户输入确定的用户感兴趣的某个运动员。

本申请实施例中，为从所述直播视频中准确提取与所述目标对象相关的字幕，可以先获取所述目标对象的身份信息，并对所述直播视频进行按帧分组，以将所述目标对象的身份信息与分组后的各视频帧组中的字幕内容进行匹配，来确定与所述目标对象较为相关的字幕，并进行提取。

上述获取直播视频中的目标对象的身份信息，可以是通过识别所述目标对象的图像信息，来确定所述目标对象的身份，从而得到所述目标对象的身份信息，例如，可以识别某个运动员的姓名、运动号码等；或者，也可以是通过获取预先录入的所述直播视频中各目标对象的身份信息，来获得所述目标对象的身份信息。

上述第一视频帧组可以是所述直播视频中对应一句完整字幕内容的若干视频帧，或者是一段预设时长内的若干视频帧，具体地，可以在确定所述目标对象的时刻，开始提取所述第一视频帧组，例如，可以在用户执行特定输入以确定目标对象时，提取该时刻之后的一段时长内的视频帧作为第一视频帧组，或者提取该时刻前后一段时长内的视频帧作为第一视频帧组。

可选地，所述步骤101包括：

根据所述触控输入的触控时间，确定所述第一视频帧组；

一种实施方式中，可以根据用户在观看所述直播视频的过程中对直播画面中某个对象的触控输入，来确定目标对象，即所述目标对象为所述触控输入的触控对象，可根据触控位置确定，其中，所述触控输入可以是按压输入、点击输入、圈选输入等。

具体地，用户在观看直播视频时，可以对画面中感兴趣的对象进行触控输入，从而触发系统以该对象为目标对象，开始识别该对象身份，并获取第一视频帧组。

例如，用户在使用视频APP观看体育赛事直播时，如果用户对画面中的某个运动员感兴趣，希望获取与该运动员相关的“金句”解说，则可以用手指在该视频APP的播放界面上按压住该运动员，此时，系统将获取用户按压的位置、当前显示的数个视频帧以及这些视频帧在播放时间轴上的位置。即输入操作可以为用户在屏幕上按压关注的运动员，输出结果包括：

1)按压的位置Loc，其包含4个参数，分别对应视频播放画面边框的4个距离：(X1，X2，Y1，Y2)；

这4个距离是相对距离，是为了在后续的像素计算过程中兼容不同分辨率的画面，从而保持视频理解的准确率；其具体形式可如图2所示。当然，按压的位置Loc也可直接使用按压处的横纵坐标位置表示。

2)当前视频帧组Cur_Frames，即包含当前字幕的所有视频帧，这组视频帧包含了所有显示当前字幕的视频帧，如果不包含则可取1s内的所有视频帧(这是考虑到用户至少要按压500ms才能获取相关信息)，得到由视频帧组成的集合，并可将其存储到本申请设计的视频帧组缓存之中；其中，当前字幕可以理解为按压时视频中的字幕。

3)视频帧组的起止时间位置(T_begin,T_end)，即视频帧组中第一帧的起始时间T_begin和最后一帧的结束时间T_end，其中结束时间T_end也可根据起始时间T_begin和视频帧组中的帧数确定。

该实施方式中，还可识别所述目标对象的身份信息，具体地，可通过识别所述目标对象的图像特征如人脸、数字号码，来确定所述目标对象的姓名、号码等身份信息。例如，可根据获得的用户按压位置和视频帧组，使用单目标检测(Single Shot MultiBoxDetector，SSD)模型对用户按压位置的运动员进行识别。

以目标对象为目标运动员为例，为了保证识别精度，可以同时并行使用2个SSD模型分别识别出：

目标运动员的人脸信息，输出人脸特征向量V_face；

目标运动员身上的号码信息，输出具体的号码N_um；

详细的识别处理过程可以如下：

1)根据按压的位置Loc中的4个相对坐标截取视频帧中的按压对象，再分别去查询事先录入的领域知识数据库，其中包含运动员的人脸特征数据库、运动员的号码、名字等信息的数据库；

2)求出与人脸特征向量V_face匹配的运动员信息集合(S1,S2,…,S5)，取匹配度前五的运动员；与此同时，获取符合识别号码N_um的运动员信息S；

3)判断集合(S1,S2,…,S5)中是否包含S，如果包含则确定目标运动员为S，并可获取其姓名、号码、人脸特征向量等信息；否则在视频播放界面输出提示“无法识别您感兴趣的选手，请再次按压！”，之后重复执行上述确定目标对象和识别目标对象身份信息的步骤，以进行新一次的识别。

例如，如图3所示，当用户看到视频画面30中感兴趣的运动员“武**”时，可以用手指按压该运动员31，从而触发系统识别并提取当前视频帧组中与该运动员相关的字幕32。

这样，通过该实施方式，能够基于用户触控输入确定用户对直播视频中感兴趣的目标对象，进而获取与用户关注的对象相关的字幕。

步骤102、获取所述直播视频中的第二视频帧组，并将所述目标对象的身份信息与所述第二视频帧组的字幕内容进行匹配，得到第一匹配结果，其中，所述第二视频帧组为所述第一视频帧组之后的视频帧组。

本申请实施例中，在获得所述目标对象的身份信息后，可以继续按视频帧组获取所述直播视频中于所述第一视频帧组之后的视频流，例如，可以按固定长度继续接收视频流，并将其处理为视频帧组，其中，各视频帧组的长度能覆盖组内的视频帧包含字幕显示的完整时间，一般可设置为3s；如果视频超过3秒没有字幕，也可将其作为一个视频帧组进行处理，输出结果格式可以为：{视频帧组，标记}，其中，标记为1表示含有字幕，标记为0表示不含有字幕。

接着，可根据接收到的标记为1的视频帧组和识别的所述目标对象的身份信息进行文字转折词的判别。

对于体育赛事直播，由于解说中通常都会谈及运动员的名字，所以可以运动员的名字或号码为转折词，例如“武**加速啦”这句解说中运动员名字“武**”就是转折词，还例如“旁边9号选手要追上来啦”其中运动员号码“9号”就是转折词。

该步骤中，可以将所述目标对象的身份信息作为转折词，与获得的所述第二视频帧组的字幕内容进行匹配，具体可以是将所述目标对象的身份信息以文本形式与所述第二视频帧组的字幕文本进行匹配，以确定所述第二视频帧组的字幕中是否有提及所述目标对象，根据匹配结果，可以确定所述第二视频帧组的字幕内容与所述目标对象是否相关，或者相关性为多大，具体可以使用字幕相关性来表示。

例如，某个视频帧组的字幕内容为“武**加速啦”，该句字幕中存在目标运动员“武**”，从而可确定该视频帧组与目标对象匹配，或者，第二视频帧组的字幕内容为“旁边9号选手追上来了”，该句字幕中提及某个运动员的号码“9号”，但没有提及目标运动员的号码“8号”，从而可确定该视频帧组与目标对象不匹配。

需说明的是，所述第二视频帧组可以代指所述直播视频中位于所述第一视频帧组之后的任一视频帧组，即可以将所述直播视频中的视频流处理成多个视频帧组，并对每个视频帧组，都进行将所述目标对象的身份信息与该视频帧组的字幕内容进行匹配的步骤，以获得各视频帧组的字幕内容与所述目标对象的相关性，进而得到各视频帧组中与所述目标对象相关的字幕内容。

还需说明的是，在获取所述第一视频帧组之后，还可以先将所述目标对象的身份信息与所述第一视频帧组的字幕内容进行匹配，以确定所述第一视频帧组的字幕内容与所述目标对象的相关性，进而确定所述第一视频帧组中是否存在与所述目标对象相关的字幕内容，并可基于判定结果确定是否提取所述第一视频帧组中的相关字幕，具体匹配方式和字幕相关性的确定方式与所述第二视频帧类似，在此不作赘述；或者，也可以不将所述目标对象的身份信息与所述第一视频帧组的字幕内容进行匹配，而是直接确定所述第一视频帧组的字幕相关性为默认值，因为用户通常是在看到解说“金句”后进行目标对象的选择操作，所以可在默认为当前第一视频帧组显示的字幕就是用户要提取的。

步骤103、根据第一匹配结果，确定所述第二视频帧组的字幕相关性，其中，所述字幕相关性为视频帧组的字幕内容与所述目标对象的相关性。

该步骤中，根据所述目标对象的身份信息与所述第二视频帧组的字幕内容的匹配结果，可以确定所述第二视频帧组的字幕内容与所述目标对象的相关性，也即字幕相关性，具体地，可以是若所述目标对象的身份信息与所述第二视频帧组的字幕内容匹配成功，即所述第二视频帧组的字幕内容中提及了所述目标对象，则可以确定所述第二视频帧组的字幕内容与所述目标对象相关或者说具有较强相关性，而为了准确和直观地衡量该相关性，可以使用具体数值来描述字幕相关性，例如，可以确定所述第二视频帧组的字幕相关性为一较高的值，如为0.8、0.9等；若所述目标对象的身份信息与所述第二视频帧组的字幕内容匹配不成功，即所述第二视频帧组的字幕内容中未提及所述目标对象，则可以确定所述第二视频帧组的字幕内容与所述目标对象不相关、不太相关或者说具有较弱的相关性，例如，可以确定所述第二视频帧组的字幕相关性为一较低的值，如为0.3、0.2等，或者为了更准确地确定所述第二视频帧组的字幕内容与所述目标对象是否相关，可以进一步结合其他信息来判定所述第二视频帧组的字幕相关性，如可以考虑所述目标对象在所述第二视频帧组中的重要性、所述第二视频帧组前的若干视频帧组与所述目标对象的身份信息的匹配情况等。

步骤104、基于所述第二视频帧组的字幕相关性，提取所述第二视频帧组的字幕内容。

该步骤中，可以基于所述第二视频帧组的字幕相关性，来提取所述第二视频帧组的字幕内容，具体地，可以在所述第二视频帧组的字幕相关性表明所述第二视频帧组的字幕内容与所述目标对象相关或具有较强相关性的情况下，如所述字幕相关性的值大于或等于预设值，提取所述第二视频帧组的字幕内容，或者提取所述第二视频帧组中与所述目标对象相关部分的字幕内容。其中，所述预设值可以是预先设定的最低相关性阈值，如为0.7、0.8、0.9等。

需说明的是，在所述第二视频帧组的字幕相关性表明所述第二视频帧组的字幕内容与所述目标对象不相关或相关性较弱的情况下，如所述字幕相关性的值小于预设值，可以不对所述第二视频帧组的字幕内容作提取处理。

可选地，所述步骤103包括：

或者，

一种实施方式中，在根据所述目标对象的身份信息与所述第二视频帧组的字幕内容的匹配结果确定所述第二视频帧组的字幕相关性时，可以基于不同的匹配结果，分别按照不同方式确定所述第二视频帧组的字幕相关性，以保证所确定的字幕相关性的准确性。

具体地，在所述第二视频帧组的字幕内容与所述目标对象的身份信息匹配的情况下，如所述第二视频帧组的字幕内容中提及了所述目标对象的姓名或号码，则可以认为所述第二视频帧组的字幕内容与所述目标对象较为相关，并可确定所述第二视频帧组的字幕相关性为第一值，所述第一值大于或等于预设值，所述预设值可以是预设的表示相关的最低阈值，例如，所述预设值为0.8，所述第一值为0.8或0.9。这样，在确定所述第二视频帧组的字幕相关性为第一值的情况下，表明所述第二视频帧组的字幕内容与所述目标对象较为相关，是用户希望获得的字幕，从而可以提取所述第二视频帧组的字幕内容。

在所述第二视频帧组的字幕内容与所述目标对象的身份信息不匹配的情况下，如所述第二视频帧组的字幕内容中未提及所述目标对象的姓名或号码，则可以认为暂不确定所述第二视频帧组的字幕内容是否与所述目标对象相关，需进一步将所述目标对象的身份信息分别与第一视频帧组集中各视频帧组的字幕内容进行匹配，所述第一视频帧组集包括所述直播视频中位于所述第二视频帧组之前的视频帧组，即以当前所述第二视频帧组的起始时间T_begin为起点，反向匹配之前的视频帧组，即将所述目标对象的身份信息依次匹配之前的视频帧组的字幕内容，得到第二匹配结果，所述第二匹配结果中包括了所述第一视频帧组集中的各视频帧组与所述目标对象的身份信息的匹配结果；

根据所述第二匹配结果，可以确定目标视频帧组集，其中，随着所述第一视频帧组集中的各视频帧组与所述目标对象的身份信息的匹配结果的不同，输出的所述目标视频帧组集也对应不同。例如，所述目标视频帧组集可以包括所述第一视频帧组集中与所述目标对象的身份信息匹配成功的视频帧组及所述第二视频帧组，或者，所述目标视频帧组集可以包括所述第一视频帧组集中最先与所述目标对象的身份信息匹配成功的视频帧组至所述第二视频帧组之间的所有视频帧组，还或者所述目标视频帧组集可以包括所述第一视频帧组集中的所有视频帧组及所述第二视频帧组，等等；

然后，可以获取所述目标对象在所述目标视频帧组集中各视频帧组中的重要性，并基于该重要性，确定所述第二视频帧组的字幕相关性，其中，所述目标对象在各视频帧组中的重要性可以是预先确定好的，也可以是实时确定的，具体可以基于所述目标对象在各视频帧组中的像素占比信息确定，因为对于直播来说镜头主要展示的对象往往重要性更高，故可使用像素占比来描述对象在用户当前看到画面中的重要性。

其中，所述根据所述目标对象在所述目标视频帧组集中各视频帧组中的重要性，确定所述第二视频帧组的字幕相关性，可以是通过比较所述目标对象在所述第二视频帧组中的重要性，与所述目标对象在其他各视频帧组中的重要性的方差，来确定所述第二视频帧组的字幕内容与所述目标对象的相关性，如相差不大，则确定所述第二视频帧组的字幕内容与所述目标对象相关，否则认为不相关；或者，也可以是基于所述目标对象在所述目标视频帧组集中各视频帧组中的重要性的平均值和各视频帧组的字幕相关性的平均值，分析当前视频帧组受所述目标对象重要性的影响，若影响大，则确定所述第二视频帧组的字幕内容与所述目标对象不相关，否则认为相关；还或者，可以基于所述目标视频帧组集中各视频帧组的字幕相关性，和所述目标对象在所述第二视频帧组的重要性与在所述目标视频帧组集中各视频帧组的重要性的差值来确定，若所述目标视频帧组集中的大部分视频帧组的字幕相关性较高，且所述目标对象在所述第二视频帧组的重要性与在所述目标视频帧组集中各视频帧组的重要性的差值基本都不大，则表明当前视频帧组和过往视频帧组有着相似的目标对象侧重点，即都是突出所述目标对象，从而可确定所述第二视频帧组的字幕内容与所述目标对象相关，否则认为不相关。

这样，通过该实施方式，可以根据所述目标对象的身份信息与所述第二视频帧组的字幕内容与的匹配结果，以及根据所述目标对象的身份信息与第一视频帧组集中各视频帧组的字幕内容的匹配结果，准确确定所述第二视频帧组的字幕相关性，进而保证后续准确提取与所述目标对象相关的字幕。

一种实施方式中，可以采用一种新的缓存方案对被关注对象的信息进行缓存，支撑后续的字幕提取处理，即可以设计使用缓存队列来存储获取的所述直播视频中各视频帧组的相关信息，从而可在后续匹配所述目标对象的身份信息时，能够直接从所述缓存队列中查找或匹配对应视频帧组的相关信息，提高匹配效率。

其中，所述缓存队列可以是一个具有固定大小的循环缓存队列，即所述缓存队列中可存储的数据长度是有限的，且会随着新数据的存入，而去除队列头部的旧数据。所述缓存队列的结构可如图4所示，其中，关键字(Key)由被关注对象的姓名和号码组成，值(Value)组成一个循环队列，该队列按视频帧组的播放顺序存储，每一个存储位置存放一个视频帧组的完整处理信息，包括字幕内容和字幕相关性，还可包括视频帧组的起止时间范围(T_begin,T_end)、字幕存在标记等。

其中，字幕内容即为语音识别模型输出视频帧组中的文本字幕，如果没有则字幕内容为空；字幕相关性即字幕内容和目标对象的相关性评价值；起止时间范围描述了该组视频帧的播放起止时间；字幕存在标记则表示视频帧组是否包含字幕，若包含则为1，不包含则为0。

所述缓存队列的长度可以为M，M值可以由每个存储位置存储的视频帧组的时长来决定，例如每个视频帧组能播放3秒，则缓存队列的长度为100，即所述缓存队列可存储的视频时长为5分钟，这是考虑到解说字幕的时间相聚超过5分钟，字幕的文本内容基本就不会相关了，因此不需要再存储起来做后续处理。

因此，该实施方式中，可在获取所述直播视频中的目标对象的身份信息和第一视频帧组后，如在用户完成按压选择后初始化缓存队列，将所述第一视频帧组的字幕内容和起止时间范围依次填入，并可默认设置其字幕关联性为特定值，如设为0.9，一方面考虑到用户通常是在看到解说“金句”后进行操作以选择目标对象，故可在默认初始化时认为当前视频帧帧显示的字幕就是用户要提取的，另一方面即使当前字幕相关性不准确也可以通过后续步骤的处理进行纠正。其中，所述第一视频帧组的字幕内容和字幕相关性可以关联存储在所述缓存队列中的第一个存储位置。

此外，在后续每确定一个视频帧组的字幕相关性后，便可以将该视频帧组的相关信息存储至所述缓存队列中，如在确定所述第二视频帧组的字幕相关性后，可以将所述第二视频帧组的字幕内容和字幕相关性关联存储至所述缓存队列，具体地，可以是按视频帧组的播放顺序，将各视频帧组的信息依次填入所述缓存队列中的各存储位置。

具体地，所述第二视频帧组的字幕内容和字幕相关性可以关联存储至所述缓存队列的目标存储位置，如所述缓存队列中存在空位，则所述目标存储位置为所述缓存队列中存储有所述第二视频帧组的前一个视频帧组的数据的存储位置之后的一个存储位置；如所述缓存队列中不存在空位，即已存满数据的情况下，所述缓存队列中的原存储数据均向前移一个存储位置，从而空出最后一个存储位置，作为存储所述第二视频帧组的字幕内容和字幕相关性的目标存储位置，即此时所述缓存队列中的第一个存储位置中的存储数据将被移除。

也就是说，所述将所述第二视频帧组的字幕内容和字幕相关性关联存储至所述缓存队列的目标存储位置，可以包括：

在所述缓存队列中存在空位的情况下，将所述第二视频帧组的字幕内容和字幕相关性关联存储至所述缓存队列中位于所述第一存储位置之后且与第一存储位置相邻的空位，所述第一存储位置为所述缓存队列中最后一个存储有数据的位置；

在所述缓存队列中不存在空位的情况下，去除所述缓存队列中的第一个存储位置中的存储数据，并将所述缓存队列中的存储数据前移一个存储位置，以及将所述第二视频帧组的字幕内容和字幕相关性关联存储至所述缓存队列中的最后一个存储位置。

这样，该实施方式中，通过设计使用缓存队列来存储所获取的直播视频中各视频帧组的相关信息，从而可在后续匹配所述目标对象的身份信息时，快速从所述缓存队列中查找或匹配对应视频帧组的相关信息，整体提高字幕处理效率，并且所设计的缓存队列的数据存储结构能够保证相关字幕的准确率。

进一步地，所述获取直播视频中的目标对象的身份信息和第一视频帧组之后，所述将所述第一视频帧组的字幕内容和字幕相关性关联存储至所述缓存队列中的第一个存储位置之前，所述方法还包括：

一种实施方式中，可以预先确定所述目标对象在所述第一视频帧组中的重要性，从而将所述第一视频帧组的字幕内容、字幕相关性和重要性等信息关联存储至所述缓存队列中，以便后续直接从所述缓存队列中获取使用。

该实施方式中可根据所述目标对象在所述第一视频帧组中的像素占比信息，确定所述目标对象在所述第一视频帧组中的重要性，具体地，当得到所述目标对象的信息后可对视频帧做处理，设视频帧组的大小为n，视频帧组每一帧中用户关注的目标对象的像素数为Frames_i(如果该帧不包含用户关注的目标对象则设目标对象的像素数为0)，每一帧的像素数为Frame_all，记视频帧组中不包含用户关注目标对象的像素数的帧个数为b，则可采用如下计算公式来计算视频帧组中目标对象的重要性Sim：

该实施方式中，使用像素占比来描述目标对象在用户当前看到画面中的重要性，是因为对于直播来说，镜头主要展示的对象往往重要性更高，而相应的解说字幕也会与此对象更相关，继而求出每一帧中目标对象的像素占比并求平均进行归一化，同时乘以系数(n-b)，这是考虑了视频帧组中不包含该目标对象的帧个数，使得不经常出现在画面中的对象的重要性较低(解说字幕的相关性也较低)。

因此，该实施方式中，在确定目标对象的身份信息和第一视频帧组，及计算出目标对象在第一视频帧组的重要性后，可以输出如下结果：

目标对象个人信息：姓名、号码

目标对象在当前帧组的重要性Sim

当前帧组的组起止时间(T_begin,T_end)。

另外，需说明的是，以上视频理解处理步骤与智能字幕的语音识别处理可以是同时进行的，即可以在确定各视频帧组及其重要性的同时，可以对相应视频帧组进行语音识别，以获得其中的字幕信息。这样，不存在额外的处理时间开销，具备较好的执行性能。

此外，还可将所述第一视频帧组的字幕内容、字幕相关性和计算出的所述目标对象在所述第一视频帧组中的重要性关联存储至所述缓存队列中的第一个存储位置，即所述缓存队列中的每个存储位置存放一个视频帧组的处理信息，具体结构可如下：

{Sim，字幕内容，字幕关联性，起止时间范围(Tbegin,Tend)，字幕存在标记}。

这样，通过预先确定所述目标对象在视频帧组中的重要性，将视频帧组的字幕内容、字幕相关性和重要性等信息关联存储至所述缓存队列中，可以方便后续直接从所述缓存队列中获取视频帧组的相关信息使用。

一种实施方式中，可以使用获得的用户关注目标对象的身份信息如运动员名字、号码，去匹配当前视频帧组的字幕文本，同时可以根据所述直播视频中的其他同类对象信息匹配过往字幕，即还可以将所述直播视频中除所述目标对象外的其他对象的身份信息与所述第二视频帧组之前的视频帧组的字幕内容进行匹配，从而得到所述目标对象的身份信息分别与所述第一视频帧组集中各视频帧组的字幕内容的匹配结果，以及其他对象的身份信息分别与所述第一视频帧组集中各视频帧组的字幕内容的匹配结果，进而能够基于上述更为全面的第二匹配结果，更为准确地分析所述第二视频帧组的字幕内容与所述目标对象的相关性。

进一步地，所述根据第二匹配结果，确定目标视频帧组集，包括如下至少一项：

一种实施方式中，在使用用户关注的目标对象的身份信息如运动员名字、号码，去匹配当前视频帧组(即第二视频帧组)的字幕文本，并根据所述直播视频中的其他同类对象信息匹配过往字幕时，有多种不同的匹配结果，从而可以基于不同的匹配结果，输出不同的目标视频帧组集。

以目标对象为目标运动员，身份信息为运动员名字和号码为例，具体地，可以包括如下几种情形：

第一种情形，在当前视频帧组的字幕中直接匹配到目标运动员的名字或号码，则确认当前视频帧组的字幕是用户想要提取的，从而可对该视频帧组进行字幕提取，并可往缓存队列中插入新的帧组信息数据，即插入当前视频帧组的字幕内容、字幕相关性、起止时间范围等数据，其中字幕相关性可设置为第一值，如设为0.9。

第二种情形，在当前视频帧组的字幕中无法直接匹配到目标运动员的名字或号码，则以当前视频帧组的起始时间点T_begin为起点反向查找缓存队列中的存储数据，依次匹配字幕内容看其是否有能匹配上目标运动员信息的；如果匹配上目标运动员的名字或号码，且没有匹配到别的运动员的名字或号码，则可以输出当前视频帧组到所述缓存队列中匹配上的视频帧组之间所有的视频帧组数据，即输出如下目标视频帧组集：

{视频帧组1，视频帧组2，…，视频帧组K}，其中，K为所述目标视频帧组集中的视频帧组的个数；该情形下输出的目标视频帧组集的结构可以如图5a所示；否则转第三种情形。

第三种情形，在所述缓存队列中反向匹配到目标运动员的名字或号码，但是在匹配到被关注的目标运动员之前先匹配到别的运动员的名字或号码，则可以输出两个视频帧组集，即输出的所述目标视频帧组集包括第一子目标视频帧组集和第二子目标视频帧组集：

第一子目标视频帧组集：从当前视频帧组往前一直到匹配上别的运动员的视频帧组；

第二子目标视频帧组集：从匹配到别的运动员的视频帧组一直到匹配到被关注的目标运动员的视频帧组；

该情形下输出的目标视频帧组集的结构可以如图5b所示，其中，Q为输出的目标视频帧组集中视频帧组的总个数。

第四种情形，在所述缓存队列中反向匹配不到被关注目标运动员的名字或号码，但是匹配到别的运动员的名字或号码，则可类似第三种情形，输出两个视频帧组集，即输出的所述目标视频帧组集包括第三子目标视频帧组集和第四子目标视频帧组集：

第三子目标视频帧组集：从当前视频帧组往前一直到所述缓存队列中匹配上别的运动员的视频帧组；

第四子目标视频帧组集：从所述缓存队列中匹配上别的运动员的视频帧组一直往前到所述缓存队列的列表末尾之间的所有视频帧组；

该情形下输出的目标视频帧组集的结构可以如图5c所示，其中，N为输出的目标视频帧组集中视频帧组的总个数。

第五种情形，在所述缓存队列中反向匹配不到任何运动员的名字或号码，则输出当前视频帧组和所述缓存队列中的所有视频帧组，即输出的所述目标视频帧组集包括所述缓存队列中的所有视频帧组和当前视频帧组。

这样，通过该实施方式，可以根据具体的匹配情况，明确输出的目标视频帧组集，进而能够通过对所述目标视频帧组集中各视频帧组的分析，准确确定当前视频帧组的字幕内容与所述目标对象的字幕相关性。

进一步地，所述根据所述目标对象在所述目标视频帧组集中各视频帧组中的重要性，确定所述第二视频帧组的字幕相关性，包括如下至少一项：

即一种实施方式中，在完成上述文字转折词的判别后，可以分别针对上述第二至第五种情形使用视频连续相关性判别法来判定字幕与目标对象的相关性。

仍以目标对象为目标运动员，身份信息为运动员名字和号码为例，来说明该实施方式中如何确定当前视频帧组的字幕相关性：

针对上述第二种情形，即所述目标视频帧组集包括当前视频帧组的起始时间点T_begin到所述缓存队列中匹配上的视频帧组之间的视频帧组数据，可以先计算出所述目标视频帧组集中每个视频帧组中目标运动员重要性Sim的方差V_Sim，再计算出所述目标视频帧组集中的所有视频帧组中目标运动员重要性Sim的平均值P_Sim，接着计算当前视频帧组中目标运动员的重要性C_Sim与所述目标运动员重要性的平均值P_Sim之间的欧氏距离D，当D的值大于等于方差V_Sim时，认为当前视频帧组的字幕与视频画面中的目标运动员相关，否则认为不相关；其中，判定字幕和目标运动员相关的则可以将当前视频帧组的字幕相关性赋值为0.9，反之则赋值为0.3。

由于第二种情形没有匹配到别的运动员的名字或号码，因此当前视频帧组的字幕和目标运动员相关的可能性很高，故可以用目标运动员重要性的方差来表示视频画面中目标运动员与字幕的相关性，当前视频帧组中目标运动员的重要性与目标运动员重要性的方差相差不大时则可认为当前视频帧组就像过往的视频帧一样都聚焦于被关注的目标运动员，因此其字幕也与该目标运动员相关。

针对上述第三种情形，即所述目标视频帧组集包括第一子目标视频帧组集和第二子目标视频帧组集，可以先分别计算出第一子目标视频帧组集中字幕相关性的平均值P_R1和第二子目标视频帧组集中字幕相关性的平均值P_R2；再分别计算出第一子目标视频帧组集中目标运动员重要性的平均值P_Sim1和第二子目标视频帧组集中目标运动员重要性的平均值P_Sim2；接着由如下两个公式分别计算出第一子目标视频帧组集中字幕相关性受其目标运动员重要性的影响值I₁和第二子目标视频帧组集中字幕相关性受其目标运动员重要性的影响值I₂：

通过上面计算公式求出I₁和I₂后，再经下式计算：

|I₁-I₂|≥b

其中，b为预先设置的阈值，该阈值用于判定转折词前后字幕相关性与目标运动员重要性依赖程度的改变；在本情形中，如果I₁减I₂的绝对值大于等于阈值b，则说明经过转折词后，字幕相关性对目标运动员重要性的依赖发生了重要变化，即在转折词之前字幕和目标运动员还是相关的，但是在转折词后字幕和目标运动员的相关性就减弱了，从而以此来判别当前视频帧组的字幕与被关注目标运动员相关性不大，反之则认为相关性大；其中，若判定字幕和目标运动员相关性大则可以将当前视频帧组的字幕相关性赋值为0.9，反之则赋值为0.3。

针对上述第四种情形，即所述目标视频帧组集包括第三子目标视频帧组集和第四子目标视频帧组集，则与上述第三种情形的处理方式类似，只是输入的视频帧组集不同，即该情形可依照上述第三种情形中的处理方法分别计算出第三子目标视频帧组集中字幕相关性受目标运动员重要性的影响值I₃，和第四子目标视频帧组集中字幕相关性受目标运动员重要性的影响值I₄，并用同样的方法来检查转折词前后字幕相关性对目标运动员重要性的依赖变化，如果I₃减I₄的绝对值大于等于阈值b则说明当前视频帧组的字幕与目标运动员相关性不高，反之则认为当前视频帧组的字幕与目标运动员相关；同样地，若判定字幕和目标运动员相关性高则可以将当前视频帧组的字幕相关性赋值为0.9，反之则赋值为0.3。

针对上述第五种情形，即所述目标视频帧组集包括所述第一视频帧组集和当前第二视频帧组，则可以先计算出当前视频帧组的目标运动员重要性C_Sim，即目标运动员在当前视频帧组中像素所占的比例；当且满足以下两个条件时，则认为当前视频帧组的字幕与目标运动员是相关的，条件如下：

条件一：所述缓存队列中的所有视频帧组的字幕相关性的值为0.9的至少占70％以上；这是因为如果之前的视频帧组的字幕和目标运动员相关性不高则无法推断出当前视频帧组的字幕相关性；

条件二：对于当前视频帧组的目标运动员重要性C_Sim需满足以下不等式，才能认为当前视频帧组的字幕与目标运动员相关：

其中，j表示所述缓存队列中的视频帧组的下标，且Sim_j如果等于0则不计算在内，n表示所述缓存队列中的视频帧组的个数，G为预先设置的阈值参数，用于评估当前视频帧组中目标运动员重要性和所述缓存队列中各视频帧组的目标运动员重要性的差异。

从上式中看出，只有当C_Sim和所述缓存队列中的各Sim_j差异都不大才能保证当前视频帧组和过往视频帧组有着相似的运动员侧重点，先建立视频帧组的相似性，再根据条件一的字幕相关性便可确认当前视频帧组也和之前的视频帧组一样是突出同一个运动员，其解说字幕大概率也与被关注的目标运动员相关。类似地，该情形下若判定字幕和目标运动员相关则可以将当前视频帧组的字幕相关性赋值为0.9，反之则赋值为0.3。

在完成上述操作后，可以将当前视频帧组的相关信息填入所述缓存队列中，并按同样方式继续处理下一视频帧组，以此不断循环往复处理直播视频流。

这样，能够通过该实施方式中的视频连续相关性判别法来准确判定各视频帧组的字幕与目标对象的相关性，进而确保提取的字幕的准确性。

可选地，所述步骤104之后，所述方法还包括：

或者，将所提取的字幕内容生成弹幕，并发布所述弹幕。

一种实施方式中，可以将提取的字幕内容记录下来，显示在所述直播视频的播放画面中的预设位置，这样可以方便用户实时查看与感兴趣的对象相关的字幕，例如，查看体育赛事直播视频中对于某个运动员的解说金句。

或者，也可以将所提取的字幕内容做成弹幕发送出去，即将所提取的字幕内容生成弹幕，并发布在所述直播视频中，从而可以将对视频中感兴趣的字幕自动生成弹幕发布来与直播间观众进行互动。

一种实施方式中，如图6所示，还可以在所述直播视频的播放画面60边缘显示智能提取字幕的按钮61，供用户触控智能字幕提取使用，即用户可以触控该按钮61，来触发系统的自动提取字幕功能。

本申请实施例适用于所有视频直播的场景，以体育赛事直播为例，当用户在视频APP上观看短道速滑比赛时，如果想提取解说中关于某个运动员的部分，则可使用本申请设计的视频按压识别方法，在画面上选中并按压这个运动员，完成这个操作之后在后台使用本申请设计的文本与视频目标跟踪比对方法过滤出与该运动员相关的字幕，最终将提取出的字幕返回给用户，以此来满足用户的个性化需求。本申请实施例的主要流程可以如图7所示。

本申请实施例为用户提供了一种个性化、自动化的智能字幕提取方法，相比于现有技术用户可以通过按压画面中的运动员这一简单的操作提取出相关字幕，省去了自我过滤的开销；本申请实施例融合文字匹配方法和视频理解方法，建立起字幕和视频内容之间的关联，使得系统能自动提取用户关需要的字幕，更高效；而且用视频内容过滤文字处理结果，可使提取的字幕更准确；本申请实施例的视频理解模型与智能字幕生成模型时并行执行的，并不会产生额外的时间开销，而且本申请实施例设计的文字转折判别法和视频连续相关性判别法都只是做普通运算，没有使用深度学习模型，因而执行速度会非常快，具有较高的处理性能；本申请实施例在判断字幕与视频内容的相关性上没有使用深度学习模型，因此没有现有技术中深度学习模型迭代的开销成本，扩展性更强。

本申请实施例的字幕处理方法，获取直播视频中的目标对象的身份信息和第一视频帧组；获取所述直播视频中的第二视频帧组，并将所述目标对象的身份信息与所述第二视频帧组的字幕内容进行匹配，得到第一匹配结果，其中，所述第二视频帧组为所述第一视频帧组之后的视频帧组；根据第一匹配结果，确定所述第二视频帧组的字幕相关性，其中，所述字幕相关性为视频帧组的字幕内容与所述目标对象的相关性；基于所述第二视频帧组的字幕相关性，提取所述第二视频帧组的字幕内容。这样，通过对直播视频进行理解，确定视频中目标对象与字幕内容的相关性，从而能够基于该相关性准确提取出与目标对象相关的字幕。

本申请实施例还提供了一种字幕处理装置。参见图8，图8是本申请实施例提供的字幕处理装置的结构图。由于字幕处理装置解决问题的原理与本申请实施例中字幕处理方法相似，因此该字幕处理装置的实施可以参见方法的实施，重复之处不再赘述。

如图8所示，字幕处理装置800包括：

获取模块801，用于获取直播视频中的目标对象的身份信息和第一视频帧组；

匹配模块802，用于获取所述直播视频中的第二视频帧组，并将所述目标对象的身份信息与所述第二视频帧组的字幕内容进行匹配，得到第一匹配结果，其中，所述第二视频帧组为所述第一视频帧组之后的视频帧组；

第一确定模块803，用于根据第一匹配结果，确定所述第二视频帧组的字幕相关性，其中，所述字幕相关性为视频帧组的字幕内容与所述目标对象的相关性；

提取模块804，用于基于所述第二视频帧组的字幕相关性，提取所述第二视频帧组的字幕内容。

可选地，第一确定模块803包括：

或者，

字幕处理装置800包括：

可选地，字幕处理装置800还包括：

可选地，所述第二确定子模块包括：

可选地，所述第二确定子模块还包括如下至少一项：

可选地，获取模块801包括：

可选地，字幕处理装置800还包括：

本申请实施例提供的字幕处理装置800，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

本申请实施例的字幕处理装置800，获取直播视频中的目标对象的身份信息和第一视频帧组；获取所述直播视频中的第二视频帧组，并将所述目标对象的身份信息与所述第二视频帧组的字幕内容进行匹配，得到第一匹配结果，其中，所述第二视频帧组为所述第一视频帧组之后的视频帧组；根据第一匹配结果，确定所述第二视频帧组的字幕相关性，其中，所述字幕相关性为视频帧组的字幕内容与所述目标对象的相关性；基于所述第二视频帧组的字幕相关性，提取所述第二视频帧组的字幕内容。这样，通过对直播视频进行理解，确定视频中目标对象与字幕内容的相关性，从而能够基于该相关性准确提取出与目标对象相关的字幕。

本申请实施例还提供了一种电子设备。由于电子设备解决问题的原理与本申请实施例中字幕处理方法相似，因此该电子设备的实施可以参见方法的实施，重复之处不再赘述。如图9所示，本申请实施例的电子设备，包括：

处理器900，用于读取存储器920中的程序，执行下列过程：

获取直播视频中的目标对象的身份信息和第一视频帧组；

其中，在图9中，总线架构可以包括任意数量的互联的总线和桥，具体由处理器900代表的一个或多个处理器和存储器920代表的存储器的各种电路链接在一起。总线架构还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路链接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口提供接口。针对不同的用户设备，用户接口930还可以是能够外接内接需要设备的接口，连接的设备包括但不限于小键盘、显示器、扬声器、麦克风、操纵杆等。处理器900负责管理总线架构和通常的处理，存储器920可以存储处理器900在执行操作时所使用的数据。

可选地，处理器900还用于读取存储器920中的程序，执行如下步骤：

或者，

处理器900还用于读取存储器920中的程序，执行如下步骤：

可选地，处理器900还用于读取存储器920中的程序，执行如下至少一项：

根据所述触控输入的触控时间，确定所述第一视频帧组；

或者，将所提取的字幕内容生成弹幕，并发布所述弹幕。

本申请实施例提供的电子设备，可以执行上述方法实施例，其实现原理和技术效果类似，本实施例此处不再赘述。

此外，本申请实施例的计算机可读存储介质，用于存储计算机程序，所述计算机程序可被处理器执行实现图1所示方法实施例中的各个步骤。

在本申请所提供的几个实施例中，应该理解到，所揭露方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理包括，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能单元的形式实现。

上述以软件功能单元的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能单元存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述收发方法的部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述是本申请的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请所述原理的前提下，还可以作出若干改进和润饰，这些改进和润饰也应视为本申请的保护范围。

Claims

1.一种字幕处理方法，其特征在于，包括：

获取直播视频中的目标对象的身份信息和第一视频帧组；

2.根据权利要求1所述的方法，其特征在于，所述根据第一匹配结果，确定所述第二视频帧组的字幕相关性，包括：

或者，

3.根据权利要求2所述的方法，其特征在于，所述第一视频帧组集中各视频帧组的目标信息按视频帧播放顺序存储在缓存队列中，其中，所述目标信息包括字幕内容和字幕相关性；

4.根据权利要求3所述的方法，其特征在于，所述获取直播视频中的目标对象的身份信息和第一视频帧组之后，所述将所述第一视频帧组的字幕内容和字幕相关性关联存储至所述缓存队列中的第一个存储位置之前，所述方法还包括：

5.根据权利要求2所述的方法，其特征在于，所述将所述目标对象的身份信息分别与第一视频帧组集中各视频帧组的字幕内容进行匹配，包括：

6.根据权利要求5所述的方法，其特征在于，所述根据第二匹配结果，确定目标视频帧组集，包括如下至少一项：

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标对象在所述目标视频帧组集中各视频帧组中的重要性，确定所述第二视频帧组的字幕相关性，包括如下至少一项：

8.根据权利要求1至7中任一项所述的方法，其特征在于，所述获取直播视频中的目标对象的身份信息和第一视频帧组，包括：

根据所述触控输入的触控时间，确定所述第一视频帧组；

9.根据权利要求1至7中任一项所述的方法，其特征在于，所述提取所述第二视频帧组的字幕内容之后，所述方法还包括：

或者，将所提取的字幕内容生成弹幕，并发布所述弹幕。

10.一种字幕处理装置，其特征在于，包括：

11.一种电子设备，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序；其特征在于，所述处理器，用于读取存储器中的程序实现如权利要求1至9中任一项所述的字幕处理方法中的步骤。

12.一种计算机可读存储介质，用于存储计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至9中任一项所述的字幕处理方法中的步骤。