CN113660501A

CN113660501A - 一种匹配字幕的方法和设备

Info

Publication number: CN113660501A
Application number: CN202110920703.6A
Authority: CN
Inventors: 马晨光; 陈吉胜
Original assignee: Unisound Shanghai Intelligent Technology Co Ltd
Current assignee: Unisound Shanghai Intelligent Technology Co Ltd
Priority date: 2021-08-11
Filing date: 2021-08-11
Publication date: 2021-11-16

Abstract

本发明实施例提出了一种匹配字幕的方法和设备，该方法包括：获取直播数据；对所述直播数据进行识别，得到所述直播数据对应的文本；根据所述识别的时间与所述直播数据的视频帧时间戳进行比对，实现直播数据与所述文本的时间匹配，得到匹配有文本的直播数据；输出匹配有文本的直播数据进行直播。本方案中通过预先获取到直播数据，并对直播数据进行识别得到字幕的文本，并基于时间将文本与直播数据进行匹配，得到匹配有文本的直播数据，以此当输出匹配有文本的直播数据时，观看者的体验更佳。

Description

一种匹配字幕的方法和设备

技术领域

本发明涉及语音识别技术领域，具体涉及一种匹配字幕的方法和设备。

背景技术

目前，直播平台发展的越来多，涉及到例如直播带货，直播宣讲以及直播讲课等等不同的领域。但是目前的直播平台在进行直播时，只有直播人员在进行口头表达，并没有字幕展示，这导致影响到直播观看者的观看体验。

由此，目前需要有一种更好的方案来解决现有技术中的问题。

发明内容

本发明提供一种匹配字幕的方法和设备，能够解决现有技术中的技术问题，实现直播视频带有字幕，提高了直播观看者的观看体验。

本发明解决上述技术问题的技术方案如下：

本发明实施例提出了一种匹配字幕的方法，包括：

获取直播数据；

对所述直播数据进行识别，得到所述直播数据对应的文本；

根据所述识别的时间与所述直播数据的视频帧时间戳进行比对，实现直播数据与所述文本的时间匹配，得到匹配有文本的直播数据；

输出匹配有文本的直播数据进行直播。

在一个具体的实施例中，所述“获取直播数据”包括：

若接收到匹配字幕的请求时或获取到直播请求时，获取与所述匹配字幕的请求或与所述直播请求对应的直播数据。

在一个具体的实施例中，所述直播数据包括：音频数据和视频数据。

在一个具体的实施例中，所述“对所述直播数据进行识别，得到所述直播数据对应的文本”，包括：

对所述直播数据中的音频数据进行语音识别，得到与时间对应的音频文本；

对所述直播数据中的视频数据进行唇语识别，得到与时间对应的视频文本；

综合相同时间点的所述音频文本与所述视频文本得到与所述直播数据上各个时间点上最终的文本。

在一个具体的实施例中，所述“根据所述识别的时间与所述直播数据的视频帧时间戳进行比对，实现直播数据与所述文本的时间匹配，得到匹配有文本的直播数据”，包括：

将所述视频文本中的时间与所述直播数据的视频帧时间戳进行比对，确定所述直播数据各个视频帧时间戳对应的文本内容；

将互相对应的所述文本内容与所述直播数据的视频帧进行匹配，得到携带有所述文本的直播数据。

本发明实施例还提出了一种匹配字幕的设备，包括：

获取模块，用于获取直播数据；

识别模块，用于对所述直播数据进行识别，得到所述直播数据对应的文本；

匹配模块，用于根据所述识别的时间与所述直播数据的视频帧时间戳进行比对，实现直播数据与所述文本的时间匹配，得到匹配有文本的直播数据；

输出模块，用于输出匹配有文本的直播数据进行直播。

在一个具体的实施例中，所述获取模块，用于：

在一个具体的实施例中，所述识别模块，用于：

在一个具体的实施例中，所述匹配模块，用于：

本发明的有益效果是：

附图说明

图1为本发明实施例提供的一种匹配字幕的方法的流程示意图；

图2为本发明实施例提供的一种匹配字幕的方法中得到最终的文本的示意图；

图3为本发明实施例提供的一种匹配字幕的方法中得到带有文本字幕的示意图；

图4为本发明实施例提供的一种匹配字幕的装置的结构示意图。

具体实施方式

以下结合附图对本发明的原理和特征进行描述，所举实例只用于解释本发明，并非用于限定本发明的范围。

实施例1

本发明实施例1公开了一种匹配字幕的方法，如图1所示，包括以下步骤：

步骤S101、获取直播数据；

具体的，在一个实际的应用场景下，步骤S101中的所述“获取直播数据”包括：

具体的，直播并不是绝对实时的，在获取到实时的直播数据之后，还需要进行压制传输等过程，因此一定会存在一定的时间延迟，只要该时间延迟在一定的范围内，例如在一般用户观看所无法明显感觉到，即可认为是直播。

基于此，本申请的方案中，当获取到有匹配字幕的请求时，会获取直播数据；或者只要有直播请求，就获取该直播数据，以便后续进行匹配字幕。具体的，获取直播数据的触发条件可以根据实际的情况而事先有不同的设置。

步骤S102、对所述直播数据进行识别，得到所述直播数据对应的文本；

具体的，直播是通过采集现场发生的图像数据，且目前一般的直播还涉及到主持人的语音，因此直播数据包括：音频数据和视频数据。

在此情况下，所述“对所述直播数据进行识别，得到所述直播数据对应的文本”，包括：

具体的，直播数据在时间轴上如图2以及图3中的从左到右的直线，每两个时间点之间存在一个区间，对该区间的直播数据进行识别，由于识别方式的不同，得到音频文本与视频文本；

由于单纯采用某一种识别方式得到的文本可能有不准确的，因此可以综合两种识别方式来进行识别，得到最终的文本。

具体的，例如针对第2个时间区间，对应的音频文本为子文本2，对应的视频文本也为子文本2，在此情况下，可以结合前后语境与语义判断哪个子文本2更准确，选择更准确的子文本2作为最终的子文本2；也可以针对子文本2中的每个字符来单独进行判断，由此综合两个子文本2得到最终的子文本2。

得到一个子文本后，汇总所有的子文本得到最终的文本。

步骤S103、根据所述识别的时间与所述直播数据的视频帧时间戳进行比对，实现直播数据与所述文本的时间匹配，得到匹配有文本的直播数据；

具体的，步骤S103中的所述“根据所述识别的时间与所述直播数据的视频帧时间戳进行比对，实现直播数据与所述文本的时间匹配，得到匹配有文本的直播数据”，包括：

具体的，如图3所示，直播数据中包括多个视频帧时间戳(也即图3中的时间点)，将每个子文本与对应的视频帧时间戳进行匹配，以此可以得到准确的带有字幕的直播数据。

步骤S104、输出匹配有文本的直播数据进行直播。

具体的，基于上述操作，得到匹配有文本(也即字幕)的直播数据，由于上述操作的是自动化的智能处理过程，速度很快，例如为毫秒级别，经过上述操作得到带有字幕的操作，进行直播，用户也不会察觉到，因此仍可以认为是直播数据进行直播，与用户的交互也不会受到影响。

实施例2

为了对本申请方案进行进一步的说明，本发明实施例2还公开了一种匹配字幕的设备，如图所示，包括：

获取模块201，用于获取直播数据；

识别模块202，用于对所述直播数据进行识别，得到所述直播数据对应的文本；

匹配模块203，用于根据所述识别的时间与所述直播数据的视频帧时间戳进行比对，实现直播数据与所述文本的时间匹配，得到匹配有文本的直播数据；

输出模块204，用于输出匹配有文本的直播数据进行直播。

在一个具体的实施例中，所述获取模块201，用于：

在一个具体的实施例中，所述识别模块202，用于：

在一个具体的实施例中，所述匹配模块203，用于：

以上，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

Claims

1.一种匹配字幕的方法，其特征在于，包括：

获取直播数据；

对所述直播数据进行识别，得到所述直播数据对应的文本；

输出匹配有文本的直播数据进行直播。

2.根据权利要求1所述的方法，其特征在于，所述“获取直播数据”包括：

3.如权利要求1所述的方法，其特征在于，所述直播数据包括：音频数据和视频数据。

4.如权利要求3所述的方法，其特征在于，所述“对所述直播数据进行识别，得到所述直播数据对应的文本”，包括：

5.如权利要求4所述的方法，其特征在于，所述“根据所述识别的时间与所述直播数据的视频帧时间戳进行比对，实现直播数据与所述文本的时间匹配，得到匹配有文本的直播数据”，包括：

6.一种匹配字幕的设备，其特征在于，包括：

获取模块，用于获取直播数据；

输出模块，用于输出匹配有文本的直播数据进行直播。

7.根据权利要求6所述的设备，其特征在于，所述获取模块，用于：

8.如权利要求6所述的设备，其特征在于，所述直播数据包括：音频数据和视频数据。

9.如权利要求8所述的设备，其特征在于，所述识别模块，用于：

10.如权利要求9所述的设备，其特征在于，所述匹配模块，用于：