CN115065837A

CN115065837A - 视频插播方法、装置、设备及计算机可读存储介质

Info

Publication number: CN115065837A
Application number: CN202210572805.8A
Authority: CN
Inventors: 王峰
Original assignee: China Mobile Communications Group Co Ltd; MIGU Video Technology Co Ltd; MIGU Culture Technology Co Ltd
Current assignee: China Mobile Communications Group Co Ltd; MIGU Video Technology Co Ltd; MIGU Culture Technology Co Ltd
Priority date: 2022-05-13
Filing date: 2022-05-13
Publication date: 2022-09-16
Anticipated expiration: 2042-05-13
Also published as: CN115065837B

Abstract

本发明公开了一种视频插播方法，包括：获取当前直播的第一视频对应的音频信息；确定预设插播视频对应的预设标签信息中，是否存在与所述音频信息匹配的目标标签信息；若存在，则将所述目标标签信息对应的预设插播视频作为待插播视频，并基于所述第一视频插播所述待插播视频。本发明还公开了一种视频插播装置、设备及计算机可读存储介质。本发明根据对解说语音信息的识别自动进行插播提高了插播内容及时性以及准确性，并且插播的时间选择更自然，不影响用户观看正在直播的内容，提高了内容插播的智能性，提升了用户的观看体验。

Description

视频插播方法、装置、设备及计算机可读存储介质

技术领域

本发明涉及通信技术领域，尤其涉及一种视频插播方法、装置、设备及计算机可读存储介质。

背景技术

现如今，观看体育赛事直播已经成为了很多人娱乐生活的一部分。在现有的直播过程中，插播的内容都属于PGC(Professional Generated Content，专业生产内容)的过程，整个插播内容的准备，插播时间点的选取及插播的动作都是由直播的工作人员确定。但是，人为的操作往往导致待插播的内容无法得到及时的插播，造成直播过程中无法及时进行插播。

发明内容

本发明的主要目的在于提供一种视频插播方法、装置、设备及计算机可读存储介质，旨在解决直播过程中无法及时进行插播的技术问题。

为实现上述目的，本发明提供一种一种视频插播方法，所述视频插播方法包括以下步骤：

获取当前直播的第一视频对应的音频信息；

确定预设插播视频对应的预设标签信息中，是否存在与所述音频信息匹配的目标标签信息；

若存在，则将所述目标标签信息对应的预设插播视频作为待插播视频，并基于所述第一视频插播所述待插播视频。

优选地，所述基于所述第一视频插播所述待插播视频的步骤包括：

获取所述第一视频当前播放的图像帧对应的画面组，并当所述画面组播放完成时，插播所述待插播视频；或者，

在所述第一视频的当前播放界面中的预设显示区域显示所述待插播视频。

优选地，所述视频插播方法还包括：

获取第二视频的用户回看信息，并基于所述用户回看信息，确定所述第二视频的热点内容；

获取所述热点内容对应的标签信息；

基于所述热点内容以及所述标签信息，分别更新所述预设插播视频以及所述预设插播视频关联的所述预设标签信息。

优选地，所述用户回看信息包括第一用户回看信息或者第二用户回看信息，所述基于所述用户回看信息，确定所述第二视频的热点内容的步骤包括：

若所述第二视频与所述第一视频不同，则基于所述第一用户回看信息，确定用户回拉比例最大的第一回看时间点；并基于所述第一回看时间点，确定所述热点内容；

或者，

若所述第二视频为所述第一视频，则每隔预设时长获取当前时刻之前第二视频的第二用户回看信息，基于所述第二用户回看信息，确定用户回拉比例最大的第二回看时间点；并基于所述第二回看时间点，确定所述热点内容。

优选地，所述获取所述热点内容对应的标签信息的步骤包括：

对所述热点内容中的各个图像帧进行聚类操作，获得聚类结果；

基于所述聚类结果对应的预设标签，确定所述标签信息。

优选地，所述将所述目标标签信息对应的预设插播视频作为待插播视频的步骤包括：

若存在若干个所述目标标签信息，则获取各个所述目标标签信息对应的预设插播视频的待筛选用户回拉比例；

将所述待筛选用户回拉比例中的最大用户回拉比例，对应的预设插播视频作为所述待插播视频。

优选地，所述确定预设插播视频对应的预设标签信息中，是否存在与所述音频信息匹配的目标标签信息的步骤包括：

获取所述音频信息中的解说语音信息；

对所述解说语音信息进行语音识别，确定对应的文字信息；

确定所述预设标签信息中是否存在与所述文字信息匹配的所述目标标签信息。

此外，为实现上述目的，本发明还提供一种视频插播装置，所述视频插播装置包括：

获取模块，用于获取当前直播的第一视频对应的音频信息；

确定模块，用于确定预设插播视频对应的预设标签信息中，是否存在与所述音频信息匹配的目标标签信息；

插播模块，用于若存在，则将所述目标标签信息对应的预设插播视频作为待插播视频，并基于所述第一视频插播所述待插播视频。

此外，为实现上述目的，本发明还提供一种视频插播设备，所述视频插播设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频插播程序，所述视频插播程序被所述处理器执行时实现如上所述的视频插播方法的步骤。

此外，为实现上述目的，本发明还提供一种计算机可读存储介质，所述可读存储介质上存储有视频插播程序，所述视频插播程序被处理器执行时实现如上所述的视频插播方法的步骤。

本发明通过获取当前直播的第一视频对应的音频信息；确定预设插播视频对应的预设标签信息中，是否存在与所述音频信息匹配的目标标签信息；若存在，则将所述目标标签信息对应的预设插播视频作为待插播视频，并基于所述第一视频插播所述待插播视频。通过对直播的解说语音信息进行语音识别，得到与解说语音信息匹配的目标标签信息，将目标标签信息对应的预设插播视频作为待插播视频，并且在直播的下一个画面切换时插播待插播视频，其中，更新预设插播视频所采用的热点内容根据用户回看信息中对视频的回拉比例获得。根据对解说语音信息的识别自动进行插播提高了插播内容及时性以及准确性，并且插播的时间选择更自然，不影响用户观看正在直播的内容，提高了内容插播的智能性，根据用户回看信息中对视频的回拉比例获得热点内容，使得插播的内容不是由专业的工作人员决定，而是由用户对视频内容的回看决定，使得用户参与了插播的内容的创作，提高了用户对于插播的内容的参与度以及观看体验。

附图说明

图1是本发明实施例方案涉及的硬件运行环境中视频插播设备的结构示意图；

图2为本发明视频插播方法第一实施例的流程示意图；

图3为本发明视频插播装置一实施例的功能模块示意图。

本发明目的的实现、功能特点及优点将结合实施例，参照附图做进一步说明。

具体实施方式

应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

如图1所示，图1是本发明实施例方案涉及的硬件运行环境中视频插播设备的结构示意图。

本发明实施例视频插播设备可以是PC，也可以是智能手机、平板电脑等终端设备。

如图1所示，该视频插播设备可以包括：处理器1001，例如CPU，网络接口1004，用户接口1003，存储器1005，通信总线1002。其中，通信总线1002 用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(Display)、输入单元比如键盘(Keyboard)，可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口 (如WI-FI接口)。存储器1005可以是高速RAM存储器，也可以是稳定的存储器(non-volatile memory)，例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。

可选地，视频插播设备还可以包括摄像头、RF(Radio Frequency，射频) 电路，传感器、音频电路、WiFi模块等等。其中，传感器比如光传感器、运动传感器以及其他传感器，在此不再赘述。

本领域技术人员可以理解，图1中示出的终端结构并不构成对终端的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

如图1所示，作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及视频插播程序。

在图1所示的终端中，网络接口1004主要用于连接后台服务器，与后台服务器进行数据通信；用户接口1003主要用于连接客户端(用户端)，与客户端进行数据通信；而处理器1001可以用于调用存储器1005中存储的视频插播程序。

在本实施例中，视频插播设备包括：存储器1005、处理器1001及存储在所述存储器1005上并可在所述处理器1001上运行的视频插播程序，其中，处理器1001调用存储器1005中存储的视频插播程序时，执行以下各个实施例中视频插播方法的步骤。

本发明还提供一种视频插播方法，参照图2，图2为本发明视频插播方法第一实施例的流程示意图。

本实施例中，该视频插播方法包括以下步骤：

步骤S101，获取当前直播的第一视频对应的音频信息；

本实施例中，第一视频为当前直播播放的视频，包括图像信息和音频信息，通过采集设备获取当前直播的原始音视频数据，对原始音视频数据进行音频分离，从而提取音频信息，例如，正在进行的体育赛事的直播，通过采集原始音视频数据并提取音频数据获得其对应的音频信息，具体地，该音频信息包括演播室中解说的语音信息。

步骤S102，确定预设插播视频对应的预设标签信息中，是否存在与所述音频信息匹配的目标标签信息；

本实施例中，预设标签信息为提前设置好的标签信息，每个预设标签信息对应一个或多个预设插播视频。在获取到音频信息时，将该音频信息与预设标签信息进行匹配，确定预设标签信息中是否存在与音频信息匹配的目标标签信息。在一实施方式中，预设标签信息为预设文字信息，在获得第一视频的音频信息后，获取该音频信息中的解说的语音信息，对解说的语音信息进行语音识别，得到解说的语音信息对应的文字信息，再将得到的文字信息与预设文字信息进行匹配，确定预设标签信息中是否存在与上述语言文字信息匹配的目标标签信息，例如，在正在进行的体育赛事直播中，解说的语音信息中提到了“禁区内犯规，这是一个点球”，则在预设标签信息中，确定是否有带有“点球”、“禁区内犯规”的目标标签信息。另一实施方式中，预设标签信息可以为预设音频信息，在获得第一视频的音频信息后，获取该音频信息中的解说的语音信息，将得到的语音信息与预设音频信息进行匹配，确定预设标签信息中是否存在与语音信息匹配的目标标签信息。

需要说明的是，上述文字信息与预设标签信息进行匹配时不需要完全一致，只需要文字信息属于预设标签信息的一部分即可确定目标标签信息，例如，解说的语音信息中提到了“禁区内犯规”，则可以确定带有“点球”的预设标签信息作为目标标签信息，例如，采用现有的模糊匹配方式进行语音信息与各个预设标签信息的匹配，或者，还可以先获取语音信息对应的语音向量以及各个预设标签信息对应的标签向量，计算语音向量与标签向量之间的相似度，确定最大相似度所对应的目标标签向量，将该目标标签向量对应的预设标签信息作为目标标签信息。

步骤S103，若存在，则将所述目标标签信息对应的预设插播视频作为待插播视频，并基于所述第一视频插播所述待插播视频。

本实施例中，预设插播视频为提前准备好的视频片段，在确定预设标签信息中存在目标标签信息后，确定该目标标签信息对应的预设插播视频为待插播视频，并且根据第一视频的播放来插播该待插播视频。具体地，可以在第一视频的视频镜头切换时插播待插播视频，从而不影响当前直播的内容，例如，在体育赛事直播中，当解说的语音信息中提到了“禁区内犯规，这是一个点球”，如果在预设的标签信息中，确定了带有“点球，禁区内犯规”的目标标签信息，那么确定此目标标签信息对应的预设插播视频为待插播视频，在直播的下一个视频镜头切换时，插播该待插播视频。

需要说明的是，待插播视频可以采用全屏的形式插播，也可以采用分屏的形式插播，还可以采用画中画的形式插播，根据实际情况选择插播形式，并且插播的视频可以添加角标，角标所展示的内容可以是自定义的预设的运营信息等。

在一些其他实施例中，确定了待插播视频后，可以直接以小窗口的形式插播待插播视频，而不需要等待视频镜头切换，小窗口的尺寸、位置可以预先设置，以不影响用户观看当前直播内容为前提。

本实施例提出的视频插播方法，通过获取当前直播的第一视频对应的音频信息；而后确定预设插播视频对应的预设标签信息中，是否存在与所述音频信息匹配的目标标签信息；若存在，则将所述目标标签信息对应的预设插播视频作为待插播视频，并基于所述第一视频插播所述待插播视频。根据第一视频的音频信息选择对应的预设插播视频为待插播视频，并自动选择合适的插播时间插播待插播视频，提高了视频内容插播的及时性以及智能性，并且合适的插播时间点的选择使得视频内容的插播更自然，不影响用户观看，提升了用户的观看体验。

基于第一实施例，提出本发明视频插播方法的第二实施例，在本实施例中，步骤S103包括：

步骤S201，获取所述第一视频对应的画面组，并当所述画面组播放完成时，插播所述待插播视频；或者，

步骤S202，在所述第一视频的当前播放界面中的预设显示区域显示所述待插播视频。

本实施例中，获取当前直播的第一视频正在播放的图像帧，确定该图像帧所属的GOP(Group of Pictures，画面组)为画面组，当画面组播放完成时，插播上述待插播视频。具体地，每个GOP都对应了一组连续的画面，包括了若干个图像帧，例如，在体育赛事直播中，画面组为第一视频正在播放的图像帧所属的GOP，当第一视频播放完画面组的最后一个图像帧时，视为第一视频已经结束了一个内容的播放，发生了视频镜头切换，此时，插播上述待插播视频。

或者，在第一视频的当前播放界面中的预设显示区域显示待插播视频，例如，在预设显示区域弹出待插播视频的显示窗口，以采用画中画的方式播放第一视频与待插播视频。

本实施例提出的视频插播方法，通过获取所述第一视频对应的画面组；接着，当所述画面组播放完成时，插播所述待插播视频，或者，在所述第一视频的当前播放界面中的预设显示区域显示所述待插播视频。使得视频内容的插播发生在视频镜头切换时，让插播的时间选择更自然，或者采用画中画的方式播放第一视频与待插播视频，提高了视频内容插播的及时性和智能性，并且不影响用户对直播的观看，提升了观看体验。

基于第一实施例，提出本发明视频插播方法的第三实施例，在本实施例中，该视频插播方法还包括：

步骤S301，获取第二视频的用户回看信息，并基于所述用户回看信息，确定所述第二视频的热点内容；

步骤S302，获取所述热点内容对应的标签信息；

步骤S303，基于所述热点内容以及所述标签信息，分别更新所述预设插播视频以及所述预设插播视频关联的所述预设标签信息。

在本实施例中，获取第二视频的用户回看信息，用户回看信息包括，当用户通过回拉进度条对第二视频的内容进行回看时，回拉进度条所至的回看时间点，以及，每个回看时间点对应一个结束时间点，当用户回拉进度条至回看时间点后，在一分钟内再次拉动进度条或者离开第二视频播放页面时，则确定用户结束了回看，确定此时第二视频的时间点为该回看时间点对应的结束时间点，若超过一分钟未再次拉动进度条或者离开第二视频播放页面，则将回看时间点的后一分钟作为对应的结束时间点，而后，基于上述的用户回看信息，确定第二视频中的热点内容。

具体地，根据预设时长将第二视频划分为若干个相同固定时长的时间段，而后，在每个时间段内，确定用户回拉比例最大的回看时间点，任一回看时间点的回拉比例为用户回拉进度条至该回看开始时间点的次数与用户回拉进度条至该回看时间点所属的时间段内的总次数的比，并确定该回看时间点对应的比例最大的结束时间点，根据每个时间段内回拉比例最大的回看时间点，以及每个对应的结束时间点，确定每个时间段的热点内容，以每个热点内容对应的回看时间点所属的时间段作为该热点内容对应的时间段，例如，确定距离回看时间点最近的关键帧为起始关键帧，确定距离结束时间点最近的关键帧为结束关键帧，以起始关键帧对应的GOP为热点内容的开头，以结束关键帧对应的GOP为热点内容的结尾，对第二视频进行剪辑即可得到热点内容。

需要说明的是，热点内容的数量可以根据上述时间段的长短进行调整，若需要更多的热点内容，则时间段的预设时长更短，划分的时间段数量更多；若需要更少的热点内容，则时间段的预设时长更长，划分的时间段数量更少。

获取上述热点内容后，将热点内容的每一图像帧代入预测模型进行训练，获得每一图像帧对应的类别，对获得的所有类别进行聚类操作，将聚类得到的结果与预设的标签进行分析对比，确定每个热点内容对应的标签信息。

基于热点内容以及标签信息，分别更新预设插播视频以及预设插播视频关联的预设标签信息。具体地，将获得的热点内容添加至预设插播视频，并将热点内容对应的标签信息添加至预设标签信息。

本实施例提出的视频插播方法，通过获取第二视频的用户回看信息；接着基于所述用户回看信息，确定所述第二视频的热点内容；而后，获取所述热点内容对应的标签信息；再基于所述热点内容以及所述标签信息，分别更新所述预设插播视频以及所述预设插播视频关联的所述预设标签信息。使得预设插播视频对应的热点内容来自于用户对视频内容的回看，将用户关注的视频片段剪辑为热点内容，并为热点内容关联了对应的标签信息，将热点内容以及对应的标签信息关联储存为预设插播视频以及预设标签信息，提高了选取插播内容的准确性以及智能性，提高了用户对于插播内容的参与度，提升了用户的观看体验。

基于第三实施例，提出本发明视频插播方法的第四实施例，在本实施例中，用户回看信息包括第一用户回看信息或者第二用户回看信息，步骤S301 包括：

步骤S401，若所述第二视频与所述第一视频不同，则基于所述第一用户回看信息，确定用户回拉比例最大的第一回看时间点；并基于所述第一回看时间点，确定所述热点内容；或者，

步骤S402，若所述第二视频为所述第一视频，则每隔预设时长获取当前时刻之前第二视频的第二用户回看信息，基于所述第二用户回看信息，确定用户回拉比例最大的第二回看时间点；并基于所述第二回看时间点，确定所述热点内容。

本实施例中，用户回看信息包括第一用户回看信息或者第二用户回看信息，第一用户回看信息包括第一回看时间点以及与第一回看时间点对应的第一结束时间点，第二用户回看信息包括第二回看时间点以及与第二回看时间点对应的第二结束时间点。

具体地，若第二视频与第一视频不同，即第二视频为非当前直播的视频，那么，基于第一用户回看信息确定用户回拉比例最大的第一回看时间点，其中，该第一回看时间点可以为在第二视频的各个预设时长的时间段内的回看时间点，根据预设时长将第二视频划分为若干个相同固定时长的时间段，并根据每个时间段内用户回拉比例最大的第一回看时间点，在每个时间段内确定一个热点内容，例如，设每个时间段为X分钟，Y为X分钟内用户回拉比例最大的第一回看时间点，Z为对应Y的比例最大的第一结束时间点，Y到Z 之间的视频内容为用户回看的内容，根据Y点确定第二视频中距离Y点最近的关键帧，将该关键帧所属GOP与上一GOP的边界作为第一起始边界，并根据Z点确定第二视频中距离Z点最近的关键帧，将该关键帧所属GOP与下一GOP的边界作为第一结束边界，而后，根据上述第一起始边界与第一结束边界，对第二视频进行视频拆条完成剪辑，获得对应的热点内容。

若第二视频为第一视频，即第二视频为当前直播的视频，那么，每隔预设时长获取当前时刻之前确定用户回拉比例最大的第二回看时间点，该第二回看时间点可以为获取当前时刻之前每个预设时长的时间段内用户回拉比例最大的第二回看时间点，以及对应的第二结束时间点，根据第二回看时间点以及第二结束时间点，每隔预设时长确定当前时刻之前，每个预设时长的时间段内的热点内容，例如，第二视频为当前直播视频，设预设时长为X分钟，因此每隔X分钟确定一个时间段，设时刻为P1，P2，P3等等，P1与P2之间为X1时间段，P2与P3之间为X2时间段，以此类推，当第二视频播放至P2 时，确定X1的第二回看时间点以及对应的第二结束时间点；当第二视频播放至P3时，确定X1与X2的第二回看时间点以及对应的第二结束时间点，而后，确定距离第二回看时间点最近的关键帧所属GOP与上一GOP的边界作为第二起始边界，并确定距离第二结束时间点最近的关键帧所属GOP与下一 GOP的边界作为第二结束边界，接着根据上述第二起始边界与第二结束边界，对第二视频进行视频拆条完成剪辑，获得对应的热点内容。

需要说明的是，当回看视频的用户较少时，不同用户关于同一视频内容的回看时间点与结束时间点不一定精准地落在同一点位，回拉进度条的时间点或结束回看的时间点可以不在同一个点位，从而存在偏差，因此，可以根据视频划分为若干个分钟段，将回看时间点所属分钟段的第一秒作为该分钟的回看时间点，将回看时间点对应的结束时间点所属分钟段的最后一秒作为该分钟的结束时间点。此外，若上述时间段内，没有产生回看时间点，则确定该时间段内，没有热点内容。

本实施例提出的视频插播方法，通过若所述第二视频与所述第一视频不同，则基于所述第一用户回看信息，确定用户回拉比例最大的第一回看时间点；接着基于所述第一回看时间点，确定所述热点内容。若所述第二视频为所述第一视频，则每隔预设时长获取当前时刻之前第二视频的第二用户回看信息，基于所述第二用户回看信息，确定用户回拉比例最大的第二回看时间点；接着基于所述第二回看时间点，确定所述热点内容。提高了热点内容选取的准确性，并且根据最多用户回看的内容来确定热点内容，进一步提高了用户对于插播内容的参与度，提升了用户的观看体验。

基于第三实施例，提出本发明视频插播方法的第五实施例，在本实施例中，步骤S303包括：

步骤S501，对所述热点内容中的各个图像帧进行聚类操作，获得聚类结果；

步骤S502，基于所述聚类结果对应的预设标签，确定所述标签信息。

本实施例中，将获取到的热点内容的每一图像帧输入预设的预测模型进行模型训练，从而获得该热点内容对应的聚类结果，根据聚类结果中各个类别的标签确定该热点内容对应的标签信息，例如，一个热点内容所有图像帧的聚类结果中各个类别的标签分别为“禁区内犯规”、“点球”，则确定该热点内容的标签信息为“禁区内犯规，点球”。

本实施例提出的视频插播方法，通过对所述热点内容中的各个图像帧进行聚类操作，获得聚类结果；接着基于所述聚类结果对应的预设标签，确定所述标签信息。提高了热点内容的准确性，使得每个热点内容都对应准确的标签信息，提高了在插播时对于插播内容的选取的智能性，提升了用户的观看体验。

基于上述各个实施例，提出本发明视频插播方法的第六实施例，在本实施例中，步骤S103包括：

步骤S601，若存在若干个所述目标标签信息，则获取各个所述目标标签信息对应的预设插播视频的待筛选用户回拉比例；

步骤S602，将所述待筛选用户回拉比例中的最大用户回拉比例，对应的预设插播视频作为所述待插播视频。

本实施例中，若预设插播视频对应的预设标签信息中，存在若干个与音频信息匹配的目标标签信息，则确定各个目标标签信息对应的预设插播视频，确定各个预设插播视频，而后通过筛选获得各个预设插播视频对应的用户回拉比例，确定用户回拉比例最大的预设插播视频为待插播视频。

需要说明的是，若音频信息中多次匹配同一预设标签信息，则可以根据预设时长，在每个预设时长内，无论音频信息中匹配多少次同一预设标签信息，都只确定一次目标标签信息，进行一次视频内容的插播。

在一些其他实施例中，若存在若干个与音频信息匹配的目标标签信息，则获取音频信息对应的文字信息，计算该文字信息与各个目标标签信息之间的相似度，将最大相似度的目标标签信息对应的预设插播视频作为待插播视频，其中，可先确定文字信息对应的文字向量以及各个目标标签信息对应的标签向量，基于文字向量以及各个标签向量通过余弦公式确定各个相似度。

本实施例提出的视频插播方法，通过若存在若干个所述目标标签信息，则获取各个所述目标标签信息对应的预设插播视频的待筛选用户回拉比例；接着将所述待筛选用户回拉比例中的最大用户回拉比例，对应的预设插播视频作为所述待插播视频。使得存在多个与音频信息匹配的目标标签信息时，在多个预设插播视频中，根据用户回拉比例，选取对应用户回看次数最多的预设插播视频作为待插播视频，提高了内容选取的准确性，提高了用户对于插播内容的参与度，进一步提升了用户的观看体验。

基于上述各个实施例，提出本发明视频插播方法的第七实施例，在本实施例中，步骤S102包括：

步骤S701，获取所述音频信息中的解说语音信息；

步骤S702，对所述解说语音信息进行语音识别，确定对应的文字信息；

步骤S703，确定所述预设标签信息中是否存在与所述文字信息匹配的所述目标标签信息。

本实施例中，获取第一视频的音频信息后，通过对音频信息中的人声进行检测以及采集，获得对应的解说语音信息，而后，对解说语音信息进行语音识别，获得解说语音信息对应的文字信息，该文字信息包括解说语音信息中，解说提到的每个字的文字信息，接着确定预设标签信息中，是否存在与上述文字信息匹配的标签信息，若存在，则将匹配的预设标签信息作为目标标签信息，例如，解说提到了“禁区内犯规，这是一个点球”，即解说语音信息中包括了“禁区内犯规，这是一个点球”，在预设标签信息中，有一条预设标签内容为“足球、点球”，则该预设标签信息与解说语音信息对应的文字信息匹配，将该预设标签信息作为目标标签信息。

本实施例提到的视频插播方法，通过获取所述音频信息中的解说语音信息；接着对所述解说语音信息进行语音识别，确定对应的文字信息；而后确定所述预设标签信息中是否存在与所述文字信息匹配的所述目标标签信息。根据音频信息中的解说语音信息确定目标标签信息，使得目标标签信息对应的预设插播视频符合当前的内容，提高了插播内容的准确性以及智能性，进一步提升了用户的观看体验。

此外，本发明还提供一种视频插播装置，参照图3，所述视频插播装置包括：

获取模块10，用于获取当前直播的第一视频对应的音频信息；

确定模块20，用于确定预设插播视频对应的预设标签信息中，是否存在与所述音频信息匹配的目标标签信息；

插播模块30，用于若存在，则将所述目标标签信息对应的预设插播视频作为待插播视频，并基于所述第一视频插播所述待插播视频。

进一步地，插播模块30，还用于：

进一步地，所述视频插播装置还包括：获取第二视频的用户回看信息，并基于所述用户回看信息，确定所述第二视频的热点内容；

获取所述热点内容对应的标签信息；

进一步地，所述视频插播装置还包括：若所述第二视频与所述第一视频不同，则基于所述第一用户回看信息，确定用户回拉比例最大的第一回看时间点；并基于所述第一回看时间点，确定所述热点内容；

或者，

进一步地，所述视频插播装置还包括：对所述热点内容中的各个图像帧进行聚类操作，获得聚类结果；

基于所述聚类结果对应的预设标签，确定所述标签信息。

进一步地，所述视频插播装置还包括：若存在若干个所述目标标签信息，则获取各个所述目标标签信息对应的预设插播视频的待筛选用户回拉比例；

进一步地，所述视频插播装置还包括：获取所述音频信息中的解说语音信息；

对所述解说语音信息进行语音识别，确定对应的文字信息；

上述各程序单元所执行的方法可参照本发明视频插播方法各个实施例，此处不再赘述。

此外，本发明实施例还提出一种视频插播设备，该视频插播设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频插播程序，所述视频插播程序被所述处理器执行时实现如上所述的视频插播方法的步骤。

此外，本发明实施例还提出一种计算机可读存储介质，所述可读存储介质上存储有视频插播程序，所述视频插播程序被处理器执行时实现如上所述的视频插播方法的步骤。

需要说明的是，在本文中，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件，但很多情况下前者是更佳的实施方式。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在如上所述的一个存储介质(如ROM/RAM、磁碟、光盘)中，包括若干指令用以使得一台终端设备(可以是手机，计算机，服务器，空调器，或者网络设备等)执行本发明各个实施例所述的方法。

以上仅为本发明的优选实施例，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

Claims

1.一种视频插播方法，其特征在于，所述视频插播方法包括以下步骤：

获取当前直播的第一视频对应的音频信息；

2.如权利要求1所述的视频插播方法，其特征在于，所述基于所述第一视频插播所述待插播视频的步骤包括：

3.如权利要求1所述的视频插播方法，其特征在于，所述视频插播方法还包括：

获取所述热点内容对应的标签信息；

4.如权利要求3所述的视频插播方法，其特征在于，所述用户回看信息包括第一用户回看信息或者第二用户回看信息，所述基于所述用户回看信息，确定所述第二视频的热点内容的步骤包括：

或者，

5.如权利要求3所述的视频插播方法，其特征在于，所述获取所述热点内容对应的标签信息的步骤包括：

基于所述聚类结果对应的预设标签，确定所述标签信息。

6.如权利要求1至5任一项所述的视频插播方法，其特征在于，所述将所述目标标签信息对应的预设插播视频作为待插播视频的步骤包括：

7.如权利要求1至5任一项所述的视频插播方法，其特征在于，所述确定预设插播视频对应的预设标签信息中，是否存在与所述音频信息匹配的目标标签信息的步骤包括：

获取所述音频信息中的解说语音信息；

对所述解说语音信息进行语音识别，确定对应的文字信息；

8.一种视频插播装置，其特征在于，所述视频插播装置包括：

获取模块，用于获取当前直播的第一视频对应的音频信息；

9.一种视频插播设备，其特征在于，所述视频插播设备包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的视频插播程序，所述视频插播程序被所述处理器执行时实现如权利要求1至7中任一项所述的视频插播方法的步骤。

10.一种计算机可读存储介质，其特征在于，所述可读存储介质上存储有视频插播程序，所述视频插播程序被处理器执行时实现如权利要求1至7中任一项所述的视频插播方法的步骤。