CN116506689B

CN116506689B - 适用于在线视频的多路实时解说智能化实现方法及装置

Info

Publication number: CN116506689B
Application number: CN202310772942.0A
Authority: CN
Inventors: 贺新春
Original assignee: Central Video Financial Media Development Co ltd
Current assignee: Central Video Financial Media Development Co ltd
Priority date: 2023-06-28
Filing date: 2023-06-28
Publication date: 2023-09-26
Anticipated expiration: 2043-06-28
Also published as: CN116506689A

Abstract

本发明公开了一种适用于在线视频的多路实时解说智能化实现方法及装置，属于数据处理技术领域。本发明通过在线视频播放器中接入多路实时音频解说，为后续可以自由选择感兴趣的实时音频解说提供数据支撑。本发明通过将目标在线视频和带有声画同步信息的多路实时解说音频作为一份文件存储至预设的缓冲节点，有效降低了存储成本。本发明为用户提供音频流切换功能，用户可以根据自己的喜好选择对应声道的实时音频解说。从而本发明保证了在线视频播放器不仅支持对路实时音频解说，其用户也可以根据需求自由切换音频解说。进而解决了在线视频播放器不能支持实时音频解说并且无法自由切换音频解说的技术问题。

Description

适用于在线视频的多路实时解说智能化实现方法及装置

技术领域

本发明涉及数据处理技术领域，并且更具体地，涉及一种适用于在线视频的多路实时解说智能化实现方法及装置。

背景技术

随着互联网技术的发展，网络直播已经成为了一种非常流行的娱乐方式，越来越多的人喜欢在线观看体育赛事等直播，但仅有单路解说逐渐无法满足观众需求。有些用户希望能够在观看视频直播的同时，听到其他实时配音内容，以满足用户多样化的需求。例如，当一位用户观看一场足球赛时，用户希望能够选择在同一时间听到不同风格解说员的解说配音。

现有的较为常见的视频配音方式是，当采集好一个视频对应的多路配音音频后，将该视频与多路配音音频一同合成一个配音视频文件。例如中国专利CN106060424A，能够实现一个视频配音场景下多路音频数据的获得，之后将一个视频和多路音频数据一同合成一个配音视频文件。但是，这种视频配音方式并不支撑用户在播放端选择其感兴趣的某一路配音，无法满足用户多样化的需求，并且该配音是预先生成好的，也无法满足网络直播场景下的实时性需求。可见，传统的在线视频播放器不能支持实时音频解说并且无法自由切换音频解说。

发明内容

针对现有技术的不足，本发明提供一种适用于在线视频的多路实时解说智能化实现方法及装置。

根据本发明的一个方面，提供了一种适用于在线视频的多路实时解说智能化实现方法，包括：

获取多路实时解说音频，其中所述多路实时解说音频为多个解说员针对同一个目标在线视频进行实时解说产生的音频；

将所述目标在线视频分别与每路实时解说音频进行声画智能同步处理，生成带有声画同步信息的多路实时解说音频，并将所述目标在线视频和所述带有声画同步信息的多路实时解说音频一同存储至预设的缓冲节点；

在播放所述目标在线视频时，响应于用户的音频流切换操作，从所述带有声画同步信息的多路实时解说音频中选择对应的目标实时解说音频，并向所述缓冲节点获取所述目标实时解说音频后播放。

进一步的，所述将所述目标在线视频分别与每路实时解说音频进行声画智能同步处理之前，该方法还包括：按照预设的降噪处理技术，去除每路实时解说音频中的噪声信号。

进一步地，所述将所述目标在线视频分别与每路实时解说音频进行声画智能同步处理，包括：

将每路实时解说音频按照预设时间间隔分为若干个音频单元；

将所述目标在线视频按照所述预设时间间隔分为若干个视频单元；

将各个音频单元输入预设的卷积神经网络，确定各个音频单元的音频特征；

将各个视频单元输入预设的卷积神经网络，确定各个视频单元的视频特征；

将各个音频单元的音频特征以及与各个音频单元分别对应的视频单元的视频特征一同输入至预设的循环神经网络，确定各个音频单元与各个视频单元之间的时间偏移量和同步信息。

进一步的，预先在所述在线视频播放器中配置音频流切换组件；并且响应于用户的音频流切换操作之前，该方法还包括：

获取用户的使用信息，并根据所述使用信息确定所述用户的用户画像；

基于所述用户画像，从所述多路实时解说音频中确定多个候选实时解说音频；

响应于所述用户对所述音频流切换组件的触发操作，向所述用户展示所述多个候选实时解说音频。

进一步的，所述向所述用户展示所述多个候选实时解说音频，包括：

根据预设的推荐显示算法，确定所述多个候选实时解说音频的排序；

按照所述多个候选实时解说音频的排序，向用户展示所述多个候选实时解说音频。

根据本发明的另一个方面，提供了一种适用于在线视频的多路实时解说智能化实现装置，包括：

音频获取模块，用于获取多路实时解说音频，其中所述多路实时解说音频为多个解说员针对同一个目标在线视频进行实时解说产生的音频；

声画智能同步模块，用于将所述目标在线视频分别与每路实时解说音频进行声画智能同步处理，生成带有声画同步信息的多路实时解说音频，并将所述目标在线视频和所述带有声画同步信息的多路实时解说音频一同存储至预设的缓冲节点；

解说音频切换模块，用于在播放所述目标在线视频时，响应于用户的音频流切换操作，从所述带有声画同步信息的多路实时解说音频中选择对应的目标实时解说音频，并向所述缓冲节点获取所述目标实时解说音频后播放。

进一步的，该装置还包括：降噪处理模块，用于按照预设的降噪处理技术，去除每路实时解说音频中的噪声信号。

进一步的，所述声画智能同步模块，具体用于：

根据本发明的又一个方面，提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行本发明上述任一方面所述的方法。

根据本发明的又一个方面，提供了一种电子设备，所述电子设备包括：处理器；用于存储所述处理器可执行指令的存储器；所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现本发明上述任一方面所述的方法。

从而，本发明首先获取多个解说员针对同一个目标在线视频进行实时解说产生的多路实时解说音频，然后将所述目标在线视频分别与每路实时解说音频进行声画智能同步处理，生成带有声画同步信息的多路实时解说音频，并将所述目标在线视频和所述带有声画同步信息的多路实时解说音频一同存储至预设的缓冲节点，最后响应于用户的音频流切换操作，从所述带有声画同步信息的多路实时解说音频中选择对应的目标实时解说音频，并向所述缓冲节点获取所述目标实时解说音频后播放。本发明通过在在线视频播放器中接入多路实时音频解说，为后续可以自由选择感兴趣的实时音频解说提供数据支撑。本发明通过将目标在线视频和带有声画同步信息的多路实时解说音频作为一份文件，存储至预设的缓冲节点，有效降低了存储成本。同时，为用户提供音频流切换功能，用户可以根据自己的喜好选择对应声道的实时音频解说，当用户进行音频流切换时，缓冲节点只需要传输对应的某一路实时解说音频，有效减少了带宽资源的消耗。从而本发明保证了在线视频播放器不仅支持对路实时音频解说，其用户也可以根据需求自由切换音频解说，同时有效减少了存储以及带宽资源的消耗。进而解决了在线视频播放器不能支持实时音频解说并且无法自由切换音频解说的技术问题。

附图说明

通过参考下面的附图，可以更为完整地理解本发明的示例性实施方式：

图1是本发明一示例性实施例提供的适用于在线视频的多路实时解说智能化实现方法的一个流程示意图；

图2是本发明一示例性实施例提供的针对在线视频录制多路实时解说音频的流程示意图；

图3是本发明一示例性实施例提供的基于获取的多路实时解说音频进行音频流切换的流程示意图；

图4是本发明一示例性实施例提供的适用于在线视频的多路实时解说智能化实现装置的结构示意图；

图5是本发明一示例性实施例提供的电子设备的结构。

具体实施方式

下面，将参考附图详细地描述根据本发明的示例实施例。显然，所描述的实施例仅仅是本发明的一部分实施例，而不是本发明的全部实施例，应理解，本发明不受这里描述的示例实施例的限制。

应注意到：除非另外具体说明，否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。

本领域技术人员可以理解，本发明实施例中的“第一”、“第二”等术语仅用于区别不同步骤、设备或模块等，既不代表任何特定技术含义，也不表示它们之间的必然逻辑顺序。

还应理解，在本发明实施例中，“多个”可以指两个或两个以上，“至少一个”可以指一个、两个或两个以上。

还应理解，对于本发明实施例中提及的任一部件、数据或结构，在没有明确限定或者在前后文给出相反启示的情况下，一般可以理解为一个或多个。

另外，本发明中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本发明中字符“/”，一般表示前后关联对象是一种“或”的关系。

还应理解，本发明对各个实施例的描述着重强调各个实施例之间的不同之处，其相同或相似之处可以相互参考，为了简洁，不再一一赘述。

同时，应当明白，为了便于描述，附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。

以下对至少一个示例性实施例的描述实际上仅仅是说明性的，决不作为对本发明及其应用或使用的任何限制。

对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论，但在适当情况下，技术、方法和设备应当被视为说明书的一部分。

应注意到：相似的标号和字母在下面的附图中表示类似项，因此，一旦某一项在一个附图中被定义，则在随后的附图中不需要对其进行进一步讨论。

本发明实施例可以应用于通信终端、计算机系统、服务器等电子设备，其可与众多其它通用或专用计算系统环境或配置一起操作。适于与通信终端、计算机系统、服务器等电子设备一起使用的众所周知的通信终端、计算系统、环境和/或配置的例子包括但不限于：个人计算机系统、服务器计算机系统、瘦客户机、厚客户机、手持或膝上设备、基于微处理器的系统、机顶盒、可编程消费电子产品、网络个人电脑、小型计算机系统﹑大型计算机系统和包括上述任何系统的分布式云计算技术环境，等等。

通信终端、计算机系统、服务器等电子设备可以在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般语境下描述。通常，程序模块可以包括例程、程序、目标程序、组件、逻辑、数据结构等等，它们执行特定的任务或者实现特定的抽象数据类型。计算机系统/服务器可以在分布式云计算环境中实施，分布式云计算环境中，任务是由通过通信网络链接的远程处理设备执行的。在分布式云计算环境中，程序模块可以位于包括存储设备的本地或远程计算系统存储介质上。

示例性方法

图1是本发明一示例性实施例提供的适用于在线视频的多路实时解说智能化实现方法的一个流程示意图。如图1所示，适用于在线视频的多路实时解说智能化实现方法包括以下步骤：

步骤S101：获取多路实时解说音频，其中所述多路实时解说音频为多个解说员针对同一个目标在线视频进行实时解说产生的音频；

在本发明实施例中，通过增加音频输入功能和录音功能，各个解说员可以在在线解说音频录制端针对同一个目标在线视频进行实时解说。具体为，如图2所示，在用户登录状态下，向授权用户（现场解说员A1~An）开放混音模块，在试音检测通过后点击录制将调起录音程序开启同步收音，然后从直播源获取预监画面并播放，此时解说员A1、A2、An针对该预监画面，均可以通过音频输入功能输入相应的实时解说音频，在线解说音频录制端通过录音程序收集多路实时解说音频，在采集音频时根据在线视频播放器播放的视频时间戳来记录音频的时间戳信息。通过这种方式，可以实现在线视频播放器的An路（n＞1）解说配音，为后续可以自由选择感兴趣的实时音频解说提供数据支撑。

步骤S102：将所述目标在线视频分别与每路实时解说音频进行声画智能同步处理，生成带有声画同步信息的多路实时解说音频，并将所述目标在线视频和所述带有声画同步信息的多路实时解说音频一同存储至预设的缓冲节点；

在本发明实施例中，如图3所示，可以通过声画智能同步处理模块，将采集到的多路实时解说音频分别于直播源的目标在线视频进行声画智能同步处理，生成带有声画同步信息的多路实时解说音频。通过将目标在线视频和带有声画同步信息的多路实时解说音频作为一份文件，存储至预设的缓冲节点，有效降低了存储成本。

在本发明实施例中，在进行声画智能同步处理之前，可以按照预设的降噪处理技术，去除每路实时解说音频中的噪声信号。具体为，基于频域信号处理思想，将解说音频信号转为频域信号，然后利用滤波器将噪声信号从频域信号中去除。通过这种方式，可以提升各路实时解说音频的质量。

进一步的，所述将所述目标在线视频分别与每路实时解说音频进行声画智能同步处理，包括：将每路实时解说音频按照预设时间间隔分为若干个音频单元；将所述目标在线视频按照所述预设时间间隔分为若干个视频单元；将各个音频单元输入预设的卷积神经网络，确定各个音频单元的音频特征；将各个视频单元输入预设的卷积神经网络，确定各个视频单元的视频特征；将各个音频单元的音频特征以及与各个音频单元分别对应的视频单元的视频特征一同输入至预设的循环神经网络，确定各个音频单元与各个视频单元之间的时间偏移量和同步信息。

在本发明实施例中，可以使用音频分帧技术将每路实时解说音频按照一定时间间隔分为若干个小块，每个小块称为一个音频单元。在实时音视频传输中，通过将音频单元和视频单元严格对应，实现声画智能同步，观众能够在观看视频的同时听到对应的音频。我国的国家标准采用每秒视频25帧画面，在这里将音频单元定义为1/25秒，即间隔40毫秒为一个单元。每个音频单元的大小相对较小，因此可以降低带宽的要求，同时也能够有效降低网络延迟，提高音视频传输的实时性，避免音视频同步问题导致的视频质量下降。因为音频和视频是严格对应的，不会出现声画不同步的情况，从而提高了用户的观看体验。

进一步地，以当前视频单元画面作为起始时间码信息，在声画智能同步模块对齐视频单元和音频单元，保证声画同步，将此音频合成信息存储在离该用户最近的CND节点服务器，并标记为原直播流的A1路音频，同时实时回传中心源站服务器。

在本发明实施例中，可以通过AI技术来实现音频和视频的自动对齐。每路实时解说音频与目标在线视频的自动对齐需要解决两个问题：每路实时解说音频与目标在线视频之间的时间偏移量和音视频之间的同步问题。具体包括以下各个步骤：

1）对于每个音频已分组的单元数据，将其表示为频谱图，并将其输入到卷积神经网络（CNN）中进行处理。卷积神经网络（CNN）可以提取出不同的特征，例如频率、音量、音色等。

2）对于与前述音频相对应的单元视频数据，可以将其表示为一系列图像帧，并将其输入到卷积神经网络（CNN）中进行处理。卷积神经网络（CNN）可以提取出不同的特征，例如颜色、对比度、亮度、形状等。经过卷积神经网络（CNN）处理后，可以得到音频和视频的多维特征向量，这些特征向量可以用于后续的分类、识别、检索等任务。

3）使用循环神经网络（RNN）来建立音视频之间的映射关系。将音频和视频特征向量分别输入到两个不同的循环神经网络（RNN）中，并将它们的输出结果进行融合，得到音视频之间的时间偏移量和时间戳、帧率、采样率等同步信息。

4）将得到的时间偏移量和同步信息应用于音视频同步调整中，例如调整播放速度，以实现音视频之间的精确同步等。

进一步地，为了提高每路实时解说音频与目标在线视频的自动对齐的准确性，将数据进行预处理。具体为，对每路实时解说音频与目标在线视频，需要进行去噪、降噪、增益等处理，以提高数据质量。在使用卷积神经网络（CNN）进行特征提取时，需要选择合适的特征提取器，并进行优化。在使用循环神经网络（RNN）进行模型训练时，需要考虑训练数据集的规模、数据样本的多样性以及模型的参数设置等因素。

步骤S103：在播放所述目标在线视频时，响应于用户的音频流切换操作，从所述带有声画同步信息的多路实时解说音频中选择对应的目标实时解说音频，并向所述缓冲节点获取所述目标实时解说音频后播放。

在本发明实施例中，为用户提供音频流切换功能，用户可以根据自己的喜好选择对应声道的实时音频解说，当用户进行音频流切换时，缓冲节点只需要传输对应的某一路实时解说音频，有效减少了带宽资源的消耗。从而本发明保证了在线视频播放器不仅支持对路实时音频解说，其用户也可以根据需求自由切换音频解说，同时有效减少了存储以及带宽资源的消耗。

进一步的，预先在所述在线视频播放器中配置音频流切换组件；并且响应于用户的音频流切换操作之前，该方法还包括：获取用户的使用信息，并根据所述使用信息确定所述用户的用户画像；基于所述用户画像，从所述多路实时解说音频中确定多个候选实时解说音频；响应于所述用户对所述音频流切换组件的触发操作，向所述用户展示所述多个候选实时解说音频。

在本发明实施例中，在线视频播放器配置有音频流切换组件（音频流切换按钮），在用户选择声道的时候可以实现不同声道之间的自由切换。在具体应用场景下，用户在播放端点击选取A1路音频，解码后经过播放控制处理模块，仅调取A1路音频并与原视频画面保持同步，如图3所示。如果因网络问题遇到画面或声音卡顿，按照画面优先原则，根据读取到的画面信息匹配相应的音频，始终保持声音与画面的同步。如果A1路配音故障，无声音信号时间超过3秒（可在程序中设定），将自动切换回原始音频A0路。

在本发明实施例中，未避免用户选择障碍，该使用信息例如但不限于为用户的个人信息、浏览信息、收藏信息、评论信息等，基于该使用信息可以分析出用户所喜好的解说风格或者解说类型等偏好信息。然后，根据所述使用信息确定用户的用户画像，并基于所述用户画像，从所述多路实时解说音频中确定多个候选实时解说音频。最后，响应于所述用户对所述音频流切换组件的触发操作，向所述用户展示所述多个候选实时解说音频，通过这种方式，实现了实时解说音频的智能推荐，有效提高了用户的使用体验。

进一步的，所述向所述用户展示所述多个候选实时解说音频，包括：根据预设的推荐显示算法，确定所述多个候选实时解说音频的排序；按照所述多个候选实时解说音频的排序，向用户展示所述多个候选实时解说音频。

在本发明实施例中，声道的推荐显示由算法控制，按加权值高低展示。算法的控制变量有“1分钟及以上收听人数”、“点赞人数”、“推荐指数”、“新鲜度”、“评分”、“偏好”、“地域”等，不同指标有相应的权重，每一路配有实时对应的加权值，决定推荐结果，即决定多个候选实时解说音频的排序，之后按照排序进行智能推荐。此外，推荐显示支持定时自动刷新。

综上所述，本发明通过在线视频播放器接入实时音频配音并支持自由切换声道的技术，解决了传统在线视频播放器不能支持实时音频配音并且无法自由切换声道的问题，用户可以根据自己的需求选择喜欢的声道，提高了在线视频播放器的用户体验。同时，节省存储空间，本发明的技术方案简单、易于实现，具有广泛的应用前景。

示例性装置

图4是本发明一示例性实施例提供的适用于在线视频的多路实时解说智能化实现装置400的结构示意图。如图4所示，该装置包括：

音频获取模块410，用于获取多路实时解说音频，其中所述多路实时解说音频为多个解说员针对同一个目标在线视频进行实时解说产生的音频；

声画智能同步模块420，用于将所述目标在线视频分别与每路实时解说音频进行声画智能同步处理，生成带有声画同步信息的多路实时解说音频，并将所述目标在线视频和所述带有声画同步信息的多路实时解说音频一同存储至预设的缓冲节点；

解说音频切换模块430，用于在播放所述目标在线视频时，响应于用户的音频流切换操作，从所述带有声画同步信息的多路实时解说音频中选择对应的目标实时解说音频，并向所述缓冲节点获取所述目标实时解说音频后播放。

进一步的，该装置400还包括：降噪处理模块，用于按照预设的降噪处理技术，去除每路实时解说音频中的噪声信号。

进一步的，所述声画智能同步模块420，具体用于：

本发明的实施例的适用于在线视频的多路实时解说智能化实现装置与本发明的另一个实施例的适用于在线视频的多路实时解说智能化实现方法相对应，在此不再赘述。

示例性电子设备

图5是本发明一示例性实施例提供的电子设备的结构。如图5所示，电子设备50包括一个或多个处理器51和存储器52。

处理器51可以是中央处理单元（CPU）或者具有数据处理能力和/或指令执行能力的其他形式的处理单元，并且可以控制电子设备中的其他组件以执行期望的功能。

存储器52可以包括一个或多个计算机程序产品，所述计算机程序产品可以包括各种形式的计算机可读存储介质，例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器（RAM）和/或高速缓冲存储器（cache）等。所述非易失性存储器例如可以包括只读存储器（ROM）、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令，处理器51可以运行所述程序指令，以实现上文所述的本发明的各个实施例的软件程序的方法以及/或者其他期望的功能。在一个示例中，电子设备还可以包括：输入装置53和输出装置54，这些组件通过总线系统和/或其他形式的连接机构（未示出）互连。

此外，该输入装置53还可以包括例如键盘、鼠标等等。

该输出装置54可以向外部输出各种信息。该输出装置54可以包括例如显示器、扬声器、打印机、以及通信网络及其所连接的远程输出设备等等。

当然，为了简化，图5中仅示出了该电子设备中与本发明有关的组件中的一些，省略了诸如总线、输入/输出接口等等的组件。除此之外，根据具体应用情况，电子设备还可以包括任何其他适当的组件。

示例性计算机程序产品和计算机可读存储介质

除了上述方法和设备以外，本发明的实施例还可以是计算机程序产品，其包括计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。

所述计算机程序产品可以以一种或多种程序设计语言的任意组合来编写用于执行本发明实施例操作的程序代码，所述程序设计语言包括面向对象的程序设计语言，诸如Java、C++等，还包括常规的过程式程序设计语言，诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。

此外，本发明的实施例还可以是计算机可读存储介质，其上存储有计算机程序指令，所述计算机程序指令在被处理器运行时使得所述处理器执行本说明书上述“示例性方法”部分中描述的根据本发明各种实施例的方法中的步骤。

所述计算机可读存储介质可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以包括但不限于电、磁、光、电磁、红外线、或半导体的系统、系统或器件，或者任意以上的组合。可读存储介质的更具体的例子（非穷举的列表）包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器（RAM）、只读存储器（ROM）、可擦式可编程只读存储器（EPROM或闪存）、光纤、便携式紧凑盘只读存储器（CD-ROM）、光存储器件、磁存储器件、或者上述的任意合适的组合。

以上结合具体实施例描述了本发明的基本原理，但是，需要指出的是，在本发明中提及的优点、优势、效果等仅是示例而非限制，不能认为这些优点、优势、效果等是本发明的各个实施例必须具备的。另外，上述公开的具体细节仅是为了示例的作用和便于理解的作用，而非限制，上述细节并不限制本发明为必须采用上述具体的细节来实现。

本说明书中各个实施例均采用递进的方式描述，每个实施例重点说明的都是与其它实施例的不同之处，各个实施例之间相同或相似的部分相互参见即可。对于系统实施例而言，由于其与方法实施例基本对应，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本发明中涉及的器件、系统、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的，可以按任意方式连接、布置、配置这些器件、系统、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇，指“包括但不限于”，且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”，且可与其互换使用，除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”，且可与其互换使用。

可能以许多方式来实现本发明的方法和系统。例如，可通过软件、硬件、固件或者软件、硬件、固件的任何组合来实现本发明的方法和系统。用于所述方法的步骤的上述顺序仅是为了进行说明，本发明的方法的步骤不限于以上具体描述的顺序，除非以其它方式特别说明。此外，在一些实施例中，还可将本发明实施为记录在记录介质中的程序，这些程序包括用于实现根据本发明的方法的机器可读指令。因而，本发明还覆盖存储用于执行根据本发明的方法的程序的记录介质。

还需要指出的是，在本发明的系统、设备和方法中，各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本发明的等效方案。提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本发明。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的，并且在此定义的一般原理可以应用于其他方面而不脱离本发明的范围。因此，本发明不意图被限制到在此示出的方面，而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外，此描述不意图将本发明的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例，但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims

1.一种适用于在线视频的多路实时解说智能化实现方法，其特征在于，包括：

在线视频播放器获取多路实时解说音频，其中所述多路实时解说音频为多个解说员针对同一个目标在线视频进行实时解说产生的音频，其中所述在线视频播放器包括音频输入功能和录音功能，预先在所述在线视频播放器中配置音频流切换组件；

所述在线视频播放器将所述目标在线视频分别与每路实时解说音频进行声画智能同步处理，生成带有声画同步信息的多路实时解说音频，并将所述目标在线视频和所述带有同步信息的多路实时解说音频作为一份文件一同存储至预设的缓冲节点；

所述在线视频播放器在播放所述目标在线视频时，响应于用户基于音频流切换组件产生的音频流切换操作，从所述带有同步信息的多路实时解说音频中选择对应的目标实时解说音频，并向所述缓冲节点获取所述目标实时解说音频后播放；并且

所述将所述目标在线视频分别与每路实时解说音频进行声画智能同步处理，包括：

将各个音频单元表示为频谱图，输入预设的卷积神经网络，确定各个音频单元的音频特征，其中所述音频特征包括频率、音量和音色；

将各个视频单元表示为一系列图像帧，输入预设的卷积神经网络，确定各个视频单元的视频特征，其中所述视频特征包括颜色、对比度、亮度和形状；

将各个音频单元的音频特征以及与各个音频单元分别对应的视频单元的视频特征一同输入至预设的循环神经网络，确定各个音频单元与各个视频单元之间的时间偏移量和同步信息，其中所述同步信息包括时间戳、帧率和采样率；

将所述时间偏移量和所述同步信息应用于音视频同步调整中，以实现音视频之间的精确同步。

2.根据权利要求1所述的方法，其特征在于，所述将所述目标在线视频分别与每路实时解说音频进行声画智能同步处理之前，还包括：按照预设的降噪处理技术，去除每路实时解说音频中的噪声信号。

3.根据权利要求1所述的方法，其特征在于，预先在所述在线视频播放器中配置音频流切换组件；并且响应于用户的音频流切换操作之前，还包括：

4.根据权利要求3所述的方法，其特征在于，所述向所述用户展示所述多个候选实时解说音频，包括：

5.一种适用于在线视频的多路实时解说智能化实现装置，其特征在于，包括：

音频获取模块，用于获取多路实时解说音频，其中所述多路实时解说音频为多个解说员针对同一个目标在线视频进行实时解说产生的音频，其中所述在线视频播放器包括音频输入功能和录音功能，预先在在线视频播放器中配置音频流切换组件；

声画智能同步模块，用于将所述目标在线视频分别与每路实时解说音频进行声画智能同步处理，生成带有声画同步信息的多路实时解说音频，并将所述目标在线视频和所述带有同步信息的多路实时解说音频作为一份文件一同存储至预设的缓冲节点；

解说音频切换模块，用于在播放所述目标在线视频时，响应于用户基于音频流切换组件产生的音频流切换操作，从所述带有同步信息的多路实时解说音频中选择对应的目标实时解说音频，并向所述缓冲节点获取所述目标实时解说音频后播放；并且

所述声画智能同步模块，具体用于：

6.根据权利要求5所述的装置，其特征在于，还包括：降噪处理模块，用于按照预设的降噪处理技术，去除每路实时解说音频中的噪声信号。

7.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序用于执行上述权利要求1-4任一所述的方法。

8.一种电子设备，其特征在于，所述电子设备包括：

处理器；

用于存储所述处理器可执行指令的存储器；

所述处理器，用于从所述存储器中读取所述可执行指令，并执行所述可执行指令以实现上述权利要求1-4任一所述的方法。