CN112235517A

CN112235517A - 旁白添加方法、旁白添加装置及存储介质

Info

Publication number: CN112235517A
Application number: CN202011052217.9A
Authority: CN
Inventors: 崔志
Original assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Current assignee: Beijing Xiaomi Pinecone Electronic Co Ltd
Priority date: 2020-09-29
Filing date: 2020-09-29
Publication date: 2021-01-15
Anticipated expiration: 2040-09-29
Also published as: CN112235517B

Abstract

本公开是关于一种旁白添加方法、旁白添加装置及存储介质。旁白添加方法包括：获取视频流，并实时抽取所述视频流中包括的视频帧图像；将实时抽取到的视频帧图像输入预设对象检测模型，通过所述对象检测模型检测所述视频帧图像中存在的对象；将所述各对象的对象向量输入预设的旁白生成模型，以生成所述视频帧图像的旁白；将生成的旁白关联至所述视频帧图像中。通过本公开，可智能地生成表达视频帧图像所传递情感的旁白，提升旁白制作效率，提升用户对视频的观赏体验。

Description

旁白添加方法、旁白添加装置及存储介质

技术领域

本公开涉及图像处理技术领域，尤其涉及旁白添加方法、旁白添加装置及存储介质。

背景技术

随着终端技术的发展，人们已越来越习惯通过终端拍摄视频，以记录生活中的点滴。

为了增加拍摄视频的趣味性以及增加对拍摄视频主题的情感表达，在拍摄视频后，用户往往需要利用第三方软件将用户手动编辑好的文本插入到视频中，使得用户可以随时获取到视频对应的情感表达信息，提高视频的显示效果。

然而，当用户拍摄有多个视频，用户对拍摄的多个视频逐个编辑文本，并将编辑后的文本与拍摄视频合成时，操作繁琐，旁白制作效率低下。

发明内容

为克服相关技术中存在的问题，本公开提供一种旁白添加方法、旁白添加装置及存储介质。

根据本公开实施例的第一方面，提供一种旁白添加方法，旁白添加方法包括：获取视频流，并实时抽取所述视频流中包括的视频帧图像；将实时抽取到的视频帧图像输入预设对象检测模型，通过所述对象检测模型检测所述视频帧图像中存在的对象；将所述各对象的对象向量输入预设的旁白生成模型，以生成所述视频帧图像的旁白；将生成的旁白关联至所述视频帧图像中。

在一示例中，所述旁白生成模型采用如下方式训练得到：收集视频样本文件以及与视频样本文件对应的旁白文件；根据旁白文件中的时间戳信息，截取与旁白同一时间的视频帧图像，得到视频帧图像样本；将同一时间的视频帧图像样本和旁白相关联，得到与视频帧图像样本关联的旁白；将视频帧图像样本输入所述对象检测模型，根据所述对象检测模型检测得到的视频帧图像样本中对象的对象向量；将视频帧图像样本、与视频帧图像样本关联的旁白，以及视频帧图像样本中对象的对象向量作为第一数据集，通过所述第一数据集，训练得到所述旁白生成模型。

在一示例中，通过所述第一数据集，训练得到所述旁白生成模型，包括：将所述视频帧图像样本中对象的对象向量输入序列到序列模型，通过所述序列到序列模型，对所述视频帧图像样本中对象的对象向量进行预测，得到预测旁白；基于损失函数调节所述序列到序列模型，直到通过所述序列到序列模型预测的旁白与所述视频帧图像样本关联的旁白达到预设相似度，得到满足损失值的旁白生成模型。

在一示例中，所述对象检测模型采用如下方式训练得到：调用第二数据集，所述第二数据集包括图像样本以及图像样本中对象所处的位置区域；基于所述第二数据集，训练得到所述对象检测模型。

根据本公开实施例的第二方面，提供一种旁白添加装置，所述旁白添加装置包括：获取单元，被配置为获取视频流，并实时抽取所述视频流中包括的视频帧图像；检测单元，被配置为将实时抽取到的视频帧图像输入预设对象检测模型，通过所述对象检测模型检测所述视频帧图像中存在的对象；生成单元，被配置为将所述各对象的对象向量输入预设的旁白生成模型，以生成所述视频帧图像的旁白；关联单元，被配置为将生成的旁白关联至所述视频帧图像中。

在一示例中，所述装置还包括训练单元；所述训练单元采用如下方式训练得到旁白生成模型：收集视频样本文件以及与视频样本文件对应的旁白文件；根据旁白文件中的时间戳信息，截取与旁白同一时间的视频帧图像，得到视频帧图像样本；将同一时间的视频帧图像样本和旁白相关联，得到与视频帧图像样本关联的旁白；将视频帧图像样本输入所述对象检测模型，根据所述对象检测模型检测得到的视频帧图像样本中对象的对象向量；将视频帧图像样本、与视频帧图像样本关联的旁白，以及视频帧图像样本中对象的对象向量作为第一数据集，通过所述第一数据集，训练得到所述旁白生成模型。

在一示例中，所述训练单元采用如下方式通过所述第一数据集，训练得到所述旁白生成模型：将所述视频帧图像样本中对象的对象向量输入序列到序列模型，通过所述序列到序列模型，对所述视频帧图像样本中对象的对象向量进行预测，得到预测的旁白；基于损失函数调节所述序列到序列模型，直到通过所述序列到序列模型预测的旁白与所述视频帧图像样本关联的旁白达到预设相似度，得到满足损失值的旁白生成模型。

在一示例中，所述训练单元采用如下方式训练得到所述对象检测模型：调用第二数据集，所述第二数据集包括图像样本以及图像样本中对象所处的位置区域；基于所述第二数据集，训练得到所述对象检测模型。

根据本公开的第三方面，提供了一种旁白添加装置，旁白添加装置包括：存储器，配置用于存储指令。以及处理器，配置用于调用指令执行前述第一方面或者第一方面中任意一示例中的旁白添加方法。

根据本公开的第四方面，提供了一种非临时性计算机可读存储介质，非临时性计算机可读存储介质存储有计算机可执行指令，计算机可执行指令在由处理器执行时，执行前述第一方面或者第一方面中任意一示例中的旁白添加方法。

本公开的实施例提供的技术方案可以包括以下有益效果：旁白添加的服务器中可存储有用于检测图像中对象的对象检测模型，以及存储有用于生成旁白的旁白生成模型。当旁白添加的服务器获取到视频流，旁白添加的服务器可实时抽取视频流中包括的视频帧图像，并将实时抽取到的视频帧图像输入对象检测模型，通过所述对象检测模型检测所述视频帧图像中存在的对象。在对象检测模型检测到视频帧图像中存在的对象后，旁白添加的服务器将所述各对象的对象向量输入预设的旁白生成模型，旁白生成模型可根据输入的视频帧图像中各对象的对象向量，智能地生成表达视频帧图像所传递情感的旁白，提升旁白制作效率，提升用户对视频的观赏体验。

应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本公开。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分，示出了符合本公开的实施例，并与说明书一起用于解释本公开的原理。

图1是根据一示例性实施例示出的一种旁白添加方法的流程图。

图2是根据一示例性实施例示出的训练对象检测模型的流程图。

图3是根据一示例性实施例示出的训练旁白生成模型的流程图。

图4是根据一示例性实施例示出的一种旁白添加装置的框图。

图5是根据一示例性实施例示出的一种装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。

本公开的示例性实施例的技术方案可以应用于对视频添加旁白的应用场景。在以下描述的示例性实施例中，对视频添加旁白的装置可以是用于旁白添加的服务器，用于旁白添加的服务器可以是独立的应用服务设备，也可以是由多个服务器构成的服务集群，实际应用中，其可以是云服务器、云主机、虚拟中心等，本公开对该服务器的结构及其实现形式不作限定。

为了增加拍摄视频的趣味性和增加对视频主题的情感表达，用户可对拍摄视频进行后期制作，例如用户可根据视频内容创作该视频的旁白，并将创作好的旁白和视频进行合成。

相关技术中，当用户拍摄有多个视频，且用户需对视频添加旁白时，用户需对多个视频逐一创作旁白，再利用第三方软件将创作好的旁白逐一添加至视频中，用户操作繁琐，旁白制作效率低下。

本公开实施例，提供一种旁白添加方法。在本公开的旁白添加方法中，旁白添加的服务器中可存储有用于检测图像中对象的对象检测模型，以及存储有用于生成旁白的旁白生成模型。当旁白添加的服务器获取到视频流，旁白添加的服务器可实时抽取视频流中包括的视频帧图像，并将实时抽取到的视频帧图像输入对象检测模型，通过所述对象检测模型检测所述视频帧图像中存在的对象。在对象检测模型检测到视频帧图像中存在的对象后，旁白添加的服务器将所述各对象的对象向量输入预设的旁白生成模型，旁白生成模型可根据输入的视频帧图像中各对象的对象向量，智能地生成表达视频帧图像所传递情感的旁白，提升旁白制作效率，提升用户对视频的观赏体验。

图1是根据一示例性实施例示出的一种旁白添加方法的流程图，如图1所示，旁白添加方法，包括以下步骤。

在步骤S11中，获取视频流，并实时抽取视频流中包括的视频帧图像。

本公开中，旁白添加的服务器在获取到视频流后，可实时抽取视频流中包括的视频帧图像。

在步骤S12中，将实时抽取到的视频帧图像输入预设对象检测模型，通过对象检测模型检测视频帧图像中存在的对象。

本公开中预设的对象检测模型可以是根据输入的图像，对图像中存在的对象进行检测，在检测到图像中存在对象后，例如可将图像中存在对象的位置区域进行标记，以表征在图像中检测到存在的对象，并输出标记对象位置区域后的图像。本公开中涉及的对象可以是视频帧图像中可能存在的任何物体以及人。

本公开中，在旁白添加的服务器获取到视频流，并实时抽取视频流中包括的视频帧图像后，可将实时抽取到的视频帧图像输入预设对象检测模型，通过对象检测模型例如将视频帧图像中存在对象的位置区域进行标记，以表征在视频帧图像中检测到存在的对象。

在对象检测模型检测到视频帧图像中存在的对象后，为了能够根据视频帧图像中的对象的图像，预测得到与对象的图像匹配的旁白，本公开可针对检测到的各个对象，分别确定各对象的对象向量，进而根据提取的各对象的对象向量，对各对象的对象向量所表征的图像特征进行预测，得到与图像向量匹配的旁白。

其中，确定各对象的对象向量时，可在对象检测模型检测到各个对象后，基于对象检测模型为各对象所处位置区域构建的多层隐藏层向量，分别抽取最后的隐藏层向量，得到各个对象的对象向量。

在步骤S13中，将各对象的对象向量输入预设的旁白生成模型，以生成视频帧图像的旁白。

本公开中的旁白生成模型，可根据输入的图像向量，对图像向量所表征的图像特征进行预测，并根据预测的图像特征，输出与图像向量匹配的旁白。旁白生成模型例如可基于翻译(transformer)模型或者序列到序列(sequence to sequence，seq2seq)模型训练得到。

本公开中通过旁白生成模型生成的旁白例如可以包括用于表达视频帧图像所传递情感的旁白内容。

一种实施方式中，旁白添加的服务器在抽取到视频帧图像中各对象向量后，可将各对象的对象向量输入预设的旁白生成模型，通过旁白生成模型对各对象向量所表征的图像特征进行预测，并根据预测的图像特征，输出与图像向量匹配的旁白。

在步骤S14中，将生成的旁白关联至视频帧图像中。

本公开中，利用旁白生成模型生成视频帧图像的旁白后，旁白添加的服务器可将旁白与视频帧进行关联，并将旁白与视频帧图像封装在一起，以使得图像与旁白一起存储并且图像与旁白一起传输。故此，在将旁白与视频帧图像相关联之后，在将传输视频帧图像时，与视频帧图像对应的旁白同步传输，以使得接收到该视频帧图像的终端设备可以同步获取到该旁白。在显示图像时，可以将旁白与图像同步显示。

在实际应用中，旁白可以预先配置显示状态，例如，显示状态包括隐藏状态以及显示状态；那么当旁白处于显示状态时，旁白可以与视频帧图像同步显示。而当旁白处于隐藏状态时，在显示视频帧图像时可以不显示旁白。

例如，旁白添加的服务器实时抽取视频流中包括的视频帧图像，抽取得到对象包括“桃花”的视频帧图像，“桃花”位于视频帧图像的中间位置区域，将包括“桃花”的视频帧图像输入对象检测模型，通过对象检测模型检测到视频帧图像的中间位置区域存在的对象，即将视频帧图像的中间位置区域存在桃花的位置区域用方框进行标记后，旁白添加的服务器可根据对象检测模型针对桃花所处位置区域构建的多层隐藏层向量，抽取最后一层隐藏层向量，得到桃花图像的向量。旁白添加的服务器将包括桃花图像的向量输入旁白生成模型，旁白生成模型根据输入的桃花图像的向量，生成“春天来了，又到了万物复苏的季节”的旁白，并将该旁白添加至该视频帧图像并输出。

在本公开的示例性实施例中，旁白添加的服务器中可存储有用于检测图像中对象的对象检测模型，以及存储有用于生成旁白的旁白生成模型。当旁白添加的服务器获取到视频流，旁白添加的服务器可实时抽取视频流中包括的视频帧图像，并将实时抽取到的视频帧图像输入对象检测模型，通过所述对象检测模型检测所述视频帧图像中存在的对象。在对象检测模型检测到视频帧图像中存在的对象后，旁白添加的服务器将所述各对象的对象向量输入预设的旁白生成模型，旁白生成模型可根据输入的视频帧图像中各对象的对象向量，自动生成表达视频帧图像所传递情感的旁白，进而旁白添加的服务器根据旁白生成模型生成的旁白，将生成的旁白关联至视频帧图像中，可提升旁白制作效率，提升用户对视频的观赏体验。

本公开中，利用对象检测模型检测所述视频帧图像中存在的对象之前，还可以包括训练对象检测模型和旁白生成模型。

图2是根据一示例性实施例示出的训练对象检测模型的流程图，如图2所示，训练对象检测模型，包括以下步骤。

在步骤S21中，调用第二数据集，第二数据集包括图像样本以及图像样本中对象所处的位置区域。

为了使训练后的对象检测模型可以准确识别到图像中存在的对象，一种实施方式中，本公开可预先调用训练对象检测模型的数据集，通过该数据集训练得到对象检测模型。其中，例如可将第二数据集中70％的数据作为训练数据集训练对象检测模型，第二数据集中30％的数据作为测试数据集验证对象检测模型。

其中，训练对象检测模型的数据集例如可通过如下方式确定：

获取大量的图像，并对图像中包括的对象根据对象所在位置区域标记出来，例如用方框将图像中对象框起来。进而得到包括图像以及图像中对象所处的位置区域的数据集。

本公开为区别训练对象检测模型和旁白生成模型的数据，将用于训练对象检测模型的数据集称为第二数据集。

在步骤S22中，训练对象检测模型，并对对象检测模型进行优化。

一种实施方式中，将训练数据集输入到对象检测模型，对象检测模型例如可以是ResNet神经网络或者VGG神经网络，通过ResNet神经网络或者VGG神经网络，检测训练数据中存在对象所处的位置区域，输出预测后标记第一图像样本中存在对象所处的位置区域的图像。通过ResNet神经网络或者VGG神经网络输出预测后标记第一图像样本中存在对象所处的位置区域的图像之后，基于损失函数调节ResNet神经网络或者VGG神经网络的参数，优化ResNet神经网络或者VGG神经网络，使得从ResNet神经网络或者VGG神经网络输出的对象所处的位置区域与训练样本数据集中对象所处的位置区域达到预设相似度时，得到训练好的ResNet神经网络或者VGG神经网络，即得到训练好的对象检测模型。

得到训练好的对象检测模型后，将测试数据集输入对象检测模型进行验证，在验证数据集全部通过验证后，将通过验证的对象检测模型用于实际应用中。

在步骤S23中，将测试数据集输入到训练好的对象检测模型中进行验证，得到验证好的对象检测模型。

在本公开的示例性实施例中，通过预先获取由图像和图像样本中对象所处的位置区域组成的训练数据集，训练得到的对象检测模型可根据输出的视频帧图像，可准确检测到视频帧图像中的对象，进而根据准确检测到的视频帧图像中的对象，使得旁白生成模型可根据表征对象特征的对象向量，生成能够准确表达视频帧图像所传递情感的旁白，丰富用户对视频的观赏体验，增加视频的趣味性。

图3是根据一示例性实施例示出的训练旁白生成模型的流程图，如图3所示，训练旁白生成模型，包括以下步骤。

在步骤S31中，收集视频样本文件以及与视频样本文件对应的旁白文件。

为了使训练得到的旁白生成模型可以根据视频帧图像生成能够贴切表达图像主题且文字优美的旁白，一种实施方式中，本公开例如可收集大量的纪录片以及与纪录片对应的字幕文件即旁白文件，旁白文件的格式可以是文本格式的字幕文件，例如可以是SRT格式的字幕文件。

在步骤S32中，根据旁白文件中的时间戳信息，截取与旁白同一时间的视频帧图像，得到视频帧图像样本，将同一时间的视频帧图像样本和旁白相关联，得到与视频帧图像样本关联的旁白。

在步骤S33中，将视频帧图像样本输入对象检测模型，根据对象检测模型检测得到的视频帧图像样本中对象的对象向量。

在步骤S34中，将视频帧图像样本、与视频帧图像样本关联的旁白，以及视频帧图像样本中对象的对象向量组成第一数据集。

本公开为区别训练对象检测模型的训练数据集，将训练旁白生成模型的数据集称为第一数据集。

将视频帧图像样本、与视频帧图像样本关联的旁白，以及视频帧图像样本中对象的对象向量作为第一数据集，通过第一数据集训练得到旁白生成模型。其中例如可将第一数据集中70％的数据作为训练数据集训练对象检测模型，第一数据集中30％的数据作为测试数据集验证对象检测模型。

在步骤S35中，训练旁白生成模型，并对旁白生成模型进行优化。

本公开中，旁白生成模型例如可由序列到序列模型即seq2seq模型或者翻译transformer模型训练得到。

由于seq2seq模型在跨模态翻译中能基于自然语言生成准确且自然到的文本。故，本公开以旁白生成模型为seq2seq模型，对通过第一数据集训练得到旁白生成模型为例进行说明：

其中，seq2seq模型中包括两个循环神经网络(recurrent neural network，RNN)，一个RNN为编码器，用于读取输入的序列，并提取输入的序列的特征，之后编码器将提取序列的特征发送给另一个RNN即解码器，解码器根据输入序列的特征，生成新的序列并输出。

进而，将视频帧图像样本中对象的对象向量输入seq2seq模型，通过seq2seq模型的编码器读取输入的对象向量并提取对对象向量的特征之后，编码器将提取的对象向量的特征发送到解码器，解码器根据对象向量的特征进行预测，生成新的序列，即得到预测的旁白。之后，基于损失函数调节序列到序列模型，直到通过seq2seq模型预测的旁白与视频帧图像样本关联的旁白达到预设相似度，得到满足损失值的旁白生成模型。得到训练好的旁白生成模型后，将测试数据集输入旁白生成模型进行验证，在验证数据集全部通过验证后，将通过验证的旁白生成模型用于实际应用中。

例如，旁白添加的服务器实时抽取视频流中包括的视频帧图像中包括大江大河，大江大河位于视频帧图像的中间位置区域，将包括大江大河的视频帧图像输入对象检测模型，通过对象检测模型检测到视频帧图像的中间位置区域存在的对象，即将视频帧图像的中间位置区域存在大江大河的位置区域用方框进行标记后，旁白添加的服务器可根据对象检测模型针对大江大河所处位置区域分别构建的多层隐藏层向量，抽取最后一层隐藏层向量，得到大江大河图像的向量。旁白添加的服务器将包括大江大河图像的向量输入旁白生成模型，旁白生成模型根据输入的大江大河图像的向量，生成“大江东去，浪淘尽，千古风流人物”的旁白，并将该旁白添加至该视频帧图像并输出。

在步骤S36中，将测试数据集输入到训练好的旁白模型中进行验证，得到验证好的旁白模型。

在本公开的示例性实施例中，通过收集大量的视频样本文件和与视频样本文件对应的旁白文件，基于视频样本文件和与视频样本文件对应的旁白文件，训练得到的旁白生成模型，可以根据视频帧图像生成能够贴切表达图像主题且文字优美的旁白，丰富用户对视频旁白的观赏体验。并且基于seq2seq模型训练得到的旁白生成模型，可以实现根据输入的图像向量，生成准确且自然表达图像的文本，提升用户对视频旁白制作的体验。

基于相同的构思，本公开实施例还提供一种旁白添加装置。

可以理解的是，本公开实施例提供的旁白添加装置为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。结合本公开实施例中所公开的各示例的单元及算法步骤，本公开实施例能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同的方法来实现所描述的功能，但是这种实现不应认为超出本公开实施例的技术方案的范围。

图4是根据一示例性实施例示出的一种旁白添加装置框图。参照图4，旁白添加装置400包括获取单元401、检测单元402、生成单元403和关联单元404。

其中，获取单元401，被配置为获取视频流，并实时抽取所述视频流中包括的视频帧图像；检测单元402，被配置为将实时抽取到的视频帧图像输入预设对象检测模型，通过所述对象检测模型检测所述视频帧图像中存在的对象；生成单元403，被配置为将所述各对象的对象向量输入预设的旁白生成模型，以生成所述视频帧图像的旁白；关联单元404，被配置为将生成的旁白关联至所述视频帧图像中。

在一示例中，所述装置还包括训练单元405；所述训练单元405采用如下方式训练得到旁白生成模型：收集视频样本文件以及与视频样本文件对应的旁白文件；根据旁白文件中的时间戳信息，截取与旁白同一时间的视频帧图像，得到视频帧图像样本；将同一时间的视频帧图像样本和旁白相关联，得到与视频帧图像样本关联的旁白；将视频帧图像样本输入所述对象检测模型，根据所述对象检测模型检测得到的视频帧图像样本中对象的对象向量；将视频帧图像样本、与视频帧图像样本关联的旁白，以及视频帧图像样本中对象的对象向量作为第一数据集，通过所述第一数据集，训练得到所述旁白生成模型。

在一示例中，所述训练单元405采用如下方式通过所述第一数据集，训练得到所述旁白生成模型：将所述视频帧图像样本中对象的对象向量输入序列到序列模型，通过所述序列到序列模型，对所述视频帧图像样本中对象的对象向量进行预测，得到预测的旁白；基于损失函数调节所述序列到序列模型，直到通过所述序列到序列模型预测的旁白与所述视频帧图像样本关联的旁白达到预设相似度，得到满足损失值的旁白生成模型。

在一示例中，所述训练单元405采用如下方式训练得到所述对象检测模型：调用第二数据集，所述第二数据集包括图像样本以及图像样本中对象所处的位置区域；基于所述第二数据集，训练得到所述对象检测模型。

关于上述实施例中的装置，其中各个模块执行操作的具体方式已经在有关该方法的实施例中进行了详细描述，此处将不做详细阐述说明。

图5是根据一示例性实施例示出的一种用于图文匹配的装置500的框图。例如，装置500可以被提供为一服务器。参照图5，装置500包括处理组件522，其进一步包括一个或多个处理器，以及由存储器532所代表的存储器资源，用于存储可由处理组件522的执行的指令，例如应用程序。存储器532中存储的应用程序可以包括一个或一个以上的每一个对应于一组指令的模块。此外，处理组件522被配置为执行指令，以执行上述图文匹配方法。

装置500还可以包括一个电源组件526被配置为执行装置500的电源管理，一个有线或无线网络接口550被配置为将装置500连接到网络，和一个输入输出(I/O)接口558。装置500可以操作基于存储在存储器532的操作系统，例如Windows ServerTM，Mac OS XTM，UnixTM,LinuxTM，FreeBSDTM或类似。

可以理解的是，本公开中“多个”是指两个或两个以上，其它量词与之类似。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。

进一步可以理解的是，术语“第一”、“第二”等用于描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开，并不表示特定的顺序或者重要程度。实际上，“第一”、“第二”等表述完全可以互换使用。例如，在不脱离本公开范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。

进一步可以理解的是，除非有特殊说明，“连接”包括两者之间不存在其他构件的直接连接，也包括两者之间存在其他元件的间接连接。

进一步可以理解的是，本公开实施例中尽管在附图中以特定的顺序描述操作，但是不应将其理解为要求按照所示的特定顺序或是串行顺序来执行这些操作，或是要求执行全部所示的操作以得到期望的结果。在特定环境中，多任务和并行处理可能是有利的。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本公开的其它实施方案。本申请旨在涵盖本公开的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本公开的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

Claims

1.一种旁白添加方法，其特征在于，所述方法包括：

获取视频流，并实时抽取所述视频流中包括的视频帧图像；

将实时抽取到的视频帧图像输入预设对象检测模型，通过所述对象检测模型检测所述视频帧图像中存在的对象；

将所述各对象的对象向量输入预设的旁白生成模型，以生成所述视频帧图像的旁白；

将生成的旁白关联至所述视频帧图像中。

2.根据权利要求1所述的旁白添加方法，其特征在于，所述旁白生成模型采用如下方式训练得到：

收集视频样本文件以及与视频样本文件对应的旁白文件；

根据旁白文件中的时间戳信息，截取与旁白同一时间的视频帧图像，得到视频帧图像样本；

将同一时间的视频帧图像样本和旁白相关联，得到与视频帧图像样本关联的旁白；

将视频帧图像样本输入所述对象检测模型，根据所述对象检测模型检测得到的视频帧图像样本中对象的对象向量；

将视频帧图像样本、与视频帧图像样本关联的旁白，以及视频帧图像样本中对象的对象向量作为第一训练数据集，通过所述第一训练数据集，训练得到所述旁白生成模型。

3.根据权利要求2所述的旁白添加方法，其特征在于，通过所述第一训练数据集训练得到所述旁白生成模型，包括：

将所述视频帧图像样本中对象的对象向量输入序列到序列模型，通过所述序列到序列模型，对所述视频帧图像样本中对象的对象向量进行预测，得到预测旁白；

基于损失函数调节所述序列到序列模型，直到通过所述序列到序列模型预测的旁白与所述视频帧图像样本关联的旁白达到预设相似度，得到满足损失值的旁白生成模型。

4.根据权利要求1所述的旁白添加方法，其特征在于，所述对象检测模型采用如下方式训练得到：

调用第二数据集，所述第二数据集包括图像样本以及图像样本中对象所处的位置区域；

基于所述第二数据集，训练得到所述对象检测模型。

5.一种旁白添加装置，其特征在于，所述装置包括：

获取单元，被配置为获取视频流，并实时抽取所述视频流中包括的视频帧图像；

检测单元，被配置为将实时抽取到的视频帧图像输入预设对象检测模型，通过所述对象检测模型检测所述视频帧图像中存在的对象；

生成单元，被配置为将所述各对象的对象向量输入预设的旁白生成模型，以生成所述视频帧图像的旁白；

关联单元，被配置为将生成的旁白关联至所述视频帧图像中。

6.根据权利要求5所述的旁白添加装置，其特征在于，所述装置还包括训练单元；

所述训练单元采用如下方式训练得到旁白生成模型：

收集视频样本文件以及与视频样本文件对应的旁白文件；

将视频帧图像样本、与视频帧图像样本关联的旁白，以及视频帧图像样本中对象的对象向量作为第一数据集，通过所述第一数据集，训练得到所述旁白生成模型。

7.根据权利要求6所述的旁白添加装置，其特征在于，所述训练单元采用如下方式通过所述第一数据集训练得到所述旁白生成模型：

8.根据权利要求5所述的旁白添加装置，其特征在于，所述装置还包括训练单元；

所述训练单元采用如下方式训练得到所述对象检测模型：

基于所述第二数据集，训练得到所述对象检测模型。

9.一种旁白添加装置，其特征在于，包括：

处理器；

用于存储处理器可执行指令的存储器；

其中，所述处理器被配置为：执行权利要求1-4中任一项所述的旁白添加方法。

10.一种非临时性计算机可读存储介质，当所述存储介质中的指令由移动终端的处理器执行时，使得移动终端能够执行权利要求1-4中任意一项所述的旁白添加方法。