CN114885187B

CN114885187B - 一种在线教育直播回放方法和系统

Info

Publication number: CN114885187B
Application number: CN202210716485.9A
Authority: CN
Inventors: 朱立平; 黄琛
Original assignee: Shenzhen Biti Education Technology Co ltd
Current assignee: Shenzhen Biti Education Technology Co ltd
Priority date: 2022-06-23
Filing date: 2022-06-23
Publication date: 2023-08-08
Anticipated expiration: 2042-06-23
Also published as: CN114885187A

Abstract

本申请公开了一种在线教育直播回放方法和系统，该方法包括：确定讲师在直播过程中做出了预定行为；记录讲师做出预定行为的第一时间，查找预定行为对应的指令；在对直播进行录制结束之后生成视频文件；在视频文件的时间轴中查找第一时间对应的时间点，在查找到的时间点增加预定行为对应的指令的指令标记；在回放增加指令标记后的视频文件回放到具有指令标记的时间点时，根据指令标记所对应的指令进行播放控制。通过本申请解决了现有技术中对讲师在直播时进行的影响直播回放的操作需要人工来进行记录和标识所导致效率低的问题，能够根据讲师在直播过程中做出的预定行为自动在回放中增加指令标记来对回放进行控制，提高了视频回放的编辑效率。

Description

一种在线教育直播回放方法和系统

技术领域

本申请涉及到直播领域，具体而言，涉及一种在线教育直播回放方法和系统。

背景技术

随着直播技术的快速发展，用户越来越多通过网络观看各种直播节目。但是，由于直播的特殊性，用户一旦错过直播的时间点，就无法再进行回看，只能等到直播完之后以回放方式来进行观看。

在在线教育的直播过程中，讲师需要进行相应的操作，例如讲师停留几分钟的时间来等到学习者完成相应的任务，又例如，讲师需要播放另一段视频等等。这些操作均会在时间轴上打破直播录制后的视频文件的完整性，因此，对于这种情况的出现，需要进行直播的工作人员与讲师来进行配合，记录讲师进行相应操作的时间，然后在后期对视频文件进行编辑的时候根据工作人员人工记录下的时间点进行剪辑操作。这种需要人工配合进行相应时间点记录，效率比较低而且容易出现错误。

发明内容

本申请实施例提供了一种在线教育直播回放方法和系统，以至少解决现有技术中对讲师在直播时进行的影响直播回放的操作需要人工来进行记录和标识所导致效率低容易出错的问题。

根据本申请的一个方面，提供了一种在线教育直播回放方法，包括：在直播过程中确定已经启动在后台对直播进行录制；确定讲师在直播过程中做出了预定行为，其中，所述预定行为是预先约定好的行为；记录所述讲师做出所述预定行为的第一时间，并且查找所述预定行为对应的指令；在对所述直播进行录制结束之后，生成视频文件，其中，所述视频文件是对所述直播录制后得到的视频文件；在所述视频文件的时间轴中查找所述第一时间对应的时间点，在查找到的时间点增加所述预定行为对应的指令的指令标记，其中，所述指令标记用于对所述视频文件的回放进行控制；在回放增加指令标记后的视频文件时，回放到具有指令标记的时间点时，根据所述指令标记所对应的指令进行播放控制。

进一步地，确定讲师在直播过程中做出了预定行为包括：对所述讲师在直播过程中的语音进行提取，确定所述讲师说出了预先配置的关键词或者关键句；在确定所述讲师说出了所述关键词或者关键句之后，对所述讲师做出的动作进行识别；在识别出所述讲师做出预先配置的多个动作中的之一时，确定所述讲师在直播过程中做出了预定行为。

进一步地，对所述讲师在直播过程中的语音进行提取确定所述讲师说出了预先配置的关键词包括：将所述讲师在直播过程中录制下来的语音输入到第一机器学习模型中，其中，所述第一机器学习模型是使用多组第一训练数据训练得到的，每组第一训练数据均包括一段语音和该语音对应的文本；从所述第一机器学习模型中获取所述第一机器学习模型输出的文本；从所述文本中查找是否存在所述预先配置的关键词或关键句以确定所述讲师是否说出了预先配置的关键词或关键句。

进一步地，对所述讲师做出的动作进行识别包括：在确定所述讲师说出了所述关键词或关键句之后，从直播录制得到的视频文件中复制出预定时长的第一视频，其中，所述第一视频的起点是识别出所述关键词或关键句的时间点，所述第一视频的时长为预定时长，所述预定时长为预先配置的；从所述第一视频中提取关键帧，判断提取得到的关键帧中是否包括预先配置的多个动作中的至少之一，以对所述讲师做出的动作进行识别。

进一步地，判断所述关键帧中是否包括预先配置的多个动作中的至少之一包括：将所述关键帧作为图像输入到第二机器学习模型中，其中，所述第二机器学习模型是使用多组第二训练数据训练得到的，每组所述第二训练数据均包括输入数据和输出数据，该输入数据是带有人物动作的第一图片和带有标准动作的第二图片，输出数据为用于标识所述第一图片中的动作是否为所述标准动作的标签信息；所述标准动作为所述预先配置的多个动作中的之一；获取所述第二机器学习模型输出的标签信息；根据所述标签信息确定所述关键帧中是否包括所述预先配置的多个动作中的至少之一。

根据本申请的另一个方面，还提供了一种在线教育直播回放系统，包括：第一确定模块，用于在直播过程中确定已经启动在后台对直播进行录制；第二确定模块，用于确定讲师在直播过程中做出了预定行为，其中，所述预定行为是预先约定好的行为；查找模块，用于记录所述讲师做出所述预定行为的第一时间，并且查找所述预定行为对应的指令；生成模块，用于在对所述直播进行录制结束之后，生成视频文件，其中，所述视频文件是对所述直播录制后得到的视频文件；增加模块，用于在所述视频文件的时间轴中查找所述第一时间对应的时间点，在查找到的时间点增加所述预定行为对应的指令的指令标记，其中，所述指令标记用于对所述视频文件的回放进行控制；控制模块，用于在回放增加指令标记后的视频文件时，回放到具有指令标记的时间点时，根据所述指令标记所对应的指令进行播放控制。

进一步地，所述第二确定模块用于：对所述讲师在直播过程中的语音进行提取，确定所述讲师说出了预先配置的关键词或者关键句；在确定所述讲师说出了所述关键词或者关键句之后，对所述讲师做出的动作进行识别；在识别出所述讲师做出预先配置的多个动作中的之一时，确定所述讲师在直播过程中做出了预定行为。

进一步地，所述第二确定模块用于：将所述讲师在直播过程中录制下来的语音输入到第一机器学习模型中，其中，所述第一机器学习模型是使用多组第一训练数据训练得到的，每组第一训练数据均包括一段语音和该语音对应的文本；从所述第一机器学习模型中获取所述第一机器学习模型输出的文本；从所述文本中查找是否存在所述预先配置的关键词或关键句以确定所述讲师是否说出了预先配置的关键词或关键句。

进一步地，所述第二确定模块用于：在确定所述讲师说出了所述关键词或关键句之后，从直播录制得到的视频文件中复制出预定时长的第一视频，其中，所述第一视频的起点是识别出所述关键词或关键句的时间点，所述第一视频的时长为预定时长，所述预定时长为预先配置的；从所述第一视频中提取关键帧，判断提取得到的关键帧中是否包括预先配置的多个动作中的至少之一，以对所述讲师做出的动作进行识别。

进一步地，所述第二确定模块用于：将所述关键帧作为图像输入到第二机器学习模型中，其中，所述第二机器学习模型是使用多组第二训练数据训练得到的，每组所述第二训练数据均包括输入数据和输出数据，该输入数据是带有人物动作的第一图片和带有标准动作的第二图片，输出数据为用于标识所述第一图片中的动作是否为所述标准动作的标签信息；所述标准动作为所述预先配置的多个动作中的之一；获取所述第二机器学习模型输出的标签信息；根据所述标签信息确定所述关键帧中是否包括所述预先配置的多个动作中的至少之一。

在本申请实施例中，采用了在直播过程中确定已经启动在后台对直播进行录制；确定讲师在直播过程中做出了预定行为，其中，所述预定行为是预先约定好的行为；记录所述讲师做出所述预定行为的第一时间，并且查找所述预定行为对应的指令；在对所述直播进行录制结束之后，生成视频文件，其中，所述视频文件是对所述直播录制后得到的视频文件；在所述视频文件的时间轴中查找所述第一时间对应的时间点，在查找到的时间点增加所述预定行为对应的指令的指令标记，其中，所述指令标记用于对所述视频文件的回放进行控制；在回放增加指令标记后的视频文件时，回放到具有指令标记的时间点时，根据所述指令标记所对应的指令进行播放控制。通过本申请解决了现有技术中对讲师在直播时进行的影响直播回放的操作需要人工来进行记录和标识所导致效率低容易出错的问题，从而能够根据讲师在直播过程中做出的预定行为自动在回放中增加指令标记来对回放进行控制，提高了视频回放的编辑效率。

附图说明

构成本申请的一部分的附图用来提供对本申请的进一步理解，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1是根据本申请实施例的在线教育直播回放方法的流程图。

具体实施方式

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

在本实施例中提供了一种在线教育直播回放方法，图1是根据本申请实施例的在线教育直播回放方法的流程图，如图1所示，该流程包括如下步骤：

步骤S102，在直播过程中确定已经启动在后台对直播进行录制；

步骤S104，确定讲师在直播过程中做出了预定行为，其中，所述预定行为是预先约定好的行为；

步骤S106，记录所述讲师做出所述预定行为的第一时间，并且查找所述预定行为对应的指令；

步骤S108，在对所述直播进行录制结束之后，生成视频文件，其中，所述视频文件是对所述直播录制后得到的视频文件；

步骤S110，在所述视频文件的时间轴中查找所述第一时间对应的时间点，在查找到的时间点增加所述预定行为对应的指令的指令标记，其中，所述指令标记用于对所述视频文件的回放进行控制；

步骤S112，在回放增加指令标记后的视频文件时，回放到具有指令标记的时间点时，根据所述指令标记所对应的指令进行播放控制。

作为一个可选的实施方式，所述指令包括第一指令，其中，所述第一指令用于指示暂停播放当前回放的视频文件，调用另一个视频文件进行播放；在确定所述讲师在直播过程中做出对应与所述第一指令的行为之后，获取所述讲师调用的另一视频文件；将所述另一视频文件进行保存在视频回放服务器中，其中，所述视频回放服务器上用于保存回放的视频文件；获取所述另一视频文件在所述视频回放服务器中的存储地址；在所述第一指令中增加所述存储地址，在回放到具有所述第一指令的指标标记的时间点时，暂停回放录制的视频文件，根据所述存储地址调用所述另一视频文件，并播放所述另一视频文件，在所述另一视频文件播放完毕之后，继续回放录制的所述视频文件。

在另一个可选的实施方式中，还可以在进行第一次回放时，对回放过程进行录制得到第三视频文件，所述第三视频文件对回放增加指令标记后的视频文件进行录制得到的文件；将所述第三视频文件保存在所述视频回放服务器中；在接收到回放请求时，获取所述回放请求的IP地址并保存该IP地址，判断来自所述IP地址的所述回放请求为第几次回放，在不是第一次回放的情况下，从所述视频回放服务器中获取所述第三视频文件，并使用所述第三视频文件进行回放。

为了确保直播录制视频的完整性，在对所述直播进行录制结束之后，生成视频文件之后，对视频文件进行复制得到第一视频文件和第二视频文件，其中，所述第一视频文件和第二视频文件内容相同；对第二视频文件进行保存作为原始文件；对第一视频文件查找所述第一时间对应的时间点，在查找到的时间点增加所述预定行为对应的指令的指令标记，其中，所述指令标记用于对所述视频文件的回放进行控制；在进行回访的界面提供选择回放第一视频文件或者选择回放第二视频文件，在选择回放所述第一视频文件时，回放到具有指令标记的时间点时，根据所述指令标记所对应的指令进行播放控制；在选择回放所述第二视频文件时，对所述第二视频文件进行完整回放。通过这种处理方式可以得到两种回放效果，让观看回放的用户来进行选择。

作为另一个可选的实施方式，还可以对增加指令标记后的第一视频文件的时长进行校验。在该可选实施方式中，获取所述第一视频文件中的所有指令标记所对应的所有指令，判断所述所有指令均被执行的情况下，回放所述第一视频文件所需要的总的第一时长；获取所述第二视频文件总的播放时长，将所述第二视频文件中的播放时长作为第二时长；比较所述第一时长和所述第二时长的长短，在所述第一时长大于所述第二时长的情况下，将在所述第一视频文件中增加的所有的指令以及每个指令对应的回放控制内容显示给用户，以供用户进行校对。

通过上述步骤，解决了现有技术中对讲师在直播时进行的影响直播回放的操作需要人工来进行记录和标识所导致效率低容易出错的问题，从而能够根据讲师在直播过程中做出的预定行为自动在回放中增加指令标记来对回放进行控制，提高了视频回放的编辑效率。

为了更加准确的识别讲师是否做出了预定行为，可以从语音和动作两个方面在进行识别，即可选地，确定讲师在直播过程中做出了预定行为可以包括：对所述讲师在直播过程中的语音进行提取，确定所述讲师说出了预先配置的关键词或者关键句；在确定所述讲师说出了所述关键词或者关键句之后，对所述讲师做出的动作进行识别；在识别出所述讲师做出预先配置的多个动作中的之一时，确定所述讲师在直播过程中做出了预定行为。

判断语音中是否包括关键词或关键句的方式有很多种，在本实施例中，采用了机器学习的方式来进行，即对所述讲师在直播过程中的语音进行提取确定所述讲师说出了预先配置的关键词包括：将所述讲师在直播过程中录制下来的语音输入到第一机器学习模型中，其中，所述第一机器学习模型是使用多组第一训练数据训练得到的，每组第一训练数据均包括一段语音和该语音对应的文本；从所述第一机器学习模型中获取所述第一机器学习模型输出的文本；从所述文本中查找是否存在所述预先配置的关键词或关键句以确定所述讲师是否说出了预先配置的关键词或关键句。

为了保证语音转文本的正确率，在本实施例中还采用了一种文本纠错的方式，在该方式中，使用了拼音作为特征的中文语音识别后的文本神经网络纠错模型，该方式包括如下步骤：

步骤一、收集中文语音，构建中文语音识别文本纠错平行语料库，将收集的中文语音转化为文本，然后对文本进行纠错，将每条原文本和经过纠错后得到的相应文本组成句子对，将得到的句子对构成训练数据集；

步骤二、将训练数据集中的句子对转化为拼音，通过词嵌入方法将其编码为拼音向量；

步骤三、构建包括词向量编码、位置编码和拼音编码三部分的神经网络输入特征；

步骤四、构建深度卷积的编码器解码器神经网络，使用编码器对步骤三得到的神经网络输入特征进行编码，使用解码器对当前待解码文本中的待解码词序列使用乘性注意力机制解码得到相应的预测词和当前待解码词的概率，提前设定阈值，若此概率大于预设定的阈值，则使用预测词，否则，使用原输入序列中对应的词代替，得到最终纠错后的中文语音文本。

例如，在上述步骤一中：收集中文语音，然后通过开源语音识别工具ASRT把语音转化为文本，通过人工干预纠错方法对转化后得到的每条文本逐条进行纠错，得到经过纠错后的文本，并将经过纠错后的文本作为神经网络的训练标签，每条原文本和经过人工干预纠错后得到的文本组成句子对，构成训练集。

在上述步骤二中：使用pypinyin工具包将训练数据集中的句子对转化为拼音，然后通过one-hot对拼音编码进行编码，将其向量化后作为拼音向量。

在上述步骤三中：本模型的输入特征包括1)词向量编码，2)位置编码，3)拼音编码；词向量编码的过程为：在大规模中文对话数据集上通过word2vec开源工具训练得到词向量，词向量作为网络初始化的词向量编码随着网络训练而更新；位置编码是指词在一句话中的绝对位置；网络最终的输入特征是词向量编码、拼音编码和位置编码三者经过拼接后得到的向量。

在本实施例中也可以采用如下语音识别后的文本标准化处理方法，该方法包括如下步骤：

根据badcase模块中采集的反馈的语音转文本出现的错误，在badcase模块中设定文本转换匹配规则集合；将语音识别后的待标准化的纯语言文本输入至所述badcase模块，若所述纯语言文本中的至少一个词语命中所述集合中的匹配规则时，将所述至少一个词语进行缓存，并逆文本标记后输出；将badcase模块输出的文本中的逆文本标记的至少一个字符替换为对应数量的特殊符号，得到第一处理文本，所述特殊符号选自神经网络模型无法转换的符号；将所述第一处理文本输入至二分类神经网络模型，输出0/1标签序列并确定模型能够转换所述第一处理文本的置信度，其中，0代表不转换字符，1代表转换字符；当所述置信度大于等于预设阈值时，将所述标签序列输入至第一规则集合中进行匹配，将标签1对应的字符进行文本标准化转换，得到第二处理文本；当所述置信度小于预设阈值时，将所述第一处理文本输入到第二规则集合中进行匹配，对所述纯语言文本进行文本标准化转换，得到第二处理文本，其中，所述第一规则集合中的规则数量少于所述第二规则集合中的规则数量；利用缓存的至少一个词语对所述第二处理文本中的特殊符号进行替换，确定所述纯语言文本的文本标准化结果。

可选地，在上述步骤中，所述将标签1对应的字符进行文本标准化转换包括：将所述标签1对应的文本数字字符转化为阿拉伯数字字符。所述纯语言文本至少包括：无阿拉伯数字字符的纯中文文本、无阿拉伯数字字符的纯英文文本，无阿拉伯数字字符的中英文混合文本。

可选地，在所述确定所述纯语言文本的文本标准化结果之后，所述方法还包括：当接收到反馈的错误时，提取所述错误对应的新匹配规则，将所述新匹配规则存储至所述文本转换匹配规则集合，以对所述文本转换匹配规则集合更新。所述输出0/1标签序列包括：当模型输出的概率值大于预设标签阈值时，所述字符标签为1，反之标签为0；所述输出0/1标签序列并确定模型能够转换所述第一处理文本的置信度包括：确定所述第一处理文本中各个字符能够被转换的概率；基于所述各个字符能够被转换的概率的均值，确定所述第一处理文本的置信度。

上述两种方式均可以应用到本实施例中的语音转文本中来，以得到更加准确的文本信息。

为了不影响录制的正常进行，在本实施例中采用了将录制视频进行复制之后再进行动作识别的方式，在该可选的方式中对所述讲师做出的动作进行识别包括：在确定所述讲师说出了所述关键词或关键句之后，从直播录制得到的视频文件中复制出预定时长的第一视频，其中，所述第一视频的起点是识别出所述关键词或关键句的时间点，所述第一视频的时长为预定时长，所述预定时长为预先配置的；从所述第一视频中提取关键帧，判断提取得到的关键帧中是否包括预先配置的多个动作中的至少之一，以对所述讲师做出的动作进行识别。

对动作的识别也可以采用机器学习的方式来进行，在该可选方式中判断所述关键帧中是否包括预先配置的多个动作中的至少之一可以包括：将所述关键帧作为图像输入到第二机器学习模型中，其中，所述第二机器学习模型是使用多组第二训练数据训练得到的，每组所述第二训练数据均包括输入数据和输出数据，该输入数据是带有人物动作的第一图片和带有标准动作的第二图片，输出数据为用于标识所述第一图片中的动作是否为所述标准动作的标签信息；所述标准动作为所述预先配置的多个动作中的之一；获取所述第二机器学习模型输出的标签信息；根据所述标签信息确定所述关键帧中是否包括所述预先配置的多个动作中的至少之一。

在本实施例中，通过服务器提供的课程指令集选择开启，所述课程指令集由直播录制中的各个指令动作组成，此时服务端将指令对应视频信息显示于浏览器中，当确定视频信息后服务器调出对应回放视频在浏览器中播放。

在本实施例中，提供一种电子装置，包括存储器和处理器，存储器中存储有计算机程序，处理器被设置为运行计算机程序以执行以上实施例中的方法。

上述程序可以运行在处理器中，或者也可以存储在存储器中（或称为计算机可读介质），计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括，但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带，磁带磁盘存储或其他磁性存储设备或任何其他非传输介质，可用于存储可以被计算设备访问的信息。按照本文中的界定，计算机可读介质不包括暂存电脑可读媒体(transitory media)，如调制的数据信号和载波。

这些计算机程序也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和／或方框图一个方框或多个方框中指定的功能的步骤，对应与不同的步骤可以通过不同的模块来实现。

该本实施例中就提供了这样的一种装置或系统。该系统被称为在线教育直播回放系统，包括：第一确定模块，用于在直播过程中确定已经启动在后台对直播进行录制；第二确定模块，用于确定讲师在直播过程中做出了预定行为，其中，所述预定行为是预先约定好的行为；查找模块，用于记录所述讲师做出所述预定行为的第一时间，并且查找所述预定行为对应的指令；生成模块，用于在对所述直播进行录制结束之后，生成视频文件，其中，所述视频文件是对所述直播录制后得到的视频文件；增加模块，用于在所述视频文件的时间轴中查找所述第一时间对应的时间点，在查找到的时间点增加所述预定行为对应的指令的指令标记，其中，所述指令标记用于对所述视频文件的回放进行控制；控制模块，用于在回放增加指令标记后的视频文件时，回放到具有指令标记的时间点时，根据所述指令标记所对应的指令进行播放控制。

该系统或者装置用于实现上述的实施例中的方法的功能，该系统或者装置中的每个模块与方法中的每个步骤相对应，已经在方法中进行过说明的，在此不再赘述。

例如，所述第二确定模块用于：对所述讲师在直播过程中的语音进行提取，确定所述讲师说出了预先配置的关键词或者关键句；在确定所述讲师说出了所述关键词或者关键句之后，对所述讲师做出的动作进行识别；在识别出所述讲师做出预先配置的多个动作中的之一时，确定所述讲师在直播过程中做出了预定行为。

又例如，所述第二确定模块用于：将所述讲师在直播过程中录制下来的语音输入到第一机器学习模型中，其中，所述第一机器学习模型是使用多组第一训练数据训练得到的，每组第一训练数据均包括一段语音和该语音对应的文本；从所述第一机器学习模型中获取所述第一机器学习模型输出的文本；从所述文本中查找是否存在所述预先配置的关键词或关键句以确定所述讲师是否说出了预先配置的关键词或关键句。

又例如，所述第二确定模块用于：在确定所述讲师说出了所述关键词或关键句之后，从直播录制得到的视频文件中复制出预定时长的第一视频，其中，所述第一视频的起点是识别出所述关键词或关键句的时间点，所述第一视频的时长为预定时长，所述预定时长为预先配置的；从所述第一视频中提取关键帧，判断提取得到的关键帧中是否包括预先配置的多个动作中的至少之一，以对所述讲师做出的动作进行识别。

又例如，所述第二确定模块用于：将所述关键帧作为图像输入到第二机器学习模型中，其中，所述第二机器学习模型是使用多组第二训练数据训练得到的，每组所述第二训练数据均包括输入数据和输出数据，该输入数据是带有人物动作的第一图片和带有标准动作的第二图片，输出数据为用于标识所述第一图片中的动作是否为所述标准动作的标签信息；所述标准动作为所述预先配置的多个动作中的之一；获取所述第二机器学习模型输出的标签信息；根据所述标签信息确定所述关键帧中是否包括所述预先配置的多个动作中的至少之一。

为了确保直播录制视频的完整性，在对所述直播进行录制结束之后，生成视频文件之后，所述系统还用于对视频文件进行复制得到第一视频文件和第二视频文件，其中，所述第一视频文件和第二视频文件内容相同；对第二视频文件进行保存作为原始文件；对第一视频文件查找所述第一时间对应的时间点，在查找到的时间点增加所述预定行为对应的指令的指令标记，其中，所述指令标记用于对所述视频文件的回放进行控制；在进行回访的界面提供选择回放第一视频文件或者选择回放第二视频文件，在选择回放所述第一视频文件时，回放到具有指令标记的时间点时，根据所述指令标记所对应的指令进行播放控制；在选择回放所述第二视频文件时，对所述第二视频文件进行完整回放。通过这种处理方式可以得到两种回放效果，让观看回放的用户来进行选择。

作为另一个可选的实施方式，所述系统还包括校验模块，用于对增加指令标记后的第一视频文件的时长进行校验，其中，获取所述第一视频文件中的所有指令标记所对应的所有指令，判断所述所有指令均被执行的情况下，回放所述第一视频文件所需要的总的第一时长；获取所述第二视频文件总的播放时长，将所述第二视频文件中的播放时长作为第二时长；比较所述第一时长和所述第二时长的长短，在所述第一时长大于所述第二时长的情况下，将在所述第一视频文件中增加的所有的指令以及每个指令对应的回放控制内容显示给用户，以供用户进行校对。

作为一个可选的实施方式，所述控制模块还用于在进行第一次回放时，对回放过程进行录制得到第三视频文件，所述第三视频文件对回放增加指令标记后的视频文件进行录制得到的文件；将所述第三视频文件保存在所述视频回放服务器中；在接收到回放请求时，获取所述回放请求的IP地址并保存该IP地址，判断来自所述IP地址的所述回放请求为第几次回放，在不是第一次回放的情况下，从所述视频回放服务器中获取所述第三视频文件，并使用所述第三视频文件进行回放。

通过上述实施例解决了现有技术中对讲师在直播时进行的影响直播回放的操作需要人工来进行记录和标识所导致效率低容易出错的问题，从而能够根据讲师在直播过程中做出的预定行为自动在回放中增加指令标记来对回放进行控制，提高了视频回放的编辑效率。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

Claims

1.一种在线教育直播回放方法，其特征在于，包括：

在直播过程中确定已经启动在后台对直播进行录制；

确定讲师在直播过程中做出了预定行为，其中，所述预定行为是预先约定好的行为；

记录所述讲师做出所述预定行为的第一时间，并且查找所述预定行为对应的指令；

在对所述直播进行录制结束之后，生成视频文件，其中，所述视频文件是对所述直播录制后得到的视频文件；

在所述视频文件的时间轴中查找所述第一时间对应的时间点，在查找到的时间点增加所述预定行为对应的指令的指令标记，其中，所述指令标记用于对所述视频文件的回放进行控制；所述指令包括第一指令，其中，所述第一指令用于指示暂停播放当前回放的视频文件，调用另一个视频文件进行播放；在确定所述讲师在直播过程中做出对应与所述第一指令的行为之后，获取所述讲师调用的另一视频文件；将所述另一视频文件进行保存在视频回放服务器中，其中，所述视频回放服务器上用于保存回放的视频文件；获取所述另一视频文件在所述视频回放服务器中的存储地址；在所述第一指令中增加所述存储地址，在回放到具有所述第一指令的指标标记的时间点时，暂停回放录制的视频文件，根据所述存储地址调用所述另一视频文件，并播放所述另一视频文件，在所述另一视频文件播放完毕之后，继续回放录制的所述视频文件；在进行第一次回放时，对回放过程进行录制得到第三视频文件，所述第三视频文件对回放增加指令标记后的视频文件进行录制得到的文件；将所述第三视频文件保存在所述视频回放服务器中；在接收到回放请求时，获取所述回放请求的IP地址并保存该IP地址，判断来自所述IP地址的所述回放请求为第几次回放，在不是第一次回放的情况下，从所述视频回放服务器中获取所述第三视频文件，并使用所述第三视频文件进行回放；在对所述直播进行录制结束之后，生成视频文件之后，对视频文件进行复制得到第一视频文件和第二视频文件，其中，所述第一视频文件和第二视频文件内容相同；对第二视频文件进行保存作为原始文件；对第一视频文件查找所述第一时间对应的时间点，在查找到的时间点增加所述预定行为对应的指令的指令标记，其中，所述指令标记用于对所述视频文件的回放进行控制；在进行回访的界面提供选择回放第一视频文件或者选择回放第二视频文件，在选择回放所述第一视频文件时，回放到具有指令标记的时间点时，根据所述指令标记所对应的指令进行播放控制；在选择回放所述第二视频文件时，对所述第二视频文件进行完整回放；

在回放增加指令标记后的视频文件时，回放到具有指令标记的时间点时，根据所述指令标记所对应的指令进行播放控制。

2.根据权利要求1所述的方法，其特征在于，确定讲师在直播过程中做出了预定行为包括：

对所述讲师在直播过程中的语音进行提取，确定所述讲师说出了预先配置的关键词或者关键句；

在确定所述讲师说出了所述关键词或者关键句之后，对所述讲师做出的动作进行识别；

在识别出所述讲师做出预先配置的多个动作中的之一时，确定所述讲师在直播过程中做出了预定行为。

3.根据权利要求2所述的方法，其特征在于，对所述讲师在直播过程中的语音进行提取确定所述讲师说出了预先配置的关键词包括：

将所述讲师在直播过程中录制下来的语音输入到第一机器学习模型中，其中，所述第一机器模型是使用多组第一训练数据训练得到的，每组第一训练数据均包括一段语音和该语音对应的文本；

从所述第一机器学习模型中获取所述第一机器学习模型输出的文本；

从所述文本中查找是否存在所述预先配置的关键词或关键句以确定所述讲师是否说出了预先配置的关键词或关键句。

4.根据权利要求2所述的方法，其特征在于，对所述讲师做出的动作进行识别包括：

在确定所述讲师说出了所述关键词或关键句之后，从直播录制得到的视频文件中复制出预定时长的第一视频，其中，所述第一视频的起点是识别出所述关键词或关键句的时间点，所述第一视频的时长为预定时长，所述预定时长为预先配置的；

从所述第一视频中提取关键帧，判断提取得到的关键帧中是否包括预先配置的多个动作中的至少之一，以对所述讲师做出的动作进行识别。

5.根据权利要求4所述的方法，其特征在于，判断所述关键帧中是否包括预先配置的多个动作中的至少之一包括：

将所述关键帧作为图像输入到第二机器学习模型中，其中，所述第二机器学习模型是使用多组第二训练数据训练得到的，每组所述第二训练数据均包括输入数据和输出数据，该输入数据是带有人物动作的第一图片和带有标准动作的第二图片，输出数据为用于标识所述第一图片中的动作是否为所述标准动作的标签信息；所述标准动作为所述预先配置的多个动作中的之一；

获取所述第二机器学习模型输出的标签信息；

根据所述标签信息确定所述关键帧中是否包括所述预先配置的多个动作中的至少之一。

6.一种在线教育直播回放系统，其特征在于，包括：

第一确定模块，用于在直播过程中确定已经启动在后台对直播进行录制；

第二确定模块，用于确定讲师在直播过程中做出了预定行为，其中，所述预定行为是预先约定好的行为；

查找模块，用于记录所述讲师做出所述预定行为的第一时间，并且查找所述预定行为对应的指令；

生成模块，用于在对所述直播进行录制结束之后，生成视频文件，其中，所述视频文件是对所述直播录制后得到的视频文件；

增加模块，用于在所述视频文件的时间轴中查找所述第一时间对应的时间点，在查找到的时间点增加所述预定行为对应的指令的指令标记，其中，所述指令标记用于对所述视频文件的回放进行控制；所述指令包括第一指令，其中，所述第一指令用于指示暂停播放当前回放的视频文件，调用另一个视频文件进行播放；在确定所述讲师在直播过程中做出对应与所述第一指令的行为之后，获取所述讲师调用的另一视频文件；将所述另一视频文件进行保存在视频回放服务器中，其中，所述视频回放服务器上用于保存回放的视频文件；获取所述另一视频文件在所述视频回放服务器中的存储地址；在所述第一指令中增加所述存储地址，在回放到具有所述第一指令的指标标记的时间点时，暂停回放录制的视频文件，根据所述存储地址调用所述另一视频文件，并播放所述另一视频文件，在所述另一视频文件播放完毕之后，继续回放录制的所述视频文件；在进行第一次回放时，对回放过程进行录制得到第三视频文件，所述第三视频文件对回放增加指令标记后的视频文件进行录制得到的文件；将所述第三视频文件保存在所述视频回放服务器中；在接收到回放请求时，获取所述回放请求的IP地址并保存该IP地址，判断来自所述IP地址的所述回放请求为第几次回放，在不是第一次回放的情况下，从所述视频回放服务器中获取所述第三视频文件，并使用所述第三视频文件进行回放；在对所述直播进行录制结束之后，生成视频文件之后，对视频文件进行复制得到第一视频文件和第二视频文件，其中，所述第一视频文件和第二视频文件内容相同；对第二视频文件进行保存作为原始文件；对第一视频文件查找所述第一时间对应的时间点，在查找到的时间点增加所述预定行为对应的指令的指令标记，其中，所述指令标记用于对所述视频文件的回放进行控制；在进行回访的界面提供选择回放第一视频文件或者选择回放第二视频文件，在选择回放所述第一视频文件时，回放到具有指令标记的时间点时，根据所述指令标记所对应的指令进行播放控制；在选择回放所述第二视频文件时，对所述第二视频文件进行完整回放；

控制模块，用于在回放增加指令标记后的视频文件时，回放到具有指令标记的时间点时，根据所述指令标记所对应的指令进行播放控制。

7.根据权利要求6所述的系统，其特征在于，所述第二确定模块用于：

8.根据权利要求7所述的系统，其特征在于，所述第二确定模块用于：

9.根据权利要求7所述的系统，其特征在于，所述第二确定模块用于：

10.根据权利要求9所述的系统，其特征在于，所述第二确定模块用于：

获取所述第二机器学习模型输出的标签信息；