CN111639233A

CN111639233A - 学习视频字幕添加方法、装置、终端设备和存储介质

Info

Publication number: CN111639233A
Application number: CN202010373994.7A
Authority: CN
Inventors: 曾乙峰
Original assignee: Guangdong Genius Technology Co Ltd
Current assignee: Guangdong Genius Technology Co Ltd
Priority date: 2020-05-06
Filing date: 2020-05-06
Publication date: 2020-09-08

Abstract

本申请实施例公开了一种学习视频字幕添加方法、装置、终端设备和存储介质，该方法包括：提取待处理视频中包括音频信号的各个目标待处理视频片段，各个所述目标待处理视频片段包括第一时间戳信息；针对每个目标待处理视频片段，将当前目标待处理片段中的各个所述音频信号识别为目标文本，并结合各个音频信号的第二时间戳信息组合各个所述目标文本，得到每个带字幕的目标视频片段；将各个所述带字幕的目标视频片段按照对应的第一时间戳信息进行显示。提高了字幕添加的速度和准确率，将该字幕添加方法应用到线上学习视频中，充分发挥线上视频学习的优势，学生通过观看学习视频对应的字幕，更好的跟上教师讲课进度，提高学生的理解能力和学习效率。

Description

学习视频字幕添加方法、装置、终端设备和存储介质

技术领域

本申请实施例涉及在线视频教学技术，尤其涉及一种学习视频字幕添加方法、装置、终端设备和存储介质。

背景技术

随着科技的进步和人们生活水平的提高，线上教学应用越来越广泛，与线下课堂相比，线上教学可以不受时间、地域等限制，可以实现教育资源共享。

在线上教学中，教师通常采取播放电子课件和口头授课结合的方式。相关技术中，由于音量大小或教师口型等因素，可能会出现学生不能及时听懂教学知识点的问题，这样可能降低线上教学的效率。另外，对于听力障碍的同学，也可能会出现由于不能及时听清或听懂教师的授课内容而造成的学习效率差的问题。

因此，现有的线上教学的功能比较单一，不仅不能充分发挥线上教学的优势，还可能降低学生的学习效率。

发明内容

本申请提供了一种学习视频字幕添加方法、装置、终端设备和存储介质，以解决现有技术中线上教学中学生学习效率低、知识掌握与理解差的问题。

本发明采用如下技术方案：

第一方面，本申请实施例提供了一种学习视频字幕添加方法，该方法包括：

提取待处理视频中包括音频信号的各个目标待处理视频片段，其中，各个所述目标待处理视频片段包括第一时间戳信息；

针对每个目标待处理视频片段，将当前目标待处理片段中的各个所述音频信号识别为目标文本，并结合各个音频信号的第二时间戳信息组合各个所述目标文本，得到每个带字幕的目标视频片段；

将各个所述带字幕的目标视频片段按照对应的第一时间戳信息进行显示。

第二方面，本申请实施例提供了一种学习视频字幕添加装置，该装置包括：

视频片段提取模块，用于提取待处理视频中包括音频信号的各个目标待处理视频片段，其中，各个所述目标待处理视频片段包括第一时间戳信息；

字幕添加模块，用于针对每个目标待处理视频片段，将当前目标待处理片段中的各个所述音频信号识别为目标文本，并结合各个音频信号的第二时间戳信息组合各个所述目标文本，得到每个带字幕的目标视频片段；

显示模块，用于将各个所述带字幕的目标视频片段按照对应的第一时间戳信息进行显示。

第三方面，本申请实施例提供了一种终端设备，包括存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如第一方面所述的学习视频字幕添加方法。

第四方面，本申请实施例提供了一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行如第一方面所述的学习视频字幕添加方法。

本发明采用的技术方案中有如下有益效果：通过提取待处理视频中包括音频信号的各个目标待处理视频片段，且各个目标待处理视频片段包括第一时间戳信息，这样无需对整个待处理视频进行语音识别，降低了数据处理量，提高了语音识别速度；针对每个目标待处理视频片段，将当前目标待处理片段中的各个音频信号识别为目标文本，并结合各个音频信号的第二时间戳信息组合各个目标文本，得到每个带字幕的目标视频片段，依次识别各个片段中的教师的音频，提高了字幕添加准确率；将各个带字幕的目标视频片段按照对应的第一时间戳信息进行显示。应用到线上学习视频中，在充分发挥线上视频学习优势的同时，学生通过观看学习视频对应的字幕，更好的跟上教师讲课进度，提高学生的理解能力和学习效率，提高了线上学习的体验感。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请实施例提供的一种学习视频字幕添加方法的流程图；

图2是本申请实施例中适用的一种添加字幕前的学习视频页面显示图；

图3是本申请实施例中适用的一种添加字幕后的学习视频页面显示图；

图4是本申请实施例提供的另一种学习视频字幕添加方法的流程图；

图5是本申请实施例提供的另一种学习视频字幕添加方法的流程图；

图6是本申请实施例提供的一种学习视频字幕添加装置的结构示意图；

图7是本申请实施例提供的一种终端设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚，下面结合附图对本申请具体实施例作进一步的详细描述。可以理解的是，此处所描述的具体实施例仅仅用于解释本申请，而非对本申请的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与本申请相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是，一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理，但是其中的许多操作可以被并行地、并发地或者同时实施。此外，各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止，但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。

首先对本申请实施例的可应用场景进行说明，比如学生在线观看学习视频的过程中，可以在观看显示屏幕上的学习课件或演示文稿的同时，在屏幕上将教师在学习视频中的语音转换为文字进行显示。该场景中的学习视频，通常为教师在直播间进行录制，屏幕上显示演示文稿，教师面对镜头讲课。

图1给出了本申请实施例提供的一种学习视频字幕添加的流程图，本实施例提供的学习视频字幕添加方法可以由学习视频字幕添加装置来执行，该学习视频字幕添加装置可通过硬件和/或软件的方式实现。参考图1，该方法具体可以包括：

S101、提取待处理视频中包括音频信号的各个目标待处理视频片段，其中，各个目标待处理视频片段包括第一时间戳信息。

具体的，待处理视频以时长两小时的人教版七年级下册的《社戏》的教学视频，其中，在整个待处理视频中，通常不会两个小时中都有教师录制的语音，比如在某个时间片段内，教师让学生们自己看演示文稿两分钟等。因此，在本申请实施例中，为了降低语音识别中的数据处理量，提高处理速度，可以不对整个待处理视频进行音频信号的识别，而是提取待处理视频中包括音频信号的部分，这样，就将待处理视频分成了多个视频片段，每个视频片段称为目标待处理视频片段。对应到实际的应用场景中，即为，只对待处理视频中有教师说话的视频部分进行语音识别。示例性的，各个目标待处理视频片段包括第一时间戳信息，也即，通过第一时间戳信息，可以确定某个目标待处理视频是处于整个待处理视频中的哪个部分，或者，位于哪个时间范围内。

S102、针对每个目标待处理视频片段，将当前目标待处理片段中的各个音频信号识别为目标文本，并结合各个音频信号的第二时间戳信息组合各个目标文本，得到每个带字幕的目标视频片段。

其中，ASR(Automatic Speech Recognition，自动语音识别)，是将人类的语音中的词汇内容转换为计算机可读的输入，例如按键、二进制编码或者字符序列。针对每个目标待处理视频片段，应用自动语音识别技术，将目标待处理片段中的各个音频信号识别为目标文本，这样，得到多个目标文本。另外，每个音频信号都含第二时间戳信息，以某一个目标待处理视频片段为例，该目标待处理视频片段可以包括多组音频信号，一组音频信号可以是一句话，具体可以根据相邻音频信号的时间间隔来判断一个目标待处理视频片段中包括多少组音频信号。这样，通过各个音频信号的第二时间戳信息，就可以确定某个音频信号属于哪个目标待处理视频片段，以及，在所述目标待处理视频片段中的时间范围。这样，将各个目标文本与各个音频信号结合第二时间戳信息进行匹配，得到各个带字幕的目标视频片段。

S103、将各个带字幕的目标视频片段按照对应的第一时间戳信息进行显示。

具体的，在得到各个带字幕的目标视频片段后，识别每个带字幕的目标视频片段的第一时间戳信息，分别确定每个带字幕的目标视频片段应该出现在整个学习视频的哪个时间范围内，根据第一时间戳信息实现了对应匹配的显示。

为了使本申请的技术方案更容易理解，图2示出了一种添加字幕前的学习视频页面显示图；图3示出了一种添加字幕后的学习视频页面显示图，其中，添加的字幕在“针对划分的这几部分，大家有什么疑问吗？”。另外，为了提高学生的注意力与字幕的辨识度，可以在字幕位置处显示相应的区分标识，例如图3中的手势标识。

本申请实施例中，通过提取待处理视频中包括音频信号的各个目标待处理视频片段，且各个目标待处理视频片段包括第一时间戳信息，这样无需对整个待处理视频进行语音识别，降低了数据处理量，提高了语音识别速度；针对每个目标待处理视频片段，将当前目标待处理片段中的各个音频信号识别为目标文本，并结合各个音频信号的第二时间戳信息组合各个目标文本，得到每个带字幕的目标视频片段，依次识别各个片段中的教师的音频，提高了字幕添加准确率；将各个带字幕的目标视频片段按照对应的第一时间戳信息进行显示。应用到线上学习视频中，在充分发挥线上视频学习优势的同时，学生通过观看学习视频对应的字幕，更好的跟上教师讲课进度，提高学生的理解能力和学习效率，提高了线上学习的体验感。

在上述实施例的基础上，图4给出了本申请实施例提供的另一种学习视频字幕添加方法的流程图。该学习视频字幕添加方法是对上述学习视频字幕添加方法的具体化。参考图4，该学习视频字幕添加方法包括：

S401、识别待处理视频中包括的音频信号的第一时间戳信息。

其中，待处理视频中包括的每个音频信号均包括对应的时间戳信息，该时间戳信息统称为第一时间戳信息。具体的，在提取到待处理视频中的各个音频信号后，识别其中包括的音频信号的各个第一时间戳信息。

S402、根据各个第一时间戳信息对待处理视频进行切分，以得到包括第一时间戳信息的各个目标待处理视频片段。

具体的，比如待处理视频为两个小时的时长，这样在识别到各个第一时间戳信息后，就可以根据各个第一时间戳信息对待处理视频进行切分。在一个具体的例子中，将待处理视频切分成各个目标待处理视频片段，比如，1秒到5分10秒的第一个目标待处理视频片段，6分10秒到10分35秒的第二个目标待处理视频片段等，而上述时间是用相对时间来表示的，也即，以待处理视频的起始时间为基准点；还可以用绝对时间来表示，比如播放待处理视频的时刻，这里只是举例说明，并不形成具体的限定。

S403、针对每个目标待处理视频片段，将当前目标待处理片段中的各个音频信号识别为目标文本，并结合各个音频信号的第二时间戳信息组合各个目标文本，得到每个带字幕的目标视频片段。

S404、将目标文本和目标文本对应的显示页面中的全部文本进行匹配，计算第一相似度。

其中，当前目标文本对应的显示页面中的全部文本可以是演示文稿中的全部文字，在一个具体的例子中，参考图2，以《社戏》的教学视频为例，则目标文本可以是通过识别音频信号得到的“大家看一下这个是按什么思路来写的呢？再看一下文章可以划分为哪几个部分呢？每个部分是不是又可以划分为不同的层次呢？”，对应的显示页面中的全部文本为图2中的文字部分，此时，可以根据文本匹配原则，计算第一相似度。

S405、若第一相似度大于第一设定相似度阈值，根据第一时间戳信息，按照第一设定显示模式以字幕形式显示目标文本，和/或，按照第二设定显示模式以字幕形式显示当前显示页面的目标文本的关联文本。

具体的，预先根据实际需求或者实际情况存储一个第一设定相似度阈值，然后将第一相似度和第一设定相似度阈值进行比较，如果第一相似度大于第一设定相似度阈值，则将上述目标文本所属的目标视频片段的第一时间戳信息，按照第一设定显示模式以字幕的形式显示文本。在一个具体的例子中，第一设定显示模式可以是显示在显示页面的下方空白处。

另外，还可以按照第二设定显示模式以字幕显示显示当前显示页面的目标文本的关联文本，其中，第二设定显示模式可以是以高亮、加粗或者不同颜色突出显示关联文本。在这个具体的例子中，关联文本也即完全重合的那部分文本，比如：“什么思路来写的？”、“划分为几部分？”以及“层次”等。在这个具体的例子中，这样以特殊形式进行显示，可以加强学生的印象和注意力。

本申请实施例中，通过第一时间戳信息实现了对待处理视频的切分，得到各个切分后的目标待处理视频片段进行自动语言识别，提高了识别速度；在目标文本和演示文稿中的文本的匹配度满足一定条件时，将目标文本或者其在演示文稿中的关联文本进行突出显示，例如，是比较重要的知识点，在演示文稿中出现了，视频中教师又强调，表明该知识点比较重要，按照不同的设定模式进行显示以提醒学生重视或加强对该知识点的掌握。

在上述实施例的基础上，图5给出了本申请实施例提供的另一种学习视频字幕添加方法的流程图。该学习视频字幕添加方法是对上述学习视频字幕添加方法的具体化。参考图5，该学习视频字幕添加方法包括：

S501、提取待处理视频中包括音频信号的各个目标待处理视频片段，其中，各个目标待处理视频片段包括第一时间戳信息。

S502、针对每个目标待处理视频片段，将当前目标待处理片段中的各个音频信号识别为目标文本，并结合各个音频信号的第二时间戳信息组合各个目标文本，得到每个带字幕的目标视频片段。

S5031、若目标文本的来源音频信号为在线音频信号，则将带字幕的目标视频片段与第一时间戳信息进行匹配，以字幕形式显示目标文本。

其中，在线音频信号是指教师在录制教学视频中说的话产生的音频信号，首先判断目标文本的来源音频信号是在线音频信号还是嵌入音频信号，具体可以通过分析音频信号的声波特征进行识别。具体的，如果目标文本的来源音频信号为在线音频信号，则之间将带字幕的目标视频片段与第一时间戳信息进行匹配后以字幕的形式显示，也即，将识别到的待处理视频中的教师说的话对应的目标文本直接显示为字幕。

S5032、若目标文本的来源音频信号为嵌入音频信号，则将目标文本在嵌入音频的当前显示页面中的全部文本进行匹配，若第二相似度大于第二设定相似度阈值，则按照第三设定显示模式以字幕形式显示目标文本，或，按照第四设定显示模式以字幕形式显示当前显示页面的目标文本的关联文本。

其中，嵌入音频信号是指演示文稿中嵌入的音频，比如，嵌入的网络音频等。具体的，如果目标文本的来源音频信号为嵌入音频信号，比如是一段网络录音，比如是对某个新知识点的网络音频形式的讲解等，则将目标文本在嵌入音频的当前显示页面中的全部文本进行匹配，当第二相似度大于第二设定相似度阈值时，按照第三设定显示模式以字幕形式显示目标文本。该场景可以是，演示文稿中的嵌入音频信号与演示文本中的文本匹配度较高，可以从某种程度上表明该知识点或者原理比较重要，可以用不同的字体突出显示或者用不同的颜色进行显示目标文本来提醒学生注意。另外，还可以按照第四设定模式以字幕形式显示当前显示页面的目标文本的关联文本，也即，突出显示当前显示页面的中的关联文本，以提醒学生注意。需要说明的是，关联文本可以参照前述实施例，这里不进行赘述。

本申请实施例中，通过分析目标文本的来源音频信号是在线音频信号还是嵌入音频信号，再通过不同的相似度计算来用不同的显示模式进行显示。对于在线音频信号匹配出来的目标文本，可以直接以字幕形式进行显示；对于嵌入音频信号匹配出来的目标文本，可以将该目标文本和/或其在当前显示页面的关联文本均突出显示，以提醒学生重视相应的知识点或远离，加深学生的掌握程度。

在上述技术方案的基础上，为了实现外文授课中学生容易听不懂教师的外文讲课造成跟不上教师进度的情况，本申请实施例的技术方案还包括：识别各个目标待处理视频片段中的页面内容，以确定待处理视频的语言类型；若语言类型为外语，将目标文本翻译成语言类型对应为外文文本；相应的，结合各个音频信号的第二时间戳信息组合各个目标文本，得到每个带字幕的目标视频片段，具体可以通过如下方式实现：结合各个音频信号的第二时间戳信息组合各个目标文本，以及，各个目标文本对应的外文文本，得到每个带字幕的目标视频片段。

其中，在实际的在线教学的视频中，还可能是英语课的情况，这样部分基础薄弱的学生可能不能跟上教师讲话的进度。因此，可以将教师讲的英文字幕识别并显示的同时，对其进行翻译，将对应的中文字幕也显示出来。具体的，首先通过识别各个目标待处理识别片段中的页面内容来确定待处理视频的语言类型，比如，提取到页面中的文本为英文，可以判断本次教学视频为针对英语课的教学。此时，将目标文本翻译成识别到的语言类型对应的外文文本，比如是英文，那么就翻译成英文文本。最后结合各个音频信号的第二时间戳信息将各个目标文本和各个目标文本对应的外文文本，也即，针对同一组第二时间戳信息，获取属于其时间范围的目标文本和对应的外文文本，最后得到每个待中外文对照的字幕的目标视频片段进行显示。在外文学习时，实现了双语字幕显示，让外语学习更简单，例如英文。

在上述技术方案的基础上，面对学生在观看教师已经录制好的学习视频的过程中教师再次语音强调某个知识点或者讲述某个原理等情况，本申请的技术方案还包括：获取外部音源数据；识别外部音源数据得到更新文本；根据更新文本更新匹配的目标视频片段的字幕。

另外，在实际的应用过程中，学生在线上学习视频时，还有可能是直播情况，比如这个过程中教师还可能穿插一些知识点等讲述。具体的，这里的外部音源数据可以是学生在观看教学视频的过程中教师说的话，区别于上述实施例中从待处理视频中识别到的教师说的话。在这个场景中，应用自动语音识别技术识别外部音源数据得到更新文本，然后将识别更新文本的内容等信息，应用更新文本去更新匹配的目标视频片段的字幕，也即，根据更新文本实现是学习视频字幕的更新和编辑，这样与固定不变的字幕相比，提高了字幕编辑的灵活性。

具体的，用下面几种情况举例说明字幕更新过程：分析更新文本；若更新文本为更新内容，则将更新文本与全部字幕进行匹配，将更新文本显示在匹配度最高的目标视频片段的显示页面，或，应用更新文本替换匹配度最高的目标视频片段中的字幕；若更新文本为替换请求，则识别替换请求中的替换信息和被替换信息，根据替换信息替换被替换信息，其中，替换信息包括替换文本，被替换信息包括被替换字幕或被替换字幕的时间戳信息，被替换字幕的时间戳信息用来确定被替换字幕。

具体的，分析更新文本，若更新文本是更新内容，比如“《社戏》的第一部分的详细内容为XXXXX”，则将更新文本与全部字幕进行匹配，确定匹配度最高的目标视频片段的显示页面的字幕为“第一部分(1-3)写平桥村是’我’的乐土”，一种形式是可以将更新文本显示在的当前显示页面的字幕附近，例如距离当前字幕设定距离的显示区域内，另一种形式是应用更新文本替换掉该部分字幕。另外，更新文本的还可以是替换请求，比如“请将第10分钟到第11分钟的字幕替换为YYYYY”，则这样可以在替换请求中识别替换信息和被替换信息，替换信息为“YYYYY”，被替换信息为第10分钟到第11分钟的字幕。这样，可以更加丰富教学内容，实现了对原始教学视频的更正或补充。

另外，本申请实施例还具备以下有益效果：对于听力障碍的学生而言，通过观看学习视频的字幕，以及各种模式的突出显示，使听力障碍的学生更直观的正常接收知识，增强了学生的理解力，提高了学生的学习效率。

在上述实施例的基础上，图6为本申请实施例提供的一种学习视频字幕添加装置的结构示意图。参考图6，本实施例提供的学习视频字幕添加装置具体包括：视频片段提取模块601、字幕添加模块602和显示模块603。

其中，视频片段提取模块601，用于提取待处理视频中包括音频信号的各个目标待处理视频片段，其中，各个目标待处理视频片段包括第一时间戳信息；字幕添加模块602，用于针对每个目标待处理视频片段，将当前目标待处理片段中的各个音频信号识别为目标文本，并结合各个音频信号的第二时间戳信息组合各个目标文本，得到每个带字幕的目标视频片段；显示模块603，用于将各个带字幕的目标视频片段按照对应的第一时间戳信息进行显示。

可选的，还包括相似度计算模块，用于将目标文本和目标文本对应的显示页面中的全部文本进行匹配，计算第一相似度；则当第一相似度大于第一设定相似度阈值时，显示模块603具体用于：根据第一时间戳信息，按照第一设定显示模式以字幕形式显示目标文本，和/或，按照第二设定显示模式以字幕形式显示当前显示页面的目标文本的关联文本。

可选的，显示模块603还用于：若目标文本的来源音频信号为在线音频信号，则将带字幕的目标视频片段与第一时间戳信息进行匹配，以字幕形式显示目标文本；若目标文本的来源音频信号为嵌入音频信号，则将目标文本在嵌入音频的当前显示页面中的全部文本进行匹配，若第二相似度大于第二设定相似度阈值，则按照第三设定显示模式以字幕形式显示目标文本，或，按照第四设定显示模式以字幕形式显示当前显示页面的目标文本的关联文本。

可选的，还包括翻译模块，用于识别各个目标待处理视频片段中的页面内容，以确定待处理视频的语言类型；若语言类型为外语，将目标文本翻译成语言类型对应为外文文本；相应的，字幕添加模块602具体用于：结合各个音频信号的第二时间戳信息组合各个目标文本，以及，各个目标文本对应的外文文本，得到每个带字幕的目标视频片段。

可选的，视频片段提取模块601具体用于：识别待处理视频中包括的音频信号的第一时间戳信息；根据各个第一时间戳信息对待处理视频进行切分，以得到包括第一时间戳信息的各个目标待处理视频片段。

可选的，还包括外部音源获取模块，用于获取外部音源数据；更新文本识别模块，用于识别外部音源数据得到更新文本；字幕更新模块，用于根据更新文本更新匹配的目标视频片段的字幕。

可选的，所述字幕更新模块具体用于：分析更新文本；若更新文本为更新内容，则将更新文本与全部字幕进行匹配，将更新文本显示在匹配度最高的目标视频片段的显示页面，或，应用更新文本替换匹配度最高的目标视频片段中的字幕；若更新文本为替换请求，则识别替换请求中的替换信息和被替换信息，根据替换信息替换被替换信息，其中，替换信息包括替换文本，被替换信息包括被替换字幕或被替换字幕的时间戳信息，被替换字幕的时间戳信息用来确定被替换字幕。

本申请实施例提供的学习视频字幕添加装置可以用于执行上述实施例提供的学习视频字幕添加方法，具备相应的功能和有益效果。

本申请实施例提供了一种终端设备，且该终端设备中可集成本申请实施例提供的学习视频字幕添加装置。图7是本申请实施例提供的一种设终端备的结构示意图。参考图7，该设备包括：处理器70、存储器71。该设备中处理器70的数量可以是一个或者多个，图7中以一个处理器70为例。该设备中存储器71的数量可以是一个或者多个，图7中以一个存储器71为例。该设备的处理器70和存储器71可以通过总线或者其他方式连接，图7中以通过总线连接为例。

存储器71作为一种计算机可读存储介质，可用于存储软件程序、计算机可执行程序以及模块，如本申请任意实施例所述的学习视频字幕添加方法对应的程序指令/模块(例如，学习视频字幕添加装置中的视频片段提取模块601、字幕添加模块602和显示模块603)。存储器71可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据设备的使用所创建的数据等。此外，存储器71可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中，存储器71可进一步包括相对于处理器70远程设置的存储器，这些远程存储器可以通过网络连接至设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

处理器70通过运行存储在存储器71中的软件程序、指令以及模块，从而执行设备的各种功能应用以及数据处理，即实现上述的学习视频字幕添加方法，该学习视频字幕添加方法包括：提取待处理视频中包括音频信号的各个目标待处理视频片段，其中，各个所述目标待处理视频片段包括第一时间戳信息；针对每个目标待处理视频片段，将当前目标待处理片段中的各个所述音频信号识别为目标文本，并结合各个音频信号的第二时间戳信息组合各个所述目标文本，得到每个带字幕的目标视频片段；将各个所述带字幕的目标视频片段按照对应的第一时间戳信息进行显示。

上述提供的设备可用于执行上述实施例提供的学习视频字幕添加方法，具备相应的功能和有益效果。

本申请实施例还提供一种包含计算机可执行指令的存储介质，所述计算机可执行指令在由计算机处理器执行时用于执行一种学习视频字幕添加方法，该学习视频字幕添加方法包括：提取待处理视频中包括音频信号的各个目标待处理视频片段，其中，各个所述目标待处理视频片段包括第一时间戳信息；针对每个目标待处理视频片段，将当前目标待处理片段中的各个所述音频信号识别为目标文本，并结合各个音频信号的第二时间戳信息组合各个所述目标文本，得到每个带字幕的目标视频片段；将各个所述带字幕的目标视频片段按照对应的第一时间戳信息进行显示。

存储介质——任何的各种类型的存储器设备或存储设备。术语“存储介质”旨在包括：安装介质，例如CD-ROM、软盘或磁带装置；计算机系统存储器或随机存取存储器，诸如DRAM、DDR RAM、SRAM、EDO RAM，兰巴斯(Rambus)RAM等；非易失性存储器，诸如闪存、磁介质(例如硬盘或光存储)；寄存器或其它相似类型的存储器元件等。存储介质可以还包括其它类型的存储器或其组合。另外，存储介质可以位于程序在其中被执行的第一计算机系统中，或者可以位于不同的第二计算机系统中，第二计算机系统通过网络(诸如因特网)连接到第一计算机系统。第二计算机系统可以提供程序指令给第一计算机用于执行。术语“存储介质”可以包括可以驻留在不同位置中(例如在通过网络连接的不同计算机系统中)的两个或更多存储介质。存储介质可以存储可由一个或多个处理器执行的程序指令(例如具体实现为计算机程序)。

当然，本申请实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的学习视频字幕添加方法，还可以执行本申请任意实施例所提供的学习视频字幕添加方法中的相关操作。

上述实施例中提供的学习视频字幕添加装置、存储介质及设备可执行本申请任意实施例所提供的学习视频字幕添加方法，未在上述实施例中详尽描述的技术细节，可参见本申请任意实施例所提供的学习视频字幕添加方法。

注意，上述仅为本申请的较佳实施例及所运用技术原理。本领域技术人员会理解，本申请不限于这里所述的特定实施例，对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本申请的保护范围。因此，虽然通过以上实施例对本申请进行了较为详细的说明，但是本申请不仅仅限于以上实施例，在不脱离本申请构思的情况下，还可以包括更多其他等效实施例，而本申请的范围由所附的权利要求范围决定。

Claims

1.一种学习视频字幕添加方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，还包括：

将所述目标文本和所述目标文本对应的显示页面中的全部文本进行匹配，计算第一相似度；

若所述第一相似度大于第一设定相似度阈值，则将各个所述带字幕的目标视频片段按照对应的第一时间戳信息进行显示，包括：

根据第一时间戳信息，按照第一设定显示模式以字幕形式显示所述目标文本，和/或，按照第二设定显示模式以字幕形式显示当前显示页面的所述目标文本的关联文本。

3.根据权利要求1所述的方法，其特征在于，所述将各个所述带字幕的目标视频片段按照对应的第一时间戳信息进行显示，包括：

若所述目标文本的来源音频信号为在线音频信号，则将所述带字幕的目标视频片段与所述第一时间戳信息进行匹配，以字幕形式显示所述目标文本；

若所述目标文本的来源音频信号为嵌入音频信号，则将所述目标文本在所述嵌入音频的当前显示页面中的全部文本进行匹配，若第二相似度大于第二设定相似度阈值，则按照第三设定显示模式以字幕形式显示所述目标文本，或，按照第四设定显示模式以字幕形式显示当前显示页面的所述目标文本的关联文本。

4.根据权利要求1所述的方法，其特征在于，还包括：

识别各个目标待处理视频片段中的页面内容，以确定所述待处理视频的语言类型；

若所述语言类型为外语，将所述目标文本翻译成所述语言类型对应为外文文本；

相应的，结合各个音频信号的第二时间戳信息组合各个所述目标文本，得到每个带字幕的目标视频片段，包括：

结合各个音频信号的第二时间戳信息组合各个所述目标文本，以及，各个所述目标文本对应的外文文本，得到每个带字幕的目标视频片段。

5.根据权利要求1所述的方法，其特征在于，所述提取待处理视频中包括音频信号的各个目标待处理视频片段，包括：

识别待处理视频中包括的音频信号的第一时间戳信息；

根据各个第一时间戳信息对所述待处理视频进行切分，以得到包括第一时间戳信息的各个目标待处理视频片段。

6.根据权利要求1所述的方法，其特征在于，还包括：

获取外部音源数据；

识别所述外部音源数据得到更新文本；

根据所述更新文本更新匹配的所述目标视频片段的字幕。

7.根据权利要求6所述的方法，其特征在于，所述根据所述更新文本更新匹配的所述目标视频片段的字幕，包括：

分析所述更新文本；

若所述更新文本为更新内容，则将所述更新文本与全部字幕进行匹配，将所述更新文本显示在匹配度最高的目标视频片段的显示页面，或，应用所述更新文本替换所述匹配度最高的目标视频片段中的字幕；

若所述更新文本为替换请求，则识别所述替换请求中的替换信息和被替换信息，根据所述替换信息替换所述被替换信息，其中，所述替换信息包括替换文本，所述被替换信息包括被替换字幕或被替换字幕的时间戳信息，所述被替换字幕的时间戳信息用来确定被替换字幕。

8.一种学习视频字幕添加装置，其特征在于，包括：

9.一种终端设备，其特征在于，包括：

存储器以及一个或多个处理器；

所述存储器，用于存储一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1-7任一所述的学习视频字幕添加方法。

10.一种包含计算机可执行指令的存储介质，其特征在于，所述计算机可执行指令在由计算机处理器执行时用于执行如权利要求1-7任一所述的学习视频字幕添加方法。