CN112289321B

CN112289321B - 讲解同步的视频高光处理方法、装置、计算机设备及介质

Info

Publication number: CN112289321B
Application number: CN202011591754.0A
Authority: CN
Inventors: 璁镐腹; 许丹
Original assignee: Ping An Technology Shenzhen Co Ltd
Current assignee: Ping An Technology Shenzhen Co Ltd
Priority date: 2020-12-29
Filing date: 2020-12-29
Publication date: 2021-03-30
Anticipated expiration: 2040-12-29
Also published as: CN112289321A

Abstract

本发明涉及人工智能技术领域，提供一种讲解同步的视频高光处理方法、装置、计算机设备及介质，包括：根据教学视频的属性提取教学视频中的图片帧序列及语音文本序列；根据图片帧中的预设标记识别出多个关键图片帧并根据多个关键图片帧对语音文本序列进行切分，得到多个语音文本片段；确定每个关键图片帧中每条图片文本在对应的关键图片帧出现的位置；从语音文本片段中匹配出与每条图片文本对应的目标语音文本；根据每个关键图片帧中每条图片文本出现的位置及对应的目标语音文本的时间生成高光位置时间序列表；基于高光位置时间序列表对所述教学视频中的文件进行高光渲染。本发明使得视频中的文件与讲解进度同步高光跟随，视频处理效率高。

Description

讲解同步的视频高光处理方法、装置、计算机设备及介质

技术领域

本发明涉及人工智能技术领域，具体涉及一种讲解同步的视频高光处理方法、装置、计算机设备及介质。

背景技术

随着移动终端技术的快速发展，线上培训已经逐渐替代了线下培训模式。在涉及大量专业知识的教学视频中，讲师一般会配合以PPT或者WORD等文件为主的教学文件来展示结构化的知识脉络，在画外讲解课程内容。

发明人在实现本发明的过程中发现，目前线上视频中的PPT等文件先展示出完整一页知识点后讲师再做逐一讲解，而无法随着讲解的进度自动展示知识点的效果，导致视频的观赏性不强；虽可以在视频中增加指定的特效效果，但出于PPT等文件的风格不同、展示的知识点细化程度不同等原因，对视频中大量的视频帧进行处理，计算复杂度较高，视频处理效率较低。

发明内容

鉴于以上内容，有必要提出一种讲解同步的视频高光处理方法、装置、计算机设备及介质，能够使得文件与讲解进度同步高光跟随，视频处理效率高，且提高了教学视频的观赏性。

本发明的第一方面提供一种讲解同步的视频高光处理方法，所述方法包括：

根据教学视频的属性提取教学视频中的图片帧序列及语音文本序列；

根据图片帧中的预设标记识别所述图片帧序列中的多个关键图片帧，并根据所述多个关键图片帧对所述语音文本序列进行切分，得到多个语音文本片段；

识别每个关键图片帧中每条图片文本，并确定每条图片文本在对应的关键图片帧出现的位置；

根据每个关键图片帧中每条图片文本，从对应的语音文本片段中匹配出目标语音文本；

根据每个关键图片帧中每条图片文本出现的位置及对应的目标语音文本的时间生成高光位置时间序列表；

基于所述高光位置时间序列表对所述教学视频中的文件进行高光渲染。

在一个可选的实施例中，所述根据教学视频的属性提取教学视频中的图片帧序列及语音文本序列包括：

提取所述教学视频中的视频数据及音频数据；

获取所述教学视频的总时长及所述教学视频中的文件的总页数；

根据所述总时长及所述总页数计算采样帧率；

采用所述采样帧率对所述视频数据进行采样，得到图片帧序列；

对所述音频数据进行语音识别，得到语音文本序列。

在一个可选的实施例中，所述根据图片帧中的预设标记识别所述图片帧序列中的多个关键图片帧包括：

将所述图片帧序列中的每前后两个图片帧进行组合，得到多个图片帧对；

计算每个图片帧对的相似度；

计算每个图片帧对中的预设标记的数量，并根据所述数量更新预设相似度阈值，得到目标相似度阈值；

从所述多个图片帧对中获取相似度小于对应的目标相似度阈值的多个目标图片帧对；

将每个目标图片帧对中的后一个目标图片帧确定为关键图片帧，得到多个关键图片帧。

在一个可选的实施例中，所述根据所述多个关键图片帧对所述语音文本序列进行切分，得到多个语音文本片段包括：

确定每个关键图片帧在所述教学视频中的第一关键时间点；

匹配所述语音文本序列中与每个第一关键时间点对应的第二关键时间点；

以每个第二关键时间点为文本切分点，对所述语音文本序列进行切分，得到多个语音文本片段。

在一个可选的实施例中，所述根据每个关键图片帧中每条图片文本，从对应的语音文本片段中匹配出目标语音文本包括：

提取每个关键图片帧中每条图片文本的第一词向量；

提取每个语音文本片段中每条语音文本的第二词向量；

计算每个关键图片帧中的每个第一词向量与对应的语音文本片段中的每个第二词向量之间的相似度；

将每个语音文本片段中相似度最大的第二词向量对应的语音文本确定为所述语音文本片段对应的关键图片帧中对应的图片文本的目标语音文本。

在一个可选的实施例中，所述基于所述高光位置时间序列表对所述教学视频中的文件进行高光渲染包括：

对于所述高光位置时间序列表中的上一时间点，在所述教学视频中与所述上一时间点对应的位置处添加第一高光图层；

维持所述第一高光图层不变，直到所述高光位置时间序列表中的下一时间点；

在所述教学视频中与所述下一时间点对应的位置处添加第二高光图层。

在一个可选的实施例中，所述方法还包括：

接收用户的输入文本；

计算所述输入文本与所述语音文本片段中每条语音文本之间的相似度；

确定与相似度最大的语音文本对应的目标图片文本；

根据所述高光位置时间序列表跳转到所述教学视频中所述目标图片文本所在的目标关键图片帧，并在所述目标关键图片帧中高光显示所述目标图片文本。

本发明的第二方面提供一种讲解同步的视频高光处理装置，所述装置包括：

提取模块，用于根据教学视频的属性提取教学视频中的图片帧序列及语音文本序列；

切分模块，用于根据图片帧中的预设标记识别所述图片帧序列中的多个关键图片帧，并根据所述多个关键图片帧对所述语音文本序列进行切分，得到多个语音文本片段；

识别模块，用于识别每个关键图片帧中每条图片文本，并确定每条图片文本在对应的关键图片帧出现的位置；

匹配模块，用于根据每个关键图片帧中每条图片文本，从对应的语音文本片段中匹配出目标语音文本；

生成模块，用于根据每个关键图片帧中每条图片文本出现的位置及对应的目标语音文本的时间生成高光位置时间序列表；

渲染模块，用于基于所述高光位置时间序列表对所述教学视频中的文件进行高光渲染。

本发明的第三方面提供一种计算机设备，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现所述讲解同步的视频高光处理方法。

本发明的第四方面提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现所述讲解同步的视频高光处理方法。

综上所述，本发明所述的讲解同步的视频高光处理方法、装置、计算机设备及介质，首先根据教学视频的属性提取教学视频中的图片帧序列及语音文本序列，图片帧序列提取效率高，且提取出的图片帧序列的数量少，有助于提高对视频的处理效率；接着根据图片帧中的预设标记识别出多个关键图片帧并根据多个关键图片帧对语音文本序列进行切分，得到多个语音文本片段，使得每个语音文本片段刚好对应一个关键图片帧；确定每个关键图片帧中每条图片文本在对应的关键图片帧出现的位置；从语音文本片段中匹配出与每条图片文本对应的目标语音文本；根据每个关键图片帧中每条图片文本出现的位置及对应的目标语音文本的时间生成高光位置时间序列表；基于高光位置时间序列表对所述教学视频中的文件进行高光渲染，对视频的处理效率高，且实现了教学视频中的文件跟随讲师的讲解进度进行自动高光跟随，提高了教学视频的可观赏性，能够解决由于单页文件内容复杂或文字过多等原因导致学员在学习教学视频时找寻文字的过程中落下语音讲解这一学习困境。

附图说明

图1是本发明实施例一提供的讲解同步的视频高光处理方法的流程图。

图2是本发明实施例二提供的讲解同步的视频高光处理装置的结构图。

图3是本发明实施例三提供的计算机设备的结构示意图。

具体实施方式

为了能够更清楚地理解本发明的上述目的、特征和优点，下面结合附图和具体实施例对本发明进行详细描述。需要说明的是，在不冲突的情况下，本发明的实施例及实施例中的特征可以相互组合。

除非另有定义，本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的，不是旨在于限制本发明。

本发明实施例提供的讲解同步的视频高光处理方法由计算机设备执行，相应地，讲解同步的视频高光处理装置运行于计算机设备中。

图1是本发明实施例一提供的讲解同步的视频高光处理方法的流程图。所述讲解同步的视频高光处理方法具体包括以下步骤，根据不同的需求，该流程图中步骤的顺序可以改变，某些可以省略。

S11，根据教学视频的属性提取教学视频中的图片帧序列及语音文本序列。

线上视频的教学模式为讲师准备好教学文件(例如，PPT或者WORD等形式的文件)，通过音视频采集设备录制好讲师讲授所述教学文件中的内容的教学视频，再将教学视频分享给用户(例如，学员)进行在线或者离线学习。

计算机设备在播放教学视频的过程中对教学视频进行处理，从教学视频中提取出图片帧序列及语音文本序列，并通过语音文本序列确定讲师的讲解进度，跟随着讲师的讲解进度在图片帧序列中高光显示对应的文本内容，从而实现了随着讲师的讲解进度自动化的逐步展示文本内容的效果。

提取所述教学视频中的视频数据及音频数据；

根据所述总时长及所述总页数计算采样帧率；

对所述音频数据进行语音识别，得到语音文本序列。

其中，所述教学视频的属性包括总时长及文件的总页数。

计算机设备可以使用音视频分离软件或者工具对教学视频的视频和音频进行分离，从而得到视频数据和音频数据。

计算机设备中可以预先存储帧率，根据预先存储的帧率对提取出的视频数据进行采样处理。但通常而言，讲师准备的教学文件中的知识点所讲解的时间是有规律的，因此根据教学视频的总时长及总页数可计算出平均每一页文件需要的时长，将每一页文件需要的时长除以预设数值(10)，可以预估出一个数值作为采样帧率，使用计算得到的采样帧率对提取出的视频数据进行采样处理，既能够尽可能的保证每一页文件均能被采样到，且同一页文件被采样的数量不会过多，提高了图片帧的采样效率，减少了采样的图片帧的数量，能够提高后续对图片帧的处理效率。

计算机设备对提取出的视频数据进行采样处理后得到一个个的图片帧，将一个个的图片帧按照时间顺序进行排列得到图片帧序列，并将得到的图片帧及对应的时间关联存储在本地的第一数据库表中，或者将得到的图片帧的帧序号及对应的时间关联存储在本地的第一数据库表中。

计算机设备可以采用语音识别算法，例如，自动语音识别(Automatic SpeechRecognition，ASR)技术将提取出的音频数据转化为多条语音文本，并将每条文本语音文本按照时间顺序进行排列得到语音文本序列，将得到的每条语音文本的序列号及对应的时间关联存储在本地的第二数据库表中。

S12，根据图片帧中的预设标记识别所述图片帧序列中的多个关键图片帧，并根据所述多个关键图片帧对所述语音文本序列进行切分，得到多个语音文本片段。

由于文件在切换前均为静止画面，例如，PPT在翻页前为静止画面，或者WORD在下拉前为静止画面，因此，需要从采样得到的多个图片帧序列中识别出多个关键图片帧，从而确定出文件切换的状态，并根据多个关键图片帧对所述语音文本序列进行切分，如此，能够将教学视频中的每页文件与切分得到的语音文本片段进行对应。

计算每个图片帧对的相似度；

示例性的，假设图片帧序列包括100个图片帧，则将每前后两个图片帧进行两两组合，得到99个图片帧对，每一个图片帧对包括前一个图片帧和后一个图片帧。

其中，所述预设标记为符号批注，符号批注是指在文件上把自己认为重要的、有用的或应注意的字、词、句、段用一套约定俗成的符号(例如，圈、点、勾、画等)或以不同的颜色做出的标记。

计算机设备识别每一个图片帧对中前后两个图片帧中是否有符号批注，当前后两个图片帧中均有符号批注时，则计算该图片帧对中的预设标记的数量为2；当前后两个图片帧中仅前一个图片帧中有符号批注或者仅后一个图片帧中有符号批注时，则计算该图片帧对中的预设标记的数量为1；当前后两个图片帧中均没有符号批注时，则计算该图片帧对中的预设标记的数量为0。

计算机设备中预先存储有相似度阈值，当计算该图片帧对中的预设标记的数量为2时，在所述预设相似度阈值的基础上降低第一比例，从而将降低第一比例的预设相似度阈值更新为目标相似度阈值；当计算该图片帧对中的预设标记的数量为1时，在所述预设相似度阈值的基础上减少第二比例，从而将降低第二比例的预设相似度阈值更新为目标相似度阈值；当计算该图片帧对中的预设标记的数量为0时，则将所述预设相似度阈值更新为目标相似度阈值。图片帧对中的预设标记的数量越大，在所述预设相似度阈值的基础上降低的比例越大，图片帧对中的预设标记的数量越少，在所述预设相似度阈值的基础上降低的比例越小。所述第一比例大于所述第二比例。

计算机设备可以计算每个图片帧对中的前后两个图片帧之间的余弦距离或哈希差值，作为该图片帧对中的前后两个图片帧之间的相似度。相似度越大，表明该前后两个图片帧越为同一内容的文件；相似度越小，表明该前后两个图片帧越为不同内容的文件。前后两个图片帧为同一内容的文件时，则可判断为未切换文件；前后两个图片帧为不同内容的文件时，则可判断为在切换文件。将相似度小于对应的目标相似度阈值的多个目标图片帧对中的后一个目标图片帧确定为关键图片帧。

该可选的实施例中，由于讲师在讲授文件时，会对文件中的文本内容做符号批注，因此，从录制的教学视频中提取出的图片帧中，即使是同一内容的图片帧，前后两个图片帧因为存在符号批注也会导致差异，因此，计算机设备根据前后两个图片帧存在的符号批注的数量，来对预设相似度阈值进行更新，当存在的符号批注的数量越多，则采用越大的比例降低预设相似度阈值得到目标相似度阈值，使得目标相似度阈值更低，从而更能够将同一内容但因存在符号批注的前后两个图片帧判断为同一内容的文件。即根据每个图片帧对中的预设标记的数量来动态调整目标相似度阈值，从而自适应的确定出多个关键图片帧，关键图片帧的确定效率高，质量佳。

确定每个关键图片帧在所述教学视频中的第一关键时间点；

计算机设备根据本地中的第一数据库表记录的图片帧的帧序号与时间之间的关联关系，确定每个关键图片帧在教学视频中的第一关键时间点。

计算机设备根据本地中的第二数据库表记录的每条语音文本的序列号及对应的时间段之间的关联关系，首先确定第一关键时间点对应的第二关键时间点，以第二关键时间点为切分点，将语音文本序列切分为多个语音文本片段，其中，每个语音文本片段包括多条连续的语音文本。

将关键图片帧及其对应的第一关键时间点记为(kf_i，t_i)，kf_i表示第i个关键图片帧的帧序号，t_i表示第i个关键图片帧对应的第一关键时间点。根据第一关键时间点t_i将所述语音文本序列切分为多个语音文本片段，将语音文本片段及其对应的第一关键时间点记为(pg_i，t_i)，其中，pg_i为第i个关键图片帧对应的第i个语音文本片段。可见，在关键图片帧kf_i出现且画面保持不变的t_i到t_i+1的时间内(教学视频中出现第i页文件，例如，第i张幻灯片的时间内)，讲师的讲解内容被包含在语音文本片段pg_i中。

该可选的实施例中，通过所述多个关键图片帧对应的第一关键时间点对所述语音文本序列进行切分，使得切分得到多个语音文本片段刚好能与多个关键图片帧一一对应，即，一个关键图片帧刚好对应一个语音文本片段，关键图片帧中的内容刚好对应语音文本片段中的多条语音文本，因此，语音文本片段的切分质量较好。

S13，识别每个关键图片帧中每条图片文本，并确定每条图片文本在对应的关键图片帧出现的位置。

计算机设备可以使用光学字符识别(Optical Character Recognition，OCR)技术对每个关键图片帧进行字符识别。

为便于下文描述，将字符识别得到的文本称之为图片文本。

在识别出每个关键图片帧中每条图片文本之后，计算机设备确定每个关键图片帧中每条图片文本出现的位置，便于后续根据位置对教学视频中的图片文本进行高光显示。

S14，根据每个关键图片帧中每条图片文本，从对应的语音文本片段中匹配出目标语音文本。

教学视频中，视频数据与音频数据是对应的，从视频数据中得到的图片文本与从音频数据中得到的语音文本也是对应的。

提取每个关键图片帧中每条图片文本的第一词向量；

提取每个语音文本片段中每条语音文本的第二词向量；

计算机设备可以使用产生词向量的模型提取每条图片文本中的第一词向量及每条语音文本中的第二词向量，所述产生词向量的模型可以为word2vec。

示例性的，假设第i个关键图片帧中包括3条图片文本，第i个关键图片帧对应的第i个语音文本片段包括3条语音文本，则将第1条语音文本确定为第1条图片文本的目标语音文本，将第2条语音文本确定为第2条图片文本的目标语音文本，将第3条语音文本确定为第3条图片文本的目标语音文本。

S15，根据每个关键图片帧中每条图片文本出现的位置及对应的目标语音文本的时间生成高光位置时间序列表。

计算机设备将每个关键图片帧中每条图片文本与语音文本匹配好之后，生成由图片文本与目标语音文本构成的第一数据对，再根据关键图片帧中每条图片文本出现的位置生成由关键图片帧与位置构成的第二数据对。

鉴于计算机设备存储的第二数据库表记录了语音文本与时间的关联关系，则可以确定出每条目标语音文本对应的时间，再确定出每条目标语音对应的图片文本，即可确定出每条目标语音对应的位置，从而确定出时间与位置的关联关系。

示例性的，假设第i个关键图片帧中第j条图片文本的位置为pij，第i个语音文本片段中第j条语音文本的时间为t_ij，则可以生成高光位置时间对(t_ij，p_ij)，待计算机设备根据所有关键图片帧中所有条图片文本出现的位置及对应的目标语音文本的时间生成高光位置时间对之后，则按照时间顺序将所有的高光位置时间对连接起来，得到高光位置时间序列表，(t_11，p_11)，(t_12，p_12)，…，(t_NM，p_NM)，其中，N为关键图片帧的数量，M为每个关键图片帧中图片文本的数量。

S16，基于所述高光位置时间序列表对所述教学视频中的文件进行高光渲染。

计算机设备可以根据高光位置时间序列表对教学视频进行渲染，并将渲染后的教学视频与高光位置时间序列表打包成教学视频包，将教学视频包分享给学员进行在线或者离线学习。

具体的，在t_11时刻，在教学视频当前画面的P_11位置添加高光图层，维持此高光图层不变直到t_12，清除P_11位置处的高光图层，同时在教学视频画面的P_12位置添加高光图层，以此类推，直至教学视频的最后一个时间点。

由于教学视频中的文件中的文字会跟随讲解内容自动加上高光，直到下一页文件中的文字被识别，高光的位置随之改变，学员会更轻易的抓住具体文本内容的位置，文本内容的上下关联问题，把精力集中在讲师的语音讲解中，提高了学习效率，提高了在线教学的教学质量。

在一个可选的实施例中，所述方法还包括：

接收用户的输入文本；

确定与相似度最大的语音文本对应的目标图片文本；

学员在学完教学视频之后，若需要对某一页文件中的内容进行回放，则可以在教学视频结束之后显示文本输入框，学员在文本输入框中输入文本。

计算机设备计算所述输入文本与所述语音文本片段中每条语音文本之间的相似度，确定出所述输入文本对应的目标图片文本，进而根据目标图片文本确定出教学视频中的图片文本所在的目标关键图片帧，从而根据高光位置时间序列表直接跳转到目标关键图片帧处，并根据目标关键图片帧中图片文本的位置，在所述目标关键图片帧中高光显示所述目标图片文本。

该可选的实施例中，根据所述高光位置时间序列表能够直接跳转到学员需要回看的目标关键图片帧并高光显示目标关键图片帧中的文本内容，使得学员能够快速找到感兴趣的内容，避免学员手动推动教学视频中的进度条来进行回放，提高了回放的效率，提高了学员的观看体验。

本发明首先根据教学视频的属性提取教学视频中的图片帧序列及语音文本序列，图片帧序列提取效率高，且提取出的图片帧序列的数量少，有助于提高对视频的处理效率；接着根据图片帧中的预设标记识别出多个关键图片帧并根据多个关键图片帧对语音文本序列进行切分，得到多个语音文本片段，使得每个语音文本片段刚好对应一个关键图片帧；确定每个关键图片帧中每条图片文本在对应的关键图片帧出现的位置；从语音文本片段中匹配出与每条图片文本对应的目标语音文本；根据每个关键图片帧中每条图片文本出现的位置及对应的目标语音文本的时间生成高光位置时间序列表；基于高光位置时间序列表对所述教学视频中的文件进行高光渲染，对视频的处理效率高，且实现了教学视频中的文件跟随讲师的讲解进度进行自动高光跟随，提高了教学视频的可观赏性，能够解决由于单页文件内容复杂或文字过多等原因导致学员在学习教学视频时找寻文字的过程中落下语音讲解这一学习困境。

需要强调的是，为进一步保证上述教学视频的私密性和安全性，上述教学视频可存储于区块链的节点中。

在一些实施例中，所述讲解同步的视频高光处理装置20可以包括多个由计算机程序段所组成的功能模块。所述讲解同步的视频高光处理装置20中的各个程序段的计算机程序可以存储于计算机设备的存储器中，并由至少一个处理器所执行，以执行(详见图1描述)与讲解进度同步的文件高光处理的功能。

本实施例中，所述讲解同步的视频高光处理装置20根据其所执行的功能，可以被划分为多个功能模块。所述功能模块可以包括：提取模块201、切分模块202、识别模块203、匹配模块204、生成模块205、渲染模块206及显示模块207。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段，其存储在存储器中。在本实施例中，关于各模块的功能将在后续的实施例中详述。

所述提取模块201，用于根据教学视频的属性提取教学视频中的图片帧序列及语音文本序列。

在一个可选的实施例中，所述提取模块201根据教学视频的属性提取教学视频中的图片帧序列及语音文本序列包括：

提取所述教学视频中的视频数据及音频数据；

根据所述总时长及所述总页数计算采样帧率；

对所述音频数据进行语音识别，得到语音文本序列。

其中，所述教学视频的属性包括总时长及文件的总页数。

所述切分模块202，用于根据图片帧中的预设标记识别所述图片帧序列中的多个关键图片帧，并根据所述多个关键图片帧对所述语音文本序列进行切分，得到多个语音文本片段。

在一个可选的实施例中，所述切分模块202根据图片帧中的预设标记识别所述图片帧序列中的多个关键图片帧包括：

计算每个图片帧对的相似度；

在一个可选的实施例中，所述切分模块202根据所述多个关键图片帧对所述语音文本序列进行切分，得到多个语音文本片段包括：

确定每个关键图片帧在所述教学视频中的第一关键时间点；

所述识别模块203，用于识别每个关键图片帧中每条图片文本，并确定每条图片文本在对应的关键图片帧出现的位置。

为便于下文描述，将字符识别得到的文本称之为图片文本。

所述匹配模块204，用于根据每个关键图片帧中每条图片文本，从对应的语音文本片段中匹配出目标语音文本。

在一个可选的实施例中，所述匹配模块204根据每个关键图片帧中每条图片文本，从对应的语音文本片段中匹配出目标语音文本包括：

提取每个关键图片帧中每条图片文本的第一词向量；

提取每个语音文本片段中每条语音文本的第二词向量；

所述生成模块205，用于根据每个关键图片帧中每条图片文本出现的位置及对应的目标语音文本的时间生成高光位置时间序列表。

所述渲染模块206，用于基于所述高光位置时间序列表对所述教学视频中的文件进行高光渲染。

在一个可选的实施例中，所述渲染模块206基于所述高光位置时间序列表对所述教学视频中的文件进行高光渲染包括：

此外，由于教学视频中的文件中的文字会跟随讲解内容自动加上高光，直到下一页文件中的文字被识别，高光的位置随之改变，学员会更轻易的抓住具体文本内容的位置，文本内容的上下关联问题，把精力集中在讲师的语音讲解中，提高了学习效率，提高了在线教学的教学质量。

所述所述显示模块207，用于接收用户的输入文本；计算所述输入文本与所述语音文本片段中每条语音文本之间的相似度；确定与相似度最大的语音文本对应的目标图片文本；根据所述高光位置时间序列表跳转到所述教学视频中所述目标图片文本所在的目标关键图片帧，并在所述目标关键图片帧中高光显示所述目标图片文本。

参阅图3所示，为本发明实施例三提供的计算机设备的结构示意图。在本发明较佳实施例中，所述计算机设备3包括存储器31、至少一个处理器32、至少一条通信总线33及收发器34。

本领域技术人员应该了解，图3示出的计算机设备的结构并不构成本发明实施例的限定，既可以是总线型结构，也可以是星形结构，所述计算机设备3还可以包括比图示更多或更少的其他硬件或者软件，或者不同的部件布置。

在一些实施例中，所述计算机设备3是一种能够按照事先设定或存储的指令，自动进行数值计算和/或信息处理的设备，其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。所述计算机设备3还可包括客户设备，所述客户设备包括但不限于任何一种可与客户通过键盘、鼠标、遥控器、触摸板或声控设备等方式进行人机交互的电子产品，例如，个人计算机、平板电脑、智能手机、数码相机等。

需要说明的是，所述计算机设备3仅为举例，其他现有的或今后可能出现的电子产品如可适应于本发明，也应包含在本发明的保护范围以内，并以引用方式包含于此。

在一些实施例中，所述存储器31中存储有计算机程序，所述计算机程序被所述至少一个处理器32执行时实现如所述的讲解同步的视频高光处理方法中的全部或者部分步骤。所述存储器31包括只读存储器(Read-Only Memory，ROM)、可编程只读存储器(Programmable Read-Only Memory，PROM)、可擦除可编程只读存储器(ErasableProgrammable Read-Only Memory，EPROM)、一次可编程只读存储器(One-timeProgrammable Read-Only Memory，OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(CompactDisc Read-Only Memory，CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他介质。

进一步地，所述计算机可读存储介质可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序等；存储数据区可存储根据区块链节点的使用所创建的数据等。

本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain)，本质上是一个去中心化的数据库，是一串使用密码学方法相关联产生的数据块，每一个数据块中包含了一批次网络交易的信息，用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

在一些实施例中，所述至少一个处理器32是所述计算机设备3的控制核心(Control Unit)，利用各种接口和线路连接整个计算机设备3的各个部件，通过运行或执行存储在所述存储器31内的程序或者模块，以及调用存储在所述存储器31内的数据，以执行计算机设备3的各种功能和处理数据。例如，所述至少一个处理器32执行所述存储器中存储的计算机程序时实现本发明实施例中所述的讲解同步的视频高光处理方法的全部或者部分步骤；或者实现讲解同步的视频高光处理装置的全部或者部分功能。所述至少一个处理器32可以由集成电路组成，例如可以由单个封装的集成电路所组成，也可以是由多个相同功能或不同功能封装的集成电路所组成，包括一个或者多个中央处理器(CentralProcessing unit，CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。

在一些实施例中，所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。

尽管未示出，所述计算机设备3还可以包括给各个部件供电的电源(比如电池)，优选的，电源可以通过电源管理装置与所述至少一个处理器32逻辑相连，从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机设备3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等，在此不再赘述。

上述以软件功能模块的形式实现的集成的单元，可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，计算机设备，或者网络设备等)或处理器(processor)执行本发明各个实施例所述方法的部分。

在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

所述作为分离部件说明的模块可以是或者也可以不是物理上分开的，作为模块显示的部件可以是或者也可以不是物理单元，既可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能模块可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用硬件加软件功能模块的形式实现。

对于本领域技术人员而言，显然本发明不限于上述示范性实施例的细节，而且在不背离本发明的精神或基本特征的情况下，能够以其他的具体形式实现本发明。因此，无论从哪一点来看，均应将实施例看作是示范性的，而且是非限制性的，本发明的范围由所附权利要求而不是上述说明限定，因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外，显然“包括”一词不排除其他单元或，单数不排除复数。本发明陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一，第二等词语用来表示名称，而并不表示任何特定的顺序。

最后应说明的是，以上实施例仅用以说明本发明的技术方案而非限制，尽管参照较佳实施例对本发明进行了详细说明，本领域的普通技术人员应当理解，可以对本发明的技术方案进行修改或等同替换，而不脱离本发明技术方案的精神和范围。

Claims

1.一种讲解同步的视频高光处理方法，其特征在于，所述方法包括：

2.如权利要求1所述的讲解同步的视频高光处理方法，其特征在于，所述根据教学视频的属性提取教学视频中的图片帧序列及语音文本序列包括：

提取所述教学视频中的视频数据及音频数据；

根据所述总时长及所述总页数计算采样帧率；

对所述音频数据进行语音识别，得到语音文本序列。

3.如权利要求1所述的讲解同步的视频高光处理方法，其特征在于，所述根据图片帧中的预设标记识别所述图片帧序列中的多个关键图片帧包括：

计算每个图片帧对的相似度；

4.如权利要求1所述的讲解同步的视频高光处理方法，其特征在于，所述根据所述多个关键图片帧对所述语音文本序列进行切分，得到多个语音文本片段包括：

确定每个关键图片帧在所述教学视频中的第一关键时间点；

5.如权利要求1所述的讲解同步的视频高光处理方法，其特征在于，所述根据每个关键图片帧中每条图片文本，从对应的语音文本片段中匹配出目标语音文本包括：

提取每个关键图片帧中每条图片文本的第一词向量；

提取每个语音文本片段中每条语音文本的第二词向量；

6.如权利要求1至5中任意一项所述的讲解同步的视频高光处理方法，其特征在于，所述基于所述高光位置时间序列表对所述教学视频中的文件进行高光渲染包括：

7.如权利要求1至5中任意一项所述的讲解同步的视频高光处理方法，其特征在于，所述方法还包括：

接收用户的输入文本；

确定与相似度最大的语音文本对应的目标图片文本；

8.一种讲解同步的视频高光处理装置，其特征在于，所述装置包括：

9.一种计算机设备，其特征在于，所述计算机设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1至7中任意一项所述的讲解同步的视频高光处理方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7中任意一项所述的讲解同步的视频高光处理方法。