CN117596433A

CN117596433A - 一种基于时间轴微调的国际中文教学视听课件编辑系统

Info

Publication number: CN117596433A
Application number: CN202410078612.6A
Authority: CN
Inventors: 王涛; 郑云龙; 李华; 王康; 李华丰; 何晗; 李育涵; 孙伟伟; 李子宾; 逄菲
Original assignee: Beijing Audio Visual Speaking Technology Co ltd; Natural Semantics Qingdao Technology Co ltd
Current assignee: Beijing Audio Visual Speaking Technology Co ltd; Natural Semantics Qingdao Technology Co ltd
Priority date: 2024-01-19
Filing date: 2024-01-19
Publication date: 2024-02-23
Anticipated expiration: 2044-01-19
Also published as: CN117596433B

Abstract

本发明涉及教育技术领域，具体涉及一种基于时间轴微调的国际中文教学视听课件编辑系统，包括视频解析模块、字幕识别处理模块、时间轴分析模块、视频剪辑模块、分层交互集成模块、个性化内容生成模块以及课件整合生成模块；其中，视频解析模块：用于解析输入的教学视频文件；字幕识别处理模块：识别并提取视频中的字幕文本数据，生成标准化的文本数据流；时间轴分析模块：用于指导视频剪辑模块的操作；视频剪辑模块：使用时间轴分析模块提供的时间标记数据。本发明，通过自动化和智能化的视频编辑流程提高教学视频的制作效率和质量，同时强化了视频的个性化和互动性，保证了其在多种平台的兼容性和广泛可接入性。

Description

一种基于时间轴微调的国际中文教学视听课件编辑系统

技术领域

本发明涉及教育技术领域，尤其涉及一种基于时间轴微调的国际中文教学视听课件编辑系统。

背景技术

随着数字化教学的迅速发展和多媒体技术的广泛应用，短视频已成为现代教学中一个重要的工具，特别是在语言教学领域，视听课件的使用极大地丰富了教学内容和手段，提高了学生的学习兴趣和效率，然而，随着教育需求的多样化和个性化，传统的纸质教材已难以满足所有学习者的需求，特别是对于中文这样一个具有表意文字和高语境特征的语言，标准化的教材在满足不同学习者具体需求方面面临挑战。

现有的视频编辑技术主要聚焦于影视制作的效果和功能，对于教育领域中特有的需求，如个性化学习路径、互动性强的学习环境、以及对方言和口音的准确识别和处理等方面，尚缺乏有效的解决方案，此外，视频教学资源的制作和编辑过程通常时间消耗大，对教师和教材制作者的技术要求高，这限制了短视频教学资源个性化和高效制作的可能性。

因此，急需一种能够自动化并个性化处理教学视频内容的系统，以适应不同学习者的需求，同时提高视频教学资源制作的效率和质量。

发明内容

基于上述目的，本发明提供了一种基于时间轴微调的国际中文教学视听课件编辑系统。

一种基于时间轴微调的国际中文教学视听课件编辑系统，包括视频解析模块、字幕识别处理模块、时间轴分析模块、视频剪辑模块、分层交互集成模块、个性化内容生成模块以及课件整合生成模块；其中，

视频解析模块：用于解析输入的教学视频文件，提取视频中的音频和视觉数据，以生成数据流来作为后续模块的输入基础；

字幕识别处理模块：接收视频解析模块的输出，通过自然语言处理技术，识别并提取视频中的字幕文本数据，生成标准化的文本数据流；

时间轴分析模块：接收字幕识别处理模块文本数据流，并结合视频解析模块提供的视觉数据，分析确定关键教学点的时间码，输出为时间标记的关键教学点，用于指导视频剪辑模块的操作；

视频剪辑模块：使用时间轴分析模块提供的时间标记数据，对原始视频进行剪辑和重组；

分层交互集成模块：结合字幕识别与处理模块的文本数据和视频剪辑模块的输出，创建能交互的字幕和注释；

个性化内容生成模块：根据用户反馈和学习数据，调整视频内容和难度，并分析来自用户的互动数据，结合视频剪辑模块的输出来优化课件内容；

课件整合生成模块：将所有模块的输出整合成统一的、多平台兼容的视频格式，确保编辑后的课件能在不同的设备和平台上流畅播放。

进一步的，所述视频解析模块包括视频数据分离单元、音频处理单元、视觉数据优化单元、数据流同步单元以及数据流封装单元；其中，

视频数据分离单元：通过使用编解码技术，将输入的教学视频文件进行数据流分离，具体包括将视频文件分解为独立的音频和视觉数据流；

音频处理单元：应用数字信号处理技术，对分离出的音频数据流进行处理，包括音频信号的放大、噪声减少和音频范围的调整，以提高语音清晰度和质量；

视觉数据优化单元：利用图像处理算法对分离出的视觉数据流进行优化处理，包括图像稳定、色彩校正以及亮度和对比度的调整；

数据流同步单元：通过时间戳和帧同步技术，实现音频和视觉数据流的同步，以将音频与视频图像在时间上一致，为视频剪辑和后续处理提供同步的数据流；

数据流封装单元：采用标准的多媒体容器格式，对优化后的音频和视觉数据流进行重新封装，以生成统一的数据格式。

进一步的，所述字幕识别处理模块包括字幕提取单元、自然语言处理单元、方言口音处理单元、文本标准化单元以及数据流输出单元；其中，

字幕提取单元：接收视频解析模块的输出，并通过图像识别和文本提取技术从视频数据流中识别和提取字幕，该字幕提取单元在取技过程中还通过使用光学字符识别OCR技术，来保证字幕文本提取的精度；

自然语言处理单元：利用机器学习和深度学习模型对提取的字幕文本进行自然语言处理，包括分词、词性标注、语义分析和句法解析；

方言口音处理单元：通过集成多种方言和口音的语言模型，来处理视频中的方言和口音变体，以识别并标准化不同地区和群体的语言表达；

文本标准化单元：通过自然语言处理技术对处理后的字幕文本进行标准化，具体包括纠正识别错误、统一术语和短语的使用，形成生成标准化的文本数据流。

进一步的，所述字幕提取单元中从视频数据流中识别和提取字幕具体步骤为：

S1：接收视频解析模块输出的视觉数据流，并对视频帧进行预处理包括灰度化、二值化和噪声滤除，所述灰度化是将彩色图像转换为灰度图像的过程，具体公式为：，其中，R，G，B分别是红、绿、蓝色通道的像素值，/>是灰度图像，二值化是使用固定阈值或自适应阈值方法将灰度图像转换为黑白图像的过程；

S2：进行字幕区域定位步骤，具体采用边缘检测和区域增长算法图像分割技术，来定位字幕区域；

S3：在定位的字幕区域应用光学字符识别技术来提取文字，光学字符识别包括字符分割、特征提取和字符识别三个子步骤；

S4：通过文本校对算法对OCR输出的文字进行后处理，包括校正错别字、统一文字格式。

进一步的，所述时间轴分析模块包括关键帧提取单元、文本关键帧匹配单元、时间码分析单元以及时间标记输出单元；其中，

关键帧提取单元：利用帧差分法从视频解析模块接收的视觉数据流中提取关键帧，并通过比较连续帧之间的像素差异来确定关键帧，具体关键帧的提取公式表示为：，其中，/>和/>分别表示连续的两帧，/>表示它们之间的差异度；

文本关键帧匹配单元：结合字幕识别处理模块提供的文本数据流和关键帧提取单元的输出，对字幕文本与视频中的关键帧进行匹配；

时间码分析单元：基于文本与关键帧的匹配结果，确定关键教学点的时间码，具体使用动态时间规整DTW算法，来匹配字幕文本与关键帧的时间序列，该DTW算法是通过计算最小累积距离来找到最佳匹配路径，具体公式为：

，其中，/>表示序列间的距离；

时间标记输出单元：将确定的关键教学点的时间码格式化为时间标记，输出到视频剪辑模块，以便于视频剪辑模块进行精准剪辑。

进一步的，所述视频剪辑模块包括时间码导向剪辑单元、视频重组单元以及播放速度调整单元；其中，

时间码导向剪辑单元：接收时间轴分析模块确定的关键教学点的时间标记，并根据该时间标记对原始视频进行剪辑，具体剪辑操作基于非线性视频编辑技术，允许从原始视频中精确地选择和提取特定的帧序列，剪辑过程表示为：

，其中，/>表示剪辑后的视频序列，/>表示在时间t的帧，表示所有关键时间点的集合；

视频重组单元：对剪辑后的视频帧序列进行重组，以形成连续且流畅的视频片段，具体使用视频融合技术，确保不同片段之间过渡自然，无明显的剪辑痕迹；

播放速度调整单元：根据教学内容的需要调整视频的播放速度，具体利用时间伸缩算法，来调整视频播放速度而不失真。

进一步的，所述分层交互集成模块包括字幕生成单元、语音输出控制单元、动态注释整合单元、用户交互响应单元以及互动数据记录单元；其中，

交互式字幕生成单元：接收字幕识别处理模块的文本数据流，并结合视频剪辑模块的输出，使用文本叠加技术，将字幕文本以交互式图层的形式覆盖在视频帧上，或隐藏原有视频中的嵌入式硬字幕，用户播放视频时可选择隐藏或显示字幕，该交互式图层允许用户点击字幕中的特定词汇或短语，触发相关的动作或显示附加信息；

语音输出控制单元：通过基于卷积神经网络CNN的方法，通过训练神经网络模型来深度学习音频信号的特征，并根据这些特征将背景声音和人物语音分离出来，并通过方法大量的训练数据提高分离效果，允许学生能选择进行配音练习；

动态注释整合单元：根据视频内容和字幕文本创建动态注释，该单元具体使用数据绑定技术，将注释内容与视频中的特定时间点或元素关联起来，具体当视频展示某一关键概念时，注释将会自动显示解释或补充信息；

用户交互响应单元：使用事件监听技术来处理用户与交互式字幕和注释的互动，以响应用户的点击或选择操作，并根据操作提供反馈包括显示详细信息、播放相关视频片段或跳转至相关教学材料；

互动数据记录单元：记录用户与交互式元素的互动数据，包括点击频率、停留时间和用户选择路径。

进一步的，所述个性化内容生成模块包括用户反馈分析单元、内容难度调整单元以及视频个性化剪辑单元；其中，

用户反馈分析单元：用于收集并分析用户在观看视频过程中的反馈和互动数据，包括观看时间、重复观看的部分、暂停和跳过的片段，具体分析使用聚类分析来识别用户的学习偏好和难点，该聚类分析将通过K-均值算法实现数据挖掘，具体挖掘公式为：，其中，/>是簇/>的中心点，/>是簇/>中的数据点集合；

内容难度调整单元：使用自适应学习算法根据用户的学习反馈动态调整视频内容的难度和深度，具体算法采用基于用户学习进度的难度调整模型，具体算法公式表示为：其中，/>表示新的难度级别，/>是当前难度级别，/>是基于用户学习效果的调整系数，/>是用户的学习效果评分，/>是预定的学习效果阈值；

视频个性化剪辑单元：根据用户的学习行为和理解程度，对视频进行个性化剪辑，采用基于用户反馈的剪辑决策模型，具体公式表示为：

，其中，/>是剪辑后的视频序列，/>表示视频的第/>个片段，/>是用户对第/>个片段的兴趣权重，n是视频片段的总数。

进一步的，所述课件整合生成模块具体包括多格式视频编码单元、视频质量优化单元、视频容器封装单元以及跨平台兼容性测试单元；其中，

多格式视频编码单元：接收来自系统所有模块的视频数据，并将其编码为多种格式，以确保兼容性，具体采用H.264、VP9和HEVC的编码标准，使视频能够被广泛的设备和平台支持；

视频质量优化单元：在编码过程中对视频进行质量优化，包括分辨率调整、比特率控制和压缩噪声减少；

视频容器封装单元：将编码后的视频数据封装到不同的视频容器格式中，视频容器格式包括MP4、WebM或MKV；

跨平台兼容性测试单元：对封装后的视频文件进行兼容性测试，确保视频文件能够在不同操作系统、浏览器和设备上正常播放，兼容性测试包括在Windows、macOS、iOS和Android平台上进行播放测试。

本发明的有益效果：

本发明，通过集成先进的语音和图像识别技术，系统能够快速准确地处理语言的多样性，包括方言和口音，从而大幅减少了传统视频编辑所需的手动工作量，同时，通过自动化的时间轴分析和个性化剪辑，本系统不仅确保视听课件语境的完整，而且提高了视频制作的灵活度和速度，还提升了教学视频的专业性和针对性，使之更加适合教学目的。

本发明，通过引入个性化内容生成模块和分层交互集成模块，大大增强了教学视频的个性化和互动性，个性化模块根据学习者的需求及反馈和学习行为动态调整视频内容和难度，使学习过程更加贴合每个学习者的特定需求，分层交互集成模块则允许在视频中加入交互式字幕和注释，增加了学习者的参与度，提升了学习体验和效果。

本发明，通过支持多种视频格式和进行兼容性测试，本系统的输出视频适用于各类操作系统和设备，从而扩大了教学视频的可接入范围，这一特点特别适合当前多元化的教育环境，如线上教学、远程学习等，保证了所有学习者都能够无障碍地访问和使用教学资源。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的国际中文教学视听课件编辑系统示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如图1所示，一种基于时间轴微调的国际中文教学视听课件编辑系统，包括视频解析模块、字幕识别处理模块、时间轴分析模块、视频剪辑模块、分层交互集成模块、个性化内容生成模块以及课件整合生成模块；其中，

字幕识别处理模块：接收视频解析模块的输出，通过自然语言处理技术，识别并提取视频中的字幕文本数据，此字幕识别处理模块还能处理方言和口音的变体，生成标准化的文本数据流；

视频剪辑模块：使用时间轴分析模块提供的时间标记数据，对原始视频进行剪辑和重组，用于根据教学内容的需要调整视频的播放速度和顺序；

分层交互集成模块：结合字幕识别与处理模块的文本数据和视频剪辑模块的输出，创建能交互的字幕和注释，以增强学习体验；

视频解析模块包括视频数据分离单元、音频处理单元、视觉数据优化单元、数据流同步单元以及数据流封装单元；其中，

视频数据分离单元：通过使用编解码技术，将输入的教学视频文件进行数据流分离，具体包括将视频文件分解为独立的音频和视觉数据流，此单元确保音频和视觉数据的完整性和高保真度，为后续处理提供基础；

音频处理单元：应用数字信号处理技术，对分离出的音频数据流进行处理，包括音频信号的放大、噪声减少和音频范围的调整，以提高语音清晰度和质量，以便更好地用于教学内容的解析和展示；

视觉数据优化单元：利用图像处理算法对分离出的视觉数据流进行优化处理，包括图像稳定、色彩校正以及亮度和对比度的调整，此单元旨在增强视频图像的清晰度和视觉效果，确保视觉内容的质量和教学有效性；

数据流封装单元：采用标准的多媒体容器格式，对优化后的音频和视觉数据流进行重新封装，以生成统一的数据格式，以便于系统中其他模块的处理和分析。

字幕识别处理模块包括字幕提取单元、自然语言处理单元、方言口音处理单元、文本标准化单元以及数据流输出单元；其中，

自然语言处理单元：利用机器学习和深度学习模型对提取的字幕文本进行自然语言处理，包括分词、词性标注、语义分析和句法解析，以实现对字幕内容的高效处理和理解；

方言口音处理单元：通过集成多种方言和口音的语言模型，来处理视频中的方言和口音变体，以识别并标准化不同地区和群体的语言表达，确保字幕的普遍可理解性；

文本标准化单元：通过自然语言处理技术对处理后的字幕文本进行标准化，具体包括纠正识别错误、统一术语和短语的使用，形成生成标准化的文本数据流，来确保字幕文本的标准化和准确性，为时间轴分析模块和其他相关模块提供清晰、准确的文本数据流。

字幕提取单元中从视频数据流中识别和提取字幕具体步骤为：

S1：接收视频解析模块输出的视觉数据流，并对视频帧进行预处理包括灰度化、二值化和噪声滤除，灰度化是将彩色图像转换为灰度图像的过程，具体公式为：，其中，R，G，B分别是红、绿、蓝色通道的像素值，/>是灰度图像，二值化是使用固定阈值或自适应阈值方法将灰度图像转换为黑白图像的过程；

S2：进行字幕区域定位步骤，具体采用边缘检测和区域增长算法图像分割技术，来定位字幕区域，该边缘检测可以使用Canny算法，该算法通过计算图像的梯度来识别边缘；

S3：在定位的字幕区域应用光学字符识别技术来提取文字，光学字符识别包括字符分割、特征提取和字符识别三个子步骤，其中，特征提取涉及到形状、大小和笔画等特征的计算，而字符识别则通常基于机器学习算法，如支持向量机(SVM)或卷积神经网络(CNN)；

S4：通过文本校对算法对OCR输出的文字进行后处理，包括校正错别字、统一文字格式，以提高字幕文本的准确度和可读性。

时间轴分析模块包括关键帧提取单元、文本关键帧匹配单元、时间码分析单元以及时间标记输出单元；其中，

文本关键帧匹配单元：结合字幕识别处理模块提供的文本数据流和关键帧提取单元的输出，对字幕文本与视频中的关键帧进行匹配，这一步骤使用自然语言处理技术，如语义分析，以确保文本内容与关键帧的相关性；

，其中，/>表示序列间的距离；

时间标记输出单元：将确定的关键教学点的时间码格式化为时间标记，输出到视频剪辑模块，该单元确保每个关键教学点都有明确的时间标记，以便于视频剪辑模块进行精准剪辑；

该时间轴分析模块分析过程中时间的起点和终点，是以句子的完整为依据进行分析处理的。

视频剪辑模块包括时间码导向剪辑单元、视频重组单元以及播放速度调整单元；其中，

视频重组单元：对剪辑后的视频帧序列进行重组，以形成连续且流畅的视频片段，具体使用视频融合技术，确保不同片段之间过渡自然，无明显的剪辑痕迹，视频重组过程中，可能涉及到帧内插值技术，以平滑帧与帧之间的过渡；

播放速度调整单元：根据教学内容的需要调整视频的播放速度，具体利用时间伸缩算法，来调整视频播放速度而不失真，该算法通过在连续帧之间插入新帧或去除现有帧来实现速度调整，以保持视频的流畅性。

分层交互集成模块包括字幕生成单元、语音输出控制单元、动态注释整合单元、用户交互响应单元以及互动数据记录单元；其中，

互动数据记录单元：记录用户与交互式元素的互动数据，包括点击频率、停留时间和用户选择路径，这些数据用于分析用户的学习行为，为个性化内容生成模块提供输入数据。

个性化内容生成模块包括用户反馈分析单元、内容难度调整单元以及视频个性化剪辑单元；其中，

内容难度调整单元：使用自适应学习算法根据用户的学习反馈动态调整视频内容的难度和深度，具体算法采用基于用户学习进度的难度调整模型，具体算法公式表示为：其中，/>表示新的难度级别，/>是当前难度级别，/>是基于用户学习效果的调整系数，/>是用户的学习效果评分，可能考虑错误率、完成时间等因素，/>是预定的学习效果阈值，此公式通过考虑用户的实际学习效果相对于预期效果的差距来调整难度，使教学内容更贴合用户的实际需求；

，其中，/>是剪辑后的视频序列，/>表示视频的第/>个片段，/>是用户对第/>个片段的兴趣权重，n是视频片段的总数，在这个公式中，视频片段的剪辑不仅考虑了用户的兴趣，还考虑了每个片段的难度评估，从而更全面地满足用户的学习需求。

课件整合生成模块具体包括多格式视频编码单元、视频质量优化单元、视频容器封装单元以及跨平台兼容性测试单元；其中，

视频质量优化单元：在编码过程中对视频进行质量优化，包括分辨率调整、比特率控制和压缩噪声减少，这些优化确保视频在不同设备上的播放质量，同时保持文件大小在合理范围内；

视频容器封装单元：将编码后的视频数据封装到不同的视频容器格式中，视频容器格式包括MP4、WebM或MKV，该单元确保视频文件包含所有必要的元数据，如音频轨道、字幕和关键帧信息，以便于不同播放器和设备的解析和播放；

本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于时间轴微调的国际中文教学视听课件编辑系统，其特征在于，包括视频解析模块、字幕识别处理模块、时间轴分析模块、视频剪辑模块、分层交互集成模块、个性化内容生成模块以及课件整合生成模块；其中，

2.根据权利要求1所述的一种基于时间轴微调的国际中文教学视听课件编辑系统，其特征在于，所述视频解析模块包括视频数据分离单元、音频处理单元、视觉数据优化单元、数据流同步单元以及数据流封装单元；其中，

3.根据权利要求2所述的一种基于时间轴微调的国际中文教学视听课件编辑系统，其特征在于，所述字幕识别处理模块包括字幕提取单元、自然语言处理单元、方言口音处理单元、文本标准化单元以及数据流输出单元；其中，

4.根据权利要求3所述的一种基于时间轴微调的国际中文教学视听课件编辑系统，其特征在于，所述字幕提取单元中从视频数据流中识别和提取字幕具体步骤为：

5.根据权利要求4所述的一种基于时间轴微调的国际中文教学视听课件编辑系统，其特征在于，所述时间轴分析模块包括关键帧提取单元、文本关键帧匹配单元、时间码分析单元以及时间标记输出单元；其中，

，其中，/>表示序列间的距离；

6.根据权利要求5所述的一种基于时间轴微调的国际中文教学视听课件编辑系统，其特征在于，所述视频剪辑模块包括时间码导向剪辑单元、视频重组单元以及播放速度调整单元；其中，

，其中，/>表示剪辑后的视频序列，/>表示在时间t的帧，/>表示所有关键时间点的集合；

7.根据权利要求6所述的一种基于时间轴微调的国际中文教学视听课件编辑系统，其特征在于，所述分层交互集成模块包括字幕生成单元、语音输出控制单元、动态注释整合单元、用户交互响应单元以及互动数据记录单元；其中，

语音输出控制单元，通过基于卷积神经网络CNN的方法，来训练神经网络模型来深度学习音频信号的特征，并根据该特征将背景声音和人物语音分离出来，该语音输出控制单元还通过大量的训练数据提高分离效果，允许学生能选择进行配音练习；

8.根据权利要求7所述的一种基于时间轴微调的国际中文教学视听课件编辑系统，其特征在于，所述个性化内容生成模块包括用户反馈分析单元、内容难度调整单元以及视频个性化剪辑单元；其中，

9.根据权利要求8所述的一种基于时间轴微调的国际中文教学视听课件编辑系统，其特征在于，所述课件整合生成模块具体包括多格式视频编码单元、视频质量优化单元、视频容器封装单元以及跨平台兼容性测试单元；其中，