CN111510765A

CN111510765A - 基于教学视频的音频标签智能标注方法及装置

Info

Publication number: CN111510765A
Application number: CN202010367020.8A
Authority: CN
Inventors: 张新华; 王朝选; 顾佳槟; 郭弘毅
Original assignee: Zhejiang Lancoo Technology Co ltd
Current assignee: Zhejiang Lancoo Technology Co ltd
Priority date: 2020-04-30
Filing date: 2020-04-30
Publication date: 2020-08-07
Anticipated expiration: 2040-04-30
Also published as: CN111510765B

Abstract

本申请涉及互联网教学领域，公开了一种基于教学视频的音频标签智能标注方法及装置，该基于教学视频的音频标签智能标注方法包括：获得教学视频对应的音频文件中每个音频片段的文本信息的知识点；分别根据所述音频文件及其各个音频片段所对应的教学课件的知识点集合中的各个知识点的重要度，确定该音频文件的全局知识标签以及各个音频片段的局部知识标签；输出所述音频文件的全局知识标签以及该音频文件的各个音频片段的局部知识标签。

Description

基于教学视频的音频标签智能标注方法及装置

技术领域

本申请涉及互联网领域，特别涉及互联网教学技术。

背景技术

随着互联网技术在教学中的普及，视频教学已逐渐成为一种主流的授课和学习模式。为了保障学习者能够快速获取视频中讲解的主要知识、以及定位各知识所讲解的时间片段，需要对视频中的知识进行标注。

目前，有些在线教学平台采用人工标注的方式，将视频中的各音频段讲授的知识进行标注，但由于人的处理能力有限，且容易产生疏漏，因此无论是效率，还是准确度，都不尽如人意。

发明内容

本申请的目的在于提供一种基于教学视频的音频标签智能标注方法及装置，能够更准确，更高效地对教学视频的音频文件及其音频片段进行全局和局部的内容标识。

本申请公开了一种基于教学视频的音频标签智能标注方法，包括：

获得教学视频对应的音频文件中每个音频片段的文本信息的知识点；

分别根据所述音频文件及其各个音频片段所对应的教学课件的知识点集合中的各个知识点的重要度，确定该音频文件的全局知识标签以及各个音频片段的局部知识标签；

输出所述音频文件的全局知识标签以及该音频文件的各个音频片段的局部知识标签。

在一个优选例中，其他主要在有，所述获得教学视频对应的音频文件中每个音频片段的文本信息的知识点，包括：

由所述教学视频获取对应的音频文件及经过分割后的音频片段；

以多线程并行地方式将所述音频文件中的音频片段转换为文本信息；

根据已构建的学科知识点库，以及所述音频文件对应的文本信息，确定所述音频文件对应的知识点集合。

在一个优选例中，所述由教学视频获取对应的音频文件及经过分割后的音频片段，包括：

对所述教学视频进行音频格式转换，获得音频文件；

对所述音频文件进行频域降噪和时域降噪的静音处理；

针对静音处理后的所述音频文件的音频幅值进行均衡；

将所述音频文件分割为预设的长度，以形成音频片段，其中，先按照所述音频文件的静音处理的静音时域，将所述音频文件切分为若干音频片段；再对长度小于预设阈值的前后多个音频片段进行合并，使合并后的每个音频片段的长度都符合预设的阈值范围。

在一个优选例中，所述分别根据所述音频文件及其各个音频片段所对应的教学课件的知识点集合中的各个知识点的重要度，确定该音频文件的全局知识标签以及各个音频片段的局部知识标签，包括：

在所述音频文件对应的知识点集合中筛选出属于该音频文件对应的教学课件的知识点集合；

根据所述音频文件对应的教学课件的知识点集合中的各个知识点对于该音频文件的重要度，确定该音频文件的全局知识标签。

在一个优选例中，所述根据所述音频文件对应的教学课件的知识点集合中的各个知识点对于该音频文件的重要度，确定该音频文件的全局知识标签中，根据所述音频文件的对应教学课件的知识点集合中，各个知识点在该音频文件对应的文本信息中出现的跨度和次数进行以下计算：

式中，T_u表示第u个知识点的对所述音频文件的重要度；v表示所述音频文件对应的教学课件的知识点集合中的知识点数量，A_u表示第u个知识点出现的次数；B_u表示第u个知识点最后一次出现在该音频文件对应的文本信息中的位置，C_u表示第u个知识点第一次出现在该音频文件对应的文本信息中的位置，S表示该音频文件中所有字符的数量和。

将知识点集合的相似度大于阈值的相邻两个音频片段进行合并；

根据合并后的每个所述音频片段对应的教学课件的知识点集合中的各个知识点对于该音频片段的重要度，确定该音频片段的局部知识标签。

在一个优选例中，所述根据合并后的每个所述音频片段对应的教学课件的知识点集合中的各个知识点对于该音频片段的重要度，确定该音频片段的局部知识标签中，进行以下计算：

其中，D_m,n表示音频文件中的第n个音频片段中，第m个知识点对该音频片段的重要度；l表示该音频片段中的知识点数量，w_m,n表示第n个音频片段中第m个知识点出现的次数；Q表示该音频文件所有的音频片段的数量，qm表示包含m个知识点的音频片段的数量。

在一个优选例中，所述输出所述音频文件的全局知识标签以及该音频文件的各个音频片段的局部知识标签，包括：对所述音频文件的全局知识标签以及该音频文件的各音频片段的局部知识标签进行标识，并输出所述音频文件的全局知识标签以及所述音频文件的各个音频片段的局部知识标签。

本申请还公开了一种基于教学视频的音频标签智能标注装置包括：

存储器，用于存储计算机可执行指令；以及，

处理器，用于在执行所述计算机可执行指令时实现如前文描述的方法中的步骤。

本申请还公开了一种计算机可读存储介质所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如前文描述的方法中的步骤。

本申请实施方式中，基于对原始的音频文件的静音处理及音频分割后获得的音频文件及其音频片段，进一步地基于构建的知识点库，根据不同学科、不同教学阶段的知识点集合，对音频文件对应的文本信息进行分词，这样做的好处在于，可以快速获取音频文件或其音频片段所对应的有效知识点信息。

进一步的，根据音频文件中各个知识点出现的频次和跨度，可计算出各个知识点对整个音频的重要度，从而有效地确定音频文件的主要知识内容；另一方面，根据音频文件各个时间片段的音频片段的知识点的相似程度进行合并，从而有效地区分了各个时间片段的讲解知识内容，即，使具有高相似度的音频片段合并为一个音频片段；进一步地，根据各个时间片段的音频片段的知识点的出现频次，以及在其它时间片段的音频片段出现的情况，计算各个音频片段的知识点的重要程度，从而有效地确定了各个音频片段的主要知识内容，由此，更准确，更高效地对音频文件及其音频片段进行了全局和局部的内容标识。

本申请的说明书中记载了大量的技术特征，分布在各个技术方案中，如果要罗列出本申请所有可能的技术特征的组合(即技术方案)的话，会使得说明书过于冗长。为了避免这个问题，本申请上述发明内容中公开的各个技术特征、在下文各个实施方式和例子中公开的各技术特征、以及附图中公开的各个技术特征，都可以自由地互相组合，从而构成各种新的技术方案(这些技术方案均因视为在本说明书中已经记载)，除非这种技术特征的组合在技术上是不可行的。例如，在一个例子中公开了特征A+B+C，在另一个例子中公开了特征A+B+D+E，而特征C和D是起到相同作用的等同技术手段，技术上只要择一使用即可，不可能同时采用，特征E技术上可以与特征C相组合，则，A+B+C+D的方案因技术不可行而应当不被视为已经记载，而A+B+C+E的方案应当视为已经被记载。

附图说明

图1是根据本申请第一实施方式的基于教学视频的音频标签智能标注方法的流程示意图；

图2是根据本申请第二实施方式的基于教学视频的音频标签智能标注装置的结构示意图；

图3是根据本申请的实施例的基于教学视频的音频标签智能标注方法和装置的原理示意图。

具体实施方式

在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请所要求保护的技术方案。

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请的实施方式作进一步地详细描述。

本申请的第一实施方式涉及一种基于教学视频的音频标签智能标注方法，其流程如图1和图3所示，该方法包括以下步骤：

步骤110:获得教学视频对应的音频文件中每个音频片段的文本信息的知识点。

步骤1102：进行预处理，即，由教学视频获取对应的音频文件及经过分割后的音频片段。

优选地，预处理中可以包含以下步骤：对教学视频进行音频格式转换，对音频文件进行静音处理，对降噪后的音频文件的音频幅值进行均衡，以及对音频文件进行分割。具体包括以下子步骤：

步骤1102a，对教学视频进行音频格式转换，具体的，根据语音识别对音频的编码、采样率、采样精度、长度、声道等要求的要求进行音频格式转换，获得音频文件。

例如，语音识别对编码的要求可以是PCM编码。

例如，语音识别对采样率的要求可以是16KHz。

例如，采样精度的要求可以是16bits。

例如，长度的要求可以是不超过10s，这与句子级别的长度是相适应的，有利于识别速度和识别精度。

例如，声道的要求可以是单声道。

优选地，可采用FFmpeg开源音/视频处理库进行音频格式转换。

步骤1102b，对于音频文件进行静音处理，根据教室环境的噪声特点，有针对性地滤除部分噪声，包括频域和时域降噪，以提高音频文件的语音识别准确率。

首先对音频文件进行频域降噪，可采用基于小波阈值函数的自适应降噪法，滤除低频、高频噪声。

然后对音频文件进行时域降噪，可将教室场景的麦克风或拾音器作为中心，依据收声距离造成的“教师>学生>环境噪声”音量分贝大小关系，提出“低分贝静音时域降噪法”，即，将低于某个预定阈值的分贝的时间段的音量设为静音。更具体的，在本步骤中可以包括以下步骤：①对频域降噪后的音频文件的音频采样点的幅值求绝对值；②根据该幅值绝对值，采用低通滤波器降低音频文件的毛刺等高频信号；③对滤波后的音频文件求包络面；④根据该包络面计算音频文件的静音门限值

(n可设为经验值、也可采用自适应的方式调整)，将音频文件的音频中采样点幅值的绝对值低于此门限值的部分设为静音。

步骤1102c，针对静音处理后的音频文件的音频幅值进行均衡，以提高音频文件的语音识别准确率。

具体的，将音频文件的音频按照y＝k·x的方式进行音量线性放大。

其中，y为音频文件的输出分贝，x为音频文件的输入分贝；k>1为放大，k<1(k可设为经验值、也可采用自适应的方式调整)为抑制。

步骤1102d，将音频文件分割为预设的长度。

具体的，将音频文件分割成若干预设长度范围内的音频片段。

对音频文件进行上述音频分割的目的在于，提高音频文件的语音识别准确率和速度。

优选地，可采用开源pydub音频处理库对音频文件进行音频分割，包括以下两步骤：首先，按照音频文件的静音处理的静音时域，将音频文件切分为若干音频片段；然后，再对长度小于预设阈值的前后多个音频片段进行合并，使合并后的每个音频片段的长度都符合阈值范围。

例如，合并后的音频片段的阈值范围可以是5-10s。

需指出，上述对教学视频的音频预处理的好处在于：

1)针对教室录播或拾音等教学环境，采用“低分贝静音时域降噪法”对音频进行降噪，可提高教学视频对应的音频文件的音频质量。

2)按照静音时域对音频文件进行分割，充分考虑了人在说话的场景下会有自然的不可预期的停顿，结合这种停顿对音频文件进行分割，有利于在后续的对音频文件进行音频转换文本信息，以及知识点识别过程中，可多线程并行处理各音频片段，这样做，不但显著提高了处理速度，同时还有效地减少了机械性地设置语句间断所导致的知识点信息识别不准确的问题，从而有效地提高了知识点信息识别的准确率。

因此，经预处理后的音频文件能够更好地满足教学条件下的语音识别要求，同时显著提高了教学视频对应的音频文件的语音识别的准确率和速度。

步骤1104：以多线程并行地方式将所述音频文件中的音频片段转换为文本信息。

经上述音频预处理之后的音频文件，通过语音识别技术，多线程并行地处理音频文件中的多个音频片段，将音频文件转换成文本信息。

优选地，可以使用百度语音识别引擎进行音频转换文本信息的处理。

例如：某一音频文件的文本信息为R{R₁(r₁₁,r₁₂,...,r_1a),R₂(r₂₁,r₂₂,...,r_2b),...,R_i(r_i1,r_i2,...,r_ic)}，其中,i表示i个音频片段，r_ic表示i音频片段识别的第c个字符。

步骤1106：根据已构建的学科知识点库，以及所述音频文件对应的文本信息，确定所述音频文件对应的知识点集合。

优选地，可以基于已构建的学科知识点库，对音频文件对应的文本信息进行分词，获取分词后的字词集合，该字词集合即音频文件对应的知识点集合。

需指出，上述构建的学科知识点库，是根据不同学科、不同学习阶段的教学大纲、考试大纲收集的相互独立的知识点库，可以是人工收集，也可以是计算机自动收集。

由此，基于对原始的音频文件的静音处理及音频分割后获得的音频文件及其音频片段，进一步地基于构建的知识点库，根据不同学科、不同教学阶段的知识点集合，对音频文件对应的文本信息进行分词，这样做的好处在于，可以快速获取音频文件或其音频片段所对应的有效知识点信息。

步骤120：分别根据所述音频文件及其各个音频片段所对应的教学课件的知识点集合中的各个知识点的重要度，确定该音频文件的全局知识标签以及各个音频片段的局部知识标签。

优选地，本步骤包含以下子步骤：

步骤1202：在所述音频文件对应的知识点集合中筛选出属于该音频文件对应的教学课件的知识点集合。

优选地，可以通过以下方式实现：首先，根据导入的音频文件对应的教学课件(或教案)，基于构建的学科知识点库，获取分词后的知识点集合；然后，将音频文件的知识点集合中不属于该教学课件的知识点予以排除，从而更新该音频文件对应的知识点集合。

步骤1204：根据所述音频文件对应的教学课件的知识点集合中的各个知识点对于该音频文件的重要度，确定该音频文件的全局知识标签。

具体的，对于音频文件对应的教学课件的知识点集合中的每个知识点，计算该知识点对整个音频文件的重要度，并按照重要度的降序对各个知识点排序，将排序靠前的若干知识点作为该音频文件的全局知识标签。

优选地，可根据音频文件的对应教学课件的知识点集合中，各个知识点在该音频文件对应的文本信息中出现的跨度和次数进行以下具体地计算：

其中，T_u表示第u个知识点的对音频文件的重要度；v表示音频文件对应的教学课件的知识点集合中的知识点数量，A_u表示第u个知识点出现的次数；B_u表示第u个知识点最后出现的位置，即，该知识点的第一个字符最后一次出现在该音频文件对应的文本信息(或音频字符串)中的位置，C_u表示第u个知识点第一次出现在该音频文件对应的文本信息中的位置，S表示该音频文件中所有字符的数量和。

例如，音频文件有字符串“asdefsg”，则“s”字符第一次出现的位置为第2个，最后一个出现的位置为第6个。

优选地，也可以根据音频文件对应的教学课件的知识点集合中的每个知识点在整个音频文件中出现的频次，以及在整个教学课件中出现的频次确定。具体的，统计各知识点在整个音频文件中出现的频次和在整个教学课件中出现频次的和，按照频次和的值，对知识点按照从多到少降序排序，将排序靠前的若干知识点作为该音频文件的全局知识标签。

优选地，还可以根据音频知识点集合中各知识点在整个音频文件中出现的频次判定，即，统计各知识点在整个音频文件中出现的频次，并按照各知识点的出现频次，从多到少进行降序排序，将排序靠前的若干知识点作为该音频的全局知识标签。

步骤1206：对相邻的并且对应的知识点集合的相似度大于阈值的音频片段进行合并。

优选地，音频片段对应的教学课件的知识点集合的获得方式，可以类似于音频文件对应的教学课件的知识点集合，在此不做赘述。

优选地，可以选择音频片段对应的知识库的知识点集合，也可以选择音频片段对应的教学课件的知识点集合。

优选地，如前所述，对于音频文件中的音频片段，计算前后两相邻音频片段的对应的教学课件的知识点集合的相似程度，将相似程度大于阈值的两片段进行合并，以此类推，直到完成所有音频片段合并，并根据合并后的音频片段，更新最新音频片段信息。例如，对于相邻的音频片段A、音频片段B和音频片段C，如果音频片段A对应的知识点集合和与音频片段B对应的知识点集合之间的相似度大于阈值，则将两者合并为音频片段A+B，进一步的，如果音频片段A+B对应的知识点集合和与音频片段C对应的知识点集合之间的相似度也大于阈值，则进一步将它们合并为音频片段A+B+C。

优选地，可基于音频片段的知识点出现的频次，生成相邻两个音频片段的词频向量，计算两个向量的余弦相似度，将余弦相似度大于预设阈值的两音频片段进行合并。优选地，预设阈值可以是例如0.75。

优选地，还可以根据前后两个音频片段的文本信息，采用Jaccard相似度计算方式计算文本相似度，将相似度大于阈值的两个音频片段进行合并。

优选地，还可以采用SimRank模型计算两相邻音频片段文本的相似性，将相似度大于阈值的两个音频片段进行合并。

步骤1208：根据每个所述音频片段对应的教学课件的知识点集合中的各个知识点对于该音频片段的重要度，确定该音频片段的局部知识标签。

优选地，计算音频文件中的各音频片段对应教学课件的知识点集合中的每个知识点对于该音频片段的重要度，并按照重要度进行降序排列，将排序靠前的若干知识点作为该音频片段的局部知识标签。

优选地，可按照以下方式计算每个知识点对于该音频片段的重要度：

优选地，还可根据音频片段的各知识点在该音频片段出现的频次，对各知识点从多到少进行降序排序，将排序靠前的若干知识点作为该音频片段的局部知识标签。

优选地，还可以基于Textrank算法，根据各音频片段的文本信息及知识点建立图模型,利用投票机制对音频片段的知识点重要成分进行排序，以提取关键词，作为该音频片段的局部知识标签。

步骤130：输出所述音频文件的全局知识标签以及该音频文件的各个音频片段的局部知识标签。

优选地，根据上述判定结果，对音频文件的全局知识标签以及各音频片段的局部知识标签进行标识，输出最终的音频文件的全局知识标签以及该音频文件的各个音频片段的局部知识标签。

例如：一个教学视频讲述的内容是初中“一元一次方程的分式方程”，通过本方案中提出的方法，则最终输出的音频文件和标签标识信息为：

全局知识标签：[一元一次方程、分式、分式方程]；时间片段(单位是分钟)：[0:00-48:35]；

局部知识标签(局部知识标签中的知识点个数设置为1)：

局部知识标签1：[认识方程]；时间片段：[0:00-2:17]

局部知识标签2：[认识分式]；时间片段：[2:17-5:32]

局部知识标签3：[一元一次方程模型]；时间片段：[5:32-9:48]

局部知识标签4：[分式函数]；时间片段：[9:48-16:02]

局部知识标签5：[分式的通分]；时间片段：[16:02-24:23]

局部知识标签6：[换元法解分式方程]；时间片段：[24:23-33:55]

局部知识标签7：[分式的混合运算]；时间片段：[33:55-48:35]

在本说明书的实施例中，根据音频文件中各个知识点出现的频次和跨度，可计算出各个知识点对整个音频的重要度，从而有效地确定音频文件的主要知识内容；另一方面，根据音频文件各个时间片段的音频片段的知识点的相似程度进行合并，从而有效地区分了各个时间片段的讲解知识内容，即，使具有高相似度的音频片段合并为一个音频片段；进一步地，根据各个时间片段的音频片段的知识点的出现频次，以及在其它时间片段的音频片段出现的情况，计算各个音频片段的知识点的重要程度，从而有效地确定了各个音频片段的主要知识内容，由此，更准确，更高效地对音频文件及其音频片段进行了全局和局部的知识内容标识。

本申请的第二实施方式涉及一种基于教学视频的音频标签智能标注装置，其结构如图2和图3所示，该基于教学视频的音频标签智能标注装置包括：

知识点获取模块，用于获得教学视频对应的音频文件中每个音频片段的文本信息的知识点；

全局知识标签与局部知识标签确定模块，用于分别根据所述音频文件及其各个音频片段所对应的教学课件的知识点集合中的各个知识点的重要度，确定该音频文件的全局知识标签以及各个音频片段的局部知识标签；

输出模块，用于输出所述音频文件的全局知识标签以及该音频文件的各个音频片段的局部知识标签。

第一实施方式是与本实施方式相对应的方法实施方式，第一实施方式中的技术细节可以应用于本实施方式，本实施方式中的技术细节也可以应用于第一实施方式。

需要说明的是，本领域技术人员应当理解，上述基于教学视频的音频标签智能标注装置的实施方式中所示的各模块的实现功能可参照前述基于教学视频的音频标签智能标注装置的相关描述而理解。上述基于教学视频的音频标签智能标注装置的实施方式中所示的各模块的功能可通过运行于处理器上的程序(可执行指令)而实现，也可通过具体的逻辑电路而实现。本申请实施例上述基于教学视频的音频标签智能标注装置如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本申请各个实施例所述方法的全部或部分。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read Only Memory)、磁碟或者光盘等各种可以存储程序代码的介质。这样，本申请实施例不限制于任何特定的硬件和软件结合。

相应地，本申请实施方式还提供一种计算机存储介质，其中存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现本申请的各方法实施方式。

此外，本申请实施方式还提供一种基于教学视频的音频标签智能标注设备，其中包括用于存储计算机可执行指令的存储器，以及，处理器；该处理器用于在执行该存储器中的计算机可执行指令时实现上述各方法实施方式中的步骤。其中，该处理器可以是中央处理单元(Central Processing Unit，简称“CPU”)，还可以是其他通用处理器、数字信号处理器(Digital Signal Processor，简称“DSP”)、专用集成电路(Application SpecificIntegrated Circuit，简称“ASIC”)等。前述的存储器可以是只读存储器(read-onlymemory，简称“ROM”)、随机存取存储器(random access memory，简称“RAM”)、快闪存储器(Flash)、硬盘或者固态硬盘等。本发明各实施方式所公开的方法的步骤可以直接体现为硬件处理器执行完成，或者用处理器中的硬件及软件模块组合执行完成。

需要说明的是，在本专利的申请文件中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本专利的申请文件中，如果提到根据某要素执行某行为，则是指至少根据该要素执行该行为的意思，其中包括了两种情况：仅根据该要素执行该行为、和根据该要素和其它要素执行该行为。多个、多次、多种等表达包括2个、2次、2种以及2个以上、2次以上、2种以上。

在本申请提及的所有文献都被认为是整体性地包括在本申请的公开内容中，以便在必要时可以作为修改的依据。此外应理解，在阅读了本申请的上述公开内容之后，本领域技术人员可以对本申请作各种改动或修改，这些等价形式同样落于本申请所要求保护的范围。

Claims

1.一种基于教学视频的音频标签智能标注方法，其特征在于，包括：

2.如权利要求1所述的方法，其他主要在有，所述获得教学视频对应的音频文件中每个音频片段的文本信息的知识点，包括：

3.如权利要求2所述的方法，其特征在于，所述由教学视频获取对应的音频文件及经过分割后的音频片段，包括：

对所述教学视频进行音频格式转换，获得音频文件；

对所述音频文件进行频域降噪和时域降噪的静音处理；

针对静音处理后的所述音频文件的音频幅值进行均衡；

4.如权利要求1所述的方法，其特征在于，所述分别根据所述音频文件及其各个音频片段所对应的教学课件的知识点集合中的各个知识点的重要度，确定该音频文件的全局知识标签以及各个音频片段的局部知识标签，包括：

5.如权利要求4所述的方法，其特征在于，所述根据所述音频文件对应的教学课件的知识点集合中的各个知识点对于该音频文件的重要度，确定该音频文件的全局知识标签中，根据所述音频文件的对应教学课件的知识点集合中，进行以下计算：

6.如权利要求1所述的方法，所述分别根据所述音频文件及其各个音频片段所对应的教学课件的知识点集合中的各个知识点的重要度，确定该音频文件的全局知识标签以及各个音频片段的局部知识标签，包括：

7.如权利要求6所述的方法，其特征在于，所述根据合并后的每个所述音频片段对应的教学课件的知识点集合中的各个知识点对于该音频片段的重要度，确定该音频片段的局部知识标签中，进行以下计算：

其中，D_m,n表示所述音频文件中的第n个音频片段中，第m个知识点对该音频片段的重要度；l表示该音频片段中的知识点数量，w_m,n表示第n个音频片段中第m个知识点出现在该音频片段对应的文本信息中的次数；Q表示该音频文件所有的音频片段的数量，qm表示包含m个知识点的音频片段的数量。

8.如权利要求1所述的方法，其特征在于，所述输出所述音频文件的全局知识标签以及该音频文件的各个音频片段的局部知识标签，包括：对所述音频文件的全局知识标签以及该音频文件的各音频片段的局部知识标签进行标识，并输出所述音频文件的全局知识标签以及所述音频文件的各个音频片段的局部知识标签。

9.一种基于教学视频的音频标签智能标注装置，其特征在于，包括：

10.一种基于教学视频的音频标签智能标注设备，其特征在于，包括：

存储器，用于存储计算机可执行指令；以及，

处理器，用于在执行所述计算机可执行指令时实现如权利要求1至8中任意一项所述的方法中的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机可执行指令，所述计算机可执行指令被处理器执行时实现如权利要求1至8中任意一项所述的方法中的步骤。