CN116405621A

CN116405621A - 一种基于大数据云平台的线上线下联动学习系统

Info

Publication number: CN116405621A
Application number: CN202310489477.XA
Authority: CN
Inventors: 祁建春
Original assignee: Beijing Ideological World Education Technology Co ltd
Current assignee: Beijing Ideological World Education Technology Co ltd
Priority date: 2023-05-04
Filing date: 2023-05-04
Publication date: 2023-07-07
Anticipated expiration: 2043-05-04
Also published as: CN116405621B

Abstract

本发明涉及语音分析合成领域，尤其涉及一种基于大数据云平台的线上线下联动学习系统，包括采集单元，用以采集视频播放端中需分析视频的播放信息；段落划分单元，用以根据区域暂停次数确定暂停视频段；识别处理单元，用以对存在连续关系的暂停视频段进行合并处理，并根据处理完成的暂停视频段的平均暂停点数量调整合并后的暂停视频段的时长；特征分析单元，用以计算单个暂停视频段中各特征提取周期的语音特征度，并根据语音特征度判定特征提取周期的视频处理方式；语音处理单元，用以对特征提取周期的视频进行音量调节以及进行字幕匹配；本发明克服了现有技术中无法针对教学视频语音清晰度低的段落进行字幕匹配的问题。

Description

一种基于大数据云平台的线上线下联动学习系统

技术领域

本发明涉及语音分析合成领域，尤其涉及一种基于大数据云平台的线上线下联动学习系统。

背景技术

随着科学技术的进步，网络课程也日益兴起，但是一些网络课程是教师自行录制并上传，由此就存在由于录制效果或者发音问题导致的视频内语音不清晰的问题，从而影响课程的观看体验，因此如何确定网络课程中哪部分视频中声音不清以及如何对其进行处理是亟待解决的问题。

中国专利公开号CN111986656A公开了一种教学视频自动字幕处理方法与系统包括：通过对教学视频进行图像/声音数据拆解与划分、语音识别、文字片段转换、字幕片段编辑与添加以及图像/声音数据重组合来生成带有自动显示字幕的教学视频，其通过自动化的方式来识别教学视频中的声音信息，再根据该声音信息生成相应的字幕以添加到教学视频中，其能够快速地对教学视频进行字幕的自动加工处理。由此可见，所述教学视频自动字幕处理方法与系统存在以下问题：针对所有教学视频均进行字幕匹配存在工作量大、视频文件传输数据量过大的问题，以及自动匹配的字幕的文字部分与视频语音的匹配度低的问题。

发明内容

为此，本发明提供一种基于大数据云平台的线上线下联动学习系统，用以克服现有技术中录制视频的语音清晰度低以及字幕匹配性差的问题。

为实现上述目的，本发明提供一种基于大数据云平台的线上线下联动学习系统，包括：

采集单元，其与视频播放端相连，用以采集视频播放端中需分析视频的播放信息，播放信息包括需分析视频中暂停点的时刻位置和暂停点数量；

段落划分单元，其与所述采集单元相连，用以采用暂停点检索方式依次检测需分析视频中各暂停点所在检索范围内的区域暂停次数，并根据区域暂停次数与暂停次数阈值的比对结果确定暂停视频段；

识别处理单元，其分别与所述采集单元以及所述段落划分单元相连，用以对相邻的暂停视频段之间相邻区域的暂停点数量进行分析以判定两暂停视频段是否存在连续关系，对存在连续关系的暂停视频段进行合并处理，并根据处理完成的暂停视频段的平均暂停点数量调整合并后的暂停视频段的时长；

特征分析单元，其与所述识别处理单元相连，用以计算单个暂停视频段中各特征提取周期的语音特征度，并根据各特征提取周期的语音特征度与对比视频段的语音特征度平均值的差值判定特征提取周期的视频处理方式；

语音处理单元，其与所述特征分析单元相连，用以在音量调节条件下，根据特征提取周期的语音特征度与预设特征度的差值对特征提取周期的视频进行对应的音量调节值；以及在第一字幕匹配条件下，根据对比文字匹配块与第一文字匹配块的契合度确定与对比文字匹配块对应的特征提取周期内的视频类型，并根据类型为对应的视频段匹配字幕；

其中，所述暂停点检索方式为将待分析视频均匀划分为若干检索范围，依次提取各检索范围内的暂停点数量以计算各检索范围内区域暂停次数，其中，检索范围为一时间范围；

所述语音特征度根据视频中语速、声音频率以及声音单次停顿时长计算得到；

视频处理方式包括根据语音特征度差值对应调节特征提取周期内视频中的音量，以及对特征提取周期的视频进行字幕匹配；

所述音量调节条件为所述特征分析单元判定对特征提取周期内视频中的音量进行调节；所述第一字幕匹配条件为所述语音处理单元判定对特征提取周期内视频进行字幕匹配。

进一步地，在段落划分条件下，所述段落划分单元提取需分析视频的平均暂停次数Nc，并且采用所述暂停点检索方式依次获取需分析视频中各检索范围内的区域暂停次数，段落划分单元将单个检索范围内的区域暂停次数Nv与Nc进行比对以判定该检索范围是否为暂停视频段；

若Nv＜Nc，所述段落划分单元判定该检索范围非暂停视频段；

若Nc≥Nv，所述段落划分单元判定该检索范围为暂停视频段；

其中，Nc＝(Nc0/T)×Tv，其中，Nc0为需分析视频中暂停点总数，T为需分析视频的总时长，Tv为单个检索范围区域时长，0＜T，0＜Tv；

其中，所述段落划分条件为采集单元针对需分析视频的播放信息采集完成。

进一步地，在段落识别条件下，所述识别处理单元检测各暂停视频段之间是否存在相邻关系并且根据存在相邻关系的两暂停视频段之间相邻区域内的暂停点数量判定两暂停视频段是否存在连续关系；

若两暂停视频段之间相邻区域的暂停点数量处于第一相邻数量范围，所述识别处理单元判定两暂停视频段存在连续关系并对两暂停视频段进行合并；

若两暂停视频段之间相邻区域的暂停点数量处于第二相邻数量范围，所述识别处理单元判定两暂停视频段不存在连续关系；

其中，所述第一相邻数量范围内的数值均大于所述第二相邻数量范围内的数值；

其中，针对两个或以上的暂停视频段的合并，识别处理单元以时间顺序最靠前的暂停视频段的起始点为合并后的暂停视频段的起始点，并以时间顺序最靠后的暂停视频段的终止点为合并后的暂停视频段的终止点；

其中，所述段落识别条件为所述段落划分单元针对暂停视频段的判定完成；

所述相邻区域为以存在相邻关系的两暂停视频段的分段时间点为中点，以一设定时长为相邻识别时间范围确定的视频段。

进一步地，在合并段落调节条件下，所述识别处理单元根据合并后的暂停视频段中的合并暂停点数量判定是否对合并后的暂停视频段的时长进行调节；

若合并暂停点数量处于第一合并数量范围，所述识别处理单元判定无需对合并后的暂停视频段的时长进行调节；

若合并暂停点数量处于第二合并数量范围，所述识别处理单元判定对合并后的暂停视频段的时长值进行调大；

其中，第一合并数量范围内的数值均小于第二合并数量范围内的数值，针对合并后的暂停视频段的时长调节为以调整前的暂停视频段的终止点为视频终止点，调整暂停视频段的视频起始点以使调整后的暂停视频段的时长调整为调整后的时长值，所述合并段落调节条件为识别处理单元判定两暂停视频段存在连续关系并对两暂停视频段进行合并。

进一步地，在第一特征提取条件下，特征分析单元针对单个暂停视频段以时序顺序依次计算各特征提取周期中的语音特征度Su，语音特征度Su由下式确定：

其中，u＝1，2，3，……，umax，umax为该暂停视频段中特征提取周期的数量，Xu为第u个特征提取周期中语速，X0为暂停视频段中语速平均值，Yu为第u个特征提取周期中声音频率，Y0为暂停视频段中声音频率平均值，Zu为第u个特征提取周期中声音单次停顿最大时长，Z0为预设单次停顿时长标准，β1为第一权重系数，β2为第二权重系数，β3为第三权重系数，0＜Z0，0＜β1＜β2＜β3；

其中，所述第一特征提取条件为两暂停视频段是否存在连续关系或针对合并暂停视频段的时长调节完成，所述特征提取单元设有特征提取周期Tq，0＜Tq，umax＝Tz/Tq，umax为向上取整的整数，Tz为单个暂停视频段的时长。

进一步地，在第二特征提取条件下，所述特征分析单元根据单个特征提取周期的语音特征度Su与对比视频段的语音特征度平均值Sw的差值△S判定针对与Su对应的特征提取周期的视频处理方式；

若差值△S处于第一特征度差值范围，所述特征分析单元判定无需对对应的特征提取周期的视频进行处理；

若差值△S处于第二特征度差值范围，所述特征分析单元判定根据△S的数值对对应的特征提取周期的视频中的声音进行音量提高；

若差值△S处于第三特征度差值范围，所述特征分析单元判定对对应的特征提取周期的视频进行字幕匹配；

其中，

△S＝∣Sw-Su∣；

所述第一特征度差值范围内的数值均小于所述第二特征度差值范围内的数值，第二特征度差值范围内的数值均小于所述第三特征度差值范围内的数值，所述第二特征提取条件为特征分析单元依次计算各特征提取周期中的语音特征度完成，所述对比视频段的终止点和目标暂停视频段的终止点相同且对比视频段的时长大于特征提取周期对应的暂停视频段的时长，所述目标暂停视频段为与特征提取周期对应的暂停视频段。

进一步地，在所述音量调节条件下，所述语音处理单元根据△S的数值对与Su对应的特征提取周期的视频中的初始声音音量B0进行调节，设定调节后的声音音量为B，B＞B0。

进一步地，在所述第一字幕匹配条件下，所述语音处理单元提取当前特征提取周期内视频中的文字数据形成第一文字匹配块，并将当前特征提取周期内视频中的语音数据转换为文字数据以形成对比文字匹配块，语音处理单元计算对比文字匹配块与第一文字匹配块的契合度K并根据K判定特征提取周期内视频的类型；

若对比文字匹配块与第一文字匹配块的契合度处于第一契合度状态，所述语音处理单元判定与该对比文字匹配块对应的特征提取周期的视频为第一类标记视频；

若对比文字匹配块与第一文字匹配块的契合度处于第二契合度状态，所述语音处理单元生成第二文字匹配块并根据对比文字匹配块与第二文字匹配块的契合度进一步判定与该对比文字匹配块对应的特征提取周期的视频的类型；

若对比文字匹配块与第一文字匹配块的契合度处于第三契合度状态，所述语音处理单元判定与该对比文字匹配块对应的特征提取周期的视频为第二类标记视频；

其中，所述契合度的计算公式为K＝1-(L/L0)，其中，L为对比文字匹配块内未与第一文字匹配块匹配成功的文字数量，L0为对比文字匹配块的文字总数；

其中，所述第一契合度状态下的契合度均小于所述第二契合度状态下的契合度，第二契合度状态下的契合度均小于所述第三契合度状态下的契合度。

进一步地，在第二字幕匹配条件下，所述语音处理单元根据契合度K与预设契合度阈值的契合度差值判定第二文字匹配块的生成方式；

若契合度差值处于第一契合度差值状态，所述语音处理单元判定第二文字匹配块采用第一生成方式，选取与契合度K对应的特征提取周期前第一预设时长内视频中的文字数据与第一文字匹配块合并生成第二文字匹配块；

若契合度差值处于第二契合度差值状态，所述语音处理单元判定第二文字匹配块采用第二生成方式，选取与契合度K对应的特征提取周期前第二预设时长内视频中的文字数据与第一文字匹配块合并生成第二文字匹配块；

若契合度差值处于第三契合度差值状态，所述语音处理单元判定第二文字匹配块采用第三生成方式，选取与契合度K对应的特征提取周期前第三预设时长内视频中的文字数据与第一文字匹配块合并生成第二文字匹配块；

其中，所述第二字幕匹配条件为对比文字匹配块与第一文字匹配块的契合度处于第二契合度状态，所述第一契合度差值状态下的差值小于所述第二契合度状态下的差值，第二契合度状态下的差值小于所述第三契合度状态下的差值，所述第一预设时长小于所述第二预设时长，第二预设时长小于所述第三预设时长，所述契合度差值为K减去预设契合度阈值所得的数值。

进一步地，所述语音处理单元在第三字幕匹配条件下，计算对比文字匹配块与第二文字匹配块的契合度；

若对比文字匹配块与第一文字匹配块的契合度处于第三契合度状态，所述语音处理单元判定与该对比文字匹配块对应的特征提取周期的视频为第一类标记视频，并将判定信息传送至用户以提醒进行人工字幕匹配；

若对比文字匹配块与第一文字匹配块的契合度处于第一契合度状态或第二契合度状态，所述语音处理单元判定与该对比文字匹配块对应的特征提取周期的视频为第二类标记视频，对比文字匹配块与第一文字匹配块的契合度符合标准且将对比文字匹配块转化为字幕；

所述第三字幕匹配条件为第二文字匹配块的生成完成。

与现有技术相比，本发明的有益效果在于，本发明针对需分析视频进行暂停点统计，根据各暂停点所在检索范围内的区域暂停次数，并根据区域暂停次数与暂停次数阈值的比对结果确定暂停视频段，计算暂停视频段中各特征提取周期的语音特征度，并根据各特征提取周期的语音特征度与对比视频段的语音特征度平均值的差值判定特征提取周期的视频处理方式，与现有技术相比，本发明克服了教学视频全段进行字幕匹配导致的工作处理数据量过大的问题，减轻了系统工作量，并且针对语音清晰度低的视频段落进行处理，避免了视频全段进行字幕匹配导致的字幕可能存在对视频内容进行遮挡的问题。

进一步地，本发明中所述识别处理单元检测各暂停视频段之间是否存在相邻关系并且根据存在相邻关系的两暂停视频段之间相邻区域的暂停点数量判定两暂停视频段是否存在连续关系，对存在连续关系的暂停视频段进行合并，提高了后续字幕匹配时生成文字匹配块的合理性，进而提高了本发明的判定准确度。

进一步地，本发明中所述特征分析单元根据合并后的暂停视频段中的合并暂停点数量判定是否对合并后的暂停视频段的时长进行调节，避免存在漏判的问题产生，进而提高本发明针对语音不清晰的段落的判定准确度。

进一步地，本发明中特征分析单元计算各特征提取周期的语音特征度Su与对比视频段的语音特征度平均值Sw的差值△S并根据△S判定针对与Su对应的特征提取周期的视频处理方式，提高了视频处理方式的选择的合理性，进而提高了本发明的针对视频的处理效果。

进一步地，本发明中语音处理单元根据K判定特征提取周期内视频的类型，避免实际情况中，由于个人理解能力导致的暂停点数量增加而引起的系统误判，进而提高了本发明针对语音不清晰的段落的判定准确度。

附图说明

图1为本发明实施例基于大数据云平台的线上线下联动学习系统的单元连接图；

图2为本发明实施例段落划分单元将Nv与Nc进行比对以判定该检索范围是否为暂停视频段的逻辑图；

图3为本发明实施例2所述需分析视频的划分示意图；

图4为本发明实施例2所述暂停视频段的划分示意图；

图中：1，第一检索范围；2，第二检索范围；3，第三检索范围；4，第四检索范围；21，第一特征提取周期；22，第二特征提取周期；23，第三特征提取周期；24，第四特征提取周期。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

需要说明的是，在本发明的描述中，术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方向或位置关系的术语是基于附图所示的方向或位置关系，这仅仅是为了便于描述，而不是指示或暗示所述装置或元件必须具有特定的方位、以特定的方位构造和操作，因此不能理解为对本发明的限制。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1至图2所示，本发明提供一种基于大数据云平台的线上线下联动学习系统，包括：

所述特征提取周期为一单位时间，特征提取单元每个特征提取周期对暂停视频段中对应的语音特征度进行检测，特征提取周期的时长能够根据用户需求进行设定，提供一种特征提取周期时长的范围，特征提取周期的时长小于二分之一检索范围的时长且大于二倍的预设单次停顿时长标准；

具体而言，在段落划分条件下，所述段落划分单元提取需分析视频的平均暂停次数Nc，并且采用所述暂停点检索方式依次获取需分析视频中各检索范围内的区域暂停次数，段落划分单元将单个检索范围内的区域暂停次数Nv与Nc进行比对以判定该检索范围是否为暂停视频段；

若Nv＜Nc，所述段落划分单元判定该检索范围非暂停视频段；

若Nc≥Nv，所述段落划分单元判定该检索范围为暂停视频段；

其中，根据需分析视频的平均暂停次数与单个检索范围内的区域暂停次数的比对结果判断视频播放过程中暂停次数过高的区域，避免针对完整视频进行分析导致的数据处理量过大的问题，针对暂停视频段进行后续判定使得本发明的判定效率提高。

具体而言，在段落识别条件下，所述识别处理单元检测各暂停视频段之间是否存在相邻关系并且根据存在相邻关系的两暂停视频段之间相邻区域内的暂停点数量判定两暂停视频段是否存在连续关系；

作为可实施的方式，上述判定过程可转化为：识别处理单元将暂停点数量Nb与预设相邻暂停点数量进行比对以判定两暂停视频段是否存在连续关系，识别处理单元设有预设相邻暂停点数量Nb0，0＜Nb0；

若Nb≥Nb0，所述识别处理单元判定两暂停视频段存在连续关系并对两暂停视频段进行合并；

若Nb＜Nb0，所述识别处理单元判定两暂停视频段不存在连续关系；

其中，预设相邻暂停点数量与历史数据有关，即用户能够根据历史数据中使用者上传的语音不清晰的视频中记录的暂停点数量以及对应的视频长度结合用户本身对于语音清晰度需求确定预设相邻暂停点数量的取值。

其中，检测各暂停视频段之间是否存在相邻关系并且根据存在相邻关系的两暂停视频段之间相邻区域内的暂停点数量判定两暂停视频段是否存在连续关系，避免对存在连续关系的暂停视频段分段分析时导致的分析效果差的问题，并且将存在连续关系的暂停视频段进行合并使得后续的文字匹配块的生成更加具有准确性。

具体而言，在合并段落调节条件下，所述识别处理单元根据合并后的暂停视频段中的合并暂停点数量判定是否对合并后的暂停视频段的时长进行调节；

作为可实施的方式，上述判定过程可转化为：在第二特征提取条件下，所述特征分析单元提取合并后的暂停视频段中的合并暂停点数量Nh并将Nh与预设合并暂停点数量进行比对以判定是否对合并后的暂停视频段的时长进行调节，所述特征分析单元设有预设合并暂停点数量Nh0，0＜Nh0；

若Nh≤Nh0，所述特征分析单元判定无需对合并后的暂停视频段的时长进行调节，其中，Nh为合并后的暂停视频段的时长；

若Nh0＜Nh，所述特征分析单元判定对合并后的暂停视频段的时长进行调节，调节后的时长为Th，Th＝Th0×(Nh/Nh0)，其中，Th0为合并后的暂停视频段的原始时长；

其中，针对合并后的暂停视频段的时长调节为以调整前的暂停视频段的终止点为视频终止点，调整暂停视频段的视频起始点，以使调整后的暂停视频段的时长调整为调整后的时长Th。

其中，所述预设合并暂停点数量的取值与视频总长度有关，视频总长度与预设合并暂停点数量为线性关系，即视频总长度越长，预设合并暂停点数量越大，用户能够结合历史数据以及视频总长对预设合并暂停点数量进行取值。

其中，根据合并后的暂停视频段中的合并暂停点数量判定是否对合并后的暂停视频段的时长进行调节，避免了由于检索范围的限制导致的暂停视频段的时长并未能够包含语音不清的视频段落，进而提高了本发明的针对暂停视频段的判定准确率。

具体而言，在第一特征提取条件下，特征分析单元针对单个暂停视频段以时序顺序依次计算各特征提取周期中的语音特征度Su，语音特征度Su由下式确定：

其中，u＝1，2，3，……，umax，umax为该暂停视频段中特征提取周期的数量，Xu为第u个特征提取周期中语速，X0为暂停视频段中语速平均值，Yu为第u个特征提取周期中声音频率，Y0为暂停视频段中声音频率平均值，Zu为第u个特征提取周期中声音单次停顿最大时长，Z0为预设单次停顿时长标准，0＜Z0，β1为第一权重系数，β2为第二权重系数，β3为第三权重系数，0＜β1＜β2＜β3，其中，针对β1、β2以及β3的取值，用户能够根据历史数据以及实际专业经验确定语速、声音频率以及声音单次停顿最大时长对于语音特征度的影响程度，即对于声音清晰度的影响程度，以此判定β1、β2以及β3的取值；

可以理解的是，计算得到Tz/Tq为非整数时，调整对应的检索范围至第一浮动范围的时长为T0×umax，并且，第一浮动范围与原检索范围的重合时长至少为umax-1个特征提取周期，T0为单个特征提取周期的时长。

其中，采用语速、声音频率以及声音单次停顿最大时长作为判定语音特征度的参数，因为以上参数在短时间内的正常讲话中并不会存在较大差异，所以设定特征提取周期进行语音特征度的检测，更加具有代表性，进而提高了本发明的语音判定的准确性。

具体而言，在第二特征提取条件下，所述特征分析单元根据单个特征提取周期的语音特征度Su与对比视频段的语音特征度平均值Sw的差值△S判定针对与Su对应的特征提取周期的视频处理方式；

其中，

△S＝∣Sw-Su∣，所述第一特征度差值范围内的数值均小于所述第二特征度差值范围内的数值，第二特征度差值范围内的数值均小于所述第三特征度差值范围内的数值，所述第二特征提取条件为特征分析单元依次计算各特征提取周期中的语音特征度完成，所述对比视频段的终止点和目标暂停视频段的终止点相同且对比视频段的时长大于特征提取周期对应的暂停视频段的时长，所述目标暂停视频段为与特征提取周期对应的暂停视频段；

作为可实施的方式，上述判定过程可转化为：所述特征分析单元设有第一预设特征度差值△S1以及第二预设特征度差值△S2，其中，0＜△S1＜△S2；

若△S≤△S1，所述特征分析单元判定无需对对应的特征提取周期的视频进行处理；

若△S1＜△S≤△S2，所述特征分析单元判定根据△S的数值对对应的特征提取周期的视频中的声音进行音量提高；

若△S2＜△S，所述特征分析单元判定对对应的特征提取周期的视频进行字幕匹配；

其中，所述预设特征度差值的取值与历史数据有关，即用户能够根据历史数据中使用者上传的语音清晰度差的视频段落中的语音特征度以及用户对于语音特征度的需求确定预设特征度差值的取值。

其中，根据单个特征提取周期的语音特征度Su与对比视频段的语音特征度平均值Sw的差值△S判定针对与Su对应的特征提取周期的视频处理方式，差值△S越大越反应与其对应的语音与其他段落语音存在的听感差异越大，因此，针对△S的值不同，对应的处理方式不同，由此，提高了本发明的语音处理效果。

具体而言，在所述音量调节条件下，所述语音处理单元根据△S的数值对与Su对应的特征提取周期的视频中的初始声音音量B0进行调节，设定调节后的声音音量为B，B＞B0。

提供一种音量调节方式，设定B＝B0×ζ，其中，ζ为音量调节系数，1＜ζ＜2。

具体而言，在所述第一字幕匹配条件下，所述语音处理单元提取当前特征提取周期内视频中的文字数据形成第一文字匹配块，并将当前特征提取周期内视频中的语音数据转换为文字数据以形成对比文字匹配块，语音处理单元计算对比文字匹配块与第一文字匹配块的契合度K并根据K判定特征提取周期内视频的类型；

其中，所述第一契合度状态下的契合度均小于所述第二契合度状态下的契合度，第二契合度状态下的契合度均小于所述第三契合度状态下的契合度；

作为可实施的方式，上述判定过程可转化为：语音处理单元将K与预设契合度进行比对以判定特征提取周期内视频的类型，所述语音处理单元设有第一预设契合度K1以及第二预设契合度K2，其中，0＜K1＜K2；

若K≤K1，所述语音处理单元判定与该对比文字匹配块对应的特征提取周期的视频为第一类标记视频；

若K1＜K≤K2，所述语音处理单元生成第二文字匹配块并根据对比文字匹配块与第二文字匹配块的契合度进一步判定与该对比文字匹配块对应的特征提取周期的视频的类型；

若K2＜K，所述语音处理单元判定与该对比文字匹配块对应的特征提取周期的视频为第二类标记视频。

其中，所述第一预设契合度的取值可以通过统计历史数据中使用者上传的视频理解不清的视频段落对应的契合度并结合用户自身契合度需求确定，所述第二预设契合度的取值可以通过统计历史数据中使用者上传的语音不清的视频段落对应的契合度并结合用户自身契合度需求确定。

其中，提取当前特征提取周期内视频中的文字数据形成第一文字匹配块，避免了现有技术中直接与数据库进行逐一匹配导致的数据处理量大的问题，并且，视频中的文字数据形成第一文字匹配块，更加具有代表性。

具体而言，在第二字幕匹配条件下，所述语音处理单元根据契合度K与预设契合度阈值的契合度差值判定第二文字匹配块的生成方式；

作为可实施的方式，上述判定过程可转化为：所述语音处理单元在第二字幕匹配条件下计算K与K1的差值△K并将△K与预设契合度差值进行比对以判定第二文字匹配块的生成方式，设定，△K＝K-K1，所述语音处理单元设有第一预设契合度差值△K1、第二预设契合度差值△K2、预设选取数量基准值M0、第一预设选取调节系数γ1以及第二预设选取调节系数γ2，其中，0＜△K1＜△K2，0＜M0，0＜γ1＜1＜γ2；

若△K≤△K1，所述语音处理单元判定第二文字匹配块采用第一生成方式，即分别选取该特征选取周期临近的前M个特征选取周期的内视频中的文字数据并生成第二文字匹配块，设定M＝M0×γ2；

若△K1＜△K≤△K2，所述语音处理单元判定第二文字匹配块采用第二生成方式，即分别选取该特征选取周期临近的前M个特征选取周期的内视频中的文字数据并生成第二文字匹配块，设定M＝M0；

若△K2＜△K，所述语音处理单元判定第二文字匹配块采用第三生成方式，即分别选取该特征选取周期临近的前M个特征选取周期的内视频中的文字数据并生成第二文字匹配块，设定M＝M0×γ1；

其中，所述第二字幕匹配条件为K1＜K≤K2，所述M为向上取整的整数；所述语音处理单元设有预设最大选取数量Mmax，若M＞Mmax，所述语音处理单元判定M的取值为Mmax，其中，0＜Mmax。

其中，根据契合度K与预设契合度阈值的契合度差值判定第二文字匹配块的生成方式，通过选取与契合度K对应的特征提取周期前的视频中的文字数据与第一文字匹配块合并生成第二文字匹配块，避免了语音内容并非在第一文字匹配块中存在导致的系统的误判，进而提高了本发明的语音判定准确率。

具体而言，所述语音处理单元在第三字幕匹配条件下，计算对比文字匹配块与第二文字匹配块的契合度；

所述第三字幕匹配条件为第二文字匹配块的生成完成。

实施例1：在本实施例中，段落划分单元提取需分析视频的平均暂停次数Nc＝10次，采用暂停点检索方式依次获取需分析视频中各检索范围内的区域暂停次数，其中一检索范围内的区域暂停次数Nv＝15次，此时，Nv＞Nc，段落划分单元判定该检索范围是暂停视频段；

本实施例中，存在3个暂停视频段，其中，暂时视频段A与暂停视频段B为相邻关系并且两暂停视频段之间相邻区域的暂停点数量Nb为5个，预设相邻暂停点数量Nb0＝5个，此时，Nb＝Nb0，所述识别处理单元判定两暂停视频段存在连续关系并对两暂停视频段进行合并以形成暂停视频段C；

暂停视频段C的语速平均值X0＝150字/分钟，声音频率平均值Y0＝1500Hz，预设单次停顿时长标准Z0＝5s，暂停视频段C中第一个特征提取周期中语速X1＝120字/分钟，第一个特征提取周期中声音频率Y1＝1300Hz，第u个特征提取周期中声音单次停顿最大时长Z1＝3s，第一权重系数β1＝0.5，第二权重系数β2＝0.3，第三权重系数β3＝0.2，此时，Su＝78％；

暂停视频段C的暂停点数量Nh＝30个，预设合并暂停点数量Nh0＝30个，此时Nh＝Nh0，所述识别处理单元判定无需对合并后的暂停视频段的时长进行调节；

与暂停视频段C对应的对比视频段的语音特征度平均值Sw＝55％，第一预设特征度差值△S1＝10％，第二预设特征度差值△S2＝30％，此时，△S＝23％，△S＜△S1，所述特征分析单元判定根据△S的数值对对应的特征提取周期的视频中的声音进行音量提高，与S对应的特征提取周期的视频中的声音音量B0＝50分贝，差值补偿系数ζ＝1.3，B＝50×1.3＝65分贝。

实施例2：请参阅图3至图4所示，在本实施例中，段落划分单元将需分析视频划分为第一检索范围1、第二检索范围2、第三检索范围3以及第四检索范围4，其中，第二检索范围2中的区域暂停次数大于需分析视频的平均暂停次数，判定第二检索范围2为暂停视频段，特征分析单元针对该暂停视频段以时序顺序依次计算第一特征提取周期21、第二特征提取周期22、第三特征提取周期23以及第四特征提取周期24中的语音特征度；其中，若计算得到umax为非整数需向上取整时，提供一种取整方式，将第一特征提取周期21选取与第一检索范围内的视频段相连部分作为第一特征提取周期21。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

以上所述仅为本发明的优选实施例，并不用于限制本发明；对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种基于大数据云平台的线上线下联动学习系统，其特征在于，包括：

2.根据权利要求1所述的基于大数据云平台的线上线下联动学习系统，其特征在于，在段落划分条件下，所述段落划分单元提取需分析视频的平均暂停次数Nc，并且采用所述暂停点检索方式依次获取需分析视频中各检索范围内的区域暂停次数，段落划分单元将单个检索范围内的区域暂停次数Nv与Nc进行比对以判定该检索范围是否为暂停视频段；

若Nv＜Nc，所述段落划分单元判定该检索范围非暂停视频段；

若Nc≥Nv，所述段落划分单元判定该检索范围为暂停视频段；

3.根据权利要求2所述的基于大数据云平台的线上线下联动学习系统，其特征在于，在段落识别条件下，所述识别处理单元检测各暂停视频段之间是否存在相邻关系并且根据存在相邻关系的两暂停视频段之间相邻区域内的暂停点数量判定两暂停视频段是否存在连续关系；

4.根据权利要求3所述的基于大数据云平台的线上线下联动学习系统，其特征在于，在合并段落调节条件下，所述识别处理单元根据合并后的暂停视频段中的合并暂停点数量判定是否对合并后的暂停视频段的时长进行调节；

5.根据权利要求4所述的基于大数据云平台的线上线下联动学习系统，其特征在于，在第一特征提取条件下，特征分析单元针对单个暂停视频段以时序顺序依次计算各特征提取周期中的语音特征度Su，语音特征度Su由下式确定：

6.根据权利要求5所述的基于大数据云平台的线上线下联动学习系统，其特征在于，在第二特征提取条件下，所述特征分析单元根据单个特征提取周期的语音特征度Su与对比视频段的语音特征度平均值Sw的差值△S判定针对与Su对应的特征提取周期的视频处理方式；

7.根据权利要求6所述的基于大数据云平台的线上线下联动学习系统，其特征在于，在所述音量调节条件下，所述语音处理单元根据△S的数值对与Su对应的特征提取周期的视频中的初始声音音量B0进行调节，设定调节后的声音音量为B，B＞B0。

8.根据权利要求7所述的基于大数据云平台的线上线下联动学习系统，其特征在于，在所述第一字幕匹配条件下，所述语音处理单元提取当前特征提取周期内视频中的文字数据形成第一文字匹配块，并将当前特征提取周期内视频中的语音数据转换为文字数据以形成对比文字匹配块，语音处理单元计算对比文字匹配块与第一文字匹配块的契合度K并根据K判定特征提取周期内视频的类型；

9.根据权利要求8所述的基于大数据云平台的线上线下联动学习系统，其特征在于，在第二字幕匹配条件下，所述语音处理单元根据契合度K与预设契合度阈值的契合度差值判定第二文字匹配块的生成方式；

10.根据权利要求9所述的基于大数据云平台的线上线下联动学习系统，其特征在于，所述语音处理单元在第三字幕匹配条件下，计算对比文字匹配块与第二文字匹配块的契合度；

所述第三字幕匹配条件为第二文字匹配块的生成完成。