CN116484052A

CN116484052A - 一种基于大数据的教育资源共享系统

Info

Publication number: CN116484052A
Application number: CN202310757934.9A
Authority: CN
Inventors: 徐丹; 骆慧
Original assignee: Guangzhou Hongtu Digital Technology Co ltd
Current assignee: Guangzhou Hongtu Digital Technology Co ltd
Priority date: 2023-06-26
Filing date: 2023-06-26
Publication date: 2023-07-25
Anticipated expiration: 2043-06-26
Also published as: CN116484052B

Abstract

本发明涉及数据共享领域，尤其涉及一种基于大数据的教育资源共享系统，本发明设置数据存储模块、采集模块、生成模块以及共享模块，通过采集模块判定教学视频所属的方言类型，通过生成模块将教学视频中的语音数据转化为文字文本，并且，判定文字文本中的分词类别，将第一类分词直接添加在教学视频中形成字幕，确定第二类分词的语义词汇，将语义词汇作为注释添加至第二类分词一侧后在教学视频中形成字幕，通过上述过程，识别不同教学视频的方言类别以及存在于该方言类别中特有的特殊词汇，添加注释后形成字幕，减少不同方言类别中特殊词汇对观看者造成的困扰，提高教学资源的利用率。

Description

一种基于大数据的教育资源共享系统

技术领域

本发明涉及数据共享领域，尤其涉及一种基于大数据的教育资源共享系统。

背景技术

教育资源共享系统是指利用大数据技术和互联网技术，收集、整合、分析和共享海量的教育资源数据，为教育工作者提供更加智能化、个性化、多元化的教育资源服务的系统，使得教育资源得以高效利用和共享，从而提高教育教学的效率和质量。

中国专利公开号：CN112948636A，公开了如下内容，该发明公开了一种区域教育云资源共享系统及方法，所述共享系统包括区域教育云资源库、异常声纹数据库、上传检测模块、标识获取模块、第一处理模块和第二处理模块，所述区域教育云资源库用于存储可共享观看的教学视频，所述异常声纹数据库用于存储上传教学视频过程中检测到的异常声纹特征，所述上传检测模块用于检测是否存在上传者上传教学视频到区域教育云资源库，并在检测到上传教学视频的操作时令标识获取模块获取该上传者的用户标识，在用户标识上添加有限制标识时令第一处理模块工作，在用户标识上没有限制标识时令第二处理模块工作。

但是，现有技术中，还存在以下问题：

现有技术中未考虑不同的用户端上传各类教学视频时，教学视频中的语音数据可能属于不同的方言类别，尤其是在方言中存在部分方言特有的词汇，对观看者造成了困扰。

发明内容

为解决上述问题，本发明提供一种基于大数据的教育资源共享系统，包括：

数据存储模块，其包括若干方言数据库、字典数据库以及语音数据库，各所述方言数据库用以存储不同方言类型的方言关键词，所述字典数据库用以存储标准关键词，所述语音数据库用以存储若干预先构建的样本语音片段；

采集模块，用以获取用户端上传的教学视频，从所述教学视频的语音数据中随机提取若干语音片段并获取各语音片段与样本语音片段的匹配结果，以判定各语音片段所属的方言类型，统计属于各方言类型的语音片段的数量计算比例表征值，基于比例表征值确定所述教学视频所属的方言类型；

生成模块，其与所述采集模块以及数据存储模块连接，所述生成模块用以提取所述教学视频中的语音数据，将所述语音数据转化为文字文本，识别文字文本中各分词的分词类别，并且，

将第一类分词直接添加在教学视频中形成字幕；

将第二类分词与所述教学视频所属的方言类型对应的方言数据库中的数据进行匹配，以确定所述第二类分词的语义词汇，将所述语义词汇作为注释添加至所述第二类分词一侧后在教学视频中形成字幕；

共享模块，其与所述生成模块连接，用以将所述生成模块添加字幕后的教学视频上传至云端共享平台。

进一步地，所述采集模块从所述教学视频的语音数据中随机提取若干语音片段并获取各语音片段与样本语音片段的匹配结果，其中，

所述采集模块判定所述语音片段的句子结构，从语音数据库中调用与所述句子结构相同的若干样本语音片段，并将样本语音片段的声学特征与语音片段的声学特征进行对比，获取样本重合度，若所述样本重合度大于预设的重合度对比阈值，则所述采集模块判定语音片段与样本语音片段匹配。

进一步地，所述语音数据库中的各样本语音片段预先与对应的方言类型建立有关联关系。

进一步地，所述采集模块判定各语音片段所属的方言类型，其中，

所述采集模块判定语音片段所属的方言类型与所述语音片段匹配的样本语音片段关联的方言类型相同。

进一步地，所述采集模块统计属于各方言类型的语音片段的数量计算比例表征值，基于所述比例表征值确定所述教学视频所属的方言类型，其中，

所述采集模块根据式（1）计算方言类型对应的比例表征值P，

公式（1）中，q表示语音片段的数量，Q表示属于所述方言类型的语音片段的数量；

所述采集模块确定各所述比例表征值中的最大比例表征值，将所述最大比例表征值对应的方言类型确定为所述教学视频所属的方言类型。

进一步地，所述生成模块中还设置有分词程序，用以对文字文本进行分词操作得到若干分词。

进一步地，所述生成模块根据所述教学视频所属的方言类型判定所述文字文本中各分词的分词类别，其中，

所述生成模块将各分词与字典数据库中的标准关键词进行对比，

在第一条件下，所述生成模块判定所述文字文本中各分词的分词类别为第一类分词；

在第二条件下，所述生成模块判定所述文字文本中各分词的分词类别为第二类分词；

其中，所述第一条件为所述分词与所述字典数据库中任一标准关键词相同，所述第二条件为分词与所述字典数据库中的标准关键词均不相同。

进一步地，各所述方言数据库中的方言关键词均与标准语义词汇建立有关联关系，所述标准语义词汇为所述字典数据库中的标准关键词。

进一步地，所述生成模块将第二类分词与所述教学视频所属的方言类型对应的方言数据库中的方言关键词进行匹配，确定第二类分词的语义词汇，其中，

所述生成模块将第二类分词与所述方言数据库中的方言关键词进行对比，若所述第二类分词与所述方言数据库中的方言关键词相同，则判定所述第二类分词与所述方言关键词匹配，并确定所述第二类分词的语义词汇与所述关键词关联的标准语义词汇相同。

进一步地，所述字典数据库中的标准关键词为预先爬取开源字典数据库中的数据所得。

与现有技术相比，本发明设置数据存储模块、采集模块、生成模块以及共享模块，通过采集模块判定教学视频所属的方言类型，通过生成模块将教学视频中的语音数据转化为文字文本，并且，判定文字文本中的分词类别，将第一类分词直接添加在教学视频中形成字幕，确定第二类分词的语义词汇，将语义词汇作为注释添加至第二类分词一侧后在教学视频中形成字幕，通过上述过程，识别不同教学视频的方言类别以及存在于该方言类别中特有的特殊词汇，添加注释后形成字幕，减少不同方言类别中特殊词汇对观看者造成的困扰，提高教学资源的利用率。

尤其，本发明的采集模块判定教学视频所属的方言类别，在实际情况中，教学视频中的语音数据可能属于不同的方言类别，在不同方言中，相同的句子结构下语调存在差异，本发明基于相同句子结构下语音片段以及样本语音片段中声学特征的样本重合度判定语音片段以及样本语音片段的匹配性，进而判定语音片段所属的方言类型，预先识别方言类型，便于后续调用对应的方言数据库对第二类分词的语义词汇进行识别，进而减少不同方言类别中特殊词汇对观看者造成的困扰，提高教学资源的利用率。

尤其，本发明的共享模块提取教学视频中的语音数据，将语音数据转化为文字文本识别文字文本中各分词的分词类别，在实际情况中，第一类分词表征了常规的词汇，其属于字典数据库中的标准关键词，第二类词汇表征了方言中存在的特殊词汇，其仅存在于该方言类别中，通过算法自动识别出属于不同方言类别的特殊词汇，便于后续对第二类词汇添加注释在教学视频中形成字幕，进而减少不同方言类别中特殊词汇对观看者造成的困扰，提高教学资源的利用率。

尤其，本发明的生成模块将第二类分词与采集模块识别的教学视频所属的方言类型对应的方言数据库中的数据进行匹配，识别语义词汇，减少系统的数据运算量，且提高识别第二类词汇的语义词汇的准确性，进而减少不同方言类别中特殊词汇对观看者造成的困扰，提高教学资源的利用率。

附图说明

图1为发明实施例的基于大数据的教育资源共享系统结构示意图；

图2为发明实施例的数据存储模块结构示意图。

具体实施方式

为了使本发明的目的和优点更加清楚明白，下面结合实施例对本发明作进一步描述；应当理解，此处所描述的具体实施例仅仅用于解释本发明，并不用于限定本发明。

下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是，这些实施方式仅仅用于解释本发明的技术原理，并非在限制本发明的保护范围。

此外，还需要说明的是，在本发明的描述中，除非另有明确的规定和限定，术语“安装”、“相连”、“连接”应做广义理解，例如，可以是固定连接，也可以是可拆卸连接，或一体地连接；可以是机械连接，也可以是电连接；可以是直接相连，也可以通过中间媒介间接相连，可以是两个元件内部的连通。对于本领域技术人员而言，可根据具体情况理解上述术语在本发明中的具体含义。

请参阅图1以及图2所示，其分别为本发明实施例的基于大数据的教育资源共享系统结构示意图以及发明实施例的数据存储模块结构示意图，本发明的基于大数据的教育资源共享系统包括：

将第一类分词直接添加在教学视频中形成字幕；

具体而言，本发明对数据存储模块中各数据库的构造不做限定，只需能满足数据存储功能即可，对于方言数据库，单个方言数据库仅存储单个方言类型的方言关键词，各方言关键词为预先筛选所得，包括筛选出不存在与字典数据库且属于不同方言类别的方言关键词后存储至对应的方言数据库中。

具体而言，语音数据库为预先构建所得，语音数据库分类存储有不同方言类别的样本语音片段，样本语音片段可以为预先通过爬虫程序爬取若干属于不同方言类别的样本语音片段所得。

具体而言，本发明对采集模块以及生成模块的具体结构不做限定，采集模块以及生成模块可以由逻辑部件构成，逻辑部件包括现场可编程处理器、计算机或计算机中的微处理器，当然，优选的，在本实施例中采集模块以及生成模块需配备数据传输器，以实现数据交换。

具体而言，共享模块可以是预先与云端共享平台建立通信协议的数据中转站，用以将生成模块发送的数据上传至云端共享平台。

具体而言，本发明对将语音数据转换为文字文本的形式不做限定，可以采用现有的基于自然语言模型的语音识别工具导入采集模块实现对语音数据的识别，此为现有技术，不再赘述。

具体而言，本发明对分词程序的具体形式不做限定，现有技术中分词程序有多种，本领域技术人员可根据需要选取对应的分词程序，此处不再赘述。

具体而言，所述采集模块从所述教学视频的语音数据中随机提取若干语音片段并获取各语音片段与样本语音片段的匹配结果，其中，

具体而言，在本实施例中，句子结构可以采用现有的开源自然语言模型进行分析，例如，获取语音片段的文字文本，将文字文本所构成的句子通过Stanford-Parser模型获取句子的句子结构并标注，包括主语、谓语、宾语、定语、状语等，声学特征包括语调特征，语调特征包括语调、音高、音量以及语速，获取样本重合度时包括获取语音片段以及样本语音片段句子结构各结构部分语调特征的拟合度，求解拟合度平均值，将所述拟合度平均值作为所述样本重合度，对于语调特征的拟合度可以采用语音分析工具实现，在本实施例中可以采用MATLAB语音处理工具箱拟合语调特征获取拟合度。

具体而言，在本实施例中预设的重合度对比阈值为预先测得，其中，提取属于同一方言类别的若干样本语音片段，求解各样本语音片段之间的样本重合度并记录，求解各样本重合度的平均值，将所述平均值设定为所述重合度对比阈值。

具体而言，本发明的采集模块判定教学视频所属的方言类别，在实际情况中，教学视频中的语音数据可能属于不同的方言类别，在不同方言中，相同的句子结构下语调存在差异，本发明基于相同句子结构下语音片段以及样本语音片段中声学特征的样本重合度判定语音片段以及样本语音片段的匹配性，进而判定语音片段所属的方言类型，预先识别方言类型，便于后续调用对应的方言数据库对第二类分词的语义词汇进行识别，进而减少不同方言类别中特殊词汇对观看者造成的困扰，提高教学资源的利用率。

具体而言，所述语音数据库中的各样本语音片段预先与对应的方言类型建立有关联关系，其中，将样本语音片段所属的方言类型与所述样本语音片段建立关联关系。

具体而言，所述采集模块判定各语音片段所属的方言类型，其中，

具体而言，所述采集模块统计属于各方言类型的语音片段的数量计算比例表征值，基于所述比例表征值确定所述教学视频所属的方言类型，其中，

具体而言，所述生成模块中还设置有分词程序，用以对文字文本进行分词操作得到若干分词。

具体而言，所述生成模块根据所述教学视频所属的方言类型判定所述文字文本中各分词的分词类别，其中，

本发明的共享模块提取教学视频中的语音数据，将语音数据转化为文字文本识别文字文本中各分词的分词类别，在实际情况中，第一类分词表征了常规的词汇，其属于字典数据库中的标准关键词，第二类词汇表征了方言中存在的特殊词汇，其仅存在于该方言类别中，通过算法自动识别出属于不同方言类别的特殊词汇，便于后续对第二类词汇添加注释在教学视频中形成字幕，进而减少不同方言类别中特殊词汇对观看者造成的困扰，提高教学资源的利用率。

具体而言，各所述方言数据库中的方言关键词均与标准语义词汇建立有关联关系，所述标准语义词汇为所述字典数据库中的标准关键词，所述方言关键词关联的标准语义词汇能表示所述方言关键词的实际释义。

具体而言，所述生成模块将第二类分词与所述教学视频所属的方言类型对应的方言数据库中的方言关键词进行匹配，确定第二类分词的语义词汇，其中，

本发明的生成模块将第二类分词与采集模块识别的教学视频所属的方言类型对应的方言数据库中的数据进行匹配，识别语义词汇，减少系统的数据运算量，且提高识别第二类词汇的语义词汇的准确性，进而减少不同方言类别中特殊词汇对观看者造成的困扰，提高教学资源的利用率。

具体而言，所述字典数据库中的标准关键词为预先爬取开源字典数据库中的数据所得。

至此，已经结合附图所示的优选实施方式描述了本发明的技术方案，但是，本领域技术人员容易理解的是，本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下，本领域技术人员可以对相关技术特征做出等同的更改或替换，这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims

1.一种基于大数据的教育资源共享系统，其特征在于，包括：

将第一类分词直接添加在教学视频中形成字幕；

2.根据权利要求1所述的基于大数据的教育资源共享系统，其特征在于，所述采集模块从所述教学视频的语音数据中随机提取若干语音片段并获取各语音片段与样本语音片段的匹配结果，其中，

3.根据权利要求2所述的基于大数据的教育资源共享系统，其特征在于，所述语音数据库中的各样本语音片段预先与对应的方言类型建立有关联关系。

4.根据权利要求3所述的基于大数据的教育资源共享系统，其特征在于，所述采集模块判定各语音片段所属的方言类型，其中，

5.根据权利要求4所述的基于大数据的教育资源共享系统，其特征在于，所述采集模块统计属于各方言类型的语音片段的数量计算比例表征值，基于所述比例表征值确定所述教学视频所属的方言类型，其中，

6.根据权利要求1所述的基于大数据的教育资源共享系统，其特征在于，所述生成模块中还设置有分词程序，用以对文字文本进行分词操作得到若干分词。

7.根据权利要求1所述的基于大数据的教育资源共享系统，其特征在于，所述生成模块根据所述教学视频所属的方言类型判定所述文字文本中各分词的分词类别，其中，

8.根据权利要求7所述的基于大数据的教育资源共享系统，其特征在于，各所述方言数据库中的方言关键词均与标准语义词汇建立有关联关系，所述标准语义词汇为所述字典数据库中的标准关键词。

9.根据权利要求8所述的基于大数据的教育资源共享系统，其特征在于，所述生成模块将第二类分词与所述教学视频所属的方言类型对应的方言数据库中的方言关键词进行匹配，确定第二类分词的语义词汇，其中，

10.根据权利要求1所述的基于大数据的教育资源共享系统，其特征在于，所述字典数据库中的标准关键词为预先爬取开源字典数据库中的数据所得。