CN116484052A - 一种基于大数据的教育资源共享系统 - Google Patents

一种基于大数据的教育资源共享系统 Download PDF

Info

Publication number
CN116484052A
CN116484052A CN202310757934.9A CN202310757934A CN116484052A CN 116484052 A CN116484052 A CN 116484052A CN 202310757934 A CN202310757934 A CN 202310757934A CN 116484052 A CN116484052 A CN 116484052A
Authority
CN
China
Prior art keywords
dialect
voice
word
module
database
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202310757934.9A
Other languages
English (en)
Other versions
CN116484052B (zh
Inventor
徐丹
骆慧
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Guangzhou Hongtu Digital Technology Co ltd
Original Assignee
Guangzhou Hongtu Digital Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Guangzhou Hongtu Digital Technology Co ltd filed Critical Guangzhou Hongtu Digital Technology Co ltd
Priority to CN202310757934.9A priority Critical patent/CN116484052B/zh
Publication of CN116484052A publication Critical patent/CN116484052A/zh
Application granted granted Critical
Publication of CN116484052B publication Critical patent/CN116484052B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7834Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using audio features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3343Query execution using phonetics
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/289Phrasal analysis, e.g. finite state techniques or chunking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Library & Information Science (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及数据共享领域,尤其涉及一种基于大数据的教育资源共享系统,本发明设置数据存储模块、采集模块、生成模块以及共享模块,通过采集模块判定教学视频所属的方言类型,通过生成模块将教学视频中的语音数据转化为文字文本,并且,判定文字文本中的分词类别,将第一类分词直接添加在教学视频中形成字幕,确定第二类分词的语义词汇,将语义词汇作为注释添加至第二类分词一侧后在教学视频中形成字幕,通过上述过程,识别不同教学视频的方言类别以及存在于该方言类别中特有的特殊词汇,添加注释后形成字幕,减少不同方言类别中特殊词汇对观看者造成的困扰,提高教学资源的利用率。

Description

一种基于大数据的教育资源共享系统
技术领域
本发明涉及数据共享领域,尤其涉及一种基于大数据的教育资源共享系统。
背景技术
教育资源共享系统是指利用大数据技术和互联网技术,收集、整合、分析和共享海量的教育资源数据,为教育工作者提供更加智能化、个性化、多元化的教育资源服务的系统,使得教育资源得以高效利用和共享,从而提高教育教学的效率和质量。
中国专利公开号:CN112948636A,公开了如下内容,该发明公开了一种区域教育云资源共享系统及方法,所述共享系统包括区域教育云资源库、异常声纹数据库、上传检测模块、标识获取模块、第一处理模块和第二处理模块,所述区域教育云资源库用于存储可共享观看的教学视频,所述异常声纹数据库用于存储上传教学视频过程中检测到的异常声纹特征,所述上传检测模块用于检测是否存在上传者上传教学视频到区域教育云资源库,并在检测到上传教学视频的操作时令标识获取模块获取该上传者的用户标识,在用户标识上添加有限制标识时令第一处理模块工作,在用户标识上没有限制标识时令第二处理模块工作。
但是,现有技术中,还存在以下问题:
现有技术中未考虑不同的用户端上传各类教学视频时,教学视频中的语音数据可能属于不同的方言类别,尤其是在方言中存在部分方言特有的词汇,对观看者造成了困扰。
发明内容
为解决上述问题,本发明提供一种基于大数据的教育资源共享系统,包括:
数据存储模块,其包括若干方言数据库、字典数据库以及语音数据库,各所述方言数据库用以存储不同方言类型的方言关键词,所述字典数据库用以存储标准关键词,所述语音数据库用以存储若干预先构建的样本语音片段;
采集模块,用以获取用户端上传的教学视频,从所述教学视频的语音数据中随机提取若干语音片段并获取各语音片段与样本语音片段的匹配结果,以判定各语音片段所属的方言类型,统计属于各方言类型的语音片段的数量计算比例表征值,基于比例表征值确定所述教学视频所属的方言类型;
生成模块,其与所述采集模块以及数据存储模块连接,所述生成模块用以提取所述教学视频中的语音数据,将所述语音数据转化为文字文本,识别文字文本中各分词的分词类别,并且,
将第一类分词直接添加在教学视频中形成字幕;
将第二类分词与所述教学视频所属的方言类型对应的方言数据库中的数据进行匹配,以确定所述第二类分词的语义词汇,将所述语义词汇作为注释添加至所述第二类分词一侧后在教学视频中形成字幕;
共享模块,其与所述生成模块连接,用以将所述生成模块添加字幕后的教学视频上传至云端共享平台。
进一步地,所述采集模块从所述教学视频的语音数据中随机提取若干语音片段并获取各语音片段与样本语音片段的匹配结果,其中,
所述采集模块判定所述语音片段的句子结构,从语音数据库中调用与所述句子结构相同的若干样本语音片段,并将样本语音片段的声学特征与语音片段的声学特征进行对比,获取样本重合度,若所述样本重合度大于预设的重合度对比阈值,则所述采集模块判定语音片段与样本语音片段匹配。
进一步地,所述语音数据库中的各样本语音片段预先与对应的方言类型建立有关联关系。
进一步地,所述采集模块判定各语音片段所属的方言类型,其中,
所述采集模块判定语音片段所属的方言类型与所述语音片段匹配的样本语音片段关联的方言类型相同。
进一步地,所述采集模块统计属于各方言类型的语音片段的数量计算比例表征值,基于所述比例表征值确定所述教学视频所属的方言类型,其中,
所述采集模块根据式(1)计算方言类型对应的比例表征值P,
公式(1)中,q表示语音片段的数量,Q表示属于所述方言类型的语音片段的数量;
所述采集模块确定各所述比例表征值中的最大比例表征值,将所述最大比例表征值对应的方言类型确定为所述教学视频所属的方言类型。
进一步地,所述生成模块中还设置有分词程序,用以对文字文本进行分词操作得到若干分词。
进一步地,所述生成模块根据所述教学视频所属的方言类型判定所述文字文本中各分词的分词类别,其中,
所述生成模块将各分词与字典数据库中的标准关键词进行对比,
在第一条件下,所述生成模块判定所述文字文本中各分词的分词类别为第一类分词;
在第二条件下,所述生成模块判定所述文字文本中各分词的分词类别为第二类分词;
其中,所述第一条件为所述分词与所述字典数据库中任一标准关键词相同,所述第二条件为分词与所述字典数据库中的标准关键词均不相同。
进一步地,各所述方言数据库中的方言关键词均与标准语义词汇建立有关联关系,所述标准语义词汇为所述字典数据库中的标准关键词。
进一步地,所述生成模块将第二类分词与所述教学视频所属的方言类型对应的方言数据库中的方言关键词进行匹配,确定第二类分词的语义词汇,其中,
所述生成模块将第二类分词与所述方言数据库中的方言关键词进行对比,若所述第二类分词与所述方言数据库中的方言关键词相同,则判定所述第二类分词与所述方言关键词匹配,并确定所述第二类分词的语义词汇与所述关键词关联的标准语义词汇相同。
进一步地,所述字典数据库中的标准关键词为预先爬取开源字典数据库中的数据所得。
与现有技术相比,本发明设置数据存储模块、采集模块、生成模块以及共享模块,通过采集模块判定教学视频所属的方言类型,通过生成模块将教学视频中的语音数据转化为文字文本,并且,判定文字文本中的分词类别,将第一类分词直接添加在教学视频中形成字幕,确定第二类分词的语义词汇,将语义词汇作为注释添加至第二类分词一侧后在教学视频中形成字幕,通过上述过程,识别不同教学视频的方言类别以及存在于该方言类别中特有的特殊词汇,添加注释后形成字幕,减少不同方言类别中特殊词汇对观看者造成的困扰,提高教学资源的利用率。
尤其,本发明的采集模块判定教学视频所属的方言类别,在实际情况中,教学视频中的语音数据可能属于不同的方言类别,在不同方言中,相同的句子结构下语调存在差异,本发明基于相同句子结构下语音片段以及样本语音片段中声学特征的样本重合度判定语音片段以及样本语音片段的匹配性,进而判定语音片段所属的方言类型,预先识别方言类型,便于后续调用对应的方言数据库对第二类分词的语义词汇进行识别,进而减少不同方言类别中特殊词汇对观看者造成的困扰,提高教学资源的利用率。
尤其,本发明的共享模块提取教学视频中的语音数据,将语音数据转化为文字文本识别文字文本中各分词的分词类别,在实际情况中,第一类分词表征了常规的词汇,其属于字典数据库中的标准关键词,第二类词汇表征了方言中存在的特殊词汇,其仅存在于该方言类别中,通过算法自动识别出属于不同方言类别的特殊词汇,便于后续对第二类词汇添加注释在教学视频中形成字幕,进而减少不同方言类别中特殊词汇对观看者造成的困扰,提高教学资源的利用率。
尤其,本发明的生成模块将第二类分词与采集模块识别的教学视频所属的方言类型对应的方言数据库中的数据进行匹配,识别语义词汇,减少系统的数据运算量,且提高识别第二类词汇的语义词汇的准确性,进而减少不同方言类别中特殊词汇对观看者造成的困扰,提高教学资源的利用率。
附图说明
图1为发明实施例的基于大数据的教育资源共享系统结构示意图;
图2为发明实施例的数据存储模块结构示意图。
具体实施方式
为了使本发明的目的和优点更加清楚明白,下面结合实施例对本发明作进一步描述;应当理解,此处所描述的具体实施例仅仅用于解释本发明,并不用于限定本发明。
下面参照附图来描述本发明的优选实施方式。本领域技术人员应当理解的是,这些实施方式仅仅用于解释本发明的技术原理,并非在限制本发明的保护范围。
此外,还需要说明的是,在本发明的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域技术人员而言,可根据具体情况理解上述术语在本发明中的具体含义。
请参阅图1以及图2所示,其分别为本发明实施例的基于大数据的教育资源共享系统结构示意图以及发明实施例的数据存储模块结构示意图,本发明的基于大数据的教育资源共享系统包括:
数据存储模块,其包括若干方言数据库、字典数据库以及语音数据库,各所述方言数据库用以存储不同方言类型的方言关键词,所述字典数据库用以存储标准关键词,所述语音数据库用以存储若干预先构建的样本语音片段;
采集模块,用以获取用户端上传的教学视频,从所述教学视频的语音数据中随机提取若干语音片段并获取各语音片段与样本语音片段的匹配结果,以判定各语音片段所属的方言类型,统计属于各方言类型的语音片段的数量计算比例表征值,基于比例表征值确定所述教学视频所属的方言类型;
生成模块,其与所述采集模块以及数据存储模块连接,所述生成模块用以提取所述教学视频中的语音数据,将所述语音数据转化为文字文本,识别文字文本中各分词的分词类别,并且,
将第一类分词直接添加在教学视频中形成字幕;
将第二类分词与所述教学视频所属的方言类型对应的方言数据库中的数据进行匹配,以确定所述第二类分词的语义词汇,将所述语义词汇作为注释添加至所述第二类分词一侧后在教学视频中形成字幕;
共享模块,其与所述生成模块连接,用以将所述生成模块添加字幕后的教学视频上传至云端共享平台。
具体而言,本发明对数据存储模块中各数据库的构造不做限定,只需能满足数据存储功能即可,对于方言数据库,单个方言数据库仅存储单个方言类型的方言关键词,各方言关键词为预先筛选所得,包括筛选出不存在与字典数据库且属于不同方言类别的方言关键词后存储至对应的方言数据库中。
具体而言,语音数据库为预先构建所得,语音数据库分类存储有不同方言类别的样本语音片段,样本语音片段可以为预先通过爬虫程序爬取若干属于不同方言类别的样本语音片段所得。
具体而言,本发明对采集模块以及生成模块的具体结构不做限定,采集模块以及生成模块可以由逻辑部件构成,逻辑部件包括现场可编程处理器、计算机或计算机中的微处理器,当然,优选的,在本实施例中采集模块以及生成模块需配备数据传输器,以实现数据交换。
具体而言,共享模块可以是预先与云端共享平台建立通信协议的数据中转站,用以将生成模块发送的数据上传至云端共享平台。
具体而言,本发明对将语音数据转换为文字文本的形式不做限定,可以采用现有的基于自然语言模型的语音识别工具导入采集模块实现对语音数据的识别,此为现有技术,不再赘述。
具体而言,本发明对分词程序的具体形式不做限定,现有技术中分词程序有多种,本领域技术人员可根据需要选取对应的分词程序,此处不再赘述。
具体而言,所述采集模块从所述教学视频的语音数据中随机提取若干语音片段并获取各语音片段与样本语音片段的匹配结果,其中,
所述采集模块判定所述语音片段的句子结构,从语音数据库中调用与所述句子结构相同的若干样本语音片段,并将样本语音片段的声学特征与语音片段的声学特征进行对比,获取样本重合度,若所述样本重合度大于预设的重合度对比阈值,则所述采集模块判定语音片段与样本语音片段匹配。
具体而言,在本实施例中,句子结构可以采用现有的开源自然语言模型进行分析,例如,获取语音片段的文字文本,将文字文本所构成的句子通过Stanford-Parser模型获取句子的句子结构并标注,包括主语、谓语、宾语、定语、状语等,声学特征包括语调特征,语调特征包括语调、音高、音量以及语速,获取样本重合度时包括获取语音片段以及样本语音片段句子结构各结构部分语调特征的拟合度,求解拟合度平均值,将所述拟合度平均值作为所述样本重合度,对于语调特征的拟合度可以采用语音分析工具实现,在本实施例中可以采用MATLAB语音处理工具箱拟合语调特征获取拟合度。
具体而言,在本实施例中预设的重合度对比阈值为预先测得,其中,提取属于同一方言类别的若干样本语音片段,求解各样本语音片段之间的样本重合度并记录,求解各样本重合度的平均值,将所述平均值设定为所述重合度对比阈值。
具体而言,本发明的采集模块判定教学视频所属的方言类别,在实际情况中,教学视频中的语音数据可能属于不同的方言类别,在不同方言中,相同的句子结构下语调存在差异,本发明基于相同句子结构下语音片段以及样本语音片段中声学特征的样本重合度判定语音片段以及样本语音片段的匹配性,进而判定语音片段所属的方言类型,预先识别方言类型,便于后续调用对应的方言数据库对第二类分词的语义词汇进行识别,进而减少不同方言类别中特殊词汇对观看者造成的困扰,提高教学资源的利用率。
具体而言,所述语音数据库中的各样本语音片段预先与对应的方言类型建立有关联关系,其中,将样本语音片段所属的方言类型与所述样本语音片段建立关联关系。
具体而言,所述采集模块判定各语音片段所属的方言类型,其中,
所述采集模块判定语音片段所属的方言类型与所述语音片段匹配的样本语音片段关联的方言类型相同。
具体而言,所述采集模块统计属于各方言类型的语音片段的数量计算比例表征值,基于所述比例表征值确定所述教学视频所属的方言类型,其中,
所述采集模块根据式(1)计算方言类型对应的比例表征值P,
公式(1)中,q表示语音片段的数量,Q表示属于所述方言类型的语音片段的数量;
所述采集模块确定各所述比例表征值中的最大比例表征值,将所述最大比例表征值对应的方言类型确定为所述教学视频所属的方言类型。
具体而言,所述生成模块中还设置有分词程序,用以对文字文本进行分词操作得到若干分词。
具体而言,所述生成模块根据所述教学视频所属的方言类型判定所述文字文本中各分词的分词类别,其中,
所述生成模块将各分词与字典数据库中的标准关键词进行对比,
在第一条件下,所述生成模块判定所述文字文本中各分词的分词类别为第一类分词;
在第二条件下,所述生成模块判定所述文字文本中各分词的分词类别为第二类分词;
其中,所述第一条件为所述分词与所述字典数据库中任一标准关键词相同,所述第二条件为分词与所述字典数据库中的标准关键词均不相同。
本发明的共享模块提取教学视频中的语音数据,将语音数据转化为文字文本识别文字文本中各分词的分词类别,在实际情况中,第一类分词表征了常规的词汇,其属于字典数据库中的标准关键词,第二类词汇表征了方言中存在的特殊词汇,其仅存在于该方言类别中,通过算法自动识别出属于不同方言类别的特殊词汇,便于后续对第二类词汇添加注释在教学视频中形成字幕,进而减少不同方言类别中特殊词汇对观看者造成的困扰,提高教学资源的利用率。
具体而言,各所述方言数据库中的方言关键词均与标准语义词汇建立有关联关系,所述标准语义词汇为所述字典数据库中的标准关键词,所述方言关键词关联的标准语义词汇能表示所述方言关键词的实际释义。
具体而言,所述生成模块将第二类分词与所述教学视频所属的方言类型对应的方言数据库中的方言关键词进行匹配,确定第二类分词的语义词汇,其中,
所述生成模块将第二类分词与所述方言数据库中的方言关键词进行对比,若所述第二类分词与所述方言数据库中的方言关键词相同,则判定所述第二类分词与所述方言关键词匹配,并确定所述第二类分词的语义词汇与所述关键词关联的标准语义词汇相同。
本发明的生成模块将第二类分词与采集模块识别的教学视频所属的方言类型对应的方言数据库中的数据进行匹配,识别语义词汇,减少系统的数据运算量,且提高识别第二类词汇的语义词汇的准确性,进而减少不同方言类别中特殊词汇对观看者造成的困扰,提高教学资源的利用率。
具体而言,所述字典数据库中的标准关键词为预先爬取开源字典数据库中的数据所得。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于大数据的教育资源共享系统,其特征在于,包括:
数据存储模块,其包括若干方言数据库、字典数据库以及语音数据库,各所述方言数据库用以存储不同方言类型的方言关键词,所述字典数据库用以存储标准关键词,所述语音数据库用以存储若干预先构建的样本语音片段;
采集模块,用以获取用户端上传的教学视频,从所述教学视频的语音数据中随机提取若干语音片段并获取各语音片段与样本语音片段的匹配结果,以判定各语音片段所属的方言类型,统计属于各方言类型的语音片段的数量计算比例表征值,基于比例表征值确定所述教学视频所属的方言类型;
生成模块,其与所述采集模块以及数据存储模块连接,所述生成模块用以提取所述教学视频中的语音数据,将所述语音数据转化为文字文本,识别文字文本中各分词的分词类别,并且,
将第一类分词直接添加在教学视频中形成字幕;
将第二类分词与所述教学视频所属的方言类型对应的方言数据库中的数据进行匹配,以确定所述第二类分词的语义词汇,将所述语义词汇作为注释添加至所述第二类分词一侧后在教学视频中形成字幕;
共享模块,其与所述生成模块连接,用以将所述生成模块添加字幕后的教学视频上传至云端共享平台。
2.根据权利要求1所述的基于大数据的教育资源共享系统,其特征在于,所述采集模块从所述教学视频的语音数据中随机提取若干语音片段并获取各语音片段与样本语音片段的匹配结果,其中,
所述采集模块判定所述语音片段的句子结构,从语音数据库中调用与所述句子结构相同的若干样本语音片段,并将样本语音片段的声学特征与语音片段的声学特征进行对比,获取样本重合度,若所述样本重合度大于预设的重合度对比阈值,则所述采集模块判定语音片段与样本语音片段匹配。
3.根据权利要求2所述的基于大数据的教育资源共享系统,其特征在于,所述语音数据库中的各样本语音片段预先与对应的方言类型建立有关联关系。
4.根据权利要求3所述的基于大数据的教育资源共享系统,其特征在于,所述采集模块判定各语音片段所属的方言类型,其中,
所述采集模块判定语音片段所属的方言类型与所述语音片段匹配的样本语音片段关联的方言类型相同。
5.根据权利要求4所述的基于大数据的教育资源共享系统,其特征在于,所述采集模块统计属于各方言类型的语音片段的数量计算比例表征值,基于所述比例表征值确定所述教学视频所属的方言类型,其中,
所述采集模块根据式(1)计算方言类型对应的比例表征值P,
公式(1)中,q表示语音片段的数量,Q表示属于所述方言类型的语音片段的数量;
所述采集模块确定各所述比例表征值中的最大比例表征值,将所述最大比例表征值对应的方言类型确定为所述教学视频所属的方言类型。
6.根据权利要求1所述的基于大数据的教育资源共享系统,其特征在于,所述生成模块中还设置有分词程序,用以对文字文本进行分词操作得到若干分词。
7.根据权利要求1所述的基于大数据的教育资源共享系统,其特征在于,所述生成模块根据所述教学视频所属的方言类型判定所述文字文本中各分词的分词类别,其中,
所述生成模块将各分词与字典数据库中的标准关键词进行对比,
在第一条件下,所述生成模块判定所述文字文本中各分词的分词类别为第一类分词;
在第二条件下,所述生成模块判定所述文字文本中各分词的分词类别为第二类分词;
其中,所述第一条件为所述分词与所述字典数据库中任一标准关键词相同,所述第二条件为分词与所述字典数据库中的标准关键词均不相同。
8.根据权利要求7所述的基于大数据的教育资源共享系统,其特征在于,各所述方言数据库中的方言关键词均与标准语义词汇建立有关联关系,所述标准语义词汇为所述字典数据库中的标准关键词。
9.根据权利要求8所述的基于大数据的教育资源共享系统,其特征在于,所述生成模块将第二类分词与所述教学视频所属的方言类型对应的方言数据库中的方言关键词进行匹配,确定第二类分词的语义词汇,其中,
所述生成模块将第二类分词与所述方言数据库中的方言关键词进行对比,若所述第二类分词与所述方言数据库中的方言关键词相同,则判定所述第二类分词与所述方言关键词匹配,并确定所述第二类分词的语义词汇与所述关键词关联的标准语义词汇相同。
10.根据权利要求1所述的基于大数据的教育资源共享系统,其特征在于,所述字典数据库中的标准关键词为预先爬取开源字典数据库中的数据所得。
CN202310757934.9A 2023-06-26 2023-06-26 一种基于大数据的教育资源共享系统 Active CN116484052B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310757934.9A CN116484052B (zh) 2023-06-26 2023-06-26 一种基于大数据的教育资源共享系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310757934.9A CN116484052B (zh) 2023-06-26 2023-06-26 一种基于大数据的教育资源共享系统

Publications (2)

Publication Number Publication Date
CN116484052A true CN116484052A (zh) 2023-07-25
CN116484052B CN116484052B (zh) 2023-12-01

Family

ID=87212359

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310757934.9A Active CN116484052B (zh) 2023-06-26 2023-06-26 一种基于大数据的教育资源共享系统

Country Status (1)

Country Link
CN (1) CN116484052B (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117596433A (zh) * 2024-01-19 2024-02-23 自然语义(青岛)科技有限公司 一种基于时间轴微调的国际中文教学视听课件编辑系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346731A (zh) * 2010-08-02 2012-02-08 联想(北京)有限公司 一种文件处理方法及文件处理装置
CN112632977A (zh) * 2020-12-23 2021-04-09 昆明学院 一种彝语语音数据自动标注方法
CN112948636A (zh) * 2021-03-24 2021-06-11 黑龙江省能嘉教育科技有限公司 一种区域教育云资源共享系统及方法
CN113270102A (zh) * 2021-05-18 2021-08-17 深圳市轻生活科技有限公司 一种用于智能语音饮水机的多方言混合语音识别方法
CN113435198A (zh) * 2021-07-05 2021-09-24 深圳市鹰硕技术有限公司 字幕方言词自动纠正显示方法以及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102346731A (zh) * 2010-08-02 2012-02-08 联想(北京)有限公司 一种文件处理方法及文件处理装置
CN112632977A (zh) * 2020-12-23 2021-04-09 昆明学院 一种彝语语音数据自动标注方法
CN112948636A (zh) * 2021-03-24 2021-06-11 黑龙江省能嘉教育科技有限公司 一种区域教育云资源共享系统及方法
CN113270102A (zh) * 2021-05-18 2021-08-17 深圳市轻生活科技有限公司 一种用于智能语音饮水机的多方言混合语音识别方法
CN113435198A (zh) * 2021-07-05 2021-09-24 深圳市鹰硕技术有限公司 字幕方言词自动纠正显示方法以及装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117596433A (zh) * 2024-01-19 2024-02-23 自然语义(青岛)科技有限公司 一种基于时间轴微调的国际中文教学视听课件编辑系统
CN117596433B (zh) * 2024-01-19 2024-04-05 自然语义(青岛)科技有限公司 一种基于时间轴微调的国际中文教学视听课件编辑系统

Also Published As

Publication number Publication date
CN116484052B (zh) 2023-12-01

Similar Documents

Publication Publication Date Title
WO2020253350A1 (zh) 网络内容发布的审核方法、装置、计算机设备及存储介质
CN106202561B (zh) 基于文本大数据的数字化应急管理案例库构建方法及装置
CN108764480B (zh) 一种信息处理的系统
CN112347244B (zh) 基于混合特征分析的涉黄、涉赌网站检测方法
CN116484052B (zh) 一种基于大数据的教育资源共享系统
CN111428028A (zh) 基于深度学习的信息分类方法及相关设备
CN108305618B (zh) 语音获取及搜索方法、智能笔、搜索终端及存储介质
CN112151014B (zh) 语音识别结果的测评方法、装置、设备及存储介质
CN104778230B (zh) 一种视频数据切分模型的训练、视频数据切分方法和装置
EP3232336A1 (en) Method and device for recognizing stop word
CN113762377B (zh) 网络流量识别方法、装置、设备及存储介质
CN103336832A (zh) 基于质量元数据的视频分类器构造方法
CN114553983A (zh) 一种基于深度学习高效工业控制协议解析方法
CN113223532A (zh) 客服通话的质检方法、装置、计算机设备及存储介质
CN115512259A (zh) 一种基于多模态的短视频审核方法
CN113450147A (zh) 基于决策树的产品匹配方法、装置、设备及存储介质
CN116150651A (zh) 基于ai的深度合成检测方法和系统
CN114049508B (zh) 一种基于图片聚类和人工研判的诈骗网站识别方法及系统
CN115424284A (zh) 文本相似度识别方法、装置、设备及存储介质
CN114722191A (zh) 一种基于语义理解处理的通话自动聚类方法及系统
CN110413770B (zh) 将群消息归类到群话题的方法及装置
CN111859032A (zh) 一种短信拆字敏感词的检测方法、装置及计算机存储介质
CN111552783A (zh) 内容分析查询方法、装置、设备和计算机存储介质
CN116126807A (zh) 一种日志分析方法及相关装置
CN115630357A (zh) 一种应用程序越界收集个人信息行为的判定方法

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant