CN117786134B

CN117786134B - 中文语言教学视听平台多模态语料库及智能多维检索系统

Info

Publication number: CN117786134B
Application number: CN202410210566.0A
Authority: CN
Inventors: 刘纪刚; 王涛; 李华丰; 何晗; 李子宾; 孙伟伟
Original assignee: Beijing Audio Visual Speaking Technology Co ltd; Natural Semantics Qingdao Technology Co ltd
Current assignee: Beijing Audio Visual Speaking Technology Co ltd; Natural Semantics Qingdao Technology Co ltd
Filing date: 2024-02-27
Publication date: 2024-05-10
Anticipated expiration: 2044-02-27

Abstract

本发明涉及教育技术领域，具体涉及中文语言教学视听平台多模态语料库及智能多维检索系统，包括数据提取模块、参数化分析模块、课程编排模块、数据库构建模块、个性化学习路径模块、互动式学习分析模块以及智能检索模块；其中，数据提取模块：用于从视听片段中提取字幕和语音数据；参数化分析模块：提取出关键的语言教学参数；课程编排模块：智能编排和分类视听教材片段；数据库构建模块：构建结构化的数据库；个性化学习路径模块：生成个性化的学习路径；互动式学习分析模块：生成学习建议和调整学习内容。本发明，显著提高了中文教学的个性化效果和资源利用效率，同时保证了教学内容与学习者需求的持续匹配。

Description

中文语言教学视听平台多模态语料库及智能多维检索系统

技术领域

本发明涉及教育技术领域，尤其涉及中文语言教学视听平台多模态语料库及智能多维检索系统。

背景技术

随着信息技术的迅猛发展，中文语言教学逐渐转向更加互动性和技术驱动的模式，现代教学方法强调个性化和多模态的学习体验，旨在提高学习效率并适应不同学习者的需求，此外，随着全球化进程的加速，中文作为一种国际性语言的需求日益增长，这要求中文教学方法不仅要高效，还要具有广泛的适应性和可访问性。

尽管现有的教学方法和工具在某种程度上能够满足这些需求，但仍存在诸多限制，首先，传统的教学资源往往缺乏个性化，无法根据学习者的能力和进度提供定制化的学习内容，其次，现有教学平台通常不支持有效的多模态教学资源整合，限制了教学内容的丰富性和多样性，此外，现有系统在教学资源的检索和优化方面往往不够智能，无法为学习者提供精准、相关的教学资源推荐。

本发明提出了一个中文语言教学视听平台，旨在通过多模态语料库和智能多维检索技术，解决上述问题。

发明内容

基于上述目的，本发明提供了中文语言教学视听平台多模态语料库及智能多维检索系统。

中文语言教学视听平台多模态语料库及智能多维检索系统，包括数据提取模块、参数化分析模块、课程编排模块、数据库构建模块、个性化学习路径模块、互动式学习分析模块以及智能检索模块；其中，

数据提取模块：用于从视听片段中提取字幕和语音数据，并进行初步清洗和格式化，为系统提供原始数据；

参数化分析模块：分析数据提取模块的输出数据，并提取出关键的语言教学参数，为课程编排提供基础数据；

课程编排模块：使用参数化分析模块得出的数据，结合视频的类型和语言风格的元数据，智能编排和分类视听教材片段；

数据库构建模块：根据课程编排模块提供的分类信息，构建结构化的数据库，以便于后续的检索和应用；

个性化学习路径模块：接收课程编排模块的输出，并结合学习者的历史数据和偏好设置，生成个性化的学习路径；

互动式学习分析模块：分析学习者与系统的互动数据，并根据该互动数据和个性化学习路径模块提供的路径信息，生成学习建议和调整学习内容；

智能检索模块：利用结构化数据库中的多维数据，为学习者提供针对性的教学资源检索功能。

进一步的，所述数据提取模块包括视频字幕识别单元、音频流提取单元、语音转文本单元以及数据标准化单元；其中，

视频字幕识别单元：采用光学字符识别OCR技术从视听片段中识别和提取字幕信息，该OCR技术还能够处理不同字体和大小的字幕，并将字幕转换为文本格式，以供后续分析和处理；

音频流提取单元：利用数字信号处理技术，从视听片段中提取音频流，为后续的语音识别处理提供原始音频数据；

语音转文本单元：通过自动语音识别ASR技术，将音频流提取单元输出的音频数据转换为文本格式，实现从语音到文本的准确转录，该语音转文本单元还能够识别多种中文口音和语速变化；

数据结构化单元：采用自然语言处理和数据清洗技术，用于优化OCR和ASR产生的文本数据，并进行错误校正、去噪声、格式统一操作，提升数据的质量和一致性。

进一步的，所述参数化分析模块包括中文分词单元、词性标注单元、词汇关系分析单元、词汇等级评估单元以及语速分析单元；其中，

中文分词单元：用于从文本数据中准确地识别和分离中文词汇，该中文分词单元基于结构化感知机的序列标注框架，利用转移特征函数和状态特征函数进行中文分词；

设转移特征函数为，用于捕获相邻标签之间的转换规律，具体转移特征函数的公式定义为：

，

其中，和/>分别代表序列中相邻两个位置的标签，/>和/>是标注集中的标签；

设状态特征函数为，用于描述观测数据与标签之间的关系，具体状态特征函数公式定义为：

，

其中，是观测数据，/>是对应的标签；

词性标注单元：采用条件随机场算法，对从数据提取模块接收到的文本数据进行词性标注，该词性标注单元能够准确识别文本中各单词的词性包括名词、动词、形容词等，所述条件随机场算法公式为：

，其中，/>是给定词序列/>下词性序列/>的条件概率，/>是规范化因子，/>是特征函数/>的权重；

词汇关系分析单元：运用WordNet数据库和余弦相似度公式分析并识别文本中的主位词及其同义词、反义词和上下位词关系，具体表示为：

，其中/>和/>是词向量，/>是它们之间的夹角，A和B是向量的模；

词汇等级评估单元：基于词汇的使用频率和复杂度，该词汇等级评估单元评估并分配每个词汇的等级，具体运用统计和语言学习数据，以确定词汇适用于不同中文教学水平；

语速分析单元：对音频数据进行处理，以测量和分析语速，具体采用时长的语速计算公式进行处理，其中，V是语速，W是一段时间内的总单词数，T是该时间段的长度。

进一步的，所述课程编排模块包括内容分类单元、教学目标匹配单元、动态编排单元以及多模态集成单元；其中，

内容分类单元：应用支持向量机算法，分析从参数化分析模块接收的词汇等级、语速、词性数据，结合视频的类型和语言风格，进行教材片段的分类和标签化；

教学目标匹配单元：使用决策树算法，根据教学大纲和学习目标，匹配分类后的教材片段，决策树通预设的规则对数据进行划分，将教材片段与不同的教学目标相匹配；

动态编排单元：采用基于规则的系统，根据学习者的进度和反馈动态地组织和编排教材片段，这种方法允许根据预定义的规则集调整教材片段的顺序和难度，以适应学习者的需求；

多模态集成单元：利用数据融合技术，综合文本、音频和视频的不同模态的教材，所述数据融合技术采用主成分分析PCA方法，提取多模态数据中的主要特征，以减少数据冗余，具体提取公式为：，其中，Data是不同模态的原始数据矩阵，W是从数据中提取的主要成分。

进一步的，所述教学目标匹配单元中决策树的构建基于信息增益来选择特征，具体公式为：

，其中，D表示数据集，/>是特征，Entropy是数据集的熵，/>是特征/>在值/>下的子集，该算法将教材片段的特征和教学目标相匹配，以构建决策树，所述动态编排单元中的预定义的规则为：IFCondition，其中，X是学习者的进度或反馈数据，Y是对教材片段顺序或难度的调整。

进一步的，所述数据库构建模块包括数据归类单元、数据库索引构建单元、数据整合单元以及数据冗余处理单元；其中，

数据归类单元：接收课程编排模块提供的分类信息，并应用关联规则挖掘算法来归类和标记教材片段，所述关联规则挖掘算法为Apriori算法，具体计算公式为：

，

，其中，X和Y是项集，该Apriori算法用于发现频繁项集并生成强关联规则，用于对教材进行准确归类；

数据库索引构建单元：基于归类结果，使用B-Tree的索引技术，以优化检索效率，该B-Tree是一种平衡多路查找树，B-Tree的构建公式基于保持树的平衡性，确保每个节点的子节点数在预设范围内；

数据整合单元：用于将文本、音频、视频的多种格式的数据整合到统一的数据库结构中，具体运用ETL过程，将各种格式的数据转换为统一格式，并加载到数据库中，所述ETL过程包括数据清洗、转换和加载的步骤，确保数据的一致性和可查询性；

数据冗余处理单元：应用数据规范化技术，减少数据冗余，提高数据库效率，具体将数据库设计为第三范式，确保每个非主属性仅依赖于主键，以减少数据冗余。

进一步的，所述个性化学习路径模块包括学习者资料分析单元、路径生成算法单元以及课程匹配单元；其中，

学习者资料分析单元：用于对学习者的历史学习数据和偏好设置进行分析，包括分析评估学习者以往的学习进度、测试成绩、选择的教材类型以及任何明确表达的偏好；

路径生成算法单元：通过应用协同过滤算法来生成个性化学习路径，该协同过滤通过分析类似用户的偏好来预测当前用户的偏好，具体公式表示为：

，其中，/>表示用户/>对项目/>的预测偏好，/>是用户/>和其他用户/>之间的相似度，是其他用户对项目的评分；

课程匹配单元：用于根据协同过滤算法的输出，来匹配适合学习者当前能力和偏好的教材。

进一步的，所述互动式学习分析模块包括互动数据收集单元、学习行为分析单元、建议生成单元以及学习内容调整单元；其中，

互动数据收集单元：用于收集学习者与教学平台之间的互动数据，该互动数据包括学习者的答题记录、练习完成情况、教材选择偏好；

学习行为分析单元：应用逻辑回归的学习技术，分析学习者的互动数据，预测学习成效和识别学习障碍，具体逻辑回归公式表示为：

，其中，/>表示给定特征X的情况下，学习者展现特定学习行为的概率；/>是模型参数；/>是学习者互动数据的特征；

建议生成单元：基于学习行为分析的结果，生成个性化学习建议，具体当分析显示学习者在某个主题上有困难，系统将会推荐相关的辅助材料或练习；

学习内容调整单元：根据分析结果和个性化学习路径模块的输出，调整学习内容，具体根据学习者的进度和掌握程度，调整接下来的教材难度或主题。

进一步的，所述智能检索模块包括数据查询处理单元、多维数据匹配单元以及智能推荐算法单元；其中，

数据查询处理单元：用于接收用户查询请求并将其转换为能操作的数据查询，该转换包括解析用户的自然语言查询，提取关键词和短语，并将解析的数据转换为数据库查询语句；

多维数据匹配单元：利用结构化数据库中的多维数据特性包括教材类型、难度级别、语言风格，以匹配用户查询；

智能推荐算法单元：运用协同过滤算法或基于内容的推荐，以进一步优化搜索结果，具体通过分析类似用户的偏好和历史交互数据，系统能够为当前用户推荐更加匹配的教学资源。

本发明的有益效果：

本发明，通过多模态语料库和智能多维检索系统显著提高了个性化教学的效果，个性化学习路径模块允许系统根据每个学习者的学习历史、能力和偏好生成定制化的学习计划，选择或推荐学习内容，从而确保每个学习者都能以最适合自己的方式和速度学习，这种个性化的方法有助于提高学习者的参与度和学习成效，同时降低学习者可能感到的挫败感和压力。

本发明，通过智能检索模块和结构化数据库的构建，使得教学资源的整合和利用更加高效，多模态集成单元的使用使得文本、音频、视频等不同类型的教学资源可以被有效地融合在一起，提供更丰富、更具吸引力的学习材料，此外，智能检索模块的高效检索功能使得学习者能够快速找到最适合自己的教学资源，极大地节省了学习者的时间并提高了学习资源的利用率。

本发明，通过互动式学习分析模块和动态编排单元共同工作，不断根据学习者的互动数据和反馈调整学习内容和路径，这意味着学习过程具有高度的动态适应性，能够实时响应学习者的进展和需求变化，这种动态调整不仅使学习过程更加有效，还确保了学习内容始终与学习者的当前能力和学习目标保持一致，从而提升学习效率。

附图说明

为了更清楚地说明本发明或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1为本发明实施例的多模态语料库及智能多维检索系统示意图。

具体实施方式

为使本发明的目的、技术方案和优点更加清楚明白，以下结合具体实施例，对本发明进一步详细说明。

需要说明的是，除非另外定义，本发明使用的技术术语或者科学术语应当为本发明所属领域内具有一般技能的人士所理解的通常意义。本发明中使用的“第一”、“第二”以及类似的词语并不表示任何顺序、数量或者重要性，而只是用来区分不同的组成部分。“包括”或者“包含”等类似的词语意指出现该词前面的元件或者物件涵盖出现在该词后面列举的元件或者物件及其等同，而不排除其他元件或者物件。“连接”或者“相连”等类似的词语并非限定于物理的或者机械的连接，而是可以包括电性的连接，不管是直接的还是间接的。“上”、“下”、“左”、“右”等仅用于表示相对位置关系，当被描述对象的绝对位置改变后，则该相对位置关系也可能相应地改变。

如图1所示，中文语言教学视听平台多模态语料库及智能多维检索系统，包括数据提取模块、参数化分析模块、课程编排模块、数据库构建模块、个性化学习路径模块、互动式学习分析模块以及智能检索模块；其中，

参数化分析模块：分析数据提取模块的输出数据，并提取出关键的语言教学参数，如词汇等级和语速，为课程编排提供基础数据；

互动式学习分析模块：分析学习者与系统的互动数据（如答题、练习反馈），并根据该互动数据和个性化学习路径模块提供的路径信息，生成学习建议和调整学习内容；

智能检索模块：利用结构化数据库中的多维数据，为学习者提供针对性的教学资源检索功能，提高学习效率和个性化体验。

数据提取模块包括视频字幕识别单元、音频流提取单元、语音转文本单元以及数据标准化单元；其中，

语音转文本单元：通过自动语音识别ASR技术，将音频流提取单元输出的音频数据转换为文本格式，实现从语音到文本的准确转录，该语音转文本单元还能够识别多种中文口音和语速变化，确保高准确率的语音转录；

数据结构化化单元：采用自然语言处理和数据清洗技术，用于优化OCR和ASR产生的文本数据，并进行错误校正、去噪声、格式统一操作，提升数据的质量和一致性，确保后续模块能够处理高准确性和高质量的数据。

参数化分析模块包括中文分词单元、词性标注单元、词汇关系分析单元、词汇等级评估单元以及语速分析单元；其中，

中文分词单元：用于从文本数据中准确地识别和分离中文词汇，该中文分词单元基于结构化感知机的序列标注框架，利用转移特征函数和状态特征函数进行中文分词，并基于条件随机场训练算法，使用大量语料训练而成。

，

其中，是观测数据，/>是对应的标签；

词性标注单元：采用条件随机场(CRF)算法，对从数据提取模块接收到的文本数据进行词性标注，该词性标注单元能够准确识别文本中各单词的词性包括名词、动词、形容词，条件随机场算法公式为：

语速分析单元：对音频数据进行处理，以测量和分析语速，具体采用时长的语速计算公式进行处理，其中，V是语速(每分钟的单词数），W是一段时间内的总单词数，T是该时间段的长度(分钟)，该语速分析单元能够准确计算语音中的单词每分钟数，帮助判断教学材料的语速适宜性；

通过参数化分析模块，系统能够从视听材料中准确提取关键的语言教学参数，如词性、主位词及其同义词、反义词、上下位词关系、词汇等级和语速，通过这种细致的分析，参数化分析模块为课程编排模块提供了深入且准确的数据支持。

课程编排模块包括内容分类单元、教学目标匹配单元、动态编排单元以及多模态集成单元；其中，

内容分类单元：应用支持向量机（SVM）算法，分析从参数化分析模块接收的词汇等级、语速、词性数据，结合视频的类型和语言风格，进行教材片段的分类和标签化，该支持向量机算法通过构建一个或多个超平面在高维空间中进行分类，具体步骤包括，

特征提取：从教材片段中提取关键特征，包括视频类型、语言风格，以及从参数化分析模块得到的词汇等级、语速等，并将这些特征表示为向量形式，例如，，其中/>表示不同的特征值；

SVM模型训练：使用标记好的训练数据集，其中每个样本都包含特征向量和对应的类别标签(如初级教材、高级教材)，SVM的目标是找到一个超平面，这个超平面能够最好地分隔不同类别的数据，这可以表示为优化问题：

，/>，其中，/>是超平面的法向量，/>是偏移量，/>是第/>个样本的类别标签；

分类和标签化：对于新的教材片段，首先提取其特征并构成向量，随后使用训练好的SVM模型对这些特征向量进行分类，具体计算公式为：

，如果，/>的结果为正，则分配到一个类别，如果为负，则分配到另一个类别，最后根据分类结果，为每个教材片段分配相应的标签，如“初级教材”、“对话练习”等；

多模态集成单元：利用数据融合技术，综合文本、音频和视频的不同模态的教材，数据融合技术采用主成分分析PCA方法，提取多模态数据中的主要特征，以减少数据冗余，具体提取公式为：，其中，Data是不同模态的原始数据矩阵，W是从数据中提取的主要成分，这种数据融合技术有效地整合了多种模态的数据，提高了教学资源的综合利用效率和质量。

教学目标匹配单元中决策树的构建基于信息增益(InformationGain,IG)来选择特征，具体公式为：

，其中，D表示数据集，/>是特征，Entropy是数据集的熵，/>是特征/>在值/>下的子集，该算法将教材片段的特征(如词汇等级、视频类型)和教学目标相匹配，以构建决策树，动态编排单元中的预定义的规则为：IFCondition/>，其中，X是学习者的进度或反馈数据，Y是对教材片段顺序或难度的调整，例如，如果学习者完成率低于50%，则降低难度级别。

数据库构建模块包括数据归类单元、数据库索引构建单元、数据整合单元以及数据冗余处理单元；其中，

数据归类单元：接收课程编排模块提供的分类信息，并应用关联规则挖掘算法来归类和标记教材片段，关联规则挖掘算法为Apriori算法，具体计算公式为：

，

数据整合单元：用于将文本、音频、视频的多种格式的数据整合到统一的数据库结构中，具体运用ETL（提取、转换、加载）过程，将各种格式的数据转换为统一格式，并加载到数据库中，ETL过程包括数据清洗、转换和加载的步骤，确保数据的一致性和可查询性；

数据冗余处理单元：应用数据规范化技术，减少数据冗余，提高数据库效率，具体将数据库设计为第三范式（3NF），确保每个非主属性仅依赖于主键，以减少数据冗余。

个性化学习路径模块包括学习者资料分析单元、路径生成算法单元以及课程匹配单元；其中，

，其中，表示用户/>对项目/>的预测偏好，/>是用户/>和其他用户/>之间的相似度，/>是其他用户对项目的评分；

课程匹配单元：用于根据协同过滤算法的输出，来匹配适合学习者当前能力和偏好的教材，程匹配单元还将根据学习者的实时反馈和进度调整学习路径，例如，如果学习者在某个主题上表现出困难，则系统会推荐更多相关的练习和解释材料。

互动式学习分析模块包括互动数据收集单元、学习行为分析单元、建议生成单元以及学习内容调整单元；其中，

智能检索模块包括数据查询处理单元、多维数据匹配单元以及智能推荐算法单元；其中，

多维数据匹配单元：利用结构化数据库中的多维数据特性包括教材类型、难度级别、语言风格，以匹配用户查询，这涉及到复杂的数据库查询操作，如多表连接和条件筛选，以确保准确地检索到匹配用户需求的教学资源；

本发明旨在涵盖落入所附权利要求的宽泛范围之内的所有这样的替换、修改和变型。因此，凡在本发明的精神和原则之内，所做的任何省略、修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.中文语言教学视听平台多模态语料库及智能多维检索系统，其特征在于，包括数据提取模块、参数化分析模块、课程编排模块、数据库构建模块、个性化学习路径模块、互动式学习分析模块以及智能检索模块；其中，

数据提取模块：用于从视听片段中提取字幕和语音数据，并进行初步清洗和结构化，为系统提供原始数据，所述数据提取模块包括视频字幕识别单元、音频流提取单元、语音转文本单元以及数据标准化单元；其中，

数据结构化单元：采用自然语言处理和数据清洗技术，用于优化OCR和ASR产生的文本数据，并进行错误校正、去噪声、格式统一操作；

参数化分析模块：分析数据提取模块的输出数据，并提取出关键的语言教学参数，为课程编排提供基础数据，所述参数化分析模块包括中文分词单元、词性标注单元、词汇关系分析单元、词汇等级评估单元以及语速分析单元；其中，

，

其中，是观测数据，/>是对应的标签；

词性标注单元：采用条件随机场算法，对从数据提取模块接收到的文本数据进行词性标注，该词性标注单元能够准确识别文本中各单词的词性包括名词、动词、形容词，所述条件随机场算法公式为：

，其中，/>是给定词序列x下词性序列y的条件概率，/>是规范化因子，/>是特征函数/>的权重；

语速分析单元：对音频数据进行处理，以测量和分析语速，具体采用时长的语速计算公式进行处理，其中，V是语速，W是一段时间内的总单词数，T是该时间段的长度；

课程编排模块：使用参数化分析模块得出的数据，结合视频的类型和语言风格的元数据，智能编排和分类视听教材片段，所述课程编排模块包括内容分类单元、教学目标匹配单元、动态编排单元以及多模态集成单元；其中，

多模态集成单元：利用数据融合技术，综合文本、音频和视频的不同模态的教材，所述数据融合技术采用主成分分析PCA方法，提取多模态数据中的主要特征，以减少数据冗余，具体提取公式为：，其中，Data是不同模态的原始数据矩阵，W是从数据中提取的主要成分；

数据库构建模块：根据课程编排模块提供的分类信息，构建结构化的数据库，以便于后续的检索和应用，所述数据库构建模块包括数据归类单元、数据库索引构建单元、数据整合单元以及数据冗余处理单元；其中，

，

数据整合单元：用于将文本、音频、视频的多种格式的数据整合到统一的数据库结构中，具体运用ETL过程，将各种格式的数据转换为统一格式，并加载到数据库中，所述ETL过程包括数据清洗、转换和加载的步骤；

数据冗余处理单元：应用数据规范化技术，将数据库设计为第三范式，确保每个非主属性仅依赖于主键，以减少数据冗余；

2.根据权利要求1所述的中文语言教学视听平台多模态语料库及智能多维检索系统，其特征在于，所述教学目标匹配单元中决策树的构建基于信息增益来选择特征，具体公式为：

，其中，D表示数据集，f是特征，Entropy是数据集的熵，/>是特征f在值v下的子集，该算法将教材片段的特征和教学目标相匹配，以构建决策树，所述动态编排单元中的预定义的规则为：，其中，X是学习者的进度或反馈数据，Y是对教材片段顺序或难度的调整。

3.根据权利要求1所述的中文语言教学视听平台多模态语料库及智能多维检索系统，其特征在于，所述个性化学习路径模块包括学习者资料分析单元、路径生成算法单元以及课程匹配单元；其中，

4.根据权利要求1所述的中文语言教学视听平台多模态语料库及智能多维检索系统，其特征在于，所述互动式学习分析模块包括互动数据收集单元、学习行为分析单元、建议生成单元以及学习内容调整单元；其中，

5.根据权利要求1所述的中文语言教学视听平台多模态语料库及智能多维检索系统，其特征在于，所述智能检索模块包括数据查询处理单元、多维数据匹配单元以及智能推荐算法单元；其中，