CN113452871A

CN113452871A - 用于从视频自动生成课程的系统和方法

Info

Publication number: CN113452871A
Application number: CN202110321285.9A
Authority: CN
Inventors: 陈启台; 陈铭龙; 杨棋宇; 宁格致; 钟振文
Original assignee: Ponddy Education Inc
Current assignee: Ponddy Education Inc
Priority date: 2020-03-26
Filing date: 2021-03-25
Publication date: 2021-09-28
Also published as: US20210304628A1

Abstract

本发明提供用于从视频自动生成课程的系统和方法，具体地，提出了用于自动创建外语学习课程的系统和方法。收到输入视频后，对音轨进行去噪，然后根据音轨中的句子对音轨进行分割。抄录句子，并对抄录文本中的单词评分。基于合计评分，将视频视为外语学习的正面示例或反面示例。将视频和句子的抄录文本制作为教学材料。可以对抄录文本中的单词进行标记以指示母语为另一语言的学习者可能容易说错的单词。

Description

用于从视频自动生成课程的系统和方法

技术领域

本发明涉及外语教学领域，并且更具体地，涉及从上传的视频创建定制教学课程。

背景技术

由于多媒体技术的进步，视频记录(包括音频通道或音频轨道的视频文件)已经成为现代生活的重要组成部分。出于商业和个人目的，每天都会有数百万视频记录产生。这些视频中，一些被明确地制作为用于外语学习的教学辅助，而其它视频则稍后被重新用于该任务。一般来说，开发用于语言学习的新课程通常需要一到两个月。

通过观看其他人说中文的视频来学习中文的非中文母语者往往会犯几种类型的发音错误。一种是由学习者母语的发音行为而导致的发音错误。学习中文的英语母语者与法语母语者往往会犯相同种类但不同组的发音错误。其它错误则是模仿视频中的说话者本身的错误。例如，学习中文的人有时会使用非中文母语者说中文的视频。在这种情况下，学习者可能最终会出现视频中的非中文母语者的发音错误。如果视频中讲话者的母语是中文，但说话时发音咬字不清晰，也会出现这种情况。

发明内容

本发明提供用于从诸如用户提供的视频文件创建教育课程的系统和方法。这些系统和方法除了其他之外识别常见的发音错误，突出显示视频中说话者的错误发音，并且在视频的音频部分的人类语音分量的抄录文本中，标记出用户可能错误发音的单词。这些系统和方法采用机器学习，通过学习用户的输入来改善本文描述的一个或多个功能。

句子本质上是口语中最常见的口语学习单元或听力学习单元，因此，本发明根据所识别的句子边界将视频文件自动分割成更小的片段。本发明还包括自动抄录在视频的音轨中识别的语音，以获得相应的抄录文本。本发明可以进一步包括确定视频文件的学习价值，和/或自动识别基于语言的发音错误模式。此外，本发明可以包括通过自动生成与视频抄录文本相关的附加学习材料来构建课程。

本发明允许将诸如为其它目的制作的各种视频自动转换为用于语言学习的教学材料。使用这些教学材料，学生可以通过收听视频的音轨中的语音，以及通过以视频作为参考练习说话来学习。从视频到高质量可学习课程(即课程)的自动转换极大地改进和加速了课程生成过程。因此，包含了母语为另一语言的学习者的常见错误模式，以更有效地学习。因此，本发明允许根据用户的母语来个性化课程，这通过基于用户的母语来识别用户可能在哪些地方犯发音错误，并且在从视频获得的视频抄录文本中标记出这些地方来实现。

本文所公开的视频到课程的系统和方法的各种实施例还可以识别和标记输入视频中说话者的发音错误，以防止用户被这些错误发音误导。视频中说话者的发音错误的数量和类型也可以用于确定作为课程的一部分的视频的价值。应当注意的是，虽然视频中说话者发音良好可以是正面学习示例，但不良发音也可以用作避免错误的学习示例。另外，在本发明中采用机器学习的情况下，可以通过连续使用来连续训练和细化机器学习模型。

在本发明的一个典型应用中，教师挑选任意视频，例如在线找到的视频。系统自动抄录该输入视频并将抄录文本作为语料库。系统基于该输入视频生成临时课程。教师在需要时仍然可以安排或重写材料。在生成最终课程之后，科目相关材料和基于课程内容的练习将自动附加至该课程。系统还自动检测句子的语法点，为所有单词标注拼音和语言熟练水平，为句子注释相应的视频/音频剪辑，并融合所有必要元素以构建课程。教师制作课程仅需花费几分钟，并且内容可以容易地改变。另外，语言熟练水平的所有标准均存储在数据库中，并且可以与内容自动匹配。

附图说明

图1示出根据本发明各种实施例，用于将视频文件自动转换为外语教学的教育课程的示例性方法，以及用于执行这些方法的系统。

图2是根据本发明各种实施例，用于按照人类语音句子边界分割视频的方法的示意图。

图3示出根据本发明各种实施例的自动语音识别模型的使用。

图4是根据本发明各种实施例，用于确定视频针对语言教学提供正面示例还是反面示例的示例性方法的示意图。

图5提供了使用根据本发明各种实施例的语法检测模型的两个示例。

图6和图7示意性地示出根据本发明各种实施例的语言学习课程的示例性制作过程。

具体实施方式

本发明涉及从出于个人或商业方面的其它原因而制作的普通视频文件自动生成语言学习课程的系统和方法。示例性课程包括从音轨中去除了噪音的原始视频、视频中所说单词的抄录文本，以及可以访问的与视频中的语音相关的信息，诸如发音错误、有帮助的建议等。

图1是示例性系统100的示意性表示，该图也可以用于表示将输入视频文件自动转换为用于外语教学的教育课程的方法。例如，系统100可以设置在诸如服务器的主机计算系统上，并且例如可以通过诸如互联网等网络与多个客户端设备通信。合适的客户端设备包括个人计算机和智能电话，其包括显示器和麦克风并且运行客户端应用程序。客户端应用程序为用户提供上传待转换为课程的视频的界面。主机系统的后端接收视频、创建课程并为向用户进行显示的应用程序或浏览器返回交互式课程页面。在交互式课程中，显示在视频中识别的每个口语句子的抄录文本，并且在所显示的抄录文本中标记容易发错音的单词。此外，交互式课程提供了允许用户在播放句子的分段原始音频(来自视频)或练习当前句子或单词之间进行选择的手段。当用户选择练习单词或句子时，客户端设备的麦克风可以可选地拾取用户说话的声音，并将音频提供给语音评分系统。在2019年8月16日提交的题为“Systems and Methods for Comprehensive Chinese Speech Scoring andDiagnosis”的美国专利申请16/542,760中，公开了一种示例性语音评分系统，该专利通过引用并入本文。语音评分系统可以评估用户的发音质量，并向用户发送反馈。

系统100的主机和客户端设备均包括处理器和用于存储计算机可读指令的非瞬时存储器，当由处理器执行时，该计算机可读指令使主机和客户端设备执行本文公开的方法的步骤。可以由诸如服务器的主机执行的一种示例性方法包括：接收具有音轨的示例性输入视频文件110的步骤，使用去噪系统120从音轨中去除噪音的步骤，使用分割模块130根据人类语音句子边界分割所述输入视频的步骤，使用抄录模块140抄录在干净音轨中识别的口语句子，以创建句子抄录文本145的步骤，以及使用课程模块150从抄录文本145生成学习材料的步骤。

接收输入视频文件的步骤可以包括接收例如MPEG文件、Windows媒体视频文件或WebM文件。输入视频优选包括说用户想要变得更熟练的语言的一个或多个人。为了说明的目的，本发明以中文作为待学习语言的示例，并且假设用户具有不同的母语。然而，本文公开的系统和方法可以生成用于获取对任何语言的熟练度的课程。输入视频可以由用户提供，或者可以由寻求制作用于语言教育的适当课程的组织提供。在用户提供输入视频的情况下，在该步骤中，用户可以通过网络连接将来自客户端设备(例如PC、平板电脑或智能电话)的视频上传到主机服务器，以从中生成学习材料。

在去噪步骤中，从输入视频的音轨中去除噪音以产生干净音轨。在本上下文中，噪音是音频中除了人类语音分量之外的任何声音。在一些实施例中，去噪可以包括分析音轨以将语音分量与诸如音乐、交通、动物声音等背景音区分开。适合于执行该步骤的示例性去噪系统可以采用机器学习，诸如通过使用生成对抗网络(GAN)。基于GAN的语音增强系统是本领域熟知的，例如，参见康奈尔大学S.Pascual等人于2019年4月发表的“TowardsGeneralized Speech Enhancement with Generative Adversarial Networks”，。

在采用机器学习的去噪系统120中，在去噪系统120被用于去噪步骤之前，利用各种噪音数据(音乐等)作为非语音特征来训练去噪系统120的去噪模型。在一些训练实施例中，可以使用普通噪音模型生成模拟各种环境中发现的噪音的噪音。然后将生成的噪音添加到干净的语音音频文件中，以生成用于训练去噪模型的训练数据。在去噪步骤期间，在一些实施例中，去噪系统120识别非语音信号，通过滤波去除这些信号，并且放大剩余语音信号以产生干净音轨。

根据人类语音句子边界分割视频的步骤可以包括：在各种实施例中，将干净音轨作为输入，确定句子边界(即每个句子的开始时间和结束时间)，以及使用句子边界将视频分隔成更小的视频片段。句子边界检测还可以基于机器学习，例如通过使用神经网络技术。在训练期间，训练句子边界模型以自动提取有用的特征，诸如音量、静默持续时间、人声特征等，以识别句子边界。在运行时，使用经训练的模型来预测干净音轨中的句子边界。有时在对话时间标记(Conversation Time Marked，CTM)格式文件中提供该时间-边界信息。

图2示出根据人类语音句子边界来分割视频的示例性过程。在该示例中，干净音轨作为输入被接收，在本示例中是两个人之间的对话。干净音轨是诸如.WAV的数字音频格式的数字文件。使用经训练的声音活动检测模型预测干净音轨中表示口语句子的那些部分，例如通过记下其间的静默时段。声音活动检测模型也是基于深度学习的模型，其将具有静默时段的干净语音音频作为输入，随后输出非静默语音部分的时段。声音活动检测模型根据馈送过来的训练语料库学习如何确定采样点是否表示人类语音。示例性的声音活动检测模型包括在https://github.com/jtkim-kaist/VAD和https://ieeexplore.ieee.org/document/8309294找到的那些。

在一些实施例中，在连续采样点处对干净音轨进行采样，并且对于每个采样点，预测该采样点是否表示人类语音。在这些实施例中，如果在等于阈值的持续时间内，例如300ms，有一系列采样点被预测为人类语音，则该系列采样点被认为是人类语音，否则该采样点被认为是静默。

干净音轨中有时仍然会留下一些残余噪音。如果干净音轨中没有残余噪音，则在采样点的音量超过阈值的情况下，可以确定该采样点表示人类语音，否则将其视为静默。另一方面，如果干净音轨中仍然包含一些残余噪音，则使用声音活动检测模型确定人类语音和静默。

为了将干净音轨分割为句子，通过其开始时间和结束时间来划定被识别为句子的部分，每个划定部分为一个音频片段。然后，将相同的开始时间和结束时间应用于视频，以创建与音频片段同步的视频片段。在一些实施例中，可以通过在客户端设备上操作的应用程序向用户提供选项，以调整客户端设备的显示器上显示的边界预测结果。

回到图1，抄录音轨以创建抄录文本145的步骤使用分割后的干净音轨作为输入，如图3所示。音频抄录可以基于在抄录模块140中实现的机器学习和概率技术，诸如在Kaldi语音识别工具包中公开的那些，https://infoscience.epfl.ch/record/192584/files/Povey_ASRU2011_2011.pdf。另一个示例在美国专利申请公开US2015/0058,003中公开，其公开内容以引用方式并入本文。在诸如这些的实施例中，抄录模块140可以包括经训练的机器学习模型，用于从干净音轨中提取人类语音特征(例如mfcc特征)以确定连续音素，如美国专利申请16/542,760中所述的。随后，可以将连续音素与单词进行匹配，以将所说的句子呈现为抄录文本145，即说话者的语言中表示单词和标点符号的文字文本，例如在视频中的说话者说中文的情况下，抄录文本为中文汉字。因此，在各种实施例中，抄录模块140确定人类语音的语言，并使用相同语言的适当字符来提供抄录文本145。在各种实施例中，抄录文本145还可以包括被字译(transliterate)为另一种语言或以其它方式表达的句子。例如，在语言是中文的情况下，句子的抄录文本145可以包括所确定的中文汉字和与每个单词匹配的拼音。

在获得抄录文本145之后，课程模块150接收抄录文本145，以生成包括基于输入视频的语言学习材料的语言学习课程。课程模块150确定输入音频在作为课程的价值方面是正面示例还是反面示例。课程模块150还构建统计模型，以根据视频中的口语来记录频繁发错音的单词。课程模块150还根据学习者的母语自动标记经常发错音的单词，以提高学习效率。图4示出可以由课程模块150执行以完成这些任务的示例性过程。

在图4中，对抄录文本145和干净音轨执行强制对齐，以识别抄录文本145中每个单词的开始时间和结束时间，从而可以隔断每个单词的声音并在课程中使用。此外，采用语音评分模型并参考从干净音轨中导出的抄录文本145，对干净音轨中的人类语音的质量进行评分。特别地，每个抄录文本145中的每个单词接收一个评分，例如在0-100之间，并且累积使用这些评分来确定输入视频是正面示例还是反面示例。美国专利申请16/542,760描述了对口语单词的音频记录的发音进行评分的合适方法。

在视频中所说的语言中，当与学习者母语相同的人经常发错音的单词出现在抄录文本145中时，还使用常见错音单词模型来标记经常发错音的单词。在一些实施例中，使用相应的统计模型来预测100个最频繁的单词发音错误，并将其标注在文本上。

为了生成初始模型，在一些实施例中，将包括中文中所有音素的五个中文句子给到母语为另一语言(如西班牙语)的说话者，让其大声朗读并把他们的声音记录下来。之后，用语音评分系统对所有声音记录进行评分，以构建结合了目标语言和母语(例如母语为西班牙的人说中文)的初始发音错误模型。在使用学习课程时，可以修正这些模型。每当母语为某种语言的人练习视频中所说的目标语言时，记录评分低于阈值的单词，并且随着时间的推移，发现比现有模型中更频繁或更不频繁地发错音的单词，因此，分配给单词的权重也相应地变化。

在视频所说的语言中，针对母语与视频中所说语言相同的说话者的常见错音单词的另一模型(例如视频中的说话者是说中文的本土中国人时，母语是中文的说话者的错误发音)也用于在抄录文本中标记视频中的说话者发音错误的单词。

接下来，评估视频中单词的分数，以确定该视频是构成正面示例还是反面示例。在一个示例性实施例中，同时采用视频中的单词数量的阈值百分比和阈值分数两者。在图4的示例中，如果超过80％的单词评分高于60，则认为视频是正面示例，而如果句子中80％或更少的单词评分高于60，则认为视频是反面示例。评分低于阈值的单词(在本例中为60分)可以用于通过更新发音错误模式模型中分配给单词的权重来训练发音错误模式模型。在一些实施例中，将视频中各句子的单独抄录文本145类似地确定为正面的或反面的。

课程模块150还可以执行单词分割、单词等级标记、拼音标记、词汇定位和语法检测中的一个或多个操作。单词分割将字符表征为在上下文中有意义的词序列。例如，在中文中，每个汉字都有其含义，并且两个或三个汉字可以组合形成有时具有不同含义的词。与用空格表示单词边界的西文书面语言不同，书面中文依赖于读者从上下文推断单词边界。在处理中文文本时，应用单词分割以根据上下文确定句子中的汉字是应该单独分开还是进行组合。考虑上下文中所有的线索并推断正确的单词边界而不创建无意义句子的过程被称为单词分割或符号化(tokenization)。

单词等级标记将每个单词标注至各种国家和国际标准等级。例如，美国外语教学协会指标(The ACTFL Guidelines)的口语熟练度映射为语言熟练度的连续性，等级从非常清晰到基本不具有功能性或不具有功能性。拼音标记用其注音符号来标记每个单词。词汇定位识别词汇，并将单词链接至相应的词汇简档页面。

如图5所示，语法检测分析抄录文本中句子的上下文并检测语法点。这里，可以应用深度学习方法，以通过采用已经被训练为对给定句子所属的语法点进行分类的深度学习分类器来实现语法检测。

图6和图7示意性地示出由课程模块150执行的语言学习课程的示例性制作过程。在图6中，将句子抄录文本145及与其对应的干净音轨中的音频片段提供给语音评分模型，以对音频片段中语音的质量进行评分。对抄录文本145中的单词进行评分，并且对评分低于阈值的单词进行标记。在图6的图示中，这些单词(“书”和“爱”)用较小的字体表示。在从抄录文本145生成的教育资料中，被标记为发音错误的单词可以用不同的颜色显示、高亮显示、、闪动(shimmer)、闪烁，或以其它方式在视觉上与句子中的其它单词区分开。

然后将标记的抄录文本145提供给学习模块创建器。学习模块创建器产生用于正面视频和反面视频两者的学习模块。学习模块是将通过诸如浏览器窗口或智能电话显示器的图形用户界面呈现的视听内容。每个学习模块包括一个或多个句子抄录文本145和来自视频的对应的音频片段。在示例性实施例中，抄录文本145显示在图形用户界面上，其中，对某些单词如上所述在视觉上进行区分。图形用户界面为用户提供播放与抄录文本145对应的音频片段的能力，例如具有可选择的音频图标。

在各种实施例中，同样可以使用其它工具。此类工具可以包括播放与抄录文本145对应的视频片段的能力、选择单词或字符以访问其更多信息的能力，或者播放来自正确发音库的记录的能力。可以由模块提供的另一工具是允许用户练习说出句子，同时记录用户语音的音频并对句子中单词的发音进行评分，并且将得到的分数和对任何错误的详细诊断提供给用户的界面。

此外，该模块可以在视觉上区分抄录文本145中与用户母语相同的说话者在学习该语言时常常发错音的单词。在图6和7中，这些词(“贵”和“他”)用较大的字体和粗体表示，但是如上所述，这仅仅是为了本公开的说明性目的，这些词可以例如通过颜色来区分。

在图7中，学习模块还可以将抄录文本145、相关视频和音频片段、说出抄录文本145的用户录音，以及单词的评分和详细诊断发送给课程创建器。课程创建器使用这些信息来选择与帮助个人纠正具体识别的发音错误相关的其它学习模块。更具体地，课程创建器考虑音频域的相关性以及文本域的相关性二者来选择其它学习模块。

音频域的相关性是指听起来与目标语言相似的单词或短语。作为音频域相关性的示例，“爱”与“eye”发音类似，因此，具有类似发音的词，如拜(b-eye)、坏(wh-eye)、开(k-eye)具有相关性，因此，包括这些词的学习模块可能是好的选择。类似地，文本域的相关性是指目标词的意义和语法用途。因此，例如，对于单词“爱”，呈现关于关系或爱情的短语或句子的学习模块将是相关的，使用单词“爱”的动词和名词形式的学习模块也是相关的。

然后，课程创建器从学习模块的库中选择多个学习模块。选择具有最高相关性的学习模块。在图7的图示中，示例性学习模块在任一或两个域中是相关的。

本文的具体描述是为了使本领域技术人员能够创建和使用本文描述的系统和方法。对实施例的各种修改对于本领域技术人员来说将是显而易见的，并且本文定义的一般原理可以应用于其它实施例和应用而不脱离本发明主题主旨和范围。此外，在以下描述中，出于解释的目的阐述了许多细节。然而，本领域的普通技术人员将认识到，本发明主题可以在不使用这些具体细节的情况下实施。附图中的流程图用于表现这些过程。硬件处理器系统可以被配置为执行这些过程中的一些。代表计算机实现过程的流程图中的模块表示根据计算机程序代码执行参考这些模块所描述的动作的处理器系统配置。因此，本发明主题并非旨在限于所示的实施例，而是符合与本文公开原理和特征一致的最宽范围。

本申请权利要求中使用的术语“装置”旨在仅针对该术语所附的限制而不是针对整个权利要求来引用112(f)，而没有术语“装置”的任何权利要求应当理解为排除按照112(f)来解释该权利要求。如本申请的权利要求中所使用的，“被配置为”和“被配置用于”并非旨在引用112(f)。

Claims

1.一种方法，包括：

用主机计算系统接收包括音轨的视频，所述音轨具有目标语言的人类语音；

对所述音轨进行去噪，以创建去除了非语音分量的干净音轨；

通过在所述人类语音的句子边界处对所述干净音轨进行分割，并随后在相同的句子边界处对所述视频进行分割，在所述句子边界处对所述视频进行分割；

抄录在所述干净音轨中识别的句子，以产生每个被识别句子的抄录文本；以及

使用所述抄录文本从所述视频生成语言学习课程。

2.根据权利要求1所述的方法，其中，所述计算系统是服务器，并且其中，所述视频是从客户端设备接收的。

3.根据权利要求1所述的方法，其中，对所述音轨进行去噪包括使用生成对抗网络。

4.根据权利要求1所述的方法，其中，对所述音轨进行去噪包括训练去噪模型。

5.根据权利要求4所述的方法，其中，训练所述去噪模型包括生成噪音以及将生成的噪音添加至干净语音音频文件中，以生成用于训练所述去噪模型的训练数据。

6.根据权利要求1所述的方法，其中，在所述句子边界处分割所述干净音轨包括使用经训练的声音活动检测模型预测所述干净音轨中表示口语句子的部分，从而识别多个口语句子。

7.根据权利要求6所述的方法，其中，在句子边界处分割所述视频还包括确定每个识别的口语句子在所述干净音轨上的开始时间和结束时间，并且将相同的开始时间和结束时间应用于所述视频，以创建与音频片段同步的视频片段。

8.根据权利要求1所述的方法，其中，抄录口语句子包括使用经训练的机器学习模型从所述干净音轨中提取人类语音特征。

9.根据权利要求1所述的方法，其中，所述抄录文本是说话者的语言的文字文本。

10.根据权利要求1所述的方法，其中，生成所述语言学习课程是由人工智能引擎执行的。

11.根据权利要求1所述的方法，其中，生成所述语言学习课程包括确定输入视频是语言教学的正面示例还是反面示例。

12.根据权利要求1所述的方法，其中，生成所述语言学习课程包括强制对齐所述抄录文本和所述干净音轨，以识别所述抄录文本中每个单词的开始时间和结束时间。

13.根据权利要求1所述的方法，其中，生成所述语言学习课程包括对每个所述抄录文本的每个单词进行评分。

14.根据权利要求1所述的方法，其中，生成所述语言学习课程包括在所述抄录文本中标记单词，其中被标记的单词是以学习者的语言为母语的说话者在说所述目标语言时经常发音错误的单词。