CN113779301A

CN113779301A - 一种音乐教学方法及装置

Info

Publication number: CN113779301A
Application number: CN202110948671.0A
Authority: CN
Inventors: 林东姝
Original assignee: Beijing Yiqi Network Technology Co ltd
Current assignee: Beijing Yiqi Network Technology Co ltd
Priority date: 2021-08-18
Filing date: 2021-08-18
Publication date: 2021-12-10

Abstract

本发明涉及一种音乐教学方法及装置，所述方法包括以下步骤：实时获取学员输出的音乐曲段和学员状态，并储存在储存模块当中，所述学员状态包括面部信息状态以及动作状态；将获取的学员输出的音乐曲段进行分析，并与本地相对应的音乐曲段进行对比，给出建议；根据对学员输出的音乐曲段进行的分析，对获取的学员状态进行指导。本发明可以实现在线的精准指导教学，继而提高了学习者的学习效果，有助于提高学员的学习效率。

Description

一种音乐教学方法及装置

技术领域

本发明涉及在线教育技术领域，尤其涉及一种音乐教学方法及装置。

背景技术

目前的音乐类在线教学的方法是录播或直播课程、一对一或者一对多的视频连接实时教学。

缺点是乐谱与教师的指导是分离的，教师无法精准指导学生曲子乐谱中出现的多个地方的问题，只能通过口述告知学生曲子乐谱的第几页第几行演奏(演唱)错误，或者实时视频中将曲谱对着镜头点给学生看哪里有问题，或者拍照以后用制图工具圈出来发给学生，但是这种教学方式缺点是不精准，老师的在线教学内容无法与乐谱精准同步，因此急需改进。

发明内容

本发明的目的在于提供一种音乐教学方法及装置，通过实时获取学员输出的音乐曲段和学员状态，并对学员输出的音乐曲段进行分析，与本地相对应的音乐曲段进行对比，给出建议，实现在线的精准指导教学，继而提高了学习者的学习效果，有助于提高学员的学习效率，可以解决背景技术中的问题。

为了解决上述技术问题，本发明提供的音乐教学方法及装置的技术方案具体如下：

第一方面，本发明实施例公开了一种音乐教学方法，包括以下步骤：

实时获取学员输出的音乐曲段和学员状态，并储存在储存模块当中，所述学员状态包括面部信息状态以及动作状态；

将获取的学员输出的音乐曲段进行分析，并与本地相对应的音乐曲段进行对比，给出建议；

根据对学员输出的音乐曲段进行的分析，对获取的学员状态进行指导。

在上述任一方案中优选的是，所述的音乐教学方法，所述储存模块采用Nand-Flash芯片，Nand-Flash芯片的有效存储空间为2GiB，Nand- Flash芯片包含16384个块，每块有64页，每页有2112字节。

在上述任一方案中优选的是，所述的音乐教学方法，所述储存模块包括坏块管理模块，当使用时，驱动层的状态获取函数检测坏块状态，识别出固有坏块并且存储到坏块映射表中，通过驱动层的状态获取函数检测 Flash操作状态，若操作出现特定错误，则被操作块就会被认定为坏块，更新存储到坏块映射表中。

在上述任一方案中优选的是，所述的音乐教学方法，还包括：

通过实时采集学员头部上各个部位的状态，获取作为判断学员输出的音乐曲段是否标准的依据，并根据学员头部上各个部位的状态，对学员进行指导。

在上述任一方案中优选的是，所述的音乐教学方法，对获取的学员输出的音乐曲段进行分析的方法，包括以下步骤：

判断获取的音乐曲段的端点，并对获取的语音音乐曲段进行预处理；

对预处理后的音乐曲段进行特征提取；

对特征提取后的语音进行识别。

在上述任一方案中优选的是，所述的音乐教学方法，所述预处理包括将获取的语音音乐曲段数据分为若干个小段，每一段取一定的数据，相邻下一段与前一段并且有数据重合。

在上述任一方案中优选的是，所述的音乐教学方法，对特征提取后的语音进行识别的方法，包括以下步骤：

对每一段音频L先分成若干帧[L₁,L₂,L₃,...L_n]，对每一帧提取特征,则每一帧分别对应特征[c₁,c₂,c₃,...c_n]；

对提取的特征进行聚类处理，获得D个类别，每个类别对应一个数据库，其中，数据库中均储存有每个类别所对应的特征所表达的含义。

在上述任一方案中优选的是，所述的音乐教学方法，获取的学员状态包括以下步骤：

收集关于相关音乐曲段发音的标准口型图片，并将该口型图片储存在口型图片数据库模板中，并根据口型图片建立口型模板；

实时获取学员在音乐曲段发音的口型图像，对已获得的口型图像，进行灰度化和滤波处理，然后生成口型图片；

根据口型模板，建立口型坐标模板，用(X_c,Y_c)表示嘴唇的中心坐标，w₀表示外唇宽度，w₁表示内唇宽度，h₁表示外唇上边缘高度，h₂表示内唇上边缘高度，h₃表示内唇下边缘高度，h₄表示外唇下边缘高度，a_off表示四次曲线中心离坐标原点的偏移量，q₀表示上唇部四次曲线偏离抛物线的距离，q₁表示下唇部四次曲线偏离抛物线的距离；

将口型坐标模板与学员口型图片进行对比，然后判断学员口型是否发音符合标准要求。

本发明与现有技术相比，具有如下有益效果：

通过实时获取学员输出的音乐曲段和学员状态，并对学员输出的音乐曲段进行分析，与本地相对应的音乐曲段进行对比，给出建议，实现在线的精准指导教学，继而提高了学习者的学习效果，有助于提高学员的学习效率。

第二方面，一种音乐教学装置，包括：

获取模块，用于实时获取学员输出的音乐曲段和学员状态，并储存在储存模块当中，所述学员状态包括面部信息状态以及动作状态，所述储存模块采用Nand-Flash芯片，Nand-Flash芯片的有效存储空间为2GiB， Nand-Flash芯片包含16384个块，每块有64页，每页有2112字节，获取的学员状态包括以下步骤：收集关于相关音乐曲段发音的标准口型图片，并将该口型图片储存在口型图片数据库模板中，并根据口型图片建立口型模板；实时获取学员在音乐曲段发音的口型图像，对已获得的口型图像，进行灰度化和滤波处理，然后生成口型图片；根据口型模板，建立口型坐标模板，用(X_c,Y_c)表示嘴唇的中心坐标，w₀表示外唇宽度，w₁表示内唇宽度，h₁表示外唇上边缘高度，h₂表示内唇上边缘高度，h₃表示内唇下边缘高度，h₄表示外唇下边缘高度，a_off表示四次曲线中心离坐标原点的偏移量，q₀表示上唇部四次曲线偏离抛物线的距离，q₁表示下唇部四次曲线偏离抛物线的距离；

将口型坐标模板与学员口型图片进行对比，然后判断学员口型是否发音符合标准要求；

分析模块，用于将获取的学员输出的音乐曲段进行分析，并与本地相对应的音乐曲段进行对比，给出建议，其中，对获取的学员输出的音乐曲段进行分析的方法，包括以下步骤：判断获取的音乐曲段的端点，并对获取的语音音乐曲段进行预处理；对预处理后的音乐曲段进行特征提取；对特征提取后的语音进行识别，所述预处理包括将获取的语音音乐曲段数据分为若干个小段，每一段取一定的数据，相邻下一段与前一段并且有数据重合；

指导模块，用于根据对学员输出的音乐曲段进行的分析，对获取的学员状态进行指导。

在上述任一方案中优选的是，所述的音乐教学装置，还包括：

判断模块，用于通过实时采集学员头部上各个部位的状态，获取作为判断学员输出的音乐曲段是否标准的依据，并根据学员头部上各个部位的状态，对学员进行指导。

第二方面的有益效果与第一方面的有益效果相同，故在此不再赘述。

附图说明

附图用于对本发明的进一步理解，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。

图1是按照本发明音乐教学方法示意图。

图2是按照本发明音乐教学方法的建立口型坐标模板示意图。

图3是按照本发明音乐教学装置示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

此外，术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本发明的描述中，“多个”的含义是两个或两个以上，除非另有明确具体的限定。

为了更好地理解上述技术方案，下面将结合说明书附图及具体实施方式对本发明技术方案进行详细说明。

实施例：

第一方面，如图1所示，本发明实施例公开了一种音乐教学方法，包括以下步骤：

步骤1：实时获取学员输出的音乐曲段和学员状态，所述学员状态包括面部信息状态以及动作状态；

步骤2：将获取的学员输出的音乐曲段进行分析，并与本地相对应的音乐曲段进行对比，给出建议；

步骤3：根据对学员输出的音乐曲段进行的分析，对获取的学员状态进行指导。

在步骤1中，本发明实施例所述的音乐教学方法，可以通过声音识别模块将学员输出的音乐曲段进行识别，并储存在储存模块当中，其中，声音识别模块包括语音识别芯片和一些其他的附属电路，能够方便的与主控芯片进行通讯，可以方便的将声音识别模块嵌入到产品中使用，实现语音交互的目的。

在本发明实施例所述的音乐教学方法中，语音识别的过程包括两个阶段:训练和识别。不管是训练还是识别，都必须对输入语音预处理和特征提取。训练阶段所做的具体工作是收集大量的语音语料，经过预处理和特征提取后得到特征矢量参数，最后通过特征建模达到建立训练语音的参考模型库的目的。而识别阶段所做的主要工作是将输入语音的特征矢量参数和参考模型库中的参考模型进行相似性度量比较，然后把相似性最高的输入特征矢量作为识别结果输出。这样，最终就达到了语音识别的目的。

在本发明实施例所述的音乐教学方法中，储存模块采用Nand-Flash 芯片，每个芯片提供的有效存储空间为2GiB，每个芯片包含16384个块，每块有64页，每页有2112字节，其中，2048字节用于存储数据， 64字节用于存放好坏块标记等其他信息，进一步的，在储存模块中，储存模块包括坏块管理模块和损耗均衡模块，坏块管理采用地址重映射的方法，将Nand-Flash芯片的固有坏块和使用坏块映射到坏块替换区来保证被存储数据的可靠性，坏块管理的基础是通过坏块映射表构建坏块索引。在Nand-Flash芯片第一次使用时，通过驱动层的状态获取函数检测坏块状态，识别出固有坏块并且存储到坏块映射表中。在Nand-Flash芯片的正常读写过程中，通过驱动层的状态获取函数检测Flash操作状态，当操作出现特定错误时，被操作块就会被认定为坏块，更新存储到坏块映射表中。实际使用时，在对一个地址进行读写操作前，通过坏块映射表构建的坏块索引，对地址进行重新映射，具有比较高的可靠性。

在步骤1中，本发明实施例所述的音乐教学方法，所述面部信息状态包括学员的脸部状态、眼部状态、张口状态以及舌头状态，通过采集学员头部上各个部位的状态，从而可以作为判断学员输出的音乐曲段是否标准的依据，并根据学员头部上各个部位的状态，可以对学员进行指导，如：通过采集学员嘴部的状态，进行判断学员的发音是否标准，从而对学员进行提醒，提示其嘴部需要怎么发音，从而起到指导的作用。

在步骤1中，本发明实施例所述的音乐教学方法，所述动作状态包括学员的手势、头部以及腿部状态，实时获取学员的手势、头部以及腿部动作，可以作为用于判断学员的发音是否标准的参考，同时，还可以将学员的动作状态与学员的面部信息状态以及输出的标准的音乐曲段结合在一起，根据标准的音乐曲段，从而在一些不同的曲段内，进行提示学员注意自己的工作状态以及面部状态，从而不但能够起到提醒学员发音是的作用，而且还能够将其与工作状态以及面部状态结合，从而使学员的表达更加生动。

在步骤2中，对获取的学员输出的音乐曲段进行分析的方法包括以下步骤：

步骤11：判断获取的音乐曲段的端点，然后对获取的音乐曲段进行预处理，其中，学员通过声带振动发出声音产生信号源，此时的信号是模拟信号，需要通过模数转换器等硬件设备将其转换成数字信号，然后在硬件设备上进行处理。这时的信号既包含人的语音信息，又包含一些干扰和无用的信息，需要经过处理将有用信息提取出来。语音信号存在低频干扰，尤其是50Hz～60Hz工频干扰，需要先将它滤除，以便高频部分的频谱进行提升，如将预处理后的声音通过一个高通滤波器，加强信号中的高频共振峰，消除直流漂移，抑制随机噪声和提升清音部分能量。其传递函数为：H_z＝1-αz^-1,0.9＜α＜1，其中，α为预加重系数，一般取值0.9375。

语音信号具有非线性和时变性，不利于分析和处理。因此需要对信号进行线性和时不变处理。具体方法是将语音数据分为很多小段，每一段取240个数据，相邻下一段与前一段有120～160个数据是重合的，即部分数据交叠出现在两段或三段之间。

其中，所述判断获取的音乐曲段的端点采用谱能流法，其计算公式为：

其中，G(f,m)是由将原信号做短时傅里叶变换得到的时域和频域共同信息X(f,m)先取模，再时域低通滤波，最后进行非线性压缩得到的，从而可以提高对声音起点判断的准确性。

步骤12：对预处理后的音乐曲段进行特征提取，因为，不同的人发音不一样，即便同一个人发同样的音也存在或多或少的差距，同时环境变化等也会对语音信息造成干扰。因此，需要对预处理后的信号做进一步处理，去除语音信息以外的冗余信息。

步骤13：对特征提取后的语音进行识别，其中，识别方法包括以下步骤：

在步骤3中，对获取的学员状态进行指导，包括根据学员输出的音乐的旋律，从而对学员进行指导，因为旋律是时变信号，但旋律中的每一个单音音符从发音到结束，其中包含的基音和泛音频率成分不变，只是幅值发生变化，所以从频域角度分析，单音音符具有平稳周期特性，因此，采用傅里叶变换将采集的时间信号样本转换到频率域进行分析，借助快速傅里叶变换，输出的结果是复共轭数据，对复共轭数据进行取模运算，得到样本频率分量的幅值：

其中，p_i为第i个复频率实部， q_i为第i个复频率虚部，

其中，N为输入的样本数量，然后再计算输出频率：

其中，k为FFT输出分量的下标

为输入时域信号的采样频率，转换到频率域，经过以上转换，可以直接得到输入信号中包含的频率及其幅值。

在步骤3中，进一步的，在对获取的学员状态进行指导中，通过以下方法实现，具体包括如下步骤：

步骤31：收集关于相关音乐曲段发音的标准口型图片，并将该口型图片储存在口型图片数据库模板中，并根据口型图片建立口型模板，其中，口型图片为通过具有视频采集功能的工具获取，口型模板是根据人们日常对口型的经验信息确定的，用口型模板来描述唇的形状，适用于大多数嘴型；

步骤32：实时获取学员在音乐曲段发音的口型图像，对已获得的口型图像，进行灰度化和滤波处理，然后生成口型图片，可以较好地区分唇色和肤色；

步骤33：根据口型模板，建立口型坐标模板，用(X_c,Y_c)表示嘴唇的中心坐标，w₀表示外唇宽度，w₁表示内唇宽度，h₁表示外唇上边缘高度，h₂表示内唇上边缘高度，h₃表示内唇下边缘高度，h₄表示外唇下边缘高度，a_off表示四次曲线中心离坐标原点的偏移量，q₀表示上唇部四次曲线偏离抛物线的距离，q₁表示下唇部四次曲线偏离抛物线的距离。

步骤34：将口型坐标模板与学员口型图片进行对比，然后判断学员口型是否发音符合标准要求。

第二方面，第二方面，一种音乐教学装置，包括：

以上仅为本发明的优选实施例而已，并不用于限制本发明，尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

Claims

1.一种音乐教学方法，其特征在于：包括以下步骤：

实时获取学员输出的音乐曲段和学员状态，并储存在储存模块当中，学员状态包括面部信息状态以及动作状态；

2.根据权利要求1所述的音乐教学方法，其特征在于：储存模块采用Nand-Flash芯片，Nand-Flash芯片的有效存储空间为2GiB，Nand-Flash芯片包含16384个块，每块有64页，每页有2112字节。

3.根据权利要求2所述的音乐教学方法，其特征在于：储存模块包括坏块管理模块，当使用时，驱动层的状态获取函数检测坏块状态，识别出固有坏块并且存储到坏块映射表中，通过驱动层的状态获取函数检测Flash操作状态，若操作出现特定错误，则被操作块就会被认定为坏块，更新存储到坏块映射表中。

4.根据权利要求3所述的音乐教学方法，其特征在于：还包括：

5.根据权利要求4所述的音乐教学方法，其特征在于：对获取的学员输出的音乐曲段进行分析的方法，包括以下步骤：

对预处理后的音乐曲段进行特征提取；

对特征提取后的语音进行识别。

6.根据权利要求5所述的音乐教学方法，其特征在于：预处理包括将获取的语音音乐曲段数据分为若干个小段，每一段取一定的数据，相邻下一段与前一段并且有数据重合。

7.根据权利要求6所述的音乐教学方法，其特征在于：对特征提取后的语音进行识别的方法，包括以下步骤：

8.根据权利要求7所述的音乐教学方法，其特征在于：获取的学员状态包括以下步骤：

9.一种音乐教学装置，其特征在于：包括：

获取模块，用于实时获取学员输出的音乐曲段和学员状态，并储存在储存模块当中，所述学员状态包括面部信息状态以及动作状态，所述储存模块采用Nand-Flash芯片，Nand-Flash芯片的有效存储空间为2GiB，Nand-Flash芯片包含16384个块，每块有64页，每页有2112字节；

分析模块，用于将获取的学员输出的音乐曲段进行分析，并与本地相对应的音乐曲段进行对比，给出建议；

10.根据权利要求9所述的音乐教学装置，其特征在于：还包括：