CN113257210A - 一种铜制或木制乐器的多模态转谱方法及系统 - Google Patents

一种铜制或木制乐器的多模态转谱方法及系统 Download PDF

Info

Publication number
CN113257210A
CN113257210A CN202110613485.1A CN202110613485A CN113257210A CN 113257210 A CN113257210 A CN 113257210A CN 202110613485 A CN202110613485 A CN 202110613485A CN 113257210 A CN113257210 A CN 113257210A
Authority
CN
China
Prior art keywords
information
pitch data
data
musical instrument
modal
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN202110613485.1A
Other languages
English (en)
Other versions
CN113257210B (zh
Inventor
盖佳雯
朱欣岳
张汉骁
邵曦
邹佳怡
黄羿淳
方书行
徐缘
李冬阳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nanjing University of Posts and Telecommunications
Original Assignee
Nanjing University of Posts and Telecommunications
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nanjing University of Posts and Telecommunications filed Critical Nanjing University of Posts and Telecommunications
Priority to CN202110613485.1A priority Critical patent/CN113257210B/zh
Publication of CN113257210A publication Critical patent/CN113257210A/zh
Application granted granted Critical
Publication of CN113257210B publication Critical patent/CN113257210B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10HELECTROPHONIC MUSICAL INSTRUMENTS; INSTRUMENTS IN WHICH THE TONES ARE GENERATED BY ELECTROMECHANICAL MEANS OR ELECTRONIC GENERATORS, OR IN WHICH THE TONES ARE SYNTHESISED FROM A DATA STORE
    • G10H1/00Details of electrophonic musical instruments
    • G10H1/0033Recording/reproducing or transmission of music for electrophonic musical instruments
    • G10H1/0041Recording/reproducing or transmission of music for electrophonic musical instruments in coded form
    • G10H1/0058Transmission between separate instruments or between individual components of a musical system
    • G10H1/0066Transmission between separate instruments or between individual components of a musical system using a MIDI interface

Landscapes

  • Physics & Mathematics (AREA)
  • Engineering & Computer Science (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Auxiliary Devices For Music (AREA)

Abstract

本发明公开了一种铜制或木制乐器的多模态转谱方法及系统,包括:采集演奏现场演奏的现场图像信息、音频信息与气流强度信息;根据所述现场图像信息与所述气流强度信息并利用深度学习策略获得当前演奏的音高数据,以及利用RESNET网络提取所述音频信息的音高数据;将两部分音高数据通过集成学习策略进行多模态融合,自动优化其协同度,输出MIDI文件,实现多模态转谱。本发明可以克服视觉转谱与听觉转谱各自的不足,同时又结合它们的优点,在降低计算量的同时,提升了转谱的准确率与效率。

Description

一种铜制或木制乐器的多模态转谱方法及系统
技术领域
本发明涉及转谱的技术领域,尤其涉及一种铜制或木制乐器的多模态转谱方法及系统。
背景技术
所谓“转谱”,就是单纯听一首歌,就能写出里面每一个音节的五线谱或简谱。但是,人工转谱需要长期锻炼,对于初学者造成了相当大的壁垒。
近几年,用计算机进行音高和旋律提取以实现自动转谱,已经成为数字音乐计算领域的一个重要研究课题。但此类转谱系统,大多是单纯地通过音频处理的方法来实现。也有通过在钢琴上放置摄像头等方法来使用图像处理来和音频处理融合,但此类方法大多是针对钢琴、吉他等常见中大型弦乐,而铜管乐器或木管乐器等吹奏管乐的多模态转谱,却少有人涉及。
不同于钢琴等乐器,吹奏管乐所发出的音高不仅与手部动作相关,还由吹奏力度所决定,因此把钢琴、吉他多模态自动转谱的方法套用在吹奏管乐上很难有优秀的效果;此外由于吹奏管乐的孔位/键位较少,手型指法较为单一,因此更适合使用图像处理的方法来实现转谱过程。
发明内容
本部分的目的在于概述本发明的实施例的一些方面以及简要介绍一些较佳实施例。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊,而这种简化或省略不能用于限制本发明的范围。
鉴于上述现有存在的问题,提出了本发明。
因此,本发明解决的技术问题是:现有技术少有涉及铜管乐器或木管乐器等吹奏管乐的多模态转谱,转谱准去率较低,计算量大,效率低。
为解决上述技术问题,本发明提供如下技术方案:采集演奏现场演奏的现场图像信息、音频信息与气流强度信息;根据所述现场图像信息与所述气流强度信息并利用深度学习策略获得当前演奏的音高数据,以及利用RESNET网络提取所述音频信息的音高数据;将两部分音高数据通过集成学习策略进行多模态融合,自动优化其协同度,输出MIDI文件,实现多模态转谱。
作为本发明所述的铜制或木制乐器的多模态转谱方法的一种优选方案,其中:所述现场图像信息的获取包括,利用摄像头拍摄演奏者手部整体图像信息,所述演奏者手部整体图像信息包括手指、手掌和手腕图像信息。
作为本发明所述的铜制或木制乐器的多模态转谱方法的一种优选方案,其中:所述音频信息的获取包括,利用麦克风采集所述音频信息。
作为本发明所述的铜制或木制乐器的多模态转谱方法的一种优选方案,其中:所述气流强度信息的获取包括,通过在乐器内部的气流传感器采集所述气流强度信息。
作为本发明所述的铜制或木制乐器的多模态转谱方法的一种优选方案,其中:所述根据所述现场图像信息与所述气流强度信息并利用深度学习策略获得当前演奏的音高数据包括,利用网络编码器估计光照、反照率、阴影和形状参数,再使用解码器将参数映射到三维形状,并输出手部关节点在立体空间内的三维坐标;将得到的关节点坐标数据和有限个固定的乐器演奏指法进行比对,通过分类器得到当前演奏的音名;基于在乐器内部采集到的气流强度信息来为所述音名确定音区,进而得到音高数据。
作为本发明所述的铜制或木制乐器的多模态转谱方法的一种优选方案,其中:所述音名的确定包括,对每个手指的状态进行手指关节关键点定位,并将其三维坐标数据生成一个当前时刻的手指状态集;利用SVM分类器将所述手指状态集映射到一组预定义的正确的手指状态集,得到此刻的手型所对应的音。
作为本发明所述的铜制或木制乐器的多模态转谱方法的一种优选方案,其中:所述利用RESNET网络提取所述音频信息的音高数据包括,通过parzen窗的FIR滤波器对所述音频信息进行去噪滤波;使用CQT对去噪滤波后的音频信息进行变换得到听觉谱图;再对所述听觉谱图通过RESNET残差分类网络进行训练,提取出所述音频信息的音高数据。
作为本发明所述的铜制或木制乐器的多模态转谱方法的一种优选方案,其中:所述多模态融合包括,采用集成学习策略将基于两个初级学习器得到的两部分音高数据作为样例输入特征,其对应的初始数据作为样例标记;利用5折交叉验证策略训练次级学习器,将数据集分成五份,其中四分作为训练集,一份作为测试集,输出为两个初级学习器的权重值,在五次循环后,将结果取平均,得到所述两部分音高数据在所述MIDI格式的文件中的权重值。
本发明解决的一个技术问题是:提供一种铜制或木制乐器的多模态转谱系统,具有准确率更高的转谱能力。
为解决上述技术问题,本发明提供如下技术方案:一种铜制或木制乐器的多模态转谱系统,包括,信息采集模块包括声音采集单元、图像采集单元及气流强度采集单元;信息处理模块与所述信息采集模块相连接,其包括声音处理单元、图像处理单元、多模态融合单元,所述声音处理单元、图像处理单元同时与所述多模态融合单元进行连接。
本发明的有益效果:本发明可以克服视觉转谱与听觉转谱各自的不足,同时又结合它们的优点,在降低计算量的同时,提升了转谱的准确率与效率。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。其中:
图1为本发明一个实施例提供的一种铜制或木制乐器的多模态转谱方法及系统的基本流程示意图;
图2为本发明一个实施例提供的一种铜制或木制乐器的多模态转谱方法及系统的模块结构示意图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合说明书附图对本发明的具体实施方式做详细的说明,显然所描述的实施例是本发明的一部分实施例,而不是全部实施例。基于本发明中的实施例,本领域普通人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明的保护的范围。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是本发明还可以采用其他不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本发明内涵的情况下做类似推广,因此本发明不受下面公开的具体实施例的限制。
其次,此处所称的“一个实施例”或“实施例”是指可包含于本发明至少一个实现方式中的特定特征、结构或特性。在本说明书中不同地方出现的“在一个实施例中”并非均指同一个实施例,也不是单独的或选择性的与其他实施例互相排斥的实施例。
本发明结合示意图进行详细描述,在详述本发明实施例时,为便于说明,表示器件结构的剖面图会不依一般比例作局部放大,而且所述示意图只是示例,其在此不应限制本发明保护的范围。此外,在实际制作中应包含长度、宽度及深度的三维空间尺寸。
同时在本发明的描述中,需要说明的是,术语中的“上、下、内和外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一、第二或第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
本发明中除非另有明确的规定和限定,术语“安装、相连、连接”应做广义理解,例如:可以是固定连接、可拆卸连接或一体式连接;同样可以是机械连接、电连接或直接连接,也可以通过中间媒介间接相连,也可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
实施例1
参照图1,为本发明的一个实施例,提供了一种铜制或木制乐器的多模态转谱方法,其特性在于,包括:
S1:采集演奏现场演奏的现场图像信息、音频信息与气流强度信息;需要说明的是,
现场图像信息的获取包括:利用摄像头拍摄演奏者手部整体图像信息,演奏者手部整体图像信息包括手指、手掌和手腕图像信息;
音频信息的获取包括:利用麦克风采集音频信息,其中音频信息包括笛子、箫、葫芦丝、长笛、小号、竖笛、单簧管等西洋或民族铜管乐器或木管乐器的音频信息;
气流强度信息的获取包括:通过在乐器内部的气流传感器采集气流强度信息。
S2:根据所述现场图像信息与所述气流强度信息并利用深度学习策略获得当前演奏的音高数据,以及利用RESNET网络提取所述音频信息的音高数据;需要说明的是,
利用RESNET网络提取音频信息的音高数据包括,
通过parzen窗的FIR滤波器对音频信息进行去噪滤波;
使用CQT对去噪滤波后的音频信息进行变换得到听觉谱图;
再对听觉谱图通过RESNET残差分类网络进行训练,提取出音频信息的音高数据。
根据现场图像信息与气流强度信息并利用深度学习策略获得当前演奏的音高数据包括:
利用网络编码器估计光照、反照率、阴影和形状参数,再使用解码器将参数映射到三维形状,并输出手部关节点在立体空间内的三维坐标;
将得到的关节点坐标数据和有限个固定的乐器演奏指法进行比对,通过分类器得到当前演奏的音名,通过处理图像信息中的手部形态,得到未确定音区的音高和节奏数据;
基于在乐器内部采集到的气流强度信息来为音名确定音区,通过气流强度来判断音高大致所在的音组,拓展了通过图像检测音高的检测区间,进而得到音高数据。
音名的确定包括,
对每个手指的状态进行手指关节关键点定位,并将其三维坐标数据生成一个当前时刻的手指状态集;
利用SVM分类器将手指状态集映射到一组预定义的正确的手指状态集,得到此刻的手型所对应的音。
S3:将两部分音高数据通过集成学习策略进行多模态融合,自动优化其协同度,输出MIDI乐谱文件,实现多模态转谱;需要说明的是,
多模态融合包括:
采用集成学习策略将基于两个初级学习器得到的两部分音高数据作为样例输入特征,其对应的初始数据,即手部图像特征数据、CQT变换后的音频数据和气流速度数据,作为样例标记;
利用5折交叉验证策略训练次级学习器,将数据集分成五份,其中四分作为训练集,一份作为测试集,输出为两个初级学习器的权重值,在五次循环后,将结果取平均,得到两部分音高数据在MIDI格式的文件中的权重值;其中,需注意的是,在次级学习器应用之前,首先应对其进行监督训练,输入标准的乐曲MIDI谱,以此对该学习器模型进行对比评估。经过大量训练后,该系统可以自动针对实际情况来修改权重参数,比如在在声音处理单元检测到有较大杂音干扰时,则使权重更偏向图像数据;在图像处理单元检测到的手型图片遮盖较多或出现违反生物学规则的数据时,则使权重更偏向音频数据。
为对本方法中采用的技术效果加以验证说明,本实施例采用传统技术方案与本发明方法进行对比测试,以科学论证的手段对比试验结果,以验证本方法所具有的真实效果。
传统的技术方案:对于木管铜管乐器,传统的计算机转谱多使用谐波峰值法、并行处理法、小波分析法等,其中谐波峰值法将能量最大谐波作为入手点,其在乐器谐波偏移时准确率较低;并行处理法是在时域上对级别和谐波进行周期性有规律的叠加,其结果受采样质量和演奏曲目影响较大,较为不稳定;小波分析法则是利用小波变换作深入的分析频域特征,其计算量较大,较为费时。
为验证本方法相对传统方法具有较高的精度、稳定性和计算效率,对于三种传统方法,分别录制笛子、箫、小号、长笛、单簧管的演奏音频60秒;对于本方法,除了录制音频外,还对其进行了视频拍摄和气流传感器采集信号。以上方法皆通过计算机程序运行得到结果,其中,准确率是指检测正确的音符数量/音符总数,处理速度,是指程序开始读入数据到输出MIDI文件所用时间。结果如下表所示。
表1:本发明方法与传统方法在准确度上的实验结果对比表。
准确率(%) 笛子 小号 长笛 单簧管
谐波峰值法 76.3 72.7 68.3 75 83.5
并行处理法 73.8 79.3 84.3 92.2 87.9
小波分析法 91.4 94 94.4 89.6 96.4
本发明方法 98.4 99.4 97.7 98.6 100
表2:本发明方法与传统方法在处理速度上的实验结果对比表。
Figure BDA0003096547140000061
Figure BDA0003096547140000071
由表1可以看出,在准确率和稳定性方面,本方法都远优于三种传统方法;由表2可以看出,在计算速度方面,本方法虽然不如前两种传统方法,但远优于传统方法中准确率最高的小波变换法。
实施例2
如图2所示,本实施例提出一种铜制或木制乐器的多模态转谱系统,上述实施例的方法能够依托于本系统实现,该系统包括:
信息采集模块100包括声音采集单元101、图像采集单元102及气流强度采集单元103;其中,声音采集单元101是利用麦克风进行声音的采集,图像采集单元102利用摄像头拍摄演奏者的手部整体图像,包括手指,手掌和手腕,另外,麦克风、摄像头可以指单独的麦克风和摄像头,也可以指常见电子设备(如手机、平板电脑)自带的麦克风和摄像头模组;摄像头可放置在支架或是谱架上,以确保可以拍摄到被遮挡部分最少的手部图片;气流强度采集单元103包括:常见的可以将气体流速转换为电信号的小型或微型传感器;微型无线信号收发装置;微型电池;胶粘剂;气流强度采集单元103由微型电池供电,在演奏前可以由演奏者或是乐器生产厂家粘贴在吹奏管乐内部且靠近吹嘴的位置,通过传感器获得演奏者吹奏的气流速度数据,可以是模拟信号,也可以是数字信号,并将其通过微型无线信号收发装置发送多模态融合单元203进行数据处理,其中,微型无线信号收发装置既可以发送数据,也可以接收指令。
信息处理模块200与信息采集模块100相连接,其包括声音处理单元201、图像处理单元202、多模态融合单元203,声音处理单元201、图像处理单元202同时与多模态融合单元203进行连接;
其中,多模态融合单元203由高性能处理器构成,通过无线收发功能接收到信息采集模块100的采集数据,图像处理单元202首先将手部分割出来,接着为了通过手型得到当前吹奏的音高和节奏,有两种方法可以被使用:
(1)通过深度学习或机器学习等人工智能算法训练出手部20个或以上的关节点3D模型,可以输出每一个手部关节点在立体空间内的三维坐标(坐标系自定),并将得到的关节点坐标数据和有限个固定的乐器演奏指法所应有的正确的关节点坐标数据(提前采集好)进行比对,通过分类器得到当前吹奏的音高和节奏;
(2)通过深度学习或机器学习等人工智能算法有限个固定的乐器演奏指法直接进行图像层面上的比对,得到当前吹奏的音高和节奏,与方法(1)不同的是,方法(1)最终比对的数据是关节点坐标数据,而方法(1)最终比对的数据是像素、局部和整体特征之间的数据(如特征点,灰度梯度等)。
进一步的,声音处理单元201由高性能处理器构成,将麦克风采集到的音频流信号,经过滤波、SIFT或CQT等时频变换,并通过深度学习或机器学习等人工智能算法或其他方法提取基频,得到当前演奏的音高和节奏。
多模态融合单元203由高性能处理器构成,通过轮流训练或其他多模态数据融合算法来自动优化声音处理单元201得到的音高数据和结合现场图像信息与气流强度信息得到的音高数据两种数据的协同度,比如,在音频有较大杂音干扰时,给与图像数据较大的信任度;在摄像头采集到的手型图片遮盖较多时,给与音频数据较大的信任度;最后得到更为准确的音高数据和节奏数据,并将其转换为MIDI格式的文件。
以上所述的高性能处理器,可以指同一个处理器,所有传感器(包括麦克风,摄像头、气流传感器)都与其通信,也可以指可以互相通信的不同的处理器。
应当认识到,本发明的实施例可以由计算机硬件、硬件和软件的组合、或者通过存储在非暂时性计算机可读存储器中的计算机指令来实现或实施。方法可以使用标准编程技术-包括配置有计算机程序的非暂时性计算机可读存储介质在计算机程序中实现,其中如此配置的存储介质使得计算机以特定和预定义的方式操作——根据在具体实施例中描述的方法和附图。每个程序可以以高级过程或面向对象的编程语言来实现以与计算机系统通信。然而,若需要,该程序可以以汇编或机器语言实现。在任何情况下,该语言可以是编译或解释的语言。此外,为此目的该程序能够在编程的专用集成电路上运行。
此外,可按任何合适的顺序来执行本文描述的过程的操作,除非本文另外指示或以其他方式明显地与上下文矛盾。本文描述的过程(或变型和/或其组合)可在配置有可执行指令的一个或多个计算机系统的控制下执行,并且可作为共同地在一个或多个处理器上执行的代码(例如,可执行指令、一个或多个计算机程序或一个或多个应用)、由硬件或其组合来实现。计算机程序包括可由一个或多个处理器执行的多个指令。
进一步,方法可以在可操作地连接至合适的任何类型的计算平台中实现,包括但不限于个人电脑、迷你计算机、主框架、工作站、网络或分布式计算环境、单独的或集成的计算机平台、或者与带电粒子工具或其它成像装置通信等等。本发明的各方面可以以存储在非暂时性存储介质或设备上的机器可读代码来实现,无论是可移动的还是集成至计算平台,如硬盘、光学读取和/或写入存储介质、RAM、ROM等,使得其可由可编程计算机读取,当存储介质或设备由计算机读取时可用于配置和操作计算机以执行在此所描述的过程。此外,机器可读代码,或其部分可以通过有线或无线网络传输。当此类媒体包括结合微处理器或其他数据处理器实现上文所述步骤的指令或程序时,本文所述的发明包括这些和其他不同类型的非暂时性计算机可读存储介质。当根据本发明所述的方法和技术编程时,本发明还包括计算机本身。计算机程序能够应用于输入数据以执行本文所述的功能,从而转换输入数据以生成存储至非易失性存储器的输出数据。输出信息还可以应用于一个或多个输出设备如显示器。在本发明优选的实施例中,转换的数据表示物理和有形的对象,包括显示器上产生的物理和有形对象的特定视觉描绘.
如在本申请所使用的,术语“组件”、“模块”、“系统”等等旨在指代计算机相关实体,该计算机相关实体可以是硬件、固件、硬件和软件的结合、软件或者运行中的软件。例如,组件可以是,但不限于是:在处理器上运行的处理、处理器、对象、可执行文件、执行中的线程、程序和/或计算机。作为示例,在计算设备上运行的应用和该计算设备都可以是组件。一个或多个组件可以存在于执行中的过程和/或线程中,并且组件可以位于一个计算机中以及/或者分布在两个或更多个计算机之间。此外,这些组件能够从在其上具有各种数据结构的各种计算机可读介质中执行。这些组件可以通过诸如根据具有一个或多个数据分组(例如,来自一个组件的数据,该组件与本地系统、分布式系统中的另一个组件进行交互和/或以信号的方式通过诸如互联网之类的网络与其它系统进行交互)的信号,以本地和/或远程过程的方式进行通信。
应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明技术方案的精神和范围,其均应涵盖在本发明的权利要求范围当中。

Claims (9)

1.一种铜制或木制乐器的多模态转谱方法,其特性在于,包括:
采集演奏现场演奏的现场图像信息、音频信息与气流强度信息;
根据所述现场图像信息与所述气流强度信息并利用深度学习策略获得当前演奏的音高数据,以及利用RESNET网络提取所述音频信息的音高数据;
将两部分音高数据通过集成学习策略进行多模态融合,自动优化其协同度,输出MIDI文件,实现多模态转谱。
2.如权利要求1所述的铜制或木制乐器的多模态转谱方法,其特征在于:所述现场图像信息的获取包括,
利用摄像头拍摄演奏者手部整体图像信息,所述演奏者手部整体图像信息包括手指、手掌和手腕图像信息。
3.如权利要求1所述的铜制或木制乐器的多模态转谱方法,其特征在于:所述音频信息的获取包括,利用麦克风采集所述音频信息。
4.如权利要求1所述的铜制或木制乐器的多模态转谱方法,其特征在于:所述气流强度信息的获取包括,通过在乐器内部的气流传感器采集所述气流强度信息。
5.如权利要求1~4所述的铜制或木制乐器的多模态转谱方法,其特征在于:所述根据所述现场图像信息与所述气流强度信息并利用深度学习策略获得当前演奏的音高数据包括,
利用网络编码器估计光照、反照率、阴影和形状参数,再使用解码器将参数映射到三维形状,并输出手部关节点在立体空间内的三维坐标;
将得到的关节点坐标数据和有限个固定的乐器演奏指法进行比对,通过分类器得到当前演奏的音名;
基于在乐器内部采集到的气流强度信息来为所述音名确定音区,进而得到音高数据。
6.如权利要求5所述的铜制或木制乐器的多模态转谱方法,其特征在于:所述音名的确定包括,
对每个手指的状态进行手指关节关键点定位,并将其三维坐标数据生成一个当前时刻的手指状态集;
利用SVM分类器将所述手指状态集映射到一组预定义的正确的手指状态集,得到此刻的手型所对应的音。
7.如权利要求6所述的铜制或木制乐器的多模态转谱方法,其特征在于:所述利用RESNET网络提取所述音频信息的音高数据包括,
通过parzen窗的FIR滤波器对所述音频信息进行去噪滤波;
使用CQT对去噪滤波后的音频信息进行变换得到听觉谱图;
再对所述听觉谱图通过RESNET残差分类网络进行训练,提取出所述音频信息的音高数据。
8.如权利要求7所述的铜制或木制乐器的多模态转谱方法,其特征在于:所述多模态融合包括,
采用集成学习策略将基于两个初级学习器得到的两部分音高数据作为样例输入特征,其对应的初始数据作为样例标记;
利用5折交叉验证策略训练次级学习器,将数据集分成五份,其中四分作为训练集,一份作为测试集,输出为两个初级学习器的权重值,在五次循环后,将结果取平均,得到所述两部分音高数据在所述MIDI格式的文件中的权重值。
9.一种铜制或木制乐器的多模态转谱系统,其特性在于,包括:
信息采集模块(100)包括声音采集单元(101)、图像采集单元(102)及气流强度采集单元(103);
信息处理模块(200)与所述信息采集模块(100)相连接,其包括声音处理单元(201)、图像处理单元(202)、多模态融合单元(203),所述声音处理单元(201)、图像处理单元(202)同时与所述多模态融合单元(203)进行连接。
CN202110613485.1A 2021-06-02 2021-06-02 一种铜制或木制乐器的多模态转谱方法及系统 Active CN113257210B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202110613485.1A CN113257210B (zh) 2021-06-02 2021-06-02 一种铜制或木制乐器的多模态转谱方法及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202110613485.1A CN113257210B (zh) 2021-06-02 2021-06-02 一种铜制或木制乐器的多模态转谱方法及系统

Publications (2)

Publication Number Publication Date
CN113257210A true CN113257210A (zh) 2021-08-13
CN113257210B CN113257210B (zh) 2023-10-24

Family

ID=77185957

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202110613485.1A Active CN113257210B (zh) 2021-06-02 2021-06-02 一种铜制或木制乐器的多模态转谱方法及系统

Country Status (1)

Country Link
CN (1) CN113257210B (zh)

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060107826A1 (en) * 2001-07-18 2006-05-25 Knapp R B Method and apparatus for sensing and displaying tablature associated with a stringed musical instrument
CN202512877U (zh) * 2012-03-08 2012-10-31 苏州市职业大学 一种用于乐谱识别及自动演奏的装置
CN103377647A (zh) * 2012-04-24 2013-10-30 中国科学院声学研究所 一种基于音视频信息的自动音乐记谱方法及系统
JP2013225016A (ja) * 2012-04-20 2013-10-31 Tokyo Metropolitan Univ 演奏システム及びプログラム
WO2017037342A1 (en) * 2015-09-04 2017-03-09 Pianorobot Oy System for teaching a user to play a musical instrument from musical notation via virtual exercises and a method thereof
CN107274876A (zh) * 2017-06-30 2017-10-20 武汉理工大学 一种听音绘谱仪
CN110942758A (zh) * 2019-09-23 2020-03-31 广东互动电子网络媒体有限公司 一种基于机器视觉识别乐谱的识别方法及装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20060107826A1 (en) * 2001-07-18 2006-05-25 Knapp R B Method and apparatus for sensing and displaying tablature associated with a stringed musical instrument
CN202512877U (zh) * 2012-03-08 2012-10-31 苏州市职业大学 一种用于乐谱识别及自动演奏的装置
JP2013225016A (ja) * 2012-04-20 2013-10-31 Tokyo Metropolitan Univ 演奏システム及びプログラム
CN103377647A (zh) * 2012-04-24 2013-10-30 中国科学院声学研究所 一种基于音视频信息的自动音乐记谱方法及系统
WO2017037342A1 (en) * 2015-09-04 2017-03-09 Pianorobot Oy System for teaching a user to play a musical instrument from musical notation via virtual exercises and a method thereof
CN107274876A (zh) * 2017-06-30 2017-10-20 武汉理工大学 一种听音绘谱仪
CN110942758A (zh) * 2019-09-23 2020-03-31 广东互动电子网络媒体有限公司 一种基于机器视觉识别乐谱的识别方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
LORIS NANNI 等: "Combining visual and acoustic features for music genre classification", 《EXPERT SYSTEMS WITH APPLICATIONS》, pages 108 - 117 *
吴康妍 等: "一种结合端点检测可检错的DTW乐谱跟随算法", 《计算机应用与软件》, vol. 32, no. 0, pages 158 - 161 *
李亚: "西方民族音乐学视野下的音乐表演与音乐认知", 《中国音乐》, no. 4, pages 201 - 208 *

Also Published As

Publication number Publication date
CN113257210B (zh) 2023-10-24

Similar Documents

Publication Publication Date Title
CN108847215B (zh) 基于用户音色进行语音合成的方法及装置
CN110880329B (zh) 一种音频识别方法及设备、存储介质
CN107316638A (zh) 一种诗词背诵评测方法及系统、一种终端及存储介质
CN105741639B (zh) 一种模拟弓弦类乐器的微感掌上乐器
CN103871295B (zh) 一种基于屏幕显示的多功能古筝电子曲谱装置
CN110070847B (zh) 乐音测评方法及相关产品
CN102842251B (zh) 激光标识乐器示教系统和示教方法
CN110400571A (zh) 音频处理方法、装置、存储介质及电子设备
CN104505103B (zh) 语音质量评价设备、方法和系统
CN111968675A (zh) 一种基于手部识别的弦乐器音符比对系统及其使用方法
Dittmar et al. Real-time guitar string detection for music education software
CN113257210B (zh) 一种铜制或木制乐器的多模态转谱方法及系统
CN102789712B (zh) 基于球形超声电机的激光标识乐器示教系统和示教方法
Jaime et al. A new multiformat rhythm game for music tutoring
Overholt Advancements in violin-related human-computer interaction
KR20140134188A (ko) 코드 이미지가 인쇄된 인쇄물을 이용하는 전자펜의 악기 연주 음향재생 제어방법 및 이를 수행하는 전자펜
CN113053337A (zh) 一种音准评定方法、装置、设备及存储介质
Zhang Mobile music recognition based on deep neural network
JP6728572B2 (ja) 撥弦楽器演奏評価装置、楽曲演奏装置及び撥弦楽器演奏評価プログラム
JP2015001587A (ja) 弦楽器演奏評価装置及び弦楽器演奏評価プログラム
CN110136677A (zh) 乐音控制方法及相关产品
CN112967538B (zh) 一种英语发音信息采集系统
WO2024212940A1 (zh) 一种用于音乐教学的方法、设备和计算机可读存储介质
JP2010224430A (ja) 自動採譜装置、音階識別プログラム、音階判別プログラム、エレクトリック伝統的弦楽器自動採譜システムおよびエレクトリック三味線自動採譜システム
KR102400962B1 (ko) 음표 인식 시스템

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB03 Change of inventor or designer information
CB03 Change of inventor or designer information

Inventor after: Zhang Hanxiao

Inventor after: Zhu Xinyue

Inventor after: Shao Xi

Inventor after: Gai Jiawen

Inventor after: Zou Jiayi

Inventor after: Huang Yichun

Inventor after: Fang Shuxing

Inventor after: Xu Yuan

Inventor after: Li Dongyang

Inventor before: Gai Jiawen

Inventor before: Zhu Xinyue

Inventor before: Zhang Hanxiao

Inventor before: Shao Xi

Inventor before: Zou Jiayi

Inventor before: Huang Yichun

Inventor before: Fang Shuxing

Inventor before: Xu Yuan

Inventor before: Li Dongyang

GR01 Patent grant
GR01 Patent grant