CN116704526B - 工尺谱扫描机器人及其方法 - Google Patents

工尺谱扫描机器人及其方法 Download PDF

Info

Publication number
CN116704526B
CN116704526B CN202310986675.7A CN202310986675A CN116704526B CN 116704526 B CN116704526 B CN 116704526B CN 202310986675 A CN202310986675 A CN 202310986675A CN 116704526 B CN116704526 B CN 116704526B
Authority
CN
China
Prior art keywords
staff
spectrum
identified
feature map
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202310986675.7A
Other languages
English (en)
Other versions
CN116704526A (zh
Inventor
曾台盛
高大利
朱达欣
庄世芳
黄思育
洪丽芳
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Quanzhou Normal University
Original Assignee
Quanzhou Normal University
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Quanzhou Normal University filed Critical Quanzhou Normal University
Priority to CN202310986675.7A priority Critical patent/CN116704526B/zh
Publication of CN116704526A publication Critical patent/CN116704526A/zh
Application granted granted Critical
Publication of CN116704526B publication Critical patent/CN116704526B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/30Character recognition based on the type of data
    • G06V30/304Music notations
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0464Convolutional networks [CNN, ConvNet]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0475Generative networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/15Cutting or merging image elements, e.g. region growing, watershed or clustering-based techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1918Fusion techniques, i.e. combining data from various sources, e.g. sensor fusion
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Databases & Information Systems (AREA)
  • Image Analysis (AREA)

Abstract

本发明公开了一种工尺谱扫描机器人及其方法,其利用安装于工尺谱扫描机器人上的摄像头获取待处理工尺谱图像;对所述待处理工尺谱图像进行分割与图像增强以得到优化待识别工尺谱分割图像块;对所述优化待识别工尺谱分割图像块进行图像特征提取以得到待识别工尺谱全局语义特征图;以及基于所述待识别工尺谱全局语义特征图,确定工尺谱符号的标签值。这样,可以利用基于深度学习的图像处理技术来实现对工尺谱的自动化识别,提高工尺谱图像的识别准确性和鲁棒性。

Description

工尺谱扫描机器人及其方法
技术领域
本发明涉及智能化扫描机器人技术领域,尤其涉及一种工尺谱扫描机器人及其方法。
背景技术
传统的光学音乐识别基于围绕五线谱识别展开,对数字化的乐谱图像进行分析和处理得到所需的音乐信息,其发展较为成熟。
工尺谱作为我国传统的一种文字记谱方法,与民族乐器和传统曲目紧密联系,我国传统文献中的乐谱多用工尺谱记载。但针对工尺谱的光学音乐识别研究仍处于发展阶段,现有的技术存在许多不足,例如,无法识别小字符。小字符信息的丢失需人工补充,这对于自动化的乐谱识别是难以接受的。因此,期待一种解决方案。
发明内容
本发明实施例提供一种工尺谱扫描机器人及其方法,其利用安装于工尺谱扫描机器人上的摄像头获取待处理工尺谱图像;对所述待处理工尺谱图像进行分割与图像增强以得到优化待识别工尺谱分割图像块;对所述优化待识别工尺谱分割图像块进行图像特征提取以得到待识别工尺谱全局语义特征图;以及基于所述待识别工尺谱全局语义特征图,确定工尺谱符号的标签值。这样,可以利用基于深度学习的图像处理技术来实现对工尺谱的自动化识别,提高工尺谱图像的识别准确性和鲁棒性。
本发明实施例还提供了一种工尺谱扫描机器人,其包括:
工尺谱图像获取模块,用于利用安装于工尺谱扫描机器人上的摄像头获取待处理工尺谱图像;
图像分割与增强模块,用于对所述待处理工尺谱图像进行分割与图像增强以得到优化待识别工尺谱分割图像块;
图像特征提取模块,用于对所述优化待识别工尺谱分割图像块进行图像特征提取以得到待识别工尺谱全局语义特征图;以及标签值确定模块,用于基于所述待识别工尺谱全局语义特征图,确定工尺谱符号的标签值。
本发明实施例还提供了一种工尺谱扫描机方法,其包括:
利用安装于工尺谱扫描机器人上的摄像头获取待处理工尺谱图像;
对所述待处理工尺谱图像进行分割与图像增强以得到优化待识别工尺谱分割图像块;
对所述优化待识别工尺谱分割图像块进行图像特征提取以得到待识别工尺谱全局语义特征图;以及基于所述待识别工尺谱全局语义特征图,确定工尺谱符号的标签值。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:
图1为本发明实施例中提供的一种工尺谱扫描机器人的框图。
图2为本发明实施例中提供的一种工尺谱扫描机器人中所述图像分割与增强模块的框图。
图3为本发明实施例中提供的一种工尺谱扫描机器人中所述图像特征提取模块的框图。
图4为本发明实施例中提供的一种工尺谱扫描机方法的流程图。
图5为本发明实施例中提供的一种工尺谱扫描机方法的系统架构的示意图。
图6为本发明实施例中提供的一种工尺谱扫描机器人的应用场景图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本发明实施例做进一步详细说明。在此,本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。
除非另有说明,本申请实施例所使用的所有技术和科学术语与本申请的技术领域的技术人员通常理解的含义相同。本申请中所使用的术语只是为了描述具体的实施例的目的,不是旨在限制本申请的范围。
在本申请实施例记载中,需要说明的是,除非另有说明和限定,术语“连接”应做广义理解,例如,可以是电连接,也可以是两个元件内部的连通,可以是直接相连,也可以通过中间媒介间接相连,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
需要说明的是,本申请实施例所涉及的术语“第一\第二\第三”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二\第三”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二\第三”区分的对象在适当情况下可以互换,以使这里描述的本申请的实施例可以除了在这里图示或描述的那些以外的顺序实施。
在本发明的一个实施例中,图1为本发明实施例中提供的一种工尺谱扫描机器人的框图。如图1所示,根据本发明实施例的工尺谱扫描机器人100,包括:工尺谱图像获取模块110,用于利用安装于工尺谱扫描机器人上的摄像头获取待处理工尺谱图像;图像分割与增强模块120,用于对所述待处理工尺谱图像进行分割与图像增强以得到优化待识别工尺谱分割图像块;图像特征提取模块130,用于对所述优化待识别工尺谱分割图像块进行图像特征提取以得到待识别工尺谱全局语义特征图;以及,标签值确定模块140,用于基于所述待识别工尺谱全局语义特征图,确定工尺谱符号的标签值。
工尺谱扫描机器人是一种基于深度学习技术的智能化设备,可以自动识别工尺谱图像并提取其中的音符和节拍信息。其中,所述工尺谱图像获取模块110是工尺谱扫描机器人的核心部件之一,其可以确保摄像头的位置和角度能够完整地拍摄到工尺谱图像,并且不会产生过多的畸变和噪声。所述图像分割与增强模块120选择合适的图像分割算法,将工尺谱图像分割成多个小块,以便进行后续的识别和处理;并采用图像增强技术,如直方图均衡化、滤波等,提高图像的对比度和清晰度,使得待识别图像块更加容易被机器人识别和处理。所述图像特征提取模块130选择合适的图像特征提取算法,如卷积神经网络(CNN)、支持向量机(SVM)等,以提取出工尺谱图像中的音符和节拍信息;并对不同的工尺谱图像块采用不同的特征提取算法,以提高识别的准确性和鲁棒性;还对提取出的特征进行归一化和标准化处理,以便于后续的分类和识别。所述标签值确定模块140选择合适的分类算法,如多层感知机(MLP)、决策树(DT)等,以将提取出的特征与工尺谱符号进行分类和识别;并对分类和识别的结果进行评估和优化,以提高机器人的识别准确性和鲁棒性。
通过上述四个模块的组合,工尺谱扫描机器人可以实现对工尺谱图像的自动化识别和处理,从而提高了工尺谱的处理效率和准确性。
具体地,所述工尺谱图像获取模块110,用于利用安装于工尺谱扫描机器人上的摄像头获取待处理工尺谱图像。本申请的技术构思为利用基于深度学习的图像处理技术来实现对工尺谱的自动化识别,提高工尺谱图像的识别准确性和鲁棒性。
在本申请的技术方案中,首先获取待处理工尺谱图像。在实际场景中,在工尺谱机器人的合适位置处安装摄像头,当需要进行识别时,工尺谱机器人接收摄像头采集的所述待处理工尺谱图像。
工尺谱机器人是一种专门用于测量和分析工尺谱的机器人。通常由一个机械臂、一个扫描仪和一个控制系统组成,机械臂可以在三维空间内移动,以便将扫描仪对准待测量的工件表面;扫描仪可以将工件表面的几何形状和表面质量信息转换成数字信号,并将其传输到控制系统进行处理和分析;控制系统可以对扫描得到的数据进行处理和分析,以获得工件的尺寸、形状和表面质量等信息。
工尺谱机器人可以广泛应用于工业生产和质量控制等领域,可以实现对各种工件的测量和分析,包括汽车零部件、航空零部件、机械零部件等。与传统的手工测量和分析方法相比,工尺谱机器人具有高效、准确、自动化等优点,能够大大提高工业生产的效率和质量。
在本申请一具体实施例中,首先需要确定摄像头的安装位置,以便能够拍摄到待处理工尺谱图像,通常情况下,摄像头应该安装在工尺谱机器人的机械臂末端或附近的位置。并且,选择一款具有高分辨率、高灵敏度、低噪声等特点的摄像头,以便能够拍摄到清晰、准确的工尺谱图像。同时,还考虑摄像头的接口类型、适配器等因素,以确保与工尺谱机器人的控制系统兼容。然后,将摄像头连接到工尺谱机器人的控制系统上,以便能够实时传输图像数据,通常情况下,可以使用USB接口或者其他数字接口来连接摄像头和控制系统。在安装好摄像头后,需要对其进行调整,以便能够拍摄到清晰、准确的工尺谱图像,其中,调整的参数包括曝光时间、白平衡、对比度等。最后,在调整好摄像头参数后,可以开始拍摄待处理工尺谱图像。其中,可以使用工尺谱机器人的控制系统来控制机械臂的移动,以便将摄像头对准待测量的工件表面。
具体地,所述图像分割与增强模块120,用于对所述待处理工尺谱图像进行分割与图像增强以得到优化待识别工尺谱分割图像块。图2为本发明实施例中提供的一种工尺谱扫描机器人中所述图像分割与增强模块的框图,如图2所示,所述图像分割与增强模块120,包括:图像分割单元121,用于对所述待处理工尺谱图像进行图像分割以得到多个工尺谱分割图像块;待识别图像块提取单元122,用于从所述多个工尺谱分割图像块中提取待识别工尺谱分割图像块;以及,分辨率增强单元123,用于将所述待识别工尺谱分割图像块通过基于对抗生成网络模型的分辨率增强器以得到优化待识别工尺谱分割图像块。
首先,在图像分割单元121中,应可以理解,工尺谱作为一种文字记谱方法,虽然使用“合、四、一、上、尺、工、凡、六、五、乙”等汉字用于记谱,但其特有的升降调符号使得无法直接使用传统的汉字识别,同时其“板”、“眼”等符号亦影响着谱字的识别成功率,而这些符号同时也记录着乐谱信息,无法将其忽视。虽然采用忽略升降调符号等方法在一定程度上提高了识别成功率,但自动化识别的过程中丢失这些小字符信息还是难以接受的。
也就是说,一张完整的工尺谱图像包含大量信息,例如曲目名称、作曲者、演奏者、乐器类型、音符、节拍等等。但对于小字符信息来说,在工尺谱图像中所占的画面比例是较小的,在预处理和图像特征提取的工作中,往往容易被忽略。因此,在本申请的技术方案中,对所述待处理工尺谱图像进行图像分割以得到多个工尺谱分割图像块。其中,图像分割是指将所述待处理工尺谱图像分割成多个小的图像块。也就是说,图像分割可以将工尺谱图像中的小字符分离出来,从而在一定程度上凸显出小字符的信息。
在本申请的一个实施例中,采用基于阈值分割的方式对待处理的工尺谱图像进行图像分割,其将图像中的像素值与一个预先设定的阈值进行比较,将像素值大于阈值的部分分为一类,将像素值小于阈值的部分分为另一类,对分割出的两部分进行后续的处理,如去除噪声、填补空洞等。
在本申请的另一个实施例中,采用基于边缘检测的方式对待处理的工尺谱图像进行图像分割,其中选择合适的边缘检测算法,如Canny算法、Sobel算法等,检测图像中的边缘信息;对检测出的边缘信息进行处理,如连接、闭合等,将图像分割成多个小块;对分割出的小块进行后续的处理,如去除噪声、填补空洞等,以便于后续的识别和处理。
然后,在待识别图像块提取单元122中,从所述多个工尺谱分割图像块中提取待识别工尺谱分割图像块。其中,基于形态学处理的方法可以提取待识别的工尺谱分割图像块,利用形态学处理中的膨胀和腐蚀操作,对工尺谱分割图像进行处理,得到待识别的工尺谱分割图像块。
具体地,首先对分割出的多个工尺谱分割图像块进行形态学处理,利用膨胀和腐蚀操作,将图像中的噪声和不需要的部分去除;然后,利用形态学处理后的结果,得到待识别的工尺谱分割图像块。
当然,在本申请的其他实施例中,基于区域生长的方法可以提取待识别的工尺谱分割图像块,利用区域生长算法,将相邻的像素点按照一定的规则进行合并,得到待识别的工尺谱分割图像块。
更具体地,首先对分割出的多个工尺谱分割图像块进行区域生长处理,将相邻的像素点按照一定的规则进行合并;然后,利用区域生长处理后的结果,得到待识别的工尺谱分割图像块。
基于形态学处理和基于区域生长是工尺谱扫描机器人中常用的提取待识别工尺谱分割图像块的方法,可以将分割出的多个工尺谱分割图像块进行处理,得到待识别的工尺谱分割图像块,以便于后续的识别和处理。
接着,在分辨率增强单元123中,将所述待识别工尺谱分割图像块通过基于对抗生成网络模型的分辨率增强器以得到优化待识别工尺谱分割图像块。在实际应用中,工尺谱图像通常存在分辨率低、模糊、噪声等问题,这些问题会影响工尺谱光学音乐识别的准确性。为了解决这些问题,在本申请的技术方案中期待采用基于对抗生成网络模型的分辨率增强器对工尺谱图像进行处理,以提高其分辨率和清晰度。这里,基于对抗生成网络模型的分辨率增强器是一种深度学习模型,其主要功能是将低分辨率图像转换成高分辨率图像。该模型在训练过程中学习高分辨率图像和低分辨率图像之间的映射关系,从而在推断阶段实现对低分辨率图像的增强。也就是说,将待识别工尺谱分割图像块输入到分辨率增强器中,可以得到分辨率更高、清晰度更好的优化待识别工尺谱分割图像块。在本申请的一个具体示例中,所述基于对抗生成网络模型的分辨率增强器可以是SRGAN(Super-ResolutionGenerative Adversarial Network)或ESRGAN(EnhancedSuper-Resolution GenerativeAdversarial Network)。
对抗生成网络模型(Generative Adversarial Networks,GANs)是一种深度学习模型,其主要目的是生成逼真的图像。基于对抗生成网络模型的分辨率增强器通常采用SRGAN或ESRGAN的结构,这两种模型都是基于对抗生成网络(GAN)的超分辨率方法,可以将低分辨率图像转换为高分辨率图像。
SRGAN的结构包括生成器和判别器两部分,生成器使用卷积神经网络(CNN)将低分辨率图像转换为高分辨率图像,而判别器则使用CNN来区分生成的高分辨率图像和真实的高分辨率图像。生成器和判别器通过对抗训练来提高生成器的性能,使其生成的高分辨率图像更加真实。ESRGAN是SRGAN的改进版,使用了更深的生成器和更复杂的损失函数。ESRGAN的生成器使用了残差块和上采样模块来提高图像的质量和清晰度,同时还引入了感知损失函数和自适应特征融合技术,进一步提高了模型的性能和效果。
具体地,收集待识别工尺谱分割图像块数据集,包括低分辨率图像和高分辨率图像的配对数据集。利用GANs训练生成器和判别器。生成器的输入为低分辨率待识别工尺谱分割图像块,输出为高分辨率待识别工尺谱分割图像块,判别器的输入为高分辨率待识别工尺谱分割图像块或生成器生成的图像块,输出为真实或假的标签。将优化后的高分辨率待识别工尺谱分割图像块输入到工尺谱识别算法中进行识别。这样,基于对抗生成网络模型的分辨率增强器可以有效提高待识别工尺谱分割图像块的分辨率,从而提高工尺谱识别算法的准确性和鲁棒性。具体地,所述图像特征提取模块130,用于对所述优化待识别工尺谱分割图像块进行图像特征提取以得到待识别工尺谱全局语义特征图。其用于:利用深度卷积神经网络模型对所述优化待识别工尺谱分割图像块进行图像特征提取以得到所述待识别工尺谱全局语义特征图。进一步地,图3为本发明实施例中提供的一种工尺谱扫描机器人中所述图像特征提取模块的框图,如图3所示,所述图像特征提取模块130,包括:局部特征提取单元131,用于将所述优化待识别工尺谱分割图像块通过基于卷积神经网络模型的局部特征提取器以得到待识别工尺谱分割图像块特征图;以及,全局特征提取单元132,用于将所述待识别工尺谱分割图像块特征图通过基于非局部神经网络模型的全局特征提取器以得到所述待识别工尺谱全局语义特征图。
卷积神经网络(Convolutional Neural Network,CNN)是一种深度学习模型,主要用于图像识别、语音识别、自然语言处理等领域。卷积神经网络可以通过卷积层、池化层、输入层、输出层等组件来提取特征,其中卷积层是卷积神经网络的核心组件,可以对图像进行卷积操作,提取图像的特征。池化层可以对卷积层输出的特征图进行降采样,减少特征图的大小,同时保留重要的特征信息。
由于卷积神经网络(CNN)是一种具有强大的图像特征提取能力的深度学习模型,可以有效地对工尺谱图像进行特征提取。在本申请的技术方案中,将所述优化待识别工尺谱分割图像块通过基于卷积神经网络模型的局部特征提取器以得到待识别工尺谱分割图像块特征图。也就是,通过所述基于神经网络模型的局部特征提取器以利用卷积核来对所述优化待识别工尺谱分割图像块进行局部的图像关联特征提取。
在本申请的一个具体示例中,所述卷积神经网络模型的网络结构为输入层->卷积层1->卷积层2->卷积层3->池化层->输出层。也就是,所述卷积神经网络模型包括输入层、第一卷积层、第二卷积层、第三卷积层、池化层和输出层。其中,每个卷积层包括 32 个卷积核,卷积核大小为 3x3,步长为 1,激活函数为ReLU,每个池化层采用大小为 2x2的最大值池化操作,步长为 2。
在本申请的一个实施例中,将待识别的工尺谱分割图像块输入到卷积神经网络模型中,作为输入层的数据;卷积层是卷积神经网络的核心组成部分之一,通过卷积操作可以提取图像的局部特征。在第一卷积层中,可以设置多个卷积核对输入的图像进行卷积操作,提取出不同的特征信息,同时可以设置不同的激活函数对卷积结果进行非线性变换,增强模型的表征能力。第二卷积层的作用与第一卷积层相似,主要是进一步提取图像的局部特征,在第二卷积层中,可以设置更多的卷积核,提取更加丰富的特征信息;第三卷积层也是类似的卷积操作,但是通常在这一层中会设置更多的卷积核,以提取更加复杂的特征信息;池化层的作用是对卷积结果进行下采样,减少模型的参数数量,同时可以增强模型的鲁棒性,常用的池化方式有最大池化和平均池化等;最后一层是输出层,通常是一个全连接层,将池化结果展开成一个向量,然后通过softmax函数将向量映射到不同的类别上,得到最终的分类结果。
通过上述步骤,可以得到待识别工尺谱分割图像块的特征图,然后可以将特征图输入到分类器中进行分类,以提高模型的识别准确率。
虽然卷积神经网络在图像特征提取方面具有优异的性能表现,但受限于卷积编码的局限性,由所述基于卷积神经网络模型的局部特征提取器所提取的特征会具有相对较小的特征感受野,也就是说,所述待识别工尺谱分割图像块特征图在全局特征方面表现较弱。
为弥补这一缺点,在本申请的技术方案中,将所述待识别工尺谱分割图像块特征图通过基于非局部神经网络模型的全局特征提取器以得到待识别工尺谱全局语义特征图。其中,所述非局部神经网络通过计算所述待识别工尺谱分割图像块特征图中的各个局部特征之间的相似度捕获隐藏的依赖信息,进而建模上下文特征,使网络关注所述待识别工尺谱分割图像块特征图中的各个局部特征间的整体语义关联内容。
在本申请中,所述全局特征提取单元,包括:特征提取子单元,用于通过基于非局部神经网络模型的全局特征提取器从所述待识别工尺谱分割图像块特征图中提取初始待识别工尺谱全局语义特征图;以及,融合子单元,用于对所述待识别工尺谱分割图像块特征图和所述初始待识别工尺谱全局语义特征图进行全局上下文空间关联富化融合以得到所述待识别工尺谱全局语义特征图。
其中,使用所述基于非局部神经网络模型的全局特征提取器对所述待识别工尺谱分割图像块特征图进行如下方式的编码以得到所述初始待识别工尺谱全局语义特征图;其中,所述编码过程,包括:分别对所述待识别工尺谱分割图像块特征图进行第一点卷积处理、第二点卷积处理和第三点卷积处理以得到第一特征图、第二特征图和第三特征图;计算所述第一特征图和所述第二特征图之间的按位置加权和以得到融合特征图;将所述融合特征图输入Softmax函数以将所述融合特征图中各个位置的特征值映射到概率空间中以得到归一化述融合特征图;计算所述归一化述融合特征图和所述第三特征图之间的按位置点乘以得到再融合特征图;将所述再融合特征图通过嵌入高斯相似性函数以得到全局相似特征图;对所述全局相似特征图进行第四点卷积处理以调整所述全局相似特征图的通道数以得到通道调整全局相似特征图;以及,计算所述通道调整全局相似特征图和所述待识别工尺谱分割图像块特征图的按位置加权和以得到所述初始待识别工尺谱全局语义特征图。
与传统的卷积神经网络不同,非局部神经网络模型采用了非局部块的设计,可以在不同位置捕捉到图像中的长程依赖关系,从而提高特征提取的准确性和鲁棒性。在本申请的另一个实施例中,将待处理的图像输入到非局部神经网络模型中,作为输入层的数据;特征提取层是非局部神经网络模型的核心组成部分之一,通过非局部块的设计可以捕捉图像中的长程依赖关系。在特征提取层中,可以设置多个非局部块对输入的图像进行特征提取,得到图像的全局特征;池化层的作用是对特征图进行下采样,减少模型的参数数量,同时可以增强模型的鲁棒性。常用的池化方式有最大池化和平均池化等;最后一层是输出层,通常是一个全连接层,将池化结果展开成一个向量,然后通过softmax函数将向量映射到不同的类别上,得到最终的分类结果。
在本申请的技术方案中,将所述优化待识别工尺谱分割图像块通过基于卷积神经网络模型的局部特征提取器得到的所述待识别工尺谱分割图像块特征图可以表达所述优化待识别工尺谱分割图像块的图像语义局部关联特征,而在将所述待识别工尺谱分割图像块特征图通过基于非局部神经网络模型的全局特征提取器后,可以进一步提取图像语义全局关联特征,而为了进一步提升所述待识别工尺谱全局语义特征图的表达效果,可以通过融合所述待识别工尺谱分割图像块特征图和所述待识别工尺谱全局语义特征图来优化所述待识别工尺谱全局语义特征图。
并且,考虑到所述基于卷积神经网络模型的局部特征提取器和所述基于非局部神经网络模型的全局特征提取器的不同空间尺度的卷积操作进行图像特征语义的不同尺度的空间关联特征提取,因此所述待识别工尺谱分割图像块特征图和所述待识别工尺谱全局语义特征图具有不同的空间图像语义特征的关联尺度,从而需要基于其不同的尺度表示来进行融合。
基于此,本申请的申请人对所述待识别工尺谱分割图像块特征图和所述初始待识别工尺谱全局语义特征图进行全局上下文空间关联富化融合,具体表示为:以如下融合公式对所述待识别工尺谱分割图像块特征图和所述初始待识别工尺谱全局语义特征图进行全局上下文空间关联富化融合以得到所述待识别工尺谱全局语义特征图;其中,所述融合公式为:
其中,和/>分别是所述待识别工尺谱分割图像块特征图和所述初始待识别工尺谱全局语义特征图的第/>个特征矩阵,/>是所述初始待识别工尺谱全局语义特征图的第/>个特征矩阵的转置矩阵,/>表示矩阵的转置矩阵,/>是所述待识别工尺谱全局语义特征图的第/>个特征矩阵,/>表示矩阵乘法,/>表示按位置加法。
这里,为了聚集在所述待识别工尺谱分割图像块特征图和所述待识别工尺谱全局语义特征图之间关联分布的本地空间语义之间的上下文空间关联语义,所述全局上下文空间关联富化融合通过聚焦于特征图的特征矩阵所表示的空间帧级别(spatial frame-level)的显式上下文相关性,来富化(enriching)全局感知野下的特征矩阵的帧级别的空间语义融合式表达,从而实现所述待识别工尺谱分割图像块特征图和所述待识别工尺谱全局语义特征图的跨通道的空间共享上下文语义的同化(assimilation)融合,以提升所述待识别工尺谱分割图像块特征图和所述待识别工尺谱全局语义特征图的融合效果,从而提升优化后的待识别工尺谱全局语义特征图的特征表达效果。
在本申请的一个实施例中,全局上下文空间关联富化融合是指将待识别工尺谱分割图像块特征图和初始待识别工尺谱全局语义特征图进行融合,以得到更加准确和完整的待识别工尺谱全局语义特征图。具体地说,其也可以包括:1.对待识别工尺谱分割图像块特征图进行空间关联富化,即将每个分割图像块的特征向量与其周围的相邻图像块的特征向量进行关联,以获得更加准确和完整的局部语义信息。2.对初始待识别工尺谱全局语义特征图进行空间关联富化,即将全局语义特征图中每个像素点的特征向量与其周围的相邻像素点的特征向量进行关联,以获得更加准确和完整的全局语义信息。3.将经过空间关联富化的待识别工尺谱分割图像块特征图和初始待识别工尺谱全局语义特征图进行融合,以得到更加准确和完整的待识别工尺谱全局语义特征图。在融合的过程中,可以利用一些融合算法,例如加权平均或者卷积神经网络等。
具体地,所述标签值确定模块140,用于基于所述待识别工尺谱全局语义特征图,确定工尺谱符号的标签值。其用于:将所述待识别工尺谱全局语义特征图通过分类器以得到分类结果,所述分类结果用于表示工尺谱符号的标签值。也就是,继而将所述待识别工尺谱全局语义特征图通过分类器以得到分类结果,所述分类结果用于表示工尺谱符号的标签值。其中,所述分类器可以根据训练数据中的特征图和分类标签之间的关系,学习出一个分类规则,用于对推断时输入的待识别工尺谱全局语义特征图进行分类预测,从而得到分类结果。通过这样的方式,对工尺谱图像中的符号进行自动化识别。
其中,所述标签值确定模块,包括:矩阵展开单元,用于将所述待识别工尺谱全局语义特征图按照行向量或列向量展开为分类特征向量;全连接编码单元,用于使用所述分类器的多个全连接层对所述分类特征向量进行全连接编码以得到编码分类特征向量;以及,分类单元,用于将所述编码分类特征向量通过所述分类器的Softmax分类函数以得到所述分类结果。
其中,分类器是一种机器学习算法,可以将输入的数据分为不同的类别或者标签。在工尺谱图像识别中,可以使用分类器来将待识别工尺谱全局语义特征图分为不同的类别,每个类别对应一个工尺谱符号的标签值。
常用的分类器有很多种,包括支持向量机(SVM)、朴素贝叶斯分类器、决策树、随机森林等。在工尺谱图像识别中,由于工尺谱符号的种类比较有限,通常采用简单的分类器,如线性分类器或者基于KNN(K-近邻)算法的分类器等。
在本申请其他实施例中,也可以使用卷积神经网络(CNN)来对工尺谱图像进行分类。CNN 是一种广泛应用于图像处理领域的深度学习模型,可以自动从原始图像中提取特征,并对图像进行分类。其包括:数据预处理,将工尺谱图像进行预处理,包括缩放、归一化等操作。神经网络架构设计,设计一个适合工尺谱图像分类的 CNN 网络结构,通常包含卷积层、池化层、全连接层等模块。神经网络训练,使用已标注的工尺谱图像数据集对 CNN 进行训练,以学习图像特征和分类规律,训练过程中可以使用各种优化算法和技巧来提高模型的性能。模型评估和测试,使用测试集对训练好的 CNN 进行评估和测试,以评估模型的分类准确性和鲁棒性。综上,基于本发明实施例的工尺谱扫描机器人100被阐明,其可以利用基于深度学习的图像处理技术来实现对工尺谱的自动化识别,提高工尺谱图像的识别准确性和鲁棒性。
图4为本发明实施例中提供的一种工尺谱扫描机方法的流程图。图5为本发明实施例中提供的一种工尺谱扫描机方法的系统架构的示意图。如图4和图5所示,一种工尺谱扫描机方法,包括:210,利用安装于工尺谱扫描机器人上的摄像头获取待处理工尺谱图像;220,对所述待处理工尺谱图像进行分割与图像增强以得到优化待识别工尺谱分割图像块;230,对所述优化待识别工尺谱分割图像块进行图像特征提取以得到待识别工尺谱全局语义特征图;以及,240,基于所述待识别工尺谱全局语义特征图,确定工尺谱符号的标签值。
本领域技术人员可以理解,上述工尺谱扫描机方法中的各个步骤的具体操作已经在上面参考图1到图3的工尺谱扫描机器人的描述中得到了详细介绍,并因此,将省略其重复描述。
图6为本发明实施例中提供的一种工尺谱扫描机器人的应用场景图。如图6所示,在该应用场景中,首先,利用安装于工尺谱扫描机器人(例如,如图6中所示意的M)上的摄像头获取待处理工尺谱图像(例如,如图6中所示意的C);然后,将获取的待处理工尺谱图像输入至部署有工尺谱扫描算法的服务器(例如,如图6中所示意的S)中,其中所述服务器能够基于工尺谱扫描算法对所述待处理工尺谱图像进行处理,以确定工尺谱符号的标签值。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限定本发明的保护范围,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

Claims (6)

1.一种工尺谱扫描机器人,其特征在于,包括:
工尺谱图像获取模块,用于利用安装于工尺谱扫描机器人上的摄像头获取待处理工尺谱图像;
图像分割与增强模块,用于对所述待处理工尺谱图像进行分割与图像增强以得到优化待识别工尺谱分割图像块;
图像特征提取模块,用于对所述优化待识别工尺谱分割图像块进行图像特征提取以得到待识别工尺谱全局语义特征图;以及
标签值确定模块,用于基于所述待识别工尺谱全局语义特征图,确定工尺谱符号的标签值;
其中,所述图像特征提取模块,包括:
局部特征提取单元,用于将所述优化待识别工尺谱分割图像块通过基于卷积神经网络模型的局部特征提取器以得到待识别工尺谱分割图像块特征图;以及
全局特征提取单元,用于将所述待识别工尺谱分割图像块特征图通过基于非局部神经网络模型的全局特征提取器以得到所述待识别工尺谱全局语义特征图;
其中,所述全局特征提取单元,包括:
特征提取子单元,用于通过基于非局部神经网络模型的全局特征提取器从所述待识别工尺谱分割图像块特征图中提取初始待识别工尺谱全局语义特征图;以及
融合子单元,用于对所述待识别工尺谱分割图像块特征图和所述初始待识别工尺谱全局语义特征图进行全局上下文空间关联富化融合以得到所述待识别工尺谱全局语义特征图;
其中,所述特征提取子单元,用于:
使用所述基于非局部神经网络模型的全局特征提取器对所述待识别工尺谱分割图像块特征图进行如下方式的编码以得到所述初始待识别工尺谱全局语义特征图;
其中,所述编码过程,包括:
分别对所述待识别工尺谱分割图像块特征图进行第一点卷积处理、第二点卷积处理和第三点卷积处理以得到第一特征图、第二特征图和第三特征图;
计算所述第一特征图和所述第二特征图之间的按位置加权和以得到融合特征图;
将所述融合特征图输入Softmax函数以将所述融合特征图中各个位置的特征值映射到概率空间中以得到归一化述融合特征图;
计算所述归一化述融合特征图和所述第三特征图之间的按位置点乘以得到再融合特征图;
将所述再融合特征图通过嵌入高斯相似性函数以得到全局相似特征图;
对所述全局相似特征图进行第四点卷积处理以调整所述全局相似特征图的通道数以得到通道调整全局相似特征图;以及
计算所述通道调整全局相似特征图和所述待识别工尺谱分割图像块特征图的按位置加权和以得到所述初始待识别工尺谱全局语义特征图;
其中,所述融合子单元,用于:以如下融合公式对所述待识别工尺谱分割图像块特征图和所述初始待识别工尺谱全局语义特征图进行全局上下文空间关联富化融合以得到所述待识别工尺谱全局语义特征图;
其中,所述融合公式为:
其中,和/>分别是所述待识别工尺谱分割图像块特征图和所述初始待识别工尺谱全局语义特征图的第/>个特征矩阵,/>是所述初始待识别工尺谱全局语义特征图的第/>个特征矩阵的转置矩阵,/>表示矩阵的转置矩阵,/>是所述待识别工尺谱全局语义特征图的第/>个特征矩阵,/>表示矩阵乘法,/>表示按位置加法。
2.根据权利要求1所述的工尺谱扫描机器人,其特征在于,所述图像分割与增强模块,包括:
图像分割单元,用于对所述待处理工尺谱图像进行图像分割以得到多个工尺谱分割图像块;
待识别图像块提取单元,用于从所述多个工尺谱分割图像块中提取待识别工尺谱分割图像块;以及
分辨率增强单元,用于将所述待识别工尺谱分割图像块通过基于对抗生成网络模型的分辨率增强器以得到优化待识别工尺谱分割图像块。
3.根据权利要求2所述的工尺谱扫描机器人,其特征在于,所述图像特征提取模块,用于:利用深度卷积神经网络模型对所述优化待识别工尺谱分割图像块进行图像特征提取以得到所述待识别工尺谱全局语义特征图。
4.根据权利要求3所述的工尺谱扫描机器人,其特征在于,所述卷积神经网络模型包括输入层、第一卷积层、第二卷积层、第三卷积层、池化层和输出层;其中,每个卷积层包括 32个卷积核,卷积核大小为 3x3,步长为 1,激活函数为ReLU,每个池化层采用大小为 2x2的最大值池化操作,步长为2。
5.根据权利要求4所述的工尺谱扫描机器人,其特征在于,所述标签值确定模块,用于:
将所述待识别工尺谱全局语义特征图通过分类器以得到分类结果,所述分类结果用于表示工尺谱符号的标签值。
6.一种工尺谱扫描机方法,其特征在于,应用如权利要求1的所述的工尺谱扫描机器人,所述工尺谱扫描机方法,包括:
利用安装于工尺谱扫描机器人上的摄像头获取待处理工尺谱图像;
对所述待处理工尺谱图像进行分割与图像增强以得到优化待识别工尺谱分割图像块;
对所述优化待识别工尺谱分割图像块进行图像特征提取以得到待识别工尺谱全局语义特征图;以及
基于所述待识别工尺谱全局语义特征图,确定工尺谱符号的标签值。
CN202310986675.7A 2023-08-08 2023-08-08 工尺谱扫描机器人及其方法 Active CN116704526B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202310986675.7A CN116704526B (zh) 2023-08-08 2023-08-08 工尺谱扫描机器人及其方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202310986675.7A CN116704526B (zh) 2023-08-08 2023-08-08 工尺谱扫描机器人及其方法

Publications (2)

Publication Number Publication Date
CN116704526A CN116704526A (zh) 2023-09-05
CN116704526B true CN116704526B (zh) 2023-09-29

Family

ID=87839651

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202310986675.7A Active CN116704526B (zh) 2023-08-08 2023-08-08 工尺谱扫描机器人及其方法

Country Status (1)

Country Link
CN (1) CN116704526B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117745187B (zh) * 2024-02-07 2024-05-14 吉林大学 基于agv的药物自动配送系统及其方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110930517A (zh) * 2019-08-19 2020-03-27 泉州师范学院 一种全景视频交互系统及方法
CN111104869A (zh) * 2019-11-26 2020-05-05 杭州电子科技大学 一种可识别小字符内容的工尺谱数字化方法
WO2020101448A1 (en) * 2018-08-28 2020-05-22 Samsung Electronics Co., Ltd. Method and apparatus for image segmentation
CN115187844A (zh) * 2022-06-30 2022-10-14 深圳云天励飞技术股份有限公司 基于神经网络模型的图像识别方法、装置及终端设备
CN115393866A (zh) * 2022-06-10 2022-11-25 陈根方 一种基于深度学习的工尺谱谱字识别系统及方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020101448A1 (en) * 2018-08-28 2020-05-22 Samsung Electronics Co., Ltd. Method and apparatus for image segmentation
CN110930517A (zh) * 2019-08-19 2020-03-27 泉州师范学院 一种全景视频交互系统及方法
CN111104869A (zh) * 2019-11-26 2020-05-05 杭州电子科技大学 一种可识别小字符内容的工尺谱数字化方法
CN115393866A (zh) * 2022-06-10 2022-11-25 陈根方 一种基于深度学习的工尺谱谱字识别系统及方法
CN115187844A (zh) * 2022-06-30 2022-10-14 深圳云天励飞技术股份有限公司 基于神经网络模型的图像识别方法、装置及终端设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
曾台盛."南音工乂谱软件设计与实现".《福建电脑》.2018,(第11期),50-52. *

Also Published As

Publication number Publication date
CN116704526A (zh) 2023-09-05

Similar Documents

Publication Publication Date Title
CN109949317B (zh) 基于逐步对抗学习的半监督图像实例分割方法
CN111639692B (zh) 一种基于注意力机制的阴影检测方法
CN110348319B (zh) 一种基于人脸深度信息和边缘图像融合的人脸防伪方法
CN107194418B (zh) 一种基于对抗特征学习的水稻蚜虫检测方法
CN108491836B (zh) 一种自然场景图像中中文文本整体识别方法
CN111401372A (zh) 一种扫描文档图文信息提取与鉴别的方法
CN111950453A (zh) 一种基于选择性注意力机制的任意形状文本识别方法
CN111680706A (zh) 一种基于编码和解码结构的双通道输出轮廓检测方法
CN111626993A (zh) 一种基于嵌入式FEFnet网络的图像自动检测计数方法及系统
CN112070727B (zh) 一种基于机器学习的金属表面缺陷检测方法
CN111310622A (zh) 一种面向水下机器人智能作业的鱼群目标识别方法
CN116704526B (zh) 工尺谱扫描机器人及其方法
CN112381175A (zh) 一种基于图像处理的电路板识别与分析方法
CN111539330B (zh) 一种基于双svm多分类器的变电站数显仪表识别方法
CN114360038B (zh) 基于深度学习的弱监督rpa元素识别方法及系统
CN112686104A (zh) 基于深度学习的多声部乐谱识别方法
CN114821229A (zh) 基于条件生成对抗网络的水下声学数据集增广方法及系统
CN114331961A (zh) 用于对象的缺陷检测的方法
CN109815957A (zh) 一种基于彩色图像在复杂背景下的文字识别方法
CN109886212A (zh) 从滚动指纹合成现场指纹的方法和装置
CN111046861B (zh) 识别红外影像的方法、构建识别模型的方法及应用
Rani et al. Object Detection in Natural Scene Images Using Thresholding Techniques
CN117593755B (zh) 一种基于骨架模型预训练的金文图像识别方法和系统
Ahmed et al. Unconstrained Arabic scene text analysis using concurrent invariant points
Chhabra et al. Comparative Analysis on Text Detection for Scenic Images using EAST and CTPN

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant