CN110414327B - 样本数据处理方法、装置、计算机装置及存储介质 - Google Patents
样本数据处理方法、装置、计算机装置及存储介质 Download PDFInfo
- Publication number
- CN110414327B CN110414327B CN201910528789.0A CN201910528789A CN110414327B CN 110414327 B CN110414327 B CN 110414327B CN 201910528789 A CN201910528789 A CN 201910528789A CN 110414327 B CN110414327 B CN 110414327B
- Authority
- CN
- China
- Prior art keywords
- sample data
- sign language
- human hand
- picture
- hand images
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V40/00—Recognition of biometric, human-related or animal-related patterns in image or video data
- G06V40/20—Movements or behaviour, e.g. gesture recognition
- G06V40/28—Recognition of hand or arm movements, e.g. recognition of deaf sign language
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/044—Recurrent networks, e.g. Hopfield networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/048—Activation functions
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- Y—GENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
- Y02—TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
- Y02D—CLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
- Y02D10/00—Energy efficient computing, e.g. low power processors, power management or thermal management
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Data Mining & Analysis (AREA)
- General Physics & Mathematics (AREA)
- Social Psychology (AREA)
- Artificial Intelligence (AREA)
- Health & Medical Sciences (AREA)
- Multimedia (AREA)
- Psychiatry (AREA)
- General Health & Medical Sciences (AREA)
- Life Sciences & Earth Sciences (AREA)
- Human Computer Interaction (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Bioinformatics & Computational Biology (AREA)
- Evolutionary Biology (AREA)
- Evolutionary Computation (AREA)
- General Engineering & Computer Science (AREA)
- Image Analysis (AREA)
- Image Processing (AREA)
Abstract
本发明提供一种样本数据处理方法,包括:采集每种手语所对应的X份样本数据;为所述每种手语的X份样本数据中的每份样本数据打标签;根据所述每份样本数据所对应的标签,提取每份样本数据所包括的多张图片,对每份样本数据所包括的多张图片中的每张图片作降维处理;从经过所述降维处理的所述每份样本数据所包括的多张图片中的每张图片中识别出人手区域,并根据所识别的人手区域获得人手图像,从而获得每份样本数据所对应的多张人手图像,将所获得的所有样本数据所对应的人手图像作为训练手语识别模型的训练样本集。本发明可降低图片处理的数据量。本发明还提供实现所述样本数据处理方法的装置、计算机装置及存储介质。
Description
技术领域
本发明涉及计算机技术领域,具体涉及一种样本数据处理方法、装置、计算机装置及存储介质。
背景技术
当前利用机器学习手语识别时,都是采用图片进行模型训练的。然而,所采用的图片包含了大量背景噪声数据。大量背景噪声数据的存在会导致需要处理的数据量大,也降低了识别精确度。此外,所采用的图片之间是相互独立的,没有时间序列。然而,很多手语词汇是几个动作的组合,单张图片并不能完整表达手语的意思。
发明内容
鉴于以上内容,有必要提出一种样本数据处理方法、装置、计算机装置及存储介质,用以解决数据处理量大,手语识别精度不高的技术问题。
本发明的第一方面提供一种样本数据处理方法,所述方法包括:
采集每种手语所对应的X份样本数据,其中,X为正整数,每份样本数据包括多张图片;
为所述每种手语的X份样本数据中的每份样本数据打标签;
根据所述每份样本数据所对应的标签,提取每份样本数据所包括的多张图片,对每份样本数据所包括的多张图片中的每张图片作降维处理,其中,所述降维处理包括将每份样本数据所包括的多张图片中的每张图片转化为灰度图像;
从经过所述降维处理的所述每份样本数据所包括的多张图片中的每张图片中识别出人手区域,并根据所识别的人手区域获得人手图像,从而获得每份样本数据所对应的多张人手图像,将所获得的所有样本数据所对应的人手图像作为训练手语识别模型的训练样本集。
优选地,所述为所述每种手语的X份样本数据中的每份样本数据打标签包括:
为每种手语分配一个主标签;
为每种手语的每份样本数据分配一个副标签;
为每种手语的每份样本数据所包括的多张图片中的每张图片分配一个子标签;及
将与每种手语对应的主标签、与每种手语的每份样本数据对应的副标签、与每种手语的每份样本数据所包括的多张图片中的每张图片对应的子标签建立关联。
优选地,所述降维处理还包括:
将每张图片输入两个串联连接的卷积层进行特征的提取,获得所提取的特征数据;
将所提取的特征数据通过至少一个的池化层和至少一个卷积层进行特征数据的降维,获得降维后的特征数据;及
将所述降维后的特征数据输入至少一个全连接层中,得到降维后的图片数据。
优选地,所述从经过所述降维处理的每种手语的每份样本数据所包括的多张图片中的每张图片中识别出人手区域,并根据所识别的人手区域获得人手图像包括:
使用人手识别模型从经过所述降维处理的每种手语的每份样本数据所包括的每张图片中识别各个潜在人手区域属于人手区域的概率值;
将每张图片中概率值大于预定阈值的潜在人手区域作为人手区域;及
截取该人手区域所对应的图像作为人手图像;或
将每张图片中除人手区域之外的其他像素归零处理,将作过归零处理后的每张图片作为人手图像。
优选地,该方法还包括:
利用所获得的所有样本数据所对应的人手图像训练手语识别模型,包括:
建立一个由输入层、中间层以及输出层构成的LSTM神经网络;及
将经过所述降维处理的每种手语的所有样本数据所对应的人手图像作为训练样本集对所述LSTM神经网络进行训练,得到训练后的手语识别模型;
其中,所述输入层为特征表示层,用于将输入的所述经过所述降维处理的每种手语的每份样本数据所包括的每张人手图像表示为预设维度的特征向量;
其中,所述中间层为双向LSTM层,由预设数量的LSTM单元组成,用于学习所述特征向量,所述预设数量为所述预设维度的一半;
其中,所述输出层为一个全连接层,使用sigmoid激活函数,用于输出一个浮点数值作为整个神经网络的输出。
优选地,所述方法还包括:
在所述输入层输入每种手语的每份样本数据所包括的所有人手图像,其中,在所述输入层输入任意一种手语的任意一份样本数据所包括的人手图像,包括:
确定所述任意一份样本数据所包括的所有人手图像的总数N是小于M,等于M,还是大于M,其中,所述N和M为正整数;
若所述N等于M,则按照所述N张人手图像构成手语的先后顺序在输入层输入所述N张人手图像;
若N小于M,则作补齐处理以补齐M张人手图像,所述补齐处理包括补充M-N张人手图像,然后按照补齐后的所述M张人手图像的先后顺序在输入层输入所述补齐后的M张人手图像;及
若N大于M,则依所述N张人手图像构成手语的先后顺序从所述N张人手图像中每次选择M张人手图像在输入层输入,其中,当出现剩余人手图像数量小于M时,作所述补齐处理以补齐M张人手图像,然后按照补齐后的所述M张人手图像的先后顺序在输入层输入所述补齐后的M张人手图像。
优选地,所补充的人手图像的顺序位于所述N张人手图像之后,所补充的每张人手图像为大小与所述任意一份样本数据所包括的每张人手图像的大小相同的0矩阵。
本发明的第二方面提供一种计算机装置,所述计算机装置包括存储器和处理器,所述存储器用于存储至少一个指令,所述处理器用于执行所述样本数据处理方法。
本发明的第三方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现所述样本数据处理方法。
本发明的第四方面提供一种样本数据处理装置,所述装置包括:
采集模块,用于采集每种手语所对应的X份样本数据,其中,X为正整数,每份样本数据包括多张图片;
处理模块,用于为所述每种手语的X份样本数据中的每份样本数据打标签;
所述处理模块,还用于根据所述每份样本数据所对应的标签,提取每份样本数据所包括的多张图片,对每份样本数据所包括的多张图片中的每张图片作降维处理,其中,所述降维处理包括将每份样本数据所包括的多张图片中的每张图片转化为灰度图像;
所述处理模块,还用于从经过所述降维处理的所述每份样本数据所包括的多张图片中的每张图片中识别出人手区域,并根据所识别的人手区域获得人手图像,从而获得每份样本数据所对应的多张人手图像,将所获得的所有样本数据所对应的人手图像作为训练手语识别模型的训练样本集。
本发明实施例中所述的样本数据处理方法、装置、计算机装置及存储介质,在获取训练手语识别模型的训练样本集的过程中,会根据每种手语的每份样本数据所对应的标签,提取每份样本数据所包括的多张图片,对每份样本数据所包括的多张图片中的每张图片作降维处理,从而可降低图片处理的数据量。此外,本案还从经过所述降维处理的所述每份样本数据所包括的多张图片中的每张图片中识别出人手区域,并根据所识别的人手区域获得人手图像,从而获得每份样本数据所对应的多张人手图像,将所获得的所有样本数据所对应的人手图像作为训练手语识别模型的训练样本集。利用所述样本训练集所训练获得的训练手语识别模型的识别精度高。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1是本发明实施例一提供的样本数据处理方法的流程图。
图2是本发明实施例二提供的样本数据处理装置的结构图。
图3是本发明实施例三提供的计算机装置的示意图。
如下具体实施方式将结合上述附图进一步说明本发明。
具体实施方式
为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施例对本发明进行详细描述。需要说明的是,在不冲突的情况下,本发明的实施例及实施例中的特征可以相互组合。
在下面的描述中阐述了很多具体细节以便于充分理解本发明,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
除非另有定义,本文所使用的所有的技术和科学术语与属于本发明的技术领域的技术人员通常理解的含义相同。本文中在本发明的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本发明。
实施例一
图1是本发明实施例一提供的样本数据处理方法的流程图。
在本实施例中,所述样本数据处理方法可以应用于计算机装置中,对于需要进行样本数据处理的计算机装置,可以直接在计算机装置上集成本发明的方法所提供的用于样本数据处理的功能,或者以软件开发工具包(Software Development Kit,SDK)的形式运行在计算机装置上。
如图1所示,所述样本数据处理方法具体包括以下步骤,根据不同的需求,该流程图中步骤的顺序可以改变,某些步骤可以省略。
步骤S1、采集每种手语所对应的X份样本数据,其中,每份样本数据包括多张图片,X为正整数。例如X可以等于30、40、50或其他数值。
在一个实施例中,可以利用计算机装置的摄像头拍摄获取每份样本数据所对应的视频,然后按照时间顺序依次截取视频的每帧所对应的图片从而获得所述每份样本数据所包括的多张图片。
在一个实施例中,所述计算机装置可以是个人电脑、服务器、笔记本等装置。
在一个实施例中,某种手语所对应的所述X份样本数据分别所对应的视频可以是分别对X个不同的人在作所述某种手语动作时进行拍摄获得的。
举例而言,对于“我和你”这个手语而言,其对应30份样本数据,该30份样本数据分别所对应的视频可以是分别对30个人作该“我和你”手语时进行拍摄获得的。在一个实施例中,每种手语的每份样本数据所包括的每张图片具有相同的大小。
在一个实施例中,每种手语的每份样本数据所包括的每张图片具有相同的大小。
在其他实施例中,也可以从网络上下载每种手语的样本数据。
在其他实施例中,所述每份样本数据所包括的所述多张图片可以按照先后顺序构成一种手语。
步骤S2、为所述每种手语的X份样本数据中的每份样本数据打标签。
在一个实施例中,所述为所述每种手语的X份样本数据中的每份样本数据打标签包括:
(a1)为每种手语分配一个主标签;
(a2)为每种手语的每份样本数据分配一个副标签;
(a3)为每种手语的每份样本数据所包括的多张图片中的每张图片随机分配一个子标签;
(a4)将与每种手语对应的主标签、与每种手语的每份样本数据对应的副标签、与每种手语的每份样本数据所包括的多张图片中的每张图片对应的子标签建立关联,由此,将每个主标签与多个副标签和多个子标签建立了关联。
在其他实施例中,在所述(a3)中,可以根据所述多张图片构成手语的先后顺序为所述多张图片中的每张图片打标签。
举例而言,可以为某种手语分配一个主标签“A”,为该某种手语所对应的30份样本数据分别分配副标签“A1”、“A2”......“A30”。然后为所述30份样本数据中的每份样本数据所包括的多张图片分别分配子标签。具体地,可以根据构成手语的先后顺序为每份样本数据所包括的多张图片来分配子标签。例如,假设对应副标签“A1”的某份样本数据包括7张图片,则根据构成手语的先后顺序将该7张图片分别分配子标签“A11”、“A12”、“A13”、“A14”、“A15”、“A16”、“A17”。
步骤S3、根据所述每种手语的每份样本数据所对应的标签,提取每种手语的每份样本数据所包括的多张图片,对每种手语的每份样本数据所包括的多张图片中的每张图片作降维处理。
在一个实施例中,所述对每种手语的每份样本数据所包括的多张图片中的每张图片作降维处理包括:将每种手语的每份样本数据所包括的每张图片转化为灰度图像,从而实现降维。
在一个实施例中,还可以采用卷积神经网络(Convolutional Neural Network,CNN)对每种手语的每份样本数据所包括的多张图片中的每张图片作降维处理。
在一个实施例中,所述采用卷积神经网络对每种手语的每份样本数据所包括的每张图片作降维处理包括:
(b1)将每张图片输入两个串联连接的卷积层进行特征的提取,获得所提取的特征数据。
本实施例中,所述至少两个卷积层的核大小均不大于5*5。所述卷积层用于对输入的图片进行局部块特征的提取,获得高一级的特征数据,且每个卷积层中均会进行多次的卷积操作。卷积层的核通常采用n*n的结构或者采用m*n的结构。
在一个较佳的实施例中,所述至少两个串联连接的卷积层包含四个依次连接的卷积层,且所述四个卷积层的核大小分别为3*3、3*3、5*5、5*5。采用依次连接的卷积层能够有效地提取图片的特征数据,同时还减少了神经网络计算模型的参数。
(b2)将所提取的特征数据通过至少一个的池化层和至少一个卷积层进行特征数据的降维,获得降维后的特征数据。
本实施例中,所述池化层采用平均值池化。所述池化层用于将卷积层输出的特征数据进行降维处理,也即在保证数据有效性的基础上大大减少数据量。所述平均值池化是指按照池化的原则,取池化核大小范围内数据的平均值作为池化后的输出数据。
(b3)将所述降维后的特征数据输入至少一个全连接层中,得到降维后的图片数据。
在其他实施例中,也可以采用现有技术中的任何降维方法对每种手语的每份样本数据所包括的每张图片降维,从而进一步减少数据处理量。
在其他实施例中,在降维处理前或处理后,还包括对每种手语的每份样本数据所包括的每张图片作去噪处理,例如,去除背景噪声数据,从而进一步降低数据处理量。
步骤S4、从经过所述降维处理的每种手语的每份样本数据所包括的多张图片中的每张图片中识别出人手区域,并根据所识别的人手区域获得人手图像,由此获得每种手语的每份样本数据所对应的多张人手图像,将所获得的所有样本数据所对应的人手图像作为训练手语识别模型的训练样本集。
在一个实施例中,所述从经过所述降维处理的每种手语的每份样本数据所包括的多张图片中的每张图片中识别出人手区域,并根据所识别的人手区域获得人手图像包括:
(c1)使用人手识别模型从经过所述降维处理的每种手语的每份样本数据所包括的每张图片中识别各个潜在人手区域属于人手区域的概率值。
(c2)将每张图片中概率值大于预定阈值的潜在人手区域作为人手区域。
(c3)从每张图片中识别出人手区域后,截取该人手区域所对应的图像,由此获得人手图像;或者从每张图片中识别出人手区域后,将每张图片中除人手区域之外的其他像素归零处理,将作过归零处理后的每张图片作为人手图像。
本实施例中,所述人手识别模型可以是预先训练得到的卷积神经网络模型。该人手识别模型可以识别出各个潜在人手区域属于人手区域的概率值。
在其他实施例中,也可以采用传统的基于肤色的人手识别算法或者利用模板匹配法来从所述经过所述降维处理的每种手语的每份样本数据所包括的每张图片中识别出人手区域。
步骤S5、利用所述获得的每种手语的所有样本数据所对应的人手图像训练手语识别模型。
在一个实施例中,可以采用LSTM(Long Short-Term Memory,长短期记忆网络)神经网络训练所述手语识别模型。
在一个实施例中,所述利用所述获得的每种手语的所有样本数据所对应的人手图像训练手语识别模型包括:
(d1)建立一个由输入层、中间层以及输出层构成的LSTM神经网络。
(d2)将经过所述降维处理的每种手语的所有样本数据所对应的人手图像作为训练样本集对所述LSTM神经网络进行训练,得到训练后的手语识别模型。
具体地,所述输入层为特征表示层,用于将输入的所述经过所述降维处理的每种手语的每份样本数据所包括的每张人手图像表示为预设维度的特征向量。
本实施例中,在输入层输入某种手语的某份样本数据所包括的人手图像,包括步骤:
(e1)确定所述某份样本数据所包括的所有人手图像的总数N是小于M、等于M,还是大于M。
(e2)若所述N等于M,则按照所述N张人手图像构成手语的先后顺序在输入层输入所述N张人手图像。
(e3)若N小于M,则作补齐处理以补齐M张人手图像,所述补齐处理包括:补充M-N张人手图像,然后按照补齐后的所述M张人手图像的先后顺序在输入层输入所述补齐后的M张人手图像。
需要说明的是,所述某种手语的某份样本数据是指本实施例中所提及的任一一种手语的任意一份样本数据。
在一个实施例中,所述补充人手图像的顺序均位于所述N张人手图像之后。所补充的每张人手图像为大小与所述某份样本数据所包括的每张人手图像的大小相同的0矩阵。0矩阵即所有元素皆为0的矩阵。
举例而言,假设所述某份样本数据所包括的每张人手图像的大小是一个28*28大小的矩阵。那么所补充的每张人手图像的大小则为28*28大小的0矩阵。
(e4)若N大于M,则依所述N张人手图像构成手语的先后顺序从所述N张人手图像中每次选择M张人手图像在输入层输入,其中,当出现剩余人手图像数量小于M时,作所述补齐处理以补齐M张人手图像,然后按照补齐后的所述M张人手图像的先后顺序在输入层输入所述补齐后的M张人手图像。
本实施例中,所述N和M为正整数,例如,M可以等于5。
举例而言,假设构成某种手语的某份样本数据包括7张人手图像,该7张人手图像按照构成手语的先后顺序分别对应子标签“A11”、“A12”、“A13”、“A14”、“A15”、“A16”、“A17”。那么可以首先在输入层输入与子标签“A11”、“A12”、“A13”、“A14”、“A15”对应的这五张人手图像。由于仅剩两张与子标签“A6”、“A7”对应的人手图像,即不足五张人手图像,因此,作补齐处理再补充三张人手图像从而补齐五张人手图像,然后在输入层输入补齐后的所述五张人手图像。
在一个实施例中,所述中间层为双向LSTM层,由预设数量的LSTM单元组成,用于学习所述特征向量,所述预设数量为所述预设维度的一半。
所述输出层为一个全连接层,使用sigmoid激活函数,用于输出一个浮点数值作为整个神经网络的输出。
步骤S6、测试所述手语识别模型。
具体地,可以利用预设种类的手语分别所对应的人手图像测试所述手语识别模型,将所述预设种类的手语分别所对应的人手图像输入到所述手语识别模型,确定是否能够正确输出所对应的手语。
在一个实施例中,所述测试所述手语识别模型包括:
(f1)将所述N种手语分别所对应的人手图像输入到所述手语识别模型,获得所述手语识别模型对应输出的手语;
(f2)确定所述手语识别模型输出正确手语的正确率,根据所确定的正确率确定是否要重新训练所述手语识别模型。
在一个实施例中,若所述手语识别模型输出正确手语的正确率大于或者等于一个预设值,则确定无需重新训练所述手语识别模型。若所述手语识别模型输出正确手语的正确率小于所述预设值,确定要重新训练所述手语识别模型,则可通过步骤S1-S4重新获得更多样本数据,并通过步骤S5利用重新获得样本数据重新训练所述手语识别模型。
综上所述,本发明实施例中所述的样本数据处理方法,在获取训练手语识别模型的训练样本集的过程中,会根据所述每份样本数据所对应的标签,提取每份样本数据所包括的多张图片,对每份样本数据所包括的多张图片中的每张图片作降维处理从而可降低图片处理的数据量。此外,本案还从经过所述降维处理的所述每份样本数据所包括的多张图片中的每张图片中识别出人手区域,并根据所识别的人手区域获得人手图像,从而获得每份样本数据所对应的多张人手图像,将所获得的所有样本数据所对应的人手图像作为训练手语识别模型的训练样本集。利用所述样本训练集所训练获得的训练手语识别模型的识别精度高。
上述图1详细介绍了本发明的样本数据处理方法,下面结合图2和图3,对实现所述样本数据处理方法的软件装置的功能模块以及实现所述样本数据处理方法的硬件装置架构进行介绍。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
实施例二
参阅图2所示,是本发明实施例二提供的样本数据处理装置的结构图。
在一些实施例中,所述样本数据处理装置30运行于计算机装置中。所述样本数据处理装置30可以包括多个由程序代码段所组成的功能模块。所述样本数据处理装置30中的各个程序段的程序代码可以存储于计算机装置的存储器中,并由所述至少一个处理器所执行,以实现(详见图2描述)样本数据处理的功能。
本实施例中,所述样本数据处理装置30根据其所执行的功能,可以被划分为多个功能模块。所述功能模块可以包括:采集模块301、处理模块302。本发明所称的模块是指一种能够被至少一个处理器所执行并且能够完成固定功能的一系列计算机程序段,其存储在存储器中。在本实施例中,关于各模块的功能将在后续的实施例中详述。
采集模块301采集每种手语所对应的X份样本数据,其中,每份样本数据包括多张图片,X为正整数。例如X可以等于30、40、50或其他数值。
在一个实施例中,可以利用计算机装置的摄像头拍摄获取每份样本数据所对应的视频,然后按照时间顺序依次截取视频的每帧所对应的图片从而获得所述每份样本数据所包括的多张图片。
在一个实施例中,所述计算机装置可以是个人电脑、服务器、笔记本等装置。
在一个实施例中,某种手语所对应的所述X份样本数据分别所对应的视频可以是分别对X个不同的人在作所述某种手语动作时进行拍摄获得的。
举例而言,对于“我和你”这个手语而言,其对应30份样本数据,该30份样本数据分别所对应的视频可以是分别对30个人作该“我和你”手语时进行拍摄获得的。在一个实施例中,每种手语的每份样本数据所包括的每张图片具有相同的大小。
在一个实施例中,每种手语的每份样本数据所包括的每张图片具有相同的大小。
在其他实施例中,也可以从网络上下载每种手语的样本数据。
在其他实施例中,所述每份样本数据所包括的多张图片可以按照先后顺序构成一种手语。
处理模块302为所述每种手语的X份样本数据中的每份样本数据打标签。
在一个实施例中,所述为所述每种手语的X份样本数据中的每份样本数据打标签包括:
(a1)为每种手语分配一个主标签;
(a2)为每种手语的每份样本数据分配一个副标签;
(a3)为每种手语的每份样本数据所包括的多张图片中的每张图片随机分配一个子标签;
(a4)将与每种手语对应的主标签、与每种手语的每份样本数据对应的副标签、与每种手语的每份样本数据所包括的多张图片中的每张图片对应的子标签建立关联,由此,将每个主标签与多个副标签和多个子标签建立了关联。
在其他实施例中,在所述(a3)中,可以根据所述多张图片构成手语的先后顺序为所述多张图片中的每张图片打标签。
举例而言,可以为某种手语分配一个主标签“A”,为该某种手语所对应的30份样本数据分别分配副标签“A1”、“A2”......“A30”。然后为所述30份样本数据中的每份样本数据所包括的多张图片分别分配子标签。具体地,可以根据构成手语的先后顺序为每份样本数据所包括的多张图片来分配子标签。例如,假设对应副标签“A1”的某份样本数据包括7张图片,则根据构成手语的先后顺序将该7张图片分别分配子标签“A11”、“A12”、“A13”、“A14”、“A15”、“A16”、“A17”。
处理模块302根据所述每种手语的每份样本数据所对应的标签,提取每种手语的每份样本数据所包括的多张图片,对每种手语的每份样本数据所包括的多张图片中的每张图片作降维处理。
在一个实施例中,所述对每种手语的每份样本数据所包括的多张图片中的每张图片作降维处理包括:将每种手语的每份样本数据所包括的每张图片转化为灰度图像,从而实现降维。
在一个实施例中,还可以采用卷积神经网络(Convolutional Neural Network,CNN)对每种手语的每份样本数据所包括的多张图片中的每张图片作降维处理。
在一个实施例中,所述采用卷积神经网络对每种手语的每份样本数据所包括的每张图片作降维处理包括:
(b1)将每张图片输入两个串联连接的卷积层进行特征的提取,获得所提取的特征数据。
本实施例中,所述至少两个卷积层的核大小均不大于5*5。所述卷积层用于对输入的图片进行局部块特征的提取,获得高一级的特征数据,且每个卷积层中均会进行多次的卷积操作。卷积层的核通常采用n*n的结构或者采用m*n的结构。
在一个较佳的实施例中,所述至少两个串联连接的卷积层包含四个依次连接的卷积层,且所述四个卷积层的核大小分别为3*3、3*3、5*5、5*5。采用依次连接的卷积层能够有效地提取图片的特征数据,同时还减少了神经网络计算模型的参数。
(b2)将所提取的特征数据通过至少一个的池化层和至少一个卷积层进行特征数据的降维,获得降维后的特征数据。
本实施例中,所述池化层采用平均值池化。所述池化层用于将卷积层输出的特征数据进行降维处理,也即在保证数据有效性的基础上大大减少数据量。所述平均值池化是指按照池化的原则,取池化核大小范围内数据的平均值作为池化后的输出数据。
(b3)将所述降维后的特征数据输入至少一个全连接层中,得到降维后的图片数据。
在其他实施例中,也可以采用现有技术中的任何降维方法对每种手语的每份样本数据所包括的每张图片降维,从而进一步减少数据处理量。
在其他实施例中,在降维处理前或处理后,还包括对每种手语的每份样本数据所包括的每张图片作去噪处理,例如,去除背景噪声数据,从而进一步降低数据处理量。
处理模块302从经过所述降维处理的每种手语的每份样本数据所包括的多张图片中的每张图片中识别出人手区域,并根据所识别的人手区域获得人手图像,由此获得每种手语的每份样本数据所对应的多张人手图像,将所获得的所有样本数据所对应的人手图像作为训练手语识别模型的训练样本集。
在一个实施例中,所述从经过所述降维处理的每种手语的每份样本数据所包括的多张图片中的每张图片中识别出人手区域,并根据所识别的人手区域获得人手图像包括:
(c1)使用人手识别模型从经过所述降维处理的每种手语的每份样本数据所包括的每张图片中识别各个潜在人手区域属于人手区域的概率值。
(c2)将每张图片中概率值大于预定阈值的潜在人手区域作为人手区域。
(c3)从每张图片中识别出人手区域后,截取该人手区域所对应的图像,由此获得人手图像;或者从每张图片中识别出人手区域后,将每张图片中除人手区域之外的其他像素归零处理,将作过归零处理后的每张图片作为人手图像。
本实施例中,所述人手识别模型可以是预先训练得到的卷积神经网络模型。该人手识别模型可以识别出各个潜在人手区域属于人手区域的概率值。
在其他实施例中,也可以采用传统的基于肤色的人手识别算法或者利用模板匹配法来从所述经过所述降维处理的每种手语的每份样本数据所包括的每张图片中识别出人手区域。
处理模块302利用所述获得的每种手语的所有样本数据所对应的人手图像训练手语识别模型。
在一个实施例中,可以采用LSTM(Long Short-Term Memory,长短期记忆网络)神经网络训练所述手语识别模型。
在一个实施例中,所述利用所述获得的每种手语的所有样本数据所对应的人手图像训练手语识别模型包括:
(d1)建立一个由输入层、中间层以及输出层构成的LSTM神经网络。
(d2)将经过所述降维处理的每种手语的所有样本数据所对应的人手图像作为训练样本集对所述LSTM神经网络进行训练,得到训练后的手语识别模型。
具体地,所述输入层为特征表示层,用于将输入的所述经过所述降维处理的每种手语的每份样本数据所包括的每张人手图像表示为预设维度的特征向量。
本实施例中,在输入层输入某种手语的某份样本数据所包括的人手图像,包括步骤:
(e1)确定所述某份样本数据所包括的所有人手图像的总数N是小于M、等于M,还是大于M。
(e2)若所述N等于M,则按照所述N张人手图像构成手语的先后顺序在输入层输入所述N张人手图像。
(e3)若N小于M,则作补齐处理以补齐M张人手图像,所述补齐处理包括:补充M-N张人手图像,然后按照补齐后的所述M张人手图像的先后顺序在输入层输入所述补齐后的M张人手图像。
在一个实施例中,所述补充人手图像的顺序均位于所述N张人手图像之后。所补充的每张人手图像为大小与所述某份样本数据所包括的每张人手图像的大小相同的0矩阵。0矩阵即所有元素皆为0的矩阵。
举例而言,假设所述某份样本数据所包括的每张人手图像的大小是一个28*28大小的矩阵。那么所补充的每张人手图像的大小则为28*28大小的0矩阵。
(e4)若N大于M,则依所述N张人手图像构成手语的先后顺序从所述N张人手图像中每次选择M张人手图像在输入层输入,其中,当出现剩余人手图像数量小于M时,作所述补齐处理以补齐M张人手图像,然后按照补齐后的所述M张人手图像的先后顺序在输入层输入所述补齐后的M张人手图像。
本实施例中,所述N和M为正整数,例如,M可以等于5。
举例而言,假设构成某种手语的某份样本数据包括7张人手图像,该7张人手图像按照构成手语的先后顺序分别对应子标签“A11”、“A12”、“A13”、“A14”、“A15”、“A16”、“A17”。那么可以首先在输入层输入与子标签“A11”、“A12”、“A13”、“A14”、“A15”对应的这五张人手图像。由于仅剩两张与子标签“A6”、“A7”对应的人手图像,即不足五张人手图像,因此,作补齐处理再补充三张人手图像从而补齐五张人手图像,然后在输入层输入补齐后的所述五张人手图像。
在一个实施例中,所述中间层为双向LSTM层,由预设数量的LSTM单元组成,用于学习所述特征向量,所述预设数量为所述预设维度的一半。
所述输出层为一个全连接层,使用sigmoid激活函数,用于输出一个浮点数值作为整个神经网络的输出。
处理模块302测试所述手语识别模型。
具体地,可以利用预设种类的手语分别所对应的人手图像测试所述手语识别模型,将所所述预设种类的手语分别所对应的人手图像输入到所述手语识别模型,确定是否能够正确输出所对应的手语。
在一个实施例中,所述测试所述手语识别模型包括:
(f1)将所述N种手语分别所对应的人手图像输入到所述手语识别模型,获得所述手语识别模型对应输出的手语;
(f2)确定所述手语识别模型输出正确手语的正确率,根据所确定的正确率确定是否要重新训练所述手语识别模型。
在一个实施例中,若所述手语识别模型输出正确手语的正确率大于或者等于一个预设值,则确定无需重新训练所述手语识别模型。若所述手语识别模型输出正确手语的正确率小于所述预设值,则确定要重新训练所述手语识别模型,利用更多样本数据,重新训练所述手语识别模型。
综上所述,本发明实施例中所述的样本数据处理装置,在获取训练手语识别模型的训练样本集的过程中,会根据每种手语的每份样本数据所对应的标签,提取每份样本数据所包括的多张图片,对每份样本数据所包括的多张图片中的每张图片作降维处理从而可降低图片处理的数据量。此外,本案还从经过所述降维处理的所述每份样本数据所包括的多张图片中的每张图片中识别出人手区域,并根据所识别的人手区域获得人手图像,从而获得每份样本数据所对应的多张人手图像,将所获得的所有样本数据所对应的人手图像作为训练手语识别模型的训练样本集。利用所述样本训练集所训练获得的训练手语识别模型的识别精度高。
实施例三
参阅图3所示,为本发明实施例三提供的计算机装置的结构示意图。在本发明较佳实施例中,所述计算机装置3包括存储器31、至少一个处理器32、至少一条通信总线33。本领域技术人员应该了解,图3示出的计算机装置的结构并不构成本发明实施例的限定,既可以是总线型结构,也可以是星形结构,所述计算机装置3还可以包括比图示更多或更少的其他硬件或者软件,或者不同的部件布置。
在一些实施例中,所述计算机装置3包括一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的终端,其硬件包括但不限于微处理器、专用集成电路、可编程门阵列、数字处理器及嵌入式设备等。
需要说明的是,所述计算机装置3仅为举例,其他现有的或今后可能出现的电子产品如可适应于本发明,也应包含在本发明的保护范围以内,并以引用方式包含于此。
在一些实施例中,所述存储器31用于存储程序代码和各种数据,例如安装在所述计算机装置3中的样本数据处理装置30,并在计算机装置3的运行过程中实现高速、自动地完成程序或数据的存取。所述存储器31包括只读存储器(Read-Only Memory,ROM)、随机存储器(Random Access Memory,RAM)、可编程只读存储器(Programmable Read-OnlyMemory,PROM)、可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,EPROM)、一次可编程只读存储器(One-time Programmable Read-Only Memory,OTPROM)、电子擦除式可复写只读存储器(Electrically-Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储器、磁盘存储器、磁带存储器、或者能够用于携带或存储数据的计算机可读的任何其他存储介质。
在一些实施例中,所述至少一个处理器32可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(Central Processing unit,CPU)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述至少一个处理器32是所述计算机装置3的控制核心(Control Unit),利用各种接口和线路连接整个计算机装置3的各个部件,通过运行或执行存储在所述存储器31内的程序或者模块,以及调用存储在所述存储器31内的数据,以执行计算机装置3的各种功能和处理数据,例如执行样本数据处理的功能。
在一些实施例中,所述至少一条通信总线33被设置为实现所述存储器31以及所述至少一个处理器32等之间的连接通信。
尽管未示出,所述计算机装置3还可以包括给各个部件供电的电源(比如电池),优选的,电源可以通过电源管理装置与所述至少一个处理器32逻辑相连,从而通过电源管理装置实现管理充电、放电、以及功耗管理等功能。电源还可以包括一个或一个以上的直流或交流电源、再充电装置、电源故障检测电路、电源转换器或者逆变器、电源状态指示器等任意组件。所述计算机装置3还可以包括多种传感器、蓝牙模块、Wi-Fi模块等,在此不再赘述。
应该了解,所述实施例仅为说明之用,在专利申请范围上并不受此结构的限制。
上述以软件功能模块的形式实现的集成的单元,可以存储在一个计算机可读取存储介质中。上述软件功能模块存储在一个存储介质中,包括若干指令用以使得一台计算机装置(可以是服务器、个人电脑等)或处理器(processor)执行本发明各个实施例所述方法的部分。
在进一步的实施例中,结合图2,所述至少一个处理器32可执行所述计算机装置3的操作装置以及安装的各类应用程序(如所述的样本数据处理装置30)、程序代码等,例如,上述的各个模块。
所述存储器31中存储有程序代码,且所述至少一个处理器32可调用所述存储器31中存储的程序代码以执行相关的功能。例如,图2中所述的各个模块是存储在所述存储器31中的程序代码,并由所述至少一个处理器32所执行,从而实现所述各个模块的功能以达到对样本数据处理的目的。
在本发明的一个实施例中,所述存储器31存储有至少一个指令(即一个或多个指令),所述至少一个指令被所述至少一个处理器32所执行以实现对样本数据处理的目的。
结合图1,所述至少一个处理器32对上述至少一个指令的具体实现方法包括:
采集每种手语所对应的X份样本数据,其中,X为正整数,每份样本数据包括多张图片;
为所述每种手语的X份样本数据中的每份样本数据打标签;
根据所述每份样本数据所对应的标签,提取每份样本数据所包括的多张图片,对每份样本数据所包括的多张图片中的每张图片作降维处理,其中,所述降维处理包括将每份样本数据所包括的多张图片中的每张图片转化为灰度图像;
从经过所述降维处理的所述每份样本数据所包括的多张图片中的每张图片中识别出人手区域,并根据所识别的人手区域获得人手图像,从而获得每份样本数据所对应的多张人手图像,将所获得的所有样本数据所对应的人手图像作为训练手语识别模型的训练样本集。
根据本发明的优选实施例,所述为所述每种手语的X份样本数据中的每份样本数据打标签包括:
为每种手语分配一个主标签;
为每种手语的每份样本数据分配一个副标签;
为每种手语的每份样本数据所包括的多张图片中的每张图片分配一个子标签;及
将与每种手语对应的主标签、与每种手语的每份样本数据对应的副标签、与每种手语的每份样本数据所包括的多张图片中的每张图片对应的子标签建立关联。
根据本发明的优选实施例,所述降维处理还包括:
将每张图片输入两个串联连接的卷积层进行特征的提取,获得所提取的特征数据;
将所提取的特征数据通过至少一个的池化层和至少一个卷积层进行特征数据的降维,获得降维后的特征数据;及
将所述降维后的特征数据输入至少一个全连接层中,得到降维后的图片数据。
根据本发明的优选实施例,所述从经过所述降维处理的每种手语的每份样本数据所包括的多张图片中的每张图片中识别出人手区域,并根据所识别的人手区域获得人手图像包括:
使用人手识别模型从经过所述降维处理的每种手语的每份样本数据所包括的每张图片中识别各个潜在人手区域属于人手区域的概率值;
将每张图片中概率值大于预定阈值的潜在人手区域作为人手区域;及
截取该人手区域所对应的图像作为人手图像;或
将每张图片中除人手区域之外的其他像素归零处理,将作过归零处理后的每张图片作为人手图像。
根据本发明的优选实施例,该方法还包括:
利用所获得的所有样本数据所对应的人手图像训练手语识别模型,包括:
建立一个由输入层、中间层以及输出层构成的LSTM神经网络;及
将经过所述降维处理的每种手语的所有样本数据所对应的人手图像作为训练样本集对所述LSTM神经网络进行训练,得到训练后的手语识别模型;
其中,所述输入层为特征表示层,用于将输入的所述经过所述降维处理的每种手语的每份样本数据所包括的每张人手图像表示为预设维度的特征向量;
其中,所述中间层为双向LSTM层,由预设数量的LSTM单元组成,用于学习所述特征向量,所述预设数量为所述预设维度的一半;
其中,所述输出层为一个全连接层,使用sigmoid激活函数,用于输出一个浮点数值作为整个神经网络的输出。
根据本发明的优选实施例,所述方法还包括:
在所述输入层输入每种手语的每份样本数据所包括的所有人手图像,其中,在所述输入层输入任意一种手语的任意一份样本数据所包括的人手图像,包括:
确定所述任意一份样本数据所包括的所有人手图像的总数N是小于M,等于M,还是大于M,其中,所述N和M为正整数;
若所述N等于M,则按照所述N张人手图像构成手语的先后顺序在输入层输入所述N张人手图像;
若N小于M,则作补齐处理以补齐M张人手图像,所述补齐处理包括补充M-N张人手图像,然后按照补齐后的所述M张人手图像的先后顺序在输入层输入所述补齐后的M张人手图像;及
若N大于M,则依所述N张人手图像构成手语的先后顺序从所述N张人手图像中每次选择M张人手图像在输入层输入,其中,当出现剩余人手图像数量小于M时,作所述补齐处理以补齐M张人手图像,然后按照补齐后的所述M张人手图像的先后顺序在输入层输入所述补齐后的M张人手图像。
根据本发明的优选实施例,所补充的人手图像的顺序位于所述N张人手图像之后,所补充的每张人手图像为大小与所述任意一份样本数据所包括的每张人手图像的大小相同的0矩阵。
在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述模块的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式。
所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。
另外,在本发明各个实施例中的各功能模块可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能模块的形式实现。
对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
最后应说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或等同替换,而不脱离本发明技术方案的精神和范围。
Claims (8)
1.一种样本数据处理方法,其特征在于,所述方法包括:
采集每种手语所对应的X份样本数据,其中,X为正整数,每份样本数据包括多张图片;
为所述每种手语的X份样本数据中的每份样本数据打标签,包括:为每种手语分配一个主标签;为每种手语的每份样本数据分配一个副标签;为每种手语的每份样本数据所包括的多张图片中的每张图片分配一个子标签;及将与每种手语对应的主标签、与每种手语的每份样本数据对应的副标签、与每种手语的每份样本数据所包括的多张图片中的每张图片对应的子标签建立关联;
根据所述每份样本数据所对应的标签,提取每份样本数据所包括的多张图片,对每份样本数据所包括的多张图片中的每张图片作降维处理,其中,所述降维处理包括将每份样本数据所包括的多张图片中的每张图片转化为灰度图像;
从经过所述降维处理的所述每份样本数据所包括的多张图片中的每张图片中识别出人手区域,并根据所识别的人手区域获得人手图像,从而获得每份样本数据所对应的多张人手图像,包括:使用人手识别模型从经过所述降维处理的每种手语的每份样本数据所包括的每张图片中识别各个潜在人手区域属于人手区域的概率值;将每张图片中概率值大于预定阈值的潜在人手区域作为人手区域;及截取该人手区域所对应的图像作为人手图像;或将每张图片中除人手区域之外的其他像素归零处理,将作过归零处理后的每张图片作为人手图像;
将所获得的所有样本数据所对应的人手图像作为训练手语识别模型的训练样本集。
2.如权利要求1所述的样本数据处理方法,其特征在于,所述降维处理还包括:
将每张图片输入两个串联连接的卷积层进行特征的提取,获得所提取的特征数据;
将所提取的特征数据通过至少一个的池化层和至少一个卷积层进行特征数据的降维,获得降维后的特征数据;及
将所述降维后的特征数据输入至少一个全连接层中,得到降维后的图片数据。
3.如权利要求1所述的样本数据处理方法,其特征在于,该方法还包括:
利用所获得的所有样本数据所对应的人手图像训练手语识别模型,包括:
建立一个由输入层、中间层以及输出层构成的LSTM神经网络;及
将经过所述降维处理的每种手语的所有样本数据所对应的人手图像作为训练样本集对所述LSTM神经网络进行训练,得到训练后的手语识别模型;
其中,所述输入层为特征表示层,用于将输入的所述经过所述降维处理的每种手语的每份样本数据所包括的每张人手图像表示为预设维度的特征向量;
其中,所述中间层为双向LSTM层,由预设数量的LSTM单元组成,用于学习所述特征向量,所述预设数量为所述预设维度的一半;
其中,所述输出层为一个全连接层,使用sigmoid激活函数,用于输出一个浮点数值作为整个神经网络的输出。
4.如权利要求3所述的样本数据处理方法,其特征在于,所述方法还包括:
在所述输入层输入每种手语的每份样本数据所包括的所有人手图像,其中,在所述输入层输入任意一种手语的任意一份样本数据所包括的人手图像,包括:
确定所述任意一份样本数据所包括的所有人手图像的总数N是小于M,等于M,还是大于M,其中,所述N和M为正整数;
若所述N等于M,则按照所述N张人手图像构成手语的先后顺序在输入层输入所述N张人手图像;
若N小于M,则作补齐处理以补齐M张人手图像,所述补齐处理包括补充M-N张人手图像,然后按照补齐后的所述M张人手图像的先后顺序在输入层输入所述补齐后的M张人手图像;及
若N大于M,则依所述N张人手图像构成手语的先后顺序从所述N张人手图像中每次选择M张人手图像在输入层输入,其中,当出现剩余人手图像数量小于M时,作所述补齐处理以补齐M张人手图像,然后按照补齐后的所述M张人手图像的先后顺序在输入层输入所述补齐后的M张人手图像。
5.如权利要求4所述的样本数据处理方法,其特征在于,所补充的人手图像的顺序位于所述N张人手图像之后,所补充的每张人手图像为大小与所述任意一份样本数据所包括的每张人手图像的大小相同的0矩阵。
6.一种计算机装置,其特征在于,所述计算机装置包括存储器和处理器,所述存储器用于存储至少一个指令,所述处理器用于执行所述至少一个指令实现如权利要求1至5中任意一项所述样本数据处理方法。
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有至少一个指令,所述至少一个指令被处理器执行时实现如权利要求1至5中任意一项所述样本数据处理方法。
8.一种样本数据处理装置,其特征在于,所述装置包括:
采集模块,用于采集每种手语所对应的X份样本数据,其中,X为正整数,每份样本数据包括多张图片;
处理模块,用于为所述每种手语的X份样本数据中的每份样本数据打标签,包括:为每种手语分配一个主标签;为每种手语的每份样本数据分配一个副标签;为每种手语的每份样本数据所包括的多张图片中的每张图片分配一个子标签;及将与每种手语对应的主标签、与每种手语的每份样本数据对应的副标签、与每种手语的每份样本数据所包括的多张图片中的每张图片对应的子标签建立关联;
所述处理模块,还用于根据所述每份样本数据所对应的标签,提取每份样本数据所包括的多张图片,对每份样本数据所包括的多张图片中的每张图片作降维处理,其中,所述降维处理包括将每份样本数据所包括的多张图片中的每张图片转化为灰度图像;
所述处理模块,还用于从经过所述降维处理的所述每份样本数据所包括的多张图片中的每张图片中识别出人手区域,并根据所识别的人手区域获得人手图像,从而获得每份样本数据所对应的多张人手图像,包括:使用人手识别模型从经过所述降维处理的每种手语的每份样本数据所包括的每张图片中识别各个潜在人手区域属于人手区域的概率值;将每张图片中概率值大于预定阈值的潜在人手区域作为人手区域;及截取该人手区域所对应的图像作为人手图像;或将每张图片中除人手区域之外的其他像素归零处理,将作过归零处理后的每张图片作为人手图像;
所述处理模块,还用于将所获得的所有样本数据所对应的人手图像作为训练手语识别模型的训练样本集。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910528789.0A CN110414327B (zh) | 2019-06-18 | 2019-06-18 | 样本数据处理方法、装置、计算机装置及存储介质 |
PCT/CN2019/103392 WO2020252923A1 (zh) | 2019-06-18 | 2019-08-29 | 样本数据处理方法、装置、计算机装置及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910528789.0A CN110414327B (zh) | 2019-06-18 | 2019-06-18 | 样本数据处理方法、装置、计算机装置及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN110414327A CN110414327A (zh) | 2019-11-05 |
CN110414327B true CN110414327B (zh) | 2023-06-23 |
Family
ID=68359345
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910528789.0A Active CN110414327B (zh) | 2019-06-18 | 2019-06-18 | 样本数据处理方法、装置、计算机装置及存储介质 |
Country Status (2)
Country | Link |
---|---|
CN (1) | CN110414327B (zh) |
WO (1) | WO2020252923A1 (zh) |
Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107679491A (zh) * | 2017-09-29 | 2018-02-09 | 华中师范大学 | 一种融合多模态数据的3d卷积神经网络手语识别方法 |
CN107742095A (zh) * | 2017-09-23 | 2018-02-27 | 天津大学 | 基于卷积神经网络的汉语手语识别方法 |
US10037458B1 (en) * | 2017-05-02 | 2018-07-31 | King Fahd University Of Petroleum And Minerals | Automated sign language recognition |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN105956529A (zh) * | 2016-04-25 | 2016-09-21 | 福州大学 | 一种基于lstm型rnn的中国手语识别方法 |
CN108764176A (zh) * | 2018-05-31 | 2018-11-06 | 郑州云海信息技术有限公司 | 一种动作序列识别方法、系统及设备和存储介质 |
-
2019
- 2019-06-18 CN CN201910528789.0A patent/CN110414327B/zh active Active
- 2019-08-29 WO PCT/CN2019/103392 patent/WO2020252923A1/zh active Application Filing
Patent Citations (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US10037458B1 (en) * | 2017-05-02 | 2018-07-31 | King Fahd University Of Petroleum And Minerals | Automated sign language recognition |
CN107742095A (zh) * | 2017-09-23 | 2018-02-27 | 天津大学 | 基于卷积神经网络的汉语手语识别方法 |
CN107679491A (zh) * | 2017-09-29 | 2018-02-09 | 华中师范大学 | 一种融合多模态数据的3d卷积神经网络手语识别方法 |
Non-Patent Citations (1)
Title |
---|
"基于训练图CNN特征的视频人体动作识别算法";曹晋其;《计算机工程》;第43卷(第11期);第234-238页 * |
Also Published As
Publication number | Publication date |
---|---|
CN110414327A (zh) | 2019-11-05 |
WO2020252923A1 (zh) | 2020-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
WO2022247005A1 (zh) | 图像中目标物识别方法、装置、电子设备及存储介质 | |
CN111414916B (zh) | 图像中文本内容提取生成方法、装置及可读存储介质 | |
CN113435998B (zh) | 贷款逾期预测方法、装置、电子设备及存储介质 | |
CN113705462A (zh) | 人脸识别方法、装置、电子设备及计算机可读存储介质 | |
CN111931729B (zh) | 基于人工智能的行人检测方法、装置、设备及介质 | |
CN112132216B (zh) | 车型识别方法、装置、电子设备及存储介质 | |
CN114677650B (zh) | 地铁乘客行人违法行为智能分析方法及装置 | |
CN115205225A (zh) | 医学图像识别模型的训练方法、装置、设备及存储介质 | |
CN115471775A (zh) | 基于录屏视频的信息验证方法、装置、设备及存储介质 | |
CN114880449A (zh) | 智能问答的答复生成方法、装置、电子设备及存储介质 | |
CN114022841A (zh) | 人员监控识别方法、装置、电子设备及可读存储介质 | |
CN110414326B (zh) | 样本数据处理方法、装置、计算机装置及存储介质 | |
CN112364828B (zh) | 人脸识别方法及金融系统 | |
CN113065607A (zh) | 图像检测方法、装置、电子设备及介质 | |
CN110414327B (zh) | 样本数据处理方法、装置、计算机装置及存储介质 | |
CN116664949A (zh) | 目标物缺陷检测方法、装置、设备及存储介质 | |
CN116630712A (zh) | 基于模态组合的信息分类方法、装置、电子设备及介质 | |
CN115049836B (zh) | 图像分割方法、装置、设备及存储介质 | |
CN116580232A (zh) | 一种图像自动标注方法、系统及电子设备 | |
CN114677526A (zh) | 图像分类方法、装置、设备及介质 | |
CN114049676A (zh) | 疲劳状态检测方法、装置、设备及存储介质 | |
CN111667411A (zh) | 一种图像传输方法、装置、电子设备及存储介质 | |
CN112580505A (zh) | 网点开关门状态识别方法、装置、电子设备及存储介质 | |
CN111539315B (zh) | 基于黑盒模型的模型训练方法、装置、电子设备及介质 | |
CN115063631B (zh) | 基于人工智能的车损检测方法及相关设备 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |