CN108932494B - 号码识别方法、系统、设备及计算机可读存储介质 - Google Patents

号码识别方法、系统、设备及计算机可读存储介质 Download PDF

Info

Publication number
CN108932494B
CN108932494B CN201810701639.0A CN201810701639A CN108932494B CN 108932494 B CN108932494 B CN 108932494B CN 201810701639 A CN201810701639 A CN 201810701639A CN 108932494 B CN108932494 B CN 108932494B
Authority
CN
China
Prior art keywords
image
determining
map
deformation condition
number map
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201810701639.0A
Other languages
English (en)
Other versions
CN108932494A (zh
Inventor
李�根
许世坤
朱延东
李磊
王长虎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Douyin Vision Co Ltd
Douyin Vision Beijing Co Ltd
Original Assignee
Beijing ByteDance Network Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing ByteDance Network Technology Co Ltd filed Critical Beijing ByteDance Network Technology Co Ltd
Priority to CN201810701639.0A priority Critical patent/CN108932494B/zh
Publication of CN108932494A publication Critical patent/CN108932494A/zh
Application granted granted Critical
Publication of CN108932494B publication Critical patent/CN108932494B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/41Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items
    • G06V20/42Higher-level, semantic clustering, classification or understanding of video scenes, e.g. detection, labelling or Markovian modelling of sport events or news items of sport video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本公开涉及号码识别方法、系统、设备及计算机可读存储介质,该方法包括:根据视频图像确定第一号码图和所述第一号码图的形变情况;根据所述形变情况对所述第一号码图进行调整以得到第二号码图;根据所述第二号码图确定号码。

Description

号码识别方法、系统、设备及计算机可读存储介质
技术领域
本公开涉及视频或图像处理技术领域,特别是涉及一种号码识别方法、系统、设备及计算机可读存储介质。
背景技术
在体育赛事视频中,衣服上的号码是认证运动员身份的关键线索。例如,在球赛直播中,通过自动识别球场上球员的球衣号码,能够快速有效的定位到球员信息,从而能够进行更好的解说与数据分析。此外,在诸如马拉松比赛等运动员数目众多的比赛中,如何快速有效地对每个运动员进行身份认证,同样也可以依赖号码识别技术。
现有的号码识别方法存在识别精度不高、识别数字范围有限等问题。特别是运动员常常处于严重的身体倾斜和姿势变形,号码也存在严重的畸变,对于此类号码,现有方法的识别精度较差。
发明内容
本公开的目的在于提供一种新的号码识别方法、系统、设备及计算机可读存储介质。
本公开的目的是采用以下的技术方案来实现的。依据本公开提出的号码识别方法,包括以下步骤:根据视频图像确定第一号码图和所述第一号码图的形变情况;根据所述形变情况对所述第一号码图进行调整以得到第二号码图;根据所述第二号码图确定号码;
其中,所述的根据视频图像确定第一号码图和所述第一号码图的形变情况包括:根据所述视频图像确定所述视频图像中的人员图像;利用预先对确定号码图像及号码图像的形变情况进行过训练的空间变换网络,对所述人员图像进行提取特征,以确定四个顶点坐标;将所述四个顶点坐标所围成的四边形作为所述第一号码图,根据所述四边形与预设的矩形之间的形变情况确定所述第一号码图的形变情况;
其中,在训练所述空间变换网络的过程中,加入坐标值的回归损失函数以进行基于坐标位置监督的号码识别;其中,所述回归损失函数由分类损失和定位损失Lloc确定,所述定位损失Lloc由以下算式得到:
Figure GDA0003171185970000021
其中,p为空间变换网络所预测的坐标,g为正确标注数据的坐标,
Figure GDA0003171185970000023
为Faster R-CNN中的平滑L1,v∈(x,y)表示同时需要对横纵坐标分别计算误差,p1、p2、p3、p4分别表示所述四边形的所述四个顶点。
本公开的目的还可以采用以下的技术措施来进一步实现。
前述的号码识别方法,其中,所述回归损失函数L为:
Figure GDA0003171185970000022
其中,N为训练中的批数,α为权重项,Lcls为所述分类损失。
前述的号码识别方法,其中,所述的根据所述视频图像确定所述视频图像中的人员图像包括:根据视频图像确定所述视频图像中的多个区域以及每个所述区域的置信度,所述置信度用于表示所述区域为人的程度;将所述置信度大于预设的设定值的区域作为人员图像。
前述的号码识别方法,其中,所述的根据视频图像确定第一号码图和所述第一号码图的形变情况包括:根据所述视频图像确定空间变换矩阵,所述空间变换矩阵用于表示所述第一号码图的旋转和/或缩放和/或平移的情况;所述的根据所述形变情况对所述第一号码图进行调整以得到第二号码图包括:根据所述空间变换矩阵对所述第一号码图中的点的坐标进行调整以矫正所述第一号码图。
前述的号码识别方法,其中,所述的根据所述形变情况对所述第一号码图进行调整以得到第二号码图还包括:对经过矫正的所述第一号码图进行插值处理,以得到第二号码图。
前述的号码识别方法,其中,所述的根据所述第二号码图确定号码包括:根据所述第二号码图确定号码的位数以及每一位号码的取值。
前述的号码识别方法,其中,所述的根据视频图像确定第一号码图和所述第一号码图的形变情况和/或所述的根据所述第二号码图确定号码为利用卷积神经网络进行的。
前述的号码识别方法,其中,所述的在训练所述空间变换网络的过程中,加入坐标值的回归损失函数以进行基于坐标位置监督的号码识别,具体包括:采用半监督方式确定所述第一号码图和所述第一号码图的形变情况。
前述的号码识别方法,其中,所述的采用半监督方式确定所述第一号码图和所述第一号码图的形变情况,具体包括:在训练前,把带有分类标签的数据和带有定位标签的数据进行混合;在训练中,当得到带有所述定位标签的数据时,将所述分类损失及所述定位损失同时进行反向传播,当得到数据只有所述分类标签时,对所述分类损失进行反向传播,以使得整个所述空间变换网络成为半监督空间变换网络。
本公开的目的还采用以下技术方案来实现。依据本公开提出的号码识别系统,包括:号码图像确定模块,用于根据视频图像确定第一号码图和所述第一号码图的形变情况;号码图像矫正模块,用于根据所述形变情况对所述第一号码图进行调整以得到第二号码图;号码确定模块,用于根据所述第二号码图确定号码;
其中,所述号码图像确定模块具体用于:根据所述视频图像确定所述视频图像中的人员图像;利用预先对确定号码图像及号码图像的形变情况进行过训练的空间变换网络,对所述人员图像进行提取特征,以确定四个顶点坐标,将所述四个顶点坐标所围成的四边形作为所述第一号码图,根据所述四边形与预设的矩形之间的形变情况确定所述第一号码图的形变情况;其中,在训练所述空间变换网络的过程中,加入坐标值的回归损失函数以进行基于坐标位置监督的号码识别;
其中,所述回归损失函数由分类损失和定位损失Lloc确定,所述定位损失Lloc由以下算式得到:
Figure GDA0003171185970000031
其中,p为空间变换网络所预测的坐标,g为正确标注数据的坐标,
Figure GDA0003171185970000033
为Faster R-CNN中的平滑L1,v∈(x,y)表示同时需要对横纵坐标分别计算误差,p1、p2、p3、p4分别表示所述四边形的所述四个顶点。
本公开的目的还可以采用以下的技术措施来进一步实现。
前述的号码识别系统,其中,所述回归损失函数L为:
Figure GDA0003171185970000032
其中,N为训练中的批数,α为权重项,Lcls为所述分类损失。
前述的号码识别系统,其中,所述的人员图像确定子模块具体用于:根据视频图像确定所述视频图像中的多个区域以及每个所述区域的置信度,所述置信度用于表示所述区域为人的程度;将所述置信度大于预设的设定值的区域作为人员图像。
前述的号码识别系统,其中,所述的号码图像确定模块包括:空间变换矩阵确定子模块,用于根据所述视频图像确定空间变换矩阵,所述空间变换矩阵用于表示所述第一号码图的旋转和/或缩放和/或平移的情况;所述的号码图像矫正模块具体用于:根据所述空间变换矩阵对所述第一号码图中的点的坐标进行调整以矫正所述第一号码图。
前述的号码识别系统,其中,所述的号码图像矫正模块还用于:对经过矫正的所述第一号码图进行插值处理,以得到第二号码图。
前述的号码识别系统,其中,所述的号码确定模块具体用于:根据所述第二号码图确定号码的位数以及每一位号码的取值。
前述的号码识别系统,其中,所述的号码图像确定模块具体用于利用卷积神经网络进行所述的根据视频图像确定第一号码图和所述第一号码图的形变情况,和/或所述的号码确定模块具体用于利用卷积神经网络进行所述的根据所述第二号码图确定号码。
前述的号码识别系统,还包括一个或多个训练模块,用于在训练所述空间变换网络的过程中,加入坐标值的回归损失函数以进行基于坐标位置监督的号码识别;所述训练模块具体用于:采用半监督方式确定所述第一号码图和所述第一号码图的形变情况。
前述的号码识别系统,其中,所述训练模块具体用于:在训练前,把带有分类标签的数据和带有定位标签的数据进行混合;在训练中,当得到带有所述定位标签的数据时,将所述分类损失及所述定位损失同时进行反向传播,当得到数据只有所述分类标签时,对所述分类损失进行反向传播,以使得整个所述空间变换网络成为半监督空间变换网络。
本公开的目的还采用以下技术方案来实现。依据本公开提出的一种设备,包括:存储器,用于存储非暂时性计算机可读指令;以及处理器,用于运行所述计算机可读指令,使得所述处理器执行时实现前述任意一种号码识别方法。
本公开的目的还采用以下技术方案来实现。依据本公开提出的一种计算机可读存储介质,用于存储非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时,使得所述计算机执行前述任意一种号码识别方法。
本公开的目的还采用以下技术方案来实现。依据本公开提出的一种终端设备,包括前述任意一种号码识别系统。
上述说明仅是本公开技术方案的概述,为了能更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为让本公开的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。
附图说明
图1是本公开一个实施例的号码识别方法的流程框图。
图2是本公开一个实施例提供的从视频图像中确定人员图像的示意图。
图3是本公开一个实施例的未采用坐标监督的号码识别方法以及本公开一个实施例的基于坐标位置监督的号码识别方法的流程示意图。
图4是本公开一个实施例的号码识别系统的结构框图。
图5是本公开一个实施例的设备的硬件框图。
图6是本公开一个实施例的计算机可读存储介质的示意图。
图7是本公开一个实施例的终端设备的结构框图。
具体实施方式
为更进一步阐述本公开为达成预定发明目的所采取的技术手段及功效,以下结合附图及较佳实施例,对依据本公开提出的号码识别方法、系统、设备及计算机可读存储介质的具体实施方式、结构、特征及其功效,详细说明如后。
需要注意的是,本公开的号码识别方法并非限制于识别衣服上的号码,而是可以用于识别任意号码。
图1为本公开的号码识别方法一个实施例的示意性流程框图。请参阅图1,本公开示例的号码识别方法,主要包括以下步骤:
步骤S1,根据视频图像确定号码图像(不妨称为第一号码图)和该号码图像的形变情况。
步骤S2,根据第一号码图的形变情况对该第一号码图进行调整以得到第二号码图。具体地,可以根据第一号码图的形变情况对第一号码图中的点的坐标进行调整,以矫正第一号码图。
步骤S3,根据第二号码图确定号码。
本公开提出的号码识别方法,通过根据形变情况对从视频图像中筛选出的号码图像进行调整之后,再进行号码识别,能够有效提高号码识别的精度。
一般来说,号码均标识在特定物体上,例如标识在人员的衣服上,因此在步骤S1的具体过程中,可以先根据视频图像确定该视频图像中的人员图像,再根据该人员图像来确定第一号码图和该第一号码图的形变情况。具体地,前述的确定第一号码图可以为确定第一号码图在视频图像(或者人员图像)中的位置。
可以利用机器学习的方式来确定人员图像。例如,预先训练用于从视频图像中预测人员图像的卷积神经网络(Convolutional Neural Network,简称为CNN),在号码识别过程中利用该预先对确定人员图像进行过训练的卷积神经网络提取视频图像的特征(feature)以确定人员图像。需要说明的是,在一些示例中,仅需利用卷积神经网络得到能够表示人员图像的特征或特征图(feature map),确定人员图像的边缘坐标(例如矩形框),而并非必须确定出人员图像的每个点。
图2为本公开一个实施例提供的从视频图像中确定人员图像的示意性图示。请参阅图2,作为一种可选示例,首先,利用卷积神经网络提取整张视频图像的特征,根据该视频图像特征确定出该视频图像中的多个区域(或者称为人员图像的候选位置)以及每个区域的置信度,其中,该置信度用于表示一个图像区域为人的程度,一个区域的置信度越高,代表该区域的图像越可能是人。可选地,人员图像(图2中的player)的候选位置可以用相对坐标值(x,y)给出,其中,x和y为取值在0到1之间的实数,0代表视频图像的最左或最上,1代表视频图像的最右或最下。而置信度为取值在0到1之间的实数,置信度越高,代表该候选位置越可能是人。然后,将置信度大于预设的设定值的区域作为人员图像。例如,可以筛选出置信度大于0.5的区域作为人员图像。
可以利用机器学习的方式来确定第一号码图并确定第一号码图的形变情况。例如,预先训练用于对号码图像及其形变情况进行预测的卷积神经网络,在号码识别过程中利用该预先对确定号码图像及其形变情况进行过训练的卷积神经网络,对视频图像(或人员图像)进行提取特征,以确定第一号码图和第一号码图的形变情况。值得注意的是,这里所利用的卷积神经网络是一种特殊的网络:空间变换网络(Spatial TransformerNetworks,简称为STN),空间变换网络中的卷积带有形变的特性。需要说明的是,仅需利用卷积神经网络得到能够表示号码图像及其形变情况的特征或特征图,而并非必须确定出号码图像的每个点。
在一些实施例中,待确定的号码图像为特定样式的图像,这时并非必须确定出第一号码图中的每个点的信息,而是可以确定第一号码图边缘的坐标。可选地,将待确定的第一号码图预设为四边形,这时仅需确定出第一号码图的四个顶点坐标,而根据这四个顶点坐标所围成的四边形就能从视频图像中确定出第一号码图。事实上,根据这四个顶点坐标还能够确定第一号码图的形变情况,具体地,可以根据这四个顶点所构成的四边形与预设的矩形(根据未扭曲的号码来预设矩形,例如可以为规范化的正方形)之间的形变情况确定第一号码图的形变情况。
作为一种可选示例,为了确定第一号码图的形变情况,利用卷积神经网络(该卷积神经网络并不需要是空间变换网络)提取视频图像(或人员图像)的特征,再将该特征送入空间变换网络进行提取特征以确定空间变换矩阵。该空间变换矩阵用于表示第一号码图的旋转和/或缩放和/或平移等形变的情况,事实上该空间变换矩阵也就反映了号码的形变情况。在一个具体示例中,该空间变换矩阵是一个2*3的矩阵Aθ
Figure GDA0003171185970000071
矩阵Aθ可以分解为旋转、缩放、平移三种矩阵的线性组合。因此,通过确定该空间变换矩阵的取值,就可获得号码图像的旋转、缩放和平移情况。
关于步骤S2,作为一种可选示例,利用该空间变换矩阵生成第一号码图的抽样网格(sampling grid,或称为sample grid),以对第一号码图中的点的坐标进行调整。具体地,可以按照算式二对第一号码图的各个点的坐标进行调整:
Figure GDA0003171185970000072
其中,
Figure GDA0003171185970000073
分别是输入特征图(待矫正的第一号码图)、输出特征图(经矫正的第一号码图)中的i点(pixel)的横坐标,
Figure GDA0003171185970000074
分别是的输入特征图、输出特征图中的i点的纵坐标,Aθ为前述的空间变换矩阵。可选地,可以将输入特征图、输出特征图的宽和高规范化,例如归一化为
Figure GDA0003171185970000075
需要注意的是,在对第一号码图中的点的坐标进行矫正之后,可能会在原本相邻的两点之间形成空隙。可以对经过矫正的第一号码图进行插值处理,以得到完整的第二号码图。在一些实施例中,可以采用二阶线性插值(或者称为双线性插值)的方式对第一号码图进行处理,具体地,可以根据算式三进行双线性插值处理:
Figure GDA0003171185970000081
其中,
Figure GDA0003171185970000082
为输入图像(第一号码图)的位置(m,n)处的c通道(channel)的值,
Figure GDA0003171185970000083
为输出图像(第二号码图)的
Figure GDA0003171185970000084
处的c通道的值,W、H分别为输入图像的宽度和高度。在本示例中,对每个通道采用了同样的处理方式。利用插值处理,能够填补原图像相邻两点在矫正后产生的空隙,还可以对图像的尺寸进行调整。
关于步骤S3,可以利用机器学习的方式来确定号码。例如,预先训练用于根据号码图像预测号码的卷积神经网络,在号码识别过程中利用该预先对确定号码进行过训练的卷积神经网络对第二号码图进行分析以确定号码。
作为一种可选示例,利用卷积神经网络提取第二号码图的特征,并将该第二号码图的特征再次送入卷积神经网络提取特征以确定号码的位数和每一位号码的取值。例如在体育赛事中,运动员的号码一般最多为三位数,每位号码的取值为0到9,从而可以选用四个分类器来识别号码。其中,三个相同的11个类(包括取值为0到9以及取值为空)的卷积神经网络分类器用于识别每位号码的取值;另一个卷积神经网络分类器用于识别号码的位数,能够预测4个类(包括0、1、2、3)。
需要说明的是,在一些实施例中,在步骤S1中从视频图像中能够确定出多个人员图像,这时需要按照本公开前述实施例所示过程对每个人员图像进行号码识别。
在本公开的一些实施例中,考虑到同一类号码一般出现在物体图像或人员图像中特定区域,例如足球运动员衣服上的号码一般出现在上半身区域,可以在训练卷积神经网络的过程中,加入坐标值的回归损失函数。通过进行坐标位置监督,改变优化目标,能够提高卷积神经网络的预测精度。
作为一种可选示例,在对前述示例中步骤S1所使用的空间变换网络进行训练的过程中,加入坐标值的回归损失函数L,采用半监督方式确定第一号码图和第一号码图的形变情况。其中的回归损失函数L为:
Figure GDA0003171185970000085
其中,N为训练中的批数(batch number)。α为权重项,由于交叉验证(crossvalidation)而设置为1。分类损失(classification loss,也可称为分类误差)Lcls为softmax损失(softmax loss)。定位损失(localization loss,也可称为定位误差)Lloc为Faster R-CNN中的平滑L1
Figure GDA0003171185970000092
可以由算式五得到:
Figure GDA0003171185970000091
其中,p为空间变换网络所预测的坐标,g为正确标注数据(ground truth)的坐标,v∈(x,y)表示同时需要对横纵坐标分别计算误差,p1、p2、p3、p4分别表示四边形的四个顶点;所有坐标均归一化为-1到1之间,以使得定位损失Lloc平滑。训练前,把带分类标签的数据(classification data)和带定位标签的数据(localization data)进行混合。在训练中,当得到带有定位标签(extra labels for localization)的数据时,将分类误差(在一些示例中,分类误差与交叉熵损失cross entropy loss相等)及定位误差(平滑L1损失)同时进行反向传播(back-propagate);而数据只有分类标签时,对softmax层的交叉熵损失(cross entropy loss)进行反向传播,以使得整个空间变换网络成为半监督空间变换网络。
图3为本公开的一个实施例的未采用坐标监督的号码识别方法和本公开的一个实施例的基于坐标位置监督的号码识别方法的示意性流程图,图3还中示出了利用这两种方式根据人员图像而得到的第二号码图。图3中的上半部分的四边形I所包围的区域,为利用未采用坐标监督的号码识别方法对人员图像进行处理而得到的第一号码图,图3中的下半部分的四边形II所包围的区域,为利用基于坐标位置监督的号码识别方法对人员图像进行处理而得到的第一号码图。根据图3可以清楚地看出,基于坐标位置监督的号码识别方法能够更加准确地确定号码图像及其形变情况,进而得到更准确的号码。
图4为本公开的号码识别系统100一个实施例的示意性结构图。请参阅图4,本公开示例的号码识别系统100,主要包括:
号码图像确定模块110,用于根据视频图像确定第一号码图和第一号码图的形变情况。在一些可选示例中,号码图像确定模块110具体用于利用机器学习的方式,根据卷积神经网络和空间变换网络来确定第一号码图像及其形变情况;这时,号码识别系统100还包括第一训练模块(图中未示出),用于预先训练用于对号码图像及其形变情况进行预测的卷积神经网络和空间变换网络。
号码图像矫正模块120,用于根据第一号码图的形变情况对第一号码图进行调整以得到第二号码图。在一些可选示例中,号码图像矫正模块120具体用于根据第一号码图的形变情况对第一号码图中的点的坐标进行调整,以矫正第一号码图。
号码确定模块130,用于根据第二号码图确定号码。在一些可选示例中,号码确定模块130,具体用于利用机器学习的方式,根据卷积神经网络来确定号码;这时,号码识别系统100还包括第二训练模块(图中未示出),用于预先训练用于对号码进行预测的卷积神经网络。
在本公开的一些实施例中,本公开提供的号码图像确定模块110包括人员图像确定子模块(图中未示出)和号码图像确定子模块(图中未示出),该人员图像确定子模块用于根据视频图像确定该视频图像中的人员图像,该号码图像确定子模块用于根据该人员图像来确定第一号码图和该第一号码图的形变情况。在一些可选示例中,人员图像确定子模块具体用于利用机器学习的方式来确定人员图像;这时,号码识别系统100还包括第三训练模块(图中未示出),用于预先训练用于从视频图像中预测出人员图像的卷积神经网络。
在本公开的一些实施例中,该号码图像确定模块110包括:空间变换矩阵确定子模块,用于根据视频图像确定空间变换矩阵。其中,该空间变换矩阵用于表示第一号码图的旋转和/或缩放和/或平移的情况。该号码图像矫正模块120具体用于:根据该空间变换矩阵对该第一号码图中的点的坐标进行调整以矫正该第一号码图。
在本公开的一些实施例中,第一训练模块包括一个子模块,用于在对号码图像确定模块110所使用的空间变换网络进行训练的过程中,加入坐标值的回归损失函数,采用半监督方式确定第一号码图和第一号码图的形变情况。
本公开提出的控制页面滑动的方法的各种实施方式或本公开提出的控制页面方法的各种实施方式可以以使用例如计算机软件、硬件或其任何组合的计算机可读介质来实施。对于硬件实施,本公开提出的控制页面滑动的方法的各种实施方式或本公开提出的控制页面方法的各种实施方式可以通过使用特定用途集成电路(ASIC)、数字信号处理器(DSP)、数字信号处理装置(DSPD)、可编程逻辑装置(PLD)、现场可编程门阵列(FPGA)、处理器、控制器、微控制器、微处理器、被设计为执行这里描述的功能的电子单元中的至少一种来实施,在一些情况下,本公开提出的控制页面滑动的方法的各种实施方式或本公开提出的控制页面方法的各种实施方式可以在控制器中实施。对于软件实施,本公开提出的控制页面滑动的方法的各种实施方式或本公开提出的控制页面方法的各种实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器中并且由控制器执行。
图5是图示根据本公开的一个实施例的设备的硬件框图。如图5所示,根据本公开实施例的设备200包括存储器201和处理器202。设备200中的各组件通过总线系统和/或其它形式的连接机构(未示出)互连。本公开的设备200可以以各种形式来实施,包括但不限于服务器或诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载终端设备、车载显示终端、车载电子后视镜等等的移动终端设备以及诸如数字TV、台式计算机等等的固定终端设备。
该存储器201用于存储非暂时性计算机可读指令。具体地,存储器201可以包括一个或多个计算机程序产品,该计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。该易失性存储器例如可以包括随机存取存储器(RAM)和/或高速缓冲存储器(cache)等。该非易失性存储器例如可以包括只读存储器(ROM)、硬盘、闪存等。
该处理器202可以是中央处理单元(CPU)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元,并且可以控制设备200中的其它组件以执行期望的功能。在本公开的一个实施例中,该处理器202用于运行该存储器201中存储的该计算机可读指令,使得该设备200执行前述的本公开各实施例的号码识别方法的全部或部分步骤。
图6是图示根据本公开的一个实施例的计算机可读存储介质的示意图。如图6所示,根据本公开实施例的计算机可读存储介质300,其上存储有非暂时性计算机可读指令301。当该非暂时性计算机可读指令301由处理器运行时,执行前述的本公开各实施例的号码识别方法的全部或部分步骤。
图7是图示根据本公开实施例的终端设备的硬件结构示意图。终端设备可以以各种形式来实施,本公开中的终端设备可以包括但不限于诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、车载终端设备、车载显示终端、车载电子后视镜等等的移动终端设备以及诸如数字TV、台式计算机等等的固定终端设备。
如图7所示,终端设备1100可以包括无线通信单元1110、A/V(音频/视频)输入单元1120、用户输入单元1130、感测单元1140、输出单元1150、存储器1160、接口单元1170、控制器1180和电源单元1190等等。图7示出了具有各种组件的终端设备,但是应理解的是,并不要求实施所有示出的组件。可以替代地实施更多或更少的组件。
其中,无线通信单元1110允许终端设备1100与无线通信系统或网络之间的无线电通信。A/V输入单元1120用于接收音频或视频信号。用户输入单元1130可以根据用户输入的命令生成键输入数据以控制终端设备的各种操作。感测单元1140检测终端设备1100的当前状态、终端设备1100的位置、用户对于终端设备1100的触摸输入的有无、终端设备1100的取向、终端设备1100的加速或减速移动和方向等等,并且生成用于控制终端设备1100的操作的命令或信号。接口单元1170用作至少一个外部装置与终端设备1100连接可以通过的接口。输出单元1150被构造为以视觉、音频和/或触觉方式提供输出信号。存储器1160可以存储由控制器1180执行的处理和控制操作的软件程序等等,或者可以暂时地存储己经输出或将要输出的数据。存储器1160可以包括至少一种类型的存储介质。而且,终端设备1100可以与通过网络连接执行存储器1160的存储功能的网络存储装置协作。控制器1180通常控制终端设备的总体操作。另外,控制器1180可以包括用于再现或回放多媒体数据的多媒体模块。控制器1180可以执行模式识别处理,以将在触摸屏上执行的手写输入或者图片绘制输入识别为字符或图像。电源单元1190在控制器1180的控制下接收外部电力或内部电力并且提供操作各元件和组件所需的适当的电力。
在一些情况下,本公开提出的号码识别方法的各种实施方式可以在控制器1180中实施。对于软件实施,本公开提出的号码识别方法的各种实施方式可以与允许执行至少一种功能或操作的单独的软件模块来实施。软件代码可以由以任何适当的编程语言编写的软件应用程序(或程序)来实施,软件代码可以存储在存储器1160中并且由控制器1180执行。
以上,根据本公开实施例的号码识别方法、系统、设备、计算机可读存储介质以及终端设备,通过根据形变情况对从视频图像中筛选出的号码图像进行调整之后再进行号码识别,能够有效提高号码识别的精度。进一步地,本公开的一些实施例通过利用空间变换网络对衣服号码进行定位,能够有效去除背景杂质区域的干扰。另外,本公开的一些实施例通过利用空间变换网络对号码图像进行矫正,对于人员处于旋转、前倾、侧身等动作状态下的衣服号码依然能有很高的识别精度。
以上结合具体实施例描述了本公开的基本原理,但是,需要指出的是,在本公开中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本公开的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本公开为必须采用上述具体的细节来实现。
本公开中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。
另外,如在此使用的,在包含“至少一个”、“一个或多个”、“一种或多种”的项的列举中使用的“或”指示分离的列举,以便例如“A、B或C的至少一个”或“A、B或C的一种或多种”的列举意味着A或B或C,或AB或AC或BC,或ABC(即A和B和C)。此外,措辞“示例的”不意味着描述的例子是优选的或者比其他例子更好。
还需要指出的是,在本公开的系统和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本公开的等效方案。
可以不脱离由所附权利要求定义的教导的技术而进行对在此所述的技术的各种改变、替换和更改。此外,本公开的权利要求的范围不限于以上所述的处理、机器、制造、事件的组成、手段、方法和动作的具体方面。可以利用与在此所述的相应方面进行基本相同的功能或者实现基本相同的结果的当前存在的或者稍后要开发的处理、机器、制造、事件的组成、手段、方法或动作。因而,所附权利要求包括在其范围内的这样的处理、机器、制造、事件的组成、手段、方法或动作。
提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本公开。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本公开的范围。因此,本公开不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。
为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本公开的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

Claims (13)

1.一种号码识别方法,所述方法包括:
根据视频图像确定第一号码图和所述第一号码图的形变情况;
根据所述形变情况对所述第一号码图进行调整以得到第二号码图;
根据所述第二号码图确定号码;
其中,所述的根据视频图像确定第一号码图和所述第一号码图的形变情况包括:根据所述视频图像确定所述视频图像中的人员图像;利用预先对确定号码图像及号码图像的形变情况进行过训练的空间变换网络,对所述人员图像进行提取特征,以确定四个顶点坐标;将所述四个顶点坐标所围成的四边形作为所述第一号码图,根据所述四边形与预设的矩形之间的形变情况确定所述第一号码图的形变情况;
其中,在训练所述空间变换网络的过程中,加入坐标值的回归损失函数以进行基于坐标位置监督的号码识别;其中,所述回归损失函数由分类损失和定位损失Lloc确定,所述定位损失Lloc由以下算式得到:
Figure FDA0003171185960000011
其中,p为空间变换网络所预测的坐标,g为正确标注数据的坐标,
Figure FDA0003171185960000012
为FasterR-CNN中的平滑L1,v∈(x,y)表示同时需要对横纵坐标分别计算误差,p1、p2、p3、p4分别表示所述四边形的所述四个顶点。
2.根据权利要求1所述的号码识别方法,其中,
所述回归损失函数L为:
Figure FDA0003171185960000013
其中,N为训练中的批数,α为权重项,Lcls为所述分类损失。
3.根据权利要求1所述的号码识别方法,其中,所述的根据所述视频图像确定所述视频图像中的人员图像包括:
根据视频图像确定所述视频图像中的多个区域以及每个所述区域的置信度,所述置信度用于表示所述区域为人的程度;
将所述置信度大于预设的设定值的区域作为人员图像。
4.根据权利要求1所述的号码识别方法,其中,
所述的根据视频图像确定第一号码图和所述第一号码图的形变情况包括:根据所述视频图像确定空间变换矩阵,所述空间变换矩阵用于表示所述第一号码图的旋转和/或缩放和/或平移的情况;
所述的根据所述形变情况对所述第一号码图进行调整以得到第二号码图包括:根据所述空间变换矩阵对所述第一号码图中的点的坐标进行调整以矫正所述第一号码图。
5.根据权利要求4所述的号码识别方法,其中,所述的根据所述形变情况对所述第一号码图进行调整以得到第二号码图还包括:
对经过矫正的所述第一号码图进行插值处理,以得到第二号码图。
6.根据权利要求1所述的号码识别方法,其中,所述的根据所述第二号码图确定号码包括:根据所述第二号码图确定号码的位数以及每一位号码的取值。
7.根据权利要求1到6中任意一项所述的号码识别方法,其中,所述的根据视频图像确定第一号码图和所述第一号码图的形变情况和/或所述的根据所述第二号码图确定号码为利用卷积神经网络进行的。
8.根据权利要求7所述的号码识别方法,其中,所述的在训练所述空间变换网络的过程中,加入坐标值的回归损失函数以进行基于坐标位置监督的号码识别,具体包括:采用半监督方式确定所述第一号码图和所述第一号码图的形变情况。
9.根据权利要求8所述的号码识别方法,其中,所述的采用半监督方式确定所述第一号码图和所述第一号码图的形变情况,具体包括:
在训练前,把带有分类标签的数据和带有定位标签的数据进行混合;在训练中,当得到带有所述定位标签的数据时,将所述分类损失及所述定位损失同时进行反向传播,当得到数据只有所述分类标签时,对所述分类损失进行反向传播,以使得整个所述空间变换网络成为半监督空间变换网络。
10.一种号码识别系统,所述系统包括:
号码图像确定模块,用于根据视频图像确定第一号码图和所述第一号码图的形变情况;
号码图像矫正模块,用于根据所述形变情况对所述第一号码图进行调整以得到第二号码图;
号码确定模块,用于根据所述第二号码图确定号码;
其中,所述号码图像确定模块具体用于:根据所述视频图像确定所述视频图像中的人员图像;利用预先对确定号码图像及号码图像的形变情况进行过训练的空间变换网络,对所述人员图像进行提取特征,以确定四个顶点坐标,将所述四个顶点坐标所围成的四边形作为所述第一号码图,根据所述四边形与预设的矩形之间的形变情况确定所述第一号码图的形变情况;其中,在训练所述空间变换网络的过程中,加入坐标值的回归损失函数以进行基于坐标位置监督的号码识别;
其中,所述回归损失函数由分类损失和定位损失Lloc确定,所述定位损失Lloc由以下算式得到:
Figure FDA0003171185960000031
其中,p为空间变换网络所预测的坐标,g为正确标注数据的坐标,
Figure FDA0003171185960000032
为FasterR-CNN中的平滑L1,v∈(x,y)表示同时需要对横纵坐标分别计算误差,p1、p2、p3、p4分别表示所述四边形的所述四个顶点。
11.根据权利要求10所述的号码识别系统,所述系统还包括执行权利要求2到9中任一权利要求所述步骤的模块。
12.一种设备,包括:
存储器,用于存储非暂时性计算机可读指令;以及
处理器,用于运行所述计算机可读指令,使得所述计算机可读指令被所述处理器执行时实现根据权利要求1到9中任意一项所述的号码识别方法。
13.一种计算机可读存储介质,用于存储非暂时性计算机可读指令,当所述非暂时性计算机可读指令由计算机执行时,使得所述计算机执行权利要求1到9中任意一项所述的号码识别方法。
CN201810701639.0A 2018-06-29 2018-06-29 号码识别方法、系统、设备及计算机可读存储介质 Active CN108932494B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201810701639.0A CN108932494B (zh) 2018-06-29 2018-06-29 号码识别方法、系统、设备及计算机可读存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201810701639.0A CN108932494B (zh) 2018-06-29 2018-06-29 号码识别方法、系统、设备及计算机可读存储介质

Publications (2)

Publication Number Publication Date
CN108932494A CN108932494A (zh) 2018-12-04
CN108932494B true CN108932494B (zh) 2021-09-21

Family

ID=64447423

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201810701639.0A Active CN108932494B (zh) 2018-06-29 2018-06-29 号码识别方法、系统、设备及计算机可读存储介质

Country Status (1)

Country Link
CN (1) CN108932494B (zh)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2010096112A1 (en) * 2008-10-29 2010-08-26 Ohio State University Research Foundation System for modulating expression of hypothalmic brain-derived neurotrophic factor (bdnf)
US10049307B2 (en) * 2016-04-04 2018-08-14 International Business Machines Corporation Visual object recognition
CN106778737B (zh) * 2016-11-24 2019-06-18 北京文安智能技术股份有限公司 一种车牌矫正方法、装置和一种视频采集装置
CN107273897A (zh) * 2017-07-04 2017-10-20 华中科技大学 一种基于深度学习的文字识别方法
CN107566688B (zh) * 2017-08-30 2021-02-19 广州方硅信息技术有限公司 一种基于卷积神经网络的视频防抖方法、装置及图像对齐装置

Also Published As

Publication number Publication date
CN108932494A (zh) 2018-12-04

Similar Documents

Publication Publication Date Title
US10936911B2 (en) Logo detection
US10803554B2 (en) Image processing method and device
US10977523B2 (en) Methods and apparatuses for identifying object category, and electronic devices
US8750573B2 (en) Hand gesture detection
US9710698B2 (en) Method, apparatus and computer program product for human-face features extraction
WO2021068330A1 (zh) 智能图像分割及分类方法、装置及计算机可读存储介质
US8718324B2 (en) Method, apparatus and computer program product for providing object tracking using template switching and feature adaptation
WO2019041519A1 (zh) 目标跟踪装置、方法及计算机可读存储介质
CN109117846B (zh) 一种图像处理方法、装置、电子设备和计算机可读介质
CN104866805B (zh) 人脸实时跟踪的方法和装置
US20110211233A1 (en) Image processing device, image processing method and computer program
CN104952083B (zh) 一种基于显著性目标背景建模的视频显著性检测方法
CN110008997B (zh) 图像纹理相似度识别方法、装置及计算机可读存储介质
CN105550641B (zh) 基于多尺度线性差分纹理特征的年龄估计方法和系统
CN111476271B (zh) 图标识别的方法、装置、系统、计算机设备和存储介质
CN112597940B (zh) 证件图像识别方法、装置及存储介质
CN109325539B (zh) 绝缘子掉串检测方法及装置
CN103995864B (zh) 一种图像检索方法和装置
CN104202448A (zh) 一种解决移动终端摄像头拍照亮度不均的系统及其方法
CN103955713B (zh) 一种图标识别方法和装置
Huang et al. A fast HOG descriptor using lookup table and integral image
KR20210088436A (ko) 이미지 처리 방법, 장치 및 전자 기기
CN110232381B (zh) 车牌分割方法、装置、计算机设备及计算机可读存储介质
JP7014005B2 (ja) 画像処理装置及び方法、電子機器
CN112348008A (zh) 证件信息的识别方法、装置、终端设备及存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder
CP01 Change in the name or title of a patent holder

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Douyin Vision Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: Tiktok vision (Beijing) Co.,Ltd.

Address after: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee after: Tiktok vision (Beijing) Co.,Ltd.

Address before: 100041 B-0035, 2 floor, 3 building, 30 Shixing street, Shijingshan District, Beijing.

Patentee before: BEIJING BYTEDANCE NETWORK TECHNOLOGY Co.,Ltd.