CN108446709B - 象形图识别装置、象形图识别系统和象形图识别方法 - Google Patents

象形图识别装置、象形图识别系统和象形图识别方法 Download PDF

Info

Publication number
CN108446709B
CN108446709B CN201711026312.XA CN201711026312A CN108446709B CN 108446709 B CN108446709 B CN 108446709B CN 201711026312 A CN201711026312 A CN 201711026312A CN 108446709 B CN108446709 B CN 108446709B
Authority
CN
China
Prior art keywords
pictogram
image
descriptor
learning
descriptors
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711026312.XA
Other languages
English (en)
Other versions
CN108446709A (zh
Inventor
崔亢集
金承均
崔振旻
朴宰完
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hyundai Motor Co
Kia Corp
Original Assignee
Hyundai Motor Co
Kia Motors Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hyundai Motor Co, Kia Motors Corp filed Critical Hyundai Motor Co
Publication of CN108446709A publication Critical patent/CN108446709A/zh
Application granted granted Critical
Publication of CN108446709B publication Critical patent/CN108446709B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/213Feature extraction, e.g. by transforming the feature space; Summarisation; Mappings, e.g. subspace methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T5/00Image enhancement or restoration
    • G06T5/40Image enhancement or restoration by the use of histogram techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/10Segmentation; Edge detection
    • G06T7/11Region-based segmentation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/50Extraction of image or video features by performing operations within image blocks; by using histograms, e.g. histogram of oriented gradients [HoG]; by summing image-intensity values; Projection analysis
    • G06V10/507Summing image-intensity values; Histogram projection analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/1916Validation; Performance evaluation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/20Special algorithmic details
    • G06T2207/20081Training; Learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/02Recognising information on displays, dials, clocks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V2201/00Indexing scheme relating to image or video recognition or understanding
    • G06V2201/09Recognition of logos

Abstract

公开了象形图识别装置、象形图识别系统和象形图识别方法,其中象形图识别方法包括获取学习数据,获取包括象形图的图像,从图像提取至少一个区域,获取对应于至少一个区域的描述符,通过将描述符与学习数据进行比较来识别象形图,并且向用户提供对应于识别的象形图的信息。

Description

象形图识别装置、象形图识别系统和象形图识别方法
技术领域
本发明涉及象形图识别装置、象形图识别系统和象形图识别方法。
背景技术
象形图(pictogram)可以指示图像,所述图像以使得用户可以直观地识别特定对象的方式,使用符号、字母和图形中的至少一个来容易地和可视地显示。象形图已广泛用于各种目的,例如对特定对象的功能、材料或效果进行说明,提供关于特定区域的信息或与特定区域相关的外围信息以及导航服务等等。
车辆或机械机器可以包括用户界面(UI),其包括用于输入关于车辆或机械机器的各种命令的输入部分,以及用于提供关于车辆或工程机械的各种信息的输出部分。用户界面(UI)可以使用上述象形图向用户提供各种信息。例如,用户界面(UI)可以使用象形图向用户提供各种信息,例如关于能够通过输入部分执行的功能或操作的信息,关于当前车辆或机械机器的状态或操作的信息,或者关于车辆或机械机器的周边情况的信息。
在本发明的背景技术部分中公开的信息仅用于增强对本发明的一般背景的理解,并且不应被视为确认或以任何形式建议该信息形成本领域技术人员已知的现有技术。
发明内容
本发明的各个方面旨在提供一种象形图识别装置、象形图识别系统和象形图识别方法,其可以准确地识别象形图,并且可容易且快速地向用户提供关于识别的象形图的信息。
本发明的其他方面将在下面的描述中部分地阐述,并且部分地从描述中将是显而易见的,或者可以通过实践本发明来了解。
根据本发明的方面,用于识别象形图的方法可包括获取学习数据;获取包括象形图的图像;从所述图像提取至少一个区域;获取对应于所述至少一个区域的描述符;通过将所述描述符与所述学习数据进行比较来识别所述象形图;以及向用户提供对应于所述识别的象形图的信息。
从所述图像提取所述至少一个区域包括在所述图像中建立窗口,检测由所述窗口划分的区域,并且从而提取所述至少一个区域;以及移动所述窗口。
从所述图像提取所述至少一个区域可包括从所述图像中获取图像金字塔;以及从所述图像金字塔的每个区域提取至少一个区域。
获取对应于所述至少一个区域的所述描述符可包括获取关于构建所述至少一个区域的至少一个单元的方向梯度直方图(HOG);以及使用关于所述至少一个单元的方向梯度直方图(HOG)来获取关于所述至少一个单元的描述符。获取对应于所述至少一个区域的所述描述符可进一步包括通过组合关于至少一个单元的HOG(方向梯度直方图)来获取关于所述至少一个区域的描述符。
通过将所述描述符与所述学习数据进行比较来识别所述象形图可包括将所述描述符与所述学习数据进行比较;以及检测与所述描述符相同或相似的描述符。
通过将所述描述符与所述学习数据进行比较来识别所述象形图可包括将与来自多个描述符的所述学习数据基本上相同或类似的描述符分成单个组,所述多个描述符提取自所述至少一个区域;确定包含在相同组中的所述描述符是否位于所述图像内的不同的相邻位置;以及根据确定的结果确定象形图识别的成功或失败。
获取所述学习数据可包括从学习图像获取多个学习描述符;以及将多个描述符定位在超空间中,根据所述多个学习描述符的分布确定超空间划分所需的超平面,以及根据确定的超平面获取多个划分空间。
将所述多个描述符定位在所述超空间中以及根据所述多个学习描述符的分布确定超空间划分所需的所述超平面可包括基于所述多个划分空间的两个标准偏差的乘积与相应划分空间的平均值之间的距离的比率的相对大小和预定信息中的至少一个,确定配置为执行超空间划分的超平面,所述预定信息指示包含在所述多个划分空间中的学习描述符的数量是否彼此相同或类似。
通过将所述描述符与所述学习数据进行比较来识别所述象形图可包括从所述多个划分空间中检测具有所述描述符的划分空间;以及基于所述描述符和所述划分空间中包含的学习描述符之间的距离来检测学习数据。
根据本发明的方面,用于识别象形图的装置可包括图像获取部分,其被配置为获取具有所述象形图的图像;存储设备,其被配置为存储学习数据;处理器,其被配置为从所述图像提取至少一个区域,获取对应于所述至少一个区域的描述符,并且通过将所述描述符与所述学习数据进行比较来识别所述象形图;以及用户界面(UI),其被配置为向用户提供对应于所述识别的象形图的信息。
处理器可在所述图像中建立窗口,通过检测由所述窗口划分的区域来提取所述至少一个区域,并且移动所述窗口。
处理器可从所述图像获取图像金字塔,并且从所述图像金字塔的每个图像提取至少一个区域。
处理器可获取关于构建所述至少一个区域的至少一个单元的方向梯度(HOG)直方图,并且使用关于所述至少一个单元的所述HOG来获取关于所述至少一个单元的描述符。
处理器可通过组合关于至少一个单元的方向梯度(HOG)直方图来获取关于所述至少一个区域的描述符。
处理器可将所述描述符与所述学习数据进行比较,并且检测与所述描述符相同或类似的描述符。
处理器可将与来自多个描述符的所述学习数据基本上相同或类似的描述符分成至少一个组,所述多个描述符提取自所述至少一个区域,确定包含在相同组中的描述符在所述图像内是否被定位为彼此相邻,并且根据确定的结果来确定象形图识别的成功或失败。
处理器可通过从学习图像获取多个学习描述符来获取学习数据。
处理器可将所述多个学习描述符定位在超空间中,根据多个描述符的分布来确定超空间划分所需的超平面,并且根据确定的超平面获取多个划分空间。
处理器可基于所述多个划分空间的两个标准偏差的乘积与相应划分空间的平均值之间的距离的比率的相对大小和预定信息中的至少一个,确定配置为执行超空间划分的超平面,所述预定信息指示包含在所述多个划分空间中的学习描述符的数量是否彼此相同或类似。
处理器可从所述多个划分空间中检测具有所述描述符的划分空间,并且基于对应于所述至少一个区域的描述符以及包含在所述划分空间中的学习描述符之间的距离来检测学习数据。
根据本发明的方面,用于识别象形图的系统可包括服务器装置;以及终端装置,其被配置为与所述服务器装置通信,获取具有所述象形图的图像,并且向用户提供关于识别的象形图的信息,其中所述服务器装置和所述终端装置中的至少一个执行以下操作中的至少一个:用于从所述图像提取至少一个区域的操作;用于获取对应于所述至少一个区域的描述符的操作;以及用于通过将所述描述符与学习数据进行比较执行象形图识别的操作。
本发明的方法和装置具有其他特征和优点,这些特征和优点将从本文并入的附图和以下详细描述中明显并且被更详细地阐述,所述附图和以下详细描述一起用于解释本发明的某些原理。
附图说明
图1是示出根据本发明的示例性实施例的象形图识别系统的概念图。
图2是示出根据本发明的示例性实施例的象形图识别系统的方框图。
图3是示出根据本发明的示例性实施例的象形图识别方法的示例的第一流程图。
图4是示出象形图识别方法的示例的第二流程图。
图5是示出窗口的移动的概念图。
图6是示出窗口的移动的第二图示。
图7是示出窗口的移动的第三图示。
图8是示出被划分成多个单元的一个区域的视图。
图9是示出每个单元的梯度的视图。
图10是示出对应于每个单元的HOG的示例的第一图示。
图11是示出一个区域内的HOG的示例的视图。
图12是示出对应于每个单元的HOG的示例的第二图示。
图13是示出将超空间划分为多个超平面的第一示例的视图。
图14是示出将超空间划分成多个超平面的第二示例的视图。
图15是示出将超空间划分为多个超平面的第三示例的视图。
图16是示出象形图识别方法的示例的第二流程图。
图17是示出图像金字塔的示例的视图。
图18是示出第一图像上的窗口的移动的示例的概念图。
图19是示出第二图像上的窗口的移动的示例的概念图。
图20是示出从第一图像获取的HOG的示例的概念图。
图21是示出位于任一个超平面处的描述符的示例的概念图。
图22是示出用于搜索描述符的过程的概念图。
图23是示出在象形图识别装置上显示象形图的详细描述的示例的视图。
应当理解,附图不一定按比例绘制,其呈现说明本发明的基本原理的各种特征的某一程度上简化的表示。包括例如具体尺寸、取向、位置和形状的本文公开的本发明的具体设计特征将部分地由特定预期应用和使用环境来确定。
在附图中,贯穿若干附图的参考标号表示本发明的相同或等效部分。
实施方式
现在将详细参考本发明(多个发明)的各个实施例,所述实施例的示例在附图中示出并在下面进行了描述。虽然将结合示例性实施例描述本发明(多个发明),但是应当理解,本说明书并不旨在将本发明(多个发明)限于这些示例性实施例。相反,本发明(多个发明)旨在不仅涵盖示例性实施例,而且还包括各种替代、修改、等效和其他实施例,其可被包括在由随附权利要求定义的本发明的精神和范围内。
下面将参考图1和图2描述根据本发明的示例性实施例的象形图识别装置、象形图识别系统和象形图识别方法。
图1是示出根据本发明的示例性实施例的象形图识别系统的概念图,图2是示出根据本发明的示例性实施例的象形图识别系统的方框图。
参考图1,象形图识别系统1可以包括可以捕获并获得包括象形图10的图像的象形图识别装置100。
象形图10可以指代使用符号、字母和图形中的至少一个表示的图片。例如,象形图10可以附着或打印到各种设备或标志上,或者可以在各种设备或标志上被雕刻或压印。在这种情况下,象形图10可以附着或打印在由玻璃或合成树脂形成的表面上或者各种设备的照明零件的表面上。另外,象形图10可以显示在包括用于用户识别的智能电话、导航设备或电视(TV)的显示设备上。此外,可以使用被配置为被系统设计者考虑的各种方法将象形图10显示在各种设备或标志上。更详细地,象形图10可以形成在车辆9的中央面板(或中央控制台)的各种按钮的外表面上,或者可以根据需要显示在仪表板上。
可以使用上述方法将象形图10形成在车辆9的某些部分上,例如仪表板、中央面板、方向盘或导航设备上。
车辆是在道路或轨道上行进以将人、物体或动物从一个地方移动到另一个地方的机器。这样的车辆可以包括例如三轮或四轮车辆、两轮车辆,包括摩托车、电动自行车、施工设备、自行车,在铁轨上行驶的列车等。
车辆9可以包括用于通过燃烧包括汽油或柴油的化石燃料获得的热能转化成机械能以获得动力的通用车辆,或者可以包括用于获取使用电能来旋转车辆轮子所需的动力的电动车辆。
象形图识别装置100可以捕获象形图10或捕获象形图10及其周边区域以获取图像数据,并且可以从获取的图像数据识别象形图10。
例如,象形图识别装置100可以包括智能电话、蜂窝电话、平板电脑、导航设备、桌面型计算机、膝上型计算机或可穿戴设备。此外,可以使用被配置用于执行图像捕获和图像处理的各种设备中的任何一种,同样可作为象形图识别装置100。
由于象形图10包括的特征点数量较少,因此通过基于特征点的一般图像识别技术可能错误地识别象形图10。只有通过特定比例的图像才可以正确检测特征点。另外,从不同象形图获得的描述符可能彼此相同,这样可能会降低不同象形图10的辨别力。
因此,象形图识别装置100可以从包含在图像中的多个区域获取方向梯度直方图(HOG)以获取描述符,并且可以分析分布在空间中的描述符的特征,以准确地识别象形图10。下文中将给出其详细描述符。
参考图2,象形图识别装置100可以包括处理器110、存储设备130、图像获取部分(图像获取器)140和用户界面(UI)150。当需要时,象形图识别装置100可进一步包括通信部分120。
处理器110可以控制象形图识别装置100的整体操作。例如,处理器110可以使用从图像获取部分140获取的图像来生成学习数据131,并且可以将生成的学习数据131存储在存储设备130中。处理器110可以从获取自图像获取部分140的图像提取象形图10,或者可以确定关于象形图10的信息。另外,处理器110可以控制用户界面(UI)150以向用户提供关于提取的象形图10的信息。
在当前情况下,学习数据131可以包括如下所述获取的描述符。
处理器110可以通过预先设计的程序执行上述操作。在这种情况下,程序可被存储在存储设备130中。程序可以包括从单独的程序提供服务器提供的应用程序。象形图识别装置100可以通过通信部分120从程序提供服务器直接接收应用程序,或者可以接收应用程序的安装程序。
例如,处理器110可以使用中央处理单元(CPU)或微控制器单元(MCU)来实现,或者可以使用电子控制单元(ECU)来实现。
存储设备130可以被配置为临时或非临时存储操作处理器110所需的各种信息。
存储设备130可以包括主存储器设备和/或辅助存储器设备。主存储器设备可以被实现为包括随机存取存储器(RAM)或只读存储器(ROM)的半导体存储介质。例如,ROM可以包括可擦除可编程只读存储器(EPROM)、电可擦除可编程只读存储器(EEPROM)、掩模ROM(MROM)等。例如,RAM可以包括动态随机存取存储器(RAM)、静态随机存取存储器(SRAM)等。辅助存储器设备可以使用固态硬盘(SSD)来实现以使用半导体来存储信息,可以被实现为硬盘驱动器(HDD)以使用磁盘存储信息,或者可以实现为各种存储介质,例如,光盘(CD)、激光盘、磁带、磁光盘、软盘等。
根据一个实施例,存储设备130可存储学习数据131和象形图信息139。
学习数据131可以指代从象形图识别装置100和服务器装置200中的至少一个预先获取的数据,以识别象形图10。学习数据131可以与从图像提取的数据进行比较,所述图像获取自图像获取部分140。
学习数据131可以由象形图识别装置100的处理器110获取,或者可以由服务器装置200的处理器210获取。替代地,可以在象形图识别装置100的处理器110和服务器装置200的处理器210分别执行分配的操作时获取学习数据131。当由服务器装置200的处理器210最终获取学习数据131时,学习数据131可以在通过通信部分120和220从服务器装置200传输到象形图识别装置100之后,临时或非临时存储在存储设备130中。下面将给出学习数据131的详细描述。
象形图信息139可以包括与识别的象形图10相关的信息。例如,象形图信息139可以包括指示哪个操作或状态与象形图10关联的特定信息,包括特定符号、字母和/或数字。更具体地,象形图信息139可以包括指示三角形象形图10指示播放按钮的信息,或者指示当触摸或按压重放按钮时可以再现音乐或图像的其他信息。
象形图信息139可以使用符号、字母、图形、数字、静止图像(或暂停图像)、运动图像以及被配置为被其他设计者考虑的各种信息中的至少一个来实现。
象形图信息139可以包括对应于相应象形图10的多个信息。
存储在存储设备130中的象形图信息139可以由用户输入,也可以由设计者另外输入。另外,还可以从附加提供的信息提供服务器接收象形图信息139。
当处理器110从图像提取象形图10时,响应于处理器110的控制命令,可以将对应于提取的象形图10的信息传送到处理器110。可以通过用户界面(UI)150将提取的信息提供给用户。
根据另一个示例性实施例,根据需要,存储设备130可以不存储学习数据131和象形图信息139中的至少一个。在这种情况下,服务器装置200的存储设备230可以存储学习数据231和象形图信息239中的至少一个。可以通过通信部分120和220将存储在存储设备230中的学习数据231和象形图信息239中的至少一个提供给象形图识别装置100。
图像获取部分140可以接收从外部部分入射的可见光,并且可以通过将接收的可见光转换成电信号来获取图像数据。获取的图像数据可以被传送到处理器110和用户界面(UI)150中的至少一个。
根据一个实施例,图像获取部分140可以获取包括象形图10的图像数据。在这种情况下,图像数据可以不仅包括象形图10,而且还可以包括关于象形图10的周边区域的其他信息。
图像获取部分140可以根据用户操纵来捕获象形图10,或者可以根据预定设置信息从处理器110接收到控制信号时捕获象形图10,其中图像获取部分140可以获取包括象形图10的图像数据,并且可以输出获取的图像数据。
例如,图像获取部分140可以使用例如电磁波来捕获移动物体1的周边区域的图像。在这种情况下,电磁波可以包括用于获取关于移动物体1的周边区域的信息的可见光、红外光、紫外线、无线电波、X射线、伽马射线、微波或预定电磁波(例如,极低频(ELF)电磁波)。
例如,图像获取部分140可以使用包括通用照相机的图像捕获设备来实现。在这种情况下,成像捕获设备可以使用包括电荷耦合器件(CCD)或互补金属氧化物半导体(CMOS)的各种图像拾取介质来获取图像数据。
用户界面(UI)150可以从用户接收各种命令或数据,或者可以向用户可视地或可听地传输各种信息。
用户界面(UI)150可以包括显示器151和声音输出部分159中的至少一个。
显示器151可以可视地提供与象形图识别装置100的操作相关的各种信息。例如,显示器151可以显示关于由处理器110识别的象形图10的信息。例如,预定义方法可以包括弹出窗口。
显示器151可以由各种显示面板实现,例如阴极射线管(CRT)、液晶显示器(LCD)面板、发光二极管(LED)面板或有机发光二极管(OLED)面板等。
声音输出部分159可以可听见地提供与象形图识别装置100的操作相关的各种信息。例如,声音输出部分159可以输出语音或声音数据,其指示关于由处理器110识别的象形图10的信息,并且可以提供给用户语音或声音数据。
声音输出部分159可以使用预定的扬声器来实现。
通信部分120可以允许象形图识别装置100与例如服务器装置200或程序提供服务器的外部设备进行通信。
通过通信部分120,象形图识别装置100可以从服务器装置200接收学习数据231和象形图信息239中的至少一个,并且可以将由图像获取部分140获取的图像、从图像识别的象形图10、由处理器110获取的学习数据131和存储在存储设备130中的象形图信息139中的至少一个传输到服务器装置200。
例如,通信部分120可以被配置为使用有线通信网络和无线通信网络中的至少一个与外部通信部分220进行通信。这里,有线通信网络可以使用各种电缆来实现,例如,双股电缆、同轴电缆、光纤电缆或以太网电缆。无线通信网络可以使用短距离通信技术和远程通信技术中的至少一种来实现。短距离通信技术可以使用Wi-Fi、ZigBee、蓝牙、Wi-Fi直连(WFD)、蓝牙低能量(BLE)、近场通信(NFC)等实现。可以使用基于各种移动通信协议(例如3GPP、3GPP2、世界微波接入互操作性(WiMAX)等)的各种通信技术中的任一种来实现远距离通信技术。
根据一个实施例,象形图识别系统1可以进一步包括如图1和图2所示的服务器装置200。可以根据设计者选择省略服务器装置200。
服务器装置200可以包括如图2所示的处理器210、通信部分220和存储设备230。
处理器210可以控制服务器装置200的整体操作。当需要时,处理器210可以执行用于获取学习数据131和231的操作、用于识别象形图10的操作以及用于确定对应于象形图10的信息的操作中的全部或一些。处理器210可以使用中央处理单元(CPU)、微控制器单元(MCU)或电子控制单元(ECU)来实现。
通信部分220可以允许外部设备,例如象形图识别装置100和服务器装置200彼此通信。例如,通信部分220可以从象形图识别装置100接收学习数据131和象形图信息139中的至少一个,或者可以将学习数据231和象形图信息239中的至少一个传输到象形图识别装置100。
存储设备230可临时或非临时地存储操作服务器装置200中所包含的处理器210所需的各种信息。存储设备230可以使用各种存储介质中的至少一种来实现。
根据一个实施例,存储设备230可以存储学习数据231和象形图信息239中的至少一个。学习数据231和象形图信息239中的至少一个可以由象形图识别装置100的处理器110获取,或者可以由服务器装置200的处理器210获取。
根据一个实施例,服务器装置200可以使用被提供作为服务器的计算机设备来实现。
根据另一个示例性实施例,服务器装置200还可以使用被配置用于执行通信和图像处理的其他设备来实现。例如,也可以使用其中根据需要提供通信模块和电子控制单元(ECU)的车辆9来实现服务器装置200。
下面将参考图3到图23描述象形图识别方法的示例。
图3是示出根据本发明的示例性实施例的象形图识别方法的示例的第一流程图。
参考图3,根据本发明的示例性实施例的象形图识别方法可以包括用于获取学习数据的过程300、用于获取关于象形图的图像的过程400、用于使用学习数据识别象形图的过程500,以及用于显示关于识别的象形图的信息的过程600。
用于获取学习数据的过程300和用于使用学习数据识别象形图的过程500可以由象形图识别装置100的处理器110和服务器装置200的处理器210中的任一个来执行。
在该情况下,用于获取学习数据的过程300的所有过程可以由象形图识别装置100的处理器110和服务器装置200的处理器210中的任一个来执行。用于使用学习数据识别象形图的过程500的过程可以由象形图识别100的处理器110和服务器装置200的处理器210中的另一个来执行。另外,用于获取学习数据的过程300的一些过程或者用于使用学习数据识别象形图的过程500的一些过程可以由象形图识别装置100的处理器110执行,并且过程500的一些其他过程可以根据需要由服务器装置200的处理器210执行。
例如,用于获取关于象形图的图像的过程400可以由象形图识别装置100的图像获取部分140执行。
用于显示对应于识别的象形图的信息的过程600可以在从象形图识别装置100的处理器110接收到控制信号时由用户界面(UI)150执行。
下文中将描述上述过程300至600。
在用于获取学习数据的过程300中,可以获得用于从获取的图像提取象形图10的学习数据131。
图4是示出象形图识别方法的示例的第二流程图,图5是示出窗口的移动的概念图。在图5中,绘图的方向在下文中将被定义为学习图像20的方向。
参考图4和图5,首先获取至少一个学习图像20以获取学习数据(310)。至少一个学习图像20中的每个可以包括至少一个象形图21、并且一个或多个学习图像20的象形图21可以彼此不同。
学习图像20可以由象形图识别装置100的图像获取部分140执行,或者可以由单独设置在象形图识别装置100中的另一个设备执行。分离的设备可以包括被配置为获取学习图像20的计算机、照相机或包括智能电话的移动终端。
当需要时,当获取学习图像20时,可以从学习图像20进一步获取若干图像。例如,可以进一步获取关于学习图像20的图像金字塔。图像金字塔可以包括与学习图像20在比例上不同的多个图像。下文中将详细描述图像金字塔。
图6是示出窗口的移动的第二图示,并且图7是示出窗口的移动的第三图示。
当获取学习图像20时,可以从学习图像20提取至少一个区域(320)。可以通过在不同位置定义多个窗口30(30-1, 30-2, ..., 30-N)来执行至少一个区域的提取过程320。
根据一个实施例,至少一个区域的提取过程320可以根据滑动窗口方案进行。
根据滑动窗口方案,如图5到图7所示,可以将至少一个窗口30定义为与学习图像20重叠,并且至少一个区域22可以根据至少一个窗口30的分区来定义。
更详细地,如图5所示,窗口30-1可以被定义为学习图像20的一些部分(例如,左上边界),并且限定窗口30-1中包含的区域22-1可以被定义用于图像识别。
随后,如图6所示,窗口30-2可以移位到预定方向(例如,向右方向m1),并且可以针对图像识别定义对应于移位位置的区域22-2。可以根据设计者选择随机地确定窗口30-1的移动距离。例如,窗口30-2可以被移位,使得由移位窗口30-2划分的大多数区域22-2可以与由用作预移动窗口的先前窗口30-1划分的区域22-1重叠。替代地,窗口30-1也可以被移位,使得由移位窗口30-2划分的区域22-2不与由预移动窗口30-1划分的区域22-1重叠。
窗口30(30-1, 30-2, ..., 30-N)可以被顺序地移位,其中可以定义包含在学习图像20中的若干区域22(22-1, 22-2, ..., 22-N)。如图7所示,窗口30-N可以被连续移位直到到达预定目的地(例如,学习图像20的右下边界)。
窗口30的移动可以以如图7中示出的曲折图案来实现。也就是说,窗口30可以从左上边界移动到右方向,可以从右上边界移动到下方,可以移动到右方向,可以从左边界移动到下方,并且可以再次移动到右方向,其中窗口30可以通过重复上述移动动作而移动到目的地。
根据另一个示例性实施例,窗口30可以在从左边界到右边界的范围内移动到右方向,并且可以在从位于左边界正下方的边界到位于右边界正下方的另一边界的范围内移动到右方向,其中窗口30可以通过重复上述移动动作而移动到目的地。
此外,窗口30可以以被配置为由设计者考虑的各种方式移动。
当窗口30(30-1, 30-2, ..., 30-N)获得若干区域22(22-1, 22-2, ..., 22-N)时,可以获取每个区域22(22-1, 22-2, ..., 22-N)的方向梯度直方图(HOG)(330),其中可以获取描述符(340)。
当定义任一个区域22(22-1, 22-2, ..., 22-N)时,可以在定义任一个区域22(22-1, 22-2, ..., 22-N)时执行HOG获取过程330和描述符获取过程340,或者可以在定义任一个区域22(22-1, 22-2, ..., 22-N)之后经过预定时间后执行HOG获取过程330和描述符获取过程340。替代地,还可以在定义所有区域22(22-1, 22-2, ..., 22-N)之后执行HOG获取过程330和描述符获取过程340。
图8是示出被划分为多个单元的一个区域的图示。图9是示出每个单元的梯度的视图。图10是示出对应于每个单元的HOG的示例的第一图示,并且图11是示出一个区域内的HOG的示例的视图。在图10和图11中,X轴可以指代图像梯度的定向(或取向)分量,并且Y轴可以指代对应于图像梯度的定向分量的值。
参考图8,由窗口30限定的区域22可以包括多个单元23(23-11, 23-12, ..., 23-1n, ..., 23-21, ..., 23-m1, ..., 23-mn),其通过将区域22划分为多个较小单元来限定。
例如,多个单元23(23-11, 23-12, ..., 23-1n, ..., 23-21, ..., 23-m1,..., 23-mn)可以被配置成矩阵形状(例如,(m×n)矩阵,其中“m”或“n”是大于“0”的自然数)。在这种情况下,“m”和“n”可以彼此相同或可以彼此不同。根据一个实施例,“m”或“n”可以被设置为4。换句话说,由窗口30限定的区域22可以包括以(4×4)矩阵形状布置的多个单元23(23-11, 23-12, ..., 23-1n, ..., 23-21, ..., 23-m1, ..., 23-mn)。
单元23(23-11, 23-12, ..., 23-1n, ..., 23-21, ..., 23-m1, ..., 23-mn)中的每个可以包括如图9所示的至少一个像素24(24-11, ..., 24-1j, ..., 24-i1, ...,24-ij)。像素24(24-11, ..., 24-1j, ..., 24-i1, ..., 24-ij)可以指代配置为形成图像的最小单位。像素24(24-11, ..., 24-1j, ..., 24-i1, ..., 24-ij)可以以(i×j)矩阵形状(其中“i”或“j”是大于“0”的自然数)配置。在这种情况下,“i”和“j”可以彼此相同也可以彼此不同。根据一个实施例,例如,“i”可以被设置为4,并且“j”可以被设置为4。换句话说,多个单元23(23-11, 23-12, ..., 23-1n, ..., 23-21, ..., 23-m1, ..., 23-mn)可以包括以(4×4)矩阵形状布置的多个像素24(24-11, ..., 24-1j, ..., 24-i1, ...,24-ij)。
图像数据可以存在于每个像素24(24-11, ..., 24-1j, ..., 24-i1, ..., 24-ij)中,并且每个像素24(24-11, ..., 24-1j, ..., 24-i1, ..., 24-ij)可以包括如图9所示的图像梯度。
图像梯度可以指代图像中包含的亮度或颜色的定向(或取向)变化,并且可以由矢量分量表示。图像梯度可以包括每个像素24(24-11, ..., 24-1j, ..., 24-i1, ..., 24-ij)中包含的亮度或颜色的定向变化。
从相应像素24(24-11, ..., 24-1j, ..., 24-i1, ..., 24-ij)获取的图像梯度可以彼此不同或者可以彼此相同。另外,多个像素24(24-11, ..., 24-1j, ..., 24-i1,..., 24-ij)中的一些像素的图像梯度可以彼此相同,或者一些其他像素的图像梯度可以与上述某些像素的图像梯度不同。
根据一个实施例,可以以8种方式定义图像梯度,如图10所示。例如,图像梯度可以包括右定向分量d1、右上定向分量d2、上定向分量d3、左上定向分量d4、左定向分量d5、左下定向分量d6、下定向分量d7和右下定向分量d8。
象形图识别装置的处理器110和服务器装置200的另一个处理器210中的至少一个(以下称为处理器110和210)可以获取每个像素24(24-11, ..., 24-1j, ..., 24-i1,..., 24-ij)的图像梯度,其被配置为形成任一个单元23(23-11, 23-12, ..., 23-1n,..., 23-21, …, 23-m1, ..., 23-mn),并且可以使用获取的图像梯度来获取关于特定单元23(23-11, 23-12, ..., 23-1n, …, 23-21, ..., 23-m1, ..., 23-mn)的至少一个描述符。
根据一个实施例,如图10所示,处理器110和210可以获取对应于任一个单元23(23-11, 23-12, ..., 23-1n, ..., 23-21, ..., 23-m1, ..., 23-mn)的HOG 50,并且因此可以获取对应于任一个单元23(23-11, 23-12, ..., 23-1n, ..., 23-21, ..., 23-m1, ..., 23-mn)的至少一个描述符。
HOG 50不仅可以包括从相应像素24(24-11, ..., 24-1j, ..., 24-i1, ...,24-ij)获取的图像梯度的相应定向分量d1-d8,还包括对应于相应定向分量d1-d8的多个值。例如,如图10所示,HOG 50可以包括8个定向分量(d1,d2,d3,d4,d5,d6,d7,d8)以及分别对应于8个定向分量d1-d8的多个值。
处理器110和210可以累积任一个所选单元23(23-11, 23-12, ..., 23-1n, ...,23-21, ..., 23-m1, ..., 23-mn)的相应像素24(24-11, ..., 24-1j, ..., 24-i1,..., 24-ij)的图像梯度,并且因此可以针对任一个单元23(23-11, 23-12, ..., 23-1n,..., 23-21, ..., 23-m1, ..., 23-mn)生成HOG 50。在该情况下,可以响应于从任一个单元23(23-11, 23-12, ..., 23-1n, ..., 23-21, ..., 23-m1, ..., 23-mn)检测到的图像梯度的频率或大小来定义对应于HOG 50的相应分量d1-d8的值。例如,分配给HOG 50的相应分量d1-d8的值可以与图像梯度的频率或大小成比例地定义。
例如,从任一个单元23(23-11, 23-12, ..., 23-1n, ..., 23-21, ..., 23-m1,..., 23-mn)检测到的多个图像梯度中,可以将相对高的值分配给并记录在对应于以相对高的频率检测的图像梯度的定向分量(例如,上定向分量d3)中,并且可以将相对低的值分配给并记录在对应于以相对低的频率检测的图像梯度的方向(例如,左上定向分量d4或下定向分量d7)中。在这种情况下,如上所述,记录在各个方向d3、d4和d7中的值可以与检测到的频率成比例。
从相对高的值的记录方向中(即,从多个图像梯度中),对应于相对附加检测到的图像梯度的方向可以被定义为任一个单元23的代表方向。例如,如图10所示,上方向d3可以被定义为任一个单元23的代表方向。
处理器110和210可以获取对应于构成任一个区域22的每个单元23(23:23-11,23-12, ..., 23-1n, ..., 23-21, ..., 23-m1, ..., 23-mn)的HOG 50,并且可以通过组合获取的HOG 50来获取任一个区域22的HOG 51,如图11所示。
假设每个区域22包括形成为(4×4)矩阵形状的单元23,并且建立了8个定向分量,一个区域22的HOG 51可以包括总共128个分量(=(4×4)个单元×8个定向分量)d1-d128。
参考图10和图11,当获取HOG 50和HOG 51时,可以将HOG 50和HOG 51的每个定向分量确定为描述符。
因此,假设以与上述相同的方式定义总共8个定向分量,可以从任一个单元23(23-11, 23-12, ..., 23-1n, ..., 23-21, ..., 23-m1, ..., 23-mn)获取8个描述符。另外,假设定义了8个定向分量,并且任一个区域22包括以(4×4)矩阵形状形成的单元23,可以获取任一个区域22的128个描述符。
如上所述,获取的描述符可以被定义为学习数据131和231,并且可以被存储在存储设备130和230中(360)。
参考图4,当获取描述符时,处理器110和210可以针对每个获取的单元23归一化描述符(350)。
例如,如上所述获取的HOG 50和HOG 51被归一化,使得描述符可以被归一化。
例如,处理器110和210可以确定对应于代表方向(例如,图10的上方向d3)的值与对应于其他方向(d1、d2和d4至d8)的值的比率,可以将对应于代表方向的值定义为1的值,可以基于确定的比率成比例地减小对应于其他方向(d1、d2和d4至d8)的值,这里可如图10所示获取归一化的HOG。
另外,处理器110和210可以基于任一个单元23的代表方向来执行HOG 50和HOG 51的注册,并且可以基于代表方向归一化HOG 50和HOG 51。
如上所述,假设获取了用于相应单元23(23-11, 23-12, ..., 23-1n, ..., 23-21, ..., 23-ml, …, 23-mn)的HOG 50和HOG 51,从相应单元23(23-11, 23-12, ...,23-1n, ..., 23-21, ..., 23-ml, …, 23-mn)获取的图像梯度可受到外部噪声的影响,例如,图像捕获设备的错误或外部照明的变化。上述影响可对获取的HOG 50和HOG 51造成未预期的错误。HOG 50和HOG 51的归一化可以减少这种错误。
可以根据设计者的随机选择省略HOG 50和HOG 51的归一化过程350。
归一化描述符可以被定义为学习数据131和231,并且可以被存储在存储设备130和230中(360)。
图12是示出对应于每个单元的HOG的示例的第二图示。在图12中,X轴可以指代图像梯度的定向(或取向)分量,并且Y轴可以指代对应于图像梯度的定向分量的值。
象形图10可以被实现为较少数量的颜色以改善可视性。例如,象形图10可以用两种颜色来实现。
根据一个实施例,处理器110和210可使用象形图10的二进制特征获取HOG 50和HOG 51,其中还可以最小化上述外部噪声。
更详细地,处理器110和210可以针对第一获取的学习图像20执行图像二值化,并且可以基于二值化学习图像执行相同的处理,其中可以如图12所示获取HOG 52。
使用二值化学习图像获取的HOG 52可以无需改变而使用学习图像20,其中与HOG50和HOG 51相比,对应于代表方向(例如,图12的上方向d3)的值被相对增强,从而导致获取HOG 52。因此,从HOG 52获取的代表方向针对外部噪声可以是相对更鲁棒的,并且可以从HOG 52提取合适的代表方向。
使用二值化学习图像获取的HOG 52也可以如上所述被归一化。对应于HOG 52的代表方向的值可以相对高于使用学习图像20获取的对应于HOG 50和HOG 51的代表方向的值,其中对应于代表方向的值与对应于另一个方向的另一值之间的差异可以被相对更大地增加。因此,从使用二值化学习图像获取和归一化的HOG 52可以看出,相应定向分量之间的差异可以更清楚地显现。
图13是示出将超空间划分为多个超平面的第一示例的图示,并且图14是示出将超空间划分成多个超平面的第二示例的图示。图15是示出将超空间划分为多个超平面的第三示例的图示。图13到图15是出于方便描述符的目的示出二维(2D)数据的分布的概念图。在图13到图15中,假设数据由2D矢量表示,X轴和Y轴可以分别指示2D矢量的矢量值。在图13到图15中,每个点可以指代描述符。
根据一个实施例,当获取描述符(340)时或归一化描述符(350)之后,处理器110和210可执行空间分析(370)。
假设通过将从象形图识别过程500获取的描述符与从过程300获取的所有描述符进行比较来识别象形图10,可能会不可避免地消耗长时间段以识别象形图10,其中实时识别象形图10可能是不可能的。
处理器110和210可进一步执行空间分析以减少象形图10的识别时间。
处理器110和210可以控制获取的描述符以定位在相应多维的超空间处,并且可以定义至少一个超平面,所述至少一个超平面被配置为根据多个描述符的分布特征执行超空间划分,如图13到图15所示,其中可以执行空间划分过程。
例如,假设定义了单个区域22的128个描述符,128个描述符被布置在128维(128D)超空间中,并且确认了指示128个描述符的布置方法的信息,其中可以确定至少一个超平面。
根据一个实施例,处理器110和210可以确定被配置用于划分超空间的超平面,以防止在象形图10的识别过程500中发生错误识别。
例如,假设若干个描述符分布在超空间中,如图13所示,当使用第一行L10将一个空间划分成两个空间G11和G12时,若干个描述符的分布方向类似于第一行L10,其中在学习过程300期间存在于第一空间G11中的描述符可能由于在图像获取部分140中生成的噪声,在识别过程500期间被误认为存在于第二空间G12中。
另一方面,如图14所示,假设使用第二行L20将一个空间划分成两个空间G21和G22,若干个描述符和第一行L20的分布方向可不彼此类似,并且可以根据需要彼此几乎彼此正交,从而导致错误识别象形图10的概率的降低。
因此,处理器110和210可以根据若干个描述符的分布特征定义和建立超平面,其中可最小化基于从图像获取部分140生成的噪声的识别率的降低,并且可以定义由超空间划分获取的若干个划分空间G21和G22。
更详细地,处理器110和210可以被设计为根据是否满足以下三个条件中的至少一个来定义或建立超平面:
第一条件:当定义超平面时,需要被配置用于定位于另一区域的数据片的数量较少。
第二条件:由超平面划分的相应空间G21和G22中包含的描述符的数量可以彼此相同或者可以彼此类似。
第三条件:相应空间G21和G22的两个标准偏差的乘积与相应空间G21和G22的平均值之间的距离的比率可相对高。也就是说,上述比率可以满足等式1:
[等式1]
(两个空间的平均值之间的距离)/(两个空间的标准偏差的乘积)>Cref
在等式1中,空间G21和G22的平均值可以指代属于相应空间G21和G22的描述符的平均值,空间G21和G22的标准偏差可以被确定为属于相应空间G21和G22的描述符的标准偏差。Cref可以指代阈值,并且可以由设计者任意定义。
当处理器110和210使用上述第一至第三条件执行空间划分时,可以适当地划分超空间,其中在识别过程500中错误识别象形图10的概率被相对降低。
参考图14,假设超空间被划分为若干个空间G21和G22,则处理器110和210为空间G21和G22中的至少一个定义附加的超平面,其中可以进一步划分空间G21和G22中的至少一个。
如上所述,可以连续且重复执行划分过程。因此,如图15所示,超空间可以被划分为多个空间G31、G32、G33、G34、G35和G36。空间G31、G32、G33、G34、G35和G36可以在由多个区段(即,超平面L21、L22、L23和L24)划分之后被获取。根据划分过程的重复,超空间可以具有树结构。
根据一个实施例,可以重复划分过程,直到包含在空间G31、G32、G33、G34、G35和G36中的至少一个空间中的描述符的数量小于预定值,或也可以重复直到包含在每个空间G31、G32、G33、G34、G35或G36中的描述符的数量小于预定值。
用于超空间划分的超平面L20、L21、L22、L23和L24可以存储在象形图识别装置100的存储设备130和服务器装置200的存储设备230中的至少一个中。当识别象形图10时,可通过处理器110和210调用超平面L20、L21、L22、L23和L24,并然后使用它们。
根据空间分析过程370,每个描述符的维度可以被相对降低。例如,128D描述符的维度可小于128。
根据一个实施例,处理器110和210还可以使用支持向量机(SVM)来执行空间划分过程。在使用SVM的情况下,以相对慢的速度执行学习数据的获取过程300。当添加要学习的象形图时,可以重新学习所有描述符,并且可需要大量的学习数据片。
可以根据需要省略空间分析过程370。在如上所述获取学习数据131和231之后,象形图识别装置100可以根据用户操纵或预定义设置获取包括象形图10的图像数据,如图3所示(400)。
当获取包括象形图10的图像数据时,执行图像数据的各种处理以识别象形图10,并且可以使用图像处理结果和获取的学习数据来进行象形图10的识别(500)。
图16是示出象形图识别方法的示例的第二流程图,图17是示出图像金字塔的示例的视图。
参考图4,当象形图识别方法开始操作时,图像获取部分140可以根据用户操纵或预定义设置来获取包括象形图10的图像数据(400)。
参考图16,处理器110和210可以响应于图像数据的获取而生成获取的图像的图像金字塔(510)。
参考图17,图像金字塔可以指代通过改变单个参考图像40的比例而获取的至少一个图像41(41-1、41-2、41-3)。换句话说,根据创建图像金字塔的结果,可以获取单个图像40以及与单个图像40在比例上不同的至少一个图像41(41-1、41-2、41-3)。
处理器110和210可以为多个图像40(41-1、41-2、41-3)中的每个提取至少一个区域(511)。在这种情况下,可以从多个图像40(41-1、41-2、41-3)中顺序地提取至少一个区域。替代地,可以从多个图像40(41-1、41-2、41-3)同时提取至少一个区域,并且还可以从多个图像40(41-1、41-2、41-3)替代地提取至少一个区域。
如上所述,处理器110和210可以使用滑动窗口方案从多个图像40(41-1、41-2、41-3)提取至少一个区域。
图18是示出第一图像上的窗口的移动的示例的概念图,并且图19是示出第二图像上的窗口的移动的示例的概念图。
参考图18和图19,处理器110和210可以在每个图像40(41-1、41-2、41-3)中定义相同大小的窗口50,并且可以根据预定信息移动定义的窗口50,其中处理器110和210可以从多个图像40(41-1、41-2、41-3)中顺序地提取至少一个区域42。
在这种情况下,多个图像40(41-1、41-2、41-3)可以具有不同的比例。作为结果,假设相同大小的窗口应用于多个图像40(41-1、41-2、41-3),包含在从多个图像40(41-1、41-2、41-3)中检测到的区域中的数据片可以彼此不同。
例如,如图18所示,当将第一窗口51应用于具有最小比例的第一图像41-1时,在获取的区域42-1中可存在相对大量的数据。
另外,如图 19所示,当在大小和形状上与第一窗口51相同的第二窗口52被应用于具有最大比例的第二图像41-3时,包含在获取的区域42-2中的数据在数量上可以相对小于从第一图像41-1获取的其他数据。
假设如上所述通过将滑动窗口方案应用于图像金字塔来获取区域,则检测到的数据片彼此不同,其中也可以形成不同的HOG。作为结果,可以检测到未以特定比例检测到的其他特征。例如,假设在参考图像40的左上端部存在曲线,则可以从第一图像41-1的区域42-1获取现有曲线的梯度。然而,仅可以从第二图像41-3的区域42-2获取构成曲线的一些部分的直线的梯度。因此,当使用图像金字塔形成具有与一个参考图像40关联的具有不同比例的若干个图像41之后,当通过检测每个区域40和41的区域来获取图像数据时,可以更精确地检测存在于参考图像40中的对象(例如,直方图190)。
图20是示出从第一图像获取的HOG的示例的概念图。
当从相应图像40(41-1、41-2、41-3)检测到至少一个区域42-1或42-3时,处理器110和210可以获取构成至少一个区域42-1或42-3的至少一个单元的HOG 55,如图20所示(512)。
HOG 55的获取过程512可以与学习数据获取过程300中的HOG 50、HOG 51和HOG 52的获取过程330相同,或者可以根据需要进行部分修改和执行。
可当根据设计者选择从任一个图像40或41获取任一个区域42-1或42-3时,执行HOG 55的获取过程512,可以在从任一个图像40或41获取若干个区域之后执行HOG 55的获取过程512,或者可以在从所有图像40和41获取若干个区域之后执行HOG 55的获取过程512。
当获取HOG 55时,可以获取关联的描述符(513)。
从任一个单元或任一个区域获取的描述符的数量(即,描述符的维度)可以与从学习数据获取过程300中的任一个单元或任一个区域获取的描述符的数量相同。例如,可以从任一个单元获取8个描述符。例如,可以从任一个区域获取128个描述符。
根据一个实施例,可以如上所述归一化描述符(514)。在该情况下,可以将对应于从多个图像梯度更加相对检测到的附加图像梯度的方向定义为代表方向,所述多个图像梯度提取自任一个单元,并且可以使用定义的代表方向来执行描述符的归一化。
可以根据需要省略描述符的归一化514。
图21是示出位于任一个超平面处的描述符的示例的概念图。
参考图21,处理器110和210可以从存储在象形图识别装置100的存储设备130和服务器装置200的存储设备230中的至少一个中的划分空间G31、G32、G33、G34、G35和G36,检测如上所述获取的或者包括附加归一化的描述符的划分空间G36(520)。
在这种情况下,处理器110和210可以调用用于超空间划分的超平面L20、L21、L22、L23和L24,并且可以使用超平面L20、L21、L22、L23和L24获取具有描述符的划分空间G36。例如,处理器110和210可以将超平面L20、L21、L22、L23和L24与描述符进行比较,并且可以基于比较结果来确定哪个划分空间G36包括描述符。
可以根据需要省略具有描述符85的划分空间G36的检测过程520。
当检测到具有描述符的划分空间G36时,处理器110和210可以获取包含在检测到的划分空间G36中的至少一个学习数据131(132、133、134、135),并且可以将获取的学习数据131(132、133、134、135)与描述符进行比较(522)。
根据一个实施例,处理器110和210不仅可以确定划分空间G36中包含的至少一个学习数据,还可以确定描述符之间的距离,并且可以检测具有最短确定距离的一个学习数据。在这种情况下,处理器110和210还可以检测到其中与描述符的距离短于预定阈值的所有学习数据。
图22是示出用于搜索描述符的过程的概念图。
参考图22,当没有检测到具有描述符的划分空间G36时,处理器110和210还可以将从象形图识别过程500获取的HOG 55与存储为学习数据131的至少一个HOG 132至HOG 135进行比较,从而将学习数据与描述符进行比较。
从被存储作为学习数据131的HOG 132至HOG 135中,处理器110和210可以检测与从象形图识别过程500获取的HOG 55相同或类似的HOG 132至HOG 135,并且可以存储检测结果。
当检测到学习数据时,可以获取对应于检测到的学习数据的象形图,其中可以获取对应于图像的象形图10的象形图。因此,处理器110和210可以识别包含在图像中的象形图10。
根据一个实施例,当如上所述检测学习数据时,处理器110和210可以执行具有相同检测结果的描述符的分组(522)。
处理器110和210可以从与多个单元相关的多个描述符中执行具有相同学习结果的描述符的分组。例如,处理器110和210可以执行与检测到的学习相同或类似的描述符的分组。
在这种情况下,可以将从不同区域42-1和42-3获取的描述符同时分组。另外,从不同图像40(41-1、41-2、41-3)获取的描述符也可以被同时分组。换句话说,可以将对应于相应单元的描述符彼此进行比较,所述相应单元被配置为构成包含在相应区域40(41-1、41-2、41-3)中的相应区域42-1和42-3,并且可以根据比较结果将具有相同图像的描述符组合为一个组。
随后,处理器110和210可以确定包含在相应组中的描述符在图像内是否彼此相邻(523)。在这种情况下,处理器110和210可以确定包含在相应组中的描述符在相同图像40(41-1、41-2、41-3)内是否彼此相邻。
当包含在相应组中的描述符彼此相邻时(在523中为“是”),确定象形图10的成功识别(524)。
当包含在相应组中的描述符彼此不相邻时(523中为“否”),象形图识别装置100可以在处理器110和210的控制下通知用户发生错误(540)。例如,象形图识别装置100可以通过用户界面(UI)150的显示器151显示指示存在或不存在错误的信息。
当检测到这样的错误时,象形图识别装置100可以根据用户操纵或预定义设置重复执行象形图10的识别过程510至523(在541中为“是”),或者可以完成象形图10的识别过程(541中的“否”)。
当完成包含在图像数据中的象形图10的识别时,可以显示对应于识别的象形图的信息,如图3所示(600)。
图23是示出在象形图识别装置上显示象形图的详细描述的示例的视图。
更详细地,如图16所示,当完成象形图10的识别时,象形图识别装置100的处理器110或服务器装置200的处理器210可以读取存储在存储设备130和230中的象形图信息139和239,可以检测对应于象形图10的象形图,并且可以检测和获取对应于检测到的象形图的信息(610)。获取的信息可以包括对应于识别的象形图10的信息。
当获取对应于象形图10的信息时,象形图识别装置100的用户界面150(UI)可以向用户提供关于象形图10的信息。用户界面(UI)150可以可视地和/或可听见地提供关于象形图10的信息。
例如,如图23所示,象形图识别装置100的显示器151可以根据识别结果显示屏幕图像152。根据识别结果的屏幕图像152可以包括象形图153以及象形图153的详细描述154。象形图153以及象形图153的详细描述154可以显示在屏幕图像152的全部或一些区域上。
显示器151还可以显示多个象形图153以及关于多个象形图153的多个描述部分154。
根据一个实施例,显示器151还可以在单个屏幕图像152上显示多个象形图153以及关于多个象形图153的多个描述部分154。根据另一个示例性实施例,显示器151可以在屏幕图像152上顺序地显示多个象形图153以及关于多个象形图153的多个描述部分。在这种情况下,显示器151可以根据用户操纵或预定义设置顺序地显示关于多个象形图153的多个描述部分154。
从上述说明显然可知,根据本发明的实施例的象形图识别装置、象形图识别系统和象形图识别方法可以更正确地识别在车辆或其他机械机器的仪表板等上打印或显示的象形图,其中用户可以方便地、容易地并且快速地获取关于象形图的信息。
即使当添加象形图或特定象形图的含义被改变时,根据本发明的实施例的象形图识别装置、象形图识别系统和象形图识别方法可以快速地更新关于添加的象形图的信息或关于具有改变的含义的特定象形图的信息,并且可以向用户适当地提供更新的信息。
根据本发明的实施例的象形图识别装置、象形图识别系统和象形图识别方法可以使用终端设备容易且快速地获取打印或显示在车辆或机械机器上的象形图的信息,其中减少与象形图相关的纸张手册的必要性。
根据本发明的实施例的象形图识别装置、象形图识别系统和象形图识别方法可以允许用户识别在车辆的仪表板上显示的象形图的含义,而无需搜纸张手册,其中用户可以容易且方便地管理车辆。
为了便于所附权利要求中的解释和准确定义,术语“上面”、“下面”、“内部”、“外部”、“上”、“下”、“向上”、“向下”、“前面”、“后面”、“背面”、“之内”、“之外”、“向内”、“向外”、“内部”、“外部”、“向前”和“向后”用于参考附图中显示的这些特征的位置描述示例性实施例的特征。
已经出于说明和描述的目的呈现了本发明的具体示例性实施例的前述描述。它们并不旨在详尽或将本发明限制于所公开的精确形式,并且显然地,根据上述教导,许多修改和变化是可能的。选择和描述示例性实施例以解释本发明的某些原理及它们的实际应用,以使本领域其他技术人员能够制造和利用本发明的各种示例性实施例,以及其各种替代和修改。意图是本发明的范围由所附权利要求及其等同物限定。

Claims (17)

1.一种用于识别象形图的方法,包括以下步骤:
通过象形图识别装置或服务器装置获取学习数据;
通过所述象形图识别装置获取包括象形图的图像;
通过所述象形图识别装置或服务器装置从所述图像提取至少一个区域;
通过所述象形图识别装置或所述服务器装置获取对应于所述至少一个区域的描述符;
通过所述象形图识别装置或所述服务器装置通过将所述描述符与所述学习数据进行比较来识别所述象形图;以及
通过所述象形图识别装置向用户提供对应于识别的象形图的信息,
其中获取所述学习数据包括:
从学习图像获取多个学习描述符;以及
将所述多个学习描述符定位在超空间中,根据所述多个学习描述符的分布确定超空间划分所需的超平面,以及根据确定的超平面获取多个划分空间,并且
其中将所述多个学习描述符定位在超空间中以及根据所述多个学习描述符的分布确定超空间划分所需的超平面包括:
基于所述多个划分空间的两个标准偏差的乘积与相应划分空间的平均值之间的距离的比率的相对大小和预定信息中的至少一个,确定配置为执行超空间划分的超平面,所述预定信息指示包含在所述多个划分空间中的学习描述符的数量是否彼此相同或相似。
2. 根据权利要求1所述的用于识别象形图的方法,其中从所述图像提取所述至少一个区域包括:
在所述图像中建立窗口,检测由所述窗口划分的区域,并且从而提取所述至少一个区域;以及
移动所述窗口。
3. 根据权利要求1所述的用于识别象形图的方法,其中从所述图像提取所述至少一个区域包括:
从所述图像中获取图像金字塔;以及
从所述图像金字塔的每个区域提取至少一个区域。
4. 根据权利要求1所述的用于识别象形图的方法,其中获取对应于所述至少一个区域的所述描述符包括:
获取关于构建所述至少一个区域的至少一个单元的方向梯度直方图;以及
使用关于所述至少一个单元的方向梯度直方图来获取关于所述至少一个单元的描述符。
5.根据权利要求4所述的用于识别象形图的方法,其中获取对应于所述至少一个区域的所述描述符进一步包括:
通过组合关于至少一个单元的方向梯度直方图来获取关于所述至少一个区域的描述符。
6. 根据权利要求1所述的用于识别象形图的方法,其中通过将所述描述符与所述学习数据进行比较来识别所述象形图包括:
将所述描述符与所述学习数据进行比较;以及
检测与所述描述符相同或相似的描述符。
7.根据权利要求6所述的用于识别象形图的方法,其中通过将所述描述符与所述学习数据进行比较来识别所述象形图包括:
将与来自提取自所述至少一个区域的多个描述符的学习数据相同或相似的描述符分成单个组;
确定包含在相同组中的描述符是否位于所述图像内的不同的相邻位置;以及
根据确定的结果确定象形图识别的成功或失败。
8. 根据权利要求1所述的用于识别象形图的方法,其中通过将所述描述符与所述学习数据进行比较来识别所述象形图包括:
从所述多个划分空间中检测具有所述描述符的划分空间;以及
基于所述描述符和所述划分空间中包含的学习描述符之间的距离来检测学习数据。
9.一种用于识别象形图的装置,包括:
图像获取部分,其被配置为获取具有象形图的图像;
存储设备,其被配置为存储学习数据;
处理器,其被配置为从所述图像提取至少一个区域,获取对应于所述至少一个区域的描述符,并且通过将所述描述符与所述学习数据进行比较来识别所述象形图;以及
用户界面,其被配置为向用户提供对应于识别的象形图的信息,
其中所述处理器通过从学习图像获取多个学习描述符来获取学习数据,
其中所述处理器将所述多个学习描述符定位在超空间中,被配置为根据所述多个学习描述符的分布来确定超空间划分所需的超平面,并且根据确定的超平面获取多个划分空间,并且
其中所述处理器被配置为:基于所述多个划分空间的两个标准偏差的乘积与相应划分空间的平均值之间的距离的比率的相对大小和预定信息中的至少一个,确定配置为执行超空间划分的超平面,所述预定信息指示包含在所述多个划分空间中的学习描述符的数量是否彼此相同或相似。
10.根据权利要求9所述的用于识别象形图的装置,其中所述处理器在所述图像中建立窗口,所述处理器被配置为通过检测由所述窗口划分的区域来提取所述至少一个区域,并且所述处理器移动所述窗口。
11.根据权利要求9所述的用于识别象形图的装置,其中所述处理器从所述图像获取图像金字塔,并且所述处理器被配置为从所述图像金字塔的每个图像提取至少一个区域。
12.根据权利要求9所述的用于识别象形图的装置,其中所述处理器获取关于构建所述至少一个区域的至少一个单元的方向梯度直方图,并且使用关于所述至少一个单元的方向梯度直方图来获取关于所述至少一个单元的描述符。
13.根据权利要求12所述的用于识别象形图的装置,其中所述处理器通过组合关于至少一个单元的方向梯度直方图来获取关于所述至少一个区域的描述符。
14.根据权利要求9所述的用于识别象形图的装置,其中所述处理器被配置为将所述描述符与所述学习数据进行比较,并且被配置为检测与所述描述符相同或相似的描述符。
15.根据权利要求14所述的用于识别象形图的装置,其中所述处理器将与来自提取自所述至少一个区域多个描述符的学习数据相同或相似的描述符分成至少一个组,被配置为确定包含在相同组中的描述符在所述图像内是否被定位为彼此相邻,并且被配置为根据确定的结果来确定象形图识别的成功或失败。
16.根据权利要求9所述的用于识别象形图的装置,其中所述处理器被配置为从所述多个划分空间中检测具有所述描述符的划分空间,并且被配置为基于对应于所述至少一个区域的描述符以及包含在所述划分空间中的学习描述符之间的距离来检测学习数据。
17. 一种用于识别象形图的系统,包括:
服务器装置;以及
终端装置,其被配置为与所述服务器装置通信,获取具有象形图的图像,并且向用户提供关于识别的象形图的信息,
其中所述服务器装置和所述终端装置中的至少一个执行以下操作:用于获取学习数据的操作;用于从所述图像提取至少一个区域的操作;用于获取对应于所述至少一个区域的描述符的操作;以及用于通过将所述描述符与学习数据进行比较执行象形图识别的操作,
其中用于获取学习数据的操作包括:
从学习图像获取多个学习描述符;以及
将所述多个学习描述符定位在超空间中,根据所述多个学习描述符的分布确定超空间划分所需的超平面,以及根据确定的超平面获取多个划分空间,并且
其中将所述多个学习描述符定位在超空间中以及根据所述多个学习描述符的分布确定超空间划分所需的超平面包括:
基于所述多个划分空间的两个标准偏差的乘积与相应划分空间的平均值之间的距离的比率的相对大小和预定信息中的至少一个,确定配置为执行超空间划分的超平面,所述预定信息指示包含在所述多个划分空间中的学习描述符的数量是否彼此相同或相似。
CN201711026312.XA 2017-02-16 2017-10-27 象形图识别装置、象形图识别系统和象形图识别方法 Active CN108446709B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0020978 2017-02-16
KR1020170020978A KR102257226B1 (ko) 2017-02-16 2017-02-16 픽토그램 인식 장치, 픽토그램 인식 시스템 및 픽토그램 인식 방법

Publications (2)

Publication Number Publication Date
CN108446709A CN108446709A (zh) 2018-08-24
CN108446709B true CN108446709B (zh) 2023-06-02

Family

ID=62982737

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711026312.XA Active CN108446709B (zh) 2017-02-16 2017-10-27 象形图识别装置、象形图识别系统和象形图识别方法

Country Status (4)

Country Link
US (1) US10521690B2 (zh)
KR (1) KR102257226B1 (zh)
CN (1) CN108446709B (zh)
DE (1) DE102017219346A1 (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102283327B1 (ko) * 2018-12-18 2021-07-29 경희대학교 산학협력단 모바일 증강현실 환경에서 객체의 특징을 추출하는 방법, 장치, 시스템 및 컴퓨터 프로그램

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1704958A (zh) * 2004-06-01 2005-12-07 日本电气株式会社 信息传输系统和信息传输方法
CN102136064A (zh) * 2011-03-24 2011-07-27 成都四方信息技术有限公司 一种图像文字识别系统
CN102800080A (zh) * 2011-05-23 2012-11-28 株式会社摩如富 图像识别装置以及图像识别方法
CN102844771A (zh) * 2009-11-19 2012-12-26 诺基亚公司 用旋转不变特征描述符进行跟踪和识别的方法和设备

Family Cites Families (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
FR2947656B1 (fr) * 2009-07-06 2016-05-27 Valeo Vision Procede de detection d'un obstacle pour vehicule automobile
KR20130080743A (ko) * 2012-01-05 2013-07-15 주식회사 인프라웨어 특징점 집합 비교를 이용한 객체 영역 검색 방법
KR101899977B1 (ko) * 2012-07-10 2018-09-19 엘지전자 주식회사 이동 단말기 및 그것의 제어 방법
US9842266B2 (en) * 2014-04-04 2017-12-12 Conduent Business Services, Llc Method for detecting driver cell phone usage from side-view images
JP6577347B2 (ja) * 2015-11-20 2019-09-18 株式会社東芝 情報伝達装置、情報伝達方法およびプログラム
EP3182331A1 (en) * 2015-12-14 2017-06-21 Tata Consultancy Services Limited Method and system to detect objects using block based histogram of oriented gradients
US9639777B1 (en) * 2015-12-17 2017-05-02 Linear Algebra Technologies Limited Systems and methods for providing an image classifier
CA3014670A1 (en) * 2016-03-08 2017-09-14 Nant Holdings Ip, Llc Image feature combination for image-based object recognition
JP6563873B2 (ja) * 2016-08-02 2019-08-21 トヨタ自動車株式会社 向き判別装置、向き判別方法
US10109055B2 (en) * 2016-11-21 2018-10-23 Seiko Epson Corporation Multiple hypotheses segmentation-guided 3D object detection and pose estimation

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1704958A (zh) * 2004-06-01 2005-12-07 日本电气株式会社 信息传输系统和信息传输方法
CN102844771A (zh) * 2009-11-19 2012-12-26 诺基亚公司 用旋转不变特征描述符进行跟踪和识别的方法和设备
CN102136064A (zh) * 2011-03-24 2011-07-27 成都四方信息技术有限公司 一种图像文字识别系统
CN102800080A (zh) * 2011-05-23 2012-11-28 株式会社摩如富 图像识别装置以及图像识别方法

Also Published As

Publication number Publication date
CN108446709A (zh) 2018-08-24
KR20180094616A (ko) 2018-08-24
KR102257226B1 (ko) 2021-05-28
DE102017219346A1 (de) 2018-08-16
US10521690B2 (en) 2019-12-31
US20180232597A1 (en) 2018-08-16

Similar Documents

Publication Publication Date Title
CN109961009B (zh) 基于深度学习的行人检测方法、系统、装置及存储介质
CN107944450B (zh) 一种车牌识别方法及装置
Shivakumara et al. CNN‐RNN based method for license plate recognition
US11017244B2 (en) Obstacle type recognizing method and apparatus, device and storage medium
Zang et al. Vehicle license plate recognition using visual attention model and deep learning
CN109871799B (zh) 一种基于深度学习的驾驶员玩手机行为的检测方法
EP3812963A2 (en) Vehicle re-identification method, apparatus, device and storage medium
Min et al. New approach to vehicle license plate location based on new model YOLO‐L and plate pre‐identification
US20210209395A1 (en) Method, electronic device, and storage medium for recognizing license plate
CN106255944A (zh) 移动平台中的空中和表面多点触摸检测
WO2014103433A1 (ja) 車両周辺監視装置
CN111931683B (zh) 图像识别方法、装置及计算机可读存储介质
CN110889464A (zh) 神经网络训练、目标对象的检测方法及装置
CN108701215A (zh) 用于识别多对象结构的系统和方法
CN110866900A (zh) 水体颜色识别方法及装置
CN115393872A (zh) 一种训练文本分类模型的方法、装置、设备及存储介质
CN108446709B (zh) 象形图识别装置、象形图识别系统和象形图识别方法
CN112380978B (zh) 基于关键点定位的多人脸检测方法、系统及存储介质
KR102625000B1 (ko) 딥러닝 기반의 자동차 번호판 인식 방법 및 그 시스템
CN110222576B (zh) 拳击动作识别方法、装置和电子设备
CN116823884A (zh) 多目标跟踪方法、系统、计算机设备及存储介质
CN108268813B (zh) 一种车道偏离预警方法、装置及电子设备
CN115205824A (zh) 目标检测方法、计算机设备、计算机可读存储介质及车辆
JP7416614B2 (ja) 学習モデルの生成方法、コンピュータプログラム、情報処理装置、及び情報処理方法
KR20220026881A (ko) 세그멘테이션 맵 기반 차량 번호판 인식 방법 및 장치

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant