CN104881673B - 基于信息整合的模式识别的方法和系统 - Google Patents

基于信息整合的模式识别的方法和系统 Download PDF

Info

Publication number
CN104881673B
CN104881673B CN201410071994.6A CN201410071994A CN104881673B CN 104881673 B CN104881673 B CN 104881673B CN 201410071994 A CN201410071994 A CN 201410071994A CN 104881673 B CN104881673 B CN 104881673B
Authority
CN
China
Prior art keywords
pel
candidate shape
auxiliary information
confidence level
user
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201410071994.6A
Other languages
English (en)
Other versions
CN104881673A (zh
Inventor
董维山
马春洋
张超
王瑜
李敏
李长升
严骏驰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
International Business Machines Corp
Original Assignee
International Business Machines Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by International Business Machines Corp filed Critical International Business Machines Corp
Priority to CN201410071994.6A priority Critical patent/CN104881673B/zh
Priority to US14/621,665 priority patent/US9355332B2/en
Priority to US14/746,877 priority patent/US9355333B2/en
Publication of CN104881673A publication Critical patent/CN104881673A/zh
Application granted granted Critical
Publication of CN104881673B publication Critical patent/CN104881673B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/42Document-oriented image-based pattern recognition based on the type of document
    • G06V30/422Technical drawings; Geographical maps
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/017Gesture based interaction, e.g. based on a set of recognized hand gestures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/01Input arrangements or combined input and output arrangements for interaction between user and computer
    • G06F3/048Interaction techniques based on graphical user interfaces [GUI]
    • G06F3/0487Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser
    • G06F3/0488Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures
    • G06F3/04883Interaction techniques based on graphical user interfaces [GUI] using specific features provided by the input device, e.g. functions controlled by the rotation of a mouse with dual sensing arrangements, or of the nature of the input device, e.g. tap gestures based on pressure sensed by a digitiser using a touch-screen or digitiser, e.g. input of commands through traced gestures for inputting data by handwriting, e.g. gesture or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T11/002D [Two Dimensional] image generation
    • G06T11/20Drawing from basic elements, e.g. lines or circles
    • G06T11/203Drawing of straight lines or curves
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/98Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns
    • G06V10/987Detection or correction of errors, e.g. by rescanning the pattern or by human intervention; Evaluation of the quality of the acquired patterns with the intervention of an operator
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/10Image acquisition modality
    • G06T2207/10004Still image; Photographic image
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2210/00Indexing scheme for image generation or computer graphics
    • G06T2210/12Bounding box

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Human Computer Interaction (AREA)
  • Quality & Reliability (AREA)
  • Artificial Intelligence (AREA)
  • Image Analysis (AREA)
  • Image Processing (AREA)

Abstract

本发明公开了基于信息整合的模式识别的方法和系统。根据本发明的实施例,提供一种用于识别图像中的图元的方法,所述方法包括:识别所述图像中的至少一个图元,以获得所述至少一个图元的至少一个候选形状,所述至少一个候选形状具有对应的置信度;基于所述置信度确定对所述至少一个图元的所述识别是否存在潜在错误;响应于确定所述识别存在所述潜在错误,从用户处获取关于所述至少一个图元的辅助信息;以及至少部分地基于所述辅助信息对所述至少一个图元进行重新识别。还公开了相应的系统。

Description

基于信息整合的模式识别的方法和系统
技术领域
本发明的实施例总体上涉及模式识别,更具体地,涉及基于信息整合的模式识别的方法和系统。
背景技术
模式识别是指通过计算机技术对图形、声音、字符等模式(pattern)进行自动或半自动地处理和判别。模式识别在诸多领域得到广泛的使用,包括对几何图形的识别。一类重要的几何图形是基于二维(2D)图的框图(2D graph-based diagram)。在本发明的上下文中,术语“框图”是图元以及各个图元之间的相互关系的集合。图元可以是各种2D图形,其具有相应的形状,例如矩形、椭圆形、圆形、三角形、平行四边形,等等。图元可以具有相关联的文字,也可以不具有文字。图元之间的关系通常由连线(line)表示。连线可以包括直线、弧线以及各种曲线。而且,连线可以是无方向的,也可以是有方向的(包括单向和双向),方向例如可以通过箭头来表示。框图的示例包括但不限于流程图、方框图(block diagram)、树形图、网状图,等等。
框图在各个领域被广泛使用。例如,在很多企业、研究机构、大学以及各种其他组织中,大量的信息通过框图的形式来呈现。作为示例,在进行各种演示时,演示者常常借助于框图来表达其主旨。又如,在纸质媒体的各种书籍、报刊、论文、杂志上,也存在大量的框图。希望能够利用模式识别技术对非电子媒介上的框图进行数字化,从而将其转化为数字格式。已知的方式是利用照相机之类的图像采集装置将框图转化为图像,而后对框图中的图元及其连接关系进行识别。
然而,至少由于以下原因,单纯基于图像处理的常规方法容易产生错误。首先,很多框图是用户手绘的,使得框图中的图元和/或连线具有一定的不规范性。其次,在某些情况下,用户只能使用移动电话、平板电脑、个人数字助理(PDA)等便携式设备上的图像采集装置、在较短的时间内捕获框图的图像。受制于图像拍摄条件、分辨率等因素,图像质量可能不是很高,这不利于识别的准确性。另外,在框图中,很多图元具有较高的相似性,例如椭圆类似于圆形,矩形类似于正方形,等等。这同样给模式识别带来了挑战。
发明内容
为了解决上述以及其他潜在问题,本发明提出了基于信息整合的模式识别的解决方案。
在本发明的一个方面,提供一种用于识别图像中的图元的方法。所述方法包括:识别所述图像中的至少一个图元,以获得所述至少一个图元的至少一个候选形状,所述至少一个候选形状具有对应的置信度;基于所述置信度确定对所述至少一个图元的所述识别是否存在潜在错误;响应于确定所述识别存在所述潜在错误,从用户处获取关于所述至少一个图元的辅助信息;以及至少部分地基于所述辅助信息对所述至少一个图元进行重新识别。
在本发明的另一方面,一种用于识别图像中的图元的系统。所述系统包括:识别单元,被配置为识别所述图像中的至少一个图元,以获得所述至少一个图元的至少一个候选形状,所述至少一个候选形状具有对应的置信度;潜在错误检测单元,被配置为基于所述置信度确定对所述至少一个图元的所述识别是否存在潜在错误;辅助信息获取单元,被配置为响应于确定所述识别存在所述潜在错误,从用户处获取关于所述至少一个图元的辅助信息;以及重识别单元,被配置为至少部分地基于所述辅助信息对所述至少一个图元进行重新识别。
通过下文描述将会理解,不同于现有技术,根据本发明的实施例,图元的形状不仅仅依赖于图像特征而被识别。相反,根据本发明的实施例,基于图像特征识别出的图元候选形状都具有对应的置信度。如果基于置信度确定识别可能存在潜在的精度问题,则可以从用户处获取附加的辅助信息。通过在识别阶段和/或决策结果对辅助信息和图像信息进行整合,能够有效地提高识别的精度。
附图说明
通过结合附图对本发明示例性实施方式进行更详细的描述,本发明的上述以及其它目的、特征和优势将变得更加明显其中:
图1示出了适于用来实现本发明实施例的示例性计算机系统/服务器的示意性方框图;
图2示出了根据本发明实施例的用于识别图像中的图元的方法的流程图;
图3A和图3B示出了根据本发明实施例的待处理图像的示意图;以及
图4示出了根据本发明实施例的用于识别图像中的图元的系统的方框图。
在所有附图中,相同或相似的标号被用来表示相同或相似的元素。
具体实施方式
下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的方框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块,这些程序模块被配置以执行本发明各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器28中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本发明所描述的实施例中的功能和/或方法。
计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它模块通信。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
现在参考图2,其示出了根据本发明实施例的用于识别图像中的图元的方法200的流程图。
在步骤S201,识别图像中的至少一个图元。根据本发明的实施例,待处理的图像可以是用户使用图像采集装置从有形媒体获得的。例如,用户可以使用照相机、摄像机或者移动电话、平板计算机、PDA等便携式设备上的图像采集装置来获取图像或者图像的一个或多个部分。备选地或附加地,图像或其部分可以直接以数字化形式被输入。
根据本发明的实施例,图像或其部分中包括由一个或多个图元组成的框图。如上文所述,框图例如可以包括流程图、方框图、树形图、网络图,等等。每个图元具有相应的形状,例如矩形、三角形、圆形,等等。图元可以具有也可以不具有相关联的文字。图元之间的关系由连线表示。根据本发明的实施例,连线也可以被当作一种特殊的图元加以处理。
根据本发明的实施例,为了识别图像中的图元,在步骤S201处对图像的处理至少包括向图像应用识别过程(recognition process)。识别过程的示例可以包括但不限于决策论方法、句法方法、统计模型方法,等等。例如,在某些实施例中,可以使用支持向量机(SVM)、主成分分析(PCA)、神经网络等各种基于统计模型的方法来处理图像,以识别图像中的一个或多个图元的形状。对于那些需要训练的算法,训练过程可以事先以离线方式(即,在识别投入使用之前)完成。备选地或附加地,实时的在线训练(即,在识别过程中)也是可能的。应当理解,任何目前已知或者将来开发的图像分析和/或识别方法均可与本发明的实施例结合使用。本发明的范围在此方面不受限制。
请注意,根据本发明的实施例,在步骤S201,可以对图像进行各种适当的预处理(pre-processing)和/或后处理(post-processing)。例如,在应用识别过程之前,可以对图像执行预处理以提高图像的分辨率、对图像进行锐化、降低图像中的噪声,等等。这样的预处理和/或后处理是所述领域的技术人员知道的,在此不再赘述。
根据本发明的实施例,所识别的图元具有至少一个候选形状。每个候选形状具有对应的置信度(confidence)。置信度可以是数值,也可以是文字描述(例如,“高”、“中”、“低”,等等)。置信度指示图元具有相应候选形状的概率。换言之,置信度越高,则图元具有与该置信度相关联的候选形状的可能性越高。根据本发明的实施例,置信度可以由识别过程提供。例如,在各种基于统计模型的识别过程中,对于每个可能的识别结果(即,候选形状),识别过程都会提供一个相关联的准确性水平。该准确性水平可以被用作候选形状的置信度。确定置信度的其他方式也是可能的,本发明的范围在此方面不受限制。
接下来,方法200进行到步骤S202,在此基于步骤S201处获得的候选形状的置信度,确定对至少一个图元的识别是否存在潜在错误(potential error)。
在某些实施例中,对于一个图元,如果它的所有候选形状的置信度都低于一个阈值(称为“第一阈值”)则可以确定对该图元的识别可能是不够准确的,即存在潜在错误。第一阈值可以是其他任何适当的值,它可以是事先确定的,也可以在使用过程中动态地更新。
备选地或附加地,在一个图元存在不止一个候选形状的实施例中,可以比较不同候选形状的置信度。具体而言,在某些实施例中,如果候选形状中的至少两个候选形状的置信度都高于第一阈值,但是该至少两个候选形状的置信度之间的差值低于另一阈值(称为“第二阈值”),则可以确定存在潜在的识别错误。举例而言,假设一个图元具有圆形和矩形这两个候选形状,并且假设第一阈值为70%、第二阈值为10%。如果圆形的置信度为79%,并且矩形的置信度为83%,则可以认为存在潜在的识别错误。这是因为,两个候选形状的置信度都超过了第一阈值,但是二者之间的差值小于第二阈值。在这种情况下,不论选择圆形还是矩形作为该图元的形状,都存在较大的识别错误的风险。
继续参考图2,如果在步骤S202确定不存在潜在识别错误(分支“否”),则根据本发明的实施例,可以在步骤S203选择候选形状之一作为图元的形状。例如,在某些实施例中,可以将具有最高置信度的那个候选形状确定为图元的形状。备选地,也可以将置信度高于阈值的所有候选形状呈现给用户,以供用户选择。
相反,如果在步骤S202处确定可能存在潜在识别错误(分支“是”),方法200进行到步骤S204,在此从用户处获取关于所识别的图元的辅助信息(auxiliary information)。
在某些实施例中,在步骤S204,可以提示用户重新输入图像或者图像中包括待识别图元的部分,以便对图像或其一部分进行重新捕获。注意,在此使用的术语“重新捕获”是指利用任何适当的图像采集设备来再次获得数字化的图像或者图像中包含待处理图元的部分。可选地,可以同时向用户指出识别所需的图像分辨率等有关参数。当初始输入的图像质量过低以至于显著影响识别精度时,这可能是有益的。
备选地或附加地,在步骤S204,可以将识别出的图元的所有候选形状显示给用户。例如,在某些实施例中,可以将候选形状以列表的形式呈现给用户。每个候选形状可以通过文字和/或图形的方式来表示。特别地,在某些实施例中,可以将与每个候选形状相关联的识别置信度显示给用户以供参考。由此,用户可以通过用户接口(UI)选择一个候选形状以作为图元的形状。在这样的实施例中,用户对候选形状的选择将被用作辅助信息。
备选地或附加地,在某些实施例中,在步骤S204,可以提示用户以手工方式绘制(draw)当前正在处理的图元。例如,在某些实施例中,可以在用户界面上显示一个区域,以供用户在其中绘制图元的形状。为此,在某些实施例中,用户可以通过鼠标、轨迹球之类的指点工具来绘制图元。备选地,当用户使用具有触敏表面(touch-sensitive surface)的终端设备时,也可以使用手指在触敏表面上绘制图元。作为又一示例,用户也可以直接在空间中绘制图元而无需接触捕获设备。此时,可以使用诸如计算机视觉、邻近传感器(proximitysensor)等任何适当的技术来捕获与用户的手势信息。
根据本发明的实施例,响应于用户绘制图元,可以获取用户绘制该图元的手势(gesture)信息以作为辅助信息。作为示例,手势信息可以包括用户绘制图元的轨迹(trajectory)信息。例如,在某些实施例中,轨迹信息可以包括轨迹的范围。如已知的,轨迹的范围例如可以由该轨迹的包围盒(bounding box)来表示,在此不再赘述。备选地或附加地,轨迹信息还可以包括用户在轨迹上的一个或多个位置处的方向。
特别地,在某些实施例中,轨迹信息可以包括关于图元轨迹上的至少一个位置处的压力和/或速度的信息。作为示例,如上所述,用户在某些实施例中可以借助于终端设备的触敏表面来绘制图元。如已知的,一个或多个压力传感器可以与触敏表面结合使用,以感测和记录触敏表面上的一个或多个点处的压力。在这样的实施例中,当用户例如使用手指在触敏表面上绘制图元时,可以获取轨迹上的一个或多个位置处的压力。如下文将会详述的,通过获取和利用图元轨迹上的一个或多个位置处的压力和/或速度,能够有效地提高图元形状的识别精度。
继而,在方法200的步骤S205。在步骤S205,至少部分地基于在步骤S204处获取的辅助信息,对图像中的图元进行重新识别(re-recognize)。
在某些实施例中,如上所述,辅助信息可以包括利用图像捕获设备重新捕获的图像或其部分。相应地,在这样的实施例中,可以对重新捕获的图像应用识别过程。在某些其他实施例中,辅助信息可以是用户对候选形状的选择。这时,可以直接基于用户的选择而确定图元的形状。
而且,在某些实施例中,可以在特征级别(feature level)或者说在识别过程中对辅助信息与用于处理图像的识别过程进行整合,以用于与辅助信息相关联地重新处理图像。例如,在这些实施例中,辅助信息可以被用作识别过程的参数。如已知的,在传统仅仅依赖于图像处理的识别过程中,诸如像素灰度、直方图信息、曲率等图像特征被用作参数以训练模型和识别特征。与此不同的是,根据本发明的实施例,辅助信息可以被用作附加参数来训练模型和识别特征。如上所述,辅助信息例如可以包括在用户绘制图元的过程中获取的手势信息,诸如轨迹的范围,方向、速度、压力,等等。相应地,这些信息可以在模型的建立和使用中被纳入考虑。
仅出于说明目的,考虑若干具体示例。在辅助信息包括手绘图元的轨迹范围的实施例中,可以基于该范围来约束应用识别过程的区域。以此方式,可以有效地排除不相干信息的干扰,从而提高识别的精度。又如,可以对用户绘制各种形状的速度特性建模到识别模型中。已经发现:用户在绘制直线时速度较快,而在绘制弧线时速度较慢。可以通过模型的训练对这一特征进行建模。由此,如果在应用识别过程中难以单纯地基于图像特征判断某段线条是直线还是曲线,则可以结合用户绘制该线条时的速度信息来加以判断。又如,已经发现:用户通常在绘制形状的拐点(例如,三角形或多边形的顶点)时速度较慢,而在绘制线条时速度较快。通过对这种特征进行建模和使用,将有助于在应用识别过程时确定图元的形状中的拐点。
作为又一示例,如上所述,在某些实施例中,辅助信息可以包括图元的轨迹上的一个或多个位置处的压力。由此,可以对压力与形状之间的关系进行建模。例如,已经发现:压力在线条的起点、终点、拐点处较大,而在其他位置较小。通过对这样的特征进行建模,在应用识别过程时,可以借助于压力信息的这种特性来辅助起点、终点和/或拐点的识别。
在上面描述的示例性实施例中,辅助信息与图像特征在特征级别被动态地整合。备选地,在其他实施例中,辅助信息与图像处理也可以在步骤S205处在决策级别(decisionlevel)被整合。在这样的实施例中,可以仅基于辅助信息(例如,手绘图元的轨迹、轨迹范围、方向、位置、压力,等等)识别图元的至少一个附加候选形状。基于用户手势等辅助信息识别图元的形状实质上属于在线模式识别问题,这是本领域中已知的,在此不再赘述。以此方式,可以获得两组候选形状,即,在步骤S201处使用基于图像处理技术的离线识别而获得的至少一个候选形状,以及在步骤S205处使用基于辅助信息的在线识别而获得的至少一个附加候选形状。由此,图元的形状可以基于这两组候选形状来确定。
例如,在某些实施例中,基于手势信息而识别的附加候选形状也可以具有对应的置信度。类似于步骤S201,置信度可以由识别过程提供。在这样的实施例中,可以首先选择在两组候选形状中的置信度均高于预定阈值的候选形状。继而,具有最高置信度的所选择的候选形状可被确定为图元的形状。备选地,对于存在于两组中的那些候选形状,可以对该候选形状在两组中的置信度进行各种运算,例如算数平均、加权平均、加、乘,等等。运算所得的结果可被用作该候选形状的最终置信度。具有最高置信度的候选形状可被确定为图元的形状。请注意,这里描述的仅仅是结合两组候选形状的几个示例。任何备选的或附加的方式同样落入本发明的范围之内。
根据本发明的实施例,在步骤S205,可以直接自动地确定图元的形状。备选地,经重新处理而得到的一个或多个候选形状也可以被显示给用户(如同步骤S202那样)以供用户选择。而且,如果通过步骤S205的重新识别之后仍然无法准确地判定图元形状,方法200可以迭代地指定。换言之,步骤S202到S205可以根据需要被执行一次或多次。
另外,根据本发明的实施例,对于识别出的图元,可以进行各种后续操作。例如,在某些实施例中,可以基于用户的输入对图元的属性进行调整。作为示例,图元的属性可以包括但不限于图元的位置、大小、颜色、角度、相关联的文字,等等。用户输入可以借助于鼠标、键盘等交互工具输入。备选地或附加地,用于控制图元属性的用户输入还可以包括语音输入、手势输入,等等。本发明的范围在此方面不受限制。
而且,根据本发明的实施例,可以基于识别出的图元而构建图像中的框图,例如流程图、方框图,等等。特别地,根据本发明的实施例,所处理的图像可以仅包含框图的一部分。由此,由识别出的图元所组成的框图的各个部分可以进行拼接,从而形成最终的完整框图。任何目前已知或者将来开发的方法均可与本发明的实施例结合使用,例如相位相关法(phase correlation algorithm)、自动全景拼接(automatic panoramic stitching),等等。另外,根据本发明的实施例,所生成的框图可以被转换为任何适当的格式,以便在给定的目标机器上使用。
本发明的实施例能够显著提高图元识别的精度和效率,从而改善框图的数字化处理。作为示例,图3A和图3B分别示出了两个待识别的图像301和302。如果仅仅基于图像特征本身,则很难区分图像301和302中的这两个框图。然而,通过借助于辅助信息,可以显著改善识别精度。例如,如上所述,可以提示用户绘制这两个图元。通过获取用户所绘制的图元轨迹,可以确定图像301中包含的图元包含两个相交的直线,而图像302中包含的是两个折线。
参考图4,其示出了根据本发明实施例的用于识别图像中的图元的系统400的方框图。如图所示,系统400包括:识别单元401,被配置为识别所述图像中的至少一个图元,以获得所述至少一个图元的至少一个候选形状,所述至少一个候选形状具有对应的置信度;潜在错误检测单元402,被配置为基于所述置信度确定对所述至少一个图元的所述识别是否存在潜在错误;辅助信息获取单元403,被配置为响应于确定所述识别存在所述潜在错误,从用户处获取关于所述至少一个图元的辅助信息;以及重识别单元404,被配置为至少部分地基于所述辅助信息对所述至少一个图元进行重新识别。
在某些实施例中,潜在错误检测单元402包括以下至少一个:第一潜在错误检测单元,被配置为如果所述至少一个候选形状中的每个候选形状的所述置信度均低于第一预定阈值,则确定对所述至少一个图元的所述识别存在潜在错误;以及第二潜在错误检测单元,被配置为如果所述至少一个候选形状中的至少两个候选形状的所述置信度高于所述第一预定阈值、但是所述至少两个候选形状的所述置信度之间的差小于第二预定阈值,则确定对所述至少一个图元的所述识别存在潜在错误。
在某些实施例中,辅助信息获取单元403可以包括以下至少一个:第一获取单元,被配置为接收重新捕获的所述图像的至少一部分;以及第二获取单元,被配置为接收用户对所述至少一个候选形状的选择。备选地或附加地,辅助信息获取单元403可以包括第三获取单元,被配置为获取所述用户绘制所述至少一个图元的手势信息作为所述辅助信息,所述手势信息包括所述至少一个图元的轨迹信息。例如,在某些示例性实施例中,轨迹信息可以包括以下至少一个:所述轨迹上的至少一个位置处的速度,以及所述轨迹上的至少一个位置处的压力。特别地,在某些实施例中,所述至少一个图元被绘制在一个终端设备的触敏表面上,并且所述轨迹上的至少一个位置处的压力是经由触敏表面而被检测的。
在某些实施例中,重识别单元404可以包括:重处理单元,被配置为与所述辅助信息相关联地重新处理所述图像,其中所述辅助信息被用作用于处理所述图像的识别过程的参数。备选地或附加地,在某些实施例中,重识别单元404可以包括:辅助识别单元,被配置为使用所述辅助信息识别所述至少一个图元,以获得所述至少一个图元的至少一个附加候选形状;以及整合单元,被配置为对所述至少一个候选形状和所述至少一个附加候选形状进行整合,以确定所述至少一个图元的形状。
在某些实施例中,系统400还可以包括:属性调整单元(未示出),被配置为基于用户输入对重新识别的所述至少一个图元的属性进行调整
为清晰起见,图4没有示出系统400所包括的可选单元或者子单元。然而应当理解,上文所描述的所有特征和操作分别适用于系统400,故在此不再赘述。而且,系统400中的单元或子单元的划分不是限制性的而是示例性的,旨在从逻辑上描述其主要功能或操作。一个单元的功能可以由多个单元来实现;反之,多个单元亦可由一个单元来实现。本发明的范围在此方面不受限制。而且,上文描述的系统400所包含的单元可以利用各种方式来实现,包括软件、硬件、固件或其任意组合。
本发明可以是系统、方法和/或计算机程序产品。计算机程序产品可以包括计算机可读存储介质,其上载有用于使处理器实现本发明的各个方面的计算机可读程序指令。
计算机可读存储介质可以是可以保持和存储由指令执行设备使用的指令的有形设备。计算机可读存储介质例如可以是――但不限于――电存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或者上述的任意合适的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、机械编码设备、例如其上存储有指令的打孔卡或凹槽内凸起结构、以及上述的任意合适的组合。这里所使用的计算机可读存储介质不被解释为瞬时信号本身,诸如无线电波或者其他自由传播的电磁波、通过波导或其他传输媒介传播的电磁波(例如,通过光纤电缆的光脉冲)、或者通过电线传输的电信号。
这里所描述的计算机可读程序指令可以从计算机可读存储介质下载到各个计算/处理设备,或者通过网络、例如因特网、局域网、广域网和/或无线网下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光纤传输、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或者网络接口从网络接收计算机可读程序指令,并转发该计算机可读程序指令,以供存储在各个计算/处理设备中的计算机可读存储介质中。
用于执行本发明操作的计算机程序指令可以是汇编指令、指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据、或者以一种或多种编程语言的任意组合编写的源代码或目标代码,所述编程语言包括面向对象的编程语言—诸如Java、Smalltalk、C++等,以及常规的过程式编程语言—诸如“C”语言或类似的编程语言。计算机可读程序指令可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络—包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。在一些实施例中,通过利用计算机可读程序指令的状态信息来个性化定制电子电路,例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA),该电子电路可以执行计算机可读程序指令,从而实现本发明的各个方面。
这里参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述了本发明的各个方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令实现。
这些计算机可读程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个方框中规定的功能/动作的装置。也可以把这些计算机可读程序指令存储在计算机可读存储介质中,这些指令使得计算机、可编程数据处理装置和/或其他设备以特定方式工作,从而,存储有指令的计算机可读介质则包括一个制造品,其包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各个方面的指令。
也可以把计算机可读程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机、其它可编程数据处理装置、或其它设备上执行的指令实现流程图和/或框图中的一个或多个方框中规定的功能/动作。
附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或指令的一部分,所述模块、程序段或指令的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例。

Claims (18)

1.一种用于识别图像中的图元的方法,所述方法包括:
识别所述图像中的至少一个图元,以获得所述至少一个图元的至少一个候选形状,所述至少一个候选形状具有对应的置信度;
基于所述置信度确定对所述至少一个图元的所述识别是否存在潜在错误;
响应于确定所述识别存在所述潜在错误,从用户处获取关于所述至少一个图元的辅助信息;以及
至少部分地基于所述辅助信息对所述至少一个图元进行重新识别,
其中基于所述置信度确定对所述至少一个图元的所述识别是否存在潜在错误包括:
如果所述至少一个候选形状中的至少两个候选形状的所述置信度高于第一预定阈值、但是所述至少两个候选形状的所述置信度之间的差小于第二预定阈值,则确定对所述至少一个图元的所述识别存在潜在错误。
2.根据权利要求1所述的方法,其中基于所述置信度确定对所述至少一个图元的所述识别是否存在潜在错误进一步包括:
如果所述至少一个候选形状中的每个候选形状的所述置信度均低于第一预定阈值,则确定对所述至少一个图元的所述识别存在潜在错误。
3.根据权利要求1所述的方法,其中从用户处获取关于所述至少一个图元的辅助信息包括以下至少一项:
接收重新捕获的所述图像的至少一部分;以及
接收用户对所述至少一个候选形状的选择。
4.根据权利要求1所述的方法,其中从用户处获取关于所述至少一个图元的辅助信息包括:
获取所述用户绘制所述至少一个图元的手势信息作为所述辅助信息,所述手势信息包括所述至少一个图元的轨迹信息。
5.根据权利要求4所述的方法,其中所述轨迹信息包括以下至少一个项:所述轨迹上的至少一个位置处的压力,以及所述轨迹上的至少一个位置处的速度。
6.根据权利要求5所述的方法,其中所述至少一个图元被绘制在一个终端设备的触敏表面上,并且其中所述压力经由所述触敏表面而被检测。
7.根据权利要求1-6任一项所述的方法,其中至少部分地基于所述辅助信息对所述至少一个图元进行重新识别包括:
与所述辅助信息相关联地重新处理所述图像,其中所述辅助信息被用作用于处理所述图像的识别过程的参数。
8.根据权利要求1-6任一项所述的方法,其中至少部分地基于所述辅助信息对所述至少一个图元进行重新识别包括:
使用所述辅助信息识别所述至少一个图元,以获得所述至少一个图元的至少一个附加候选形状;以及
对所述至少一个候选形状和所述至少一个附加候选形状进行整合,以确定所述至少一个图元的形状。
9.根据权利要求1-6任一项所述的方法,还包括:
基于用户输入对重新识别的所述至少一个图元的属性进行调整。
10.一种用于识别图像中的图元的系统,所述系统包括:
识别单元,被配置为识别所述图像中的至少一个图元,以获得所述至少一个图元的至少一个候选形状,所述至少一个候选形状具有对应的置信度;
潜在错误检测单元,被配置为基于所述置信度确定对所述至少一个图元的所述识别是否存在潜在错误;
辅助信息获取单元,被配置为响应于确定所述识别存在所述潜在错误,从用户处获取关于所述至少一个图元的辅助信息;以及
重识别单元,被配置为至少部分地基于所述辅助信息对所述至少一个图元进行重新识别,
其中所述潜在错误检测单元包括:
第二潜在错误检测单元,被配置为如果所述至少一个候选形状中的至少两个候选形状的所述置信度高于第一预定阈值、但是所述至少两个候选形状的所述置信度之间的差小于第二预定阈值,则确定对所述至少一个图元的所述识别存在潜在错误。
11.根据权利要求10所述的系统,其中所述潜在错误检测单元进一步包括:
第一潜在错误检测单元,被配置为如果所述至少一个候选形状中的每个候选形状的所述置信度均低于第一预定阈值,则确定对所述至少一个图元的所述识别存在潜在错误。
12.根据权利要求10所述的系统,其中所述辅助信息获取单元包括以下至少一个:
第一获取单元,被配置为接收重新捕获的所述图像的至少一部分;以及
第二获取单元,被配置为接收用户对所述至少一个候选形状的选择。
13.根据权利要求10所述的系统,其中所述辅助信息获取单元包括:
第三获取单元,被配置为获取所述用户绘制所述至少一个图元的手势信息作为所述辅助信息,所述手势信息包括所述至少一个图元的轨迹信息。
14.根据权利要求13所述的系统,其中所述轨迹信息包括以下至少一项:所述轨迹上的至少一个位置处的压力,以及所述轨迹上的至少一个位置处的速度。
15.根据权利要求14所述的系统,其中所述至少一个图元被绘制在一个终端设备的触敏表面上,并且其中所述压力经由所述触敏表面而被检测。
16.根据权利要求10-15任一项所述的系统,其中所述重识别单元包括:
重处理单元,被配置为与所述辅助信息相关联地重新处理所述图像,其中所述辅助信息被用作用于处理所述图像的识别过程的参数。
17.根据权利要求10-15任一项所述的系统,其中所述重识别单元包括:
辅助识别单元,被配置为使用所述辅助信息识别所述至少一个图元,以获得所述至少一个图元的至少一个附加候选形状;以及
整合单元,被配置为对所述至少一个候选形状和所述至少一个附加候选形状进行整合,以确定所述至少一个图元的形状。
18.根据权利要求10-15任一项所述的系统,还包括:
属性调整单元,被配置为基于用户输入对重新识别的所述至少一个图元的属性进行调整。
CN201410071994.6A 2014-02-28 2014-02-28 基于信息整合的模式识别的方法和系统 Expired - Fee Related CN104881673B (zh)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN201410071994.6A CN104881673B (zh) 2014-02-28 2014-02-28 基于信息整合的模式识别的方法和系统
US14/621,665 US9355332B2 (en) 2014-02-28 2015-02-13 Pattern recognition based on information integration
US14/746,877 US9355333B2 (en) 2014-02-28 2015-06-23 Pattern recognition based on information integration

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201410071994.6A CN104881673B (zh) 2014-02-28 2014-02-28 基于信息整合的模式识别的方法和系统

Publications (2)

Publication Number Publication Date
CN104881673A CN104881673A (zh) 2015-09-02
CN104881673B true CN104881673B (zh) 2018-06-01

Family

ID=53949160

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410071994.6A Expired - Fee Related CN104881673B (zh) 2014-02-28 2014-02-28 基于信息整合的模式识别的方法和系统

Country Status (2)

Country Link
US (2) US9355332B2 (zh)
CN (1) CN104881673B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10216992B2 (en) 2016-11-21 2019-02-26 Microsoft Technology Licensing, Llc Data entry system with drawing recognition
CN107665333A (zh) * 2017-08-28 2018-02-06 平安科技(深圳)有限公司 一种基于卷积神经网络的不雅图片识别方法、终端、设备及计算机可读存储介质
CN109829063B (zh) * 2019-01-29 2020-11-27 腾讯科技(深圳)有限公司 一种数据处理方法、装置及存储介质
US11024034B2 (en) * 2019-07-02 2021-06-01 Acist Medical Systems, Inc. Image segmentation confidence determination
CN111191006B (zh) * 2019-12-30 2023-06-09 湖南特能博世科技有限公司 图例间连接关系的确定方法、装置和电子系统
US20220148050A1 (en) * 2020-11-11 2022-05-12 Cdk Global, Llc Systems and methods for using machine learning for vehicle damage detection and repair cost estimation
US11803535B2 (en) 2021-05-24 2023-10-31 Cdk Global, Llc Systems, methods, and apparatuses for simultaneously running parallel databases
US11983145B2 (en) 2022-08-31 2024-05-14 Cdk Global, Llc Method and system of modifying information on file

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101663677A (zh) * 2007-04-19 2010-03-03 微软公司 用于输入供识别的二维结构的用户界面
CN103065151A (zh) * 2012-11-04 2013-04-24 北京工业大学 一种基于深度信息的车辆识别方法

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0628477A (ja) * 1992-04-27 1994-02-04 Digital Equip Corp <Dec> パターン知覚デバイス
US20040037463A1 (en) * 2002-01-28 2004-02-26 Calhoun Christopher L. Recognizing multi-stroke symbols
US20030189603A1 (en) * 2002-04-09 2003-10-09 Microsoft Corporation Assignment and use of confidence levels for recognized text
US7515752B2 (en) * 2004-08-27 2009-04-07 Corel Corporation Sketch recognition and enhancement
US8749497B2 (en) 2008-12-12 2014-06-10 Apple Inc. Multi-touch shape drawing
US7932899B2 (en) 2009-09-01 2011-04-26 Next Holdings Limited Determining the location of touch points in a position detection system
US8341558B2 (en) * 2009-09-16 2012-12-25 Google Inc. Gesture recognition on computing device correlating input to a template
US8436821B1 (en) * 2009-11-20 2013-05-07 Adobe Systems Incorporated System and method for developing and classifying touch gestures
EP2328112A1 (en) 2009-11-26 2011-06-01 Alcatel Lucent A method of recognizing an object in a digital image, corresponding computer program product, and device therefor
KR101822655B1 (ko) 2011-06-21 2018-01-29 삼성전자주식회사 카메라를 이용한 물체 인식 방법 및 이를 위한 카메라 시스템
US9195901B2 (en) 2012-04-10 2015-11-24 Victor KAISER-PENDERGRAST System and method for detecting target rectangles in an image
US9147057B2 (en) * 2012-06-28 2015-09-29 Intel Corporation Techniques for device connections using touch gestures

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101663677A (zh) * 2007-04-19 2010-03-03 微软公司 用于输入供识别的二维结构的用户界面
CN103065151A (zh) * 2012-11-04 2013-04-24 北京工业大学 一种基于深度信息的车辆识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
"Incremental Learning for Interactive Sketch Recognition";Ghorbel et al.;《Lecture Notes in Computer Science》;20131231;第4节,图2 *

Also Published As

Publication number Publication date
CN104881673A (zh) 2015-09-02
US9355333B2 (en) 2016-05-31
US20150248761A1 (en) 2015-09-03
US20150294184A1 (en) 2015-10-15
US9355332B2 (en) 2016-05-31

Similar Documents

Publication Publication Date Title
CN104881673B (zh) 基于信息整合的模式识别的方法和系统
US10824916B2 (en) Weakly supervised learning for classifying images
EP3961485A1 (en) Image processing method, apparatus and device, and storage medium
CN111680594B (zh) 一种基于手势识别的增强现实交互方法
US9349076B1 (en) Template-based target object detection in an image
KR102326395B1 (ko) 다수의 객체 입력을 인식하기 위한 시스템 및 그 방법 및 제품
EP3514724B1 (en) Depth map-based heuristic finger detection method
WO2020078017A1 (zh) 用于识别空中手写的方法、装置、设备以及计算机可读存储介质
US20220253631A1 (en) Image processing method, electronic device and storage medium
EP2973427B1 (en) Continuous interaction learning and detection in real-time
CN111860362A (zh) 生成人脸图像校正模型及校正人脸图像的方法和装置
US11810319B2 (en) Image detection method, device, storage medium and computer program product
CN113378712B (zh) 物体检测模型的训练方法、图像检测方法及其装置
WO2022022292A1 (zh) 手持物体识别方法及装置
CN113205041B (zh) 结构化信息提取方法、装置、设备和存储介质
JP2018536928A (ja) 手書きされた図コネクタの認識のためのシステム及び方法
JP7393472B2 (ja) 陳列シーン認識方法、装置、電子機器、記憶媒体およびコンピュータプログラム
CN114418124A (zh) 生成图神经网络模型的方法、装置、设备及存储介质
CN114581732A (zh) 一种图像处理及模型训练方法、装置、设备和存储介质
CN112749701B (zh) 车牌污损分类模型的生成方法和车牌污损分类方法
CN108446693B (zh) 待识别目标的标记方法、系统、设备及存储介质
CN110909596A (zh) 侧脸识别方法、装置、设备以及存储介质
CN109598206A (zh) 动态手势识别方法及装置
CN115205806A (zh) 生成目标检测模型的方法、装置和自动驾驶车辆
CN114220163A (zh) 人体姿态估计方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
EXSB Decision made by sipo to initiate substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20180601