CN106295629B - 结构化文本检测方法和系统 - Google Patents
结构化文本检测方法和系统 Download PDFInfo
- Publication number
- CN106295629B CN106295629B CN201610561355.7A CN201610561355A CN106295629B CN 106295629 B CN106295629 B CN 106295629B CN 201610561355 A CN201610561355 A CN 201610561355A CN 106295629 B CN106295629 B CN 106295629B
- Authority
- CN
- China
- Prior art keywords
- area
- tested
- structured text
- picture
- detected
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/22—Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/82—Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/24—Classification techniques
- G06F18/241—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
- G06F18/2413—Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
- G06F18/24133—Distances to prototypes
- G06F18/24137—Distances to cluster centroïds
- G06F18/2414—Smoothing the distance, e.g. radial basis function networks [RBFN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/10—Text processing
- G06F40/166—Editing, e.g. inserting or deleting
- G06F40/186—Templates
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/279—Recognition of textual entities
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/04—Architecture, e.g. interconnection topology
- G06N3/045—Combinations of networks
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N3/00—Computing arrangements based on biological models
- G06N3/02—Neural networks
- G06N3/08—Learning methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06N—COMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
- G06N5/00—Computing arrangements using knowledge-based models
- G06N5/04—Inference or reasoning models
- G06N5/046—Forward inferencing; Production systems
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/40—Scaling the whole image or part thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T3/00—Geometric image transformation in the plane of the image
- G06T3/60—Rotation of a whole image or part thereof
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/10—Segmentation; Edge detection
- G06T7/11—Region-based segmentation
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06T—IMAGE DATA PROCESSING OR GENERATION, IN GENERAL
- G06T7/00—Image analysis
- G06T7/70—Determining position or orientation of objects or cameras
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/25—Determination of region of interest [ROI] or a volume of interest [VOI]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
- G06V10/443—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components by matching or filtering
- G06V10/449—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters
- G06V10/451—Biologically inspired filters, e.g. difference of Gaussians [DoG] or Gabor filters with interaction between the filter responses, e.g. cortical complex cells
- G06V10/454—Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/70—Arrangements for image or video recognition or understanding using pattern recognition or machine learning
- G06V10/74—Image or video pattern matching; Proximity measures in feature spaces
- G06V10/75—Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
- G06V10/751—Comparing pixel values or logical combinations thereof, or feature values having positional relevance, e.g. template matching
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/19—Recognition using electronic means
- G06V30/191—Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
- G06V30/19173—Classification techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/414—Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Abstract
本申请公开了结构化文本检测方法和系统,其中所述方法包括:将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络;通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置;其中,所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值;及所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。本发明在保证检测准确度的同时使得计算量尽可能小,大大提高了结构化文本检测的效率。
Description
技术领域
本申请涉及图片处理领域,尤其涉及一种结构化文本检测方法和系统。
背景技术
结构化文本是指布局结构基本固定的文本,例如身份证、护照、机动车驾驶证、票据等。在数字化时代,人们为了将这些信息录入计算机,往往需要手动打字,花费大量的时间。为了节省时间,人们开始采用将证件拍成图片,再利用计算机视觉技术从图片中自动获取文本的方法。这种方法一般分为三步:第一,将图片中的所有结构化文本作为一个整体进行截取并转正,使之充满整个图片,截取使得去除背景区域,转正使得歪斜的图片变正;第二,检测所有包含文本信息的区域;第三,对被检测出的区域进行文字识别,获取文本信息。其中,第二步,即结构化文本的检测,在整个结构化文本信息获取的过程中占有重要地位。目前结构化文本的检测一般借助于通用物体检测的方法,如基于卷积神经网络的RegionProposal Network(RPN),它根据深度卷积神经网络输出的卷积特征图上每一个位置的信息计算这个位置的对应的锚(anchors)的分类分数和调整量,根据分类分数确定对应位置是否有待检测文本存在,通过调整量计算对应文本的位置,即上下左右四个方向的边界坐标。最后还需要利用非最大值抑制法除去重复程度较高的区域。
上述方法计算成本较高。由于一般深度卷积神经网络输出的卷积特征图面积较大,且每个位置都对应了若干个anchors,总共需要计算的anchors的分类分数和调整量数量巨大,再加上后处理,使得计算开销过大,需要花费的时间过长。
发明内容
本发明实施例提供一种结构化文本检测方案。
第一方面,本申请实施例提供一种结构化文本检测方法,包括:
将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络;
通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置;其中,
所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值;及
所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。
结合本发明实施例提供的任一种结构化文本检测方法,可选地,所述卷积神经网络进行如下处理以得到所述待检测结构化文本图片的一组待检测区域的实际位置:对所述待检测结构化文本图片进行处理获得其卷积特征图;以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作,然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值;根据所述分类分数确定所述每一待检测区域是否有文字;在确定一待检测区域有文字时,根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值,得到该确定有文字的待检测区域的实际位置。
结合本发明实施例提供的任一种结构化文本检测方法,可选地,所述将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络之前,所述方法还包括:获取用于训练所述卷积神经网络的所述多个结构化文本图片中的每一图片的所有文字区域的位置;根据所述多个结构化文本图片中的相应文字区域的位置的平均值确定所述文字区域对应的文字区域模板。
结合本发明实施例提供的任一种结构化文本检测方法,可选地,所述文字区域模板的位置通过相应文字区域的中心坐标、宽度及长度确定。
结合本发明实施例提供的任一种结构化文本检测方法,可选地,所述根据所述分类分数确定所述每一待检测区域是否有文字包括:将每一待检测区域对应的分类分数接Softmax层;在一待检测区域的分类分数大于预设阈值时确定该待检测区域有文字。
结合本发明实施例提供的任一种结构化文本检测方法,可选地,所述待检测区域的实际位置为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h],其中(x+w*f1,y+h*f2)为所述待检测区域的中心X坐标和Y坐标,exp(f3)*w为所述待检测区域的长度,exp(f4)*h为所述待检测区域的宽度;其中x,y,h,w为与所述待检测区域对应的文字区域模板的X坐标、Y坐标、宽度和长度;[f1,f2,f3,f4]为训练所述卷积神经网络时每一文字区域的回归目标,其中[f1,f2,f3,f4]=[(x'-x)/w,(y'-y)/h,log(w'/w),log(h'/h)],其中x',y',h',w'为所述多个结构化文本图片中的每一图片的相应文字区域的X坐标、Y坐标、宽度和长度。
结合本发明实施例提供的任一种结构化文本检测方法,可选地,所述回归目标通过在训练所述卷积神经网络时使所述位置调整值接一回归函数获得。
结合本发明实施例提供的任一种结构化文本检测方法,可选地,所述方法还包括:在输入所述卷积神经网络之前,对所述待检测结构化文本图片进行截取和转正预处理并缩放到一个固定尺寸。
第二方面,本发明实施例还提供了一种结构化文本检测系统,包括:
图片及模板输入模块,用于将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络;
卷积神经网络,用于通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置;其中,
所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值;及
所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。
结合本发明实施例提供的任一种结构化文本检测系统,可选地,所述卷积神经网络包括:特征图获得模块,用于对所述待检测结构化文本图片进行处理获得其卷积特征图;分类分数和位置调整值获得模块,用于以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作,然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值;文字区域确定模块,用于根据所述分类分数确定所述每一待检测区域是否有文字;待检测区域实际位置确定模块,用于在确定一待检测区域有文字时,根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值,得到该确定有文字的待检测区域的实际位置。
结合本发明实施例提供的任一种结构化文本检测系统,可选地,所述一组文字区域模板根据所述多个结构化文本图片中的每一图片的相应文字区域的位置的平均值确定。
结合本发明实施例提供的任一种结构化文本检测系统,可选地,所述文字区域模板的位置通过相应文字区域的中心坐标、宽度及长度确定。
结合本发明实施例提供的任一种结构化文本检测系统,可选地,所述文字区域确定模块包括:将每一待检测区域对应的分类分数接Softmax层;在一待检测区域的分类分数大于预设阈值时确定该待检测区域有文字。
结合本发明实施例提供的任一种结构化文本检测系统,可选地,所述待检测区域的实际位置为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h],其中(x+w*f1,y+h*f2)为所述待检测区域的中心X坐标和Y坐标,exp(f3)*w为所述待检测区域的长度,exp(f4)*h为所述待检测区域的宽度;其中x,y,h,w为与所述待检测区域对应的文字区域模板的X坐标、Y坐标、宽度和长度;[f1,f2,f3,f4]为训练所述卷积神经网络时每一文字区域的回归目标,其中[f1,f2,f3,f4]=[(x'-x)/w,(y'-y)/h,log(w'/w),log(h'/h)],其中x',y',h',w'为所述多个结构化文本图片中的每一图片的相应文字区域的X坐标、Y坐标、宽度和长度。
结合本发明实施例提供的任一种结构化文本检测系统,可选地,所述回归目标通过在训练所述卷积神经网络时使所述位置调整值接一回归函数获得。
结合本发明实施例提供的任一种结构化文本检测系统,可选地,所述系统还包括:图片预处理模块,用于在输入所述卷积神经网络之前,对所述待检测结构化文本图片进行截取和转正预处理并缩放到一个固定尺寸。
第三方面,本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质存储有:用于将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络,通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置的指令,其中,所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值;及所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。
第四方面,本发明实施例还提供了一种结构化文本检测系统,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如本发明实施例提供的任一种结构化文本检测方法对应的操作。
本发明实施例提供的技术方案中,待检测区域相比起以往的技术(RPN等)很少,所需要的计算量明显减小,所花费的时间明显减少,检测速率明显加快,所需要的计算资源也明显减少。而且本发明的技术方案不需要后处理去除重复检测,而RPN等方法需要。
在例子中,在使用相同的测试图像和尽可能相同的网络结构的情况下,本发明技术的检测速度是RPN的10倍,而检测的性能(召回率和准确率)没有损失。
附图说明
本发明将在下面参考附图并结合优选实施例进行更完全地说明。
图1为根据本发明方法的一实施例的流程图。
图2为根据本发明方法的一实施例的详细流程图。
图3为图2所示方法实施例中使用的结构化文本的一实施例的示意图。
图4为根据本发明系统的一实施例的结构示意图。
图5示出了根据本发明实施例提供的结构化文本检测系统的另一实施例的示意图。
为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略其他细节。
具体实施方式
通过下面给出的详细描述,本发明的适用范围将显而易见。然而,应当理解,在详细描述和具体例子表明本发明优选实施例的同时,它们仅为说明目的给出。
图1示出了根据本发明的结构化文本检测方法的一实施例的流程图,该方法包括步骤S110,将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络;及S120,通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置;其中,所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值;及所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。
图2详细地示出了根据本发明的结构化文本检测方法的示意图。图3为图2所示方法实施例中使用的结构化文本的一实施例的示意图。如图2中所示,该实施例的方法以身份证照片为例并开始于步骤S210,身份证照片包括十个可能有文字信息的区域,其中住址最多分为三行,每行形成一个区域。每张照片中文字区域的正确位置(具体来讲是左右边界的x坐标和上下边界的y坐标)被叫做ground-truth框,如图3中所示。对大量身份证样本的照片进行截取和转正预处理,使得去除背景区域并使歪斜的照片变正,然后缩放到一个固定尺寸。之后,处理进行到步骤S220,获取大量经截取和转正预处理的身份证图片中的每一图片的所有10个文字区域的相应位置,计算所有图片的相应文字区域的位置的平均值作为一套模板(共10个模板),用于所有身份证上文字区域的检测基础,如图2中的“模板”所示。之后,处理进行到步骤S230,对待检测的身份证图片进行截取和转正处理并缩放到固定尺寸,将处理后的待检测身份证图片和身份证文字区域的10个模板输入训练好的卷积神经网络。
在所述卷积神经网络训练时,将用于训练的每张身份证图片输入卷积神经网络,经通常的卷积、非线性变换等处理后获得身份证图片的卷积特征图;在最后得到的卷积特征图上,将模板的位置作为待检测区域进行兴趣区域池化(RoI pooling)操作提取局部信息,经过一个或多个全连接层(Fully Connected Layer)之后,输出一个分类分数和位置调整值;分类分数接Softmax,用于训练判断每个文字区域是否有文字(例如住址第二、三行可能没有文字),位置调整值接回归函数smooth L1loss,用于在模板的基础上进行边界框回归(bounding box regression),以训练进行准确的回归值预测。对于每一文字区域,回归的目标是[f1,f2,f3,f4]=[(x'-x)/w,(y'-y)/h,log(w'/w),log(h'/h)],其中x',y',h',w'为每一图片的相应ground-truth框的X和Y坐标、宽度和长度;x,y,h,w为相应模板的X和Y坐标、宽度和长度。
对于训练好的卷积神经网络,在一文字区域的分类分数大于预设阈值如0.5时确定该文字区域有文字,否则判断该区域没有文字。前述阈值可根据实际情况设定。
待检测身份证图片在输入训练好的卷积神经网络后将得到该图片的每一待检测区域(每一模板的位置)的分类分数和位置调整值。在步骤S240,确定该待检测区域是否包含文字。在一待检测区域的分类分数低于预设阈值即该待检测区域没有文字时,在步骤S250,舍弃该待检测区域。否则,在步骤S260,根据相应待检测区域的位置调整值调整相应模板的坐标值得到相应待检测区域的实际位置。具体地,所述相应待检测区域的实际位置为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h],其中(x+w*f1,y+h*f2)为相应待检测区域的中心X和Y坐标,exp(f3)*w为相应待检测区域的长度,exp(f4)*h为相应待检测区域的宽度,exp()为指数函数。在确定待检测区域的实际位置后,即可采取各种文字识别技术对相应区域的文字进行自动识别。
本发明使用模板作为待检测区域(Proposal),极大提高结构化文本的检测速度。对于结构化文本信息的获取,在对图片进行截取和转正之后,把图像缩放到一个固定尺寸。由于截取和转正时的误差,以及文本长度本身在不同图片中有所变化的原因,待检测文本区域在不同图片中的位置是不同的,但是其分布是围绕一个中心,中间多四周少的形式。我们将预先将大量结构化文本图片中的所有文字区域各计算一个位置的平均值,作为模板。然后将这些模板作为待检测区域(Proposal)输入卷积神经网络,利用兴趣区域池化(Region of Interest Pooling/RoI Pooling)操作,提取对应位置的卷积特征图,然后根据这一个区域的信息计算分类分数和位置调整量,以确定这个区域内是否有文本以及文本的位置。从而使得待检测区域的个数等于所有可能存在的文本区域的个数,大大减小了在识别结构化文本时的计算量,进而提高了识别速度。
图4示出了根据本发明的与图2所示方法对应的结构化文本检测系统的一实施例的示意图,该系统包括:图片预处理模块410,用于在输入所述卷积神经网络之前,对所述待检测结构化文本图片进行截取和转正预处理并缩放到一个固定尺寸;图片及模板输入模块420,用于将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络;卷积神经网络430,用于通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置;其中,所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值;及所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。其中所述卷积神经网络430包括:特征图获得模块432,用于对所述待检测结构化文本图片进行处理获得其卷积特征图;分类分数和位置调整值获得模块434,用于以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作,然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值;文字区域确定模块436,用于根据所述分类分数确定所述每一待检测区域是否有文字;待检测区域实际位置确定模块438,用于在确定一待检测区域有文字时,根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值,得到所述待检测区域的实际位置。
图5示出了根据本发明实施例提供的结构化文本检测系统的另一实施例的示意图,该系统包括:处理器(processor)502、通信接口(Communications Interface)504、存储器(memory)506、以及通信总线508。
处理器502、通信接口504、以及存储器506通过通信总线508完成相互间的通信。
通信接口504,用于与其它设备比如客户端或数据采集设备等的网元通信。
处理器502,用于执行程序510,具体可以执行上述方法实施例中的相关步骤。
具体地,程序可以包括程序代码,该程序代码包括计算机操作指令。
处理器502可以是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路。
存储器506,用于存放程序510。存储器506可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510包括至少一条可执行指令,具体可以用于使得处理器502执行以下操作:将待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络,通过所述卷积神经网络的处理得到所述待检测结构化文本图片的一组待检测区域的实际位置;其中,所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值;及所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。
程序510包括至少一条可执行指令,还可用于使处理器502执行以下操作:对所述待检测结构化文本图片进行处理获得其卷积特征图;以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作,然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值;根据所述分类分数确定所述每一待检测区域是否有文字;在确定一待检测区域有文字时,根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值,得到该确定有文字的待检测区域的实际位置。
程序510中各步骤的具体实现可以参见上述实施例中的相应步骤和单元中对应的描述,在此不赘述。所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上面描述的设备和模块的具体工作过程,可以参考前述方法实施例中的对应过程描述,在此不再赘述。
除非明确指出,在此所用的单数形式“一”、“该”均包括复数含义(即具有“至少一”的意思)。应当进一步理解,说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个其他特征、步骤、操作、元件、部件和/或其组合。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出,在此公开的任何方法的步骤不必精确按照所公开的顺序执行。
一些优选实施例已经在前面进行了说明,但是应当强调的是,本发明不局限于这些实施例,而是可以本发明主题范围内的其它方式实现。
需要指出,根据实施的需要,可将本发明实施例中描述的各个部件/步骤拆分为更多部件/步骤,也可将两个或多个部件/步骤或者部件/步骤的部分操作组合成新的部件/步骤,以实现本发明实施例的目的。
上述根据本发明实施例的方法可在硬件、固件中实现,或者被实现为可存储在记录介质(诸如CD ROM、RAM、软盘、硬盘或磁光盘)中的软件或计算机代码,或者被实现为通过网络下载的、原始存储在远程记录介质或非暂时机器可读介质中并将被存储在本地记录介质中的计算机代码,从而在此描述的方法可被存储在使用通用计算机、专用处理器或者可编程或专用硬件(诸如ASIC或FPGA)的记录介质上的这样的软件处理。可以理解,计算机、处理器、微处理器控制器或可编程硬件包括可存储或接收软件或计算机代码的存储组件(例如,RAM、ROM、闪存等),当所述软件或计算机代码被计算机、处理器或硬件访问且执行时,实现在此描述的处理方法。此外,当通用计算机访问用于实现在此示出的处理的代码时,代码的执行将通用计算机转换为用于执行在此示出的处理的专用计算机。
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及方法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法实现所描述的功能,但是这种实现不应认为超出本发明实施例的范围。
以上实施方式仅用于说明本发明实施例,而并非对本发明实施例的限制,有关技术领域的普通技术人员,在不脱离本发明实施例的精神和范围的情况下,还可以做出各种变化和变型,因此所有等同的技术方案也属于本发明实施例的范畴,本发明实施例的专利保护范围应由权利要求限定。
Claims (15)
1.一种结构化文本检测方法,其特征在于,所述方法包括:
对待检测结构化文本图片进行截取和转正预处理并缩放到一个固定尺寸;
将处理后的待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络;
通过所述卷积神经网络的处理,得到所述待检测结构化文本图片的每一待检测区域对应的位置调整值,并基于所述位置调整值调整相应待检测区域的坐标值,得到所述待检测结构化文本图片的一组待检测区域的实际位置;其中,
所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值;及
所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。
2.根据权利要求1所述的方法,其特征在于,所述卷积神经网络进行如下处理以得到所述待检测结构化文本图片的一组待检测区域的实际位置:
对所述待检测结构化文本图片进行处理获得其卷积特征图;
以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作,然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值;
根据所述分类分数确定所述每一待检测区域是否有文字;
在确定一待检测区域有文字时,根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值,得到该确定有文字的待检测区域的实际位置。
3.根据权利要求1所述的方法,其特征在于,所述将处理后的待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络之前,所述方法还包括:
获取用于训练所述卷积神经网络的所述多个结构化文本图片中的每一图片的所有文字区域的位置;
根据所述多个结构化文本图片中的相应文字区域的位置的平均值确定所述文字区域对应的文字区域模板。
4.根据权利要求2所述的方法,其特征在于,所述文字区域模板的位置通过相应文字区域的中心坐标、宽度及长度确定。
5.根据权利要求2所述的方法,其特征在于,所述根据所述分类分数确定所述每一待检测区域是否有文字包括:
将每一待检测区域对应的分类分数接Softmax层;
在一待检测区域的分类分数大于预设阈值时确定该待检测区域有文字。
6.根据权利要求4所述的方法,其特征在于,所述待检测区域的实际位置为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h],
其中(x+w*f1,y+h*f2)为所述待检测区域的中心X坐标和Y坐标,exp(f3)*w为所述待检测区域的长度,exp(f4)*h为所述待检测区域的宽度;
其中x,y,h,w为与所述待检测区域对应的文字区域模板的X坐标、Y坐标、宽度和长度;[f1,f2,f3,f4]为训练所述卷积神经网络时每一文字区域的回归目标,其中[f1,f2,f3,f4]=[(x'-x)/w,(y'-y)/h,log(w'/w),log(h'/h)],其中x',y',h',w'为所述多个结构化文本图片中的每一图片的相应文字区域的X坐标、Y坐标、宽度和长度。
7.根据权利要求6所述的方法,其特征在于,所述回归目标通过在训练所述卷积神经网络时使所述位置调整值接一回归函数获得。
8.一种结构化文本检测系统,其特征在于,所述系统包括:
图片预处理模块,用于对待检测结构化文本图片进行截取和转正预处理并缩放到一个固定尺寸;
图片及模板输入模块,用于将处理后的待检测结构化文本图片及一组文字区域模板输入训练好的卷积神经网络;
卷积神经网络,用于通过所述卷积神经网络的处理,得到所述待检测结构化文本图片的每一待检测区域对应的位置调整值,并基于所述位置调整值调整相应待检测区域的坐标值,得到所述待检测结构化文本图片的一组待检测区域的实际位置;其中,
所述一组文字区域模板中的每一个的位置为与所述待检测结构化文本图片同类的多个结构化文本图片中相应文字区域的位置的平均值;及
所述卷积神经网络将所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域。
9.根据权利要求8所述的系统,其特征在于,所述卷积神经网络包括:
特征图获得模块,用于对所述待检测结构化文本图片进行处理获得其卷积特征图;
分类分数和位置调整值获得模块,用于以所述一组文字区域模板的位置作为所述待检测结构化文本图片的一组待检测区域对所述卷积特征图进行兴趣区域池化操作,然后经过全连接层输出所述待检测结构化文本图片的每一待检测区域对应的分类分数和位置调整值;
文字区域确定模块,用于根据所述分类分数确定所述每一待检测区域是否有文字;
待检测区域实际位置确定模块,用于在确定一待检测区域有文字时,根据该确定有文字的待检测区域的位置调整值调整该确定有文字的待检测区域的坐标值,得到该确定有文字的待检测区域的实际位置。
10.根据权利要求8所述的系统,其特征在于,其中所述一组文字区域模板根据所述多个结构化文本图片中的每一图片的相应文字区域的位置的平均值确定。
11.根据权利要求9所述的系统,其特征在于,所述文字区域模板的位置通过相应文字区域的中心坐标、宽度及长度确定。
12.根据权利要求9所述的系统,其特征在于,所述文字区域确定模块包括:
将每一待检测区域对应的分类分数接Softmax层;
在一待检测区域的分类分数大于预设阈值时确定该待检测区域有文字。
13.根据权利要求11所述的系统,其特征在于,所述待检测区域的实际位置为[x+w*f1,y+h*f2,exp(f3)*w,exp(f4)*h],
其中(x+w*f1,y+h*f2)为所述待检测区域的中心X坐标和Y坐标,exp(f3)*w为所述待检测区域的长度,exp(f4)*h为所述待检测区域的宽度;
其中x,y,h,w为与所述待检测区域对应的文字区域模板的X坐标、Y坐标、宽度和长度;[f1,f2,f3,f4]为训练所述卷积神经网络时每一文字区域的回归目标,其中[f1,f2,f3,f4]=[(x'-x)/w,(y'-y)/h,log(w'/w),log(h'/h)],其中x',y',h',w'为所述多个结构化文本图片中的每一图片的相应文字区域的X坐标、Y坐标、宽度和长度。
14.根据权利要求13所述的系统,其特征在于,所述回归目标通过在训练所述卷积神经网络时使所述位置调整值接一回归函数获得。
15.一种结构化文本检测系统,其特征在于,所述系统包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1至7任一项所述的结构化文本检测方法对应的操作。
Priority Applications (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610561355.7A CN106295629B (zh) | 2016-07-15 | 2016-07-15 | 结构化文本检测方法和系统 |
PCT/CN2017/092586 WO2018010657A1 (zh) | 2016-07-15 | 2017-07-12 | 结构化文本检测方法和系统、计算设备 |
US16/052,584 US10937166B2 (en) | 2016-07-15 | 2018-08-01 | Methods and systems for structured text detection, and non-transitory computer-readable medium |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201610561355.7A CN106295629B (zh) | 2016-07-15 | 2016-07-15 | 结构化文本检测方法和系统 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN106295629A CN106295629A (zh) | 2017-01-04 |
CN106295629B true CN106295629B (zh) | 2018-06-15 |
Family
ID=57651567
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201610561355.7A Active CN106295629B (zh) | 2016-07-15 | 2016-07-15 | 结构化文本检测方法和系统 |
Country Status (3)
Country | Link |
---|---|
US (1) | US10937166B2 (zh) |
CN (1) | CN106295629B (zh) |
WO (1) | WO2018010657A1 (zh) |
Families Citing this family (39)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106295629B (zh) * | 2016-07-15 | 2018-06-15 | 北京市商汤科技开发有限公司 | 结构化文本检测方法和系统 |
WO2018089210A1 (en) * | 2016-11-09 | 2018-05-17 | Konica Minolta Laboratory U.S.A., Inc. | System and method of using multi-frame image features for object detection |
CN107665354B (zh) * | 2017-09-19 | 2021-04-23 | 北京小米移动软件有限公司 | 识别身份证的方法及装置 |
CN107909107B (zh) * | 2017-11-14 | 2020-09-15 | 深圳码隆科技有限公司 | 纤维检测方法、装置及电子设备 |
CN107977665A (zh) * | 2017-12-15 | 2018-05-01 | 北京科摩仕捷科技有限公司 | 一种发票中关键信息的识别方法及计算设备 |
CN108229470B (zh) | 2017-12-22 | 2022-04-01 | 北京市商汤科技开发有限公司 | 文字图像处理方法、装置、设备及存储介质 |
CN108256520B (zh) * | 2017-12-27 | 2020-10-30 | 中国科学院深圳先进技术研究院 | 一种识别硬币年份的方法、终端设备及计算机可读存储介质 |
CN108229463A (zh) * | 2018-02-07 | 2018-06-29 | 众安信息技术服务有限公司 | 基于图像的文字识别方法 |
CN108520254B (zh) * | 2018-03-01 | 2022-05-10 | 腾讯科技(深圳)有限公司 | 一种基于格式化图像的文本检测方法、装置以及相关设备 |
CN109034159B (zh) * | 2018-05-28 | 2021-05-28 | 北京捷通华声科技股份有限公司 | 图像信息提取方法和装置 |
CN108874941B (zh) * | 2018-06-04 | 2021-09-21 | 成都知道创宇信息技术有限公司 | 基于卷积特征和多重哈希映射的大数据url去重方法 |
CN109086756B (zh) * | 2018-06-15 | 2021-08-03 | 众安信息技术服务有限公司 | 一种基于深度神经网络的文本检测分析方法、装置及设备 |
CN110619325B (zh) * | 2018-06-20 | 2024-03-08 | 北京搜狗科技发展有限公司 | 一种文本识别方法及装置 |
US20200004815A1 (en) * | 2018-06-29 | 2020-01-02 | Microsoft Technology Licensing, Llc | Text entity detection and recognition from images |
CN109308476B (zh) * | 2018-09-06 | 2019-08-27 | 邬国锐 | 票据信息处理方法、系统及计算机可读存储介质 |
CN109492143A (zh) * | 2018-09-21 | 2019-03-19 | 平安科技(深圳)有限公司 | 图像数据处理方法、装置、计算机设备及存储介质 |
CN111144400B (zh) * | 2018-11-06 | 2024-03-29 | 北京金山云网络技术有限公司 | 身份证信息的识别方法、装置、终端设备及存储介质 |
CN111222368B (zh) * | 2018-11-26 | 2023-09-19 | 北京金山办公软件股份有限公司 | 一种识别文档段落的方法、装置及电子设备 |
WO2020113561A1 (zh) * | 2018-12-07 | 2020-06-11 | 华为技术有限公司 | 一种从图像中提取结构化数据的方法、装置和设备 |
CN111461105B (zh) * | 2019-01-18 | 2023-11-28 | 顺丰科技有限公司 | 一种文本识别方法和装置 |
US10496899B1 (en) * | 2019-01-25 | 2019-12-03 | StradVision, Inc. | Learning method and learning device for adjusting parameters of CNN in which residual networks are provided for meta learning, and testing method and testing device using the same |
CN111488877A (zh) * | 2019-01-29 | 2020-08-04 | 北京新唐思创教育科技有限公司 | 一种用于教学系统的ocr识别方法、装置和终端 |
CN109886257B (zh) * | 2019-01-30 | 2022-10-18 | 四川长虹电器股份有限公司 | 一种ocr系统中采用深度学习矫正发票图片分割结果的方法 |
US10616443B1 (en) * | 2019-02-11 | 2020-04-07 | Open Text Sa Ulc | On-device artificial intelligence systems and methods for document auto-rotation |
CN111695377B (zh) * | 2019-03-13 | 2023-09-29 | 杭州海康威视数字技术股份有限公司 | 一种文本检测方法、装置和计算机设备 |
US11176364B2 (en) * | 2019-03-19 | 2021-11-16 | Hyland Software, Inc. | Computing system for extraction of textual elements from a document |
CN110188755B (zh) * | 2019-05-30 | 2021-09-07 | 北京百度网讯科技有限公司 | 一种图像识别的方法、装置和计算机可读存储介质 |
US10977184B2 (en) * | 2019-06-20 | 2021-04-13 | Apical Limited and Arm Limited | Managing memory access for convolutional neural networks |
CN110443252A (zh) * | 2019-08-16 | 2019-11-12 | 广东工业大学 | 一种文字检测方法、装置及设备 |
CN110738238B (zh) * | 2019-09-18 | 2023-05-26 | 平安科技(深圳)有限公司 | 一种证件信息的分类定位方法及装置 |
CN110826557A (zh) * | 2019-10-25 | 2020-02-21 | 杭州依图医疗技术有限公司 | 一种骨折检出的方法及装置 |
CN113076441A (zh) * | 2020-01-06 | 2021-07-06 | 北京三星通信技术研究有限公司 | 关键词抽取方法、装置、电子设备及计算机可读存储介质 |
CN111414905B (zh) * | 2020-02-25 | 2023-08-18 | 泰康保险集团股份有限公司 | 一种文本检测方法、文本检测装置、电子设备及存储介质 |
CN111754505B (zh) * | 2020-06-30 | 2024-03-15 | 创新奇智(成都)科技有限公司 | 辅料检测方法、装置、电子设备及存储介质 |
CN112446829B (zh) * | 2020-12-11 | 2023-03-24 | 成都颜创启新信息技术有限公司 | 图片方向调整方法、装置、电子设备及存储介质 |
CN112712075B (zh) * | 2020-12-30 | 2023-12-01 | 科大讯飞股份有限公司 | 算式检测方法、电子设备和存储装置 |
CN113420564B (zh) * | 2021-06-21 | 2022-11-22 | 国网山东省电力公司物资公司 | 一种基于混合匹配的电力铭牌语义结构化方法及系统 |
CN113743327A (zh) * | 2021-09-07 | 2021-12-03 | 中国工商银行股份有限公司 | 单据识别方法、单据核对方法、装置和设备 |
US20230129240A1 (en) * | 2021-10-26 | 2023-04-27 | Salesforce.Com, Inc. | Automatic Image Conversion |
Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103679901A (zh) * | 2013-12-30 | 2014-03-26 | 威海北洋电气集团股份有限公司 | 提高ocr证件识别效率的方法及访客登记一体机 |
CN103927352A (zh) * | 2014-04-10 | 2014-07-16 | 江苏唯实科技有限公司 | 利用知识库海量关联信息的中文名片ocr数据修正系统 |
CN104794504A (zh) * | 2015-04-28 | 2015-07-22 | 浙江大学 | 基于深度学习的图形图案文字检测方法 |
CN105469047A (zh) * | 2015-11-23 | 2016-04-06 | 上海交通大学 | 基于无监督学习深度学习网络的中文检测方法及系统 |
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
CN105608454A (zh) * | 2015-12-21 | 2016-05-25 | 上海交通大学 | 基于文字结构部件检测神经网络的文字检测方法及系统 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5521985A (en) * | 1992-08-13 | 1996-05-28 | International Business Machines Corporation | Apparatus for recognizing machine generated or handprinted text |
CN104182722B (zh) * | 2013-05-24 | 2018-05-18 | 佳能株式会社 | 文本检测方法和装置以及文本信息提取方法和系统 |
CN106295629B (zh) * | 2016-07-15 | 2018-06-15 | 北京市商汤科技开发有限公司 | 结构化文本检测方法和系统 |
US10984289B2 (en) * | 2016-12-23 | 2021-04-20 | Shenzhen Institute Of Advanced Technology | License plate recognition method, device thereof, and user equipment |
US10455259B2 (en) * | 2017-08-23 | 2019-10-22 | Intel Corporation | Enhanced text rendering and readability in images |
US10262235B1 (en) * | 2018-02-26 | 2019-04-16 | Capital One Services, Llc | Dual stage neural network pipeline systems and methods |
US11055557B2 (en) * | 2018-04-05 | 2021-07-06 | Walmart Apollo, Llc | Automated extraction of product attributes from images |
-
2016
- 2016-07-15 CN CN201610561355.7A patent/CN106295629B/zh active Active
-
2017
- 2017-07-12 WO PCT/CN2017/092586 patent/WO2018010657A1/zh active Application Filing
-
2018
- 2018-08-01 US US16/052,584 patent/US10937166B2/en active Active
Patent Citations (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN103679901A (zh) * | 2013-12-30 | 2014-03-26 | 威海北洋电气集团股份有限公司 | 提高ocr证件识别效率的方法及访客登记一体机 |
CN103927352A (zh) * | 2014-04-10 | 2014-07-16 | 江苏唯实科技有限公司 | 利用知识库海量关联信息的中文名片ocr数据修正系统 |
CN104794504A (zh) * | 2015-04-28 | 2015-07-22 | 浙江大学 | 基于深度学习的图形图案文字检测方法 |
CN105469047A (zh) * | 2015-11-23 | 2016-04-06 | 上海交通大学 | 基于无监督学习深度学习网络的中文检测方法及系统 |
CN105608454A (zh) * | 2015-12-21 | 2016-05-25 | 上海交通大学 | 基于文字结构部件检测神经网络的文字检测方法及系统 |
CN105574513A (zh) * | 2015-12-22 | 2016-05-11 | 北京旷视科技有限公司 | 文字检测方法和装置 |
Non-Patent Citations (1)
Title |
---|
基于卷积神经网络探讨深度学习算法与应用;高强等;《电脑知识与技术》;20150505;第11卷(第13期);169-170 * |
Also Published As
Publication number | Publication date |
---|---|
CN106295629A (zh) | 2017-01-04 |
WO2018010657A1 (zh) | 2018-01-18 |
US10937166B2 (en) | 2021-03-02 |
US20180342061A1 (en) | 2018-11-29 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN106295629B (zh) | 结构化文本检测方法和系统 | |
CN111563494B (zh) | 基于目标检测的行为识别方法、装置和计算机设备 | |
WO2020098250A1 (zh) | 字符识别方法、服务器及计算机可读存储介质 | |
US8649604B2 (en) | Face searching and detection in a digital image acquisition device | |
CN108647588A (zh) | 物品类别识别方法、装置、计算机设备和存储介质 | |
CN110706261A (zh) | 车辆违章检测方法、装置、计算机设备和存储介质 | |
CN108268867B (zh) | 一种车牌定位方法及装置 | |
CN107808120A (zh) | 眼镜定位方法、装置及存储介质 | |
CN109800682B (zh) | 驾驶员属性识别方法及相关产品 | |
CN109740606B (zh) | 一种图像识别方法及装置 | |
CN104809452A (zh) | 一种指纹识别方法 | |
CN109344727A (zh) | 身份证文本信息检测方法及装置、可读存储介质和终端 | |
CN109165589A (zh) | 基于深度学习的车辆重识别方法和装置 | |
CN110414330B (zh) | 一种手掌图像的检测方法及装置 | |
CN111583180B (zh) | 一种图像的篡改识别方法、装置、计算机设备及存储介质 | |
CN111461170A (zh) | 车辆图像检测方法、装置、计算机设备及存储介质 | |
CN104809453A (zh) | 一种基于指纹的认证方法 | |
US11144752B1 (en) | Physical document verification in uncontrolled environments | |
CN110378254B (zh) | 车损图像修改痕迹的识别方法、系统、电子设备及存储介质 | |
CN109165654B (zh) | 一种目标定位模型的训练方法和目标定位方法及装置 | |
CN109389110B (zh) | 一种区域确定方法及装置 | |
CN111951283A (zh) | 一种基于深度学习的医学图像识别方法及系统 | |
CN110135288B (zh) | 一种电子证照的快速核对方法及装置 | |
CN108921006B (zh) | 手写签名图像真伪鉴别模型建立方法及真伪鉴别方法 | |
CN114220097A (zh) | 一种基于对抗攻击的图像语义信息敏感像素域的筛选方法及应用方法与系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |