CN111027554B - 商品价签文字精确检测定位系统及定位方法 - Google Patents
商品价签文字精确检测定位系统及定位方法 Download PDFInfo
- Publication number
- CN111027554B CN111027554B CN201911375053.0A CN201911375053A CN111027554B CN 111027554 B CN111027554 B CN 111027554B CN 201911375053 A CN201911375053 A CN 201911375053A CN 111027554 B CN111027554 B CN 111027554B
- Authority
- CN
- China
- Prior art keywords
- text
- commodity price
- price tag
- edge
- character
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V20/00—Scenes; Scene-specific elements
- G06V20/60—Type of objects
- G06V20/62—Text, e.g. of license plates, overlay texts or captions on TV images
- G06V20/63—Scene text, e.g. street names
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F18/00—Pattern recognition
- G06F18/20—Analysing
- G06F18/25—Fusion techniques
- G06F18/253—Fusion techniques of extracted features
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/255—Detecting or recognising potential candidate objects based on visual cues, e.g. shapes
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/40—Extraction of image or video features
- G06V10/44—Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Data Mining & Analysis (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Bioinformatics & Cheminformatics (AREA)
- Evolutionary Computation (AREA)
- Evolutionary Biology (AREA)
- General Engineering & Computer Science (AREA)
- Bioinformatics & Computational Biology (AREA)
- Artificial Intelligence (AREA)
- Life Sciences & Earth Sciences (AREA)
- Character Input (AREA)
- Image Analysis (AREA)
Abstract
本发明公开了一种商品价签文字精确检测定位系统、方法,其中系统包括:特征提取器,用于提取商品价签图像的图像特征,得到商品价签图像对应的第一特征图;多个感受野调整模块,用于调整感受野,然后以第一特征图为输入,提取第一特征图对应的第二特征图;多个特征融合模块,用于融合感受野调整模块输出的各第二特征图,得到一特征融合图;多个任意四边形预测模块,用于对各特征融合图上的文字区域进行任意四边形预测;至少一个旋转矩形框预测模块,用于对各特征融合图上的文字区域进行旋转矩形框预测;至少一个文字边缘预测模块,用于预测各文字区域的文字边框;预测结果综合模块,用于综合各预测结果,本发明提高了对商品价签检测的准确率。
Description
技术领域
本发明涉及视觉识别技术领域,具体涉及一种商品价签文字精确检测定位系统及定位方法。
背景技术
在零售领域,分销终端价格管控对于品牌厂商具有重要意义。近些年,基于计算机视觉识别技术的商品价格识别方法为品牌厂商对分销终端的价格管控提供了可行的解决方案。但基于计算机视觉识别技术的商品价签文字识别相比传统的ocr识别,场景更加复杂,识别更加困难。现有的商品价签文字识别算法首先需要定位商品价签在场景图像中的位置,然后检测出价签上的文字并进行识别,最后提取出文字区域的价格信息。文字检测作为文字识别的前提,文字检测的定位精度对识别准确率影响很大。当文字检测框定位不够准确时,可能会多框住文字周边区域,从而引入干扰,当然也可能会少框住部分文字区域而导致部分文字信息丢失,这些都会降低文字识别的准确率。
在实际场景中,商品价签形式多样,价签上的文字方向、长度、字体类型、大小、文字姿态等可能都不一样,价签上还可能存在污点等干扰信息,文字排布、间距等复杂不一,现有的商品价签文字识别算法无法对文字区域进行精确定位,很容易出现文字区域少框或多框现象。
发明内容
本发明的目的在于提供一种商品价签文字精确检测定位系统及定位方法。
为达此目的,本发明采用以下技术方案:
提供一种商品价签文字精确检测定位系统,用于对商品价签上的文字进行检测、识别,包括:
特征提取器,所述特征提取器中包括多层连接的卷积神经网络模块,每一特征提取层中的所述卷积神经网络模块用于提取待检测的商品价签图像对应的图像特征,得到每一所述特征提取层输出的所述商品价签图像对应的第一特征图;
多个感受野调整模块,每个所述感受野调整模块对应连接所述特征提取器中的每一层上的所述卷积神经网络模块,所述感受野调整模块用于调整用于提取所述图像特征的感受野,然后以所述第一特征图为输入,提取各所述第一特征图对应的第二特征图;
多个特征融合模块,每个所述特征融合模块对应连接一所述感受野调整模块,用于融合所述感受野调整模块输出的各所述第二特征图,得到所述第一特征图对应的特征融合图;
多个任意四边形预测模块,每个所述任意四边形预测模块对应连接一所述特征融合模块,用于对所述特征融合图上的文字区域进行任意四边形预测,并输出对所述特征融合图的任意四边形预测结果;
至少一个旋转矩形框预测模块,每个所述旋转矩形框预测模块对应连接一所述特征融合模块,用于对所述特征融合图上的所述文字区域进行旋转矩形框预测,并输出对各所述特征融合图的旋转矩形框预测结果;
至少一个文字边缘预测模块,每个所述文字边缘预测模块对应连接一个所述特征融合模块,用于预测所述特征融合图上的各所述文字区域的文字边框,得到对各所述文字区域的文字边缘预测结果;
预测结果综合模块,分别连接各所述任意四边形预测模块、各所述旋转矩形框预测模块和各所述文字边缘预测模块,用于综合各所述任意四边形预测结果、各所述旋转矩形框预测结果和各所述文字边缘预测结果,最终形成对所述商品价签图像的文字区域预测结果并存储。
作为本发明的一种优选方案,所述感受野调整模块提取所述第一特征图对应的所述第二特征图采用的卷积核为矩形卷积核。
作为本发明的一种优选方案,所述商品价签文字精确检测定位系统还包括:
模型训练模块,分别连接各所述任意四边形预测模块、各所述旋转矩形框预测模块和各所述文字边缘预测模块,用于以所述任意四边形预测结果、和/或所述旋转矩形框预测结果、和/或所述文字边缘预测结果以及原始输入的所述商品价签图像为训练样本,训练形成一商品价签文字检测模型,所述商品价签文字检测模型用于对待检测的所述商品价签图像进行文字区域检测,并输出对所述商品价签图像的所述文字区域预测结果。
作为本发明的一种优选方案,所述旋转矩形框预测模块的设置数量为一个,仅用于对经所述特征提取器多层图像特征提取后最终输出的关联于所述商品价签图像的所述第一特征图对应的所述特征融合图上的所述文字区域进行旋转矩形框预测,输出一所述旋转矩形框预测结果。
作为本发明的一种优选方案,所述文字边缘预测模块的设置数量为一个,仅用于对经所述特征提取器多层图像特征提取后最终输出的关联于所述商品价签图像的所述第一特征图对应的所述特征融合图上的所述文字区域进行文字边框预测,得到一所述文字边缘预测结果。
作为本发明的一种优选方案,所述文字边缘预测模块中具体包括:
文字边缘预测单元,用于预测所述特征融合图上的各像素点是否为所述文字区域的边缘点,
若是,则保留所述像素点并标注;
若否,则将所述像素点视为非所述边缘点;
边缘点对应边确定单元,连接所述文字边缘预测单元,用于确定各所述边缘点对应为所述文字边框的哪一条边,并得到一边缘点为对应边的确定结果;
文字边框提取单元,连接所述边缘点对应边确定单元,用于根据所述确定结果,提取出围合所述文字区域的所述文字边框;
文字边缘预测结果形成单元,连接所述文字边框提取单元,用于将提取的所述文字边框作为对所述文字区域对应的所述文字边缘预测结果并存储。
作为本发明的一种优选方案,所述预测结果综合模块中具体包括:
任意四边形文字区域面积计算单元,用于计算所述任意四边形预测模块框选出的任意四边形文字区域的第一区域面积;
旋转矩形框文字区域面积计算单元,用于计算所述旋转矩形框预测模块框选出的旋转矩形框文字区域的第二区域面积;
文字区域面积交并比计算单元,分别连接所述任意四边形文字区域面积计算单元和所述旋转矩形框文字区域面积计算单元,用于计算同一张所述特征融合图上的相同位置处的所述第一区域面积和所述第二区域面积的交并比;
文字区域判定单元,连接所述文字区域面积交并比计算单元,用于判断所述交并比是否大于一预设的阈值,
若是,则判定任意四边形围合的所述文字区域和旋转矩形框围合的所述文字区域为真实的所述文字区域;
若否,则判定所述任意四边形围合的所述文字区域和所述旋转矩形框围合的所述文字区域为非真实的所述文字区域,并过滤掉所述相同位置处的所述任意四边形围合的所述文字区域和所述旋转矩形框围合的所述文字区域;
文字区域融合单元,连接所述文字区域判定单元,用于将判定为真实的处于所述相同位置处的所述任意四边形围合的所述文字区域和所述旋转矩形框围合的所述文字区域进行区域融合,最终得到一融合后的真实文字区域;
真实文字区域外接矩形框生成单元,连接所述文字区域融合单元,用于根据所述真实文字区域的形状特征,生成一外接矩形框以围合所述真实文字区域;
文字边框确定单元,连接所述真实文字区域外接矩形框生成单元,用于判断所述外接矩形框的各条边是否与所述文字边缘预测模块预测的所述文字边框的对应边相交,
若是,则保留所述外接矩形框的对应的所述边;
若否,则将所述外接矩形框的所述边平移至对应所述文字边框的所述边的所在位置处;
文字区域预测结果形成单元,连接所述文字边框确定单元,用于将最终确定的各所述外接矩形框围合的所述文字区域在所述商品价签图像上的具体所处位置作为所述文字区域预测结果输出。
本发明还提供了一种商品价签文字精确检测定位方法,通过应用所述商品价签文字精确检测定位系统实现,该方法包括如下步骤:
步骤S1,所述商品价签文字精确检测定位系统多层提取待检测的所述商品价签图像对应的所述图像特征,得到每一所述特征提取层输出的所述商品价签图像对应的所述第一特征图;
步骤S2,所述商品价签文字精确检测定位系统调整用于提取所述图像特征的所述感受野,然后对各层输出的所述第一特征图进行进一步的图像特征提取,输出各所述第一特征图对应的所述第二特征图;
步骤S3,所述商品价签文字精确检测定位系统将所述第一特征图对应的各所述第二特征图进行图像融合,得到各所述第一特征图分别对应的所述特征融合图;
步骤S4,所述商品价签文字精确检测定位系统对各所述特征融合图上的所述文字区域进行任意四边形预测,输出对各所述特征融合图的所述任意四边形预测结果;
步骤S5,所述商品价签文字精确检测定位系统对各所述特征融合图上的所述文字区域进行旋转矩形框预测,并输出对各所述特征融合图的所述旋转矩形框预测结果;
步骤S6,所述商品价签文字精确检测定位系统对各所述特征融合图上的各所述文字区域进行文字边框预测,得到对各所述文字区域的文字边缘预测结果;
步骤S7,所述商品价签文字精确检测定位系统综合各所述任意四边形预测结果、各所述旋转矩形框预测结果和各所述文字边缘预测结果,最终形成对所述商品价签图像的所述文字区域预测结果并存储。
作为本发明的一种优选方案,所述步骤S6中,所述商品价签文字精确检测定位系统对各所述文字区域进行文字边框预测的具体过程包括如下步骤:
步骤S61,所述商品价签文字精确检测定位系统预测所述特征融合图上的各像素点是否为所述文字区域的边缘点,
若是,则保留所述像素点并标注并进入步骤S62;
若否,则将所述像素点视为非所述边缘点;
步骤S62,所述商品价签文字精确检测定位系统确定各所述边缘点对应为所述文字边框的哪一条边,并得到一边缘点为对应边的确定结果;
步骤S63,所述商品价签文字精确检测定位系统根据所述确定结果,提取出围合所述文字区域的所述文字边框;
步骤S64,所述商品价签文字精确检测定位系统将提取的所述文字边框作为对所述文字区域对应的所述文字边缘预测结果并存储。
作为本发明的一种优选方案,所述步骤S7中,所述商品价签文字精确检测定位系统综合形成所述文字区域预测结果的具体过程包括如下步骤:
步骤S71,所述商品价签文字精确检测定位系统计算框任意四边形围合的所述文字区域对应的第一区域面积;
步骤S72,所述商品价签文字精确检测定位系统计算旋转矩形框围合的所述文字区域对应的第二区域面积;
步骤S73,所述商品价签文字精确检测定位系统计算同一张所述特征融合图上的相同位置处的所述第一区域面积和所述第二区域面积的交并比;
步骤S74,所述商品价签文字精确检测定位系统判断所述交并比是否大于一预设的阈值,
若是,则判定所述任意四边形围合的所述文字区域和所述旋转矩形框围合的所述文字区域为真实的所述文字区域并进入步骤S75;
若否,则判定所述任意四边形围合的所述文字区域和所述旋转矩形框围合的所述文字区域为非真实的所述文字区域,并过滤掉所述相同位置处的所述任意四边形围合的所述文字区域和所述旋转矩形框围合的所述文字区域并进入步骤S75;
步骤S75,所述商品价签文字精确检测定位系统将判定为真实的处于所述相同位置处的所述任意四边形围合的所述文字区域和所述旋转矩形框围合的所述文字区域进行区域融合,最终得到一融合后的真实文字区域;
步骤S76,所述商品价签文字精确检测定位系统根据所述真实文字区域的形状特征,生成一外接矩形框以围合所述真实文字区域;
步骤S77,所述商品价签文字精确检测定位系统判断所述外接矩形框的各条边是否与预测的所述文字边框的对应边相交,
若是,则保留所述外接矩形框的对应的所述边;
若否,则将所述外接矩形框的所述边平移至对应所述文字边框的所述边的所在位置处;
步骤S78,重复执行所述步骤S71~所述步骤S77,直至完成对所有所述特征融合图上的所述文字区域的预测;
步骤S79,所述商品价签文字精确检测定位系统将最终确定的各所述外接矩形框围合的所述文字区域在所述商品价签图像上的具体所处位置作为所述文字区域预测结果输出。
本发明的有益效果是,
1、利用不同宽高比的矩形卷积核组合来合理设置感受野,提升了文字区域特征提取的准确度;
2、通过对商品价签图像的多尺度特征提取和多尺度特征融合,提升了对不同尺度价签文字的检测能力;
3、利用文字边缘信息辅助模型训练,提升了对文字边缘特征的提取能力。
附图说明
为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例中所需要使用的附图作简单地介绍。显而易见地,下面所描述的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明一实施例所述的商品价签文字精确检测定位系统的结构示意图;
图2是本发明一实施例所述的商品价签文字精确检测定位系统中的文字边缘预测模块的结构示意图;
图3是本发明一实施例所述的商品价签文字精确检测定位系统中的预测结果综合模块的结构示意图;
图4是本发明一实施例所述的商品价签文字精确检测定位方法的方法步骤图;
图5是本发明一实施例所述的商品价签文字精确检测定位方法中的步骤S6的分步骤图;
图6是本发明一实施例所述的商品价签文字精确检测定位方法中的步骤S7的分步骤图;
图7是本发明实施例所述的商品价签文字精确定位检测系统中的感受野调整模块提取特征图的特征提取网络的网络结构图;
图8是本发明实施例所述的商品价签文字精确定位检测系统中的特征融合模块融合得到特征融合图的示意图;
图9是本发明实施例所述的商品价签文字精确定位检测系统预测商品价签图像上的文字区域边框的预测结果示意图;
图10是本发明实施例所述的商品价签文字精确定位检测系统调整外接矩形框的框选范围最终形成文字区域预测结果的示意图。
具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
商品价签上的文字长宽比通常较大,文字尺度变化也较大,可能存在多种字体混合且变化多样的情况,导致现有的识别算法提供的文字检测框定位不准的主要原因是感受野不匹配、文字区域边缘特征不明显以及文字区域尺寸不匹配等。为了解决上述技术问题,本发明实施例提供了一种商品价签文字精确检测定位系统,用于对商品价签上的文字进行检测,请参照图1,本发明实施例提供的商品价签文字精确检测定位系统包括:
特征提取器1,特征提取器1中包括多层连接的卷积神经网络模块11,每一特征提取层中的卷积神经网络模块11用于提取待检测的商品价签图像对应的图像特征,得到每一特征提取层输出的商品价签图像对应的第一特征图;本发明为了提高识别精度,采用多尺度(多层)特征提取方式提取商品价签图像的图像特征;
感受野不匹配主要是因为当前的大多数识别算法采用3*3的“正方形”卷积核,其感受野通常为一个正方形区域,但价签上的文字大多是长宽比远大于1的矩形区域,这就使得感受野无法有效覆盖文字长度方向,或者在宽度方向上引入较多的周边信息,会降低对文字区域的识别准确度。所以为了解决感受野不匹配的问题,本发明提出增加矩形卷积和,比如1*n、3*n的卷积核等,以提升提取长字段文字特征的能力。
为了充分利用开源的优秀骨干网络模型,以降低训练商品价签文字检测模型的复杂度,请参照图1,本发明对特征提取器1中的每一层卷积神经网络模块11输出的第一特征图进行矩形卷积识别,不仅解决了感受野不匹配的问题,同时降低了模型训练的复杂度。
所以,请参照图1,本实施例提供的商品价签文字精确检测定位系统还包括:
多个感受野调整模块2,每个感受野调整模块2对应连接特征提取器1中的每一层上的卷积神经网络模块11,感受野调整模块2用于调整用于提取图像特征的感受野,然后以第一特征图为输入,提取各第一特征图对应的第二特征图;
请参照图7,感受野调整模块2中包括多个矩形卷积层,各卷积层中的卷积核数量以及卷积核尺寸可根据实际需要设置,比如可设置为1*1、1*6、1*9等。
请继续参照图1,为了便于对各第二特征图进行文字区域识别,本实施例提供的商品价签文字精确检测定位系统还包括:
多个特征融合模块3,每个特征融合模块3对应连接一个感受野调整模块2,特征融合模块3用于融合感受野调整模块输出的各第二特征图,得到第一特征图对应的特征融合图。
请参照图8,图8中的特征图1和特征图2均为第二特征图,当特征图1和特征图2的图像尺寸不一致时,首先将尺寸较小的第二特征图上采样到与另一第二特征图相同的图像尺寸,然后通过卷积运算,最终得到第一特征图对应的特征融合图。
形成特征融合图后需要对特征融合图上的文字区域进行预测,为了提高对不同尺度文字区域的识别能力,请继续参照图1,本实施例提供的商品价签文字精确检测定位系统还包括多个任意四边形预测模块4,每个任意四边形预测模块4对应连接一个特征融合模块3,用于对所连接的特征融合模块3输出的特征融合图上的文字区域进行任意四边形预测,并输出对该特征融合图的任意四边形预测结果。
本技术方案中,任意四边形预测模块4由一个1*1的卷积层和一位置敏感nms模块组成,主要用于预测一个包围文字区域的任意四边形(由四个顶点坐标表示)。卷积层输出一张9通道的特征图,前8个通道表示输入的特征融合图上的每个像素点对应的任意四边形的四个顶点坐标到该像素点的坐标的偏移值,任意四边形的四个顶点坐标可根据该偏移值像素点的坐标计算而得。第9个通道表示该像素点是文字的概率。位置敏感nms模块用于将确定为文字的像素点进行去重处理。判断一个像素点是否属于文字的条件是其为文字的概率是否超过一定阈值,该阈值可根据具体数据集进行灵活调整。最终框选出的每个任意四边形会生成一个对应的概率值,该值由其内部属于文字的所有像素点的平均概率值表示。
为了进一步提高对文字区域识别的精度,请继续参照图1,本实施例提供的商品价签文字精确检测定位系统还包括至少一个旋转矩形框预测模块5,每个旋转矩形框预测模块5对应连接一特征融合模块3,用于对特征融合图上的文字区域进行旋转矩形框预测,并输出对各特征融合图的旋转矩形框预测结果。
本实施例中,旋转矩形框预测模块5也由一个1*1的卷积层和位置敏感nms模块组成,主要用于预测一个包围文字区域的旋转矩形框(由像素点到旋转矩形框四条边的垂直距离表示)。1*1卷积层输出一张6通道的特征图,前4个通道表示输入的特征融合图上的每个像素点到其对应的旋转矩形框的四条边的距离,第5个通道为对应旋转矩形框的旋转角度,第6个通道为该像素点是文字的概率。旋转矩形框的四个顶点坐标可根据预测的该像素点到旋转矩形框的四条边的距离值和该像素点的坐标计算而得。这里的位置敏感nms模块与任意四边形预测模块中的位置敏感nms模块的作用相同。最终得到的每个旋转矩形框会生成一个对应的得分值,该值由其内部属于文字的所有像素点的平均概率值表示。
为了解决现有的识别算法输出的文字区域的文字边缘特征不明显的技术问题,请继续参照图1,本实施例提供的商品价签文字精确检测定位系统还包括:
至少一个文字边缘预测模块6,每个文字边缘预测模块6对应连接一个特征融合模块3,用于预测特征融合图上的各文字区域的文字边框,得到对文字区域的文字边缘预测结果。
具体而言,文字边缘预测模块6由一个1*1的卷积层和边框提取模块组成,文字边缘预测模块用于预测文字区域的文字边框。请参照图9,文字边框的每一条边由一个沿文字边缘线的狭窄mask(掩膜)区域表示。为了区分文字边框的各条边是属于左边、右边、上边还是下边,边框的4条边优选分别当做不同的分割实例表示,比如将左边标为绿色、将上边标为蓝色、将右边标为淡蓝色、将下边标为橙色。卷积层输出的一张5通道的特征图,第1个通道用于预测输入的特征融合图上的每个像素点是否为文字边缘的概率,后4个通道分别预测每个像素点是否属于对应的4条边中的其中一条边。边框提取模块根据设定阈值滤除概率值较低的像素点,剩余的概率值较高的边缘分割信息(像素点)被保留。
由于本发明是对商品价签图像进行多尺度图像特征提取及文字区域识别,所以最终需要对各任意四边形预测结果、各旋转矩形框预存结果、各文字边缘预测结果进行综合,形成最终的文字区域预测结果以更加直观地显示给用户,请继续参照图1,本实施例提供的商品价签文字精确检测定位系统还包括:
预测结果综合模块7,分别连接各任意四边形预测模块4、各旋转矩形框预测模块5和各文字边缘预测模块6,用于综合各任意四边形预测结果、各旋转矩形框预测结果和各文字边缘预测结果,最终形成对商品价签图像的文字区域预测结果并存储。
需要强调的是,感受野调整模块2提取第一特征图对应的第二特征图采用的卷积核优选为矩形卷积核。矩形卷积核可提升对长字段文字特征的提取能力。
上述技术方案中,优秀骨干网络模型优选为ResNet、VGG或Inception。
为了训练形成商品价签文字检测模型,本实施例提供的商品价签文字精确检测定位系统还包括:
模型训练模块(图中未示出),分别连接各任意四边形预测模块4、各旋转矩形框预测模块5和各文字边缘预测模块6,用于以任意四边形预测结果、和/或旋转矩形框预测结果、和/或文字边缘预测结果以及原始输入的商品价签图像为训练样本,训练形成一商品价签文字检测模型,商品价签文字检测模型用于对待检测的商品价签图像进行文字区域预测,并输出对商品价签图像的文字区域预测结果。
上述技术方案中,训练商品价签文字检测模型的训练网络优选采用ResNet或VGG或Inception。
由于旋转矩形框预测和文字边缘预测是基于单个像素点预测,计算量很大,所以为了提高商品价签文字区域的检测速度,优选地,请参照图1,旋转矩形框预测模块5的设置数量为一个,仅用于对经特征提取器1多层图像特征提取后最终输出的关联于商品价签图像的第一特征图对应的特征融合图上的文字区域进行旋转矩形框预测,输出一旋转矩形框预测结果。
同样的,请参照图1,文字边缘预测模块6的设置数量为一个,仅用于对经特征提取器1多层图像特征提取后最终输出的关联于商品价签图像的第一特征图对应的特征融合图上的文字区域进行文字边框预测,得到一文字边缘预测结果。
请参照图2,文字边缘预测模块6中具体包括:
文字边缘预测单元61,用于预测特征融合图上的各像素点是否为文字区域的边缘点,
若是,则保留该像素点并标注;
若否,则将该像素点视为非边缘点;
边缘点对应边确定单元62,连接文字边缘预测单元61,用于确定各边缘点对应为文字边框的哪一条边,并得到一边缘点为对应边的确定结果;
文字边框提取单元63,连接边缘点对应边确定单元62,用于根据确定结果,提取出围合文字区域的文字边框;
文字边缘预测结果形成单元64,连接文字边框提取单元63,用于将提取的文字边框作为对文字区域对应的文字边缘预测结果并存储。
请参照图3,预测结果综合模块7中具体包括:
任意四边形文字区域面积计算单元71,用于计算任意四边形预测模块框选出的任意四边形文字区域的第一区域面积;
旋转矩形框文字区域面积计算单元72,用于计算旋转矩形框预测模块框选出的旋转矩形框文字区域的第二区域面积;
文字区域面积交并比计算单元73,分别连接任意四边形文字区域面积计算单元71和旋转矩形框文字区域面积计算单元72,用于计算同一张特征融合图上的相同位置处的第一区域面积和第二区域面积的交并比;
文字区域判定单元74,连接文字区域面积交并比计算单元73,用于判断交并比是否大于一预设的阈值,
若是,则判定任意四边形围合的文字区域和旋转矩形框围合的文字区域为真实的文字区域;
若否,则判定任意四边形围合的文字区域和旋转矩形框围合的文字区域为非真实的文字区域,并过滤掉该相同位置处的任意四边形围合的文字区域和旋转矩形框围合的文字区域;
文字区域融合单元75,连接文字区域判定单元74,用于将判定为真实的处于相同位置处的任意四边形围合的文字区域和旋转矩形框围合的文字区域进行区域融合,得到一融合后的真实文字区域;
真实文字区域外接矩形框生成单元76,连接文字区域融合单元75,用于根据真实文字区域的形状特征,生成一外接矩形框以围合真实文字区域;
文字边框确定单元77,连接真实文字区域外接矩形框生成单元76,用于判断外接矩形框的各条边是否与文字边缘预测模块预测的文字边框的对应边相交,
若是,则保留外接矩形框的该条边;
若否,则将外接矩形框的该条边平移至对应的文字边框的边的所在位置处;
文字区域预测结果形成单元78,连接文字边框确定单元77,用于将最终确定的各外接矩形框围合的文字区域在商品价签图像上的具体所处位置作为文字区域预测结果输出。
请参照图4,本发明还提供了一种商品价签文字精确检测定位方法,通过应用上述的商品价签文字精确检测定位系统实现,该方法具体包括如下步骤:
步骤S1,商品价签文字精确检测定位系统多层提取待检测的商品价签图像对应的图像特征,得到每一特征提取层输出的商品价签图像对应的第一特征图;
步骤S2,商品价签文字精确检测定位系统调整用于提取图像特征的感受野,然后对各层输出的第一特征图进行进一步的图像特征提取,输出各第一特征图对应的第二特征图;
步骤S3,商品价签文字精确检测定位系统将第一特征图对应的各第二特征图进行图像融合,得到各第一特征图分别对应的特征融合图;
步骤S4,商品价签文字精确检测定位系统对各特征融合图上的文字区域进行任意四边形预测,输出对各特征融合图的任意四边形预测结果;
步骤S5,商品价签文字精确检测定位系统对各特征融合图上的文字区域进行旋转矩形框预测,并输出对各特征融合图的旋转矩形框预测结果;
步骤S6,商品价签文字精确检测定位系统对各特征融合图上的各文字区域进行文字边框预测,得到对各文字区域的文字边缘预测结果;
步骤S7,商品价签文字精确检测定位系统综合各任意四边形预测结果、各旋转矩形框预测结果和各文字边缘预测结果,最终形成对商品价签图像的文字区域预测结果并存储。
请参照图5,步骤S6中,商品价签文字精确检测定位系统对各文字区域进行文字边框预存的具体过程包括如下步骤:
步骤S61,商品价签文字精确检测定位系统预测特征融合图上的各像素点是否为文字区域的边缘点,
若是,则保留该像素点并标注并进入步骤S62;
若否,则将该像素点视为非边缘点;
步骤S62,商品价签文字精确检测定位系统确定各边缘点对应文字边框的哪一条边,并得到一边缘点为对应边的确定结果;
步骤S63,商品价签文字精确检测定位系统根据确定结果,提取出围合文字区域的文字边框;
步骤S64,商品价签文字精确检测定位系统将提取的文字边框作为对文字区域对应的文字边缘预测结果并存储。
请参照图6,步骤S7中,商品价签文字精确检测定位系统综合形成文字区域预测结果的具体过程包括如下步骤:
步骤S71,商品价签文字精确检测定位系统计算任意四边形围合的文字区域对应的第一区域面积;
步骤S72,商品价签文字精确检测定位系统计算旋转矩形框围合的文字区域对应的第二区域面积;
步骤S73,商品价签文字精确检测定位系统计算同一张特征融合图上的相同位置处的第一区域面积和所述第二区域面积的交并比;
步骤S74,商品价签文字精确检测定位系统判断交并比是否大于一预设的阈值,
若是,则判定任意四边形围合的文字区域和旋转矩形框围合的文字区域为真实的文字区域并进入步骤S75;
若否,则判定任意四边形围合的文字区域和旋转矩形框围合的文字区域为非真实的文字区域,并过滤掉相同位置处的任意四边形围合的文字区域和旋转矩形框围合的文字区域并进入步骤S75;
步骤S75,商品价签文字精确检测定位系统将判定为真实的处于相同位置处的任意四边形围合的文字区域和旋转矩形框围合的文字区域进行区域融合,最终得到一融合后的真实文字区域;
步骤S76,商品价签文字精确检测定位系统根据真实文字区域的形状特征,生成一外接矩形框以围合真实文字区域;
步骤S77,商品价签文字精确检测定位系统判断外接矩形框的各条边是否与预测的文字边框的对应边相交,
若是,则保留外接矩形框的对应的边;
若否,则将外接矩形框的边平移至对应文字边框的边的所在位置处;
步骤S78,重复执行步骤S71~步骤S77,直至完成对所有特征融合图上的文字区域的预测;
步骤S79,商品价签文字精确检测定位系统将最终确定的各外接矩形框围合的文字区域在商品价签图像上的具体所处位置作为文字区域预测结果输出。上述技术方案中,系统综合形成文字区域预测结果的具体过程详述如下:
1、首先根据特征融合图上的相同位置处的任意四边形围合的文字区域对应的第一区域面积和旋转矩形框围合的文字区域对应的第二区域面积的面积交并比iou判断得到特征融合图上真实存在的文字区域;
2、然后按照如下公式计算特征融合图上的相同位置处的任意四边形围合的文字区域的各个顶点和旋转矩形框围合的文字区域的对应顶点融合后的顶点坐标,融合后的顶点坐标的横向坐标x=(p1*x1+p2*x2+p3*x3)/(p1+p2+p3),融合后的顶点坐标的纵向坐标y=(p1*y1+p2*y2+p3*y3)/(p1+p2+p3),
上式中,p1用于表示第一个任意四边形预测模块预测结果(某个可能包括文字区域F的外接四边形)包含文字区域F的概率;
p2用于表示第二个任意四边形预测模块预测结果(可能包括文字区域F的外接四边形)包含文字区域F的概率;
p3用于表示旋转矩形框预测模块预测结果(可能包括文字区域F的外接旋转矩形框)包含文字区域F的概率;
x1用于表示第一个任意四边形预测模块预测文字区域F的某个顶点A的横向坐标;
x2用于表示第二个任意四边形预测模块预测文字区域F对应于A顶点的横向坐标;
x3用于表示旋转矩形框预测模块预测文字区域F对应于A顶点的横向坐标;
y1用于表示第一个任意四边形预测模块预测文字区域F的A顶点的纵向坐标;
y2用于表示第二个任意四边形预测模块预测文字区域F对应于A顶点的纵向坐标;
y3用于表示旋转矩形框预测模块预测文字区域F对应于A顶点的纵向坐标。
融合后的真实文字区域优选由任意四边形表示。
任意四边形围合的文字区域和旋转矩形框围合的文字区域融合完成后,请参照图10,按照如下过程融合文字边缘信息:
1、首先根据融合后的任意四边形生成一外接矩形框以围合真实文字区域;
2、分别判断该外接矩形框的四条边是否与预测的文字边框的对应边相交,如果相交,则保留外接矩形框的该条边,否则找到离该条边最近的文字边框上的对应边缘区域,然后将外接矩形框的该条边平移到与文字边框上的距离最近的那条边的所在位置处。具体请参照图10,左边缘区域和右边缘区域分别为文字边框的左条边和右条边,当外接矩形框的左条边与文字边框的左条边相交时,保留外接矩形框的左条边不动,当外接矩形框的右条边没有与文字边框的右条边相交,则将外接矩形框的右条边平移至文字边框的右条边的所在位置处。最终外接矩形框围合的文字区域即为本实施例提供的商品价签文字精确检测定位系统预测得到的文字区域预测结果。
综上,本发明大幅提高了对商品价签文字区域检测的准确率。
需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。
Claims (10)
1.一种商品价签文字精确检测定位系统,用于对商品价签上的文字进行检测、识别,其特征在于,包括:
特征提取器,所述特征提取器中包括多层连接的卷积神经网络模块,每一特征提取层中的所述卷积神经网络模块用于提取待检测的商品价签图像对应的图像特征,得到每一所述特征提取层输出的所述商品价签图像对应的第一特征图;
多个感受野调整模块,每个所述感受野调整模块对应连接所述特征提取器中的每一层上的所述卷积神经网络模块,所述感受野调整模块用于调整用于提取所述图像特征的感受野,然后以所述第一特征图为输入,提取各所述第一特征图对应的第二特征图;每个所述感受野调整模块中包括多个矩形卷积层,每个所述矩形卷积层中的卷积核数量以及卷积核尺寸相同或不同,每个所述矩形卷积层中的卷积核尺寸具有相同或不同的宽高比;
多个特征融合模块,每个所述特征融合模块对应连接一所述感受野调整模块,用于融合所述感受野调整模块输出的各所述第二特征图,得到所述第一特征图对应的特征融合图;
多个任意四边形预测模块,每个所述任意四边形预测模块对应连接一所述特征融合模块,用于对所述特征融合图上的文字区域进行任意四边形预测,并输出对所述特征融合图的任意四边形预测结果;
至少一个旋转矩形框预测模块,每个所述旋转矩形框预测模块对应连接一所述特征融合模块,用于对所述特征融合图上的所述文字区域进行旋转矩形框预测,并输出对各所述特征融合图的旋转矩形框预测结果;
至少一个文字边缘预测模块,每个所述文字边缘预测模块对应连接一个所述特征融合模块,用于预测所述特征融合图上的各所述文字区域的文字边框,得到对各所述文字区域的文字边缘预测结果;
预测结果综合模块,分别连接各所述任意四边形预测模块、各所述旋转矩形框预测模块和各所述文字边缘预测模块,用于综合各所述任意四边形预测结果、各所述旋转矩形框预测结果和各所述文字边缘预测结果,最终形成对所述商品价签图像的文字区域预测结果并存储。
2.如权利要求1所述的商品价签文字精确检测定位系统,其特征在于,所述感受野调整模块提取所述第一特征图对应的所述第二特征图采用的卷积核为矩形卷积核。
3.如权利要求1所述的商品价签文字精确检测定位系统,其特征在于,还包括:
模型训练模块,分别连接各所述任意四边形预测模块、各所述旋转矩形框预测模块和各所述文字边缘预测模块,用于以所述任意四边形预测结果、和/或所述旋转矩形框预测结果、和/或所述文字边缘预测结果以及原始输入的所述商品价签图像为训练样本,训练形成一商品价签文字检测模型,所述商品价签文字检测模型用于对待检测的所述商品价签图像进行文字区域检测,并输出对所述商品价签图像的所述文字区域预测结果。
4.如权利要求1所述的商品价签文字精确检测定位系统,其特征在于,所述旋转矩形框预测模块的设置数量为一个,仅用于对经所述特征提取器多层图像特征提取后最终输出的关联于所述商品价签图像的所述第一特征图对应的所述特征融合图上的所述文字区域进行旋转矩形框预测,输出一所述旋转矩形框预测结果。
5.如权利要求1所述的商品价签文字精确检测定位系统,其特征在于,所述文字边缘预测模块的设置数量为一个,仅用于对经所述特征提取器多层图像特征提取后最终输出的关联于所述商品价签图像的所述第一特征图对应的所述特征融合图上的所述文字区域进行文字边框预测,得到一所述文字边缘预测结果。
6.如权利要求1所述的商品价签文字精确检测定位系统,其特征在于,所述文字边缘预测模块中具体包括:
文字边缘预测单元,用于预测所述特征融合图上的各像素点是否为所述文字区域的边缘点,
若是,则保留所述像素点并标注;
若否,则将所述像素点视为非所述边缘点;
边缘点对应边确定单元,连接所述文字边缘预测单元,用于确定各所述边缘点对应为所述文字边框的哪一条边,并得到一边缘点为对应边的确定结果;
文字边框提取单元,连接所述边缘点对应边确定单元,用于根据所述确定结果,提取出围合所述文字区域的所述文字边框;
文字边缘预测结果形成单元,连接所述文字边框提取单元,用于将提取的所述文字边框作为对所述文字区域对应的所述文字边缘预测结果并存储。
7.如权利要求6所述的商品价签文字精确检测定位系统,其特征在于,所述预测结果综合模块中具体包括:
任意四边形文字区域面积计算单元,用于计算所述任意四边形预测模块框选出的任意四边形文字区域的第一区域面积;
旋转矩形框文字区域面积计算单元,用于计算所述旋转矩形框预测模块框选出的旋转矩形框文字区域的第二区域面积;
文字区域面积交并比计算单元,分别连接所述任意四边形文字区域面积计算单元和所述旋转矩形框文字区域面积计算单元,用于计算同一张所述特征融合图上的相同位置处的所述第一区域面积和所述第二区域面积的交并比;
文字区域判定单元,连接所述文字区域面积交并比计算单元,用于判断所述交并比是否大于一预设的阈值,
若是,则判定任意四边形围合的所述文字区域和旋转矩形框围合的所述文字区域为真实的所述文字区域;
若否,则判定所述任意四边形围合的所述文字区域和所述旋转矩形框围合的所述文字区域为非真实的所述文字区域,并过滤掉所述相同位置处的所述任意四边形围合的所述文字区域和所述旋转矩形框围合的所述文字区域;
文字区域融合单元,连接所述文字区域判定单元,用于将判定为真实的处于所述相同位置处的所述任意四边形围合的所述文字区域和所述旋转矩形框围合的所述文字区域进行区域融合,最终得到一融合后的真实文字区域;
真实文字区域外接矩形框生成单元,连接所述文字区域融合单元,用于根据所述真实文字区域的形状特征,生成一外接矩形框以围合所述真实文字区域;
文字边框确定单元,连接所述真实文字区域外接矩形框生成单元,用于判断所述外接矩形框的各条边是否与所述文字边缘预测模块预测的所述文字边框的对应边相交,
若是,则保留所述外接矩形框的对应的所述边;
若否,则将所述外接矩形框的所述边平移至对应所述文字边框的所述边的所在位置处;
文字区域预测结果形成单元,连接所述文字边框确定单元,用于将最终确定的各所述外接矩形框围合的所述文字区域在所述商品价签图像上的具体所处位置作为所述文字区域预测结果输出。
8.一种商品价签文字精确检测定位方法,通过应用如权利要求1-7任意一项的所述商品价签文字精确检测定位系统实现,其特征在于,包括如下步骤:
步骤S1,所述商品价签文字精确检测定位系统多层提取待检测的所述商品价签图像对应的所述图像特征,得到每一所述特征提取层输出的所述商品价签图像对应的所述第一特征图;
步骤S2,所述商品价签文字精确检测定位系统调整用于提取所述图像特征的所述感受野,然后对各层输出的所述第一特征图进行进一步的图像特征提取,输出各所述第一特征图对应的所述第二特征图;
步骤S3,所述商品价签文字精确检测定位系统将所述第一特征图对应的各所述第二特征图进行图像融合,得到各所述第一特征图分别对应的所述特征融合图;
步骤S4,所述商品价签文字精确检测定位系统对各所述特征融合图上的所述文字区域进行任意四边形预测,输出对各所述特征融合图的所述任意四边形预测结果;
步骤S5,所述商品价签文字精确检测定位系统对各所述特征融合图上的所述文字区域进行旋转矩形框预测,并输出对各所述特征融合图的所述旋转矩形框预测结果;
步骤S6,所述商品价签文字精确检测定位系统对各所述特征融合图上的各所述文字区域进行文字边框预测,得到对各所述文字区域的文字边缘预测结果;
步骤S7,所述商品价签文字精确检测定位系统综合各所述任意四边形预测结果、各所述旋转矩形框预测结果和各所述文字边缘预测结果,最终形成对所述商品价签图像的所述文字区域预测结果并存储。
9.如权利要求8所述的商品价签文字精确检测定位方法,其特征在于,所述步骤S6中,所述商品价签文字精确检测定位系统对各所述文字区域进行文字边框预测的具体过程包括如下步骤:
步骤S61,所述商品价签文字精确检测定位系统预测所述特征融合图上的各像素点是否为所述文字区域的边缘点,
若是,则保留所述像素点并标注并进入步骤S62;
若否,则将所述像素点视为非所述边缘点;
步骤S62,所述商品价签文字精确检测定位系统确定各所述边缘点对应为所述文字边框的哪一条边,并得到一边缘点为对应边的确定结果;
步骤S63,所述商品价签文字精确检测定位系统根据所述确定结果,提取出围合所述文字区域的所述文字边框;
步骤S64,所述商品价签文字精确检测定位系统将提取的所述文字边框作为对所述文字区域对应的所述文字边缘预测结果并存储。
10.如权利要求8所述的商品价签文字精确检测定位方法,其特征在于,所述步骤S7中,所述商品价签文字精确检测定位系统综合形成所述文字区域预测结果的具体过程包括如下步骤:
步骤S71,所述商品价签文字精确检测定位系统计算框任意四边形围合的所述文字区域对应的第一区域面积;
步骤S72,所述商品价签文字精确检测定位系统计算旋转矩形框围合的所述文字区域对应的第二区域面积;
步骤S73,所述商品价签文字精确检测定位系统计算同一张所述特征融合图上的相同位置处的所述第一区域面积和所述第二区域面积的交并比;
步骤S74,所述商品价签文字精确检测定位系统判断所述交并比是否大于一预设的阈值,
若是,则判定所述任意四边形围合的所述文字区域和所述旋转矩形框围合的所述文字区域为真实的所述文字区域并进入步骤S75;
若否,则判定所述任意四边形围合的所述文字区域和所述旋转矩形框围合的所述文字区域为非真实的所述文字区域,并过滤掉所述相同位置处的所述任意四边形围合的所述文字区域和所述旋转矩形框围合的所述文字区域并进入步骤S75;
步骤S75,所述商品价签文字精确检测定位系统将判定为真实的处于所述相同位置处的所述任意四边形围合的所述文字区域和所述旋转矩形框围合的所述文字区域进行区域融合,最终得到一融合后的真实文字区域;
步骤S76,所述商品价签文字精确检测定位系统根据所述真实文字区域的形状特征,生成一外接矩形框以围合所述真实文字区域;
步骤S77,所述商品价签文字精确检测定位系统判断所述外接矩形框的各条边是否与预测的所述文字边框的对应边相交,
若是,则保留所述外接矩形框的对应的所述边;
若否,则将所述外接矩形框的所述边平移至对应所述文字边框的所述边的所在位置处;
步骤S78,重复执行所述步骤S71~所述步骤S77,直至完成对所有所述特征融合图上的所述文字区域的预测;
步骤S79,所述商品价签文字精确检测定位系统将最终确定的各所述外接矩形框围合的所述文字区域在所述商品价签图像上的具体所处位置作为所述文字区域预测结果输出。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911375053.0A CN111027554B (zh) | 2019-12-27 | 2019-12-27 | 商品价签文字精确检测定位系统及定位方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201911375053.0A CN111027554B (zh) | 2019-12-27 | 2019-12-27 | 商品价签文字精确检测定位系统及定位方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111027554A CN111027554A (zh) | 2020-04-17 |
CN111027554B true CN111027554B (zh) | 2023-05-23 |
Family
ID=70196047
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201911375053.0A Active CN111027554B (zh) | 2019-12-27 | 2019-12-27 | 商品价签文字精确检测定位系统及定位方法 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111027554B (zh) |
Families Citing this family (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN112115932B (zh) * | 2020-08-19 | 2023-11-14 | 泰康保险集团股份有限公司 | 文本提取方法、装置、电子设备及存储介质 |
CN112712080B (zh) * | 2021-01-08 | 2021-09-28 | 北京匠数科技有限公司 | 一种用于走字屏采集图像的文字识别处理方法 |
CN115018492A (zh) * | 2022-07-18 | 2022-09-06 | 北京师范大学 | 一种基于人工智能的智慧校园自动结账方法及系统 |
CN116563573B (zh) * | 2023-01-12 | 2023-10-13 | 北京爱咔咔信息技术有限公司 | 一种商品与价签的匹配方法、装置、设备及存储介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127204A (zh) * | 2016-06-30 | 2016-11-16 | 华南理工大学 | 一种全卷积神经网络的多方向水表读数区域检测算法 |
CN107316016A (zh) * | 2017-06-19 | 2017-11-03 | 桂林电子科技大学 | 一种基于Hadoop和监控视频流的车辆轨迹统计方法 |
CN107862261A (zh) * | 2017-10-25 | 2018-03-30 | 天津大学 | 基于多尺度卷积神经网络的图像人群计数方法 |
CN110020676A (zh) * | 2019-03-18 | 2019-07-16 | 华南理工大学 | 基于多感受野深度特征的文本检测方法、系统、设备及介质 |
CN110298266A (zh) * | 2019-06-10 | 2019-10-01 | 天津大学 | 基于多尺度感受野特征融合的深度神经网络目标检测方法 |
Family Cites Families (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108171104B (zh) * | 2016-12-08 | 2022-05-10 | 腾讯科技(深圳)有限公司 | 一种文字检测方法及装置 |
US10679085B2 (en) * | 2017-10-31 | 2020-06-09 | University Of Florida Research Foundation, Incorporated | Apparatus and method for detecting scene text in an image |
CN108446698B (zh) * | 2018-03-15 | 2020-08-21 | 腾讯大地通途(北京)科技有限公司 | 在图像中检测文本的方法、装置、介质及电子设备 |
CN108960229B (zh) * | 2018-04-23 | 2022-04-01 | 中国科学院信息工程研究所 | 一种面向多方向的文字检测方法和装置 |
EP3584742A1 (en) * | 2018-06-19 | 2019-12-25 | KPIT Technologies Ltd. | System and method for traffic sign recognition |
CN109447078B (zh) * | 2018-10-23 | 2020-11-06 | 四川大学 | 一种自然场景图像敏感文字的检测识别方法 |
CN109886174A (zh) * | 2019-02-13 | 2019-06-14 | 东北大学 | 一种仓库货架标识牌文字识别的自然场景文字识别方法 |
-
2019
- 2019-12-27 CN CN201911375053.0A patent/CN111027554B/zh active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN106127204A (zh) * | 2016-06-30 | 2016-11-16 | 华南理工大学 | 一种全卷积神经网络的多方向水表读数区域检测算法 |
CN107316016A (zh) * | 2017-06-19 | 2017-11-03 | 桂林电子科技大学 | 一种基于Hadoop和监控视频流的车辆轨迹统计方法 |
CN107862261A (zh) * | 2017-10-25 | 2018-03-30 | 天津大学 | 基于多尺度卷积神经网络的图像人群计数方法 |
CN110020676A (zh) * | 2019-03-18 | 2019-07-16 | 华南理工大学 | 基于多感受野深度特征的文本检测方法、系统、设备及介质 |
CN110298266A (zh) * | 2019-06-10 | 2019-10-01 | 天津大学 | 基于多尺度感受野特征融合的深度神经网络目标检测方法 |
Non-Patent Citations (1)
Title |
---|
基于改进Faster R-CNN的自然场景文字检测算法;杨宏志;庞宇;王慧倩;;重庆邮电大学学报(自然科学版)(06);全文 * |
Also Published As
Publication number | Publication date |
---|---|
CN111027554A (zh) | 2020-04-17 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN111027554B (zh) | 商品价签文字精确检测定位系统及定位方法 | |
EP3620981B1 (en) | Object detection method, device, apparatus and computer-readable storage medium | |
CN107977620B (zh) | 一种基于全卷积网络的多方向场景文本单次检测方法 | |
EP3454250B1 (en) | Facial image processing method and apparatus and storage medium | |
CN110163640B (zh) | 一种在视频中植入广告的方法及计算机设备 | |
CN113362329B (zh) | 病灶检测模型的训练方法及识别图像中的病灶的方法 | |
CN110309824B (zh) | 文字检测方法、装置以及终端 | |
CN110232713B (zh) | 一种图像目标定位修正方法及相关设备 | |
WO2019227954A1 (zh) | 识别交通灯信号的方法、装置、可读介质及电子设备 | |
EP1091320A2 (en) | Processing multiple digital images | |
CN111178355B (zh) | 印章识别方法、装置和存储介质 | |
CN111091123A (zh) | 文本区域检测方法及设备 | |
EP1081648B1 (en) | Method for processing a digital image | |
CN113673338A (zh) | 自然场景文本图像字符像素弱监督自动标注方法、系统及介质 | |
US20240153138A1 (en) | Methods, systems, and computer-readable storage mediums for positioning target object | |
CN114155527A (zh) | 一种场景文本识别方法和装置 | |
CN112418216A (zh) | 一种复杂自然场景图像中的文字检测方法 | |
CN114627052A (zh) | 一种基于深度学习的红外图像漏气漏液检测方法及系统 | |
CN109815854B (zh) | 一种用于在用户设备上呈现图标的关联信息的方法与设备 | |
CN111680690A (zh) | 一种文字识别方法及装置 | |
CN110569789A (zh) | 商品组合型sku识别方法及其装置 | |
CN110598698A (zh) | 基于自适应区域建议网络的自然场景文本检测方法和系统 | |
CN110910334A (zh) | 一种实例分割方法、图像处理设备及计算机可读存储介质 | |
CN113205024B (zh) | 工程图纸的预处理方法、装置、电子设备和存储介质 | |
CN111738252A (zh) | 图像中的文本行检测方法、装置及计算机系统 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |