CN109635808B - 一种在自然场景图像中对中文关键词及上下文的提取方法 - Google Patents

一种在自然场景图像中对中文关键词及上下文的提取方法 Download PDF

Info

Publication number
CN109635808B
CN109635808B CN201811294643.6A CN201811294643A CN109635808B CN 109635808 B CN109635808 B CN 109635808B CN 201811294643 A CN201811294643 A CN 201811294643A CN 109635808 B CN109635808 B CN 109635808B
Authority
CN
China
Prior art keywords
chinese
textline
keyword
text
coefficient
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811294643.6A
Other languages
English (en)
Other versions
CN109635808A (zh
Inventor
王蕊
田晓玮
梁栋
邹聪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201811294643.6A priority Critical patent/CN109635808B/zh
Publication of CN109635808A publication Critical patent/CN109635808A/zh
Application granted granted Critical
Publication of CN109635808B publication Critical patent/CN109635808B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种在自然场景图像中对中文关键词及上下文的提取方法,步骤包括:准备一个合适的中文数据集及物体检测分类模型,调整现有标注,对中文逐一文字进行标注;对图片进行中文文字检测,基于物体检测分类模型,将中文文字作为不同类别进行检测分类将;通过计算自定义的匹配系数,从物体检测分类结果中提取关键词,通过不断更新锚点关键词和生成候选直线的方式提取上下文信息。本发明在中文文字关键词及上下文识别上有高精度高召回的效果。

Description

一种在自然场景图像中对中文关键词及上下文的提取方法
技术领域
本发明属于计算机视觉技术领域,具体涉及一种能够在自然场景图像中准确识别中文关键词及上下文内容的方法。
背景技术
文字作为信息传播的载体,它所蕴含的丰富的语义信息可以帮助人们更好地理解自然场景,服务于众多的应用场景:车牌识别、名片识别、快速信息录入、交通指示牌识别、海报识别等。在安防、教育、物流、电子商务、旅游导航、自动驾驶等多个行业中都直接或间接用到了文字检测和识别技术。
OCR(Optical Character Recognition,光学字符识别)指的是针对扫描文档图像或是证件等其他扫描件进行分析处理,提取并识别出图像中包含的文字信息。STR(SceneText Recognition,场景文字识别)与OCR不同,分析处理的对象不再是扫描件等具有特定格式的图像,而是自然场景下的图片。自然场景图片多取材于手机、摄像头或其他摄像工具直接拍摄,与扫描件相比,图像中的文字展现形式更为丰富。相较于已有较为成熟的OCR技术,自然场景下的图像文本识别依然是目前的研究热点。
STR的主要难点有以下几个方面。一是自然场景下的字符可以有不同的大小、字体、颜色;二是自然场景下的文本行可能存在倾斜、竖向、旋转、扭曲等排版样式;三是自然场景下的文字区域可能存在变形、透视、模糊、遮挡等影响;四是自然场景下文字背景多种多样、文字可通过多种方式附着在其他物体上;最后是人为拍摄或采集的图像可能有噪点、光照、阴影等多种因素影响图像质量。
目前,涉及到自然场景下文字检测方法主要有两阶段和端到端两种不同的方案。两阶段主要是通过前期文字检测方法,从图像中提取文字区域,进而将文字区域输入到文字识别方法中,最终结合两阶段方法的输出,提取到自然场景中的主要文字。其中第一阶段文字检测的主要方法包括:传统方法,如最大稳定极值区域(MSER)、颜色聚类(ColorClustering)、笔画宽度变换(SWT)和梯度方向直方图(HOG)等方法;和基于深度学习的方法,如CTPN、FTSN、EAST等方法。第二阶段的文字识别的主要方法包括:PhotoOCR、CRNN、ASTER等诸多方法。与两阶段方法相对应的端到端的方法指的是不单独经过文字检测步骤的文字识别方法,此类方法直接将图像输入到训练好的模型中,文字识别算法在提取文本行的同时得到包含的文字内容。此类方法大多建立在机器学习的基础上,如FOTS、STN-OCR等。
以上涉及到的方法大都应用于处理英文等拉丁语系的文字检测及识别,对中文的识别能力较差,主要的原因包括而不限于以下几个方面。一是英文单词间有空格分割,以单词为识别的最小单元易于分划出文字框或是传入到识别网络;中文则没有空格作为分割符号,以整条文本行作为识别的最小单元面临长度差异较大等诸多困难点。二是英文字符只有26个不同字母,而中文字符种类远远多于英文字符种类,识别困难。三是中文的排版相较于英文更为复杂,中文文字可以横向或是竖向排布,英文大都以横向或与水平方向略有倾角。
近些年来,伴随着深度学习的高速发展,主流的文字检测和识别方法大都采用了深度学习的方法来获取文字的纹理特征,进而辨别出文字区域和文字内容。针对中文的检测及识别的方法也多种多样,主流的方法大多利用机器学习中物体检测的方法,对中文单字进行检测及分类,但针对关键词及上下文抽取构成文本行等任务依然存在着较大的挑战。
发明内容
本发明的目的是提出一种在自然场景图像中对中文关键词及上下文的提取方法。本方法通过预先训练一个基于中文文字的物体检测模型,基于该模型进行中文文字检测分类、关键词组合提取、上下文提取。
为实现上述目的,本发明采用如下技术方案:
一种在自然场景图像中对中文关键词及上下文的提取方法,包括以下步骤:
将目标图像输入到一可输出包含中文单字的文本框及所属类别的物体检测分类模型中,得到分类结果{(Bi,Ki)},其中Bi表示文本框的相关属性,Ki表示所属类别;
依次根据锚点关键词含有的相邻两个类别K1、K2,从分类结果{(Bi,Ki)}中选取该两个类别K1、K2分别所在的文本框索引index1、index2,找出关键词i∈index1、关键词j∈index2,计算其对应的Bi、Bj之间的尺度系数SR和尺度距离系数SER,进而计算匹配系数PR,将PR的最小值对应的(i,j)作为关键词匹配对存入一集合P中;
从集合P中依次取出一关键词匹配对p,p包含((Bl,Kl),(Br,Kr)),并提取上下文文本行TextLine;
根据p的两个中心点坐标,生成直线line;
从分类结果{(Bi,Ki)}中找出属于TextLine的每一个(Bi,Ki);
计算Bi与line的距离DISi,以及Bi与Bl和Br间的尺度系数SRi,生成上下文候选队列Queue;
将Queue中的元素根据line的方向排序,逐一计算邻接距离比AdR和尺度系数AdSR,据以更新TextLine;
按照更新方向将最靠近更新端点的两个元素作为新的p,并根据其两中心点坐标生成新的直线,执行与上述直线line相同的后续处理,重复处理,直至TextLine不再更新,输出最终的TextLine。
进一步地,使用p初始化TextLine,则TextLine的初始元素为{(Bl,Kl),(Br,Kr)}。
进一步地,将含有所需提取的中文关键词及其可能的上下文文字的训练集,对所选择的数据集进行预处理,得到所述标注的数据集;通过由标注的数据集训练所述物体检测分类模型,该标注的数据集包括中文单字的文本框标注及其以文字内容作为类别的标签。
进一步地,所选择的数据集为CTW数据集。
进一步地,所述预处理包括标注每个中文文字的文本框、类别及每个中文文本行包含的文本框及文字内容。
进一步地,所述物体检测分类模型包括Faster R-CNN、SSD、Yolo、多分类的文字检测模型、基于非机器学习的文字检测分类模型。
进一步地,根据物体检测分类模型属性,对目标图像进行裁剪,对裁剪的图片保持长宽比例不变进行缩放至所需尺寸。
进一步地,根据事先给定的或词库统计选取的中文关键词,制定锚点关键词。
进一步地,依次根据锚点关键词含有的相邻两个类别K1、K2,是指若锚点关键词只含有两个类别A、B,则K1=A,K2=B;若锚点关键词含有两个以上类别A、B、C……,则第一次为K1=A,K2=B,第二次为K1=B,K2=C,第三次为K1=C,K2=……。
进一步地,集合P采用map或set的数据结构进行存储。
一种在自然场景图像中对中文关键词及上下文的提取系统,包括:
一准备模块,用于通过一训练集对一数据集进行预处理,得到标注的数据集,由标注的数据集对一物体检测分类模型进行训练,使其可输出包含中文单字的文本框及所属类别;
一中文文字检测分类模块,用于对目标图像进行预处理,输入到物体检测分类模型得到分类结果{(Bi,Ki)},其中Bi表示文本框的相关属性,Ki表示所属类别;
一关键词组合提取模块,依次根据锚点关键词含有的相邻两个类别K1、K2,从分类结果{(Bi,Ki)}中选取该两个类别K1、K2分别所在的文本框索引index1、index2,找出关键词i∈index1、关键词j∈index2,计算其对应的Bi、Bj之间的尺度系数SR和尺度距离系数SER,进而计算匹配系数PR,将PR的最小值对应的(i,j)作为关键词匹配对存入一集合P中;
一上下文提取模块,用于从集合P中依次取出一关键词匹配对p,p包含((Bl,Kl),(Br,Kr)),并提取上下文文本行TextLine;根据p的两个中心点坐标,生成直线line;从分类结果{(Bi,Ki)}中找出属于TextLine的每一个(Bi,Ki);计算Bi与line的距离DISi,以及Bi与Bl和Br间的尺度系数SRi,生成上下文候选队列Queue;将Queue中的元素根据line的方向排序,逐一计算邻接距离比AdR和尺度系数AdSR,据以更新TextLine;按照更新方向,将最靠近更新端点的两个元素作为新的p,并根据其两中心点坐标生成新的直线,执行与上述直线line相同的后续处理,重复处理,直至TextLine不再更新,输出最终的TextLine。
与现有的技术相比,本发明的优点在于:
1、可与任意主流的物体检测分类模型结合,生成包含上下文的关键词词条。
2、处理方法基于几何关系,方法简单,无需额外的训练过程。
3、方法适应性强,对复杂排版(如:水平、垂直、倾斜、透视、弯曲)下的中文关键词词条提取任务,有高精度的测试结果。
附图说明
图1是实施例中提供的本发明方法及系统的总体架构图。
图2是本发明方法的应用原理图。
图3A-3I是对本发明方法进行的实例测试图。
具体实施方式
为使本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图作详细说明如下。
本发明公开的方法可通过本发明公开的系统的四个模块来实现,该四个模块包括准备模块、中文文字检测分类模块、关键词组合提取模块和上下文提取模块,架构如图1所示,原理如图2所示。具体说明如下:
1、准备模块:
S11:准备一个包含所需提取的中文关键词及其可能的上下文文字的训练集,对所选择的数据集进行预处理,该预处理包括标注每个中文文字的文本框、类别及每个中文文本行包含的文本框及文字内容,以构造中文单字的文本框标注及其以文字内容作为类别的标签,得到标注的数据集。
S12:通过标注的数据集训练一个合适的物体检测分类模型,该模型可选择任意的物体检测模型,如Faster R-CNN、SSD、Yolo等均可,也可以使用多分类的文字检测模型,或是基于非机器学习的文字检测分类模型,该模型需保证输出包含中文单字的文本框及所属类别(文字内容)。
2、中文文字检测分类模块:
S21:根据准备模块选择的物体检测分类模型要求,对待测试的目标图像进行如下预处理:保持图片长宽比例不变的情况下缩放至所需尺寸。
S22:将待测试的目标图像送入物体检测分类模型检测,得到分类结果{(Bi,Ki)},其中Bi指的是文本框的相关属性,Ki指的是所属类别。
3、关键词组合提取模块:
S31:根据事先给定的中文关键词或根据词库统计选取的中文关键词,制定锚点关键词。假设某锚点关键词由类别K1及K2构成。
S32:从中文文字检测分类模块得到的结果{(Bi,Ki)}中选取K1及K2所在的文本框索引index1和index2
S33:对index1和index2进行双重循环遍历,对于关键词i∈index1,关键词j∈index2,计算Bi和Bj的尺度系数(SR)及尺度距离系数(SER),进而计算匹配系数(PR)。若PR满足规则:对于i而言每次存储使得PR最小的j的匹配对(i,j),则将(i,j)对存入关键词匹配对集合P中。
上述步骤S31中,对于锚点关键词为多词结构,如ABC结构,则利用AB和BC分别进行后续步骤。
上述步骤S33中,对于集合P,可以用map结构或set等数据结构进行存储,以避免产生匹配的重复。
4、上下文提取模块:
S41:根据关键词组合提取模块产生的集合P,依次取出关键词匹配对p∈P,p包含两个文本框的相关属性((Bl,Kl),(Br,Kr)),提取上下文。
S42:根据p的两个中心点坐标,生成直线line,直线line具有方向,其初始方向为K1到K2。使用p初始化上下文文本行TextLine,TextLine的初始元素即为{(Bl,Kl),(Br,Kr)}。
S43:遍历选取中文文字检测分类模块得到的分类结果{(Bi,Ki)}\TextLine中每一个(Bi,Ki)。
S44:计算Bi与line的距离(DISi)以及Bi与Bl和Br间的尺度系数(SRi)。
S45:根据Bi对应DISi和SRi取值,生成上下文候选队列Queue。并对Queue元素根据line方向进行排序。
S46:对Queue元素逐一计算邻接距离比(AdR)和尺度系数(AdSR)。
S47:根据S46结果更新TextLine,若TextLine有更新,则根据更新方向(首部、尾部)重新利用最靠近更新端点的两个元素作为新的p,并根据中心点坐标生成新的直线line。重复步骤S43至步骤S47直到TextLine不再更新。
S48:输出TextLine。
本发明提出的中文关键词及上下文提取方法是建立在文字检测分类模型之上的方法。在本例中,准备模块选取了CTW数据集作为本方法的数据集,SSD作为使用的物体检测分类网络架构,VGG-16作为分类网络的基础网络。对街景图像中出现的文字进行粗略统计后,选取了最常见的1000个单字作为了分类网络的类别标签。具体实施可根据实际需求,选择不同的数据集、不同的分类网络架构、不同的基础网络或不同的类别标注。根据SSD需要,对图像进行了裁切,训练过程中对每张图片裁切为196张168*168的子图,并缩放到512*512。
关键词组合提取模块中,本例选择了四个中文词汇作为关键词,分别为“中国”“酒店”“城市”和“宾馆”,如图3A-3I所示。对于Bi和Bj计算SR及尺度距离系数SER的公式如下:
Figure BDA0001850841740000061
Figure BDA0001850841740000062
其中
Figure BDA0001850841740000063
Figure BDA0001850841740000064
分别指的是Bi文本框的高度、宽度和中心点坐标,类似地,
Figure BDA0001850841740000065
Figure BDA0001850841740000066
分别指的是Bj文本框的高度、宽度和中心点坐标。
根据SR和SER可以计算出PR,计算公式如下:
Figure BDA0001850841740000067
而有效的匹配应为同一关键词匹配中计算PR值最低的一组。
上下文提取模块中,对于候选Bi的SRi计算方法如下:
Figure BDA0001850841740000068
而由计算的DISi和SRi生成候选队列时需要满足的关系为:
Figure BDA0001850841740000069
η1<SRi<η2 (6)
其中η1和η2分别设定为1/2和2。对于Queue元素逐一计算AdR和AdSR的计算方法如下:
Figure BDA0001850841740000071
Figure BDA0001850841740000072
Figure BDA0001850841740000073
而由计算的AdR和AdSR生成文本行需要满足的关系为:
α1<AdRi<α2 (10)
β1<AdSRi<β2 (11)
其中α11和α22分别设定为1/2和2。
本发明提出的在自然场景图像中对中文关键词及上下文的提取方法,其测试环境及实验结果为:
(1)测试环境:
系统环境:CentOS7;
硬件环境:内存:64GB,GPU:GTX 1080,硬盘:2TB;
(2)实验数据:
训练数据:CTW训练集
测试数据:CTW测试集
评估方法:对关键词提取、上下文提取进行测试。
(3)实验结果:
为说明本发明的效果,对整体步骤流程进行了分步测试。由于关键词组合提取模块、上下文提取模块的效果是由中文文字检测分类模块所影响,以下实验测试结果仅针对使用具体实施方法中所述的基础网络框架作为检测框架下的实验测试结果。
表1关键词提取任务在CTW数据集中的效果表现
序号 关键词 P R F
1 中国 0.76 1 0.86
2 酒店 0.84 1 0.92
3 城市 0.62 1 0.96
4 宾馆 0.92 1 0.91
5 平均值 0.79 1 0.91
其中P指准确率,R指召回率,F是P和R的调和平均数。从表1中可以清楚地看到,本发明所涉及到的关键词提取是有效的。若选取更为精准的物体检测模型,F值可以进一步得到提升。
表2上下文提取任务在CTW数据集中的效果表现
序号 关键词 P R F
1 中国 0.92 0.94 0.93
2 酒店 0.95 0.99 0.96
3 城市 0.85 0.99 0.91
4 宾馆 0.95 1 0.97
5 平均值 0.92 0.96 0.94
其中P、R、F与前文相同。从表2中可以清楚地发现,针对提取出的中文关键词,上下文提取模块可以很好的提取到包含关键词的上下文信息。本模块的实验结果可以随着前面几个模块效果的提高而得到进一步提升。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本发明的保护范围应以权利要求书所述为准。

Claims (9)

1.一种在自然场景图像中对中文关键词及上下文的提取方法,包括以下步骤:
将目标图像输入到一可输出包含中文单字的文本框及所属类别的物体检测分类模型中,得到分类结果{(Bi,Ki)},其中Bi表示文本框的相关属性,Ki表示所属类别;
根据事先给定的或词库统计选取的中文关键词制定锚点关键词,依次根据锚点关键词含有的相邻两个类别K1、K2,从分类结果{(Bi,Ki)}中选取该两个类别K1、K2分别所在的文本框索引index1、index2,找出关键词i∈index1、关键词j∈index2,计算其对应的Bi、Bj之间的尺度系数SR和尺度距离系数SER,进而计算匹配系数PR,将PR的最小值对应的(i,j)作为关键词匹配对存入一集合P中;其中计算对应的Bi、Bj之间的尺度系数SR和尺度距离系数SER的公式为:
Figure FDA0003826918960000011
Figure FDA0003826918960000012
其中,
Figure FDA0003826918960000013
Figure FDA0003826918960000014
分别指的是Bi文本框的高度、宽度和中心点坐标,
Figure FDA0003826918960000015
Figure FDA0003826918960000016
分别指的是Bj文本框的高度、宽度和中心点坐标;
从集合P中依次取出一关键词匹配对p,p包含((Bl,Kl),(Br,Kr)),并提取上下文文本行TextLine,使用p初始化TextLine,则TextLine的初始元素为{(Bl,Kl),(Br,Kr)};
根据p的两个中心点坐标,生成直线line;
从分类结果{(Bi,Ki)}中找出属于TextLine的每一个(Bi,Ki);
计算Bi与line的距离DISi,以及Bi与Bl和Br间的尺度系数SRi,生成上下文候选队列Queue;
将Queue中的元素根据line的方向排序,逐一计算邻接距离比AdR和尺度系数AdSR,据以更新TextLine;
按照更新方向将最靠近更新端点的两个元素作为新的p,并根据其两中心点坐标生成新的直线,执行与上述直线line相同的后续处理,重复处理,直至TextLine不再更新,输出最终的TextLine。
2.如权利要求1所述的方法,其特征在于,将含有所需提取的中文关键词及其可能的上下文文字的训练集,对所选择的数据集进行预处理,得到标注的数据集,该所选择的数据集包括CTW数据集,该预处理包括标注每个中文文字的文本框、类别及每个中文文本行包含的文本框及文字内容;
通过由标注的数据集训练所述物体检测分类模型,该标注的数据集包括中文单字的文本框标注及其以文字内容作为类别的标签。
3.如权利要求1所述的方法,其特征在于,所述物体检测分类模型包括Faster R-CNN、SSD、Yolo、多分类的文字检测模型、基于非机器学习的文字检测分类模型。
4.如权利要求1所述的方法,其特征在于,根据物体检测分类模型的要求,对目标图像进行裁剪,对裁剪的图片保持长宽比例不变进行缩放至所需尺寸。
5.如权利要求1所述的方法,其特征在于,依次根据锚点关键词含有的相邻两个类别K1、K2,是指若锚点关键词只含有两个类别A、B,则K1=A,K2=B;若锚点关键词含有两个以上类别A、B、C……,则第一次为K1=A,K2=B,第二次为K1=B,K2=C,第三次为K1=C,K2=……。
6.如权利要求1所述的方法,其特征在于,计算匹配系数PR的公式为:
Figure FDA0003826918960000021
由计算的距离DISi和尺度系数SRi生成候选队列时需要满足的关系为:
Figure FDA0003826918960000022
η1<SRi2
其中,η1和η2分别设定为1/2和2。
7.如权利要求1所述的方法,其特征在于,对于Queue元素,逐一计算邻接距离比AdR和尺度系数AdSR的公式为:
Figure FDA0003826918960000023
Figure FDA0003826918960000024
Figure FDA0003826918960000025
而由计算的邻接距离比AdR和尺度系数AdSR更新文本行TextLine需要满足的关系为:
α1<AdRi2
β1<AdSRi2
其中,α11和α22分别设定为1/2和2。
8.如权利要求1所述的方法,其特征在于,集合P采用map或set的数据结构进行存储。
9.一种在自然场景图像中对中文关键词及上下文的提取系统,包括:
一准备模块,用于通过一训练集对一数据集进行预处理,得到标注的数据集,由标注的数据集对一物体检测分类模型进行训练,使其可输出包含中文单字的文本框及所属类别;
一中文文字检测分类模块,用于对目标图像进行预处理,输入到物体检测分类模型得到分类结果{(Bi,Ki)},其中Bi表示文本框的相关属性,Ki表示所属类别;
一关键词组合提取模块,依次根据锚点关键词含有的相邻两个类别K1、K2,从分类结果{(Bi,Ki)}中选取该两个类别K1、K2分别所在的文本框索引index1、index2,找出关键词i∈index1、关键词j∈index2,计算其对应的Bi、Bj之间的尺度系数SR和尺度距离系数SER,进而计算匹配系数PR,将PR的最小值对应的(i,j)作为关键词匹配对存入一集合P中;其中计算对应的Bi、Bj之间的尺度系数SR和尺度距离系数SER的公式为:
Figure FDA0003826918960000031
Figure FDA0003826918960000032
其中,
Figure FDA0003826918960000033
Figure FDA0003826918960000034
分别指的是Bi文本框的高度、宽度和中心点坐标,
Figure FDA0003826918960000035
Figure FDA0003826918960000036
分别指的是Bj文本框的高度、宽度和中心点坐标;
一上下文提取模块,用于从集合P中依次取出一关键词匹配对p,p包含((Bl,Kl),(Br,Kr)),并提取上下文文本行TextLine;根据p的两个中心点坐标,生成直线line;从分类结果{(Bi,Ki)}中找出属于TextLine的每一个(Bi,Ki);计算Bi与line的距离DISi,以及Bi与Bl和Br间的尺度系数SRi,生成上下文候选队列Queue;将Queue中的元素根据line的方向排序,逐一计算邻接距离比AdR和尺度系数AdSR,据以更新TextLine;按照更新方向,将最靠近更新端点的两个元素作为新的p,并根据其两中心点坐标生成新的直线,执行与上述直线line相同的后续处理,重复处理,直至TextLine不再更新,输出最终的TextLine。
CN201811294643.6A 2018-11-01 2018-11-01 一种在自然场景图像中对中文关键词及上下文的提取方法 Active CN109635808B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811294643.6A CN109635808B (zh) 2018-11-01 2018-11-01 一种在自然场景图像中对中文关键词及上下文的提取方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811294643.6A CN109635808B (zh) 2018-11-01 2018-11-01 一种在自然场景图像中对中文关键词及上下文的提取方法

Publications (2)

Publication Number Publication Date
CN109635808A CN109635808A (zh) 2019-04-16
CN109635808B true CN109635808B (zh) 2023-01-17

Family

ID=66067141

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811294643.6A Active CN109635808B (zh) 2018-11-01 2018-11-01 一种在自然场景图像中对中文关键词及上下文的提取方法

Country Status (1)

Country Link
CN (1) CN109635808B (zh)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110245594A (zh) * 2019-06-04 2019-09-17 天津大学 一种用于收银系统的商品识别方法
CN110502655B (zh) * 2019-07-31 2022-04-01 武汉大学 一种嵌入场景文字信息的图像自然描述语句生成方法
CN110751232A (zh) * 2019-11-04 2020-02-04 哈尔滨理工大学 一种中文复杂场景文本检测与识别方法
CN112381038B (zh) * 2020-11-26 2024-04-19 中国船舶工业系统工程研究院 一种基于图像的文本识别方法、系统和介质
CN114129058A (zh) * 2021-10-22 2022-03-04 深圳市微厨科技有限公司 饮品机的控制方法、饮品机和计算机可读存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957919A (zh) * 2010-09-22 2011-01-26 上海交通大学 基于图像局部特征检索的文字识别方法
CN105469047A (zh) * 2015-11-23 2016-04-06 上海交通大学 基于无监督学习深度学习网络的中文检测方法及系统

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10533979B2 (en) * 2011-06-01 2020-01-14 Tsumura & Co. Method of and apparatus for formulating multicomponent drug
US9424307B2 (en) * 2012-10-11 2016-08-23 Scott E. Lilienthal Multivariate data analysis method
US9626594B2 (en) * 2015-01-21 2017-04-18 Xerox Corporation Method and system to perform text-to-image queries with wildcards

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101957919A (zh) * 2010-09-22 2011-01-26 上海交通大学 基于图像局部特征检索的文字识别方法
CN105469047A (zh) * 2015-11-23 2016-04-06 上海交通大学 基于无监督学习深度学习网络的中文检测方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
一种基于概率距离尺度学习的图像标注方法;田璟 等;《理论与方法》;20150731;第34卷(第7期);全文 *
多视角图像的图变换匹配算法;温佩芝等;《计算机工程与设计》;20170216(第02期);全文 *

Also Published As

Publication number Publication date
CN109635808A (zh) 2019-04-16

Similar Documents

Publication Publication Date Title
CN109635808B (zh) 一种在自然场景图像中对中文关键词及上下文的提取方法
Yuan et al. A large chinese text dataset in the wild
Liao et al. Rotation-sensitive regression for oriented scene text detection
Yuliang et al. Detecting curve text in the wild: New dataset and new solution
Zhang et al. Multi-oriented text detection with fully convolutional networks
WO2019192397A1 (zh) 一种任意形状的场景文本端到端识别方法
JP5522408B2 (ja) パターン認識装置
CN101719142B (zh) 基于分类字典的稀疏表示图片文字检测方法
CN101976258B (zh) 基于对象分割和特征加权融合的视频语义提取方法
Yuan et al. Chinese text in the wild
CN107346420A (zh) 一种基于深度学习的自然场景下文字检测定位方法
CN111414906A (zh) 纸质票据图片的数据合成与文本识别方法
Hussain et al. Nastalique segmentation-based approach for Urdu OCR
Tian et al. Natural scene text detection with MC–MR candidate extraction and coarse-to-fine filtering
Wang et al. A coarse-to-fine word spotting approach for historical handwritten documents based on graph embedding and graph edit distance
CN109800746A (zh) 一种基于cnn的手写英文文档识别方法
Zhu et al. Deep residual text detection network for scene text
CN114187595A (zh) 基于视觉特征和语义特征融合的文档布局识别方法及系统
Zeng et al. Zero-Shot Chinese Character Recognition with Stroke-and Radical-Level Decompositions
CN111832497B (zh) 一种基于几何特征的文本检测后处理方法
Shah et al. Devnagari handwritten character recognition (DHCR) for ancient documents: a review
US20230036812A1 (en) Text Line Detection
Saabni Efficient recognition of machine printed Arabic text using partial segmentation and Hausdorff distance
Rahul et al. Multilingual text detection and identification from Indian signage boards
Sushma et al. Kannada handwritten word conversion to electronic textual format using HMM model

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant