CN110059572B - 基于单字匹配的文档图像中文关键词检测方法、系统 - Google Patents

基于单字匹配的文档图像中文关键词检测方法、系统 Download PDF

Info

Publication number
CN110059572B
CN110059572B CN201910222318.7A CN201910222318A CN110059572B CN 110059572 B CN110059572 B CN 110059572B CN 201910222318 A CN201910222318 A CN 201910222318A CN 110059572 B CN110059572 B CN 110059572B
Authority
CN
China
Prior art keywords
character
candidate
characters
character set
candidate character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910222318.7A
Other languages
English (en)
Other versions
CN110059572A (zh
Inventor
王春恒
贾馥溪
赵晋媛
肖柏华
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Automation of Chinese Academy of Science
Original Assignee
Institute of Automation of Chinese Academy of Science
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Automation of Chinese Academy of Science filed Critical Institute of Automation of Chinese Academy of Science
Priority to CN201910222318.7A priority Critical patent/CN110059572B/zh
Publication of CN110059572A publication Critical patent/CN110059572A/zh
Application granted granted Critical
Publication of CN110059572B publication Critical patent/CN110059572B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/40Extraction of image or video features
    • G06V10/44Local feature extraction by analysis of parts of the pattern, e.g. by detecting edges, contours, loops, corners, strokes or intersections; Connectivity analysis, e.g. of connected components
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition

Abstract

本发明属于文本图像识别技术领域,具体涉及一种基于单字匹配的文档图像中文关键词检测方法、系统,旨在解决解决文档图像图像质量不稳定及汉字排列多样性带来的中文关键词识别的准确度和鲁棒性不足的问题,本发明方法包括:对文档图像进行二值化处理得到第一图像;进行字符检测得到第一候选字符集合;对第一候选字符集合进行过滤得到第二候选字符集合、第一噪声候选字符集合;从第一噪声候选字符集合筛选字符并添加至第二候选字符集合,得到第三候选字符集合;进行候选字符组合得到第一候选词集合;进行丢失字符的二次检测得到第二候选词集合;基于代价函数,选择最终的关键词检测结果。本发明提高了文档关键词识别的准确度,具有高鲁棒性。

Description

基于单字匹配的文档图像中文关键词检测方法、系统
技术领域
本发明属于文本图像识别技术领域,具体涉及一种基于单字匹配的文档图像中文关键词检测方法、系统。
背景技术
科技的发展使信息处理方式突飞猛进,为了实现对信息的编辑、搜索和数据分析等处理,将纸质材料文字信息快速输入计算机有很重要的意义,OCR(光学字符识别)技术由此产生。文档图像广泛存在于交通、金融、物流、税务、行政管理等各个领域中,借助于智能终端的快速普及,文档的拍照自动识别技术具有极大的经济效益和广泛的社会价值。
然而,通用的OCR技术很难以键值对的形式提供结构化数据,例如“日期:2018-07-01”,“金额:15.00”等等。由于发票中的关键词表明了结构化数据的属性,是识别信息结构化的重要依据,因此对发票图像关键词识别的研究具有重要意义。纸质发票本身通常包含一些干扰,如纸张变形,折痕,印章和阴影。拍照采像又容易受到复杂背景、文档变形和不均匀光照等各种因素的影响。此外,关键词中的字符可能彼此远离并且具有不同的排列方向,这些问题严重影响了文档图像中文关键词检测的准确度和鲁棒性。
发明内容
为了解决现有技术中的上述问题,即为了解决文档图像图像质量不稳定及汉字排列多样性带来的中文关键词识别的准确度和鲁棒性不足的问题,本发明的第一方面,提出了一种基于单字匹配的文档图像中文关键词检测方法,该方法包括以下步骤:
步骤S10,获取文档图像,并进行二值化处理得到第一图像;
步骤S20,采用基于连通分量特征的文本检测方法进行字符检测,得到第一候选字符集合;
步骤S30,基于词典信息,采用大类别汉字识别器对第一候选字符集合进行过滤,得到第二候选字符集合、第一噪声候选字符集合;
步骤S40,基于所述第二候选字符集合计算字符尺寸,基于该字符尺寸从所述第一噪声候选字符集合使用滑动窗提取的字符添加至所述第二候选字符集合,得到第三候选字符集合;
步骤S50,根据词典信息和设定的几何约束条件,将第三候选字符集合中的候选字符进行组合,得到第一候选词集合;
步骤S60,对所述第一候选词集合中每一个候选词,基于其字符顺序及位置关系进行丢失字符的二次检测,并将检测结果补入对应的候选词,得到第二候选词集合;
步骤S70,基于包含识别置信度、几何分布信息的代价函数,从所述第二候选词集合中选择得到最终的关键词检测结果。
在一些优选实施方式中,所述第三候选字符集合,其获取方法为:
步骤S401,计算所述第二候选字符集合中字符的平均尺寸值sr
Figure GDA0002806547950000021
其中,K为第二候选字符集合中候选字符(单字字符)的数目,wi和hi分别为第二候选字符集合中第i个候选字符的宽度和高度;
步骤S402,依据平均尺寸值sr,从所述第一噪声候选字符集合提取字符并添加至所述第二候选字符集合,得到第三候选字符集合。
在一些优选实施方式中,步骤S50中所述几何约束条件,为:
待组合的字符在水平或垂直角度小于设定的第一阈值,且其几何距离小于设定的第二阈值。
在一些优选实施方式中,所述几何约束条件表示为
Figure GDA0002806547950000031
Figure GDA0002806547950000032
Figure GDA0002806547950000033
其中,第i个字符表示为di=[xi,yi,wi,hi,disi],xi、yi、wi、hi分别表示第i个字符检测得到的边界框的中心点坐标、高度、宽度,变量disi表示从字符di到最近聚类中心的识别距离;ratio(i,p)为字符dp和di之间的距离;thre为设定的第二阈值;Smin和Smax为设定的比例约束系数;[θmin,θmax]为设定的两个字符方向角度范围约束;θ(i,p)为第i个字符与第p个字符之间连线角度的阈值。
在一些优选实施方式中,步骤S60“基于其字符顺序及位置关系进行丢失字符的二次检测”,其方法为:
根据字符序列和其相邻检测字符的位置获取两个字符间的矩形区域,并将其均匀分为K部分,分别对各部进行检测。
在一些优选实施方式中,步骤S70中所述代价函数Cost(D)为
Figure GDA0002806547950000034
Figure GDA0002806547950000041
Figure GDA0002806547950000042
其中,Cr(D)和Cd(D)分别表示识别置信度代价和几何分布代价;第i个字符表示为di=[xi,yi,wi,hi,disi],xi、yi、wi、hi分别表示第i个字符检测得到的边界框的中心点坐标、高度、宽度,变量disi表示从字符di到最近聚类中心的识别距离;n为待检测候选词集合D中的检测字符数。
在一些优选实施方式中,步骤S70“选择得到最终的关键词检测结果”,其方法为:
基于代价函数Cost(D)的得分,通过标准非极大值抑制算法抑制重叠关键词检测框,得到最终的关键词检测结果。
本发明的第二方面,提出了一种基于单字匹配的文档图像中文关键词检测系统,该系统包括第一图像获取单元、第一候选字符集合获取单元、第一候选字符集合过滤单元、第三候选字符集合获取单元、第一候选词集合获取单元、第二候选词集合获取单元、最终关键词检测结果获取单元;
所述第一图像获取单元,配置为获取文档图像,并进行二值化处理得到第一图像;
所述第一候选字符集合获取单元,配置为采用基于连通分量特征的文本检测方法进行字符检测,得到第一候选字符集合;
所述第一候选字符集合过滤单元,配置为基于词典信息,采用大类别汉字识别器对第一候选字符集合进行过滤,得到第二候选字符集合、第一噪声候选字符集合;
所述第三候选字符集合获取单元,配置为基于所述第二候选字符集合计算字符尺寸,基于该字符尺寸从所述第一噪声候选字符集合使用滑动窗提取的字符添加至所述第二候选字符集合,得到第三候选字符集合;
所述第一候选词集合获取单元,配置为根据词典信息和设定的几何约束条件,将第三候选字符集合中的候选字符进行组合,得到第一候选词集合;
所述第二候选词集合获取单元,配置为对所述第一候选词集合中每一个候选词,基于其字符顺序及位置关系进行丢失字符的二次检测,并将检测结果补入对应的候选词,得到第二候选词集合;
所述最终关键词检测结果获取单元,配置为基于包含识别置信度、几何分布信息的代价函数,从所述第二候选词集合中选择得到最终的关键词检测结果。
本发明的第三方面,提出了一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于单字匹配的文档图像中文关键词检测。
本发明的第四方面,提出了一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于单字匹配的文档图像中文关键词检测。
本发明的有益效果:
本发明通过字符的识别、过滤、补漏提高了文档图像字符获取的完整性,降低了遗漏风险;基于词典信息和设定的几何约束条件进行字符的组合、字符顺序及位置关系进行丢失字符的二次检测,并最终基于代价函数获取关键词检测结果,提高了文档关键词识别的准确度,具有高鲁棒性。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明一种实施例的基于单字匹配的文档图像中文关键词检测方法流程示意图;
图2是出租车发票和增值税发票手机拍照图像的示例图;
图3是本发明一实施例中字符检测与识别过程示例图;
图4是本发明一实施例中搜索范围示例图;
图5是本发明一实施例中“发票代码”的初始关键词构造过程示例图;
图6是本发明一实施例中关键词检测识别过程各阶段状态示例图;
图7是本发明一实施例中从第一噪声候选字符集合筛选字符的滑动检测方式示例图;
图8是本发明一种实施例的基于单字匹配的文档图像中文关键词检测系统框架示意图。
具体实施方式
为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
本发明的一种基于单字匹配的文档图像中文关键词检测方法,包括以下步骤:
步骤S10,获取文档图像,并进行二值化处理得到第一图像;
步骤S20,采用基于连通分量特征的文本检测方法进行字符检测,得到第一候选字符集合;
步骤S30,基于词典信息,采用大类别汉字识别器对第一候选字符集合进行过滤,得到第二候选字符集合、第一噪声候选字符集合;
步骤S40,基于所述第二候选字符集合计算字符尺寸,基于该字符尺寸从所述第一噪声候选字符集合使用滑动窗提取的字符添加至所述第二候选字符集合,得到第三候选字符集合;
步骤S50,根据词典信息和设定的几何约束条件,将第三候选字符集合中的候选字符进行组合,得到第一候选词集合;
步骤S60,对所述第一候选词集合中每一个候选词,基于其字符顺序及位置关系进行丢失字符的二次检测,并将检测结果补入对应的候选词,得到第二候选词集合;
步骤S70,基于包含识别置信度、几何分布信息的代价函数,从所述第二候选词集合中选择得到最终的关键词检测结果。
为了更清晰地对本发明基于单字匹配的文档图像中文关键词检测方法进行说明,下面结合附图对本方发明方法一种实施例中各步骤进行展开详述。
本发明一种实施例的基于单字匹配的文档图像中文关键词检测方法,如图1所示,包括以下步骤S10-S70。
步骤S10,获取文档图像,并进行二值化处理得到第一图像。
在本实施例中,将获取的文档图像(如图2中给出了经常涉及的部分票据的文档图像示例),在实际应用中一般获取的文档图像为彩色图像,这时需要进行灰度化,在灰度图中,对于每个中心像素来说,邻域窗口尺寸为101×101,局部阈值是邻域的加权和(与高斯窗口卷积)减去一个常数(本实施例中为5.0),若中心像素灰度值小于该阈值,则此像素在二值图中被置为前景像素0,否则置为背景像素255。
步骤S20,采用基于连通分量特征的文本检测方法进行字符检测,得到第一候选字符集合。
首先在二值图(步骤S10中得到的第一图像)上检测连通域部件,然后对水平或者竖直距离小于设定阈值(本实施例中为4)的任意两个连通域进行融合,反复执行融合操作直至没有符合条件的连通域部件存在(一个示例得到的结果如图3中(a)所示)。在其它实施例中可根据文档图像的实际情况,对距离阈值进行调整。图3是本发明一实施例中字符检测与识别过程示例图,该图中(a)为所显示的初始单字检测结果,(b)为所显示的经过识别器过滤后的单字检测结果,(c)为所显示的噪声集,(d)为所显示的尺寸偏大的噪声,(e)为所显示的基于滑动窗与识别器的新检测结果,(f)为所显示的最终单字检测结果。
步骤S30,基于词典信息,采用大类别汉字识别器对第一候选字符集合进行过滤,得到第二候选字符集合、第一噪声候选字符集合。
对于每个字符检测框,可以采用应用k-NN汉字识别器来获得其前N个识别候选者。如果所有N个(本实施例中N=10)识别结果都没有包含在关键词典中,我们将这个字符候选框作为噪声移动至第一噪声候选字符集合,否则继续保留,得到第二候选字符集合。在本实施例中,经过过滤留下的单字检测框示例如图3中(b)所示,被过滤掉的噪声框示例如图3中(c)所示。
步骤S40,基于所述第二候选字符集合计算字符尺寸,基于该字符尺寸从所述第一噪声候选字符集合使用滑动窗提取的字符添加至所述第二候选字符集合,得到第三候选字符集合。
基于步骤S30输出的第二候选字符集合、第一噪声候选字符集合,在步骤S40中具体通过以下步骤进行进一步处理:
步骤S401,计算所述第二候选字符集合中字符的平均尺寸值sr,如公式(1)所示。
Figure GDA0002806547950000091
其中,K为第二候选字符集合中候选字符(单字字符)的数目,wi和hi分别为第二候选字符集合中第i个候选字符的宽度和高度;
步骤S402,依据平均尺寸值sr,从所述第一噪声候选字符集合提取字符并添加至所述第二候选字符集合,得到第三候选字符集合。本实施例中,根据平均尺寸值sr构建筛选尺寸区间(例如可以为[0.5sr,1.5sr]),选择尺寸在上述尺寸区间范围之间的检测框(本实施例中的示例如图3中(d)所示),使用长与宽均为sr的正方形滑动窗口进行滑动检测,当检测框尺寸在[sr,sr]之内时,直接通过滑动窗口进行检测,当检测框尺寸超出[sr,sr]时,具体方法如图7所示,分别通过滑动窗从左上、右上、左下、右下、中间进行五部滑动检测。所有新得到的检测框都输入大类别汉字识别器,基于词典信息进行过滤,将过滤留下来的候选字符(本实施例中的示例如图3中(e)所示)与步骤S30中得到的候选字符结合到一起,作为总的候选字符结果,即第三候选字符集合(本实施例中的示例如图3中(f)所示)。
步骤S50,根据词典信息和设定的几何约束条件,将第三候选字符集合中的候选字符进行组合,得到第一候选词集合。
本实施例中几何约束条件为:待组合的字符在水平或垂直角度小于设定的第一阈值,且其几何距离小于设定的第二阈值。
在关键词构成过程中,使用术语父节点和子节点来指代一对相邻的字符。由于属于同一个关键词的字符水平或垂直对齐,只有在它们的水平或垂直角度处于某个范围并且它们的几何距离小于某阈值时,才对两个字符候选进行组合。为了便于表达,我们使用di=[xi,yi,wi,hi,disi]来表示第三候选字符集合中第i个字符。变量xi、yi、wi、hi分别表示第i个字符检测得到的边界框的中心点坐标、高度、宽度。对于父节点dp,其子节点候选字符di的几何约束条件具体如式(2)、(3)、(4)所示:
Figure GDA0002806547950000101
Figure GDA0002806547950000102
Figure GDA0002806547950000103
其中,第i个字符表示为di=[xi,yi,wi,hi,disi],xi、yi、wi、hi分别表示第i个字符检测得到的边界框的中心点坐标、高度、宽度,变量disi表示从字符di到最近聚类中心的识别距离(此处聚类中心是在大类别汉字识别过程中得到,大类别汉字识别器本身是一种K近邻聚类算法,因此可以在识别的过程中得到disi);ratio(i,p)为字符dp和di之间的距离;thre为设定的第二阈值;Smin和Smax为设定的比例约束系数;[θmin,θmax]为设定的两个字符方向角度范围约束;θ(i,p)为第i个字符与第p个字符之间连线角度的阈值。在本实施例中,thre可以设置为10.0,Smin和Smax分别设置为0.5和2.0,[θmin,θmax]可以设置为[10,30]。
当同一个关键词中两个字符的距离较小时,检测位置的轻微偏差可能导致较大的水平或垂直角度;当距离大时,具有较大角度的字符对更可能属于不同的关键字。为了保留同一个关键词中的字符对,同时避免匹配到不同关键词中的字符,通过式(4)使角度θ(i,p)与距离ratio(i,p)负相关,当表示两个字符距离的ratio值越大时,表示两个字符连线的角度阈值θ就越小。图4是本发明一实施例中搜索范围示例图,矩形框表示父节点,曲线框表示其搜索范围,该图中中展示了(a)、(b)、(c)、(d)四个搜索范围示例。
基于上述约束,结合图5来进一步描述初始候选单词(第一候选词集合)的提取步骤。如图5所示,用一个关键词“发票代码”作为例子。左图中通过边界框表示在该关键字中检测字符“发”、“票”、“代”和“码”(在优选实施例中,可以采用具有不同颜色的边界框进行区分行性表示)。对于每个父节点候选,在附近向右和向下搜索其子节点。如果没有子节点候选满足搜索标准或根本没有检测到子节点,搜索该子节点对应的下一个子节点,直到该关键词中的最后一个字符被搜索到,图5中①②③④⑤⑥分别为六个父节点的序号,在图5中间的图中展示了父节点和检测到的子节点的字符及水平或者垂直位置关系。当所有候选字符被分配到不同的搜索路径时,一个关键词的搜索过程就完成了。关键词“发票代码”的候选词在图5的右图中示出,该图像中的所有初始候选词如图6中的(b)所示。
步骤S60,对所述第一候选词集合中每一个候选词,基于其字符顺序及位置关系进行丢失字符的二次检测,并将检测结果补入对应的候选词,得到第二候选词集合。
对于包含一个或多个缺失字符检测的候选关键词,根据字符序列和其相邻检测字符的位置估计每个缺失字符的边界框。具体来说,假设单词中的字符的几何位置是均匀分布的。例如,如果两个字符检测框之间存在K缺失字符,将它们之间的矩形沿水平(或垂直)方向均匀划分为K部分,用于水平(或垂直)候选字。这样则能够重新检测到一些丢失的字符,如图6中(c)所示。然后输入大类别汉字识别器,基于词典信息进行过滤。如图6中(d)所示,由折痕噪声引起的三个缺失字符被成功重新识别:“下”、“单”和“记”。
两个字符检测框之间存在缺失字符数量K,可以通过对比关键词中所有应该检测到的字符与实际检测到的字符,获取某两个实际检测到的字符之间缺少哪些字符。例如“发票代码”关键词中只检测到了“发”和“代”两个字符,那么“发”和“代”之间就缺失了1个关键字符“票”。
图6是本发明一实施例中关键词检测识别过程各阶段状态示例图,(a)显示了字符检测与识别结果,(b)显示了初始关键词检测结果,(c)显示了字符二次检测,(d)显示了字符二次识别过滤,(e)显示了关键词最终检测结果。
步骤S70,基于包含识别置信度、几何分布信息的代价函数,从所述第二候选词集合中选择得到最终的关键词检测结果。
本实施例中,代价函数Cost(D)为
Figure GDA0002806547950000121
Figure GDA0002806547950000122
Figure GDA0002806547950000123
其中,Cr(D)和Cd(D)分别表示识别置信度代价和几何分布代价;第i个字符表示为di=[xi,yi,wi,hi,disi],xi、yi、wi、hi分别表示第i个字符检测得到的边界框的中心点坐标、高度、宽度,变量disi表示从字符di到最近聚类中心的识别距离;n为待检测候选词集合D中的检测字符数。本实施例使用1/n的乘数来增强包含更多检测字符的候选词的优势。
单词检测越准确,代价函数Cr(D)和Cd(D)的值就越小,因此本实施例可以基于代价函数Cost(D)的得分,通过标准非极大值抑制(NMS)算法抑制重叠关键词检测框,得到最终的关键词检测结果(本实施例中的示例如图6中(e)所示)。
如图8所示,本发明第二实施例的一种基于单字匹配的文档图像中文关键词检测系统100,该系统包括第一图像获取单元101、第一候选字符集合获取单元102、第一候选字符集合过滤单元103、第三候选字符集合获取单元104、第一候选词集合获取单元105、第二候选词集合获取单元106、最终关键词检测结果获取单元107;
第一图像获取单元101,配置为获取文档图像,并进行二值化处理得到第一图像;
第一候选字符集合获取单元102,配置为采用基于连通分量特征的文本检测方法进行字符检测,得到第一候选字符集合;
第一候选字符集合过滤单元103,配置为基于词典信息,采用大类别汉字识别器对第一候选字符集合进行过滤,得到第二候选字符集合、第一噪声候选字符集合;
第三候选字符集合获取单元104,配置为基于所述第二候选字符集合计算字符尺寸,基于该字符尺寸从所述第一噪声候选字符集合使用滑动窗提取的字符添加至所述第二候选字符集合,得到第三候选字符集合;
第一候选词集合获取单元105,配置为根据词典信息和设定的几何约束条件,将第三候选字符集合中的候选字符进行组合,得到第一候选词集合;
第二候选词集合获取单元106,配置为对所述第一候选词集合中每一个候选词,基于其字符顺序及位置关系进行丢失字符的二次检测,并将检测结果补入对应的候选词,得到第二候选词集合;
最终关键词检测结果获取单元107,配置为基于包含识别置信度、几何分布信息的代价函数,从所述第二候选词集合中选择得到最终的关键词检测结果。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于单字匹配的文档图像中文关键词检测系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种存储装置,其中存储有多条程序,所述程序适于由处理器加载并执行以实现上述的基于单字匹配的文档图像中文关键词检测方法。
本发明第四实施例的一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;所述程序适于由处理器加载并执行以实现上述的基于单字匹配的文档图像中文关键词检测方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征作出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (7)

1.一种基于单字匹配的文档图像中文关键词检测方法,其特征在于,该方法包括以下步骤:
步骤S10,获取文档图像,并进行二值化处理得到第一图像;
步骤S20,采用基于连通分量特征的文本检测方法进行字符检测,得到第一候选字符集合;
步骤S30,基于词典信息,采用大类别汉字识别器对第一候选字符集合进行过滤,得到第二候选字符集合、第一噪声候选字符集合;
步骤S40,基于所述第二候选字符集合计算字符尺寸,基于该字符尺寸从所述第一噪声候选字符集合使用滑动窗提取的字符添加至所述第二候选字符集合,得到第三候选字符集合;
步骤S50,根据词典信息和设定的几何约束条件,将第三候选字符集合中的候选字符进行组合,得到第一候选词集合;
步骤S60,对所述第一候选词集合中每一个候选词,基于其字符顺序及位置关系进行丢失字符的二次检测,并将检测结果补入对应的候选词,得到第二候选词集合;
步骤S70,基于包含识别置信度、几何分布信息的代价函数,从所述第二候选词集合中选择得到最终的关键词检测结果;
所述几何约束条件为:
Figure FDA0003130406030000011
Figure FDA0003130406030000012
Figure FDA0003130406030000021
其中,第i个字符表示为di=[xi,yi,wi,hi,disi],xi、yi、wi、hi分别表示第i个字符检测得到的边界框的中心点坐标、宽度、高度,变量disi表示从字符di到最近聚类中心的识别距离;ratio(i,p)为字符dp和di之间的距离;thre为设定的第二阈值;Smin和Smax为设定的比例约束系数;[θmin,θmax]为设定的两个字符方向角度范围约束;θ(i,p)为第i个字符与第p个字符之间连线角度的阈值;
所述代价函数Cost(D)为
Figure FDA0003130406030000022
Figure FDA0003130406030000023
Figure FDA0003130406030000024
其中,Cr(D)和Cd(D)分别表示识别置信度代价和几何分布代价;第i个字符表示为di=[xi,yi,wi,hi,disi],xi、yi、wi、hi分别表示第i个字符检测得到的边界框的中心点坐标、宽度、高度,变量disi表示从字符di到最近聚类中心的识别距离;n为待检测候选词集合D中每个候选词的检测字符数。
2.根据权利要求1所述的基于单字匹配的文档图像中文关键词检测方法,其特征在于,所述第三候选字符集合,其获取方法为:
步骤S401,计算所述第二候选字符集合中字符的平均尺寸值sr
Figure FDA0003130406030000025
其中,K为第二候选字符集合中候选字符的数目,候选字符为单字字符,wi和hi分别为第二候选字符集合中第i个候选字符的宽度和高度;
步骤S402,依据平均尺寸值sr,从所述第一噪声候选字符集合提取字符并添加至所述第二候选字符集合,得到第三候选字符集合。
3.根据权利要求2所述的基于单字匹配的文档图像中文关键词检测方法,其特征在于,步骤S60“基于其字符顺序及位置关系进行丢失字符的二次检测”,其方法为:
根据字符序列和其相邻检测字符的位置获取两个字符间的矩形区域,若两个字符间的矩形区域存在
Figure FDA0003130406030000031
缺失字符,并将其均匀分为
Figure FDA0003130406030000032
部分,分别对各部进行检测。
4.根据权利要求1所述的基于单字匹配的文档图像中文关键词检测方法,其特征在于,步骤S70“选择得到最终的关键词检测结果”,其方法为:
基于代价函数Cost(D)的得分,通过标准非极大值抑制算法抑制重叠关键词检测框,得到最终的关键词检测结果。
5.一种基于单字匹配的文档图像中文关键词检测系统,其特征在于,该系统包括第一图像获取单元、第一候选字符集合获取单元、第一候选字符集合过滤单元、第三候选字符集合获取单元、第一候选词集合获取单元、第二候选词集合获取单元、最终关键词检测结果获取单元;
所述第一图像获取单元,配置为获取文档图像,并进行二值化处理得到第一图像;
所述第一候选字符集合获取单元,配置为采用基于连通分量特征的文本检测方法进行字符检测,得到第一候选字符集合;
所述第一候选字符集合过滤单元,配置为基于词典信息,采用大类别汉字识别器对第一候选字符集合进行过滤,得到第二候选字符集合、第一噪声候选字符集合;
所述第三候选字符集合获取单元,配置为基于所述第二候选字符集合计算字符尺寸,基于该字符尺寸从所述第一噪声候选字符集合使用滑动窗提取的字符添加至所述第二候选字符集合,得到第三候选字符集合;
所述第一候选词集合获取单元,配置为根据词典信息和设定的几何约束条件,将第三候选字符集合中的候选字符进行组合,得到第一候选词集合;
所述第二候选词集合获取单元,配置为对所述第一候选词集合中每一个候选词,基于其字符顺序及位置关系进行丢失字符的二次检测,并将检测结果补入对应的候选词,得到第二候选词集合;
所述最终关键词检测结果获取单元,配置为基于包含识别置信度、几何分布信息的代价函数,从所述第二候选词集合中选择得到最终的关键词检测结果;
所述几何约束条件为:
Figure FDA0003130406030000041
Figure FDA0003130406030000042
Figure FDA0003130406030000043
其中,第i个字符表示为di=[xi,yi,wi,hi,disi],xi、yi、wi、hi分别表示第i个字符检测得到的边界框的中心点坐标、宽度、高度,变量disi表示从字符di到最近聚类中心的识别距离;ratio(i,p)为字符dp和di之间的距离;thre为设定的第二阈值;Smin和Smax为设定的比例约束系数;[θmin,θmax]为设定的两个字符方向角度范围约束;θ(i,p)为第i个字符与第p个字符之间连线角度的阈值;
所述代价函数Cost(D)为
Figure FDA0003130406030000051
Figure FDA0003130406030000052
Figure FDA0003130406030000053
其中,Cr(D)和Cd(D)分别表示识别置信度代价和几何分布代价;第i个字符表示为di=[xi,yi,wi,hi,disi],xi、yi、wi、hi分别表示第i个字符检测得到的边界框的中心点坐标、宽度、高度,变量disi表示从字符di到最近聚类中心的识别距离;n为待检测候选词集合D中每个候选词的检测字符数。
6.一种存储装置,其中存储有多条程序,其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-4任一项所述的基于单字匹配的文档图像中文关键词检测方法。
7.一种处理装置,包括处理器、存储装置;处理器,适于执行各条程序;存储装置,适于存储多条程序;其特征在于,所述程序适于由处理器加载并执行以实现权利要求1-4任一项所述的基于单字匹配的文档图像中文关键词检测方法。
CN201910222318.7A 2019-03-22 2019-03-22 基于单字匹配的文档图像中文关键词检测方法、系统 Active CN110059572B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910222318.7A CN110059572B (zh) 2019-03-22 2019-03-22 基于单字匹配的文档图像中文关键词检测方法、系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910222318.7A CN110059572B (zh) 2019-03-22 2019-03-22 基于单字匹配的文档图像中文关键词检测方法、系统

Publications (2)

Publication Number Publication Date
CN110059572A CN110059572A (zh) 2019-07-26
CN110059572B true CN110059572B (zh) 2021-08-10

Family

ID=67316174

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910222318.7A Active CN110059572B (zh) 2019-03-22 2019-03-22 基于单字匹配的文档图像中文关键词检测方法、系统

Country Status (1)

Country Link
CN (1) CN110059572B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114140803B (zh) * 2022-01-30 2022-06-17 杭州实在智能科技有限公司 基于深度学习的文档单字坐标检测和修正方法及系统

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520783A (zh) * 2008-02-29 2009-09-02 富士通株式会社 基于图像内容的关键词搜索方法和装置
CN101571921A (zh) * 2008-04-28 2009-11-04 富士通株式会社 关键字识别方法和装置
CN104765815A (zh) * 2015-04-03 2015-07-08 北京奇虎科技有限公司 一种识别搜索关键词的方法和装置
CN105518712A (zh) * 2015-05-28 2016-04-20 北京旷视科技有限公司 基于字符识别的关键词通知方法及设备、计算机程序产品
CN106355177A (zh) * 2016-08-17 2017-01-25 天津德闻数据科技有限公司 一种医疗检验单的检验项信息自动提取方法
CN106844767A (zh) * 2017-02-23 2017-06-13 中国科学院自动化研究所 格式文档关键信息块配准及提取的方法及装置
JP6220770B2 (ja) * 2014-12-12 2017-10-25 株式会社エヌ・ティ・ティ・データ 帳票定義装置、帳票定義方法、及び帳票定義プログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8335381B2 (en) * 2008-09-18 2012-12-18 Xerox Corporation Handwritten word spotter using synthesized typed queries
CN105426539B (zh) * 2015-12-23 2018-12-18 成都云数未来信息科学有限公司 一种基于词典的lucene中文分词方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101520783A (zh) * 2008-02-29 2009-09-02 富士通株式会社 基于图像内容的关键词搜索方法和装置
CN101571921A (zh) * 2008-04-28 2009-11-04 富士通株式会社 关键字识别方法和装置
JP6220770B2 (ja) * 2014-12-12 2017-10-25 株式会社エヌ・ティ・ティ・データ 帳票定義装置、帳票定義方法、及び帳票定義プログラム
CN104765815A (zh) * 2015-04-03 2015-07-08 北京奇虎科技有限公司 一种识别搜索关键词的方法和装置
CN105518712A (zh) * 2015-05-28 2016-04-20 北京旷视科技有限公司 基于字符识别的关键词通知方法及设备、计算机程序产品
CN106355177A (zh) * 2016-08-17 2017-01-25 天津德闻数据科技有限公司 一种医疗检验单的检验项信息自动提取方法
CN106844767A (zh) * 2017-02-23 2017-06-13 中国科学院自动化研究所 格式文档关键信息块配准及提取的方法及装置

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
A probabilistic method for keyword retrieval in handwritten document images;Cao H 等;《Pattern Recognition》;20091231;第3374-3382页 *
Fisher vector for scene character recognition: A comprehensive evaluation;Fuxi Jia 等;《Pattern Recognition》;20170623;第1-14页 *
基于索引的快速手写中文文档关键词检索;喻庚 等;《模式识别与人工智能》;20151130;第1033-1040页 *

Also Published As

Publication number Publication date
CN110059572A (zh) 2019-07-26

Similar Documents

Publication Publication Date Title
CN110766014B (zh) 票据信息定位方法、系统及计算机可读存储介质
CN105868758B (zh) 图像中文本区域检测方法、装置及电子设备
CN110232713B (zh) 一种图像目标定位修正方法及相关设备
CN105930159A (zh) 一种基于图像的界面代码生成的方法及系统
CN110717366A (zh) 文本信息的识别方法、装置、设备及存储介质
CN111340020B (zh) 一种公式识别方法、装置、设备及存储介质
CN108154132A (zh) 一种身份证文字提取方法、系统及设备和存储介质
CN112541922A (zh) 基于数字图像的试卷布局分割方法、电子设备及存储介质
CN113158895A (zh) 票据识别方法、装置、电子设备及存储介质
CN112381086A (zh) 一种结构化输出图像文字识别结果的方法及装置
CN110738238A (zh) 一种证件信息的分类定位方法及装置
CN112288724A (zh) 缺陷检测方法及装置、电子设备和存储介质
CN110084229B (zh) 一种印章检测方法、装置、设备及可读存储介质
CN111598076A (zh) 一种标签图像中日期检测处理方法及装置
CN110059572B (zh) 基于单字匹配的文档图像中文关键词检测方法、系统
CN109508716B (zh) 一种图像文字的定位方法及装置
CN114511857A (zh) 一种ocr识别结果处理方法、装置、设备及存储介质
CN110084117B (zh) 基于二值图分段投影的文档表格线检测方法、系统
CN111160073A (zh) 车牌类型识别方法、装置及计算机可读存储介质
CN113591657B (zh) Ocr版面识别的方法、装置、电子设备及介质
CN116311299A (zh) 表格的结构化数据识别方法、装置及系统
CN116092100A (zh) 文本内容提取方法及装置
CN106844767B (zh) 格式文档关键信息块配准及提取的方法及装置
JPH09167233A (ja) 画像処理方法および画像処理装置
Jia et al. Grayscale-projection based optimal character segmentation for camera-captured faint text recognition

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant