CN111488757B - 用于对图像的识别结果进行分割的方法和设备及存储介质 - Google Patents
用于对图像的识别结果进行分割的方法和设备及存储介质 Download PDFInfo
- Publication number
- CN111488757B CN111488757B CN201910073144.2A CN201910073144A CN111488757B CN 111488757 B CN111488757 B CN 111488757B CN 201910073144 A CN201910073144 A CN 201910073144A CN 111488757 B CN111488757 B CN 111488757B
- Authority
- CN
- China
- Prior art keywords
- candidate matrix
- text
- image
- candidate
- result
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Active
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/40—Document-oriented image-based pattern recognition
- G06V30/41—Analysis of document content
- G06V30/413—Classification of content, e.g. text, photographs or tables
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V10/00—Arrangements for image or video recognition or understanding
- G06V10/20—Image preprocessing
- G06V10/26—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
- G06V10/267—Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/28—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet
- G06V30/287—Character recognition specially adapted to the type of the alphabet, e.g. Latin alphabet of Kanji, Hiragana or Katakana characters
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Character Discrimination (AREA)
Abstract
本申请公开了一种用于对图像的识别结果进行分割的方法和设备以及存储介质。该方法包括:识别图像中的文本以获得关于该文本的候选矩阵,其中,该候选矩阵中的每一行均代表所述文本的一个识别结果;将所述候选矩阵与文本库进行匹配以获得最佳匹配结果;计算所述最佳匹配结果与所述候选矩阵中的第1列至第j列的相似度,其中j是正整数并且小于或等于所述候选矩阵的总列数;和按照具有最大相似度的列数来分割所述图像的识别结果。
Description
技术领域
本公开内容涉及图像识别的领域,并且具体地涉及对图像的识别结果进行分割的方法。
背景技术
在许多应用场景中,例如邮政服务、金融、保险、税收行业,OCR(光学字符识别)技术被广泛使用。手写地址识别在快递业和邮政业务中是一个很重要的应用方向。手写地址的准确自动识别可以提高工作效率,并且减少劳动力。待识别的地址图像经过预处理后,可以通过通用OCR引擎初步识别地址图像,得到粗略的结果。
发明内容
在下文中给出了关于本公开内容的简要概述,以便提供关于本公开内容的某些方面的基本理解。应当理解,这个概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分,也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。
根据本发明的一个方面,提供了一种用于对图像的识别结果进行分割的方法,包括:识别所述图像中的文本以获得关于所述文本的候选矩阵,其中,所述候选矩阵中的每一行均代表所述文本的一个识别结果;将所述候选矩阵与文本库进行匹配以获得最佳匹配结果;计算所述最佳匹配结果与所述候选矩阵中的第1列至第j列的相似度,其中j是正整数并且小于或等于所述候选矩阵的总列数;和按照具有最大相似度的列数来分割所述图像的识别结果。
根据本发明的另一个方面,提供了一种用于对图像的识别结果进行分割的设备,包括:识别装置,其被配置成识别所述图像中的文本以获得关于所述文本的候选矩阵,其中,所述候选矩阵中的每一行均代表所述文本的一个识别结果;匹配装置,其被配置成将所述候选矩阵与文本库进行匹配以获得最佳匹配结果;相似度计算装置,其被配置成计算所述最佳匹配结果与所述候选矩阵中的第1列至第j列的相似度,其中j是正整数并且小于或等于所述候选矩阵的总列数;和分割装置,其被配置成按照具有最大相似度的列数来分割所述图像的识别结果。
根据本发明的其它方面,还提供了相应的计算机程序代码、计算机可读存储介质和计算机程序产品。
通过本发明的用于对图像的识别结果进行分割的方法和设备,使得改进对图像中的特别是邮政地址的文本的识别精度、提高工作效率并且减少劳动力。
通过以下结合附图对本发明的优选实施方式的详细说明,本发明的这些以及其他优点将更加明显。
附图说明
为了进一步阐述本公开内容的以上和其它优点和特征,下面结合附图对本公开内容的具体实施方式作进一步详细的说明。所述附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。具有相同的功能和结构的元件用相同的参考标号表示。应当理解,这些附图仅描述本公开内容的典型示例,而不应看作是对本公开内容的范围的限定。在附图中:
图1示例性地示出了一张日文地址图像及其上下位地址的划分;
图2示出了根据本发明的一个实施方式的用于对图像的识别结果进行分割的方法的流程图;
图3A示出了采用过分割法得到地址图像中各个字符的部分的示例;
图3B示出了使用波束搜索算法得到的最终识别结果的示例;
图3C示出了通过OCR引擎得到的候选矩阵的示例;
图3D示出了通过图2的方法所实现的上位地址的分割结果的示例;
图4示意性地示出了据本发明的实施方式的用于对图像的识别结果进行分割的设备的框图;和
图5是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。
具体实施方式
在下文中将结合附图对本公开的示范性实施方式进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。
在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开的方案密切相关的设备结构和/或处理步骤,而省略了与本公开关系不大的其他细节。
如前面所述,通过通用OCR引擎初步识别地址图像,得到手写地址的粗略结果。通常,地址字符串由上位地址和下位地址两部分组成,OCR系统可以对这两种地址进行不同的定制处理。上位地址粗略地描述本地信息。假设在同一个国家,上位地址通常从省开始,接着是城市或城镇的名字,然后是街道名称。相对而言,下位地址指的是详细信息,主要是建筑物或房间的信息。
例如,图1作为示例而示出了一张日文地址图像及其上下位地址的划分。如图1所示,总地址为“石川県かほく市白尾い5 5—5セレステⅡ103号”。地址以県一级行政单位“石川県”开头,下面是“かほく市”,然后是“白尾”,区名或街道名。以上所有短语构成上位地址:“石川県かほく市白尾”。相应的下位地址是“い55—5セレステⅡ103号”,一栋房子或一栋建筑号。在实际应用中,邮件和快递件通常通过上位地址来被分类,因此对上位地址的准确识别尤为重要。
应理解,图1仅示出了上、下位地址的划分示例。在实践中,可以根据需要来不同地划分上、下位地址。
对于将通过OCR引擎得到的粗识别结果进行分割所得到的上位和下位地址来说,提高识别精度以便利后续处理是十分重要和必要的,其使得提高工作效率并且减少劳动力。
通过本发明的对图像的识别结果进行分割的方法,使得准确地识别例如手写地址中的上位地址。
图2示出了根据本发明的一个实施方式的用于对图像的识别结果进行分割的方法的流程图。
方法开始于步骤201,识别图像中的文本以获得关于文本的候选矩阵,其中,该候选矩阵中的每一行均代表该文本的一个识别结果。
在本实施方式中,可以通过通用OCR引擎获得地址图像的粗识别结果,其中,OCR引擎是基于过分割法和波束搜索(beam-Search)算法设计的。为了便于本发明的理解,下面对这两种方法进行简要介绍。
过分割法
过分割是指将字符串分割成原语片段,并将原语片段组合成结合字符识别和上下文的字符。它通常分为两个步骤:连通分量标记和粘连字符分割。首先,必须对地址图像进行预处理,如降噪、归一化和二值化。然后,可以获得该地址图像的连通分量。通过对这些连通分量和轮廓线的分析,可以采用过分割法得到地址图像中各个字符的部分,如图3A所示。每个分段可以例如通过训练的卷积神经网络(CNN)模型来识别。
波束搜索算法
在得到地址图像的所有分段和CNN模型的相应识别结果后,可以通过波束搜索算法得到组合结果和最终结果。波束搜索算法是一种路径评估和搜索算法。路径评估函数基于贝叶斯决策,其综合了多种上下文,包括字符分类、几何上下文和语言上下文。不同的组合风格对应不同的路径。一种改进的波束搜索算法将剪枝策略分为两个阶段,使得有效地找到具有最大路径评估得分的路径。最后通过最大得分的路径得到最终的识别结果,如图3B所示。
图3C示出了通过以上算法得到的步骤201中的候选矩阵的示例。对于每个分段,将提供与图3C所示的矩阵中每一列相对应的多个字符候选。
优选地,步骤201中获得的候选矩阵中的各行按照置信度从高到低排列。
接着,在步骤202中,将候选矩阵与文本库进行匹配以获得最佳匹配结果。
一般来说,政府邮政单位或物流商家等会有一个上位地址合集,可以精确到所有的到街道或同级的地址。因此,在本实施方式中,文本库例如可以是上位地址库。
在本实施方式中,可以通过例如计算上位地址库中的每个地址与候选矩阵的加权编辑距离来获得最佳匹配结果,该最佳匹配结果是与候选矩阵的加权编辑距离最小的那个地址。下面举例说明如何计算加权编辑距离。
根据前面的介绍,地址图像可以通过OCR引擎来识别,得到包含有许多候选字符的粗略结果。所有的候选字符可以构成一个候选矩阵作为粗略识别结果,该候选矩阵表示为Amn(m表示每个字符的候选数目,n表示地址图像中的字符数目),如以下所示:
其中,aij(1≤i≤m,1≤j≤n)表示地址识别结果的第j个字符框对应的第i个识别结果。
可以通过计算上位地址库与候选矩阵Amn的加权编辑距离来从原始OCR引擎的粗略识别结果中得到一个最佳匹配的上位地址。具体地,在基于地址图像得到候选矩阵Amn之后,可以计算上位地址库中的任意上位地址与该候选矩阵的编辑距离。由于候选矩阵中存在多个候选字符,并且这些候选字符是按照置信度从高到底排列的,因此计算编辑距离时应赋予不同候选字符相应的权重。设m为OCR识别结果中每个识别框所对应的候选字符数个数(即候选矩阵Amn的最大行数m),A为候选矩阵,i为矩阵A中第i行上的一个元素,b为上位地址库中的一个上位地址,b’为上位地址字符串中的一个字符,则加权编辑距离可以表示为:
其中,f(i,b’)表示编辑距离的权重,其表示为:
从上式可以看出,编辑距离的权重f(i,b’)与候选矩阵A中的各行的置信度成反比。
与作为OCR识别结果的候选矩阵编辑距离最小的那个上位地址即为最佳匹配的上位地址Bp。
本领域技术人员应理解,以上描述的通过计算加权编辑距离得到最佳匹配结果只是作为一个示例。本发明不限于此,而是可以根据需要通过任何其他合适的方法来得到最佳匹配结果。
接着,在步骤203中,计算最佳匹配结果与候选矩阵中的第1列至第j列的相似度,其中j是正整数并且小于或等于候选矩阵的总列数。
在本实施方式中,可以通过例如2-gram Jaccard(杰卡德)算法来计算相似度。为了便于本发明的理解,下面首先简要介绍2-gram Jaccard算法。
2-gram Jaccard算法
Jaccard系数是用于比较样本集的相似性和多样性的统计量。它也被称为结点上的交集和Jaccard相似系数。该指数对有限样本集之间的相似性进行度量,并且定义为样本集的交集除以样本集的并集:
其中A,B表示待比较的两个样本集,J(A,B)表示其Jaccard相似系数,当A和B都为空集时,定义J(A,B)=1。J(A,B)的范围为0≤J(A,B)≤1。Jaccard相似系数越接近1,则两个样本集的相似度越高。
在文档分析和处理领域中,Jaccard算法是比较常用的计算句子相似度的工具。在实际应用中,通常通过把两个句子变换成由n-gram的片段组成的两个集合来计算它们的相似度。在计算过程中,对应的集合set A和set B指的是所有的N-gram片段。通过比较这两个集合,我们可以计算两个句子的相似度得分。
例如,两个句子A,B分别为:
句子A:京都市中京区大日町
句子B:京都市中京区大文字町
把两个句子转换为2-gram片段组成的集合如下所示:
set A={京都,都市,市中,中京,京区,区大,大日,日町}
set B={京都,都市,市中,中京,京区,区大,大文,文字,字町}
两个集合中相同片段的数目是6,即“京都,都市,市中,中京,京区,区大”,总片段数为11。由此可得,Jaccard相似度值为6/11=0.545。
在本实施方式中,计算最佳匹配结果与候选矩阵中的第1列至第j列的相似度的具体方法如下:
(1)通过将在步骤201中得到的候选矩阵Amn的每一列中的每个元素分别与相邻n-1列中的每列中的各元素两两组合,将候选矩阵Amn
变换成2-gram集合:
set A′={w1a11·w1a12,w1a11·w2a22,…}
其中,对候选矩阵Amn中的处于不同行i中的每个元素均施加以不同的权重wi:
其中,m是候选矩阵Amn的总行数,i表示元素aij在候选矩阵Amn中的行数。权重wi与候选矩阵Amn的各行的置信度相对应,即第一行的权重最高。
可以看出,在set A’中,每列中的每个元素与其他列中的元素的组合,实际上是每列中的每个元素及其相应权重与其他列中的元素及其相应权重的组合。
应理解,由于候选矩阵Amn中的元素数目通常远大于最佳匹配的地址的字数,因此将导致在利用Jaccard算法计算相似度时,候选矩阵Amn与最佳匹配的地址不对等。通过施加上述权重wi,使得候选矩阵Amn等价于最佳匹配的地址,从而进一步提高识别精度。
而且,由于候选矩阵Amn的各行是按照置信度从高到低排列的,因此通过在计算相似度时施加与置信度相对应的权重,也使得提高识别精度。
(2)将在步骤202中得到的最佳匹配的上位地址Bp转换为2-gram集合:
set B′={b1b2,b2b3,…,bp-1bp}
(3)当计算J(A,B)时,Jaccard相似度值可以如下计算:
逐个字符(即针对候选矩阵Amn的每一列)计算最佳匹配的上位地址与候选矩阵Amn之间的Jaccard相似度值。
本领域技术人员应理解,以上内容虽然就利用Jaccard算法计算相似度进行描述,但是本发明不限于此,而是可以扩展至使用任何其他合适的算法来计算相似度。
最后,在步骤204中,按照具有最大相似度的列数来分割图像的识别结果。
具体地,在本实施方式中,对于上位地址与下位地址的分割,最准确的分割位置具有最大的Jaccard相似度值。例如,如图3D所示,在矩阵的第8列得到最大的Jaccard相似度值。因此,矩阵第1列至第8列所对应的字符串即为手写地址的原始OCT识别结果中的上位地址。
优选地,在步骤203中,可以不必计算最佳匹配的上位地址与候选矩阵Amn的所有列之间的Jaccard相似度值,而是可以在计算到最大Jaccard相似度值之后的减小的Jaccard相似度值时停止继续计算。
本领域技术人员应理解,虽然以上就邮政地址的原始OCR识别图像分割进行了描述,但是本发明不限于此,而是可以根据需要扩展到任何图像分割应用。
以上所讨论的方法可以完全由计算机可执行的程序来实现,也可以部分地或完全地使用硬件和/或固件来实现。当其用硬件和/或固件实现时,或者将计算机可执行的程序载入可运行程序的硬件设备时,则实现了下文将要描述的用于对图像的识别结果进行分割的设备。下文中,在不重复上文中已经讨论的一些细节的情况下给出这些设备的概要,但是应当注意,虽然这些设备可以执行前文所描述的方法,但是所述方法不一定采用所描述的设备的那些部件或不一定由那些部件执行。
图4示出了根据本发明的一个实施方式的用于对图像的识别结果进行分割的设备400,其包括识别装置401、匹配装置402、相似度计算装置403和分割装置404。其中,识别装置401用于识别所述图像中的文本以获得关于所述文本的候选矩阵,其中,所述候选矩阵中的每一行均代表所述文本的一个识别结果;匹配装置402用于将所述候选矩阵与文本库进行匹配以获得最佳匹配结果;相似度计算装置403用于计算所述最佳匹配结果与所述候选矩阵中的第1列至第j列的相似度,其中j是正整数并且小于或等于所述候选矩阵的总列数;和分割装置404用于按照具有最大相似度的列数来分割所述图像的识别结果。
图4所示的用于对图像的识别结果进行分割的设备400对应于图2所示的方法。因此,用于对图像的识别结果进行分割的设备400中的各装置的相关细节已经在对图2的用于对图像的识别结果进行分割的方法的描述中详细给出,在此不再赘述。
上述装置中各个组成模块、单元可通过软件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,从存储介质或网络向具有专用硬件结构的计算机(例如图5所示的通用计算机500)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行各种功能等。
图5是其中可以实现根据本发明的实施方式的方法和/或设备的通用个人计算机的示例性结构的框图。如图5所示,中央处理单元(CPU)501根据只读存储器(ROM)502中存储的程序或从存储部分508加载到随机存取存储器(RAM)503的程序执行各种处理。在RAM 503中,也根据需要存储当CPU 501执行各种处理等等时所需的数据。CPU 501、ROM 502和RAM503经由总线504彼此连接。输入/输出接口505也连接到总线504。
下述部件连接到输入/输出接口505:输入部分506(包括键盘、鼠标等等)、输出部分507(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)等,和扬声器等)、存储部分508(包括硬盘等)、通信部分509(包括网络接口卡比如LAN卡、调制解调器等)。通信部分509经由网络比如因特网执行通信处理。根据需要,驱动器510也可连接到输入/输出接口505。可移除介质511比如磁盘、光盘、磁光盘、半导体存储器等等根据需要被安装在驱动器510上,使得从中读出的计算机程序根据需要被安装到存储部分508中。
在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质比如可移除介质511安装构成软件的程序。
本领域的技术人员应当理解,这种存储介质不局限于图5所示的其中存储有程序、与设备相分离地分发以向用户提供程序的可移除介质511。可移除介质511的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))和半导体存储器。或者,存储介质可以是ROM 502、存储部分508中包含的硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。
本发明还提出了相应的计算机程序代码、一种存储有机器可读取的指令代码的计算机程序产品。所述指令代码由机器读取并执行时,可执行上述根据本发明实施方式的方法。
相应地,被配置为承载上述存储有机器可读取的指令代码的程序产品的存储介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等等。
通过以上描述,本公开的实施方式提供了以下的技术方案,但不限于此。
附记1.一种用于对图像的识别结果进行分割的方法,包括:
识别所述图像中的文本以获得关于所述文本的候选矩阵,其中,所述候选矩阵中的每一行均代表所述文本的一个识别结果;
将所述候选矩阵与文本库进行匹配以获得最佳匹配结果;
计算所述最佳匹配结果与所述候选矩阵中的第1列至第j列的相似度,其中j是正整数并且小于或等于所述候选矩阵的总列数;和
按照具有最大相似度的列数来分割所述图像的识别结果。
附记2.如附记1所述的方法,其中,利用光学字符识别引擎来获得所述候选矩阵。
附记3。如附记1或2所述的方法,其中,所述候选矩阵的各行按照置信度从高到低排列。
附记4.如附记3所述的方法,其中,将所述候选矩阵与文本库进行匹配包括:计算所述文本库中的每个文本与所述候选矩阵的编辑距离,所述最佳匹配结果是与所述候选矩阵编辑距离最小的文本。
附记5.如附记4所述的方法,其中,所述编辑距离是加权编辑距离。
附记6,如附记5所述的方法,其中,所述加权编辑距离的权重与所述置信度成反比。
附记7.如附记2所述的方法,其中,通过计算所述候选矩阵与所述最佳匹配结果的交集与并集的比值,来计算所述相似度。
附记8.如附记7所述的方法,其中,计算所述候选矩阵与所述最佳匹配结果的交集与并集的比值还包括:
通过将所述候选矩阵中的每一列中的每个元素分别与相邻n-1列中的每列中的各个元素相组合,将所述候选矩阵转换为n-gram的第一集合;
通过将所述最佳匹配结果中的n个相邻元素相组合,将所述最佳匹配结果转换为n-gram的第二集合;和
计算所述第一集合和所述第二集合的交集与并集的比值,
其中,n-gram表示所述候选矩阵或所述最佳匹配结果中的n个元素组合在一起的文本模块。
附记9,如附记8所述的方法,其中,n是大于或等于2的整数。
附记10.如附记8所述的方法,其中,针对所述候选矩阵中的每一行分别设定一权重,并且其中,在将所述候选矩阵中的每一列中的每个元素分别与相邻n-1列中的每列中的各个元素相组合时,将相应的权重赋予相对应的元素。
附记11.如附记10所述的方法,其中,所述候选矩阵中的所有行的权重之和等于1。
附记12.如附记10或11所述的方法,其中,所述候选矩阵的每一行的权重与所述置信度相对应地从高到低排列。
附记13.如附记1或2所述的方法,其中,通过2-gram Jaccard算法来计算所述相似度。
附记14.如附记1或2所述的方法,其中,所述图像包括邮政地址。
附记15.如附记14所述的方法,其中,所述文本库是上位地址库。
附记16.如附记15所述的方法,其中,所述上位地址库包含所述邮政地址的上位地址。
附记17.如附记2所述的方法,其中,所述光学字符识别引擎基于过分割法和路径评估和搜索算法。
附记18.如附记17所述的方法,其中,所述路径评估和搜索算法是波束搜索算法。
附记19.一种用于对图像的识别结果进行分割的设备,包括:
识别装置,其被配置成识别所述图像中的文本以获得关于所述文本的候选矩阵,其中,所述候选矩阵中的每一行均代表所述文本的一个识别结果;
匹配装置,其被配置成将所述候选矩阵与文本库进行匹配以获得最佳匹配结果;
相似度计算装置,其被配置成计算所述最佳匹配结果与所述候选矩阵中的第1列至第j列的相似度,其中j是正整数并且小于或等于所述候选矩阵的总列数;和
分割装置,其被配置成按照具有最大相似度的列数来分割所述图像的识别结果。
附记20.一种计算机可读存储介质,所述计算机可读存储介质存储有能够由处理器运行来执行以下操作的程序:
识别所述图像中的文本以获得关于所述文本的候选矩阵,其中,所述候选矩阵中的每一行均代表所述文本的一个识别结果;
将所述候选矩阵与文本库进行匹配以获得最佳匹配结果;
计算所述最佳匹配结果与所述候选矩阵中的第1列至第j列的相似度,其中j是正整数并且小于或等于所述候选矩阵的总列数;和
按照具有最大相似度的列数来分割所述图像的识别结果。
最后,还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。此外,在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
以上虽然结合附图详细描述了本发明的实施方式,但是应当明白,上面所描述的实施方式只是被配置为说明本发明,而并不构成对本发明的限制。对于本领域的技术人员来说,可以对上述实施方式作出各种修改和变更而没有背离本发明的实质和范围。因此,本发明的范围仅由所附的权利要求及其等效含义来限定。
Claims (8)
1.一种用于对图像的识别结果进行分割的方法,包括:
识别所述图像中的文本以获得关于所述文本的候选矩阵,其中,所述候选矩阵中的每一行均代表所述文本的一个识别结果;
将所述候选矩阵与文本库进行匹配以获得最佳匹配结果;
计算所述最佳匹配结果与所述候选矩阵中的第1列至第j列的相似度,其中j是正整数并且小于或等于所述候选矩阵的总列数;和
按照具有最大相似度的列数来分割所述图像的识别结果,
其中,所述候选矩阵的各行按照置信度从高到低排列,以及
其中,将所述候选矩阵与文本库进行匹配包括:计算所述文本库中的每个文本与所述候选矩阵的编辑距离,所述最佳匹配结果是与所述候选矩阵编辑距离最小的文本。
2.根据权利要求1所述的方法,其中,所述编辑距离是加权编辑距离,其权重与所述置信度成反比。
3.根据权利要求1所述的方法,其中,通过计算所述候选矩阵与所述最佳匹配结果的交集与并集的比值,来计算所述相似度。
4.根据权利要求3所述的方法,其中,计算所述候选矩阵与所述最佳匹配结果的交集与并集的比值还包括:
通过将所述候选矩阵中的每一列中的每个元素分别与相邻n-1列中的每列中的各个元素相组合,将所述候选矩阵转换为n-gram的第一集合;
通过将所述最佳匹配结果中的n个相邻元素相组合,将所述最佳匹配结果转换为n-gram的第二集合;和
计算所述第一集合和所述第二集合的交集与并集的比值,
其中,n-gram表示所述候选矩阵或所述最佳匹配结果中的n个元素组合在一起的文本模块,其中n是大于或等于2的整数。
5.根据权利要求4所述的方法,其中,针对所述候选矩阵中的每一行分别设定一权重,并且其中,在将所述候选矩阵中的每一列中的每个元素分别与相邻n-1列中的每列中的各个元素相组合时,将相应的权重赋予相对应的元素。
6.根据权利要求5所述的方法,其中,所述候选矩阵中的所有行的权重之和等于1,并且其中,所述候选矩阵的每一行的权重与所述置信度相对应地从高到低排列。
7.一种用于对图像的识别结果进行分割的设备,包括:
识别装置,其被配置成识别所述图像中的文本以获得关于所述文本的候选矩阵,其中,所述候选矩阵中的每一行均代表所述文本的一个识别结果;
匹配装置,其被配置成将所述候选矩阵与文本库进行匹配以获得最佳匹配结果;
相似度计算装置,其被配置成计算所述最佳匹配结果与所述候选矩阵中的第1列至第j列的相似度,其中j是正整数并且小于或等于所述候选矩阵的总列数;和
分割装置,其被配置成按照具有最大相似度的列数来分割所述图像的识别结果,
其中,所述候选矩阵的各行按照置信度从高到低排列,以及
其中,所述匹配装置还被配置成计算所述文本库中的每个文本与所述候选矩阵的编辑距离,所述最佳匹配结果是与所述候选矩阵编辑距离最小的文本。
8.一种计算机可读存储介质,所述计算机可读存储介质存储有能够由处理器运行来执行以下操作的程序:
识别图像中的文本以获得关于所述文本的候选矩阵,其中,所述候选矩阵中的每一行均代表所述文本的一个识别结果;
将所述候选矩阵与文本库进行匹配以获得最佳匹配结果;
计算所述最佳匹配结果与所述候选矩阵中的第1列至第j列的相似度,其中j是正整数并且小于或等于所述候选矩阵的总列数;和
按照具有最大相似度的列数来分割所述图像的识别结果,
其中,所述候选矩阵的各行按照置信度从高到低排列,以及
其中,将所述候选矩阵与文本库进行匹配包括:计算所述文本库中的每个文本与所述候选矩阵的编辑距离,所述最佳匹配结果是与所述候选矩阵编辑距离最小的文本。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910073144.2A CN111488757B (zh) | 2019-01-25 | 2019-01-25 | 用于对图像的识别结果进行分割的方法和设备及存储介质 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
CN201910073144.2A CN111488757B (zh) | 2019-01-25 | 2019-01-25 | 用于对图像的识别结果进行分割的方法和设备及存储介质 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN111488757A CN111488757A (zh) | 2020-08-04 |
CN111488757B true CN111488757B (zh) | 2023-06-23 |
Family
ID=71793962
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN201910073144.2A Active CN111488757B (zh) | 2019-01-25 | 2019-01-25 | 用于对图像的识别结果进行分割的方法和设备及存储介质 |
Country Status (1)
Country | Link |
---|---|
CN (1) | CN111488757B (zh) |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN114358144B (zh) * | 2021-12-16 | 2023-09-26 | 西南交通大学 | 一种图像分割质量评估方法 |
Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN107480680A (zh) * | 2017-07-28 | 2017-12-15 | 顺丰科技有限公司 | 基于OCR和Bi‑LSTM的识别图像中文字信息的方法、系统及设备 |
CN108062302A (zh) * | 2016-11-08 | 2018-05-22 | 北京国双科技有限公司 | 一种特定文本信息的识别方法及装置 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US9212007B2 (en) * | 2013-05-24 | 2015-12-15 | Bank Of America Corporation | Correction of customer mailing information |
-
2019
- 2019-01-25 CN CN201910073144.2A patent/CN111488757B/zh active Active
Patent Citations (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108062302A (zh) * | 2016-11-08 | 2018-05-22 | 北京国双科技有限公司 | 一种特定文本信息的识别方法及装置 |
CN107480680A (zh) * | 2017-07-28 | 2017-12-15 | 顺丰科技有限公司 | 基于OCR和Bi‑LSTM的识别图像中文字信息的方法、系统及设备 |
Also Published As
Publication number | Publication date |
---|---|
CN111488757A (zh) | 2020-08-04 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US11715014B2 (en) | System and method of character recognition using fully convolutional neural networks with attention | |
US11568143B2 (en) | Pre-trained contextual embedding models for named entity recognition and confidence prediction | |
US10936862B2 (en) | System and method of character recognition using fully convolutional neural networks | |
US6950555B2 (en) | Holistic-analytical recognition of handwritten text | |
JP3950535B2 (ja) | データ処理方法及び装置 | |
US6178396B1 (en) | Word/phrase classification processing method and apparatus | |
US7054803B2 (en) | Extracting sentence translations from translated documents | |
KR100630886B1 (ko) | 문자 스트링 식별 | |
CN110083832B (zh) | 文章转载关系的识别方法、装置、设备及可读存储介质 | |
Lehal et al. | A shape based post processor for Gurmukhi OCR | |
CN111488757B (zh) | 用于对图像的识别结果进行分割的方法和设备及存储介质 | |
JP7487532B2 (ja) | 画像ブロックの認識結果の補正方法及び装置、並びに記憶媒体 | |
Aliwy et al. | Corpus-based technique for improving Arabic OCR system | |
Vaidya et al. | Handwritten numeral identification system using pixel level distribution features | |
CN113962196A (zh) | 一种简历处理方法、装置、电子设备及存储介质 | |
JP2003331214A (ja) | 文字認識誤り訂正方法、装置及びプログラム | |
CN111340029A (zh) | 用于识别收件人地址中的至少部分地址的装置和方法 | |
US20240062572A1 (en) | Text data structuring method and apparatus using line information | |
US20230044266A1 (en) | Machine learning method and named entity recognition apparatus | |
JP3043625B2 (ja) | 単語分類処理方法、単語分類処理装置及び音声認識装置 | |
Gurav et al. | ResPho (SC) Net: A Zero-Shot Learning Framework for Norwegian Handwritten Word Image Recognition | |
Jemni et al. | Benchmarking post-processing techniques for offline Arabic text recognition system | |
CN117312918A (zh) | 基于数据增强和特征提取的建材数据分类方法及系统 | |
CN114298045A (zh) | 游记数据自动提取的方法、电子设备和介质 | |
CN113536807A (zh) | 基于语义的不完全最大匹配分词方法 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
PB01 | Publication | ||
PB01 | Publication | ||
SE01 | Entry into force of request for substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
GR01 | Patent grant | ||
GR01 | Patent grant |