CN109635810A - 一种确定文本信息的方法、装置、设备及存储介质 - Google Patents

一种确定文本信息的方法、装置、设备及存储介质 Download PDF

Info

Publication number
CN109635810A
CN109635810A CN201811320546.XA CN201811320546A CN109635810A CN 109635810 A CN109635810 A CN 109635810A CN 201811320546 A CN201811320546 A CN 201811320546A CN 109635810 A CN109635810 A CN 109635810A
Authority
CN
China
Prior art keywords
incidence relation
character string
text
individual character
page image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201811320546.XA
Other languages
English (en)
Other versions
CN109635810B (zh
Inventor
王浩宗
张睿
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Sankuai Online Technology Co Ltd
Original Assignee
Beijing Sankuai Online Technology Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Sankuai Online Technology Co Ltd filed Critical Beijing Sankuai Online Technology Co Ltd
Priority to CN201811320546.XA priority Critical patent/CN109635810B/zh
Publication of CN109635810A publication Critical patent/CN109635810A/zh
Application granted granted Critical
Publication of CN109635810B publication Critical patent/CN109635810B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)

Abstract

本公开实施例提供一种确定文本信息的方法、装置、设备及存储介质,其中,所述方法包括:获得待识别版面图像以及所述待识别版面图像的单字识别结果;基于所述单字识别结果确定所述待识别版面图像中的候选文字串;提取所述候选文字串中关联关系的特征值,所述关联关系基于所述候选文字串对应的单字识别结果确定;基于所述特征值从所述候选文字串中确定最终文字串,所述最终文字串用于表征所述待识别版面信息中文本信息的识别结果。本公开实施例可以基于版面图像的单字识别结果确定版面图像中的文本信息,提升识别版面图像的文本信息的准确性。

Description

一种确定文本信息的方法、装置、设备及存储介质
技术领域
本公开实施例涉及信息处理技术领域,尤其涉及一种确定文本信息的方法、装置、设备及存储介质。
背景技术
光学字符识别(OCR)技术是自动分析印刷扫描文档中文本、图形、图像和表格等区域,并确定其逻辑关系的技术。目前OCR技术的研究热点是自然场景中版面图像的文本信息识别,如识别门店招牌、路牌或灯箱等物体图像中的文本信息等。
现有的OCR技术方案主要包括两种,分别为单字识别方案和串识别方案。单字识别方案是以单字作为检测和识别的对象,但是无法准确的识别字符间的组合和关联关系。而串识别方案是以文字串作为检测和识别的对象,但是其无法准确的识别待识别版面图像中的单字。
发明内容
本公开的实施例提供一种确定文本信息的方法、装置、设备及存储介质,可以基于版面图像的单字识别结果确定版面图像中的文本信息,提升识别版面图像的文本信息的准确性。
具体地,本公开实施例是通过如下技术方案实现的:
根据本公开实施例的第一方面,提出了一种识别文本信息的方法,包括:
获得待识别版面图像以及所述待识别版面图像的单字识别结果;
基于所述单字识别结果确定所述待识别版面图像中的候选文字串;
提取所述候选文字串中关联关系的特征值,所述关联关系基于所述候选文字串对应的单字识别结果确定;
基于所述特征值从所述候选文字串中确定最终文字串,所述最终文字串用于表征所述待识别版面信息中文本信息的识别结果。
在一实施例中,所述基于所述单字识别结果确定所述待识别版面图像中的候选文字串,包括:
基于所述单字识别结果建立所述待识别版面图像中,每两个单字的位置点之间具有方向的关联关系;
确定每一所述关联关系对应的文字向量,得到多个文字向量;
若所述多个文字向量中,第一文字向量的终点为第二文字向量的起点,且所述第一文字向量与所述第二文字向量的夹角小于或等于预设夹角阈值,将所述第一文字向量和所述第二文字向量拼接为一个新的文字向量,得到至少一个新的文字向量;
确定当前得到的各文字向量对应的候选文字串。
在一实施例中,所述方法还包括:
删除所述候选文字串中不相邻的单字之间的关联关系。
在一实施例中,所述提取所述候选文字串中关联关系的特征值,包括:
提取所述候选文字串中每个所述关联关系的一元预设特征值;和/或,
提取所述候选文字串中相邻两个所述关联关系的二元预设特征值;
所述一元预设特征包括以下特征中的至少一种:边长、角度、两个单字的2-gram概率、单字尺寸相似度以及单字风格相似度;
所述二元预设特征包括以下特征中的至少一种:边长比、夹角、三个单字的3-gram概率、单字尺寸相似度以及单字风格相似度。
在一实施例中,所述基于所述特征值从所述候选文字串中确定最终文字串,包括:
将所述特征值输入到预先训练的备选关联关系确定模型中,基于所述模型的输出结果确定所述候选文字串中单字之间的备选关联关系;
根据所述备选关联关系从所述候选文字串中确定最终文字串。
在一实施例中,所述备选关联关系确定模型包括用于确定备选关联关系的势函数模型;
所述将所述特征值输入到预先训练的备选关联关系确定模型中,基于所述模型的输出结果确定所述候选文字串中单字之间的备选关联关系,包括:
将所述特征值输入到所述势函数模型中,并将所述势函数模型中的预设随机变量作为优化变量对所述势函数模型的输出结果进行优化,所述预设随机变量用于指示所述特征值对应的关联关系是否为备选关联关系;
将经过所述优化得到的最优解确定为所述候选文字串中单字之间的备选关联关系。
在一实施例中,所述方法还包括预先根据以下步骤训练所述势函数模型:
获得样本版面图像以及所述样本版面图像的单字识别结果;
基于所述样本版面图像的单字识别结果确定所述样本版面图像的样本候选文字串;
提取所述样本候选文字串中关联关系的样本特征值;
标定所述样本特征值对应的势函数模型的输出结果;
将所述样本特征值以及所述势函数模型的输出结果作为训练集,训练势函数模型。
在一实施例中,所述根据所述备选关联关系从所述候选文字串中确定最终文字串,包括:
确定所述备选关联关系组成的关联关系图中是否存在连通分量不为串;
若存在,依次删除所述连通分量对应的多个备选关联关系中对所述备选关联关系确定模型的输出结果影响最小的备选关联关系,直至所述连通分量成为串;
确定当前剩余的备选关联关系对应的最终文字串。
根据本公开实施例的第二方面,提出了一种确定文本信息的装置,包括:
图像单字获取模块,用于获得待识别版面图像以及所述待识别版面图像的单字识别结果;
候选字串确定模块,用于基于所述单字识别结果确定所述待识别版面图像中的候选文字串;
字串特征提取模块,用于提取所述候选文字串中关联关系的特征值,所述关联关系基于所述候选文字串对应的单字识别结果确定;
文本信息确定模块,用于基于所述特征值从所述候选文字串中确定最终文字串,所述最终文字串用于表征所述待识别版面信息中文本信息的识别结果。
根据本公开实施例的第三方面,提出了一种确定文本信息的的设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述任一所述的确定文本信息的方法。
根据本公开实施例的第四方面,提出了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行上述任一所述的确定文本信息的方法。
在至少一个实施例中,通过获得待识别版面图像以及所述待识别版面图像的单字识别结果,并基于所述单字识别结果确定所述待识别版面图像中的候选文字串,然后提取所述候选文字串中关联关系的特征值,再基于所述特征值从所述候选文字串中确定最终文字串,进而可以通过该最终文字串表征待识别版面信息中文本信息的识别结果,可适用于复杂的版面图像的文本信息识别,提高横竖混排、带角度的版面图像的文本信息识别质量。
附图说明
图1是本公开实施例中的一示例性实施例示出的一种确定文本信息的方法的流程图;
图2A是本公开实施例中的一示例性实施例示出的如何确定待识别版面图像中的候选文字串的流程图;
图2B是本公开实施例中的一示例性实施例示出的待识别版面图像及单字识别结果的示意图;
图2C是本公开实施例中的一示例性实施例示出的待识别版面图像中单字的关联关系的示意图;
图2D是本公开实施例中的一示例性实施例示出的待识别版面图像中单字的风格差异的示意图;
图3A是本公开实施例中的又一示例性实施例示出的一种确定文本信息的方法的流程图;
图3B是本公开实施例中的一示例性实施例示出的待识别版面图像中单字的备选关联关系的示意图;
图4A是本公开实施例中的一示例性实施例示出的如何确定待识别版面图像中的文本信息的流程图;
图4B是本公开实施例中的一示例性实施例示出的待识别版面图像中文本信息的示意图;
图5是本公开实施例中的一示例性实施例示出的一种确定文本信息的装置的结构图;
图6是本公开实施例中的又一示例性实施例示出的一种确定文本信息的装置的结构图;
图7是本公开实施例中的一示例性实施例示出的一种电子设备的结构图。
具体实施方式
这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开实施例的一些方面相一致的装置和方法的例子。
在本公开实施例使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开实施例。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开实施例范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
图1是本公开实施例中的一示例性实施例示出的一种确定文本信息的方法的流程图;该实施例可以用于终端电子设备(如,智能手机、平板电脑等)或者服务端的电子设备(如,一台服务器和多台服务器组成的服务器集群等)。如图1所示,该方法包括步骤S101-S104:
在步骤S101中:获得待识别版面图像以及所述待识别版面图像的单字识别结果。
在一实施例中,上述待识别版面图像可以包括门店招牌、路牌或灯箱等物体图像等,本实施例对此不进行限定。
在一实施例中,上述单字识别结果可以由用户基于现有的光学字符识别(OCR)技术方案对待识别版面图像进行识别得到。
在一实施例中,上述单字识别结果可以包括每个单字的字符和表示单字位置的矩形框,其中,矩形的中心可以表示单字的位置点,矩形的宽度可以表示字宽,矩形的面积可以表示字的面积。
在一实施例中,当用户获取到待识别版面图像后,可以基于OCR技术获取该待识别版面图像的单字识别结果,进而可以将该待识别版面图像以及单字识别结果输入到应用本实施例的确定文本信息的方法的电子设备中。
在步骤S102中:基于所述单字识别结果确定所述待识别版面图像中的候选文字串。
在一实施例中,当获得待识别版面图像以及所述待识别版面图像的单字识别结果后,可以基于该单字识别结果确定各个单字之间的位置关系,进而根据确定的位置关系确定待识别版面图像中的候选文字串。
在一实施例中,上述候选文字串的方向可以为竖直方向、水平方向或其他任意方向,本实施例对此不进行限定。
在一实施例中,上述候选文字串的确定方式还可以参见下述实施例,在此先不进行详述。
在步骤S103中:提取所述候选文字串中关联关系的特征值,所述关联关系基于所述候选文字串对应的单字识别结果确定。
在一实施例中,当基于所述单字识别结果确定所述待识别版面图像中的候选文字串后,可以基于该候选文字串对应的单字识别结果确定候选文字串中的关联关系,进而对该关联关系进行特征提取,得到特征值。其中,关联关系用于表征能够组成候选文字串的单字之间的关系。
在一实施例中,上述提取的特征值可以为既能很好地突出该候选文字串中关联关系的特点,又能表现出与同一版面图像中的其他候选文字串中关联关系的区别与联系的特征值,以增强候选文字串中关联关系的辨识度。
在一实施例中,提取所述候选文字串中关联关系的特征值的方式还可以参见下述实施例,在此先不进行详述。
在步骤S104中:基于所述特征值从所述候选文字串中确定最终文字串,所述最终文字串用于表征所述待识别版面信息中文本信息的识别结果。
在一实施例中,当提取所述候选文字串中关联关系的特征值后,可以基于该特征值从所述候选文字串中确定最终文字串,进而可以通过该最终文字串表征所述待识别版面信息中文本信息的识别结果。
在一实施例中,上述最终文字串的形式可以由开人员根据实际业务需要进行设置,如设置为短语、句子以及词条等中的一种或多种,本实施例对此不进行限定。
在一实施例中,基于所述特征值从所述候选文字串中确定最终文字串的方式还可以参见下述实施例,在此先不进行详述。
至此,本公开实施例提供的上述方法,相比于现有的OCR技术方案,由于是基于待识别版面图像和单字识别结果确定候选文字串,进而基于候选文字串中关联关系的特征值确定表征待识别版面信息中文本信息的识别结果的最终文字串,因而可以基于版面图像的单字识别结果确定版面图像中字符间的组合和关联关系,可以适用于复杂的版面图像的文本信息识别,提高横竖混排、带角度的版面图像的文本信息识别质量。
图2A是本公开实施例中的一示例性实施例示出的如何确定待识别版面图像中的候选文字串的流程图;本实施例在上述实施例的基础上,以如何确定待识别版面图像中的候选文字串为例进行示例性说明。如图2A所示,步骤S102中所述基于所述单字识别结果确定所述待识别版面图像中的候选文字串,包括以下步骤S201-S205:
在步骤S201中,基于所述单字识别结果建立所述待识别版面图像中,每两个单字的位置点之间具有方向的关联关系。
在一实施例中,当获得待识别版面图像的单字识别结果后,可以对该图像中每两个单字的位置点建立具有方向的关联关系。
举例来说,如图2B所示,待识别版面图像中包含n=9个单字,即“时”、“尚”、“东”、“北”、“菜”、“订”、“餐”、“电”以及“话”,则在考虑两个字的先后顺序的情况下,共可以建立n(n-1)=72个具有方向的关联关系(参见图2C中所示的连线)。
在步骤S202中,确定每一所述关联关系对应的文字向量,得到多个文字向量。
在一实施例中,当建立上述具有方向的关联关系后,可以进一步确定每个关联关系对应的一个文字向量。
在一实施例中,上述文字向量中既包含建立关联关系的两个单字,又包含该具有方向的关联关系。
仍以上述图2C为例,则根据“食”和“尚”两字的一个对应关系(如由“食”至“尚”的关联关系),可以确定该对应关系对应的一个文字向量“食—>尚”。
在步骤S203中,若所述多个文字向量中,第一文字向量的终点为第二文字向量的起点,且所述第一文字向量与所述第二文字向量的夹角小于或等于预设夹角阈值,将所述第一文字向量和所述第二文字向量拼接为一个新的文字向量,得到至少一个新的文字向量。
仍以图2C为例,当得到文字向量A“东—>北”与文字向量B“北—>菜”后,可以确定文字向量A的终点(即单字“北”)为文字向量的起点,且文字向量A与文字向量B的夹角(如,0°)小于或等于预设夹角阈值(如,10°),因而可以将文字向量A“东—>北”与文字向量B“北—>菜”进行拼接,得到新的文字向量“东—>北—>菜”;同理,可以将文字向量C“食—>北”与文字向量D“北—>餐”进行拼接,得到新的文字向量“食—>北—>餐”等。
值得说明的是,当得到上述新的文字向量后,还可以继续对该新的文字向量以及其他文字向量进行拼接,直到上述多个文字向量均无法继续拼接为止。
在步骤S204中,确定当前得到的各文字向量对应的候选文字串。
在一实施例中,当确定上述多个文字向量均无法继续拼接时,可以确定当前得到的各文字向量对应的候选文字串。
仍以图2C为例,当得到新的文字向量“东—>北—>菜”,且确定该新的文字向量“东—>北—>菜”无法与其他文字向量继续拼接后,可以确定该新的文字向量“东—>北—>菜”对应的候选文字串“东北菜”;同理,还可以获得其他候选文字串,如“食北餐”、“食北电”等。
在一实施例中,所述确定当前得到的各文字向量对应的候选文字串后,上述方法还可以包括:
步骤S205:删除所述候选文字串中不相邻的单字之间的关联关系。
举例来说,当确定该新的文字向量“东—>北—>菜”对应的候选文字串“东北菜”后,可以确定该候选文字串中不相邻的单字为“东”与“菜”,因而可以删除“东”与“菜”之间的关联关系;同理,可以删除“菜”与“东”、“食”与“餐”、“食”与“电”之间的关联关系等。
在一实施例中,当删除所述候选文字串中不相邻的单字之间的关联关系后,上述步骤S103中所述提取所述候选文字串中关联关系的特征值,可以包括:
提取所述候选文字串中每个所述关联关系的一元预设特征值;和/或,提取所述候选文字串中相邻两个所述关联关系的二元预设特征值。
在一实施例中,上述一元预设特征可以包括以下特征中的至少一种:
(1.1)边长,定义为:每个关联关系中两个单字的位置点之间的距离与字宽的比;
(1.2)角度,定义为:每个关联关系中两个单字的位置点之间具有方向的关联关系与直角坐标系x轴的夹角;
(1.3)两个单字的2-gram概率,定义为:根据标注数据语料库建立的n-gram语言模型计算的,每个关联关系中两个单字的相邻概率;
(1.4)单字尺寸相似度,定义为:每个关联关系的两个单字的面积中,较小的面积S1与较大的面积S2的比值,即S1/S2
(1.5)单字风格相似度,定义为:对每个关联关系中两个单字所在区域,利用Gram矩阵计算出的风格差异;
举例来说,图2D中单字“那”、“只”和“羊”为一种风格的文字,而“烤”、“肉”、“火”和“锅”为另一种风格的文字。
在一实施例中,当获得待识别版面图像后,可以利用神经网络算法衡量图像中文字的风格差异。本实施例中可以计算待识别版面图像中两个单字所在区域的Gram矩阵的差异,其中Gram矩阵为图像所在区域经过卷积后的偏心协方差矩阵,进而可以基于得到的Gram矩阵的差异衡量单字风格相似度。
其中,字宽、字的面积等概念的解释和说明可以参见上述图1所示实施例,在此不进行赘述。
在一实施例中,上述二元预设特征可以包括以下特征中的至少一种:
(2.1)边长比,定义为:相邻的两个关联关系的边长中,较小的边长l1与较大的边长l2的比值,即l1/l2
(2.2)夹角,定义为:相邻的两个关联关系的角度之差;
(2.3)三个单字的3-gram概率,定义为:根据标注数据语料库建立的n-gram语言模型计算的,相邻的两个关联关系中三个单字的相邻概率;
(2.4)单字尺寸相似度,定义为:假设三个单字的面积小到大分别为S1、S2、S3,则相邻两个关联关系的单字尺寸相似度为中间的面积S2的平方与“较小的面积S1和较大的面积S3的乘积”的比值,即S2 2/S1S3
(2.5)单字风格相似度,定义为:对相邻的两个关联关系中前两个单字所在区域和后两个单字所在区域,利用Gram矩阵计算出的风格差异,具体解释说明可以参见上述实施例,在此不进行赘述。
由上述描述可知,本实施例通过基于所述单字识别结果建立所述待识别版面图像中,每两个单字的位置点之间具有方向的关联关系,并确定每一所述关联关系对应的文字向量,得到多个文字向量,然后对每两个符合拼接条件的所述文字向量进行拼接,得到至少一个新的文字向量,进而确定当前得到的各文字向量对应的候选文字串,可以准确地基于单字识别结果确定待识别版面图像中的候选文字串,进而可以提升后续确定文本信息的准确性。
在上述实施例的基础上,步骤S104中基于所述特征值从所述候选文字串中确定最终文字串,可以包括将所述特征值输入到预先训练的备选关联关系确定模型中,基于所述模型的输出结果确定所述候选文字串中单字之间的备选关联关系,进而根据所述备选关联关系从所述候选文字串中确定最终文字串。
举例来说,图3A是本公开实施例中的又一示例性实施例示出的一种确定文本信息的方法的流程图;该实施例可以用于终端电子设备(如,智能手机、平板电脑等)或者服务端的电子设备(如,一台服务器和多台服务器组成的服务器集群等)。本实施例中,上述备选关联关系确定模型还可以包括用于确定备选关联关系的势函数模型。。
如图3A所示,该方法包括步骤S301-S311:
在步骤S301中,获得样本版面图像以及所述样本版面图像的单字识别结果。
在一实施例中,上述样本版面图像可以包括门店招牌、路牌或灯箱等物体图像等,本实施例对此不进行限定。
在一实施例中,上述样本版面图像的单字识别结果可以由用户基于现有的光学字符识别(OCR)技术方案对样本版面图像进行识别得到。
在一实施例中,上述样本版面图像的单字识别结果可以包括每个单字的字符和表示单字位置的矩形框,其中,矩形的中心可以表示单字的位置点,矩形的宽度可以表示字宽,矩形的面积可以表示字的面积。
在步骤S302中,基于所述样本版面图像的单字识别结果确定所述样本版面图像的样本候选文字串。
在一实施例中,当获得样本版面图像以及所述样本版面图像的单字识别结果后,可以基于该单字识别结果确定各个单字之间的位置关系,进而根据确定的位置关系确定样本版面图像中的样本候选文字串。
在一实施例中,上述样本候选文字串的方向可以为竖直方向、水平方向或其他任意方向,本实施例对此不进行限定。
在一实施例中,样本候选文字串的确定方式可以与上述实施例中所述待识别版面图像的候选文字串的确定方式相同,在此不进行赘述。
在步骤S303中,提取所述样本候选文字串中关联关系的样本特征值。
在一实施例中,当基于所述单字识别结果确定所述样本版面图像中的样本候选文字串后,可以对该样本候选文字串中的关联关系进行特征提取,得到样本候选文字串中关联关系的样本特征值。
在一实施例中,上述提取的样本特征值可以为既能很好地突出该样本候选文字串中关联关系的特点,又能表现出与同一版面图像中的其他样本候选文字串中关联关系的区别与联系的特征值,以增强样本候选文字串的辨识度。
在一实施例中,提取所述样本候选文字串中关联关系的样本特征值的方式与上述实施例中所述提取待识别版面图像的候选文字串中关联关系的特征值的方式相同,在此不进行赘述。
在步骤S304中,标定所述样本特征值对应的势函数模型的势值。
在步骤S305中,将所述样本特征值以及所述势值作为训练集,训练势函数模型。
在一实施例中,针对每个样本候选文字串,可以构造如下势函数:
式中,P(Y|X,λ)为势函数模型的输出结果,X为每个样本候选文字串中单字的所有关联关系;Y为关联关系是否可作为备选关联关系(即,是否有效)的指示器随机变量,即对于第i个关联关系xi,若其有效,则yi=1,否则yi=0;f为关联关系的特征能量函数,λ为权重;下标j对应一元特征,下标k对应二元特征,Z(X)为归一化函数,其计算公式如下:
Z(X)=∑Y exp∑i[∑jλjfj(yi,xi)+∑kλkfk(yi,yi+1,xi,xi+1)]。 (2)
在一实施例中,针对第n个一元特征,可以定义两个能量函数,即fn1和fn2
由上式可知,fn1可在关联关系有效(即yi=1)时起作用,fn2可在关联关系无效(即yi=0)时起作用。
在一实施例中,针对第m个二元特征,可以定义四个能量函数,即fm1、fm2、fm3和fm4
在此基础上,可以利用训练数据集,按照极大似然原理训练得到势函数的权重参数λ。
进一步地,在步骤S309-S310中,可以将将所述特征值输入到所述势函数模型中,并将Y作为优化变量,对P(Y|X,λ)进行优化;进而可以将经过优化得到的最优解确定为上述候选文字串中单字之间的备选关联关系。
仍以图2C为例,当将提取的候选文字串中关联关系的特征值输入到训练的势函数模型后,可以得到单字之间的备选关联关系(参见图3B中所示的连线)。
值得说明的是,图3B中所示备选关联关系仍然是具有方向的,即每一条连线代表两个方向。例如,单字“食”既可以属于由“食”至“尚”的关联关系(即,向量“食->尚”对应的关联关系),又可以属于由“尚”至“食”的关联关系(即,向量“尚->食”对应的关联关系)。为了提高后续确定版面图像中文本信息的准确性,可参见下述图4A所示实施例对当前得到的备选关联关系进行进一步筛选,在此先不进行详述。
步骤S306-S308、S311的相关解释和说明可以参见上述实施例,在此不进行赘述。
由上述描述可知,本实施例通过获得样本版面图像以及所述样本版面图像的单字识别结果,并基于所述样本版面图像的单字识别结果确定所述样本版面图像的样本候选文字串,然后提取所述样本候选文字串中关联关系的样本特征值,并标定所述样本特征值对应的势函数模型的势值,进而将所述样本特征值以及所述势值作为训练集,训练势函数模型,可以实现基于样本版面图像以及单字识别结果训练势函数模型,为后续基于训练的模型准确的确定候选文字串中单字之间的备选关联关系提供基础,可以提高确定文本信息的准确性。
图4A是本公开实施例中的一示例性实施例示出的如何确定待识别版面图像中的文本信息的流程图;本实施例在上述实施例的基础上,以如何确定待识别版面图像中的文本信息为例进行示例性说明。如图4A所示,步骤S105中所述根据所述备选关联关系确定所述待识别版面图像中的文本信息,包括以下步骤S401-S403:
在步骤S401中,确定所述备选关联关系组成的关联关系图中是否存在连通分量不为串。
在一实施例中,当基于上述备选关联关系确定模型得到候选文字串中单字之间的备选关联关系后,可以确定所述备选关联关系组成的关联关系图中各个连通分量是否均为串(string)。
在一实施例中,若确定所述备选关联关系组成的关联关系图中各个连通分量均为串,即对于每个单字而言,至多有一个“由其他单字指向该单字”的备选关联关系,且至多有一个“由该单字指向其他单字”的备选关联关系,则可以直接跳转至步骤S403;否则,执行步骤S402。
在步骤S402中,若存在,依次删除所述连通分量对应的多个备选关联关系中对所述势函数模型的势值影响最小的备选关联关系,直至所述连通分量成为串。
在一实施例中,当确定所述备选关联关系组成的关联关系图中存在某个连通分量不为串时,可以依次删除该连同分量对应的多个备选关联关系中,对势函数模型的势值影响最小的备选关联关系。举例来说,可以分别计算删除上述多个备选关联关系中的每个备选关联关系时,势函数模型的势值的增大量,进而将增大量最小的备选关联关系删除,循环执行该步骤,直至各个连通分量是否均为串。
如图4B所示,在“食”和“尚”之间的一对关联关系中,删除了对势函数模型的势值影响小的由“尚”至“食”的关联关系,而保留了由“食”至“尚”的关联关系。同理,保留了由“东”至“北”的关联关系以及由“北”至“菜”的关联关系等。
在步骤S403中,确定当前剩余的备选关联关系对应的文本信息
在一实施例中,当确定当前剩余的备选关联关系如:由“食”至“尚”的关联关系、由“东”至“北”的关联关系以及由“北”至“菜”的关联关系等之后,即可确定这些对应关系对应的文本信息,即“时尚”以及“东北菜”等。
由上述描述可知,本实施例通过确定所述备选关联关系组成的关联关系图中是否存在连通分量不为串,并当确定存在连通分量不为串时,依次删除所述连通分量对应的多个备选关联关系中对所述势函数模型的势值影响最小的备选关联关系,直至所述连通分量成为串,进而确定当前剩余的备选关联关系对应的文本信息,可以准确地对备选关联关系进行甄别,提高基于备选关联关系确定文本信息的准确性。
值得说明的是,在上述图1~图4B所示实施例的基础上,可以对各个实施例中的差异部分进行任意组合,得到新的实施例,该新的实施例也应包含在本公开实施例保护的范围之内。
图5是本公开实施例中的一示例性实施例示出的一种确定文本信息的装置的结构图;如图5所示,该装置包括:图像单字获取模块110、候选字串确定模块120、字串特征提取模块130以及文本信息确定模块140,其中:
图像单字获取模块110,用于获得待识别版面图像以及所述待识别版面图像的单字识别结果;
候选字串确定模块120,用于基于所述单字识别结果确定所述待识别版面图像中的候选文字串;
字串特征提取模块130,用于提取所述候选文字串中关联关系的特征值,所述关联关系基于所述候选文字串对应的单字识别结果确定;
文本信息确定模块140,用于基于所述特征值从所述候选文字串中确定最终文字串,所述最终文字串用于表征所述待识别版面信息中文本信息的识别结果。
本公开实施例提供的上述装置,相比于现有的OCR技术方案,由于是基于待识别版面图像和单字识别结果确定候选文字串,进而基于候选文字串中关联关系的特征值确定表征待识别版面信息中文本信息的识别结果的最终文字串,因而可以基于版面图像的单字识别结果确定版面图像中字符间的组合和关联关系,可以适用于复杂的版面图像的文本信息识别,提高横竖混排、带角度的版面图像的文本信息识别质量。
图6是本公开实施例中的又一示例性实施例示出的一种确定文本信息的装置的结构图;其中,图像单字获取模块210、候选字串确定模块220、字串特征提取模块230以及文本信息确定模块240与前述图5所示实施例中的图像单字获取模块110、候选字串确定模块120、字串特征提取模块130以及文本信息确定模块140的功能相同,在此不进行赘述。
如图6所示,候选字串确定模块220,可以包括:
关联关系建立单元221,用于基于所述单字识别结果建立所述待识别版面图像中,每两个单字的位置点之间具有方向的关联关系;
文字向量确定单元222,用于确定每一所述关联关系对应的文字向量,得到多个文字向量;
文字向量拼接单元223,用于当所述多个文字向量中,第一文字向量的终点为第二文字向量的起点,且所述第一文字向量与所述第二文字向量的夹角小于或等于预设夹角阈值时,将所述第一文字向量和所述第二文字向量拼接为一个新的文字向量,得到至少一个新的文字向量;
候选字串确定单元224,用于确定当前得到的各文字向量对应的候选文字串。
在一实施例中,所述装置还可以包括:
关联关系删除模块250,用于删除所述候选文字串中不相邻的单字之间的关联关系。
在一实施例中,字串特征提取模块230,可以包括:
一元特征提取单元231,用于所述候选文字串中每个所述关联关系的一元预设特征值;和/或,
二元特征提取单元232,用于提取所述候选文字串中相邻两个所述关联关系的二元预设特征值;
所述一元预设特征包括以下特征中的至少一种:边长、角度、两个单字的2-gram概率、单字尺寸相似度以及单字风格相似度;
所述二元预设特征包括以下特征中的至少一种:边长比、夹角、三个单字的3-gram概率、单字尺寸相似度以及单字风格相似度。
在一实施例中,文本信息确定模块240,可以包括:
备选关系确定单元241,用于将所述特征值输入到预先训练的备选关联关系确定模型中,基于所述模型的输出结果确定所述候选文字串中单字之间的备选关联关系;
最终字串确定单元242,用于根据所述备选关联关系从所述候选文字串中确定最终文字串。
在一实施例中,备选关联关系确定模型可以包括用于确定备选关联关系的势函数模型;
备选关系确定单元241还可以用于:
将所述特征值输入到所述势函数模型中,并将所述势函数模型中的预设随机变量作为优化变量对所述势函数模型的输出结果进行优化,所述预设随机变量用于指示所述特征值对应的关联关系是否为备选关联关系;
将经过所述优化得到的最优解确定为所述候选文字串中单字之间的备选关联关系。
在一实施例中,装置还可以包括势函数模型训练模块;
势函数模型训练模块260,可以包括:
样本图字获取单元261,用于获得样本版面图像以及所述样本版面图像的单字识别结果;
样本字串确定单元262,用于基于所述样本版面图像的单字识别结果确定所述样本版面图像的样本候选文字串;
样本特征提取单元263,用于提取所述样本候选文字串中关联关系的样本特征值,所述关联关系基于所述样本候选文字串对应的单字识别结果确定;
样本特征标定单元264,用于标定所述样本特征值对应的势函数模型的输出结果;
函数模型训练单元265,用于将所述样本特征值以及所述势函数模型的输出结果作为训练集,训练势函数模型。
在一实施例中,最终字串确定单元242还可以用于:
确定所述备选关联关系组成的关联关系图中是否存在连通分量不为串;
当存在时,依次删除所述连通分量对应的多个备选关联关系中对所述备选关联关系确定模型的输出结果影响最小的备选关联关系,直至所述连通分量成为串;
确定当前剩余的备选关联关系对应的最终文字串。
值得说明的是,上述所有可选的实施例可以任意组合,构成本公开的可选实施例,在此不再一一赘述。
本发明的确定文本信息的装置的实施例可以应用在网络设备上。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在设备的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的,其中计算机程序用于执行上述图1~图4B所示实施例提供的确定文本信息的方法。从硬件层面而言,如图7所示,为本发明的确定文本信息的设备的硬件结构图,除了图7所示的处理器、网络接口、内存以及非易失性存储器之外,所述设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等;从硬件结构上来讲该设备还可能是分布式的设备,可能包括多个接口卡,以便在硬件层面进行报文处理的扩展。另一方面,本申请还提供了一种计算机可读存储介质,存储介质存储有计算机程序,计算机程序用于执行上述图1~图4B所示实施例提供的确定文本信息的方法。
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本申请方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
本领域技术人员在考虑说明书及实践这里公开的发明后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。
还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
以上所述仅为本申请的较佳实施例而已,并不用以限制本申请,凡在本申请的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本申请保护的范围之内。

Claims (11)

1.一种识别文本信息的方法,其特征在于,包括:
获得待识别版面图像以及所述待识别版面图像的单字识别结果;
基于所述单字识别结果确定所述待识别版面图像中的候选文字串;
提取所述候选文字串中关联关系的特征值,所述关联关系基于所述候选文字串对应的单字识别结果确定;
基于所述特征值从所述候选文字串中确定最终文字串,所述最终文字串用于表征所述待识别版面信息中文本信息的识别结果。
2.根据权利要求1所述的方法,其特征在于,所述基于所述单字识别结果确定所述待识别版面图像中的候选文字串,包括:
基于所述单字识别结果建立所述待识别版面图像中,每两个单字的位置点之间具有方向的关联关系;
确定每一所述关联关系对应的文字向量,得到多个文字向量;
若所述多个文字向量中,第一文字向量的终点为第二文字向量的起点,且所述第一文字向量与所述第二文字向量的夹角小于或等于预设夹角阈值,将所述第一文字向量和所述第二文字向量拼接为一个新的文字向量,得到至少一个新的文字向量;
确定当前得到的各文字向量对应的候选文字串。
3.根据权利要求2所述的方法,其特征在于,所述方法还包括:
删除所述候选文字串中不相邻的单字之间的关联关系。
4.根据权利要求2所述的方法,其特征在于,所述提取所述候选文字串中关联关系的特征值,包括:
提取所述候选文字串中每个所述关联关系的一元预设特征值;和/或,
提取所述候选文字串中相邻两个所述关联关系的二元预设特征值;
所述一元预设特征包括以下特征中的至少一种:边长、角度、两个单字的2-gram概率、单字尺寸相似度以及单字风格相似度;
所述二元预设特征包括以下特征中的至少一种:边长比、夹角、三个单字的3-gram概率、单字尺寸相似度以及单字风格相似度。
5.根据权利要求1所述的方法,其特征在于,所述基于所述特征值从所述候选文字串中确定最终文字串,包括:
将所述特征值输入到预先训练的备选关联关系确定模型中,基于所述模型的输出结果确定所述候选文字串中单字之间的备选关联关系;
根据所述备选关联关系从所述候选文字串中确定最终文字串。
6.根据权利要求5所述的方法,其特征在于,所述备选关联关系确定模型包括用于确定备选关联关系的势函数模型;
所述将所述特征值输入到预先训练的备选关联关系确定模型中,基于所述模型的输出结果确定所述候选文字串中单字之间的备选关联关系,包括:
将所述特征值输入到所述势函数模型中,并将所述势函数模型中的预设随机变量作为优化变量对所述势函数模型的输出结果进行优化,所述预设随机变量用于指示所述特征值对应的关联关系是否为备选关联关系;
将经过所述优化得到的最优解确定为所述候选文字串中单字之间的备选关联关系。
7.根据权利要求6所述的方法,其特征在于,所述方法还包括预先根据以下步骤训练所述势函数模型:
获得样本版面图像以及所述样本版面图像的单字识别结果;
基于所述样本版面图像的单字识别结果确定所述样本版面图像的样本候选文字串;
提取所述样本候选文字串中关联关系的样本特征值,所述关联关系基于所述样本候选文字串对应的单字识别结果确定;
标定所述样本特征值对应的势函数模型的输出结果;
将所述样本特征值以及所述势函数模型的输出结果作为训练集,训练势函数模型。
8.根据权利要求5所述的方法,其特征在于,所述根据所述备选关联关系从所述候选文字串中确定最终文字串,包括:
确定所述备选关联关系组成的关联关系图中是否存在连通分量不为串;
若存在,依次删除所述连通分量对应的多个备选关联关系中对所述备选关联关系确定模型的输出结果影响最小的备选关联关系,直至所述连通分量成为串;
确定当前剩余的备选关联关系对应的最终文字串。
9.一种确定文本信息的装置,其特征在于,包括:
图像单字获取模块,用于获得待识别版面图像以及所述待识别版面图像的单字识别结果;
候选字串确定模块,用于基于所述单字识别结果确定所述待识别版面图像中的候选文字串;
字串特征提取模块,用于提取所述候选文字串中关联关系的特征值,所述关联关系基于所述候选文字串对应的单字识别结果确定;
文本信息确定模块,用于基于所述特征值从所述候选文字串中确定最终文字串,所述最终文字串用于表征所述待识别版面信息中文本信息的识别结果。
10.一种确定文本信息的的设备,其特征在于,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,所述处理器执行所述程序时实现上述权利要求1-8任一所述的确定文本信息的方法。
11.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-9任一所述的确定文本信息的方法。
CN201811320546.XA 2018-11-07 2018-11-07 一种确定文本信息的方法、装置、设备及存储介质 Active CN109635810B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811320546.XA CN109635810B (zh) 2018-11-07 2018-11-07 一种确定文本信息的方法、装置、设备及存储介质

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811320546.XA CN109635810B (zh) 2018-11-07 2018-11-07 一种确定文本信息的方法、装置、设备及存储介质

Publications (2)

Publication Number Publication Date
CN109635810A true CN109635810A (zh) 2019-04-16
CN109635810B CN109635810B (zh) 2020-03-13

Family

ID=66067450

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811320546.XA Active CN109635810B (zh) 2018-11-07 2018-11-07 一种确定文本信息的方法、装置、设备及存储介质

Country Status (1)

Country Link
CN (1) CN109635810B (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110414520A (zh) * 2019-06-28 2019-11-05 平安科技(深圳)有限公司 通用字符识别方法、装置、计算机设备和存储介质
WO2020199704A1 (zh) * 2019-04-03 2020-10-08 北京市商汤科技开发有限公司 文本识别
CN111860516A (zh) * 2020-06-23 2020-10-30 北京三快在线科技有限公司 商家名称确定方法、装置、服务器及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5642435A (en) * 1995-01-25 1997-06-24 Xerox Corporation Structured document processing with lexical classes as context
CN103729638A (zh) * 2012-10-12 2014-04-16 阿里巴巴集团控股有限公司 一种文字区域识别中的文字行排列分析方法和装置
CN106096622A (zh) * 2016-04-26 2016-11-09 北京航空航天大学 半监督的高光谱遥感图像分类标注方法
CN106570500A (zh) * 2016-11-11 2017-04-19 北京三快在线科技有限公司 文本行的识别方法及装置、计算设备
CN107016387A (zh) * 2016-01-28 2017-08-04 苏宁云商集团股份有限公司 一种识别标签的方法及装置
CN107430600A (zh) * 2014-12-12 2017-12-01 慧与发展有限责任合伙企业 可扩展的web数据提取
US20180129944A1 (en) * 2016-11-07 2018-05-10 Xerox Corporation Document understanding using conditional random fields

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5642435A (en) * 1995-01-25 1997-06-24 Xerox Corporation Structured document processing with lexical classes as context
CN103729638A (zh) * 2012-10-12 2014-04-16 阿里巴巴集团控股有限公司 一种文字区域识别中的文字行排列分析方法和装置
CN107430600A (zh) * 2014-12-12 2017-12-01 慧与发展有限责任合伙企业 可扩展的web数据提取
CN107016387A (zh) * 2016-01-28 2017-08-04 苏宁云商集团股份有限公司 一种识别标签的方法及装置
CN106096622A (zh) * 2016-04-26 2016-11-09 北京航空航天大学 半监督的高光谱遥感图像分类标注方法
US20180129944A1 (en) * 2016-11-07 2018-05-10 Xerox Corporation Document understanding using conditional random fields
CN106570500A (zh) * 2016-11-11 2017-04-19 北京三快在线科技有限公司 文本行的识别方法及装置、计算设备

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
燕杨: "基于条件随机场的医学文本与图像标注模型构建及应用研究"", 《中国博士学位论文全文数据库 信息科技辑》 *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020199704A1 (zh) * 2019-04-03 2020-10-08 北京市商汤科技开发有限公司 文本识别
CN111783756A (zh) * 2019-04-03 2020-10-16 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
CN111783756B (zh) * 2019-04-03 2024-04-16 北京市商汤科技开发有限公司 文本识别方法及装置、电子设备和存储介质
CN110414520A (zh) * 2019-06-28 2019-11-05 平安科技(深圳)有限公司 通用字符识别方法、装置、计算机设备和存储介质
CN111860516A (zh) * 2020-06-23 2020-10-30 北京三快在线科技有限公司 商家名称确定方法、装置、服务器及存储介质

Also Published As

Publication number Publication date
CN109635810B (zh) 2020-03-13

Similar Documents

Publication Publication Date Title
CN112685565B (zh) 基于多模态信息融合的文本分类方法、及其相关设备
CN108288078B (zh) 一种图像中字符识别方法、装置和介质
US10043231B2 (en) Methods and systems for detecting and recognizing text from images
US20170109615A1 (en) Systems and Methods for Automatically Classifying Businesses from Images
US20200004815A1 (en) Text entity detection and recognition from images
US20190188729A1 (en) System and method for detecting counterfeit product based on deep learning
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
CN106462572A (zh) 用于分布式光学字符识别和分布式机器语言翻译的技术
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
CN114429633B (zh) 文本识别方法、模型的训练方法、装置、电子设备及介质
CN111159409A (zh) 基于人工智能的文本分类方法、装置、设备、介质
CN104750791A (zh) 一种图像检索方法及装置
CN107315984B (zh) 一种行人检索的方法及装置
CN113033269A (zh) 一种数据处理方法及装置
Li et al. Multilingual text detection with nonlinear neural network
CN109635810A (zh) 一种确定文本信息的方法、装置、设备及存储介质
CN107766498A (zh) 用于生成信息的方法和装置
CN109885708A (zh) 证件图片的搜索方法和装置
CN110472121A (zh) 名片信息搜索方法、装置、电子设备以及计算机可读存储介质
CN111753836A (zh) 文字识别方法、装置、计算机可读介质及电子设备
KR20120070795A (ko) 간판 영상 문자 인식 및 후처리 시스템
CN114818627A (zh) 一种表格信息抽取方法、装置、设备及介质
CN113742485A (zh) 一种处理文本的方法和装置
CN114387600A (zh) 文本特征识别方法、装置、计算机设备和存储介质
US20230036812A1 (en) Text Line Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant