CN105468732A - 一种图像关键词检查方法及装置 - Google Patents

一种图像关键词检查方法及装置 Download PDF

Info

Publication number
CN105468732A
CN105468732A CN201510816513.4A CN201510816513A CN105468732A CN 105468732 A CN105468732 A CN 105468732A CN 201510816513 A CN201510816513 A CN 201510816513A CN 105468732 A CN105468732 A CN 105468732A
Authority
CN
China
Prior art keywords
image
word
subimage
examine
keyword
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510816513.4A
Other languages
English (en)
Inventor
胡波
刘超
刘坤颖
喻民
李楠
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Institute of Information Engineering of CAS
Original Assignee
Institute of Information Engineering of CAS
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Institute of Information Engineering of CAS filed Critical Institute of Information Engineering of CAS
Priority to CN201510816513.4A priority Critical patent/CN105468732A/zh
Publication of CN105468732A publication Critical patent/CN105468732A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5846Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Library & Information Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明涉及一种图像关键词检查方法及装置。该方法包括:获取待检查图像,将所述待检查图像分割成各个仅包含单个文字的子图像;将各子图像与预先建立的图像模板库中的标准文字图像进行匹配,以获得各子图像对应的文字编号,所述图像模板库中包括各标准文字图像和文字编号之间的对应关系;根据各子图像对应的文字编号查询预先建立的模式词库,检测所述待检查图像中的关键词。本发明通过建立有限文字个数的图像模板库和有限关键词个数的模式词库,能高效检查扫描图像中的关键词,适用于保密检查等审查工作中的特殊需求,提高了图像文字匹配的效率。

Description

一种图像关键词检查方法及装置
技术领域
本发明涉及图像文字识别技术领域,尤其涉及一种图像关键词检查方法及装置。
背景技术
计算机网络和信息技术的飞速发展使得信息的传输变得非常方便快捷。信息技术的发展在为我们带来便捷的同时,信息安全问题也越来越受到关注。保密工作是国家安全的命脉,在国家相关部门对计算机终端进行保密检查工作的过程中,以图像形式存储的扫描文件成为重点检查对象和检查难点。以往针对文本文件的文字检索工具提取文字较为容易,重点在于提升关键词检索的匹配效率。对于以图像形式存储的扫描文件,如何识别出图像中的文字成为关键点和难点。
扫描文件图像具有以下特点:图像的背景较为单一,图像中文字的字体和大小较为多样化。因此,扫描文件图像文字关键词匹配装置的技术难点主要有两个:其一是图像文件内的文档排版分析;其二是文字/符号的识别。
基于SIFT特征与灰度差值直方图特征的文字识别方法(CN101561866A)首先构建各种复杂背景下字体类别、文字大小和方向均不相同的汉字模板图库,然后对模板图库中的图片进行特征提取,计算待识别汉字的特征向量,最后基于SIFT特征与灰度差值直方图特征寻找模板库中与待识别汉字最相近的汉字。但是该方法无法对图像中的包括两个或两个以上文字的关键词进行检查。
发明内容
本发明所要解决的技术问题是:现有的图像文字识别方法无法高效进行特定关键词的检查。
为解决上述技术问题,本发明一方面提出了一种图像关键词检查方法,该图像关键词检查方法包括:
获取待检查图像,将所述待检查图像分割成各个仅包含单个文字的子图像;
将各子图像与预先建立的图像模板库中的标准文字图像进行匹配,以获得各子图像对应的文字编号,所述图像模板库中包括各标准文字图像和文字编号之间的对应关系;
根据各子图像对应的文字编号查询预先建立的模式词库,检测所述待检查图像中的关键词。
可选地,在所述获取待检查图像之前,还包括:
对预定的图像文档进行预处理;
获取预定的图像文档中每个文字的位置;
根据所述文字的位置提取所述文字的轮廓,建立图像模板库。
可选地,所述获取待检查图像,将所述待检查图像分割成各个仅包含单个文字的子图像,包括:
获取待检查图像,对所述待检查图像进行预处理;
对所述待检查图像中的每个文字进行膨胀操作,通过连通域分析获取所述待检查图像中每个文字的位置;
对所述待检查图像中的每个文字进行矫正;
采用最优阈值分割法对所述每个文字的连通域的外接矩形内的图像进行二值化;
对所述每个文字的连通域进行纵向投影和横向投影,将所述待检查图像分割成各个仅包含单个文字的子图像。
可选地,所述将各子图像与预先建立的图像模板库中的标准文字图像进行匹配,以获得各子图像对应的文字编号,包括:
获取每个子图像与所述图像模板库中的所有标准文字图像的差异值;
根据所述差异值确定所述子图像中与所述图像模板库中匹配的图像及所述图像对应的文字编号。
可选地,所述获取每个子图像与所述图像模板库中的所有图像的差异值;根据所述差异值确定所述子图像中与所述图像模板库中匹配的图像及所述图像对应的文字编号,包括:
对所述每个子图像对照图像模板库中的图像的大小进行尺寸归一化;
对所述每个子图像进行二值化处理;
计算所述图像模板库中的文字的轮廓点与所述每个子图像中的文字的轮廓点的最短距离,根据所述距离计算所述图像模板库中的文字与所述每个子图像中的文字的差异值;
获取所述差异值小于预定阈值的所述图像模板库中图像及所述图像对应的文字编号;
其中,所述差异值为所述距离的方差与所述距离的均值的乘积。
可选地,所述根据各子图像对应的文字编号查询预先建立的模式词库,检测所述待检查图像中的关键词,包括:
根据各子图像对应的文字编号查询预先建立的模式词库;
判断各子图像与其相邻的子图像对应的文字编号是否能组成所述模式词库中的待检查关键词对应的有序序列,若是,则所述待检测图像中存在待检查关键词。
可选地,在所述根据所述文字的位置提取所述文字的轮廓之后,还包括:
对所述文字进行欧式距离变换。
可选地,所述获取预定的图像文档中每个文字的位置,包括:
对所述预定的图像文档中的文字进行膨胀操作,将每个文字的多个连通域合并在一起,获取预定的图像文档中每个文字的位置。
可选地,在所述建立图像模板库之后,还包括:
建立模式词库,所述模式词库包括与所述图像模板库中的相对应的文字编号的有序序列。
另一方面,本发明还提出了一种图像关键词检查装置,该装置包括:
图像分割单元,用于获取待检查图像,将所述待检查图像分割成各个仅包含单个文字的子图像;
文字匹配单元,用于将各子图像与预先建立的图像模板库中的标准文字图像进行匹配,以获得各子图像对应的文字编号,所述图像模板库中包括各标准文字图像和文字编号之间的对应关系;
关键词匹配单元,用于根据各子图像对应的文字编号查询预先建立的模式词库,检测所述待检查图像中的关键词。
本发明通过建立有限文字个数的图像模板库和有限关键词个数的模式词库,能高效检查扫描图像中的关键词,适用于保密检查等审查工作中的特殊需求,提高了图像文字匹配的效率。
附图说明
通过参考附图会更加清楚的理解本发明的特征和优点,附图是示意性的而不应理解为对本发明进行任何限制,在附图中:
图1示出了本发明一个实施例的图像关键词检查方法示意图;
图2示出了本发明一个实施例的建立图像模板库的流程示意图;
图3示出了本发明一个实施例的分割待检查图像的流程示意图;
图4示出了本发明一个实施例的文字匹配的流程示意图;
图5示出了本发明一个实施例的关键词匹配的流程示意图;
图6示出了本发明的图像关键词检查方法的原理图;
图7示出了本发明一个实施例的图像关键词检查装置的结构示意图。
具体实施方式
下面将结合附图对本发明的实施例进行详细描述。
图1是本发明一个实施例提供的图像关键词检查方法的示意图。如图1所示,该图像关键词检查方法包括:
S1:获取待检查图像,将所述待检查图像分割成各个仅包含单个文字的子图像;
S2:将各子图像与预先建立的图像模板库中的标准文字图像进行匹配,以获得各子图像对应的文字编号,所述图像模板库中包括各标准文字图像和文字编号之间的对应关系;
S3:根据各子图像对应的文字编号查询预先建立的模式词库,检测所述待检查图像中的关键词。
本实施例的图像关键词检查方法,通过建立有限文字个数的图像模板库和有限关键词个数的模式词库,能高效检查扫描图像中的关键词,适用于保密检查等审查工作中的特殊需求,提高了图像文字匹配的效率。
在一种可选的实施方式中,在所述获取待检查图像之前,还包括建立图像模板库。图2示出了本发明一个实施例的建立图像模板库的流程示意图。如图2所示,建立图像模板库包括:
S21:对预定的图像文档进行预处理;
S22:获取预定的图像文档中每个文字的位置;
S23:根据所述文字的位置提取所述文字的轮廓,建立图像模板库。
其中,所述图像模板库包括文字编号、文字名称及不同字体、相同大小的文字图像集合。
进一步地,在所述根据所述文字的位置提取所述文字的轮廓之后,还包括:
对所述文字进行欧式距离变换。
在进行单个文字匹配之前,对所述图像模板库中的文字进行欧式距离变换是为了减少后续相似度的计算量,提高识别效率。
所述获取预定的图像文档中每个文字的位置,包括:
对所述预定的图像文档中的文字进行膨胀操作,将每个文字的多个连通域合并在一起,获取预定的图像文档中每个文字的位置。
在实际应用中,对预定的图像文档进行预处理,包括:
对预定的图像文档进行图像去噪与增强;
对预定的图像文档进行二值化处理;
对二值化处理后的预定的图像文档进行去噪。
在另一种可选的实施方式中,在所述建立图像模板库之后,还包括:
建立模式词库,所述模式词库包括与所述图像模板库中的相对应的汉字编号的有序序列。
可选地,所述模式词库还包括关键词编号和关键词名称。
本发明中的图像模板库和模式词库都支持扩展,在不同的工作场景中能够灵活调整模式词库来适应不同关键词的匹配,能够适用于保密检查对个别关键词或特殊关键词的审查。
图3示出了本发明一个实施例的分割待检查图像的流程示意图。如图3所示,所述获取待检查图像,将所述待检查图像分割成各个仅包含单个文字的子图像,包括:
S31:获取待检查图像,对所述待检查图像进行预处理;
S32:对所述待检查图像中的每个文字进行膨胀操作,通过连通域分析获取所述待检查图像中每个文字的位置;
S33:对所述待检查图像中的每个文字进行矫正;
S34:采用最优阈值分割法对所述每个文字的连通域的外接矩形内的图像进行二值化;
S35:对所述每个文字的连通域进行纵向投影和横向投影,将所述待检查图像分割成各个仅包含单个文字的子图像。
在实际应用中,利用FreeImage读取图像文件,FreeImage能对常见图像格式(jpeg/jpg、bmp、png、dib、tiff/tif、gif)文件进行读取,因此该图像关键词检查方法能对多种图像格式文件进行关键词的检查。
特别地,选择大小合适的连通域,保证这些连通域中只包含文字,通过跟踪每行文字,可以得到每行文字的倾斜程度,以此对汉字进行矫正,在版式识别未出现严重错误的情况下获得准确地矫正结果。
进一步地,在将所述待检查图像分割成多个子图像之后,还可以去除子图像中的干扰,去除过大或过小的连通域,包括标点和图像上的小块污点。
图4示出了本发明一个实施例的文字匹配的流程示意图。如图4所示,文字匹配包括:
S41:对所述每个子图像对照图像模板库中的图像的大小进行尺寸归一化;
S42:对所述每个子图像进行二值化处理;
S43:计算所述图像模板库中的文字的轮廓点与所述每个子图像中的文字的轮廓点的最短距离,根据所述距离计算所述图像模板库中的文字与所述每个子图像中的文字的差异值;
S44:获取所述差异值小于预定阈值的所述图像模板库中图像及所述图像对应的文字编号;
其中,所述差异值为所述距离的方差与所述距离的均值的乘积。
在差异值小于预定阈值的情况下,差异值越低说明子图像中的文字与图像模板库中的文字越相似。
本发明改进了现有的计算hausdorff距离的方法。Hausdorff距离的用途是度量模板的边缘和目标的边缘之间的匹配程度,根据Hausdorff距离的定义,当图像受到噪声污染或存在遮挡等情况时,Haudorff距离容易造成误匹配。为了减少这种误匹配,即减少噪声点对匹配的影响,本发明做出了改进,这些距离可以看成是两个字的差别大小,考虑了中心对齐后字还是错位的情况,这种错位会造成均值大方差小,均值和方差本身都可以反映字符的相似度。因此,计算所述图像模板库中的文字的轮廓点与所述每个子图像中的文字的轮廓点的最短距离,并计算这些距离的方差和均值的乘积,这个乘积作为匹配衡量指标,该值越低说明与模板越相似,提高了图像文字匹配的准确性。
另一方面,预先对所述图像模板库中的汉字进行欧式距离变换,减少了相似度的计算量,提高了图像文字匹配的效率。
图5示出了本发明一个实施例的关键词匹配的流程示意图。如图5所示,关键词匹配包括:
S51:根据各子图像对应的文字编号查询预先建立的模式词库;
S52:判断各子图像与其相邻的子图像对应的文字编号是否能组成所述模式词库中的待检查关键词对应的有序序列,若是,则所述待检测图像中存在待检查关键词。
图6示出了本发明的图像关键词检查方法的原理图。如图6所示,本发明的图像关键词检查方法包括:
S61:建立有限文字个数的图像模板库;
S62:建立有限关键词个数的模式词库;
S63:获取待检查图像,对所述待检查图像进行预处理;
S64:对所述待检查图像进行子图像分割;
S65:对所述待检查图像进行文字匹配和关键词匹配,判断所述待检查图像中是否包含特定关键词。
图7示出了本发明一个实施例的图像关键词检查装置的结构示意图。如图7所示,该图像关键词检查装置包括:
图像分割单元71,用于获取待检查图像,将所述待检查图像分割成各个仅包含单个文字的子图像;
文字匹配单元72,用于将各子图像与预先建立的图像模板库中的标准文字图像进行匹配,以获得各子图像对应的文字编号,所述图像模板库中包括各标准文字图像和文字编号之间的对应关系;
关键词匹配单元73,用于根据各子图像对应的文字编号查询预先建立的模式词库,检测所述待检查图像中的关键词。
本实施例的图像关键词检查装置通过建立有限文字个数的图像模板库和有限关键词个数的模式词库,能高效检查扫描图像中的关键词,适用于保密检查等审查工作中的特殊需求,提高了图像文字匹配的效率。
本发明通过建立有限文字个数的图像模板库和有限关键词个数的模式词库,能高效检查扫描图像中的关键词,适用于保密检查等审查工作中的特殊需求,提高了图像文字匹配的效率。
虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。

Claims (10)

1.一种图像关键词检查方法,其特征在于,包括:
获取待检查图像,将所述待检查图像分割成各个仅包含单个文字的子图像;
将各子图像与预先建立的图像模板库中的标准文字图像进行匹配,以获得各子图像对应的文字编号,所述图像模板库中包括各标准文字图像和文字编号之间的对应关系;
根据各子图像对应的文字编号查询预先建立的模式词库,检测所述待检查图像中的关键词。
2.根据权利要求1所述的图像关键词检查方法,其特征在于,在所述获取待检查图像之前,还包括:
对预定的图像文档进行预处理;
获取预定的图像文档中每个文字的位置;
根据所述文字的位置提取所述文字的轮廓,建立图像模板库。
3.根据权利要求1所述的图像关键词检查方法,其特征在于,所述获取待检查图像,将所述待检查图像分割成各个仅包含单个文字的子图像,包括:
获取待检查图像,对所述待检查图像进行预处理;
对所述待检查图像中的每个文字进行膨胀操作,通过连通域分析获取所述待检查图像中每个文字的位置;
对所述待检查图像中的每个文字进行矫正;
采用最优阈值分割法对所述每个文字的连通域的外接矩形内的图像进行二值化;
对所述每个文字的连通域进行纵向投影和横向投影,将所述待检查图像分割成各个仅包含单个文字的子图像。
4.根据权利要求1所述的图像关键词检查方法,其特征在于,所述将各子图像与预先建立的图像模板库中的标准文字图像进行匹配,以获得各子图像对应的文字编号,包括:
获取每个子图像与所述图像模板库中的所有标准文字图像的差异值;
根据所述差异值确定所述子图像中与所述图像模板库中匹配的图像及所述图像对应的文字编号。
5.根据权利要求4所述的图像关键词检查方法,其特征在于,
所述获取每个子图像与所述图像模板库中的所有图像的差异值;根据所述差异值确定所述子图像中与所述图像模板库中匹配的图像及所述图像对应的文字编号,包括:
对所述每个子图像对照图像模板库中的图像的大小进行尺寸归一化;
对所述每个子图像进行二值化处理;
计算所述图像模板库中的文字的轮廓点与所述每个子图像中的文字的轮廓点的最短距离,根据所述距离计算所述图像模板库中的文字与所述每个子图像中的文字的差异值;
获取所述差异值小于预定阈值的所述图像模板库中图像及所述图像对应的文字编号;
其中,所述差异值为所述距离的方差与所述距离的均值的乘积。
6.根据权利要求4所述的图像关键词检查方法,其特征在于,
所述根据各子图像对应的文字编号查询预先建立的模式词库,检测所述待检查图像中的关键词,包括:
根据各子图像对应的文字编号查询预先建立的模式词库;
判断各子图像与其相邻的子图像对应的文字编号是否能组成所述模式词库中的待检查关键词对应的有序序列,若是,则所述待检测图像中存在待检查关键词。
7.根据权利要求2所述的图像关键词检查方法,其特征在于,在所述根据所述文字的位置提取所述文字的轮廓之后,还包括:
对所述文字进行欧式距离变换。
8.根据权利要求2所述的图像关键词检查方法,其特征在于,所述获取预定的图像文档中每个文字的位置,包括:
对所述预定的图像文档中的文字进行膨胀操作,将每个文字的多个连通域合并在一起,获取预定的图像文档中每个文字的位置。
9.根据权利要求2所述的图像关键词检查方法,其特征在于,在所述建立图像模板库之后,还包括:
建立模式词库,所述模式词库包括与所述图像模板库中的相对应的文字编号的有序序列。
10.一种图像关键词检查装置,其特征在于,包括
图像分割单元,用于获取待检查图像,将所述待检查图像分割成各个仅包含单个文字的子图像;
文字匹配单元,用于将各子图像与预先建立的图像模板库中的标准文字图像进行匹配,以获得各子图像对应的文字编号,所述图像模板库中包括各标准文字图像和文字编号之间的对应关系;
关键词匹配单元,用于根据各子图像对应的文字编号查询预先建立的模式词库,检测所述待检查图像中的关键词。
CN201510816513.4A 2015-11-23 2015-11-23 一种图像关键词检查方法及装置 Pending CN105468732A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510816513.4A CN105468732A (zh) 2015-11-23 2015-11-23 一种图像关键词检查方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510816513.4A CN105468732A (zh) 2015-11-23 2015-11-23 一种图像关键词检查方法及装置

Publications (1)

Publication Number Publication Date
CN105468732A true CN105468732A (zh) 2016-04-06

Family

ID=55606433

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510816513.4A Pending CN105468732A (zh) 2015-11-23 2015-11-23 一种图像关键词检查方法及装置

Country Status (1)

Country Link
CN (1) CN105468732A (zh)

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977659A (zh) * 2016-10-25 2018-05-01 北京搜狗科技发展有限公司 一种文字识别方法、装置及电子设备
CN108280839A (zh) * 2018-02-27 2018-07-13 北京尚睿通教育科技股份有限公司 一种作业图像定位与分割方法及其装置
CN109766879A (zh) * 2019-01-11 2019-05-17 北京字节跳动网络技术有限公司 字符检测模型的生成、字符检测方法、装置、设备及介质
CN112115735A (zh) * 2019-06-19 2020-12-22 国网江苏省电力有限公司常州供电分公司 一种针对保密文件的识别管理方法
CN112199545A (zh) * 2020-11-23 2021-01-08 湖南蚁坊软件股份有限公司 基于图片文字定位的关键词显示方法、装置及存储介质
CN114139005A (zh) * 2020-09-03 2022-03-04 北京搜狗科技发展有限公司 一种图片关键词确定方法及装置
CN116758551A (zh) * 2023-07-03 2023-09-15 读书郎教育科技有限公司 应用于词典笔的ocr文字识别方法
CN116844168A (zh) * 2023-06-30 2023-10-03 北京百度网讯科技有限公司 确定文本的方法、深度学习模型的训练方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020136458A1 (en) * 2001-03-22 2002-09-26 Akio Nagasaka Method and apparatus for character string search in image
US20060062460A1 (en) * 2004-08-10 2006-03-23 Fujitsu Limited Character recognition apparatus and method for recognizing characters in an image
CN103064928A (zh) * 2012-12-21 2013-04-24 北京二六三企业通信有限公司 基于关键词的垃圾文档过滤方法和装置
CN103093240A (zh) * 2013-01-18 2013-05-08 浙江大学 书法字识别方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020136458A1 (en) * 2001-03-22 2002-09-26 Akio Nagasaka Method and apparatus for character string search in image
US20060062460A1 (en) * 2004-08-10 2006-03-23 Fujitsu Limited Character recognition apparatus and method for recognizing characters in an image
CN103064928A (zh) * 2012-12-21 2013-04-24 北京二六三企业通信有限公司 基于关键词的垃圾文档过滤方法和装置
CN103093240A (zh) * 2013-01-18 2013-05-08 浙江大学 书法字识别方法

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
孔斌 等: ""保密检查中图像文件内容识别技术研究"", 《保密科学技术》 *

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107977659A (zh) * 2016-10-25 2018-05-01 北京搜狗科技发展有限公司 一种文字识别方法、装置及电子设备
CN107977659B (zh) * 2016-10-25 2021-03-16 北京搜狗科技发展有限公司 一种文字识别方法、装置及电子设备
CN108280839A (zh) * 2018-02-27 2018-07-13 北京尚睿通教育科技股份有限公司 一种作业图像定位与分割方法及其装置
CN109766879A (zh) * 2019-01-11 2019-05-17 北京字节跳动网络技术有限公司 字符检测模型的生成、字符检测方法、装置、设备及介质
CN112115735A (zh) * 2019-06-19 2020-12-22 国网江苏省电力有限公司常州供电分公司 一种针对保密文件的识别管理方法
CN114139005A (zh) * 2020-09-03 2022-03-04 北京搜狗科技发展有限公司 一种图片关键词确定方法及装置
CN112199545A (zh) * 2020-11-23 2021-01-08 湖南蚁坊软件股份有限公司 基于图片文字定位的关键词显示方法、装置及存储介质
CN112199545B (zh) * 2020-11-23 2021-09-07 湖南蚁坊软件股份有限公司 基于图片文字定位的关键词显示方法、装置及存储介质
CN116844168A (zh) * 2023-06-30 2023-10-03 北京百度网讯科技有限公司 确定文本的方法、深度学习模型的训练方法和装置
CN116758551A (zh) * 2023-07-03 2023-09-15 读书郎教育科技有限公司 应用于词典笔的ocr文字识别方法

Similar Documents

Publication Publication Date Title
US10943105B2 (en) Document field detection and parsing
CN105468732A (zh) 一种图像关键词检查方法及装置
EP1598770B1 (en) Low resolution optical character recognition for camera acquired documents
CN101957919B (zh) 基于图像局部特征检索的文字识别方法
Das et al. A fast algorithm for skew detection of document images using morphology
CN112508011A (zh) 一种基于神经网络的ocr识别方法及设备
Kaundilya et al. Automated text extraction from images using OCR system
CN114463767A (zh) 信用证识别方法、装置、计算机设备和存储介质
CN116543391A (zh) 一种结合图像校正的文本数据采集系统及方法
Fornés et al. A keyword spotting approach using blurred shape model-based descriptors
CN104899551B (zh) 一种表单图像分类方法
RU2597163C2 (ru) Сравнение документов с использованием достоверного источника
JP3917349B2 (ja) 文字認識結果を利用して情報を検索する検索装置および方法
Bairagi et al. Optical character recognition for Hindi
Wang et al. Robust recognition of Chinese text from cellphone-acquired low-quality identity card images using convolutional recurrent neural network.
Aouadi et al. Word spotting for arabic handwritten historical document retrieval using generalized hough transform
CN110704667A (zh) 一种基于语义信息的快速相似图检测算法
Goswami et al. High level shape representation in printed Gujarati character
US20030123730A1 (en) Document recognition system and method using vertical line adjacency graphs
Rahman et al. Text Information Extraction from Digital Image Documents Using Optical Character Recognition
Rahul et al. Deep reader: Information extraction from document images via relation extraction and natural language
EP4026055B1 (en) Method and system for keypoint extraction from images of documents
Shekar Skeleton matching based approach for text localization in scene images
Son et al. Text image matching without language model using a Hausdorff distance
Ravikumar et al. Segmentation of Words From Unconstrained Multilingual Hand written Documents

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20160406