CN109685055B - 一种图像中文本区域的检测方法及装置 - Google Patents

一种图像中文本区域的检测方法及装置 Download PDF

Info

Publication number
CN109685055B
CN109685055B CN201811605215.0A CN201811605215A CN109685055B CN 109685055 B CN109685055 B CN 109685055B CN 201811605215 A CN201811605215 A CN 201811605215A CN 109685055 B CN109685055 B CN 109685055B
Authority
CN
China
Prior art keywords
image
detected
text
characters
area
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201811605215.0A
Other languages
English (en)
Other versions
CN109685055A (zh
Inventor
杨光磊
程俊涛
王洪伟
刘天悦
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Chengdu Kingsoft Interactive Entertainment Technology Co ltd
Beijing Kingsoft Digital Entertainment Co Ltd
Original Assignee
Chengdu Kingsoft Interactive Entertainment Technology Co ltd
Beijing Kingsoft Digital Entertainment Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Chengdu Kingsoft Interactive Entertainment Technology Co ltd, Beijing Kingsoft Digital Entertainment Co Ltd filed Critical Chengdu Kingsoft Interactive Entertainment Technology Co ltd
Priority to CN201811605215.0A priority Critical patent/CN109685055B/zh
Publication of CN109685055A publication Critical patent/CN109685055A/zh
Application granted granted Critical
Publication of CN109685055B publication Critical patent/CN109685055B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/26Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion
    • G06V10/267Segmentation of patterns in the image field; Cutting or merging of image elements to establish the pattern region, e.g. clustering-based techniques; Detection of occlusion by performing operations on regions, e.g. growing, shrinking or watersheds

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Health & Medical Sciences (AREA)
  • Image Analysis (AREA)

Abstract

本申请实施例提供了一种图像中文本区域的检测方法及装置,涉及图像检测技术领域。该方法包括:根据待检测图像和预先训练的文字检测模型,检测待检测图像中的文字区域及文字区域包含的文字的语言类别,然后,将语言类别相同且相邻的文字区域合并,得到目标文本区域图像和目标文本区域图像包含的文字的目标语言类别。采用本申请可以得到仅包含一种语言文字的文本区域图像。

Description

一种图像中文本区域的检测方法及装置
技术领域
本申请涉及图像检测技术领域,特别是涉及一种图像中文本区域的检测方法及装置。
背景技术
图像中通常包含丰富的文本信息,当用户想要将图片中的文本信息转换成可编辑的文本时,可以应用文本识别技术,利用电子设备识别图像中的文本,进而根据识别结果将该图像中的文字转换为可编辑的文本。文本识别技术主要包含两部分内容,第一是检测出图像中的文本区域,第二是识别文本区域中的文本内容。
现有技术中,图像中文本区域的检测方法为:将包含文本的待检测图像输入文字检测模型,确定待检测图像中的文字区域和非文字区域,然后将相邻的文字区域进行合并,得到待检测图像中的文本区域。
然而,待检测图像中可能包含多种语言类别的文字,现有技术中并未根据文字区域包含的文字的语言类别,对文字区域加以区分,会导致检测到的文本区域包含多种语言类别的文字,在对文本区域包含的文本内容进行识别时,因文本区域包含多种语言类别的文字,会导致识别的准确度较低。
申请内容
本申请实施例的目的在于提供一种图像中文本区域的检测方法及装置,可以得到仅包含一种语言文字的文本区域图像。具体技术方案如下:
第一方面,提供了一种图像中文本区域的检测方法,所述方法包括:
根据待检测图像和预先训练的文字检测模型,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别;
将语言类别相同且相邻的文字区域包含的图像合并,得到目标文本区域图像,及所述目标文本区域图像包含的文字的目标语言类别。
可选的,所述将语言类别相同且相邻的文字区域包含的图像合并,得到目标文本区域图像,及所述目标文本区域图像包含的文字的目标语言类别之后,所述方法还包括:
根据预设的语言类别和文本识别模型的映射关系,确定所述目标语言类别对应的第一文本识别模型;
根据所述目标文本区域图像和所述第一文本识别模型,得到所述目标文本区域图像包含的文本内容。
可选的,所述预先训练的文字检测模型包括卷积神经网络、循环神经网络、回归层和分类层。
可选的,所述根据所述待检测图像和预先训练的文字检测模型,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别,包括:
将待检测图像输入所述卷积神经网络,得到所述待检测图像的第一特征图,所述第一特征图包括对所述待检测图像计算提取到的各区域的图像特征;
将所述第一特征图输入所述循环神经网络,得到所述待检测图像的第二特征图;
将所述第二特征图输入所述分类层,得到所述第二特征图中每个图像特征对应的锚点框的属性信息,所述锚点框为所述待检测图像中预设尺寸的矩形区域,所述锚点框的位置根据所述图像特征映射到所述待检测图像的区域确定,所述属性信息用于表示所述锚点框包含的内容是否为文字、以及文字的语言类别;
将所述第二特征图输入所述回归层,得到所述第二特征图中每个图像特征对应的锚点框在所述待检测图像中的偏移缩放参数;
根据包含文字的锚点框在所述待检测图像中的偏移缩放参数,及所述锚点框包含的文字的语言类别,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别。
第二方面,提供了一种图像中文本区域的检测装置,所述装置包括:
检测模块,用于根据待检测图像和预先训练的文字检测模型,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别;
合并模块,用于将语言类别相同且相邻的文字区域包含的图像合并,得到目标文本区域图像,及所述目标文本区域图像包含的文字的目标语言类别。
可选的,所述装置还包括:
确定模块,用于根据预设的语言类别和文本识别模型的映射关系,确定所述目标语言类别对应的第一文本识别模型;
识别模块,用于根据所述目标文本区域图像和所述第一文本识别模型,得到所述目标文本区域图像包含的文本内容。
可选的,所述预先训练的文字检测模型包括卷积神经网络、循环神经网络、回归层和分类层。
可选的,所述检测模块,包括:
第一提取单元,用于将待检测图像输入所述卷积神经网络,得到所述待检测图像的第一特征图,所述第一特征图包括对所述待检测图像计算提取到的各区域的图像特征;
第二提取单元,用于将所述第一特征图输入所述循环神经网络,得到所述待检测图像的第二特征图;
分类单元,用于将所述第二特征图输入所述分类层,得到所述第二特征图中每个图像特征对应的锚点框的属性信息,所述锚点框为所述待检测图像中预设尺寸的矩形区域,所述锚点框的位置根据所述图像特征映射到所述待检测图像的区域确定,所述属性信息用于表示所述锚点框包含的内容是否为文字、以及文字的语言类别;
回归单元,用于将所述第二特征图输入所述回归层,得到所述第二特征图中每个图像特征对应的锚点框在所述待检测图像中的偏移缩放参数;
确定单元,用于根据包含文字的锚点框在所述待检测图像中的偏移缩放参数,及所述锚点框包含的文字的语言类别,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别。
第三方面,提供了一种电子设备,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现第一方面所述的方法步骤。
第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的方法步骤。
本申请实施例提供的一种图像中文本区域的检测方法及装置,可以根据待检测图像和预先训练的文字检测模型,检测待检测图像中的文字区域及文字区域包含的文字的语言类别,然后,将语言类别相同且相邻的文字区域合并,得到目标文本区域图像和目标文本区域图像包含的文字的目标语言类别。相比于现有技术中文本区域图像中包括多种语言类型的文字,本申请确定出的文本区域图像只包含一种语言类型的文字,这样,在对文本区域图像包含的文本内容进行识别时,因文本区域图像中仅包含一种语言类别的文字,会提高识别的准确度。
当然,实施本申请的任一产品或方法并不一定需要同时达到以上所述的所有优点。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像中文本区域的检测方法流程图;
图2为本申请实施例提供的一种待检测图像的示意图;
图3为本申请实施例提供的一种待检测图像的示意图;
图4为本申请实施例提供的一种待检测图像的示意图;
图5为本申请实施例提供的一种文本区域图像中文本的识别方法流程图;
图6为本申请实施例提供的一种检测待检测图像中的文字区域及文字区域包含的文字的语言类别的方法流程图;
图7为本申请实施例提供的一种图像中文本区域的检测装置结构示意图;
图8为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例提供了一种图像中文本区域的检测方法,应用于计算机、服务器、智能手机等电子设备。电子设备可以根据待检测图像和预先训练的文字检测模型,得到待检测图像中的文字区域及文字区域包含的文字的语言类别,然后,将语言类别相同且相邻的文字区域合并,得到目标文本区域图像,及目标文本区域图像包含的文字的目标语言类别。相比于现有技术中文本区域图像中包括多种语言类型的文字,本申请确定出的文本区域图像只包含一种语言类型的文字,这样,在对文本区域图像包含的文本内容进行识别时,因文本区域图像中仅包含一种语言类别的文字,会提高识别的准确度。
下面将结合具体实施方式,对本申请实施例提供的一种图像中文本区域的检测方法进行详细的说明,如图1所示,具体步骤如下:
步骤101,根据待检测图像和预先训练的文字检测模型,得到待检测图像中的文字区域,及文字区域包含的文字的语言类别。
在实施中,电子设备可以获取待检测图像,其中,待检测图像可以为各种类型的图像,比如,自然场景图像、广告图像、文档扫描图像、拍摄图像等,待检测图像中的文字可以为不同语言、不同大小、不同字体的文字,如图2所示,本申请实施例提供了一种待检测图像的示意图,待检测图像中包含韩语文本
Figure BDA0001923435150000051
英文文本“Gone with The Wind”和汉语文本“乱世佳人”,其中,汉语文本“乱世佳人”中的“乱”的字体与“世佳人”的字体不同,汉语文本“乱世佳人”中的“世”的大小与“乱佳人”的大小不同。电子设备可以根据预先训练的文字检测模型,检测待检测图像中的文字区域及文字区域包含的文字的语言类别,比如,电子设备可以在待检测图像中选取多个目标像素点,并以目标像素点为中心,设置多种预设尺度的文字候选框。然后,确定文字候选框中是否包含文字、包含的文字的语言类别,及包含的文字属于该语言类别的概率,进而,确定待检测图像中的文字区域、文字区域包含的文字的语言类别,及文字区域包含的文字属于该语言类别的概率。如图3所示,本申请实施例提供了一种待检测图像的示意图,待检测图像中韩语文字、汉语文字和英语文字上的矩形框所在区域即为文字区域。
步骤102,将语言类别相同且相邻的文字区域包含的图像合并,得到目标文本区域图像,及目标文本区域图像包含的文字的目标语言类别。
在实施中,针对每一语言类别,电子设备可以确定该语言类别对应的文字区域,然后,可以将确定出的文字区域包含的图像合并,得到该语言类别对应的目标文本区域图像,及目标文本区域图像包含的文字的目标语言类别。
以第一语言类别为例,电子设备确定第一语言类别对应的文字区域,针对确定出的每一文字区域,电子设备根据该文字区域确定需要连接的文字区域,以第一文字区域为例,针对第一文字区域,电子设备沿待检测图像中的水平正方向,查询与第一文字区域水平距离小于预设第一阈值的第一候选文字区域,然后,从第一候选文字区域中,确定与第一文字区域的垂直方向的重叠度大于预设第二阈值的第二候选文字区域。其中,在待检测图像中建立坐标系,待检测图像中的水平方向为横轴方向,待检测图像中的垂直方向为纵轴方向,两个文字区域的垂直方向的重叠度可以为(B1-A0)/(A1-B0),A1为第一文字候选区域在待检测图像中的最大纵坐标,A0为第一文字候选区域在待检测图像中的最小纵坐标,B1为第二文字候选区域在待检测图像中的最大纵坐标,B0为第一文字候选区域在待检测图像中的最小纵坐标。然后,电子设备从第二候选文字区域中,确定包含的文字属于第一语言类别的概率最大的第三候选文字区域,然后,针对第三候选文字区域,电子设备沿待检测图像中的水平负方向,查询和第三候选文字区域水平距离小于预设第一阈值的第四候选文字区域,从第四候选文字区域中,确定与第三候选文字区域的垂直方向的重叠度大于预设第二阈值的第五候选文字区域,电子设备从第五候选文字区域中,确定包含的文字属于第一语言类别的概率最大的第六候选文字区域,如果第六候选文字区域为第一文字区域,则将第一文字区域和第六候选文字区域作为一组文字区域短连接组。这样,电子设备可以获得多组文字区域短连接组。然后,电子设备可以将包含相同文字区域的文字区域短连接组合并,得到多组文字区域长连接组。例如,文字区域短连接组有(Box1,Box3),(Box3,Box7),(Box9,Box12)和(Box12,Box16),其中,Box1、Box3、Box7、Box9、Box12和Box16为文字区域,则电子设备将(Box1,Box3)和(Box3,Box7)合并,得到文字区域长连接组(Box1,Box3,Box7),将(Box9,Box12)和(Box12,Box16)合并得到文字区域长连接组(Box9,Box12,Box16)。
然后,针对每组文字区域长连接组,电子设备从该组文字区域长连接组的各个文字区域中,确定顶边最靠近待检测图像顶边的第二文字区域、底边最靠近待检测图像底边的第三文字区域、左边最靠近待检测图像左边的第四文字区域,及右边最靠近待检测图像右边的第五文字区域,将第二文字区域的顶边的纵坐标作为目标矩形框顶边的纵坐标,将第三文字区域的底边的纵坐标作为目标矩形框底边的纵坐标,将第四文字区域的左边的横坐标作为目标矩形框左边的横坐标,将第五文字区域的右边的横坐标作为目标矩形框右边的横坐标,得到目标矩形框,电子设备可以将目标矩形框包含的图像作为文本区域图像。例如,将图3所示待检测图像中的文字区域合并,可以得到如图4所示待检测图像中的文本区域图像,图4中,韩语文本、汉语文本和英语文本上的矩形框包含的图像即为文本区域图像。
可选的,在确定出目标文本区域图像,及目标文本区域图像包含的文字的语言类别后,本申请实施例还提供了一种文本区域图像中文本的识别方法示例。如图5所示,具体步骤如下:
步骤501,根据预设的语言类别和文本识别模型的映射关系,确定目标语言类别对应的第一文本识别模型。
在实施中,电子设备预先存储有多个文本识别模型,每个识别模型可以识别一种语言文字。针对每一目标文本区域图像,电子设备可以从预先存储的文本识别模型中,确定该目标文本区域图像对应的第一识别模型,进而,可以根据第一识别模型,识别目标文本区域图像包含的文本内容。
其中,电子设备存储的每个文本识别模型是通过大量的文本区域图像样本训练过的,该文本识别模型对单一的语言类型的文本具有较高的识别准确度。
步骤502,根据目标文本区域图像和第一文本识别模型,得到目标文本区域图像包含的文本内容。
在实施中,电子设备可以将目标文本区域图像输入第一文本识别模型,以使第一文本识别模型识别目标文本区域图像包含的文本内容。这样,可以识别待检测图像中的文本内容,例如,可以识别出图1所示的待检测图像中的文本内容:
Figure BDA0001923435150000081
“Gone withThe Wind”,“乱世佳人”。
相比于现有技术中文本区域图像中包括多种语言类型的文字,本申请确定出的文本区域图像只包含一种语言类型的文字,且根据文本区域图像包含的文字的语言类型,确定该语言类型对应的文本识别模型,进而,根据确定出的识别模型识别文本区域包含的文本内容。这样,每个文本区域图像只包含一种语言类别的文字,电子设备针对每个文本区域图像,采用该文本区域图像包含的文字的语言类别对应的识别模型,识别该文本区域图像中文本内容,可以提高图像中文本识别的准确度。
可选的,预先训练的文字检测模型包括卷积神经网络、循环神经网络、回归层和分类层。其中,循环神经网络为长短期记忆LSTM网络,分类层可以设置多种分类任务,比如,可以对锚点框是否包含文字进行分类,还可以对锚点框包含的文字的语言类别进行分类。
可选的,本申请实施例还提供了一种文字检测模型的训练方法,具体包括以下处理过程:根据预设的样本图像、样本图像中的文字区域,及文字区域包含的文字的语言类别,对初始文字检测模型进行训练,得到预先训练的文字检测模型。
在实施中,电子设备可以获取一定数量的样本图像,并标记样本图像中的文字区域的位置,及文字区域包含的文字的语言类别,然后,将标记过的样本图像输入初始文字检测模型,并根据初始文字检测模型的输出结果,调整初始模型的参数,进而,得到预先训练的文字检测模型。具体的训练过程属于现有技术,本申请实施例不再赘述。
相应的,基于此文字检测模型,本申请实施例还提供了一种检测待检测图像中的文字区域及文字区域包含的文字的语言类别的方法示例。如图6所示,具体步骤如下:
步骤601,将待检测图像输入卷积神经网络,得到待检测图像的第一特征图。
其中,第一特征图包括对待检测图像计算提取到的各区域的图像特征。
在实施中,电子设备可以将待检测图像输入卷积神经网络,提取待检测图像的特征,得到第一特征图。
步骤602,将第一特征图输入循环神经网络,得到待检测图像的第二特征图。
在实施中,电子设备可以将第一特征图输入循环神经网络,得到待检测图像的第二特征图。
步骤603,将第二特征图输入分类层,得到第二特征图中每个图像特征对应的锚点框的属性信息。
其中,属性信息用于表示锚点框包含的内容是否为文字、以及文字的语言类别。锚点框为待检测图像中预设尺寸的矩形区域,锚点框的位置根据图像特征映射到待检测图像的区域确定,比如,可以根据图像特征在第二特征图的位置坐标,及第二特征图和待检测图像的比例,确定图像特征映射到待检测图像的区域,将图像特征映射到待检测图像的区域中的目标像素点作为中心设置多种预设尺寸的锚点框,目标像素点的数目可以为多个,相邻的目标像素点之间相差预设数目的像素。
分类层为一个全连接层,可以设置多种分类类别,比如,未包含文字的锚点框、包含汉语文字的锚点框、包含英语文字的锚点框、包含韩语文字的锚点框等,分类层可以输出每一锚点框属于各个分类类别的概率。
在实施中,电子设备可以将第二特征图输入分类层,得到第二特征图中每个特征对应的锚点框属于各个分类类别的概率。电子设备可以确定每个锚点框对所属的概率最高的目标分类类别,然后,将目标分类类别作为该锚点框的分类类别。
步骤604,将第二特征图输入回归层,得到第二特征图中每个图像特征对应的锚点框在待检测图像中的偏移缩放参数。
其中,回归层为一个全连接层,可以对锚点框的位置进行平移和缩放,以使锚点框定位的区域更加准确。
在实施中,电子设备可以将第二特征图输入回归层,输出第二特征图中每个特征对应的锚点框在待检测图像中的偏移缩放参数。其中,锚点框的坐标为(x,y,w,h),其中,x和y表示锚点框的中心点的坐标,w表示锚点框的宽度,h表示锚点框的高度。电子设备可以根据锚点框的偏移缩放参数,对锚点框的位置进行平移和缩放,以使锚点框定位的区域更加准确。
其中,本申请并不限定步骤603和步骤604的执行顺序,两者可以并行执行。
步骤605,根据包含文字的锚点框在待检测图像中的偏移缩放参数,及锚点框包含的文字的语言类别,得到待检测图像中的文字区域和文字区域包含的文字的语言类别。
在实施中,电子设备可以根据锚点框的目标分类类别和锚点框属于该目标分类类别的概率,确定包含文字的锚点框,锚点框包含的文字的语言类别,及锚点包含的文字属于该语言类别的概率,并根据确定出的锚点框的偏移缩放参数,确定经平移缩放后锚点框,然后,将经平移缩放后锚点框在待检测图像中的区域作为文字区域,将锚点框包含的文字的语言类别,及锚点框包含的文字属于该语言类别的概率,作为文字区域包含的文字的语言类别,及文字区域包含的文字属于该语言类别的概率。
相比于现有技术中文本区域图像中包括多种语言类型的文字,本申请确定出的文本区域图像只包含一种语言类型的文字,且根据文本区域图像包含的文字的语言类型,确定该语言类型对应的文本识别模型,进而,根据确定出的识别模型识别文本区域包含的文本内容。这样,每个文本区域图像只包含一种语言类别的文字,电子设备针对每个文本区域图像,采用该文本区域图像包含的文字的语言类别对应的识别模型,识别该文本区域图像中文本内容,可以提高图像中文本识别的准确度。
基于相同的技术构思,如图7所示,本申请实施例还提供了一种图像中文本区域的检测装置,所述装置包括:
检测模块701,用于根据待检测图像和预先训练的文字检测模型,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别;
合并模块702,用于将语言类别相同且相邻的文字区域包含的图像合并,得到目标文本区域图像,及所述目标文本区域图像包含的文字的目标语言类别。
可选的,所述装置还包括:
确定模块,用于根据预设的语言类别和文本识别模型的映射关系,确定所述目标语言类别对应的第一文本识别模型;
识别模块,用于根据所述目标文本区域图像和所述第一文本识别模型,得到所述目标文本区域图像包含的文本内容。
可选的,所述预先训练的文字检测模型包括卷积神经网络、循环神经网络、回归层和分类层。
可选的,所述检测模块,包括:
第一提取单元,用于将待检测图像输入所述卷积神经网络,得到所述待检测图像的第一特征图,所述第一特征图包括对所述待检测图像计算提取到的各区域的图像特征;
第二提取单元,用于将所述第一特征图输入所述循环神经网络,得到所述待检测图像的第二特征图;
分类单元,用于将所述第二特征图输入所述分类层,得到所述第二特征图中每个图像特征对应的锚点框的属性信息,所述锚点框为所述待检测图像中预设尺寸的矩形区域,所述锚点框的位置根据所述图像特征映射到所述待检测图像的区域确定,所述属性信息用于表示所述锚点框包含的内容是否为文字、以及文字的语言类别;
回归单元,用于将所述第二特征图输入所述回归层,得到所述第二特征图中每个图像特征对应的锚点框在所述待检测图像中的偏移缩放参数;
确定单元,用于根据包含文字的锚点框在所述待检测图像中的偏移缩放参数,及所述锚点框包含的文字的语言类别,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别。
本申请实施例还提供了一种电子设备,如图8所示,包括处理器801、通信接口802、存储器803和通信总线804,其中,处理器801,通信接口802,存储器803通过通信总线804完成相互间的通信,
存储器803,用于存放计算机程序;
处理器801,用于执行存储器803上所存放的程序时,实现如下步骤:
根据待检测图像和预先训练的文字检测模型,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别;
将语言类别相同且相邻的文字区域包含的图像合并,得到目标文本区域图像,及所述目标文本区域图像包含的文字的目标语言类别。
可选的,所述将语言类别相同且相邻的文字区域包含的图像合并,得到目标文本区域图像,及所述目标文本区域图像包含的文字的目标语言类别之后,所述方法还包括:
根据预设的语言类别和文本识别模型的映射关系,确定所述目标语言类别对应的第一文本识别模型;
根据所述目标文本区域图像和所述第一文本识别模型,得到所述目标文本区域图像包含的文本内容。
可选的,所述预先训练的文字检测模型包括卷积神经网络、循环神经网络、回归层和分类层。
可选的,所述根据所述待检测图像和预先训练的文字检测模型,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别,包括:
将待检测图像输入所述卷积神经网络,得到所述待检测图像的第一特征图,所述第一特征图包括对所述待检测图像计算提取到的各区域的图像特征;
将所述第一特征图输入所述循环神经网络,得到所述待检测图像的第二特征图;
将所述第二特征图输入所述分类层,得到所述第二特征图中每个图像特征对应的锚点框的属性信息,所述锚点框为所述待检测图像中预设尺寸的矩形区域,所述锚点框的位置根据所述图像特征映射到所述待检测图像的区域确定,所述属性信息用于表示所述锚点框包含的内容是否为文字、以及文字的语言类别;
将所述第二特征图输入所述回归层,得到所述第二特征图中每个图像特征对应的锚点框在所述待检测图像中的偏移缩放参数;
根据包含文字的锚点框在所述待检测图像中的偏移缩放参数,及所述锚点框包含的文字的语言类别,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别。
上述电子设备提到的通信总线可以是外设部件互连标准(Peripheral ComponentInterconnect,PCI)总线或扩展工业标准结构(Extended Industry StandardArchitecture,EISA)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
通信接口用于上述电子设备与其他设备之间的通信。
存储器可以包括随机存取存储器(Random Access Memory,RAM),也可以包括非易失性存储器(Non-Volatile Memory,NVM),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
上述的处理器可以是通用处理器,包括中央处理器(Central Processing Unit,CPU)、网络处理器(Network Processor,NP)等;还可以是数字信号处理器(Digital SignalProcessing,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
在本申请提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一图像中文本区域的检测方法的步骤。
在本申请提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一图像中文本区域的检测方法的步骤。
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、或者半导体介质(例如固态硬盘Solid State Disk(SSD))等。
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于装置实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
以上所述仅为本申请的较佳实施例而已,并非用于限定本申请的保护范围。凡在本申请的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本申请的保护范围内。

Claims (6)

1.一种图像中文本区域的检测方法,其特征在于,所述方法包括:
根据待检测图像和预先训练的文字检测模型,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别;其中,所述预先训练的文字检测模型包括卷积神经网络、循环神经网络、回归层和分类层;
将语言类别相同且相邻的文字区域包含的图像合并,得到目标文本区域图像,及所述目标文本区域图像包含的文字的目标语言类别;
其中,所述根据所述待检测图像和预先训练的文字检测模型,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别,包括:
将待检测图像输入所述卷积神经网络,得到所述待检测图像的第一特征图,所述第一特征图包括对所述待检测图像计算提取到的各区域的图像特征;
将所述第一特征图输入所述循环神经网络,得到所述待检测图像的第二特征图;
将所述第二特征图输入所述分类层,得到所述第二特征图中每个图像特征对应的锚点框的属性信息,所述锚点框为所述待检测图像中预设尺寸的矩形区域,所述锚点框的位置根据所述图像特征映射到所述待检测图像的区域确定,所述属性信息用于表示所述锚点框包含的内容是否为文字、以及文字的语言类别;
将所述第二特征图输入所述回归层,得到所述第二特征图中每个图像特征对应的锚点框在所述待检测图像中的偏移缩放参数;
根据包含文字的锚点框在所述待检测图像中的偏移缩放参数,及所述锚点框包含的文字的语言类别,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别。
2.根据权利要求1所述的方法,其特征在于,所述将语言类别相同且相邻的文字区域包含的图像合并,得到目标文本区域图像,及所述目标文本区域图像包含的文字的目标语言类别之后,所述方法还包括:
根据预设的语言类别和文本识别模型的映射关系,确定所述目标语言类别对应的第一文本识别模型;
根据所述目标文本区域图像和所述第一文本识别模型,得到所述目标文本区域图像包含的文本内容。
3.一种图像中文本区域的检测装置,其特征在于,所述装置包括:
检测模块,用于根据待检测图像和预先训练的文字检测模型,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别;其中,所述预先训练的文字检测模型包括卷积神经网络、循环神经网络、回归层和分类层;
合并模块,用于将语言类别相同且相邻的文字区域包含的图像合并,得到目标文本区域图像,及所述目标文本区域图像包含的文字的目标语言类别;
其中,所述检测模块,包括:
第一提取单元,用于将待检测图像输入所述卷积神经网络,得到所述待检测图像的第一特征图,所述第一特征图包括对所述待检测图像计算提取到的各区域的图像特征;
第二提取单元,用于将所述第一特征图输入所述循环神经网络,得到所述待检测图像的第二特征图;
分类单元,用于将所述第二特征图输入所述分类层,得到所述第二特征图中每个图像特征对应的锚点框的属性信息,所述锚点框为所述待检测图像中预设尺寸的矩形区域,所述锚点框的位置根据所述图像特征映射到所述待检测图像的区域确定,所述属性信息用于表示所述锚点框包含的内容是否为文字、以及文字的语言类别;
回归单元,用于将所述第二特征图输入所述回归层,得到所述第二特征图中每个图像特征对应的锚点框在所述待检测图像中的偏移缩放参数;
确定单元,用于根据包含文字的锚点框在所述待检测图像中的偏移缩放参数,及所述锚点框包含的文字的语言类别,得到所述待检测图像中的文字区域,及所述文字区域包含的文字的语言类别。
4.根据权利要求3所述的装置,其特征在于,所述装置还包括:
确定模块,用于根据预设的语言类别和文本识别模型的映射关系,确定所述目标语言类别对应的第一文本识别模型;
识别模块,用于根据所述目标文本区域图像和所述第一文本识别模型,得到所述目标文本区域图像包含的文本内容。
5.一种电子设备,其特征在于,包括处理器和机器可读存储介质,所述机器可读存储介质存储有能够被所述处理器执行的机器可执行指令,所述处理器被所述机器可执行指令促使:实现权利要求1-2任一所述的方法步骤。
6.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-2任一所述的方法步骤。
CN201811605215.0A 2018-12-26 2018-12-26 一种图像中文本区域的检测方法及装置 Active CN109685055B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201811605215.0A CN109685055B (zh) 2018-12-26 2018-12-26 一种图像中文本区域的检测方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201811605215.0A CN109685055B (zh) 2018-12-26 2018-12-26 一种图像中文本区域的检测方法及装置

Publications (2)

Publication Number Publication Date
CN109685055A CN109685055A (zh) 2019-04-26
CN109685055B true CN109685055B (zh) 2021-11-12

Family

ID=66189811

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201811605215.0A Active CN109685055B (zh) 2018-12-26 2018-12-26 一种图像中文本区域的检测方法及装置

Country Status (1)

Country Link
CN (1) CN109685055B (zh)

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110110777A (zh) * 2019-04-28 2019-08-09 网易有道信息技术(北京)有限公司 图像处理方法和训练方法、以及装置、介质和计算设备
CN111985469B (zh) * 2019-05-22 2024-03-19 珠海金山办公软件有限公司 一种图像中文字的识别方法、装置及电子设备
CN110222752B (zh) * 2019-05-28 2021-11-16 北京金山数字娱乐科技有限公司 图像处理方法、系统、计算机设备、存储介质和芯片
CN110674811B (zh) * 2019-09-04 2022-04-29 广东浪潮大数据研究有限公司 图像识别的方法及装置
CN111340938B (zh) * 2020-02-21 2020-12-11 贝壳找房(北京)科技有限公司 用于获得房屋布局信息的方法、网络模型训练方法及装置
CN111738326B (zh) * 2020-06-16 2023-07-11 中国工商银行股份有限公司 句粒度标注训练样本生成方法及装置
CN111767867B (zh) * 2020-06-30 2022-12-09 创新奇智(北京)科技有限公司 文本检测方法、模型训练方法及对应装置
CN111898608B (zh) * 2020-07-04 2022-04-26 西北工业大学 一种基于边界预测的自然场景多语言文字检测方法
CN112395450B (zh) * 2020-11-17 2024-03-19 平安科技(深圳)有限公司 图片文字检测方法、装置、计算机设备及存储介质
CN112308046A (zh) * 2020-12-02 2021-02-02 龙马智芯(珠海横琴)科技有限公司 图像的文本区域定位方法、装置、服务器及可读存储介质
CN112801085A (zh) * 2021-02-09 2021-05-14 沈阳麟龙科技股份有限公司 一种图像中文字的识别方法、装置、介质及电子设备
CN113762237B (zh) * 2021-04-26 2023-08-18 腾讯科技(深圳)有限公司 文本图像处理方法、装置、设备及存储介质
CN114170594A (zh) * 2021-12-07 2022-03-11 奇安信科技集团股份有限公司 光学字符识别方法、装置、电子设备及存储介质
CN115937655B (zh) * 2023-02-24 2023-05-23 城云科技(中国)有限公司 多阶特征交互的目标检测模型及其构建方法、装置及应用

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105139041A (zh) * 2015-08-21 2015-12-09 北京旷视科技有限公司 基于图像的语种识别方法及装置
CN105574513A (zh) * 2015-12-22 2016-05-11 北京旷视科技有限公司 文字检测方法和装置
CN105868758A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备
CN105989341A (zh) * 2015-02-17 2016-10-05 富士通株式会社 文字识别方法和装置
CN106570497A (zh) * 2016-10-08 2017-04-19 中国科学院深圳先进技术研究院 一种场景图像的文本检测方法和装置
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN108304814A (zh) * 2018-02-08 2018-07-20 海南云江科技有限公司 一种文字类型检测模型的构建方法和计算设备
CN108717542A (zh) * 2018-04-23 2018-10-30 北京小米移动软件有限公司 识别文字区域的方法、装置及计算机可读存储介质
CN109086756A (zh) * 2018-06-15 2018-12-25 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106980858B (zh) * 2017-02-28 2020-08-18 中国科学院信息工程研究所 一种语言文本检测与定位系统及应用该系统的语言文本检测与定位方法
CN108197109B (zh) * 2017-12-29 2021-04-23 北京百分点科技集团股份有限公司 一种基于自然语言处理的多语言分析方法和装置

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105868758A (zh) * 2015-01-21 2016-08-17 阿里巴巴集团控股有限公司 图像中文本区域检测方法、装置及电子设备
CN105989341A (zh) * 2015-02-17 2016-10-05 富士通株式会社 文字识别方法和装置
CN105139041A (zh) * 2015-08-21 2015-12-09 北京旷视科技有限公司 基于图像的语种识别方法及装置
CN105574513A (zh) * 2015-12-22 2016-05-11 北京旷视科技有限公司 文字检测方法和装置
CN106570497A (zh) * 2016-10-08 2017-04-19 中国科学院深圳先进技术研究院 一种场景图像的文本检测方法和装置
CN108229463A (zh) * 2018-02-07 2018-06-29 众安信息技术服务有限公司 基于图像的文字识别方法
CN108304814A (zh) * 2018-02-08 2018-07-20 海南云江科技有限公司 一种文字类型检测模型的构建方法和计算设备
CN108717542A (zh) * 2018-04-23 2018-10-30 北京小米移动软件有限公司 识别文字区域的方法、装置及计算机可读存储介质
CN109086756A (zh) * 2018-06-15 2018-12-25 众安信息技术服务有限公司 一种基于深度神经网络的文本检测分析方法、装置及设备

Also Published As

Publication number Publication date
CN109685055A (zh) 2019-04-26

Similar Documents

Publication Publication Date Title
CN109685055B (zh) 一种图像中文本区域的检测方法及装置
CN109726643B (zh) 图像中表格信息的识别方法、装置、电子设备及存储介质
CN110390269B (zh) Pdf文档表格提取方法、装置、设备及计算机可读存储介质
CN110766014B (zh) 票据信息定位方法、系统及计算机可读存储介质
CN107656922B (zh) 一种翻译方法、装置、终端及存储介质
WO2020238054A1 (zh) Pdf文档中图表的定位方法、装置及计算机设备
US9910842B2 (en) Interactively predicting fields in a form
CN111563495B (zh) 一种图像中字符的识别方法、装置及电子设备
US20220067416A1 (en) Method and device for generating collection of incorrectly-answered questions
CN111507330B (zh) 习题识别方法、装置、电子设备及存储介质
WO2020097909A1 (zh) 文本检测方法、装置及存储介质
CN111353501A (zh) 一种基于深度学习的书本点读方法及系统
CN112861842A (zh) 基于ocr的案件文本识别方法及电子设备
CN112001406A (zh) 一种文本区域检测方法及装置
WO2022166833A1 (zh) 图像处理方法和装置、电子设备和存储介质
CN110674811B (zh) 图像识别的方法及装置
CN114092949A (zh) 类别预测模型的训练、界面元素类别的识别方法及装置
Ayesh et al. A robust line segmentation algorithm for Arabic printed text with diacritics
CN111079480A (zh) 身份证信息的识别方法、装置及终端设备
US20230084845A1 (en) Entry detection and recognition for custom forms
CN114511857A (zh) 一种ocr识别结果处理方法、装置、设备及存储介质
CN113128604A (zh) 页面元素的识别方法、装置、电子设备及存储介质
CN115546815A (zh) 一种表格识别方法、装置、设备及存储介质
CN111652204B (zh) 目标文本区域选择的方法、装置、电子设备和存储介质
US20230036812A1 (en) Text Line Detection

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant