CN110458162B - 一种智能提取图像文字信息的方法 - Google Patents

一种智能提取图像文字信息的方法 Download PDF

Info

Publication number
CN110458162B
CN110458162B CN201910677628.8A CN201910677628A CN110458162B CN 110458162 B CN110458162 B CN 110458162B CN 201910677628 A CN201910677628 A CN 201910677628A CN 110458162 B CN110458162 B CN 110458162B
Authority
CN
China
Prior art keywords
image
model
text information
intelligent
image text
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201910677628.8A
Other languages
English (en)
Other versions
CN110458162A (zh
Inventor
周钊
郑莹斌
叶浩
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Shanghai Duiguan Information Technology Co ltd
Original Assignee
Shanghai Duiguan Information Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Shanghai Duiguan Information Technology Co ltd filed Critical Shanghai Duiguan Information Technology Co ltd
Priority to CN201910677628.8A priority Critical patent/CN110458162B/zh
Publication of CN110458162A publication Critical patent/CN110458162A/zh
Application granted granted Critical
Publication of CN110458162B publication Critical patent/CN110458162B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/60Type of objects
    • G06V20/62Text, e.g. of license plates, overlay texts or captions on TV images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Multimedia (AREA)
  • Image Analysis (AREA)

Abstract

本发明提供一种智能提取图像文字信息的方法,包括以下步骤:步骤S1、调用图像文字检测识别模型,提取图像文字检测识别模型输出结果中的关键字段;步骤S2、为图像文字检测识别结果标注一定量的标签,作为图像文字信息智能提取模型的训练集,设置待提取关键字段类别数等参数,送入图像文字信息智能提取模型进行训练,得到模型参数;步骤S3、获取步骤S2中训练得到的模型参数,作为图像文字信息智能提取系统推理时的参数,将待处理的图像数据输入图像文字信息智能提取模型。本发明利用深度学习的方法设计了卷积神经网络,自动提取图像文字内容中的关键信息,在操作简便的前提下能获得更准确的图像文字信息智能提取效果。

Description

一种智能提取图像文字信息的方法
技术领域
本发明涉及人工智能领域中的图像文字信息提取技术领域,具体地讲,本发明涉及一种智能提取图像文字信息的方法。
背景技术
图像文字信息智能提取是指利用人工智能方法与模型,对图像进行处理和分析,判断图像内的文字的具体所在位置和内容,之后对图像文字内容中的关键信息进行判断和提取。图像文字信息智能提取有助于提高文字智能理解的自动化,快速定位关键信息,并且能够帮助解决实际问题;例如帮助实现自动化关键字段提取、敏感文字信息鉴别等。
图像文字信息提取一般需要确定在图像文字检测与图像文字识别的基础上确定关键信息的位置,从而进行关键字段提取。待提取的关键字段内容是未知的,但是其位置一般在某些标志性字段附近,目前,现有技术是根据识别结果定位标志性字段位置,再根据关键字段与标志性字段的相对位置设计某些规则来提取关键字段,例如,对身份证、增值税发票等固定样式定义标志性字段位置并进行识别的过程。
然而,通过定位标志性字段再根据相对位置确定待提取的关键字段缺点之一是这种方法非常依赖识别结果,要求识别模型输出的标志性字段结果与定义的标志性字段完全一致才能定位到标志性字段的位置,当识别模型输出结果不太精确时可能使这种方法完全失效;另一个缺点是这种方法只适合版面固定的某类图像,因为这种方法中标志性字段和待提取的关键字段相对位置是固定的,一旦两者位置有偏移或者图像版面有微小变化也会导致这种方法失效;另外,这种方法开发成本高,对于每一类版面不同的图像都需要重新开发一套适用该类图像的规则。
因此,本领域技术人员亟需提供一种智能提取图像文字信息的方法,解决当前图像文字信息提取系统中过度依赖识别模型输出的图像文字识别结果、应用的图像标志性字段和关键字段位置不能有变化的问题。
发明内容
本发明要解决的技术问题是:提供一种智能提取图像文字信息的方法,解决当前图像文字信息提取系统中过度依赖识别模型输出的图像文字识别结果、应用的图像标志性字段和关键字段位置不能有变化的问题。
本发明解决其技术问题所采用的技术方案是:提供一种智能提取图像文字信息的方法,包括以下步骤:
步骤S1、调用图像文字检测识别模型,提取图像文字检测识别模型输出结果中的关键字段,根据图像文字检测识别结果的复杂程度判断是否将其作为训练数据;
步骤S2、为图像文字检测识别结果标注一定量的标签,作为图像文字信息智能提取模型的训练集,设置待提取关键字段类别数等参数,送入图像文字信息智能提取模型进行训练,得到模型参数;
步骤S3、获取步骤S2中训练得到的模型参数,作为图像文字信息智能提取系统推理时的参数,将待处理的图像数据输入图像文字信息智能提取模型,图像文字信息智能提取系统输出即为图像文字信息提取的结果。
优选的,还包括以下步骤:
步骤S4、图像文字检测:调用图像文字检测模型,检测图像中的文字内容所在的区域;
步骤S5、图像文字识别:调用图像文字识别模型,识别输入的图像局部区域或整张图像,并提取其中的文字内容;
步骤S6、提取关键信息:将图像送入文字信息智能提取系统,确定步骤S5中的图像文字内容哪些是关键信息,以{关键字:内容}的形式,输出关键信息提取结果。
优选的,所述步骤S2中,将图像文字检测识别结果标注一定量的标签,作为图像文字信息智能提取模型的训练集,具体包括:
将每个检测框内的识别结果用语言模型转换为N维词向量,假设图像宽、高分别为W、H,将数据整理成H×W×N的格式,检测框内的每个像素点对应的向量为该检测框内识别结果映射成的N维向量,检测框外的像素点对应的向量为N维0向量,将该数据与图像拼接输入图像文字信息智能提取模型进行训练。
优选的,所述步骤S2中,所述图像文字信息智能提取模型基于深度学习中用于图像分割问题的卷积神经网络,所述卷积神经网络包括四个第一网络单元和四个第二网络单元,所述第一网络单元包括每个池化层后接一个卷积层,所述第二网络单元包括高层特征上采样与相应的低层特征拼接后送入卷积层。
优选的,所述步骤S2中,所述图像文字信息智能提取模型的数据输入和输出过程包括:数据输入第一个卷积层后送入四第一网络单元,之后高层特征上采样与相应的低层特征拼接后送入卷积层,经过第二网络单元,最后经过一个卷积层后将最终数据输出。
本发明提供了一种智能提取图像文字信息的方法,利用深度学习的方法设计了卷积神经网络,自动提取图像文字内容中的关键信息,图像文字信息智能提取模型利用深度学习来设计,训练模型的数据主要为图像,不依赖或轻度依赖图像文字识别结果,可以应用在图像版面不固定的情形。本方法只需要标注少量图片作为训练数据,在操作简便的前提下能获得更准确的图像文字信息智能提取效果。
附图说明
为了更清楚地说明本发明实施例中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是本发明的图像文字信息智能提取模型的结构图;
图2是实施例一图像文字信息智能提取系统中训练部分的流程图;
图3是实施例一图像文字信息智能提取系统中推理部分的流程图;
图4是实施例二图像文字信息智能提取系统中训练部分的流程图;
图5是实施例二图像文字信息智能提取系统中推理部分的流程图。
具体实施方式
为使本发明的内容更加清楚易懂,以下结合说明书附图,对本发明的内容作进一步说明。当然本发明并不局限于该具体实施例,本领域内的技术人员所熟知的一般替换也涵盖在本发明的保护范围内。其次,本发明利用示意图进行了详细的表述,在详述本发明实例时,为了便于说明,示意图不依照一般比例局部放大,不应以此作为对本发明的限定。
上述及其它技术特征和有益效果,将结合实施例及附图1-5对本发明的智能提取图像文字信息的方法进行详细说明。
本发明一种智能提取图像文字信息的方法,包括训练部分以及推理部分,训练部分作用是获得应用于某类图像的文字信息智能提取系统的网络模型参数,训练部分包括以下步骤:
步骤S1、调用图像文字检测识别模型,提取图像文字检测识别模型输出结果中的关键字段,根据图像文字检测识别结果的复杂程度判断是否将其作为训练数据;
步骤S2、为图像文字检测识别结果标注一定量的标签,作为图像文字信息智能提取模型的训练集,设置待提取关键字段类别数等参数,送入图像文字信息智能提取模型进行训练,得到模型参数;
步骤S3、获取步骤S2中训练得到的模型参数,作为图像文字信息智能提取系统推理时的参数,将待处理的图像数据输入图像文字信息智能提取模型,图像文字信息智能提取系统输出即为图像文字信息提取的结果。
推理部分即为实际应用部分,推理部分包括以下步骤:
步骤S4、图像文字检测:调用图像文字检测模型,检测图像中的文字内容所在的区域;
步骤S5、图像文字识别:调用图像文字识别模型,识别输入的图像局部区域或整张图像,并提取其中的文字内容;
步骤S6、提取关键信息:将图像送入文字信息智能提取系统,确定步骤S5中的图像文字内容哪些是关键信息,以{关键字:内容}的形式,输出关键信息提取结果。
其中,步骤S2中,将图像文字检测识别结果标注一定量的标签,作为图像文字信息智能提取模型的训练集,具体包括:将每个检测框内的识别结果用语言模型转换为N维词向量,假设图像宽、高分别为W、H,将数据整理成H×W×N的格式,检测框内的每个像素点对应的向量为该检测框内识别结果映射成的N维向量,检测框外的像素点对应的向量为N维0向量,将该数据与图像拼接输入图像文字信息智能提取模型进行训练。
如图1所示,步骤S2中,图像文字信息智能提取模型基于深度学习中用于图像分割问题的卷积神经网络,所述卷积神经网络包括四个第一网络单元100和四个第二网络单元200,第一网络单元100包括每个池化层后接一个卷积层,第二网络单元200包括高层特征上采样与相应的低层特征拼接后送入卷积层;图像文字信息智能提取模型的数据输入和输出过程包括:数据输入第一个卷积层后送入四个第一网络单元100,之后高层特征上采样与相应的低层特征拼接后送入卷积层,经过第二网络单元200,最后经过一个卷积层后将最终数据输出。
实施例一
如图2所示,图像文字信息智能提取系统分为训练部分和推理部分,训练部分作用是获得应用于某类图像的文字信息智能提取系统的网络模型参数,步骤如下:
步骤S11、调用文字检测模型,获得文字位置;
步骤S12、为图像标注标签,作为图像文字信息智能提取模型的训练数据。该步骤会用到步骤S11中的文字位置;
步骤S13、设置训练参数,将步骤S12中标注的数据送入网络训练,得到当前模型参数;
步骤S14、测试当前模型参数效果,依据当前效果调整步骤S13中的训练参数,重复步骤S13,直到获得满足需求的效果。
步骤S15、保存模型参数,作为文字信息智能提取系统用于推理时的模型参数。
如图3所示,推理部分即为实际应用部分,包括以下步骤:
步骤S16、调用文字检测模型,获得文字位置。
步骤S17、调用文字识别模型,获得文字内容;该步骤需要用到步骤1)中的文字位置。
步骤S18、将图像送入文字信息智能提取系统,确定步骤S17中的文字内容哪些是关键信息,以{关键字:内容}的形式,输出关键信息提取结果。
实施例二
如图4所示,本实例相对于实例一不同点主要在于当图像排版结构复杂时,可以利用文字识别模型输出的文字内容提高关键信息提取效果,步骤如下:
步骤S21、调用文字检测模型,获得文字位置;
步骤S22、调用文字识别模型,获得文字内容;该步骤需要用到步骤S21中的文字位置;
步骤S23、为图像标注标签,作为图像文字信息智能提取模型的训练数据。该步骤会用到步骤S21中的文字位置和步骤S22中的文字内容;
步骤S24、设置训练参数,将步骤S23中标注的数据送入网络训练,得到当前模型参数;
步骤S25、测试当前模型参数效果,依据当前效果调整步骤S23中的训练参数,重复步骤S24,直到获得满足需求的效果。
步骤S26、保存模型参数,作为文字信息智能提取系统用于推理时的模型参数。
如图5所示,推理部分流程图包括以下步骤:
步骤S27、调用文字检测模型,获得文字位置;
步骤S28、调用文字识别模型,获得文字内容。该步骤需要用到步骤S27中的文字位置;
步骤S29、将图像和文字内容送入文字信息智能提取系统,确定步骤S28中的文字内容哪些是关键信息,以{关键字:内容}的形式,输出关键信息提取结果。
本发明提供了一种智能提取图像文字信息的方法,利用深度学习的方法设计了卷积神经网络,自动提取图像文字内容中的关键信息,图像文字信息智能提取模型利用深度学习来设计,训练模型的数据主要为图像,不依赖或轻度依赖图像文字识别结果,可以应用在图像版面不固定的情形。本方法只需要标注少量图片作为训练数据,在操作简便的前提下能获得更准确的图像文字信息智能提取效果。
虽然本发明主要描述了以上实施例,但是只是作为实例来加以描述,而本发明并不限于此。本领域普通技术人员能做出多种变型和应用而不脱离实施例的实质特性。例如,对实施例详示的每个部件都可以修改和运行,与所述变型和应用相关的差异可认为包括在所附权利要求所限定的本发明的保护范围内。
本说明书中所涉及的实施例,其含义是结合该实施例描述的特地特征、结构或特性包括在本发明的至少一个实施例中。说明书中出现于各处的这些术语不一定都涉及同一实施例。此外,当结合任一实施例描述特定特征、结构或特性时,都认为其落入本领域普通技术人员结合其他实施例就可以实现的这些特定特征、结构或特性的范围内。

Claims (1)

1.一种智能提取图像文字信息的方法,其特征在于, 包括以下步骤:
步骤S21、调用文字检测模型,获得文字位置;
步骤S22、调用文字识别模型,获得文字内容;所述步骤S22需要用到所述步骤S21中的文字位置;
步骤S23、为图像标注标签,作为图像文字信息智能提取模型的训练数据,所述步骤S23用到步骤S21中的文字位置和步骤S22中的文字内容;
步骤S24、设置训练参数,将步骤S23中标注的数据送入网络训练,得到当前模型参数;
步骤S25、测试当前模型参数效果,依据当前效果调整步骤S23中的训练参数,重复步骤S24,直到获得满足需求的效果;
步骤S26、保存模型参数,作为文字信息智能提取系统用于推理时的模型参数;
所述推理包括以下步骤:
步骤S27、调用文字检测模型,获得文字位置;
步骤S28、调用文字识别模型,获得文字内容,所述步骤S28用到步骤S27中的文字位置;
步骤S29、将图像和文字内容送入文字信息智能提取系统,确定步骤S28中的文字内容哪些是关键信息,以{关键字:内容}的形式,输出关键信息提取结果;
所述步骤S23中,为图像标注标签,作为图像文字信息智能提取模型的训练数据,具体包括:
将每个检测框内的图像文字检测识别结果用语言模型转换为N维词向量,假设图像宽、高分别为W、H,将数据整理成H×W×N的格式,检测框内的每个像素点对应的向量为该检测框内识别结果映射成的N维向量,检测框外的像素点对应的向量为N维0向量,将该数据与图像拼接输入图像文字信息智能提取模型进行训练;
所述图像文字信息智能提取模型基于深度学习中用于图像分割问题的卷积神经网络,所述卷积神经网络包括四个第一网络单元和四个第二网络单元,所述第一网络单元包括每个池化层后接一个卷积层,所述第二网络单元包括高层特征上采样与相应的低层特征拼接后送入卷积层;
所述图像文字信息智能提取模型的数据输入和输出过程包括:数据输入第一个卷积层后送入四个第一网络单元,之后高层特征上采样与相应的低层特征拼接后送入卷积层,经过第二网络单元,最后经过一个卷积层后将最终数据输出。
CN201910677628.8A 2019-07-25 2019-07-25 一种智能提取图像文字信息的方法 Active CN110458162B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910677628.8A CN110458162B (zh) 2019-07-25 2019-07-25 一种智能提取图像文字信息的方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910677628.8A CN110458162B (zh) 2019-07-25 2019-07-25 一种智能提取图像文字信息的方法

Publications (2)

Publication Number Publication Date
CN110458162A CN110458162A (zh) 2019-11-15
CN110458162B true CN110458162B (zh) 2023-06-23

Family

ID=68483497

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910677628.8A Active CN110458162B (zh) 2019-07-25 2019-07-25 一种智能提取图像文字信息的方法

Country Status (1)

Country Link
CN (1) CN110458162B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111160193B (zh) * 2019-12-20 2024-02-09 中国平安财产保险股份有限公司 关键信息提取方法、装置及存储介质
CN111242060B (zh) * 2020-01-17 2024-03-19 上海兑观信息科技技术有限公司 一种文档图像关键信息提取方法及系统
CN113298697B (zh) * 2021-03-19 2024-04-26 广州天越电子科技有限公司 一种基于人工神经网络二维图形元素转矢量图形元素的方法

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107145503A (zh) * 2017-03-20 2017-09-08 中国农业大学 基于word2vec的远监督非分类关系提取方法及系统
CN107783960A (zh) * 2017-10-23 2018-03-09 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
CN108287858A (zh) * 2017-03-02 2018-07-17 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN109753965A (zh) * 2018-12-14 2019-05-14 深圳壹账通智能科技有限公司 一种基于深度学习的凭证识别方法和装置、计算机设备
CN110008956A (zh) * 2019-04-01 2019-07-12 深圳市华付信息技术有限公司 发票关键信息定位方法、装置、计算机设备及存储介质
CN111242060A (zh) * 2020-01-17 2020-06-05 上海兑观信息科技技术有限公司 一种文档图像关键信息提取方法及系统

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20170017635A1 (en) * 2015-07-17 2017-01-19 Fido Labs Inc. Natural language processing system and method
CN105574513B (zh) * 2015-12-22 2017-11-24 北京旷视科技有限公司 文字检测方法和装置
CN108549881A (zh) * 2018-05-02 2018-09-18 杭州创匠信息科技有限公司 证件文字的识别方法和装置
CN109583443B (zh) * 2018-11-15 2022-10-18 四川长虹电器股份有限公司 一种基于文字识别的视频内容判断方法
CN110019817A (zh) * 2018-12-04 2019-07-16 阿里巴巴集团控股有限公司 一种视频中文字信息的检测方法、装置及电子设备
CN109697440A (zh) * 2018-12-10 2019-04-30 浙江工业大学 一种身份证信息提取方法
CN109872784A (zh) * 2019-01-14 2019-06-11 平安科技(深圳)有限公司 智能病历生成方法、装置、计算机设备以及存储介质
CN109934227A (zh) * 2019-03-12 2019-06-25 上海兑观信息科技技术有限公司 图像文字识别系统和方法

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108287858A (zh) * 2017-03-02 2018-07-17 腾讯科技(深圳)有限公司 自然语言的语义提取方法及装置
CN107145503A (zh) * 2017-03-20 2017-09-08 中国农业大学 基于word2vec的远监督非分类关系提取方法及系统
CN107783960A (zh) * 2017-10-23 2018-03-09 百度在线网络技术(北京)有限公司 用于抽取信息的方法、装置和设备
CN109753965A (zh) * 2018-12-14 2019-05-14 深圳壹账通智能科技有限公司 一种基于深度学习的凭证识别方法和装置、计算机设备
CN110008956A (zh) * 2019-04-01 2019-07-12 深圳市华付信息技术有限公司 发票关键信息定位方法、装置、计算机设备及存储介质
CN111242060A (zh) * 2020-01-17 2020-06-05 上海兑观信息科技技术有限公司 一种文档图像关键信息提取方法及系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
《Strokelets: a learned multi-scale mid-level representation for scene text recognition》;Bai X et al.;《Trans Image Process》;全文 *
《基于深度学习的场景文字检测与识别》;白翔 等;《中国科学: 信息科学》;第48卷(第5期);全文 *

Also Published As

Publication number Publication date
CN110458162A (zh) 2019-11-15

Similar Documents

Publication Publication Date Title
CN109086756B (zh) 一种基于深度神经网络的文本检测分析方法、装置及设备
US10282643B2 (en) Method and apparatus for obtaining semantic label of digital image
CN111046784B (zh) 文档版面分析识别方法、装置、电子设备和存储介质
CN110458162B (zh) 一种智能提取图像文字信息的方法
Gonzalez et al. Text detection and recognition on traffic panels from street-level imagery using visual appearance
CN111488826A (zh) 一种文本识别方法、装置、电子设备和存储介质
Shirbhate et al. Sign language recognition using machine learning algorithm
CN111881768B (zh) 一种文档版面分析方法
CN114596566B (zh) 文本识别方法及相关装置
CN114419646B (zh) 图像分类方法、装置、电子设备及存储介质
CN113033660B (zh) 一种通用小语种检测方法、装置以及设备
CN113822116A (zh) 文本识别方法、装置、计算机设备和存储介质
CN112686263A (zh) 文字识别方法、装置、电子设备及存储介质
CN115205884A (zh) 票据信息提取方法及其装置、设备、介质、产品
CN115687643A (zh) 一种训练多模态信息抽取模型的方法及信息抽取方法
CN115810197A (zh) 一种多模态电力表单识别方法及装置
CN113610068B (zh) 基于试卷图像的试题拆解方法、系统、存储介质及设备
US11151370B2 (en) Text wrap detection
CN117437647B (zh) 基于深度学习和计算机视觉的甲骨文字检测方法
US20230110558A1 (en) Systems and methods for detecting objects
Murali et al. Remote sensing image captioning via multilevel attention-based visual question answering
Lin et al. A deep learning based bank card detection and recognition method in complex scenes
CN110929013A (zh) 一种基于bottom-up attention和定位信息融合的图片问答实现方法
CN116110066A (zh) 票据文本的信息提取方法、装置、设备及存储介质
CN116052189A (zh) 一种文本识别方法、系统和存储介质

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant