CN114612912A - 基于智能语料库的图像文字识别方法、系统及设备 - Google Patents

基于智能语料库的图像文字识别方法、系统及设备 Download PDF

Info

Publication number
CN114612912A
CN114612912A CN202210225509.0A CN202210225509A CN114612912A CN 114612912 A CN114612912 A CN 114612912A CN 202210225509 A CN202210225509 A CN 202210225509A CN 114612912 A CN114612912 A CN 114612912A
Authority
CN
China
Prior art keywords
image
corpus
recognition
recognized
character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202210225509.0A
Other languages
English (en)
Inventor
张婷
曲笑辰
王方
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Glabal Tone Communication Technology Co ltd
Original Assignee
Glabal Tone Communication Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Glabal Tone Communication Technology Co ltd filed Critical Glabal Tone Communication Technology Co ltd
Priority to CN202210225509.0A priority Critical patent/CN114612912A/zh
Publication of CN114612912A publication Critical patent/CN114612912A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Character Discrimination (AREA)

Abstract

本发明属于图像文字识别领域,具体涉及了一种基于智能语料库的图像文字识别方法、系统及设备,旨在解决现有技术忽略图像文字之外的源语言、场景、语义关联等信息,导致存在字迹模糊、遮挡等的待识别图像的文字识别准确性低的问题。本发明包括:进行多种源语言对照语料信息的语义提取及对齐,构建多源语言语料库;训练获取多种源语言对应的图像文字识别模型;进行存在文字模糊和文字遮挡的待识别图像的OCR文字识别;提取待识别图像的源语言种类,结合OCR文字识别结果,获取待识别图像的推荐识别结果和各识别结果的置信度;以高于设定阈值的推荐识别结果和对应的置信度为识别结果。本发明可结合场景进行多种源语言的图像文字识别,准确性高。

Description

基于智能语料库的图像文字识别方法、系统及设备
技术领域
本发明属于图像文字识别领域,具体涉及了一种基于智能语料库的图像文字识别方法、系统及设备。
背景技术
图像文字识别是利用光学技术对图像中的文字和字符进行扫描识别,最终将图像中的文字转换成文本格式,供文字处理软件进一步编辑加工的技术。它是计算机视觉研究领域的分支之一,归属于模式识别和人工智能,是计算机科学的重要组成部分。
目前图片识别应用非常广泛,例如各类印刷和手写文档图像文字识别,身份证、银行卡、营业执照、户口本、护照等常用卡片及证件照的文字识别,交通场景中车牌、车辆合格证等的文字识别,以及财务票据、医疗票据、教育场景中试卷、作业的文字识别等等。
然而,由于一些待识别图像存在字迹模糊、遮挡等原因,导致部分文字无法识别,给用户带来不好体验。而一些图像中的场景也未能得到利用,从而未能有效提升识别准确性和用户体验。此外,不同的源语言(指图片中的语言种类)也带来了文字识别的困难。
发明内容
为了解决现有技术中的上述问题,即现有技术忽略图像文字之外的源语言、场景、语义关联等信息,导致存在字迹模糊、遮挡等的待识别图像的文字识别准确性低的问题,本发明提供了一种基于智能语料库的图像文字识别方法,该图像文字识别方法包括:
步骤S10,获取多种源语言对照的语料信息,进行所述语料信息的语义提取及对齐,构建多源语言语料库;
步骤S20,构建图像文字识别模型,并基于所述多源语言语料库进行模型训练,获得多种源语言对应的图像文字识别模型;
步骤S30,进行存在文字模糊和文字遮挡的待识别图像的OCR文字识别,获得初步识别结果;
步骤S40,提取存在文字模糊和文字遮挡的待识别图像的源语言种类,并结合所述初步识别结果,通过当前待识别图像的源语言对应的图像文字识别模型,获取待识别图像的推荐识别结果和各识别结果的置信度;
步骤S50,输出置信度高于设定阈值的推荐识别结果和对应的置信度,作为待识别图像的识别结果。
在一些优选的实施例中,所述图像文字识别模型基于深度神经网络构建。
在一些优选的实施例中,所述多种源语言对照的语料信息,其获取方法为:
通过网络爬虫进行在线数据抓取,获得多种源语言对照的语料信息;
或者通过语料生成器生成数据,获得多种源语言对照的语料信息;
或者结合网络爬虫进行在线数据抓取和通过语料生成器生成数据,获得多种源语言对照的语料信息。
在一些优选的实施例中,所述通过语料生成器生成数据,其方法为:
输入多种源语言对应的语句并进行实体词语识别;
若所述输入语句多个实体词语,则获取预设的词槽组合列表,所述词槽组合列表中包含有多个词槽组合,每一词槽组合包括一个或一个以上的词槽;
基于所述词槽组合,针对多种源语言对应的所述输入语句所包含的多个实体词语,分别进行各源语言对应的匹配及替换;
对替换后的语句进行匹配和对齐,获得多种源语言对照的语料信息。
在一些优选的实施例中,所述图像文字识别方法还包括知识图谱模型的构建,其方法为:
提取所述多源语言语料库中的实体语料和语料关联关系;
基于所述实体语料和语料关联关系,构建多种源语言对应的知识图谱模型。
在一些优选的实施例中,步骤S40中提取存在文字模糊和文字遮挡的待识别图像的源语言种类之后,还包括:
通过当前待识别图像的源语言对应的知识图谱模型,获取待识别图像的推荐识别结果和各识别结果的置信度。
在一些优选的实施例中,步骤S20之前还包括:
获取所述多源语言语料库的语料场景;
构建基于场景的图像文字识别模型,并基于所述多源语言语料库结合对应的语料场景进行模型训练,获得多种源语言对应的基于场景的图像文字识别模型。
本发明的另一方面,提出了一种基于智能语料库的图像文字识别系统,该图像文字识别系统包括以下模块:
语料库构建模块,配置为获取多种源语言对照的语料信息,进行所述语料信息的语义提取及对齐,构建多源语言语料库;
模型构建及训练模块,配置为构建图像文字识别模型,并基于所述多源语言语料库进行模型训练,获得多种源语言对应的图像文字识别模型;
初步文字识别模块,配置为进行存在文字模糊和文字遮挡的待识别图像的OCR文字识别,获得初步识别结果;
模糊及遮挡文字识别模块,配置为提取存在文字模糊和文字遮挡的待识别图像的源语言种类,并结合所述初步识别结果,通过当前待识别图像的源语言对应的图像文字识别模型,获取待识别图像的推荐识别结果和各识别结果的置信度;
识别结果输出模块,配置为输出置信度高于设定阈值的推荐识别结果和对应的置信度,作为待识别图像的识别结果。
本发明的第三方面,提出了一种电子设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于智能语料库的图像文字识别方法。
本发明的第四方面,提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于智能语料库的图像文字识别方法。
本发明的有益效果:
(1)本发明基于智能语料库的图像文字识别方法,可以通过获取用户所在区域智能感知用户需要识别的目标语言,也可以根据用户终端或者其他应用信息确定用户需要进行识别的目标语言,并可以在不同语言之间快速切换,识别准确性高、精度高。
(2)本发明基于智能语料库的图像文字识别方法,可以首先对图像进行场景识别,然后结合场景识别结果和无遮挡文字的OCR文字识别结果,获取最终的图像文字识别结果,进一步提升了图像文字识别结果的准确性。
(3)本发明基于智能语料库的图像文字识别方法,不但可以单独对图像进行识别,还可以对上传的批量图像进行批处理,同步输出批处理的多个图像的文字识别结果,并可以在不同的图像识别结果中快速切换。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1是本发明基于智能语料库的图像文字识别方法的流程示意图;
图2是本发明一种实施例的基于智能语料库的遮挡图像文字识别示意图;
图3是本发明一种实施例的基于知识图谱模型的遮挡图像文字识别示意图;
图4是本发明一种实施例的基于场景的图像文字识别模型的遮挡图像文字识别示意图;
图5是本发明一种实施例的基于地理位置的图像文字识别示意图。
具体实施方式
下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释相关发明,而非对该发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关发明相关的部分。
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合各个实施例来详细说明本申请。
本发明第一实施例的基于智能语料库的图像文字识别方法,包括步骤S10-步骤S40,结合附图1,各步骤详细描述如下:
步骤S10,获取多种源语言对照的语料信息,进行所述语料信息的语义提取及对齐,构建多源语言语料库。
语料库包含多种类别语料,例如歌曲、影视、科技等信息。为了可以针对不同源语言的图像文字进行识别,语料库中的语料为多源语言语料,例如若源语言种类包括中文、英文,则语料“冬天”的多源语言格式为“<冬天><winter>”。
多种源语言对照的语料信息,其获取方法为:
通过网络爬虫进行在线数据抓取,获得多种源语言对照的语料信息;
或者通过语料生成器生成数据,获得多种源语言对照的语料信息;
或者结合网络爬虫进行在线数据抓取和通过语料生成器生成数据,获得多种源语言对照的语料信息。
通过语料生成器生成数据,其方法为:
输入多种源语言对应的语句并进行实体词语识别;
若所述输入语句多个实体词语,则获取预设的词槽组合列表,所述词槽组合列表中包含有多个词槽组合,每一词槽组合包括一个或一个以上的词槽;
基于所述词槽组合,针对多种源语言对应的所述输入语句所包含的多个实体词语,分别进行各源语言对应的匹配及替换;
对替换后的语句进行匹配和对齐,获得多种源语言对照的语料信息。
由于不同源语言的语句结构的特征不同,需要对多种源语言对照的语料信息进行语义提取及对齐,例如将“<我们一起去河岸散步><We went for a walk along the riverbank together>”提取语义并对齐后获得“<我们><we>”,“<一起><together>”,“<河岸><river bank>”和“<散步><went for a walk>”。
步骤S20,基于深度神经网络构建图像文字识别模型,并基于所述多源语言语料库进行模型训练,获得多种源语言对应的图像文字识别模型。
目前现有技术中训练模型采用的数据集普遍是“图片-图片中文字”这种单一映射样式,即通过CNN等神经网络提取图像特征,再将输出结果与真值(即图片中文字、坐标位置)进行训练,通过提升准确率、召回率、等提升模型识别效果,但是这种模型缺乏对图片语义理解,即神经网络在训练过程中受到传统数据集大小影响,缺少智能理解图片之后再输出识别结果的能力。
步骤S30,进行存在文字模糊和文字遮挡的待识别图像的OCR文字识别,获得初步识别结果。
文字模糊指人眼不能明显判断该文字或者识别清楚该文字,或者系统判断该文字准确率值低于30%,比如一个“好”字,该字迹可能模糊,系统判断该文字25%概率为“子”,25%概率为“女”,25%概率为“仔”,25%概率为“女子”。而文字遮挡,指文字完全模糊,人眼无法识别或者系统识别该文字的准确率低于5%。
步骤S40,提取存在文字模糊和文字遮挡的待识别图像的源语言种类,并结合所述初步识别结果,通过当前待识别图像的源语言对应的图像文字识别模型,获取待识别图像的推荐识别结果和各识别结果的置信度。
本发明方法可以提供特殊事件对应的识别语言功能,例如如果方法配置在是手机或者pad端,可以设置在图片框手指在图片中左滑对应识别语言为中文,右滑对应识别语言为英文,这些设置可以在图片翻译装置或者系统的设置功能里面提供。这样当用户常用某种语言时,便可以通过在原图片往不同方向滑动达到快速切换识别语言目的;如果是电脑端,可以设置鼠标在原图片位置快速连续点击2次对应识别语言为俄语,连续点击3次对应识别语言为西班牙语,这样通过鼠标的快速点击,便能够迅速切换识别语言,达到智能识别用户识别语言的目的。还可以通过语音识别功能进行模板语言的切换,例如语音为“英文”,识别语音后便切换为英文,最后将原图片以英文方式识别。
上述语言识别和切换方法仅是实现本发明多源语言切换的一种优选的实施例,在实际应用中还可以设置其他切换方式,本发明在此不一一详述。
步骤S50,输出置信度高于设定阈值的推荐识别结果和对应的置信度,作为待识别图像的识别结果。
如图2所示,为本发明一种实施例的基于智能语料库的遮挡图像文字识别示意图,未遮挡部分的OCR文字识别结果为“大约在季”,将该结果输入中文的图像文字识别模型,对于图2中(a)的遮挡情况,模型输出结果“大约在冬季”、置信度(即概率)80%,“大约在夏季”、置信度20%;对于图2中(b)的遮挡情况,模型输出结果“大约在夏季”、置信度(即概率)80%,“大约在复季”、置信度20%。
本发明第二实施例的基于知识图谱模型的图像文字识别方法,在第一实施例的多源语言语料库基础上进行知识图谱模型的构建:
提取所述多源语言语料库中的实体语料和语料关联关系;
基于所述实体语料和语料关联关系,构建多种源语言对应的知识图谱模型。
例如歌曲类信息“周杰伦---》给我一首歌的时间”,“刘德华---》恭喜发财”。
进行存在文字模糊和文字遮挡的待识别图像的OCR文字识别,获得初步识别结果,提取存在文字模糊和文字遮挡的待识别图像的源语言种类,并结合所述初步识别结果,通过当前待识别图像的源语言对应的知识图谱模型,获取待识别图像的推荐识别结果和各识别结果的置信度,输出置信度高于设定阈值的推荐识别结果和对应的置信度,作为待识别图像的识别结果。
如图3所示,为本发明一种实施例的基于知识图谱模型的遮挡图像文字识别示意图,未遮挡部分的OCR文字识别结果为“周杰给我一首歌的时间”,将该结果输入中文的知识图谱模型,模型输出结果“周杰伦给我一首歌的时间”、置信度(即概率)80%,“周杰给我一首歌的时间”、置信度20%。
本发明第三实施例的基于场景的图像文字识别模型的图像文字识别方法,在第一实施例的多源语言语料库基础上:
构建基于场景的图像文字识别模型,并基于所述多源语言语料库结合对应的语料场景进行模型训练,获得多种源语言对应的基于场景的图像文字识别模型。
例如银行场景中,如果有文字“ban”,那么“ban”以及场景信息输入场景识别模型,便输出“bank”。
进行存在文字模糊和文字遮挡的待识别图像的OCR文字识别,获得初步识别结果,提取存在文字模糊和文字遮挡的待识别图像的源语言种类,并结合所述初步识别结果,通过当前待识别图像的源语言对应的基于场景的图像文字识别模型,获取待识别图像的推荐识别结果和各识别结果的置信度,输出置信度高于设定阈值的推荐识别结果和对应的置信度,作为待识别图像的识别结果。
如图4所示,为本发明一种实施例的基于场景的图像文字识别模型的遮挡图像文字识别示意图,未遮挡部分的OCR文字识别结果为“ban”,根据图片场景识别模型,确定图片处在河流或者湖泊的场景中,将该场景和“ban”输入英文的基于场景的图像文字识别模型,模型输出结果“bank河岸”、置信度(即概率)80%,“ban河岸”、置信度20%。
本发明第四实施例的多种源语言的图像文字识别方法,其源语言不仅仅包括中文、英文等,还包括中文/英文的分支语种等等,例如中文的分支语种西藏语。
如图5所示,为本发明一种实施例的基于地理位置的图像文字识别示意图,首先识别用户地理位置信息为西藏地区,则对原图片以藏语为源语言进行识别,这样达到智能选择语言识别的目的,输出识别结果“周杰伦给我一首歌的时间”。
上述的几个方法实施例中虽然将各个步骤按照上述先后次序的方式进行了描述,但是本领域技术人员可以理解,为了实现本实施例的效果,不同的步骤之间不必按照这样的次序执行,其可以同时(并行)执行或以颠倒的次序执行,这些简单的变化都在本发明的保护范围之内。
此外,本发明方法不仅可以实现单张图像的文字识别,还可以上传多张图像,进行图像批识别,显示多张图像的文字识别结果。
本发明第二实施例的基于智能语料库的图像文字识别系统,该图像文字识别系统包括以下模块:
语料库构建模块,配置为获取多种源语言对照的语料信息,进行所述语料信息的语义提取及对齐,构建多源语言语料库;
模型构建及训练模块,配置为构建图像文字识别模型,并基于所述多源语言语料库进行模型训练,获得多种源语言对应的图像文字识别模型;
初步文字识别模块,配置为进行存在文字模糊和文字遮挡的待识别图像的OCR文字识别,获得初步识别结果;
模糊及遮挡文字识别模块,配置为提取存在文字模糊和文字遮挡的待识别图像的源语言种类,并结合所述初步识别结果,通过当前待识别图像的源语言对应的图像文字识别模型,获取待识别图像的推荐识别结果和各识别结果的置信度;
识别结果输出模块,配置为输出置信度高于设定阈值的推荐识别结果和对应的置信度,作为待识别图像的识别结果。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
需要说明的是,上述实施例提供的基于智能语料库的图像文字识别系统,仅以上述各功能模块的划分进行举例说明,在实际应用中,可以根据需要而将上述功能分配由不同的功能模块来完成,即将本发明实施例中的模块或者步骤再分解或者组合,例如,上述实施例的模块可以合并为一个模块,也可以进一步拆分成多个子模块,以完成以上描述的全部或者部分功能。对于本发明实施例中涉及的模块、步骤的名称,仅仅是为了区分各个模块或者步骤,不视为对本发明的不当限定。
本发明第三实施例的一种电子设备,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现上述的基于智能语料库的图像文字识别方法。
本发明第四实施例的一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现上述的基于智能语料库的图像文字识别方法。
所属技术领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的存储装置、处理装置的具体工作过程及有关说明,可以参考前述方法实施例中的对应过程,在此不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,软件模块、方法步骤对应的程序可以置于随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质中。为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
术语“第一”、“第二”等是用于区别类似的对象,而不是用于描述或表示特定的顺序或先后次序。
术语“包括”或者任何其它类似用语旨在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备/装置不仅包括那些要素,而且还包括没有明确列出的其它要素,或者还包括这些过程、方法、物品或者设备/装置所固有的要素。
至此,已经结合附图所示的优选实施方式描述了本发明的技术方案,但是,本领域技术人员容易理解的是,本发明的保护范围显然不局限于这些具体实施方式。在不偏离本发明的原理的前提下,本领域技术人员可以对相关技术特征做出等同的更改或替换,这些更改或替换之后的技术方案都将落入本发明的保护范围之内。

Claims (10)

1.一种基于智能语料库的图像文字识别方法,其特征在于,该图像文字识别方法包括:
步骤S10,获取多种源语言对照的语料信息,进行所述语料信息的语义提取及对齐,构建多源语言语料库;
步骤S20,构建图像文字识别模型,并基于所述多源语言语料库进行模型训练,获得多种源语言对应的图像文字识别模型;
步骤S30,进行存在文字模糊和文字遮挡的待识别图像的OCR文字识别,获得初步识别结果;
步骤S40,提取存在文字模糊和文字遮挡的待识别图像的源语言种类,并结合所述初步识别结果,通过当前待识别图像的源语言对应的图像文字识别模型,获取待识别图像的推荐识别结果和各识别结果的置信度;
步骤S50,输出置信度高于设定阈值的推荐识别结果和对应的置信度,作为待识别图像的识别结果。
2.根据权利要求1所述的基于智能语料库的图像文字识别方法,其特征在于,所述图像文字识别模型基于深度神经网络构建。
3.根据权利要求1所述的基于智能语料库的图像文字识别方法,其特征在于,所述多种源语言对照的语料信息,其获取方法为:
通过网络爬虫进行在线数据抓取,获得多种源语言对照的语料信息;
或者通过语料生成器生成数据,获得多种源语言对照的语料信息;
或者结合网络爬虫进行在线数据抓取和通过语料生成器生成数据,获得多种源语言对照的语料信息。
4.根据权利要求3所述的基于智能语料库的图像文字识别方法,其特征在于,所述通过语料生成器生成数据,其方法为:
输入多种源语言对应的语句并进行实体词语识别;
若所述输入语句多个实体词语,则获取预设的词槽组合列表,所述词槽组合列表中包含有多个词槽组合,每一词槽组合包括一个或一个以上的词槽;
基于所述词槽组合,针对多种源语言对应的所述输入语句所包含的多个实体词语,分别进行各源语言对应的匹配及替换;
对替换后的语句进行匹配和对齐,获得多种源语言对照的语料信息。
5.根据权利要求1所述的基于智能语料库的图像文字识别方法,其特征在于,所述图像文字识别方法还包括知识图谱模型的构建,其方法为:
提取所述多源语言语料库中的实体语料和语料关联关系;
基于所述实体语料和语料关联关系,构建多种源语言对应的知识图谱模型。
6.根据权利要求5所述的基于智能语料库的图像文字识别方法,其特征在于,步骤S40中提取存在文字模糊和文字遮挡的待识别图像的源语言种类之后,还包括:
通过当前待识别图像的源语言对应的知识图谱模型,获取待识别图像的推荐识别结果和各识别结果的置信度。
7.根据权利要求1所述的基于智能语料库的图像文字识别方法,其特征在于,步骤S20之前还包括:
获取所述多源语言语料库的语料场景;
构建基于场景的图像文字识别模型,并基于所述多源语言语料库结合对应的语料场景进行模型训练,获得多种源语言对应的基于场景的图像文字识别模型。
8.一种基于智能语料库的图像文字识别系统,其特征在于,该图像文字识别系统包括以下模块:
语料库构建模块,配置为获取多种源语言对照的语料信息,进行所述语料信息的语义提取及对齐,构建多源语言语料库;
模型构建及训练模块,配置为构建图像文字识别模型,并基于所述多源语言语料库进行模型训练,获得多种源语言对应的图像文字识别模型;
初步文字识别模块,配置为进行存在文字模糊和文字遮挡的待识别图像的OCR文字识别,获得初步识别结果;
模糊及遮挡文字识别模块,配置为提取存在文字模糊和文字遮挡的待识别图像的源语言种类,并结合所述初步识别结果,通过当前待识别图像的源语言对应的图像文字识别模型,获取待识别图像的推荐识别结果和各识别结果的置信度;
识别结果输出模块,配置为输出置信度高于设定阈值的推荐识别结果和对应的置信度,作为待识别图像的识别结果。
9.一种电子设备,其特征在于,包括:
至少一个处理器;以及
与至少一个所述处理器通信连接的存储器;其中,
所述存储器存储有可被所述处理器执行的指令,所述指令用于被所述处理器执行以实现权利要求1-7任一项所述的基于智能语料库的图像文字识别方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于被所述计算机执行以实现权利要求1-7任一项所述的基于智能语料库的图像文字识别方法。
CN202210225509.0A 2022-03-09 2022-03-09 基于智能语料库的图像文字识别方法、系统及设备 Pending CN114612912A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202210225509.0A CN114612912A (zh) 2022-03-09 2022-03-09 基于智能语料库的图像文字识别方法、系统及设备

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202210225509.0A CN114612912A (zh) 2022-03-09 2022-03-09 基于智能语料库的图像文字识别方法、系统及设备

Publications (1)

Publication Number Publication Date
CN114612912A true CN114612912A (zh) 2022-06-10

Family

ID=81860538

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202210225509.0A Pending CN114612912A (zh) 2022-03-09 2022-03-09 基于智能语料库的图像文字识别方法、系统及设备

Country Status (1)

Country Link
CN (1) CN114612912A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118349700A (zh) * 2024-06-17 2024-07-16 阿里巴巴(中国)有限公司 信息抽取方法及装置

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100067793A1 (en) * 2008-09-18 2010-03-18 Xerox Corporation Handwritten word spotter using synthesized typed queries
CN111178077A (zh) * 2019-12-26 2020-05-19 深圳市优必选科技股份有限公司 一种语料生成方法、语料生成装置及智能设备
CN111259897A (zh) * 2018-12-03 2020-06-09 杭州翼心信息科技有限公司 知识感知的文本识别方法和系统
CN111475651A (zh) * 2020-04-08 2020-07-31 掌阅科技股份有限公司 文本分类方法、计算设备及计算机存储介质
CN111626287A (zh) * 2019-02-27 2020-09-04 北京奇虎科技有限公司 一种识别场景内中文的识别网络的训练方法和装置
CN111783710A (zh) * 2020-07-09 2020-10-16 上海海事大学 医药影印件的信息提取方法和系统
CN112541501A (zh) * 2020-12-18 2021-03-23 北京中科研究院 一种基于视觉语言建模网络的场景文字识别方法
CN112989828A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 命名实体识别模型的训练方法、装置、介质及电子设备
CN113361523A (zh) * 2021-06-23 2021-09-07 北京百度网讯科技有限公司 文本确定方法、装置、电子设备和计算机可读存储介质
CN113378833A (zh) * 2021-06-25 2021-09-10 北京百度网讯科技有限公司 图像识别模型训练方法、图像识别方法、装置及电子设备
CN113408535A (zh) * 2021-05-25 2021-09-17 浙江大学 一种基于中文字符级特征和语言模型的ocr纠错方法

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20100067793A1 (en) * 2008-09-18 2010-03-18 Xerox Corporation Handwritten word spotter using synthesized typed queries
CN111259897A (zh) * 2018-12-03 2020-06-09 杭州翼心信息科技有限公司 知识感知的文本识别方法和系统
CN111626287A (zh) * 2019-02-27 2020-09-04 北京奇虎科技有限公司 一种识别场景内中文的识别网络的训练方法和装置
CN112989828A (zh) * 2019-12-17 2021-06-18 医渡云(北京)技术有限公司 命名实体识别模型的训练方法、装置、介质及电子设备
CN111178077A (zh) * 2019-12-26 2020-05-19 深圳市优必选科技股份有限公司 一种语料生成方法、语料生成装置及智能设备
CN111475651A (zh) * 2020-04-08 2020-07-31 掌阅科技股份有限公司 文本分类方法、计算设备及计算机存储介质
CN111783710A (zh) * 2020-07-09 2020-10-16 上海海事大学 医药影印件的信息提取方法和系统
CN112541501A (zh) * 2020-12-18 2021-03-23 北京中科研究院 一种基于视觉语言建模网络的场景文字识别方法
CN113408535A (zh) * 2021-05-25 2021-09-17 浙江大学 一种基于中文字符级特征和语言模型的ocr纠错方法
CN113361523A (zh) * 2021-06-23 2021-09-07 北京百度网讯科技有限公司 文本确定方法、装置、电子设备和计算机可读存储介质
CN113378833A (zh) * 2021-06-25 2021-09-10 北京百度网讯科技有限公司 图像识别模型训练方法、图像识别方法、装置及电子设备

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
RONALDO MESSINA等: "Segmentation-free handwritten Chinese text recognition with LSTM-RNN", 《》2015 13TH INTERNATIONAL CONFERENCE ON DOCUMENT ANALYSIS AND RECOGNITION(ICDAR)》, pages 171 - 175 *
郭倩倩: "基于langid模型的多语言微博识别研究", 《现代计算机》, pages 23 - 27 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN118349700A (zh) * 2024-06-17 2024-07-16 阿里巴巴(中国)有限公司 信息抽取方法及装置

Similar Documents

Publication Publication Date Title
Burie et al. ICDAR2015 competition on smartphone document capture and OCR (SmartDoc)
Yim et al. Synthtiger: Synthetic text image generator towards better text recognition models
CN110750959A (zh) 文本信息处理的方法、模型训练的方法以及相关装置
CN110490182A (zh) 一种点读数据的制作方法、系统、存储介质及电子设备
AbdelRaouf et al. Building a multi-modal Arabic corpus (MMAC)
CN107679070B (zh) 一种智能阅读推荐方法与装置、电子设备
CN109344830A (zh) 语句输出、模型训练方法、装置、计算机设备及存储介质
CN112966685B (zh) 用于场景文本识别的攻击网络训练方法、装置及相关设备
CN110427614A (zh) 段落层级的构建方法、装置、电子设备及存储介质
CN108280389A (zh) 医疗票据icr识别系统及其医疗票据识别方法
Jindal Generating image captions in Arabic using root-word based recurrent neural networks and deep neural networks
CN111680684A (zh) 一种基于深度学习的书脊文本识别方法、设备及存储介质
WO2024193434A1 (zh) 音频处理方法、装置、设备和存储介质
CN117093739A (zh) 图像生成以及图文对齐方法、装置、终端设备及存储介质
CN114612912A (zh) 基于智能语料库的图像文字识别方法、系统及设备
Kapitanov et al. Slovo: Russian Sign Language Dataset
CN111079489B (zh) 一种内容识别方法及电子设备
CN111881900A (zh) 语料生成、翻译模型训练、翻译方法、装置、设备及介质
Shu et al. Visual Text Meets Low-level Vision: A Comprehensive Survey on Visual Text Processing
CN114399782B (zh) 文本图像处理方法、装置、设备、存储介质及程序产品
CN115455143A (zh) 一种文献处理方法及装置
CN111767710B (zh) 印尼语的情感分类方法、装置、设备及介质
CN114821222A (zh) 试卷图像生成方法、装置、存储介质及电子设备
US11010978B2 (en) Method and system for generating augmented reality interactive content
CN111931510B (zh) 一种基于神经网络的意图识别方法及装置、终端设备

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
RJ01 Rejection of invention patent application after publication
RJ01 Rejection of invention patent application after publication

Application publication date: 20220610