CN110555431B - 一种图像识别的方法和装置 - Google Patents

一种图像识别的方法和装置 Download PDF

Info

Publication number
CN110555431B
CN110555431B CN201910854215.2A CN201910854215A CN110555431B CN 110555431 B CN110555431 B CN 110555431B CN 201910854215 A CN201910854215 A CN 201910854215A CN 110555431 B CN110555431 B CN 110555431B
Authority
CN
China
Prior art keywords
symbol
sub
recognition model
probability
symbol set
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Fee Related
Application number
CN201910854215.2A
Other languages
English (en)
Other versions
CN110555431A (zh
Inventor
沈惠芬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Hangzhou Chengying Data Technology Co ltd
Original Assignee
Hangzhou Chengying Data Technology Co ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Hangzhou Chengying Data Technology Co ltd filed Critical Hangzhou Chengying Data Technology Co ltd
Priority to CN201910854215.2A priority Critical patent/CN110555431B/zh
Publication of CN110555431A publication Critical patent/CN110555431A/zh
Application granted granted Critical
Publication of CN110555431B publication Critical patent/CN110555431B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/142Image acquisition using hand-held instruments; Constructional details of the instruments
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Character Discrimination (AREA)

Abstract

本申请提供一种图像识别的方法和装置,所述方法包括:根据输入的图像,生成所述图像对应的符号集,划分所述符号集获取子符号集,所述子符号集包括至少一个符号块;识别每个所述子符号集的类别,根据所述子符号集的类别调用识别模型;根据所述识别模型输出的子符号集对应的符号,确定所述子符号集对应的目标符号;根据每个子符号集对应的目标符号,生成所述符号集对应的符号文本。通过对子符号集的类别进行判断,调用子符号集中符号块对应的识别模型,有针对性地增强子符号集中符号块的检测效果,提高子符号集中符号块识别的准确性,给用户编辑图像对应的符号文本带来了极大的便利。

Description

一种图像识别的方法和装置
技术领域
本申请涉及图像处理技术领域,特别涉及一种图像识别的方法和装置、计算设备及计算机可读存储介质。
背景技术
随着移动终端的快速发展与普及,基于多媒体信息处理的需求越来越大,例如图像OCR(Optical Character Recognition,光学字符识别)识别,首先对图像中的字符块进行提取,之后采用OCR识别将字符块转换为对应的文本。
现有技术中,图像识别模型的训练方法是根据所有要识别的字符内容对模型进行训练,会导致对部分类别的字符识别效果较差,上述识别模型对图像进行识别,识别出来的文本的错误率较高,给用户编辑图像对应的文本带来了麻烦。
发明内容
有鉴于此,本申请实施例提供了一种图像识别的方法和装置、计算设备及计算机可读存储介质,以解决现有技术中存在的技术缺陷。
本申请实施例公开了一种图像识别的方法,包括:根据输入的图像,生成所述图像对应的符号集,划分所述符号集获取子符号集,所述子符号集包括至少一个符号块;
识别每个所述子符号集的类别,根据所述子符号集的类别调用识别模型;
根据所述识别模型输出的子符号集对应的符号,确定所述子符号集对应的目标符号;
根据每个子符号集对应的目标符号,生成所述符号集对应的符号文本。
本申请实施例还公开了一种图像识别的装置,包括:
处理模块,被配置为根据输入的图像,生成所述图像对应的符号集,划分所述符号集获取子符号集,所述子符号集包括至少一个符号块;
调用模块,被配置为识别每个所述子符号集的类别,根据所述子符号集的类别调用识别模型;
确定模块,被配置为根据所述识别模型输出的子符号集对应的符号,确定所述子符号集对应的目标符号;
生成模块,被配置为根据每个子符号集对应的目标符号,生成所述符号集对应的符号文本。
本申请实施例公开了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如上所述的图像识别的方法的步骤。
本申请实施例公开了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如上所述的图像识别的方法的步骤。
本申请提供的一种图像识别的方法和装置,通过对子符号集的类别进行判断,即确定子符号集中符号块所属的类别,自适应选择子符号集中符号块对应的识别模型,有针对性地增强子符号集中符号块的检测效果,即便是出现不存在上下文关系的子符号集中符号块的情况时,对子符号集中符号块进行识别分类后调用对应的识别模型,能够大幅提高子符号集中符号块识别的准确性,进而提高对图像识别获取可编辑的符号文本的准确性,给用户编辑图像对应的符号文本带来了极大的便利。
附图说明
图1是本申请实施例的计算设备的结构示意图;
图2是本申请一实施例的图像识别方法的流程示意图;
图3是本申请图像识别的方法中获取子符号集的流程示意图;
图4是本申请图像识别的方法中确定单个符号块对应的目标符号的流程示意图;
图5是本申请图像识别的方法中确定单个符号块对应的目标符号的流程示意图;
图6是本申请图像识别方法中确定单个符号块对应的目标符号的流程示意图;
图7示出了本申请图像识别方法中确定子符号集中单个符号块对应的目标符号的流程示意图;
图8是本申请一实施例中图像识别的方法的流程示意图;
图9是本申请中获取的图像的示意图;
图10是本申请一实施例的图像识别的装置结构示意图。
具体实施方式
在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。
在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
应当理解,尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。
在本申请中,提供了一种图像识别的方法和装置、计算设备及计算机可读存储介质,在下面的实施例中逐一进行详细说明。
图1是示出了根据本说明书一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。
计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(PSTN)、局域网(LAN)、广域网(WAN)、个域网(PAN)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(NIC))中的一个或多个,诸如IEEE802.11无线局域网(WLAN)无线接口、全球微波互联接入(Wi-MAX)接口、以太网接口、通用串行总线(USB)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC)接口,等等。
在本说明书的一个实施例中,计算设备100的上述以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本说明书范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。
计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或PC的静止计算设备。计算设备100还可以是移动式或静止式的服务器。
其中,处理器120可以执行图2所示方法中的步骤。图2示出了根据本申请一实施例的图像识别的方法的示意性流程图,包括步骤202至步骤208。
步骤202:根据输入的图像,生成所述图像对应的符号集,划分所述符号集获取子符号集,所述子符号集包括至少一个符号块。
所述步骤202包括步骤2021至步骤2024。
步骤2021:获取图像,所述图像为n张。
步骤2022:判断第i张图像中是否有符号,1≤i≤n,若是,执行步骤2024,若否,执行步骤2023。
步骤2023:将i自增1,判断i是否大于n,若是,结束,若否,执行步骤2022。
步骤2024:生成所述图像对应的符号集。
将获取的大量图像进行预处理,在大量图像中筛选出存在符号的图像,通过上述对图像的初步筛选步骤,对存在符号的图像来生成对应的符号集,提高图像的处理效率。
图3示出了图像识别的方法中获取子符号集的流程示意图,包括步骤302至步骤306。
步骤302:分析所述图像中符号所处的区域;
步骤304:根据所述符号所处的区域,切分所述图像获取符号块,得到所述图像对应的符号集。
即根据所述图像中符号所在的位置,切分出来的符号块是包括一个符号的图像块,所述符号集为图像中切分出来所有符号块的集合。
步骤306:将所述符号集中连续的符号块划分为子符号集。
以图像中示出的是长篇文本为例说明,切分后所有符号块的集合为符号集,图像中长篇文本的一行切分出来的符号块可以作为一个子符号集,图像的一行中切分出来的符号块即是连续的符号块。因此,在下述步骤将子符号集中连续的符号块输入识别模型中,识别模型根据连续的符号块对应的连续的符号,能够联系每个符号对应的上下文的语义信息,识别模型输出每个符号块对应的目标符号,通过将所述符号集中连续的符号块划分为子符号集输入至识别模型,提高识别模型确定符号块对应目标符号的准确率。
步骤204:识别每个所述子符号集的类别,根据所述子符号集的类别调用识别模型。
可选地,根据OCR模型识别每个所述子符号集的类别为第一类,根据所述子符号集的类别调用第一识别模型,其中,所述第一类包括中文简体类、中文繁体类、音符类中的至少一类,所述第一识别模型包括中文简体识别模型、中文繁体识别模型和音符识别模型中的至少一种。
上述中文简体识别模型、中文繁体识别模型和音符识别模型是已经分别训练好的模型,根据OCR模型识别每个所述子符号集的类别,来调用对应的识别模型。
比如,根据OCR模型识别所述子符号集的类别为中文简体类,则根据所述子符号集的类别调用第一识别模型为中文简体识别模型;识别所述子符号集的类别为中文繁体类则调用的第一识别模型为中文繁体类识别模型;识别所述子符号集的类别为音符类则调用的第一识别模型为音符识别模型。
所述第一类还可以为藏语类、法语类、德文类和日语类,则第一识别模型可以为第一类中对应的训练好的藏语识别模型、法语识别模型、德文识别模型和日语识别模型。
若根据OCR模型识别所述子符号集的类别为中文简体类和音符类,则调用的第一模型为中文简体识别模型和音符识别模型,即所述子符号集中有字符块识别后属于中文简体类,也有字符块识别后属于音符类,调用第一识别模型中的中文简体识别模型和音符识别模型分别进行中文简体类的符号块及音符类的符号块进行处理。
通过对子符号集的类别进行判断,即确定子符号集中符号块所属的类别,自适应选择子符号集中符号块对应的识别模型,有针对性地增强诸如属于德文类的子符号集中符号块的检测效果,即便是出现不存在上下文关系的子符号集中符号块的情况时,对子符号集中符号块进行识别分类,在下述步骤中能够大幅提高子符号集中符号块识别的准确性,进而提高对图像识别获取可编辑的符号文本的准确性。
当出现图像中存在其它符号类别,只需要训练该符号类别对应的识别模型即可,具有较好的扩展性。
步骤206:根据所述识别模型输出的子符号集对应的符号,确定所述子符号集对应的目标符号。
可选地,比如上述步骤中识别每个所述子符号集的类别为中文简体类调用的第一识别模型为中文简体识别模型,则直接根据调用的中文简体识别模型输出的中文简体字符作为子符号集中简体中文字符块对应的目标符号。
当上述子符号集中的字符块都是简体中文字符块,则根据调用的中文简体识别模型输出的就是子符号集对应的目标符号,所述目标符号为至少一个。
需要说明的是,当上述子符号集中的字符块第一部分属于简体中文字符块,即子符号集还是属于简体中文类;但是,子符号集中第二部分的符号块是低于类阈值的符号块,就不属于上述子符号集的类别,低于类阈值的符号块对应的符号是标点符号、数字和字母中的一种,下面为判断低于类阈值的符号块的具体步骤。
图4示出了图像识别方法中确定单个符号块对应的目标符号的流程示意图,具体包括步骤402至步骤408。
步骤402:根据子符号集中的符号块,获取所述子符号集中低于类阈值的单个符号块。
步骤404:根据所述单个符号块调用第二识别模型。
可以理解为,上述单个符号块相邻的符号块为高于类阈值的符号块,即所述单个符号块相邻的两个符号块对应的符号均为简体中文,因此,所述单个符号块对应的是标点符号的概率很大,因而直接根据所述单个符号块调用第二识别模型,所述第二识别模型为训练好的标点符号识别模型。
步骤406:所述第二识别模型输出的所述单个符号块对应的标点符号的概率。
步骤408:所述单个符号块对应的标点符号的概率超过标点阈值,将所述子符号集中单个符号块对应的标点符号作为目标符号。
根据训练好的标点符号识别模型输出所述单个符号块对应的标点符号,省去了再去调用其它识别模型来对所述单个符号块进行识别的步骤,提高了所述单个符号块识别的效率,进而加快了图像中文本识别的速度。
所述单个符号块对应的标点符号的概率小于预设标点阈值的情况,可以采用下述两种方法对所述单个符号块对应的目标符号进行判断。
图5示出了确定单个符号块对应的目标符号的流程示意图,包括步骤502至步骤512。
步骤502:所述单个符号块对应的标点符号的概率小于预设标点阈值,调用第三识别模型,获取所述第三识别模型输出的所述单个符号块对应的数字符号的概率。
其中,所述第三识别模型为训练好的数字符号识别模型,将小于预设标点阈值的所述单个符号块输入数字符号识别模型。
步骤504:判断所述数字符号的概率超过第一阈值还是位于第二阈值与第一阈值之间。
所述第一阈值大于第二阈值,根据实际的处理情况,来设置第一阈值和第二阈值,若所述数字符号的概率超过第一阈值,执行步骤506,若所述数字符号的概率位于第二阈值与第一阈值之间,执行步骤508。
步骤506:将所述单个符号块对应的数字符号作为目标符号。
若所述数字符号的概率超过第一阈值,直接确定所述单个符号块对应的数字符号作为目标符号,无需继续调用第四识别模型,加快所述单个的确定速度,提高图像中文本识别的效率。
步骤508:调用第四识别模型,获取所述第四识别模型输出的所述单个符号块对应的字母符号的概率。
由于所述数字符号的概率位于第二阈值与第一阈值之间,无法确定所述单个符号块对应的数字符号能否作为目标符号,因此,需要继续执行下述步骤。
步骤510:判断所述第四识别模型输出的所述单个符号块对应的字母符号的概率是否超过第一阈值,若是,执行步骤512,若否,执行步骤506。
步骤512:将所述子符号集中单个符号块对应的字母符号作为目标符号。
所述第四识别模型为训练好的字母识别模型,若所述第四识别模型输出的所述单个符号块对应的字母符号的概率超过第一阈值,则确定所述子符号集中单个符号块对应的字母符号为目标符号。
即所述第四识别模型输出的所述单个符号块对应的数字符号的概率低于第一阈值,则直接确定所述单个符号块对应的数字符号为目标符号。
在大量子符号集处理的情况下,通过上述步骤对所述单个符号块的判断,确保所述单个符号块能够准确地确定单个符号块对应的目标符号的同时,提高所述单个符号块的判断速度,进而加快图像中文本处理的速度,快速地从图像中获得可编辑的文本。
图6示出了图像识别方法中确定单个符号块对应的目标符号的流程示意图,具体包括步骤602至步骤606。
步骤602:所述单个符号块对应的标点符号的概率小于预设标点阈值,调用第三识别模型和第四识别模型。
步骤604:获取所述第三识别模型输出的所述单个符号块对应的数字符号的第一概率以及所述第四识别模型输出的所述符号块对应的字母符号的第二概率;
步骤606:比较所述数字符号的第一概率和所述字母符号的第二概率,将概率高的符号作为子符号集中单个符号块对应的目标符号。
参见图7所示,所述步骤606包括步骤702至步骤706。
步骤702:识别所述子符号集中多个连续的符号块,获取低于类阈值的连续的符号块,调用第三识别模型和第四识别模型。
步骤704:获取所述第三识别模型输出的所述符号块对应的数字符号的概率以及所述第四识别模型输出的所述符号块对应字母符号的概率。
步骤706:比较所述数字符号的概率和所述字母符号的概率,确定概率高的符号作为子符号集对应的目标符号。
通过将概率高的符号作为子符号集对应的目标符号,能够大幅提高子符号集中符号块识别的准确性,进而提高对图像识别获取可编辑的符号文本的准确性。
步骤208:根据每个子符号集对应的目标符号,生成所述符号集对应的符号文本。
所述步骤208包括步骤2081和步骤2082。
步骤2081:设置每个所述子符号集的坐标;
步骤2082:根据每个所述子符号集的坐标,排列每个所述子符号集对应的目标符号生成所述符号集对应的符号文本。
本申请上述实施例中通过对子符号集的类别进行判断,即确定子符号集中符号块所属的类别,自适应选择子符号集中符号块对应的识别模型,有针对性地增强诸如属于德文类的子符号集中符号块的检测效果,即便是出现不存在上下文关系的子符号集中符号块的情况时,对子符号集中符号块进行识别分类后调用对应的识别模型,能够大幅提高子符号集中符号块识别的准确性,进而提高对图像识别获取可编辑的符号文本的准确性,给用户编辑图像对应的符号文本带来了极大的便利。
参见图8所示,本申请一实施例中图像识别的方法的流程示意图,包括步骤801至步骤815,下面以图9示出的图像为例,对本实施例图像识别的方法进行详细说明。
步骤801:根据输入的图像,生成所述图像对应的符号集,划分所述符号集获取子符号集,所述子符号集包括至少一个符号块。
将图像中的符号切分出来的所有符号块作为符号集,划分所述符号集可以获取两个子符号集,一个子符号集可以是第一行“Jon向墙上挂15个气球!他”切分成的所有符号块,另一个子符号集是第二行“现在非常开心。”切分成的所有符号块,以第一行“Jon向墙上挂15个气球!他”切分成的所有符号块划分成的子符号集为例说明,所述符号块为一个符号所处区域切分出来的小块图像,即切分出来的小块图像只包括一个符号,比如一个符号块为“J”所处区域切分出来的小块图像即为符号块,符号块中只包括一个符号“J”。
步骤802:根据OCR模型识别每个所述子符号集的类别,根据所述子符号集的类别调用第一识别模型。
根据OCR模型识别子符号集中符号块“向”、“墙”、“上”、“挂”、“个”、“气”、“球”和“他”,确定子符号集的类别为中文简体,调用第一识别模型为中文简体识别模型,中文简体识别模型对符号块“向”、“墙”、“上”、“挂”、“个”、“气”、“球”和“他”进行识别输出的中文简体的符号作为目标符号,中文简体的符号即为可编辑的文本。
步骤803:识别所述子符号集中多个连续的符号块,获取低于类阈值的连续的符号块,调用第三识别模型和第四识别模型。
上述低于类阈值的连续的符号块即为“J”、“o”、“n”以及“1”、“5”,调用第三识别模型和第四识别模型。
步骤804:获取所述第三识别模型输出的所述符号块对应的数字符号的概率以及所述第四识别模型输出的所述符号块对应字母符号的概率。
所述第三识别模型为数字识别模型且数字识别模型输出每个符号块“J”、“o”、“n”以及“1”、“5”对应的数字符号的概率,比如,其中符号块“o”输出的对应的数字符号为“0”的概率为0.8,符号块“1”输出的对应的数字符号为“1”的概率为0.98。
所述第四识别模型为字母识别模型且字母识别模型输出每个符号块“J”、“o”、“n”以及“1”、“5”对应的字母的概率,比如,其中符号块“o”输出的对应的字母符号为“o”的概率为0.95,符号块“1”输出的对应的字母符号为“i”的概率为0.7。
步骤805:比较所述数字符号的概率和所述字母符号的概率,确定概率高的符号作为子符号集对应的目标符号。
那么上述符号块“o”作为字母符号为“o”的概率0.95大于作为数字符号为“0”的概率0.8,则将子符号集中符号块“o”作为字母符号为“o”作为对应的目标符号,以此类推,得到子字符集中符号块“o”、“n”以及“1”对应的目标符号。
步骤806:根据子符号集中的符号块,获取所述子符号集中低于类阈值的单个符号块。
上述子符号集中所述单个符号块为“!”。
步骤807:根据所述单个符号块调用第二识别模型,所述第二识别模型输出所述单个符号块对应的标点符号的概率。
所述第二识别模型输出所述单个符号块“!”对应的标点符号“!”的概率为0.98。
步骤808:判断所述单个符号块对应的标点符号的概率是否超过标点阈值,若是,执行步骤809,若否,执行步骤810。
所述标点阈值可以设置为0.9,所述单个符号块“!”对应的标点符号“!”的概率为0.98超过标点阈值0.9。
步骤809:将所述子符号集中单个符号块对应的标点符号作为目标符号。
将所述子符号集中单个符号块“!”对应的标点符号“!”作为目标符号。
步骤810:判断第三识别模型输出的数字符号的概率超过第一阈值还是位于第二阈值与第一阈值之间,若超过第一阈值,执行步骤811,若位于第二阈值与第一阈值之间,执行步骤812。
步骤811:将所述单个符号块对应的数字符号作为目标符号。
步骤812:调用第四识别模型,获取所述第四识别模型输出的所述单个符号块对应的字母符号的概率。
步骤813:判断所述第四识别模型输出的所述单个符号块对应的字母符号的概率是否超过第一阈值,若是,执行步骤814,若否,执行步骤811。
步骤814:将所述子符号集中单个符号块对应的字母符号作为目标符号。
步骤815:根据每个子符号集对应的目标符号,生成所述符号集对应的符号文本。
每个所述子符号集中的符号块均对应有坐标,根据所述子符号集中的符号块均对应的坐标,确定子符号集对应的目标符号为“Jon向墙上挂15个气球!他”,排列每个所述子符号集对应的目标符号生成所述符号集对应的符号文本为“Jon向墙上挂15个气球!他现在非常开心。”
上述实施例中通过对子符号集的类别进行判断,即确定子符号集中符号块所属的类别,自适应选择子符号集中符号块对应的识别模型,有针对性地增强子符号集中符号块的检测效果,即便是出现不存在上下文关系的子符号集中符号块的情况时,对子符号集中符号块进行识别分类后调用对应的识别模型,能够大幅提高子符号集中符号块识别的准确性,进而提高对图像识别获取可编辑的符号文本的准确性,给用户编辑图像对应的符号文本带来了极大的便利。
图10示出了本申请一实施例提供的图像识别的装置,所述装置包括:
处理模块1002,被配置为根据输入的图像,生成所述图像对应的符号集,划分所述符号集获取子符号集,所述子符号集包括至少一个符号块;
调用模块1004,被配置为识别每个所述子符号集的类别,根据所述子符号集的类别调用识别模型;
确定模块1006,被配置为根据所述识别模型输出的子符号集对应的符号,确定所述子符号集对应的目标符号;
生成模块1008,被配置为根据每个子符号集对应的目标符号,生成所述符号集对应的符号文本。
上述实施例通过对子符号集的类别进行判断,即确定子符号集中符号块所属的类别,自适应选择子符号集中符号块对应的识别模型,有针对性地增强子符号集中符号块的检测效果,即便是出现不存在上下文关系的子符号集中符号块的情况时,对子符号集中符号块进行识别分类后调用对应的识别模型,能够大幅提高子符号集中符号块识别的准确性,进而提高对图像识别获取可编辑的符号文本的准确性,给用户编辑图像对应的符号文本带来了极大的便利。
可选地,所述处理模块1002被进一步配置为执行下述步骤:
S301:获取图像,所述图像为n张;
S302:判断第i张图像中是否有符号,1≤i≤n,若是,执行S304,若否,执行S303;
S303:将i自增1,判断i是否大于n,若是,结束,若否,执行S302;
S304:生成所述图像对应的符号集。
可选地,所述处理模块1002被进一步配置为分析所述图像中符号所处的区域;
根据所述符号所处的区域,切分所述图像获取符号块,得到所述图像对应的符号集;
将所述符号集中连续的符号块划分为子符号集。
可选地,所述调用模块1004被进一步配置为根据OCR模型识别每个所述子符号集的类别,根据所述子符号集的类别调用第一识别模型,其中,所述类别包括中文简体类、中文繁体类、音符类中的至少一类,所述第一识别模型包括中文简体识别模型、中文繁体识别模型和音符识别模型中的至少一种。
可选地,所述调用模块1004被进一步配置为根据子符号集中的符号块,获取所述子符号集中低于类阈值的单个符号块;
根据所述单个符号块调用第二识别模型;
所述确定模块1006被进一步配置为所述第二识别模型输出所述单个符号块对应的标点符号的概率;
所述单个符号块对应的标点符号的概率超过标点阈值,将所述子符号集中单个符号块对应的标点符号作为目标符号。
可选地,所述确定模块1006还被配置为所述单个符号块对应的标点符号的概率小于预设标点阈值,调用第三识别模型,获取所述第三识别模型输出的所述单个符号块对应的数字符号的概率;
判断所述数字符号的概率超过第一阈值还是位于第二阈值与第一阈值之间;
若所述数字符号的概率超过第一阈值,将所述单个符号块对应的数字符号作为目标符号;
若所述数字符号的概率位于第二阈值与第一阈值之间,调用第四识别模型,获取所述第四识别模型输出的所述单个符号块对应的字母符号的概率;
判断所述第四识别模型输出的所述单个符号块对应的字母符号的概率是否超过第一阈值;
若是,将所述子符号集中单个符号块对应的字母符号作为目标符号;
若否,将所述子符号集中单个符号块对应的数字符号作为目标符号。
可选地,所述确定模块1006还被配置为若所述单个符号块对应的标点符号的概率小于预设标点阈值,调用第三识别模型和第四识别模型,获取所述第三识别模型输出的所述单个符号块对应的数字符号的第一概率以及所述第四识别模型输出的所述符号块对应的字母符号的第二概率;
比较所述数字符号的第一概率和所述字母符号的第二概率,将概率高的符号作为子符号集中单个符号块对应的目标符号。
可选地,所述调用模块1004被进一步配置为识别所述子符号集中多个连续的符号块,获取低于类阈值的连续的符号块,调用第三识别模型和第四识别模型;
所述确定模块1006被进一步配置为获取所述第三识别模型输出的所述符号块对应的数字符号的概率以及所述第四识别模型输出的所述符号块对应字母符号的概率;
比较所述数字符号的概率和所述字母符号的概率,确定概率高的符号作为子符号集对应的目标符号。
可选地,所述第二识别模型为标点符号识别模型,所述第三识别模型为数字识别模型,所述第四识别模型为字母识别模型。
可选地,所述生成模块1008被进一步配置为设置每个所述子符号集的坐标;
根据每个所述子符号集的坐标,排列每个所述子符号集对应的目标符号生成所述符号集对应的符号文本。
本申请一实施例还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现如前所述图像识别的方法的步骤。
本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述图像识别的方法的步骤。
上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述图像识别的方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述图像识别的方法的技术方案的描述。
所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。
以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本说明书的内容,可作很多的修改和变化。本说明书选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属技术领域技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。

Claims (11)

1.一种图像识别的方法,其特征在于,包括:
根据输入的图像,生成所述图像对应的符号集,划分所述符号集获取子符号集,所述子符号集包括至少一个符号块;
识别所述子符号集中多个连续的符号块,获取低于类阈值的连续的符号块,调用第三识别模型和第四识别模型;
获取所述第三识别模型输出的所述符号块对应的数字符号的概率以及所述第四识别模型输出的所述符号块对应字母符号的概率,比较所述数字符号的概率和所述字母符号的概率,确定概率高的符号作为子符号集对应的目标符号,其中,对于低于类阈值的符号块进行单独识别,并调用第二识别模型、第三识别模型与第四识别模型依次对所述低于类阈值的符号块的类别进行判断,直至在确定了所述低于类阈值的符号块的类别情况下,选择对应的识别模型对所述低于类阈值的符号块进行处理,所述第二识别模型为标点符号识别模型,所述第三识别模型为数字识别模型,所述第四识别模型为字母识别模型;
根据每个子符号集对应的目标符号,生成所述符号集对应的符号文本。
2.根据权利要求1所述的方法,其特征在于,根据输入的图像,生成所述图像对应的符号集,包括:
S301:获取图像,所述图像为n张;
S302:判断第i张图像中是否有符号,1≤i≤n,若是,执行S304,若否,执行S303;
S303:将i自增1,判断i是否大于n,若是,结束,若否,执行S302;
S304:生成所述图像对应的符号集。
3.根据权利要求1所述的方法,其特征在于,根据输入的图像,生成所述图像对应的符号集,划分所述符号集获取子符号集,包括:
分析所述图像中符号所处的区域;
根据所述符号所处的区域,切分所述图像获取符号块,得到所述图像对应的符号集;
将所述符号集中连续的符号块划分为子符号集。
4.根据权利要求1所述的方法,其特征在于,还包括:
根据OCR模型识别每个所述子符号集的类别,根据所述子符号集的类别调用第一识别模型,其中,所述类别包括中文简体类、中文繁体类、音符类中的至少一类,所述第一识别模型包括中文简体识别模型、中文繁体识别模型和音符识别模型中的至少一种。
5.根据权利要求1所述的方法,其特征在于,还包括:
根据子符号集中的符号块,获取所述子符号集中低于类阈值的单个符号块;
根据所述单个符号块调用第二识别模型;
根据所述识别模型输出的子符号集对应的符号,确定所述子符号集对应的目标符号,包括:
所述第二识别模型输出所述单个符号块对应的标点符号的概率;
所述单个符号块对应的标点符号的概率超过标点阈值,将所述子符号集中单个符号块对应的标点符号作为目标符号。
6.根据权利要求5所述的方法,其特征在于,根据所述识别模型输出的子符号集对应的符号,确定所述子符号集对应的目标符号,包括:
所述单个符号块对应的标点符号的概率小于预设标点阈值,调用第三识别模型,获取所述第三识别模型输出的所述单个符号块对应的数字符号的概率;
判断所述数字符号的概率超过第一阈值还是位于第二阈值与第一阈值之间;
若所述数字符号的概率超过第一阈值,将所述单个符号块对应的数字符号作为目标符号;
若所述数字符号的概率位于第二阈值与第一阈值之间,调用第四识别模型,获取所述第四识别模型输出的所述单个符号块对应的字母符号的概率;
判断所述第四识别模型输出的所述单个符号块对应的字母符号的概率是否超过第一阈值;
若是,将所述子符号集中单个符号块对应的字母符号作为目标符号;
若否,将所述子符号集中单个符号块对应的数字符号作为目标符号。
7.根据权利要求5所述的方法,其特征在于,根据所述识别模型输出的子符号集对应的符号,确定所述子符号集对应的目标符号,包括:
若所述单个符号块对应的标点符号的概率小于预设标点阈值,调用第三识别模型和第四识别模型,获取所述第三识别模型输出的所述单个符号块对应的数字符号的第一概率以及所述第四识别模型输出的所述符号块对应的字母符号的第二概率;
比较所述数字符号的第一概率和所述字母符号的第二概率,将概率高的符号作为子符号集中单个符号块对应的目标符号。
8.根据权利要求1所述的方法,其特征在于,根据每个子符号集对应的目标符号,生成所述符号集对应的符号文本,包括:
设置每个所述子符号集的坐标;
根据每个所述子符号集的坐标,排列每个所述子符号集对应的目标符号生成所述符号集对应的符号文本。
9.一种图像识别的装置,其特征在于,包括:
处理模块,被配置为根据输入的图像,生成所述图像对应的符号集,划分所述符号集获取子符号集,所述子符号集包括至少一个符号块;
调用模块,被配置为识别所述子符号集中多个连续的符号块,获取低于类阈值的连续的符号块,调用第三识别模型和第四识别模型;
确定模块,被配置为获取所述第三识别模型输出的所述符号块对应的数字符号的概率以及所述第四识别模型输出的所述符号块对应字母符号的概率,比较所述数字符号的概率和所述字母符号的概率,确定概率高的符号作为子符号集对应的目标符号,其中,对于低于类阈值的符号块进行单独识别,并调用第二识别模型、第三识别模型与第四识别模型依次对所述低于类阈值的符号块的类别进行判断,直至在确定了所述低于类阈值的符号块的类别情况下,选择对应的识别模型对所述低于类阈值的符号块进行处理,所述第二识别模型为标点符号识别模型,所述第三识别模型为数字识别模型,所述第四识别模型为字母识别模型;
生成模块,被配置为根据每个子符号集对应的目标符号,生成所述符号集对应的符号文本。
10.一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,其特征在于,所述处理器执行所述指令时实现权利要求1-8任意一项所述方法的步骤。
11.一种计算机可读存储介质,其存储有计算机指令,其特征在于,该指令被处理器执行时实现权利要求1-8任意一项所述方法的步骤。
CN201910854215.2A 2019-09-10 2019-09-10 一种图像识别的方法和装置 Expired - Fee Related CN110555431B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201910854215.2A CN110555431B (zh) 2019-09-10 2019-09-10 一种图像识别的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201910854215.2A CN110555431B (zh) 2019-09-10 2019-09-10 一种图像识别的方法和装置

Publications (2)

Publication Number Publication Date
CN110555431A CN110555431A (zh) 2019-12-10
CN110555431B true CN110555431B (zh) 2022-12-13

Family

ID=68739732

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201910854215.2A Expired - Fee Related CN110555431B (zh) 2019-09-10 2019-09-10 一种图像识别的方法和装置

Country Status (1)

Country Link
CN (1) CN110555431B (zh)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114549928B (zh) * 2022-02-21 2024-09-20 平安科技(深圳)有限公司 图像增强处理方法、装置、计算机设备及存储介质

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096821A (zh) * 2010-04-15 2011-06-15 西安理工大学 基于复杂网络理论的强干扰环境下的车牌识别方法
CN105631445A (zh) * 2014-11-06 2016-06-01 通号通信信息集团有限公司 中文车牌字符识别方法及系统
CN107346433A (zh) * 2016-05-06 2017-11-14 华为技术有限公司 一种文本数据分类方法及服务器
CN107403130A (zh) * 2017-04-19 2017-11-28 北京粉笔未来科技有限公司 一种字符识别方法及字符识别装置
CN108898137A (zh) * 2018-05-25 2018-11-27 黄凯 一种基于深度神经网络的自然图像字符识别方法及系统
CN109299273A (zh) * 2018-11-02 2019-02-01 广州语义科技有限公司 基于改进seq2seq模型的多源多标签文本分类方法及其系统
CN109492143A (zh) * 2018-09-21 2019-03-19 平安科技(深圳)有限公司 图像数据处理方法、装置、计算机设备及存储介质

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101751567B (zh) * 2008-12-12 2012-10-17 汉王科技股份有限公司 快速文本识别方法
CN102622610B (zh) * 2012-03-05 2014-04-02 西安电子科技大学 一种基于分类器集成的手写维文字符识别方法
WO2015062377A1 (zh) * 2013-11-04 2015-05-07 北京奇虎科技有限公司 一种相似文本检测装置、方法以及应用
US20190272447A1 (en) * 2018-03-05 2019-09-05 Hong Kong Applied Science And Technology Research Institute Co., Ltd. Machine learning artificial character generation

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102096821A (zh) * 2010-04-15 2011-06-15 西安理工大学 基于复杂网络理论的强干扰环境下的车牌识别方法
CN105631445A (zh) * 2014-11-06 2016-06-01 通号通信信息集团有限公司 中文车牌字符识别方法及系统
CN107346433A (zh) * 2016-05-06 2017-11-14 华为技术有限公司 一种文本数据分类方法及服务器
CN107403130A (zh) * 2017-04-19 2017-11-28 北京粉笔未来科技有限公司 一种字符识别方法及字符识别装置
CN108898137A (zh) * 2018-05-25 2018-11-27 黄凯 一种基于深度神经网络的自然图像字符识别方法及系统
CN109492143A (zh) * 2018-09-21 2019-03-19 平安科技(深圳)有限公司 图像数据处理方法、装置、计算机设备及存储介质
CN109299273A (zh) * 2018-11-02 2019-02-01 广州语义科技有限公司 基于改进seq2seq模型的多源多标签文本分类方法及其系统

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Detection and Recognition for Text in Traffic Sign Images;Ling-Yun Kong;《IEEE Xplore》;20121004;全文 *
光学字符识别系统中关键算法的设计与研究;刘莉;《中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》;20111215;全文 *

Also Published As

Publication number Publication date
CN110555431A (zh) 2019-12-10

Similar Documents

Publication Publication Date Title
KR101486174B1 (ko) 중첩된 수기의 획들을 하나 이상의 그룹으로 분할하는 방법 및 장치
TWI475406B (zh) 取決於上下文之輸入方法
CN111046133A (zh) 基于图谱化知识库的问答方法、设备、存储介质及装置
CN110705233B (zh) 基于文字识别技术的笔记生成方法、装置和计算机设备
CN108363701B (zh) 命名实体识别方法及系统
CN110209802B (zh) 一种提取摘要文本的方法及装置
CN110555441A (zh) 一种文字识别方法及装置
CN113255331B (zh) 文本纠错方法、装置及存储介质
CN109189965A (zh) 图像文字检索方法及系统
CN110555440A (zh) 一种事件抽取方法及装置
CN110633475A (zh) 基于计算机场景的自然语言理解方法、装置、系统和存储介质
CN111444906B (zh) 基于人工智能的图像识别方法和相关装置
US10217455B2 (en) Linguistic model database for linguistic recognition, linguistic recognition device and linguistic recognition method, and linguistic recognition system
CN111639185A (zh) 关系信息抽取方法、装置、电子设备和可读存储介质
CN110555431B (zh) 一种图像识别的方法和装置
CN111357015A (zh) 语音合成方法、装置、计算机设备和计算机可读存储介质
CN107734123A (zh) 一种联系人排序方法和装置
WO2024051196A1 (zh) 恶意代码检测方法、装置、电子设备及存储介质
CN114491010A (zh) 信息抽取模型的训练方法及装置
CN115588227A (zh) 情绪识别方法、装置、电子设备和存储介质
CN114492410A (zh) 合约信息提取方法及装置
CN113362026A (zh) 文本处理方法及装置
Pornpanomchai et al. Printed Thai character recognition by genetic algorithm
CN113869041A (zh) 关键词组合提取方法、装置和电子设备
Zheng et al. Chinese/English mixed character segmentation as semantic segmentation

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20221213