CN111444906B - 基于人工智能的图像识别方法和相关装置 - Google Patents

基于人工智能的图像识别方法和相关装置 Download PDF

Info

Publication number
CN111444906B
CN111444906B CN202010212729.0A CN202010212729A CN111444906B CN 111444906 B CN111444906 B CN 111444906B CN 202010212729 A CN202010212729 A CN 202010212729A CN 111444906 B CN111444906 B CN 111444906B
Authority
CN
China
Prior art keywords
recognition
candidate word
word combination
candidate
probability
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN202010212729.0A
Other languages
English (en)
Other versions
CN111444906A (zh
Inventor
康健
黄珊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Tencent Technology Shenzhen Co Ltd
Original Assignee
Tencent Technology Shenzhen Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Tencent Technology Shenzhen Co Ltd filed Critical Tencent Technology Shenzhen Co Ltd
Priority to CN202010212729.0A priority Critical patent/CN111444906B/zh
Publication of CN111444906A publication Critical patent/CN111444906A/zh
Application granted granted Critical
Publication of CN111444906B publication Critical patent/CN111444906B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Character Discrimination (AREA)

Abstract

本申请实施例公开了基于人工智能的图像识别方法和相关装置,该方法针对待识别图像中目标区域识别得到的多个候选字组合以及对应整体识别概率。若第一候选字组合具有识别自信,将第一候选字组合的整体识别概率作为识别可信度,若第二候选字组合不具有识别自信,根据第二候选字组合中多个候选字分别对应的分布比例,调整各自对应的识别概率,并根据调整后的识别概率确定第二候选字组合的识别可信度。由于识别可信度用于确定文本识别结果,针对第一候选字组合的识别可信度确定时可以减少第二候选字组合所需执行的数据处理环节,提高了文本识别的识别效率和降低资源占用。

Description

基于人工智能的图像识别方法和相关装置
技术领域
本申请涉及图像处理领域,特别是涉及基于人工智能的图像识别方法和相关装置。
背景技术
随着人工智能技术的发展,可以通网络模型识别出图像内容中包含的文本,这些图像识别结果可以应用于图像分类、广告识别等。
在通过网络模型对图像进行文本识别的过程中,对于确定出的任意一个可能的文字,所进行处理流程都是一致的,也就是说,待识别文本的数量或待识别的图像数量会直接影响网络模型需要处理的数据量。
当图像中文本较多或者待识别图像数量较多时,由于需处理的数据量会随着文本数量、图像数量的增加而增加,庞大的数据处理量将导致网络模型在识别过程中会占用大量的处理资源,且识别效率难以提升。
发明内容
为了解决上述技术问题,本申请提供了基于人工智能的图像识别方法和相关装置,提高了文本识别的识别效率和降低资源占用。
本申请实施例公开了如下技术方案:
一方面,本申请实施例提供了一种图像识别方法,所述方法包括:
通过对待识别图像中的目标区域中的文本进行字形识别,得到多个候选字组合以及每个候选字组合的整体识别概率;
对于满足预设识别概率条件的整体识别概率所对应的第一候选字组合,以所述第一候选字组合的整体识别概率,作为所述第一候选字组合的识别可信度;
对于不满足预设识别概率条件的整体识别概率所对应的第二候选字组合,根据预设候选字分布比例对所述第二候选字组合的整体识别概率进行调整,得到所述第二候选字组合的识别可信度;
根据所述识别可信度、所述第一候选字组合和所述第二候选字组合,确定所述目标区域的文本识别结果。
另一方面,本申请实施例提供了一种图像识别装置,所述装置包括识别单元、第一确定单元和第二确定单元:
所述识别单元,用于通过对待识别图像中的目标区域中的文本进行字形识别,得到多个候选字组合以及每个候选字组合的整体识别概率;
所述第一确定单元,用于对于满足预设识别概率条件的整体识别概率所对应的第一候选字组合,以所述第一候选字组合的整体识别概率,作为所述第一候选字组合的识别可信度;
所述第一确定单元,还用于对于不满足预设识别概率条件的整体识别概率所对应的第二候选字组合,根据预设候选字分布比例对所述第二候选字组合的整体识别概率进行调整,得到所述第二候选字组合的识别可信度;
所述第二确定单元,用于所述根据所述识别可信度、所述第一候选字组合和所述第二候选字组合,确定所述目标区域的文本识别结果。
另一方面,本申请实施例提供了一种用于图像识别设备,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行上述方面所述的方法。
另一方面,本申请实施例提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述方面所述的方法。
由上述技术方案可以看出,待识别图像中包括的文本可以在目标区域中,在进行字形识别时,可以得到多个候选字组合,以及每个候选字组合的整体识别概率,该整体识别概率可以体现出候选字组合的整体识别自信程度。通过判断整体识别概率是否满足预设识别概率条件,可以确定出多个候选字组合中哪些具有识别自信的,哪些并不具有。若对第一候选字组合具有识别自信,那么可以直接根据第一候选字组合的整体识别概率确定识别可信度,若对第二候选字组合不具有识别自信,则根据第二候选字组合中多个候选字分别对应的分布比例,调整各自对应的识别概率,并根据调整后的识别概率确定第二候选字组合的识别可信度。由于识别可信度用于从多个候选字组合中确定文本识别结果,而针对第一候选字组合的识别可信度确定时可以减少第二候选字组合所需执行的数据处理环节,提高了文本识别的识别效率和降低资源占用。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种图像识别方法的应用场景示意图;
图2为本申请实施例提供的一种图像识别方法的流程示意图;
图3为本申请实施例提供的另一种图像识别方法的应用场景示意图;
图4为本申请实施例提供的另一种图像识别方法的流程示意图;
图5为本申请实施例提供的另一种图像识别方法的流程示意图;
图6为本申请实施例提供的另一种图像识别方法的流程示意图;
图7为本申请实施例提供的另一种图像识别方法的流程示意图;
图8为本申请实施例提供的一种图像识别装置的结构示意图;
图9为本申请实施例提供的服务器的结构示意图;
图10为本申请实施例提供的终端设备的结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述。
本申请实施例提供的图像识别方法是基于人工智能实现的,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
在本申请实施例中,主要涉及的人工智能软件技术包括上述计算机视觉技术、机器学习/深度学习等方向。
例如可以涉及计算机视觉(Computer Vision)中的图像处理(ImageProcessing)、图像语义理解(Image Semantic Understanding,ISU)、视频处理(videoprocessing)、视频语义理解(video semantic understanding,VSU)等。
例如可以涉及机器学习(Machine learning,ML)中的深度学习(Deep Learning),包括各类人工神经网络(Artificial Neural Network,ANN)。
为了便于理解本申请的技术方案,下面结合实际应用场景对本申请实施例提供的图像识别方法进行介绍。
本申请提供的图像识别方法可以应用于具有数据处理能力的图像识别设备,如终端设备、服务器。其中,终端设备具体可以为智能手机、计算机、个人数字助理(PersonalDigital Assistant,PDA)、平板电脑等;服务器具体可以为独立服务器,也可以为集群服务器。
该数据处理设备可以具备实施计算机视觉技术的能力,计算机视觉是一门研究如何使机器“看”的科学,更进一步的说,就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉,并进一步做图形处理,使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科,计算机视觉研究相关的理论和技术,试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、文字识别(Optical Character Recognition,OCR)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3D技术、虚拟现实、增强现实、同步定位与地图构建等技术,还包括常见的人脸识别、指纹识别等生物特征识别技术。
在本申请实施例中,数据处理设备可以通过计算机视觉技术对图像中的文本进行识别。
该数据处理设备可以具备ML能力。ML是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络等技术。
本申请实施例提供的图像识别方法主要涉及对各类人工神经网络的应用,通过人工神经网络实现计算机视觉技术,从而识别出图像中的文本。
为了提高图像识别效率并降低资源的占用率,本申请提供了一种图像识别方法。
可以理解的是,本申请实施例提供的图像识别方法可以对图像中任意一种形式的文本进行识别,例如,中文、英语、数字、符号等。为了便于理解,下面结合图1,以识别图像中的文本作为示例,对本申请实施例提供的图像识别方法的应用场景进行介绍。在图1所示的应用场景中,以终端设备101作为执行主体。
用户可以利用终端设备101的图像采集单元拍摄一张图像作为待识别图像或者从终端设备101的存储单元预先存储的图像中选取一张图像作为待识别图像。选定待识别图像后,用户可以通过操作终端设备101,将该待识别图像传至终端设备101中的处理器,利用终端设备101中的处理器对待识别图像进行识别,从而识别出该待识别图像中目标区域内的文本,并将文本识别结果通过终端设备101的显示屏展示给用户。
可以理解的是,针对统一形式的不同文本而言,由于文本的多样性和复杂性,存在形状、结构相近文本,就中文而言,就存在很多形状结构相似的文字,例如,“己”、“已”和“巳”。由于在对图像进行文本识别时,主要根据图像中文本的外在特征,例如,形状、结构这些特征进行识别,因此,对于形状结构相近的文本的识别难度较大,这就导致对于图像中同一个区域的文本进行字形识别时,可能识别出现多个候选字。
利用终端设备101对待识别图像进行字形识别,针对该待识别图像中的同一个目标区域的文本进行自行识别,可以得到针对该目标区域的多个候选字,将多个候选字进行组合可以得到多个候选字组合。其中,目标区域用于标识待识别图像中文本所在区域。候选字可以用于标识单个文本,例如,单个汉字、单个数字等。候选字组合由多个候选字按照一定顺序排列组合而成,用于标识针对待识别图像中的目标区域进行识别后得到的预测文本。在多个候选字组合中,包括由于形近字识别错误的候选字组合。如图1所示的场景中,利用终端设备101对待识别图像同一个目标区域进行识别,得到两个候选字组合,分别为第一候选字组合和第二候选字组合。
可以理解的是,针对不同形式的文本,数字相较于语言文字在形状、结构上较简单,因此,对于图像中数字的识别较容易,被正确识别出来的准确率较高。尽管在识别图像中包括的数字时,也存在上述由于形状、结构相近导致的多个候选字组合的问题,但是,由于数字形式的文本识别难度较低,针对目标区域中的文本对应的多个候选字组合中包括一个识别较为自信的候选字组合和其他识别较为不自信的候选字组合。
基于上述,可以针对识别后得到的每个候选字组合,根据候选字组合中的多个候选字的识别概率,确定出该候选字组合的整体识别概率。其中,候选字的识别概率用于标识目标区域包括该候选字的可能性大小。候选字组合的整体识别概率用于标识目标区域的文本为该候选字组合的可能性大小,体现了候选字组合的整体识别自信程度。整体识别概率越大,表明该候选字组合的整体识别自信程度越高;整体识别概率越小,表明该候选字组合的整体识别自信程度越低。在图1所示的应用场景中,可以根据候选字的识别概率,分别确定出第一候选字组合的整体识别概率P1和第二候选字组合的整体识别概率P2。
在确定出每个候选字组合的整体识别概率后,可以将每个候选字组合的整体识别概率与预设识别概率条件进行比较。根据比较结果,可以将多个候选字组合分为具有识别自信的候选字组合和不具有识别自信的候选字组合。其中,识别概率条件可以预先设定为某一数值,用于作为判断候选字组合是否具有识别自信的衡量尺度。例如,可以将整体识别概率大于阈值的候选字组合认为是具有识别自信的候选字组合,将整体识别概率不大于阈值的候选字组合认为是不具有识别自信的候选字组合。
在图1所示的应用场景中,设定识别概率条件为是否大于P0,针对第一候选字组合,若其整体识别概率满足识别概率条件,即P1大于P0,可以将第一候选字组合的整体识别概率P1作为该第一候选字组合的识别可信度。
针对第二候选字组合,若其整体识别概率不满足识别概率条件,即P2不大于P0,则根据第二候选字组合中的多个候选字分别对应的分布比例,调整各自对应的识别概率,然后,根据调整后的识别概率确定出第二候选字组合的识别可信度P3。其中,候选字的分布比例用于标识该候选字常用生僻程度,例如,汉字“是”为常用字,而汉字“垚”为生僻字。
针对每个候选字组合,可以根据识别可信度,从多个候选字组合中确定出针对目标区域的文本识别结果。其中,候选字组合的识别可信度用于标识该候选字组合为目标区域中的文本的可能性。候选字组合的识别可信度越大,表明目标区域中的文本为该候选字组合的可能性越大,将其作为目标区域的文本识别结果的可能性也越大。在图1所示的应用场景中,可以将识别可信度较大的第一候选字组合确定为目标区域的文本识别结果。
由于识别可信度用于从多个候选字组合中确定文本识别结果,而针对第一候选字组合的识别可信度确定时,减少了第二候选字组合所需执行的调整其包括的每个候选字识别概率的环节,从而提高了文本识别的识别效率,同时降低了资源的占用率。
下面结合具体的应用场景,对图2所示的图像识别方法进行介绍。为了便于描述,以终端设备作为执行主体。在图2中,该图像识别方法包括以下步骤:
S201:通过对待识别图像中的目标区域中的文本进行字形识别,得到多个候选字组合以及每个候选字组合的整体识别概率。
由于文本的多样性和复杂性,对于同一个文本可能存在形状、结构相近的其他文本。因此,在对待识别图像中的文本进行字形识别时,可能针对同一文本识别出多个候选字,将多个候选字进行组合可以得到多个候选字组合。
终端设备可以通过不同的方式获取待识别图像,例如,用户可以通过终端设备上的摄像头拍摄一张照片作为待识别图像,或者,用户可以通过终端设备的显示屏进行触发操作,从终端设备的存储器中选择一张预先存储的照片作为待识别图像。获取待识别图像的方式可以根据具体应用场景确定,在此不作任何限定。
上述目标区域用于标识在待识别图像中进行文本识别的区域。文本可以是各种形式的文本,例如,不同语言对应的文字、数字、特殊符号等。待识别图像中文本的呈现形式可以是手写体、扫描体等。在此不作任何限定。
在图3所示的待识别图像中,可以设定将待识别图像中的中间区域设定为目标区域(如图3中虚线框所在区域),从而可以针对该目标区域包括的“举世瞩目”中的每个汉字作为一个文本进行字形识别。
在一种可能的实现方式中,可以通过字形识别模型对待识别图像中的目标区域中的文本进行字形识别,确定出多个候选字以及各自对应的识别概率,然后,可以根据识别概率所标识的候选字,确定多个候选字组合以及对应的整体识别概率。其中,字形识别模型是通过使用大量有标注中文的图像对预先构建的初始网络模型进行训练得到的。字形识别模型可以是各种人工神经网络,例如,卷积神经网络(Convolutional Neural Network,CNN)等,在此不作任何限定。
上述识别概率可以是字形识别模型针对目标区域进行识别后得到的候选字的归一化概率,可以用数学表达式表示为:
ei=Wi·fi+bi
其中,αi表示字形识别模型针对目标区域中同一个位置的文本识别得到的候选字的识别概率,其中,i取值为1,2,…,j。参数j表示字形识别模型很对目标区域中同一个位置的文本识别得到的候选字的个数。Wi和bi为字形识别模型可学习的参数,fi表示字形识别模型的输入,ei表示字形识别模型的输出。
在实际应用中,通过字形识别模型对目标区域中同一个位置的文本进行识别,可以识别出多个候选字以及各自对应的识别概率。然后,可以根据多个候选字的识别概率,对多个候选字进行筛选,选出识别概率较大的候选字作为字形识别模型的识别结果。
在图3所示的应用场景中,针对第一文本“举”利用字形识别模型进行识别,得到4个候选字,分别为“举”、“誉”、“榉”“挙”,其各自对应的识别概率为0.99、0.005、0.003、0.002。根据该识别概率标识的4个候选字,可以将识别概率较大的“举”作为字形识别模型针对目标区域中第一个文本“举”对应的候选字。
在图5所示的应用场景中,针对图3所示的待识别图像中目标区域包括的4个文本“举世瞩目”分别进行识别,得到6个候选字,将这6个候选字进行组合可以得到4个候选字组合,分别为“举世瞩目”、“举也瞩目”、“举世属目”和“举也属目”。其中,从左到右每一列分别对应目标区域中的4个文本,例如,对第二文本进行识别,可以确定出两个对应的候选字“世”和“也”,即对应对图5中的第二列。
在多种不同形式的文本中,存在形状、结构较为简单的文本。对于形状结构简单的文本,其对应的字形识别难度较低。因此,在对待识别图像中的识别难度较低的文本进行字形识别时,对其识别得到的候选字较为自信。
在实际应用中,针对一个候选字组合,可以根据其中每个候选字的识别概率求均值作为该候选字组合的整体识别概率。其中,候选字组合的整体识别概率的大小体现了对该候选字组合整体识别的自信度。若候选字组合的整体识别概率较大,表明对该候选字组合整体识别较为自信。若候选字组合的整体识别概率较小,表明该候选字组合的整体识别较为不自信。
在实际应用中,可以通过判断候选字组合的整体识别概率是否满足预设识别概率条件与进行比较,从而确定出识别较为自信的候选字组合和识别较为不自信的候选字组合。可以理解的是,由于由字形识别难度较低组成的候选字组合,其对应的整体识别概率较高,因此,可以将阈值取为较大的数值,例如,将阈值设定为0.95,从而将多个候选字组合中整体识别较为自信的候选字组合识别出来。
通过识别概率条件和候选字组合的整体识别概率,对多个候选字组合进行筛选,将满足识别概率条件的候选字组合作为第一候选字组合,并执行下述步骤S202。将不满足识别概率条件的候选字组合作为第二候选字组合,并执行下述步骤S203。
S202:对于满足预设识别概率条件的整体识别概率所对应的第一候选字组合,以所述第一候选字组合的整体识别概率,作为所述第一候选字组合的识别可信度。
在实际应用中,若在多个候选字组合中存在第一候选字组合,其整体识别概率满足识别概率条件,则可以将第一候选字组合确定是识别自信的。因此,可以将该第一候选字组合的整体识别概率作为该第一候选字文本组合的识别可信度。
由于数字的形状、结构较为简单,因此,数字形式的文本的字形识别难度较低。因此,在对待识别图像中的数字进行字形识别时,对其识别得到的候选字较为自信。对于由数字组成的候选字组合,其对应的整体识别概率较高。因此,上述第一候选字组合中为数字组合可能性极大。
故,在一种可能的实施方式中,在所述多个候选字组合中筛选满足预设识别概率条件的整体识别概率所对应的第一候选字组合,判定所述第一候选字组合为数字组合,以所述数字组合的整体识别概率作为所述数字组合的识别可信度。
例如,针对第一候选字组合“02784”,其包括的候选字“0”、“2”、“8”、“7”和“5”的字形识别难度较低,其各自对应的识别概率都较高,分别为0.99、0.99、0.98、0.99、0.97,则该第一候选字组合的整体识别概率为(0.99+0.99+0.98+0.99+0.97)/5=0.984大于阈值0.95,因此,可以确定该候选字组合的整体识别是较为自信的。故可以判定该第一候选组合为数字组合,并将该整体识别概率作为该数字组合的识别可信度。
S203:对于不满足预设识别概率条件的整体识别概率所对应的第二候选字组合,根据预设候选字分布比例对所述第二候选字组合的整体识别概率进行调整,得到所述第二候选字组合的识别可信度。
在实际应用中,若在多个候选字组合中存在第二候选字组合,其整体识别概率不满足识别概率条件,则可以将第二候选字组合确定为识别不自信的。因此,可以根据第二候选字组合中多个候选字的识别概率分别减去对应的分布比例,得到调整后的识别概率。从而对该调整后的识别概率求均值作为第二候选字组合的识别可信度。
由于文字的形状、结构较为复杂,因此,文字形式的文本的字形识别难度较高。因此,在对待识别图像中的文字进行字形识别时,对其识别得到的候选字较为不自信。对于由文字组成的候选字组合,其对应的整体识别概率较低。因此,上述第二候选字组合中为文字组合可能性极大。
故,在一种可能的实现方式中,在所述多个候选字组合中筛选不满足预设识别概率条件的整体识别概率所对应的第二候选字组合,判定所述第二候选字组合为文字组合,根据预设候选字分布比例对所述文字组合的整体识别概率进行调整,得到所述文字组合的识别可信度。
例如,针对第二候选字组合“举世瞩目”,其包括的候选字“举”、“世”、“瞩”和“目”的字形识别难度较高,其各自对应的识别概率都较低,分别为0.99、0.38、0.002和0.92,则该第二候选字组合的整体识别概率为(0.99+0.38+0.002+0.92)/4=0.573小于阈值0.95,因此,可以确定该第二候选字组合的整体识别是较为不自信的。故根据第二候选字组合中多个候选字的识别概率分别减去对应的分布比例,得到调整后的识别概率。
其中,分布比例标识了候选字常用生僻程度。可以理解的是,在文本的使用过程中,有些文本是经常使用的,例如,汉字中的“我”、“是”。对于这类文本,其常用程度较高,即生僻程度较低,其对应的分布比例较高。对应的,有些文本是不经常使用的,例如,汉字中的“垚”、“堃”。对于这类文本,其常用长度较低,即生僻程度较高,其对应的分布比例较低。
在一种可能的实现方式中,若目标候选字为第二候选字组合中的一个候选字,则该目标候选字的分布比例为在训练上述字形识别模型所采用训练样本涉及的文字中,该目标候选字所占的比例。
在图5所述的应用场景中,在字形识别模型进行训练的过程中,训练样本包括10000个文字,其中,文字“举”、“世”、“瞩”和“目”分别有200个、100个、“10”和“300”,则文字“举”、“世”、“瞩”和“目”在训练样本中所占的比例分别为0.02、0.01、0.001和0.03,因此,在候选字“举”、“世”、“瞩”和“目”的识别概率的基础上,减去各自对应的分布比例,得到调整后的识别概率分别为0.99-0.02=0.97、0.38-0.01=0.37、0.002-0.001=0.001和0.92-0.03=0.89。因此,根据该调整后的识别概率,可以确定出候选字组合“举世瞩目”的识别可信度为(0.97+0.37+0.001+0.89)/4=0.558。
由于在对字形识别模型进行训练时,不同文本的分布比例各异。因此,字形识别模型对于不同文字的学习程度各异,故字形识别模型在识别不同的文字时,识别得到的不同候选字对应的识别概率存在一定的差异。对于分布比例较大的候选字,字形识别模型学习的次数较多,这就导致字形识别模型将文本识别为分布比例较大的候选字可能性较大。因此,通过分布比例对候选字的识别概率进行调整,可以降低了字形识别模型较容易识别得到的候选字的识别概率,提高了字形识别模型较难识别得到的候选字的识别概率,相当于平衡了字形识别模型对于分布比例较大的候选字和分布比例较小的候选字的识别概率,从而缩小了候选字间识别概率的差距,减小了字形识别模型对于文本识别的影响。
另外,由于识别可信度用于从多个候选字组合中确定文本识别结果,而针对第一候选字组合的识别可信度确定时,减少了第二候选字组合所需执行的数据处理环节,提高了文本识别的识别效率和降低资源占用。
S204:根据所述识别可信度、所述第一候选字组合和所述第二候选字组合,确定所述目标区域的文本识别结果。
在实际应用中,针对上述第一候选字组合和第二候选字组合,分别确定出各自的识别可信度后,比较两个候选字组合的识别可信度的大小,根据比较结果选择识别可信度较大的候选字组合作为针对目标区域的文本识别结果。
其中,识别可信度的大小体现了候选字组合为目标区域中的文本的可信程度,即候选字组合与目标区域中的文本的吻合程度。识别可信度从整体上标识了候选字组合针对目标区域的文本识别结果的可能性。
上述实施例提供的图像识别方法,
待识别图像中包括的文本可以在目标区域中,在进行字形识别时,可以得到多个候选字组合,以及每个候选字组合的整体识别概率,该整体识别概率可以体现出候选字组合的整体识别自信程度。通过判断整体识别概率是否满足预设识别概率条件,可以确定出多个候选字组合中哪些具有识别自信的,哪些并不具有。若对第一候选字组合具有识别自信,那么可以直接根据第一候选字组合的整体识别概率确定识别可信度,若对第二候选字组合不具有识别自信,则根据第二候选字组合中多个候选字分别对应的分布比例,调整各自对应的识别概率,并根据调整后的识别概率确定第二候选字组合的识别可信度。由于识别可信度用于从多个候选字组合中确定文本识别结果,而针对第一候选字组合的识别可信度确定时可以减少第二候选字组合所需执行的数据处理环节,提高了文本识别的识别效率和降低资源占用。
由于在对图像中的文本进行字形识别时,主要根据图像中文本的外在特征,例如,形状、结构这些特征进行识别,因此,在识别出的候选字组合中存在由于形近字识别错误的候选字。若错误的候选字的识别概率相较于正确的候选字更高,根据该候选字识别概率确定待识别图像目标区域的文本识别结果错误的可能性较大。
为了进一步提高识别精度,本申请提供了另一种图像识别方法。参见图4,图4提供了另一种图像识别方法的流程示意图。在图4中,该图像识别方法包括以下步骤S401-S407。其中,步骤S401与上述步骤S201一致,步骤S406与步骤S204一致,在此不再赘述。
S401:通过对待识别图像中的目标区域中的文本进行字形识别,得到多个候选字组合以及每个候选字组合的整体识别概率。
S402:确定所述多个候选字之间的语义连贯性参数。
S403:对于满足预设识别概率条件的整体识别概率所对应的第一候选字组合,以所述第一候选字组合的整体识别概率,以及所述第一候选字组合中候选字的语义连贯性参数得到所述第一候选字组合的识别可信度。
S404:对于不满足预设识别概率条件的整体识别概率所对应的第二候选字组合,根据预设候选字分布比例对所述第二候选字组合的整体识别概率进行调整,根据调整后的整体识别概率,以及所述第二候选字组合中候选字的语义连贯性参数得到所述第二候选字组合的识别可信度。
S405:根据所述识别可信度、所述第一候选字组合和所述第二候选字组合,确定所述目标区域的文本识别结果。
由于在多数应用场景中,待识别图像中的文本具有传递信息的作用,因此,相邻文本间具有一定的语义连贯性,即相邻文本间的语义是通顺的。对于上述识别得到的多个候选字组合,其中,包括正确候选字的候选字组合的语义通顺程度一般较高,而包括形近字识别错误的候选字的候选字组合语义通顺程度一般较低,因此,可以进一步结合候选字组合中候选字间的语义通顺程度这一维度的特征确定目标区域的文本所对应的文本识别结果。
对于多个候选字,可以确定出多个候选字之间的语义连贯性参数。其中,语义连贯性参数用于体现标识多个候选字之间的语义连贯性。语义连贯性参数的大小体现了多个候选字之间的语义通顺程度。语义连贯性参数越大,表明多个候选字之间的语义通顺程度越大;语义连贯性参数越小,表明多个候选字之间的语义通顺程度越小。
在一种可能的实现方式中,可以通过语义识别模型确定候选字之间的语义连贯性参数。其中,语义识别模型是通过使用大量有标注中文的图像对预先构建的初始网络模型进行训练得到的。语义识别模型可以是各种人工神经网络,例如,卷积神经网络(Convolutional Neural Network,CNN)等,在此不作任何限定。
若上述识别概率是通过字形识别模型确定的,语义识别模型是通过第一训练样本训练得到的,该第一训练样本可以是根据训练字形识别模型的第二训练样本中所提取的文本内容确定的。
可以理解的是,由于上述字形识别模型的第二训练样本为具有标签的图像,其标签标注出了图像中包括的文本,因此,在对语义识别模型的训练过程中,可以对用于字形识别模型训练的第二训练样本进行文本提取,并作为第一训练样本对该语义识别模型进行训练,从而减少对于图像进行标注获取训练样本的工作量。
针对一段具有语义的文本,其上下文在语义上具有一定的相关性。针对确定语义连贯性参数的过程,在一种可能的实施方式中,可以从多个候选字中的选取一个候选字作为目标文字,然后,确定目标文字与多个候选字中至少一个上文字之间的语义连贯性参数,直至得到多个候选字之间的语义连贯性参数。
在实际应用中,上述语义识别模型可以为N元文法语义识别模型(Ngram语义识别模型,N为自然数),利用该模型确定候选字在候选字间的语义连贯性参数,是通过目标文字的至少一个上文词出现的概率,计算该目标文字在出现的概率。该概率值可以作为目标文字对应的语义连贯性参数,用数学表达式表示如下:
P(ωi1,…,ωi-1)=P(ωii-m+1,…,ωi-1)
其中,ωi表示待识别图像目标区域中的第i个候选字,P(ωi1,…,ωi-1)表示第i个候选字对应的语义连贯性参数,P(ωii-m+1,…,ωi-1)表示第i个候选字的语义连贯性参数是根据m个上文字确定的。
在图5所示的应用场景中,若将上述m取为1,根据一个上文字可以确定出目标文字的语义连贯性参数,即ωi-1i P表示根据一个上文字确定出目标文字的语义连贯性参数为P。例如,“举:世-1.70”、表示根据上文字“举”确定出目标文字“世”的语义连贯性参数为-1.70。其中,语义连贯性参数越接近0,表示候选字间的语义通顺程度越大。
由于语义连贯性参数体现了多个候选字之间在语义上是否通顺,因此进一步结合语义连贯性参数确定针对目标区域的文本所对应的文本识别结果,可以使得语义通顺程度更好的候选字组合被确定为文本识别结果的可能性提高,从而提高了文本识别精度。
因此,针对第一候选字组合,可以根据所述第一候选字组合中多个候选字之间的语义连贯性参数,以及所述第一候选字组合的整体识别概率确定所述第一候选字组合的识别可信度。
在实际应用中,针对第一候选字组合,可以对其中每个候选字对应的语义连贯性参数求均值,然后与其对应的整体识别概率相加并作为该候选字组合的识别可信度。
针对第二候选字组合,可以根据所述第二候选字组合中多个候选字的语义连贯性参数,以及调整后的识别概率确定所述第二候选字组合的识别可信度。
在实际应用中,针对第二候选字组合,可以对其中每个候选字调整后的识别概率和语义连贯性参数分别求均值再相加作为该候选字组合的识别可信度。
在图5所示的应用场景中,针对候选字组合“举世瞩目”,包括候选字“举”、“世”、“瞩”和“目”,其各自对应的识别概率分别为0.99、0.38、0.002和0.92,在字形识别模型的训练样本中所占的比例分别为0.02、0.01、0.001和0.03,则调整后的识别概率分别为0.97、0.37、0.001和0.89,根据该调整后的识别概率可以求出该候选字组合的识别概率均值P1’=(0.97+0.37+0.001+0.89)/4=0.558。另外,该候选字组合中多个候选字之间的语义连贯性参数,分别为:“举:世-1.70”、“世:瞩-1.04”和“瞩:目-0.60”,求均值为(-1.70-1.04-0.60)/3=-1.113,可以确定出该候选字组合的识别可信度C1’=0.558-1.113=-0.555。
由于利用分布比例对候选字的识别概率进行调整后,减弱了字形识别模型对整体识别不自信的候选字组合进行字形识别的影响,进一步结合语义识别模型对多个候选字确定出的语义连贯性参数这一特征确定文本识别结果,相当于加强了语义识别模型对于整体识别不自信的候选字组合进行文本识别的影响。因此,提高了对于语义较强的候选字组合的识别准确度。
整体识别自信的候选字组合相较于整体识别不自信的候选字组合而言,由于不需要对其中的多个候选字的识别概率进行调整,相当于加强了字形识别模型对整体识别自信的候选字组合进行字形识别的影响,进一步结合语义识别模型对多个候选字确定出的语义连贯性参数这一特征确定文本识别结果,相当于减弱了语义识别模型对于整体识别不自信的候选字组合进行文本识别的影响。因此,提高了对于语义较弱的候选字组合的识别准确度。
上述实施例提供的图像识别方法,待识别图像中包括的文本可以在目标区域中,在进行识别时,可以针对该目标区域进行字形识别,得到多个候选字组合,并确定候选字组合中多个候选字之间的语义连贯性参数。由于语义连贯性参数可以体现出多个候选字之间在语义上是否通顺,故虽然该多个候选字组合均具有作为该目标区域文本识别结果的可能,但是通过进一步结合多个候选字之间的语义通顺程度,由于出现形近字词识别错误的候选字组合的语义通顺程度一般较低,使得语义通顺程度更好的候选字组合被确定为文本识别结果的可能性提高,提高了文本识别精度。
为了更好地理解上述图像识别方法,下面结合图6,对本申请实施例提供的图像识别方法进行介绍。在图6所示的流程示意图中,包括识别引擎模块、字形识别模型模块和语义识别模型模块。
其中,识别引擎模块综合使用字形识别模型模块和语义识别模型模块。针对输入的待识别图像,识别引擎模块根据字形识别模型模块输出的识别概率和语义识别模型模块输出的语义连贯性参数确定出候选字组合的识别可信度,针对上述满足识别概率条件的第一候选字组合,可以将其整体识别概率作为识别可信度,如图6所示的途径1。针对上述不满足识别概率条件的第二候选字组合,根据其候选字调整后的识别概率确定识别可信度,如图6所示的途径2。从而根据该识别可信度从多个候选字组合确定出针对目标区域的文本所对应的文本识别结果。该文本识别结果,既考虑了文本的外在的形状、结构特征,也考虑了文本间的语义通顺程度。
针对如何在识别引擎中使用语义识别模型的问题,在一种可能的实现方式,可以静态使用语义识别模型。静态使用语义识别模型,可以将语义识别模型的分数提前计算好存储起来。在使用过程中,在出现候选字的地方,只需要将字形识别模型的识别概率加入识别可信度的计算过程中即可。识别引擎采用该方式对待识别图像中的文本进行识别,延时小、引擎设计简单。同时,影响静态语义识别模型识别性能的参数更少,相对更容易调优。例如,静态语义识别模型可以采用加权有限状态机(Weighted Finite State Transducer,WFST)来构建。静态使用语义识别模型识别文本的速度可以达到15ms/行左右。同时,影响静态语义识别模型识别性能的参数更少,相对更容易调优。以识别待识别图像中的手写文本为例,动态使用3gram语义识别模型(上述N=3),最终的字错误率有13.1,而静态使用相同的3gram语义识别模型得到的字错误率只有10.9,低于动态使用语义识别模型。其中,字错误率(Character Error Rate,CER)是一种图像文本识别的评判指标,确定方式可以为:字错误率=测试集中识别错误的文本个数/测试集中所有的文本个数。
为了验证本申请实施例提供的图像识别方法的有效性,下面在不同的图像文字测试集上给出两种方法的识别结果,其中,方法1为:仅利用字形识别模型对图像进行识别的方法;方法2为:利用字形识别模型和语义识别模型对图像进行识别的方法(如图7所示);方法3为:本申请上述实施例提供的图像识别方法(如图6所示)。在测试过程中,采用上述字错误率作为评判指标。因此,采用上述两种方法对不同的测试集进行识别,得到的测试数据如下表:
表1针对不同测试集采用不同方法对应的文本错误率
数据集 方法1字错误率 方法2字错误率 方法3字错误率
手写体测试集 19.29 10.9 11.05
印刷体简单测试集 1.67 2.35 1.52
印刷体复杂测试集 4.47 3.59 3.38
艺术字测试集 8.07 7.1 6.77
根据上表数据可以发现,本发明提出的方法对图像文字识别的准确率有较大的提升,提升幅度达到28%~32%。另外,虽然手写体测试集结果稍降,但在其余测试集上都有明显的提升,尤其是艺术字和印刷体测试集。这是因为这两个测试集中包含了很多弱语义的情况,比如海报中的电话号码等。该结果可以证明本发明提出方法的有效性。
针对上文描述的图像识别方法,本申请实施例还提供了对应的图像识别装置。
参见图8,图8为本申请实施例提供的一种图像识别装置的结构示意图。如图8所示,该图像识别装置800包括识别单元801、第一确定单元802和第二确定单元803:
所述识别单元801,用于通过对待识别图像中的目标区域中的文本进行字形识别,得到多个候选字组合以及每个候选字组合的整体识别概率;
所述第一确定单元802,用于对于满足预设识别概率条件的整体识别概率所对应的第一候选字组合,以所述第一候选字组合的整体识别概率,作为所述第一候选字组合的识别可信度;
所述第一确定单元802,还用于对于不满足预设识别概率条件的整体识别概率所对应的第二候选字组合,根据预设候选字分布比例对所述第二候选字组合的整体识别概率进行调整,得到所述第二候选字组合的识别可信度;
所述第二确定单元803,用于所述根据所述识别可信度、所述第一候选字组合和所述第二候选字组合,确定所述目标区域的文本识别结果。
其中,所述识别单元801,用于:
通过字形识别模型对所述目标区域中文本进行字形识别,确定多个候选字,所述候选字具有对应的识别概率;
根据所述多个候选字以及对应的识别概率,确定多个候选字组合以及每个候选字组合的整体识别概率。
其中,目标候选字为所述第二候选字组合中的一个候选字,所述目标候选字的分布比例为在训练所述字形识别模型所采用训练样本涉及的文字中,所述目标候选字所占的比例。
其中,所述第一确定单元802,用于:
在所述多个候选字组合中筛选满足预设识别概率条件的整体识别概率所对应的第一候选字组合,判定所述第一候选字组合为数字组合,以所述数字组合的整体识别概率作为所述数字组合的识别可信度;
在所述多个候选字组合中筛选不满足预设识别概率条件的整体识别概率所对应的第二候选字组合,判定所述第二候选字组合为文字组合,根据预设候选字分布比例对所述文字组合的整体识别概率进行调整,得到所述文字组合的识别可信度。
其中,所述第一确定单元802,还用于:
确定所述多个候选字之间的语义连贯性参数;
对于满足预设识别概率条件的整体识别概率所对应的第一候选字组合,以所述第一候选字组合的整体识别概率,以及所述第一候选字组合中候选字的语义连贯性参数得到所述第一候选字组合的识别可信度;
根据预设候选字分布比例对所述第二候选字组合的整体识别概率进行调整;根据调整后的整体识别概率,以及所述第二候选字组合中候选字的语义连贯性参数得到所述第二候选字组合的识别可信度。
其中,所述第一确定单元802,用于:
从所述多个候选字中的选取一个候选字作为目标文字;
确定所述目标文字与所述多个候选字中至少一个上文字之间的语义连贯性参数,直至得到所述多个候选字之间的语义连贯性参数。
其中,所述第一确定单元802,用于:
通过语义识别模型确定所述多个候选字之间的语义连贯性参数;若所述识别概率是通过字形识别模型确定的,所述语义识别模型是通过第一训练样本训练得到的,所述第一训练样本是根据训练所述字形识别模型的第二训练样本中所提取的文本内容确定的。
上述实施例提供的图像识别装置,待识别图像中包括的文本可以在目标区域中,在进行字形识别时,可以得到多个候选字组合,以及每个候选字组合的整体识别概率,该整体识别概率可以体现出候选字组合的整体识别自信程度。通过判断整体识别概率是否满足预设识别概率条件,可以确定出多个候选字组合中哪些具有识别自信的,哪些并不具有。若对第一候选字组合具有识别自信,那么可以直接根据第一候选字组合的整体识别概率确定识别可信度,若对第二候选字组合不具有识别自信,则根据第二候选字组合中多个候选字分别对应的分布比例,调整各自对应的识别概率,并根据调整后的识别概率确定第二候选字组合的识别可信度。由于识别可信度用于从多个候选字组合中确定文本识别结果,而针对第一候选字组合的识别可信度确定时可以减少第二候选字组合所需执行的数据处理环节,提高了文本识别的识别效率和降低资源占用。
本申请实施例还提供了一种用于图像识别的服务器和终端设备,下面将从硬件实体化的角度对本申请实施例提供的用于图像识别的服务器和终端设备进行介绍。
参见图9,图9是本申请实施例提供的一种服务器结构示意图,该服务器1400可因配置或性能不同而产生比较大的差异,可以包括一个或一个以上中央处理器(centralprocessing units,CPU)1422(例如,一个或一个以上处理器)和存储器1432,一个或一个以上存储应用程序1442或数据1444的存储介质1430(例如一个或一个以上海量存储设备)。其中,存储器1432和存储介质1430可以是短暂存储或持久存储。存储在存储介质1430的程序可以包括一个或一个以上模块(图示没标出),每个模块可以包括对服务器中的一系列指令操作。更进一步地,中央处理器1422可以设置为与存储介质1430通信,在服务器1400上执行存储介质1430中的一系列指令操作。
服务器1400还可以包括一个或一个以上电源1426,一个或一个以上有线或无线网络接口1450,一个或一个以上输入输出接口1458,和/或,一个或一个以上操作系统1441,例如Windows ServerTM,Mac OS XTM,UnixTM,LinuxTM,FreeBSDTM等等。
上述实施例中由服务器所执行的步骤可以基于该图9所示的服务器结构。
其中,CPU 1422用于执行如下步骤:
通过对待识别图像中的目标区域中的文本进行字形识别,得到多个候选字组合以及每个候选字组合的整体识别概率;
对于满足预设识别概率条件的整体识别概率所对应的第一候选字组合,以所述第一候选字组合的整体识别概率,作为所述第一候选字组合的识别可信度;
对于不满足预设识别概率条件的整体识别概率所对应的第二候选字组合,根据预设候选字分布比例对所述第二候选字组合的整体识别概率进行调整,得到所述第二候选字组合的识别可信度;
根据所述识别可信度、所述第一候选字组合和所述第二候选字组合,确定所述目标区域的文本识别结果。
可选的,CPU 1422还可以执行本申请实施例中图像识别方法任一具体实现方式的方法步骤。
针对上文描述的图像识别方法,本申请实施例还提供了一种用于图像识别的终端设备,以使上述图像识别的方法在实际中实现以及应用。
参见图10,图10为本申请实施例提供的一种终端设备的结构示意图。为了便于说明,仅示出了与本申请实施例相关的部分,具体技术细节未揭示的,请参照本申请实施例方法部分。该终端设备可以为包括平板电脑、个人数字助理(英文全称:Personal DigitalAssistant,英文缩写:PDA)等任意终端设备:
图10示出的是与本申请实施例提供的终端相关的部分结构的框图。参考图10,该终端包括:射频(英文全称:Radio Frequency,英文缩写:RF)电路1510、存储器1520、输入单元1530、显示单元1540、传感器1550、音频电路1560、无线保真(英文全称:wirelessfidelity,英文缩写:WiFi)模块1570、处理器1580、以及电源1590等部件。本领域技术人员可以理解,图10中示出的平板电脑结构并不构成对平板电脑的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
下面结合图10对平板电脑的各个构成部件进行具体的介绍:
存储器1520可用于存储软件程序以及模块,处理器1580通过运行存储在存储器1520的软件程序以及模块,从而实现终端的各种功能应用以及数据处理。存储器1520可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器1520可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
处理器1580是终端的控制中心,利用各种接口和线路连接整个平板电脑的各个部分,通过运行或执行存储在存储器1520内的软件程序和/或模块,以及调用存储在存储器1520内的数据,执行平板电脑的各种功能和处理数据,从而对平板电脑进行整体监控。可选的,处理器1580可包括一个或多个处理单元;优选的,处理器1580可集成应用处理器和调制解调处理器,其中,应用处理器主要处理操作系统、用户界面和应用程序等,调制解调处理器主要处理无线通信。可以理解的是,上述调制解调处理器也可以不集成到处理器1580中。
在本申请实施例中,该终端所包括的存储器1520可以存储程序代码,并将所述程序代码传输给所述处理器。
该终端所包括的处理器1580可以根据所述程序代码中的指令执行上述实施例提供的图像识别方法。
本申请实施例还提供一种计算机可读存储介质,用于存储计算机程序,该计算机程序用于执行上述实施例提供的图像识别方法。
本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述程序可以存储于一计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质可以是下述介质中的至少一种:只读存储器(英文:read-only memory,缩写:ROM)、RAM、磁碟或者光盘等各种可以存储程序代码的介质。
需要说明的是,本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于设备及系统实施例而言,由于其基本相似于方法实施例,所以描述得比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的设备及系统实施例仅仅是示意性的,其中作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
以上所述,仅为本申请的一种具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到的变化或替换,都应涵盖在本申请的保护范围之内。因此,本申请的保护范围应该以权利要求的保护范围为准。

Claims (10)

1.一种图像识别方法,其特征在于,所述方法包括:
通过对待识别图像中的目标区域中的文本进行字形识别,得到多个候选字组合以及每个候选字组合的整体识别概率;所述整体识别概率用于体现候选字组合的整体识别自信程度;
对于满足预设识别概率条件的整体识别概率所对应的第一候选字组合,以所述第一候选字组合的整体识别概率,作为所述第一候选字组合的识别可信度;所述第一候选字组合是具有识别自信的候选字组合;
对于不满足预设识别概率条件的整体识别概率所对应的第二候选字组合,根据预设候选字分布比例对所述第二候选字组合的整体识别概率进行调整,得到所述第二候选字组合的识别可信度;所述第二候选字组合是不具有识别自信的候选字组合;所述预设候选字分布比例用于标识候选字的常用生僻程度,其中,常用程度低而生僻程度高的候选字的分布比例低,常用程度高而生僻程度低的候选字的分布比例高;
根据所述识别可信度、所述第一候选字组合和所述第二候选字组合,确定所述目标区域的文本识别结果。
2.根据权利要求1所述的方法,其特征在于,所述通过对待识别图像中的目标区域中的文本进行字形识别,得到多个候选字组合以及每个候选字组合的整体识别概率,包括:
通过字形识别模型对所述目标区域中文本进行字形识别,确定多个候选字,所述候选字具有对应的识别概率;
根据所述多个候选字以及对应的识别概率,确定多个候选字组合以及每个候选字组合的整体识别概率。
3.根据权利要求2所述的方法,其特征在于,目标候选字为所述第二候选字组合中的一个候选字,所述目标候选字的分布比例为在训练所述字形识别模型所采用训练样本涉及的文字中,所述目标候选字所占的比例。
4.根据权利要求1所述的方法,其特征在于,所述对于满足预设识别概率条件的整体识别概率所对应的第一候选字组合,以所述第一候选字组合的整体识别概率,作为所述第一候选字组合的识别可信度,包括:
在所述多个候选字组合中筛选满足预设识别概率条件的整体识别概率所对应的第一候选字组合,判定所述第一候选字组合为数字组合,以所述数字组合的整体识别概率作为所述数字组合的识别可信度;
所述对于不满足预设识别概率条件的整体识别概率所对应的第二候选字组合,根据预设候选字分布比例对所述第二候选字组合的整体识别概率进行调整,得到所述第二候选字组合的识别可信度,包括:
在所述多个候选字组合中筛选不满足预设识别概率条件的整体识别概率所对应的第二候选字组合,判定所述第二候选字组合为文字组合,根据预设候选字分布比例对所述文字组合的整体识别概率进行调整,得到所述文字组合的识别可信度。
5.根据权利要求1-4任意一项所述的方法,其特征在于,所述方法还包括:
确定所述多个候选字之间的语义连贯性参数;
所述对于满足预设识别概率条件的整体识别概率所对应的第一候选字组合,以所述第一候选字组合的整体识别概率,作为所述第一候选字组合的识别可信度,包括:
对于满足预设识别概率条件的整体识别概率所对应的第一候选字组合,以所述第一候选字组合的整体识别概率,以及所述第一候选字组合中候选字的语义连贯性参数得到所述第一候选字组合的识别可信度;
所述根据预设候选字分布比例对所述第二候选字组合的整体识别概率进行调整,得到所述第二候选字组合的识别可信度,包括:
根据预设候选字分布比例对所述第二候选字组合的整体识别概率进行调整;根据调整后的整体识别概率,以及所述第二候选字组合中候选字的语义连贯性参数得到所述第二候选字组合的识别可信度。
6.根据权利要求5所述的方法,其特征在于,所述确定所述多个候选字之间的语义连贯性参数,包括:
从所述多个候选字中的选取一个候选字作为目标文字;
确定所述目标文字与所述多个候选字中至少一个上文字之间的语义连贯性参数,直至得到所述多个候选字之间的语义连贯性参数。
7.根据权利要求5所述的方法,其特征在于,所述确定所述多个候选字之间的语义连贯性参数,包括:
通过语义识别模型确定所述多个候选字之间的语义连贯性参数;若所述识别概率是通过字形识别模型确定的,所述语义识别模型是通过第一训练样本训练得到的,所述第一训练样本是根据训练所述字形识别模型的第二训练样本中所提取的文本内容确定的。
8.一种图像识别装置,其特征在于,所述装置包括识别单元、第一确定单元和第二确定单元:
所述识别单元,用于通过对待识别图像中的目标区域中的文本进行字形识别,得到多个候选字组合以及每个候选字组合的整体识别概率;所述整体识别概率用于体现候选字组合的整体识别自信程度;
所述第一确定单元,用于对于满足预设识别概率条件的整体识别概率所对应的第一候选字组合,以所述第一候选字组合的整体识别概率,作为所述第一候选字组合的识别可信度;所述第一候选字组合是具有识别自信的候选字组合;
所述第一确定单元,还用于对于不满足预设识别概率条件的整体识别概率所对应的第二候选字组合,根据预设候选字分布比例对所述第二候选字组合的整体识别概率进行调整,得到所述第二候选字组合的识别可信度;所述第二候选字组合是不具有识别自信的候选字组合;所述预设候选字分布比例用于标识候选字的常用生僻程度,其中,常用程度低而生僻程度高的候选字的分布比例低,常用程度高而生僻程度低的候选字的分布比例高;
所述第二确定单元,用于所述根据所述识别可信度、所述第一候选字组合和所述第二候选字组合,确定所述目标区域的文本识别结果。
9.一种图像识别设备,其特征在于,所述设备包括处理器以及存储器:
所述存储器用于存储程序代码,并将所述程序代码传输给所述处理器;
所述处理器用于根据所述程序代码中的指令执行权利要求1-7任意一项所述的方法。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行权利要求1-7任意一项所述的方法。
CN202010212729.0A 2020-03-24 2020-03-24 基于人工智能的图像识别方法和相关装置 Active CN111444906B (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202010212729.0A CN111444906B (zh) 2020-03-24 2020-03-24 基于人工智能的图像识别方法和相关装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN202010212729.0A CN111444906B (zh) 2020-03-24 2020-03-24 基于人工智能的图像识别方法和相关装置

Publications (2)

Publication Number Publication Date
CN111444906A CN111444906A (zh) 2020-07-24
CN111444906B true CN111444906B (zh) 2023-09-29

Family

ID=71650942

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202010212729.0A Active CN111444906B (zh) 2020-03-24 2020-03-24 基于人工智能的图像识别方法和相关装置

Country Status (1)

Country Link
CN (1) CN111444906B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111914825B (zh) * 2020-08-03 2023-10-27 腾讯科技(深圳)有限公司 文字识别方法、装置及电子设备
CN112926456B (zh) * 2021-02-26 2022-11-15 格学教育科技(唐山)有限公司 一种基于状态机的识别文字逻辑重组方法
CN114049686A (zh) * 2021-11-15 2022-02-15 北京百度网讯科技有限公司 签名识别模型训练方法、装置及电子设备

Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08293005A (ja) * 1995-04-21 1996-11-05 Oki Electric Ind Co Ltd 日本文読取装置
JP2006072524A (ja) * 2004-08-31 2006-03-16 Canon Inc 情報処理装置および情報処理方法
WO2007080642A1 (ja) * 2006-01-13 2007-07-19 Fujitsu Limited 帳票処理プログラムおよび帳票処理装置
CN102982330A (zh) * 2012-11-21 2013-03-20 新浪网技术(中国)有限公司 文字图像中字符识别方法和识别装置
CN103077389A (zh) * 2013-01-07 2013-05-01 华中科技大学 一种结合字符级分类和字符串级分类的文本检测和识别方法
CN105095826A (zh) * 2014-04-17 2015-11-25 阿里巴巴集团控股有限公司 一种文字识别方法及装置
WO2016155627A1 (zh) * 2015-04-03 2016-10-06 北京奇虎科技有限公司 一种识别图片中的字符的方法和装置
WO2019101021A1 (zh) * 2017-11-23 2019-05-31 腾讯科技(深圳)有限公司 图像识别方法、装置及电子设备
CN109993057A (zh) * 2019-02-25 2019-07-09 平安科技(深圳)有限公司 语义识别方法、装置、设备及计算机可读存储介质
CN110569830A (zh) * 2019-08-01 2019-12-13 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
CN110647881A (zh) * 2019-09-19 2020-01-03 腾讯科技(深圳)有限公司 确定图像对应的卡片类型的方法、装置、设备及存储介质

Patent Citations (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH08293005A (ja) * 1995-04-21 1996-11-05 Oki Electric Ind Co Ltd 日本文読取装置
JP2006072524A (ja) * 2004-08-31 2006-03-16 Canon Inc 情報処理装置および情報処理方法
WO2007080642A1 (ja) * 2006-01-13 2007-07-19 Fujitsu Limited 帳票処理プログラムおよび帳票処理装置
CN102982330A (zh) * 2012-11-21 2013-03-20 新浪网技术(中国)有限公司 文字图像中字符识别方法和识别装置
CN103077389A (zh) * 2013-01-07 2013-05-01 华中科技大学 一种结合字符级分类和字符串级分类的文本检测和识别方法
CN105095826A (zh) * 2014-04-17 2015-11-25 阿里巴巴集团控股有限公司 一种文字识别方法及装置
WO2016155627A1 (zh) * 2015-04-03 2016-10-06 北京奇虎科技有限公司 一种识别图片中的字符的方法和装置
WO2019101021A1 (zh) * 2017-11-23 2019-05-31 腾讯科技(深圳)有限公司 图像识别方法、装置及电子设备
CN109993057A (zh) * 2019-02-25 2019-07-09 平安科技(深圳)有限公司 语义识别方法、装置、设备及计算机可读存储介质
CN110569830A (zh) * 2019-08-01 2019-12-13 平安科技(深圳)有限公司 多语言文本识别方法、装置、计算机设备及存储介质
CN110647881A (zh) * 2019-09-19 2020-01-03 腾讯科技(深圳)有限公司 确定图像对应的卡片类型的方法、装置、设备及存储介质

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
一种基于噪声信道模型的汉字识别后处理新方法;李元祥, 丁晓青, 刘长松;清华大学学报(自然科学版)(第01期);全文 *

Also Published As

Publication number Publication date
CN111444906A (zh) 2020-07-24

Similar Documents

Publication Publication Date Title
US10394956B2 (en) Methods, devices, and systems for constructing intelligent knowledge base
CN111444906B (zh) 基于人工智能的图像识别方法和相关装置
CN109948149B (zh) 一种文本分类方法及装置
WO2022142041A1 (zh) 意图识别模型的训练方法、装置、计算机设备和存储介质
CN111444905B (zh) 基于人工智能的图像识别方法和相关装置
CN114022882B (zh) 文本识别模型训练、文本识别方法、装置、设备及介质
CN112613293B (zh) 摘要生成方法、装置、电子设备及存储介质
CN106030568B (zh) 自然语言处理系统、自然语言处理方法、以及自然语言处理程序
CN111507330A (zh) 习题识别方法、装置、电子设备及存储介质
CN115438650B (zh) 融合多源特征的合同文本纠错方法、系统、设备及介质
CN115063875A (zh) 模型训练方法、图像处理方法、装置和电子设备
CN111914825A (zh) 文字识别方法、装置及电子设备
US20230114673A1 (en) Method for recognizing token, electronic device and storage medium
CN112784582A (zh) 纠错方法、装置和计算设备
CN112818227A (zh) 内容推荐方法、装置、电子设备及存储介质
CN115862040A (zh) 文本纠错方法、装置、计算机设备及可读存储介质
CN112749639B (zh) 模型训练方法、装置、计算机设备和存储介质
CN113505786A (zh) 试题拍照评判方法、装置及电子设备
US20230104345A1 (en) Image attack detection method and apparatus, and image attack detection model training method and apparatus
CN116225956A (zh) 自动化测试方法、装置、计算机设备和存储介质
CN115273103A (zh) 文本识别方法、装置、电子设备及存储介质
CN115393867A (zh) 文本识别模型生成方法、文本识别方法、设备及存储介质
CN114398482A (zh) 一种词典构造方法、装置、电子设备及存储介质
CN113920291A (zh) 基于图片识别结果的纠错方法、装置、电子设备及介质
CN108021918B (zh) 文字识别方法及装置

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
REG Reference to a national code

Ref country code: HK

Ref legal event code: DE

Ref document number: 40025851

Country of ref document: HK

SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant