CN105139041A - 基于图像的语种识别方法及装置 - Google Patents

基于图像的语种识别方法及装置 Download PDF

Info

Publication number
CN105139041A
CN105139041A CN201510520119.6A CN201510520119A CN105139041A CN 105139041 A CN105139041 A CN 105139041A CN 201510520119 A CN201510520119 A CN 201510520119A CN 105139041 A CN105139041 A CN 105139041A
Authority
CN
China
Prior art keywords
image
character image
languages
word
given
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201510520119.6A
Other languages
English (en)
Inventor
姚聪
周舒畅
周昕宇
徐梓哲
印奇
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Beijing Defiance Technology Co., Ltd.
Xuzhou Kuang Shi Data Technology Co., Ltd.
Original Assignee
Beijing Megvii Technology Co Ltd
Beijing Aperture Science and Technology Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Beijing Megvii Technology Co Ltd, Beijing Aperture Science and Technology Ltd filed Critical Beijing Megvii Technology Co Ltd
Priority to CN201510520119.6A priority Critical patent/CN105139041A/zh
Publication of CN105139041A publication Critical patent/CN105139041A/zh
Pending legal-status Critical Current

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/24Character recognition characterised by the processing or recognition method
    • G06V30/242Division of the character sequences into groups prior to recognition; Selection of dictionaries
    • G06V30/244Division of the character sequences into groups prior to recognition; Selection of dictionaries using graphical properties, e.g. alphabet type or font
    • G06V30/245Font recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Discrimination (AREA)

Abstract

本发明提供了一种基于图像的语种识别方法及装置。所述语种识别方法包括:计算给定文字图像的图像特征;以及基于所计算的图像特征利用训练好的分类模型确定所述给定文字图像上的文字所属的语种。本发明提供的基于图像的语种识别方法及装置通过图像特性自动判断给定文字所属的语种,识别精度高且速度快,此外还免去了人工辨识和指定语种的过程,因此可以极大提高文档处理、自动翻译等过程的效率。

Description

基于图像的语种识别方法及装置
技术领域
本发明涉及图像处理技术领域,具体而言涉及一种基于图像的语种识别方法及装置。
背景技术
在世界范围内,不同国家、地区的人使用不同种类的语言,相应地,文字也各不相同。因此,各种书籍、资料、文档以及物品上的文字所属的语种也千差万别(如中文、英文、阿拉伯文和泰文等,样例见图1)。随着全球化的飞速发展,来自不同国家和地区的人员之间的往来和交流日益频繁,而语言和文字的差异是一种严重的障碍。各种光学字符识别(OCR)、自动翻译技术应运而生,且得到了大规模的普及和应用。
然而,现有的OCR和自动翻译技术和系统都假定文字所属的类别(也即语种)已知。例如,ABBYY公司推出的OCR产品可以识别数十种语言的文字,但是需要用户事先指定待识别文字的语种。因此,当语种未知或指定错误时,该类产品无法给出正确的识别结果。另外,有一类技术可以从语音中自动判别语种以及一种采用总变化量因子的语种识别方法及系统。然而,该类技术只能处理语音数据,无法应用于图像数据。总之,目前尚缺乏可以从文字图像(见图1)中直接判断语种的技术和系统。
发明内容
针对现有技术的不足,一方面,本发明提供一种基于图像的语种识别方法。所述语种识别方法包括:计算给定文字图像的图像特征;以及基于所计算的图像特征利用训练好的分类模型确定所述给定文字图像上的文字所属的语种。
在本发明的一个实施例中,所述分类模型的训练包括:构建文字图像数据库,所述文字图像数据库包括多个文字图像以及每个文字图像相应的标签,所述标签指示相应的文字图像上的文字所属的语种;计算所述文字图像数据库中的每一个文字图像的图像特征;基于所述标签和所计算的每个文字图像的图像特征构建训练集;以及采用随机森林(RandomForest)算法在所述训练集上训练出所述分类模型。
在本发明的一个实施例中,所述分类模型的训练还包括:在构建所述文字图像数据库之后、在计算所述每一个文字图像的图像特征之前对所述文字图像数据库进行扩充,所述扩充包括:将所述文字图像数据库中所有文字图像的高度归一化并对高度归一化后的文字图像执行预定次数的第一操作,所述第一操作包括:将文字图像的宽度拉伸或压缩为原来宽度的λ倍,同时保持高度不变,其中λ为预定范围内的随机数;以及向宽度拉伸或压缩后的文字图像中添加高斯随机噪声。
在本发明的一个实施例中,所述计算给定文字图像的图像特征包括:将给定文字图像的高度归一化;对高度归一化后的给定文字图像执行预定次数的第二操作,以生成所述给定文字图像的多个派生图像;以及计算所述多个派生图像各自的图像特征。其中,所述第二操作包括:将给定文字图像的宽度拉伸或压缩为原来宽度的λ倍,同时保持高度不变,其中λ为预定范围内的随机数;以及向宽度拉伸或压缩后的给定文字图像中添加高斯随机噪声。
示例性地,所述基于所计算的图像特征利用训练好的分类模型确定所述给定文字图像上的文字所属的语种包括:将所计算的所述多个派生图像的图像特征分别输入到所述分类模型以得到多个识别结果;以及对所述多个识别结果取平均值作为所述给定文字图像上的文字所属的语种的最终识别结果。
示例性地,所述λ的取值范围为[0.75,1.5]。
示例性地,所述高斯随机噪声的均值为0、方差的取值范围为[0,15]。
示例性地,所述预定次数为100次或200次。
在本发明的一个实施例中,计算文字图像的图像特征包括计算文字图像的纹理特征和/或形状特征。
示例性地,计算文字图像的纹理特征包括计算文字图像的词袋模型(BagofWords)。
示例性地,计算文字图像的形状特征包括计算文字图像的形状上下文(ShapeContext)。
另一方面,本发明还提供一种基于图像的语种识别装置。所述语种识别装置包括:特征提取模块,用于计算给定文字图像的图像特征;以及图像分类模块,用于利用其包括的训练好的分类模型、基于所计算的图像特征确定所述给定文字图像上的文字所属的语种。
在本发明的一个实施例中,所述分类模型的训练包括:构建文字图像数据库,所述文字图像数据库包括多个文字图像以及每个文字图像相应的标签,所述标签指示相应的文字图像上的文字所属的语种;计算所述文字图像数据库中的每一个文字图像的图像特征;基于所述标签和所计算的每个文字图像的图像特征构建训练集;以及采用随机森林算法在所述训练集上训练出所述分类模型。
在本发明的一个实施例中,所述分类模型的训练还包括:在构建所述文字图像数据库之后、在计算所述每一个文字图像的图像特征之前对所述文字图像数据库进行扩充,所述扩充包括:将所述文字图像数据库中所有文字图像的高度归一化并对高度归一化后的文字图像执行预定次数的第一操作,所述第一操作包括:将文字图像的宽度拉伸或压缩为原来宽度的λ倍,同时保持高度不变,其中λ为预定范围内的随机数;以及向宽度拉伸或压缩后的文字图像中添加高斯随机噪声。
在本发明的一个实施例中,所述特征提取模块计算给定文字图像的图像特征的方法包括:将给定文字图像的高度归一化;对高度归一化后的给定文字图像执行预定次数的第二操作,以生成所述给定文字图像的多个派生图像;以及计算所述多个派生图像各自的图像特征。其中,所述第二操作包括:将给定文字图像的宽度拉伸或压缩为原来宽度的λ倍,同时保持高度不变,其中λ为预定范围内的随机数;以及向宽度拉伸或压缩后的给定文字图像中添加高斯随机噪声。
示例性地,所述图像分类模块利用其包括的训练好的分类模型、基于所计算的图像特征确定所述给定文字图像上的文字所属的语种的方法包括:将所计算的所述多个派生图像的图像特征分别输入到所述分类模型以得到多个识别结果;以及对所述多个识别结果取平均值作为所述给定文字图像上的文字所属的语种的最终识别结果。
示例性地,所述λ的取值范围为[0.75,1.5]。
示例性地,所述高斯随机噪声的均值为0、方差的取值范围为[0,15]。
示例性地,所述预定次数为100次或200次。
在本发明的一个实施例中,所述特征提取模块计算文字图像的图像特征的方法包括计算文字图像的纹理特征和/或形状特征。
示例性地,所述特征提取模块计算文字图像的纹理特征的方法包括计算文字图像的词袋模型。
示例性地,所述特征提取模块计算文字图像的形状特征的方法包括计算文字图像的形状上下文。
本发明提供的基于图像的语种识别方法及装置通过图像特性自动判断给定文字所属的语种,识别精度高且速度快,此外还免去了人工辨识和指定语种的过程,因此可以极大提高文档处理、自动翻译等过程的效率。
附图说明
本发明的下列附图在此作为本发明的一部分用于理解本发明。附图中示出了本发明的实施例及其描述,用来解释本发明的原理。
附图中:
图1示出了不同语种文字图像的示例;
图2示出了根据本发明实施例的、基于图像的语种识别方法的流程图;以及
图3示出了根据本发明实施例的、基于图像的语种识别装置的结构框图。
具体实施方式
在下文的描述中,给出了大量具体的细节以便提供对本发明更为彻底的理解。然而,对于本领域技术人员而言显而易见的是,本发明可以无需一个或多个这些细节而得以实施。在其他的例子中,为了避免与本发明发生混淆,对于本领域公知的一些技术特征未进行描述。
应当理解的是,本发明能够以不同形式实施,而不应当解释为局限于这里提出的实施例。相反地,提供这些实施例将使公开彻底和完全,并且将本发明的范围完全地传递给本领域技术人员。
在此使用的术语的目的仅在于描述具体实施例并且不作为本发明的限制。在此使用时,单数形式的“一”、“一个”和“所述/该”也意图包括复数形式,除非上下文清楚指出另外的方式。还应明白术语“组成”和/或“包括”,当在该说明书中使用时,确定所述特征、整数、步骤、操作、元件和/或部件的存在,但不排除一个或更多其它的特征、整数、步骤、操作、元件、部件和/或组的存在或添加。在此使用时,术语“和/或”包括相关所列项目的任何及所有组合。
为了彻底理解本发明,将在下列的描述中提出详细的步骤以及详细的结构,以便阐释本发明的技术方案。本发明的较佳实施例详细描述如下,然而除了这些详细描述外,本发明还可以具有其他实施方式。
本发明的一个实施例提供一种基于图像的语种识别方法,用于通过图像特性自动判断给定文字图像(例如包括文字的图像)上的文字所属的语言类别(即语种),免去人工辨识和指定语种的过程,提高文档处理、自动翻译等过程的效率。
下面,参照图2来具体描述根据本发明的一个实施例的基于图像的语种识别方法。图2示出了根据本发明实施例的、基于图像的语种识别方法200的流程图。如图2所示,基于图像的语种识别方法200包括如下步骤:
步骤201:计算给定文字图像的图像特征;以及
步骤202:基于所计算的图像特征利用训练好的分类模型确定该给定文字图像上的文字所属的语种。
示例性地,步骤201可以包括:计算给定文字图像的纹理特征和/或形状特征。不同语言类别的文字(字符),其纹理和形状特征存在较为显著的区别,因此通过计算给定文字图像的纹理特征和/或形状特征可以提高语种识别的精度。可选地,纹理特征和形状特征既可以独立使用,也可以拼接起来作为组合特征使用。
根据本发明的一个实施例,计算文字图像的纹理特征可以包括计算文字图像的词袋模型。词袋模型是图像纹理特征的一种统计表达,可以有效描述图像的整体和局部特性。词袋模型的计算可以包括两个主要步骤(a)和(b):
(a)建立码本:从一个训练图像集合中随机提取大量的图像描述符(如SIFT、HOG等),每个图像描述符都是一个向量,采用K-means聚类算法对这些图像描述符进行聚类,得到K个类别(K为可以调节的参数,典型值为1024、2048、10000等)。聚类中心被称为“词”,聚类得到的所有类别组成一个“码本”。
(b)图像描述:对于一幅图像,以稠密的方式提取特征描述符(如SIFT、HOG等);对于每一个描述符,在码本中搜索最相似的聚类中心(也即词)。统计不同词在该图像中出现的频度,形成一个直方图。对该直方图作L1归一化,得到最后的基于词袋模型的图像纹理特征。
根据本发明的一个实施例,计算文字图像的形状特征可以包括计算文字图像的形状上下文。形状上下文是基于物体轮廓样本点进行描述的。前期的预处理工作可以包括边缘提取和采样(例如均匀采样),得到一个物体形状的点集合。单个点进行形状信息描述,每个点的形状信息由所有其他点与之形成的相对向量集表示。为了方便计算统计,采用直方图表示这些向量。在得到每个采样点的形状上下文特征后,整个图像的形状上下文表示由采样点的形状上下文特征的集合构成。在实际应用中,不同文字图像的长宽比可能并不相同。为处理不同长宽比的文字图像,可以在计算形状上下文之前对图像进行归一化处理:将所有图像缩放到相同的高度(例如48像素),同时保持其长宽比不变。同时,在采样的过程中,将采样点的数目设置为统一的数值(例如512或1024)。
现在回到基于图像的语种识别方法200,在步骤202中所述的分类模型可以通过训练得到。示例性地,分类模型的训练可以包括如下步骤(A)~(D):
(A):收集一组文字图像。对于每一张文字图像,标注标签指明其上的文字所属的类别(也即语种),构建一个文字图像数据库。
(B):对于文字图像数据库中的每一幅图像I,计算其特征x,特征的计算方法类似于上文所述的对文字图像的纹理特征和/或形状特征的计算,因此此处不再赘述。
(C):将所有图像的特征和标签汇总,得到一个训练集,所述训练集可以表示为:S={xi,yi},i=1,2,...N,其中N为文字图像数据库中图像的数目,xi为图像Ii的特征向量,yi为图像Ii的标签,该标签指明图像Ii上的文字属于哪个语种。
(D):采用随机森林算法,在训练集S上训练一个分类模型C。
基于训练好的分类模型C,对于给定的文字图像J,在步骤202中可以将在步骤201计算得到的图像特征x(J)输入到分类模型C,得到识别结果y(J)。y(J)指明文字图像J上的文字所属的语种。
根据本发明的一个实施例,分类模型的训练还可以包括:在步骤(A)之后、并且在步骤(B)之前对文字图像数据库进行扩充。该扩充可以包括:将文字图像数据库中所有文字图像的高度归一化(例如将文字图像数据库中所有文字图像的高度缩放到相同的高度,例如48像素),然后对高度归一化后的文字图像执行预定次数例如P次(P为参数,其数值可以根据实际需要进行设定,典型值可以为100或200)的第一操作。其中,第一操作可以包括:将文字图像I进行随机横向拉伸或压缩,例如生成随机数λ,λ的取值范围例如可以为[0.75,1.5],将图像I的宽度变为原来的λ倍,同时保持其高度不变;然后向宽度拉伸或压缩后的文字图像I中添加高斯随机噪声,高斯随机噪声的均值可以为0、方差的取值范围可以为[0,15]。通过上述操作,文字图像数据库可以被扩充为原来的P倍。
根据本发明的又一个实施例,基于图像的语种识别方法200的步骤201可以进一步包括:将给定文字图像J的高度归一化,例如将其高度缩放到标准尺寸(如48个像素),同时保持其长宽比不变;然后对高度归一化后的给定文字图像执行预定次数例如Q次(Q为参数,典型值可以为100)的第二操作,以生成该给定文字图像的多个派生图像Rm,其中m=1,2,...,Q;最后计算所生成的多个派生图像Rm各自的图像特征x(Rm)。其中,第二操作可以包括:将给定文字图像J进行随机横向拉伸或压缩,例如生成随机数λ,λ的取值范围例如可以为[0.75,1.5],将图像的宽度变为原来的λ倍,同时保持其高度不变;然后向宽度拉伸或压缩后的给定文字图像中添加高斯随机噪声,高斯随机噪声的均值可以为0、方差的取值范围可以为[0,15]。
在该示例中,基于图像的语种识别方法200的步骤202可以进一步包括:将所计算的上述多个派生图像Rm的图像特征x(Rm)分别输入到训练好的分类模型C以得到多个识别结果y(Rm),然后对所得到的多个识别结果y(Rm)取平均值作为给定文字图像上的文字所属的语种的最终识别结果y(J),该最终识别结果y(J)用公式表示为:
y ( J ) = Σ m = 1 Q y ( R m ) Q
根据本发明上述实施例的基于图像的语种识别方法提供了适用于文档处理、自动翻译等应用场景的自动化解决方案。该方法通过图像特性自动判断给定文字所属的语种(语言类别),具有精度高、速度快的特点;此外,该方法避免了人工辨识和指定语种的过程,因此可以极大提高文档处理、自动翻译等过程的效率。
值得注意的是,根据本发明上述实施例的基于图像的语种识别方法利用图像信息进行语种识别,其本质上是利用不同语种对应文字的字形进行语种分类。因此,在不同历史时期具有不同字符集的语种(例如旧蒙文和新蒙文)可以被识别为不同的语种。此外,当文字图像中出现一个语种以上的文字混杂(例如中英文同时出现)时,可以进行文字切分和定位,最终识别输出的语种信息和定位得到的文字框相对应。
根据本发明的另一方面,还提供了一种基于图像的语种识别装置。图3示出了根据本发明实施例的基于图像的语种识别装置300的结构框图。如图3所示,基于图像的语种识别装置300包括:特征提取模块301和图像分类模块302。其中,特征提取模块301用于计算给定文字图像(例如所输入的文字图像)的图像特征;图像分类模块302用于利用其包括的训练好的分类模型、基于特征提取模块301所计算的图像特征确定该给定文字图像上的文字所属的语种。例如,图像分类模块302可以输出针对给定文字图像上文字所属语种的识别结果。
其中,训练好的分类模型为图像分类模块302的一部分。示例性地,分类模型的训练可以包括:构建文字图像数据库,所述文字图像数据库包括多个文字图像以及每个文字图像相应的标签,所述标签指示相应的文字图像上的文字所属的语种;计算所述文字图像数据库中的每一个文字图像的图像特征;基于所述标签和所计算的每个文字图像的图像特征构建训练集;以及采用随机森林算法在所述训练集上训练出所述分类模型。
根据本发明的一个实施例,分类模型的训练还可以包括:在构建所述文字图像数据库之后、在计算所述每一个文字图像的图像特征之前对所述文字图像数据库进行扩充,所述扩充包括:将所述文字图像数据库中所有文字图像的高度归一化并对高度归一化后的文字图像执行预定次数的第一操作,所述第一操作包括:将文字图像的宽度拉伸或压缩为原来宽度的λ倍,同时保持高度不变,其中λ为预定范围内的随机数;以及向宽度拉伸或压缩后的文字图像中添加高斯随机噪声。
根据本发明的一个实施例,特征提取模块301计算给定文字图像的图像特征的方法可以包括:将给定文字图像的高度归一化;对高度归一化后的给定文字图像执行预定次数的第二操作,以生成所述给定文字图像的多个派生图像;以及计算所述多个派生图像各自的图像特征。其中,所述第二操作包括:将给定文字图像的宽度拉伸或压缩为原来宽度的λ倍,同时保持高度不变,其中λ为预定范围内的随机数;以及向宽度拉伸或压缩后的给定文字图像中添加高斯随机噪声。图像分类模块302利用其包括的训练好的分类模型、基于所计算的图像特征确定所述给定文字图像上的文字所属的语种的方法可以包括:将所计算的所述多个派生图像的图像特征分别输入到所述分类模型以得到多个识别结果;以及对所述多个识别结果取平均值作为所述给定文字图像上的文字所属的语种的最终识别结果。
其中,λ的取值范围可以为[0.75,1.5];高斯随机噪声的均值可以为0、方差的取值范围可以为[0,15];上述预定次数可以为100次或200次。
根据本发明的一个实施例,特征提取模块301计算文字图像的图像特征的方法可以包括计算文字图像的纹理特征和/或形状特征。
示例性地,特征提取模块301计算文字图像的纹理特征的方法可以包括计算文字图像的词袋模型。
示例性地,特征提取模块301计算文字图像的形状特征的方法可以包括计算文字图像的形状上下文。
关于词袋模型和形状上下文的计算,上文已进行了详细描述,因此此处不再赘述。
本发明实施例的各个模块可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本发明实施例的基于图像的语种识别装置中的一些或者全部部件的一些或者全部功能。本发明还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本发明的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在存储载体上提供,或者以任何其他形式提供。
本发明已经通过上述实施例进行了说明,但应当理解的是,上述实施例只是用于举例和说明的目的,而非意在将本发明限制于所描述的实施例范围内。此外本领域技术人员可以理解的是,本发明并不局限于上述实施例,根据本发明的教导还可以做出更多种的变型和修改,这些变型和修改均落在本发明所要求保护的范围以内。本发明的保护范围由附属的权利要求书及其等效范围所界定。

Claims (20)

1.一种基于图像的语种识别方法,其特征在于,所述语种识别方法包括:
计算给定文字图像的图像特征;以及
基于所计算的图像特征利用训练好的分类模型确定所述给定文字图像上的文字所属的语种。
2.如权利要求1所述的语种识别方法,其特征在于,所述分类模型的训练包括:
构建文字图像数据库,所述文字图像数据库包括多个文字图像以及每个文字图像相应的标签,所述标签指示相应的文字图像上的文字所属的语种;
计算所述文字图像数据库中的每一个文字图像的图像特征;
基于所述标签和所计算的每个文字图像的图像特征构建训练集;以及
采用随机森林算法在所述训练集上训练出所述分类模型。
3.如权利要求2所述的语种识别方法,其特征在于,所述分类模型的训练还包括:在构建所述文字图像数据库之后、在计算所述每一个文字图像的图像特征之前对所述文字图像数据库进行扩充,所述扩充包括:将所述文字图像数据库中所有文字图像的高度归一化并对高度归一化后的文字图像执行预定次数的第一操作,所述第一操作包括:
将文字图像的宽度拉伸或压缩为原来宽度的λ倍,同时保持高度不变,其中λ为预定范围内的随机数;以及
向宽度拉伸或压缩后的文字图像中添加高斯随机噪声。
4.如权利要求1所述的语种识别方法,其特征在于,
所述计算给定文字图像的图像特征包括:
将给定文字图像的高度归一化;
对高度归一化后的给定文字图像执行预定次数的第二操作,以生成所述给定文字图像的多个派生图像;以及
计算所述多个派生图像各自的图像特征,
其中,所述第二操作包括:
将给定文字图像的宽度拉伸或压缩为原来宽度的λ倍,同时保持高度不变,其中λ为预定范围内的随机数;以及
向宽度拉伸或压缩后的给定文字图像中添加高斯随机噪声。
5.如权利要求4所述的语种识别方法,其特征在于,所述基于所计算的图像特征利用训练好的分类模型确定所述给定文字图像上的文字所属的语种包括:
将所计算的所述多个派生图像的图像特征分别输入到所述分类模型以得到多个识别结果;以及
对所述多个识别结果取平均值作为所述给定文字图像上的文字所属的语种的最终识别结果。
6.如权利要求3或4所述的语种识别方法,其特征在于,所述λ的取值范围为[0.75,1.5]。
7.如权利要求3或4所述的语种识别方法,其特征在于,所述高斯随机噪声的均值为0、方差的取值范围为[0,15]。
8.如权利要求3或4所述的语种识别方法,其特征在于,所述预定次数为100次或200次。
9.如权利要求1-5中的任一项所述的语种识别方法,其特征在于,计算文字图像的图像特征包括计算文字图像的纹理特征和/或形状特征。
10.如权利要求9所述的语种识别方法,其特征在于,计算文字图像的纹理特征包括计算文字图像的词袋模型,计算文字图像的形状特征包括计算文字图像的形状上下文。
11.一种基于图像的语种识别装置,其特征在于,所述语种识别装置包括:
特征提取模块,用于计算给定文字图像的图像特征;以及
图像分类模块,用于利用其包括的训练好的分类模型、基于所计算的图像特征确定所述给定文字图像上的文字所属的语种。
12.如权利要求11所述的语种识别装置,其特征在于,所述分类模型的训练包括:
构建文字图像数据库,所述文字图像数据库包括多个文字图像以及每个文字图像相应的标签,所述标签指示相应的文字图像上的文字所属的语种;
计算所述文字图像数据库中的每一个文字图像的图像特征;
基于所述标签和所计算的每个文字图像的图像特征构建训练集;以及
采用随机森林算法在所述训练集上训练出所述分类模型。
13.如权利要求12所述的语种识别装置,其特征在于,所述分类模型的训练还包括:在构建所述文字图像数据库之后、在计算所述每一个文字图像的图像特征之前对所述文字图像数据库进行扩充,所述扩充包括:将所述文字图像数据库中所有文字图像的高度归一化并对高度归一化后的文字图像执行预定次数的第一操作,所述第一操作包括:
将文字图像的宽度拉伸或压缩为原来宽度的λ倍,同时保持高度不变,其中λ为预定范围内的随机数;以及
向宽度拉伸或压缩后的文字图像中添加高斯随机噪声。
14.如权利要求11所述的语种识别装置,其特征在于,
所述特征提取模块计算给定文字图像的图像特征的方法包括:
将给定文字图像的高度归一化;
对高度归一化后的给定文字图像执行预定次数的第二操作,以生成所述给定文字图像的多个派生图像;以及
计算所述多个派生图像各自的图像特征,
其中,所述第二操作包括:
将给定文字图像的宽度拉伸或压缩为原来宽度的λ倍,同时保持高度不变,其中λ为预定范围内的随机数;以及
向宽度拉伸或压缩后的给定文字图像中添加高斯随机噪声。
15.如权利要求14所述的语种识别装置,其特征在于,所述图像分类模块利用其包括的训练好的分类模型、基于所计算的图像特征确定所述给定文字图像上的文字所属的语种的方法包括:
将所计算的所述多个派生图像的图像特征分别输入到所述分类模型以得到多个识别结果;以及
对所述多个识别结果取平均值作为所述给定文字图像上的文字所属的语种的最终识别结果。
16.如权利要求13或14所述的语种识别装置,其特征在于,所述λ的取值范围为[0.75,1.5]。
17.如权利要求13或14所述的语种识别装置,其特征在于,所述高斯随机噪声的均值为0、方差的取值范围为[0,15]。
18.如权利要求13或14所述的语种识别装置,其特征在于,所述预定次数为100次或200次。
19.如权利要求11-15中的任一项所述的语种识别装置,其特征在于,所述特征提取模块计算文字图像的图像特征的方法包括计算文字图像的纹理特征和/或形状特征。
20.如权利要求19所述的语种识别装置,其特征在于,所述特征提取模块计算文字图像的纹理特征的方法包括计算文字图像的词袋模型,所述特征提取模块计算文字图像的形状特征的方法包括计算文字图像的形状上下文。
CN201510520119.6A 2015-08-21 2015-08-21 基于图像的语种识别方法及装置 Pending CN105139041A (zh)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN201510520119.6A CN105139041A (zh) 2015-08-21 2015-08-21 基于图像的语种识别方法及装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
CN201510520119.6A CN105139041A (zh) 2015-08-21 2015-08-21 基于图像的语种识别方法及装置

Publications (1)

Publication Number Publication Date
CN105139041A true CN105139041A (zh) 2015-12-09

Family

ID=54724384

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201510520119.6A Pending CN105139041A (zh) 2015-08-21 2015-08-21 基于图像的语种识别方法及装置

Country Status (1)

Country Link
CN (1) CN105139041A (zh)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106384109A (zh) * 2016-09-08 2017-02-08 广东小天才科技有限公司 一种电子终端确定对焦的方法和装置
CN106407923A (zh) * 2016-09-08 2017-02-15 广东小天才科技有限公司 一种应用于电子终端的信息处理方法和装置
CN106971188A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种图像识别装置及方法
CN106971183A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种图像识别装置及方法
CN107256378A (zh) * 2017-04-24 2017-10-17 北京航空航天大学 语种识别方法及装置
CN107545271A (zh) * 2016-06-29 2018-01-05 阿里巴巴集团控股有限公司 图像识别方法、装置和系统
CN107957994A (zh) * 2017-10-30 2018-04-24 努比亚技术有限公司 一种翻译方法、终端及计算机可读存储介质
CN108062301A (zh) * 2016-11-08 2018-05-22 希思特兰国际 文字翻译方法及其装置
CN109478229A (zh) * 2016-08-31 2019-03-15 富士通株式会社 用于字符识别的分类网络的训练装置、字符识别装置及方法
CN109685055A (zh) * 2018-12-26 2019-04-26 北京金山数字娱乐科技有限公司 一种图像中文本区域的检测方法及装置
CN110210469A (zh) * 2019-05-31 2019-09-06 中科软科技股份有限公司 一种识别图片文字语种的方法及系统
CN110334705A (zh) * 2019-06-25 2019-10-15 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法
CN111339787A (zh) * 2018-12-17 2020-06-26 北京嘀嘀无限科技发展有限公司 一种语种识别方法、装置、电子设备及存储介质
CN111639639A (zh) * 2019-03-01 2020-09-08 杭州海康威视数字技术股份有限公司 检测文本区域的方法、装置、设备及存储介质

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1271140A (zh) * 1999-04-21 2000-10-25 中国科学院自动化研究所 基于纹理分析的字体和笔迹识别方法
CN102831447A (zh) * 2012-08-30 2012-12-19 北京理工大学 多类别面部表情高精度识别方法

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1271140A (zh) * 1999-04-21 2000-10-25 中国科学院自动化研究所 基于纹理分析的字体和笔迹识别方法
CN102831447A (zh) * 2012-08-30 2012-12-19 北京理工大学 多类别面部表情高精度识别方法

Non-Patent Citations (5)

* Cited by examiner, † Cited by third party
Title
曹莉: "基于文种识别的东南亚传真报筛选检索研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
杨化超: "《图像局部不变性特征及其匹配问题研究与应用》", 31 December 2013, 测绘出版社 *
章毓晋: "《图像工程 下 图像理解(第3版)》", 31 December 2012, 清华大学出版社 *
郭龙: "印刷体文本图像文种识别技术研究", 《中国优秀硕士学位论文全文数据库信息科技辑》 *
郭龙等: "基于图像特征用于文本图像文种识别", 《应用科学学报》 *

Cited By (23)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106971188A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种图像识别装置及方法
CN106971183A (zh) * 2016-01-14 2017-07-21 芋头科技(杭州)有限公司 一种图像识别装置及方法
CN107545271B (zh) * 2016-06-29 2021-04-09 阿里巴巴集团控股有限公司 图像识别方法、装置和系统
CN107545271A (zh) * 2016-06-29 2018-01-05 阿里巴巴集团控股有限公司 图像识别方法、装置和系统
CN109478229A (zh) * 2016-08-31 2019-03-15 富士通株式会社 用于字符识别的分类网络的训练装置、字符识别装置及方法
CN109478229B (zh) * 2016-08-31 2021-08-10 富士通株式会社 用于字符识别的分类网络的训练装置、字符识别装置及方法
CN106407923B (zh) * 2016-09-08 2020-01-03 广东小天才科技有限公司 一种应用于电子终端的信息处理方法和装置
CN106384109B (zh) * 2016-09-08 2020-01-03 广东小天才科技有限公司 一种电子终端确定对焦的方法和装置
CN106384109A (zh) * 2016-09-08 2017-02-08 广东小天才科技有限公司 一种电子终端确定对焦的方法和装置
CN106407923A (zh) * 2016-09-08 2017-02-15 广东小天才科技有限公司 一种应用于电子终端的信息处理方法和装置
CN108062301A (zh) * 2016-11-08 2018-05-22 希思特兰国际 文字翻译方法及其装置
CN108062301B (zh) * 2016-11-08 2021-11-05 希思特兰国际 文字翻译方法及其装置
CN107256378A (zh) * 2017-04-24 2017-10-17 北京航空航天大学 语种识别方法及装置
CN107957994A (zh) * 2017-10-30 2018-04-24 努比亚技术有限公司 一种翻译方法、终端及计算机可读存储介质
CN111339787B (zh) * 2018-12-17 2023-09-19 北京嘀嘀无限科技发展有限公司 一种语种识别方法、装置、电子设备及存储介质
CN111339787A (zh) * 2018-12-17 2020-06-26 北京嘀嘀无限科技发展有限公司 一种语种识别方法、装置、电子设备及存储介质
CN109685055A (zh) * 2018-12-26 2019-04-26 北京金山数字娱乐科技有限公司 一种图像中文本区域的检测方法及装置
CN109685055B (zh) * 2018-12-26 2021-11-12 北京金山数字娱乐科技有限公司 一种图像中文本区域的检测方法及装置
CN111639639A (zh) * 2019-03-01 2020-09-08 杭州海康威视数字技术股份有限公司 检测文本区域的方法、装置、设备及存储介质
CN111639639B (zh) * 2019-03-01 2023-05-02 杭州海康威视数字技术股份有限公司 检测文本区域的方法、装置、设备及存储介质
CN110210469A (zh) * 2019-05-31 2019-09-06 中科软科技股份有限公司 一种识别图片文字语种的方法及系统
CN110334705B (zh) * 2019-06-25 2021-08-03 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法
CN110334705A (zh) * 2019-06-25 2019-10-15 华中科技大学 一种结合全局和局部信息的场景文本图像的语种识别方法

Similar Documents

Publication Publication Date Title
CN105139041A (zh) 基于图像的语种识别方法及装置
Yi et al. Scene text recognition in mobile applications by character descriptor and structure configuration
Agnihotri Offline handwritten Devanagari script recognition
CN105117740A (zh) 字体识别方法及装置
CN104517106B (zh) 一种列表识别方法与系统
CN105608454B (zh) 基于文字结构部件检测神经网络的文字检测方法及系统
Shrivastava et al. Artificial neural network based optical character recognition
CN105260751B (zh) 一种文字识别方法及其系统
CN103279770B (zh) 基于笔画片段和轮廓特征的笔迹识别方法
CN103164701B (zh) 手写体数字识别方法及装置
CN101763516A (zh) 一种基于拟合函数的文字识别方法
Khmag et al. Recognition system for leaf images based on its leaf contour and centroid
Mishchenko et al. Chart image understanding and numerical data extraction
CN103886077B (zh) 短文本的聚类方法和系统
Choudhury et al. Movement epenthesis detection for continuous sign language recognition
Abdullah et al. Off-line arabic handwriting character recognition using word segmentation
CN101655911B (zh) 基于免疫抗体网络的模式识别方法
CN110825896A (zh) 一种商标检索系统及检索方法
CN104966109A (zh) 医疗化验单图像分类方法及装置
CN101488182B (zh) 一种用于手写汉字识别的图像特征提取方法
CN104463091A (zh) 一种基于图像lgbp特征子向量的人脸图像识别方法
Wilkinson et al. A novel word segmentation method based on object detection and deep learning
CN106503706B (zh) 汉字字形切割结果正确性的判别方法
Ali et al. UOCR: A ligature based approach for an Urdu OCR system
CN115761235A (zh) 基于知识蒸馏的零样本语义分割方法、系统、设备及介质

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information

Address after: 100190 Beijing, Haidian District Academy of Sciences, South Road, No. 2, block A, No. 313

Applicant after: MEGVII INC.

Applicant after: Beijing maigewei Technology Co., Ltd.

Address before: 100190 Beijing, Haidian District Academy of Sciences, South Road, No. 2, block A, No. 313

Applicant before: MEGVII INC.

Applicant before: Beijing aperture Science and Technology Ltd.

CB02 Change of applicant information
TA01 Transfer of patent application right

Effective date of registration: 20180913

Address after: 221007 Fuxing North Road, Gulou District, Xuzhou, Jiangsu 219

Applicant after: Xuzhou Kuang Shi Data Technology Co., Ltd.

Applicant after: Beijing Defiance Technology Co., Ltd.

Applicant after: Beijing maigewei Technology Co., Ltd.

Address before: 100190 A block 2, South Road, Haidian District Academy of Sciences, Beijing 313

Applicant before: MEGVII INC.

Applicant before: Beijing maigewei Technology Co., Ltd.

TA01 Transfer of patent application right
RJ01 Rejection of invention patent application after publication

Application publication date: 20151209

RJ01 Rejection of invention patent application after publication