CN115428041A - 文本分类 - Google Patents

文本分类 Download PDF

Info

Publication number
CN115428041A
CN115428041A CN202180027675.3A CN202180027675A CN115428041A CN 115428041 A CN115428041 A CN 115428041A CN 202180027675 A CN202180027675 A CN 202180027675A CN 115428041 A CN115428041 A CN 115428041A
Authority
CN
China
Prior art keywords
text
class
global
classes
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN202180027675.3A
Other languages
English (en)
Inventor
弗雷德里克·科利特
范达娜·罗伊
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Europa NV
Original Assignee
Canon Europa NV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Europa NV filed Critical Canon Europa NV
Publication of CN115428041A publication Critical patent/CN115428041A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/82Arrangements for image or video recognition or understanding using pattern recognition or machine learning using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/146Aligning or centring of the image pick-up or image-field
    • G06V30/1463Orientation detection or correction, e.g. rotation of multiples of 90 degrees
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/18Extraction of features or characteristics of the image
    • G06V30/1801Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections
    • G06V30/18019Detecting partial patterns, e.g. edges or contours, or configurations, e.g. loops, corners, strokes or intersections by matching or filtering
    • G06V30/18038Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters
    • G06V30/18048Biologically-inspired filters, e.g. difference of Gaussians [DoG], Gabor filters with interaction between the responses of different filters, e.g. cortical complex cells
    • G06V30/18057Integrating the filters into a hierarchical structure, e.g. convolutional neural networks [CNN]
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19147Obtaining sets of training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/19Recognition using electronic means
    • G06V30/191Design or setup of recognition systems or techniques; Extraction of features in feature space; Clustering techniques; Blind source separation
    • G06V30/19173Classification techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/413Classification of content, e.g. text, photographs or tables
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • General Physics & Mathematics (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • Biodiversity & Conservation Biology (AREA)
  • Computing Systems (AREA)
  • Databases & Information Systems (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Character Discrimination (AREA)
  • Character Input (AREA)
  • Image Analysis (AREA)

Abstract

提供了用于进行文本分类的文本分类设备(100)、光学字符辨别单元(1)、文本分类方法(S220)和程序。分割单元(110)将图像分割成多个文本行(401‑412;451‑457;501‑504;701‑705)(S221)。选择单元(120)从多个文本行中选择文本行(S222‑S223)。识别单元(130)识别与所选择的文本行相对应的类序列(S224)。记录单元(140)针对所选择的文本行记录与类序列中的类相对应的全局类(S225‑S226)。分类单元(150)基于全局类的置信水平,根据全局类对图像进行分类(S227‑S228)。

Description

文本分类
技术领域
本公开涉及文本分类。具体地,本公开涉及文本分类设备、光学字符辨别设备、文本分类方法、训练方法和程序。
背景技术
进行光学字符辨别(OCR)以将包括在图像中的文本转换为机器编码文本。可以使用OCR软件分析的图像包括经扫描文档、文档的照片、场景的照片、视频记录和已经叠加在文档上的文本。图像中的可以转换的文本包括打字、手写和经打印文本。机器编码文本包括用于电子通信的任何字符编码标准,诸如ASCII、unicode和表情符号。
在进行OCR之后,可以提取图像的已经检测到的属性。然而,OCR是计算密集型的,因而需要基于图像的属性来定制OCR。因此,如果在进行OCR之前已知一个或多于一个这样的属性,则可以更有效率地进行OCR。
术语“属性”用于指代可以与图像相关联的不同变量,而术语“类”指代针对图像识别的这种变量的特定值。
属性的第一个示例是图像中文本的文字。对于文字属性,文字类的示例是拉丁文。
属性的第二个示例是图像中文本的定向。定向类的示例是相对于水平线具有0度、90度、180度和270度附近的角度的文本。
用户可以在OCR之前识别属性,但是这给用户带来负担。因此,需要作为图像辨别处理的一部分能够记录属性的文本分类软件。
需要提高通过文本分类软件记录属性的效率。结果,文本分类软件对处理器施加较低的处理负担。进行文本分类的处理资源的减少允许这些资源专用于提高文本分类的准确性,因此针对各个图像的分析来定制OCR的准确性和效率。结果是增加了文本分类的速度和准确性,并且进一步有助于增加OCR执行的速度和准确性。
FUJII(Sequence-to-Label Script Identification for Multilingual OCR,arXiv:1708.04671v2,by Y.Fujii,K.Driesen,J.Baccash,A.Hurst and A.C.Popat)描述了行级文字识别方法。编码器将行图像转换为特征序列。然后,汇总器聚合序列以对行进行分类。记录来自文字代码序列的行的主文字。多数决定每个行的唯一文字标签。
由FUJII提出的技术的问题在于:处理任意混合文字和混合语言内容的多语言OCR系统遇到困难。FUJII没有避免如下的发生:这可能通过在更精细级别检测文字来应对,或者保持行级方法并考虑多个文字。
因此,需要一种文本分类技术,其基于对图像中识别的文本行的分析来对图像进行分类。期望通过消除属性检测中的错误来提高文本分类的效率,使得可以以所需的置信水平来识别图像的全局类。
发明内容
本公开的方面包括一种文本分类设备,其包括:分割单元,其被配置为将图像分割成多个文本行;选择单元,其被配置为从所述多个文本行中选择文本行;识别单元,其被配置为识别与所选择的文本行相对应的类序列;记录单元,其被配置为针对所选择的文本行来记录与所述类序列中的类相对应的全局类;以及分类单元,其被配置为基于全局类的置信水平,根据全局类对图像进行分类。
可选地,所述记录单元被配置为针对所选择的文本行记录:与所述类序列中的各个类相关联的频率;以及置信水平,其确立所述全局类是否与所述类序列的最高频率类相对应。
可选地,所述选择单元被配置为在置信度值低于阈值的情况下,选择其他文本行,所述识别单元被配置为识别与所选择的文本行相对应的多个类序列,以及所述记录单元被配置为针对所选择的文本行,记录与多个类序列中的类相对应的全局类。
可选地,所述分类单元被配置为在所述置信水平高于阈值的情况下,根据所述全局类对所述图像进行分类。
可选地,所述分类单元被配置为在所述置信水平低于阈值的情况下,根据多个全局类对所述图像进行分类。
可选地,所述选择单元被配置为基于文本行的纵横比来选择文本行。
可选地,类对应于文本的文字。
可选地,类对应于文本的定向。
可选地,基于文本的定向,在呈现给用户之前校正图像的定向。
可选地,类对应于:文字;以及文本的定向。
可选地,所述文本分类设备还包括神经网络,其被训练以使用包括多个文本样本的数据集来识别类。
可选地,所述数据集包括多个文本样本的多个定向。
可选地,所述神经网络包括:卷积神经网络,其被配置为进行文本行的图像辨别;以及递归神经网络,其被配置为进行文本行的序列辨别。
可选地,所述记录单元被配置为针对所选择的文本行记录多个全局类,其中,所述多个全局类中的各个全局类对应于所述类序列中的类,以及所述分类单元被配置为基于所述多个全局类中的各个全局类的置信水平,根据所述多个全局类对所述图像进行分类。
可选地,该设备还包括用于基于所识别的类的频率来确定所述置信水平的部件。可选地,基于最高频率类和次最高频率类的频率。
根据另一方面,提供一种光学字符辨别设备,其包括文本分类设备和光学字符辨别单元,所述文本分类设备包括:分割单元,其被配置为将图像分割成多个文本行;选择单元,其被配置为从所述多个文本行中选择文本行;识别单元,其被配置为识别与所选择的文本行相对应的类序列;记录单元,其被配置为针对所选择的文本行来记录与所述类序列中的类相对应的全局类;以及分类单元,其被配置为基于全局类的置信水平,根据全局类对图像进行分类,所述光学字符辨别单元被配置为通过应用对图像进行分类的全局类来对图像进行光学字符辨别。
根据另一方面,提供一种文本分类方法,包括:将图像分割成多个文本行;从所述多个文本行中选择文本行;识别与所选择的文本行相对应的类序列;针对所选择的文本行,记录与所述类序列中的类相对应的全局类;以及基于所述全局类的置信水平,根据所述全局类对所述图像进行分类。
根据另一方面,提供一种训练用于对文本进行分类的神经网络的计算机实现的方法,所述训练包括使用根据文本的文字和定向进行分组的多组训练数据项。
可选地,训练目标是将训练数据中的字符与文字和定向相关联。
可选地,训练数据中的文本的定向包括0度、90度、180度和270度的文本。
根据另一方面,提供根据权利要求22至25的计算机程序产品、计算机可读介质或计算机程序。
附图说明
现在将参考附图仅通过示例的方式描述实施例,在附图中:
图1是示出光学字符辨别设备的示意图;
图2是示出可以如何训练神经网络以将数据集的字符与文字和定向相关联的流程图;
图3是示出图像分类的流程图;
图4A-4B是示出图像的行分割的示意图;
图5A-5D是示出在行分类之后输出的类序列的图;
图6A-6D提供进行了文本分类的图像样本;以及
图7A-7C提供图像样本(图7A)以及行分割(图7B)和文本分类(图7C)的图像结果。
具体实施方式
下面将参考附图详细描述本公开的各种实施例、特征和方面。下面描述的各个实施例可以单独实现,或者在必要时或在单个实施例中来自各个实施例的元素或特征的组合是有益的情况下作为多个实施例或其特征的组合实现。
图1是示出光学字符辨别设备1的示意图,该光学字符辨别设备1包括文本分类设备100和光学字符辨别单元160。光学辨别设备1被配置为进行光学字符辨别(OCR)。
文本分类设备100包括分割单元110、选择单元120、识别单元130、记录单元140和分类单元150。分割单元110被配置为将图像分割成多个文本行。选择单元120被配置为从多个文本行中选择文本行。识别单元130被配置为识别与所选择的文本行相对应的类序列。记录单元140被配置为针对所选择的文本行来记录与类序列中的类相对应的全局类。记录单元140被配置为维护以频率降序排列的类的全局列表。全局列表以正在分析的各行的内容来更新。记录单元140中的最上面的类是图像的全局类的当前最佳候选。图像的最终分类由分类单元完成。分类单元150被配置为基于由记录单元140提供的数据、因此基于全局类的置信水平对图像进行分类。
文本分类设备100被配置为在OCR单元160进行OCR之前识别图像的属性。因此,通过将OCR单元160配置为进行针对由文本分类设备100识别的特定属性定制的OCR,减少了OCR单元160的处理需求。如果首先检测到以下属性中的一个或多于一个,则提高了OCR的效率:
-文本的文字(文字属性);
-文本的语言(语言属性);
-文本的字体(字体属性);
-文本是否为斜体(斜体属性);
-文本是否为粗体(粗体属性);
-文本是否加下划线(下划线属性);
-文本的偏斜(偏斜属性);
-文本的定向(定向属性);以及
-文本的分割行是水平的还是垂直的(水平/垂直属性)。
对于文字属性,文字类的示例是拉丁文、西里尔文、阿拉伯文、韩文、中文、日文、希伯来文、希腊文、印度文、孟加拉文、德文纳加尔文、泰米尔文、泰文、莫尔斯码和盲文字符。
一个类可以合并多个子类。如果文字属性被识别为中文文字类,则没有首先在繁体中文子类和简体中文子类之间进行区分。文本分类软件难以在这些子类之间进行区分,这是因为以繁体中文子类和简体中文子类书写的意符(ideogram)的外观存在重叠。代替地,繁体中文和简体中文被认为是更广泛的中文文字。在假设文字是简体中文和繁体中文的混合的情况下,进行OCR。然后使用基于字符频率的朴素贝叶斯(
Figure BDA0003882836940000061
Bayesian)分类器将OCR结果分类为简体中文或繁体中文。这是因为已经发现,在发生OCR之后,更准确地区分繁体中文子类和简体中文子类。
对于语言属性,语言类的示例是英文、法文和西班牙文,其文字属性对应于拉丁文文字类。
对于偏斜属性,这是通过测量文本相对于图像的水平轴的角度来记录的。角度是以度或弧度测量的连续变量。可以测量出角度使其位于公差内,使得具有公差内的偏斜的文本与特定偏斜类相关联。偏斜属性的评估允许通过旋转图像来校正图像的显示以去除偏斜。文档通常呈现在矩形页上,其中文本以相对于水平线0、180、90和270度的定向呈现。因此,定向属性可以被认为是偏斜属性的子集。
对于定向属性,类的示例是0度、90度、180度和270度,为此可以记录文本相对于水平线的定向。测量文本相对于水平线的角度使其位于公差级别内,因此在定向类附近内的文本将被分类。此外,定向属性不必限于特定的0、90、180和270度类,作为代替,文本分类设备可以被配置为理解角度是连续变量。
多个属性的识别进一步提高了OCR的效率。可以在图像的单个属性分析中一起识别多个属性,或者可以通过进行多个单独的属性分析步骤来识别多个属性。被组合检测的属性的示例包括:
-文字属性和定向属性这两者的识别;以及
-定向属性和垂直/水平属性这两者的识别。
在单个步骤中进行文本的文字属性和定向属性的记录。因此,(文字,定向)属性的示例是(拉丁文,0度)类。通过训练文本分类设备以辨别被指定为具有文字属性和定向属性这两者的文本的样本来实现将(文字,定向)属性记录为组合属性。
记录文字属性是在记录语言属性之前发生的步骤。例如,在记录为文字属性对应于拉丁文文字类之后,对语言属性的后续评估发现了语言属性对应于英文语言类。在检测语言属性之前记录文字属性减少了置于语言属性记录步骤上的处理负担。一旦文字类和语言类这两者都是已知的,则当进行OCR时处理负担减少,这是因为可以选择受限于已经检测到的特定语言类的字典。注意,语言类的记录不是必要的步骤,这是因为可以利用文字类来进行OCR,而不需要记录语言类。
通过使用已经被训练以在不同类之间进行区分的神经网络分析图像来进行图像分类。训练神经网络以使用包括类的成员的示例的数据集来识别类。训练神经网络以使用包括属于特定文字类的字符的数据集来识别文字类。对于训练神经网络以在单个步骤中辨别文字类和定向类这两者的特定布置,数据集包括属于特定文字类的字符,其中这些字符以多个不同的定向被输入。
神经网络包括多个卷积和递归网络层。卷积层是图像经过的第一层,并且第一层计算用于定义有助于学习手头问题的图像的某些特征的各种滤波器。然后,卷积图像经过基于LSTM(长期短记忆)的递归网络层,该递归网络层用于辨别字符序列。
训练神经网络以使用包括拉丁文类中的字符的文本样本来辨别拉丁文类。数据集包括多个字体样本,这些字体样本包括识别各种不同字体的各个机器可读字符的字母。可替代地或另外地,数据集包括文本文档库。以多个定向输入文本样本,其中拉丁文类以0度、90度、180度和270度输入。针对其他特定文字类重复该训练。
通常由用户从左到右读取许多语言的典型文档,诸如英文语言的文本。在其他语言中,用户从右到左读取典型文档,诸如阿拉伯文语言的文本。对于从图像的左到右或从右到左读取的文本,文本被呈现为水平的行,其中该行和各个字符这两者都具有0度的定向。
有时,用户从上到下读取行文本,这在诸如中文等的一些语言中更常见。即使对于传统上沿着水平的行读取文档的语言,也存在垂直呈现文本的情况,原因是诸如充分利用可用空间或吸引对文本的注意等。用户从下到上读取文本行是罕见的。对于从图像的上到下或下到上读取的文本,文本被呈现为垂直的行,其中行具有90度的定向,并且各个字符具有0度的定向。
训练数据集包括样本以适应传统上呈现文本的不同方向。在训练期间以及在图像分析期间,通过在两个方向上进行文本分类来提高文本分类软件的准确性。因此,文本分类软件从左到右和从右到左这两者读取水平的文本行。类似地,文本分类软件从上到下和从下到上这两者读取垂直的文本行。因此,记录行的属性的图像分析不受特定语言的读取惯例的约束。因此,如果文本行被识别为具有水平定向,则文本分类通过从左到右和从右到左这两者读取文本来进行属性分析,而不管语言属性是对应于英文类还是阿拉伯文类。
如果文档已经以一定角度定向,则可以检测到这一点,因而可以记录图像的正确定向。因此,如果定向属性被记录为对应于90、180或270度类,则这指示图像被不正确地定向,并且因此应该被旋转以补偿已经记录的定向类。如果需要,通过文本辨别软件进行文档的旋转,使得文本以常规定向呈现给用户。
图2是示出可以如何训练神经网络以将数据集的字符与一个或多于一个属性相关联的流程图S210。
在步骤S211中,编译包括文本的样本的数据集,其中各个样本具有被识别为对应于特定类的属性。在该示例中,S211的数据集包括各自被识别为属于特定(文字,定向)类的文本样本。
在步骤S212中,训练神经网络以将数据集的样本与各个特定类相关联。一旦被训练,神经网络就可以在具有不同类的样本之间进行区分。因此,文本分类设备100被配置为利用经训练的神经网络,使得可以识别之前未遇到的图像的属性。
图3是示出图像分类的流程图S220。在步骤S221中,将图像分割成多个文本行。图4A和4B示出图像分割的示例。在图4A中,图像400被分割成水平的行401-412。在图4B中,图像450被分割成垂直的行451-457。文本行401-412、451-457由包围经分割文本的边界框指示。
这种布置不需要将文本行401-412、451-457分割成单个字符。对于许多文本图像,例如,由于单个字符对应于相同的连接成分,由于书写是以连体字书写,或者包含双元音、配体或下划线文本,字符分割特别困难。进行每行级分析而不进行字符分割提高了文本分类的准确性。
在步骤S222中,将多个文本行按应该进行文本辨别的顺序排列。这样做的目的是对期望分类将最准确的行进行文本分类。这用于减少进行图像分类时的处理负担,这是因为一旦图像被分类到足够的置信水平,就停止属性分析。
基于文本行的纵横比来记录顺序。各个文本行的边界框是纵横比等于较长边除以较短边的矩形。文本行按纵横比从最高到最低排序,这是因为具有更高纵横比的文本可能包含更多字符。
通过选择单元120计算纵横比的反正切来计算已经由分割单元110分割的对应于文本行的特征的概率。纵横比是大于1的数字,这是因为它是通过矩形的较长边除以较短边来计算的。通过取纵横比的反正切并将该结果除以pi/2来计算“行的置信度”度量。结果,该数字提供0和1之间的概率度量,从而指示检测到的特征对应于文本行的置信度。
行的置信度=arctan(纵横比)*2/pi
反正切函数是有用的,这是因为行置信度概率度量随着纵横比的增加而严格增加。纵横比是严格的正量,因此该计算产生大于0的数字。除以pi/2提供小于1的数字,这是因为反正切函数是使用弧度配置的。结果,提供概率度量以识别文本行是否已被识别。对于被识别为行的候选,通过选择行置信度度量最大的相应行来选择具有最高纵横比的行。
在步骤S223中,从多个行中选择文本行。选择具有最高纵横比的文本行。如果需要选择另外的文本行,则选择具有次最高纵横比的文本行。文本行的选择继续,直到图像的全局类的识别超过阈值置信水平或者直到已经分析了所有文本行为止。
在步骤S224中,识别对应于文本行的类序列。在图5A-5D中示出了所辨别的序列的示例,其示出了已经从一些示例文档中提取的行样本501-504的示意图。对于各个行样本501-504,检测(文字,定向)属性,使得记录(文字,定向)类的序列。
对于图5A中的行501,类511-515的序列被输出为:
(文字,定向)=(拉丁文,0度);(拉丁文,0度);(标点符号,0度);(拉丁文,180度);以及(拉丁文,0度)。
对于图5B中的行502,类521-525的序列被输出为:
(文字,定向)=(西里尔文,90度);(西里尔文,90度);(西里尔文,90度);(拉丁文,90度);以及(西里尔文,90度)。
对于图5C中的行503,类531-535的序列被输出为:
(文字,定向)=(韩文,180度);(韩文,180度);(中文,180度);(韩文,180度);以及(韩文,180度)。
对于图5D中的行504,类541-545的序列被输出为:
(文字,定向)=(中文,270度);(中文,270度);(中文,270度);(中文,270度);以及(中文,270度)。
关于图5A的行501中的序列513的成员,文字类被识别为标点符号。这是通过从图像的全局类的记录中消除诸如标点符号、空格和数字等的字符来处理的。作为替代,可以训练神经网络以在用于不同文字的标点符号之间进行区分,使得标点符号分析有助于记录全局类。
关于图5A的行501中的序列514的成员,错误地检测到180度的定向类。检测到这种不正确定向的可能原因是一些字符对在反向定向上看起来相同,诸如字符对(u,n)、(p,d)和(M,W)等。这可以通过训练神经网络以辨别不同定向的文字来减轻,使得当检测时,神经网络可以考虑字符对的存在,使得可以从全局类的检测中消除这种字符。
关于图5B的行502中的序列524的成员,错误地检测到拉丁文的文字类。这种不正确的文字记录的可能原因是许多文字具有彼此相同或相似的字符。这可以通过训练神经网络以辨别不同文字的哪些字符彼此相似来减轻,使得可以从全局类的检测中消除这些字符。
关于图5C的行503中的序列533的成员,正确地检测到中文的文字类,但是这对应于包含提供附加上下文的中文字符的韩文文档。如韩文那样,许多语言通常包括其他语言的元素。当基于韩文文字的检测定制OCR时,考虑了韩文文本通常包含中文字符以用于歧义解析这一事实。同样地,针对每种语言的OCR的定制被配置为也针对读取英文来定制,这是因为包括英文文本以提供附加上下文是非常常见的。
文字和语言记录单元140知道该事实,并且不会像处理同一页中的中文和法文那样处理同一页中的中文和韩文。同一页上的中文和法文将被分类为法文和中文混合的页,而同一页中的中文和韩文(具有预期比例)将被分类为纯韩文。该处理被称为“歧义解析”。
这是通过维持具有相应最大比例的每种语言中公认的外文包含的表并且如果可能将该外文语言的字符分配给最佳语言来完成的。如果外文语言字符数与最佳语言字符数之比在公认外文语言表中规定的范围内,则认为该包含是可能的。
关于图5D的行504中的序列541-545的成员,随后的属性分析记录中文文字类是对应于繁体中文子类还是对应于简体中文子类,这是因为已经发现在文字属性分析阶段之后记录子类更准确。
如果全局结果的置信水平超过阈值,则可以消除特定检测的错误。因此,如果检测到足够数量的0度的正确结果,则该错误将不会影响全局类的最终结果。
在步骤S225中,对于所选择的行,记录各个类的频率。
对于图5A中的行501:
-针对类(拉丁文,0度),记录频率3;
-针对类(标点符号,0度),记录频率1;以及
-针对类(拉丁文,180度),记录频率1。
对于图5B中的行502:
-针对类(西里尔文,90度),记录频率4;以及
-针对类(拉丁文,90度),记录频率1。
对于图5C中的行503:
-针对类(韩文,180度),记录频率5。
对于图5D中的行504:
-针对类(中文,270度),记录频率5。
在步骤S226中,对文档的全局类是否已被检测到所需的置信水平进行评估。基于已经分析的所有文本行来计算置信水平。该置信水平由记录单元140记录。
“全局类”识别与整个图像相关联的类。下面提供用于评估全局类的计算的细节(参见图7C的讨论)。
在步骤S227中,进行置信水平是否超过阈值的评估。如果置信水平确实超过阈值,则处理前进到步骤S228。如果置信水平没有超过阈值,则处理返回到步骤S223,并且选择另一文本行,直到已经分析了所有文本行为止。
如果已经分析了所有文本行,则利用可用于所有文本行的属性分析,处理进入步骤S228。如果置信水平超过阈值,则全局类与图像相关联。然而,如果在分析了所有可用的文本行之后,全局类不超过阈值,则有必要选择覆盖检测到的类的OCR的广泛定制。该评估适用于图像包含单个文本行的情况。
在步骤S228中,对全局类进行记录。如果全局类以高置信水平被识别,则这指示整个文档可以与属性的单个类相关联。文档的全局类与图像相关联,其中OCR单元106使用全局类来进行针对特定全局类定制的OCR。结果,针对特定全局类进行图像分析,这减少了处理所使用的计算资源。
如果全局类以低置信水平被识别,则这可能指示属性分析中的错误,或者整个文档包括属于多个类的文本。在这种情况下,文档的全局类识别出已经检测到多个类。该全局类信息与图像相关联,并且由OCR单元106使用以利用供后续分析的更宽范围的类来进行OCR。结果,OCR单元150的OCR图像分析不限于特定类,这确保了进行广泛的图像分析。
图像可以与多个全局类相关联。因此,这允许对包含多个类的图像或不可能准确地识别适当的全局类的图像进行分类。记录单元140被配置为针对所选择的文本行记录多个全局类,其中多个全局类中的各个全局类对应于类序列中的类。分类单元150被配置为基于多个全局类各自的置信水平,根据多个全局类对图像进行分类。
在图6A-6D中示出已经进行了文字和定向分类的文字的样本,其中:
图6A示出被识别为具有在(韩文,0度)类中的(文字,定向)属性的文本的样本。
图6B示出被识别为具有在(西里尔文,180度)类中的(文字,定向)属性的文本的样本。
图6C示出被识别为具有在(阿拉伯文,90度)类中的(文字,定向)属性的文本的样本。
图6D示出被识别为具有在(拉丁文,270度)类中的(文字,定向)属性的文本的样本。
图7A-7C用于说明特定图像样本的图像分类。图7A示出包括多个文本行的文档的输入图像。图7B示出行分割的结果,其中行701-705按其纵横比排序。首先对行701进行文本分类,这是因为行701被识别为具有最高纵横比。如果有必要进行进一步的文本分类,则将选择行702。这继续直到置信水平超过阈值或者所有的行701-705已经进行了文本分类为止。图7B针对各个行包括行参数的置信度的值,其被计算为纵横比的反正切除以pi/2。因此,可以选择具有最大纵横比的最合适的行,同时从考虑中消除并非行的特征,诸如已经被错误表征的文档的片段、图形、签名、框、噪声或阴影等。
图7C提供示出文本分类的结果的表。文本的各个行经过神经网络以根据文字和定向对该行进行分类。形成结果列表,结果的各个元素包含字段(文字、定向、频率)。该列表以各个结果的频率的降序排列。在处理了一个行之后,计算结果的置信度值,该置信度值被定义为最佳结果的频率与次最佳结果的频率之间的百分比差。
如果结果的置信度大于经验定义的阈值,则处理停止,并且根据具有最大频率的(文字,定向)类对图像进行分类。否则,从文本行处理下一行,并且用来自新行的结果来更新结果列表。处理继续,直到已经以足够高的置信水平找到文字和定向结果为止或者直到已经处理了所有行为止。
对于图7C的行1(特征701),(文字,定向)属性被识别为在频率为19的(西里尔文,0度)类中,以及在频率为18的(拉丁文,0度)类中。由于这是要评估的唯一行,因此行1(特征701)有助于全局结果。
置信度值计算为百分比:
(最高频率类-次最高频率类)/次最高频率类。
该公式允许评估分类是否已经结束。置信度值的这种计算的统计显著性在于:如果最高频率类比已经识别的任何其他类高得多,则将选择最高频率类。如果检测到一个特定类比其他类具有更高的置信度,则置信度值将是高的,从而允许从全局类的评估中忽略其他类。
-针对行1,(19-18)/18=5.5%。
-针对行2,(35-25)/25=40%。
-针对行3,(53-34)/34=55.8%。
-针对行4,(63-45)/45=40%。
-针对行5,(72-45)/45=60%。
对于本样本,置信度阈值设置为60%的值。因此,在记录了图7C的行5的全局结果之后,文本分类结束,返回(文字,定向)属性被记录为置信水平为60%的(西里尔文,0度)全局类中的全局结果。
表的行示出,随着分析进行以包括文本的附加行,维持候选(文字,定向)类的列表,其中该列表以置信度递减的顺序排列。随着处理更多行,更新该列表。已经存在的候选看到它们的置信度随着新候选的添加而增加。最终,该列表提供对已经在图像的至少一部分上找到的所有文字和定向的分析。
根据该列表,与最高置信度相对应的结果被指定为图像的(文字,定向)全局类。针对该全局类定制OCR单元106。
如果少量候选在结束时具有高置信度,则可以返回这两个(文字,定向)全局类。这指示已经识别了类的混合。在这种情况下,可以根据已经返回的所有(文字,定向)全局类来定制OCR单元106。因此,在行级别,除非图像上仅有一个行,否则不进行歧义解析。
例如,如果文档包括西里尔文文字类和拉丁文文字类的文本,则为了歧义解析的目的,不需要分割各个行来在不同的文字之间进行区分。这是因为文本分类软件可以处理文本的特定行中的多个文字的存在。在多个行上累积评估各个类的成员的频率,以记录全局类。如果被记录以有益于OCR单元的定制,则图像可以与多个全局类相关联。
本技术利用来自已经分析的文本行的尽可能多的信息,从而提高文本分类的准确性。这是由于如下原因来实现的:一个或多于一个全局类的评估利用了累积频率分析,而不忽略任何收集数据。例如,图7A-7C示出正被识别的(文字,定向)全局类,其利用了与各个行和各个识别的类相关联的所有(文字,定向,频率)类数据。收集关于图像的更多信息允许增加全局类记录的精度。这提高了处理速度,因为通过进行较少文本行的分析来实现全局类的准确记录。
上述示例还可以通过系统或设备的计算机(或诸如CPU或MPU等的装置)读出并执行记录在存储器装置上的程序以进行上述示例的功能来实现,以及通过步骤由系统或设备的计算机通过例如读出并执行记录在存储器装置上的程序以进行上述示例的功能的方法来实现。为此目的,程序例如经由网络或从用作存储器装置的各种类型的记录介质(例如,诸如非暂时性计算机可读介质等的计算机可读介质)提供给计算机。
虽然本公开已经描述了示例实施例,但是应当理解,一些实施例不限于所公开的实施例。在不脱离本公开的主要特征的情况下,可以以各种形式实现实施例。所附权利要求的范围应符合最广泛的解释,以涵盖所有此类修改以及等效结构和功能。

Claims (25)

1.一种文本分类设备,包括:
分割部件,用于将图像分割成多个文本行;
选择部件,用于从所述多个文本行中选择文本行;
识别部件,用于识别与所选择的文本行相对应的类序列;
记录部件,用于针对所选择的文本行记录与所述类序列中的类相对应的全局类;以及
分类部件,用于基于所述全局类的置信水平,根据所述全局类对所述图像进行分类。
2.根据权利要求1所述的文本分类设备,其中,
所述记录部件被配置为针对所选择的文本行记录:
与所述类序列中的各个类相关联的频率;以及
置信水平,其确立所述全局类是否与所述类序列的最高频率类相对应。
3.根据前述权利要求中任一项所述的文本分类设备,其中,
所述选择部件被配置为在置信度值低于阈值的情况下,选择其他文本行,
所述识别部件被配置为识别与所选择的文本行相对应的多个类序列,以及
所述记录部件被配置为针对所选择的文本行,记录与多个类序列中的类相对应的全局类。
4.根据前述权利要求中任一项所述的文本分类设备,其中,
所述分类部件被配置为在所述置信水平高于阈值的情况下,根据所述全局类对所述图像进行分类。
5.根据前述权利要求中任一项所述的文本分类设备,其中,
所述分类部件被配置为在所述置信水平低于阈值的情况下,根据多个全局类对所述图像进行分类。
6.根据前述权利要求中任一项所述的文本分类设备,其中,
所述选择部件被配置为基于文本行的纵横比来选择文本行。
7.根据前述权利要求中任一项所述的文本分类设备,其中,
所述类对应于文本的文字。
8.根据前述权利要求中任一项所述的文本分类设备,其中,
所述类对应于文本的定向。
9.根据前述权利要求中任一项所述的文本分类设备,其中,
基于文本的定向,在呈现给用户之前校正图像的定向。
10.根据前述权利要求中任一项所述的文本分类设备,其中,
所述类对应于:
文字;以及
文本的定向。
11.根据前述权利要求中任一项所述的文本分类设备,还包括:
神经网络,其被训练以使用包括多个文本样本的数据集来识别类。
12.根据权利要求11所述的文本分类设备,其中,
所述数据集包括多个文本样本的多个定向。
13.根据权利要求11或12所述的文本分类设备,其中,所述神经网络包括:
卷积神经网络,其被配置为进行文本行的图像辨别;以及
递归神经网络,其被配置为进行文本行的序列辨别。
14.根据前述权利要求中任一项所述的文本分类设备,其中,
所述记录部件被配置为针对所选择的文本行记录多个全局类,其中,所述多个全局类中的各个全局类对应于所述类序列中的类,以及
所述分类单元被配置为基于所述多个全局类中的各个全局类的置信水平,根据所述多个全局类对所述图像进行分类。
15.根据前述权利要求中任一项所述的文本分类设备,还包括用于基于所识别的类的频率来确定所述置信水平的部件。
16.根据权利要求15所述的文本分类设备,其中,用于确定所述置信水平的部件基于最高频率类和次最高频率类的频率。
17.一种光学字符辨别设备,包括:
根据前述权利要求中任一项所述的文本分类设备;以及
光学字符辨别单元,其被配置为通过应用对所述图像进行分类的全局类来对所述图像进行光学字符辨别。
18.一种文本分类方法,包括:
将图像分割成多个文本行;
从所述多个文本行中选择文本行;
识别与所选择的文本行相对应的类序列;
针对所选择的文本行,记录与所述类序列中的类相对应的全局类;以及
基于所述全局类的置信水平,根据所述全局类对所述图像进行分类。
19.一种训练用于对文本进行分类的神经网络的计算机实现的方法,所述训练包括使用根据文本的文字和定向进行分组的多组训练数据项。
20.根据权利要求19所述的方法,其中,训练目标是将训练数据中的字符与文字和定向相关联。
21.根据权利要求19或20所述的方法,其中,训练数据中的文本的定向包括0度、90度、180度和270度的文本。
22.一种用于可编程设备的计算机程序产品,所述计算机程序产品包括指令序列,所述指令序列用于在被加载到所述可编程设备中并由所述可编程设备执行时实现根据权利要求18至21中任一项所述的方法。
23.一种存储程序的计算机可读介质,所述程序在由装置中的微处理器或计算机系统执行时使得所述装置进行根据权利要求18至21中任一项所述的方法。
24.一种计算机程序,所述计算机程序在执行时使得进行根据权利要求18至21中任一项所述的方法。
25.一种存储程序的非暂时性计算机可读介质,所述程序在由文本分类设备执行时使得所述文本分类设备进行文本分类方法,所述文本分类方法包括:
将图像分割成多个文本行;
从所述多个文本行中选择文本行;
识别与所选择的文本行相对应的类序列;
针对所选择的文本行,记录与所述类序列中的类相对应的全局类;以及
基于所述全局类的置信水平,根据所述全局类对所述图像进行分类。
CN202180027675.3A 2020-04-10 2021-04-09 文本分类 Pending CN115428041A (zh)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/845,720 2020-04-10
US16/845,720 US11551461B2 (en) 2020-04-10 2020-04-10 Text classification
PCT/EP2021/059315 WO2021205007A1 (en) 2020-04-10 2021-04-09 Text classification

Publications (1)

Publication Number Publication Date
CN115428041A true CN115428041A (zh) 2022-12-02

Family

ID=75441938

Family Applications (1)

Application Number Title Priority Date Filing Date
CN202180027675.3A Pending CN115428041A (zh) 2020-04-10 2021-04-09 文本分类

Country Status (6)

Country Link
US (1) US11551461B2 (zh)
EP (1) EP4133410A1 (zh)
JP (1) JP7282989B2 (zh)
KR (1) KR102572180B1 (zh)
CN (1) CN115428041A (zh)
WO (1) WO2021205007A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20240177285A1 (en) * 2022-11-28 2024-05-30 L&T Technology Services Limited Method and system for evaluating quality of a document
CN115830613A (zh) * 2023-01-09 2023-03-21 广州佰锐网络科技有限公司 文档智能采集分拣方法、调取方法、存储介质和系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090161991A1 (en) * 2007-12-20 2009-06-25 Oscar Nestares Automatic dominant orientation estimation in text images based on steerable filters
CN103383732A (zh) * 2012-05-04 2013-11-06 富士通株式会社 图像处理方法和装置
CN103455806A (zh) * 2012-05-31 2013-12-18 富士通株式会社 文档处理装置、文档处理方法以及扫描仪
US8744171B1 (en) * 2009-04-29 2014-06-03 Google Inc. Text script and orientation recognition
US20180033147A1 (en) * 2016-07-26 2018-02-01 Intuit Inc. Label and field identification without optical character recognition (ocr)

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07296109A (ja) * 1994-04-20 1995-11-10 Canon Inc 画像処理方法とその装置
JPH1091792A (ja) * 1996-07-12 1998-04-10 Seiko Epson Corp 文書セグメント化方法、装置、カラー印刷システムおよびコンピュータプログラム製品
US9495620B2 (en) * 2013-06-09 2016-11-15 Apple Inc. Multi-script handwriting recognition using a universal recognizer
JP2019535082A (ja) 2016-10-03 2019-12-05 エム・ゼット・アイ・ピィ・ホールディングス・リミテッド・ライアビリティ・カンパニーMz Ip Holdings, Llc 言語検出のためのシステムおよび方法
AU2019391808A1 (en) * 2018-12-04 2021-07-01 Leverton Holding Llc Methods and systems for automated table detection within documents

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090161991A1 (en) * 2007-12-20 2009-06-25 Oscar Nestares Automatic dominant orientation estimation in text images based on steerable filters
US8744171B1 (en) * 2009-04-29 2014-06-03 Google Inc. Text script and orientation recognition
CN103383732A (zh) * 2012-05-04 2013-11-06 富士通株式会社 图像处理方法和装置
CN103455806A (zh) * 2012-05-31 2013-12-18 富士通株式会社 文档处理装置、文档处理方法以及扫描仪
US20180033147A1 (en) * 2016-07-26 2018-02-01 Intuit Inc. Label and field identification without optical character recognition (ocr)

Also Published As

Publication number Publication date
US11551461B2 (en) 2023-01-10
JP7282989B2 (ja) 2023-05-29
EP4133410A1 (en) 2023-02-15
KR102572180B1 (ko) 2023-08-28
KR20230008731A (ko) 2023-01-16
JP2023511791A (ja) 2023-03-22
US20210319247A1 (en) 2021-10-14
WO2021205007A1 (en) 2021-10-14

Similar Documents

Publication Publication Date Title
US6047251A (en) Automatic language identification system for multilingual optical character recognition
EP0544430B1 (en) Method and apparatus for determining the frequency of words in a document without document image decoding
JP3640972B2 (ja) ドキュメントの解読又は解釈を行う装置
EP2545495B1 (en) Paragraph recognition in an optical character recognition (ocr) process
EP2669847B1 (en) Document processing apparatus, document processing method and scanner
US8340425B2 (en) Optical character recognition with two-pass zoning
EP0544433A2 (en) Method and apparatus for document image processing
US9008425B2 (en) Detection of numbered captions
JPH11120293A (ja) 文字認識/修正方式
JP7282989B2 (ja) テキスト分類
JP2000315247A (ja) 文字認識装置
Fateh et al. Enhancing optical character recognition: Efficient techniques for document layout analysis and text line detection
EP2521071A2 (en) Method and system for text segmentation
Ghosh et al. Development of an Assamese OCR using Bangla OCR
Kumar et al. Line based robust script identification for indianlanguages
Singh et al. Document layout analysis for Indian newspapers using contour based symbiotic approach
CN115311666A (zh) 图文识别方法、装置、计算机设备及存储介质
JP2008084105A (ja) 文字切出方法及び文字認識装置
Al-Barhamtoshy et al. Arabic OCR segmented-based system
CN110399877B (zh) 连接字符的光学字符识别
Kaur et al. Adverse conditions and techniques for cross-lingual text recognition
JP2014081867A (ja) 情報処理装置及び情報処理プログラム
US20210073567A1 (en) Systems and methods for separating ligature characters in digitized document images
Kagehiro et al. Multiple hypotheses document analysis
Kwon Extraction of Index Components Based on Contents Analysis of Journal’s Scanned Cover Page

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination