CN1317673C

CN1317673C - 利用神经网络分辨影像中文字与图形的系统及其方法

Info

Publication number: CN1317673C
Application number: CNB2004100086992A
Authority: CN
Inventors: 黄俊嘉
Original assignee: Primax Electronics Ltd
Current assignee: Primax Electronics Ltd
Priority date: 2004-03-18
Filing date: 2004-03-18
Publication date: 2007-05-23
Anticipated expiration: 2024-03-18
Also published as: CN1670757A

Abstract

本发明涉及一种利用神经网络分辨影像中文字与图形的系统及其方法，利用神经网络事先学习的文字辨识知识，处理影像区块中关于色彩亮度的灰阶影像数据，产生一个最大文字信心值，根据文字门槛值与最大文字信心值的比较结果，决定影像区块的文字状态，当最大文字信心值大于文字门槛值，则确认影像区块具有文字像素，否则影像区块全为图形像素，因而达到分离影像中文字与图形的目的。

Description

利用神经网络分辨影像中文字与图形的系统及其方法

技术领域

本发明涉及一种影像的数据处理技术，特别涉及一种利用神经网络技术从影像数据中分辨出文字像素与图形像素的影像处理技术，以达成图文分离的目的。

背景技术

多功能事务机(Multi-function peripheral，MFP)是结合扫描功能、复印功能、打印功能等多种功能的影像处理装置，因为集合多种功能于一体的优点，深受消费者喜爱，目前已渐渐地成为市场上的主流商品。其中多功能事务机的复印功能可谓是结合其扫描与打印两个功能。举例来说，当复印功能运作时，激活扫描功能，其感光耦合组件(Charge Coupled Device，CCD)扫描文件成一个影像数据；并激活打印功能，将所扫描的影像数据用墨水(炭粉)打印出来。

由于感光耦合组件的RGB色彩修正问题，对于黑色文字的边缘并不是非常敏锐，所以，打印所扫描的影像数据时，必须混合CMY三种颜色的墨水打印，不仅是浪费了彩色的墨水，也因必须处理三种颜色的墨水的混合比例，而使得打印的速度变慢。此外，打印出来的品质不高，黑色文字打印的效果变成彩色字。

文件的影像数据中包括有文字与图形两个部分，为了达到更好的视觉效果或输出效果，通常必须将影像数据进行柔化(blur)处理。但是，整个影像数据进行柔化处理的话，文字部分会变得模糊，文字的品质反而受到影响。因此，可以将影像数据中的文字与图形分离，针对文字部分进行边缘强化(edgeenhancement)处理，针对图形部分进行柔化处理，文字与图形的视觉效果或输出效果都可提高。此外，在打印文件时，可使用黑色的墨水(或炭粉)打印文字部分，除了节省打印的墨水(或炭粉)的成本与加快打印的速度之外，更可以提高黑色文字的打印品质。

目前分离影像中的文字与图形的技术甚多，但大部分的技术都必须将影像数据转换成频率域(frequency domain)的坐标系统，而转换成频率域的坐标系统需要复杂的硬件来配合，所需的成本较高。其中利用神经网络技术从影像数据中分离出文字与图形的方法，只需在时间域(time domain)的坐标系统中便可处理影像数据，而不需将影像数据转换成频率域的坐标系统。

然而，现有提出分离影像中的文字与图形的神经网络技术，必须进行特征量化导出的前置步骤，先计算要处理的影像数据相对应的每个变量值(神经网络的输入值)，才能利用神经网络进行影像数据的处理，判断影像数据是属于何种类型(例如，文字、图形、或噪声等等)。而且，必须利用多种影像处理装置(例如，虚拟半色调(pseudo-halftone)装置与双层转换(bi-levelconversion)装置等等)分别地处理影像数据。根据神经网络的输出值(判断影像数据的类型)，通过一个数据选择器相对应地选择其中一种影像处理装置处理过电源开关模块无作用的影像数据，作为数据选择器的输出数据。举例来说，当神经网络判断正在处理的影像数据为图形类型，则以虚拟半色调装置处理的数据作为数据选择器的输出数据，当神经网络判断正在处理的影像数据为文字类型，则以双层转换装置处理的数据作为数据选择器的输出数据。

根据以上所述，现有利用神经网络分离影像中文字与图形的技术必须使用两个(或两个以上)不同的装置，分别处理影像数据。对于多功能事务机的应用来说，在速度与内存的双重考虑之下，现有的神经网络技术显然不适合应用在多功能事务机上，作为其分离影像中的文字与图形的技术。

发明内容

鉴于现有的神经网络技术不适合应用在多功能事务机上，作为其分离影像中的文字与图形的技术，因此本发明提出一种仿真人类视觉的神经网络技术，利用神经网络分辨影像中文字与图形的系统及其方法，用以处理影像数据并分辨其文字像素与图形像素，且不需要进行特征量化导出的前置步骤，也不需使用多种不同的装置分别处理影像数据。本发明的具体手段为事先训练神经网络，使其获得文字辨识知识，因此处理影像数据时，可分辨影像中的文字像素与图形像素。

所以为达到上述目的，本发明所提出的利用神经网络分辨影像中文字与图形的系统，包括有下列模块：

划分影像区块模块，用以提取该影像的一灰阶影像数据，将灰阶影像数据划分成数个影像区块，一个影像区块具有数个区块列，一个区块列由数个连续像素所组成。

神经网络模块，用以利用文字辨识知识处理区块列的连续像素，产生文字信心值，并获得一最大文字信心值(影像区块的数个区块列的文字信心值的最大值)；及

文字判断模块，用以根据文字门槛值与最大文字信心值的比较结果，决定影像区块的文字状态，当最大文字信心值大于文字门槛值，则确认该影像区块具有文字像素，否则该影像区块全为图形像素。

另外，本发明所提出的利用神经网络分辨影像中文字与图形的方法，包括有下列步骤：

提取影像中关于色彩亮度的灰阶影像数据，并将灰阶影像数据划分成数个影像区块，影像区块具有数个区块列，区块列由数个连续像素所组成；输入区块列的连续像素的灰阶值，利用神经网络事先学习训练数据所获得的文字辨识处理连续像素，产生文字信心值，并获得最大文字信心值(影像区块的数个区块列的文字信心值的最大值)；及根据文字门槛值与最大文字信心值的比较结果，决定该影像区块的文字状态，当最大文字信心值大于文字门槛值，则确认影像区块具有文字，否则影像区块全为图形。

更具体地说，本发明一种利用神经网络分辨影像中文字与图形的系统，是利用一训练数据进行神经网络的事先学习，来产生一文字辨识知识，其特点在于，该系统包括：

一划分影像区块模块，用以提取该影像的一灰阶影像数据，并将该灰阶影像数据划分成数个影像区块，每个影像区块具有数个区块列，每个区块列由数个连续像素所组成；

一神经网络模块，用以利用所述文字辨识知识处理每个区块列的连续像素，产生一文字信心值，并获得每个影像区块的一最大文字信心值；

一文字判断模块，用以根据一文字门槛值与该最大文字信心值进行比较，决定该影像区块是否为具有文字像素的影像区块。

上述利用神经网络分辨影像中文字与图形的系统，其特点在于，该训练数据的种类包括一图形到文字的数据、一白色到文字的数据、一文字到图形/白色的数据、一文字到文字的数据、一不具有文字的数据、一具有多边缘文字的数据及一具有半色调噪声文字的数据。

上述利用神经网络分辨影像中文字与图形的系统，其特点在于，该最大文字信心值大于该文字门槛值，则确认该影像区块具有文字像素，否则该影像区块全为图形像素。

本发明还提供一种利用神经网络分辨影像中文字与图形的系统的方法，是利用一训练数据进行神经网络的事先学习，来产生一文字辨识知识，其特点在于，该方法包括下列步骤：

提取一影像的一灰阶影像数据，并将该灰阶影像数据划分成数个影像区块，每个影像区块具有数个区块列，每个区块列由数个连续像素所组成；

输入每个区块列的连续像素的灰阶值，利用所述文字辨识知识处理每个区块列的连续像素，产生一文字信心值，并获得每个影像区块的一最大文字信心值；及

根据一文字门槛值与该最大文字信心值的比较结果，决定该影像区块是否为具有文字像素的影像区块。

上述利用神经网络分辨影像中文字与图形的方法，其特点在于，该训练数据的种类包括一图形到文字的数据、一白色到文字的数据、一文字到图形/白色的数据、一文字到文字的数据、一不具有文字的数据、一具有多边缘文字的数据及一具有半色调噪声文字的数据。

上述利用神经网络分辨影像中文字与图形的方法，其特点在于，该最大文字信心值大于该文字门槛值，则确认该影像区块具有文字像素，否则该影像区块全为图形像素。

本发明的功效，在于不需要进行特征量化导出的前置步骤，也不需使用多种不同的装置分别处理影像数据，通过事先训练神经网络，使其获得文字辨识知识，在处理影像数据时，可分辨影像中的文字像素与图形像素。

有关本发明具体可行的实施方式，配合附图说明如下。

附图说明

图1为本发明所提出的利用神经网络分辨影像中文字与图形的系统及其方法的神经网络架构图；

图2为本发明所提出的本发明所提出的利用神经网络分辨影像中文字与图形的系统及其方法的系统方块图；

图3为本发明所提出的本发明所提出的利用神经网络分辨影像中文字与图形的系统及其方法的影像区块示意图；及

图4为本发明所提出的本发明所提出的利用神经网络分辨影像中文字与图形的系统及其方法的流程图。

11--输入层 12--隐藏层 13--输出层

20--神经网络系统 21--影像扫描模块

22--影像转换模块 23--划分影像区块模块

24--神经网络模块 25--文字判断模块

26--影像打印模块

步骤400提取影像数据中的灰阶数据，并将灰阶数据划分成数个影像区块

步骤410利用神经网络的文字辨识知识处理影像数据，并获得最大文字信心值

步骤420判断最大文字信心值是否大于文字门槛值

具体实施方式

在说明本发明的利用神经网络分辨影像中文字与图形的系统及其方法前，先介绍基本的神经网络的架构，如图1所示，神经网络包括输入层11、隐藏层12及输出层13，其中输入层11具有多个神经元(8个点)，可输入要处理的数据(例如，像素的灰阶值)；隐藏层12具有多个神经元(13个点)，可记录暂时的处理结果；输出层13具有多个神经元(4个点)，可输出经过神经网络处理的输出值(输出信息)。输入层11每个神经元与隐藏层12每个神经元之间都有一个连结(connection)，每个连结上有一个权重值。同样地，隐藏层12每个神经元与输出层13每个神经元之间都有一个连结，每个连结上都有一个权重值。上述的连结的权重值系训练神经网络后获得，也为神经网络的知识。另外，神经网络不仅有一隐藏层12，还可包括有多个隐藏层。

神经网络使用之前必须经过学习(training)步骤、测试(testing)步骤及运作(running)步骤，在学习阶段时，必须喂给神经网络适合的训练数据，而一笔训练数据由多个像素的灰阶值(相对应于输入层11的多个神经元)与多个输出信息(相对应于输出层13的多个神经元)所组成，通过训练步骤使神经网络的每个连结获得一个权重值，记录学习到的知识。在测试阶段时，喂给神经网络训练数据的多个像素的灰阶值，并检验神经网络的多个输出信息与训练数据的多个输出信息是否接近。如果输出值相近则表示神经网络已经训练得差不多，每个连结获得合适的权重值；如果输出值相差太大则神经网络必须重头训练。在运作阶段时，喂给神经网络从未见过的测试数据，观察神经网络的输出值是否正确(接近预期结果)，如果正确则表示神经网络趋于稳定，已经获得文字辨识知识，否则必须重头开始训练。

为了让神经网络获得文字辨识知识，必须选择合适的训练数据，包括下列各种形式的影像数据：图形到文字(photo-to-text)的数据、白色到文字(white-to-text)的数据、文字到图形/白色(text-to-photo/white)的数据、文字到文字(text-to-text)的数据、不具有文字(no text)的数据、多边缘文字(text with more than one edge)的数据及有半色调噪声文字(text withhalftoning noise)的数据，根据上述的学习步骤、测试步骤及运作步骤三个阶段，让神经网络从各种影像数据的变化获得文字辨识知识。

训练神经网络的影像数据为影像的色彩亮度的灰阶值，神经网络的数个输入值为像素的灰阶值(例如，165、181、173、148、82、90、74及82)，灰阶值的大小介于0至255之间，灰阶值愈大愈接近白色，相反地，灰阶值愈小愈接近黑色。一般来说黑色的文字像素的灰阶值较小，根据此特性找出文字像素，喂给神经网络合适的训练数据(各种数据类型的灰阶值的变化)，使其能从训练数据中获得文字辨识知识，利用文字辨识知识，使神经网络能从连续像素的灰阶值分辨影像中的文字像素与图形像素。

具有文字辨识知识的神经网络的多个输出信息包括文字信心值、边缘信心值、文字方向值及边缘位置值(例如，前述例子相对应的输出信息为0.7、095、1及5)。其中，“信心值”(faith value)一词是类神经网络一门学科之专业用语，即经过类神经网络运算之后所得的输出值。文字信心值表示文字像素出现的可能性，边缘信心值表示文字边缘出现的可能性。文字像素出现在输入值的右边，则以1表示文字方向值，文字像素出现在输入值的左边，则以2表示文字方向值，其它则以3表示文字方向值。边缘位置值则为输入的数个像素中，文字边缘(灰阶值剧烈变化之处)是出现在第几个像素(以1至8表示)。

请参考图2，根据图2说明本发明的最佳实施例，并以多功能事务机的复印功能为例，首先，利用影像扫描模块21扫描影像获得影像数据，例如RGB的影像数据，并利用影像转换模块22将RGB的影像数据转换为YCC的影像数据。本发明的神经网络系统20处理有关色彩亮度的影像数据用以分离影像中的文字与图形。神经网络系统20包括一个划分影像区块模块23，将有关色彩亮度的灰阶影像数据划分成数个影像区块，一个影像区块具有数个区块列，一个区块列由数个连续像素所组成，也为神经网络模块24处理的基本单位。神经网络系统20的神经网络模块24接收到区块列的数个连续像素数据后，利用事先从训练数据学习的文字辨识知识处理区块列的连续像素数据，产生文字信心值，当影像区块的数个区块列处理完毕后，可得到数个文字信心值，并获得一个最大文字信心值(影像区块的数个区块列的文字信心值的最大值)。利用神经网络系统20的文字判断模块25根据文字门槛值与最大文字信心值比较，判断最大文字信心值是否大于文字门槛值，当最大文字信心值大于文字门槛值，则确认影像区块具有文字像素，否则影像区块全为图形像素。分辨出影像中的文字与图形后，影像打印模块26可使用黑色墨水(炭粉)打印文字像素部分，以节省打印成本与提高打印的品质。

图3为本发明的影像区块示意图，如图3所示，影像区块由8个区块列所组成(区块列1至区块列8)，一个区块列由8个像素所组成，因为所处理的影像数据为色彩亮度的灰阶数据，所以像素的值为影像的灰阶值(像素值1至像素值8)。神经网络处理的基本单位为一个区块列(相对应于输入层11)，利用神经网络的文字辨识知识处理区块列可获得文字信心值(相对应于输出层13)，当影像区块的8个区块列处理完毕，可获得8个文字信心值(文字信心值1至文字信心值8)，而8个文字信心值的最大值则称为最大文字信心值。

另外，如图4所示，利用神经网络分辨影像中文字与图形的方法，包括下列步骤：将灰阶影像数据划分成数个影像区块，一个影像区块具有数个区块列(例如，8个区块列)，一个区块列由数个连续像素(例如，8个像素)所组成(步骤400)；利用神经网络的文字辨识知识处理上述的像素的灰阶值，可获得文字信心值，并获得一个最大文字信心值(影像区块的数个区块列的文字信心值的最大值)(步骤410)；根据文字门槛值与最大文字信心值的比较结果，决定影像区块的文字状态(步骤420)；如果最大文字信心值大于文字门槛值，则判断影像区块具有文字像素，否则判断影像区块全为图形像素。

以上所述仅为本发明其中的较佳实施例，并非用来限定本发明的实施范围；凡是依本发明申请专利范围所作的等效变化与修改，皆为本发明专利范围所涵盖。

Claims

1.一种利用神经网络分辨影像中文字与图形的系统，是利用一训练数据进行神经网络的事先学习，来产生一文字辨识知识，其特征在于，该系统包括：

2.如权利要求1所述的利用神经网络分辨影像中文字与图形的系统，其特征在于，该训练数据的种类包括一图形到文字的数据、一白色到文字的数据、一文字到图形/白色的数据、一文字到文字的数据、一不具有文字的数据、一具有多边缘文字的数据及一具有半色调噪声文字的数据。

3.如权利要求1所述的利用神经网络分辨影像中文字与图形的系统，其特征在于，该最大文字信心值大于该文字门槛值，则确认该影像区块具有文字像素，否则该影像区块全为图形像素。

4.一种利用神经网络分辨影像中文字与图形的系统的方法，是利用一训练数据进行神经网络的事先学习，来产生一文字辨识知识，其特征在于，该方法包括下列步骤：

5.如权利要求4所述的利用神经网络分辨影像中文字与图形的方法，其特征在于，该训练数据的种类包括一图形到文字的数据、一白色到文字的数据、一文字到图形/白色的数据、一文字到文字的数据、一不具有文字的数据、一具有多边缘文字的数据及一具有半色调噪声文字的数据。

6.如权利要求4所述的利用神经网络分辨影像中文字与图形的方法，其特征在于，该最大文字信心值大于该文字门槛值，则确认该影像区块具有文字像素，否则该影像区块全为图形像素。