CN101833545A

CN101833545A - 数字资源加工过程中的数据标引方法

Info

Publication number: CN101833545A
Application number: CN200910079436A
Authority: CN
Inventors: 丁迎; 王维娜
Original assignee: Hanwang Technology Co Ltd
Current assignee: Hanwang Technology Co Ltd
Priority date: 2009-03-11
Filing date: 2009-03-11
Publication date: 2010-09-15
Anticipated expiration: 2029-03-11
Also published as: CN101833545B

Abstract

本发明数字资源加工过程中的数据标引方法，属数字资源加工的计算机信息处理技术领域。将纸质文档进行扫描或打开已有的电子文档图像，作为一个数据包，进行必要的图像处理、版面分析，及对版面框添加标引属性，通过OCR识别，利用识别结果文本和版面框的对应关系，自动完成数据标引工作，输出文字所属标引，以及标引在图像上的位置等相关信息，依据此信息，可以将图像信息正确入库，制作相关的检索信息源。本发明在进行文档资料进行处理时，用户在版面分析过程的同时进行标引添加工作，添加的标引可由用户自定义，在校对识别结果的同时直观地对文字所属标引进行检查和修改，大大提高了数字资源加工的工作效率，提高了系统的通用性。

Description

数字资源加工过程中的数据标引方法

技术领域

本发明属于文本处理领域，涉及一种数据标引方法，具体涉及一种数字资源加工过程中的数据标引方法。

背景技术

传统的纸张作为信息媒介存在着巨大的资源浪费，以图书为例，大量的有用和没用的信息都要印刷出成千上万册，经过存储、运输、批发、销售等耗资巨大的环节后送到读者面前，最终被束之高阁。这样不仅一方面社会资源和自然资源被严重浪费，另一方面信息无法永久保存，更谈不上信息的增殖。而随着人类社会需求的发展和信息的膨胀，为传统纸媒介所做的信息移植的代价越来越大。因此，随着互联网的普及和信息技术的快速发展，报纸、图书等纸质文档的电子化信息的提取对信息的共享和传播来说变得越来越重要。

对于数字资源加工后得到的电子文档数据，要进行更充分的利用，通常的做法是，在电子化后的文档数据上进行人工添加标引(比如书名，作者，摘要，出版日期等)后，导入数据库，便于查询和检索。

对于将纸质文档电子化的数字资源加工过程，工作效率直接取决于加工工具使用方式的便捷性，现有的数字资源加工方法，通常是先将纸制文档电子化，然后在电子化数据上添加标引，按照图像上某版面块的属性，将电子化数据的相关文字添加相应的标引属性。这种方式既包含了分析图像上某板面块所属属性的时间，又包括在电子化数据中查找相关信息添加标引的时间。

基于OCR的纸制文档电子化过程中，扫描后的图像文档，必需经过图像处理，版面分析，识别，校对，输出等环节。版面分析环节即将图像上需要识别的各个版面块标出。而版面分析所需画出的版面块和添加标引时对应的版面信息块，有着内在的联系，即一个版面块，既是识别需要的一个图像块，其内容又是有着某个标引属性的文字块。因为在加工过程中的版面分析环节已经对图像版面进行过一次分析，而加标引的过程需要对版面上的信息进行第二次的浏览与确认，大大降低了加工的工作效率，不利于电子资源的快速加工和传播。

发明内容

根据现有数字资源加工过程中所存在的问题，为提高数字资源加工的效率，本发明提出一种数字资源加工过程中的数据标引方法，该方法是在纸制文档电子化过程中的版面分析环节，依据识别所需要的图像版面块和添加标引需要的文字信息块的对应关系，在版面分析的同时，赋予版面框某种缺省标引属性，并可以方便的人工调整框的标引属性，最后利用识别结果文本和版面框的对应关系，自动完成数据标引工作，将版面分析和添加标引两个过程合二为一，大大提高了加工效率，并使添加标引的工作更直观易操作。

数字资源加工过程中的数据标引方法，包括以下步骤：

步骤1：将纸质文档进行扫描或打开已有的电子文档图像，将内容相关的一批图像制作成数据包；

步骤2：对制作成的数据包进行图像处理，得到待识别的图像数据包；

步骤3：对待识别的图像数据包进行版面分析，将图像上的各个版面画出版面框，并在版面框上标示出标引属性；

步骤4：对图像中的各版面进行OCR识别；

步骤5：对OCR识别出的结果进行校对和标引修正；

步骤6：利用修正后的识别结果文本和版面框，得到识别结果和标引属性的对应关系文件。

所述步骤3中，对每个版面框会自动添加缺省的标引属性，并根据匹配情况进行调整。

所述步骤3的标引属性中，种类和名称根据需要自行进行设置。

所述步骤5中，进行校对和标引修正时，将识别出的文字和对应标引的属性并排显示，并通过识别出的文字定位到原图像上对应的位置的方式来校对并修正识别出的文字和所属标引属性信息。

本发明数字资源加工过程中的数据标引方法，与现有技术相比，其优点在于：

1、本方法在版面分析的同时添加标引，在对图像上的内容进行一次分析的情况下，完成两种操作。相对于纸质文档电子化后，在电子化数据的基础上添加标引来说，少进行了一遍图像的内容的分析，大大提高了数字资源加工和添加标引的工作效率。

2、添加的标引可以通过标引定制工具进行自定义，对于不同的资源，定制不同的标引，扩大了数据加工的范围，提高了系统的通用性。

3、在OCR识别后的校对过程中，同时对添加标引进行校对，节省了额外进行标引检查的工作量，提高了标引的正确率和可靠性。

4、在校对识别结果的同时可以直观地对文字所属标引进行检查和修改。

附图说明

图1为本发明数字资源加工过程中的数据标引方法的方法流程图；

图2为本发明数字资源加工过程中的数据标引方法的版面默认标引示意图；

图3为本发明数字资源加工过程中的数据标引方法的版面修改后的标引示意图；

图4为本发明数字资源加工过程中的数据标引方法版面的识别结果；

图5为本发明数字资源加工过程中的数据标引方法的版面校正后的识别结果；

图6为本发明数字资源加工过程中的数据标引方法定义的标引；

图7为本发明数字资源加工过程中的数据标引方法的识别结果和标引属性的对应关系文件。

具体实施方式

下面将结合附图对本发明作进一步的详细描述

本方法首先将纸质文档进行扫描或打开已有的电子文档图像，将内容相关的一批图像，作为一个数据包，再对扫描后的图像数据包进行必要的图像处理，对处理后的图像数据包进行版面分析，及对版面框添加标引属性，通过OCR识别，利用识别结果文本和版面框的对应关系，自动完成数据标引工作，输出文字所属标引，以及标引在图像上的位置，将图像信息正确入库，制作相关的检索信息源。

如图1所示，该方法可以通过以下步骤实现：

步骤一：扫描，对于纸质文档(书、报纸、杂志等)，调用扫描仪进行扫描；对于已经是电子文档的图像，直接打开，将内容相关的一批图像(如一本书)整理为一个数据包。此数据包作为其他工序操作的单位。本实施例中，选用了两段文字作为扫描后得到的文本进行说明。

步骤二：图像处理，获得扫描工序完成的一个数据包，对于质量不好的图像进行必要的图像处理，如对图像进行旋转、倾斜校正等。保证图像可以正常处理和识别。

步骤三：版面分析，获得图像处理工序完成的一个数据包，对图像进行自动或手工版面分析。版面分析可以采用自动或手动的方式，将图像上的各个版面正确画出，在版面框上以标志标示此版面框所属的标引属性。

版面分析是指将图像划分出每一个区域块。对于各个不同的区域块不仅给出其自身的属性，如横排的文字、竖排的文字、图形图像等，而且标明不同区域块之间的顺序，以便系统进行识别处理。版面上有意义的文字块，比如“题目”，“作者”，“正文”等，也在图像对应一个一个的区域块，与识别需要的区域块为一致的。

版面分析有两种模式，一种是自动版面分析，一种为手动版面分析。自动版面分析是指依靠图像版面分析算法，自动将图像上的各个版面块标示在图像上，对于特别复杂的图像版面，自动分析后，须人工手动来辅助调整。手动版面分析是指人工画出每一个需要的版面块。本实施例中，采用自动版面分析，采用汉王OCR6.0SDK中的版面分析算法分析出两个版面框。

版面分析的过程，不管是自动还是手动进行版面分析，都需要按照图像上需要加标识的有意义的版面块来顺序划定。如：图像上“标题”部分的文字，画为一个版面框，并添加标引为“标题”；图像上“作者”部分的文字，画为一个版面框，并添加标引为“作者”等。

版面分析时，为了减少加标引的工作量，每当画出一个版面框的时候，该版面框会自动添加一种缺省的标引。本实施例中，如图2所示，将标引“正文”设置为缺省标引。这样每当划定一个版面框的时候，会自动加上“正文”的标引，如果与图像上实际的文字属性不匹配，则加以修改；如果一致，就不用修改了，节省工作量。

如图2所示，图象上的文字分为两个版面框，以方框标出，版面框的左上角提示了该版面框所处的顺序和标引内容。如“1”，“2”，表示版面框的顺序是第一个和第二个。两个版面块的标引都是自动添加的默认标引“ZW”表示“正文”。第一个版面框应该是标题，需要修改，第二个框是正文，就是默认标引，不需要修改。如图3所示，为修改后的结果。第一个版面框上的“BT”表示该版面框的标引是“标题”，第二个版面框上的“ZW”表示该版面框的标引是“正文”。

图3中用到的“ZW”、“BT”等标引都是预先定义好的，根据图像的种类，决定用到的标引的种类和名称，通过定义即可使用，将版面框修改为正确的标引类型。

加工不同的数据资源，所需要添加的标引的种类和名称都是不同的。如对于杂志类型的资源，标引为“标题”、“作者”、“正文”等，而对于专利文献这样的数据资源，，添加的标引就是“摘要”、“权力要求书”、“说明书”等。不同的加工资源需要不同类型的标引。这样为了加工各种资源数据的需求，标引需要自定义，即需要什么名称的标引，就定义什么名称的标引来使用。标引的种类和名称可进行设置，可以自定义所需要的标引。这样对于不同种类的文档资源，可以采用不同的标引，使得系统处理范围更广泛。图6显示了本例用到的标引的定义，共定义了标引5个，分别为刊名、编号、标题、作者和正文，其中正文为默认标引。如果加工的数据资源用到了其它的标引，可在图6的标引定义中进行添加。

步骤四：识别，获得版面分析工序完成的数据包，对图像进行批量OCR识别，即将版面分析过程中框定的图像内容识别成文字。本实施例中，采用汉王OCR6.0SDK进行OCR识别，图4为识别的结果。

步骤五：对OCR识别出的结果进行校对和标引修正，获得经过OCR识别后的工作包，对其中识别后的文字进行校对。如图5所示，本实施中，使显示图像的识别结果和对应的显示图像一一对应。选中设别后的识别结果的某个字，则会自动定位到此字在图像中所在的位置；同时在识别结果的左边，与文字平行处，并排显示此段文字所属的标引属性的名称。

在进行文字校对的同时可对标引进行检查，方便直观的校对识别文字和所属标引属性是否正确，节省了额外的标引检查工作。如果发现版面分析时标引添加错误，可在此直接进行修改。为达到要求的文字正确率，可执行多次校对工序。图5中将图4识别出来的结果中的错误字“乡”修改为正确的“多”，标引经过校对都是正确的，从而完成校对工作。

步骤六：结果输出，获取校对工序完成的一个工作包，按照检索发布系统等要求，可以自动输出识别结果和标引属性的对应关系文件。利用识别结果文本和版面框的对应关系，自动完成数据标引工作。

在版面分析时，已经标定了每个版面框的标引和版面框的顺序，将图像进行识别后，就有了每个版面框的识别结果和标引的关系，根据这个关系就可以输出标引文件了，这个文件可以记录每个标引在图像上的位置，具体的文字内容等。依据上述信息，就可以将图像信息正确入库，制作相关的检索信息源。

本实施例中，利用修正后的识别结果文本和版面框，以及版面框在图像上的位置，将这些信息写入到文本文件中，就可以得到识别结果和标引属性的对应关系文件，如图7所示，<IMAGE>标明以下文字是为图像hw001.jpg中的文字，同时也用<标题>和<正文>标记出了图像上的标题和正文中的内容。标题后的坐标，表示此段文字版面框对应于图像上的位置，同理正文后的坐标表示正文版面框对应图像上的位置。这个关系文本文件将图像上的信息都记录了下来，包括图像名称、图像上这篇文章的标题、正文的内容，以及标题、正文内容对应在图像上的位置。发布系统或检索系统就将此文件中的内容读入，依据这些信息可以实现查询浏览等功能。如用户想检索关于幸福的文章，检索“幸福”关键词后，可以检索到本例中“少了财富多些幸福”这篇文章，那么可以同时得到这篇文章的正文内容，这篇文章的图像hw001.jpg，以及标题、正文对应在图像上的绝对坐标。

Claims

1.一种数字资源加工过程中的数据标引方法，包括以下步骤：

步骤一：将纸质文档进行扫描或打开已有的电子文档图像，将内容相关的一批图像制作成数据包；

步骤二：对制作成的数据包进行图像处理，得到待识别的图像数据包；

步骤三：对待识别的图像数据包进行版面分析，将图像上的各个版面画出版面框，并在版面框上标示出标引属性；

步骤四：对图像中的各版面进行OCR识别；

步骤五：对OCR识别出的结果进行校对和标引修正；

步骤六：利用修正后的识别结果文本和版面框，得到识别结果和标引属性的对应关系文件。

2.如权利要求1所述的一种数字资源加工过程中的数据标引方法，其特征在于，所述步骤三中，对每个版面框会自动添加缺省的标引属性，并根据匹配情况进行调整。

3.如权利要求1、2所述的一种数字资源加工过程中的数据标引方法，其特征在于，所述步骤三的标引属性中，种类和名称根据需要自行进行设置

4.如权利要求1所述的一种数字资源加工过程中的数据标引方法，其特征在于，所述步骤五对OCR识别的文字进行校对和标引修正时，识别文字和其相关的标引属性并排显示，并且通过文字可以直接定位到图像上文字所在位置，可以方便直观的校对识别文字和所属标引属性是否正确。