CN110580476B

CN110580476B - 文字识别装置以及文字识别方法

Info

Publication number: CN110580476B
Application number: CN201910480016.XA
Authority: CN
Inventors: 中西彻; 金全健
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2018-06-11
Filing date: 2019-06-04
Publication date: 2023-05-23
Anticipated expiration: 2039-06-04
Also published as: CN110580476A; US20190377941A1; JP2019215630A; JP6817251B2

Abstract

从二维页面数据高效地识别文字。文字识别装置(1A)具有：生成书籍的三维数据的三维数据生成部(10)；从所述三维数据生成二维页面数据的二维页面数据生成部(20)；从包含在二维页面数据的、具有与墨水对应的值的多个点提取文字的多个特征点，并识别该文字的识别部(30A)。

Description

文字识别装置以及文字识别方法

技术领域

本发明是关于识别书籍中记载的文字的文字识别装置以及文字识别方法。

背景技术

为了读书而翻开书籍，会损伤书籍。特别是旧书在打开时可能会损伤或破损。例如，在意大利发现了一个在古罗马时代的火山喷发中被烧焦的卷轴形的古代文献。这个古文献整体上是黑色的，所以很难用肉眼判读，并且，因为它很脆弱所以不能打开。因此，对于这样的书籍进行X射线相位断层摄影，因此可以在不损伤书籍的情况下获取书籍的三维数据。

另外，已知有从上述三维数据产生与书籍的每页相当的二维数据的书籍电子化装置。专利文献1中公开的书籍电子化装置使用书籍的三维数据确定与书籍页面对应的页面区域，并且将页面区域中的文字列或图形(识别之前)映射在二维平面，因此生成包括书籍中记载的文字列或图形(识别之前)的二维页面数据。此外，此处的文字列或图形意味着识别之前的多个点，从该多个点识别文字列或者图形。

现有技术文献

专利文献

专利文献1：国际公开2017/131184号公报

发明内容

本发明所要解决的技术问题

作为由所述书籍电子化装置生成二维页面数据之后的步骤，具有识别书籍中记载的文字列或者图形的步骤。在该步骤中，通过扫描二维页面数据中含有的、具有与墨水对应的值(例如，X射线的反射光的强度)的多个点(NODE，节点)，来识别文字或图形。

在所述识别步骤中，由于二维页面数据还包括除了墨水以外的与背景对应的值的点，因此需要扫描包括这些与背景对应的点的多个点，存在需要较多的时间来识别文字的问题。

用于解决技术问题的方案

本发明的一个实施方式是鉴于上述问题点而完成的，其目的在于，可以实现从二维页面数据有效识别文字的文字识别装置和文字识别方法。

为了解决上述课题，本发明的一种实施方式中所涉及的文字识别装置具有，三维数据生成部，其拍摄书籍并生成所述书籍的三维数据；二维页面数据生成部，其从所述三维数据生成二维页面数据，所述二维页面数据含有多个点的信息，所述多个点的信息具有与墨水对应的值或者与背景对应的值；

为了解决上述课题，本发明的一种实施方式中所涉及的文字识别方法包括，三维数据生成步骤，拍摄书籍并生成所述书籍的三维数据；二维页面数据生成步骤，从所述三维数据生成二维页面数据，所述二维页面数据含有多个点的信息，所述多个点的信息具有与墨水对应的值或者与背景对应的值；

有益效果

根据本发明的一个实施方式，可以实现从二维页面数据有效识别文字。

附图说明

图1是示出本发明的第一实施方式所涉及的书籍电子化装置的主要部分的构成的框图。

图2是示出所述书籍电子化装置的处理流程的一例的流程图。

图3是示出由所述书籍电子化装置所具有的文字区域确定部确定的一个区域中的各个节点的图。

图4是示出文字“あ”的特征点的图。

图5是示出在所述书籍电子化装置所具有的文字确定部对某一区域中文字“あ”的特征点的样子的图。

图6是示出本发明的第二实施方式所涉及的书籍电子化装置的主要部分的构成的框图。

图7的(a)以及(b)是用于说明所述书籍电子化装置所具有的特征点数据生成部的、特征点数据的生成方法的一例子的图。

图8的(a)以及(b)是用于说明所述书籍电子化装置所具有的特征点数据生成部的、特征点数据的生成方法的一例子的图。

图9的(a)～(c)是用于说明所述书籍电子化装置所具有的特征点数据生成部的、特征点数据的生成方法的一例子的图。

具体实施方式

(第一实施方式)

以下，详细说明本发明的一个实施方式。

(书籍电子化装置1A的构成)

图1是示出本实施方式中的书籍电子化装置1A(文字识别装置)的主要部分的构成的框图。如图1所示，书籍电子化装置1A包括三维数据生成部10、二维页面数据生成部20和文字识别部30A

(识别部)。

三维数据生成部10拍摄书籍并生成该书籍的三维数据。如图1所示，三维数据生成部10包括X射线照射装置11和检测器12。

X射线照射装置11使用X射线照射书籍。X射线照射装置11是，例如能够调节X射线照射的输出(波长)的构成，并可以将所需波长的X射线照射书籍。

检测器12检测照射到书籍上的X射线。检测器12构成为，取得包含X射线的检测位置和该位置的X射线强度的检测值。检测器12将取得的检测值作为三维数据输出到二维页面数据生成部20(更详细地是，位置指定部21)。

二维页面数据生成部20是从根据三维数据生成部10生成的三维数据，生成二维页面数据，所述二维页面数据含有多个点(节点)的信息，所述多个点(节点)的信息具有与墨水相对应的值或者与背景相对应值的。如图1所示，二维页面数据生成部20包括位置指定部21、面确定部22、数据生成部23。

位置指定部21基于从检测器12输出的三维数据的数据值，指定用于确定页面区域的初始点。页面区域是三维数据中与书籍的各页面对应的一部分，并且是与该各页面对应的某一面上存在的节点的集合。位置指定部21将初始点的信息输出到面确定部22。

面确定部22确定与由位置指定部21指定的初始点相关联的页面区域。面确定部22将与页面区域对应的点的集合、以及各点的数据值输出到数据生成部23。

数据生成部23将由面确定部确定的页面区域的数据转换为二维(平面的)页面数据(下文中称为二维页面数据)。二维页面数据包括具有与墨水相对应的值以及与背景相对应的值的多个点的信息，并且包括书籍的页面中的多个文字或图形的位置关系(文字等的配置)的信息。数据生成部23将生成的二维页面数据输出到文字识别部30A(更详细地，文字区域确定部32)。

文字识别部30A从通过二维页面数据生成部20生成的二维页面数据中含有的、具有与墨水对应的值的多个点，提取(确定)文字的多个特征点(必需的文字构成点)，由此识别该文字。如图1所示，文字识别部30A包括存储部31、文字区域确定部32、文字确定部33。

存储部31存储文字的特征点。换而言之，存储部31内存储文字(例如，平假名、片假名、汉字、字母、数字等)的特征点。本说明书中的“特征点”是组成文字所必需的点。对于一个文字的特征点的数量没有特别限制，也可以根据文字而不同。例如，在后面描述的“あ”(日本字)的情况下，特征点的数量是20。

文字区域确定部32从数据生成部23生成的二维页面数据确定一个文字的区域。确定一个文字的区域的方法可以使用公知的技术。文字区域确定部32可以确定在一个二维页面数据中记载的所有文字中的各自的区域。

文字确定部33确定在由文字区域确定部32确定的一个文字的区域中记载的文字。具体地，文字确定部33首先读取存储在存储部31中的文字的特征点的信息。然后，文字确定部33判断与读取的特征点对应的点的节点是否是与墨水对应的节点。换而言之，文字确定部33参照存储在存储部31中的特征点的数据，从二维页面数据中含有的、具备与墨水对应的值的多个节点提取文字的特征点。然后，若所有的与特征点对应的点的节点是与墨水对应的节点时，则文字确定部33确定(识别)记载在该区域内的该文字。

(书籍电子化装置1A的处理的一个例子)

图2是示出书籍电子化装置1A的处理(文字识别方法)流程的一个例子的流程图。如图2所示，在书籍电子化装置1A的处理中，首先，三维数据生成部10拍摄书籍，生成该书籍的三维数据(S1，三维数据生成步骤)。具体地，X射线照射装置11使用X射线照射书籍，检测器12检测出该X射线。X射线照射装置11使用X射线照射保持闭合的书籍。从X射线照射装置11照射的一部分X射线被书籍中的墨水吸收。

检测器12检测通过书籍的X射线的、含有特定的位置和强度的检测值，并将检测的检测值作为三维数据输出到二维页面数据生成部20(更详细地是，位置指定部21)。通过书籍中存在墨水的区域的X射线，作为比通过书籍的介质(纸)的X射线弱的强度的X射线，被检测器12检测。所述检测值的集合构成三维数据，所述三维数据含有检测出这样的弱强度X射线的点。该三维数据为包括墨水、纸面(背景)的位置信息、该位置处的X射线强度的信息的数据。因此，通过用X射线拍摄书籍，取得书籍中墨水的三维数据。

然后，二维页面数据生成部20从通过三维页面数据生成部10生成的三维数据，生成二维页面数据，所述二维页面数据含有多个点(节点)的信息，所述多个点(节点)的信息具有与墨水相对应的值或者与背景相对应的值(S2，二维页面数据生成步骤)。具体地，首先，在三维数据中，位置确定部21以与重叠的介质的至少一张(若书籍是册子为一页)相交叉的方式，指定线状的路径。例如，当书籍是册子时，该路径是贯通书籍的封面和封底，与书籍的所有页面相交叉的直线。

然后，位置指定部21指定上述路径上的、与划分书页数据值和间隙数据值的阈值对应的点，以作为页面区域的初始点。位置指定部21指定例如与多个页面区域对应的多个初始点。位置指定部21将初始点的信息输出到面确定部22。

然后，面确定部22确定由上述初始点决定的页面区域的位置。例如，页面区域是，在三维数据的正交坐标中，以横切构成该正交坐标的单位单元的方式配置。面确定部22例如在横穿页面区域的单位单元的边上，将上述阈值以上的点作为与上述页面区域所对应的点，并确定上述页面区域。

然后，数据生成部23将由面确定部22确定的页面区域的各点的数据值映射在二维平面上，由此生成二维页面数据。二维页面数据的各个点的数据值，大致对应于纸张(背景)以及墨水的任一个。作为映射的方法，可以使用公知的方法(例如，使用鞍点特征的三维网格扩展等)。

然后，文字识别部30A识别由数据生成部23生成的二维页面数据中含有的文字(识别步骤)。

具体地，首先，文字区域确定部32根据数据生成部23生成的二维页面数据确定各个文字的区域(S3)。

然后，文字确定部33确定在由文字区域确定部32确定的各个区域中记载的文字。此处，以在一个区域中记载的“あ”为例进行说明。图3是示出由文字区域确定部32确定的一个区域中的各个节点的图。如图3所示，该区域中具有与墨水对应的节点即节点

40A、与背景对应的节点40B，文字“あ”由节点40A形成。此外，为了简化，在图3中图示可以识别各个节点程度的大小，但是实际上节点之间的距离是大约几μm。因此，作为与墨水对应的节点的节点40A是节点组。该图示的方法，在后述的图4、5以及7～9也相同。

文字确定部33首先从存储部31中读取各文字的特征点，并判断与所读取的特征点对应的点的节点是否是与墨水对应的节点。

图4是示出文字“あ”的特征点50的图。图5是示出文字确定部33对上述区域中提取文字“あ”的特征点的样子的图。如图4和图5所示，文字确定部33判断与文字“あ”的所有特征点对应的节点是节点40A时，文字确定部33判断在该区域中记载的文字是“あ”。

然后，文字确定部33判断，在二维页面数据中是否存在尚未确定文字的区域(S5)。如果存在尚未确定文字的区域时(S5中的否)，则文字确定部33对下一区域执行步骤S4。另一方面，当在所有区域上确定了文字时，书籍电子化装置1A结束处理。

在以往的书籍电子化装置中，为了识别文字，二维页面数据中的所有的节点都用于识别文字。与此相对的，在根据本实施方式中的书籍电子化装置1A中，如上所述，仅使用文字的特征点来识别文字。由此，可以减少用于识别文字的处理。结果，可以缩短用于识别文字的时间。换而言之，书籍电子化装置1A可以从二维页面数据高效地识别文字。

此外，在本实施方式是，当所有的与特征点对应的点的节点是与墨水对应的点时，确定该区域内记载的该文字的方式，但是并不限定于此。例如，多个特征点中，与规定的比例(例如，80％)以上的特征点对应的点的节点是与墨水对应的节点时，也可以确定记载在该区域内的该文字。由此，能够进一步缩短处理时间。

〔第二实施方式〕

在下面说明本发明的其它实施方式。并且，为了便于说明，对与在上述实施方式中说明的构件具有相同功能的构件，标注相同的附图标记，并不再重复说明。

图6是示出本实施方式中的书籍电子化装置1B的主要部分的构成的框图。书籍电子化装置1B具有文字识别部30B(识别部)来代替第一实施方式中的文字识别部30A。

文字识别部30B包括文字区域确定部32、特征点数据生成部34、存储部35和文字确定部36。

特征点数据生成部34基于过去的文字识别结果生成文字的特征点的数据。具体地，特征点数据生成部34分析在文字区域确定部32确定的一个文字的区域中所有的节点，而确定该文字的特征点(必需的文字构成点)。特征点数据生成部34将生成的特征点数据存储在存储部35中。

对于特征点数据生成部34中特征点数据的生成方法的一个例子，参考图7和图8进行说明。图7中的(a)以及(b)、以及图8的(a)以及(b)，是用于说明特征点数据生成部34生成特征点数据的生成方法的例子的图。

首先，特征点数据生成部34识别并存储书籍中记载的文字。然后，特征点数据生成部34确定包括一个文字的所有节点的区域(下文中称为单个文字区域)。

然后，如图7的(a)所示，将存储的文字(详细地，文字的节点)绘制在各自的单个文字区域中。在下文中，将说明生成文字“G”的特征点数据的方法。如图7的(b)所示，然后，特征点数据生成部34例如叠加文字“G”和文字“C”，并且在文字“G”的节点40A中，提取作为与文字“C”的节点不重复的节点的节点40C。

然后，特征点数据生成部34将提取的节点40C与其他文字重叠。图8的(a)示出了将提取的节点40C叠加在文字“A”上的示例的图。

然后，如图8的(b)所示，特征点数据生成部34提取节点40C中与其他的文字没有重叠的节点40C，并确定该节点40C为文字“G”的特征点50。

在此，对于特征点数据生成部34中特征点数据的生成方法的另一个例子，参考图9进行说明。图9的(a)～(c)是用于说明特征点数据生成部34的特征点数据的生成方法的另一个例子的图。在此，将说明生成文字“C”的特征点数据的方法。

对于字母“C”，如图9的(a)所示，当文字“G”和文字

“C”重叠时，文字“C”的所有节点40A都与文字“G”的节点40A重叠。在这种情况下，如图9的(b)所示，特征点数据生成部34提取作为与其他文字重叠可能性较小的节点的节点40D(第二特征点)。然后，如图9的(c)所示，特征点数据生成部34在(1)有提取的节点40D，并且(2)不存在文字“G”的特征点50时，将该文字识别为“C”。换而言之，特征点数据生成部34确定节点40D和文字“G”的特征点50是文字“C”的特征点。

文字确定部36确定在由文字区域确定部32确定的一个文字的区域中记载的文字。具体地，文字确定部36首先读取存储在存储部35中的文字的特征点的信息。然后，文字确定部36判断与读取的特征点对应的点的节点是否是与墨水对应的节点。换而言之，文字确定部36参照存储在存储部35的特征点的数据，而从二维页面数据中含有的、与墨水对应的值的多个节点提取文字的特征点。然后，所有的与特征点对应的点的节点是与墨水对应的点时，文字确定部36确定(识别)记载在该区域内的该文字。

如上所述，在本实施方式中的书籍电子化装置1B中，通过特征点数据生成部34生成文字的特征点。因此，例如，即使诸如手写的文字，有独特的特征点的情况下，也可以有效地识别文字。

[通过软件的实现例]

书籍电子化装置1A、1B的控制模块(尤其是文字识别部30A以及文字识别部30B)，可以通过形成在集成电路(IC芯片)等的逻辑电路(硬件)来实现，也可以通过软件来实现。

在后者的情况下，书籍电子化装置1A、1B具备有执行实现各功能的软件即程序的命令的计算机。该计算机例如至少包括一个处理器(控制装置)，同时至少包括一个用于存储所述程序的、计算机可读取的存储介质。然后，在上述计算机中,通过上述处理器从上述存储介质读取上述程序并执行上述程序来实现本发明的目的。作为上述处理器，可以使用例如CPU(Central Process Unit)。作为上述记录介质，“非暂时性有形介质”例如可以使用除了ROM(Read Only Memory)等以外、还可以使用磁带、磁盘、卡、半导体存储器、可编程逻辑电路等的。此外，也可以进一步具备扩展上述程序的RAM(Random Access Memory)等。此外，上述程序可以经由能够发送该程序的任意传输介质(通信网络、广播电波等)提供给计算机。并且，本发明的一个方式也可以以该程序通过电子传输来具体化、并嵌入在载波中的数据信号的形态来实现。

〔总结〕

本发明的第一方面所涉及的文字识别装置具有：三维数据生成部，其拍摄书籍并生成所述书籍的三维数据；二维页面数据生成部，其从所述三维数据生成二维页面数据，所述二维页面数据含有多个点的信息，所述多个点的信息具有与墨水所对应的值或者与背景对应的值；识别部，其从包含在所述二维页面数据的、具有与所述墨水对应的值的多个点提取文字的多个特征点，并识别该文字。

本发明的第二方面所涉及的文字识别装置在所述第一方面，还包括存储部，所述存储部用于存储所述特征点数据，所述识别部参照所述存储部内存储的所述特征点的数据来识别文字。

本发明的第三方面所涉及的文字识别装置在所述第一方面，所述识别部具有特征点数据生成部，所述特征点数据生成部基于过去的文字识别结果生成所述特征点的数据，所述识别部参照特征点数据生成部生成的所述特征点的数据来识别文字。

本发明的第四方面所涉及的文字识别装置在所述第一方面到第三方面的任一项，所述识别部通过从与所述墨水对应的值的多个点中提取所述特征点中的一部分的所述特征点，识别该文字。

本发明的第五方面涉及的文字识别方法包括：三维数据生成步骤，拍摄书籍并生成所述书籍的三维数据；二维页面数据生成步骤，从所述三维数据生成二维页面数据，所述二维页面数据含有多个点的信息，所述多个点的信息与墨水对应的值或者与背景对应的值；识别步骤，从包含在所述二维页面数据的、具有与所述墨水对应的值的多个点提取文字的多个特征点，并识别该文字。

本发明不限于上述各实施方式，能在权利要求所示的范围中进行各种变更，将在不同的实施方式中分别公开的技术手段适当组合而得到的实施方式也包含于本发明的技术范围。而且，能够通过组合各实施方式分别公开的技术方法来形成新的技术特征。

附图标记说明

1A，1B 书籍电子化装置(文字识别装置)

10 三维数据生成部

20 二维页面数据生成部

30A，30B 文字识别部(识别部)

31 存储部

34 特征点数据生成部

50 特征点

Claims

1.一种文字识别装置，其特征在于：

其包括：

三维数据生成部，其拍摄书籍并生成所述书籍的三维数据；

二维页面数据生成部，其从所述三维数据生成二维页面数据，所述二维页面数据含有多个点的信息，所述多个点的信息具有与墨水对应的值或者与背景对应的值；

识别部，其从包含在所述二维页面数据的、具有与所述墨水对应的值的多个点提取文字的多个特征点，由此识别该文字，

存储部，其存储所述特征点的数据，

所述识别部参照所述存储部内存储的所述特征点的数据来识别文字，

所述识别部包括基于过去的文字识别结果生成所述特征点的数据的特征点数据生成部，

所述特征点数据生成部确定所识别的文字的特征点，并且作为所述识别的文字的特征点的数据追加存储于所述存储部中。

2.根据权利要求1所述的文字识别装置，其特征在于：

所述识别部通过从具有与所述墨水对应的值的多个点中提取文字的所述特征点中的一部分的所述特征点，识别该文字。

3.一种文字识别方法，其特征在于，其包括：

三维数据生成步骤，拍摄书籍并生成所述书籍的三维数据；

二维页面数据生成步骤，从所述三维数据生成二维页面数据，所述二维页面数据含有多个点的信息，所述多个点的信息具有与墨水对应的值或者与背景对应的值；

识别步骤，从包含在所述二维页面数据的、具有与所述墨水对应的值的多个点提取文字的多个特征点，由此识别该文字；

存储步骤，将所述特征点的数据存储于存储部，

在所述识别步骤中，参照所述存储部内存储的所述特征点的数据来识别文字，

所述识别步骤包括基于过去的文字识别结果生成所述特征点的数据的特征点数据生成步骤，

在所述特征点数据生成步骤中，确定所识别的文字的特征点，并且作为所述识别的文字的特征点的数据追加存储于所述存储部中。