CN102592299B

CN102592299B - 文件生成装置和文件生成方法

Info

Publication number: CN102592299B
Application number: CN201110354797.1A
Authority: CN
Inventors: 佐田以知子; 九津见毅
Original assignee: Sharp Corp
Current assignee: Sharp Corp
Priority date: 2010-11-10
Filing date: 2011-11-10
Publication date: 2014-11-19
Anticipated expiration: 2031-11-10
Also published as: JP2012103872A; JP5144736B2; US9110871B2; CN102592299A; US20120117461A1

Abstract

本发明提供一种文件生成装置和文件生成方法，能够容易且高效地生成以与文件的文字尺寸相应的文字尺寸附加有注音假名状的补充说明文字列的带补充说明的文件。存储文件中的文字区域中包含的文字的文字尺寸的信息，读出其文字尺寸的信息，根据各文字区域的文字尺寸按每个文字区域修正所读出的文字尺寸的信息，根据修正后的文字尺寸的信息分割一个文字区域，针对分割而成的文字区域内的文字，在文字尺寸的信息已被修正的情况下，根据修正后的文字尺寸的信息，生成补充说明文字列的显示方式的信息，根据所生成的显示方式的信息，生成带补充说明的文件。

Description

文件生成装置和文件生成方法

技术领域

本发明涉及通过对文件中包含的文字附加注音假名状的补充说明文字列(字符串)来生成带补充说明的文件的文件生成装置和文件生成方法。

背景技术

一直以来，对包含文字(字符)的原文件图像进行文字识别，使识别出的文字文本化的文字识别技术已经被广泛使用。另外，将第一语言的文字列翻译成第二语言的文字列的自动翻译技术也已经被使用。此外，将文字识别技术和自动翻译技术组合在一起的技术也已经被实用化。在该技术中，对扫描纸文件而得到的文件图像进行文字识别，并且将识别出的文字文本化，生成将该文本的翻译文与原文一起显示的图像。进而，也已提出了在与原文一起显示翻译文时，根据原文的文字尺寸决定翻译文的文字尺寸的技术。

例如，在日本特开2010-128599号公报中被公开的文件图像处理装置，对文件区域、图像区域等的版面设计进行解析，设定包含文字列的一个或多个文章区域，对各文章区域中包含的文字列进行识别，进行识别出的文字列的翻译。而且，该文件图像处理装置根据各文章区域的文字尺寸和行间隔，将各文章区域分类为一组或多组，按该每个组决定翻译文字列的文字尺寸，配置所决定的文字尺寸的翻译文字列来生成翻译文追加图像。

在此，文件图像处理装置将翻译文字列的文字尺寸设定为与原文的文字尺寸相同的尺寸。在以该尺寸不能将翻译文字列配置在原文的行间的情况下，文件图像处理装置将翻译文字列的文字尺寸设定为容纳于原文的行间的范围内的尺寸。此时，作为各文章区域的原文的文字尺寸和行间隔的值，使用已被文字识别过的文字的尺寸和行间隔的平均值。

另外，该文件图像处理装置在决定翻译文字列的文字尺寸之后，计算文件图像中原文和翻译文的文字列所占的区域的比例，根据该比例进行翻译文字列的文字尺寸的修正。具体而言，在上述比例较大的情况下，文件图像处理装置通过使文字尺寸最大的翻译文字列为较小的尺寸，或减小翻译文字列整体的文字尺寸来维持可读性。

但是，在上述的日本特开2010-128599号公报的技术中，存在按适合于各个文件区域的文字尺寸则难以进行翻译文字列的配置的情况。

例如，在布局复杂的原文件的情况下，在一个文章区域内，存在文字的尺寸不同或者包含空行等的情况。另外，在文字识别处理时，还存在以下情况：实际并非文字的图像部分被识别为文字，或者根据文字识别处理的结果所得到的原文的文字尺寸中存在错误。

因此，在按文章区域单位计算出原文的文字尺寸的平均值的情况下，存在其平均值成为与实际的文字尺寸的倾向相差较大的值的可能性。其结果，按文章区域单位所决定的翻译文字列的文字尺寸不适当，与原文件的文字尺寸相比，翻译文字列的文字尺寸过大或过小，或者文件的阅览性变差。

另外，翻译文字列的文字尺寸的修正由于是按每个将各文章区域分类所得到的组进行的，因此，在一个文章区域中局部存在文字尺寸较小的文字列或狭窄的行间的情况下，也存在对其而言以过大的文字尺寸配置翻译文字列的可能性。另外，在一个文章区域中局部存在文字尺寸较大的文字列或较宽的行间的情况下，也存在对其而言以过小的文字尺寸配置翻译文字列的可能性。

发明内容

本发明的目的在于提供一种文件生成装置和文件生成方法，其能够容易且高效地生成以与文件的文字尺寸相应的文字尺寸附加了注音假名状的补充说明文字列的带补充说明的文件。

本发明的目的在于提供一种文件生成装置，其特征在于：其通过对文件中包含的文字附加注音假名状的补充说明文字列来生成带补充说明的文件，上述文件生成装置包括：存储部，其存储上述文件中的文字区域中包含的文字的文字尺寸的信息；文字尺寸修正部，其从上述存储部读出上述文字尺寸的信息，根据各文字区域的文字尺寸，按每个文字区域修正所读出的文字尺寸的信息；文字区域分割部，其根据由上述文字尺寸修正部修正后的文字尺寸的信息，将一个文字区域分割成两个以上的文字区域；显示方式信息生成部，在针对由上述文字区域分割部分割而成的文字区域内的文字，通过上述文字尺寸修正部对文字尺寸的信息进行了修正的情况下，上述显示方式信息生成部根据修正后的文字尺寸的信息，按每个由上述文字区域分割部分割而成的文字区域，生成上述补充说明文字列的显示方式的信息；和文件生成部，其根据在上述显示方式信息生成部中生成的显示方式的信息，生成带上述补充说明的文件。

本发明的另一目的在于提供一种文件生成装置，其特征在于：上述文字尺寸修正部，针对各文字区域内的各行中包含的文字按每行决定文字尺寸，按每个文字区域计算被决定的文字尺寸的平均值，根据计算出的文字尺寸的平均值来修正上述文字尺寸的信息。

本发明的另一目的在于提供一种文件生成装置，其特征在于：上述文字尺寸修正部，在存在有文字数不到规定的阈值的行的情况下，将该行排除来计算上述文字尺寸的平均值。

本发明的另一目的在于提供一种文件生成装置，其特征在于：上述文字尺寸修正部，对按上述文字区域内的每行决定的文字尺寸附加各行中包含的文字数的权重，计算该按每行决定的文字尺寸的加权平均值，根据该加权平均值来修正上述文字尺寸的信息。

本发明的另一目的在于提供一种文件生成装置，其特征在于：上述文字尺寸修正部，接受对要从上述加权平均值的计算对象中排除的文字的指定，将已接受指定的文字排除来计算上述加权平均值。

本发明的另一目的在于提供一种文件生成装置，其特征在于：上述文字尺寸修正部，接受对与已接受上述指定的文字的个数相对于各行的总文字数的比例有关的阈值的指定，在该比例为该阈值以上的情况下，将已接受指定的文字排除来计算上述加权平均值。

本发明的另一目的在于提供一种文件生成装置，其特征在于：上述文字尺寸修正部，接受对要从上述加权平均值的计算对象中排除的文字种类的指定，将已接受指定的文字种类的文字排除来计算上述加权平均值。

本发明的另一目的在于提供一种文件生成装置，其特征在于：上述文字尺寸修正部，接受对与已接受上述指定的文字种类的文字数相对于各行的总文字数的比例有关的阈值的指定，在该比例为该阈值以上的情况下，将已接受指定的文字种类的文字排除来计算上述加权平均值。

本发明的另一目的在于提供一种文件生成装置，其特征在于：上述文字尺寸修正部，在计算出针对一个文字区域的包含首行的连续的n行被分别决定的文字尺寸的平均值后，计算针对从该首行到第n+1行的各行被决定的文字尺寸的平均值的情况下，将针对上述连续的n行被分别决定的文字尺寸的平均值与针对第n+1行被决定的文字尺寸进行比较，在针对该连续的n行被分别决定的文字尺寸的平均值与针对第n+1行被决定的文字尺寸之间的差大于规定的基准的情况下，将针对从上述首行到第n+1行的各行被决定的文字尺寸的平均值的计算中止，根据针对上述连续的n行被分别决定的文字尺寸的平均值，来修正上述文字尺寸的信息。

本发明的另一目的在于提供一种文件生成装置，其特征在于：上述文字区域分割部，在针对上述连续的n行被分别决定的文字尺寸的平均值与针对上述第n+1行被决定的文字尺寸之间的差大于规定的基准的情况下，将上述第n行与上述第n+1行之间作为界线，分割上述文字区域。

本发明的另一目的在于提供一种文件生成装置，其特征在于：上述文字尺寸修正部，在由上述文字区域分割部对上述文字区域进行了分割的情况下，计算针对上述第n+1行以后的行被决定的文字尺寸的平均值。

本发明的另一目的在于提供一种文件生成装置，其特征在于：还具备行间隔修正部，该行间隔修正部根据由上述文字尺寸修正部修正后的文字尺寸的信息，按每个文字区域修正各文字区域的行间隔的信息，上述显示方式信息生成部，根据由上述行间隔修正部修正后的行间隔的信息，生成上述补充说明文字列的显示方式的信息。

本发明的另一目的在于提供一种文件生成装置，其特征在于：上述行间隔修正部，通过计算各行间的行间隔的平均值来修正上述行间隔的信息，对一个文字区域的包含首行的连续的m行的行间隔的平均值与第m行和第m+1行之间的行间隔进行比较，在该连续的m行的行间隔的平均值与第m行和第m+1行之间的行间隔之间的差大于规定的基准的情况下，将第m行和第m+1行之间的行间隔从上述各行间的行间隔的平均值的计算对象中排除。

本发明的另一目的在于提供一种文件生成装置，其特征在于：上述显示方式信息生成部生成上述文件中包含的文字的译文、读法或注释的显示方式的信息，来作为上述补充说明文字列的显示方式的信息。

本发明的另一目的在于提供一种文件生成装置，其特征在于：还具备翻译处理部，该翻译处理部按上述文件中包含的每个单词、每个短语或每个词组，对该单词、短语或词组进行翻译，上述文件生成部生成带补充说明的文件，该带补充说明的文件按该每个单词、每个短语或每个词组赋予译文。

本发明的另一目的在于提供一种文件生成方法，其特征在于：其是通过对文件中包含的文字附加注音假名状的补充说明文字列来生成带补充说明的文件的文件生成方法，上述文件生成方法包括：第一文字尺寸修正步骤，从存储有在上述文件中的各文字区域中包含的文字的文字尺寸的信息的存储部读出该文字尺寸的信息，根据各文字区域的文字尺寸，按每个文字区域修正所读出的文字尺寸的信息；文字区域分割步骤，根据在上述第一文字尺寸修正步骤中被修正的文字尺寸的信息，将一个文字区域分割成两个以上的文字区域；第二文字尺寸修正步骤，针对通过上述文字区域分割步骤分割而成的文字区域内的文字，修正文字尺寸的信息；显示方式信息生成步骤，根据在上述第二文字尺寸修正步骤中被修正的文字尺寸的信息，按每个通过上述文字区域分割步骤分割而成的文字区域，生成上述补充说明文字列的显示方式的信息；和文件生成步骤，根据在上述显示方式信息生成步骤中生成的显示方式的信息，生成带上述补充说明的文件。

附图说明

图1是本发明的实施方式的文件生成装置的功能框图。

图2是对原文文字尺寸的修正的一例进行说明的图。

图3是对原文文字尺寸的修正的另一例进行说明的图。

图4是表示本发明的实施方式的文件生成处理的处理步骤的一例的流程图。

图5是表示图4所示的原文文字尺寸修正处理的处理步骤的一例的流程图。

图6是表示图4所示的行间隔修正处理的处理步骤的一例的流程图。

具体实施方式

下面，参照附图详细地说明本发明的实施方式。图1为本发明的实施方式的文件生成装置10的功能框图。文件生成装置10是通过对文件中包含的文字附加注音假名状的补充说明文字列(以下称为注音假名)来生成带补充说明的文件(以下，称为带注音假名的文件)的装置。所谓注音假名是指表示文字的读法、意思等的注释(例如，读音假名、发音符号、拼音符号、译文、专业用语和难理解的语句的说明)，在这些文字的附近以知晓与文字的对应关系的方式进行配置。

另外，下面列举对英语的文字附加日语的译文作为注音假名的情况为例，对文件生成装置10进行说明，但是在将表示文字的读法或意思等的注释作为注音假名附加的情况下也能够应用本发明，能够将本发明应用于较宽的用途。另外，下面说明对横写的文件附加译文的情况，但是本发明也能够容易地应用于对纵写的文件附加译文的情况。

如图1所示，文件生成装置10具备：控制部11、输入部12、显示部13、缓存器14、网络I/F(Interface，接口)部15、存储部16、图像取得部17、布局解析部18、文字识别部19、文字尺寸修正部20、文字区域分割部21、行间隔修正部22、翻译处理部23、显示方式信息生成部24、文件生成部25。各功能部通过总线26相互连接。

控制部11是对文件生成装置10进行整体控制的处理部。该控制部11管理各功能部间的数据的授受(发送和接收)等。输入部12是键盘或鼠标等输入装置。显示部13是显示器等显示装置。缓存器14包括存储器(例如，RAM(Random Access Memory，随机存取存储器))等，是临时存储数据的存储装置。网络I/F部15为通过LAN(LocalArea Network，局域网)或WAN(Wide Area Network，广域网)等IP(Internet Protocol，互联网协议)网络与外部装置进行通信的网络接口。

存储部16是存储器(例如，闪烁ROM(Read Only Memory，只读存储器)、EEPROM(Electrically Erasable and Programmable Read OnlyMemory，电可擦除只读存储器))或硬盘装置等存储装置。该存储部16存储注音假名文字列生成用字典数据16a、布局解析数据16b、原文文字列数据16c、原文文字附属信息数据16d、平均值数据16e、注音假名文字列数据16f、注音假名附属信息数据16g。

注音假名文字列生成用字典数据16a是英语和日语的语法数据、各句法的出现频率的数据、以及包括英语的单词、短语和针对它们的日语译文等的数据。在此，所谓短语是指两个以上的单词连结，表示一个统一的意思的语句(例如，名词句、动词句、复合词、惯用句等)。布局解析数据16b是表示由布局解析部18得到的原文件图像的布局解析的结果的数据。具体而言，布局解析数据16b包括原文件图像中包含的文字区域、图像区域、空白(余白)等的位置和尺寸的信息。

原文文字列数据16c是由文字识别部19的原文件图像的文字识别结果得到的各文字的文本信息。原文文字附属信息数据16d是由原文件图像的文字识别结果得到的各文字的位置、尺寸等数据。平均值数据16e是各文字区域中的文字尺寸和行间隔的平均值的数据。注音假名文字列数据16f是通过翻译处理部23作为注音假名文字列而生成的译文的数据。注音假名附属信息数据16g是通过翻译处理部23作为注音假名文字列而生成的译文的位置、尺寸等数据。

在此，不需要预先将数据存储在存储部16中，例如，可以通过驱动器读出存储在外部存储器中的数据，并使其存储在存储部16中。另外，也可以通过网络I/F部15从外部装置下载数据并使其存储在存储部16中。

图像取得部17取得包括文字图像的原文件图像的图像数据。例如，图像取得部17，在通过网络I/F部15将平板式扫描仪或胶片扫描仪等与文件生成装置10连接的情况下，或者在文件生成装置10具有这些扫描仪的情况下，取得通过这些扫描仪读取到的图像数据。

布局解析部18是对由图像取得部17取得的原文件图像的布局进行解析的处理部。具体而言，布局解析部18对原文件图像中包含的文字区域、图像区域、空白等版面设计进行解析，检测出各区域的位置、尺寸等。而且，布局解析部18将各区域的位置、尺寸等信息作为布局解析数据16b存储在存储部16中。

文字识别部19是对由布局解析部18检测出的文字区域中包含的文字进行识别，将识别出的文字转换为文本信息的处理部。另外，该文字识别部19进行检测识别出的文字的位置、尺寸等的处理。而且，文字识别部19将文本信息作为原文文字列数据16c存储在存储部16中，并且将检测出的文字的位置、尺寸等信息作为原文文字附属信息数据16d存储在存储部16中。

布局解析部18和文字识别部19通过例如以OCR(Optical CharacterRecognition，光字符识别)等采用与目前使用的文字识别技术同样的技术对原文件图像的布局进行解析来检测文字区域，进而对检测出的文字区域内的各文字的图像进行文字识别并转换为文本信息。

文字尺寸修正部20是对由文字识别部19识别出的原文文字尺寸进行修正的处理部。具体而言，文字尺寸修正部20通过针对各文字区域，计算由文字识别部19的文字识别结果得到的各行的文字尺寸的平均值，进行原文文字尺寸的修正。在此，文字尺寸修正部20通过计算例如各行中包含的文字的文字尺寸的平均值来计算各行的文字尺寸。修正后的原文文字尺寸被用于设定注音假名的文字尺寸。另外，各行的文字尺寸也可以通过使用各行中包含的文字的文字尺寸的中央值或最频值、最大值等以其他方法进行计算。

由此，在由文字识别部19识别出的文字的尺寸不均匀的情况下，也能够按每个文字区域统一注音假名的文字尺寸，即使文字区域中包含极小的文字或极大的文字，也能够适当地设定注音假名的文字尺寸。

图2是对原文文字尺寸的一例修正进行说明的图。如图2所示，例如在行数为5行的文字区域中，由文字识别部19识别出的各行的文字尺寸为9号(point)、8号、9号、10.5号、8.5号。这种情况下，平均值为9号。由此，如图2所示，文字尺寸修正部20将该文字区域中包含的文字的文字尺寸修正为9号。

另外，在上述的处理中，当包含在行中的文字个数不到规定的阈值时，也可以将该行排除后来计算平均值。在预测到错误地将非文字的部分识别为文字且包含被错误地识别出的文字的行的文字数变少等情况下，通过将这样的行排除在外，能够计算出适当的文字尺寸的平均值。

另外，文字尺寸修正部20也可以对各行的文字尺寸附加各行中包含的文字数的权重来计算加权平均值，使用计算出的加权平均值进行原文文字尺寸的修正。

例如，在行数为2行的文字区域中，第一行文字的尺寸是10号，文字数是30个字，第二行文字的尺寸是20号，文字数为1个字。这种情况下，平均值为(10+20)/2＝15号，但是难以说该平均值表示平均的文字尺寸。另一方面，加权平均值为(10×30+20×1)/(30+1)＝10.3号。像这样，文字尺寸修正部20能够通过使用加权平均值来更适当地计算平均的文字尺寸，能够更有效地进行原文文字尺寸的修正。

计算加权平均值时，文字尺寸修正部20也可以接受对从加权平均值的计算对象中排除的文字或文字种类的指定，将已接受指定的文字或文字种类的文字排除来计算加权平均值。要排除的文字或文字种类既可以预先存储在文件生成装置10的存储部16中，也可以从用户接受指定。或者，在已接受指定的文字或文字种类的文字(例如，符号等特殊文字)的含有率、即已接受指定的文字或文字种类的文字的个数相对于各行的总文字数的比例为规定的阈值以上的情况下，将该文字或文字种类的文字从平均值的计算对象中排除。该阈值既可以预先存储在文件生成装置10的存储部16中，也可以从用户接受指定。

文字识别部19有时错误地将在文件的目录中为了联系标题和页码而使用的“…”等符号列识别为文字，但是如上所述，通过将这样的符号列从平均值的计算对象中排除，也能够计算适当的文字尺寸的平均值。

进而，文字尺寸修正部20在原文件中包含尺寸相差较大的文字的情况下，也可以将这些文字的文字尺寸作为异常值(outlier，离异值)排除来计算平均值，使用计算出的平均值进行原文文字尺寸的修正。图3为说明原文文字尺寸的另一例修正的图。如图3所示，例如在行数为8行的文字区域中，由文字识别部19识别出的各行的文字尺寸是15号、16号、14号、15号、7号、6号、5号、6号。

文字尺寸修正部20，为了计算在某个文字区域中从第一行到第n行(n＞1)的文字尺寸的平均值，在取得第n行的文字尺寸的信息的情况下，将第n行的文字尺寸与从第一行到第n-1行的文字尺寸的平均值进行比较。而且，文字尺寸修正部20在第n行的文字尺寸与上述平均值的差大于规定的基准的情况下，将从第一行到第n-1行的文字尺寸用平均值替换，修正从第一行到第n-1行的行中包含的文字的尺寸。所谓规定的基准是指例如将第n行的文字尺寸和平均值中的较大的值设为A、将较小的值设为B时，A是B的2倍这样的基准。修正文字尺寸后，文字尺寸修正部20对第n行以后的行继续计算平均值的处理。

在第n行的文字尺寸与平均值的差不大于规定的基准的情况下，文字尺寸修正部20为了计算从第一行到第n+1行的文字尺寸的平均值，取得第n+1行的文字尺寸的信息，继续进行与上述处理同样的处理。

在图3的例子中，行中包含的文字的个数为规定的阈值以上。文字尺寸修正部20在计算第一行和第二行的平均值时，取得为16号的第二行的文字尺寸的信息。这种情况下，平均值(第一行的文字尺寸)为15号，由于第二行的文字尺寸(16号)不大于平均值的2倍，因此文字尺寸修正部20取得为14号的第三行的文字尺寸的信息。文字尺寸修正部20以下重复同样的处理，取得为7号的第五行的文字尺寸的信息。

从第一行到第四行的文字尺寸的平均值为15号，该值比为7号的第五行的文字尺寸的2倍还大。因此，如图3所示，文字尺寸修正部20将从第一行到第四行的文字尺寸用为15号的平均值进行替换，修正从第一行到第四行的行中包含的文字的尺寸。

然后，文字尺寸修正部20针对第五行以后的行继续进行计算平均值的处理。具体而言，文字尺寸修正部20在计算第五行和第六行的平均值时，取得为6号的第六行的文字尺寸的信息。此时，平均值(第五行的文字尺寸)为7号，由于第六行的文字尺寸(6号)不大于平均值的2倍，因此文字尺寸修正部20取得为5号的第三行的文字尺寸的信息。文字尺寸修正部20重复同样的处理直到第八行为止，作为从第五行到第八行的文字尺寸的平均值，得到为6号的值。由于第八行是文字区域的最终行，因此文字尺寸修正部20如图3所示，将从第五行到第八行的文字尺寸用为6号的平均值替换，修正从第五行到第八行的行中包含的文字的尺寸。

由此，例如在某个文字区域内包含文字尺寸与其他行的文字尺寸相差较大的行的情况下，文字尺寸修正部20也能够通过根据文字尺寸设定用于计算平均值的对象行，来计算适当的文字尺寸的平均值。

文字区域分割部21是在由布局解析部18检测出的文字区域中包含尺寸相差较大的文字的情况下，以使文字尺寸大致均匀的方式分割文字区域的处理部。该文字区域分割部21与文字尺寸修正部20联动地发挥功能。具体而言，文字尺寸修正部20为了计算从第一行到第n行的文字尺寸的平均值，取得第n行的文字尺寸的信息，在判定为第n行的文字尺寸与从第一行到第n-1行的文字尺寸的平均值的差大于规定的基准的情况下，文字区域分割部21将文字区域分割成包含从第一行到第n-1行的文字区域和包含第n行以后的行的文字区域。

由此，例如在布局解析部18的布局解析处理中存在错误等，在一个文字区域中包含尺寸相差较大的文字这样的情况下，该文字区域也会被分割成包含相同程度的尺寸的文字的多个文字区域，因此在各文字区域中也能够计算适当的文字尺寸的平均值，能够使用该平均值适当地设定注音假名的文字尺寸。另外，文字尺寸修正部20、文字区域分割部21每次使处理推进一行，就分别进行是用该行划分文字尺寸的修正还是分割文字区域的判定处理。这种判定处理在每次进行文字尺寸的修正，进而决定文字区域的分割部位时，在进行文字区域内的文字列的翻译和注音假名的生成这样的情况下特别有效。即，对于进行文字尺寸的修正、决定了分割部位的文字区域，能够推进翻译处理和注音假名的生成处理，因此能够迅速地执行对这样的文字区域内的文字列赋予注音假名的处理。

行间隔修正部22是使用由文字尺寸修正部20修正后的原文文字尺寸的信息，对由文字区域分割部21分割成的各文字区域中的行间隔进行修正的处理部。具体而言，行间隔修正部22针对各文字区域，计算以由文字尺寸修正部20修正后的文字尺寸来配置各原文文字时的各行间的行间隔的平均值，使用计算出的平均值修正行间隔。在此，假设行间隔修正部22，以文字尺寸被修正后的各原文文字的中心位置与修正尺寸之前的各原文文字的中心位置分别一致的方式，配置文字尺寸被修正后的各原文文字。而且，行间隔修正部22计算某行n的下端坐标与下一行n+1的下端坐标的差，通过从该差减去文字尺寸被修正后的行n+1的原文文字的纵向长度来计算各行间的行间隔。另外，文字尺寸被修正后的各原文文字的配置也可以是除此以外的配置。

被修正后的行间隔的信息用于决定译文的配置位置。由此，能够容易且高效地生成带注音假名的文件，该带注音假名的文件在与文件的行间隔相应的位置上附加有作为注音假名的译文。

例如，行间隔修正部22基于包含文字尺寸被修正后的原文文字的各行的首文字的下端的坐标和该行的下一行的首文字的上端的坐标之差来计算行间隔。然后，行间隔修正部22在各文字区域中逐行地计算行间隔，每计算一行行间隔，就计算行间隔的平均值。另外，在此对文件是横写的情况进行了说明，但在文件是纵写的情况下，只要基于列的首文字左端的坐标和该列的下一列的首文字右端的坐标之差计算行间隔即可。

行间隔修正部22为了在某个文字区域中计算从第一行到第m行(m＞2)的各行间的行间隔的平均值，在取得了第m-1行和第m行之间的行间隔的信息的情况下，对第m-1行和第m行之间的行间隔与从第一行到第m-1行的各行间的行间隔的平均值进行比较。然后，行间隔修正部22在第m-1行和第m行之间的行间隔与上述平均值的差大于规定的基准的情况下，将第m-1行和第m行之间的行间隔作为异常值从平均值的计算对象中排除。所谓规定的基准是指例如将第m-1行和第m行之间的行间隔、和平均值中的较大的值作为A、将较小的值作为B时，A是B的2倍这样的基准。然后，行间隔修正部22针对第m行和第m+1行之间的行间以后的行间继续进行计算平均值的处理。

由此，例如在某个文字区域内存在空行，或者存在行间隔极大或极小的行间的情况下，由于行间隔修正部22将该行间隔从平均值的计算对象中排除出去，因此也能够计算出适当的行间隔的平均值，使用该平均值能够适当地设定译文的配置位置。

翻译处理部23进行将与由文字识别部19识别出的原文文字列对应的译文作为注音假名文字列生成的处理。具体而言，翻译处理部23通过参照注音假名文字列生成用字典数据16a，按原文文字列中包含的每个单词或每个短语，生成单词或短语的译文，将所生成的译文与单词或短语对应起来，作为注音假名文字列数据16f存储在存储部16中。另外，在本实施方式中，设定为翻译处理部23按每个单词或每个短语生成译文，但是除单词或短语之外，翻译处理部23也可以按每个词组(phrase)生成译文。在此，所谓词组是指包括多个单词、短语的单词列。各个词组通常没有登记在字典中，因此，例如翻译处理部23翻译词组中包含的单词和短语，使用该翻译结果生成词组整体的译文即可。或者，也可以用其他方法生成词组的译文。

显示方式信息生成部24是生成在将由翻译处理部23生成的译文配置在图像上时的配置位置、文字尺寸的信息的处理部。该显示方式信息生成部24将所生成的信息作为注音假名附属信息数据16g存储在存储部16中。

具体而言，显示方式信息生成部24以相对于由文字尺寸修正部20修正后的文字尺寸成为规定的比例的方式设定译文的文字尺寸。而且，显示方式信息生成部24以使位于配置译文的行间的正上方的原文文字列的下端与译文的上端基本一致的方式设定译文的配置位置，进而当原文文字列和译文相邻时能够在视觉上视认的范围内调整译文的配置位置。

另外，显示方式信息生成部24也可以按每个由布局解析部18检测出的文字区域，或者按每个由文字区域分割部21分割而成的文字区域，以在按照由文字尺寸修正部20修正后的文字尺寸和由行间隔修正部22修正后的行间隔配置原文文字时的行间的中央线上排列译文的方式设定译文的配置位置。在此，显示方式信息生成部24针对各文字区域的第一行，以文字尺寸被修正后的各原文文字的中心位置分别与修正尺寸之前的各原文文字的中心位置一致的方式配置，然后，作为按照由文字尺寸修正部20修正后的文字尺寸和由行间隔修正部22修正后的行间隔依次配置各行的原文文字的配置，设定译文的配置位置。另外，文字尺寸被修正后的各原文文字的配置也可以是这种配置以外的配置，另外，译文的配置位置也可以设定为行间隔的中央线上的位置以外的位置。

此时，显示方式信息生成部24为了设定译文的文字尺寸，按每个由布局解析部18检测出的文字区域，或者按每个由文字区域分割部21分割而成的文字区域，对由行间隔修正部22修正后的行间隔和由文字尺寸修正部20修正后的文字尺寸进行比较。

原文件是横写的文件中，在行间隔不到已通过文字尺寸修正部20对文字尺寸进行了修正的原文文字的纵向长度的40％时，显示方式信息生成部24以使译文的文字的纵向长度成为上述原文文字的纵向长度的40％的方式设定译文的文字尺寸。另外，在行间隔超过上述原文文字的纵向长度的80％时，显示方式信息生成部24以使译文文字的纵向长度成为上述原文文字的纵向长度的80％的方式设定译文的文字尺寸。进而，在行间隔为上述原文文字的纵向长度的40～80％时，显示方式信息生成部24以使译文文字的纵向长度成为与行间隔相同的长度的方式设定译文的文字尺寸。另外，在上述处理中，也可以使用与40％、80％不同的阈值。另外，在原文件为纵写的文件的情况下，也能够通过将原文文字的横向长度作为基准，以同样的方法来设定译文的文字尺寸。

文件生成部25是生成对原文文字列附加了译文的文件图像的处理部。具体而言，文件生成部25生成注音假名信息文本层，该注音假名信息文本层是将由翻译处理部23按每个单词或每个短语生成的译文，以被设定的文字尺寸配置在由显示方式信息生成部24设定的配置位置上。然后，文件生成部25通过使所生成的注音假名信息文本层与原文件图像重合，生成对原文文字列附加有译文的文件图像。

在此，文件生成部25以单词或短语为单位进行翻译，生成附加有由该翻译的结果得到的译文的文件图像。这样，不是以句子为单位进行翻译，而是以单词或短语为单位进行翻译，因此，即使在文字识别部19进行的文字识别中存在错误的情况下，该影响也只是部分涉及句子的一部分，能够防止该影响涉及句子整体的翻译。

接着，对本发明实施方式的文件生成处理的处理步骤之一例进行说明。图4为表示本发明的实施方式涉及的文件生成处理的处理步骤之一例的流程图。

如图4所示，文件生成装置10的图像取得部17取得包含文字图像的原文件图像的图像数据(步骤S100)。然后，布局解析部18执行由图像取得部17取得的原文件图像的布局解析(步骤S101)。接着，文字识别部19识别由布局解析部18检测出的文字区域中包含的文字，将识别出的文字转换为文本信息，并且进行检测识别出的文字的位置、尺寸等的文字识别处理(步骤S102)。

然后，文字尺寸修正部20进行由文字识别部19识别出的原文文字尺寸的修正(步骤S103)。另外，在该修正处理中，在由布局解析部18检测出的文字区域中包含尺寸相差较大的文字的情况下，文字区域分割部21以使文字尺寸大致均匀的方式分割文字区域。关于该修正处理，使用图5详细地进行说明。

接着，行间隔修正部22使用由文字尺寸修正部20修正后的原文文字尺寸的信息，对由文字区域分割部21分割成的各文字区域中的行间隔进行修正(步骤S104)。关于该修正处理，使用图6详细地进行说明。

然后，翻译处理部23将与由文字识别部19识别出的原文文字列对应的译文作为注音假名文字列而生成，显示方式信息生成部24使用由文字尺寸修正部20修正后的原文文字尺寸的信息和由行间隔修正部22修正后的行间隔的信息，进行生成将由翻译处理部23生成的译文配置在图像上的配置位置和文字尺寸的信息的处理(步骤S105)。

然后，文件生成部25生成注音假名信息文本层，该注音假名信息文本层是以被设定的文字尺寸将由翻译处理部23生成的译文配置在由显示方式信息生成部24设定的配置位置上，并且使所生成的注音假名信息文本层与原文件图像重叠，由此进行生成对原文文字列附加有译文的文件图像的处理(步骤S106)。

接着，对图4所示的原文文字尺寸修正处理的处理步骤之一例进行说明。图5为表示图4所示的原文文字尺寸修正处理的处理步骤之一例的流程图。在此，原文文字尺寸修正处理从各文字区域的首行开始。

如图5所示，文件生成装置10的文字尺寸修正部20判定作为处理对象所关注的行是否为该文字区域的第一行(步骤S200)。然后，文字尺寸修正部20在所关注的行是该文字区域的第一行时(在步骤S200中为是(YES)时)，将所关注的行的文字尺寸存储在缓存器14中(步骤S201)。在所关注的行不是该文字区域的第一行时(在步骤S200中为否(NO)时)，文字尺寸修正部20计算从该文字区域的第一行到所关注的行为止的各行的文字尺寸的平均值，将计算出的平均值存储在缓存器14中(步骤S202)。

在步骤S201或步骤S202的处理之后，文字尺寸修正部20调查在该文字区域内是否存在下一行(步骤S203)。在不存在下一行时(在步骤S203中为否时)，文字尺寸修正部20将存储在缓存器中的值与该文字区域对应起来，作为平均值数据16e存储在存储部16中(步骤S208)。然后，文字尺寸修正部20调查是否存在还未进行该原文文字尺寸修正处理的未处理的文字区域(步骤S209)。

在不存在未处理的文字区域时(在步骤S209中为否时)，文字尺寸修正部20结束该原文文字尺寸修正处理。在存在未处理的文字区域时(在步骤S209中为是时)，移行至步骤S200，文字尺寸修正部20对未处理的文字区域，进行判定作为处理对象所关注的行是否为该文字区域的第一行的处理，继续进行此后的处理。

在步骤S203中，在存在下一行时(在步骤S203中为是时)，文字尺寸修正部20将指示所关注的行的指针推进一行，将下一行设定为所关注的行(步骤S204)。

然后，文字区域分割部21调查所关注的行的文字尺寸与平均值的差是否大于规定的基准(步骤S205)。在该差不大于规定的基准时(在步骤S205中为否时)，移行到步骤S202，文字尺寸修正部20进行计算从该文字区域的第一行到所关注的行为止的各行的文字尺寸的平均值，并将计算出的平均值存储在缓存器14中的处理。

在该差大于规定的基准时(在步骤S205中为是时)，文字尺寸修正部20将存储在缓存器中的值与该文字区域对应起来，并作为平均值数据16e存储在存储部16中(步骤S206)。这里被存储的值是被分割成2个的文字区域中的、包含所关注的行的前一行的文字区域的平均值。此后，文字区域分割部21将所关注的行和所关注的行的前一行之间作为界线，将文字区域分割成两个区域(步骤S207)。

然后，移行到步骤S200，文字尺寸修正部20针对作为分割的结果产生的2个文字区域中的包含所关注的行的文字区域，进行调查所关注的行是否为该文字区域的第一行的处理，继续进行此后的处理。

另外，在上述处理中，作为平均值数据16e与各文字区域对应起来存储的平均值，成为各文字区域的修正后的原文文字尺寸。行间隔修正部22使用该修正后的原文文字尺寸的信息，修正各文字区域中的行间隔。另外，显示方式信息生成部24使用修正后的原文文字尺寸的信息，生成将译文配置在图像上的配置位置和文字尺寸的信息。

接着，对图4所示的行间隔修正处理的处理步骤之一例进行说明。图6为表示图4所示的行间隔修正处理的处理步骤之一例的流程图。在此，行间隔修正处理从各文字区域的第一个行间即各文字区域的首行和下一行之间的行间开始。

如图6所示，文件生成装置10的行间隔修正部22针对作为处理对象的文字区域，计算按照由文字尺寸修正部20修正后的文字尺寸配置有各原文文字时的各行间的行间隔(步骤S300)。然后，行间隔修正部22将该文字区域的第一个行间的行间隔存储在缓存器14中(步骤S301)。接着，行间隔修正部22调查在该文字区域内是否存在下一行间(步骤S302)。在不存在下一行间时(在步骤S302中为否时)，行间隔修正部22将存储在缓存器中的值与该文字区域对应起来，并将其作为平均值数据16e存储在存储部16中(步骤S307)。然后，行间隔修正部22调查是否存在还未进行该行间隔修正处理的未处理的文字区域(步骤S308)。

在不存在未处理的文字区域时(在步骤S308中为否时)，行间隔修正部22结束该行间隔修正处理。在存在未处理的文字区域时(在步骤S308中为是时)，移行到步骤S300，行间隔修正部22对未处理的文字区域进行计算各行间的行间隔的处理，继续此后的处理。

在步骤S302中，在存在下一行间时(在步骤S302中为是时)，行间隔修正部22将指示所关注的行间的指针推进一个行间，将下一行间设定为所关注的行间(步骤S303)。

然后，行间隔修正部22调查所关注的行间的行间隔与平均值的差是否大于规定的基准(步骤S304)。在该差不大于规定的基准时(在步骤S304中为否时)，行间隔修正部22计算从该文字区域的第一个行间到所关注的行间为止的各行间的行间隔的平均值，进行将计算出的平均值存储在缓存器14中的处理(步骤S305)。

在该差大于规定的基准时(在步骤S304中为是时)，行间隔修正部22将所关注的行间的行间隔从平均值的计算对象中排除(步骤S306)。然后，移行到步骤S302，行间隔修正部22调查在该文字区域内是否存在下一行间，继续此后的处理。

另外，在上述处理中，作为平均值数据16e与各文字区域对应起来存储的平均值，成为各文字区域的修正后的行间隔。显示方式信息生成部24使用修正后的行间隔的信息，生成将译文配置在图像上的配置位置的信息。

另外，在上述实施方式中，在针对所有文字区域的原文文字尺寸的修正、文字区域的分割、行间隔的修正完成后，翻译处理部23生成注音假名文字列，显示方式信息生成部24设定注音假名文字列的配置位置和文字尺寸，但是即使针对所有文字区域上述处理都未完成，也可以从原文文字尺寸的修正、文字区域的分割、行间隔的修正完成了的文字区域起先执行注音假名文字列的生成处理、注音假名文字列的配置位置和文字尺寸的设定处理。

在此之前虽然以文件生成装置10和文件生成方法的实施方式为中心进行了说明，但是本发明不限定于这些实施方式，也可以以用于实现文件生成装置10的功能的计算机程序的方式，或者以记录有该计算机程序的计算机可读取的记录介质的方式来实施本发明。

在此，作为记录介质，能够采用盘类(例如磁盘、光盘等)、卡类(例如存储卡、光卡等)、半导体存储器类(例如ROM、非易失性存储器等)、磁带类(例如磁带、盒式磁带等)等各种形式的介质。

通过在这些记录介质中记录可实现上述本实施方式的文件生成装置10的功能的计算机程序，或者记录使计算机执行文件生成方法的计算机程序并使其流通，能够实现成本的降低，以及可传递性和通用性的提高。

而且，将上述记录介质安装在计算机上，由计算机读出被记录在记录介质中的计算机程序并存储在存储器中，计算机所具备的处理器(CPU：Central Processing Unit，中央处理器；MPU：Micro ProcessingUnit，微处理器)通过从存储器读出并执行该计算机程序，能够实现本实施方式的文件生成装置10的功能，执行文件生成方法。

另外，本发明不限定于上述的实施方式，在不脱离本发明的主旨的范围内能够进行各种变形、修正。

如上所述，根据本发明，修正文件中所包含的文字的文字尺寸，根据修正后的文字尺寸的信息对文字区域进行分割，在对分割而成的文字区域内的文字修正文字尺寸的信息的情况下，根据修正后的文字尺寸的信息，按每个分割而成的文字区域生成注音假名状的补充说明文字列的显示方式的信息，根据所生成的显示方式的信息生成带补充说明的文件，因此能够容易且高效地生成以与文件的文字尺寸相应的文字尺寸附加有注音假名状的补充说明文字列的带补充说明的文件。

Claims

1.一种文件生成装置，其特征在于：

其通过对文件中包含的文字附加注音假名状的补充说明文字列来生成带补充说明的文件，

所述文件生成装置包括：

存储部，其存储所述文件中的文字区域中包含的文字的文字尺寸的信息；

文字尺寸修正部，其从所述存储部读出所述文字尺寸的信息，根据各文字区域的文字尺寸，按每个文字区域修正所读出的文字尺寸的信息；

文字区域分割部，其根据由所述文字尺寸修正部修正后的文字尺寸的信息，将一个文字区域分割成两个以上的文字区域；

显示方式信息生成部，在针对由所述文字区域分割部分割而成的文字区域内的文字，通过所述文字尺寸修正部对文字尺寸的信息进行了修正的情况下，所述显示方式信息生成部根据修正后的文字尺寸的信息，按每个由所述文字区域分割部分割而成的文字区域，生成所述补充说明文字列的显示方式的信息；

文件生成部，其根据在所述显示方式信息生成部中生成的显示方式的信息，生成带所述补充说明的文件；和

行间隔修正部，其在以由所述文字尺寸修正部对文字尺寸进行修正后的各文字的中心位置与对文字尺寸进行修正之前的各文字的中心位置分别一致的方式，配置所述文字尺寸被修正后的文字的情况下，根据该配置，按每个文字区域修正各文字区域的行间隔的信息，

所述显示方式信息生成部，根据由所述行间隔修正部修正后的行间隔的信息，生成所述补充说明文字列的显示方式的信息。

2.如权利要求1所述的文件生成装置，其特征在于：

所述文字尺寸修正部，针对各文字区域内的各行中包含的文字按每行决定文字尺寸，按每个文字区域计算被决定的文字尺寸的平均值，根据计算出的文字尺寸的平均值来修正所述文字尺寸的信息。

3.如权利要求2所述的文件生成装置，其特征在于：

所述文字尺寸修正部，在存在有文字数不到规定的阈值的行的情况下，将该行排除来计算所述文字尺寸的平均值。

4.如权利要求3所述的文件生成装置，其特征在于：

所述文字尺寸修正部，对按所述文字区域内的每行决定的文字尺寸附加各行中包含的文字数的权重，计算该按每行决定的文字尺寸的加权平均值，根据该加权平均值来修正所述文字尺寸的信息。

5.如权利要求4所述的文件生成装置，其特征在于：

所述文字尺寸修正部，接受对要从所述加权平均值的计算对象中排除的文字的指定，将已接受指定的文字排除来计算所述加权平均值。

6.如权利要求5所述的文件生成装置，其特征在于：

所述文字尺寸修正部，接受对与已接受所述指定的文字的个数相对于各行的总文字数的比例有关的阈值的指定，在该比例为该阈值以上的情况下，将已接受指定的文字排除来计算所述加权平均值。

7.如权利要求4所述的文件生成装置，其特征在于：

所述文字尺寸修正部，接受对要从所述加权平均值的计算对象中排除的文字种类的指定，将已接受指定的文字种类的文字排除来计算所述加权平均值。

8.如权利要求7所述的文件生成装置，其特征在于：

所述文字尺寸修正部，接受对与已接受所述指定的文字种类的文字数相对于各行的总文字数的比例有关的阈值的指定，在该比例为该阈值以上的情况下，将已接受指定的文字种类的文字排除来计算所述加权平均值。

9.如权利要求2或3所述的文件生成装置，其特征在于：

所述文字尺寸修正部，在计算出针对一个文字区域的包含首行的连续的n行被分别决定的文字尺寸的平均值后，计算针对从该首行到第n+1行的各行被决定的文字尺寸的平均值的情况下，将针对所述连续的n行被分别决定的文字尺寸的平均值与针对第n+1行被决定的文字尺寸进行比较，在针对该连续的n行被分别决定的文字尺寸的平均值与针对第n+1行被决定的文字尺寸之间的差大于规定的基准的情况下，将针对从所述首行到第n+1行的各行被决定的文字尺寸的平均值的计算中止，根据针对所述连续的n行被分别决定的文字尺寸的平均值，来修正所述文字尺寸的信息。

10.如权利要求9所述的文件生成装置，其特征在于：

所述文字区域分割部，在针对所述连续的n行被分别决定的文字尺寸的平均值与针对所述第n+1行被决定的文字尺寸之间的差大于规定的基准的情况下，将第n行与所述第n+1行之间作为界线，分割所述文字区域。

11.如权利要求10所述的文件生成装置，其特征在于：

所述文字尺寸修正部，在由所述文字区域分割部对所述文字区域进行了分割的情况下，计算针对所述第n+1行以后的行被决定的文字尺寸的平均值。

12.如权利要求1所述的文件生成装置，其特征在于：

所述行间隔修正部，通过计算各行间的行间隔的平均值来修正所述行间隔的信息，对一个文字区域的包含首行的连续的m行的行间隔的平均值与第m行和第m+1行之间的行间隔进行比较，在该连续的m行的行间隔的平均值与第m行和第m+1行之间的行间隔之间的差大于规定的基准的情况下，将第m行和第m+1行之间的行间隔从所述各行间的行间隔的平均值的计算对象中排除。

13.如权利要求1至8中任一项所述的文件生成装置，其特征在于：

所述显示方式信息生成部生成所述文件中包含的文字的译文、读法或注释的显示方式的信息，来作为所述补充说明文字列的显示方式的信息。

14.如权利要求1至8中任一项所述的文件生成装置，其特征在于：

还具备翻译处理部，该翻译处理部按所述文件中包含的每个单词、每个短语或每个词组，对该单词、短语或词组进行翻译，

所述文件生成部生成带补充说明的文件，该带补充说明的文件按该每个单词、每个短语或每个词组赋予译文。

15.一种文件生成方法，其特征在于：

其是通过对文件中包含的文字附加注音假名状的补充说明文字列来生成带补充说明的文件的文件生成方法，

所述文件生成方法包括：

第一文字尺寸修正步骤，从存储有在所述文件中的各文字区域中包含的文字的文字尺寸的信息的存储部读出该文字尺寸的信息，根据各文字区域的文字尺寸，按每个文字区域修正所读出的文字尺寸的信息；

文字区域分割步骤，根据在所述第一文字尺寸修正步骤中被修正的文字尺寸的信息，将一个文字区域分割成两个以上的文字区域；

第二文字尺寸修正步骤，针对通过所述文字区域分割步骤分割而成的文字区域内的文字，修正文字尺寸的信息；

显示方式信息生成步骤，根据在所述第二文字尺寸修正步骤中被修正的文字尺寸的信息，按每个通过所述文字区域分割步骤分割而成的文字区域，生成所述补充说明文字列的显示方式的信息；

文件生成步骤，根据在所述显示方式信息生成步骤中生成的显示方式的信息，生成带所述补充说明的文件；和

行间隔修正步骤，在以通过所述第二文字尺寸修正步骤对文字尺寸进行修正后的各文字的中心位置与对文字尺寸进行修正之前的各文字的中心位置分别一致的方式，配置所述文字尺寸被修正后的文字的情况下，根据该配置，按每个文字区域修正各文字区域的行间隔的信息，

在所述显示方式信息生成步骤中，根据通过所述行间隔修正步骤修正后的行间隔的信息，生成所述补充说明文字列的显示方式的信息。