CN103218352B - 信息处理装置和信息处理方法 - Google Patents

信息处理装置和信息处理方法 Download PDF

Info

Publication number
CN103218352B
CN103218352B CN201210380729.7A CN201210380729A CN103218352B CN 103218352 B CN103218352 B CN 103218352B CN 201210380729 A CN201210380729 A CN 201210380729A CN 103218352 B CN103218352 B CN 103218352B
Authority
CN
China
Prior art keywords
information
row
region
character
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201210380729.7A
Other languages
English (en)
Other versions
CN103218352A (zh
Inventor
今野裕也
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN103218352A publication Critical patent/CN103218352A/zh
Application granted granted Critical
Publication of CN103218352B publication Critical patent/CN103218352B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/117Tagging; Marking up; Designating a block; Setting of attributes

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Character Input (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)

Abstract

本发明涉及信息处理装置和信息处理方法。一种信息处理装置包括:取得单元,其取得区域信息、行信息、以及字符信息;判断单元,其判断区域是否左对齐;第一分割单元,其将包括字符信息所指示的字符的区域分割为段落区域或者项目区域;分析单元,其分析所述判断单元判断为左对齐的区域内的行的缩进;第二分割单元,其将所述判断单元判断为左对齐的区域分割为段落区域或者项目区域;以及输出单元,其针对所述判断单元判断为未左对齐的区域,输出所述第一分割单元的分割结果,而针对所述判断单元判断为左对齐的区域,输出所述第二分割单元的分割结果。

Description

信息处理装置和信息处理方法
技术领域
本发明涉及信息处理装置和信息处理方法。
背景技术
日本特许第3578618号公报(专利文献1)公开了一种文档分割装置,该文档分割装置通过不仅考虑相邻文档的关系而且考虑与该文档相关联的广域的关系来实现有效分割文档的目标,并且该文档分割装置设置有:语言要素分出单元,该语言要素分出单元用于以段落、句子以及行为单位从电子文档中分出语言要素;语言要素间关联度评估单元,该语言要素间关联度评估单元用于评估任何两个语言要素(例如,具有公共字符或者单词)的关联度;语言要素间关联度矩阵取得单元,该语言间要素关联矩阵取得单元通过利用这种语言要素间关联度评估单元来取得全部语言要素的关联度;以及矩阵拆分单元,该矩阵拆分单元用于将这种语言要素间关联度矩阵取得单元提供的语言要素间关联度矩阵分割为具有高关联度的部分矩阵的排列。由此,可以与通过部分矩阵进行的拆分相应地来拆分文档。
日本特许第3767180号公报(专利文献2)公开了一种用于分析文档结构的方法和装置、以及存储文档结构分析程序的存储介质,其目标在于即使当不包括项目标记或者未写有特定标记等时也可以通过使用每个字符串的长度或者行首的位置信息来分析标记项目和文本中的简单句的文档结构,其中,输入待分析的文档,检查在所述文档的行首上是否存在引用符,当存在引用符时,删除该引用符,检测特定项目标记所要使用的包括文档中的日期、场所、期限的字符串,并且基于检测到的项目标记的特征来检测任意项目标记,将检测到所述项目标记的行的行首位置和未检测到项目标记的后续行的行首位置指定为项目范围,后续行与被判断为项目范围以外的行相连接,以句子为单位分割各行,将特定项目、任意项目以及指示句子的标签附加至文档并输出。
发明内容
本发明的目的在于提供一种信息处理装置,该信息处理装置在将文档中的区域分割为段落区域或者项目区域的情况下,在指示项目的字符与预定的字符不同时可以抑制错误分割。
根据本发明的第一方面,提供了一种信息处理装置,该信息处理装置包括:取得单元,该取得单元取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与区域中的行有关的信息,以及字符信息是与行中的字符有关的信息;判断单元,该判断单元基于所述取得单元取得的行信息来判断包括该行信息所指示的行的区域是否左对齐;第一分割单元,该第一分割单元基于所述取得单元取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域;分析单元,该分析单元分析所述判断单元判断为左对齐的区域内的行的缩进;第二分割单元,该第二分割单元基于所述分析单元的分析结果将所述判断单元判断为左对齐的所述区域分割为段落区域或者项目区域;以及输出单元,该输出单元针对所述判断单元判断为未左对齐的区域,输出所述第一分割单元的分割结果,而针对所述判断单元判断为左对齐的区域,输出所述第二分割单元的分割结果。
根据本发明的第二方面,在根据第一方面的信息处理装置中,当作为对象的语言是没有规定行尾对齐的语言时,所述判断单元可基于与行信息所指示的行的下一行中的字符有关的字符信息来改变该行信息,随后可以判断包括该行信息指示的所述行的区域是否左对齐。
根据本发明的第三方面,在根据第一或者第二方面的信息处理装置中,所述判断单元可基于所述取得单元所取得的行信息,来计算所述行信息所指示的行的中点坐标,并且可以基于以下坐标中的一个或者更多个坐标来判断所述区域是否左对齐:所述区域中的所述行的行首坐标、所述中点坐标以及行尾坐标。
根据本发明的第四方面,在根据第一方面至第三方面中的任一方面的信息处理装置中,所述第一分割单元可基于位于行首或者行尾中的一个以上字符的字符串是否满足预定的字符串条件,来将所述区域分割为段落区域或者项目区域。
根据本发明的第五方面,在根据第一方面至第四方面中的任一方面的信息处理装置中,所述第一分割单元可以基于由所述区域中的行的字符数量所预定的值是否满足预定条件,来将所述区域分割为段落区域或者项目区域。
根据本发明的第六方面,在根据第一方面至第五方面的任一方面的信息处理装置中,所述分析单元可以通过基于从区域左端至该区域中各行的左端之间的距离,将各行分类为缩进行和未缩进行,来分析行的缩进。
根据本发明的第七方面,在根据第六方面的信息处理装置中,第二分割单元可以基于行中包括的字符串中是否包括预定字符串以及作为所述分析单元的分析结果的分类边界是否与所述段落的边界重合,来将所述区域分割为段落区域或者项目区域。
根据本发明的第八方面,提供了一种信息处理装置,该信息处理装置包括:取得单元,该取得单元取得区域信息、行信息和字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与所述区域中的行有关的信息,该字符信息是与所述行中的字符有关的信息;判断单元,该判断单元基于所述取得单元所取得的行信息来判断包括所述行信息所指示的行的区域是否上对齐;第一分割单元,该第一分割单元基于所述取得单元所取得的字符信息,将包括所述字符信息所指示的字符的区域分割为段落区域或者项目区域;分析单元,该分析单元分析所述判断单元判断为上对齐的区域内的行的缩进;第二分割单元,该第二分割单元基于所述分析单元的分析结果将所述判断单元判断为上对齐的所述区域分割为段落区域或者项目区域;以及输出单元,该输出单元针对所述判断单元判断为未上对齐的区域,输出所述第一分割单元的分割结果,而针对所述判断单元判断为上对齐的区域,输出所述第二分割单元的分割结果。
根据本发明的第九方面,在根据第八方面的信息处理装置中,当作为对象的语言是没有规定行尾对齐的语言时,所述判断单元可以基于与行信息指示的行的下一行中的字符有关的字符信息来改变该行信息,随后可以判断包括该行信息指示的所述行的区域是否上对齐。
根据本发明的第十方面,在根据第八方面或者第九方面的信息处理装置中,所述判断单元可以基于所述取得单元所取得的行信息,来计算所述行信息所指示的行的中点坐标,并且可以基于以下坐标中的一个或者更多个坐标来判断所述区域是否上对齐:所述区域中的所述行的行首坐标、所述中点坐标以及行尾坐标。
根据本发明的第十一方面,在根据第八方面至第十方面中的任一方面的信息处理装置中,所述第一分割单元可以基于位于行首或者行尾中的一个以上字符的字符串是否满足预定的字符串条件,来将所述区域分割为段落区域或者项目区域。
根据本发明的第十二方面,在根据第八方面至第十一方面中的任一方面的信息处理装置中,所述第一分割单元可基于由所述区域中的行的字符数所预定的值是否满足预定条件,来将所述区域分割为段落区域或者项目区域。
根据本发明的第十三方面,在根据第八方面至第十二方面的任一方面的信息处理装置中,所述分析单元可以通过基于从区域上端至该区域中各行的上端之间的距离,将各行分类为缩进行和未缩进行,来分析行的缩进。
根据本发明的第十四方面,在根据第十三方面的信息处理装置中,第二分割单元可基于行中包括的字符串中是否包括预定字符串以及作为所述分析单元的分析结果的分类边界是否与所述段落的边界重合,来将所述区域分割为段落区域或者项目区域。
根据本发明的第十五方面,提供了一种信息处理方法,该信息处理方法包括:
取得步骤,取得区域信息、行信息和字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与所述区域中的行有关的信息,该字符信息是与所述行中的字符有关的信息;
判断步骤,基于所述取得步骤所取得的行信息,判断包括所述行信息所指示的行的区域是否左对齐;
第一分割步骤,基于所述取得步骤所取得的字符信息,将包括所述字符信息所指示的字符的区域分割为段落区域或者项目区域;
分析步骤,分析所述判断步骤判断为左对齐的区域内的行的缩进;
第二分割步骤,基于所述分析步骤的分析结果,将所述判断步骤判断为左对齐的区域分割为段落区域或者项目区域;以及
输出步骤,针对所述判断步骤判断为未左对齐的区域,输出所述第一分割步骤的分割结果,而针对所述判断步骤判断为左对齐的区域,输出所述第二分割步骤的分割结果。
根据本发明的第十六方面,提供了一种信息处理方法,该信息处理方法包括:
取得步骤,取得区域信息、行信息和字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与所述区域中的行有关的信息,该字符信息是与所述行中的字符有关的信息;
判断步骤,基于所述取得步骤所取得的行信息,判断包括所述行信息所指示的行的区域是否上对齐;
第一分割步骤,基于所述取得步骤所取得的字符信息,将包括所述字符信息所指示的字符的区域分割为段落区域或者项目区域;
分析步骤,分析所述判断步骤判断为上对齐的区域内的行的缩进;
第二分割步骤,基于所述分析步骤的分析结果,将所述判断步骤判断为上对齐的所述区域分割为段落区域或者项目区域;以及
输出步骤,针对所述判断步骤判断为未上对齐的区域,输出所述第一分割步骤的分割结果,而针对所述判断步骤判断为上对齐的区域,输出所述第二分割步骤的分割结果。
根据本发明的第一、第十五以及第十六方面,在将文档中的区域分割为段落区域或者项目区域的情况下,可以在指示项目的字符与预定字符不同时,抑制错误分割。
根据本发明的第二方面,可以根据语言的特点来判断区域是否左对齐。
根据本发明的第三方面,可以基于行的行首坐标、中点坐标、以及行尾坐标三者中的一个或者更多个来判断区域是否左对齐。
根据本发明的第四方面,可以基于位于行首或者行尾中的一个以上字符的字符串是否满足预定的字符串条件,来将所述区域分割为段落区域或者项目区域。
根据本发明的第五方面,可以基于由区域中的行的字符数所预定的值是否满足预定的条件,来将所述区域分割为段落区域或者项目区域。
根据本发明的第六方面,可以通过基于从区域左端至该区域中各行的左端之间的距离,将各行分类为缩进行和未缩进行,来分析行的缩进。
根据本发明的第七方面,可以基于行中包括的字符串中是否包括预定的字符串以及所述分类的边界与所述段落的边界是否重合,来将所述区域分割为段落区域或者项目区域。
根据本发明的八方面,在将文档中的区域分割为段落区域或者项目区域的情况下,可以在指示项目的字符与预定的字符不同时,抑制错误分割。
根据本发明的第九方面,可以根据语言的特点来判断区域是否上对齐。
根据本发明的第十方面,可以基于行的行首坐标、中点坐标、以及行尾坐标三者中的一个或者更多个来判断区域是否上对齐。
根据本发明的第十一方面,可以基于位于行首或者行尾中的一个以上字符的字符串是否满足预定的字符串条件,来将所述区域分割为段落区域或者项目区域。
根据本发明的第十二方面,可以基于由区域中的行的字符数所预定的值是否满足预定条件,来将所述区域分割为段落区域或者项目区域。
根据本发明的第十三方面,可以通过基于从区域上端至该区域中各行的上端之间的距离,将各行分类为缩进行和未缩进行,来分析行的缩进。
根据本发明的第十四方面,可以基于行中包括的字符串中是否包括预定字符串以及所述分类的边界与所述段落的边界是否重合,来将所述区域分割为段落区域或者项目区域。
附图说明
基于以下附图详细描述本发明的示例性实施方式,在附图中:
图1是关于示例性实施方式的构造示例的概念模块构造图;
图2是例示出根据第二示例性实施方式的处理示例的流程图;
图3是例示出由布局信息取得模块取得的信息的数据结构示例的示图;
图4是例示出由布局信息取得模块取得的信息示例的示图;
图5是例示出由行对齐判断模块执行的处理示例的示图;
图6是例示出由行对齐判断模块执行的处理示例的示图;
图7是例示出由行对齐判断模块执行的处理示例的示图;
图8是例示出由行对齐判断模块执行的处理示例的流程图;
图9是例示出由行对齐判断模块执行的处理示例的示图;
图10是例示出由行对齐判断模块执行的处理示例的示图;
图11是例示出由段落和项目判断模块A执行的处理示例的示图;
图12是例示出由缩进分析模块执行的处理示例的示图;
图13是例示出由缩进分析模块执行的处理示例的示图;
图14A和图14B是例示出由段落和项目判断模块B执行的处理示例的示图;
图15A和图15B是例示出由段落和项目判断模块B执行的处理示例的示图;
图16A和图16B是例示出根据示例性实施方式的处理示例的示图;以及
图17是例示出用于实现示例性实施方式的计算机硬件的构造示例的框图。
具体实施方式
下面将参照附图来描述用于实施本发明的示例性实施方式。
图1是关于示例性实施方式的构造示例的概念模块构造图。
此外,模块表示通常逻辑划分的诸如软件(计算机程序)和硬件的部件。因此,本示例性实施方式中的模块不仅表示计算机程序中的模块,还表示硬件构造中的模块。因此,示例性实施方式还包括用于使计算机起到模块的作用的计算机程序(使计算机执行各处理的程序、使计算机起到各单元的作用的程序、或使计算机实现各功能的程序)、系统以及方法的描述。然而,为了便于描述,虽然使用术语“存储”或者“进行存储”以及等同术语,但这些术语表示在示例性实施方式是计算机程序的情况下,存储在存储装置中,或者进行控制以存储在所述存储装置中。此外,模块可与功能一对一对应。在安装时,单个程序可以构成单个模块,单个程序可以构成多个模块,或者反之单个模块可以由多个程序构成。此外,可以由单台计算机执行多个模块,或者利用分布式或者并行环境下的计算机可以由多个计算机执行单个模块。另外,单个模块可包括其它模块。下文中,术语“连接”不仅用于物理连接的情况,还用于逻辑连接的情况(数据收发、指示、数据间的引用关系等)。术语“预定”表示在作为对象的处理之前定义的,并且通常包括根据那时的环境或者状态或者根据目前的环境或者状态进行定义的意思,包括根据本示例性实施方式的处理尚未开始的状态,即使在根据本示例性实施方式的处理开始之后,只要作为对象的所述处理尚未执行即可。此外,具有“在A的情况下,执行B”的含义的短语用于表示“判断是否存在A,如果判断出存在A,则执行B”。然而,排除关于是否存在A的判断不必要的情况。
此外,系统或者装置不仅包括将多个计算机、多件硬件、多个装置等构成为经由诸如网络的通信单元彼此连接(包括一一对应的通信连接)的情况,还包括由单个计算机、单件硬件、单个装置等实现的情况。“装置”和“系统”用作具有等同意思的术语。当然,“系统”不包括仅仅是人为设置的社会“结构”(社会系统)。
此外,针对各模块执行的各处理,或者针对在模块中执行多个处理的情况下的各处理,从存储装置读取作为对象的信息,执行处理,随后将处理结果写入存储装置。因此,存在如下情况,即可能省略了处理之前从存储装置进行读取的描述和在处理之后对存储装置进行写入的描述。存储装置在此可包括硬盘、RAM(随机访问存储器)、外部存储介质、经由通信线路的存储装置、CPU(中央处理单元)中的寄存器等。
根据本示例性实施方式的信息处理装置将文档中的区域分割为段落区域或者项目区域,并且如图1的示例所示,根据本示例性实施方式的信息处理装置包括布局信息取得模块110、行对齐判断模块120、段落和项目判断模块A 130、处理变更模块140、缩进分析模块150、段落和项目判断模块B 160、以及判断结果输出模块170。
布局信息取得模块110连接至行对齐判断模块120。布局信息取得模块110取得作为与文档中的区域有关的信息的区域信息、作为与区域中的行有关的信息的行信息、以及作为与行中的字符有关的信息的字符信息。
此外,文档至少包括文本数据。在某些情况下,文档是诸如图像、运动图像及音频或者上述的组合的电子数据;对文档进行存储、编辑以及搜索;文档表示可在系统或者用户之间交换的单个单位;并且包括与之类似的文档。
文档中的区域表示:例如作扫描仪读取的作为图像的文档并且通过对图像进行分析而将文档分割为区域。布局信息取得模块110接收的信息与作为通过对文档的图像进行字符识别而识别出的结果的数据或者PDF(Portable Document Format:便携式文档格式)(注册商标)相对应。此外,存在在该区域中包括可以分割为段落区域或者项目区域的区域的情况。存在字符信息中包括错误字符信息的情况。例如,在通过字符识别取得字符识别结果的情况下,可能出现误识别。具体来说,存在误识别项目的先导字符的情况。此外,字符包括符号等。
下面参照图3和图4描述区域信息、行信息以及字符信息的详细示例。
区域信息、行信息以及字符信息的取得,可接收在利用例如扫描仪或者摄像机读取图像之后(或者利用传真经由通信线路从外部装置接收到图像之后),通过结构识别或者字符识别取得的结果。此外,可以读取(嵌入计算机中的并且包括经由网络连接的)硬盘中存储的区域信息、行信息以及字符信息。
行对齐判断模块120连接至布局信息取得模块110和段落和项目判断模块A 130。行对齐判断模块120基于布局信息取得模块110取得的行信息,判断包括行信息所表示的行的区域是否左对齐。稍后利用图5以及图8至图10的示例来描述此处理的详细示例。
行对齐判断模块120可以基于布局信息取得模块110取得的行信息,来计算该行信息所表示的行的中点坐标,并且可以基于以下坐标中的一个或者更多个来判断区域是否左对齐:区域中的行的右端坐标、中点坐标以及左端坐标。
此外,行对齐判断模块120可以判断区域是左对齐、居中对齐还是右对齐。
在作为对象的语言是没有规定行尾对齐的语言的情况下,行对齐判断模块120可以基于行信息所表示的行的下一行中的字符的字符信息,来改变行信息,随后可以判断包括该行信息所表示的行的区域是否左对齐。稍后利用图6和图7的示例来描述此处理的详细示例。
此外,在此“未规定行尾对齐的语言”是行尾一般不对齐的语言。当然,即使在这种语言中,也可能在存在多行时有行尾碰巧对齐的情况,但是如果行尾一般不对齐,则语言相当于“未规定行尾对齐的语言”。更具体来说,该语言对应于英语、韩语等。另一方面,日语、中文等原则上具有对齐的行尾。此外,作为特例,在段落在行中结束的情况下,行尾不对齐,并且执行诸如外挂(hanging)的处理,使得标点符号不被置于行首,但是在存在多行的情况下,如果行尾一般对齐,则语言不相当于“未规定行尾对齐的语言”。此外,“行信息的改变”指的是改变表示行信息中的行长度的信息(在水平书写的情况下,布局信息300的宽度340,而在垂直书写的情况下,布局信息300的高度338)。
可基于字符信息中的字符来执行关于是否对应于语言的判断。例如,在语言中使用的字符代码的范围根据字符代码而不同,因此可以判断所使用的字符代码属于那种语言的字符代码的范围。此外,在预先设置语言的情况下,可以根据设置来执行判断。设置包括存储有与语言相对应的值的标志等。
段落和项目判断模块A 130连接至行对齐判断模块120和处理变更模块140。段落和项目判断模块A 130基于布局信息取得模块110取得的字符信息,将包括该字符信息所表示的字符的区域分割为段落或者项目区域。稍后利用图11的示例来描述此处理的详细示例。
通过段落和项目判断模块B 160针对段落和项目判断模块A 130的分割结果执行分割处理,取得判断结果输出模块170输出的段落和项目判断模块B 160的分割结果。
段落和项目判断模块A 130基于位于行首或者行尾的一个以上字符的字符串是否满足预定字符串条件,可以将区域分割为段落区域或者项目区域。此外,字符串不仅包括多个字符的情况,还包括单个字符的情况。
此外,段落和项目判断模块A 130可以基于作为区域中的行的字符数而预定的值是否满足预定条件,将区域分割为段落区域或者项目区域。
处理变更模块140连接至段落和项目判断模块A 130、缩进分析模块150、以及判断结果输出模块170。处理变更模块140将行对齐判断模块120判断为左对齐的区域的区域信息、行信息和字符信息发送至缩进分析模块150。此外,段落和项目判断模块A 130对行对齐判断模块120判断为未左对齐的区域的分割结果(区域的区域信息、行信息以及字符信息)被发送至判断结果输出模块170。另外,包括字符的区域被判断为左对齐或者未左对齐。
缩进分析模块150连接至处理变更模块140和段落和项目判断模块B 160。缩进分析模块150对行对齐判断模块120判断为左对齐的区域中的行的缩进进行分析。稍后利用图12和图13的示例来描述此处理的详细示例。
缩进分析模块150可以通过基于从区域的左端到该区域中各行的左端的距离,将各行分类为缩进行和未缩进行,来分析行缩进。
段落和项目判断模块B 160连接至缩进分析模块150和判断结果输出模块170。段落和项目判断模块B 160基于缩进分析模块150的分析结果,将行对齐判断模块120判断为左对齐的区域分割为段落区域或者项目区域。稍后利用图14A至图15B的示例来描述此处理的详细示例。
段落和项目判断模块B 160可以基于行中包括的字符串中是否包括预定的字符串、以及作为缩进分析模块150的分析结果的分类边界是否与段落边界重合,来将区域分割为段落区域或者项目区域。
判断结果输出模块170连接至处理变更模块140和段落和项目判断模块B 160。判断结果输出模块170对于行对齐判断模块120判断为未左对齐的区域输出段落和项目判断模块A 130的分割结果,而对于行对齐判断模块120判断为左对齐的区域输出段落和项目判断模块B 160的分割结果。
存在省略段落和项目判断模块A 130的分割结果以及段落和项目判断模块B 160的分割结果两者中的任一方的情况。因此,判断结果输出模块170可以输出段落和项目判断模块A 130的分割结果以及段落和项目判断模块B 160的分割结果两者中的任一方,或者输出段落和项目判断模块A 130的分割结果以及段落和项目判断模块B160的分割结果这两者。
分割结果的输出例如包括:将分割结果写入诸如文档数据库的存储装置中作为与文档有关的信息;将分割结果存储到诸如存储卡的存储介质中;将分割结果发送至其它信息处理装置(例如执行解释处理等的信息处理装置)等。
此外,行对齐判断模块120和段落和项目判断模块A 130两者中的任一方可先执行处理,或者两者可以并行执行处理。
图2是例示出根据示例性实施方式的处理示例的流程图。
在步骤S202中,布局信息取得模块110取得布局信息。布局信息包括上述的区域信息、行信息以及字符信息。
图3是例示出布局信息取得模块110取得的信息的数据结构示例的示图。布局信息300包括区域信息310和行信息330。在此,示出了区域是矩形区域的示例。另外,行信息330存储表示区域信息310中的区域信息所表示的区域中的行的信息。区域信息310包括坐标信息312和句子方向信息322,作为与区域有关的信息。坐标信息312存储区域的位置和尺寸。坐标信息312包括x 314、y 316、高度318以及宽度320。x314存储区域的左上坐标的x坐标。y316存储区域的左y坐标。高度318存储区域的高度。宽度320存储区域的宽度。此外,虽然例示出左上坐标的x坐标和y坐标、高度以及宽度作为坐标信息,但是也可使用其它信息,例如右上坐标的x坐标和y坐标、高度以及宽度,而且也可使用左上坐标的x坐标和y坐标以及右下坐标的x坐标和y坐标,只要该信息指示矩形的位置即可。下文中,上述情况也同样适用于坐标信息332和坐标信息348中的信息。句子方向信息322存储区域中的句子的方向(行方向)。句子方向包括水平书写和垂直书写。此外,在水平书写的情况下,可以包括从左至右的方向和从右至左的方向。具体来说,存储表示水平书写、垂直书写等的符号。
行信息330包括区域中包括的各行的坐标信息332、字符尺寸342以及字符信息344。因此,在区域中有多个行的情况下,存在多条行信息330。坐标信息332存储行的位置和尺寸。在此,示出行是矩形区域的示例。坐标信息332包括x 334、y 336、高度338以及宽度340。x 334存储行的左x坐标。y 336存储行的左上坐标的y坐标。高度338存储行的高度。宽度340存储行的宽度。字符尺寸342存储行中包括的字符的尺寸。例如,存在磅值、点尺寸(dot size)等。
字符信息334针对行中包括的各字符存储与该字符有关的信息。因此,在行中有多个字符的情况下,存在多条字符信息344。字符信息344包括字符代码346和坐标信息348。字符代码346存储表示字符的字符代码。坐标信息348包括x 350、y 352、高度354以及宽度356。在此,示出字符是矩形区域的示例。x 350存储字符的左x坐标。y 352存储字符的左上坐标的y坐标。高度354存储字符的高度。宽度356存储字符的宽度。
例如通过对文档布局分析、字符识别以及电子文档提取中的两个以上处理结果进行整合,获得布局信息取得模块110取得的信息。例如,区域信息是布局分析的处理结果,并且行信息和字符信息是字符识别或者电子文档提取的处理结果。具体来说,当通过扫描文档取得的图像作为对象时,行信息和字符信息是字符识别的结果,而当电子文档作为对象时,首先取得文档中的字符代码,并且针对没有字符代码的部分执行字符识别,以取得其识别结果。
图4是例示出布局信息取得模块110取得的信息的示例的示图。在区域信息410中,存在总共3个项目,第一项目包括两个项目(行信息420b和420c),并且如行信息420e中所示存在缩进行。
区域信息410包括六条行信息:行信息420a至行信息420f。此外,行信息420包括八条字符信息:字符信息430a至字符信息430r。另外,在图4的示例中,虽然省略了行信息420b之后的行信息中的字符信息,但每行都包括字符信息。
在步骤S204中,行对齐判断模块120计算作为判断材料的数值统计量。在此,示出计算区域中的字符尺寸和行的中点坐标这两者的示例。至少可计算行的中点坐标,并且也可计算其它信息。
关于区域中的字符尺寸,取得区域中的字符尺寸,并且计算众数,使用众数作为区域中的代表字符尺寸。除了众数,还可使用平均值或者中间值。该值可以用作后续校正或者判断处理的基准。此外,作为在诸如部分混合有大字符的情况下的对策,采用众数。此外,例如当存在不同字符尺寸时,可以将包括该字符的行分离出来作为不同行,并且在行之间的字符尺寸差异超过预定值的情况下,可以将区域分离出来,使得在同一区域不包括具有不同尺寸的字符。
基于句子方向信息来限定计算中点坐标的方向。具体来说,垂直书写是在Y轴方向,而水平书写是在X轴方向。在此,所计算出的值用于步骤S208中的行对齐判断。图5是例示出行对齐判断模块120执行的处理示例(中点坐标的计算处理示例)的示图。行信息420a至行信息420f的中点分别是中点坐标510a至中点坐标510f。
在步骤S206中,行对齐判断模块120根据语言特征来校正信息。此外,步骤S206中的处理可省略。例如,在对象是规定了行尾对齐的语言的情况下(日语、中文等),省略步骤S206中的处理。此外,可以判断语言是否是未规定行尾对齐的语言(英语、韩语等)。这种判断可以利用上述的字符代码来执行。
由于在未规定行尾对齐的语言(英语、韩语等)中行尾可能未对齐,因此执行校正,以便进行与规定了行尾对齐的语言(日语、中文等)相同的处理。图6和图7是例示出当句子方向信息表示水平书写时,行对齐判断模块120执行的处理示例的示图。此外,当句子方向信息表示垂直书写时,执行以向右旋转90度的方式的处理。
首先,从字符信息取得对象行的下一行中的开始单词的宽度。作为行信息中的宽度信息,将所取得的单词宽度和调整宽度的值添加至对象行的宽度,并且判断该行信息是否超过区域宽度。如果在此处理中判断出行信息超过了区域宽度,则将行信息扩展到区域信息的末尾。
具体来说,对象行的下一行(在水平书写时位于对象行直接下面的行,而在垂直书写时位于对象行直接左侧的行)中的开始单词的宽度是直至在该下一行中由空格分开的单词的宽度,并且将该宽度添加至对象行。此外,将作为预定值的调整宽度的值添加至对象行。在此情况下,判断对象行是否包括在区域中。在图6的示例中,将行信息620a的下一行信息620b中的开始单词宽度630b(下一行开始单词宽度640a)和调整宽度650a添加至行信息620a的右端(x坐标)。判断此结果是否超过区域信息610的右端。在图6所示的示例中,判断出区域信息610中的行信息620a、行信息620b以及行信息620c超过了区域信息610的右端。如果行信息620d的右端与区域信息610的右端相一致,则不必进行此处理。此外,调整宽度可以基于区域中的代表字符尺寸来定义。由于存在通过调整空格尺寸来排列字符的情况,因此提供这种调整宽度。例如,调整宽度可以是与代表字符尺寸的三个字符的长度相对应的长度。
此外,如果判断出包括行的区域中未包括对象行,则校正表示行的行信息的宽度,使得该行的右端与区域的右端相一致。在图7所示的示例中,将区域信息710中的行信息720a、行信息720b以及行信息720c的右端扩展到区域信息710的右端。
在步骤S208中,行对齐判断模块120对行对齐进行判断(对左对齐、居中对齐以及右对齐进行判断)。可以根据区域中的行首、行尾以及中点的坐标执行判断。当句子方向信息表示水平书写时,行首的坐标是行的左端的x坐标,行尾的坐标是行的右端的x坐标,而中点的坐标是在步骤S204中计算的中点的x坐标。图8、图9以及图10中所示的示例用于描述水平书写的情况,并且当句子方向信息表示垂直书写时,通过向右旋转90度可以执行等同处理。此外,在区域中只有唯一行的情况下,进行左对齐判断。
图8是例示出行对齐判断模块120执行的步骤S208中的处理示例的流程图。
在步骤S802中,行对齐判断模块120判断是否“右坐标(行的右端的x坐标)对齐”并且是否“左坐标(行的左端的x坐标)对齐”,并且如果满足该条件,则流程进行到步骤S804,否则,流程进行到步骤S806。在此,在“判断是否对齐”时,计算与区域坐标的差,并且如果该差的方差小于预定值,则判断为对齐。例如,预定值可以是代表字符尺寸的2.5个字符。这也适用于后续步骤S806。此外,利用左坐标未对齐的条件旨在判断句子紧密填满矩形的情况为“左对齐”。
在步骤S804中,行对齐判断模块120判断区域为右对齐。
在图9所示的示例中,由于左坐标与区域的左端坐标之间的差,即左侧间隔信息940a、左侧间隔信息940b以及左侧间隔信息940d的方差大于预定值,所以判断为“左坐标未对齐”,而由于各个行的右坐标与区域右侧信息930c相一致,所以判断为“右坐标对齐”,并且在步骤S804中判断出区域信息910为右对齐。
在步骤S806中,行对齐判断模块120判断是否“中点坐标对齐”并且是否“左坐标未对齐”,并且如果如此,则流程进行到步骤S808,否则流程进行到步骤S810。
在步骤S808中,行对齐判断模块120判断出区域为居中对齐。
在图10所示的示例中,由于左坐标与区域的左端坐标之间的差,即左侧间隔信息1040a、左侧间隔信息1040b以及左侧间隔信息1040d的方差大于预定值,所以判断为“左坐标未对齐”,并且由于各个行的中点坐标与区域中点信息1030b一致,所以判断为“中点坐标对齐”,并且在步骤S808中判断出区域信息1010为居中对齐。
在步骤S810中,行对齐判断模块120判断区域为左对齐。此外,由于在句子中存在段落缩进的情况,因此不用左坐标对齐的条件来判断左对齐。
此外,判断是按照步骤S802和S806的顺序执行的,但也可按照相反顺序执行,并且利用组合上述条件取得的条件经一次判断来进行区分。
在步骤S210中,段落和项目判断模块A 130利用字符串来检测项目记号。
通过在区域信息中,将行首开始的预定数量字符的字符串与从行尾开始的预定数量字符的字符串相比较,来检测项目记号。
例如,如果满足下列条件,则识别到项目记号。此外,为了即使在使用相同的项目记号缩进段落的情况下也能够检测,因此不使用坐标信息。然而,也可以使用坐标信息。
(1)当句首有预定的项目记号时,基于先导字符串是否是预定字符串来判断是否是项目记号。然而,限于在区域中存在以相同记号开始的多个行的情况下,判断记号为项目记号。这是因为减少由于字符识别的误识别引起的分割错误。
例如,记号由作为预定字符串的正规表达表示,并且对应于“[·¥--+*○●□■◇◆△▲.?]”等。
(2)当具有括弧的项目记号位于句首时,检测先导字符串是否由括弧包围,并且如果在区域中存在以由相同括弧所包围的字符串开始的多个行,则判断出记号为项目记号。
例如,记号由作为预定字符串的正规表达表示,并且对应于“[(¥[<]”等。例如,记号由作为结束括弧的正规表达表示,并且对应于“[)¥]>]”等。此外,可以包括在说明书中无法使用的括弧记号(“半角括号”和用于写段号的“固定括弧(也称为括号)”)。
可以将要判断的字符数量设置为预定数量。例如,预定数量可以在从头开始四个字符以内的范围。
(3)当字母数字字符位于句首并且满足条件时
条件(3-1)
“初始字符是字母数字字符、中文数字或者罗马字符”并且“第二字符是“..--”中的任一方”。
此外,如果存在满足前述条件的多个行,并且初始字符的字符代码连续存在,则判断为项目。例如,如果“A”、“B”等连续存在,则被检测到。
条件(3-2)
“从初始字符开始连续存在数字的行”
当存在满足该条件的多个行,并且数字由数值替代且以数值的顺序排列时,如果作为行的相邻数值之间的差是0或者1,则判断为项目。此外,由于仅后半个字符可以变化,诸如例如“12-1”和“12-2”,因此存在差(初始数字12和12之间的差)为0的情况。
在步骤S212中,段落和项目判断模块A 130利用句子结束记号来检测段落边界。
如果上一行的句子以标点符号或者句号结束,则判断出段落边界位于其间。检测到的句子结束字符串是预定的。
例如,句子结束字符串由作为预定字符串的正规表达表示,并且可以是“.?!”。
此外,可增加在文本行中句子起始缩进的条件。这是为了防止在标点符号碰巧位于行尾的句子中判断出在不是段落边界的部位分段。
在步骤S214中,段落和项目判断模块A 130利用字符数量来检测段落边界。
在区域中的行的平均字符数小于预定值的情况下,判断为是对单词进行枚举,并且所有行被分为单独行(使用各行的边界用作段落边界)。此外,在英语中,将由空格分开的单词的数量作为对象。例如,作为预定值,平均字符数在日语、中文以及韩语的情况下可以是八个字符,而在英语的情况下可以是三个单词。在此,作为条件,当一行中的数字串完全由“+「.’,¥$%-」”(正规表达)构成时,可以在不考虑字符数的情况下分离数字串。此目的在于处理没有格线的表单等。
在步骤S214中,判断字符是否是表单单元中的字符,并且如果字符是表单单元中的字符,则针对字符可以不执行此处理。此目的在于处理单元中的字符不规则排列的情况。
在步骤S216中,段落和项目判断模块A 130利用位于句子起始和句子结束处的记号来检测段落边界。
这是针对由括弧包围的句子的枚举的对策。如果行首的字符和行尾的字符是对应的括弧,则判断该行为单独行,并进行分割(使用行的边界作为段落边界)。
例如,存在[]、「」、()、“”、以及‘’作为预定的括弧字符,并且由它们之一所包围的行是对象。
此外,从步骤S210至S216的处理可以是它们中的一个步骤或者更多个步骤的处理。此外,从步骤S210至S216的处理可以不是顺序执行的。例如,可以按照相反顺序执行这些处理或者可以并行执行这些处理。此外,可使用现有技术文件中公开的技术来替代这些处理,或者现有技术文件中公开的技术可以与这些处理一起使用。
在步骤S218中,段落和项目判断模块A 130分离出在被判断为存在项目记号的行与前一行之间的边界处的区域信息,并且使用所分离出的区域信息作为段落信息。利用通过从步骤S210至步骤S216的处理所检测到的段落边界来分离出区域信息,并且使用区域信息作为段落信息。
整合通过从步骤S210至S216的处理所检测到的信息,并且针对每条段落信息分离句子。其中检测到了项目记号的行因为句子被判断在该行之前划分而被分开。利用段落边界作为边界来分离信息。
此时,针对每个“段落区域”汇总区域信息,诸如图11的示例中所示的虚线所包围的段落信息1120a至1120e。
在步骤S220中,处理变更模块140判断区域是否是左对齐(在垂直书写的情况下是否是上对齐),并且如果区域是左对齐(上对齐),则流程进行到步骤S222。随后,流程进行到步骤S228。
如果在步骤S208中判断待处理的区域信息是左对齐,则附加执行关于区域信息中的句子是否缩进的判断处理(从步骤S222至步骤S226的处理)。在居中对齐和右对齐的情况下,流程进行到步骤S228。在垂直书写的情况下,在上对齐的情况下流程进行到步骤S222,否则流程进行到步骤S228。
在步骤S222中,缩进分析模块150利用区域中的行的行首坐标来检测缩进,并且选择缩进候选。
利用区域的左端坐标与区域中包括的行的左端坐标之间的距离来对行进行分组。
图12是例示出缩进分析模块150执行的处理示例的示图。区域信息1100包括五个段落的段落信息1120a至1120e。此外,段落信息1120d包括两个行。其它段落分别仅包括一个行。
从区域信息1100的左端至段落信息1120a中的行的左端的距离是0(区域左坐标A:1210;即它们彼此重合)。类似的是,从区域信息1100的左端到段落信息1120d中的第一行和段落信息1120e中的行的左端的距离是0,并且它们形成组A。从区域信息1100的左端到段落信息1120b中的行的左端的距离、从区域信息1100的左端到段落信息1120c中的行的左端的距离、以及从区域信息1100的左端到段落信息1120d中的第二行的左端的距离(区域缩进坐标B:1220)相同,因此它们形成组B。在此相同的距离表示被比较的距离之间的差在预定值内。例如,在区域中,差可以在代表字符尺寸的0.7个字符内。
此外,顺序检查行的组,并且在一个组变更至另一个组的边界处选择缩进候选。换言之,如果相同组中包括的行连续排列,则多个行成为相同的缩进候选。
具体来说,在图12所示的示例中,在段落信息1120a中的行与段落信息1120b中的行之间的边界处、在段落信息1120c中的行与段落信息1120d中的第一行之间的边界处、在段落信息1120d中的第一行与段落信息1120d中的第二行之间的边界处、以及在段落信息1120d中的第二行与段落信息1120e中的行之间的边界处,选择缩进候选。因此,在区域信息1100中有五个缩进候选。具体来说,如图13中示例所示,段落信息1120a与缩进候选信息1310a重合,并且段落信息1120b和段落信息1120c包括在缩进候选信息1310b中。相反,缩进候选信息1310c和缩进候选信息1310d包括在段落信息1120d中,并且段落信息1120e与缩进候选信息1310e重合。此外,存在缩进候选可以包括不是缩进的可能性。在下列步骤中,从缩进候选中选择缩进。
此外,在垂直书写的情况下,可以利用上端坐标来检测缩进。
此外,当从区域的左端至行的左端的距离等于或者大于阈值时,可以选择缩进候选的行。用于判断缩进候选的行的阈值是预定的。例如,使用从区域的左端至行的左端的距离等于或者大于该区域中代表字符尺寸的2.5个字符的行作为缩进候选的行。在图12所示的示例中,组B的从区域的左端至行的左端的距离(区域缩进坐标B:1220)等于或者大于2.5个字符,因此段落信息1120b中的行、段落信息1120c中的行、以及段落信息1120d中的第二行成为缩进候选的行。
在步骤S224中,段落和项目判断模块B 160利用项目信息来缩小缩进候选。
如果在步骤S222中分割为组的缩进候选的边界满足下列两个条件,则将边界视为缺省,并且后面的缩进候选组包括在前面的缩进候选组中。
(条件1)预定的项目记号(步骤S210等中使用的项目记号等)包括在边界之前的行中。
(条件2)段落的边界和缩进候选的边界彼此不重合。
对上述进行详细描述。如图14A的示例所示,在区域信息1100中,有五个段落(段落信息1120a至1120e)和五个缩进候选(缩进候选信息1310a至1310e)。缩进候选的对象边界是缩进候选信息1310a与缩进候选信息1310b之间的边界、缩进候选信息1310b与缩进候选信息1310c之间的边界、缩进候选信息1310c与缩进候选信息1310d之间的边界、以及缩进候选信息1310d与缩进候选信息1310e之间的边界。满足条件1和2的边界是缩进候选信息1310c与缩进候选信息1310d之间的边界。换言之,预定的项目记号“●”包括在缩进候选信息1310c中。此外,没有与缩进候选信息1310c与缩进候选信息1310d之间的边界位于相同位置处的段落边界。这是因为缩进候选信息1310c和缩进候选信息1310d包括在段落信息1120d中。
因此,缩进候选信息1310d属于组B,但变更为属于作为缩进候选信息1310c的组的组A,并且缩进候选信息1310c和缩进候选信息1310d被视为单一缩进候选。
此外,执行在步骤S222中执行的缩进候选分割。换言之,顺序检查行的组,并且如果相同组中包括的行连续排列,则多个行成为相同缩进候选。具体来说,由于缩进候选信息1310d变更为属于组A,缩进候选信息1310c、缩进候选信息1310d以及缩进候选信息1310e属于相同组A并且连续排列,因此将它们被视为组A的缩进候选。将上述应用于区域信息1100中的行后的状态下的缩进候选成为缩进(项目区域)。
图14A中示出的示例也应用于图14B中所示的示例。换言之,存在三个缩进(项目区域):仅由在区域信息1100中的第一行形成的缩进信息1410a、由区域信息1100中的第二行和第三行形成的缩进信息1410b、以及由区域信息1100中的第四行、第五行以及第六行形成的缩进信息1410c。缩进信息1410a属于组A,缩进信息1410b属于组B,而缩进信息1410c属于组A。
此外,在缩进候选的边界位于区域中的第一行与第二行之间,并且第一行排列在第二行下方(所谓反向缩进状态;具体来说,在垂直书写的情况下,第一行比第二行位于更右侧,而在水平书写的情况下,第一行比第二行位于更下侧),第一行的组可以变更至第二行的组。这是针对段落起始的缩进宽度大的情况的对策,而且这是因为第一行被判断为不缩进。
在步骤S226中,段落和项目判断模块B 160利用行尾信息来分割段落信息。
针对每个段落,比较连续行的行尾坐标。如果后面行的行尾从前面行的行尾向下预定值(在水平书写的情况下,后面行的行尾比前面行的行尾在更右侧的状态,而在垂直书写的情况下,后面行的行尾比前面行的行尾位于更下侧的状态),则假设段落的边界位于被比较的行之间,来分割段落信息。例如三个以上字符等作为预定值。此外,虽然英语中存在行尾未对齐的情况,但是可以在步骤S206中进行校正,因此步骤S226的处理也可这样执行。
对上述进行详细描述。如图15A的示例所示,通过对行信息1520c和行信息1520d的行尾坐标进行比较,发现行信息1520d的行尾比行信息1520c的行尾(行信息1540)位于更右侧预定值以上。因此,在行信息1520c与行信息1520d之间(行边界信息1530)分割段落信息1515。如图15B的示例所示,在区域信息1510中有两个段落,段落信息1550a和段落信息1550b。
此外,当区域中的行的数量小于预定值时,可以省略步骤S226中的处理。例如三行或者更少行等作为预定值。由少量行构成的区域很可能是标题。由于在标题中,行尾通常不对齐,因此可以排除步骤S226中的处理。
在步骤S228中,判断结果输出模块170输出分割结果。通过从步骤S222至步骤S226获取左对齐的区域的结果,而通过步骤S218中的处理获取未左对齐的区域的结果。
在上述示例中,主要描述了布局信息取得模块110取得的布局信息不包括错误字符的情况。然而,存在取得字符识别结果作为布局信息取得模块110取得的布局信息的情况。例如,通过对图16A所示的对象图像1610执行结构识别和字符识别获得的结果是图16B所示的识别结果1620。取得关于识别结果1620的信息作为步骤S202中的布局信息。由于在字符识别技术中可能误识别记号,因此存在表示项目的项目记号或者字符串未被正确取得的情况。由于在段落和项目判断模块A 130执行的处理中仅参考字符代码,因此难以找到误识别的句子的断开处。在示例性实施方式中,作为缩进分析模块150以及段落和项目判断模块B 160执行的处理,合并并分析字符串的信息和行的位置信息。
参照图17,将描述根据示例性实施方式的信息处理装置的硬件构造示例。图17所示的构造例如由个人计算机(PC)等实现,并且是包括诸如扫描仪的数据读取单元1717和诸如打印机的数据输出单元1718的硬件构造示例。
CPU(中央处理单元)1701是根据计算机程序执行处理的控制器,该计算机程序描述了上述实施方式中描述的以下各种模块的执行序列:即,布局信息取得模块110、行对齐判断模块120、段落和项目判断模块A 130、处理变更模块140、缩进分析模块150、段落和项目判断模块B 160以及判断结果输出模块170。
ROM(只读存储器)1702存储CPU 1701使用的程序或者操作参数。RAM(随机访问存储器)1703存储CPU 1701执行时所使用的程序或者在执行中适当变化的参数。它们经由CPU总线组成的主机总线1704彼此连接。
主机总线1704经由桥接器1705连接至诸如PCI(外围组件互连/接口)总线的外部总线1706。
键盘1708和诸如鼠标的指示装置1709是操作人员操作的输入设备。显示器1710包括液晶显示器、CRT(阴极射线管)等,并且显示作为文本或者图像信息的各种信息。
HDD(硬盘驱动器)1711其内具有嵌入有硬盘,驱动硬盘,并且记录或者复制CPU1701执行的程序或者信息。硬盘存储布局信息取得模块110接收到的布局信息、段落和项目判断模块A 130的处理结果等。此外,在硬盘中存储诸如各种其它数据处理程序的各种计算机程序。
驱动器1712读取安装于其中的诸如磁盘、光盘、磁光盘或者半导体存储器的可移动记录介质1713上的数据或者程序,并且将数据和程序提供给经由接口1707、外部总线1706、桥接器1705以及主机总线1704与其连接的RAM 1703。可移动记录介质1718还可以以与硬盘相同的方式用作数据记录区。
连接端口1714是用于连接至外部连接装置1715的端口,并且具有诸如USB或者IEEE 1394的连接单元。连接端口1714经由接口1707、外部总线1706、桥接器1705以及主机总线1704连接至CPU 1701等。通信单元1716连接至通信线并且执行与外部装置的数据通信处理。数据读取单元1717例如是扫描仪,并且执行文档读取处理。数据输出单元1718例如是打印机,并且执行文档数据输出处理。
此外,图17中所示的信息处理装置的硬件构造示出了构造示例,但示例性实施方式不限于图17所示的构造,并且可采用可以执行示例性实施方式中描述的模块的构造。例如,一些模块可由专用硬件(例如专用集成电路)构成,一些模块可具有位于外部系统中并且经由通信线连接的形式,而图17所示的多个系统可经由通信线彼此连接并且彼此协调操作。此外,硬件构造可并入打印机、传真机、扫描仪、打印机、多功能外部设备(具有扫描仪、打印机、复印机以及传真机中的两种以上功能的图像处理装置)等。
虽然主要利用水平书写的情况下的示例来描述上述示例性实施方式,但是在垂直书写的情况下,可以利用旋转90度的坐标系统。在此情况下,水平书写中的左对齐变为垂直书写中的上对齐,而水平书写中的右对齐变为垂直书写中的下对齐。此外,行的中点是水平书写中的行的水平宽度中的中点,并且是垂直书写中的行的高度中的中点。
此外,布局信息取得模块110可以基于布局信息来判断区域是否是水平书写(或者垂直书写),随后根据其判断结果执行处理(在水平书写的情况下用于水平书写的处理和在垂直书写的情况下用于垂直书写的处理)。此外,在基于布局信息判断水平书写时,如果在布局信息中存在表示区域是否是水平书写的信息,则根据该信息执行判断。此外,如果不存在信息,则可以利用布局信息的行信息中的行的高度和宽度之比来执行判断。例如,如果高度和宽度之比表示它在水平方向大于预定比率,则判断为水平书写,而如果高度和宽度之比表示它在垂直方向大于预定比率,则判断为垂直书写。
在上述示例性实施方式的描述中,在与预定值进行比较时,则“等于或更大”、“等于或小于”、“大于”以及“小于”可分别用“大于”、“小于”、“等于或更大”以及“等于或小于”来替代,只要它们的组合不产生矛盾即可。
此外,上述程序可以存储在记录介质上并提供,或者程序可以利用通信单元来提供。在此情况下,例如可将上述程序理解为“记录程序的计算机可读记录介质”的发明。
“记录程序的计算机可读记录介质”指的是用于安装执行程序以及发布程序、上面记录程序并且能够由计算机读取的记录介质。
此外,例如,记录介质包括:作为数字通用盘(DVD)且作为DVD论坛制定标准的例如“DVD-R、DVD-RW、DVD-RAM等”;作为由DVD+RW制定标准的“DVD+R、DVD+RW等”;作为光盘(CD)的只读存储器(CD-ROM)、CD-可记录(CD-R)、CD-可重写(CD-RW)等;蓝光光盘(Blu-raydisc,注册商标);磁光盘(MO);柔性盘(FD);磁带;硬盘;只读存储器(ROM);电可擦可编程只读存储器(EEPROM(注册商标));闪速存储器;随机存取存储器(RAM);SD(安全数字)存储卡等。
上述程序或者其部分可以记录在记录介质上以保留或者发布。此外,程序可以通过通信来传输,例如经由诸如局域网(LAN)、城域网(MAN)、广域网(WAN)、因特网、内联网以及外联网的有线网络或者无线通信网络。此外,程序可利用诸如记录介质的组合的传输介质来传输或者可以承载在载波上。
此外,上述程序可以是其他程序的一部分,或者可以与独立程序一起记录在记录介质上。此外,程序可以经分割记录到多个记录介质上。程序可以任何形式记录,只要能够通过压缩、解码等可以恢复程序即可。
出于例示和描述的目的,提供了本发明的示例性实施方式的前述描述。并非旨在对本发明进行穷举或者将本发明限于所公开的精确形式。显然,对于本领域技术人员来说明可以有多种变化和变型。选择了实施方式进行说明以最好地解释本发明的原理及其实际应用,以使本领域技术人员能够理解本发明的各种实施方式,以及适合于所设想的具体用途的各种变型。旨在由所附权利要求及其等同来限定本发明的范围。

Claims (14)

1.一种信息处理装置,该信息处理装置包括:
取得单元,该取得单元取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与该区域中的行有关的信息,而该字符信息是与该行中的字符有关的信息;
判断单元,该判断单元基于所述取得单元取得的行信息,来判断包括该行信息所指示的行的区域是否左对齐;
第一分割单元,该第一分割单元基于所述取得单元取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域;
分析单元,该分析单元分析所述判断单元判断为左对齐的区域内的行的缩进;
第二分割单元,该第二分割单元基于所述分析单元的分析结果,将所述判断单元判断为左对齐的区域分割为段落区域或者项目区域;以及
输出单元,该输出单元针对所述判断单元判断为未左对齐的区域,输出所述第一分割单元的分割结果,而针对所述判断单元判断为左对齐的区域,输出所述第二分割单元的分割结果,
其中,当作为对象的语言是没有规定行尾对齐的语言时,所述判断单元基于与行信息所指示的行的下一行中的字符有关的字符信息来变更该行信息,然后判断包括所述行信息所指示的行的区域是否左对齐。
2.根据权利要求1所述的信息处理装置,其中,所述判断单元基于所述取得单元取得的行信息,计算该行信息所指示的行的中点坐标,并且基于所述区域内的行的行首坐标、中点坐标以及行尾坐标中的一个以上坐标来判断所述区域是否左对齐。
3.根据权利要求1所述的信息处理装置,其中,所述第一分割单元基于位于行首或者行尾中的一个以上字符的字符串是否满足预定字符串条件,将所述区域分割为段落区域或者项目区域。
4.根据权利要求1所述的信息处理装置,其中,所述第一分割单元基于由所述区域内的行的字符数量所预定的值是否满足预定条件,将所述区域分割为段落区域或者项目区域。
5.根据权利要求1所述的信息处理装置,其中,所述分析单元通过基于从区域的左端到该区域内各行的左端的距离,将所述各行分类为缩进行和未缩进行,来分析行的缩进。
6.根据权利要求5所述的信息处理装置,其中,所述第二分割单元基于行内所含的字符串中是否包括预定字符串以及作为所述分析单元的分析结果的分类边界是否与所述段落的边界重合,来将所述区域分割为段落区域或者项目区域。
7.一种信息处理装置,该信息处理装置包括:
取得单元,该取得单元取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与该区域中的行有关的信息,而该字符信息是与该行中的字符有关的信息;
判断单元,该判断单元基于所述取得单元取得的行信息,来判断包括该行信息所指示的行的区域是否上对齐;
第一分割单元,该第一分割单元基于所述取得单元取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域;
分析单元,该分析单元分析所述判断单元判断为上对齐的区域内的行的缩进;
第二分割单元,该第二分割单元基于所述分析单元的分析结果,将所述判断单元判断为上对齐的区域分割为段落区域或者项目区域;以及
输出单元,该输出单元针对所述判断单元判断为未上对齐的区域,输出所述第一分割单元的分割结果,而针对所述判断单元判断为上对齐的区域,输出所述第二分割单元的分割结果,
其中,当作为对象的语言是没有规定行尾对齐的语言时,所述判断单元基于与行信息所指示的行的下一行中的字符有关的字符信息来变更该行信息,然后判断包括该行信息所指示的行的区域是否上对齐。
8.根据权利要求7所述的信息处理装置,其中,所述判断单元基于所述取得单元取得的行信息,来计算该行信息所指示的行的中点坐标,并且基于所述区域内的行的行首坐标、中点坐标以及行尾坐标中的一个以上坐标来判断所述区域是否上对齐。
9.根据权利要求7所述的信息处理装置,其中,所述第一分割单元基于位于行首或者行尾中的一个以上字符的字符串是否满足预定字符串条件,将所述区域分割为段落区域或者项目区域。
10.根据权利要求7所述的信息处理装置,其中,所述第一分割单元基于由所述区域内的行的字符数量所预定的值是否满足预定条件,将所述区域分割为段落区域或者项目区域。
11.根据权利要求7所述的信息处理装置,其中,所述分析单元通过基于从区域的上端到该区域内各行的上端的距离,将所述各行分类为缩进行和未缩进行,来分析行的缩进。
12.根据权利要求11所述的信息处理装置,其中,所述第二分割单元基于行内所含的字符串中是否包括预定字符串以及作为所述分析单元的分析结果的分类边界是否与所述段落的边界重合,将所述区域分割为段落区域或者项目区域。
13.一种信息处理方法,该信息处理方法包括以下步骤:
取得步骤,取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与该区域中的行有关的信息,而该字符信息是与该行中的字符有关的信息;
判断步骤,基于所述取得步骤取得的行信息,来判断包括该行信息所指示的行的区域是否左对齐;
第一分割步骤,基于所述取得步骤所取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域;
分析步骤,分析所述判断步骤判断为左对齐的区域内的行的缩进;
第二分割步骤,基于所述分析步骤的分析结果将所述判断步骤判断为左对齐的区域分割为段落区域或者项目区域;以及
输出步骤,针对所述判断步骤判断为未左对齐的区域,输出所述第一分割步骤的分割结果,而针对所述判断步骤判断为左对齐的区域,输出所述第二分割步骤的分割结果,
其中,当作为对象的语言是没有规定行尾对齐的语言时,所述判断步骤基于与行信息所指示的行的下一行中的字符有关的字符信息来变更该行信息,然后判断包括所述行信息所指示的行的区域是否左对齐。
14.一种信息处理方法,该信息处理方法包括以下步骤:
取得步骤,取得区域信息、行信息以及字符信息,该区域信息是与文档中的区域有关的信息,该行信息是与该区域中的行有关的信息,而该字符信息是与该行中的字符有关的信息;
判断步骤,基于所述取得步骤所取得的行信息,判断包括该行信息所指示的行的区域是否上对齐;
第一分割步骤,基于所述取得步骤所取得的字符信息,将包括该字符信息所指示的字符的区域分割为段落区域或者项目区域;
分析步骤,分析所述判断步骤判断为上对齐的区域内的行的缩进;
第二分割步骤,基于所述分析步骤的分析结果,将所述判断步骤判断为上对齐的区域分割为段落区域或者项目区域;以及
输出步骤,针对所述判断步骤判断为未上对齐的区域,输出所述第一分割步骤的分割结果,而针对所述判断步骤判断为上对齐的区域,输出所述第二分割步骤的分割结果,
其中,当作为对象的语言是没有规定行尾对齐的语言时,所述判断步骤基于与行信息所指示的行的下一行中的字符有关的字符信息来变更该行信息,然后判断包括该行信息所指示的行的区域是否上对齐。
CN201210380729.7A 2011-12-09 2012-10-09 信息处理装置和信息处理方法 Active CN103218352B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-270073 2011-12-09
JP2011270073A JP5862260B2 (ja) 2011-12-09 2011-12-09 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
CN103218352A CN103218352A (zh) 2013-07-24
CN103218352B true CN103218352B (zh) 2017-11-10

Family

ID=48573211

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210380729.7A Active CN103218352B (zh) 2011-12-09 2012-10-09 信息处理装置和信息处理方法

Country Status (3)

Country Link
US (1) US9275280B2 (zh)
JP (1) JP5862260B2 (zh)
CN (1) CN103218352B (zh)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9087337B2 (en) * 2008-10-03 2015-07-21 Google Inc. Displaying vertical content on small display devices
JP6328409B2 (ja) * 2013-11-28 2018-05-23 シャープ株式会社 翻訳装置
JP2019537103A (ja) * 2016-09-28 2019-12-19 シストラン インターナショナル カンパニー.,リミテッド.Systran International Co.,Ltd. 文字を翻訳する方法及びその装置
KR101960446B1 (ko) * 2017-06-15 2019-03-20 주식회사 닷 정보 출력 장치 및 방법
CN110135429A (zh) * 2019-04-18 2019-08-16 深圳壹账通智能科技有限公司 扫描文字分段方法、装置、计算机设备和存储介质
EP3857500B1 (en) * 2019-07-01 2023-06-07 Digimarc Corporation Watermarking arrangements permitting vector graphics editing
CN113297832A (zh) * 2021-05-25 2021-08-24 北京北大方正电子有限公司 折行位置优化方法、装置、设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920877A (en) * 1996-06-17 1999-07-06 Kolster; Page N. Text acquisition and organizing system
CN1904896A (zh) * 2005-07-28 2007-01-31 株式会社东芝 结构化文档处理装置、搜索装置及结构化文档系统和方法
CN101004760A (zh) * 2007-01-10 2007-07-25 苏州大学 基于视觉特征的页面查询接口抽取方法
CN101533392A (zh) * 2008-03-14 2009-09-16 富士施乐株式会社 信息处理装置及信息处理方法

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE69428675T2 (de) * 1993-12-30 2002-05-08 Xerox Corp Apparat und Verfahren zur Unterstützung einer impliziten Strukturation von Freiform-Listen, Übersichten, Texten, Tabellen und Diagrammen in einem auf Handzeichen basierenden Eingabesystem und Editiersystem
JP3737253B2 (ja) * 1997-10-07 2006-01-18 株式会社リコー 文書画像の領域抽出方法および記録媒体
JP3578618B2 (ja) 1998-02-26 2004-10-20 株式会社リコー 文書分割装置
JP3767180B2 (ja) 1998-07-15 2006-04-19 日本電信電話株式会社 文書構造解析方法及び装置及び文書構造解析プログラムを格納した記憶媒体
US8473467B2 (en) * 2009-01-02 2013-06-25 Apple Inc. Content profiling to dynamically configure content processing
JP5412903B2 (ja) * 2009-03-17 2014-02-12 コニカミノルタ株式会社 文書画像処理装置、文書画像処理方法および文書画像処理プログラム
US8214733B2 (en) * 2010-04-28 2012-07-03 Lexmark International, Inc. Automatic forms processing systems and methods

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5920877A (en) * 1996-06-17 1999-07-06 Kolster; Page N. Text acquisition and organizing system
CN1904896A (zh) * 2005-07-28 2007-01-31 株式会社东芝 结构化文档处理装置、搜索装置及结构化文档系统和方法
CN101004760A (zh) * 2007-01-10 2007-07-25 苏州大学 基于视觉特征的页面查询接口抽取方法
CN101533392A (zh) * 2008-03-14 2009-09-16 富士施乐株式会社 信息处理装置及信息处理方法

Also Published As

Publication number Publication date
JP5862260B2 (ja) 2016-02-16
CN103218352A (zh) 2013-07-24
JP2013122634A (ja) 2013-06-20
US9275280B2 (en) 2016-03-01
US20130151953A1 (en) 2013-06-13

Similar Documents

Publication Publication Date Title
CN103218352B (zh) 信息处理装置和信息处理方法
CN106250830B (zh) 数字图书结构化分析处理方法
JP4347677B2 (ja) 帳票ocrプログラム、方法及び装置
EP1376390B1 (en) Writing guide for a free-form document editor
US6735335B1 (en) Method and apparatus for discriminating between documents in batch scanned document files
CN109993019A (zh) 基于连通域分析的二维码识别方法、系统及设备和介质
CN103136527B (zh) 图像处理设备及方法
WO2007117334A2 (en) Document analysis system for integration of paper records into a searchable electronic database
US20070206851A1 (en) Information processing apparatus, information processing method, computer readable medium, and computer data signal
JP2007304864A (ja) 文字認識処理システムおよび文字認識処理プログラム
CN103995816B (zh) 信息处理设备和信息处理方法
JPH11143986A (ja) ビットマップイメージの処理方法及び処理装置、ビットマップイメージの処理を行うイメージ処理プログラムを格納した記憶媒体
JP4591229B2 (ja) 画像処理装置、および画像処理方法、並びにコンピュータ・プログラム
CN103927535A (zh) 一种汉字书写识别方法及装置
JP2006195898A (ja) 信号伝播経路描画装置、その描画方法及びプログラム
Liu et al. Improving the table boundary detection in pdfs by fixing the sequence error of the sparse lines
US9049400B2 (en) Image processing apparatus, and image processing method and program
JP2009251872A (ja) 情報処理装置及び情報処理プログラム
JP4983464B2 (ja) 帳票画像処理装置及び帳票画像処理プログラム
JP3258287B2 (ja) 画像データの解析方法及び解析装置、及び画像データの解析を行うためのプログラム・プロダクトを格納した記録媒体
JP4347675B2 (ja) 帳票ocrプログラム、方法及び装置
CN114937279A (zh) 基于rpa和ai实现ia的bom识别方法及装置
JP5720182B2 (ja) 画像処理装置及び画像処理プログラム
JP6007720B2 (ja) 情報処理装置及び情報処理プログラム
JP4213558B2 (ja) 文書レイアウト解析プログラム、文書レイアウト解析プログラムを記憶したコンピュータ読み取り可能な記憶媒体、文書レイアウト解析方法および文書レイアウト解析装置

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Tokyo, Japan

Patentee after: Fuji film business innovation Co.,Ltd.

Address before: Tokyo, Japan

Patentee before: Fuji Xerox Co.,Ltd.

CP01 Change in the name or title of a patent holder