CN106557734B - 信息处理装置和信息处理方法 - Google Patents

信息处理装置和信息处理方法 Download PDF

Info

Publication number
CN106557734B
CN106557734B CN201610404427.7A CN201610404427A CN106557734B CN 106557734 B CN106557734 B CN 106557734B CN 201610404427 A CN201610404427 A CN 201610404427A CN 106557734 B CN106557734 B CN 106557734B
Authority
CN
China
Prior art keywords
elements
common
file
files
unit
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610404427.7A
Other languages
English (en)
Other versions
CN106557734A (zh
Inventor
重枝信之
鹿岛洋三
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from JP2015192960A external-priority patent/JP6578858B2/ja
Priority claimed from JP2015208927A external-priority patent/JP6693082B2/ja
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN106557734A publication Critical patent/CN106557734A/zh
Application granted granted Critical
Publication of CN106557734B publication Critical patent/CN106557734B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/416Extracting the logical structure, e.g. chapters, sections or page numbers; Identifying elements of the document, e.g. authors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/225Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on a marking or identifier characterising the area
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • G06V30/14Image acquisition
    • G06V30/148Segmentation of character regions
    • G06V30/153Segmentation of character regions using recognition of characters or words
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00352Input means
    • H04N1/00355Mark-sheet input
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00795Reading arrangements
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32144Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title embedded in the image data, i.e. enclosed or integrated in the image, e.g. watermark, super-imposed logo or stamp
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/10Character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0082Image hardcopy reproducer

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Computer Graphics (AREA)
  • Geometry (AREA)
  • Character Input (AREA)
  • Character Discrimination (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明公开了一种信息处理装置和信息处理方法,所述信息处理装置具备获取单元、提取单元、以及选择单元。所述获取单元针对多个文件获取用于表示所述多个文件中的每一个的特性的元素的候选项。所述提取单元从由所述获取单元获取的所述候选项中提取为所述多个文件中的两个或更多个所共有的共同元素。所述选择单元从所述多个文件中提取包括这些共同元素中的两个或更多个共同元素的文件,并且将所提取文件中所包含的所述两个或更多个共同元素确定为表示所述文件的特性的元素。

Description

信息处理装置和信息处理方法
技术领域
本发明涉及一种信息处理装置和信息处理方法。
背景技术
日本专利文献特开2003-115028号公报中描述的文件处理系统从文件图像提取字符串,针对每个所提取的字符串根据关于该字符串的位置信息和该字符串的出现频率来计算字符串的稳定程度,针对每个字符串根据相同区域中出现该字符串的文件类型的数量来计算该字符串的独特程度,并且根据所述稳定程度和独特程度来计算这些字符串在文件标识字典中登记的优先级。
发明内容
为了提高文件的处理效率,转换成数字形式可能是有效的方法。例如,将表示多种类型的文件的特性的元素预先登记在计算机中。使用扫描器来读取文件,并且生成其图像。将所生成的图像中包含的元素进行提取。所读取文件的类型是通过将所提取的元素与预先登记的元素进行比较来确定的。然而,有这样一种趋势,即文件的类型的数量越大,格式彼此相似的文件就越多。对于格式彼此相似的文件,表示文件的特性的元素通常彼此相似。当将与其他文件的元素相似的元素以这种方式登记为文件的元素时,这可能导致错误的文件类型确定(文件的类型被确定为非真实的类型)。当发生错误确定时,需要执行复杂的操作以纠正确定结果,而这是低效率的。
因此,本发明的目的是减少由于多个文件具有彼此相似的特性而造成的错误的文件类型确定的次数。
根据本发明的第一方面,提供了一种信息处理装置,该信息处理装置具备获取单元、提取单元、以及选择单元。获取单元针对多个文件获取用于表示多个文件中的每一个的特性的元素的候选项。提取单元从由获取单元获取的候选项中提取为多个文件中的两个或更多个所共有的共同元素。选择单元从多个文件中提取包括这些共同元素中的两个或更多个共同元素的文件,并且将所提取文件中所包含的两个或更多个共同元素确定为表示文件的特性的元素。
根据本发明的第二方面,根据第一方面的信息处理装置还具备第一获取单元、添加单元、第二获取单元、以及第一提取单元。第一提取单元针对多个文件中的每一个提取通过读取文件而生成的第一图像中所包含的第一组元素。添加单元通过将彼此不同的噪声添加到第一图像来生成多个第二图像。第二获取单元获取多个第二图像的每一个中所包含的第二组元素。第一提取单元根据第一组元素中所包含的元素与第二组元素中所包含的元素之间的相似程度来从第一组元素中提取表示文件的特性的元素的候选项。获取单元获取由第一提取单元提取的候选项。
根据本发明的第三方面,在根据第二方面的信息处理装置中,提取单元从由获取单元获取的候选项中提取不为多个文件中的两个或更多个所共有的独特元素;并且在当第一提取单元将独特元素作为候选项中的一个候选项来提取时所获得的相似程度不满足预定条件的情况下,选择单元将独特元素和两个或更多个共同元素确定为表示文件的特性的元素。
根据本发明的第四方面,在根据第二方面的信息处理装置中,从第一组元素中所包含的元素中,第一提取单元不将与不满足预定条件的相似程度相对应的元素提取为表示文件的特性的元素的候选项。
根据本发明的第五方面,在根据第一方面的信息处理装置中,提取单元从由获取单元获取的候选项中提取不为多个文件中的两个或更多个所共有的独特元素;并且选择单元将独特元素确定为表示包含独特元素的文件的特性的元素。
根据本发明的第六方面,提供了一种信息处理装置,该信息处理装置具备获取单元、提取单元、分配单元、以及选择单元。获取单元针对多个文件获取用于表示多个文件中的每一个的特性的元素的候选项。提取单元从候选项中提取不为多个文件中的两个或更多个所共有的独特元素和为多个文件中的两个或更多个所共有的共同元素。分配单元针对多个文件中的每一个给文件中所包含的独特元素之中的独特元素和共同元素之中的共同元素分配优先级。选择单元针对多个文件中的每一个根据由分配单元分配的优先级将独特元素和共同元素中的至少一个确定为表示文件的特性的元素。
根据本发明的第七方面,在根据第六方面的信息处理装置中,分配单元给独特元素比给共同元素分配更高的优先级,并且选择单元仅将独特元素确定为表示文件的特性的元素。
根据本发明的第八方面,在根据第六方面的信息处理装置中,多个文件中的共同元素的出现频率越低,分配单元分配给共同元素的优先级就越高,并且选择单元将独特元素和根据由分配单元分配的优先级选择出的共同元素确定为表示文件的特性的元素。
根据本发明的第九方面,根据第六至第八方面中任一个的信息处理装置还具备确定单元和权重分配单元。确定单元通过将从文件读取的元素与经选择单元确定的元素进行比较来确定文件的类型。权重分配单元分配权重以使得元素的由分配单元分配的优先级越高,权重分配单元分配给元素的用于由确定单元执行的确定的权重就越大。
根据本发明的第十方面,提供了一种信息处理方法,该信息处理方法包括针对多个文件获取用于表示多个文件中的每一个的特性的元素的候选项、从在获取过程中获取的候选项中提取为多个文件中的两个或更多个所共有的共同元素、从多个文件中提取包含共同元素之中的两个或更多个共同元素的文件,并且将提取文件中所包含的两个或更多个共同元素确定为表示文件的特性的元素。
根据本发明的第十一方面,提供了一种信息处理方法,该信息处理方法包括针对多个文件获取用于表示多个文件中的每一个的特性的元素的候选项、从候选项中提取不为多个文件中的两个或更多个所共有的独特元素和为多个文件中的两个或更多个所共有的共同元素、针对多个文件中的每一个给文件中所包含的独特元素之中的独特元素和共同元素之中的共同元素分配优先级、并且针对多个文件中的每一个根据在分配过程中分配的优先级将独特元素和共同元素中的至少一个确定为表示文件的特性的元素。
根据本发明的第一和第十方面,相比于不存在用于将两个或更多个共同元素确定为表示文件的特性的元素的配置的情况,可以减少由于多个文件具有彼此相似的特性而造成的错误的文件类型确定的次数。
根据本发明的第二方面,相比于不存在用于使用通过将彼此不同的噪声添加到第一图像而获得的多个第二图像来提取表示文件的元素的配置的情况,可以减少由于通过读取文件而生成的图像中所包含的噪声而造成的错误的文件类型确定的次数。
根据本发明的第三方面,在独特元素的噪声耐性不充足的情况下,可以补偿耐性的不足。
根据本发明的第四方面,具有不充足噪声耐性的元素可以不用作表示文件的特性的元素。
根据本发明的第五方面,在文件包括独特元素的情况下,独特元素可以用作表示文件的特性的元素。
根据本发明的第六和第十一方面,相比于不存在用于根据确定文件的类型的优先级来确定表示文件的特性的元素的配置的情况,可以减少由于多个文件具有彼此相似的特性而造成的错误的文件类型确定的次数。
根据本发明的第七方面,在文件包括独特元素的情况下,独特元素可以用作表示文件的特性的元素。
根据本发明的第八方面,相比于不存在用于给具有较低出现频率的共同元素分配较高的优先级的配置的情况,可以减少错误的文件类型确定的次数。
根据本发明的第九方面,相比于不存在用于给具有较高优先级的元素分配较大的权重的配置的情况,可以提高文件类型确定的准确度。
附图说明
将基于以下附图详细地描述本发明的示例性实施方式,其中:
图1是示出根据示例性实施方式的整个系统的图表;
图2是示出信息处理装置的硬件配置的图表;
图3是示出文件的示例的图表;
图4是示出信息处理装置的功能的框图;
图5是示出信息处理装置的操作的流程图;
图6是示出候选项列表的图表;
图7是示出独特元素和共同元素提取结果的图表;
图8是示出噪声示例的图表;
图9是示出信息处理装置的功能的框图;
图10是示出信息处理装置的操作的流程图;
图11是示出关于第一组元素的列表的图表;
图12是示出关于第二组元素的列表的图表;
图13是示出候选项列表的图表;
图14是示出信息处理装置的功能的框图;
图15是示出信息处理装置的操作的流程图;
图16是示出候选项列表的图表;以及
图17是示出信息处理装置的功能的框图。
具体实施方式
将描述根据本发明的示例性实施方式的示例。
<第一示例性实施方式>
图1是示出根据示例性实施方式的整个系统的图表。信息处理装置1和读取装置2通过诸如局域网(LAN)的通信单元3而连接。读取装置2读取文件的样本,生成图像数据,并且将该图像数据传输到信息处理装置1。信息处理装置1从由所接收的图像数据表示的图像中提取表示该文件的特性的元素。使用在实际的文书工作中所提取的元素来确定文件的类型。
图2是示出信息处理装置1的硬件配置的图表。信息处理装置1是包括控制器11、存储器12以及通信单元13的计算机。控制器11包括诸如中央处理单元(CPU)的运算单元以及诸如只读存储器(ROM)和随机存取存储器(RAM)的存储装置。ROM存储固件程序,在这些固件程序中说明了启动硬件装置的过程和操作系统(OS)的引导过程。当CPU执行计算时使用RAM来存储数据。存储器12例如包括硬盘装置,并且例如存储OS和应用程序。通信单元13包括用于与读取装置2进行通信的通信接口(I/F)。显示装置14和接收装置15被连接到信息处理装置1。显示装置14例如包括液晶显示装置并且例如给操作者显示屏幕以操作信息处理装置1。接收装置15例如包括键盘和鼠标。接收装置15接收由操作者进行的操作,并且将对应于操作的信息输出至控制器11。
读取装置2例如是图像扫描仪,其包括玻璃平板、挡板、光源、光学系统、摄像装置、运算单元等(未示出)。光源用光照射放置在玻璃平板上的文件,并且由文件反射的光通过光学系统进入摄像装置。摄像装置将已经进入摄像装置的光转换为图像信号,并且将图像信号输出至运算单元。运算单元根据图像信号生成光栅图像数据,并且将该图像数据传输到信息处理装置1。另外,复印机和信息处理装置1可以通过通信单元3相连,并且可以使用复印机中所包括的读取装置来读取文件。此外,可以使用诸如通用串行总线(USB)存储器的记录介质将文件的图像数据从读取装置2传送至信息处理装置1。
图3是示出文件的示例的图表。已经例如通过打印将诸如字符和格线的元素形成在文件上。在该示例中,已经形成了以下字符串:“表格A-1”、“申请日年月日”、“致信贷部”、“住房贷款申请表”、“申请内容”以及“姓名盖章”。此外,形成了指示申请内容的字段的格线。
图4是示出信息处理装置1的功能的框图。获取单元110针对多个文件获取用于表示多个文件中的每一个的特性的元素的候选项。提取单元120从由获取单元110获取的候选项中提取为两个或更多个文件所共有的共同元素。选择单元130从多个文件中提取包括由提取单元120提取的这些共同元素之中的两个或更多个共同元素的文件,并且将所提取文件中所包含的两个或更多个共同元素确定为表示文件的特性的元素。此外,提取单元120从由获取单元110获取的候选项中提取不为两个或更多个文件所共有的独特元素。选择单元130将由提取单元120提取的每个独特元素确定为表示包含独特元素的文件的特性的元素。用于实现这些功能的具体配置如下。
图5是示出信息处理装置1的操作的流程图。将描述了提取表示文件的特性的元素的过程的应用程序安装在信息处理装置1中。信息处理装置1的控制器11通过执行该应用程序来执行以下处理。
<步骤S1>(获取单元110的示例)
控制器11获取用于表示文件的特性的元素的候选项。具体而言,首先,用户使读取装置2读取文件的样本。读取装置2读取文件的样本,生成图像数据,并且将该图像数据传输到信息处理装置1。信息处理装置1的控制器11在由从读取装置2接收的图像数据所表示的图像上执行字符识别和格线识别。在字符识别中,例如,使用光学字符识别(OCR)方法。在格线识别中,例如,使用用于从X轴方向和Y轴方向上的黑象素的值的累计总和来识别格线的方法,日本专利文献特开2003-109007号公报第0051段描述了该方法。
在以下描述中,描述了通过执行字符识别来获取候选项的示例。在图3中所示的示例中,识别了以下字符串:“表格A-1”、“申请日年月日”、“致信贷部”、“住房贷款申请表”、“申请内容”以及“姓名盖章”。此外,控制器11使显示装置14显示文件的图像。用户使用接收装置15(鼠标)来指定用于表示文件的特性的元素的候选项(例如,“表格A-1”和“住房贷款申请表”)。上述处理在多个文件上执行。
图6是示出候选项列表的图表。当用于表示文件的元素的候选项被指定时,控制器11将所指定的候选项存储在候选项列表中。候选项列表是将文件ID、元素ID、元素内容、以及位置信息彼此相关联地存储在其中的列表。文件ID是用来识别某文件的标识符。元素ID是用来识别某元素的标识符。在该示例中,元素的内容是通过字符识别来识别的字符串。位置信息是指示某元素在文件图像中的位置的信息,并且例如是外接某字符串的矩形的左上顶点的坐标。所示出的候选项列表是从五个不同类型的文件中获取用于表示文件的元素的候选项的示例。在这些文件中,文件ID=003对应于图3中所示的文件。另外,可以针对每个文件独立地分配元素ID,或者可以将相同的元素ID分配给具有相同内容的元素并且将不同的元素ID分配给具有不同内容的元素。
<步骤S2>(提取单元120的示例)
图7是示出独特元素和共同元素提取结果的图表。控制器11使用存储在候选项列表中的元素内容通过执行比较来提取独特元素和共同元素。独特元素是其内容不为两个或更多个文件所共有的元素。共同元素是其内容为两个或更多个文件所共有的元素。在该图中,具有添加了○的元素ID的元素是独特元素,而具有添加了●的元素ID的元素是共同元素。
<步骤S3>(选择单元130的示例)
控制器11将在步骤S2中提取的每个独特元素确定为表示包含独特元素的文件的特性的元素。例如,关于具有文件ID=001并且在图7中示出的文件,“学资保险申请表”(元素ID=004)被作为独特元素提取,由此控制器11将该独特元素确定为表示该文件的特性的元素。同样,关于具有文件ID=002、004、和005的文件,控制器11将所提取的独特元素确定为表示对应文件的元素。
<步骤S4>(选择单元130的示例)
控制器11提取包括两个或更多个共同元素的文件,并且将这些共同元素确定为表示文件的特性的元素。在所示出的示例中,“表格A-1”和“住房贷款申请表”被作为共同元素提取。由于“表格A-1”是为文件ID=001、002、和003所共有的元素,当仅使用该元素时,文件ID=001、002、和003不区分彼此。此外,由于“住房贷款申请表”是为文件ID=003、004、和005所共有的元素,当仅使用该元素时,文件ID=003、004、和005不区分彼此。然而,对于这五个文件之中的文件ID=003提取多个共同元素(“表格A-1”和“住房贷款申请表”),并且对于其他文件不存在这些多个共同元素的组合。因此,控制器11将这些多个共同元素确定为表示具有文件ID=003的文件的特性的元素。
当根据上述过程来确定表示每个文件的特性的元素时,控制器11生成在其中每个文件的文件ID与表示文件的特性的元素相关联的特性列表,并且使存储器12存储该特性列表。
在本示例性实施方式中,即使在从某个文件没有提取出独特元素的情况下,当文件包括两个或更多个共同元素时,将这些共同元素确定为表示文件的特性的元素。因此,根据本示例性实施方式,可以减少由多个文件具有彼此相似的特性而造成的错误的文件类型确定的次数。
<第二示例性实施方式>
第一示例性实施方式被配置为使得用户在显示某个文件的图像的屏幕上指定用于表示该文件的特性的元素的候选项;然而,在第二示例性实施方式中,信息处理装置1提取用于表示文件的特性的元素的候选项。具体而言,第二示例性实施方式如下所示。
图8是示出噪声示例的图表。可能存在噪声被包括在通过读取文件而生成的图像中的情况。噪声例如是按以下方式进行分类的。
(a)填充
填充的示例是手写字符和标记、通过盖上印章形成的盖章的印记、以及为了示出应当填写的部分而用铅笔写出的标记。在所示出的示例中,在姓名字段中手写“富士太郎(Taro Fuji)”(噪声N1)的字符串。此外,将环绕应当填写的部分的标记(噪声N2)写在申请日字段和姓名字段。此外,将盖章的印记(噪声N3)形成在姓名字段。
(b)水印
可能存在将隐藏字符设置在文件中以便当读取装置2读取文件时生成包括水印的图像的情况。水印被形成为具有一定的暗度,从而水印不妨碍文件的填写和观看。为了确保水印本身的可视性,例如使用多个水印的大尺寸倾斜排列的、或规则或不规则排列的字符来形成水印。在所示出的示例中,形成了水印“禁止复印”(噪声N4)(为绘图起见,使用了剖面线)。另外,还可能存在不使用隐藏字符而在文件上形成明显水印的情况。
(c)污垢
例如,可能存在诸如橡皮擦碎屑、墨污、或灰尘的污垢附着在文件上的情况。还可能存在文件的折痕或褶皱变成线状污垢的情况。还可能存在污垢粘附到读取装置2的玻璃平板的情况。在所示出的示例中,存在平面状污垢(噪声N5)和线状污垢(噪声N6)。为绘图起见,针对平面状污垢使用了剖面线。
(d)透显
可能存在例如将字符形成在文件的反面的情况。例如,可能存在在反面描述申请完成指令的情况以及在两面提供有待填写的字段的情况。以这种方式,在例如将字符描述在文件的反面并且使用薄纸张并透过薄纸张显示反面的字符的情况下,反面的字符可以由读取装置2读取出。
(e)倾斜(偏斜度)
根据本示例性实施方式的噪声的概念包括在读取时刻由文件的倾斜造成的噪声。例如,当文件被安排在读取装置2的读取位置时,可能发生文件倾斜。此外,在装备有用于将文件运输到读取位置的装置的情况下,文件可能是以倾斜取向运输的。根据该倾斜的程度,例如,可能没有识别字符,并且可能错误地识别了格线的方向。其结果是,可能没有准确地识别文件的特性。
图9是示出信息处理装置1的功能的框图。获取单元110、提取单元120、以及选择单元130具有与第一示例性实施方式中的单元相同的功能。关于多个文件,第一获取单元101针对多个文件中的每一个获取通过读取文件而生成的第一图像中所包含的第一组元素。添加单元102通过将彼此不同的噪声添加到第一图像来生成多个第二图像。第二获取单元103获取多个第二图像的每一个中所包含的第二组元素。第一提取单元104根据第一组元素中所包含的元素与多个第二组元素中所包含的元素之间的相似程度来从第一组元素中提取用于表示文件的特性的元素的候选项。获取单元110获取由第一提取单元104提取的候选项。用于实现这些功能的具体配置如下。
图10是示出信息处理装置1的操作的流程图。将说明了提取表示文件的特性的元素的过程的应用程序安装在信息处理装置1中。信息处理装置1的控制器11通过执行该应用程序来执行以下处理。
<步骤S01>(第一获取单元101的示例)
首先,用户使读取装置2读取文件的样本。读取装置2读取文件的样本,生成第一图像数据,并且将该第一图像数据传输到信息处理装置1。信息处理装置1的控制器11在由从读取装置2接收的第一图像数据所表示的第一图像上执行字符识别和格线识别。在字符识别中,例如,使用OCR方法。在格线识别中,例如,使用用于从X轴方向和Y轴方向上的黑象素的值的累计总和来识别格线的方法,日本专利文献特开2003-109007号公报第0051段描述了该方法。本示例性实施方式示出了将字符串作为第一组元素获取的示例。在图3中所示的示例中,识别了以下字符串:“表格A-1”、“申请日年月日”、“致信贷部”、“住房贷款申请表”、“申请内容”以及“姓名盖章”。控制器11获取这些字符串作为第一组元素。
图11是示出关于第一组元素的列表的图表。在获取第一组元素时,控制器11生成关于第一组元素的列表(以下称为第一组元素列表)。第一组元素列表是针对多个元素ID将每个元素ID、元素内容、以及位置信息彼此相关联地存储在其中的列表。元素ID是用来识别某元素的标识符。在该示例中,元素的内容是通过字符识别识别出的字符串。位置信息是指示某元素在第一图像中的位置的信息,并且例如是外接某字符串的矩形的左上顶点的坐标。
<步骤S02>(添加单元102的示例)
控制器11将噪声添加到第一图像。有待添加的噪声例如是上述(a)填充、(b)水印、(c)污垢、(d)透显、以及(e)倾斜。假定为透显的字符可以是镜像或者可以不是镜像。存储器12存储这些噪声的初始值。这些噪声的初始值例如对于(a)而言是字符的数量和线的数量,对于(b)而言是字符串的面积,对于(c)而言是覆盖有污垢的区域的面积,对于(d)而言是透显区域的面积,并且对于(e)而言是倾斜角度。此外,例如,对于第一组元素(本示例性实施方式中的字符串)中所包含的每个元素而言,还可以将覆盖有某一噪声的区域的面积与外接元素的矩形的百分比确定作为噪声的初始值之一。
控制器11通过将这些噪声添加到第一图像来生成多个第二图像。在此,控制器11进行控制,以使得彼此不同的噪声将被包括在对应的第二图像中。例如,使用随机数,将在外接某一元素的矩形中添加噪声的位置可以在不同的第二图像之间变化。此外,例如,使用随机数,在外接某一元素的矩形中覆盖有某一噪声的区域的面积或者覆盖有某一噪声的区域的面积与外接元素的矩形的面积的百分比也可以在不同的第二图像之间变化。简言之,控制器11在步骤S02中通过在不同第二图像之间随机改变噪声来生成多个第二图像,噪声是预定的多种类型的噪声。图8中所示的图像是多个第二图像之一。就噪声N1至N6的面积、位置等而言,多个第二图像彼此不同。
<步骤S03>(第二获取单元103的示例)
类似于在步骤S01中,控制器11对每个第二图像执行字符识别、识别字符串、并且获取所识别的字符串作为第二组元素。由于添加噪声的字符并未被识别,在图8中所示的示例中识别了“表A-1”、“申请年月日”、“致信贷部”、“住房贷款申表”、“申请内容”、以及“姓富士太郎”。控制器11获取这些字符串作为第二组元素。另外,如上所述,就这些噪声的面积、位置等而言,多个第二图像彼此不同。因此,例如,由于噪声被添加到“住房贷款申请表”的“请”,在图8中所示的示例中并未识别“请”。如果噪声被添加到其他字符,则字符不被识别。其结果是,有待获取的第二组元素在不同第二图像之间是不同的。控制器11从多个第二图像的每一个中获取第二组元素。因此,有待获取的第二组元素的数量与第二图像的数量是相同的。
图12是示出关于第二组元素的列表的图表。在获取第二组元素时,控制器11生成关于第二组元素的列表(以下称为第二组元素列表)。第二组元素列表是针对多个元素ID将每个元素ID、元素内容、以及位置信息彼此相关联地存储在其中的列表。有待生成的第二组元素列表的数量与第二图像的数量是相同的。
<步骤S04>(第一提取单元104的示例)
控制器11从第一组元素列表和第二组元素列表读取出对应于相同元素ID的元素,并且计算这两个元素之间的相似程度。在字符串的情况下,相似程度是匹配字符的数量占字符串的字符的总数量的百分比。例如,对于元素ID=004,由于第一组元素列表具有“住房贷款申请表”并且第二组元素列表具有“住房贷款申表”,相似程度约为0.870。
控制器11针对所有第二组元素列表执行该处理,并且计算每个元素ID的相似程度的平均值。例如,当从这五个第二图像中获取的具有元素ID=004的元素的内容是“住房贷款申表”、“住房贷款表”、“住房贷款贷款申”、“住房贷款申请表”、以及“住房贷表”时,元素ID=004的相似程度的平均值约为(0.870+0.783+0.783+1.0+0.609)/5=0.809。当某一元素的相似程度的平均值达到预定阈值时,控制器11将元素确定为表示文件的特性的元素。例如,在阈值是0.4的情况下,具有元素ID=004的元素的相似程度的平均值超过阈值,由此元素被确定为表示文件的特性的元素。另外,还可以使用基于相似程度的值(诸如相似程度的最大值或最小值)而不是相似程度的平均值来进行上述处理。
图13是示出候选项列表的图表。当对所有的元素ID完成上述处理时,控制器11生成候选项列表。候选项列表是针对表示文件的特性的多个元素的元素ID将每个元素ID、元素内容、以及位置信息彼此相关联地存储在其中的列表。在该示例中,具有元素ID=006的“姓名盖章”的相似程度的平均值未达到阈值,由此将具有元素ID=001至005的元素提取作为表示文件的特性的元素。控制器11针对每个文件生成候选项列表。控制器11生成文件ID,并且使文件ID与候选项列表相关联,该文件ID是用于识别所生成候选项列表的标识符。在该示例中,所生成的候选项列表与文件ID=001相关联。如上所述,表示文件的特性的元素是从第一组元素提取的。另外,可以使显示装置14显示表示元素的提取结果的图像,这些元素表示文件的特性。例如,可以使显示装置14显示所生成的候选项列表。还可以使显示装置14显示表示文件的图像,在图像中视觉上强调了作为表示文件的特性的元素来提取的元素。
以上描述是关于用于提取表示文件的特性的元素的候选项的信息处理装置1的配置。根据该过程针对多个文件中的每一个生成候选项列表,并且根据在第一示例性实施方式中描述的处理来提取表示每个文件的元素并生成特性列表。
根据本示例性实施方式,相比于不存在用于使用通过将彼此不同的噪声添加到第一图像而获得的多个第二图像来提取表示文件的特性的元素的配置的情况,减少了由于通过读取文件而生成的图像中所包含的噪声而造成的错误的文件类型确定的次数。此外,根据本示例性实施方式,相比于噪声随机改变的配置的情况,添加了更接近实际噪声的噪声。此外,根据本示例性实施方式,相比于添加了一种噪声的配置的情况,添加了更接近实际噪声的多个噪声。此外,根据本示例性实施方式,指示文件类型的元素的提取标准制定得不太严格。
<第三示例性实施方式>
图14是示出信息处理装置1的功能的框图。获取单元110和提取单元120具有与第一示例性实施方式相同的功能。获取单元110针对多个文件获取用于表示多个文件中的每一个的特性的元素的候选项。提取单元120从由获取单元110获取的候选项中提取不为两个或更多个文件所共有的独特元素和为两个或更多个文件所共有的共同元素。分配单元140针对多个文件中的每一个给文件中所包含的独特元素和共同元素分配优先级,优先级被用于确定文件的类型。针对多个文件中的每一个,选择单元150根据由分配单元140分配的优先级将独特元素和共同元素中的至少一个确定为表示文件的特性的元素。用于实现这些功能的具体配置如下。
图15是示出信息处理装置1的操作的流程图。将描述了提取表示文件的特性的元素的过程的应用程序安装在信息处理装置1中。信息处理装置1的控制器11通过执行该应用程序来执行以下处理。
<步骤S11>(获取单元110的示例)
针对多个文件,控制器11获取用于表示多个文件中的每一个的特性的元素的候选项。具体而言,控制器11通过执行与第一示例性实施方式的步骤S1相同的处理来生成候选项列表(参见图6)。
<步骤S12>(提取单元120的示例)
控制器11从由获取单元110获取的候选项中提取不为两个或更多个文件所共有的独特元素和为两个或更多个文件所共有的共同元素。具体而言,控制器11通过执行与第一示例性实施方式的步骤S2相同的处理来提取独特元素和共同元素(参见图7)。
<步骤S13>(分配单元140的示例)
控制器11针对多个文件中的每一个给文件中所包含的独特元素和共同元素分配优先级,优先级被用于确定文件的类型。具体而言,控制器11给独特元素比给共同元素分配更高的优先级。例如,在图7的示例中(○=独特元素,●=共同元素),关于具有文件ID=001的文件,将第一优先级分配给具有元素ID=004的元素,并且将第二优先级分配给具有元素ID=001的元素。具有文件ID=003的元素不具有独特元素,并且两个候选项都是共同元素。因此,将第一优先级分配给这两个候选项。
<步骤S14>(选择单元150的示例)
针对多个文件中的每一个,控制器11根据由分配单元140分配的优先级将独特元素和共同元素中的至少一个确定为表示文件的特性的元素。作为示例,在本示例性实施方式中,控制器11仅将独特元素确定为表示文件的特性的元素。关于在图7的中具有文件ID=001的文件,只将具有元素ID=004的元素确定为表示该文件的特性的元素。关于具有文件ID=003的文件,类似于在第一示例性实施方式中,还可以将这两个共同元素确定为表示该文件的特性的元素。
根据本示例性实施方式,相比于不存在用于根据确定文件的类型的优先级来确定表示文件的特性的元素的配置的情况,减少了由于多个文件具有彼此相似的特性而造成的错误的文件类型确定的次数。此外,在文件包括独特元素的情况下,独特元素被用作表示文件的特性的元素。
<实施例>
接下来,将描述使用根据第一至第三示例性实施方式中描述的过程而生成的特性列表的文件处理的实施例。存储器12存储了根据上述过程生成的多个特性列表。这些特性列表与彼此不同的每个文件ID相关联。首先,用户使读取装置2读取文件。该文件例如是图3中所示的文件(住房贷款申请表),在该文件上住房贷款申请人填写了必要的部分。读取装置2读取该文件,生成第三图像数据,并且将该第三图像数据传输到信息处理装置1。信息处理装置1的控制器11在由从读取装置2接收的第三图像数据所表示的第三图像上执行字符识别,获取所识别字符串作为第三组元素,并且生成关于第三组元素的列表(以下称为第三组元素列表)。第三组元素列表的配置与上述第一组元素列表的配置基本上相同。
控制器11从某些特性列表中读取出与关于第三组元素列表中所包含的元素的位置信息片段相对应的元素,并且计算第三组元素列表中所包含的元素与从这些特性列表中读取出的元素之间的相似程度(关于相似程度的定义,参见第二示例性实施方式的步骤S04)。另外,对于第三组元素列表中所包含的每个元素,当特性列表不包括与关于第三组元素列表中所包含的元素的位置信息相对应的元素时,元素的相似程度为0.0。对于每个特性列表,控制器11根据特性列表中所包含的元素的相似程度来计算得分,并且提取得分大于或等于阈值并且是最高的特性列表。
存储器12配备有用于存储第三图像数据的目录。在紧接该目录的下层中,提供了与每个文件ID相关联的多个目录以及不与任何文件ID相关联的一个目录(用于未知文件的目录)。控制器11将第三图像数据存储在与所提取的特性列表的文件ID相关联的目录中。在所有这些特性列表的得分都未达到阈值的情况下,控制器11将第三图像数据存储在用于未知文件的目录中。以这种方式确定了文件的类型。
<变形例>
示例性实施方式可以按如下方式进行变形。此外,可以对多个变形例进行组合。
<第一变形例>
在独特元素的噪声耐性不满足预定条件并且提取了多个共同元素的情况下,还可以将独特元素和多个共同元素的组合确定为表示文件的特性的元素。具体而言,在将通过使用根据第二示例性实施方式的技术提取的候选项作为独特元素来提取的情况下,将在第二示例性实施方式的步骤S04中计算出的相似程度的平均值与阈值进行比较。该阈值是用于独特元素的噪声耐性的标准值。在相似程度的平均值未达到该阈值的情况下,该独特元素的噪声耐性是不足的。在相似程度的平均值未达到该阈值的情况下,当提取了多个共同元素时,通过该独特元素和多个共同元素的组合来补偿独特元素的耐性的不足。简言之,提取单元120从由获取单元110获取的候选项中提取不为两个或更多个文件所共有的独特元素;并且在当第一提取单元104将独特元素作为候选项来提取时所获得的相似程度不满足预定条件的情况下,选择单元130将独特元素和两个或更多个共同元素确定为表示文件的特性的元素。另外,还可以使用基于相似程度的值(诸如相似程度的最大值或最小值)而不是相似程度的平均值来进行上述处理。
根据本变形例,在独特元素的噪声耐性不充足的情况下,补偿了耐性的不足。
<第二变形例>
上述示例性实施方式已经表明,作为示例,使用随机数,噪声的位置或面积在不同的第二图像之间是变化的。然而,例如,噪声的位置或面积在不同的第二图像之间可以规则地变化。简言之,可以使用任何配置,只要通过将彼此不同的噪声添加到第一图像来生成多个第二图像即可。
<第三变形例>
可以不将噪声耐性不满足预定条件的元素作为用于表示文件的特性的元素的候选项来提取。具体而言,在第二示例性实施方式的步骤S04中,控制器11从第一组元素列表和第二组元素列表读取出对应于相同元素ID的元素,并且计算这两个元素之间的相似程度。控制器11针对所有第二组元素列表执行该处理,并且计算每个元素ID的相似程度的平均值。控制器11将该平均值与阈值进行比较。该阈值是用于元素的噪声耐性的标准值。在相似程度的平均值未达到该阈值的情况下,该元素的噪声耐性是不足的,由此控制器11不将该元素作为用于表示文件的特性的元素的候选项来提取。简言之,从第一组元素中所包含的元素中,第一提取单元104不将相似程度不满足预定条件的元素作为表示文件的特性的元素来提取。另外,还可以使用基于相似程度的值(诸如相似程度的最大值或最小值)而不是相似程度的平均值来进行上述处理。
根据本变形例,噪声耐性不充足的元素不被用作表示文件的特性的元素。
<第四变形例>
第三示例性实施方式可以按如下方式进行变形。在第三示例性实施方式的步骤S13中(参见图15),多个文件中的共同元素的出现频率越低,控制器11分配给共同元素的优先级就越高(分配单元140的示例)。在步骤S14中,控制器11将独特元素和根据由分配单元140分配的优先级选择出的共同元素确定为表示文件的特性的元素(选择单元150的示例)。具体而言,第四变形例如下所示。
图16是示出候选项列表的示例的图表。具有元素ID=001的“表格A-1”是为两个文件(文件ID=002和003)所共有的共同元素(出现频率=2)。具有元素ID=004的“住房贷款申请表”是为三个文件(文件ID=003、004、和005)所共有的共同元素(出现频率=3)。具有元素ID=005的“申请内容”是为四个文件(文件ID=001、002、003和004)所共有的共同元素(出现频率=4)。
例如,在具有文件ID=002的文件的情况下,独特元素是具有元素ID=004的“汽车贷款申请表”,并且共同元素是具有元素ID=001的“表格A-1”和具有元素ID=005的“申请内容”。控制器11将第一优先级分配给具有元素ID=001的“表格A-1”(出现频率=2),并且将第二优先级分配给具有元素ID=005的“申请内容”(出现频率=4)。控制器11然后将独特元素(具有元素ID=004的“汽车贷款申请表”)和这些共同元素之中具有第一优先级的共同元素(具有元素ID=001的“表格A-1”)确定为表示该文件的特性的元素。
另外,关于具有文件ID=003的文件,在存在三个或更多个共同元素的情况下,可以选择具有第一和第二优先级的共同元素。简言之,根据本变形例,将独特元素和根据优先级选择出的共同元素确定为表示文件的特性的元素。
根据本变形例,相比于不存在用于给具有较低出现频率的共同元素分配较高的优先级的配置的情况,减少了错误的文件类型确定的次数。
<第五变形例>
第三示例性实施方式可以按如下方式进行变形。
图17是示出信息处理装置1的功能的框图。获取单元110、提取单元120、分配单元140、以及选择单元150具有与第三示例性实施方式中的单元相同的功能。获取单元110针对多个文件获取用于表示多个文件中的每一个的特性的元素的候选项。提取单元120从由获取单元110获取的候选项中提取不为两个或更多个文件所共有的独特元素和为两个或更多个文件所共有的共同元素。分配单元140针对多个文件中的每一个给文件中所包含的独特元素和共同元素分配优先级,优先级被用于确定文件的类型。针对多个文件中的每一个,选择单元150根据由分配单元140分配的优先级将独特元素和共同元素中的至少一个确定为表示文件的特性的元素。确定单元160通过将从文件读取的元素与由选择单元150确定的元素进行比较来确定文件的类型。元素的由分配单元140分配的优先级越高,权重分配单元170分配给元素的用于由确定单元160执行的确定的权重就越大。用于实现这些功能的具体配置如下。
确定单元160的具体配置是如以上实施例中所描述的。也就是说,控制器11从某些特性列表中读取出与关于第三组元素列表(由读取装置2从文件中读取出的一组元素)中所包含的元素的位置信息片段相对应的元素,并且计算第三组元素列表中所包含的元素与从这些特性列表中读取出的元素之间的相似程度(关于相似程度的定义,参见第二示例性实施方式的步骤S04)。对于每个特性列表,控制器11根据特性列表中所包含的元素的相似程度来计算得分,并且提取得分大于或等于阈值并且是最高的特性列表。
控制器11例如通过对由特性列表中所包含的每个元素的相似程度与某一权重相乘所获得的值求和来计算得分。在此,元素的由分配单元140分配的优先级越高,控制器11给元素设置的系数就越大(权重分配单元170)。
根据本变形例,相比于不存在用于给具有较高优先级的元素分配较大权重的配置的情况,改善了文件类型确定的准确度。
<第六变形例>
上述示例性实施方式已经表明,作为示例,上述功能是由信息处理装置1执行应用程序来实现的。然而,还可以使用硬件电路来实现部分或全部的上述功能。此外,应用程序可以被记录在诸如光记录介质或半导体存储器的计算机可读记录介质上来提供。应用程序可以从该计算机可读记录介质中读取来进行安装。此外,该应用程序还可以通过电通信线路来提供。
已经出于说明和描述目的提供了本发明的示例性实施方式的上述说明。其并不旨在穷举或将本发明限制为所披露的精确形式。显然,许多变形例和变体对于本领域技术从业者将是显而易见的。选择和描述这些实施例是为了最佳地说明本发明的原理及其实际应用,从而由此使得本领域其他技术人员能够针对不同的实施例和具有适合于所考虑到的实际用途的不同变形例来理解本发明。本发明的范围旨在是由以下权利要求及其等效物来限定的。
为了进行图示和说明,以上对本发明的示例性实施方式进行了描述。其目的并不在于全面详尽地描述本发明或将本发明限定于所公开的具体形式。很显然,对本技术领域的技术人员而言,可以做出许多修改以及变形。本实施例的选择和描述,其目的在于以最佳方式解释本发明的原理及其实际应用,从而使得本技术领域的其他熟练技术人员能够理解本发明的各种实施例,并做出适合特定用途的各种变形。本发明的范围由与本说明书一起提交的权利要求书及其等同物限定。

Claims (9)

1.一种信息处理装置,其特征在于,具备:
获取单元,所述获取单元针对多个文件获取用于表示所述多个文件中的每一个的特性的元素的候选项;
提取单元,所述提取单元从由所述获取单元获取的所述候选项中提取为所述多个文件中的两个或更多个所共有的共同元素;
选择单元,所述选择单元从所述多个文件中提取包括这些共同元素中的两个或更多个共同元素的文件,并且将所提取文件中所包含的所述两个或更多个共同元素确定为表示所述文件的特性的元素,
第一获取单元,所述第一获取单元针对所述多个文件中的每一个获取通过读取所述文件而生成的第一图像中所包含的第一组元素;
添加单元,所述添加单元通过将彼此不同的噪声添加到所述第一图像来生成多个第二图像;
第二获取单元,所述第二获取单元获取所述多个第二图像的每一个中所包含的第二组元素;以及
第一提取单元,所述第一提取单元根据所述第一组元素中所包含的元素与所述第二组元素中所包含的元素之间的相似程度来从所述第一组元素中提取用于表示所述文件的特性的元素的候选项,其中,
所述获取单元获取由所述第一提取单元提取的候选项。
2.根据权利要求1所述的信息处理装置,其中,
所述提取单元从由所述获取单元获取的所述候选项中提取不为所述多个文件中的两个或更多个所共有的独特元素;并且
在当所述第一提取单元将所述独特元素作为所述候选项中的一个候选项来提取时所获得的相似程度不满足预定条件的情况下,所述选择单元将所述独特元素和所述两个或更多个共同元素确定为表示所述文件的特性的元素。
3.根据权利要求1所述的信息处理装置,其中,
从所述第一组元素中所包含的元素中,所述第一提取单元不将与不满足预定条件的相似程度相对应的元素提取为表示所述文件的特性的元素的候选项。
4.根据权利要求1所述的信息处理装置,其中,
所述提取单元从由所述获取单元获取的所述候选项中提取不为所述多个文件中的两个或更多个所共有的独特元素;并且
所述选择单元将所述独特元素确定为表示包含所述独特元素的文件的特性的元素。
5.一种信息处理装置,其特征在于,具备:
获取单元,所述获取单元针对多个文件获取用于表示所述多个文件中的每一个的特性的元素的候选项;
提取单元,所述提取单元从所述候选项中提取不为所述多个文件中的两个或更多个所共有的独特元素和为所述多个文件中的两个或更多个所共有的共同元素;
分配单元,所述分配单元针对所述多个文件中的每一个给所述文件中所包含的所述独特元素之中的独特元素和所述共同元素之中的共同元素分配优先级;以及
选择单元,所述选择单元针对所述多个文件中的每一个根据由所述分配单元分配的优先级将所述独特元素和所述共同元素中的至少一个确定为表示所述文件的特性的元素,
所述分配单元给所述独特元素比给所述共同元素分配更高的优先级,并且
所述选择单元仅将所述独特元素确定为表示所述文件的特性的元素。
6.根据权利要求5所述的信息处理装置,其中,
所述多个文件中的共同元素的出现频率越低,所述分配单元分配给所述共同元素的优先级就越高,并且
所述选择单元将所述独特元素和根据由所述分配单元分配的优先级选择出的共同元素确定为表示所述文件的特性的元素。
7.根据权利要求5或6所述的信息处理装置,还具备:
确定单元,所述确定单元通过将从所述文件读取的元素与经所述选择单元确定的元素进行比较来确定所述文件的类型;以及
权重分配单元,所述权重分配单元分配权重以使得元素的由所述分配单元分配的优先级越高,所述权重分配单元分配给所述元素的用于由所述确定单元执行的确定的权重就越大。
8.一种信息处理方法,其特征在于,包括如下步骤:
针对多个文件获取用于表示所述多个文件中的每一个的特性的元素的候选项;
从在所述获取的过程中获取的所述候选项中提取为所述多个文件中的两个或更多个所共有的共同元素;
从所述多个文件中提取包含所述共同元素之中的两个或更多个共同元素的文件;并且
将所述提取文件中所包含的所述两个或更多个共同元素确定为表示所述文件的特性的元素,
针对所述多个文件中的每一个获取通过读取所述文件而生成的第一图像中所包含的第一组元素;
通过将彼此不同的噪声添加到所述第一图像来生成多个第二图像;
获取所述多个第二图像的每一个中所包含的第二组元素;以及
根据所述第一组元素中所包含的元素与所述第二组元素中所包含的元素之间的相似程度来从所述第一组元素中提取用于表示所述文件的特性的元素的候选项,
获取所述用于表示所述文件的特性的元素的候选项。
9.一种信息处理方法,其特征在于,包括如下步骤:
针对多个文件获取用于表示所述多个文件中的每一个的特性的元素的候选项;
从所述候选项中提取不为所述多个文件中的两个或更多个所共有的独特元素和为所述多个文件中的两个或更多个所共有的共同元素;
针对所述多个文件中的每一个给所述文件中所包含的所述独特元素之中的独特元素和所述共同元素之中的共同元素分配优先级;并且
针对所述多个文件中的每一个根据在分配过程中分配的优先级将所述独特元素和所述共同元素中的至少一个确定为表示所述文件的特性的元素,
给所述独特元素比给所述共同元素分配更高的优先级,并且
仅将所述独特元素确定为表示所述文件的特性的元素。
CN201610404427.7A 2015-09-30 2016-06-08 信息处理装置和信息处理方法 Active CN106557734B (zh)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2015-192960 2015-09-30
JP2015192960A JP6578858B2 (ja) 2015-09-30 2015-09-30 情報処理装置及びプログラム
JP2015-208927 2015-10-23
JP2015208927A JP6693082B2 (ja) 2015-10-23 2015-10-23 情報処理装置及びプログラム

Publications (2)

Publication Number Publication Date
CN106557734A CN106557734A (zh) 2017-04-05
CN106557734B true CN106557734B (zh) 2020-01-17

Family

ID=58409605

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610404427.7A Active CN106557734B (zh) 2015-09-30 2016-06-08 信息处理装置和信息处理方法

Country Status (2)

Country Link
US (1) US10049269B2 (zh)
CN (1) CN106557734B (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10049269B2 (en) * 2015-09-30 2018-08-14 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and non-transitory computer readable medium
US11372945B2 (en) * 2017-09-22 2022-06-28 International Business Machines Corporation Restructuring pages having similar content
JP7259468B2 (ja) * 2019-03-25 2023-04-18 富士フイルムビジネスイノベーション株式会社 情報処理装置及びプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149800A (zh) * 2006-09-15 2008-03-26 株式会社理光 文件显示装置和文件显示程序
CN102253712A (zh) * 2010-06-02 2011-11-23 微软公司 用于共享信息的识别系统
CN104484451A (zh) * 2014-12-25 2015-04-01 北京国双科技有限公司 网页页面信息的提取方法和装置

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003109007A (ja) 2001-09-28 2003-04-11 Fuji Xerox Co Ltd 帳票様式分類装置、帳票様式分類方法、帳票様式分類プログラムおよび画像照合装置
JP2003115028A (ja) 2001-10-03 2003-04-18 Hitachi Ltd 帳票識別辞書自動生成方法及び帳票処理システム
JP4998219B2 (ja) * 2007-11-09 2012-08-15 富士通株式会社 帳票認識プログラム、帳票認識装置および帳票認識方法
JP5458880B2 (ja) * 2009-03-02 2014-04-02 富士通株式会社 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法
JP5962277B2 (ja) * 2012-07-12 2016-08-03 富士ゼロックス株式会社 文書関連付け装置及びプログラム
US9582483B2 (en) * 2012-07-13 2017-02-28 Xerox Corporation Automatically tagging variable data documents
US10049269B2 (en) * 2015-09-30 2018-08-14 Fuji Xerox Co., Ltd. Information processing apparatus, information processing method, and non-transitory computer readable medium

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101149800A (zh) * 2006-09-15 2008-03-26 株式会社理光 文件显示装置和文件显示程序
CN102253712A (zh) * 2010-06-02 2011-11-23 微软公司 用于共享信息的识别系统
CN104484451A (zh) * 2014-12-25 2015-04-01 北京国双科技有限公司 网页页面信息的提取方法和装置

Also Published As

Publication number Publication date
CN106557734A (zh) 2017-04-05
US20170091546A1 (en) 2017-03-30
US10049269B2 (en) 2018-08-14

Similar Documents

Publication Publication Date Title
US8732570B2 (en) Non-symbolic data system for the automated completion of forms
CN109543501B (zh) 图像处理装置、图像处理方法和存储介质
US8144921B2 (en) Information retrieval using invisible junctions and geometric constraints
US8086038B2 (en) Invisible junction features for patch recognition
JP2011130439A (ja) 画像比較および文書認証のための画像位置合わせの方法
CN106557734B (zh) 信息处理装置和信息处理方法
CN106649420B (zh) 图像处理设备和图像处理方法
US11321558B2 (en) Information processing apparatus and non-transitory computer readable medium
KR20170101125A (ko) 정보 처리장치, 정보 처리방법, 및 기억매체
RU2656573C2 (ru) Методы обнаружения введенных пользователем контрольных меток
JP2007081458A (ja) 画像処理装置および画像処理装置の制御方法
JP6578858B2 (ja) 情報処理装置及びプログラム
US7546528B2 (en) Stamp sheets
US10643097B2 (en) Image processing apparatuses and non-transitory computer readable medium
EP1202213B1 (en) Document format identification apparatus and method
US20150261735A1 (en) Document processing system, document processing apparatus, and document processing method
US8749854B2 (en) Image processing apparatus, method for performing image processing and computer readable medium
US11438477B2 (en) Information processing device, information processing system and computer readable medium
JP6693082B2 (ja) 情報処理装置及びプログラム
US9483694B2 (en) Image text search and retrieval system
CN111444751B (zh) 信息处理装置、储存介质及信息处理方法
JP5476884B2 (ja) 画像処理装置及び画像処理プログラム
JP6682827B2 (ja) 情報処理装置及び情報処理プログラム
US11722615B2 (en) Image processing including adjusting image orientation
WO2023062799A1 (ja) 情報処理システム、原稿種識別方法、モデル生成方法及びプログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant
CP01 Change in the name or title of a patent holder

Address after: Tokyo, Japan

Patentee after: Fuji film business innovation Co.,Ltd.

Address before: Tokyo, Japan

Patentee before: Fuji Xerox Co.,Ltd.

CP01 Change in the name or title of a patent holder