CN101520788A - 图像文件分类方法、图像文件分类设备和计算机程序产品 - Google Patents
图像文件分类方法、图像文件分类设备和计算机程序产品 Download PDFInfo
- Publication number
- CN101520788A CN101520788A CN200810149957A CN200810149957A CN101520788A CN 101520788 A CN101520788 A CN 101520788A CN 200810149957 A CN200810149957 A CN 200810149957A CN 200810149957 A CN200810149957 A CN 200810149957A CN 101520788 A CN101520788 A CN 101520788A
- Authority
- CN
- China
- Prior art keywords
- image file
- sorting
- key word
- unit
- class condition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Images
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F16/00—Information retrieval; Database structures therefor; File system structures therefor
- G06F16/50—Information retrieval; Database structures therefor; File system structures therefor of still image data
- G06F16/58—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
- G06F16/583—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
- G06F16/5846—Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using extracted text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
- G06V30/14—Image acquisition
- G06V30/1444—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields
- G06V30/1448—Selective acquisition, locating or processing of specific regions, e.g. highlighted text, fiducial marks or predetermined fields based on markings or identifiers characterising the document or the area
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06V—IMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
- G06V30/00—Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
- G06V30/10—Character recognition
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- General Physics & Mathematics (AREA)
- Library & Information Science (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Multimedia (AREA)
- Data Mining & Analysis (AREA)
- Databases & Information Systems (AREA)
- General Engineering & Computer Science (AREA)
- Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
- Processing Or Creating Images (AREA)
Abstract
本发明涉及图像文件分类方法、图像文件分类设备和计算机程序产品。图像文件分类方法由图像文件分类设备执行,该图像文件分类设备包括存储单元、控制单元和图像读取单元,其中存储单元包括分类条件存储单元,用于存储指定图像文件的分类目的地的分类条件。所述方法包括:分类关键字提取步骤,从图像读取单元读取的图像文件的标记部分提取分类关键字;分类目的地决定步骤,通过比较由分类关键字提取步骤提取的分类关键字和存储在分类条件存储单元中的分类条件,来决定图像文件的分类目的地;以及图像文件分类步骤,用于将图像文件分类到由分类目的地决定步骤决定的分类目的地中。
Description
技术领域
[0001]本发明涉及一种图像文件分类方法、图像文件分类设备和计算机程序产品。
背景技术
[0002]传统上,有一种方法,输入由扫描仪等读取的图像数据的关键字以进行关联,从而增进在搜索等时候的便利性。
[0003]例如,有这样的方法,(1)用户手动输入关键字,以及(2)将用鼠标指定的图像范围内识别的字符串设为关键字。
[0004]在JP-A-11-238072公开的技术中,从全文本识别的文档中通过编索引提取关键字。
[0005]然而,在传统的关键字输入方法(1)和(2)中,存在一个问题,在保存图像文件时用户必须手动指定关键字和关键字提取范围。
[0006]在JP-A-11-238072公开的传统技术中,尽管有可能自动提取关键字,但是有时候不能正确提取关键字,所以存在准确性低的问题。
发明内容
[0007]本发明的目的是至少部分地解决传统技术中的问题。
[0008]根据本发明的一种图像文件分类方法由图像文件分类设备执行,所述图像文件分类设备包括存储单元、控制单元和图像读取单元,其中所述存储单元包括分类条件存储单元,用于存储指定图像文件的分类目的地的分类条件。所述方法包括:分类关键字提取步骤,从图像读取单元读取的图像文件的标记部分提取分类关键字;分类目的地决定步骤,通过比较由分类关键字提取步骤提取的分类关键字和存储在分类条件存储单元中的分类条件,来决定图像文件的分类目的地;以及图像文件分类步骤,将图像文件分类到由分类目的地决定步骤决定的分类目的地中。
[0009]根据本发明的另一方面的图像文件分类设备包括存储单元、控制单元和图像读取单元,其中所述存储单元包括分类条件存储单元,用于存储指定图像文件的分类目的地的分类条件。所述控制单元包括:分类关键字提取单元,从图像读取单元读取的图像文件的标记部分提取分类关键字;分类目的地决定单元,通过比较由分类关键字提取单元提取的分类关键字和存储在分类条件存储单元中的分类条件,来决定图像文件的分类目的地;以及图像文件分类单元,将图像文件分类到由分类目的地决定单元决定的分类目的地中。
[0010]根据本发明的另一方面的计算机程序产品包括计算机可读介质,所述计算机可读介质包括由图像文件分类设备执行图像文件分类方法的编程指令。所述图像文件分类设备包括存储单元、控制单元和图像读取单元,其中所述存储单元包括分类条件存储单元,用于存储指定图像文件的分类目的地的分类条件。所述指令当由计算机执行时使计算机执行:分类关键字提取步骤,从图像读取单元读取的图像文件的标记部分提取分类关键字;分类目的地决定步骤,通过比较由分类关键字提取步骤提取的分类关键字和存储在分类条件存储器单元中的分类条件,来决定图像文件的分类目的地;以及图像文件分类步骤,将图像文件分类到由分类目的地决定步骤决定的分类目的地中。
[0011]结合附图,阅读下面对本发明的现有优选实施例的详细描述,将更好地理解本发明上面的和其它的目的、特征、优点以及在技术和工业上的意义。
附图说明
图1是示出本发明基本原理的流程图;
图2是示出应用本发明的图像文件分类设备的配置的一个例子的框图;
图3是示出根据本发明的实施例的分类条件表的一个例子的示意图;
图4A和4B是示出根据该实施例的分类条件生成的一个例子的示意图;
图5是示出根据该实施例的图像文件分类设备的处理的一个例子的流程图。
具体实施方式
[0013]下面参考附图详细描述图像文件分类方法、用于该方法的图像文件分类设备和根据本发明的设备的一个实施例。本实施例仅仅是示例性的,不打算以任何方式限制本发明。
发明概述
[0014]下面首先概述本发明,然后详细解释本发明的配置和处理。图1是示出本发明基本原理的流程图。
[0015]一般而言,本发明具有下面的基本特征。也就是说,本发明设有存储单元、控制单元和图像读取单元,存储单元存储指定图像文件的分类目的地的分类条件(步骤SA-1)。“分类条件”指定图像文件的分类目的地,将属性信息、字符、颜色、形状、坐标或划线类型与分类目的地关联起来,以将它们存储为分类条件。在图1中,设置分类条件,例如,当分类关键字是“发票”时,分类到“文件夹A”;当分类关键字是“收据”时,分类到“文件夹B”;当分类关键字是“收据”并且标记的颜色是“红色”时,分类到“文件夹C”。
[0016]本发明可以基于分类的图像文件的属性信息生成分类条件,并将其存储在存储单元中。“属性信息”是描述用于指示文件的特性、特征、属性、条件等的格式项的信息,例如,包括标题、关键字、扩展名、存储空间、预期目标、颜色、尺寸、类型(例如图像、照片、音乐、运动图像)、更新日期、访问权、日期和时间(例如更新的日期和时间,创建的日期和时间)、属性、所有者以及文件的作者,但是并不限于这些。
[0017]本发明通过图像读取单元(例如扫描仪)读取图像文件(例如文档文件)(步骤SA-2),并且从读取的图像文件的标记部分(参见图1的M1-M3)提取分类关键字。“标记部分”是用户用标记在图像文件上指定的区域,例如,如图1所示的,用半透明颜色(例如荧光粉色、荧光绿色、荧光黄色、荧光蓝色)的标记指定(例如,通过标记出字符、圈出字符、在字符下划线)的区域。
[0018]在步骤SA-3的分类关键字提取步骤中,本发明可以识别标记部分中的字符并将该字符设置为分类关键字(步骤SA-3),或者可以识别标记部分的颜色并将该颜色设置为分类关键字(步骤SA-4)。尽管图1中没有示出,但是也可以识别标记部分的形状并将该形状设置为分类关键字,可以识别标记部分在图像文件上的坐标并将该坐标设置为分类关键字,可以识别在标记部分中画出的划线类型并将该划线类型设置为分类关键字。本发明可以将在分类关键字提取步骤中提取的分类关键字与图像文件关联起来,以将其存储在存储单元中。
[0019]本发明通过比较所提取的分类关键字和存储在存储单元中的分类条件,决定图像文件的分类目的地(步骤SA-5)。
[0020]本发明将图像文件分类到决定的分类目的地中(例如图1中的文件夹A、文件夹B、文件夹C)(步骤SA-6)。
图像文件分类设备的配置
[0021]下面首先描述图像文件分类设备100的配置。图2仅抽象地示出与本发明有关的部分。
[0022]在图2中,总体上,所提供的图像文件分类设备100包括:诸如CPU的控制单元102,用于整体上控制整个图像文件分类设备100;输入/输出控制接口单元108,其连接到输入单元(未示出)、输出单元(未示出)和图像读取单元116;以及存储单元106,用于存储各种数据库和表,这些单元通过任选的通信通道可通信地连接。
[0023]存储在存储单元106中的各种数据库和表(分类条件表106a和图像文件数据库106b)是诸如固定盘驱动器的存储单元,用于存储在各种处理中使用的各种程序、表、图像文件、数据库、文件夹等。
[0024]在存储单元106的各组成部分中,分类条件表106a存储指定图像文件的分类目的地的分类条件。“分类条件”是指定图像文件的分类目的地的分类条件,可以将属性信息、字符、颜色、形状、坐标或划线类型和分类目的地关联起来,并将其存储为分类条件。
[0025]如图3所示,例如,在分类条件表106a中指定“编号”、“优先级”、“级别”、“条件”、“值”、“颜色”、“耦合条件”、“属性”以及“分类目的地”。“编号”指定一个唯一的数字。“优先级”指定条件的应用优先级。“级别”指定条件的有效级别,在图3的一个编号为4的例子中,这是{定货单[蓝色]AND(xx贸易公司[绿色]OR yy贸易公司[绿色])}。“条件”和“值”指定标记部分的识别条件和条件值,例如,字符=识别的字符串,形状=标记的形状(例如圆、三角形、正方形、星形),坐标=标记部分的坐标,划线=划线类型(例如实线和虚线)。“耦合条件”是组合多个条件、值和颜色的条件,例如,可以选择AND和OR。“属性”指定标记识别的字符串被设置成所扫描的图像文件的哪个属性信息,例如,可以选择标题、作者、子标题、关键字。“分类目的地”指定分类目的地的文件夹名称。
[0026]再参考图2,图像文件数据库106b存储通过耦合单元102j与分类关键字关联的图像文件,耦合单元102j将在后面解释,并且存储由图像文件分类单元102c分类的图像文件,图像文件分类单元102c将在后面解释。
[0027]在图2中,输入/输出控制接口单元108控制输入单元、输出单元和图像读取单元116。图像读取单元116例如为扫描仪,能够从文档中读取图像数据。监视器(包括家用电视机)可以用作输出单元(此后,输出单元有时被称为监视器)。键盘、鼠标、麦克风等可以用作输入单元。
[0028]在图2中,控制单元102包括用于存储诸如操作系统(OS)的控制程序、定义各种过程的程序以及必要数据的内部存储器,并且使用这样的程序执行各种处理来进行信息处理。控制单元102在功能方面理论上设有分类关键字提取单元102a、分类目的地决定单元102b、图像文件分类单元102c、分类条件生成单元102d以及耦合单元102j。
[0029]分类关键字提取单元102a从图像读取单元116读取的图像文件的标记部分中提取分类关键字。“标记部分”是用户用标记在图像文件中指定的区域。
[0030]分类关键字提取单元102a可以设有字符识别单元102e、颜色识别单元102f、形状识别单元102g、坐标识别单元102h以及划线识别单元102i。字符识别单元102e识别标记部分的字符并将字符设置为分类关键字。颜色识别单元102f识别标记部分的颜色并将颜色设置为分类关键字。形状识别单元102g识别标记部分的形状并将形状设置为分类关键字。坐标识别单元102h识别标记部分在图像文件上的坐标并将坐标设置为分类关键字,划线识别单元102i识别在标记部分中画出的划线的类型并将划线类型设置为分类关键字。
[0031]分类目的地决定单元102b通过比较由分类关键字提取单元102a提取的分类关键字和存储在存储单元106的分类条件表106a中的分类条件,决定图像文件在图像文件数据库106b中的分类目的地。
[0032]图像文件分类单元102c将图像文件分类到由分类目的地决定单元102b决定的、在存储单元106的图像文件数据库106b中的分类目的地。
[0033]分类条件生成单元102d基于由图像文件分类单元102c分类的图像文件的属性信息生成分类条件,以将其存储在存储单元106的分类条件表106a中。
[0034]参考图4A和4B解释分类条件生成单元102d的分类条件自动生成功能。图4A是示出当分类的图像文件在文件夹A中并且图像文件的属性信息的标题被设置为“发票”时,由分类条件生成单元102d自动生成的分类条件表的数据的一个例子的示意图。例如,在图4A中,由于被分类到文件夹A中的图像文件的属性信息的标题字段被设置为“发票”,所以分类条件生成单元102d将分类条件表的属性设为标题并且将值设为发票。图4B是示出当分类的图像文件在文件夹D中并且图像文件的属性信息的关键字被设置为“定货单”和“xx贸易公司”时,由分类条件生成单元102d自动生成的分类条件表的数据的一个例子的示意图。例如,在图4B中,由于被分类到文件夹D中的图像文件的属性信息的关键字字段被设置为“定货单”和“xx贸易公司”,所以分类条件生成单元102d将分类条件表的属性设为关键字并且将值设为定货单和xx贸易公司。在图4A和4B中,由分类条件生成单元102d自动生成的项是“编号、优先级、级别、条件、值、耦合条件、属性和分类目的地”,用户根据需要加入或改变的项是“优先级和颜色”。
[0035]耦合单元102j将由分类关键字提取单元102a提取的分类关键字与图像文件关联起来,以将其存储在图像文件数据库106b中。
[0036]再参考图2,图像文件分类设备100可以通过通信控制接口单元(未示出)可通信地连接到网络(未示出),所述通信控制接口单元连接到诸如路由器的通信设备和诸如专用线的有线或无线通信线。也就是说,通信控制接口单元(未示出)可以具有通过通信线与另外的终端之间传输数据的功能。网络具有连接图像文件分类设备100和外部设备(未示出)的功能,其可以是因特网、电话网(包括移动电话网、固定线电话网等)和内部网。
图像文件分类的处理
[0037]下面具体描述根据如图5配置的实施例的图像文件分类设备100的处理的一个例子。
[0038]首先,控制单元102控制图像读取单元116,使图像读取单元116从文档读取图像文件(步骤SB-1)。
[0039]接着,分类关键字提取单元102a通过控制单元102的处理控制图像读取单元116,以从读取自文档的图像文件的标记部分中提取分类关键字(步骤SB-2到SB-8)。随后,将解释步骤SB-2到SB-8的每个步骤的处理。
[0040]颜色识别单元102f识别标记部分的颜色(步骤SB-2),并且基于颜色识别单元102f是否已经识别出标记部分的颜色来判断是否存在标记部分(步骤SB-3)。当判断出存在标记部分时(步骤SB-3:是),颜色识别单元102f前进到步骤SB-4的处理。另一方面,当判断出不存在标记部分时(步骤SB-3:否),处理结束。分类关键字提取单元102a可以将通过颜色识别单元102f的处理识别的颜色设置为分类关键字。
[0041]坐标识别单元102h识别标记部分在图像文件上的坐标(步骤SB-4)。分类关键字提取单元102a可以将通过坐标识别单元102h的处理识别的坐标设置为分类关键字。
[0042]控制单元102检测标记区域并辨别在图像文件中画出标记的范围(步骤SB-5)。在检测到的标记区域内进行后面解释的字符和划线的识别处理。
[0043]形状识别单元102g识别标记部分的形状(步骤SB-6)。分类关键字提取单元102a可以将通过形状识别单元102g的处理识别的形状设置为分类关键字。
[0044]字符识别单元102e识别标记部分的字符(步骤SB-7)。分类关键字提取单元102a可以将通过字符识别单元102e的处理识别的字符设置为分类关键字。
[0045]划线识别单元102i识别在标记部分中画出的划线的类型(步骤SB-8)。分类关键字提取单元102a可以将通过划线识别单元102i的处理识别的划线类型设置为分类关键字。
[0045]耦合单元102j将由分类关键字提取单元102a提取的分类关键字与图像文件关联起来,并将其存储在图像文件数据库106b中(步骤SB-9)。
[0047]分类目的地决定单元102b通过比较利用分类关键字提取单元102a(包括字符识别单元102e一直到划线识别单元102i)的处理所提取的分类关键字和存储在存储单元106的分类条件表106a中的分类条件(步骤SB-10到SB-13),决定图像文件的分类目的地。随后,将解释步骤SB-10到SB-13的每个步骤的处理。分类条件可以由分类条件生成单元102d基于通过图像文件分类单元102c的处理所分类的图像文件的属性信息来生成。
[0048]分类目的地决定单元102b基于在步骤SB-10中分类关键字和存储在分类条件表106a中的分类条件的比较结果,判断是否存在匹配条件(步骤SB-11),当存在匹配条件时(步骤SB-10:是),前进到下一个处理,当不存在匹配条件时(步骤SB-10:否),结束处理。
[0049]当存在匹配条件时(步骤SB-11:是),分类目的地决定单元102b判断是否在图像文件的属性信息设置中指定了项目(步骤SB-12),当在属性信息中存在指定时(步骤SB-12:是),直接前进到步骤SB-13中的处理,当在属性信息中不存在指定时(步骤SB-12:否),前进到步骤SB-14的处理。
[0050]当在属性信息中存在指定时(步骤SB-12:是),分类目的地决定单元102b更新在图像文件的属性信息中指定的项,以保持与存储在分类条件表106a中的分类条件项的一致(步骤SB-13)。
[0051]图像文件分类单元102c将图像文件分类到由分类目的地决定单元102b决定的分类目的地(步骤SB-14)。
其它实施例
10052]尽管为了完整的和清楚的公开,已经参照具体实施例描述本发明,但是所附权利要求不限于所述具体实施例,而是解释为包括落在此处提出的基本教导内的、本领域的技术人员可以实现的所有修改和替换结构。
[0053]例如,在实施例中,图像文件分类设备100作为单独的设备执行各种处理。然而,图像文件分类设备100可以被配置为响应于客户端的请求而执行处理,所述客户端为独立的单元,并且将处理结果返回给客户端。
[0054]本实施例中解释的所有自动处理可以全部地或者部分地手动完成。类似地,本实施例中解释的所有手动处理可以通过已知的方法全部地或者部分地自动完成。
[0055]在说明书和附图中提及的处理过程、控制过程、具体名称、包括每项处理的注册数据以及诸如搜索条件等各种参数的信息、显示例子和数据库结构,除另有指定外,可以根据需要改变。
[0056]图像文件分类设备100的组成元件仅是原理性的,可以不必实体地类似于附图示出的结构。例如,装置不一定具有图示的结构。
[0057]例如,由图像文件分类装置100的每个设备执行的处理功能,尤其是控制单元102执行的每项处理功能,可以全部地或者部分地通过中央处理器(CPU)及由CPU执行的计算机程序来实现或者通过使用布线逻辑的硬件来实现。记录在后面描述的记录介质中的计算机程序可以视需要被图像文件分类装置100机械地读取。换句话说,诸如只读存储器(ROM)或硬盘(HD)的存储单元106存储可与操作系统(OS)协同工作,向CPU发出命令并使CPU进行各种处理的计算机程序。计算机程序首先加载到随机访问存储器(RAM),并与CPU一同形成控制单元。
[0058]可选地,计算机程序可被存储在经由网络连接到图像文件分类装置100的任何应用程序服务器中,并且可以视需要被完全地或者部分地加载。
[0059]可以存储计算机程序的计算机可读记录介质可以是便携型的,例如软盘、磁光盘(MO)、ROM、可擦可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)、只读盘存储器(CD-ROM)、数字多功能盘(DVD)等,或者可以是短期存储计算机程序的通信介质,例如可以通过网络传输计算机程序的通信通道或载波,所述网络例如是局域网(LAN)、广域网(WAN)和因特网。
[0060]计算机程序是指以任何计算机语言和编写方法编写的数据处理方法,并且可以具有任何格式的软件代码和二进制代码。计算机程序可以是多个模块或库形式的分散形式,或者可以与诸如OS的不同程序协同执行各种功能。在根据本实施例的每个设备中的任何已知配置都可以用于读记录介质。类似地,可以使用任何已知的用于读或者安装计算机程序的处理过程。
[0061]存储单元106是诸如RAM、ROM和硬盘的固定盘或软盘、光盘,并且其中存储各种程序、表、数据库(例如分类条件表106a和图像文件数据库106b)和各种处理需要的文件。
[0062]图像文件分类设备100也可以连接到任何现有的个人计算机、工作站等,并且可以通过在个人计算机或工作站上执行实施根据本发明的方法的软件(包括计算机程序、数据等)进行操作。
[0063]设备的分布和集成不限于图中示出的例子。设备作为整体或者其中若干部分可以根据各种附件或者所述设备怎样使用,在功能上或者实体上分布或集成在任一单元中。
[0064]根据本发明,由扫描仪等读取的图像文件可以基于写在文档中的内容等自动移到特定的文件夹中,因此有这些效果:减少手动图像文件分类操作,提高关键字提取的准确性,并且可以基于提取的关键字来分类图像文件。
[0065]根据本发明,可以随后基于分类关键字来搜索图像文件。
[0066]根据本发明,可以基于分类的图像文件的条件自动生成分类条件,由此简化分类条件的设置操作。
[0067]根据本发明,可以基于标记部分中的字符来分类图像文件。
[0068]根据本发明,可以基于标记部分的颜色来分类图像文件。
[0069]根据本发明,可以基于标记部分的形状来分类图像文件。
[0070]根据本发明,可以基于标记部分在图像文件上的坐标来分类图像文件。
[0071]根据本发明,可以基于在标记部分中画出的划线的类型来分类图像文件。
[0072]根据本发明,可以通过比较分类关键字和分类条件来决定分类目的地。
[0073]尽管为了完整和清楚的公开,已经参照具体实施例描述本发明,但是所附权利要求不限于所述具体实施例,而是解释为包括落在此处提出的基本教导内的、本领域的技术人员可以实现的所有修改和替换结构。
Claims (19)
1.一种由图像文件分类设备执行的图像文件分类方法,所述图像文件分类设备包括存储单元、控制单元和图像读取单元,其中
所述存储单元包括分类条件存储单元,用于存储指定图像文件的分类目的地的分类条件,
所述方法包括:
分类关键字提取步骤,从所述图像读取单元读取的图像文件的标记部分提取分类关键字;
分类目的地决定步骤,通过比较由分类关键字提取步骤提取的分类关键字和存储在所述分类条件存储单元中的分类条件,来决定所述图像文件的分类目的地;以及
图像文件分类步骤,将所述图像文件分类到由分类目的地决定步骤决定的分类目的地中。
2.根据权利要求1的图像文件分类方法,其中
所述方法还包括耦合步骤,将由分类关键字提取步骤提取的分类关键字与所述图像文件关联起来,以将其存储在所述存储单元中。
3.根据权利要求1的图像文件分类方法,其中
所述方法还包括分类条件生成步骤,基于由图像文件分类步骤分类的图像文件的属性信息生成分类条件,以将该分类条件存储在所述分类条件存储单元中。
4.根据权利要求1的图像文件分类方法,其中
所述分类关键字提取步骤还包括字符识别步骤,用于识别标记部分中的字符并将该字符设置为分类关键字。
5.根据权利要求1的图像文件分类方法,其中
所述分类关键字提取步骤还包括颜色识别步骤,用于识别标记部分的颜色并将该颜色设置为分类关键字。
6.根据权利要求1的图像文件分类方法,其中
所述分类关键字提取步骤还包括形状识别步骤,用于识别标记部分的形状并将该形状设置为分类关键字。
7.根据权利要求1的图像文件分类方法,其中
所述分类关键字提取步骤还包括坐标识别步骤,用于识别标记部分在所述图像文件上的坐标并将该坐标设置为分类关键字。
8.根据权利要求1的图像文件分类方法,其中
所述分类关键字提取步骤还包括划线识别步骤,用于识别在标记部分中画出的划线的类型并将该划线类型设置为分类关键字。
9.根据权利要求3-8之一的图像文件分类方法,其中
所述分类条件存储步骤将属性信息、字符、颜色、形状、坐标或划线类型与分类目的地关联起来,以将其存储为分类条件。
10.一种图像文件分类设备,包括存储单元、控制单元和图像读取单元,其中
所述存储单元包括分类条件存储单元,用于存储指定图像文件的分类目的地的分类条件,以及
所述控制单元包括
分类关键字提取单元,从所述图像读取单元读取的图像文件的标记部分提取分类关键字;
分类目的地决定单元,通过比较由所述分类关键字提取单元提取的分类关键字和存储在所述分类条件存储单元中的分类条件,来决定所述图像文件的分类目的地;以及
图像文件分类单元,将所述图像文件分类到由所述分类目的地决定单元决定的分类目的地中。
11.根据权利要求10的图像文件分类设备,其中
所述控制单元还包括耦合单元,该耦合单元将由所述分类关键字提取单元提取的分类关键字和所述图像文件关联起来,以将其存储在所述存储单元中。
12.根据权利要求10的图像文件分类设备,其中
所述控制单元还包括分类条件生成单元,该分类条件生成单元基于由所述图像文件分类单元分类的图像文件的属性信息生成分类条件,以将该分类条件存储在所述分类条件存储单元中。
13.根据权利要求10的图像文件分类设备,其中
所述分类关键字提取单元还包括字符识别单元,用于识别标记部分中的字符并将该字符设置为分类关键字。
14.根据权利要求10的图像文件分类设备,其中
所述分类关键字提取单元还包括颜色识别单元,用于识别标记部分的颜色并将该颜色设置为分类关键字。
15.根据权利要求10的图像文件分类设备,其中
所述分类关键字提取单元还包括形状识别单元,用于识别标记部分的形状并将该形状设置为分类关键字。
16.根据权利要求10的图像文件分类设备,其中
所述分类关键字提取单元还包括坐标识别单元,用于识别标记部分在所述图像文件上的坐标并将该坐标设置为分类关键字。
17.根据权利要求10的图像文件分类设备,其中
所述分类关键字提取单元还包括划线识别单元,用于识别在标记部分中画出的划线的类型并将该划线类型设置为分类关键字。
18.根据权利要求12-17之一的图像文件分类设备,其中
所述分类条件存储单元将属性信息、字符、颜色、形状、坐标或划线类型与分类目的地关联起来,以将其存储为分类条件。
19.一种具有计算机可读介质的计算机程序产品,该计算机可读介质包括用于由图像文件分类设备执行图像文件分类方法的编程指令,所述图像文件分类设备包括存储单元、控制单元和图像读取单元,其中
所述存储单元包括分类条件存储单元,用于存储指定图像文件的分类目的地的分类条件,并且
所述指令当由计算机执行时使计算机执行:
分类关键字提取步骤,从所述图像读取单元读取的图像文件的标记部分提取分类关键字;
分类目的地决定步骤,通过比较由分类关键字提取步骤提取的分类关键字和存储在所述分类条件存储单元中的分类条件,来决定所述图像文件的分类目的地;以及
图像文件分类步骤,将所述图像文件分类到由分类目的地决定步骤决定的分类目的地中。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2008046803A JP5208540B2 (ja) | 2008-02-27 | 2008-02-27 | 画像ファイル振分方法、画像ファイル振分装置、および、プログラム |
JP2008-046803 | 2008-02-27 | ||
JP2008046803 | 2008-02-27 |
Publications (2)
Publication Number | Publication Date |
---|---|
CN101520788A true CN101520788A (zh) | 2009-09-02 |
CN101520788B CN101520788B (zh) | 2011-09-07 |
Family
ID=40911460
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
CN2008101499577A Active CN101520788B (zh) | 2008-02-27 | 2008-10-17 | 图像文件分类方法、图像文件分类设备和计算机程序产品 |
Country Status (4)
Country | Link |
---|---|
US (1) | US8812521B2 (zh) |
JP (1) | JP5208540B2 (zh) |
CN (1) | CN101520788B (zh) |
DE (1) | DE102008049291A1 (zh) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542061A (zh) * | 2011-12-30 | 2012-07-04 | 互动在线(北京)科技有限公司 | 一种产品的智能分类方法 |
CN105635507A (zh) * | 2014-11-20 | 2016-06-01 | 三星电子株式会社 | 图像扫描装置和用于控制其的方法 |
CN106557505A (zh) * | 2015-09-28 | 2017-04-05 | 北京国双科技有限公司 | 一种信息分类方法及装置 |
CN110175652A (zh) * | 2019-05-29 | 2019-08-27 | 广东小天才科技有限公司 | 一种信息分类方法、装置、设备及存储介质 |
Families Citing this family (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP5880052B2 (ja) * | 2012-01-10 | 2016-03-08 | 富士ゼロックス株式会社 | 文書処理装置及びプログラム |
Family Cites Families (20)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0652236A (ja) * | 1992-07-30 | 1994-02-25 | Nec Corp | 電子ファイリング装置 |
JP2885161B2 (ja) * | 1996-01-10 | 1999-04-19 | 日本電気株式会社 | 電子メール分類装置 |
US6661910B2 (en) * | 1997-04-14 | 2003-12-09 | Cummins-Allison Corp. | Network for transporting and processing images in real time |
US5878410A (en) * | 1996-09-13 | 1999-03-02 | Microsoft Corporation | File system sort order indexes |
US6226402B1 (en) * | 1996-12-20 | 2001-05-01 | Fujitsu Limited | Ruled line extracting apparatus for extracting ruled line from normal document image and method thereof |
JPH11238072A (ja) * | 1998-02-23 | 1999-08-31 | Ricoh Co Ltd | 文書保管装置 |
JP3795238B2 (ja) * | 1998-10-01 | 2006-07-12 | シャープ株式会社 | 文書画像処理装置及び文書画像処理方法 |
US7318198B2 (en) * | 2002-04-30 | 2008-01-08 | Ricoh Company, Ltd. | Apparatus operation device for operating an apparatus without using eyesight |
JP2004078343A (ja) * | 2002-08-12 | 2004-03-11 | Konica Minolta Holdings Inc | 文書管理システム |
JP4078201B2 (ja) * | 2002-12-26 | 2008-04-23 | キヤノン株式会社 | 配信システム及びその制御方法、プログラム |
JP2004361987A (ja) * | 2003-05-30 | 2004-12-24 | Seiko Epson Corp | 画像検索システム、画像分類システム、画像検索プログラム及び画像分類プログラム、並びに画像検索方法及び画像分類方法 |
CN1310182C (zh) * | 2003-11-28 | 2007-04-11 | 佳能株式会社 | 用于增强文档图像和字符识别的方法和装置 |
EP1550942A1 (en) * | 2004-01-05 | 2005-07-06 | Thomson Licensing S.A. | User interface for a device for playback of audio files |
JP5025893B2 (ja) * | 2004-03-29 | 2012-09-12 | ソニー株式会社 | 情報処理装置および方法、記録媒体、並びにプログラム |
US20050234896A1 (en) * | 2004-04-16 | 2005-10-20 | Nobuyuki Shima | Image retrieving apparatus, image retrieving method and image retrieving program |
JP2007148544A (ja) * | 2005-11-24 | 2007-06-14 | Murata Mach Ltd | 文書管理装置 |
JP2007219682A (ja) * | 2006-02-15 | 2007-08-30 | Fuji Xerox Co Ltd | 情報処理装置、および情報処理方法、並びにコンピュータ・プログラム |
JP4835459B2 (ja) * | 2007-02-16 | 2011-12-14 | 富士通株式会社 | 表認識プログラム、表認識方法および表認識装置 |
US8285047B2 (en) * | 2007-10-03 | 2012-10-09 | Xerox Corporation | Automated method and system for naming documents from a scanned source based on manually marked text |
US20090182739A1 (en) * | 2008-01-10 | 2009-07-16 | Microsoft Corporation | Using metadata to route documents |
-
2008
- 2008-02-27 JP JP2008046803A patent/JP5208540B2/ja active Active
- 2008-09-26 US US12/239,463 patent/US8812521B2/en active Active
- 2008-09-26 DE DE102008049291A patent/DE102008049291A1/de not_active Ceased
- 2008-10-17 CN CN2008101499577A patent/CN101520788B/zh active Active
Cited By (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN102542061A (zh) * | 2011-12-30 | 2012-07-04 | 互动在线(北京)科技有限公司 | 一种产品的智能分类方法 |
CN102542061B (zh) * | 2011-12-30 | 2014-03-26 | 互动在线(北京)科技有限公司 | 一种产品的智能分类方法 |
CN105635507A (zh) * | 2014-11-20 | 2016-06-01 | 三星电子株式会社 | 图像扫描装置和用于控制其的方法 |
CN106557505A (zh) * | 2015-09-28 | 2017-04-05 | 北京国双科技有限公司 | 一种信息分类方法及装置 |
CN106557505B (zh) * | 2015-09-28 | 2021-04-27 | 北京国双科技有限公司 | 一种信息分类方法及装置 |
CN110175652A (zh) * | 2019-05-29 | 2019-08-27 | 广东小天才科技有限公司 | 一种信息分类方法、装置、设备及存储介质 |
Also Published As
Publication number | Publication date |
---|---|
US8812521B2 (en) | 2014-08-19 |
US20090216721A1 (en) | 2009-08-27 |
CN101520788B (zh) | 2011-09-07 |
JP5208540B2 (ja) | 2013-06-12 |
DE102008049291A1 (de) | 2009-09-03 |
JP2009205420A (ja) | 2009-09-10 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
CN1139884C (zh) | 信息处理方法和装置 | |
US20160055376A1 (en) | Method and system for identification and extraction of data from structured documents | |
JP4388545B2 (ja) | 画像処理装置及び方法、並びにプログラム | |
US20070168382A1 (en) | Document analysis system for integration of paper records into a searchable electronic database | |
JP2005018678A (ja) | 帳票データ入力処理装置、帳票データ入力処理方法及びプログラム | |
CN101520788B (zh) | 图像文件分类方法、图像文件分类设备和计算机程序产品 | |
JP2006120125A (ja) | ドキュメント画像情報管理装置及びドキュメント画像情報管理プログラム | |
US10740638B1 (en) | Data element profiles and overrides for dynamic optical character recognition based data extraction | |
CN102982167A (zh) | 图像处理器和图像处理方法 | |
JP2016024488A (ja) | 画像処理装置および画像処理装置の制御方法 | |
JP4983464B2 (ja) | 帳票画像処理装置及び帳票画像処理プログラム | |
JP2016018454A (ja) | 画像処理装置および画像処理装置の制御方法 | |
JP2008021025A (ja) | 図面管理システム及び図面管理方法 | |
JP2014006758A (ja) | 保存文書出庫管理システム及び保存文書出庫管理方法 | |
JP2016167712A (ja) | 情報処理装置、プログラム及び制御方法 | |
JP2002024761A (ja) | 画像処理装置及び画像処理方法並びに記憶媒体 | |
JP2006190060A (ja) | データベース検索方法、データベース検索プログラムおよび原稿処理機 | |
CN112149679A (zh) | 一种基于ocr文字识别提取公文要素的方法及装置 | |
JP2003316802A (ja) | イメージ管理システム、イメージ管理方法及びイメージ管理プログラム | |
KR102632771B1 (ko) | 카탈로그 이미지의 데이터 추출 시스템 및 카탈로그 이미지의 데이터 추출 방법 | |
JP7377565B2 (ja) | 図面検索装置、図面データベース構築装置、図面検索システム、図面検索方法、及びプログラム | |
CN113283226B (zh) | 一种在线文档模板的编辑方法、装置、设备及介质 | |
JP7501255B2 (ja) | 文書検索システム、文書検索方法およびプログラム | |
JP4130429B2 (ja) | 文字読取装置 | |
WO2015189941A1 (ja) | 情報処理装置、情報処理方法、および、プログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
C06 | Publication | ||
PB01 | Publication | ||
C10 | Entry into substantive examination | ||
SE01 | Entry into force of request for substantive examination | ||
C14 | Grant of patent or utility model | ||
GR01 | Patent grant |