CN106095765B - 文档分析系统、图像处理装置以及分析服务器 - Google Patents

文档分析系统、图像处理装置以及分析服务器 Download PDF

Info

Publication number
CN106095765B
CN106095765B CN201610269573.3A CN201610269573A CN106095765B CN 106095765 B CN106095765 B CN 106095765B CN 201610269573 A CN201610269573 A CN 201610269573A CN 106095765 B CN106095765 B CN 106095765B
Authority
CN
China
Prior art keywords
text data
analysis
storage location
processing apparatus
image processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201610269573.3A
Other languages
English (en)
Other versions
CN106095765A (zh
Inventor
鸨田宪
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Inc
Original Assignee
Canon Inc
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Canon Inc filed Critical Canon Inc
Publication of CN106095765A publication Critical patent/CN106095765A/zh
Application granted granted Critical
Publication of CN106095765B publication Critical patent/CN106095765B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/1727Details of free space management performed by the file system
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/04Scanning arrangements, i.e. arrangements for the displacement of active reading or reproducing elements relative to the original or reproducing medium, or vice versa
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/14Details of searching files based on file metadata
    • G06F16/148File search processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/10File systems; File servers
    • G06F16/17Details of further file system functions
    • G06F16/172Caching, prefetching or hoarding of files
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/93Document management systems
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/74Image or video pattern matching; Proximity measures in feature spaces
    • G06V10/75Organisation of the matching processes, e.g. simultaneous or sequential comparisons of image or video features; Coarse-fine approaches, e.g. multi-scale approaches; using context analysis; Selection of dictionaries
    • G06V10/758Involving statistics of pixels or of feature values, e.g. histogram matching
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/418Document matching, e.g. of document images
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00204Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server
    • H04N1/00244Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a digital computer or a digital computer system, e.g. an internet server with a server, e.g. an internet server
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00344Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a management, maintenance, service or repair apparatus
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0094Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Multimedia (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computing Systems (AREA)
  • Evolutionary Computation (AREA)
  • General Business, Economics & Management (AREA)
  • Health & Medical Sciences (AREA)
  • Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Software Systems (AREA)
  • Library & Information Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Facsimiles In General (AREA)

Abstract

本发明提供一种文档分析系统、图像处理装置以及分析服务器。图像处理装置被构造为从通过扫描文档而获得的图像数据提取文本数据,并向分析服务器顺次发送所提取的文本数据的分割片段,直到从分析服务器接收到针对图像数据的候选存储位置为止。分析服务器被构造为基于所发送的文本数据的分割片段进行分析,并根据候选存储位置的确定,向图像处理装置返回候选存储位置。

Description

文档分析系统、图像处理装置以及分析服务器
技术领域
本发明涉及将通过扫描而获得的图像数据存储到预定的存储位置中的技术。
背景技术
近年来,在诸如法律事务所等的、处理大量纸质文档的商业领域中,已考虑过如下的系统,该系统利用配备有扫描功能的图像处理装置,将纸质文档转换为电子图像数据,并在与纸质文档的图像数据相关的存储位置中对纸质文档的图像数据进行分类和管理。为了选择用于存储所扫描的纸质文档的图像数据的存储位置,已经采用了如下的方法,在该方法中,用户手动指定存储位置,或者通过利用诸如过去使用的历史存储位置、预先登记的书签等来选择存储位置。
同样,也考虑过如下的方法,该方法包括通过使用从文档数据提取的字符串来搜索关于存储位置的属性信息,并将基于搜索结果识别的存储位置作为候选存储位置呈现给用户(参见日本特开2008-234078号公报)。
在此,图像处理装置可以将通过扫描而获得的纸质文档的文本数据,发送到如日本特开2008-234078号公报中所描述的信息处理装置,并且该信息处理装置可以向发送者通知候选存储位置。然而,在该方法中,上述处理可能会花费时间。例如,在所扫描的纸质文档有很多页的情况下,信息处理装置可能只能在等待所有文本数据被接收之后才进行搜索处理,或者可能需要时间来进行基于大量文本数据的搜索处理。因此,存在如下的问题,即,在向用户呈现合适的存储位置之前需要花费时间。
发明内容
根据本发明的文档分析系统是包括图像处理装置和分析服务器的文档分析系统,其中,所述图像处理装置包括:提取单元,其被构造为从通过扫描文档而获得的图像数据提取文本数据;第一发送单元,其被构造为向所述分析服务器顺次发送文本数据的分割片段,直到从所述分析服务器接收到针对所述图像数据的候选存储位置为止;选择单元,其被构造为呈现从所述分析服务器接收到的所述候选存储位置,并提示用户选择存储位置;以及第二发送单元,其被构造为向由用户选择的所述存储位置发送所述图像数据,并且,其中,所述分析服务器包括:分析单元,其被构造为通过对从所述第一发送单元顺次发送的文本数据的分割片段顺次进行分析,来获得候选存储位置;以及返回单元,其被构造为在所述分析单元获得了候选存储位置时,向所述图像处理装置返回候选存储位置。
根据以下(参照附图)对示例性实施例的描述,本发明的其他特征将变得清楚。
附图说明
图1是示出根据实施例的系统的构造示例的图。
图2是示出实施例中的图像处理装置的硬件构造的框图。
图3是示出实施例中的分析服务器和文件服务器中的各个的硬件构造的图。
图4是用于描述实施例中的分析服务器的软件构造的图。
图5是用于描述实施例中的向图像处理装置提供的应用的软件构造的图。
图6是实施例中的图像处理装置的操作显示单元的示例。
图7是实施例中的图像处理装置的操作显示单元的示例。
图8是示出图8A和图8B之间的关系的图。
图8A和图8B是实施例中的处理的整体序列图。
图9是用于提示用户从候选存储位置中选择合适的存储位置信息的窗口的示例。
图10是示出图10A和图10B之间的关系的图。
图10A和图10B是实施例中的文本分析处理的整体流程图。
图11示出图11A和图11B之间的关系的图。
图11A和图11B是示出在要发送的数据基于文本大小被改变的另一实施例中的处理的整体流程图。
具体实施方式
下面将参照附图详细描述本发明的实施例。请注意,在下面的实施例中要示出的构造仅仅是示例,本发明不限于所示的构造。
[实施例1]
图1是示出本实施例中的文档分析系统的示例的构造示例。该系统包括经由网络100相互连接的图像处理装置101、分析服务器102以及文档服务器103。网络100是用于在该些装置之间进行通信的基础设施,可以是局域网、因特网或者不同的网络系统。
图像处理装置101被构成为例如配备有web浏览器功能等的多功能外围设备(MFP)。同样地,图像处理装置101可以通过本地IP地址来管理。在这种情况下,在网络100和图像处理装置101之间存在网关(未示出),并且网关进行地址转译。网关例如包括路由器等。同样地,网关或图像处理装置101可以配备有防火墙功能。分析服务器102用以获得存储在文件服务器103中的文件,从其中提取关键字,并将其存储在数据库(DB)中。分析服务器102还用以将DB中存储的关键字和从比较对象文本数据中提取的关键字进行比较,并呈现存储有与文本数据相似的文件的候选存储位置。文件服务器103用以保存诸如通过扫描纸质文档而获得的图像数据等的文件。文件服务器103根据来自图像处理装置101或分析服务器102的请求来存储文件,或者获得并发送所存储的文件。
图2是示出图像处理装置101的硬件构造的示例性框图。图像处理装置101包括控制单元218、网络单元216、图像存储器217、HDD 219、操作显示单元212、扫描器单元213、以及打印机单元214。控制单元218包括CPU 220、ROM 221、以及RAM 222。
控制单元218被构造为对图像处理装置101的整体操作进行控制。CPU 220被构造为读出在ROM 221中存储的控制程序,并进行诸如读出控制和发送控制等的各种控制处理。RAM 222被用作针对CPU 220的、诸如主存储器或工作区域的临时存储区域。控制单元218也被构造为对操作显示单元212、扫描器单元213、打印机单元214以及网络单元216的操作进行控制。控制单元218还被构造为从图像存储器217和HDD 219读出各种类型的数据,并将各种类型的数据写到图像存储器217和HDD 219。
在操作显示单元212中,配置有诸如配备了触摸屏功能的液晶显示器、键盘以及其他相关部件等的显示单元。操作显示单元212在操作显示单元212上显示操作窗口。扫描器单元213被构造为通过扫描原稿的图像来生成图像数据,并向控制单元218输出该图像数据。打印机单元214被构造为将从控制单元218输出的图像数据打印到片材上。
网络单元216被构造为向指定位置发送从由扫描器单元213读取的所保存的图像数据中提取的文本数据。网络单元216也被构造为从外部信息处理装置(未示出)接收打印图像数据,并通过将控制单元218连接到网络100来接收要在操作显示单元212上显示的图像数据。
HDD 219被构造为存储图像数据和各种程序。本实施例中的各种程序也存储在HDD219中。请注意,从外部信息处理装置接收到的打印图像数据被临时存储在图像存储器217中,并经由控制单元218通过打印机单元214进行打印。
图3是本实施例中的分析服务器102和文件服务器103中的各个的示例性硬件构造图。分析服务器102和文件服务器103中的各个包括:CPU 301,其被构造为控制服务器;RAM302,为CPU 301提供工作区域;存储单元303,其被构造为存储在服务器上运行的程序及设定;以及网络单元304,其被构造为经由网络100与其他装置进行通信;以及主总线300。
请注意,除非另外注明,对本实施例进行实施,使得CPU 301经由主总线300对RAM302、存储单元303以及网络单元304进行控制。
图4是用于描述本实施例中的分析服务器102的软件构造的图。图4中示出的各功能单元通过由分析服务器102的CPU 301运行的控制程序来实施。
分析服务器102包括通信单元401、分析请求接收处理单元402、分析请求处理单元403、爬行器单元404、爬行器结果处理单元405、关键字提取单元406、以及文件信息DB单元407。
爬行器单元404被构造为经由通信单元401,对文件服务器103中存储的文件(电子数据)以及表示文件的存储位置的信息进行收集。各存储位置例如是存储文件的文件夹等。表示该存储位置的信息是文件夹的名称、关于指向文件夹的路径的信息等。爬行器单元404被构造为对关于要存储在文件服务器103中的新文件或更新的文件的信息进行收集。爬行器单元404不对关于已收集的文件的信息进行收集。爬行器单元404被构造为将收集到的文件及它们的存储位置信息传递到爬行器结果处理单元405。
爬行器结果处理单元405被构造为将从爬行器单元404接收到的文件传递到关键字提取单元406,并接收作为响应的、从文件提取的关键字提取结果。爬行器结果处理单元405被构造为随后将从关键字提取单元406接收到的关键字提取结果、以及相应的存储位置信息保存到文件信息DB单元407中。因此,在文件信息DB单元407中,与存储在它们各自存储位置中的文件相对应的合适关键字,与文件的存储位置信息相关联地被保存。
关键字提取单元406被构造为进行从文本数据或所接收到的文件提取关键字信息的处理。关键字提取单元406也被构造为进行对关键字等出现的数量进行计数的处理。例如,关键字提取单元406从文件的属性信息提取关键字,或对文档文件的文本数据进行分析。然后,关键字提取单元406通过利用诸如出现频率等的统计的指标(statisticalindex),进行对频繁出现在技术术语中的复合名词等作为关键字进行提取的处理。关键字提取单元406也进行分析文本数据、并根据来自稍后将描述的分析请求处理单元403的请求来提取关键字的处理。
分析请求接收处理单元402被构造为经由通信单元401,接收对来自图像处理装置101的文本数据进行分析的请求。该来自图像处理装置101的文本数据是通过字符识别处理(OCR处理)、从由图像处理装置101扫描的图像中提取的文本数据。总之,分析请求接收处理单元402对从由图像处理装置101扫描的图像中、由图像处理装置101通过OCR处理提取的文本数据进行接收。分析请求接收处理单元402也被构造为进行如下的处理,即,向图像处理装置101发送通过由下面将描述的分析请求处理单元403进行的处理而获得的分析结果,作为响应。
分析请求处理单元403被构造为将由分析请求接收处理单元402接收到的文本数据传到关键字提取单元406,并接收针对文本数据的关键字提取结果。分析请求处理单元403也被构造为进行如下的处理,即,获得诸如文件信息DB单元407中存储的文件中的关键字等的信息,并将其与针对所接收到的文本数据的关键字提取结果进行比较。分析请求处理单元403被构造为在比较之后,将列表作为分析结果传到分析请求接收处理单元402,该列表表示用于将文件与所接收到的文本数据中的关键字相似的关键字相关联地进行存储的候选存储位置。
图5是用于描述本实施例中的针对配设给图像处理装置101的分析服务器102的应用500的软件构造的图。在图像处理装置101中,应用500存储在ROM 221中,并由CPU 220运行。应用500包括通信单元501、处理单元502以及窗口显示单元503。
处理单元502被构造为经由通信单元501与分析服务器102和文件服务器103进行通信。请注意,稍后将参照图8A和图8B描述主要包含处理单元502的一系列处理的序列。作为主处理,首先,处理单元502经由图像处理装置101的控制单元218指示扫描器单元213进行扫描。然后,处理单元502将从由扫描器单元213通过扫描纸质文档等而获得的所扫描的图像数据(电子数据)、通过OCR处理提取的文本数据,发送到分析服务器102。然后,处理单元502接收分析结果作为响应。如上所述,分析结果是候选存储位置信息。然后,处理单元502将通过由扫描器单元213扫描而获得的所扫描的图像数据,发送到基于候选存储位置信息选择的文件服务器103中的存储位置,并指示文件服务器103将文件存储在该位置。下文中,将所扫描的图像数据简称为扫描数据。
窗口显示单元503被构造为进行将操作显示单元212上的窗口显示给用户的处理。具体而言,窗口显示单元503显示操作窗口,并根据用户对操作窗口的操作,向处理单元502做出处理请求。
图6是本实施例中的图像处理装置101的操作显示单元212上显示的操作窗口600的示例。在该操作窗口600中,显示有能够对图像处理装置101上可用的应用进行访问的按钮。用户一按下按钮,则启动所按下的应用。请注意,该操作窗口600是根据按下配设给图像处理装置101的主菜单键(未示出)而显示的主菜单窗口。例如,一按下按钮601,则显示“扫描并发送”应用。
图7是本实施例中的图像处理装置101的操作显示单元212的示例,并且是针对用户用来扫描原稿并发送所扫描的原稿的应用500的窗口的示例。在扫描器单元213上放置了原稿的状态下,用户按下了开始键701时,进行扫描。
图8A和图8B是本实施例中的、根据用户使用应用500的操作窗口(图7中所示)以将扫描数据存储到文件服务器103的、从对原稿进行扫描的整体序列图。下面将根据如下的要点来描述该处理,即,在用户按下图像处理装置101的主菜单键(未示出)时,显示图6所示的操作窗口600。
在步骤S801中,操作显示单元212显示图6中所示的主菜单窗口。在所显示的窗口上通过用户操作按下了与应用500相对应的按钮时,操作显示单元212在步骤S802中通知应用500选择了该应用。在步骤S803中,响应于该通知,应用500将关于应用500的初始窗口的信息发送到操作显示单元212,并指示操作显示单元212显示初始窗口。在步骤S804中,操作显示单元212显示所接收到的初始窗口。然后,在扫描器单元213上放置了原稿的状态下,在通过用户操作按下了应用500的开始键时,操作显示单元212在步骤S805中通知应用500按下了开始键。在步骤S806中,响应于按下了开始键的通知,应用500指示扫描器单元213进行扫描。在步骤S807中,扫描器单元213扫描原稿以生成扫描数据(电子数据)。在步骤S808中,扫描器单元213通知应用500完成了扫描。在步骤S809中,响应于完成了扫描的通知,应用500从步骤S807中由扫描器单元213生成的扫描数据中进行文本提取。具体而言,在步骤S809中,应用500通过对扫描数据进行字符识别处理(OCR处理)来提取文本数据。
在步骤S810中,应用500将所提取的文本数据发送到分析服务器102,并获得作为响应的分析结果(针对扫描数据的候选存储位置信息)。请注意,稍后将参照图10A和图10B来描述步骤S810中的处理的详细内容。
在步骤S811中,应用500基于步骤S810中获得的候选存储位置信息,生成关于用来提示用户选择存储位置的窗口的信息。在步骤S812中,应用500指示操作显示单元212显示该窗口。在步骤S813中,操作显示单元212显示该窗口。下面将参照图9来描述基于候选存储位置信息而生成的窗口的示例。
图9是示出本实施例中的、基于作为分析服务器102进行的分析结果的候选存储位置信息而生成的窗口的示例的图。窗口900是用于提示用户从候选存储位置中选择合适的存储位置的窗口。在窗口900中,显示候选存储位置901。在该示例中,存储了存储位置的文件夹名称。用户从候选存储位置901中选择期望的存储位置,并按下发送按钮902。结果是,步骤S808中获得的扫描数据被发送到文件服务器103。
返回参照图8A和图8B,将进一步描述序列。在用户操作选择了候选位置并按下了发送按钮时,操作显示单元212在步骤S814中通知应用500按下了发送按钮。在步骤S815中,响应于该通知,应用500指示网络单元216发送扫描数据,该指令包括存储位置的指定。在步骤S816中,响应于该指令,网络单元216将由扫描器单元213生成的扫描数据发送到文件服务器103。在步骤S817中,在接收到扫描数据时,文件服务器103将扫描数据存储到指定的保存位置中。在步骤S818中,文件服务器103返回表示完成了保存处理的响应。在步骤S819中,网络单元216向应用500返回响应。在步骤S820中,应用500指示操作显示单元212显示发送完成窗口。在步骤S821中,操作显示单元212显示完成窗口,并结束处理。
图10A和图10B是示出本实施例中的、图9中的步骤S810中的文本分析处理的整体流程图。
在描述流程图之前,将简单描述文本分析处理的概述。在本实施例中的文本分析处理中,不将由图像处理装置101提取的整个文本数据发送到分析服务器102。而是根据需要选择文本数据的片段并顺次发送该文本数据的片段。首先,分析服务器102通过利用文本数据的第一选择片段来查找第一分析结果。然后,分析服务器102将文本数据的第一片段、与在第一片段之后发送的、作为文本数据的所选择片段的文本数据的第二片段进行组合,并通过利用所组合的文本数据来查找第二分析结果。在第一分析结果与第二分析结果相似的情况下,不做进一步的分析,并将第二分析结果发送到图像处理装置101。通常,原稿往往在简介部分和/或前几页中包含重要的关键字,而在特定页之后往往提取到相似的关键字。考虑到这个方面,在本实施例中,图像处理装置101进行向分析服务器102发送根据需要所提取的文本数据的片段的处理,而不是发送整个文本数据,并接收分析结果。如上所述,通过避免发送整个文本数据并且避免基于整个文本数据的分析处理,能够向用户快速呈现分析结果。下面将随着流程图来具体描述文本分析处理。
首先,在步骤S1001中,图像处理装置101进行初始化处理。在初始化处理中,将部分编号N(part number)初始化为1,并将要用来选择由图像处理装置101提取的文本的片段的选择开始位置,初始化为头位置。部分编号代表分配给文本的所选择的片段的序列号。在本实施例中,图像处理装置101将所提取的文本数据的片段发送到分析服务器102,而不是发送整个所提取的文本数据。为此,部分编号用作标识符,以识别要发送的文本数据的所选择的片段。
在步骤S1002中,从所提取的文本数据中,图像处理装置101从选择开始位置选择特定大小的文本数据的片段。下文中将特定大小的文本数据的片段称为“文本数据的分割片段”。请注意,特定大小可以是特定的文本字符数或文本数据的特定数据大小。选择的大小和设置大小的方法可以视情况而定。在步骤S1003中,图像处理装置101将步骤S1002中选择的文本数据的分割片段与部分编号相关联,并将它们发送到分析服务器102。
在步骤S1004中,分析服务器102接收从图像处理装置101发送的文本数据的分割片段。在步骤S1005中,分析服务器102确定所接收到的文本数据的分割片段是否为空。例如,在文本数据的分割片段中包含的文本字符数为零的情况下,在文本数据的分割片段的数据大小是小于预定值的情况下,或者在其他相似的情况下,文本数据的分割片段为空。
在步骤S1005中确定所接收到的文本数据的分割片段为空的情况下,分析服务器102在步骤S1006中确定N是否等于1,即,文本数据的分割片段是否已经根据第一发送请求被发送。在步骤S1006中确定N=1的情况下,由于没有要分析的文本,所以分析服务器102在步骤S1007中向图像处理装置101返回分析失败错误通知作为响应。另一方面,在步骤S1006中确定N≠1的情况下,分析服务器102确定不存在图像处理装置101能够选择的文本。然后,在步骤S1008中,分析服务器102向图像处理装置101返回关于前一部分编号的分析结果(即,一直到部分编号N-1的分析结果)作为响应。
在步骤S1005中确定文本数据的分割片段不为空的情况下,分析服务器102对步骤S1009中组合文本数据进行分析,该组合文本数据通过将一直到部分编号N的文本数据的所有分割片段进行组合而获得。在步骤S1010中确定N=1的情况下,即,文本数据的分割片段是第一文本数据的分割片段,则分析服务器102在步骤S1011中将部分编号为1的文本数据的片段和分析结果保存到文件信息DB单元407中。然后,在步骤S1012中,分析服务器102将用于发送文本数据的另一分割片段的请求发送到图像处理装置101作为响应。在本实施例中,根据需要,从图像处理装置101顺次发送文本数据的分割片段。为此,不将关于作为文本数据的第一分割片段的、部分编号为1的文本数据的片段的分析结果发送到图像处理装置101,而是保存到文件信息DB单元407中。
在已经存在一直到最后一轮(部分编号N-1)文本数据的有效片段、并且也已经保存了关于一直到部分编号N-1的文本数据的片段的分析结果的情况下,分析服务器102在步骤S1010中确定N≠1。因此,在步骤S1010中确定N≠1的情况下,分析服务器102在步骤S1013中将一直到部分编号N的分析结果、与文件信息DB单元407中保存的一直到部分编号N-1的分析结果(即,一直到最后一轮分析结果)进行比较。在步骤S1014中,在比较结果是小于阈值的结果的情况下,必须进行额外的分析,因此处理从步骤S1011继续。具体而言,如上所述,在步骤S1011中对一直到部分编号N的组合文本数据及其分析结果进行保存,并在步骤S1012中,将用于发送文本数据的另一分割片段的请求,发送到图像处理装置101作为响应。
另一方面,在步骤S1014中,在比较结果是大于或等于阈值的结果的情况下,分析服务器102将步骤S1008中的、作为响应的关于部分编号N的分析结果,发送到图像处理装置101。如前所述,分析结果是表示候选存储位置的信息。更具体而言,分析结果可以是以相似度递减的顺序排列的存储位置的列表。在此,具有高相似度的文件夹可以是“包含多个与文本数据相关的文件”的文件夹、“包含与文本数据高度相关的文件”的文件夹等。在步骤S1014中,例如,在关于列表的候选存储位置的项目和顺序依然保持是大于或等于阈值的相似度的情况下(即,实质上未改变),将关于部分编号N的分析结果发送到客户端。简言之,如上所述,由于实际上无需针对文本数据的任何进一步分析,所以此时终止分析处理。另一方面,在最后分析结果和当前分析结果之间的比较结果是小于阈值的情况下(在候选存储位置列表的内容在最后一者与当前一者之间是不同的情况下),进一步进行分析处理。换句话说,在获得稳定的分析结果之前,通过添加文本数据的片段来进行分析。
在步骤S1015中,图像处理装置101接收来自分析服务器102的响应。在步骤S1016中,图像处理装置101分析所接收到的响应的内容。在步骤S1016中确定响应的内容是发送文本数据的另一分割片段的请求的情况下,图像处理装置101在步骤S1017中进行使部分编号递增的处理、以及将选择开始位置移动到完成了最后选择的位置的处理。在步骤S1017的处理之后,图像处理装置101从步骤S1002继续文本分析处理。在步骤S1016中确定响应的内容是分析结果或分析失败错误的情况下,图像处理装置101结束文本分析处理,并从图8B中的步骤S811继续处理。
如上所述,在本实施例中,从由图像处理装置101通过扫描获得的扫描数据而提取的文本数据中选择的文本数据的片段,根据需要被顺次发送到分析服务器102。然后,在由分析服务器102进行的分析结果实质上未改变时,将该分析结果作为候选存储位置信息发送到图像处理装置101。以此方式,能够缩短向用户呈现候选存储位置所花费的时间。
[实施例2]
在实施例1中,已经给出了如下实例的描述,即,将关于一直到部分编号N的文本数据的分割片段(由应用500发送)的分析结果、与一直到部分编号N-1的文本数据的分割片段的分析结果进行相互比较,并且在二者之间的相似度是大于或等于阈值(%)的情况下(即,实质上未改变),返回前者的分析结果。然而,在从电子数据提取的文本数据的大小、或者由此选择的文本数据的分割片段的大小很小的情况下,由分析服务器102进行的关于这样的文本数据的分析很有可能无法提供预期的结果。在本实施例中,将会给出在所提取的文本数据的大小或者文本数据的分割片段的大小是小于基准值的情况下进行的处理的描述。具体而言,将会给出如下实例的描述,即,在所提取的文本数据的大小或者文本数据的分割片段的大小是小于基准值的情况下,图像处理装置101将代表通过扫描获得的图像的扫描数据,而不是文本数据,发送到分析服务器102;并且分析服务器102基于关于图像数据的分析,而不是关于文本数据的分析,来返回分析结果。请注意,图像处理装置101和分析服务器102的构造以及处理的序列,总体上与实施例1中的相似,因而省略其描述。
图11A和图11B是示出本实施例中的处理的整体流程图,在该处理中,基于文本大小,改变步骤S810的文本分析处理中的、要从图像处理装置101发送到分析服务器102的数据。
首先,步骤S1101和步骤S1102与步骤S1001和步骤S1002相似。在步骤S1103中,图像处理装置101确定在步骤S1102中选择的分析对象文本数据的片段的大小是否是大于或等于基准值。例如,在基准值表示诸如100个字符的特定字符数的情况下,图像处理装置101确定文本数据的分割片段中的字符数是否是大于或等于100。请注意,基准值可以是文本数据的数据大小。
在步骤S1103中确定文本数据的分割片段的大小是大于或等于基准值的情况下,如实施例1中,图像处理装置101将文本数据的分割片段与部分编号相关联,并在步骤S1104中将其发送到分析服务器102。在步骤S1103中确定文本数据的分割片段的大小是小于基准值的情况下,图像处理装置101在步骤S1105中将扫描数据发送到分析服务器102,而不是从扫描数据中提取的文本数据的片段。
在步骤S1106中,分析服务器102接收从图像处理装置101发送的数据。在步骤S1107中,分析服务器102确定所接收到的数据是否是扫描数据。在步骤S1107中确定所接收到的数据是扫描数据的情况下,分析服务器102在步骤S1108中对扫描数据进行分析。在步骤S1108中,分析服务器102对通过扫描获得的图像数据(扫描数据)进行分析,而不是如实施例1中所描述的基于文本数据进行分析。在本实施例中,爬行器单元404收集图像数据文件,而分析服务器102的分析单元(未示出)计算图像数据片段的特征点。将特征点与图像数据片段的存储位置相关联地保存到文件信息DB单元407中。在步骤S1108中,分析服务器102计算从图像处理装置101发送的扫描数据的特征点,并将其与所存储的特征点进行比较,以获得存储了具有高相似度的文件的候选存储位置,作为分析结果。
在步骤S1109中,分析服务器102向图像处理装置101返回关于步骤S1106中获得的扫描数据的分析结果。
另一方面,在步骤S1107中确定所接收到的数据是文本数据的片段的情况下,分析服务器102进行到步骤S1110。步骤S1110至S1115的处理与实施例1中的步骤S1009至S1014的处理相似,因而省略其描述。
如上所述,在本实施例中,在对具有不太多的字符的文档进行扫描的情况下,基于通过扫描获得的图像数据,而不是文本数据来进行分析。以此方式,能够向用户呈现精确的候选存储位置。
[其他实施例]
还可以通过读出并执行记录在存储介质(例如非临时性计算机可读存储介质等)上的计算机可执行指令(例如,一个或更多程序)以执行上述实施例中的一个或更多的功能、并且/或者包括用于执行上述实施例中的一个或更多的功能的一个或更多电路(例如,专用集成电路(ASIC))的系统或装置的计算机,来实现本发明的实施例,并且,可以利用通过由所述系统或装置的所述计算机例如读出并执行来自所述存储介质的所述计算机可执行指令以执行上述实施例中的一个或更多的功能、并且/或者控制所述一个或更多电路执行上述实施例中的一个或更多的功能的方法,来实现本发明的实施例。所述计算机可以包括一个或更多处理器(例如,中央处理单元(CPU),微处理单元(MPU)),并且可以包括分开的计算机或分开的处理器的网络,以读出并执行所述计算机可执行指令。所述计算机可执行指令可以例如从网络或所述存储介质被提供给计算机。所述存储介质可以包括例如硬盘、随机存取存储器(RAM)、只读存储器(ROM)、分布式计算系统的存储器、光盘(诸如压缩光盘(CD)、数字通用光盘(DVD)或蓝光光盘(BD)TM)、闪存设备以及存储卡等中的一者或更多。
本发明的实施例还可以通过如下的方法来实现,即,通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置,该系统或装置的计算机或是中央处理单元(CPU)、微处理单元(MPU)读出并执行程序的方法。
利用本发明,在图像处理装置上开始扫描之后,能够缩短在图像处理装置上呈现候选存储位置所花费的时间。
虽然参照示例性实施例对本发明进行了描述,但是应当理解,本发明并不限于所公开的示例性实施例。应当对所附权利要求的范围给予最宽的解释,以使其涵盖所有这些变型例以及等同的结构和功能。

Claims (9)

1.一种文档分析系统,所述文档分析系统包括:
图像处理装置;以及
分析服务器,其中
所述图像处理装置包括:
提取单元,其被构造为从通过扫描文档而获得的图像数据提取文本数据;
选择单元,其被构造为从提取的文本数据选择文本数据的片段;
第一发送单元,其被构造为向所述分析服务器顺次发送提取的文本数据的选择片段,直到从所述分析服务器接收到针对所述图像数据的至少一个候选存储位置为止,其中在从所述分析服务器接收到所述至少一个候选存储位置时停止顺次发送处理;
选择单元,其被构造为呈现从所述分析服务器接收到的所述至少一个候选存储位置,并提示用户选择存储位置;以及
第二发送单元,其被构造为向由用户所选择的存储位置发送所述图像数据,并且
所述分析服务器包括:
分析单元,其被构造为通过对从所述第一发送单元顺次发送的文本数据的选择片段顺次进行分析,来获得所述至少一个候选存储位置;以及
返回单元,其被构造为在所述分析单元在接收文本数据的所有片段之前获得所述至少一个候选存储位置时,向所述图像处理装置发送获得的所述至少一个候选存储位置。
2.根据权利要求1所述的文档分析系统,其中,所述分析单元将第一分析结果与第二分析结果相互比较,并在比较结果是大于或等于阈值的情况下,确定所述第二分析结果为至少一个候选存储位置,所述第一分析结果通过使用文本数据的第一选择片段来获得,所述第二分析结果通过使用包括所述文本数据的第一选择片段、与在所述文本数据的第一选择片段之后从所述第一发送单元发送的文本数据的第二选择片段的组合文本数据来获得。
3.根据权利要求2所述的文档分析系统,其中,在所述比较结果不是大于或等于所述阈值的情况下,所述返回单元向所述图像处理装置发送用于额外发送文本数据的一个选择片段的请求。
4.根据权利要求3所述的文档分析系统,其中,在每接收到发送请求时,所述第一发送单元就发送从所提取的文本数据上的不同位置选择的文本数据的选择片段中的一个。
5.根据权利要求1至4中任一项所述的文档分析系统,其中,所述分析单元通过从文本数据提取关键字,并将所提取的关键字与对应于存储位置的关键字比较,来确定所述至少一个候选存储位置作为分析结果。
6.根据权利要求1至4中任一项所述的文档分析系统,其中,在文本数据的选择片段是小于基准值的情况下,所述第一发送单元发送通过扫描所述文档而获得的所述图像数据,并且所述分析单元使用所述图像数据进行分析。
7.根据权利要求6所述的文档分析系统,其中,所述分析单元基于所述图像数据表示的图像的特征点,确定所述至少一个候选存储位置作为分析结果。
8.一种图像处理装置,所述图像处理装置包括:
提取单元,其被构造为从通过扫描文档而获得的图像数据提取文本数据;
选择单元,其被构造为从提取的文本数据选择文本数据的片段;
第一发送单元,其被构造为向分析服务器顺次发送提取的文本数据的选择片段,直到从分析服务器接收到针对所述图像数据的至少一个候选存储位置为止,其中所述分析服务器通过顺次分析提取的文本数据的顺次发送片段来获得所述至少一个候选存储位置并且在接收文本数据的所有片段之前获得所述至少一个候选存储位置时将获得的所述至少一个候选存储位置发送到图像处理装置,并且其中在从所述分析服务器接收到所述至少一个候选存储位置时停止顺次发送处理;
选择单元,其被构造为呈现从所述分析服务器接收到的所述至少一个候选存储位置,并提示用户选择存储位置;以及
第二发送单元,其被构造为向由用户选择的所述存储位置发送所述图像数据。
9.一种分析服务器,所述分析服务器包括:
接收单元,其被构造为从图像处理装置顺次接收文本数据的选择片段,其中所述图像处理装置从图像数据提取文本数据,从提取的文本数据选择文本数据的片段,并且向所述分析服务器顺次发送文本数据的选择片段,直到从所述分析服务器接收到针对所述图像数据的至少一个候选存储位置为止;
分析单元,其被构造为通过对顺次接收到的文本数据的选择片段顺次进行分析,来获得所述至少一个候选存储位置;以及
返回单元,其被构造为在所述分析单元在接收文本数据的所有片段之前获得所述至少一个候选存储位置时,向所述图像处理装置发送针对所述图像数据的所获得的所述至少一个候选存储位置,其中,在所述图像处理装置从所述分析服务器接收到所述至少一个候选存储位置时,所述图像处理装置停止向所述分析服务器顺次发送选择片段,呈现从所述分析服务器发送的所述至少一个候选存储位置,并且提示用户从呈现的所述至少一个候选存储位置选择存储位置。
CN201610269573.3A 2015-05-01 2016-04-27 文档分析系统、图像处理装置以及分析服务器 Active CN106095765B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2015094293A JP2016212563A (ja) 2015-05-01 2015-05-01 文書解析システムおよび文書解析方法
JP2015-094293 2015-05-01

Publications (2)

Publication Number Publication Date
CN106095765A CN106095765A (zh) 2016-11-09
CN106095765B true CN106095765B (zh) 2020-04-10

Family

ID=57205250

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201610269573.3A Active CN106095765B (zh) 2015-05-01 2016-04-27 文档分析系统、图像处理装置以及分析服务器

Country Status (3)

Country Link
US (1) US10057449B2 (zh)
JP (1) JP2016212563A (zh)
CN (1) CN106095765B (zh)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6968647B2 (ja) 2017-10-03 2021-11-17 キヤノン株式会社 スキャン画像にファイル名を設定するための装置、その制御方法及びプログラム
CN109063105A (zh) * 2018-07-27 2018-12-21 北京字节跳动网络技术有限公司 文件存储方法、装置、计算机设备和存储介质
JP7282550B2 (ja) * 2019-02-28 2023-05-29 キヤノン株式会社 画像処理装置、その制御方法及びプログラム
US10701232B1 (en) * 2019-06-27 2020-06-30 Kyocera Document Solutions Inc. Automated running of image-processing instructions from sticky notes
WO2021102673A1 (en) 2019-11-26 2021-06-03 Citrix Systems, Inc. Document storage and management
CN111159434B (zh) * 2019-12-29 2024-10-29 国科能创(北京)科技有限公司 一种在互联网存储集群中存储多媒体文件的方法及系统
JP2023053602A (ja) 2021-10-01 2023-04-13 キヤノン株式会社 装置、情報処理方法、及びプログラム
CN114817200B (zh) * 2022-05-06 2024-04-05 新疆利丰智能科技股份有限公司 一种基于物联网的文档数据云端管理方法、系统及储存介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234078A (ja) * 2007-03-16 2008-10-02 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムを記録した記録媒体
CN101377781A (zh) * 2007-08-27 2009-03-04 富士施乐株式会社 文档处理方法、文档处理装置和文档处理系统
CN102360353A (zh) * 2011-09-27 2012-02-22 汉王科技股份有限公司 扫描文件存储方法、装置和扫描设备
CN102708580A (zh) * 2011-03-28 2012-10-03 富士施乐株式会社 图像处理设备和图像处理方法

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008101355A1 (en) * 2007-02-23 2008-08-28 1698413 Ontario Inc. System and method for delivering content and advertisements
US20150269135A1 (en) * 2014-03-19 2015-09-24 Qualcomm Incorporated Language identification for text in an object image
US9582486B2 (en) * 2014-05-13 2017-02-28 Lc Cns Co., Ltd. Apparatus and method for classifying and analyzing documents including text

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008234078A (ja) * 2007-03-16 2008-10-02 Ricoh Co Ltd 情報処理装置、情報処理方法、情報処理プログラム、及び情報処理プログラムを記録した記録媒体
CN101377781A (zh) * 2007-08-27 2009-03-04 富士施乐株式会社 文档处理方法、文档处理装置和文档处理系统
CN102708580A (zh) * 2011-03-28 2012-10-03 富士施乐株式会社 图像处理设备和图像处理方法
CN102360353A (zh) * 2011-09-27 2012-02-22 汉王科技股份有限公司 扫描文件存储方法、装置和扫描设备

Also Published As

Publication number Publication date
US10057449B2 (en) 2018-08-21
US20160321500A1 (en) 2016-11-03
CN106095765A (zh) 2016-11-09
JP2016212563A (ja) 2016-12-15

Similar Documents

Publication Publication Date Title
CN106095765B (zh) 文档分析系统、图像处理装置以及分析服务器
CN114089612B (zh) 作业历史确定装置和方法、图像处理装置、服务器及记录介质
US11151367B2 (en) Image processing apparatus and image processing program
US20130050743A1 (en) System and Method of Print Job Retrieval from the Cloud
US9563690B2 (en) System and method for feature recognition and document searching based on feature recognition
US10423825B2 (en) Retrieval device, retrieval method, and computer-readable storage medium for computer program
KR20240020719A (ko) 정보 처리 장치, 저장 매체, 및 저장 방법
EP3125106A1 (en) Apparatus and method for applying settings, and computer program
US11137946B2 (en) Image processing apparatus, method for controlling the same and storage medium
US9742953B2 (en) Document management system, document management method, an image forming apparatus, an analysis server and storage medium
EP3506155A1 (en) Image processing apparatus and image processing program
US9413841B2 (en) Image processing system, image processing method, and medium
US8755091B2 (en) Method for adding scan data to computer work area
US20140337413A1 (en) Relaying device, image processing device, and system comprising image processing device, relaying device and service server
US9886627B2 (en) Document analysis server for recommending a storage destination of image data to an image processing apparatus
CN103870482B (zh) 搜索系统及方法
US11223731B2 (en) Image processing apparatus, method for controlling the same and storage medium
US9607076B2 (en) Device and method for determining interest, and computer-readable storage medium for computer program
JP7032692B2 (ja) 画像処理装置および画像処理プログラム
JP6247880B2 (ja) 名刺情報管理システム、名刺情報管理方法、名刺情報出力装置、端末装置、画像形成装置、および名刺情報出力方法
US20140289741A1 (en) Cooperation method, image processing device, and medium
JP6992332B2 (ja) 画像処理システム、画像処理装置、端末装置及びプログラム
US20180376013A1 (en) Image forming apparatus, control method, and recording medium
CN111597366A (zh) 信息处理方法和装置
US20210103722A1 (en) Information processing system

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
GR01 Patent grant
GR01 Patent grant