CN104050211A - 文档处理装置和文档处理方法 - Google Patents

文档处理装置和文档处理方法 Download PDF

Info

Publication number
CN104050211A
CN104050211A CN201410077003.5A CN201410077003A CN104050211A CN 104050211 A CN104050211 A CN 104050211A CN 201410077003 A CN201410077003 A CN 201410077003A CN 104050211 A CN104050211 A CN 104050211A
Authority
CN
China
Prior art keywords
document
character
character code
title
document processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN201410077003.5A
Other languages
English (en)
Inventor
大黑庆久
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Ricoh Co Ltd
Original Assignee
Ricoh Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Ricoh Co Ltd filed Critical Ricoh Co Ltd
Publication of CN104050211A publication Critical patent/CN104050211A/zh
Pending legal-status Critical Current

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00498Multi-lingual facilities
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00501Tailoring a user interface [UI] to specific requirements
    • H04N1/00506Customising to the data to be displayed
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/21Intermediate information storage
    • H04N1/2166Intermediate information storage for mass storage, e.g. in document filing systems
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N1/32101Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N1/32106Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file
    • H04N1/32122Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title separate from the image data, e.g. in a different computer file in a separate device, e.g. in a memory or on a display separate from image data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0008Connection or combination of a still picture apparatus with another apparatus
    • H04N2201/0065Converting image data to a format usable by the connected apparatus or vice versa
    • H04N2201/0068Converting from still picture data
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0081Image reader
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • H04N2201/3226Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document of identification information or the like, e.g. ID code, index, title, part of an image, reduced-size image
    • H04N2201/3228Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document of identification information or the like, e.g. ID code, index, title, part of an image, reduced-size image further additional information (metadata) being comprised in the identification information
    • H04N2201/3229Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document of identification information or the like, e.g. ID code, index, title, part of an image, reduced-size image further additional information (metadata) being comprised in the identification information further additional information (metadata) being comprised in the file name (including path, e.g. directory or folder names at one or more higher hierarchical levels)
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3225Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document
    • H04N2201/3249Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of data relating to an image, a page or a document data relating to a linked page or object, e.g. hyperlink
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3261Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal
    • H04N2201/3266Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title of multimedia information, e.g. a sound signal of text or character information, e.g. text accompanying an image
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/3273Display
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/32Circuits or arrangements for control or supervision between transmitter and receiver or between image input and image output device, e.g. between a still-image camera and its memory or between a still-image camera and a printer device
    • H04N2201/3201Display, printing, storage or transmission of additional information, e.g. ID code, date and time or title
    • H04N2201/328Processing of the additional information

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Library & Information Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Document Processing Apparatus (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明提供一种文档处理装置和文档处理方法。文档处理装置对于文档图像数据执行图像处理,从而提取字符信息并使用字符信息来分配文档名称。所述文档处理装置包括:获取单元,用于获取在显示单元上可显示的字符的字符码;确定单元,用于从字符信息确定作为文档名称的基础的文档名称字符串;形成单元,用于基于获取的字符码形成确定的文档名称字符串。

Description

文档处理装置和文档处理方法
相关申请的交叉参考
本申请主张于2013年3月12日在日本递交的日本专利申请No.2013-049572的优先权并且通过参考将其整个内容合并于此。
技术领域
本发明涉及文档处理装置和文档处理方法。
背景技术
使用如日期和序列号的自动生成的字符串来自动命名文档的技术,作为当存储扫描的文档图像数据时执行的自动文档命名方法是众所周知的。另一个现有命名技术是通过组合如日期和序列号的自动生成的字符串和由用户预先指定的固定字符串,来命名文档。然而由从日期或序列号自动生成字符串构成的文档名称不能表示文档的内容并且除非实际观看了文档图像数据,否则难以知晓文档的内容。此外,使用用于命名文档的固定字符串的技术需要提前输入固定字符串的步骤。因此,为了扫描由大量文档构成的文档,需要在每次扫描文档时输入固定字符串,这种操作是麻烦的。
为解决前述问题,现有技术采用光学字符辨别(OCR)来从文档图像数据提取字符信息并随后从字符信息提取标题(例如参见日本公开专利公告No.2007-122403、日本公开专利公告No.2008-077454以及日本公开专利公告No.2002-297629),从而能够分配表示文档的内容的文档名称。
如果由命名文档的设备使用的字符码系统与显示文档名称的设备的字符码系统不同,当显示文档名称时发生所谓的“字符损坏”,则结果导致不能正确地显示文档名称的情形。当在文档名称中发生字符损坏时,不能获得知晓文档内容的线索,这降低了当显示时对于用户的可用性。
为了防止发生文档名称的字符损坏,用于命名的设备需要知晓用于显示的设备的字符码系统。但是经常难以识别用于显示的设备,例如当在便携式记录介质中存储文档图像数据时并将该文档图像数据用于另一个设备时。如果用于显示的设备是提前可识别的,则用于命名的设备可以通过指定在命名文档中使用的字符码来处理这个问题。但是每次扫描文档时,这种途径需要指定字符码的操作,这降低了用于命名的设备的可用性。
鉴于前述情形,存在提供可以防止文档名称的字符损坏并提高对于用户的可用性的文档处理装置和文档处理方法的需要。
发明内容
本发明的目的是至少部分地解决在传统技术中的问题。
一种文档处理装置,用于对文档图像数据执行图像处理从而提取字符信息并使用字符信息来分配文档名称,所述文档处理装置包括:获取单元,用于获取在显示单元上可显示的字符的字符码;确定单元,用于从字符信息确定作为文档名称的基础的文档名称字符串;形成单元,用于基于获取的字符码形成确定的文档名称字符串。
一种文档处理方法,在文档图像数据上执行图像处理从而提取字符信息并使用字符信息来分配文档名称,所述文档处理方法包括:获取在显示单元上可显示的字符的字符码;从字符信息确定作为文档名称的基础的文档名称字符串;基于获取的字符码形成确定的文档名称字符串。
当结合附图考虑时,通过阅读本发明当前优选实施例的下面具体实施方式将更好地理解该发明的上述以及其他目的、特征、优点以及技术和工业的重要性。
附图说明
图1是示出了文档处理装置的示例性的主功能配置的方框图;
图2是示出了用于命名文档的概要步骤的流程图;
图3是示出了在操作显示单元上显示的示例性的操作屏幕的图示;
图4是示出了在操作显示单元上显示的另一个示例性的操作屏幕的图示;
图5是示出了文档命名部的示例性的内部配置的方框图;
图6是示出了命名文档的步骤的流程图;
图7是示出了文档命名处理的详细步骤的流程图;
图8是示出了在操作显示单元上显示的又一个示例性的操作屏幕的图示;
图9是示出了文档处理装置的示例性的硬件配置的图示;以及
图10是示出了文档处理装置的示例性的系统配置的图示。
具体实施方式
以下参考附图描述依据本发明实施例的文档处理装置和文档处理方法。实施例的目的并不是在于限制本发明。在图中,通过相同的附图标记来识别类似或对应的部分。
实施例
图1是示出了依据本实施例的文档处理装置1的示例性的主功能配置的方框图;如图1所示,文档处理装置1包括文档处理单元2、文档馈送单元11、文档扫描单元13、操作显示单元15和通信单元17。文档馈送单元11和文档扫描单元13输入要被文档处理单元2处理的文档图像数据。操作显示单元15是示例性的显示单元。
例如文档馈送单元11包括自动文档馈送器并一次一页顺序地将置于未示出的文档台上的文档捆运输到文档扫描单元13上。例如文档扫描单元13包括光源和CCD图像传感器。文档扫描单元13光学地扫描从文档馈送单元11运输的每页文档来从而生成每页文档图像的图像数据(字符图像数据)。将每页生成的文档图像数据输出到文档处理单元2的OCR部3和文档存储部6。
例如操作显示单元15包括与触摸面板集成的显示面板。将操作显示单元15用于输入命名文档所需的操作,与稍后描述的对应文档名称一起显示在文档存储部6中存储的文档捆数据,和/或其他。通信单元17经由如LAN、互联网、电话网络、专用网络、内联网的通信线路向外部设备(计算机系统)传送数据以及从外部设备接收数据。在实施例中,经由通信单元17通过例如邮件传送或文件夹传送来将文档捆数据传送到外部设备。
文档处理单元2包括OCR部3、标题字符串生成部4、文档命名部5、文档存储部6作为其主要功能部。文档处理单元2基于通过文档馈送单元11和文档扫描单元13向其输入的文档图像数据来执行自动命名文档的处理(自动文档命名处理)。
OCR部3对于从文档扫描单元13输入的每页文档图像数据执行图像处理并且从而从文档图像数据提取文本数据(字符信息)(OCR处理)。OCR处理分析图像数据的特征来确定字符的可能性并且将图像数据转换成字符码。除了对应页的文本数据之外,OCR处理产生伴随数据作为OCR处理结果,该伴随数据包括图像内每个字符的位置、字符尺寸、字符辨别分数和语言信息(语法信息,如词语的语音部分,其包括词语中存疑的字符位置和存疑的字符)。将获取的OCR处理结果输出到标题字符串生成部4。
标题字符串生成部4基于页的OCR处理结果,从对应页的文本数据提取表示每页内容的代表字符串(以后称作“标题字符串”)。将提取的标题字符串输出到文档命名部5。
并不指定提取标题字符串的技术并且可以通过适当地使用任何众所周知的技术达到。例如通常标题或词目(headword)在水平写入格式下置于页的上方部分,在垂直写入格式下置于页的右端部分。例如基于前述要点提取标题字符串的可能技术可以通过确定字符串是标题或信头的可能性来提取标题字符串,该字符串在水平写入格式下置于该页图像内页的上方部分,在垂直写入格式下置于该页图像内页的右端部分。另一个提取标题字符串的可能技术可以基于标题或信头通常具有大字符尺寸的要点来通过确定字符串是标题或信头的可能性来提取标题字符串,在该页中该标题字符串具有最大的字符尺寸。此外,包括有意义词语的标题字符串经常比由无意义字符构成的字符串更有用。因此可以使用在语法上分析OCR处理结果的文本数据并提取较少偏离语法规则的字符串的技术。又一种可能技术是组合前述提取技术并广泛地评价多个要素,如图像内的位置和语法分析结果,从而生成直接将对应页的内容表示为标题字符串的字符串。
文档命名部5基于每页的标题字符串来创建要被用作文档捆数据的名称(文档名称)的字符串。将创建的文档名称输入到文档存储部6。
文档存储部6从文档命名部5向其输入的文档名称并以文档捆为单元在其中存储从文档扫描单元13向其输入的文档图像数据,即构成文档捆的页的文档图像数据被存储为一个文件(文档捆数据)。
下面参考图2描述命名文档的概要步骤,这些步骤通过文档馈送单元11、扫描文档捆的文档扫描单元13和执行自动文档命名处理的文档处理单元2同时在文档处理装置1中执行。
如图2所示,通过将在扫描开始时置于文档台的由多个文档页构成的文档作为一个文档捆,文档处理装置1重复执行从步骤S20到步骤S40的处理直到在文档台上不再存在文档页。尤其如果存在文档台上留下的要被下次读取的文档页(步骤S10中的“是”),则文档扫描单元13执行文档扫描处理并生成通过文档馈送单元11运输的,要被下次读取的文档页的文档图像数据。
接着在文档处理单元2中的OCR部3在步骤S20生成的文档图像数据上执行OCR处理来提取文本数据(步骤S30)。
标题字符串生成部4基于在步骤S30的OCR处理结果执行标题提取处理来生成标题字符串(步骤S40)。标题字符串生成部4适当地使用上述提取处理来提取用于标题字符串的多个候选。随后对于用于标题字符串的每个提取的候选,标题字符串生成部4评价字符串的适合性以表示对应页内容并且排列候选。通过将每个标题字符串候选与其评价排名关联起来在此后创建标题候选信息并且随后将标题候选信息添加到OCR处理结果。
当完成标题提取处理时,重新执行步骤S10。如果在文档台上的所有文档页都已被扫描并且没有更多要被扫描的文档页(在步骤S10中的“否”),则执行步骤S50。此时对构成文档捆的每个文档页已经提取了用于标题字符串的多个候选。
在步骤S50,文档命名部5基于OCR处理结果的标题候选信息执行文档命名处理并创建文档名。将随后详细描述文档命名处理。例如,简要地,在步骤S40从文档捆的第一页的文档图像数据提取的用于标题字符串的候选之中,将在评价排名中排名第一的文档字符串候选选择作为文档名称字符串,用于文档名称的基础。
此后文档存储部6执行文档存储处理,来使用在步骤S50创建的文档名称将每个页的文档图像数据与OCR处理结果一起存储在其中作为文档捆数据(步骤S60)。此时,在步骤S50创建的文档名称作为用于文档捆数据的文件名称使用。
此处注意到如上所述文档处理单元2从作为OCR处理结果所获取的文本数据创建文档名称。这表明文档名称的字符码是OCR处理结果的字符码。例如,这涉及文档名称的字符码(OCR处理结果的字符码)和由其中显示文档名称的计算机系统可显示的字符码之间不符的问题。尤其如果文档名称的字符码与通过计算机系统可显示的字符码不同,则所谓“字符损坏”可能出现在文档名称中,以至于文档名称被现实为人类无法理解的无意义符号串。字符损坏不仅导致不能获取知晓文档内容的线索,还由于显示的无意义符号串看起来是荒谬的而很大地降低了可用性。
例如,假设只能显示欧洲语言的计算机系统显示具有将日本SJIS码设置为其字符码的文档名称。以无意义的单字节符号串显示每个以两字节表示的字符。
作为另一个例子,能显示SJIS码的计算机系统对于西班牙词语“te'le'phone”(e’:具有尖音符的e)显示“t駘駱hone”。这由于如下原因:具体地,“e'(0xE9)”是跟随有“1(0x6C)”或“P(Ox70)”作为第二字节的第一字节,这导致“e’l(OxEg0x6C)”和“e'p(0xE90x70)”分别符合日本汉字字符“駘”和“駱”。
以这种方式,如果文档名称的字符码与在显示文档名称的设备上,如计算机系统,可显示的字符码不同,则不能正确地显示文档名称。这种现象不仅发生在执行自动文档命名处理的文档处理装置1上显示文档名称的时侯,也发生在不同于文档处理装置1的设备中显示文档名称的同时使用文件捆数据来浏览、编辑和进行其他任务的时候。
在下面两种代表性情况下,可能在另一个设备中使用在文档处理装置1的文档存储部6中存储的文档捆数据:两种情况具体为:(1)执行邮件传送,其中将文档捆数据附加在电子邮件消息上作为附加文件并发送到另一个设备;以及(2)执行文件夹传送,其中使用例如SMB协议来将文档捆数据写入另一个设备的存储设备。
如上述情况(1)和(2)所代表的,当假设将文档捆数据传送到另一个设备并由另一个设备使用时,需要考虑到在目的地设备上可显示的字符码。如果在目的地的设备是固定的或另外已知时,提前设置在存疑的设备上可显示的字符码。如果在目的地的设备可以显示日语,则例如可以使用SJIS码。可选地,如果在目的地的设备可以显示法语,则例如可以使用拉丁-1字符码。
与此相反,如果在目的地的设备可以是任何类型的设备并且未知,则难以提前知晓在目的地设备上可显示的字符码。此类情况的解决方案是提前建立确定在目的地设备上可显示的识别码的规则或使用不引起字符损坏的可打印ASCII码字符。
但是即使通过这些解决方案存在的问题仍不可避免。当使用日本字符码命名文档时发生一个示例性问题。例如MS-DOS(注册商标)缺省使用SJIS码,通过SJIS码,可以以两字节使用“¥”。更具体地,这与日本汉字“表”和片假名“ン”对应。与此相反,例如Windows(注册商标)使用“¥”来划定路径并且由此可能错误地辨别“¥”。尤其如果文件路径(文件夹名称或文件名称)包含“表”or“ン”字符,则在相应的位置被错误地划定。其结果是,文件路径被解译为不存在的子目录并且由于不合法文档名称,传送有可能失败。
当命名文档的设备确定在目的地设备上可显示的字符码时,由于用于命名设备的用户很有可能是在目的地的设备的用户,所以考虑可显示的字符码与在用于命名的设备中使用的字符码相同在很多使用中是高效的。例如恰当理想的情况是例如,通过文档处理装置1所获取的文档捆数据被用在自身计算机的环境下。在这种情况下,在文档处理装置1中使用的字符码,具体地,用户满意的字符码很可能被设置为在文档处理装置1中的操作显示单元15的显示字符码(以后恰当地称作“显示字符码”)并且在自身计算机环境下很可能设置相同的字符码。
在文档处理装置1的商业使用中,即使用于命名的设备的用户与在目的地的设备的用户不同,也很有可能这两个的用户都属于公司的相同部门。例如恰当理想的情况是,在同事的计算机的环境下使用通过文档处理装置1所获取的文档捆数据。在这种情况下,很有可能将操作显示单元15的显示字符码设置为对于属于对应部门的所有雇员是都是满意的并且在部门的所有雇员的计算机的环境中设置相同的字符码。
由此,在该实施例中,当建立确定字符码的规则时,考虑操作显示单元15的显示字符码。应在操作显示单元15的显示字符码中反映用户的喜好。例如,如果操作显示单元的设置是日语(例如显示识别码是SJIS码),则考虑用户喜好文档名称的日语记法(notation)。由此如以下将要描述的,可以通过自动确定授权操作显示单元15的显示字符码作为用于命名文档的要使用的字符码来显著地改善用户友好性。
图3和图4是示出了在操作显示单元15上显示的示例性的操作屏幕的图示。图3是示出了当日语字符码(例如SJIS码)被设置为操作显示单元15的显示字符码时示例性的操作屏幕的图示。图4是示出了当另一个日语字符码(例如ASCII码)被设置为操作显示单元15的显示字符码时另一个示例性的操作屏幕的图示。在图3和图4所示的示例操作屏幕中,尽管二者提供相同的功能,二者中的记法是不同的,这是因为对于操作显示单元15设置不同的显示字符码。具体地,在图3所示的示例性的操作屏幕中记法是日语记法并且在图4所示的示例性的操作屏幕中记法是英语记法。当将操作显示单元15的显示字符码授权为用于命名文档的字符码时,如果在操作显示单元15中的记法是如图3所示的日语记法,则以日语命名文档,并且如果在操作显示单元15中的记法是如图4所示的英语记法,则以英语命名文档。
注意到图3和图4中所示的示例性的操作屏幕用作用于设置传送条件的设置屏幕。用户触摸邮件标签并且随后执行用于文档捆数据的邮件传送。可选地,用户触摸文件夹标签并且执行用于文件捆数据的文件传输。可选地,用户触摸媒介标签并且随后在预定记录介质中存储文档捆数据。例如,用户触摸邮件标签来执行文档捆数据的传送。如图3、4所示,响应于此使用操作显示单元15的显示字符码来显示列出了可选为文档捆数据的目的地的目的地地址的目的地地址信息。用户触摸期望的目的地地址以从信息中对其进行选择,从而设置作为传送条件中的一个的地址。
下面描述在命名文档中使用的用于自动确定字符码的配置。图5是示出了文档命名部5的示例性的内部配置的方框图。如图5中所示,文档命名部5包括标题候选输入部51、作为确定单元的文档名称字符串确定部53、作为形成单元的字符串形成部55和文档名称字符串输出部57。
标题候选输入部51从标题字符串生成部4接收添加有标题候选信息的OCR处理结果的输入。将接收的OCR处理结果输出到文档名称字符串确定部53。
文档名称字符串确定部53基于添加至从标题候选输入部51接收的OCR处理结果的标题候选信息从标题字符串候选中选择一个候选,从而确定作用为文档名称的基础的文档名称字符串。将确定的文档名称字符串输出到字符串形成部55的操作单元字符码适用的文档名称生成部分553。
字符串形成部55包括作为获取单元的操作单元字符码获取部分551、文件名称禁止施加部分555以及操作单元字符码适用的文档名生成部分553。字符串形成部55形成从文档名称字符串确定部53向其输入的文档名称字符串。
操作单元字符码获取部分551获取设置为操作显示单元15的显示字符码的字符码的类型(显示字符码类型)。将获取的显示字符码类型输出到操作单元字符码适用的文档名称生成部分553。
操作单元字符码适用的文档名称生成部分553基于从操作单元字符码获取部分551向其输入的显示字符码类型,对于从文档名称字符串确定部53向其输入的文档名称字符串施加限制(以后称作“字符码限制”)并生成新的文档名称字符串。将生成的文档名称字符串输出到文件名称禁止施加部分555。
施加下面三个字符码限制中的一个。第一和第二字符码限制与用于建立确定上述字符码的规则的方法对应。第三字符码限制与使用可打印ASCII码的方法对应。
具体地,第一字符码限制授权操作显示单元15的显示字符码作为命名字符码并且删除不同于授权的命名字符码的字符,即不同于显示字符码的字符。当如通过第一字符码限制授权操作显示单元15的显示字符码时,第二字符码限制将可转换到授权的显示字符码的字符进行转换并删除那些不可转换的。第三字符码限制授权可打印ASCII码作为命名字符码,将可转换到授权的命名字符码(即可打印ASCII码)的字符进行转换,并且删除那些不可转换的。
将在下面使用例子描述每个字符码限制,在该例子中在操作显示单元15中的记法是英语记法并且显示字符码类型是ASCII码。此处假设从文档名称字符串确定部53输入的文档名称字符串是下面的两字节SJIS码的日语字符串(a)或(b)。
本件に関するQ&A(关于本事件的问与答)…(a)
1776年7月4日アメリ力独立宣言(1776年7月4日美国独立宣言)…(b)
施加第一字符码限制删除与作为显示字符码类型的ASCII码不同的字符,以便操作单元字符码适用的文档名称生成部分553在(a)和(b)情况下删除所有字符。如果如上述删除了所有字符,则操作单元字符码适用的文档名称生成部分553使用相关技术的命名技术来自动生成如日期和序列号的字符串,从而创建新的文档名称字符串。如果留下部分或所有字符,则操作单元字符码适用的文档名称生成部分553设置部分或所有的字符作为新的文档名称字符串。
施加第二字符码限制仅留下那些已经被转换到作为显示字符码类型的ASCII码的字符。由此对于文件名称字符串(a),操作单元字符码适用的文档名称生成部分553转换留下作为可以转换到ASCII码(单字节)的字符的“Q&A”并且随后生成如下(a1)作为新的文档名称字符串。对于文件名称字符串(b),操作单元字符码适用的文档名称生成部分553转换留下作为可以转换到ASCII码(单字节)的字符的“177674”并且随后生成如下(b1)作为新的文档名称字符串。
Q&A…(a1)
177674…(b1)
将如下描述第三字符码限制。ASCII码提供了用于ISO标准的基础,7-比特字符码ISO/IEC646。在8-比特字符码ISO/IEC8859已经在其后变成主流之后,全球使用的用于各种类型字符的许多编码系统将其他字符分配为不用于ASCII码的128和之前的码值。在第三字符码限制中使用的可打印ASCII码字符构成不包括控制码的ASCII码的字符集。具体地,可打印ASCII字符包括作为ASCII32(十进制数)的空字符以及单字节字母数字字符、标点符号和作为ASCII33(十进制数)至126(十进制数)的符号。如此可打印ASCII码是在全球使用的所有字符码中的最基本字符集。由此许多计算机系统可以显示可打印的ASCII码字符串。
当假设通过多个计算机系统使用文档捆数据时,优选采用第三字符码限制。甚至当假设单计算机系统使用文档捆数据时,第三字符码限制仍然是适合采用的。这是因为如下原因:即,通过计算机系统可显示的字符码不需要匹配在计算机系统中存储的文档捆数据中包括的文本数据的字符码。由此,可能存在通过计算机系统可显示的字符码和文档名称字符串的字符码不匹配,其中文档名称字符串是从在文档捆数据中包括的文本数据提取的标题字符串候选之一。
例如即使只能显示英语,计算机系统也能可理解地在其中存储具有日语内容(以日语描述)的文档捆数据。然而,如果文档的内容是日语,则以日语命名文档,其导致当以后使用文档时文档名称的字符损坏。在此种情况下以可打印的ASCII码命名文档可以避免文档名称的损坏并且不降低可用性。当处理以任何使用重音符号的语言描述的文档捆时,该重音符号例如为德国元音变音,能避免在不支持重音符号的显示的计算机系统中损坏文档名称。
为施加授权可打印的ASCII码的第三字符码限制,操作单元字符码适用的文档名称生成部分553从(a)的文档名称字符串转换被留下为可被转换为可打印ASCII码(单个字节)的“Q&A”,从而生成如下(a2)作为新的文档名称字符串。另外,操作单元字符码适用的文档名称生成部分553从(b)的文档名称字符串转换被留下位可被转换为可打印ASCII码(单个字节)的“177674”,从而生成如下(b2)作为新的文档名称字符串。
Q&A…(a2)
177674…(b2)
通过施加上述字符码限制,如在(a1)、(a2)和(b1)、(b2)中删除通过文档名称字符串确定部53确定的(a)和(b)的部分文档名称字符串,并且由此降低了允许识别文档内容的效果。尽管如此,与使用例如日期和序列号来自动命名文档而不考虑文档内容的相关技术的命名手段不同,施加字符码限制能给予文档反映文档内容的文档名称。
文件名称禁止施加部分555在从操作单元字符码适用的文档名称生成部分553向其输入的文档名称字符串上施加对计算机系统独有的限制(以后称作“文件名称限制”),来形成文档名称字符串,使得当在计算机系统中作为文件名称处理文档名称字符串时,不会违反禁止。将形成的文档名称字符串输出到文档名称字符串输出部57。
文件名称限制限定在文档名称字符串中使用的字符的数量和类型。具体地,计算机系统具有不能作为文件名称在其中使用的字符。例如在Windows(注册商标)中,禁止在文件名称中使用为了在其他指定目的中使用所指定的单字节字符“¥”,“/”,“:”,“*”,“?”,“"”,“<”,“>”,以及“|”。另外存在对文件名称的长度(字符数量)所设置的上限。由此,用作文件名称的文档名称不能违反前述禁止。文件名称限制施加部分555由此将上述禁止用作文件名称的禁止的字符替换为其他不禁止的字符。如果在文档名称字符串中的字符数量超过文件名称的上限,则文件名称禁止施加部分555通过删去多余的字符来调整数量,例如从文档名称字符串的尾端开始计数的多余字符的数量。上述施加文件名称限制允许将文档名称字符串形成为适于文件名称的形式。
文件名称字符串输出部57将从文件名称禁止施加部分555向其输入的文档名称字符串输出到文件存储部6。
图6是实施例中用于命名文档的步骤的流程图。文档处理装置1依据图6所示的步骤运行来执行文档处理方法。注意到在图6中通过与图2中使用的那些相同的附图标记来识别类似或对应的步骤并且将省略其描述。
经由操作显示单元15接收用户的操作输入并且设置用于文档捆数据的传送条件(步骤S1)。除了例如传送设备、目的地的地址、要传送的副本的数量之外,传送条件包括文档扫描条件。文档扫描条件包括分辨率、扫描模式类型和/或扫描尺寸。此外,操作显示单元15的显示字符码设置涉及获取并记录显示字符码类型(步骤S2)。以后执行在步骤S10的处理。
当对于文档台所有文档页的每一页都执行了从步骤S20到步骤S40的所有处理时,文档命名部5执行文档命名处理(步骤S50)。图7是示出了文档命名处理的详细步骤的流程图。如图7所示,在文档命名处理中,标题候选输入部51首先输入OCR处理结果(步骤S51),其中在图6的步骤S40向该OCR处理结果添加标题候选信息。
接着,文档名称字符串确定部53基于OCR处理结果的标题候选信息来确定文档名称字符串(步骤S52)。通过例如文档名称字符串确定单元53从第一页上的文档图像数据的标题字符串候选中选择在评价排名中排名第一的标题字符串候选作为用作文档名称的基础的文档名称字符串,来执行在步骤S52的处理。
操作单元字符码获取部分551获取在图6的步骤S2中记录的显示字符码类型(步骤S53)。操作单元字符码适用的文档名称生成部分553随后基于在步骤S53获取的显示字符码类型将字符码限制施加到在步骤S52确定的文档名称字符串上(步骤S54)。如果此时要施加将显示字符码授权为命名字符码的字符码限制,则操作单元字符码适用的文档名称生成部分553依据在步骤S53获取的显示字符码类型生成新的文档名称字符串。注意到例如依据通过用户执行的选择操作可以提前确定上面提到的三个字符码限制中的要施加的指定的一个。
文件名称禁止施加部分555在步骤S54生成的文档名称字符串上施加文件名称限制(步骤S55)。此后文档名称字符串输出部57将在其上施加了文件名称限制的文档名称字符串作为文档名称输出到文档存储部6(步骤S56)。随后操作返回图6的步骤S50并且执行在步骤S60的处理。
在步骤S60,文档存储部6执行文档存储处理。此后文档处理单元2作用为传送单元,该传送单元执行依据在步骤S1设定的传送条件将在步骤S60所存储的文档捆数据(文档捆数据具有在步骤S50命名的文档名称作为其文件名称)经由通信单元17传送到外部设备的步骤(步骤S70)。
如在这以前的描述中,在实施例中,从文档图像数据提取的标题字符串候选之中确定作用为文档名称的基础的文档名称字符串。随后在文档名称字符串上施加字符码限制并另外在其上施加文件名称限制,从而形成文档名称字符串。由此创建文档名称。例如这允许通过将用于命名文档的字符码限制成仅仅是设定为操作显示单元15的显示字符码的字符码来自动形成文档名称字符串。可以由此防止显示时文档名称的损坏,而不引起在命名文档中所需要的用户执行的操作数量增加。另外命名文档以便其是用户最满意的。用户可以使用文档名称识别文档捆数据的内容并且可以通过参考文档名称来简单地选择需要的文档捆数据。实施例因此防止文档名称损坏并且可观地改善了用户的可用性。
操作显示单元15的操作字符码可以被用户恰当地修改。具体地,文档处理单元2用作改变单元,该改变单元接收设置变化操作并依据设置变化操作改变对操作显示单元15设置的显示字符码。在以前述方式改变显示字符码之后,设置用于命名字符码的改变后的新的显示字符码。这使下面的记载能够实现。具体地,例如假设对操作显示单元15设置的显示字符码是日语并且显示屏幕的记法是日语记法的情况。即便通过这些设置来扫描以任何不同于日语的如英语或法语的语言所描述的文档捆,也可以将对操作显示单元15设置的显示字符码改变为对应的语言,从而允许以新的语言命名文档。
实施例已经描述了从文档处理装置1将文档捆数据传送到外部设备的情况。尽管如此,可以在文档处理装置中使用文档捆数据。也在此种情况下授权操作显示单元15的显示字符码来防止文档名称损坏。
实施例已经描述了通过扫描文档捆(由多个文档页构成)给予文档名的情况。实施例还可以应用于通过扫描单个文档页来命名文档。
在上述实施例中,从在文档捆数据中包含的文本数据中提取的标题字符串候选中的一个被确定为文档名称字符串并且形成确定的文档名称字符串来将形成的文档名称字符串设置为文档名称。与此相反,文档名称可以包括形成的文档名称字符串作为它的一部分。例如文档名称可以是形成的文档名称字符串和使用日期、序列号等通过相关技术的命名手段自动生成的字符串的组合。
实施例描述授权操作显示单元15的显示字符码作为命名字符码的字符码限制。但是可能有相当多的情况,这些情况中存在授权与操作显示单元15的显示识别码不同的任何识别码的需要。例如当需要将文档捆数据从文档处理装置1传送到公司外(特别是外国)时,操作显示单元15的显示字符码(例如日语)可能经常与在目的地设备上可显示的字符码(例如英语)不同。为了防止在目的地设备中损坏文件名称,即使在如此情况下,系统需要酌情改变要被授权的命名字符码的机制。
此处将目的地的地址设置为传送条件,以将文档捆数据传送到外部设备。如果要被授权的命名字符码需要酌情改变,则可以进行如下布置:具体地,可以施加字符码限制,该字符码限制授权在描述目的地地址中使用的字符码代替操作显示单元15的显示字符码。
在这种情况下,操作单元字符码获取部分551执行获取字符码的类型的步骤来代替在图7的步骤S53中的步骤,其中该字符码是在描述目的地地址信息中所使用的字符码(目的地地址字符码),该目的地地址信息在图6的步骤S1中被设置作为目的地地址。在步骤S54中,操作单元字符码适用的文档名称生成部分553施加授权目的地地址字符码作为命名字符码的字符码限制并执行依据类型生成新的文档名称字符串的步骤。
图8是示出了在操作显示单元15上显示的又一个示例性的操作屏幕的图示并且示出了用于设置传送条件的设置屏幕。图8中所示的设置屏幕,正如根据图3和图4描述的设置屏幕,用于设置文档捆数据的目的地地址并且列出可选择为文档捆数据的目的地的目的地地址的信息。在图8所示的目的地地址的信息的列表中,混合了日语记法的目的地地址的信息以及英语记法的目的地地址的信息。
在此种修改的例子中,例如如果选择描述为"鈴木"的目的地地址A11的信息,则以日语命名对应的文档(例如字符码是SJIS码)。如果选择描述为“Suzuki”的目的地地址A13的信息,则以英语命名对应的文档(例如字符码是ASCII码)。
修改的例子允许依据选择的目的地地址信息改变命名字符码。这消除了每次选择目的地地址时执行手动改变字符码的繁琐操作的需要,以便可以简单地并且恰当地改变命名字符码。因此除了选择目的地地址信息以外,用户不需要执行指定命名字符码的操作。用户能在他或她选择目的地地址信息的同时指定要用于命名文档的字符码。因为选择目的地地址信息是需要执行的步骤,前述并没有增加用户的负担。
此处注意到可以将在描述目的地地址信息的每个地址中要使用的字符码布置为用户可酌情改变。在此种情况下,文档处理单元2作用为改变单元以接收指定目的地地址信息的目的地地址记法改变操作并且依据目的地地址记法改变操作来改变字符码以描述对应的目的地地址信息。如此改变用于描述目的地地址信息的字符码。当其后选择特定的目的地地址信息时,将改变后的字符码授权作为命名字符码。
依据在这以前描述的实施例也可以通过例如使如个人计算机或工作站的通用计算机与用于扫描文档捆数据的扫描仪或多功能外围设备连接来执行预先准备的计算机程序(文档控制程序)以获得文档处理装置1。图9是示出了上面情况中的文档处理装置(计算机)的示例性的硬件配置的图示。在图9中所示的文档处理装置包括CPU(处理器)71、如ROM的存储器72、硬盘73、键盘74、显示设备75、CD-ROM驱动器76、FD驱动器77和通信设备78,它们通过例如系统总线彼此连接以便能够输入和输出数据。
通过以可安装格式或可执行格式在计算机可读记录介质上记录来提供要通过计算机执行的文档处理程序。记录介质的不限定例子包括CD-ROM、软盘(FD)、CD-R和数字通用光盘(DVD)。注意到还可以配置文档处理程序以便将其存储在与如互联网的通信线路连接的计算机中并且经由通信线路下载该文档处理程序。也可以配置文档处理程序以便将其经由如互联网的通信线路分发或提供。甚至可以配置文档处理程序以便通过提前在存储器72中嵌入文档处理程序来提供该程序。
文档处理程序具有包括构成在图1和图5中示出的文档处理单元2的各个元素的模块化配置。CPU71从存储器72装载文档处理程序并执行该程序。这在主存储器上装载构成文档处理单元2的元素并且在主存储器上实现上述元素。
此外,依据本实施例的文档处理装置1可以实现为包括多个装置的系统。图10是示出了文档处理装置的示例性的系统配置的图示。在图10中所示的系统包括经由通信线路N相互连接的多个装置(图10中是三个)8-1到8-3。8-1到8-3的每个装置共享通过构成在图1到图5中所示的文档处理装置1的元素的对应一个所执行的处理,从而将通过文档处理装置1所实现的功能实现为一个整体。
已经在依据操作显示单元15的显示字符码来自动确定要用于命名文档的字符码的情况下描述实施例。与此相反,如果通过计算机实现文档处理装置,该计算机包括在图9所示的硬件配置中相互分离的如键盘74的操作单元以及作为显示单元的显示设备75,则可以依据显示单元(显示设备75)的字符显示码自动确定用于命名文档的字符码。
实施例实现了防止文档名称的字符损坏并且改善用户的可用性的效果。
虽然为了完全和清楚公开根据具体实施例描述了本发明,所附权利要求并不由此受限而应该理解为体现本领域技术人员可以想到的所有变形和可选择构造,其完全落入在此阐述的基本教导中。

Claims (7)

1.一种文档处理装置,用于对文档图像数据执行图像处理从而提取字符信息并使用字符信息来分配文档名称,所述文档处理装置包括:
获取单元,用于获取在显示单元上可显示的字符的字符码;
确定单元,用于从字符信息确定作为文档名称的基础的文档名称字符串;
形成单元,用于基于获取的字符码形成确定的文档名称字符串。
2.根据权利要求1所述的文档处理装置,其中形成单元将提取的文档名称字符串中包括的字符转换为获取的字符码的字符。
3.根据权利要求1或2所述的文档处理装置,其中获取单元获取被设置为显示单元的显示字符码的字符码。
4.根据权利要求3所述的文档处理装置,还包括:
改变单元,用于依据设置改变操作来改变被设置为显示单元的显示字符码的字符码的设置。
5.根据权利要求1或2所述的文档处理装置,还包括:
传送单元,用于使显示单元显示可选择为文档图像数据的目的地的目的地地址的信息的列表,并且依据从列表中选择的目的地地址信息将文档图像数据传送到外部设备,其中
获取单元获取用于所选择的目的地地址信息的记法的字符码。
6.根据权利要求5所述的文档处理装置,还包括:
改变单元,用于依据目的地地址记法改变操作来改变用于目的地地址信息的记法的字符码。
7.一种文档处理方法,在文档图像数据上执行图像处理从而提取字符信息并使用字符信息来分配文档名称,所述文档处理方法包括:
获取在显示单元上可显示的字符的字符码;
从字符信息确定作为文档名称的基础的文档名称字符串;
基于获取的字符码形成确定的文档名称字符串。
CN201410077003.5A 2013-03-12 2014-03-04 文档处理装置和文档处理方法 Pending CN104050211A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2013049572A JP2014174923A (ja) 2013-03-12 2013-03-12 文書処理装置、文書処理方法、および文書処理プログラム
JP2013-049572 2013-03-12

Publications (1)

Publication Number Publication Date
CN104050211A true CN104050211A (zh) 2014-09-17

Family

ID=50112749

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201410077003.5A Pending CN104050211A (zh) 2013-03-12 2014-03-04 文档处理装置和文档处理方法

Country Status (4)

Country Link
US (1) US20140268246A1 (zh)
EP (1) EP2779613B1 (zh)
JP (1) JP2014174923A (zh)
CN (1) CN104050211A (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728240A (zh) * 2019-10-14 2020-01-24 北京华宇信息技术有限公司 一种对电子卷宗的标题自动识别的方法及装置

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6051827B2 (ja) * 2012-12-07 2016-12-27 株式会社リコー 文書処理装置、画像処理装置、文書処理方法及び文書処理プログラム
JP6362452B2 (ja) * 2014-07-03 2018-07-25 キヤノン株式会社 情報処理装置、情報処理装置の制御方法、及びプログラム
US9542136B2 (en) 2015-03-19 2017-01-10 Ricoh Company, Ltd. Communication control system, communication control apparatus, and communication control method
JP6482361B2 (ja) * 2015-04-09 2019-03-13 キヤノン株式会社 原稿読取装置、原稿読取装置の制御方法、プログラム、及び記憶媒体
JP6540329B2 (ja) * 2015-07-28 2019-07-10 富士ゼロックス株式会社 情報処理装置及びプログラム
US10614108B2 (en) * 2015-11-10 2020-04-07 International Business Machines Corporation User interface for streaming spoken query
JP2019062476A (ja) * 2017-09-27 2019-04-18 キヤノン株式会社 画像処理装置、画像処理装置の制御方法、プログラムおよび記憶媒体
JP7151477B2 (ja) * 2018-12-28 2022-10-12 京セラドキュメントソリューションズ株式会社 画像形成装置
US11176364B2 (en) 2019-03-19 2021-11-16 Hyland Software, Inc. Computing system for extraction of textual elements from a document
CN111831613A (zh) * 2019-04-19 2020-10-27 珠海金山办公软件有限公司 一种命名处理的方法、装置、计算机存储介质及终端
JP7282625B2 (ja) * 2019-07-18 2023-05-29 キヤノン株式会社 プログラム、情報処理方法及び情報処理装置
JP2022137608A (ja) 2021-03-09 2022-09-22 キヤノン株式会社 情報処理装置、情報処理方法およびプログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5768451A (en) * 1993-12-22 1998-06-16 Hitachi, Ltd Character recognition method and apparatus
CN101354703A (zh) * 2007-07-23 2009-01-28 夏普株式会社 文档图像处理装置和文档图像处理方法
US20120263380A1 (en) * 2011-04-18 2012-10-18 Canon Kabushiki Kaisha Data processing apparatus, method for controlling data processing apparatus, and non-transitory computer readable storage medium

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6057858A (en) * 1996-08-07 2000-05-02 Desrosiers; John J. Multiple media fonts
JP2002297629A (ja) 2001-03-30 2002-10-11 Ricoh Co Ltd 文書画像のタイトル抽出方法、抽出プログラム及び記録媒体並びにタイトル抽出装置
JP2005056315A (ja) * 2003-08-07 2005-03-03 Ricoh Co Ltd 情報処理装置、プログラム及び記憶媒体
CN100382096C (zh) * 2003-08-20 2008-04-16 奥西-技术有限公司 文档扫描设备及方法
JP4134056B2 (ja) * 2005-01-27 2008-08-13 京セラミタ株式会社 画像読取り装置および画像読取りプログラム
JP2007122403A (ja) 2005-10-28 2007-05-17 Fuji Xerox Co Ltd 文書タイトルおよび関連情報の自動抽出装置、抽出方法および抽出プログラム
JP4891013B2 (ja) 2006-09-22 2012-03-07 パナソニック株式会社 タイトル抽出装置、画像読取装置、タイトル抽出方法、及びタイトル抽出プログラム
JP2009027648A (ja) * 2007-07-23 2009-02-05 Murata Mach Ltd 画像処理装置
JP5607330B2 (ja) * 2009-09-24 2014-10-15 キヤノン株式会社 画像処理装置、画像処理装置の制御方法、及びプログラム
JP2011155548A (ja) * 2010-01-28 2011-08-11 Kyocera Mita Corp ファイル作成装置、ファイル作成プログラム、及びファイル作成方法
EP2453367B1 (en) * 2010-11-16 2014-02-12 BlackBerry Limited Automatic file naming on a mobile device
KR20130020072A (ko) * 2011-08-18 2013-02-27 삼성전자주식회사 화상형성장치 및 제어 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5768451A (en) * 1993-12-22 1998-06-16 Hitachi, Ltd Character recognition method and apparatus
CN101354703A (zh) * 2007-07-23 2009-01-28 夏普株式会社 文档图像处理装置和文档图像处理方法
US20120263380A1 (en) * 2011-04-18 2012-10-18 Canon Kabushiki Kaisha Data processing apparatus, method for controlling data processing apparatus, and non-transitory computer readable storage medium

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110728240A (zh) * 2019-10-14 2020-01-24 北京华宇信息技术有限公司 一种对电子卷宗的标题自动识别的方法及装置

Also Published As

Publication number Publication date
US20140268246A1 (en) 2014-09-18
JP2014174923A (ja) 2014-09-22
EP2779613B1 (en) 2018-10-03
EP2779613A1 (en) 2014-09-17

Similar Documents

Publication Publication Date Title
CN104050211A (zh) 文档处理装置和文档处理方法
US7797150B2 (en) Translation system using a translation database, translation using a translation database, method using a translation database, and program for translation using a translation database
JP3277014B2 (ja) データ処理資源を操作するための方法
EP0621721B1 (en) Document surrogates
JP2516294B2 (ja) 英数字情報を文書イメ―ジ情報とともに伝送するための方法及び装置
US8386923B2 (en) Document generation apparatus, method, and storage medium
CN103873719B (zh) 文档处理设备、图像处理装置和文档处理方法
US8179547B2 (en) Code information printing apparatus, printing method, restoration apparatus, and restoration method
US20060217958A1 (en) Electronic device and recording medium
CN103493066B (zh) 数据处理设备和用于控制数据处理设备的方法
JP2010182206A (ja) 画像処理装置および画像処理方法
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
JP2010136141A (ja) 文書処理システムおよび文書処理方法
US8755064B2 (en) Information processing apparatus, information processing method, and information processing program protecting security of an object in a document
US8743383B2 (en) Image processing apparatus storing destination information and information indicating whether a user is allowed to print image data and control method therefor
JP6907659B2 (ja) 情報処理システム、情報処理装置、情報処理方法及びプログラム
US11249704B2 (en) Display control device, display control method, and display system
US7508534B2 (en) Image processing device
CN110248035B (zh) 信息处理装置、图像形成装置、图像处理系统、图像处理方法和程序
CN102637159A (zh) 文档显示方法及装置
JP2006276904A (ja) ファックス装置
US10609246B1 (en) System and method for ascertaining and printing supplemental forms identified from content of a scanned base form
JP2008118489A (ja) ファクシミリ配信システム及びファクシミリ装置
JP5018601B2 (ja) 受信文書の言語判別方法及び受信文書翻訳システム並びにその制御プログラム
JP2023167871A (ja) 画像処理装置、情報処理装置、画像処理システム、画像処理方法、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20140917

WD01 Invention patent application deemed withdrawn after publication