CN108881665B - 信息处理设备和信息处理方法 - Google Patents

信息处理设备和信息处理方法 Download PDF

Info

Publication number
CN108881665B
CN108881665B CN201711275017.8A CN201711275017A CN108881665B CN 108881665 B CN108881665 B CN 108881665B CN 201711275017 A CN201711275017 A CN 201711275017A CN 108881665 B CN108881665 B CN 108881665B
Authority
CN
China
Prior art keywords
region
document
translation
object region
image
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Active
Application number
CN201711275017.8A
Other languages
English (en)
Other versions
CN108881665A (zh
Inventor
伊藤泰
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fujifilm Business Innovation Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fujifilm Business Innovation Corp filed Critical Fujifilm Business Innovation Corp
Publication of CN108881665A publication Critical patent/CN108881665A/zh
Application granted granted Critical
Publication of CN108881665B publication Critical patent/CN108881665B/zh
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/20Image preprocessing
    • G06V10/22Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition
    • G06V10/235Image preprocessing by selection of a specific region containing or referencing a pattern; Locating or processing of specific regions to guide the detection or recognition based on user input or interaction
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/10Text processing
    • G06F40/103Formatting, i.e. changing of presentation of documents
    • G06F40/106Display of layout of documents; Previewing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V30/00Character recognition; Recognising digital ink; Document-oriented image-based pattern recognition
    • G06V30/40Document-oriented image-based pattern recognition
    • G06V30/41Analysis of document content
    • G06V30/414Extracting the geometrical structure, e.g. layout tree; Block segmentation, e.g. bounding boxes for graphics or text
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00567Handling of original or reproduction media, e.g. cutting, separating, stacking
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • H04N1/3872Repositioning or masking

Abstract

信息处理设备和信息处理方法。一种信息处理设备包括接收单元、获得单元和翻译单元。所述接收单元接收文档作为要翻译的对象。所述获得单元从所述文档获得非对象区域,该非对象区域是不作为要翻译的对象的区域。所述翻译单元不对所述非对象区域执行翻译,而是对所述非对象区域以外的部分执行翻译。

Description

信息处理设备和信息处理方法
技术领域
本发明涉及信息处理设备和信息处理方法。
背景技术
日本未审查专利申请公开No.2005-167522公开了一种用于使得能实现多个印刷材料的同时光学字符识别(OCR)的技术。此技术致力于改进可由于未能识别通过组版而分离的单词或句子之间的语义关系而降低的字符识别效率,并且使得能实现多个印刷材料的同时OCR。在此技术中,句子的区域元素、它们之间的连接及顺序被作为数字水印信息嵌入在句子中。因此,在执行识别过程之前就准确地识别了字符的顺序,并且提高了字符识别效率。另外,用于指定区域的方法是相对于坐标参照区域而相对化的,并且因此在正确地掌握与印刷材料的关系的同时执行多个印刷材料的同时OCR变得可能。
一些文档包括图、公司徽标等。当这样的文档将被翻译时,可存在不应该是要翻译的对象的区域,诸如图或公司徽标中的字符。当文档将被翻译时,通常能够指定作为要翻译的对象的区域,但是通常不可能显式地指定不是要翻译的对象的区域。
发明内容
因此,本发明的目的是提供用于指定不是要翻译的对象的区域的信息处理设备和信息处理方法。
根据本发明的第一方面,提供了一种信息处理设备,该信息处理设备包括接收单元、获得单元和翻译单元。所述接收单元接收作为要翻译的对象的文档。所述获得单元从所述文档获得非对象区域,该非对象区域是不作为要翻译的对象的区域。所述翻译单元不对所述非对象区域执行翻译,而是对所述非对象区域以外的部分执行翻译。
根据本发明的第二方面,所述信息处理设备还包括布置单元,该布置单元在维持尚未被翻译的所述文档中的布局的同时,布置从所述翻译单元获得的翻译结果。
根据本发明的第三方面,所述布置单元将所述翻译结果布置在除所述非对象区域以外的区域中。
根据本发明的第四方面,所述信息处理设备还包括分析单元,该分析单元对所述文档执行布局分析。所述获得单元呈现由所述分析单元执行的所述布局分析的结果,并且根据操作者选择所述非对象区域的指令来获得所述非对象区域。
根据本发明的第五方面,所述获得单元提取与已被指定为不是要翻译的对象的图像相似的图像的区域并且呈现所提取的区域作为候选非对象区域。
根据本发明的第六方面,所述获得单元获得与已被指定为不是要翻译的对象的图像相似的图像的区域作为所述非对象区域。
根据本发明的第七方面,所述文档包括表示所述非对象区域的信息图像,并且所述获得单元通过使用所述信息图像来获得所述非对象区域。
根据本发明的第八方面,所述获得单元获得表示所述非对象区域周围的字符区域中的字符之间的连接关系的信息,并且所述翻译单元根据所述连接关系来执行翻译。
根据本发明的第九方面,所述信息处理设备还包括分析单元,该分析单元对所述文档执行布局分析。所述获得单元呈现由所述分析单元执行的布局分析的结果,并且根据操作者选择所述连接关系的指令来获得表示所述字符区域中的所述字符之间的所述连接关系的所述信息。
根据本发明的第十方面,提供了一种信息处理方法,该信息处理方法包括以下步骤:接收作为待翻译对象的文档;从所述文档获得非对象区域,该非对象区域是不作为要翻译的对象的区域;以及不对所述非对象区域执行翻译,而是对所述非对象区域以外的部分执行翻译。
根据本发明的所述第一方面,能够指定不是要翻译的对象的区域。
根据本发明的所述第二方面,能够在维持尚未被翻译的文档的布局的同时布置翻译结果。
根据本发明的所述第三方面,能够将翻译结果布置在非对象区域以外的区域中。
根据本发明的所述第四方面,能够呈现布局分析的结果并且根据操作者的选择指令来获得区域。
根据本发明的所述第五方面,能够提取与已被指定为不是要翻译的对象的图像相似的图像的区域并且呈现所提取的区域作为候选非对象区域。
根据本发明的所述第六方面,能够获得与已被指定为不是要翻译的对象的图像相似的图像的区域作为非对象区域。
根据本发明的所述第七方面,能够通过使用包括在文档中的信息图像来获得区域。
根据本发明的所述第八方面,能够根据所述区域周围的字符区域中的字符之间的连接关系来执行翻译。
根据本发明的所述第九方面,能够呈现布局分析的结果并且根据操作者的选择指令来获得表示字符区域中的字符之间的连接关系的信息。
根据本发明的所述第十方面,能够指定不是要翻译的对象的区域。
附图说明
将基于下图详细地描述本发明的示例性实施方式,其中:
图1是例示根据示例性实施方式的示例配置的概念模块配置图;
图2A和图2B是例示根据示例性实施方式的示例系统配置的说明图;
图3是例示根据示例性实施方式的要处理的对象的示例的说明图;
图4是例示根据示例性实施方式的示例过程的流程图;
图5是例示根据示例性实施方式的示例过程的说明图;
图6是例示非对象区域表的示例数据结构的说明图;
图7是例示布局信息表的示例数据结构的说明图;
图8是例示布局信息表(排除后)的示例数据结构的说明图;
图9A、图9B、图9C和图9D是例示根据示例性实施方式的示例过程的说明图;
图10是例示根据示例性实施方式的示例过程的流程图;
图11A、图11B、图11C和图11D是例示根据示例性实施方式的示例过程的说明图;
图12是例示根据示例性实施方式的示例过程的流程图;
图13是例示根据示例性实施方式的示例过程的流程图;
图14A和图14B是例示了根据示例性实施方式的示例过程的说明图;
图15是例示非对象图像表的示例数据结构的说明图;
图16是例示根据示例性实施方式的示例过程的流程图;
图17A和图17B是例示根据示例性实施方式的示例过程的说明图;
图18A、图18B1、图18B2、图18C和图18D是例示根据示例性实施方式的示例过程的说明图;
图19A、图19B1、图19B2和图19C是例示根据示例性实施方式的示例过程的说明图;
图20A、图20B和图20C是例示根据示例性实施方式的示例过程的说明图;以及
图21是例示实现示例性实施方式的计算机的示例硬件配置的框图。
具体实施方式
在下文中,将参照附图描述本发明的示例性实施方式。
图1是例示了根据示例性实施方式的示例配置的概念模块配置图。
一般而言,模块是可以在逻辑上彼此分离的软件(计算机程序)或硬件的组件。因此,根据示例性实施方式的模块不仅对应于计算机程序中的模块,而且对应于硬件配置中的模块。因此,示例性实施方式的描述包括用于使得计算机充当那些模块的计算机程序(用于使得计算机执行单独的程序步骤的程序、用于使计算机充当单独的单元的程序或者用于使计算机实现单独的功能的程序)、系统和方法的描述。为了描述的方便起见,将使用表达“存储”和“使...存储”及与其等同的表达。这些表达在计算机程序的情况下具体地意指“使存储器存储”或“执行控制以使存储器存储”。模块可以按照一对一关系与功能相对应。在封装方面,单个模块可以由单个程序构成,多个模块可以由单个程序构成,或者单个模块可以由多个程序构成。另外,多个模块可以由单个计算机来实现,或者单个模块可以由分布式或并行环境中的多个计算机来实现。另选地,单个模块可以包括另一模块。在下文中,“连接”用于指代逻辑连接(数据、指令的传输和接收、数据片之间的参照关系等)以及物理连接。“预先确定”意指在对象处理之前被确定,并且包括在根据示例性实施方式的处理开始之后以及在根据示例性实施方式的处理开始之前根据目前情形/状态或者根据对象处理之前的先前情形/状态被确定的含义。在存在多个预先确定的值的情况下,多个预先确定的值可以彼此不同,或者这些值中的两个或更多个(当然包括所有值)可以是相同的。描述“在A的情况下,B被执行”被用在除了是否A的确定不必要的情况之外的含义“是否A被确定,并且在确定了A的情况下B被执行”中。在列举某事(例如,“A、B和C”)的情况下,除非另外指出否则它们仅仅是示例,并且包括它们中的仅一个(例如,仅A)被选择的情况。
系统或设备可以由经由通信介质(诸如网络(包括具有一对一对应的通信连接)彼此连接的多个计算机、硬件单元、装置等构成,或者可以由单个计算机、硬件单元、装置等构成。“设备”和“系统”被同义地使用。当然,“系统”不包括人造的社会“组织”(社会系统)。
对象信息在由各个模块执行的单独处理操作中或者在由单个模块执行的单独处理操作中从存储器读取。在每个处理操作被执行之后,处理结果被写入到存储器中。因此,可以省略在处理操作之前从存储器读取以及在处理操作之后写入到存储器中的描述。这里,存储器的示例包括硬盘、随机存取存储器(RAM)、外部存储介质、通过通信网络连接的存储器、中央处理单元(CPU)中的寄存器等。
根据示例性实施方式的信息处理设备100执行翻译(机器翻译),并且如图1所例示包括文档接收模块105、翻译处理模块110和输出模块130。
一些文档包括图、公司徽标等以及字符区域。当要翻译这样的文档时,可以存在不应该是要翻译的对象(诸如图或公司徽标中的字符)的区域。当文档将被翻译时,通常能够指定作为要翻译的对象的区域,但是通常不可能显式地指定不是要翻译的对象的区域。也就是说,不指定不是要翻译的对象的区域是将该区域指定为要翻译的对象。特别是在存在许多字符区域并存在不是要翻译的对象的几个区域的情况下,要由操作者执行的操作增加。
与指定作为要翻译的对象的区域的情况相比,根据示例性实施方式的信息处理设备100使得操作者能够执行较少的操作来指定不是要翻译的对象的区域。
文档接收模块105连接到翻译处理模块110。文档接收模块105接收作为要翻译的对象的文档(原始)。文档可以是作为通过读取纸质文档而获得的图像的文档图像,或者可以是电子文档(包括结构化文档)等。文档图像的示例包括通过使用扫描器、相机等读取文档而获得的图像,以及通过通信线路由传真机等从外部设备接收到的图像。电子文档(也被称为文件)至少包括作为要翻译的对象的文本数据,并且也可以包括数值数据、图形数据、图像数据、电影数据、音频数据或其任何选择性组合。电子文档是要被存储、编辑或搜索的对象,是在系统或用户之间可交换的单独单元,并且包括与此相似的任何东西。电子文档的示例包括由文档创建程序创建的文档和web页面等的文档。
“接收文档”包括通过扫描器读取文档并且读取存储在硬盘等(例如,内置在计算机中的硬盘或通过网络连接的硬盘)中的文档。文档图像可以是二值图像或多值图像(包括彩色图像)。要接收的文档的数量可以是一个或更多个。本文所讨论的文档仅需要包括作为要翻译的对象的字符,并且可以是例如在商业或广告手册中使用的文档。
当文档接收模块105接收到文档图像时,可以对文档图像执行字符识别。字符识别的结果可以被用作要翻译的对象。当接收到文档图像时,可以从字符识别的对象排除不是要翻译的对象的区域(在下文中也称为非对象区域),因为这样的区域不会经历翻译。另外,布局分析模块120可以在字符识别时执行布局分析。
由文档接收模块105接收到的文档可以包括表示非对象区域的信息图像。这里,“信息图像”是有系统地创建以按照机器可读方式表示电子数据的图像代码,并且例如是一维条形码、二维代码或数字水印信息。二维码的特定示例是快速响应码(Quick ResponseCode,注册商标,缩写为QR码)。信息图像被嵌有表示非对象区域的信息(例如,表示该区域的左上角点和右下角点的坐标的信息)。
翻译处理模块110包括非对象区域获得模块115、布局分析模块120和机器翻译模块125,并且连接到文档接收模块105。翻译处理模块110翻译由文档接收模块105接收到的文档。
非对象区域获得模块115连接到布局分析模块120、机器翻译模块125和输出模块130。非对象区域获得模块115从文档获得非对象区域。这里,“非对象区域”是不作为要翻译的对象的区域,并且对应于例如图、公司徽标等。特别地,非对象区域对应于图、公司徽标等中的字符的区域。然而,除上述区域以外的区域可以被认为是非对象区域。例如,可以从要翻译的对象中排除通过操作者的选择操作所选择的字符区域。
“获得非对象区域”可以是由操作者执行指定操作(具体地,包围一区域的操作或者选择作为布局分析的结果的区域的操作),或者可以是读取文档中的信息。也就是说,如果在文档中存在信息图像,则非对象区域获得模块115可以通过使用该信息图像来获得非对象区域。
非对象区域获得模块115可以呈现由布局分析模块120执行的布局分析的结果,并且可以根据操作者选择非对象区域的指令来获得非对象区域。
此外,非对象区域获得模块115可以提取与已被指定为不是要翻译的对象的图像相似的图像的区域,并且可以呈现所提取的区域作为候选非对象区域。操作者可以选择所呈现的候选非对象区域来指定非对象区域。这里,“已被指定为不是要翻译的对象的图像”可以是例如预先确定的图像或已通过操作员的操作被指定为不是要翻译的对象的区域中的图像。
另外,非对象区域获得模块115可以获得表示多个区域中的字符之间的连接关系的信息。具体地,非对象区域获得模块115可以获得表示非对象区域周围的字符区域中的字符之间的连接关系的信息。
另外,非对象区域获得模块115可以呈现由布局分析模块120执行的布局分析的结果,并且可以根据操作者选择连接关系的指令来获得表示字符区域中的字符之间的连接关系的信息。
布局分析模块120连接到非对象区域获得模块115、机器翻译模块125和输出模块130。布局分析模块120对文档进行布局分析。可以通过使用现有技术来执行布局分析。例如,在电子文档的情况下,可以通过使用标签信息来分析电子文档的布局。在文档图像的情况下,可以根据图像中的特征量将图像划分成字符区域、照片区域、图形区域等。
机器翻译模块125连接到非对象区域获得模块115、布局分析模块120和输出模块130。机器翻译模块125不对由非对象区域获得模块115指定的非对象区域执行翻译,但是对非对象区域以外的部分执行翻译。这里,“非对象区域以外的部分”是被指定为要翻译的对象的区域并且包括字符。可以通过使用现有技术来执行翻译。
机器翻译模块125可以根据表示由非对象区域获得模块115获得的字符之间的连接关系的信息来执行翻译。
输出模块130连接到非对象区域获得模块115、布局分析模块120和机器翻译模块125。输出模块130在维持尚未被翻译的文档(由文件接收模块105接收到的文件)的布局的同时布置从机器翻译模块125获得的翻译结果,并且接着输出翻译结果。这里,输出翻译后的文档包括例如通过诸如打印机的打印设备来打印文档、将文档显示在诸如显示器的显示设备上、通过诸如传真机的图像发送设备来发送文档的图像、将文档写入在诸如文档数据库的文档存储器上、将文档存储在诸如存储卡的存储介质中以及将文档发送到另一信息处理设备。
输出模块130可以将从机器翻译模块125获得的翻译结果布置在非对象区域以外的区域中。具体地,输出模块130可以在非对象区域以外的区域中布置非对象区域周围的区域的翻译结果。换句话说,翻译结果不会叠加在非对象区域上。
图2A和图2B是例示了根据示例性实施方式的示例系统配置的说明图。
图2A所例示的图像处理设备200包括信息处理设备100。图像处理设备200例如是多功能外围设备(具有扫描仪、打印机、复印机、传真机等的功能中的任两个或更多个的图像处理设备)。图像处理设备200翻译通过使用扫描仪读取的文档,并且通过使用打印机来打印翻译结果。在通过打印获得的文档中,可以在维持被扫描的文档的布局的情况下布置翻译结果。
在图2B所例示的系统中,信息处理设备100、图像处理设备210、用户终端220以及作为文档储存库的文档存储设备230通过通信线路290彼此连接。通信线路290可以是无线链路、有线链路或其组合,并且可以是作为通信基础设施的因特网或内联网。另外,信息处理设备100和文档存储设备230的功能可以被实现为云服务。
例如,图像处理设备210可以读取文档,将文档的图像发送到信息处理设备100,从信息处理设备100接收已翻译的文档,并且打印文档。作为另一示例,根据由用户终端220的用户执行的操作,可以将存储在用户终端220或文档存储设备230中的电子文档发送到信息处理设备100,并且可以从信息处理设备100接收已翻译的文档。此后,翻译的文档可以由图像处理设备210打印,或者可以被存储在文档存储设备230中。
图3是例示根据示例性实施方式的要处理的对象的示例的说明图。
在图3所例示的文档300中,在徽标区域330周围描述了以下句子。“Since itsfounding in 1962,Fuji Xerox has contributed to the"democratization ofinformation"through the transmission of documents by means of copyingmachines.Since then,in the 1990s,not only did the information volumedramatically increase due to the IT revolution,its distribution route andform also diversified and became complicated.Furthermore,with the evolutionof information and communication technology(ICT)in recent years,power toselect and utilize valuable knowledge and information has become moredemanded.Under such a large paradigm shift,it is becoming difficult for us aswell as our customers to continue business growth in the former way.The realvalue as a company is questioned in determining how to face the complex andadvanced information-oriented society and how to continue business growth.”。
如果不使用示例性实施方式,则也对作为徽标的徽标区域330执行翻译。作为执行布局分析的结果,文档300被划分成句子区域310、句子区域320、句子区域340和句子区域350。未特别指定字符之间的连接关系,因此三行字符串被划分成句子区域320和句子区域340,徽标区域330被置于句子区域320和句子区域340之间。这种物理划分被认为是逻辑划分,左侧和右侧的区域(句子区域320和340)被单独地翻译,并且因此可输出用户不期望的翻译结果。具体地,从上下文的观点看,句子区域320中的字符串后面不是徽标区域330中的字符串。相反,句子区域320的第一行中的字符串后面跟随的是句子区域340的第一行中的字符串、句子区域320的第二行中的字符串以及句子区域340的第二行中的字符串(按照此顺序)。如果字符串未被按照此顺序翻译,则发生错译。
图4是例示根据示例性实施方式的示例过程的流程图。
在步骤S402中,文档接收模块105接收文档。
在步骤S404中,非对象区域获得模块115显示所接收到的文档。例如,非对象区域获得模块115将文档显示在包括在信息处理设备100中的诸如液晶显示器的显示设备上。例如,如图5所例示,非对象区域获得模块115将文档显示在屏幕500的文档显示区域520中,在文档显示区域520上方显示消息区域510,并且在消息区域510中显示消息“请通过用框包围非对象区域来指定非对象区域”。
在步骤S406中,非对象区域获得模块115根据用户的指定操作而获得非对象区域。如图5所例示,用户在显示在文档显示区域520中的文档上指定非对象区域530。作为用户操作,利用用户的手指或笔的操作是在也用作触摸屏的液晶显示器被控制的情况下接收到的。另选地,可以接收通过使用鼠标、键盘、相机、麦克风等(包括视线、手势和语音)所执行的用户操作。
表示非对象区域530的信息的示例是非对象区域表600。图6是例示作为图4的流程图中的步骤S406的处理结果的非对象区域表600的示例数据结构的说明图。非对象区域表600包括ID列610和矩形区域列620。在该示例性实施方式中,ID列610存储用于唯一地标识非对象区域的信息(ID:标识)。矩形区域列620存储表示与非对象区域对应的矩形区域的信息(左上角点和右下角点的坐标)。
在步骤S408中,布局分析模块120从文档获得布局信息。如图5所例示,布局分析结果区域540被提取为布局分析的结果的区域。在图5中的示例中,仅下部被例示为布局分析的结果。
表示布局分析结果区域540的信息的示例是布局信息表700。图7是例示了布局信息表700的示例数据结构的说明图,该布局信息表700是图4所例示的流程图中的步骤S408的处理结果。布局信息表700包括ID列710和矩形区域列720。在该示例性实施方式中ID列710存储用于唯一地标识布局分析结果区域的信息(ID)。矩形区域列720存储指示与布局分析结果区域对应的矩形区域的信息(左上角点和右下角点的坐标)。
在步骤S410中,非对象区域获得模块115从布局信息排除非对象区域。作为从布局分析结果区域540排除非对象区域530的结果,布局分析结果区域540被划分成排除后区域550和排除后区域560。
表示排除后区域550和排除后区域560的信息的示例是布局信息表(排除后)800。图8是例示布局信息表(排除后)800的示例数据结构的说明图,该布局信息表(排除后)800是图4所例示的流程图中的步骤S410的处理结果。布局信息表(排除后)800包括ID列810和矩形区域列820。在该示例性实施方式中,ID列810存储用于唯一地标识通过从布局分析结果区域排除非对象区域所获得的区域。矩形区域栏820存储表示与该区域对应的矩形区域的信息(左上角点和右下角点的坐标)。
在步骤S412中,机器翻译模块125对非对象区域之外的文档执行机器翻译。
在步骤S414中,输出模块130在维持原始文档中的布局的同时布置翻译结果。
在步骤S416中,输出模块130输出布置结果。
图9A、图9B、图9C和9D是例示根据示例性实施方式的特定示例过程的说明图。
图9A例示由文档接收模块105接收到的、作为要翻译的对象的文档900。文档900包括与文本区域相邻的图区域。此图区域是非对象区域。
图9B例示通过用户操作指定文档900中的非对象区域910并且非对象区域获得模块115获得非对象区域910的示例。
如果未指定非对象区域910(如果未使用信息处理设备100),则图轴上的标签和标题被认为是在该图的左侧的文本区域(文本区域950)的一部分,并且可输出不适当的翻译结果。另外,该图的左侧的区域的翻译结果可被叠加在该图上。
图9C例示从布局分析模块120获得的布局分析结果的示例。文档900包括作为要翻译的对象的文本区域922、文本区域924、文本区域926、文本区域928、文本区域930、文本区域932、文本区域934、文本区域936、文本区域938、文本区域940、文本区域942、文本区域944、文本区域946、文本区域948、文本区域950和文本区域952。这些区域是作为文档900的被排除了非对象区域910的布局分析结果而获得的,并且是在没有任何用户操作的情况下获得的。
图9D例示翻译结果990的输出结果的示例。在维持文档900中的布局的同时执行翻译。非对象区域910被显示而未被翻译。
图10是例示根据示例性实施方式的示例过程的流程图。
在图4所例示的流程图中,在通过用户操作指定非对象区域之后执行布局分析。然而,如在图10所例示的流程图中一样,可以在布局分析被执行之后指定非对象区域。图10所例示的流程图中的步骤S1002及步骤S1010至S1016相当于图4所例示的流程图中的步骤S402及步骤S410至S416。
在步骤S1002中,文档接收模块105接收文档。
在步骤S1004中,布局分析模块120从所接收到的文档获得布局信息。
在步骤S1006中,非对象区域获得模块115显示已经历布局分析的文档。
在步骤S1008中,非对象区域获得模块115根据用户的指定操作来获得非对象区域。用户能够在看到布局分析结果的同时指定非对象区域(或者直接选择作为布局分析结果的区域)。
在步骤S1010中,非对象区域获得模块115从布局信息排除非对象区域。
在步骤S1012中,机器翻译模块125对非对象区域之外的文档执行机器翻译。
在步骤S1014中,输出模块130在维持原始文档中的布局的同时布置翻译结果。
在步骤S1016中,输出模块130输出布置结果。
图11A、图11B、图11C和图11D是例示根据示例性实施方式的示例过程的说明图。
图11A例示由文档接收模块105接收到的、作为要翻译的对象的文档1100。文档1100包括与文本区域相邻的图区域。此图区域是非对象区域。
图11B例示从布局分析模块120获得的布局分析结果的示例。文档1100包括文本区域1122、文本区域1124、文本区域1126、文本区域1128、文本区域1130、文本区域1132、文本区域1134、文本区域1136、文本区域1138、文本区域1140、文本区域1142、文本区域1144、文本区域1146、文本区域1148和文本区域1150。这些区域是作为文档1100的布局分析结果而获得的,并且是在没有任何用户操作的情况下获得的。
图11C例示通过用户操作指定文档1100中的非对象区域1110并且非对象区域获得模块115获得非对象区域1110的示例。也就是说,通过从文本区域1150排除非对象区域1110而获得的区域对应于要翻译的对象。其它文本区域在非对象区域的指定完成时变成要被翻译的对象。
如果未指定非对象区域1110(如果未使用信息处理设备100),则图轴上的标签和标题被认为是该图的左侧的文本区域(文本区域1150)的一部分,并且可输出不适当的翻译结果。另外,该图的左侧的区域的翻译结果可以叠加在该图上。
根据在布局分析模块120中使用的布局分析算法,可以仅提取图区域。在这种情况下,图区域可以被选择为非对象区域。
图11D例示了翻译结果1190的输出结果的示例。翻译在维持文档1100中的布局的同时被执行。非对象区域1110被显示而未被翻译。
图12是例示根据示例性实施方式的示例过程的流程图。
图12所例示的流程图是提取与已经被指定为不是要翻译的对象的图像相似的图像的区域并且呈现所提取的区域作为候选非对象区域的示例过程。
图12所例示的流程图中的步骤S1202及步骤S1210至S1218相当于图4所例示的流程图中的步骤S402及步骤S408至S416。
在步骤S1202中,文档接收模块105接收文档。
在步骤S1204中,从所接收到的文档中提取与已被指定为不是要翻译的对象的图像相似的图像。这里,“已被指定为不是要翻译的对象的图像”例如是预先确定的图像或通过操作者的操作等已被指定为非对象区域的区域中的图像。“预先确定的图像”例如是由管理者等指定的图像,并且通常可以是徽标图像、符号(例如,地图符号)、象形图等。“通过操作者的操作已被指定为非对象区域的区域”对应于通过信息处理设备100的处理先前已被指定为非对象区域的区域。为了提取相似的图像,可以使用现有技术。例如,可以使用图案匹配技术。另选地,可以提取特征并且可以使用特征空间中的匹配度。
在步骤S1206中,在所提取的图像的区域是候选的非对象区域的情况下显示文档。例如,候选的非对象区域可以通过例如用红色框显示它或者使它闪烁来突出显示。
在步骤S1208中,非对象区域获得模块115根据用户的指定操作来获得非对象区域。这里,用户能够通过仅选择候选非对象区域来指定非对象区域。
在步骤S1210中,布局分析模块120从文档获得布局信息。
在步骤S1212中,非对象区域获得模块115从布局信息排除非对象区域。
在步骤S1214中,机器翻译模块125对非对象区域之外的文档执行机器翻译。
在步骤S1216中,输出模块130在维持原始文档中的布局的同时布置翻译结果。
在步骤S1218中,输出模块130输出布置结果。
如果步骤S1206中的处理结果正确,则用户在没有指定非对象区域的情况下结束步骤S1210。如果步骤S1206中的处理结果有错误,则执行将候选的非对象区域改变为对象区域的操作或将对象区域改变为非对象区域的操作。
图13是例示根据示例性实施方式的示例过程的流程图。
在图12所例示的流程图中,在通过用户操作指定了非对象区域之后执行布局分析。然而,如在图13所例示的流程图中一样,也可以在执行布局分析之后指定非对象区域。图13所例示的流程图中的步骤S1302、步骤S1304及步骤S1312至S1318相当于图12所例示的流程图中的步骤S1202、步骤S1204及步骤S1212至S1218。
在步骤S1302中,文档接收模块105接收文档。
在步骤S1304中,从所接收到的文档中提取与已被指定为不是要翻译的对象的图像相似的图像。
在步骤S1306中,执行布局分析,使得相似图像的区域被设定为布局分析结果中的区域。具体地,相似图像的区域被处理为已经历了布局分析的区域,从而被设定为布局分析结果中的区域。
在步骤S1308中,显示已经历了布局分析的文档,其中,在步骤S1304中提取的图像的区域是候选的非对象区域。
在步骤S1310中,非对象区域获得模块115根据用户的指定操作来获得非对象区域。
在步骤S1312中,非对象区域获得模块115从布局信息排除非对象区域。
在步骤S1314中,机器翻译模块125对非对象区域之外的文档执行机器翻译。
在步骤S1316中,输出模块130在维持原始文档中的布局的同时布置翻译结果。
在步骤S1318中,输出模块130输出布置结果。
图14A和图14B是例示根据示例性实施方式的示例过程的说明图。
图14A例示由文档接收模块105接收到的、作为要翻译的对象的图像1400。图像1400包括与文本区域相邻的地图符号的区域。这些地图符号区域是非对象区域。
这里,通过使用非对象图像表1500来提取与已被指定为不是要翻译的对象的图像相似的图像。图15是例示非对象图像表1500的示例数据结构的说明图。非对象图像表1500包括ID列1510和非对象图像列1520。在该示例性实施方式中,ID列1510存储用于唯一地标识不是要翻译的对象的图像的信息(ID)。非对象图像列1520存储不是要翻译的对象的图像。这里,可以存储图像本身,可以存储用于存储该图像的文件的名称(诸如URL的存储位置),或者可以存储特征提取结果。从图像1400中提取与包括在非对象图像列1520中的图像相似的图像。也就是说,相似图像的区域被认为是候选的非对象区域。
图14B所例示的示例对应于步骤S1308。候选非对象区域1410、候选非对象区域1420和候选非对象区域1430被显示为与包括在非对象图像列1520中的图像相似的图像的区域,并且作为要翻译的对象的文本区域1412、文本区域1422和文本区域1432作为布局分析的结果被显示。如果用户确定候选的非对象区域1410、1420和1430是非对象区域,则用户可以在不执行任何操作的情况下结束该过程。如果存在错误,则用户可以指定非对象区域或者可以取消对候选的非对象区域的指定。
图16是例示根据示例性实施方式的示例过程的流程图。
图16所例示的流程图是图4所例示的增加了指定非对象区域周围的文本区域之间的连接关系的过程的流程图。图16所例示的流程图中的步骤S1602至S1606及步骤S1610至S1618相当于图4所例示的流程图中的步骤S402至S406及步骤S408至S416。
在步骤S1602中,文档接收模块105接收文档。
在步骤S1604中,非对象区域获得模块115显示接收到的文档。
在步骤S1606中,非对象区域获得模块115根据用户的指定操作来获得非对象区域。
在步骤S1608中,非对象区域获得模块115根据指定连接关系的用户操作来获得表示非对象区域周围的文本区域之间的逻辑连接关系的信息。如果在非对象区域周围存在多个文本区域,则根据非对象区域,文本区域彼此可以具有或可以不具有连接关系。如果文本区域彼此具有连接关系,则可以存在多种类型的连接关系。如果文本区域错误地连接,则无法获得正确的翻译结果。由于这个原因,用户通过指定操作来确定连接关系。
在步骤S1610中,布局分析模块120从文档获得布局信息。
在步骤S1612中,非对象区域获得模块115从布局信息排除非对象区域。
在步骤S1614中,机器翻译模块125对非对象区域之外的文档执行机器翻译。
在步骤S1616中,输出模块130在维持原始文档中的布局的同时布置翻译结果。
在步骤S1618中,输出模块130输出布置结果。
在图16所例示的流程图中,在获得非对象区域并且获得表示文本区域之间的逻辑连接的信息之后执行布局分析。另选地,如在图10和图13所例示的上述示例中一样,可以在执行布局分析之后获得非对象区域和表示逻辑连接关系的信息。
图17A和图17B是例示根据示例性实施方式的示例过程的说明图。
如图17A所例示,非对象区域获得模块115在屏幕1700的文档显示区域1720中显示文档。另外,非对象区域获得模块115在文档显示区域1720中显示消息区域1710,并且例如在消息区域1710中显示消息“请通过用框包围非对象区域来指定非对象区域。可在框上右击来指定周围文本区域之间的连接关系”。
这里,假定非对象区域1730是通过用户操作来指定的。
随后,如果对非对象区域1730执行了右击,则显示图17B所例示的连接关系菜单1740。连接关系菜单1740是从中选择连接关系类型的菜单,并且包括标题字段1742、自动字段1744、“连接周围区域(围绕)”字段1746、“连接左右区域”字段1748、“连接上下区域”字段1750、“按垂直多列布局连接”字段1752、“按水平多列布局连接”字段1754和“无连接”字段1756。这些字段中的任一个通过使用指针1790来指定。
图18A、图18B1、图18B2、图18C和图18D是例示根据示例性实施方式的示例过程的说明图。
如图18A所例示,文档1800包括被指定为非对象区域的徽标区域1830以及作为布局分析结果而获得的句子区域1810、句子区域1820、句子区域1840和句子区域1850。
如图18B1所例示,如果对非对象区域1830执行了右击,则显示图18B2所例示的连接关系菜单1740。这里,假定通过使用指点器1790来选择“连接周围区域(围绕)”字段1746。
当“连接周围区域(围绕)”字段1746被选择时,作为非对象区域的徽标区域1830被排除并且将句子区域1810、1820、1840和1850中的字符串彼此连接。具体地,如图18C所例示,显示连接标记1812、连接标记1814、连接标记1822和连接标记1844,使得句子区域1810中的字符串后跟随句子区域1820的第一行中的字符串、句子区域1840的第一行中的字符串、句子区域1820的第二行中的字符串、句子区域1840的第二行中的字符串、句子区域1820的第三行中的字符串、句子区域1840的第三行中的字符串以及句子区域1850中的字符串(按照此顺序)。也就是说,如图3所例示,以下句子被认为是要翻译的对象。“Since itsfounding in 1962,Fuji Xerox has contributed to the"democratization ofinformation"through the transmission of documents by means of copyingmachines.Since then,in the 1990s,not only did the information volumedramatically increase due to the IT revolution,its distribution route andform also diversified and became complicated.Furthermore,with the evolutionof information and communication technology(ICT)in recent years,power toselect and utilize valuable knowledge and information has become moredemanded.Under such a large paradigm shift,it is becoming difficult for us aswell as our customers to continue business growth in the former way.The realvalue as a company is questioned in determining how to face the complex andadvanced information-oriented society and how to continue business growth.”。
如果“连接左右区域”字段1748被选择,则句子区域1820中的字符串连接到句子区域1840中的字符串。如果“连接上下区域”字段1750被选择,则句子区域1810中的字符串连接到句子区域1850中的字符串。如果“按垂直多列布局连接”字段1752被选择,则字符串按照垂直多列布局连接。如果“按水平多列布局连接”字段1754被选择,则字符串按照水平多列布局连接。如果“无连接”字段1756被选择,则不执行连接字符串的处理,并且每个文本区域中的字符串被认为是要被翻译的对象。这些类型的连接关系仅仅是示例,并且可以包括另一类型的连接关系。
图18D例示翻译结果的示例。翻译结果1890是翻译上述文档的结果,其中非对象区域1830被显示而未被翻译。
图19A、图19B1、图19B2和图19C是例示了根据示例性实施方式的示例过程的说明图。
如图19A所例示,作为布局分析的结果,文档1900被划分成作为要翻译的对象的文本区域1910、文本区域1920、文本区域1930和文本区域1940。
如图19B1所例示,假定通过用户操作来指定文本区域1910中的非对象区域1912。另外,假定通过用户操作对非对象区域1912执行右击并且通过使用指点器1790从连接关系菜单1740中选择“无连接”字段1756,如图19B2所例示。
因此,如图19C所例示,文本区域1910被划分成文本区域1914和文本区域1916,并且文本区域1914中的句子和文本区域1916中的句子被设定为要彼此独立地翻译的对象。
非对象区域1912中的图像被存储为已被指定为不是要翻译的对象的图像。另外,这种情况下的连接关系(图19B2的示例中的“无连接”)与该图像关联地存储。也就是说,如果此后提取与此图像相似的图像,则为此图像设定的连接关系也被应用于与相似图像周围的文本区域的连接关系。
图20A、图20B和20C是例示根据示例性实施方式的示例过程的说明图。
如图20A所例示,与非对象区域1912相似的非对象区域1932被提取。因此,文本区域1930通过非对象区域1932被划分成文本区域1934和文本区域1936。
如图20B所例示,文本区域1914中的字符串与文本区域1916中的字符串之间的连接关系1918被与非对象区域1912中的图像关联地存储(由2040表示),并且因此连接关系1918被应用为文本区域1934中的字符串与文本区域1936中的字符串之间的连接关系(这里为“无连接”)。
如图20C所例示,用于存储的非对象区域的检测按钮2010和文档显示区域2020被显示在屏幕2000上作为用户界面。
例如,如果通过使用指点器2090选择了用于存储的非对象区域的检测按钮2010,则从文档显示区域2020中的文档中提取与非对象区域1912相似的图像的区域,并且与文本区域1914对应的连接关系被应用于所提取的区域上方和下方的文本区域。
将参照图21描述根据示例性实施方式的信息处理设备的示例硬件配置。例如,图21所例示的配置是个人计算机(PC)的配置。此示例硬件配置包括诸如扫描仪的数据读取器2117和诸如打印机的数据输出单元2118。
中央处理单元(CPU)2101是根据描述在示例性实施方式中描述的单独的模块(即,文档接收模块105、翻译处理模块110、非对象区域获得模块115、布局分析模块120、机器翻译模块125和输出模块130)的执行序列的计算机程序执行处理的控制器。
只读存储器(ROM)2102存储由CPU 2101使用的程序、算术参数等。随机存取存储器(RAM)2103存储在由CPU 2101执行时使用的程序、在执行中改变的参数等。这些装置通过由CPU总线等形成的主机总线2104彼此连接。
主机总线2104通过桥接器2105连接到诸如外围组件互连/接口(PCI)总线的外部总线2106。
键盘2108和诸如鼠标的指点装置2109是由操作者操作的装置。显示器2110是液晶显示(LCD)装置、阴极射线管(CRT)等,并且显示各种信息作为文本或图像信息。可选地,可以使用具有指点装置2109和显示器2110两者的功能的触摸屏等。在这种情况下,软件键盘(也被称为屏幕键盘)可以被显示在屏幕(触摸屏)上而不是物理地连接键盘2108,从而实现键盘的功能。
硬盘驱动器(HDD)2111中包括硬盘(或者可以是闪速存储器等),驱动硬盘,并且记录或者再现由CPU 2101执行的程序或信息。硬盘存储非对象区域表600、布局信息表700、布局信息表(处理后)800、非对象图像表1500、作为要翻译的对象的文档、翻译结果、反映了翻译结果的文档等。另外,存储了其它各条数据和各种计算机程序。
驱动器2112读取记录在装载在其中的可移除记录介质2113(诸如磁盘、光盘、磁光盘或半导体存储器)上的数据或程序,并且将该数据或程序提供给通过接口2107、外部总线2106、桥接器2105和主机总线2104连接的RAM 2103。可移除记录介质2113也可用作数据记录区域。
连接端口2114是用于连接外部设备2115的端口,并且包括用于USB、IEEE 1394等的连接单元。连接端口2114通过接口2107、外部总线2106、桥接器2105和主机总线2104连接到CPU 2101等。通信单元2116连接到通信线路,并且执行与外部设备进行通信的数据通信处理。数据读取器2117例如是扫描仪,并且执行读取文档的处理。数据输出单元2118例如是打印机,并且执行输出文档数据的处理。
图21所例示的信息处理设备的硬件配置仅仅是一个示例配置。该示例性实施方式不限于图21所例示的配置,并且该信息处理设备可以具有任何配置,只要该设备能够执行该示例性实施方式中描述的模块即可。例如,可以通过使用专用硬件(例如,专用集成电路(ASIC)等)来配置这些模块中的一个或一些。这些模块中的一个或一些可以被包括在外部系统中并通过通信线路连接。此外,多个系统(各自为图21所例示的系统)可以通过通信线路彼此连接并且可以彼此协同操作。另选地,也可以将图21所例示的系统并入移动信息通信设备(例如,移动电话、智能手机、移动设备、可穿戴计算机等)、信息家电、机器人、复印机、传真机、扫描仪、打印机、多功能外围设备等以及个人计算机中。
上述程序可以通过被存储在记录介质中来提供,或者可以经由通信介质来提供。在这种情况下,例如,上述程序可以被认为是“存储程序的计算机可读记录介质”。
“存储程序的计算机可读记录介质”是存储程序并且用于安装、执行或者传播程序的计算机可读记录介质。
记录介质的示例包括数字通用盘(DVD),例如,由DVD论坛定义的标准:DVD-R、DVD-RW、DVD-RAM等;以及由DVD+RW定义的标准:DVD+R、DVD+RW等;紧凑盘(CD),例如只读存储器(CD-ROM)、可记录CD(CD-R)、可重写CD(CD-RW)等。蓝光(注册商标)盘;磁光(MO)盘;软盘(FD);磁带;硬盘;只读存储器(ROM);电可擦除可编程ROM(EEPROM,注册商标);闪速存储器;随机存取存储器(RAM);以及安全数字(SD)存储卡。
上述程序的全体或一部分可以通过将它记录在记录介质上来存储或者传播。另选地,可以通过通信(例如,使用诸如局域网(LAN)、城域网(MAN)、广域网(WAN)、因特网、内联网或外联网的有线网络;无线通信网络;或者通过组合有线和无线网络所获得的传输介质)来发送程序的全部或部分。另选地,可以使用载波来承载程序的全部或部分。
此外,上述程序可以是另一程序的部分或全部,或者可以被与另一程序一起记录在记录介质上。另选地,程序可以按照分布式方式记录在多个记录介质上。只要程序能够被压缩、加密或者恢复,就不指定记录程序的方式。
已经出于例示和描述的目的提供了本发明的示例性实施方式的上述描述。这不旨在为详尽的或者将本发明限于所公开的确切形式。显然,许多修改和变化对于本领域技术人员而言将是显而易见的。实施方式被选取和描述以便最好地说明本发明的原理及其实际应用,从而使得本领域其它技术人员能够针对各种实施方式并按如适于所设想的特定用途的各种修改而理解本发明。本发明的范围旨在由以下权利要求书及其等同物来限定。

Claims (8)

1.一种信息处理设备,该信息处理设备包括:
接收单元,该接收单元接收作为翻译对象的文档;
获得单元,该获得单元从所述文档获得非对象区域,该非对象区域是不作为翻译对象的区域;以及
翻译单元,该翻译单元不对所述非对象区域执行翻译,而是对所述非对象区域以外的部分执行翻译,
其中,所述获得单元获得由操作者指定的表示所述非对象区域周围的字符区域中的字符之间的连接关系的信息,
其中,所述翻译单元根据所述连接关系来执行翻译,并且
其中,该信息处理设备还包括:
分析单元,该分析单元对所述文档执行布局分析,
其中,所述获得单元呈现由所述分析单元执行的所述布局分析的结果,并且根据所述操作者的选择所述连接关系的指令来获得表示所述字符区域中的字符之间的所述连接关系的信息。
2.根据权利要求1所述的信息处理设备,该信息处理设备还包括:
布置单元,该布置单元在维持未被翻译的所述文档中的布局的同时布置从所述翻译单元获得的翻译结果。
3.根据权利要求2所述的信息处理设备,其中,所述布置单元将所述翻译结果布置在所述非对象区域以外的区域中。
4.根据权利要求1所述的信息处理设备,其中,所述获得单元呈现由所述分析单元执行的所述布局分析的结果,并且根据所述操作者的选择所述非对象区域的指令来获得所述非对象区域。
5.根据权利要求4所述的信息处理设备,其中,所述获得单元提取与已被指定为不是翻译对象的图像相似的图像的区域,并且呈现所提取的区域作为候选的非对象区域。
6. 根据权利要求1所述的信息处理设备,其中,所述获得单元获得与已被指定为不是翻译对象的图像相似的图像的区域作为所述非对象区域。
7.根据权利要求1所述的信息处理设备,其中所述文档包括表示所述非对象区域的信息图像,并且
所述获得单元利用所述信息图像来获得所述非对象区域。
8.一种信息处理方法,该信息处理方法包括以下步骤:
接收作为翻译对象的文档;
从所述文档获得非对象区域,该非对象区域是不作为翻译对象的区域;以及
不对所述非对象区域执行翻译,而是对所述非对象区域以外的部分执行翻译,
其中,对所述非对象区域以外的部分执行翻译的步骤包括:获得由操作者指定的表示所述非对象区域周围的字符区域中的字符之间的连接关系的信息,并且根据所述连接关系来执行翻译,并且
其中,信息处理方法还包括以下步骤:
对所述文档执行布局分析,
呈现所述布局分析的结果,并且根据所述操作者的选择所述连接关系的指令来获得表示所述字符区域中的字符之间的所述连接关系的信息。
CN201711275017.8A 2017-05-15 2017-12-06 信息处理设备和信息处理方法 Active CN108881665B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017-096189 2017-05-15
JP2017096189A JP6888410B2 (ja) 2017-05-15 2017-05-15 情報処理装置及び情報処理プログラム

Publications (2)

Publication Number Publication Date
CN108881665A CN108881665A (zh) 2018-11-23
CN108881665B true CN108881665B (zh) 2022-05-10

Family

ID=64097721

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201711275017.8A Active CN108881665B (zh) 2017-05-15 2017-12-06 信息处理设备和信息处理方法

Country Status (3)

Country Link
US (2) US11074418B2 (zh)
JP (1) JP6888410B2 (zh)
CN (1) CN108881665B (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11315353B1 (en) * 2021-06-10 2022-04-26 Instabase, Inc. Systems and methods for spatial-aware information extraction from electronic source documents
WO2024018553A1 (ja) * 2022-07-20 2024-01-25 合同会社Ada 被翻訳データ作成装置、被翻訳データ作成方法、及び被翻訳データ作成プログラム

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005167522A (ja) * 2003-12-02 2005-06-23 Hitachi Ltd 印刷システム
CN101702154A (zh) * 2008-07-10 2010-05-05 三星电子株式会社 对基于照相机的图像中的字符进行识别和翻译的方法
JP2016162442A (ja) * 2015-03-03 2016-09-05 富士ゼロックス株式会社 テキスト抽出方法、システム及びプログラム

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS63213067A (ja) * 1987-03-02 1988-09-05 Canon Inc 翻訳装置
JPH1115826A (ja) * 1997-06-25 1999-01-22 Toshiba Corp 文書解析装置及び方法
JPH11110480A (ja) * 1997-07-25 1999-04-23 Kuraritec Corp テキストの表示方法およびその装置
JPH11272671A (ja) * 1998-03-20 1999-10-08 Toshiba Corp 機械翻訳装置及び機械翻訳方法
JP4065473B2 (ja) * 1999-05-14 2008-03-26 キヤノン株式会社 画像処理装置及び方法及び記憶媒体及びシステム
US7426054B1 (en) * 1999-05-13 2008-09-16 Canon Kabushiki Kaisha Image processing apparatus, image reproduction apparatus, system, method and storage medium for image processing and image reproduction
US20010032070A1 (en) * 2000-01-10 2001-10-18 Mordechai Teicher Apparatus and method for translating visual text
JP4947843B2 (ja) * 2001-03-16 2012-06-06 シャープ株式会社 翻訳装置、翻訳方法、プログラムを記録した記録媒体、および、プログラム
US20030040899A1 (en) * 2001-08-13 2003-02-27 Ogilvie John W.L. Tools and techniques for reader-guided incremental immersion in a foreign language text
US20030120478A1 (en) * 2001-12-21 2003-06-26 Robert Palmquist Network-based translation system
GB2433403B (en) * 2005-12-16 2009-06-24 Emil Ltd A text editing apparatus and method
US20070250528A1 (en) * 2006-04-21 2007-10-25 Microsoft Corporation Methods for processing formatted data
US8549492B2 (en) * 2006-04-21 2013-10-01 Microsoft Corporation Machine declarative language for formatted data processing
US7711546B2 (en) * 2006-04-21 2010-05-04 Microsoft Corporation User interface for machine aided authoring and translation
JP2008299780A (ja) * 2007-06-04 2008-12-11 Fuji Xerox Co Ltd 画像処理装置、及び画像処理プログラム
JP4569622B2 (ja) * 2007-12-18 2010-10-27 富士ゼロックス株式会社 画像処理装置及び画像処理プログラム
JP4626777B2 (ja) * 2008-03-14 2011-02-09 富士ゼロックス株式会社 情報処理装置及び情報処理プログラム
US9262409B2 (en) * 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
JP2012048302A (ja) * 2010-08-24 2012-03-08 Ricoh Co Ltd 孔版印刷システム
JP5652114B2 (ja) * 2010-10-19 2015-01-14 株式会社リコー ワークフロー実行装置、プレビュー作成方法及びプログラム
JP5449633B1 (ja) * 2013-03-22 2014-03-19 パナソニック株式会社 広告翻訳装置、広告表示装置、および広告翻訳方法
KR20140120192A (ko) * 2013-04-02 2014-10-13 삼성전자주식회사 데이터 처리 방법 및 그 전자 장치
US9547644B2 (en) * 2013-11-08 2017-01-17 Google Inc. Presenting translations of text depicted in images
US9858272B2 (en) * 2014-02-16 2018-01-02 International Business Machines Corporation Context enriched application text translation
WO2016018004A1 (en) * 2014-07-31 2016-02-04 Samsung Electronics Co., Ltd. Method, apparatus, and system for providing translated content
US9558158B2 (en) * 2015-03-06 2017-01-31 Translation Management Systems, Ltd Automated document translation
US9442923B1 (en) * 2015-11-24 2016-09-13 International Business Machines Corporation Space constrained text translator

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005167522A (ja) * 2003-12-02 2005-06-23 Hitachi Ltd 印刷システム
CN101702154A (zh) * 2008-07-10 2010-05-05 三星电子株式会社 对基于照相机的图像中的字符进行识别和翻译的方法
JP2016162442A (ja) * 2015-03-03 2016-09-05 富士ゼロックス株式会社 テキスト抽出方法、システム及びプログラム

Also Published As

Publication number Publication date
US11074418B2 (en) 2021-07-27
JP2018195899A (ja) 2018-12-06
US20210397798A1 (en) 2021-12-23
CN108881665A (zh) 2018-11-23
US11670067B2 (en) 2023-06-06
US20180329890A1 (en) 2018-11-15
JP6888410B2 (ja) 2021-06-16

Similar Documents

Publication Publication Date Title
US9060085B2 (en) Image forming apparatus, electronic mail delivery server, and information processing apparatus
JP5042562B2 (ja) 画像処理装置、手書き情報認識方法、手書き情報認識プログラム
US8391607B2 (en) Image processor and computer readable medium
CN102273186A (zh) 组合的图像与文本文档
CN102694940B (zh) 信息处理装置及其控制方法
US11670067B2 (en) Information processing apparatus and non-transitory computer readable medium
US7844080B2 (en) Image processing system and image processing method, and computer program
US11146705B2 (en) Character recognition device, method of generating document file, and storage medium
JP7027757B2 (ja) 情報処理装置及び情報処理プログラム
US20100134851A1 (en) Image processing apparatus, method for performing image processing and computer readable medium
CN107707780B (zh) 信息处理设备和信息处理方法
CN100588218C (zh) 图像形成装置和电子邮件传送服务器
JP5673277B2 (ja) 画像処理装置およびプログラム
JP7342518B2 (ja) 画像処理装置及び画像処理プログラム
US11206336B2 (en) Information processing apparatus, method, and non-transitory computer readable medium
JP4823049B2 (ja) 文書画像検索装置及びプログラム
CN111444751B (zh) 信息处理装置、储存介质及信息处理方法
JP6922421B2 (ja) 読取方法案内装置、読取方法案内プログラム及び画像処理システム
JP5223328B2 (ja) 情報管理装置及び情報管理方法ならびにそのプログラム
JP2017022431A (ja) 情報処理装置及び情報処理プログラム
JP2021189859A (ja) 文書データ生成装置、画像形成装置、及び文書データ生成プログラム
JP2009246807A (ja) 受信文書の言語判別方法及び受信文書翻訳システム並びにその制御プログラム
CN101753753A (zh) 图像处理设备和图像处理方法
JP2004025688A (ja) 画像形成装置
JP2010067187A (ja) 文書処理装置、文書処理方法および文書処理プログラム

Legal Events

Date Code Title Description
PB01 Publication
PB01 Publication
SE01 Entry into force of request for substantive examination
SE01 Entry into force of request for substantive examination
CB02 Change of applicant information
CB02 Change of applicant information

Address after: Tokyo, Japan

Applicant after: Fuji film business innovation Co.,Ltd.

Address before: Tokyo, Japan

Applicant before: Fuji Xerox Co.,Ltd.

GR01 Patent grant
GR01 Patent grant