CN102685347A - 图像处理装置和图像处理方法 - Google Patents

图像处理装置和图像处理方法 Download PDF

Info

Publication number
CN102685347A
CN102685347A CN201210028590XA CN201210028590A CN102685347A CN 102685347 A CN102685347 A CN 102685347A CN 201210028590X A CN201210028590X A CN 201210028590XA CN 201210028590 A CN201210028590 A CN 201210028590A CN 102685347 A CN102685347 A CN 102685347A
Authority
CN
China
Prior art keywords
language
string
character
character string
feature
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
CN201210028590XA
Other languages
English (en)
Other versions
CN102685347B (zh
Inventor
张臻瑞
上條裕义
大谷和宏
小柳胜也
冈田茂
袖浦稔
安达真太郎
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Fujifilm Business Innovation Corp
Original Assignee
Fuji Xerox Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Fuji Xerox Co Ltd filed Critical Fuji Xerox Co Ltd
Publication of CN102685347A publication Critical patent/CN102685347A/zh
Application granted granted Critical
Publication of CN102685347B publication Critical patent/CN102685347B/zh
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00127Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture
    • H04N1/00326Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus
    • H04N1/00328Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information
    • H04N1/00331Connection or combination of a still picture apparatus with another apparatus, e.g. for storage, processing or transmission of still picture signals or of information associated with a still picture with a data reading, recognizing or recording apparatus, e.g. with a bar-code apparatus with an apparatus processing optically-read information with an apparatus performing optical character recognition
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/387Composing, repositioning or otherwise geometrically modifying originals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00405Output means
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/0035User-machine interface; Control console
    • H04N1/00501Tailoring a user interface [UI] to specific requirements
    • H04N1/00509Personalising for a particular user or group of users, e.g. a workgroup or company
    • H04N1/00514Personalising for a particular user or group of users, e.g. a workgroup or company for individual users
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00795Reading arrangements
    • H04N1/00798Circuits or arrangements for the control thereof, e.g. using a programmed control device or according to a measured quantity
    • H04N1/00801Circuits or arrangements for the control thereof, e.g. using a programmed control device or according to a measured quantity according to characteristics of the original
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/00795Reading arrangements
    • H04N1/00798Circuits or arrangements for the control thereof, e.g. using a programmed control device or according to a measured quantity
    • H04N1/00811Circuits or arrangements for the control thereof, e.g. using a programmed control device or according to a measured quantity according to user specified instructions, e.g. user selection of reading mode
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N1/00Scanning, transmission or reproduction of documents or the like, e.g. facsimile transmission; Details thereof
    • H04N1/44Secrecy systems
    • H04N1/4406Restricting access, e.g. according to user identity
    • H04N1/4426Restricting access, e.g. according to user identity involving separate means, e.g. a server, a magnetic card
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N2201/00Indexing scheme relating to scanning, transmission or reproduction of documents or the like, and to details thereof
    • H04N2201/0077Types of the still picture apparatus
    • H04N2201/0094Multifunctional device, i.e. a device capable of all of reading, reproducing, copying, facsimile transception, file transception

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)
  • Character Discrimination (AREA)

Abstract

本发明公开一种图像处理装置和图像处理方法,该装置包括:记录单元,其记录第一语言和不同于所述第一语言的第二语言;字符串提取单元,其从通过读取原稿而获取的读取信息中提取一个或多个字符串;多个特征字符串生成部,其基于由所述字符串提取单元提取出的所述一个或多个字符串来生成所述原稿的特征字符串;以及切换单元,其基于所记录的第一语言和所记录的第二语言的组合对用于生成所述特征字符串的所述特征字符串生成部进行切换。

Description

图像处理装置和图像处理方法
技术领域
本发明涉及图像处理装置和图像处理方法。
背景技术
JP-A-2006-72892公开了一种如下的图像处理装置,该装置把通过组合预先存储在存储单元中的关键字数据而生成的候选文件名称显示在触摸面板上,并且由用户来选择从显示在触摸面板上的候选文件名称中读取的适用于电子文件的文件名称。
JP-A-2004-140551公开了一种网络图像通信装置,该装置读取记录在传送原稿的预定区域中的图形和字符,并且生成上述图形和字符的文件名称。
发明内容
本发明的一些方面的优点是:本发明提供一种可以生成能被原稿的读者理解的特征字符串的图像处理装置。
根据本发明的第一方面,提供一种图像处理装置,包括:记录单元,其记录(存储)第一语言和不同于所述第一语言的第二语言;字符串提取单元,其从通过读取原稿而获取的读取信息中提取一个或多个字符串;多个特征字符串生成部,其基于由所述字符串提取单元提取的所述一个或多个字符串来生成所述原稿的特征字符串;以及切换单元,其基于所记录的第一语言和所记录的第二语言的组合对用于生成所述特征字符串的所述特征字符串生成部进行切换。
本发明的第二方面提供根据第一方面所述的图像处理装置,其中,所述第一语言是能被所述原稿的读者识别的读者语言;并且所述第二语言是基于所述原稿中出现的字符串确定的原稿语言。
本发明的第三方面提供根据第二方面所述的图像处理装置,其中,所述读者语言是基于所述原稿的读者的鉴别信息确定的,并且所述原稿语言是在原稿中出现比例最高的语言。
本发明的第四方面提供根据第一方面所述的图像处理装置,其中,所述多个特征字符串生成部包括:多个选择部,其执行如下处理:基于所述第一语言和所述第二语言的组合,从提取出的一个或多个字符串中选择构成所述原稿的特征字符串的一个或多个构成要素;以及多个特征字符串确定部,其执行利用由所述选择部选择的所述构成要素确定所述特征字符串的处理,并且所述切换单元基于所述第一语言和所述第二语言的组合,切换用于生成所述特征字符串的选择部且切换用于生成所述特征字符串的特征字符串确定部。
本发明的第五方面提供根据第一方面所述的图像处理装置,其中,所述多个特征字符串生成部包括:多个转换部,其基于所述第一语言和所述第二语言的组合对由所述字符串提取单元提取出的一个或多个字符串进行转换;以及多个特征字符串确定部,其执行利用由所述转换部转换的所述字符串确定所述特征字符串的处理,并且所述切换单元基于所述第一语言和所述第二语言的组合,切换用于生成所述特征字符串的所述多个转换部和所述多个特征字符串确定部。
本发明的第六方面提供根据第一方面所述的图像处理装置,其中,所述多个特征字符串生成部包括:多个选择部,其执行如下处理:基于所述第一语言和所述第二语言的组合,从提取出的一个或多个字符串中选择所述原稿的特征字符串的一个或多个构成要素;多个转换部,其基于所述第一语言和所述第二语言的组合对由所述选择部选择的一个或多个字符串进行转换;以及多个特征字符串确定部,其执行利用由所述转换部转换的所述构成要素确定所述特征字符串的处理,并且所述切换单元基于所述第一语言和所述第二语言的组合,切换用于生成所述特征字符串的所述选择部,切换用于生成所述特征字符串的所述转换部且切换用于生成所述特征字符串的所述特征字符串确定部。
本发明的第七方面提供根据第四方面或第六方面所述的图像处理装置,其中,所述多个选择部中的一个选择部执行基于提取出的一个或多个字符串在所述原稿中的出现频率来选择构成要素的处理。
本发明的第八方面提供根据第四方面或第六方面所述的图像处理装置,其中,所述多个选择部中的一个选择部将提取出的字符串中具有预定位置和预定规模中至少一者的第一字符串的权重因子设置为比提取出的字符串中除了所述第一字符串之外的字符串的权重因子高出预定值,所述权重因子是用于从提取出的字符串中选择所述构成要素的指数。
本发明的第九方面提供根据第四方面或第六方面所述的图像处理装置,其中,所述多个选择部中的一个选择部执行如下处理:选择第二字符串作为所述构成要素,所述第二字符串与配置要素相对应,所述配置要素设置在所述原稿中并构成所述原稿,并且所述配置要素不同于所述字符串。
本发明的第十方面提供根据第四方面或第六方面所述的图像处理装置,其中,所述多个选择部中的一个选择部将提取出的字符串中的采用所述第一语言的第三字符串的权重因子设置为比提取出的字符串中除了所述第三字符串之外的字符串的权重因子高出预定值,所述权重因子是用于从提取出的字符串中选择所述构成要素的指数。
本发明的第十一方面提供根据第五方面或第六方面所述的图像处理装置,其中,所述多个转换部中的一个转换部将提取出的一个或多个字符串翻译为所述第一语言。
本发明的第十二方面提供根据第五方面或第六方面所述的图像处理装置,其中,所述多个转换部中的一个转换部将提取出的一个或多个字符串转换为表述所述一个或多个字符串的发音的字符串。
本发明的第十三方面提供根据第五方面或第六方面所述的图像处理装置,其中,所述多个转换部中的一个转换部将提取出的一个或多个字符串的字符代码转换为所述字符串的对应的不同字符代码。
根据本发明的第十四方面,提供一种图像处理方法,包括:记录第一语言和不同于所述第一语言的第二语言;从通过读取原稿而获取的读取信息中提取一个或多个字符串;基于提取出的一个或多个字符串来生成所述原稿的特征字符串;以及基于所记录的第一语言和所记录的第二语言的组合对用于生成所述特征字符串的特征字符串生成部进行切换。
根据本发明的第一方面至第三方面,可以提供一种图像处理装置,该图像处理装置可以生成能被所述原稿的读者理解的特征字符串。
根据本发明的第四方面,除了具有由本发明的第一方面至第三方面实现的优点之外,还可以基于能被所述原稿的读者识别的语言与所述原稿的语言的组合来选择所述特征字符串的构成要素。
根据本发明的第五方面,除了具有由本发明的第一方面至第三方面实现的优点之外,还可以生成基于能被所述原稿的读者识别的语言与所述原稿的语言的组合而转换的特征字符串。
根据本发明的第六方面,除了具有由本发明的第一方面至第三方面实现的优点之外,还可以基于能被所述原稿的读者识别的语言与所述原稿的语言的组合来转换被选择的特征字符串的所述构成要素。
根据本发明的第七方面,除了具有由本发明的第四方面或第六方面实现的优点之外,还可以生成如下特征字符串:所述特征字符串包括在所述原稿中的出现频率较高的字符串。
根据本发明的第八方面,除了具有由本发明的第四方面或第六方面实现的优点之外,还可以生成如下特征字符串:所述特征字符串包括比所述原稿中的其它字符串更加高度可见的字符串。
根据本发明的第九方面,除了具有由本发明的第四方面或第六方面实现的优点之外,即使当所述原稿不包括任何字符串时,或者当所述原稿只包括不能识别的字符串时,仍然可以生成特征字符串。
根据本发明的第十方面,除了具有由本发明的第四方面或第六方面实现的优点之外,还可以减少后续处理内容。
根据本发明的第十一方面,除了具有由本发明的第五方面或第六方面实现的优点之外,还可以生成被翻译为能被所述原稿的读者识别的语言的特征字符串。
根据本发明的第十二方面,除了具有由本发明的第五方面或第六方面实现的优点之外,还可以生成能在所述原稿的读者的环境下被识别的特征字符串。
根据本发明的第十三方面,除了具有由本发明的第五方面或第六方面实现的优点之外,还可以生成能在所述原稿的读者的环境下被识别的特征字符串。
根据本发明的第十四方面,可以提供一种图像处理方法,所述图像处理方法可以生成能被所述原稿的读者理解的特征字符串。
附图说明
将基于以下附图详细描述本发明的示例性实施例,其中:
图1是示出根据本发明示例性实施例的图像处理装置的硬件构造的示意图;
图2是示出在图1所示的图像处理装置中操作的处理程序的示意图;
图3是示出图2所示的特征字符串生成单元的构造的示意图;
图4是示出存储在图2所示的被提取字符串管理单元中的字符串列表的示意图;
图5A至图5G是示出切换表的示意图;
图6是示出处理程序的处理流程的流程图;
图7A和图7B是分别示出在根据示例性实施例的图像处理装置中处理的原稿的实例和字符串的提取结果的实例的示意图;
图8是示出当图7A和图7B所示的原稿的读者语言是日语时的特征字符串生成单元的处理的示意图;
图9是示出当图7A和图7B所示的原稿的读者语言是汉语时的特征字符串生成单元的处理的示意图;
图10是示出当图7A和图7B所示的原稿的读者语言是韩语时的特征字符串生成单元的处理的示意图;以及
图11是示出当图7A和图7B所示的原稿的读者语言是汉语时的特征字符串生成单元的处理的示意图。
具体实施方式
图1是示出根据本发明示例性实施例的图像处理装置2的硬件构造的示意图。
如图1所示,图像处理装置2包括控制装置21、通信装置22、记录装置24、用户接口(UI)装置25、打印装置26和图像读取装置27,控制装置21包括例如CPU等计算单元212和例如存储器等存储单元214。
UI装置25包括例如LCD(液晶显示器)显示装置或CRT(阴极射线管)显示装置等显示装置、键盘和触摸面板。
打印装置26是例如打印机,并且将字符数据或图像数据打印在例如纸张(片材)等记录介质上。
图像读取装置27是例如扫描仪,并且从原稿等记录介质读取图像并将所读取的图像转换为例如位图格式的读取信息。
也就是说,图像处理装置2具有例如计算机等硬件构成部分,该硬件构成部分能够执行信息处理并且能够与其它的图像处理装置或终端进行通信。
在下文要描述的附图中,以相同的附图标号和标记表示大致相同的部件和处理。
虽然在本示例性实施例中指出图像处理装置2包括打印装置26和图像读取装置27,但图像处理装置可以是例如不包括打印装置和图像读取装置的个人计算机(PC)。在这种情况下,图像处理装置可以经由LAN(局域网)等而与图像读取装置相连。
图2是示出在图1所示的图像处理装置2中操作的处理程序3的构成的示意图。
如图2所示,处理程序3包括原稿读取信息接收单元302、配置分析单元304、字符识别单元306、语素分析单元308、字符串提取单元310、被提取字符串管理单元312、读者语言记录单元320、原稿语言记录单元322、语言组合确定单元324、切换单元326和特征字符串生成单元40。
利用存储介质240(图1)将处理程序3提供给图像处理装置2,将处理程序3载入存储单元214中,并且在安装于图像形成装置2中的操作系统(OS)(未示出)上特别地使用图像处理装置2的硬件资源来执行处理程序3。
虽然在本示例性实施例中指出处理程序3的功能是由软件来实现的,但处理程序3的全部或部分功能也可以由FPGA(现场可编程门阵列)等硬件来实现。
图3是示出图2所示的特征字符串生成单元40的构造的示意图。
这里,“特征字符串”是用户用来识别原稿的字符串,并且“特征字符串”在原稿被转换为电子数据(电子文件)时,例如是电子数据的名称或存储该电子数据的路径文件夹(目录)的名称。
如图3所示,特征字符串生成单元40包括构成要素选择单元42、构成要素转换单元44和特征字符串确定单元46。
构成要素选择单元42包括出现频率优先选择部420、读者语言优先选择部422、复合字符串优先选择部424、位置/规模优先选择部426、配置要素优先选择部428和手动选择部430。
构成要素转换单元44包括翻译部440、语音表述(标音)部442、字符代码转换部444、无转换部446和手动转换部448。
特征字符串确定单元46包括连接标记插入结合部460、头字符转换结合部462、无转换结合部464、顺序改变结合部466和手动结合部468。
也可以将组成特征字符串生成单元40的构成要素选择单元42、构成要素转换单元44和特征字符串确定单元46称为“特征字符串生成部”。
类似地,也可以将组成构成要素选择单元42的出现频率优先选择部420、读者语言优先选择部422、复合字符串优先选择部424、位置/规模优先选择部426、配置要素优先选择部428和手动选择部430,组成构成要素转换单元44的翻译部440、语音表述部442、字符代码转换部444、无转换部446和手动转换部448,以及组成特征字符串确定单元46的连接标记插入结合部460、头字符转换结合部462、无转换结合部464、顺序改变结合部466和手动结合部468称为“特征字符串生成部”。
在处理程序3(图2)中,原稿读取信息接收单元302接收从图像读取装置27获取的读取信息(原稿读取信息)并存储所接收的原稿读取信息,以便将原稿读取信息提供给配置分析单元304的处理。
配置分析单元304分析原稿读取信息,将原稿中的例如字符、表及照片等自然图像、计算机图形(CG)或绘画分类(将对象分类),指定被分类对象(例如字符、表及照片等自然图像、CG或绘画,在下文中将这些称为“配置要素”)的区域,并且将位置信息与配置要素相关联。
配置分析单元304将表示分析结果的信息作为配置信息输出至字符识别单元306和特征字符串生成单元40。
这里,配置信息是如下信息:该信息表示在与原稿读取信息相对应的原稿中配置有什么对象,以及该对象以怎样的规模配置在什么位置。
“配置信息”包括表示配置要素的位置的位置信息和表示配置要素的规模(尺寸或面积)的规模信息。
这里,位置信息可以表示例如位置坐标等绝对位置,或者可以表示与其它字符串的相对位置关系。
类似地,规模信息可以表示配置要素的例如字体或占据面积等绝对规模,或者可以表示相对于另一配置要素的相对规模,或者可以表示与配置要素的规模的平均值的差值。
配置分析单元304例如通过检测原稿中的各种线、框线及格线(ruled line)或者颜色信息,检测边缘以及图案匹配来执行配置要素的分类。然而,该分类处理不限于这些方法。
字符识别单元306通过指定用配置信息来描述其字符的区域并且对该区域(字符区域)执行例如OCR(光学字符识别)功能来识别字符。
这里,字符的识别指的是:指定通过读取而获取的字符,并且通过将该字符的图像数据与预先存储的图案相组合来生成字符数据。
字符识别单元306将所生成的字符数据输出至语素分析单元308。
这里,字符数据(及稍后描述的字符串)可以用例如移位JIS码、ASCII码(美国信息互换标准代码)或统一码(Unicode)等字符代码来表示。
这里,字符代码是如下代码(其表示对应关系):该代码表示当不将字符作为例如图像等图形数据而是作为例如计算机等电子介质中的文本数据来处理时的字符和语句。
语素分析单元308通过对字符识别单元306所获取的字符数据执行语素分析处理来将由字符数据表示的句子分割为语素(字符串),并且将属性信息赋予分割出的语素。
语素分析单元308将被赋予属性信息的字符串的组(字符串组)输出至字符串提取单元310。
这里,语素分析指的是如下处理:基于预先存储的语法规则的信息和存有词语的字典将语句分割成作为语素(具有意义的最小语言单位)的字符串并且判断分割出的语素(字符串)的词类。
在该语素分析处理中,还判断字符串的语言(判断字符串是日语、英语、汉语、韩语及其它语言中的哪种语言)。
在语素分析处理中,判断字符串是否为复合字符串。
这里,复合字符串指的是包括多个词语的字符串。
例如,由于字符串“市场规模”包括两个词语“市场”和“规模”,所以判断出该字符串为复合字符串。
属性信息是表示例如字符串的词类(名词、动词等)和字符串的语言等字符串属性的信息,并且属性信息包括表示字符串的词类的字符串词类信息和表示字符串的语言的字符串语言信息。
当字符串是复合字符串时,属性信息包括表示字符串是复合字符串的事实的信息(复合字符串信息)。
字符串提取单元310从由语素分析单元308输入的字符串组中提取被赋予预定的指定属性信息的字符串。
字符串提取单元310基于预定基准将提取出的字符串排序,并且以该顺序列举提取出的字符串。
字符串提取单元310将列举出的字符串的列表(字符串列表)输出至被提取字符串管理单元312。
被提取字符串管理单元312存储来自字符串提取单元310的字符串列表并且管理该字符串列表,以便将该字符串列表提供给特征字符串生成单元40进行处理。
图4是示出存储于图2所示的被提取字符串管理单元312中的字符串列表的示意图。
如图4所示,字符串列表包括字符串、出现频率的顺位、出现频率、及各个字符串的属性信息。属性信息包括字符串词类信息、字符串语言信息及复合字符串信息。
在图4所示的实例中,字符串“複合機”的顺位是1,该字符串的出现频率是5次,该字符串的词类是“名词”,该字符串的语言是“日语”,并且该字符串不是复合字符串。
字符串“FujiXerox”的顺位是3,该字符串的出现频率是3次,该字符串的词类是“名词”,该字符串的语言是“英语”,并且该字符串是复合字符串。
字符串提取单元310(图2)可以从字符串组中提取例如被赋予如下属性信息的字符串,该属性信息的字符串词类信息表明为名词。
例如,字符串提取单元310可以从在原稿中出现的频率(出现频率)最大的字符串开始依次地列举字符串。
这里,字符串提取单元310可以不列举出现频率等于或低于预定频率的字符串或者出现频率的顺位低于预定顺位的字符串,而是可以跳过这些字符串。
字符串提取单元310可以在列举字符串时将权重因子赋予字符串,该权重因子表示与该字符串的顺位或出现频率相对应的权重。
例如,当字符串“複合機”的出现频率最高、字符串“販壳”的出现频率第二高、并且字符串“伝票”的出现频率第三高时,字符串提取单元310可以将10.0的权重因子赋予字符串“複合機”,可以将8.0的权重因子赋予字符串“販壳”,并且可以将6.0的权重因子赋予字符串“伝票”。
字符串提取单元310可以基于语法规则来列举字符串,或者可以基于词语的预定属性来列举字符串。
例如,字符串提取单元310可以基于普通名词或专有名词等名词的类型来列举字符串,或者可以列举具有高顺位的在语句中用作主语的字符串。
可以利用切换单元326(稍后描述)来改变字符串提取单元310对字符串排序的基准。
读者语言记录单元320记录能够被原稿的读者识别的语言(读者语言),并且将表示所记录的读者语言的信息(读者语言信息)输出至语言组合确定单元324。
例如,当原稿的读者能够识别日语时,读者语言是日语。当原稿的读者能够识别汉语时,读者语言是汉语。
读者语言记录单元320可以例如通过从UI装置25接收由用户对UI装置25进行操作而获取的读者语言信息来记录读者语言。
读者语言记录单元320可以在无需用户去操作UI装置25的情况下记录读者语言。
例如,读者语言记录单元320存储预先将读者的鉴别信息与读者语言彼此关联的读者语言表,并且读者语言记录单元320可以通过将读者语言表与读者的鉴别信息相组合来记录读者语言,读者的鉴别信息是通过用鉴别卡读取装置(未示出)来读取读者的鉴别卡而获取的。
当图像处理装置2安装在读者的周围时,例如当原稿的读者等同于图像处理装置2的用户时,图像处理装置2可以预先存储读者语言信息,并且可以基于所存储的读者语言信息来记录读者语言。当预先将读者的鉴别信息嵌入原稿中时,例如当原稿中描述了原稿的读者姓名时,字符识别单元306可以通过利用字符识别来识别所嵌入的读者鉴别信息,从而获取与读者鉴别信息相对应的字符串,并且读者语言记录单元320可以通过将读者语言表与对应于所获取的读者鉴别信息的字符串相组合来记录读者语言。
当多位读者读取原稿时,读者语言记录单元320可以记录多种读者语言。
原稿语言记录单元322记录原稿的语言(原稿语言)并且将表示所记录的原稿语言的信息(原稿语言信息)输出至语言组合确定单元324。
例如,当在原稿中出现的字符串中语言是日语的字符串的比例最大时,原稿语言是日语,并且当语言是汉语的字符串的比例最大时,原稿语言是汉语。
原稿语言记录单元322可以例如通过从UI装置25接收由用户对UI装置25进行操作而获取的原稿语言信息来记录原稿语言。
原稿语言记录单元322可以在无需用户去操作UI装置25的情况下记录原稿语言。
例如,语素分析单元308可以判断原稿中出现的字符串的语言,并且原稿语言记录单元322可以通过判断以最大的比例出现的字符串的语言来记录原稿语言。
语言组合确定单元324可以基于来自读者语言记录单元320的读者语言信息和来自原稿语言记录单元322的原稿语言信息,确定读者语言与原稿语言的组合。
语言组合确定单元324将表示读者语言与原稿语言的组合的信息(语言组合信息)输出至切换单元326。
切换单元326基于来自语言组合确定单元324的语言组合信息对用于在特征字符串生成单元40中生成特征字符串的特征字符串生成部进行切换。
具体地说,切换单元326基于语言组合信息和切换表(稍后参考图5A至图5G进行描述)来控制特征字符串生成单元40的构成要素选择单元42、构成要素转换单元44和特征字符串确定单元46,以便对用于生成特征字符串的特征字符串生成部进行切换。
图5A至图5G是示出切换表的示意图。
切换表表示语言组合与特征字符串生成单元40的构成要素选择单元42、构成要素转换单元44和特征字符串确定单元46所构成的用于生成特征字符串的特征字符串生成部之间的对应关系。
切换表可以预先存储在图像处理装置2中,或者可以由用户对UI装置25进行操作来适当地修正。
在图5A至图5G所示的实例中,例如,在读者语言是日语并且原稿语言是日语的组合的情况(图5A所示的情况)下,切换单元326将特征字符串生成单元40的构成要素选择单元42切换为出现频率优先选择部420和复合字符串优先选择部424,将构成要素转换单元44切换为无转换部446,并且将特征字符串确定单元46切换为连接标记插入结合部460。
在图5A至图5G所示的实例中,在读者语言是汉语并且原稿语言是日语的组合的情况(图5B所示的情况)下,切换单元326将特征字符串生成单元40的构成要素选择单元42切换为出现频率优先选择部420,将构成要素转换单元44切换为翻译部440,并且将特征字符串确定单元46切换为连接标记插入结合部460。
在图5A、图5E、图5F和图5G所示的情况下,切换单元326可以控制特征字符串生成单元40,以便使用构成要素选择单元42的多个特征字符串生成部。
类似地,如图5C和图5F所示的情况,切换单元326可以控制特征字符串生成单元40,以便使用构成要素转换单元44的多个特征字符串生成部,或者如图5E所示的情况,切换单元326可以控制特征字符串生成单元40,以便使用特征字符串确定单元46的多个特征字符串生成部。
在特征字符串生成单元40中(图2和图3),切换单元326切换用于生成特征字符串的特征字符串生成部,然后使用切换后的特征字符串生成部生成特征字符串。
构成要素选择单元42从被提取字符串管理单元312提取字符串列表,从字符串列表所包括的字符串中选择一个或多个字符串作为特征字符串的构成要素(在下文中,简称为“构成要素”),并且将所选择的构成要素输出至构成要素转换单元44。
具体地说,构成要素选择单元42通过使用构成要素选择单元42的特征字符串生成部之中由切换单元326设定的一个或多个特征字符串生成部,从被赋予最大权重因子的字符串开始依次地选择预定数目的字符串(与构成要素的数目相对应)。
由构成要素选择单元42选择的字符串的数目可以是恒定的而与语言组合无关,或者可以基于语言组合而适当地切换。
当在选择出的构成要素中存在不能被构成要素转换单元44的切换后的特征字符串生成部转换的构成要素时(例如,当构成要素是特殊的汉语词语时),构成要素选择单元42可以从没有被选为构成要素的字符串中选择具有最大权重因子的字符串,来代替不能被转换的构成要素。
出现频率优先选择部420对字符串列表中所包括的字符串从具有最高出现频率的字符串开始依次地赋予递减的权重因子。
例如,当字符串“複合機”的出现频率最高、字符串“販壳”的出现频率第二高、并且字符串“伝票”的出现频率第三高时,出现频率优先选择部420将10.0的权重因子赋予字符串“複合機”,将8.0的权重因子赋予字符串“販壳”,并且将6.0的权重因子赋予字符串“伝票”。
出现频率优先选择部420可以基于字符串的出现频率(出现的次数)而不是字符串的出现频率的顺位,将权重因子赋予字符串。
当字符串提取单元310赋予权重因子时,出现频率优先选择部420可以基于预定基准来改变由字符串提取单元310赋予的权重因子。
允许出现频率优先选择部420赋予权重因子的基准可以是恒定的而与语言组合无关,或者可以基于语言组合而适当地切换。
当字符串列表所包括的字符串中存在如下的字符串时,读者语言优先选择部422将该字符串的权重因子增加预定值,该字符串被赋予表示与读者语言相同的语言的字符串语言信息。
例如,读者语言优先选择部422可以把被赋予表示与读者语言相同的语言的字符串语言信息的字符串的权重因子乘以预定值(例如,把权重因子加倍),或者可以把预定值加到权重因子上(例如,把2.0加到权重因子上)。
当字符串不是与读者语言相同的语言时,例如,当读者语言是英语而原稿语言是日语时,读者语言优先选择部422可以例如将以片假名表述英语词语的字符串(例如,字符串“プログラム”是英语词语“program”的片假名表述)作为英语来处理。
当字符串列表所包括的字符串中存在被赋予表示复合字符串的复合字符串信息的字符串时,复合字符串优先选择部424将字符串的权重因子增加预定值。
例如,复合字符串优先选择部424可以把被赋予复合字符串信息的字符串的权重因子乘以预定值(例如,把权重因子乘以5),或者可以把预定值加到权重因子上(例如,把5.0加到权重因子上)。
当复合字符串的权重因子等于或大于构成该复合字符串的字符串的权重因子时,复合字符串优先选择部424可以将该复合字符串中的该字符串删除,以使该复合字符串中的该字符串不被选为构成要素。
与读者语言优先选择部422类似,位置/规模优先选择部426把在原稿中处于预定位置的字符串的权重因子或具有预定规模的字符串的权重因子增大预定值。
例如,当字符串在竖直方向上比原稿中的预定位置设置得更高并且在水平方向上设置在距原稿中心的预定范围之内时,位置/规模优先选择部426把字符串的权重因子增加预定值。
例如,当字符串的规模等于或大于预定值时,位置/规模优先选择部426把字符串的权重因子增加预定值。
位置/规模优先选择部426可以基于字符串的位置或规模来逐渐地增加字符串的权重因子。
当配置分析单元304判断出原稿中包括预定配置要素时,配置要素优先选择部428选择表示配置要素的字符串(配置要素字符串)并且将预定权重因子赋予该配置要素字符串。
例如,当原稿中包括配置要素“照片”时(即使当字符串提取单元310没有提取出字符串“照片”时),配置要素优先选择部428选择配置要素字符串“照片”并且将预定权重因子赋予该配置要素字符串。
配置要素优先选择部428的用于确定将权重因子赋予配置要素的基准以及确定将权重因子赋予哪个配置要素的基准可以是恒定的而与语言组合无关,或者可以基于语言组合而适当地切换。
配置要素字符串可以是读者语言的字符串。
手动选择部430使得UI装置25显示用于催促用户选择构成要素的消息,并且接收用户对UI装置25进行操作所选择(输入)的字符串。
手动选择部430可以控制UI装置25,以便使用户输入字符串列表中不包括的字符串。在这种情况下,手动选择部430可以控制UI装置25,以便使用户输入读者语言的字符串。
用于使读者语言优先选择部422、复合字符串优先选择部424和位置/规模优先选择部426将权重因子增加预定值的基准可以是恒定的而与语言组合无关,或者可以基于语言组合而适当地切换。
虽然在本示例性实施例中指出读者语言优先选择部422、复合字符串优先选择部424和位置/规模优先选择部426使由出现频率优先选择部420赋予给字符串的权重因子增加预定值,但读者语言优先选择部422、复合字符串优先选择部424和位置/规模优先选择部426可以独立于出现频率优先选择部420执行该处理。
也就是说,例如,当读者语言中的字符串的数目等于或大于构成要素的数目时,读者语言优先选择部422可以只选择读者语言中的字符串作为构成要素,而不考虑出现频率。
例如,当读者语言中的字符串的数目小于构成要素的数目时,读者语言优先选择部422可以将最大权重因子赋予读者语言中所存在的字符串,以便选择该字符串作为构成要素,并且,出现频率优先选择部420可以选择其它的构成要素。
构成要素转换单元44通过使用构成要素转换单元44的特征字符串生成部中由切换单元326切换的一个或多个特征字符串生成部,对由构成要素选择单元42选择的构成要素进行转换。
构成要素转换单元44将已转换的构成要素输出至特征字符串确定单元46。
翻译部440例如使用预先存储的翻译词典将构成要素翻译为读者语言。
这里,翻译词典是用于将原稿语言翻译为读者语言的信息(数据库),并且翻译词典将原稿语言中的字符串与读者语言中的对应(与原稿语言具有相同的含义)字符串彼此相关联地进行存储。
例如,如果读者语言是英语且原稿语言是日语,所选择的构成要素是“合計”,在翻译词典中日语字符串“合計”与英语字符串“total”相关联,则翻译部440将构成要素“合計”翻译为“total”。
语音表述部442利用例如预先存储的发音词典将构成要素的发音转换为例如表达欧洲字符(字母数字字符和预定符号)等的预定字符代码(发音字符代码),并且语音表述部442利用字符代码所表达的字符对语素进行表述。
这里,发音字符代码是例如ASCII码等使用1个字节(由计算机处理的最小数据单位)来表达字符的字符代码。
这里,发音词典是用于表述在发音上与发音字符代码相对应的原稿语言的信息(数据库)并且存储原稿语言中的字符串;并且,使用彼此相关联的发音字符代码来表述发音与原稿语言中的字符串相对应的字符串。
例如,当所选择的构成要素是“合計”时,语音表述部442将构成要素“合計”表述为罗马字符(欧洲字符)“goukei”。
字符代码转换部444例如使用预先存储的转换表来将表达构成要素的字符代码转换为能够在读者环境中被识别的对应的不同字符代码,并且,字符代码转换部444利用已转换的字符代码表达的字符对构成要素进行表述。
这里,例如,构成要素是汉语字符,转换表以汉语、日语及韩语示出汉语字符的字符代码(用于对与具有相同含义但具有不同表述的汉语字符进行表述的字符代码)的对应关系。
例如,转换表示出如下对应关系:其中,汉语字符以汉语的字符代码Big5(大五码)来表达,并且以日语的字符代码移位JIS码来表达。
转换表还示出作为构成要素的字符串的字符代码与对应于该字符串的例如Unicode等以通用语言统一并表述字符串的字符代码之间的对应关系。
例如,当读者语言与原稿语言相同时,无转换部446不对构成要素执行任何转换处理,并且将构成要素输出至特征字符串确定单元46。
手动转换部448控制UI装置25来显示用于促使用户对构成要素进行转换的消息,接收由用户对UI装置25进行操作而转换的字符串作为构成要素,并且将该构成要素输出至特征字符串确定单元46。
特征字符串确定单元46通过使用特征字符串确定单元46的特征字符串生成部中由切换单元326设定的一个或多个特征字符串生成部,结合被构成要素转换单元44转换的构成要素(包括没有被无转换部446转换的构成要素)来确定特征字符串。
特征字符串确定单元46执行使UI装置25显示所确定的特征字符串的处理。
当使UI装置25显示所确定的特征字符串时,特征字符串确定单元46可以执行处理,以便用户能够使用UI装置25来修正该特征字符串。
顺序改变结合部466执行如下处理:基于读者语言和原稿语言的组合,把转换后的构成要素改变为与读者语言的语法相对应的顺序,并且以改变后的顺序将构成要素结合起来。
例如,顺序改变结合部466利用语素分析处理把转换后的构成要素的顺序改变为与读者语言的语法相对应的顺序。
当不使用顺序改变结合部466时,特征字符串中的构成要素的顺序可以与由构成要素选择单元42所选择的顺序(即,权重因子递减的顺序)相同。
连接标记插入结合部460执行如下处理:在将转换后的构成要素结合起来时,在构成要素之间插入例如“_”(下横线)等连接标记。
头字符转换结合部462执行如下处理:在将转换后的构成要素结合起来时,将各个构成要素的头字符转换为与该头字符相对应的字符。
例如,当转换后的构成要素采用欧洲字符时,头字符转换结合部462将构成要素的头字符由小写字符转换为大写字符。
无转换结合部464执行如下处理:在将转换后的构成要素结合起来时,对构成要素进行结合,而不对构成要素执行任何转换处理。
手动转换部448使得UI装置25显示促使用户在构成要素之间插入任意标记且将构成要素顺序地结合起来的消息,并且手动转换部448把用户对UI装置25进行操作所确定的字符串确定为特征字符串。
将逐项地描述图5A至图5G所示的实例中的特征字符串生成单元40的处理。
稍后将参考图7A、图7B及图8至图11A来具体地描述原稿语言是日语并且读者语言是日语、汉语及韩语的情况(图5A至图5D所示的情况)。
在读者语言是英语并且原稿语言是日语的情况(图5E所示的情况)下,切换单元326将构成要素选择单元42切换为出现频率优先选择部420和读者语言优先选择部422,将构成要素转换单元44切换为翻译部440,并且将特征字符串确定单元46切换为头字符转换结合部462和顺序改变结合部466。
出现频率优先选择部420依次将权重因子赋予字符串列表中所包括的字符串,使出现频率较高的字符串具有较高权重因子。
当字符串列表中存在以英语作为读者语言的英语字符串时,读者语言优先选择部422将由出现频率优先选择部420赋予给英语字符串的权重因子增加预定值。
构成要素选择单元42从利用上述处理被赋予权重因子的字符串中的最高权重因子开始依次地选择与预定数目的构成要素相对应的字符串作为构成要素。
翻译部440把由构成要素选择单元42选择的构成要素从日语翻译为英语。
翻译部440可以不翻译原稿语言是英语的构成要素。
头字符转换结合部462把被翻译为英语的各个构成要素的头字符从小写字符转换为大写字符。
顺序改变结合部466按照与英语语法相对应的顺序对被翻译为英语的构成要素进行排列。
特征字符串确定单元46将头字符已经被转换成大写字符且已排列成与英语语法对应的构成要素结合起来,以便确定特征字符串。
在读者语言是日语并且原稿语言是汉语的情况(图5F所示的情况)下,切换单元326将构成要素选择单元42切换为出现频率优先选择部420和位置/规模优先选择部426,将构成要素转换单元44切换为字符代码转换部444和语音表述部442,并且将特征字符串确定单元46切换为连接标记插入结合部460。
出现频率优先选择部420依次将权重因子赋予字符串列表中所包括的字符串,使得出现频率较高的字符串具有较高权重因子。
当字符串在竖直方向上比原稿中的预定位置设置得更高、在水平方向上设置在距原稿中心的预定范围之内、并且字符串的规模等于或大于预定值时,位置/规模优先选择部426把赋予给字符串的权重因子增加预定值。
构成要素选择单元42从利用上述处理被赋予权重因子的字符串中的最高权重因子开始依次地选择与预定数目的构成要素相对应的字符串作为构成要素。
字符代码转换部444把以汉语字符代码表达的构成要素所构成的字符串代码转换为日语字符代码,并且利用转换后的字符代码所表达的字符对构成要素进行表述。
语音表述部442将汉语构成要素中不具有日语字符代码的构成要素的发音转换为发音字符代码,并且将该构成要素表述为由发音字符代码表达的字符。
连接标记插入结合部460把按照由构成要素选择单元42选择的顺序(即,权重因子递减的顺序)排列的转换后的构成要素结合起来,在构成要素之间插入有连接标记,以便确定特征字符串。
在读者语言是日语并且原稿语言是X语言(语言的类型不能被鉴别)的情况(图5G所示的情况)下,切换单元326将构成要素选择单元42切换为配置要素优先选择部428和手动选择部430,将构成要素转换单元44切换为手动转换部448,并且将特征字符串确定单元46切换为手动结合部468。
当原稿包括预定配置要素(例如,照片)时,配置要素优先选择部428选择配置要素字符串(例如,字符串“照片”)并且将预定权重因子赋予该配置要素字符串。
手动选择部430控制UI装置25,以便允许用户输入字符串。
构成要素选择单元42选择以下字符串作为构成要素:由配置要素优先选择部428选择的字符串(配置要素字符串),以及由手动选择部430接收的作为UI装置25上的操作结果的字符串。
手动转换部448使得UI装置25显示如下消息:该消息用于促使用户转换构成要素,并且手动转换部448接收由用户对UI装置25进行操作而转换的字符串作为构成要素。
当以读者语言表达由构成要素选择单元42选择的构成要素时,用户不必操作UI装置25来执行转换处理。
手动结合部468使得UI装置25显示促使用户在构成要素之间插入标记以按任意顺序将构成要素结合起来的消息,并且手动结合部468把由用户对UI装置25进行操作所确定的字符串确定为特征字符串。
图6是示出处理程序3的处理流程的流程图(S10)。
在步骤100(S100)中,读者语言记录单元320记录读者语言。
在步骤102(S102)中,原稿语言记录单元322记录原稿语言。
在步骤104(S104)中,原稿读取信息接收单元302接收从图像读取装置27获取的原稿读取信息。
在步骤106(S106)中,配置分析单元304分析原稿读取信息,指定原稿中的配置要素的区域,并且生成配置信息。
在步骤108(S108)中,字符识别单元306识别根据配置信息而指定的字符区域中的字符,并且生成字符数据。
在步骤110(S110)中,语素分析单元308对由字符识别单元306识别的字符数据执行语素分析处理,并且将属性信息赋予语素(字符串)。
在步骤112(S112)中,字符串提取单元310从语素分析单元308所接收的字符串组中提取被赋予预定的指定属性信息的字符串。
在步骤114(S114)中,切换单元326基于语言组合信息对用于在特征字符串生成单元40中生成特征字符串的特征字符串生成部进行切换。
在步骤116(S116)中,构成要素选择单元42利用由切换单元326设定的一个或多个特征字符串生成部将权重因子赋予特征字符串列表中所包括的字符串,并且从具有最大权重因子的字符串开始来依次地选择与构成要素的数目相对应的字符串作为构成要素。
在步骤118(S118)中,构成要素转换单元44利用构成要素转换单元44的特征字符生成部中由切换单元326设定的一个或多个特征字符串生成部,对选择出的构成要素进行转换。
在步骤120(S120)中,特征字符串确定单元46通过利用特征字符串确定单元46的特征字符生成部中由切换单元326设定的一个或多个特征字符串生成部,将转换后的构成要素结合起来以确定特征字符串。
下面将参考具体实例来描述根据本示例性实施例的图像处理装置2的处理流程。
图7A和图7B是示出在根据本示例性实施例的图像处理装置2中处理的原稿的实例和字符串的提取结果的实例的示意图,其中,图7A示出原稿的实例,图7B示出字符串提取结果的实例。
由于图7A所示的原稿主要用日语记载,所以原稿语言是日语。
基于原稿利用字符串提取单元310的处理,以图7B所示的顺序提取字符串。
图8是示出在图7A和图7B所示的原稿的读者语言是日语的情况下的特征字符串生成单元40的处理流程的示意图。
图8所示的情况与图5A所示的情况相对应。
在这种情况下,切换单元326将构成要素选择单元42切换为出现频率优先选择部420和复合字符串优先选择部424,将构成要素转换单元44切换为无转换部446,并且将特征字符串确定单元46切换为连接标记插入结合部460。
出现频率优先选择部420从图8所示的出现频率最高的字符串开始依次地将权重因子赋予图7B所示的字符串。
复合字符串优先选择部424将复合字符串“富士ゼロツクス”和“販壳金額”的权重因子增大至五倍,如图8所示。
由于字符串“販壳”的权重因子是9.0并且字符串“金額”的权重因子是6.0但权重因子更大的复合字符串“販壳金額”中包括字符串“販壳”和“金額”,所以删除字符串“販壳”和“金額”。
当构成要素的数目是4时,构成要素选择单元42选择如下四个高顺位的字符串作为构成要素:权重因子较大的“富士ゼロツクス”、“販壳金額”、“複合機”和“伝票”。
无转换部446不对构成要素“富士ゼロツクス”、“販壳金額”、“複合機”和“伝票”执行转换处理。
连接标记插入结合部460在构成要素之间插入连接标记“_”并且将构成要素结合起来,以生成图8所示的特征字符串。
这里,当读者语言为汉语和韩语的读者的PC显示字符串“富士ゼロツクス販壳金額複合機伝票”时,在该PC中难以设置上述日语字符代码。因此,不能正确地显示该字符串,并且会发生所谓的乱码。
图9是示出在图7A和图7B所示的原稿的读者语言是汉语的情况下的特征字符串生成单元40的处理流程的示意图。
图9所示的情况与图5B所示的情况相对应。
在这种情况下,切换单元326将构成要素选择单元42切换为出现频率优先选择部420,将构成要素转换单元44切换为翻译部440,并且将特征字符串确定单元46切换为连接标记插入结合部460。
出现频率优先选择部420从图8所示的出现频率最高的字符串开始依次地将权重因子赋予图7B所示的字符串。
当构成要素的数目是4时,构成要素选择单元42选择如下四个高顺位的字符串作为构成要素:权重因子较大的“複合機”、“販壳”、“伝票”和“富士ゼロツクス”。
翻译部440将构成要素“複合機”、“販壳”、“伝票和“富士ゼロツクス”翻译为汉语。
连接标记插入结合部460在构成要素之间插入连接标记“_”并且将构成要素结合起来,以便生成图9所示的特征字符串。
图10是示出在图7A和图7B所示的原稿的读者语言是韩语的情况下的特征字符串生成单元40的处理流程的示意图。
图10所示的情况与图5D所示的情况相对应。
在这种情况下,切换单元326将构成要素选择单元42切换为出现频率优先选择部420,将构成要素转换单元44切换为语音表述部442,将特征字符串确定单元46切换为头字符转换结合部462。
出现频率优先选择部420从图10所示的出现频率最高的字符串开始依次地将权重因子赋予图7B所示的字符串。
当构成要素的数目是4时,构成要素选择单元42选择如下四个高顺位的字符串作为构成要素:权重因子较大的“複合機”、“販壳”、“伝票”和“富士ゼロツクス”。
语音表述部442将构成要素“複合機”、“販壳”、“伝票”和“富士ゼロツクス”转换为表述上述构成要素发音的字符(罗马字符),如图10所示。
头字符转换结合部462将转换后的构成要素的头字符转换为大写字符,然后将上述构成要素结合起来,以便生成图10所示的特征字符串。
图11是示出在图7A和图7B所示的原稿的读者语言是汉语的情况下的特征字符串生成单元40的处理流程的示意图。
图11所示的情况与图5C所示的情况相对应。
在这种情况下,切换单元326将构成要素选择单元42切换为出现频率优先选择部420,将构成要素转换单元44切换为语音表述部442和字符代码转换部444,将特征字符串确定单元46切换为连接标记插入结合部460。
出现频率优先选择部420从图11所示的出现频率最高的字符串开始依次地将权重因子赋予图7B所示的字符串。
当构成要素的数目是4时,构成要素选择单元42选择如下四个高顺位的字符串作为构成要素:权重因子较大的“複合機”、“販壳”、“伝票”和“富士ゼロツクス”。
字符代码转换部444将表述构成要素汉语字符的字符代码(例如,移位JIS码)转换为对应的汉语字符代码(例如,Big5码),并且将构成要素表述为由已转换的字符代码表达的字符,如图11所示。
语音表述部442将没有对应汉语字符代码的字符串“ゼロツクス”转换为表述该字符串发音的字符,如图11所示。
连接标记插入结合部460在转换后的构成要素之间插入连接符号“_”并且将构成要素结合起来,以便生成图11所示的特征字符串。
出于示例和说明的目的提供了本发明的示例性实施例的上述说明。其意图不在于穷举或将本发明限制为所公开的确切形式。显然,对于本领域的技术人员而言许多修改和变型是显而易见的。选择和说明实施例是为了最佳地解释本发明的原理及其实际应用,从而使得本领域的其他人员能够理解各种实施例的发明和适合于特定预期应用的各种修改。其目的在于用所附权利要求书及其等同内容来限定本发明的范围。

Claims (14)

1.一种图像处理装置,包括:
记录单元,其记录第一语言和不同于所述第一语言的第二语言;
字符串提取单元,其从通过读取原稿而获取的读取信息中提取一个或多个字符串;
多个特征字符串生成部,其基于由所述字符串提取单元提取出的所述一个或多个字符串来生成所述原稿的特征字符串;以及
切换单元,其基于所记录的第一语言和所记录的第二语言的组合对用于生成所述特征字符串的所述特征字符串生成部进行切换。
2.根据权利要求1所述的图像处理装置,其中,
所述第一语言是能被所述原稿的读者识别的读者语言;并且
所述第二语言是基于所述原稿中出现的字符串确定的原稿语言。
3.根据权利要求2所述的图像处理装置,其中,
所述读者语言是基于所述原稿的读者的鉴别信息确定的,并且所述原稿语言是在原稿中出现比例最高的语言。
4.根据权利要求1所述的图像处理装置,其中,
所述多个特征字符串生成部包括:
多个选择部,其执行如下处理:基于所述第一语言和所述第二语言的组合,从提取出的一个或多个字符串中选择构成所述原稿的特征字符串的一个或多个构成要素;以及
多个特征字符串确定部,其执行利用由所述选择部选择的所述构成要素确定所述特征字符串的处理,并且
所述切换单元基于所述第一语言和所述第二语言的组合,切换用于生成所述特征字符串的选择部且切换用于生成所述特征字符串的特征字符串确定部。
5.根据权利要求1所述的图像处理装置,其中,
所述多个特征字符串生成部包括:
多个转换部,其基于所述第一语言和所述第二语言的组合对由所述字符串提取单元提取出的一个或多个字符串进行转换;以及
多个特征字符串确定部,其执行利用由所述转换部转换的所述字符串确定所述特征字符串的处理,并且
所述切换单元基于所述第一语言和所述第二语言的组合,切换用于生成所述特征字符串的所述多个转换部和所述多个特征字符串确定部。
6.根据权利要求1所述的图像处理装置,其中,
所述多个特征字符串生成部包括:
多个选择部,其执行如下处理:基于所述第一语言和所述第二语言的组合,从提取出的一个或多个字符串中选择所述原稿的特征字符串的一个或多个构成要素;
多个转换部,其基于所述第一语言和所述第二语言的组合对由所述选择部选择的一个或多个字符串进行转换;以及
多个特征字符串确定部,其执行利用由所述转换部转换的所述构成要素确定所述特征字符串的处理,并且
所述切换单元基于所述第一语言和所述第二语言的组合,切换用于生成所述特征字符串的所述选择部,切换用于生成所述特征字符串的所述转换部且切换用于生成所述特征字符串的所述特征字符串确定部。
7.根据权利要求4或6所述的图像处理装置,其中,
所述多个选择部中的一个选择部执行基于提取出的一个或多个字符串在所述原稿中的出现频率来选择构成要素的处理。
8.根据权利要求4或6所述的图像处理装置,其中,
所述多个选择部中的一个选择部将提取出的字符串中具有预定位置和预定规模中至少一者的第一字符串的权重因子设置为比提取出的字符串中除了所述第一字符串之外的字符串的权重因子高出预定值,所述权重因子是用于从提取出的字符串中选择所述构成要素的指数。
9.根据权利要求4或6所述的图像处理装置,其中,
所述多个选择部中的一个选择部执行如下处理:选择第二字符串作为所述构成要素,所述第二字符串与配置要素相对应,所述配置要素设置在所述原稿中并构成所述原稿,并且所述配置要素不同于所述字符串。
10.根据权利要求4或6所述的图像处理装置,其中,
所述多个选择部中的一个选择部将提取出的字符串中的采用所述第一语言的第三字符串的权重因子设置为比提取出的字符串中除了所述第三字符串之外的字符串的权重因子高出预定值,所述权重因子是用于从提取出的字符串中选择所述构成要素的指数。
11.根据权利要求5或6所述的图像处理装置,其中,
所述多个转换部中的一个转换部将提取出的一个或多个字符串翻译为所述第一语言。
12.根据权利要求5或6所述的图像处理装置,其中,
所述多个转换部中的一个转换部将提取出的一个或多个字符串转换为表述所述一个或多个字符串的发音的字符串。
13.根据权利要求5或6所述的图像处理装置,其中,
所述多个转换部中的一个转换部将提取出的一个或多个字符串的字符代码转换为所述字符串的对应的不同字符代码。
14.一种图像处理方法,包括:
记录第一语言和不同于所述第一语言的第二语言;
从通过读取原稿而获取的读取信息中提取一个或多个字符串;
基于提取出的一个或多个字符串来生成所述原稿的特征字符串;以及
基于所记录的第一语言和所记录的第二语言的组合对用于生成所述特征字符串的特征字符串生成部进行切换。
CN201210028590.XA 2011-03-11 2012-02-09 图像处理装置和图像处理方法 Expired - Fee Related CN102685347B (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011-053976 2011-03-11
JP2011053976A JP2012190314A (ja) 2011-03-11 2011-03-11 画像処理装置およびプログラム

Publications (2)

Publication Number Publication Date
CN102685347A true CN102685347A (zh) 2012-09-19
CN102685347B CN102685347B (zh) 2016-05-25

Family

ID=46795648

Family Applications (1)

Application Number Title Priority Date Filing Date
CN201210028590.XA Expired - Fee Related CN102685347B (zh) 2011-03-11 2012-02-09 图像处理装置和图像处理方法

Country Status (5)

Country Link
US (1) US20120230590A1 (zh)
JP (1) JP2012190314A (zh)
KR (1) KR101598789B1 (zh)
CN (1) CN102685347B (zh)
AU (1) AU2011265574B2 (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103713864A (zh) * 2012-09-28 2014-04-09 株式会社Pfu 帐票输出装置和帐票输出方法
WO2017148142A1 (zh) * 2016-03-01 2017-09-08 宇龙计算机通信科技(深圳)有限公司 桌面图标文件夹的名称切换方法、装置及电子设备

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10290036B1 (en) * 2013-12-04 2019-05-14 Amazon Technologies, Inc. Smart categorization of artwork
US11277443B2 (en) * 2019-10-22 2022-03-15 International Business Machines Corporation Detection of phishing internet link

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6477494B2 (en) * 1997-07-03 2002-11-05 Avaya Technology Corporation Unified messaging system with voice messaging and text messaging using text-to-speech conversion
US20040216050A1 (en) * 2001-01-29 2004-10-28 Kabushiki Kaisha Toshiba Translation apparatus and method
CN101350870A (zh) * 2007-07-18 2009-01-21 英华达(上海)电子有限公司 一种图文转换的方法、移动终端和ocr服务器

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH01279368A (ja) * 1988-04-30 1989-11-09 Sharp Corp キャラクタデータの転送方式
JPH0268662A (ja) * 1988-09-02 1990-03-08 Sharp Corp 機械翻訳装置
EP1916609A1 (en) * 2006-10-26 2008-04-30 Hierodiction Software GmbH Text analysis, transliteration and translation method and apparatus for hieroglyphic, hieratic, and demotic texts from Ancient Egyptian
JP2010103694A (ja) * 2008-10-22 2010-05-06 Seiko Precision Inc 翻訳機能付きカメラ、及びテキストの表示方法
KR20110021439A (ko) * 2009-08-26 2011-03-04 삼성전자주식회사 음성 스트림 변환 장치 및 방법

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6477494B2 (en) * 1997-07-03 2002-11-05 Avaya Technology Corporation Unified messaging system with voice messaging and text messaging using text-to-speech conversion
US20040216050A1 (en) * 2001-01-29 2004-10-28 Kabushiki Kaisha Toshiba Translation apparatus and method
CN101350870A (zh) * 2007-07-18 2009-01-21 英华达(上海)电子有限公司 一种图文转换的方法、移动终端和ocr服务器

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103713864A (zh) * 2012-09-28 2014-04-09 株式会社Pfu 帐票输出装置和帐票输出方法
CN103713864B (zh) * 2012-09-28 2019-05-03 株式会社Pfu 帐票输出装置和帐票输出方法
WO2017148142A1 (zh) * 2016-03-01 2017-09-08 宇龙计算机通信科技(深圳)有限公司 桌面图标文件夹的名称切换方法、装置及电子设备

Also Published As

Publication number Publication date
AU2011265574B2 (en) 2013-04-18
CN102685347B (zh) 2016-05-25
KR20120103436A (ko) 2012-09-19
AU2011265574A1 (en) 2012-09-27
US20120230590A1 (en) 2012-09-13
KR101598789B1 (ko) 2016-03-02
JP2012190314A (ja) 2012-10-04

Similar Documents

Publication Publication Date Title
CN101443790B (zh) 数字图像中的非回流内容的有效处理
CN100562869C (zh) 翻译处理方法和文档处理装置
CN101996160B (zh) 一种字体数据的处理方法及系统
US20060217958A1 (en) Electronic device and recording medium
CA2559198C (en) Systems and methods for identifying complex text in a presentation data stream
US9881001B2 (en) Image processing device, image processing method and non-transitory computer readable recording medium
CN102081594A (zh) 从可移植电子文档中提取字符外接矩形的设备和方法
JP5790082B2 (ja) 文書認識装置、文書認識方法、プログラム及び記憶媒体
CN102685347A (zh) 图像处理装置和图像处理方法
CN101796509A (zh) 准备显示文档用于分析的设备
US8056002B2 (en) Image forming apparatus, image forming method, computer program, and computer-readable storage medium
Bagley et al. Creating reusable well-structured PDF as a sequence of component object graphic (COG) elements
JP2008129793A (ja) 文書処理システムおよび装置および方法、およびプログラムを記録した記録媒体
Dasgupta et al. A speech enabled Indian language text to Braille transliteration system
US20150185868A1 (en) Brahmi phonemics based keyboard for providing textual inputs in indian languages
Greenwood International cultural differences in software
JP2007241355A (ja) 画像処理装置及び画像処理プログラム
JP2006252164A (ja) 中国語文書処理装置
CN101689186B (zh) 支持数字纸的电子表格系统
Hensch Ibm history of far eastern languages in computing. Part 1. Requirements and initial phonetic product solutions in the 1960s
Mudur On the need for cultural representation in interactive systems
CN117953109B (zh) 生成式图片翻译方法、系统、电子设备及存储介质
JP2002245470A (ja) 言語特定装置及び翻訳装置及び言語特定方法
EP4109435A1 (en) Braille editting method using error output function, recording medium storing program for executing same, and computer program stored in recording medium for executing same
Engström Internationalisation and Localisation Problems in the Chinese and Arabic Scripts

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C14 Grant of patent or utility model
GR01 Patent grant
CF01 Termination of patent right due to non-payment of annual fee

Granted publication date: 20160525

Termination date: 20170209

CF01 Termination of patent right due to non-payment of annual fee