CN103136195A - 翻译装置和翻译方法 - Google Patents

翻译装置和翻译方法 Download PDF

Info

Publication number
CN103136195A
CN103136195A CN2012105111270A CN201210511127A CN103136195A CN 103136195 A CN103136195 A CN 103136195A CN 2012105111270 A CN2012105111270 A CN 2012105111270A CN 201210511127 A CN201210511127 A CN 201210511127A CN 103136195 A CN103136195 A CN 103136195A
Authority
CN
China
Prior art keywords
word
phrase
translation
chinese
chinese character
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
CN2012105111270A
Other languages
English (en)
Inventor
九津见毅
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sharp Corp
Original Assignee
Sharp Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sharp Corp filed Critical Sharp Corp
Publication of CN103136195A publication Critical patent/CN103136195A/zh
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/53Processing of non-Latin text
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Document Processing Apparatus (AREA)

Abstract

一种翻译装置,其包括:取得第1语言的原文的文本的文本取得部;取得由文本取得部取得的文本所包括的单词或词组各自的第2语言译文的译文取得部;对构成上述单词或词组的字符以及由译文取得部取得的构成该单词或词组的译文的字符进行比较,来决定是按每一个上述单词或词组进行译出的决定部;基于决定部的决定结果来输出单词或词组的译文的输出部。

Description

翻译装置和翻译方法
技术领域
本申请涉及一种将第1语言原文翻译成第2语言并输出的翻译装置和翻译方法。
背景技术
以往,公知将用某一种语言所写的文本自动地翻译成其它语言的技术。近年来,作为使用这样的技术翻译装置,设计了不是按原文全文而是按原文中的单词或词组为单位取得其译文,并将译文附在原文的附近而输出的装置。
这样的翻译装置一般具备根据单词或词组的难易度和使用频率来决定是否需要译出的单元,通过不输出被决定为不需要译出的单词或词组的译文,来防止输出结果的繁琐化,并确保易读性。
另外,针对像汉语和日语这样的使用汉字的语言,还设计利用汉字的起源所涉及的信息的日语与汉语之间的翻译技术。例如,在日本专利特开2006-309346号公报中记载了一种日中机械翻译装置,该日中机械翻译装置基于日语单词与汉语单词之间的汉字对应关系,来从日语单词的多个汉语译文中选择适合的汉语译文
但是,在根据单词或词组的难易度以及使用频率来决定是否需要译出的上述翻译装置中,根据学习者的母语不同,单词或词组的难易度和使用频率也不同,因此存在对于学习者来说不需要的译文也被输出,输出结果变得繁琐的问题。尤其是在包括由相同字符构成的单词或词组的两语言之间的互译中上述问题更为明显。
例如,图1是表示使用以往的翻译装置将汉语翻译成日语并输出的例子的图。如图1所示,在以往的翻译装置中,虽然根据对讲汉语的人而言的难易度和使用频率,译出并输出了几个汉语的单词,但汉语的“海外”和日语的“海外”都是由相同字符构成的单词,其意思也相同,因此假设即使不被译出,作为讲日语的人也只是看一下就能够理解其意思。因此,如上所述那样,如果根据对讲汉语的人而言的难易度和使用频率来译出单词,则存在会出现很多对于讲日语的人而言被认为是不需要的译文的可能性,存在输出结果烦琐,对学习者来说不易读这样的问题。
此外,在汉语和日语中,即使是同一起源的汉字也会有形状不同的情况。例如,如图1所示,汉语的“动物园”和日语的“動物園”全部都是由同一起源的汉字构成,但字体有很大不同,对于汉语初学者来说,不容易发觉“动”和“動”是相同的字,所以有必要译出“动物园”。另一方面,对于进行了某程度汉语学习的讲日语的人来说,容易发觉“动”和“動”是相同的字、“园”和“園”是相同的字,假设即使不将“动物园”这一单词译出,也能知道其意思,因此不需要译出“动物园”。另外,在同一起源的汉字中,存在例如汉语的“决”和日语的“決”这样的,形状非常相近的汉字。如果是这样的汉字,即使是对于汉语初学者来说,也不需要译出。这样,由于是否需要译出是根据学习者的熟悉度和/或者汉字的形状的相似度的不同而不同,所以是否需要译出的决定基准成为课题。
另外,日本专利特开2006-309346号公报所示的日中机械翻译装置通过判定日语单词中的汉字与汉语单词中的汉字是否是同一起源的汉字,来从成为日语单词的译文的多个汉语单词中选择最适合的译文并输出,但其不具备决定是否需要译出的单元,而且,在汉语和日语中对同一起源的汉字的处理均同等的,没有进行根据字符对连接的强度进行区别的处理。
发明内容
本申请是鉴于该情况而提出的,目的在于提供一种根据学习者的熟悉度和/或者汉字的相似度,适当地抑制不需要的译文的输出,使输出结果更易读的翻译装置和翻译方法。
本申请所涉及的翻译装置包括:取得第1语言的原文的文本的文本取得部;取得由该文本取得部取得的文本所包含的单词或词组各自的第2语言译文的译文取得部;对构成上述单词或词组的字符以及由上述译文取得部取得的构成该单词或词组的译文的字符进行比较,来决定是否按每一个上述单词或词组进行译出的决定部;基于该决定部的决定结果来输出单词或词组的译文的输出部。
在本申请中,翻译装置具备文本取得部、译文取得部、决定部以及输出部。文本取得部取得第1语言的原文的文本。译文取得部取得包含在文本中的单词或词组各自的第2语言的译文。决定部通过对构成单词或词组的字符和构成译文的字符进行比较,来决定是否按每一个上述单词或词组进行译出。输出部基于决定部的决定结果来输出单词或词组的译文。这样,通过对构成第1语言的单词或词组的各字符和构成译文的各字符进行比较,例如,在两者为同一或者类似的字符的情况下,不输出该单词或词组的译文。例如,在进行如汉语和日语、西班牙语和意大利语这样的、包含由相同字符构成的单词或词组的两语言的互译时,能够使用简单的单元适宜地抑制不需要的译文的输出。
对申请所涉及的翻译装置而言,上述第1语言和第2语言为汉语和日语,在构成单词或词组的汉字和构成该单词或词组的译文的汉字全部相同的情况下,上述决定部决定不译出该单词或词组。
在本申请中,在为进行汉语和日语互译的翻译装置中,在构成单词或词组的汉字和构成该单词或词组的译文的汉字全部相同的情况下,决定部决定不译出该单词或词组。这样,通过仅比较汉字就能够决定是否需要译出单词或词组。
对本申请所涉及的翻译装置而言,在构成单词或词组的汉字和构成该单词或词组的译文的汉字的统一码中的代码点全部相同的情况下,上述决定部决定不译出该单词或词组。
在本申请中,在构成单词或词组的汉字和构成该单词或词组的译文的汉字的统一码中的代码点全部相同的情况下,决定部决定不译出该单词或词组。由此,能够简单地决定是否需要译出单词或词组。
本申请所涉及的翻译装置的特征在于,上述第1语言和第2语言为汉语和日语,并具备将汉语的汉字与该汉语的汉字所对应的日语的汉字建立对应的汉字对应字典,在基于上述汉字对应字典,构成单词或词组的汉字和构成该单词或词组的译文的汉字分别不对应的情况下,上述决定部决定译出该单词或词组。
在本申请中,进行汉语和日语的互译的翻译装置具备将汉语的汉字与该汉语的汉字所对应的日语的汉字建立对应的汉字对应字典。在基于汉字对应字典,构成单词或词组的汉字和构成该单词或词组的译文的汉字分别不对应时,决定部决定译出该单词或词组。这样,通过仅比较汉字的对应关系就能够决定是否需要译出单词或词组。
本申请所涉及的翻译装置具备保存有汉语的汉字和该汉语的汉字所对应的日语的汉字的相似度的汉字相似度字典、和在构成单词或词组的汉字与构成该单词或词组的译文的汉字分别对应时,基于上述汉字相似度字典,计算表示单词或词组和该单词或词组的译文的相似度的单词相似度的计算部,在由上述计算部计算出的单词相似度在规定阈值以上时,上述决定部决定不译出该单词或词组。
在本申请中,翻译装置具备汉字相似度字典和计算部。在汉字相似度字典中保存有汉语的汉字和该汉语的汉字所对应的日语汉字的相似度。当构成单词或词组的汉字和构成该单词或词组的译文的汉字分别对应时,计算部基于汉字相似度字典来计算表示单词或词组和该单词或词组的译文的相似度的单词相似度。当计算部计算出的单词相似度在规定阈值以上时,决定部决定不译出该单词或词组。这样,通过基于单词或词组中的各汉字和译文中的各汉字之间的相似度来计算作为单词的相似度,从而能够决定是否需要译出单词或词组。
对本申请所涉及的翻译装置而言,上述计算部将构成单词或词组的全部汉字和构成该单词或词组的译文的全部汉字的各自的相似度的算术平均值作为上述单词相似度来算出。
在本申请中,计算部将构成单词或词组的全部汉字和构成该单词或词组的译文的全部汉字的各自的相似度的算术平均值作为单词相似度算出。由此,能够简单地计算出单词相似度。
本申请所涉及的翻译装置的特征在于,上述计算部将构成单词或词组的全部汉字和构成该单词或词组的译文的全部汉字的各自的相似度中的、最小相似度作为上述单词相似度算出。
在本申请中,计算部将构成单词或词组的全部汉字和构成该单词或词组的译文的全部汉字的各自的相似度中的、最小相似度作为上述单词相似度算出。这样,能够简单地计算出单词相似度。
本申请所涉及的翻译装置特征在于,上述汉字相似度字典保存有基于汉字形状的相似度。
在本申请中,汉字的相似度根据汉字的形状而预先决定。
本申请所涉及的翻译装置特征在于,上述汉字相似度字典保存有基于由汉字的轮廓包围的区域所占的字身字面(body face)中的比例的相似度。
在本申请中,汉字的相似度根据字体的字身字面中的汉字自身的面积比而被预先决定。
本申请所涉及的翻译装置特征在于,具备受理上述阈值的变更的阈值变更部,上述决定部使用变更后的阈值来决定是否译出上述单词或词组。
在本申请中,能够通过阈值的变更来使要译出的单词或词组的比例变化,因此通过根据第2语言的熟悉度适宜地变更阈值,能够使输出结果更加易读。
对本申请所涉及的翻译装置而言,上述输出部在输出上述原文全文的基础上,在由上述决定部决定为要译出的单词或词组的附近输出该单词或词组的译文。
在本申请中,输出部在输出上述原文全文的基础上,在由上述决定部决定为要译出的单词或词组的附近输出该单词或词组的译文。由此,能够将译文配置于容易理解单词或词组的意思的位置处。
本申请所涉及的翻译装置的特征在于,上述输出部在保持上述原文的布局的基础上,在原文的行间输出由上述决定部决定为要译出的单词或词组的译文。
在本申请中,输出部在保持上述原文的布局的基础上,在原文的行间输出由上述决定部决定为要译出的单词或词组的译文。由此,能够将译文配置于容易理解单词或词组的意思的位置处。
对本申请所涉及的翻译装置而言,上述输出部生成配置有上述原文全文的原文层和配置有上述单词或词组译文的译文层,并将生成的原文层和译文层合成并输出。
在本申请中,单独准备配置有原文全文的原文层和配置有译文的译文层,因此容易控制与原文相对应的译文的配置。
本申请所涉及的翻译装置特征在于,上述输出部对由上述决定部决定为不译出的单词或词组划上旁线并输出。
在本申请中,输出部对由上述决定部决定为不译出的单词或词组划上旁线并输出。由此,能够明确地表示出决定为不译出的单词或词组。
本申请所涉及的翻译方法是在将第1语言原文翻译成第2语言并输出的翻译方法,其包括取得第1语言的原文的文本的步骤;取得包含在所取得的文本中的单词或词组各自的第2语言的译文的步骤;对构成上述单词或词组的字符和取得的构成该单词或词组的译文的字符进行比较,来决定是否需要按每一个上述单词或词组进行译出的步骤;以及基于决定的结果来输出单词或词组的译文的步骤。
在本申请中,取得第1语言的原文的文本,取得文本中包含的单词或词组各自的第2语言的译文,对构成单词或词组的字符和构成译文的字符进行比较,来决定是否按每一个上述单词或词组进行译出,并基于决定结果来输出单词或词组的译文。这样,通过对构成第1语言的单词或词组的各字符和构成译文的各字符进行比较,例如,在两者为同一或者类似的字符的情况下,不输出该单词或词组的译文。例如,在进行如汉语和日语、西班牙语和意大利语这样的、包含由相同字符构成的单词或词组的两语言的互译时,能够使用简单的单元适宜地抑制不需要的译文的输出。
在本申请中能够提供通过在对构成单词或词组的字符和构成译文的字符进行比较,来决定是否按每一个上述单词或词组进行译出,并基于决定结果来输出单词或词组的译文,从而适宜地抑制不需要的译文的输出,使输出结果更加易读的翻译装置和翻译方法。
附图说明
图1是表示在以往的翻译装置中将汉语翻译成日语并输出的例子的图。
图2是表示本申请的实施方式所涉及的翻译装置的内部构成的框图。
图3是表示本申请的实施方式所涉及的翻译装置所执行的处理的的顺序的流程图。
图4是表示译文取得处理的顺序的例子的流程图。
图5是表示原文本图像的例子的图。
图6是表示针对图4的原文本图像的译文数据的内容例子的概念图。
图7是表示中日汉字对应表的例子的图。
图8是表示译出需否决定处理的顺序的例子的流程图。
图9是表示译出决定处理结果的表格。
图10是表示带译文文本图像生成处理的顺序的例子的流程图。
图11是表示阈值为0.40时的带译文的文本图像的例子的图。
图12是表示阈值为0.70时的带译文的文本图像的例子的图。
具体实施方式
图2是表示本申请的实施方式所涉及的翻译装置1的内部构成的框图。本实施方式所涉及的翻译装置1是由使用PC或者服务器装置等的通用计算机而构成的,其具备进行运算的CPU11、存储伴随运算而产生的暂时信息的RAM12、从光盘或者记忆卡等记录介质2中读取信息的CD-ROM驱动器等驱动器部13以及硬盘等存储部14。CPU11使驱动器部13从记录介质2读取计算机程序21,使读取到的计算机程序21例如存储于存储部14。计算机程序21根据需要从存储部14被加载到RAM12,CPU11基于加载的计算机程序21来实施必要的处理。另外,还可以是将计算机程序21经由网络或者LAN等通信网络从未图示的外部服务器装置下载到翻译装置1并存储于存储部14的方式。
在存储部14中存储有记录了自然语言处理所必要的数据的字典数据库22、将汉语的汉字和该汉字所对应的日语的汉字建立对应的汉字对应字典23、保存有汉语的汉字和日语的汉字的相似度的汉字相似度字典24。字典数据库22记录有语言的语法、句法的出现频率以及表示单词的意思等的信息。字典数据库22、汉字对应字典23以及汉字相似度字典24可以是最先存储于存储部14的方式,也可以是记录于记录介质2,而使用驱动器部13从记录介质2读取并存储于存储部14的方式。
此外翻译装置1具备基于使用者的操作而输入各种处理指示等信息的键盘或者定点设备等输入部15和显示各种信息的液晶显示器等显示部16。并且,翻译装置1还具备连接图像读取装置31和图像形成装置32的接口部17。图像读取装置31是平板式扫描仪或者电影扫描仪等扫描仪,图像形成装置32是喷墨打印机或者激光打印机。另外,还可以将图像读取装置31和图像形成装置32一体构成。
图像读取装置31对记录于文本原稿的图像进行光学读取,生成图像数据,并将生成的图像数据向翻译装置1发送,接口部17接收从图像读取装置31发送来的图像数据。此外接口部17将图像数据向图像形成装置32发送,图像形成装置32基于从翻译装置1发送的图像数据来形成图像。
CPU11将计算机程序21加载到RAM12,并根据加载的计算机程序21来执行本申请的翻译方法的处理。在翻译方法中,从通过使用图像读取装置31读取记录于文本原稿的图像而生成的原文本图像中,取得原文的文本,并取得包含在所取得的文本中的单词或词组各自的译文,对构成单词或词组的字符和取得的构成该单词或词组的译文的字符进行比较,来决定是否按每一个单词或词组进行译出,生成并输出附加了对被决定为要译出的单词或词组的译文的、带译文的文本图像。此处,词组是指由多个单词构成、且具有独自意思的语句,成语或者惯用句等相当于词组。
图3是表示本申请的实施方式所涉及的翻译装置1所执行的处理的顺序的流程图。CPU11根据加载到RAM12的计算机程序21,来执行以下的处理。在本实施方式中,以原文为汉语、译文为日语的情况为例进行说明。
翻译装置1首先进行从记载有汉语的原文的原文本中取得原文的文本的文本取得处理(步骤S11)。在步骤S11中,在文本原稿被放置于图像读取装置31的状态下,使用者通过输入部1指示了处理的情况下,CPU11经由接口部17向图像读取装置31发送图像读取的指示。图像读取装置31读取记录于文本原稿的图像,生成图像数据,并将生成的图像数据向翻译装置1发送。翻译装置1从经由接口部17接收到的图像数据所表示的原文本图像中,提起包含字符的字符区域,例如通过利用以往的OCR(Optical Character Recognition)技术,来进行包含在字符区域中的字符的识别、和原文本图像中的字符位置的确定,从而生成表示原文本中的文本内容的文本数据,取得汉语的原文的文本。在本实施方式中,使用了由图像读取装置31读取的原文本图像作为原文本,但还可以是经由接口部17接收的图像或者文本,也可以是预先存储于存储部的图像或者文本,还可以是使用者通过输入部15输入的文本。另外,在步骤S11中,在利用OCR技术时,或者在从格式的文本中取得文本时,各字符的位置信息和尺寸信息也被同时取得。
CPU11接下来执行译文取得处理(步骤S12),该译文取得处理是取得通过上述步骤S11的文本取得处理而取得的包含在文本中的单词或词组所对应的译文的处理。
图4是表示在图3步骤S12中的译文取得处理的顺序的例子的流程图。CPU11通过针对表示在步骤S11中取得的文本内容的文本数据,进行自然语言处理,来进行估计包含在文本中的各单词和词组的意思的处理(步骤S121)。在步骤S121中,CPU11通过基于记录在字典数据库22中的数据来进行文本数据所表示的文章的词素解析、局部句法解析和词类估计等自然语言处理,从而确定文章中所包含的单词以及由多个单词构成的词组,并估计其意思。CPU11接下来进行选择文章中所包括的单词和词组中的、要取得译文的单词和词组的处理(步骤S122)。在字典数据库22中记录的数据中,针对单词和词组,分别预先决定了难易度或者使用频率,另外,存储部14存储有设定了汉语的各单词和词组的难易度或者使用频率的设定信息。在步骤S122中,CPU11将由设定信息决定的难易度或者使用频率在规定值以上的单词和词组选择为要取得译文的单词和词组。
CPU11接下来对所选择的单词和词组分别进行从字典数据库22中取得译文的处理(步骤S123)。当存在多个译文时,CPU11取得与通过步骤S121的自然语言处理所估计出的意思对应的译文。CPU11生成将单词或词组和所取得的译文建立关联的译文数据,并使其存储于RAM12,将处理返回至图3的主处理。图5是表示原文本图像的例子的图。图6是表示针对图5的原文本图像的译文数据的内容例子的概念图。针对图5所表示的原文本图像,作为要取得译文的词或词组,如图6所示那样,选择了“法院”,“动物园”,“近”,“尽快”,“解决”,“一系列”,“问题”,“喜欢”,“海外”,“旅行”,并分别与译文建立了关联。
CPU11接下来执行分别针对取得了译文的单词或词组,对构成单词或词组的字符和构成该译文的字符进行比较,来决定是否译出该单词或词组的处理(步骤S13)。在步骤S13中,CPU11参照基于汉字对应字典23和汉字相似度字典24的中日汉字对应表,通过对图6所示的各单词或词组的汉语的汉字和该译文的日语的汉字进行比较,来决定是否需要译出图6所示的各单词或词组。
图7是表示中日汉字对应表的例子的图。如图7所示,在中日汉字对应表中,汉语的汉字、该汉语的汉字的统一码、该汉语的汉字所对应的日语的汉字、该日语的汉字的统一码以及中日汉字的相似度被建立对应。在本实施方式中,汉字的相似度为0.00~1.00之间的实数值,并且是在如下述那样执行翻译前被预先决定的值。
在汉语的汉字和日语的汉字为同一汉字时,将相似度设定为1.00。此处,“同一汉字”是指,汉字的统一码中的代码点是相同的汉字。例如,在图7中的,汉语的“物”和日语的“物”的统一码中的代码点相同,所认定为同一汉字。另外,对于汉语的“海”和日语的“海”,如果用各自的语言的字体表示的话,虽然汉字的形状稍有不同,但在统一码中的代码点是相同的,所以认定为同一汉字。另一方面,汉语的汉字和日语的汉字不是同一汉字时,基于汉字的形状和对于讲日语的人而言的熟悉度等来决定。例如,日语的“門”和汉语的“门”的区别由于在手写日语的“門”这个字时,惯性性地简记为近似于“门”的形式被广泛进行,所以比起外表的区别,对于讲日语的人而言在感觉上的区别小。这样,对于包含以此为部首的汉字(例如图7中的“问”和“問”),也考虑到上述情况而被赋予相似度的值。
另外,作为赋予相似度的其它方法,可考虑如下的方法。按部首为单位,预先决定根据形状的相似度,将它们用一定的方法总合,来决定作为汉字的相似度。或者,分别求出在将两语言的字符用形状相近的字体(例如,汉语为“SimHei”,日语为“MS ゴシック”)表示时的、字身字面(在表示字符之际,为了不将字符同伴连接而包括空格的字符的设计范围)中的字符自身的面积比,该值的差或者比率越小,则视为相似度越高。
图8是表示图3的步骤S13中的是译出需否决定处理的顺序的例子的流程图。CPU11参照图7所示的中日汉字对应表,按每一个取得了译文的汉语的单词或词组,来判定汉语的汉字和日语的汉字是否分别存在对应关系,且判定顺序是否相同(步骤S131)。在CPU11判定为汉语的汉字和日语的汉字不存在对应关系、或者顺序不同时(S131:否),例如,在图6中的汉语的“法院”和对应的日语的“裁判所”的情况下,CPU11决定译出该汉语单词或词组(步骤S132),将处理进入到步骤S136。
在CPU11判定为汉语的汉字和日语的汉字存在对应关系并且顺序相同时(S131:是),则参照图7所示中日汉字对应表,根据构成该单词或词组的各汉字的相似度来计算表示该单词或词组和该译文之间的相似度的单词相似度(步骤S133)。在步骤S133中,CPU11例如从中日汉字对应表中取得构成该单词或词组的全部的汉字的相似度,将取得的相似度的算术平均值作为单词相似度而计算出。例如,在图6中的汉语的“动物园”和对应的日语的“動物園”的情况下,汉语的“动”和日语的“動”之间的相似度为0.40,汉语的“物”和日语的“物”之间的相似度为1.00,汉语的“园”和日语的“園”之间的相似度为0.30,因此它们算术平均后的结果的单词相似度被算出为0.57。此外,在步骤S133中,CPU11从中日汉字对应表中取得构成该单词或词组的全部汉字中的、相似度最低的汉字的相似度来作为上述单词相似度。该情况下,图6中的汉语的“动物园”和对应的日语的“動物園”的相似度为0.30。
CPU11判定在步骤S133中计算出的单词相似度是否在规定的阈值以上(步骤S134)。此处,规定的阈值虽然被设为0.70或者0.40,但使用者的汉语能力越高,可以预先将阈值设定得越小。阈值的变更例如能够通过翻译装置1的输入部15来受理。
在CPU11判定为单词相似度不在规定的阈值以上时(S134:否),决定为“译出”该单词或词组(步骤S132)。在判定为单词相似度在规定的阈值以上时(S134:是),决定为“不译出”该单词或词组(步骤S135)。例如,在图6中的汉语的“动物园”和对应的日语的“動物園”的情况下,当阈值被设定为0.70时,计算出的单词相似度0.57低于阈值0.70,因此决定“译出”,当阈值设定为0.40时,计算出的单词相似度0.57高于阈值0.40,所以决定“不译出”。
图9是表示译出决定处理结果的表格,其按图6所示的单词或词组为单位示出决定是否需要译出的结果。在图9所示的表格中记录有汉语的单词或词组、该单词或词组的日语译文、判定的汉字对应结果、计算出的单词相似度、阈值被设为0.70时的是否需要译出的决定结果以及阈值被设为0.40时是否需要译出的决定结果。此处,“近”,“海外”,“旅行”各自的汉字与译文的汉字相同,故不论是阈值为0.70的情况还是阈值为0.40的情况,都决定为不译出。对于汉语的“法院”,“尽快”,“一系列”,“喜欢”而言,构成这些单词或词组的各自的汉字和构成该译文的汉字分别不对应,故不论是阈值为0.70的情况还是阈值为0.40的情况下,都决定为译出。另一方面,对于“动物园”,“解决”,“问题”而言,构成这些单词或词组的各自的汉字和构成该译文的汉字分别对应,但计算出的单词相似度分别为0.57,0.90,0.85,因此通过与规定的阈值相比较,来决定是否需译出。
CPU11判定在取得了译文的单词或词组中是否存存未决定是否需要译出的单词或词组(步骤S136)。在判定为在取得了的译文中存在未决定是否需要译出的译文时(S136:是),将处理返回到步骤S131。当判定为在取得了的译文中不存在未决定是否需要译出的译文时(S136:否),CPU11将处理返回到主处理。
CPU11接下来基于步骤S13中的决定结果,来决定译文的配置位置,执行生成配置有译文的带译文的文本图像的带译文文本图像生成处理(步骤S14)。在步骤S14中,CPU11例如在显示汉语的原文全文的基础上,按照在被决定为要译出的单词或词组的附近,使该单词或词组的译文输出的方式生成带译文文本图像。具体而言,在保持原文本的布局的基础上,生成在原文本的行间配置译文,并对被决定为不译出的单词或词组划上旁线的带译文文本图像。
图10是表示图3的步骤S14中的带译文文本图像生成处理的顺序的例子的流程图。如图10所示,CPU11针对要附加于带译文文本图像的译文分别决定将译文配置于带译文文本图像时的位置和尺寸等的译文的配置状态(步骤S141)。在步骤S141中,CPU11基于在步骤S11中取得的字符的位置信息和尺寸信息等,来计算文本中所包含的各行的行间大小,并决定译文的配置位置和字体尺寸。
接下来,CPU11在与原文本图像相同大小的层中,生成将译文数据以在步骤S141中决定的配置状态配置的译文层(步骤S142)。在步骤S142中,使生成的译文层中的译文数据以外的部分成为透明的。接下来,CPU11在与原文档图像相同大小的图像中,生成将与对被决定为不译出的单词或词组的下划线相当的线作为表示是不译出单词或词组的标记而配置的标记图像层(步骤S143)。在步骤S143中,使生成的标记图像层中的线以外的部分成为透明的。
接下来,CPU11生成使原文本图像成为图像层的原文本图像层(步骤S144)。接下来,CPU11通过将译文层、标记图像层重叠于原文本图像层,来生成带译文文本图像(步骤S145),使表示生成了的带译文文本图像的图像数据存储于RAM12,将处理返回到图3的主处理。例如,在步骤S14中以PDF(Portable Document Format)格式的图像来生成带译文文本图像,CPU11生成各层为PDF格式的层,通过将生成的译文层和标记图像层重叠于原文本图像层,来生成PDF格式的带译文文本图像。图11和图12分别是表示阈值为0.40和0.70时的带译文文本图像的例子的图。图11和图12所示的带译文文本图像分别是通过将上述译文层和标记图像层重叠于图5所示的原文本图像而生成的带译文文本图像。
接下来,CPU11将表示带译文文本图像的图像数据从接口部17向图像形成装置32发送,在图像形成装置32中基于图像数据进行使带译文文本图像形成的输出处理(步骤S15),来结束本申请的翻译处理。需要说明的是,在本申请中可以不在步骤S15中进行形成带译文文本图像的处理,而进行使由显示部16显示的、或者表示带译文文本图像的图像数据存储于存储部14的处理。
在本实施方式中,通过对构成原文的单词或词组的各字符和构成译文的各字符进行比较,来决定是否需要译出该单词或词组的译文。例如,当构成原文的单词或词组的各字符和构成译文的各字符为相同或者类似的字符时,能够设定为不译出该单词或词组的译文。本申请在上述说明了的汉语和日语的情况以往外,例如还能够适用于进行对如西班牙语和意大利语那样的、包含由相同字符构成的单词或词组的两语言的互译的情况。
另外,在以上的实施方式中,虽然以原文为汉语、译文为日语的情况为例进行了说明,但还能够适用于原文为日语、译文为汉语的情况。此外,虽然对汉语为简体字汉语的例子进行了说明,但也能够同样适用于繁体字汉语。
此外,在以上的实施方式中,虽然示出了对横写文本应用本申请的例子,但还可以将本申请应用于竖写文本。例如,可以是对日语的竖写文本执行本申请的处理的方式,在该方式的情况下,只要将译文配置于单词或词组附近的右侧的行间即可。
另外,在以上的实施方式中示出了翻译装置1将字典数据库22、汉字对应字典23以及汉字相似度字典24记录于内部的存储部14的方式,但并不限定于此,还可以是本申请的翻译装置1使用外部的字典数据库、汉字对应字典、或者汉字相似度字典来进行本申请的处理的方式。例如,事先将字典数据库等存储于翻译装置1的外部的服务器装置,翻译装置1根据需要可以从外部的字典数据库等读出所需要的数据来执行本申请的处理。

Claims (15)

1.一种翻译装置,其特征在于,具备:
文本取得部,其取得第1语言的原文的文本;
译文取得部,其取得由该文本取得部取得的文本中所包含的单词或词组各自的第2语言的译文;
决定部,其对构成上述单词或词组的字符以及构成由上述译文取得部取得的该单词或词组的译文的字符进行比较,来决定是否按每一个上述单词或词组进行译出;以及
输出部,其基于该决定部的决定结果来输出单词或词组的译文。
2.根据权利要求1所述的翻译装置,其特征在于,
所述第1语言和第2语言为汉语和日语,
当构成单词或词组的汉字和构成该单词或词组的译文的汉字全部相同时,所述决定部决定不译出该单词或词组。
3.根据权利要求2所述的翻译装置,其特征在于,
当构成单词或词组的汉字和构成该单词或词组的译文的汉字的在统一码中的代码点全部相同时,所述决定部决定不译出该单词或词组。
4.根据权利要求1所述的翻译装置,其特征在于,
所述第1语言和第2语言为汉语和日语,
该翻译装置具备将汉语的汉字与该汉语的汉字所对应的日语的汉字建立对应而存储的汉字对应字典,
在构成单词或词组的汉字与构成该单词或词组的译文的汉字基于所述汉字对应字典分别不对应时,所述决定部决定译出该单词或词组。
5.根据权利要求4所述的翻译装置,其特征在于,还具备,
汉字相似度字典,其储存汉语的汉字以及该汉语的汉字所对应的日语的汉字的相似度;以及
计算部,在构成单词或词组的汉字以及构成该单词或词组的译文的汉字分别对应的情况下,该计算部基于所述汉字相似度字典,计算表示单词或词组以及该单词或词组的译文的相似度的单词相似度,
其中,
在所述计算部计算出的单词相似度在规定的阈值以上时,所述决定部决定不译出该单词或词组。
6.根据权利要求5所述的翻译装置,其特征在于,
所述计算部将构成单词或词组的全部汉字和构成该单词或词组的译文的全部汉字的各自相似度的算术平均值作为所述单词相似度算出。
7.根据权利要求5所述的翻译装置,其特征在于,
所述计算部将构成单词或词组的全部汉字和构成该单词或词组的译文的全部汉字的各自相似度中的最小相似度作为所述单词相似度算出。
8.根据权利要求5所述的翻译装置,其特征在于,
所述汉字相似度字典保存有基于汉字形状的相似度。
9.根据权利要求5所述的翻译装置,其特征在于,
所述汉字相似度字典保存有基于被汉字的轮廓包围的区域所占的字身字面中的比例的相似度。
10.根据权利要求5所述的翻译装置,其特征在于,还具备,
阈值变更部,其受理所述阈值的变更,其中,
所述决定部使用变更后的阈值来决定是否译出所述单词或词组。
11.根据权利要求1所述的翻译装置,其特征在于,
所述输出部在输出了所述原文的全文的基础上,在由所述决定部决定要译出的单词或词组的附近输出该单词或词组的译文。
12.根据权利要求11所述的翻译装置,其特征在于,
所述输出部在保持所述原文布局的基础上,在原文的行间输出由所述决定部决定要译出的单词或词组的译文。
13.根据权利要求11所述的翻译装置,其特征在于,
所述输出部生成配置有所述原文的全文的原文层以及配置有所述单词或词组的译文的译文层,并对生成的原文层和译文层进行合成后输出。
14.根据权利要求1所述的翻译装置,其特征在于,
所述输出部对由所述决定部决定为不译出的单词或词组画上旁线后输出。
15.一种翻译方法,特征在于,包括,
取得第1语言的原文的文本;
取得在所取得的文本中所包含的单词或词组各自的第2语言的译文;
对构成所述单词或词组的字符以及所取得的构成该单词或词组的译文的字符进行比较,来决定是否按每一个所述单词或词组进行译出;以及,
基于决定的结果来输出单词或词组的译文。
CN2012105111270A 2011-12-05 2012-12-03 翻译装置和翻译方法 Pending CN103136195A (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2011266170A JP5528420B2 (ja) 2011-12-05 2011-12-05 翻訳装置、翻訳方法及びコンピュータプログラム
JP2011-266170 2011-12-05

Publications (1)

Publication Number Publication Date
CN103136195A true CN103136195A (zh) 2013-06-05

Family

ID=48496034

Family Applications (1)

Application Number Title Priority Date Filing Date
CN2012105111270A Pending CN103136195A (zh) 2011-12-05 2012-12-03 翻译装置和翻译方法

Country Status (3)

Country Link
US (1) US20130144598A1 (zh)
JP (1) JP5528420B2 (zh)
CN (1) CN103136195A (zh)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731777A (zh) * 2015-03-31 2015-06-24 网易有道信息技术(北京)有限公司 一种译文评价方法及装置
CN108021549A (zh) * 2016-11-04 2018-05-11 华为技术有限公司 序列转换方法及装置

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6471074B2 (ja) * 2015-09-30 2019-02-13 株式会社東芝 機械翻訳装置、方法及びプログラム
CN106156013B (zh) * 2016-06-30 2019-02-19 电子科技大学 一种固定搭配型短语优先的两段式机器翻译方法
US10762306B2 (en) * 2017-12-27 2020-09-01 Telenav, Inc. Computing system with a cross-locale natural language searching mechanism and method of operation thereof
CN112131891B (zh) * 2020-09-24 2024-04-30 安徽听见科技有限公司 翻译方向自动切换方法、装置以及设备
CN115359797A (zh) * 2022-08-18 2022-11-18 北京有竹居网络技术有限公司 语音识别的方法、装置、设备和存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1030313A (zh) * 1986-07-01 1989-01-11 日本电气株式会社 日文和中文之间的翻译方法
CN1795449A (zh) * 2003-05-28 2006-06-28 精工电子有限公司 电子词典
CN1855090A (zh) * 2005-04-26 2006-11-01 株式会社东芝 用于将日文翻译成中文的装置和方法
US20090228263A1 (en) * 2008-03-07 2009-09-10 Kabushiki Kaisha Toshiba Machine translating apparatus, method, and computer program product

Family Cites Families (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH04295964A (ja) * 1991-03-25 1992-10-20 Matsushita Electric Ind Co Ltd 機械翻訳装置
JP3161942B2 (ja) * 1995-06-14 2001-04-25 シャープ株式会社 訳振り機械翻訳装置
JP2973944B2 (ja) * 1996-06-26 1999-11-08 富士ゼロックス株式会社 文書処理装置および文書処理方法
JP2001175683A (ja) * 1999-12-21 2001-06-29 Nec Corp 翻訳サーバシステム
US7447624B2 (en) * 2001-11-27 2008-11-04 Sun Microsystems, Inc. Generation of localized software applications
JP4018668B2 (ja) * 2004-05-28 2007-12-05 株式会社東芝 日中機械翻訳装置、日中機械翻訳方法および日中機械翻訳プログラム
JP2008250796A (ja) * 2007-03-30 2008-10-16 Casio Comput Co Ltd 情報表示装置及び情報表示プログラム
JP4948586B2 (ja) * 2009-11-06 2012-06-06 シャープ株式会社 文書画像生成装置、文書画像生成方法、コンピュータプログラム及び記録媒体
JP5211193B2 (ja) * 2010-11-10 2013-06-12 シャープ株式会社 翻訳表示装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1030313A (zh) * 1986-07-01 1989-01-11 日本电气株式会社 日文和中文之间的翻译方法
CN1795449A (zh) * 2003-05-28 2006-06-28 精工电子有限公司 电子词典
CN1855090A (zh) * 2005-04-26 2006-11-01 株式会社东芝 用于将日文翻译成中文的装置和方法
US20090228263A1 (en) * 2008-03-07 2009-09-10 Kabushiki Kaisha Toshiba Machine translating apparatus, method, and computer program product

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
王金玲: "日汉机器翻译系统中术语自动翻译技术的研究", 《中国优秀硕士学位论文库》 *

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN104731777A (zh) * 2015-03-31 2015-06-24 网易有道信息技术(北京)有限公司 一种译文评价方法及装置
CN108021549A (zh) * 2016-11-04 2018-05-11 华为技术有限公司 序列转换方法及装置
CN108021549B (zh) * 2016-11-04 2019-08-13 华为技术有限公司 序列转换方法及装置
US11132516B2 (en) 2016-11-04 2021-09-28 Huawei Technologies Co., Ltd. Sequence translation probability adjustment

Also Published As

Publication number Publication date
US20130144598A1 (en) 2013-06-06
JP5528420B2 (ja) 2014-06-25
JP2013117927A (ja) 2013-06-13

Similar Documents

Publication Publication Date Title
CN103136195A (zh) 翻译装置和翻译方法
RU2458391C2 (ru) Проверка ошибок сочетаний слов на базе сети интернет
CN110046350A (zh) 文法错误识别方法、装置、计算机设备及存储介质
US20070055496A1 (en) Language processing system
WO2019224891A1 (ja) 分類装置、分類方法、生成方法、分類プログラム及び生成プログラム
CN102141979B (zh) 文档图像生成装置、文档图像生成方法
CN102081594A (zh) 从可移植电子文档中提取字符外接矩形的设备和方法
CN103093252A (zh) 信息输出装置以及信息输出方法
JP4947861B2 (ja) 自然言語処理装置およびその制御方法ならびにプログラム
CN104239289A (zh) 音节划分方法和音节划分设备
US20200302166A1 (en) Computing system for extraction of textual elements from a document
Lyu et al. Neural OCR post-hoc correction of historical corpora
CN100361124C (zh) 用于词分析的系统和方法
Somers The translator's workstation
JP3743678B2 (ja) 自動自然言語翻訳
AlGahtani et al. Arabic part-of-speech tagging using transformation-based learning
KR101086550B1 (ko) 로마자 변환을 이용한 일본어 자동 추천 시스템 및 방법
KR102552811B1 (ko) 클라우드 기반 문법 교정 서비스 제공 시스템
JPH08263478A (ja) 中国語簡繁体字文書変換装置
CN101382933A (zh) 创建用于学习单词翻译的数据的装置和方法
Palmero Aprosio et al. Adaptive complex word identification through false friend detection
Wang Research on cultural translation based on neural network
Keenan Large vocabulary syntactic analysis for text recognition
Jaruskulchai An automatic indexing for Thai text retrieval
Hsieh et al. The concept of neighborhood underlying the phonetic consistency effect in Chinese character recognition: A four-decade review and beyond

Legal Events

Date Code Title Description
C06 Publication
PB01 Publication
C10 Entry into substantive examination
SE01 Entry into force of request for substantive examination
C02 Deemed withdrawal of patent application after publication (patent law 2001)
WD01 Invention patent application deemed withdrawn after publication

Application publication date: 20130605