JP4947843B2 - 翻訳装置、翻訳方法、プログラムを記録した記録媒体、および、プログラム - Google Patents
翻訳装置、翻訳方法、プログラムを記録した記録媒体、および、プログラム Download PDFInfo
- Publication number
- JP4947843B2 JP4947843B2 JP2001075401A JP2001075401A JP4947843B2 JP 4947843 B2 JP4947843 B2 JP 4947843B2 JP 2001075401 A JP2001075401 A JP 2001075401A JP 2001075401 A JP2001075401 A JP 2001075401A JP 4947843 B2 JP4947843 B2 JP 4947843B2
- Authority
- JP
- Japan
- Prior art keywords
- translation
- character string
- area
- region
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Expired - Fee Related
Links
Images
Landscapes
- Machine Translation (AREA)
Description
【発明の属する技術分野】
本発明は、翻訳装置、翻訳方法、プログラムを記録した記録媒体、および、プログラムに関し、特に、文書を領域毎に翻訳する翻訳装置、翻訳方法、プログラムを記録した記録媒体、および、プログラムに関する。
【0002】
【従来の技術】
近年、パーソナルコンピュータ(以下、PCと略す)の急速な普及により、PC上で、各種の文書を取扱う人が急増している。特に、インターネットの急速な普及により、海外サイトからのニュースレター、海外サイトのメーリングリストでの情報収集や海外の友人との電子メールによるコミュニケーションの機会も着実に増加している。したがって、日常生活で余り外国語を使用しない人にも、PC等の機器において外国語の文書を読む必要が出てきた。このような背景から、従来から、翻訳を行なう装置についての技術が、種々開示されてきた。
【0003】
たとえば、特開平10−78965号公報には、翻訳対象となる文書を複数の領域に分割し、領域毎に、記載されている言語を判断し、翻訳の対象とする範囲を自動的に検出する文書表示装置が開示されている。
【0004】
また、特開平11−85756号公報には、翻訳対象となる文書において、カスケード、箇条書き、番号付き箇条書き、ラベル付き箇条書き等のレイアウト構造を解析した上で翻訳の対象とする範囲を自動的に認識する技術が開示されている。なお、この公報に記載された技術によると、箇条書きされた部分の先頭部に付された番号が、箇条書きのために、形式的に付されたものであると認識されるため、高精度で、翻訳がなされていた。
【0005】
【発明が解決しようとする課題】
しかしながら、上記した従来の技術では、領域毎の言語が翻訳対象とするか否かの判断対象とされたり、領域内の文章のレイアウトによって翻訳態様が決定されていたため、電子メールのヘッダ情報を含む、定型的で翻訳の必要性に乏しい領域まで、翻訳の対象とされていた。
【0006】
なお、他のあらゆる分野と同様に、翻訳処理の分野においても、無駄な処理を除いて効率を向上させることによる、処理の高速化の実現が切望されている。
【0007】
本発明は、かかる実情に鑑み考え出されたものであり、その目的は、効率よく翻訳処理を実行できる翻訳装置、翻訳方法、プログラムを記録した記録媒体、および、プログラムを提供することである。
【0008】
【課題を解決するための手段】
本発明のある局面に従った翻訳装置は、メール文書を入力する入力部と、前記入力部に入力されたメール文書を、メール文書の冒頭の所定行であって挨拶に用いられる文字列として予め記憶された文字列を含む挨拶領域、該挨拶領域より後方で特定文字で区切られた行以降で署名に用いられる文字列として予め記憶された文字列を含む署名領域、電子メールのヘッダ部分に用いられる文字列として予め記憶された文字列を含む行であるメールヘッダ情報領域、または、メール文書の返信において原文の引用に用いられる文字列を含む行である引用句文字列を有する領域の、いずれか1つを含む定型表現領域と、いずれも含まない、当該定型表現領域以外の領域とに分割する領域分割部と、前記メール文書内の各領域について翻訳を実行するか否かの判断基準を記憶する判断基準記憶部とを含み、前記判断基準記憶部は、前記判断基準として、少なくともインターネットアドレス、メールアドレス、電話番号、ファックス番号、罫線、プログラムソース絵文字、株価の銘柄を含む文字列である情報文字列を記憶し、前記判断基準に基づいて、前記定型表現領域以外の領域に対して、前記情報文字列を翻訳が不要であると判断する、翻訳要否判断部と、前記入力部に入力されたメール文書の一部または全部の翻訳処理を実行する翻訳処理部と、前記定型表現領域以外の領域のうち、前記翻訳要否判断部によって翻訳が不要であると判断された前記情報文字列以外の領域に対してのみ、前記翻訳処理部に翻訳処理を実行させる、翻訳指示部とをさらに含むことを特徴とする。
【0009】
本発明のある局面に従うと、翻訳要否判断部によって翻訳が不要と判断された領域については、翻訳処理がスキップされる。
【0010】
これにより、不要な翻訳処理を省略できるため、翻訳装置における翻訳処理の効率を向上できる。
【0012】
これにより、翻訳装置では、翻訳が不要であると考えられる書簡での定型表現に対する翻訳処理を、省略できる。
【0014】
これにより、Eメールアドレス等、翻訳の不要なものについての翻訳処理を省略できるして翻訳処理を簡素化できるだけでなく、翻訳不要なものについて翻訳処理を実行することにより却って翻訳精度を低下させる事態を回避できる。
【0015】
また、本発明の翻訳装置は、前記翻訳処理部における翻訳処理が失敗したか否かの基準である失敗基準を記憶する、失敗基準記憶部と、前記翻訳要否判断部によって翻訳が必要であると判断された領域のメール文書中の入力文と、前記入力文が前記翻訳処理部により翻訳処理を実行された翻訳文とを、前記失敗基準に基づいて比較することにより、前記翻訳処理部における前記入力文についての翻訳処理が失敗したか否かを判断する失敗判断部とを含み、前記失敗基準記憶部は、さらに、前記失敗判断部により前記翻訳処理が失敗したと判断された入力文を失敗文として記憶し、前記失敗基準記憶部に記憶された前記失敗文と同一である文を含む領域については、前記翻訳処理部に、前記翻訳処理を実行させない前記翻訳中止指示部をさらに含むことが好ましい。
【0016】
本発明によれば、ある領域についての翻訳処理が失敗していると判断されると、当該領域についての翻訳処理が中止される。また、翻訳処理による翻訳の効果の見られない、無駄な翻訳処理を、未然に回避できる。
【0017】
これにより、無駄な翻訳処理を省略できるため、翻訳装置における翻訳処理の効率を向上できる。
【0018】
また、本発明の翻訳装置では、前記失敗基準記憶部は、前記失敗基準として、前記入力文と前記翻訳文とが同一であることを記憶し、前記失敗判断部は、前記入力文と前記翻訳文が同一である場合に、前記入力文についての翻訳処理が失敗したと判断することが好ましい。
【0019】
これにより、翻訳処理が実行されている領域のそれ以降の部分についての、翻訳の効果の見られない無駄な翻訳処理を、省略できる。
【0022】
本発明のある局面に従った翻訳方法は、装置に入力された文書についての翻訳方法であって、メール文書を入力するステップと、前記入力されたメール文書を、メール文書の冒頭の所定行であって挨拶に用いられる文字列として予め記憶された文字列を含む挨拶領域、該挨拶領域より後方で特定文字で区切られた行以降で署名に用いられる文字列として予め記憶された文字列を含む署名領域、電子メールのヘッダ部分に用いられる文字列として予め記憶された文字列を含む行であるメールヘッダ情報領域、または、メール文書の返信において原文の引用に用いられる文字列を含む行である引用句文字列を有する領域の、いずれか1つを含む定型表現領域と、いずれも含まない、当該定型表現領域以外の領域とに分割するステップと、前記メール文書内の各領域について翻訳を実行するか否かの判断基準を記憶するステップとを含み、前記判断基準として、少なくともインターネットアドレス、メールアドレス、電話番号、ファックス番号、罫線、プログラムソース絵文字、株価の銘柄を含む文字列である情報文字列が記憶され、前記判断基準に基づいて、前記定型表現領域以外の領域に対して、前記情報文字列を翻訳が不要であると判断するステップと、前記定型表現領域以外の領域のうち、翻訳が不要であると判断された前記情報文字列以外の領域に対してのみ、翻訳処理を実行するステップとをさらに含むことを特徴とする。
【0023】
本発明のある局面に従った記録媒体は、コンピュータに、メール文書を入力するステップと、前記入力されたメール文書を、メール文書の冒頭の所定行であって挨拶に用いられる文字列として予め記憶された文字列を含む挨拶領域、該挨拶領域より後方で特定文字で区切られた行以降で署名に用いられる文字列として予め記憶された文字列を含む署名領域、電子メールのヘッダ部分に用いられる文字列として予め記憶された文字列を含む行であるメールヘッダ情報領域、または、メール文書の返信において原文の引用に用いられる文字列を含む行である引用句文字列を有する領域の、いずれか1つを含む定型表現領域と、いずれも含まない、当該定型表現領域以外の領域とに分割するステップと、前記メール文書内の各領域について翻訳を実行するか否かの判断基準を記憶するステップとを実行させ、前記判断基準として、少なくともインターネットアドレス、メールアドレス、電話番号、ファックス番号、罫線、プログラムソース絵文字、株価の銘柄を含む文字列である情報文字列が記憶され、前記判断基準に基づいて、前記定型表現領域以外の領域に対して、前記情報文字列を翻訳が不要であると判断するステップと、前記定型表現領域以外の領域のうち、翻訳が不要であると判断された前記情報文字列以外の領域に対してのみ、翻訳処理を実行するステップとをさらに実行させるためのプログラムを記録していることを特徴とする。
【0024】
本発明のある局面に従ったプログラムは、コンピュータに、メール文書を入力するステップと、前記入力されたメール文書を、メール文書の冒頭の所定行であって挨拶に用いられる文字列として予め記憶された文字列を含む挨拶領域、該挨拶領域より後方で特定文字で区切られた行以降で署名に用いられる文字列として予め記憶された文字列を含む署名領域、電子メールのヘッダ部分に用いられる文字列として予め記憶された文字列を含む行であるメールヘッダ情報領域、または、メール文書の返信において原文の引用に用いられる文字列を含む行である引用句文字列を有する領域の、いずれか1つを含む定型表現領域と、いずれも含まない、当該定型表現領域以外の領域とに分割するステップと、前記メール文書内の各領域について翻訳を実行するか否かの判断基準を記憶するステップとを実行させ、前記判断基準として、少なくともインターネットアドレス、メールアドレス、電話番号、ファックス番号、罫線、プログラムソース絵文字、株価の銘柄を含む文字列である情報文字列が記憶され、前記判断基準に基づいて、前記定型表現領域以外の領域に対して、前記情報文字列を翻訳が不要であると判断するステップと、前記定型表現領域以外の領域のうち、翻訳が不要であると判断された前記情報文字列以外の領域に対してのみ、翻訳処理を実行するステップとをさらに実行させることを特徴とする。
【0025】
本発明のある局面にしたがうと、翻訳が不要と判断された領域については、翻訳処理がスキップされる。
【0026】
これにより、不要な翻訳処理を省略できるため、翻訳処理の効率を向上できる。
【0044】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を参照しつつ説明する。
【0045】
図1は、本発明の一実施の形態である翻訳装置のブロック図である。入力部1は、文字列および記号を入力したり、ユーザが指示を入力するためのものであり、たとえば、キーボード、マウス、ペン・タブレット等の入力装置、および、ネットワーク通信装置から構成される。
【0046】
出力部2は、入力部1に入力された原文や処理結果を出力するものであり、たとえば、液晶ディスプレイ、プラズマディスプレイからなる表示装置や、サーマルプリンタ、レーザプリンタからなるプリンタから構成される。
【0047】
記憶部3は、文や文章を格納するテキストバッファを含む文書を処理する際に必要なデータを記憶する装置、および、処理領域であり、たとえば、RAM、ROM、フロッピーディスク、ハードディスク等のメモリから構成される。記憶部3は、文書内の定型表現属性を認識するための定型表現認識知識部3A、メールヘッダ情報と定型表現属性とを関連付けて記憶したり、翻訳スキップフラグを記憶する定型表現属性記憶部3B、処理対象となった部分が翻訳の不要な部分であるか否かの判断基準を記憶する翻訳不要判定知識部3C、および、翻訳が失敗したか否かの判断基準を記憶する翻訳失敗判定知識部3Dを含む。
【0048】
メール処理部4は、電子メール文書の送受信処理や、受信した電子メール文書から送信者、主題、電子メールソフト(電子メールの送受信に用いられるソフトウェア)などのメールヘッダ情報の抽出や管理を実行する。翻訳処理部5は、入力された電子メールや文書、文章の翻訳を記憶部3に記憶された内容等に基づいて実行するものであり、たとえば、CPU、ROM、RAM、I/Oポートからなるマイクロコンピュータから構成される。
【0049】
レイアウト構造解析部6は、文書のメールヘッダ情報を除いた部分のレイアウト構造を解析し、メール文書を複数の領域に分割し、当該複数の領域を定型表現の領域とそれ以外の領域とに分離するものであり、たとえば、CPU、ROM、RAM、I/Oポートからなるマイクロコンピュータから構成される。なお、メール文書には、単数の領域しか含まれないものもある。その場合には、レイアウト構造解析部6は、当該単数の領域を、定型表現の領域かそれ以外の領域かに区別する。
【0050】
領域とは、メール本文において、空白部分で区切られた部分であって、個々の段落等の形式的に分割されている部分であり、単数または複数の文を含む。なお、領域とは、具体的には、たとえば、「行頭に一文字分の空白が存在する箇所から、次に出現する、行頭の一文字分の空白部分の直前までの部分」であったり、「文字を入力されることなく改行された二つの行(二つの空白行)に挟まれた部分」とすることができる。
【0051】
翻訳文選択部7は、翻訳不要判定知識部3Cの記憶内容に基づいた判定結果に従って、文書内で翻訳の対象となるテキスト領域を選択するものである。
【0052】
翻訳停止部8は、原文および翻訳結果を解析し、翻訳失敗判定知識部3Dの記憶内容に基づいて、翻訳処理が失敗したか否かおよび翻訳処理を継続するかまたは停止するかを判断する。
【0053】
翻訳スキップ部9は、現在処理対象となっている文章が、翻訳停止部8によって翻訳処理を停止すると判断された文章であるか否かを判断し、そのような文章である場合には、当該文章に対して翻訳処理をスキップする情報を出力する。
【0054】
次に、本実施の形態の翻訳装置における翻訳処理を、図3を参照して説明する。図3は、翻訳処理のフローチャートである。なお、以下に、翻訳処理の具体的な例として、図2の画面10に示すような電子メールを受信した際、翻訳対象となる部分を抽出して日本文に翻訳する処理について説明するが、本発明はこれに限定されるものではない。本発明は、送信する電子メールの文書を翻訳する際に適用されることもでき、また、翻訳前および翻訳後の言語の種類に対する制限もない。さらに、本発明は、電子メールの文書以外にも、一般の文書を翻訳する際にも、適用することができる。
【0055】
まず、翻訳装置では、S1で、メール処理部4により電子メールが受信され、受信された電子メールの文書からメールヘッダ情報が抽出されて、処理がS2に進む。メールヘッダ情報の抽出は、周知の技術に基づいて実行される。なお、本実施の形態では、当該電子メールの送信者、主題、および、電子メールソフトについての情報が抽出される。なお、具体的には、送信者,主題は、電子メールのヘッダ部分の「From:」,「Subject:」を含む行からそれぞれ抽出される。また、電子メールソフトについての情報は、電子メールのヘッダ部分の「X−Mailer:」を含む行から抽出されるが、すべての電子メールの文書に含まれるものではない。つまり、「X−Mailer:」の部分を含まない電子メール文書も存在する。
【0056】
次に、S2では、S1で受信した電子メール文書においてメールヘッダ情報に対応する部分があるか否かの判断がなされる。なお、メールヘッダ情報に対応する部分を有することを、定型表現属性がある、とも言う。そして、電子メール文書に定型表現属性があると判断された場合には処理はS3に進み、無いと判断された場合には処理はS4に進む。
【0057】
S3では、レイアウト構造解析部6により、メール本文のレイアウト構造が解析され、メール本文における各領域が定型表現領域であるか否かを認識される。メール本文とは、電子メール文書におけるメールヘッダ情報を示す部分を除いた部分である。
【0058】
そして、S3における解析がなされることにより、メール本文は、定型表現領域と、それ以外の領域に分離される。
【0059】
ここで、S3における解析処理(定型表現領域認識処理)について、図4を参照して詳細に説明する。図4は、上記の定型表現領域認識処理のサブルーチンのフローチャートである。
【0060】
定型表現領域認識処理では、まず、S301で、メール本文の先頭から1行ずつ処理対象として取得され、S302で、当該処理対象の行に定型表現認識知識部3Aに記憶された定型表現の中の「冒頭挨拶」欄に記憶された文字列が含まれるか否かが判断される。そして、当該文字列を含むと判断されると、S303で、処理対象とされた行に「(A)」のタグを付与し、S311に処理を進める。定型表現認識知識部3Aの記憶内容について、図5〜図7を参照して説明する。
【0061】
図5は、定型表現認識知識部3Aの記憶内容を模式的に示す図である。定型表現認識知識部3Aの記憶内容は、図5の「冒頭挨拶」欄と、図6の「末尾署名」欄と、図7の「転送メールヘッダ」欄とに分けられている。
【0062】
「冒頭挨拶」欄には、所属を表す「社」や「部」、電子メールを送信する相手の役職や相手に対する敬称を表す「長」や「殿」、送信する者が自己紹介する際に用いられる「です。」、および、挨拶に用いられる「お世話」などの文字列が記憶されている。そして、レイアウト構造部6は、前述したS302において、処理対象の行に、冒頭挨拶欄に記憶された文字列が含まれていると判断すると、処理をS303に進める。一方、当該文字列が含まれていないと判断すると、S304に処理を進める。
【0063】
なお、S302の処理のみ、処理対象とされる行は、メール本文の先頭から5行目までとされる。つまり、メール本文の先頭から6行目以降の行に対しては、S302の処理をスキップして、S304における処理がなされる。
【0064】
また、上記した「転送メールヘッダ」欄には、転送された電子メールに含まれる「Fowarded by 」、「Original Message」、「From:」、「To:」などの文字列が記憶されている。そして、レイアウト構造部6は、S304において、処理対象の行に、転送メールヘッダ欄に記憶された文字列が含まれているか否かを判断し、含まれていると判断すると、処理をS305に進め、処理対象の行にタグ「(B)」を付与して、S311に処理を進める。一方、当該文字列が含まれていないと判断すると、そのままS306に処理を進める。
【0065】
また、上記した「末尾署名」欄には、所属を表す「社」や「部」、住所を表す「都」「道」「府」「県」「市」や「町」、電話番号やファクシミリ番号の前に記載される「TEL」や「FAX」、メールアドレスやURL(uniform resource locator)に含まれる「@」や「http」、および、罫線として用いられる「−−−」や「===」などの文字列が記憶されている。そして、レイアウト構造部6は、S306において、処理対象の行に、末尾署名欄に記憶された文字列が含まれているか否かを判断し、含まれていると判断すると、処理をS307に進め、処理対象の行にタグ「(E)」を付与して、S311に処理を進める。一方、当該文字列が含まれていないと判断すると、そのままS308に処理を進める。
【0066】
なお、定型表現認識知識部3Aには、図5に示した「冒頭挨拶」「末尾署名」「転送メールのヘッダ」の他にも、さらに、他の種類の定型文を同定できるような文字列(他の定型表現に含まれる文字列)を記憶させることもできる。本実施の形態において、他の定型表現とは、具体的には、メールの返信の際に原文を引用する際に文頭に定型的に記載される文字列(「>」)を挙げられる。そして、S308では、処理対象の行に、当該他の定型表現に含まれる文字列が含まれるか否かが判断される。そして、含まれると判断されると、S309で、処理対象の行に当該他の定型表現に対応したタグ(図4のS309では(C))が付与され、S311に処理を進める。一方、当該文字列が含まれないと判断されると、そのままS310に処理を進める。
【0067】
以上説明したS302〜S309の処理では、処理対象の行に、予め記憶された定型表現特有の文字列が含まれるか否かによって、当該処理対象の行が定型表現であるか否かが判断された。なお、定型表現であるか否かの判断方法としては、このような方法に限らず、特開平11−85756号公報に記載されているように、処理対象の行を、電子メール内の前後の単数または複数の行と比較した結果に基づいた方法も考えられる。
【0068】
一方、S310では、処理対象の行を、定型表現ではないもの(否定形表現である)として、S311に進む。つまり、S310の処理により、処理対象の行が定型表現認識知識部3Aに記憶されているいずれの文字列も含まない場合には、当該行に対して、いずれのタグも付されることなく、処理が進められる。
【0069】
次に、S311では、当該処理対象とされた行で、S3(図3参照)において処理対象とされた文が終わるか否かが判断され、終わると判断されると、S312に処理が進み、まだ終わらないと判断されると、処理は、S301に戻り、次の行が、処理対象とされ、S302〜S310の処理が実行される。
【0070】
S312では、所定の条件が満たされる場合、各行に付与されたタグが除去され、S313へ処理が進む。
【0071】
なお、タグの除去の態様の一例を挙げると、ある行に上記したタグ(A)が付与されている場合であって、電子メールの先頭行から連続してタグ(A)が付与されていない場合には、当該ある行のタグ(A)が除去される。より具体的には、電子メールの先頭行から5行目にタグ(A)が付与されている場合であって、電子メールの先頭行から5行目まで連続してタグ(A)が付与されていない場合(つまり、先頭行から4行目までの少なくとも1行にタグ(A)が付与されていない場合)には、5行目に付与されたタグ(A)が除去される。つまり、文の途中に「○○社の△△です」等の表現があっても、冒頭挨拶とは認識されず、後述するように当該文が翻訳対象とされる。
【0072】
また、タグの除去の態様の他の例を挙げると、ある行に上記したタグ(E)が付与されている場合であって、電子メールの末尾から連続してタグ(E)が付与されていない場合には、当該ある行のタグ(E)が除去される。より具体的には、電子メールの末尾の行から5行目にタグ(E)が付与されている場合であって、電子メールの末尾の行から5行目まで連続してタグ(E)が付与されていない場合(つまり、末尾の行から4行目までの少なくとも1行にタグ(E)が付与されていない場合)には、末尾の行から5行目に付与されたタグ(E)が除去される。つまり、文の途中に「TEL」等の記載があっても、末尾署名とは認識されず、後述するように当該文が翻訳対象とされる。
【0073】
そして、S313では、S303等でタグの付与された文の領域のテキストデータが、S1で抽出されたメールヘッダ情報と共に、定型表現属性記憶部3Bに格納されて、リターンする。なお、定型表現属性記憶部3Bにおける記憶内容を、図8に模式的に示す。
【0074】
図8を参照して、定型表現属性記憶部3Bには、メールヘッダ情報が記憶されるメールヘッダ情報記憶部30と、電子メールに含まれる定型表現が当該電子メールのメールヘッダ情報に関連付けられて記憶される定型表現属性情報記憶部31とが含まれる。
【0075】
定型表現属性情報記憶部31の情報は、現在処理されている電子メール中の各種の情報が、メールヘッダ情報記憶部30に記憶された情報に関連付けられて、記憶されている。具体的には、定型表現属性情報記憶部31には、A〜Eの記憶領域が形成されている。Aの記憶領域には、タグ(A)を付された、「冒頭挨拶」の情報が記憶されている。Bの記憶領域には、タグ(B)を付された、「転送メールヘッダ」や「返信メールヘッダ」の情報が記憶されている。Cの記憶領域には、タグ(C)を付された、「他の定型表現」の情報が記憶されている。Dの記憶領域には、メールを返信する場合、返信メールのどの領域に返信本文が書かれているかを示したもので、「文頭」もしくは「文中」のいずれかが記憶されている。Eの記憶領域には、タグ(E)を付された、「末尾署名」の情報が記憶されている。
【0076】
つまり、この時点で、図2に示す電子メール文書の各領域に対応して(A)〜(E)のタグが付され、また、電子メール文書の中のタグを付された領域の文字情報は、それぞれ、定型表現属性情報記憶部31の各所に記憶されていることになる。
【0077】
ここで、再度、図3を参照して、S3での定型表現領域認識処理が終了すると、次に、S4で、現在、処理対象となっている領域が、定型表現の領域か、つまり、定型表現属性情報記憶部31に記憶されている領域であるか否かが判断される。そして、記憶されている領域であると判断されると、S13に処理が進み、記憶されている領域ではないと判断されると、S5に処理が進む。
【0078】
S5では、現在、処理対象となっている領域が、翻訳スキップ領域として定型表現属性記憶部3Bに記憶されている領域に該当するか否かを判断する。なお、翻訳スキップ領域とは、後述するS11の処理において問題とされる領域であるため、ここでは説明を省略する。そして、当該領域に該当すると判断されると、処理はS13に進み、当該領域には該当しないと判断されると、処理はS6に進む。
【0079】
S6では、現在、処理対象となっている領域が、翻訳不要な領域であるか否かが判断される。翻訳不要な領域とは、どのような言語圏においても、翻訳されずにそのまま提供されることによって、本来の情報を提供できる文字列(以下、情報文字列と略す)を言う。本実施の形態において、情報文字列としては、具体的には、図9に示すように、インターネットアドレス、メールアドレス、電話番号、ファックス番号、罫線、プログラムソース、メール等で使用される絵文字、株価情報を表す文字列が挙げられる。(ただし、図9中の「ABO」は、銘柄を表す架空のコードである。)
ここでの判断の基準となる、図9に示したような情報は、翻訳不要判定知識部3Cに記憶されている。そして、翻訳不要な領域であると判断されると、処理はS13に進み、そのような領域ではないと判断されると、処理はS7に進む。
【0080】
S7では、現在、処理対象となっている領域について、翻訳処理部5によって翻訳がなされ、処理がS8に進む。
【0081】
S8では、翻訳が失敗したか否かについて判断される。ここでの判断では、具体的には、図10に示すように、「翻訳結果と原文の文字列が、一致しているか否か」、「翻訳結果と原文の文字列が、空白・タブ、改行コードを除き、一致しているか否か」、および、「翻訳結果中に、原文の文字列が多く出現しているか否か」の3種類の項目について判断され、少なくとも一つの項目に該当すると判断されると、翻訳が失敗したと判断される。なお、上記の3種類の、翻訳失敗についての判断基準(判断項目)は、翻訳失敗判定知識部3Dに記憶されている。そして、翻訳が失敗したと判断されると、処理はS9に進み、翻訳が失敗していないと判断されると、処理はS10に進む。
【0082】
S9では、現在、処理対象となっている領域内で、翻訳の失敗がN文続いたか否かが判断される。ここで、Nとは、数字であり、この数値は、予め定められていても良いし、処理対象の領域に含まれる文の数に対して一定の割合の数とされてもよい。そして、N文続いたと判断されると、処理はS11に進み、そうではないと判断されると、処理はS10に進む。
【0083】
S11では、現在、処理対象となっている領域が、翻訳スキップ領域として、メールヘッダ情報に関連付けられて、定型表現属性記憶部3Bに記憶され、処理はS12に進む。また、S11の処理では、現在処理対象となっている領域の、翻訳処理は中止され、かつ、それまでの翻訳結果が破棄される。
【0084】
なお、現在処理対象となっている領域が、翻訳スキップ領域として記憶されるため、次に処理対象となる領域が、現在処理となっている領域と同じ記載内容(または類似する記載内容)であれば、S5の処理で、当該次に処理対象となった領域は、翻訳対象外とされる。
【0085】
一方、S10では、直前に実行されたS8の処理が、現在、処理対象となっている領域の最後の文についての翻訳処理であったか否かが判断される。最後の文についての処理ではなかった、つまり、まだ、処理すべき文が残っていると判断されると、処理はS6に戻る。一方、最後の文についての翻訳処理であったと判断されると、処理はS12に進む。
【0086】
S12では、翻訳の結果が、出力部2に表示され、処理はS13に進む。
S13では、電子メール文書内のすべての領域について、処理がなされたか否かが判断される。まだ、処理されていない領域があると判断されると、処理はS4に戻り、すべての領域が処理されたと判断されると、処理が終了する。
【0087】
以上、図3等を用いて説明した翻訳処理の結果、図2に示した電子メール文書では、タグ(A)〜(E)を付された領域以外の領域(Bass氏から〜、Thank you for 〜、I'm sending you 〜)が、S7の処理対象とされる。
【0088】
また、本実施の形態では、図5〜図7に示した情報を記憶する定型表現認識知識部3Aにより、書簡の定型表現を記憶する判断基準記憶部が構成されている。また、図9に示した情報を記憶する翻訳不要判定知識部3Cにより、情報文字列を記憶する判断基準記憶部が構成されている。なお、判断基準記憶部として、定型表現や情報文字列の他に、ユーザが翻訳しないように設定した特定の条件(送信者や手段など)のような、翻訳を実行するか否かの判断基準に相当する情報を記憶することができる。
【0089】
なお、本実施の形態の翻訳処理の内容を特定するプログラムは、翻訳装置のメール処理部4、翻訳処理部5、レイアウト構造解析部6、翻訳文選択部7等の各要素に記憶されていてもよいし、翻訳装置に対して着脱可能な記録媒体に記録されていてもよい。このような記録媒体に記録されている場合、翻訳装置には、図11に示すように、入力部1にCD−ROMドライブ20が取付けられ、記録媒体の一例であるCD−ROM21が、CD−ROMドライブ20に挿入される。これにより、CD−ROM21に記録された翻訳処理の内容が、翻訳装置によって読み出される。
【0090】
また、定型表現認識知識部3Aには、電子メール文書等の、文書の定型的な表現として「冒頭挨拶」等が記憶されているが、定型的な表現は、図5〜図7に示したものに限定されない。たとえば、広告文の文頭に用いられる、「--PR--」、「==AD==」、「--+ PR +--」、「==INFORMATION===」等も、定型的な表現として記憶され、このような文字列を含む領域は、翻訳をされないようにすることもできる。また、「○○さんは書きました。」等の表現も、文書の定型的な表現として記憶されてもよい。
【0091】
今回開示された実施の形態はすべての点で例示であって制限的なものではないと考えられるべきである。本発明の範囲は上記した説明ではなくて特許請求の範囲によって示され、特許請求の範囲と均等の意味および範囲内でのすべての変更が含まれることが意図される。
【0092】
【発明の効果】
以上説明した本発明によると、翻訳要否判断部によって翻訳が不要と判断された領域については、翻訳処理がスキップされる。これにより、不要な翻訳処理を省略できるため、翻訳装置における翻訳処理の効率を向上できる。
【0093】
また、以上説明した本発明によると、ある領域についての翻訳処理が失敗していると判断されると、当該領域についての翻訳処理が中止される。これにより、無駄な翻訳処理を省略できるため、翻訳装置における翻訳処理の効率を向上できる。
【図面の簡単な説明】
【図1】 本発明の一実施の形態である翻訳装置のブロック図である。
【図2】 図1の翻訳装置において受信される電子メールの表示画面の一例である。
【図3】 図1の翻訳装置において実行される翻訳処理のフローチャートである。
【図4】 図3の定型表現領域認識処理のサブルーチンのフローチャートである。
【図5】 図1の翻訳装置の定型表現認識知識部の記憶内容を模式的に示す図である。
【図6】 図1の翻訳装置の定型表現認識知識部の記憶内容を模式的に示す図である。
【図7】 図1の翻訳装置の定型表現認識知識部の記憶内容を模式的に示す図である。
【図8】 図1の翻訳装置の定型表現属性記憶部の記憶内容を模式的に示す図である。
【図9】 図1の翻訳装置の翻訳不要判定知識部の記憶内容を模式的に示す図である。
【図10】 図1の翻訳装置の翻訳失敗判定知識部の記憶内容を模式的に示す図である。
【図11】 図1の翻訳装置の変形例を示す図である。
【符号の説明】
1 入力部、2 出力部、3 記憶部、3A 定型表現認識知識部、3B 定型表現属性記憶部、3C 翻訳不要判定知識部、3D 翻訳失敗判定知識部、4メール処理部、5 翻訳処理部、6 レイアウト構造解析部、7 翻訳文選択部、8 翻訳停止部、9 翻訳スキップ部。
Claims (6)
- メール文書を入力する入力部と、
前記入力部に入力されたメール文書を、メール文書の冒頭の所定行であって挨拶に用いられる文字列として予め記憶された文字列を含む挨拶領域、該挨拶領域より後方で特定文字で区切られた行以降で署名に用いられる文字列として予め記憶された文字列を含む署名領域、電子メールのヘッダ部分に用いられる文字列として予め記憶された文字列を含む行であるメールヘッダ情報領域、または、メール文書の返信において原文の引用に用いられる文字列を含む行である引用句文字列を有する領域の、いずれか1つを含む定型表現領域と、いずれも含まない、当該定型表現領域以外の領域とに分割する領域分割部と、
前記メール文書内の各領域について翻訳を実行するか否かの判断基準を記憶する判断基準記憶部とを含み、
前記判断基準記憶部は、前記判断基準として、少なくともインターネットアドレス、メールアドレス、電話番号、ファックス番号、罫線、プログラムソース絵文字、株価の銘柄を含む文字列である情報文字列を記憶し、
前記判断基準に基づいて、前記定型表現領域以外の領域に対して、前記情報文字列を翻訳が不要であると判断する、翻訳要否判断部と、
前記入力部に入力されたメール文書の一部または全部の翻訳処理を実行する翻訳処理部と、
前記定型表現領域以外の領域のうち、前記翻訳要否判断部によって翻訳が不要であると判断された前記情報文字列以外の領域に対してのみ、前記翻訳処理部に翻訳処理を実行させる、翻訳指示部とをさらに含む、翻訳装置。 - 前記翻訳処理部における翻訳処理が失敗したか否かの基準である失敗基準を記憶する、失敗基準記憶部と、
前記翻訳要否判断部によって翻訳が必要であると判断された領域のメール文書中の入力文と、前記入力文が前記翻訳処理部により翻訳処理を実行された翻訳文とを、前記失敗基準に基づいて比較することにより、前記翻訳処理部における前記入力文についての翻訳処理が失敗したか否かを判断する失敗判断部とを含み、
前記失敗基準記憶部は、さらに、前記失敗判断部により前記翻訳処理が失敗したと判断された入力文を失敗文として記憶し、
前記失敗基準記憶部に記憶された前記失敗文と同一である文を含む領域については、前記翻訳処理部に、前記翻訳処理を実行させない前記翻訳中止指示部をさらに含む、請求項1に記載の翻訳装置。 - 前記失敗基準記憶部は、前記失敗基準として、前記入力文と前記翻訳文とが同一であることを記憶し、
前記失敗判断部は、前記入力文と前記翻訳文が同一である場合に、前記入力文についての翻訳処理が失敗したと判断する、請求項2に記載の翻訳装置。 - 装置に入力された文書についての翻訳方法であって、
メール文書を入力するステップと、
前記入力されたメール文書を、メール文書の冒頭の所定行であって挨拶に用いられる文字列として予め記憶された文字列を含む挨拶領域、該挨拶領域より後方で特定文字で区切られた行以降で署名に用いられる文字列として予め記憶された文字列を含む署名領域、電子メールのヘッダ部分に用いられる文字列として予め記憶された文字列を含む行であるメールヘッダ情報領域、または、メール文書の返信において原文の引用に用いられる文字列を含む行である引用句文字列を有する領域の、いずれか1つを含む定型表現領域と、いずれも含まない、当該定型表現領域以外の領域とに分割するステップと、
前記メール文書内の各領域について翻訳を実行するか否かの判断基準を記憶するステップとを含み、
前記判断基準として、少なくともインターネットアドレス、メールアドレス、電話番号、ファックス番号、罫線、プログラムソース絵文字、株価の銘柄を含む文字列である情報文字列が記憶され、
前記判断基準に基づいて、前記定型表現領域以外の領域に対して、前記情報文字列を翻訳が不要であると判断するステップと、
前記定型表現領域以外の領域のうち、翻訳が不要であると判断された前記情報文字列以外の領域に対してのみ、翻訳処理を実行するステップとをさらに含む、翻訳方法。 - コンピュータに、
メール文書を入力するステップと、
前記入力されたメール文書を、メール文書の冒頭の所定行であって挨拶に用いられる文字列として予め記憶された文字列を含む挨拶領域、該挨拶領域より後方で特定文字で区切られた行以降で署名に用いられる文字列として予め記憶された文字列を含む署名領域、電子メールのヘッダ部分に用いられる文字列として予め記憶された文字列を含む行であるメールヘッダ情報領域、または、メール文書の返信において原文の引用に用いられる文字列を含む行である引用句文字列を有する領域の、いずれか1つを含む定型表現領域と、いずれも含まない、当該定型表現領域以外の領域とに分割するステップと、
前記メール文書内の各領域について翻訳を実行するか否かの判断基準を記憶するステップとを実行させ、
前記判断基準として、少なくともインターネットアドレス、メールアドレス、電話番号、ファックス番号、罫線、プログラムソース絵文字、株価の銘柄を含む文字列である情報文字列が記憶され、
前記判断基準に基づいて、前記定型表現領域以外の領域に対して、前記情報文字列を翻訳が不要であると判断するステップと、
前記定型表現領域以外の領域のうち、翻訳が不要であると判断された前記情報文字列以外の領域に対してのみ、翻訳処理を実行するステップとをさらに実行させるためのプログラムを記録した記録媒体。 - コンピュータに、
メール文書を入力するステップと、
前記入力されたメール文書を、メール文書の冒頭の所定行であって挨拶に用いられる文字列として予め記憶された文字列を含む挨拶領域、該挨拶領域より後方で特定文字で区切られた行以降で署名に用いられる文字列として予め記憶された文字列を含む署名領域、電子メールのヘッダ部分に用いられる文字列として予め記憶された文字列を含む行であるメールヘッダ情報領域、または、メール文書の返信において原文の引用に用いられる文字列を含む行である引用句文字列を有する領域の、いずれか1つを含む定型表現領域と、いずれも含まない、当該定型表現領域以外の領域とに分割するステップと、
前記メール文書内の各領域について翻訳を実行するか否かの判断基準を記憶するステップとを実行させ、
前記判断基準として、少なくともインターネットアドレス、メールアドレス、電話番号、ファックス番号、罫線、プログラムソース絵文字、株価の銘柄を含む文字列である情報文字列が記憶され、
前記判断基準に基づいて、前記定型表現領域以外の領域に対して、前記情報文字列を翻訳が不要であると判断するステップと、
前記定型表現領域以外の領域のうち、翻訳が不要であると判断された前記情報文字列以外の領域に対してのみ、翻訳処理を実行するステップとをさらに実行させるための、プログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001075401A JP4947843B2 (ja) | 2001-03-16 | 2001-03-16 | 翻訳装置、翻訳方法、プログラムを記録した記録媒体、および、プログラム |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2001075401A JP4947843B2 (ja) | 2001-03-16 | 2001-03-16 | 翻訳装置、翻訳方法、プログラムを記録した記録媒体、および、プログラム |
Publications (3)
Publication Number | Publication Date |
---|---|
JP2002278961A JP2002278961A (ja) | 2002-09-27 |
JP2002278961A5 JP2002278961A5 (ja) | 2008-05-01 |
JP4947843B2 true JP4947843B2 (ja) | 2012-06-06 |
Family
ID=18932488
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2001075401A Expired - Fee Related JP4947843B2 (ja) | 2001-03-16 | 2001-03-16 | 翻訳装置、翻訳方法、プログラムを記録した記録媒体、および、プログラム |
Country Status (1)
Country | Link |
---|---|
JP (1) | JP4947843B2 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2017058760A (ja) * | 2015-09-14 | 2017-03-23 | 株式会社東芝 | コミュニケーション支援装置、方法及びプログラム |
JP6888410B2 (ja) | 2017-05-15 | 2021-06-16 | 富士フイルムビジネスイノベーション株式会社 | 情報処理装置及び情報処理プログラム |
Family Cites Families (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH11272670A (ja) * | 1998-03-20 | 1999-10-08 | Toshiba Corp | 機械翻訳装置及び機械翻訳方法 |
JP4073635B2 (ja) * | 2000-02-29 | 2008-04-09 | 富士通株式会社 | 中継装置、サーバ装置、端末装置、及びこれを利用した翻訳サーバシステム |
-
2001
- 2001-03-16 JP JP2001075401A patent/JP4947843B2/ja not_active Expired - Fee Related
Also Published As
Publication number | Publication date |
---|---|
JP2002278961A (ja) | 2002-09-27 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US6820237B1 (en) | Apparatus and method for context-based highlighting of an electronic document | |
US7457798B2 (en) | System and method for providing a universal and automatic communication access point | |
US7178099B2 (en) | Meta-content analysis and annotation of email and other electronic documents | |
US6336124B1 (en) | Conversion data representing a document to other formats for manipulation and display | |
US7243125B2 (en) | Method and apparatus for presenting e-mail threads as semi-connected text by removing redundant material | |
CA2499440C (en) | Method and apparatus for summarizing one or more text messages using indicative summaries | |
CN101061478B (zh) | 用于识别web文档的方法和系统 | |
US20070168430A1 (en) | Content-based dynamic email prioritizer | |
JP2007287134A (ja) | 情報抽出装置、及び情報抽出方法 | |
JP2006092027A (ja) | 文字認識装置、文字認識方法および文字認識プログラム | |
US20210034814A1 (en) | Machine learning models for electronic messages analysis | |
WO2002044991A1 (en) | Method and system for emotion perception from text | |
JP2006293573A (ja) | 電子メール処理装置および電子メールフィルタリング方法および電子メールフィルタリングプログラム | |
US20040153312A1 (en) | Speech recognition dictionary creation method and speech recognition dictionary creating device | |
JP4058928B2 (ja) | 文書表示システム、受信装置、文書表示方法、および記録媒体 | |
Lampert et al. | Segmenting email message text into zones | |
JP4947843B2 (ja) | 翻訳装置、翻訳方法、プログラムを記録した記録媒体、および、プログラム | |
JP5178077B2 (ja) | 議論状況把握支援装置および方法 | |
JPH10133853A (ja) | 電子メール書換え方法及び装置 | |
US20180267939A1 (en) | Method of editing an electronic message with elimination of redundant elements | |
JPH10254795A (ja) | 電子メール処理装置 | |
JP2002288091A (ja) | メール、データの表示 | |
CN111444716A (zh) | 标题分词方法、终端及计算机可读存储介质 | |
JP4463242B2 (ja) | 情報分類装置 | |
JP4982154B2 (ja) | 構造化文書の構文解析方法及び装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20080314 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20080314 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20101102 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20101227 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20110705 |
|
A521 | Written amendment |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20110901 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20120228 |
|
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20120306 |
|
FPAY | Renewal fee payment (event date is renewal date of database) |
Free format text: PAYMENT UNTIL: 20150316 Year of fee payment: 3 |
|
R150 | Certificate of patent or registration of utility model |
Free format text: JAPANESE INTERMEDIATE CODE: R150 |
|
LAPS | Cancellation because of no payment of annual fees |