JP3768105B2 - 翻訳装置、翻訳方法並びに翻訳プログラム - Google Patents

翻訳装置、翻訳方法並びに翻訳プログラム Download PDF

Info

Publication number
JP3768105B2
JP3768105B2 JP2001020195A JP2001020195A JP3768105B2 JP 3768105 B2 JP3768105 B2 JP 3768105B2 JP 2001020195 A JP2001020195 A JP 2001020195A JP 2001020195 A JP2001020195 A JP 2001020195A JP 3768105 B2 JP3768105 B2 JP 3768105B2
Authority
JP
Japan
Prior art keywords
translation
article
headline
unit
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2001020195A
Other languages
English (en)
Other versions
JP2002222189A (ja
Inventor
顕司 小野
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Toshiba Corp
Original Assignee
Toshiba Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Toshiba Corp filed Critical Toshiba Corp
Priority to JP2001020195A priority Critical patent/JP3768105B2/ja
Priority to US10/054,887 priority patent/US7080320B2/en
Publication of JP2002222189A publication Critical patent/JP2002222189A/ja
Application granted granted Critical
Publication of JP3768105B2 publication Critical patent/JP3768105B2/ja
Priority to US11/433,404 priority patent/US7505895B2/en
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、文書のタイトルや見出し、特に新聞記事のヘッドラインの翻訳に好適な翻訳装置、翻訳方法並びに翻訳プログラム関する。
【0002】
【従来の技術】
近年、インターネット上の英語ウェブページ閲覧のために機械翻訳ソフトが利用されることが増えてきた。例えば、海外の動向をリアルタイムに伝えてくれるオンラインニュースのウェブページの閲覧に、機械翻訳ソフトが利用される。翻訳ソフトを使ってこれらのページを読むユーザは、ヘッドラインの訳文を見て記事本文を読むか否かを判断することが多い。従って、ヘッドライン部分の翻訳は本文部分の翻訳よりも重要性が高い。
【0003】
しかしながら、このような英語ニュース記事においては、翻訳辞書に登録されていない新しい固有名詞が多々使用されており、また、文体が特殊であることから、機械翻訳が困難である。特にそのヘッドライン(記事タイトル)は、英語圏の読者の背景知識を前提として断片的に記述されており、機械翻訳は極めて困難である。
【0004】
【発明が解決しようとする課題】
このように、従来、ニュース記事においては、特にヘッドラインにおいて特殊な用法が用いられていることから、機械翻訳が極めて困難であるという問題点があった。
【0005】
本発明は、ニュース記事を高精度に機械翻訳することができる翻訳装置、翻訳方法並びに翻訳プログラムを提供することを目的とする。
【0006】
本発明は、ニュース記事の特にヘッドラインを高精度に機械翻訳することができる翻訳装置、翻訳方法並びに翻訳プログラムを提供することを目的とする。
【0007】
【課題を解決するための手段】
本発明に係る翻訳装置は、記事本文とこの記事本文を要約したヘッドライン部分とを含む記事情報を翻訳する翻訳装置であって、前記ヘッドライン部分と前記記事本文部分とを判定する判定手段と、前記判定手段の判定結果に基づいて前記ヘッドライン部分と前記記事本文部分とを特定し、前記ヘッドライン部分と前記記事本文部分とに対して翻訳を行う翻訳手段とを具備し、前記翻訳手段は、前記判定手段の判定結果を利用して、前記ヘッドライン部分の語句と前記記事本文部分の語句との間でフレーズアラインメント処理を行って、前記ヘッドライン中の名詞句と前記記事本文の名詞句との類似度を算出し、同一物を指している語句の対応情報を処理結果として得るフレーズアラインメント手段を具備し、前記フレーズアラインメント手段の前記処理結果を前記ヘッドライン部分の翻訳に利用することを特徴とする。
【0008】
本発明の請求項1においては、判定手段によって記事情報のヘッドライン部分と記事本文部分とが判定される。この判定結果に基づいて、翻訳手段は、ヘッドライン部分と記事本文部分とを特定して、これらの部分に対して翻訳を行う。
【0009】
本発明の請求項9においては、先ず、記事情報のヘッドライン部分と記事本文部分とが判定される。この判定結果に基づいて、ヘッドライン部分と記事本文部分とが特定されてこれらの部分の翻訳が行われる。
【0010】
本発明の請求項13において、コンピュータは、記事情報のヘッドライン部分と記事本文部分とを判定する判定処理と、判定処理の判定結果に基づいて、ヘッドライン部分と記事本文部分とを特定してこれらの部分を翻訳する翻訳処理とを実行する。
【0011】
【発明の実施の形態】
以下、図面を参照して本発明の実施の形態について詳細に説明する。図1は本発明に係る翻訳装置の一実施の形態を示すブロック図である。本実施の形態は英語記事を日本語の翻訳記事に変換するものに適用した例を示しているが、いずれの言語間の翻訳にも適用可能である。
【0012】
本実施の形態は、ニュース記事のヘッドライン部分及び本文の部分を検出して、これらの部分を正確に翻訳することを可能にするものであり、ニュース記事の分類に応じた翻訳手法を用いて翻訳精度を向上させる構成と、略語を含む名詞句の正確な抽出及び翻訳を可能にして翻訳精度を向上させる構成と、ヘッドラインと本文とに対して適応的な翻訳手法を用いることにより翻訳精度を向上させる構成とを備えている。なお、これらの構成は単独又は自由に組み合わせて使用可能である。
【0013】
図1の翻訳装置は、解析用辞書6、翻訳用辞書8及び英日対訳コーパス7を記録するハードディスク等の記録部と、前処理部1、類似記事検索部2、訳語情報抽出部3、フレーズアラインメント処理部4及び翻訳処理部5等の処理部によって構成されている。各処理部は、プログラムによって構成可能である。
【0014】
前処理部1には英語記事の電子情報が入力される。前処理部1は、翻訳対象として入力された英語記事を解析し、ヘッドライン部分及び記事本文部分を判別する。
【0015】
図2は前処理部1におけるヘッドライン部分及び記事本文部分を判別するアルゴリズムを示すフローチャートである。図2の例は翻訳対象の英語記事が例えばインターネット上のニュースサイトのウェブ文書である場合の一例を示している。
【0016】
前処理部1は、ステップS1 において、翻訳対象のウェブページのURL(Uniform Resource Locater)をチェックして取得し、ステップS2 において、取得したURLから対象のウェブページが、登録されているニュースサイトであるか否かを判断する。前処理部1は、翻訳対象のウェブページがニュースサイトとして登録されている場合には、ステップS3 において、ニュースサイト毎に用意されている判定アルゴリズムに基づいて、入力された英語記事のうちヘッドライン部分及び記事本文部分の判定を行う。
【0017】
登録URLの例としては、
"http://xxxxnews・xxxxx.com/headlines/ts/index.html"
"http://www.xxx.com/"
"http://www.newsxxx.com/"
"http://www.xxtimes.coln/71
等がある。
【0018】
登録された各URLについては、それぞれのウェブページの構成に対応したヘッドライン・記事本文判定アルゴリズムが用意されている。例えば、ヘッドラインの位置をタグ<NYT_HEADLINE>,</NYT _ HEADLINE>相互間に配置するウェブページにおいては、これらのタグによってヘッドラインの位置を判定することができ、また例えば、記事本文(リード部分)をタグ<NYT_SUMMARY>,</NYT_SUMMARY>相互間に配置するウェブページにおいては、これらのタグによって記事本文の位置を判定することができる。通常、各ニュースサイト毎に、ヘッドライン及び記事本文の配列は規定されており、前処理部1は、規定された配列に対応する判定アルゴリズムを用いて、ヘッドライン及び記事本文を判別して抽出することができる。
【0019】
なお、同一のニュースサイトであっても、URLの一部が異なる場合には、ウェブページの構成も異なることがある。このような場合には、各URL毎にヘッドライン及び記事本文の判定アルゴリズムを登録すればよい。
【0020】
URLが登録されていない場合には、前処理部1は、ステップS4 において、URLがニュースサイトである可能性が高い文字列、例えば、“news”や“press”等の文字列を含んでいるか否かを判断する。前処理部1は、これらの文字列がURL内に含まれる場合には、対象のウェブページがニュースサイトであるものと判断して、入力された英文記事に所定の判定アルゴリズムを適用して、ヘッドライン及び記事本文の判別及び抽出を行う(ステップS5 )。
【0021】
図3は図2中のステップS5 の判定アルゴリズムを示している。即ち、図3の判定アルゴリズムにおいては、登録されていないURLのサイトについてもヘッドライン及び記事本文の判別,抽出が可能である。
【0022】
前処理部1は、ステップS11において翻訳対象のウェブページの電子情報を取得する。前処理部1は、ステップS12においてスクリプトコード等の非表示部分の情報を削除し、ステップS13において、タグを含んでいない連続する文字列部分を取り出し、変数Nに取り出した文字列部分の個数(単語数)を代入する。次に、前処理部1は、ステップS14で、表示される文字列部分の表示属性を規定するタグ情報を取得する。
【0023】
前処理部1は、ステップS15で変数Iに1を代入し、ステップS16でNが1よりも小さいか否かを判断する。Nが1よりも小さい場合には処理を終了し、Nが1以上の場合には、前処理部1はステップS17において、文字列部分の属性がヘッドライン部分に多用されているものと同一であるか否かを判断する。例えば、前処理部1は、ステップS17において、判定対象の文字列が太字タグでマークアップされているか、他のページへのリンクになっているか、他の部分に比して大きいサイズのフォントが指定されているか否か等を判断する。
【0024】
記事のヘッドラインは、通常太字又は記事本文よりも大きいフォントで表示されることが多く、また、特定のタグが使用されていることも多い。更に、記事のヘッドラインは、詳細な記事本文ページヘのHTML(Hyper Text Markup Language )リンクになっている場合もある。
【0025】
そこで、前処理部1は、ステップS17の判定をヘッドライン部分であるか否かの1判定基準とする。しかし、太字のフォントは記者名や日時等で使用されることも多い。そこで、前処理部1は、ステップS17によってヘッドラインに多用されるフォント等であると判断した場合には、次のステップS18の処理によって更に判定を行うようになっている。
【0026】
ステップS18においては、判定対象の文字列部分Iがヘッドライン以外の部分において多用されるものであるか否かの判定が行われる。例えば、前処理部1は、文字列部分Iに「Written by ・・・」や「Photo by ・・・」が含まれるか否か、文字列部分Iが日時を示す数値であるか否かを判定する。
【0027】
更に、前処理部1は、ヘッドライン部分においては単語数が制限を受けることを利用してヘッドライン部分の判定を行う。即ち、前処理部1は、ステップS19,S20において単語数を判定する。例えば、文字列部分が太字やHTMLリンクになっていても、数単語以下の場合にはヘッドラインでないことが多い。逆に、単語数が多すぎる場合も、ヘッドラインでないことが多い。前処理部1は、ステップS19,S20において、単語数が3単語以上10単語以下である場合にヘッドラインであると判定する(ステップS21)。
【0028】
また、前処理部1は、ステップS17においてヘッドライン部分以外の部分であると判定した場合には、次のステップS22において、単語数を判定することにより、記事本文部分かそれ以外の部分かを判定するようになっている。即ち、前処理部1は、単語数が10単語以上である場合には記事本文であると判定(ステップS23)し、それよりも少ない場合にはそれ以外の部分であると判定する(ステップS24)。
【0029】
なお、前処理部1は、ステップS18,S19においてヘッドライン部分以外の部分であると判定した場合にも、ステップS24においてヘッドライン部分以外で且つ記事本文部分以外の部分であるものと判定する。ステップS21,S23,S24における判定が行われると、ステップS25においてIをインクリメントして次の文字列部分についてステップS16以降の処理を繰返す。
【0030】
更に、ヘッドライン及び記事本文の判定方法としては種々考えられる。例えば、ヘッドラインはページの先頭や、HTML文書の<HEAD>部に記載されていることが多いことを利用して、ヘッドライン部分を判定することも可能である。これらの各種判定基準を利用することにより、図2の例よりは精度が低いが、ヘッドライン及び記事本文の判定を行うことができる。
【0031】
翻訳対処の英語記事がSGML(Standard Generalized Markup Language)又はXML(eXtensible Markup Language )文書の場合には、前処理部1は、タグコードからヘッドライン及び記事本文がいずれの部分であるかを容易に判別することができる。
【0032】
また、翻訳対象の英語記事がこのようなタグ情報や属性情報を有していないワープロ文書やテキスト文書の場合であっても、記事先頭に近い文字列で著者名や場所、日付でないものをその記事のヘッドラインとし、それ以降の文字列を記事本文と判定するようなヒューリスティックスを用いることによって、ある程度ヘッドラインの自動判定を行うことができる。また、著者名や場所の判定には、形態素解析を利用することも考えられる。
【0033】
更に、前処理部1は、ヘッドラインや記事本文部分を自動判定できない場合には、ヘッドラインの候補を表示してユーザの指示入力によって、ヘッドライン及び記事本文部分を決定するようにしてもよい。
【0034】
図1に示すように、前処理部1の前処理結果は、類似記事検索部2、フレーズアラインメント処理部4及び翻訳処理部5に与えられる。本実施の形態においては、前処理結果を利用することで、翻訳部分を特定して類似記事検索部2及び訳語情報抽出部3によってニュース記事の分類に応じた翻訳が可能となり、フレーズアラインメント処理部4によって名詞句の正確な抽出及び翻訳が可能となり、翻訳処理部5によってヘッドラインと本文とに対して適応的な翻訳が可能となる。
【0035】
類似記事検索部2及び訳語情報抽出部3によって、ニュース記事の分類に応じた訳語を得る。先ず、類似記事検索部2は、前処理部1の処理結果である単語ベクトルを用いて、英日対訳コーパス7中の英語記事で翻訳対象の英語記事と類似しているものを検索する。英日対訳コーパス7は、英語記事とその翻訳記事とを対になった形で登録したデータベースである。日本語翻訳記事は人手で作成された品質のよいものが望ましいが、英語記事の抄訳であるようなものでも後述する訳語情報抽出処理が可能ならば許容される。
【0036】
解析用辞書6には、英語単語の辞書見出しと品詞や複数形、略記形、活用形などの情報が含まれている。類似記事検索部2の形態素解析処理、つまり翻訳対象の英語記事及び英日対訳コーパス中の英語記事の形態素解析にこれを利用する。なお解析用辞書6の内容は翻訳用辞書8の英日辞書と重複するので、翻訳用辞書8で解析用辞書6を代用することも可能である。
【0037】
類似記事検索部2は下記(a)乃至(f)のステップによって英日対訳コーパス7から翻訳対象の英語記事に類似した類似記事を検索する。
【0038】
(a)解析用辞書6を用いて、ヘッドラインと本文部分を形態素素解析して、単語を取り出す。
【0039】
(b)とりだした単語の出現頻度を計算し、各語幹を次元とし、その頻度をその次元の値とするベクトルを記事ごとに作成する。そして、次元(単語)のインデックスをkとして、英語記事ベクトルをek と表記する。
【0040】
(c)英日対訳コーパス7中の各英語記事について、ステップ(a),(b)と同様の処理を行う。この場合には、記事番号のインデックスをjとし、次元(単語)のインデックスをkとして、記事ベクトルをEjkと表記する。
【0041】
(d)翻訳対象の記事と英日コーパス7内の記事との記事間の類似度を、各記事ベクトル間の内積計算を行うことにより求める。英語記事と英日対訳コーパス7中の英語記事jとの間の類似度は下記(1)式によって求まる。
【0042】
Figure 0003768105
(e)類似度値が高い順に、記事の対をソートする。なお、類似度がしきい値以下のものは除く。
【0043】
(f)類似度が高い順に、規定された個数だけ記事の対を選択し、選択された英日対訳コーパス7内の記事対を類似記事として出力する。
【0044】
即ち、類似記事検索部2は、類似度が高い英日対訳コーパス7中のコーパス英語記事を、翻訳対象の英語記事に類似した類似記事と判断するのである。
【0045】
なお、このような類似記事検索部2の処理(記事アラインメント技術)については、下記参考文献(1),(2),(3)に詳述されている。
【0046】
(1)Collier,N. Kumano, A.,Hikrakawa,H.”English-Japanese news article alignment form the internet using MT” , Japan SOC. for AI annual meeting, 1998.
(2)Collier,N・,Hirakawa,H.,Kumano,A.”Machine Translation vs Dictionary Term Translation − a cornparison for English-Japanese nevvs article alignment”, COLING-ACL-1998.
(3)Collier, N・,Hirakawa,H・,Kumano,A. ” Creating a noisy parallel corpus from newswire articles using multi-lingual information retrieval” , Transactions of J. SOC.Information Processing,1999.
なお、上述したステップ(c)の処理は、事前に実行しておいて、その処理結果(各記事の英語単語ベクトル)のみを英日対訳コーパス7内に保持させておくようにしてもよい。この場合には、処理を高速化させることができ、英日対訳コーパス7中に英語記事本文を保持させる必要がないので必要な記憶容量を低減させることができる。
【0047】
なお、類似記事検索部2は、類似記事検索の類似度の判定において、固有名詞や日付、数量表現の重みを下げるようになっている。検索された類似記事は訳語情報を抽出するために用いるので、必ずしも翻訳対象の英語記事で扱っている事件に直接関係した記事である必要はなく、火事の記事であるとか、企業の買収の記事であるとか、記事で扱っている事件のタイプが似ていれば十分である。従って、記事の中で固有名詞や日付、数量表現によって示される誰が、何を、どこで、いつ、どれだけといった情報が類似している必要はないので、類似度判定におけるそれらの重みを下げるのである。逆に、これらの重みを下げない場合には、英日対訳コーパス7の中から十分な数の類似記事を検索することができず、後述する訳語情報抽出処理を適切に行うことができなくなる。
【0048】
また、上記ステップ(a),(b),(c)において、形態素解析して単語を抽出するかわりに、ポーター(Porter)アルゴリズムと呼ばれるヒューリスティックルールを用いて英単語の語幹部分を取り出して、単語の代わりに利用することも考えられる。この処理はステミングと呼ばれ、辞書を必要としないので高速に実行できるメリットがある。Porterアルゴリズムについては、参考文献(4)Porter, M.F. , " An Algorithm For Sumx Stripping,",Program 14 (3),July 1980, pp. 130-137.に記述されている。
【0049】
また、ステップ(b),(c)においては、固有名詞(大文字で始まる単語)や日付、金額などの数量表現の重みを下げるだけでなく、ヘッドライン部の単語や記事の先頭段落(リード)部分の単語について、記事本文部分の単語より重みを大きくすることも考えられる。
【0050】
図4は上述したステップ(d),(e),(f)の処理を、これと等価でより高速化したアルゴリズムで実現する手法を示すフローチャートである。
【0051】
図4のアルゴリズムは、上述したステップ(d)によって英日対訳コーパス7中の各記事毎の類似度を求める際に、各時点で類似度が上位のものを規定個数だけ保存更新することにより、処理に必要な記憶容量を大幅に削減すると共に、ステップ(e)のソーティング処理を不要にして処理の高速化を達成するものである。
【0052】
図4のステップS31においては、類似記事検索部2が出力する類似記事数の上限をNとし、英日対訳コーパス7の英語記事総数をMとし、類似度の閾値をPとする。サイズがNの配列ARRAYを準備する。
【0053】
ステップS32において、変数L(ARRAY中の記事の類似度最小値)=0とし、変数K(ARRAY中の記事数)=0とする。次に、ステップS33において英日対訳コーパス7中の英語記事番号Iを1に初期化する。
【0054】
類似記事検索部2は、ステップS34において英日対訳コーパス7中の全ての英語記事についての類似記事の検索処理が行われたか否かを判断する。ステップS36では、類似記事検索部2は、翻訳対象の英語記事と英日対訳コーパス7中の英語記事Iの類似度Sを、上記ステップ(a),(b),(c)で求めた記事ベクトルの内積によって計算する。
【0055】
ステップS37では、類似記事検索部2は、求めた類似度Sが閾値Pよりも大きいか否かを判定する。類似度Sが閾値Pよりも小さい場合には、英語記事Iは類似記事には該当しないものと判断して、処理をステップS46に移行し、次の英語記事I(I+1)についてステップS34以降の処理を繰返す。
【0056】
類似記事検索部2は、ステップS36で求めた類似度Sが閾値Pよりも大きい場合には、ステップS38において、配列ARRAY内の記事数Kが配列Nのサイズを越えていないか否かを判定する。越えていない場合には、ステップS39において配列ARRAYに英語記事Iを追加し、記事数Kをインクリメントする。
【0057】
次に、類似記事検索部2は、類似度Sが配列ARRAY内の英語記事の類似度の最小値Lよりも小さいか否かを判断し、SがL以上の場合にはステップS46に移行し、SがLよりも小さい場合には、ステップS41においてLにSを代入した後ステップS46に移行する。
【0058】
ステップS38において、配列ARRAY内の記事数Kが配列Nのサイズを越えていると判定された場合には、類似記事検索部2は、ステップS42において類似度Sが現配列ARRAY内の記事の類似度最小値Lよりも大きいか否かを判定する。SがLよりも小さい場合には、ステップS46に移行して次の記事について処理を行う。SがLよりも大きい場合には、類似記事検索部2は次のステップS43において類似度最小値Lの記事を配列ARRAYから削除し、ステップS44において配列ARRAYに記事Iを追加しステップS45において類似度最小値Lを求めてLに代入する。次いで、ステップS46に移行して、次の記事について同様の処理を繰返す。
【0059】
類似記事検索部2は、ステップS34において英日対訳コーパス7中の全ての記事についての類似度検索が行われたものと判断すると、ステップS35において配列ARRAY内の類似記事を出力する。このように、各記事毎に類似を計算し、類似度が上位K個の英語記事を配列ARRAYに保存するようにしているので、処理に必要な容量を削減し、ソーティングを不要にして高速化を図ることができる。
【0060】
類似記事の電子情報は訳語情報抽出部3に供給される。訳語情報抽出部3は、類似記事検索部2が検出した英日対訳コーパス7中の英語類似記事とその日本語翻訳記事とから英単語とその訳語の情報を抽出する。即ち、前処理部1に入力された英語記事内の各単語の訳語として、英日対訳コーパス7中の類似記事の訳語を利用するのである。つまり、訳語情報抽出部3は類似記事検索部2の検索結果である類似記事とその翻訳記事から、類似記事中の英単語がどの訳語に翻訳されているかを検出し、訳語情報として出力する。
【0061】
翻訳用辞書8には英日辞書と日英辞書が含まれている。英日辞書には英語単語の辞書見出しと品詞や複数形、活用形等の情報、及び日本語訳後のリストが含まれている。日英辞書には日本語単語の辞書見出しと品詞や活用形等の情報、及び訳語のリストが含まれている。
【0062】
訳語情報抽出部3は、類似記事の英語記事から英語単語を取得しその日本語訳語候補を取得するのに翻訳用辞書8の英日辞書を利用する。また、類似記事の日本語記事から日本語単語を取得しその英語訳語候補を取得するのに翻訳用辞書8の日英辞書を利用する。
【0063】
翻訳処理部5では、翻訳用辞書8の英日辞書を利用して翻訳を行う。
【0064】
図5は訳語情報抽出部3の処理アルゴリズムを示すフローチャートである。
【0065】
訳語情報抽出部3は、訳語候補の抽出のために機械翻訳用の英日辞書及び日英辞書からなる翻訳用辞書8を利用する。先ず、訳語情報抽出部3は、ステップS51において類似記事のうちの英語記事の各単語を取得し、その日本語訳語候補を翻訳用辞書8中の英日辞書から取得する。次に、訳語情報抽出部3は、ステップS52において類似記事のうちの日本語記事の単語を取得し、その英語訳語候補を翻訳用辞書8中の日英辞書から取得する。
【0066】
次に、訳語情報抽出部3は、ステップS53において、英語記事の日本語訳語候補のうち日本語記事に出現するものを取得する。訳語情報抽出部3は、ステップS54において、英語記事の単語Emに対する日本語訳語候補のうち最も多く出現する単語を、単語Emの日本語訳語Jmとし、英単語と日本語訳語との単語対及びその出願頻度Hmの情報(Em,Jm,Hm)を得る。
【0067】
次に、訳語情報抽出部3は、ステップS55において、日本語記事の英語訳語候補のうち英語記事に出現するものを取得する。訳語情報抽出部3は、ステップS56において、日本語記事の単語Jnに対する英語訳語候補のうち最も多く出現する単語を、単語Jnの英語訳語ENとし、日本語単語と英語訳語との単語対及びその出願頻度Hnの情報(En,Jn,Hn)を得る。
【0068】
これにより、英日対訳コーパス7中の英語記事中の各単語と日本語記事中の各単語との対応が推定される。
【0069】
次に、訳語情報抽出部3は、ステップS57において、単語対の情報(Em,Jm,Hm),(En,Jn,Hn)をマージする。即ち、訳語情報抽出部3は、Em==En,Jm==Jnである単語対の情報のみを(Em,Jm,Hm+Hn)という1単語対の情報にマージする。
【0070】
そして、訳語情報抽出部3は、同一英単語に対して異なる日本語単語が存在する場合には、頻度が最大のもののみを残して他の単語対の情報を削除し、ステップS59において単語対の情報を訳語情報として出力する。
【0071】
こうして、類似記事について、各英単語の日本語訳語がその頻度の情報と共に訳語情報として得られる。この訳語情報、即ち、類似記事の訳語情報を用いて翻訳を行うことにより、記事の分類に応じた翻訳が可能となる。
【0072】
なお、対訳記事からの訳語情報の抽出の手法としては種々考えられる。図5のアルゴリズムの例によれば、翻訳文書の文の並びや構造が原文書と相当異なるような場合でも、有効な訳語情報を得ることができる。例えば、新聞記事等の翻訳の場合には、自国の読者に読みやすいように文体や記述する内容の順番が原文とかなり異なっていることが多いので、図5のアルゴリズムは新聞記事等の翻訳に適している。
【0073】
ところで、訳語情報抽出部3の処理については、種々の変形例が考えられる。例えば、1つの変形例として、前処理部1で翻訳対象の英語記事に記述されている英単語を抽出しておき、訳語情報抽出部3はそれらの英単語についてのみ、訳語情報の抽出を行うようにすることが考えられる。これによって、訳語情報抽出処理を高速化することができる。
【0074】
また、他の変形例として、前処理部1の動作を拡張して、前処理の際に翻訳処理部5を利用して翻訳対象の英語記事を一度翻訳し、英単語の訳語を抽出して訳語情報抽出部3に出力する。抽出した訳語をその英単語のデフォルト訳語と呼ぶことにする。そして、訳語情報抽出部3は抽出した訳語情報のうち訳語がデフォルト訳語と異なるものだけを翻訳処理部5に出力することも考えられる。この方式によれば、最終的に訳語の変化に寄与する訳語情報だけが訳語情報抽出部3から出力されることになり、翻訳処理部5での処理を高速化することができる。
【0075】
図1のフレーズアラインメント処理部4は、名詞句の正確な抽出及び翻訳を可能にする。例えば、企業名等においては、記事本文においては正確な名詞句を記述しても、ヘッドライン部分にはその一部のみを記述することが多い。つまり、ヘッドラインでは短縮した表現や略語が用いられることが多く、通常の翻訳辞書では翻訳が困難である。そこで、フレーズアラインメント処理部4は、ヘッドライン中の語句(名詞句)と記事本文、特に記事の先頭文の名詞句の間の類似度を計算して、同一物を指している語句の対応情報(フレーズアラインメント結果)を出力する。これにより、ヘッドライン中の略語等を正確に翻訳することが可能となる。
【0076】
図6はフレーズアラインメント処理のアルゴリズムを示すフローチャートである。
【0077】
ステップS61,62においては、フレーズアラインメント処理部4は、記事ヘッドライン及び記事本文又は先頭文に対して形態素解析を行って、一定の条件(例えば、下記(2)式)を満たす部分品詞列を名詞句候補として抽出する。なお、フレーズアラインメント処理部4は、構文解析結果から名詞句候補を抽出することも考えられるが、速度的には形態素解析列から抽出する方が早い。フレーズアラインメント処理部4は品詞列に対する候補抽出の条件を正規表現で記述する。下記条件式(2)はその一例を示している。なお、(2)式において、?は直前の品詞を省略可能であることを示し、(○|□)は○又は□を示し、*は直前の品詞((2)の例では名詞又は形容詞)の1回以上の繰り返しを示している。
【0078】
“冠詞?(名詞|形容詞)*名詞” …(2)
フレーズアラインメント処理部4は、次のステップS63乃至S64において、ヘッドライン中の名詞句に対応する名詞句候補を記事本文、特に記事先頭文から抽出する。即ち、フレーズアラインメント処理部4は、先ずステップS63において、ヘッドライン中の各名詞句候補と記事本文中の名詞句候補との全ての組み合わせに対して、形態素解析で取得した部分単語同士の一致を検出する。
【0079】
次に、フレーズアラインメント処理部4は、ステップS64において、一致率(一致する単語数/名詞句の全単語数)が所定の閾値以上の名詞句候補同士の組を相互に対応する名詞句候補であるものと判断して抽出する。例えば、ヘッドライン中の所定の名詞句が3単語で構成され、記事本文中の所定の名詞句が5単語で構成されている場合に、そのうちの2単語が相互に一致する単語である場合には一致率は2/5となり、閾値が例えば1/3の場合には、これらの名詞句の組は同一のものを表すものとして抽出される。
【0080】
しかし、ヘッドライン中の名詞句の単語数の方が記事本文中の名詞句の単語数よりも多い場合、即ち、記事本文中の名詞句がヘッドライン中の名詞句の例えば部分集合を構成する場合には、翻訳にはヘッドライン中の名詞句をそのまま用いた方がよいので、フレーズアラインメント処理部4は、ステップS65において、ステップS64で抽出した名詞句の組を棄却する。
【0081】
例えばヘッドライン中の名詞句の“S.Korean/ship/fire”に対して、記事本文中の対応する名詞句が“S.Korean/ship/fire”あるいは“ship/fire”のように、ヘッドライン中の名詞句と同一又はその一部に過ぎないような場合には、フレーズアラインメント結果に従ってヘッドライン中の語句を記事先頭文の語句で置換して翻訳すると、元のヘッドラインの情報が失われてしまう。そこで、ステップS65において、このような名詞句の組を排除するのである。
【0082】
また、ヘッドライン中の名詞句に対応する記事本文中の名詞句として、例えば省略の方法が相違する場合のように異なる複数の名詞句が用いられることがある。そこで、フレーズアラインメント処理部4は、ステップS66において、ヘッドライン中の1名詞句についてステップS64で複数の名詞句が抽出された場合には、一致率が最も高い名詞句を対応する名詞句として抽出する。
【0083】
フレーズアラインメント処理部4は、次のステップS67において、対応付けられた名詞句対を出力する。なお、フレーズアラインメント処理部4は、名詞句の照合の際には、各単語の表層形(記事中に出現している形態)でなく辞書見出しを利用するが、未知単語については、表層形態を利用する。
【0084】
また、ヘッドライン中には略語表現が多いことを考慮して、ヘッドライン中の略語は元の辞書見出しの単語に置き換えて、記事本文との照合に利用する。例えば、ヘッドライン中に“mln”や“bln”という表記があった場合には、その辞書見出しである“million”,“billion”を記事本文との照合に用いる。
【0085】
更に、フレーズアラインメント処理部4は、ステップS63の一致検出において、図7のフローチャートによって示すアルゴリズムを採用することができる。図7のアルゴリズムは、ヘッドライン中において略語表記が行われている場合に対応した略語推定処理を示している。
【0086】
例えばヘッドライン中に未知単語である“HKMA”が記述されており、記事本文中に名詞句“”Hong Kong/Monetary Authority”が記述されている場合には、この語句を対応するものとして処理する。なお、“/”は単語区切りを示しており、“/”から“”/”までの文字列が辞書見出しである(以下同様)。
【0087】
フレーズアラインメント処理部4は、先ずステップS71において、ヘッドライン中の名詞句を単語に分割する。名詞句としては、略語表記が単独で記述される場合だけでなく、他の単語列と連結されて記述されることがある。ステップS71はこの点を考慮したものであり、フレーズアラインメント処理部4は、見出し語がスペースやハイフンを含む場合には、これらのスペース又はハイフンの位置で分割する。フレーズアラインメント処理部4は、分割した単語列を単語列Aとする。
【0088】
次に、フレーズアラインメント処理部4は、ステップS72において、記事本文(又は先頭文)について、ステップS71と同様に名詞句を単語に分割し、分割した単語列を単語列Bとする。
【0089】
次のステップS73では、フレーズアラインメント処理部4は、単語列Aの中の英単語のいずれかが大文字のみによって構成されているか否かを判別し、大文字のみによって構成されている英単語が存在する場合には、ステップS74においてこの文字列を略語候補配列RAに追加する。
【0090】
次に、フレーズアラインメント処理部4は、ステップS75において、単語列Bの中の単語系列が大文字で始まる単語の連結によって構成されているか否かを判別し、大文字で始まる単語の連結によって構成されている単語系列が存在する場合には、ステップS76においてこの文字列を略語候補配列RBに追加する。
【0091】
フレーズアラインメント処理部4は、ステップS77において、単語列A,B中の同一単語の数をカウントする。この処理は図6のステップS63と同様の処理である。更に、略語と略語の元の単語系列とについては同一のものを表現しているものとして、フレーズアラインメント処理部4は、ステップS78において、略語候補配列RA及び略語候補配列RB相互間で同一エントリの数を、各名詞句の照合に際して加算してカウントする。
【0092】
こうして、図7のアルゴリズムを採用することにより、略語表現も考慮して、ヘッドライン中の名詞句と記事本文の名詞句との対応を表す名詞句対の情報が得られる。
【0093】
更に、フレーズアラインメント処理部4は、図7の略語推定処理を拡張し、例えば、略語“MITI”が“the Ministry of International Trade and Industry”に対応していることを推定可能にすることも考えられる。即ち、この場合には、フレーズアラインメント処理部4は、大文字単語の直前や大文字単語に挟まれる冠詞や接続詞、前置詞を除いて略語候補を作成し、略語候補配列Bに追加するようにすればいい。
【0094】
また、例えばヘッドライン中に単語“Alexander ”があり、記事本文中に単語“Alexander the Great ”がある場合には、この語句は部分的に対応するものとして処理する。つまり、スペースやハイフンを含む辞書見出しについてはそこで分割して、分割された単位を1名詞とみなして処理を行う。
【0095】
このように、フレーズアラインメント処理部4によって、ヘッドライン中の名詞句を記事本文中の最適な名詞句に置き換えて、ヘッドライン中の名詞句の確実な翻訳を可能にする。
【0096】
図1において、翻訳処理部5は訳語情報抽出部3の出力結果である訳語情報とフレーズアラインメント処理部4の出力結果である語句の対応情報を利用して、翻訳を行う。即ち、翻訳処理部5は、翻訳対象の英語記事の英単語の翻訳に際して、その英単語が訳語情報抽出部3が抽出した訳語情報に含まれている場合には、対応する日本語単語を訳語として優先する。また、翻訳処理部5は、フレーズアラインメント処理部4の出力結果である語句の対応情報を利用して、ヘッドライン中の断片的な語句を、対応する本文中の語句で置換又は補完して翻訳を行う。
【0097】
更に、翻訳処理部5は、前処理結果を利用して、ヘッドラインと本文とに対して適応的な翻訳を行う。例えば、翻訳処理部5は、ヘッドラインの翻訳の際には、訳文を体言止めにする等のヘッドライン翻訳専用の翻訳ルールを適用して翻訳を行う。
【0098】
次に、このように構成された実施の形態の作用について説明する。
【0099】
いま、下記《翻訳対象の英語記事》を含む入力記事が入力されるものとする。前処理部1は、入力記事からヘッドライン部分及び記事本文部分の英語記事を抽出する。ヘッドライン部分及び記事本文部分は前処理結果として類似記事検索部2に供給される。なお、下記《翻訳対象の英語記事》のうち、“Dissss to ・・shares”の部分はヘッドラインであり、“BUUBANK,・・Monday”の部分は記事本文である。
【0100】
《翻訳対象の英語記事》
Dissss to buy back up to 95 mln shares
BUUBANK, Calif., April 23 (Reete) - Waaa Dissss Co said its board had approved a stock repurchase program of up to 95 million shares.
The program replaces a similar program that was in place prior to its acquisition of Caapii Citti/AAC, it said on Monday.
----------------------
英日対訳コーパス7には、様々な分野の複数の英語記事と各英語記事の日本語翻訳である複数の日本語記事が対応付けられて記録されている。類似記事検索部2は、解析用辞書6を利用して形態素解析を行い、単語ベクトルを作成して、英日対訳コーパス7中の英語記事で翻訳対象の英語記事と類似しているものを検索する。類似度が高い英日対訳コーパス7中のコーパス英語記事を、《翻訳対象の英語記事》に類似した類似記事と判断するのである。
【0101】
いま、類似記事検索部2による検索結果が下記《類似記事の検索結果》に示すものであるものとする。即ち、下記検索結果は、上述した《翻訳対象の英語記事》に類似していると判断された英日対訳コーパス7中の英語記事の例(ヘッドライン部分のみを示す)である。検索結果は類似度が高い順に配列してある。
【0102】
《類似記事の検索結果》
類似度 ヘッドライン
0.582435250282288 Notwet to buy back up to 5 mln shares
0.574999988079071 Cisss increases buyback program
0.529697775840759 Deel Computer increases share buyback
0.505964457988739 Micoot Inc bought back 164,500 shares
0.464757978916168 PainWer increases share buyback plan
0.461880236864090 Gillee sets 10-15 mln share buyback
0.444467127323151 Campbee heir continues share sale
0.433333337306976 Texxxa has bought 1.5 mln shrs
0.427617967128754 AMM to buy back up to 20 mln of its shares
----------------------
下記《類似記事》は、《類似記事の検索結果》のうち最も類似度が高い英日対訳コーパス7中の英語記事とその日本語記事の原文を示している。
【0103】
《類似記事》
<英語記事>
Notwet to buy back up to 5 mln shares
MINNEAPOLIS, Dec 6 (Reete) - Notwet Airlines Corp said Friday its board had approved a program to buy back up to two million shares of Class A common stock. The repurchases will occur from time to time in the open market or through negotiated transactions, the airline said. Shares repurchased under the program would offset dilution resulting from the exercise of employee stock options, the company said. As of October 31, Notwet had 90,000,000 common shares outstanding (100,000,000 on a fully distributed and diluted basis), the company said.
<日本語記事>
ノットウェット航空(米)、役員会が普通株200万株の買い戻しを承認
[ミネアポリス 6日 リィー○○] 米ノットウェット航空は、同航空の役員会が、クラスA普通株を最大200万株買い戻す計画を承認した。
【0104】
買い戻しは、公開市場で、あるいは直接取引により、随時行っていくという。
【0105】
買い戻しにより、従業員株式オプションの行使により希薄化された分が相殺される見通し。
【0106】
10月31日時点で、同航空の発行済普通株の総数は9000万株(完全発行済み・希薄化ベースで1億株)。
【0107】
----------------------
類似記事検索部2は、所定の類似度以上の類似記事の電子情報を訳語情報抽出部3に出力する。訳語情報抽出部3は、翻訳用辞書8を利用して、類似記事から訳語を抽出する。例えば、上記《類似記事》の<英語記事>に出現している英単語“exercise”の日本語訳語候補として、翻訳用辞書8によれば、練習/演習/教練/練習問題/演習問題/行使/権利行使/使用/運動/体操/儀式/式/エクササイズ等が存在するものとする。一方、上記<日本語記事>に出現しているのは「行使」のみであり、訳語情報抽出部3は“exercise”の訳語候補として、「行使」を抽出する。
【0108】
同様に、上記<日本語記事>に出現している日本語サ行5段動詞の「買い戻す」の英語訳語候補は、翻訳用辞書8によれば、“repurchase/redeem/buy”であるものとする。このうち上記<英語記事>に出現しているのは“buy”であるので、訳語情報抽出部3は、“buy”の訳語候補として、「買い戻す」を抽出する。
【0109】
同様に、訳語情報抽出部3は、上記《類似記事》について下記《訳語情報》を抽出する。なお、(・・・)は英語品詞を示しめしており、(n)は名詞で、(v)は動詞である。また、<…>は日本語品詞を示している。
【0110】
《訳語情報》
buy(v)→ 買い戻す<サ行5段動詞>
approve(v)→ 承認<両性名詞>
program(n)→ 計画<両性名詞>
buy(v)→ 買い戻す<サ行5段動詞>
common stock(n)→ 普通株<名>
repurchase(n)→ 買い戻し<両性名詞>,買い戻す<サ行5段動詞>
repurchase(v)→ 買い戻し<両性名詞>,買い戻す<サ行5段動詞>
offset(v)→ 相殺<両性名詞>
exercise(n)→ 行使<両性名詞>
employee(n)→ 従業員<名>
stock option(n)→ 株式オプション<名>
dilute(v)→ 希薄<形容詞>
----------------------
なお、類似度が最も高い《類似記事》についての訳語情報抽出例を説明したが、実際には《類似記事の検索結果》に示す全ての類似記事について同様に訳語情報の抽出処理を行う。
【0111】
一方、フレーズアラインメント処理部4は、前処理結果であるヘッドラインの文字列と記事本文の文字列の電子情報が入力される。フレーズアラインメント処理部4は、ヘッドラインの文字列と記事本文の文字列に対してフレーズアラインメント処理を行う。
【0112】
即ち、フレーズアラインメント処理部4は、先ず、ヘッドラインから名詞句として、
“Dissss”,“"back up”, “95 mln/shares” を抽出する。
【0113】
また、フレーズアラインメント処理部4は、記事の先頭文から名詞句として、“BUUBANK”,“Calif.”,“April/23”,“Reete”,“Waaa Dissss/Co”,“board”,“stock/repurchase/program”,“95 million/shares”を抽出する。
【0114】
これらの名詞句のうち同一単語を含む組み合わせは、“Dissss”と“Waaa Dissss/Co”、“95 mln/shares”と“95 million/shares”である。上述したように、スペースやハイフンを含む辞書見出しを考慮して一致度を計算すると、前者は1/3で33%である。後者は3/3で100%である。なお、“mln”は“million”として処理されるが“95million/shares”が“95 mln/shares” のサブセット(この場合同一)であるため削除される。なお、図6のステップS64の閾値が30%だったものとする。こうして、下記《フレーズアラインメント結果》がフレーズアラインメント処理部4から出力される。
【0115】
《フレーズアラインメント結果》
Dissss → Waaa Dissss/Co
----------------------
上記《訳語情報》及び《フレーズアラインメント結果》は翻訳処理部5に与えられる。翻訳処理部5は、翻訳用辞書8の英日辞書だけでなく、《訳語情報》及び《フレーズアラインメント結果》を用いて翻訳を行う。下記《使用訳語》は、訳語情報抽出部3が抽出した訳語情報のうち、翻訳処理部5が上記《翻訳対象の英語記事》の翻訳に利用した訳語情報を示している。なお、下記《使用訳語》は、訳語情報抽出部3が抽出した訳語情報のうち、訳語の変化に寄与したものだけを示している。左端に示した英単語の訳語が、矢印の(→)の左側に示す翻訳用辞書8に基づく訳語から右側に示す訳語に変化したことを示している。(・・・)は英語品詞を示し、(n)は名詞で、(v)は動詞である。また、<・・・>は日本語品詞をあらわしている。
【0116】
《使用訳語》
board(n) ボード→ 取締役会<名詞>
buy(v) 買う→ 買い戻す<サ行五段動詞>
program(n) プログラム→ 計画<両性名詞>
say(v) 言う→ 述べる<下1段動詞>
stock(n) ストック→ 株(名詞)
----------------------
下記《翻訳結果》は、翻訳処理部5が上記《使用訳語》及び《フレーズアラインメント結果》を利用して、《翻訳対象の英語記事》を翻訳した結果を示している。なお、下記《翻訳結果》においては、《訳語情報》(《使用訳語》)や《フレーズアラインメント結果》を利用しない場合との比較のために、翻訳用辞書8のみを用いた通常の翻訳結果(<従来翻訳>)と《訳語情報》及び《フレーズアラインメント結果》を利用した翻訳結果(<適用翻訳>)とを1文毎に示している。また、<従来翻訳>と<適用翻訳>との翻訳結果の相違個所は『』によってマークアップしている。
【0117】
《翻訳結果》
ヘッドライン:Dissss to buy back up to 95 mln shares
<従来翻訳> :ディー○○は、9千500万株までバックアップを買『う。』
<適用翻訳> :『ウァ○○・』ディー○○『社』は、9千500万株までバックアップを買『い戻す』
原文1 : BUUBANK, Calif., April 23 (Reete) - Waaa Dissss Co said its board had approved
a stock repurchase program of up to 95 million shares.
<従来翻訳>:ブー○○(カリフォルニア)、4月23日(リィー○○)―ウァ○○・ディー○○社は、その『ボード』が
9千500万株以内の『ストック』買い戻し『プログラム』を承認したと『言っ』た。
【0118】
<適用翻訳> :ブー○○(カリフォルニア『州』)、4月23日(リィー○○)―ウァ○○・ディー○○社は、
その『取締役会』が9千500万株以内の『株』買い戻し『計画』を承認したと『述べ』た。
【0119】
原文2 :The program replaces a similar program that was in place prior to its acquisition of
Caapii Citti/AAC, it said on Monday.
<従来翻訳>:『プログラム』がキャッピ・シテッティ/AACのその獲得に先立って適所にあった、
類似した『プログラム』を交換する、とそれは月曜日に『言っ』た。
【0120】
<適用翻訳> :『計画』がキャッピ・シテッティ/AACのその獲得に先立って適所にあった、
類似した『計画』を交換する、とそれは月曜日に『述べ』た。
【0121】
----------------------
上記《翻訳結果》に示すように、ヘッドラインについては、<従来翻訳>の「ディー○○」が<適用翻訳>では「ウァ○○・ディー○○社」となり、より正確に企業名が翻訳されている。記事本文については、“stock”の訳語が<従来翻訳>の「ストック」から<適用翻訳>の「株」に変更され、“board”の訳語が<従来翻訳>の「ボード」から<適用翻訳>の「取締役会」に変更されており、全般的に適正な訳語が用いられている。なお、この例では示していないが、訳語情報の利用によってヘッドライン部分の訳語が改善されることも期待することができる。
【0122】
更に、英語ヘッドラインは文体が特殊で通常の翻訳を行っても適切な訳文が得られないことが多いことから、翻訳処理部5は、ヘッドライン翻訳専用の翻訳ルールを準備し、ヘッドラインの翻訳の際にだけ適用する。下記《ヘッドライン適用翻訳》は、翻訳処理部5が原文R1 〜R4 についてヘッドライン翻訳専用の翻訳ルールを適用した翻訳(<適用翻訳>)と、適用していない翻訳<従来翻訳>とを示している。
【0123】
《ヘッドライン適用翻訳》
原文R1 :PLO arrests 90 Arabs in Gaza-Jericho crackdown
従来翻訳 :PLOは、ガザーエリコ弾圧での90人のアラビア人を逮捕する。
【0124】
適用翻訳 :PLO、ガザーエリコ弾圧での90人のアラビア人を逮捕
原文R2 :Interactive tv to offer vlewers new powers
従来翻訳 :見る人に新しい力を提供する対話型のtv
適用翻訳 :対話型のtv、見る人に新しい力を提供
原文R3 :Indian 1994/95 GDP seen rising 5.3 pct - Sharma
従来翻訳 :インドの1994/95のGDPは、5.3%-Sharma上昇するのを見られた。
【0125】
適用翻訳 :インドの1994ノ95のGDP、5.3%上昇する見通し−シャルマ大統領
原文R4 :Chechen conflict may overshadow CIS summit
従来翻訳 :チェチェン矛盾はCIS頂上を暗くするかもしれない。
【0126】
適用翻訳 :チェチェン矛盾、CISサミットを暗くする可能性
----------------------
原文R1 の例は、体言止めルールの適用例である。文末の動詞がサ変名詞である場合には、文末の”する”を除き、格助詞「は」を「、」に変更して訳出する。この場合において、動詞の目的語が無いときには、格助詞「は」,「が」を「、」に変更すると不自然な翻訳になるので、体言止めルールを適用しない。
【0127】
原文R2 の例は、“to”の翻訳ルールの適用例である。訳出する語句の順番がより自然になるようになっている。
【0128】
原文R3 の例は、“seen”の翻訳ルールの適用例である。
【0129】
原文R4 の例は、“may”の翻訳ルールの適用例である。
【0130】
このように、ヘッドライン翻訳専用の翻訳ルールを適用することによって訳文がより自然なものとなる。ただ、これらの翻訳ルールは記事の本文に適用すると逆に不自然な翻訳となる場合が多い。従って、前処理でヘッドライン部分と記事本文部分とを判別してヘッドライン部分だけに適用することが必要になる。
【0131】
なお、3番目の例で”Sharma”の訳語の変化は、以下に述べるニュースの情報源の処理によっている。また、最後の例で”summit”の訳語が「頂上」から「サミット」に変化したのは、訳語情報抽出部3の出力である訳語情報の利用による。
【0132】
なお、上述した例では、1記事の翻訳処理について述べたが、1文書に複数の記事が含まれる場合には、前処理で各記事のヘッドラインと記事本文を検出した後、各記事毎に類似記事検索処理、訳語情報抽出処理、フレーズアラインメント処理及び翻訳処理を行えばよい。
【0133】
ところで、英語ニュースヘッドラインにはニュースの情報源を文末に示す場合がある。このようなヘッドラインを普通に翻訳すると正しく翻訳できないことが多い。そこで、ヘッドラインの末尾の単語がニュースの情報源であるか否かを記事先頭文を参照して判定し、そうである場合には、ヘッドラインを分割して翻訳する手法が考えられる。
【0134】
このような処理においては、ヘッドラインと記事先頭文を参照するので、フレーズアラインメント処理部4がフレーズアラインメント処理と平行して行うようにした方がよい。
【0135】
図8はこの場合の処理アルゴリズムを示すフローチャートである。
【0136】
フレーズアラインメント処理部4は、ステップS81において、ヘッドラインの形態素解析結果から文末の名詞句を取得し、名詞句Aとする。次に、ステップS82において、フレーズアラインメント処理部4は、ニユースの情報源を示す表現で典型的に使用される動詞“report”,“say”,“tell”等の主語を抽出する。即ち、記事先頭文の形態素解析列に対して、名詞句+(“report”又は“say”又は“tell”)のパターンを照合し、このパターンが存在すれば名詞句Bとする。なお、これらの動詞の表層形は過去形でも現在形でも完了形でもよい。
【0137】
フレーズアラインメント処理部4は、次のステップS83において名詞句Bが存在するか否かを判断し、存在する場合には、ステップS84においてフレーズアラインメント処理結果を利用し、名詞句Aと名詞句Bがフレーズアラインメント結果に含まれているか否かを判断する。
【0138】
なお、ステップS84において利用するアラインメント結果は、図6のステップS65を行わないで得られるものである。即ち、記事本文中の語句がヘッドライン中の語句と同一又はそのサブセットである場合を含む。フレーズアラインメント処理部4は、名詞句A,Bがフレーズアラインメント結果に含まれる場合には、名詞句Aを情報源部分と判断して、翻訳処理部5にその情報を出力する。
【0139】
下記《ニュース情報源の処理結果》は、フレーズアラインメント処理部4がニュース情報源を表す動詞を利用して情報源部分を判断した場合における翻訳処理部5の翻訳(<適用翻訳>)と、利用していない場合の翻訳<従来翻訳>とを示している。
【0140】
《ニュース情報源の処理結果》
ヘッドライン :HKMA nearing full control of HK banking--analysts
記事先頭文 :HONG KONG, Feb 10 (Reete) - The Hong Kong Monetary Authority (HKMA) will move a step closer to gaining complete control over the colony's banking system if the Banking (Amendment) Bill 1995 passes in late February, analysts said.
<従来翻訳> :HKMAは、HK銀行業務--アナリスト--の十分なコントロールに近づいている。
【0141】
<適用翻訳> :香港通貨当局は、HK金融の十分な規制に近づいている−−アナリスト
----------------------
上記《ニュース情報源の処理結果》の例では、ヘッドライン末尾の“-analysts”がこの記事の情報源を示している。また、その部分が情報源であることは、記事先頭文末尾の“analysts said.” という部分から分かる。<従来翻訳>ではこの部分を適切に翻訳することができない。
【0142】
図8のアルゴリズムを用いることにより、ヘッドライン末尾に“analysts”という単語があること及び記事先頭文末尾に“analysts said” という表現があること、従ってヘッドラインと記事先願文との間のフレーズアラインメント結果に同一語句“analysts”があることから、ヘッドライン中の語句“analysts”が情報源であることを判断することができる。
【0143】
フレーズアラインメント処理部4はその判断結果を翻訳処理部5に伝える。翻訳処理部5はその部分(“analysts”の直前)でヘッドラインを分割し、分割した前後を夫々翻訳した後接続して、最終的なヘッドラインの翻訳として出力する。これにより、<適用翻訳>に示すように、ヘッドラインの訳文がより適切な表現となっている。
【0144】
このように、本実施の形態においては、ヘッドライン部分及び本文の部分を検出して、ニュース記事の分類に応じた訳語情報及び名詞句の正確な抽出を可能にしており、ヘッドラインと本文とに対して適応的な翻訳を用いることにより翻訳精度を著しく向上させることができる。即ち、ヘッドラインに対してはヘッドライン翻訳専用のルールを適用して、ヘッドライン部分の訳文をより自然なものにすることができ、ヘッドライン中の略記された人名や会社名等の断片的な語句については、本文中の語句とのフレーズアラインメント処理によって略記表現でない正確な訳語で翻訳することができヘッドラインの翻訳品質を向上させることができる。また、ヘッドラインに含まれていない情報も適宜付加するので、ヘッドラインの訳語を読みやすく理解しやすくすることができる。しかも、検索された類似記事から抽出した訳語情報を利用しており、ヘッドライン部分及び記事本文部分の訳語精度を向上させることもできる。
【0145】
なお、上記実施の形態においては、英日翻訳の場合について説明したが、基本的な事柄は日英翻訳やその他の言語間の翻訳にも通用可能であることは明らかである。また、本実施の形態においては、英日対訳コーパスを利用した訳語情報抽出について説明したが、目的言語の単言語コーパスを利用することも考えられる。例えば、英日翻訳において日本語記事コーパスを準備し、翻訳対象の英語記事を通常に翻訳した後、その翻訳結果の日本語記事と類似している記事を本実施の形態で述べた手法でコーパス中から検索し、検索された日本語記事と元の英語記事の間で訳語情報抽出を行い、その結果を利用して再度翻訳する、という手法も考えられる。またこの方法の変形例として、翻訳対象の英語記事と類似した日本語記事を検索するのに、英日翻訳辞書を参照して英語記事の単語の訳語候補を取得し、それを利用して類似記事を検索するという方法もある。なお、この手法については、前述の参考文献(1)に記述されている。この手法では翻訳対象の英語記事の翻訳は1度しかされないので、処理の高速化を図ることができる。
【0146】
なお、一般に単言語コーパスの作成は、対訳コーパスの作成に比べてはるかに容易に実行できるので、単言語コーパスを利用する手法はその点で有利である。
【0147】
図9は本発明の他の実施の形態を示すブロック図である。図9において図1と同一の構成要素には同一符号を付して説明を省略する。
【0148】
本実施の形態は類似記事検索部2、英日対訳コーパス7及び翻訳用辞書8に代えて夫々類似記事検索/訳語抽出部12、英日対訳コーパス11及び翻訳用辞書13を採用し、訳語情報抽出部3を省略した点が図1の実施の形態と異なる。翻訳用辞書13は翻訳用辞書8から日英翻訳辞書を削除したものである。
【0149】
図5の訳語情報抽出アルゴリズムの欠点は、抽出に用いる辞書に登録されていない訳語については抽出不能である点である。そこで、英日対訳コーパス中の各英日記事対についてその訳語情報を抽出した後、適宜不適切なものの削除又は不足するものの追加等を行って、訳語情報を修正しておくことが考えられる。
【0150】
そして、英日対訳コーパス11に、予め抽出して修正した訳語情報をその記事対と対応づけて保持しておく。類似記事検索/訳語抽出部12は、類似記事検索の検索結果に応じて、その訳語情報を出力する。これにより、訳語情報の抽出処理は不要となる。
【0151】
このように本実施の形態においては、全体の処理が高速になるのみならず、システム中に英日対訳コーパスの英日記事本文を保持しておく必要がないので、必要な記憶容量を著しく低減させることができる。
【0152】
【発明の効果】
以上説明したように本発明によれば、ニュース記事、特にヘッドラインを高精度に機械翻訳することができるという効果を有する。
【図面の簡単な説明】
【図1】本発明に係る翻訳装置の一実施の形態を示すブロック図。
【図2】前処理部におけるヘッドライン部分及び記事本文部分を判別するアルゴリズムを示すフローチャート。
【図3】図2中のステップS5 の判定アルゴリズムを示すフローチャート。
【図4】類似記事検索処理のステップ(d),(e),(f)の処理を、これと等価でより高速化したアルゴリズムを示すフローチャート。
【図5】訳語情報抽出部3の処理アルゴリズムを示すフローチャート。
【図6】フレーズアラインメント処理のアルゴリズムを示すフローチャート。
【図7】ヘッドライン中において略語表記が行われている場合に対応した略語推定処理を示すフローチャート。
【図8】ニュース情報に対する情報源検出処理のアルゴリズムを示すフローチャート。
【図9】本発明の他の実施形態を示すブロック図。
【符号の説明】
1…前処理部、2…類似記事検索部、3…訳語情報抽出部、4…フレーズアラインメント処理部、5…翻訳処理部、7…英日対訳コーパス、8…翻訳用辞書。

Claims (10)

  1. 記事本文とこの記事本文を要約したヘッドライン部分とを含む記事情報を翻訳する翻訳装置であって、
    前記ヘッドライン部分と前記記事本文部分とを判定する判定手段と、
    前記判定手段の判定結果に基づいて前記ヘッドライン部分と前記記事本文部分とを特定し、前記ヘッドライン部分と前記記事本文部分とに対して翻訳を行う翻訳手段とを具備し、
    前記翻訳手段は、前記判定手段の判定結果を利用して、前記ヘッドライン部分の語句と前記記事本文部分の語句との間でフレーズアラインメント処理を行って、前記ヘッドライン中の名詞句と前記記事本文の名詞句との類似度を算出し、同一物を指している語句の対応情報を処理結果として得るフレーズアラインメント手段を具備し、前記フレーズアラインメント手段の前記処理結果を前記ヘッドライン部分の翻訳に利用することを特徴とする翻訳装置。
  2. 前記フレーズアラインメント手段は、前記ヘッドライン部分の略語を前記記事本文部分の対応する語句に変換する略語推定処理が可能であることを特徴とする請求項に記載の翻訳装置。
  3. 前記フレーズアラインメント手段は、前記ヘッドライン部分から大文字が連続する文字列を検出する第1の検出手段と、
    前記記事本文部分から大文字で始まる単語の連結によって構成されている文字列を検出する第2の検出手段と、
    前記第1及び第2の検出手段の検出結果に対するフレーズアラインメント処理によって前記略語を前記記事本文部分の対応する語句に変換することを特徴とする請求項記載の翻訳装置。
  4. 記事本文とこの記事本文を要約したヘッドライン部分とを含む記事情報を翻訳する翻訳装置であって、
    前記ヘッドライン部分と前記記事本文部分とを判定する判定手段と、
    前記判定手段の判定結果に基づいて前記ヘッドライン部分と前記記事本文部分とを特定し、前記ヘッドライン部分と前記記事本文部分とに対して翻訳を行う翻訳手段とを具備し、
    前記翻訳手段は、所定の2つの言語の記事の対を複数保持する保持手段と、
    前記判定手段の判定結果を用いて翻訳対象の記事を検出し、前記保持手段から前記翻訳対象の記事に類似した記事の対を検索する検索手段と、
    前記検索手段が検索した記事の対から前記翻訳対象の記事の翻訳に用いる訳語情報を抽出する抽出手段と、
    前記抽出手段が抽出した前記訳語情報を前記翻訳対象の記事の翻訳に利用する翻訳処理部とを具備したことを特徴とする翻訳装置。
  5. 前記検索手段は、前記保持手段が保持している2つの言語の記事の対に含まれる単語同士の類似度に基づいて翻訳対象の記事に類似した記事の対を検索することを特徴とする請求項に記載の翻訳装置。
  6. 前記検索手段は、固有名詞、日付及び数量のうちの少なくとも1つの種類の単語については類似度判定の重みを下げることを特徴とする請求項に記載の翻訳装置。
  7. 判定部、翻訳部、検出部及び略語推定部を備えたコンピュータによって、記事本文とこの記事本文を要約したヘッドライン部分とを含む記事情報を翻訳する翻訳方法であって、
    前記判定部が、前記ヘッドライン部分と前記記事本文部分とを判定する判定手順と、
    前記翻訳部が、前記判定手順の判定結果に基づいて前記ヘッドライン部分と前記記事本文部分とを特定し、前記ヘッドライン部分と前記記事本文部分とに対して翻訳を行う翻訳手順とを具備し、
    前記翻訳手順は、前記判定手順の判定結果を利用して、前記ヘッドライン部分の語句と前記記事本文部分の語句との間でフレーズアラインメント処理を行って、前記ヘッドライン中の名詞句と前記記事本文の名詞句との類似度を算出し、同一物を指している語句の対応情報を処理結果として得るものであって、前記検出部が、前記ヘッドライン部分から大文字が連続する文字列を検出すると共に、前記記事本文部分から大文字で始まる単語の連結によって構成されている文字列を検出する検出手順と、
    前記略語推定部が、前記検出手順の検出結果に対するフレーズアラインメント処理によって前記略語を前記記事本文部分の対応する語句に変換する略語推定手順と、
    前記翻訳部が、前記略語推定手順の処理結果を前記ヘッドライン部分の翻訳に利用する手順とを具備したことを特徴とする翻訳方法。
  8. 判定部、翻訳部、検出部及び略語推定部を備えたコンピュータによって、記事本文とこの記事本文を要約したヘッドライン部分とを含む記事情報を翻訳する翻訳方法であって、
    前記判定部が、前記ヘッドライン部分と前記記事本文部分とを判定する判定手順と、
    前記翻訳部が、前記判定手順の判定結果に基づいて前記ヘッドライン部分と前記記事本文部分とを特定し、前記ヘッドライン部分と前記記事本文部分とに対して翻訳を行う翻訳手順とを具備し、
    前記翻訳手順は、前記判定手順の判定結果を用いて翻訳対象の記事を検出し、前記検出部が所定の2つの言語の記事の対が複数保持された保持部から前記翻訳対象の記事に類似した記事の対を検索する検索手順と、
    前記翻訳部が、前記検索手順によって検索した記事の対から前記翻訳対象の記事の翻訳に用いる訳語情報を抽出して前記翻訳対象の記事の翻訳に利用する手順とを具備したことを特徴とする翻訳方法。
  9. 判定部、翻訳部、検出部及び略語推定部を備えたコンピュータによって、記事本文とこの記事本文を要約したヘッドライン部分とを含む記事情報を翻訳する翻訳プログラムであって、
    前記コンピュータに、
    前記判定部によって、前記ヘッドライン部分と前記記事本文部分とを判定する判定処理手順と、
    前記翻訳部によって、前記判定処理手順の判定結果に基づいて前記ヘッドライン部分と前記記事本文部分とを特定し、前記ヘッドライン部分と前記記事本文部分とに対して翻訳を行う翻訳処理手順とを実行させるための翻訳プログラムであって、
    前記翻訳処理手順は、前記判定処理手順の判定結果を利用して、前記ヘッドライン部分の語句と前記記事本文部分の語句との間でフレーズアラインメント処理を行って、前記ヘッドライン中の名詞句と前記記事本文の名詞句との類似度を算出し、同一物を指している語句の対応情報を処理結果として得るものであって、前記検出部によって、前記ヘッドライン部分から大文字が連続する文字列を検出すると共に、前記記事本文部分から大文字で始まる単語の連結によって構成されている文字列を検出する検出処理手順と、
    前記略語推定部によって、前記検出処理手順の検出結果に対するフレーズアラインメント処理によって前記略語を前記記事本文部分の対応する語句に変換する略語推定処理手順と、
    前記翻訳部によって、前記略語推定処理手順の処理結果を前記ヘッドライン部分の翻訳に利用する処理手順とを含むことを特徴とする翻訳プログラム。
  10. 判定部、翻訳部、検出部及び略語推定部を備えたコンピュータによって、記事本文とこの記事本文を要約したヘッドライン部分とを含む記事情報を翻訳する翻訳プログラムであって、
    前記コンピュータに、
    前記判定部によって、前記ヘッドライン部分と前記記事本文部分とを判定する判定処理手順と、
    前記翻訳部によって、前記判定処理手順の判定結果に基づいて前記ヘッドライン部分と前記記事本文部分とを特定し、前記ヘッドライン部分と前記記事本文部分とに対して翻訳を行う翻訳処理手順とを実行させるための翻訳プログラムであって、
    前記翻訳処理手順は、前記判定処理手順の判定結果を用いて翻訳対象の記事を検出し、前記検出部によって、所定の2つの言語の記事の対が複数保持された保持部から前記翻訳対象の記事に類似した記事の対を検索する検索処理手順と、
    前記翻訳部によって、前記検索処理手順によって検索した記事の対から前記翻訳対象の記事の翻訳に用いる訳語情報を抽出して前記翻訳対象の記事の翻訳に利用する処理手順とを含むことを特徴とする翻訳プログラム。
JP2001020195A 2001-01-29 2001-01-29 翻訳装置、翻訳方法並びに翻訳プログラム Expired - Lifetime JP3768105B2 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
JP2001020195A JP3768105B2 (ja) 2001-01-29 2001-01-29 翻訳装置、翻訳方法並びに翻訳プログラム
US10/054,887 US7080320B2 (en) 2001-01-29 2002-01-25 Translation apparatus and method
US11/433,404 US7505895B2 (en) 2001-01-29 2006-05-15 Translation apparatus and method

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001020195A JP3768105B2 (ja) 2001-01-29 2001-01-29 翻訳装置、翻訳方法並びに翻訳プログラム

Publications (2)

Publication Number Publication Date
JP2002222189A JP2002222189A (ja) 2002-08-09
JP3768105B2 true JP3768105B2 (ja) 2006-04-19

Family

ID=18885941

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001020195A Expired - Lifetime JP3768105B2 (ja) 2001-01-29 2001-01-29 翻訳装置、翻訳方法並びに翻訳プログラム

Country Status (2)

Country Link
US (2) US7080320B2 (ja)
JP (1) JP3768105B2 (ja)

Families Citing this family (33)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8706747B2 (en) * 2000-07-06 2014-04-22 Google Inc. Systems and methods for searching using queries written in a different character-set and/or language from the target pages
US7114177B2 (en) * 2001-03-28 2006-09-26 Geotrust, Inc. Web site identity assurance
US6888548B1 (en) 2001-08-31 2005-05-03 Attenex Corporation System and method for generating a visualized data representation preserving independent variable geometric relationships
US6978274B1 (en) 2001-08-31 2005-12-20 Attenex Corporation System and method for dynamically evaluating latent concepts in unstructured documents
US6778995B1 (en) 2001-08-31 2004-08-17 Attenex Corporation System and method for efficiently generating cluster groupings in a multi-dimensional concept space
JP3452558B2 (ja) * 2001-09-25 2003-09-29 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳対象のリソースと分野別辞書を関連付けるための方法、システムおよびプログラム
US7271804B2 (en) 2002-02-25 2007-09-18 Attenex Corporation System and method for arranging concept clusters in thematic relationships in a two-dimensional visual display area
JP3896341B2 (ja) * 2003-04-07 2007-03-22 インターナショナル・ビジネス・マシーンズ・コーポレーション 翻訳システム、翻訳方法、及び、これらを実現するプログラムと記録媒体
JP2004348241A (ja) * 2003-05-20 2004-12-09 Hitachi Ltd 情報提供方法、サーバ及びプログラム
US8725419B2 (en) * 2003-06-19 2014-05-13 Nutech Ventures System and method for sequence distance measure for phylogenetic tree construction
US7610313B2 (en) 2003-07-25 2009-10-27 Attenex Corporation System and method for performing efficient document scoring and clustering
US7587307B2 (en) * 2003-12-18 2009-09-08 Xerox Corporation Method and apparatus for evaluating machine translation quality
US7191175B2 (en) 2004-02-13 2007-03-13 Attenex Corporation System and method for arranging concept clusters in thematic neighborhood relationships in a two-dimensional visual display space
US8849892B2 (en) * 2004-06-10 2014-09-30 Verizon Patent And Licensing Inc. Method and system for brokering messages in a distributed system
US7404151B2 (en) 2005-01-26 2008-07-22 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
US7356777B2 (en) 2005-01-26 2008-04-08 Attenex Corporation System and method for providing a dynamic user interface for a dense three-dimensional scene
JP2006276918A (ja) * 2005-03-25 2006-10-12 Fuji Xerox Co Ltd 翻訳装置、翻訳方法およびプログラム
US7464078B2 (en) * 2005-10-25 2008-12-09 International Business Machines Corporation Method for automatically extracting by-line information
US8041556B2 (en) * 2005-12-01 2011-10-18 International Business Machines Corporation Chinese to english translation tool
JP4398966B2 (ja) 2006-09-26 2010-01-13 株式会社東芝 機械翻訳を行う装置、システム、方法およびプログラム
US20080168049A1 (en) * 2007-01-08 2008-07-10 Microsoft Corporation Automatic acquisition of a parallel corpus from a network
JP5105513B2 (ja) * 2007-07-20 2012-12-26 インターナショナル・ビジネス・マシーンズ・コーポレーション 処理対象として適切なテキストを選択する技術
US9418061B2 (en) * 2007-12-14 2016-08-16 International Business Machines Corporation Prioritized incremental asynchronous machine translation of structured documents
US8572084B2 (en) 2009-07-28 2013-10-29 Fti Consulting, Inc. System and method for displaying relationships between electronically stored information to provide classification suggestions via nearest neighbor
CA3026879A1 (en) 2009-08-24 2011-03-10 Nuix North America, Inc. Generating a reference set for use during document review
JP2012190314A (ja) * 2011-03-11 2012-10-04 Fuji Xerox Co Ltd 画像処理装置およびプログラム
US9367539B2 (en) 2011-11-03 2016-06-14 Microsoft Technology Licensing, Llc Techniques for automated document translation
CN102955853B (zh) * 2012-11-02 2019-05-28 北京百度网讯科技有限公司 一种跨语言文摘的生成方法及装置
US9342503B1 (en) * 2013-03-12 2016-05-17 Amazon Technologies, Inc. Correlation across languages
KR20150050947A (ko) * 2013-11-01 2015-05-11 삼성전자주식회사 번역방법 및 장치
AU2017274558B2 (en) 2016-06-02 2021-11-11 Nuix North America Inc. Analyzing clusters of coded documents
CN107870900B (zh) * 2016-09-27 2023-04-18 松下知识产权经营株式会社 提供翻译文的方法、装置以及记录介质
JP7211139B2 (ja) * 2019-02-14 2023-01-24 日本電信電話株式会社 校閲方法、情報処理装置および校閲プログラム

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0668144A (ja) 1992-08-14 1994-03-11 Fujitsu Ltd 電子ニュース翻訳配送装置
US6516296B1 (en) * 1995-11-27 2003-02-04 Fujitsu Limited Translating apparatus, dictionary search apparatus, and translating method
JP3952216B2 (ja) * 1995-11-27 2007-08-01 富士通株式会社 翻訳装置及び辞書検索装置
JP3579204B2 (ja) * 1997-01-17 2004-10-20 富士通株式会社 文書要約装置およびその方法
US5924068A (en) * 1997-02-04 1999-07-13 Matsushita Electric Industrial Co. Ltd. Electronic news reception apparatus that selectively retains sections and searches by keyword or index for text to speech conversion
US6317708B1 (en) * 1999-01-07 2001-11-13 Justsystem Corporation Method for producing summaries of text document
JP2000268034A (ja) 1999-03-16 2000-09-29 Sharp Corp テキスト自動前編集装置及び方法並びにこれに利用される記憶媒体
US6446036B1 (en) * 1999-04-20 2002-09-03 Alis Technologies, Inc. System and method for enhancing document translatability

Also Published As

Publication number Publication date
US7080320B2 (en) 2006-07-18
US20040216050A1 (en) 2004-10-28
US7505895B2 (en) 2009-03-17
JP2002222189A (ja) 2002-08-09
US20080228465A1 (en) 2008-09-18

Similar Documents

Publication Publication Date Title
JP3768105B2 (ja) 翻訳装置、翻訳方法並びに翻訳プログラム
Campos et al. Yake! collection-independent automatic keyword extractor
US7269544B2 (en) System and method for identifying special word usage in a document
Wang et al. Integrating extractive and abstractive models for long text summarization
Szarvas et al. A multilingual named entity recognition system using boosting and c4. 5 decision tree learning algorithms
JP5356197B2 (ja) 単語意味関係抽出装置
Wang et al. Bootstrapping both product features and opinion words from chinese customer reviews with cross-inducing
CN107870901B (zh) 从翻译源原文生成相似文的方法、记录介质、装置以及系统
US7398196B1 (en) Method and apparatus for summarizing multiple documents using a subsumption model
Pandey et al. An unsupervised Hindi stemmer with heuristic improvements
Nguyen-Son et al. Identifying computer-generated text using statistical analysis
Althobaiti et al. Automatic creation of arabic named entity annotated corpus using wikipedia
KR101023209B1 (ko) 문서 번역 장치 및 그 방법
Kalaivani et al. Exploring the use of syntactic dependency features for document-level sentiment classification
Huo et al. ARCLIN: automated API mention resolution for unformatted texts
Nooralahzadeh et al. Part of speech tagging for french social media data
CN111339457A (zh) 用于从网页抽取信息的方法和设备及存储介质
Vale et al. An assessment of sentence simplification methods in extractive text summarization
JP2003323425A (ja) 対訳辞書作成装置、翻訳装置、対訳辞書作成プログラム、および翻訳プログラム
Mir et al. Movie aspects identification model for aspect based sentiment analysis
US20050261889A1 (en) Method and apparatus for extracting information, and computer product
Jassem et al. Automatic summarization of polish news articles by sentence selection
Pérez-Santiago et al. We Will Know Them by Their Style: Fake News Detection Based on Masked N-Grams
Doostyar et al. Plagiarism detection for Afghan national languages (Pashto and Dari)
KR102649948B1 (ko) 계층 기반 단어 대체를 통한 텍스트 데이터 증강 장치 및 방법

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20051101

A521 Written amendment

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20051228

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20060124

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20060131

R151 Written notification of patent or utility model registration

Ref document number: 3768105

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20100210

Year of fee payment: 4

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20110210

Year of fee payment: 5

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20120210

Year of fee payment: 6

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130210

Year of fee payment: 7

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140210

Year of fee payment: 8

EXPY Cancellation because of completion of term