JP2003141114A

JP2003141114A - 複数言語対訳テキスト入力による第３言語テキスト生成アルゴリズム及び装置、プログラム

Info

Publication number: JP2003141114A
Application number: JP2002232922A
Authority: JP
Inventors: Hitoshi Isahara; 均井佐原
Original assignee: Communications Research Laboratory
Current assignee: Communications Research Laboratory
Priority date: 2001-08-10
Filing date: 2002-08-09
Publication date: 2003-05-16
Anticipated expiration: 2022-08-09
Also published as: WO2003014967A2; KR100918338B1; CN1554058A; EP1655674A2; JP4304268B2; US20040254783A1; KR20040024619A

Abstract

(57)【要約】【課題】主要言語間のみならず主要言語・非主要言語
間における機械翻訳に用いることができる第３言語テキ
ストの生成技術を創出すること。同時に、従来よりも高
精度にテキストを生成することのできる生成技術を提供
する。【解決手段】複数の対訳関係を有する言語テキストを
入力し、両言語の対訳コーパスを用いることで、従来の
単言語入力よりも高精度な第３言語テキストを生成する
技術を実現する。入力後、解析過程、変換過程、生成過
程の各過程を経て、目標言語文書を出力する。目標言語
文書は、固有情報を自動獲得可能なため、大規模なコー
パス等を必要としないことに特徴を有する。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、機械翻訳等におけ
る目標言語のテキストを高精度に生成する技術に関する
ものである。より詳しくは、複数の言語を入力し、それ
らの情報を融合することで目標言語テキスト生成の高精
度化を図る技術である。

【０００２】

【従来の技術】近年、多くの情報がコンピュータ上に記
録され、特にインターネットの普及に伴って、そのよう
なデジタルデータにアクセスする手段を持つ者と持たな
い者の格差、いわゆるデジタルデバイドの問題が大きく
なっている。それに加えて、インターネット上に記録さ
れた多くの情報は、英語等の主要言語によるものが大半
であり、それらの言語を解する者と解さない者との格差
も大きな問題である。

【０００３】これまで、これら言語障壁によるデジタル
デバイドの解消策として機械翻訳の研究は各所で行わ
れ、内外の多くの企業や研究所が取り組んでいる。例え
ば、入力言語と出力言語の対訳を用いて、その言語間の
翻訳に必要とされる知識を獲得する、コーパスを用いた
機械翻訳の研究がおこなわれているが、これらは大規模
な対訳データが存在する言語間でしか実現できない上
に、知識を獲得するだけであるため、従来よりも高精度
な機械翻訳には寄与しても、主要言語にしか用いること
ができない。

【０００４】このように従来研究されている技術は、主
要言語間でのみ用いることができる技術が大半であり、
言語障壁によるデジタルデバイドの解消には寄与しない
と言わざるを得ない。インターネットをはじめとする情
報技術の進展により、このような格差は急速に広がりつ
つあり、格差が致命的になる前に対処することが緊急の
課題である。しかしながら、発展途上国には言語資源と
技術を開発するコストを負担する能力は乏しく、情報産
業が収益の伴わない高額の投資をするのは難しい。ま
た、先進国においても、多くの非主要言語に個別に対応
するだけの負担は不可能である。これらを解決するため
には、低コストで非主要言語にも対応可能な言語処理手
法の開発が求められているが、従来そのような技術開発
は遅れている。

【０００５】さらに、現在の機械翻訳の精度は、広く実
用に供する域には達していない。ひとつの文を見ただけ
では十分に意味が取れず、前後の文脈を見てはじめて意
味がわかるような文が存在するが、現在の自然言語処理
技術は、このような文脈を扱う能力は不充分である。

【０００６】

【発明が解決しようとする課題】本発明は、上記従来技
術の有する問題点に鑑みて創出されたものであり、その
目的は、主要言語間のみならず主要言語・非主要言語間
における機械翻訳に用いることができる第３言語テキス
トの生成技術を創出することである。同時に、従来より
も高精度にテキストを生成することのできる生成技術を
提供する。

【０００７】

【課題を解決するための手段】本発明は、上記の課題を
解決するために、次のような第３言語テキストの生成ア
ルゴリズムを用いる。すなわち、そのもっとも核心的技
術は、複数の言語テキストを用いて新たな第３の言語テ
キストを生成するものである。そして、本発明によるア
ルゴリズムでは次の各ステップを含んでいる。（１）異なる言語によって記述され、翻訳のベースと
なる第１の言語と、その第１の言語と対訳関係にある少
なくとも第２の言語によって記述された２つ以上の対訳
テキストを入力する入力ステップ。（２）各対訳テキストにつき、各言語毎に、又は各言
語を任意に２つ以上組み合わせて、少なくとも係り受け
解析及び意味解析を含む言語解析を行い、少なくとも依
存構造及び意味表現に係る言語情報を獲得する解析ステ
ップ。（３）該変換ステップにおける変換結果に基づき第３
言語によるテキストを生成する生成ステップ。

【０００８】そして、生成ステップが、解析ステップに
おいて獲得された言語情報又は、解析ステップの後、該
解析結果に基づき、第３言語固有の変換知識を備えて言
語変換を行う変換ステップを設け、該変換ステップにお
ける変換結果、の少なくともいずれかを用いて第３言語
によるテキストを生成する。

【０００９】さらに、上記解析ステップが、各対訳テキ
ストを構成する語句・文が、いかなる対訳関係を有する
かについて関連づけを行う関連づけ過程、少なくとも前
記第１の言語のテキストにつき、それぞれ予め用意され
た解析モジュールを用いて解析する解析過程、関連づけ
の結果、第１の言語のテキストと対訳関係にある少なく
とも第２の言語テキスト中の部分を予め用意された解析
モジュールを用いて解析し、該各解析結果を融合する融
合過程の各過程を含んでもよい。

【００１０】上記解析ステップ、変換ステップ、生成ス
テップの少なくともいずれかにおいて、各言語に関する
辞書情報又は文法情報の少なくともいずれかを含んで構
成される規則的情報と、コーパス等の実データからの学
習結果による経験的情報とを用いてもよい。

【００１１】上記生成ステップにおいて、第３言語の構
文構造情報、又は第３言語の単語用法情報の少なくとも
いずれかについての情報が、該言語の既存のコーパスか
ら一部又は全部について自動獲得して形成され、該自動
獲得された第３言語の固有情報に基づき第３言語による
テキストを生成してもよい。

【００１２】以上の方法を用いた第３言語テキストの生
成装置を提供することもできる。また、以上の方法によ
るプログラムとして提供することも可能である。

【００１３】

【発明の実施の形態】以下、本発明の実施方法を図面に
示した実施例に基づいて説明する。なお、本発明の実施
形態は以下に限定されず、適宜変更可能である。本発明
は、従来の機械翻訳を超えた精度で目標とする第３言語
のテキスト（以下、単に目標言語と呼ぶ。）を生成する
ため、人手により作成された高精度の複数の対訳文書、
例えば日米２カ国の言語から内容面での情報を得、対訳
辞書等から変換規則を得、目標言語の文書から言語的特
徴を得て、目標言語の的確な文章を生成する技術であ
る。

【００１４】従来の自然言語処理技術は、ひとつの文を
読んで、それを翻訳したり、要約したりするという通常
人間が行うであろう行為を模擬するものであった。しか
し一方で、計算機に文脈を扱わせる技術の確立が困難で
あるという致命的な欠陥があった。本発明では、例えば
日本語と英語の対訳文書から情報を和や積の形で取り出
し、深い意味理解を実現する。

【００１５】単に情報をこのように和で取り出すことに
より情報の量を増やすという試みは他の情報処理の手法
ではあったが、本発明のように対訳を用いて積極的に文
の曖昧性を解消するという手法は全く新規なものであ
り、そこに本発明の最も大きな特徴がある。また、その
理解結果を元に、目標言語の単一言語コーパスから各言
語固有の情報を得て、表層の文章を生成する点も全く新
規な技術である。

【００１６】図１に従来から行われている単言語文書を
目標言語に変換、生成するフローチャートを、図２に本
発明に係る日米対訳文書から目標言語に変換、生成する
フローチャートを示す。従来の方法において、単言語文
書（１０）を目標言語文書（１４）に翻訳するプロセス
は、大きく分類して、解析システム（１１）、変換シス
テム（１２）、生成システム（１３）を経て行うのが一
般的であった。それら各システム（１１）（１２）（１
３）の開発に当たっては、人手による規則の作成（１
５）が不可欠であって、高精度なシステム開発には大規
模な文書の解析作業が必要であった。たとえば、学習に
用いる大規模なテキストコーパスは莫大なコストと、研
究が必要であり、現状では主要言語のみにようやく整備
されつつあるものの、非主要言語において用意される望
みは極めて薄い。

【００１７】そこで、本発明は、図２に示すように、主
要言語等のコーパスが整備された少なくとも２つの言語
を用い、それらを解析システム（２１）、変換システム
（２２）、生成システム（２３）の各システムを経て目
標言語文書（２４）を生成する。すなわち、第３言語テ
キスト生成装置は、図３に示す２つ以上の対訳テキスト
を入力する入力手段によって文書の入力を行う。テキス
トは、スキャナ（３１）から画像データとしてインター
フェース（３２）を介してＣＰＵ（３３）に入力して公
知のＯＣＲ処理をＣＰＵ（３３）で実行し、テキストデ
ータに変換した上でハードディスク（３４）・メモリ
（３５）のいずれかに記憶させてもよい。また、ハード
ディスク（３４）にあらかじめ記憶したテキストデータ
を読み出して入力してもよい。その他、コンピュータに
備えたキーボード（３６）から対訳テキストを入力して
もよいし、ネットワークを介して接続された他のコンピ
ュータ（３７）から取得する構成でもよい。これらとＣ
ＰＵ（３３）を接続するインターフェースには対応する
Ｉ／Ｏデバイス、ネットワークアダプタなどを用いるこ
とができる。

【００１８】各対訳テキストにつき、各言語毎に、又は
各言語を任意に２つ以上組み合わせて、言語情報の解析
を行う解析手段として対訳文書解析システム（２１）に
至る。さらに、少なくとも該解析ステップにおける解析
結果に基づき、第３言語への言語変換を行う変換手段と
して変換システム（２２）、該変換ステップにおける変
換結果に基づき第３言語によるテキストを生成する生成
手段として生成システム（２３）を有する。これらは、
別に配設する出力手段（図示しない）によって出力可能
である。出力手段としては、画面表示をするモニタや、
ハードディスクなどの記憶装置、ネットワーク上の他の
コンピュータに対して出力を行うことができる。

【００１９】入力する言語は、例えば日本語と英語の対
訳関係にある文書である。本発明では、翻訳のベースと
なる第１の言語を決め、それと対訳関係にある第２の言
語と共に入力する。また、入力する言語は２つ以上であ
ればよく、例えば３言語（日本語、英語、フランス語な
ど）によってより高精度な解析を実現することもでき
る。

【００２０】従来の機械翻訳システムの精度が上がらな
い大きな理由の一つは、言語解析の困難さによる。解析
の困難さというのは、曖昧性の解消ができないというこ
とであるが、対訳を用いることにより、解析が可能にな
る場合がある。たとえば、日本語だけを見ていては、あ
るものが複数であるかどうかはわからないが、英語を見
れば、その語が単数形か複数形かで判断できる。一方、
英語ではその語の意味的役割がわからないが、日本語で
は助詞がついているので、たとえば「場所」をあらわす
情報であるということがわかったりする。これは日本語
と英語のように言語の体系が大きく異なる言語同士を利
用することで、特に有効となる。

【００２１】従って、本発明における対訳文書の言語の
組み合わせとしては、日本語と英語や、日本語と中国
語、或いはその３言語を用いるなど、言語体系が異なる
言語を用いると特に好適である。逆に、英語とフランス
語のみ等では本発明による効果は必ずしも大きくない
が、英語・フランス語・日本語のように組み合わせる
と、英語・日本語のみの場合よりも高精度な生成が行え
る可能性が高く、そのような構成でもよい。

【００２２】次に、本発明に係る解析システム（２１）
につき詳述する。解析システムの構成を図４に示す。本
システム（２１）は、上記入力手段でハードディスク
（３４）に記憶された日英二言語の対訳文書（２０）の
入力を前提に、語と語(あるいは日本語の文節のように
もう少し大きい単位)の間の依存関係をＣＰＵ（３３）
で解析処理する。ＣＰＵ（３３）は必要に応じてメモリ
（３５）などのコンピュータにおける諸装置・部材と連
携動作する。

【００２３】本実施例では、まず入力された対訳文書
（２０）について、対訳文書を構成する各文間での対訳
関係の関連づけを行い、次の解析処理における解析結果
の融合に用いる。すなわち、日英対訳文書（２０）は、
仮に全部が逐次対訳関係にあったとしても、それらは各
言語の特性、読みやすさなどにより文の数が変わるた
め、機械的に対訳関係を見いだすことはできない場合が
ある。そこで、各対訳文書（２０）を構成する文が、い
かなる対訳関係を有するかについて関連づけを行う対訳
関係関連づけ部（４２）の処理を行い、対訳関係にある
テキストの関連づけを行っておく。関連づけのデータは
例えば日本語テキストの第１０文は英語テキストの第１
１文と対訳関係にある、というように例えば日本語テキ
スト中にタグ付けし、ハードディスク（３４）などに記
憶する。関連づけの方法には２つのテキスト間の相互関
係を抽出する周知の言語処理技術を用いることができる
が、例えば言語横断検索により実現することもできる。

【００２４】そして、ＣＰＵ（３３）において、係り受
け解析（４０）及び意味解析（４１）の各処理を少なく
とも行う。これら各解析については、すでに公知であり
任意の方法を用いることができるが、例えば、すでに本
件出願人らが提案している日本語の係り受けモデル（内
元清貴、村田真樹、関根聡、井佐原均、「後方文脈を考
慮した係り受けモデル」、自然言語処理, Vol.7, No.5,
pp.3-17 (2000)、に記載）を日本語及び英語に適用す
ることによって決定する。このモデルは、二つの語(あ
るいは文節)が依存関係にあるかないかを学習するもの
で、機械学習モデルを用いて実現される。依存関係は学
習されたモデルによって計算される確率の積が一文全体
で最も高くなるように決定する。

【００２５】係り受け解析（４０）において、まずベー
スとなる日本語テキストについて構成される文を順次解
析を行うが、その際、当該文にタグ付けがされ、英語の
対訳文がある場合には、当該文の係り受け解析（４０）
を合わせて行い、融合処理部（４３）において両者の文
で上記確率の積が最も高いものをその文の係り受け解析
結果とする。これにより、日本語テキストだけを入力す
るよりも、他の言語の解析結果を融合して最も確率の高
い結果が得られるため、格段の解析結果の向上を図るこ
とができる。

【００２６】さらに、この依存関係構造から格解析(意
味解析)を行う。依存関係の処理においては、二言語対
訳入力の有効性は、依存構造における係り受けの正解率
の向上で計量可能である。ここでも、上記同様に日本語
テキストからの解析結果と共に、対訳関係にある文が英
語テキスト中に含まれるときには、融合処理部（４３）
において両者の解析結果を比較し、より確率の高い意味
解析の結果を用いる。このように本発明は、解析結果に
おいて単に確率の高い方を採ることができるので、より
多くの言語を入力することで容易に解析精度の向上が図
られる。

【００２７】係り受け解析（４０）や意味解析（４１）
については、本件出願人による特願２００１−１３９５
６３号にも開示されており、意味解析（４１）の一例と
して固有表現の抽出処理を詳述している。固有表現の抽
出は、正確な訳語選択において重要な意味解析の１つで
あり、第３言語への翻訳に極めて有効である。もっと
も、本発明はこれまでに提案されていなかった２つ以上
の対訳文書を入力し、解析、変換、生成の枠組みにおけ
る第３言語テキストの生成を図るものであるから、解析
方法は問わず、例えば周知の形態素解析を行い、そのと
きに対訳文書からの解析結果を融合してもよく、その融
合方法も解析方法によって異なるので、任意に決めるこ
とができる。

【００２８】以上の係り受け解析・意味解析結果は、ハ
ードディスク（３４）に記憶される。このように、解析
システム（２１）の構成要素としては、それぞれの言語
の係り受け解析（４０）・意味解析（４１）処理を少な
くとも行う解析モジュール（４５）を備え、さらに高精
度な解析のために、対訳関係関連づけ部（４２）、融合
処理部（４３）の各処理を行う。

【００２９】また、本発明の解析モジュール（４５）で
は辞書や文法など、あらかじめ作成された規則に基づく
解析を行う一方、対訳関係を関連づけ、その解析結果を
融合することにより実データに基づいた解析を可能にし
ている。このように前者の解析による規則的情報と、後
者の解析による経験的情報を融合することにより、本発
明ではより高精度な解析システム（２１）の実現に寄与
している。

【００３０】次に、変換システム（２２）について以下
に説述する。図５に変換システムの構成を示す。前述し
た通り、コンピュータを用いてある言語の情報を別の言
語に変換するためにはコンピュータ処理に適した言語情
報が必要である。これらを人手で作ることは二言語を理
解する専門家による膨大な作業を必要とするため主要言
語対以外で行うことは現実的ではない。また、大量の対
訳コーパスからこれらの言語情報を自動獲得する手法も
あるが、今まで述べたように主要言語対以外では大量の
対訳コーパスを前提とすることはできない。

【００３１】そこで、本発明では翻訳元である二言語の
対訳コーパス（２７）と翻訳先言語、すなわち目標言語
（ここでは例えばタイ語とする）の単言語コーパス（２
８）、および、翻訳元言語と翻訳先言語との間の小規模
な対訳辞書等、例えば日タイ、英タイ辞書の小規模デー
タ（２９）を組み合わせることによって、言語情報の獲
得を図る。単言語コーパス（２８）の規模は小規模でも
よく、言語処理のための十分な研究、解析が期待できな
い言語に対しても効果的に対応できる。これによって獲
得された情報が、変換知識（２５）及び生成用言語知識
（２６）であり、本発明に係る変換システム（２２）は
該変換知識（２５）に基づき言語間の変換を司る。

【００３２】本発明では、大規模な第３言語のコーパス
を用いなくとも高精度な出力を行うために、入力する対
訳コーパス（２７）と第３言語の単言語コーパス（２
８）とを比較し、第３言語における固有の言語情報を自
動的に獲得し、変換知識データベース（５４）を生成す
る。例えば、複合語句などの場合、単に各単語を辞書に
基づいて変換したのでは自然な言い回しとならないこと
が多い。特に訳語の選択や並び順などは第３言語の固有
の情報であり、それを変換知識として備えておくのが好
ましい。

【００３３】そこで、本発明における変換システム（２
２）では、日英タイ語句間対応部（５１）を設け、日英
対訳コーパス（２７）・対訳文書（２０）と、タイ語コ
ーパス（２８）との間で、例えば同義の語句を抽出し、
それを変換知識生成部（５２）において変換知識データ
ベース（５４）に記憶する。例えば、翻訳元言語のコー
パスが日英の対訳であることから、双方の言語の対訳関
係にある語句に共通して最も対応する第３言語の語句を
統計的に決定してもよい。

【００３４】変換知識は上記にかぎらず、日英対訳コー
パス（２７）に多く見られる構文構造と、タイ語コーパ
スに多く見られる構文構造とを統計的に対応づけし、変
換知識として備えることもできる。これにより解析シス
テム（２１）の解析結果を、タイ語固有の構文構造に変
換することが可能となる。

【００３５】さらに、変換部（５３）では、その時に記
憶された変換知識や、以前の翻訳によって生成された変
換知識を変換知識データベース（５４）から読み出し、
上記解析システム（２１）でハードディスク（３４）に
記憶された依存構造及び意味表現に係る言語情報を変換
する。変換方法は、単に単語の係り受け関係や、固有表
現を、第３言語の変換知識に合わせて上書き修正するだ
けで足りる。変換された情報は再びハードディスク（３
４）に記憶される。

【００３６】最後に、生成システム（２３）につき詳述
する。図６に生成システムの構成を示す。生成に関する
技術開発は、従来あまり系統だって行われてこなかった
が、作成した文書を人間が直接読む場合、その精度は人
問の「読もうとする意欲」に直結する。そこで、本発明
では、生成システム（２３）も極めて重要な言語処理シ
ステムの要素として捉え、次のような技術を用いてい
る。

【００３７】すなわち、単言語コーパス（２８）から単
語の用法に関する情報を得る技術と、構文構造に関する
情報を得る。二言語以上の情報を用いて理解された結果
を第３言語のテキストにする場合には、当然その言語に
ついての知識が必要となる。生成される文章の質の向上
のためには、その言語固有の情報も得る必要がある。し
かし、これをその言語の研究者の持つ言語直観によって
規則化していくということは、膨大な作業であり、主要
な言語以外でこのような規則を作成するということは現
実的ではない。

【００３８】そこで、本発明に係る第３言語テキスト生
成装置では、個別の言語についての情報は、個別の言語
のデータを元に公知の技術により自動獲得する。すなわ
ち、ＣＰＵ（３３）はメモリ（３５）と協働しながら、
構文構造獲得部（６０）において、タイ語コーパス（２
８）から語順に係る構文構造を自動的に獲得する。この
獲得方法については、言語処理分野において、様々な公
知の手法があるが、例えば、コーパスから語順（内元清
貴、村田真樹、馬青、関根聡、井佐原均、「コーパスか
らの語順の学習」、自然言語処理, Vol.7, No.4, pp.16
3-180 (2000)、に記載）を用いることもできる。

【００３９】具体的には、解析システム（２１）、変換
システム（２２）で得られた、語と語の依存構造から自
然な並びの表層文を生成する。本実施例では、自然な並
びであるかどうかを、語順モデルを適用することによっ
て決定した。このモデルは、同じ語を修飾する複数の修
飾語があるとき、修飾語間での自然な順序を学習するも
ので、周知の機械学習モデルを用いて実現される。自然
な語順は学習されたモデルによって計算される確率の積
が一文全体で最も高くなるように決定している。この
時、自動獲得した情報、例えば学習モデルにおける確率
値などは、生成用言語知識データベース（６４）に記憶
し、次回以降の生成に用いてもよい。

【００４０】基本的な構文構造が確定した後、表層表現
決定部（６１）で、文中の個々の語に対する適切な表層
表現を決定する。表層表現の決定には、従来の言語処理
における周知の生成方法を用いることができるが、例え
ば本件出願人らが従来提案した文末モダリティの決定手
法を、格の表現をはじめとする他の表層表現にも拡張し
て用いることもできる。

【００４１】すなわち、文末の時制情報（村田真樹、馬
青、内元清貴、井佐原均、「用例ベースによるテンス・
アスペクト・モダリティの日英翻訳」、人工知能学会誌
Vol.16, No.1, pp.20-27 (2001)に記載）を獲得する方
法は、テンス・アスペクト・モダリティの翻訳の問題に
初めて用例ベースの手法を適用したものであり、対訳の
データベースから解析しているテンス・アスペクト・モ
ダリティ表現によく似た対訳例（用例）を取り出し、そ
のデータベースから翻訳結果を出力する手法である。用
例間の類似度の定義として、文末からの一致文字列（も
しくは分類語彙表の分類番号も含めた文字列での一致）
を使っているため簡易な構成が可能であり、また、他の
表層表現にも容易に適用できる。

【００４２】以上により、従来ではぎこちないテキスト
が出力されることが多かったコンピュータ生成による文
書を、コーパスに示される実際の文章での流暢さに基づ
いたレベルにまで向上させることが可能となる。また、
単言語コーパスからの単語用法情報を自動獲得し、生成
用言語知識（２６）に加えることもできる。

【００４３】以上、本発明における第３言語テキスト生
成装置の解析手段、変換手段、生成手段につき説述した
が、本発明の実施においては必ずしも変換手段を設けな
くともよい。すなわち、本発明で言う変換手段は、出力
する言語固有の変換知識を有するものであるが、明示的
に変換手段を配設しなくともよい。例えば、解析手段や
生成手段の有する言語情報に関する知識・情報で十分に
生成まで行える場合には、変換手段として独立した手段
ではなく、解析手段による解析結果から、生成手段によ
って直接第３言語を生成することができる。

【００４４】また、本装置では、入力手段・出力手段に
ついても様々な形態を考えることができる。入力手段
は、多様な媒体を介して流通する情報から入力すること
が考えられる。例えば、紙片、書籍等の文書を電磁的記
録に変換可能な文書取込変換手段を有する。これはスキ
ャナと文字認識装置・ソフトウェアによってすでに容易
に実現可能であり、本発明の装置に内蔵することによっ
て、例えば日英の２言語で記述された対訳関係にある書
籍を読みとることで、タイ語等の第３言語テキストを出
力する構成を実現できる。出力には、表示装置による表
示、記録装置への書き出し、インターネット等のネット
ワーク上への掲載等、その出力手段は任意である。

【００４５】また、ハードディスク、光学的記憶装置等
の電磁的記録装置から読み出されるコンピュータデータ
は、より簡易に読み出し、かつ入力することが可能であ
る。特に、近年ユニコード等の多言語に対応した文字コ
ードが開発されており、同時に複数の言語、特に非主要
言語であっても同時に扱うことが可能になってきた。こ
のようなコードを用いることで、円滑に複数の言語を同
時に扱うことが可能であり、上記電磁気的記録装置への
記録、読み出しは容易である。

【００４６】さらに、本発明が大きく効果を有する用途
として、インターネット等のネットワーク上のコンピュ
ータに付設される電磁的記憶装置から取得可能なコンピ
ュータデータを入力することが考えられる。インターネ
ット上では、特に主要言語が用いられる地域でコンピュ
ータの普及が進んでいることもあり、流通する情報は多
くが主要言語で記述されている。また、多国籍企業のホ
ームページ等は、すでに主要言語間の人手による高精度
な翻訳がなされており、本発明の技術を用いることで、
未だ翻訳が行われていない多くの非主要言語への変換が
可能となる。従って、該装置の入力手段がインターネッ
ト等のネットワークに接続された電磁気的記録装置から
コンピュータデータを取得し、本装置へ入力することは
非常に効果的である。

【００４７】上記では本発明の一実施形態として、第３
言語テキスト生成装置を挙げたが、本発明は単にコンピ
ュータのアルゴリズムとして提供することもできるし、
また、プログラムとして実現し、任意のコンピュータ上
で動作させることもできる。また、本発明によって構成
されたプログラムを、ネットワーク上で流通させること
もできる。

【００４８】

【発明の効果】本発明は、以上の構成を備えるので、次
の効果を奏する。請求項１に記載の第３言語テキスト生
成アルゴリズムによると、複数の言語で書かれた同じ内
容の文章を合わせて解析することにより、正確な意味理
解を行い、入力とは異なる第３の言語で適切にテキスト
を生成することができる。また、必要に応じて変換過程
を備えることにより、より高精度化に寄与する。これに
より、発展途上国等への母国語による情報提供が可能に
なる。また、この手法が確立すれば、新しい言語への対
応は、その言語に関する言語情報の獲得が主たる開発要
素となり、それぞれの国でも対応できると思われる。今
後とも、英語で作られた文書を人手をかけて高品位の日
本語文書とすることは引き続き大量に行われるであろう
が、このような文書がすべて、他のアジアの多くの言語
にも高品位に翻訳されていくことは考えにくい。本発明
により、タイ語などのアジアの諸言語等への翻訳水準が
飛躍的に向上することが可能である。本技術の確立によ
り、デジタルデバイドに悩む多くの開発途上国が、独自
の努力と多少の支援により、そこから抜け出すことが可
能となる。さらに、従来の単言語からの翻訳に比して、
飛躍的に高精度な第３言語テキストの生成を低コストで
可能にすることができる。

【００４９】請求項２に記載の第３言語テキスト生成ア
ルゴリズムによると、解析ステップが関連づけ過程、解
析過程、解析結果の融合過程を含み、該解析結果を変換
ステップや生成ステップにおいて用いることにより、高
精度な第３言語テキストの生成方法を実現することがで
きる。

【００５０】請求項３に記載の第３言語テキスト生成ア
ルゴリズムによると、解析ステップ・変換ステップ・生
成ステップの各ステップのいずれかにおいて、規則的情
報と経験的情報を融合することで、第３言語テキストの
生成方法の高精度化に寄与する。

【００５１】請求項４に記載の第３言語テキスト生成ア
ルゴリズムによると、第３言語の固有情報を自動獲得す
ることが出来るので、大規模な第３言語のコーパスを用
意することなく、多くの非主要言語に対応可能な第３言
語テキスト生成方法を実現することができ、デジタルデ
バイド問題に効果的に対応することができる。同時に、
生成方法の低コスト化にも寄与する。

【００５２】請求項５に記載の第３言語テキスト生成装
置によると、複数の言語で書かれた同じ内容の文章を合
わせて解析することにより、正確な意味理解を行い、入
力とは異なる第３の言語で適切にテキストを生成する生
成装置を提供することができる。該装置の提供によっ
て、低コストで、多くの非主要言語で出力可能になり、
ひいてはデジタルデバイドの解消につながる。

【００５３】請求項６に記載の第３言語テキスト生成装
置によると、解析手段が対訳関係の関連づけ、解析、解
析結果の融合を行うことによって、低コストで高精度な
第３言語テキス生成装置を実現することができる。

【００５４】請求項７に記載の第３言語テキスト生成装
置によると、解析手段・変換手段・生成手段の各手段の
いずれかにおいて、規則的情報と経験的情報を融合する
ことによって、第３言語テキストの生成装置の高精度化
に寄与する。

【００５５】請求項８に記載の第３言語テキスト生成装
置によると、第３言語の固有情報を自動獲得することが
出来るので、大規模な第３言語のコーパスを用意するこ
となく、多くの非主要言語に対応可能な第３言語テキス
ト生成装置を提供することができる。同時に、該装置の
低コスト化にも寄与する。

【００５６】請求項９に記載の第３言語テキスト生成装
置によると、様々に流通する情報から自由に情報を入力
する入力手段を有するので、近年の多様な情報流通形態
にも柔軟に対応することが可能である。特に、インター
ネット上の情報を効率よく入力し、インターネット上に
出力することで、非主要言語による情報提供が容易にな
る。

【００５７】請求項１０に記載の第３言語テキスト生成
プログラムによると、複数の言語で書かれた同じ内容の
文章を合わせて解析することにより、正確な意味理解を
行い、入力とは異なる第３の言語で適切にテキストを生
成する第３言語テキスト生成プログラムを提供すること
ができる。それらの提供によって、低コストで、多くの
非主要言語で出力可能になり、ひいてはデジタルデバイ
ドの解消につながる。

【００５８】請求項１１に記載の第３言語テキスト生成
プログラムによると、解析処理部が関連づけ、解析、解
析結果の融合を行うことによって、低コストで高精度な
プログラムを実現することができる。

【００５９】請求項１２に記載の第３言語テキスト生成
プログラムによると、解析処理部・変換処理部・生成処
理部の各処理のいずれかにおいて、規則的情報と経験的
情報を融合することによって、それらの高精度化に寄与
する。

【００６０】請求項１３に記載の第３言語テキスト生成
プログラムによると、第３言語の固有情報を自動獲得す
ることが出来るので、大規模な第３言語のコーパスを用
意することなく、多くの非主要言語に対応可能な第３言
語テキスト生成プログラムを提供することができ、デジ
タルデバイド問題に効果的に対応することができる。同
時に、それらの低コスト化にも寄与する。

【図面の簡単な説明】

【図１】従来の目標言語文書生成フローチャートであ
る。

【図２】本発明による目標言語文書生成フローチャート
である。

【図３】本発明に係る第３言語テキスト生成装置の入力
手段の構成図である。

【図４】本発明に係る第３言語テキスト生成装置の解析
システムの構成図である。

【図５】本発明に係る第３言語テキスト生成装置の変換
システムの構成図である。

【図６】本発明に係る第３言語テキスト生成装置の生成
システムの構成図である。

【符号の説明】

２０対訳文書２１対訳文書解析システム２２変換システム２３生成システム２４目標言語文書２５変換知識２６生成用言語知識２７対訳コーパス２８単言語コーパス２９目標言語の小規模データ３０対訳コーパスから変換知識を取得する処理を示す
矢印

Claims

【特許請求の範囲】

【請求項１】コンピュータにおける言語処理のうち、複
数の言語テキストを用いて新たな第３の言語テキストを
生成するアルゴリズムであって、該アルゴリズムが、異なる言語によって記述され、翻訳元となる第１の言語
と、該第１の言語と対訳関係にある少なくとも第２の言
語で記述された、２つ以上の対訳テキストを入力する入
力ステップ、各対訳テキストにつき、各言語毎に、又は各言語を任意
に２つ以上組み合わせて、少なくとも係り受け解析及び
意味解析を含む言語解析を行い、少なくとも依存構造及
び意味表現に係る言語情報を獲得する解析ステップ、第３言語によるテキストを生成する生成ステップの各ス
テップを含む構成であって、生成ステップが、解析ステップにおいて獲得された言語情報、又は、解析ステップの後、該解析結果に基づき、第３言語固有
の変換知識を備えて言語変換を行う変換ステップを設
け、該変換ステップにおける変換結果、の少なくともいずれかを用いて第３言語によるテキスト
を生成することを特徴とする第３言語テキスト生成アル
ゴリズム。
【請求項２】前記解析ステップが、各対訳テキストを構成する語句・文が、いかなる対訳関
係を有するかについて関連づけを行う関連づけ過程、少なくとも前記第１の言語のテキストにつき、それぞれ
予め用意された解析モジュールを用いて解析する解析過
程、関連づけの結果、第１の言語のテキストと対訳関係にあ
る少なくとも第２の言語のテキスト中の部分を予め用意
された解析モジュールを用いて解析し、該各解析結果を
融合する融合過程の各過程を含む請求項１に記載の第３
言語テキスト生成アルゴリズム。
【請求項３】前記解析・変換・生成ステップの少なくと
もいずれかにおいて、各言語に関する辞書情報又は文法情報の少なくともいず
れかを含んで構成される規則的情報と、コーパス等の実データからの学習結果による経験的情報
とを用いる請求項１又は２に記載の第３言語テキスト生
成アルゴリズム。
【請求項４】前記生成ステップにおいて、第３言語の構文構造情報、又は第３言語の単語用法情報
の少なくともいずれかについての情報が、該言語の既存
のコーパスから一部又は全部について自動獲得して形成
され、該自動獲得された第３言語の固有情報に基づき第３言語
によるテキストを生成する請求項１ないし３に記載の第
３言語テキスト生成アルゴリズム。
【請求項５】言語処理のうち、複数の言語を用いて新た
な第３の言語テキストを生成する装置であって、該装置
が、異なる言語によって記述され、翻訳元となる第１の言語
と、該第１の言語と対訳関係にある少なくとも第２の言
語で記述された、２つ以上の対訳テキストを入力する入
力手段、各対訳テキストにつき、各言語毎に、又は各言語を任意
に２つ以上組み合わせて、少なくとも係り受け解析及び
意味解析を含む言語解析を行い、少なくとも依存構造及
び意味表現に係る言語情報を獲得する解析手段、第３言語によるテキストを生成する生成手段、該生成手段によって生成された第３言語テキストを出力
可能な出力手段の各手段を備える構成であって、生成手段が、解析手段において獲得された言語情報、又は、解析手段
の解析結果に基づき、第３言語固有の変換知識を備えて
言語変換を行う変換手段を備え、該変換手段における変
換結果、の少なくともいずれかを用いて第３言語によるテキスト
を生成することを特徴とする第３言語テキスト生成装
置。
【請求項６】前記解析手段が、各対訳テキストを構成する語句・文が、いかなる対訳関
係を有するかについて関連づけを行う対訳関係関連づけ
部、少なくとも前記第１の言語のテキストを解析する、解析
モジュール部、該関連づけの結果、第１の言語のテキストと対訳関係に
ある少なくとも第２の言語のテキスト中の部分を予め用
意された解析モジュールを用いて解析し、該各解析結果
を融合する融合部を備える請求項５に記載の第３言語テ
キスト生成装置。
【請求項７】前記第３言語テキスト生成装置が、各言語に関する辞書情報又は文法情報の少なくともいず
れかを含んで構成される規則的情報と、コーパス等の実データからの学習結果による経験的情報
とを各々記憶する情報記憶手段を備えると共に、前記解析手段・変換手段・生成手段の少なくともいずれ
かが、該情報記憶手段によって記憶された各情報に基づいて解
析処理を行う請求項５又は６に記載の第３言語テキスト
生成装置。
【請求項８】前記第３言語テキスト生成装置が、第３言語の構文構造情報、又は第３言語の単語用法情報
の少なくともいずれかについての情報を、該言語の既存
のコーパスから一部又は全部について自動獲得する第３
言語固有情報獲得手段又は、予め自動獲得された第３言語固有情報を保持可能な第３
言語固有情報記憶手段の少なくともいずれかの手段を有
し、前記生成手段が、該第３言語固有情報に基づき第３言語テキストを生成す
る請求項５ないし７に記載の第３言語テキスト生成装
置。
【請求項９】前記第３言語テキスト生成装置における入
力手段が、紙片、書籍等の文書を電磁的記録に変換する文書取込変
換手段によって変換作成されたコンピュータデータ、又
は、ハードディスク、光学的記憶装置等の電磁的記録装置か
ら読み出されるコンピュータデータ、又は、インターネット等のネットワーク上の電磁的記憶装置か
ら取得可能なコンピュータデータの少なくともいずれか
のコンピュータデータを該装置に入力可能である請求項
５ないし８に記載の第３言語テキスト生成装置。
【請求項１０】コンピュータにおける言語処理のうち、
複数の言語テキストを用いて新たな第３の言語テキスト
を生成するプログラムであって、該プログラムが、異なる言語によって記述され、翻訳元となる第１の言語
と、該第１の言語と対訳関係にある少なくとも第２の言
語で記述された、２つ以上の対訳テキストをコンピュー
タ上の記憶装置又は入力装置から取得する入力部、取得した各対訳テキストにつき、各言語毎に、又は各言
語を任意に２つ以上組み合わせて、少なくとも係り受け
解析及び意味解析を含む言語解析処理を行い、少なくと
も依存構造及び意味表現に係る言語情報を、コンピュー
タ上の演算装置及び記憶装置を用いた演算処理により獲
得する解析処理部、第３言語によるテキストをコンピュータ上の演算装置及
び記憶装置を用いた演算処理により生成する生成処理部該生成処理部によって生成された第３言語テキストをコ
ンピュータ上の記憶装置又は出力装置により出力する出
力部の各部を含む構成であって、生成処理部が、解析処理部において獲得された言語情報、又は、解析処理部の解析結果に基づき、第３言語固有の変換知
識を備えて言語変換を行う変換処理部を設け、該変換処
理部における変換結果、の少なくともいずれかを用いて第３言語によるテキスト
を生成することを特徴とする第３言語テキスト生成プロ
グラム。
【請求項１１】前記解析処理部が、各対訳テキストを構成する語句・文が、いかなる対訳関
係を有するかについて関連づけを行う対訳関係関連づけ
ルーチン、少なくとも前記第１の言語のテキストを解析する、解析
ルーチン、該関連づけの結果、第１の言語のテキストと対訳関係に
ある少なくとも第２の言語のテキスト中の部分を解析ル
ーチンを用いて解析し、該各解析結果を融合する融合ル
ーチンの各ルーチンを含む請求項１０に記載の第３言語
テキスト生成プログラム。
【請求項１２】前記解析処理部・変換処理部・生成処理
部の少なくともいずれかにおいて、各言語に関する辞書情報又は文法情報の少なくともいず
れかを含んで構成される規則的情報と、コーパス等の実データからの学習結果による経験的情報
とを用いる請求項１０又は１１に記載の第３言語テキス
ト生成プログラム。
【請求項１３】前記第３言語テキスト生成プログラム
が、第３言語の構文構造情報、又は第３言語の単語用法情報
の少なくともいずれかについての情報を、該言語の既存
のコーパスから一部又は全部について自動獲得した第３
言語固有情報を読み出す第３言語固有情報読み出しルー
チンを備え、前記生成処理部が、該第３言語固有情報に基づき第３言語テキストを生成す
る請求項１０ないし１２に記載の第３言語テキスト生成
プログラム。