JPH09128396A

JPH09128396A - 対訳辞書作成方法

Info

Publication number: JPH09128396A
Application number: JP7287135A
Authority: JP
Inventors: Hiroyuki Kaji; 博行梶; Toshiko Ono; 敏子小野
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 1995-11-06
Filing date: 1995-11-06
Publication date: 1997-05-16
Also published as: US5907821A

Abstract

(57)【要約】【課題】対訳テキストから語の対訳データを抽出し、対
訳辞書を自動生成する。これにより、文の対応づけがな
されていない対訳テキストからの辞書作成を可能とす
る。【解決手段】第１言語のテキストと第２言語のテキスト
を読み込み（１１）、第１言語のテキストに出現する語
を抽出し（１２）、各語について共起語の集合を求め
（１３）、第２言語のテキストに出現する語を抽出し
（１４）、各語について共起語の集合を求める（１
５）。第１言語の語と第２言語の語の組の各々について
共起語集合の相関度を計算し（１６）、互いに相関度が
最大の語であるような語の組を選定し（１７）、対訳辞
書に登録する（１８）。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は、機械翻訳システム
などで用いられる対訳辞書の作成方法に係わり、特に対
訳テキストから語の対訳データを自動的に抽出する方法
に関する。

【０００２】

【従来の技術】機械翻訳システムにおいては対訳辞書が
必須の構成要素であり、翻訳精度を向上するには，対訳
辞書の語彙のカバー率を高めることが必要である。基本
的な語彙の対訳辞書は、通常、機械翻訳システムのメー
カが提供するが、専門用語の対訳辞書はユーザが作成す
ることが必要であり、辞書の作成コストが問題になる。
このため、対訳テキストから語の対訳データを自動的に
抽出することが望まれている。専門用語の対訳辞書は、
機械翻訳システムだけでなく多言語情報検索システムな
どでも必須の要素であり、自動作成のニーズは非常に高
い。

【０００３】対訳テキストから自動的に対訳辞書を作成
する方法は、例えば、特開平７−２８８１９号に開示さ
れている。しかし、特開平７−２８８１９号などの従来
技術は、文の対応づけがなされた対訳テキストを利用す
るものであるという問題がある。対訳テキストは、多く
の場合、テキスト全体で対訳になっているだけで、文単
位での対応関係は付けられていないからである。従来技
術によって対訳辞書を作成しようとすると、対訳テキス
トにおける文の対応づけを行う前処理が必要になる。こ
れを人手で行うのはコスト的に問題であり、文の対応づ
けを自動的に行う方法も研究されている。Computationa
l Linguistics, Vol. 19, No. 1, pp. 75-102 (1993年3
月)の論文"A Program for Aligning Sentences in Bili
ngual Corpora"はその例である。しかし、対訳テキスト
には、１つの文が２つの文に対応している部分も多い
し、対応する文をもたない文が含まれることさえある。
従って、文の対応づけを１００％の精度で行うことは困
難であり、コンピュータによる対応づけの結果を人間が
確認・修正せざるを得ない。このように、文の対応づけ
コストを含めると、対訳辞書の作成コストの問題は解決
されていないといえる。文の対応づけを前提としない
対訳テキストからの対訳辞書作成方法としては、情報処
理学会自然言語処理研究会報告No. 94-12(1993年)の論
文「対訳コーパスを用いた専門用語対訳辞書の作成」が
ある。しかし、これは、複数の単純語から構成される複
合語を抽出し、単純語の対訳辞書を参照して構成要素間
の対訳関係が確認できるような複合語の組を抽出する方
法であり、単純語の対訳関係の抽出には適用できない。
複合語であっても、構成要素の対応関係が明白で、かつ
全ての対応関係が対訳辞書に含まれる場合しか抽出でき
ないという問題がある。

【０００４】

【発明が解決しようとする課題】本発明の目的は、上記
従来技術の問題点を解決し、文の対応関係がつけられて
いない対訳テキストから、単純語と複合語の両方を対象
として、対訳データを自動抽出する方法を提供すること
にある。

【０００５】

【課題を解決するための手段】上記目的を達成するた
め、本発明の請求項１においては、対訳関係を有する第
１言語のテキストと第２言語のテキストを入力装置から
読み込む対訳テキスト読み込みステップ、第１言語テキ
ストの形態素解析を行ってテキスト中に出現する語を抽
出する第１言語テキスト解析ステップ、第１言語テキス
トの解析結果をもとに、テキストに出現する語の各々に
ついて共起する語の集合即ち第１の共起語集合を抽出す
る第１言語共起データ抽出ステップ、第２言語テキスト
の形態素解析を行ってテキスト中に出現する語を抽出す
る第２言語テキスト解析ステップ、第２言語テキストの
解析結果をもとに、テキストに出現する語の各々につい
て共起する語の集合即ち第２の共起語集合を抽出する第
２言語共起データ抽出ステップ、第１言語の語の第１の
共起語集合と第２言語の語の第２の共起語集合との相関
度を計算する相関度算出ステップ、共起語集合の相関度
に基づいて第１言語の語と第２言語の語の組を選定する
高相関語選定ステップ、前記選定された語の組を対訳辞
書に登録する対訳データ表示・登録ステップから構成す
る。

【０００６】請求項２においては、上記請求項１で述べ
た対訳辞書作成方法の相関度算出ステップにおいて、既
に対訳辞書に登録されている語の組が存在する場合は、
これを同一要素と見做すことによって、第１言語の語の
共起語集合と第２言語の語の共起語集合の相関度計算を
行う方法としている。

【０００７】請求項３においては、上記請求項１で述べ
た対訳辞書作成方法の高相関語選定ステップにおいて、
共起語集合の相関度が第１言語の語から見ても、第２言
語の語から見ても最大となる語の組を対訳語として選定
する方法としている。

【０００８】請求項４においては、上記請求項１で述べ
た対訳辞書作成方法の高相関語選定ステップにおいて、
対訳辞書の対訳データと語自身の対訳テキスト中での出
現頻度に基づいて、上記共起語集合の相関度とは異なる
第２の相関度を算出し、上記共起語集合の相関度の方が
第２の相関度よりも大となっている語を選定条件として
いる。

【０００９】請求項５においては、上記請求項１で述べ
た対訳辞書作成方法の高相関語選定ステップにおいて、
共起語集合の相関度が予め定められた閾値以上となる第
１言語の語及び第２言語の語の組を選定条件としてい
る。

【００１０】さらに請求項６においては上記請求項１で
述べた対訳辞書作成方法の対訳データ登録ステップにお
いて、データ処理により得られた対訳語の組を辞書に登
録する前に一度表示装置で表示し、人間が確認した後に
辞書への登録を行う方法としている。

【００１１】

【発明の実施の形態】本発明の一実施例として、日英の
対訳テキストから語の対訳データを抽出する日英対訳辞
書作成システムについて説明する。

【００１２】日英対訳辞書作成システムのハードウエア
は、図１に示すように処理装置１、記憶装置２、入力装
置３、表示装置４から構成される。処理装置１は対訳デ
ータを抽出する処理を実行する。記憶装置２は、日本語
辞書２１、英語辞書２２、対訳辞書２３、日本語テキス
ト２４、英語テキスト２５を格納するほか、対訳データ
抽出処理の作業エリア２６として用いられる。入力装置
３は対訳テキストの入力に用いられ、表示装置４は抽出
された対訳データの表示に用いられる。

【００１３】処理装置１が実行する対訳データ抽出処理
は、図２に示すように、対訳テキスト読み込みステップ
１１、日本語テキスト解析ステップ１２、日本語共起デ
ータ抽出ステップ１３、英語テキスト解析ステップ１
４、英語共起データ抽出ステップ１５、相関度算出ステ
ップ１６、高相関語選定ステップ１７、対訳データ表示
・登録ステップ１８からなる。以下、各ステップについ
て説明する。

【００１４】（１）対訳テキスト読み込みステップ１１対訳関係を有する日本語テキストと英語テキストを入力
装置３から読み込み、記憶装置２の日本語テキスト２４
と英語テキスト２５の格納エリアにそれぞれ格納する。

【００１５】（２）日本語テキスト解析ステップ１２日本語テキスト２４を読み出して文に分割し、さらに各
文を語に分割する。併せて，複数の語から構成される複
合語を抽出する。

【００１６】テキストの文への分割は、テキストを構成
する文字列を前方から１文字ずつチェックし、句点また
は改行記号が出現したら、それを文の末尾とみなすこと
によって行う。

【００１７】文の語への分割は、日本語辞書２１を参照
して形態素解析することによって行う。形態素解析技術
としては、例えば特開昭６１−４０６７１に開示されて
いる技術を用いる。形態素解析の結果、文は語の列とし
て表現されるが、本発明では、語の列のデータから助
詞、助動詞などの機能語を除外し、名詞、動詞、形容
詞、形容動詞などの内容語のみを残す処理を追加する。
その理由は、機能語は言語間の対応関係が単純でなく、
対訳テキストから抽出する対訳データを内容語の対訳関
係に限定するのが適切であるからである。また、動詞な
ど、活用する語はテキスト中にさまざまな変化形で出現
するが、対訳辞書２３に登録されている基本形（例え
ば，終止形）に置き換えて出力する。

【００１８】複合語の抽出は、複合語を規定する品詞の
並びを抽出することによって行う。例えば、連続する名
詞の並びを複合名詞として抽出する。

【００１９】日本語テキスト解析ステップ１２によって
得られる日本語テキスト解析結果２６１ａの例を図３
（ａ）に示す。図３（ａ）において、「＼」は語の区切
りを、「＼＼」は文の区切りを、「＼＼＼」はテキスト
の終了を示す。また、語のうしろの「（ｍ，ｎ）」は、
当該語がテキスト中の第ｍ字で始まり第ｎ字で終わる語
であることを表す。テキスト中の語の位置情報を付け加
えた理由は、日本語共起データ抽出ステップ１３におい
て、語の重なりをチェックするためである。

【００２０】（３）日本語共起データ抽出ステップ１３図３（ａ）における日本語テキスト解析結果２６１ａを
もとに、図４（ａ）における日本語出現語テーブル２６
２および図５（ａ）における日本語共起頻度行列２６４
を作成する。

【００２１】日本語出現語テーブル２６２は、図４
（ａ）に示すように、日本語テキストに出現した語２６
２１とその出現頻度２６２２を示すテーブルである。な
お，図４（ａ）の日本語出現語テーブルの内容は、図３
（ａ）の日本語テキスト解析結果の内容に対応してい
る。日本語共起頻度行列２６４は、図５（ａ）に示すよ
うに、日本語出現語テーブル２６２中の語に対応する行
および列からなる行列であり，（ｉ，ｊ）要素は日本語
出現語テーブル２６２中の第ｉ語と第ｊ語が同一文中に
そろって出現した頻度を表す。なお、図５（ａ）の日本
語共起頻度行列の内容は、図３（ａ）の日本語テキスト
解析結果の内容に対応している。

【００２２】日本語共起データ抽出ステップ１３の処理
を図６のフローチャートに沿って説明する。

【００２３】最初に、日本語出現語テーブルのエントリ
数（以後，簡単に「日本語語数」という）を表す変数を
０に、日本語出現語テーブル２６２の語２６２１のフィ
ールドを全て空白に、出現頻度２６２２のフィールドを
全て０にする（１３０１）。また，図５（ａ）に示した
日本語共起頻度行列２６４の全ての要素を０にする（１
３０２）。さらに、日本語テキスト解析結果２６１ａ中
の語を指すインデクスｉに初期値１をセットする（１３
０３）。

【００２４】日本語テキスト解析結果２６１ａから第ｉ
語を取り出してＸにセットし（１３０４）、Ｘを引数に
して日本語出現語テーブル検索／登録サブルーチンをコ
ールする（１３０５）。日本語出現語テーブル検索／登
録サブルーチンは、引数として与えられた語が日本語出
現語テーブル２６２に登録されている場合は、そのエン
トリ番号をリターンし、引数の語が日本語出現語テーブ
ル２６２中に未登録である場合は，テーブル末尾に登録
した上でエントリ番号をリターンするサブルーチンであ
る。日本語出現語テーブル検索／登録サブルーチンがリ
ターンするＸのエントリ番号をｍにセットする（１３０
６）。

【００２５】次に，日本語テキスト解析結果２６１ａの
中の第ｉ語のうしろの区切り記号を調べ（１３０７）。
第ｉ語が文の途中の語であれば、文中のそれ以降の語を
取り出し、第ｉ語との共起頻度を１増加する。そのた
め、まず、日本語テキスト解析結果２６１ａ中の語を指
す第２のインデクスｊに初期値として（ｉ＋１）をセッ
トする（１３０８）。日本語テキスト解析結果２６１ａ
から第ｊ語を取り出してＹにセットする（１３０９）。
ＸとＹがテキスト中で重なっていないかどうかチェック
する（１３１０）。重なっていなければ、すなわち複合
語とその構成要素のような関係でなければ、Ｙを引数に
して日本語出現語テーブル検索／登録サブルーチンをコ
ールし（１３１１）、日本語出現語テーブル検索／登録
サブルーチンがリターンした後、日本語出現語テーブル
２６２中のＹのエントリ番号をｎにセットする（１３１
２）。ｍ≠ｎであれば（１３１３），日本語共起頻度行
列の（ｍ，ｎ）要素および（ｎ，ｍ）要素をそれぞれ１
ずつ増加する（１３１４）。ｍ＝ｎであれば（１３１
３）、（ｍ，ｎ）要素を１だけ増加する（１３１５）。
第ｉ語と第ｊ語の共起を処理したあと，日本語テキスト
解析結果２６１ａ中の第ｊ語のうしろの区切り記号を調
べる（１３１６）。第ｊ語が文の途中の語であれば、次
の語との共起データを処理するため、ｊに１を加えて
（１３１７）、１３０９に戻る。第ｊ語が文末の語であ
れば、次の文の処理に進むため、ｉに１を加えて（１３
１８）、１３０４に戻る。

【００２６】なお、日本語テキスト解析結果２６１ａの
中の第ｉ語のうしろの区切り記号をチェックする１３０
７において、第ｉ語がテキスト末の語であれば処理を終
了する。また、第ｉ語がテキスト末以外の文末の語であ
れば、次の文の処理に進むため、ｉに１を加えて（１３
１８）、１３０４に戻る。

【００２７】以上が日本語共起データ抽出ステップ１３
の処理である。次に、日本語共起データ抽出ステップの
中でコールされる日本語出現語テーブル検索／登録サブ
ルーチンの処理を図７のフローチャートに沿って説明す
る。まず、引数として与えられた語をＷにセットし（１
３０５１）、日本語出現語テーブルの要素を指すインデ
クスｋに初期値１をセットする（１３０５２）。ｋが日
本語語数以下であれば（１３０５３），Ｗを日本語出現
語テーブル２６２の第ｋ語と比較する（１３０５４）。
一致すれば，第ｋ語の出現頻度２６２２を１だけ増加し
（１３０５５），引数の語のエントリ番号としてｋをリ
ターンする（１３０５６）。Ｗが日本語出現語テーブル
２６２の第ｋ語と一致しなければ（１３０５４）、次の
語と比較するため、ｋに１を加え（１３０５７）、１３
０５３に戻る。ｋが日本語語数を越える時は（１３０５
３）、Ｗが日本語出現語テーブル２６２に未登録である
ことを意味するので、日本語出現語テーブル２６２の第
ｋ語としてＷを登録し（１３０５８）、日本語語数をｋ
に更新する（１３０５９）。このあと、第ｋ語の出現頻
度２６２２を１だけ増加し（１３０５５）、引数の語の
エントリ番号としてｋをリターンする（１３０５６）。

【００２８】（４）英語テキスト解析ステップ１４英語テキスト２５を読み出して文に分割し、さらに各文
を語に分割する。併せて、複数の語から構成される複合
語を抽出する。

【００２９】テキストの文への分割は、テキストを構成
する文字列を前方から１文字ずつチェックし、ピリオド
または改行記号が出現したら、それを文の末尾とみなす
ことによって行う。なお、この方法では、「Mr.」のよ
うにピリオドで終わる語が出現すると誤って分割され
る。そのような語のリストを用意し、リスト中の語に関
して例外処理をすることにより、分割精度を向上させる
ことが可能である。

【００３０】文の語への分割は、図１における英語辞書
２２を参照して形態素解析することによって行う。形態
素解析技術としては、例えば特開昭５８−４０６８４号
の中に開示されている技術を用いる。形態素解析の結
果、文は語の列として表現されるが、本発明では、語の
列のデータから前置詞、冠詞、助動詞などの機能語を除
外し、名詞、動詞、形容詞、副詞などの内容語のみを残
す処理を追加する。また、語はテキスト中にさまざまな
変化形で出現するが、図１における対訳辞書２３に登録
されている基本形に置き換えて出力する。

【００３１】複合語の抽出は、複合語を規定する品詞の
並びを抽出することによって行う。例えば、連続する名
詞の並びや、形容詞と後接する名詞の並びを複合名詞と
して抽出する。

【００３２】英語テキスト解析ステップ１４によって得
られる英語テキスト解析結果２６１ｂの例を図３（ｂ）
に示す。英語テキスト解析結果２６１ｂに含まれる
「＼」、「＼＼」、「＼＼＼」、および「（ｍ，ｎ）」
の意味は日本語テキスト解析結果２６１ａにおいてと同
じである。

【００３３】（５）英語共起データ抽出ステップ１５英語テキスト解析結果２６１ｂをもとに、英語出現語テ
ーブル２６３および英語共起頻度行列２６５を作成す
る。

【００３４】英語出現語テーブル２６３は、図４（ｂ）
に示すように、英語テキストに出現した語２６３１とそ
の出現頻度２６３２を示すテーブルである。なお、図４
（ｂ）の英語出現語テーブルの内容は、図３（ｂ）の英
語テキスト解析結果の内容に対応している。英語共起頻
度行列２６５は、図５（ｂ）に示すように、英語出現語
テーブル２６３中の語に対応する行および列からなる行
列であり、（ｉ，ｊ）要素は英語出現語テーブル２６３
中の第ｉ語と第ｊ語が同一文中にそろって出現した頻度
を表す。なお、図５（ｂ）の英語共起頻度行列の内容
は、図３（ｂ）の英語テキスト解析結果の内容に対応し
ている。

【００３５】英語共起データ抽出ステップ１５の処理
は、日本語共起データ抽出ステップ１３と全く同様であ
るので、詳細な説明は省略する。

【００３６】（６）相関度算出ステップ１６図４（ａ）、（ｂ）に示した日本語出現語テーブル２６
２、英語出現語テーブル２６３、図５（ａ）、（ｂ）に
示した日本語共起頻度行列２６４、英語共起頻度行列２
６５、および図１における対訳辞書２３に基づいて、図
９に示す日英相関行列２６６を作成する。

【００３７】対訳辞書２３は、図８に例示するように、
日本語の語２３１と英語の語２３２の組からなるレコー
ドを記憶しており、日本語の語２３１をキーとして検索
することができる。また、日英相関行列２６６は、図９
に示すように、図４（ａ）に示した日本語出現語テーブ
ル２６２中の語に対応する行、図４（ｂ）に示した英語
出現語テーブル２６３中の語に対応する列からなる行列
であり、（ｉ，ｊ）要素は、共起語集合に基づく、日本
語出現語テーブル２６２中の第ｉ語と英語出現語テーブ
ル２６３中の第ｊ語の相関度を表す。図９の日英相関行
列の内容は、対訳辞書の内容が図８であるとの前提で、
図５（ａ）の日本語共起頻度行列と図５（ｂ）の英語共
起頻度行列から計算された結果である。

【００３８】日本語の語ＪＷと英語の語ＥＷの相関度Ａ
ｓｓｏｃ（ＪＷ，ＥＷ）は次式で定義する。

【００３９】Ａｓｓｏｃ（ＪＷ，ＥＷ）＝Ｃ／（Ａ＋Ｂ−Ｃ）ここに、Ａ＝ＪＷの共起語集合の要素数，Ｂ＝ＥＷの共
起語集合の要素数，Ｃ＝ＪＷの共起語集合とＥＷの共起
語集合の積集合の要素数。

【００４０】ただし、ここでの集合は通常の集合と異な
り、同一の語を複数個含むことを許し、集合の要素数は
各語の個数の総和である。また、積集合は、ＪＷの共起
語集合中の語とＥＷの共起語集合中の語の組が対訳辞書
２３に既に登録されているとき、これらの語を同一の要
素とみなし、積集合を構成する要素と考える。また、同
一とみなされる語の個数が二つの集合の間で異なると
き、積集合は少ないほうの個数を含むことにする。

【００４１】例えば、図５（ａ）の日本語共起頻度行列
２６４によれば「分割する」の共起語集合は次のとおり
である。ここで、「／」のあとの数字が、「／」の前の
語の個数を表している。

【００４２】｛日本語／１、テキスト／１、日本語テキ
スト／１、読み込む／１、文／２、語／１｝また、図５（ｂ）の英語共起頻度行列２６５によれば
「text」の共起語集合は次のとおりである。

【００４３】｛Japanese／１，read／１，divide／１，
sentence／１｝ここで、対訳辞書が図８に示す３つのレコードのみを含
むとすれば、「分割する」の共起語集合と「text」の共
起語集合の積集合は次のようになる。ここでは、日本語
の語と英語の語を＝で結ぶことによって、同一とみなさ
れた要素であることを示している。

【００４４】｛読み込む＝read／１，文＝sentence／１｝従って、上の定義式による「分割する」と「text」の相
関度は次のようになる。

【００４５】Ａｓｓｏｃ（分割する，text）＝２／（７
＋４−２）＝２／９相関度算出ステップ１６は、図１０に示すように、日英
対訳行列作成サブステップ１６ａ、日英仮想共起頻度行
列計算サブステップ１６ｂ、日英相関行列計算サブステ
ップ１６ｃの３つのサブステップにわけられる。

【００４６】日英対訳行列作成サブステップ１６ａは、
図４（ａ）（ｂ）に示した日本語出現語テーブル２６
２、英語出現語テーブル２６３、および対訳辞書２３か
ら日英対訳行列２６７を作成する。日英対訳行列２６７
は、図１１に示すように、日本語出現語テーブル２６２
中の語に対応する行、英語出現語テーブル２６３中の語
に対応する列からなる行列である。（ｉ，ｊ）要素の値
は、日本語出現語テーブル２６２中の第ｉ語と英語出現
語テーブル２６３中の第ｊ語の組が対訳辞書２３に含ま
れているとき１、対訳辞書２３に含まれていないとき０
である。なお、図１１の日英対訳行列の内容は図８の対
訳辞書の内容に対応している。

【００４７】日英対訳行列作成サブステップ１６ａの処
理を図１２のフローチャートに沿って説明する。

【００４８】最初に、日英対訳行列２６７の全要素の値
を０にする（１６０１）。次に、日本語出現語テーブル
２６２の要素を指すインデクスｉに初期値１をセットし
（１６０２）、ｉが日本語語数と一致するまで（１６１
３）、ｉに順次１を加えながら（１６１４）、以下の処
理を繰り返す。

【００４９】日本語出現語テーブル２６２中の第ｉ語
（以後、簡単に「日本語の第ｉ語」という）をキーとし
て対訳辞書２３を検索する（１６０３）。一つ以上の訳
語が得られた場合（１６０４）、訳語を指すインデクス
ｒに初期値１をセットし（１６０５）、ｒが得られた訳
語数と一致するまで（１６１１）、順次ｒに１を加えな
がら（１６１２）、次の処理を繰返し実行する。英語出
現語テーブル２６３の要素を指すインデクスｊに初期値
１をセットし（１６０６）、ｊが英語出現語テーブルの
エントリ数（以後、簡単に「英語語数」という）と一致
するまで（１６０７）、ｊに１を加えながら（１６０
９）、第ｒ訳語と英語出現語テーブル中の第ｊ語（以
後、簡単に「英語の第ｊ語」という）を比較する動作
（１６０８）を繰返す。一致するｊに到達すると、日英
対訳行列２６７の（ｉ，ｊ）要素の値を１にする（１６
１０）。

【００５０】日英仮想共起頻度行列計算サブステップ１
６ｂは、日本語共起頻度行列２６４（図５（ａ））と日
英対訳行列２６７（図１１）から日英仮想共起頻度行列
２６８（図１３）を計算する。日英仮想共起頻度行列２
６８は、図１３に示すように、日本語出現語テーブル２
６２中の語に対応する行、英語出現語テーブル２６３中
の語に対応する列からなる行列であり、（ｉ，ｊ）要素
は日本語出現語テーブル２６２中の第ｉ語と英語出現語
テーブル２６３中の第ｊ語との仮想的な共起頻度を表
す。「仮想的な」共起とは、日本語テキストにおいて二
つの語ＪＷ１とＪＷ２が共起する場合、ＪＷ２の英訳語
がＪＷ１と共起するとみなすことを意味する。なお、図
１３の日英仮想共起頻度行列の内容は、図５（ａ）の日
本語共起頻度行列と図１１の日英対訳行列から計算され
た内容である。

【００５１】日英仮想共起頻度行列計算サブステップ１
６ｂの処理を図１４のフローチャートに沿って説明す
る。

【００５２】日本語出現語テーブル２６２の要素を指す
インデクスｉに初期値１をセットし（１６２１）、ｉが
日本語語数と一致するまで（１６３０）順次ｉに１を加
えながら（１６３１）以下の処理を行い、さらにその過
程において英語出現語テーブル２６３の要素を指すイン
デクスｊに初期値１をセットし（１６２２）、ｊが英語
語数と一致するまで（１６２８）ｊに１を加える操作を
実行しつつ（１６２９）以下の処理を繰り返す。

【００５３】日英仮想共起頻度行列２６８の要素の値を
計算するための変数Ｘに初期値０をセットし、日本語出
現語テーブル２６２の要素を指す第２のインデクスｋに
初期値１をセットする（１６２３）。日本語共起頻度行
列２６４の（ｉ，ｋ）要素と日英対訳行列２６７の
（ｋ，ｊ）要素の積をＸに加算する（１６２４）。ｋが
日本語語数より小さければ（１６２５）、ｋに１を加え
（１６２６）、１６２４に戻る。ｋが日本語語数に等し
いならば、その時点のＸの値を日英仮想共起頻度行列２
６８の（ｉ，ｊ）要素の値として出力する（１６２
７）。

【００５４】日英相関行列計算サブステップ１６ｃ（図
１０）は、日本語共起頻度行列２６４，日英仮想共起頻
度行列２６８と英語共起頻度行列２６５から日英相関行
列２６６を計算する。このステップの処理を図１５のフ
ローチャートに沿って説明する。

【００５５】日本語出現語テーブル２６２の要素を指す
インデクスｉに初期値１をセットし（１６４１）、ｉが
日本語語数と一致するまで（１６５５）、順次ｉに１を
加えながら（１６５６）以下の処理を繰り返す。

【００５６】日本語の第ｉ語の共起語集合の要素数を累
計する変数Ａに初期値０をセットし、日本語出現語テー
ブル２６２の要素を指す第２のインデクスｋに初期値１
をセットする（１６４２）。日本語共起頻度行列２６４
の（ｉ，ｋ）要素をＡに加える（１６４３）。ｋが日本
語語数より小さければ（１６４４）、ｋに１を加え（１
６４５）、１６４３に戻る。ｋが日本語語数に等しけれ
ば、その時点のＡの値が、日本語の第ｉ語の共起語集合
の要素数を表している。

【００５７】英語出現語テーブル２６３の要素を指すイ
ンデクスｊに初期値１をセットし（１６４６）、ｊが英
語語数と一致するまで（１６５３）順次ｊに１を加えな
がら（１６５４）以下の処理を繰り返す。

【００５８】英語の第ｊ語の共起語集合の要素数を累計
する変数Ｂ、および日本語の第ｉ語の共起語集合と英語
の第ｊ語の共起語集合の積集合の要素数を累計する変数
Ｃに初期値０をセットし、英語出現語テーブル２６３の
要素を指す第２のインデクスｋに初期値１をセットする
（１６４７）。英語共起頻度行列２６５の（ｊ，ｋ）要
素をＢに加える（１６４８）。また、日英仮想共起頻度
行列２６８の（ｉ，ｋ）要素と英語共起頻度行列２６５
の（ｊ，ｋ）要素の最小値をＣに加える（１６４９）。
ｋが英語語数より小さければ（１６５０）、ｋに１を加
え（１６５１）、１６４８に戻る。ｋが英語語数に等し
ければ、その時点のＢの値が、英語の第ｊ語の共起語集
合の要素数を表し、その時点のＣの値が、日本語の第ｉ
語の共起語集合と英語の第ｊ語の共起語集合の積集合の
要素数を表している。以上のようにして得られたＡ、
Ｂ、Ｃの値からＣ／（Ａ＋Ｂ−Ｃ）を計算し、日英相関
行列２６６の（ｉ，ｊ）要素として出力する（１６５
２）。

【００５９】（７）高相関語選定ステップ１７日英相関行列２６６および日英対訳行列２６７に基づい
て、対訳データ２６９を抽出する。抽出される対訳デー
タ２６９は、図１６に例示するように、日本語の語２６
９１、英語の語２６９２と相関度２６９３の組である。
図１６の対訳データは、図９の日英相関行列と図１１の
日英対訳行列から得られた対訳データである。

【００６０】高相関語選定ステップ１７の処理を図１
７、図１８のフローチャートに沿って説明する。なお、
図１７と図１８はＬ１、Ｌ２、Ｌ３でそれぞれ接続され
ている。

【００６１】日本語出現語テーブル２６２の要素を指す
インデクスｉに初期値１をセットし（１７０１）、ｉが
日本語語数と一致するまで（１７２６）順次ｉに１を加
えながら（１７２７）、以下の処理を繰り返す。

【００６２】英語出現語テーブル２６３の要素を指すイ
ンデクスｊに初期値１をセットし、日本語出現語テーブ
ルの第ｉ語（以後、簡単に「日本語の第ｉ語」という）
に係わる相関度の最大値を記憶する変数Ａの初期値を−
１にする（１７０２）。日本語の第ｉ語と英語出現語テ
ーブルの第ｊ語（以後、簡単に「英語の第ｊ語」とい
う）との相関度をＡと比較し（１７０３）、Ａより大で
あればＡをその値に更新し、その時点のｊの値をｊｍに
セーブし、日本語の第ｉ語との相関度がＡである英語の
語数を記憶する変数Ｎの値を１にする（１７０４）。日
本語の第ｉ語と英語の第ｊ語との相関度がＡと等しけれ
ば、Ｎを更新する（１７０５）。ｊが英語語数より小で
あれば（１７０６）、英語の次の語について処理するた
め、ｊに１を加え（１７０７）、１７０３に戻る。

【００６３】英語出現語テーブルの全ての語について上
記の処理が終了したら、日本語の第ｉ語との相関度が最
大値Ａである英語の語数Ｎが１かどうかチェックする
（１７０８）。Ｎが１でなければ、日本語の第ｉ語に係
わる対訳データは抽出できなかったと判断し、１７２６
に飛ぶ。Ｎが１であれば、日本語の第ｉ語と英語の第ｊ
ｍ語の組が対訳の候補になるので、英語の第ｊｍ語に係
わる相関度とＡとの大小をチェックする。すなわち、日
本語出現語テーブル２６２の要素を指す第２のインデク
スｋに初期値１をセットし（１７０９）、ｋが日本語語
数と一致するまで（１７１１）、ｋに１を加えながら
（１７１２）、日本語の第ｋ語と英語の第ｊｍ語の相関
度をＡと比較する（１７１０）。英語の第ｊｍ語との相
関度がＡより大きな日本語の語があれば、日本語の第ｉ
語と英語の第ｊｍ語の組は対訳でないと判断し、１７２
６に飛ぶ。英語の第ｊｍ語との相関度がＡより大きな日
本語の語がなければ、日本語の第ｉ語と英語の第ｊｍ語
の組は、どちらの語からみても最大の相関度であるの
で、対訳の候補として残す。

【００６４】次に、日本語の第ｉ語と英語の第ｊｍ語の
相関度Ａを、日本語の第ｉ語に係わる直接相関度、およ
び英語の第ｊｍ語に係わる直接相関度と比較する。ここ
で、直接相関度とは、共起語集合に基づく相関度と異な
り、対訳辞書２３に対訳として登録されているかどうか
ということと、語自身の対訳テキスト中での出現頻度に
基づく相関度である。

【００６５】英語出現語テーブル２６３の要素を指すイ
ンデクスｊに初期値１をセットし（１７１３）、英語語
数と一致するまで（１７１７）順次ｊに１を加えながら
（１７１８）、日本語の第ｉ語と英語の第ｊ語の直接相
関度ＢをＡと比較する。すなわち、日英対訳行列２６７
の（ｉ，ｊ）要素が１であれば（１７１４）、日本語の
第ｉ語の出現頻度２６２２と英語の第ｊ語の出現頻度２
６３２の最小値を最大値で除した値をＢとし（１７１
５）、ＡとＢとの大小を比較する（１７１６）。日本語
の第ｉ語との直接相関度ＢがＡ以上である英語の語があ
れば、日本語の第ｉ語と英語の第ｊｍ語の組は対訳でな
いと判断し、１７２６に飛ぶ。

【００６６】同様に、日本語出現語テーブル２６２の要
素を指す第２のインデクスｋに初期値１をセットし（１
７１９）、ｋが日本語語数と一致するまで（１７２
３）、ｋに１を加えながら（１７２４）、日本語の第ｋ
語と英語の第ｊｍ語の直接相関度ＢをＡと比較する。す
なわち、日英対訳行列２６７の（ｋ，ｊｍ）要素が１で
あれば（１７２０）、日本語の第ｋ語の出現頻度２６２
２と英語の第ｊｍ語の出現頻度２６３２の最小値を最大
値で除した値をＢとし（１７２１）、ＡとＢとの大小を
比較する（１７２２）。英語の第ｊｍ語との直接相関度
ＢがＡ以上である日本語の語があれば、日本語の第ｉ語
と英語の第ｊｍ語の組は対訳でないと判断し、１７２６
に飛ぶ。

【００６７】日本語の第ｉ語あるいは英語の第ｊｍ語に
関し、Ａより大きな直接相関度をもつ語がない場合に
は、日本語の第ｉ語、英語の第ｊｍ語、および相関度Ａ
の組を対訳データ２６９として出力する（１７２５）。

【００６８】（８）対訳データ表示・登録ステップ１８高相関語選定ステップ１７で選定された対訳データ２６
９を表示装置４に表示する。ユーザは、表示された対訳
データの各々について、対訳辞書２３に登録するか否か
を入力装置３から指示することができる。対訳データの
登録が指示されると、当該対訳データの日本語の語２６
９１と英語の語２６９２を組にして対訳辞書２３に登録
する。

【００６９】以上の（１）から（８）のステップを実行
することにより、対訳テキストから語の対訳データを抽
出し、対訳辞書を充実させていくことができる。例え
ば、図８に示す３つの対訳データから成る対訳辞書を利
用して、図３（ａ）と図３（ｂ）に示す対訳テキストを
処理することにより、図１６に示す２つの対訳データが
対訳辞書に追加される。

【００７０】以上、説明したのは一実施例であり、各ス
テップに種々のバリエーションを考えることができる。

【００７１】「共起する語」について、上記実施例では
「同一文中に出現する語」としたが、大きさｎのウイン
ドゥに含まれる語を採用してもよい。例えば、大きさ７
のウインドゥの場合、ある語と共起する語とは、その語
の前後それぞれ３語の範囲に出現する語である。また、
構文的に関係のある語（修飾／被修飾の関係にある語）
を共起する語とする方法も考えられる。

【００７２】共起データ抽出ステップにおいて、上記実
施例では、複合語とその構成語の関係は共起関係ではな
いので、複合語とその構成語の組は共起頻度としてはカ
ウントしていない。しかし、複合語と構成語は、共起と
は違った意味で関連がある。すなわち、構成要素の間の
対訳関係は、複合語の対訳関係抽出の手掛かりになる。
従って、複合語の共起語の中にその構成語を含めて相関
度を計算する方法も考えられる。この場合、相関度は、
共起語の対訳知識だけでなく構成語の対訳知識を反映し
たものになる。

【００７３】共起語集合の相関度についても、上記実施
例以外に種々の定義が可能である。例えば、共起特性を
ベクトルで表現し、ベクトル間の角度が小さいほど相関
が高いとする方法が考えられる。ここで、日本語の語の
共起特性は、各成分が日本語の語に対応するベクトルで
表現され、一方、英語の語の共起特性は、各成分が英語
の語に対応するベクトルで表現される。従って、語の対
訳関係に基づいて成分を対応づけた上でベクトル間の角
度を計算することにする。

【００７４】高相関語選択ステップにおいて、上記実施
例では、相関度が最大の語の組であっても、より大きな
直接相関度をもつ語が存在する場合は除外している。こ
の処理において、直接相関度に適当な重みをつけること
が考えられる。また、直接相関度との比較処理を完全に
省略することも考えられる。さらに、簡単に、あらかじ
め定めたしきい値以上の相関度をもつ全ての語の組を選
定する方法も考えられる。

【００７５】

【発明の効果】本発明によれば，対訳辞書に既登録の対
訳データを利用して、対訳辞書に未登録の対訳データを
対訳テキストから自動的に抽出し、対訳辞書を充実させ
ていくことができる。従来技術と異なり、文の対応がつ
けられていない対訳テキストから対訳データを抽出でき
ることが本発明の顕著な効果である。

【図面の簡単な説明】

【図１】日英対訳辞書作成システムのハードウエア構成
図。

【図２】対訳データ抽出処理のフローチャート。

【図３】（ａ）は日本語テキスト解析結果の例を示す
図、（ｂ）は英語テキスト解析結果の例を示す図。

【図４】（ａ）は日本語出現語テーブルの例を示す図、
（ｂ）は英語出現語テーブルの例を示す図。

【図５】（ａ）は日本語共起頻度行列の例を示す図、
（ｂ）は英語共起頻度行列の例を示す図。

【図６】日本語共起データ抽出処理のフローチャート。

【図７】日本語出現語テーブル検索／登録サブルーチン
のフローチャート。

【図８】対訳辞書の例を示す図。

【図９】日英相関行列の例を示す図。

【図１０】相関度算出処理のフローチャート。

【図１１】日英対訳行列の例を示す図。

【図１２】日英対訳行列作成処理のフローチャート。

【図１３】日英仮想共起頻度行列の例を示す図。

【図１４】日英仮想共起頻度行列計算処理のフローチャ
ート。

【図１５】日英相関行列計算処理のフローチャート。

【図１６】抽出された対訳データの例を示す図。

【図１７】高相関語選定処理のフローチャート（その
１）。

【図１８】高相関語選定処理のフローチャート（その
２）。

【符号の説明】

１処理装置２記憶装置３入力装置４表示装置１１対訳テキスト読み込みステップ１２日本語テ
キスト解析ステップ１３日本語共起データ抽出ステップ１４英語テキ
スト解析ステップ１５英語共起データ抽出ステップ１６相関度算
出ステップ１７高相関語選定ステップ１８対訳デー
タ表示・登録ステップ２１日本語辞書２２英語辞書２３対訳辞書２４日本語テ
キスト２５英語テキスト２６作業エリ
ア２６１ａ日本語テキスト解析結果２６１ｂ英語テ
キスト解析結果２６２日本語出現語テーブル２６３英語出
現語テーブル２６４日本語共起頻度行列２６５英語共
起頻度行列２６６日英相関行列２６７日英対
訳行列２６８日英仮想共起頻度行列２６９抽出さ
れた対訳データ

Claims

【特許請求の範囲】

【請求項１】第１言語のテキストと第２言語のテキスト
を入力装置から読み込む対訳テキスト読み込みステッ
プ、第１言語のテキスト中に出現する語を抽出する第１
言語テキスト解析ステップ、第１言語のテキストに出現
する語の各々についてテキスト中で共起する語の集合即
ち第１の共起語集合を抽出する第１言語共起データ抽出
ステップ、第２言語のテキスト中で出現する語を抽出す
る第２言語テキスト解析ステップ、第２言語テキストに
出現する語の各々についてテキスト中で共起する語の集
合即ち第２の共起語集合を抽出する第２言語共起データ
抽出ステップ、第１言語の語の上記共起語集合と第２言
語の語の上記共起語集合との相関度を計算する相関度算
出ステップ、共起語集合の相関度に基づいて第１言語の
語と第２言語の語の組を選定する高相関語選定ステッ
プ、前記選定された語の組を対訳辞書に登録する対訳デ
ータ登録ステップから構成されることを特徴とする対訳
辞書作成方法。
【請求項２】請求項１に記載の対訳辞書作成方法であっ
て、相関度算出ステップは、対訳辞書に既登録の語の組
を同一の要素とみなすことによって、第１言語の語の共
起語集合と第２言語の語の共起語集合の相関度を計算す
ることを特徴とする対訳辞書作成方法。
【請求項３】請求項１に記載の対訳辞書作成方法であっ
て、高相関語選定ステップは、共起語集合の相関度が互
いに最大の語であることを条件として、第１言語の語と
第２言語の語の組を選定することを特徴とする対訳辞書
作成方法。
【請求項４】請求項１に記載の対訳辞書作成方法であっ
て、高相関語選定ステップは、対訳辞書の対訳データと
語の出現頻度に基づく第２の相関度を算出し、選定する
語に係わる第２の相関度より共起語集合の相関度が大き
いことを選択の条件にすることを特徴とする対訳辞書作
成方法。
【請求項５】請求項１に記載の対訳辞書作成方法であっ
て、高相関語選定ステップは、共起語集合の相関度があ
らかじめ定めたしきい値以上であることを条件として、
第１言語の語と第２言語の語の組を選定することを特徴
とする対訳辞書作成方法。
【請求項６】請求項１に記載の対訳辞書作成方法であっ
て、対訳データ登録ステップは、対訳辞書に登録する前
に、語の組を表示装置に表示し、人間が登録を指示した
語の組のみを対訳辞書に登録することを特徴とする対訳
辞書作成方法。