JPH09128396A - 対訳辞書作成方法 - Google Patents
対訳辞書作成方法Info
- Publication number
- JPH09128396A JPH09128396A JP7287135A JP28713595A JPH09128396A JP H09128396 A JPH09128396 A JP H09128396A JP 7287135 A JP7287135 A JP 7287135A JP 28713595 A JP28713595 A JP 28713595A JP H09128396 A JPH09128396 A JP H09128396A
- Authority
- JP
- Japan
- Prior art keywords
- word
- words
- japanese
- language
- text
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Classifications
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/205—Parsing
- G06F40/216—Parsing using statistical methods
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/237—Lexical tools
- G06F40/242—Dictionaries
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/20—Natural language analysis
- G06F40/268—Morphological analysis
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/53—Processing of non-Latin text
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F40/00—Handling natural language data
- G06F40/40—Processing or translation of natural language
- G06F40/55—Rule-based translation
Landscapes
- Engineering & Computer Science (AREA)
- Theoretical Computer Science (AREA)
- Physics & Mathematics (AREA)
- Health & Medical Sciences (AREA)
- Artificial Intelligence (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Computational Linguistics (AREA)
- General Health & Medical Sciences (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- Probability & Statistics with Applications (AREA)
- Machine Translation (AREA)
Abstract
(57)【要約】
【課題】対訳テキストから語の対訳データを抽出し、対
訳辞書を自動生成する。これにより、文の対応づけがな
されていない対訳テキストからの辞書作成を可能とす
る。 【解決手段】第1言語のテキストと第2言語のテキスト
を読み込み(11)、第1言語のテキストに出現する語
を抽出し(12)、各語について共起語の集合を求め
(13)、第2言語のテキストに出現する語を抽出し
(14)、各語について共起語の集合を求める(1
5)。第1言語の語と第2言語の語の組の各々について
共起語集合の相関度を計算し(16)、互いに相関度が
最大の語であるような語の組を選定し(17)、対訳辞
書に登録する(18)。
訳辞書を自動生成する。これにより、文の対応づけがな
されていない対訳テキストからの辞書作成を可能とす
る。 【解決手段】第1言語のテキストと第2言語のテキスト
を読み込み(11)、第1言語のテキストに出現する語
を抽出し(12)、各語について共起語の集合を求め
(13)、第2言語のテキストに出現する語を抽出し
(14)、各語について共起語の集合を求める(1
5)。第1言語の語と第2言語の語の組の各々について
共起語集合の相関度を計算し(16)、互いに相関度が
最大の語であるような語の組を選定し(17)、対訳辞
書に登録する(18)。
Description
【0001】
【発明の属する技術分野】本発明は、機械翻訳システム
などで用いられる対訳辞書の作成方法に係わり、特に対
訳テキストから語の対訳データを自動的に抽出する方法
に関する。
などで用いられる対訳辞書の作成方法に係わり、特に対
訳テキストから語の対訳データを自動的に抽出する方法
に関する。
【0002】
【従来の技術】機械翻訳システムにおいては対訳辞書が
必須の構成要素であり、翻訳精度を向上するには,対訳
辞書の語彙のカバー率を高めることが必要である。基本
的な語彙の対訳辞書は、通常、機械翻訳システムのメー
カが提供するが、専門用語の対訳辞書はユーザが作成す
ることが必要であり、辞書の作成コストが問題になる。
このため、対訳テキストから語の対訳データを自動的に
抽出することが望まれている。専門用語の対訳辞書は、
機械翻訳システムだけでなく多言語情報検索システムな
どでも必須の要素であり、自動作成のニーズは非常に高
い。
必須の構成要素であり、翻訳精度を向上するには,対訳
辞書の語彙のカバー率を高めることが必要である。基本
的な語彙の対訳辞書は、通常、機械翻訳システムのメー
カが提供するが、専門用語の対訳辞書はユーザが作成す
ることが必要であり、辞書の作成コストが問題になる。
このため、対訳テキストから語の対訳データを自動的に
抽出することが望まれている。専門用語の対訳辞書は、
機械翻訳システムだけでなく多言語情報検索システムな
どでも必須の要素であり、自動作成のニーズは非常に高
い。
【0003】対訳テキストから自動的に対訳辞書を作成
する方法は、例えば、特開平7−28819号に開示さ
れている。しかし、特開平7−28819号などの従来
技術は、文の対応づけがなされた対訳テキストを利用す
るものであるという問題がある。対訳テキストは、多く
の場合、テキスト全体で対訳になっているだけで、文単
位での対応関係は付けられていないからである。従来技
術によって対訳辞書を作成しようとすると、対訳テキス
トにおける文の対応づけを行う前処理が必要になる。こ
れを人手で行うのはコスト的に問題であり、文の対応づ
けを自動的に行う方法も研究されている。Computationa
l Linguistics, Vol. 19, No. 1, pp. 75-102 (1993年3
月)の論文"A Program for Aligning Sentences in Bili
ngual Corpora"はその例である。しかし、対訳テキスト
には、1つの文が2つの文に対応している部分も多い
し、対応する文をもたない文が含まれることさえある。
従って、文の対応づけを100%の精度で行うことは困
難であり、コンピュータによる対応づけの結果を人間が
確認・修正せざるを得ない。このように、文の対応づけ
コストを含めると、対訳辞書の作成コストの問題は解決
されていないといえる。 文の対応づけを前提としない
対訳テキストからの対訳辞書作成方法としては、情報処
理学会自然言語処理研究会報告No. 94-12(1993年)の論
文「対訳コーパスを用いた専門用語対訳辞書の作成」が
ある。しかし、これは、複数の単純語から構成される複
合語を抽出し、単純語の対訳辞書を参照して構成要素間
の対訳関係が確認できるような複合語の組を抽出する方
法であり、単純語の対訳関係の抽出には適用できない。
複合語であっても、構成要素の対応関係が明白で、かつ
全ての対応関係が対訳辞書に含まれる場合しか抽出でき
ないという問題がある。
する方法は、例えば、特開平7−28819号に開示さ
れている。しかし、特開平7−28819号などの従来
技術は、文の対応づけがなされた対訳テキストを利用す
るものであるという問題がある。対訳テキストは、多く
の場合、テキスト全体で対訳になっているだけで、文単
位での対応関係は付けられていないからである。従来技
術によって対訳辞書を作成しようとすると、対訳テキス
トにおける文の対応づけを行う前処理が必要になる。こ
れを人手で行うのはコスト的に問題であり、文の対応づ
けを自動的に行う方法も研究されている。Computationa
l Linguistics, Vol. 19, No. 1, pp. 75-102 (1993年3
月)の論文"A Program for Aligning Sentences in Bili
ngual Corpora"はその例である。しかし、対訳テキスト
には、1つの文が2つの文に対応している部分も多い
し、対応する文をもたない文が含まれることさえある。
従って、文の対応づけを100%の精度で行うことは困
難であり、コンピュータによる対応づけの結果を人間が
確認・修正せざるを得ない。このように、文の対応づけ
コストを含めると、対訳辞書の作成コストの問題は解決
されていないといえる。 文の対応づけを前提としない
対訳テキストからの対訳辞書作成方法としては、情報処
理学会自然言語処理研究会報告No. 94-12(1993年)の論
文「対訳コーパスを用いた専門用語対訳辞書の作成」が
ある。しかし、これは、複数の単純語から構成される複
合語を抽出し、単純語の対訳辞書を参照して構成要素間
の対訳関係が確認できるような複合語の組を抽出する方
法であり、単純語の対訳関係の抽出には適用できない。
複合語であっても、構成要素の対応関係が明白で、かつ
全ての対応関係が対訳辞書に含まれる場合しか抽出でき
ないという問題がある。
【0004】
【発明が解決しようとする課題】本発明の目的は、上記
従来技術の問題点を解決し、文の対応関係がつけられて
いない対訳テキストから、単純語と複合語の両方を対象
として、対訳データを自動抽出する方法を提供すること
にある。
従来技術の問題点を解決し、文の対応関係がつけられて
いない対訳テキストから、単純語と複合語の両方を対象
として、対訳データを自動抽出する方法を提供すること
にある。
【0005】
【課題を解決するための手段】上記目的を達成するた
め、本発明の請求項1においては、対訳関係を有する第
1言語のテキストと第2言語のテキストを入力装置から
読み込む対訳テキスト読み込みステップ、第1言語テキ
ストの形態素解析を行ってテキスト中に出現する語を抽
出する第1言語テキスト解析ステップ、第1言語テキス
トの解析結果をもとに、テキストに出現する語の各々に
ついて共起する語の集合即ち第1の共起語集合を抽出す
る第1言語共起データ抽出ステップ、第2言語テキスト
の形態素解析を行ってテキスト中に出現する語を抽出す
る第2言語テキスト解析ステップ、第2言語テキストの
解析結果をもとに、テキストに出現する語の各々につい
て共起する語の集合即ち第2の共起語集合を抽出する第
2言語共起データ抽出ステップ、第1言語の語の第1の
共起語集合と第2言語の語の第2の共起語集合との相関
度を計算する相関度算出ステップ、共起語集合の相関度
に基づいて第1言語の語と第2言語の語の組を選定する
高相関語選定ステップ、前記選定された語の組を対訳辞
書に登録する対訳データ表示・登録ステップから構成す
る。
め、本発明の請求項1においては、対訳関係を有する第
1言語のテキストと第2言語のテキストを入力装置から
読み込む対訳テキスト読み込みステップ、第1言語テキ
ストの形態素解析を行ってテキスト中に出現する語を抽
出する第1言語テキスト解析ステップ、第1言語テキス
トの解析結果をもとに、テキストに出現する語の各々に
ついて共起する語の集合即ち第1の共起語集合を抽出す
る第1言語共起データ抽出ステップ、第2言語テキスト
の形態素解析を行ってテキスト中に出現する語を抽出す
る第2言語テキスト解析ステップ、第2言語テキストの
解析結果をもとに、テキストに出現する語の各々につい
て共起する語の集合即ち第2の共起語集合を抽出する第
2言語共起データ抽出ステップ、第1言語の語の第1の
共起語集合と第2言語の語の第2の共起語集合との相関
度を計算する相関度算出ステップ、共起語集合の相関度
に基づいて第1言語の語と第2言語の語の組を選定する
高相関語選定ステップ、前記選定された語の組を対訳辞
書に登録する対訳データ表示・登録ステップから構成す
る。
【0006】請求項2においては、上記請求項1で述べ
た対訳辞書作成方法の相関度算出ステップにおいて、既
に対訳辞書に登録されている語の組が存在する場合は、
これを同一要素と見做すことによって、第1言語の語の
共起語集合と第2言語の語の共起語集合の相関度計算を
行う方法としている。
た対訳辞書作成方法の相関度算出ステップにおいて、既
に対訳辞書に登録されている語の組が存在する場合は、
これを同一要素と見做すことによって、第1言語の語の
共起語集合と第2言語の語の共起語集合の相関度計算を
行う方法としている。
【0007】請求項3においては、上記請求項1で述べ
た対訳辞書作成方法の高相関語選定ステップにおいて、
共起語集合の相関度が第1言語の語から見ても、第2言
語の語から見ても最大となる語の組を対訳語として選定
する方法としている。
た対訳辞書作成方法の高相関語選定ステップにおいて、
共起語集合の相関度が第1言語の語から見ても、第2言
語の語から見ても最大となる語の組を対訳語として選定
する方法としている。
【0008】請求項4においては、上記請求項1で述べ
た対訳辞書作成方法の高相関語選定ステップにおいて、
対訳辞書の対訳データと語自身の対訳テキスト中での出
現頻度に基づいて、上記共起語集合の相関度とは異なる
第2の相関度を算出し、上記共起語集合の相関度の方が
第2の相関度よりも大となっている語を選定条件として
いる。
た対訳辞書作成方法の高相関語選定ステップにおいて、
対訳辞書の対訳データと語自身の対訳テキスト中での出
現頻度に基づいて、上記共起語集合の相関度とは異なる
第2の相関度を算出し、上記共起語集合の相関度の方が
第2の相関度よりも大となっている語を選定条件として
いる。
【0009】請求項5においては、上記請求項1で述べ
た対訳辞書作成方法の高相関語選定ステップにおいて、
共起語集合の相関度が予め定められた閾値以上となる第
1言語の語及び第2言語の語の組を選定条件としてい
る。
た対訳辞書作成方法の高相関語選定ステップにおいて、
共起語集合の相関度が予め定められた閾値以上となる第
1言語の語及び第2言語の語の組を選定条件としてい
る。
【0010】さらに請求項6においては上記請求項1で
述べた対訳辞書作成方法の対訳データ登録ステップにお
いて、データ処理により得られた対訳語の組を辞書に登
録する前に一度表示装置で表示し、人間が確認した後に
辞書への登録を行う方法としている。
述べた対訳辞書作成方法の対訳データ登録ステップにお
いて、データ処理により得られた対訳語の組を辞書に登
録する前に一度表示装置で表示し、人間が確認した後に
辞書への登録を行う方法としている。
【0011】
【発明の実施の形態】本発明の一実施例として、日英の
対訳テキストから語の対訳データを抽出する日英対訳辞
書作成システムについて説明する。
対訳テキストから語の対訳データを抽出する日英対訳辞
書作成システムについて説明する。
【0012】日英対訳辞書作成システムのハードウエア
は、図1に示すように処理装置1、記憶装置2、入力装
置3、表示装置4から構成される。処理装置1は対訳デ
ータを抽出する処理を実行する。記憶装置2は、日本語
辞書21、英語辞書22、対訳辞書23、日本語テキス
ト24、英語テキスト25を格納するほか、対訳データ
抽出処理の作業エリア26として用いられる。入力装置
3は対訳テキストの入力に用いられ、表示装置4は抽出
された対訳データの表示に用いられる。
は、図1に示すように処理装置1、記憶装置2、入力装
置3、表示装置4から構成される。処理装置1は対訳デ
ータを抽出する処理を実行する。記憶装置2は、日本語
辞書21、英語辞書22、対訳辞書23、日本語テキス
ト24、英語テキスト25を格納するほか、対訳データ
抽出処理の作業エリア26として用いられる。入力装置
3は対訳テキストの入力に用いられ、表示装置4は抽出
された対訳データの表示に用いられる。
【0013】処理装置1が実行する対訳データ抽出処理
は、図2に示すように、対訳テキスト読み込みステップ
11、日本語テキスト解析ステップ12、日本語共起デ
ータ抽出ステップ13、英語テキスト解析ステップ1
4、英語共起データ抽出ステップ15、相関度算出ステ
ップ16、高相関語選定ステップ17、対訳データ表示
・登録ステップ18からなる。以下、各ステップについ
て説明する。
は、図2に示すように、対訳テキスト読み込みステップ
11、日本語テキスト解析ステップ12、日本語共起デ
ータ抽出ステップ13、英語テキスト解析ステップ1
4、英語共起データ抽出ステップ15、相関度算出ステ
ップ16、高相関語選定ステップ17、対訳データ表示
・登録ステップ18からなる。以下、各ステップについ
て説明する。
【0014】(1)対訳テキスト読み込みステップ11 対訳関係を有する日本語テキストと英語テキストを入力
装置3から読み込み、記憶装置2の日本語テキスト24
と英語テキスト25の格納エリアにそれぞれ格納する。
装置3から読み込み、記憶装置2の日本語テキスト24
と英語テキスト25の格納エリアにそれぞれ格納する。
【0015】(2)日本語テキスト解析ステップ12 日本語テキスト24を読み出して文に分割し、さらに各
文を語に分割する。併せて,複数の語から構成される複
合語を抽出する。
文を語に分割する。併せて,複数の語から構成される複
合語を抽出する。
【0016】テキストの文への分割は、テキストを構成
する文字列を前方から1文字ずつチェックし、句点また
は改行記号が出現したら、それを文の末尾とみなすこと
によって行う。
する文字列を前方から1文字ずつチェックし、句点また
は改行記号が出現したら、それを文の末尾とみなすこと
によって行う。
【0017】文の語への分割は、日本語辞書21を参照
して形態素解析することによって行う。形態素解析技術
としては、例えば特開昭61−40671に開示されて
いる技術を用いる。形態素解析の結果、文は語の列とし
て表現されるが、本発明では、語の列のデータから助
詞、助動詞などの機能語を除外し、名詞、動詞、形容
詞、形容動詞などの内容語のみを残す処理を追加する。
その理由は、機能語は言語間の対応関係が単純でなく、
対訳テキストから抽出する対訳データを内容語の対訳関
係に限定するのが適切であるからである。また、動詞な
ど、活用する語はテキスト中にさまざまな変化形で出現
するが、対訳辞書23に登録されている基本形(例え
ば,終止形)に置き換えて出力する。
して形態素解析することによって行う。形態素解析技術
としては、例えば特開昭61−40671に開示されて
いる技術を用いる。形態素解析の結果、文は語の列とし
て表現されるが、本発明では、語の列のデータから助
詞、助動詞などの機能語を除外し、名詞、動詞、形容
詞、形容動詞などの内容語のみを残す処理を追加する。
その理由は、機能語は言語間の対応関係が単純でなく、
対訳テキストから抽出する対訳データを内容語の対訳関
係に限定するのが適切であるからである。また、動詞な
ど、活用する語はテキスト中にさまざまな変化形で出現
するが、対訳辞書23に登録されている基本形(例え
ば,終止形)に置き換えて出力する。
【0018】複合語の抽出は、複合語を規定する品詞の
並びを抽出することによって行う。例えば、連続する名
詞の並びを複合名詞として抽出する。
並びを抽出することによって行う。例えば、連続する名
詞の並びを複合名詞として抽出する。
【0019】日本語テキスト解析ステップ12によって
得られる日本語テキスト解析結果261aの例を図3
(a)に示す。図3(a)において、「\」は語の区切
りを、「\\」は文の区切りを、「\\\」はテキスト
の終了を示す。また、語のうしろの「(m,n)」は、
当該語がテキスト中の第m字で始まり第n字で終わる語
であることを表す。テキスト中の語の位置情報を付け加
えた理由は、日本語共起データ抽出ステップ13におい
て、語の重なりをチェックするためである。
得られる日本語テキスト解析結果261aの例を図3
(a)に示す。図3(a)において、「\」は語の区切
りを、「\\」は文の区切りを、「\\\」はテキスト
の終了を示す。また、語のうしろの「(m,n)」は、
当該語がテキスト中の第m字で始まり第n字で終わる語
であることを表す。テキスト中の語の位置情報を付け加
えた理由は、日本語共起データ抽出ステップ13におい
て、語の重なりをチェックするためである。
【0020】(3)日本語共起データ抽出ステップ13 図3(a)における日本語テキスト解析結果261aを
もとに、図4(a)における日本語出現語テーブル26
2および図5(a)における日本語共起頻度行列264
を作成する。
もとに、図4(a)における日本語出現語テーブル26
2および図5(a)における日本語共起頻度行列264
を作成する。
【0021】日本語出現語テーブル262は、図4
(a)に示すように、日本語テキストに出現した語26
21とその出現頻度2622を示すテーブルである。な
お,図4(a)の日本語出現語テーブルの内容は、図3
(a)の日本語テキスト解析結果の内容に対応してい
る。日本語共起頻度行列264は、図5(a)に示すよ
うに、日本語出現語テーブル262中の語に対応する行
および列からなる行列であり,(i,j)要素は日本語
出現語テーブル262中の第i語と第j語が同一文中に
そろって出現した頻度を表す。なお、図5(a)の日本
語共起頻度行列の内容は、図3(a)の日本語テキスト
解析結果の内容に対応している。
(a)に示すように、日本語テキストに出現した語26
21とその出現頻度2622を示すテーブルである。な
お,図4(a)の日本語出現語テーブルの内容は、図3
(a)の日本語テキスト解析結果の内容に対応してい
る。日本語共起頻度行列264は、図5(a)に示すよ
うに、日本語出現語テーブル262中の語に対応する行
および列からなる行列であり,(i,j)要素は日本語
出現語テーブル262中の第i語と第j語が同一文中に
そろって出現した頻度を表す。なお、図5(a)の日本
語共起頻度行列の内容は、図3(a)の日本語テキスト
解析結果の内容に対応している。
【0022】日本語共起データ抽出ステップ13の処理
を図6のフローチャートに沿って説明する。
を図6のフローチャートに沿って説明する。
【0023】最初に、日本語出現語テーブルのエントリ
数(以後,簡単に「日本語語数」という)を表す変数を
0に、日本語出現語テーブル262の語2621のフィ
ールドを全て空白に、出現頻度2622のフィールドを
全て0にする(1301)。また,図5(a)に示した
日本語共起頻度行列264の全ての要素を0にする(1
302)。さらに、日本語テキスト解析結果261a中
の語を指すインデクスiに初期値1をセットする(13
03)。
数(以後,簡単に「日本語語数」という)を表す変数を
0に、日本語出現語テーブル262の語2621のフィ
ールドを全て空白に、出現頻度2622のフィールドを
全て0にする(1301)。また,図5(a)に示した
日本語共起頻度行列264の全ての要素を0にする(1
302)。さらに、日本語テキスト解析結果261a中
の語を指すインデクスiに初期値1をセットする(13
03)。
【0024】日本語テキスト解析結果261aから第i
語を取り出してXにセットし(1304)、Xを引数に
して日本語出現語テーブル検索/登録サブルーチンをコ
ールする(1305)。日本語出現語テーブル検索/登
録サブルーチンは、引数として与えられた語が日本語出
現語テーブル262に登録されている場合は、そのエン
トリ番号をリターンし、引数の語が日本語出現語テーブ
ル262中に未登録である場合は,テーブル末尾に登録
した上でエントリ番号をリターンするサブルーチンであ
る。日本語出現語テーブル検索/登録サブルーチンがリ
ターンするXのエントリ番号をmにセットする(130
6)。
語を取り出してXにセットし(1304)、Xを引数に
して日本語出現語テーブル検索/登録サブルーチンをコ
ールする(1305)。日本語出現語テーブル検索/登
録サブルーチンは、引数として与えられた語が日本語出
現語テーブル262に登録されている場合は、そのエン
トリ番号をリターンし、引数の語が日本語出現語テーブ
ル262中に未登録である場合は,テーブル末尾に登録
した上でエントリ番号をリターンするサブルーチンであ
る。日本語出現語テーブル検索/登録サブルーチンがリ
ターンするXのエントリ番号をmにセットする(130
6)。
【0025】次に,日本語テキスト解析結果261aの
中の第i語のうしろの区切り記号を調べ(1307)。
第i語が文の途中の語であれば、文中のそれ以降の語を
取り出し、第i語との共起頻度を1増加する。そのた
め、まず、日本語テキスト解析結果261a中の語を指
す第2のインデクスjに初期値として(i+1)をセッ
トする(1308)。日本語テキスト解析結果261a
から第j語を取り出してYにセットする(1309)。
XとYがテキスト中で重なっていないかどうかチェック
する(1310)。重なっていなければ、すなわち複合
語とその構成要素のような関係でなければ、Yを引数に
して日本語出現語テーブル検索/登録サブルーチンをコ
ールし(1311)、日本語出現語テーブル検索/登録
サブルーチンがリターンした後、日本語出現語テーブル
262中のYのエントリ番号をnにセットする(131
2)。m≠nであれば(1313),日本語共起頻度行
列の(m,n)要素および(n,m)要素をそれぞれ1
ずつ増加する(1314)。m=nであれば(131
3)、(m,n)要素を1だけ増加する(1315)。
第i語と第j語の共起を処理したあと,日本語テキスト
解析結果261a中の第j語のうしろの区切り記号を調
べる(1316)。第j語が文の途中の語であれば、次
の語との共起データを処理するため、jに1を加えて
(1317)、1309に戻る。第j語が文末の語であ
れば、次の文の処理に進むため、iに1を加えて(13
18)、1304に戻る。
中の第i語のうしろの区切り記号を調べ(1307)。
第i語が文の途中の語であれば、文中のそれ以降の語を
取り出し、第i語との共起頻度を1増加する。そのた
め、まず、日本語テキスト解析結果261a中の語を指
す第2のインデクスjに初期値として(i+1)をセッ
トする(1308)。日本語テキスト解析結果261a
から第j語を取り出してYにセットする(1309)。
XとYがテキスト中で重なっていないかどうかチェック
する(1310)。重なっていなければ、すなわち複合
語とその構成要素のような関係でなければ、Yを引数に
して日本語出現語テーブル検索/登録サブルーチンをコ
ールし(1311)、日本語出現語テーブル検索/登録
サブルーチンがリターンした後、日本語出現語テーブル
262中のYのエントリ番号をnにセットする(131
2)。m≠nであれば(1313),日本語共起頻度行
列の(m,n)要素および(n,m)要素をそれぞれ1
ずつ増加する(1314)。m=nであれば(131
3)、(m,n)要素を1だけ増加する(1315)。
第i語と第j語の共起を処理したあと,日本語テキスト
解析結果261a中の第j語のうしろの区切り記号を調
べる(1316)。第j語が文の途中の語であれば、次
の語との共起データを処理するため、jに1を加えて
(1317)、1309に戻る。第j語が文末の語であ
れば、次の文の処理に進むため、iに1を加えて(13
18)、1304に戻る。
【0026】なお、日本語テキスト解析結果261aの
中の第i語のうしろの区切り記号をチェックする130
7において、第i語がテキスト末の語であれば処理を終
了する。また、第i語がテキスト末以外の文末の語であ
れば、次の文の処理に進むため、iに1を加えて(13
18)、1304に戻る。
中の第i語のうしろの区切り記号をチェックする130
7において、第i語がテキスト末の語であれば処理を終
了する。また、第i語がテキスト末以外の文末の語であ
れば、次の文の処理に進むため、iに1を加えて(13
18)、1304に戻る。
【0027】以上が日本語共起データ抽出ステップ13
の処理である。次に、日本語共起データ抽出ステップの
中でコールされる日本語出現語テーブル検索/登録サブ
ルーチンの処理を図7のフローチャートに沿って説明す
る。まず、引数として与えられた語をWにセットし(1
3051)、日本語出現語テーブルの要素を指すインデ
クスkに初期値1をセットする(13052)。kが日
本語語数以下であれば(13053),Wを日本語出現
語テーブル262の第k語と比較する(13054)。
一致すれば,第k語の出現頻度2622を1だけ増加し
(13055),引数の語のエントリ番号としてkをリ
ターンする(13056)。Wが日本語出現語テーブル
262の第k語と一致しなければ(13054)、次の
語と比較するため、kに1を加え(13057)、13
053に戻る。kが日本語語数を越える時は(1305
3)、Wが日本語出現語テーブル262に未登録である
ことを意味するので、日本語出現語テーブル262の第
k語としてWを登録し(13058)、日本語語数をk
に更新する(13059)。このあと、第k語の出現頻
度2622を1だけ増加し(13055)、引数の語の
エントリ番号としてkをリターンする(13056)。
の処理である。次に、日本語共起データ抽出ステップの
中でコールされる日本語出現語テーブル検索/登録サブ
ルーチンの処理を図7のフローチャートに沿って説明す
る。まず、引数として与えられた語をWにセットし(1
3051)、日本語出現語テーブルの要素を指すインデ
クスkに初期値1をセットする(13052)。kが日
本語語数以下であれば(13053),Wを日本語出現
語テーブル262の第k語と比較する(13054)。
一致すれば,第k語の出現頻度2622を1だけ増加し
(13055),引数の語のエントリ番号としてkをリ
ターンする(13056)。Wが日本語出現語テーブル
262の第k語と一致しなければ(13054)、次の
語と比較するため、kに1を加え(13057)、13
053に戻る。kが日本語語数を越える時は(1305
3)、Wが日本語出現語テーブル262に未登録である
ことを意味するので、日本語出現語テーブル262の第
k語としてWを登録し(13058)、日本語語数をk
に更新する(13059)。このあと、第k語の出現頻
度2622を1だけ増加し(13055)、引数の語の
エントリ番号としてkをリターンする(13056)。
【0028】(4)英語テキスト解析ステップ14 英語テキスト25を読み出して文に分割し、さらに各文
を語に分割する。併せて、複数の語から構成される複合
語を抽出する。
を語に分割する。併せて、複数の語から構成される複合
語を抽出する。
【0029】テキストの文への分割は、テキストを構成
する文字列を前方から1文字ずつチェックし、ピリオド
または改行記号が出現したら、それを文の末尾とみなす
ことによって行う。なお、この方法では、「Mr.」のよ
うにピリオドで終わる語が出現すると誤って分割され
る。そのような語のリストを用意し、リスト中の語に関
して例外処理をすることにより、分割精度を向上させる
ことが可能である。
する文字列を前方から1文字ずつチェックし、ピリオド
または改行記号が出現したら、それを文の末尾とみなす
ことによって行う。なお、この方法では、「Mr.」のよ
うにピリオドで終わる語が出現すると誤って分割され
る。そのような語のリストを用意し、リスト中の語に関
して例外処理をすることにより、分割精度を向上させる
ことが可能である。
【0030】文の語への分割は、図1における英語辞書
22を参照して形態素解析することによって行う。形態
素解析技術としては、例えば特開昭58−40684号
の中に開示されている技術を用いる。形態素解析の結
果、文は語の列として表現されるが、本発明では、語の
列のデータから前置詞、冠詞、助動詞などの機能語を除
外し、名詞、動詞、形容詞、副詞などの内容語のみを残
す処理を追加する。また、語はテキスト中にさまざまな
変化形で出現するが、図1における対訳辞書23に登録
されている基本形に置き換えて出力する。
22を参照して形態素解析することによって行う。形態
素解析技術としては、例えば特開昭58−40684号
の中に開示されている技術を用いる。形態素解析の結
果、文は語の列として表現されるが、本発明では、語の
列のデータから前置詞、冠詞、助動詞などの機能語を除
外し、名詞、動詞、形容詞、副詞などの内容語のみを残
す処理を追加する。また、語はテキスト中にさまざまな
変化形で出現するが、図1における対訳辞書23に登録
されている基本形に置き換えて出力する。
【0031】複合語の抽出は、複合語を規定する品詞の
並びを抽出することによって行う。例えば、連続する名
詞の並びや、形容詞と後接する名詞の並びを複合名詞と
して抽出する。
並びを抽出することによって行う。例えば、連続する名
詞の並びや、形容詞と後接する名詞の並びを複合名詞と
して抽出する。
【0032】英語テキスト解析ステップ14によって得
られる英語テキスト解析結果261bの例を図3(b)
に示す。英語テキスト解析結果261bに含まれる
「\」、「\\」、「\\\」、および「(m,n)」
の意味は日本語テキスト解析結果261aにおいてと同
じである。
られる英語テキスト解析結果261bの例を図3(b)
に示す。英語テキスト解析結果261bに含まれる
「\」、「\\」、「\\\」、および「(m,n)」
の意味は日本語テキスト解析結果261aにおいてと同
じである。
【0033】(5)英語共起データ抽出ステップ15 英語テキスト解析結果261bをもとに、英語出現語テ
ーブル263および英語共起頻度行列265を作成す
る。
ーブル263および英語共起頻度行列265を作成す
る。
【0034】英語出現語テーブル263は、図4(b)
に示すように、英語テキストに出現した語2631とそ
の出現頻度2632を示すテーブルである。なお、図4
(b)の英語出現語テーブルの内容は、図3(b)の英
語テキスト解析結果の内容に対応している。英語共起頻
度行列265は、図5(b)に示すように、英語出現語
テーブル263中の語に対応する行および列からなる行
列であり、(i,j)要素は英語出現語テーブル263
中の第i語と第j語が同一文中にそろって出現した頻度
を表す。なお、図5(b)の英語共起頻度行列の内容
は、図3(b)の英語テキスト解析結果の内容に対応し
ている。
に示すように、英語テキストに出現した語2631とそ
の出現頻度2632を示すテーブルである。なお、図4
(b)の英語出現語テーブルの内容は、図3(b)の英
語テキスト解析結果の内容に対応している。英語共起頻
度行列265は、図5(b)に示すように、英語出現語
テーブル263中の語に対応する行および列からなる行
列であり、(i,j)要素は英語出現語テーブル263
中の第i語と第j語が同一文中にそろって出現した頻度
を表す。なお、図5(b)の英語共起頻度行列の内容
は、図3(b)の英語テキスト解析結果の内容に対応し
ている。
【0035】英語共起データ抽出ステップ15の処理
は、日本語共起データ抽出ステップ13と全く同様であ
るので、詳細な説明は省略する。
は、日本語共起データ抽出ステップ13と全く同様であ
るので、詳細な説明は省略する。
【0036】(6)相関度算出ステップ16 図4(a)、(b)に示した日本語出現語テーブル26
2、英語出現語テーブル263、図5(a)、(b)に
示した日本語共起頻度行列264、英語共起頻度行列2
65、および図1における対訳辞書23に基づいて、図
9に示す日英相関行列266を作成する。
2、英語出現語テーブル263、図5(a)、(b)に
示した日本語共起頻度行列264、英語共起頻度行列2
65、および図1における対訳辞書23に基づいて、図
9に示す日英相関行列266を作成する。
【0037】対訳辞書23は、図8に例示するように、
日本語の語231と英語の語232の組からなるレコー
ドを記憶しており、日本語の語231をキーとして検索
することができる。また、日英相関行列266は、図9
に示すように、図4(a)に示した日本語出現語テーブ
ル262中の語に対応する行、図4(b)に示した英語
出現語テーブル263中の語に対応する列からなる行列
であり、(i,j)要素は、共起語集合に基づく、日本
語出現語テーブル262中の第i語と英語出現語テーブ
ル263中の第j語の相関度を表す。図9の日英相関行
列の内容は、対訳辞書の内容が図8であるとの前提で、
図5(a)の日本語共起頻度行列と図5(b)の英語共
起頻度行列から計算された結果である。
日本語の語231と英語の語232の組からなるレコー
ドを記憶しており、日本語の語231をキーとして検索
することができる。また、日英相関行列266は、図9
に示すように、図4(a)に示した日本語出現語テーブ
ル262中の語に対応する行、図4(b)に示した英語
出現語テーブル263中の語に対応する列からなる行列
であり、(i,j)要素は、共起語集合に基づく、日本
語出現語テーブル262中の第i語と英語出現語テーブ
ル263中の第j語の相関度を表す。図9の日英相関行
列の内容は、対訳辞書の内容が図8であるとの前提で、
図5(a)の日本語共起頻度行列と図5(b)の英語共
起頻度行列から計算された結果である。
【0038】日本語の語JWと英語の語EWの相関度A
ssoc(JW,EW)は次式で定義する。
ssoc(JW,EW)は次式で定義する。
【0039】 Assoc(JW,EW)=C/(A+B−C) ここに、A=JWの共起語集合の要素数,B=EWの共
起語集合の要素数,C=JWの共起語集合とEWの共起
語集合の積集合の要素数。
起語集合の要素数,C=JWの共起語集合とEWの共起
語集合の積集合の要素数。
【0040】ただし、ここでの集合は通常の集合と異な
り、同一の語を複数個含むことを許し、集合の要素数は
各語の個数の総和である。また、積集合は、JWの共起
語集合中の語とEWの共起語集合中の語の組が対訳辞書
23に既に登録されているとき、これらの語を同一の要
素とみなし、積集合を構成する要素と考える。また、同
一とみなされる語の個数が二つの集合の間で異なると
き、積集合は少ないほうの個数を含むことにする。
り、同一の語を複数個含むことを許し、集合の要素数は
各語の個数の総和である。また、積集合は、JWの共起
語集合中の語とEWの共起語集合中の語の組が対訳辞書
23に既に登録されているとき、これらの語を同一の要
素とみなし、積集合を構成する要素と考える。また、同
一とみなされる語の個数が二つの集合の間で異なると
き、積集合は少ないほうの個数を含むことにする。
【0041】例えば、図5(a)の日本語共起頻度行列
264によれば「分割する」の共起語集合は次のとおり
である。ここで、「/」のあとの数字が、「/」の前の
語の個数を表している。
264によれば「分割する」の共起語集合は次のとおり
である。ここで、「/」のあとの数字が、「/」の前の
語の個数を表している。
【0042】{日本語/1、テキスト/1、日本語テキ
スト/1、読み込む/1、文/2、語/1} また、図5(b)の英語共起頻度行列265によれば
「text」の共起語集合は次のとおりである。
スト/1、読み込む/1、文/2、語/1} また、図5(b)の英語共起頻度行列265によれば
「text」の共起語集合は次のとおりである。
【0043】{Japanese/1,read/1,divide/1,
sentence/1} ここで、対訳辞書が図8に示す3つのレコードのみを含
むとすれば、「分割する」の共起語集合と「text」の共
起語集合の積集合は次のようになる。ここでは、日本語
の語と英語の語を=で結ぶことによって、同一とみなさ
れた要素であることを示している。
sentence/1} ここで、対訳辞書が図8に示す3つのレコードのみを含
むとすれば、「分割する」の共起語集合と「text」の共
起語集合の積集合は次のようになる。ここでは、日本語
の語と英語の語を=で結ぶことによって、同一とみなさ
れた要素であることを示している。
【0044】 {読み込む=read/1,文=sentence/1} 従って、上の定義式による「分割する」と「text」の相
関度は次のようになる。
関度は次のようになる。
【0045】Assoc(分割する,text)=2/(7
+4−2)=2/9 相関度算出ステップ16は、図10に示すように、日英
対訳行列作成サブステップ16a、日英仮想共起頻度行
列計算サブステップ16b、日英相関行列計算サブステ
ップ16cの3つのサブステップにわけられる。
+4−2)=2/9 相関度算出ステップ16は、図10に示すように、日英
対訳行列作成サブステップ16a、日英仮想共起頻度行
列計算サブステップ16b、日英相関行列計算サブステ
ップ16cの3つのサブステップにわけられる。
【0046】日英対訳行列作成サブステップ16aは、
図4(a)(b)に示した日本語出現語テーブル26
2、英語出現語テーブル263、および対訳辞書23か
ら日英対訳行列267を作成する。日英対訳行列267
は、図11に示すように、日本語出現語テーブル262
中の語に対応する行、英語出現語テーブル263中の語
に対応する列からなる行列である。(i,j)要素の値
は、日本語出現語テーブル262中の第i語と英語出現
語テーブル263中の第j語の組が対訳辞書23に含ま
れているとき1、対訳辞書23に含まれていないとき0
である。なお、図11の日英対訳行列の内容は図8の対
訳辞書の内容に対応している。
図4(a)(b)に示した日本語出現語テーブル26
2、英語出現語テーブル263、および対訳辞書23か
ら日英対訳行列267を作成する。日英対訳行列267
は、図11に示すように、日本語出現語テーブル262
中の語に対応する行、英語出現語テーブル263中の語
に対応する列からなる行列である。(i,j)要素の値
は、日本語出現語テーブル262中の第i語と英語出現
語テーブル263中の第j語の組が対訳辞書23に含ま
れているとき1、対訳辞書23に含まれていないとき0
である。なお、図11の日英対訳行列の内容は図8の対
訳辞書の内容に対応している。
【0047】日英対訳行列作成サブステップ16aの処
理を図12のフローチャートに沿って説明する。
理を図12のフローチャートに沿って説明する。
【0048】最初に、日英対訳行列267の全要素の値
を0にする(1601)。次に、日本語出現語テーブル
262の要素を指すインデクスiに初期値1をセットし
(1602)、iが日本語語数と一致するまで(161
3)、iに順次1を加えながら(1614)、以下の処
理を繰り返す。
を0にする(1601)。次に、日本語出現語テーブル
262の要素を指すインデクスiに初期値1をセットし
(1602)、iが日本語語数と一致するまで(161
3)、iに順次1を加えながら(1614)、以下の処
理を繰り返す。
【0049】日本語出現語テーブル262中の第i語
(以後、簡単に「日本語の第i語」という)をキーとし
て対訳辞書23を検索する(1603)。一つ以上の訳
語が得られた場合(1604)、訳語を指すインデクス
rに初期値1をセットし(1605)、rが得られた訳
語数と一致するまで(1611)、順次rに1を加えな
がら(1612)、次の処理を繰返し実行する。英語出
現語テーブル263の要素を指すインデクスjに初期値
1をセットし(1606)、jが英語出現語テーブルの
エントリ数(以後、簡単に「英語語数」という)と一致
するまで(1607)、jに1を加えながら(160
9)、第r訳語と英語出現語テーブル中の第j語(以
後、簡単に「英語の第j語」という)を比較する動作
(1608)を繰返す。一致するjに到達すると、日英
対訳行列267の(i,j)要素の値を1にする(16
10)。
(以後、簡単に「日本語の第i語」という)をキーとし
て対訳辞書23を検索する(1603)。一つ以上の訳
語が得られた場合(1604)、訳語を指すインデクス
rに初期値1をセットし(1605)、rが得られた訳
語数と一致するまで(1611)、順次rに1を加えな
がら(1612)、次の処理を繰返し実行する。英語出
現語テーブル263の要素を指すインデクスjに初期値
1をセットし(1606)、jが英語出現語テーブルの
エントリ数(以後、簡単に「英語語数」という)と一致
するまで(1607)、jに1を加えながら(160
9)、第r訳語と英語出現語テーブル中の第j語(以
後、簡単に「英語の第j語」という)を比較する動作
(1608)を繰返す。一致するjに到達すると、日英
対訳行列267の(i,j)要素の値を1にする(16
10)。
【0050】日英仮想共起頻度行列計算サブステップ1
6bは、日本語共起頻度行列264(図5(a))と日
英対訳行列267(図11)から日英仮想共起頻度行列
268(図13)を計算する。日英仮想共起頻度行列2
68は、図13に示すように、日本語出現語テーブル2
62中の語に対応する行、英語出現語テーブル263中
の語に対応する列からなる行列であり、(i,j)要素
は日本語出現語テーブル262中の第i語と英語出現語
テーブル263中の第j語との仮想的な共起頻度を表
す。「仮想的な」共起とは、日本語テキストにおいて二
つの語JW1とJW2が共起する場合、JW2の英訳語
がJW1と共起するとみなすことを意味する。なお、図
13の日英仮想共起頻度行列の内容は、図5(a)の日
本語共起頻度行列と図11の日英対訳行列から計算され
た内容である。
6bは、日本語共起頻度行列264(図5(a))と日
英対訳行列267(図11)から日英仮想共起頻度行列
268(図13)を計算する。日英仮想共起頻度行列2
68は、図13に示すように、日本語出現語テーブル2
62中の語に対応する行、英語出現語テーブル263中
の語に対応する列からなる行列であり、(i,j)要素
は日本語出現語テーブル262中の第i語と英語出現語
テーブル263中の第j語との仮想的な共起頻度を表
す。「仮想的な」共起とは、日本語テキストにおいて二
つの語JW1とJW2が共起する場合、JW2の英訳語
がJW1と共起するとみなすことを意味する。なお、図
13の日英仮想共起頻度行列の内容は、図5(a)の日
本語共起頻度行列と図11の日英対訳行列から計算され
た内容である。
【0051】日英仮想共起頻度行列計算サブステップ1
6bの処理を図14のフローチャートに沿って説明す
る。
6bの処理を図14のフローチャートに沿って説明す
る。
【0052】日本語出現語テーブル262の要素を指す
インデクスiに初期値1をセットし(1621)、iが
日本語語数と一致するまで(1630)順次iに1を加
えながら(1631)以下の処理を行い、さらにその過
程において英語出現語テーブル263の要素を指すイン
デクスjに初期値1をセットし(1622)、jが英語
語数と一致するまで(1628)jに1を加える操作を
実行しつつ(1629)以下の処理を繰り返す。
インデクスiに初期値1をセットし(1621)、iが
日本語語数と一致するまで(1630)順次iに1を加
えながら(1631)以下の処理を行い、さらにその過
程において英語出現語テーブル263の要素を指すイン
デクスjに初期値1をセットし(1622)、jが英語
語数と一致するまで(1628)jに1を加える操作を
実行しつつ(1629)以下の処理を繰り返す。
【0053】日英仮想共起頻度行列268の要素の値を
計算するための変数Xに初期値0をセットし、日本語出
現語テーブル262の要素を指す第2のインデクスkに
初期値1をセットする(1623)。日本語共起頻度行
列264の(i,k)要素と日英対訳行列267の
(k,j)要素の積をXに加算する(1624)。kが
日本語語数より小さければ(1625)、kに1を加え
(1626)、1624に戻る。kが日本語語数に等し
いならば、その時点のXの値を日英仮想共起頻度行列2
68の(i,j)要素の値として出力する(162
7)。
計算するための変数Xに初期値0をセットし、日本語出
現語テーブル262の要素を指す第2のインデクスkに
初期値1をセットする(1623)。日本語共起頻度行
列264の(i,k)要素と日英対訳行列267の
(k,j)要素の積をXに加算する(1624)。kが
日本語語数より小さければ(1625)、kに1を加え
(1626)、1624に戻る。kが日本語語数に等し
いならば、その時点のXの値を日英仮想共起頻度行列2
68の(i,j)要素の値として出力する(162
7)。
【0054】日英相関行列計算サブステップ16c(図
10)は、日本語共起頻度行列264,日英仮想共起頻
度行列268と英語共起頻度行列265から日英相関行
列266を計算する。このステップの処理を図15のフ
ローチャートに沿って説明する。
10)は、日本語共起頻度行列264,日英仮想共起頻
度行列268と英語共起頻度行列265から日英相関行
列266を計算する。このステップの処理を図15のフ
ローチャートに沿って説明する。
【0055】日本語出現語テーブル262の要素を指す
インデクスiに初期値1をセットし(1641)、iが
日本語語数と一致するまで(1655)、順次iに1を
加えながら(1656)以下の処理を繰り返す。
インデクスiに初期値1をセットし(1641)、iが
日本語語数と一致するまで(1655)、順次iに1を
加えながら(1656)以下の処理を繰り返す。
【0056】日本語の第i語の共起語集合の要素数を累
計する変数Aに初期値0をセットし、日本語出現語テー
ブル262の要素を指す第2のインデクスkに初期値1
をセットする(1642)。日本語共起頻度行列264
の(i,k)要素をAに加える(1643)。kが日本
語語数より小さければ(1644)、kに1を加え(1
645)、1643に戻る。kが日本語語数に等しけれ
ば、その時点のAの値が、日本語の第i語の共起語集合
の要素数を表している。
計する変数Aに初期値0をセットし、日本語出現語テー
ブル262の要素を指す第2のインデクスkに初期値1
をセットする(1642)。日本語共起頻度行列264
の(i,k)要素をAに加える(1643)。kが日本
語語数より小さければ(1644)、kに1を加え(1
645)、1643に戻る。kが日本語語数に等しけれ
ば、その時点のAの値が、日本語の第i語の共起語集合
の要素数を表している。
【0057】英語出現語テーブル263の要素を指すイ
ンデクスjに初期値1をセットし(1646)、jが英
語語数と一致するまで(1653)順次jに1を加えな
がら(1654)以下の処理を繰り返す。
ンデクスjに初期値1をセットし(1646)、jが英
語語数と一致するまで(1653)順次jに1を加えな
がら(1654)以下の処理を繰り返す。
【0058】英語の第j語の共起語集合の要素数を累計
する変数B、および日本語の第i語の共起語集合と英語
の第j語の共起語集合の積集合の要素数を累計する変数
Cに初期値0をセットし、英語出現語テーブル263の
要素を指す第2のインデクスkに初期値1をセットする
(1647)。英語共起頻度行列265の(j,k)要
素をBに加える(1648)。また、日英仮想共起頻度
行列268の(i,k)要素と英語共起頻度行列265
の(j,k)要素の最小値をCに加える(1649)。
kが英語語数より小さければ(1650)、kに1を加
え(1651)、1648に戻る。kが英語語数に等し
ければ、その時点のBの値が、英語の第j語の共起語集
合の要素数を表し、その時点のCの値が、日本語の第i
語の共起語集合と英語の第j語の共起語集合の積集合の
要素数を表している。以上のようにして得られたA、
B、Cの値からC/(A+B−C)を計算し、日英相関
行列266の(i,j)要素として出力する(165
2)。
する変数B、および日本語の第i語の共起語集合と英語
の第j語の共起語集合の積集合の要素数を累計する変数
Cに初期値0をセットし、英語出現語テーブル263の
要素を指す第2のインデクスkに初期値1をセットする
(1647)。英語共起頻度行列265の(j,k)要
素をBに加える(1648)。また、日英仮想共起頻度
行列268の(i,k)要素と英語共起頻度行列265
の(j,k)要素の最小値をCに加える(1649)。
kが英語語数より小さければ(1650)、kに1を加
え(1651)、1648に戻る。kが英語語数に等し
ければ、その時点のBの値が、英語の第j語の共起語集
合の要素数を表し、その時点のCの値が、日本語の第i
語の共起語集合と英語の第j語の共起語集合の積集合の
要素数を表している。以上のようにして得られたA、
B、Cの値からC/(A+B−C)を計算し、日英相関
行列266の(i,j)要素として出力する(165
2)。
【0059】(7)高相関語選定ステップ17 日英相関行列266および日英対訳行列267に基づい
て、対訳データ269を抽出する。抽出される対訳デー
タ269は、図16に例示するように、日本語の語26
91、英語の語2692と相関度2693の組である。
図16の対訳データは、図9の日英相関行列と図11の
日英対訳行列から得られた対訳データである。
て、対訳データ269を抽出する。抽出される対訳デー
タ269は、図16に例示するように、日本語の語26
91、英語の語2692と相関度2693の組である。
図16の対訳データは、図9の日英相関行列と図11の
日英対訳行列から得られた対訳データである。
【0060】高相関語選定ステップ17の処理を図1
7、図18のフローチャートに沿って説明する。なお、
図17と図18はL1、L2、L3でそれぞれ接続され
ている。
7、図18のフローチャートに沿って説明する。なお、
図17と図18はL1、L2、L3でそれぞれ接続され
ている。
【0061】日本語出現語テーブル262の要素を指す
インデクスiに初期値1をセットし(1701)、iが
日本語語数と一致するまで(1726)順次iに1を加
えながら(1727)、以下の処理を繰り返す。
インデクスiに初期値1をセットし(1701)、iが
日本語語数と一致するまで(1726)順次iに1を加
えながら(1727)、以下の処理を繰り返す。
【0062】英語出現語テーブル263の要素を指すイ
ンデクスjに初期値1をセットし、日本語出現語テーブ
ルの第i語(以後、簡単に「日本語の第i語」という)
に係わる相関度の最大値を記憶する変数Aの初期値を−
1にする(1702)。日本語の第i語と英語出現語テ
ーブルの第j語(以後、簡単に「英語の第j語」とい
う)との相関度をAと比較し(1703)、Aより大で
あればAをその値に更新し、その時点のjの値をjmに
セーブし、日本語の第i語との相関度がAである英語の
語数を記憶する変数Nの値を1にする(1704)。日
本語の第i語と英語の第j語との相関度がAと等しけれ
ば、Nを更新する(1705)。jが英語語数より小で
あれば(1706)、英語の次の語について処理するた
め、jに1を加え(1707)、1703に戻る。
ンデクスjに初期値1をセットし、日本語出現語テーブ
ルの第i語(以後、簡単に「日本語の第i語」という)
に係わる相関度の最大値を記憶する変数Aの初期値を−
1にする(1702)。日本語の第i語と英語出現語テ
ーブルの第j語(以後、簡単に「英語の第j語」とい
う)との相関度をAと比較し(1703)、Aより大で
あればAをその値に更新し、その時点のjの値をjmに
セーブし、日本語の第i語との相関度がAである英語の
語数を記憶する変数Nの値を1にする(1704)。日
本語の第i語と英語の第j語との相関度がAと等しけれ
ば、Nを更新する(1705)。jが英語語数より小で
あれば(1706)、英語の次の語について処理するた
め、jに1を加え(1707)、1703に戻る。
【0063】英語出現語テーブルの全ての語について上
記の処理が終了したら、日本語の第i語との相関度が最
大値Aである英語の語数Nが1かどうかチェックする
(1708)。Nが1でなければ、日本語の第i語に係
わる対訳データは抽出できなかったと判断し、1726
に飛ぶ。Nが1であれば、日本語の第i語と英語の第j
m語の組が対訳の候補になるので、英語の第jm語に係
わる相関度とAとの大小をチェックする。すなわち、日
本語出現語テーブル262の要素を指す第2のインデク
スkに初期値1をセットし(1709)、kが日本語語
数と一致するまで(1711)、kに1を加えながら
(1712)、日本語の第k語と英語の第jm語の相関
度をAと比較する(1710)。英語の第jm語との相
関度がAより大きな日本語の語があれば、日本語の第i
語と英語の第jm語の組は対訳でないと判断し、172
6に飛ぶ。英語の第jm語との相関度がAより大きな日
本語の語がなければ、日本語の第i語と英語の第jm語
の組は、どちらの語からみても最大の相関度であるの
で、対訳の候補として残す。
記の処理が終了したら、日本語の第i語との相関度が最
大値Aである英語の語数Nが1かどうかチェックする
(1708)。Nが1でなければ、日本語の第i語に係
わる対訳データは抽出できなかったと判断し、1726
に飛ぶ。Nが1であれば、日本語の第i語と英語の第j
m語の組が対訳の候補になるので、英語の第jm語に係
わる相関度とAとの大小をチェックする。すなわち、日
本語出現語テーブル262の要素を指す第2のインデク
スkに初期値1をセットし(1709)、kが日本語語
数と一致するまで(1711)、kに1を加えながら
(1712)、日本語の第k語と英語の第jm語の相関
度をAと比較する(1710)。英語の第jm語との相
関度がAより大きな日本語の語があれば、日本語の第i
語と英語の第jm語の組は対訳でないと判断し、172
6に飛ぶ。英語の第jm語との相関度がAより大きな日
本語の語がなければ、日本語の第i語と英語の第jm語
の組は、どちらの語からみても最大の相関度であるの
で、対訳の候補として残す。
【0064】次に、日本語の第i語と英語の第jm語の
相関度Aを、日本語の第i語に係わる直接相関度、およ
び英語の第jm語に係わる直接相関度と比較する。ここ
で、直接相関度とは、共起語集合に基づく相関度と異な
り、対訳辞書23に対訳として登録されているかどうか
ということと、語自身の対訳テキスト中での出現頻度に
基づく相関度である。
相関度Aを、日本語の第i語に係わる直接相関度、およ
び英語の第jm語に係わる直接相関度と比較する。ここ
で、直接相関度とは、共起語集合に基づく相関度と異な
り、対訳辞書23に対訳として登録されているかどうか
ということと、語自身の対訳テキスト中での出現頻度に
基づく相関度である。
【0065】英語出現語テーブル263の要素を指すイ
ンデクスjに初期値1をセットし(1713)、英語語
数と一致するまで(1717)順次jに1を加えながら
(1718)、日本語の第i語と英語の第j語の直接相
関度BをAと比較する。すなわち、日英対訳行列267
の(i,j)要素が1であれば(1714)、日本語の
第i語の出現頻度2622と英語の第j語の出現頻度2
632の最小値を最大値で除した値をBとし(171
5)、AとBとの大小を比較する(1716)。日本語
の第i語との直接相関度BがA以上である英語の語があ
れば、日本語の第i語と英語の第jm語の組は対訳でな
いと判断し、1726に飛ぶ。
ンデクスjに初期値1をセットし(1713)、英語語
数と一致するまで(1717)順次jに1を加えながら
(1718)、日本語の第i語と英語の第j語の直接相
関度BをAと比較する。すなわち、日英対訳行列267
の(i,j)要素が1であれば(1714)、日本語の
第i語の出現頻度2622と英語の第j語の出現頻度2
632の最小値を最大値で除した値をBとし(171
5)、AとBとの大小を比較する(1716)。日本語
の第i語との直接相関度BがA以上である英語の語があ
れば、日本語の第i語と英語の第jm語の組は対訳でな
いと判断し、1726に飛ぶ。
【0066】同様に、日本語出現語テーブル262の要
素を指す第2のインデクスkに初期値1をセットし(1
719)、kが日本語語数と一致するまで(172
3)、kに1を加えながら(1724)、日本語の第k
語と英語の第jm語の直接相関度BをAと比較する。す
なわち、日英対訳行列267の(k,jm)要素が1で
あれば(1720)、日本語の第k語の出現頻度262
2と英語の第jm語の出現頻度2632の最小値を最大
値で除した値をBとし(1721)、AとBとの大小を
比較する(1722)。英語の第jm語との直接相関度
BがA以上である日本語の語があれば、日本語の第i語
と英語の第jm語の組は対訳でないと判断し、1726
に飛ぶ。
素を指す第2のインデクスkに初期値1をセットし(1
719)、kが日本語語数と一致するまで(172
3)、kに1を加えながら(1724)、日本語の第k
語と英語の第jm語の直接相関度BをAと比較する。す
なわち、日英対訳行列267の(k,jm)要素が1で
あれば(1720)、日本語の第k語の出現頻度262
2と英語の第jm語の出現頻度2632の最小値を最大
値で除した値をBとし(1721)、AとBとの大小を
比較する(1722)。英語の第jm語との直接相関度
BがA以上である日本語の語があれば、日本語の第i語
と英語の第jm語の組は対訳でないと判断し、1726
に飛ぶ。
【0067】日本語の第i語あるいは英語の第jm語に
関し、Aより大きな直接相関度をもつ語がない場合に
は、日本語の第i語、英語の第jm語、および相関度A
の組を対訳データ269として出力する(1725)。
関し、Aより大きな直接相関度をもつ語がない場合に
は、日本語の第i語、英語の第jm語、および相関度A
の組を対訳データ269として出力する(1725)。
【0068】(8)対訳データ表示・登録ステップ18 高相関語選定ステップ17で選定された対訳データ26
9を表示装置4に表示する。ユーザは、表示された対訳
データの各々について、対訳辞書23に登録するか否か
を入力装置3から指示することができる。対訳データの
登録が指示されると、当該対訳データの日本語の語26
91と英語の語2692を組にして対訳辞書23に登録
する。
9を表示装置4に表示する。ユーザは、表示された対訳
データの各々について、対訳辞書23に登録するか否か
を入力装置3から指示することができる。対訳データの
登録が指示されると、当該対訳データの日本語の語26
91と英語の語2692を組にして対訳辞書23に登録
する。
【0069】以上の(1)から(8)のステップを実行
することにより、対訳テキストから語の対訳データを抽
出し、対訳辞書を充実させていくことができる。例え
ば、図8に示す3つの対訳データから成る対訳辞書を利
用して、図3(a)と図3(b)に示す対訳テキストを
処理することにより、図16に示す2つの対訳データが
対訳辞書に追加される。
することにより、対訳テキストから語の対訳データを抽
出し、対訳辞書を充実させていくことができる。例え
ば、図8に示す3つの対訳データから成る対訳辞書を利
用して、図3(a)と図3(b)に示す対訳テキストを
処理することにより、図16に示す2つの対訳データが
対訳辞書に追加される。
【0070】以上、説明したのは一実施例であり、各ス
テップに種々のバリエーションを考えることができる。
テップに種々のバリエーションを考えることができる。
【0071】「共起する語」について、上記実施例では
「同一文中に出現する語」としたが、大きさnのウイン
ドゥに含まれる語を採用してもよい。例えば、大きさ7
のウインドゥの場合、ある語と共起する語とは、その語
の前後それぞれ3語の範囲に出現する語である。また、
構文的に関係のある語(修飾/被修飾の関係にある語)
を共起する語とする方法も考えられる。
「同一文中に出現する語」としたが、大きさnのウイン
ドゥに含まれる語を採用してもよい。例えば、大きさ7
のウインドゥの場合、ある語と共起する語とは、その語
の前後それぞれ3語の範囲に出現する語である。また、
構文的に関係のある語(修飾/被修飾の関係にある語)
を共起する語とする方法も考えられる。
【0072】共起データ抽出ステップにおいて、上記実
施例では、複合語とその構成語の関係は共起関係ではな
いので、複合語とその構成語の組は共起頻度としてはカ
ウントしていない。しかし、複合語と構成語は、共起と
は違った意味で関連がある。すなわち、構成要素の間の
対訳関係は、複合語の対訳関係抽出の手掛かりになる。
従って、複合語の共起語の中にその構成語を含めて相関
度を計算する方法も考えられる。この場合、相関度は、
共起語の対訳知識だけでなく構成語の対訳知識を反映し
たものになる。
施例では、複合語とその構成語の関係は共起関係ではな
いので、複合語とその構成語の組は共起頻度としてはカ
ウントしていない。しかし、複合語と構成語は、共起と
は違った意味で関連がある。すなわち、構成要素の間の
対訳関係は、複合語の対訳関係抽出の手掛かりになる。
従って、複合語の共起語の中にその構成語を含めて相関
度を計算する方法も考えられる。この場合、相関度は、
共起語の対訳知識だけでなく構成語の対訳知識を反映し
たものになる。
【0073】共起語集合の相関度についても、上記実施
例以外に種々の定義が可能である。例えば、共起特性を
ベクトルで表現し、ベクトル間の角度が小さいほど相関
が高いとする方法が考えられる。ここで、日本語の語の
共起特性は、各成分が日本語の語に対応するベクトルで
表現され、一方、英語の語の共起特性は、各成分が英語
の語に対応するベクトルで表現される。従って、語の対
訳関係に基づいて成分を対応づけた上でベクトル間の角
度を計算することにする。
例以外に種々の定義が可能である。例えば、共起特性を
ベクトルで表現し、ベクトル間の角度が小さいほど相関
が高いとする方法が考えられる。ここで、日本語の語の
共起特性は、各成分が日本語の語に対応するベクトルで
表現され、一方、英語の語の共起特性は、各成分が英語
の語に対応するベクトルで表現される。従って、語の対
訳関係に基づいて成分を対応づけた上でベクトル間の角
度を計算することにする。
【0074】高相関語選択ステップにおいて、上記実施
例では、相関度が最大の語の組であっても、より大きな
直接相関度をもつ語が存在する場合は除外している。こ
の処理において、直接相関度に適当な重みをつけること
が考えられる。また、直接相関度との比較処理を完全に
省略することも考えられる。さらに、簡単に、あらかじ
め定めたしきい値以上の相関度をもつ全ての語の組を選
定する方法も考えられる。
例では、相関度が最大の語の組であっても、より大きな
直接相関度をもつ語が存在する場合は除外している。こ
の処理において、直接相関度に適当な重みをつけること
が考えられる。また、直接相関度との比較処理を完全に
省略することも考えられる。さらに、簡単に、あらかじ
め定めたしきい値以上の相関度をもつ全ての語の組を選
定する方法も考えられる。
【0075】
【発明の効果】本発明によれば,対訳辞書に既登録の対
訳データを利用して、対訳辞書に未登録の対訳データを
対訳テキストから自動的に抽出し、対訳辞書を充実させ
ていくことができる。従来技術と異なり、文の対応がつ
けられていない対訳テキストから対訳データを抽出でき
ることが本発明の顕著な効果である。
訳データを利用して、対訳辞書に未登録の対訳データを
対訳テキストから自動的に抽出し、対訳辞書を充実させ
ていくことができる。従来技術と異なり、文の対応がつ
けられていない対訳テキストから対訳データを抽出でき
ることが本発明の顕著な効果である。
【図1】日英対訳辞書作成システムのハードウエア構成
図。
図。
【図2】対訳データ抽出処理のフローチャート。
【図3】(a)は日本語テキスト解析結果の例を示す
図、(b)は英語テキスト解析結果の例を示す図。
図、(b)は英語テキスト解析結果の例を示す図。
【図4】(a)は日本語出現語テーブルの例を示す図、
(b)は英語出現語テーブルの例を示す図。
(b)は英語出現語テーブルの例を示す図。
【図5】(a)は日本語共起頻度行列の例を示す図、
(b)は英語共起頻度行列の例を示す図。
(b)は英語共起頻度行列の例を示す図。
【図6】日本語共起データ抽出処理のフローチャート。
【図7】日本語出現語テーブル検索/登録サブルーチン
のフローチャート。
のフローチャート。
【図8】対訳辞書の例を示す図。
【図9】日英相関行列の例を示す図。
【図10】相関度算出処理のフローチャート。
【図11】日英対訳行列の例を示す図。
【図12】日英対訳行列作成処理のフローチャート。
【図13】日英仮想共起頻度行列の例を示す図。
【図14】日英仮想共起頻度行列計算処理のフローチャ
ート。
ート。
【図15】日英相関行列計算処理のフローチャート。
【図16】抽出された対訳データの例を示す図。
【図17】高相関語選定処理のフローチャート(その
1)。
1)。
【図18】高相関語選定処理のフローチャート(その
2)。
2)。
1 処理装置 2 記憶装置 3 入力装置 4 表示装置 11 対訳テキスト読み込みステップ 12 日本語テ
キスト解析ステップ 13 日本語共起データ抽出ステップ 14 英語テキ
スト解析ステップ 15 英語共起データ抽出ステップ 16 相関度算
出ステップ 17 高相関語選定ステップ 18 対訳デー
タ表示・登録ステップ 21 日本語辞書 22 英語辞書 23 対訳辞書 24 日本語テ
キスト 25 英語テキスト 26 作業エリ
ア 261a 日本語テキスト解析結果 261b 英語テ
キスト解析結果 262 日本語出現語テーブル 263 英語出
現語テーブル 264 日本語共起頻度行列 265 英語共
起頻度行列 266 日英相関行列 267 日英対
訳行列 268 日英仮想共起頻度行列 269 抽出さ
れた対訳データ
キスト解析ステップ 13 日本語共起データ抽出ステップ 14 英語テキ
スト解析ステップ 15 英語共起データ抽出ステップ 16 相関度算
出ステップ 17 高相関語選定ステップ 18 対訳デー
タ表示・登録ステップ 21 日本語辞書 22 英語辞書 23 対訳辞書 24 日本語テ
キスト 25 英語テキスト 26 作業エリ
ア 261a 日本語テキスト解析結果 261b 英語テ
キスト解析結果 262 日本語出現語テーブル 263 英語出
現語テーブル 264 日本語共起頻度行列 265 英語共
起頻度行列 266 日英相関行列 267 日英対
訳行列 268 日英仮想共起頻度行列 269 抽出さ
れた対訳データ
Claims (6)
- 【請求項1】第1言語のテキストと第2言語のテキスト
を入力装置から読み込む対訳テキスト読み込みステッ
プ、第1言語のテキスト中に出現する語を抽出する第1
言語テキスト解析ステップ、第1言語のテキストに出現
する語の各々についてテキスト中で共起する語の集合即
ち第1の共起語集合を抽出する第1言語共起データ抽出
ステップ、第2言語のテキスト中で出現する語を抽出す
る第2言語テキスト解析ステップ、第2言語テキストに
出現する語の各々についてテキスト中で共起する語の集
合即ち第2の共起語集合を抽出する第2言語共起データ
抽出ステップ、第1言語の語の上記共起語集合と第2言
語の語の上記共起語集合との相関度を計算する相関度算
出ステップ、共起語集合の相関度に基づいて第1言語の
語と第2言語の語の組を選定する高相関語選定ステッ
プ、前記選定された語の組を対訳辞書に登録する対訳デ
ータ登録ステップから構成されることを特徴とする対訳
辞書作成方法。 - 【請求項2】請求項1に記載の対訳辞書作成方法であっ
て、相関度算出ステップは、対訳辞書に既登録の語の組
を同一の要素とみなすことによって、第1言語の語の共
起語集合と第2言語の語の共起語集合の相関度を計算す
ることを特徴とする対訳辞書作成方法。 - 【請求項3】請求項1に記載の対訳辞書作成方法であっ
て、高相関語選定ステップは、共起語集合の相関度が互
いに最大の語であることを条件として、第1言語の語と
第2言語の語の組を選定することを特徴とする対訳辞書
作成方法。 - 【請求項4】請求項1に記載の対訳辞書作成方法であっ
て、高相関語選定ステップは、対訳辞書の対訳データと
語の出現頻度に基づく第2の相関度を算出し、選定する
語に係わる第2の相関度より共起語集合の相関度が大き
いことを選択の条件にすることを特徴とする対訳辞書作
成方法。 - 【請求項5】請求項1に記載の対訳辞書作成方法であっ
て、高相関語選定ステップは、共起語集合の相関度があ
らかじめ定めたしきい値以上であることを条件として、
第1言語の語と第2言語の語の組を選定することを特徴
とする対訳辞書作成方法。 - 【請求項6】請求項1に記載の対訳辞書作成方法であっ
て、対訳データ登録ステップは、対訳辞書に登録する前
に、語の組を表示装置に表示し、人間が登録を指示した
語の組のみを対訳辞書に登録することを特徴とする対訳
辞書作成方法。
Priority Applications (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7287135A JPH09128396A (ja) | 1995-11-06 | 1995-11-06 | 対訳辞書作成方法 |
US08/743,529 US5907821A (en) | 1995-11-06 | 1996-11-04 | Method of computer-based automatic extraction of translation pairs of words from a bilingual text |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP7287135A JPH09128396A (ja) | 1995-11-06 | 1995-11-06 | 対訳辞書作成方法 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPH09128396A true JPH09128396A (ja) | 1997-05-16 |
Family
ID=17713528
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP7287135A Pending JPH09128396A (ja) | 1995-11-06 | 1995-11-06 | 対訳辞書作成方法 |
Country Status (2)
Country | Link |
---|---|
US (1) | US5907821A (ja) |
JP (1) | JPH09128396A (ja) |
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475005B2 (en) | 2003-03-17 | 2009-01-06 | International Business Machines Corporation | Translation system, dictionary updating server, translation method, and program and recording medium for use therein |
JP2010055298A (ja) * | 2008-08-27 | 2010-03-11 | Internatl Business Mach Corp <Ibm> | 翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
JP2013065068A (ja) * | 2011-09-15 | 2013-04-11 | Fujitsu Ltd | 辞書作成プログラム,辞書作成装置および辞書作成方法 |
Families Citing this family (116)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US6161083A (en) * | 1996-05-02 | 2000-12-12 | Sony Corporation | Example-based translation method and system which calculates word similarity degrees, a priori probability, and transformation probability to determine the best example for translation |
US6085162A (en) * | 1996-10-18 | 2000-07-04 | Gedanken Corporation | Translation system and method in which words are translated by a specialized dictionary and then a general dictionary |
TW421750B (en) * | 1997-03-14 | 2001-02-11 | Omron Tateisi Electronics Co | Language identification device, language identification method and storage media recorded with program of language identification |
US6233545B1 (en) * | 1997-05-01 | 2001-05-15 | William E. Datig | Universal machine translator of arbitrary languages utilizing epistemic moments |
US6233546B1 (en) * | 1998-11-19 | 2001-05-15 | William E. Datig | Method and system for machine translation using epistemic moments and stored dictionary entries |
DE69818796T2 (de) * | 1997-06-26 | 2004-08-05 | Koninklijke Philips Electronics N.V. | Maschinenorganisiertes verfahren und vorrichtung zum übersetzen einer wortorganisierten textquelle in einen wortorganisierten zieltext |
DE69837979T2 (de) * | 1997-06-27 | 2008-03-06 | International Business Machines Corp. | System zum Extrahieren einer mehrsprachigen Terminologie |
JP3272288B2 (ja) * | 1997-12-24 | 2002-04-08 | 日本アイ・ビー・エム株式会社 | 機械翻訳装置および機械翻訳方法 |
US6345244B1 (en) * | 1998-05-27 | 2002-02-05 | Lionbridge Technologies, Inc. | System, method, and product for dynamically aligning translations in a translation-memory system |
US6345243B1 (en) * | 1998-05-27 | 2002-02-05 | Lionbridge Technologies, Inc. | System, method, and product for dynamically propagating translations in a translation-memory system |
KR100322575B1 (ko) | 1998-07-15 | 2002-03-08 | 윤종용 | 범용문자오타변환기능을갖는컴퓨터 |
US6393399B1 (en) * | 1998-09-30 | 2002-05-21 | Scansoft, Inc. | Compound word recognition |
JP3879321B2 (ja) * | 1998-12-17 | 2007-02-14 | 富士ゼロックス株式会社 | 文書要約装置、文書要約方法及び文書要約プログラムを記録した記録媒体 |
US6278968B1 (en) | 1999-01-29 | 2001-08-21 | Sony Corporation | Method and apparatus for adaptive speech recognition hypothesis construction and selection in a spoken language translation system |
US6282507B1 (en) | 1999-01-29 | 2001-08-28 | Sony Corporation | Method and apparatus for interactive source language expression recognition and alternative hypothesis presentation and selection |
US6266642B1 (en) | 1999-01-29 | 2001-07-24 | Sony Corporation | Method and portable apparatus for performing spoken language translation |
US6243669B1 (en) | 1999-01-29 | 2001-06-05 | Sony Corporation | Method and apparatus for providing syntactic analysis and data structure for translation knowledge in example-based language translation |
US6442524B1 (en) | 1999-01-29 | 2002-08-27 | Sony Corporation | Analyzing inflectional morphology in a spoken language translation system |
US6356865B1 (en) * | 1999-01-29 | 2002-03-12 | Sony Corporation | Method and apparatus for performing spoken language translation |
KR100828884B1 (ko) * | 1999-03-05 | 2008-05-09 | 캐논 가부시끼가이샤 | 데이터베이스 주석 및 검색 |
US6374224B1 (en) | 1999-03-10 | 2002-04-16 | Sony Corporation | Method and apparatus for style control in natural language generation |
US6901361B1 (en) * | 1999-07-09 | 2005-05-31 | Digital Esperanto, Inc. | Computerized translator of languages utilizing indexed databases of corresponding information elements |
US6529865B1 (en) | 1999-10-18 | 2003-03-04 | Sony Corporation | System and method to compile instructions to manipulate linguistic structures into separate functions |
US6928448B1 (en) | 1999-10-18 | 2005-08-09 | Sony Corporation | System and method to match linguistic structures using thesaurus information |
US6721697B1 (en) * | 1999-10-18 | 2004-04-13 | Sony Corporation | Method and system for reducing lexical ambiguity |
US6535886B1 (en) | 1999-10-18 | 2003-03-18 | Sony Corporation | Method to compress linguistic structures |
US6330530B1 (en) * | 1999-10-18 | 2001-12-11 | Sony Corporation | Method and system for transforming a source language linguistic structure into a target language linguistic structure based on example linguistic feature structures |
US6778949B2 (en) | 1999-10-18 | 2004-08-17 | Sony Corporation | Method and system to analyze, transfer and generate language expressions using compiled instructions to manipulate linguistic structures |
US6484136B1 (en) * | 1999-10-21 | 2002-11-19 | International Business Machines Corporation | Language model adaptation via network of similar users |
US7310600B1 (en) | 1999-10-28 | 2007-12-18 | Canon Kabushiki Kaisha | Language recognition using a similarity measure |
US6882970B1 (en) * | 1999-10-28 | 2005-04-19 | Canon Kabushiki Kaisha | Language recognition using sequence frequency |
US7212968B1 (en) | 1999-10-28 | 2007-05-01 | Canon Kabushiki Kaisha | Pattern matching method and apparatus |
US6845369B1 (en) * | 2000-01-14 | 2005-01-18 | Relevant Software Inc. | System, apparatus and method for using and managing digital information |
GB0011798D0 (en) * | 2000-05-16 | 2000-07-05 | Canon Kk | Database annotation and retrieval |
GB0015233D0 (en) | 2000-06-21 | 2000-08-16 | Canon Kk | Indexing method and apparatus |
GB0023930D0 (en) | 2000-09-29 | 2000-11-15 | Canon Kk | Database annotation and retrieval |
GB0027178D0 (en) | 2000-11-07 | 2000-12-27 | Canon Kk | Speech processing system |
GB0028277D0 (en) * | 2000-11-20 | 2001-01-03 | Canon Kk | Speech processing system |
US20020072914A1 (en) * | 2000-12-08 | 2002-06-13 | Hiyan Alshawi | Method and apparatus for creation and user-customization of speech-enabled services |
US6885985B2 (en) * | 2000-12-18 | 2005-04-26 | Xerox Corporation | Terminology translation for unaligned comparable corpora using category based translation probabilities |
US8744835B2 (en) * | 2001-03-16 | 2014-06-03 | Meaningful Machines Llc | Content conversion method and apparatus |
US20030083860A1 (en) * | 2001-03-16 | 2003-05-01 | Eli Abir | Content conversion method and apparatus |
US8874431B2 (en) * | 2001-03-16 | 2014-10-28 | Meaningful Machines Llc | Knowledge system method and apparatus |
US7860706B2 (en) * | 2001-03-16 | 2010-12-28 | Eli Abir | Knowledge system method and appparatus |
US7191115B2 (en) * | 2001-06-20 | 2007-03-13 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among words |
EA006182B1 (ru) * | 2001-06-21 | 2005-10-27 | Эли Абир | Создание базы данных связей между понятиями |
US8214196B2 (en) | 2001-07-03 | 2012-07-03 | University Of Southern California | Syntax-based statistical translation model |
CN1618064B (zh) * | 2002-01-29 | 2010-05-05 | 国际商业机器公司 | 翻译方法与计算机设备 |
US20030154069A1 (en) * | 2002-02-14 | 2003-08-14 | International Business Machines Corporation | Computerized system and method for converting selected text between languages |
US7620538B2 (en) * | 2002-03-26 | 2009-11-17 | University Of Southern California | Constructing a translation lexicon from comparable, non-parallel corpora |
ATE330287T1 (de) * | 2002-04-12 | 2006-07-15 | Targit As | Verfahren zur verarbeitung von mehrsprachigen abfragen |
US7353165B2 (en) * | 2002-06-28 | 2008-04-01 | Microsoft Corporation | Example based machine translation system |
US7249012B2 (en) * | 2002-11-20 | 2007-07-24 | Microsoft Corporation | Statistical method and apparatus for learning translation relationships among phrases |
CN100392642C (zh) * | 2002-12-18 | 2008-06-04 | 株式会社理光 | 翻译支持系统 |
US7356457B2 (en) * | 2003-02-28 | 2008-04-08 | Microsoft Corporation | Machine translation using learned word associations without referring to a multi-lingual human authored dictionary of content words |
JP3765801B2 (ja) * | 2003-05-28 | 2006-04-12 | 沖電気工業株式会社 | 対訳表現抽出装置、対訳表現抽出方法、および対訳表現抽出プログラム |
US8548794B2 (en) | 2003-07-02 | 2013-10-01 | University Of Southern California | Statistical noun phrase translation |
US7711545B2 (en) * | 2003-07-02 | 2010-05-04 | Language Weaver, Inc. | Empirical methods for splitting compound words with application to machine translation |
WO2005036303A2 (en) * | 2003-09-11 | 2005-04-21 | Eli Abir | Knowledge system method and apparatus |
US7904487B2 (en) * | 2003-10-09 | 2011-03-08 | Oracle International Corporation | Translating data access requests |
CA2549769A1 (en) * | 2003-12-15 | 2005-06-30 | Laboratory For Language Technology Incorporated | System, method, and program for identifying the corresponding translation |
US8296127B2 (en) * | 2004-03-23 | 2012-10-23 | University Of Southern California | Discovery of parallel text portions in comparable collections of corpora and training using comparable texts |
US8666725B2 (en) | 2004-04-16 | 2014-03-04 | University Of Southern California | Selection and use of nonstatistical translation components in a statistical machine translation framework |
GB2415518A (en) * | 2004-06-24 | 2005-12-28 | Sharp Kk | Method and apparatus for translation based on a repository of existing translations |
US7620539B2 (en) * | 2004-07-12 | 2009-11-17 | Xerox Corporation | Methods and apparatuses for identifying bilingual lexicons in comparable corpora using geometric processing |
US8600728B2 (en) | 2004-10-12 | 2013-12-03 | University Of Southern California | Training for a text-to-text application which uses string to tree conversion for training and decoding |
US7672830B2 (en) * | 2005-02-22 | 2010-03-02 | Xerox Corporation | Apparatus and methods for aligning words in bilingual sentences |
US7937396B1 (en) * | 2005-03-23 | 2011-05-03 | Google Inc. | Methods and systems for identifying paraphrases from an index of information items and associated sentence fragments |
US8719244B1 (en) | 2005-03-23 | 2014-05-06 | Google Inc. | Methods and systems for retrieval of information items and associated sentence fragments |
US8676563B2 (en) | 2009-10-01 | 2014-03-18 | Language Weaver, Inc. | Providing human-generated and machine-generated trusted translations |
US8886517B2 (en) | 2005-06-17 | 2014-11-11 | Language Weaver, Inc. | Trust scoring for language translation systems |
US7680647B2 (en) * | 2005-06-21 | 2010-03-16 | Microsoft Corporation | Association-based bilingual word alignment |
US7937265B1 (en) | 2005-09-27 | 2011-05-03 | Google Inc. | Paraphrase acquisition |
US7957953B2 (en) * | 2005-10-03 | 2011-06-07 | Microsoft Corporation | Weighted linear bilingual word alignment model |
US20070083357A1 (en) * | 2005-10-03 | 2007-04-12 | Moore Robert C | Weighted linear model |
US10319252B2 (en) | 2005-11-09 | 2019-06-11 | Sdl Inc. | Language capability assessment and training apparatus and techniques |
JP4236057B2 (ja) * | 2006-03-24 | 2009-03-11 | インターナショナル・ビジネス・マシーンズ・コーポレーション | 新たな複合語を抽出するシステム |
US8943080B2 (en) * | 2006-04-07 | 2015-01-27 | University Of Southern California | Systems and methods for identifying parallel documents and sentence fragments in multilingual document collections |
US8886518B1 (en) | 2006-08-07 | 2014-11-11 | Language Weaver, Inc. | System and method for capitalizing machine translated text |
US8433556B2 (en) | 2006-11-02 | 2013-04-30 | University Of Southern California | Semi-supervised training for statistical word alignment |
GB2444084A (en) * | 2006-11-23 | 2008-05-28 | Sharp Kk | Selecting examples in an example based machine translation system |
US9122674B1 (en) | 2006-12-15 | 2015-09-01 | Language Weaver, Inc. | Use of annotations in statistical machine translation |
US8468149B1 (en) | 2007-01-26 | 2013-06-18 | Language Weaver, Inc. | Multi-lingual online community |
US8615389B1 (en) | 2007-03-16 | 2013-12-24 | Language Weaver, Inc. | Generation and exploitation of an approximate language model |
US8175864B1 (en) * | 2007-03-30 | 2012-05-08 | Google Inc. | Identifying nearest neighbors for machine translation |
US8831928B2 (en) | 2007-04-04 | 2014-09-09 | Language Weaver, Inc. | Customizable machine translation service |
US8825466B1 (en) | 2007-06-08 | 2014-09-02 | Language Weaver, Inc. | Modification of annotated bilingual segment pairs in syntax-based machine translation |
US8630841B2 (en) | 2007-06-29 | 2014-01-14 | Microsoft Corporation | Regular expression word verification |
US8185377B2 (en) * | 2007-08-11 | 2012-05-22 | Microsoft Corporation | Diagnostic evaluation of machine translators |
US8165869B2 (en) * | 2007-12-10 | 2012-04-24 | International Business Machines Corporation | Learning word segmentation from non-white space languages corpora |
US20090182547A1 (en) * | 2008-01-16 | 2009-07-16 | Microsoft Corporation | Adaptive Web Mining of Bilingual Lexicon for Query Translation |
JP5100445B2 (ja) * | 2008-02-28 | 2012-12-19 | 株式会社東芝 | 機械翻訳する装置および方法 |
US8229729B2 (en) * | 2008-03-25 | 2012-07-24 | International Business Machines Corporation | Machine translation in continuous space |
US8306806B2 (en) * | 2008-12-02 | 2012-11-06 | Microsoft Corporation | Adaptive web mining of bilingual lexicon |
JP5458880B2 (ja) | 2009-03-02 | 2014-04-02 | 富士通株式会社 | 文書検査装置、コンピュータ読み取り可能な記録媒体および文書検査方法 |
US8990064B2 (en) | 2009-07-28 | 2015-03-24 | Language Weaver, Inc. | Translating documents based on content |
US8380486B2 (en) | 2009-10-01 | 2013-02-19 | Language Weaver, Inc. | Providing machine-generated translations and corresponding trust levels |
TWI409646B (zh) * | 2009-10-14 | 2013-09-21 | Inst Information Industry | 詞彙翻譯系統、詞彙翻譯方式以及電腦可讀寫儲存媒體 |
JP4983943B2 (ja) * | 2010-03-05 | 2012-07-25 | カシオ計算機株式会社 | テキスト表示装置およびプログラム |
US10417646B2 (en) | 2010-03-09 | 2019-09-17 | Sdl Inc. | Predicting the cost associated with translating textual content |
US20120143593A1 (en) * | 2010-12-07 | 2012-06-07 | Microsoft Corporation | Fuzzy matching and scoring based on direct alignment |
US8626681B1 (en) | 2011-01-04 | 2014-01-07 | Google Inc. | Training a probabilistic spelling checker from structured data |
US11003838B2 (en) | 2011-04-18 | 2021-05-11 | Sdl Inc. | Systems and methods for monitoring post translation editing |
US8694303B2 (en) | 2011-06-15 | 2014-04-08 | Language Weaver, Inc. | Systems and methods for tuning parameters in statistical machine translation |
JP5720071B2 (ja) * | 2011-07-11 | 2015-05-20 | 日本電気株式会社 | 複合語概念分析システム、方法およびプログラム |
US8688688B1 (en) * | 2011-07-14 | 2014-04-01 | Google Inc. | Automatic derivation of synonym entity names |
US8886515B2 (en) | 2011-10-19 | 2014-11-11 | Language Weaver, Inc. | Systems and methods for enhancing machine translation post edit review processes |
US8942973B2 (en) | 2012-03-09 | 2015-01-27 | Language Weaver, Inc. | Content page URL translation |
US10261994B2 (en) | 2012-05-25 | 2019-04-16 | Sdl Inc. | Method and system for automatic management of reputation of translators |
US9152622B2 (en) | 2012-11-26 | 2015-10-06 | Language Weaver, Inc. | Personalized machine translation via online adaptation |
US8914395B2 (en) | 2013-01-03 | 2014-12-16 | Uptodate, Inc. | Database query translation system |
US9213694B2 (en) | 2013-10-10 | 2015-12-15 | Language Weaver, Inc. | Efficient online domain adaptation |
WO2016058138A1 (en) * | 2014-10-15 | 2016-04-21 | Microsoft Technology Licensing, Llc | Construction of lexicon for selected context |
CN106445998B (zh) * | 2016-05-26 | 2020-08-21 | 达而观信息科技(上海)有限公司 | 一种基于敏感词的文本内容审核方法及系统 |
KR102637338B1 (ko) | 2017-01-26 | 2024-02-16 | 삼성전자주식회사 | 번역 보정 방법 및 장치와 번역 시스템 |
US10915707B2 (en) * | 2017-10-20 | 2021-02-09 | MachineVantage, Inc. | Word replaceability through word vectors |
Family Cites Families (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS5840684A (ja) * | 1981-09-04 | 1983-03-09 | Hitachi Ltd | 自然言語間の自動翻訳方式 |
JPH0724055B2 (ja) * | 1984-07-31 | 1995-03-15 | 株式会社日立製作所 | 単語分割処理方法 |
JP2640793B2 (ja) * | 1992-01-17 | 1997-08-13 | 松下電器産業株式会社 | 共起辞書構築装置及びこの共起辞書を用いた文解析装置 |
JPH0689302A (ja) * | 1992-09-08 | 1994-03-29 | Hitachi Ltd | 辞書メモリ |
JP3015223B2 (ja) * | 1993-05-14 | 2000-03-06 | シャープ株式会社 | 特殊共起を処理する電子化辞書装置、及び機械翻訳装置、並びに情報検索装置 |
JPH0728819A (ja) * | 1993-07-07 | 1995-01-31 | Kokusai Denshin Denwa Co Ltd <Kdd> | 対訳辞書自動作成方式 |
US5510981A (en) * | 1993-10-28 | 1996-04-23 | International Business Machines Corporation | Language translation apparatus and method using context-based translation models |
US5675819A (en) * | 1994-06-16 | 1997-10-07 | Xerox Corporation | Document information retrieval using global word co-occurrence patterns |
-
1995
- 1995-11-06 JP JP7287135A patent/JPH09128396A/ja active Pending
-
1996
- 1996-11-04 US US08/743,529 patent/US5907821A/en not_active Expired - Fee Related
Cited By (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US7475005B2 (en) | 2003-03-17 | 2009-01-06 | International Business Machines Corporation | Translation system, dictionary updating server, translation method, and program and recording medium for use therein |
JP2010055298A (ja) * | 2008-08-27 | 2010-03-11 | Internatl Business Mach Corp <Ibm> | 翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム |
JP2013065068A (ja) * | 2011-09-15 | 2013-04-11 | Fujitsu Ltd | 辞書作成プログラム,辞書作成装置および辞書作成方法 |
Also Published As
Publication number | Publication date |
---|---|
US5907821A (en) | 1999-05-25 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
JPH09128396A (ja) | 対訳辞書作成方法 | |
US5794177A (en) | Method and apparatus for morphological analysis and generation of natural language text | |
KR101004515B1 (ko) | 문장 데이터베이스로부터 문장들을 사용자에게 제공하는 컴퓨터 구현 방법 및 이 방법을 수행하기 위한 컴퓨터 실행가능 명령어가 저장되어 있는 유형의 컴퓨터 판독가능 기록 매체, 문장 데이터베이스로부터 확인 문장들을 검색하는 시스템이 저장되어 있는 컴퓨터 판독가능 기록 매체 | |
Davis | New Experiments In Cross-Language Text Retrieval At NMSU's Computing Research Lab. | |
KR100542755B1 (ko) | 규칙 기반 방식과 번역 패턴 방식을 혼합한 하이브리드자동 번역 장치 및 방법과 그 프로그램을 기록한 컴퓨터로읽을 수 있는 기록매체 | |
Saggion et al. | Robust generic and query-based summarization | |
JPS6299865A (ja) | 自然言語の共起関係辞書保守方法 | |
WO1997004405A9 (en) | Method and apparatus for automated search and retrieval processing | |
Imamura | Hierarchical Phrase Alignment Harmonized with Parsing. | |
McMillan-Major | Automating gloss generation in interlinear glossed text | |
Ulčar et al. | Evaluation of contextual embeddings on less-resourced languages | |
JPH01217623A (ja) | キーワード自動生成装置 | |
Krstev et al. | Using English baits to catch Serbian multi-word terminology | |
Sabtan | Bilingual lexicon extraction from Arabic-English parallel corpora with a view to machine translation | |
Elbarougy et al. | A proposed natural language processing preprocessing procedures for enhancing arabic text summarization | |
JPH10312382A (ja) | 類似用例翻訳システム | |
Otero | Evaluating two different methods for the task of extracting bilingual lexicons from comparable corpora | |
Ahmed et al. | Gold dataset for the evaluation of bangla stemmer | |
CN107168950B (zh) | 一种基于双语语义映射的事件短语学习方法及装置 | |
JP3085394B2 (ja) | 複数文翻訳における訳語選択方法およびこれを用いた機械翻訳システム | |
KR950013129B1 (ko) | 기계번역장치 및 방법 | |
Krstev et al. | A lexical approach to acronyms and their definitions | |
Hlaing et al. | NECTEC’s Participation in WAT-2021 | |
Fluhr et al. | Parallel text alignment using crosslingual information retrieval techniques | |
JPS59103171A (ja) | 機械翻訳装置 |