JP2002351872A - 自然言語翻訳候補選択方法、装置、プログラム、および同プログラムを記録した記録媒体 - Google Patents

自然言語翻訳候補選択方法、装置、プログラム、および同プログラムを記録した記録媒体

Info

Publication number
JP2002351872A
JP2002351872A JP2001152521A JP2001152521A JP2002351872A JP 2002351872 A JP2002351872 A JP 2002351872A JP 2001152521 A JP2001152521 A JP 2001152521A JP 2001152521 A JP2001152521 A JP 2001152521A JP 2002351872 A JP2002351872 A JP 2002351872A
Authority
JP
Japan
Prior art keywords
natural language
expression
occurrence
word
natural
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001152521A
Other languages
English (en)
Inventor
Takaaki Tanaka
貴秋 田中
Yoshihiro Matsuo
義博 松尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001152521A priority Critical patent/JP2002351872A/ja
Publication of JP2002351872A publication Critical patent/JP2002351872A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】 入力された第1自然言語表現の翻訳として適
切な第2自然言語表現を選択することを可能にする。 【解決手段】 第1、第2自然言語共起語収集部20、
30は、第1、第2自然言語コーパス100、110を
検索してそれぞれ第1、第2自然言語の表現に共起する
語および共起語毎の統計情報を取得する。第1、第2自
然言語共起情報解析部40、50は、それぞれ受け取っ
た共起語およびその統計情報を用いて各共起語の特徴量
を計算し、第1、第2の自然言語共起情報として出力す
る。共起情報比較部60は、第1自然言語共起情報と第
2自然言語共起情報と対訳辞書120を使用して、第1
自然言語表現と第2自然言語表現の全ての組み合わせに
ついてその意味的な類似度を計算し、翻訳候補選択部7
0に送る。翻訳候補選択部70は、入力された第1自然
言語表現に対して意味的な類似度の最も高い第2自然言
語表現を選択して出力する。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は、原言語である第1
自然言語の表現と意味的に対応する目的言語である第2
自然言語の表現を選択する方法および装置に関する。
【0002】
【従来の技術】従来、第1自然言語の表現と第2自然言
語の表現を対訳辞書などに登録するためには、第1自然
言語の表現と第2自然言語の表現が意味的に対応してい
るかを人間が判断していた。また、ある第1自然言語の
表現の翻訳候補である第2自然言語の表現が複数ある場
合に、文脈に即した翻訳を行うために、人間が辞書や文
献から用例を探し、その用例を参考にして適切な第2自
然言語の表現を選択していた。
【0003】
【発明が解決しようとする課題】しかしながら、第1自
然言語の表現に対して訳語となる第2自然言語の候補が
豊富に考えられる場合、人間がその中から適切な第2自
然言語の表現を選び出すことは判断が難しく、膨大な作
業量が必要であった。また、同様に第1自然言語の表現
を翻訳するのに適切な第2自然言語を選び出すために人
間が個々の用例を参照しながら判断する作業は選択する
候補が増えるほど、必要とする時間、作業量が増大し非
効率であった。
【0004】本発明の目的は、入力された第1自然言語
の翻訳として適切な第2自然言語の表現を選択する自然
言語翻訳候補選択方法、装置、プログラム、および同プ
ログラムを記録した記録媒体を提供することにある。
【0005】
【課題を解決するための手段】本発明の第1の態様によ
れば、自然言語翻訳候補選択方法は、第1自然言語の表
現と第2自然言語の表現を入力する原言語である第1自
然言語の表現と意味的に対応する目的言語である第2自
然言語の表現を選択する方法であって、第1自然言語の
表現と第2自然言語の表現を入力する自然言語表現入力
ステップと、第1自然言語コーパスから、入力された第
1自然言語の表現の共起語を収集する第1自然言語共起
語収集ステップと、第2自然言語コーパスから、入力さ
れた第2自然言語の表現の共起語を収集する第2自然言
語共起語収集ステップと、第1自然言語表現の共起語の
それぞれについて、前記第1自然言語表現との関連度で
ある単語関連率を第1自然言語のコーパスを使用して算
出する第1自然言語共起情報解析ステップと、第2自然
言語表現の共起語のそれぞれについて、前記第2自然言
語表現との関連度である単語関連率を第2自然言語のコ
ーパスを使用して算出する第2自然言語共起情報解析ス
テップと、第1自然言語表現の共起語と第2の自然言語
の共起語の中から対訳辞書で対応付けができる共起語の
組を取り出し、各組について両共起語の単語関連率の積
に該共起語の品詞に応じた重みを乗じ、各組の値の総和
を第1自然言語表現と第2の自然言語表現の類似度とし
て求める共起情報比較ステップと、算出された類似度の
うち、類似度の最も高い組の第2自然言語表現を第1自
然言語表現の翻訳として選択する翻訳候補選択ステップ
を有する。
【0006】本発明の第2の態様によれば、自然言語翻
訳候補選択方法は、第1自然言語の表現と第2自然言語
の表現を入力する原言語である第1自然言語の表現と意
味的に対応する目的言語である第2自然言語の表現を選
択する方法であって、第1自然言語の表現と第2自然言
語の表現を入力する自然言語表現入力ステップと、第1
自然言語コーパスから、入力された第1自然言語の表現
の共起語を収集する第1自然言語共起語収集ステップ
と、第2自然言語コーパスから、入力された第2自然言
語の表現の共起語を収集する第2自然言語共起語収集ス
テップと、第1自然言語表現の共起語をシソーラスを使
って抽象的な意味分類である共起意味分類に変換し、第
1自然言語表現の各共起意味分類の特徴量を算出する第
1自然言語共起情報解析ステップと、第2自然言語表現
の共起語をシソーラスを使って抽象的な意味分類である
各共起意味分類に変換し、第2自然言語表現の各共起意
味分類の特徴量を算出する第2自然言語共起情報解析ス
テップと、第1自然言語表現の共起意味分類と第2自然
言語表現の共起意味分類の同じもの同志の特徴量の積の
総和を、第1自然言語表現と第2自然言語表現の類似度
として求める共起情報比較ステップと、算出された類似
度のうち、類似度の最も高い組の第2自然言語表現を第
1自然言語表現の翻訳として選択する翻訳候補選択ステ
ップを有する。
【0007】第1自然言語の表現とその翻訳候補である
第2自然言語の表現を与えると、第1自然言語コーパス
と第2自然言語コーパスそれぞれから共起語を取得しそ
の特徴量を算出して、第1自然言語表現の共起語の特徴
量と第2自然言語表現の共起語の特徴量から第1自然言
語表現と第2自然言語表現の類似度を算出する。
【0008】
【発明の実施の形態】次に、本発明の実施の形態につい
て図面を参照して説明する。
【0009】図1を参照すると、本発明の一実施形態の
自然言語翻訳候補選択装置は自然言語表現入力部10と
第1、第2自然言語共起語収集部20、30と第1、第
2自然言語共起情報解析部40、50と共起情報比較部
60と翻訳候補選択部70と第1自然言語コーパス10
0と第2自然言語コーパス110と対訳辞書120で構
成されている。
【0010】自然言語表現入力部10は原言語である第
1自然言語の表現と目的言語である第2自然言語の翻訳
候補を入力し、それぞれ第1自然言語共起語収集部20
と第2自然言語共起語収集部30に出力する。第1自然
言語共起語収集部20は、第1自然言語コーパス100
を検索して第1自然言語の表現に共起する語および共起
語ごとの出現頻度などの統計情報を取得し、それらを第
1自然言語共起情報解析部40に出力する。第1自然言
語共起情報解析部40は、受け取った共起語およびその
統計情報を用いて各共起語の特徴量を計算し、第1自然
言語共起情報として共起情報比較部60に出力する。同
様に、第2自然言語共起語収集部30は、受け取った第
2自然言語の表現それぞれについて、第2自然言語コー
パス110を検索して、第2自然言語の表現と共起する
語および共起語ごとの出現頻度などの統計情報を取得
し、それらを第2自然言語共起情報解析部50に出力す
る。第2自然言語共起情報解析部50は、受け取った共
起語およびその統計情報を用いて各共起語の特徴量を計
算し、第2自然言語共起情報として共起情報比較部60
に出力する。共起情報比較部60は第1自然言語共起情
報解析部40から受け取った第1自然言語共起情報と、
第2自然言語共起情報解析部50から受け取った第2自
然言語共起情報と、対訳辞書120を使用して、第1自
然言語表現と第2自然言語表現の全ての組み合わせにつ
ぃてその意味的な類似度を計算し、翻訳候補選択部70
に送る。翻訳候補選択部70は、入力された第1自然言
語表現に対して意味的な類似度の最も高い第2自然言語
表現を選択して出力する。第1の実施形態 以下、本実施形態の動作を、第1自然言語が日本語、第
2自然言語が英語の場合について説明する。
【0011】まず、第1自然言語表現「証券会社」、第
2自然言語表現「securities company」「paper compan
y」を入力とした場合を例にとって説明する。
【0012】自然言語表現入力部10は第1自然言語表
現「証券会社」を受け取って第1自然言語共起収集部2
0に送り、第2自然言語表現「securities company」を
受け取って第2自然言語共起収集部30に送る。
【0013】第1自然言語共起語収集部20は、第1自
然言語コーパス100を検索して入力された第1自然言
語表現「証券会社」の近くに現れる語(共起語)を集め
る。ここでは、入力された表現と同じ文中に現れた語を
共起語として集める。表1は、「証券会社」の共起語の
例である。共起語と、その品詞、「証券会社」と同一文
に出現した頻度(共起頻度)、コーパス全体で出現した
頻度(総頻度)を表している。
【0014】
【表1】
【0015】また、第1自然言語共起語収集部20は、
「証券会社」の第1自然言語コーパス100中での出現
頻度を調べ第1自然言語共起情報解析部40に送る。
【0016】第1自然言語共起情報解析部40は、第1
自然言語共起語収集部20で収集された共起語それぞれ
について、入力された第1自然言語表現との関連の強さ
(関連度)を計算する。ここでは、関連度を表す特徴量
として文献(「Word association norms, mutual infor
mation and lexicography」(Computational Linguistic
s, 16 (1), pp. 22-29)に記載されている単語関連率(w
ord association ratio)を用いる。単語xとyの単語関連
率 I (x,y)は、単語x, y の出現頻度をそれぞれf (x),
f (y)、単語x, yが同時に出現する頻度をf (x, y)、言
語コーパスの延べ単語数をNとすると(1)式で表現さ
れ、値が高いほど単語xとyの関連性が高い。ただし、f
(x,y)=0のときI (x, y)=0と定義する。
【0017】
【数1】
【0018】N=40,000,000、 f(証券会社)
=3,352とすると、f(証券会社、投資家)=63
7、f(投資家)=12,013であるから、I(証券会
社、投資家)=log2((40,000,000*637)
/(3,352*12,013)=9.3となる。表2
は、「証券会社」の共起語について同様に単語関連率を
計算した結果の例である。この共起語と単語関連率の情
報を共起情報テーブルと呼ぶ。
【0019】
【表2】
【0020】第1自然言語共起情報解析部40は、「証
券会社」の共起情報テーブルを共起情報比較部60に送
る。
【0021】同様に、第2自然言語表現の「securities
company」「paper company」を第2自然言語共起語収
集部30が自然言語表現入力部10から受け取る。第2
自然言語共起語収集部30は、第2自然言語コーパス1
10を検索して得られた共起語とその統計情報を第2自
然言語共起情報解析部50に送る。表3は「securities
company」の共起語、表4は「paper company」の共起
語の例である。
【0022】
【表3】
【0023】
【表4】
【0024】第2自然言語共起情報解析部50は受け取
った情報を使って「securities company」と「paper co
mpany」の共起語情報テーブルを作成する。表5は「sec
urities company」の共起情報テーブル、表6は「paper
company」の共起情報テーブルを表している。
【0025】
【表5】
【0026】
【表6】
【0027】第2自然言語共起情報解析部50は作成し
た共起語情報テーブルを共起情報比較部60に送る。
【0028】共起情報比較部60は、第1自然言語表現
の共起情報テーブルおよび第2自然言語表現の共起情報
テーブルを受け取り、共起情報の類似性を調べる。共起
情報比較部60は、対訳辞書120で対応付けができる
N1とN2の共起語の組を取り出し、その共起語の単語関連
率の積に共起語の品詞に応じた重みを乗じた総和を計算
して、第1自然言語表現と第2自然言語表現の類似度と
する。
【0029】図4は共起情報比較部60で、共起情報テ
ーブルを使用して第1自然言語表現N1と第2自然言語表
現N2の類似度S (N1, N2)を計算する処理を示すフロー
チャートである。はじめに、類似度S (N1, N2)を0に初
期化する(ステップ201)。第1自然言語表現の共起
情報テーブルから共起語C1(品詞p)を1語取り出し
(ステップ202)、対訳辞書120を用いて第2自然
言語表現の共起情報テーブルに共起語C1の対訳語が存在
するかを調べる(ステップ203)。対訳語が第2自然
言語表現の共起情報テーブルに存在すれば、N2との単語
関連率が最も高い語C2を取り出し(ステップ204)、
単語関連率の積にC1の品詞pに応じた重みw(p)を乗じたI
(N1, C1) *I (N2, C2)*w (p)を類似度S (N1, N2)に
加える(ステップ205)。第1自然言語表現の共起情
報テーブルに含まれる共起語を全て処理するまでステッ
プ202に戻って処理を繰り返す(ステップ206)。
【0030】この処理を第1自然言語表現「証券会社」
の共起情報テーブル(表2)、第2自然言語表現「secu
rities company」の共起情報テーブル(表5)を使って
説明する。ここでは、品詞による重みを、w(動詞)=
0.5、w(名詞)=1とする。
【0031】はじめに類似度S(証券会社、securities
company)を0に初期化する(ステップ201)。
【0032】次に、第1自然言語表現の共起情報テーブ
ルから共起語「下落する」(動詞)を取り出し(ステッ
プ202)、対訳辞書を引く。表7は対訳辞書の例であ
る。
【0033】
【表7】
【0034】対訳辞書を引くと「下落する」の訳語とし
て「decline」と「fall」が見つかるが(ステップ20
3)、これを第2自然言語表現の共起情報で検索する
と、「decline」の方が「fall」より単語関連率が高い
ので「decline」を取り出す(ステップ204)。I(証
券会社、下落する)*I(securities company, declin
e)*w(動詞)=5.9*10.4*0.5=30.68をS
(証券会社、securities company)に加え、S(証券会
社、securities company) =30.68となる。同様
に、第1自然言語表現の共起語「投資家」(名詞)につ
いては第2自然言語表現の共起語「investor」が選ば
れ、I(証券会社、投資家)*I (securities company,
investor)*w(名詞)=9.3*8.5*1=79.05
をS(証券会社、securities company)に加えて、S(証
券会社、securities company)=30.68+79.05
=109.73となる。第1自然言語表現の共起語「入
金する」の対訳語「pay」が第2自然言語表現の共起テ
ーブルに見つからないので(ステップ202)、ステッ
プ206に進む。最後に、第1自然言語表現の共起語
「先物」(名詞)に対して第2自然言語表現の共起語
「futures」が選ばれ、I(証券会社、先物)*I(secur
ities, company)*w(名詞)=7.9*7.6*1=60.
04をS(証券会社、securities company)=に加えて、
S(証券会社、securities company)=109.73+6
0.04=169.77となる。この結果を翻訳候補選択
部70に送る。
【0035】共起情報比較部60は、第1自然言語表現
「証券会社」と第2自然言語表現「paper company」に
ついても同様の処理を行い、S(証券会社、paper compa
ny )=I(証券会社、入金する)*I (paper company, p
ay」=9.0*5.9*0.5=26.55という結果を翻
訳候補選択部70に送る。
【0036】翻訳候補選択部70は、S(証券会社、sec
urities company )=169.77、S(証券会社、pape
r company)=26.55という結果を受け取り、類似度S
の高い「securities company」を「証券会社」の翻訳語
として選択し出力する。第2の実施形態 第1自然言語共起情報解析部40は、図2に示すよう
に、第1自然言語共起語抽象化部41と第1自然言語共
起意味分類特徴量算出部42で構成されている。第1自
然言語共起語抽象化部41は、第1自然共起語収集部2
0から受け取った共起語をシソーラス130を使って意
味分類に抽象化して共起意味分類に変換し、第1自然言
語共起意味分類特徴量算出部42に出力する。共起語の
抽象化に用いるシソーラス130には日本語語彙大系
(岩波書店、1997)などが利用できる。第1自然言
語共起意味分類特徴量算出部42は、受け取った共起意
味分類から特徴量を計算し、共起情報比較部60に出力
する。
【0037】第2自然言語共起情報解析部50は、図3
に示すように、第2自然言語共起語抽象化部51と第2
自然言語共起意味分類特徴量算出部52で構成されてい
る。第2自然言語共起語抽象化部51は、第2自然言語
共起語収集部30から受け取った共起語をシソーラス1
30を使って意味分類に抽象化して共起意味分類に変換
し、第2自然言語共起意味分類特徴量算出部52に出力
する。第2自然言語共起意味分類特徴量算出部52は、
受け取った共起意味分類から特徴量を計算し、共起情報
比較部60に出力する。
【0038】次に、第1自然言語表現「技術移転」、第
2自然言語表現「technology transfer」「technology
share」を入力した場合を例にとって説明する。
【0039】自然言語表現入力部10は第1自然言語表
現「技術移転」を受け取って第1自然言語共起語収集部
20に送り、第2自然言語表現「technology transfe
r」「technology share」を受け取って第2自然言語共
起語収集部30に送る。
【0040】第1自然言語共起語収集部20は、第1自
然言語コーパス100を検索して入力された第1自然言
語表現「技術移転」の共起語を集める。表8は、「技術
移転」の共起語の例である。共起語と、その品詞、「技
術移転」と同一文に出現した頻度(共起頻度)、コーパ
ス全体で出現した頻度(総頻度)表している。
【0041】
【表8】
【0042】また、第1自然言語共起収集部20は、
「技術移転」の第1自然言語コーパス100中での出現
頻度を調べ第1自然言語共起語抽象化部41に送る。
【0043】第1自然言語共起語抽象化部41は、第1
自然言語共起語収集部20から受け取った共起語をシソ
ーラス130を使って抽象的な意味分類に変換し、意味
分類毎に統計量を再集計する。表9は、シソーラスの例
である。表9は日本語が各意味分類に属することを示し
ている。同様に、英語が各意味分類に属することを示し
ている。
【0044】
【表9】
【0045】表8の共起語を表9のシソーラスを使って
意味分類に変換すると、共起語「インドネシア」「シン
ガポール」はどちらも意味分類「国家」に変換され、第
1自然言語の表現「技術移転」と意味分類[国家]の共
起頻度は2+3=5、意味分類[国家]をもつ単語の出
現頻度は3182+4621=7803となる。同様
に、他の共起語を変換した結果が表10である。
【0046】
【表10】
【0047】この共起語の意味分類と統計量の情報を第
1自然言語共起意味分類特徴量算出部42に渡す。
【0048】第1自然言語共起意味分類特徴量算出部4
2は、第1自然言語共起語抽象化部41から受け取った
情報から、各共起意味分類の特徴量を算出する。ここで
は、(1)式の単語の一方を意味分類に置き換え、単語
xと意味分類cの関連度Ic (x,c)((2)式)を使用す
る。単語xの出現頻度をf (x)、意味分類cを持つ単語の
出現頻度をf(c)、単語xと意味分類cを持つ語が同時に出
現する頻度をf (x, c)、言語コーパス中の延べ単語数N
とする。また、f (x, c)=0のとき、Ic (x, c)=0と
定義する。
【0049】
【数2】
【0050】N=40,000,000、f(技術移転)=
297とすると、f(技術移転、[国家])=5、f
([国家])=7,803であるから、I(証券会社、[国
家])=log2(40,000,000*5)/(297*
7,803)=6.4となる。表11は、「技術移転」
の共起意味分類について同様に関連率を計算した結果の
例である。この共起意味分類と関連率の情報を共起情報
テーブルと呼ぶ。
【0051】
【表11】
【0052】第1自然言語共起分類特徴量算出部42
は、「技術移転」の共起情報テーブルを共起情報比較部
60に送る。
【0053】表12は「technology transfer」の共起
語、表13は「technology share」の共起語の例であ
る。また、表14は、「technology transfer」の共起
語を第2自然言語共起語抽象化部51が変換した例、表
15は「technology share」の共起語を第2自然言語共
起語抽象化部51が変換した例である。表16は、「te
chnology transfer」の共起情報テーブル、表17は「t
echnology share」の共起情報テーブルを表している。
【0054】
【表12】
【0055】
【表13】
【0056】
【表14】
【0057】
【表15】
【0058】
【表16】
【0059】
【表17】
【0060】第2自然言語共起意味分類特徴量算出部5
2は作成した共起情報テーブルを共起情報比較部60に
送る。
【0061】図5は共起情報比較部60で、共起情報テ
ーブルを使用して第1自然言語表現N1と第2自然言語表
現N2の類似度S (N1, N2)を計算する処理を示すフローチ
ャートである。はじめに、類似度S (N1, N2)を0に初期
化する(ステップ301)。第1自然言語表現の共起情
報テーブルから共起意味分類Cを1つ取り出し(ステッ
プ302)、第2自然言語表現の共起情報テーブルに同
一の共起意味分類Cが存在するかを調べる(ステップ3
03)。共起意味分類Cが第2自然言語表現の共起情報
テーブルに存在すれば、関連率の積Ic (N1, C)*Ic (N
2, C)を類似度S(N1, N2)に加える(ステップ30
4)。第1自然言語表現の共起情報テーブルに含まれる
共起語を全て処理するまでステップ312に戻って処理
を繰り返す(ステップ315)。
【0062】この処理を第1自然言語表現「技術移転」
の共起情報テーブル(表10)、第2自然言語表現「te
chnology transfer」の共起情報テーブル(表15)を
使って説明する。
【0063】はじめに類似度S (技術移転、technology
transfer)を0に初期化する(ステップ301)。
【0064】次に、第1自然言語表現の共起語情報テー
ブルから意味分類[国家]を取り出す(ステップ30
2)。意味分類[国家]は、第2自然言語表現の共起情
報テーブルに存在するので(ステップ303)、Ic(技
術移転、[国家])*Ic (technology transfer,[国
家])=6.4*11.3=72.32をS (技術移転、te
chnology transfer)に加え、S(技術移転、technology
transfer)=72.32となる。同様に、処理を続ける
と、Ic(技術移転、[商取引])*Ic (technologytran
sfer, [商取引])=56.98、Ic(技術移転、[契
約])*Ic (technology transfer, [契約])=66.
93を加えて、S(技術移転、technology transfer)=
196.23となる、この結果を翻訳候補選択部70に
送る。
【0065】共起情報比較部60は、第1自然言語表現
「技術移転」と第2自然言語表現「technology transfe
r」についても同様の処理を行い、S(技術移転、 techn
ology share )=Ic(技術移転、[契約])*Ic (techn
ology share,[契約])=6.9*7.3=50.37と
いう結果を翻訳候補選択部70に送る。
【0066】翻訳候補選択部70は、S(技術移転、tec
hnology transfer)=196.23、S(技術移転、tech
nology share)=50.37という結果を受け取り、類
似度Sの高い「technology transfer」を「技術移転」の
翻訳語として選択して出力する。
【0067】以上の実施形態では第1自然言語が日本
語、第2自然言語が英語である場合を説明したが、逆に
第1自然言語が英語で、第2自然言語が日本語である場
合や、第1自然言語、第2自然言語が他の言語である場
合にも同様に本発明は適用可能である。
【0068】また、各部10〜70からなる処理は自然
言語翻訳候補選択候補プログラムとしてフロッピィ・デ
ィスク、CD―ROM、光磁気ディスク、DVD等の記録媒体に
記録してパソコン等のコンピュータ上で実行することが
できる。
【0069】
【発明の効果】以上説明したように、本発明は、第1自
然言語の表現とその翻訳候補である第2自然言語の表現
を与えると、第1自然言語コーパスと第2自然言語コー
パスそれぞれから共起語を取得しその特徴量を算出し
て、第1自然言語表現の共起語の特徴量と第2自然言語
表現の共起語の特徴量を比較して第1自然言語表現と第
2自然言語表現の類似度を算出することにより、入力さ
れた第1自然言語表現の翻訳として適切な第2自然言語
表現を選択することが可能となる。
【図面の簡単な説明】
【図1】本発明の一実施形態の自然言語翻訳候補選択装
置の概略構成図である。
【図2】図1中の第1自然言語共起情報解析部40の構
成図である。
【図3】図1中の第2自然言語共起情報解析部50の構
成図である。
【図4】図1中の共起情報比較部60の処理を示すフロ
ーチャート(その1)である。
【図5】図1中の共起情報比較部60の処理を示すフロ
ーチャート(その2)である。
【符号の説明】
10 自然言語表現入力部 20 第1自然言語共起語収集部 30 第2自然言語共起語収集部 40 第1自然言語共起情報解析部 41 第1自然言語共起語抽象化部 42 第1自然言語共起意味分類特徴量算出部 50 第2自然言語共起情報解析部 51 第2自然言語共起語抽象化部 52 第2自然言語共起意味分類特徴量算出部 60 共起情報比較部 70 翻訳候補選択部 100 第1自然言語コーパス 110 第2自然言語コーパス 120 対訳辞書 130 シソーラス 201〜206、301〜305 ステップ

Claims (6)

    【特許請求の範囲】
  1. 【請求項1】 原言語である第1自然言語の表現と意味
    的に対応する目的言語である第2自然言語の表現を選択
    する方法であって、 第1自然言語の表現と第2自然言語の表現を入力する自
    然言語表現入力ステップと、 第1自然言語コーパスから、入力された第1自然言語の
    表現の共起語を収集する第1自然言語共起語収集ステッ
    プと、 第2自然言語コーパスから、入力された第2自然言語の
    表現の共起語を収集する第2自然言語共起語収集ステッ
    プと、 第1自然言語表現の共起語のそれぞれについて、前記第
    1自然言語表現との関連度である単語関連率を第1自然
    言語のコーパスを使用して算出する第1自然言語共起情
    報解析ステップと、 第2自然言語表現の共起語のそれぞれについて、前記第
    2自然言語表現との関連度である単語関連率を第2自然
    言語のコーパスを使用して算出する第2自然言語共起情
    報解析ステップと、 第1自然言語表現の共起語と第2の自然言語の共起語の
    中から対訳辞書で対応付けができる共起語の組を取り出
    し、各組について両共起語の単語関連率の積に該共起語
    の品詞に応じた重みを乗じ、各組の値の総和を第1自然
    言語表現と第2の自然言語表現の類似度として求める共
    起情報比較ステップと、 算出された類似度のうち、類似度の最も高い組の第2自
    然言語表現を第1自然言語表現の翻訳として選択する翻
    訳候補選択ステップを有する自然言語翻訳候補選択方
    法。
  2. 【請求項2】 原言語である第1自然言語の表現と意味
    的に対応する目的言語である第2自然言語の表現を選択
    する方法であって、 第1自然言語の表現と第2自然言語の表現を入力する自
    然言語表現入力ステップと、 第1自然言語コーパスから、入力された第1自然言語の
    表現の共起語を収集する第1自然言語共起語収集ステッ
    プと、 第2自然言語コーパスから、入力された第2自然言語の
    表現の共起語を収集する第2自然言語共起語収集ステッ
    プと、 第1自然言語表現の共起語をシソーラスを使って抽象的
    な意味分類である共起意味分類に変換し、第1自然言語
    表現の各共起意味分類の特徴量を算出する第1自然言語
    共起情報解析ステップと、 第2自然言語表現の共起語をシソーラスを使って抽象的
    な意味分類である各共起意味分類に変換し、第2自然言
    語表現の各共起意味分類の特徴量を算出する第2自然言
    語共起情報解析ステップと、 第1自然言語表現の共起意味分類と第2自然言語表現の
    共起意味分類の同じもの同志の特徴量の積の総和を、第
    1自然言語表現と第2自然言語表現の類似度として求め
    る共起情報比較ステップと、 算出された類似度のうち、類似度の最も高い組の第2自
    然言語表現を第1自然言語表現の翻訳として選択する翻
    訳候補選択ステップを有する自然言語翻訳候補選択方
    法。
  3. 【請求項3】 原言語である第1自然言語の表現と意味
    的に対応する目的言語である第2自然言語の表現を選択
    する装置であって、 第1自然言語コーパスと、 第2自然言語コーパスと、 対訳辞書と、 第1自然言語の表現と第2自然言語の表現を入力する自
    然言語表現入力手段と、 第1自然言語コーパスから、入力された第1自然言語の
    表現の共起語を収集する第1自然言語共起語収集手段
    と、 第2自然言語コーパスから、入力された第2自然言語の
    表現の共起語を収集する第2自然言語共起語収集手段
    と、 第1自然言語表現の共起語のそれぞれについて、前記第
    1自然言語表現との関連度である単語関連率を第1自然
    言語のコーパスを使用して算出する第1自然言語共起情
    報解析手段と、 第2自然言語表現の共起語のそれぞれについて、前記第
    2自然言語表現との関連度である単語関連率を第2自然
    言語のコーパスを使用して算出する第2自然言語共起情
    報解析手段と、 第1自然言語表現の共起語と第2の自然言語の共起語の
    中から対訳辞書で対応付けができる共起語の組を取り出
    し、各組について両共起語の単語関連率の積に該共起語
    の品詞に応じた重みを乗じ、各組の値の総和を第1自然
    言語表現と第2自然言語表現の類似度として求める共起
    情報比較手段と、 算出された類似度のうち、類似度の最も高い組の第2自
    然言語表現を第1自然言語表現の翻訳として選択する翻
    訳候補選択手段を有する自然言語翻訳候補選択装置。
  4. 【請求項4】 原言語である第1自然言語の表現と意味
    的に対応する目的言語である第2自然言語の表現を選択
    する装置であって、 第1自然言語コーパスと、 第2自然言語コーパスと、 シソーラスと、 第1自然言語の表現と第2自然言語の表現を入力する自
    然言語表現入力手段と、 第1自然言語コーパスから、入力された第1自然言語の
    表現の共起語を収集する第1自然言語共起語収集手段
    と、 第2自然言語コーパスから、入力された第2自然言語の
    表現の共起語を収集する第2自然言語共起語収集手段
    と、 第1自然言語表現の共起語をシソーラスを使って抽象的
    な意味分類である共起意味分類に変換し、第1自然言語
    表現の各共起意味分類の特徴量を算出する第1自然言語
    共起情報解析手段と、 第2自然言語表現の共起語をシソーラスを使って抽象的
    な意味分類である各共起意味分類に変換し、第2自然言
    語表現の各共起意味分類の特徴量を算出する第2自然言
    語共起情報解析手段と、 第1自然言語表現の共起意味分類と第2自然言語表現の
    共起意味分類の同じもの同志の特徴量の積の総和を第1
    自然言語表現と第2自然言語表現の類似度として求める
    共起情報比較手段と、 算出された類似度のうち、類似度の最も高い組の第2自
    然言語表現を第1自然言語表現の翻訳として選択する翻
    訳候補選択手段を有する自然言語翻訳候補選択装置。
  5. 【請求項5】 請求項1または2に記載の方法をコンピ
    ュータに実行させる自然言語翻訳候補選択プログラム。
  6. 【請求項6】 請求項5記載の自然言語翻訳候補選択プ
    ログラムを記録した記録媒体。
JP2001152521A 2001-05-22 2001-05-22 自然言語翻訳候補選択方法、装置、プログラム、および同プログラムを記録した記録媒体 Pending JP2002351872A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001152521A JP2002351872A (ja) 2001-05-22 2001-05-22 自然言語翻訳候補選択方法、装置、プログラム、および同プログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001152521A JP2002351872A (ja) 2001-05-22 2001-05-22 自然言語翻訳候補選択方法、装置、プログラム、および同プログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2002351872A true JP2002351872A (ja) 2002-12-06

Family

ID=18997173

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001152521A Pending JP2002351872A (ja) 2001-05-22 2001-05-22 自然言語翻訳候補選択方法、装置、プログラム、および同プログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2002351872A (ja)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010055298A (ja) * 2008-08-27 2010-03-11 Internatl Business Mach Corp <Ibm> 翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
KR101031970B1 (ko) 2002-11-20 2011-04-29 마이크로소프트 코포레이션 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법
CN103034627A (zh) * 2011-10-09 2013-04-10 北京百度网讯科技有限公司 计算句子相似度的方法和装置以及机器翻译的方法和装置
US9208149B2 (en) 2012-10-10 2015-12-08 Kabushiki Kaisha Toshiba Machine translation apparatus, method and program
JP2018010514A (ja) * 2016-07-14 2018-01-18 富士通株式会社 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101031970B1 (ko) 2002-11-20 2011-04-29 마이크로소프트 코포레이션 구문들 사이의 번역 관계를 학습하기 위한 통계적 방법
JP2010055298A (ja) * 2008-08-27 2010-03-11 Internatl Business Mach Corp <Ibm> 翻訳対象である第1言語の用語の翻訳対である第2言語の用語を出力するためのコンピュータ・システム、並びにその方法及びコンピュータ・プログラム
CN103034627A (zh) * 2011-10-09 2013-04-10 北京百度网讯科技有限公司 计算句子相似度的方法和装置以及机器翻译的方法和装置
CN103034627B (zh) * 2011-10-09 2016-05-25 北京百度网讯科技有限公司 计算句子相似度的方法和装置以及机器翻译的方法和装置
US9208149B2 (en) 2012-10-10 2015-12-08 Kabushiki Kaisha Toshiba Machine translation apparatus, method and program
JP2018010514A (ja) * 2016-07-14 2018-01-18 富士通株式会社 対訳辞書作成装置、対訳辞書作成方法、及び対訳辞書作成プログラム

Similar Documents

Publication Publication Date Title
Singh et al. Text similarity measures in news articles by vector space model using NLP
JP4065936B2 (ja) 機械学習法を用いた言語解析処理システムおよび機械学習法を用いた言語省略解析処理システム
US10296584B2 (en) Semantic textual analysis
JP2742115B2 (ja) 類似文書検索装置
US9239826B2 (en) Method and system for generating new entries in natural language dictionary
WO2003056450A1 (fr) Procede et appareil d&#39;analyse syntaxique
WO2005059771A1 (ja) 対訳判断装置、方法及びプログラム
WO2009123260A1 (ja) 共起辞書作成システムおよびスコアリングシステム
US20020059219A1 (en) System and methods for web resource discovery
JP2004070636A (ja) 概念検索装置
Nguyen et al. An ontology-based approach for key phrase extraction
JP2002351872A (ja) 自然言語翻訳候補選択方法、装置、プログラム、および同プログラムを記録した記録媒体
Ali et al. Arabic keyphrases extraction using a hybrid of statistical and machine learning methods
Klang et al. Linking, searching, and visualizing entities in wikipedia
JP4401269B2 (ja) 対訳判断装置及びプログラム
KR20050064574A (ko) 영한 자동번역에서 의미 벡터와 한국어 국소 문맥 정보를사용한 대역어 선택시스템 및 방법
Bechikh Ali et al. Multi-word terms selection for information retrieval
JP3471253B2 (ja) 文書分類方法、文書分類装置、および文書分類プログラムを記録した記録媒体
Tian et al. Period classification in Chinese historical texts
JP2003085181A (ja) 事典システム
CN113590738A (zh) 一种基于内容与情感的网络敏感信息的检测方法
Hu A study on question answering system using integrated retrieval method
Alanzi et al. Query-Focused Multi-document Summarization Survey
Lee Conceptual extraction of compound Korean keywords
Ichioka et al. Graph-based clustering for semantic classification of onomatopoetic words