JP2002236680A - 固有名対応付け装置及び方法、その方法をコンピュータに実行させるプログラム並びにそのプログラムを記録した記録媒体 - Google Patents

固有名対応付け装置及び方法、その方法をコンピュータに実行させるプログラム並びにそのプログラムを記録した記録媒体

Info

Publication number
JP2002236680A
JP2002236680A JP2001031464A JP2001031464A JP2002236680A JP 2002236680 A JP2002236680 A JP 2002236680A JP 2001031464 A JP2001031464 A JP 2001031464A JP 2001031464 A JP2001031464 A JP 2001031464A JP 2002236680 A JP2002236680 A JP 2002236680A
Authority
JP
Japan
Prior art keywords
correspondence
natural language
character
sentence
phrase
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2001031464A
Other languages
English (en)
Inventor
Takayuki Adachi
貴行 足立
Kura Furuse
蔵 古瀬
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Nippon Telegraph and Telephone Corp
Original Assignee
Nippon Telegraph and Telephone Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Nippon Telegraph and Telephone Corp filed Critical Nippon Telegraph and Telephone Corp
Priority to JP2001031464A priority Critical patent/JP2002236680A/ja
Publication of JP2002236680A publication Critical patent/JP2002236680A/ja
Pending legal-status Critical Current

Links

Landscapes

  • Machine Translation (AREA)

Abstract

(57)【要約】 【課題】本発明の課題は、適切な固有名対応を様々な方
法で幅広く得ることができ、且つ対訳用例中で固有名の
出現位置も得られる固有名対応付け方法を提供すること
にある。 【解決手段】本発明は、第1自然言語文とその訳の第2
自然言語文との対である対訳用例から、2言語間で対応
している固有名を得る固有名対応付け方法において、第
2自然言語文の解析情報がない場合でも、第1自然言語
文の解析情報から第1自然言語文の中の固有名を抽出
し、また、2言語間の辞書対応、文字対応、読み対応、
アルファベット対応、辞書−文字対応のデータを適切に
組合せて、2言語間の語句対応を推定し、前記第1自然
言語文中の固有名と前記2言語間の語句対応から2言語
間の固有名対応と各文内の出現位置のデータを抽出する
ことを特徴とする。

Description

【発明の詳細な説明】
【0001】
【発明の属する技術分野】本発明は第1自然言語文とそ
の訳の第2自然言語文との対である対訳用例から、第1
自然言語文と第2自然言語文の間で対応する固有名と対
訳用例中の固有名の位置情報を得る固有名対応付け装置
及び方法、その方法をコンピュータに実行させるプログ
ラム並びにそのプログラムを記録した記録媒体に関す
る。
【0002】
【従来の技術】対訳用例から語句対応を得る方法とし
て、対訳辞書によるもの、対応の頻度による統計的なも
の、発音によるもの、対訳辞書と統計的なものの両方を
利用したものがある。
【0003】対訳辞書による対応付けは、第1自然言語
の語句と第2自然言語の語句の対訳辞書を用いて対訳辞
書を作成するものである。この方法として、「山本由紀
雄,坂本仁:対訳コーパスを用いた専門用語対訳辞書の
作成,情報処理学会研究報告,NL94−12,Vo
l.93,No.26,1993」がある。
【0004】対応の頻度による統計的な対応付けは、文
対応付けされた対訳用例を集めた対訳用例集を用いて、
2言語の文の間で同時に出現する任意の単語列または文
字列の対を抽出し、対訳用例集全体でその対の頻度が所
定の閾値以上である対訳について上位から順に抽出する
ものである。この方法として、「北村美穂子,松本裕
治:対訳コーパスを利用した対訳表現の自動抽出,情報
処理学会論文誌,Vol.38,No.4,1997」
がある。
【0005】発音による対応付けは、輸入した外来語が
輸入先の語句の発音と似ていることを利用して対訳を抽
出するものである。この方法として、特開平10−14
3514の訳語対抽出装置がある。
【0006】対訳辞書と統計的な対応付けは、対訳辞書
による対応度と統計的な対応による対応度を合わせた対
応度によって対訳を得るものであり、日本語の形態素解
析情報を用いて専門用語を抽出し、それと英語単語列と
の対応頻度が閾値以上である対から、対訳辞書と頻度に
基づく対応度を求めて対訳辞書を作成する、「熊野明,
平川秀樹:対訳文書からの機械翻訳専門用語辞書作成,
情報処理学会論文誌,Vol.35,No.11,19
94」がある。
【0007】
【発明が解決しようとする課題】前記対訳辞書による対
応付け方法は、対訳辞書に記載された語に限定されてお
り、対訳辞書にない場合は対応を取ることができない。
【0008】前記統計的な対応付け方法は、同じような
表現が複数回出現する大量の対訳用例が必要であり、最
終的に閾値が高ければ正しい対応だが少数の対訳しか得
られず、低ければ多くの対応を得られるが誤った対応が
含まれることが多くなり、また対訳用例集の全部や一部
を他のものへ変更すると単語列や文字列の出現頻度に影
響を及ぼすことから、閾値をうまく決めて適切な対応を
大量にとることは難しい。
【0009】前記発音による対応付け方法は、日本語と
英語の間に限定したものであって、単語間に空白区切り
がある、固有名の先頭文字を大文字にするといった英語
の表記法の特徴を利用して、大文字で始まる単語やその
連続を事前に固有名として抽出できるが、英語の表記法
とは異なる特徴を持った言語、例えば中国語のような表
記から単語区切りや固有名の区別がないものは、そのま
までは英語と同じような方法で利用できない。
【0010】前記対訳辞書と統計的な対応付けでは、日
本語と対応する英語を求めるのに頻度を利用しているこ
とから、統計的な方法と同様に、適切な対応を大量に取
ることは難しい。
【0011】上記、対訳辞書による方法、統計的な方
法、発音による方法、対訳辞書と統計的な方法では、辞
書を作成することが目的であり、対訳用例中の固有名の
出現位置を得ることは考慮されていない。
【0012】本発明は上記の事情に鑑みてなされたもの
で、適切で幅広い種類の固有名対応が得られ、且つ対訳
用例中で固有名の出現位置も得られる固有名対応付け装
置及び方法、その方法をコンピュータに実行させるプロ
グラム並びにそのプログラムを記録した記録媒体を提供
することを目的とする。
【0013】
【課題を解決するための手段】上記目的を達成するため
に本発明は、第1自然言語文とその訳の第2自然言語文
との対である対訳用例から、2言語間で対応している固
有名を得る固有名対応付け方法において、第2自然言語
文の解析情報がない場合でも、第1自然言語文の解析情
報から第1自然言語文の中の固有名を抽出し、また、2
言語間の辞書対応、文字対応、読み対応、アルファベッ
ト対応、辞書−文字対応のデータを適切に組合せて、2
言語間の語句対応を推定し、前記第1自然言語文中の固
有名と前記2言語間の語句対応から2言語間の固有名対
応と各文内の出現位置のデータを抽出することを特徴と
する。
【0014】本発明は、2言語間で対応を取る際には、
対訳辞書による対応だけでなく、文字や発音やアルファ
ベットによる対応を適切に組合せて処理することで、そ
れぞれ単独の対応付けだけでは得られない幅広い種類の
対応を取れるようにした。
【0015】また、対訳用例の量や同じ表現の出現数に
関わらず、適切な対応を数多く得ることができるように
した。
【0016】また、一方の言語の解析を行わずとも、片
方の言語の解析情報から得られる固有名のデータと2言
語間の対応データを用いるだけで最適な固有名対応が得
られるようにした。
【0017】また、対応付けでは、対訳だけでなく対訳
用例中での固有名の出現位置も得られるようにした。
【0018】
【発明の実施の形態】以下図面を参照して本発明の実施
形態例を詳細に説明する。
【0019】図1は、本発明の一実施形態例に係る装置
の構成図であり、語句対応付け装置1000は、入力さ
れる第1自然言語文を形態素解析する形態素解析部11
00、第1自然言語文の形態素解析結果を用いて、固有
名を抽出する固有名抽出部1200、第1自然言語文の
形態素解析結果から第1自然言語文を加工する文加工部
1300、加工済み第1自然言語文と入力される第2自
然言語文を用いて、第1自然言語文と第2自然言語文の
語句対応を調べる語句対応部1400、第1自然言語文
と第2自然言語文と固有名抽出部1200から出力され
る固有名データと語句対応部1400から出力される語
句対応データを用いて、固有名抽出部1200で得られ
た第1自然言語文の中にある固有名の対訳を第2自然言
語文から調べ、固有名対応データを出力する固有名対応
部1500からなる。
【0020】図2は、加工済み第1自然言語文と第2自
然言語文を入力し、2言語の文の間での語句対応を調
べ、その結果を語句対応データとして出力する語句対応
部1400の構成図であり、対訳辞書を用いて2言語の
文の間で語句の対応を調査する辞書対応部1420、第
1自然言語と第2自然言語の文字の共通性をもとに2言
語の文の間で文字の対応を調査する文字対応部143
0、第1自然言語文と第2自然言語文で現れる語の読み
の類似性をもとに語句の対応を調査する読み対応部14
40、第2自然言語文中に現れるアルファベットに対し
て加工済み第1自然言語文の対応語句を調査するアルフ
ァベット対応部1450、対訳辞書と文字対応を利用し
て対応を調査する辞書−文字対応部1460、各対応部
の対応結果を対応付け順番表1490の順番で組合せ、
2言語の文間で最適な語句対応を語句対応データとして
出力する語句対応抽出部1410からなる。
【0021】図3は、加工済み第1自然言語文と第2自
然言語文を入力し、第1−第2自然言語対訳辞書142
5を用いて文中の語句の対応を調査する辞書対応部14
20の構成図であり、加工済み第1自然言語文の特定の
文字を加工する部分文字加工部1421、その加工をし
た文の部分文字列を切り出して第1−第2自然言語対訳
辞書1425を検索し、その部分文字列の訳を引いてく
る辞書検索部1422、引いてきた訳が第2自然言語文
に含まれているものだけを抽出する辞書対応抽出部14
23、部分文字加工部1421で施した加工がされてい
る語句の対応に関して、加工前の状態に復元して、辞書
対応データを出力する対訳語句加工部1424からな
る。
【0022】図4は、加工済み第1自然言語文と第2自
然言語文を入力し、文字対応データを出力する文字対応
部1430の構成図であり、加工済み第1自然言語文を
共通の文字コードへ変換する第1自然言語共通文字コー
ド変換部1431、第2自然言語文を共通の文字コード
へ変換する第2自然言語共通文字コード変換部143
2、共通文字コードで第1自然言語と第2自然言語の文
字が一致するか、もしくは文字対応辞書1435にある
異体字対応を利用して共通文字コードは異なるが異体字
として一致する対応を抽出する文字対応抽出部143
3、対応のあった文字に関して第1自然言語共通文字コ
ード変換部1431と第2自然言語共通文字コード変換
部1432で変換されていた文字コードを元の文字コー
ドに復元して文字対応データを出力する文字コード復元
部1434からなる。
【0023】図5は、加工済み第1自然言語文と第2自
然言語文を入力し、発音の類似性から読み対応データを
出力する読み対応部1440の構成図であり、加工済み
第1自然言語文から特定の文字を抽出加工する部分文字
抽出加工部1441、第2自然言語文と語の発音辞書1
445を用いて、語に読みデータを付与する読み付与部
1442、部分文字抽出加工部1441で抽出された語
の読みを推定し、その発音と類似する箇所を第2自然言
語文の読みデータから調べて対応を求める読み対応抽出
部1443、第2自然言語で対応した読みを単語表記に
変換し、第1自然言語の語句との読み対応データを出力
する表記変換部1444からなる。
【0024】図6は、第2自然言語文に含まれているア
ルファベットで表わされる箇所と加工済み第1自然言語
文との対応を調べるアルファベット対応部1450の構
成図であり、第2自然言語文に含まれているアルファベ
ットを抽出するアルファベット抽出部1451、アルフ
ァベット抽出部1451で得られたアルファベットを第
1自然言語−アルファベット対訳辞書1454から引
き、引かれた語句が加工済み第1自然言語文に含まれる
ものをアルファベット辞書対応データとして出力するア
ルファベット辞書対応部1452、アルファベット抽出
部1451で得られたアルファベットを加工済み第1自
然言語文との読みをもとに対応を得てアルファベット読
み対応データを出力するアルファベット読み対応推定部
1453からなる。
【0025】図7は、加工済み第1自然言語文の一部の
語を第1−第3自然言語対訳辞書で引き、さらに第1−
第3自然言語対訳辞書で逆引きすることで、第1自然言
語と意味的に同じで別表記の語を抽出し、その語と第2
自然言語の間で文字対応を求める辞書−文字対応部14
60の構成図であり、加工済み第1自然言語文を加工す
る辞書−文字対応用部分文字加工部1461、第1−第
3自然言語対訳辞書1465から加工された文字列を辞
書引きする第1−第3自然言語辞書検索部1462と、
第1−第3自然言語対訳辞書1465から得られた第3
自然言語の語を逆引きする第3−第1自然言語辞書検索
部1463と、得られた第1自然言語の語句と第2自然
言語文との文字対応を調べる文字対応部1430と、辞
書−文字対応用部分文字加工部1461で得られた第1
自然言語の語との対応を抽出する辞書−文字対応抽出部
1464からなる。
【0026】図8は、いくつかの異なる対応データと加
工済み第1自然言語文と第2自然言語文を入力し、第1
自然言語文と第2自然言語文の最適な語句対応データを
抽出する語句対応抽出部1410の構成図であり、いく
つかの異なる対応データと加工済み第1自然言語文と第
2自然言語文から対応データを対応付け順番表1490
の順に組合わせて対応表を作成する対応表作成部141
1、作成した対応表から両言語で最適な対応を推定する
最適対応推定部1412からなる。
【0027】
【実施例】以下、図面と共に本発明の実施例を説明す
る。以下の実施例では第1自然言語を日本語、第2自然
言語を中国語として説明するが、これに限定されない。
【0028】実施例1 辞書対応、アルファベット辞書対応、文字対応を利用し
た固有名対応付けの例を示す。
【0029】図9にある対訳用例のうち、文番号1に関
して固有名対応付けを行う。
【0030】図1の第1自然言語文は「渡辺つる子は工
芸家です。」、第2自然言語文は
【表1】 である。
【0031】形態素解析部1100では、図10の文番
号1にあるような形態素解析が行われる。日本語形態素
解析結果の、“/”は単語区切りを、“(”と“)”の
括弧に囲まれた4つの文字は品詞等の形態素情報を、各
行の先頭の数字は文の先頭からの文節番号を表わし、1
つの文節を1行で記述している。
【0032】固有名抽出部1200では、形態素解析済
みの日本語文の各文節から図11の固有名抽出用パター
ン表に現れる品詞パターンを用いて固有名を抽出する。
まず、形態素解析結果から品詞列を抽出し、図11の各
パターンと一致するか調べて処理を進める。図11のパ
ターン表記はプログラミング言語Perlの文字列マッ
チングでの書式を利用しているが同等のものであればこ
の書式に限定しない。図11の文節頭削除パターンで各
文節の先頭部分と一致する品詞列に対応する語句を削除
するが、該当するものがないので何も削除されない。ま
た、文節末削除パターンで各文節の末尾部分と一致する
品詞列に対応する語句を削除すると、残った文字列は、
「渡辺つる子」、「工芸家」となる。次に、残った部分
と一致パターンとで一致したものを調べると一致する品
詞列に対応する語句である「渡辺つる子」が該当し、こ
れらの文字列を固有名とする。最後に図12の文番号1
のように、文頭からの位置情報(0から)とその固有名
を固有名データとして抽出する。
【0033】図1の文加工部1300では、日本語形態
素解析結果から日中の固有名詞の対応付けには不要と考
えられる名詞や接尾辞以外の部分を普段使われない記号
に置換すると、図13の文番号1のように加工済み日本
語文
【表2】 となる。
【0034】図1の語句対応部1400では、図2のよ
うな構成となっており、入力された加工済み日本語文と
中国語文を用いて、いくつかの異なった方法で日本語と
中国語の部分的な対応を調べる。
【0035】辞書対応部1420では、図3に示すよう
な構成になっており、事前に辞書中の日本語の仮名を全
てカタカナに統一している。部分文字加工部1421で
は、加工済み日本語文のひらがなをカタカナに変換する
と、
【表3】 となる。辞書検索部1422では、日本語文をあらゆる
部分文字列で切り出した文字をキーとして日中対訳辞書
からキーと一致する見出し語とその中国語を抽出する。
この例では日中対訳辞書が図14のようなものであった
場合、
【表4】 を抽出し、図15の文番号1のように各対応する単語の
最初の文字について文の先頭からの位置と一緒に抽出す
る。
【0036】文字対応部1430では、図4に示すよう
な構成になっており、第1自然言語共通文字コード変換
部1431では、第1自然言語の文字コードをUnic
odeの文字コードに変換し、第2自然言語共通文字コ
ード変換部1432では、第2自然言語の文字コードを
Unicodeの文字コードに変換する。Unicod
eは多数の言語の文字を同じコード体系で表わすもので
あり、日本語と中国語においては漢字の表記が似ている
ものは同じコードに割り当てられている。固有名の場
合、日本語と中国語で同じ漢字を用いることが多く、ま
た、日本語と中国語の中には同じ漢字で同じ意味となる
ものもあるので対応に利用する。文字対応抽出部143
3では、日中で同じUnicodeの対応を抽出する
と、「¥u6e21(渡)」=「¥u6e21
(渡)」、「¥u5b50(子)」=「¥u5b50
(子)」、「¥u5de5(工)」=「¥u5de5
(工)」、「¥u5bb6(家)」=「¥u5bb6
(家)」の対応が得られる(括弧は対応する文字)。ま
た、文字対応辞書1435を用いてUnicodeの文
字コードは異なるが、異体字として同じ文字と考えられ
る文字コード同士で対応を抽出すると、
【表5】 の対応が得られる。文字コード復元部1434では、得
られた文字対応を元の文字コードに復元し、各対応文字
について文の先頭からの文字数とその文字を抽出する
(図16の文番号1)。
【0037】読み対応部1440では、図5に示すよう
な構成になっている。部分文字抽出加工部1441で
は、加工済み日本語文からカタカナを抽出する。この例
では、カタカナはないので何も出力しない。
【0038】アルファベット対応部1450では、中国
語でのアルファベットで表記されている部分の対応を求
めるものであり、図6に示すような構成になっている。
第2自然言語文はアルファベット抽出部1451で中国
語文から「Tsuru」を抽出する。アルファベット辞
書対応部1452では、日本語の仮名とアルファベット
との対応は日英対応付けを考慮すればよいので、日英対
訳辞書を用いて、アルファベットに対応する日本語の仮
名を引き、日本語文中に含まれているものを出力する。
この例では、「つる」=「Tsuru」が該当するの
で、その語と文頭からの位置情報を得る。なお、辞書で
引かれた日本語が文中の日本語に含まれているかを調べ
る際には、辞書で引かれた日本語および日本語文中のひ
らがなをカタカナに統一して一致する文字列を探す。
【0039】アルファベット読み対応推定部1453で
は、特開平10−143514をそのまま用いて対応を
調べると、「つる」=「Tsuru」が得られるので、
その語と文頭からの位置情報を出力する。
【0040】辞書−文字対応部1460では、図7に示
すような構成になっている。この処理では仮名もしくは
ローマ字を対象として外来語の仮名と同じ意味の日本語
漢字を抽出し、中国語との文字対応を取る。辞書−文字
対応用部分文字加工部1461では、加工済み日本語文
から仮名もしくはアルファベットを抽出する。アルファ
ベットがローマ字であればそれを仮名に変換する。ここ
では仮名をカタカナに統一する。この場合「ツル」が該
当する。第3自然言語を英語として、第1−第3自然言
語辞書検索部1462で検索すると、「ツル」=「ts
uru」が得られ、さらに第3−第1自然言語辞書検索
部1463で「tsuru」=「津留、鶴、都留」が得
られる。これと中国語文との間の文字対応を文字対応部
1430で求めると対応する文字はないので、辞書−文
字対応抽出部1464では何も抽出されない。
【0041】図2の語句対応抽出部1410では対応す
るアルファベット対応部、辞書対応部、文字対応部、読
み対応部、辞書−文字対応部から得られる対応データを
組合せて文全体で最適な対応を得る。
【0042】図20は、対応付け順番表1490の例で
あり、その順番は対応の誤りが少ない順に並べており、
順番に従って2言語間で対応のあった箇所を調べ、図2
1の対応表を作成する。対応表のiは日本語、jは中国
語の文字を並べたものであり、日本語のi番目の文字と
中国語のj番目の文字とで交差した部分の値が1であれ
ば対応があることを示している。
【0043】図21の対応表を基に、日本語と中国語の
並びが同じで連続して対応する語や文字を0≦i≦1
1、0≦j≦11まで順番に調べたのち、日本語,中国
語の対応文字数の合計が最大のものから順番に選択して
いく。図20にある対応付け順番表の順番1で日中の対
応が決定できるものを順に調べると、まず、日本語5文
字、中国語8文字の計13文字が対応する
【表6】 が選択される。次に、日本語3文字、中国語3文字の計
6文字が対応する
【表7】 が選択される。残りの対応はないので以上が対応として
得られる。
【0044】図1の固有名対応部1500では、文加工
部1300の加工済み日本語文と中国語文と語句対応部
1400から得られる語句対応データと、固有名抽出部
1200から得られる日本語固有名を用いて、日本語固
有名に対応する中国語固有名を抽出する。
【0045】日本語固有名は図12から「渡辺つる子」
であり、日本語「渡辺つる子」の中国語の対応を調べる
【表8】 が連続した文字列となっている。最後に固有名対応デー
タとして固有名の最初の文字について文頭からの位置と
固有名の情報
【表9】 が出力される。
【0046】実施例2 辞書対応、文字対応、読み対応を利用した固有名対応付
けの例を示す。
【0047】図9にある対訳用例のうち、文番号2に関
して固有名対応付けを行う。
【0048】図1の第1自然言語文は「日本にペリー提
督が黒船で上陸した時、条約を結んだ場所。」、第2自
然言語文は
【表10】 である。
【0049】形態素解析部1100では、図10の文番
号2にあるような形態素解析が行われる。日本語形態素
解析結果の“/”は単語区切りを、“(”と“)”の括
弧に囲まれた4つの文字は品詞等の形態素情報を、各行
の先頭の数字は文の先頭からの文節番号を表わし、1つ
の文節を1行で記述している。
【0050】固有名抽出部1200では、形態素解析済
みの日本語文の各文節から図11の固有名抽出用パター
ン表に現れる品詞パターンを用いて固有名を抽出する。
まず、形態素解析結果から品詞列を抽出し、図11の各
パターンと一致するか調べて処理を進める。図11のパ
ターン表記はプログラミング言語Perlの文字列マッ
チングでの書式を利用しているが同等のものであればこ
の書式に限定しない。図11の文節頭削除パターンで各
文節の先頭部分と一致する品詞列に対応する語句である
文節番号4の「上陸し」と文節番号7の「結ん」の部分
が該当するので削除される。また、文節末削除パターン
で各文節の末尾部分と一致する品詞列に対応する語句を
削除すると、残った文字列は、「日本」、「ペリー提
督」、「黒船」「時」、「条約」、「場所」となる。次
に、残った部分と一致パターンとで一致するものを調べ
ると「日本」と「ペリー提督」が該当し、これらの文字
列を固有名とする。最後に図12の文番号2のように、
文頭(0)からの文字の位置情報とその固有名を固有名
データとして抽出する。
【0051】図1の文加工部1300では、日本語形態
素解析結果から品詞が名詞や接尾辞以外の語は日中の固
有名対応に利用されることは少ないと考えて、該当する
語を普段使わない記号に置換すると、図13の文番号2
のように加工済み日本語文
【表11】 となる。
【0052】図1の語句対応部1400では、図2のよ
うな構成となっており、入力された加工済み日本語文と
中国語文を用いて、いくつかの異なった方法で日本語と
中国語の部分的な対応を調べる。
【0053】辞書対応部1420では、図3に示すよう
な構成になっており、事前に辞書中の日本語の仮名を全
てカタカナに統一している。部分文字加工部1421で
は、加工済み日本語文の平仮名をカタカナに変換する
と、
【表12】 となる。辞書検索部1422では、日本語文をあらゆる
部分文字列で切り出した文字をキーとして日中対訳辞書
からキーと一致する見出し語とその中国語を抽出する。
この例では日中対訳辞書が図14のようなものであった
場合、
【表13】 を抽出し、辞書対応抽出部1423で日本語文と中国語
文の語句対応を調べて、対訳語句加工部1424で平仮
名をカタカナに変換していた文字を元に戻した後、図1
5のように各対応する単語の最初の文字について文の先
頭からの位置と一緒に抽出する。
【0054】文字対応部1430では、図4に示すよう
な構成になっており、第1自然言語共通文字コード変換
部1431では、第1自然言語の文字コードをUnic
odeの文字コードに変換し、第2自然言語共通文字コ
ード変換部1432では、第2自然言語の文字コードを
Unicodeの文字コードに変換する。Unicod
eは多数の言語の文字を同じコード体系で表わすもので
あり、日本語と中国語においては漢字の表記が似ている
ものは同じコードに割り当てられている。固有名の場
合、日本語と中国語で同じ漢字を用いることが多く、ま
た、日本語と中国語の中には同じ漢字で同じ意味となる
ものもあるので対応に利用する。文字対応抽出部143
3では、日中で同じUnicodeの対応
【表14】 の対応が得られる(括弧は対応する文字)。また、文字
対応辞書1435を用いてUnicodeの文字コード
は異なるが、異体字である対応
【表15】 が得られる。文字コード復元部1434では、得られた
文字対応を元の文字コードに復元し、各対応文字につい
て文頭からの文字位置とその文字を抽出する(図16の
文番号2)。
【0055】読み対応部1440では、図5に示すよう
な構成になっている。部分文字抽出加工部1441で
は、加工済み日本語文からカタカナを抽出する。この例
では「ペリー」が抽出される。読み付与部1442で
は、発音辞書1445を用いて中国語の漢字連続部分に
対して発音記号であるピンインを付与する。この例では
図17のようになり、同じ列に複数ピンインがあるもの
は同じ文字の別の読みを表わしている。読み対応抽出部
1443では、特開平10−143514の方法の一部
を利用し、英語の読みの部分を中国語の読みに合うよう
に変更して、日本語カタカナと中国語ピンインの対応を
行っており、「ペリー」に対して「pei−li」が得
られる。表記変換部1444では、ピンインに対応する
中国語文字列を調べて対応を抽出するもので、「pei
−li」の表記は「培理」であることから、「ペリー」
=「培理」を抽出し、同時に文頭からの文字位置とその
文字を抽出する(図18の文番号2)。
【0056】アルファベット対応部1450では、中国
語でのアルファベットで表記されている部分の対応を求
めるものであるが、この例では中国語文にアルファベッ
トが含まれていないので何も対応データを返さない。
【0057】辞書−文字対応部1460では、図7に示
すような構成になっている。この処理では仮名もしくは
ローマ字を対象として外来語の仮名と同じ意味の日本語
漢字を抽出し、中国語との文字対応を取る。辞書−文字
対応用部分文字加工部1461では、加工済み日本語文
から仮名もしくはアルファベットを抽出する。アルファ
ベットがローマ字であればそれを仮名に変換する。ここ
では仮名をカタカナに統一する。この場合「ペリー」が
該当する。第3自然言語を英語として、第1−第3自然
言語辞書検索部1462で検索すると対応するものが見
つからないので、辞書−文字対応抽出部1464では何
も抽出されない。
【0058】図2の語句対応抽出部1410では対応す
るアルファベット対応部、辞書対応部、文字対応部、読
み対応部、辞書−文字対応部から得られる対応データを
組み合せて文全体で最適な対応を得る。
【0059】図20は、対応付け順番表1490の例で
あり、その順番は対応の誤りが少ない順に並べており、
順番に従って2言語間で対応のあった箇所を調べ、図2
3の対応表を作成する。対応表のiは日本語、jは中国
語の文字を並べたものであり、日本語のi番目の文字と
中国語のj番目の文字とで交差した部分の値が1であれ
ば対応があることを示している。図23で、実線は最終
的に得られた対応、点線はそれ以外である。
【0060】図23の対応表を基に、日本語と中国語の
並びが同じで連続して対応する語や文字を0≦i≦2
6、0≦j≦24まで順番に調べたのち、日本語、中国
語の対応文字数の合計が最大のものから順番に選択して
いく。図20にある対応付け順番表の順番1で、まず、
日中の対応が決定できるものを順に調べると、日本語で
2文字、中国語で2文字の計4文字が対応する「日本」
=「日本」および「提」=「提」、「督」=「督」およ
【表16】 の4つが選択される。次に、日本語1文字、中国語1文
字の計2文字が対応する
【表17】 が選択される。次に、図20にある対応付け順番表の順
番2の発音による対応を調べると、「ペリー」=「培
理」が見つかる。このとき、見つかった読み対応と他の
対応とが全く重複しないか、見つかった読み対応が既に
ある対応を包含し、かつ読み対応の方が日本語での対応
語句数が多い場合は、読み対応の方を優先させる。この
例では、対応「リ」=「里」が既に選択されているが、
その対応は対象外となり、読み対応「ペリー」=「培
理」を選択する。
【0061】最終的に図22のような文頭からの文字位
置と語句対応からなる語句対応データが得られる。
【0062】図1の固有名対応部1500では、文加工
部1300の加工済み日本語文と中国語文と語句対応部
1400から得られる語句対応データと、固有名抽出部
1200から得られる日本語固有名を用いて、日本語固
有名に対応する中国語固有名を抽出する。
【0063】日本語固有名は図12から「日本」と「ペ
リー提督」であり、日本語「日本」の中国語の対応を調
べると「日本」と連続した文字列となっている。また、
「ペリー提督」も同様に連続した文字列「培理提督」と
適切な対応付けがされている。
【0064】最後に固有名対応データとして固有名の最
初の文字について文頭からの位置と固有名の情報「0、
日本」=「10、日本」、「3、ペリー提督」=「0、
培理提督」が出力される。
【0065】実施例3 固有名の全文字が2言語間で対応していない場合の固有
名抽出例を示す。
【0066】図9にある対訳用例のうち、文番号3に関
して固有名対応付けを行う。
【0067】図1の第1自然言語文は「静岡市観光レク
リエーション課。」、第2自然言語文は
【表18】 である。
【0068】形態素解析部1100では、図10の文番
号3にあるような形態素解析が行われる。日本語形態素
解析結果の“/”は単語区切りを、“(”と“)”の括
弧に囲まれた4つの文字は品詞等の形態素情報を、各行
の先頭の数字は文の先頭からの文節番号を表わし、1つ
の文節を1行で記述している。
【0069】固有名抽出部1200では、形態素解析済
みの日本語文の各文節から図11の固有名抽出用パター
ン表に現れる品詞パターンを用いて固有名を抽出する。
まず、形態素解析結果から品詞列を抽出し、図11の各
パターンと一致するか調べて処理を進める。図11のパ
ターン表記はプログラミング言語Perlの文字列マッ
チングでの書式を利用しているが同等のものであればこ
の書式に限定しない。図11の文節頭削除パターンで各
文節の先頭部分と一致する品詞列に対応する語句を削除
するが、該当するものがないので何も削除されない。ま
た、文節末削除パターンで各文節の末尾部分と一致する
品詞列に対応する語句を削除すると、残った文字列は、
「静岡市観光レクリエーション課」となる。次に、残っ
た部分と一致パターンとで一致した品詞列に対応する語
句を調べると「静岡市観光レクリエーション課」が該当
し、これらの文字列を固有名とする。最後に図12の文
番号3のように、文頭からの文字位置(0から)とその
固有名を固有名データとして抽出する。
【0070】図1の文加工部1300では、日本語形態
素解析結果から日中の固有名詞の対応付けには不要と考
えられる名詞や接尾辞以外の部分を普段使われない記号
に置換すると図13の文番号3のように加工済み日本語
【表19】 となる。
【0071】図1の語句対応部1400では、図2のよ
うな構成となっており、入力された加工済み日本語文と
中国語文を用いて、いくつかの異なった方法で日本語と
中国語の部分的な対応を調べる。
【0072】辞書対応部1420では、図3に示すよう
な構成になっており、部分文字加工部1421で、加工
済み日本語文のひらがなをカタカナに変換するとひらが
なの部分はないので、
【表20】 となる。辞書検索部1422では、日本語文をあらゆる
部分文字列で切り出した文字をキーとして日中対訳辞書
からキーと一致する見出し語とその中国語を抽出する。
この例では日中対訳辞書が図14のようなものであった
場合、
【表21】 を抽出し、図15の文番号3ように各対応する単語の最
初の文字について文の先頭からの位置と一緒に抽出す
る。
【0073】文字対応部1430では、図4に示すよう
な構成になっており、第1自然言語共通文字コード変換
部1431では、第1自然言語の文字コードをUnic
odeの文字コードに変換し、第2自然言語共通文字コ
ード変換部1432では、第2自然言語の文字コードを
Unicodeの文字コードに変換する。Unicod
eは多数の言語の文字を同じコード体系で表わすもので
あり、日本語と中国語においては漢字の表記が似ている
ものは同じコードに割り当てられたものである。固有名
の場合、日本語と中国語で同じ漢字を用いることが多
く、また、日本語と中国語の中には同じ漢字で同じ意味
となるものもあるので対応にも利用する。文字対応抽出
部1433では、日中で同じUnicodeの対応を抽
出すると、「¥u9759(静)」=「¥u9759
(静)」、「¥u5e02(市)」=「¥u5e02
(市)」、「¥u5149(光)」=「¥u5149
(光)」の対応が得られる(括弧は対応する文字)。ま
た、文字対応辞書1435を用いてUnicodeの文
字コードは異なるが、異体字として同じ文字と考えられ
る文字コード同士で対応を抽出すると、
【表22】 の対応が得られる。文字コード復元部1434では、得
られた文字対応を元の文字コードに復元し、各対応文字
について文頭からの文字位置とその文字を抽出する(図
16の文番号3)。
【0074】読み対応部1440では、図5に示すよう
な構成になっている。部分文字抽出加工部1441で
は、加工済み日本語文からカタカナを抽出する。この例
では「レクリエーション」が抽出される。読み付与部1
442では、発音辞書1445を用いて中国語の漢字連
続部分に対して発音記号であるピンインを付与する。こ
の例では図24のようになり、同じ列に複数ピンインが
あるものは同じ文字の違う読みを表わしている。読み対
応抽出部1443では、特開平10−143514の方
法で、英語の読みの部分を中国語の読みに合うように変
更して、日本語カタカナと中国語ピンインの対応を行う
と、「レクリエーション」に対するピンインは得られな
いので、読み対応部は何も出力されない。
【0075】アルファベット対応部1450では、中国
語でのアルファベットで表記されている部分の対応を求
めるものであるが、この例では中国語文にアルファベッ
トが含まれていないので何も対応データを返さない。
【0076】辞書−文字対応部1460では、図7に示
すような構成になっている。この処理では仮名もしくは
ローマ字を対象として外来語の仮名と同じ意味の日本語
漢字を抽出し、中国語との文字対応を取る。辞書−文字
対応用部分文字加工部1461では、加工済み日本語文
から仮名もしくはアルファベットを抽出する。アルファ
ベットがローマ字であればそれを仮名に変換する。ここ
では仮名をカタカナに統一する。この場合「レクリエー
ション」が該当する。第3自然言語を英語として、第1
−第3自然言語辞書検索部1462で検索すると、「レ
クリエーション」=「recreation」が得ら
れ、さらに第3−第1自然言語辞書検索部1463で
「recreation」=「慰安、気保養、休養、保
養」が得られる。これと中国語文との間の文字対応を文
字対応部1430で求めると対応する文字はないので、
辞書−文字対応抽出部1464では何も抽出されない。
【0077】図2の語句対応抽出部1410では対応す
るアルファベット対応部、辞書対応部、文字対応部、読
み対応部、辞書−読み対応部から得られる対応データを
組合せて文全体で最適な対応を得る。
【0078】図20は、対応付け順番表1490の例で
あり、その順番は対応の誤りが少ない順に並べており、
順番に従って2言語間で対応のあった箇所を調べ、図2
5の対応表を作成する。対応表のiは日本語、jは中国
語の文字を並べたものであり、日本語のi番目の文字と
中国語のj番目の文字とで交差した部分の値が1であれ
ば対応があることを示している。図25で、実線は最終
的に得られた対応、点線はそれ以外である。
【0079】図25の対応表を基に、日本語と中国語の
並びが同じで連続して対応する語や文字を0≦i≦1
4、0≦j≦8まで順番に調べたのち、日本語、中国語
の対応文字数の合計が最大のものから順番に選択してい
く。図20にある対応付け順番表の順番1で、まず、日
中の対応が決定できるものを順に調べると、まず、日本
語で5文字、中国語で5文字の計10文字が対応する
【表23】 が選択される。このとき、その対応と重複して現れてい
るものは、対応誤りと考え、「シ」=「市」の対応を対
象外とする。最後に、日本語1文字、中国語1文字の計
2文字が対応する
【表24】 が選択される。
【0080】これ以上対応がないので、最終的に文頭か
らの文字位置と語句を各言語の対応順に並べた図22の
文番号3のような語句対応データが得られる。
【0081】図1の固有名対応部1500では、文加工
部1300の加工済み日本語文と中国語文と語句対応部
1400から得られる語句対応データと、固有名抽出部
1200から得られる日本語固有名を用いて、日本語固
有名に対応する中国語固有名を抽出する。
【0082】日本語固有名は図12から「静岡市観光レ
クリエーション課」であり、日本語「静岡市観光レクリ
エーション課」の中国語の対応を調べると「静岡市観
光」と
【表25】 が対応しているが連続した文字列とはなっていない。し
かし、固有名は連接した文字列となる可能性が高いと考
え、日本語と中国語の先頭と末尾文字が対応しており、
その他の文字がその間で対応付けされているので、対応
付けされていない文字も
【表26】 の範囲にあると推定する。次に、日本語固有名と中国語
固有名の文字数の差が大きく、固有名中の未対応数が多
いと誤った対応となる可能性があるので、事前に設定し
た条件を満たすかを調べる。この例では固有名の文字数
の差が、閾値T1(2言語で短い方の固有名の文字数)
以下でかつ、日中の未対応文字数と日中の文字数の割合
が閾値T2(0.5)以下ならば抽出する。なお閾値は
一例である。この場合は、日本語の固有名が14文字、
中国語の固有名が8文字であり、その差が6文字は短い
ほうの中国語固有名の8文字以下でありかつ、日中の未
対応文字数(8+2)と日中の文字数(14+8)の割
合が0.45であるため、日本語固有名に対する中国語
固有名として、
【表27】 を抽出し、固有名の最初の文字の文頭からの位置と固有
名の情報
【表28】 が出力される(図26)。
【0083】実施例4 2言語間でいくつかの異なる対応を重要度に応じて適切
に組合せる固有名抽出例を示す。
【0084】図9にある対訳用例のうち、文番号4に関
して固有名対応付けを行う。
【0085】図1の第1自然言語文は「元イギリス総領
事館公邸のイギリス館がある。」、第2自然言語文は
【表29】 である。
【0086】形態素解析部1100では、図10の文番
号4にあるような形態素解析が行われる。日本語形態素
解析結果の“/”は単語区切りを、“(”と“)”の括
弧に囲まれた4つの文字は品詞等の形態素情報を、各行
の先頭の数字は文の先頭からの文節番号を表わし、1つ
の文節を1行で記述している。
【0087】固有名抽出部1200では、形態素解析済
みの日本語文の各文節から図11の固有名抽出用パター
ン表に現れる品詞パターンを用いて固有名を抽出する。
まず、形態素解析結果から品詞列を抽出し、図11の各
パターンと一致するか調べて処理を進める。図11のパ
ターン表記はプログラミング言語Perlの文字列マッ
チングでの書式を利用しているが同等のものであればこ
の書式に限定しない。図11の文節頭削除パターンで各
文節の先頭部分と一致する品詞列に対応する語句を削除
する。また、文節末削除パターンで各文節の末尾部分と
一致する品詞列に対応する語句を削除すると、残った文
字列は、「イギリス総領事館」と「イギリス館」とな
る。
【0088】次に、残った部分と一致パターンとで一致
した品詞列に対応する語句を調べると「イギリス総領事
館」と「イギリス館」が該当し、これらの文字列を固有
名とする。最後に図12の文番号4のように、文頭から
の文字位置(0から)とその固有名を固有名データとし
て抽出する。
【0089】図1の文加工部1300では、日本語形態
素解析結果から日中の固有名詞の対応付けには不要と考
えられる名詞や接尾辞以外の部分を普段使われない記号
に置換すると図13の文番号4のように加工済み日本語
【表30】 となる。
【0090】図1の語句対応部1400では、図2のよ
うな構成となっており、入力された加工済み日本語文と
中国語文を用いて、いくつかの異なった方法で日本語と
中国語の部分的な対応を調べる。
【0091】辞書対応部1420では、図3に示すよう
な構成になっており、部分文字加工部1421で、加工
済み日本語文のひらがなをカタカナに変換すると、
【表31】 となる。辞書検索部1422では、日本語文をあらゆる
部分文字列で切り出した文字をキーとして日中対訳辞書
からキーと一致する見出し語とその中国語を抽出する。
この例では日中対訳辞書が図14のようなものであった
場合、
【表32】 を抽出し、図15の文番号4のように各対応する単語の
最初の文字について文の先頭からの位置と一緒に抽出す
る。
【0092】文字対応部1430では、図4に示すよう
な構成になっており、第1自然言語共通文字コード変換
部1431では、第1自然言語の文字コードをUnic
odeの文字コードに変換し、第2自然言語共通文字コ
ード変換部1432では、第2自然言語の文字コードを
Unicodeの文字コードに変換する。Unicod
eは多数の言語の文字を同じコード体系で表わすもので
あり、日本語と中国語においては漢字の表記が似ている
ものは同じコードに割り当てられたものである。固有名
の場合、日本語と中国語で同じ漢字を用いることが多
く、また、日本語と中国語の中には同じ漢字で同じ意味
となるものもあるので対応に利用する。
【0093】文字対応抽出部1433では、日中で同じ
Unicodeの対応を抽出すると、「¥u4e8b
(事)」=「¥u4e8b(事)」、「¥u516c
(公)」=「¥u516c(公)」の対応が得られる
(括弧は対応する文字)。
【0094】また、文字対応辞書1435を用いてUn
icodeの文字コードは異なるが、異体字として同じ
文字と考えられる文字コード同士で対応を抽出すると、
【表33】 の対応が得られる。文字コード復元部1434では、得
られた文字対応を元の文字コードに復元し、各対応文字
について文頭からの文字位置とその文字を抽出する(図
16の文番号4)。
【0095】読み対応部1440では、図5に示すよう
な構成になっている。部分文字抽出加工部1441で
は、加工済み日本語文からカタカナを抽出する。この例
では「イギリス」が抽出される。読み付与部1442で
は、発音辞書1445を用いて中国語の漢字連続部分に
対して発音記号であるピンインを付与する。この例では
図27のようになり、同じ列に複数ピンインがあるもの
は同じ文字の違う読みを表わしている。読み対応抽出部
1443では、特開平10−143514の方法で、英
語の読みの部分を中国語の読みに合うように変更して、
日本語カタカナと中国語ピンインの対応を行うと、「イ
ギリス」に対するピンインとして
【表34】 が得られる(図18の文番号4)。
【0096】アルファベット対応部1450では、中国
語でのアルファベットで表記されている部分の対応を求
めるものであるが、この例では中国語文にアルファベッ
トが含まれていないので何も対応データを返さない。
【0097】辞書−文字対応部1460では、図7に示
すような構成になっている。この処理では仮名もしくは
ローマ字を対象として外来語の仮名と同じ意味の日本語
漢字を抽出し、中国語との文字対応を取る。辞書−文字
対応用部分文字加工部1461では、加工済み日本語文
から仮名もしくはアルファベットを抽出する。アルファ
ベットがローマ字であればそれを仮名に変換する。ここ
では仮名をカタカナに統一する。この場合「イギリス」
が該当する。第3自然言語を英語として、第1−第3自
然言語辞書検索部1462で検索すると、「イギリス」
=「GreatBritain」が得られ、さらに第3
−第1自然言語辞書検索部1463で「Great B
ritain」=「英国」が得られる。これと中国語文
との間の文字対応を文字対応部1430で求めると「¥
u82f1(英)」=「¥u82f1(英)」、「¥u
56fd(国)」=「¥u56fd(国)」が対応する
ので、「イギリス」=「英国」の対応が得られる(図1
9の文番号4)。
【0098】図2の語句対応抽出部1410では対応す
るアルファベット対応部、辞書対応部、文字対応部、読
み対応部、辞書−文字対応部から得られる対応データを
組合せて文全体で最適な対応を得る。
【0099】図20は、対応付け順番表1490の例で
あり、その順番は対応の誤りが少ない順に並べており、
順番に従って2言語間で対応のあった箇所を調べ、図2
8の対応表を作成する。対応表のiは日本語、jは中国
語の文字を並べたものであり、日本語のi番目の文字と
中国語のj番目の文字とで交差した部分の値が1であれ
ば対応があることを示している。図28で、実線は最終
的に得られた対応、点線はそれ以外である。
【0100】図28の対応表を基に、日本語と中国語の
並びが同じで連続して対応する語や文字を0≦i≦2
0、0≦j≦17まで順番に調べたのち、日本語、中国
語の対応文字数の合計が最大のものから順番に選択して
いく。図20にある対応付け順番表の順番1で、まず、
日中の対応が決定できるものを順に調べると、日本語で
4文字、中国語で4文字の計8文字が対応する
【表35】 が選択される(辞書と文字の対応のように、同じ対応が
重複して現れた場合は、図20の順番1に並べている順
の最左にある対応を選択する)。このとき、その対応と
重複して現れている日本語と中国語は対応誤りと考え、
【表36】 を対象外とする。次に、日本語が5文字、中国語で3文
字の計8文字が対応する
【表37】 が選択される。このとき1≦i≦4、13≦j≦14の
対応「イギリス」=「英国」、12≦i≦15、4≦j
≦5の対応
【表38】 を対象外とする。次に日本語が4文字、中国語で2文字
の計6文字が対応する1≦i≦4、4≦j≦5の「イギ
リス」=「英国」が選択される。次に、図20にある対
応付け順番表の順番2の辞書−文字対応では、全ての
「イギリス」=「英国」の対応は既に辞書対応で得られ
ているので何もしない。仮に、辞書対応で「イギリス」
=「英国」がない場合でも、この対応により辞書対応と
同様な「イギリス」=「英国」の対応が得られる。ま
た、読みによる対応では、1≦i≦4、6≦j≦7を含
む読み対応1≦i≦4、4≦j≦7の対応
【表39】 12≦i≦15、6≦j≦7を含む読み対応12≦i≦
15、4≦j≦7の対応
【表40】 があるが、このとき、見つかった読み対応と他の対応と
が全く重複しないか、見つかった読み対応が既にある対
応を包含し、かつ読み対応の方が日本語での対応語句数
が多い場合は、読み対応の方を優先させることから、上
記条件に該当せず、対象外となる。最終的に、文頭から
の文字位置と語句を各言語の対応順に並べた図22の文
番号4のような語句対応データが得られる。
【0101】図1の固有名対応部1500では、文加工
部1300の加工済み日本語文と中国語文と語句対応部
1400から得られる語句対応データと、固有名抽出部
1200から得られる日本語固有名を用いて、日本語固
有名に対応する中国語固有名を抽出する。
【0102】日本語固有名は図12から「イギリス総領
事館」と「イギリス館」であり、日本語「イギリス総領
事館」と「イギリス館」の中国語の対応を調べると、
「イギリス総領事館」は、「イギリス」、「領事館」が
対応しているが連続した文字列とはなっていない。しか
し、日本語と中国語の先頭と末尾文字が対応しており、
その他の文字で対応しているものは、その間で対応付け
されているので、対応付けされていない文字の中国語文
字も
【表41】 の範囲に含まれていると推定する。次に、日本語固有名
と中国語固有名の文字数の差が大きく、固有名中の未対
応語が多いと誤った対応となる可能性があるので、事前
に設定した条件を満たすかを調べる。この例では固有名
の文字数の差が閾値T1(2言語で短い方の固有名の文
字数)以下でかつ、日中の未対応文字数と日中の文字数
割合が閾値T2(0.5)以下ならば抽出する。この場
合は、日本語「イギリス総領事館」の固有名が8文字、
中国語の固有名が5文字であり、その差の3文字は短い
ほうの中国語固有名以下でありかつ、日中の未対応文字
数(1+0)と日中の文字数(8+5)の割合が0.0
7であるため、日本語固有名に対する中国語固有名とし
て、
【表42】 を抽出する。一方「イギリス館」は、
【表43】 と連続した文字列であり、適切な対応付けがされてい
る。
【0103】最後に固有名対応データとして固有名の最
初の文字について文頭からの位置と固有名の情報
【表44】 が出力される。
【0104】実施例5 同じ日本語において重複して対応しており、それだけで
は対応が決定できない場合に適切な対応を求める固有名
抽出例を示す。
【0105】図9にある対訳用例のうち、文番号5に関
して固有名対応付けを行う。
【0106】図1の第1自然言語文は「新潟駅より新潟
空港行きのバスで30分。」、第2自然言語文は
【表45】 である。
【0107】形態素解析部1100では、図10の文番
号5にあるような形態素解析が行われる。日本語形態素
解析結果の“/”は単語区切りを、“(”と“)”の括
弧に囲まれた4つの文字は品詞等の形態素情報を、各行
の先頭の数字は文の先頭からの文節番号を表わし、1つ
の文節を1行で記述している。
【0108】固有名抽出部1200では、形態素解析済
みの日本語文の各文節から図11の固有名抽出用パター
ン表に現れる品詞パターンを用いて固有名を抽出する。
まず、形態素解析結果から品詞列を抽出し、図11の各
パターンと一致するか調べて処理を進める。図11のパ
ターン表記はプログラミング言語Perlの文字列マッ
チングでの書式を利用しているが同等のものであればこ
の書式に限定しない。図11の文節頭削除パターンで各
文節の先頭部分と一致する品詞列に対応する語句を削除
する。また、文節末削除パターンで各文節の末尾部分と
一致する品詞列に対応する語句を削除すると、残った文
字列は、「新潟駅」、「新潟空港」、「行き」、「バ
ス」、「30分」となる。次に、残った部分と一致パタ
ーンとで一致した品詞列に対応する語句を調べると「新
潟駅」と「新潟空港」が該当し、これらの文字列を固有
名とする。最後に図12の文番号5のように、文頭から
の文字位置(0から)とその固有名を固有名データとし
て抽出する。
【0109】図1の文加工部1300では、日本語形態
素解析結果から日中の固有名詞の対応付けには不要と考
えられる名詞や接尾辞以外の部分を普段使われない記号
に置換すると図13の文番号5のように加工済み日本語
【表46】 となる。
【0110】図1の語句対応部1400では、図2のよ
うな構成となっており、入力された加工済み日本語文と
中国語文を用いて、いくつかの異なった方法で日本語と
中国語の部分的な対応を調べる。
【0111】辞書対応部1420では、図3に示すよう
な構成になっており、部分文字加工部1421で、加工
済み日本語文のひらがなをカタカナに変換すると、
【表47】 となる。辞書検索部1422では、日本語文をあらゆる
部分文字列で切り出した文字をキーとして日中対訳辞書
からキーと一致する見出し語とその中国語を抽出する。
この例では日中対訳辞書が図14のようなものであった
場合、
【表48】 を抽出し、図15の文番号5のように各対応する単語の
最初の文字について文の先頭からの位置と一緒に抽出す
る。
【0112】文字対応部1430では、図4に示すよう
な構成になっており、第1自然言語共通文字コード変換
部1431では、第1自然言語の文字コードをUnic
odeの文字コードに変換し、第2自然言語共通文字コ
ード変換部1432では、第2自然言語の文字コードを
Unicodeの文字コードに変換する。Unicod
eは多数の言語の文字を同じコード体系で表わすもので
あり、日本語と中国語においては漢字の表記が似ている
ものは同じコードに割り当てられたものである。固有名
の場合、日本語と中国語で同じ漢字を用いることが多
く、また、日本語と中国語の中には同じ漢字で同じ意味
となるものもあるので対応に利用する。
【0113】文字対応抽出部1433では、日中で同じ
Unicodeの対応を抽出すると、「¥u65b0
(新)」=「¥u65b0(新)」、「¥uff13
(3)」=「¥uff13(3)」、「¥uff10
(0)」=「¥uff10(0)」「¥u5206
(分)」=「¥u5206(分)」の対応が得られる
(括弧は対応する文字)。文字コード復元部1434で
は、得られた文字対応を元の文字コードに復元し、各対
応文字について文頭からの文字位置とその文字を抽出す
る(図16の文番号5)。
【0114】読み対応部1440では、図5に示すよう
な構成になっている。部分文字抽出加工部1441で
は、加工済み日本語文からカタカナを抽出する。この例
では「バス」が抽出される。読み付与部1442では、
発音辞書1445を用いて中国語の漢字連続部分に対し
て発音記号であるピンインを付与する。この例では図3
0のようになり、同じ列に複数ピンインがあるものは同
じ文字の違う読みを表わしている。読み対応抽出部14
43では、特開平10−143514の方法で、英語の
読みの部分を中国語の読みに合うように変更して、日本
語カタカナと中国語ピンインの対応を行ったが、この例
では「バス」に対応するピンインは得られない。
【0115】アルファベット対応部1450では、中国
語でのアルファベットで表記されている部分の対応を求
めるものであるが、この例では中国語文にアルファベッ
トが含まれていないので何も対応データを返さない。
【0116】辞書−文字対応部1460では、図7に示
すような構成になっている。この処理では仮名もしくは
ローマ字を対象として外来語の仮名と同じ意味の日本語
漢字を抽出し、中国語との文字対応を取る。辞書−文字
対応用部分文字加工部1461では、加工済み日本語文
から仮名もしくはアルファベットを抽出する。アルファ
ベットがローマ字であればそれを仮名に変換する。ここ
では仮名をカタカナに統一する。この場合「キ」および
「バス」が該当する。第3自然言語を英語として、第1
−第3自然言語辞書検索部1462で検索すると、
「キ」の対応はなく、「バス」=「bus」が得られ、
さらに第3−第1自然言語辞書検索部1463で「bu
s」=「母線」が得られる。これと中国語文との間の文
字対応を文字対応部1430で求めると対応するものが
ないので、対応は得られない。
【0117】図2の語句対応抽出部1410では対応す
るアルファベット対応部、辞書対応部、文字対応部、読
み対応部、辞書−読み対応部から得られる対応データを
組合せて文全体で最適な対応を得る。
【0118】図20は、対応付け順番表1490の例で
あり、その順番は対応の誤りが少ない順に並べており、
順番に従って2言語間で対応のあった箇所を調べ、図2
9の対応表を作成する。対応表のiは日本語、jは中国
語の文字を並べたものであり、日本語のi番目の文字と
中国語のj番目の文字とで交差した部分の値が1であれ
ば対応があることを示している。図29で、実線は最終
的に得られた対応、点線はそれ以外である。
【0119】図29の対応表を基に、日本語と中国語の
並びが同じで連続して対応する語や文字を0≦i≦1
8、0≦j≦22まで順番に調べたのち、日本語、中国
語の対応文字数の合計が最大のものから順番に選択して
いく。図20にある対応付け順番表の順番1で、まず、
日中の対応が決定できるものを順に調べると、日本語で
2文字、中国語で4文字の計6文字が対応する
【表49】 が選択される。このとき、その対応の一部に含まれてお
り重複して現れている日本語と中国語は対応誤りと考
え、
【表50】 を対象外とする。また、日本語が3文字、中国語で3文
字の計6文字が対応する「3」=「3」、「0」=
「0」、「分」=「分」が選択される。次に、日本語が
2文字、中国語で2文字の計4文字が対応する
【表51】 が選択される。次に日本語が1文字、中国語で2文字の
計3文字が対応する
【表52】 が選択される。次に、日本語が1文字、中国語が1文字
の計2文字が対応するi=0、j=1とi=0、j=9
とi=5、j=1とi=5とj=9の「新」=「新」の
対応では、どれも対応が重なっており、一意に決定でき
ない。そこで、日本語が同じで中国語が異なっている複
数の対応について、その周囲の対応を調べ、最も近くで
既に選択されている対応が見つかったものを選択する。
i=0、j=1の対応は、日本語、中国語とも2文字離
れたi=2、j=3に対応があるが、i=0、j=9は
日本語で2文字、中国語で5文字離れたi=2、j=4
に対応があることから、i=0、j=1の方を選択す
る。同様にi=5、j=1の対応は日本語4文字、中国
語6文字離れたi=9、j=7に対応があるが、i=
5、j=9の対応は日本語、中国語とも2文字離れたi
=7、j=11に対応があることから、i=5、j=9
の対応を選択する。最終的に、文頭からの文字位置と語
句を各言語の対応順に並べた図22の文番号5のような
語句対応データが得られる。
【0120】図1の固有名対応部1500では、文加工
部1300の加工済み日本語文と中国語文と語句対応部
1400から得られる語句対応データと、固有名抽出部
1200から得られる日本語固有名を用いて、日本語固
有名に対応する中国語固有名を抽出する。
【0121】日本語固有名は図12から「新潟駅」と
「新潟空港」であり、日本語「新潟駅」と「新潟空港」
の中国語の対応を調べると、「新」、「駅」および
「新」、「空港」が対応しているが連続した文字列とは
なっていない。しかし、日本語と中国語の先頭と末尾文
字が対応しており、その他の文字で対応しているもの
は、その間で対応付けされているので、対応付けされて
いない文字の中国語文字も
【表53】 の範囲にあると推定する。次に、日本語固有名と中国語
固有名の文字数の差が大きく、固有名中の未対応語が多
いと誤った対応となる可能性があるので、事前に設定し
た条件を満たすかを調べる。この例では固有名の文字数
の差が、閾値T1(2言語で短い方の固有名の文字数)
以下でかつ、日中の未対応文字数と日中の文字数の割合
が閾値T2(0.5)以下ならば抽出する。なお閾値は
一例である。この場合は、日本語「新潟駅」の固有名が
3文字、中国語の固有名が4文字であり、その差の1文
字は短いほうの中国語固有名以下でありかつ、日中の未
対応文字数(1+1)と日中の文字数(3+4)の割合
が0.28であるため、日本語固有名に対する中国語固
有名として、
【表54】 を抽出し、日本語「新潟空港」の固有名が4文字、中国
語の固有名が4文字であり、その差の0文字はどちらで
も固有名の文字数以下であり、かつ日中の未対応文字数
(1+1)と日中の文字数(4+4)の割合が0.25
であるため、日本語固有名に対する中国語固有名とし
て、
【表55】 を抽出する。
【0122】最後に固有名対応データとして固有名の最
初の文字について文頭からの位置と固有名の情報
【表56】 が出力される。
【0123】尚、前記各実施例における固有名対応付け
方法は、具体的にはパソコン等のコンピュータにより、
予め所定のプログラムに基づいて実行される。前記プロ
グラムは所定のコンピュータ読み取り可能な記録媒体に
記録することができる。
【0124】
【発明の効果】以上述べたように本発明によれば、第1
自然言語文とその訳の第2自然言語文との対である対訳
用例から、2言語間で対応する固有名を得る固有名対応
付けにおいて、一方の言語の解析を行わずとも、片方の
言語の解析情報から得られる固有名のデータと2言語間
の対応データを用いて固有名対応を抽出できる。
【0125】2言語間で対応を取る際には、対訳辞書に
よる対応だけでなく、文字や発音やアルファベットや辞
書と文字による対応や辞書と文字による対応を組合せて
処理することで、それぞれ単独の対応付けでは得られな
い幅広い種類の対応を取ることができる。
【0126】対訳用例の量や同じ表現の出現数に関わら
ず適切な対応を数多く得ることができる。
【0127】対応付けでは、対訳だけでなく対訳用例中
での固有名の出現位置を得ることができる。
【図面の簡単な説明】
【図1】本発明の実施形態例に係る装置の構成図であ
る。
【図2】本発明の実施形態例に係る語句対応部の構成図
である。
【図3】本発明の実施形態例に係る辞書対応部の構成図
である。
【図4】本発明の実施形態例に係る文字対応部の構成図
である。
【図5】本発明の実施形態例に係る読み対応部の構成図
である。
【図6】本発明の実施形態例に係るアルファベット対応
部の構成図である。
【図7】本発明の実施形態例に係る辞書−文字対応部の
構成図である。
【図8】本発明の実施形態例に係る語句対応抽出部の構
成図である。
【図9】本発明の実施例に係る第1自然言語文とその対
訳の第2自然言語文の一例を示す説明図である。
【図10】本発明の実施例に係る第1自然言語文の形態
素解析結果の一例を示す説明図である。
【図11】本発明の実施例に係る固有名抽出用パターン
表の一例を示す説明図である。
【図12】本発明の実施例に係る固有名データの一例を
示す説明図である。
【図13】本発明の実施例に係る加工済み第1自然言語
文を示す説明図である。
【図14】本発明の実施例に係る日中対訳辞書の一例を
示す説明図である。
【図15】本発明の実施例に係る辞書対応データの一例
を示す説明図である。
【図16】本発明の実施例に係る文字対応データを示す
説明図である。
【図17】本発明の実施例に係る文番号2での読み対応
に利用するデータを示す説明図である。
【図18】本発明の実施例に係る読み対応データを示す
説明図である。
【図19】本発明の実施例に係る辞書−文字対応データ
を示す説明図である。
【図20】本発明の実施例に係る対応付け順番表の一例
を示す説明図である。
【図21】本発明の実施例に係る文番号1での対応表を
示す説明図である。
【図22】本発明の実施例に係る完成した語句対応デー
タを示す説明図である。
【図23】本発明の実施例に係る文番号2での文対応表
を示す説明図である。
【図24】本発明の実施例に係る文番号3での読み対応
に利用するデータを示す説明図である。
【図25】本発明の実施例に係る文番号3での文対応表
を示す説明図である。
【図26】本発明の実施例に係る文番号3での固有名対
応の説明図である。
【図27】本発明の実施例に係る文番号4での読み対応
に利用するデータを示す説明図である。
【図28】本発明の実施例に係る文番号4での文対応表
を示す説明図である。
【図29】本発明の実施例に係る文番号5での文対応表
を示す説明図である。
【図30】本発明の実施例に係る文番号5での読み対応
に利用するデータを示す説明図である。
【符号の説明】
1000 語句対応付け装置 1100 形態素解析部 1200 固有名抽出部 1300 文加工部 1400 語句対応部 1410 語句対応抽出部 1411 対応表作成部 1412 最適対応推定部 1420 辞書対応部 1421 部分文字加工部 1422 辞書検索部 1423 辞書対応抽出部 1424 対訳語句加工部 1425 第1−第2自然言語対訳辞書 1430 文字対応部 1431 第1自然言語共通文字コード変換部 1432 第2自然言語共通文字コード変換部 1433 文字対応抽出部 1434 文字コード復元部 1435 文字対応辞書 1440 読み対応部 1441 部分文字抽出加工部 1442 読み付与部 1443 読み対応抽出部 1444 表記変換部 1445 発音辞書 1450 アルファベット対応部 1451 アルファベット抽出部 1452 アルファベット辞書対応部 1453 アルファベット読み対応推定部 1454 第1自然言語−アルファベット対訳辞書 1460 辞書−文字対応部 1461 辞書−文字対応用部分文字加工部 1462 第1−第3自然言語辞書検索部 1463 第3−第1自然言語辞書検索部 1464 辞書−文字対応抽出部 1465 第1−第3自然言語対訳辞書 1490 対応付け順番表 1500 固有名対応部

Claims (14)

    【特許請求の範囲】
  1. 【請求項1】 第1自然言語文とその訳の第2自然言語
    文との対である対訳用例から、2言語間で対応している
    固有名を得る固有名対応付け方法において、第2自然言
    語文の解析情報がない場合でも、第1自然言語文の解析
    情報から第1自然言語文の中の固有名を抽出し、また、
    2言語間の辞書対応、文字対応、読み対応、アルファベ
    ット対応、辞書−文字対応のデータを適切に組合せて、
    2言語間の語句対応を推定し、前記第1自然言語文中の
    固有名と前記2言語間の語句対応から2言語間の固有名
    対応と各文内の出現位置のデータを抽出することを特徴
    とする固有名対応付け方法。
  2. 【請求項2】 前記2言語間の語句対応において、第1
    自然言語文の形態素解析結果を用いて、語句対応付けが
    不要な語句を誤って対応付けするのを防ぐために、その
    語句を第2自然言語文とは対応付けしないようにして第
    1自然言語文と第2自然言語文との間で語句対応を行う
    ことを特徴とする請求項1記載の固有名対応付け方法。
  3. 【請求項3】 前記語句対応において、適切な対応を取
    るために、対応している文字や語がともに連続してお
    り、2言語間で同じ順となっている文字列の対応とその
    対応している各言語の文字列の文字数を調べ、その文字
    数が多いものから順に対応付けを行ない、同時に対応付
    けされた文字列と重なった他の対応は調査対象から除外
    して語句対応を抽出することを特徴とする請求項1記載
    の固有名対応付け方法。
  4. 【請求項4】 前記請求項3の語句対応において、第1
    自然言語の文字列の出現位置は共通だが、それに対応す
    る第2自然言語の文字列の出現位置が異なるものが複数
    あって対応付けが決まらない場合には、より近くで既に
    対応付けられた文字列が存在したものを優先的に選択し
    て語句対応を抽出することを特徴とする請求項1記載の
    固有名対応付け方法。
  5. 【請求項5】 前記語句対応において、異なる複数の対
    応を誤りの多い対応とそれ以外の対応に分けた対応付け
    順番表を事前に準備しておき、始めに誤りの少ない対応
    で対応付けを行なった後、誤りの多い対応において、誤
    りの少ない対応付けの第1自然言語の文字列と重複し、
    かつ部分文字列となる場合は、誤りの多い対応付けを行
    わないことで、誤った対応付けを防ぐことを特徴とする
    請求項1記載の固有名対応付け方法。
  6. 【請求項6】 前記固有名対応において、第1自然言語
    文の固有名の一部が第2自然言語文と対応が取れない場
    合でも、固有名中の文字や語句の対応を調べ、少なくと
    も第1自然言語文の固有名の先頭と末尾の文字に対応が
    あり、第1自然言語の固有名と第2自然言語側で対応付
    けされた文字の先頭から末尾までの文字列との文字数の
    差が所定の値を超えないものを固有名対応として抽出す
    ることを特徴とする請求項1記載の固有名対応付け方
    法。
  7. 【請求項7】 第1自然言語文とその訳の第2自然言語
    文との対である対訳用例から、2言語間で対応する固有
    名を得る固有名対応付け装置において、第1自然言語文
    を形態素解析する形態素解析手段と、第1自然言語文の
    形態素解析結果から所定の固有名抽出用パターン表の条
    件に合致する語句を抽出する固有名抽出手段と、第1自
    然言語の形態素解析結果から固有名対応の対象としない
    語句が対応付けできないように第1自然言語文を加工す
    る文加工手段と、該加工済み第1自然言語文と第2自然
    言語文を用いて2言語の文に含まれている適切な語句対
    応を調べる語句対応手段と、前記固有名データと前記語
    句対応抽出手段から出力される語句対応データと第1自
    然言語文と第2自然言語文から2言語の文に含まれてい
    る固有名の対応を調べ、2言語間の固有名対応と各文内
    の出現位置からなる固有名対応データを出力する固有名
    対応手段とを有することを特徴とする固有名対応付け装
    置。
  8. 【請求項8】 前記語句対応手段において、2言語間の
    辞書対応手段、文字対応手段、読み対応手段、アルファ
    ベット対応手段、辞書−文字対応手段から得られた異な
    る対応データを対応の曖昧性が少ないものから優先して
    語句対応を調べ、適切な語句対応を抽出する語句対応抽
    出手段を有することを特徴とする請求項7記載の固有名
    対応付け装置。
  9. 【請求項9】 前記語句対応手段において、適切な対応
    を取るために、対応している文字や語が連続しており、
    2言語とも同じ順となっている文字列対応に対して、そ
    の対応文字列の2言語の文字数を調べ、その文字数が多
    いものから順に対応付けを行なうと同時に、対応付けさ
    れた文字列と重なった他の対応は対応調査対象から除外
    して語句対応を行なう語句対応手段を有することを特徴
    とする請求項7記載の固有名対応付け装置。
  10. 【請求項10】 前記語句対応手段において、第1自然
    言語の文字列の出現位置は共通だが、それに対応する第
    2自然言語の文字列の出現位置が異なるものが複数あ
    り、対応付けが決まらない場合には、より近くで既に対
    応付けられた文字列があったものを優先的に選択して語
    句対応を抽出する語句対応手段を有することを特徴とす
    る請求項9記載の固有名対応付け装置。
  11. 【請求項11】 前記語句対応手段において、異なる複
    数の対応を誤りの多い対応とそれ以外の対応に分けた対
    応付け順番表を事前に準備しておき、始めに誤りの少な
    い対応で対応付けを行なった後、誤りの多い対応におい
    て、誤りの少ない対応付けの第1自然言語の文字列と重
    複し、かつ部分文字列となる場合は、誤りの多い対応付
    けを行わないことで、誤った対応付けを防ぐ語句対応手
    段を有することを特徴とする請求項7記載の固有名対応
    付け装置。
  12. 【請求項12】 前記固有名対応手段において、第1自
    然言語文の固有名の一部が第2自然言語文と対応が取れ
    ない場合でも、固有名中の文字や語句の対応を調べ、少
    なくとも第1自然言語文の固有名の先頭と末尾の文字に
    対応があり、第1自然言語の固有名と第2自然言語側で
    対応付けされた文字の先頭から末尾までの文字列との文
    字数の差が所定の値を超えないものを固有名対応として
    抽出する固有名対応手段を有することを特徴とする請求
    項7記載の固有名対応付け装置。
  13. 【請求項13】 コンピュータに請求項1ないし6のい
    ずれか1項に記載の固有名対応付け方法を実行させるプ
    ログラムを記録した記録媒体。
  14. 【請求項14】 コンピュータに請求項1ないし6のい
    ずれか1項に記載の固有名対応付け方法を実行させるプ
    ログラム。
JP2001031464A 2001-02-07 2001-02-07 固有名対応付け装置及び方法、その方法をコンピュータに実行させるプログラム並びにそのプログラムを記録した記録媒体 Pending JP2002236680A (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2001031464A JP2002236680A (ja) 2001-02-07 2001-02-07 固有名対応付け装置及び方法、その方法をコンピュータに実行させるプログラム並びにそのプログラムを記録した記録媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2001031464A JP2002236680A (ja) 2001-02-07 2001-02-07 固有名対応付け装置及び方法、その方法をコンピュータに実行させるプログラム並びにそのプログラムを記録した記録媒体

Publications (1)

Publication Number Publication Date
JP2002236680A true JP2002236680A (ja) 2002-08-23

Family

ID=18895544

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2001031464A Pending JP2002236680A (ja) 2001-02-07 2001-02-07 固有名対応付け装置及び方法、その方法をコンピュータに実行させるプログラム並びにそのプログラムを記録した記録媒体

Country Status (1)

Country Link
JP (1) JP2002236680A (ja)

Similar Documents

Publication Publication Date Title
JP4404211B2 (ja) マルチリンガル翻訳メモリ、翻訳方法および翻訳プログラム
EP0971294A2 (en) Method and apparatus for automated search and retrieval processing
US20090070097A1 (en) User input classification
WO1997004405A9 (en) Method and apparatus for automated search and retrieval processing
JP2013117978A (ja) タイピング効率向上のためのタイピング候補の生成方法
JPS63231674A (ja) コンピュータによる形態論的テキスト解析方法
Tufiş et al. DIAC+: A professional diacritics recovering system
Ganfure et al. Design and implementation of morphology based spell checker
Seresangtakul et al. Thai-Isarn dialect parallel corpus construction for machine translation
JP2002236680A (ja) 固有名対応付け装置及び方法、その方法をコンピュータに実行させるプログラム並びにそのプログラムを記録した記録媒体
JPS61248160A (ja) 文書情報登録方式
Debnath et al. A Hybrid Approach to Design Automatic Spelling Corrector and Converter for Transliterated Bangla Words
JPH07230468A (ja) キーワード自動抽出装置およびキーワード自動抽出方法
JP2004206659A (ja) 読み情報決定方法及び装置及びプログラム
Yusof et al. Identifying Relation Between Miriek and Kenyah Badeng Language by Using Morphological Analyzer
JP3508312B2 (ja) キーワード抽出装置
Tufiş et al. Diacritics restoration in romanian texts
JP3139624B2 (ja) 形態素解析装置
JPS6395573A (ja) 日本語文形態素解析における未知語処理方法
JP2729342B2 (ja) 仮名漢字変換方法および装置
Dash Morphological processing of words in bangla corpus
JPH01281561A (ja) 日本文訂正候補文字抽出方法
JPH02136959A (ja) 日本文訂正候補抽出装置
JPH0262659A (ja) 日本文訂正候補文字抽出装置
JPH0682366B2 (ja) 文字列訂正方式