JP2002236680A

JP2002236680A - 固有名対応付け装置及び方法、その方法をコンピュータに実行させるプログラム並びにそのプログラムを記録した記録媒体

Info

Publication number: JP2002236680A
Application number: JP2001031464A
Authority: JP
Inventors: Takayuki Adachi; 貴行足立; Kura Furuse; 蔵古瀬
Original assignee: Nippon Telegraph and Telephone Corp
Current assignee: Nippon Telegraph and Telephone Corp
Priority date: 2001-02-07
Filing date: 2001-02-07
Publication date: 2002-08-23

Abstract

(57)【要約】【課題】本発明の課題は、適切な固有名対応を様々な方
法で幅広く得ることができ、且つ対訳用例中で固有名の
出現位置も得られる固有名対応付け方法を提供すること
にある。【解決手段】本発明は、第１自然言語文とその訳の第２
自然言語文との対である対訳用例から、２言語間で対応
している固有名を得る固有名対応付け方法において、第
２自然言語文の解析情報がない場合でも、第１自然言語
文の解析情報から第１自然言語文の中の固有名を抽出
し、また、２言語間の辞書対応、文字対応、読み対応、
アルファベット対応、辞書−文字対応のデータを適切に
組合せて、２言語間の語句対応を推定し、前記第１自然
言語文中の固有名と前記２言語間の語句対応から２言語
間の固有名対応と各文内の出現位置のデータを抽出する
ことを特徴とする。

Description

【発明の詳細な説明】

【０００１】

【発明の属する技術分野】本発明は第１自然言語文とそ
の訳の第２自然言語文との対である対訳用例から、第１
自然言語文と第２自然言語文の間で対応する固有名と対
訳用例中の固有名の位置情報を得る固有名対応付け装置
及び方法、その方法をコンピュータに実行させるプログ
ラム並びにそのプログラムを記録した記録媒体に関す
る。

【０００２】

【従来の技術】対訳用例から語句対応を得る方法とし
て、対訳辞書によるもの、対応の頻度による統計的なも
の、発音によるもの、対訳辞書と統計的なものの両方を
利用したものがある。

【０００３】対訳辞書による対応付けは、第１自然言語
の語句と第２自然言語の語句の対訳辞書を用いて対訳辞
書を作成するものである。この方法として、「山本由紀
雄，坂本仁：対訳コーパスを用いた専門用語対訳辞書の
作成，情報処理学会研究報告，ＮＬ９４−１２，Ｖｏ
ｌ．９３，Ｎｏ．２６，１９９３」がある。

【０００４】対応の頻度による統計的な対応付けは、文
対応付けされた対訳用例を集めた対訳用例集を用いて、
２言語の文の間で同時に出現する任意の単語列または文
字列の対を抽出し、対訳用例集全体でその対の頻度が所
定の閾値以上である対訳について上位から順に抽出する
ものである。この方法として、「北村美穂子，松本裕
治：対訳コーパスを利用した対訳表現の自動抽出，情報
処理学会論文誌，Ｖｏｌ．３８，Ｎｏ．４，１９９７」
がある。

【０００５】発音による対応付けは、輸入した外来語が
輸入先の語句の発音と似ていることを利用して対訳を抽
出するものである。この方法として、特開平１０−１４
３５１４の訳語対抽出装置がある。

【０００６】対訳辞書と統計的な対応付けは、対訳辞書
による対応度と統計的な対応による対応度を合わせた対
応度によって対訳を得るものであり、日本語の形態素解
析情報を用いて専門用語を抽出し、それと英語単語列と
の対応頻度が閾値以上である対から、対訳辞書と頻度に
基づく対応度を求めて対訳辞書を作成する、「熊野明，
平川秀樹：対訳文書からの機械翻訳専門用語辞書作成，
情報処理学会論文誌，Ｖｏｌ．３５，Ｎｏ．１１，１９
９４」がある。

【０００７】

【発明が解決しようとする課題】前記対訳辞書による対
応付け方法は、対訳辞書に記載された語に限定されてお
り、対訳辞書にない場合は対応を取ることができない。

【０００８】前記統計的な対応付け方法は、同じような
表現が複数回出現する大量の対訳用例が必要であり、最
終的に閾値が高ければ正しい対応だが少数の対訳しか得
られず、低ければ多くの対応を得られるが誤った対応が
含まれることが多くなり、また対訳用例集の全部や一部
を他のものへ変更すると単語列や文字列の出現頻度に影
響を及ぼすことから、閾値をうまく決めて適切な対応を
大量にとることは難しい。

【０００９】前記発音による対応付け方法は、日本語と
英語の間に限定したものであって、単語間に空白区切り
がある、固有名の先頭文字を大文字にするといった英語
の表記法の特徴を利用して、大文字で始まる単語やその
連続を事前に固有名として抽出できるが、英語の表記法
とは異なる特徴を持った言語、例えば中国語のような表
記から単語区切りや固有名の区別がないものは、そのま
までは英語と同じような方法で利用できない。

【００１０】前記対訳辞書と統計的な対応付けでは、日
本語と対応する英語を求めるのに頻度を利用しているこ
とから、統計的な方法と同様に、適切な対応を大量に取
ることは難しい。

【００１１】上記、対訳辞書による方法、統計的な方
法、発音による方法、対訳辞書と統計的な方法では、辞
書を作成することが目的であり、対訳用例中の固有名の
出現位置を得ることは考慮されていない。

【００１２】本発明は上記の事情に鑑みてなされたもの
で、適切で幅広い種類の固有名対応が得られ、且つ対訳
用例中で固有名の出現位置も得られる固有名対応付け装
置及び方法、その方法をコンピュータに実行させるプロ
グラム並びにそのプログラムを記録した記録媒体を提供
することを目的とする。

【００１３】

【課題を解決するための手段】上記目的を達成するため
に本発明は、第１自然言語文とその訳の第２自然言語文
との対である対訳用例から、２言語間で対応している固
有名を得る固有名対応付け方法において、第２自然言語
文の解析情報がない場合でも、第１自然言語文の解析情
報から第１自然言語文の中の固有名を抽出し、また、２
言語間の辞書対応、文字対応、読み対応、アルファベッ
ト対応、辞書−文字対応のデータを適切に組合せて、２
言語間の語句対応を推定し、前記第１自然言語文中の固
有名と前記２言語間の語句対応から２言語間の固有名対
応と各文内の出現位置のデータを抽出することを特徴と
する。

【００１４】本発明は、２言語間で対応を取る際には、
対訳辞書による対応だけでなく、文字や発音やアルファ
ベットによる対応を適切に組合せて処理することで、そ
れぞれ単独の対応付けだけでは得られない幅広い種類の
対応を取れるようにした。

【００１５】また、対訳用例の量や同じ表現の出現数に
関わらず、適切な対応を数多く得ることができるように
した。

【００１６】また、一方の言語の解析を行わずとも、片
方の言語の解析情報から得られる固有名のデータと２言
語間の対応データを用いるだけで最適な固有名対応が得
られるようにした。

【００１７】また、対応付けでは、対訳だけでなく対訳
用例中での固有名の出現位置も得られるようにした。

【００１８】

【発明の実施の形態】以下図面を参照して本発明の実施
形態例を詳細に説明する。

【００１９】図１は、本発明の一実施形態例に係る装置
の構成図であり、語句対応付け装置１０００は、入力さ
れる第１自然言語文を形態素解析する形態素解析部１１
００、第１自然言語文の形態素解析結果を用いて、固有
名を抽出する固有名抽出部１２００、第１自然言語文の
形態素解析結果から第１自然言語文を加工する文加工部
１３００、加工済み第１自然言語文と入力される第２自
然言語文を用いて、第１自然言語文と第２自然言語文の
語句対応を調べる語句対応部１４００、第１自然言語文
と第２自然言語文と固有名抽出部１２００から出力され
る固有名データと語句対応部１４００から出力される語
句対応データを用いて、固有名抽出部１２００で得られ
た第１自然言語文の中にある固有名の対訳を第２自然言
語文から調べ、固有名対応データを出力する固有名対応
部１５００からなる。

【００２０】図２は、加工済み第１自然言語文と第２自
然言語文を入力し、２言語の文の間での語句対応を調
べ、その結果を語句対応データとして出力する語句対応
部１４００の構成図であり、対訳辞書を用いて２言語の
文の間で語句の対応を調査する辞書対応部１４２０、第
１自然言語と第２自然言語の文字の共通性をもとに２言
語の文の間で文字の対応を調査する文字対応部１４３
０、第１自然言語文と第２自然言語文で現れる語の読み
の類似性をもとに語句の対応を調査する読み対応部１４
４０、第２自然言語文中に現れるアルファベットに対し
て加工済み第１自然言語文の対応語句を調査するアルフ
ァベット対応部１４５０、対訳辞書と文字対応を利用し
て対応を調査する辞書−文字対応部１４６０、各対応部
の対応結果を対応付け順番表１４９０の順番で組合せ、
２言語の文間で最適な語句対応を語句対応データとして
出力する語句対応抽出部１４１０からなる。

【００２１】図３は、加工済み第１自然言語文と第２自
然言語文を入力し、第１−第２自然言語対訳辞書１４２
５を用いて文中の語句の対応を調査する辞書対応部１４
２０の構成図であり、加工済み第１自然言語文の特定の
文字を加工する部分文字加工部１４２１、その加工をし
た文の部分文字列を切り出して第１−第２自然言語対訳
辞書１４２５を検索し、その部分文字列の訳を引いてく
る辞書検索部１４２２、引いてきた訳が第２自然言語文
に含まれているものだけを抽出する辞書対応抽出部１４
２３、部分文字加工部１４２１で施した加工がされてい
る語句の対応に関して、加工前の状態に復元して、辞書
対応データを出力する対訳語句加工部１４２４からな
る。

【００２２】図４は、加工済み第１自然言語文と第２自
然言語文を入力し、文字対応データを出力する文字対応
部１４３０の構成図であり、加工済み第１自然言語文を
共通の文字コードへ変換する第１自然言語共通文字コー
ド変換部１４３１、第２自然言語文を共通の文字コード
へ変換する第２自然言語共通文字コード変換部１４３
２、共通文字コードで第１自然言語と第２自然言語の文
字が一致するか、もしくは文字対応辞書１４３５にある
異体字対応を利用して共通文字コードは異なるが異体字
として一致する対応を抽出する文字対応抽出部１４３
３、対応のあった文字に関して第１自然言語共通文字コ
ード変換部１４３１と第２自然言語共通文字コード変換
部１４３２で変換されていた文字コードを元の文字コー
ドに復元して文字対応データを出力する文字コード復元
部１４３４からなる。

【００２３】図５は、加工済み第１自然言語文と第２自
然言語文を入力し、発音の類似性から読み対応データを
出力する読み対応部１４４０の構成図であり、加工済み
第１自然言語文から特定の文字を抽出加工する部分文字
抽出加工部１４４１、第２自然言語文と語の発音辞書１
４４５を用いて、語に読みデータを付与する読み付与部
１４４２、部分文字抽出加工部１４４１で抽出された語
の読みを推定し、その発音と類似する箇所を第２自然言
語文の読みデータから調べて対応を求める読み対応抽出
部１４４３、第２自然言語で対応した読みを単語表記に
変換し、第１自然言語の語句との読み対応データを出力
する表記変換部１４４４からなる。

【００２４】図６は、第２自然言語文に含まれているア
ルファベットで表わされる箇所と加工済み第１自然言語
文との対応を調べるアルファベット対応部１４５０の構
成図であり、第２自然言語文に含まれているアルファベ
ットを抽出するアルファベット抽出部１４５１、アルフ
ァベット抽出部１４５１で得られたアルファベットを第
１自然言語−アルファベット対訳辞書１４５４から引
き、引かれた語句が加工済み第１自然言語文に含まれる
ものをアルファベット辞書対応データとして出力するア
ルファベット辞書対応部１４５２、アルファベット抽出
部１４５１で得られたアルファベットを加工済み第１自
然言語文との読みをもとに対応を得てアルファベット読
み対応データを出力するアルファベット読み対応推定部
１４５３からなる。

【００２５】図７は、加工済み第１自然言語文の一部の
語を第１−第３自然言語対訳辞書で引き、さらに第１−
第３自然言語対訳辞書で逆引きすることで、第１自然言
語と意味的に同じで別表記の語を抽出し、その語と第２
自然言語の間で文字対応を求める辞書−文字対応部１４
６０の構成図であり、加工済み第１自然言語文を加工す
る辞書−文字対応用部分文字加工部１４６１、第１−第
３自然言語対訳辞書１４６５から加工された文字列を辞
書引きする第１−第３自然言語辞書検索部１４６２と、
第１−第３自然言語対訳辞書１４６５から得られた第３
自然言語の語を逆引きする第３−第１自然言語辞書検索
部１４６３と、得られた第１自然言語の語句と第２自然
言語文との文字対応を調べる文字対応部１４３０と、辞
書−文字対応用部分文字加工部１４６１で得られた第１
自然言語の語との対応を抽出する辞書−文字対応抽出部
１４６４からなる。

【００２６】図８は、いくつかの異なる対応データと加
工済み第１自然言語文と第２自然言語文を入力し、第１
自然言語文と第２自然言語文の最適な語句対応データを
抽出する語句対応抽出部１４１０の構成図であり、いく
つかの異なる対応データと加工済み第１自然言語文と第
２自然言語文から対応データを対応付け順番表１４９０
の順に組合わせて対応表を作成する対応表作成部１４１
１、作成した対応表から両言語で最適な対応を推定する
最適対応推定部１４１２からなる。

【００２７】

【実施例】以下、図面と共に本発明の実施例を説明す
る。以下の実施例では第１自然言語を日本語、第２自然
言語を中国語として説明するが、これに限定されない。

【００２８】実施例１辞書対応、アルファベット辞書対応、文字対応を利用し
た固有名対応付けの例を示す。

【００２９】図９にある対訳用例のうち、文番号１に関
して固有名対応付けを行う。

【００３０】図１の第１自然言語文は「渡辺つる子は工
芸家です。」、第２自然言語文は

【表１】である。

【００３１】形態素解析部１１００では、図１０の文番
号１にあるような形態素解析が行われる。日本語形態素
解析結果の、“／”は単語区切りを、“（”と“）”の
括弧に囲まれた４つの文字は品詞等の形態素情報を、各
行の先頭の数字は文の先頭からの文節番号を表わし、１
つの文節を１行で記述している。

【００３２】固有名抽出部１２００では、形態素解析済
みの日本語文の各文節から図１１の固有名抽出用パター
ン表に現れる品詞パターンを用いて固有名を抽出する。
まず、形態素解析結果から品詞列を抽出し、図１１の各
パターンと一致するか調べて処理を進める。図１１のパ
ターン表記はプログラミング言語Ｐｅｒｌの文字列マッ
チングでの書式を利用しているが同等のものであればこ
の書式に限定しない。図１１の文節頭削除パターンで各
文節の先頭部分と一致する品詞列に対応する語句を削除
するが、該当するものがないので何も削除されない。ま
た、文節末削除パターンで各文節の末尾部分と一致する
品詞列に対応する語句を削除すると、残った文字列は、
「渡辺つる子」、「工芸家」となる。次に、残った部分
と一致パターンとで一致したものを調べると一致する品
詞列に対応する語句である「渡辺つる子」が該当し、こ
れらの文字列を固有名とする。最後に図１２の文番号１
のように、文頭からの位置情報（０から）とその固有名
を固有名データとして抽出する。

【００３３】図１の文加工部１３００では、日本語形態
素解析結果から日中の固有名詞の対応付けには不要と考
えられる名詞や接尾辞以外の部分を普段使われない記号
に置換すると、図１３の文番号１のように加工済み日本
語文

【表２】となる。

【００３４】図１の語句対応部１４００では、図２のよ
うな構成となっており、入力された加工済み日本語文と
中国語文を用いて、いくつかの異なった方法で日本語と
中国語の部分的な対応を調べる。

【００３５】辞書対応部１４２０では、図３に示すよう
な構成になっており、事前に辞書中の日本語の仮名を全
てカタカナに統一している。部分文字加工部１４２１で
は、加工済み日本語文のひらがなをカタカナに変換する
と、

【表３】となる。辞書検索部１４２２では、日本語文をあらゆる
部分文字列で切り出した文字をキーとして日中対訳辞書
からキーと一致する見出し語とその中国語を抽出する。
この例では日中対訳辞書が図１４のようなものであった
場合、

【表４】を抽出し、図１５の文番号１のように各対応する単語の
最初の文字について文の先頭からの位置と一緒に抽出す
る。

【００３６】文字対応部１４３０では、図４に示すよう
な構成になっており、第１自然言語共通文字コード変換
部１４３１では、第１自然言語の文字コードをＵｎｉｃ
ｏｄｅの文字コードに変換し、第２自然言語共通文字コ
ード変換部１４３２では、第２自然言語の文字コードを
Ｕｎｉｃｏｄｅの文字コードに変換する。Ｕｎｉｃｏｄ
ｅは多数の言語の文字を同じコード体系で表わすもので
あり、日本語と中国語においては漢字の表記が似ている
ものは同じコードに割り当てられている。固有名の場
合、日本語と中国語で同じ漢字を用いることが多く、ま
た、日本語と中国語の中には同じ漢字で同じ意味となる
ものもあるので対応に利用する。文字対応抽出部１４３
３では、日中で同じＵｎｉｃｏｄｅの対応を抽出する
と、「￥ｕ６ｅ２１（渡）」＝「￥ｕ６ｅ２１
（渡）」、「￥ｕ５ｂ５０（子）」＝「￥ｕ５ｂ５０
（子）」、「￥ｕ５ｄｅ５（工）」＝「￥ｕ５ｄｅ５
（工）」、「￥ｕ５ｂｂ６（家）」＝「￥ｕ５ｂｂ６
（家）」の対応が得られる（括弧は対応する文字）。ま
た、文字対応辞書１４３５を用いてＵｎｉｃｏｄｅの文
字コードは異なるが、異体字として同じ文字と考えられ
る文字コード同士で対応を抽出すると、

【表５】の対応が得られる。文字コード復元部１４３４では、得
られた文字対応を元の文字コードに復元し、各対応文字
について文の先頭からの文字数とその文字を抽出する
（図１６の文番号１）。

【００３７】読み対応部１４４０では、図５に示すよう
な構成になっている。部分文字抽出加工部１４４１で
は、加工済み日本語文からカタカナを抽出する。この例
では、カタカナはないので何も出力しない。

【００３８】アルファベット対応部１４５０では、中国
語でのアルファベットで表記されている部分の対応を求
めるものであり、図６に示すような構成になっている。
第２自然言語文はアルファベット抽出部１４５１で中国
語文から「Ｔｓｕｒｕ」を抽出する。アルファベット辞
書対応部１４５２では、日本語の仮名とアルファベット
との対応は日英対応付けを考慮すればよいので、日英対
訳辞書を用いて、アルファベットに対応する日本語の仮
名を引き、日本語文中に含まれているものを出力する。
この例では、「つる」＝「Ｔｓｕｒｕ」が該当するの
で、その語と文頭からの位置情報を得る。なお、辞書で
引かれた日本語が文中の日本語に含まれているかを調べ
る際には、辞書で引かれた日本語および日本語文中のひ
らがなをカタカナに統一して一致する文字列を探す。

【００３９】アルファベット読み対応推定部１４５３で
は、特開平１０−１４３５１４をそのまま用いて対応を
調べると、「つる」＝「Ｔｓｕｒｕ」が得られるので、
その語と文頭からの位置情報を出力する。

【００４０】辞書−文字対応部１４６０では、図７に示
すような構成になっている。この処理では仮名もしくは
ローマ字を対象として外来語の仮名と同じ意味の日本語
漢字を抽出し、中国語との文字対応を取る。辞書−文字
対応用部分文字加工部１４６１では、加工済み日本語文
から仮名もしくはアルファベットを抽出する。アルファ
ベットがローマ字であればそれを仮名に変換する。ここ
では仮名をカタカナに統一する。この場合「ツル」が該
当する。第３自然言語を英語として、第１−第３自然言
語辞書検索部１４６２で検索すると、「ツル」＝「ｔｓ
ｕｒｕ」が得られ、さらに第３−第１自然言語辞書検索
部１４６３で「ｔｓｕｒｕ」＝「津留、鶴、都留」が得
られる。これと中国語文との間の文字対応を文字対応部
１４３０で求めると対応する文字はないので、辞書−文
字対応抽出部１４６４では何も抽出されない。

【００４１】図２の語句対応抽出部１４１０では対応す
るアルファベット対応部、辞書対応部、文字対応部、読
み対応部、辞書−文字対応部から得られる対応データを
組合せて文全体で最適な対応を得る。

【００４２】図２０は、対応付け順番表１４９０の例で
あり、その順番は対応の誤りが少ない順に並べており、
順番に従って２言語間で対応のあった箇所を調べ、図２
１の対応表を作成する。対応表のｉは日本語、ｊは中国
語の文字を並べたものであり、日本語のｉ番目の文字と
中国語のｊ番目の文字とで交差した部分の値が１であれ
ば対応があることを示している。

【００４３】図２１の対応表を基に、日本語と中国語の
並びが同じで連続して対応する語や文字を０≦ｉ≦１
１、０≦ｊ≦１１まで順番に調べたのち、日本語，中国
語の対応文字数の合計が最大のものから順番に選択して
いく。図２０にある対応付け順番表の順番１で日中の対
応が決定できるものを順に調べると、まず、日本語５文
字、中国語８文字の計１３文字が対応する

【表６】が選択される。次に、日本語３文字、中国語３文字の計
６文字が対応する

【表７】が選択される。残りの対応はないので以上が対応として
得られる。

【００４４】図１の固有名対応部１５００では、文加工
部１３００の加工済み日本語文と中国語文と語句対応部
１４００から得られる語句対応データと、固有名抽出部
１２００から得られる日本語固有名を用いて、日本語固
有名に対応する中国語固有名を抽出する。

【００４５】日本語固有名は図１２から「渡辺つる子」
であり、日本語「渡辺つる子」の中国語の対応を調べる
と

【表８】が連続した文字列となっている。最後に固有名対応デー
タとして固有名の最初の文字について文頭からの位置と
固有名の情報

【表９】が出力される。

【００４６】実施例２辞書対応、文字対応、読み対応を利用した固有名対応付
けの例を示す。

【００４７】図９にある対訳用例のうち、文番号２に関
して固有名対応付けを行う。

【００４８】図１の第１自然言語文は「日本にペリー提
督が黒船で上陸した時、条約を結んだ場所。」、第２自
然言語文は

【表１０】である。

【００４９】形態素解析部１１００では、図１０の文番
号２にあるような形態素解析が行われる。日本語形態素
解析結果の“／”は単語区切りを、“（”と“）”の括
弧に囲まれた４つの文字は品詞等の形態素情報を、各行
の先頭の数字は文の先頭からの文節番号を表わし、１つ
の文節を１行で記述している。

【００５０】固有名抽出部１２００では、形態素解析済
みの日本語文の各文節から図１１の固有名抽出用パター
ン表に現れる品詞パターンを用いて固有名を抽出する。
まず、形態素解析結果から品詞列を抽出し、図１１の各
パターンと一致するか調べて処理を進める。図１１のパ
ターン表記はプログラミング言語Ｐｅｒｌの文字列マッ
チングでの書式を利用しているが同等のものであればこ
の書式に限定しない。図１１の文節頭削除パターンで各
文節の先頭部分と一致する品詞列に対応する語句である
文節番号４の「上陸し」と文節番号７の「結ん」の部分
が該当するので削除される。また、文節末削除パターン
で各文節の末尾部分と一致する品詞列に対応する語句を
削除すると、残った文字列は、「日本」、「ペリー提
督」、「黒船」「時」、「条約」、「場所」となる。次
に、残った部分と一致パターンとで一致するものを調べ
ると「日本」と「ペリー提督」が該当し、これらの文字
列を固有名とする。最後に図１２の文番号２のように、
文頭（０）からの文字の位置情報とその固有名を固有名
データとして抽出する。

【００５１】図１の文加工部１３００では、日本語形態
素解析結果から品詞が名詞や接尾辞以外の語は日中の固
有名対応に利用されることは少ないと考えて、該当する
語を普段使わない記号に置換すると、図１３の文番号２
のように加工済み日本語文

【表１１】となる。

【００５２】図１の語句対応部１４００では、図２のよ
うな構成となっており、入力された加工済み日本語文と
中国語文を用いて、いくつかの異なった方法で日本語と
中国語の部分的な対応を調べる。

【００５３】辞書対応部１４２０では、図３に示すよう
な構成になっており、事前に辞書中の日本語の仮名を全
てカタカナに統一している。部分文字加工部１４２１で
は、加工済み日本語文の平仮名をカタカナに変換する
と、

【表１２】となる。辞書検索部１４２２では、日本語文をあらゆる
部分文字列で切り出した文字をキーとして日中対訳辞書
からキーと一致する見出し語とその中国語を抽出する。
この例では日中対訳辞書が図１４のようなものであった
場合、

【表１３】を抽出し、辞書対応抽出部１４２３で日本語文と中国語
文の語句対応を調べて、対訳語句加工部１４２４で平仮
名をカタカナに変換していた文字を元に戻した後、図１
５のように各対応する単語の最初の文字について文の先
頭からの位置と一緒に抽出する。

【００５４】文字対応部１４３０では、図４に示すよう
な構成になっており、第１自然言語共通文字コード変換
部１４３１では、第１自然言語の文字コードをＵｎｉｃ
ｏｄｅの文字コードに変換し、第２自然言語共通文字コ
ード変換部１４３２では、第２自然言語の文字コードを
Ｕｎｉｃｏｄｅの文字コードに変換する。Ｕｎｉｃｏｄ
ｅは多数の言語の文字を同じコード体系で表わすもので
あり、日本語と中国語においては漢字の表記が似ている
ものは同じコードに割り当てられている。固有名の場
合、日本語と中国語で同じ漢字を用いることが多く、ま
た、日本語と中国語の中には同じ漢字で同じ意味となる
ものもあるので対応に利用する。文字対応抽出部１４３
３では、日中で同じＵｎｉｃｏｄｅの対応

【表１４】の対応が得られる（括弧は対応する文字）。また、文字
対応辞書１４３５を用いてＵｎｉｃｏｄｅの文字コード
は異なるが、異体字である対応

【表１５】が得られる。文字コード復元部１４３４では、得られた
文字対応を元の文字コードに復元し、各対応文字につい
て文頭からの文字位置とその文字を抽出する（図１６の
文番号２）。

【００５５】読み対応部１４４０では、図５に示すよう
な構成になっている。部分文字抽出加工部１４４１で
は、加工済み日本語文からカタカナを抽出する。この例
では「ペリー」が抽出される。読み付与部１４４２で
は、発音辞書１４４５を用いて中国語の漢字連続部分に
対して発音記号であるピンインを付与する。この例では
図１７のようになり、同じ列に複数ピンインがあるもの
は同じ文字の別の読みを表わしている。読み対応抽出部
１４４３では、特開平１０−１４３５１４の方法の一部
を利用し、英語の読みの部分を中国語の読みに合うよう
に変更して、日本語カタカナと中国語ピンインの対応を
行っており、「ペリー」に対して「ｐｅｉ−ｌｉ」が得
られる。表記変換部１４４４では、ピンインに対応する
中国語文字列を調べて対応を抽出するもので、「ｐｅｉ
−ｌｉ」の表記は「培理」であることから、「ペリー」
＝「培理」を抽出し、同時に文頭からの文字位置とその
文字を抽出する（図１８の文番号２）。

【００５６】アルファベット対応部１４５０では、中国
語でのアルファベットで表記されている部分の対応を求
めるものであるが、この例では中国語文にアルファベッ
トが含まれていないので何も対応データを返さない。

【００５７】辞書−文字対応部１４６０では、図７に示
すような構成になっている。この処理では仮名もしくは
ローマ字を対象として外来語の仮名と同じ意味の日本語
漢字を抽出し、中国語との文字対応を取る。辞書−文字
対応用部分文字加工部１４６１では、加工済み日本語文
から仮名もしくはアルファベットを抽出する。アルファ
ベットがローマ字であればそれを仮名に変換する。ここ
では仮名をカタカナに統一する。この場合「ペリー」が
該当する。第３自然言語を英語として、第１−第３自然
言語辞書検索部１４６２で検索すると対応するものが見
つからないので、辞書−文字対応抽出部１４６４では何
も抽出されない。

【００５８】図２の語句対応抽出部１４１０では対応す
るアルファベット対応部、辞書対応部、文字対応部、読
み対応部、辞書−文字対応部から得られる対応データを
組み合せて文全体で最適な対応を得る。

【００５９】図２０は、対応付け順番表１４９０の例で
あり、その順番は対応の誤りが少ない順に並べており、
順番に従って２言語間で対応のあった箇所を調べ、図２
３の対応表を作成する。対応表のｉは日本語、ｊは中国
語の文字を並べたものであり、日本語のｉ番目の文字と
中国語のｊ番目の文字とで交差した部分の値が１であれ
ば対応があることを示している。図２３で、実線は最終
的に得られた対応、点線はそれ以外である。

【００６０】図２３の対応表を基に、日本語と中国語の
並びが同じで連続して対応する語や文字を０≦ｉ≦２
６、０≦ｊ≦２４まで順番に調べたのち、日本語、中国
語の対応文字数の合計が最大のものから順番に選択して
いく。図２０にある対応付け順番表の順番１で、まず、
日中の対応が決定できるものを順に調べると、日本語で
２文字、中国語で２文字の計４文字が対応する「日本」
＝「日本」および「提」＝「提」、「督」＝「督」およ
び

【表１６】の４つが選択される。次に、日本語１文字、中国語１文
字の計２文字が対応する

【表１７】が選択される。次に、図２０にある対応付け順番表の順
番２の発音による対応を調べると、「ペリー」＝「培
理」が見つかる。このとき、見つかった読み対応と他の
対応とが全く重複しないか、見つかった読み対応が既に
ある対応を包含し、かつ読み対応の方が日本語での対応
語句数が多い場合は、読み対応の方を優先させる。この
例では、対応「リ」＝「里」が既に選択されているが、
その対応は対象外となり、読み対応「ペリー」＝「培
理」を選択する。

【００６１】最終的に図２２のような文頭からの文字位
置と語句対応からなる語句対応データが得られる。

【００６２】図１の固有名対応部１５００では、文加工
部１３００の加工済み日本語文と中国語文と語句対応部
１４００から得られる語句対応データと、固有名抽出部
１２００から得られる日本語固有名を用いて、日本語固
有名に対応する中国語固有名を抽出する。

【００６３】日本語固有名は図１２から「日本」と「ペ
リー提督」であり、日本語「日本」の中国語の対応を調
べると「日本」と連続した文字列となっている。また、
「ペリー提督」も同様に連続した文字列「培理提督」と
適切な対応付けがされている。

【００６４】最後に固有名対応データとして固有名の最
初の文字について文頭からの位置と固有名の情報「０、
日本」＝「１０、日本」、「３、ペリー提督」＝「０、
培理提督」が出力される。

【００６５】実施例３固有名の全文字が２言語間で対応していない場合の固有
名抽出例を示す。

【００６６】図９にある対訳用例のうち、文番号３に関
して固有名対応付けを行う。

【００６７】図１の第１自然言語文は「静岡市観光レク
リエーション課。」、第２自然言語文は

【表１８】である。

【００６８】形態素解析部１１００では、図１０の文番
号３にあるような形態素解析が行われる。日本語形態素
解析結果の“／”は単語区切りを、“（”と“）”の括
弧に囲まれた４つの文字は品詞等の形態素情報を、各行
の先頭の数字は文の先頭からの文節番号を表わし、１つ
の文節を１行で記述している。

【００６９】固有名抽出部１２００では、形態素解析済
みの日本語文の各文節から図１１の固有名抽出用パター
ン表に現れる品詞パターンを用いて固有名を抽出する。
まず、形態素解析結果から品詞列を抽出し、図１１の各
パターンと一致するか調べて処理を進める。図１１のパ
ターン表記はプログラミング言語Ｐｅｒｌの文字列マッ
チングでの書式を利用しているが同等のものであればこ
の書式に限定しない。図１１の文節頭削除パターンで各
文節の先頭部分と一致する品詞列に対応する語句を削除
するが、該当するものがないので何も削除されない。ま
た、文節末削除パターンで各文節の末尾部分と一致する
品詞列に対応する語句を削除すると、残った文字列は、
「静岡市観光レクリエーション課」となる。次に、残っ
た部分と一致パターンとで一致した品詞列に対応する語
句を調べると「静岡市観光レクリエーション課」が該当
し、これらの文字列を固有名とする。最後に図１２の文
番号３のように、文頭からの文字位置（０から）とその
固有名を固有名データとして抽出する。

【００７０】図１の文加工部１３００では、日本語形態
素解析結果から日中の固有名詞の対応付けには不要と考
えられる名詞や接尾辞以外の部分を普段使われない記号
に置換すると図１３の文番号３のように加工済み日本語
文

【表１９】となる。

【００７１】図１の語句対応部１４００では、図２のよ
うな構成となっており、入力された加工済み日本語文と
中国語文を用いて、いくつかの異なった方法で日本語と
中国語の部分的な対応を調べる。

【００７２】辞書対応部１４２０では、図３に示すよう
な構成になっており、部分文字加工部１４２１で、加工
済み日本語文のひらがなをカタカナに変換するとひらが
なの部分はないので、

【表２０】となる。辞書検索部１４２２では、日本語文をあらゆる
部分文字列で切り出した文字をキーとして日中対訳辞書
からキーと一致する見出し語とその中国語を抽出する。
この例では日中対訳辞書が図１４のようなものであった
場合、

【表２１】を抽出し、図１５の文番号３ように各対応する単語の最
初の文字について文の先頭からの位置と一緒に抽出す
る。

【００７３】文字対応部１４３０では、図４に示すよう
な構成になっており、第１自然言語共通文字コード変換
部１４３１では、第１自然言語の文字コードをＵｎｉｃ
ｏｄｅの文字コードに変換し、第２自然言語共通文字コ
ード変換部１４３２では、第２自然言語の文字コードを
Ｕｎｉｃｏｄｅの文字コードに変換する。Ｕｎｉｃｏｄ
ｅは多数の言語の文字を同じコード体系で表わすもので
あり、日本語と中国語においては漢字の表記が似ている
ものは同じコードに割り当てられたものである。固有名
の場合、日本語と中国語で同じ漢字を用いることが多
く、また、日本語と中国語の中には同じ漢字で同じ意味
となるものもあるので対応にも利用する。文字対応抽出
部１４３３では、日中で同じＵｎｉｃｏｄｅの対応を抽
出すると、「￥ｕ９７５９（静）」＝「￥ｕ９７５９
（静）」、「￥ｕ５ｅ０２（市）」＝「￥ｕ５ｅ０２
（市）」、「￥ｕ５１４９（光）」＝「￥ｕ５１４９
（光）」の対応が得られる（括弧は対応する文字）。ま
た、文字対応辞書１４３５を用いてＵｎｉｃｏｄｅの文
字コードは異なるが、異体字として同じ文字と考えられ
る文字コード同士で対応を抽出すると、

【表２２】の対応が得られる。文字コード復元部１４３４では、得
られた文字対応を元の文字コードに復元し、各対応文字
について文頭からの文字位置とその文字を抽出する（図
１６の文番号３）。

【００７４】読み対応部１４４０では、図５に示すよう
な構成になっている。部分文字抽出加工部１４４１で
は、加工済み日本語文からカタカナを抽出する。この例
では「レクリエーション」が抽出される。読み付与部１
４４２では、発音辞書１４４５を用いて中国語の漢字連
続部分に対して発音記号であるピンインを付与する。こ
の例では図２４のようになり、同じ列に複数ピンインが
あるものは同じ文字の違う読みを表わしている。読み対
応抽出部１４４３では、特開平１０−１４３５１４の方
法で、英語の読みの部分を中国語の読みに合うように変
更して、日本語カタカナと中国語ピンインの対応を行う
と、「レクリエーション」に対するピンインは得られな
いので、読み対応部は何も出力されない。

【００７５】アルファベット対応部１４５０では、中国
語でのアルファベットで表記されている部分の対応を求
めるものであるが、この例では中国語文にアルファベッ
トが含まれていないので何も対応データを返さない。

【００７６】辞書−文字対応部１４６０では、図７に示
すような構成になっている。この処理では仮名もしくは
ローマ字を対象として外来語の仮名と同じ意味の日本語
漢字を抽出し、中国語との文字対応を取る。辞書−文字
対応用部分文字加工部１４６１では、加工済み日本語文
から仮名もしくはアルファベットを抽出する。アルファ
ベットがローマ字であればそれを仮名に変換する。ここ
では仮名をカタカナに統一する。この場合「レクリエー
ション」が該当する。第３自然言語を英語として、第１
−第３自然言語辞書検索部１４６２で検索すると、「レ
クリエーション」＝「ｒｅｃｒｅａｔｉｏｎ」が得ら
れ、さらに第３−第１自然言語辞書検索部１４６３で
「ｒｅｃｒｅａｔｉｏｎ」＝「慰安、気保養、休養、保
養」が得られる。これと中国語文との間の文字対応を文
字対応部１４３０で求めると対応する文字はないので、
辞書−文字対応抽出部１４６４では何も抽出されない。

【００７７】図２の語句対応抽出部１４１０では対応す
るアルファベット対応部、辞書対応部、文字対応部、読
み対応部、辞書−読み対応部から得られる対応データを
組合せて文全体で最適な対応を得る。

【００７８】図２０は、対応付け順番表１４９０の例で
あり、その順番は対応の誤りが少ない順に並べており、
順番に従って２言語間で対応のあった箇所を調べ、図２
５の対応表を作成する。対応表のｉは日本語、ｊは中国
語の文字を並べたものであり、日本語のｉ番目の文字と
中国語のｊ番目の文字とで交差した部分の値が１であれ
ば対応があることを示している。図２５で、実線は最終
的に得られた対応、点線はそれ以外である。

【００７９】図２５の対応表を基に、日本語と中国語の
並びが同じで連続して対応する語や文字を０≦ｉ≦１
４、０≦ｊ≦８まで順番に調べたのち、日本語、中国語
の対応文字数の合計が最大のものから順番に選択してい
く。図２０にある対応付け順番表の順番１で、まず、日
中の対応が決定できるものを順に調べると、まず、日本
語で５文字、中国語で５文字の計１０文字が対応する

【表２３】が選択される。このとき、その対応と重複して現れてい
るものは、対応誤りと考え、「シ」＝「市」の対応を対
象外とする。最後に、日本語１文字、中国語１文字の計
２文字が対応する

【表２４】が選択される。

【００８０】これ以上対応がないので、最終的に文頭か
らの文字位置と語句を各言語の対応順に並べた図２２の
文番号３のような語句対応データが得られる。

【００８１】図１の固有名対応部１５００では、文加工
部１３００の加工済み日本語文と中国語文と語句対応部
１４００から得られる語句対応データと、固有名抽出部
１２００から得られる日本語固有名を用いて、日本語固
有名に対応する中国語固有名を抽出する。

【００８２】日本語固有名は図１２から「静岡市観光レ
クリエーション課」であり、日本語「静岡市観光レクリ
エーション課」の中国語の対応を調べると「静岡市観
光」と

【表２５】が対応しているが連続した文字列とはなっていない。し
かし、固有名は連接した文字列となる可能性が高いと考
え、日本語と中国語の先頭と末尾文字が対応しており、
その他の文字がその間で対応付けされているので、対応
付けされていない文字も

【表２６】の範囲にあると推定する。次に、日本語固有名と中国語
固有名の文字数の差が大きく、固有名中の未対応数が多
いと誤った対応となる可能性があるので、事前に設定し
た条件を満たすかを調べる。この例では固有名の文字数
の差が、閾値Ｔ１（２言語で短い方の固有名の文字数）
以下でかつ、日中の未対応文字数と日中の文字数の割合
が閾値Ｔ２（０．５）以下ならば抽出する。なお閾値は
一例である。この場合は、日本語の固有名が１４文字、
中国語の固有名が８文字であり、その差が６文字は短い
ほうの中国語固有名の８文字以下でありかつ、日中の未
対応文字数（８＋２）と日中の文字数（１４＋８）の割
合が０．４５であるため、日本語固有名に対する中国語
固有名として、

【表２７】を抽出し、固有名の最初の文字の文頭からの位置と固有
名の情報

【表２８】が出力される（図２６）。

【００８３】実施例４２言語間でいくつかの異なる対応を重要度に応じて適切
に組合せる固有名抽出例を示す。

【００８４】図９にある対訳用例のうち、文番号４に関
して固有名対応付けを行う。

【００８５】図１の第１自然言語文は「元イギリス総領
事館公邸のイギリス館がある。」、第２自然言語文は

【表２９】である。

【００８６】形態素解析部１１００では、図１０の文番
号４にあるような形態素解析が行われる。日本語形態素
解析結果の“／”は単語区切りを、“（”と“）”の括
弧に囲まれた４つの文字は品詞等の形態素情報を、各行
の先頭の数字は文の先頭からの文節番号を表わし、１つ
の文節を１行で記述している。

【００８７】固有名抽出部１２００では、形態素解析済
みの日本語文の各文節から図１１の固有名抽出用パター
ン表に現れる品詞パターンを用いて固有名を抽出する。
まず、形態素解析結果から品詞列を抽出し、図１１の各
パターンと一致するか調べて処理を進める。図１１のパ
ターン表記はプログラミング言語Ｐｅｒｌの文字列マッ
チングでの書式を利用しているが同等のものであればこ
の書式に限定しない。図１１の文節頭削除パターンで各
文節の先頭部分と一致する品詞列に対応する語句を削除
する。また、文節末削除パターンで各文節の末尾部分と
一致する品詞列に対応する語句を削除すると、残った文
字列は、「イギリス総領事館」と「イギリス館」とな
る。

【００８８】次に、残った部分と一致パターンとで一致
した品詞列に対応する語句を調べると「イギリス総領事
館」と「イギリス館」が該当し、これらの文字列を固有
名とする。最後に図１２の文番号４のように、文頭から
の文字位置（０から）とその固有名を固有名データとし
て抽出する。

【００８９】図１の文加工部１３００では、日本語形態
素解析結果から日中の固有名詞の対応付けには不要と考
えられる名詞や接尾辞以外の部分を普段使われない記号
に置換すると図１３の文番号４のように加工済み日本語
文

【表３０】となる。

【００９０】図１の語句対応部１４００では、図２のよ
うな構成となっており、入力された加工済み日本語文と
中国語文を用いて、いくつかの異なった方法で日本語と
中国語の部分的な対応を調べる。

【００９１】辞書対応部１４２０では、図３に示すよう
な構成になっており、部分文字加工部１４２１で、加工
済み日本語文のひらがなをカタカナに変換すると、

【表３１】となる。辞書検索部１４２２では、日本語文をあらゆる
部分文字列で切り出した文字をキーとして日中対訳辞書
からキーと一致する見出し語とその中国語を抽出する。
この例では日中対訳辞書が図１４のようなものであった
場合、

【表３２】を抽出し、図１５の文番号４のように各対応する単語の
最初の文字について文の先頭からの位置と一緒に抽出す
る。

【００９２】文字対応部１４３０では、図４に示すよう
な構成になっており、第１自然言語共通文字コード変換
部１４３１では、第１自然言語の文字コードをＵｎｉｃ
ｏｄｅの文字コードに変換し、第２自然言語共通文字コ
ード変換部１４３２では、第２自然言語の文字コードを
Ｕｎｉｃｏｄｅの文字コードに変換する。Ｕｎｉｃｏｄ
ｅは多数の言語の文字を同じコード体系で表わすもので
あり、日本語と中国語においては漢字の表記が似ている
ものは同じコードに割り当てられたものである。固有名
の場合、日本語と中国語で同じ漢字を用いることが多
く、また、日本語と中国語の中には同じ漢字で同じ意味
となるものもあるので対応に利用する。

【００９３】文字対応抽出部１４３３では、日中で同じ
Ｕｎｉｃｏｄｅの対応を抽出すると、「￥ｕ４ｅ８ｂ
（事）」＝「￥ｕ４ｅ８ｂ（事）」、「￥ｕ５１６ｃ
（公）」＝「￥ｕ５１６ｃ（公）」の対応が得られる
（括弧は対応する文字）。

【００９４】また、文字対応辞書１４３５を用いてＵｎ
ｉｃｏｄｅの文字コードは異なるが、異体字として同じ
文字と考えられる文字コード同士で対応を抽出すると、

【表３３】の対応が得られる。文字コード復元部１４３４では、得
られた文字対応を元の文字コードに復元し、各対応文字
について文頭からの文字位置とその文字を抽出する（図
１６の文番号４）。

【００９５】読み対応部１４４０では、図５に示すよう
な構成になっている。部分文字抽出加工部１４４１で
は、加工済み日本語文からカタカナを抽出する。この例
では「イギリス」が抽出される。読み付与部１４４２で
は、発音辞書１４４５を用いて中国語の漢字連続部分に
対して発音記号であるピンインを付与する。この例では
図２７のようになり、同じ列に複数ピンインがあるもの
は同じ文字の違う読みを表わしている。読み対応抽出部
１４４３では、特開平１０−１４３５１４の方法で、英
語の読みの部分を中国語の読みに合うように変更して、
日本語カタカナと中国語ピンインの対応を行うと、「イ
ギリス」に対するピンインとして

【表３４】が得られる（図１８の文番号４）。

【００９６】アルファベット対応部１４５０では、中国
語でのアルファベットで表記されている部分の対応を求
めるものであるが、この例では中国語文にアルファベッ
トが含まれていないので何も対応データを返さない。

【００９７】辞書−文字対応部１４６０では、図７に示
すような構成になっている。この処理では仮名もしくは
ローマ字を対象として外来語の仮名と同じ意味の日本語
漢字を抽出し、中国語との文字対応を取る。辞書−文字
対応用部分文字加工部１４６１では、加工済み日本語文
から仮名もしくはアルファベットを抽出する。アルファ
ベットがローマ字であればそれを仮名に変換する。ここ
では仮名をカタカナに統一する。この場合「イギリス」
が該当する。第３自然言語を英語として、第１−第３自
然言語辞書検索部１４６２で検索すると、「イギリス」
＝「ＧｒｅａｔＢｒｉｔａｉｎ」が得られ、さらに第３
−第１自然言語辞書検索部１４６３で「ＧｒｅａｔＢ
ｒｉｔａｉｎ」＝「英国」が得られる。これと中国語文
との間の文字対応を文字対応部１４３０で求めると「￥
ｕ８２ｆ１（英）」＝「￥ｕ８２ｆ１（英）」、「￥ｕ
５６ｆｄ（国）」＝「￥ｕ５６ｆｄ（国）」が対応する
ので、「イギリス」＝「英国」の対応が得られる（図１
９の文番号４）。

【００９８】図２の語句対応抽出部１４１０では対応す
るアルファベット対応部、辞書対応部、文字対応部、読
み対応部、辞書−文字対応部から得られる対応データを
組合せて文全体で最適な対応を得る。

【００９９】図２０は、対応付け順番表１４９０の例で
あり、その順番は対応の誤りが少ない順に並べており、
順番に従って２言語間で対応のあった箇所を調べ、図２
８の対応表を作成する。対応表のｉは日本語、ｊは中国
語の文字を並べたものであり、日本語のｉ番目の文字と
中国語のｊ番目の文字とで交差した部分の値が１であれ
ば対応があることを示している。図２８で、実線は最終
的に得られた対応、点線はそれ以外である。

【０１００】図２８の対応表を基に、日本語と中国語の
並びが同じで連続して対応する語や文字を０≦ｉ≦２
０、０≦ｊ≦１７まで順番に調べたのち、日本語、中国
語の対応文字数の合計が最大のものから順番に選択して
いく。図２０にある対応付け順番表の順番１で、まず、
日中の対応が決定できるものを順に調べると、日本語で
４文字、中国語で４文字の計８文字が対応する

【表３５】が選択される（辞書と文字の対応のように、同じ対応が
重複して現れた場合は、図２０の順番１に並べている順
の最左にある対応を選択する）。このとき、その対応と
重複して現れている日本語と中国語は対応誤りと考え、

【表３６】を対象外とする。次に、日本語が５文字、中国語で３文
字の計８文字が対応する

【表３７】が選択される。このとき１≦ｉ≦４、１３≦ｊ≦１４の
対応「イギリス」＝「英国」、１２≦ｉ≦１５、４≦ｊ
≦５の対応

【表３８】を対象外とする。次に日本語が４文字、中国語で２文字
の計６文字が対応する１≦ｉ≦４、４≦ｊ≦５の「イギ
リス」＝「英国」が選択される。次に、図２０にある対
応付け順番表の順番２の辞書−文字対応では、全ての
「イギリス」＝「英国」の対応は既に辞書対応で得られ
ているので何もしない。仮に、辞書対応で「イギリス」
＝「英国」がない場合でも、この対応により辞書対応と
同様な「イギリス」＝「英国」の対応が得られる。ま
た、読みによる対応では、１≦ｉ≦４、６≦ｊ≦７を含
む読み対応１≦ｉ≦４、４≦ｊ≦７の対応

【表３９】１２≦ｉ≦１５、６≦ｊ≦７を含む読み対応１２≦ｉ≦
１５、４≦ｊ≦７の対応

【表４０】があるが、このとき、見つかった読み対応と他の対応と
が全く重複しないか、見つかった読み対応が既にある対
応を包含し、かつ読み対応の方が日本語での対応語句数
が多い場合は、読み対応の方を優先させることから、上
記条件に該当せず、対象外となる。最終的に、文頭から
の文字位置と語句を各言語の対応順に並べた図２２の文
番号４のような語句対応データが得られる。

【０１０１】図１の固有名対応部１５００では、文加工
部１３００の加工済み日本語文と中国語文と語句対応部
１４００から得られる語句対応データと、固有名抽出部
１２００から得られる日本語固有名を用いて、日本語固
有名に対応する中国語固有名を抽出する。

【０１０２】日本語固有名は図１２から「イギリス総領
事館」と「イギリス館」であり、日本語「イギリス総領
事館」と「イギリス館」の中国語の対応を調べると、
「イギリス総領事館」は、「イギリス」、「領事館」が
対応しているが連続した文字列とはなっていない。しか
し、日本語と中国語の先頭と末尾文字が対応しており、
その他の文字で対応しているものは、その間で対応付け
されているので、対応付けされていない文字の中国語文
字も

【表４１】の範囲に含まれていると推定する。次に、日本語固有名
と中国語固有名の文字数の差が大きく、固有名中の未対
応語が多いと誤った対応となる可能性があるので、事前
に設定した条件を満たすかを調べる。この例では固有名
の文字数の差が閾値Ｔ１（２言語で短い方の固有名の文
字数）以下でかつ、日中の未対応文字数と日中の文字数
割合が閾値Ｔ２（０．５）以下ならば抽出する。この場
合は、日本語「イギリス総領事館」の固有名が８文字、
中国語の固有名が５文字であり、その差の３文字は短い
ほうの中国語固有名以下でありかつ、日中の未対応文字
数（１＋０）と日中の文字数（８＋５）の割合が０．０
７であるため、日本語固有名に対する中国語固有名とし
て、

【表４２】を抽出する。一方「イギリス館」は、

【表４３】と連続した文字列であり、適切な対応付けがされてい
る。

【０１０３】最後に固有名対応データとして固有名の最
初の文字について文頭からの位置と固有名の情報

【表４４】が出力される。

【０１０４】実施例５同じ日本語において重複して対応しており、それだけで
は対応が決定できない場合に適切な対応を求める固有名
抽出例を示す。

【０１０５】図９にある対訳用例のうち、文番号５に関
して固有名対応付けを行う。

【０１０６】図１の第１自然言語文は「新潟駅より新潟
空港行きのバスで３０分。」、第２自然言語文は

【表４５】である。

【０１０７】形態素解析部１１００では、図１０の文番
号５にあるような形態素解析が行われる。日本語形態素
解析結果の“／”は単語区切りを、“（”と“）”の括
弧に囲まれた４つの文字は品詞等の形態素情報を、各行
の先頭の数字は文の先頭からの文節番号を表わし、１つ
の文節を１行で記述している。

【０１０８】固有名抽出部１２００では、形態素解析済
みの日本語文の各文節から図１１の固有名抽出用パター
ン表に現れる品詞パターンを用いて固有名を抽出する。
まず、形態素解析結果から品詞列を抽出し、図１１の各
パターンと一致するか調べて処理を進める。図１１のパ
ターン表記はプログラミング言語Ｐｅｒｌの文字列マッ
チングでの書式を利用しているが同等のものであればこ
の書式に限定しない。図１１の文節頭削除パターンで各
文節の先頭部分と一致する品詞列に対応する語句を削除
する。また、文節末削除パターンで各文節の末尾部分と
一致する品詞列に対応する語句を削除すると、残った文
字列は、「新潟駅」、「新潟空港」、「行き」、「バ
ス」、「３０分」となる。次に、残った部分と一致パタ
ーンとで一致した品詞列に対応する語句を調べると「新
潟駅」と「新潟空港」が該当し、これらの文字列を固有
名とする。最後に図１２の文番号５のように、文頭から
の文字位置（０から）とその固有名を固有名データとし
て抽出する。

【０１０９】図１の文加工部１３００では、日本語形態
素解析結果から日中の固有名詞の対応付けには不要と考
えられる名詞や接尾辞以外の部分を普段使われない記号
に置換すると図１３の文番号５のように加工済み日本語
文

【表４６】となる。

【０１１０】図１の語句対応部１４００では、図２のよ
うな構成となっており、入力された加工済み日本語文と
中国語文を用いて、いくつかの異なった方法で日本語と
中国語の部分的な対応を調べる。

【０１１１】辞書対応部１４２０では、図３に示すよう
な構成になっており、部分文字加工部１４２１で、加工
済み日本語文のひらがなをカタカナに変換すると、

【表４７】となる。辞書検索部１４２２では、日本語文をあらゆる
部分文字列で切り出した文字をキーとして日中対訳辞書
からキーと一致する見出し語とその中国語を抽出する。
この例では日中対訳辞書が図１４のようなものであった
場合、

【表４８】を抽出し、図１５の文番号５のように各対応する単語の
最初の文字について文の先頭からの位置と一緒に抽出す
る。

【０１１２】文字対応部１４３０では、図４に示すよう
な構成になっており、第１自然言語共通文字コード変換
部１４３１では、第１自然言語の文字コードをＵｎｉｃ
ｏｄｅの文字コードに変換し、第２自然言語共通文字コ
ード変換部１４３２では、第２自然言語の文字コードを
Ｕｎｉｃｏｄｅの文字コードに変換する。Ｕｎｉｃｏｄ
ｅは多数の言語の文字を同じコード体系で表わすもので
あり、日本語と中国語においては漢字の表記が似ている
ものは同じコードに割り当てられたものである。固有名
の場合、日本語と中国語で同じ漢字を用いることが多
く、また、日本語と中国語の中には同じ漢字で同じ意味
となるものもあるので対応に利用する。

【０１１３】文字対応抽出部１４３３では、日中で同じ
Ｕｎｉｃｏｄｅの対応を抽出すると、「￥ｕ６５ｂ０
（新）」＝「￥ｕ６５ｂ０（新）」、「￥ｕｆｆ１３
（３）」＝「￥ｕｆｆ１３（３）」、「￥ｕｆｆ１０
（０）」＝「￥ｕｆｆ１０（０）」「￥ｕ５２０６
（分）」＝「￥ｕ５２０６（分）」の対応が得られる
（括弧は対応する文字）。文字コード復元部１４３４で
は、得られた文字対応を元の文字コードに復元し、各対
応文字について文頭からの文字位置とその文字を抽出す
る（図１６の文番号５）。

【０１１４】読み対応部１４４０では、図５に示すよう
な構成になっている。部分文字抽出加工部１４４１で
は、加工済み日本語文からカタカナを抽出する。この例
では「バス」が抽出される。読み付与部１４４２では、
発音辞書１４４５を用いて中国語の漢字連続部分に対し
て発音記号であるピンインを付与する。この例では図３
０のようになり、同じ列に複数ピンインがあるものは同
じ文字の違う読みを表わしている。読み対応抽出部１４
４３では、特開平１０−１４３５１４の方法で、英語の
読みの部分を中国語の読みに合うように変更して、日本
語カタカナと中国語ピンインの対応を行ったが、この例
では「バス」に対応するピンインは得られない。

【０１１５】アルファベット対応部１４５０では、中国
語でのアルファベットで表記されている部分の対応を求
めるものであるが、この例では中国語文にアルファベッ
トが含まれていないので何も対応データを返さない。

【０１１６】辞書−文字対応部１４６０では、図７に示
すような構成になっている。この処理では仮名もしくは
ローマ字を対象として外来語の仮名と同じ意味の日本語
漢字を抽出し、中国語との文字対応を取る。辞書−文字
対応用部分文字加工部１４６１では、加工済み日本語文
から仮名もしくはアルファベットを抽出する。アルファ
ベットがローマ字であればそれを仮名に変換する。ここ
では仮名をカタカナに統一する。この場合「キ」および
「バス」が該当する。第３自然言語を英語として、第１
−第３自然言語辞書検索部１４６２で検索すると、
「キ」の対応はなく、「バス」＝「ｂｕｓ」が得られ、
さらに第３−第１自然言語辞書検索部１４６３で「ｂｕ
ｓ」＝「母線」が得られる。これと中国語文との間の文
字対応を文字対応部１４３０で求めると対応するものが
ないので、対応は得られない。

【０１１７】図２の語句対応抽出部１４１０では対応す
るアルファベット対応部、辞書対応部、文字対応部、読
み対応部、辞書−読み対応部から得られる対応データを
組合せて文全体で最適な対応を得る。

【０１１８】図２０は、対応付け順番表１４９０の例で
あり、その順番は対応の誤りが少ない順に並べており、
順番に従って２言語間で対応のあった箇所を調べ、図２
９の対応表を作成する。対応表のｉは日本語、ｊは中国
語の文字を並べたものであり、日本語のｉ番目の文字と
中国語のｊ番目の文字とで交差した部分の値が１であれ
ば対応があることを示している。図２９で、実線は最終
的に得られた対応、点線はそれ以外である。

【０１１９】図２９の対応表を基に、日本語と中国語の
並びが同じで連続して対応する語や文字を０≦ｉ≦１
８、０≦ｊ≦２２まで順番に調べたのち、日本語、中国
語の対応文字数の合計が最大のものから順番に選択して
いく。図２０にある対応付け順番表の順番１で、まず、
日中の対応が決定できるものを順に調べると、日本語で
２文字、中国語で４文字の計６文字が対応する

【表４９】が選択される。このとき、その対応の一部に含まれてお
り重複して現れている日本語と中国語は対応誤りと考
え、

【表５０】を対象外とする。また、日本語が３文字、中国語で３文
字の計６文字が対応する「３」＝「３」、「０」＝
「０」、「分」＝「分」が選択される。次に、日本語が
２文字、中国語で２文字の計４文字が対応する

【表５１】が選択される。次に日本語が１文字、中国語で２文字の
計３文字が対応する

【表５２】が選択される。次に、日本語が１文字、中国語が１文字
の計２文字が対応するｉ＝０、ｊ＝１とｉ＝０、ｊ＝９
とｉ＝５、ｊ＝１とｉ＝５とｊ＝９の「新」＝「新」の
対応では、どれも対応が重なっており、一意に決定でき
ない。そこで、日本語が同じで中国語が異なっている複
数の対応について、その周囲の対応を調べ、最も近くで
既に選択されている対応が見つかったものを選択する。
ｉ＝０、ｊ＝１の対応は、日本語、中国語とも２文字離
れたｉ＝２、ｊ＝３に対応があるが、ｉ＝０、ｊ＝９は
日本語で２文字、中国語で５文字離れたｉ＝２、ｊ＝４
に対応があることから、ｉ＝０、ｊ＝１の方を選択す
る。同様にｉ＝５、ｊ＝１の対応は日本語４文字、中国
語６文字離れたｉ＝９、ｊ＝７に対応があるが、ｉ＝
５、ｊ＝９の対応は日本語、中国語とも２文字離れたｉ
＝７、ｊ＝１１に対応があることから、ｉ＝５、ｊ＝９
の対応を選択する。最終的に、文頭からの文字位置と語
句を各言語の対応順に並べた図２２の文番号５のような
語句対応データが得られる。

【０１２０】図１の固有名対応部１５００では、文加工
部１３００の加工済み日本語文と中国語文と語句対応部
１４００から得られる語句対応データと、固有名抽出部
１２００から得られる日本語固有名を用いて、日本語固
有名に対応する中国語固有名を抽出する。

【０１２１】日本語固有名は図１２から「新潟駅」と
「新潟空港」であり、日本語「新潟駅」と「新潟空港」
の中国語の対応を調べると、「新」、「駅」および
「新」、「空港」が対応しているが連続した文字列とは
なっていない。しかし、日本語と中国語の先頭と末尾文
字が対応しており、その他の文字で対応しているもの
は、その間で対応付けされているので、対応付けされて
いない文字の中国語文字も

【表５３】の範囲にあると推定する。次に、日本語固有名と中国語
固有名の文字数の差が大きく、固有名中の未対応語が多
いと誤った対応となる可能性があるので、事前に設定し
た条件を満たすかを調べる。この例では固有名の文字数
の差が、閾値Ｔ１（２言語で短い方の固有名の文字数）
以下でかつ、日中の未対応文字数と日中の文字数の割合
が閾値Ｔ２（０．５）以下ならば抽出する。なお閾値は
一例である。この場合は、日本語「新潟駅」の固有名が
３文字、中国語の固有名が４文字であり、その差の１文
字は短いほうの中国語固有名以下でありかつ、日中の未
対応文字数（１＋１）と日中の文字数（３＋４）の割合
が０．２８であるため、日本語固有名に対する中国語固
有名として、

【表５４】を抽出し、日本語「新潟空港」の固有名が４文字、中国
語の固有名が４文字であり、その差の０文字はどちらで
も固有名の文字数以下であり、かつ日中の未対応文字数
（１＋１）と日中の文字数（４＋４）の割合が０．２５
であるため、日本語固有名に対する中国語固有名とし
て、

【表５５】を抽出する。

【０１２２】最後に固有名対応データとして固有名の最
初の文字について文頭からの位置と固有名の情報

【表５６】が出力される。

【０１２３】尚、前記各実施例における固有名対応付け
方法は、具体的にはパソコン等のコンピュータにより、
予め所定のプログラムに基づいて実行される。前記プロ
グラムは所定のコンピュータ読み取り可能な記録媒体に
記録することができる。

【０１２４】

【発明の効果】以上述べたように本発明によれば、第１
自然言語文とその訳の第２自然言語文との対である対訳
用例から、２言語間で対応する固有名を得る固有名対応
付けにおいて、一方の言語の解析を行わずとも、片方の
言語の解析情報から得られる固有名のデータと２言語間
の対応データを用いて固有名対応を抽出できる。

【０１２５】２言語間で対応を取る際には、対訳辞書に
よる対応だけでなく、文字や発音やアルファベットや辞
書と文字による対応や辞書と文字による対応を組合せて
処理することで、それぞれ単独の対応付けでは得られな
い幅広い種類の対応を取ることができる。

【０１２６】対訳用例の量や同じ表現の出現数に関わら
ず適切な対応を数多く得ることができる。

【０１２７】対応付けでは、対訳だけでなく対訳用例中
での固有名の出現位置を得ることができる。

【図面の簡単な説明】

【図１】本発明の実施形態例に係る装置の構成図であ
る。

【図２】本発明の実施形態例に係る語句対応部の構成図
である。

【図３】本発明の実施形態例に係る辞書対応部の構成図
である。

【図４】本発明の実施形態例に係る文字対応部の構成図
である。

【図５】本発明の実施形態例に係る読み対応部の構成図
である。

【図６】本発明の実施形態例に係るアルファベット対応
部の構成図である。

【図７】本発明の実施形態例に係る辞書−文字対応部の
構成図である。

【図８】本発明の実施形態例に係る語句対応抽出部の構
成図である。

【図９】本発明の実施例に係る第１自然言語文とその対
訳の第２自然言語文の一例を示す説明図である。

【図１０】本発明の実施例に係る第１自然言語文の形態
素解析結果の一例を示す説明図である。

【図１１】本発明の実施例に係る固有名抽出用パターン
表の一例を示す説明図である。

【図１２】本発明の実施例に係る固有名データの一例を
示す説明図である。

【図１３】本発明の実施例に係る加工済み第１自然言語
文を示す説明図である。

【図１４】本発明の実施例に係る日中対訳辞書の一例を
示す説明図である。

【図１５】本発明の実施例に係る辞書対応データの一例
を示す説明図である。

【図１６】本発明の実施例に係る文字対応データを示す
説明図である。

【図１７】本発明の実施例に係る文番号２での読み対応
に利用するデータを示す説明図である。

【図１８】本発明の実施例に係る読み対応データを示す
説明図である。

【図１９】本発明の実施例に係る辞書−文字対応データ
を示す説明図である。

【図２０】本発明の実施例に係る対応付け順番表の一例
を示す説明図である。

【図２１】本発明の実施例に係る文番号１での対応表を
示す説明図である。

【図２２】本発明の実施例に係る完成した語句対応デー
タを示す説明図である。

【図２３】本発明の実施例に係る文番号２での文対応表
を示す説明図である。

【図２４】本発明の実施例に係る文番号３での読み対応
に利用するデータを示す説明図である。

【図２５】本発明の実施例に係る文番号３での文対応表
を示す説明図である。

【図２６】本発明の実施例に係る文番号３での固有名対
応の説明図である。

【図２７】本発明の実施例に係る文番号４での読み対応
に利用するデータを示す説明図である。

【図２８】本発明の実施例に係る文番号４での文対応表
を示す説明図である。

【図２９】本発明の実施例に係る文番号５での文対応表
を示す説明図である。

【図３０】本発明の実施例に係る文番号５での読み対応
に利用するデータを示す説明図である。

【符号の説明】

１０００語句対応付け装置１１００形態素解析部１２００固有名抽出部１３００文加工部１４００語句対応部１４１０語句対応抽出部１４１１対応表作成部１４１２最適対応推定部１４２０辞書対応部１４２１部分文字加工部１４２２辞書検索部１４２３辞書対応抽出部１４２４対訳語句加工部１４２５第１−第２自然言語対訳辞書１４３０文字対応部１４３１第１自然言語共通文字コード変換部１４３２第２自然言語共通文字コード変換部１４３３文字対応抽出部１４３４文字コード復元部１４３５文字対応辞書１４４０読み対応部１４４１部分文字抽出加工部１４４２読み付与部１４４３読み対応抽出部１４４４表記変換部１４４５発音辞書１４５０アルファベット対応部１４５１アルファベット抽出部１４５２アルファベット辞書対応部１４５３アルファベット読み対応推定部１４５４第１自然言語−アルファベット対訳辞書１４６０辞書−文字対応部１４６１辞書−文字対応用部分文字加工部１４６２第１−第３自然言語辞書検索部１４６３第３−第１自然言語辞書検索部１４６４辞書−文字対応抽出部１４６５第１−第３自然言語対訳辞書１４９０対応付け順番表１５００固有名対応部

Claims

【特許請求の範囲】

【請求項１】第１自然言語文とその訳の第２自然言語
文との対である対訳用例から、２言語間で対応している
固有名を得る固有名対応付け方法において、第２自然言
語文の解析情報がない場合でも、第１自然言語文の解析
情報から第１自然言語文の中の固有名を抽出し、また、
２言語間の辞書対応、文字対応、読み対応、アルファベ
ット対応、辞書−文字対応のデータを適切に組合せて、
２言語間の語句対応を推定し、前記第１自然言語文中の
固有名と前記２言語間の語句対応から２言語間の固有名
対応と各文内の出現位置のデータを抽出することを特徴
とする固有名対応付け方法。
【請求項２】前記２言語間の語句対応において、第１
自然言語文の形態素解析結果を用いて、語句対応付けが
不要な語句を誤って対応付けするのを防ぐために、その
語句を第２自然言語文とは対応付けしないようにして第
１自然言語文と第２自然言語文との間で語句対応を行う
ことを特徴とする請求項１記載の固有名対応付け方法。
【請求項３】前記語句対応において、適切な対応を取
るために、対応している文字や語がともに連続してお
り、２言語間で同じ順となっている文字列の対応とその
対応している各言語の文字列の文字数を調べ、その文字
数が多いものから順に対応付けを行ない、同時に対応付
けされた文字列と重なった他の対応は調査対象から除外
して語句対応を抽出することを特徴とする請求項１記載
の固有名対応付け方法。
【請求項４】前記請求項３の語句対応において、第１
自然言語の文字列の出現位置は共通だが、それに対応す
る第２自然言語の文字列の出現位置が異なるものが複数
あって対応付けが決まらない場合には、より近くで既に
対応付けられた文字列が存在したものを優先的に選択し
て語句対応を抽出することを特徴とする請求項１記載の
固有名対応付け方法。
【請求項５】前記語句対応において、異なる複数の対
応を誤りの多い対応とそれ以外の対応に分けた対応付け
順番表を事前に準備しておき、始めに誤りの少ない対応
で対応付けを行なった後、誤りの多い対応において、誤
りの少ない対応付けの第１自然言語の文字列と重複し、
かつ部分文字列となる場合は、誤りの多い対応付けを行
わないことで、誤った対応付けを防ぐことを特徴とする
請求項１記載の固有名対応付け方法。
【請求項６】前記固有名対応において、第１自然言語
文の固有名の一部が第２自然言語文と対応が取れない場
合でも、固有名中の文字や語句の対応を調べ、少なくと
も第１自然言語文の固有名の先頭と末尾の文字に対応が
あり、第１自然言語の固有名と第２自然言語側で対応付
けされた文字の先頭から末尾までの文字列との文字数の
差が所定の値を超えないものを固有名対応として抽出す
ることを特徴とする請求項１記載の固有名対応付け方
法。
【請求項７】第１自然言語文とその訳の第２自然言語
文との対である対訳用例から、２言語間で対応する固有
名を得る固有名対応付け装置において、第１自然言語文
を形態素解析する形態素解析手段と、第１自然言語文の
形態素解析結果から所定の固有名抽出用パターン表の条
件に合致する語句を抽出する固有名抽出手段と、第１自
然言語の形態素解析結果から固有名対応の対象としない
語句が対応付けできないように第１自然言語文を加工す
る文加工手段と、該加工済み第１自然言語文と第２自然
言語文を用いて２言語の文に含まれている適切な語句対
応を調べる語句対応手段と、前記固有名データと前記語
句対応抽出手段から出力される語句対応データと第１自
然言語文と第２自然言語文から２言語の文に含まれてい
る固有名の対応を調べ、２言語間の固有名対応と各文内
の出現位置からなる固有名対応データを出力する固有名
対応手段とを有することを特徴とする固有名対応付け装
置。
【請求項８】前記語句対応手段において、２言語間の
辞書対応手段、文字対応手段、読み対応手段、アルファ
ベット対応手段、辞書−文字対応手段から得られた異な
る対応データを対応の曖昧性が少ないものから優先して
語句対応を調べ、適切な語句対応を抽出する語句対応抽
出手段を有することを特徴とする請求項７記載の固有名
対応付け装置。
【請求項９】前記語句対応手段において、適切な対応
を取るために、対応している文字や語が連続しており、
２言語とも同じ順となっている文字列対応に対して、そ
の対応文字列の２言語の文字数を調べ、その文字数が多
いものから順に対応付けを行なうと同時に、対応付けさ
れた文字列と重なった他の対応は対応調査対象から除外
して語句対応を行なう語句対応手段を有することを特徴
とする請求項７記載の固有名対応付け装置。
【請求項１０】前記語句対応手段において、第１自然
言語の文字列の出現位置は共通だが、それに対応する第
２自然言語の文字列の出現位置が異なるものが複数あ
り、対応付けが決まらない場合には、より近くで既に対
応付けられた文字列があったものを優先的に選択して語
句対応を抽出する語句対応手段を有することを特徴とす
る請求項９記載の固有名対応付け装置。
【請求項１１】前記語句対応手段において、異なる複
数の対応を誤りの多い対応とそれ以外の対応に分けた対
応付け順番表を事前に準備しておき、始めに誤りの少な
い対応で対応付けを行なった後、誤りの多い対応におい
て、誤りの少ない対応付けの第１自然言語の文字列と重
複し、かつ部分文字列となる場合は、誤りの多い対応付
けを行わないことで、誤った対応付けを防ぐ語句対応手
段を有することを特徴とする請求項７記載の固有名対応
付け装置。
【請求項１２】前記固有名対応手段において、第１自
然言語文の固有名の一部が第２自然言語文と対応が取れ
ない場合でも、固有名中の文字や語句の対応を調べ、少
なくとも第１自然言語文の固有名の先頭と末尾の文字に
対応があり、第１自然言語の固有名と第２自然言語側で
対応付けされた文字の先頭から末尾までの文字列との文
字数の差が所定の値を超えないものを固有名対応として
抽出する固有名対応手段を有することを特徴とする請求
項７記載の固有名対応付け装置。
【請求項１３】コンピュータに請求項１ないし６のい
ずれか１項に記載の固有名対応付け方法を実行させるプ
ログラムを記録した記録媒体。
【請求項１４】コンピュータに請求項１ないし６のい
ずれか１項に記載の固有名対応付け方法を実行させるプ
ログラム。