JP2006201873A

JP2006201873A - 未登録語自動抽出装置及びプログラム、並びに未登録語自動登録装置及びプログラム

Info

Publication number: JP2006201873A
Application number: JP2005010712A
Authority: JP
Inventors: Hitoshi Sakamoto; 仁坂本; Kiyotaka Otake; 清敬大竹
Original assignee: ATR Advanced Telecommunications Research Institute International
Current assignee: ATR Advanced Telecommunications Research Institute International
Priority date: 2005-01-18
Filing date: 2005-01-18
Publication date: 2006-08-03
Anticipated expiration: 2025-01-18
Also published as: JP4431759B2

Abstract

【目的】辞書に全く登録されていない未登録語を自動的に登録できるようにする。
【解決手段】未登録語自動登録装置３０は、日本語の文と英語の文との間の書換パタンと、対訳用例文３４とに基づいて、日本語辞書３６に未登録な語を自動的に抽出するもので、書換パタン記憶部５２に記憶された書換パタンと対訳用例文３４とを照合し、対訳用例文から書換パタンにマッチする対訳を抽出して、日本語文中で可変部を構成する文字列を特定する用例文・書換パタン照合部５４と、用例文・書換パタン照合部５４により特定された文字列を辞書３６内で検索し、登録されているか否かを判定する登録語辞書検索部６２と、辞書に登録されていない文字列について、その文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該文字列に対応する英語の文字列を、日本語文字列とともに辞書に登録すべき情報として特定する未登録語登録情報生成部５８とを含む。
【選択図】図１

Description

この発明は機械翻訳等の自然言語処理のための辞書作成技術に関し、特に、翻訳等のための辞書に登録されていない未登録な語を自動的に抽出又は登録可能な未登録語自動抽出・登録装置に関する。

機械翻訳のためには、機械可読な翻訳辞書が不可欠である。翻訳辞書に登録されている単語数が多いほど、翻訳の精度が高くなることが期待できる。しかし、辞書を保守するためには、文献を収集し、その中で辞書に未登録である語を探し、その単語に対する訳語を探して辞書に登録する、という手間がかかる。

上記した作業には３段階の作業がある。第１段階は未登録語の発見という作業である。第２段階はその訳語の特定という作業である。第３段階は、未登録語と訳語、品詞分類、及び意味分類等の付加情報を辞書に登録する作業である。例えば、自動翻訳システムで辞書の不備により翻訳が失敗した場合、リライトの済んだ訳文と原文とを突合せながら、リライトされた部分の原文を突き止めて、辞書に登録可能な語句の形にし、訳語、品詞、意味分類等の付加情報を付与してはじめて辞書登録を行なうことができる。このような作業をきちんと続けていかなければ、例えば自動翻訳システムはまた同様の部分で翻訳に失敗し、再度リライトが必要ということになる。従来は、翻訳作業が自動化されても、リライトや辞書登録作業を含めた作業全体では、それほど大きな効率改善効果が見られない場合が大半であった。

そのため、効率を改善するための一つの方策として、翻訳辞書への未登録語の登録を自動的に行なう技術が必要と考えられる。こうした機能を以下「自動登録」と呼ぶ。

自動登録の技術として、下記特許文献１に記載されたものがある。特許文献１に記載された技術は、日本語と中国語との間で、固有名詞に限定して適用可能なものである。この技術では、日本語形態素辞書と日中翻訳辞書とを準備しておき、日本語形態素辞書には日本語側の語が登録されているが日中翻訳辞書には未登録である場合に、当該語を日中翻訳辞書に登録する。すなわち、言語と訳語の対として翻訳辞書に未登録であるもののうち、一部のみについてその登録を自動化する。

特許文献２には、日英翻訳辞書において、カタカナ語と英語との対に限定して辞書への自動登録を行なう技術が開示されている。特許文献２に開示された技術では、英語辞書と日英翻訳辞書とを準備し、英語辞書には英語側の語が登録されているが日英翻訳辞書には未登録の場合に、当該英語の単語と、対応するカタカナ語とを新たな見出しとして日英翻訳辞書に登録する。
特開平４−２５６１７１号公報特許第２９９５７８３号特開２００３−６１９３号

ところで、技術の進歩等により新造語が必要となり使用されるようになるのはもちろん、必要ではなくても「新鮮味」を打ち出そう等として次々に新しい言葉が造られていく。この傾向は、テレビジョン放送及び携帯電話等の情報伝達メディアの一般化及び日常化とともに強まる一方である。そのような「新鮮味」を出そうとする新造語の場合、普通の辞書に登録されているような語を意図的に避けて案出し、合成し、省略し、又は転用して造られる。いわゆる和製英語又は多言語からの合成等による新造語が濫用されていると見るむきはあるものの、これら新造語を避けて現実社会の会話又は文章を成立させることは非常に困難である。

一方で、技術進歩は、こうした言語を処理して人間の活動を支援しようとする、いわゆる自然言語処理技術にも大きく影響している。例えば、処理に必要な辞書を装置として構成するための記憶装置は、日本で機械翻訳装置が商品化され始めた１９８０年代半ばと比較して容量比で１０万分の１以下の価格となっている。つまり、１９８０年当時の記憶装置の１００万円相当の容量を用いて構成されていた翻訳辞書であれば、現在では記憶装置の１０円相当の容量を用いて構成可能である。

こうしたことは、辞書を構成する記憶装置の容量を抑えるために辞書に登録する語を限定する等という、当時の「常識」を完全に陳腐化させている。すなわち、日本語形態素辞書には登録されているが日中翻訳辞書には未登録であるとか、英語辞書には登録されているが日英翻訳辞書には未登録であるとかいう辞書の構成の仕方は、それによって多少の容量が節約できるとしても、それによるコスト低減効果が、利用者の受ける不利益に対してあまりにも小さくなっている。

このため、現在のような状況下では、従来のように、一部の辞書にだけ単語が未登録である、というような辞書登録の不揃いを解消するような自動登録では、機械翻訳等の自然言語処理の有用性に対してはごく限定的な効果しか持ち得ないという問題がある。

それゆえに本発明の目的は、辞書に全く登録されていない未登録語を自動的に抽出することができる未登録語自動抽出装置、及びそうした未登録語を自動的に辞書に登録可能な未登録語自動登録装置を提供することである。

本発明の第１の実施の形態に係る未登録語自動抽出装置は、第１の言語の文と第２の言語の文との間の書換パタンと、第１の言語と第２の言語との間の複数の対訳用例文とに基づいて、第１の言語の機械可読な辞書に未登録な語を自動的に抽出する未登録語自動抽出装置であって、書換パタンと対訳用例文とを照合し、対訳用例文から書換パタンにマッチする対訳を抽出して、当該対訳のうち第１の言語の文中で可変部を構成する文字列を特定するための用例文・書換パタン照合手段と、用例文・書換パタン照合手段により特定された文字列を辞書内で検索し、登録されているか否かを判定するための辞書検索手段と、辞書検索手段により辞書に登録されていないと判定された第１の言語の文字列について、当該第１の言語の文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該第１の言語の文字列に対応する第２の言語の文字列を、第１の言語の文字列とともに辞書に登録すべき情報として特定するための登録情報特定手段とを含む。

用例文・書換パタン照合手段が、書換パタンと対訳用例文とを照合し、対訳のうち第１の言語の文中で可変部を構成する文字列を抽出する。辞書検索手段がこの文字列を辞書内で検索し、登録されているか否かを判定する。登録されていない場合、この文字列に対応する第２の言語の文字列を登録情報特定手段が特定する。第１の言語の文字列と、当該文字列に対応するとして特定された第２の言語の文字列とが、辞書に登録すべき情報として自動的に抽出される。この処理では、抽出されるべき文字列に関する何らかの情報が辞書に登録されている必要はない。人手によりこのような文字列の対を抽出する必要がなく、辞書に登録すべき見出しを特定するための労力が大きく改善される。その結果、辞書に全く登録されていない未登録語を自動的に抽出することができる未登録語自動抽出装置を提供できる。

好ましくは、未登録語自動抽出装置は、辞書検索手段により辞書に登録されていると判定された第１の言語の文字列について、辞書に登録されている情報とともに書換パタンと関連付けて可変部情報として格納するための可変部情報格納手段をさらに含む。登録情報特定手段は辞書検索手段により辞書に登録されていないと判定された第１の言語の文字列について、当該第１の言語の文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該第１の言語の文字列に対応する訳語として辞書に登録されるべき第２の言語の文字列を特定するための訳語特定手段と、第１の言語の文字列を含む対訳がマッチした書換パタンと関連付けて可変部情報格納手段に格納されている可変部情報に基づいて、第１の言語の文字列に関して辞書に登録すべき付加情報を特定するための付加情報特定手段とを含む。

同じ書換パタンにマッチする対訳用例文は、互いに共通する種類の情報に関するものであると考えられる。すなわち、ある書換パタンにマッチすることにより特定された文字列に対し付加すべき情報は、その書換パタンにマッチした他の文字列であってかつ辞書から抽出された情報と類似していると考えられる。したがって、上記したように付加情報特定手段が特定する情報は、最初に特定された第１の言語の文字列に関しても妥当する情報と考えられ、これら当該第１の言語の文字列に付加して辞書に登録すべき情報を作成することで、辞書に登録すべき情報をさらに充実させることができる。

さらに好ましくは、付加情報特定手段は、第１の言語の文字列を含む対訳がマッチした書換パタンと関連付けて可変部情報格納手段に格納されている可変部情報の和集合を、第１の言語の文字列に関する付加情報として特定するための手段を含む。

ある書換パタンにマッチすることにより特定された文字列に対し付加すべき情報の和集合をとることにより、最初に特定された第１の言語の文字列に関しても妥当する、漏れのない情報を作成できる。

未登録語自動抽出装置はさらに、用例文・書換パタン照合手段による照合の結果に第１の言語の文字列が出現するたびに、当該文字列の出現回数を計数するための出現回数計数手段をさらに含んでもよく、付加情報特定手段は、第１の言語の文字列を含む対訳がマッチした書換パタンと関連付けて可変部情報格納手段に格納されている可変部情報のうち、出現回数計数手段により計数された出現回数が所定回数以上のものの和集合を、第１の言語の文字列に関する付加情報として特定するための手段を含んでもよい。

所定回数出現する文字列に付加されている情報の和集合をとることにより、特定の書換パタンにマッチする文字列として頻繁に出現する文字列に関して辞書から抽出された情報が得られる。こうした文字列に付随する情報は、書換パタンにマッチする文字列の持つ性質をよく反映していると考えられる。したがって、特定された第１の言語の文字列にこれら和集合の情報を付すことにより、第１の言語の文字列に関する付加情報であって、かつ正確な情報を特定することができる。

好ましくは、未登録語自動抽出装置は、用例文・書換パタン照合手段による照合の結果に第１の言語の文字列が出現するたびに、当該文字列の出現回数を計数するための出現回数計数手段をさらに含む。付加情報特定手段は、第１の言語の文字列を含む対訳がマッチした書換パタンと関連付けて可変部情報格納手段に格納されている可変部情報が所定のしきい値より大きいときに、出現回数計数手段により計数された出現回数が所定回数以上のものの和集合を、第１の言語の文字列に関する付加情報として特定するための手段を含む。

第１の言語の文字列を含む対訳がマッチした書換パタンと関連付けられている可変部情報が多数の時には、それらのうちで所定回数以上出現したものの和集合をとる。したがって、第１の言語の文字列に関する情報として正確な情報が得られることが期待できる。一方、当該書換パタンと関連付けられている可変部情報が少数のときには、それらの和集合をとることで、できるだけ漏れの少ない、包括的な情報を得ることができる。

本発明の第２の局面に係る未登録語自動抽出プログラムは、コンピュータにより実行されると、上記したいずれかの未登録語自動抽出装置として当該コンピュータを動作させるものである。したがって、これら未登録語自動抽出装置と同様の効果を得ることができる。

本発明の第３の局面に係る未登録語自動登録装置は、上記したいずれかの未登録語自動抽出装置と、未登録語自動抽出装置により辞書に登録すべきとして特定された情報を、当該辞書に登録するための辞書登録手段とを含む。

この未登録語自動登録装置により、辞書に登録すべき文字列と、その文字列に対する訳語等の情報とが自動的に抽出でき、かつ自動的に辞書に登録される。登録すべき文字列のピックアップ、訳語の特定、品詞分類又は意味分類等、文字列に付加すべき情報の作成、辞書への登録等の処理が自動的に行なわれる。その結果辞書に全く登録されていない未登録語を自動的に抽出し辞書に登録することができる未登録語自動登録装置を提供できる。

本発明の第４の局面に係る未登録語自動登録プログラムは、コンピュータにより実行されると、上記した未登録語自動登録装置として当該コンピュータを動作させる。したがって、これら未登録語自動登録装置と同様の効果を得ることができる。

［概略］
以下に説明する本発明の一実施の形態では、完全な未登録語を、すでに翻訳された対訳文から自動的に語句として切出し、訳語及び意味的情報等を付加して翻訳辞書に登録することができる機構を設ける。この機構により、未登録語を探したり、訳語を決定したり、意味分類を付与したり、という一連の辞書登録作業が不要となり、自動翻訳システム等の自然言語処理を行なうシステムにおける作業効率を改善することができる。

［機能的構成］
以下、本実施の形態に係る辞書自動登録装置の構成について説明する。なお、以下の実施の形態では、説明のために日英翻訳を行なう自動翻訳システムを例にとる。原言語は日本語、目的言語は英語である。

図１に本実施の形態に係る未登録語自動登録装置３０の構成をブロック図形式で示す。図１を参照して、未登録語自動登録装置３０は、日英翻訳を行なう翻訳システムが備える、自動翻訳で使用する書換パタンを記憶する記憶部３２と、予め準備された日本語と英語との多数の対訳用例文群３４と、上記した翻訳システムが備える翻訳用の辞書３６とともに用いられ、対訳用例文群３４中の用例文から辞書３６に未登録の単語（文字列）を切出し、所定の方法にしたがって訳語、意味情報等の付加情報を加えて辞書３６に自動的に登録する機能を持つ。

未登録語自動登録装置３０は、記憶部３２から書換パタンを抽出するための書換パタン抽出部５０と、書換パタン抽出部５０により抽出された書換パタンを記憶するための書換パタン記憶部５２とを含む。

図２に、書換パタン記憶部５２に記憶される書換パタンの一例として、書換パタン８０を示す。図２を参照して、書換パタン８０は少なくとも、日本語の原文パタン９０と、英語の訳文パタン９２とを含む。各パタンは少なくとも、文字列の情報を持つ固定部と、固定部に対する位置情報及び原文パタンの可変部と訳文パタンの可変部との対応情報を持つ可変部とを含む。

図２に示す例では、原文パタン９０は「私は…に〜を送った」であり、その中で「私は」「に」「を送った」の部分が固定部である。訳文パタン９２は「I sent 〜 to …」であり、その中で「I sent」と「to」とが固定部である。両パタンにおいて「…」で示される文字列１００及び１０６、並びに「〜」で示される文字列１０２及び１０４がそれぞれ可変部である。原文と訳文とで文字列が共通している可変部は、互いに対応している。すなわち、文字列１００及び１０６の部分が互いに対応しており、文字列１０２及び１０４の部分がそれぞれ対応している。さらにこの可変部は、原文パタン及び訳文パタンの双方において固定部の文字列中の特定位置に挿入されていることで、固定部との位置情報を持っている。

以上のとおり、書換パタンとは、原文パタンと訳文パタンとの対を含む。原文パタンと訳文パタンとの各々は、固定文字列（固定部）と、可変部とを含む。書換パタンは、各可変部と固定部との間の位置関係が分かるように構成されている。さらに書換パタンは、原文パタンと訳文パタンとの間で、それぞれの可変部の対応関係が分かるように構成されている。

再び図１を参照して、未登録語自動登録装置３０はさらに、書換パタン記憶部５２に接続され、対訳用例文群３４に記憶された対訳用例文を書換パタン記憶部５２に記憶された書換パタンと照合し、書換パタンのいずれかに原文と訳文との双方がマッチする用例文を抽出し、さらに抽出された対訳文の日英両方の文において、書換パタンにより指定された可変部に対応する文字列（以下「可変部文字列」と呼ぶ。）を特定する処理を行なうための用例文・書換パタン照合部５４と、用例文・書換パタン照合部５４が特定した可変部文字列と、対応する書換パタンとを受けてこれらを解析し、当該書換パタンにマッチした用例文の可変部文字列に関する情報（単語、品詞、意味情報等。以下「可変部情報」と呼ぶ。）を作成又は更新するための処理を行ない、当該可変部情報を書換パタンと関連付けて書換パタン記憶部５２に記憶させる処理を行なうための可変部解析部５６とを含む。可変部解析部５６はこのために、当該可変部文字列が対応する書換パタンに関する可変部情報として書換パタン記憶部５２に登録されているか否かを判定する機能を持つ。

未登録語自動登録装置３０はさらに、可変部解析部５６において、入力された可変部文字列が書換パタン記憶部５２中の該当書換パタンの可変部情報に登録されていないと判定されたことに応答して、当該可変部文字列を未登録語として、未登録語情報（未登録語に対する訳語、並びに品詞及び意味情報等の付加情報）を書換パタン記憶部５２の当該書換パタンの可変部情報に基づいて作成するための未登録語登録情報生成部５８と、未登録語登録情報生成部５８により作成された未登録語情報とともに、未登録語を翻訳システムの辞書３６に自動的に登録するための辞書登録部６０と、可変部解析部５６によって書換パタン記憶部５２に記憶された書換パタンに対する可変部情報として登録されていないと判定された可変部文字列に関し、この未登録語自動登録装置３０が組込まれた自動翻訳システムの全ての辞書３６を検索して登録されている情報を読出すための登録語辞書検索部６２とを含む。

［コンピュータプログラムの構成］
後述するように、この未登録語自動登録装置３０は、コンピュータと、当該コンピュータ上で実行されるコンピュータプログラムとにより実現できる。用例文・書換パタン照合部５４、可変部解析部５６、未登録語登録情報生成部５８、辞書登録部６０及び登録語辞書検索部６２からなる未登録語自動登録処理を実現するためのコンピュータプログラムについて、図３〜図６を参照してその制御構造につき説明する。書換パタン抽出部５０の処理については、他の処理とは独立に実行でき、かつその処理内容については簡単であるのでここではその詳細については省略する。

図３に、この未登録語自動登録処理プログラムの全体の処理フローを示す。図３を参照して、このプログラムの実行が開始されると、まず図１に示す対訳用例文群３４を書換パタン記憶部５２に記憶された書換パタンと照合し、書換パタンのいずれかと原文パタン及び訳文パタンの双方において一致する用例文を特定し、その中の可変部文字列を抽出する処理と、抽出された可変部文字列の各々について可変部情報を作成する処理とからなる、可変部抽出・可変部情報作成処理を行なう（ステップ１２０）。可変部抽出・可変部情報作成処理が終了すると、ステップ１２０で抽出された可変部文字列のうち、翻訳システムの辞書３６に登録されていない文字列について、作成された可変部情報から辞書にともに登録すべき未登録語情報とともに辞書３６に登録する処理を行なう（ステップ１２２）。以上で処理終了である。

次に、図４を参照して、図３のステップ１２０で実行される可変部抽出・可変部情報作成処理の詳細について説明する。まずステップ１４０で初期設定を行なう。この初期設定では、ワークエリアのクリア等を行なう。ステップ１４２で、書換パタン記憶部５２に記憶されている書換パタンを読出す。ステップ１４４で、全ての書換パタンの読出が終了したか否かについて判定する。もしも全ての書換パタンの読出が終了していればこの処理を終了する。全ての読出が終了していなければ、ステップ１４６に進む。

ステップ１４６では、対訳用例文群３４中の用例文を読出す。ステップ１４８で用例文を全て読出したか否かを判定する。もしも全て読出していたら制御はステップ１４２に戻り、次の書換パタンについての処理を行なう。全て読出していない場合にはステップ１５０に進む。

ステップ１５０では、読出された用例文が、現在の書換パタンにマッチしているか否かについて判定する。この判定は、書換パタンのうち原文パタンに用例文の原文がマッチしているか否かと、訳文パタンに用例文の訳文がマッチしているか否かとの、双方について行なわれる。もしもマッチしていなければ制御はステップ１４６に戻り、次の用例文に対する処理を行なう。もしもマッチしていれば、制御はステップ１５２に進む。

ステップ１５２では、用例文のうち原文及び訳文の双方において、書換パタンの可変部にマッチした文字列（可変部文字列）を特定する。

図５を参照して、さらにステップ１８２で、書換パタン記憶部５２の当該書換パタンの可変部情報に、この可変部文字列が登録されているか否かを判定する。もしも登録されていれば、ステップ１８４で当該文字列の出現数に１を加算し、図４のステップ１４６に戻る。登録されていなければ、ステップ１８６に進む。

ステップ１８６では、この文字列を翻訳システムの辞書３６内で検索する。ステップ１８８で、翻訳システムの辞書３６にこの文字列が登録されているか否かについて判定する。もしも登録されていればステップ１９０でこの可変部文字列と、翻訳システムの辞書３６から当該文字列に対して検索された結果とを、書換パタン記憶部５２内の当該書換パタンの可変部情報に追加する。この後制御はステップ１４６に戻る。一方、ステップ１８８でこの文字列が辞書３６に登録されていないと判定されれば、ステップ１９２でこの可変部文字列に、未登録を示す情報を付加して、書換パタン記憶部５２内の当該書換パタンに付随する可変部情報として書換パタン記憶部５２に追加する。このとき、当該可変部情報に関する出現回数を「１」に初期化しておく。この後制御はステップ１４６に戻り、次の用例文について同じ処理を繰返す。

こうして、全ての書換パタンと全ての用例文との組合せについて図４及び図５に示す処理が終了すると、制御は図３のステップ１２２に示す辞書更新処理に移る。その詳細について図６に示す。図６に示す処理のうち、ステップ２０２〜ステップ２２８までが図１に示す未登録語登録情報生成部５８に相当し、ステップ２３０が辞書登録部６０に相当する。

図６を参照して、辞書更新処理では、最初にステップ２００で初期設定を行なう。この初期設定では、ワークエリアのクリア、辞書３６に登録すべき語のリスト（未登録語リスト）の初期化等を行なう。ステップ２０２で、書換パタン記憶部５２に記憶された書換パタンを読出す。ステップ２１０では、全ての書換パタンについて読出が終了したか否かを判定する。もしも終了していれば制御はステップ２３０に進む。さもなければ制御はステップ２１２に進む。

ステップ２１２では、この書換パタンに付随する可変部情報中に、未登録を示す情報が付された可変部文字列があるか否かを判定する。もしもなければ制御はステップ２０２に戻り、次の書換パタンについて処理を繰返す。もしも未登録を示す情報が付された可変部文字列が存在すれば、制御はステップ２１４に進む。

ステップ２１４では、未登録を示す情報が付された可変部文字列を読出す。ステップ２１６では、この書換パタンに関する可変部情報中から、未登録を示す情報が付された可変部文字列を全て読出したか否かについての判定が行なわれる。もしも全て読出していれば制御はステップ２０２に戻り、次の書換パタンについて処理が実行される。もしもまだ全て読出していなければ、ステップ２１８でその可変部文字列に対する訳語を特定する処理が実行される。

ステップ２１８で行なわれる処理の詳細について説明する。図２に示すように、書換パタンは原文パタンと訳文パタンとを含み、その可変部は、可変部文字列の対応関係を示す情報を含む。この対応関係を用い、訳文の可変部文字列のうち、原文の可変部文字列に対応する文字列がどれかを判定することができる。この文字列が、原文の可変部文字列に対する訳語であると考えることができる。ステップ２１８ではこのようにして書換パタンを使用して原文の可変部文字列に対する訳語を特定する。

続いてステップ２２０では、この書換パタンに付随する可変部情報の数が所定のしきい値より大きいか否かを判定する。可変部情報の数がしきい値より大きければステップ２２６に、さもなければステップ２２４に、それぞれ進む。

ステップ２２６では、この書換パタンに付随する可変部情報のうち、出現回数がある一定値以上のものの可変部情報に含まれる品詞分類、意味分類等の情報の和集合をとり、それを当該可変部文字列に関する登録情報とする。一方、ステップ２２４では、全ての可変部情報に含まれる品詞分類、意味分類等の情報の和集合をとり、それを当該可変部文字列に関する登録情報とする。

このように本実施の形態では、第１の言語の文字列を含む対訳がマッチした書換パタンと関連付けられている可変部情報が多数の時には、それらのうちで所定回数以上出現したものの和集合をとる。ある書換パタンに頻繁にマッチする文字列に対し付加すべき情報の和集合をとることにより得られる情報は、最初に特定された第１の言語の文字列に関しても妥当する可能性が高い。したがって、第１の言語の文字列に関する情報として正確な情報が得られることが期待できる。一方、当該書換パタンと関連付けられている可変部情報が少数のときには、それらの和集合をとることで、できるだけ漏れの少ない、包括的な情報を得ることができる。

もちろん、このような処理を行なわず、どのようなときにも全ての可変部情報の和集合をとるようにしてもよい。この場合でも、ある書換パタンにマッチすることにより特定された文字列に対し付加すべき情報の和集合をとることにより、最初に特定された第１の言語の文字列に関しても妥当する、漏れのない情報を作成できると考えられる。

この後制御はいずれもステップ２２８に進み、当該可変部文字列と、その文字列に付随する未登録語情報とを未登録語リストに追加する。その後制御はステップ２１４に戻り、当該書換パタンに付随する可変部情報のうち、次のものに対する処理を実行する。

こうして、全ての書換パタンの全ての可変部情報に対し、ステップ２０２〜ステップ２２８の処理を実行すると、制御はステップ２１０からステップ２３０に移る。

ステップ２３０では、ステップ２２８において未登録語情報が追加された未登録語リストの先頭から、翻訳システムの辞書３６に追加していく処理が実行される。この処理が終了すると、辞書更新処理は終了である。

［コンピュータハードウェア構成］
上記したコンピュータプログラムを実行するコンピュータシステムの外観の一例を図７に、そのブロック図の例を図８に、それぞれ示す。

図７を参照して、このコンピュータシステム３３０は、ＦＤ（フレキシブルディスク）ドライブ３５２及びＣＤ−ＲＯＭ（コンパクトディスク読出専用メモリ）ドライブ３５０を有するコンピュータ３４０と、キーボード３４６と、マウス３４８と、モニタ３４２とを含む。

図８を参照して、コンピュータ３４０は、ＦＤドライブ３５２及びＣＤ−ＲＯＭドライブ３５０に加えて、ＣＰＵ（中央処理装置）３５６と、ＣＰＵ３５６、ＦＤドライブ３５２及びＣＤ−ＲＯＭドライブ３５０に接続されたバス３６６と、ブートアッププログラム等を記憶する読出専用メモリ（ＲＯＭ）３５８と、バス３６６に接続され、プログラム命令、システムプログラム、及び作業データ等を記憶するランダムアクセスメモリ（ＲＡＭ）３６０とを含む。コンピュータシステム３３０はさらに、プリンタ３４４を含んでいる。

ここでは示さないが、コンピュータ３４０はさらにローカルエリアネットワーク（ＬＡＮ）への接続を提供するネットワークアダプタボードを含んでもよい。

コンピュータシステム３３０に図１に示す未登録語自動登録装置３０としての動作を行なわせるためのコンピュータプログラムは、ＣＤ−ＲＯＭドライブ３５０又はＦＤドライブ３５２に挿入されるＣＤ−ＲＯＭ３６２又はＦＤ３６４に記憶され、さらにハードディスク３５４に転送される。又は、プログラムは図示しないネットワークを通じてコンピュータ３４０に送信されハードディスク３５４に記憶されてもよい。プログラムは実行の際にＲＡＭ３６０にロードされる。ＣＤ−ＲＯＭ３６２から、ＦＤ３６４から、又はネットワークを介して、直接にＲＡＭ３６０にプログラムをロードしてもよい。

このプログラムは、コンピュータ３４０にこの実施の形態の未登録語自動登録装置３０としての動作を行なわせる複数の命令を含む。この動作を行なわせるのに必要な基本的機能のいくつかはコンピュータ３４０上で動作するオペレーティングシステム（ＯＳ）又はサードパーティのプログラム、もしくはコンピュータ３４０にインストールされる各種ツールキットのモジュールにより提供される。したがって、このプログラムはこの実施の形態の未登録語自動登録装置３０を実現するのに必要な機能全てを必ずしも含まなくてよい。このプログラムは、命令のうち、所望の結果が得られるように制御されたやり方で適切な機能又は「ツール」を呼出すことにより、上記した未登録語自動登録装置３０として動作を実行する命令のみを含んでいればよい。コンピュータシステム３３０の動作は周知であるので、ここでは繰返さない。

［動作］
上に構成を説明した本実施の形態に係る未登録語自動登録装置３０は以下のように動作する。図１を参照して、予め翻訳システムの記憶部３２及び翻訳システムの辞書３６がこの未登録語自動登録装置３０に接続されているものとする。また、対訳用例文群３４が予め準備されており、かつ各対訳用例文は互いに正しい訳となっているものとする。

最初に、書換パタン抽出部５０が翻訳システムの記憶部３２から書換パタンを抽出し、図２に示すような形式で書換パタン記憶部５２に格納する。全ての書換パタンを翻訳システムの記憶部３２から抽出し書換パタン記憶部５２に格納させると、書換パタン抽出部５０は動作を終了する。

続いて用例文・書換パタン照合部５４が動作を開始する。具体的には、用例文・書換パタン照合部５４は、まず書換パタン記憶部５２から先頭の書換パタンを読出す。さらに対訳用例文群３４から先頭の対訳用例文を読出す。用例文・書換パタン照合部５４は、読出した書換パタンと対訳用例文とを比較し、対訳用例文の原文が書換パタンの原文パタンと一致し、かつ対訳用例文の訳文が書換パタンの訳文パタンと一致しているか否かを判定する。もしもそうした一致がなければこの対訳用例文は処理中の書換パタンとマッチしない。したがって用例文・書換パタン照合部５４は次の対訳用例文を対訳用例文群３４から読出し、同じ処理を実行する。

もしも対訳用例文の原文が書換パタンの原文パタンと一致し、かつ対訳用例文の訳文が書換パタンの訳文パタンと一致している場合、用例文・書換パタン照合部５４は、書換パタンと対訳用例文とを用いて、対訳用例文から原文の可変部文字列を抽出する。用例文・書換パタン照合部５４はさらに、この原文の可変部文字列が、処理中の書換パタンに付随する可変部情報として登録されているか否かを判定する。もしも登録されていれば、当該可変部情報の出現数に１を加算し、次の対訳用例文に対する処理に移る。もしも登録されていなければ、次のような処理を実行する。

すなわち用例文・書換パタン照合部５４は、抽出された原文の可変部文字列を登録語辞書検索部６２に与える。登録語辞書検索部６２は、この可変部文字列を見出しに含む登録語を翻訳システムの辞書３６内で検索し、当該文字列が登録されているか否かに関する情報と、登録されている場合にはそれら登録語に関する情報として検索された情報とを全て可変部解析部５６に与える。

可変部解析部５６は、登録語辞書検索部６２によって可変部文字列が翻訳システムの辞書３６に登録されていないという情報が返された場合には、当該可変部文字列に未登録を示す情報を付加し、処理中の書換パタンに付随する可変部情報として書換パタン記憶部５２に追加登録する。登録されている場合には、登録語辞書検索部６２から与えられる情報をこの可変部文字列に付加し、処理中の書換パタンに付随する可変部情報として書換パタン記憶部５２に登録する。

ある書換パタンについて全ての対訳用例文の照合が終了すると、用例文・書換パタン照合部５４は、書換パタン記憶部５２から次の書換パタンを読出し、同様の処理を実行する。この処理を全ての書換パタンについて完了すると、可変部解析部５６は未登録語登録情報生成部５８に対して処理が終了したことを示す信号を与え、動作を終了する。

未登録語登録情報生成部５８は、可変部解析部５６から処理が終了したことを示す信号を受信すると、まず未登録語リストを初期化する。さらに未登録語登録情報生成部５８は、書換パタン記憶部５２を走査し、未登録であることを示す情報が付加された可変部情報を持つ書換パタンを順に読出す。未登録語登録情報生成部５８は、読出した書換パタンの可変部情報を利用して、読込んだ可変部情報のうちの可変部文字列についての未登録語情報を以下のようにして生成する。すなわち、未登録語登録情報生成部５８は、入力された対訳文のうち、書換パタンの訳文パタンに含まれる可変部に相当する文字列のうち、原文において可変部文字列が占めていた可変部に対応する部分の文字列を可変部文字列に対する訳語として特定する。また未登録語登録情報生成部５８は、処理中の書換パタンに付随する可変部情報に含まれる品詞分類又は意味分類についてそれぞれ和集合をとることで、処理中の可変部文字列に関する品詞分類及び意味分類に関する情報を作成する。書換パタンに付随する可変部情報の数がしきい値より大きい場合には、出現数が一定値以上の可変部情報のみを用いて同様に品詞分類及び意味分類に関する情報を作成する。未登録語登録情報生成部５８は、こうして作成した未登録語情報を未登録語リストに追加する。

用例文・書換パタン照合部５４は、書換パタンに複数の未登録を示す情報が付された可変部情報が存在する場合には、それらの各々について上記した処理を繰返す。

未登録語登録情報生成部５８はさらに、次の書換パタンを書換パタン記憶部５２から読出し、同様の処理を繰返す。全ての書換パタンについての処理を終了すると、辞書登録部６０に対して未登録語リストを渡すとともに、未登録語登録情報生成処理が完了したことを示す信号を辞書登録部６０に与える。

辞書登録部６０は、未登録語登録情報生成部５８から未登録語登録情報生成処理が完了したことを示す信号が与えられると、未登録語登録情報生成部５８から受け取った未登録語リストの先頭から順に処理し、可変部文字列と、その訳語、品詞分類、意味分類等の情報を翻訳システムの辞書３６に追加していく。未登録語リストに含まれる全ての未登録語情報についてこの処理を終了すると、未登録語自動登録装置３０は動作を終了する。

［具体的動作例］
上記した未登録語自動登録装置３０の動作について、具体的な例を用いて説明する。ここでは、書換パタンとして「最近〜という新技術が話題になっている」という原文パタンを持つ書換パタン（これを「第１の書換パタン」と呼ぶ。）が翻訳システムの記憶部３２から抽出され書換パタン記憶部５２に登録されたものとする。また対訳用例文群３４には、この書換パタンにマッチする対訳用例文として、「最近ユビキタスという新技術が話題になっている。」という原文を持つ対訳用例文（これを第１の対訳用例文という。）と、「最近インターネットという新技術が話題になっている。」という原文を持つ対訳用例文（これを第２の対訳用例文と呼ぶ。）とが含まれているものとする。また前者では「ユビキタス」という語に対応する訳文の可変部には「ubiquitous computing」が含まれているものとする。また、「ユビキタス」については翻訳システムの辞書３６には登録されておらず、「インターネット」については登録されているものとする。なお、「インターネット」については、品詞分類「普通名詞」、意味分類「技術用語」等の情報が翻訳システムの辞書３６に登録されているものとする。

用例文・書換パタン照合部５４は、書換パタン記憶部５２の書換パタンを読込み、対訳用例文群３４に含まれる対訳用例文群と照合して原文の可変部文字列を抽出する。もしも抽出された可変部文字列を含む可変部情報が処理中の書換パタンの可変部情報として書換パタン記憶部５２に登録済みであれば、用例文・書換パタン照合部５４は当該可変部情報の出現数に１を加算し、次の対訳文に処理を進める。また可変部情報が書換パタン記憶部５２に登録済みでなければ、以下のような処理を行なう。

用例文・書換パタン照合部５４が上記した第１の書換パタンを読込んだ場合、まず対訳用例文群３４に含まれる第１の対訳用例文がこの書換パタンの原文パタンにマッチする。したがって用例文・書換パタン照合部５４はこの対訳用例文から「ユビキタス」という語を可変部文字列として抽出する。可変部解析部５６はこの語を含む可変部情報が書換パタン記憶部５２に第１の書換パタンに付随するものとして登録されているか否かを判定する。ここでは登録されていないものとする。この場合可変部解析部５６は、登録語辞書検索部６２を用いて翻訳システムの辞書３６を検索するが、対応する語は登録されておらず、情報は得られない。したがって可変部解析部５６は、この可変部文字列に未登録を示す情報を付加し、書換パタン記憶部５２に、第１の書換パタンに付随する可変部情報として追加登録する。

用例文・書換パタン照合部５４はさらに、第１の書換パタンにマッチする対訳用例文として、上記した第２の対訳用例文を対訳用例文群３４から抽出する。可変部解析部５６がこの可変部文字列について登録語辞書検索部６２を用いて翻訳システムの辞書３６を検索した結果、既に述べたようにこの語が登録されており、その情報が登録語辞書検索部６２から可変部解析部５６に戻される。この情報には、品詞分類「普通名詞」、意味分類「技術用語」等の情報が含まれている。可変部解析部５６は、これら情報を可変部文字列「インターネット」とともに、第１の書換パタンに付随する可変部情報として書換パタン記憶部５２に追加する。

このようにして、他にも第１の書換パタンにマッチする対訳用例文が多数抽出され、可変部文字列について翻訳システムの辞書３６に登録されているか否かが調べられる。辞書３６に登録されている語については、辞書から得られた情報が第１の書換パタンに付随する可変部情報として書換パタン記憶部５２に追加されていく。また、既に書換パタン記憶部５２に登録された可変部情報については、対応する可変部文字列が対訳用例文群３４から用例文・書換パタン照合部５４により抽出されるたびに出現数が加算されていく。

用例文・書換パタン照合部５４が全ての書換パタンについて処理を終了した後、未登録語登録情報生成部５８による処理が開始される。未登録語登録情報生成部５８は書換パタン記憶部５２を走査し、未登録を示す情報が付加された可変部情報を抽出する。ここでは未登録語登録情報生成部５８が上記した「ユビキタス」という語を抽出したものとする。未登録語登録情報生成部５８は、この語が抽出された元の対訳用例文に対し、第１の書換パタンに含まれる原文パタンと訳文パタンとをあてはめ、「ユビキタス」に対応する訳文の可変部文字列として「ubiquitous computing」という文字列を特定する。さらに可変部解析部５６は、「ユビキタス」に対する品詞分類及び意味分類等として、書換パタン記憶部５２において第１の書換パタンに付随する可変部情報として登録されているものに含まれる品詞分類又は意味分類等の和集合を求め、その結果を「ユビキタス」に対する品詞分類及び意味分類とする。もしも第１の書換パタンに付随する可変部情報の数が所定のしきい値より大きければ、未登録語登録情報生成部５８はそれら可変部情報のうちで出現数の大きなもののみを用いて、同様に品詞分類又は意味分類等の和集合を求めてその結果を「ユビキタス」に対する品詞分類及び意味分類とする。ここでは、「インターネット」という語について翻訳システムの辞書３６から得られた品詞分類及び意味分類が「ユビキタス」という語の品詞分類及び意味分類として生成されたものとする。

未登録語登録情報生成部５８は、このようにして得られた可変部文字列「ユビキタス」と、対応する訳語「ubiquitous computing」、品詞分類「普通名詞」、意味分類「技術用語」等を含む未登録語情報を生成し、未登録語リストに追加する。

この未登録語リストを得た辞書登録部６０は、翻訳システムの辞書３６に、「ユビキタス」という見出しを追加する。その訳語は「ubiquitous computing」であり、品詞分類は「普通名詞」を含み、意味分類は「技術用語」を含む。

［実施の形態の効果］
以上のようにこの実施の形態によれば、対訳用例文群３４を準備しておくことで、翻訳システムの辞書３６に全く登録されていない語であっても自動的に追加登録していくことができる。しかも、見出しとなる文字列だけでなく、その訳語、品詞分類、意味分類等の情報が自動的に生成され、登録される。したがって、従来必要であった未登録語のピックアップ、訳語の決定、意味分類の付与等という作業が不要になる。その結果、非常に少ない労力で翻訳システムの辞書３６を常に最新に保っておくことができる。

こうして得られた辞書３６は、翻訳システムに限らず、自然言語処理に関する処理において汎用的に利用できる。その結果、自然言語処理に利用する全ての辞書において未登録である完全な未登録語を自動的に辞書に登録可能な未登録語自動登録装置を提供できる。また、この実施の形態により、自然言語処理を行なうシステム、たとえば自動翻訳システム等の利用効率が向上するという効果が得られる。

［可能な変形例］
なお、本実施の形態では、図１に示す辞書登録部６０は自動的に翻訳システムの辞書３６に対し追加登録を行なっている。もしも完全に自動的に追加登録した場合に不要な見出しが翻訳システムの辞書３６に多く追加されるおそれがあれば、辞書登録部６０による見出しの追加時に、ユーザに対して登録の可否を尋ねるダイアログを提示し、ユーザによる指示があって初めて翻訳システムの辞書３６に見出しを追加するようにしてもよい。この場合でも、登録すべき見出しの抽出、訳語の特定、品詞分類、意味分類等の情報を手作業で収集する必要はなく、従来に比して翻訳システムの辞書３６の保守を効率的に行なうことができる。また、このように少ない労力で翻訳システムの辞書３６の保守ができることから、翻訳システムの辞書３６を使用する自然言語処理システム全体の性能を常に一定に保つことができ、新たな語の出現等が多数あってもよい精度で自然言語処理を実行させることができる。

なお、本実施の形態では書換パタンとして図２に示すようなものを使用している。しかし書換パタンはこのような例には限定されない。上記したように、書換パタンとしては、原文及び訳文において、固定部の文字列と、固定部に対する可変部の位置情報及び原文と訳文との可変部の対応情報さえ特定できればよい。上記したものと別の書換パタンの例を図９に示す。

図９に示す例では、書換パタンを構造化している。すなわち、この書換パタン３９０は、原文の固定部の数を示す情報（原文固定部数）と、各原文固定部の文字列（原文固定部１，２，３）と、訳文の固定部の数を示す情報（訳文固定部数）と、各訳文固定部の文字列（訳文固定部１、２）と、可変部の数（可変部数）と、各可変部の位置を示す情報（可変部１位置、可変部２位置）とを含む。

このように書換パタンを構造化しても上記した実施の形態と同様の処理を実現できる。なお、図９に示す例において、各部の名称は必ずしも書換パタン中に含まれていなくてもよい。各部の間を所定の分離記号で分離し、データの位置でそれらの意味を特定するようにしてもよい。

今回開示された実施の形態は単に例示であって、本発明が上記した実施の形態のみに制限されるわけではない。本発明の範囲は、発明の詳細な説明の記載を参酌した上で、特許請求の範囲の各請求項によって示され、そこに記載された文言と均等の意味及び範囲内での全ての変更を含む。

本発明の一実施の形態に係る未登録語自動登録装置３０のブロック図である。書換パタンの一例を示す図である。未登録語自動登録装置３０をコンピュータで実現する場合のコンピュータプログラムの概略フローチャートである。図３のステップ１２０で実行される可変部抽出・可変部情報作成処理の前半のフローチャートである。可変部情報抽出・可変部情報作成処理の後半のフローチャートである。図３のステップ１２２で実行される辞書更新処理のフローチャートである。図１に示す未登録語自動登録装置３０を実現するコンピュータシステム３３０の外観を示す図である。図７に示すコンピュータシステム３３０のブロック図である。書換パタンの他の一例を示す図である。

符号の説明

３０未登録語自動登録装置
３２翻訳システムの記憶部
３４対訳用例文群
３６翻訳システムの辞書
５０書換パタン抽出部
５２書換パタン記憶部
５４用例文・書換パタン照合部
５６可変部解析部
５８未登録語登録情報生成部
６０辞書登録部
６２登録語辞書検索部
８０，３９０書換パタン
９０原文パタン
９２訳文パタン
１００，１０２，１０４，１０６可変部

Claims

第１の言語の文と第２の言語の文との間の書換パタンと、前記第１の言語と前記第２の言語との間の複数の対訳用例文とに基づいて、前記第１の言語の機械可読な辞書に未登録な語を自動的に抽出する未登録語自動抽出装置であって、
前記書換パタンと前記対訳用例文とを照合し、前記対訳用例文から書換パタンにマッチする対訳を抽出して、当該対訳のうち前記第１の言語の文中で可変部を構成する文字列を特定するための用例文・書換パタン照合手段と、
前記用例文・書換パタン照合手段により特定された文字列を前記辞書内で検索し、登録されているか否かを判定するための辞書検索手段と、
前記辞書検索手段により前記辞書に登録されていないと判定された前記第１の言語の文字列について、当該第１の言語の文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該第１の言語の文字列に対応する前記第２の言語の文字列を、前記第１の言語の文字列とともに前記辞書に登録すべき情報として特定するための登録情報特定手段とを含む、未登録語自動抽出装置。
前記辞書検索手段により前記辞書に登録されていると判定された前記第１の言語の文字列について、前記辞書に登録されている情報とともに前記書換パタンと関連付けて可変部情報として格納するための可変部情報格納手段をさらに含み、
前記登録情報特定手段は、
前記辞書検索手段により前記辞書に登録されていないと判定された前記第１の言語の文字列について、当該第１の言語の文字列を含む対訳と、当該対訳がマッチした書換パタンとに基づいて、当該第１の言語の文字列に対応する訳語として前記辞書に登録されるべき前記第２の言語の文字列を特定するための訳語特定手段と、
前記第１の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報格納手段に格納されている可変部情報に基づいて、前記第１の言語の文字列に関して前記辞書に登録すべき付加情報を特定するための付加情報特定手段とを含む、請求項１に記載の未登録語自動抽出装置。
前記付加情報特定手段は、前記第１の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報格納手段に格納されている可変部情報の和集合を、前記第１の言語の文字列に関する前記付加情報として特定するための手段を含む、請求項２に記載の未登録語自動抽出装置。
前記用例文・書換パタン照合手段による照合の結果に前記第１の言語の文字列が出現するたびに、当該文字列の出現回数を計数するための出現回数計数手段をさらに含み、
前記付加情報特定手段は、前記第１の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報格納手段に格納されている可変部情報のうち、前記出現回数計数手段により計数された出現回数が所定回数以上のものの和集合を、前記第１の言語の文字列に関する前記付加情報として特定するための手段を含む、請求項２に記載の未登録語自動抽出装置。
前記用例文・書換パタン照合手段による照合の結果に前記第１の言語の文字列が出現するたびに、当該文字列の出現回数を計数するための出現回数計数手段をさらに含み、
前記付加情報特定手段は、前記第１の言語の文字列を含む対訳がマッチした書換パタンと関連付けて前記可変部情報格納手段に格納されている可変部情報が所定のしきい値より大きいときに、前記出現回数計数手段により計数された出現回数が所定回数以上のものの和集合を、前記第１の言語の文字列に関する前記付加情報として特定するための手段を含む、請求項２に記載の未登録語自動抽出装置。
コンピュータにより実行されると、請求項1〜請求項５のいずれかに記載の未登録語自動抽出装置として当該コンピュータを動作させる、未登録語自動抽出プログラム。
請求項１〜請求項５のいずれかに記載の未登録語自動抽出装置と、
前記未登録語自動抽出装置により前記辞書に登録すべきとして特定された情報を、当該辞書に登録するための辞書登録手段とをさらに含む、未登録語自動登録装置。
コンピュータにより実行されると、請求項７に記載の未登録語自動登録装置として当該コンピュータを動作させる、未登録語自動登録プログラム。