JP2005293582A

JP2005293582A - 複合語を構成する単語を割り出す装置及びコンピュータ化された方法

Info

Publication number: JP2005293582A
Application number: JP2005095536A
Authority: JP
Inventors: Samuel J Driessen; イェードリーッセンサミュエル; Pavel M Iljin; エムイレインパフェル
Original assignee: Oce Technologies BV
Current assignee: Canon Production Printing Netherlands BV
Priority date: 2004-03-31
Filing date: 2005-03-29
Publication date: 2005-10-20
Anticipated expiration: 2025-03-29
Also published as: CN1677402A; JP4754247B2; US7720847B2; US20050222998A1

Abstract

【課題】複合語の構成単語を割り出す装置、コンピュータ・プログラム、及び、コンピュータ化された方法を提供すること。
【解決手段】構成単語は、複合語を構成する。構成単語が分割判断基準を満たすとき、構成単語はバラバラに用いることができる。バラバラの構成単語は、検索おいて、文書の集合体から関連する文書を検索するのに用いられる。
【選択図】図３

Description

本発明は、文書の集合体と、該文書の集合体から複合語を含む文書の数を割り出す手段と、上記文書の集合体から上記複合語を構成する単語を含む文書の数を割り出す手段とを有する複合語を構成する単語を割り出す装置に関する。また、本発明は、このような複合語を構成する単語を割り出す装置及びコンピュータ化された方法を組み込んだ情報検索システムにも関する。

複合語は、ドイツ語、オランダ語、デンマーク語、ギリシア語、ノルウェー語、アイスランド語、及び、フィンランド語などの複数の言語において一般的である。複合語は自由に結合できるため、複合語により語彙サイズは莫大に増える。上記言語は、その言語のどの辞書にも載っていない非常に長い単語を含む可能性がある。このような単語の典型的な一例は、ドイツ語の複合語「Ａｂｓｃｈｒｅｉｂｕｎｇｓｍｏｇｌｉｃｈｋｅｉｔｅｎ」である。この複合語は、結合形態素「ｓ」によって２つの単語「Ａｂｓｃｈｒｅｉｂｕｎｇ」及び「ｍｏｇｌｉｃｈｋｅｉｔｅｎ」を連結させることによって構成されている。以下の本発明の説明において、複合語をそれを構成する単語と（存在すれば）結合形態素とに分解することを複合語の細分化又は複合語を構成する単語をバラバラすると呼び、記号「＋」によって隔てられた文字列によって表される。例えば、複合語「Ａｂｓｃｈｒｅｉｂｕｎｇｓｍｏｇｌｉｃｈｋｅｉｔｅｎ」は、「Ａｂｓｃｈｒｅｉｂｕｎｇ＋ｓ＋ｍｏｇｌｉｃｈｋｅｉｔｅｎ」と表される。他の結合形態素としては、「−」や「ｅｓ」などが用いられる。単語を復号化することは、上記言語において新しい単語を作り出す積極的な方法である。これは、機械翻訳、音声認識、テキスト分類、情報抽出、及び、情報検索などの複数のアプリケーション（ＣＬＥＦ２００１：ｈｔｔｐ：／／ｗｗｗ．ｅｒｃｉｍ．ｏｒｇ／ｐｕｂｌｉｃａｔｉｏｎ／ｗｓ−ｐｒｏｃｅｅｄｉｎｇｓ／ＣＬＥＦ２／）にチャレンジを与える。複合語を構成する単語を割り出すことは難しいことが判っている。本分野で既知の解決策が基本的には３つ存在する。

第一の解決策は、ある言語において存在する「すべての」複合語のリスト及び複合語の分割方法を保持しておくことである。ある言語におけるすべての複合語のリストを保持しておくことは不可能である点が欠点である。なぜなら、ある言語における複合語の量は際限がないからである。このため、この解決策の精度は低く、この方法は退屈である。この手法は一言語に適用される。

第二の解決策は、シンプルなものであって、規則に基づいて複合語を構成する単語を割り出すことである。この規則は、いつ分割するかを提示する統計データと組み合わせられる場合もある。ここでの問題は、この方法が、複合語を、存在しない単語、又は、複合語の意味とは関係のない単語の組み合わせ、に分割してしまうことが多いことである。これは一般的な複合語には有効であるが、強力ではない。この手法は、一言語に適用される。

第三の（最後の）解決策は、ディジタル辞書を用いる。辞書といくつかの規則とに基づいて、複合語を構成する単語の割り出しが実行される。この最後の解決策の一例は、米国特許公開第０３／００９７２５２号（複合語を構成する単語を割り出す方法）に開示されている。構成単語は、複合語の確率的区切り点群に基づいて割り出される。適切な語彙集から引かれたｎグラフの分析に基づいて、複合語における区切り点に区切り点重みが割り当てられる。この方法は、複合語内の単語を割り出すものである。主たる欠点は、間違った単語分割が発生し得る点である。

従来技術の欠点を克服するために、本発明の目的の１つは、複合語を構成する単語を割り出すことである。

これは、プリアンブル記載の装置であって、更に、複合語を含む文書の数と該複合語を構成する構成単語を含む文書の数との比を求める手段と、該比が閾値より小さいときに上記複合語を上記構成単語に分割する手段とを有する装置によって実現される。

この装置は、複合語を含む文書の数と該複合語を構成する構成単語を含む文書の数との比が閾値より小さいときには、その複合語は見つかった構成単語に正確に分割されるという観測に基づくものである。

別の実施形態において、本発明に係る装置は、上記複合語中の結合形態素を検出する手段を更に有する。複合語中の結合形態素を検出することは、構成単語を見つけるのに必須である。

別の実施形態において、本発明に係る装置は、上記文書の集合体から求めた単語リストと、該単語リストを用いることによって上記構成単語を見つける手段とを更に有する。複合語を構成する構成単語の検出は、上記文書の集合体のすべての単語を含む単語リストが推測的に用意されるときに、より効果的である。

次の実施形態において、本発明に係る装置は、上記文書の集合体から求めた単語リストと、該単語リストから上記複合語を含む文書の数を求める手段とを更に有する。複合語を含む文書の数を導くことができる単語リストがあると効率的である。

次の実施形態において、本発明に係る装置は、上記文書の集合体から求めた単語リストと、該単語リストから上記複合語を構成する構成単語を含む文書の数を求める手段とを更に有する。複合語を構成する構成単語を含む文書の数を導くことができる単語リストがあると効率的である。

次の実施形態において、本発明に係る装置は、情報検索システムに内蔵される。ユーザは、検索項目を入力し、この項目が複合語である場合、構成単語に分割されて、分割された構成単語について検索が実行される。このように、オペレータは、複合語を構成する構成単語であって分割判断基準を満たす構成単語を含むすべての文書を見つける検索を創成することができる。

次の実施形態において、本発明に係る装置は、上記閾値が上記文書の集合体に応じて選択される。これにより、用いられた文書の集合体に応じた閾値を選択することが可能となる。これは、複合語の分割を最適化する。

別の実施形態において、本発明に係る装置は、上記閾値が３である。これは、オランダ語文書の集合体にとって最適な閾値であることを示している。

別の実施形態において、本発明に係る装置は、上記複合語及び上記構成単語が、文法上、名詞に属する。

別の実施形態において、本発明に係る装置は、上記単語リストが、各単語の単数形及び複数形を含む。これにより、複合語を構成するすべての構成単語が見つかる。

以下、本発明を下記の本発明の例示的実施形態を参照して説明し、図面を参照することにより例示する。これら実施形態は、本発明を例示するためのものであって、本発明を限定するものと解釈されるべきではない。

以下、添付図面を参照して本発明を詳細に説明する。

図１は、本発明に係る情報検索システムの一実施形態を示している。ここで、情報検索システムとは、例えば、文書管理システムや、ウェブ検索システムなどである。

文書管理システムは、オペレータ・コンソール（１０１）と、検索エンジン・フロントエンド（１０４）と、検索エンジン（１０５）と、文書データベース（１０６）とを有する。オペレータ・コンソールは、本発明に係る本システムにユーザ・インターフェイスを提供する。オペレータ・コンソールには、ディスプレイ（１０２）と、例えばキーボード（１０３）であるデータ入力手段とが備えられている。検索エンジン・フロントエンド（１０４）は、オペレータ・コンソールから受信されたすべてのデータを検索エンジンによって実行される検索へ変換する。検索エンジン（１０５）は、この検索をデータベース上で実行し、検索結果が提出者へ返されるように取り計らう。データベース（１０６）は、検索対象の文書を含む。本システムの様々な変形例が考えられる。第一の変形例として、図１のすべての構成要素が１つのパーソナル・コンピュータ内に内蔵されてもよい。別の変形例として、検索エンジン（１０５）、検索エンジン・フロントエンド（１０４）、及び文書データベース（１０６）が１つのサーバ内に実現され、ワークステーションとして実現される数多くのオペレータ・コンソール（１０１）がクライアントとしてサーバにアクセスし、ウェブ・ブラウザをサーバへのアクセス手段として用いる、ようにしてもよい。

図２は、本発明に係る検索エンジン（１０５）及び文書データベース（１０６）の一実施形態を示している。文書の集合体は、報告書、新聞記事、及び、ウェブ・ページなどのあらゆる形の文字情報を含み得る。実際の検索プロセスを開始する前に、ある文書の集合体（２０１）のすべての単語が例えば意味ネットワーク（２０２）によって収集され、単語リスト（２０３）として順に並べられる。自動翻訳又は情報検索にとって最も良い結果は、文書の集合体に存在する単語のみを考慮することによって得られる。これは、文書の集合体からすべての単語を収集し、これらの単語を順番に単語リストに並べることによって行われる。

検索プロセスは、検索エンジン（１０５）が検索エンジン・フロントエンド（１０４）から検索を受信したときに開始される。Ｔ個の項目を含む検索の一例は、ｔ_１且つｔ_２且つ・・・ｔ_Ｔである。ここで、項目ｔ_ｉは、用いられた項目群の中の一項目である（ｔ_ｉ∈（ｔ_１・・・ｔ_Ｔ））。一項目は、任意の単語でよい。項目間には、ＡＮＤ（且つ）、ＯＲ（又は）、ＮＯＴなどの任意の論理演算子を用いることができる。当業者には明らかなように、検索はＴ個の項目から成る。ここで、Ｔは少なくとも１である。当業者には明らかなように、本発明の一実施形態として、検索内で１以上の項目が処理されてもよい。

分割複合判断モジュール（２０４）は、一検索内のすべての項目について、その項目が該検索内で別々にされるべき複数の構成単語を含むか否かを判断する。

分割複合判断モジュール（２０４）の結果は、複合語を構成する単語を別体として含む修正された検索である。文書検索・ランク付けモジュール（２０５）は、この修正された検索と単語リストを用いて、参照文書を取得して参照文書ごとに関連性スコアを計算し、見つかった参照文書をランク付けして、このランク付けされた参照文書をそれらの関連性スコアと共に検索エンジン・フロントエンド（１０３）へ伝達する。図３は、本発明に係る分割複合判断モジュール（２０４）の一実施形態を示している。分割複合判断モジュール（２０４）は、一検索の項目ｔｉごとに、その項目が複合語であるか否か、及び、それらを構成する単語をバラバラにすべきか否か、を判断する。スタート位置３０１からスタートすると、まずステップ３０２において、項目カウンタｉが値１にセットされる。ステップ３０３において、項目ｔ_ｉが項目ｔ_ｉを構成する単語を含むか否かが判断される。これら構成単語は、単語リスト（２０４）から導かれる。同じ複合語を構成する単語の組み合わせは複数存在し得る。各組み合わせを構成単語群と呼ぶ。単語リストは、複合語を構成する単語の組み合わせを見つけるのに用いられる。構成単語が見つかったとき（ステップ３０３のＹ）、ステップ３０４において構成単語群カウンタｊが値１に初期化される。次のステップ３０５は、複合語ｔ_ｉを含む文書の数を判断する。この関数をＤＴ（ｉ）と呼ぶ。ステップ３０５は、構成単語群ｊを含む文書の数ＤＰ（ｉ，ｊ）を求める。ＤＴ（ｉ）及びＤＰ（ｉ，ｊ）の関数結果は、後に実例を挙げて説明するように、単語リストを用いて見つけることができる。ステップ３０６において、分割判断基準ＤＴ（ｉ）＜３＊ＤＰ（ｉ，ｊ）が、各ｊ番目の構成単語群について判定される。ＤＴ（ｉ）＜３＊ＤＰ（ｉ，ｊ）を満たす場合（Ｙ）、次いで、ステップ３０７において、複合語ｔ_ｉを構成する単語群ｊがバラバラの単語に分離される。ステップ３０６においてＤＴ（ｉ）＜３＊ＤＰ（ｉ，ｊ）を満たさなかった場合（Ｎ）、処理はＳ３０８へ進む。分割判断基準はすべての項目ｔ_ｉについて判定され、最終的に修正された検索が得られる。構成単語群カウンタの値ｊは、ステップ３０８において１つインクリメントされ、ステップ３０９においてすべての構成単語群が処理されたか否かが判定される。処理されていない構成単語群もある場合（Ｎ）、次の構成単語群についてこの方法がステップ３０５において繰り返される。すべての構成単語群が処理されたとき（Ｙ）、ステップ３１０において、項目カウンタ値ｉが１つインクリメントされる。ステップ３０３において複合語を構成する単語が見つからずにステップ３０３が反復されるとき（Ｎ）も同様である。次のステップ３１１では、すべての項目ｔ_ｉが処理されたか否かが判定される。すべての項目ｔ_ｉが処理されていないとき（Ｎ）、本方法はステップ３０３へ戻る。すべての項目ｔ_ｉが処理済みのとき（Ｙ）、本方法はステップ３１２において停止する。

当業者には明らかなように、本発明の一実施形態として、検索内の１以上の項目を処理し、ステップ３０６の分割判断基準に合致した構成単語である項目を分離してもよい。既存の複数の単語を組み合わせることによって複合語が創成される。単語を組み合わせる際、接合部分に結合形態素文字を挿入することができる。このような結合形態素文字を挿入できる場合についてのシンプルな規則は存在しないため、すべての２つの単語の間についてチェックしなければならない。ドイツ語の複合語では、「ｓ」及び「ｅｓ」が結合形態素（ｌｉｎｋｉｎｇｍｏｒｐｈｅｍｅ）として用いられる。オランダ語では、結合形態素として「ｓ」が可能である。

図４は、項目ｔ_ｉを構成する単語を割り出す方法（ステップ３０３）の一実施形態のフロー図を示している。図４の実施形態は、結合形態素として「ｓ」のみを考えているため、オランダ語にとって典型的な例と言える。当業者には明らかなように、他の複合言語について、他の結合形態素及び２以上の結合形態素をチェックし、それに応じて対処することが可能である。本方法はステップ４０１からスタートする。ステップ４０２において、項目ｔ_ｉが文字列ｗ_１ ^Ｌへコピーされる。ここで、Ｌは項目ｔ_ｉの総文字数を示す。さらに、単語文字スタート位置ｓが１に、単語レベル・カウンタの値が１に、フラグが「偽」に、単語レベル上の潜在的単語の最後の文字位置ｃ（ｌｅｖｅｌ＝０）が値０に、単語文字終了位置ｃ（ｌｅｖｅｌ＝０）が値２に、それぞれ初期化される。ステップ４０３において、文字位置ｃ（ｌｅｖｅｌ）が文字列ｗ_ｓ ^Ｌの最後から２番目の文字に到達していないとき、すなわちＬ−ｃ（ｌｅｖｅｌ）≧２のとき（Ｙ）、ステップ４０４において、単語リストを参照して、文字列ｗ_ｓ ^{ｃ（ｌｅｖｅｌ）}が単語であるか判定する。ｗ_ｓ ^{ｃ（ｌｅｖｅｌ）}が単語でないとき（Ｓ４０４のＮ）、ステップ４０８において、単語文字終了位置の値ｃ（ｌｅｖｅｌ）が１つ増やされる。が単語のとき（Ｓ４０４のＹ）、ステップ４０５において、その単語は実際の単語レベル上に単語ストアとして記憶される。例えば、最初に見つかった（よって、そのレベルはレベル１である）単語ｗ_ｓ ^{ｃ（ｌｅｖｅｌ）}は、ストアＷｏｒｄ（ｌｅｖｅｌ＝１）として記憶される。その後、このレベル値は次の単語レベルへ更新され、新しいレベルｃ（ｌｅｖｅｌ）値の上での文字位置の値がｃ（ｌｅｖｅｌ−１）へ初期化される。次のステップ４０６において、後に詳述する８つの状況の１つである状況の値が求められ、ステップ４０７へ進む。状況値及びフラグ値に依存するステップ４０７においては、後に詳述するように、単語文字開始位置ｓ及び単語文字終了位置ｃ（ｌｅｖｅｌ）が新しい文字位置へ適合され、場合によっては１つの単語が見つかり、記憶される、などのいつくかのアクションが実行される。ステップ４０７の後、本方法はステップ４０３へ進む。ステップ４０３において、文字列ｗ_ｓ ^Ｌの最後から２番目の文字に達したとき、すなわちＬ−ｃ（ｌｅｖｅｌ）＜２となったとき（Ｎ）、本方法はステップ４０９へ進む。ステップ４０９は、フラグステータスが「真」のとき、肯定（Ｙ）となり、ステップ４０７へ進む。これは、例えば、単語ｗ^Ｌ _{ｃ（ｌｅｖｅｌ）＋１}を分割しようとする試みが終了し、本処理が続けて単語ｗ^Ｌ _{ｃ（ｌｅｖｅｌ）＋２}を分割しようとする場合などである。その後、フラグが「偽」となり、ステップ４０９が否定（Ｎ）となると、ステップ４１０へ進む。ステップ４１０では、単語レベルが１つ減らされる。ステップ４１１において、すべての単語レベルが他の単語を見つけたと判定されたか否かがチェックされる。単語レベル＞０のとき（Ｓ４１１のＹ）、本処理は、まずステップ４１２において単語文字終了位置の値ｃ（ｌｅｖｅｌ）を１つ増やし、単語文字開始位置の値ｓをｃ（ｌｅｖｅｌ）＋１で更新することによって単語を別の単語へ広げ、ステップ４０３へ進む。ステップ４１１におけるチェックにおいて、すべての単語レベルが別の単語へ単語拡張されたと判定されたとき（Ｎ）、ステップ４１３において、ｔ_ｉを構成する単語が見つかったか否かをチェックされ、その後、本方法はステップ４１３で終了する。

図５は、表１（Ｓ４０６）及び表２（Ｓ４０７）の内部の一実施形態を詳細に示している。表１（Ｓ４０６）において、４つの判断基準が状況値を判断する。これら判断基準は、フラグステータス（真／偽）、残りの部分ｗ^Ｌ _{ｃ（ｌｅｖｅｌ）＋１}は単語である（はい／いいえ）、文字位置ｗ_{ｃ（ｌｅｖｅｌ）＋１} ^{ｃ（ｌｅｖｅｌ）＋１}は「ｓ」である（はい／いいえ）、及び、残りの部分ｗ^Ｌ _{ｃ（ｌｅｖｅｌ）＋２}は単語である（はい／いいえ）、である。表１（Ｓ４０６）の第５列には、割り当てられた状況値が示されている。最終行の最後のセルに示されているように、フラグ値が真のときには状況値の更新はない。その後、表２（Ｓ４０７）に更新後の最終的な状況が入力される。表２（Ｓ４０７）において、２つの判断基準：状況値（∈｛１，２，・・・，８｝）及びフラグステータス（はい／いいえ）が必要なアクションを判断する。表２（Ｓ４０７）の判断基準の「フラグ」は、表１（Ｓ４０６）の判断基準の「フラグ」と同じものである。図５の表２（Ｓ４０７）のインジケータＣＯＮＳＴＩＴＵＥＮＴ（）は、複合語を構成すると割り出された単語群｛ｗｏｒｄ（ｈ）_ｈ＝１ ^{ｈ＝ｌｅｖｅｌ}｝が構成単語群リストにセットで追加されることを示している。一例を挙げると、表２（Ｓ４０７）に状況＝１及びフラグ＝偽が入力されると、フラグが（後でｗ^Ｌ _{ｃ（ｌｅｖｅｌ）＋２}を分割できるように）真にセットされ、単語ｗ^Ｌ _{ｃ（ｌｅｖｅｌ）＋１}がストア単語（ｌｅｖｅｌ）内にコピーされ、構成単語がセットで構成単語群リストに追加され、その後、単語ｗＬｃ（ｌｅｖｅｌ）＋２がストア単語（ｌｅｖｅｌ）内にコピーされ、構成単語がセットで構成単語群リストへ追加される。その後、文字位置値ｃ（ｌｅｖｅｌ）＋２及びｃ（ｌｅｖｅｌ）＋３が後で（最初に単語ｗ^Ｌ _{ｃ（ｌｅｖｅｌ）＋１}の分割を試みた後で単語ｗ^Ｌ _{ｃ（ｌｅｖｅｌ）＋２}の２つの単語への分割を試みるのに）用いるためにそれぞれヘルパー定数「ｓｆ」及び「ｃｆ」として記憶され、文字位置値ｓ及びｃ（ｌｅｖｅｌ）がそれぞれｃ（ｌｅｖｅｌ）＋１及びｃ（ｌｅｖｅｌ）＋２で更新され、本方法は表を離れ、ステップ４０３へ進み、単語ｗ^Ｌ _{ｃ（ｌｅｖｅｌ）＋１}の２つの単語への分離を試みる。

（具体例）
本システムの仕組みを説明するために、複合語内で分割判断基準を満たす構成単語を判断する具体例をいくつか紹介する。

（具体例１）
第一の具体例において、検索はオランダ語の項目ｔ_ｉ：「ｂａｓｋｅｔｂａｌｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」を含む。ここで、ｉ＝１である。英語訳は「ｂａｓｋｅｔｂａｌｌｃｈａｍｐｉｏｎｓｈｉｐｓ（バスケットボール選手権）」である。分割複合判断モジュール（２０２）は、文書の集合体から引き出したすべての名詞を含む単語リストを用いて複合語を構成するすべての構成名詞を見つけ出す。一例として図６の単語リストが用いられる。この単語リストの第１列は、文書の集合体において利用可能なすべての名詞をアルファベット順に含む。第２列は、各名詞について、文書の集合体の中でその名詞を含むすべての参照文書を含む。第３列は、文書の集合体の中でその名詞を含む文書の数を含む。単語リストの一実施形態として、最初の２列だけを含むものとしてもよい。第３列は、第２列から求めることができる。当業者には明らかなように、単語リストは、第３列などの追加的情報で拡張することも、或いは、動詞などの他の単語種類も含み、名詞は名詞インジケータで示すようにすることも可能である。当業者には図６から明らかなように、複合語ｔ_ｉ（第１列）を含む文書数（第３列）は、この単語リストから求めることができる。

この具体例では、最初のメインステップ（Ｓ３０３）において、図６の単語リスト（２０５）を用いることによって、「ｂａｓｋｅｔｂａｌｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」を構成する群と呼ばれるすべての構成単語可能性を判断する。オランダ語の複合語「ｂａｓｋｅｔｂａｌｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」について、分割複合判断モジュール（２０２）は、８つの構成名詞群を見つける。図７では、見つかった８つすべての構成単語群が第２列に示されている。第一の見つかった構成単語群（ｊ＝１）：「ｂａｓｋｅｔｂａｌ」＋「ｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」を図７の第２行の第２セルに示す。ステップ３０５において、複合語ｔ_ｉ：「ｂａｓｋｅｔｂａｌｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」を含む文書数ＤＴ（ｉ）が求められる。複合語「ｂａｓｋｅｔｂａｌｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」は、意味ネットワーク・モジュール（２０６）によって、文書の集合体（２０７）内のどの文書にも見つからない。図６の単語リストの第１列において、複合語「ｂａｓｋｅｔｂａｌｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」は利用可能でないため、ＤＴ（ｉ）＝０である。ステップ３０５における次のアクションは、すべての構成単語群ｊを含む文書数ＤＰ（ｉ，ｊ）を求めることである。構成単語を別々に１つの文書内に含む文書数ＤＰ（ｉ，ｊ＝１）は、図６に示した単語リストから導くことができる。この単語リストは、名詞「ｂａｓｋｅｔｂａｌ」は文書［１］〜［８］において用いられており、名詞「ｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」は文書［１］〜［６］及び［９］において用いられている。この単語リストから、これら２つの名詞は文書［１］及び［６］において双方とも用いられていることが導かれるため、ＤＰ（ｉ，ｊ＝１）＝６である。これと同じことを残りの７つの構成単語群について実行すると、ＤＰ（ｉ，ｊ）＝０が導かれる。図７の第４列にＤＰ（ｉ，ｊ）値が示されている。ステップ３０６において、分割判断基準ＤＴ（ｉ）＜３＊ＤＰ（ｉ，ｊ）が構成単語群ｊごとに判定される。この判定の結果は、図７の第５列に示されている。第一の（ｊ＝１）構成単語群のみがこの基準を満たす。この例では、構成単語「ｂａｓｋｅｔｂａｌ」＋「ｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」のみが分割基準を満たし、ステップ３０７において別々の「ｂａｓｋｅｔｂａｌ」及び「ｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」に分割される。この例でのステップ３０７の結果は、図７の第６列に示されている。

分割複合判断モジュールを使用せずに検索項目「ｂａｓｋｅｔｂａｌｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」を検索エンジン（１０５）に適用すると、修正された検索が得られず、文書の集合体から関連文書が一切見つけられない。しかし、分割複合判断モジュールを検索項目「ｂａｓｋｅｔｂａｌｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」に適用すると、修正された検索は、例えば、
（「ｂａｓｋｅｔｂａｌ」ＡＮＤ「ｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」）
となる。ここで、例えば、
（「ｂａｓｋｅｔｂａｌ」ＡＮＤ「ｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」）ＯＲ「ｂａｓｋｅｔｂａｌｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」
も妥当である。

この修正された検索により、場合によっては図６の単語リストに助けられて、関連文書［１］、［２］、［３］、［４］、［５］、及び、［６］が見つかる。

（具体例２）
ここでは、オランド語の例を挙げて、複合語ｔ_ｉの構成単語がステップ３０３においてどのように見つけ出されるのかを説明する。この単語の英語訳は「ｃｏｕｒｓｅｏｆｌｉｆｅ（人生航路）」である。

構成単語を見つけている間に複数のイベントを識別することができる。これらイベントを表１に示す。ここで、単語リストは「ｌｅｖｅｎｓ」を定義していないことに注意。英語訳は「ｌｉｆｅ（人生）」である。

表１のイベントは、（名詞）レベル、名詞開始位置ｓ、及び、２つのレベルｃ（ｌｅｖｅｌ＝１）及びｃ（ｌｅｖｅｌ＝２）についての単語文字終了位置ｃ（ｌｅｖｅｌ）、のイベントステータスと共に、表２に入れられる。

（具体例３）
別の例を挙げる。

構成単語を見つけている間に表３に示す複数のイベントを識別することができる。ここで、単語リストは名詞「ｖｅｒｋｅｅｒｓｐｌａｎ」（英語：「ｔｒａｆｆｉｃｐｌａｎ（交通計画）」を含まない。

表４では、名詞レベル、名詞開始位置ｓ、及び、３つのレベルｃ（ｌｅｖｅｌ＝１）、ｃ（ｌｅｖｅｌ＝２）、及び、ｃ（ｌｅｖｅｌ＝３）についての単語文字終了位置ｃ（ｌｅｖｅｌ）、というイベントステータスが与えられる。

以上、本発明について説明したが、本発明は多くの方法で変化させ得ることは明らかである。このような変形例は、本発明の意図及び範囲を逸脱するものと考えられるべきではなく、このような変更のすべては、当業者には明らかであり、請求項の範囲内に含まれることが意図されている。

本発明に係る装置の一実施形態のブロック図である。本発明に係る検索エンジン及び文書データベースの一実施形態のブロック図である。分割複合判断モジュールの一実施形態のフロー図である。複合語を構成する単語を割り出す方法の一実施形態のフロー図である。表１及び２の一実施形態である。単語リストの一例の一実施形態である。複合語「ｂａｓｋｅｔｂａｌｋａｍｐｉｏｅｎｓｃｈａｐｐｅｎ」についての方法中間結果の一実施形態を示す図である。

符号の説明

１０１オペレータ・コンソール
１０２ディスプレイ
１０３キーボード
１０４検索エンジン・フロントエンド
１０５検索エンジン
１０６文書データベース
２０１文書収集
２０２意味ネットワーク
２０３単語リスト
２０４分割複合判断モジュール
２０５文書検索・ランク付けモジュール

Claims

文書の集合体と、
前記文書の集合体の中で複合語を含む文書の数を割り出す手段と、
前記文書の集合体の中で前記複合語を構成する構成単語を含む文書の数を割り出す手段とを有する複合語の構成単語を割り出す装置であって、
前記複合語を含む文書の数と前記複合語を構成する構成単語を含む文書の数との比を求める手段と、
前記比が閾値より小さいときに前記複合語を前記構成単語に分割する手段と、を有することを特徴とする装置。
請求項１記載の装置であって、
前記複合語中の結合形態素を検出する手段を更に有する、ことを特徴とする装置。
請求項１記載の装置であって、
前記文書の集合体から求めた単語リストと、
前記単語リストを用いることによって前記構成単語を見つける手段とを更に有する、ことを特徴とする装置。
請求項１記載の装置であって、
前記文書の集合体から求めた単語リストと、
前記単語リストから前記複合語を含む文書の数を求める手段とを更に有する、ことを特徴とする装置。
請求項１記載の装置であって、
前記文書の集合体から求めた単語リストと、
前記単語リストから前記複合語を構成する構成単語を含む文書の数を求める手段とを更に有する、ことを特徴とする装置。
請求項１記載の装置であって、
前記閾値は前記文書の集合体に依存する、ことを特徴とする装置。
請求項１記載の装置であって、
前記閾値は３である、ことを特徴とする装置。
請求項１乃至７のいずれか一項記載の装置であって、
前記複合語及び前記構成単語は、文法上、名詞に属する、ことを特徴とする装置。
請求項８記載の装置であって、
前記単語リストは、各単語の単数形及び複数形を含む、ことを特徴とする装置。
情報検索システムであって、
単語を含む検索項目を入力する手段と、
前記単語を分割する手段とを有し、
前記２つの手段は、
請求項１乃至９のいずれか一項記載の装置を組み込んでおり、
構成単語を伝達し、
本システムは、更に、前記伝達された構成単語を検索項目として検索を実行する手段を有する、ことを特徴とするシステム。
文書の集合体の中で複合語を含む文書の数を割り出す工程と、
前記文書の集合体の中で前記複合語を構成する構成単語を含む文書の数を割り出す工程とを有する複合語の構成単語を割り出すコンピュータ化された方法であって、
前記複合語を含む文書の数と前記複合語を構成する構成単語を含む文書の数との比を求める工程と、
前記比が閾値より小さいときに前記複合語を前記構成単語に分割する工程と、を有することを特徴とする方法。
請求項１１記載のコンピュータ化された方法であって、
前記複合語中の結合形態素を検出する工程を更に有する、ことを特徴とする方法。
請求項１１記載のコンピュータ化された方法であって、
単語リストを用いることによって前記構成単語を見つける工程を更に有する、ことを特徴とする方法。
請求項１１記載のコンピュータ化された方法であって、
単語リストから前記複合語を含む文書の数を求める工程を更に有する、ことを特徴とする方法。
請求項１１記載のコンピュータ化された方法であって、
単語リストから前記複合語を構成する構成単語を含む文書の数を求める工程を更に有する、ことを特徴とする方法。
請求項１１記載のコンピュータ化された方法であって、
オペレータによって検索を入力する工程を更に有する、ことを特徴とする方法。
請求項１１記載のコンピュータ化された方法であって、
前記閾値を前記文書の集合体に応じて選択する工程を更に有する、ことを特徴とする方法。
請求項１１記載のコンピュータ化された方法であって、
前記閾値は３である、ことを特徴とする方法。
請求項１１乃至１８のいずれか一項記載のコンピュータ化された方法であって、
前記複合語及び前記構成単語は、文法上、名詞に属する、ことを特徴とする方法。
請求項１９記載のコンピュータ化された方法であって、
前記単語リストは、各単語の単数形及び複数形を含む、ことを特徴とする方法。
情報を検索するコンピュータ化された方法であって、
単語を含む検索項目を入力する工程と、
前記単語を請求項１１乃至２０のいずれか一項記載の方法に従って分割する工程と、
構成単語を伝達する工程と、
前記伝達された構成単語を検索項目として検索を実行する工程とを有する、ことを特徴とする方法。
コンピュータ上で実行されたときに請求項１１記載のすべての工程を実行するコード手段を含むことを特徴とするコンピュータ・プログラム。