JP2005293582A - 複合語を構成する単語を割り出す装置及びコンピュータ化された方法 - Google Patents

複合語を構成する単語を割り出す装置及びコンピュータ化された方法 Download PDF

Info

Publication number
JP2005293582A
JP2005293582A JP2005095536A JP2005095536A JP2005293582A JP 2005293582 A JP2005293582 A JP 2005293582A JP 2005095536 A JP2005095536 A JP 2005095536A JP 2005095536 A JP2005095536 A JP 2005095536A JP 2005293582 A JP2005293582 A JP 2005293582A
Authority
JP
Japan
Prior art keywords
word
documents
compound
constituent
words
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005095536A
Other languages
English (en)
Other versions
JP4754247B2 (ja
Inventor
Samuel J Driessen
イェー ドリーッセン サミュエル
Pavel M Iljin
エム イレイン パフェル
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Canon Production Printing Netherlands BV
Original Assignee
Oce Technologies BV
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Oce Technologies BV filed Critical Oce Technologies BV
Publication of JP2005293582A publication Critical patent/JP2005293582A/ja
Application granted granted Critical
Publication of JP4754247B2 publication Critical patent/JP4754247B2/ja
Anticipated expiration legal-status Critical
Expired - Fee Related legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • G06F40/284Lexical analysis, e.g. tokenisation or collocates
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Machine Translation (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

【課題】 複合語の構成単語を割り出す装置、コンピュータ・プログラム、及び、コンピュータ化された方法を提供すること。
【解決手段】 構成単語は、複合語を構成する。構成単語が分割判断基準を満たすとき、構成単語はバラバラに用いることができる。バラバラの構成単語は、検索おいて、文書の集合体から関連する文書を検索するのに用いられる。
【選択図】 図3

Description

本発明は、文書の集合体と、該文書の集合体から複合語を含む文書の数を割り出す手段と、上記文書の集合体から上記複合語を構成する単語を含む文書の数を割り出す手段とを有する複合語を構成する単語を割り出す装置に関する。また、本発明は、このような複合語を構成する単語を割り出す装置及びコンピュータ化された方法を組み込んだ情報検索システムにも関する。
複合語は、ドイツ語、オランダ語、デンマーク語、ギリシア語、ノルウェー語、アイスランド語、及び、フィンランド語などの複数の言語において一般的である。複合語は自由に結合できるため、複合語により語彙サイズは莫大に増える。上記言語は、その言語のどの辞書にも載っていない非常に長い単語を含む可能性がある。このような単語の典型的な一例は、ドイツ語の複合語「Abschreibungsmoglichkeiten」である。この複合語は、結合形態素「s」によって2つの単語「Abschreibung」及び「moglichkeiten」を連結させることによって構成されている。以下の本発明の説明において、複合語をそれを構成する単語と(存在すれば)結合形態素とに分解することを複合語の細分化又は複合語を構成する単語をバラバラすると呼び、記号「+」によって隔てられた文字列によって表される。例えば、複合語「Abschreibungsmoglichkeiten」は、「Abschreibung+s+moglichkeiten」と表される。他の結合形態素としては、「−」や「es」などが用いられる。単語を復号化することは、上記言語において新しい単語を作り出す積極的な方法である。これは、機械翻訳、音声認識、テキスト分類、情報抽出、及び、情報検索などの複数のアプリケーション(CLEF2001:http://www.ercim.org/publication/ws−proceedings/CLEF2/)にチャレンジを与える。複合語を構成する単語を割り出すことは難しいことが判っている。本分野で既知の解決策が基本的には3つ存在する。
第一の解決策は、ある言語において存在する「すべての」複合語のリスト及び複合語の分割方法を保持しておくことである。ある言語におけるすべての複合語のリストを保持しておくことは不可能である点が欠点である。なぜなら、ある言語における複合語の量は際限がないからである。このため、この解決策の精度は低く、この方法は退屈である。この手法は一言語に適用される。
第二の解決策は、シンプルなものであって、規則に基づいて複合語を構成する単語を割り出すことである。この規則は、いつ分割するかを提示する統計データと組み合わせられる場合もある。ここでの問題は、この方法が、複合語を、存在しない単語、又は、複合語の意味とは関係のない単語の組み合わせ、に分割してしまうことが多いことである。これは一般的な複合語には有効であるが、強力ではない。この手法は、一言語に適用される。
第三の(最後の)解決策は、ディジタル辞書を用いる。辞書といくつかの規則とに基づいて、複合語を構成する単語の割り出しが実行される。この最後の解決策の一例は、米国特許公開第03/0097252号(複合語を構成する単語を割り出す方法)に開示されている。構成単語は、複合語の確率的区切り点群に基づいて割り出される。適切な語彙集から引かれたnグラフの分析に基づいて、複合語における区切り点に区切り点重みが割り当てられる。この方法は、複合語内の単語を割り出すものである。主たる欠点は、間違った単語分割が発生し得る点である。
従来技術の欠点を克服するために、本発明の目的の1つは、複合語を構成する単語を割り出すことである。
これは、プリアンブル記載の装置であって、更に、複合語を含む文書の数と該複合語を構成する構成単語を含む文書の数との比を求める手段と、該比が閾値より小さいときに上記複合語を上記構成単語に分割する手段とを有する装置によって実現される。
この装置は、複合語を含む文書の数と該複合語を構成する構成単語を含む文書の数との比が閾値より小さいときには、その複合語は見つかった構成単語に正確に分割されるという観測に基づくものである。
別の実施形態において、本発明に係る装置は、上記複合語中の結合形態素を検出する手段を更に有する。複合語中の結合形態素を検出することは、構成単語を見つけるのに必須である。
別の実施形態において、本発明に係る装置は、上記文書の集合体から求めた単語リストと、該単語リストを用いることによって上記構成単語を見つける手段とを更に有する。複合語を構成する構成単語の検出は、上記文書の集合体のすべての単語を含む単語リストが推測的に用意されるときに、より効果的である。
次の実施形態において、本発明に係る装置は、上記文書の集合体から求めた単語リストと、該単語リストから上記複合語を含む文書の数を求める手段とを更に有する。複合語を含む文書の数を導くことができる単語リストがあると効率的である。
次の実施形態において、本発明に係る装置は、上記文書の集合体から求めた単語リストと、該単語リストから上記複合語を構成する構成単語を含む文書の数を求める手段とを更に有する。複合語を構成する構成単語を含む文書の数を導くことができる単語リストがあると効率的である。
次の実施形態において、本発明に係る装置は、情報検索システムに内蔵される。ユーザは、検索項目を入力し、この項目が複合語である場合、構成単語に分割されて、分割された構成単語について検索が実行される。このように、オペレータは、複合語を構成する構成単語であって分割判断基準を満たす構成単語を含むすべての文書を見つける検索を創成することができる。
次の実施形態において、本発明に係る装置は、上記閾値が上記文書の集合体に応じて選択される。これにより、用いられた文書の集合体に応じた閾値を選択することが可能となる。これは、複合語の分割を最適化する。
別の実施形態において、本発明に係る装置は、上記閾値が3である。これは、オランダ語文書の集合体にとって最適な閾値であることを示している。
別の実施形態において、本発明に係る装置は、上記複合語及び上記構成単語が、文法上、名詞に属する。
別の実施形態において、本発明に係る装置は、上記単語リストが、各単語の単数形及び複数形を含む。これにより、複合語を構成するすべての構成単語が見つかる。
以下、本発明を下記の本発明の例示的実施形態を参照して説明し、図面を参照することにより例示する。これら実施形態は、本発明を例示するためのものであって、本発明を限定するものと解釈されるべきではない。
以下、添付図面を参照して本発明を詳細に説明する。
図1は、本発明に係る情報検索システムの一実施形態を示している。ここで、情報検索システムとは、例えば、文書管理システムや、ウェブ検索システムなどである。
文書管理システムは、オペレータ・コンソール(101)と、検索エンジン・フロントエンド(104)と、検索エンジン(105)と、文書データベース(106)とを有する。オペレータ・コンソールは、本発明に係る本システムにユーザ・インターフェイスを提供する。オペレータ・コンソールには、ディスプレイ(102)と、例えばキーボード(103)であるデータ入力手段とが備えられている。検索エンジン・フロントエンド(104)は、オペレータ・コンソールから受信されたすべてのデータを検索エンジンによって実行される検索へ変換する。検索エンジン(105)は、この検索をデータベース上で実行し、検索結果が提出者へ返されるように取り計らう。データベース(106)は、検索対象の文書を含む。本システムの様々な変形例が考えられる。第一の変形例として、図1のすべての構成要素が1つのパーソナル・コンピュータ内に内蔵されてもよい。別の変形例として、検索エンジン(105)、検索エンジン・フロントエンド(104)、及び文書データベース(106)が1つのサーバ内に実現され、ワークステーションとして実現される数多くのオペレータ・コンソール(101)がクライアントとしてサーバにアクセスし、ウェブ・ブラウザをサーバへのアクセス手段として用いる、ようにしてもよい。
図2は、本発明に係る検索エンジン(105)及び文書データベース(106)の一実施形態を示している。文書の集合体は、報告書、新聞記事、及び、ウェブ・ページなどのあらゆる形の文字情報を含み得る。実際の検索プロセスを開始する前に、ある文書の集合体(201)のすべての単語が例えば意味ネットワーク(202)によって収集され、単語リスト(203)として順に並べられる。自動翻訳又は情報検索にとって最も良い結果は、文書の集合体に存在する単語のみを考慮することによって得られる。これは、文書の集合体からすべての単語を収集し、これらの単語を順番に単語リストに並べることによって行われる。
検索プロセスは、検索エンジン(105)が検索エンジン・フロントエンド(104)から検索を受信したときに開始される。T個の項目を含む検索の一例は、t且つt且つ・・・tである。ここで、項目tは、用いられた項目群の中の一項目である(t∈(t・・・t))。一項目は、任意の単語でよい。項目間には、AND(且つ)、OR(又は)、NOTなどの任意の論理演算子を用いることができる。当業者には明らかなように、検索はT個の項目から成る。ここで、Tは少なくとも1である。当業者には明らかなように、本発明の一実施形態として、検索内で1以上の項目が処理されてもよい。
分割複合判断モジュール(204)は、一検索内のすべての項目について、その項目が該検索内で別々にされるべき複数の構成単語を含むか否かを判断する。
分割複合判断モジュール(204)の結果は、複合語を構成する単語を別体として含む修正された検索である。文書検索・ランク付けモジュール(205)は、この修正された検索と単語リストを用いて、参照文書を取得して参照文書ごとに関連性スコアを計算し、見つかった参照文書をランク付けして、このランク付けされた参照文書をそれらの関連性スコアと共に検索エンジン・フロントエンド(103)へ伝達する。図3は、本発明に係る分割複合判断モジュール(204)の一実施形態を示している。分割複合判断モジュール(204)は、一検索の項目tiごとに、その項目が複合語であるか否か、及び、それらを構成する単語をバラバラにすべきか否か、を判断する。スタート位置301からスタートすると、まずステップ302において、項目カウンタiが値1にセットされる。ステップ303において、項目tが項目tを構成する単語を含むか否かが判断される。これら構成単語は、単語リスト(204)から導かれる。同じ複合語を構成する単語の組み合わせは複数存在し得る。各組み合わせを構成単語群と呼ぶ。単語リストは、複合語を構成する単語の組み合わせを見つけるのに用いられる。構成単語が見つかったとき(ステップ303のY)、ステップ304において構成単語群カウンタjが値1に初期化される。次のステップ305は、複合語tを含む文書の数を判断する。この関数をDT(i)と呼ぶ。ステップ305は、構成単語群jを含む文書の数DP(i,j)を求める。DT(i)及びDP(i,j)の関数結果は、後に実例を挙げて説明するように、単語リストを用いて見つけることができる。ステップ306において、分割判断基準DT(i)<3*DP(i,j)が、各j番目の構成単語群について判定される。DT(i)<3*DP(i,j)を満たす場合(Y)、次いで、ステップ307において、複合語tを構成する単語群jがバラバラの単語に分離される。ステップ306においてDT(i)<3*DP(i,j)を満たさなかった場合(N)、処理はS308へ進む。分割判断基準はすべての項目tについて判定され、最終的に修正された検索が得られる。構成単語群カウンタの値jは、ステップ308において1つインクリメントされ、ステップ309においてすべての構成単語群が処理されたか否かが判定される。処理されていない構成単語群もある場合(N)、次の構成単語群についてこの方法がステップ305において繰り返される。すべての構成単語群が処理されたとき(Y)、ステップ310において、項目カウンタ値iが1つインクリメントされる。ステップ303において複合語を構成する単語が見つからずにステップ303が反復されるとき(N)も同様である。次のステップ311では、すべての項目tが処理されたか否かが判定される。すべての項目tが処理されていないとき(N)、本方法はステップ303へ戻る。すべての項目tが処理済みのとき(Y)、本方法はステップ312において停止する。
当業者には明らかなように、本発明の一実施形態として、検索内の1以上の項目を処理し、ステップ306の分割判断基準に合致した構成単語である項目を分離してもよい。既存の複数の単語を組み合わせることによって複合語が創成される。単語を組み合わせる際、接合部分に結合形態素文字を挿入することができる。このような結合形態素文字を挿入できる場合についてのシンプルな規則は存在しないため、すべての2つの単語の間についてチェックしなければならない。ドイツ語の複合語では、「s」及び「es」が結合形態素(linking morpheme)として用いられる。オランダ語では、結合形態素として「s」が可能である。
図4は、項目tを構成する単語を割り出す方法(ステップ303)の一実施形態のフロー図を示している。図4の実施形態は、結合形態素として「s」のみを考えているため、オランダ語にとって典型的な例と言える。当業者には明らかなように、他の複合言語について、他の結合形態素及び2以上の結合形態素をチェックし、それに応じて対処することが可能である。本方法はステップ401からスタートする。ステップ402において、項目tが文字列w へコピーされる。ここで、Lは項目tの総文字数を示す。さらに、単語文字スタート位置sが1に、単語レベル・カウンタの値が1に、フラグが「偽」に、単語レベル上の潜在的単語の最後の文字位置c(level=0)が値0に、単語文字終了位置c(level=0)が値2に、それぞれ初期化される。ステップ403において、文字位置c(level)が文字列w の最後から2番目の文字に到達していないとき、すなわちL−c(level)≧2のとき(Y)、ステップ404において、単語リストを参照して、文字列w c(level)が単語であるか判定する。w c(level)が単語でないとき(S404のN)、ステップ408において、単語文字終了位置の値c(level)が1つ増やされる。が単語のとき(S404のY)、ステップ405において、その単語は実際の単語レベル上に単語ストアとして記憶される。例えば、最初に見つかった(よって、そのレベルはレベル1である)単語w c(level)は、ストアWord(level=1)として記憶される。その後、このレベル値は次の単語レベルへ更新され、新しいレベルc(level)値の上での文字位置の値がc(level−1)へ初期化される。次のステップ406において、後に詳述する8つの状況の1つである状況の値が求められ、ステップ407へ進む。状況値及びフラグ値に依存するステップ407においては、後に詳述するように、単語文字開始位置s及び単語文字終了位置c(level)が新しい文字位置へ適合され、場合によっては1つの単語が見つかり、記憶される、などのいつくかのアクションが実行される。ステップ407の後、本方法はステップ403へ進む。ステップ403において、文字列w の最後から2番目の文字に達したとき、すなわちL−c(level)<2となったとき(N)、本方法はステップ409へ進む。ステップ409は、フラグステータスが「真」のとき、肯定(Y)となり、ステップ407へ進む。これは、例えば、単語w c(level)+1を分割しようとする試みが終了し、本処理が続けて単語w c(level)+2を分割しようとする場合などである。その後、フラグが「偽」となり、ステップ409が否定(N)となると、ステップ410へ進む。ステップ410では、単語レベルが1つ減らされる。ステップ411において、すべての単語レベルが他の単語を見つけたと判定されたか否かがチェックされる。単語レベル>0のとき(S411のY)、本処理は、まずステップ412において単語文字終了位置の値c(level)を1つ増やし、単語文字開始位置の値sをc(level)+1で更新することによって単語を別の単語へ広げ、ステップ403へ進む。ステップ411におけるチェックにおいて、すべての単語レベルが別の単語へ単語拡張されたと判定されたとき(N)、ステップ413において、tを構成する単語が見つかったか否かをチェックされ、その後、本方法はステップ413で終了する。
図5は、表1(S406)及び表2(S407)の内部の一実施形態を詳細に示している。表1(S406)において、4つの判断基準が状況値を判断する。これら判断基準は、フラグステータス(真/偽)、残りの部分w c(level)+1は単語である(はい/いいえ)、文字位置wc(level)+1 c(level)+1は「s」である(はい/いいえ)、及び、残りの部分w c(level)+2は単語である(はい/いいえ)、である。表1(S406)の第5列には、割り当てられた状況値が示されている。最終行の最後のセルに示されているように、フラグ値が真のときには状況値の更新はない。その後、表2(S407)に更新後の最終的な状況が入力される。表2(S407)において、2つの判断基準:状況値(∈{1,2,・・・,8})及びフラグステータス(はい/いいえ)が必要なアクションを判断する。表2(S407)の判断基準の「フラグ」は、表1(S406)の判断基準の「フラグ」と同じものである。図5の表2(S407)のインジケータCONSTITUENT()は、複合語を構成すると割り出された単語群{word(h)h=1 h=level}が構成単語群リストにセットで追加されることを示している。一例を挙げると、表2(S407)に状況=1及びフラグ=偽が入力されると、フラグが(後でw c(level)+2を分割できるように)真にセットされ、単語w c(level)+1がストア単語(level)内にコピーされ、構成単語がセットで構成単語群リストに追加され、その後、単語wLc(level)+2がストア単語(level)内にコピーされ、構成単語がセットで構成単語群リストへ追加される。その後、文字位置値c(level)+2及びc(level)+3が後で(最初に単語w c(level)+1の分割を試みた後で単語w c(level)+2の2つの単語への分割を試みるのに)用いるためにそれぞれヘルパー定数「sf」及び「cf」として記憶され、文字位置値s及びc(level)がそれぞれc(level)+1及びc(level)+2で更新され、本方法は表を離れ、ステップ403へ進み、単語w c(level)+1の2つの単語への分離を試みる。
(具体例)
本システムの仕組みを説明するために、複合語内で分割判断基準を満たす構成単語を判断する具体例をいくつか紹介する。
(具体例1)
第一の具体例において、検索はオランダ語の項目t:「basketbalkampioenschappen」を含む。ここで、i=1である。英語訳は「basketball championships(バスケットボール選手権)」である。分割複合判断モジュール(202)は、文書の集合体から引き出したすべての名詞を含む単語リストを用いて複合語を構成するすべての構成名詞を見つけ出す。一例として図6の単語リストが用いられる。この単語リストの第1列は、文書の集合体において利用可能なすべての名詞をアルファベット順に含む。第2列は、各名詞について、文書の集合体の中でその名詞を含むすべての参照文書を含む。第3列は、文書の集合体の中でその名詞を含む文書の数を含む。単語リストの一実施形態として、最初の2列だけを含むものとしてもよい。第3列は、第2列から求めることができる。当業者には明らかなように、単語リストは、第3列などの追加的情報で拡張することも、或いは、動詞などの他の単語種類も含み、名詞は名詞インジケータで示すようにすることも可能である。当業者には図6から明らかなように、複合語t(第1列)を含む文書数(第3列)は、この単語リストから求めることができる。
この具体例では、最初のメインステップ(S303)において、図6の単語リスト(205)を用いることによって、「basketbalkampioenschappen」を構成する群と呼ばれるすべての構成単語可能性を判断する。オランダ語の複合語「basketbalkampioenschappen」について、分割複合判断モジュール(202)は、8つの構成名詞群を見つける。図7では、見つかった8つすべての構成単語群が第2列に示されている。第一の見つかった構成単語群(j=1):「basketbal」+「kampioenschappen」を図7の第2行の第2セルに示す。ステップ305において、複合語t:「basketbalkampioenschappen」を含む文書数DT(i)が求められる。複合語「basketbalkampioenschappen」は、意味ネットワーク・モジュール(206)によって、文書の集合体(207)内のどの文書にも見つからない。図6の単語リストの第1列において、複合語「basketbalkampioenschappen」は利用可能でないため、DT(i)=0である。ステップ305における次のアクションは、すべての構成単語群jを含む文書数DP(i,j)を求めることである。構成単語を別々に1つの文書内に含む文書数DP(i,j=1)は、図6に示した単語リストから導くことができる。この単語リストは、名詞「basketbal」は文書[1]〜[8]において用いられており、名詞「kampioenschappen」は文書[1]〜[6]及び[9]において用いられている。この単語リストから、これら2つの名詞は文書[1]及び[6]において双方とも用いられていることが導かれるため、DP(i,j=1)=6である。これと同じことを残りの7つの構成単語群について実行すると、DP(i,j)=0が導かれる。図7の第4列にDP(i,j)値が示されている。ステップ306において、分割判断基準DT(i)<3*DP(i,j)が構成単語群jごとに判定される。この判定の結果は、図7の第5列に示されている。第一の(j=1)構成単語群のみがこの基準を満たす。この例では、構成単語「basketbal」+「kampioenschappen」のみが分割基準を満たし、ステップ307において別々の「basketbal」及び「kampioenschappen」に分割される。この例でのステップ307の結果は、図7の第6列に示されている。
分割複合判断モジュールを使用せずに検索項目「basketbalkampioenschappen」を検索エンジン(105)に適用すると、修正された検索が得られず、文書の集合体から関連文書が一切見つけられない。しかし、分割複合判断モジュールを検索項目「basketbalkampioenschappen」に適用すると、修正された検索は、例えば、
(「basketbal」AND「kampioenschappen」)
となる。ここで、例えば、
(「basketbal」AND「kampioenschappen」)OR「basketbalkampioenschappen」
も妥当である。
この修正された検索により、場合によっては図6の単語リストに助けられて、関連文書[1]、[2]、[3]、[4]、[5]、及び、[6]が見つかる。
(具体例2)
ここでは、オランド語の例を挙げて、複合語tの構成単語がステップ303においてどのように見つけ出されるのかを説明する。この単語の英語訳は「course of life(人生航路)」である。
Figure 2005293582
構成単語を見つけている間に複数のイベントを識別することができる。これらイベントを表1に示す。ここで、単語リストは「levens」を定義していないことに注意。英語訳は「life(人生)」である。
Figure 2005293582
表1のイベントは、(名詞)レベル、名詞開始位置s、及び、2つのレベルc(level=1)及びc(level=2)についての単語文字終了位置c(level)、のイベントステータスと共に、表2に入れられる。
Figure 2005293582
(具体例3)
別の例を挙げる。
Figure 2005293582
構成単語を見つけている間に表3に示す複数のイベントを識別することができる。ここで、単語リストは名詞「verkeersplan」(英語:「traffic plan(交通計画)」を含まない。
Figure 2005293582
表4では、名詞レベル、名詞開始位置s、及び、3つのレベルc(level=1)、c(level=2)、及び、c(level=3)についての単語文字終了位置c(level)、というイベントステータスが与えられる。
Figure 2005293582
以上、本発明について説明したが、本発明は多くの方法で変化させ得ることは明らかである。このような変形例は、本発明の意図及び範囲を逸脱するものと考えられるべきではなく、このような変更のすべては、当業者には明らかであり、請求項の範囲内に含まれることが意図されている。
本発明に係る装置の一実施形態のブロック図である。 本発明に係る検索エンジン及び文書データベースの一実施形態のブロック図である。 分割複合判断モジュールの一実施形態のフロー図である。 複合語を構成する単語を割り出す方法の一実施形態のフロー図である。 表1及び2の一実施形態である。 単語リストの一例の一実施形態である。 複合語「basketbalkampioenschappen」についての方法中間結果の一実施形態を示す図である。
符号の説明
101 オペレータ・コンソール
102 ディスプレイ
103 キーボード
104 検索エンジン・フロントエンド
105 検索エンジン
106 文書データベース
201 文書収集
202 意味ネットワーク
203 単語リスト
204 分割複合判断モジュール
205 文書検索・ランク付けモジュール

Claims (22)

  1. 文書の集合体と、
    前記文書の集合体の中で複合語を含む文書の数を割り出す手段と、
    前記文書の集合体の中で前記複合語を構成する構成単語を含む文書の数を割り出す手段とを有する複合語の構成単語を割り出す装置であって、
    前記複合語を含む文書の数と前記複合語を構成する構成単語を含む文書の数との比を求める手段と、
    前記比が閾値より小さいときに前記複合語を前記構成単語に分割する手段と、を有することを特徴とする装置。
  2. 請求項1記載の装置であって、
    前記複合語中の結合形態素を検出する手段を更に有する、ことを特徴とする装置。
  3. 請求項1記載の装置であって、
    前記文書の集合体から求めた単語リストと、
    前記単語リストを用いることによって前記構成単語を見つける手段とを更に有する、ことを特徴とする装置。
  4. 請求項1記載の装置であって、
    前記文書の集合体から求めた単語リストと、
    前記単語リストから前記複合語を含む文書の数を求める手段とを更に有する、ことを特徴とする装置。
  5. 請求項1記載の装置であって、
    前記文書の集合体から求めた単語リストと、
    前記単語リストから前記複合語を構成する構成単語を含む文書の数を求める手段とを更に有する、ことを特徴とする装置。
  6. 請求項1記載の装置であって、
    前記閾値は前記文書の集合体に依存する、ことを特徴とする装置。
  7. 請求項1記載の装置であって、
    前記閾値は3である、ことを特徴とする装置。
  8. 請求項1乃至7のいずれか一項記載の装置であって、
    前記複合語及び前記構成単語は、文法上、名詞に属する、ことを特徴とする装置。
  9. 請求項8記載の装置であって、
    前記単語リストは、各単語の単数形及び複数形を含む、ことを特徴とする装置。
  10. 情報検索システムであって、
    単語を含む検索項目を入力する手段と、
    前記単語を分割する手段とを有し、
    前記2つの手段は、
    請求項1乃至9のいずれか一項記載の装置を組み込んでおり、
    構成単語を伝達し、
    本システムは、更に、前記伝達された構成単語を検索項目として検索を実行する手段を有する、ことを特徴とするシステム。
  11. 文書の集合体の中で複合語を含む文書の数を割り出す工程と、
    前記文書の集合体の中で前記複合語を構成する構成単語を含む文書の数を割り出す工程とを有する複合語の構成単語を割り出すコンピュータ化された方法であって、
    前記複合語を含む文書の数と前記複合語を構成する構成単語を含む文書の数との比を求める工程と、
    前記比が閾値より小さいときに前記複合語を前記構成単語に分割する工程と、を有することを特徴とする方法。
  12. 請求項11記載のコンピュータ化された方法であって、
    前記複合語中の結合形態素を検出する工程を更に有する、ことを特徴とする方法。
  13. 請求項11記載のコンピュータ化された方法であって、
    単語リストを用いることによって前記構成単語を見つける工程を更に有する、ことを特徴とする方法。
  14. 請求項11記載のコンピュータ化された方法であって、
    単語リストから前記複合語を含む文書の数を求める工程を更に有する、ことを特徴とする方法。
  15. 請求項11記載のコンピュータ化された方法であって、
    単語リストから前記複合語を構成する構成単語を含む文書の数を求める工程を更に有する、ことを特徴とする方法。
  16. 請求項11記載のコンピュータ化された方法であって、
    オペレータによって検索を入力する工程を更に有する、ことを特徴とする方法。
  17. 請求項11記載のコンピュータ化された方法であって、
    前記閾値を前記文書の集合体に応じて選択する工程を更に有する、ことを特徴とする方法。
  18. 請求項11記載のコンピュータ化された方法であって、
    前記閾値は3である、ことを特徴とする方法。
  19. 請求項11乃至18のいずれか一項記載のコンピュータ化された方法であって、
    前記複合語及び前記構成単語は、文法上、名詞に属する、ことを特徴とする方法。
  20. 請求項19記載のコンピュータ化された方法であって、
    前記単語リストは、各単語の単数形及び複数形を含む、ことを特徴とする方法。
  21. 情報を検索するコンピュータ化された方法であって、
    単語を含む検索項目を入力する工程と、
    前記単語を請求項11乃至20のいずれか一項記載の方法に従って分割する工程と、
    構成単語を伝達する工程と、
    前記伝達された構成単語を検索項目として検索を実行する工程とを有する、ことを特徴とする方法。
  22. コンピュータ上で実行されたときに請求項11記載のすべての工程を実行するコード手段を含むことを特徴とするコンピュータ・プログラム。
JP2005095536A 2004-03-31 2005-03-29 複合語を構成する単語を割り出す装置及びコンピュータ化された方法 Expired - Fee Related JP4754247B2 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
EP04075975.5 2004-03-31
EP04075975 2004-03-31

Publications (2)

Publication Number Publication Date
JP2005293582A true JP2005293582A (ja) 2005-10-20
JP4754247B2 JP4754247B2 (ja) 2011-08-24

Family

ID=34928127

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005095536A Expired - Fee Related JP4754247B2 (ja) 2004-03-31 2005-03-29 複合語を構成する単語を割り出す装置及びコンピュータ化された方法

Country Status (3)

Country Link
US (1) US7720847B2 (ja)
JP (1) JP4754247B2 (ja)
CN (1) CN1677402A (ja)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013097395A (ja) * 2011-10-27 2013-05-20 Casio Comput Co Ltd 情報処理装置及びプログラム
JP2013519949A (ja) * 2010-02-12 2013-05-30 グーグル・インコーポレーテッド 複合語分割
JP2016031572A (ja) * 2014-07-28 2016-03-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム

Families Citing this family (35)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7680333B2 (en) * 2005-04-21 2010-03-16 Microsoft Corporation System and method for binary persistence format for a recognition result lattice
JP4720570B2 (ja) * 2006-03-27 2011-07-13 カシオ計算機株式会社 情報表示制御装置及び情報表示制御プログラム
US8086599B1 (en) 2006-10-24 2011-12-27 Google Inc. Method and apparatus for automatically identifying compunds
US8661029B1 (en) 2006-11-02 2014-02-25 Google Inc. Modifying search result ranking based on implicit user feedback
CN100498790C (zh) * 2007-02-06 2009-06-10 腾讯科技(深圳)有限公司 一种搜索方法和系统
CN101261623A (zh) * 2007-03-07 2008-09-10 国际商业机器公司 基于搜索的无词边界标记语言的分词方法以及装置
US8938463B1 (en) 2007-03-12 2015-01-20 Google Inc. Modifying search result ranking based on implicit user feedback and a model of presentation bias
US8694374B1 (en) 2007-03-14 2014-04-08 Google Inc. Detecting click spam
US9092510B1 (en) 2007-04-30 2015-07-28 Google Inc. Modifying search result ranking based on a temporal element of user feedback
US8694511B1 (en) 2007-08-20 2014-04-08 Google Inc. Modifying search result ranking based on populations
US8046355B2 (en) * 2007-09-04 2011-10-25 Google Inc. Word decompounder
US8909655B1 (en) 2007-10-11 2014-12-09 Google Inc. Time based ranking
US8396865B1 (en) 2008-12-10 2013-03-12 Google Inc. Sharing search engine relevance data between corpora
US9009146B1 (en) * 2009-04-08 2015-04-14 Google Inc. Ranking search results based on similar queries
KR20110006004A (ko) * 2009-07-13 2011-01-20 삼성전자주식회사 결합인식단위 최적화 장치 및 그 방법
US8447760B1 (en) 2009-07-20 2013-05-21 Google Inc. Generating a related set of documents for an initial set of documents
US8498974B1 (en) 2009-08-31 2013-07-30 Google Inc. Refining search results
US8972391B1 (en) 2009-10-02 2015-03-03 Google Inc. Recent interest based relevance scoring
US8874555B1 (en) 2009-11-20 2014-10-28 Google Inc. Modifying scoring data based on historical changes
US8615514B1 (en) 2010-02-03 2013-12-24 Google Inc. Evaluating website properties by partitioning user feedback
US8924379B1 (en) 2010-03-05 2014-12-30 Google Inc. Temporal-based score adjustments
US8959093B1 (en) 2010-03-15 2015-02-17 Google Inc. Ranking search results based on anchors
US9623119B1 (en) 2010-06-29 2017-04-18 Google Inc. Accentuating search results
US8832083B1 (en) 2010-07-23 2014-09-09 Google Inc. Combining user feedback
CN102479191B (zh) * 2010-11-22 2014-03-26 阿里巴巴集团控股有限公司 提供多粒度分词结果的方法及其装置
US9002867B1 (en) 2010-12-30 2015-04-07 Google Inc. Modifying ranking data based on document changes
JP5250709B1 (ja) * 2012-03-12 2013-07-31 楽天株式会社 情報処理装置、情報処理方法、情報処理装置用プログラム、および、記録媒体
CN103425691B (zh) 2012-05-22 2016-12-14 阿里巴巴集团控股有限公司 一种搜索方法和系统
US9104750B1 (en) 2012-05-22 2015-08-11 Google Inc. Using concepts as contexts for query term substitutions
US20140025368A1 (en) * 2012-07-18 2014-01-23 International Business Machines Corporation Fixing Broken Tagged Words
CN103870472B (zh) * 2012-12-11 2018-07-10 百度国际科技(深圳)有限公司 一种复合词挖掘方法及装置
US9183499B1 (en) 2013-04-19 2015-11-10 Google Inc. Evaluating quality based on neighbor features
CN104679778B (zh) * 2013-11-29 2019-03-26 腾讯科技(深圳)有限公司 一种搜索结果的生成方法及装置
US10362060B2 (en) * 2015-12-30 2019-07-23 International Business Machines Corporation Curtailing search engines from obtaining and controlling information
US10572586B2 (en) * 2018-02-27 2020-02-25 International Business Machines Corporation Technique for automatically splitting words

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6373298A (ja) * 1986-09-17 1988-04-02 富士通株式会社 文―音声変換装置に用いる複合語処理装置
JPH07262191A (ja) * 1994-03-24 1995-10-13 Sony Corp 単語分割方法、および音声合成装置
JP2001249921A (ja) * 2000-03-03 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 複合語解析方法、装置、および複合語解析プログラムを記録した記録媒体
JP2002245062A (ja) * 2001-02-14 2002-08-30 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5867812A (en) * 1992-08-14 1999-02-02 Fujitsu Limited Registration apparatus for compound-word dictionary
US5778361A (en) * 1995-09-29 1998-07-07 Microsoft Corporation Method and system for fast indexing and searching of text in compound-word languages
US6549897B1 (en) * 1998-10-09 2003-04-15 Microsoft Corporation Method and system for calculating phrase-document importance
US6396699B1 (en) * 2001-01-19 2002-05-28 Lsi Logic Corporation Heat sink with chip die EMC ground interconnect
US7610189B2 (en) * 2001-10-18 2009-10-27 Nuance Communications, Inc. Method and apparatus for efficient segmentation of compound words using probabilistic breakpoint traversal
US20040064447A1 (en) * 2002-09-27 2004-04-01 Simske Steven J. System and method for management of synonymic searching
US7426509B2 (en) * 2002-11-15 2008-09-16 Justsystems Evans Research, Inc. Method and apparatus for document filtering using ensemble filters
US7421386B2 (en) * 2003-10-23 2008-09-02 Microsoft Corporation Full-form lexicon with tagged data and methods of constructing and using the same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6373298A (ja) * 1986-09-17 1988-04-02 富士通株式会社 文―音声変換装置に用いる複合語処理装置
JPH07262191A (ja) * 1994-03-24 1995-10-13 Sony Corp 単語分割方法、および音声合成装置
JP2001249921A (ja) * 2000-03-03 2001-09-14 Nippon Telegr & Teleph Corp <Ntt> 複合語解析方法、装置、および複合語解析プログラムを記録した記録媒体
JP2002245062A (ja) * 2001-02-14 2002-08-30 Ricoh Co Ltd 文書検索装置、文書検索方法、プログラムおよび記録媒体

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2013519949A (ja) * 2010-02-12 2013-05-30 グーグル・インコーポレーテッド 複合語分割
JP2013097395A (ja) * 2011-10-27 2013-05-20 Casio Comput Co Ltd 情報処理装置及びプログラム
JP2016031572A (ja) * 2014-07-28 2016-03-07 インターナショナル・ビジネス・マシーンズ・コーポレーションInternational Business Machines Corporation 用語を適切な粒度で分割する方法、並びに、用語を適切な粒度で分割するためのコンピュータ及びそのコンピュータ・プログラム
US10198426B2 (en) 2014-07-28 2019-02-05 International Business Machines Corporation Method, system, and computer program product for dividing a term with appropriate granularity

Also Published As

Publication number Publication date
JP4754247B2 (ja) 2011-08-24
US20050222998A1 (en) 2005-10-06
CN1677402A (zh) 2005-10-05
US7720847B2 (en) 2010-05-18

Similar Documents

Publication Publication Date Title
JP4754247B2 (ja) 複合語を構成する単語を割り出す装置及びコンピュータ化された方法
KR100451978B1 (ko) 정보 검색 방법과 정보 검색 장치
CN110750704B (zh) 一种查询自动补全的方法和装置
Chaabi et al. Amazigh spell checker using Damerau-Levenshtein algorithm and N-gram
JP2007323671A (ja) 中国語テキストにおける単語分割
JP2010257488A (ja) 対話形サーチクエリー改良のためのシステム及び方法
JP2005352888A (ja) 表記揺れ対応辞書作成システム
KR100396826B1 (ko) 정보검색에서 질의어 처리를 위한 단어 클러스터 관리장치 및 그 방법
JP4426894B2 (ja) 文書検索方法、文書検索プログラムおよびこれを実行する文書検索装置
Pouliquen et al. Automatic construction of multilingual name dictionaries
JP4631795B2 (ja) 情報検索支援システム、情報検索支援方法および情報検索支援プログラム
JP5447368B2 (ja) 新規事例生成装置、新規事例生成方法及び新規事例生成用プログラム
CN112949287A (zh) 热词挖掘方法、系统、计算机设备和存储介质
JP2002032394A (ja) 関連語情報作成装置、関連語提示装置、文書検索装置、関連語情報作成方法、関連語提示方法、文書検索方法および記憶媒体
JP5491446B2 (ja) 話題語獲得装置、方法、及びプログラム
JP3937741B2 (ja) 文書の標準化
JP2009271819A (ja) 文書検索システム、文書検索方法および文書検索プログラム
JP4389102B2 (ja) 技術文献検索システム
KR20190009061A (ko) 문자 상표 검색 시스템 및 검색 서비스 제공 방법
JPH07134720A (ja) 文章作成システムにおける関連情報提示方法及び装置
JP2005158044A (ja) 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置
JP4373478B2 (ja) 文書検索装置及び文書検索方法
Kouklakis et al. Corpus Manager: A tool for multilingual corpus analysis
JP3578618B2 (ja) 文書分割装置
JPH07325837A (ja) 抽象単語による通信文検索装置及び抽象単語による通信文検索方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20080311

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100817

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20101115

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20110517

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20110525

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140603

Year of fee payment: 3

R150 Certificate of patent or registration of utility model

Free format text: JAPANESE INTERMEDIATE CODE: R150

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

LAPS Cancellation because of no payment of annual fees