JP4486324B2 - 類似単語検索装置、この方法、このプログラム、および情報検索システム - Google Patents

類似単語検索装置、この方法、このプログラム、および情報検索システム Download PDF

Info

Publication number
JP4486324B2
JP4486324B2 JP2003174812A JP2003174812A JP4486324B2 JP 4486324 B2 JP4486324 B2 JP 4486324B2 JP 2003174812 A JP2003174812 A JP 2003174812A JP 2003174812 A JP2003174812 A JP 2003174812A JP 4486324 B2 JP4486324 B2 JP 4486324B2
Authority
JP
Japan
Prior art keywords
word
search
information
similar
search request
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Expired - Lifetime
Application number
JP2003174812A
Other languages
English (en)
Other versions
JP2005011078A5 (ja
JP2005011078A (ja
Inventor
澄男 藤田
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Yahoo Japan Corp
Original Assignee
Yahoo Japan Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Yahoo Japan Corp filed Critical Yahoo Japan Corp
Priority to JP2003174812A priority Critical patent/JP4486324B2/ja
Publication of JP2005011078A publication Critical patent/JP2005011078A/ja
Publication of JP2005011078A5 publication Critical patent/JP2005011078A5/ja
Application granted granted Critical
Publication of JP4486324B2 publication Critical patent/JP4486324B2/ja
Anticipated expiration legal-status Critical
Expired - Lifetime legal-status Critical Current

Links

Images

Landscapes

  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Description

【0001】
【発明の属する技術分野】
本発明は、検索を要求する検索要求単語を取得し、検索対象となる検索対象単語集合から検索要求単語に類似した類似単語を検索する類似単語検索装置、この方法、このプログラム、および情報検索システムに関する。
【0002】
【背景技術】
近年では、英和辞書、和英辞書や百科事典等の言語情報、および、新聞、雑誌、文献、論文、公的文書、私的文書等のテキスト情報が電子化され、CD−ROM(Compact Disk-Read Only Memory)やDVD−ROM(Digital Video(またはVersatile)Disk-Read Only Memory)等の記録媒体に格納されている。そして、このような電子媒体に格納された膨大な言語情報、またはテキスト情報から検索者が要求するものを検索する技術が要求されている。
従来、このような検索装置としては、電子媒体に格納された言語情報またはテキスト情報を読み込み、形態素解析等を実施して言語情報またはテキスト情報に出現する単語を索引語とする転置索引ファイルを作成する。また、検索者が入力するキーワードや検索式等の検索条件を取得し、この取得した検索条件に対して作成した転置索引ファイルを探索する。そして、検索条件に一致する索引語に対応する言語情報またはテキスト情報を検索者に対して提示する。
【0003】
しかしながら、このような検索装置では、検索者が入力するキーワードを含む言語情報やテキスト情報を検索することができるが、キーワードに類似した言語情報やテキスト情報を検索することができない。このため、表記ゆれや誤記による検索漏れが生じてしまう。
そして、このような問題を解決する技術として、編集距離を利用して類似関係を有する情報を検索する技術が知られている(例えば、特許文献1参照)。ここで、編集距離とは、文字単位の削除、挿入、置換を編集操作として2つの文字列を同じ文字列にするためにかかる編集操作数を距離として計算した値である。
この特許文献1に記載の技術は、用例機械翻訳装置として構成されているものであり、この用例機械翻訳装置は、原言語による文が入力されると、この入力文と所定の編集距離にある類似性の高い事例のうち、所定の類似関係にある少なくとも3つの文を特定する。そして、この用例機械翻訳装置は、特定した少なくとも3つの文の対訳を参照して、入力文を目的言語文に変換する。
【0004】
【特許文献1】
特開平10−49532号公報
【0005】
【発明が解決しようとする課題】
ところで、特許文献1に記載の編集距離を利用した類似性を有する情報を検索する技術を検索装置に適用した場合には、検索を要求する検索要求単語に対して検索対象となる全ての検索対象単語に編集操作を施して編集距離を計算する必要があり、検索装置にかかる負荷が増大し、検索の高速化を図れない、という問題がある。
【0006】
本発明の目的は、検索を要求する検索要求単語に類似する類似単語を効率的に検索し、検索の高速化を図れる類似単語検索装置、この方法、このプログラム、および情報検索システムを提供することにある。
【0007】
【課題を解決するための手段】
本発明の類似単語検索装置は、検索対象となる検索対象単語集合から検索を要求する検索要求単語に類似した類似単語を編集距離に基づいて検索する類似単語検索装置であって、前記検索対象単語集合を取得する検索対象単語集合取得手段と、前記取得された検索対象単語集合から各検索対象単語の特徴となる複数の部分文字列を抽出し、前記検索対象単語集合内において前記部分文字列が出現する検索対象単語数によって重み付けし、前記検索対象単語集合に含まれる検索対象単語と前記重みとを前記部分文字列で索引付けして索引情報を作成する索引情報作成手段と、前記検索要求単語を取得する検索要求単語取得手段と、前記取得された検索要求単語から前記検索要求単語の特徴となる複数の部分文字列を抽出し、この部分文字列の前記検索要求単語内での出現数によって重み付けした部分文字列を含む検索要求単語情報を作成する検索要求単語情報作成手段と、前記索引情報に含まれる前記部分文字列の重みと、前記検索要求単語情報に含まれる前記部分文字列の重みに基づいて、前記検索要求単語に対する前記検索対象単語の類似度に関する類似度情報を算出する類似度情報算出手段と、前記算出された類似度情報に基づいて、類似単語候補として前記検索要求単語に類似する複数の類似単語を検索する類似単語検索手段と、前記類似単語検索手段にて検索された類似単語候補、および前記検索要求単語の間の編集距離に関する距離情報を算出する距離情報算出手段と、を備え、前記類似単語検索手段は、前記算出された距離情報に基づいて、前記類似単語候補から前記検索要求単語に類似する類似単語を再検索することを特徴とする。
【0008】
分文字列としては、例えば、単語を文字種の変わり目を越えないように複数の文字列に分割して抽出したもの、単語を1字ずつずらした文字の並びである複数の文字列に分割して抽出したもの等を採用できる。例えば、検索対象単語から1字ずつずらした文字の並びである複数の部分文字列を抽出する場合、この部分文字列に基づいて、検索要求単語に対して類似性を有する類似単語を検索する際に、検索漏れを減少させることができ、適切な類似単語を検索できる。
ここで、部分文字列の文字数は、特に限定されない。例えば、検索対象単語または検索要求単語を1字ずつずらした3文字の部分文字列、2文字の部分文字列、または1文字の部分文字列としてもよい。また、これら3文字の部分文字列、2文字の部分文字列、および1文字の部分文字列を全て抽出する構成としてもよい。
また、このような部分文字列を用いるので、検索対象単語を形態素解析等の分析をする必要がなく、簡単な処理で容易に検索対象単語特徴情報を抽出できる。
【0009】
本発明では、検索対象単語集合取得手段は、例えば、外部の記憶装置から検索対象単語集合を取得する。そして、索引情報作成手段は、検索対象単語集合取得手段にて取得された検索対象単語集合から各検索対象単語の特徴となる複数の部分文字列を抽出し、検索対象単語集合内においてこの部分文字列が出現する検索対象単語数を重みとする部分文字列を索引単位とし、各検索対象単語を索引語とする索引情報を作成する。また、検索要求単語取得手段は、例えば、ユーザ等により入力されたキーワード等の検索要求単語を取得する。そして、検索要求単語情報作成手段は、検索要求単語取得手段にて取得された検索要求単語から該検索要求単語の特徴となる複数の部分文字列を抽出し、この抽出した複数のこの部分文字列の前記検索要求単語内での出現数を重みとした部分文字列を含む検索要求単語情報を作成する。上記索引情報および上記検索要求単語情報が作成された後、類似度情報算出手段は、索引情報に含まれる部分文字列の重みと、検索要求単語情報に含まれる部分文字列の重みに基づいて、索要求単語に対する検索対象単語の類似度に関する類似度情報を算出する。そして、類似単語検索手段は、算出された類似度情報に基づいて、検索要求単語に類似する類似単語を検索する。このことにより、検索要求単語に対して全ての検索対象単語に編集操作を施す煩雑な処理を実施することなく、容易に検索要求単語に対して類似性を有する類似単語を検索できる。したがって、類似単語検索装置において、検索要求単語と検索対象単語との類似関係を調べる計算にかかる負荷を低減でき、類似単語の検索の効率化および高速化を図れる。
また、各部分文字列に対して重み付けを実施することで、各部分文字列の重み情報としての重要度を設定でき、この重み情報に基づいて、検索要求単語に対する検索対象単語の類似度情報を適切に算出できる。したがって、この類似度情報に基づいて、検索要求単語に類似する類似単語を検索すれば、ユーザが必要としない類似単語を検索することなく、適切な類似単語を容易に検索できる。
【0010】
また、離としては、例えば、編集距離またはリーベンシュタイン距離を採用できる。本発明では、距離情報算出手段は、類似単語検索手段にて検索された類似単語候補としての複数の類似単語と、検索要求単語との間の距離に関する距離情報を算出する。そして、類似単語検索手段は、距離情報算出手段にて算出された距離情報に基づいて、従前に検索した類似単語候補のうち、検索要求単語に類似する類似単語を再検索する。すなわち、類似度情報に基づく類似単語の検索では、計算量が少なく、大まかに類似性を有する複数の類似単語を検索する。そして、距離情報に基づく類似単語の検索では、大まかに検索された類似単語から、厳密に類似性を有する類似単語を検索する。このことにより、大まかに検索された類似単語から、計算量の多い距離情報に基づく類似単語の検索を実施することで、処理の負担を増大させることなく、効率的に適切な類似単語を検索できる。
本発明の類似単語検索装置では、前記類似度情報算出手段は、前記類似度情報を算出する際、前記検索対象単語集合に含まれる前記検索対象単語の総数に対して、前記検索要求単語情報に含まれる部分文字列と前記索引情報に含まれる部分文字列とが同一となる前記検索対象単語の数が多いほど重み付けを低くし、かつ、前記所定の文字列の前記検索対象単語内での出現数が多いほど重み付けを高くし、かつ、前記所定の文字列の前記検索要求単語内での出現数が多いほど重み付けを高くする重み度を算出し、この重み度に基づいて前記類似度情報を算出することが好ましい。
【0013】
発明の類似単語検索装置では、前記距離情報算出手段は、動的計画法を用いて前記距離情報を算出することが好ましい。
また、本発明の類似単語検索装置では、前前記距離情報は、前記検索要求単語と前記検索対象単語の各文字列の異なり度合いを、1文字毎の置換、削除および挿入の編集操作を繰り返すことによって両文字列を同一にするために必要な最小の操作回数であることが好ましい。
【0015】
本発明の類似単語検索方法は、検索対象となる検索対象単語集合から検索を要求する検索要求単語に類似した類似単語を編集距離に基づいて検索する類似単語検索方法であって、前記検索対象単語集合を取得する検索対象単語集合取得工程と、前記取得した検索対象単語集合から各検索対象単語の特徴となる複数の部分文字列を抽出し、前記検索対象単語集合内において前記部分文字列が出現する検索対象単語数を重みとし、前記検索対象単語集合に含まれる検索対象単語と前記重みとを前記部分文字列で索引付けして索引情報を作成する索引情報作成工程と、前記検索要求単語を取得する検索要求単語取得工程と、前記取得した検索要求単語から前記検索要求単語の特徴となる複数の部分文字列を抽出し、この部分文字列の前記検索要求単語内での出現数を重みとした部分文字列を含む検索要求単語情報を作成する検索要求単語情報作成工程と、前記作成した索引情報に含まれる前記部分文字列の重みと、前記作成した検索要求単語情報に含まれる前記部分文字列の重みに基づいて、前記検索要求単語に対する前記検索対象単語の類似度に関する類似度情報を算出する類似度情報算出工程と、前記算出した類似度情報に基づいて、類似単語候補として前記検索要求単語に類似する複数の類似単語を検索する類似単語検索工程と、前記類似単語検索工程にて検索した類似単語候補、および前記検索要求単語の間の編集距離に関する距離情報を算出する距離情報算出工程と、前記算出した距離情報に基づいて、前記類似単語検索工程にて検索した類似単語候補から前記検索要求単語に類似する類似単語を再検索する類似単語再検索工程と、を備えていることを特徴とする。
本発明では、類似単語検索方法は、検索対象単語集合取得工程と、索引情報作成工程と、検索要求単語取得工程と、検索要求単語情報作成工程と、類似度情報算出工程と、類似単語検索工程とを備えている。このことにより、上述した類似単語検索装置と同様の作用・効果を享受できる。
また、距離情報算出工程は、類似単語検索工程にて検索した類似単語と、検索要求単語との間の距離に関する距離情報を算出する。そして、類似単語再検索工程は、算出した距離情報に基づいて、類似単語検索工程にて検索した類似単語のうち、検索要求単語に類似する類似単語を再検索する。このことにより、上述した類似単語検索装置と同様の作用・効果を享受できる。
【0018】
本発明の類似単語検索方法では、前記類似度情報算出手段は、前記類似度情報を算出する際、前記検索対象単語集合に含まれる前記検索対象単語の総数に対して、前記検索要求単語情報に含まれる部分文字列と前記索引情報に含まれる部分文字列とが同一となる前記検索対象単語の数が多いほど重み付けを低くし、かつ、前記所定の文字列の前記検索対象単語内での出現数が多いほど重み付けを高くし、かつ、前記所定の文字列の前記検索要求単語内での出現数が多いほど重み付けを高くする重み度を算出し、この重み度に基づいて前記類似度情報を算出することが好ましい。
【0020】
本発明の類似単語検索プログラムは、上述した類似単語検索方法を演算手段に実行させることを特徴とする。
本発明では、例えば汎用のコンピュータなどを演算手段として利用しインストールする。このことにより、上述した類似単語検索方法を演算手段に実行させることができ、本発明の利用促進を大幅に図れる。
【0022】
なお、上述した演算手段は、例えば1台のパーソナルコンピュータとしたり、複数のコンピュータをネットワーク状に組み合わせた構成や、マイクロコンピュータ等のICやCPU等である素子、複数の電気部品が搭載された回路基板等も含む意味として定義される。
【0023】
本発明の情報検索システムは、検索を要求する検索要求単語を取得し、記憶装置に記憶された検索対象情報から前記検索要求単語に対応する検索対象情報を検索する情報検索システムであって、前記記憶装置に記憶された検索対象情報を読み込み、読み込んだ検索対象情報を複数の検索対象単語に分割して検索対象単語集合を生成する情報分割装置と、前記生成された検索対象単語集合から前記検索要求単語に類似した類似単語を検索する、上述した類似単語検索装置と、前記検索された類似単語に基づいて、前記類似単語に対応する検索対象情報を検索する情報検索装置とを備えていることを特徴とする。
本発明では、情報検索システムは、情報分割装置と、上述した類似単語検索装置と、情報検索装置とを備えているので、例えば、ユーザ等により入力されたキーワード等の検索要求単語に誤記等があったとしても、検索要求単語に類似する類似単語を検索し、この検索した類似単語に対応する検索対象情報を検索することで、検索要求単語に対応する検索対象情報を検索漏れなく検索できる。
【0024】
【発明の実施の形態】
以下、本発明の一実施形態を図面に基づいて説明する。
【0025】
〔情報検索システムの構成〕
図1は、本発明に係る情報検索システムの概略構成を示すブロック図である。図1において、1は情報検索システムで、この情報検索システム1は、電子化された文書等のテキスト情報から所定のキーワードに対応するテキスト情報を検索するシステムである。この情報検索システム1は、記憶装置2と、情報分割装置としての文献索引装置3と、本発明に係る類似単語検索装置を含む情報検索装置4とを備える。
【0026】
記憶装置2は、英和辞書、和英辞書、百科事典、新聞、雑誌、文献、論文、公的文書、または私的文書等の複数のテキスト情報を記憶したCD−ROM、DVD−ROM等の記録媒体で構成され、CD−ROMドライブ、DVD−ROMドライブ等を介して、複数のテキスト情報を外部に出力可能に構成されている。なお、記憶装置2としては、上述した構成に限らず、ハードディスク等の他の記録媒体に複数のテキスト情報を記憶した構成としてもよい。
【0027】
文献索引装置3は、記憶装置2に記憶された複数のテキスト情報を入力し、例えば以下に示す方法により主転置索引ファイルを作成する。
すなわち、この文献索引装置3は、入力した各テキスト情報を予め定めた複数の文からなる文単位に区切る。また、この文献索引装置3は、これら各文単位を形態素解析、構文解析等の解析処理を実施して、各文単位からさらに小さい索引語を抽出する。そして、この文献索引装置3は、これら索引語と複数のテキスト情報との関係を規定して、索引単位を索引語とし、索引先をテキスト情報とする主転置索引ファイルを作成する。また、文献索引装置3は、索引語をリストアップした検索対象単語集合としての主索引語リストを作成する。
【0028】
情報検索装置4は、CPU(Central Processing Unit)およびハードディスクを備えたコンピュータで構成され、種々のプログラムを実行する。具体的に、この情報検索装置4は、文献索引装置3にて作成された主転置索引ファイルを利用して、利用者が検索を要求するキーワードに対応するテキスト情報を検索し、検索したテキスト情報を利用者に対して報知する。この情報検索装置4は、図1に示すように、入力操作部41と、表示部42と、制御部43とを備える。
【0029】
入力操作部41は、例えば、キーボードおよびマウス等で入力操作される図示しない各種操作ボタンを有している。この操作ボタン等の入力操作を実施することにより、入力操作部41から適宜所定の操作信号が制御部43に出力され、制御部43を適宜動作させる。例えば、操作ボタン等を利用して、検索を要求する検索要求単語としてのキーワードを含む検索条件を入力することで、制御部43によるテキスト情報の検索が実施される。また、操作ボタン等を利用して、表示部42に表示される情報に対して、制御部43の動作内容の設定等が実施される。
なお、この入力操作部41としては、操作ボタンの入力操作に限らず、例えば、タッチパネルによる入力操作や、音声による入力操作等により、各種条件を設定入力する構成としてもできる。
【0030】
表示部42は、制御部43に制御され、所定の情報を表示する。例えば、制御部43にて検索されたキーワードに類似する類似単語としての類似キーワード、または、制御部43にて検索された類似キーワードに対応するテキスト情報を適宜表示させる。この表示部42は、例えば、液晶や有機EL(electroluminescence)、PDP(Plasma Display Panel)、CRT(Cathode-Ray Tube)等が用いられる。
【0031】
制御部43は、CPUを制御するOS(Operating System)上に展開されるプログラムとして構成され、操作部41からの操作信号の入力に応じて、所定のプログラムを実行し、キーワードに類似する類似キーワード検索、および類似キーワードに対応するテキスト情報検索を実施する。この制御部43は、図1に示すように、類似単語検索装置としての類似単語検索部431と、情報検索部432と、メモリ433とを備える。
【0032】
類似単語検索部431は、検索対象となる主索引語リストから検索を要求するキーワードに類似した類似キーワードを検索する。この類似単語検索部431は、図1に示すように、検索対象単語集合取得手段431Aと、索引情報作成手段431Bと、検索要求単語取得手段431Cと、検索要求単語情報作成手段431Dと、類似度情報算出手段431Eと、距離情報算出手段431Fと、類似単語検索手段431Gとを備える。
【0033】
検索対象単語集合取得手段431Aは、文献索引装置3にて作成された主索引語リストから索引語を順次入力する。
索引情報作成手段431Bは、検索対象単語集合取得手段431Aにて順次入力された索引語から各索引語を1字ずつずらした文字の並びである検索対象単語特徴情報としての複数の部分文字列を抽出し、この抽出した部分文字列を索引単位とするとともに、索引先を索引語とする類似キーワード検索用のサブ転置索引ファイルを作成する。
また、索引情報作成手段431Bは、抽出した各部分文字列に出現頻度に応じた重み付けを実施してサブ索引語リストを作成する。
そして、索引情報作成手段431Bは、これら作成したサブ転置索引ファイルおよびサブ索引語リストをメモリ433に格納する。
なお、本発明に係る索引情報は、上述したサブ転置索引ファイルおよびサブ索引語リストに相当する。
【0034】
検索要求単語取得手段431Cは、入力操作部41から出力される操作信号を入力し、この操作信号から利用者が検索を要求するキーワードを取得する。
検索要求単語情報作成手段431Dは、索引情報作成手段431Bと略同様に、検索要求単語取得手段431Cにて取得したキーワードから1字ずつずらした文字の並びである検索要求単語特徴情報としての複数の部分文字列を抽出する。
また、検索要求単語情報作成手段431Dは、抽出した各部分文字列に出現頻度に応じた重み付けを実施して検索要求単語情報としてのキーワードデータを作成する。
そして、検索要求単語情報作成手段431Dは、作成したキーワードデータをメモリ433に格納する。
【0035】
類似度情報算出手段431Eは、メモリ433に格納されたサブ索引語リスト、およびキーワードデータを読み込み、サブ索引語リストおよびキーワードデータに含まれる各部分文字列に付与された重みに基づいて、サブ索引語リストに含まれる各部分文字列のうち、キーワードデータに含まれる各部分文字列に一致する部分文字列の重み情報としての重み度を計算する。
また、類似度情報算出手段431Eは、メモリ433に格納されたサブ転置索引ファイルおよびサブ索引語リストに基づいて、索引語に含まれる各部分文字列の重み度を加算することで、キーワードに対する各索引語の類似度に関する類似度情報としてのスコアを計算する。類似度情報算出手段431Eは、重み度およびスコアを計算する際、適宜メモリ433に計算値を格納する。
【0036】
距離情報算出手段431Fは、後述する類似単語検索手段431Gにて検索された類似キーワード候補と、キーワードとの間における距離情報としての編集距離またはリーベンシュタイン距離を算出する。
【0037】
類似単語検索手段431Gは、類似度情報算出手段431Eにて算出した各索引語のスコアに基づいて、スコアの高い、すなわちキーワードに対して類似性の高い複数の索引語を類似キーワード候補として抽出する。
また、類似単語検索手段431Gは、距離情報算出手段431Fにて算出された編集距離またはリーベンシュタイン距離に基づいて、抽出した類似キーワード候補のうち、編集距離またはリーベンシュタイン距離の小さい、すなわち、キーワードに対して類似性の高い索引語を再検索し、再検索した索引語を類似キーワードとして抽出する。
【0038】
すなわち、類似単語検索手段431Gは、初めの検索において、キーワードに対して類似性を有する類似キーワード候補を大まかに検索した後、類似キーワード候補から、キーワードに対して極めて類似性の高い類似キーワードを再検索している。
そして、類似単語検索手段431Gは、再検索を実施した後、検索した類似キーワードを情報検索部432に出力する。
なお、類似単語検索手段431Gにて再検索を実施した後、検索結果として検索した類似キーワードを表示部42に表示して利用者に認識させる構成としてもよい。
【0039】
情報検索部432は、類似単語検索手段431Gにて検索された類似キーワードを入力し、文献索引装置3にて作成された主転置索引ファイルおよび主索引語リストを利用して、類似キーワードに一致する索引語を検索し、検索した索引語に対応するテキスト情報を表示部42に表示させる。
【0040】
メモリ433は、類似キーワードを検索するための類似単語検索プログラム、およびテキスト情報を検索するための所定のプログラムを格納するとともに、上述したサブ転置索引ファイル、索引リスト、キーワードデータ、重み度およびスコアの計算値を格納する。このメモリ433としては、例えば、ハードディスク等で構成できる。
【0041】
〔情報検索方法〕
図2および図3は、情報検索システム1における情報検索方法を示すフローチャートである。以下に、情報検索システム1における情報検索方法を図1ないし図3を参照して説明する。
【0042】
先ず、図1および図2を参照して、記憶装置2に記憶されたテキスト情報の処理動作を説明する。
文献索引装置3は、記憶装置2に記憶された複数のテキスト情報を入力し、主転置索引ファイルおよび主索引語リストを作成する(ステップS1)。
ステップS1の後、情報検索装置4における検索対象単語集合取得手段431Aは、文献索引装置3にて作成された主索引語リストから索引語を順次入力する(ステップS2:検索対象単語集合取得工程)。
具体的に、このステップS2において、検索対象単語集合取得手段431Aにて入力する主索引語リストの一部を以下の表1に示す。
【0043】
【表1】
Figure 0004486324
【0044】
索引情報作成手段431Bは、ステップS2において、検索対象単語集合取得手段431Aが入力した索引語から索引情報を作成する(ステップS3:索引情報作成工程)。
具体的に、索引情報作成手段431Bは、ステップS2において入力した索引語から各索引語を1字ずつずらした文字の並びである複数の部分文字列に分割する(ステップS31)。このステップS31では、以下の表2に示すように、3文字、2文字、1文字の部分文字列に分割される。
【0045】
【表2】
Figure 0004486324
【0046】
ステップS31の後、索引情報作成手段431Bは、分割した各部分文字列を索引単位とし、索引先を索引語とするサブ転置索引ファイルを作成する(ステップS32)。なお、このようなサブ転置索引ファイルとしては、例えば、公知のB-TreeやTrieのデータ構造を採用できる。
【0047】
また、索引情報作成手段431Bは、分割した各部分文字列に出現頻度に応じた重み付けを実施してサブ索引語リストを作成する(ステップS33)。
具体的に、サブ索引語リストは、例えば、部分文字列、部分文字列に付与された重み(出現する索引語数、索引語内出現数)、および索引語ID等で構成される。このうち、索引語IDは、部分文字列に対する索引語を規定するためのIDナンバである。
ステップS32およびS33において、作成したサブ転置索引ファイルおよびサブ索引語リストをメモリ433に格納する(ステップS34)。
【0048】
次に、図1および図3を参照して、検索を要求するキーワードに対応するテキスト情報を検索する検索動作を説明する。
利用者が入力操作部41を操作することで、検索を要求するキーワードを入力し、入力操作部41から出力されるキーワードに基づく操作信号を検索要求単語取得手段431Cが取得する(ステップS4:検索要求単語取得工程)。
【0049】
検索要求単語情報作成手段431Dは、ステップS4において、検索要求単語取得手段431Cが入力したキーワードからキーワードデータを作成する(ステップS5:検索要求単語情報作成工程)。
具体的に、検索要求単語情報作成手段431Dは、ステップS31と同様に、ステップS4において入力したキーワードから1字ずつずらした文字の並びである複数の部分文字列に分割する(ステップS51)。なお、このステップS51では、検索要求単語情報作成手段431Dは、ステップS31と同様に、3文字、2文字、1文字の文字数の部分文字列に分割する。
【0050】
ステップS51の後、検索要求単語情報作成手段431Dは、分割した各部分文字列に出現頻度に応じた重み付けを実施してキーワードデータを作成する(ステップS52)。
具体的に、キーワードデータは、例えば、部分文字列、部分文字列の重み(この部分文字列におけるキーワード内出現数)等で構成される。
ステップS52において、作成したキーワードデータをメモリ433に格納する(ステップS53)。
【0051】
なお、上述したテキスト情報の処理動作S1〜S3の処理は、検索要求単語取得工程S4の前に予め実施しておく構成としてもよいし、検索要求単語取得工程S4におけるキーワードの入力をトリガとして、実施する構成としてもよい。
【0052】
そして、類似度情報算出手段431Eは、メモリ433に格納された情報のうち、ステップS33およびステップS53にて格納されたサブ転置索引ファイル、サブ索引語リスト、およびキーワードデータを読み込み、入力したキーワードに対する各索引語の類似度に関するスコアを計算する(ステップS6:類似度情報算出工程)。
具体的に、先ず、類似度情報算出手段431Eは、サブ索引語リストおよびキーワードデータに基づいて、サブ索引語リストに含まれる各部分文字列のうち、キーワードデータに含まれる各部分文字列に一致する部分文字列の重み度を計算する(ステップS61)。
ここで、キーワードデータに含まれる各部分文字列をq1,....qnとし、サブ索引語リストに含まれる各部分文字列をd1,....dmとすると、重み度W(qi,dj,q,d)は、qi=djについて、以下の数1により計算される。そして、計算した重み度W(qi,dj,q,d)をメモリ433に適宜格納する。
【0053】
【数1】
Figure 0004486324
【0054】
また、類似度情報算出手段431Eは、ステップS61にて計算した重み度に基づいて、各索引語のスコアを計算する(ステップS62)。ここで、スコアS(q,d)は、以下の数2により計算される。
【0055】
【数2】
Figure 0004486324
【0056】
数2に示すように、各索引語のスコアSは、各索引語の各部分文字列の重み度Wを加算することで得られるが、このような計算を高速にかつ、多数の索引語に対して実施するために、以下のような加算方法を実施する。
【0057】
すなわち、ステップS61およびS62において、サブ転置索引ファイルに含まれる索引語In(In1,....InN)のうち、所定の索引語In1を特定する。そして、所定の索引語In1を構成する部分文字列d1,....dlのうち、キーワードデータに含まれる部分文字列q1と一致する部分文字列d1,....dlの重み度W(q1,In1)を計算し、メモリ433における索引語毎のスコアSの記憶領域S(In1)番地に加算する。また、キーワードデータに含まれる部分文字列q2〜qnに対しても、上述した処理を繰り返し実施し、記憶領域S(In1)番地に加算する。
さらに、サブ転置索引ファイルに含まれる索引語のうち、他の索引語In2〜InNにおいても、重み度W(qi,Ini)を順次計算し、メモリ433における索引語毎のスコアSの記憶領域S(In2)番地〜S(InN)番地に加算する。
そして、このような加算方法により、すべての索引語のスコアSが得られる。
【0058】
ステップS6の後、類似単語検索手段431Gは、メモリ433に記憶されたスコアSを読み込み、読み込んだスコアSのうち、スコアSの高い数十件の索引語を抽出する。すなわち、類似単語検索手段431Gは、スコアSの値に基づいて、キーワードに対して類似性の高い数十件の索引語を類似キーワード候補として抽出する(ステップS7:類似単語検索工程)。
【0059】
距離情報算出手段431Fは、ステップS7において抽出された各類似キーワード候補と、キーワードとの間における編集距離を算出する(ステップS8:距離情報算出工程)。なお、編集距離とは、2つの文字列の異なり度合いを、1文字毎の操作(置換・削除・挿入)を繰り返すことによって、両文字列を同一にするために必要な最小操作数である。
【0060】
具体的に、距離情報算出手段431Fは、キーワードと類似キーワード候補との編集距離を、以下に示す動的計画法を用いて算出する。なお、以下では、x1,....xnの文字の集合であるキーワードをXとし、y1,....ynの文字の集合である類似キーワード候補をYとする。また、X[i]=xi,Y[j]=yjである。
【0061】
先ず、距離情報算出手段431Fは、キーワードXの文字数、およびステップS7において抽出された類似キーワード候補Yの文字数を特定し、それぞれ、n,mとして設定する(ステップS81)。
ステップS81の後、距離情報算出手段431Fは、キーワードXと類似キーワード候補Yとの編集距離Dist(X,Y)を計算するために、x1,....xiと、y1,....yjとの距離を距離行列D[i,j]と定義する(ステップS82)。
【0062】
ステップS82の後、距離情報算出手段431Fは、距離行列D[i,j]において、以下の数3に示すように、iおよび/またはjが0の場合に関しての距離を設定する(ステップS83)。
【0063】
【数3】
Figure 0004486324
【0064】
数3の解釈は、以下の通りである。
先ず、編集距離の計算として、挿入および削除の操作数を1とし、置換の操作数を、同一文字には0、異なる文字には1としている。
距離行列D[0,0]は、空文字列と空文字列との距離であり、編集距離の計算として、D[0,0]=0と設定できる。
また、距離行列D[i,0]は、x1,....xiと、y1の前の空文字列とを一致させる操作を示し、この操作では、x1,....xiを削除する操作であるので、編集距離の計算として、D[i,0]=iと設定できる。
さらに、距離行列D[0,j]は、x1の前の空文字列とy1,....yjとを一致させる操作を示し、この操作では、y1,....yjをx1の前に挿入する操作であり、編集距離の計算として、D[0,j]=jと設定できる。
【0065】
ステップS83の後、距離情報算出手段431Fは、以下の数4および数5により、iが1からnまで、およびjが1からmまでの距離行列D[i,j]を計算する(ステップS84)。
【0066】
【数4】
Figure 0004486324
【0067】
【数5】
Figure 0004486324
【0068】
数4の解釈は、以下の通りである。
距離行列D[i,j]を計算する際に、x1,....xi-1と、y1,....yjとの距離行列D[i-1,j]の計算、x1,....xiと、y1,....yj-1との距離行列D[i,j-1]の計算、およびx1,....xi-1と、y1,....yj-1との距離行列D[i-1,j-1]の計算が済んでいるとする。この先、距離計算を続けていくとして、xiとyjについて可能な操作は、以下のような3つの操作のみである。
【0069】
すなわち、1つ目の可能な操作として、x1,....xi-1と、y1,....yjとの距離行列D[i-1,j]の計算から、x1,....xiと、y1,....yjとの距離行列D[i,j]の計算を続ける場合には、xiを削除する操作となる。したがって、1つ目の距離行列D[i,j]の計算として、D[i-1,j]+1が挙げられる。
また、2つ目の可能な操作として、x1,....xiと、y1,....yj-1との距離行列D[i,j-1]の計算から、x1,....xiと、y1,....yjとの距離行列D[i,j]の計算を続ける場合には、yjをxiの後に挿入する操作となる。したがって、2つ目の距離行列D[i,j]の計算として、D[i,j-1]+1が挙げられる。
【0070】
さらに、3つ目の可能な操作として、x1,....xi-1と、y1,....yj-1との距離行列D[i-1,j-1]の計算から、x1,....xiと、y1,....yjとの距離行列D[i,j]の計算を続ける場合には、xiとyjとを置換する操作となる。したがって、3つ目の距離行列D[i,j]の計算として、D[i-1,j-1]+costが挙げられる。ここで、costは、xiとyjとを置換する操作数を示し、数5に示すように、X[i]とY[j]とが同一か否か、すなわち、xiとyjとが同一か否かに応じて設定される。
そして、距離行列D[i,j]を求めるために、これら3つの可能な操作の中で、計算値が最小となる操作を選択する。
【0071】
距離情報算出手段431Fは、ステップS84において、計算した距離行列D[i,j]のうち、距離行列D[n,m]をキーワードXと類似キーワード候補Yとの編集距離Dist(X,Y)として算出する(ステップS85)。
そして、上述したステップS81ないしS85の処理を、ステップS7において抽出された全ての類似キーワード候補に対して実施し、キーワードに対する全ての類似キーワード候補の編集距離Distを算出する(ステップS86)。この算出した各編集距離Distをメモリ433に記憶させる。
【0072】
ステップS8の後、類似単語検索手段431Gは、メモリ433に記憶された編集距離Distを読み込み、ステップS7において抽出された全ての類似キーワード候補のうち、編集距離Distの小さい類似キーワード候補を再検索し、この類似キーワード候補を類似キーワードとして抽出する(ステップS9:類似単語再検索工程)。
【0073】
情報検索部432は、ステップS9において抽出された類似キーワードを入力し、ステップS1において文献索引装置3にて作成された主転置索引ファイルおよび主索引語リストを利用して、類似キーワードに一致する索引語を検索し、検索した索引語に対応するテキスト情報を表示部42に表示させる(ステップS10)。
以上の処理により、ユーザは、入力されたキーワードに対応するテキスト情報を表示部42から認識する。
【0074】
〔実施形態の効果〕
上述した実施の形態によれば、以下の効果がある。
(1)情報検索装置4の類似単語検索部431は、索引情報作成手段431Bが索引語から抽出した複数の部分文字列、および、検索要求単語情報作成手段431Dがキーワードから抽出した複数の部分文字列に基づいて、キーワードに対して類似性を有する類似キーワード候補を検索する。このことにより、キーワードに対して全ての索引語に編集操作を施して編集距離を算出し、この算出した編集距離に基づいて類似キーワード候補を検索する構成に比較して、キーワードと索引語との類似関係を調べる計算の負荷を低減でき、類似キーワード候補の検索の高速化を図れる。
【0075】
(2)索引情報作成手段431Bおよび検索要求単語情報作成手段431Dは、部分文字列を抽出する際、索引語およびキーワードから1字ずつずらした文字の並びである複数の部分文字列を抽出するので、これら部分文字列に基づいてキーワードに対して類似性を有する類似キーワード候補を検索する際に、検索漏れを減少させることができ、適切な類似キーワード候補を検索できる。
(3)キーワードおよび索引語の特徴となる情報を、キーワードおよび索引語を構成する複数の部分文字列としているので、キーワードおよび索引語を形態素解析等の分析を実施する必要がなく、簡単な処理で容易にキーワードおよび索引語の特徴となる情報を抽出できる。
【0076】
(4)索引情報作成手段431Bは、索引語を構成する各部分文字列に対して、出現頻度に応じた重み付けを実施して、部分文字列が出現する索引語数および部分文字列が索引語内に出現する数等の重みを含むサブ索引語リストを作成する。また、検索要求単語情報作成手段431Dは、キーワードを構成する各部分文字列に対して、出現頻度に応じた重み付けを実施して、部分文字列がキーワード内に出現する数等の重みを含むキーワードデータを作成する。このため、類似度情報算出手段431Eは、キーワードデータおよびサブ索引語リストに含まれる重みに基づいて、サブ索引語リストに含まれる各部分文字列のうち、キーワードデータに含まれる各部分文字列に一致する部分文字列の重み度Wを計算できる。また、類似度情報算出手段431Eは、索引語に含まれる各部分文字列の重み度Wを加算することで、キーワードに対する索引語のスコアSを適切に計算できる。したがって、このスコアSに基づいて、キーワードに対する類似キーワード候補を検索することで、ユーザが必要としない類似キーワード候補を検索することなく、適切な類似キーワード候補を容易に検索できる。
【0077】
(5)類似度情報算出手段431Eは、スコアSを計算する際に、メモリ433内に索引語毎のスコアSの記憶領域を区画し、所定の索引語を構成する各部分文字列の重み度Wを順次計算して、所定の索引語に対応する記憶領域に順次加算していくので、スコアSの計算を迅速に実施できる。したがって、類似キーワード候補の検索の高速化を図れる。
【0078】
(6)類似単語検索部431は、距離情報算出手段431Fを備え、この距離情報算出手段431Fは、類似単語検索手段431Gにて検索された類似キーワード候補と、キーワードとの間の編集距離Distを算出する。そして、類似単語検索手段431Gは、算出された編集距離Distに基づいて、従前に検索した類似キーワード候補のうち、キーワードに類似する類似キーワードを再検索する。すなわち、類似単語検索部431は、スコアSに基づく類似キーワード候補の検索において、計算量が少なく、キーワードに対して類似性を有する索引語を大まかに検索する。そして、類似単語検索部431は、編集距離Distに基づく類似キーワードの再検索において、大まかに検索された索引語の集合である類似キーワード候補から、厳密に類似性を有する索引語を類似キーワードとして検索する。このことにより、大まかに検索された索引語から、計算量の多い編集距離Distに基づく索引語の再検索を実施することで、処理の負担を増大させることなく、効率的に適切な類似キーワードを検索できる。
【0079】
(7)距離情報算出手段431Fは、キーワードと、類似キーワード候補との間の編集距離Distを計算する際に、動的計画法を用いて実施しているので、編集距離Distの計算を迅速に実施できる。したがって、類似キーワードの検索の高速化を図れる。
(8)情報検索システム1は、記憶装置2と、文献索引装置3と、類似検索装置としての類似単語検索部431を含む情報検索装置4とを備えているので、ユーザにより入力されたキーワードに誤記等があったとしても、キーワードに類似する類似キーワードを検索し、この検索した類似キーワードに対応するテキスト情報を検索することで、キーワードに対応するテキスト情報を検索漏れなく検索できる。
【0080】
〔実施形態の変形〕
以上、本発明について好適な実施形態を挙げて説明したが、本発明は、上述した実施形態に限定されるものではなく、本発明の要旨を逸脱しない範囲において種々の改良並びに設計の変更が可能である。
【0081】
前記実施形態では、検索対象単語特徴情報は索引語を構成する各部分文字列の集合であり、検索要求単語特徴情報はキーワードを構成する各部分文字列の集合である構成を説明したが、これに限らない。検索対象単語特徴情報および検索要求単語特徴情報は、索引語およびキーワードの特徴を表していればよく、例えば、索引語およびキーワードの文字数、索引語およびキーワードの品詞に関する情報、索引語およびキーワードの言語に関する情報、索引語およびキーワードにひらがな、カタカナ、英字、数字、漢字等が含まれるか否かに関する情報、各単語を構成する複数の部分バイト列、各単語を構成する複数の特徴文字列等を検索対象単語特徴情報および検索要求単語特徴情報として採用してもよい。
なお、部分バイト列としては、例えば、1つの文字単位が記憶領域上に要する領域長を考慮しないで、記憶領域上の固定長単位で分割して抽出したもの等を採用できる。
【0082】
また、特徴文字列としては、以下のように抽出された文字列を採用できる。
例えば、索引語またはキーワードが「アセトアルデイド」という単語であるとする。また、予め辞書等の記憶手段に複数の文字列を記憶させておく。例えば、記憶手段に記憶された文字列のうち、索引語またはキーワードを構成する部分文字列に相当する文字列が「アセト、アルデ、セト」である場合には、これら「アセト、アルデ、セト」を特徴文字列として抽出する。また、索引語またはキーワードを構成する文字列のうち、上記特徴文字列として抽出された文字列以外の文字列である「イド、イ、ド」も特徴文字列として抽出する。すなわち、「アセトアルデイド」の特徴文字列としては、「アセト、アルデ、セト、イド、イ、ド」が抽出される。
【0083】
前記実施形態では、類似単語検索部431は、距離情報算出手段431Fを備える構成であったが、これに限らず、距離情報算出手段431Fを省略する構成としてもよい。すなわち、類似単語検索手段431Gは、類似度情報算出手段431Eにて算出したスコアSに基づいて、キーワードに対して類似性を有する類似キーワードを検索する。このような構成では、類似キーワードの検索のさらなる高速化を図れる。
【0084】
前記実施形態では、索引語およびキーワードを構成する部分文字列は、3文字の部分文字列、2文字の部分文字列、および1文字の部分文字列で構成されていたが、これに限らず、3文字の部分文字列のみ、2文字の部分文字列のみ、または、1文字の部分文字列のみで構成してもよい。また、部分文字列の文字数は、3文字、2文字、1文字に限定されず、4文字以上であっても構わない。
また、部分文字列は、索引語およびキーワードを1字ずつずらした文字の並びである複数の文字列に分割して抽出されたものであるが、これに限らず、単語を文字種の変わり目を越えないように複数の文字列に分割して抽出されたものとしてもよい。
【0085】
前記実施形態において、重み度Wの計算方法、およびスコアSの計算方法は、実施形態で説明した方法である数1および数2に限らず、その他の計算式にて計算する方法を採用してもよい。
【0086】
前記実施形態では、類似単語検索装置としての類似単語検索部431は、情報検索装置4に含まれる構成を説明したが、これに限らず、別体として構成してもよい。また、文献等のテキスト情報は、DVD−ROM、CD−ROM等の記録媒体に記録された構成を説明したが、これに限らない。例えば、このテキスト情報が外部のサーバ等の記憶装置2に保存され、記憶装置2と文献索引装置3とがネットワークで接続される構成を採用してもよい。また、外部のサーバ等に、記憶装置2、文献索引装置3、および、類似単語検索部431および情報検索部432の情報検索機能を持たせ、ネットワークにより外部のサーバ等に情報検索を実施するように構成してもよい。
【0087】
前記実施形態における制御部43内の各手段等は、各種論理素子等のハードウェアで構成されたものや、CPU、メモリ等を備えたコンピュータを情報検索装置4内に設け、このコンピュータに所定のプログラムやデータを組み込んで、類似キーワードおよびテキスト情報等の検索動作を制御するように構成したものでもよい。
ここで、前記プログラムやデータは、情報検索装置4内に組み込まれたRAMやROM等のメモリに予め記憶しておけばよい。また、例えば、情報検索装置4内のメモリに所定の制御プログラムやデータをインターネット等の通信手段や、CD−ROM、メモリカード等の記録媒体を介してインストールしてもよい。そして、このインストールされたプログラムでCPU等を動作させて、類似キーワードおよびテキスト情報等の検索における動作制御を実現させればよい。
【0088】
なお、情報検索装置4内に所定のプログラムをインストールするには、情報検索装置4にメモリカードやCD−ROM等の記憶媒体を読み取る機器を外付けで情報検索装置4に接続してもよい。さらには、LANケーブル、電話線等を情報検索装置4に接続して通信によってプログラムを供給しインストールしてもいし、無線によってプログラムを供給してインストールしてもよい。
このような記録媒体やインターネット等の通信手段で提供される本発明の制御プログラムを情報検索装置4に組み込めば、類似キーワードおよびテキスト情報の検索制御を正確に実施することができる。
【0089】
【発明の効果】
上述のように本発明によれば、検索を要求する検索要求単語に類似する類似単語を効率的に検索し、検索の高速化を図れる。
【図面の簡単な説明】
【図1】本実施形態における情報検索システムの概略構成を示すブロック図である。
【図2】前記実施形態における情報検索システム1の情報検索方法を示すフローチャートである。
【図3】前記実施形態における情報検索システム1の情報検索方法を示すフローチャートである。
【符号の説明】
1 情報検索システム
2 記憶装置
3 情報分割装置としての文献索引装置
4 情報検索装置
431 類似単語検索装置としての類似単語検索部
431A 検索対象単語集合取得手段
431B 索引情報作成手段
431C 検索要求単語取得手段
431D 検索要求単語情報作成手段
431E 類似度情報算出手段
431F 距離情報算出手段
431G 類似単語検索手段
Dist 距離情報としての編集距離
S 類似度情報としてのスコア
W 重み情報としての重み度
S2 検索対象単語集合取得工程
S3 索引情報作成工程
S4 検索要求単語取得工程
S5 検索要求単語情報作成工程
S6 類似度情報算出工程
S7 類似単語検索工程
S8 距離情報算出工程
S9 類似単語再検索工程

Claims (8)

  1. 検索対象となる検索対象単語集合から検索を要求する検索要求単語に類似した類似単語を編集距離に基づいて検索する類似単語検索装置であって、
    前記検索対象単語集合を取得する検索対象単語集合取得手段と、
    前記取得された検索対象単語集合から各検索対象単語の特徴となる複数の部分文字列を抽出し、前記検索対象単語集合内において前記部分文字列が出現する検索対象単語数によって重み付けし、前記検索対象単語集合に含まれる検索対象単語と前記重みとを前記部分文字列で索引付けして索引情報を作成する索引情報作成手段と、
    前記検索要求単語を取得する検索要求単語取得手段と、
    前記取得された検索要求単語から前記検索要求単語の特徴となる複数の部分文字列を抽出し、この部分文字列の前記検索要求単語内での出現数によって重み付けした部分文字列を含む検索要求単語情報を作成する検索要求単語情報作成手段と、
    前記索引情報に含まれる前記部分文字列の重みと、前記検索要求単語情報に含まれる前記部分文字列の重みに基づいて、前記検索要求単語に対する前記検索対象単語の類似度に関する類似度情報を算出する類似度情報算出手段と、
    前記算出された類似度情報に基づいて、類似単語候補として前記検索要求単語に類似する複数の類似単語を検索する類似単語検索手段と、
    前記類似単語検索手段にて検索された類似単語候補、および前記検索要求単語の間の編集距離に関する距離情報を算出する距離情報算出手段と、を備え、
    前記類似単語検索手段は、前記算出された距離情報に基づいて、前記類似単語候補から前記検索要求単語に類似する類似単語を再検索することを特徴とする類似単語検索装置。
  2. 請求項1に記載の類似単語検索装置において、
    前記類似度情報算出手段は、前記類似度情報を算出する際、前記検索対象単語集合に含まれる前記検索対象単語の総数に対して、前記検索要求単語情報に含まれる部分文字列と前記索引情報に含まれる部分文字列とが同一となる前記検索対象単語の数が多いほど重み付けを低くし、かつ、前記所定の文字列の前記検索対象単語内での出現数が多いほど重み付けを高くし、かつ、前記所定の文字列の前記検索要求単語内での出現数が多いほど重み付けを高くする重み度を算出し、この重み度に基づいて前記類似度情報を算出することを特徴とする類似単語検索装置。
  3. 請求項1または請求項2に記載の類似単語検索装置において、
    前記距離情報算出手段は、動的計画法を用いて前記距離情報を算出することを特徴とする類似単語検索装置。
  4. 請求項1ないし請求項のいずれかに記載の類似単語検索装置において、
    前記距離情報は、前記検索要求単語と前記検索対象単語の各文字列の異なり度合いを、1文字毎の置換、削除および挿入の編集操作を繰り返すことによって両文字列を同一にするために必要な最小の操作回数であることを特徴とする類似単語検索装置。
  5. 検索対象となる検索対象単語集合から検索を要求する検索要求単語に類似した類似単語を編集距離に基づいて検索する類似単語検索方法であって、
    前記検索対象単語集合を取得する検索対象単語集合取得工程と、
    前記取得した検索対象単語集合から各検索対象単語の特徴となる複数の部分文字列を抽出し、前記検索対象単語集合内において前記部分文字列が出現する検索対象単語数を重みとし、前記検索対象単語集合に含まれる検索対象単語と前記重みとを前記部分文字列で索引付けして索引情報を作成する索引情報作成工程と、
    前記検索要求単語を取得する検索要求単語取得工程と、
    前記取得した検索要求単語から前記検索要求単語の特徴となる複数の部分文字列を抽出し、この部分文字列の前記検索要求単語内での出現数を重みとした部分文字列を含む検索要求単語情報を作成する検索要求単語情報作成工程と、
    前記作成した索引情報に含まれる前記部分文字列の重みと、前記作成した検索要求単語情報に含まれる前記部分文字列の重みに基づいて、前記検索要求単語に対する前記検索対象単語の類似度に関する類似度情報を算出する類似度情報算出工程と、
    前記算出した類似度情報に基づいて、類似単語候補として前記検索要求単語に類似する複数の類似単語を検索する類似単語検索工程と、
    前記類似単語検索工程にて検索した類似単語候補、および前記検索要求単語の間の編集距離に関する距離情報を算出する距離情報算出工程と、
    前記算出した距離情報に基づいて、前記類似単語検索工程にて検索した類似単語候補から前記検索要求単語に類似する類似単語を再検索する類似単語再検索工程と、を備えていることを特徴とする類似単語検索方法。
  6. 請求項5に記載の類似単語検索方法において、
    前記類似度情報算出工程は、前記類似度情報を算出する際、前記検索対象単語集合に含まれる前記検索対象単語の総数に対して、前記検索要求単語情報に含まれる部分文字列と前記索引情報に含まれる部分文字列とが同一となる前記検索対象単語の数が多いほど重み付けを低くし、かつ、前記所定の文字列の前記検索対象単語内での出現数が多いほど重み付けを高くし、かつ、前記所定の文字列の前記検索要求単語内での出現数が多いほど重み付けを高くする重み度を算出し、この重み度に基づいて前記類似度情報を算出することを特徴とする類似単語検索方法。
  7. 請求項5または請求項6に記載の類似単語検索方法を演算手段に実行させることを特徴とする類似単語検索プログラム。
  8. 検索を要求する検索要求単語を取得し、記憶装置に記憶された検索対象情報から前記検索要求単語に対応する検索対象情報を検索する情報検索システムであって、
    前記記憶装置に記憶された検索対象情報を読み込み、読み込んだ検索対象情報を複数の検索対象単語に分割して検索対象単語集合を生成する情報分割装置と、
    前記生成された検索対象単語集合から前記検索要求単語に類似した類似単語を検索する、請求項1ないし請求項のいずれかに記載の類似単語検索装置と、
    前記検索された類似単語に基づいて、前記類似単語に対応する検索対象情報を検索する情報検索装置と、を備えていることを特徴とする情報検索システム。
JP2003174812A 2003-06-19 2003-06-19 類似単語検索装置、この方法、このプログラム、および情報検索システム Expired - Lifetime JP4486324B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2003174812A JP4486324B2 (ja) 2003-06-19 2003-06-19 類似単語検索装置、この方法、このプログラム、および情報検索システム

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
JP2003174812A JP4486324B2 (ja) 2003-06-19 2003-06-19 類似単語検索装置、この方法、このプログラム、および情報検索システム

Publications (3)

Publication Number Publication Date
JP2005011078A JP2005011078A (ja) 2005-01-13
JP2005011078A5 JP2005011078A5 (ja) 2007-06-07
JP4486324B2 true JP4486324B2 (ja) 2010-06-23

Family

ID=34098182

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2003174812A Expired - Lifetime JP4486324B2 (ja) 2003-06-19 2003-06-19 類似単語検索装置、この方法、このプログラム、および情報検索システム

Country Status (1)

Country Link
JP (1) JP4486324B2 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2007132564A1 (ja) * 2006-05-13 2007-11-22 Justsystems Corporation データ処理装置及び方法
JP5544602B2 (ja) * 2010-11-15 2014-07-09 株式会社日立製作所 単語意味関係抽出装置及び単語意味関係抽出方法
WO2014136173A1 (ja) * 2013-03-04 2014-09-12 三菱電機株式会社 検索装置
JP5846340B2 (ja) * 2013-09-20 2016-01-20 三菱電機株式会社 文字列検索装置
JP6143638B2 (ja) * 2013-10-17 2017-06-07 株式会社日立ソリューションズ東日本 データ処理装置およびデータ処理方法
CN106156103B (zh) * 2015-04-02 2019-11-26 广州爱九游信息技术有限公司 一种搜索处理方法及装置
KR102301467B1 (ko) * 2019-11-22 2021-09-10 숙명여자대학교산학협력단 데이터의 의미론적 유사 여부를 분석하기 위하여 기계학습을 이용한 전자 장치 및 그 제어 방법
US11960541B2 (en) 2019-12-19 2024-04-16 Nippon Telegraph And Telephone Corporation Name data matching apparatus, and name data matching method and program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11505052A (ja) * 1995-06-07 1999-05-11 ユナイテッド パーセル サービス オブ アメリカ,インコーポレイテッド 語彙辞書の検索範囲を削減するシステム及び方法
JP2001052029A (ja) * 1999-08-17 2001-02-23 Ricoh Co Ltd 文書検索システム
JP2002259385A (ja) * 2001-02-28 2002-09-13 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラム、記録媒体
JP2002297660A (ja) * 2001-01-24 2002-10-11 Sumitomo Electric Ind Ltd 文字列類似度算出方法、装置、プログラム及び記録媒体

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3260428B2 (ja) * 1992-07-30 2002-02-25 松下電器産業株式会社 情報検索処理装置
JPH0962685A (ja) * 1995-08-30 1997-03-07 Oki Electric Ind Co Ltd 単語間表記類似度の計算方法

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11505052A (ja) * 1995-06-07 1999-05-11 ユナイテッド パーセル サービス オブ アメリカ,インコーポレイテッド 語彙辞書の検索範囲を削減するシステム及び方法
JP2001052029A (ja) * 1999-08-17 2001-02-23 Ricoh Co Ltd 文書検索システム
JP2002297660A (ja) * 2001-01-24 2002-10-11 Sumitomo Electric Ind Ltd 文字列類似度算出方法、装置、プログラム及び記録媒体
JP2002259385A (ja) * 2001-02-28 2002-09-13 Ricoh Co Ltd 文書検索装置、文書検索方法、文書検索プログラム、記録媒体

Also Published As

Publication number Publication date
JP2005011078A (ja) 2005-01-13

Similar Documents

Publication Publication Date Title
US7752032B2 (en) Apparatus and method for translating Japanese into Chinese using a thesaurus and similarity measurements, and computer program therefor
US8812300B2 (en) Identifying related names
US9110980B2 (en) Searching and matching of data
US20060031207A1 (en) Content search in complex language, such as Japanese
JP2001043236A (ja) 類似語抽出方法、文書検索方法及びこれらに用いる装置
JP2009266244A (ja) 簡潔言語学データを生成かつ使用するシステムおよび方法
US20100153396A1 (en) Name indexing for name matching systems
JP2007257644A (ja) 訳語候補文字列予測に基づく訳語取得のためのプログラム、方法および装置
CN115794995A (zh) 目标答案获取方法及相关装置、电子设备和存储介质
WO2020037794A1 (zh) 一种英文地名的索引建立方法及其查询方法和装置
JP4486324B2 (ja) 類似単語検索装置、この方法、このプログラム、および情報検索システム
US11842152B2 (en) Sentence structure vectorization device, sentence structure vectorization method, and storage medium storing sentence structure vectorization program
JP2005038395A (ja) データベース検索装置
JPH0454261B2 (ja)
KR101694179B1 (ko) 모음 제거 기반 인덱스 생성 방법 및 장치
JP4953440B2 (ja) 形態素解析装置、形態素解析方法、形態素解析プログラム及びコンピュータプログラムを格納した記録媒体
JP2001101184A (ja) 構造化文書生成方法及び装置及び構造化文書生成プログラムを格納した記憶媒体
EP1605371A1 (en) Content search in complex language, such as japanese
JP2010009237A (ja) 多言語間類似文書検索装置及び方法及びプログラム及びコンピュータ読取可能な記録媒体
JP2008059169A (ja) 中国語例文検索装置および中国語例文検索処理プログラム
JP4307287B2 (ja) メタデータ抽出装置
JPH0969109A (ja) 文書検索方法及び文書検索装置
Saudagar et al. Concatenation technique for extracted Arabic characters for efficient content-based indexing and searching
JP2000339342A (ja) 文書検索方法および文書検索装置
JP4145776B2 (ja) 質問応答装置および質問応答方法

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20060613

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20070208

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20070411

Free format text: JAPANESE INTERMEDIATE CODE: A821

Effective date: 20070411

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070411

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20070816

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090303

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20090501

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20090901

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091029

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100323

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100326

R150 Certificate of patent or registration of utility model

Ref document number: 4486324

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130402

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130402

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140402

Year of fee payment: 4

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S531 Written request for registration of change of domicile

Free format text: JAPANESE INTERMEDIATE CODE: R313531

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

S533 Written request for registration of change of name

Free format text: JAPANESE INTERMEDIATE CODE: R313533

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

S111 Request for change of ownership or part of ownership

Free format text: JAPANESE INTERMEDIATE CODE: R313111

R350 Written notification of registration of transfer

Free format text: JAPANESE INTERMEDIATE CODE: R350

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

R250 Receipt of annual fees

Free format text: JAPANESE INTERMEDIATE CODE: R250

EXPY Cancellation because of completion of term