JP2005043977A

JP2005043977A - 文書間の類似度算出方法および装置

Info

Publication number: JP2005043977A
Application number: JP2003200193A
Authority: JP
Inventors: Tadataka Matsubayashi; 忠孝松林; Natsuko Sugaya; 菅谷　　奈津子; Giyu Iijima; 岐勇飯島; Yuichi Ogawa; 祐一小川; Yuki Watanabe; 祐樹渡辺; Shinya Yamamoto; 伸也山本; Takeshi Sudo; 毅須藤
Original assignee: Hitachi Ltd
Current assignee: Hitachi Ltd
Priority date: 2003-07-23
Filing date: 2003-07-23
Publication date: 2005-02-17
Also published as: US20050021508A1; US7440938B2

Abstract

【課題】複数の単語で一つの概念が表現される場合でも、高精度に類似度を算出する類似度算出方法を提供することにある。
【解決手段】登録文書の特徴を表す各要素（特徴文字列）について、登録文書における出現情報を予め記憶しておく。登録文書の類似度を算出する際に、検索者により指定された検索条件を解析し、検索条件に含まれる各要素（単語）に対する出現情報を集計して、複数の単語間の関係を考慮した要素を有する特徴ベクトルを用いて登録文書における出現情報と比較して、文書間の類似度を算出する。
【選択図】図１

Description

【０００１】
【発明の属する技術分野】
本発明は文書間の類似度算出方法に関し、特に、検索者が指定した文書に記述されている内容と類似する内容を含む文書を、文書データベースの中から検索する方法に関する。
【０００２】
【従来の技術】
大量の電子化文書の中から目的の文書を検索する技術として、類似文書検索技術が知られている。類似文書検索技術は、検索者が指定した文書（以下、種文書という）および文書データベースに格納された文書（以下、登録文書という）を、該文書に含まれる単語の出現頻度などの出現情報を要素としたベクトル（以下、特徴ベクトルという）で表現し、該特徴ベクトル間の距離を文書間の類似度として算出する（例えば、特許文献１）。
【０００３】
【特許文献１】
特開２００２−７３６８１号公報
【０００４】
【発明が解決しようとする課題】
しかし、上記従来技術では、文書に出現する各単語の出現情報を一つの要素として特徴ベクトルを作成しているため、複数の単語で一つの概念を表現する場合には、その概念が強調されて類似度が算出されることになり、検索者の意図とは合わない検索結果となる場合が考えられる。
【０００５】
本発明の目的は、複数の単語で一つの概念が表現される場合でも、高精度に類似度を算出する類似度算出方法を提供することにある。
【０００６】
【課題を解決するための手段】
上記目的を達成するために本発明は、検索者により指定された検索条件に対する登録文書の類似度を算出する際に、登録文書の特徴を表す各要素を、複数の単語間の関係を用いて表現した特徴ベクトルを用い、文書データベースに登録された登録文書から取得した各要素に対応する出現情報を用いることにより、文書間の類似度を算出する。
【０００７】
【発明の実施の形態】
以下、本発明の実施の形態を、図面を用いて詳細に説明する。
【０００８】
まず、本発明の第一の実施例について図１を用いて説明する。本発明を適用した類似文書検索システムは、ディスプレイ１００、キーボード１０１、中央演算処理装置（ＣＰＵ）１０２、磁気ディスク装置１０３、フレキシブルディスクドライブ（ＦＤＤ）１０４、主メモリ１０５、これらを結ぶバス１０６および他の機器と本システムを接続するネットワーク１０７から構成される。磁気ディスク装置１０３は二次記憶装置の一つであり、検索用インデクス１７０が格納される。ＦＤＤ１０４を介してフレキシブルディスク１０８に格納されている情報が、主メモリ１０５あるいは磁気ディスク装置１０３へ読み込まれる。
【０００９】
主メモリ１０５には、システム制御プログラム１１０、登録制御プログラム１１１、検索制御プログラム１１２、登録文書取得プログラム１２０、検索用インデクス作成登録プログラム１２１、検索条件解析プログラム１３０、類似度算出プログラム１３１、検索結果出力プログラム１３２が格納されると共にワークエリア１４０が確保される。
【００１０】
検索条件解析プログラム１３０は、要素別集計条件抽出プログラム１６０で構成される。類似度算出プログラム１３１は、要素別出現情報集計プログラム１６１および要素別類似度算出プログラム１６２で構成される。ワークエリア１４０には、登録対象文書格納領域１８０、検索条件格納領域１８１、要素別集計条件格納領域１８２、要素別類似度格納領域１８３および登録文書別類似度格納領域１８４が確保される。
【００１１】
登録制御プログラム１１１および検索制御プログラム１１２は、キーボード１０１からのユーザによる指示に応じてシステム制御プログラム１１０によって起動され、それぞれ登録文書取得プログラム１２０、検索用インデクス作成登録プログラム１２１の制御と、検索条件解析プログラム１３０、類似度算出プログラム１３１および検索結果出力プログラム１３２の制御を行う。
【００１２】
なお本実施例では、キーボード１０１から入力されたコマンドにより、登録制御プログラム１１１や検索制御プログラム１１２が起動されるものとしたが、他の入力装置を介して入力されたコマンドあるいはイベントにより起動されるように構成してもよい。また、キーボード１０１から入力されたコマンドをもとに、ＣＰＵが各プログラムを起動する処理を行うこともできる。
【００１３】
また、これらのプログラムは磁気ディスク装置１０３、フレキシブルディスク１０８、あるいはＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ等の記憶媒体（図１には示していない）に格納し、駆動装置を介して主メモリ１０５に読み込み、ＣＰＵ１０２によって実行することも可能である。また、これらのプログラムをネットワーク１０７を介して主メモリ１０５に読み込み、ＣＰＵ１０２によって実行することも可能である。
【００１４】
さらに、本実施例では検索用インデクス１７０は磁気ディスク装置１０３に格納されるものとしたが、主メモリ１０５に格納されるものであってもよいし、あるいはフレキシブルディスク１０８、ＭＯ、ＣＤ−ＲＯＭ、ＤＶＤ等の記憶媒体（図１には示していない）に格納し、駆動装置を介して主メモリ１０５に読み込み利用することも可能である。また、これらのファイルは、ネットワーク１０７を介して他のシステムに接続された記憶媒体（図１には示していない）に格納されていてもよいし、あるいはネットワーク１０７に直接接続された記憶媒体に格納されていてもよい。
【００１５】
また、ワークエリア１４０は、主メモリ１０５上に確保されるものとしたが、磁気ディスク装置１０３に確保されるものであってもよいし、フレキシブルディスク１０８、ＭＯ、ＣＤ−Ｒ、ＤＶＤ等の書き込み可能な記憶媒体（図１には示していない）やネットワーク１０７に直接接続された書き込み可能な記憶媒体に確保されるものであってもよい。
【００１６】
以下、本実施例における類似文書検索システムの処理手順について説明する。
【００１７】
まず、システム制御プログラム１１０の処理手順について図２のＰＡＤ図を用いて説明する。
【００１８】
システム制御プログラム１１０は、キーボード１０１から入力されたコマンドを解析する（ステップ２００）。この解析の結果、登録実行のコマンドである場合には、登録制御プログラム１１１を起動して、文書の登録を行い（ステップ２１０）、検索実行のコマンドである場合には、検索制御プログラム１１２を起動して、類似文書の検索を行う（ステップ２２０）。
【００１９】
次に、図２のステップ２１０に示す登録制御プログラム１１１の登録処理の手順について、図３のＰＡＤ図を用いて説明する。
【００２０】
登録制御プログラム１１１は、まず登録文書取得プログラム１２０を起動し、登録対象として指定された文書（以下、登録対象文書という）を読み込み、ワークエリア１４０の登録対象文書格納領域１８０に格納する（ステップ３０１）。
次に、検索用インデクス作成登録プログラム１２１を起動し、ワークエリア１４０の登録対象文書格納領域１８０に格納されている登録対象文書に対する検索用インデクスを作成し、磁気ディスク装置１０３に検索用インデクス１７０として格納する（ステップ３０２）。
【００２１】
次に、図２のステップ２２０に示す検索制御プログラム１１２の検索処理の手順について、図４のＰＡＤ図を用いて説明する。
【００２２】
検索制御プログラム１１２は、まず検索条件解析プログラム１３０を起動し、検索者により入力された検索条件を解析する（ステップ４０１）。次に、類似度算出プログラム１３１を起動し、検索条件に対する各登録文書の類似度を算出する（ステップ４０２）。各登録文書は、登録対象文書格納領域１８０に格納されている。そして、検索結果出力プログラム１３２を起動し、上記ステップ４０２で算出された類似度算出結果を検索結果として出力する（ステップ４０３）。検索結果の出力先は、ディスプレイ１００に表示してもよいし、ワークエリア１４０や磁気ディスク装置１０３上に格納してもよい。また、類似度算出結果をディスプレイ１００に出力する場合には、類似度の昇順または降順に出力してもよいし、文書に付与された管理番号等の昇順あるいは降順に出力してもよい。
【００２３】
次に、図４のステップ４０１に示す検索条件解析プログラム１３０の処理手順について説明する。
【００２４】
検索条件解析プログラム１３０は、キーボード１０１から入力された検索条件を読み込み、ワークエリア１４０の検索条件格納領域１８１に格納する。そして、要素別集計条件抽出プログラム１６０を起動し、ワークエリア１４０の検索条件格納領域１８１に格納された検索条件の中から、要素別の集計条件を抽出し、ワークエリア１４０の要素別集計条件格納領域１８２に格納する。
【００２５】
次に、図４のステップ４０２に示す類似度算出プログラム１３１の処理手順について、図５のＰＡＤ図を用いて説明する。
【００２６】
類似度算出プログラム１３１は、前記検索条件解析プログラム１３０によりワークエリア１４０の要素別集計条件格納領域１８２に格納された要素別の集計条件を読み込み、各集計条件に対してステップ５０２〜ステップ５０３を繰返し実行する（ステップ５０１）。以下、繰返し処理中に行うステップ５０２からステップ５０３について説明する。
【００２７】
まず、要素別出現情報集計プログラム１６１を起動し、前記ステップ５０１で読み込まれた要素別集計条件に基づき、検索用インデクス１７０を参照し、該要素の出現情報を集計する（ステップ５０２）。次に、要素別類似度算出プログラム１６２を起動し、上記ステップ５０２で集計した出現情報に基づき、該要素における類似度（以下、要素別類似度という）を算出し、ワークエリア１４０の要素別類似度格納領域１８３に格納する（ステップ５０３）。
【００２８】
上記ステップ５０３においてワークエリア１４０の要素別類似度格納領域１８３に格納された要素別類似度から各登録文書の類似度を算出し、ワークエリア１４０の登録文書別類似度格納領域１８４に格納する（ステップ５０４）。
【００２９】
なお、上記ステップ５０２における要素別類似度の算出には、例えばＴＦ・ＩＤＦ（ＴｅｘｔＦｒｅｑｕｅｎｃｙ，ＩｎｖｅｒｔｅｄＤｏｃｕｍｅｎｔｓＦｒｅｑｕｅｎｃｙ）法を用いるものとしてもよい。
【００３０】
以下、本発明の第一の実施例における類似文書検索システムの具体的な処理手順を図６および図７を用いて説明する。
【００３１】
まず、本発明の第一の実施例に示した類似文書検索システムにおける文書の登録処理（図３）について、図６を用いて具体的に説明する。
【００３２】
図６は、文書１「〜ＯｕｒＰｒｏｄｕｃｔ〜１０％ＣｏｃｏｎｕｔＪｕｉｃｅＷｉｔｈＭｅａｔ２５％ＯｒａｎｇｅＪｕｉｃｅ３０％ＭａｎｇｏＪｕｉｃｅ４０％ＧｕａｖａＪｕｉｃｅ４０％ＬｙｃｈｅｅＪｕｉｃｅ５５％ＰａｓｓｉｏｎＦｒｕｉｔｗｉｔｈｐｉｎｅａｐｐｌｅｊｕｉｃｅ１００％ＰｉｎｅａｐｐｌｅＪｕｉｃｅ」および文書２「ＣｉｎｎａｍｏｎＰｉｎｅａｐｐｌｅＰｏｒｋＳｔｉｒｉｎｐｉｎｅａｐｐｌｅａｎｄｊｕｉｃｅ，ｗｉｎｅ，ｇｉｎｇｅｒｒｏｏｔ，ｊａｌａｐｅｎｏｐｅｐｐｅｒａｎｄｃｉｎｎａｍｏｎ；ｓｉｍｍｅｒｕｎｔｉｌｌｉｑｕｉｄｉｓｒｅｄｕｃｅｄｔｏ１／４ｃｕｐ．Ｓｐｏｏｎｐｉｎｅａｐｐｌｅｍｉｘｔｕｒｅｏｖｅｒｃｏｏｋｅｄｐｏｒｋｐｉｅｃｅｓ；ｓｐｒｉｎｋｌｅｗｉｔｈｃｉｌａｎｔｒｏ」が文書データベースに登録される場合の処理の流れである。
【００３３】
まず、図３に示したステップ３０１が実行され、登録文書取得プログラム１２０により文書１および文書２がワークエリア１４０に読み込まれ、それぞれ文書６０１および文書６０２として格納される。
【００３４】
次に、ワークエリア１４０上の文書６０１および文書６０２に対し、図３に示した検索用インデクス作成処理３０２が実行され、スペース等をデリミタとして抽出された各単語（または各文字列）に対する出現位置を格納した検索用インデクス１７０が磁気ディスク装置１０３内に作成される。
【００３５】
本図に示した検索用インデクス１７０は、各単語の見出し、出現文書番号および出現位置が格納される場合の例である。本図において、「１／４（２，２２）」は、“１／４”という単語が文書２の２２番目の単語として出現することを表す。
【００３６】
次に、本発明の第一の実施例に示した類似文書検索システムにおける検索条件に対する要素別出現情報集計処理（図５のステップ５０２）の手順について、図７を用いて説明する。
【００３７】
要素別出現情報集計処理では、まず検索者により入力された検索条件７０１をワークエリア１４０の検索条件格納領域１８１に格納する。
【００３８】
検索条件７０１は、図７の例では３つの要素からなる特徴ベクトルを表しており、それぞれ（ｒｅｃｉｐｅ）、（ｐｏｒｋ）、および（ｔｒｏｐｉｃａｌ⇔ｆｒｕｉｔｓ，ｐｉｎｅａｐｐｌｅ，ｍａｎｇｏ，ｇｕａｖａ）の軸からなる。ここで、“ｔｒｏｐｉｃａｌ⇔ｆｒｕｉｔｓ”は、単語“ｔｒｏｐｉｃａｌ”および“ｆｒｕｉｔｓ”の近傍条件を表す。
【００３９】
また、一つの要素内にカンマで区切られた複数のキーワードが存在する場合は、該要素は各キーワードのＯＲで表わされることを示す。図７に示した例では、３番目の要素である（ｔｒｏｐｉｃａｌ⇔ｆｒｕｉｔｓ，ｐｉｎｅａｐｐｌｅ，ｍａｎｇｏ，ｇｕａｖａ）が該当し、該要素は“ｔｒｏｐｉｃａｌ⇔ｆｒｕｉｔｓ”、“ｐｉｎｅａｐｐｌｅ”、“ｍａｎｇｏ”および“ｇｕａｖａ”の４つのキーワードのＯＲで表わされることを示す。
【００４０】
次に、図４に示した検索条件解析ステップ４０１が実行され、ワークメモリ１４０に読み込まれた検索条件７０１を解析し、検索条件７０１内の括弧、カンマおよび近傍条件を表す記号「⇔」を識別することにより、要素別集計条件７１１「“ｒｅｃｉｐｅ”」、７１２「“ｐｏｒｋ”」および７１３「（“ｔｒｏｐｉｃａｌ”，“ｆｒｕｉｔｓ”，５）ｏｒ“ｐｉｎｅａｐｐｌｅ”ｏｒ“ｍａｎｇｏ”ｏｒ“ｇｕａｖａ”」を抽出する。ここで、例えば要素別集計条件７１１「“ｒｅｃｉｐｅ”」は、キーワード“ｒｅｃｉｐｅ”を含む文書が要素別集計条件の対象になることを表しており、また、要素別集計条件７１３「（“ｔｒｏｐｉｃａｌ”，“ｆｒｕｉｔｓ”，５）ｏｒ“ｐｉｎｅａｐｐｌｅ”ｏｒ“ｍａｎｇｏ”ｏｒ“ｇｕａｖａ”」は、“ｔｒｏｐｉｃａｌ”と“ｆｒｕｉｔｓ”が５単語以内に出現する文書、あるいは“ｐｉｎｅａｐｐｌｅ”、“ｍａｎｇｏ”、“ｇｕａｖａ”のいずれかを含む文書が要素別集計条件の対象となることを表す。
【００４１】
次に、図５に示す要素別出現情報集計ステップ５０２が実行され、上記検索条件解析ステップ４０１で抽出された各要素別集計条件７１１、７１２および７１３が満たす出現情報を、検索用インデクス１７０を参照することにより取得する。
【００４２】
本図に示した例では、要素別集計条件７１１「“ｒｅｃｉｐｅ”」の出現情報０［ＮＵＬＬ，ＮＵＬＬ］、要素別集計条件７１２「“ｐｏｒｋ”」の出現情報として１［２，２］、要素別集計条件７１３「（“ｔｒｏｐｉｃａｌ”，“ｆｒｕｉｔｓ”，５）ｏｒ“ｐｉｎｅａｐｐｌｅ”ｏｒ“ｍａｎｇｏ”ｏｒ“ｇｕａｖａ”」の出現情報として２［１，４］［２，３］を取得する。ここで、括弧の前の数字は出現文書数を表わしており、各括弧内数字は出現文書番号および出現数を表わしている。例えば、要素別集計条件７１２「“ｐｏｒｋ”」の出現情報である１［２，２］は、「文書数［文書番号，出現回数］」を示しており、この場合、該集計条件の満たす文書数は１であり、文書２に２回出現していることを表す。
【００４３】
なお、上記ステップ４０１において検索条件７０１を解析する際には、検索条件７０１内の括弧、カンマ、および近傍条件を表す記号「⇔」を識別するものとしたが、スペースやピリオドなど他の文字列を識別するものであってもよい。
【００４４】
以上説明したように、本発明の第一の実施例によれば、複数のキーワードで表現される概念を特徴ベクトルの一つの要素として表現することができるようになる。この結果、複雑な概念を考慮した類似度算出が可能となり、高精度な概念検索を実現することができる。
【００４５】
なお、本実施例では、要素別集計条件の表現を近傍条件やＯＲで表現するものとしたが、ＡＮＤやＮＯＴなどその他の表現方法を用いてもよい。
【００４６】
また、本実施例では、英語における類似文書検索システムの例で説明したが、英語に限らずその他の言語でもよい。すなわち、本発明の第一の実施例における文書登録処理では、スペース等をデリミタとして単語を抽出するものとしたが、日本語等の区切れ目が明確でない言語に対しては、単語辞書を参照して抽出された単語を用いるものとしてもよいし、Ｎ−ｇｒａｍを抽出するものであっても構わない。
【００４７】
本実施例では、検索用インデクス１７０として単語インデクスを用いるものとしたが、インデクス方式によらず、例えば、Ｎ−ｇｒａｍインデクス方式であってもよい。さらに、本実施例では検索用インデクス１７０を各文書に出現する単語の索引形式を用いるものとしたが、各文書のシグネチャファイルを格納するものであってもよい。
【００４８】
また本実施例では、類似文書検索システムの例で説明したが、本発明における類似度算出方法は、類似文書検索システムに限らず文書間の類似度算出に適用できる。例えば、文書内から検索条件に適合する箇所を抽出する類似箇所抽出システム、検索結果などの文書集合を、内容の類似性に基づき分類する文書分類システム、あるいは、予め作成されたカテゴリに対して分類先を判定する分類先判定システムなどの類似度算出に本発明に示した類似度算出方法を適用することができる。
【００４９】
次に、本発明の第二の実施例について図８を用いて説明する。
【００５０】
本実施例は、検索者が入力した種文書から要素別集計条件を自動生成しようとするものである。すなわち、複雑な特徴ベクトルを作成しなくても高精度な検索を実行できるようになり、検索者の負荷が軽減される。
【００５１】
本実施例のシステム構成は、第一の実施例（図１）とほぼ同様であるが、図１の主メモリ１０５の検索条件解析プログラム１３０ａは、要素別集計条件抽出プログラム１６０に加えて要素種別判定プログラム８０１を記憶し、さらに磁気ディスク装置１０３は、検索用インデクス１７０に加えて要素種別辞書８０２を有する。また、ワークエリア１４０には登録対象文書格納領域１８０、検索条件格納領域１８１、要素別集計条件格納領域１８２、要素別類似度格納領域１８３および登録文書別類似度格納領域１８４に加え、検索キーワード格納領域８１０、種文書格納領域８１１およびキーワード属性格納領域８１２が確保される。それ以外の部分は図１と同様の構成である。
【００５２】
以下、本実施例における処理手順のうち、第一の実施例とは異なる検索条件解析プログラム１３０ａにおける要素種別判定プログラム８０１の処理手順について、図９に示すＰＡＤ図を用いて説明する。
【００５３】
要素種別判定プログラム８０１は、まず、キーボード１０１を介して入力された種文書を解析し、キーワードを抽出し、ワークエリア１４０の検索キーワード格納領域８１０に格納する（ステップ９０１）。
【００５４】
次に、ワークエリア１４０の検索キーワード格納領域８１０に格納された全てのキーワードについて以下のステップ９０３を繰返し実行する（ステップ９０２）。すなわち、ステップ９０２で選択されたキーワードに対し、要素種別辞書８０２を参照し、該キーワードの種別を判定し（ステップ９０３）、キーワードの種別毎に集計条件を設定する（ステップ９０４）。
【００５５】
以下、図９に示した本発明の第二の実施例における類似文書検索システムの処理手順を、図１０を用いて具体的に説明する。
【００５６】
図１０は、検索者により入力された種文書１００１がワークメモリ１４０の種文書格納領域８１１に読み込まれた場合の要素種別判定プログラム８０１の処理の流れである。
【００５７】
まず、ワークエリア１４０の種文書格納領域８１１に格納された種文書１００１“Ｉｗａｎｔａｒｅｃｉｐｅｏｆｐｏｒｋａｎｄｔｒｏｐｉｃａｌｆｒｕｉｔｓｓｕｃｈａｓｐｉｎｅａｐｐｌｅ，ｍａｎｇｏ，ｇｕａｖａ．”に対して、図９のキーワード抽出ステップ９０１が実行され、抽出された単語群１００２が、ワークエリア１４０の検索キーワード格納領域８１０に格納される。
【００５８】
次に、上記抽出された単語群１００２内の各単語に対して図９に示したキーワード属性判定ステップ９０３が実行される。キーワード属性判定ステップ９０３では、指定された単語をキーとして要素種別辞書８０２を参照し、各単語の属性を判定する。本図に示した例では、単語に対する要素種別辞書８０２として「Ｇｒｏｕｐｏｆｆｒｕｉｔｓ」１０１２および「Ｇｒｏｕｐｏｆｍｅａｔ」１０１３が定義されている。従って、ワークエリア１４０の検索キーワード格納領域８１０に格納された単語群１００２内に出現する“ｔｒｏｐｉｃａｌｆｒｕｉｔｓ”、“ｐｉｎｅａｐｐｌｅ”、“ｍａｎｇｏ”、“ｇｕａｖａ”および“ｐｏｒｋ”が、それぞれ「Ｇｒｏｕｐｏｆｆｒｕｉｔｓ」１０１２および「Ｇｒｏｕｐｏｆｍｅａｔ」１０１３と判定され、属性ごとに分類されて、各単語のキーワード属性１００３として、各単語が属性ごとにワークエリア１４０のキーワード属性格納領域８１２に格納される。
【００５９】
次に、キーワード属性１００３に対して図９の集計条件設定ステップ９０４が実行され、一つのキーワードからなる「Ｇｒｏｕｐｏｆｍｅａｔ」は、単独で集計条件として設定され、複数のキーワードからなる「Ｇｒｏｕｐｏｆｆｒｕｉｔｓ」は、各キーワードのＯＲ条件として設定されるとともに、複数の単語からなる“ｔｒｏｐｉｃａｌｆｒｕｉｔｓ”は近傍条件として設定される。この結果として、種文書１００１から特徴ベクトル１００４が生成される。
【００６０】
次に、本発明を適用した類似文書検索システムにおける検索条件入力画面の例を図１１に示す。
【００６１】
図１１に示した種文書入力画面１１０１は、種文書入力領域１１１４、検索実行指示送信ボタン１１１１、詳細条件設定ボタン１１１２および種文書入力領域１１１４等に入力されたデータを消去するリセットボタン１１１３を有する。
【００６２】
種文書入力画面１１０１において、種文書入力領域１１１４に種文書を入力し、詳細条件設定ボタン１１１２を押下すると、詳細条件確認画面１１０２へ遷移する。
【００６３】
詳細条件確認画面１１０２では、図９に示した要素種別判定プログラム８０１のキーワード属性判定ステップ９０３により判定されたキーワード属性別に、所属するキーワード群が表示される領域１１２１および１１２２を有するとともに、表示された条件で類似文書検索を実行するＯＫボタン１１２３および検索の実行を中止するキャンセルボタン１１２４を有する。
【００６４】
なお、本図に示した例では、詳細条件設定ボタン１１１２が押下された時点で、種文書入力画面１１０１から詳細条件確認画面１１０２へと遷移するものとしたが、検索実行指示送信ボタン１１１１が押下された時点で遷移するものとしてもよい。
【００６５】
また、本図に示した例では、詳細条件確認画面１１０２における領域１１２１および１１２２に同一グループに属するキーワード群を表示しているが、表示するだけでなく検索者が画面上で編集できるようにしてもよい。
【００６６】
次に、図１１に示した種文書入力画面１１０２における検索実行指示送信ボタン１１１１の押下、あるいは詳細条件確認画面１１０２における類似文書検索実行ＯＫボタン１１２３の押下により実行される検索の結果出力される検索結果表示画面の例を図１２に示す。
【００６７】
検索結果表示画面１２０１では、図９に示した要素種別判定プログラム８０１のキーワード属性判定ステップ９０３により判定されたキーワード属性別に、所属するキーワード群が表示される領域１１２１および１１２２を有すると共に、該キーワード群を見直して再検索の実行を指示する再検索実行指示ボタン１２１０、キーワード属性別の検索結果表示領域１２１１、１２１２を有する。さらに、グループごとに検索された文書をもとに、さらに絞込検索を行いたいと検索者が判断する場合に押下する絞込検索ボタン１２１３を有する。
【００６８】
この絞込み検索ボタン１２１３が押下されると、グループに共通する文書（図１２の場合、グループ１とグループ２に共通して関連する文書）の絞込み検索が実行され、その検索結果が画面１２０２に検索結果１２２０として表示される。
【００６９】
本図に示した例では、詳細条件確認画面１１０２における領域１１２１および１１２２に、同一グループに属するキーワード群が表示されるものとしたが、表示されるだけでなく検索者が画面上で編集できるものであってもよい。
【００７０】
また、本図に示した例では、検索結果がキーワード属性別に表示されるものとしたが、各文書が文書全体に付与された類似度の降順に表示されるものであってもよいし、類似度と共にグループ別の類似度の割合が表示されるものであっても構わない。
【００７１】
また、本図に示した検索結果表示領域１２１１、１２１２、１２２０には、登録文書の文書番号と共に該登録文書の見出しが表示されているが、検索に使用された各キーワード属性に対応する箇所が表示されるものであっても構わない。
【００７２】
以上説明したように、第二の実施例によれば、高精度な検索結果を得るために、検索者が複雑な特徴ベクトルを考える必要がなくなり、検索者の負担が軽くなる。
【００７３】
なお、本実施例におけるキーワード属性判定ステップ９０３では、要素種別辞書８０２を参照したが、予め用意された辞書を用いるものでなくてもよく、例えばキーワードの組が同一の登録文書に共に出現する確率であるキーワード共起確率を用いて判定してもよい。
【００７４】
【発明の効果】
以上説明したように、本発明では、複数のキーワードで表現される概念を特徴ベクトルの一つの要素として表現することができるようになるため、複雑な概念を考慮した類似度算出が可能となり、高精度な概念検索を実現できる。
【図面の簡単な説明】
【図１】本発明第一の実施例における類似文書検索システムの全体構成を示す図である。
【図２】本発明の第一の実施例におけるシステム制御プログラム１１０の処理手順を説明するＰＡＤ図である。
【図３】本発明の第一の実施例における登録制御プログラム１１１の処理手順を説明するＰＡＤ図である。
【図４】本発明の第一の実施例における検索制御プログラム１１２の処理手順を説明するＰＡＤ図である。
【図５】本発明の第一の実施例における類似度算出プログラム１３１の処理手順を説明するＰＡＤ図である。
【図６】本発明の第一の実施例における登録処理手順を説明する図である。
【図７】本発明の第一の実施例における要素別出現情報集計処理手順を説明する図である。
【図８】本発明を適用した類似文書検索システムの第二の実施例における検索条件解析プログラム１３０ａおよびワークエリア１４０の構成を示す図である。
【図９】本発明の第二の実施例における要素種別判定プログラム８０１の処理手順を説明するＰＡＤ図である。
【図１０】本発明の第二の実施例における要素種別判定プログラム８０１の処理手順を説明する図である。
【図１１】本発明の第二の実施例における検索条件入力画面例を示す図である。
【図１２】本発明の第二の実施例における検索結果表示画面例を示す図である。
【符号の説明】
１００…ディスプレイ、１０１…キーボード、１０２…中央演算処理装置（ＣＰＵ）、１０３…磁気ディスク装置、１０４…フレキシブルディスクドライブ（ＦＤＤ）、１０５…主メモリ、１０６…バス、１０７…ネットワーク、１７０…検索用インデクス、１０８…フレキシブルディスク、１１０…システム制御プログラム、１１１…登録制御プログラム、１１２…検索制御プログラム、１２０…登録文書取得プログラム、１２１…検索用インデクス作成登録プログラム、１３０…検索条件解析プログラム、１３１…類似度算出プログラム、１３２…検索結果出力プログラム、１４０…ワークエリア、１６０…要素別集計条件抽出プログラム、１６１…要素別出現情報集計プログラム、１６２…要素別類似度算出プログラム、１８０…登録対象文書格納領域、１８１…検索条件格納領域、１８２…要素別集計条件格納領域、１８３…要素別類似度格納領域、１８４…登録文書別類似度格納領域、８０１…要素種別判定プログラム、８０２…要素種別辞書、８１０…検索キーワード格納領域、８１１…種文書格納領域、８１２…キーワード属性格納領域

Claims

予め登録された文書の類似度を算出する類似度算出方法であって、
前記予め登録された文書に含まれる文字列を検索用インデクスとして記憶し、
検索者によって入力された検索条件に含まれる構成要素を抽出し、
該抽出した構成要素に含まれるキーワード間の関係を示す情報に基づいて、前記検索条件の要素別集計条件を設定し、
該設定した要素別集計条件と前記記憶した検索用インデクスとを比較して、前記要素別集計条件が満たす出現情報を取得し、
該取得した出現情報をもとに、前記検索条件と、前記予め登録された文書との類似度を算出することを特徴とする類似度算出方法。
前記検索条件に含まれるキーワードに対して予め属性が設定されている場合は、該キーワードの属性を判定し、
該判定した属性ごとに前記抽出したキーワードを分類して記憶し、
該記憶したキーワードの属性に基づいて、前記検索条件の要素別集計条件を設定することを特徴とする請求項１記載の類似度算出方法。
予め登録された文書を検索する文書検索システムにおける文書の類似度を算出する類似度算出方法において、
前記予め登録された文書に含まれる文字列を検索用インデクスとして記憶し、
検索者によって入力された検索条件に含まれるキーワードを抽出し、
該抽出したキーワードに対して属性が予め設定されている場合は、該キーワードの属性を判定し、
該判定結果に従って前記抽出したキーワードを属性ごとに分類してキーワード属性として記憶し、
該記憶したキーワード属性に基づいて、前記検索条件の要素別集計条件を設定し、
該設定した要素別集計条件と前記記憶した検索用インデクスとを比較して、前記要素別集計条件が満たす出現情報を取得し、
該取得した出現情報をもとに、前記検索条件と、前記予め登録された文書との類似度を算出することを特徴とする類似度算出方法。
予め登録された文書の類似度を算出する類似度算出装置であって、
前記予め登録された文書に含まれる文字列の出現位置を示す検索用インデクスとして記憶する記憶手段と、
検索者によって入力された検索条件に含まれる構成要素を抽出する検索条件解析手段と、
該検索条件解析手段が抽出した構成要素に含まれるキーワード間の関係を示す情報に基づいて、前記検索条件の要素別集計条件を抽出する要素別集計条件抽出手段と、
該要素別集計条件抽出手段が抽出した要素別集計条件と前記記憶した検索用インデクスとを比較して、前記要素別集計条件が満たす出現情報を取得する要素別出現情報集計手段と、
該要素別出現情報集計手段が取得した出現情報をもとに、前記検索条件と前記予め登録された文書との類似度を算出する要素別類似度算出手段を備えることを特徴とする類似度算出装置。
前記記憶手段は、文字列に対する属性ごとに文字列を分類して記憶する要素種別辞書を備え、
前記類似度算出装置はさらに、
前記検索条件に含まれるキーワードに対して、前記要素種別辞書に予め属性が設定されている場合は、該キーワードの属性を判定する要素種別判定手段と、
該判定したキーワードの属性に基づいて、前記検索条件の要素別集計条件を設定する要素別集計条件抽出手段を備えることを特徴とする請求項４記載の類似度算出方法。