JP2005158044A

JP2005158044A - 情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置

Info

Publication number: JP2005158044A
Application number: JP2004310655A
Authority: JP
Inventors: Masahiro Kataoka; 正弘片岡; Takashi Furuta; 孝古田; Takashi Yamashita; 高志山下; Takashi Tsubokura; 孝坪倉
Original assignee: Fujitsu Ltd
Current assignee: Fujitsu Ltd
Priority date: 2003-10-30
Filing date: 2004-10-26
Publication date: 2005-06-16
Anticipated expiration: 2024-10-26
Also published as: JP4783563B2

Abstract

【課題】情報検索用のインデックスを低コストで作成するとともに、当該インデックスを用いて効率的かつ多面的な検索を行うこと。
【解決手段】「山路来て何やらゆかしすみれ草（松尾芭蕉）」のような複文節の見出しのもとに、当該俳句や作者の解説が記述されているコンテンツから、上記見出しを順次抽出する。そしてこの見出し中の孤立するかな文字を削除し、さらに旧字・外字などを正字に変換することで、「山路来何やらゆかしすみれ草（松尾芭蕉）」のような複文節のキーワードを作成する。ユーザの入力した検索文字列が「山路来て」だったとすると、かなサプレスおよび文字変換後の検索文字列「山路来」を上記キーワードと照合し、完全一致または部分一致するキーワードに対応する見出しを検索結果として表示する。また、各キーワードに設定された複数の属性からコンテンツを検索することもできる。
【選択図】図２

Description

この発明は、情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置に関する。

従来技術による検索システムを大別すると、第１に、辞書・辞典・マニュアルなどのコンテンツ検索、第２に、ＤＢ（データベース）検索（たとえば、特許文献１参照。）、第３に、Ｗｅｂ上のホームページ検索の３種類に分類できる。

このうち、第１のコンテンツ検索については、すでにＣＤ−ＲＯＭ化されている国語・漢和・英和・和英などの辞書類や用語集のほか、専門辞書、各種マニュアルや社内規定など、検索機能を装備するコンテンツのニーズが拡大している。また、近年のパソコンの普及とブロードバンドの整備の進展により、こうしたコンテンツのＷｅｂ上での利用が増加している。

そしてこのコンテンツ検索はＪＩＳ−Ｘ４０８１として規格化されており、簡単で効率的な検索を実現するための機能が盛り込まれている。このＪＩＳ−Ｘ４０８１には、他のＤＢ検索やホームページ検索に比較して以下のような利点がある。

第１の利点としては、日本語に特有な検索が可能な点である。たとえば「柿落とし（こけらおとし）」「大仏二郎（おさらぎじろう）」など、難解な読みがなによる見出し語の検索ができる。また「へんき（騙欺）」と「べんぎ（便宜）」と「ペンキ（番瀝青）」、「さっき（殺気）」と「さつき（五月）」、あるいは「パラメーター」と「パラメータ」を同一視するか否かなど、清音・濁音・半濁音・促音・拗音・長音の取り扱いを柔軟に変更できる。

第２の利点としては、目的に応じた検索が可能な点である。たとえば薬の事典では、個々の薬の解説中に効果のある病名（薬効）と副作用のある病名とが混在しているが、この中から特定の病気に効果のある薬、あるいは副作用のある薬のみを検索することができる。また、英和辞書で「ｔａｋｅ」と「ｗｉｔｈ」が併用されている英文用例を検索することができる。

第３の利点としては、種々のキーワードによる検索が可能な点である。たとえば英和辞書内の単語「ｒｅａｄ」を、文字列「ｒｅａｄ」で検索できるのはもちろん、その訳語である「読む」からも検索することができる。また文学辞典で、各作家についての解説にその作品名のキーワードを付与しておき、作家名のほか作品名からも作家を検索可能なようにできる。

特開平１０−９１６３５号公報

しかしながらこのＪＩＳ−Ｘ４０８１によるコンテンツ検索においても、従来以下のような問題点があった。

第１に、複文節の見出しの検索の不備によってデータ編集コストが増大するという問題点があった。すなわち、現状のＪＩＳ−Ｘ４０８１では、単文節の見出しに対する前方一致検索および後方一致検索の機能しかないので、たとえば俳句集や短歌集、法令集など複文節の見出し（「山路来て何やらゆかしすみれ草（松尾芭蕉）」「第四十一条特許出願等に基づく優先権主張」など）を有するコンテンツでは、中間の文節の文字列を検索することができない。そのため現状では、複文節を単文節に分解するとともに一項目について複数のキーワードを収録することで、中間の文節による検索を可能としているが、この単文節への切り分けの自動化が困難で、多大な編集コストが必要となる。

第２に、キーワードに対する属性の単一設定の制限による検索機能に限界があるという問題点があった。現状のＪＩＳ−Ｘ４０８１では、一つのキーワードについて設定できる属性は一つのみである。たとえば「山路来て何やらゆかしすみれ草（松尾芭蕉）」から切り出されたキーワード「すみれ」には属性「季語」、「松尾芭蕉」には属性「作者」を、それぞれ設定することはできるが、季語の中でも特に春の季語であるとか、作者の中でも特に江戸時代の作者であるとかいった詳細な設定はできない。そのため、たとえば江戸時代の春の俳句のみを検索するといった多機能な検索ができなかった。

第３に、キーワードと完全に、あるいは部分的にでも同一の文字列を入力しないと目的のコンテンツを検索できないという問題点があった。現状のＪＩＳ−Ｘ４０８１では、たとえば国語辞書内の項目「繰り出し」を「繰出し」「繰出」などで検索することができない。換言するとこれらの文字列による検索を可能とするためには、あらかじめユーザによる入力パターンを予測して、「繰り出し」「繰出し」「繰出」などの複数のキーワードを用意しておかなければならず、データ量や編集コストの増大につながってしまう。上記は送りがなの表記ゆれの例であるが、他の例としてはたとえば外来語の「バイオリン」と「ヴァイオリン」（複数の発音が存在することによる表記ゆれ）、「大沢」と「大澤」（正字のほか旧字、異体字、外字など複数の文字が存在することによる表記ゆれ）などがある。

この発明は、上述した従来技術による問題点を解消するため、情報検索用のインデックスを低コストで作成するとともに、当該インデックスを用いて効率的かつ多面的な情報検索を行うことが可能な情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置を提供することを目的とする。

上述した課題を解決し、目的を達成するため、この発明にかかる情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置は、複数の文節により構成される文字列を検索対象データの中から抽出し、当該文字列からキーワードを生成するとともに、当該キーワードに複数の属性を設定してインデックスデータを生成することを特徴とする。

この発明によれば、たとえば「山路来て何やらゆかしすみれ草（松尾芭蕉）」のような複文節の文字列をそのまま（厳密にはそのままではなく、後述のかなサプレス処理や文字変換処理を経た当該文字列を）キーワードとするので、上記文字列から個々の単語を切り分ける必要がない。

また、この発明にかかる情報検索プログラムおよび当該プログラムを格納するコンピュータ読み取り可能な記録媒体は、ユーザが入力した検索文字列を異なる表記の検索文字列に変換するとともに、複数の文節により構成される文字列から生成されたキーワードを含むインデックスデータの中から前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索することを特徴とする。

この発明によれば、たとえば「繰り出し」のほかに「繰出し」「繰出」など、検索文字列として使用される可能性のあるすべての文字列を事前にキーワードとして用意しておく必要がない。

本発明にかかる情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置によれば、情報検索用のインデックスを低コストで作成するとともに、当該インデックスを用いて効率的かつ多面的な情報検索を行うことができるという効果を奏する。

以下に添付図面を参照して、この発明にかかる情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置の好適な実施の形態を詳細に説明する。

（実施の形態１）
図１は、この発明の実施の形態にかかる情報検索装置のハードウエア構成の一例を示す説明図である。図示するように実施の形態にかかる情報検索装置は、ＣＰＵ１０１、ＲＯＭ１０２、ＲＡＭ１０３、ＨＤＤ（ハードディスクドライブ）１０４、ＨＤ（ハードディスク）１０５、ＦＤＤ（フレキシブルディスクドライブ）１０６、ＦＤ（フレキシブルディスク）１０７、ディスプレイ１０８、ネットワークＩ／Ｆ（インターフェース）１０９、キーボード１１０およびマウス１１１を備えている。また、上記各部はバス１００により接続されている。

図中、ＣＰＵ１０１は装置全体の制御を司る。ＲＯＭ１０２はブートプログラムなどを記憶している。ＲＡＭ１０３はＣＰＵ１０１のワークエリアとして使用される。ＨＤＤ１０４は、ＣＰＵ１０１の制御にしたがってＨＤ１０５に対するデータのリード／ライトを制御する。ＨＤ１０５は、ＨＤＤ１０４の制御にしたがって書き込まれたデータを記憶する。

ＦＤＤ１０６は、ＣＰＵ１０１の制御にしたがってＦＤ１０７に対するデータのリード／ライトを制御する。ＦＤ１０７は、ＦＤＤ１０６の制御にしたがって書き込まれたデータを記憶する。なお、ＦＤ１０７は着脱可能な記録媒体の一例であり、ＦＤ１０７に代えてＣＤ−ＲＯＭ（ＣＤ−Ｒ、ＣＤ−ＲＷ）、ＭＯ、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｋ）、メモリーカードなどであってもよい。

ディスプレイ１０８は、カーソル、ウィンドウ、アイコンなどをはじめ、文書や画像などの各種データを表示する。ネットワークＩ／Ｆ１０９はＬＡＮ／ＷＡＮなどのネットワークに接続され、当該ネットワークと装置内部とのデータの送受信を司る。キーボード１１０は、文字、数字、各種指示などの入力のための複数のキーを備え、押下されたキーに対応するデータを装置内部へ入力する。マウス１１１は本体下部のボールの回転量と回転方向、および本体上部の各ボタンのＯＮ／ＯＦＦを随時装置内部へ入力する。

次に、図２はこの発明の実施の形態１にかかる情報検索装置の機能的構成を示す説明図である。図示するように実施の形態１にかかる情報検索装置は、コンテンツデータ２００、インデックスデータ生成部２０１、変換辞書２０２、属性定義データ２０３、インデックスデータ２０４、キーワードデータ検索部２０５、検索文字列候補データ検索部２０６およびコンテンツデータ表示部２０７を備えている。

まず、コンテンツデータ２００は本装置による検索の対象となるデータである。このコンテンツデータ２００は具体的には俳句辞典であり、下記に示すように、俳句とその作者とが＜ｍｉｄａｓｈｉ＞タグに、解説が＜ｋａｉｓｅｔｓｕ＞タグに、それぞれ記述されているものとする（ＸＭＬ形式）。なお、コンテンツデータ２００は単一のファイルであっても、複数のファイルから構成されるのであってもよい。

＜ｍｉｄａｓｈｉ＞山路来て何やらゆかしすみれ草（松尾芭蕉）＜／ｍｉｄａｓｈｉ＞
＜ｋａｉｓｅｔｓｕ＞・・・・・・＜／ｋａｉｓｅｔｓｕ＞
＜ｍｉｄａｓｈｉ＞柿くへば鐘が鳴るなり法隆寺（正岡子規）＜／ｍｉｄａｓｈｉ＞
＜ｋａｉｓｅｔｓｕ＞・・・・・・＜／ｋａｉｓｅｔｓｕ＞

次に、インデックスデータ生成部２０１はコンテンツデータ２００、およびユーザからの入力データにもとづいて後述するインデックスデータ２０４を生成する機能部である。図示するようにインデックスデータ生成部２０１は、文字列抽出部２０１ａ、表記系キーワード生成部２０１ｂ、かなキーワード生成部２０１ｃおよび属性設定部２０１ｄから構成される。

図３はインデックスデータ生成部２０１によるインデックスデータ生成処理の手順を示すフローチャートである。図３のフローチャートにおいて、インデックスデータ生成部２０１は、まずその文字列抽出部２０１ａにより、コンテンツデータ２００内から後述する表記系キーワードおよびかなキーワードの基礎となるべき文字列、具体的にはその＜ｍｉｄａｓｈｉ＞タグに記述された俳句およびその作者を順次抽出する（ステップＳ３０１）。

なお、以下ではこの文字列抽出部２０１ａにより抽出された文字列を「見出しデータ」という。ここではコンテンツデータ２００が上記のような構造であるため、抽出される見出しデータは常に複文節（少なくとも俳句と作者の２文節を含む）となるが、一般に見出しデータは必ずしも複文節でなくともよく、複文節の見出しデータと単文節の見出しデータとが混在していてもよい（コンテンツデータ２００の種類によって、＜ｍｉｄａｓｈｉ＞タグ内の文字列は複文節であることも単文節であることもあり得る）。

また、ここでは文字列抽出部２０１ａにより自動抽出された見出しデータのみを使用して後述する表記系キーワードおよびかなキーワードを生成するが、これとともにユーザがコンテンツデータ２００から手動で切り出した、あるいは任意に入力した単文節もしくは複文節の文字列からもキーワードを生成するようにしてもよい。

次にインデックスデータ生成部２０１は、その表記系キーワード生成部２０１ｂにより、ステップＳ３０１で得られた見出しデータについてかなサプレス処理を行う（ステップＳ３０２）。かなサプレスとは文字列中の孤立したかな文字を削除する処理をいい、たとえばステップＳ３０１で抽出された見出しデータが「繰り出し」だったとすると、前後を漢字に挟まれた「り」および末尾の「し」が削除される結果、ステップＳ３０２によるかなサプレス後の文字列は「繰出」となる。

なお、本発明において「かな」とは「ひらがな」および「かたかな」の両者を含むものとする。また、かなサプレスにより削除される孤立したかな文字には、前後を漢字に挟まれたかな一文字、末尾のかな一文字のほか、先頭のかな一文字（「お酒」の「お」など）が含まれる。また、必ずしも一文字である必要はなく、前後を漢字に挟まれたＮ個以下の連続するかな文字（列）、先頭あるいは末尾のＮ個以下の連続するかな文字（列）を削除するようにしてもよい。たとえばＮ＝２の場合、「この道を行く人なしに秋の暮（松尾芭蕉）」のかなサプレス後の文字列は「道行人なしに秋暮（松尾芭蕉）」となる。

次にインデックスデータ生成部２０１は、その表記系キーワード生成部２０１ｂにより、変換前の文字と変換後の文字とを対応づけて保持する特定文字変換辞書２０２ａを参照して、かなサプレス後の見出しデータ中の変換前文字を変換後文字に変換する（ステップＳ３０３）。

具体的には、たとえばかたかな「ヴァ」は「バ」、「ヴィ」は「ビ」、「ヴ」は「ブ」、「ヴェ」は「ベ」、「ヴォ」は「ボ」に、正字以外の文字（旧字、異体字、外字など）は正字に、それぞれ置き換える。したがって、たとえばステップＳ３０１で抽出された見出しデータが「屋根の上のヴァイオリン弾き」、ステップＳ３０２によるかなサプレス後の見出しデータが「屋根上ヴァイオリン弾」だったとすると、ステップＳ３０３による文字変換後の見出しデータは「屋根上バイオリン弾」となる。同様に、旧字の「大澤」は正字の「大沢」に変換されることになる。そして、かなサプレスおよび文字変換後の見出しデータ、具体的には「繰出」「屋根上バイオリン弾」「大沢」などが、後述するインデックスデータ２０４中の「表記系キーワード」となる。

なお、特定文字変換辞書２０２ａは正確には、外来語などに含まれる「ヴァ」「ヴィ」「ヴ」「ヴェ」「ヴォ」を「バ」「ビ」「ブ」「ベ」「ボ」に変換するための外来語変換辞書と、正字以外の文字（旧字、異体字、外字など）を正字に変換するための正字変換辞書とに分かれている。もっとも、辞書をこのように分割しているのは主に実用上の理由（具体的には辞書検索の効率化・高速化）からであるので、ここでは特に両者を区別せず、まとめて特定文字変換辞書２０２ａということとする。

通常、キーワードとしては単語（単文節の文字列）を使用するが、本発明ではかなサプレスおよび文字変換後の文字列（単文節であると複文節であるとを問わない）をキーワードとすることで、従来必要であった個々の単語への分割を不要としている。また、後述のようにユーザが入力した検索文字列についてもかなサプレスおよび文字変換を行って、上記キーワードと照合するので、「繰り出し／繰出し／繰出」「バイオリン／ヴァイオリン」「大沢／大澤」といったあらゆる入力パターンを事前に予測する必要がなく、インデックスデータ２０４の容量の縮小、およびその編集コストの削減を実現できる。

また、本発明ではこの表記系キーワードのほかに、かなキーワードを用意して、かな文字列による検索も可能なようにしている。ステップＳ３０４〜Ｓ３０５はこのかなキーワードの生成にかかる処理である（なお、ステップＳ３０２〜Ｓ３０３とステップＳ３０４〜Ｓ３０５との順序は入れ替わっていてもよい）。

すなわち、インデックスデータ生成部２０１はその表記系キーワード生成部２０１ｂにより、上述の見出しデータから表記系キーワードを生成する一方、そのかなキーワード生成部２０１ｃにより、見出しデータのうちの漢字文字列および漢字かな混じり文字列を、漢字かな変換辞書２０２ｂを参照してかな文字列に変換する（ステップＳ３０４）。このとき、かなに変換できない（漢字かな変換辞書２０２ｂにない）漢字があった場合は警告を表示する。

なお、漢字かな変換辞書２０２ｂは正確には、一般によく使用される語彙からなる「標準漢字かな変換辞書」と、使用頻度の低い語彙や特定のコンテンツに特有の語彙などからなる「難読漢字かな変換辞書」とに分かれている。もっとも、辞書をこのように分割しているのは主に実用上の理由（具体的には辞書検索の効率化・高速化）からであるので、ここでは特に両者を区別せず、まとめて漢字かな変換辞書２０２ｂということとする。

次にかなキーワード生成部２０１ｃは、上記変換後のかな文字列をあらかじめ指定されたパラメータにしたがってさらに変換することで、その表記形式を統一する（ステップＳ３０５）。このパラメータとしては、たとえば、ひらがなをかたかなに変換する、長音を省略する、濁音および／または半濁音を清音に変換する、促音および／または拗音を大文字に変換するなどがある。

これらのパラメータがすべてＯＮに設定されていた場合、たとえばステップＳ３０１で抽出された見出しデータが「繰り出し」だったとすると、当該文字列はステップＳ３０４で「くりだし」、ステップＳ３０５でさらに「クリタシ」に変換されることになる。そしてこの「クリタシ」が、後述するインデックスデータ２０４中の「かなキーワード」となる。

上述の処理で得られた表記系キーワードとかなキーワードを、それぞれコンテンツデータ２００内におけるその抽出箇所（当該キーワードの基礎となった見出しデータが抽出された箇所）と対応づけてインデックスデータ２０４とすることで、任意のキーワードによるコンテンツデータ２００の検索は実現できる。しかし本発明では、さらに上記各キーワードに任意の属性を設定することで、属性からのコンテンツデータ２００の検索も可能なようにする。そして、この属性の設定を制御するのが属性設定部２０１ｄであり、キーワードに設定可能な各属性の名称とその階層構造とを定義するのが属性定義データ２０３である。

属性設定部２０１ｄは、キーワードに設定可能な各属性の名称とその階層構造とを属性定義データ２０３から読み出して、たとえば図４のような属性設定画面を表示する。そしてこの画面により、ユーザからの属性の入力を受け付ける（ステップＳ３０６）。

一単語であっても事情は同じであるが、本発明では特にキーワードが「俳句＋作者」のような複文節であるため、一つのキーワードについて、様々な観点から様々な属性を付与できる場合が多い。たとえば「山路来何やらゆかしすみれ草（松尾芭蕉）」であれば、「季語」という観点では、春の季語「すみれ」を含むことからその属性は「春」であり、また季語の中でも特に花の季語を含むことから、その属性は「花」である。また、「作者」という観点では「江戸時代」「男性」「薫風」など、松尾芭蕉に付随する多数の属性が考えられる。

そこで本発明では、一つのキーワードについて、属性定義データ２０３中の複数の属性を設定できるようにする。一キーワードあたりに設定できる属性の個数は任意（無限）である。逆に、あるキーワードにつき何らの属性も設定しないことも可能である。

たとえばユーザが図４の一覧で、「山路来て何やらゆかしすみれ草（松尾芭蕉）」を指定した状態で、季語の観点から「春」と「花」、作者の観点から「江戸時代」「男性」「薫風」を、それぞれ選択の上「設定」ボタン４００を押下したとすると、当該入力を受け付けた属性設定部２０１ｄは、上記文字列から生成された表記系キーワードおよびかなキーワードに、選択された属性を示すＩＤを下記のように設定する（ステップＳ３０７）。

＜属性設定前＞
山路来何やらゆかしすみれ草（松尾芭蕉）
ヤマシキテナニヤラユカシスミレクサ（マツオハシヨウ）

＜属性設定後＞
山路来何やらゆかしすみれ草（松尾芭蕉）［Ｓｈｉｆｔ］春花江男薫
ヤマシキテナニヤラユカシスミレクサ（マツオハシヨウ）［Ｓｈｉｆｔ］春花江男薫

区切り文字であるＳｈｉｆｔコード（［Ｓｈｉｆｔ］）以降に「春」「花」などとあるのが、表記系キーワードあるいはかなキーワードに付与された属性のＩＤである。ここでは「春」「花」など漢字一文字を属性ＩＤとしているが、たとえば各属性に連番を付与しておき、選択された属性の番号をＳｈｉｆｔコードの後に列挙するようにしてもよい。漢字一文字の表現には通常２バイト必要であるので、属性の個数が６５５３６個（２の１６乗）を超えない限り、番号で属性を指定したほうがデータ量面では有利である。

なお、各キーワードについて複数の属性を保持するだけであれば、上記のような形式でなく、たとえばキーワードを格納するＲＤＢ（リレーショナルデータベース）に「春」「花」など個々の属性ごとのフィールドを設けるようにしてもよい。しかしながらこの場合、設定できる属性の個数に比例してＤＢが巨大化するとともに、たとえば属性を一つ追加するだけでＤＢ全体の再編成が必要となる。

これを避けるため、たとえば「属性」というフィールドを一つだけ設け、その中に「春」「花」など各キーワードに設定されている属性ＩＤを格納するようにしてもよい（上述の特許文献１は画像の属性として任意の単語を設定するものであるが、原理的にはこの方式である）。しかしながらこの方式では、まったく属性の設定されていないキーワードが大部分である中に、多数の属性を有するキーワードが混在しているような場合、一部のキーワードのためだけに「属性」フィールドを確保しなければならず、検索効率とともにメモリやディスクの使用効率も悪化する。上記のように、属性の設定されたキーワードに設定された属性のＩＤのみを付加することで、最小限のコストで属性からのコンテンツ検索を実現できる。

なお、本発明では表記系キーワードやかなキーワードだけでなく、さらに見出しデータを構成する個々の単語などについても属性を設定できるようにする。上述のように本発明においては、形態素解析などによる単語の切り分けが不要である点が一つのメリットであるが、逆にユーザがそれを望む場合にまで切り分けを禁止する趣旨ではない。たとえば図４の画面で、「山路来て何やらゆかしすみれ草（松尾芭蕉）」の全体でなく、「すみれ」
の一単語のみが指定された状態で属性「春」および「花」が選択されると、属性設定部２０１ｄは
すみれ［Ｓｈｉｆｔ］春花
のような一連のデータを生成する。そしてこのデータは、後述する「検索文字列候補データ」として、インデックスデータ２０４に組み入れられる。

次にインデックスデータ生成部２０１は、上記で得られた見出しデータ、（属性つき）表記系キーワード、（属性つき）かなキーワード、および検索文字列候補データから、図５に模式的に示すようなインデックスデータ２０４を生成する（ステップＳ３０８）。図示するようにインデックスデータ２０４は、大別してキーワードデータ、見出しデータ、および検索文字列候補データの３つから構成される。

図中、「キーワードデータ」内の「キーワード収録パラメータ」とは、上記キーワードの生成・収録時のパラメータ、具体的にはステップＳ３０２のかなサプレスで連続する何個のかなを削除したか（上述のＮの値）や、ステップＳ３０３でどの文字を変換したか（「ヴァ」行→「バ」行変換のみ／正字変換のみ／「ヴァ」行→「バ」行変換および正字変換、など）、あるいはステップＳ３０５のかな→かな変換処理で使用された上述のパラメータのＯＮ／ＯＦＦなどから構成される。また、「上位インデックス」はキーワードのグループ（たとえば「さ行」の文字から始まるキーワードなど）ごとに設定され、もっぱらインデックスデータ２０４の検索の高速化を目的とするものである。

また、図示するようにインデックスデータ２０４として、キーワードのほかその基礎となった「見出しデータ」も保持しておくのは、検索結果一覧中でキーワードの代わりにこの見出しデータを使用するためである。

たとえば見出しデータ「古池や蛙飛び込む水の音（松尾芭蕉）」から得られた表記系キーワード「古池蛙飛込水音（松尾芭蕉）」は、漢字間の一文字のかなが削除されているため、検索結果としてそのままユーザに提示するには適さない。また、対応するかなキーワード「フルイケヤカワストヒコムミスノオト（マツオハシヨウ）」もステップＳ３０５のような加工がされているため、本来は濁音であるべき箇所が清音化しているなど、そのまま表示しても分かりにくいことが多い。

そこでインデックスデータ２０４内に見出しデータ「古池や蛙飛び込む水の音（松尾芭蕉）」を保持しておき、表記系キーワード「古池蛙飛込水音（松尾芭蕉）」およびかなキーワード「フルイケヤカワストヒコムミスノオト（マツオハシヨウ）」のそれぞれに当該データへのポインタを対応づけておく。そして検索結果一覧では、ヒットしたキーワードそのものでなく、そのリンク先の見出しデータを表示するようにする。なお、この見出しデータにさらにその抽出箇所（コンテンツデータ２００内での抽出箇所）へのポインタを対応づけることで、検索結果一覧中の個々の見出しデータからコンテンツデータ２００を頭出しできるようにする。

図２に戻り、次にキーワードデータ検索部２０５は、ユーザが入力した検索条件にしたがってインデックスデータ２０４（のうち特にキーワードデータ）を検索する機能部である。図示するようにキーワードデータ検索部２０５は、入出力部２０５ａ、文字列変換部２０５ｂ、文字列検索部２０５ｃ、属性検索部２０５ｄ、絞り込み部２０５ｅおよび結果一覧作成部２０５ｆから構成される。

図６はキーワードデータ検索部２０５によるインデックスデータ検索処理の手順を示すフローチャートである。キーワードデータ検索部２０５は、まずその入出力部２０５ａにより、所定の検索画面を表示してユーザからの検索条件の入力を受け付ける（ステップＳ６０１）。この検索条件としては、任意の文字列（単文節であると複文節であるとを問わない。なお、以下ではこの文字列を「検索文字列」という）、あるいは属性定義データ２０３で定義された任意の属性が指定可能である。また、ＡＮＤやＯＲなどで複数の条件を組み合わせることもできる。

次に、キーワードデータ検索部２０５はその文字列変換部２０５ｂにより、上記で入力された検索条件中の検索文字列（もしあれば）を下記のように変換することで、後述する文字列検索部２０５ｃが使用する照合用データを作成する（ステップＳ６０２）。

（１）検索文字列にかな以外の文字が含まれている場合
この場合、後述する文字列検索部２０５ｃはインデックスデータ２０４中の表記系キーワードを検索する（検索文字列を表記系キーワードとマッチングする）ので、文字列変換部２０５ｂは検索文字列を、表記系キーワードの生成・収録時と同一の手順で変換したものを照合用データとする。すなわち、たとえば検索文字列が「屋根の上のヴァイオリン弾き」だったとすると、当該文字列中の孤立したかなを削除して「屋根上ヴァイオリン弾」とした後、さらに特定文字変換辞書２０２ａに登録されている「ヴァ」を「バ」に変換して、最終的に「屋根上バイオリン弾」とする。

（２）検索文字列に含まれる文字がかなのみの場合
この場合、後述する文字列検索部２０５ｃはインデックスデータ２０４中のかなキーワードを検索する（検索文字列をかなキーワードとマッチングする）ので、文字列変換部２０５ｂは検索文字列を、かなキーワードの生成・収録時と同一の手順で変換したものを照合用データとする。たとえば、かなキーワードの生成にあたって上述の４つのパラメータがすべてＯＮだった場合、検索文字列「やねのうえのばいおりんひき」は「ヤネノウエノハイオリンヒキ」に変換されることになる。

次に、キーワードデータ検索部２０５はその文字列検索部２０５ｃにより、インデックスデータ２０４内のキーワードのうち、上記で作成された照合用データと完全一致または部分一致するものを検索する（ステップＳ６０３）。部分一致のパターンとしては、たとえば照合用データがキーワード中のある文節と完全一致する場合、ある文節と前方一致する場合、ある文節と後方一致する場合、あるいは文節とは無関係に、照合用データがキーワードの一部と一致する場合などがある。なお、部分一致のパターンをユーザが検索時に指定できるようにしてもよい。

次に、キーワードデータ検索部２０５はその属性検索部２０５ｄにより、検索条件中の属性（もしあれば）でインデックスデータ２０４を検索して、当該属性が付与されているキーワードを検索する（ステップＳ６０４）。なお、ステップＳ６０３で表記系キーワードを検索した場合はステップＳ６０４でも表記系キーワードを、かなキーワードを検索した場合はかなキーワードを、それぞれ検索する。

その後、キーワードデータ検索部２０５はその絞り込み部２０５ｅにより、文字列検索部２０５ｃによる検索結果と属性検索部２０５ｄによる検索結果との双方に共通するキーワードを絞り込む（ステップＳ６０５）。次に結果一覧作成部２０５ｆにより、上記で絞り込まれたキーワードのリンク先である見出しデータを順次読み出し（ステップＳ６０６）、これらの一覧である検索結果一覧を作成する（ステップＳ６０７）。そして、作成した検索結果一覧を入出力部２０５ａにより画面表示する（ステップＳ６０８）。

図２に戻り、次に検索文字列候補データ検索部２０６は、インデックスデータ２０４（のうち特に検索文字列候補データ）の中からユーザが指定した属性を有するもの（検索文字列候補）を検索する機能部である。特に俳句辞典などの場合、ユーザが検索文字列として適切な語句を思いつけない場合があるので、たとえば「春」「花」など特定の属性を付与された検索文字列候補データを一覧表示することで、ユーザによる検索文字列の入力を支援する。

図７は検索文字列候補データ検索部２０６によるインデックスデータ検索処理の手順を示すフローチャートである。検索文字列候補データ検索部２０６は、まずその入出力部２０６ａにより、図８に示すような検索文字列候補画面を表示して、ユーザからの属性の入力を受け付ける（ステップＳ７０１）。

図示するように上記画面では、属性定義データ２０３で定義されている属性が一覧表示される。そして、ユーザがこの中から任意の属性を選択して「候補表示」ボタン８００を押下すると、これをその入出力部２０６ａで検知した検索文字列候補データ検索部２０６は、次にその属性検索部２０６ｂにより、インデックスデータ２０４内の検索文字列候補データから、上記で選択された属性を有するものを検索する（ステップＳ７０２）。そして、さらにその候補一覧作成部２０６ｃにより、上記検索にヒットした検索文字列候補データの一覧を作成するとともに（ステップＳ７０３）、当該一覧をその入出力部２０６ａにより、図８の画面の候補一覧表示エリア８０１（初期状態では空欄）に表示する（ステップＳ７０４）。

この図８の画面で、ユーザがいずれかの文字列を指定した状態で「追加」ボタン８０２を押下するか、あるいは直接、検索文字列入力エリア８０３に任意の文字列を入力して「検索」ボタン８０４を押下すると（ステップＳ７０５：Ｙｅｓ）、これをその入出力部２０６ａで検知した検索文字列候補データ検索部２０６は、キーワードデータ検索部２０５を呼び出して、検索文字列入力エリア８０３内の文字列を検索文字列とする検索を実行させる（図６ステップＳ６０２へ移行）。すなわちこれを受けたキーワードデータ検索部２０５は、上記検索文字列から照合用データを作成するとともに、インデックスデータ２０４の中から当該文字列を含むキーワードを検索して、当該キーワードに対応する見出しデータからなる検索結果一覧を作成する。

図２に戻り、次にコンテンツデータ表示部２０７は、キーワードデータ検索部２０５から指示されたコンテンツデータ２００を画面表示する機能部である。キーワードデータ検索部２０５は、その入出力部２０５ａにより、上述の検索結果一覧中でいずれかの見出しデータがクリックされたことを検知すると、インデックスデータ２０４を検索して、当該見出しデータに対応するコンテンツデータ２００へのポインタを取得する。次にコンテンツデータ表示部２０７に、上記ポインタで特定されるコンテンツデータ２００を画面表示するよう指示する。そしてこれを受けたコンテンツデータ表示部２０７が、その読み込み部２０７ａにより、コンテンツデータ２００の中から指示されたコンテンツデータ２００を読み込むとともに、その入出力部２０７ｂにより当該データを画面表示する。

以上説明した実施の形態１によれば、従来必要であった見出しからの単語の切り分けや、「繰り出し」「繰出し」「繰出」といった様々なバリエーションの収録が不要で、コンテンツ検索に必要なインデックスをコンパクトに、かつ低コストで作成できる。しかも各キーワードに複数の属性を設定できるので、コンテンツをこれらの属性から多面的に検索することが可能である。さらに、たとえば法律用語集など専門性の高いコンテンツでは、ユーザが検索文字列そのものを正確に思い出せない場合があるが、本発明ではその候補となる文字列を一覧表示するので、専門外のユーザでも容易に検索を実行することができる。

なお、上述した実施の形態１では「繰り出し」「繰出し」「繰出」のように比較的微小な表記の差異（表記ゆれ）を想定しているため、たとえば正式名称である「雇用の分野における男女の均等な機会及び待遇の確保等に関する法律」を、意味的には同一でも表記は大きく異なる「雇用機会均等法」や「雇均法」から検索することまではできない。

そして従来はこれを可能とするため、「雇用の分野における男女の均等な機会及び待遇の確保等に関する法律」について考え得る、様々な略語・略称・通称などを事前にキーワードとして用意していたのであるが、元の文字列中のどの文字が、どのような順序で組み合わされて略語となるかはしばしば予測が困難であった（地方や方言などによっても略語には様々なバリエーションが存在する）。

そこでたとえば図６のステップＳ６０２における検索文字列の変換（照合用データの作成）時に、一つの検索文字列を分割して複数の照合用データを作成し、それぞれの照合用データによりキーワードを検索するようにしてもよい。

たとえば検索文字列が「雇均法」だった場合、上述のかなサプレスおよび文字変換後の当該文字列をさらに一文字ずつに分割して、「雇」「均」「法」の３つの照合用データを作成する。なお、検索文字列を分割するか否かをユーザが検索時に指定できるようにしてもよい。たとえば検索画面に「検索」ボタンと「略語検索」ボタンの２つを設け、「検索」ボタンが押下されたときは、検索文字列「雇均法」を分割せず照合用データ「雇均法」で検索を行い、「略語検索」ボタンが押下されたときは、検索文字列「雇均法」を照合用データ「雇」「均」「法」に分割してそれぞれで検索を行う。なお、必ずしも文字単位で分割する必要はなく、たとえば「雇用機会均等法」であれば「雇用」「機会」「均等」「法」のように、文節単位で分割することももちろん可能である。

そして、たとえば「「雇」でヒットしたキーワード∩「均」でヒットしたキーワード∩「法」でヒットしたキーワード」を求め、当該キーワードに対応する見出しデータの一覧を検索結果一覧とする。これにより、検索文字列「雇均法」から、「雇用の分野における男女の均等な機会及び待遇の確保等に関する法律」のように「雇」「均」「法」のすべてを順不同で含む見出しデータ（および当該見出しデータと対応づけられたコンテンツ）を検索することが可能となる。すなわち表記ゆれの範疇にとどまらない、大きな表記の差異にも、本発明は照合用データの作成にいわば一手間かけるだけで容易に対応できる。

なお、図２に示した各機能部は必ずしも同一の装置内に存在する必要はない。たとえばコンテンツデータ２００・インデックスデータ２０４およびこれらの検索ツールをＣＤ−ＲＯＭに格納して顧客に販売する形態では、メーカー側のサーバなどにコンテンツデータ２００、インデックスデータ生成部２０１、変換辞書２０２、属性定義データ２０３およびインデックスデータ２０４が存在し、上記ＣＤ−ＲＯＭを組み込まれた顧客側のＰＣなどにコンテンツデータ２００、変換辞書２０２、属性定義データ２０３、インデックスデータ２０４、キーワードデータ検索部２０５、検索文字列候補データ検索部２０６およびコンテンツデータ表示部２０７が存在することになる。

（実施の形態２）
さて上述した実施の形態１では、俳句辞典などあらかじめ用意されたコンテンツデータ２００を検索対象としたが、以下で説明する実施の形態２のように、検索対象はたとえばユーザがＲＳＳリーダで自動収集したＲＳＳ（ＲＤＦＳｉｔｅＳｕｍｍａｒｙ／ＲｉｃｈＳｉｔｅＳｕｍｍａｒｙ／ＲｅａｌｌｙｓｉｍｐｌｅＳｙｎｄｉｃａｔｉｏｎ）であってもよい。

この発明の実施の形態２にかかる情報検索装置のハードウエア構成は、図１に示した実施の形態１のそれと同一であるので説明を省略する。図９は、この発明の実施の形態２にかかる情報検索装置の機能的構成を示す説明図である。

まずＲＳＳデータ９００は、Ｗｅｂサイトの見出し（ｔｉｔｌｅ）や概要（ｄｅｓｃｒｉｐｔｉｏｎ）、さらには当該Ｗｅｂサイトを構成する各項目の見出しや概要などが記述されたＸＭＬファイルである。ＲＳＳデータ９００はＷｅｂサイト内の全情報のサマリーであってもよいが、ある時点以降に当該サイトに追加された情報（新着ニュースなど）のみのサマリーであってもよい。なお、ＲＳＳデータ９００のデータ構造は公知であるので、ここでは詳細な説明を省略する。

次に、インデックスデータ生成部９０１の機能は、図２に示した実施の形態１のインデックスデータ生成部２０１と同一である（処理対象がコンテンツデータ２００であるかＲＳＳデータ９００であるかの差異にすぎない）。またインデックスデータ生成部９０１が使用するデータ、具体的には変換辞書９０２や属性定義データ９０３も図２の変換辞書２０２や属性定義データ２０３と同一である。したがって図９のインデックスデータ９０４も、図２のインデックスデータ２０４と同様の構成となり、当該データを検索するキーワードデータ検索部９０５や検索文字列候補データ検索部９０６の機能も、図２のキーワードデータ検索部２０５や検索文字列候補データ検索部２０６の機能と同一となる。

次に、ＲＳＳデータ収集部９０７およびＲＳＳデータ表示部９０８は、いずれも既存のＲＳＳリーダにより実現され、前者はあらかじめ指定されたＵＲＬを巡回して、上述のＲＳＳデータ９００を収集する機能部、後者はその読み込み部９０８ａにより、収集されたＲＳＳデータ９００を読み込むとともに、その入出力部９０８ｂにより、図１０に示すようなリーダ画面を表示する機能部である。

図１０中、エリア１０００には巡回先として指定されたＷｅｂサイトの一覧が、エリア１００１にはエリア１０００で選択中のサイトのＲＳＳに記述された見出しが、エリア１００２にはエリア１００２で選択中の見出しに対応する概要が、それぞれ表示されている。そしてＲＳＳデータ表示部９０８の入出力部９０８ｂは、図示する画面でＲＳＳデータ９００の検索が指示されたこと（具体的にはプルダウンメニューの「検索」が選択されたこと）を検知すると、キーワードデータ検索部９０５に指示して、図６に示したインデックスデータ検索処理を実行させる。なお、図１１は上記処理の結果、ステップＳ６０８で表示される検索結果一覧画面１１００の一例を示す説明図である。

図９に戻り、次にＷｅｂサイト表示部９０９は、キーワードデータ検索部９０５やＲＳＳデータ表示部９０８から指示されたＷｅｂサイトを画面表示する機能部である。図１０のリーダ画面や図１１の検索結果一覧画面１１００でいずれかの見出しデータがクリックされると、これを検知したキーワードデータ検索部９０５やＲＳＳデータ表示部９０８から、Ｗｅｂサイト表示部９０９へ上記データに対応するＵＲＬが通知される。そしてＷｅｂサイト表示部９０９は、その読み込み部９０９ａによりインターネットに接続して、上記ＵＲＬで特定されるファイルを読み込むとともに、その入出力部９０９ｂにより当該ファイルを画面表示する。

以上説明した実施の形態２によれば、辞書・辞典などあらかじめ用意されたコンテンツに限らず、たとえば既存のＲＳＳリーダと連携することで、刻々と変化する上に必ずしも語彙の統制が取れていないインターネット上の情報からでも、ユーザが必要とする情報を容易にかつ漏れなく検索することが可能となる。

なお、本実施の形態で説明した情報検索方法は、あらかじめ用意されたプログラムをパーソナル・コンピュータやワークステーション等のコンピュータで実行することにより実現することができる。このプログラムは、ハードディスク、フレキシブルディスク、ＣＤ−ＲＯＭ、ＭＯ、ＤＶＤ等のコンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。またこのプログラムは、インターネット等のネットワークを介して配布することが可能な伝送媒体であってもよい。

（付記１）複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
前記文字列抽出工程で抽出された文字列からキーワードを生成するキーワード生成工程と、
前記キーワード生成工程で生成されたキーワードに複数の属性を設定する属性設定工程と、
前記属性設定工程で属性を設定されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
をコンピュータに実行させることを特徴とする情報検索プログラム。

（付記２）前記キーワード生成工程では、前記文字列抽出工程で抽出された文字列中において、前後を漢字に挟まれた所定の個数以下の連続するかな文字、または、先頭あるいは末尾の所定の個数以下の連続するかな文字（以下「孤立したかな文字」という）を削除することで当該文字列から前記キーワードを生成することを特徴とする前記付記１に記載の情報検索プログラム。

（付記３）前記キーワード生成工程では、前記文字列抽出工程で抽出された文字列中の第１の文字を第２の文字に変換することで当該文字列から前記キーワードを生成することを特徴とする前記付記１に記載の情報検索プログラム。

（付記４）さらに、前記文字列抽出工程で抽出された文字列中の漢字をかなに変換することで当該文字列からかなキーワードを生成するかなキーワード生成工程を含み、
前記属性設定工程では、前記キーワード生成工程で生成されたキーワードおよび前記かなキーワード生成工程で生成されたかなキーワードに複数の属性を設定するとともに、
前記インデックスデータ生成工程では、前記属性設定工程で属性を設定されたキーワードおよびかなキーワードを含むインデックスデータを生成することを特徴とする前記付記１〜付記３のいずれか一つに記載の情報検索プログラム。

（付記５）前記属性設定工程では、前記キーワード生成工程で生成されたキーワードまたは前記かなキーワード生成工程で生成されたかなキーワードのほか前記検索対象データの中からユーザが指定した文字列に少なくとも一つの属性を設定するとともに、
前記インデックスデータ生成工程では、前記属性設定工程で属性を設定されたキーワードまたはかなキーワードおよび前記文字列を含むインデックスデータを生成することを特徴とする前記付記１〜付記４のいずれか一つに記載の情報検索プログラム。

（付記６）複数の文節により構成される文字列から生成されたキーワードを含むインデックスデータにもとづいて検索対象データを検索する情報検索プログラムであって、
ユーザが入力した検索文字列を異なる表記の検索文字列に変換する文字列変換工程と、
前記インデックスデータの中から前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索工程と、
をコンピュータに実行させることを特徴とする情報検索プログラム。

（付記７）前記文字列変換工程では、前記検索文字列中において、前後を漢字に挟まれた所定の個数以下の連続するかな文字、または、先頭あるいは末尾の所定の個数以下の連続するかな文字（以下「孤立したかな文字」という）を削除することで当該文字列を前記異なる表記の検索文字列に変換することを特徴とする前記付記６に記載の情報検索プログラム。

（付記８）前記文字列変換工程では、前記検索文字列中の第１の文字を第２の文字に変換することで当該文字列を前記異なる表記の検索文字列に変換することを特徴とする前記付記６に記載の情報検索プログラム。

（付記９）さらに、前記検索対象データ内の文字列であってユーザが指定した属性を設定されているものを前記インデックスデータの中から検索する検索文字列候補検索工程と、
前記検索文字列候補検索工程で検索された文字列を一覧表示する検索文字列候補表示工程と、
をコンピュータに実行させることを特徴とする前記付記６〜付記８のいずれか一つに記載の情報検索プログラム。

（付記１０）複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
前記文字列抽出工程で抽出された文字列中において、前後を漢字に挟まれた所定の個数以下の連続するかな文字、または、先頭あるいは末尾の所定の個数以下の連続するかな文字（以下「孤立したかな文字」という）を削除することで当該文字列からキーワードを生成するキーワード生成工程と、
前記キーワード生成工程で生成されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
ユーザが入力した検索文字列中の前記孤立したかな文字を削除することで当該文字列を異なる表記の検索文字列に変換する文字列変換工程と、
前記インデックスデータ生成工程で生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索工程と、
をコンピュータに実行させることを特徴とする情報検索プログラム。

（付記１１）複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
前記文字列抽出工程で抽出された文字列中の第１の文字を第２の文字に変換することで当該文字列からキーワードを生成するキーワード生成工程と、
前記キーワード生成工程で生成されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
ユーザが入力した検索文字列中の前記第１の文字を前記第２の文字に変換することで当該文字列を異なる表記の検索文字列に変換する文字列変換工程と、
前記インデックスデータ生成工程で生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索工程と、
をコンピュータに実行させることを特徴とする情報検索プログラム。

（付記１２）前記付記１〜付記１１のいずれか一つに記載のプログラムを格納するコンピュータ読み取り可能な記録媒体。

（付記１３）複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
前記文字列抽出工程で抽出された文字列からキーワードを生成するキーワード生成工程と、
前記キーワード生成工程で生成されたキーワードに複数の属性を設定する属性設定工程と、
前記属性設定工程で属性を設定されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
を含むことを特徴とする情報検索方法。

（付記１４）複数の文節により構成される文字列から生成されたキーワードを含むインデックスデータにもとづいて検索対象データを検索する情報検索方法であって、
ユーザが入力した検索文字列を異なる表記の検索文字列に変換する文字列変換工程と、
前記インデックスデータ生成工程で生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索工程と、
を含むことを特徴とする情報検索方法。

（付記１５）複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
前記文字列抽出工程で抽出された文字列中において、前後を漢字に挟まれた所定の個数以下の連続するかな文字、または、先頭あるいは末尾の所定の個数以下の連続するかな文字（以下「孤立したかな文字」という）を削除することで当該文字列からキーワードを生成するキーワード生成工程と、
前記キーワード生成工程で生成されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
ユーザが入力した検索文字列中の前記孤立したかな文字を削除することで当該文字列を異なる表記の検索文字列に変換する文字列変換工程と、
前記インデックスデータ生成工程で生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索工程と、
を含むことを特徴とする情報検索方法。

（付記１６）複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
前記文字列抽出工程で抽出された文字列中の第１の文字を第２の文字に変換することで当該文字列からキーワードを生成するキーワード生成工程と、
前記キーワード生成工程で生成されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
ユーザが入力した検索文字列中の前記第１の文字を前記第２の文字に変換することで当該文字列を異なる表記の検索文字列に変換する文字列変換工程と、
前記インデックスデータ生成工程で生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索工程と、
を含むことを特徴とする情報検索方法。

（付記１７）複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出手段と、
前記文字列抽出手段により抽出された文字列からキーワードを生成するキーワード生成手段と、
前記キーワード生成手段により生成されたキーワードに複数の属性を設定する属性設定手段と、
前記属性設定手段により属性を設定されたキーワードを含むインデックスデータを生成するインデックスデータ生成手段と、
を備えることを特徴とする情報検索装置。

（付記１８）複数の文節により構成される文字列から生成されたキーワードを含むインデックスデータにもとづいて検索対象データを検索する情報検索装置であって、
ユーザが入力した検索文字列を異なる表記の検索文字列に変換する文字列変換手段と、
前記インデックスデータ生成手段により生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索手段と、
を備えることを特徴とする情報検索装置。

（付記１９）複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出手段と、
前記文字列抽出手段により抽出された文字列中において、前後を漢字に挟まれた所定の個数以下の連続するかな文字、または、先頭あるいは末尾の所定の個数以下の連続するかな文字（以下「孤立したかな文字」という）を削除することで当該文字列からキーワードを生成するキーワード生成手段と、
前記キーワード生成手段により生成されたキーワードを含むインデックスデータを生成するインデックスデータ生成手段と、
ユーザが入力した検索文字列中の前記孤立したかな文字を削除することで当該文字列を異なる表記の検索文字列に変換する文字列変換手段と、
前記インデックスデータ生成手段により生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索手段と、
を備えることを特徴とする情報検索装置。

（付記２０）複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出手段と、
前記文字列抽出手段により抽出された文字列中の第１の文字を第２の文字に変換することで当該文字列からキーワードを生成するキーワード生成手段と、
前記キーワード生成手段により生成されたキーワードを含むインデックスデータを生成するインデックスデータ生成手段と、
ユーザが入力した検索文字列中の前記第１の文字を前記第２の文字に変換することで当該文字列を異なる表記の検索文字列に変換する文字列変換手段と、
前記インデックスデータ生成手段により生成されたインデックスデータの中から、前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索手段と、
を備えることを特徴とする情報検索装置。

以上のように、本発明にかかる情報検索プログラム、当該プログラムを格納するコンピュータ読み取り可能な記録媒体、情報検索方法、および情報検索装置は、必ずしも見出しが単文節であるとは限らない検索対象データのインデックスの作成、および当該インデックスの検索に有用であり、特に当該見出しが、古語、専門用語あるいは新語など従来技術による自動切り分けが難しい語彙からなる場合に適している。

この発明の実施の形態にかかる情報検索装置のハードウエア構成の一例を示す説明図である。この発明の実施の形態１にかかる情報検索装置の機能的構成を示す説明図である。インデックスデータ生成部２０１によるインデックスデータ生成処理の手順を示すフローチャートである。属性設定画面の一例を示す説明図である。インデックスデータ２０４の構造を模式的に示す説明図である。キーワードデータ検索部２０５によるインデックスデータ検索処理の手順を示すフローチャートである。検索文字列候補データ検索部２０６によるインデックスデータ検索処理の手順を示すフローチャートである。検索文字列候補画面の一例を示す説明図である。この発明の実施の形態２にかかる情報検索装置の機能的構成を示す説明図である。リーダ画面の一例を示す説明図である。検索結果一覧画面１１００の一例を示す説明図である。

符号の説明

１００バス
１０１ＣＰＵ
１０２ＲＯＭ
１０３ＲＡＭ
１０４ＨＤＤ
１０５ＨＤ
１０６ＦＤＤ
１０７ＦＤ
１０８ディスプレイ
１０９ネットワークＩ／Ｆ
１１０キーボード
１１１マウス
２００コンテンツデータ
２０１，９０１インデックスデータ生成部
２０１ａ，９０１ａ文字列抽出部
２０１ｂ，９０１ｂ表記系キーワード生成部
２０１ｃ，９０１ｃかなキーワード生成部
２０１ｄ，９０１ｄ属性設定部
２０２，９０２変換辞書
２０２ａ，９０２ａ特定文字変換辞書
２０２ｂ，９０２ｂ漢字かな変換辞書
２０３，９０３属性定義データ
２０４，９０４インデックスデータ
２０５，９０５キーワードデータ検索部
２０５ａ，９０５ａ入出力部
２０５ｂ，９０５ｂ文字列変換部
２０５ｃ，９０５ｃ文字列検索部
２０５ｄ，９０５ｄ属性検索部
２０５ｅ，９０５ｅ絞り込み部
２０５ｆ，９０５ｆ結果一覧作成部
２０６，９０６検索文字列候補データ検索部
２０６ａ，９０６ａ入出力部
２０６ｂ，９０６ｂ属性検索部
２０６ｃ，９０６ｃ候補一覧作成部
９００ＲＳＳデータ
９０７ＲＳＳ収集部
９０８ＲＳＳデータ表示部
９０８ａ読み込み部
９０８ｂ入出力部
９０９Ｗｅｂサイト表示部
９０９ａ読み込み部
９０９ｂ入出力部

Claims

複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
前記文字列抽出工程で抽出された文字列からキーワードを生成するキーワード生成工程と、
前記キーワード生成工程で生成されたキーワードに複数の属性を設定する属性設定工程と、
前記属性設定工程で属性を設定されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
をコンピュータに実行させることを特徴とする情報検索プログラム。
複数の文節により構成される文字列から生成されたキーワードを含むインデックスデータにもとづいて検索対象データを検索する情報検索プログラムであって、
ユーザが入力した検索文字列を異なる表記の検索文字列に変換する文字列変換工程と、
前記インデックスデータの中から前記異なる表記の検索文字列と完全一致または部分一致するキーワードを検索する文字列検索工程と、
をコンピュータに実行させることを特徴とする情報検索プログラム。
前記請求項１または請求項２に記載のプログラムを格納するコンピュータ読み取り可能な記録媒体。
複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出工程と、
前記文字列抽出工程で抽出された文字列からキーワードを生成するキーワード生成工程と、
前記キーワード生成工程で生成されたキーワードに複数の属性を設定する属性設定工程と、
前記属性設定工程で属性を設定されたキーワードを含むインデックスデータを生成するインデックスデータ生成工程と、
を含むことを特徴とする情報検索方法。
複数の文節により構成される文字列を検索対象データの中から抽出する文字列抽出手段と、
前記文字列抽出手段により抽出された文字列からキーワードを生成するキーワード生成手段と、
前記キーワード生成手段により生成されたキーワードに複数の属性を設定する属性設定手段と、
前記属性設定手段により属性を設定されたキーワードを含むインデックスデータを生成するインデックスデータ生成手段と、
を備えることを特徴とする情報検索装置。